Cartesia acaba de lanzar Sonic-3, su nuevo modelo insignia de Texto a Voz para conversaciones en tiempo real Sonic-3 ofrece transmisión de Texto a Voz con elementos prosódicos integrados como risas, así como emociones como sorpresa y curiosidad. El nuevo modelo admite 42 idiomas, incluidos 9 idiomas indios. Sonic-3 aprovecha una arquitectura de Modelo de Espacio de Estado (SSM) como las versiones anteriores de Cartesia. Cartesia ha sido un líder en el uso de SSM, mientras que otros modelos suelen utilizar arquitecturas basadas en transformadores. Los SSM son generalmente más eficientes en computación y memoria, lo que probablemente contribuye a la impresionante latencia de Sonic-3. Cartesia ofrece un modelo de precios de suscripción y créditos que va desde $0 por mes para uso personal, hasta $299 por mes para su paquete Scale. Sonic-3 se ha añadido a la Arena de Texto a Voz de Análisis Artificial para votación de preferencias de personas ciegas. Escucha fragmentos de muestra a continuación 🎧