Inworld TTS 1 Max es el nuevo líder en la tabla de clasificación de la Arena de Análisis de Voz Artificial, superando a la serie Speech-02 de MiniMax y a la serie TTS-1 de OpenAI. La Arena de Análisis de Voz Artificial clasifica los principales modelos de Texto a Voz en función de las preferencias humanas. En la arena, los usuarios comparan dos piezas de voz generada lado a lado y seleccionan su salida preferida sin saber qué modelos las crearon. La arena de voz incluye indicaciones en cuatro categorías del mundo real: Servicio al Cliente, Compartición de Conocimientos, Asistentes Digitales y Entretenimiento. Inworld TTS 1 Max e Inworld TTS 1 admiten 12 idiomas, incluidos inglés, español, francés, coreano y chino, y clonación de voz de 2 a 15 segundos de audio. Inworld TTS 1 procesa aproximadamente 153 caracteres por segundo de tiempo de generación en promedio, mientras que el modelo más grande, Inworld TTS 1 Max, procesa aproximadamente 69 caracteres en promedio. Ambos modelos también admiten etiquetas de voz, lo que permite a los usuarios agregar emoción, estilo de entrega y sonidos no verbales, como "susurros", "tos" y "sorpresa". Tanto TTS-1 como TTS-1-Max son modelos autoregresivos basados en transformadores que emplean LLaMA-3.2-1B y LLaMA-3.1-8B respectivamente como sus espinas dorsales de SpeechLM. Consulta los modelos líderes en la Arena de Voz y escucha clips de muestra a continuación 🎧
Ejemplo de aviso sobre Inworld TTS 1 Max: “Tu microbioma intestinal contiene billones de bacterias que influyen en la digestión, la inmunidad e incluso en la salud mental a través del eje intestino-cerebro.”
Inworld TTS 1 procesa ~153 caracteres por segundo de tiempo de generación en promedio, con Inworld TTS 1 Max procesando ~69 caracteres en promedio.
48,01K