Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inworld TTS 1 Max es el nuevo líder en la tabla de clasificación de la Arena de Análisis de Voz Artificial, superando a la serie Speech-02 de MiniMax y a la serie TTS-1 de OpenAI.
La Arena de Análisis de Voz Artificial clasifica los principales modelos de Texto a Voz en función de las preferencias humanas. En la arena, los usuarios comparan dos piezas de voz generada lado a lado y seleccionan su salida preferida sin saber qué modelos las crearon. La arena de voz incluye indicaciones en cuatro categorías del mundo real: Servicio al Cliente, Compartición de Conocimientos, Asistentes Digitales y Entretenimiento.
Inworld TTS 1 Max e Inworld TTS 1 admiten 12 idiomas, incluidos inglés, español, francés, coreano y chino, y clonación de voz de 2 a 15 segundos de audio. Inworld TTS 1 procesa aproximadamente 153 caracteres por segundo de tiempo de generación en promedio, mientras que el modelo más grande, Inworld TTS 1 Max, procesa aproximadamente 69 caracteres en promedio. Ambos modelos también admiten etiquetas de voz, lo que permite a los usuarios agregar emoción, estilo de entrega y sonidos no verbales, como "susurros", "tos" y "sorpresa".
Tanto TTS-1 como TTS-1-Max son modelos autoregresivos basados en transformadores que emplean LLaMA-3.2-1B y LLaMA-3.1-8B respectivamente como sus espinas dorsales de SpeechLM.
Consulta los modelos líderes en la Arena de Voz y escucha clips de muestra a continuación 🎧

Ejemplo de aviso sobre Inworld TTS 1 Max: “Tu microbioma intestinal contiene billones de bacterias que influyen en la digestión, la inmunidad e incluso en la salud mental a través del eje intestino-cerebro.”
Inworld TTS 1 procesa ~153 caracteres por segundo de tiempo de generación en promedio, con Inworld TTS 1 Max procesando ~69 caracteres en promedio.

40,4K
Parte superior
Clasificación
Favoritos

