O Inworld TTS 1 Max é o novo líder na Tabela de Classificação da Arena de Fala de Análise Artificial, superando a série Speech-02 da MiniMax e a série TTS-1 da OpenAI A Arena de Fala de Análise Artificial classifica os principais modelos de Texto para Fala com base nas preferências humanas. Na arena, os usuários comparam duas partes da fala gerada lado a lado e selecionam sua saída preferida sem saber quais modelos as criaram. A arena de fala inclui prompts em quatro categorias reais de prompts: Atendimento ao Cliente, Compartilhamento de Conhecimento, Assistentes Digitais e Entretenimento. O Inworld TTS 1 Max e o Inworld TTS 1 suportam 12 idiomas, incluindo inglês, espanhol, francês, coreano e chinês, e clonagem de voz de 2 a 15 segundos de áudio. O Inworld TTS 1 processa ~153 caracteres por segundo de tempo de geração em média, com o modelo maior, Inworld TTS 1 Max, processando ~69 caracteres em média. Ambos os modelos também suportam tags de voz, permitindo que os usuários adicionem emoção, estilo de entrega e sons não verbais, como "sussurro", "tosse" e "surpreso". Tanto o TTS-1 quanto o TTS-1-Max são modelos autorregressivos baseados em transformadores que empregam LLaMA-3.2-1B e LLaMA-3.1-8B, respectivamente, como seus backbones SpeechLM. Veja os principais modelos na Arena de Fala e ouça os clipes de amostra abaixo 🎧
Exemplo de prompt no Inworld TTS 1 Max: "Seu microbioma intestinal contém trilhões de bactérias que influenciam a digestão, a imunidade e até a saúde mental por meio do eixo intestino-cérebro."
O Inworld TTS 1 processa ~153 caracteres por segundo de tempo de geração em média, com o Inworld TTS 1 Max processando ~69 caracteres em média.
40,41K