Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Inworld TTS 1 Max é o novo líder na Tabela de Classificação da Arena de Fala de Análise Artificial, superando a série Speech-02 da MiniMax e a série TTS-1 da OpenAI
A Arena de Fala de Análise Artificial classifica os principais modelos de Texto para Fala com base nas preferências humanas. Na arena, os usuários comparam duas partes da fala gerada lado a lado e selecionam sua saída preferida sem saber quais modelos as criaram. A arena de fala inclui prompts em quatro categorias reais de prompts: Atendimento ao Cliente, Compartilhamento de Conhecimento, Assistentes Digitais e Entretenimento.
O Inworld TTS 1 Max e o Inworld TTS 1 suportam 12 idiomas, incluindo inglês, espanhol, francês, coreano e chinês, e clonagem de voz de 2 a 15 segundos de áudio. O Inworld TTS 1 processa ~153 caracteres por segundo de tempo de geração em média, com o modelo maior, Inworld TTS 1 Max, processando ~69 caracteres em média. Ambos os modelos também suportam tags de voz, permitindo que os usuários adicionem emoção, estilo de entrega e sons não verbais, como "sussurro", "tosse" e "surpreso".
Tanto o TTS-1 quanto o TTS-1-Max são modelos autorregressivos baseados em transformadores que empregam LLaMA-3.2-1B e LLaMA-3.1-8B, respectivamente, como seus backbones SpeechLM.
Veja os principais modelos na Arena de Fala e ouça os clipes de amostra abaixo 🎧

Exemplo de prompt no Inworld TTS 1 Max: "Seu microbioma intestinal contém trilhões de bactérias que influenciam a digestão, a imunidade e até a saúde mental por meio do eixo intestino-cérebro."
O Inworld TTS 1 processa ~153 caracteres por segundo de tempo de geração em média, com o Inworld TTS 1 Max processando ~69 caracteres em média.

40,41K
Melhores
Classificação
Favoritos

