Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Inworld TTS 1 Max é o novo líder no Quadro de Líderes da Arena de Análise de Fala Artificial, superando a série Speech-02 da MiniMax e a série TTS-1 da OpenAI
A Arena de Análise de Fala Artificial classifica os principais modelos de Texto para Fala com base nas preferências humanas. Na arena, os usuários comparam duas peças de fala geradas lado a lado e selecionam a saída que preferem sem saber quais modelos as criaram. A arena de fala inclui prompts em quatro categorias do mundo real: Atendimento ao Cliente, Compartilhamento de Conhecimento, Assistentes Digitais e Entretenimento.
O Inworld TTS 1 Max e o Inworld TTS 1 suportam 12 idiomas, incluindo inglês, espanhol, francês, coreano e chinês, e clonagem de voz a partir de 2 a 15 segundos de áudio. O Inworld TTS 1 processa ~153 caracteres por segundo em média, enquanto o modelo maior, Inworld TTS 1 Max, processa ~69 caracteres em média. Ambos os modelos também suportam etiquetas de voz, permitindo que os usuários adicionem emoção, estilo de entrega e sons não verbais, como "sussurros", "tosse" e "surpresa".
Tanto o TTS-1 quanto o TTS-1-Max são modelos autoregressivos baseados em transformadores que utilizam LLaMA-3.2-1B e LLaMA-3.1-8B, respetivamente, como suas estruturas SpeechLM.
Veja os modelos líderes na Arena de Fala e ouça clipes de amostra abaixo 🎧

Exemplo de prompt no Inworld TTS 1 Max: “O seu microbioma intestinal contém trilhões de bactérias que influenciam a digestão, a imunidade e até a saúde mental através do eixo intestino-cérebro.”
O Inworld TTS 1 processa cerca de ~153 caracteres por segundo em tempo de geração, com o Inworld TTS 1 Max processando cerca de ~69 caracteres em média.

40,4K
Top
Classificação
Favoritos

