Inworld TTS 1 Max este noul lider în clasamentul Artificial Analysis Speech Arena, depășind seria Speech-02 de la MiniMax și seria TTS-1 de la OpenAI Artificial Analysis Speech Arena clasifică principalele modele Text to Speech pe baza preferințelor umane. În arenă, utilizatorii compară două bucăți de vorbire generate una lângă alta și își selectează rezultatul preferat fără a ști ce modele le-au creat. Arena de vorbire include solicitări în patru categorii de solicitări din lumea reală: Serviciu clienți, Partajare cunoștințe, Asistenți digitali și Divertisment. Inworld TTS 1 Max și Inworld TTS 1 acceptă ambele 12 limbi, inclusiv engleză, spaniolă, franceză, coreeană și chineză și clonarea vocii de la 2-15 secunde de sunet. Inworld TTS 1 procesează în medie ~153 de caractere pe secundă din timpul de generare, modelul mai mare, Inworld TTS 1 Max, procesând în medie ~69 de caractere. Ambele modele acceptă, de asemenea, etichete vocale, permițând utilizatorilor să adauge emoții, stil de livrare și sunete non-verbale, cum ar fi "șoaptă", "tuse" și "surprins". Atât TTS-1, cât și TTS-1-Max sunt modele autoregresive bazate pe transformatoare care utilizează LLaMA-3.2-1B și, respectiv, LLaMA-3.1-8B ca coloană vertebrală SpeechLM. Vezi modelele de top din Speech Arena și ascultă exemplele de clipuri de mai jos 🎧
Exemplu de solicitare pe Inworld TTS 1 Max: "Microbiomul tău intestinal conține trilioane de bacterii care influențează digestia, imunitatea și chiar sănătatea mintală prin axa intestin-creier."
Inworld TTS 1 procesează în medie ~153 de caractere pe secundă din timpul de generare, iar Inworld TTS 1 Max procesează în medie ~69 de caractere.
40,41K