Inworld TTS 1 Max är den nya ledaren på Artificial Analysis Speech Arena Leaderboard, och överträffar MiniMax Speech-02-serie och OpenAI:s TTS-1-serie Artificial Analysis Speech Arena rankar ledande text-till-tal-modeller baserade på mänskliga preferenser. På arenan jämför användarna två stycken genererat tal sida vid sida och väljer sina föredragna utdata utan att veta vilka modeller som skapade dem. Talarenan innehåller uppmaningar i fyra verkliga kategorier av uppmaningar: Kundtjänst, Kunskapsdelning, Digitala assistenter och Underhållning. Inworld TTS 1 Max och Inworld TTS 1 stöder båda 12 språk inklusive engelska, spanska, franska, koreanska och kinesiska, och röstkloning från 2-15 sekunders ljud. Inworld TTS 1 bearbetar ~153 tecken per sekund av generationstiden i genomsnitt, med den större modellen, Inworld TTS 1 Max-bearbetning ~69 tecken i genomsnitt. Båda modellerna har också stöd för röstmärken, vilket gör det möjligt för användare att lägga till känslor, leveransstil och icke-verbala ljud, som "viskning", "hosta" och "förvånad". Både TTS-1 och TTS-1-Max är transformatorbaserade, autoregressiva modeller som använder LLaMA-3.2-1B respektive LLaMA-3.1-8B som sina SpeechLM-ryggrader. Se de ledande modellerna i Talarenan och lyssna på exempelklipp nedan 🎧
Exempel på Inworld TTS 1 Max: "Din tarmmikrobiom innehåller biljoner bakterier som påverkar matsmältningen, immuniteten och till och med den mentala hälsan genom tarm-hjärna-axeln."
Inworld TTS 1 bearbetar ~153 tecken per sekund av generationstiden i genomsnitt, med Inworld TTS 1 Max bearbetar ~69 tecken i genomsnitt.
48,01K