Inworld TTS 1 Max is de nieuwe leider op de Artificial Analysis Speech Arena Leaderboard, die de Speech-02 serie van MiniMax en de TTS-1 serie van OpenAI heeft overtroffen. De Artificial Analysis Speech Arena rangschikt toonaangevende Text to Speech-modellen op basis van menselijke voorkeuren. In de arena vergelijken gebruikers twee stukken gegenereerde spraak naast elkaar en selecteren ze hun voorkeur zonder te weten welke modellen ze hebben gemaakt. De spraakarena omvat prompts in vier categorieën uit de echte wereld: Klantenservice, Kennisdeling, Digitale Assistenten en Entertainment. Inworld TTS 1 Max en Inworld TTS 1 ondersteunen beide 12 talen, waaronder Engels, Spaans, Frans, Koreaans en Chinees, en spraakklonen van 2-15 seconden audio. Inworld TTS 1 verwerkt gemiddeld ~153 tekens per seconde aan generatie tijd, terwijl het grotere model, Inworld TTS 1 Max, gemiddeld ~69 tekens verwerkt. Beide modellen ondersteunen ook stemtags, waarmee gebruikers emotie, afleverstijl en non-verbale geluiden kunnen toevoegen, zoals "fluisteren", "hoesten" en "verrast". Zowel TTS-1 als TTS-1-Max zijn transformer-gebaseerde, autoregressieve modellen die respectievelijk LLaMA-3.2-1B en LLaMA-3.1-8B als hun SpeechLM-achtergronden gebruiken. Bekijk de toonaangevende modellen in de Speech Arena en luister naar voorbeeldfragmenten hieronder 🎧
Voorbeeldprompt op Inworld TTS 1 Max: “Je darmmicrobioom bevat triljoenen bacteriën die de spijsvertering, immuniteit en zelfs de mentale gezondheid beïnvloeden via de darm-hersen-as.”
Inworld TTS 1 verwerkt gemiddeld ~153 tekens per seconde aan generatie tijd, met Inworld TTS 1 Max die gemiddeld ~69 tekens verwerkt.
48,01K