Inworld TTS 1 Max ist der neue Führer auf der Rangliste der Artificial Analysis Speech Arena und hat die Speech-02-Serie von MiniMax sowie die TTS-1-Serie von OpenAI übertroffen. Die Artificial Analysis Speech Arena bewertet führende Text-to-Speech-Modelle basierend auf menschlichen Vorlieben. In der Arena vergleichen die Nutzer zwei generierte Sprachstücke nebeneinander und wählen ihre bevorzugte Ausgabe aus, ohne zu wissen, welche Modelle sie erstellt haben. Die Spracharena umfasst Aufforderungen aus vier realen Kategorien: Kundenservice, Wissensaustausch, digitale Assistenten und Unterhaltung. Inworld TTS 1 Max und Inworld TTS 1 unterstützen beide 12 Sprachen, darunter Englisch, Spanisch, Französisch, Koreanisch und Chinesisch, sowie die Sprachklonung von 2-15 Sekunden Audio. Inworld TTS 1 verarbeitet im Durchschnitt ~153 Zeichen pro Sekunde Generationszeit, während das größere Modell, Inworld TTS 1 Max, im Durchschnitt ~69 Zeichen verarbeitet. Beide Modelle unterstützen auch Sprach-Tags, die es den Nutzern ermöglichen, Emotionen, Lieferstil und nonverbale Geräusche wie „flüstern“, „husten“ und „überrascht“ hinzuzufügen. Sowohl TTS-1 als auch TTS-1-Max sind transformerbasierte, autoregressive Modelle, die LLaMA-3.2-1B bzw. LLaMA-3.1-8B als ihre SpeechLM-Rückgrate verwenden. Sehen Sie sich die führenden Modelle in der Spracharena an und hören Sie sich die Beispielclips unten an 🎧
Beispielaufforderung zu Inworld TTS 1 Max: „Ihr Mikrobiom im Darm enthält Billionen von Bakterien, die die Verdauung, die Immunität und sogar die psychische Gesundheit über die Darm-Hirn-Achse beeinflussen.“
Inworld TTS 1 verarbeitet im Durchschnitt ~153 Zeichen pro Sekunde an Generationszeit, während Inworld TTS 1 Max im Durchschnitt ~69 Zeichen verarbeitet.
40,4K