Cartesia hat gerade Sonic-3 veröffentlicht, ihr neues Flaggschiff-Modell für Text-zu-Sprache in Echtzeit. Sonic-3 bietet Text-zu-Sprache-Streaming mit eingebauten prosodischen Elementen wie Lachen sowie Emotionen wie Überraschung und Neugier. Das neue Modell unterstützt 42 Sprachen, darunter 9 indische Sprachen. Sonic-3 nutzt eine State Space Model (SSM)-Architektur, ähnlich wie die vorherigen Veröffentlichungen von Cartesia. Cartesia ist führend in der Verwendung von SSMs, während andere Modelle typischerweise auf transformerbasierte Architekturen setzen. SSMs sind im Allgemeinen rechen- und speichereffizienter, was wahrscheinlich zur vergleichsweise beeindruckenden Latenz von Sonic-3 beiträgt. Cartesia bietet ein Abonnement- und Kreditpreismodell an, das von 0 $ pro Monat für die persönliche Nutzung bis zu 299 $ pro Monat für ihr Scale-Paket reicht. Sonic-3 wurde der Artificial Analysis Text-to-Speech Arena für die Abstimmung nach Vorlieben von Blinden hinzugefügt. Hören Sie sich die Beispielclips unten an 🎧