Cartesia heeft zojuist Sonic-3 uitgebracht, hun nieuwe vlaggenschip Text-to-Speech-model voor realtime conversatie Sonic-3 levert Text-to-Speech-streaming met ingebouwde prosodische elementen zoals lachen, evenals emoties zoals verrassing en nieuwsgierigheid. Het nieuwe model ondersteunt 42 talen, waaronder 9 Indiase talen. Sonic-3 maakt gebruik van een State Space Model (SSM) architectuur, net als de eerdere releases van Cartesia. Cartesia is een leider in het gebruik van SSM's, terwijl andere modellen doorgaans transformer-gebaseerde architecturen gebruiken. SSM's zijn over het algemeen efficiënter in rekenkracht en geheugen, wat waarschijnlijk bijdraagt aan de relatief indrukwekkende latentie van Sonic-3. Cartesia biedt een abonnements- en creditsprijsmodel aan, variërend van $0 per maand voor persoonlijk gebruik tot $299 per maand voor hun Scale-pakket. Sonic-3 is toegevoegd aan de Artificial Analysis Text-to-Speech Arena voor blinde voorkeurstemmen. Luister naar voorbeeldfragmenten hieronder 🎧