Cartesia tocmai a lansat Sonic-3, noul lor model emblematic Text to Speech pentru conversații în timp real Sonic-3 oferă streaming Text to Speech cu elemente prozodice încorporate, cum ar fi râsul, precum și emoții precum surpriza și curiozitatea. Noul model acceptă 42 de limbi, inclusiv 9 limbi indiene. Sonic-3 folosește o arhitectură de model spațial de stat (SSM) ca versiunile anterioare ale Cartesia. Cartesia a fost lider în utilizarea SSM-urilor, alte modele folosind de obicei arhitecturi bazate pe transformatoare. SSM-urile sunt, în general, mai eficiente în calcul și memorie, ceea ce probabil contribuie la latența relativ impresionantă a Sonic-3. Cartesia oferă un model de prețuri pentru abonamente și credite variind de la 0 USD pe lună pentru uz personal, până la 299 USD pe lună pentru pachetul lor Scale. Sonic-3 a fost adăugat la Artificial Analysis Text to Speech Arena pentru votul cu preferințe oarbe. Ascultați exemplele de clipuri de mai jos 🎧