A Cartesia acaba de lançar o Sonic-3, seu novo modelo Text to Speech para conversação em tempo real O Sonic-3 oferece streaming de texto para fala com elementos prosódicos integrados, como risos, bem como emoções como surpresa e curiosidade. O novo modelo suporta 42 idiomas, incluindo 9 idiomas indianos. O Sonic-3 aproveita uma arquitetura State Space Model (SSM) como as versões anteriores do Cartesia. A Cartesia tem sido líder no uso de SSMs, com outros modelos normalmente usando arquiteturas baseadas em transformadores. Os SSMs geralmente são mais eficientes em termos de computação e memória, o que provavelmente contribui para a latência comparativamente impressionante do Sonic-3. A Cartesia oferece um modelo de preços de assinatura e créditos que varia de US$ 0 por mês para uso pessoal até US$ 299 por mês para o pacote Scale. O Sonic-3 foi adicionado à Arena de Análise Artificial de Texto para Fala para votação de preferência cega. Ouça os clipes de amostra abaixo 🎧