Cartesia только что выпустила Sonic-3, свою новую флагманскую модель Text to Speech для реального времени Sonic-3 обеспечивает потоковую передачу Text to Speech с встроенными просодическими элементами, такими как смех, а также эмоциями, такими как удивление и любопытство. Новая модель поддерживает 42 языка, включая 9 индийских языков. Sonic-3 использует архитектуру State Space Model (SSM), как и предыдущие релизы Cartesia. Cartesia является лидером в использовании SSM, в то время как другие модели обычно используют архитектуры на основе трансформеров. SSM обычно более эффективны по вычислительным ресурсам и памяти, что, вероятно, способствует сравнительно впечатляющей задержке Sonic-3. Cartesia предлагает модель подписки и кредитов с ценами от 0 долларов в месяц для личного использования до 299 долларов в месяц для их пакета Scale. Sonic-3 был добавлен в Arena Artificial Analysis Text to Speech для голосования по предпочтениям слепых. Слушайте образцы ниже 🎧