Cartesia 剛剛推出了 Sonic-3,這是他們的新旗艦即時對話文本轉語音模型。 Sonic-3 提供帶有內建韻律元素(如笑聲)以及驚訝和好奇等情感的文本轉語音串流。這個新模型支持 42 種語言,包括 9 種印度語言。 Sonic-3 採用了與 Cartesia 之前版本相同的狀態空間模型(SSM)架構。Cartesia 在使用 SSM 方面一直是領導者,而其他模型通常使用基於變壓器的架構。SSM 通常在計算和內存效率上更高,這可能有助於 Sonic-3 相對令人印象深刻的延遲。 Cartesia 提供訂閱和信用定價模型,個人使用每月最低 $0,最高可達 $299 的 Scale 套餐。 Sonic-3 已被添加到人工分析文本轉語音競技場,以供盲選偏好投票。 請聆聽下面的樣本片段 🎧