Cartesia刚刚发布了Sonic-3,这是他们的新旗舰实时对话文本转语音模型。 Sonic-3提供了带有内置韵律元素(如笑声)以及惊讶和好奇等情感的文本转语音流媒体。新模型支持42种语言,包括9种印度语言。 Sonic-3利用了与Cartesia之前发布的产品相同的状态空间模型(SSM)架构。Cartesia在使用SSM方面一直处于领先地位,而其他模型通常使用基于变换器的架构。SSM通常在计算和内存效率上更高,这可能有助于Sonic-3相对令人印象深刻的延迟表现。 Cartesia提供了一种订阅和积分定价模型,个人使用每月最低为0美元,Scale套餐每月最高为299美元。 Sonic-3已被添加到人工分析文本转语音竞技场,以供盲人偏好投票。 请在下面收听样本片段 🎧