热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Inworld TTS 1 Max 是人工分析语音竞技场排行榜的新领军者,超越了 MiniMax 的 Speech-02 系列和 OpenAI 的 TTS-1 系列。
人工分析语音竞技场根据人类偏好对领先的文本转语音模型进行排名。在竞技场中,用户并排比较两段生成的语音,并在不知道是哪个模型生成的情况下选择他们更喜欢的输出。语音竞技场包括四个现实世界类别的提示:客户服务、知识共享、数字助理和娱乐。
Inworld TTS 1 Max 和 Inworld TTS 1 都支持包括英语、西班牙语、法语、韩语和中文在内的 12 种语言,并支持 2-15 秒音频的声音克隆。Inworld TTS 1 平均处理约 153 个字符的生成时间,而更大的模型 Inworld TTS 1 Max 平均处理约 69 个字符。这两个模型还支持语音标签,允许用户添加情感、传递风格和非语言声音,例如“低语”、“咳嗽”和“惊讶”。
TTS-1 和 TTS-1-Max 都是基于变换器的自回归模型,分别采用 LLaMA-3.2-1B 和 LLaMA-3.1-8B 作为其 SpeechLM 骨干。
查看语音竞技场中的领先模型,并在下面收听示例片段 🎧

Inworld TTS 1 Max 的示例提示: “你的肠道微生物组包含数万亿的细菌,这些细菌通过肠脑轴影响消化、免疫,甚至心理健康。”
Inworld TTS 1 平均每秒处理约 153 个字符的生成时间,而 Inworld TTS 1 Max 平均处理约 69 个字符。

48K
热门
排行
收藏

