Inworld TTS 1 Max 是人工分析語音競技場排行榜的新領導者,超越了 MiniMax 的 Speech-02 系列和 OpenAI 的 TTS-1 系列。 人工分析語音競技場根據人類偏好對領先的文本轉語音模型進行排名。在競技場中,用戶並不知道是哪些模型生成的,將兩段生成的語音並排比較並選擇他們偏好的輸出。語音競技場包括四個現實世界類別的提示:客戶服務、知識分享、數位助理和娛樂。 Inworld TTS 1 Max 和 Inworld TTS 1 都支持包括英語、西班牙語、法語、韓語和中文在內的 12 種語言,並能從 2-15 秒的音頻中進行聲音克隆。Inworld TTS 1 的生成時間平均處理約 153 個字符,而較大的模型 Inworld TTS 1 Max 平均處理約 69 個字符。這兩個模型還支持語音標籤,允許用戶添加情感、傳遞風格和非語言聲音,例如「低語」、「咳嗽」和「驚訝」。 TTS-1 和 TTS-1-Max 都是基於變壓器的自回歸模型,分別使用 LLaMA-3.2-1B 和 LLaMA-3.1-8B 作為其 SpeechLM 的骨幹。 查看語音競技場中的領先模型,並在下面收聽示例片段 🎧
Inworld TTS 1 Max 的範例提示: “你的腸道微生物群含有數兆細菌,這些細菌通過腸腦軸影響消化、免疫,甚至心理健康。”
Inworld TTS 1 平均每秒處理約 153 個字符的生成時間,Inworld TTS 1 Max 平均處理約 69 個字符。
40.41K