微軟剛剛發布了 VibeVoice - 1.5B SoTA 文本轉語音模型 - MIT 許可 🔥 > 它可以生成長達 90 分鐘的音頻 > 支持同時生成超過 4 個說話者 > 正在推出串流媒體和更大的 7B 模型 > 能夠進行跨語言和歌唱合成 我喜歡這個模型的表現力和情感控制!向微軟致敬 🤗
123.27K