Inworld TTS 1 Max — новый лидер в рейтинге Artificial Analysis Speech Arena, обогнавший серию Speech-02 от MiniMax и серию TTS-1 от OpenAI Artificial Analysis Speech Arena оценивает ведущие модели Text to Speech на основе предпочтений людей. В арене пользователи сравнивают два сгенерированных фрагмента речи бок о бок и выбирают предпочитаемый вариант, не зная, какие модели их создали. Арена речи включает подсказки в четырех реальных категориях: Обслуживание клиентов, Обмен знаниями, Цифровые помощники и Развлечения. Inworld TTS 1 Max и Inworld TTS 1 поддерживают 12 языков, включая английский, испанский, французский, корейский и китайский, а также клонирование голоса с 2 до 15 секунд аудио. Inworld TTS 1 обрабатывает в среднем ~153 символа в секунду времени генерации, в то время как большая модель, Inworld TTS 1 Max, обрабатывает в среднем ~69 символов. Обе модели также поддерживают голосовые теги, позволяя пользователям добавлять эмоции, стиль подачи и невербальные звуки, такие как "шептание", "кашель" и "удивление". Обе модели TTS-1 и TTS-1-Max являются трансформерными, авторегрессионными моделями, использующими LLaMA-3.2-1B и LLaMA-3.1-8B соответственно в качестве своих основ SpeechLM. Смотрите ведущие модели в Speech Arena и слушайте образцы ниже 🎧
Пример запроса на Inworld TTS 1 Max: "Ваш микробиом кишечника содержит триллионы бактерий, которые влияют на пищеварение, иммунитет и даже психическое здоровье через ось кишечник-мозг."
Inworld TTS 1 обрабатывает в среднем ~153 символа в секунду времени генерации, в то время как Inworld TTS 1 Max обрабатывает в среднем ~69 символов.
49,8K