Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Inworld TTS 1 Max jest nowym liderem na liście liderów w Arenie Mowy Analizy Sztucznej, wyprzedzając serię Mowy-02 MiniMax oraz serię TTS-1 OpenAI. Arena Mowy Analizy Sztucznej ocenia wiodące modele Text to Speech na podstawie preferencji ludzi. W arenie użytkownicy porównują dwa wygenerowane fragmenty mowy obok siebie i wybierają preferowany wynik, nie wiedząc, które modele je stworzyły. Arena mowy obejmuje podpowiedzi w czterech rzeczywistych kategoriach: Obsługa Klienta, Dzielenie się Wiedzą, Cyfrowi Asystenci oraz Rozrywka. Inworld TTS 1 Max i Inworld TTS 1 obsługują 12 języków, w tym angielski, hiszpański, francuski, koreański i chiński, oraz klonowanie głosu z 2-15 sekund audio. Inworld TTS 1 przetwarza średnio ~153 znaki na sekundę czasu generacji, podczas gdy większy model, Inworld TTS 1 Max, przetwarza średnio ~69 znaków. Oba modele obsługują również tagi głosowe, umożliwiając użytkownikom dodawanie emocji, stylu dostarczania i dźwięków niewerbalnych, takich jak „szept”, „kaszel” i „zdziwienie”. Zarówno TTS-1, jak i TTS-1-Max są modelami opartymi na transformatorach, autoregresywnymi, wykorzystującymi LLaMA-3.2-1B i LLaMA-3.1-8B jako swoje podstawy SpeechLM. Zobacz wiodące modele w Arenie Mowy i posłuchaj próbek poniżej 🎧

Przykładowy komunikat na Inworld TTS 1 Max: „Twoja mikroflora jelitowa zawiera tryliony bakterii, które wpływają na trawienie, odporność, a nawet zdrowie psychiczne poprzez oś jelitowo-mózgową.”

Inworld TTS 1 przetwarza średnio ~153 znaki na sekundę czasu generacji, podczas gdy Inworld TTS 1 Max przetwarza średnio ~69 znaków.

40,4K

Najlepsze

Ranking

Ulubione