Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inworld TTS 1 Max jest nowym liderem na liście liderów w Arenie Mowy Analizy Sztucznej, wyprzedzając serię Mowy-02 MiniMax oraz serię TTS-1 OpenAI.
Arena Mowy Analizy Sztucznej ocenia wiodące modele Text to Speech na podstawie preferencji ludzi. W arenie użytkownicy porównują dwa wygenerowane fragmenty mowy obok siebie i wybierają preferowany wynik, nie wiedząc, które modele je stworzyły. Arena mowy obejmuje podpowiedzi w czterech rzeczywistych kategoriach: Obsługa Klienta, Dzielenie się Wiedzą, Cyfrowi Asystenci oraz Rozrywka.
Inworld TTS 1 Max i Inworld TTS 1 obsługują 12 języków, w tym angielski, hiszpański, francuski, koreański i chiński, oraz klonowanie głosu z 2-15 sekund audio. Inworld TTS 1 przetwarza średnio ~153 znaki na sekundę czasu generacji, podczas gdy większy model, Inworld TTS 1 Max, przetwarza średnio ~69 znaków. Oba modele obsługują również tagi głosowe, umożliwiając użytkownikom dodawanie emocji, stylu dostarczania i dźwięków niewerbalnych, takich jak „szept”, „kaszel” i „zdziwienie”.
Zarówno TTS-1, jak i TTS-1-Max są modelami opartymi na transformatorach, autoregresywnymi, wykorzystującymi LLaMA-3.2-1B i LLaMA-3.1-8B jako swoje podstawy SpeechLM.
Zobacz wiodące modele w Arenie Mowy i posłuchaj próbek poniżej 🎧

Przykładowy komunikat na Inworld TTS 1 Max: „Twoja mikroflora jelitowa zawiera tryliony bakterii, które wpływają na trawienie, odporność, a nawet zdrowie psychiczne poprzez oś jelitowo-mózgową.”
Inworld TTS 1 przetwarza średnio ~153 znaki na sekundę czasu generacji, podczas gdy Inworld TTS 1 Max przetwarza średnio ~69 znaków.

40,4K
Najlepsze
Ranking
Ulubione

