Inworld TTS 1 Max on uusi johtaja Artificial Analysis Speech Arena -tulostaulukossa, ohittaen MiniMaxin Speech-02-sarjan ja OpenAI:n TTS-1-sarjan Artificial Analysis Speech Arena luokittelee johtavat tekstistä puheeksi -mallit ihmisten mieltymysten perusteella. Areenalla käyttäjät vertailevat kahta luotua puhetta vierekkäin ja valitsevat haluamansa tuotoksen tietämättä, mitkä mallit ovat ne luoneet. Puheareena sisältää kehotteita neljässä todellisessa kehoteluokassa: asiakaspalvelu, tiedon jakaminen, digitaaliset avustajat ja viihde. Inworld TTS 1 Max ja Inworld TTS 1 tukevat molemmat 12 kieltä, mukaan lukien englanti, espanja, ranska, korea ja kiina, sekä äänen kloonausta 2–15 sekunnin äänen välillä. Inworld TTS 1 käsittelee keskimäärin ~153 merkkiä sekunnissa sukupolviajasta, ja suurempi malli, Inworld TTS 1 Max, käsittelee keskimäärin ~69 merkkiä. Molemmat mallit tukevat myös äänitunnisteita, joiden avulla käyttäjät voivat lisätä tunteita, toimitustyyliä ja ei-verbaalisia ääniä, kuten "kuiskaus", "yskä" ja "yllättynyt". Sekä TTS-1 että TTS-1-Max ovat muuntajapohjaisia, autoregressiivisiä malleja, jotka käyttävät LLaMA-3.2-1B:tä ja LLaMA-3.1-8B:tä SpeechLM-runkoverkkonaan. Tutustu Speech Arenan johtaviin malleihin ja kuuntele alla 🎧 olevat esimerkkileikkeet
Esimerkkikehote Inworld TTS 1 Maxista: "Suoliston mikrobiomi sisältää biljoonia bakteereja, jotka vaikuttavat ruoansulatukseen, immuniteettiin ja jopa mielenterveyteen suolisto-aivoakselin kautta."
Inworld TTS 1 käsittelee keskimäärin ~153 merkkiä sekunnissa sukupolviajasta, kun taas Inworld TTS 1 Max käsittelee keskimäärin ~69 merkkiä.
40,42K