Inworld TTS 1 Max هي الشركة الرائدة الجديدة في لوحة المتصدرين في ساحة الكلام للتحليل الاصطناعي ، متجاوزة سلسلة MiniMax's Speech-02 وسلسلة TTS-1 من OpenAI تصنف ساحة كلام التحليل الاصطناعي نماذج تحويل النص إلى كلام الرائدة بناء على التفضيلات البشرية. في الساحة ، يقارن المستخدمون جزأين من الكلام الذي تم إنشاؤه جنبا إلى جنب ويختارون المخرجات المفضلة لديهم دون معرفة النماذج التي أنشأتها. تتضمن ساحة الكلام مطالبات عبر أربع فئات من المطالبات في العالم الحقيقي: خدمة العملاء ومشاركة المعرفة والمساعدين الرقميين والترفيه. يدعم كل من Inworld TTS 1 Max و Inworld TTS 1 12 لغة بما في ذلك الإنجليزية والإسبانية والفرنسية والكورية والصينية ، واستنساخ الصوت من 2-15 ثانية من الصوت. يعالج Inworld TTS 1 ~ 153 حرفا في الثانية من وقت التوليد في المتوسط ، مع النموذج الأكبر ، معالجة Inworld TTS 1 Max ~ 69 حرفا في المتوسط. يدعم كلا الطرازين أيضا العلامات الصوتية ، مما يسمح للمستخدمين بإضافة المشاعر وأسلوب التسليم والأصوات غير اللفظية ، مثل "الهمس" و "السعال" و "المفاجأة". كل من TTS-1 و TTS-1-Max عبارة عن نماذج ذاتية الانحراف تعتمد على المحولات تستخدم LLaMA-3.2-1B و LLaMA-3.1-8B على التوالي كعمود فقري ل SpeechLM. شاهد النماذج الرائدة في ساحة الكلام، واستمع إلى نماذج المقاطع أدناه 🎧
عينة موجه على Inworld TTS 1 Max: "يحتوي ميكروبيوم الأمعاء على تريليونات من البكتيريا التي تؤثر على الهضم والمناعة وحتى الصحة العقلية من خلال محور الأمعاء والدماغ."
يعالج Inworld TTS 1 ~ 153 حرفا في الثانية من وقت الإنشاء في المتوسط ، مع معالجة Inworld TTS 1 Max ~ 69 حرفا في المتوسط.
‏‎40.4‏K