Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Inworld TTS 1 Max là nhà lãnh đạo mới trên Bảng xếp hạng Arena Phân tích Giọng nói Nhân tạo, vượt qua dòng Speech-02 của MiniMax và dòng TTS-1 của OpenAI. Arena Phân tích Giọng nói Nhân tạo xếp hạng các mô hình Text to Speech hàng đầu dựa trên sở thích của con người. Trong arena, người dùng so sánh hai đoạn giọng nói được tạo ra cạnh nhau và chọn đầu ra mà họ ưa thích mà không biết mô hình nào đã tạo ra chúng. Arena giọng nói bao gồm các gợi ý trong bốn danh mục thực tế: Dịch vụ Khách hàng, Chia sẻ Kiến thức, Trợ lý Kỹ thuật số và Giải trí. Inworld TTS 1 Max và Inworld TTS 1 đều hỗ trợ 12 ngôn ngữ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Hàn và tiếng Trung, và khả năng sao chép giọng nói từ 2-15 giây âm thanh. Inworld TTS 1 xử lý ~153 ký tự mỗi giây thời gian tạo ra trung bình, trong khi mô hình lớn hơn, Inworld TTS 1 Max xử lý ~69 ký tự trung bình. Cả hai mô hình cũng hỗ trợ thẻ giọng nói, cho phép người dùng thêm cảm xúc, phong cách giao tiếp và âm thanh phi ngôn ngữ, chẳng hạn như "thì thầm", "ho", và "ngạc nhiên". Cả TTS-1 và TTS-1-Max đều là các mô hình tự hồi quy dựa trên transformer sử dụng LLaMA-3.2-1B và LLaMA-3.1-8B tương ứng làm xương sống SpeechLM của chúng. Xem các mô hình hàng đầu trong Arena Giọng nói, và nghe các đoạn mẫu bên dưới 🎧

Mẫu câu trên Inworld TTS 1 Max: “Hệ vi sinh vật đường ruột của bạn chứa hàng triệu vi khuẩn ảnh hưởng đến tiêu hóa, miễn dịch, và thậm chí cả sức khỏe tâm thần thông qua trục ruột-não.”

Inworld TTS 1 xử lý khoảng ~153 ký tự mỗi giây trong thời gian tạo trung bình, với Inworld TTS 1 Max xử lý khoảng ~69 ký tự trung bình.

40,4K

Hàng đầu

Thứ hạng

Yêu thích