Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inworld TTS 1 Max là nhà lãnh đạo mới trên Bảng xếp hạng Arena Phân tích Giọng nói Nhân tạo, vượt qua dòng Speech-02 của MiniMax và dòng TTS-1 của OpenAI.
Arena Phân tích Giọng nói Nhân tạo xếp hạng các mô hình Text to Speech hàng đầu dựa trên sở thích của con người. Trong arena, người dùng so sánh hai đoạn giọng nói được tạo ra cạnh nhau và chọn đầu ra mà họ ưa thích mà không biết mô hình nào đã tạo ra chúng. Arena giọng nói bao gồm các gợi ý trong bốn danh mục thực tế: Dịch vụ Khách hàng, Chia sẻ Kiến thức, Trợ lý Kỹ thuật số và Giải trí.
Inworld TTS 1 Max và Inworld TTS 1 đều hỗ trợ 12 ngôn ngữ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Hàn và tiếng Trung, và khả năng sao chép giọng nói từ 2-15 giây âm thanh. Inworld TTS 1 xử lý ~153 ký tự mỗi giây thời gian tạo ra trung bình, trong khi mô hình lớn hơn, Inworld TTS 1 Max xử lý ~69 ký tự trung bình. Cả hai mô hình cũng hỗ trợ thẻ giọng nói, cho phép người dùng thêm cảm xúc, phong cách giao tiếp và âm thanh phi ngôn ngữ, chẳng hạn như "thì thầm", "ho", và "ngạc nhiên".
Cả TTS-1 và TTS-1-Max đều là các mô hình tự hồi quy dựa trên transformer sử dụng LLaMA-3.2-1B và LLaMA-3.1-8B tương ứng làm xương sống SpeechLM của chúng.
Xem các mô hình hàng đầu trong Arena Giọng nói, và nghe các đoạn mẫu bên dưới 🎧

Mẫu câu trên Inworld TTS 1 Max: “Hệ vi sinh vật đường ruột của bạn chứa hàng triệu vi khuẩn ảnh hưởng đến tiêu hóa, miễn dịch, và thậm chí cả sức khỏe tâm thần thông qua trục ruột-não.”
Inworld TTS 1 xử lý khoảng ~153 ký tự mỗi giây trong thời gian tạo trung bình, với Inworld TTS 1 Max xử lý khoảng ~69 ký tự trung bình.

40,4K
Hàng đầu
Thứ hạng
Yêu thích

