Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Whisper không còn giữ vương miện về độ chính xác phiên âm trọng số mở với những người mới tham gia đạt được điểm số Tỷ lệ Lỗi Từ Phân Tích Nhân Tạo (AA-WER) tốt hơn. Trước đây được coi là lựa chọn mặc định cho phiên âm trọng số mở, Whisper của OpenAI hiện đã bị vượt qua bởi các mô hình trọng số mở mới hơn trên tiêu chuẩn Tỷ lệ Lỗi Từ Phân Tích Nhân Tạo (AA-WER) đo lường độ chính xác phiên âm. AA-WER bao gồm ba tập dữ liệu thách thức liên quan đến các trường hợp sử dụng thực tế: AMI-SDM (cuộc họp nhiều người nói), Earnings-22 (cuộc gọi thu nhập), và VoxPopuli (các phiên họp quốc hội). Các nhà sản xuất trọng số mở hàng đầu: Canary Qwen 2.5B của @NVIDIA và Parakeet TDT 0.6B V2, tiếp theo là Voxtral Small và Mini của @Mistral, và Granite Speech 3.3 8B của @IBM. Các mô hình Phiên âm Giọng nói thành Văn bản trọng số mở cung cấp sự linh hoạt trong triển khai, lợi ích về chi phí, tiềm năng tùy chỉnh/tinh chỉnh, và cho phép các trường hợp sử dụng như khối lượng công việc nhạy cảm về quyền riêng tư cần chạy cục bộ.

Hàng đầu

Thứ hạng

Yêu thích