Whisper більше не носить корону точності транскрипції з відкритими вагами, оскільки нові учасники досягають кращих показників коефіцієнта помилок у словах зі штучним аналізом Колись вважався вибором за замовчуванням для транскрипції відкритих ваг, але тепер Whisper від OpenAI перевершили новіші моделі відкритих ваг за еталонним показником швидкості помилок у словах штучного аналізу (AA-WER), що вимірює точність транскрипції. AA-WER складається з трьох складних наборів даних, узгоджених з реальними випадками використання: AMI-SDM (зустрічі з кількома спікерами), Earnings-22 (дзвінки про заробіток) і VoxPopuli (парламентські матеріали). Найкращі гравці з відкритими вагами: @NVIDIA Canary Qwen 2.5B і Parakeet TDT 0.6B V2, @Mistral йдуть Voxtral Small і Mini, а також @IBM Granite Speech 3.3 8B. Моделі перетворення мовлення в текст з відкритими вагами пропонують гнучкість розгортання, економічні вигоди, потенціал для налаштування/точного налаштування, а також дозволяють використовувати такі випадки використання, як чутливі до конфіденційності робочі навантаження, які мають виконуватися локально.