Whisper już nie nosi korony dokładności transkrypcji wag otwartych, ponieważ nowi uczestnicy osiągają lepsze wyniki w zakresie wskaźnika błędów słów w analizie sztucznej. Kiedyś uważany za domyślny wybór dla transkrypcji wag otwartych, Whisper od OpenAI został teraz wyprzedzony przez nowsze modele wag otwartych w benchmarku wskaźnika błędów słów w analizie sztucznej (AA-WER), który mierzy dokładność transkrypcji. AA-WER składa się z trzech trudnych zbiorów danych dostosowanych do rzeczywistych przypadków użycia: AMI-SDM (spotkania wieloosobowe), Earnings-22 (konferencje dotyczące wyników) oraz VoxPopuli (posiedzenia parlamentarne). Najlepsi wykonawcy wag otwartych: @NVIDIA Canary Qwen 2.5B i Parakeet TDT 0.6B V2, a następnie @Mistral Voxtral Small i Mini oraz @IBM Granite Speech 3.3 8B. Modele mowy na tekst oparte na wagach otwartych oferują elastyczność wdrożenia, korzyści kosztowe, potencjał do dostosowywania/finetuningu oraz umożliwiają przypadki użycia, takie jak obciążenia wrażliwe na prywatność, które muszą działać lokalnie.