Whisper draagt niet langer de kroon voor de nauwkeurigheid van open gewichten transcriptie, nu nieuwe deelnemers betere scores behalen op de Artificial Analysis Word Error Rate. Eens beschouwd als de standaardkeuze voor open gewichten transcriptie, is OpenAI's Whisper nu overtroffen door nieuwere modellen met open gewichten op de Artificial Analysis Word Error Rate (AA-WER) benchmark die de nauwkeurigheid van transcriptie meet. AA-WER bestaat uit drie uitdagende datasets die zijn afgestemd op real-world gebruikssituaties: AMI-SDM (meerdere sprekers vergaderingen), Earnings-22 (winstgesprekken) en VoxPopuli (parlementaire procedures). Top presteerders met open gewichten: @NVIDIA's Canary Qwen 2.5B en Parakeet TDT 0.6B V2, gevolgd door @Mistral's Voxtral Small en Mini, en @IBM Granite Speech 3.3 8B. Open gewichten Speech to Text modellen bieden flexibiliteit in implementatie, kostenvoordelen, de mogelijkheid voor maatwerk/fijn afstemmen, en maken gebruikssituaties mogelijk zoals privacygevoelige workloads die lokaal moeten draaien.