Whisper trägt nicht mehr die Krone der Transkriptionsgenauigkeit für offene Gewichte, da neue Teilnehmer bessere Ergebnisse bei der Künstlichen Analyse der Wortfehlerrate (AA-WER) erzielen. Einst als die Standardwahl für offene Gewichte angesehen, wurde OpenAIs Whisper nun von neueren Modellen mit offenen Gewichten im AA-WER-Benchmark übertroffen, der die Transkriptionsgenauigkeit misst. AA-WER umfasst drei herausfordernde Datensätze, die mit realen Anwendungsfällen übereinstimmen: AMI-SDM (Mehrsprecherbesprechungen), Earnings-22 (Earnings Calls) und VoxPopuli (parlamentarische Verfahren). Die besten Performer mit offenen Gewichten: @NVIDIA’s Canary Qwen 2.5B und Parakeet TDT 0.6B V2, gefolgt von @Mistral’s Voxtral Small und Mini sowie @IBM Granite Speech 3.3 8B. Modelle für die Sprach-zu-Text-Umsetzung mit offenen Gewichten bieten Flexibilität bei der Bereitstellung, Kostenvorteile, die Möglichkeit zur Anpassung/Feinabstimmung und ermöglichen Anwendungsfälle wie datenschutzempfindliche Arbeitslasten, die lokal ausgeführt werden müssen.