Whisper ya no ostenta la corona de precisión de transcripción de pesos abiertos, ya que nuevos participantes han logrado mejores puntuaciones en la Tasa de Error de Palabras de Análisis Artificial (AA-WER). Una vez considerado la opción predeterminada para la transcripción de pesos abiertos, Whisper de OpenAI ha sido superado por modelos más nuevos de pesos abiertos en el benchmark de Tasa de Error de Palabras de Análisis Artificial (AA-WER) que mide la precisión de la transcripción. AA-WER comprende tres conjuntos de datos desafiantes alineados con casos de uso del mundo real: AMI-SDM (reuniones de múltiples oradores), Earnings-22 (llamadas de ganancias) y VoxPopuli (procedimientos parlamentarios). Los mejores intérpretes de pesos abiertos: el Canary Qwen 2.5B de @NVIDIA y el Parakeet TDT 0.6B V2, seguidos por el Voxtral Small y Mini de @Mistral, y el Granite Speech 3.3 8B de @IBM. Los modelos de Conversión de Voz a Texto de pesos abiertos ofrecen flexibilidad de implementación, beneficios de costo, el potencial de personalización/ajuste fino, y permiten casos de uso como cargas de trabajo sensibles a la privacidad que necesitan ejecutarse localmente.