O Whisper já não detém a coroa de precisão de transcrição de pesos abertos, com novos concorrentes a alcançarem melhores pontuações na Taxa de Erro de Palavra de Análise Artificial (AA-WER). Uma vez considerado a escolha padrão para transcrição de pesos abertos, o Whisper da OpenAI foi agora ultrapassado por modelos mais novos de pesos abertos no benchmark da Taxa de Erro de Palavra de Análise Artificial (AA-WER), que mede a precisão da transcrição. A AA-WER compreende três conjuntos de dados desafiadores alinhados com casos de uso do mundo real: AMI-SDM (reuniões de múltiplos oradores), Earnings-22 (chamadas de resultados) e VoxPopuli (proceedings parlamentares). Os melhores desempenhos em pesos abertos: @NVIDIA’s Canary Qwen 2.5B e Parakeet TDT 0.6B V2, seguidos por @Mistral’s Voxtral Small e Mini, e @IBM Granite Speech 3.3 8B. Os modelos de Fala para Texto de pesos abertos oferecem flexibilidade de implementação, benefícios de custo, potencial para personalização/ajuste fino e permitem casos de uso como cargas de trabalho sensíveis à privacidade que precisam ser executadas localmente.