Whisper 不再是開放權重轉錄準確度的冠軍,因為新進者在人工分析字錯誤率(AA-WER)得分上表現更佳。 曾經被視為開放權重轉錄的默認選擇,OpenAI 的 Whisper 現在已被更新的開放權重模型超越,這些模型在測量轉錄準確度的人工分析字錯誤率(AA-WER)基準上表現更好。AA-WER 包含三個與現實世界用例對齊的挑戰性數據集:AMI-SDM(多講者會議)、Earnings-22(財報電話會議)和 VoxPopuli(議會程序)。 頂尖的開放權重表現者:@NVIDIA 的 Canary Qwen 2.5B 和 Parakeet TDT 0.6B V2,接著是 @Mistral 的 Voxtral Small 和 Mini,以及 @IBM 的 Granite Speech 3.3 8B。 開放權重的語音轉文字模型提供部署靈活性、成本效益、定制/微調的潛力,並能支持需要在本地運行的隱私敏感工作負載的用例。