Whisper不再是开放权重转录准确性之冠,因为新进入者在人工分析词错误率(AA-WER)得分上表现更佳。 曾被视为开放权重转录的默认选择,OpenAI的Whisper现在已被更新的开放权重模型超越,这些模型在测量转录准确性的人工分析词错误率(AA-WER)基准测试中表现更好。AA-WER包含三个与现实世界用例对齐的具有挑战性的数据集:AMI-SDM(多发言者会议)、Earnings-22(财报电话会议)和VoxPopuli(议会程序)。 顶级开放权重表现者:@NVIDIA的Canary Qwen 2.5B和Parakeet TDT 0.6B V2,随后是@Mistral的Voxtral Small和Mini,以及@IBM的Granite Speech 3.3 8B。 开放权重语音转文本模型提供了部署灵活性、成本效益、定制/微调的潜力,并支持需要在本地运行的隐私敏感工作负载等用例。