Cohere推出专门用于转录的开源语音模型

企业人工智能公司Cohere周四推出了其第一个语音模型:Transcribe是一种开源自动语音识别模型,可用于记笔记和语音分析等任务。
该模型相对较轻,只有20亿个参数,适合那些想要自行托管它的人与消费级GPU一起使用。目前支持14种语言:英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。
Cohere表示,Transcribe在Hugging Face Open ASR排行榜上击败了Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B Speech等模型,平均单词错误率 (WER) 为5.42,低于基准测试中的任何其他模型。
该公司声称,当人类评估人员评估其转录的准确性、连贯性和可用性时,Transcribe的平均胜率比其他模型高出61%。然而,当该模型必须转录葡萄牙语、德语和西班牙语时,它落后于竞争对手。
Cohere表示,Transcribe一分钟可以处理525分钟的音频,这对于同类型号来说是很高的。
该公司计划将Transcribe集成到其企业代理编排平台North中,并通过其API免费提供该模型。该模型还将在Cohere的托管推理平台Model Vault上提供。
随着对Granola和Wispr Flow等笔记和听写应用程序的需求不断增长,语音识别模型变得越来越受欢迎。