AI资讯 / 发布于 2026.3.27 8:12

Cohere推出专门用于转录的开源语音模型

企业人工智能公司Cohere周四推出了其第一个语音模型：Transcribe是一种开源自动语音识别模型，可用于记笔记和语音分析等任务。

该模型相对较轻，只有20亿个参数，适合那些想要自行托管它的人与消费级GPU一起使用。目前支持14种语言：英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。

Cohere表示，Transcribe在Hugging Face Open ASR排行榜上击败了Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B Speech等模型，平均单词错误率 (WER) 为5.42，低于基准测试中的任何其他模型。

该公司声称，当人类评估人员评估其转录的准确性、连贯性和可用性时，Transcribe的平均胜率比其他模型高出61%。然而，当该模型必须转录葡萄牙语、德语和西班牙语时，它落后于竞争对手。

Cohere表示，Transcribe一分钟可以处理525分钟的音频，这对于同类型号来说是很高的。

该公司计划将Transcribe集成到其企业代理编排平台North中，并通过其API免费提供该模型。该模型还将在Cohere的托管推理平台Model Vault上提供。

随着对Granola和Wispr Flow等笔记和听写应用程序的需求不断增长，语音识别模型变得越来越受欢迎。

← 返回列表