Cohere推出专门用于转录的开源语音模型

企业人工智能公司Cohere周四推出了其第一个语音模型:Transcribe是一种开源自动语音识别模型,可用于记笔记和语音分析等任务。

该模型相对较轻,只有20亿个参数,适合那些想要自行托管它的人与消费级GPU一起使用。目前支持14种语言:英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。

Cohere表示,Transcribe在Hugging Face Open ASR排行榜上击败了Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B Speech等模型,平均单词错误率 (WER) 为5.42,低于基准测试中的任何其他模型。

该公司声称,当人类评估人员评估其转录的准确性、连贯性和可用性时,Transcribe的平均胜率比其他模型高出61%。然而,当该模型必须转录葡萄牙语、德语和西班牙语时,它落后于竞争对手。

Cohere表示,Transcribe一分钟可以处理525分钟的音频,这对于同类型号来说是很高的。

该公司计划将Transcribe集成到其企业代理编排平台North中,并通过其API免费提供该模型。该模型还将在Cohere的托管推理平台Model Vault上提供。

随着对Granola和Wispr Flow等笔记和听写应用程序的需求不断增长,语音识别模型变得越来越受欢迎。

← 上一篇文章 WhatsApp现在可以据您的对话起草人工智能生成的回复 下一篇文章 → Conntour从General Catalyst和YC筹集了700万美元,用于构建用于安全视频系统的人工智能搜索引擎

← 返回列表