AI资讯 / 发布于 2026.3.27 8:11

Mistral发布新的语音生成开源模型

法国人工智能公司Mistral周四发布了一种新的开源文本转语音模型，可供语音人工智能助手或客户支持等企业用例使用。该模型允许企业构建用于销售和客户参与的语音代理，使Mistral与ElevenLabs、Deepgram和OpenAI等公司直接竞争。

新模型名为Voxtral TTS，支持九种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

“我们的客户一直在寻求一个语音模型。因此，我们构建了一个小型语音模型，可以安装在智能手表、智能手机、笔记本电脑或其他边缘设备上。它的成本只是市场上其他任何产品的一小部分，但它提供了最先进的性能，”Mistral AI科学运营副总裁Pierre Stock在电话采访中告诉TechCrunch。

Mistral表示，新模型可以用不到五秒的样本来适应自定义语音，并可以捕获微妙的口音、语调变化、语调和语音流中的不规则性等特征。该模型基于Ministral3B，可以轻松地在语言之间切换，而不会丢失语音特征，这对于配音或实时翻译等用例非常有用。斯托克表示，该公司希望该模型听起来像人类而不是机器人。

据该公司称，该模型是为实时性能而构建的。对于500个字符的10秒样本，它的首次音频时间 (TTFA)（衡量模型在接收输入后开始“说话”的时间）为90毫秒。 The model also has a real-time factor (RTF) of 6x, which means it can render a 10-second clip in roughly 1.6 seconds.

今年早些时候，Mistral推出了一对转录模型，一个用于大批量处理，另一个用于低延迟的实时用例。通过新的语音模型，该公司的目标很可能是为企业提供全套语音产品。

“我们计划建立一个端到端平台，可以处理多模式输入流，包括音频、文本、图像和输出。这样做的主要好处是，您可以通过支持音频作为输入或输出的端到端代理系统获得更多信息，”斯托克说。

← 返回列表