微软的 Bing 团队近日宣布开源其最新的词嵌入模型 “Harrier”。该模型在多语言 MTEB v2 基准测试中表现优异,支持超过 100 种语言,为用户提供了更为强大的语言处理能力。Harrier 的训练数据包括超过 20 亿个示例以及来自 GPT-5 的合成数据,采用了 32,000 个词元的上下文窗口,使其在多语言任务中具备更高的准确性和灵活性。

在参数配置上,Harrier 拥有一个完整的 27 亿参数版本,此外还推出了两个更小的版本,分别为 0.6 亿参数和 2.7 亿参数,旨在为低性能硬件的用户提供可行的解决方案。这三款模型均已在 Hugging Face 平台上以 MIT 许可证发布,方便开发者进行使用和集成。
嵌入模型在人工智能系统中扮演着至关重要的角色,尤其是在搜索、信息检索和数据组织等任务中。随着 AI 技术的发展,嵌入模型的需求愈加迫切,能够帮助 AI 代理独立处理更复杂的多步骤任务。因此,微软表示,Harrier 的发布将推动 AI 技术在各个领域的应用。
未来,微软计划将 Harrier 技术集成到 Bing 搜索引擎中,以及用于新一代 AI 代理的基础服务。这一战略将进一步提升 Bing 在 AI 领域的竞争力,满足用户对高效信息处理的需求。
划重点:
🌍 Harrier 模型支持超过 100 种语言,具备强大的多语言处理能力。
💡 该模型采用超过 20 亿个示例及 GPT-5 数据训练,确保了高准确性。
🚀 微软计划将 Harrier 集成到 Bing 及新一代 AI 代理服务中,提升搜索引擎性能。