随着多模态大语言模型(MLLMs)的飞速发展,如何让模型从“被动理解图片”进化为“主动寻找证据并推理”的智能体(Agent),已成为当前 AI 领域竞争的核心。然而,由于高质量训练数据、自动化轨迹合成路径以及详细训练配方的缺失,顶尖的多模态搜索智能体一直难以被开源社区复现。
为了打破这一僵局,来自腾讯混元(Tencent Hunyuan)联合加州大学洛杉矶分校(UCLA)、香港中文大学等机构的研究团队正式发布了 OpenSearch-VL。这是一个完全开源的路线图,旨在通过强化学习(RL)技术打造具备前沿能力的深度搜索智能体。

创新数据生产线,克服“搜索捷径”
研究团队指出,目前阻碍模型进化的最大瓶颈在于高质量的训练数据。为了训练出能够进行多步推理而非简单“一键识图”的模型,团队开发了一套精细的数据固化流程。
该流程利用维基百科的超链接图谱进行路径采样,将复杂的实体关系转化为多跳(Multi-hop)问答。为了防止模型“偷懒”,研究人员通过模糊实体重写技术隐藏了直接答案,并引入了基于源码锚点的视觉定位技术。这种设计强迫模型必须先识别视觉线索,再结合外部工具逐步检索,从而避免了检索过程中的功能性崩坏。基于此,团队构建了包含3.6万条指令微调轨迹的 SearchVL-SFT 数据库,以及8000条用于强化学习的 SearchVL-RL 数据库。
强大的工具箱:不仅仅是搜索
OpenSearch-VL 并不局限于简单的文本检索。在现实场景中,用户提供的图片往往存在模糊、歪斜或分辨率低等问题,导致搜索工具失效。
为此,该项目集成了一个多元化的工具环境,不仅包含网页搜索和反向图像搜索,还加入了 OCR(光学字符识别)、图像裁剪、锐化、超分辨率重建以及透视校正等功能。这意味着智能体在查询外部知识之前,会像人类一样先通过“主动感知”修复不完美的视觉输入,确保后续搜索的精准度。
“故障感知”算法:让模型从失败中学习
在长路径的任务处理中,工具调用往往会产生连锁反应,一个环节的超时或错误可能导致整个任务瘫痪。传统的强化学习往往会直接丢弃这些失败的轨迹,造成训练资源的浪费。
OpenSearch-VL 提出了一种名为 “多轮故障感知 GRPO” 的训练算法。该算法能够灵敏地捕捉到工具调用的“致死点”,通过掩码技术过滤掉失败后的无效信息,同时利用单边优势钳制(One-sided advantage clamping)保留故障发生前的有用逻辑。这种方式确保了模型即使在最终失败的情况下,也能学习到前期有效的搜索路径和探索策略。
实验表现比肩商业私有模型
测试结果显示,OpenSearch-VL 在七项主流多模态深度搜索基准测试中表现卓越,平均性能提升超过10个百分点。在某些特定任务上,其表现已足以与目前的顶级闭源商业模型相媲美。
目前,研究团队已计划将 OpenSearch-VL 的所有训练数据、代码及模型权重全量开源,旨在为全球开发者提供一个可复现、可改进的底层框架,推动多模态智能体研究进入“深水区”。
论文地址:https://arxiv.org/pdf/2605.05185