腾讯发布OpenSearch-VL：开源多模态深度搜索 agent 的“全家桶”方案

随着多模态大语言模型（MLLMs）的飞速发展，如何让模型从“被动理解图片”进化为“主动寻找证据并推理”的智能体(Agent)，已成为当前 AI 领域竞争的核心。然而，由于高质量训练数据、自动化轨迹合成路径以及详细训练配方的缺失，顶尖的多模态搜索智能体一直难以被开源社区复现。

为了打破这一僵局，来自腾讯混元（Tencent Hunyuan）联合加州大学洛杉矶分校(UCLA)、香港中文大学等机构的研究团队正式发布了 OpenSearch-VL。这是一个完全开源的路线图，旨在通过强化学习（RL）技术打造具备前沿能力的深度搜索智能体。

创新数据生产线，克服“搜索捷径”

研究团队指出，目前阻碍模型进化的最大瓶颈在于高质量的训练数据。为了训练出能够进行多步推理而非简单“一键识图”的模型，团队开发了一套精细的数据固化流程。

该流程利用维基百科的超链接图谱进行路径采样，将复杂的实体关系转化为多跳（Multi-hop）问答。为了防止模型“偷懒”，研究人员通过模糊实体重写技术隐藏了直接答案，并引入了基于源码锚点的视觉定位技术。这种设计强迫模型必须先识别视觉线索，再结合外部工具逐步检索，从而避免了检索过程中的功能性崩坏。基于此，团队构建了包含3.6万条指令微调轨迹的 SearchVL-SFT 数据库，以及8000条用于强化学习的 SearchVL-RL 数据库。

强大的工具箱:不仅仅是搜索

OpenSearch-VL 并不局限于简单的文本检索。在现实场景中，用户提供的图片往往存在模糊、歪斜或分辨率低等问题，导致搜索工具失效。

为此，该项目集成了一个多元化的工具环境，不仅包含网页搜索和反向图像搜索，还加入了 OCR（光学字符识别）、图像裁剪、锐化、超分辨率重建以及透视校正等功能。这意味着智能体在查询外部知识之前，会像人类一样先通过“主动感知”修复不完美的视觉输入，确保后续搜索的精准度。

“故障感知”算法:让模型从失败中学习

在长路径的任务处理中，工具调用往往会产生连锁反应，一个环节的超时或错误可能导致整个任务瘫痪。传统的强化学习往往会直接丢弃这些失败的轨迹，造成训练资源的浪费。

OpenSearch-VL 提出了一种名为 “多轮故障感知 GRPO” 的训练算法。该算法能够灵敏地捕捉到工具调用的“致死点”，通过掩码技术过滤掉失败后的无效信息，同时利用单边优势钳制（One-sided advantage clamping）保留故障发生前的有用逻辑。这种方式确保了模型即使在最终失败的情况下，也能学习到前期有效的搜索路径和探索策略。

实验表现比肩商业私有模型

测试结果显示，OpenSearch-VL 在七项主流多模态深度搜索基准测试中表现卓越，平均性能提升超过10个百分点。在某些特定任务上，其表现已足以与目前的顶级闭源商业模型相媲美。

目前，研究团队已计划将 OpenSearch-VL 的所有训练数据、代码及模型权重全量开源，旨在为全球开发者提供一个可复现、可改进的底层框架，推动多模态智能体研究进入“深水区”。

论文地址：https://arxiv.org/pdf/2605.05185