在当前的大模型(LLM)领域,深度搜索能力已成为顶尖智能体的“必杀技”。然而,这一赛道的游戏规则长期以来被资源雄厚的工业巨头所主导。传统的开发模式通常依赖于极其消耗资源的流水线,包括预训练、持续预训练(CPT)、监督微调(SFT)以及强化学习(RL)。
近日,来自学术界的研发团队发布了最新成果

该团队在数据合成方面提出了三项核心优化策略:首先是扩大知识图谱规模,以提供更丰富的探索空间;其次是显著增加工具集数量,扩展功能边界;最后是实施严格的低步数过滤,确保训练数据的精炼与高效。
实验数据显示,仅基于1.06万条数据点训练的

值得关注的是,这是首个在同等模型规模与架构下,由纯学术团队仅通过SFT技术实现的 state-of-the-art(SOTA)搜索智能体。目前,该团队已正式开源
论文地址:https://arxiv.org/pdf/2605.04036