长视频理解的“深水区”终于迎来了权威评测标准。2026 年 3 月 2 日,由 与 联合提出的长视频多模态检索基准 LoVR (Long Video Retrieval) 正式宣布被国际顶级会议 WWW 2026 (The Web Conference) 录用。
这一成果填补了业界在真实长视频(Long-form Video)多粒度检索评测领域的空白。
核心突破:解决长视频检索的“三座大山”
传统的视频检索基准大多局限于短视频(如 TikTok 风格),难以应对长视频中复杂的语义关联。LoVR 的出现针对性地解决了三大痛点:
全粒度覆盖:既支持全视频 (Video-level) 的宏观检索,也支持片段级 (Clip-level) 的微观精确定位,满足了从“搜整部片子”到“搜某个瞬间”的多元需求。
规模化高质量标注:配套了一套创新的标注流水线,通过大模型(VLM)自动化生成、质量自动评分与动态修正相结合,实现了低成本、可扩展的高质量多模态数据构建。
真实场景建模:系统性地刻画了长视频检索中的长程语义偏移、信息密度极高等真实难点。
技术规格:40,000+ 精细片段的支撑
海量数据:包含 467 个真实长视频,平均时长超过 25 分钟。
精细切片:衍生出超过 40,804 个精细片段,每个片段均配有经过人工和机器双重验证的高质量文本描述(Captions)。
语义融合技术:引入了语义融合方法,确保在生成全视频摘要时不会丢失关键的上下文信息,为长程语义建模提供了统一的评测平台。
行业观察:校企联研助推 AGI 落地
作为