3月26日消息,谷歌研究团队(Google Research)近日正式推出全新向量量化压缩算法TurboQuant,通过创新的 PolarQuant 与 QJL 技术,将大语言模型(LLM)推理过程中的 ** 键值缓存(KV Cache)** 内存需求减少至少6倍,在 Nvidia H100GPU 上注意力计算速度提升最高8倍,且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低 AI 部署成本,加速长上下文应用落地。

KV Cache 痛点:高维向量内存开销巨大

LLM 在处理长序列时,需要维护键(Key)和值(Value)向量组成的缓存,这些高维向量用于快速计算注意力机制,避免重复计算。但随着上下文长度增加,KV Cache 内存消耗呈爆炸式增长,成为制约模型推理效率和部署规模的主要瓶颈。

image.png

传统向量量化方法虽能压缩数据,却需额外存储量化常数(如缩放因子、零点等),这些常数通常以全精度保存,每个数值额外引入1-2bit 开销,部分抵消了压缩收益。

TurboQuant 核心创新:PolarQuant + QJL 双阶段压缩

TurboQuant 采用两阶段无训练压缩框架,巧妙解决了传统量化的开销问题:

PolarQuant(极坐标角度压缩):

先对向量进行随机旋转,然后将笛卡尔坐标(X/Y/Z 等)转换为极坐标形式(角度 + 半径)。由于角度分布在固定可预测范围内,该方法省去了传统量化中所需的边界归一化存储开销,实现更高效的压缩。

QJL(1-bit 纠错,Quantized Johnson-Lindenstrauss):

PolarQuant 压缩后仍存在残余误差。QJL 利用 Johnson-Lindenstrauss 变换进行降维,再以极简的1bit(+1/-1符号)进行量化。通过特殊的无偏估计器,在计算注意力分数时实现零额外内存开销的误差修正,确保整体过程无系统偏差。

两者结合后,TurboQuant 可将 KV Cache 压缩至约3-bit 级别,同时保持内积估计的无偏性和高精度。

基准测试表现:全面领先,完美适配长上下文

谷歌团队在 Gemma、Mistral 等开源模型上进行了广泛验证:

  • LongBench(涵盖长文本问答、代码生成、摘要等任务):TurboQuant 匹配或超越现有 KIVI 等基线,全面领先。
  • Needle In A Haystack等检索任务:实现完美下游得分,同时 KV 内存压缩至少6倍。
  • Nvidia H100实测:4-bit 配置下,注意力 logits 计算速度最高提升8倍。

此外,在 GloVe 等向量数据集上,TurboQuant 的召回率也优于 PQ、RabbiQ 等传统方法。

点评:TurboQuant 无需模型重训或微调,可直接应用于现有 LLM,适用于任何依赖向量量化的场景,包括数据库检索、推荐系统和向量搜索引擎。这不仅能让单张消费级 GPU 支持更长的上下文(如数十万 token),还显著降低企业级 AI 服务的硬件门槛。

行业意义:AI 推理效率新标杆

随着长上下文、多模态应用爆发,KV Cache 内存已成为 AI 基础设施的核心制约。TurboQuant 的“近最优、数据无关”量化框架,为高效推理开辟新路径。谷歌研究表示,该技术已在 ICLR2026等会议相关论文中详细阐述,相关代码和实现细节有望逐步开源。

未来,TurboQuant 有望被集成到 vLLM、TensorRT 等主流推理框架中,进一步推动 AI 部署的民主化与规模化。