谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍，零精度损失、无需训练！

3月26日消息，谷歌研究团队（Google Research）近日正式推出全新向量量化压缩算法TurboQuant，通过创新的 PolarQuant 与 QJL 技术，将大语言模型（LLM）推理过程中的 ** 键值缓存(KV Cache)** 内存需求减少至少6倍，在 Nvidia H100GPU 上注意力计算速度提升最高8倍，且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低 AI 部署成本，加速长上下文应用落地。

KV Cache 痛点:高维向量内存开销巨大

LLM 在处理长序列时，需要维护键（Key）和值(Value)向量组成的缓存，这些高维向量用于快速计算注意力机制，避免重复计算。但随着上下文长度增加，KV Cache 内存消耗呈爆炸式增长，成为制约模型推理效率和部署规模的主要瓶颈。

传统向量量化方法虽能压缩数据，却需额外存储量化常数（如缩放因子、零点等），这些常数通常以全精度保存，每个数值额外引入1-2bit 开销，部分抵消了压缩收益。

TurboQuant 核心创新:PolarQuant + QJL 双阶段压缩

TurboQuant 采用两阶段无训练压缩框架，巧妙解决了传统量化的开销问题:

PolarQuant（极坐标角度压缩）:

先对向量进行随机旋转，然后将笛卡尔坐标（X/Y/Z 等）转换为极坐标形式(角度 + 半径)。由于角度分布在固定可预测范围内，该方法省去了传统量化中所需的边界归一化存储开销，实现更高效的压缩。

QJL（1-bit 纠错，Quantized Johnson-Lindenstrauss）:

PolarQuant 压缩后仍存在残余误差。QJL 利用 Johnson-Lindenstrauss 变换进行降维，再以极简的1bit（+1/-1符号）进行量化。通过特殊的无偏估计器，在计算注意力分数时实现零额外内存开销的误差修正，确保整体过程无系统偏差。

两者结合后，TurboQuant 可将 KV Cache 压缩至约3-bit 级别，同时保持内积估计的无偏性和高精度。

基准测试表现:全面领先，完美适配长上下文

谷歌团队在 Gemma、Mistral 等开源模型上进行了广泛验证:

LongBench（涵盖长文本问答、代码生成、摘要等任务）:TurboQuant 匹配或超越现有 KIVI 等基线，全面领先。
Needle In A Haystack等检索任务:实现完美下游得分，同时 KV 内存压缩至少6倍。
Nvidia H100实测:4-bit 配置下，注意力 logits 计算速度最高提升8倍。

此外，在 GloVe 等向量数据集上，TurboQuant 的召回率也优于 PQ、RabbiQ 等传统方法。

点评:TurboQuant 无需模型重训或微调，可直接应用于现有 LLM，适用于任何依赖向量量化的场景，包括数据库检索、推荐系统和向量搜索引擎。这不仅能让单张消费级 GPU 支持更长的上下文（如数十万 token），还显著降低企业级 AI 服务的硬件门槛。

行业意义:AI 推理效率新标杆

随着长上下文、多模态应用爆发，KV Cache 内存已成为 AI 基础设施的核心制约。TurboQuant 的“近最优、数据无关”量化框架，为高效推理开辟新路径。谷歌研究表示，该技术已在 ICLR2026等会议相关论文中详细阐述，相关代码和实现细节有望逐步开源。

未来，TurboQuant 有望被集成到 vLLM、TensorRT 等主流推理框架中，进一步推动 AI 部署的民主化与规模化。