谷歌突然发布AI内存压缩技术 三大记忆体大厂股价大跌!

AI内存压缩技术

谷歌突然发布AI内存压缩技术 三大记忆体大厂股价大跌!

很多消费者都引颈期盼的 “AI 硬件需求暴降” 技术,终于来了?!

谷歌研究院近日正式推出名为 TurboQuant 的全新 AI 压缩算法,声称能将大型语言模型(LLM)推理过程中的内存占用减少至少六倍,同时不造成任何精度损失,在业界引发广泛关注。

TurboQuant 的核心针对的是 AI 推理中的一大瓶颈——KV Cache(键值缓存)。当用户与语言模型对话时,模型需要记录整段对话的上下文,这部分数据随着对话拉长会急速膨胀,大量占据 GPU 内存。

TurboQuant 透过将 KV Cache 的每个数值从标准的 16 位压缩至仅 3 位,实现了六倍以上的内存缩减。

在技术层面,TurboQuant 由两个子算法组成。第一阶段的 PolarQuant 将数据向量从传统的笛卡尔坐标转换为极坐标,利用角度分布规律跳过传统压缩中耗费额外内存的归一化步骤。第二阶段的 QJL(Quantized Johnson-Lindenstrauss)则以仅一个符号位(正或负)修正第一阶段残留的微小误差,从根本上消除了压缩过程中的精度偏差。两者结合,使 TurboQuant 得以在不需要重新训练模型的前提下,直接套用于现有的 AI 推理流程。

在 NVIDIA H100 GPU 的测试中,4-bit TurboQuant 的注意力运算速度比未压缩的 32-bit 键值提升了高达八倍。有企业估算,若大规模部署,推理成本有望降低超过 50%。该算法已在 Gemma、Mistral、Llama 等开源模型上通过多项长上下文基准测试,包括”大海捞针”(Needle-in-a-Haystack)等高难度检索测试,均取得与原版模型相当的表现。

TurboQuant 的发布也引发了资本市场的震动。内存芯片大厂 Micron、Western Digital 及 Seagate 的股价在消息公布当天相继下跌,市场担忧 AI 推理所需的内存容量将因此大幅缩减。

不过,也有分析人士指出,内存需求下降未必等比例转化为采购下降,且 TurboQuant 目前仅针对推理阶段的内存,对计算量庞大的模型训练阶段并不适用。

目前该技术尚未正式部署,相关论文将于今年四月的 ICLR 2026 学术会议上正式发表。不过开源社区的开发者已在论文公开后数小时内,自行将算法移植至 MLX(Apple Silicon)和 llama.cpp 等主流本地 AI 框架,并验证了其性能表现。

Cloudflare CEO Matthew Prince 将此次突破称为谷歌的”DeepSeek 时刻”。

就如当初挖矿潮导致 GPU 价格居高不下一样,这次 AI 浪潮,其实许多人都预测,迟早会有新的算法或底层机制,大幅降低 AI 所需的资源。这次 TurboQuant 的出现,象征着我们可能很快就会看到类似的情况相继发生。

更多消息请守住 Mdroid

来源:HKEPC