中文翻译
谷歌的 TurboQuant…… 以及它对 $SNDK、$MU、海力士和其他公司的影响: 它做的事情是: -> KV cache 内存占用减少 6 倍 -> H100 GPU 速度提升 8 倍 它本质上是一个压缩算法。 那现在问题来了……它会把存储压下去吗? -> 大概率不会。 不过这也许对 $ARM 和其他公司是利好,因为你可以本地跑 AI,而不是依赖 DRAM-heavy 的数据中心。 但话说回来: -> 这基本上就是 DeepSeek round 3。你能让算法更高效,但这并不会替代存储或者 GPU。 -> 它可能会在结构上略微降低 DRAM 需求。 -> 而且到目前为止,好像也只在 Gemma、Mistral 和 Llama-3.1 这些小模型上测试过(而且那篇论文已经发了一年了) 另外,市场还把 DRAM 和 NAND 混在一起看……这个算法压的是 KV cache(DRAM),并不会对 NAND 存储有什么作用? 不管怎样: 算法总会变得更高效。大家老说杰文斯悖论,这没错,因为这只是把用途规模继续放大。 真正该看的还是超大规模云厂商的 CapEx 预期,而不是让事情更高效的 Google 算法。 我更觉得这是个叙事层面的逆风,而不是对盈利有实质影响。