Google 找到了一种让本地 AI 提速至多 3 倍的方法——无需任何新硬件

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯5749 字

简要说明 - Google 发布了针对 Gemma 4 的 Multi-Token Prediction (MTP) drafters，在不降低输出质量的前提下，推理速度最高可提升 3 倍。 - 这种被称为 speculative decoding 的技术使用轻量级的“drafter”模型一次预测多个 token，主模型随后并行验证这些预测，从而绕过了每次只能生成一个 token 的瓶颈。 - MTP drafters 已在 Hugging Face、Kaggle 和 Ollama 上线，采用与 Gemma 4 相同的 Apache 2.0 许可证，并支持 vLLM、MLX 和 SGLang 等工具。在自己的电脑上运行 AI 模型固然很好，但有时也会遇到问题。其优势在于隐私保护、无需订阅费，且数据不会离开你的设备。但对大多数人而言，现实情况是看着光标在句子之间闪烁五秒钟。这个瓶颈有一个名字：推理速度。这与模型本身的智能程度无关，而是一个硬件问题。标准的 AI 模型一次只能生成一个词片段（称为 token）。硬件必须将数十亿个参数从内存传输到计算单元，才能生成每一个 token。这种设计本身就很慢。在消费级硬件上，这种体验非常痛苦。大多数人采取的变通方法是运行更小、更弱的模型，或者使用被称为 quantized models 的深度压缩版本，以牺牲部分质量来换取速度。这两种方案都不理想。你得到的是一个能运行的模型，但并不是你真正想要的那个模型。现在 Google 有了不同的想法。该公司刚刚为其 Gemma 4 系列开源模型发布了 Multi-Token Prediction (MTP) drafters——这项技术可以在完全不影响模型质量或推理能力的情况下，实现最高 3 倍的速度提升。这种方法被称为 speculative decoding，作为一个概念已经存在多年。Google 研究人员早在 2022 年就发表了基础论文。这个想法之所以直到现在才成为主流，是因为它需要合适的架构才能实现规模化应用。简单来说，它的工作原理如下：与其让庞大且强大的模型独自完成所有工作，不如将其与一个微小的“drafter”模型配对。drafter 模型快速且廉价，它能在主模型生成一个 token 的时间内，一次预测出多个 token。然后，大模型会在单次传递中检查所有这些猜测。如果猜测正确，你就能以一次前向传递的成本获得整个序列。据 Google 称，“如果目标模型同意草稿，它会在单次前向传递中接受整个序列，甚至在此过程中额外生成一个自己的 token。” 没有任何牺牲：以 Gemma 4 的 31B 密集版本为例，大模型仍然会验证每一个 token，输出质量完全相同。你只是利用了在缓慢处理过程中处于闲置状态的计算能力。 Google 表示，drafter 模型与目标模型共享 KV cache（一种存储已处理上下文的内存结构），因此它们不会浪费时间去重新计算大模型已经知道的内容。对于专为手机和 Raspberry Pi 设备设计的较小边缘模型，团队甚至构建了一种高效的聚类技术，以进一步缩短生成时间。这并不是 AI 领域在并行化文本生成方面的唯一尝试。基于扩散的语言模型（例如 Inception Labs 的 Mercury）尝试了一种完全不同的方法：它们不是一次预测一个 token，而是从噪声开始，迭代地细化整个输出。这在理论上很快，但 diffusion LLMs 在匹配传统 transformer 模型质量方面一直很吃力，这使它们更多地被视为一种研究好奇心，而非实用工具。 Speculative decoding 的不同之处在于它完全不会改变底层模型。这是一种服务优化，而不是架构替换。你已经在运行的同一个 Gemma 4 模型会变得更快。实际收益是实实在在的。根据 Google 自己的基准测试，在 Nvidia RTX Pro 6000 台式机 GPU 上运行的 Gemma 4 26B 模型，在启用 MTP drafter 后，每秒生成的 token 数量大约翻了一番。在 Apple Silicon 上，4 到 8 个请求的批处理大小可带来约 2.2 倍的速度提升。虽然并非在所有场景下都能达到 3 倍的上限，但这仍然是“勉强可用”与“足够快到可以工作”之间有意义的差异。背景很重要。当中国模型 DeepSeek 在 2025 年 1 月震撼市场——在一天之内抹去了 Nvidia 6000 亿美元的市值时——核心教训是效率提升的影响力可能比单纯的算力堆砌更强大。运行更智能的模型胜过向问题投入更多硬件。Google 的 MTP drafter 是朝着这个方向迈出的又一步，只不过它直接瞄准了消费级市场。整个 AI 行业目前是一个考量推理、训练和

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对5 则

2026-05-02

新的 Bitcoin 量子提案为 Satoshi Nakamoto 提供了一种无需移动 BTC 即可证明控制权的方法

相似度 130%關鍵字 way/new

2026-04-29

Hyperliquid 正准备通过一种交易现实世界事件的新方式与 Polymarket 展开竞争

相似度 100%關鍵字 way/new

2026-04-28

新钱包提供了一种无需分叉即可应对 Bitcoin 量子风险的方法

相似度 100%關鍵字 way/new

2026-04-23

Google 推出新款 Tensor 晶片以推動 AI 熱潮，劍指 Nvidia

相似度 100%關鍵字 google/new

2026-04-15

Google 最新的 AI 更新讓工業機器人變得更聰明——具體方式如下

相似度 100%關鍵字 google/way

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：cece3c9452

来源：Decrypt

发布：2026-05-07 13:13:49

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言