要闻列表Google 找到了一种让本地 AI 提速至多 3 倍的方法——无需任何新硬件
Decrypt2026-05-07 13:13:49

Google 找到了一种让本地 AI 提速至多 3 倍的方法——无需任何新硬件

ORIGINALGoogle Found a Way to Make Local AI Up to 3x Faster—No New Hardware Required
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯5749 字
简要说明 - Google 发布了针对 Gemma 4 的 Multi-Token Prediction (MTP) drafters,在不降低输出质量的前提下,推理速度最高可提升 3 倍。 - 这种被称为 speculative decoding 的技术使用轻量级的“drafter”模型一次预测多个 token,主模型随后并行验证这些预测,从而绕过了每次只能生成一个 token 的瓶颈。 - MTP drafters 已在 Hugging Face、Kaggle 和 Ollama 上线,采用与 Gemma 4 相同的 Apache 2.0 许可证,并支持 vLLM、MLX 和 SGLang 等工具。 在自己的电脑上运行 AI 模型固然很好,但有时也会遇到问题。 其优势在于隐私保护、无需订阅费,且数据不会离开你的设备。但对大多数人而言,现实情况是看着光标在句子之间闪烁五秒钟。 这个瓶颈有一个名字:推理速度。这与模型本身的智能程度无关,而是一个硬件问题。标准的 AI 模型一次只能生成一个词片段(称为 token)。硬件必须将数十亿个参数从内存传输到计算单元,才能生成每一个 token。这种设计本身就很慢。在消费级硬件上,这种体验非常痛苦。 大多数人采取的变通方法是运行更小、更弱的模型,或者使用被称为 quantized models 的深度压缩版本,以牺牲部分质量来换取速度。这两种方案都不理想。你得到的是一个能运行的模型,但并不是你真正想要的那个模型。 现在 Google 有了不同的想法。该公司刚刚为其 Gemma 4 系列开源模型发布了 Multi-Token Prediction (MTP) drafters——这项技术可以在完全不影响模型质量或推理能力的情况下,实现最高 3 倍的速度提升。 这种方法被称为 speculative decoding,作为一个概念已经存在多年。Google 研究人员早在 2022 年就发表了基础论文。这个想法之所以直到现在才成为主流,是因为它需要合适的架构才能实现规模化应用。 简单来说,它的工作原理如下:与其让庞大且强大的模型独自完成所有工作,不如将其与一个微小的“drafter”模型配对。drafter 模型快速且廉价,它能在主模型生成一个 token 的时间内,一次预测出多个 token。然后,大模型会在单次传递中检查所有这些猜测。如果猜测正确,你就能以一次前向传递的成本获得整个序列。 据 Google 称,“如果目标模型同意草稿,它会在单次前向传递中接受整个序列,甚至在此过程中额外生成一个自己的 token。” 没有任何牺牲:以 Gemma 4 的 31B 密集版本为例,大模型仍然会验证每一个 token,输出质量完全相同。你只是利用了在缓慢处理过程中处于闲置状态的计算能力。 Google 表示,drafter 模型与目标模型共享 KV cache(一种存储已处理上下文的内存结构),因此它们不会浪费时间去重新计算大模型已经知道的内容。对于专为手机和 Raspberry Pi 设备设计的较小边缘模型,团队甚至构建了一种高效的聚类技术,以进一步缩短生成时间。 这并不是 AI 领域在并行化文本生成方面的唯一尝试。基于扩散的语言模型(例如 Inception Labs 的 Mercury)尝试了一种完全不同的方法:它们不是一次预测一个 token,而是从噪声开始,迭代地细化整个输出。这在理论上很快,但 diffusion LLMs 在匹配传统 transformer 模型质量方面一直很吃力,这使它们更多地被视为一种研究好奇心,而非实用工具。 Speculative decoding 的不同之处在于它完全不会改变底层模型。这是一种服务优化,而不是架构替换。你已经在运行的同一个 Gemma 4 模型会变得更快。 实际收益是实实在在的。根据 Google 自己的基准测试,在 Nvidia RTX Pro 6000 台式机 GPU 上运行的 Gemma 4 26B 模型,在启用 MTP drafter 后,每秒生成的 token 数量大约翻了一番。在 Apple Silicon 上,4 到 8 个请求的批处理大小可带来约 2.2 倍的速度提升。虽然并非在所有场景下都能达到 3 倍的上限,但这仍然是“勉强可用”与“足够快到可以工作”之间有意义的差异。 背景很重要。当中国模型 DeepSeek 在 2025 年 1 月震撼市场——在一天之内抹去了 Nvidia 6000 亿美元的市值时——核心教训是效率提升的影响力可能比单纯的算力堆砌更强大。运行更智能的模型胜过向问题投入更多硬件。Google 的 MTP drafter 是朝着这个方向迈出的又一步,只不过它直接瞄准了消费级市场。 整个 AI 行业目前是一个考量推理、训练和
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对5 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:cece3c9452
来源:Decrypt
发布:2026-05-07 13:13:49
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
Google 找到了一种让本地 AI 提速至多 3 倍的方法——无需任何新硬件 | Feel.Trading