Googleは、新しいハードウェアを必要とせずにローカルAIを最大3倍高速化する方法を発見した

📄原文全文· trafilatura により自動抽出Gemini 翻譯5749 文字

要約 - GoogleはGemma 4向けにMulti-Token Prediction (MTP) draftersをリリースし、出力品質を一切低下させることなく推論速度を最大3倍に高速化しました。 - 「speculative decoding」と呼ばれるこの技術は、軽量な「drafter」モデルを使用して一度に複数のトークンを予測し、メインモデルがそれを並列で検証することで、1トークンずつ生成するボトルネックを回避します。 - MTP draftersはHugging Face、Kaggle、OllamaでGemma 4と同じApache 2.0ライセンスの下で公開されており、vLLM、MLX、SGLangなどのツールで利用可能です。 AIモデルを自分のコンピュータで実行するのは素晴らしいことですが、そうでない場合もあります。その約束はプライバシー、サブスクリプション料金なし、そしてデータがマシンから外部に出ないことです。しかし、多くの人にとっての現実は、文章の合間にカーソルが5秒間点滅するのを眺めることです。そのボトルネックには名前があります。推論速度です。そしてそれは、モデルの賢さとは何の関係もありません。ハードウェアの問題なのです。標準的なAIモデルは、トークンと呼ばれる単語の断片を一度に1つずつ生成します。ハードウェアは、各トークンを生成するたびに、メモリから計算ユニットへ数十億のパラメータを転送しなければなりません。設計上、遅いのです。コンシューマー向けハードウェアでは、それは苦痛です。多くの人がたどり着く回避策は、より小さく弱いモデルを実行するか、速度のために品質を犠牲にする量子化モデルと呼ばれる高度に圧縮されたバージョンを使うことです。どちらの解決策も素晴らしいとは言えません。動くものは手に入りますが、それはあなたが本当に望んでいたモデルではありません。今、Googleは異なるアイデアを持っています。同社はオープンモデルファミリーであるGemma 4向けにMulti-Token Prediction (MTP) draftersをリリースしました。これは、モデルの品質や推論能力に一切触れることなく、最大3倍の高速化を実現できる技術です。このアプローチはspeculative decodingと呼ばれ、コンセプトとしては何年も前から存在していました。Googleの研究者は2022年に基礎となる論文を発表しています。このアイデアがこれまで主流にならなかったのは、大規模に機能させるための適切なアーキテクチャが必要だったからです。仕組みを簡単に説明します。巨大で強力なモデルにすべての作業を一人でさせるのではなく、小さな「drafter」モデルとペアにします。drafterは高速かつ軽量で、メインモデルが1トークン生成するよりも短い時間で、一度に複数のトークンを予測します。次に、大きなモデルがそれらの推測を一度のパスでチェックします。推測が正しければ、1回のフォワードパスのコストでシーケンス全体が得られます。 Googleによると、「ターゲットモデルがドラフトに同意すれば、単一のフォワードパスでシーケンス全体を受け入れ、その過程でさらに独自のトークンを生成することさえある」とのことです。何も犠牲にはなりません。例えばGemma 4の31B denseバージョンのような大規模モデルがすべてのトークンを検証するため、出力品質は同一です。遅い部分で使われていなかったアイドル状態の計算能力を活用しているに過ぎません。 Googleによると、drafterモデルはターゲットモデルのKVキャッシュ（すでに処理されたコンテキストを保存するメモリ構造）を共有するため、大きなモデルがすでに知っていることを再計算する時間を無駄にしません。スマートフォンやRaspberry Piデバイス向けに設計された小さなエッジモデルについては、チームは生成時間をさらに短縮するための効率的なクラスタリング技術も構築しました。 AIの世界でテキスト生成の並列化を試みたのはこれが唯一ではありません。Inception LabsのMercuryのような拡散ベースの言語モデルは、全く異なるアプローチを試みました。一度に1トークンを予測するのではなく、ノイズから始めて出力全体を反復的に洗練させるというものです。理論上は高速ですが、拡散LLMは従来のtransformerモデルの品質に追いつくのに苦労しており、実用的なツールというよりは研究上の興味の対象にとどまっています。 speculative decodingが異なるのは、基盤となるモデルを一切変更しない点です。これはアーキテクチャの置き換えではなく、サービングの最適化です。すでに実行しているGemma 4がそのまま高速化するのです。実用的なメリットは本物です。Google独自のベンチマークによると、Nvidia RTX Pro 6000デスクトップGPUで実行されるGemma 4 26Bモデルは、MTP drafterを有効にすると1秒あたりのトークン数が約2倍になります。Apple Siliconでは、4から8リクエストのバッチサイズで約2.2倍の

データステータス✓ 全文抽出済み原文を読む（Decrypt）

🔍過去の類似イベント· キーワード + 銘柄照合5 件

2026-05-02

新しいBitcoin量子提案は、Satoshi NakamotoがBTCを移動させることなく管理権を証明する方法を提供する

類似度 130%關鍵字 way/new

2026-04-29

Hyperliquidは、現実世界のイベントを取引する新しい方法でPolymarketに挑もうとしている

類似度 100%關鍵字 way/new

2026-04-28

新しいウォレットは、フォークなしでBitcoinの量子リスクに対処する方法を提供する

類似度 100%關鍵字 way/new

2026-04-23