ニュース一覧Googleは、新しいハードウェアを必要とせずにローカルAIを最大3倍高速化する方法を発見した
Decrypt2026-05-07 13:13:49

Googleは、新しいハードウェアを必要とせずにローカルAIを最大3倍高速化する方法を発見した

ORIGINALGoogle Found a Way to Make Local AI Up to 3x Faster—No New Hardware Required
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯5749 文字
要約 - GoogleはGemma 4向けにMulti-Token Prediction (MTP) draftersをリリースし、出力品質を一切低下させることなく推論速度を最大3倍に高速化しました。 - 「speculative decoding」と呼ばれるこの技術は、軽量な「drafter」モデルを使用して一度に複数のトークンを予測し、メインモデルがそれを並列で検証することで、1トークンずつ生成するボトルネックを回避します。 - MTP draftersはHugging Face、Kaggle、OllamaでGemma 4と同じApache 2.0ライセンスの下で公開されており、vLLM、MLX、SGLangなどのツールで利用可能です。 AIモデルを自分のコンピュータで実行するのは素晴らしいことですが、そうでない場合もあります。 その約束はプライバシー、サブスクリプション料金なし、そしてデータがマシンから外部に出ないことです。しかし、多くの人にとっての現実は、文章の合間にカーソルが5秒間点滅するのを眺めることです。 そのボトルネックには名前があります。推論速度です。そしてそれは、モデルの賢さとは何の関係もありません。ハードウェアの問題なのです。標準的なAIモデルは、トークンと呼ばれる単語の断片を一度に1つずつ生成します。ハードウェアは、各トークンを生成するたびに、メモリから計算ユニットへ数十億のパラメータを転送しなければなりません。設計上、遅いのです。コンシューマー向けハードウェアでは、それは苦痛です。 多くの人がたどり着く回避策は、より小さく弱いモデルを実行するか、速度のために品質を犠牲にする量子化モデルと呼ばれる高度に圧縮されたバージョンを使うことです。どちらの解決策も素晴らしいとは言えません。動くものは手に入りますが、それはあなたが本当に望んでいたモデルではありません。 今、Googleは異なるアイデアを持っています。同社はオープンモデルファミリーであるGemma 4向けにMulti-Token Prediction (MTP) draftersをリリースしました。これは、モデルの品質や推論能力に一切触れることなく、最大3倍の高速化を実現できる技術です。 このアプローチはspeculative decodingと呼ばれ、コンセプトとしては何年も前から存在していました。Googleの研究者は2022年に基礎となる論文を発表しています。このアイデアがこれまで主流にならなかったのは、大規模に機能させるための適切なアーキテクチャが必要だったからです。 仕組みを簡単に説明します。巨大で強力なモデルにすべての作業を一人でさせるのではなく、小さな「drafter」モデルとペアにします。drafterは高速かつ軽量で、メインモデルが1トークン生成するよりも短い時間で、一度に複数のトークンを予測します。次に、大きなモデルがそれらの推測を一度のパスでチェックします。推測が正しければ、1回のフォワードパスのコストでシーケンス全体が得られます。 Googleによると、「ターゲットモデルがドラフトに同意すれば、単一のフォワードパスでシーケンス全体を受け入れ、その過程でさらに独自のトークンを生成することさえある」とのことです。 何も犠牲にはなりません。例えばGemma 4の31B denseバージョンのような大規模モデルがすべてのトークンを検証するため、出力品質は同一です。遅い部分で使われていなかったアイドル状態の計算能力を活用しているに過ぎません。 Googleによると、drafterモデルはターゲットモデルのKVキャッシュ(すでに処理されたコンテキストを保存するメモリ構造)を共有するため、大きなモデルがすでに知っていることを再計算する時間を無駄にしません。スマートフォンやRaspberry Piデバイス向けに設計された小さなエッジモデルについては、チームは生成時間をさらに短縮するための効率的なクラスタリング技術も構築しました。 AIの世界でテキスト生成の並列化を試みたのはこれが唯一ではありません。Inception LabsのMercuryのような拡散ベースの言語モデルは、全く異なるアプローチを試みました。一度に1トークンを予測するのではなく、ノイズから始めて出力全体を反復的に洗練させるというものです。理論上は高速ですが、拡散LLMは従来のtransformerモデルの品質に追いつくのに苦労しており、実用的なツールというよりは研究上の興味の対象にとどまっています。 speculative decodingが異なるのは、基盤となるモデルを一切変更しない点です。これはアーキテクチャの置き換えではなく、サービングの最適化です。すでに実行しているGemma 4がそのまま高速化するのです。 実用的なメリットは本物です。Google独自のベンチマークによると、Nvidia RTX Pro 6000デスクトップGPUで実行されるGemma 4 26Bモデルは、MTP drafterを有効にすると1秒あたりのトークン数が約2倍になります。Apple Siliconでは、4から8リクエストのバッチサイズで約2.2倍の
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合5 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:cece3c9452
ソース:Decrypt
公開:2026-05-07 13:13:49
カテゴリ:一般 · エクスポートカテゴリ neutral
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント
Googleは、新しいハードウェアを必要とせずにローカルAIを最大3倍高速化する方法を発見した | Feel.Trading