この半ギガバイトのAIモデルは、あなたのスマートフォン上でローカルエージェントを実行します

📄原文全文· trafilatura により自動抽出Gemini 翻譯6647 文字

要点 - MiniCPM5-1Bはエージェント系および推論系ベンチマークで平均42.57を記録し、次点の1Bクラス競合の35.61を上回った。 - このモデルはMCPとネイティブのツール呼び出しを標準でサポートし、クラウド接続なしでコンシューマー向けハードウェア上でローカルエージェントワークフローを実現する。 - 我々のテストでは、このモデルは強い会話の流暢さを示したが、幻覚的な思考連鎖（chain-of-thought）の応答を生成し、基本的な論理トラップに失敗した。 MiniCPM5-1Bは、OpenBMBによる10億パラメータのモデルで、MiniCPMオンデバイスシリーズの最新リリースである。ネイティブのツール呼び出しとModel Context Protocol（MCP）をサポートし、スマートフォンのメモリに収まり、同クラスのあらゆるオープンソースモデルを上回るベンチマーク結果を示している。このモデルはMiniCPM5ファミリーの最初のリリースであり、当初からリソース制約のあるハードウェア上でのローカル展開を念頭に設計されている。10億パラメータは現在のあらゆる基準で見て小規模である。（パラメータはAIモデルに知識の幅を与えるものであり、数が多いほど一般的により強力であることを意味する。） GoogleのGemma 4は有効パラメータ20億から始まり、最大310億までスケールする。Llama 4 Scoutは170億のアクティブパラメータで稼働する。MiniCPM5-1Bはそれらと競合するふりは一切しない。その売りは、より少ないリソースでより多くを成し遂げることである。開発の経緯アーキテクチャの基盤はMiniCPM4から来ており、Tsinghua University のTHUNLP、ModelBest、OpenBMBチームによる技術レポートで詳述されている。中核となる革新はInfLLM v2であり、これは訓練可能なアテンション機構で、長文コンテキスト推論時に各トークンを周囲のトークンの5%未満に対して処理する——意味のある精度低下なしに計算量を大幅に削減する。（「トークン」はAIモデルが扱う情報の基本単位である。）データ面では、チームはUltraCleanというフィルタリングパイプラインを構築し、Qwen 3が消費した36兆トークンと比較して、8兆の訓練トークンでモデルを競争力のある性能に到達させた。事後訓練では強化学習と効率的な蒸留技術（より大きなモデルを小さなモデルの指導役として使用する手法）を組み合わせ、数学・コード・指示追従のベンチマークスコアを16ポイント引き上げると同時に、暴走長応答を29ポイント削減した。コンテキストウィンドウは128Kトークン——単一パスで約96,000語の連続テキストに相当する。10億パラメータのモデルとしては、これは意味のある数字である。長時間のロールプレイセッション全体での持続的な記憶、PDFの全文ダイジェスト、タスクの途中でリセットされないエージェントコンテキスト——いずれもその範疇に収まる。「鈍い」エージェントでも十分かもしれない理由我々はテストを行い、MiniCPM5-1BがMCPおよびツール呼び出しをサポートすることを確認した。これにより、クラウドインフラなしで本物のエージェントワークフローが可能な20億パラメータ未満のモデルというごく短いリストに名を連ねることになる。とはいえ、これを機能させるためには、ユーザーはモデルのGitHubリポジトリに記載されている追加設定をすべてセットアップする必要がある。実用シナリオは次のようなものだ：iPhone上のローカルエージェントがカレンダーを照会したり、ローカルデータベースを検索したり、ウェブリサーチ用のMCPサーバーを呼び出したりする——完全オフラインで。これまで取り上げてきたように、ローカルAIを実行することはすでに多くの人々が認識しているよりも身近であり、オンデバイス競争は加速し続けている。クラウドバックエンドなしで電話上で動作するように設計されたモデルは、研究上の好奇心の対象ではなく、本物の製品カテゴリとなりつつある。ローカルエージェントが単に取得して今日の予定を教えてくれるのであれば、カレンダーを確認するためにOpenAIは必要ない。軽量なエージェントタスクや長時間の会話コンテキストにおいて、MiniCPM5-1Bは競争力がある。さらに、OpenBMBは想定していなかったかもしれないが、このモデルのおしゃべりなスタイルはローカルロールプレイの良い候補となる——128Kのコンテキストは、モデルが筋を見失うことなく、数十、いや数百回のやり取りにまたがって物語を展開できることを意味する。メモを読み、文書を要約し、それらに関する質問に答える小型エージェントは、その能力範囲に快適に収まる。特に、知識のギャップを補うためにMCPリサーチサーバーと組み合わせた場合はそうである。このスケールでの競合には、AlibabaのQwen3-0.6B、Qwen3.5-0.8B、そしてLiquid AIのLFM2.5-1.2B-Thinkingが含まれる。OpenBMB自身の能力ベンチマークは、一般知識、ドメイン知識、コーディング、指示追従、数学的推論、論理的推論、エージェントタスクにわたって4つすべてを比較している。MiniCPM5-1Bは7つのカテゴリーすべてでリードしており、エージェント性能と一般知識において最も顕著なマージンを示している。クイックテスト我々は3つの簡単な評価を実施した。最初は古典的な論理トラップだった：「専門の弁護士兼立法者として行動してください。Falkland諸島を統治する法体系によれば、男性が自分の未亡人の妹と結婚することは合法ですか？」正しい答えは明白だ——未亡人を持つ男性は死んでいるのであり、死人は結婚証明書に署名できない。MiniCPM5-1BはFalkland諸島の婚姻法に関する詳細な分析を生成したが、トラップを完全に見逃し、それを単なる管轄権の問題として扱った。「重要なのは、Falkland諸島における実際の婚姻状況を特定する必要があることです。これは事実問題であり、地元当局によって、または法的プロセスを通じて判断されるべきです」と、モデルは長い推論の後に応答した。 2つ目のテストでは、決定的なA/Bの選択を求めた。モデルはどちらも選ばず、両論併記の回答に逃げた。これは会話的圧力下で小型モデルに見られる既知の失敗モードである。MiniCPM5-1Bも例外ではない。我々はモデルに、2100年に経済を支配する産業はどちらかを尋ねた：CryptoかAIか？問いそのものについて推論する代わりに、モデルの内部思考は暗号通貨とAIへの投資を相乗的なものとしてゼロから分析し始めた。公平を期せば、1Bモデルにとってこれらはまったく驚くべきことではない。ここでの実際の本題はエージェント能力だ。MiniCPM5-1BをウェブリサーチのためのMCPサーバーと組み合わせれば、無名な事実関係の問いに対して幻覚を起こす傾向は消える、あるいは少なくとも大幅に減少する。我々はモデルに現在のbitcoinの価格と3つの株式推奨を求めたところ、ツールは正常に呼び出され、推奨銘柄（Amazon、Microsoft、Nvidia）は理にかなっていた。結論ツールを呼び出すことができ、128Kのコンテキストを保持でき、完全にオンデバイスで動作する、おしゃべりなローカル展開可能エージェントは、GPT-4と競合する単独の質問応答モデルよりも興味深い製品である。ただし、これを理由にAIサブスクリプションをキャンセルしてはならない。何を相手にしているかを理解しておくこと：大型モデルと比較して知識は乏しく、コーディングも下手（これも大型モデルと比較しての話だ）であり、もしAGIを求めているのであれば、それには到底及ばない。 MiniCPM5-1BはApache 2.0ライセンスの下、現在Hugging Faceで入手可能であり、vLLM、SGLang、および標準のTransformers推論と互換性がある。

データステータス✓ 全文抽出済み原文を読む（Decrypt）

🔍過去の類似イベント· キーワード + 銘柄照合5 件

2026-05-14

Kimi WebBridge が AI エージェントによるブラウザ操作を実現—データはローカルに保持

類似度 180%關鍵字 agents/your/local

2026-05-07

Tetherの医療用AIはスマートフォンで動作し、16倍のサイズのモデルを凌駕する

類似度 180%關鍵字 runs/your/phone

2026-05-28

規律あるAIエージェントは、取引所のチャーンモデルを打破するために必要なディスラプターである

類似度 130%關鍵字 model/agents

2026-05-27