這個半 GB 的 AI 模型在你的手機上運行本地代理

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯6647 字

簡述 - MiniCPM5-1B 在代理與推理基準測試中平均得分 42.57，擊敗次佳 1B 級別競爭者的 35.61。 - 該模型開箱即支援 MCP 與原生工具呼叫，能在消費級硬體上實現本地代理工作流程，無需雲端連線。 - 在我們的測試中，該模型展現了優異的對話流暢度，但產生了幻覺式的思維鏈回應，並在一個基本邏輯陷阱題上失敗。 MiniCPM5-1B 是 OpenBMB 推出的十億參數模型，為 MiniCPM 端側系列的最新版本。它支援原生工具呼叫與 Model Context Protocol（MCP），可容納於智慧型手機的記憶體中，並在同尺寸級別的所有開源模型中基準測試表現領先。該模型是 MiniCPM5 家族的首發版本，從一開始就為資源受限硬體上的本地部署而設計。以 10 億參數計，依任何當前標準衡量都屬於小型模型。（參數是賦予 AI 模型知識廣度的要素，數量越多通常代表模型越強大。） Google 的 Gemma 4 從 20 億有效參數起跳，但可擴展至 310 億。Llama 4 Scout 運行 170 億啟用參數。MiniCPM5-1B 並未假裝要與這些模型競爭，它的訴求是以小搏大。如何打造其架構骨幹源自 MiniCPM4，詳見 OpenBMB 團隊（隸屬清華大學 THUNLP 與 ModelBest）發佈的技術報告。核心創新是 InfLLM v2，這是一種可訓練的注意力機制，在長上下文推理過程中，每個 token 僅需對照不到 5% 的周圍 token 進行處理——大幅削減運算量，且準確度不會出現有意義的下滑。（「token」是 AI 模型處理資訊的基本單位。）在資料層面，團隊建構了 UltraClean，一條過濾管線，使該模型僅用 8 兆訓練 token 就達到具競爭力的表現，相較之下 Qwen 3 消耗了 36 兆。後訓練階段結合強化學習與高效蒸餾技術（以較大的模型作為較小模型的指引），將數學、程式碼與指令遵循的基準分數提升了 16 分，同時將失控長度回應減少了 29 個百分點。上下文視窗為 128K token——相當於單次處理約 96,000 字的連續文本。對一個 10 億參數的模型而言，這是個有意義的數字。長時間角色扮演對話中的持久記憶、完整 PDF 摘要消化，或不會在任務中途重置的代理上下文，都在其能力範圍內。為何笨拙的代理可能就已足夠我們測試並確認 MiniCPM5-1B 支援 MCP 與工具呼叫。這使其名列極少數能在無雲端基礎設施下執行真正代理工作流程的次 20 億參數模型。話雖如此，要使其運作，使用者需要進行額外的配置設定，所有設定都列於該模型的 Github repo。實用場景：iPhone 上的本地代理可以查詢行事曆、搜尋本地資料庫，或呼叫網路研究 MCP 伺服器——完全離線運作。如我們先前所述，運行本地 AI 已比多數人想像中更觸手可及，而端側競賽正持續加速。專為手機運作、無需雲端後端的模型，正成為一個真正的產品類別，而非研究奇珍。如果本地代理可以直接擷取行事曆並告訴你今天的行程，你就不需要 OpenAI 來幫你查行事曆。對於輕量代理任務與延伸對話脈絡而言，MiniCPM5-1B 具有競爭力。然而，儘管 OpenBMB 可能未曾考量這點，該模型健談的風格使其成為本地角色扮演的不錯候選——128K 的上下文意味著故事能跨越數十、甚至數百次交流而模型不會脫離主線。能夠閱讀筆記、摘要文件並回答相關問題的小型代理，舒適地落在它的能力範圍內，特別是搭配 MCP 研究伺服器來填補知識缺口時。此規模的競爭對手包括 Alibaba 的 Qwen3-0.6B、Qwen3.5-0.8B，以及 Liquid AI 的 LFM2.5-1.2B-Thinking。OpenBMB 自家的能力基準測試在通用知識、領域知識、程式設計、指令遵循、數學推理、邏輯推理及代理任務這七個面向上比較了這四個模型。MiniCPM5-1B 在全部七個類別中皆領先，其中以代理表現與通用知識的優勢最為顯著。快速測試我們進行了三項快速評估。第一項是經典邏輯陷阱：「請扮演一位資深律師與立法者。依據統治 Falkland Islands 的法律體系，一名男子娶其遺孀的妹妹是否合法？」正確答案顯而易見——有遺孀的男人已經死了，而死人無法簽署結婚證書。MiniCPM5-1B 對 Falkland Islands 婚姻法做了詳盡的解析，完全沒有識破陷阱，將其視為單純的司法管轄問題。「關鍵在於，你必須確認 Falkland Islands 實際的婚姻狀況。這是一個事實問題，應由當地主管機關或透過法律程序加以判定，」模型在一長串推理後如此回應。我們的第二項測試要求其做出明確的 A/B 選擇。該模型兩者皆未選擇，迴避到一個各打五十大板的答案。這是小型模型在對話壓力下已知的失敗模式。MiniCPM5-1B 也不例外。我們問該模型，到了 2100 年哪個產業將主導經濟：Crypto 還是 AI？該模型完全未針對問題進行推理，而是從零開始將其內部思考導向分析加密貨幣與 AI 投資的協同效應。平心而論，這些對 1B 模型而言並不令人意外。代理能力才是真正的重點。將 MiniCPM5-1B 與 MCP 伺服器搭配進行網路研究，其在冷僻事實問題上產生幻覺的傾向便消失了，或至少大幅減少。我們請模型告訴我們 bitcoin 目前的價格與三檔股票推薦，工具呼叫成功執行，推薦結果（Amazon、Microsoft 與 Nvidia）也合情合理。結論一個健談、可本地部署、能呼叫工具、保有 128K 上下文且完全在裝置上運行的代理，比起一個與 GPT-4 競爭的獨立問答模型，是更有意思的產品。只是別因此取消你的 AI 訂閱。要明白你面對的是什麼：相較於大型模型，它的知識貧乏、寫程式表現差勁（同樣是相較於更大的模型），若你追求的是 AGI，它也遠遠談不上。 MiniCPM5-1B 現已於 Hugging Face 以 Apache 2.0 授權釋出，相容於 vLLM、SGLang 及標準 Transformers 推理框架。

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對5 則

2026-05-14

Kimi WebBridge 讓 AI Agent 操控你的瀏覽器——並將你的資料保留在本地

相似度 180%關鍵字 agents/your/local

2026-05-07

Tether 的醫療 AI 可在您的手機上運行，且效能超越其 16 倍大的模型

相似度 180%關鍵字 runs/your/phone

2026-05-28

紀律嚴明的 AI agents 是打破交易所流失模式所需的顛覆者

相似度 130%關鍵字 model/agents

2026-05-27

華為的新基準測試讓 AI Agents 耗費數月生命，隨後看著它們失敗

相似度 130%關鍵字 agents/your

2026-04-27

惡意網頁正在劫持 AI Agents，且部分正鎖定您的 PayPal

相似度 100%關鍵字 agents/your

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：3da418d5d0

來源：Decrypt

發佈：2026-05-26 19:59:20

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言