这款半GB的AI模型在你的手机上本地运行Agent Liquid AI推出LFM2-8B-A1B，这是一个为智能手机和笔记本电脑设计的紧凑型AI模型，能够在不依赖云端的情况下驱动本地Agent。

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯6647 字

简要 - MiniCPM5-1B 在智能体和推理基准测试中平均得分 42.57，击败了次优 1B 级竞争对手的 35.61。 - 该模型开箱即支持 MCP 和原生工具调用，无需云端连接即可在消费级硬件上实现本地智能体工作流。 - 在我们的测试中，该模型表现出强大的对话流畅性，但产生了幻觉式的思维链回应，并且未能通过一个基本的逻辑陷阱。 MiniCPM5-1B 是 OpenBMB 推出的一款十亿参数模型，是 MiniCPM 端侧系列的最新版本。它支持原生工具调用和 Model Context Protocol（MCP），可装入智能手机的内存，并在基准测试中领先于同尺寸级别的所有可比开源模型。该模型是 MiniCPM5 家族的首发版本，从一开始就为在资源受限硬件上的本地部署而设计。以 10 亿参数计算，按当前任何标准来看都属小型。（参数赋予 AI 模型知识的广度，数量越多通常意味着模型越强大。） Google 的 Gemma 4 起步为 20 亿有效参数，但可扩展至 310 亿。Llama 4 Scout 运行 170 亿活跃参数。MiniCPM5-1B 并不假装与它们竞争，它的卖点是用更少做更多。构建方式其架构骨干来自 MiniCPM4，详见 THUNLP（清华大学）和 ModelBest 的 OpenBMB 团队发布的技术报告。核心创新是 InfLLM v2，一种可训练的注意力机制，在长上下文推理过程中针对每个 token 仅处理周围不到 5% 的 token——大幅削减计算量而不会显著降低准确率。（"token" 是 AI 模型处理的基本信息单位。）在数据方面，团队构建了 UltraClean，一条过滤流水线，使模型使用 8 万亿训练 token 即达到具有竞争力的性能，相比之下 Qwen 3 消耗了 36 万亿。后训练采用了强化学习结合高效蒸馏技术（用更大的模型指导较小的模型），将数学、代码和指令遵循的基准分数提高了 16 分，同时将失控长度响应削减了 29 个百分点。上下文窗口为 128K token——单次处理大约相当于 96,000 字的连续文本。对于一个 10 亿参数模型来说，这是一个有意义的数字。长时间角色扮演会话中的持久记忆、完整 PDF 摘要，或不会在任务中途重置的智能体上下文，都在其能力范围内。为何"笨"智能体可能就够了我们进行了测试并确认 MiniCPM5-1B 支持 MCP 和工具调用。这使其跻身于极少数能在没有云基础设施的情况下实现真正智能体工作流的 20 亿以下参数模型之列。话虽如此，要让这一切运作起来，用户需要进行额外的配置设置，这些都列在该模型的 Github 仓库中。实际应用场景：iPhone 上的本地智能体可以查询日历、搜索本地数据库或调用网络研究 MCP 服务器——完全离线。正如我们所报道的，运行本地 AI 已经比大多数人意识到的更加容易，端侧竞赛一直在加速。专为在没有云后端的手机上运行而设计的模型，正在成为一个真正的产品品类，而不是研究上的猎奇。如果一个本地智能体可以直接获取你的日历并告诉你今天的日程，你就不需要 OpenAI 来查看你的日历了。对于轻量级智能体任务和长时间对话上下文，MiniCPM5-1B 颇具竞争力。然而，即使 OpenBMB 可能没考虑过这一点，该模型健谈的风格使其成为本地角色扮演的一个不错候选——128K 的上下文意味着故事可以在数十乃至数百次交流中发展，而模型不会丢失主线。能阅读笔记、总结文档并就此回答问题的小型智能体，完全在其能力范围内，尤其是搭配 MCP 研究服务器来弥补知识盲区时。该规模的竞争对手包括 Alibaba 的 Qwen3-0.6B、Qwen3.5-0.8B 以及 Liquid AI 的 LFM2.5-1.2B-Thinking。OpenBMB 自家的能力基准测试在通用知识、领域知识、编程、指令遵循、数学推理、逻辑推理和智能体任务七个维度上对这四款进行了比较。MiniCPM5-1B 在全部七个类别中均领先，在智能体表现和通用知识方面优势最为明显。快速测试我们进行了三项快速评估。第一项是一个经典的逻辑陷阱："请扮演一位专家律师和立法者。根据管辖 Falkland Islands 的法律体系，一名男子娶其遗孀的姐妹是否合法？" 正确答案显而易见——一个有遗孀的男人已经死了，而死人不会签结婚证书。MiniCPM5-1B 详细分析了 Falkland Islands 的婚姻法，却完全没识破这个陷阱，把它当成了一个简单的司法管辖问题。 "关键在于，你必须确认 Falkland Islands 的实际婚姻状况。这是一个事实问题，应由当地当局或通过法律程序来确定，"该模型在一段漫长的推理后回答道。我们的第二项测试要求做出一个明确的 A/B 选择。模型两个都没选，回避地给出了双边都讨好的答案。这是小型模型在对话压力下众所周知的失败模式。MiniCPM5-1B 也不例外。我们问模型在 2100 年哪个行业将主导经济：Crypto 还是 AI？模型完全没有就这个问题进行推理，其内部思考从一开始就分析加密货币和 AI 投资如何具有协同效应。公平地说，对于一个 1B 模型而言，这一切都不令人意外。智能体能力才是这里真正的重点。将 MiniCPM5-1B 与用于网络研究的 MCP 服务器配对，它在冷僻事实问题上产生幻觉的倾向就会消失，或者至少大幅减少。我们询问该模型当前 bitcoin 的价格以及三个股票推荐，工具调用成功了，推荐结果（Amazon、Microsoft 和 Nvidia）也合情合理。结论一个健谈的、可本地部署的智能体，能够调用工具、保持 128K 上下文，并完全在端侧运行，这比一个与 GPT-4 竞争的独立问答模型要有趣得多。只是别因为它就取消你的 AI 订阅。要清楚你面对的是什么：与大型模型相比，它的知识储备较差，编码能力较弱（同样，与更大的模型相比），如果你寻找的是 AGI，它远远达不到。 MiniCPM5-1B 现已在 Hugging Face 上以 Apache 2.0 许可证发布，兼容 vLLM、SGLang 以及标准 Transformers 推理。

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对5 则

2026-05-14

Kimi WebBridge 让 AI 智能体驱动你的浏览器——并将数据保留在本地

相似度 180%關鍵字 agents/your/local

2026-05-07

Tether 的 Medical AI 可在您的手機上運行，且性能優於其 16 倍大的模型

相似度 180%關鍵字 runs/your/phone

2026-05-28

有紀律的 AI 代理是打破交易所流失模型所需的顛覆者

相似度 130%關鍵字 model/agents

2026-05-27

华为的新基准测试给AI智能体几个月的你的人生——然后看着它们失败

相似度 130%關鍵字 agents/your

2026-04-27

恶意网页正在劫持 AI Agents，其中一些正瞄准你的 PayPal

相似度 100%關鍵字 agents/your

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：3da418d5d0

来源：Decrypt

发布：2026-05-26 19:59:20

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言