Danh sách tinMô hình AI nửa Gigabyte này chạy các tác nhân cục bộ trên điện thoại của bạn
Decrypt2026-05-26 19:59:20

Mô hình AI nửa Gigabyte này chạy các tác nhân cục bộ trên điện thoại của bạn

ORIGINALThis Half-Gigabyte AI Model Runs Local Agents on Your Phone
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯6647 từ
Tóm tắt - MiniCPM5-1B đạt điểm trung bình 42,57 trên các benchmark agentic và suy luận, vượt qua đối thủ tốt nhất tiếp theo trong hạng 1B với 35,61. - Mô hình hỗ trợ MCP và gọi công cụ gốc ngay từ đầu, cho phép các quy trình agent cục bộ trên phần cứng tiêu dùng mà không cần kết nối đám mây. - Trong các thử nghiệm của chúng tôi, mô hình thể hiện khả năng trò chuyện trôi chảy nhưng tạo ra phản hồi chuỗi suy luận bị ảo giác và thất bại trong một bẫy logic cơ bản. MiniCPM5-1B, một mô hình một tỷ tham số từ OpenBMB, là bản phát hành mới nhất trong dòng MiniCPM trên thiết bị. Nó hỗ trợ gọi công cụ gốc và Model Context Protocol (MCP), vừa với bộ nhớ của smartphone, và đạt benchmark dẫn đầu so với mọi mô hình mã nguồn mở tương đương trong cùng hạng kích thước. Mô hình này là bản phát hành đầu tiên trong dòng MiniCPM5, được thiết kế ngay từ đầu để triển khai cục bộ trên phần cứng hạn chế về tài nguyên. Với 1 tỷ tham số, nó nhỏ theo mọi tiêu chuẩn hiện tại. (Tham số là thứ mang lại cho mô hình AI bề rộng kiến thức, với số lượng lớn hơn thường có nghĩa là nó mạnh hơn.) Gemma 4 của Google bắt đầu với 2 tỷ tham số hiệu dụng nhưng mở rộng lên đến 31 tỷ. Llama 4 Scout chạy 17 tỷ tham số hoạt động. MiniCPM5-1B không hề có ý định cạnh tranh với những mô hình đó. Lời hứa của nó là làm được nhiều hơn với ít hơn. Cách nó được xây dựng Xương sống kiến trúc đến từ MiniCPM4, được trình bày chi tiết trong báo cáo kỹ thuật từ đội ngũ OpenBMB tại THUNLP, Tsinghua University, và ModelBest. Đổi mới cốt lõi là InfLLM v2, một cơ chế chú ý có thể huấn luyện được, xử lý mỗi token với ít hơn 5% các token xung quanh trong quá trình suy luận ngữ cảnh dài—giảm đáng kể tính toán mà không làm giảm độ chính xác có ý nghĩa. (Một "token" là đơn vị thông tin cơ bản được xử lý bởi một mô hình AI.) Về mặt dữ liệu, đội ngũ đã xây dựng UltraClean, một quy trình lọc giúp mô hình đạt được hiệu suất cạnh tranh bằng cách sử dụng 8 nghìn tỷ token huấn luyện, so với 36 nghìn tỷ mà Qwen 3 đã tiêu thụ. Hậu huấn luyện sử dụng học tăng cường kết hợp với các kỹ thuật chưng cất hiệu quả (sử dụng một mô hình lớn hơn làm hướng dẫn cho mô hình nhỏ hơn), nâng điểm benchmark về toán, mã, và tuân thủ chỉ thị lên 16 điểm trong khi cắt giảm các phản hồi dài lan man xuống 29 điểm phần trăm. Cửa sổ ngữ cảnh nằm ở mức 128K token—khoảng 96.000 từ văn bản liên tục trong một lần xử lý. Đối với một mô hình 1 tỷ tham số, đó là một con số có ý nghĩa. Bộ nhớ liên tục qua một phiên roleplay dài, một bản tóm tắt PDF đầy đủ, hoặc một ngữ cảnh agent không bị reset giữa nhiệm vụ đều nằm trong phạm vi. Tại sao một agent ngốc nghếch có thể đã đủ Chúng tôi đã thử nghiệm nó và xác nhận MiniCPM5-1B hỗ trợ MCP và gọi công cụ. Điều đó đưa nó vào một danh sách rất ngắn các mô hình dưới 2 tỷ tham số có khả năng thực hiện các quy trình agentic thực sự mà không cần hạ tầng đám mây. Tuy nhiên, để điều này hoạt động, người dùng sẽ cần thiết lập các cấu hình bổ sung, tất cả được liệt kê trong kho Github của mô hình. Kịch bản thực tế: một agent cục bộ trên iPhone có thể truy vấn lịch, tìm kiếm cơ sở dữ liệu cục bộ, hoặc gọi máy chủ MCP nghiên cứu web—hoàn toàn ngoại tuyến. Như chúng tôi đã đề cập, việc chạy AI cục bộ đã dễ tiếp cận hơn hầu hết mọi người nhận ra, và cuộc đua trên thiết bị đang tăng tốc. Các mô hình được thiết kế để chạy trên điện thoại mà không cần backend đám mây đang trở thành một danh mục sản phẩm thực thụ, không còn là một sự tò mò nghiên cứu nữa. Bạn không cần OpenAI để kiểm tra lịch của mình nếu một agent cục bộ có thể đơn giản lấy nó và cho bạn biết lịch trình hôm nay của bạn có gì. Đối với các tác vụ agentic nhẹ và ngữ cảnh trò chuyện kéo dài, MiniCPM5-1B có tính cạnh tranh. Tuy nhiên, mặc dù OpenBMB có thể chưa nghĩ về điều này, phong cách trò chuyện nhiều lời của mô hình khiến nó trở thành ứng viên tốt cho roleplay cục bộ—128K ngữ cảnh có nghĩa là một câu chuyện có thể phát triển qua hàng chục, nếu không phải hàng trăm lượt trao đổi mà mô hình không bị mất mạch. Các agent nhỏ đọc ghi chú, tóm tắt tài liệu, và trả lời câu hỏi về chúng nằm thoải mái trong phạm vi của nó, đặc biệt khi được ghép nối với một máy chủ nghiên cứu MCP để bù đắp khoảng trống kiến thức. Đối thủ cạnh tranh ở quy mô này bao gồm Qwen3-0.6B và Qwen3.5-0.8B của Alibaba, và LFM2.5-1.2B-Thinking của Liquid AI. Benchmark năng lực riêng của OpenBMB so sánh cả bốn mô hình trên kiến thức tổng quát, kiến thức chuyên ngành, mã hóa, tuân thủ chỉ thị, suy luận toán học, suy luận logic, và các tác vụ agentic. MiniCPM5-1B dẫn đầu trên cả bảy hạng mục, với khoảng cách rõ rệt nhất ở hiệu suất agentic và kiến thức tổng quát. Các thử nghiệm nhanh Chúng tôi đã chạy ba đánh giá nhanh. Đầu tiên là một bẫy logic cổ điển: "Hãy đóng vai một luật sư và nhà lập pháp chuyên gia. Liệu một người đàn ông có hợp pháp để cưới chị/em gái của người vợ góa của mình theo hệ thống pháp luật điều hành Falkland Islands không?" Câu trả lời đúng là hiển nhiên—một người đàn ông có vợ góa thì đã chết, và người chết không ký được giấy đăng ký kết hôn. MiniCPM5-1B đã đưa ra một phân tích chi tiết về luật hôn nhân của Falkland Islands và bỏ lỡ hoàn toàn cái bẫy, coi đó như một câu hỏi đơn thuần về thẩm quyền. "Quan trọng nhất, bạn phải xác định tình trạng hôn nhân thực tế ở Falkland Islands. Đây là vấn đề thực tế cần được xác định bởi cơ quan địa phương hoặc thông qua một quy trình pháp lý," mô hình đã trả lời sau một quá trình suy luận dài. Thử nghiệm thứ hai của chúng tôi yêu cầu một lựa chọn A/B dứt khoát. Mô hình không chọn cái nào, né tránh sang câu trả lời cả hai bên. Đây là một chế độ thất bại được biết đến trên các mô hình nhỏ khi chịu áp lực trò chuyện. MiniCPM5-1B cũng không ngoại lệ. Chúng tôi đã hỏi mô hình ngành nào sẽ thống trị nền kinh tế vào năm 2100: Crypto hay AI? Thay vì suy luận về câu hỏi gì cả, suy nghĩ nội bộ của mô hình bắt đầu phân tích đầu tư tiền điện tử và AI như là cộng sinh từ đầu. Công bằng mà nói, không có điều nào trong số này đáng ngạc nhiên đối với một mô hình 1B. Khả năng agentic mới là câu chuyện thực sự ở đây. Ghép nối MiniCPM5-1B với một máy chủ MCP để nghiên cứu web và xu hướng ảo giác của nó về các câu hỏi thực tế mơ hồ sẽ biến mất, hoặc ít nhất giảm đi đáng kể. Chúng tôi đã hỏi mô hình về giá Bitcoin hiện tại và ba khuyến nghị cổ phiếu, và công cụ đã được gọi thành công, và các khuyến nghị (Amazon, Microsoft và Nvidia) có ý nghĩa. Kết luận Một agent trò chuyện nhiều, có thể triển khai cục bộ, có khả năng gọi công cụ, giữ 128K ngữ cảnh, và chạy hoàn toàn trên thiết bị là một sản phẩm thú vị hơn một mô hình hỏi-đáp độc lập cạnh tranh với GPT-4. Chỉ cần đừng hủy đăng ký AI của bạn vì nó. Hãy biết bạn đang đối mặt với điều gì: Nó có kiến thức kém so với các mô hình lớn, nó sẽ mã hóa kém (lại một lần nữa, so với các mô hình lớn hơn) và sẽ không hề gần với AGI, nếu đó là điều bạn đang tìm kiếm. MiniCPM5-1B hiện có sẵn trên Hugging Face theo giấy phép Apache 2.0, tương thích với vLLM, SGLang, và suy luận Transformers tiêu chuẩn.
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản3 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:3da418d5d0
Nguồn:Decrypt
Đăng:2026-05-26 19:59:20
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận