Danh sách tinMiMo 2.5 Pro AI mới của Xiaomi có thể nhìn, nghe và hành động—tất cả trong một mô hình duy nhất
Decrypt2026-04-22 19:42:35

MiMo 2.5 Pro AI mới của Xiaomi có thể nhìn, nghe và hành động—tất cả trong một mô hình duy nhất

ORIGINALXiaomi's New MiMo 2.5 Pro AI Can See, Hear, and Act—All in One Model
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯5703 từ
Tóm tắt - Xiaomi đã ra mắt MiMo-V2.5 và V2.5-Pro, kết hợp các khả năng văn bản, hình ảnh, âm thanh và video vào một mô hình AI đa phương thức duy nhất. - Phiên bản Pro cạnh tranh với các mô hình tiên tiến hàng đầu trong các bài kiểm tra về lập trình và tác nhân (agentic), đồng thời cải thiện đáng kể hiệu suất token và chi phí. - Các mô hình mới đánh dấu bước tiến nhanh chóng của Xiaomi trong lĩnh vực AI, với kế hoạch mã nguồn mở và sự lặp lại mạnh mẽ sau khi đạt được tỷ lệ chấp nhận cao trên các nền tảng như OpenRouter. Xiaomi vừa ra mắt một dòng mô hình AI mới. Lại một lần nữa. Vài tuần trước, công ty đã tung ra MiMo-V2-Pro—một mô hình có hàng nghìn tỷ tham số đã âm thầm lưu hành trên OpenRouter dưới bí danh "Hunter Alpha" trước khi Xiaomi tiết lộ danh tính. Nó đã đi từ vô danh trở thành hàng đầu chỉ sau một đêm. Chúng tôi đã thử nghiệm và nó thực sự ấn tượng. Giờ đây, Xiaomi trở lại với MiMo-V2.5 và MiMo-V2.5-Pro, một dòng gồm hai mô hình bổ sung thứ mà thế hệ trước chưa từng có trong một gói duy nhất: mắt, tai và khả năng xử lý video. Ồ, và công ty có kế hoạch mở mã nguồn các mô hình này trong tương lai gần. V2-Pro chỉ dành cho văn bản và mã nguồn. Khả năng đa phương thức đã tồn tại ở mô hình anh em của nó là MiMo-V2-Omni, nhưng đó là một sản phẩm riêng biệt với điểm số benchmark thấp hơn. MiMo-V2.5 hợp nhất tất cả những điều đó vào một mô hình duy nhất—nhanh hơn, có năng lực hơn và tích hợp sẵn khả năng hiểu hình ảnh, video và âm thanh ngay từ đầu. Điều đó quan trọng hơn vẻ ngoài đối với người dùng thông thường. Ví dụ, bây giờ bạn có thể tải lên một bức ảnh tủ lạnh của mình và yêu cầu nó gợi ý công thức nấu bữa tối. Thả vào một video hướng dẫn và nhận bản tóm tắt từng bước. Ghi âm một cuộc họp và yêu cầu nó trích xuất các mục hành động. Tất cả ở cùng một nơi, không cần phải xoay xở với các công cụ riêng biệt và các mô hình riêng biệt với các chiến lược giá khác nhau. Xiaomi tuyên bố MiMo-V2.5-Pro đại diện cho "một bước nhảy vọt lớn từ MiMo-V2-Pro về khả năng tác nhân tổng quát, kỹ thuật phần mềm phức tạp và các tác vụ dài hạn", và cho biết hiện nó sánh ngang với các mô hình tiên tiến như Claude Opus 4.6 và GPT-5.4 trong hầu hết các bài kiểm tra lập trình và tác nhân. Các con số phần lớn chứng minh điều đó—với một số khoảng cách vẫn còn hiển hiện trong các tác vụ suy luận khó hơn. Các mô hình cơ sở và pro phục vụ các mục đích khác nhau. MiMo-V2.5-Pro là "cỗ máy" hạng nặng. Xiaomi cho biết nó có thể "tự động hoàn thành các tác vụ chuyên nghiệp liên quan đến hơn 1.000 lệnh gọi công cụ, công việc mà các chuyên gia con người phải mất nhiều ngày". Đó là dành cho các nhà phát triển chạy các quy trình tự động hóa phức tạp, nhiều bước. Nó chạy ở tốc độ 60–80 token mỗi giây và có giá 1,00 USD đầu vào / 3,00 USD đầu ra cho mỗi triệu token. MiMo-V2.5 là phiên bản hàng ngày. Nhanh hơn (100–150 token mỗi giây), rẻ hơn (0,40 USD đầu vào / 2,00 USD đầu ra) và hỗ trợ tất cả các phương thức—hình ảnh, âm thanh và video mà phiên bản Pro-only bỏ qua. Cả hai mô hình đều mang cửa sổ ngữ cảnh 1 triệu token, nghĩa là chúng có thể chứa khoảng 750.000 từ trong một cuộc hội thoại duy nhất. Trên SWE-bench Pro—một bài kiểm tra lập trình nơi các mô hình sửa các lỗi thực tế trong các codebase khởi nghiệp thực tế, được chấm điểm theo tỷ lệ vượt qua trên 100—MiMo-V2.5-Pro giải quyết được 57,2% tác vụ. Đó là gần mức dẫn đầu trong lĩnh vực này; mô hình trung bình đạt khoảng 25%. Câu chuyện tương tự trên τ3-bench và ClawEval, nơi nó đạt điểm số cách biệt vài điểm so với
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản2 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:ca63fe28aa
Nguồn:Decrypt
Đăng:2026-04-22 19:42:35
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận
MiMo 2.5 Pro AI mới của Xiaomi có thể nhìn, nghe và hành động—tất cả trong một mô hình duy nhất | Feel.Trading