Danh sách tinAI Agent Điện Thoại Mã Nguồn Mở Này Có Thể Nhìn, Nghe và Hành Động—Hoàn Toàn Không Cần Đến Cloud
Decrypt2026-05-18 18:13:41

AI Agent Điện Thoại Mã Nguồn Mở Này Có Thể Nhìn, Nghe và Hành Động—Hoàn Toàn Không Cần Đến Cloud

ORIGINALThis Open-Source Phone AI Agent Sees, Hears and Acts—All Without Touching the Cloud
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯5147 từ
Tóm tắt - X-OmniClaw là một AI agent mã nguồn mở dành cho Android từ Oppo, giữ logic cốt lõi chạy trên thiết bị và chỉ gọi đến đám mây cho các tác vụ suy luận cấp cao. - Khung này xây dựng bộ nhớ ngữ nghĩa dài hạn từ thư viện ảnh và lịch sử phiên của bạn, cho phép nó hoạt động như một trợ lý liên tục thay vì một chatbot dùng một lần. - Tính năng nhân bản hành vi (behavior cloning) cho phép người dùng ghi lại một lộ trình điều hướng một lần để agent có thể phát lại ngay lập tức thông qua Android deeplink, bỏ qua các bước điều hướng nhiều lớp trong ứng dụng ở các phiên sau. Điện thoại của bạn đã có sẵn camera, micro và màn hình. Nó có thể nhìn thấy những gì bạn đang nhìn trong đời thực và những gì đang diễn ra trên màn hình của chính nó. Và giờ đây, đội ngũ AI từ nhà sản xuất điện thoại thông minh Trung Quốc Oppo đã nhận ra rằng tất cả phần cứng đang nằm đó, phần lớn không được tận dụng, chính là thứ bạn cần để xây dựng một AI agent di động thực sự hữu ích. Dự án đó là X-OmniClaw, được công bố bởi Multi-X Team. Đây là một khung AI agent mã nguồn mở dành cho Android, biến điện thoại của bạn thành một trợ lý rảnh tay, nhận thức được ngữ cảnh, có khả năng thực thi các tác vụ thực tế trên các ứng dụng thực, mà không cần định tuyến mọi thứ qua một bản sao đám mây của thiết bị. Hầu hết các hệ thống AI di động không thực sự chạy trên điện thoại của bạn. Chúng chạy trên các máy chủ đám mây lưu trữ các bản sao ảo của Android, cho phép AI nhấn và cuộn qua các ứng dụng từ xa. Kết quả: không có quyền truy cập vào camera thực của bạn, ảnh thực của bạn, hay tệp tin cục bộ — chỉ là một người lạ đang dùng một bản sao của điện thoại bạn. X-OmniClaw đi theo hướng ngược lại. Theo báo cáo kỹ thuật, nó giới thiệu "một kiến trúc edge-native (gốc tại thiết bị biên) thực thi trực tiếp trên thiết bị vật lý của người dùng, qua đó xóa bỏ khoảng cách giữa môi trường mô phỏng và bối cảnh tương tác trong thế giới thực." Báo cáo dùng một phép so sánh với xe hơi: Điện thoại thông minh là "phương tiện," X-OmniClaw là "động cơ nội tại cho điều khiển và nhận thức," còn mô hình ngôn ngữ trên đám mây chỉ được gọi đến như "nhiên liệu" khi cần suy luận nặng. Mọi thứ khác đều ở lại cục bộ. Cách hoạt động của AI phone agent của Oppo Theo Oppo, kiến trúc tổng thể của X-OmniClaw dựa trên ba trụ cột: Omni Perception, Omni Action và Omni Memory, hoạt động như một vòng lặp liên tục duy nhất, với các LLM đám mây chỉ được gọi đến cho các tác vụ suy luận nặng. Omni Perception bao quát mọi thứ điện thoại có thể cảm nhận. Nó kết hợp luồng camera, nội dung màn hình và đầu vào giọng nói thành một quy trình duy nhất. Một mô hình thị giác-ngôn ngữ diễn giải cảnh trước khi agent làm bất cứ điều gì khác. Vì vậy, nếu bạn chĩa camera vào một cái chai và hỏi "nó giá bao nhiêu?", agent trước tiên sẽ xác định bạn đang nhìn thấy gì, sau đó mở ứng dụng mua sắm phù hợp và bắt đầu tìm kiếm. Không cần phải đoán. Omni Memory là điều phân biệt X-OmniClaw với một chatbot dùng một lần. Agent duy trì ngữ cảnh xuyên suốt các tác vụ, các lần chuyển đổi ứng dụng và các phiên. Nó cũng xây dựng bộ nhớ ngữ nghĩa dài hạn từ thư viện ảnh của bạn, biến hình ảnh thô thành các ghi chú có cấu trúc về các đối tượng, cảnh và sự kiện. Báo cáo nêu rõ "tính liên tục khi vận hành (runtime continuity) chính là yếu tố cho phép X-OmniClaw hoạt động như một device agent liên tục, chứ không phải một hệ thống phản hồi một lần." Omni Action xử lý việc thực thi. Nó kết hợp dữ liệu giao diện XML với một mô hình thị giác trên thiết bị và OCR — một lớp nhận dạng ký tự — để xác định chính xác cần nhấn vào đâu, ngay cả trên những màn hình đầy quảng cáo, nơi mà chỉ riêng cấu trúc thôi là không đủ. Nó cũng bao gồm tính năng nhân bản hành vi: ghi lại quá trình bạn điều hướng đến một trang ứng dụng được giấu sâu một lần, và lần sau agent có thể phát lại lộ trình đó ngay lập tức bằng cách dùng phím tắt Android deeplink. AI agent của Oppo thực sự có thể làm gì Oppo đã chia sẻ một số việc mà mô hình có thể làm. Ví dụ, agent nhận diện một sản phẩm vật lý qua camera, mở Taobao, cuộn xem kết quả và trả về bản tóm tắt giá — không cần gõ phím. Oppo cũng trình diễn một người bạn đồng hành nổi trên màn hình giúp người dùng giải các bài tập toán từng bước: tự động đọc màn hình, xử lý từng câu hỏi và chuyển tiếp khi hoàn thành. Họ cũng đưa ra một ví dụ khác trong đó người dùng yêu cầu agent ghép một video highlight từ các bức ảnh có chủ đề con vẹt. Hệ thống quét thư viện, tìm các bức ảnh khớp bằng bộ nhớ ngữ nghĩa của nó, mở trình chỉnh sửa video của CapCut qua deeplink, chọn hàng loạt các tệp và tạo video. Điều trước đây mất "vài phút hoặc lâu hơn" giờ trở thành một vài bước được tự động hóa. 2026: Năm của AI agent (agentic AI) AI agent đã trở thành một trong những hạng mục được bàn luận nhiều nhất trong giới công nghệ. OpenClaw — khung agent mã nguồn mở đạt hơn 373.000 sao trên GitHub và cuối cùng được OpenAI hậu thuẫn — đã khởi đầu làn sóng hiện tại bằng cách cho thấy các agent bền bỉ, chạy cục bộ có thể làm gì trên PC. Hermes Agent của Nous Research đẩy mọi thứ đi xa hơn với một vòng lặp học tự cải thiện, tích lũy năng lực theo thời gian. Cả hai chủ yếu chạy trên phần cứng máy tính để bàn. X-OmniClaw mở rộng kiến trúc tương tự sang thiết bị mà bạn thực sự mang theo bên mình mọi lúc mọi nơi. Đội ngũ đã xây dựng dựa trên mã nguồn mở HermesApp, và bài báo nêu rõ rằng mô hình kỹ năng có cấu trúc của OpenClaw là nguồn cảm hứng nền tảng, sau đó được điều chỉnh cho bản chất đa phương thức, luôn hoạt động của một chiếc điện thoại thông minh. Mã nguồn hiện đã có trên GitHub. Oppo cho biết họ sẽ phát hành toàn bộ tài nguyên và tiếp tục cập nhật dự án khi hệ thống phát triển.
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:af1cf43ad1
Nguồn:Decrypt
Đăng:2026-05-18 18:13:41
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận