要闻列表这款开源手机AI Agent能看、能听、能行动——全程无需触及云端
Decrypt2026-05-18 18:13:41

这款开源手机AI Agent能看、能听、能行动——全程无需触及云端

ORIGINALThis Open-Source Phone AI Agent Sees, Hears and Acts—All Without Touching the Cloud
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯5147 字
簡述 - X-OmniClaw 是 Oppo 推出的開源 Android AI agent,核心邏輯保留在裝置端,僅在需要高層次推理時才呼叫雲端。 - 該框架會從你的相簿和會話歷史中構建長期語義記憶,使其成為持續性的助手,而不是一次性的聊天機器人。 - 行為克隆功能讓用戶只需錄製一次導航路徑,agent 之後就能透過 Android deeplink 即時重播,省去未來會話中多步驟的應用導航。 你的手機已經有相機、麥克風和螢幕。它能看到你在現實中正在看什麼,也能看到自己螢幕上發生了什麼。而現在,中國智慧型手機製造商 Oppo 的 AI 團隊發現,這些大多閒置未充分利用的硬體,正是打造一款真正實用的行動 AI agent 所需要的一切。 這個專案叫 X-OmniClaw,由 Multi-X Team 發布。它是一個面向 Android 的開源 AI agent 框架,能將你的手機變成一個免動手、具情境感知能力的助手,可在真實的應用程式中執行真實任務,而不必透過雲端複製的裝置來中轉所有操作。 大多數行動 AI 系統實際上並不在你的手機上運行。它們運行在雲端伺服器上,伺服器中託管著 Android 的虛擬副本,讓 AI 遠端點擊和滑動應用程式。結果是:無法存取你真正的相機、實際的照片或本地檔案——只是一個陌生人在使用你手機的複製品。 X-OmniClaw 採取了相反的做法。根據技術報告,它引入了「一種邊緣原生架構,直接在用戶的實體裝置上執行,從而消除了模擬環境與真實世界互動情境之間的差距」。 報告用了一個汽車的比喻:智慧型手機是「車輛」,X-OmniClaw 是「用於控制和感知的內部引擎」,而基於雲端的語言模型僅在需要繁重推理時作為「燃料」介入。其他所有運作都保留在本地。 Oppo AI 手機 agent 的運作方式 根據 Oppo,X-OmniClaw 的整體架構建立在三大支柱之上:Omni Perception、Omni Action 和 Omni Memory,三者作為一個連續的循環協同運作,僅在需要繁重推理時才呼叫雲端 LLM。 Omni Perception 涵蓋手機能感知的一切。它將相機畫面、螢幕內容和語音輸入整合到單一管道中。視覺語言模型會先解讀場景,然後 agent 才採取任何行動。因此,當你把相機對準一個瓶子並問「這個多少錢?」時,agent 會先弄清楚你在看什麼,接著開啟相應的購物應用程式並開始搜尋。完全不需要猜測。 Omni Memory 是讓 X-OmniClaw 區別於一次性聊天機器人的關鍵。該 agent 能跨任務、跨應用切換和跨會話維持情境。它還會從你的相簿建立長期語義記憶,將原始圖像轉化為關於物件、場景和事件的結構化筆記。報告指出:「執行時的連續性正是讓 X-OmniClaw 能作為持續性裝置 agent 運作的關鍵,而不是一次性的回應系統。」 Omni Action 負責執行。它結合 XML 介面資料、裝置端的視覺模型以及 OCR(一種字元識別層),即使在結構資訊不足的廣告密集螢幕上,也能精準判斷該點擊何處。它還包含行為克隆功能:你只需錄製一次自己導航到深層應用頁面的過程,agent 下次就能透過 Android deeplink 捷徑即時重播該路徑。 Oppo AI agent 實際能做什麼 Oppo 分享了該模型能執行的一些任務。例如,agent 透過相機識別實體商品,開啟 Taobao,滑動結果,並回傳價格摘要——完全不需要打字。 Oppo 還演示了一個浮動的螢幕內伴侶,能協助用戶逐步解答數學練習題:自主讀取螢幕、處理每一道題目,並在完成後自動推進。 另一個範例是用戶請 agent 從鸚鵡主題的照片中剪輯出精彩集錦影片。系統會掃描相簿,利用其語義記憶找到匹配的照片,透過 deeplink 開啟 CapCut 影片編輯器,批次選取檔案,並生成影片。過去需要「幾分鐘甚至更長時間」的工作,如今變成幾個自動化步驟。 2026:agentic AI 之年 AI agent 已成為科技領域最熱議的類別之一。OpenClaw——這個開源 agent 框架在 GitHub 上獲得超過 373,000 顆星,最終獲得 OpenAI 的支持——透過展示持久、本地運行的 agent 在 PC 上能做到什麼,開啟了當前這波浪潮。Nous Research 的 Hermes Agent 則更進一步,引入了一個自我改進的學習循環,能隨時間累積能力。 兩者主要都在桌面硬體上運行。X-OmniClaw 將相同的架構延伸到你真正隨身攜帶的裝置上。團隊以開源的 HermesApp 程式碼庫為基礎打造,論文也明確指出 OpenClaw 的結構化技能模型是奠基性的靈感來源,並針對智慧型手機多模態、永遠在線的特性加以調整。 程式碼現已在 GitHub 上開放。Oppo 表示將釋出所有資源,並隨著系統演進持續更新該專案。
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:af1cf43ad1
来源:Decrypt
发布:2026-05-18 18:13:41
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言