這款開源手機 AI Agent 能看、能聽、能行動——全程無需連接雲端

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯5147 字

簡要摘要 - X-OmniClaw 是 Oppo 推出的開源 Android AI agent，核心邏輯保留在裝置端，僅在需要高階推理時才呼叫雲端。 - 此框架會從你的相簿與對話紀錄中建立長期語意記憶，使其能作為持續性的助理，而非一次性的聊天機器人。 - 行為複製（behavior cloning）功能讓使用者只需錄製一次導航路徑，agent 便可透過 Android deeplink 立即重播，省去未來操作中多步驟的 app 導覽。你的手機已經有相機、麥克風與螢幕。它能看見你現實生活中正在注視的事物，也能看見自己螢幕上正在發生的內容。如今，中國智慧型手機製造商 Oppo 的 AI 團隊發現，那些大多閒置未用的硬體，正是打造真正實用的行動 AI agent 所需的一切。這個專案叫做 X-OmniClaw，由 Multi-X Team 發表。它是一個針對 Android 的開源 AI agent 框架，能將你的手機變成免持、具情境感知能力的助理，可跨越各種實際 app 執行真正的任務，而不必將所有操作導向雲端上你裝置的副本。大多數行動 AI 系統其實並不是在你的手機上執行。它們是在雲端伺服器上執行，伺服器內託管著 Android 的虛擬副本，讓 AI 遠端點擊與滑動 app。結果是：無法存取你真正的相機、實際的照片或本地檔案——只是一個陌生人在使用你手機的副本。 X-OmniClaw 採取相反的做法。根據技術報告，它引入了「一種 edge-native 架構，直接在使用者的實體裝置上執行，藉此消除模擬環境與真實互動情境之間的落差」。報告以汽車作比喻：智慧型手機是「載具」，X-OmniClaw 是「負責控制與感知的內部引擎」，而雲端語言模型僅在需要大量推理時才作為「燃料」被呼叫。其餘所有運作都保留在本地。 Oppo AI 手機 agent 的運作方式根據 Oppo 的說法，X-OmniClaw 的整體架構建立在三大支柱之上：Omni Perception、Omni Action 與 Omni Memory，三者構成一個連續循環運作，僅在需要高階推理時才呼叫雲端 LLM。 Omni Perception 涵蓋手機能感知的一切。它將相機畫面、螢幕內容與語音輸入整合進單一管線。在 agent 採取任何行動之前，先由一個 vision-language model 解讀場景。因此，若你將相機對準一個瓶子並問「這多少錢？」，agent 會先判斷你正在看的是什麼，再開啟相應的購物 app 並開始搜尋。無需猜測。 Omni Memory 是 X-OmniClaw 與一次性聊天機器人的差異所在。Agent 能在多個任務、app 切換與多次對話之間維持情境。它還會從你的相簿建立長期語意記憶，把原始圖像轉化為關於物件、場景與事件的結構化筆記。報告指出：「執行時的延續性，正是讓 X-OmniClaw 得以作為持續運作的裝置 agent，而非一次性回應系統的關鍵。」 Omni Action 負責執行。它結合 XML 介面資料、裝置端視覺模型與 OCR（一層字元辨識），即使在結構資訊不足、廣告充斥的畫面上，也能精準判斷該點擊何處。它也包含 behavior cloning：你只需錄製一次導航至某個深層 app 頁面的過程，下次 agent 就能透過 Android deeplink 捷徑立即重播該路徑。 Oppo AI agent 實際能做什麼 Oppo 分享了該模型可執行的一些案例。例如，agent 透過相機辨識實體商品，開啟 Taobao，滑動搜尋結果，並回傳價格摘要——完全無需輸入。 Oppo 也展示了一個浮動在螢幕上的伴隨助理，能逐步協助使用者完成數學練習：自主讀取螢幕內容、處理每一道題目，並在完成後自動推進。另一個範例是使用者請 agent 用鸚鵡主題的照片組成一段精華影片。系統會掃描相簿，運用語意記憶找出符合的照片，透過 deeplink 開啟 CapCut 影片編輯器，批次選取檔案並生成影片。過去需要「數分鐘或更久」的工作，如今變成寥寥數個自動化步驟。 2026：agentic AI 之年 AI agent 已成為科技界最常被討論的類別之一。OpenClaw——這個開源 agent 框架在 GitHub 上獲得超過 373,000 顆星、最終得到 OpenAI 的支持——透過展示持續性、本地執行的 agent 能在 PC 上做到什麼，掀起了當前這波浪潮。Nous Research 推出的 Hermes Agent 更進一步，引入能隨時間累積能力的自我改進學習循環。兩者主要都在桌面硬體上運行。X-OmniClaw 則將相同架構延伸到你每天隨身攜帶的裝置。團隊在開源的 HermesApp 程式碼基礎上開發，論文也明確指出 OpenClaw 的結構化技能模型是基礎靈感來源，並將其改造以適應智慧型手機多模態、永遠在線的特性。程式碼現已上架 GitHub。Oppo 表示將釋出所有資源，並隨系統演進持續更新此專案。

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-05-26

AI 護欄移除引發外界對開源模型監管界線的質疑

相似度 130%關鍵字 open/source

2026-05-15

X 演算法程式碼庫在開源承諾四個月後仍停留在單一 commit

相似度 130%關鍵字 open/source

2026-05-13

Tea Protocol 宣布將於 6 月 4 日啟動主網並在 Aerodrome 進行 TGE，旨在 AI 時代保障開源開發。

相似度 130%關鍵字 open/source

2026-05-10

BTC 未平倉合約爆發式增長，超越 2025 年歷史新高水平

相似度 130%關鍵字 all/open

2026-04-30

Mistral AI 發布全新開源模型。網際網路反應冷淡，唯獨一點除外

相似度 100%關鍵字 open/source

2026-04-27

Bernstein 認為 IREN 正從 Bitcoin 挖礦轉向價值 37 億美元的 AI 雲端業務

相似度 100%關鍵字 cloud/sees

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：af1cf43ad1

來源：Decrypt

發佈：2026-05-18 18:13:41

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言