要聞列表這款開源手機 AI Agent 能看、能聽、能行動——全程無需連接雲端
Decrypt2026-05-18 18:13:41

這款開源手機 AI Agent 能看、能聽、能行動——全程無需連接雲端

ORIGINALThis Open-Source Phone AI Agent Sees, Hears and Acts—All Without Touching the Cloud
AI 影響分析xAI Grok · medium 信賴度
TL;DR

方向偏多開源手機 AI Agent 實現端側運算,無需雲端。

影響標的
FETTAORNDR
建議操作

關注 AI 與 DePIN 板塊龍頭

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯5147 字
簡要摘要 - X-OmniClaw 是 Oppo 推出的開源 Android AI agent,核心邏輯保留在裝置端,僅在需要高階推理時才呼叫雲端。 - 此框架會從你的相簿與對話紀錄中建立長期語意記憶,使其能作為持續性的助理,而非一次性的聊天機器人。 - 行為複製(behavior cloning)功能讓使用者只需錄製一次導航路徑,agent 便可透過 Android deeplink 立即重播,省去未來操作中多步驟的 app 導覽。 你的手機已經有相機、麥克風與螢幕。它能看見你現實生活中正在注視的事物,也能看見自己螢幕上正在發生的內容。如今,中國智慧型手機製造商 Oppo 的 AI 團隊發現,那些大多閒置未用的硬體,正是打造真正實用的行動 AI agent 所需的一切。 這個專案叫做 X-OmniClaw,由 Multi-X Team 發表。它是一個針對 Android 的開源 AI agent 框架,能將你的手機變成免持、具情境感知能力的助理,可跨越各種實際 app 執行真正的任務,而不必將所有操作導向雲端上你裝置的副本。 大多數行動 AI 系統其實並不是在你的手機上執行。它們是在雲端伺服器上執行,伺服器內託管著 Android 的虛擬副本,讓 AI 遠端點擊與滑動 app。結果是:無法存取你真正的相機、實際的照片或本地檔案——只是一個陌生人在使用你手機的副本。 X-OmniClaw 採取相反的做法。根據技術報告,它引入了「一種 edge-native 架構,直接在使用者的實體裝置上執行,藉此消除模擬環境與真實互動情境之間的落差」。 報告以汽車作比喻:智慧型手機是「載具」,X-OmniClaw 是「負責控制與感知的內部引擎」,而雲端語言模型僅在需要大量推理時才作為「燃料」被呼叫。其餘所有運作都保留在本地。 Oppo AI 手機 agent 的運作方式 根據 Oppo 的說法,X-OmniClaw 的整體架構建立在三大支柱之上:Omni Perception、Omni Action 與 Omni Memory,三者構成一個連續循環運作,僅在需要高階推理時才呼叫雲端 LLM。 Omni Perception 涵蓋手機能感知的一切。它將相機畫面、螢幕內容與語音輸入整合進單一管線。在 agent 採取任何行動之前,先由一個 vision-language model 解讀場景。因此,若你將相機對準一個瓶子並問「這多少錢?」,agent 會先判斷你正在看的是什麼,再開啟相應的購物 app 並開始搜尋。無需猜測。 Omni Memory 是 X-OmniClaw 與一次性聊天機器人的差異所在。Agent 能在多個任務、app 切換與多次對話之間維持情境。它還會從你的相簿建立長期語意記憶,把原始圖像轉化為關於物件、場景與事件的結構化筆記。報告指出:「執行時的延續性,正是讓 X-OmniClaw 得以作為持續運作的裝置 agent,而非一次性回應系統的關鍵。」 Omni Action 負責執行。它結合 XML 介面資料、裝置端視覺模型與 OCR(一層字元辨識),即使在結構資訊不足、廣告充斥的畫面上,也能精準判斷該點擊何處。它也包含 behavior cloning:你只需錄製一次導航至某個深層 app 頁面的過程,下次 agent 就能透過 Android deeplink 捷徑立即重播該路徑。 Oppo AI agent 實際能做什麼 Oppo 分享了該模型可執行的一些案例。例如,agent 透過相機辨識實體商品,開啟 Taobao,滑動搜尋結果,並回傳價格摘要——完全無需輸入。 Oppo 也展示了一個浮動在螢幕上的伴隨助理,能逐步協助使用者完成數學練習:自主讀取螢幕內容、處理每一道題目,並在完成後自動推進。 另一個範例是使用者請 agent 用鸚鵡主題的照片組成一段精華影片。系統會掃描相簿,運用語意記憶找出符合的照片,透過 deeplink 開啟 CapCut 影片編輯器,批次選取檔案並生成影片。過去需要「數分鐘或更久」的工作,如今變成寥寥數個自動化步驟。 2026:agentic AI 之年 AI agent 已成為科技界最常被討論的類別之一。OpenClaw——這個開源 agent 框架在 GitHub 上獲得超過 373,000 顆星、最終得到 OpenAI 的支持——透過展示持續性、本地執行的 agent 能在 PC 上做到什麼,掀起了當前這波浪潮。Nous Research 推出的 Hermes Agent 更進一步,引入能隨時間累積能力的自我改進學習循環。 兩者主要都在桌面硬體上運行。X-OmniClaw 則將相同架構延伸到你每天隨身攜帶的裝置。團隊在開源的 HermesApp 程式碼基礎上開發,論文也明確指出 OpenClaw 的結構化技能模型是基礎靈感來源,並將其改造以適應智慧型手機多模態、永遠在線的特性。 程式碼現已上架 GitHub。Oppo 表示將釋出所有資源,並隨系統演進持續更新此專案。
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:af1cf43ad1
來源:Decrypt
發佈:2026-05-18 18:13:41
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言