뉴스 목록이 오픈소스 폰 AI 에이전트는 클라우드 연결 없이 보고, 듣고, 행동한다
Decrypt2026-05-18 18:13:41

이 오픈소스 폰 AI 에이전트는 클라우드 연결 없이 보고, 듣고, 행동한다

ORIGINALThis Open-Source Phone AI Agent Sees, Hears and Acts—All Without Touching the Cloud
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯5147 자
요약 - X-OmniClaw는 Oppo가 개발한 오픈소스 Android AI 에이전트로, 핵심 로직을 온디바이스(on-device)에서 처리하고 고차원적인 추론이 필요할 때만 클라우드를 호출합니다. - 이 프레임워크는 사진 갤러리와 세션 기록을 바탕으로 장기 의미론적 기억(long-term semantic memory)을 구축하여, 일회성 챗봇이 아닌 지속적인 비서 역할을 수행합니다. - 행동 복제(behavior cloning) 기능을 통해 사용자가 탐색 경로를 한 번만 기록하면, 에이전트가 Android deeplink를 사용하여 즉시 경로를 재현함으로써 향후 복잡한 앱 탐색 과정을 생략할 수 있습니다. 당신의 스마트폰에는 이미 카메라, 마이크, 화면이 있습니다. 스마트폰은 당신이 현실에서 무엇을 보고 있는지, 그리고 화면에서 무슨 일이 일어나고 있는지 알 수 있습니다. 중국 스마트폰 제조사 Oppo의 AI 팀은 대부분 제대로 활용되지 않는 이 하드웨어들이야말로 진정으로 유용한 모바일 AI 에이전트를 구축하는 데 필요한 핵심 요소라는 점을 파악했습니다. 이 프로젝트는 Multi-X Team이 발표한 X-OmniClaw입니다. 이는 Android를 위한 오픈소스 AI 에이전트 프레임워크로, 모든 데이터를 클라우드상의 가상 기기로 전송하지 않고도 실제 앱에서 실제 작업을 수행할 수 있는 핸즈프리, 상황 인식형 비서로 스마트폰을 탈바꿈시킵니다. 대부분의 모바일 AI 시스템은 실제로 스마트폰에서 실행되지 않습니다. 이들은 Android의 가상 복제본을 호스팅하는 클라우드 서버에서 실행되며, AI가 원격으로 앱을 탭하고 스크롤하게 합니다. 그 결과, 실제 카메라, 실제 사진, 로컬 파일에 접근할 수 없으며, 단지 당신의 폰을 복제한 기기를 사용하는 낯선 사람과 다를 바 없게 됩니다. X-OmniClaw는 정반대의 접근 방식을 취합니다. 기술 보고서에 따르면, 이 시스템은 "사용자의 물리적 기기에서 직접 실행되는 엣지 네이티브(edge-native) 아키텍처를 도입하여 시뮬레이션 환경과 실제 상호작용 맥락 사이의 간극을 제거"합니다. 보고서는 이를 자동차에 비유합니다. 스마트폰은 "차량"이고, X-OmniClaw는 "제어 및 인식을 위한 내부 엔진"이며, 클라우드 기반 언어 모델은 고도의 추론이 필요할 때만 호출되는 "연료"와 같습니다. 그 외의 모든 것은 로컬에서 처리됩니다. Oppo AI 폰 에이전트의 작동 방식 Oppo에 따르면, X-OmniClaw의 전체 아키텍처는 Omni Perception, Omni Action, Omni Memory라는 세 가지 기둥을 기반으로 하며, 이들은 하나의 연속적인 루프로 작동하고 클라우드 LLM은 고도의 추론이 필요할 때만 호출됩니다. Omni Perception은 스마트폰이 감지할 수 있는 모든 것을 다룹니다. 카메라 피드, 화면 콘텐츠, 음성 입력을 하나의 파이프라인으로 결합합니다. 에이전트가 다른 작업을 수행하기 전에 비전-언어 모델(vision-language model)이 장면을 해석합니다. 따라서 카메라를 병에 비추고 "이거 얼마야?"라고 물으면, 에이전트는 먼저 당신이 무엇을 보고 있는지 파악한 뒤 관련 쇼핑 앱을 열어 검색을 시작합니다. 추측할 필요가 없습니다. Omni Memory는 X-OmniClaw를 일회성 챗봇과 차별화하는 요소입니다. 에이전트는 작업, 앱 전환, 세션 전반에 걸쳐 맥락을 유지합니다. 또한 사진 갤러리에서 장기 의미론적 기억을 구축하여 원본 이미지를 객체, 장면, 이벤트에 대한 구조화된 메모로 변환합니다. 보고서는 "런타임 연속성이야말로 X-OmniClaw가 일회성 응답 시스템이 아닌 지속적인 기기 에이전트로 작동하게 하는 핵심"이라고 명시합니다. Omni Action은 실행을 담당합니다. XML 인터페이스 데이터와 온디바이스 시각 모델 및 OCR(문자 인식 레이어)을 결합하여, 구조만으로는 충분하지 않은 광고가 많은 화면에서도 정확히 무엇을 탭해야 할지 파악합니다. 또한 행동 복제 기능도 포함되어 있어, 복잡한 앱 페이지로 이동하는 과정을 한 번만 기록하면 다음번에 Android deeplink 단축키를 사용하여 즉시 해당 경로를 재현할 수 있습니다. Oppo AI 에이
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:af1cf43ad1
출처:Decrypt
발행:2026-05-18 18:13:41
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글