ニュース一覧このオープンソースの電話AIエージェントは、見て、聞いて、行動する——すべてクラウドに触れることなく
Decrypt2026-05-18 18:13:41

このオープンソースの電話AIエージェントは、見て、聞いて、行動する——すべてクラウドに触れることなく

ORIGINALThis Open-Source Phone AI Agent Sees, Hears and Acts—All Without Touching the Cloud
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯5147 文字
概要 - X-OmniClawはOppoによるオープンソースのAndroid AIエージェントで、コアロジックをオンデバイスに保持し、高レベルの推論時のみクラウドを呼び出す。 - このフレームワークは、フォトギャラリーとセッション履歴から長期的なセマンティックメモリを構築し、ワンショットのチャットボットではなく継続的なアシスタントとして機能できるようにする。 - ビヘイビアクローニング機能により、ユーザーがナビゲーションパスを一度記録すれば、エージェントはAndroidのディープリンク経由でそれを即座に再生でき、今後のセッションで多段階のアプリ操作をスキップできる。 あなたのスマートフォンにはすでにカメラ、マイク、スクリーンが備わっている。現実世界であなたが見ているものも、ディスプレイ上で起きていることも捉えられる。そして今、中国のスマートフォンメーカーOppoのAIチームは、ほとんど活用されないまま眠っているそれらのハードウェアこそが、真に有用なモバイルAIエージェントを構築するために必要なものだと気づいた。 そのプロジェクトがMulti-X Teamが公開したX-OmniClawである。これはAndroid向けのオープンソースAIエージェントフレームワークで、スマートフォンをハンズフリーで文脈を理解するアシスタントへと変え、すべてをクラウド上のデバイスのコピーを経由させることなく、実際のアプリ間で実タスクを実行できるようにする。 ほとんどのモバイルAIシステムは、実際にはあなたのスマートフォン上では動作していない。それらはAndroidの仮想コピーをホストするクラウドサーバー上で動作し、AIがリモートでアプリをタップしたりスクロールしたりするのを可能にしている。その結果、実際のカメラ、本物の写真、ローカルファイルにはアクセスできず、見知らぬ誰かがあなたのスマートフォンのコピーを使っているだけになる。 X-OmniClawは正反対のアプローチを取っている。技術レポートによれば、「ユーザーの物理デバイス上で直接実行されるエッジネイティブアーキテクチャを導入し、それによってシミュレートされた環境と実世界の対話コンテキストとのギャップを排除する」とされている。 レポートでは車の比喩が用いられている。スマートフォンが「車両」、X-OmniClawが「制御と知覚のための内部エンジン」、そしてクラウドベースの言語モデルは重い推論が必要な時のみ「燃料」として呼び出される。それ以外はすべてローカルに留まる。 Oppoのスマートフォン向けAIエージェントの仕組み Oppoによれば、X-OmniClawの全体アーキテクチャは、Omni Perception、Omni Action、Omni Memoryという3つの柱に基づいており、これらが1つの連続したループとして機能し、重い推論時にのみクラウドLLMが呼び出される。 Omni Perceptionは、スマートフォンが感知できるすべてをカバーする。カメラ映像、画面コンテンツ、音声入力を単一のパイプラインに統合する。エージェントが何かを行う前に、まずビジョン言語モデルがシーンを解釈する。例えば、カメラをボトルに向けて「これはいくら?」と尋ねれば、エージェントはまずあなたが見ているものを特定し、その後関連するショッピングアプリを開いて検索を開始する。推測は不要だ。 Omni Memoryは、X-OmniClawをワンショットのチャットボットと差別化する要素である。エージェントはタスク、アプリ切り替え、セッションをまたいで文脈を維持する。さらに、フォトギャラリーから長期的なセマンティックメモリを構築し、生の画像をオブジェクト、シーン、イベントに関する構造化されたノートへと変換する。レポートには「ランタイムの継続性こそが、X-OmniClawをワンショットの応答システムではなく、継続的なデバイスエージェントとして機能させるものだ」と記されている。 Omni Actionは実行を担当する。XMLインターフェースデータをオンデバイスのビジュアルモデルおよびOCR(文字認識レイヤー)と組み合わせて、構造だけでは不十分な広告だらけの画面でも、何をタップすべきかを正確に判断する。さらにビヘイビアクローニングも含まれている。隠れたアプリページへのナビゲーションを一度自分で記録すれば、次回はエージェントがAndroidのディープリンクショートカットを使ってそのルートを即座に再生できる。 OppoのAIエージェントが実際にできること Oppoはこのモデルができることをいくつか公開した。例えば、エージェントはカメラを通じて物理的な製品を識別し、Taobaoを開き、検索結果をスクロールして、価格のサマリーを返す。タイピングは不要だ。 Oppoはまた、ユーザーが数学の練習問題をステップごとに解くのを支援する画面上のフローティングコンパニオンもデモした。これは画面を自律的に読み取り、各問題を処理し、完了したら次へ進む。 別の例として、ユーザーがエージェントにオウムをテーマにした写真からハイライト動画を作成するよう依頼するというものもある。システムはギャラリーをスキャンし、セマンティックメモリを使って一致する写真を見つけ、ディープリンク経由でCapCutの動画エディタを開き、ファイルを一括選択し、動画を生成する。かつては「数分以上」かかっていたものが、わずか数回の自動化されたステップになる。 2026年:エージェント型AIの年 AIエージェントはテクノロジー業界で最も議論されているカテゴリーの1つとなっている。GitHubで37万3000以上のスターを獲得し、最終的にOpenAIに支援されたオープンソースエージェントフレームワークのOpenClawは、永続的でローカルに動作するエージェントがPC上で何ができるかを示し、現在の波を起こした。Nous ResearchによるHermes Agentは、時間とともに能力を積み重ねていく自己改善型の学習ループでさらに踏み込んだ。 両者は主にデスクトップハードウェア上で動作する。X-OmniClawは同じアーキテクチャを、あなたが実際にどこへでも持ち運ぶデバイスへと拡張する。チームはオープンソースのHermesAppコードベース上に構築し、論文ではOpenClawの構造化されたスキルモデルを基礎的なインスピレーションとして明示的にクレジットし、それをスマートフォンというマルチモーダルかつ常時オンの性質に適応させた。 コードは現在GitHub上にある。Oppoは、すべてのアセットをリリースし、システムの進化に合わせてプロジェクトを更新し続けるとしている。
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:af1cf43ad1
ソース:Decrypt
公開:2026-05-18 18:13:41
カテゴリ:一般 · エクスポートカテゴリ neutral
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント