Daftar beritaOpen-Source Phone AI Agent Ini Bisa Melihat, Mendengar, dan Bertindak—Semua Tanpa Menyentuh Cloud
Decrypt2026-05-18 18:13:41

Open-Source Phone AI Agent Ini Bisa Melihat, Mendengar, dan Bertindak—Semua Tanpa Menyentuh Cloud

ORIGINALThis Open-Source Phone AI Agent Sees, Hears and Acts—All Without Touching the Cloud
Analisis Dampak AIxAI Grok · medium Tingkat Kepercayaan
TL;DR

ArahNetralAgen AI ponsel open source berjalan lokal, tidak bergantung pada cloud

Aset Terdampak
BTCETH
Saran Operasi

Pesan inti non-crypto, dapat memperhatikan rotasi koin kecil di sektor AI, koin utama mempertahankan strategi awal

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯5147 kata
Singkatnya - X-OmniClaw adalah agen AI Android open-source dari Oppo yang menjaga logika intinya tetap di perangkat dan hanya memanggil cloud untuk penalaran tingkat tinggi. - Framework ini membangun memori semantik jangka panjang dari galeri foto dan riwayat sesi Anda, memungkinkannya bertindak sebagai asisten berkelanjutan, bukan chatbot sekali pakai. - Fitur behavior cloning memungkinkan pengguna merekam jalur navigasi sekali sehingga agen dapat memutarnya kembali secara instan melalui Android deeplink, melewati navigasi aplikasi multi-langkah di sesi mendatang. Ponsel Anda sudah memiliki kamera, mikrofon, dan layar. Ia dapat melihat apa yang sedang Anda lihat di dunia nyata dan apa yang terjadi di layarnya sendiri. Dan kini, tim AI dari produsen smartphone Tiongkok Oppo telah menemukan bahwa semua perangkat keras yang ada di sana, yang sebagian besar kurang dimanfaatkan, justru adalah apa yang Anda butuhkan untuk membangun agen AI mobile yang benar-benar berguna. Proyek itu adalah X-OmniClaw, yang dipublikasikan oleh Multi-X Team. Ini adalah framework agen AI open-source untuk Android yang mengubah ponsel Anda menjadi asisten hands-free yang sadar konteks, mampu menjalankan tugas nyata di berbagai aplikasi nyata, tanpa merutekan semuanya melalui salinan perangkat Anda di cloud. Sebagian besar sistem AI mobile sebenarnya tidak berjalan di ponsel Anda. Mereka berjalan di server cloud yang menjadi host salinan virtual Android, memungkinkan AI mengetuk dan menggulir aplikasi dari jarak jauh. Hasilnya: tidak ada akses ke kamera asli Anda, foto Anda yang sebenarnya, atau file lokal Anda—hanya orang asing yang menggunakan salinan ponsel Anda. X-OmniClaw mengambil pendekatan sebaliknya. Menurut laporan teknisnya, ia memperkenalkan "arsitektur edge-native yang dieksekusi langsung di perangkat fisik pengguna, sehingga menghilangkan kesenjangan antara lingkungan tersimulasi dan konteks interaksi dunia nyata." Laporan tersebut menggunakan analogi mobil: Smartphone adalah "kendaraannya," X-OmniClaw adalah "mesin internal untuk kontrol dan persepsi," dan language model berbasis cloud hanya dipanggil sebagai "bahan bakar" ketika diperlukan penalaran berat. Selebihnya tetap lokal. Bagaimana cara kerja agen AI ponsel Oppo Arsitektur keseluruhan X-OmniClaw didasarkan pada tiga pilar: Omni Perception, Omni Action, dan Omni Memory yang bekerja sebagai satu loop berkelanjutan, dengan LLM cloud dipanggil hanya untuk penalaran berat, menurut Oppo. Omni Perception mencakup segala sesuatu yang dapat dirasakan oleh ponsel. Ia menggabungkan umpan kamera, konten layar, dan input suara ke dalam satu pipeline. Sebuah vision-language model menafsirkan adegan sebelum agen melakukan hal lain. Jadi jika Anda mengarahkan kamera ke sebuah botol dan bertanya, "berapa harganya?", agen pertama-tama mencari tahu apa yang Anda lihat, lalu membuka aplikasi belanja yang relevan dan mulai mencari. Tidak perlu menebak. Omni Memory adalah yang membedakan X-OmniClaw dari chatbot sekali pakai. Agen mempertahankan konteks lintas tugas, pergantian aplikasi, dan sesi. Ia juga membangun memori semantik jangka panjang dari galeri foto Anda, mengubah gambar mentah menjadi catatan terstruktur tentang objek, adegan, dan peristiwa. Laporan tersebut menyatakan "kontinuitas runtime adalah yang memungkinkan X-OmniClaw beroperasi sebagai agen perangkat yang berkelanjutan, bukan sistem respons sekali pakai." Omni Action menangani eksekusi. Ia menggabungkan data antarmuka XML dengan model visual on-device dan OCR—lapisan pengenalan karakter untuk mengetahui dengan tepat apa yang harus diketuk, bahkan di layar yang penuh iklan di mana struktur saja tidak cukup. Ia juga mencakup behavior cloning: rekam diri Anda menavigasi ke halaman aplikasi tersembunyi sekali, dan agen dapat memutar ulang rute itu secara instan menggunakan shortcut Android deeplink di lain waktu. Apa yang sebenarnya dapat dilakukan agen AI Oppo Oppo membagikan beberapa hal yang dapat dilakukan model tersebut. Misalnya, agen mengidentifikasi produk fisik melalui kamera, membuka Taobao, menggulir hasil, dan mengembalikan ringkasan harga—tanpa perlu mengetik. Oppo juga mendemokan companion mengambang di layar yang membantu pengguna menyelesaikan latihan matematika langkah demi langkah: secara mandiri membaca layar, memproses setiap pertanyaan, dan beralih ketika selesai. Ia juga menawarkan contoh lain di mana pengguna meminta agen untuk merangkai video sorotan dari foto-foto bertema burung beo. Sistem memindai galeri, menemukan foto yang cocok menggunakan memori semantiknya, membuka editor video CapCut melalui deeplink, memilih file secara batch, dan menghasilkan video. Apa yang dulunya membutuhkan "beberapa menit atau lebih lama" menjadi segelintir langkah otomatis. 2026: Tahun agentic AI AI agent telah menjadi salah satu kategori yang paling banyak dibicarakan di bidang teknologi. OpenClaw—framework agen open-source yang mencapai lebih dari 373.000 GitHub stars dan akhirnya didukung oleh OpenAI—meluncurkan gelombang saat ini dengan menunjukkan apa yang dapat dilakukan agen persisten yang berjalan secara lokal di PC. Hermes Agent oleh Nous Research membawa hal ini lebih jauh dengan self-improving learning loop yang mengakumulasi kapabilitas seiring waktu. Keduanya berjalan terutama di perangkat keras desktop. X-OmniClaw memperluas arsitektur yang sama ke perangkat yang sebenarnya Anda bawa ke mana-mana. Tim membangun di atas codebase HermesApp open-source, dan paper tersebut secara eksplisit mengakreditkan model skill terstruktur OpenClaw sebagai inspirasi fundamental, lalu mengadaptasinya untuk sifat multimodal dan selalu aktif dari smartphone. Kodenya sudah ada di GitHub sekarang. Oppo mengatakan akan merilis semua aset dan terus memperbarui proyek tersebut seiring berkembangnya sistem.
Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:af1cf43ad1
Sumber:Decrypt
Diterbitkan:2026-05-18 18:13:41
Kategori:Umum · Kategori ekspor neutral
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar