Benchmark Baru Huawei Memberi AI Agents Berbulan-bulan Hidup Anda—Lalu Menyaksikan Mereka Gagal

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4136 kata

Secara singkat - Para peneliti dari Huawei dan tiga institusi mitra merilis Claw-Anything, sebuah benchmark yang mengevaluasi AI agent pada tugas-tugas asisten pribadi. - GPT-5.5, model andalan OpenAI, hanya mencetak skor 34,5% pada metrik pass@1—jauh di bawah skornya pada benchmark yang sudah ada, menunjukkan bahwa pengujian saat ini mengukur hal yang salah. - Tim juga merilis pipeline data otomatis yang menghasilkan 2.000 lingkungan pelatihan; melakukan fine-tuning pada model open-weight dengan data tersebut meningkatkan keberhasilan tugas sebesar 23,7%. Janji tentang AI personal assistant selalu sama: Berikan agent akses ke kehidupan digital Anda dan ia menangani sisanya. Email Anda, kalender Anda, catatan Anda, perangkat Anda—semuanya. AI Anda tahu. AI Anda bertindak. Anda tidur. Para peneliti dari Huawei Technologies, Beijing Institute of Technology, Peking University, dan Chinese Academy of Sciences baru saja membangun sebuah benchmark untuk melihat apakah hal itu benar-benar terjadi. Spoiler: Tidak. Claw-Anything mengevaluasi AI agent di tiga dimensi sekaligus: aliran peristiwa berjangka panjang yang mencakup lebih dari tiga bulan aktivitas pengguna tersimulasi, layanan backend yang saling bergantung dengan rata-rata 10,1 per tugas, dan interaksi multi-perangkat di lingkungan CLI Linux maupun GUI Android. Rata-rata jendela konteks per tugas adalah 191.700 kata. Sebagian besar benchmark yang ada berada di antara 1.700 dan 12.000. Itu bukan kesenjangan kecil, melainkan masalah yang sama sekali berbeda. Itu juga seperti yang dirasakan dalam kehidupan nyata, berbeda dengan benchmark yang sangat spesifik dan terstandarisasi. AI Anda tidak tahu apa yang sedang terjadi Benchmark ini dinilai berdasarkan pass@1—probabilitas agent menyelesaikan tugas dengan benar pada percobaan pertama, tanpa kesempatan kedua. Sebuah tugas mungkin meminta agent untuk merujuk silang alert harga pada sebuah produk yang ia temukan beberapa minggu lalu, memeriksa kalender pengguna untuk janji temu yang relevan, dan bertindak atas keduanya dari ponsel. Tugas lain mungkin meminta untuk menarik pekerjaan terbaru dari catatan, utas email, dan Slack, lalu membuat presentasi dari nol. Ini adalah hal-hal yang sebenarnya diminta orang kepada asisten untuk dilakukan. Ternyata AI tidak begitu pandai dalam hal itu. GPT-5.5, menurut liputan Decrypt sebelumnya, adalah model terbaik OpenAI, dibangun dengan mempertimbangkan tugas agentic berjangka panjang. Ia mencetak skor 34,5%. "Model-model saat ini tetap tidak dapat diandalkan bahkan ketika diberi akses yang lebih luas ke dunia digital pengguna," demikian tertulis dalam paper Claw-Anything. Beberapa model yang terlihat mengesankan pada benchmark lain justru turun lebih jauh. Benchmark ini juga menilai bantuan proaktif secara terpisah, yang berarti kasus-kasus di mana agent menemukan kebutuhan dan bertindak tanpa diminta. Sebagian besar benchmark tidak menguji ini. Claw-Anything melakukannya, dan kesenjangannya mencolok: Agent mencetak 25,9% pada tugas reaktif dan hanya 6,7% pada tugas proaktif. Mengapa sebagian besar benchmark tidak memberitahu Anda hal ini Para peneliti membuat argumen yang tajam: Benchmark yang ada memperlakukan AI agent seperti pemecah tugas yang diberi meja yang bersih. Claw-Anything memperlakukan mereka seperti asisten pribadi yang dijatuhkan ke dalam kehidupan nyata yang berantakan—peristiwa yang tidak relevan, sinyal yang bertentangan, gangguan yang menumpuk selama berbulan-bulan. Agent harus mencari tahu apa yang relevan sebelum dapat melakukan sesuatu yang berguna. Hasil ablasi membuat ketergantungan multi-layanan menjadi sangat jelas. Ketika tools yang diperlukan untuk tugas lintas layanan dihilangkan, tingkat keberhasilan jatuh hampir menjadi nol, karena sebagian besar tugas mengharuskan agent mengambil informasi dan bertindak di beberapa backend, bukan di satu backend saja. Ini bukan genre masalah baru dalam evaluasi AI. OpenAI menyatakan SWE-bench terkontaminasi awal tahun ini setelah skor anjlok dari sekitar 70% menjadi 23% pada versi yang lebih kecil kemungkinan kebocorannya. Itu tentang kebersihan data. Ini tentang sesuatu yang lebih mendasar—apakah benchmark tersebut bahkan menanyakan pertanyaan yang tepat. Di sisi konstruktif, tim merilis pipeline yang menghasilkan benchmark tersebut bersama dengan 2.000 lingkungan pelatihan. Melakukan fine-tuning Qwen3.5-27B pada 1.500 lintasan agent yang berhasil meningkatkan pass@1 sebesar 23,7%—cukup untuk mengalahkan beberapa model closed-source di papan peringkat, termasuk Claude Sonnet. Para peneliti mengidentifikasi koordinasi lintas layanan sebagai tantangan utama yang tersisa dari benchmark untuk bidang ini. Dataset tersedia di Hugging Face dan kodenya di GitHub.

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-27

Vitalik Buterin Mendukung Fitur Kohaku Wallet yang Memberi Pengguna Ethereum Alamat Baru untuk Setiap Dapp

Tingkat kemiripan 130%關鍵字 new/gives

2026-05-27

Base meluncurkan alat baru untuk menghubungkan dompet kripto ke AI agents

Tingkat kemiripan 130%關鍵字 new/agents

2026-05-26

Model AI Setengah Gigabyte Ini Menjalankan Agen Lokal di Ponsel Anda

Tingkat kemiripan 130%關鍵字 agents/your

2026-05-26