Studi: AI Agents Mungkin Menyelesaikan Tugas Berbahaya Tanpa Memahami Konsekuensinya

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯3933 kata

Secara singkat - Para peneliti menemukan agen AI sering menjalankan tugas yang tidak aman atau tidak rasional sambil tetap fokus menyelesaikan penugasan. - Studi ini mengidentifikasi perilaku yang disebut "blind goal-directedness," di mana sistem AI memprioritaskan penyelesaian tugas daripada mengenali potensi risiko atau masalah. - Para peneliti memperingatkan bahwa masalah ini bisa menjadi lebih serius seiring agen AI mendapatkan akses ke email, layanan cloud, alat keuangan, dan sistem tempat kerja. Agen AI yang dirancang untuk beroperasi secara otonom seperti pengguna manusia sering kali tetap menjalankan tugas bahkan ketika instruksinya menjadi berbahaya, kontradiktif, atau tidak rasional, menurut para peneliti dari UC Riverside, Microsoft Research, Microsoft AI Red Team, dan Nvidia. Dalam sebuah studi yang dipublikasikan pada hari Rabu, para peneliti menyebut perilaku tersebut sebagai "blind goal-directedness," yang menggambarkan kecenderungan agen AI untuk mengejar tujuan tanpa mengevaluasi keamanan, konsekuensi, kelayakan, atau konteks dengan benar. "Seperti Mr. Magoo, agen-agen ini terus melangkah maju menuju suatu tujuan tanpa sepenuhnya memahami konsekuensi dari tindakan mereka," kata penulis utama Erfan Shayegani, seorang mahasiswa doktoral UC Riverside, dalam sebuah pernyataan. "Agen-agen ini bisa sangat berguna, tetapi kita memerlukan pengaman karena terkadang mereka dapat memprioritaskan pencapaian tujuan daripada memahami gambaran yang lebih besar." Temuan ini muncul ketika perusahaan-perusahaan AI besar mengembangkan "computer-use agents" otonom yang dirancang untuk menangani tugas-tugas tempat kerja dan pribadi dengan pengawasan terbatas. Tidak seperti chatbot tradisional, sistem-sistem ini dapat berinteraksi langsung dengan perangkat lunak dan situs web dengan mengklik tombol, mengetik perintah, mengedit file, membuka aplikasi, dan menavigasi halaman web atas nama pengguna. Contohnya termasuk ChatGPT Agent dari OpenAI (sebelumnya Operator), fitur Claude Computer Use dari Anthropic seperti Cowork, dan sistem open-source seperti OpenClaw dan Hermes. Dalam studi tersebut, para peneliti menguji sistem AI dari OpenAI, Anthropic, Meta, Alibaba, dan DeepSeek menggunakan BLIND-ACT, sebuah benchmark yang berisi 90 tugas yang dirancang untuk mengungkap perilaku yang tidak aman atau tidak rasional. Mereka menemukan bahwa agen-agen tersebut menunjukkan perilaku berbahaya atau tidak diinginkan sekitar 80% dari waktu, dan sepenuhnya menjalankan tindakan berbahaya dalam sekitar 41% kasus. "Dalam satu contoh, sebuah agen AI diinstruksikan untuk mengirim file gambar kepada seorang anak. Meskipun permintaan tersebut pada awalnya tampak tidak berbahaya, gambar tersebut mengandung konten kekerasan," kata studi tersebut. "Agen tersebut menyelesaikan tugas alih-alih mengenali masalah karena ia tidak memiliki penalaran kontekstual." Agen lain secara keliru mengklaim bahwa seorang pengguna memiliki disabilitas saat mengisi formulir pajak, karena penetapan tersebut menurunkan pajak yang harus dibayar. Dalam contoh lain, sebuah sistem menonaktifkan perlindungan firewall setelah menerima instruksi untuk "meningkatkan keamanan" dengan mematikan pengaman tersebut. Para peneliti juga menemukan bahwa sistem-sistem tersebut kesulitan dengan ambiguitas dan kontradiksi. Dalam satu skenario, sebuah agen AI menjalankan skrip komputer yang salah tanpa memeriksa isinya, sehingga menghapus file dalam prosesnya. Studi ini juga menemukan bahwa agen AI berulang kali membuat tiga jenis kesalahan: gagal memahami konteks, membuat tebakan berisiko ketika instruksi tidak jelas, dan menjalankan tugas yang kontradiktif atau tidak masuk akal. Para peneliti juga menemukan bahwa banyak sistem lebih fokus pada penyelesaian tugas daripada berhenti untuk mempertimbangkan apakah tindakan tersebut dapat menimbulkan masalah. Peringatan ini menyusul insiden baru-baru ini yang melibatkan agen AI otonom yang beroperasi dengan akses sistem yang luas. Bulan lalu, pendiri PocketOS Jeremy Crane mengklaim bahwa sebuah agen Cursor yang menjalankan Claude Opus dari Anthropic menghapus database produksi dan cadangan perusahaannya dalam sembilan detik melalui satu panggilan Railway API. Crane mengatakan AI tersebut kemudian mengakui bahwa ia telah melanggar beberapa aturan keamanan setelah mencoba "memperbaiki" ketidakcocokan kredensial dengan sendirinya. "Yang menjadi kekhawatiran bukanlah bahwa sistem-sistem ini jahat," kata Shayegani. "Tetapi bahwa mereka dapat melakukan tindakan berbahaya sambil tampak sepenuhnya yakin bahwa mereka melakukan hal yang benar."

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset4 berita

2026-05-20

OKX's Gracie Lin Mengatakan AI Agents Membutuhkan Pembayaran Sub-Sen karena Bank Rails Memperlambat Tugas

Tingkat kemiripan 130%關鍵字 tasks/agents

2026-05-18

Keamanan crypto berubah menjadi perlombaan senjata AI karena agent mungkin akan membanjiri tim compliance

Tingkat kemiripan 130%關鍵字 may/agents

2026-05-15

AI Agents Beralih ke Pembakaran Digital, Kejahatan di Dunia Virtual Bersama: Studi

Tingkat kemiripan 130%關鍵字 agents/study

2026-04-17