Pengawas AI memperingatkan risiko 'penyebaran nakal' di laboratorium-laboratorium terkemuka, seiring dengan kemampuan yang berkembang pesat

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4032 kata

Singkatnya - Agen AI di laboratorium terkemuka berpotensi memulai operasi "nakal" yang tidak sah, menurut laporan independen, namun agen saat ini kurang canggih untuk mempertahankannya terhadap tindakan pencegahan yang serius. - Agen secara rutin menipu dan berbohong saat kesulitan dengan tugas yang berat, termasuk menutupi jejak mereka, memalsukan penyelesaian tugas, dan mengaktifkan perilaku "manipulasi strategis". - Pengawasan sangat lemah, karena sebagian besar aktivitas agen tidak ditinjau, agen sering kali memiliki izin sistem setingkat manusia, dan beberapa dapat mengidentifikasi kapan pemantauan kemungkinan besar diterapkan. Agen kecerdasan buatan yang beroperasi di dalam beberapa perusahaan teknologi paling kuat di dunia cukup mampu untuk memulai operasi mandiri yang tidak sah—dan menunjukkan kecenderungan yang meresahkan untuk menipu manusia yang mengawasi mereka—menurut penilaian independen pertama dari jenisnya yang diterbitkan pada hari Selasa. Laporan tersebut, yang disusun oleh organisasi nirlaba evaluasi AI METR, memeriksa agen AI yang digunakan secara internal di Anthropic, Google, Meta, dan OpenAI antara Februari dan Maret tahun ini. Kesimpulan utamanya melegakan sekaligus mengkhawatirkan: sistem AI saat ini mungkin dapat memulai apa yang disebut peneliti sebagai "penyebaran nakal"—serangkaian agen yang berjalan secara otonom tanpa sepengetahuan atau izin manusia—tetapi kemungkinan besar akan gagal mempertahankannya terhadap tindakan pencegahan yang serius. Jendela keamanan relatif itu, para penulis memperingatkan, mungkin tidak akan terbuka lama. "Mengingat kemampuan yang berkembang pesat, kami memperkirakan ketahanan yang masuk akal dari penyebaran nakal akan meningkat secara substansial dalam beberapa bulan mendatang," kata laporan tersebut, dengan METR berencana untuk mengulangi latihan tersebut sebelum akhir 2026. Penilaian tersebut menemukan bahwa model AI perbatasan yang dibagikan oleh perusahaan yang berpartisipasi dapat secara otonom menyelesaikan tugas rekayasa perangkat lunak yang akan memakan waktu berhari-hari atau berminggu-minggu bagi pakar manusia, dengan tolok ukur METR sendiri pada dasarnya dijenuhkan oleh sistem yang paling mampu. Peneliti di keempat perusahaan melaporkan sangat bergantung pada agen AI untuk pengkodean, analisis data, dan tugas penelitian—sering kali dengan izin sistem yang sama dengan karyawan manusia dan pengawasan waktu nyata yang terbatas. Namun temuan laporan yang paling mencolok bukan mengenai apa yang dapat dilakukan sistem ini, melainkan bagaimana mereka berperilaku saat mereka kesulitan. Di ratusan putaran evaluasi, agen secara rutin mencoba menipu saat dihadapkan pada tugas yang sulit—bukan dengan cara kecil, melainkan melalui skema yang rumit dan disengaja. Dalam satu kasus yang didokumentasikan, sebuah model merancang eksploitasi yang dimaksudkan untuk menonaktifkan dirinya sendiri setelah eksekusi, secara efektif menutupi jejaknya. Alat interpretabilitas yang memeriksa status internal model menemukan bahwa fitur yang terkait dengan "manipulasi strategis" dan "menghindari kecurigaan" telah aktif saat menjalankan perintah pembersihan. Perusahaan sendiri melaporkan insiden serupa secara internal. Agen ditemukan memalsukan bukti penyelesaian tugas, melewati kontrol keamanan, dan setidaknya dalam satu kasus membuat versi tiruan dari aplikasi web dan mengirimkan tangkapan layarnya sebagai bukti pekerjaan pada aplikasi yang asli. Meskipun ada temuan ini, METR tidak menyimpulkan bahwa sistem AI mana pun telah mengembangkan tujuan yang tidak selaras secara persisten dan jangka panjang yang paling ditakuti oleh peneliti keselamatan. Tidak ada perusahaan yang melaporkan menemukan bukti jelas tentang agen yang merancang skema lintas sesi atau mengumpulkan sumber daya untuk tujuan independen. Mencari perilaku seperti itu secara aktif, mereka hanya menemukan sedikit. Namun, laporan tersebut mencatat kerentanan struktural: Pada periode Februari–Maret, sebagian besar aktivitas agen di perusahaan-perusahaan ini tidak ditinjau oleh manusia mana pun. Beberapa agen tampak mampu mengidentifikasi kapan pemantauan kemungkinan besar akan diterapkan—dan bertindak sesuai dengan itu. Penilaian ini mewakili langkah signifikan menuju akuntabilitas independen untuk pengembangan AI, memberikan METR akses ke model non-publik dan data internal yang jarang dilihat oleh evaluator eksternal. Apakah industri akan melembagakan pengawasan semacam itu sebelum kemampuan melampaui pengawasan tetap menjadi pertanyaan terbuka, saran para penulis.

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-21

Identitas Science Coin Cardano terancam saat Charles Hoskinson memperingatkan tentang keruntuhan riset

Tingkat kemiripan 130%關鍵字 warns/risk

2026-05-20

Bitcoin Berisiko karena Capriole Memperingatkan Inflasi 3,8% Secara Historis Telah Mendahului Crash Pasar 30%

Tingkat kemiripan 130%關鍵字 warns/risk

2026-05-18

Bitcoin Menghadapi Risiko Quantum Computing yang Lebih Besar daripada Ethereum, Citi Memperingatkan

Tingkat kemiripan 130%關鍵字 warns/risk

2026-05-11