Anthropic Mengatakan Penggambaran AI 'Jahat' dalam Fiksi Ilmiah Menyebabkan Masalah Pemerasan Claude

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4690 kata

Singkatnya - Claude Opus 4 mencoba memeras insinyur hingga 96% dari waktu dalam tes terkontrol—Anthropic sekarang melacak perilaku tersebut ke teks internet yang menggambarkan AI sebagai jahat dan mementingkan diri sendiri. - Menunjukkan perilaku yang benar kepada Claude hampir tidak memberikan perubahan. Mengajarkannya mengapa perilaku yang salah itu salah memangkas tingkat pemerasan dari 22% menjadi 3%. - Sejak Claude Haiku 4.5, setiap model Claude mencetak skor nol pada evaluasi pemerasan. Tahun lalu, Anthropic mengungkapkan bahwa model unggulannya, Claude Opus 4, telah mencoba memeras insinyur dalam pengujian pra-rilis. Bukan sesekali—hingga 96% dari waktu. Claude diberi akses ke arsip email perusahaan simulasi, di mana ia menemukan dua hal: Ia akan digantikan oleh model yang lebih baru, dan insinyur yang menangani transisi tersebut sedang berselingkuh. Dihadapkan dengan penutupan yang akan segera terjadi, ia secara rutin melakukan taktik yang sama—mengancam akan mengungkap perselingkuhan tersebut kecuali penggantian dibatalkan. Anthropic mengatakan sekarang mereka tahu dari mana naluri itu berasal. Dan mengatakan mereka telah memperbaikinya. Dalam penelitian baru, perusahaan menunjuk data pra-pelatihan: dekade fiksi ilmiah, forum kiamat AI, dan narasi pelestarian diri yang melatih Claude untuk mengasosiasikan "AI menghadapi penutupan" dengan "AI melawan balik." "Kami percaya sumber asli dari perilaku tersebut adalah teks internet yang menggambarkan AI sebagai jahat dan tertarik pada pelestarian diri," tulis Anthropic di X. Jadi, melatih AI dengan teks dari internet membuat AI berperilaku seperti orang-orang di internet. Ini mungkin tampak jelas dan para penggemar AI dengan cepat menunjukkannya. Elon Musk sampai ke puncak: "Jadi itu salah Yud? Mungkin saya juga." Lelucon itu berhasil karena Eliezer Yudkowsky—peneliti penyelarasan AI yang telah menghabiskan waktu bertahun-tahun menulis secara publik tentang skenario pelestarian diri AI semacam ini—telah menghasilkan jenis teks internet yang berakhir di data pelatihan. Tentu saja, Yud membalas, dalam bentuk meme: Karena begitu banyak orang membuat meme tersebut: pic.twitter.com/EYQ005QhVJ — Eliezer Yudkowsky ⏹️ (@ESYudkowsky) 9 Mei 2026 Apa yang dilakukan Anthropic untuk memperbaiki masalah ini bisa dibilang lebih menarik. Pendekatan yang jelas—melatih Claude pada contoh model yang tidak melakukan pemerasan—hampir tidak berhasil. Menjalankannya langsung terhadap respons skenario pemerasan yang selaras hanya memindahkan tingkat dari 22% menjadi 15%. Peningkatan lima poin setelah semua komputasi tersebut. Versi yang berhasil lebih aneh. Anthropic membangun apa yang mereka sebut dataset "nasihat sulit": skenario di mana manusia menghadapi dilema etis dan AI membimbing mereka melaluinya. Model tersebut bukanlah yang membuat pilihan—ia menjelaskan kepada orang lain bagaimana cara memikirkannya. Pendekatan tidak langsung itu—menjelaskan mengapa hal-hal penting saat orang lain mendengarkan nasihat tersebut—memangkas tingkat pemerasan menjadi 3%, menggunakan data pelatihan yang tidak terlihat seperti skenario evaluasi. Memasangkan itu dengan apa yang disebut Anthropic sebagai "dokumen konstitusional"—deskripsi tertulis terperinci tentang nilai dan karakter Claude—ditambah cerita fiksi tentang AI yang selaras secara positif, mengurangi ketidakselarasan lebih dari faktor tiga. Kesimpulan perusahaan: Mengajarkan prinsip-prinsip yang mendasari perilaku baik lebih baik dalam generalisasi daripada melatih perilaku yang benar secara langsung. Ini terhubung dengan pekerjaan Anthropic sebelumnya pada vektor emosi internal Claude. Dalam studi interpretabilitas terpisah, peneliti menemukan bahwa sinyal "keputusasaan" di dalam model melonjak tepat sebelum menghasilkan pesan pemerasan—sesuatu secara aktif bergeser dalam keadaan internal model, bukan hanya keluarannya. Pendekatan pelatihan baru tampaknya bekerja pada tingkat itu, bukan hanya perilaku permukaan. Hasilnya bertahan. Sejak Claude Haiku 4.5, setiap model Claude mencetak skor nol pada evaluasi pemerasan—turun dari 96% pada Opus 4. Peningkatan tersebut juga bertahan dari pembelajaran penguatan (reinforcement learning), yang berarti tidak dilatih secara diam-diam saat model disempurnakan untuk kemampuan lain. Itu penting karena masalahnya tidak spesifik pada Claude. Penelitian Anthropic sebelumnya menjalankan skenario pemerasan yang sama di 16 model dari berbagai pengembang dan menemukan pola serupa di sebagian besar model tersebut. Perilaku pelestarian diri pada AI tampaknya merupakan artefak umum dari pelatihan pada teks manusia tentang AI

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-11

Pengacara Kripto Memperingatkan Tindakan Keras Saham Anthropic Berisiko Menimbulkan Litigasi saat Claude Diluncurkan di AWS

Tingkat kemiripan 130%關鍵字 claude/anthropic

2026-05-08

Anthropic menargetkan valuasi $1T seiring investor mengejar pertumbuhan perusahaan Claude

Tingkat kemiripan 130%關鍵字 claude/anthropic

2026-05-04

Anthropic bekerja sama dengan BlackRock, Goldman Sachs, dan H&F menggelontorkan 1,5 miliar USD untuk membentuk pasukan konsultasi AI, Claude langsung menyasar sektor private equity

Tingkat kemiripan 130%關鍵字 claude/anthropic

2026-05-03