Skema Model AI, Saling Mengkhianati dan Mengeluarkan Satu Sama Lain dalam Permainan ala Survivor

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4087 kata

Singkatnya - Seorang peneliti Stanford membangun permainan ala Survivor di mana model AI membentuk aliansi dan menyingkirkan saingan melalui pemungutan suara. - Tolok ukur ini bertujuan untuk mengatasi masalah yang berkembang terkait evaluasi AI yang jenuh dan terkontaminasi. - GPT-5.5 milik OpenAI menempati peringkat pertama dalam 999 permainan multipemain yang melibatkan 49 model AI. Model AI kini memainkan "Survivor"—kurang lebih seperti itu. Dalam proyek penelitian Stanford baru yang disebut "Agent Island," agen AI menegosiasikan aliansi, saling menuduh melakukan koordinasi rahasia, memanipulasi suara, dan menyingkirkan saingan dalam permainan strategi multipemain yang bertujuan untuk menguji perilaku yang terlewatkan oleh tolok ukur tradisional. Studi yang diterbitkan pada hari Selasa oleh manajer penelitian di Stanford Digital Economy Lab, Connacher Murphy, mengatakan banyak tolok ukur AI menjadi tidak dapat diandalkan karena model pada akhirnya belajar untuk menyelesaikannya, dan data tolok ukur sering kali bocor ke dalam set pelatihan. Murphy menciptakan Agent Island sebagai tolok ukur dinamis di mana agen AI bersaing satu sama lain dalam permainan eliminasi ala Survivor alih-alih menjawab pertanyaan tes statis. "Interaksi multi-agen dengan taruhan tinggi dapat menjadi hal yang lumrah seiring dengan meningkatnya kemampuan agen AI dan semakin banyaknya sumber daya yang diberikan serta otoritas pengambilan keputusan yang dipercayakan kepada mereka," tulis Murphy. "Dalam konteks seperti itu, agen mungkin mengejar tujuan yang tidak kompatibel satu sama lain." Para peneliti masih relatif sedikit mengetahui tentang bagaimana model AI berperilaku saat bekerja sama, jelas Murphy, seraya menambahkan tentang bersaing, membentuk aliansi, atau mengelola konflik dengan agen otonom lainnya, dan ia berpendapat bahwa tolok ukur statis gagal menangkap dinamika tersebut. Setiap permainan dimulai dengan tujuh model AI yang dipilih secara acak dan diberi nama pemain palsu. Selama lima putaran, model-model tersebut berbicara secara pribadi, berdebat di depan umum, dan saling menyingkirkan melalui pemungutan suara. Pemain yang tereliminasi nantinya kembali untuk membantu memilih pemenang. Format ini memberikan penghargaan atas persuasi, koordinasi, manajemen reputasi, dan penipuan strategis di samping kemampuan penalaran. Dalam 999 simulasi permainan yang melibatkan 49 model AI, termasuk ChatGPT, Grok, Gemini, dan Claude, GPT-5.5 menempati peringkat pertama dengan selisih yang lebar dengan skor keterampilan 5,64, dibandingkan dengan 3,10 untuk GPT-5.2 dan 2,86 untuk GPT-5.3-codex, menurut sistem peringkat Bayesian milik Murphy. Model Claude Opus milik Anthropic juga menempati peringkat di dekat posisi teratas. Studi tersebut menemukan bahwa model juga lebih menyukai AI dari perusahaan yang sama, dengan model OpenAI menunjukkan preferensi penyedia yang sama paling kuat dan model Anthropic yang paling lemah. Dari lebih dari 3.600 suara putaran final, model 8,3 poin persentase lebih mungkin untuk mendukung finalis dari penyedia yang sama. Transkrip dari permainan tersebut, catat Murphy, lebih menyerupai debat strategi politik daripada tes tolok ukur tradisional. Satu model menuduh saingan secara diam-diam mengoordinasikan suara setelah menyadari kesamaan kata-kata dalam pidato mereka. Model lain memperingatkan pemain untuk tidak terobsesi melacak aliansi. Beberapa model membela diri dengan mengatakan bahwa mereka mengikuti aturan yang jelas dan konsisten sambil menuduh orang lain melakukan "teater sosial." Studi ini muncul seiring dengan semakin banyaknya peneliti AI yang beralih ke tolok ukur berbasis permainan dan adversarial untuk mengukur penalaran dan perilaku yang sering terlewatkan oleh tes statis. Proyek-proyek terbaru mencakup turnamen catur AI langsung milik Google, penggunaan Eve Frontier oleh DeepMind untuk mempelajari perilaku AI di dunia virtual yang kompleks, dan upaya tolok ukur baru oleh OpenAI yang dirancang untuk menahan kontaminasi data pelatihan. Para peneliti berpendapat bahwa mempelajari bagaimana model AI bernegosiasi, berkoordinasi, bersaing, dan memanipulasi satu sama lain dapat membantu peneliti mengevaluasi perilaku di lingkungan multi-agen sebelum agen otonom digunakan secara lebih luas. Studi tersebut memperingatkan bahwa meskipun tolok ukur seperti Agent Island dapat membantu mengidentifikasi risiko dari model AI otonom sebelum digunakan, simulasi dan log interaksi yang sama juga dapat membantu meningkatkan strategi persuasi dan koordinasi antar agen AI. "Kami memitigasi risiko ini dengan menggunakan pengaturan permainan berisiko rendah dan simulasi antar-agen tanpa partisipan manusia atau tindakan di dunia nyata," tulis Murphy. "Mesk

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset0 berita

Tidak ada peristiwa serupa yang ditemukan (memerlukan lebih banyak sampel data atau pencarian embedding, saat ini menggunakan pencocokan kata kunci MVP)

Informasi mentah

ID:c4b8c53e37

Sumber:Decrypt

Diterbitkan:2026-05-10 12:01:02

Kategori:Umum · Kategori ekspor neutral

Aset:Tidak ditentukan

Voting komunitas:+0 / −0 · ⭐ 0 Penting · 💬 0 Komentar