OpenAI Akhirnya Menjelaskan Mengapa ChatGPT Tidak Berhenti Membicarakan Goblins

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯6176 kata

Singkatnya - Kepribadian "Nerdy" OpenAI memberikan reward pada metafora goblin, menyebarkan keunikan tersebut ke seluruh model GPT melalui reinforcement learning. - Penyebutan goblin dalam mode Nerdy GPT-5.4 melonjak 3.881% dibandingkan GPT-5.2, yang memicu investigasi internal dan patch system prompt darurat. - Perbaikan tersebut—menulis "never talk about goblins" dalam developer prompt—menunjukkan mengapa patch system prompt lebih cepat tetapi lebih berisiko daripada pelatihan ulang. Jika Anda meminta bantuan coding kepada ChatGPT akhir-akhir ini dan ia merespons dengan menyebut bug Anda sebagai "mischievous little gremlin," Anda tidak sedang berhalusinasi. Model tersebut mengembangkan obsesi nyata terhadap makhluk fantasi—goblin, gremlin, rakun, troll, ogre, dan ya, merpati—dan OpenAI menerbitkan post-mortem lengkap tentang bagaimana hal itu terjadi. Versi singkatnya: sinyal reward yang dirancang untuk membuat ChatGPT lebih menyenangkan menjadi tidak terkendali, dan para goblin berkembang biak. Kisah goblin ini hanya menjadi publik karena pengguna Reddit menemukan baris "never mention goblins" dalam system prompt Codex yang bocor di GitHub. Postingan tersebut menjadi viral sebelum OpenAI menerbitkan penjelasannya sendiri. Bagaimana kepribadian Nerdy memicu infestasi goblin Menurut OpenAI, jejaknya dimulai dengan GPT-5.1, yang diluncurkan November lalu. Saat itulah OpenAI memperkenalkan kustomisasi kepribadian, yang memungkinkan pengguna memilih gaya seperti Friendly, Professional, Efficient, dan Nerdy. Persona Nerdy hadir dengan system prompt yang menginstruksikan model untuk menjadi kutu buku dan menyenangkan, untuk "mengurangi pretensi melalui penggunaan bahasa yang menyenangkan," dan untuk mengakui bahwa "dunia ini kompleks dan aneh." Ternyata, prompt itu adalah magnet bagi goblin. Selama pelatihan reinforcement learning, sinyal reward untuk kepribadian Nerdy secara konsisten memberikan skor lebih tinggi pada output yang mengandung metafora kata-kata makhluk. Di seluruh 76,2% dataset yang diaudit, respons dengan "goblin" atau "gremlin" menerima nilai lebih baik daripada respons yang sama tanpa kata-kata tersebut. Model tersebut belajar: keanehan sama dengan reward. Penyebutan goblin meledak di GPT-5.4, dengan kepribadian Nerdy menunjukkan peningkatan 3.881% dibandingkan GPT-5.2. Masalahnya adalah reinforcement learning tidak menjaga perilaku yang dipelajari tetap terisolasi dengan rapi. Begitu gaya bahasa mendapatkan reward dalam satu konteks, ia merembes ke konteks lain melalui feedback loop: model menghasilkan output yang sarat makhluk, output tersebut digunakan kembali dalam data fine-tuning, dan perilaku tersebut semakin dalam di seluruh model, bahkan tanpa prompt Nerdy yang aktif. Nerdy hanya menyumbang 2,5% dari semua respons ChatGPT. Namun, ia bertanggung jawab atas 66,7% dari semua penyebutan "goblin". Karena metode OpenAI, prevalensi goblin dan gremlin terus meningkat selama proses pelatihan saat kepribadian Nerdy aktif. Bahkan tanpa kepribadian Nerdy, penyebutan makhluk terus meningkat—bukti kontaminasi silang melalui data supervised fine-tuning. GPT-5.5 sudah terlalu jauh Pada saat OpenAI menemukan akar penyebabnya, GPT-5.5 sudah jauh dalam pelatihan, dan telah menyerap seluruh keluarga kata-kata makhluk. Audit data menandai tidak hanya goblin dan gremlin tetapi juga rakun, troll, ogre, dan merpati sebagai apa yang disebut perusahaan sebagai "tic words." ("Frogs," bagi yang penasaran, sebagian besar adalah sah.) Lonjakan terukur pertama: penyebutan goblin naik 175% dan penyebutan gremlin 52% setelah peluncuran GPT-5.1. Bahkan Chief Scientist OpenAI Jakub Pachocki mendapatkan goblin ketika ia meminta unicorn dalam seni ASCII. OpenAI mempensiunkan kepribadian Nerdy pada bulan Maret dan menghapus sinyal reward yang berkaitan dengan makhluk dari pelatihan di masa depan. Namun, GPT-5.5 sudah memulai proses pelatihannya. Solusi perusahaan untuk Codex—agen coding-nya—adalah dengan menambahkan satu baris ke developer system prompt yang berbunyi "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query." Seseorang di OpenAI melakukan commit kode tersebut ke produksi dan melanjutkan pekerjaan mereka. Masalah patch system prompt Tetapi mengapa OpenAI memilih jalur ini? Melatih ulang model seukuran GPT-5.5 untuk menghilangkan keanehan perilaku itu mahal dan lambat. Penyesuaian system prompt hanya memakan waktu beberapa menit. Perusahaan di seluruh industri memilih patch prompt

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-04-30

OpenAI Meluncurkan Keamanan Akun Tingkat Lanjut untuk Pengguna ChatGPT

Tingkat kemiripan 130%關鍵字 chatgpt/openai

2026-04-29

DeFi Deleveraging Menghantam AAVE – Analis Menjelaskan Mengapa Permintaan Pinjaman Jatuh Bebas

Tingkat kemiripan 130%關鍵字 explains/why

2026-04-29

Bedah Iklan ChatGPT: Percakapan sebagai Tag, Penempatan Kontekstual, Cookie Pelacakan 30 Hari, OpenAI Paling Tahu Apa yang Anda Pikirkan

Tingkat kemiripan 130%關鍵字 chatgpt/openai

2026-04-29