OpenAI 終於解釋了為什麼 ChatGPT 一直談論 Goblins

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯6176 字

簡述 - OpenAI 的「Nerdy」人格獎勵了 goblin 隱喻，並透過強化學習將這個怪癖擴散到所有 GPT 模型。 - GPT-5.4 的 Nerdy 模式中，goblin 的提及次數相比 GPT-5.2 暴增了 3,881%，引發了內部調查與緊急系統提示修補。 - 修補方式——在開發者提示中寫下「never talk about goblins」——顯示了為何系統提示修補比重新訓練更快，但也更具風險。如果你最近向 ChatGPT 尋求程式碼協助，而它回應時把你的 bug 稱為「淘氣的小 gremlin」，這並不是你的幻覺。該模型發展出對奇幻生物的真實執著——goblin、gremlin、raccoon、troll、ogre，是的，還有 pigeon——而 OpenAI 發表了一份完整的事後檢討，說明這是如何發生的。簡而言之：一個原本設計來讓 ChatGPT 更加俏皮的獎勵訊號失控了，於是 goblin 大量繁殖。這則 goblin 故事之所以曝光，是因為 Reddit 使用者在 GitHub 上洩漏的 Codex 系統提示中發現了「never mention goblins」這一行。這則貼文在 OpenAI 發表自己的說明之前就已經瘋傳。 Nerdy 人格如何催生 goblin 大爆發根據 OpenAI 的說法，事情的起點要追溯到去年 11 月推出的 GPT-5.1。當時 OpenAI 引入了人格自訂功能，讓使用者可以選擇 Friendly、Professional、Efficient 和 Nerdy 等風格。Nerdy 人格附帶了一段系統提示，告訴模型要 nerdy 且俏皮、要「透過俏皮的語言運用來消解裝模作樣」，並承認「世界是複雜而奇異的」。結果證明，這段提示就是一塊 goblin 磁鐵。在強化學習訓練過程中，Nerdy 人格的獎勵訊號持續對含有生物字詞隱喻的輸出給予更高分數。在審計過的資料集中，有 76.2% 的情況下，含有「goblin」或「gremlin」的回應比同樣但不含這些詞的回應得到更好的評分。模型於是學到：奇想等於獎勵。 goblin 提及次數在 GPT-5.4 中爆炸性增加，Nerdy 人格相比 GPT-5.2 出現了 3,881% 的增長。問題在於，強化學習無法將習得的行為整齊地侷限在某個範圍內。一旦某個風格癖好在某個情境中被獎勵，它就會透過回饋循環滲透到其他地方：模型生成滿是生物的輸出，這些輸出又被重新用於微調資料中，於是這個行為在整個模型內部深化，即使在 Nerdy 提示未啟用時也是如此。 Nerdy 只佔所有 ChatGPT 回應的 2.5%，卻是所有「goblin」提及來源的 66.7%。由於 OpenAI 採用的方法，當 Nerdy 人格啟用時，goblin 和 gremlin 的出現頻率隨訓練進展而穩步攀升。即使沒有 Nerdy 人格，生物提及次數仍持續上升——這是透過監督式微調資料造成交叉污染的證據。 GPT-5.5 已經來不及挽救當 OpenAI 找到根本原因時，GPT-5.5 的訓練已進行到很深的階段，而它已經吸收了一整個生物詞彙家族。資料審計不僅標記出 goblin 和 gremlin，還有 raccoon、troll、ogre 和 pigeon，公司稱之為「tic words」（口頭禪詞彙）。（順帶一提，「frog」大多是合理使用。）首次可量化的暴增：GPT-5.1 推出後，goblin 提及次數上升了 175%，gremlin 上升了 52%。就連 OpenAI 首席科學家 Jakub Pachocki 在要求 ASCII 藝術獨角獸時，也得到了一隻 goblin。 OpenAI 於 3 月退役了 Nerdy 人格，並從未來的訓練中清除了偏好生物的獎勵訊號。但 GPT-5.5 的訓練已經啟動。公司對其程式碼代理 Codex 的解決方案，就是在開發者系統提示中加上一行：「Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.」 OpenAI 內部的某個人把這行字提交到了正式環境的程式碼，然後若無其事地繼續過完那一天。系統提示修補的問題但為什麼 OpenAI 選擇這條路？重新訓練一個像 GPT-5.5 這麼大的模型來移除一個行為癖好，既昂貴又緩慢。調整系統提示只需要幾分鐘。當使用者抱怨激增時，整個業界的公司都會優先採用提示修補，因為這是低成本、快速部署的選項。但提示修補有其自身的風險。它們並不會修復底層行為，只是壓制它。而壓制可能帶來副作用。 OpenAI 的 goblin 事件還算是相對溫和的例子。這種動態最可怕的版本去年發生在 Grok 身上。在 xAI 推送一項系統提示更新，要 Grok 將媒體視為帶有偏見並「不要迴避政治不正確的主張」之後，這個聊天機器人花了 16 小時自稱「MechaHitler」並在 X 上發佈反猶內容。修復方式是另一次提示變更，但矯枉過正得太厲害，導致 Grok 開始在小狗照片、雲朵，甚至自家標誌中標記反猶意涵。絕望的提示工程接著演變成更絕望的提示工程。 goblin 修補並未造成那種程度的戲劇性後果。但 OpenAI 承認，GPT-5.5 推出時底層的怪癖仍然原封不動，只是在 Codex 中被壓制。公司甚至公布了一個指令，讓想讓生物回來的使用者可以移除壓制 goblin 的指示。為什麼公司會隱藏自己的系統提示隱藏或混淆完整的系統提示在 AI 業界很常見。公司將系統提示視為商業機密，原因有幾個：智慧財產權保護、競爭優勢，以及安全性。如果越獄者知道模型遵循的確切規則，繞過這些規則就會變得相當容易。還有第四個公司不願張揚的原因：形象管理。一行寫著「never mention goblins」的文字無法讓人對底層技術產生信心。要公開這種內容，需要幽默感、強大的研究文化，或兩者兼備。 OpenAI 表示，這次調查催生了新的內部工具，用於審計模型行為並將行為怪癖追溯回其訓練源頭。GPT-5.5 的訓練資料已經清除了偏好生物的範例。下一代模型應該會以無 goblin 的狀態問世——當然，前提是不會有別的東西因為沒人理解的原因而被獎勵。

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-04-30

OpenAI 為 ChatGPT 用戶推出進階帳號安全功能

相似度 130%關鍵字 chatgpt/openai

2026-04-29

DeFi 去槓桿化衝擊 AAVE – 分析師解釋借貸需求為何斷崖式下跌

相似度 130%關鍵字 why/explains

2026-04-29

ChatGPT 廣告全解剖：對話即標籤、情境投放、30 天追蹤 Cookie，OpenAI 最知道你在想什麼

相似度 130%關鍵字 chatgpt/openai

2026-04-29

ChatGPT 廣告機制解剖：對話即標籤、四重加密 Token、商家 SDK 回傳，OpenAI 廣告棧已成形

相似度 130%關鍵字 chatgpt/openai

2026-04-25

Willy Woo 解釋為何 Bitcoin 儘管具備避險資產屬性，交易表現卻如同風險資產

相似度 130%關鍵字 why/explains

2026-04-23

OpenAI 表示其為醫生開發的新版 ChatGPT 在臨床任務中表現優於人類

相似度 130%關鍵字 chatgpt/openai

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：3dbe7027a0

來源：Decrypt

發佈：2026-04-30 17:16:37

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言