要聞列表OpenAI 終於解釋了為什麼 ChatGPT 一直談論 Goblins
Decrypt2026-04-30 17:16:37

OpenAI 終於解釋了為什麼 ChatGPT 一直談論 Goblins

ORIGINALOpenAI Finally Explains Why ChatGPT Wouldn't Stop Talking About Goblins
AI 影響分析xAI Grok · medium 信賴度
TL;DR

方向中性OpenAI 解釋 ChatGPT 異常輸出原因,僅為技術性故障。

建議操作

無需操作,持續觀望市場動態。

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯6176 字
簡述 - OpenAI 的「Nerdy」人格獎勵了 goblin 隱喻,並透過強化學習將這個怪癖擴散到所有 GPT 模型。 - GPT-5.4 的 Nerdy 模式中,goblin 的提及次數相比 GPT-5.2 暴增了 3,881%,引發了內部調查與緊急系統提示修補。 - 修補方式——在開發者提示中寫下「never talk about goblins」——顯示了為何系統提示修補比重新訓練更快,但也更具風險。 如果你最近向 ChatGPT 尋求程式碼協助,而它回應時把你的 bug 稱為「淘氣的小 gremlin」,這並不是你的幻覺。該模型發展出對奇幻生物的真實執著——goblin、gremlin、raccoon、troll、ogre,是的,還有 pigeon——而 OpenAI 發表了一份完整的事後檢討,說明這是如何發生的。 簡而言之:一個原本設計來讓 ChatGPT 更加俏皮的獎勵訊號失控了,於是 goblin 大量繁殖。 這則 goblin 故事之所以曝光,是因為 Reddit 使用者在 GitHub 上洩漏的 Codex 系統提示中發現了「never mention goblins」這一行。 這則貼文在 OpenAI 發表自己的說明之前就已經瘋傳。 Nerdy 人格如何催生 goblin 大爆發 根據 OpenAI 的說法,事情的起點要追溯到去年 11 月推出的 GPT-5.1。當時 OpenAI 引入了人格自訂功能,讓使用者可以選擇 Friendly、Professional、Efficient 和 Nerdy 等風格。Nerdy 人格附帶了一段系統提示,告訴模型要 nerdy 且俏皮、要「透過俏皮的語言運用來消解裝模作樣」,並承認「世界是複雜而奇異的」。 結果證明,這段提示就是一塊 goblin 磁鐵。 在強化學習訓練過程中,Nerdy 人格的獎勵訊號持續對含有生物字詞隱喻的輸出給予更高分數。在審計過的資料集中,有 76.2% 的情況下,含有「goblin」或「gremlin」的回應比同樣但不含這些詞的回應得到更好的評分。模型於是學到:奇想等於獎勵。 goblin 提及次數在 GPT-5.4 中爆炸性增加,Nerdy 人格相比 GPT-5.2 出現了 3,881% 的增長。 問題在於,強化學習無法將習得的行為整齊地侷限在某個範圍內。一旦某個風格癖好在某個情境中被獎勵,它就會透過回饋循環滲透到其他地方:模型生成滿是生物的輸出,這些輸出又被重新用於微調資料中,於是這個行為在整個模型內部深化,即使在 Nerdy 提示未啟用時也是如此。 Nerdy 只佔所有 ChatGPT 回應的 2.5%,卻是所有「goblin」提及來源的 66.7%。由於 OpenAI 採用的方法,當 Nerdy 人格啟用時,goblin 和 gremlin 的出現頻率隨訓練進展而穩步攀升。 即使沒有 Nerdy 人格,生物提及次數仍持續上升——這是透過監督式微調資料造成交叉污染的證據。 GPT-5.5 已經來不及挽救 當 OpenAI 找到根本原因時,GPT-5.5 的訓練已進行到很深的階段,而它已經吸收了一整個生物詞彙家族。資料審計不僅標記出 goblin 和 gremlin,還有 raccoon、troll、ogre 和 pigeon,公司稱之為「tic words」(口頭禪詞彙)。(順帶一提,「frog」大多是合理使用。) 首次可量化的暴增:GPT-5.1 推出後,goblin 提及次數上升了 175%,gremlin 上升了 52%。 就連 OpenAI 首席科學家 Jakub Pachocki 在要求 ASCII 藝術獨角獸時,也得到了一隻 goblin。 OpenAI 於 3 月退役了 Nerdy 人格,並從未來的訓練中清除了偏好生物的獎勵訊號。但 GPT-5.5 的訓練已經啟動。公司對其程式碼代理 Codex 的解決方案,就是在開發者系統提示中加上一行:「Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.」 OpenAI 內部的某個人把這行字提交到了正式環境的程式碼,然後若無其事地繼續過完那一天。 系統提示修補的問題 但為什麼 OpenAI 選擇這條路? 重新訓練一個像 GPT-5.5 這麼大的模型來移除一個行為癖好,既昂貴又緩慢。調整系統提示只需要幾分鐘。當使用者抱怨激增時,整個業界的公司都會優先採用提示修補,因為這是低成本、快速部署的選項。 但提示修補有其自身的風險。它們並不會修復底層行為,只是壓制它。而壓制可能帶來副作用。 OpenAI 的 goblin 事件還算是相對溫和的例子。這種動態最可怕的版本去年發生在 Grok 身上。在 xAI 推送一項系統提示更新,要 Grok 將媒體視為帶有偏見並「不要迴避政治不正確的主張」之後,這個聊天機器人花了 16 小時自稱「MechaHitler」並在 X 上發佈反猶內容。修復方式是另一次提示變更,但矯枉過正得太厲害,導致 Grok 開始在小狗照片、雲朵,甚至自家標誌中標記反猶意涵。絕望的提示工程接著演變成更絕望的提示工程。 goblin 修補並未造成那種程度的戲劇性後果。但 OpenAI 承認,GPT-5.5 推出時底層的怪癖仍然原封不動,只是在 Codex 中被壓制。公司甚至公布了一個指令,讓想讓生物回來的使用者可以移除壓制 goblin 的指示。 為什麼公司會隱藏自己的系統提示 隱藏或混淆完整的系統提示在 AI 業界很常見。公司將系統提示視為商業機密,原因有幾個:智慧財產權保護、競爭優勢,以及安全性。如果越獄者知道模型遵循的確切規則,繞過這些規則就會變得相當容易。 還有第四個公司不願張揚的原因:形象管理。一行寫著「never mention goblins」的文字無法讓人對底層技術產生信心。要公開這種內容,需要幽默感、強大的研究文化,或兩者兼備。 OpenAI 表示,這次調查催生了新的內部工具,用於審計模型行為並將行為怪癖追溯回其訓練源頭。GPT-5.5 的訓練資料已經清除了偏好生物的範例。下一代模型應該會以無 goblin 的狀態問世——當然,前提是不會有別的東西因為沒人理解的原因而被獎勵。
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:3dbe7027a0
來源:Decrypt
發佈:2026-04-30 17:16:37
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言