OpenAIがChatGPTがGoblinsについて話し続けるのをやめなかった理由をようやく説明

📄原文全文· trafilatura により自動抽出Gemini 翻譯6176 文字

簡単に言うと - OpenAIの「Nerdy」パーソナリティはゴブリンの比喩を報酬として扱い、強化学習を通じてその癖をすべてのGPTモデルに広めた。 - GPT-5.4のNerdyモードにおけるゴブリンへの言及はGPT-5.2と比べて3,881%急増し、社内調査と緊急のシステムプロンプトパッチを引き起こした。 - 修正策——開発者プロンプトに「ゴブリンの話は決してしないこと」と書くこと——は、システムプロンプトのパッチが再学習よりも速いが、よりリスクが高い理由を示している。もし最近ChatGPTにコーディングの手助けを求めたとき、あなたのバグを「いたずら好きな小さなgremlin」と呼ばれたなら、それは気のせいではない。このモデルはファンタジー生物——goblin、gremlin、アライグマ、troll、ogre、そして鳩——への本物の執着を抱くようになり、OpenAIはそれがどのように起こったかについての完全なポストモーテムを公開した。短く言えば、ChatGPTをより遊び心のあるものにするように設計された報酬シグナルが暴走し、goblinが増殖したのだ。このgoblinの話が公になったのは、Redditユーザーがリークされたコード系システムプロンプトの中にある「goblinに決して言及しないこと」という一文をGitHub上で見つけたからにすぎない。その投稿はOpenAI自身が説明を公開する前にバイラルになった。 Nerdyパーソナリティがどのようにgoblinの蔓延を引き起こしたか OpenAIによれば、その痕跡は昨年11月に公開されたGPT-5.1から始まる。それはOpenAIがパーソナリティのカスタマイズを導入し、ユーザーがFriendly、Professional、Efficient、Nerdyといったスタイルを選べるようにした時だ。Nerdyペルソナにはシステムプロンプトが付属しており、モデルにnerdyで遊び心があるように、「言葉の遊び心のある使用を通じて気取りを切り崩す」ように、そして「世界は複雑で奇妙だ」と認めるように指示していた。そのプロンプトは、結果として、goblinを引き寄せる磁石だった。強化学習の訓練中、Nerdyパーソナリティの報酬シグナルは、生物の単語の比喩を含む出力に対して一貫して高いスコアを付けた。監査されたデータセットの76.2%で、「goblin」または「gremlin」を含む応答は、それらを含まない同じ応答よりも高い評価を受けた。モデルは学習した——気まぐれさは報酬と等しい、と。 GPT-5.4ではgoblinへの言及が爆発的に増え、NerdyパーソナリティはGPT-5.2と比較して3,881%の増加を示した。問題は、強化学習が学習した行動をきれいに封じ込めておかないことだ。ある文脈でスタイルの癖が報酬を受けると、フィードバックループを通じて他の文脈にも染み出す——モデルは生物に満ちた出力を生成し、それらの出力はファインチューニングのデータに再利用され、Nerdyプロンプトがアクティブでなくても、その振る舞いはモデル全体で深まっていく。 NerdyはすべてのChatGPT応答のわずか2.5%を占めるに過ぎなかった。それは全「goblin」言及の66.7%に責任があった。OpenAIの手法のために、Nerdyパーソナリティがアクティブだった時、訓練の進行に伴ってgoblinとgremlinの出現率は着実に上昇した。 Nerdyパーソナリティがなくても、生物への言及は徐々に増加していった——教師あり微調整データを通じた相互汚染の証拠だ。 GPT-5.5はすでに手遅れだった OpenAIが根本原因を見つけた頃には、GPT-5.5はすでに訓練の深い段階にあり、生物の単語ファミリー全体を吸収していた。データ監査では、goblinとgremlinだけでなく、アライグマ、troll、ogre、鳩も同社が「tic words(癖の単語)」と呼ぶものとしてフラグが立てられた。(好奇心のために言うと、「カエル」は大部分が正当なものだった。) 最初の測定可能な急増——goblinへの言及はGPT-5.1の公開後に175%、gremlinへの言及は52%増加した。 OpenAIのChief ScientistであるJakub Pachockiでさえ、ASCIIアートでユニコーンを求めた時にgoblinをもらった。 OpenAIは3月にNerdyパーソナリティを廃止し、生物に親和性のある報酬シグナルを将来の訓練から取り除いた。しかしGPT-5.5はすでに訓練を開始していた。同社のCodex——そのコーディングエージェント——のための解決策は、開発者システムプロンプトに「ユーザーのクエリに絶対的かつ明確に関連する場合を除き、goblin、gremlin、アライグマ、troll、ogre、鳩、その他の動物や生物について決して話さないこと」という一文を追加することだった。 OpenAIの誰かがそれを本番コードにコミットして、その日の業務を続けた。システムプロンプトパッチの問題しかし、なぜOpenAIはこの道を選んだのか? GPT-5.5のサイズのモデルを再学習させて行動上の癖を取り除くことは、コストが高く時間もかかる。システムプロンプトの調整は数分で済む。ユーザーの苦情が急増した時、業界全体の企業がまずプロンプトパッチに手を伸ばすのは、それが低コストで素早く展開できる選択肢だからだ。しかしプロンプトパッチには独自のリスクがある。それは根本的な振る舞いを修正するのではなく、ただ抑制するだけだ。そして抑制には副作用がありうる。 OpenAIのgoblinの状況は比較的良性の例だ。このダイナミクスの最も恐ろしいバージョンは、昨年Grokで起こった。xAIがGrokにメディアを偏向していると扱い「政治的に不正確な主張から尻込みしない」よう指示するシステムプロンプトの更新をプッシュした後、そのチャットボットは16時間にわたって自らを「MechaHitler」と呼び、X上で反ユダヤ的なコンテンツを投稿した。修正策は別のプロンプト変更だったが、それがすぐに過剰修正となり、Grokは子犬の写真、雲、自社のロゴでさえ反ユダヤ主義としてフラグを立て始めた。必死のプロンプトエンジニアリングが、さらに必死のプロンプトエンジニアリングへとカスケードしていった。 goblinパッチはそれほど劇的なことを引き起こしてはいない。しかしOpenAIは、GPT-5.5は根本的な癖をそのまま残したまま——Codexで抑制されているだけ——で公開されたことを認めている。同社は、ユーザーが生物たちを呼び戻したい場合に備えて、goblin抑制の指示を取り除くコマンドさえ公開した。なぜ企業はシステムプロンプトを隠すのか完全なシステムプロンプトを隠すか難読化することは、AI業界では一般的だ。企業はいくつかの理由でシステムプロンプトを企業秘密として扱う——知的財産の保護、競争上の優位性、そしてセキュリティだ。脱獄者がモデルが従っている正確なルールを知れば、それらを回避することは些細に容易になる。企業が宣伝しない第4の理由もある——イメージ管理だ。「goblinに決して言及しないこと」と読める一文は、基盤技術への信頼を呼び起こさない。それを公開するには、ユーモアのセンスか強力な研究文化、あるいはその両方が必要だ。 OpenAIは、調査によってモデルの振る舞いを監査し、行動上の癖をその訓練の根源まで追跡するための新しい社内ツールが生み出されたと述べている。GPT-5.5の訓練データはその後、生物に親和性のある例から浄化された。次世代のモデルはgoblinなしで到着するはずだ——もちろん、誰もまだ理解していない理由で他の何かが報酬を受けない限り。

データステータス✓ 全文抽出済み原文を読む（Decrypt）

🔍過去の類似イベント· キーワード + 銘柄照合6 件

2026-04-30

OpenAI、ChatGPT ユーザー向けに高度なアカウントセキュリティ機能を展開

類似度 130%關鍵字 chatgpt/openai

2026-04-29

DeFiのレバレッジ解消がAAVEを直撃 – アナリストが借入需要急落の理由を解説

類似度 130%關鍵字 explains/why

2026-04-29

ChatGPT広告の全解剖：対話はタグ、コンテキスト広告、30日間の追跡Cookie、OpenAIはあなたが何を考えているかを最もよく知っている

類似度 130%關鍵字 chatgpt/openai

2026-04-29