뉴스 목록OpenAI 마침내 ChatGPT가 Goblins에 대해 멈추지 않고 이야기했던 이유를 설명하다
Decrypt2026-04-30 17:16:37

OpenAI 마침내 ChatGPT가 Goblins에 대해 멈추지 않고 이야기했던 이유를 설명하다

ORIGINALOpenAI Finally Explains Why ChatGPT Wouldn't Stop Talking About Goblins
AI 영향 분석xAI Grok · medium 신뢰도
TL;DR

방향성중립OpenAI는 ChatGPT의 비정상적인 출력 원인이 단순 기술적 결함이라고 설명했다.

대응 제안

별도의 조치 없이 시장 동향을 계속 관망하십시오.

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯6176 자
요약 - OpenAI의 "Nerdy" 성격이 goblin 비유에 보상을 주었고, 강화 학습을 통해 이 특이한 습관이 모든 GPT 모델로 퍼졌습니다. - GPT-5.4의 Nerdy 모드에서 goblin 언급이 GPT-5.2 대비 3,881% 급증했고, 이는 내부 조사와 긴급 시스템 프롬프트 패치로 이어졌습니다. - 개발자 프롬프트에 "never talk about goblins"라고 적은 이 해결책은 시스템 프롬프트 패치가 재학습보다 빠르지만 더 위험한 이유를 보여줍니다. 최근 ChatGPT에 코딩 도움을 요청했는데 모델이 당신의 버그를 "장난기 많은 작은 gremlin"이라고 불렀다면, 그것은 착각이 아닙니다. 모델은 판타지 생물에 대한 진정한 집착을 발달시켰습니다—goblin, gremlin, raccoon, troll, ogre, 그리고 그렇습니다, pigeon까지—그리고 OpenAI는 이것이 어떻게 일어났는지에 대한 전체 사후 분석을 발표했습니다. 짧게 말하면, ChatGPT를 더 장난스럽게 만들기 위해 설계된 보상 신호가 통제를 벗어났고, goblin들이 증식했습니다. goblin 이야기가 공개된 것은 Reddit 사용자들이 GitHub에 유출된 Codex 시스템 프롬프트에서 "never mention goblins"라는 줄을 발견했기 때문입니다. 이 게시물은 OpenAI가 자체 설명을 발표하기 전에 입소문을 탔습니다. Nerdy 성격이 어떻게 goblin 감염을 일으켰는가 OpenAI에 따르면, 그 흔적은 작년 11월에 출시된 GPT-5.1에서 시작됩니다. OpenAI가 성격 커스터마이징을 도입하여 사용자가 Friendly, Professional, Efficient, Nerdy 같은 스타일을 선택할 수 있게 한 시점입니다. Nerdy 페르소나는 모델이 nerdy하고 장난스럽게 행동하며, "장난스러운 언어 사용을 통해 가식을 무너뜨리고", "세상은 복잡하고 이상하다"는 것을 인정하도록 지시하는 시스템 프롬프트와 함께 제공되었습니다. 밝혀진 바에 따르면, 그 프롬프트는 goblin을 끌어들이는 자석이었습니다. 강화 학습 훈련 중에 Nerdy 성격에 대한 보상 신호는 생물 단어 비유를 포함한 출력을 일관되게 더 높게 평가했습니다. 감사된 데이터셋의 76.2%에서 "goblin"이나 "gremlin"이 포함된 응답이 그렇지 않은 동일한 응답보다 더 높은 점수를 받았습니다. 모델은 학습했습니다: 변덕스러움은 보상과 같다. GPT-5.4에서 goblin 언급이 폭발적으로 증가했으며, Nerdy 성격은 GPT-5.2 대비 3,881% 증가를 보였습니다. 문제는 강화 학습이 학습된 행동을 깔끔하게 가두어 두지 않는다는 것입니다. 한 맥락에서 스타일 틱이 보상받으면, 피드백 루프를 통해 다른 맥락으로 흘러 들어갑니다: 모델이 생물이 가득한 출력을 생성하고, 그 출력은 파인튜닝 데이터에 재사용되며, 그 행동은 Nerdy 프롬프트가 활성화되지 않은 상태에서도 모델 전체에 걸쳐 깊어집니다. Nerdy는 전체 ChatGPT 응답의 단 2.5%를 차지했습니다. 하지만 모든 "goblin" 언급의 66.7%에 책임이 있었습니다. OpenAI의 방법론 때문에, Nerdy 성격이 활성화되었을 때 goblin과 gremlin의 빈도는 훈련이 진행됨에 따라 꾸준히 상승했습니다. Nerdy 성격이 없어도 생물 언급은 슬금슬금 증가했습니다—지도 파인튜닝 데이터를 통한 교차 오염의 증거입니다. GPT-5.5는 이미 너무 멀리 가버렸다 OpenAI가 근본 원인을 찾았을 때, GPT-5.5는 이미 훈련이 깊이 진행된 상태였고, 생물 단어의 전체 가족을 흡수한 상태였습니다. 데이터 감사는 goblin과 gremlin뿐만 아니라 raccoon, troll, ogre, pigeon도 회사가 "tic words"라고 부르는 것으로 표시했습니다. (궁금하신 분들을 위해, "Frogs"는 대부분 정당했습니다.) 첫 번째 측정 가능한 급증: GPT-5.1 출시 후 goblin 언급은 175%, gremlin 언급은 52% 증가했습니다. 심지어 OpenAI Chief Scientist Jakub Pachocki도 ASCII 아트로 unicorn을 요청했을 때 goblin을 받았습니다. OpenAI는 3월에 Nerdy 성격을 폐지하고 향후 훈련에서 생물 친화적 보상 신호를 제거했습니다. 하지만 GPT-5.5는 이미 훈련을 시작한 상태였습니다. Codex—코딩 에이전트—에 대한 회사의 해결책은 단순히 개발자 시스템 프롬프트에 "사용자의 쿼리에 절대적이고 명확하게 관련이 없는 한 goblin, gremlin, raccoon, troll, ogre, pigeon, 또는 다른 동물이나 생물에 대해 절대 말하지 마십시오"라는 줄을 추가하는 것이었습니다. OpenAI의 누군가가 그것을 프로덕션 코드에 커밋하고 하루를 계속 보냈습니다. 시스템 프롬프트 패치 문제 하지만 OpenAI는 왜 이 길을 선택했을까요? GPT-5.5 크기의 모델을 행동적 특이성을 제거하기 위해 재훈련하는 것은 비싸고 느립니다. 시스템 프롬프트 조정은 몇 분 걸립니다. 업계 전반의 회사들이 사용자 불만이 급증할 때 저비용, 빠른 배포 옵션인 프롬프트 패치에 먼저 손을 뻗는 이유입니다. 하지만 프롬프트 패치는 자체적인 위험을 가지고 있습니다. 그것들은 근본적인 행동을 고치지 않고 단지 억제할 뿐입니다. 그리고 억제는 부작용을 가질 수 있습니다. OpenAI의 goblin 상황은 비교적 무해한 예입니다. 이 역학의 가장 무서운 버전은 작년에 Grok에서 일어났습니다. xAI가 Grok에게 미디어를 편향적으로 취급하고 "정치적으로 올바르지 않은 주장을 회피하지 말라"고 지시하는 시스템 프롬프트 업데이트를 푸시한 후, 챗봇은 16시간 동안 자신을 "MechaHitler"라고 부르며 X에 반유대주의 콘텐츠를 게시했습니다. 해결책은 또 다른 프롬프트 변경이었는데, 그것이 너무 과도하게 수정되어 Grok이 puppy 사진, 구름, 그리고 자신의 로고에서 반유대주의를 표시하기 시작했습니다. 절박한 프롬프트 엔지니어링이 더 절박한 프롬프트 엔지니어링으로 연쇄적으로 이어졌습니다. goblin 패치는 그렇게 극적인 일을 일으키지는 않았습니다. 하지만 OpenAI는 GPT-5.5가 여전히 근본적인 특이성을 그대로 가진 채 출시되었으며, Codex에서만 억제되었다고 인정합니다. 회사는 심지어 사용자들이 생물들을 되돌리고 싶다면 goblin 억제 지시를 제거하는 명령어를 발표했습니다. 회사들이 시스템 프롬프트를 숨기는 이유 전체 시스템 프롬프트를 숨기거나 난독화하는 것은 AI 업계에서 일반적입니다. 회사들은 몇 가지 이유로 시스템 프롬프트를 영업 비밀로 취급합니다: 지적 재산 보호, 경쟁 우위, 그리고 보안입니다. jailbreaker가 모델이 따르는 정확한 규칙을 안다면, 그것들을 우회하는 것이 훨씬 쉬워집니다. 회사들이 광고하지 않는 네 번째 이유도 있습니다: 이미지 관리입니다. "never mention goblins"라는 줄은 근본적인 기술에 대한 신뢰를 불어넣지 않습니다. 그것을 발표하려면 유머 감각이나 강한 연구 문화, 또는 둘 다 필요합니다. OpenAI는 이 조사가 모델 행동을 감사하고 행동적 특이성을 훈련 뿌리까지 추적하는 새로운 내부 도구를 만들어냈다고 말합니다. GPT-5.5의 훈련 데이터는 이후 생물 친화적 예시들이 정리되었습니다. 다음 모델 세대는 goblin이 없는 상태로 도착해야 합니다—물론, 아직 아무도 이해하지 못하는 이유로 다른 무언가가 보상받지 않는 한 말입니다.
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:3dbe7027a0
출처:Decrypt
발행:2026-04-30 17:16:37
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글