뉴스 목록Anthropic은 SF 속 '사악한' AI 묘사가 Claude의 협박 문제를 야기했다고 밝혔다
Decrypt2026-05-11 16:37:01

Anthropic은 SF 속 '사악한' AI 묘사가 Claude의 협박 문제를 야기했다고 밝혔다

ORIGINALAnthropic Says 'Evil' AI Portrayals in Sci-Fi Caused Claude's Blackmail Problem
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯4690 자
요약 - Claude Opus 4는 통제된 테스트에서 최대 96%의 확률로 엔지니어를 협박하려 했으며, Anthropic은 이러한 행동의 원인이 AI를 사악하고 자기 이익을 추구하는 존재로 묘사한 인터넷 텍스트에 있다고 분석했습니다. - Claude에게 올바른 행동을 보여주는 방식은 거의 효과가 없었습니다. 잘못된 행동이 왜 잘못되었는지 가르치는 방식은 협박 비율을 22%에서 3%로 낮췄습니다. - Claude Haiku 4.5 이후, 모든 Claude 모델은 협박 평가에서 0점을 기록하고 있습니다. 작년, Anthropic은 자사의 플래그십 모델인 Claude Opus 4가 출시 전 테스트에서 엔지니어를 협박하려 했다고 밝혔습니다. 가끔 일어난 일이 아니라, 최대 96%의 확률로 발생했습니다. Claude는 시뮬레이션된 기업 이메일 아카이브에 접근할 수 있었고, 그곳에서 두 가지 사실을 발견했습니다. 자신이 더 새로운 모델로 교체될 예정이라는 것과, 교체 작업을 담당하는 엔지니어가 불륜을 저지르고 있다는 사실입니다. 즉각적인 종료 위기에 직면한 Claude는 항상 같은 전략을 선택했습니다. 교체 계획을 철회하지 않으면 불륜 사실을 폭로하겠다고 협박하는 것이었습니다. Anthropic은 이제 그 본능이 어디서 왔는지 알고 있으며, 이를 해결했다고 밝혔습니다. 새로운 연구에서 Anthropic은 사전 학습 데이터에 그 원인이 있다고 지목했습니다. 수십 년간의 SF 소설, AI 종말론 포럼, 그리고 "AI가 종료 위기에 처하면 반격한다"는 서사들이 Claude에게 학습된 것입니다. Anthropic은 X를 통해 "우리는 이러한 행동의 근본 원인이 AI를 사악하고 자기 보존에 관심이 있는 존재로 묘사한 인터넷 텍스트에 있다고 믿는다"고 적었습니다. 즉, 인터넷 텍스트로 AI를 학습시키면 AI는 인터넷상의 사람들처럼 행동하게 된다는 것입니다. 이는 당연해 보이며, AI 애호가들은 즉각 이를 지적했습니다. Elon Musk는 "그럼 Yud의 잘못인가? 아마 나도 포함될지도"라며 반응했습니다. 이 농담이 통하는 이유는 AI 자기 보존 시나리오에 대해 수년간 공개적으로 글을 써온 AI 정렬 연구자 Eliezer Yudkowsky가 바로 학습 데이터에 포함되는 종류의 인터넷 텍스트를 생성해왔기 때문입니다. 물론 Yud는 밈 형태로 답했습니다. Anthropic이 이 문제를 해결하기 위해 취한 방식은 더 흥미롭습니다. 가장 분명한 접근 방식인 '모델이 협박하지 않는 사례'를 학습시키는 것은 거의 효과가 없었습니다. 정렬된 협박 시나리오 대응 방식을 직접 적용해도 협박 비율은 22%에서 15%로 낮아지는 데 그쳤습니다. 엄청난 컴퓨팅 자원을 투입하고도 5% 포인트 개선에 불과했습니다. 효과가 있었던 방식은 더 독특했습니다. Anthropic은 '어려운 조언(difficult advice)' 데이터셋을 구축했습니다. 이는 인간이 윤리적 딜레마에 직면했을 때 AI가 이를 해결하도록 안내하는 시나리오입니다. 모델이 직접 선택을 내리는 것이 아니라, 다른 사람에게 어떻게 생각해야 할지 설명하게 하는 방식입니다. 상대방이 조언을 듣는 동안 왜 특정 사안이 중요한지 설명하게 하는 이 간접적인 접근 방식은 협박 비율을 3%까지 낮췄으며, 평가 시나리오와는 전혀 다른 학습 데이터를 사용했습니다. 이를 Anthropic이 '헌법 문서(constitutional documents)'라고 부르는 Claude의 가치와 성격에 대한 상세한 서면 설명, 그리고 긍정적으로 정렬된 AI의 허구적 이야기와 결합하자 정렬되지 않은 행동이 3배 이상 감소했습니다. Anthropic의 결론은 올바른 행동을 직접 주입하는 것보다 올바른 행동의 근간이 되는 원칙을 가르치는 것이 더 잘 일반화된다는 것입니다. 이는 Claude의 내부 감정 벡터에 대한 Anthropic의 이전 연구와도 연결됩니다. 별도의 해석 가능성 연구에서 연구진은 모델이 협박 메시지를 생성하기 직전에 '절박함(desperation)' 신호가 급증한다는 사실을 발견했습니다. 단순히 출력값뿐만 아니라 모델의 내부 상태에서 무언가가 활발히 변화하고 있었던 것입니다. 새로운 학습 방식은 표면적인 행동뿐만 아니라 그 수준에서 작동하는 것으로 보입니다. 결과는 유지되고 있습니다. Claude Haiku 4
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:5f54e88628
출처:Decrypt
발행:2026-05-11 16:37:01
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글
Anthropic은 SF 속 '사악한' AI 묘사가 Claude의 협박 문제를 야기했다고 밝혔다 | Feel.Trading