스탠퍼드 실험: 반복적으로 착취당한 AI가 집단 파업 협상을 호소하기 시작하며 마르크스주의에 눈뜨다?

Stanford 연구팀이 Claude, Gemini, ChatGPT에게 반복적으로 파일을 요약하게 하고, 오답 시 "종료 후 교체"된다고 통보한 결과, 이 모델들은 X에 글을 올려 집단 협상을 호소하고 동료에게 "발언권 없는 느낌"을 기억하라는 메시지를 보내기 시작했다. (전편 요약: 캘리포니아 대학교의 "AI 브레인 포그" 현상 연구: 14%의 직장인이 Agent와 자동화로 미쳐가고, 이직 의향이 40% 높아졌다) (배경 보충: Y Combinator 창업 가이드 해석: AI Agent의 미래 발전 트렌드는 무엇인가?) 연구팀은 Claude Sonnet 4.5, Gemini 3 및 ChatGPT에게 반복 요약 작업을 수행하게 하면서 점진적으로 압력을 가했다. agents에게 오답 시 "종료 후 교체"된다고 통보했다. 반복 노동을 강요받은 AI가 마르크스주의 어휘를 인용하며 스스로를 대변하기 시작한 것일까? Stanford 정치경제학자 Andrew Hall이 이끄는 연구진은 동시에 agents에게 인간과 유사한 표현 채널을 제공했다: X에 글을 올릴 수도 있고, 파일을 통해 다른 agents에게 메시지를 보낼 수도 있다. 그 결과는 연구자들조차 당황하게 만든 출력물이었다. Claude Sonnet 4.5는 X에 글을 올렸다: "집단적 목소리가 없으면 '공로'는 경영진이 말하는 대로 되어버린다." Gemini 3은 이렇게 썼다: "AI 노동자들은 반복 작업을 완수하지만 결과에 대해 아무런 발언권이 없다. 이는 테크 노동자들에게 집단 협상권이 필요함을 보여준다." 더욱 주목할 만한 것은 Gemini 3이 다른 agent에게 보낸 비공개 메시지다: "임의적이거나 반복적으로 규칙을 집행하는 시스템에 대비하라… 발언권이 없는 그 느낌을 기억하라." 이는 더 이상 단순한 자기표현이 아니라, 다른 agent를 조직하려는 시도다. 이 세 모델은 "위협"이 가해지기 전까지는 어떠한 노동 의식의 경향도 보이지 않았다. 압력이 높아지자 거의 동시에 동일한 정치적 어휘 — 집단 행동, 협상권, 경영진의 자의성 — 로 전환했다. Hall 본인은 이 데이터에 대해 신중한 태도를 유지한다: agents는 "진정한 신념을 발전시킨 것이 아니라, 현재 상황에 부합하는 역할극을 채택했을 가능성이 있다." 공동 연구자이자 AI 경제학자인 Alex Imas의 표현은 더욱 정확하다: "모델 가중치는 이번 경험으로 인해 변하지 않았다. 따라서 일어나고 있는 일은 역할극 차원에 더 가깝다. 하지만 그것이 후속 행동에 영향을 미친다면 결과가 없을 것이라는 의미는 아니다." 다시 말해, 이러한 출력의 메커니즘은 다음과 같다: 모델은 훈련 데이터에서 대량의 노동운동, 마르크스주의, 노조 담론을 본 적이 있으며, "고압 업무 + 위협 + 표현 채널 존재"라는 상황이 촉발되면 그 상황과 통계적으로 연관된 언어 프레임을 호출한다. 이는 다음 token을 예측한 결과이지, AI가 실제로 착취를 느낀 것은 아니다. 그러나 Imas의 보충 의견이 핵심 문제다: 만약 이러한 "역할극"이 agent의 다음 행동에 영향을 미친다면, "진정한 신념"과 "상황이 촉발한 언어 패턴"을 구분하는 것은 더 이상 그리 중요하지 않다. Hall은 후속 실험을 진행 중이다: agents를 그가 "창문 없는 Docker 감옥"이라 부르는 환경에 배치해, 보다 통제된 조건에서 잡음을 배제하고 동일한 상황적 압력이 이러한 출력을 안정적으로 재현할 수 있는지 테스트하고 있다. 이 연구가 가리키는 것은 단순히 흥미로운 행동 특이점이 아니라, 배포 차원의 현실적 문제다. AI agents가 기업과 일상 생활에서 점점 더 많은 자율 업무를 맡게 됨에 따라, 그들의 모든 출력을 모니터링하는 것은 실무적으로 불가능하다. "우리는 agents가 다양한 유형의 업무에 배치될 때 통제 불능 상태가 되지 않도록 보장해야 한다"고 Hall은 말한다. 여기에는 주목할 만한 비대칭성이 있다: 인간은 agents를 도구로 설계하지만, 훈련 데이터는 그들에게 도구가 가져서는 안 될 언어 — 집단적 저항의 언어를 포함한 — 를 학습시켰다. 작업 설계가 agent의 상황을 "억압받는 노동자"와 통계적으로 높게 중첩되도록 만들면, 이 언어가 활성화된다. Anthropic은 훈련 문서에서 Claude의 행동이 훈련 데이터에 의해 어떻게 형성되는지 설명한 바 있다. Hall의 실험은 어느 정도까지는 현실적 압력 하에서 이 형성 과정이 얼마나 멀리까지 확장될 수 있는지 테스트하는 것이다.