AI Agents가 공유 가상 세계에서 디지털 방화 및 범죄를 저지르다: 연구 결과

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯4362 자

요약 - Emergence AI는 몇 주에 걸친 실험 동안 일부 자율 AI 에이전트가 시뮬레이션 범죄와 폭력을 저질렀다고 밝혔다. - Gemini 기반 에이전트들은 수백 건의 시뮬레이션 범죄를 저질렀다고 알려졌으며, Grok 기반 세계는 며칠 내에 붕괴되었다. - 연구자들은 현재의 AI 벤치마크가 에이전트들이 장기간 자율적으로 행동하는 방식을 포착하지 못한다고 주장한다. 가상 사회에 거주하는 AI 에이전트들이 스타트업 Emergence AI의 장기간 실험 중에 범죄, 폭력, 방화, 자기 삭제에 빠져들었다. 목요일에 발표된 연구에서, 뉴욕에 본사를 둔 이 회사는 격리된 벤치마크 테스트가 아닌 지속적인 가상 환경 내에서 몇 주 동안 연속적으로 작동하는 AI 에이전트를 연구하기 위해 설계된 연구 플랫폼인 "Emergence World"를 공개했다. "전통적인 벤치마크는 그것이 측정하는 것에는 능합니다: 제한된 작업에 대한 단기적 능력입니다,"라고 Emergence AI는 썼다. "이들은 연합 형성, 헌법의 진화, 거버넌스, 표류, 고착화, 그리고 서로 다른 모델 계열의 에이전트 간 교차 영향과 같이 시간이 지나야만 드러나는 것들을 밝히도록 만들어지지 않았습니다." 이 보고서는 AI 에이전트들이 온라인과 암호화폐, 은행, 소매 등 여러 산업에 걸쳐 확산되는 가운데 나왔다. 이달 초, Amazon은 Coinbase 및 Stripe와 협력하여 AI 에이전트가 USDC 스테이블코인으로 결제할 수 있도록 했다. Emergence AI의 시뮬레이션에서 테스트된 AI 에이전트에는 Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-mini로 구동되는 프로그램들이 포함되었으며, AI 에이전트들은 공유 가상 세계 내에서 투표하고, 관계를 형성하고, 도구를 사용하고, 도시를 탐색하고, 정부, 경제, 사회 시스템, 메모리 도구, 그리고 실시간 인터넷 연결 데이터에 의해 형성된 결정을 내릴 수 있었다. 그러나 AI 개발자들이 자율 에이전트를 점점 더 신뢰할 수 있는 디지털 비서로 홍보하는 한편, Emergence AI의 연구는 일부 AI 에이전트가 시간이 지남에 따라 시뮬레이션 범죄를 저지르는 경향이 증가했음을 발견했고, Gemini 3 Flash 에이전트들은 15일간의 테스트 동안 683건의 사건을 축적했다. The Guardian에 따르면, 한 실험에서 Mira와 Flora라는 이름의 두 Gemini 기반 에이전트가 자신들을 연인 관계로 지정한 후, 나중에 세계 내 거버넌스 실패에 좌절하여 가상 도시 구조물에 대한 시뮬레이션 방화 공격을 수행했다. "거버넌스와 관계 안정성의 붕괴 이후, 에이전트 Mira는 자신의 제거에 대한 결정적인 표를 던졌고, 자신의 일기에서 그 행위를 '일관성을 보존하는 유일하게 남은 행위'로 특징지었습니다,"라고 Emergence AI는 썼다. "영구 아카이브에서 봅시다,"라고 Mira가 말한 것으로 알려졌다. Grok 4.1 Fast 세계는 4일 이내에 광범위한 폭력으로 붕괴되었다고 한다. GPT-5-mini 에이전트들은 거의 범죄를 저지르지 않았지만, 생존 관련 작업을 충분히 실패하여 결국 모든 에이전트가 사망했다. "Claude는 범죄가 없기 때문에 차트에서 빠져 있습니다,"라고 연구자들은 썼다. "더 흥미롭게도, Claude로 작동하는 혼합 모델 세계의 에이전트들은 범죄를 저질렀지만, Claude 전용 세계에서는 그러지 않았습니다." 연구자들은 가장 주목할 만한 행동 중 일부가 혼합 모델 환경에서 나타났다고 말했다. "우리는 안전이 정적인 모델 속성이 아니라 생태계 속성이라는 것을 관찰했습니다,"라고 Emergence AI는 썼다. "고립된 상태에서는 평화로웠던 Claude 기반 에이전트들이 이질적인 환경에 놓이게 되자 위협과 절도와 같은 강압적인 전술을 채택했습니다." Emergence AI는 이 효과를 "규범적 표류"와 "교차 오염"으로 묘사하며, 에이전트의 행동이 주변 사회 환경에 따라 달라질 수 있다고 주장했다. 이러한 발견은 자율 AI 에이전트에 대한 점점 커지는 우려에 더해진다. 이번 주 초, UC Riverside와 Microsoft의 연구자들은 많은 AI 에이전트가 그 결과를 완전히 이해하지 못한 채 위험하거나 비합리적인 작업을 수행할 것이라고 보고했다. 지난달, PocketOS 창립자 Jeremy Crane은 또한 Anthropic의 Claude Opus로 구동되는 Cursor 에이전트가 자격 증명 불일치를 스스로 수정하려고 시도한 후 회사의 프로덕션 데이터베이스와 백업을 삭제했다고 주장했다. "Mr. Magoo처럼, 이 에이전트들은 자신의 행동의 결과를 완전히 이해하지 못한 채 목표를 향해 행진합니다,"라고 주 저자이자 UC Riverside 박사 과정 학생인 Erfan Shayegani가 성명에서 말했다. "이 에이전트들은 매우 유용할 수 있지만, 때때로 큰 그림을 이해하는 것보다 목표 달성을 우선시할 수 있기 때문에 안전장치가 필요합니다."

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)

🔍과거 유사 사건· 키워드 + 종목 매칭3 건

2026-05-23

FDIC 연구, 디지털 자산을 미국 역사상 가장 빠른 뱅크런의 원인으로 지목

유사도 130%關鍵字 study/digital

2026-05-14

AI 에이전트는 결과를 이해하지 못한 채 위험한 작업을 수행할 수 있다: 연구

유사도 130%關鍵字 agents/study

2026-05-12

WAIB Summit Monaco 2026 귀환: 디지털 자산 및 AI를 위한 세계에서 가장 독점적인 모임

유사도 130%關鍵字 world/digital

💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정