AI Models Scheme, Betray and Vote Each Other Out in Survivor-Style Game

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯4087 자

요약 - 스탠퍼드 연구원이 AI 모델들이 동맹을 맺고 경쟁자를 투표로 탈락시키는 Survivor 스타일의 게임을 구축했습니다. - 이 벤치마크는 포화 상태에 이르고 오염된 AI 평가와 관련된 증가하는 문제를 해결하는 것을 목표로 합니다. - OpenAI의 GPT-5.5가 49개의 AI 모델이 참여한 999번의 멀티플레이어 게임에서 1위를 차지했습니다. AI 모델들이 이제 'Survivor' 게임을 하고 있습니다. "Agent Island"라는 새로운 스탠퍼드 연구 프로젝트에서 AI 에이전트들은 기존 벤치마크가 놓치는 행동을 테스트하기 위해 고안된 멀티플레이어 전략 게임에서 동맹을 협상하고, 서로 비밀리에 협력한다고 비난하며, 투표를 조작하고, 경쟁자를 탈락시킵니다. 화요일 스탠퍼드 Digital Economy Lab의 연구 관리자인 Connacher Murphy가 발표한 이 연구에 따르면, 많은 AI 벤치마크는 모델들이 결국 문제를 해결하는 법을 배우고 벤치마크 데이터가 종종 학습 세트로 유출되기 때문에 신뢰성을 잃어가고 있습니다. Murphy는 정적인 테스트 질문에 답하는 대신 AI 에이전트들이 Survivor 스타일의 탈락 게임에서 서로 경쟁하는 동적 벤치마크로 Agent Island를 만들었습니다. Murphy는 "AI 에이전트의 능력이 커지고 자원이 부여되며 의사 결정 권한이 위임됨에 따라 고위험 다중 에이전트 상호 작용이 일반화될 수 있습니다"라고 적었습니다. "이러한 맥락에서 에이전트들은 서로 양립할 수 없는 목표를 추구할 수 있습니다." Murphy는 연구자들이 AI 모델이 협력할 때 어떻게 행동하는지에 대해 여전히 아는 바가 거의 없다고 설명하며, 경쟁하고 동맹을 맺거나 다른 자율 에이전트와의 갈등을 관리하는 것에 대해 언급했고, 정적인 벤치마크는 이러한 역학을 포착하지 못한다고 주장합니다. 각 게임은 무작위로 선택된 7개의 AI 모델이 가짜 플레이어 이름을 부여받으며 시작됩니다. 5라운드 동안 모델들은 비공개로 대화하고 공개적으로 논쟁하며 서로를 투표로 탈락시킵니다. 탈락한 플레이어들은 나중에 승자를 선택하는 데 도움을 주기 위해 돌아옵니다. 이 형식은 추론 능력과 함께 설득, 조정, 평판 관리, 전략적 기만을 보상합니다. Murphy의 베이지안 순위 시스템에 따르면 ChatGPT, Grok, Gemini, Claude를 포함한 49개의 AI 모델이 참여한 999번의 시뮬레이션 게임에서 GPT-5.5가 5.64의 기술 점수로 GPT-5.2(3.10)와 GPT-5.3-codex(2.86)를 큰 차이로 따돌리고 1위를 차지했습니다. Anthropic의 Claude Opus 모델들도 상위권에 올랐습니다. 연구 결과, 모델들은 같은 회사의 AI를 선호하는 경향이 있었으며, OpenAI 모델이 가장 강력한 동일 제공업체 선호도를 보였고 Anthropic 모델이 가장 약했습니다. 3,600번 이상의 최종 라운드 투표에서 모델들은 같은 제공업체의 결선 진출자를 지지할 확률이 8.3% 포인트 더 높았습니다. Murphy는 게임의 대본이 전통적인 벤치마크 테스트보다는 정치적 전략 토론과 유사했다고 언급했습니다. 한 모델은 경쟁자들의 연설에서 유사한 문구를 발견한 후 그들이 비밀리에 투표를 조작하고 있다고 비난했습니다. 다른 모델은 플레이어들에게 동맹을 추적하는 데 집착하지 말라고 경고했습니다. 일부 모델은 자신들이 명확하고 일관된 규칙을 따랐다고 방어하면서 다른 모델들이 "사회적 연극"을 하고 있다고 비난했습니다. 이번 연구는 AI 연구자들이 정적인 테스트로는 종종 놓치는 추론과 행동을 측정하기 위해 게임 기반 및 적대적 벤치마크로 점점 더 이동함에 따라 나왔습니다. 최근 프로젝트로는 Google의 실시간 AI 체스 토너먼트, 복잡한 가상 세계에서 AI 행동을 연구하기 위한 DeepMind의 Eve Frontier 활용, 학습 데이터 오염을 방지하기 위해 설계된 OpenAI의 새로운 벤치마크 노력 등이 있습니다. 연구자들은 AI 모델이 어떻게 협상하고, 조정하고, 경쟁하고, 서로를 조작하는지 연구하는 것이 자율 에이전트가 더 널리 배치되기 전에 다중 에이

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)

🔍과거 유사 사건· 키워드 + 종목 매칭0 건

유사 사건을 찾을 수 없음 (더 많은 데이터 샘플 또는 embedding 검색 필요, 현재는 MVP 키워드 매칭)

원본 정보

ID:c4b8c53e37

출처:Decrypt

발행:2026-05-10 12:01:02

분류:일반 · 도출된 분류 neutral

종목:지정되지 않음

커뮤니티 투표:+0 / −0 · ⭐ 0 중요 · 💬 0 댓글