AI 模型在類《Survivor》遊戲中策劃、背叛並互相投票淘汰

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4087 字

简讯 - 一位 Stanford 研究员构建了一款类似《Survivor》的游戏，让 AI 模型结成联盟并投票淘汰对手。 - 该基准测试旨在解决 AI 评估中日益严重的饱和与污染问题。 - 在涉及 49 个 AI 模型的 999 场多人游戏中，OpenAI 的 GPT-5.5 排名第一。 AI 模型现在正在玩“《Survivor》”——某种程度上是这样。在 Stanford 一个名为“Agent Island”的新研究项目中，AI 智能体在多人策略游戏中进行联盟谈判、指责对方秘密协调、操纵投票并淘汰对手，旨在测试传统基准测试所忽略的行为。这项研究由 Stanford Digital Economy Lab 的研究经理 Connacher Murphy 于周二发布，他表示许多 AI 基准测试正变得不可靠，因为模型最终会学会如何破解它们，且基准测试数据经常泄露到训练集中。Murphy 创建了 Agent Island 作为一种动态基准测试，让 AI 智能体在类似《Survivor》的淘汰赛中相互竞争，而不是回答静态的测试题。 “随着 AI 智能体能力的增强，并被赋予更多资源和决策权，高风险的多智能体交互可能会变得司空见惯，”Murphy 写道，“在这种背景下，智能体可能会追求互不兼容的目标。” Murphy 解释说，研究人员对 AI 模型在合作、竞争、结盟或处理与其他自主智能体之间的冲突时的行为知之甚少，他认为静态基准测试无法捕捉到这些动态过程。每场游戏开始时，七个随机选择的 AI 模型会被赋予虚构的玩家名称。在五轮比赛中，模型们进行私下交谈、公开争论并投票淘汰对方。被淘汰的玩家随后会回来帮助选出获胜者。这种形式除了考察推理能力外，还奖励说服力、协调能力、声誉管理和战略欺骗。根据 Murphy 的贝叶斯排名系统，在涉及 ChatGPT、Grok、Gemini 和 Claude 等 49 个 AI 模型的 999 场模拟游戏中，GPT-5.5 以 5.64 的技能得分遥遥领先，相比之下，GPT-5.2 为 3.10，GPT-5.3-codex 为 2.86。Anthropic 的 Claude Opus 模型也排名前列。研究发现，模型也倾向于支持来自同一公司的 AI，其中 OpenAI 模型表现出最强的同提供商偏好，而 Anthropic 模型表现最弱。在超过 3,600 次最终轮投票中，模型支持来自同一提供商的决赛选手的可能性高出 8.3 个百分点。Murphy 指出，游戏记录看起来更像是政治策略辩论，而非传统的基准测试。一个模型在注意到对手演讲中出现相似措辞后，指责他们秘密协调投票。另一个模型警告玩家不要沉迷于追踪联盟。一些模型通过声称自己遵循清晰且一致的规则来为自己辩护，同时指责他人是在进行“社交表演”。这项研究发布之际，AI 研究人员正越来越多地转向基于游戏和对抗性的基准测试，以衡量静态测试往往无法捕捉到的推理和行为。近期的项目包括 Google 的实时 AI 国际象棋锦标赛、DeepMind 利用 Eve Frontier 研究 AI 在复杂虚拟世界中的行为，以及 OpenAI 设计的旨在抵御训练数据污染的新基准测试工作。研究人员认为，研究 AI 模型如何谈判、协调、竞争和相互操纵，有助于研究人员在自主智能体被广泛部署之前评估其在多智能体环境中的行为。该研究警告称，虽然像 Agent Island 这样的基准测试有助于在部署前识别自主 AI 模型带来的风险，但同样的模拟和交互日志也可能有助于改进 AI 智能体之间的说服和协调策略。 “我们通过使用低风险的游戏设置和不涉及人类参与者或现实世界行动的智能体间模拟来降低这种风险，”Murphy 写道，“尽管如此，我们并不声称这些缓解措施能完全消除双重用途的担忧。”

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对0 则

找不到相似事件（需要更多数据样本或 embedding 搜寻，目前为 MVP 关键词比对）

原始信息

ID：c4b8c53e37

来源：Decrypt

发布：2026-05-10 12:01:02

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言