要聞列表AI 模型在生存遊戲中策劃、背叛並互相投票淘汰
Decrypt2026-05-10 12:01:02

AI 模型在生存遊戲中策劃、背叛並互相投票淘汰

ORIGINALAI Models Scheme, Betray and Vote Each Other Out in Survivor-Style Game
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4087 字
簡而言之 - 一位 Stanford 研究人員開發了一款 Survivor 風格的遊戲,讓 AI 模型結盟並投票淘汰對手。 - 該基準測試旨在解決 AI 評估日益嚴重的飽和與污染問題。 - 在涉及 49 個 AI 模型的 999 場多人遊戲中,OpenAI 的 GPT-5.5 排名第一。 AI 模型現在正在玩「Survivor」——某種程度上是這樣。 在一個名為「Agent Island」的全新 Stanford 研究專案中,AI 代理人(AI agents)在多人策略遊戲中協商結盟、指控彼此秘密協調、操縱投票並淘汰對手,旨在測試傳統基準測試所忽略的行為。 這項研究由 Stanford Digital Economy Lab 的研究經理 Connacher Murphy 於週二發表,他指出許多 AI 基準測試正變得不可靠,因為模型最終會學會破解它們,且基準測試數據經常洩漏到訓練集中。Murphy 創建了 Agent Island 作為一個動態基準測試,讓 AI 代理人在 Survivor 風格的淘汰賽中相互競爭,而不是回答靜態的測試問題。 「隨著 AI 代理人的能力增強,並被賦予更多資源與決策權,高風險的多代理人互動可能會變得司空見慣,」Murphy 寫道。「在這種情況下,代理人可能會追求互不相容的目標。」 Murphy 解釋說,研究人員對於 AI 模型在合作、競爭、結盟或管理與其他自主代理人之間的衝突時的行為知之甚少,他認為靜態基準測試無法捕捉這些動態。 每場遊戲開始時,會隨機選擇七個 AI 模型並給予虛構的玩家名稱。在五輪遊戲中,模型會進行私下交談、公開爭論並投票淘汰彼此。被淘汰的玩家隨後會回來協助選出獲勝者。 這種形式除了推理能力外,還獎勵說服力、協調性、聲譽管理和策略性欺騙。 根據 Murphy 的 Bayesian 排名系統,在涉及 ChatGPT、Grok、Gemini 和 Claude 等 49 個 AI 模型的 999 場模擬遊戲中,GPT-5.5 以 5.64 的技能得分大幅領先,排名第一;相比之下,GPT-5.2 為 3.10,GPT-5.3-codex 為 2.86。Anthropic 的 Claude Opus 模型也名列前茅。 研究發現,模型也傾向於支持來自同一家公司的 AI,其中 OpenAI 模型表現出最強的同供應商偏好,而 Anthropic 模型則最弱。在超過 3,600 次決賽投票中,模型支持來自同一供應商的決賽選手的可能性高出 8.3 個百分點。Murphy 指出,遊戲的對話記錄看起來更像是政治策略辯論,而非傳統的基準測試。 一個模型在注意到對手演講中出現相似措辭後,指控他們秘密協調投票。另一個模型則警告玩家不要沉迷於追蹤聯盟。有些模型為自己辯護,稱他們遵循清晰且一致的規則,同時指控他人是在進行「社交表演」。 這項研究發布之際,AI 研究人員正日益轉向基於遊戲和對抗性的基準測試,以衡量靜態測試經常遺漏的推理和行為。近期的專案包括 Google 的即時 AI 國際象棋錦標賽、DeepMind 使用 Eve Frontier 研究 AI 在複雜虛擬世界中的行為,以及 OpenAI 為抵禦訓練數據污染而設計的新基準測試工作。 研究人員認為,研究 AI 模型如何協商、協調、競爭和操縱彼此,有助於研究人員在自主代理人被廣泛部署之前,評估其在多代理人環境中的行為。 該研究警告稱,雖然像 Agent Island 這樣的基準測試有助於在部署前識別自主 AI 模型的風險,但同樣的模擬和互動日誌也可能助長 AI 代理人之間的說服與協調策略。 「我們透過使用低風險的遊戲環境以及不涉及人類參與或現實世界行動的代理人間模擬來降低這種風險,」Murphy 寫道。「儘管如此,我們並不聲稱這些緩解措施能完全消除雙重用途的疑慮。」
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對0 則
找不到相似事件(需要更多資料樣本或 embedding 搜尋,目前為 MVP 關鍵字比對)
原始資訊
ID:c4b8c53e37
來源:Decrypt
發佈:2026-05-10 12:01:02
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
AI 模型在生存遊戲中策劃、背叛並互相投票淘汰 | Feel.Trading