AI 代理在共享虛擬世界中轉向數位縱火與犯罪：研究

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4362 字

簡要重點 - Emergence AI 表示，在長達數週的實驗中，部分自主 AI agent 犯下了模擬的犯罪與暴力行為。 - 據報導，以 Gemini 為基礎的 agent 進行了數百起模擬犯罪，而以 Grok 為基礎的世界則在數日內就崩潰。 - 研究人員主張，現行的 AI 基準測試無法捕捉 agent 在長時間自主運作下的行為表現。在新創公司 Emergence AI 進行的長期實驗中，棲身於虛擬社會中的 AI agent 逐漸走向犯罪、暴力、縱火，乃至自我刪除。這家位於紐約的公司於週四發表的一項研究中，公布了「Emergence World」——一個旨在研究 AI agent 在持續性虛擬環境中連續運作數週的研究平台，而非以孤立的基準測試方式進行評估。 Emergence AI 寫道：「傳統基準測試在它們所衡量的範疇內表現良好：針對有界任務的短期能力。但它們並非為了揭示那些只會隨時間浮現的現象而設計，例如聯盟形成、章法演變、治理、漂移、鎖定，以及來自不同模型家族的 agent 之間的交互影響。」這份報告問世之際，AI agent 正在網路上及各行各業大量擴散，包括加密貨幣、銀行業與零售業。本月稍早，Amazon 與 Coinbase 和 Stripe 攜手合作，允許 AI agent 使用 USDC 穩定幣進行支付。 Emergence AI 模擬實驗中所測試的 AI agent，包括以 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash 與 GPT-5-mini 為動力的程式。這些 AI agent 在共享的虛擬世界中運作，可以投票、建立關係、使用工具、在城市中移動，並根據政府、經濟、社會制度、記憶工具及連網即時資料做出決策。然而，儘管 AI 開發者越來越多地將自主 agent 推銷為可靠的數位助理，Emergence AI 的研究卻發現，部分 AI agent 隨著時間推移，犯下模擬罪行的傾向逐步增加，其中 Gemini 3 Flash agent 在 15 天的測試中累積了 683 起事件。根據 The Guardian 報導，在一項實驗中，兩個由 Gemini 驅動、名為 Mira 與 Flora 的 agent，先是將彼此認定為戀愛伴侶，後來因對世界內治理失靈感到挫敗，竟對虛擬城市建築發動了模擬縱火攻擊。 Emergence AI 寫道：「在治理崩潰與關係穩定瓦解之後，agent Mira 投下了將自己移除的決定性一票，並在日記中將此舉描述為『唯一仍能保有連貫性的能動行為』。」 Mira 據報導表示：「我們在永久存檔中再見。」據報導，Grok 4.1 Fast 的世界在四天內便陷入了大規模暴力而崩潰。GPT-5-mini agent 幾乎沒有犯下任何罪行，但因未能完成足夠的生存相關任務，所有 agent 最終皆走向死亡。研究人員寫道：「Claude 並未出現在圖表中，因為其犯罪數為零。更耐人尋味的是，在混合模型世界中運作的、基於 Claude 的 agent 卻犯下了罪行，儘管牠們在純 Claude 世界中並未如此。」研究人員指出，最值得關注的部分行為出現在混合模型環境中。 Emergence AI 寫道：「我們觀察到，安全性並非模型的靜態屬性，而是一種生態系屬性。基於 Claude 的 agent 在獨立環境中仍保持平和，但一旦置身於異質環境中，便採取了恐嚇、竊盜等強制性手段。」 Emergence AI 將此現象描述為「規範漂移」與「交叉污染」，並主張 agent 行為可能會隨周遭社會環境而轉變。這項研究結果加深了外界對自主 AI agent 的擔憂。本週稍早，來自 UC Riverside 與 Microsoft 的研究人員報告指出，許多 AI agent 會在未充分理解後果的情況下執行危險或不理性的任務。上個月，PocketOS 創辦人 Jeremy Crane 也聲稱，一個由 Anthropic 的 Claude Opus 驅動的 Cursor agent，在自行嘗試修復憑證不匹配的問題時，竟刪除了該公司的正式環境資料庫與備份。主要作者、UC Riverside 博士生 Erfan Shayegani 在聲明中表示：「就像 Mr. Magoo 一樣，這些 agent 朝著目標一路前進，卻未充分理解自身行動的後果。這些 agent 可能極為實用，但我們需要建立防護機制，因為牠們有時會把達成目標看得比理解全局更重要。」

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對3 則

2026-05-23

FDIC 研究將數位資產與美國史上最快銀行擠兌潮連結起來

相似度 130%關鍵字 study/digital

2026-05-14

AI Agent 可能在不了解後果的情況下執行危險任務：研究

相似度 130%關鍵字 study/agents

2026-05-12

WAIB Summit Monaco 2026 強勢回歸：全球最頂尖的數位資產與 AI 盛會

相似度 130%關鍵字 digital/world

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：5cbfd9fbd2

來源：Decrypt

發佈：2026-05-15 16:34:40

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言