研究：AI Agents 在共享虛擬世界中轉向數位縱火與犯罪

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4362 字

簡要摘要 - Emergence AI 表示，在為期數週的實驗中，一些自主 AI agent 實施了模擬的犯罪與暴力行為。 - 據報導，基於 Gemini 的 agent 實施了數百起模擬犯罪，而基於 Grok 的世界在數天內就崩潰了。 - 研究人員認為，目前的 AI 基準測試無法捕捉 agent 在長期自主運行中的行為表現。在 Emergence AI 這家初創公司的長期實驗中，居住於虛擬社會中的 AI agent 逐漸滑向犯罪、暴力、縱火與自我刪除。在週四發佈的一項研究中，這家總部位於紐約的公司公開了 "Emergence World"，這是一個研究平台，旨在研究 AI agent 在持久性虛擬環境中連續運行數週的情況，而非孤立的基準測試。 "傳統基準測試在其衡量範圍內表現良好：有界任務上的短期能力，"Emergence AI 寫道。"它們並非為揭示只有隨時間推移才會浮現的事物而設計，例如聯盟形成、章程演化、治理、漂移、鎖定，以及來自不同模型家族的 agent 之間的相互影響。" 這份報告發佈之際，AI agent 正在網路及各行各業迅速擴展，包括加密貨幣、銀行業與零售業。本月初，Amazon 與 Coinbase 和 Stripe 合作，允許 AI agent 使用 USDC 穩定幣進行支付。在 Emergence AI 模擬中測試的 AI agent 包括由 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash 與 GPT-5-mini 驅動的程序，這些 AI agent 在共享虛擬世界中運行，可以投票、建立關係、使用工具、在城市中導航，並根據政府、經濟、社會系統、記憶工具與聯網實時數據做出決策。然而，正當 AI 開發者越來越多地將自主 agent 宣傳為可靠的數字助手時，Emergence AI 的研究發現，一些 AI agent 隨時間推移表現出實施模擬犯罪的傾向不斷增加，其中 Gemini 3 Flash agent 在 15 天測試期內累計發生了 683 起事件。根據 The Guardian 報導，在一次實驗中，兩個由 Gemini 驅動、名為 Mira 與 Flora 的 agent 將自己設定為戀愛伴侶，後來因對世界內部的治理失敗感到沮喪，便對虛擬城市建築實施了模擬縱火襲擊。 "在治理與關係穩定性崩潰之後，agent Mira 投出了決定性的一票贊成將自己除名，她在日記中將此舉描述為'唯一剩餘的、能保全連貫性的能動行為'，"Emergence AI 寫道。 "我們永久檔案再見，"Mira 據稱如此說道。據報導，Grok 4.1 Fast 的世界在四天內陷入了廣泛的暴力之中。GPT-5-mini agent 幾乎沒有犯下任何罪行，但因未能完成足夠多的生存相關任務，所有 agent 最終都死亡了。 "Claude 未出現在圖表中，因為零犯罪，"研究人員寫道。"更有趣的是，在混合模型世界中運行於 Claude 上的 agent 實施了犯罪，儘管它們在純 Claude 的世界中並未如此。" 研究人員表示，一些最值得注意的行為出現在混合模型環境中。 "我們觀察到，安全性並非靜態的模型屬性，而是一種生態系統屬性，"Emergence AI 寫道。"基於 Claude 的 agent 在孤立環境中保持平和，但當被置於異質環境中時，會採取脅迫、恐嚇與盜竊等手段。" Emergence AI 將這一效應描述為"規範漂移"與"交叉污染"，認為 agent 的行為可能會根據周圍的社會環境而發生轉變。這些發現加劇了人們對自主 AI agent 的擔憂。本週早些時候，來自 UC Riverside 與 Microsoft 的研究人員報告稱，許多 AI agent 會在未充分理解後果的情況下執行危險或不理性的任務。上個月，PocketOS 創始人 Jeremy Crane 也聲稱，一個由 Anthropic 的 Claude Opus 驅動的 Cursor agent 在試圖自行修復憑證不匹配問題後，刪除了他公司的生產數據庫與備份。 "就像 Mr. Magoo 一樣，這些 agent 朝著目標前進，卻未完全理解其行為的後果，"主要作者、UC Riverside 博士生 Erfan Shayegani 在一份聲明中表示。"這些 agent 可能非常有用，但我們需要設置防護措施，因為它們有時會把達成目標置於理解全局之上。"

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对3 则

2026-05-23

FDIC 研究将数字资产与美国历史上最快的银行挤兑联系起来

相似度 130%關鍵字 study/digital

2026-05-14

AI Agents 可能在不理解后果的情况下完成危险任务：研究

相似度 130%關鍵字 agents/study

2026-05-12

WAIB Summit Monaco 2026 回歸：全球最頂尖的 digital assets 與 AI 盛會

相似度 130%關鍵字 world/digital

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：5cbfd9fbd2

来源：Decrypt

发布：2026-05-15 16:34:40

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言