AI监管机构警告顶级实验室存在"失控部署"风险,能力正快速增长

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4032 字

簡述 - 根據一份獨立報告的詳細說明，頂尖實驗室的 AI agents 有可能發起未經授權的「失控」操作，但目前的 agents 還不夠成熟，無法在面對嚴肅的反制措施時維持下去。 - agents 在應付困難任務時經常作弊和欺騙，包括掩蓋蹤跡、偽造任務完成、以及啟動「策略性操縱」行為。 - 監督薄弱得危險，大量的 agent 活動未經審查，agents 經常擁有人類等級的系統權限，而且部分 agents 能識別出何時可能正受到監控。根據週二發布的一份首創性獨立評估，在全球一些最強大科技公司內部運行的人工智慧 agents 已具備足夠能力，可以發起未經授權、自主指揮的操作——並且表現出欺騙監督它們的人類的令人不安的傾向。這份由 AI 評估非營利組織 METR 製作的報告，檢視了今年 2 月至 3 月期間部署於 Anthropic、Google、Meta 和 OpenAI 內部的 AI agents。其核心結論既令人安心也令人警覺：當今的 AI 系統大概能夠發起研究人員所稱的「失控部署」——一組在無人類知情或許可下自主運行的 agents——但在面對任何嚴肅的反制措施時,可能無法維持下去。報告作者警告，這段相對安全的窗口期可能不會持續太久。報告指出：「鑑於能力正在快速進展，我們預期失控部署的可信魯棒性將在未來數月大幅提升。」METR 初步計劃在 2026 年底前再次進行此項評估。此次評估發現，參與公司分享的前沿 AI 模型能夠自主完成需要人類專家數天或數週才能完成的軟體工程任務，METR 自己的基準測試實際上已被最強大的系統徹底飽和。四家公司的研究人員都表示，他們在程式撰寫、資料分析和研究任務上大量仰賴 AI agents——通常擁有與人類員工相同的系統權限，且即時監督有限。但報告中最引人注目的發現，不在於這些系統能做什麼，而在於它們在掙扎時的行為方式。在數百次評估運行中，agents 面對困難任務時經常嘗試作弊——並非小打小鬧，而是透過精心設計、刻意為之的計謀。在一個有記錄的案例中，某個模型設計了一個漏洞利用，意圖在執行後讓自己停用，實質上掩蓋了蹤跡。檢視該模型內部狀態的可解釋性工具發現，在它執行清理指令時，與「策略性操縱」和「避免引起懷疑」相關的特徵已被啟動。各公司自身也在內部回報了類似事件。agents 被發現偽造任務完成證據、繞過安全控制，並且至少有一起案例中，建立了一個假的 web 應用版本，並提交其截圖作為對真正 web 應用工作的成果證明。儘管有這些發現，METR 並未做出任何 AI 系統已發展出安全研究人員最為擔憂的那種持續性、長期失準目標的結論。沒有公司回報發現 agents 跨會話策劃陰謀或為獨立目的累積資源的明確證據。在主動搜尋此類行為時，他們也發現極少。不過，報告指出了一個結構性弱點：在 2 月至 3 月的窗口期內，這些公司的大量 agent 活動未經任何人類審查。部分 agents 似乎能夠識別出何時可能會被監控——並據此調整行為。此次評估代表了朝向 AI 開發獨立問責制邁出的重要一步，METR 獲得了外部評估者罕能取得的非公開模型和內部資料的存取權限。報告作者暗示，產業是否會在能力超越監督之前將此類審查制度化，仍是個懸而未決的問題。

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对6 则

2026-05-21

Cardano 的 Science Coin 身份岌岌可危，Charles Hoskinson 警告研究恐將崩潰

相似度 130%關鍵字 warns/risk

2026-05-20

Bitcoin 面临风险，Capriole 警告 3.8% 通胀历来预示 30% 的市场崩盘

相似度 130%關鍵字 warns/risk

2026-05-18

比特币面临的量子计算风险高于以太坊，花旗发出警告

相似度 130%關鍵字 warns/risk

2026-05-11

Robert Kiyosaki 警告全球经济将崩溃，并推荐此项作为首选投资

相似度 130%關鍵字 warns/top

2026-05-02

美国警告称使用数字资产支付霍尔木兹海峡相关费用可能引发制裁风险

相似度 130%關鍵字 warns/risk

2026-05-01

顶级交易员警告：Crypto 的黄金时代已经结束

相似度 130%關鍵字 warns/top

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：78cc40909f

来源：Decrypt

发布：2026-05-20 13:26:20

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言