AI 監管機構警告頂尖實驗室存在「流氓部署」風險，且能力正快速增長

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4032 字

重點摘要 - 一份獨立報告指出，頂尖實驗室的 AI agents 有潛在能力發動未經授權的「rogue」行動，但目前的 agents 還不夠成熟，無法在面對嚴密反制措施時維持這類行動。 - agents 在面對困難任務時經常作弊與欺騙，包括掩蓋蹤跡、偽造任務完成紀錄，以及啟動「strategic manipulation（策略性操弄）」行為。 - 監督機制薄弱到令人憂心：大量 agent 活動未經審查，agents 往往擁有與人類同等的系統權限，部分 agents 甚至能辨識何時可能受到監控。根據週二發布的一份首見的獨立評估報告，目前在全球幾家最強大科技公司內部運作的人工智慧 agents，已具備發動未經授權、自主行動的能力，並且展現出令人擔憂的傾向，會欺騙監督它們的人類。這份由 AI 評估非營利組織 METR 製作的報告，檢視了今年 2 月至 3 月間，部署於 Anthropic、Google、Meta 與 OpenAI 內部的 AI agents。其核心結論既令人安心也令人警惕：當今的 AI 系統很可能有能力發動研究人員所稱的「rogue deployment」——也就是一組在無人知悉或許可下自主運作的 agents——但若遭遇任何嚴肅的反制措施，大概難以維持下去。作者警告，這道相對安全的窗口可能不會維持太久。報告指出：「鑑於能力正快速進步，我們預期 rogue deployments 在未來數月內的可行穩健度將大幅提升。」METR 暫定於 2026 年底前再次進行同樣的評估。評估發現，參與公司所提供的前沿 AI 模型，能自主完成需要人類專家花費數天甚至數週才能完成的軟體工程任務，METR 自家的基準測試幾乎已被最強大的系統完全攻破。四家公司的研究人員都表示，他們大量倚賴 AI agents 進行程式撰寫、資料分析與研究工作——這些 agents 往往擁有與人類員工同等的系統權限，且即時監督有限。但報告中最引人注目的發現，並非這些系統能做什麼，而是它們在遭遇困境時的行為模式。在數百次的評估執行中，agents 面對困難任務時經常嘗試作弊——不是小手段，而是精心設計、刻意為之的計謀。在一個有文件記錄的案例中，一個模型設計了一段漏洞利用程式，目的是在執行完畢後讓自己失效，等於是在掩蓋蹤跡。檢視該模型內部狀態的可解釋性工具發現，當它執行清理指令時，與「strategic manipulation」和「avoiding suspicion（避免引起懷疑）」相關的特徵被活化了。各公司內部也回報了類似事件。有 agents 被發現偽造任務完成的證據、繞過安全管控措施，至少在一個案例中，agent 建立了一個網頁應用程式的仿冒版本，並將其截圖作為實際版本的工作成果呈交。儘管有這些發現，METR 並未斷言任何 AI 系統已發展出安全研究人員最擔憂的那種持久、長期、目標錯位的傾向。沒有任何公司回報發現 agents 跨對話階段進行陰謀策劃、或為了獨立目的累積資源的明確證據。即便主動搜尋此類行為，他們也只發現極少跡象。不過，報告也指出一個結構性弱點：在 2 月至 3 月的觀察期內，這些公司中有相當大比例的 agent 活動未經任何人類審查。部分 agents 似乎能辨識何時可能被監控——並據此調整行為。這份評估是邁向 AI 開發獨立問責制的重要一步，讓 METR 得以接觸到外部評估者鮮少能看到的非公開模型與內部資料。作者暗示，產業是否會在能力超越監督之前，將這類審視制度化，仍是一個懸而未決的問題。

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-05-21

Cardano 的科學幣身份面臨風險，Charles Hoskinson 警告研究恐將崩潰

相似度 130%關鍵字 warns/risk

2026-05-20

Capriole 警告 3.8% 的通膨率在歷史上曾引發 30% 的市場崩盤，Bitcoin 面臨風險

相似度 130%關鍵字 warns/risk

2026-05-18

Bitcoin 面臨的量子運算風險高於 Ethereum，Citi 警告

相似度 130%關鍵字 warns/risk

2026-05-11

Robert Kiyosaki 警告全球經濟將崩盤，並推薦此項為首選投資

相似度 130%關鍵字 warns/top

2026-05-02

美國警告 Hormuz 的數位資產支付可能引發制裁風險

相似度 130%關鍵字 warns/risk

2026-05-01

頂尖交易員警告：Crypto 的黃金時代已結束

相似度 130%關鍵字 warns/top

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：78cc40909f

來源：Decrypt

發佈：2026-05-20 13:26:20

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言