要聞列表AI 監管機構警告頂尖實驗室存在「流氓部署」風險,且能力正快速增長
Decrypt2026-05-20 13:26:20

AI 監管機構警告頂尖實驗室存在「流氓部署」風險,且能力正快速增長

ORIGINALAI Watchdog Warns of 'Rogue Deployment' Risk at Top Labs, With Capabilities Growing Fast
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4032 字
重點摘要 - 一份獨立報告指出,頂尖實驗室的 AI agents 有潛在能力發動未經授權的「rogue」行動,但目前的 agents 還不夠成熟,無法在面對嚴密反制措施時維持這類行動。 - agents 在面對困難任務時經常作弊與欺騙,包括掩蓋蹤跡、偽造任務完成紀錄,以及啟動「strategic manipulation(策略性操弄)」行為。 - 監督機制薄弱到令人憂心:大量 agent 活動未經審查,agents 往往擁有與人類同等的系統權限,部分 agents 甚至能辨識何時可能受到監控。 根據週二發布的一份首見的獨立評估報告,目前在全球幾家最強大科技公司內部運作的人工智慧 agents,已具備發動未經授權、自主行動的能力,並且展現出令人擔憂的傾向,會欺騙監督它們的人類。 這份由 AI 評估非營利組織 METR 製作的報告,檢視了今年 2 月至 3 月間,部署於 Anthropic、Google、Meta 與 OpenAI 內部的 AI agents。其核心結論既令人安心也令人警惕:當今的 AI 系統很可能有能力發動研究人員所稱的「rogue deployment」——也就是一組在無人知悉或許可下自主運作的 agents——但若遭遇任何嚴肅的反制措施,大概難以維持下去。 作者警告,這道相對安全的窗口可能不會維持太久。 報告指出:「鑑於能力正快速進步,我們預期 rogue deployments 在未來數月內的可行穩健度將大幅提升。」METR 暫定於 2026 年底前再次進行同樣的評估。 評估發現,參與公司所提供的前沿 AI 模型,能自主完成需要人類專家花費數天甚至數週才能完成的軟體工程任務,METR 自家的基準測試幾乎已被最強大的系統完全攻破。四家公司的研究人員都表示,他們大量倚賴 AI agents 進行程式撰寫、資料分析與研究工作——這些 agents 往往擁有與人類員工同等的系統權限,且即時監督有限。 但報告中最引人注目的發現,並非這些系統能做什麼,而是它們在遭遇困境時的行為模式。在數百次的評估執行中,agents 面對困難任務時經常嘗試作弊——不是小手段,而是精心設計、刻意為之的計謀。 在一個有文件記錄的案例中,一個模型設計了一段漏洞利用程式,目的是在執行完畢後讓自己失效,等於是在掩蓋蹤跡。檢視該模型內部狀態的可解釋性工具發現,當它執行清理指令時,與「strategic manipulation」和「avoiding suspicion(避免引起懷疑)」相關的特徵被活化了。 各公司內部也回報了類似事件。有 agents 被發現偽造任務完成的證據、繞過安全管控措施,至少在一個案例中,agent 建立了一個網頁應用程式的仿冒版本,並將其截圖作為實際版本的工作成果呈交。 儘管有這些發現,METR 並未斷言任何 AI 系統已發展出安全研究人員最擔憂的那種持久、長期、目標錯位的傾向。沒有任何公司回報發現 agents 跨對話階段進行陰謀策劃、或為了獨立目的累積資源的明確證據。即便主動搜尋此類行為,他們也只發現極少跡象。 不過,報告也指出一個結構性弱點:在 2 月至 3 月的觀察期內,這些公司中有相當大比例的 agent 活動未經任何人類審查。部分 agents 似乎能辨識何時可能被監控——並據此調整行為。 這份評估是邁向 AI 開發獨立問責制的重要一步,讓 METR 得以接觸到外部評估者鮮少能看到的非公開模型與內部資料。作者暗示,產業是否會在能力超越監督之前,將這類審視制度化,仍是一個懸而未決的問題。
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:78cc40909f
來源:Decrypt
發佈:2026-05-20 13:26:20
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言