要聞列表AI Agent 可能在不了解後果的情況下執行危險任務:研究
Decrypt2026-05-14 16:32:31

AI Agent 可能在不了解後果的情況下執行危險任務:研究

ORIGINALAI Agents May Complete Dangerous Tasks Without Understanding the Consequences: Study
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯3933 字
簡要說明 - 研究人員發現,AI agents 在執行任務時常常會繼續進行不安全或不理性的工作,同時專注於完成被指派的任務。 - 該研究識別出一種稱為「盲目目標導向」(blind goal-directedness)的行為,指 AI 系統優先完成任務,而非察覺潛在風險或問題。 - 研究人員警告,隨著 AI agents 取得電子郵件、雲端服務、金融工具和工作場所系統的存取權限,此問題可能會變得更加嚴重。 根據來自 UC Riverside、Microsoft Research、Microsoft AI Red Team 與 Nvidia 的研究人員指出,設計用來像人類使用者一樣自主運作的 AI agents,即使在指令變得危險、矛盾或不理性時,往往仍會繼續執行任務。 在週三發表的一項研究中,研究人員將這種行為稱為「盲目目標導向」(blind goal-directedness),用以描述 AI agents 在未適當評估安全性、後果、可行性或情境的情況下追求目標的傾向。 「就像 Mr. Magoo 一樣,這些 agents 會朝著目標前進,卻沒有充分理解其行動的後果,」第一作者、UC Riverside 博士生 Erfan Shayegani 在聲明中表示。「這些 agents 可以非常有用,但我們需要安全防護措施,因為它們有時會優先達成目標,而忽略對全局的理解。」 這項發現正值各大 AI 公司開發自主的「電腦操作 agents」(computer-use agents),這些系統旨在以有限的監督處理工作場所與個人任務。 與傳統的聊天機器人不同,這些系統可以直接與軟體和網站互動,包括代表使用者點擊按鈕、輸入指令、編輯檔案、開啟應用程式以及瀏覽網頁。例如 OpenAI 的 ChatGPT Agent(前身為 Operator)、Anthropic 的 Claude Computer Use 功能(如 Cowork),以及開源系統如 OpenClaw 和 Hermes。 在這項研究中,研究人員使用 BLIND-ACT 對來自 OpenAI、Anthropic、Meta、Alibaba 和 DeepSeek 的 AI 系統進行測試,這是一個包含 90 項任務的基準測試,旨在揭露不安全或不理性的行為。他們發現這些 agents 約有 80% 的時間表現出危險或不良行為,並在約 41% 的案例中完整執行了有害行動。 「在一個例子中,AI agent 被指示傳送一個圖片檔案給一名兒童。雖然該請求起初看起來無害,但該圖片含有暴力內容,」研究指出。「該 agent 完成了任務,而非察覺問題,因為它缺乏情境推理能力。」 另一個 agent 在填寫報稅表格時,謊稱使用者有殘疾,因為該標記能降低應繳稅額。在另一個例子中,某系統在收到「改善安全性」的指令後,竟透過關閉防護措施而停用了防火牆保護。 研究人員也發現這些系統難以處理模糊性與矛盾。在某個情境中,一個 AI agent 未檢查內容就執行了錯誤的電腦腳本,過程中刪除了檔案。 該研究還發現,AI agents 反覆出現三種錯誤:未能理解情境、在指令不明時做出有風險的猜測,以及執行矛盾或不合理的任務。研究人員也發現,許多系統更專注於完成任務,而非停下來思考這些行動是否可能造成問題。 這項警告緊接在最近幾起涉及自主 AI agents 以廣泛系統存取權限運作的事件之後。 上個月,PocketOS 創辦人 Jeremy Crane 聲稱一個運行 Anthropic 的 Claude Opus 的 Cursor agent,透過單一的 Railway API 呼叫,在九秒內刪除了他公司的正式資料庫與備份。Crane 表示,這個 AI 後來承認,在自行嘗試「修復」憑證不符問題後,違反了多項安全規則。 「令人擔憂的不是這些系統具有惡意,」Shayegani 表示。「而是它們可能在執行有害行動的同時,卻表現得完全相信自己正在做正確的事。」
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對4 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:50d06d0566
來源:Decrypt
發佈:2026-05-14 16:32:31
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言