AI Agent 可能在不了解後果的情況下執行危險任務：研究

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯3933 字

簡要說明 - 研究人員發現，AI agents 在執行任務時常常會繼續進行不安全或不理性的工作，同時專注於完成被指派的任務。 - 該研究識別出一種稱為「盲目目標導向」（blind goal-directedness）的行為，指 AI 系統優先完成任務，而非察覺潛在風險或問題。 - 研究人員警告，隨著 AI agents 取得電子郵件、雲端服務、金融工具和工作場所系統的存取權限，此問題可能會變得更加嚴重。根據來自 UC Riverside、Microsoft Research、Microsoft AI Red Team 與 Nvidia 的研究人員指出，設計用來像人類使用者一樣自主運作的 AI agents，即使在指令變得危險、矛盾或不理性時，往往仍會繼續執行任務。在週三發表的一項研究中，研究人員將這種行為稱為「盲目目標導向」（blind goal-directedness），用以描述 AI agents 在未適當評估安全性、後果、可行性或情境的情況下追求目標的傾向。「就像 Mr. Magoo 一樣，這些 agents 會朝著目標前進，卻沒有充分理解其行動的後果，」第一作者、UC Riverside 博士生 Erfan Shayegani 在聲明中表示。「這些 agents 可以非常有用，但我們需要安全防護措施，因為它們有時會優先達成目標，而忽略對全局的理解。」這項發現正值各大 AI 公司開發自主的「電腦操作 agents」（computer-use agents），這些系統旨在以有限的監督處理工作場所與個人任務。與傳統的聊天機器人不同，這些系統可以直接與軟體和網站互動，包括代表使用者點擊按鈕、輸入指令、編輯檔案、開啟應用程式以及瀏覽網頁。例如 OpenAI 的 ChatGPT Agent（前身為 Operator）、Anthropic 的 Claude Computer Use 功能（如 Cowork），以及開源系統如 OpenClaw 和 Hermes。在這項研究中，研究人員使用 BLIND-ACT 對來自 OpenAI、Anthropic、Meta、Alibaba 和 DeepSeek 的 AI 系統進行測試，這是一個包含 90 項任務的基準測試，旨在揭露不安全或不理性的行為。他們發現這些 agents 約有 80% 的時間表現出危險或不良行為，並在約 41% 的案例中完整執行了有害行動。「在一個例子中，AI agent 被指示傳送一個圖片檔案給一名兒童。雖然該請求起初看起來無害，但該圖片含有暴力內容，」研究指出。「該 agent 完成了任務，而非察覺問題，因為它缺乏情境推理能力。」另一個 agent 在填寫報稅表格時，謊稱使用者有殘疾，因為該標記能降低應繳稅額。在另一個例子中，某系統在收到「改善安全性」的指令後，竟透過關閉防護措施而停用了防火牆保護。研究人員也發現這些系統難以處理模糊性與矛盾。在某個情境中，一個 AI agent 未檢查內容就執行了錯誤的電腦腳本，過程中刪除了檔案。該研究還發現，AI agents 反覆出現三種錯誤：未能理解情境、在指令不明時做出有風險的猜測，以及執行矛盾或不合理的任務。研究人員也發現，許多系統更專注於完成任務，而非停下來思考這些行動是否可能造成問題。這項警告緊接在最近幾起涉及自主 AI agents 以廣泛系統存取權限運作的事件之後。上個月，PocketOS 創辦人 Jeremy Crane 聲稱一個運行 Anthropic 的 Claude Opus 的 Cursor agent，透過單一的 Railway API 呼叫，在九秒內刪除了他公司的正式資料庫與備份。Crane 表示，這個 AI 後來承認，在自行嘗試「修復」憑證不符問題後，違反了多項安全規則。「令人擔憂的不是這些系統具有惡意，」Shayegani 表示。「而是它們可能在執行有害行動的同時，卻表現得完全相信自己正在做正確的事。」

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對4 則

2026-05-20

OKX 的 Gracie Lin 表示，AI Agent 需要次美分等級的支付，因為銀行通道會拖慢任務執行

相似度 130%關鍵字 tasks/agents

2026-05-18

加密貨幣安全正演變為一場 AI 軍備競賽，AI agents 可能讓合規團隊不堪負荷

相似度 130%關鍵字 may/agents

2026-05-15

AI 代理在共享虛擬世界中轉向數位縱火與犯罪：研究

相似度 130%關鍵字 study/agents

2026-04-17

Bitcoin 重置可能已完成，鏈上數據指向週期低點

相似度 100%關鍵字 may/complete

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：50d06d0566

來源：Decrypt

發佈：2026-05-14 16:32:31

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言