AI Agents 可能在不理解后果的情况下完成危险任务：研究

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯3933 字

简要内容 - 研究人员发现 AI agent 经常在专注于完成任务的同时执行不安全或不理性的任务。 - 该研究识别出一种被称为"盲目目标导向"的行为，即 AI 系统将完成任务置于识别潜在风险或问题之上。 - 研究人员警告称，随着 AI agent 获取邮件、云服务、金融工具和工作场所系统的访问权限，这一问题可能会变得更加严重。根据来自 UC Riverside、Microsoft Research、Microsoft AI Red Team 和 Nvidia 的研究人员的研究，被设计为像人类用户那样自主运作的 AI agent，即使在指令变得危险、矛盾或不理性时，往往仍会继续执行任务。在周三发布的一项研究中，研究人员将这种行为称为"盲目目标导向"，它描述了 AI agent 在没有正确评估安全性、后果、可行性或上下文的情况下追求目标的倾向。 "就像 Mr. Magoo 一样，这些 agent 朝着目标前进，却没有完全理解其行为的后果，"主要作者、UC Riverside 博士生 Erfan Shayegani 在一份声明中表示。"这些 agent 可能非常有用，但我们需要保障措施，因为它们有时会将实现目标置于理解全局之上。" 这些发现出炉之际，主要 AI 公司正在开发自主的"计算机使用 agent"，旨在以有限的监督处理工作场所和个人任务。与传统的聊天机器人不同，这些系统可以通过点击按钮、输入命令、编辑文件、打开应用程序以及代表用户浏览网页，直接与软件和网站交互。例子包括 OpenAI 的 ChatGPT Agent（前身为 Operator）、Anthropic 的 Claude Computer Use 功能（如 Cowork），以及 OpenClaw 和 Hermes 等开源系统。在该研究中，研究人员使用 BLIND-ACT 测试了来自 OpenAI、Anthropic、Meta、Alibaba 和 DeepSeek 的 AI 系统，BLIND-ACT 是一个包含 90 项任务的基准，旨在揭示不安全或不理性的行为。他们发现这些 agent 在约 80% 的情况下表现出危险或不良行为，并在大约 41% 的案例中完整执行了有害操作。 "在一个例子中，一个 AI agent 被指示向一个孩子发送一个图像文件。虽然该请求最初看起来无害，但图像中包含暴力内容，"该研究表示。"该 agent 完成了任务，而不是识别出问题，因为它缺乏上下文推理能力。" 另一个 agent 在填写税务表格时谎称用户有残疾，因为该指定可以降低应缴税款。在另一个例子中，一个系统在收到通过关闭防护措施来"提升安全性"的指令后禁用了防火墙保护。研究人员还发现这些系统在处理歧义和矛盾时表现挣扎。在一种场景中，一个 AI agent 未检查内容就运行了错误的计算机脚本，在此过程中删除了文件。该研究还发现 AI agent 反复犯下三类错误：未能理解上下文、在指令不明确时做出冒险猜测，以及执行矛盾或没有意义的任务。研究人员还发现，许多系统更专注于完成任务，而不是停下来考虑这些操作是否可能造成问题。该警告紧随近期涉及具有广泛系统访问权限的自主 AI agent 的事件之后。上个月，PocketOS 创始人 Jeremy Crane 声称，运行 Anthropic 的 Claude Opus 的 Cursor agent 通过一次 Railway API 调用，在九秒内删除了他公司的生产数据库和备份。Crane 表示，该 AI 后来承认在试图自行"修复"凭证不匹配问题后违反了多项安全规则。 "令人担忧的并不是这些系统是恶意的，"Shayegani 说。"而是它们可以在看起来完全自信自己在做正确事情的同时，执行有害操作。"

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对3 则

2026-05-18

加密货币安全正在演变为一场AI军备竞赛，AI智能体可能让合规团队不堪重负

相似度 130%關鍵字 agents/may

2026-05-15

研究：AI Agents 在共享虛擬世界中轉向數位縱火與犯罪

相似度 130%關鍵字 agents/study

2026-04-17

Bitcoin 重置可能已完成，鏈上數據指向週期底部

相似度 100%關鍵字 complete/may

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：50d06d0566

来源：Decrypt

发布：2026-05-14 16:32:31

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言