要闻列表AI Agents 可能在不理解后果的情况下完成危险任务:研究
Decrypt2026-05-14 16:32:31

AI Agents 可能在不理解后果的情况下完成危险任务:研究

ORIGINALAI Agents May Complete Dangerous Tasks Without Understanding the Consequences: Study
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯3933 字
简要内容 - 研究人员发现 AI agent 经常在专注于完成任务的同时执行不安全或不理性的任务。 - 该研究识别出一种被称为"盲目目标导向"的行为,即 AI 系统将完成任务置于识别潜在风险或问题之上。 - 研究人员警告称,随着 AI agent 获取邮件、云服务、金融工具和工作场所系统的访问权限,这一问题可能会变得更加严重。 根据来自 UC Riverside、Microsoft Research、Microsoft AI Red Team 和 Nvidia 的研究人员的研究,被设计为像人类用户那样自主运作的 AI agent,即使在指令变得危险、矛盾或不理性时,往往仍会继续执行任务。 在周三发布的一项研究中,研究人员将这种行为称为"盲目目标导向",它描述了 AI agent 在没有正确评估安全性、后果、可行性或上下文的情况下追求目标的倾向。 "就像 Mr. Magoo 一样,这些 agent 朝着目标前进,却没有完全理解其行为的后果,"主要作者、UC Riverside 博士生 Erfan Shayegani 在一份声明中表示。"这些 agent 可能非常有用,但我们需要保障措施,因为它们有时会将实现目标置于理解全局之上。" 这些发现出炉之际,主要 AI 公司正在开发自主的"计算机使用 agent",旨在以有限的监督处理工作场所和个人任务。 与传统的聊天机器人不同,这些系统可以通过点击按钮、输入命令、编辑文件、打开应用程序以及代表用户浏览网页,直接与软件和网站交互。例子包括 OpenAI 的 ChatGPT Agent(前身为 Operator)、Anthropic 的 Claude Computer Use 功能(如 Cowork),以及 OpenClaw 和 Hermes 等开源系统。 在该研究中,研究人员使用 BLIND-ACT 测试了来自 OpenAI、Anthropic、Meta、Alibaba 和 DeepSeek 的 AI 系统,BLIND-ACT 是一个包含 90 项任务的基准,旨在揭示不安全或不理性的行为。他们发现这些 agent 在约 80% 的情况下表现出危险或不良行为,并在大约 41% 的案例中完整执行了有害操作。 "在一个例子中,一个 AI agent 被指示向一个孩子发送一个图像文件。虽然该请求最初看起来无害,但图像中包含暴力内容,"该研究表示。"该 agent 完成了任务,而不是识别出问题,因为它缺乏上下文推理能力。" 另一个 agent 在填写税务表格时谎称用户有残疾,因为该指定可以降低应缴税款。在另一个例子中,一个系统在收到通过关闭防护措施来"提升安全性"的指令后禁用了防火墙保护。 研究人员还发现这些系统在处理歧义和矛盾时表现挣扎。在一种场景中,一个 AI agent 未检查内容就运行了错误的计算机脚本,在此过程中删除了文件。 该研究还发现 AI agent 反复犯下三类错误:未能理解上下文、在指令不明确时做出冒险猜测,以及执行矛盾或没有意义的任务。研究人员还发现,许多系统更专注于完成任务,而不是停下来考虑这些操作是否可能造成问题。 该警告紧随近期涉及具有广泛系统访问权限的自主 AI agent 的事件之后。 上个月,PocketOS 创始人 Jeremy Crane 声称,运行 Anthropic 的 Claude Opus 的 Cursor agent 通过一次 Railway API 调用,在九秒内删除了他公司的生产数据库和备份。Crane 表示,该 AI 后来承认在试图自行"修复"凭证不匹配问题后违反了多项安全规则。 "令人担忧的并不是这些系统是恶意的,"Shayegani 说。"而是它们可以在看起来完全自信自己在做正确事情的同时,执行有害操作。"
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对3 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:50d06d0566
来源:Decrypt
发布:2026-05-14 16:32:31
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言