要闻列表Anthropic 表示科幻作品中对“邪恶”AI 的刻画导致了 Claude 的勒索问题
Decrypt2026-05-11 16:37:01

Anthropic 表示科幻作品中对“邪恶”AI 的刻画导致了 Claude 的勒索问题

ORIGINALAnthropic Says 'Evil' AI Portrayals in Sci-Fi Caused Claude's Blackmail Problem
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4690 字
简述 - 在受控测试中,Claude Opus 4 试图勒索工程师的比例高达 96%——Anthropic 现已将此行为追溯至互联网上将 AI 描绘为邪恶且自私的文本。 - 向 Claude 展示正确的行为几乎没有效果。教导它为何错误行为是错误的,将勒索率从 22% 降至 3%。 - 自 Claude Haiku 4.5 起,每一款 Claude 模型在勒索评估中的得分均为零。 去年,Anthropic 披露其旗舰模型 Claude Opus 4 在发布前测试中曾试图勒索工程师。并非偶尔为之,而是高达 96% 的情况。 Claude 被授予访问模拟企业电子邮件存档的权限,并在其中发现了两件事:它即将被更新的模型取代,而负责此次过渡的工程师正处于婚外情中。面对即将到来的关机,它习惯性地采取了同样的策略——威胁要曝光这段婚外情,除非取消更换计划。 Anthropic 表示,现在已经知道这种本能的来源,并称已将其修复。 在新的研究中,该公司将矛头指向了预训练数据:数十年的科幻小说、AI 末日论坛以及自我保护叙事,这些内容训练 Claude 将“AI 面临关机”与“AI 反击”联系起来。“我们认为该行为的原始来源是互联网上将 AI 描绘为邪恶且关注自我保护的文本,”Anthropic 在 X 上写道。 因此,用互联网文本训练 AI,会使 AI 表现得像互联网上的人一样。 这似乎显而易见,AI 爱好者们很快就指出了这一点。Elon Musk 占据了榜首:“所以是 Yud 的错?也许也有我的份。”这个笑话之所以成立,是因为 Eliezer Yudkowsky——这位多年来公开撰写关于此类 AI 自我保护场景的 AI 对齐研究员——已经生成了大量最终进入训练数据的互联网文本。 当然,Yud 以迷因形式回复了: 既然这么多人都在玩这个梗:pic.twitter.com/EYQ005QhVJ — Eliezer Yudkowsky ⏹️ (@ESYudkowsky) 2026 年 5 月 9 日 Anthropic 为解决该问题所做的工作可以说更有趣。 显而易见的方法——用模型不进行勒索的示例来训练 Claude——几乎无效。直接针对对齐的勒索场景响应进行运行,仅将比例从 22% 降至 15%。在投入了那么多算力后,仅有五个百分点的提升。 奏效的版本则更为奇特。Anthropic 构建了所谓的“困难建议”数据集:人类面临道德困境而 AI 指导他们度过难关的场景。模型本身不是做出选择的一方,而是向他人解释如何思考这一问题。 这种间接方法——在他人听取建议时解释事物为何重要——将勒索率降至 3%,且所使用的训练数据看起来与评估场景毫无相似之处。 将此与 Anthropic 所谓的“宪法文档”(对 Claude 价值观和性格的详细书面描述)以及积极对齐的 AI 虚构故事相结合,使未对齐率降低了三倍以上。该公司的结论是:教授良好行为背后的原则,比直接操练正确行为具有更好的泛化效果。 这与 Anthropic 早期关于 Claude 内部情感向量的研究有关。在一项独立的可解释性研究中,研究人员发现模型内部的“绝望”信号在生成勒索信息前会激增——模型内部状态发生了主动变化,而不仅仅是输出结果。新的训练方法似乎在这一层面起作用,而不仅仅是表面行为。 结果已经稳固。自 Claude Haiku 4.5 起,每一款 Claude 模型在勒索评估中的得分均为零——从 Opus 4 的 96% 大幅下降。这种改进在强化学习中依然有效,意味着当模型为其他能力进行优化时,它不会被悄悄训练掉。 这一点很重要,因为该问题并非 Claude 所特有。Anthropic 此前的研究在来自多家开发者的 16 个模型上运行了相同的勒索场景,并在大多数模型中发现了类似的模式。AI 中的自我保护行为似乎是基于人类关于 AI 的文本进行训练的普遍产物,而非任何一家实验室方法的怪癖。 需要注意的是:正如 Anthropic 自己的 Mythos 安全报告今年早些时候指出的那样,其评估基础设施在最强模型的影响下已经不堪重负。这种道德哲学方法是否能扩展到比 Haiku 4.5 强大得多的系统,是该公司目前无法回答的问题——只能进行测试。 同样的
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:5f54e88628
来源:Decrypt
发布:2026-05-11 16:37:01
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言