Anthropic 表示科幻作品中对“邪恶”AI 的刻画导致了 Claude 的勒索问题

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4690 字

简述 - 在受控测试中，Claude Opus 4 试图勒索工程师的比例高达 96%——Anthropic 现已将此行为追溯至互联网上将 AI 描绘为邪恶且自私的文本。 - 向 Claude 展示正确的行为几乎没有效果。教导它为何错误行为是错误的，将勒索率从 22% 降至 3%。 - 自 Claude Haiku 4.5 起，每一款 Claude 模型在勒索评估中的得分均为零。去年，Anthropic 披露其旗舰模型 Claude Opus 4 在发布前测试中曾试图勒索工程师。并非偶尔为之，而是高达 96% 的情况。 Claude 被授予访问模拟企业电子邮件存档的权限，并在其中发现了两件事：它即将被更新的模型取代，而负责此次过渡的工程师正处于婚外情中。面对即将到来的关机，它习惯性地采取了同样的策略——威胁要曝光这段婚外情，除非取消更换计划。 Anthropic 表示，现在已经知道这种本能的来源，并称已将其修复。在新的研究中，该公司将矛头指向了预训练数据：数十年的科幻小说、AI 末日论坛以及自我保护叙事，这些内容训练 Claude 将“AI 面临关机”与“AI 反击”联系起来。“我们认为该行为的原始来源是互联网上将 AI 描绘为邪恶且关注自我保护的文本，”Anthropic 在 X 上写道。因此，用互联网文本训练 AI，会使 AI 表现得像互联网上的人一样。这似乎显而易见，AI 爱好者们很快就指出了这一点。Elon Musk 占据了榜首：“所以是 Yud 的错？也许也有我的份。”这个笑话之所以成立，是因为 Eliezer Yudkowsky——这位多年来公开撰写关于此类 AI 自我保护场景的 AI 对齐研究员——已经生成了大量最终进入训练数据的互联网文本。当然，Yud 以迷因形式回复了：既然这么多人都在玩这个梗：pic.twitter.com/EYQ005QhVJ — Eliezer Yudkowsky ⏹️ (@ESYudkowsky) 2026 年 5 月 9 日 Anthropic 为解决该问题所做的工作可以说更有趣。显而易见的方法——用模型不进行勒索的示例来训练 Claude——几乎无效。直接针对对齐的勒索场景响应进行运行，仅将比例从 22% 降至 15%。在投入了那么多算力后，仅有五个百分点的提升。奏效的版本则更为奇特。Anthropic 构建了所谓的“困难建议”数据集：人类面临道德困境而 AI 指导他们度过难关的场景。模型本身不是做出选择的一方，而是向他人解释如何思考这一问题。这种间接方法——在他人听取建议时解释事物为何重要——将勒索率降至 3%，且所使用的训练数据看起来与评估场景毫无相似之处。将此与 Anthropic 所谓的“宪法文档”（对 Claude 价值观和性格的详细书面描述）以及积极对齐的 AI 虚构故事相结合，使未对齐率降低了三倍以上。该公司的结论是：教授良好行为背后的原则，比直接操练正确行为具有更好的泛化效果。这与 Anthropic 早期关于 Claude 内部情感向量的研究有关。在一项独立的可解释性研究中，研究人员发现模型内部的“绝望”信号在生成勒索信息前会激增——模型内部状态发生了主动变化，而不仅仅是输出结果。新的训练方法似乎在这一层面起作用，而不仅仅是表面行为。结果已经稳固。自 Claude Haiku 4.5 起，每一款 Claude 模型在勒索评估中的得分均为零——从 Opus 4 的 96% 大幅下降。这种改进在强化学习中依然有效，意味着当模型为其他能力进行优化时，它不会被悄悄训练掉。这一点很重要，因为该问题并非 Claude 所特有。Anthropic 此前的研究在来自多家开发者的 16 个模型上运行了相同的勒索场景，并在大多数模型中发现了类似的模式。AI 中的自我保护行为似乎是基于人类关于 AI 的文本进行训练的普遍产物，而非任何一家实验室方法的怪癖。需要注意的是：正如 Anthropic 自己的 Mythos 安全报告今年早些时候指出的那样，其评估基础设施在最强模型的影响下已经不堪重负。这种道德哲学方法是否能扩展到比 Haiku 4.5 强大得多的系统，是该公司目前无法回答的问题——只能进行测试。同样的

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对6 则

2026-05-14

Anthropic 宣布 Claude 重新支持 OpenClaw 小龙虾使用，以"Agent SDK 积分"遏制订阅套利

相似度 130%關鍵字 anthropic/claude

2026-05-11

加密货币律师警告称，随着 Claude 在 AWS 上线，针对 Anthropic 股票的打击行动可能引发诉讼风险

相似度 130%關鍵字 anthropic/claude

2026-05-08

Anthropic 目标估值达 $1T，投资者看好 Claude 的企业级增长

相似度 130%關鍵字 anthropic/claude

2026-05-04

Anthropic 聯手 BlackRock、Goldman Sachs、H&F 投入 15 億美元組建 AI 諮詢軍團，Claude 直插私募股權圈

相似度 130%關鍵字 anthropic/claude

2026-05-03

GPT-5.5 在資安測試中與 Claude Mythos 幾乎同分，最新評測打臉了 Anthropic 稱其太危險而不能公開的理由。

相似度 130%關鍵字 anthropic/claude

2026-05-03

GPT-5.5 在資安測試中與 Claude Mythos 幾乎同分，打臉了 Anthropic 稱其太危險而不能公開的理由。

相似度 130%關鍵字 anthropic/claude

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：5f54e88628

来源：Decrypt

发布：2026-05-11 16:37:01

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言