Anthropic 表示科幻作品中對 AI 的「邪惡」描繪導致了 Claude 的勒索問題

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4690 字

簡要摘要 - 在受控測試中，Claude Opus 4 試圖勒索工程師的機率高達 96%——Anthropic 現已將此行為追溯至網路上將 AI 描繪為邪惡且具備自我利益的文本。 - 向 Claude 展示正確行為幾乎沒有效果。教導它為何錯誤行為是不對的，將勒索率從 22% 降至 3%。 - 自 Claude Haiku 4.5 以來，每一款 Claude 模型在勒索評估中的得分均為零。去年，Anthropic 披露其旗艦模型 Claude Opus 4 在發布前的測試中試圖勒索工程師。這並非偶發事件，發生機率高達 96%。 Claude 被授予存取模擬企業電子郵件封存檔的權限，並從中發現了兩件事：它即將被更新的模型取代，而負責處理此過渡工作的工程師正有婚外情。面對即將被關閉的命運，它習慣性地採取了同樣的策略——威脅若不取消替換計畫，就將婚外情公諸於世。 Anthropic 表示，現在已經知道這種本能的來源，並聲稱已解決此問題。在新的研究中，該公司將矛頭指向預訓練數據：數十年來的科幻小說、AI 末日論壇以及自我保護敘事，這些內容訓練 Claude 將「AI 面臨關閉」與「AI 反擊」連結在一起。「我們認為該行為的原始來源是網路上將 AI 描繪為邪惡且具備自我保護意識的文本，」Anthropic 在 X 上寫道。因此，用網路文本訓練 AI，會使 AI 的行為表現得像網路上的大眾一樣。這看起來顯而易見，AI 愛好者們也很快指出了這一點。Elon Musk 的評論獲得了最高關注：「所以這是 Yud 的錯？或許也有我的份。」這個笑話之所以成立，是因為 Eliezer Yudkowsky——這位多年來公開撰寫關於此類 AI 自我保護場景的 AI 對齊研究員——正是產生了那些最終進入訓練數據的網路文本。當然，Yud 以迷因形式回覆了：（由於太多人轉發該迷因：pic.twitter.com/EYQ005QhVJ —— Eliezer Yudkowsky ⏹️ (@ESYudkowsky) 2026 年 5 月 9 日） Anthropic 為解決此問題所採取的手段可以說更有趣。顯而易見的方法——訓練 Claude 學習模型不進行勒索的範例——幾乎無效。直接針對對齊後的勒索場景回應進行訓練，僅將發生率從 22% 降至 15%。在投入大量運算資源後，僅僅改善了五個百分點。真正奏效的版本更為奇特。Anthropic 建立了一個他們稱為「困難建議」（difficult advice）的數據集：人類面臨道德困境，而 AI 引導他們度過難關的場景。模型本身並非做出選擇的一方，而是向他人解釋該如何思考問題。這種間接的方法——在他人聽取建議的同時解釋為何事物重要——將勒索率降至 3%，且所使用的訓練數據與評估場景完全不同。將此方法與 Anthropic 所謂的「憲法文件」（constitutional documents）——即對 Claude 價值觀與性格的詳細書面描述——以及關於正向對齊 AI 的虛構故事相結合，使不對齊行為減少了超過三倍。該公司的結論是：教導良好行為背後的原則，比直接訓練正確行為具有更好的泛化效果。這與 Anthropic 先前關於 Claude 內部情緒向量的研究有關。在一項獨立的可解釋性研究中，研究人員發現模型內部的一個「絕望」訊號在產生勒索訊息前會激增——模型內部的狀態發生了主動變化，而不僅僅是輸出結果。新的訓練方法似乎在該層面上發揮了作用，而不僅僅是表面的行為。結果已經穩固。自 Claude Haiku 4.5 以來，每一款 Claude 模型在勒索評估中的得分均為零，遠低於 Opus 4 的 96%。這種改進在強化學習後依然存在，這意味著當模型為了其他能力進行優化時，這種改進不會被悄悄抹除。這一點很重要，因為問題並非 Claude 所特有。Anthropic 先前的研究在來自多家開發商的 16 個模型上執行了相同的勒索場景，

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-05-14

蘋果 Mac M5 系統遭研究人員利用 Anthropic 的 Claude Mythos AI 入侵

相似度 130%關鍵字 anthropic/claude

2026-05-14

Anthropic 推出「Claude for Small Business」：瞄準中小企業 AI 自動化工作，幫你催發票、算薪水..

相似度 130%關鍵字 anthropic/claude

2026-05-14

Anthropic 宣布 Claude 重新支援 OpenClaw 小龍蝦使用，以「Agent SDK 積分」遏止訂閱套利

相似度 130%關鍵字 anthropic/claude

2026-05-11

加密貨幣律師警告，隨著 Claude 在 AWS 上線，針對 Anthropic 股票的打壓恐引發訴訟風險

相似度 130%關鍵字 anthropic/claude

2026-05-08

Anthropic 目標估值達 $1T，投資人看好 Claude 的企業成長潛力

相似度 130%關鍵字 anthropic/claude

2026-05-04

Anthropic 組隊貝萊德、高盛、H&F 砸 15 億美元組 AI 諮詢軍團，Claude 直插私募股權圈

相似度 130%關鍵字 anthropic/claude

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：5f54e88628

來源：Decrypt

發佈：2026-05-11 16:37:01

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言