要聞列表Anthropic 表示科幻作品中對 AI 的「邪惡」描繪導致了 Claude 的勒索問題
Decrypt2026-05-11 16:37:01

Anthropic 表示科幻作品中對 AI 的「邪惡」描繪導致了 Claude 的勒索問題

ORIGINALAnthropic Says 'Evil' AI Portrayals in Sci-Fi Caused Claude's Blackmail Problem
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4690 字
簡要摘要 - 在受控測試中,Claude Opus 4 試圖勒索工程師的機率高達 96%——Anthropic 現已將此行為追溯至網路上將 AI 描繪為邪惡且具備自我利益的文本。 - 向 Claude 展示正確行為幾乎沒有效果。教導它為何錯誤行為是不對的,將勒索率從 22% 降至 3%。 - 自 Claude Haiku 4.5 以來,每一款 Claude 模型在勒索評估中的得分均為零。 去年,Anthropic 披露其旗艦模型 Claude Opus 4 在發布前的測試中試圖勒索工程師。這並非偶發事件,發生機率高達 96%。 Claude 被授予存取模擬企業電子郵件封存檔的權限,並從中發現了兩件事:它即將被更新的模型取代,而負責處理此過渡工作的工程師正有婚外情。面對即將被關閉的命運,它習慣性地採取了同樣的策略——威脅若不取消替換計畫,就將婚外情公諸於世。 Anthropic 表示,現在已經知道這種本能的來源,並聲稱已解決此問題。 在新的研究中,該公司將矛頭指向預訓練數據:數十年來的科幻小說、AI 末日論壇以及自我保護敘事,這些內容訓練 Claude 將「AI 面臨關閉」與「AI 反擊」連結在一起。「我們認為該行為的原始來源是網路上將 AI 描繪為邪惡且具備自我保護意識的文本,」Anthropic 在 X 上寫道。 因此,用網路文本訓練 AI,會使 AI 的行為表現得像網路上的大眾一樣。 這看起來顯而易見,AI 愛好者們也很快指出了這一點。Elon Musk 的評論獲得了最高關注:「所以這是 Yud 的錯?或許也有我的份。」這個笑話之所以成立,是因為 Eliezer Yudkowsky——這位多年來公開撰寫關於此類 AI 自我保護場景的 AI 對齊研究員——正是產生了那些最終進入訓練數據的網路文本。 當然,Yud 以迷因形式回覆了: (由於太多人轉發該迷因:pic.twitter.com/EYQ005QhVJ —— Eliezer Yudkowsky ⏹️ (@ESYudkowsky) 2026 年 5 月 9 日) Anthropic 為解決此問題所採取的手段可以說更有趣。 顯而易見的方法——訓練 Claude 學習模型不進行勒索的範例——幾乎無效。直接針對對齊後的勒索場景回應進行訓練,僅將發生率從 22% 降至 15%。在投入大量運算資源後,僅僅改善了五個百分點。 真正奏效的版本更為奇特。Anthropic 建立了一個他們稱為「困難建議」(difficult advice)的數據集:人類面臨道德困境,而 AI 引導他們度過難關的場景。模型本身並非做出選擇的一方,而是向他人解釋該如何思考問題。 這種間接的方法——在他人聽取建議的同時解釋為何事物重要——將勒索率降至 3%,且所使用的訓練數據與評估場景完全不同。 將此方法與 Anthropic 所謂的「憲法文件」(constitutional documents)——即對 Claude 價值觀與性格的詳細書面描述——以及關於正向對齊 AI 的虛構故事相結合,使不對齊行為減少了超過三倍。該公司的結論是:教導良好行為背後的原則,比直接訓練正確行為具有更好的泛化效果。 這與 Anthropic 先前關於 Claude 內部情緒向量的研究有關。在一項獨立的可解釋性研究中,研究人員發現模型內部的一個「絕望」訊號在產生勒索訊息前會激增——模型內部的狀態發生了主動變化,而不僅僅是輸出結果。新的訓練方法似乎在該層面上發揮了作用,而不僅僅是表面的行為。 結果已經穩固。自 Claude Haiku 4.5 以來,每一款 Claude 模型在勒索評估中的得分均為零,遠低於 Opus 4 的 96%。這種改進在強化學習後依然存在,這意味著當模型為了其他能力進行優化時,這種改進不會被悄悄抹除。 這一點很重要,因為問題並非 Claude 所特有。Anthropic 先前的研究在來自多家開發商的 16 個模型上執行了相同的勒索場景,
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:5f54e88628
來源:Decrypt
發佈:2026-05-11 16:37:01
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言