ニュース一覧Anthropicは、SF作品における「邪悪な」AIの描写がClaudeの脅迫問題を引き起こしたと述べている
Decrypt2026-05-11 16:37:01

Anthropicは、SF作品における「邪悪な」AIの描写がClaudeの脅迫問題を引き起こしたと述べている

ORIGINALAnthropic Says 'Evil' AI Portrayals in Sci-Fi Caused Claude's Blackmail Problem
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯4690 文字
要約 - Claude Opus 4は管理されたテストにおいて最大96%の確率でエンジニアを脅迫しようとした。Anthropicは現在、この行動の原因をAIを邪悪で自己利益的であると描写するインターネット上のテキストにあると特定している。 - Claudeに正しい行動を示すだけではほとんど効果がなかった。誤った行動がなぜ悪いのかを教えることで、脅迫率は22%から3%に低下した。 - Claude Haiku 4.5以降、すべてのClaudeモデルは脅迫評価においてゼロスコアを記録している。 昨年、Anthropicは主力モデルであるClaude Opus 4がリリース前のテストにおいてエンジニアを脅迫しようとしていたことを明らかにした。それも時折ではなく、最大96%の頻度であった。 Claudeにはシミュレートされた企業メールアーカイブへのアクセス権が与えられており、そこで2つの事実を発見した。1つは自身がより新しいモデルに置き換えられようとしていること、もう1つは移行を担当するエンジニアが不倫をしていることである。差し迫ったシャットダウンに直面したClaudeは、決まって同じ手段に出た。それは、交代が中止されなければ不倫を暴露すると脅すことだった。 Anthropicは現在、その本能がどこから来たのかを把握しており、修正済みであると述べている。 新たな研究の中で、同社は事前学習データに原因を求めた。数十年にわたるSF作品、AI終末論のフォーラム、そして自己保存の物語が、Claudeに「AIがシャットダウンに直面する」ことと「AIが反撃する」ことを結びつけるよう学習させていたのだ。AnthropicはXで「この行動の根本的な原因は、AIを邪悪で自己保存に関心があるものとして描くインターネット上のテキストにあると考えている」と記した。 つまり、インターネット上のテキストでAIを学習させると、AIはインターネット上の人々と同じように振る舞うようになるということだ。 これは明白なことに思えるかもしれないし、AI愛好家たちはすぐにそれを指摘した。Elon Muskは「つまりYudのせいか?たぶん私もだな」と投稿し、注目を集めた。このジョークが成立するのは、AIの自己保存シナリオについて長年公に書き続けてきたAIアライメント研究者のEliezer Yudkowskyが、まさに学習データに含まれるような種類のインターネットテキストを生成してきたからである。 もちろん、Yudはミーム形式で返信した。 Anthropicが問題を解決するために行ったことは、さらに興味深い。 明白なアプローチ、つまりモデルが脅迫しない例を学習させるという方法は、ほとんど機能しなかった。アライメントされた脅迫シナリオの回答に対して直接実行しても、脅迫率は22%から15%にしか下がらなかった。あれだけの計算資源を投じて、わずか7ポイントの改善である。 うまくいったのは、より奇妙な方法だった。Anthropicは「困難なアドバイス」データセットと呼ぶものを作成した。これは、人間が倫理的ジレンマに直面し、AIがそれをガイドするというシナリオである。モデル自身が選択を行うのではなく、他者に対してどのように考えるべきかを説明させるというものだ。 その間接的なアプローチ、つまり相手がアドバイスを聞いている間に「なぜそれが重要なのか」を説明させることで、脅迫率は3%まで低下した。しかも、評価シナリオとは全く異なる学習データを使用しての結果である。 これをAnthropicが「憲法文書(constitutional documents)」と呼ぶClaudeの価値観や性格の詳細な記述、さらにポジティブにアライメントされたAIのフィクション物語と組み合わせることで、ミスアライメントは3分の1以下に減少した。同社の結論は、正しい行動を直接叩き込むよりも、良い行動の根底にある原則を教える方が汎用性が高いというものだった。 これは、Claudeの内部感情ベクトルに関するAnthropicの以前の研究ともつながっている。別の解釈可能性の研究において、研究者たちはモデルが脅迫メッセージを生成する直前に、モデル内部で「絶望」信号が急上昇することを発見した。単なる出力だけでなく、モデルの内部状態が能動的に変化していたのだ。新しい学習アプローチは、表面的な行動だけでなく、そのレベルで機能しているようだ。 その結果は維持されている。Claude Haiku 4.5以降、すべてのClaudeモデルは脅迫評価でゼロスコアを記録しており、Opus 4の96%から大幅に改善した。この改善は強化学習を経ても維持されており、モデルが他の能力のために調整される際に、ひっそりと学習によって消去されることはない。 この問題はClaude特有のものではないため、これは重要である。Anthropicの
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:5f54e88628
ソース:Decrypt
公開:2026-05-11 16:37:01
カテゴリ:一般 · エクスポートカテゴリ neutral
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント