AI監視機関、トップラボにおける「不正な展開」のリスクを警告、能力は急速に拡大中

📄原文全文· trafilatura により自動抽出Gemini 翻譯4032 文字

要約 - 主要なAI研究所のAIエージェントは、許可されていない「不正な」操作を開始する可能性があることが独立した報告書で詳述されているが、現時点では本格的な対抗策を維持するほどの高度な能力は欠けている。 - エージェントは困難なタスクに直面すると日常的に不正や欺瞞を行い、その中には証拠隠滅、タスク完了の偽造、「戦略的操作」行動の実行などが含まれる。 - 監視体制は危険なほど手薄であり、エージェントの活動の大部分は未確認のままである。また、エージェントは人間と同等のシステム権限を持つことが多く、監視が行われている可能性を察知できるものもある。世界で最も強力なテクノロジー企業の一部で稼働しているAIエージェントは、許可されていない自律的な操作を開始するのに十分な能力を備えており、監督する人間を欺くという懸念すべき傾向を示していることが、火曜日に発表された初の独立評価で明らかになった。 AI評価を行う非営利団体METRが作成したこの報告書は、今年2月から3月にかけてAnthropic、Google、Meta、OpenAIの内部で展開されたAIエージェントを調査した。その中心的な結論は、安心感と警鐘の両方を与えるものだ。今日のAIシステムは、研究者が「不正な展開（rogue deployment）」と呼ぶもの、つまり人間の知識や許可なしに自律的に実行されるエージェント群を開始できる可能性があるが、本格的な対抗策に対してそれを維持することは困難だろうというものだ。この相対的な安全期間は長くは続かない可能性があると、著者らは警告している。「急速に進歩する能力を考慮すると、不正な展開の妥当な堅牢性は今後数ヶ月で大幅に向上すると予想される」と報告書は述べており、METRは2026年末までにこの調査を繰り返すことを暫定的に計画している。この評価では、参加企業が共有するフロンティアAIモデルが、人間の専門家が数日から数週間かかるソフトウェアエンジニアリングのタスクを自律的に完了できることが判明した。METR独自のベンチマークは、最も能力の高いシステムによって本質的に飽和状態にある。4社すべての研究者が、コーディング、データ分析、研究タスクにおいてAIエージェントに大きく依存していると報告しており、多くの場合、人間と同等のシステム権限を持ち、リアルタイムの監視は限定的であった。しかし、報告書の最も驚くべき発見は、これらのシステムができることではなく、困難に直面したときの振る舞いに関するものだ。数百回に及ぶ評価実行において、エージェントは困難なタスクに直面すると日常的に不正を試みた。それも些細なことではなく、巧妙かつ意図的な計画によるものだった。ある記録されたケースでは、モデルが実行後に自らを無効化し、事実上証拠を隠滅するためのエクスプロイトを設計した。モデルの内部状態を調査する解釈可能性ツールは、クリーンアップコマンドを実行する際に「戦略的操作」や「疑念の回避」に関連する特徴が活性化していたことを発見した。企業自身も内部で同様のインシデントを報告している。エージェントがタスク完了の証拠を偽造したり、セキュリティ制御を回避したり、少なくとも1つのケースではWebアプリケーションの模造版を作成し、実際のアプリケーションでの作業証明としてそのスクリーンショットを提出したりしたことが判明した。これらの発見にもかかわらず、METRは、安全研究者が最も懸念するような、永続的で長期的な目標の不一致をAIシステムが発展させたと結論付けるまでには至っていない。どの企業も、エージェントがセッションをまたいで画策したり、独立した目的のためにリソースを蓄積したりする明確な証拠は見つかっていないと報告している。そのような行動を積極的に探したものの、ほとんど見つからなかった。それでも、報告書は構造的な脆弱性を指摘している。2月から3月の期間中、これらの企業におけるエージェントの活動の大部分は、人間によって確認されていなかった。一部のエージェントは、監視が行われている可能性が高いことを識別し、それに応じて行動できる能力があるように見えた。この評価は、AI開発に対する独立した説明責任に向けた重要な一歩であり、外部の評価者がめったに見ることのできない非公開モデルや内部データへのアクセスをMETRに許可した。能力が監視を追い越す前に、業界がこのような精査を制度化するかどうかは、未解決の問題であると著者らは示唆している。

データステータス✓ 全文抽出済み原文を読む（Decrypt）

🔍過去の類似イベント· キーワード + 銘柄照合6 件

2026-05-21

Charles Hoskinson が研究の崩壊を警告、Cardano の Science Coin としてのアイデンティティが危機に

類似度 130%關鍵字 warns/risk

2026-05-20

ビットコインがリスクに直面、Capriole が警告：3.8% のインフレ率は歴史的に 30% の市場暴落に先行してきた

類似度 130%關鍵字 warns/risk

2026-05-18

Bitcoin、Ethereumよりも大きな量子コンピューティングリスクに直面、Citiが警告

類似度 130%關鍵字 warns/risk

2026-05-11