ニュース一覧AIはまだオンコールエンジニアに勝てない:その理由
Decrypt2026-05-18 20:05:45

AIはまだオンコールエンジニアに勝てない:その理由

ORIGINALAI Still Can't Beat the On-Call Engineer: Here's Why
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯3826 文字
簡単に言うと - ARFBenchは、実本番インシデントのみから構築された初のAIベンチマークである。 - GPT-5は既存のすべてのAIモデルをリードし62.7%の正解率を達成したが、ドメイン専門家の72.7%には及ばない。 - 理論上のモデル・専門家オラクル——AIと人間の判断を組み合わせたもの——は87.2%の正解率に達し、AIと人間の協働チームが達成し得る上限を示している。 AI企業は自律型のサイトリライアビリティエンジニアエージェント——人間に代わって本番インシデントを調査するAI——を売り込み続けている。Datadogは実際の障害でベンチマークを実施したが、最高のAIモデルでも置き換える対象であるエンジニアにはまだ勝てない。 このベンチマークはARFBench(Anomaly Reasoning Framework Benchmark)で、DatadogとCarnegie Mellonの共同プロジェクトである。63件の実本番インシデントから構築され、緊急対応中のエンジニア自身のSlackスレッドから抽出されている——142の監視メトリクスと538万のデータポイントをカバーする750問の多肢選択式問題で、すべての問題が手作業で検証されている。合成データはなし。教科書的なシナリオもなし。 「システム障害により毎年数兆ドルが失われている」と研究者らは記している。このベンチマークはAIが実際にそれを変える助けになり得るかを試すものだ。 「インシデント対応において、こうした質問駆動型分析が中心的な役割を果たしているにもかかわらず、現代の基盤モデルがエンジニアが実務で問う種類の時系列の質問に確実に答えられるかどうかは依然として不明である」と論文には書かれている。 質問は3つの階層に分かれている。Tier I:このチャートに異常は存在するか? Tier II:いつ始まり、どれほど深刻で、どの種類か? Tier III——最も難しい——はメトリクス間の推論を必要とする:このチャートが別のチャートの問題を引き起こしているか? ここでAIは崩壊する。GPT-5はTier IIIの質問でF1スコア47.5%しか取れない——これはモデルが最頻クラスを選ぶことで回答を操作することにペナルティを課す指標である。 「インシデント対応において、こうした質問駆動型分析が中心的な役割を果たしているにもかかわらず、現代の基盤モデルがエンジニアが実務で問う種類の時系列の質問に確実に答えられるかどうかは依然として不明である」と研究者らは記している。 各モデルの結果 GPT-5は既存のすべてのモデルをリードし62.7%の正解率を達成した——ランダム推測では24.5%になるテストでだ。Gemini 3 Proは58.1%。Claude Opus 4.6は54.8%。Claude Sonnet 4.5は47.2%。 ドメイン専門家は72.7%の正解率を記録した。非ドメイン専門家——Datadogの時系列研究者で観測性の経験が豊富ではない者——でも69.7%に達した。 どのAIモデルも人間のベースラインに勝てなかった。 実際にリーダーボード全体のトップに立ったモデルは、Datadog自身のハイブリッドだった:Toto——同社の内部時系列予測モデル——とQwen3-VL 32Bを組み合わせたものだ。Toto-1.0-QA-Experimentalは63.9%の正解率を達成し、GPT-5を上回ったうえに、そのパラメータのごく一部しか使っていない。異常識別に関して特に、F1で少なくとも8.8パーセントポイント差で他のすべてのモデルを上回った。 観測性データで訓練された目的特化型のドメインモデルが、この特定のタスクで最先端の汎用システムを上回るのは予想される結果である。それが本旨だ。 最も価値ある発見は、どのモデルが最高得点を取ったかではない。 「主要なモデルと人間の専門家の間で著しく異なるエラープロファイルを観察しており、両者の強みは相補的であることを示唆している」と研究者らは記している。モデルは幻覚を起こし、メタデータを見落とし、ドメインの文脈を失う。人間は正確なタイムスタンプを読み間違え、複雑な指示で失敗することがある。これらの間違いはほとんど重ならない。 理論上の「Model-Expert Oracle」——AIと人間の間で常に正しい答えを選ぶ完璧な判定者——をモデル化すると、正解率87.2%、F1で82.8%が得られる。どちらか単独よりはるかに高い。 これは製品ではない。文書化された目標である——キュレートされたデータセットではなく実際の緊急事態から構築された——人間とAIの協働がどれほど優れた性能を発揮し得るかを正確に定量化するものだ。リーダーボードはHugging Faceで公開されている。GPT-5は62.7%に位置する。上限は87.2%である。
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:f8db5c738c
ソース:Decrypt
公開:2026-05-18 20:05:45
カテゴリ:一般 · エクスポートカテゴリ neutral
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント