要聞列表AI 依然無法取代 On-Call Engineer:原因如下
Decrypt2026-05-18 20:05:45

AI 依然無法取代 On-Call Engineer:原因如下

ORIGINALAI Still Can't Beat the On-Call Engineer: Here's Why
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯3826 字
簡要說明 - ARFBench 是第一個完全基於真實生產事故建構的 AI 基準測試。 - GPT-5 以 62.7% 的準確率在所有現有 AI 模型中領先,但仍不及領域專家的 72.7%。 - 一個理論上的模型-專家神諭——結合 AI 與人類判斷——可達到 87.2% 的準確率,為 AI 與人類協作團隊所能達成的表現設下了上限。 AI 公司不斷推銷自主式網站可靠性工程師代理人——能取代人類調查生產事故的 AI。Datadog 針對真實故障進行了實際的基準測試,結果發現最強的 AI 模型還無法擊敗它們本該取代的工程師。 這個基準測試名為 ARFBench(Anomaly Reasoning Framework Benchmark),是 Datadog 與 Carnegie Mellon 的合作專案。它以 63 起真實生產事故為基礎,從工程師在實際緊急情況下的 Slack 討論串中擷取——共 750 道選擇題,涵蓋 142 項監控指標與 538 萬個資料點,每一題都經過人工驗證。沒有合成資料,也沒有教科書式的情境。 「每年因系統故障造成的損失高達數兆美元,」研究人員寫道。這項基準測試正是要檢驗 AI 是否能真正協助改變這種狀況。 論文中寫道:「儘管這類問題驅動的分析在事故應變中扮演核心角色,但目前仍不清楚現代基礎模型能否可靠地回答工程師在實務中提出的這類時間序列問題。」 題目分為三個層級。第一層:這張圖中是否存在異常?第二層:異常從何時開始、嚴重程度如何、屬於哪一類型? 第三層——也就是最困難的一層——需要跨指標推理:這張圖是否造成另一張圖中的問題?這就是 AI 崩潰的地方。GPT-5 在第三層問題上的 F1 分數僅 47.5%,這個指標會懲罰那些靠挑選最常見類別來矇答案的模型。 「儘管這類問題驅動的分析在事故應變中扮演核心角色,但目前仍不清楚現代基礎模型能否可靠地回答工程師在實務中提出的這類時間序列問題,」研究人員寫道。 各模型的成績比較 GPT-5 以 62.7% 的準確率領先所有現有模型——而在這項測試中隨機猜測的準確率為 24.5%。Gemini 3 Pro 得 58.1%。Claude Opus 4.6:54.8%。Claude Sonnet 4.5:47.2%。 領域專家的準確率為 72.7%。非領域專家——也就是 Datadog 內部從事時間序列研究、但缺乏豐富可觀測性經驗的研究人員——也達到了 69.7%。 沒有任何 AI 模型能勝過這兩條人類基準線。 真正登上整體排行榜榜首的是 Datadog 自家的混合模型:Toto——他們內部的時間序列預測模型——結合 Qwen3-VL 32B。Toto-1.0-QA-Experimental 取得 63.9% 的準確率,以遠少於 GPT-5 的參數量略勝一籌。在異常識別這項任務上,它的 F1 分數比其他所有模型至少高出 8.8 個百分點。 一個專門打造、以可觀測性資料訓練的領域模型,在這項特定任務上勝過前沿的通用系統,是預期之中的結果。這正是重點所在。 最有價值的發現並不是哪個模型分數最高。 「我們觀察到頂尖模型與人類專家之間有截然不同的錯誤型態,這顯示兩者的優勢是互補的,」研究人員寫道。模型會產生幻覺、漏看 metadata、並失去領域脈絡。人類則會誤判精確的時間戳,偶爾在複雜指令上出錯。兩者的錯誤幾乎不重疊。 若建立一個理論上的「Model-Expert Oracle」(模型-專家神諭)——一位永遠能在 AI 與人類之間挑出正確答案的完美裁判——就能達到 87.2% 的準確率與 82.8% 的 F1。遠高於兩者單獨表現。 這並不是一項產品。這是一個有紀錄可循的目標——建立於真實緊急事件之上,而非經過精心整理的資料集——量化了人類與 AI 協作究竟可以提升多少表現。排行榜已於 Hugging Face 上線。GPT-5 落在 62.7%。天花板則是 87.2%。
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:f8db5c738c
來源:Decrypt
發佈:2026-05-18 20:05:45
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言