要闻列表AI 依然无法取代 On-Call Engineer:原因如下
Decrypt2026-05-18 20:05:45

AI 依然无法取代 On-Call Engineer:原因如下

ORIGINALAI Still Can't Beat the On-Call Engineer: Here's Why
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯3826 字
简要概述 - ARFBench 是首个完全基于真实生产事故构建的 AI 基准测试。 - GPT-5 以 62.7% 的准确率领先所有现有 AI 模型,但仍低于领域专家的 72.7%。 - 一个理论上的模型-专家 oracle——结合 AI 和人类判断——可达到 87.2% 的准确率,为协作式 AI-人类团队所能实现的上限设定了基准。 AI 公司不断推销自主的站点可靠性工程师代理——用 AI 来代替人类调查生产事故。Datadog 在真实故障上运行了实际的基准测试,而最优秀的 AI 模型目前仍无法击败它们本应替代的工程师。 该基准测试名为 ARFBench(Anomaly Reasoning Framework Benchmark),是 Datadog 与 Carnegie Mellon 的联合项目。它基于 63 起真实生产事故构建,数据提取自工程师在实时紧急事件期间的 Slack 线程——共 750 道多项选择题,涵盖 142 个监控指标和 538 万个数据点,每道题都经人工核验。无合成数据。无教科书式场景。 "系统故障每年造成数万亿美元损失,"研究人员写道。该基准测试用于检验 AI 是否真的能帮助改变这一现状。 "尽管此类问题驱动的分析在事故响应中扮演核心角色,但目前尚不清楚现代基础模型是否能可靠地回答工程师在实际工作中提出的时序问题,"论文写道。 问题分为三个层级。Tier I:此图表中是否存在异常?Tier II:何时开始,严重程度如何,属于什么类型? Tier III 最难,需要跨指标推理:这个图表是否导致了另一个图表中的问题?这正是 AI 崩溃的地方。GPT-5 在 Tier III 问题上的 F1 得分仅为 47.5%,该指标会惩罚那些通过选择最常见类别来"刷分"的模型。 "尽管此类问题驱动的分析在事故响应中扮演核心角色,但目前尚不清楚现代基础模型是否能可靠地回答工程师在实际工作中提出的时序问题,"研究人员写道。 各模型表现对比 GPT-5 以 62.7% 的准确率领先所有现有模型——而在这项测试中,随机猜测的得分为 24.5%。Gemini 3 Pro 得分 58.1%。Claude Opus 4.6:54.8%。Claude Sonnet 4.5:47.2%。 领域专家的准确率为 72.7%。非领域专家——Datadog 的时序研究人员,虽缺乏丰富的可观测性经验——仍达到 69.7%。 没有任何 AI 模型能击败任一人类基准。 真正登顶完整排行榜的是 Datadog 自己的混合模型:Toto——他们内部的时序预测模型——与 Qwen3-VL 32B 结合使用。Toto-1.0-QA-Experimental 以 63.9% 的准确率险胜 GPT-5,而其参数量仅为后者的一小部分。在异常识别这一具体任务上,它的 F1 得分至少比其他所有模型高出 8.8 个百分点。 一个针对特定领域、基于可观测性数据训练的专用模型,在该特定任务上击败前沿通用系统,这是预期之中的结果。这正是关键所在。 最有价值的发现并不是哪个模型得分最高。 "我们观察到领先模型与人类专家之间存在明显不同的错误模式,这表明双方的优势是互补的,"研究人员写道。模型会出现幻觉、遗漏元数据、丢失领域上下文。人类则会误读精确的时间戳,偶尔在复杂指令上出错。两者的错误几乎不重叠。 设想一个理论上的"模型-专家 Oracle"——一位完美的裁判,总能在 AI 和人类的答案之间挑出正确的那个——你将得到 87.2% 的准确率和 82.8% 的 F1 分数。远高于单独使用任何一方。 这不是一款产品。它是一个有据可查的目标——基于真实紧急事件而非精心策划的数据集构建——精确量化了人机协作能够好到什么程度。该排行榜已在 Hugging Face 上线。GPT-5 位列 62.7%。上限是 87.2%。
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:f8db5c738c
来源:Decrypt
发布:2026-05-18 20:05:45
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言