뉴스 목록AI는 여전히 On-Call Engineer를 이길 수 없다: 그 이유는 다음과 같다
Decrypt2026-05-18 20:05:45

AI는 여전히 On-Call Engineer를 이길 수 없다: 그 이유는 다음과 같다

ORIGINALAI Still Can't Beat the On-Call Engineer: Here's Why
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯3826 자
요약 - ARFBench는 실제 운영 사고를 기반으로 구축된 최초의 AI 벤치마크입니다. - GPT-5는 62.7%의 정확도로 기존 AI 모델 중 가장 앞서 있지만, 도메인 전문가의 72.7%에는 미치지 못합니다. - AI와 인간의 판단을 결합한 이론적 모델-전문가 오라클(Model-Expert Oracle)은 87.2%의 정확도를 기록하며, AI와 인간의 협업 팀이 달성할 수 있는 잠재적 한계를 제시합니다. AI 기업들은 인간을 대신해 운영 사고를 조사하는 자율 사이트 안정성 엔지니어(SRE) 에이전트를 계속해서 홍보하고 있습니다. Datadog이 실제 장애 상황에서 벤치마크를 실행한 결과, 최고의 AI 모델조차 아직은 대체하려는 엔지니어들의 능력을 뛰어넘지 못했습니다. 이 벤치마크는 Datadog과 Carnegie Mellon의 공동 프로젝트인 ARFBench(Anomaly Reasoning Framework Benchmark)입니다. 실제 긴급 상황에서 엔지니어들이 나눈 Slack 대화에서 추출한 63건의 실제 운영 사고를 바탕으로 구축되었으며, 142개의 모니터링 지표와 538만 개의 데이터 포인트를 다루는 750개의 객관식 질문으로 구성되어 있고 모든 질문은 수작업으로 검증되었습니다. 합성 데이터나 교과서적인 시나리오는 없습니다. 연구진은 "시스템 중단으로 인해 매년 수조 달러의 손실이 발생한다"고 적었습니다. 이 벤치마크는 AI가 실제로 이를 변화시키는 데 도움이 될 수 있는지 테스트합니다. 논문은 "사고 대응에서 이러한 질문 기반 분석이 핵심적인 역할을 함에도 불구하고, 현대의 파운데이션 모델이 엔지니어들이 실무에서 묻는 시계열 질문에 신뢰성 있게 답할 수 있는지는 불분명하다"고 지적합니다. 질문은 세 단계로 나뉩니다. Tier I: 이 차트에 이상 징후가 존재하는가? Tier II: 언제 시작되었으며, 심각도는 어느 정도이고, 유형은 무엇인가? 가장 어려운 Tier III는 교차 지표 추론을 요구합니다: 이 차트가 저 차트의 문제를 일으키고 있는가? 바로 이 지점에서 AI는 무너집니다. GPT-5는 Tier III 질문에서 F1 점수 47.5%를 기록했는데, 이는 가장 흔한 클래스를 선택하여 정답을 맞히려는 모델에 페널티를 주는 지표입니다. 연구진은 "사고 대응에서 이러한 질문 기반 분석이 핵심적인 역할을 함에도 불구하고, 현대의 파운데이션 모델이 엔지니어들이 실무에서 묻는 시계열 질문에 신뢰성 있게 답할 수 있는지는 불분명하다"고 다시 한번 강조합니다. 모델별 성적 GPT-5는 62.7%의 정확도로 기존 모델 중 1위를 차지했습니다(무작위 추측 시 24.5%). Gemini 3 Pro는 58.1%, Claude Opus 4.6은 54.8%, Claude Sonnet 4.5는 47.2%를 기록했습니다. 도메인 전문가는 72.7%의 정확도를 기록했습니다. 광범위한 관측 가능성(observability) 경험이 없는 Datadog의 시계열 연구원들인 비도메인 전문가들도 69.7%를 기록했습니다. 어떤 AI 모델도 인간 기준치를 넘어서지 못했습니다. 전체 리더보드에서 1위를 차지한 모델은 Datadog 자체 하이브리드 모델인 Toto(내부 시계열 예측 모델)와 Qwen3-VL 32B를 결합한 것이었습니다. Toto-1.0-QA-Experimental은 63.9%의 정확도를 기록하며, 훨씬 적은 파라미터를 사용하고도 GPT-5를 근소하게 앞섰습니다. 특히 이상 징후 식별 분야에서는 F1 점수에서 다른 모든 모델을 최소 8.8% 포인트 차이로 앞섰습니다. 관측 가능성 데이터로 훈련된 목적 기반 도메인 모델이 이 특정 작업에서 범용 최첨단 시스템을 능가하는 것은 예상된 결과이며, 그것이 바로 핵심입니다. 가장 가치 있는 발견은 어떤 모델이 가장 높은 점수를 받았느냐가 아닙니다. 연구진은 "우리는 주요 모델과 인간 전문가 간에 상당히 다른 오류 프로필을 관찰했으며, 이는 그들의 강점이 상호 보완적임을
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:f8db5c738c
출처:Decrypt
발행:2026-05-18 20:05:45
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글