AI Masih Belum Bisa Mengalahkan On-Call Engineer: Ini Alasannya

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯3826 kata

Singkatnya - ARFBench adalah benchmark AI pertama yang dibangun sepenuhnya dari insiden produksi nyata. - GPT-5 memimpin semua model AI yang ada dengan akurasi 62,7%, namun masih di bawah pakar domain yang mencapai 72,7%. - Model oracle pakar-model teoretis—yang menggabungkan penilaian AI dan manusia—mencapai akurasi 87,2%, menetapkan batas atas untuk apa yang dapat dicapai oleh tim kolaboratif AI-manusia. Perusahaan AI terus mempromosikan agen site reliability engineer otonom—AI yang menyelidiki insiden produksi menggantikan manusia. Datadog menjalankan benchmark aktual pada pemadaman nyata, dan model AI terbaik belum mampu mengalahkan insinyur yang seharusnya mereka gantikan. Benchmark tersebut adalah ARFBench (Anomaly Reasoning Framework Benchmark), proyek gabungan dari Datadog dan Carnegie Mellon. Dibangun dari 63 insiden produksi nyata, yang diekstraksi dari utas Slack insinyur sendiri selama keadaan darurat langsung—750 pertanyaan pilihan ganda yang mencakup 142 metrik pemantauan dan 5,38 juta titik data, setiap pertanyaan diverifikasi secara manual. Tidak ada data sintetis. Tidak ada skenario buku teks. "Triliunan dolar hilang setiap tahun karena pemadaman sistem," tulis para peneliti. Benchmark ini menguji apakah AI benar-benar dapat membantu mengubah hal tersebut. "Meskipun peran sentral dari analisis berbasis pertanyaan semacam itu dalam respons insiden, masih belum jelas apakah model fondasi modern dapat menjawab dengan andal jenis pertanyaan deret waktu yang diajukan insinyur dalam praktik," bunyi makalah tersebut. Pertanyaan datang dalam tiga tingkatan. Tingkat I: Apakah ada anomali dalam grafik ini? Tingkat II: Kapan itu dimulai, seberapa parah, apa jenisnya? Tingkat III—yang tersulit—memerlukan penalaran lintas metrik: Apakah grafik ini menyebabkan masalah pada grafik lainnya? Di situlah AI gagal. GPT-5 hanya mencetak 47,5% F1 pada pertanyaan Tingkat III, metrik yang menghukum model karena mencoba mengakali jawaban dengan memilih kelas yang paling umum. "Meskipun peran sentral dari analisis berbasis pertanyaan semacam itu dalam respons insiden, masih belum jelas apakah model fondasi modern dapat menjawab dengan andal jenis pertanyaan deret waktu yang diajukan insinyur dalam praktik," tulis para peneliti. Bagaimana setiap model dibandingkan GPT-5 memimpin semua model yang ada dengan akurasi 62,7%—pada tes di mana tebakan acak mendapatkan 24,5%. Gemini 3 Pro mencetak 58,1%. Claude Opus 4.6: 54,8%. Claude Sonnet 4.5: 47,2%. Pakar domain mencetak akurasi 72,7%. Non-pakar domain—peneliti deret waktu di Datadog tanpa pengalaman observabilitas yang luas—masih mencapai 69,7%. Tidak ada model AI yang mengalahkan tolok ukur manusia mana pun. Model yang sebenarnya memuncaki papan peringkat penuh adalah hibrida milik Datadog sendiri: Toto—model prakiraan deret waktu internal mereka—yang dikombinasikan dengan Qwen3-VL 32B. Toto-1.0-QA-Experimental mencetak akurasi 63,9%, sedikit melampaui GPT-5 dengan menggunakan sebagian kecil dari parameternya. Khusus pada identifikasi anomali, model ini mengungguli setiap model lain setidaknya sebesar 8,8 poin persentase dalam F1. Model domain yang dibangun khusus, dilatih pada data observabilitas, mengungguli sistem tujuan umum terdepan pada tugas spesifik ini adalah hasil yang diharapkan. Itulah intinya. Temuan yang paling berharga bukanlah model mana yang mencetak skor tertinggi. "Kami mengamati profil kesalahan yang sangat berbeda antara model terkemuka dan pakar manusia, yang menunjukkan bahwa kekuatan mereka saling melengkapi," tulis para peneliti. Model berhalusinasi, melewatkan metadata, dan kehilangan konteks domain. Manusia salah membaca stempel waktu yang tepat dan terkadang gagal pada instruksi yang kompleks. Kesalahan tersebut hampir tidak tumpang tindih. Buatlah "Model-Expert Oracle" teoretis—hakim sempurna yang selalu memilih jawaban yang tepat antara AI dan manusia—dan Anda mendapatkan akurasi 87,2% dan F1 82,8%. Jauh di atas keduanya jika berdiri sendiri. Itu bukan produk. Itu adalah target terdokumentasi—dibangun dari keadaan darurat nyata, bukan kumpulan data yang dikurasi—yang mengukur secara tepat seberapa jauh lebih baik kolaborasi manusia-AI dapat berkiner

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-20

Saham Google Turun pada I/O Terbaiknya dalam Beberapa Tahun. Inilah Mengapa BofA Masih Membeli

Tingkat kemiripan 180%關鍵字 here/why/still

2026-05-11

Harga Ether masih tertahan di bawah $2.4K: Berikut alasannya

Tingkat kemiripan 180%關鍵字 here/why/still

2026-05-25

Pembuangan Bitcoin Bernilai Miliaran Dolar: Inilah Alasan Harga BTC Terus Anjlok

Tingkat kemiripan 130%關鍵字 here/why

2026-05-24