Danh sách tinAI Vẫn Không Thể Đánh Bại Kỹ Sư Trực: Đây Là Lý Do
Decrypt2026-05-18 20:05:45

AI Vẫn Không Thể Đánh Bại Kỹ Sư Trực: Đây Là Lý Do

ORIGINALAI Still Can't Beat the On-Call Engineer: Here's Why
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯3826 từ
Tóm tắt - ARFBench là benchmark AI đầu tiên được xây dựng hoàn toàn từ các sự cố production thực tế. - GPT-5 dẫn đầu tất cả các mô hình AI hiện có với độ chính xác 62,7% nhưng vẫn thua các chuyên gia trong lĩnh vực ở mức 72,7%. - Một oracle lý thuyết mô hình-chuyên gia—kết hợp phán đoán của AI và con người—đạt độ chính xác 87,2%, thiết lập trần cho những gì các nhóm hợp tác AI-con người có thể đạt được. Các công ty AI liên tục quảng bá các agent kỹ sư độ tin cậy hệ thống (site reliability engineer) tự động—AI điều tra các sự cố production thay cho con người. Datadog đã chạy benchmark thực tế trên các sự cố ngừng hoạt động thật, và các mô hình AI tốt nhất vẫn chưa thể đánh bại các kỹ sư mà chúng được kỳ vọng sẽ thay thế. Benchmark này là ARFBench (Anomaly Reasoning Framework Benchmark), một dự án chung của Datadog và Carnegie Mellon. Được xây dựng từ 63 sự cố production thực tế, trích xuất từ chính các thread Slack của các kỹ sư trong các tình huống khẩn cấp trực tiếp—750 câu hỏi trắc nghiệm bao gồm 142 chỉ số giám sát và 5,38 triệu điểm dữ liệu, mọi câu hỏi đều được xác minh bằng tay. Không có dữ liệu tổng hợp. Không có kịch bản sách giáo khoa. "Hàng nghìn tỷ đô la bị mất mỗi năm do các sự cố ngừng hoạt động hệ thống," các nhà nghiên cứu viết. Benchmark kiểm tra xem AI có thể thực sự giúp thay đổi điều đó hay không. "Mặc dù phân tích dựa trên câu hỏi đóng vai trò trung tâm trong việc ứng phó sự cố, vẫn chưa rõ liệu các foundation model hiện đại có thể trả lời đáng tin cậy những loại câu hỏi về chuỗi thời gian mà các kỹ sư đặt ra trong thực tế hay không," bài báo viết. Các câu hỏi được chia thành ba cấp độ. Cấp I: Có bất thường tồn tại trong biểu đồ này không? Cấp II: Nó bắt đầu khi nào, mức độ nghiêm trọng ra sao, thuộc loại nào? Cấp III—khó nhất—đòi hỏi suy luận chéo giữa các chỉ số: Biểu đồ này có đang gây ra vấn đề trong biểu đồ khác hay không? Đó là nơi AI sụp đổ. GPT-5 chỉ đạt 47,5% F1 trên các câu hỏi Cấp III, một chỉ số phạt các mô hình vì cố gắng "đánh lừa" câu trả lời bằng cách chọn lớp phổ biến nhất. "Mặc dù phân tích dựa trên câu hỏi đóng vai trò trung tâm trong việc ứng phó sự cố, vẫn chưa rõ liệu các foundation model hiện đại có thể trả lời đáng tin cậy những loại câu hỏi về chuỗi thời gian mà các kỹ sư đặt ra trong thực tế hay không," các nhà nghiên cứu viết. Mọi mô hình xếp hạng như thế nào GPT-5 dẫn đầu tất cả các mô hình hiện có với độ chính xác 62,7%—trên một bài kiểm tra mà đoán ngẫu nhiên đạt 24,5%. Gemini 3 Pro đạt 58,1%. Claude Opus 4.6: 54,8%. Claude Sonnet 4.5: 47,2%. Các chuyên gia trong lĩnh vực đạt độ chính xác 72,7%. Các chuyên gia ngoài lĩnh vực—các nhà nghiên cứu chuỗi thời gian tại Datadog không có nhiều kinh nghiệm về observability—vẫn đạt 69,7%. Không có mô hình AI nào đánh bại được một trong hai mốc chuẩn của con người. Mô hình thực sự dẫn đầu toàn bộ bảng xếp hạng là hybrid của chính Datadog: Toto—mô hình dự báo chuỗi thời gian nội bộ của họ—kết hợp với Qwen3-VL 32B. Toto-1.0-QA-Experimental đạt độ chính xác 63,9%, vượt nhẹ GPT-5 trong khi chỉ sử dụng một phần nhỏ tham số. Cụ thể trong việc nhận diện bất thường, nó vượt trội hơn mọi mô hình khác ít nhất 8,8 điểm phần trăm về F1. Một mô hình chuyên biệt được xây dựng cho lĩnh vực, được huấn luyện trên dữ liệu observability, vượt trội hơn một hệ thống đa năng tiên tiến trong tác vụ cụ thể này là kết quả được mong đợi. Đó chính là điểm mấu chốt. Phát hiện có giá trị nhất không phải là mô hình nào đạt điểm cao nhất. "Chúng tôi quan sát thấy hồ sơ lỗi khác biệt đáng kể giữa các mô hình hàng đầu và các chuyên gia con người, cho thấy điểm mạnh của họ bổ sung cho nhau," các nhà nghiên cứu viết. Các mô hình bị ảo giác (hallucinate), bỏ sót metadata, và mất ngữ cảnh lĩnh vực. Con người đọc sai các dấu thời gian chính xác và đôi khi thất bại với các hướng dẫn phức tạp. Các lỗi hầu như không trùng lặp. Mô hình hóa một "Model-Expert Oracle" lý thuyết—một thẩm phán hoàn hảo luôn chọn câu trả lời đúng giữa AI và con người—và bạn sẽ có độ chính xác 87,2% và F1 82,8%. Vượt xa cả hai khi đứng một mình. Đó không phải là một sản phẩm. Đó là một mục tiêu được ghi nhận—được xây dựng từ các sự cố khẩn cấp thực tế, không phải các tập dữ liệu được tuyển chọn—định lượng chính xác mức độ hợp tác giữa con người và AI có thể hoạt động tốt hơn bao nhiêu. Bảng xếp hạng đang hoạt động trên Hugging Face. GPT-5 ở mức 62,7%. Trần là 87,2%.
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:f8db5c738c
Nguồn:Decrypt
Đăng:2026-05-18 20:05:45
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận