Các Mô Hình AI Không Thể Đồng Ý Về Các Sự Thật Cơ Bản Hầu Hết Thời Gian, Nghiên Cứu Cho Thấy

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4806 từ

Tóm tắt - Năm mô hình AI tiên phong không đồng nhất với nhau ở 67% trong số 1.000 tuyên bố kiểm chứng thực tế. - Sự đồng thuận tuyệt đối chỉ xảy ra ở 328 tuyên bố. - Với chỉ số Krippendorff's alpha là 0,639, các mô hình này thấp hơn ngưỡng tin cậy 0,8. Hãy hỏi năm trong số các hệ thống AI tiên tiến nhất thế giới xem một tuyên bố có đúng hay không, và trong hai phần ba trường hợp, ít nhất một hệ thống sẽ đưa ra câu trả lời khác biệt. Đó là kết quả của một nghiên cứu mới được công bố trong tháng này bởi nhà nghiên cứu Kosta Jordanov tại Lenz Research. Nghiên cứu đã đưa GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search và Sonar Pro cùng 1.000 tuyên bố kiểm chứng thực tế được gửi bởi người dùng thực tế. Các mô hình phải chọn một trong bốn nhãn: true, mostly true, misleading hoặc false. Trên 672 trong số 1.000 tuyên bố, ít nhất một mô hình đã tách biệt khỏi đa số. Trong 34% trường hợp, sự bất đồng rất nghiêm trọng: một mô hình gọi tuyên bố là true trong khi mô hình khác gọi là false. "Đây không phải là các mục tiêu chuẩn với đáp án công khai—đây là những tuyên bố mà người dùng thực tế đã gửi để xác minh trên một nền tảng kiểm chứng thực tế," nghiên cứu viết. "Chỉ một nhóm phán quyết có thể đúng cho mỗi tuyên bố, vì vậy bất kỳ sự bất đồng nào giữa các mô hình đều có nghĩa là phán quyết của ít nhất một mô hình không nhất quán với nhãn trong hệ thống 4 nhóm này." Các nghiên cứu trước đây về AI hallucination đã chỉ ra rằng các chatbot tự bịa ra sự thật. Đó là một vấn đề. Đây là một vấn đề khác. Các mô hình không nhất thiết phải bịa đặt, chúng chỉ không thể đồng ý về các phán quyết thực tế cơ bản về cùng một tài liệu. Nghiên cứu đã sử dụng một thiết lập khiến các công ty AI khó có thể giải thích. Thay vì lấy các tuyên bố từ các bộ kiểm tra tiêu chuẩn—loại thường bị rò rỉ vào dữ liệu huấn luyện—các nhà nghiên cứu đã sử dụng các tuyên bố do người thật gửi đến nền tảng kiểm chứng thực tế của Lenz. "Hầu hết các tuyên bố này khó có khả năng xuất hiện trong bất kỳ kho dữ liệu huấn luyện nào kèm theo nhãn vàng—không có đáp án chuẩn để đối chiếu, không có bảng xếp hạng chuẩn để neo vào," bài báo lưu ý. Thước đo thống kê về sự đồng thuận, được gọi là Krippendorff’s alpha, đạt 0,639 trên thang điểm mà 1,0 có nghĩa là đồng thuận hoàn hảo và 0 có nghĩa là ngẫu nhiên. Nghiên cứu cho biết điều này cho thấy "sự đồng thuận không tầm thường nhưng hạn chế." "Các phán quyết của các mô hình có cấu trúc thay vì ngẫu nhiên, nhưng không đủ nhất quán để coi nhóm này là một thẩm phán có thể thay thế cho nhau," các nhà nghiên cứu lưu ý. Các nhà nghiên cứu thường coi bất kỳ giá trị nào dưới 0,8 là yếu. Khi cả năm mô hình đồng ý—điều chỉ xảy ra ở 328 trong số 1.000 tuyên bố—chúng hầu như không bao giờ đồng ý rằng điều gì đó là misleading hoặc mostly true. Chỉ có bốn tuyên bố nhận được phán quyết "misleading" đồng nhất. Không có tuyên bố nào nhận được "mostly true" đồng nhất. Các nhà nghiên cứu đã cung cấp các ví dụ về tuyên bố mà các mô hình AI cho thấy sự khác biệt lớn nhất, bao gồm "Danh mục đầu tư hoạt động của World Bank tại Nigeria đạt hơn 16,4 tỷ USD tính đến năm 2025." ChatGPT 5.4 cho biết đó là "mostly true" trong khi Gemini 3 Pro gọi đó là "false" và mô hình chị em của nó là Gemini 3 Pro + Search đánh giá là "misleading." Trong một ví dụ khác, các mô hình được cung cấp tuyên bố: "Donald Trump nói rằng một cuộc tấn công vào Iran đã bị hoãn lại theo yêu cầu của các đồng minh vùng Vịnh." GPT-5.4 cho biết đó là false, Claude Opus 4.7 gọi đó là mostly true, Gemini 3 Pro nói false, và Gemini 3 Pro + Search đánh giá là true. "Nhóm hội tụ ở các phán quyết dứt kho

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-05-26

Nghiên cứu phát hiện các cuộc tấn công bằng âm thanh không nghe được có thể chiếm quyền điều khiển các mô hình AI giọng nói

Độ tương đồng 180%關鍵字 models/study/can

2026-04-25

Nghiên cứu: Grok của Elon Musk nhiều khả năng nằm trong số các mô hình AI hàng đầu củng cố những ảo tưởng

Độ tương đồng 150%關鍵字 most/models/study

2026-05-28

3 Altcoins có thể đạt mức cao nhất mọi thời đại vào tháng 6 năm 2026

Độ tương đồng 130%關鍵字 can/time

2026-05-28