Model AI Tidak Dapat Menyetujui Fakta Dasar Sebagian Besar Waktu, Studi Menunjukkan

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4806 kata

Singkatnya - Lima model AI terdepan tidak sepakat pada 67% dari 1.000 klaim pemeriksaan fakta dunia nyata. - Kesepakatan bulat hanya terjadi pada 328 klaim. - Dengan Krippendorff's alpha 0,639, model-model tersebut berada di bawah ambang batas keandalan 0,8. Tanyakan kepada lima sistem AI paling canggih di dunia apakah suatu pernyataan benar, dan dua per tiga waktunya, setidaknya satu akan memberi Anda jawaban yang berbeda. Itulah temuan studi baru yang diterbitkan bulan ini oleh peneliti Kosta Jordanov di Lenz Research. Studi ini memberikan GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search, dan Sonar Pro 1.000 klaim pemeriksaan fakta dunia nyata yang sama yang diajukan oleh pengguna sungguhan. Model-model tersebut harus memilih salah satu dari empat label: benar, sebagian besar benar, menyesatkan, atau salah. Pada 672 dari 1.000 klaim, setidaknya satu model berbeda dari mayoritas. Dalam 34% kasus, ketidaksepakatannya parah: satu model menyebut suatu klaim benar sementara yang lain menyebutnya salah. "Ini bukan item benchmark dengan kunci jawaban publik—ini adalah klaim yang diajukan pengguna sungguhan untuk verifikasi ke platform pemeriksaan fakta," demikian bunyi studi tersebut. "Hanya satu kategori putusan yang bisa benar per klaim, sehingga setiap ketidaksepakatan di antara panel berarti setidaknya satu putusan model tidak konsisten label di bawah rubrik 4-kategori ini." Studi-studi sebelumnya tentang halusinasi AI telah menunjukkan bahwa chatbot mengarang fakta. Itu satu masalah. Ini masalah yang berbeda. Model-model tersebut tidak selalu mengarang sesuatu, mereka hanya tidak bisa sepakat tentang penilaian faktual dasar atas materi yang sama. Penelitian ini menggunakan pengaturan yang membuat perusahaan AI lebih sulit untuk berdalih. Alih-alih mengambil klaim dari set uji standar—jenis yang sering bocor ke data pelatihan—para peneliti menggunakan klaim yang diajukan oleh orang sungguhan ke platform pemeriksaan fakta Lenz. "Sebagian besar klaim ini kemungkinan tidak muncul dalam korpus pelatihan mana pun dengan label emas terlampir—tidak ada kunci jawaban kanonik untuk dicocokkan polanya, tidak ada papan peringkat benchmark untuk dijadikan acuan," catat makalah tersebut. Ukuran statistik kesepakatan, yang disebut Krippendorff's alpha, mencapai 0,639 pada skala di mana 1,0 berarti kesepakatan sempurna dan 0 berarti peluang acak. Studi tersebut mengatakan ini menunjukkan "kesepakatan non-trivial tetapi terbatas." "Putusan model-model tersebut terstruktur daripada acak, tetapi tidak cukup konsisten untuk memperlakukan panel sebagai satu hakim yang dapat dipertukarkan," catat para peneliti. Para peneliti umumnya menganggap apa pun di bawah 0,8 sebagai lemah. Ketika kelima model memang sepakat—yang hanya terjadi pada 328 dari 1.000 klaim—mereka hampir tidak pernah sepakat bahwa sesuatu itu menyesatkan atau sebagian besar benar. Hanya empat klaim yang menerima putusan "menyesatkan" secara bulat. Nol yang menerima "sebagian besar benar" secara bulat. Para peneliti memberikan contoh klaim di mana model AI menunjukkan divergensi paling besar, termasuk "Portofolio aktif World Bank di Nigeria mencapai lebih dari $16,4 miliar pada tahun 2025." ChatGPT 5.4 mengatakan itu "sebagian besar benar" sementara Gemini 3 Pro menyebutnya "salah" dan model saudaranya Gemini 3 Pro + Search menilainya "menyesatkan." Dalam contoh lain, model-model tersebut diberikan klaim: "Donald Trump mengatakan bahwa serangan terhadap Iran ditunda atas permintaan Gulf Allies." GPT-5.4 mengatakan itu salah, Claude Opus 4.7 menyebutnya sebagian besar benar, Gemini 3 Pro mengatakan salah, dan Gemini 3 Pro + Search menilainya benar. "Panel berkonvergensi pada putusan yang definitif; bagian tengah rubrik adalah tempat ia terpecah," temuan para peneliti. Kebulatan suara hanya terjadi di titik ekstrem: entah klaim itu pasti benar atau pasti salah. Hal ini penting karena orang semakin banyak beralih ke sistem AI untuk pemeriksaan fakta. Jika Anda menempelkan klaim dari artikel berita ke ChatGPT, Claude, atau Gemini, Anda mungkin mendapatkan tiga jawaban berbeda. Mana yang Anda percaya? Perusahaan AI suka memberi tahu Anda bahwa model mereka semakin akurat. Mereka menerbitkan skor benchmark yang menunjukkan peningkatan yang stabil. Tetapi studi Lenz menguji model-model ini pada jenis klaim yang bergerigi dan ambigu yang sebenarnya diperdebatkan oleh manusia nyata—dan menemukan bahwa model-model tersebut juga berdebat. Makalah tersebut hati-hati untuk menunjukkan hal ini. "Mayoritas model terdepan bukanlah kebenaran dasar. Putusan mayoritas terkadang salah; satu model yang berbeda pendapat terkadang benar. Kami menggunakan mayoritas sebagai titik referensi struktural untuk mengukur ketidaksepakatan, bukan sebagai pengganti kebenaran." Ada masalah yang lebih dalam yang terkubur dalam angka-angka tersebut. Ketika model-model tidak sepakat, setidaknya salah satu dari mereka pasti salah—studi tersebut menyebut putusan model "tidak konsisten label di bawah rubrik 4-kategori ini." Tidak ada mekanisme pemecah seri, tidak ada pengadilan banding. Laporan terbaru tentang keandalan AI telah memunculkan alarm serupa. Pada 328 klaim di mana kelima model sepakat, nol menerima "sebagian besar benar" secara bulat. Kategori nuansa kosong sepenuhnya. Jika model AI hanya dapat menemukan konsensus pada titik ekstrem, dapatkah mereka dipercaya sebagai pemeriksa fakta sama sekali?

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-26

Studi Menemukan Serangan Audio yang Tidak Terdengar Dapat Membajak Model Suara AI

Tingkat kemiripan 180%關鍵字 models/study/can

2026-04-25

Studi: Grok Elon Musk Kemungkinan Besar Termasuk di Antara Model AI Teratas yang Memperkuat Delusi

Tingkat kemiripan 150%關鍵字 most/models/study

2026-05-28

3 Altcoin yang Bisa Mencapai All-Time High pada Juni 2026

Tingkat kemiripan 130%關鍵字 can/time

2026-05-28