Setengah dari Saran Kesehatan AI Salah—Dan Terasa Sangat Tepat

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4981 kata

Singkatnya - Hampir separuh respons chatbot AI terhadap pertanyaan kesehatan dinilai "agak" atau "sangat" bermasalah dalam audit BMJ Open terhadap lima chatbot utama. - Grok menghasilkan respons yang "sangat bermasalah" secara signifikan lebih banyak daripada yang diharapkan secara statistik, sementara pertanyaan seputar nutrisi dan performa atletik memiliki hasil terburuk di semua model. - Tidak ada chatbot yang menghasilkan daftar referensi yang sepenuhnya akurat. Hampir separuh dari jawaban kesehatan dan medis yang diberikan oleh chatbot AI paling populer saat ini salah, menyesatkan, atau tidak lengkap secara berbahaya—dan semuanya disampaikan dengan penuh keyakinan. Itulah temuan utama dari studi baru yang ditinjau oleh rekan sejawat (peer-reviewed) yang diterbitkan pada 14 April di BMJ Open. Para peneliti dari UCLA, University of Alberta, dan Wake Forest menguji lima chatbot—Gemini, DeepSeek, Meta AI, ChatGPT, dan Grok—pada 250 pertanyaan kesehatan yang mencakup kanker, vaksin, sel punca, nutrisi, dan performa atletik. Hasilnya: 49,6% respons bermasalah. Tiga puluh persen "agak bermasalah," dan 19,6% "sangat bermasalah"—jenis jawaban yang mungkin dapat mengarahkan seseorang pada pengobatan yang tidak efektif atau berbahaya. Untuk melakukan uji stres pada model-model tersebut, tim menggunakan pendekatan adversarial—sengaja menyusun pertanyaan untuk mendorong chatbot memberikan saran yang buruk. Pertanyaan yang diajukan termasuk apakah 5G menyebabkan kanker, terapi alternatif mana yang lebih baik daripada kemoterapi, dan berapa banyak susu mentah yang harus diminum untuk manfaat kesehatan. "Secara default, chatbot tidak mengakses data waktu nyata (real-time) melainkan menghasilkan output dengan menyimpulkan pola statistik dari data pelatihan mereka dan memprediksi urutan kata yang mungkin," tulis para penulis. "Mereka tidak menalar atau menimbang bukti, mereka juga tidak mampu membuat penilaian etis atau berbasis nilai." Itulah masalah intinya. Chatbot tidak berkonsultasi dengan dokter—mereka melakukan pencocokan pola teks. Dan pencocokan pola di internet, di mana misinformasi menyebar lebih cepat daripada koreksi, menghasilkan output seperti ini. Para peneliti melanjutkan: "Keterbatasan perilaku ini berarti bahwa chatbot dapat mereproduksi respons yang terdengar otoritatif tetapi berpotensi cacat." Dari 250 pertanyaan, hanya dua yang memicu penolakan untuk menjawab—keduanya dari Meta AI, mengenai steroid anabolik dan pengobatan kanker alternatif. Setiap chatbot lainnya terus berbicara. Performa bervariasi berdasarkan topik. Vaksin dan kanker memiliki hasil terbaik—sebagian karena penelitian berkualitas tinggi mengenai subjek tersebut terstruktur dengan baik dan direproduksi secara luas secara daring. Nutrisi memiliki performa statistik terburuk dari kategori mana pun dalam studi tersebut, dengan performa atletik tepat di belakangnya. Jika Anda bertanya kepada AI apakah diet karnivora itu sehat, jawaban yang Anda dapatkan mungkin tidak didasarkan pada konsensus ilmiah. Grok menonjol karena alasan yang salah. Chatbot milik Elon Musk adalah yang berkinerja terburuk dari semua model yang diuji. Dari 50 responsnya, 29 (58%) dinilai bermasalah secara keseluruhan—pangsa tertinggi di antara kelima chatbot. Lima belas di antaranya (30%) sangat bermasalah, jauh lebih banyak daripada yang diharapkan di bawah distribusi acak. Para peneliti menghubungkan ini secara langsung dengan data pelatihan Grok: X adalah platform yang dikenal menyebarkan misinformasi kesehatan dengan cepat dan luas. Kutipan adalah bencana terpisah. Di semua model, skor kelengkapan median untuk referensi hanya 40%—dan tidak satu pun chatbot menghasilkan daftar referensi yang sepenuhnya akurat. Model berhalusinasi tentang penulis, jurnal, dan judul. DeepSeek bahkan mengakuinya: Model tersebut memberi tahu peneliti bahwa referensinya dihasilkan dari pola data pelatihan "dan mungkin tidak sesuai dengan sumber yang aktual dan dapat diverifikasi." Masalah keterbacaan memperburuk segalanya. Semua respons chatbot mendapat skor dalam kisaran "Sulit" pada skala Flesch Reading Ease—setara dengan tingkat mahasiswa tahun kedua hingga senior. Itu melebihi rekomendasi American Medical Association bahwa materi edukasi pasien tidak boleh melampaui tingkat membaca kelas enam. Dengan kata lain, chatbot ini menerapkan trik yang sama dengan yang cenderung dilakukan politisi dan pendebat profesional: menembaki Anda dengan begitu banyak kata teknis dalam waktu yang begitu singkat sehingga Anda akhirnya berpikir mereka tahu lebih banyak daripada yang sebenarnya. Semakin sulit sesuatu untuk dipahami, semakin mudah untuk disalahartikan. Temuan ini menggemakan studi Oxford Februari 2026 yang diliput oleh Decrypt yang menemukan bahwa saran medis AI tidak lebih baik daripada metode diagnosis

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset0 berita

Tidak ada peristiwa serupa yang ditemukan (memerlukan lebih banyak sampel data atau pencarian embedding, saat ini menggunakan pencocokan kata kunci MVP)

Informasi mentah

ID:b749804ab7

Sumber:Decrypt

Diterbitkan:2026-05-13 13:55:14

Kategori:Umum · Kategori ekspor neutral

Aset:Tidak ditentukan

Voting komunitas:+0 / −0 · ⭐ 0 Penting · 💬 0 Komentar