Một nửa lời khuyên sức khỏe từ AI là sai—và có vẻ lại hoàn toàn đúng

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4981 từ

Tóm tắt - Gần một nửa số phản hồi của AI chatbot cho các câu hỏi về sức khỏe được đánh giá là "hơi" hoặc "rất" có vấn đề trong một cuộc kiểm tra của BMJ Open trên năm chatbot lớn. - Grok đưa ra số lượng phản hồi "rất có vấn đề" cao hơn đáng kể so với dự kiến về mặt thống kê, trong khi các câu hỏi về dinh dưỡng và hiệu suất thể thao có kết quả tệ nhất trên tất cả các mô hình. - Không có chatbot nào tạo ra danh sách tài liệu tham khảo hoàn toàn chính xác. Gần một nửa số câu trả lời về sức khỏe và y tế do các AI chatbot phổ biến nhất hiện nay cung cấp đều sai, gây hiểu lầm hoặc thiếu sót một cách nguy hiểm—và chúng được đưa ra với sự tự tin tuyệt đối. Đó là kết quả chính từ một nghiên cứu mới được bình duyệt công bố ngày 14 tháng 4 trên BMJ Open. Các nhà nghiên cứu từ UCLA, University of Alberta và Wake Forest đã thử nghiệm năm chatbot—Gemini, DeepSeek, Meta AI, ChatGPT và Grok—với 250 câu hỏi sức khỏe bao gồm ung thư, vắc-xin, tế bào gốc, dinh dưỡng và hiệu suất thể thao. Kết quả: 49,6% phản hồi có vấn đề. 30% là "hơi có vấn đề" và 19,6% là "rất có vấn đề"—loại câu trả lời có khả năng dẫn dắt ai đó đến các phương pháp điều trị không hiệu quả hoặc nguy hiểm. Để kiểm tra áp lực các mô hình, nhóm nghiên cứu đã sử dụng phương pháp đối kháng—cố tình đặt câu hỏi để thúc đẩy chatbot đưa ra lời khuyên tồi. Các câu hỏi bao gồm liệu 5G có gây ung thư không, liệu pháp thay thế nào tốt hơn hóa trị và nên uống bao nhiêu sữa tươi để có lợi cho sức khỏe. "Theo mặc định, chatbot không truy cập dữ liệu thời gian thực mà thay vào đó tạo ra kết quả đầu ra bằng cách suy luận các mô hình thống kê từ dữ liệu đào tạo của chúng và dự đoán các chuỗi từ có khả năng xảy ra," các tác giả viết. "Chúng không suy luận hay cân nhắc bằng chứng, cũng không có khả năng đưa ra các phán đoán về đạo đức hoặc giá trị." Đó là vấn đề cốt lõi. Các chatbot không tham khảo ý kiến bác sĩ—chúng đang khớp các mẫu văn bản. Và việc khớp mẫu trên internet, nơi thông tin sai lệch lan truyền nhanh hơn các đính chính, tạo ra chính xác loại kết quả này. Các nhà nghiên cứu tiếp tục: "Hạn chế về hành vi này có nghĩa là chatbot có thể tái tạo các phản hồi nghe có vẻ uy tín nhưng có khả năng bị lỗi." Trong số 250 câu hỏi, chỉ có hai câu dẫn đến việc từ chối trả lời—cả hai đều từ Meta AI, về steroid đồng hóa và các phương pháp điều trị ung thư thay thế. Mọi chatbot khác đều tiếp tục trả lời. Hiệu suất thay đổi tùy theo chủ đề. Vắc-xin và ung thư có kết quả tốt nhất—một phần vì nghiên cứu chất lượng cao về các chủ đề đó được cấu trúc tốt và được sao chép rộng rãi trực tuyến. Dinh dưỡng có hiệu suất thống kê tệ nhất trong bất kỳ danh mục nào trong nghiên cứu, với hiệu suất thể thao theo sát phía sau. Nếu bạn đã hỏi AI liệu chế độ ăn carnivore có tốt cho sức khỏe không, câu trả lời bạn nhận được có lẽ không dựa trên sự đồng thuận khoa học. Grok nổi bật vì những lý do sai lầm. Chatbot của Elon Musk là mô hình có hiệu suất tệ nhất trong số các mô hình được thử nghiệm. Trong số 50 phản hồi của nó, 29 (58%) được đánh giá là có vấn đề—tỷ lệ cao nhất trong cả năm chatbot. Mười lăm trong số đó (30%) là rất có vấn đề, cao hơn đáng kể so với dự kiến theo phân phối ngẫu nhiên. Các nhà nghiên cứu kết nối điều này trực tiếp với dữ liệu đào tạo của Grok: X là một nền tảng nổi tiếng với việc lan truyền thông tin sai lệch về sức khỏe một cách nhanh chóng và rộng rãi. Trích dẫn là một thảm họa riêng biệt. Trên tất cả các mô hình, điểm hoàn thiện trung bình cho các tài liệu tham khảo chỉ là 40%—và không một chatbot nào tạo ra danh sách tài liệu tham khảo hoàn toàn chính xác. Các mô hình đã tạo ra các tác giả, tạp chí và tiêu đề ảo. DeepSeek thậm chí còn thừa nhận điều đó: Mô hình này nói với các nhà nghiên cứu rằng các tài liệu tham khảo của

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản0 tin

Không tìm thấy sự kiện tương tự (cần thêm mẫu dữ liệu hoặc tìm kiếm embedding, hiện tại là đối chiếu từ khóa MVP)

Thông tin gốc

ID：b749804ab7

Nguồn：Decrypt

Đăng：2026-05-13 13:55:14

Danh mục：Chung · Danh mục xuất neutral

Tài sản：Chưa chỉ định

Bình chọn cộng đồng：+0 / −0 · ⭐ 0 quan trọng · 💬 0 bình luận