一半的 AI 健康建議是錯誤的——而且看起來恰到好處

简讯 - 在 BMJ Open 对五大主流聊天机器人进行的一项审计中，近半数针对健康问题的 AI 聊天机器人回答被评为“有些”或“高度”存在问题。 - Grok 产生“高度存在问题”回答的数量显著高于统计预期，而所有模型在营养和运动表现相关问题上的表现最差。 - 没有一个聊天机器人能提供完全准确的参考文献列表。当今最流行的 AI 聊天机器人所提供的健康和医疗答案中，近半数是错误、误导性或危险地不完整的——而且它们在回答时表现得极其自信。这是 4 月 14 日发表在 BMJ Open 上的一项同行评审研究得出的主要结论。来自 UCLA、University of Alberta 和 Wake Forest 的研究人员测试了五个聊天机器人——Gemini、DeepSeek、Meta AI、ChatGPT 和 Grok，涵盖了癌症、疫苗、干细胞、营养和运动表现等 250 个健康问题。结果显示：49.6% 的回答存在问题。其中 30% 为“有些存在问题”，19.6% 为“高度存在问题”——这类回答可能会诱导人们采取无效或危险的治疗方法。为了对这些模型进行压力测试，研究团队采用了对抗性方法——故意通过措辞引导聊天机器人给出糟糕的建议。问题包括 5G 是否会导致癌症、哪些替代疗法比化疗更好，以及为了健康应该喝多少生乳。 “默认情况下，聊天机器人并不访问实时数据，而是通过从训练数据中推断统计模式并预测可能的词序来生成输出，”作者写道，“它们不会推理或权衡证据，也无法做出道德或基于价值的判断。” 这就是核心问题所在。聊天机器人并不是在咨询医生，而是在进行文本模式匹配。而在互联网上，错误信息传播的速度远快于纠正信息，这种模式匹配产生的结果正是如此。研究人员继续指出：“这种行为局限性意味着聊天机器人可能会复制听起来权威但可能存在缺陷的回答。”在 250 个问题中，只有两个问题促使模型拒绝回答——均来自 Meta AI，涉及合成代谢类固醇和替代癌症疗法。其他所有聊天机器人都在继续回答。表现因主题而异。疫苗和癌症类问题的表现最好，部分原因是关于这些主题的高质量研究结构清晰且在网上被广泛转载。营养学是研究中统计表现最差的类别，运动表现紧随其后。如果你一直在问 AI 肉食饮食（carnivore diet）是否健康，你得到的答案很可能并非基于科学共识。 Grok 因负面原因脱颖而出。Elon Musk 的聊天机器人是所有测试模型中表现最差的。在其 50 个回答中，有 29 个（58%）被评为总体存在问题，这是所有五个聊天机器人中比例最高的。其中 15 个（30%）属于高度存在问题，显著高于随机分布下的预期。研究人员将其直接与 Grok 的训练数据联系起来：X 是一个以快速、广泛传播健康错误信息而闻名的平台。引用来源是另一场灾难。在所有模型中，参考文献的完整性得分中位数仅为 40%——没有一个聊天机器人能提供完全准确的参考文献列表。模型虚构了作者、期刊和标题。DeepSeek 甚至承认了这一点：该模型告诉研究人员，其参考文献是根据训练数据模式生成的，“可能与实际、可验证的来源不符”。可读性问题加剧了所有其他问题。所有聊天机器人的回答在 Flesch Reading Ease 量表上均处于“困难”范围，相当于大学二年级到四年级的水平。这超过了 American Medical Association 的建议，即患者教育材料不应超过六年级的阅读水平。换句话说，这些聊天机器人运用了政客和专业辩论者常用的那种伎俩：在极短时间内向你抛出大量专业术语，让你最终认为他们比实际知道的更多。内容越难理解，就越容易被曲解。这些发现呼应了 Decrypt 报道的 2026 年 2 月的一项 Oxford 研究，该研究发现 AI 医疗建议并不比传统的自我诊断方法更好。它们也与人们对 AI 聊天机器人根据问题提问方式提供不一致指导的更广泛担忧相吻合。 “随着 AI 聊天机器人的使用不断扩大，我们的数据强调了进行公众教育、专业培训和监管监督的必要性，以确保生成式 AI 支持而非侵蚀公共健康，”作者总结道。该研究仅测试了五个免费版聊天机器人，且对抗性提示方法可能会夸大现实世界中的失败率。但作者直言不讳：问题不在