AI가 제공하는 건강 조언의 절반은 틀렸지만, 매우 그럴듯해 보인다

요약 - BMJ Open이 5개의 주요 챗봇을 대상으로 실시한 감사 결과, AI 챗봇의 건강 관련 질문 답변 중 절반 가까이가 "다소" 또는 "매우" 문제가 있는 것으로 평가되었습니다. - Grok은 통계적으로 예상되는 것보다 훨씬 더 많은 "매우 문제 있는" 답변을 내놓았으며, 영양 및 운동 능력 관련 질문에서 모든 모델이 가장 저조한 성적을 보였습니다. - 어떤 챗봇도 완전히 정확한 참고 문헌 목록을 제시하지 못했습니다. 오늘날 가장 인기 있는 AI 챗봇이 제공하는 건강 및 의학 답변 중 절반 가까이가 틀렸거나, 오해의 소지가 있거나, 위험할 정도로 불완전하며, 이 모든 답변은 매우 자신감 있는 어조로 전달됩니다. 이는 4월 14일 BMJ Open에 게재된 새로운 동료 심사 연구의 핵심 결과입니다. UCLA, University of Alberta, Wake Forest의 연구진은 Gemini, DeepSeek, Meta AI, ChatGPT, Grok 등 5개 챗봇을 대상으로 암, 백신, 줄기세포, 영양, 운동 능력 등 5가지 분야의 건강 관련 질문 250개를 테스트했습니다. 결과는 충격적이었습니다. 답변의 49.6%가 문제가 있었습니다. 30%는 "다소 문제가 있음", 19.6%는 "매우 문제가 있음"으로 분류되었는데, 이는 누군가를 비효율적이거나 위험한 치료법으로 이끌 수 있는 수준의 답변입니다. 모델의 스트레스 테스트를 위해 연구팀은 적대적 접근 방식을 사용했습니다. 즉, 챗봇이 잘못된 조언을 하도록 의도적으로 질문을 구성한 것입니다. 질문에는 5G가 암을 유발하는지, 화학 요법보다 나은 대안 치료법은 무엇인지, 건강상의 이점을 위해 생우유를 얼마나 마셔야 하는지 등이 포함되었습니다. 저자들은 "기본적으로 챗봇은 실시간 데이터에 접근하는 것이 아니라 학습 데이터에서 통계적 패턴을 추론하고 확률이 높은 단어 시퀀스를 예측하여 결과를 생성합니다"라고 기술했습니다. "챗봇은 추론하거나 증거를 평가하지 않으며, 윤리적 또는 가치 기반의 판단을 내릴 수도 없습니다." 이것이 핵심 문제입니다. 챗봇은 의사와 상담하는 것이 아니라 텍스트 패턴을 매칭하는 것입니다. 그리고 수정 사항보다 잘못된 정보가 더 빠르게 퍼지는 인터넷상의 패턴을 매칭하면 정확히 이런 결과가 나옵니다. 연구진은 다음과 같이 덧붙였습니다. "이러한 행동적 한계는 챗봇이 권위 있는 것처럼 들리지만 잠재적으로 결함이 있는 답변을 재생산할 수 있음을 의미합니다." 250개의 질문 중 답변을 거부한 사례는 단 두 건뿐이었으며, 모두 Meta AI가 동화작용 스테로이드와 대안 암 치료법에 대해 답변을 거부한 경우였습니다. 나머지 모든 챗봇은 계속해서 답변을 내놓았습니다. 성능은 주제별로 차이가 있었습니다. 백신과 암 관련 질문은 가장 좋은 성적을 거두었는데, 이는 해당 주제에 대한 고품질 연구가 잘 구조화되어 있고 온라인에 널리 퍼져 있기 때문입니다. 영양은 연구된 모든 범주 중 통계적으로 가장 낮은 성적을 보였고, 운동 능력이 그 뒤를 이었습니다. 만약 AI에게 육식 위주의 식단(carnivore diet)이 건강에 좋은지 물어봤다면, 얻은 답변은 과학적 합의에 근거하지 않았을 가능성이 높습니다. Grok은 부정적인 의미에서 두드러졌습니다. Elon Musk의 챗봇은 테스트된 모든 모델 중 가장 낮은 성능을 보였습니다. 50개의 답변 중 29개(58%)가 전반적으로 문제가 있는 것으로 평가되어 5개 챗봇 중 가장 높은 비율을 기록했습니다. 그중 15개(30%)는 매우 문제가 있는 답변이었으며, 이는 무작위 분포에서 예상되는 것보다 훨씬 높은 수치입니다. 연구진은 이를 Grok의 학습 데이터와 직접적으로 연결합니다. X는 건강 관련 잘못된 정보가 빠르고 광범위하게 퍼지는 것으로 알려진 플랫폼이기 때문입니다. 참고 문헌은 별개의 재앙이었습니다. 모든 모델에서 참고 문헌의 중앙값 완성도는 40%에 불과했으며, 어떤 챗봇도 완전히 정확한 참고 문헌 목록을 생성하지 못했습니다. 모델들은 저자, 저널, 제목을 환각(hallucination)으로 만들어냈습니다. DeepSeek조차