연구 결과에 따르면 AI 모델들은 대부분의 경우 기본적인 사실에 대해 의견을 일치시키지 못한다

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯4806 자

요약 - 5개의 프런티어 AI 모델이 1,000개의 실제 팩트체크 주장 중 67%에서 의견이 엇갈렸다. - 만장일치 합의는 단 328개 주장에서만 나타났다. - Krippendorff's alpha 0.639로, 모델들은 신뢰성 기준점인 0.8에 미치지 못한다. 세계에서 가장 발전된 AI 시스템 5개에게 어떤 진술이 사실인지 물어보면, 3분의 2의 경우 적어도 하나는 다른 답을 내놓을 것이다. 이는 Lenz Research의 연구자 Kosta Jordanov가 이번 달 발표한 새로운 연구의 결과다. 이 연구는 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search, 그리고 Sonar Pro에게 실제 사용자가 제출한 동일한 1,000개의 실제 팩트체크 주장을 제시했다. 모델들은 다음 네 가지 라벨 중 하나를 선택해야 했다: 사실(true), 대체로 사실(mostly true), 오해의 소지 있음(misleading), 거짓(false). 1,000개 주장 중 672개에서, 적어도 하나의 모델이 다수 의견에서 이탈했다. 34%의 경우에는 의견 차이가 심각했다: 한 모델이 어떤 주장을 사실이라고 한 반면 다른 모델은 거짓이라고 했다. "이것들은 공개된 정답 키가 있는 벤치마크 항목이 아니라, 실제 사용자가 팩트체크 플랫폼에 검증을 위해 제출한 주장들이다." 연구는 이렇게 설명한다. "각 주장당 오직 하나의 판정 버킷만이 정답이 될 수 있으므로, 패널 사이의 어떠한 불일치도 이 4-버킷 기준에서 적어도 한 모델의 판정이 라벨 일관성이 없음을 의미한다." AI 환각(hallucination)에 관한 이전 연구들은 챗봇이 사실을 지어낸다는 것을 보여줬다. 그것이 하나의 문제다. 이건 다른 문제다. 모델들이 반드시 사실을 지어내는 것은 아니지만, 같은 자료에 대한 기본적인 사실 판단조차 의견이 일치하지 않는다는 것이다. 이 연구는 AI 회사들이 변명하기 어렵게 만드는 설정을 사용했다. 보통 학습 데이터에 유출되는 표준 테스트 세트에서 주장을 가져오는 대신, 연구자들은 실제 사람들이 Lenz의 팩트체크 플랫폼에 제출한 주장을 사용했다. "이러한 주장 대부분은 정답이 부착된 어떤 학습 코퍼스에도 등장할 가능성이 낮다—패턴 매칭할 표준 정답 키도, 기준점으로 삼을 벤치마크 리더보드도 없다."고 논문은 지적한다. 합의에 대한 통계적 척도인 Krippendorff's alpha는 0.639로 나왔는데, 이 척도에서 1.0은 완벽한 합의를, 0은 무작위 확률을 의미한다. 연구는 이것이 "사소하지 않지만 제한적인 합의"를 나타낸다고 말한다. "모델들의 판정은 무작위가 아니라 구조화되어 있지만, 패널을 단일한 상호 교환 가능한 판단자로 취급하기에 충분히 일관적이지 않다"고 연구자들은 지적한다. 연구자들은 일반적으로 0.8 미만은 약하다고 본다. 다섯 모델 모두가 동의했을 때—1,000개 주장 중 단 328개에서만 발생했다—그들은 거의 어떤 것이 오해의 소지가 있거나 대체로 사실이라는 데 동의하지 않았다. 단 4개의 주장만이 만장일치 "오해의 소지 있음" 판정을 받았다. 만장일치 "대체로 사실"은 0개였다. 연구자들은 AI 모델들이 가장 큰 의견 차이를 보인 예시 주장들을 제공했는데, 여기에는 "World Bank의 Nigeria 활성 포트폴리오는 2025년 기준 164억 달러를 넘어선다."가 포함된다. ChatGPT 5.4는 "대체로 사실"이라고 했지만 Gemini 3 Pro는 "거짓"이라고 했고, 자매 모델인 Gemini 3 Pro + Search는 "오해의 소지 있음"으로 평가했다. 또 다른 예에서, 모델들에게 다음 주장이 제공되었다: "Donald Trump는 Iran에 대한 공격이 Gulf Allies의 요청으로 연기되었다고 말했다." GPT-5.4는 거짓이라고 했고, Claude Opus 4.7은 대체로 사실이라고 했으며, Gemini 3 Pro는 거짓이라고 했고, Gemini 3 Pro + Search는 사실이라고 평가했다. "패널은 명확한 판정에 수렴한다; 기준의 중간 부분이 바로 분열이 일어나는 곳이다."라고 연구자들은 발견했다. 만장일치는 양극단에서만 발생했다: 주장이 명백히 사실이거나 명백히 거짓일 때. 이것이 중요한 이유는 사람들이 사실 확인을 위해 점점 더 AI 시스템에 의존하고 있기 때문이다. 뉴스 기사의 주장을 ChatGPT, Claude, 또는 Gemini에 붙여넣으면 세 가지 다른 답을 얻을 수 있다. 어느 것을 믿을 것인가? AI 회사들은 자사 모델이 점점 더 정확해지고 있다고 말하기를 좋아한다. 그들은 꾸준한 개선을 보여주는 벤치마크 점수를 발표한다. 하지만 Lenz 연구는 이 모델들을 실제 인간들이 실제로 논쟁하는 종류의 들쭉날쭉하고 모호한 주장으로 시험했고—모델들도 논쟁한다는 것을 발견했다. 논문은 이 점을 신중히 지적한다. "프런티어 모델들의 다수 의견은 정답(ground truth)이 아니다. 다수 판정은 때때로 틀리고, 반대 의견을 낸 개별 모델이 때때로 옳다. 우리는 다수 의견을 의견 차이를 측정하기 위한 구조적 참조점으로 사용하는 것이지, 정답의 대체물로 사용하는 것이 아니다." 숫자 속에 더 깊은 문제가 묻혀 있다. 모델들이 의견을 달리할 때, 적어도 하나는 틀려야 한다—연구는 모델의 판정을 "이 4-버킷 기준에서 라벨 일관성이 없다"고 부른다. 동점을 깰 메커니즘도, 상소 법원도 없다. AI 신뢰성에 관한 최근 보도는 비슷한 경고를 제기했다. 다섯 모델 모두가 동의한 328개 주장에서, 만장일치 "대체로 사실"은 0개였다. 뉘앙스 버킷이 완전히 비어버렸다. AI 모델들이 오직 양극단에서만 합의에 도달할 수 있다면, 그것들을 팩트 체커로 신뢰할 수 있겠는가?

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)

🔍과거 유사 사건· 키워드 + 종목 매칭6 건

2026-05-26

들리지 않는 오디오 공격이 AI 음성 모델을 탈취할 수 있다고 연구는 밝혔다

유사도 180%關鍵字 models/study/can

2026-04-25

연구 결과: Elon Musk의 Grok, 망상을 강화할 가능성이 가장 높은 AI 모델 중 하나

유사도 150%關鍵字 most/models/study

2026-05-28

2026년 6월 사상 최고가를 기록할 수 있는 알트코인 3종

유사도 130%關鍵字 can/time

2026-05-28