AIモデルは基本的な事実についてほとんどの場合一致できない、研究が示す

📄原文全文· trafilatura により自動抽出Gemini 翻譯4806 文字

要点 - 5つの最先端AIモデルは、1,000件の実際のファクトチェック主張のうち67%で意見が一致しなかった。 - 全会一致の合意はわずか328件の主張でのみ発生した。 - Krippendorff's alphaが0.639で、モデルは0.8の信頼性閾値を下回っている。世界で最も先進的なAIシステム5つに、ある記述が真実かどうか尋ねると、3分の2の確率で少なくとも1つは異なる答えを返す。これは、今月Lenz Researchの研究者Kosta Jordanovによって発表された新しい研究の結果である。この研究では、GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search、およびSonar Proに、実際のユーザーから提出された同じ1,000件の実世界のファクトチェック主張を与えた。モデルは4つのラベル（true、mostly true、misleading、またはfalse）のうち1つを選ばなければならなかった。 1,000件の主張のうち672件で、少なくとも1つのモデルが多数派から外れた。34%のケースでは、不一致は深刻であった。あるモデルが主張をtrueと呼んだ一方で、別のモデルはfalseと呼んだ。「これらは公開された解答キーを持つベンチマーク項目ではなく、実際のユーザーがファクトチェックプラットフォームに検証のために提出した主張である」と研究は述べている。「主張ごとに正しいverdictバケットは1つだけなので、パネル内の不一致は、この4バケットの評価基準の下で少なくとも1つのモデルのverdictがラベル不整合であることを意味する。」 AIのhallucinationに関する以前の研究では、チャットボットが事実を捏造することが示されていた。それは1つの問題である。これは別の問題である。モデルは必ずしも物事を作り上げているわけではなく、同じ素材について基本的な事実判断で合意できないだけである。この研究では、AI企業が言い逃れしにくいセットアップを使用した。標準的なテストセット（しばしば訓練データに漏れるもの）から主張を引き出す代わりに、研究者たちはLenzのファクトチェックプラットフォームに実際の人々が提出した主張を使用した。「これらの主張のほとんどは、ゴールドラベルが付いた訓練コーパスに出現する可能性は低く、パターンマッチングする標準的な解答キーも、基準とするベンチマークリーダーボードもない」と論文は指摘する。合意の統計的尺度であるKrippendorff's alphaは、1.0が完全な合意、0がランダムな偶然を意味するスケールで0.639だった。研究はこれが「些細ではないが限定的な合意」を示していると述べている。「モデルのverdictはランダムというよりは構造化されているが、パネルを単一の互換性のある判定者として扱うほど一貫していない」と研究者たちは指摘している。研究者たちは一般的に0.8未満のものを弱いとみなす。 5つのモデルがすべて合意した場合（1,000件中わずか328件でしか発生しなかった）、それらは何かがmisleadingまたはmostly trueであることにほぼ決して合意しなかった。わずか4件の主張が全会一致の「misleading」verdictを受けた。全会一致の「mostly true」を受けたものはゼロだった。研究者たちは、AIモデルが最も発散を示した主張の例を提供した。これには「The World Bank's active portfolio in Nigeria stands an over $16.4 billion as of 2025.」が含まれる。ChatGPT 5.4はこれを「mostly true」と述べ、Gemini 3 Proはこれを「false」と呼び、その姉妹モデルのGemini 3 Pro + Searchはこれを「misleading」と評価した。別の例では、モデルに次の主張が提供された：「Donald Trump said that an attack on Iran was postponed at the request of Gulf Allies.」GPT-5.4はfalseと述べ、Claude Opus 4.7はmostly trueと呼び、Gemini 3 Proはfalseと述べ、Gemini 3 Pro + Searchはtrueと評価した。「パネルは決定的なverdictで収束する。評価基準の中間部分こそ亀裂が生じる場所である」と研究者たちは発見した。全会一致は両極端でのみ起こった：主張が確実に真実か、確実に偽かのいずれかである。これが重要なのは、人々がファクトチェックのためにますますAIシステムに頼っているからである。ニュース記事からの主張をChatGPT、Claude、またはGeminiに貼り付けると、3つの異なる答えが返ってくる可能性がある。どれを信頼するべきか？ AI企業は、自社のモデルがより正確になっていると伝えるのが大好きだ。彼らは着実な改善を示すベンチマークスコアを発表する。しかしLenzの研究は、これらのモデルを、実際の人間が議論する種類の不揃いで曖昧な主張でテストし、モデルもまた議論することを発見した。論文はこの点を慎重に指摘している。「最先端モデルの多数派はground truthではない。多数派のverdictは時々間違っており、個々の反対するモデルは時々正しい。我々は多数派を不一致を測定するための構造的基準点として使用するが、正しさの代用としては使用しない。」数字の中に隠されたより深い問題がある。モデルが意見を異にする場合、少なくとも1つは間違っているはずである。研究はモデルのverdictを「この4バケットの評価基準の下でラベル不整合」と呼ぶ。タイブレーカーのメカニズムも、上訴裁判所もない。AIの信頼性に関する最近の報道は、同様の警鐘を鳴らしている。 5つのモデルすべてが合意した328件の主張のうち、全会一致で「mostly true」を受けたものはゼロだった。ニュアンスのバケットは完全に空になった。AIモデルが両極端でしかコンセンサスを見出せないなら、ファクトチェッカーとして信頼できるのだろうか？

データステータス✓ 全文抽出済み原文を読む（Decrypt）

🔍過去の類似イベント· キーワード + 銘柄照合6 件

2026-05-26

聞こえない音声攻撃がAI音声モデルを乗っ取る可能性、研究で判明

類似度 180%關鍵字 models/study/can

2026-04-25

Elon MuskのGrok、妄想を助長するAIモデルの筆頭である可能性：研究結果

類似度 150%關鍵字 most/models/study

2026-05-28

2026年6月に史上最高値を更新する可能性のある3つのアルトコイン

類似度 130%關鍵字 can/time

2026-05-28