要聞列表AI 模型在多數情況下無法對基本事實達成共識,研究顯示
Decrypt2026-05-29 16:26:24

AI 模型在多數情況下無法對基本事實達成共識,研究顯示

ORIGINALAI Models Can’t Agree on Basic Facts Most of the Time, Study Shows
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4806 字
簡要摘要 - 五個前沿 AI 模型在 1,000 則真實世界事實查核聲明中,有 67% 出現分歧。 - 一致同意的情況僅出現在 328 則聲明上。 - Krippendorff's alpha 為 0.639,這些模型低於 0.8 的可靠度門檻。 詢問五個全球最先進的 AI 系統某項陳述是否屬實,有三分之二的時候,至少會有一個給你不同的答案。這是 Lenz Research 研究員 Kosta Jordanov 本月發表的一項新研究所得出的結論。 該研究將 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search 與 Sonar Pro 同時投入相同的 1,000 則由實際使用者提交的真實世界事實查核聲明。這些模型必須從四個標籤中擇一:屬實、大致屬實、誤導、或不實。 在 1,000 則聲明中,有 672 則至少有一個模型偏離多數意見。在 34% 的案例中,分歧十分嚴重:一個模型認定某項聲明屬實,另一個卻認定為不實。 「這些並非附有公開答案金鑰的基準測試題目——它們是真實使用者提交到事實查核平台進行驗證的聲明,」研究中寫道。「每則聲明只可能有一個正確的判定類別,所以小組內任何分歧都意味著至少有一個模型的判定在這套四類評分標準下是標籤不一致的。」 過去關於 AI 幻覺的研究已顯示,聊天機器人會捏造事實。那是一個問題。這是另一個問題。模型不見得在編造內容,它們只是無法就同一份材料的基本事實判斷達成一致。 該研究採用了一種讓 AI 公司更難搪塞的設置。研究人員並未從常被洩漏到訓練資料的標準測試集中抽取聲明,而是使用了真實民眾提交到 Lenz 事實查核平台的聲明。「這些聲明中大多數不太可能出現在任何附有黃金標籤的訓練語料庫中——沒有規範性的答案金鑰可供模式匹配,也沒有基準排行榜可供錨定,」論文指出。 衡量一致性的統計指標 Krippendorff's alpha 為 0.639,在這個量表上 1.0 代表完全一致,0 代表隨機機率。研究表示這顯示「具有非微不足道但有限的一致性」。「這些模型的判定是有結構性的,而非隨機,但仍不夠一致到能將整個小組視為一個可互換的單一裁判,」研究人員指出。研究人員一般認為低於 0.8 即為薄弱。 當五個模型確實達成一致時——這只發生在 1,000 則聲明中的 328 則——它們幾乎從不一致認定某事為誤導或大致屬實。只有四則聲明獲得一致的「誤導」判定。零則獲得一致的「大致屬實」。 研究人員提供了 AI 模型分歧最大的範例聲明,包括「截至 2025 年,The World Bank 在 Nigeria 的活躍投資組合金額超過 164 億美元。」ChatGPT 5.4 認為「大致屬實」,而 Gemini 3 Pro 判定為「不實」,其姊妹模型 Gemini 3 Pro + Search 則評為「誤導」。 另一個例子中,模型收到的聲明是:「Donald Trump 表示因 Gulf Allies 的要求而推遲對 Iran 的攻擊。」GPT-5.4 認為不實,Claude Opus 4.7 認為大致屬實,Gemini 3 Pro 認為不實,Gemini 3 Pro + Search 則評為屬實。 「小組在絕對性的判定上收斂;而在評分標準的中間地帶則出現裂痕,」研究人員發現。一致同意只發生在兩個極端:要麼該聲明絕對屬實,要麼絕對不實。 這之所以重要,是因為人們越來越仰賴 AI 系統來查核事實。如果你把新聞報導中的某項聲明貼進 ChatGPT、Claude 或 Gemini,你可能會得到三種不同的答案。你該相信哪一個? AI 公司喜歡告訴你它們的模型越來越準確。它們發布顯示穩定進步的基準分數。但 Lenz 的研究是用真實人類確實會爭論的那種參差不齊、模糊不清的聲明來測試這些模型——結果發現模型也在爭論。 該論文謹慎地指出了這一點。「前沿模型的多數意見並非真理基準。多數判定有時是錯的;個別持異議的模型有時是對的。我們將多數意見作為衡量分歧的結構性參考點,而非作為正確性的替代品。」 數字背後還埋藏著一個更深層的問題。當模型出現分歧時,至少其中一個必定是錯的——研究將某模型的判定稱為「在這套四類評分標準下標籤不一致」。沒有打破平局的機制,沒有上訴法院。近期關於 AI 可靠性的報導也提出了類似的警訊。 在五個模型全部一致同意的 328 則聲明中,零則獲得一致的「大致屬實」。微妙細緻的那個類別徹底空了。如果 AI 模型只能在極端處達成共識,它們究竟能否被信任為事實查核者?
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:db98d54f54
來源:Decrypt
發佈:2026-05-29 16:26:24
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言