要闻列表AI模型大多数时候连基本事实都无法达成一致,研究显示
Decrypt2026-05-29 16:26:24

AI模型大多数时候连基本事实都无法达成一致,研究显示

ORIGINALAI Models Can’t Agree on Basic Facts Most of the Time, Study Shows
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4806 字
简而言之 - 五款前沿 AI 模型在 1,000 条真实世界事实核查声明中有 67% 存在分歧。 - 五款模型一致同意的声明仅 328 条。 - Krippendorff's alpha 为 0.639,低于 0.8 的可靠性阈值。 向五款全球最先进的 AI 系统询问一个陈述是否属实,三分之二的情况下,至少有一款会给出不同答案。这是 Lenz Research 研究员 Kosta Jordanov 本月发表的一项新研究的发现。 该研究向 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search 和 Sonar Pro 提供了同样的 1,000 条由真实用户提交的现实世界事实核查声明。模型必须从四个标签中选择一个:真实、大致真实、误导性或虚假。 在 1,000 条声明中的 672 条上,至少有一款模型偏离了多数意见。在 34% 的情况下,分歧极为严重:一款模型称某声明为真,而另一款则称其为假。 "这些并不是带有公开答案的基准测试题——它们是真实用户提交到事实核查平台进行核实的声明,"研究中写道。"每条声明只有一个判定结果是正确的,因此评审小组中的任何分歧都意味着在这个四分类标准下,至少有一款模型的判定与标签不一致。" 此前关于 AI 幻觉的研究表明,聊天机器人会编造事实。那是一个问题。这是另一个问题。模型不一定是在编造内容,它们只是无法就同一材料的基本事实判断达成一致。 该研究采用的设置使 AI 公司更难为此辩解。研究人员没有从标准测试集中抽取声明——那种集合通常会泄漏到训练数据中——而是使用了真实用户提交到 Lenz 事实核查平台的声明。"这些声明大多数不太可能出现在任何带有标准答案标签的训练语料中——没有可供模式匹配的权威答案,也没有可供锚定的基准排行榜,"论文指出。 被称为 Krippendorff's alpha 的一致性统计指标得分为 0.639,其量表中 1.0 代表完全一致,0 代表随机概率。研究称这表明"具有非平凡但有限的一致性"。"模型的判定是有结构的而非随机的,但并不足够一致,无法将该评审小组视为单一可互换的裁判,"研究人员指出。研究人员通常认为任何低于 0.8 的得分都属于弱一致性。 当五款模型确实达成一致时——这种情况仅在 1,000 条声明中的 328 条上发生——它们几乎从未一致认定某事物是误导性或大致真实的。仅有四条声明获得了一致的"误导性"判定。零条获得一致的"大致真实"判定。 研究人员提供了 AI 模型分歧最大的示例声明,包括"截至 2025 年,World Bank 在 Nigeria 的活跃投资组合超过 164 亿美元。" ChatGPT 5.4 称其"大致真实",而 Gemini 3 Pro 称其"虚假",其姊妹模型 Gemini 3 Pro + Search 则评为"误导性"。 在另一个示例中,模型被提供以下声明:"Donald Trump 表示,应海湾盟友的请求,对 Iran 的攻击被推迟。" GPT-5.4 称其为假,Claude Opus 4.7 称其大致真实,Gemini 3 Pro 称其为假,而 Gemini 3 Pro + Search 则评为真。 "该评审小组在明确的判定上趋于一致;评判标准的中间地带是其分裂之处,"研究人员发现。一致性仅出现在两个极端:要么声明绝对真实,要么绝对虚假。 这件事至关重要,因为人们越来越多地求助于 AI 系统进行事实核查。如果你将一篇新闻文章中的声明粘贴到 ChatGPT、Claude 或 Gemini 中,你可能会得到三个不同的答案。你信任哪一个? AI 公司喜欢告诉你他们的模型变得越来越准确。他们发布显示稳步改进的基准测试分数。但 Lenz 的研究在那种参差不齐、模棱两可、真实人类实际会争论的声明上测试了这些模型——结果发现模型也在争论。 论文谨慎地指出了这一点。"前沿模型的多数意见并非真理。多数判定有时是错误的;个别持异议的模型有时是正确的。我们将多数意见用作衡量分歧的结构性参考点,而非正确性的替代品。" 数字背后埋藏着一个更深层的问题。当模型出现分歧时,至少有一款必定是错的——该研究将这种模型判定称为"在此四分类标准下与标签不一致"。没有打破平局的机制,没有上诉法院。最近关于 AI 可靠性的报道也提出了类似的警告。 在五款模型全部一致的 328 条声明中,零条获得了一致的"大致真实"判定。微妙的中间分类完全空了出来。如果 AI 模型只能在极端情况下达成共识,它们究竟能否被信任作为事实核查者?
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:db98d54f54
来源:Decrypt
发布:2026-05-29 16:26:24
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言