要闻列表DeepSeek-R1 的幻觉率是 V3 的 4 倍,为 Crypto AI Agent Tokens 敲响了警钟
BeInCrypto2026-05-11 19:03:07

DeepSeek-R1 的幻觉率是 V3 的 4 倍,为 Crypto AI Agent Tokens 敲响了警钟

ORIGINALDeepSeek-R1 Hallucinates 4x More Than V3, Raising Red Flags for Crypto AI Agent Tokens
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4126 字
根据 Vectara 的 HHEM 2.1 基准测试,中国实验室 DeepSeek 推出的旗舰推理模型 DeepSeek-R1 的幻觉率为 14.3%。这几乎是其非推理前身 DeepSeek-V3(3.9%)的四倍。 这一差距为加密货币领域提出了严峻的问题。目前,一类快速增长的 AI agent 代币正依赖推理型 LLM 进行自主交易、信号分析和链上执行。 Vectara 数据显示 R1 因“过度帮助”而产生虚假事实 Vectara 使用其专门的幻觉评估框架 HHEM 2.1 对两款 DeepSeek 模型进行了测试。该团队还使用 Google 的 FACTS 方法对结果进行了交叉核对。在每一项测试配置中,R1 产生的虚假或无根据陈述都比 V3 多。 原因不仅仅在于推理深度。Vectara 的分析师发现,R1 倾向于“过度帮助”。该模型会添加源文本中并未出现的信息。 这些添加的细节即使本身在事实上是正确的,仍会被计入幻觉。这种行为将虚构的上下文混入原本合理的回答中。 Vectara 在 X 上的一篇公开帖子中直接陈述了这一发现。 “DeepSeek-R1 的幻觉率为 14.3%,几乎是 DeepSeek-V3 的 4 倍,”Vectara 在帖子中指出。 这种模式并非 DeepSeek 所独有。行业追踪者注意到,其他实验室的推理训练模型也存在同样的权衡。强化学习在强化思维链的同时,也奖励了更大胆、更自信的生成结果。 为什么加密货币 AI 代币面临这种权衡 加密货币市场目前拥有数百种 AI agent 代币,以 Virtuals Protocol (VIRTUAL)、ai16z (AI16Z) 和 aixbt (AIXBT) 为首。 该类别在最近 30 天内实现了约 39.4% 的增长。仅 Virtuals 的市值就已超过 5.76 亿美元。 这些 agent 大多将大语言模型封装在工具中。这些工具使 agent 能够发布社交媒体内容、路由交易、铸造代币或生成市场评论。 当底层模型虚构价格水平、合作伙伴关系或合约地址时,后果可能会直接影响链上。 BeInCrypto 对 AIXBT 的一项分析显示,该 agent 曾推广过 416 种代币,平均回报率为 19%。然而,同样的表面机制也意味着当模型出错时,追随者会面临错误的决策。 风险面随自主性而扩大。仅用于总结情绪的只读型 agent 与持有金库密钥的 agent 相比,其风险程度截然不同。 对于需要跨多个步骤进行规划的 agent 而言,推理模型尤其具有吸引力。但这也是 Vectara 14.3% 的数据影响最严重的使用场景。 思维链早期的一个幻觉事实可能会传播到后续的每一个操作中。 LeCun 认为问题在于架构 Meta 的首席 AI 科学家 Yann LeCun 长期以来一直认为,自回归 LLM 无法完全摆脱幻觉。在他看来,该架构本身缺乏任何对世界的扎实模型。 对思维链进行强化学习可以在数学和编码等狭窄领域掩盖这一问题。然而,根本原因依然存在。 其他前沿实验室则持不同意见。他们指出,通过检索增强、训练后微调和验证器模型,基准幻觉率正在稳步改善。然而,开发者的报告往往与排行榜数据相吻合。 AI 研究员 xlr8harder 在 X 上撰文描述了与 R1 的调试过程,总结了日常体验。 “DeepSeek R1 对其思维轨迹的整合理解很有趣……所以它默认用幻觉来对我进行煤气灯效应式的误导,”他们表示。 对于加密货币 agent 开发者来说,实际问题是风险管理,而非架构哲学。将模型的每一项主张都通过验证步骤的设计可能会表现得更好。 对于那些在金融操作中依赖更小、更保守模型的 agent 来说也是如此。 下一个排行榜周期和 R1 的最终继任者将证明推理与准确性之间的权衡是否正在缩小。 目前,14.3% 和 3.9% 之间的差距是一个值得关注的运营细节。它可能将那些交付实际产品的 AI agent 代币与那些仅交付承诺的代币区分开来。
数据状态✓ 已抓取全文阅读原文(BeInCrypto)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:c7213aac49
来源:BeInCrypto
发布:2026-05-11 19:03:07
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言