要聞列表DeepSeek-R1 的幻覺率比 V3 高出 4 倍,為 Crypto AI Agent Tokens 敲響警鐘
BeInCrypto2026-05-11 19:03:07

DeepSeek-R1 的幻覺率比 V3 高出 4 倍,為 Crypto AI Agent Tokens 敲響警鐘

ORIGINALDeepSeek-R1 Hallucinates 4x More Than V3, Raising Red Flags for Crypto AI Agent Tokens
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4126 字
根據 Vectara 的 HHEM 2.1 基準測試,中國實驗室 DeepSeek 推出的旗艦推理模型 DeepSeek-R1 的幻覺率為 14.3%。這幾乎是其非推理前身 DeepSeek-V3(得分 3.9%)的四倍。 這一差距為加密貨幣領域帶來了嚴峻的問題。目前,一類快速成長的 AI agent 代幣正依賴推理型 LLM 進行自動化交易、訊號分析及鏈上執行。 Vectara 數據顯示 R1 因「過度協助」而產生錯誤事實 Vectara 使用其專門的幻覺評估框架 HHEM 2.1 對兩款 DeepSeek 模型進行了測試。該團隊還使用 Google 的 FACTS 方法對結果進行了交叉驗證。在每一項測試配置中,R1 產生的錯誤或無根據陳述都比 V3 多。 原因不僅僅在於推理深度。Vectara 的分析師發現 R1 傾向於「過度協助」(overhelp)。該模型會添加原始文本中並未出現的資訊。 這些添加的細節即使本身在事實上是正確的,仍會被視為幻覺。這種行為將虛構的背景資訊偷偷塞進原本合理的回答中。 Vectara 在 X 上的一篇公開貼文中直接指出了這一發現。 「DeepSeek-R1 的幻覺率為 14.3%,比 DeepSeek-V3 高出近 4 倍,」Vectara 在貼文中指出。 這種模式並非 DeepSeek 所獨有。產業追蹤機構指出,其他實驗室的推理訓練模型也存在同樣的權衡。強化學習在強化思維鏈(chain-of-thought)的同時,也獎勵了更大膽、更自信的生成結果。 為何加密貨幣 AI 代幣面臨這種權衡 加密貨幣市場目前擁有數百種 AI agent 代幣,以 Virtuals Protocol (VIRTUAL)、ai16z (AI16Z) 和 aixbt (AIXBT) 為首。 該類別在最近 30 天內實現了約 39.4% 的成長。僅 Virtuals 的市值就已超過 5.76 億美元。 這些 agent 大多將大型語言模型封裝在工具中。這些工具使 agent 能夠在社群媒體上發文、引導交易、鑄造代幣或生成市場評論。 當底層模型虛構價格水準、合作夥伴關係或合約地址時,後果可能會直接影響鏈上。 BeInCrypto 對 AIXBT 的一項分析顯示,該 agent 曾推廣過 416 種代幣,平均報酬率為 19%。然而,當模型出錯時,同樣的表面機制也會讓追隨者面臨錯誤決策的風險。 風險程度隨自主性而擴大。僅用於總結情緒的唯讀型 agent,其風險與持有金庫密鑰的 agent 完全不同。 對於需要跨多步驟規劃的 agent 而言,推理模型特別具有吸引力。這也是 Vectara 14.3% 的數據影響最嚴重的應用場景。 思維鏈早期的一個幻覺事實,可能會傳導至後續的每一個操作中。 LeCun 認為問題在於架構 Meta 的首席 AI 科學家 Yann LeCun 長期以來一直主張,自回歸 LLM 無法完全擺脫幻覺。在他看來,該架構本身缺乏任何紮實的世界模型。 針對思維鏈進行的強化學習可以在數學和程式設計等狹窄領域掩蓋這一問題。然而,根本原因依然存在。 其他前沿實驗室則持不同意見。他們指出,透過檢索增強(retrieval augmentation)、訓練後微調(post-training fine-tunes)和驗證模型,基準幻覺率正在穩步改善。然而,開發者的報告往往與排行榜數據一致。 AI 研究人員 xlr8harder 在 X 上分享了與 R1 的除錯過程,總結了日常體驗。 「Deepseek R1 對其思維痕跡有一種有趣的非整合理解……所以它預設會用幻覺來對我進行煤氣燈效應(gaslighting),」他們表示。 對於加密貨幣 agent 開發者來說,實際問題是風險管理,而非架構哲學。將模型的每一項主張都透過驗證步驟進行篩選的設計,表現可能會更好。 對於那些在金融操作上依賴更小型、更保守模型的 agent 來說,情況也是如此。 下一輪排行榜週期
資料狀態✓ 已擷取全文閱讀原文(BeInCrypto)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:c7213aac49
來源:BeInCrypto
發佈:2026-05-11 19:03:07
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
DeepSeek-R1 的幻覺率比 V3 高出 4 倍,為 Crypto AI Agent Tokens 敲響警鐘 | Feel.Trading