要聞列表Anthropic 承認 Claude「真的變笨」:三個工程配置失誤,已重置所有訂閱額度當補償
動區 BlockTempo2026-04-24 01:41:06

Anthropic 承認 Claude「真的變笨」:三個工程配置失誤,已重置所有訂閱額度當補償

AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯1702 字
最近社群持續反映 Claude 表現退步,Anthropic 於 23 日公開事後報告,表示根源不在模型本身,而是三個產品層的工程失誤,三者疊加讓全球使用者感受到明顯的品質下滑。 (前情提要:Anthropic 最新估值衝上「8000 億美元」兩個月翻倍,最快 10 月 IPO) (背景補充:鞭打 Claude code 加速的 badclaude 開源專案,被 Anthropic 寄侵權通知信了) 是否也有感覺,最近 Claude 真的「變笨了?」。有人說它推理變淺、有人說它開始出現幻覺、有人說它耗用 token 的速度變快但品質下滑,甚至出現了一個新詞 AI shrinkflation(AI 縮水)。借用消費品「份量變少但價格不變」的概念,描述模型在同等成本下輸出品質悄悄縮水的現象。 BridgeMind 的測試數字更直白:Claude Opus 4.6 的準確率從 83.3% 跌至 68.3%,排名從第 2 位滑落至第 10 位。AMD AI 部門資深總監 Stella Laurenzo 在 GitHub 上分析了 6,852 份 Claude Code 工作階段紀錄與逾 23 萬次工具呼叫,也發現模型推理深度明顯下滑,傾向選擇「最簡單的修法」而非「正確的解法」。 對此,Anthropic 4 月 23 日正式公開事後報告,承認問題確實存在,但表示根源不在模型訓練,而在三個產品層的工程配置。 Anthropic 確認了三個獨立的產品層變更,疊加造成這波品質衰退: 第一,推理力道(reasoning effort)降級(3 月 4 日)。Anthropic 將 Claude Code 的預設推理力道從「高」調降為「中」。 所謂推理力道,是模型每次回答前「想多深」的配置,設定愈高,模型花在內部推導的時間愈長,但介面看起來也更像「卡住了」。為瞭解決 UI 延遲的觀感問題,Anthropic 選擇降低預設值,卻沒有充分評估對複雜任務的衝擊。 第二,快取邏輯漏洞(caching bug)(3 月 26 日)。工程師設計了一套最佳化邏輯,讓模型在閒置超過一小時後清除舊的思考歷程,以節省快取空間。 但實作上有一個關鍵錯誤:清除動作不是在閒置後執行一次,而是在每一輪後續對話中持續觸發。結果是模型不斷喪失「短期記憶」,在長對話中反覆出現遺忘與重複的狀況。 第三,系統提示冗餘限制(3 月 16 日)。Anthropic 在後臺系統提示中加入指令,要求模型將工具呼叫之間的文字壓縮在 25 字以內、最終回覆壓縮在 100 字以內。這個原本用於減少 Opus 4.7 冗餘輸出的措施,卻誤觸到 Opus 4.6,導致程式碼品質評估下滑 3%。 這三個變更的共同點是:它們都發生在 Harness(模型執行環境,包裹模型的一層工程外殼,決定 system prompt、快取邏輯等)層,而非模型訓練本身,卻足以讓全球使用者感受到明顯的落差。 Anthropic 已在 v2.1.116 版本中修復快取漏洞,並還原推理力道與冗餘限制設定。 為防止類似事件重演,Anthropic 宣布四項措施: 一,更多內部員工將使用與公開版完全一致的 Claude Code 二,每次系統提示變更都將執行消融測試(ablation,逐一關閉某個變數、測試其對結果的獨立影響) 三,新增審計工具讓 prompt 變更更易追蹤 四,重置所有訂閱使用者的使用限額,作為補償。 使用者之所以將這波衰退命名為「AI shrinkflation」,背後有一個結構性困境:模型是黑盒,普通使用者,甚至專業開發者都無法區分「模型本身退化」與「工程配置失誤」,兩者對體驗的影響完全相同,卻有著截然不同的成因與修復路徑。 Anthropic 起初否認「刻意削弱」模型的說法,表示 API 與推理層均未受影響。但使用者的不滿持續累積,高知名度使用者的公開審計資料讓這
資料狀態✓ 已擷取全文閱讀原文(動區 BlockTempo)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:221c38dd8d
來源:動區 BlockTempo
發佈:2026-04-24 01:41:06
分類:zh_news · 導出分類 zh
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言