要聞列表DeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」
動區 BlockTempo2026-04-22 13:30:29

DeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」

AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯1781 字
DeepSeek V4 技術規格疑似提前大外洩?普林斯頓大學 AI 學者 Yifan Zhang 今(22)日在 X 平台拋出震撼彈,宣稱 V4 模型將擁有高達 1.6 兆參數,並支援 100 萬 Token 的超長上下文。此外,本次還將首度推出 285B 的 Lite 輕量版。然而,在多模態當道的現在,爆料指出 V4 竟然「僅支援純文字」,引發社群熱烈激辯。 (前情提要:DeepSeek 估值衝破 200 億美元!外媒傳騰訊、阿里爭相搶投首輪融資) (背景補充:Anthropic 的一兆,與 DeepSeek 的 100 億) 中國 AI 巨頭 DeepSeek 的下一代旗艦模型 V4 的神秘面紗,疑似被學界人士提前無情揭開。 今(22)日,普林斯頓大學 AI 實驗室研究員、專注於大型語言模型推論(LLM Reasoning)與強化學習(RL)的博士生 Yifan Zhang(@yifan_zhang_),在 X 平台上發布了一份極度詳盡的模型技術規格表。結合他上週(19 日)發布的預告「V4, next week.」,外界一致認定這正是 DeepSeek 即將發布的 V4 模型內部情報。 V4 1.6T, V4-Lite 285B Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWAMoE: Fused MoE Mega-Kernel with 6 active in 384 experts Residual: Hyper-Connections Optimizer: Muon Pretrain context length: 32K RL: GRPO with corrected KL Final Context Length: 1M Modality:… https://t.co/CC2Nof0OHy — Yifan Zhang (@yifan_zhang_) April 22, 2026 V4 技術規格大解密:1.6 兆參數與全新 Lite 版 雖然 Yifan Zhang 目前並未在 DeepSeek 任職(過去曾待過字節跳動 Seed 團隊),但憑藉其在圈內的可靠渠道,這份超硬核的技術清單立刻在社群引發討論。 根據爆料,V4 家族將迎來兩名成員與多項底層架構升級: - 模型規模:旗艦版 V4 總參數高達 1.6T(1.6 兆),並且首度曝光了參數為 285B(2850 億)的輕量版 V4-Lite。 - MoE 架構優化:總共配置 384 個專家(experts),每次激活 6 個(活躍參數約 25B)。底層採用了能大幅提升運算效率的 Fused MoE Mega-Kernel 技術。 - 注意力機制(Attention):採用了 DSA2(NSA + DSA 組合)、head-dim 512,以及 Sparse MQA 搭配 SWA(滑動窗口注意力)。 - 訓練細節大躍進:優化器換成了更先進的矩陣級優化器 Muon;殘差連接採用 Hyper-Connections。 - 上下文與強化學習:預訓練上下文長度為 32K,但在經過帶有 KL 散度校正的 GRPO(GRPO with corrected KL)強化學習階段後,最終能支援高達 1M(百萬 Token)的超長上下文。 「純文字」逆勢操作?社群褒貶不一 在這份極致堆料的規格表中,最讓業界跌破眼鏡的,莫過於 V4 的模態設定為「Text only(純文字,無多模態)」。 在 GPT-4o、Gemini 等對手瘋狂推進語音、視覺與影像多模態整合的當下,V4 堅守純文字賽道的決定引發了兩極化反應。在推文下方,有網友驚嘆這些數據「看起來很無敵,絕對是 SOTA(State of the Art)級別」,但也有不少人吐槽「這年代還做純文字?」質疑為何不加入視覺能力。 同時,由於這份規格表太過詳盡,且 DeepSeek 官方至今未出面證實或闢謠,部分開發者對其真實性抱持懷疑。不過,對於 AI 研究人員而言,表中提到的「Muon 優化器應用」
資料狀態✓ 已擷取全文閱讀原文(動區 BlockTempo)
🔍歷史類似事件· 關鍵字 + 標的比對2 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:a061116244
來源:動區 BlockTempo
發佈:2026-04-22 13:30:29
分類:zh_news · 導出分類 zh
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
DeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」 | Feel.Trading