ニュース一覧DeepSeek V4のスペックが先行流出か?AI研究者のYifan Zhangが暴露:1.6兆パラメータ、100万トークンのコンテキストウィンドウ、ただし「マルチモーダルではない」
動區 BlockTempo2026-04-22 13:30:29

DeepSeek V4のスペックが先行流出か?AI研究者のYifan Zhangが暴露:1.6兆パラメータ、100万トークンのコンテキストウィンドウ、ただし「マルチモーダルではない」

ORIGINALDeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯1781 文字
DeepSeek V4の技術仕様が流出か?プリンストン大学のAI研究者 Yifan Zhang 氏が本日(22日)、Xプラットフォームで衝撃的な情報を公開した。V4モデルは1.6兆パラメータを誇り、100万 Tokenの超長文脈をサポートするという。さらに、285BのLite軽量版も初めて登場する見込みだ。しかし、マルチモーダル全盛の現在、V4が「テキストのみ(純文字)」をサポートするというリーク内容が、コミュニティで激しい議論を呼んでいる。 (前回の記事:DeepSeekの評価額が200億ドルを突破!騰訊、阿里が初回調達を巡り争奪戦との報道) (背景補足:Anthropicの1兆とDeepSeekの100億) 中国のAI大手 DeepSeek の次世代フラッグシップモデル V4 のベールが、学界関係者によって先んじて剥がされた可能性がある。 本日(22日)、プリンストン大学AIラボの研究員であり、大規模言語モデルの推論(LLM Reasoning)と強化学習(RL)を専門とする博士課程の Yifan Zhang 氏(@yifan_zhang_)が、Xプラットフォーム上で極めて詳細なモデル技術仕様表を公開した。同氏が先週(19日)投稿した「V4, next week.」という予告と合わせ、外部ではこれが DeepSeek が間もなく発表する V4 モデルの内部情報であると確信されている。 V4 1.6T, V4-Lite 285B Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWAMoE: Fused MoE Mega-Kernel with 6 active in 384 experts Residual: Hyper-Connections Optimizer: Muon Pretrain context length: 32K RL: GRPO with corrected KL Final Context Length: 1M Modality:… https://t.co/CC2Nof0OHy — Yifan Zhang (@yifan_zhang_) April 22, 2026 V4 技術仕様の全貌:1.6兆パラメータと新たな Lite 版 Yifan Zhang 氏は現在 DeepSeek に在籍していない(過去には字節跳動の Seed チームに所属)ものの、業界内の信頼できるルートを通じて入手したこのハードコアな技術リストは、直ちにコミュニティで議論を巻き起こした。 リークによると、V4 ファミリーには2つのモデルと複数の基盤アーキテクチャのアップグレードが含まれる。 - モデル規模:フラッグシップ版 V4 の総パラメータ数は1.6T(1.6兆)に達し、さらにパラメータ数285B(2850億)の軽量版 V4-Lite が初めて公開された。 - MoE アーキテクチャの最適化:合計384個の専門家(experts)を配置し、毎回6個をアクティブ化する(アクティブパラメータは約25B)。基盤には演算効率を大幅に向上させる Fused MoE Mega-Kernel 技術を採用。 - 注意力機構(Attention):DSA2(NSA + DSA の組み合わせ)、head-dim 512、および Sparse MQA と SWA(スライディングウィンドウアテンション)を採用。 - 学習詳細の飛躍的向上:オプティマイザはより先進的な行列レベルのオプティマイザ Muon に変更され、残差接続には Hyper-Connections を採用。 - 文脈と強化学習:事前学習の文脈長は32Kだが、KLダイバージェンス補正付きの GRPO(GRPO with corrected KL)強化学習フェーズを経て、最終的に1M(100万 Token)の超長文脈をサポートする。 「テキストのみ」という逆張り戦略?コミュニティの反応は賛否両論 この極めて詳細な仕様表の中で、業界を最も驚かせたのは、V4 のモダリティ設定が「Text only(テキストのみ、マルチモーダル非対応)」である点だ。 GPT-4o や Gemini などの競合他社が音声、視覚、映像のマルチモーダル統合を猛烈に推進する中、V4 がテキストのみの路線を貫くという決定は、二極化した反応を引き起こしている。投稿の下には、「無敵に見える、間違いなく SOTA(State of the Art)レベルだ」と驚嘆する声がある一方で、「この時代にまだテキストのみなのか?」と、なぜ視覚能力を追加しないのかと疑問を呈する声も少なくない。 同時に、
データステータス✓ 全文抽出済み原文を読む(動區 BlockTempo)
🔍過去の類似イベント· キーワード + 銘柄照合2 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:a061116244
ソース:動區 BlockTempo
公開:2026-04-22 13:30:29
カテゴリ:zh_news · エクスポートカテゴリ zh
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント
DeepSeek V4のスペックが先行流出か?AI研究者のYifan Zhangが暴露:1.6兆パラメータ、100万トークンのコンテキストウィンドウ、ただし「マルチモーダルではない」 | Feel.Trading