Daftar beritaSpesifikasi DeepSeek V4 bocor lebih awal? Akademisi AI Yifan Zhang membocorkan: 1,6 triliun parameter, konteks jutaan, namun "tidak ada multimodal"
動區 BlockTempo2026-04-22 13:30:29

Spesifikasi DeepSeek V4 bocor lebih awal? Akademisi AI Yifan Zhang membocorkan: 1,6 triliun parameter, konteks jutaan, namun "tidak ada multimodal"

ORIGINALDeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯1781 kata
Spesifikasi teknis DeepSeek V4 diduga bocor lebih awal? Peneliti AI dari Princeton University, Yifan Zhang, hari ini (22) melontarkan bom di platform X, mengklaim bahwa model V4 akan memiliki hingga 1,6 triliun parameter dan mendukung konteks super panjang sebesar 1 juta Token. Selain itu, kali ini juga akan diluncurkan versi ringan 285B Lite untuk pertama kalinya. Namun, di era di mana multimodal menjadi tren, bocoran tersebut menunjukkan bahwa V4 ternyata "hanya mendukung teks murni", yang memicu perdebatan sengit di komunitas. (Konteks sebelumnya: Valuasi DeepSeek menembus 20 miliar USD! Media asing melaporkan Tencent dan Alibaba berebut untuk berinvestasi dalam putaran pendanaan pertama) (Latar belakang tambahan: Satu triliun Anthropic, dan 10 miliar DeepSeek) Tabir misteri model andalan generasi berikutnya dari raksasa AI Tiongkok, DeepSeek, yaitu V4, diduga telah dibuka secara kejam oleh kalangan akademisi lebih awal. Hari ini (22), peneliti laboratorium AI Princeton University dan mahasiswa doktoral yang berfokus pada LLM Reasoning serta Reinforcement Learning (RL), Yifan Zhang (@yifan_zhang_), merilis tabel spesifikasi teknis model yang sangat mendetail di platform X. Dikombinasikan dengan pengumuman yang ia buat minggu lalu (19), "V4, next week.", pihak luar sepakat bahwa ini adalah informasi internal model V4 yang akan segera dirilis oleh DeepSeek. V4 1.6T, V4-Lite 285B Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWAMoE: Fused MoE Mega-Kernel with 6 active in 384 experts Residual: Hyper-Connections Optimizer: Muon Pretrain context length: 32K RL: GRPO with corrected KL Final Context Length: 1M Modality:… https://t.co/CC2Nof0OHy — Yifan Zhang (@yifan_zhang_) April 22, 2026 Dekripsi spesifikasi teknis V4: 1,6 triliun parameter dan versi Lite baru Meskipun Yifan Zhang saat ini tidak bekerja di DeepSeek (sebelumnya pernah berada di tim Seed ByteDance), berkat saluran tepercaya yang dimilikinya di lingkaran tersebut, daftar teknis yang sangat hardcore ini segera memicu diskusi di komunitas. Menurut bocoran, keluarga V4 akan menyambut dua anggota dan beberapa peningkatan arsitektur dasar: - Skala model: Versi andalan V4 memiliki total parameter hingga 1,6T (1,6 triliun), dan untuk pertama kalinya mengungkap versi ringan V4-Lite dengan parameter 285B (285 miliar). - Optimalisasi arsitektur MoE: Total dikonfigurasi dengan 384 experts, dengan 6 di antaranya aktif setiap saat (parameter aktif sekitar 25B). Lapisan dasar menggunakan teknologi Fused MoE Mega-Kernel yang dapat meningkatkan efisiensi komputasi secara signifikan. - Mekanisme perhatian (Attention): Menggunakan DSA2 (kombinasi NSA + DSA), head-dim 512, serta Sparse MQA yang dipadukan dengan SWA (Sliding Window Attention). - Lompatan besar dalam detail pelatihan: Optimizer diganti dengan Muon, optimizer tingkat matriks yang lebih canggih; koneksi residual menggunakan Hyper-Connections. - Konteks dan Reinforcement Learning: Panjang konteks pra-pelatihan adalah 32K, namun setelah melalui tahap Reinforcement Learning GRPO dengan koreksi KL divergence (GRPO with corrected KL), akhirnya dapat mendukung konteks super panjang hingga 1M (satu juta Token). Operasi "teks murni" yang melawan arus? Komunitas memberikan tanggapan beragam Dalam tabel spesifikasi yang sangat padat ini, hal yang paling mengejutkan industri adalah pengaturan modalitas V4 yang "Text only (teks murni, tanpa multimodal)". Di saat pesaing seperti GPT-4o dan Gemini gencar mempromosikan integrasi multimodal suara, visual, dan gambar, keputusan V4 untuk tetap berada di jalur teks murni memicu reaksi terpolarisasi. Di bawah tweet tersebut, ada netizen yang kagum bahwa data ini "terlihat sangat tak terkalahkan, jelas merupakan level SOTA (State of the Art)", namun tidak sedikit pula yang mencemooh "masih membuat teks murni di era ini?" dan mempertanyakan mengapa tidak menambahkan kemampuan visual. Sementara itu, karena tabel spesifikasi ini terlalu mendetail dan pihak resmi DeepSeek belum muncul untuk mengonfirmasi atau membantah, beberapa
Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset2 berita
💡 Saat ini menggunakan pencocokan kata kunci + aset (MVP) · Akan ditingkatkan ke pencarian semantik embedding di masa mendatang
Informasi mentah
ID:a061116244
Sumber:動區 BlockTempo
Diterbitkan:2026-04-22 13:30:29
Kategori:zh_news · Kategori ekspor zh
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar
Spesifikasi DeepSeek V4 bocor lebih awal? Akademisi AI Yifan Zhang membocorkan: 1,6 triliun parameter, konteks jutaan, namun "tidak ada multimodal" | Feel.Trading