Danh sách tinThông số kỹ thuật của DeepSeek V4 bị rò rỉ sớm? Học giả AI Yifan Zhang tiết lộ: 1,6 nghìn tỷ tham số, ngữ cảnh hàng triệu token, nhưng "không có đa phương thức"
動區 BlockTempo2026-04-22 13:30:29

Thông số kỹ thuật của DeepSeek V4 bị rò rỉ sớm? Học giả AI Yifan Zhang tiết lộ: 1,6 nghìn tỷ tham số, ngữ cảnh hàng triệu token, nhưng "không có đa phương thức"

ORIGINALDeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯1781 từ
Thông số kỹ thuật của DeepSeek V4 bị rò rỉ sớm? Học giả AI Yifan Zhang từ Đại học Princeton hôm nay (22) đã gây chấn động trên nền tảng X khi tuyên bố rằng mô hình V4 sẽ sở hữu tới 1,6 nghìn tỷ tham số và hỗ trợ ngữ cảnh siêu dài lên đến 1 triệu Token. Ngoài ra, lần này cũng sẽ ra mắt phiên bản rút gọn Lite 285B. Tuy nhiên, trong thời đại đa phương thức (multimodal) lên ngôi, thông tin rò rỉ cho biết V4 lại "chỉ hỗ trợ văn bản thuần túy", gây ra cuộc tranh luận sôi nổi trong cộng đồng. (Tin tức liên quan: Định giá DeepSeek vượt mốc 20 tỷ USD! Truyền thông nước ngoài đưa tin Tencent, Alibaba tranh giành đầu tư vòng gọi vốn đầu tiên) (Thông tin nền: Một nghìn tỷ của Anthropic và 10 tỷ của DeepSeek) Bức màn bí ẩn về mô hình flagship thế hệ tiếp theo V4 của gã khổng lồ AI DeepSeek dường như đã bị giới học thuật tiết lộ sớm một cách không thương tiếc. Hôm nay (22), Yifan Zhang (@yifan_zhang_), nghiên cứu sinh tiến sĩ tại phòng thí nghiệm AI của Đại học Princeton, chuyên về suy luận mô hình ngôn ngữ lớn (LLM Reasoning) và học tăng cường (RL), đã đăng tải một bảng thông số kỹ thuật chi tiết cực độ về mô hình trên nền tảng X. Kết hợp với thông báo "V4, next week." mà anh đã đăng vào tuần trước (ngày 19), thế giới bên ngoài nhất trí cho rằng đây chính là thông tin nội bộ về mô hình V4 sắp được DeepSeek công bố. V4 1.6T, V4-Lite 285B Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWAMoE: Fused MoE Mega-Kernel with 6 active in 384 experts Residual: Hyper-Connections Optimizer: Muon Pretrain context length: 32K RL: GRPO with corrected KL Final Context Length: 1M Modality:… https://t.co/CC2Nof0OHy — Yifan Zhang (@yifan_zhang_) April 22, 2026 Giải mã thông số kỹ thuật V4: 1,6 nghìn tỷ tham số và phiên bản Lite hoàn toàn mới Mặc dù Yifan Zhang hiện không làm việc tại DeepSeek (trước đây từng làm việc tại đội ngũ Seed của ByteDance), nhưng nhờ vào các kênh tin cậy trong ngành, danh sách kỹ thuật "hardcore" này ngay lập tức gây ra thảo luận trong cộng đồng. Theo thông tin rò rỉ, gia đình V4 sẽ chào đón hai thành viên mới cùng nhiều nâng cấp kiến trúc nền tảng: - Quy mô mô hình: Phiên bản flagship V4 có tổng tham số lên tới 1,6T (1,6 nghìn tỷ), và lần đầu tiên tiết lộ phiên bản rút gọn V4-Lite với 285B (285 tỷ) tham số. - Tối ưu hóa kiến trúc MoE: Cấu hình tổng cộng 384 chuyên gia (experts), mỗi lần kích hoạt 6 chuyên gia (tham số hoạt động khoảng 25B). Lớp nền tảng áp dụng công nghệ Fused MoE Mega-Kernel giúp cải thiện đáng kể hiệu suất tính toán. - Cơ chế chú ý (Attention): Sử dụng DSA2 (kết hợp NSA + DSA), head-dim 512, và Sparse MQA kết hợp với SWA (Sliding Window Attention). - Bước tiến lớn trong chi tiết huấn luyện: Bộ tối ưu hóa (Optimizer) được thay thế bằng Muon, một bộ tối ưu hóa cấp ma trận tiên tiến hơn; kết nối dư (Residual) sử dụng Hyper-Connections. - Ngữ cảnh và học tăng cường: Độ dài ngữ cảnh tiền huấn luyện là 32K, nhưng sau giai đoạn học tăng cường GRPO với hiệu chỉnh KL (GRPO with corrected KL), cuối cùng có thể hỗ trợ ngữ cảnh siêu dài lên đến 1M (1 triệu Token). "Văn bản thuần túy" đi ngược xu hướng? Cộng đồng khen chê trái chiều Trong bảng thông số kỹ thuật được đầu tư cực kỳ công phu này, điều khiến ngành công nghiệp bất ngờ nhất chính là thiết lập phương thức của V4 là "Text only (văn bản thuần túy, không có đa phương thức)". Trong thời điểm các đối thủ như GPT-4o, Gemini đang điên cuồng thúc đẩy tích hợp đa phương thức giọng nói
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản2 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:a061116244
Nguồn:動區 BlockTempo
Đăng:2026-04-22 13:30:29
Danh mục:zh_news · Danh mục xuất zh
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận
Thông số kỹ thuật của DeepSeek V4 bị rò rỉ sớm? Học giả AI Yifan Zhang tiết lộ: 1,6 nghìn tỷ tham số, ngữ cảnh hàng triệu token, nhưng "không có đa phương thức" | Feel.Trading