뉴스 목록DeepSeek V4 사양 유출? AI 학자 Yifan Zhang 폭로: 1.6조 파라미터, 100만 컨텍스트, 하지만 "멀티모달 없음"
動區 BlockTempo2026-04-22 13:30:29

DeepSeek V4 사양 유출? AI 학자 Yifan Zhang 폭로: 1.6조 파라미터, 100만 컨텍스트, 하지만 "멀티모달 없음"

ORIGINALDeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯1781 자
DeepSeek V4 기술 사양 유출? 프린스턴 대학교 AI 학자 Yifan Zhang이 오늘(22일) X 플랫폼을 통해 V4 모델이 1.6조 개의 파라미터를 보유하고 100만 Token의 초장문 컨텍스트를 지원할 것이라고 밝혀 큰 파장을 일으켰습니다. 또한, 이번에는 285B 규모의 Lite 경량 버전도 처음으로 출시될 예정입니다. 그러나 멀티모달이 대세인 현재, 유출된 정보에 따르면 V4가 "텍스트 전용(Text only)"만 지원한다는 사실이 알려지면서 커뮤니티에서 뜨거운 논쟁이 벌어지고 있습니다. (관련 기사: DeepSeek 기업 가치 200억 달러 돌파! 외신, 텐센트와 알리바바가 첫 라운드 투자 유치 경쟁 중이라고 보도) (배경 보충: Anthropic의 1조와 DeepSeek의 100억) 중국 AI 거물 DeepSeek의 차세대 플래그십 모델 V4의 베일이 학계 인사에 의해 미리 벗겨진 것으로 보입니다. 오늘(22일), 프린스턴 대학교 AI 연구소 연구원이자 대규모 언어 모델 추론(LLM Reasoning) 및 강화 학습(RL)을 전문으로 하는 박사 과정생 Yifan Zhang(@yifan_zhang_)은 X 플랫폼에 매우 상세한 모델 기술 사양표를 게시했습니다. 그가 지난주(19일)에 올린 "V4, next week."라는 예고와 결합하여, 업계에서는 이를 DeepSeek이 곧 발표할 V4 모델의 내부 정보로 확신하고 있습니다. V4 1.6T, V4-Lite 285B Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWAMoE: Fused MoE Mega-Kernel with 6 active in 384 experts Residual: Hyper-Connections Optimizer: Muon Pretrain context length: 32K RL: GRPO with corrected KL Final Context Length: 1M Modality:… https://t.co/CC2Nof0OHy — Yifan Zhang (@yifan_zhang_) April 22, 2026 V4 기술 사양 대공개: 1.6조 파라미터와 새로운 Lite 버전 Yifan Zhang은 현재 DeepSeek에 재직 중은 아니지만(과거 바이트댄스 Seed 팀 근무 경력), 업계 내 신뢰할 수 있는 채널을 통해 이 하드코어한 기술 리스트가 커뮤니티에서 즉각적인 논의를 불러일으켰습니다. 유출된 내용에 따르면, V4 제품군은 두 명의 멤버와 다수의 하부 구조 업그레이드를 포함합니다: - 모델 규모: 플래그십 버전 V4의 총 파라미터는 1.6T(1.6조)에 달하며, 285B(2850억) 파라미터의 경량 버전인 V4-Lite가 처음으로 공개되었습니다. - MoE 구조 최적화: 총 384개의 전문가(experts)를 구성하고, 매번 6개를 활성화(활성 파라미터 약 25B)합니다. 하부 구조에는 연산 효율을 대폭 향상시키는 Fused MoE Mega-Kernel 기술이 적용되었습니다. - 어텐션 메커니즘(Attention): DSA2(NSA + DSA 조합), head-dim 512, 그리고 Sparse MQA와 SWA(슬라이딩 윈도우 어텐션)를 채택했습니다. - 훈련 세부 사항의 도약: 옵티마이저는 더 진보된 행렬 단위 옵티마이저인 Muon으로 교체되었으며, 잔차 연결(Residual)에는 Hyper-Connections가 사용되었습니다. - 컨텍스트 및 강화 학습: 사전 훈련 컨텍스트 길이는 32K이지만, KL 발산 보정이 포함된 GRPO(GRPO with corrected KL) 강화 학습 단계를 거친 후 최종적으로 1M(백만 Token)의 초장문 컨텍스트를 지원할 수 있습니다. "텍스트 전용"의 역행 전략? 커뮤니티의 엇갈린 반응 이 극도로 상세한 사양표에서 업계가 가장 놀란 점은 V4의 모달리티 설정이 "Text only(텍스트 전용, 멀티모달 없음)"라는 것입니다. GPT-4o, Gemini 등 경쟁사들이 음성, 시각
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (動區 BlockTempo)
🔍과거 유사 사건· 키워드 + 종목 매칭2 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:a061116244
출처:動區 BlockTempo
발행:2026-04-22 13:30:29
분류:zh_news · 도출된 분류 zh
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글
DeepSeek V4 사양 유출? AI 학자 Yifan Zhang 폭로: 1.6조 파라미터, 100만 컨텍스트, 하지만 "멀티모달 없음" | Feel.Trading