解读 DeepSeek V4
引言
2026年5月,DeepSeek-AI 发布了 DeepSeek-V4 系列的预览版本。这一代最引人注目的突破是:首次在开放模型中原生支持百万 token 上下文,且效率相比前代大幅提升。
两个模型规格:
- V4-Pro:1.6T 参数,49B 激活
- V4-Flash:284B 参数,13B 激活
在 1M-token 场景下,V4-Pro 仅需 V3.2 的 27% FLOPs 和 10% KV cache;V4-Flash 更激进,仅需 10% FLOPs 和 7% KV cache。这背后的核心创新是一套精心设计的混合注意力架构。
架构创新:打破长上下文的效率瓶颈
传统 Transformer 的注意力机制是 复杂度 [Vaswani et al., 2017],当上下文扩展到百万 token 时,计算和存储成本变得难以承受。DeepSeek-V4 的解决方案是 CSA + HCA 混合注意力。
Compressed Sparse Attention (CSA)
CSA 的思路是”先压缩再稀疏”:
- 将每 个 token 的 KV cache 压缩为一个 entry()
- 用 Lightning Indexer 选出 top-k 相关的压缩 KV entry
- 只对选中的 entry 做 sparse attention
这借鉴了 DeepSeek Sparse Attention (DSA) [DeepSeek-AI, 2025] 的稀疏选择策略,但在其之前加入了序列维度的压缩,进一步降低 KV cache 体积。
Heavily Compressed Attention (HCA)
HCA 采用更激进的压缩率(),但不做稀疏选择。它适合那些需要”粗粒度全局视野”的场景——虽然压缩重,但保持了 dense attention 的完整覆盖。
两种注意力交替使用,并配合一个小的滑动窗口注意力(128 tokens)保留局部细粒度信息。这套设计让 1M-token 成为工程上可行的日常支持能力。
其他架构细节
- KV cache 精度优化:RoPE 维度用 BF16,其他用 FP8,体积减半
- Lightning Indexer 用 FP4:极长上下文下加速 attention score 计算
- Attention Sink [Xiao et al., 2024]:防止注意力分数塌陷,让模型能”拒绝”关注不相关的 token
mHC:更稳定的残差连接
残差连接是 Transformer 的标配,但在深层网络中容易出现数值不稳定。Hyper-Connections (HC) [Zhu et al., 2025] 曾尝试扩展残差流宽度来增强表达力,但训练稳定性仍是问题。
DeepSeek-V4 提出 Manifold-Constrained Hyper-Connections (mHC) [Xie et al., 2026]:
- 将残差映射矩阵约束到 doubly stochastic matrices manifold(Birkhoff polytope)
- 这保证谱范数 ,使变换非扩张
- 使用 Sinkhorn-Knopp 算法投影,20 次迭代
同时引入动态参数化(input-dependent + static component),让模型能根据输入自适应调节残差强度。最终 wall-time overhead 仅 6.7%,代价很小。
Muon 优化器:更快收敛
Muon [Jordan et al., 2024; Liu et al., 2025] 是 DeepSeek-V4 的另一重要改进。它用 Newton-Schulz 迭代对梯度矩阵做正交化,能更快收敛、更稳定训练。
DeepSeek-V4 对 Muon 做了两点调整:
- Hybrid Newton-Schulz:10 次迭代分两阶段——前 8 步用激进系数快速收敛,后 2 步用稳定系数精确控制
- ZeRO 兼容:dense 参数用背包算法分配,MoE 参数 flatten 后均匀分布
Embedding、prediction head、RMSNorm 仍用 AdamW [Loshchilov & Hutter, 2017],其余模块用 Muon。
训练稳定性:两个实用技巧
训练万亿参数的 MoE 模型,loss spike 是常见噩梦。DeepSeek-V4 发现 spike 总与 MoE layer 的 outliers 相关,路由机制本身会加剧问题。两个技巧解决了这个困扰:
Anticipatory Routing
传统路由与主干网络同步更新,会形成恶性循环。Anticipatory Routing 让路由索引用历史参数 预计算,当前步直接使用。当检测到 spike 时自动激活,稳定后恢复常规训练。
SwiGLU Clamping
[OpenAI, 2025; Riviere et al., 2024] 曾用 clamping 约束数值范围。DeepSeek-V4 将 SwiGLU 的 linear component clamp 到 [-10, 10],gate component 上界 10。简单粗暴,但有效消除 outliers。
基础设施栈
除了架构,DeepSeek-V4 还做了一系列系统优化:
通信-计算重叠的 Expert Parallelism
MoE 的 Expert Parallelism (EP) 需要大量 all-to-all 通信。DeepSeek-V4 将 Dispatch、Linear-1、Linear-2、Combine 四阶段融合为单一流水线 kernel,把 expert 分成多个 wave,细粒度重叠通信与计算。这样通信延迟被完全隐藏在计算中,提速 1.5-1.96x。开源为 MegaMoE。
类似思路在 Comet [Zhang et al., 2025] 中有探索,但 DeepSeek-V4 的 wave scheduling 更细粒度。
TileLang DSL
用 TileLang [Wang et al., 2026] 开发 fused kernel,替代数百个细粒分 Torch ATen operators。亮点:
- Host Codegen:CPU orchestration overhead 从几十 μs 降到 <1μs
- Z3 SMT Solver:形式化分析整数表达式,解锁更多优化机会
- Bitwise reproducibility:确保训练与推理的一致性
FP4 Quantization-Aware Training
MoE expert weights 和 CSA indexer QK path 使用 MXFP4 [Rouhani et al., 2023] quantization。关键洞察:FP4→FP8 dequantization 是 lossless 的(FP8 的 E4M3 比 FP4 的 E2M1 多 2 位 exponent)。这让 QAT 能完全复用 FP8 训练框架,无需修改 backward pipeline。
其他细节
- Batch-invariant kernel:避免 split-KV/split-k 的非确定性,用 DeepGEMM [Zhao et al., 2025] 替代 cuBLAS
- KV cache 管理框架:异构 entries(CSA/HCA/SWA)+ 状态 cache + 磁盘存储策略
- DSec Sandbox:四种执行 substrate(Function Call/Container/microVM/fullVM),支撑 agentic AI 的多样化需求
预训练与后训练
预训练数据与配置
32T+ tokens,数学和编程 corpus 是核心,增强多语言和长文档数据。训练从 4K 序列长度逐步扩展到 1M。Sparse attention 在 64K 阶段引入,先 warmup lightning indexer,再全面 sparse 训练。
后训练:Specialist + OPD 范式
不再用 mixed RL,改用 On-Policy Distillation (OPD) [Lu & Lab, 2025]:
- 每个领域(数学、编程、Agent、指令遵循)独立训练专家:SFT → GRPO RL
- 多教师蒸馏统一模型,full-vocabulary logit distillation(非 token-level KL estimate)
三种 reasoning mode:Non-think(快速响应)、Think(有意识分析)、Think Max(极致推理)。
Generative Reward Model (GRM):让 actor native 作为 reward model,联合优化生成和评估能力,减少人工标注需求。
评估结果
基础模型
V4-Flash-Base(13B activated)在大多数 benchmark 上超越 V3.2-Base(37B activated),证明架构改进和数据质量的优势。V4-Pro-Base 进一步刷新 DeepSeek 基础模型的各项记录。
后训练模型
- Knowledge:SimpleQA Verified 57.9%,大幅领先开源对手,接近 Gemini-3.1-Pro
- Reasoning:Codeforces rating 3206(人类排名第 23),首次开源模型匹敌闭源模型
- 1M-Context:MRCR 83.5,超越 Gemini-3.1-Pro 的 76.3
- Agent:Terminal Bench 2.0 67.9%,SWE Verified 80.6%
结语
DeepSeek-V4 的核心贡献是让百万 token 上下文从”研究原型”变成”工程可行”。CSA + HCA 混合注意力是关键突破,配合 mHC、Muon 和完整的系统栈,构成了一个可量产的方案。
展望未来,DeepSeek 表示将简化架构、深入研究训练稳定性原理、探索新维度的稀疏性、迭代长程 agentic 任务、集成多模态能力。这个方向值得持续关注。
模型下载:https://huggingface.co/collections/deepseek-ai/deepseek-v4
参考文献
- Vaswani et al., 2017. Attention is all you need.
- DeepSeek-AI, 2025. DeepSeek-R1 / DeepSeek Sparse Attention.
- Xiao et al., 2024. Efficient streaming language models with attention sinks.
- Zhu et al., 2025. Hyper-Connections.
- Xie et al., 2026. Manifold-Constrained Hyper-Connections (mHC).
- Jordan et al., 2024; Liu et al., 2025. Muon optimizer.
- Loshchilov & Hutter, 2017. AdamW.
- OpenAI, 2025. GPT-OSS model card.
- Riviere et al., 2024. Gemma 2.
- Zhang et al., 2025. Comet: Fine-grained computation-communication overlapping for MoE.
- Wang et al., 2026. TileLang.
- Rouhani et al., 2023. Microscaling data formats (MXFP4).
- Zhao et al., 2025. DeepGEMM.
- Lu & Lab, 2025. On-Policy Distillation.
支持与分享
如果这篇文章对你有帮助,欢迎分享给更多人或赞助支持!