解读 DeepSeek V4 - Ming's Blog

引言#

2026年5月，DeepSeek-AI 发布了 DeepSeek-V4 系列的预览版本。这一代最引人注目的突破是：首次在开放模型中原生支持百万 token 上下文，且效率相比前代大幅提升。

两个模型规格：

V4-Pro：1.6T 参数，49B 激活
V4-Flash：284B 参数，13B 激活

在 1M-token 场景下，V4-Pro 仅需 V3.2 的 27% FLOPs 和 10% KV cache；V4-Flash 更激进，仅需 10% FLOPs 和 7% KV cache。这背后的核心创新是一套精心设计的混合注意力架构。

架构创新：打破长上下文的效率瓶颈#

传统 Transformer 的注意力机制是 $O(n^2)$ 复杂度 [Vaswani et al., 2017]，当上下文扩展到百万 token 时，计算和存储成本变得难以承受。DeepSeek-V4 的解决方案是 CSA + HCA 混合注意力。

Compressed Sparse Attention (CSA)#

CSA 的思路是”先压缩再稀疏”：

将每 $m$ 个 token 的 KV cache 压缩为一个 entry（ $m=4$ ）
用 Lightning Indexer 选出 top-k 相关的压缩 KV entry
只对选中的 entry 做 sparse attention

这借鉴了 DeepSeek Sparse Attention (DSA) [DeepSeek-AI, 2025] 的稀疏选择策略，但在其之前加入了序列维度的压缩，进一步降低 KV cache 体积。

Heavily Compressed Attention (HCA)#

HCA 采用更激进的压缩率（ $m'=128$ ），但不做稀疏选择。它适合那些需要”粗粒度全局视野”的场景——虽然压缩重，但保持了 dense attention 的完整覆盖。

两种注意力交替使用，并配合一个小的滑动窗口注意力（128 tokens）保留局部细粒度信息。这套设计让 1M-token 成为工程上可行的日常支持能力。

其他架构细节#

KV cache 精度优化：RoPE 维度用 BF16，其他用 FP8，体积减半
Lightning Indexer 用 FP4：极长上下文下加速 attention score 计算
Attention Sink [Xiao et al., 2024]：防止注意力分数塌陷，让模型能”拒绝”关注不相关的 token

mHC：更稳定的残差连接#

残差连接是 Transformer 的标配，但在深层网络中容易出现数值不稳定。Hyper-Connections (HC) [Zhu et al., 2025] 曾尝试扩展残差流宽度来增强表达力，但训练稳定性仍是问题。

DeepSeek-V4 提出 Manifold-Constrained Hyper-Connections (mHC) [Xie et al., 2026]：

将残差映射矩阵约束到 doubly stochastic matrices manifold（Birkhoff polytope）
这保证谱范数 $\|B\|_2 \leq 1$ ，使变换非扩张
使用 Sinkhorn-Knopp 算法投影，20 次迭代

同时引入动态参数化（input-dependent + static component），让模型能根据输入自适应调节残差强度。最终 wall-time overhead 仅 6.7%，代价很小。

Muon 优化器：更快收敛#

Muon [Jordan et al., 2024; Liu et al., 2025] 是 DeepSeek-V4 的另一重要改进。它用 Newton-Schulz 迭代对梯度矩阵做正交化，能更快收敛、更稳定训练。

DeepSeek-V4 对 Muon 做了两点调整：

Hybrid Newton-Schulz：10 次迭代分两阶段——前 8 步用激进系数快速收敛，后 2 步用稳定系数精确控制
ZeRO 兼容：dense 参数用背包算法分配，MoE 参数 flatten 后均匀分布

Embedding、prediction head、RMSNorm 仍用 AdamW [Loshchilov & Hutter, 2017]，其余模块用 Muon。

训练稳定性：两个实用技巧#

训练万亿参数的 MoE 模型，loss spike 是常见噩梦。DeepSeek-V4 发现 spike 总与 MoE layer 的 outliers 相关，路由机制本身会加剧问题。两个技巧解决了这个困扰：

Anticipatory Routing#

传统路由与主干网络同步更新，会形成恶性循环。Anticipatory Routing 让路由索引用历史参数 $\theta_{t-\Delta t}$ 预计算，当前步直接使用。当检测到 spike 时自动激活，稳定后恢复常规训练。

SwiGLU Clamping#

[OpenAI, 2025; Riviere et al., 2024] 曾用 clamping 约束数值范围。DeepSeek-V4 将 SwiGLU 的 linear component clamp 到 [-10, 10]，gate component 上界 10。简单粗暴，但有效消除 outliers。

基础设施栈#

除了架构，DeepSeek-V4 还做了一系列系统优化：

通信-计算重叠的 Expert Parallelism#

MoE 的 Expert Parallelism (EP) 需要大量 all-to-all 通信。DeepSeek-V4 将 Dispatch、Linear-1、Linear-2、Combine 四阶段融合为单一流水线 kernel，把 expert 分成多个 wave，细粒度重叠通信与计算。这样通信延迟被完全隐藏在计算中，提速 1.5-1.96x。开源为 MegaMoE。

类似思路在 Comet [Zhang et al., 2025] 中有探索，但 DeepSeek-V4 的 wave scheduling 更细粒度。

TileLang DSL#

用 TileLang [Wang et al., 2026] 开发 fused kernel，替代数百个细粒分 Torch ATen operators。亮点：

Host Codegen：CPU orchestration overhead 从几十 μs 降到 <1μs
Z3 SMT Solver：形式化分析整数表达式，解锁更多优化机会
Bitwise reproducibility：确保训练与推理的一致性

FP4 Quantization-Aware Training#

MoE expert weights 和 CSA indexer QK path 使用 MXFP4 [Rouhani et al., 2023] quantization。关键洞察：FP4→FP8 dequantization 是 lossless 的（FP8 的 E4M3 比 FP4 的 E2M1 多 2 位 exponent）。这让 QAT 能完全复用 FP8 训练框架，无需修改 backward pipeline。

其他细节#

Batch-invariant kernel：避免 split-KV/split-k 的非确定性，用 DeepGEMM [Zhao et al., 2025] 替代 cuBLAS
KV cache 管理框架：异构 entries（CSA/HCA/SWA）+ 状态 cache + 磁盘存储策略
DSec Sandbox：四种执行 substrate（Function Call/Container/microVM/fullVM），支撑 agentic AI 的多样化需求

预训练与后训练#

预训练数据与配置#

32T+ tokens，数学和编程 corpus 是核心，增强多语言和长文档数据。训练从 4K 序列长度逐步扩展到 1M。Sparse attention 在 64K 阶段引入，先 warmup lightning indexer，再全面 sparse 训练。

后训练：Specialist + OPD 范式#

不再用 mixed RL，改用 On-Policy Distillation (OPD) [Lu & Lab, 2025]：

每个领域（数学、编程、Agent、指令遵循）独立训练专家：SFT → GRPO RL
多教师蒸馏统一模型，full-vocabulary logit distillation（非 token-level KL estimate）

三种 reasoning mode：Non-think（快速响应）、Think（有意识分析）、Think Max（极致推理）。

Generative Reward Model (GRM)：让 actor native 作为 reward model，联合优化生成和评估能力，减少人工标注需求。

评估结果#

基础模型#

V4-Flash-Base（13B activated）在大多数 benchmark 上超越 V3.2-Base（37B activated），证明架构改进和数据质量的优势。V4-Pro-Base 进一步刷新 DeepSeek 基础模型的各项记录。

后训练模型#

Knowledge：SimpleQA Verified 57.9%，大幅领先开源对手，接近 Gemini-3.1-Pro
Reasoning：Codeforces rating 3206（人类排名第 23），首次开源模型匹敌闭源模型
1M-Context：MRCR 83.5，超越 Gemini-3.1-Pro 的 76.3
Agent：Terminal Bench 2.0 67.9%，SWE Verified 80.6%

结语#

DeepSeek-V4 的核心贡献是让百万 token 上下文从”研究原型”变成”工程可行”。CSA + HCA 混合注意力是关键突破，配合 mHC、Muon 和完整的系统栈，构成了一个可量产的方案。

展望未来，DeepSeek 表示将简化架构、深入研究训练稳定性原理、探索新维度的稀疏性、迭代长程 agentic 任务、集成多模态能力。这个方向值得持续关注。

模型下载：https://huggingface.co/collections/deepseek-ai/deepseek-v4

参考文献#

Vaswani et al., 2017. Attention is all you need.
DeepSeek-AI, 2025. DeepSeek-R1 / DeepSeek Sparse Attention.
Xiao et al., 2024. Efficient streaming language models with attention sinks.
Zhu et al., 2025. Hyper-Connections.
Xie et al., 2026. Manifold-Constrained Hyper-Connections (mHC).
Jordan et al., 2024; Liu et al., 2025. Muon optimizer.
Loshchilov & Hutter, 2017. AdamW.
OpenAI, 2025. GPT-OSS model card.
Riviere et al., 2024. Gemma 2.
Zhang et al., 2025. Comet: Fine-grained computation-communication overlapping for MoE.
Wang et al., 2026. TileLang.
Rouhani et al., 2023. Microscaling data formats (MXFP4).
Zhao et al., 2025. DeepGEMM.
Lu & Lab, 2025. On-Policy Distillation.

引言#