DeepSeek V4的4个技巧
DeepSeek在昨天——2026年4月24日——发布了V4,而头条数字是那个打破Hacker News的数据:在100万token上下文中,V4-Pro使用了V3.2 27%的推理FLOPs和仅10%的KV缓存。同样的硬件,十倍的有效上下文,三分之一的计算量。Flash层级的成本为每百万输入token 0.14美元,每百万输出token 0.28美元。作为参考,Claude Haiku 4.5是1美元和5美元。输出价格差距达17倍。
我见过的大多数报道把V4当作一个基准测试数据——分数表、价格表、"接近前沿",完了。但实际论文(你可以在V4-Pro Hugging Face仓库找到PDF)远比这有趣。上面有4个架构技巧叠加在一起,每一个都有一个让你读描述时觉得这不应该是有效的的时刻。
这篇文章是我昨天就想要的解释文章。没有矩阵微积分。没有"如前所述§3.2"。只有4个技巧、每个实际上做什么,以及让数学变得清晰的类比。如果你使用过transformer模型并大致了解注意力是什么,你就有足够的背景知识了。
让我们从大家都在谈论的那个开始。
1、技巧1:混合注意力
一只"稀疏"的眼和一只"模糊"的眼,交替使用。
每个长上下文模型都必须解决二次方成本问题。如果你的上下文长度为100万token,普通注意力让每个token检查其他每个token,每层就是万亿次比较。KV缓存——模型用于计算注意力的过去token的记忆——会爆炸。这就是为什么"1M上下文"历史上意味着"太贵而无法实际使用的1M上下文"。
DeepSeek在V4中的答案是给模型两只不同的眼睛,逐层交替使用。
第一只眼是压缩稀疏注意力(CSA)。CSA按顺序做两件事。首先,它将每4个连续token压缩成一个压缩条目——称之为"摘要块"。所以100万token的上下文变成了25万个摘要块。其次,一个称为Lightning Indexer的微型快速网络对每个摘要块与当前查询的相关性进行评分,模型只关注得分最高的2048个块。其他全部被屏蔽。Lightning Indexer如此轻量,以至于DeepSeek在BF16中运行它并使用量化的FP32路径,以2倍加速在top-k集合上获得99.7%的召回率。
类比:想象你在回答一个关于500页书籍的问题。CSA就是那个已经将书籍按章节加书签、只浏览与问题最相关的5个章节的你。
第二只眼是重度压缩注意力(HCA)。HCA将每128个token——是的,128——压缩成一个压缩条目。然后对这些压缩条目执行密集注意力。同样的100万上下文现在变成约7800个块,模型查看所有这些块。
类比:HCA就是那个读过一遍书、只记住每章要旨但对每章都有一些记忆的你。有损,但全局。
层交替使用CSA → HCA → CSA → HCA。模型在某些层上是精确的(CSA,细粒度,稀疏),在其他层上是广泛的(HCA,粗粒度,密集)。这是关键洞察:单一注意力策略是一种权衡。两种注意力策略交替使用,让模型在每个深度上在精度和广度之间路由,而不是选择一个并承受其后果。
"不应该有效"的部分:激进的压缩通常会破坏信号。HCA以128:1压缩但仍然有效,因为它将压缩的表示与对剩余部分的完整密集注意力配对。数学告诉你不需要对原始token进行密集注意力——你需要对它们的正确摘要进行密集注意力。
2、技巧2:流形约束超连接(mHC)
阻止1.6T模型爆炸的数学。
以下是大多数人不了解的训练万亿参数模型的事实:残差连接——那些自2017年以来一直在transformer中的x + f(x)跳跃连接——在大规模时开始失效。2024年有一系列称为超连接的研究试图通过加宽残差流并让层从多个路径混合输入来解决这个问题。问题在于:当你给层混合的自由时,信号增益会复合。在27B参数的测试中,无约束的超连接产生了超过3000倍的信号增益——梯度爆炸,训练灾难性地发散。
现在,DeepSeek要训练一个1.6T的模型。大了60倍。他们承受不起在训练第4000小时时发生灾难性发散。
他们的修复方案是mHC,于2026年1月1日以arXiv:2512.24880发表。技巧是使用一种称为Birkhoff多面体的东西来约束层如何混合——这是一个数学曲面,恰好包含双随机矩阵(每行总和为1,每列总和为1,所有条目非负)。他们使用Sinkhorn-Knopp算法来执行此约束,这只是一个迭代归一化过程,将任何矩阵推到Birkhoff多面体上。
为什么这很重要?双随机混合矩阵在数学上保证保持平均信号幅度。层仍然可以创造性地混合残差流,但它们不能放大。3000倍的信号增益通过构造变为约1.0倍。训练保持稳定。
类比:想象厨房里的8位厨师各自向共享的锅中添加配料。没有规则时,一位厨师变得热情过度,倒入3公斤盐。有了mHC,每位厨师可以随心所欲地重新分配锅中已有的东西——但锅中的总重量必须保持不变。他们可以搅拌、交换、混合。他们不能增殖。
"不应该有效"的部分:将学习到的矩阵约束到流形上应该会损害表现力。在实践中,Birkhoff多面体恰好是你保留混合的所有有用属性同时只丢弃你不想要的信号放大属性的流形。DeepSeek测量的表现力损失在统计上为零。
这是使1.6T规模成为可能的技巧。没有mHC,超连接会杀死运行。有了mHC,训练一直保持在损失曲线的无聊中间,直到收敛。
3、技巧3:Engram
条件记忆,或"查一下而不是计算它"。
这个是论文中最具有哲学意味的有趣技巧。架构在一篇独立论文(arXiv:2601.07372)中发表,由DeepSeek创始人梁文锋与北京大学研究人员合著,代码在github.com/deepseek-ai/Engram。
前提:transformer在它本可以记住的东西上浪费了大量计算。当模型看到token"San""Fran""cisco"——这些在每种上下文中总是连在一起的。通过60层注意力和FFN计算"'San Fran'后面应该跟什么"是惊人的大量算术运算,只为恢复一个你可以在4字节中存储的事实。
Engram是一个独立的、确定性的记忆模块,模型可以在正常前向传播过程中查询它。它使用多头哈希将短上下文窗口(通常是2-gram和3-gram)映射到嵌入表中的条目。查找是O(1)——一个固定哈希,一次表读取,没有点积,没有softmax。在每个token位置,Engram查看最近的2-3个token,如果有哈希命中,将查找到的嵌入混合到残差流中。
类比:这就是从第一性原理计算7×8与因为三年级时背了乘法表而知道是56之间的区别。两者都产生正确答案。一个要便宜得多。
这个设计的两个结果很疯狂。首先,论文发现了一个稀疏性分配定律:当你有固定的"稀疏参数"预算时,20-25%应该用于记忆(Engram),其余用于计算(MoE)。超过25%用于记忆,你就会饿死推理端。少于20%,模型就花计算力在它本应直接查找的事实上。
第二——这是让我重新阅读该段落的部分——Engram的嵌入表可以卸载到系统DRAM而不是GPU HBM。一个1000亿参数的嵌入表放在便宜的DDR内存上,吞吐量损失不到3%。Tom's Hardware称这是"将计算与RAM解耦的内存突破"。确实如此。Engram是1.6T参数模型能够装在通常无法容纳1.6T参数推理硬件上的原因。
基准影响:在27B参数原型中,Needle-in-a-Haystack准确率从84.2%跳升到97%,知识/推理/编码分数各提升了3-5分。3到5分在27B规模上是巨大的。
"不应该有效"的部分:学习模型中的确定性记忆感觉像作弊。在某种意义上确实如此。论文明确表达的教训是对于静态事实,学习是错误的工具。哈希总是会赢。我们只是还没正确地把它连接到transformer上。
4、技巧4:Muon优化器 + 哈希路由
让整个系统可训练的两个较小技巧。
前三个技巧如果没有两个不起眼的训练端决策是无法工作的。我把它们放在一起,因为每个单独看都是脚注,但在一起它们是让训练按时完成的关键。
Muon优化器在大多数参数上替代了AdamW。Muon使用Newton-Schulz迭代对梯度更新矩阵进行正交化——几轮矩阵乘法递归,将梯度的所有奇异值推向1。效果是更新"平衡"了:没有单一方向主导步骤,收敛在万亿参数规模上比AdamW更快更稳定。
不过DeepSeek并非在所有地方都使用Muon。AdamW保留在嵌入模块、输出预测头、所有RMSNorm模块和mHC的静态部分。模式是:在你需要在巨大梯度范数下保持稳定性的地方使用Muon(即MoE和注意力层,1.6T参数在那里承担重任),在已经证明有效且不想冒险倒退的地方使用AdamW。
类比:Muon是一个步伐完全均匀的跑者。他们覆盖地面更快,因为没有哪一步比其余步骤长得多或短得多。AdamW是一个不错但偶尔迈一大步并在马拉松200小时时拉伤腿筋的跑者。在1.6T规模上,你承受不起拉伤腿筋。
前3个MoE层中的哈希路由是第二个小技巧。标准MoE通过学习的路由器将每个token路由到专家——模型即时决定为这个特定token咨询N个专家中的哪2个。这在模型训练良好时很好,但在训练开始时,学习的路由器是随机的,产生无意义的路由。前几层特别脆弱,因为它们最接近原始输入。
DeepSeek的修复方案:在前3个MoE层中,通过token ID的固定哈希而不是学习的路由器进行路由。Token"the"总是去同一个专家。Token"deepseek"总是去另一个固定专家。不需要学习。V3中原本在那里的密集FFN完全被这个Hash-MoE块替代。其余层使用标准的DeepSeekMoE学习路由。
"不应该有效"的部分:基于哈希的路由在纸面上比学习路由更笨。它不能适应。但在网络早期,你不希望它适应——你想要在最输入敏感的层上有稳定的、确定性的、永不负载不平衡的路由。更深的层,表示已经抽象化,使用更聪明的学习路由器。
还有两个小升级值得注意:V4使用**sqrt(softplus)**代替sigmoid进行专家亲和度评分(零附近梯度更平滑),并取消了路由目标节点的上限(一个针对大集群训练的负载平衡修复)。
5、这4个技巧实际上给你带来了什么
数据。
以下是与V3.2和闭源前沿的真实比较,数据来源为官方模型卡和Simon Willison的定价分析:
| 指标 | DeepSeek V3.2 | DeepSeek V4-Flash | DeepSeek V4-Pro | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|---|
| 总参数 | 671B | 284B | 1.6T | 未公开 | 未公开 |
| 活跃参数 | 37B | 13B | 49B | 未公开 | 未公开 |
| 上下文 | 128K | 1M | 1M | 200K | 400K |
| KV缓存 @1M | 基线 | 不适用 | V3.2的10% | 不适用 | 不适用 |
| 推理FLOPs @1M | 基线 | 不适用 | V3.2的27% | 不适用 | 不适用 |
| MMLU-Pro | 81.4 | 80.1 | 87.5 | 89.2 | 88.4 |
| GPQA Diamond | 78.5 | 76.4 | 90.1 | 91.7 | 90.3 |
| SWE-Bench Verified | 71.8 | 73.4 | 80.6 | 80.8 | 79.1 |
| 输入 $/M tokens | $0.27 | $0.14 | $1.74 | $5.00 | $1.25 |
| 输出 $/M tokens | $1.10 | $0.28 | $3.48 | $25.00 | $10.00 |
V4-Flash在每项基准测试上匹配或超越V3.2,同时成本大约是一半。V4-Pro在SWE-Bench Verified上与Claude Opus 4.7差距0.2分,输出价格只有七分之一。
6、5分钟内亲自尝试V4
V4-Pro权重在Hugging Face上以MIT风格许可证发布。现在尝试该模型最简单的方式是通过DeepSeek API:
pip install openai
export DEEPSEEK_API_KEY="your_key_here"
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1"
)
# V4-Flash — 便宜的那个
resp = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "Explain Compressed Sparse Attention in one paragraph."}]
)
print(resp.choices[0].message.content)
对于V4-Flash的本地推理(V4-Pro的1.6T参数无法装在消费级硬件上),vLLM是最快的路径:
pip install vllm
vllm serve deepseek-ai/DeepSeek-V4-Flash --max-model-len 1000000
如果你想看Engram记忆论文的参考实现,克隆公开仓库:
git clone https://github.com/deepseek-ai/Engram
cd Engram && pip install -e .
Engram README中有一个27B参数的示例,可以复现Needle-in-a-Haystack从84%到97%的跳升。
7、你应该关注哪个技巧?
如果你是应用工程师,技巧1(混合注意力)是你唯一直接感受到的——它是为什么1M上下文突然在生产中变得可负担的原因。用V4-Flash做任何你以前会通过RAG处理200K token文档的事情。
如果你是训练自己模型的研究人员,技巧2(mHC)是最可复用的。Birkhoff多面体约束的混合矩阵是一个30行的PyTorch改动,它泛化到任何使用残差连接的架构。实现在github.com/tokenbender/mHC-manifold-constrained-hyper-connections。
如果你是考虑部署经济性的系统工程师,技巧3(Engram)值得关注的。DRAM卸载模式将模型容量与GPU内存解耦,这是今天99%生产推理的约束瓶颈。预计其他所有实验室会在6个月内推出自己的Engram类似物。
如果你是构建推理基础设施,技巧4(Muon + 哈希路由)是值得学习的那个。Muon正被广泛采用——Kimi K2今年早些时候就使用了它——输入层中的哈希路由在大多数MoE框架中是一行配置更改。
8、结束语
对V4"没有缩小与美国前沿差距"的批评要善意解读。在原始能力上,这大致正确——Opus 4.7仍然在SWE-Bench Pro上领先(64.3 vs 55.4),闭源实验室在最困难的推理基准上领先。在经济性上,V4遥遥领先,根本不在同一对话中。一个接近Opus水平的模型输出价格0.28美元是一种完全不同类别的产品。
但论文提出的更有趣的问题是架构性的。DeepSeek不再通过数据规模或计算规模取胜——他们通过你堆叠了什么技巧取胜。混合注意力加mHC加Engram加Muon加哈希路由。4个技巧中没有哪个单独是神奇的。但在一起,它们让一个1.6T模型像100B模型一样适配、训练、服务和定价。
开源模型设计的下一年将是关于复制这个技术栈并添加第五个技巧。我敢打赌,你们大多数人在2026年底前将运行至少基于这4个想法中2个的模型,无论你是否曾经加载过V4本身。
原文链接: DeepSeek V4's Paper Has 4 Tricks That Shouldn't Work — Here's Each One in Plain English
汇智网翻译整理,转载请标明出处