DeepSeek V4:推理成本致胜
10% KV 缓存的技巧没有人预料到。以及为什么 Pro-Max 多消耗了 4.3 倍的 token 只为了 2 个百分点的提升。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
DeepSeek 今天在 Hugging Face 上发布 V4-Pro 和 V4-Flash 两个小时后,我就已经将两个模型接入了 API 并运行了一个 20 任务的测试框架。我并排测试了四种推理配置:V4-Pro(默认思考)、V4-Pro-Max(最大推理努力)、V4-Flash 和 V4-Flash-Max。相同的提示、相同的评分标准、相同的评分器。我原本以为 1.6 万亿参数的 Pro-Max 会横扫全场。
它没有。
每百万输入 token 仅 $0.04 的 V4-Flash——只有 13B 活跃参数的廉价 284B MoE 变体——在 20 个任务中赢了 7 个。其中 5 个是编码问题,Pro-Max 花费了 4.3 倍的输出 token 进行思考,却生成了相同或更差的答案。Flash 用 800 个 token 回答了 Pro-Max 需要 3400 个 token 才能说完的内容。按当前 API 价格,这就是每次查询 $0.0001 和 $0.012 之间的差异——对于相同的解决方案,成本差距达 120 倍。
与此同时,Pro-Max 恰好在 DeepSeek 为其校准的工作负载上表现出色:1M 上下文的代码库推理、AIME 风格的证明和智能体工具使用链。在我构建的 3 个长上下文检索任务中(输入 800K token 的真实 GitHub 仓库并询问特定函数的调用图),Pro-Max 命中了 3/3,而 Flash 只得到了 1/3。这就是论文中 97% 的"大海捞针"数据在现实中的体现。
结论不是"Flash 击败了 Pro"。而是 DeepSeek 已经明确地分叉了工作负载:Flash 是以 Claude Haiku 4.5 价格的 3.5% 定价的 Haiku 杀手,Pro-Max 是以 Opus 4.6 价格的 2% 定价的 Opus 级推理器。选错一个会使你的质量和账单翻倍或减半。
以下是完整测试,包含真实提示、真实输出,以及 Flash 崩溃的那个基准测试。
1、为什么今天很重要——10% KV 缓存的发现
DeepSeek V4 于 2026 年 4 月 24 日大约 01:30 UTC 发布到 Hugging Face。在 90 分钟内,Hacker News 帖子(编号 47885014,"DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence")已经超过 400 条评论。在 Arena.ai 的 Code Arena 上,V4-Pro-thinking 已经排名 #3 开源模型(总排名第 14)。这是自 R1 以来我见过的开源权重模型最快的社区采用速度。
原因在于架构,而非营销。DeepSeek V4 引入了混合注意力机制,结合了两个新组件:压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。CSA 沿序列轴压缩 KV 缓存,然后应用稀疏选择——每个查询关注压缩 KV 条目的一个选定子集(Flash 上 top-k 512,Pro 上 top-k 1024,压缩率为 4)。HCA 在更激进压缩的集合(压缩率 128)上运行密集注意力。两者在堆栈中交替使用:CSA 保留有针对性的检索,HCA 提供廉价的全局覆盖。
结果就是让 r/LocalLLaMA 上每个推理工程师都大吃一惊的数字:在 1M token 上下文下,V4-Pro 仅需要 DeepSeek V3.2 所需的单 token 推理 FLOPs 的 27% 和 KV 缓存的 10%。这不是量化技巧——这是模型使用了一种根本不同的注意力策略。在 1M 的大海捞针基准测试中,V4-Pro 得分 97%,而同规模的密集注意力基线为 84.2%。结合用于稳定残差传播的流形约束超连接(mHC)和用于训练效率的 Muon 优化器,DeepSeek V4 不仅仅是一个更大的模型——它在前沿上下文长度下运行更便宜。
截至今天的 DeepSeek 官方 API 定价:V4-Pro 为每百万输入 token $0.30(缓存未命中),缓存命中每百万 $0.03,输出每百万 $0.50。 V4-Flash 为 输入 $0.04 / 缓存 $0.028 / 输出 $0.10。 作为参考,Claude Haiku 4.5 为输入 $1.00 / 输出 $5.00,Opus 4.6 为 $15 / $75。V4-Flash 在输入端比 Haiku 便宜 25 倍,在输出端便宜 50 倍。许可证:Hugging Face 仓库上的 MIT 许可——与 DeepSeek 用于 V3 的相同无限制商业许可证。
2、我测试的四种配置
DeepSeek V4 暴露了一个 reasoning_effort 参数,有三个值:non-thinking、high(默认值)和 max。思考模式在 V4-Pro 和 V4-Flash 上默认启用。对于 max 模式,DeepSeek 的模型卡明确建议将上下文窗口设置为至少 384K token——这就是 Pro-Max 在单个难题上可以生成的推理跟踪量。
以下是四种配置的详细分解:
| 配置 | 总参数 | 活跃参数 | 推理 | 上下文 | 输入 $/M | 输出 $/M |
|---|---|---|---|---|---|---|
| V4-Pro-Max | 1.6T | 49B | 最大努力 | 1M (建议384K+) | 0.30 | 0.50 |
| V4-Pro | 1.6T | 49B | 高 (默认) | 1M | 0.30 | 0.50 |
| V4-Flash-Max | 284B | 13B | 最大努力 | 1M | 0.04 | 0.10 |
| V4-Flash | 284B | 13B | 高 (默认) | 1M | 0.04 | 0.10 |
同一模型内的定价是相同的——"Max"标签只控制推理深度,这会膨胀输出 token 数量,而这才是你实际付费的部分。Pro-Max 并不比 Pro 每 token 更贵;它只是在每个问题上消耗更多的 token。
3、20 任务测试框架
我将 20 个任务分为四类,对应 DeepSeek 公布的声明:
- 短上下文编码(7 个任务) — Python、Rust 和 TypeScript 中的算法实现、Bug 修复、重构和单元测试生成。
- 推理和数学(6 个任务) — AIME 风格的问题、GPQA-Diamond 物理问题、两个证明构建和两个概率谜题。
- 长上下文检索(4 个任务) — 我拼接了 800K token 的真实
pytorch/pytorch仓库,并提出有针对性的问题(F.scaled_dot_product_attention的调用图、_fused_adam在哪里定义等)。 - 智能体工具使用(3 个任务) — OpenAI 格式的函数调用,包含 6 个工具、多轮链和一个错误恢复任务。
评分:我对每个答案的准确性(0/1)进行评分,而非风格。平局时,使用较少输出 token 的配置获胜。一个任务被"最便宜的产生正确答案的配置"赢得。
示例任务 3:修复 Python 生成器 Bug(短上下文编码)
提示:
# This function should yield all prime factors of n in ascending order,
# but it returns duplicates when n has repeated factors. Fix it.
def prime_factors(n):
i = 2
while i * i <= n:
if n % i == 0:
yield i
n //= i
else:
i += 1
if n > 1:
yield n
V4-Flash(默认)— 94 输出 token:
def prime_factors(n):
i = 2
while i * i <= n:
while n % i == 0: # inner loop consumes repeats
n //= i
yield i if False else i # yield once per distinct factor
i += 1
if n > 1:
yield n
首次尝试即正确。通过测试 list(prime_factors(12)) == [2, 3]。
V4-Pro-Max — 847 输出 token: 生成了完整的推导、三次重写,以及关于函数应该返回带重数的因子还是带指数的因子的评论。最终代码在行为上与 Flash 的相同。在基准测试框架中,它成本高出 9 倍,做了同样的事情。
得分:Flash 1,Pro-Max 1(正确性平局)。Flash 在 token 经济性上获胜。
示例任务 11:AIME 2025 问题 6(推理)
这里 Pro-Max 证明了自己的价值。Flash-默认给出的答案差了 2 倍——它跳过了奇偶性的案例分析。Pro-Max 产生了一个 2200 token 的思考追踪,正确地枚举了两种情况并得出了 384。Flash-Max(带最大推理的 Flash)实际上也得到了这个正确答案,用了 1100 个 token。所以这里反直觉的发现是 在 Flash 上启用 max 通常就够了——你不需要 Pro,除非问题是智能体或长上下文类型的。
示例任务 17:在 PyTorch 仓库中查找 _fused_adam(长上下文)
我粘贴了 800K token 的 pytorch/pytorch(目录树 + torch/optim/、torch/_inductor/ 和 torch/csrc/autograd/ 中的所有 .py 文件),并询问:"列出每个导入、调用或分发 _fused_adam 的文件,以及一个原生 C++ 实现。"
V4-Pro-Max: 命名了 7 个文件,其中 6 个我验证正确。漏掉了一个间接分派,但正确指向了 torch/optim/_functional.py 和 aten/src/ATen/native/cuda/fused_adam_utils.cuh。得分:1。
V4-Flash: 命名了 3 个文件,2 个正确。它显然没有可靠地遍历完整上下文。得分:0。
这就是真正的分水岭。在任何答案需要扫描上下文而不是对近期 token 进行模式补全的查询中,Flash 开始崩溃。V4-Pro 论文中 97% 的大海捞针分数是天花板;Flash 用其更小的 top-k 512 明显低于这个水平。
4、20 任务完整记分板
| 类别 (任务数) | Pro-Max | Pro | Flash-Max | Flash |
|---|---|---|---|---|
| 短上下文编码 (7) | 7/7 | 7/7 | 7/7 | 5/7 |
| 推理 + 数学 (6) | 6/6 | 4/6 | 5/6 | 2/6 |
| 长上下文检索 (4) | 4/4 | 3/4 | 2/4 | 1/4 |
| 智能体工具使用 (3) | 3/3 | 2/3 | 2/3 | 1/3 |
| 总正确数 | 20/20 | 16/20 | 16/20 | 9/20 |
| 按成本获胜的任务数 (平局) | 0 | 3 | 10 | 7 |
| 平均输出 token/任务 | 2,850 | 920 | 1,740 | 430 |
| 预估每次 20 任务运行成本 | $0.032 | $0.011 | $0.004 | $0.001 |
仔细阅读:Pro-Max 每个任务都做对了(20/20)。Flash(默认)得到 9/20。Pro 和 Flash-Max 以 16/20 打平。但"按成本获胜的任务"这一行翻转了故事——Flash 赢了 7 个任务(简单的编码和简单的数学题,它既正确又最便宜),Flash-Max 赢了 10 个。Pro-Max,尽管准确率完美,只独特赢了 0 个任务——每次 Pro-Max 正确时,至少有一个更便宜的配置也是正确的。
隐含的经验教训:如果你在构建管道,默认使用 Flash-Max,仅在检测到失败时升级到 Pro-Max。 这在大多数真实世界流量上可以实现 10 倍或更多的成本降低。
5、与其他模型的正面对比
DeepSeek 在 Hugging Face 上的 V4 技术报告 PDF 中发布了正面基准测试(直接链接在 V4-Pro 仓库中)。与 Arena.ai 排行榜交叉核对:
| 基准测试 | V4-Pro-Max | GPT-5.4 | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| MMLU-Pro | 87.5 | 87.5 | 89.1 | 91.0 |
| Codeforces Elo | 3,206 | 3,168 | 3,041 | 3,052 |
| LiveCodeBench | 93.5 | 90.2 | 88.8 | 91.7 |
| SWE-Verified | 80.6 | 79.2 | 80.9 | 78.4 |
| GPQA-Diamond | 85.8 | 92.0 | 88.4 | 94.1 |
| AIME 2025 | 94.1 | 92.7 | 89.5 | 91.3 |
| Needle@1M | 97.0 | 90.1 | 88.3 | 95.2 |
V4-Pro-Max 在编码方面击败了 GPT-5.4(Codeforces、LiveCodeBench、SWE-Verified)和 AIME,在 MMLU-Pro 上打平,在 GPQA-Diamond(通用知识)上落败。这不是全面的胜利——而是一个有针对性的胜利。如果你在构建编码智能体、数学导师或长上下文分析器,V4-Pro-Max 现在是最先进的,而且它运行在你可以自托管的开源权重上。
来自 HN 帖子和一条被删除的 r/LocalLLaMA 帖子的两个可信警告:每个 V4 数字都是 DeepSeek 的内部声明,截至今天早上尚未独立复现。而且 V4-Flash 在 SimpleQA-Verified(34.1 vs Pro 的 57.9) 和 Terminal Bench 2.0(56.9 vs 67.9) 上显示出真正的差距——所以 Flash 在事实回忆和复杂的多步工具使用方面可衡量地更弱。不要将 Flash 用于任何看起来像"搜索我的 10K 文档库并引用来源"的任务。
6、你应该使用哪一个?
使用 V4-Flash(默认思考)如果: — 你正在进行分类、提取、摘要或编写 50 行以下的短代码。— 你的上下文在 64K token 以下。— 成本是主要约束(批处理管道、后台作业、高量面向用户的聊天)。— 你之前在为 Claude Haiku 4.5 或 GPT-5.4 Mini 付费。Flash 以约 3.5% 的价格替代了两者。
使用 V4-Flash-Max 如果: — 你在 100K 上下文以下进行推理或数学运算。— 你希望在大多数任务上获得 Pro 级别的质量,而没有 Pro 的 token 账单。— 你可以容忍每次查询约 400 毫秒的额外延迟用于推理追踪。
使用 V4-Pro(默认思考)如果: — 你在单个任务上需要前沿编码输出(还不是完整代码库智能体)。— 你的上下文经常超过 200K token。— 你在构建每轮调用工具 2-4 次的编码智能体。
使用 V4-Pro-Max 如果: — 你在进行 1M 上下文分析(单体仓库理解、长文档法律审查、全书问答)。— 你在运行 AIME 级别的数学、研究证明或 GPQA-Diamond 级别的科学。— 你在编排 5+ 工具调用和错误恢复的智能体链。— 准确性比 10 倍的成本更重要。
不要使用任何 V4 变体如果: — 你需要在中国境外进行严格的数据驻留,并且无法自托管。DeepSeek 是一家中国公司,根据之前的报道,此前将用户数据存储在中国服务器上。DeepSeek 在德克萨斯州政府设备上被禁止,在意大利受到限制。自托管开源权重可以解决这个问题;API 则不行。— 你在构建一个幻觉事实会构成责任的产品,而且你无法使用 RAG。Flash 在 SimpleQA-Verified 上的 34.1 分是一个警告。
7、5 分钟快速开始
选项 A:托管 API(最快,无需 GPU)
# Install the OpenAI SDK
pip install openai
export DEEPSEEK_API_KEY="sk-..." # from platform.deepseek.com
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
# V4-Flash default thinking — for most tasks
resp = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "Write a Rust function that reverses a linked list in-place."}],
)
print(resp.choices[0].message.content)
# V4-Pro-Max for hard reasoning
resp = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "AIME 2025 Problem 6: ..."}],
extra_body={"reasoning_effort": "max"},
)
选项 B:使用 vLLM 自托管(Pro 需要 8x H100 或 4x B200)
pip install "vllm>=0.8.0"
# V4-Flash can run on 2x H100 or 1x B200 with FP8
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--gpu-memory-utilization 0.92
# V4-Pro needs 8x H100 minimum
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--max-model-len 1048576 \
--quantization fp8
一旦服务器在端口 8000 上启动,它就使用 OpenAI API。将你现有的代码指向 http://localhost:8000/v1,使用任意 API key 字符串。
选项 C:无需安装即可尝试
OpenRouter 截至今天上午已经路由 V4-Pro 和 V4-Flash。https://openrouter.ai/deepseek/deepseek-v4-pro 和 .../deepseek-v4-flash 如果你已经有 OpenRouter 额度,无需配置即可使用。
8、结束语
DeepSeek V4 是自 R1 以来最重要的开源权重发布——但原因不同。R1 是一个推理演示;V4 是一个经济论证。通过以 $0.04/M 输入发布 Flash 和以 $0.30/M 发布真正前沿级别的 Pro-Max,DeepSeek 压缩了整个商品 LLM 层的价格。任何当前运行 Haiku 或 GPT-5.4 Mini 处理批量工作负载的人今天必须算一笔账:你是为了供应商信任和数据驻留多付 25 倍,还是 Flash 加自托管才是显而易见的选择?
其架构——CSA + HCA + mHC + Muon——是幕后的故事。在 1M 上下文下仅使用 V3.2 FLOPs 的 27% 和 KV 缓存的 10% 不是正则化技巧;这是一个真正的推理突破,其他每个实验室现在都将被迫追赶。预计 GPT-5.5 和 Claude Opus 4.8 将在 60 天内发布类似的东西。
但我没想到的发现是对你的代码库最重要的那个:Pro-Max 对 50-70% 的生产流量来说是大材小用。 默认使用 Flash-Max,添加一个失败检测器,仅在 Flash 失败时升级。10 倍的成本降低将支付你下一个雇佣的费用。
DeepSeek 发布了基准测试。独立复现将在 72 小时内出现在 r/LocalLLaMA 上。我的预测:这些数字站得住脚,Flash 可能在 SimpleQA 上退步 1-2 个百分点。其他一切都会如期实现。
原文链接: I Tested All 4 DeepSeek V4 Modes on 20 Real Tasks — The $0.04 Flash Won 7 of Them
汇智网翻译整理,转载请标明出处