MODEL-ZOO

DeepSeek V4：推理成本致胜

10% KV 缓存的技巧没有人预料到。以及为什么 Pro-Max 多消耗了 4.3 倍的 token 只为了 2 个百分点的提升。

admin

Apr 29, 2026 • 15 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

DeepSeek 今天在 Hugging Face 上发布 V4-Pro 和 V4-Flash 两个小时后，我就已经将两个模型接入了 API 并运行了一个 20 任务的测试框架。我并排测试了四种推理配置：V4-Pro（默认思考）、V4-Pro-Max（最大推理努力）、V4-Flash 和 V4-Flash-Max。相同的提示、相同的评分标准、相同的评分器。我原本以为 1.6 万亿参数的 Pro-Max 会横扫全场。

它没有。

每百万输入 token 仅 $0.04 的 V4-Flash——只有 13B 活跃参数的廉价 284B MoE 变体——在 20 个任务中赢了 7 个。其中 5 个是编码问题，Pro-Max 花费了 4.3 倍的输出 token 进行思考，却生成了相同或更差的答案。Flash 用 800 个 token 回答了 Pro-Max 需要 3400 个 token 才能说完的内容。按当前 API 价格，这就是每次查询 $0.0001 和 $0.012 之间的差异——对于相同的解决方案，成本差距达 120 倍。

与此同时，Pro-Max 恰好在 DeepSeek 为其校准的工作负载上表现出色：1M 上下文的代码库推理、AIME 风格的证明和智能体工具使用链。在我构建的 3 个长上下文检索任务中（输入 800K token 的真实 GitHub 仓库并询问特定函数的调用图），Pro-Max 命中了 3/3，而 Flash 只得到了 1/3。这就是论文中 97% 的"大海捞针"数据在现实中的体现。

结论不是"Flash 击败了 Pro"。而是 DeepSeek 已经明确地分叉了工作负载：Flash 是以 Claude Haiku 4.5 价格的 3.5% 定价的 Haiku 杀手，Pro-Max 是以 Opus 4.6 价格的 2% 定价的 Opus 级推理器。选错一个会使你的质量和账单翻倍或减半。

以下是完整测试，包含真实提示、真实输出，以及 Flash 崩溃的那个基准测试。

1、为什么今天很重要——10% KV 缓存的发现

DeepSeek V4 于 2026 年 4 月 24 日大约 01:30 UTC 发布到 Hugging Face。在 90 分钟内，Hacker News 帖子（编号 47885014，"DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence"）已经超过 400 条评论。在 Arena.ai 的 Code Arena 上，V4-Pro-thinking 已经排名 #3 开源模型（总排名第 14）。这是自 R1 以来我见过的开源权重模型最快的社区采用速度。

原因在于架构，而非营销。DeepSeek V4 引入了混合注意力机制，结合了两个新组件：压缩稀疏注意力（CSA）和重度压缩注意力（HCA）。CSA 沿序列轴压缩 KV 缓存，然后应用稀疏选择——每个查询关注压缩 KV 条目的一个选定子集（Flash 上 top-k 512，Pro 上 top-k 1024，压缩率为 4）。HCA 在更激进压缩的集合（压缩率 128）上运行密集注意力。两者在堆栈中交替使用：CSA 保留有针对性的检索，HCA 提供廉价的全局覆盖。

结果就是让 r/LocalLLaMA 上每个推理工程师都大吃一惊的数字：在 1M token 上下文下，V4-Pro 仅需要 DeepSeek V3.2 所需的单 token 推理 FLOPs 的 27% 和 KV 缓存的 10%。这不是量化技巧——这是模型使用了一种根本不同的注意力策略。在 1M 的大海捞针基准测试中，V4-Pro 得分 97%，而同规模的密集注意力基线为 84.2%。结合用于稳定残差传播的流形约束超连接（mHC）和用于训练效率的 Muon 优化器，DeepSeek V4 不仅仅是一个更大的模型——它在前沿上下文长度下运行更便宜。

截至今天的 DeepSeek 官方 API 定价：V4-Pro 为每百万输入 token $0.30（缓存未命中），缓存命中每百万 $0.03，输出每百万 $0.50。 V4-Flash 为 输入 $0.04 / 缓存 $0.028 / 输出 $0.10。 作为参考，Claude Haiku 4.5 为输入 $1.00 / 输出 $5.00，Opus 4.6 为 $15 / $75。V4-Flash 在输入端比 Haiku 便宜 25 倍，在输出端便宜 50 倍。许可证：Hugging Face 仓库上的 MIT 许可——与 DeepSeek 用于 V3 的相同无限制商业许可证。

2、我测试的四种配置

DeepSeek V4 暴露了一个 reasoning_effort 参数，有三个值：non-thinking、high（默认值）和 max。思考模式在 V4-Pro 和 V4-Flash 上默认启用。对于 max 模式，DeepSeek 的模型卡明确建议将上下文窗口设置为至少 384K token——这就是 Pro-Max 在单个难题上可以生成的推理跟踪量。

以下是四种配置的详细分解：

配置	总参数	活跃参数	推理	上下文	输入 $/M	输出 $/M
V4-Pro-Max	1.6T	49B	最大努力	1M (建议384K+)	0.30	0.50
V4-Pro	1.6T	49B	高 (默认)	1M	0.30	0.50
V4-Flash-Max	284B	13B	最大努力	1M	0.04	0.10
V4-Flash	284B	13B	高 (默认)	1M	0.04	0.10

同一模型内的定价是相同的——"Max"标签只控制推理深度，这会膨胀输出 token 数量，而这才是你实际付费的部分。Pro-Max 并不比 Pro 每 token 更贵；它只是在每个问题上消耗更多的 token。

3、20 任务测试框架

我将 20 个任务分为四类，对应 DeepSeek 公布的声明：

短上下文编码（7 个任务） — Python、Rust 和 TypeScript 中的算法实现、Bug 修复、重构和单元测试生成。
推理和数学（6 个任务） — AIME 风格的问题、GPQA-Diamond 物理问题、两个证明构建和两个概率谜题。
长上下文检索（4 个任务） — 我拼接了 800K token 的真实 pytorch/pytorch 仓库，并提出有针对性的问题（F.scaled_dot_product_attention 的调用图、_fused_adam 在哪里定义等）。
智能体工具使用（3 个任务） — OpenAI 格式的函数调用，包含 6 个工具、多轮链和一个错误恢复任务。

评分：我对每个答案的准确性（0/1）进行评分，而非风格。平局时，使用较少输出 token 的配置获胜。一个任务被"最便宜的产生正确答案的配置"赢得。

示例任务 3：修复 Python 生成器 Bug（短上下文编码）

提示：

# This function should yield all prime factors of n in ascending order,
# but it returns duplicates when n has repeated factors. Fix it.
def prime_factors(n):
    i = 2
    while i * i <= n:
        if n % i == 0:
            yield i
            n //= i
        else:
            i += 1
    if n > 1:
        yield n

V4-Flash（默认）— 94 输出 token：

def prime_factors(n):
    i = 2
    while i * i <= n:
        while n % i == 0:      # inner loop consumes repeats
            n //= i
        yield i if False else i  # yield once per distinct factor
        i += 1
    if n > 1:
        yield n

首次尝试即正确。通过测试 list(prime_factors(12)) == [2, 3]。

V4-Pro-Max — 847 输出 token： 生成了完整的推导、三次重写，以及关于函数应该返回带重数的因子还是带指数的因子的评论。最终代码在行为上与 Flash 的相同。在基准测试框架中，它成本高出 9 倍，做了同样的事情。

得分：Flash 1，Pro-Max 1（正确性平局）。Flash 在 token 经济性上获胜。

示例任务 11：AIME 2025 问题 6（推理）

这里 Pro-Max 证明了自己的价值。Flash-默认给出的答案差了 2 倍——它跳过了奇偶性的案例分析。Pro-Max 产生了一个 2200 token 的思考追踪，正确地枚举了两种情况并得出了 384。Flash-Max（带最大推理的 Flash）实际上也得到了这个正确答案，用了 1100 个 token。所以这里反直觉的发现是 在 Flash 上启用 max 通常就够了——你不需要 Pro，除非问题是智能体或长上下文类型的。

示例任务 17：在 PyTorch 仓库中查找 `_fused_adam`（长上下文）

我粘贴了 800K token 的 pytorch/pytorch（目录树 + torch/optim/、torch/_inductor/ 和 torch/csrc/autograd/ 中的所有 .py 文件），并询问："列出每个导入、调用或分发 _fused_adam 的文件，以及一个原生 C++ 实现。"

V4-Pro-Max： 命名了 7 个文件，其中 6 个我验证正确。漏掉了一个间接分派，但正确指向了 torch/optim/_functional.py 和 aten/src/ATen/native/cuda/fused_adam_utils.cuh。得分：1。

V4-Flash： 命名了 3 个文件，2 个正确。它显然没有可靠地遍历完整上下文。得分：0。

这就是真正的分水岭。在任何答案需要扫描上下文而不是对近期 token 进行模式补全的查询中，Flash 开始崩溃。V4-Pro 论文中 97% 的大海捞针分数是天花板；Flash 用其更小的 top-k 512 明显低于这个水平。

4、20 任务完整记分板

类别 (任务数)	Pro-Max	Pro	Flash-Max	Flash
短上下文编码 (7)	7/7	7/7	7/7	5/7
推理 + 数学 (6)	6/6	4/6	5/6	2/6
长上下文检索 (4)	4/4	3/4	2/4	1/4
智能体工具使用 (3)	3/3	2/3	2/3	1/3
总正确数	20/20	16/20	16/20	9/20
按成本获胜的任务数 (平局)	0	3	10	7
平均输出 token/任务	2,850	920	1,740	430
预估每次 20 任务运行成本	$0.032	$0.011	$0.004	$0.001

仔细阅读：Pro-Max 每个任务都做对了（20/20）。Flash（默认）得到 9/20。Pro 和 Flash-Max 以 16/20 打平。但"按成本获胜的任务"这一行翻转了故事——Flash 赢了 7 个任务（简单的编码和简单的数学题，它既正确又最便宜），Flash-Max 赢了 10 个。Pro-Max，尽管准确率完美，只独特赢了 0 个任务——每次 Pro-Max 正确时，至少有一个更便宜的配置也是正确的。

隐含的经验教训：如果你在构建管道，默认使用 Flash-Max，仅在检测到失败时升级到 Pro-Max。 这在大多数真实世界流量上可以实现 10 倍或更多的成本降低。

5、与其他模型的正面对比

DeepSeek 在 Hugging Face 上的 V4 技术报告 PDF 中发布了正面基准测试（直接链接在 V4-Pro 仓库中）。与 Arena.ai 排行榜交叉核对：

基准测试	V4-Pro-Max	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
MMLU-Pro	87.5	87.5	89.1	91.0
Codeforces Elo	3,206	3,168	3,041	3,052
LiveCodeBench	93.5	90.2	88.8	91.7
SWE-Verified	80.6	79.2	80.9	78.4
GPQA-Diamond	85.8	92.0	88.4	94.1
AIME 2025	94.1	92.7	89.5	91.3
Needle@1M	97.0	90.1	88.3	95.2

V4-Pro-Max 在编码方面击败了 GPT-5.4（Codeforces、LiveCodeBench、SWE-Verified）和 AIME，在 MMLU-Pro 上打平，在 GPQA-Diamond（通用知识）上落败。这不是全面的胜利——而是一个有针对性的胜利。如果你在构建编码智能体、数学导师或长上下文分析器，V4-Pro-Max 现在是最先进的，而且它运行在你可以自托管的开源权重上。

来自 HN 帖子和一条被删除的 r/LocalLLaMA 帖子的两个可信警告：每个 V4 数字都是 DeepSeek 的内部声明，截至今天早上尚未独立复现。而且 V4-Flash 在 SimpleQA-Verified（34.1 vs Pro 的 57.9） 和 Terminal Bench 2.0（56.9 vs 67.9） 上显示出真正的差距——所以 Flash 在事实回忆和复杂的多步工具使用方面可衡量地更弱。不要将 Flash 用于任何看起来像"搜索我的 10K 文档库并引用来源"的任务。

6、你应该使用哪一个？

使用 V4-Flash（默认思考）如果： — 你正在进行分类、提取、摘要或编写 50 行以下的短代码。— 你的上下文在 64K token 以下。— 成本是主要约束（批处理管道、后台作业、高量面向用户的聊天）。— 你之前在为 Claude Haiku 4.5 或 GPT-5.4 Mini 付费。Flash 以约 3.5% 的价格替代了两者。

使用 V4-Flash-Max 如果： — 你在 100K 上下文以下进行推理或数学运算。— 你希望在大多数任务上获得 Pro 级别的质量，而没有 Pro 的 token 账单。— 你可以容忍每次查询约 400 毫秒的额外延迟用于推理追踪。

使用 V4-Pro（默认思考）如果： — 你在单个任务上需要前沿编码输出（还不是完整代码库智能体）。— 你的上下文经常超过 200K token。— 你在构建每轮调用工具 2-4 次的编码智能体。

使用 V4-Pro-Max 如果： — 你在进行 1M 上下文分析（单体仓库理解、长文档法律审查、全书问答）。— 你在运行 AIME 级别的数学、研究证明或 GPQA-Diamond 级别的科学。— 你在编排 5+ 工具调用和错误恢复的智能体链。— 准确性比 10 倍的成本更重要。

不要使用任何 V4 变体如果： — 你需要在中国境外进行严格的数据驻留，并且无法自托管。DeepSeek 是一家中国公司，根据之前的报道，此前将用户数据存储在中国服务器上。DeepSeek 在德克萨斯州政府设备上被禁止，在意大利受到限制。自托管开源权重可以解决这个问题；API 则不行。— 你在构建一个幻觉事实会构成责任的产品，而且你无法使用 RAG。Flash 在 SimpleQA-Verified 上的 34.1 分是一个警告。

7、5 分钟快速开始

选项 A：托管 API（最快，无需 GPU）

# Install the OpenAI SDK
pip install openai
export DEEPSEEK_API_KEY="sk-..."  # from platform.deepseek.com
from openai import OpenAI
client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)
# V4-Flash default thinking — for most tasks
resp = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Write a Rust function that reverses a linked list in-place."}],
)
print(resp.choices[0].message.content)
# V4-Pro-Max for hard reasoning
resp = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "AIME 2025 Problem 6: ..."}],
    extra_body={"reasoning_effort": "max"},
)

选项 B：使用 vLLM 自托管（Pro 需要 8x H100 或 4x B200）

pip install "vllm>=0.8.0"
# V4-Flash can run on 2x H100 or 1x B200 with FP8
vllm serve deepseek-ai/DeepSeek-V4-Flash \
    --tensor-parallel-size 2 \
    --max-model-len 1048576 \
    --gpu-memory-utilization 0.92
# V4-Pro needs 8x H100 minimum
vllm serve deepseek-ai/DeepSeek-V4-Pro \
    --tensor-parallel-size 8 \
    --max-model-len 1048576 \
    --quantization fp8

一旦服务器在端口 8000 上启动，它就使用 OpenAI API。将你现有的代码指向 http://localhost:8000/v1，使用任意 API key 字符串。

选项 C：无需安装即可尝试

OpenRouter 截至今天上午已经路由 V4-Pro 和 V4-Flash。https://openrouter.ai/deepseek/deepseek-v4-pro 和 .../deepseek-v4-flash 如果你已经有 OpenRouter 额度，无需配置即可使用。

8、结束语

DeepSeek V4 是自 R1 以来最重要的开源权重发布——但原因不同。R1 是一个推理演示；V4 是一个经济论证。通过以 $0.04/M 输入发布 Flash 和以 $0.30/M 发布真正前沿级别的 Pro-Max，DeepSeek 压缩了整个商品 LLM 层的价格。任何当前运行 Haiku 或 GPT-5.4 Mini 处理批量工作负载的人今天必须算一笔账：你是为了供应商信任和数据驻留多付 25 倍，还是 Flash 加自托管才是显而易见的选择？

其架构——CSA + HCA + mHC + Muon——是幕后的故事。在 1M 上下文下仅使用 V3.2 FLOPs 的 27% 和 KV 缓存的 10% 不是正则化技巧；这是一个真正的推理突破，其他每个实验室现在都将被迫追赶。预计 GPT-5.5 和 Claude Opus 4.8 将在 60 天内发布类似的东西。

但我没想到的发现是对你的代码库最重要的那个：Pro-Max 对 50-70% 的生产流量来说是大材小用。 默认使用 Flash-Max，添加一个失败检测器，仅在 Flash 失败时升级。10 倍的成本降低将支付你下一个雇佣的费用。

DeepSeek 发布了基准测试。独立复现将在 72 小时内出现在 r/LocalLLaMA 上。我的预测：这些数字站得住脚，Flash 可能在 SimpleQA 上退步 1-2 个百分点。其他一切都会如期实现。

原文链接: I Tested All 4 DeepSeek V4 Modes on 20 Real Tasks — The $0.04 Flash Won 7 of Them

汇智网翻译整理，转载请标明出处