DeepSeek DSpark 让推理提速85%

DeepSeek再次推动了LLM推理的边界。

这一次，他们并没有发布全新的基础模型。相反，他们推出了DSpark，一个推测解码框架，使现有的DeepSeek模型生成响应速度提升60-85%，同时保持相同的输出质量。

最有趣的部分？

DeepSeek没有重新训练其旗舰模型。DeepSeek V4 Pro DSpark使用了完全相同的V4 Pro检查点，只是在上面附加了一个额外的推理模块。

换句话说，智能水平保持不变。只是模型生成文本的方式发生了变化。让我们来了解DSpark的确切工作原理。

1、大型语言模型的真正瓶颈

训练LLM成本高昂。运行它往往更加昂贵。

每当模型生成文本时，它一次预测一个token。

Input
 ↓
Token 1
 ↓
Token 2
 ↓
Token 3
 ↓
Token 4

每个token都需要一次完整的前向传播，穿过数十亿参数。
即使在强大的GPU上，这种顺序生成也成为主要的推理瓶颈。

这就是聊天机器人有时尽管运行在庞大的GPU集群上，却仍然"打字"缓慢的原因。DeepSeek的目标不是构建更智能的模型，而是让现有模型减少思考次数。

2、推测解码登场

DSpark建立在一种称为推测解码的技术之上。

推测解码的核心思想很简单：与其让大型模型逐字预测，不如使用一个小得多的"草稿"模型快速生成候选token，然后让大模型一次性验证多个token。

例如，对于如下提示：

The capital of France is

草稿模型预测：

Paris and it

而不是仅生成一个token：

Paris

草稿模型会预测整个序列，大模型负责验证这个序列。

这个过程类似于代码审查中的结对编程：

初级开发者（草稿模型）快速编写代码草案
高级开发者（主模型）审查并批准或修正

当草稿模型与主模型的预测一致时，推理速度会显著提升，同时输出质量与主模型单独生成时完全相同。

3、传统推测解码的两大主要问题

首先，草稿模型并非免费——它也需要计算资源。其次，如果草稿模型预测频繁出错，验证阶段的拒绝率会很高，最终可能比普通推理更慢。

3.1 问题1：并行草稿token互不理解

大多数推测解码实现会并行生成多个草稿token以节省时间。但这里有一个根本性问题：这些并行生成的草稿token在生成时彼此互不可见。

这就像让五个人同时为一个句子贡献下一个词，却不让他们看到彼此写了什么。即使每个人都做出合理的选择，组合起来的结果也是不连贯的。

DSpark的第一个创新：序列感知

DSpark的序列感知机制让草稿模型稍微超前一步，允许每个连续的草稿token看到前一个token生成的中间状态。

这确保了草案在生成时已经考虑了前面的输出，从而提高了连贯性和接受率。

3.2 问题2：验证也很昂贵

传统方法中，主模型用完整的前向传播来验证草稿token。如果接受率很高，这是值得的。但每次拒绝都意味着一次浪费的计算。

DSpark的第二个创新：基于置信度的调度

传统验证：无条件拒绝或接受每个草稿token。DSpark方法：评估模型对每个预测的置信度。预测高度可信时，模型一次性接受更多草稿token。预测不确定时，模型回退到逐个token的生成。

这种置信度感知调度将每次验证的计算量分配到最需要的地方。

4、工作原理、基准测试及其他

一次DSpark推理周期的工作原理：

草稿模型根据当前上下文快速生成一系列候选草稿token。
主模型通过一次前向传播并行评估所有草稿token，同时计算每个token的置信度分数。
基于置信度分析，系统决定每个位置接受或拒绝哪些草稿token。
已接受的token作为输出发出，已拒绝的位置由主模型重新生成。然后窗口向前滑动，过程重复。

在标准基准测试中，DSpark在保持相同准确率的同时展示了一致的加速效果。加速比因任务类型从60%到85%不等：

代码生成和结构化输出任务收益最大（草稿模型更容易预测）
创意写作任务收益较小（草稿预测准确性较低）

在生产环境中，DSpark已部署到DeepSeek的API基础设施中，为所有DeepSeek V4 Pro请求提供低延迟推理。延迟降低约70%，吞吐量大幅提升，使用户体验更快，同时降低运营成本。

DeepSeek已在宽松许可证下发布了完整的DSpark框架，包括训练配方、部署脚本、草稿模型权重以及与HuggingFace transformers的集成。

对于使用DeepSeek V4 Pro DSpark的开发者，消息格式有一个细微的变化。标准ChatML格式的messages数组现在需要包含一个系统消息，用于指定推理模式和草稿行为。

5、DSpark为何重要

大多数最新突破都集中在使语言模型更大。DSpark则专注于使它们更快。这个区别很重要。推理成本已成为AI公司最大的运营挑战之一。

如果现有模型能以更少的计算量生成相同的响应，每个部署都能受益：

更低的GPU成本
更高的请求吞吐量
更低的延迟
更好的用户体验

6、结束语

DSpark不是一个新语言模型。它是一个更智能的推理引擎。

通过解决推测解码的两个最大弱点——草稿质量差和验证效率低——DeepSeek证明了实质性的性能提升并不总是需要更大的模型或更多的GPU。有时，最大的收益来自于重新思考推理本身的执行方式。

据报道速度提升高达85%，加上开源训练配方和生产级实现细节，DSpark很可能会影响下一代LLM服务框架。

如果推理效率变得与模型质量同等重要，DSpark可能是今年最有影响力的基础设施发布之一。

原文链接: DeepSeek DSpark : 85% faster LLM inferencing

汇智网翻译整理，转载请标明出处