DeepSeek DSpark 让推理提速85%

DeepSeek再次推动了LLM推理的边界。

这一次,他们并没有发布全新的基础模型。相反,他们推出了DSpark,一个推测解码框架,使现有的DeepSeek模型生成响应速度提升60-85%,同时保持相同的输出质量。

最有趣的部分?

DeepSeek没有重新训练其旗舰模型。DeepSeek V4 Pro DSpark使用了完全相同的V4 Pro检查点,只是在上面附加了一个额外的推理模块。

换句话说,智能水平保持不变。只是模型生成文本的方式发生了变化。让我们来了解DSpark的确切工作原理。

1、大型语言模型的真正瓶颈

训练LLM成本高昂。 运行它往往更加昂贵。

每当模型生成文本时,它一次预测一个token

Input
 ↓
Token 1
 ↓
Token 2
 ↓
Token 3
 ↓
Token 4
  • 每个token都需要一次完整的前向传播,穿过数十亿参数。
  • 即使在强大的GPU上,这种顺序生成也成为主要的推理瓶颈。

这就是聊天机器人有时尽管运行在庞大的GPU集群上,却仍然"打字"缓慢的原因。DeepSeek的目标不是构建更智能的模型,而是让现有模型减少思考次数

2、推测解码登场

DSpark建立在一种称为推测解码的技术之上。

推测解码的核心思想很简单:与其让大型模型逐字预测,不如使用一个小得多的"草稿"模型快速生成候选token,然后让大模型一次性验证多个token。

例如,对于如下提示:

The capital of France is

草稿模型预测:

Paris and it

而不是仅生成一个token:

Paris

草稿模型会预测整个序列,大模型负责验证这个序列。

这个过程类似于代码审查中的结对编程:

  • 初级开发者(草稿模型)快速编写代码草案
  • 高级开发者(主模型)审查并批准或修正

当草稿模型与主模型的预测一致时,推理速度会显著提升,同时输出质量与主模型单独生成时完全相同。

3、传统推测解码的两大主要问题

首先,草稿模型并非免费——它也需要计算资源。其次,如果草稿模型预测频繁出错,验证阶段的拒绝率会很高,最终可能比普通推理更慢。

3.1 问题1:并行草稿token互不理解

大多数推测解码实现会并行生成多个草稿token以节省时间。但这里有一个根本性问题:这些并行生成的草稿token在生成时彼此互不可见

这就像让五个人同时为一个句子贡献下一个词,却不让他们看到彼此写了什么。即使每个人都做出合理的选择,组合起来的结果也是不连贯的。

DSpark的第一个创新:序列感知

DSpark的序列感知机制让草稿模型稍微超前一步,允许每个连续的草稿token看到前一个token生成的中间状态。

这确保了草案在生成时已经考虑了前面的输出,从而提高了连贯性和接受率。

3.2 问题2:验证也很昂贵

传统方法中,主模型用完整的前向传播来验证草稿token。如果接受率很高,这是值得的。但每次拒绝都意味着一次浪费的计算。

DSpark的第二个创新:基于置信度的调度

传统验证:无条件拒绝或接受每个草稿token。DSpark方法:评估模型对每个预测的置信度。预测高度可信时,模型一次性接受更多草稿token。预测不确定时,模型回退到逐个token的生成。

这种置信度感知调度将每次验证的计算量分配到最需要的地方。

4、工作原理、基准测试及其他

一次DSpark推理周期的工作原理:

  1. 草稿模型根据当前上下文快速生成一系列候选草稿token。
  2. 主模型通过一次前向传播并行评估所有草稿token,同时计算每个token的置信度分数。
  3. 基于置信度分析,系统决定每个位置接受或拒绝哪些草稿token。
  4. 已接受的token作为输出发出,已拒绝的位置由主模型重新生成。然后窗口向前滑动,过程重复。

在标准基准测试中,DSpark在保持相同准确率的同时展示了一致的加速效果。加速比因任务类型从60%到85%不等:

  • 代码生成和结构化输出任务收益最大(草稿模型更容易预测)
  • 创意写作任务收益较小(草稿预测准确性较低)

在生产环境中,DSpark已部署到DeepSeek的API基础设施中,为所有DeepSeek V4 Pro请求提供低延迟推理。延迟降低约70%,吞吐量大幅提升,使用户体验更快,同时降低运营成本。

DeepSeek已在宽松许可证下发布了完整的DSpark框架,包括训练配方、部署脚本、草稿模型权重以及与HuggingFace transformers的集成。

对于使用DeepSeek V4 Pro DSpark的开发者,消息格式有一个细微的变化。标准ChatML格式的messages数组现在需要包含一个系统消息,用于指定推理模式和草稿行为。

5、DSpark为何重要

大多数最新突破都集中在使语言模型更大。DSpark则专注于使它们更快。这个区别很重要。推理成本已成为AI公司最大的运营挑战之一。

如果现有模型能以更少的计算量生成相同的响应,每个部署都能受益:

  • 更低的GPU成本
  • 更高的请求吞吐量
  • 更低的延迟
  • 更好的用户体验

6、结束语

DSpark不是一个新语言模型。它是一个更智能的推理引擎。

通过解决推测解码的两个最大弱点——草稿质量差和验证效率低——DeepSeek证明了实质性的性能提升并不总是需要更大的模型或更多的GPU。有时,最大的收益来自于重新思考推理本身的执行方式。

据报道速度提升高达85%,加上开源训练配方和生产级实现细节,DSpark很可能会影响下一代LLM服务框架。

如果推理效率变得与模型质量同等重要,DSpark可能是今年最有影响力的基础设施发布之一。


原文链接: DeepSeek DSpark : 85% faster LLM inferencing

汇智网翻译整理,转载请标明出处