推理即产品,训练只是研发

我们发布AI助手的前一晚,我盯着笔记本电脑上的nvidia-smi。显存带宽已经拉满,而计算利用率只有12%。

就像一辆被困在车流中的法拉利——烧着油,却寸步难行。

我们的70B模型——最先进的,训练成本高昂——却像一个压力山大的图书管理员一样缓慢地输出token。用户要等三秒钟才能看到"Hello"。

就在那一刻,我清楚地意识到:训练是研发,推理才是产品。

这是一个团队的故事——所有隐含的前提条件都适用。但如果你是一位CTO或工程负责人,正在模型规模上投入巨资,而你的用户却盯着闪烁的光标发呆,我希望这能帮你省去一些痛苦。

1、大谎言:"更大的模型 = 更好的产品"

我们被灌输了一个简单的叙事:更大的模型能带来更好的智能。

于是我们训练更大的模型。 我们做基准测试。 我们庆祝胜利。

然后我们部署——现实给了我们当头一棒:

  • 首个token的响应时间超过2秒
  • 对话在回答过程中中断
  • 系统在适中的并发量下崩溃

用户不在乎你的70B模型。他们关心的是从提问到看到自然回复之间的0.4秒。

反直觉的真相:对于许多面向客户的场景——聊天、摘要、问答——一个较小的模型配合优化良好的推理栈,往往感觉上比一个延迟高、可靠性差的大模型更智能。

因为智能不仅仅是能力本身,它是通过速度和一致性被感知的

2、当7B方案行不通的时候

这就是需要细致分析的地方。我们的方案之所以有效,是因为我们的用例是一个处理相对简单查询的对话助手。

但这并不普遍适用。

如果你在构建:

  • 复杂的推理系统
  • 高级代码生成工具
  • 长上下文的Agent
  • 领域特定的专家系统

那么模型能力确实更重要

在这些场景下,较小的模型可能会完全破坏你的产品。

我们的领域对错误比较宽容,但并非所有领域都是如此。

3、真正起作用的三个层次

每个人都在谈论量化、批处理和投机解码。 但真正的问题是:你把赌注押在哪里?

3.1 量化:不是妥协,而是特性

我们最初把4-bit量化视为一种折衷。实际上,它变成了一种优势。延迟改善如此显著,以至于用户感觉模型更智能了。准确率变化微乎其微,但满意度却提高了。

经验:在生产环境中,速度是智能的一个特性。为用户体验优化——而不是为基准测试——除非你的用例需要精确度。

3.2 连续批处理 + 投机解码

转向连续批处理(通过vLLM)使吞吐量提高了三倍。

加上投机解码——使用较小的草稿模型——将生成速度从约45 token/秒提升到100以上。

P95延迟从约2.8秒降到0.7秒以下。

经验:延迟每减少100ms都能提升用户参与度。 推理架构不仅仅是工程——它是增长的杠杆。

3.3 硬件选择:匹配情感需求

我们尝试了不同的硬件配置,包括内部使用Groq。首token响应时间低于100ms时,体验感觉是即时的。一位产品经理形容它"像魔法一样"。

那一刻改变了我们对基础设施的思考方式。我们最终采用了混合方案:

  • GPU(A100)处理延迟敏感的工作负载
  • CPU(通过llama.cpp)处理批处理任务

经验:根据你想提供的体验来选择硬件。 速度创造愉悦,效率创造可持续性。

4、相邻层次:语义缓存和提示塑造

这些不是核心层次——但它们是强大的放大器。

我们引入了:

  • 语义缓存:使用向量存储
  • 缓存命中率:约20-30%
  • 缓存响应延迟:约0.02秒
  • 提示塑造
  • 几轮对话后总结对话历史
  • 减小KV缓存大小
  • 提升token生成效率约15%

这些优化加在一起,使我们推迟了原计划六个月的GPU升级。

经验:推理不仅仅是模型本身——而是围绕它的一切。

5、案例研究:我们实际观察到的结果

初始配置:

  • 70B模型
  • HuggingFace pipeline
  • 单个A100

结果:

  • P95延迟:4-5秒
  • 并发数:3-4个用户
  • 成本:约$2/百万token

经过十周的重新设计:

  • 7B微调模型(经过大多数查询验证)
  • 4-bit量化(AWQ)
  • vLLM带连续批处理和投机解码
  • 语义缓存(20-30%命中率)
  • 提示塑造
  • 混合硬件(GPU + CPU)

新结果:

  • P95延迟:0.6-0.9秒
  • 并发数:最高80个用户
  • 成本:$0.30-0.40/百万token
  • 基础设施成本:降低约45%
  • 用户留存:提升约35%(相关性)
  • 付费转化:六个月内提升15-20%

最重要的成果是什么? 团队停止了救火,重新开始建设。

6、诚实的免责声明

这不是一个通用的行动指南。

  • 我们的用例相对简单
  • 结果经过取整且依赖具体场景
  • 并非所有优化都通过受控实验进行了隔离验证
  • 部分结果是相关性,而非严格的因果关系

这些技术是真实的,但它们需要仔细的度量和迭代。

7、残酷的真相

大多数公司没有AI问题,但他们有一个伪装成AI的系统工程问题

我们责怪模型"太笨",而实际上它们是:

  • 带宽受限
  • 内存瓶颈
  • 调度不当
  • 服务效率低下

我们在训练上投入巨资——却在交付上投入不足。

8、下一步:毫秒经济

在未来几年,公司将不仅仅在模型规模上竞争。

他们将在以下方面竞争:

  • 延迟
  • 可靠性
  • 体验

推理架构正在成为竞争护城河,而今天,大多数组织正用茶匙在挖掘这条护城河。

9、最后的话:给过去的自己的备忘录

如果我能回到发布前夜,我会说:

模型是潜力。 推理是现实。 而用户只为现实买单。

我们花了几个月追逐更智能的模型。真正推动进展的,是让现有模型在关键任务上变得毫不费力。

在你投资更大的模型之前,问问:

我们真的需要它吗? 还是我们需要一个更好的推理系统?

如果你的团队不能清楚地回答这个问题,你不是在构建产品,而是在堆积参数。

——一个正在康复的模型规模最大化主义者


原文链接: Inference Is the Product. Training Is Just R&D.

汇智网翻译整理,转载请标明出处