APPLICATION

推理即产品，训练只是研发

为什么推理架构和模型本身同样重要——以及何时它并不那么重要。

admin

Apr 1, 2026 • 7 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

我们发布AI助手的前一晚，我盯着笔记本电脑上的nvidia-smi。显存带宽已经拉满，而计算利用率只有12%。

就像一辆被困在车流中的法拉利——烧着油，却寸步难行。

我们的70B模型——最先进的，训练成本高昂——却像一个压力山大的图书管理员一样缓慢地输出token。用户要等三秒钟才能看到"Hello"。

就在那一刻，我清楚地意识到：训练是研发，推理才是产品。

这是一个团队的故事——所有隐含的前提条件都适用。但如果你是一位CTO或工程负责人，正在模型规模上投入巨资，而你的用户却盯着闪烁的光标发呆，我希望这能帮你省去一些痛苦。

1、大谎言："更大的模型 = 更好的产品"

我们被灌输了一个简单的叙事：更大的模型能带来更好的智能。

于是我们训练更大的模型。我们做基准测试。我们庆祝胜利。

然后我们部署——现实给了我们当头一棒：

首个token的响应时间超过2秒
对话在回答过程中中断
系统在适中的并发量下崩溃

用户不在乎你的70B模型。他们关心的是从提问到看到自然回复之间的0.4秒。

反直觉的真相：对于许多面向客户的场景——聊天、摘要、问答——一个较小的模型配合优化良好的推理栈，往往感觉上比一个延迟高、可靠性差的大模型更智能。

因为智能不仅仅是能力本身，它是通过速度和一致性被感知的。

2、当7B方案行不通的时候

这就是需要细致分析的地方。我们的方案之所以有效，是因为我们的用例是一个处理相对简单查询的对话助手。

但这并不普遍适用。

如果你在构建：

复杂的推理系统
高级代码生成工具
长上下文的Agent
领域特定的专家系统

那么模型能力确实更重要。

在这些场景下，较小的模型可能会完全破坏你的产品。

我们的领域对错误比较宽容，但并非所有领域都是如此。

3、真正起作用的三个层次

每个人都在谈论量化、批处理和投机解码。但真正的问题是：你把赌注押在哪里？

3.1 量化：不是妥协，而是特性

我们最初把4-bit量化视为一种折衷。实际上，它变成了一种优势。延迟改善如此显著，以至于用户感觉模型更智能了。准确率变化微乎其微，但满意度却提高了。

经验：在生产环境中，速度是智能的一个特性。为用户体验优化——而不是为基准测试——除非你的用例需要精确度。

3.2 连续批处理 + 投机解码

转向连续批处理（通过vLLM）使吞吐量提高了三倍。

加上投机解码——使用较小的草稿模型——将生成速度从约45 token/秒提升到100以上。

P95延迟从约2.8秒降到0.7秒以下。

经验：延迟每减少100ms都能提升用户参与度。推理架构不仅仅是工程——它是增长的杠杆。

3.3 硬件选择：匹配情感需求

我们尝试了不同的硬件配置，包括内部使用Groq。首token响应时间低于100ms时，体验感觉是即时的。一位产品经理形容它"像魔法一样"。

那一刻改变了我们对基础设施的思考方式。我们最终采用了混合方案：

GPU（A100）处理延迟敏感的工作负载
CPU（通过llama.cpp）处理批处理任务

经验：根据你想提供的体验来选择硬件。速度创造愉悦，效率创造可持续性。

4、相邻层次：语义缓存和提示塑造

这些不是核心层次——但它们是强大的放大器。

我们引入了：

语义缓存：使用向量存储
缓存命中率：约20-30%
缓存响应延迟：约0.02秒
提示塑造
几轮对话后总结对话历史
减小KV缓存大小
提升token生成效率约15%

这些优化加在一起，使我们推迟了原计划六个月的GPU升级。

经验：推理不仅仅是模型本身——而是围绕它的一切。

5、案例研究：我们实际观察到的结果

初始配置：

70B模型
HuggingFace pipeline
单个A100

结果：

P95延迟：4-5秒
并发数：3-4个用户
成本：约$2/百万token

经过十周的重新设计：

7B微调模型（经过大多数查询验证）
4-bit量化（AWQ）
vLLM带连续批处理和投机解码
语义缓存（20-30%命中率）
提示塑造
混合硬件（GPU + CPU）

新结果：

P95延迟：0.6-0.9秒
并发数：最高80个用户
成本：$0.30-0.40/百万token
基础设施成本：降低约45%
用户留存：提升约35%（相关性）
付费转化：六个月内提升15-20%

最重要的成果是什么？团队停止了救火，重新开始建设。

6、诚实的免责声明

这不是一个通用的行动指南。

我们的用例相对简单
结果经过取整且依赖具体场景
并非所有优化都通过受控实验进行了隔离验证
部分结果是相关性，而非严格的因果关系

这些技术是真实的，但它们需要仔细的度量和迭代。

7、残酷的真相

大多数公司没有AI问题，但他们有一个伪装成AI的系统工程问题。

我们责怪模型"太笨"，而实际上它们是：

带宽受限
内存瓶颈
调度不当
服务效率低下

我们在训练上投入巨资——却在交付上投入不足。

8、下一步：毫秒经济

在未来几年，公司将不仅仅在模型规模上竞争。

他们将在以下方面竞争：

延迟
可靠性
体验

推理架构正在成为竞争护城河，而今天，大多数组织正用茶匙在挖掘这条护城河。

9、最后的话：给过去的自己的备忘录

如果我能回到发布前夜，我会说：

模型是潜力。推理是现实。而用户只为现实买单。

我们花了几个月追逐更智能的模型。真正推动进展的，是让现有模型在关键任务上变得毫不费力。

在你投资更大的模型之前，问问：

我们真的需要它吗？还是我们需要一个更好的推理系统？

如果你的团队不能清楚地回答这个问题，你不是在构建产品，而是在堆积参数。

——一个正在康复的模型规模最大化主义者

原文链接: Inference Is the Product. Training Is Just R&D.

汇智网翻译整理，转载请标明出处