推理即产品,训练只是研发
为什么推理架构和模型本身同样重要——以及何时它并不那么重要。
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
我们发布AI助手的前一晚,我盯着笔记本电脑上的nvidia-smi。显存带宽已经拉满,而计算利用率只有12%。
就像一辆被困在车流中的法拉利——烧着油,却寸步难行。
我们的70B模型——最先进的,训练成本高昂——却像一个压力山大的图书管理员一样缓慢地输出token。用户要等三秒钟才能看到"Hello"。
就在那一刻,我清楚地意识到:训练是研发,推理才是产品。
这是一个团队的故事——所有隐含的前提条件都适用。但如果你是一位CTO或工程负责人,正在模型规模上投入巨资,而你的用户却盯着闪烁的光标发呆,我希望这能帮你省去一些痛苦。
1、大谎言:"更大的模型 = 更好的产品"
我们被灌输了一个简单的叙事:更大的模型能带来更好的智能。
于是我们训练更大的模型。 我们做基准测试。 我们庆祝胜利。
然后我们部署——现实给了我们当头一棒:
- 首个token的响应时间超过2秒
- 对话在回答过程中中断
- 系统在适中的并发量下崩溃
用户不在乎你的70B模型。他们关心的是从提问到看到自然回复之间的0.4秒。
反直觉的真相:对于许多面向客户的场景——聊天、摘要、问答——一个较小的模型配合优化良好的推理栈,往往感觉上比一个延迟高、可靠性差的大模型更智能。
因为智能不仅仅是能力本身,它是通过速度和一致性被感知的。
2、当7B方案行不通的时候
这就是需要细致分析的地方。我们的方案之所以有效,是因为我们的用例是一个处理相对简单查询的对话助手。
但这并不普遍适用。
如果你在构建:
- 复杂的推理系统
- 高级代码生成工具
- 长上下文的Agent
- 领域特定的专家系统
那么模型能力确实更重要。
在这些场景下,较小的模型可能会完全破坏你的产品。
我们的领域对错误比较宽容,但并非所有领域都是如此。
3、真正起作用的三个层次
每个人都在谈论量化、批处理和投机解码。 但真正的问题是:你把赌注押在哪里?
3.1 量化:不是妥协,而是特性
我们最初把4-bit量化视为一种折衷。实际上,它变成了一种优势。延迟改善如此显著,以至于用户感觉模型更智能了。准确率变化微乎其微,但满意度却提高了。
经验:在生产环境中,速度是智能的一个特性。为用户体验优化——而不是为基准测试——除非你的用例需要精确度。
3.2 连续批处理 + 投机解码
转向连续批处理(通过vLLM)使吞吐量提高了三倍。
加上投机解码——使用较小的草稿模型——将生成速度从约45 token/秒提升到100以上。
P95延迟从约2.8秒降到0.7秒以下。
经验:延迟每减少100ms都能提升用户参与度。 推理架构不仅仅是工程——它是增长的杠杆。
3.3 硬件选择:匹配情感需求
我们尝试了不同的硬件配置,包括内部使用Groq。首token响应时间低于100ms时,体验感觉是即时的。一位产品经理形容它"像魔法一样"。
那一刻改变了我们对基础设施的思考方式。我们最终采用了混合方案:
- GPU(A100)处理延迟敏感的工作负载
- CPU(通过llama.cpp)处理批处理任务
经验:根据你想提供的体验来选择硬件。 速度创造愉悦,效率创造可持续性。
4、相邻层次:语义缓存和提示塑造
这些不是核心层次——但它们是强大的放大器。
我们引入了:
- 语义缓存:使用向量存储
- 缓存命中率:约20-30%
- 缓存响应延迟:约0.02秒
- 提示塑造
- 几轮对话后总结对话历史
- 减小KV缓存大小
- 提升token生成效率约15%
这些优化加在一起,使我们推迟了原计划六个月的GPU升级。
经验:推理不仅仅是模型本身——而是围绕它的一切。
5、案例研究:我们实际观察到的结果
初始配置:
- 70B模型
- HuggingFace pipeline
- 单个A100
结果:
- P95延迟:4-5秒
- 并发数:3-4个用户
- 成本:约$2/百万token
经过十周的重新设计:
- 7B微调模型(经过大多数查询验证)
- 4-bit量化(AWQ)
- vLLM带连续批处理和投机解码
- 语义缓存(20-30%命中率)
- 提示塑造
- 混合硬件(GPU + CPU)
新结果:
- P95延迟:0.6-0.9秒
- 并发数:最高80个用户
- 成本:$0.30-0.40/百万token
- 基础设施成本:降低约45%
- 用户留存:提升约35%(相关性)
- 付费转化:六个月内提升15-20%
最重要的成果是什么? 团队停止了救火,重新开始建设。
6、诚实的免责声明
这不是一个通用的行动指南。
- 我们的用例相对简单
- 结果经过取整且依赖具体场景
- 并非所有优化都通过受控实验进行了隔离验证
- 部分结果是相关性,而非严格的因果关系
这些技术是真实的,但它们需要仔细的度量和迭代。
7、残酷的真相
大多数公司没有AI问题,但他们有一个伪装成AI的系统工程问题。
我们责怪模型"太笨",而实际上它们是:
- 带宽受限
- 内存瓶颈
- 调度不当
- 服务效率低下
我们在训练上投入巨资——却在交付上投入不足。
8、下一步:毫秒经济
在未来几年,公司将不仅仅在模型规模上竞争。
他们将在以下方面竞争:
- 延迟
- 可靠性
- 体验
推理架构正在成为竞争护城河,而今天,大多数组织正用茶匙在挖掘这条护城河。
9、最后的话:给过去的自己的备忘录
如果我能回到发布前夜,我会说:
模型是潜力。 推理是现实。 而用户只为现实买单。
我们花了几个月追逐更智能的模型。真正推动进展的,是让现有模型在关键任务上变得毫不费力。
在你投资更大的模型之前,问问:
我们真的需要它吗? 还是我们需要一个更好的推理系统?
如果你的团队不能清楚地回答这个问题,你不是在构建产品,而是在堆积参数。
——一个正在康复的模型规模最大化主义者
原文链接: Inference Is the Product. Training Is Just R&D.
汇智网翻译整理,转载请标明出处