用小模型分流 AI 请求

在2026年,大多数生产代理是混合架构,由一个小语言模型(SLM)处理大多数无聊的请求,而大模型留给困难的问题。

用小模型分流 AI 请求
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

到2024年为止的默认假设是更大的模型总是获胜。在2026年,我们看到的大多数生产代理并不是纯粹的前沿模型部署——它们是混合架构,由一个小语言模型(SLM)处理大多数无聊的请求,而大模型留给困难的问题。经济效益太好了,不容忽视。

1、SLM擅长什么

1B-15B参数范围的SLM——Llama 3.1 8B、Phi-3、Gemma、Mistral small——现在已经有能力在狭窄任务上做真正的代理工作:

  • 分类和路由。 这个工单是账单问题还是bug报告?这封邮件需要升级吗?
  • 提取。 从PDF中提取发票号、金额和到期日。从LinkedIn页面识别公司和职位。
  • 以固定风格重写。 将支持回复标准化为你的品牌语气。将会议记录重新格式化为行动项。
  • 工具选择。 给定用户请求和20个可用工具,选择正确的一个。

这些任务共享一个模式:输出很短,格式是结构化的,正确答案在很大程度上由输入决定。SLM处理它们时的准确率与前沿模型相当,但成本降低10-50倍,延迟降低2-5倍。

2、SLM在哪里不足

SLM并非到处都是即插即用的替代品。它们在以下方面有困难:

  • 长期推理。 跨越8次以上工具调用的多步规划通常会脱轨。小模型会失去目标跟踪并重复自己。
  • 细微判断。 法律条款比较、诊断分诊以及任何需要超出提示词的世界知识的事情。
  • 边缘情况下的指令遵循。 30行的系统提示会被遵守;带有微妙条件逻辑的2,000行系统提示会被部分忽略。
  • 稀疏领域词汇。 小众技术或监管内容,前沿模型仍然受益于更广泛的预训练语料库。

失败模式很重要。SLM比前沿模型更沉默地失败——它们产生流畅、自信但微妙错误的答案。没有评估和置信度评分,团队直到客户投诉才会注意到退化。

3、大多数生产代理使用的路由模式

主导架构看起来像这样:

  1. 先分类。 SLM读取传入请求并决定:简单还是困难?
  2. 简单路径。 同一个SLM(或同系列的)端到端处理任务。70-85%的流量通常落在这里。
  3. 困难路径。 请求被转发到带有完整上下文的前沿模型。剩余的15-30%的流量。
  4. 回退。 如果SLM在简单路径上的置信度降到阈值以下,请求会在中途升级。

部署这种模式的团队报告推理成本降低40-70%,CSAT或任务完成率没有显著下降,前提是评估工具捕获了沉默失败的情况。

4、什么时候完全跳过SLM

并非每个工作负载都能受益。如果你的代理每天处理的请求少于约500个,SLM的复杂性不值得工程开销——直接用前沿模型就行了。如果你的任务普遍困难(合同审阅、网络安全事件分析、复杂编码),你在路由上花的时间会比在推理上省的更多。只在数量和任务分布都证明它合理的时候才去选这个战斗。

问题从来不是"大模型还是小模型?"而是"每个请求用哪个模型?"——那些有意回答这个问题的团队运行的代理比不回答的团队便宜得多、快得多。


原文链接:Small Language Models for AI Agents: When Smaller Is Smarter

汇智网翻译整理,转载请标明出处