AI 智能体的单位经济学

大多数"代理式AI"内容跳过了一个决定任何东西能否落地的关键问题：

当这个系统每天运行时，成本是多少？

不是"演示的成本"。不是"测试提示词的成本"。我说的是生产成本：处理的发票、起草的邮件、解决的工单、执行的工作流。这就是大多数团队感到意外的地方。

我在Kloudedge Apex运营着一个14代理的AI工作团队，同时也为客户构建代理系统。这篇文章是我如何思考LLM驱动工作流的单位经济学的实用拆解。这不是理论。这是一个你可以直接使用的预算模型。

1、思维模型：成本主要在输出，不在输入

大多数团队忽略的第一个定价细节很简单：

输出token通常比输入token贵3到10倍。

所以如果你运行一个生成长解释、长摘要、长邮件或冗长JSON的工作流，你就是在为这种冗长付费。

这就是为什么"让它有用且详细"不是一个中性的产品选择。它是一个成本选择。

对于大多数生产系统，你应该假设：

输入相对便宜
输出主导账单
你的利润率取决于：输出长度、重试次数、以及你调用大型模型的频率

2、你应该预算的单位：每份工作的成本

Token定价很有用，但它不能清晰地映射到业务现实。

你的CFO不想听到"我们上个月花了9000万个token"。他们想听到：

每处理一张发票的成本
每解决一个支持工单的成本
每起草一封销售邮件的成本
每月结账清单的成本

所以你预算的单位是每份工作的成本。

"工作"是业务关心的完整端到端工作流结果。

例子：

"提取一张发票，验证它，建议总账编码"
"起草一封合规的外联邮件，进行个性化处理，生成简短的跟进"
"总结一次会议，提取行动项，更新CRM备注"

当你这样定义你的系统时，你可以为产品定价、设置使用限制并衡量利润率。

3、真实的锚点：发票处理实际上花费人类大量金钱

在应付账款中，基准很重要，因为它告诉你你可以收取多少费用。

手动发票处理通常被引用在每张发票$10到$15的范围内，许多来源在完全手动环境中将这个数字定得更高。自动化产品通常将其降低到每张发票低个位数。

这个差距就是你的产品楔子：

如果手动处理是每张发票$10到$15
而你能将AI工作流控制在每张发票几美分到几美元
即使在中小企业定价下，你的毛利率也能非常出色

这就是为什么AP发票处理是如此好的"代理式"用例：它有一个清晰的单位（发票）、高数量和痛苦的劳动成本。

4、我的成本拆解：实际驱动支出的因素

在实践中，LLM支出来自五个方面：

上下文大小：你向模型发送了多少内容
输出大小：模型生成了多少文本或JSON
调用次数：每份工作你调用LLM多少次
重试和回退：因为解析失败或置信度低而重新运行的频率
模型层级选择：你调用高端模型还是廉价模型的频率

如果你控制了这五件事，你就控制了你的利润率。

4、三层模型策略（廉价、优质、高端）

我见到的错误：团队选择一个前沿模型并用它做所有事情。

这就像花钱请高级工程师来重命名文件和格式化JSON。

对于生产环境，你需要一个三层策略：

第一层：用于高数量、低风险任务的廉价模型

用于：

格式化
OCR干净时的轻量提取
有严格长度限制的摘要
分类

目标：保持大部分流量的单位成本较低。

第二层：用于大部分实际工作的中端模型

用于：

核心提取
合理的推理任务
起草简短的面向客户的文本

目标："默认引擎"。

第三层：用于异常和困难案例的高端模型

用于：

奇怪的发票
边缘情况
高价值客户
任何失败代价高昂的情况

目标：高端模型的使用应该只占总调用的一小部分。

如果你做对了，高端质量是可用的，但它不会整天烧掉你的利润率。

5、预算工作表：估算每份工作的成本

这是数学的最简单版本。

你需要四个输入：

每次调用的平均输入token
每次调用的平均输出token
每份工作的调用次数
每百万token的价格（输入和输出）

然后：

每次调用的输入成本 = (input_tokens / 1,000,000) × input_price
每次调用的输出成本 = (output_tokens / 1,000,000) × output_price
每份工作的成本 = (input_cost + output_cost) × calls_per_job

这就是整个模型。

现在大多数团队忘记的部分：加上开销。

6、添加重试的"浪费因子"

在生产中，你会有：

OCR故障
破坏提取的供应商模板
JSON解析失败
低置信度输出

如果你不为重试做预算，你的实际支出会让你意外。

一个实用的方法：

早期阶段：假设1.2倍浪费因子
加固后：目标1.05倍

所以：

每份工作的实际成本 = 估算的每份工作成本 × 浪费因子

7、示例1：发票提取和编码

让我们建模一个典型的发票工作：

OCR在LLM之外处理（仍然有成本，但分开算）
LLM进行结构化JSON提取
LLM使用候选账户的短列表进行编码建议

一个保守模型：

每张发票2次LLM调用
每次调用：2,000个输入token，500个输出token

每张发票总计：

输入token：4,000
输出token：1,000

现在代入你的模型定价。

重点不是精确的费率。重点是什么会影响这个数字。

如果你将输出长度翻倍，你的成本可能会翻倍。

如果你从中端模型转向高端模型，你的成本可能会跳一个数量级。

真正的教训

如果你想要可预测的利润率，工作流应该设计为：

保持输出紧凑
使用严格的JSON模式
避免在核心路径中生成长解释
仅在异常情况下路由到高端模型

8、示例2：起草销售邮件的AI代理

销售邮件起草看起来便宜，直到你扩大规模。

如果你的代理：

从CRM拉取上下文
总结公司信息
生成一封邮件
生成两个跟进

那可以轻松达到4到6次LLM调用。

如果你不加控制，输出量是巨大的。

这就是成本纪律重要的地方：

限制输出长度
生成一封邮件，而不是三个变体
使用模板填充变量，不要"自由写作"一切

一个好的代理系统感觉个性化而不冗长。

9、示例3：以每天$8运行一个14代理的AI工作团队

这是我们在Kloudedge Apex的真实设置。14个代理在定时cron上运行，每个处理特定功能：销售研究、外联、内容写作、基础设施监控、管道管理。

成本数学：

大多数代理每天运行1-3次
平均会话：30k-180k token（输入为主，输出精简）
我们使用中端模型作为默认，仅在复杂推理时使用高端模型
每日LLM总支出：约$8

这是一个完整自主工作团队每月$240。与一个每月$5,000只能做这些工作中一项的初级SDR相比。

关键的成本杠杆：

严格的输出模式（代理返回结构化JSON，不是文章）
共享状态文件（代理读取彼此的工作而不是重新研究）
基于cron的调度（没有空闲计算，代理只在需要时运行）
分层模型路由（分类任务使用廉价模型，方案写作使用高端模型）

10、隐藏的账单：长上下文不是免费的

代理工作流喜欢上下文。

它们想要：

整个PDF
整个邮件线程
整个工单历史
整个政策文档
整个代码库

这通常是不必要的。

在生产中，你通过严格控制上下文来获胜：

总结一次，重复使用总结
只检索top-k相关块
使用嵌入进行召回，而不是巨大的提示
缓存中间产物

换句话说：你不为智能付费，你为token付费。

11、RAG实际上在哪里省钱

人们把RAG说成是准确性工具。

它也是一个成本工具。

如果你检索你需要的10个段落而不是粘贴40页，你节省了token并使模型更可靠。

这就是为什么我们依赖：

PostgreSQL + pgvector嵌入
编码建议的短候选列表
结构化输出而不是开放式散文

RAG不仅仅是"更好的答案"。它是"更便宜的答案"。

12、可靠性规则：确定性检查比重试更便宜

每次重试都是成本。

所以你需要在模型周围设置确定性检查：

根据模式验证JSON
验证总额（小计 + 税 = 总计）
验证日期
根据已知供应商验证供应商名称

当检查失败时，不要盲目重试。

路由它：

请求缺失的字段
升级到人工审核
或回退到更强的模型

这既省钱又改善用户体验。

13、一个实用的KPI：LLM成本占收入的比例

对于大多数SaaS产品，计算不是最大的费用项。

问题是：随着你的增长，它是否保持合理？

我喜欢的一个简单KPI：

LLM成本 / 收入

如果你按发票收费，你可以干净地计算这个。

示例逻辑：

如果你每月收费$2,000
客户每月处理2,000张发票
你的AI成本是$0.15/张发票
那就是每月$300的LLM成本

那是收入的15%。

然后加上OCR、存储和基础设施。如果你的总销售成本保持在30%到40%以下，你有一个非常健康的SaaS。

如果你的LLM成本开始攀升，杠杆是清晰的：

减少输出
减少调用
提高首次通过准确率
将更多工作推给廉价模型

14、结束语

代理式AI是一个利润率纪律游戏。

"代理"不是魔法。它们是调用模型的软件系统。

如果你想要持久的生产系统，你需要两件事：

工程纪律：路由、验证、缓存、检索
经济纪律：每份工作的成本、分层策略、浪费因子

如果你做了这两件事，你可以构建既强大又盈利的系统。

这就是真正的解锁。

原文链接：The Unit Economics of AI Agents: How I Budget LLM Costs in Production (With Real Numbers)

汇智网翻译整理，转载请标明出处