你的AI智能体该如何收费?

我一直在构建一个代理平台,第一次看着一个重度用户启动一个复杂任务时,我心里一沉。代理完美地运转起来——研究、编码、调试、迭代——而我的云账单也在实时攀升。产品完全按设计工作,但单位经济学却完全不行。

欢迎来到代理AI的核心矛盾:让你的产品充满魔力的东西,恰恰也是让它运行成本高昂的东西。 一个用户提示可能会扇出2、10甚至30+次LLM调用,每一次都要重新发送完整的对话历史、调用工具、启动沙盒,以从一个任务到下一个任务一个数量级的速率消耗Token。

固定定价在复杂任务上会亏钱。原始的按Token计费又会吓跑客户。那到底什么方法有效?

我花了几天时间研究了Cursor、Devin、Replit、Intercom、GitHub Copilot、LangGraph等公司是如何应对这个问题的——拆解他们的定价页面、逆向工程他们的计费逻辑,并用自己的成本数据压力测试这些数学模型。一个清晰的策略已经浮现。以下是实用版本。

1、核心问题:你的成本疯狂地不可预测

在讨论定价模型之前,让我先解释为什么代理工作负载的定价如此困难。我是花钱买来的教训。

三个结构性成本驱动因素让代理与传统SaaS截然不同:

上下文爆炸。 代理底层是无状态的——每一轮都要将完整的对话历史重新发送给LLM API。仅工具定义就可能达到134K个Token。随着代理处理多步骤任务,输入Token每轮呈准二次方增长。这不是打字错误。我第一次绘制我们每轮Token消耗的图表时,我还以为日志系统出了bug。

尖峰方差。 一个简单任务可能需要2轮,花费你0.04美元。一个复杂任务——同样的产品、同样的用户、同样的订阅等级——可能需要30轮,花费2.80美元。这是同一产品界面内70倍的差距。我在自己的日志中见过这个范围,它使得传统SaaS定价数学完全失效。

多组件COGS(销货成本)。 Token成本只是其中一个项目。加上沙盒计算、向量数据库查询、CI运行、网页搜索、文件检索、网络出站流量和第三方API费用。你的真实服务成本是一个复合体。

结果很简单:你不能给代理产品贴一个固定价格然后期望能活下来。你需要一个既能吸收方差又不会惩罚你或你客户的模型。

2、正在获胜的模型:混合订阅 + 用量

在拆解了我能接触到的每一个生产级代理平台后,一种模式占据了主导:

平台/席位费(你的可预测MRR)
  + 包含的用量池(积分、任务数或步骤数)
    + 超出部分按计量费率计费(带批量折扣)
      + 可选的结果奖金(面向企业交易)

为什么它有效:

基础订阅资金你的固定成本——工程、基础设施、合规、支持。包含的用量池覆盖大多数用户的典型行为,让价格感觉可预测。超额计费使你的边际收入与重度用户的边际成本对齐。可选的结果奖金在你能证明ROI时捕获企业的支付意愿。

这不是理论——我已经在各个平台验证了。Cursor每月收费约20美元,包含约20美元的积分池。Replit的Core计划每月约25美元,包含25美元积分。GitHub Copilot使用席位许可证加上"高级请求"额度以及特定模型的乘数。当我注意到同样的结构在一个又一个产品中出现时,我知道这不是巧合。它之所以重复出现,是因为它解决了可预测订阅和不可预测成本之间的根本错配。

3、六种在实践中有效的定价模型

混合模型最常见,但在我的研究中,我确定了六种目前在生产中有效的不同模型。根据你的产品形态,其中一种可能更合适。

3.1 订阅 + 用量积分 + 超额

上面描述的主导模式。月费包含映射到实际API成本的积分池。超额按成本价或加价计费。支出限制可由用户配置。

适用于: 开发者工具、IDE代理、创意工具。任何用量变化但用户期望月度账单可预测的地方。

3.2 归一化计算单位

创建一个单一的自有单位——比如Devin的"ACU",每个约2美元——将Token、VM时间、网络和工具调用打包在一起。客户购买ACU;你在内部处理复杂的会计核算。

适用于: 多维工作负载,仅用Token会严重低估真实成本的情况。如果你的代理启动容器、运行CI流水线或在LLM调用旁进行重度计算,这就是你的模型。

3.3 按节点/按步骤定价

每个编排步骤——代理图中的每个节点——都是计费原子。LangGraph对每个节点收费0.001美元,外加每分钟的待机时间。

适用于: 面向正在构建自己代理的开发者的代理框架和基础设施产品。与可变成本紧密相关,对技术买家透明。

3.4 基于结果的定价

对每个已验证的结果收取固定费用。Intercom的Fin对每个已解决的工单收费0.99美元。Cosine的Genie按交付的功能收费。

适用于: 具有清晰的二元成功指标的工作流。这个模型具有最高的支付意愿对齐——客户只在获得价值时付款——但它要求你吸收所有的成本方差。谨慎定价。

3.5 工作流执行次数

对每次端到端工作流运行收费,不管内部复杂度如何。这是n8n的模型。

适用于: 面向不关心Token或步骤数的业务用户的自动化平台。他们以工作流思考,所以按工作流向他们收费。

3.6 操作次数 + Token积分

按操作次数收费,加上按Token消耗量缩放的额外积分。这是Make的模型——混合中的混合。

适用于: 同一操作可能因配置不同而有截然不同的AI强度的平台。

4、实现步骤

第一步:埋点计量一切(说真的,一切)

你无法为无法测量的东西定价。这是我第一个昂贵的教训——我在构建三个月后才有了合适的单次运行成本归因,在利润率上基本是盲飞。在选择模型之前,先构建内部成本计量,跟踪每次运行的每个成本驱动因素:

  • Token: 输入、输出、缓存和推理——按模型细分
  • 步骤/轮次: 代理进行了多少次LLM往返
  • 工具调用: 网页搜索、代码执行、文件操作、API调用
  • 计算: 沙盒/容器秒数、CI分钟数
  • 存储和出站流量: 向量数据库读写、文件检索、网络传输
  • 第三方API费用: 你按次付费给外部服务的任何东西

我花钱买来的关键经验: 使用提供商报告的Token计数作为你的计费真实来源。本地分词器只是估算——Anthropic发布的分词器对某些Claude模型已知是不准确的。我最初基于本地Token估算构建成本模型,当最终与API响应数据对账时发现了15-20%的差异。OpenAI和Anthropic都在他们的API响应中包含用量数据。用它。

以下是你应该计算的单次运行成本公式:

完全摊销的运行成本 =
  Σ LLM调用 [(input_tokens × input_rate)
            + (cached_tokens × cached_rate)
            + (output_tokens × output_rate)]
  + Σ (tool_calls × tool_call_rate)
  + Σ (compute_sessions × compute_rate)
  + storage + egress costs
  + third-party API fees

将这个计量层与你面向客户的定价分开。内部跟踪Token和工具调用。外部展示积分、任务数或ACU。这两层之间的映射就是你的商业模式所在。

第二步:按P90定价,而不是均值

这是代理平台最重要的定价原则,也是我差点犯灾难性错误的那个。

当我第一次建立定价模型时,我使用了每任务的平均成本。在电子表格上看起来很棒。然后我跑了250个代表性测试任务并实际查看了分布:

  • P50成本: 每任务$0.08
  • P90成本: 每任务$0.30
  • P99成本: 每任务$1.20

如果你基于均值($0.12)定价,大约10%的任务会亏钱。对于高量平台,那个尾部会活活吞噬你的利润率。

将你的单位价格设定为在P90成本下维持目标利润率。 如果你的目标毛利率是70%,P90成本是$0.30:

每单位价格 = $0.30 / (1 - 0.70) = $1.00

这意味着你的P50任务利润丰厚(没问题——那是在为业务提供资金),甚至你昂贵的任务也维持了利润率。P99异常值可能盈亏平衡或略微亏损,但它们足够稀有,整体数学模型仍然成立。

第三步:在架构中构建盈利杠杆

仅靠定价救不了你。你需要结构性降低服务成本的工程杠杆。这些是在我自己的平台上产生最大差异的杠杆。

提示缓存

这是反复引用相同代码库、文档或上下文的代理最大的单一成本杠杆。OpenAI提供自动缓存,输入成本最高降低90%。Anthropic提供显式缓存写入,缓存读取成本仅为基本输入费率的0.1倍。如果你的代理没有使用提示缓存,你可能多付了3-5倍的钱。

模型路由

别再把所有东西都发给你最贵的模型了。简单的子任务——摘要、格式化、分类——应该路由到便宜快速的模型。将前沿模型留给复杂推理、架构决策和调试。一些产品(如Replit)将此作为用户可控的开关,这很优雅:用户明确选择为更高能力支付更高成本。

异步批量API

OpenAI和Anthropic都对异步批处理提供50%的折扣。如果你的代理做任何非实时工作——夜间分析、后台索引、批量处理——通过批量端点路由它。

上下文和工具卫生

工具schema膨胀是一个大多数团队(包括我最初)忽略的一阶成本驱动因素。不要在每次调用时发送所有工具定义——只发送与当前步骤相关的。修剪不相关的对话历史。限制检索内容大小。当我审计我们的工具定义时,发现我们在每次调用时都发送约134K Token的schema。那是在烧钱。将每步骤仅修剪到相关工具后,我们的输入成本减少了近40%。

每次运行的硬护栏

每次运行都需要安全限制:

  • 最大步骤/轮次: 限制在15-25以终止失控循环
  • 每次运行最大Token: 在阈值时触发暂停、降级或用户确认
  • 最大成本预算: 在编排器中执行美元上限
  • 工具调用上限: 限制每次任务的网页搜索、CI运行和文件操作
  • 超时: 总执行时间的挂钟限制

在超出预算时,停止并显示部分结果或要求用户确认继续。绝不让单次运行耗尽你的利润率。

第四步:让用户看到成本

不透明滋生不信任。在与数十位用户交谈后,我对此感受强烈:在留存方面获胜的平台是那些在每个阶段都让成本可读的平台。自从我们开始向用户展示他们花了多少钱以及为什么之后,我们的流失率明显下降了。

运行前:预估

使用一个廉价的规划器LLM调用来分析请求、映射可能的步骤并展示预估:"这看起来大约是8-10个步骤,大约5个积分。继续吗?"Anthropic提供了一个Token计数端点,可以在不运行模型的情况下给出输入Token预估——用它做成本预览。用类似历史任务的历史分布数据来补充。

运行中:检查点

显示实时成本:"目前已使用3个积分。"为长时间任务插入人机协作暂停点。在不可逆操作(如部署、推送代码或删除资源)之前添加审批门。

运行后:详细账单

显示两个级别的详情。面向用户的层级应该像一个故事:"分析仓库(1积分)→ 编写测试(2积分)→ 修复3个bug(3积分)。"技术层级(面向高级用户可展开)显示每个模型的输入/输出Token、步骤数、工具调用和挂钟时间。

绝不向非技术用户展示原始的"Token使用量:450,210"。将一切翻译成你的计费单位。

持续:仪表板和预算控制

给用户每次运行、每日、每周和每月的支出限制(硬性或软性上限)。在80%使用率时和异常运行(超出典型10倍以上)时发送警报。提供范围限制("代理只能触碰/frontend目录")和模型层级策略("默认使用便宜模型;未经批准不得使用前沿模型")。为审计跟踪提供CSV/API导出。

5、你可以直接拿来用的具体定价模板

如果你构建的是开发者代理(如Cursor或Devin):

Pro:    $39/席位/月 — 包含200个代理任务
额外:  $0.50–1.00/任务超额
团队:   按席位,共享额度,批量折扣超额
API:    按任务或每1K Token面向集成商

设置每个任务约$1.50的硬上限。最大步骤:25。在编排器中强制执行预算。

如果你构建的是业务自动化(客服、运营):

平台:     每个工作空间固定月费
包含:     X个任务/月(已解决工单、已处理发票)
超额:    $0.60–0.99/任务,批量折扣
企业:     + 结果奖金(衡量节约的15-30%,封顶)

如果你构建的是代理基础设施(框架、编排):

免费:     100K节点/月
Plus:     $39/席位/月 + $0.001/节点 + 每分钟待机
企业:     定制定价,SLA,专用基础设施

6、决策捷径

还是不确定该选哪个模型?这里有个快速筛选器:

你的代理服务于具有可变任务复杂度的开发者? → 订阅 + 积分池 + 超额。

你的工作负载是多维的(LLM + VM + CI)? → 归一化计算单位。

你有清晰的二元成功指标? → 基于结果的定价。

你在向其他构建者销售框架? → 按节点/步骤计量。

你面向可证明ROI的企业? → 混合 + 结果奖金。

7、实施清单

如果你从零开始,大致按此顺序进行:

  1. 为每次运行埋点计量每个成本驱动因素(Token、步骤、工具调用、计算、外部API费用)
  2. 收集1,000+次代表性运行的P50、P90和P99成本分布
  3. 定义你的对外计费单位(积分、任务、ACU)并将其校准到内部成本
  4. 以P90成本加目标利润率设定单位价格(目标至少为平均CTS的3-4倍)
  5. 在编排器中构建每次运行的预算强制执行
  6. 实施模型路由(便宜模型默认,前沿模型按需)
  7. 为符合条件的负载启用提示缓存和批量API
  8. 优化工具schema和上下文管理
  9. 上线运行前预估、运行中检查点和运行后账单
  10. 提供支出限制、警报、仪表板和用量导出API
  11. 将计费与提供商报告的用量对账(绝不信任本地分词器)
  12. 运行敏感性分析:如果每任务Token增长20%,或你的模型组合向昂贵层级偏移,你的利润率会怎样?

8、结束语

代理定价之所以困难,是因为代理成本在单个任务层面上本质上是不可预测的。但它们在整体上相当可预测——这就是为什么混合订阅加用量模型一直在获胜。它给客户可预测性,同时给你将收入与成本对齐的机制。

亲身经历这一旅程后,对我影响最大的三件事是:从第一天起就执着地计量、按P90而不是均值定价、以及将成本可见性直接构建到产品中。我交谈过的那些搞错的创始人要么定价过低(在重度用户上流血),要么定价过高(输给弄懂了模型路由和提示缓存的竞争对手)。

你的计费模型不仅仅是财务决策。它是架构决策、产品决策,最终是生存决策。如果能回到过去给自己一个建议,那就是:尽早构建计量基础设施,甚至在确定定价模型之前。数据会告诉你该选哪个模型。


原文链接:How to Bill Customers for Your Agentic Platform (Without Going Broke)

汇智网翻译整理,转载请标明出处