你的AI智能体该如何收费？

我一直在构建一个代理平台，第一次看着一个重度用户启动一个复杂任务时，我心里一沉。代理完美地运转起来——研究、编码、调试、迭代——而我的云账单也在实时攀升。产品完全按设计工作，但单位经济学却完全不行。

欢迎来到代理AI的核心矛盾：让你的产品充满魔力的东西，恰恰也是让它运行成本高昂的东西。 一个用户提示可能会扇出2、10甚至30+次LLM调用，每一次都要重新发送完整的对话历史、调用工具、启动沙盒，以从一个任务到下一个任务一个数量级的速率消耗Token。

固定定价在复杂任务上会亏钱。原始的按Token计费又会吓跑客户。那到底什么方法有效？

我花了几天时间研究了Cursor、Devin、Replit、Intercom、GitHub Copilot、LangGraph等公司是如何应对这个问题的——拆解他们的定价页面、逆向工程他们的计费逻辑，并用自己的成本数据压力测试这些数学模型。一个清晰的策略已经浮现。以下是实用版本。

1、核心问题：你的成本疯狂地不可预测

在讨论定价模型之前，让我先解释为什么代理工作负载的定价如此困难。我是花钱买来的教训。

三个结构性成本驱动因素让代理与传统SaaS截然不同：

上下文爆炸。 代理底层是无状态的——每一轮都要将完整的对话历史重新发送给LLM API。仅工具定义就可能达到134K个Token。随着代理处理多步骤任务，输入Token每轮呈准二次方增长。这不是打字错误。我第一次绘制我们每轮Token消耗的图表时，我还以为日志系统出了bug。

尖峰方差。 一个简单任务可能需要2轮，花费你0.04美元。一个复杂任务——同样的产品、同样的用户、同样的订阅等级——可能需要30轮，花费2.80美元。这是同一产品界面内70倍的差距。我在自己的日志中见过这个范围，它使得传统SaaS定价数学完全失效。

多组件COGS（销货成本）。 Token成本只是其中一个项目。加上沙盒计算、向量数据库查询、CI运行、网页搜索、文件检索、网络出站流量和第三方API费用。你的真实服务成本是一个复合体。

结果很简单：你不能给代理产品贴一个固定价格然后期望能活下来。你需要一个既能吸收方差又不会惩罚你或你客户的模型。

2、正在获胜的模型：混合订阅 + 用量

在拆解了我能接触到的每一个生产级代理平台后，一种模式占据了主导：

平台/席位费（你的可预测MRR）
  + 包含的用量池（积分、任务数或步骤数）
    + 超出部分按计量费率计费（带批量折扣）
      + 可选的结果奖金（面向企业交易）

为什么它有效：

基础订阅资金你的固定成本——工程、基础设施、合规、支持。包含的用量池覆盖大多数用户的典型行为，让价格感觉可预测。超额计费使你的边际收入与重度用户的边际成本对齐。可选的结果奖金在你能证明ROI时捕获企业的支付意愿。

这不是理论——我已经在各个平台验证了。Cursor每月收费约20美元，包含约20美元的积分池。Replit的Core计划每月约25美元，包含25美元积分。GitHub Copilot使用席位许可证加上"高级请求"额度以及特定模型的乘数。当我注意到同样的结构在一个又一个产品中出现时，我知道这不是巧合。它之所以重复出现，是因为它解决了可预测订阅和不可预测成本之间的根本错配。

3、六种在实践中有效的定价模型

混合模型最常见，但在我的研究中，我确定了六种目前在生产中有效的不同模型。根据你的产品形态，其中一种可能更合适。

3.1 订阅 + 用量积分 + 超额

上面描述的主导模式。月费包含映射到实际API成本的积分池。超额按成本价或加价计费。支出限制可由用户配置。

适用于： 开发者工具、IDE代理、创意工具。任何用量变化但用户期望月度账单可预测的地方。

3.2 归一化计算单位

创建一个单一的自有单位——比如Devin的"ACU"，每个约2美元——将Token、VM时间、网络和工具调用打包在一起。客户购买ACU；你在内部处理复杂的会计核算。

适用于： 多维工作负载，仅用Token会严重低估真实成本的情况。如果你的代理启动容器、运行CI流水线或在LLM调用旁进行重度计算，这就是你的模型。

3.3 按节点/按步骤定价

每个编排步骤——代理图中的每个节点——都是计费原子。LangGraph对每个节点收费0.001美元，外加每分钟的待机时间。

适用于： 面向正在构建自己代理的开发者的代理框架和基础设施产品。与可变成本紧密相关，对技术买家透明。

3.4 基于结果的定价

对每个已验证的结果收取固定费用。Intercom的Fin对每个已解决的工单收费0.99美元。Cosine的Genie按交付的功能收费。

适用于： 具有清晰的二元成功指标的工作流。这个模型具有最高的支付意愿对齐——客户只在获得价值时付款——但它要求你吸收所有的成本方差。谨慎定价。

3.5 工作流执行次数

对每次端到端工作流运行收费，不管内部复杂度如何。这是n8n的模型。

适用于： 面向不关心Token或步骤数的业务用户的自动化平台。他们以工作流思考，所以按工作流向他们收费。

3.6 操作次数 + Token积分

按操作次数收费，加上按Token消耗量缩放的额外积分。这是Make的模型——混合中的混合。

适用于： 同一操作可能因配置不同而有截然不同的AI强度的平台。

4、实现步骤

第一步：埋点计量一切（说真的，一切）

你无法为无法测量的东西定价。这是我第一个昂贵的教训——我在构建三个月后才有了合适的单次运行成本归因，在利润率上基本是盲飞。在选择模型之前，先构建内部成本计量，跟踪每次运行的每个成本驱动因素：

Token： 输入、输出、缓存和推理——按模型细分
步骤/轮次： 代理进行了多少次LLM往返
工具调用： 网页搜索、代码执行、文件操作、API调用
计算： 沙盒/容器秒数、CI分钟数
存储和出站流量： 向量数据库读写、文件检索、网络传输
第三方API费用： 你按次付费给外部服务的任何东西

我花钱买来的关键经验： 使用提供商报告的Token计数作为你的计费真实来源。本地分词器只是估算——Anthropic发布的分词器对某些Claude模型已知是不准确的。我最初基于本地Token估算构建成本模型，当最终与API响应数据对账时发现了15-20%的差异。OpenAI和Anthropic都在他们的API响应中包含用量数据。用它。

以下是你应该计算的单次运行成本公式：

完全摊销的运行成本 =
  Σ LLM调用 [(input_tokens × input_rate)
            + (cached_tokens × cached_rate)
            + (output_tokens × output_rate)]
  + Σ (tool_calls × tool_call_rate)
  + Σ (compute_sessions × compute_rate)
  + storage + egress costs
  + third-party API fees

将这个计量层与你面向客户的定价分开。内部跟踪Token和工具调用。外部展示积分、任务数或ACU。这两层之间的映射就是你的商业模式所在。

第二步：按P90定价，而不是均值

这是代理平台最重要的定价原则，也是我差点犯灾难性错误的那个。

当我第一次建立定价模型时，我使用了每任务的平均成本。在电子表格上看起来很棒。然后我跑了250个代表性测试任务并实际查看了分布：

P50成本： 每任务$0.08
P90成本： 每任务$0.30
P99成本： 每任务$1.20

如果你基于均值（$0.12）定价，大约10%的任务会亏钱。对于高量平台，那个尾部会活活吞噬你的利润率。

将你的单位价格设定为在P90成本下维持目标利润率。 如果你的目标毛利率是70%，P90成本是$0.30：

每单位价格 = $0.30 / (1 - 0.70) = $1.00

这意味着你的P50任务利润丰厚（没问题——那是在为业务提供资金），甚至你昂贵的任务也维持了利润率。P99异常值可能盈亏平衡或略微亏损，但它们足够稀有，整体数学模型仍然成立。

第三步：在架构中构建盈利杠杆

仅靠定价救不了你。你需要结构性降低服务成本的工程杠杆。这些是在我自己的平台上产生最大差异的杠杆。

提示缓存

这是反复引用相同代码库、文档或上下文的代理最大的单一成本杠杆。OpenAI提供自动缓存，输入成本最高降低90%。Anthropic提供显式缓存写入，缓存读取成本仅为基本输入费率的0.1倍。如果你的代理没有使用提示缓存，你可能多付了3-5倍的钱。

模型路由

别再把所有东西都发给你最贵的模型了。简单的子任务——摘要、格式化、分类——应该路由到便宜快速的模型。将前沿模型留给复杂推理、架构决策和调试。一些产品（如Replit）将此作为用户可控的开关，这很优雅：用户明确选择为更高能力支付更高成本。

异步批量API

OpenAI和Anthropic都对异步批处理提供50%的折扣。如果你的代理做任何非实时工作——夜间分析、后台索引、批量处理——通过批量端点路由它。

上下文和工具卫生

工具schema膨胀是一个大多数团队（包括我最初）忽略的一阶成本驱动因素。不要在每次调用时发送所有工具定义——只发送与当前步骤相关的。修剪不相关的对话历史。限制检索内容大小。当我审计我们的工具定义时，发现我们在每次调用时都发送约134K Token的schema。那是在烧钱。将每步骤仅修剪到相关工具后，我们的输入成本减少了近40%。

每次运行的硬护栏

每次运行都需要安全限制：

最大步骤/轮次： 限制在15-25以终止失控循环
每次运行最大Token： 在阈值时触发暂停、降级或用户确认
最大成本预算： 在编排器中执行美元上限
工具调用上限： 限制每次任务的网页搜索、CI运行和文件操作
超时： 总执行时间的挂钟限制

在超出预算时，停止并显示部分结果或要求用户确认继续。绝不让单次运行耗尽你的利润率。

第四步：让用户看到成本

不透明滋生不信任。在与数十位用户交谈后，我对此感受强烈：在留存方面获胜的平台是那些在每个阶段都让成本可读的平台。自从我们开始向用户展示他们花了多少钱以及为什么之后，我们的流失率明显下降了。

运行前：预估

使用一个廉价的规划器LLM调用来分析请求、映射可能的步骤并展示预估："这看起来大约是8-10个步骤，大约5个积分。继续吗？"Anthropic提供了一个Token计数端点，可以在不运行模型的情况下给出输入Token预估——用它做成本预览。用类似历史任务的历史分布数据来补充。

运行中：检查点

显示实时成本："目前已使用3个积分。"为长时间任务插入人机协作暂停点。在不可逆操作（如部署、推送代码或删除资源）之前添加审批门。

运行后：详细账单

显示两个级别的详情。面向用户的层级应该像一个故事："分析仓库（1积分）→ 编写测试（2积分）→ 修复3个bug（3积分）。"技术层级（面向高级用户可展开）显示每个模型的输入/输出Token、步骤数、工具调用和挂钟时间。

绝不向非技术用户展示原始的"Token使用量：450,210"。将一切翻译成你的计费单位。

持续：仪表板和预算控制

给用户每次运行、每日、每周和每月的支出限制（硬性或软性上限）。在80%使用率时和异常运行（超出典型10倍以上）时发送警报。提供范围限制（"代理只能触碰/frontend目录"）和模型层级策略（"默认使用便宜模型；未经批准不得使用前沿模型"）。为审计跟踪提供CSV/API导出。

5、你可以直接拿来用的具体定价模板

如果你构建的是开发者代理（如Cursor或Devin）：

Pro:    $39/席位/月 — 包含200个代理任务
额外:  $0.50–1.00/任务超额
团队:   按席位，共享额度，批量折扣超额
API:    按任务或每1K Token面向集成商

设置每个任务约$1.50的硬上限。最大步骤：25。在编排器中强制执行预算。

如果你构建的是业务自动化（客服、运营）：

平台:     每个工作空间固定月费
包含:     X个任务/月（已解决工单、已处理发票）
超额:    $0.60–0.99/任务，批量折扣
企业:     + 结果奖金（衡量节约的15-30%，封顶）

如果你构建的是代理基础设施（框架、编排）：

免费:     100K节点/月
Plus:     $39/席位/月 + $0.001/节点 + 每分钟待机
企业:     定制定价，SLA，专用基础设施

6、决策捷径

还是不确定该选哪个模型？这里有个快速筛选器：

你的代理服务于具有可变任务复杂度的开发者？ → 订阅 + 积分池 + 超额。

你的工作负载是多维的（LLM + VM + CI）？ → 归一化计算单位。

你有清晰的二元成功指标？ → 基于结果的定价。

你在向其他构建者销售框架？ → 按节点/步骤计量。

你面向可证明ROI的企业？ → 混合 + 结果奖金。

7、实施清单

如果你从零开始，大致按此顺序进行：

为每次运行埋点计量每个成本驱动因素（Token、步骤、工具调用、计算、外部API费用）
收集1,000+次代表性运行的P50、P90和P99成本分布
定义你的对外计费单位（积分、任务、ACU）并将其校准到内部成本
以P90成本加目标利润率设定单位价格（目标至少为平均CTS的3-4倍）
在编排器中构建每次运行的预算强制执行
实施模型路由（便宜模型默认，前沿模型按需）
为符合条件的负载启用提示缓存和批量API
优化工具schema和上下文管理
上线运行前预估、运行中检查点和运行后账单
提供支出限制、警报、仪表板和用量导出API
将计费与提供商报告的用量对账（绝不信任本地分词器）
运行敏感性分析：如果每任务Token增长20%，或你的模型组合向昂贵层级偏移，你的利润率会怎样？

8、结束语

代理定价之所以困难，是因为代理成本在单个任务层面上本质上是不可预测的。但它们在整体上相当可预测——这就是为什么混合订阅加用量模型一直在获胜。它给客户可预测性，同时给你将收入与成本对齐的机制。

亲身经历这一旅程后，对我影响最大的三件事是：从第一天起就执着地计量、按P90而不是均值定价、以及将成本可见性直接构建到产品中。我交谈过的那些搞错的创始人要么定价过低（在重度用户上流血），要么定价过高（输给弄懂了模型路由和提示缓存的竞争对手）。

你的计费模型不仅仅是财务决策。它是架构决策、产品决策，最终是生存决策。如果能回到过去给自己一个建议，那就是：尽早构建计量基础设施，甚至在确定定价模型之前。数据会告诉你该选哪个模型。

原文链接：How to Bill Customers for Your Agentic Platform (Without Going Broke)

汇智网翻译整理，转载请标明出处