AI 员工:10 美元/小时?

这不是一个哲学问题。这是算术。

自主运行 Claude Code 的成本约为每小时 10.42 美元。这是在使用 Sonnet 进行 24 小时连续运行期间测量到的实际消耗率。这个数字来自在过夜编码会话期间跟踪其实际 API 花费的从业者。

相比之下,美国熟练的软件承包商每小时收费 75–150 美元。初级开发人员(包括福利)每小时成本为 30–50 美元。海外虚拟助理的费用为每小时 10–25 美元。

AI 位于该范围的底部。而且与人类不同,它不需要睡眠,不休息,并且可以同时运行多个实例。

那么为什么不在所有事情上都运行自主 AI 智能体?

因为钟点费率不是唯一重要的变量。

1、真正的计算

大多数人都犯的错误是直接比较 AI 成本和人类成本。这种比较忽略了三个关键因素。

首先,成功率。正如我最近写的那样,多步骤 AI 任务具有复合失败率。如果每个步骤成功 95% 的时间,那么一个 20 步的任务只有 36% 的时间成功。您可能支付了 10小时的 AI 工作费用,但没有得到任何可用的东西。

其次,监督成本。自主并不意味着无监督。有人需要编写提示词、验证输出、修复错误并处理边缘情况。这个人通常是您。如果您在 10小时的 AI 任务中花费 2 小时的监督时间,您的有效钟点费率就已经改变了。

第三,任务适配度。AI 擅长某些工作,在其他工作上失败。具有明确完成标准的机械任务效果很好。创造性任务、判断调用和模糊的需求则不然。将 AI 应用于错误的任务会浪费金钱而不会产生价值。

诚实的计算不是"AI 成本每小时 10 美元,人类成本每小时 75 美元,因此使用 AI"。而是:

(AI 钟点费率 × 小时数)+(您的钟点费率 × 监督时间)+(失败成本 × 失败率)vs.(替代成本 × 小时数)

这个等式对于不同的任务会产生不同的答案。

2、数学有效的地方

让我具体说明自主 AI 在经济上确实有意义的领域。

大型机械重构。 将代码库从一个框架转换为另一个框架。将回调迁移到 promises。在数百个文件中添加类型注释。这些任务是乏味的、明确定义的,并且可以通过自动化测试验证。如果测试套件通过,工作就完成了。AI 可以整夜运行;您在早上审查。

以每小时 10 美元进行 8 小时的工作,您支付 80 美元获得人类开发人员整整一天工作 400–600 美元才能完成的事情。即使 AI 失败并且您必须重新运行两次,您仍然领先。

使用模板生成文档。 给定代码库和文档结构,生成 API 文档、README 文件或内联注释是直截了当的。输出可以通过检查验证。失败模式(糟糕的文档)很烦人,但不是灾难性的。

测试覆盖率扩展。 当代码已经编写完成时,为现有代码编写测试是机械的。AI 读取实现,生成测试,运行它们。如果它们通过并覆盖新行,任务就成功了。如果它们失败,则迭代。

数据转换和清理。 处理日志、重新格式化数据集、标准化 CSV 结构。输入和输出明确定义且转换规则明确的任务。

模式:具有可以通过自动化验证的明确完成标准的任务。

3、数学无效的地方

同样重要的是:自主 AI 在哪里浪费金钱?

探索性工作。 如果您不知道"完成"是什么样子,AI 也不知道。在"弄清楚为什么这很慢"上运行自主循环会浪费 token 而没有方向。您需要先进行调查,然后移交机械修复。

创造性决策。 设计选择、架构决策、UX 流程。AI 没有品味。它将永远在"让它变得更好"上迭代,而不会收敛到好的东西。这些任务需要人类判断;没有自动化捷径。

任何您不控制的外部依赖项。 如果任务需要可能宕机的 API、可能很慢的数据库或具有速率限制的第三方服务,AI 将在无法修复的失败上消耗周期。外部不稳定性加上自主循环等于浪费金钱。

模糊的需求。 "添加身份验证"听起来很简单。但是哪种类型?OAuth?电子邮件魔法链接?用户名/密码?无密码?AI 会做出选择。这些选择可能不符合您的期望。现在您正在为您将丢弃的工作付费。

任何您需要维护的东西。 自主 AI 快速生成代码。但是生成的代码需要稍后由人类理解、调试和扩展。如果 AI 生成有效但难以理解的东西,您就创造了一个维护责任。创建速度不能抵消持续困惑的成本。

4、监督变量

这是 AI 生产力内容通常忽略的部分:您的时间不是免费的。

如果您是每小时向客户收费 150 美元的独立创始人,您花在监督 AI 工作上的每一小时都要花费 150 美元的机会成本。在持续 5 小时的每小时 10 美元的 AI 任务上花费 2 小时的监督意味着您支付了 50 美元的 API 成本加上 300 美元的您自己的时间。总计:350 美元用于一个您可能需要 4 小时(600 美元)自己完成的任务。

这仍然是一个胜利,勉强而已。但这并不是宣传所暗示的 10 倍改进。

当监督可扩展时,数学会改善。如果您可以编写一个整夜运行而无需干预的提示词,并在第二天早上用 15 分钟检查结果,您的监督成本是最小的。整夜运行的 80 美元确实大约花费 80 美元。

但这种情况需要:

  • 明确定义的任务
  • 强大的测试套件或验证方法
  • 失败不会级联的信心
  • 愿意在没有情感依恋的情况下抛弃失败的运行

大多数任务并不满足所有这些标准。大多数任务需要迭代、调试、课程纠正。该迭代时间是实际成本的一部分。

5、批量乘数

当您可以并行运行多个 AI 智能体时,情况会发生变化。

人类一次只能做一件事。AI 智能体可以重复实例化。如果您有 10 个独立的任务,每个任务需要 8 小时的 AI 时间,您可以同时运行它们并在早上获得结果。

这种并行性是真正的超能力。

经济学:10 个并行智能体 × 8 小时 × 每小时 10 美元 = 800 美元用于 80 小时的人类工作。即使有大量的失败率,即使有监督开销,只要任务是可并行化和独立的,数学就有效。

这就是为什么 AI 智能体在批量操作上表现出色。处理 50 个支持票据。为 20 个 API 端点生成文档。在 10 个存储库上运行相同的重构。

每任务成本不如吞吐量重要。您不是在优化钟点费率;您是在优化日历时间到完成。

对于独立创始人,问题变成了:我有什么工作是可并行化、机械化和可验证的?这项工作是自主 AI 的候选者。其他所有内容暂时保留在人类类别中。

6、订阅考虑

大多数钟点费率计算都假设 API 定价。但 Claude Pro 和 Claude Max 订阅确实存在。

在每月 20 美元(Pro)或 100–200 美元(Max)的情况下,无论在限制内的使用情况如何,您支付统一费率。额外 AI 任务的边际成本为零,直到达到费率限制。

这完全改变了数学。

如果您已经为 Claude Max 每月支付 100 美元,那么运行自主循环不会花费 10 美元/小时的 API 费用。它不花费任何额外费用,直到您超过您的配额。

经济问题从"这个任务值得 80 美元的 API 成本吗?"转变为"鉴于我已经支付订阅费,这个任务值得我花时间设置吗?"

对于重度用户,订阅模型使自主智能体在边际上基本上是免费的。唯一的成本是您注意力的机会成本。

但有一个陷阱。订阅计划有使用限制。自主运行 Claude Code 几个小时会比对话使用更快达到这些限制。当您超过配额并回退到 API 定价时,统一费率的错觉就会破裂。

数学:了解您的使用模式,计算您何时会达到限制,并决定订阅还是 API 定价更适合您的特定工作流。

7、诚实框架

在决定是否对任务使用自主 AI 时,请通过此清单:

机器可以验证完成吗? 如果成功需要人类判断,自主循环没有帮助。您仍然需要评估输出。

失败成本是多少? 如果失败的运行浪费 8 小时的计算并且什么都不产生,您能负担得起吗?乘以您的预期失败率。

需要多少监督? 要诚实。您真的会走开,还是会每 20 分钟检查一次?该检查时间很重要。

这是 AI 的正确任务吗? 机械的、明确定义的、可验证的任务有效。创造性的、模糊的、判断繁重的任务无效。不要强求。

替代成本是多少? 您自己的时间、承包商、初级招聘、根本不做。诚实地比较。

您可以并行化吗? 一个 10 小时的任务与同时运行的十个 1 小时任务有不同的经济学。批量操作是 AI 吞吐量发光的地方。

8、宏观趋势

AI 智能体定价正朝着小时模型发展,因为那是人类思考劳动成本的方式。

Retool 主张小时 AI 定价,正是因为基于 token 的定价模型使成本比较困难。当 AI 智能体每小时成本 10 美元而人类每小时成本 75 美元时,比较是直观的。

但直观的比较可能会误导。每小时 10 美元的 AI 可能有 40% 的成功率。每小时 75 美元的人类几乎可以完成每项任务。考虑到失败,有效钟点费率可能比标价所暗示的要接近得多。

研究表明 AI 编程工具可带来 20–30% 的生产力提升。不是 10 倍。甚至不是 2 倍。测量的收益是真实的,但是适度的。

这没什么。机械工作 25% 的生产力提升随着时间的推移是显着的。但这不是"解雇您的团队并用 AI 取代它们"。这是"针对特定任务类型用 AI 增强您的工作流"。

每小时 10 美元的 AI 员工确实存在。它只是有一个非常具体的工作描述。

9、我实际上做什么

为了透明起见,这是我在自己的工作中如何思考 AI 智能体经济学。

我委托给自主 AI 的任务:

  • 格式化和重组(数据转换、文档转换)
  • 添加样板(现有函数的测试、文档脚手架)
  • 批量处理(在许多文件上执行相同操作)
  • 初稿生成(知道我会大量编辑)

我自己保留的任务:

  • 任何需要设计决策的任务
  • 调试新颖问题
  • 依赖于 AI 不具有的外部上下文的工作
  • 我稍后需要向其他人解释的任何内容

这种划分不是关于 AI 能力。而是关于哪些任务具有完成标准和验证方法,使得自主操作合理。

对我来说,大约 20% 的工作适合自主 AI 类别。这些 20% 会变得明显更便宜和更快。其他 80% 从 AI 辅助中受益,但不是 AI 自主。

您的比例将根据您的工作类型而有所不同。

10、底线

自主运行 Claude 的成本约为每小时 10 美元。对于 AI 有效的任务,这比任何人类替代方案都便宜。

但"有效"是负担过重。任务必须是机械的、明确定义的和可验证的。复杂任务的失败率会复合。监督成本会累积。错误的任务适配会浪费金钱。

每小时 10 美元的 AI 员工是真实的。它的工作描述很窄。在该描述范围内,经济学是引人注目的。

在该描述之外,您正在为不产生价值的计算周期付费。

在开始计时器之前,先知道哪些任务适合。


原文链接: The 10/Hour AI Employee: When the Math Actually Works

汇智网翻译整理,转载请标明出处