AI代理替代白领?还差得远

一项新研究显示,当涉及到代理替代律师、投资银行家、图书管理员、会计师、IT 和其他白领工人的工作时,"每个 AI 实验室都在获得不及格的成绩"。

而且,模型在大多数时候都得到错误答案或根本没有答案。

"AI 中最大的未解之谜"?不。

作为一个在 AI 领域工作了超过 15 年的人,我可以用本·怀特的风格解开这个谜题,并告诉你为什么你的白领工作 —— 或者任何蓝领工作 —— 可能永远不会处于危险之中。

除非你在其中很糟糕。

1、新研究给 AI 代理评为不及格

Mercor 研究 测试了 AI 模型在执行实际的白领任务方面的表现,这些任务来自咨询、投资银行和法律领域。它得出结论:"即使是最好的模型也只能正确回答不到四分之一的问题。绝大多数时候,模型返回错误的答案或根本没有答案。"

现在,我知道人类顾问和律师也能产生同样糟糕的结果,所以不要对模型太苛刻。

但我有几个问题需要与该研究的 portrayal 进行讨论。

1.1 Mercor CEO 的错误假设

Mercor CEO 暗示 AI 失败的原因是人类"在 Slack 和 Google Drive 以及所有这些其他工具上操作",而 AI 不擅长这些操作。

是的,但我甚至不确定这是否有任何区别,当相比人类专家大脑中存储了多少知识和上下文时,以及运用这些知识和经验行动的能力——这是 AI 无论如何都做不到的。这点从来没有被提到。

1.2 Mercor CEO 还错误地原谅 AI

Mercor CEO 还暗示我认为错误的宽容 AI,将 25% 的成功率与实习生的成功率相提,而不是期望与经验丰富的专业人士的更高成功率——而 AI 会追上。

对我来说,这是错误的看待头对头较量的方式。就像制造一个机器人与斯蒂芬·库里一对一打篮球,并指出机器人只投中了 10% 的三分球。要知道,库里——或者任何领域的任何人类专家——都能建立 greatness。

1.3 这些基准测试中的相同问题

我对所有这些基准研究都有同样的问题。它们一直将人类专家视为一个无法或不会思考、无法或不愿 improvise 的静态实体——你知道——也许甚至使用 AI 与其竞争,以便在其自己上获得比 AI 会独自获得的更好的答案。

2、替代知识工作需要人类参与循环

几乎六个月前,慢到 AI 派对的最后一批企业领导层终于意识到 AI 不是机器人键盘做人类会做的同样事情。代理式 AI 不是白领工人装配线机器的等价物。

我们现已理解,AI 确实是一个工具。代理只是大量的深度研究支持的 API 调用,如果有/那么决策——手和大脑,如果你愿意的话——但仅在理论意义上。

2.1 AI 需要结构化数据才能运作良好

当我们要做的所有事情都是公开的并成为结构化数据时,AI 将会运作得很棒。马车离马已经那么远了,它们甚至不在同一个镇上了,它并不需要一个数据科学家来弄明白这一点

因此,是的,如果你冻结人类并冻结行业,AI 可能在自己的层面上表现得很好。但如果你承认人类运用独创性取得结果,并且也承认行业动态在任何行业每天都在演变,AI 将继续在其 75% 的错误率上超越自己——除非你有处于循环中的人类。

这就是"AI 中最大的未解之谜"?不。

一个好消息:一旦你这样看待,"AI 中最大的未解之谜"可以轻松解决。

2.2 知识工作需要人类参与循环

现在,既然企业领导层已经过了 AI 的人形键盘形象,仍然存在一个巨大问题,即很多企业领导层仍然相信"知识工作"只是人类在平台上按按钮和为季度业务评审和董事会会议制作漂亮的幻灯片。

而且在某种意义上,我不能责怪他们。在 2020 年代初,这些人士大量涌入科技行业,称自己为技术专家,获得 AI 可以很快在盒子外完成的认证,比如分析数据、准备幻灯片和准备季度业务评审。

但这并不是知识工作。

看,我成为一名优秀顾问的原因不是我的几十年科技经验,甚至不是我的 AI 经验,是我的行业经验——就我的情况而言,是在汽车、金融、营销、体育、内容、农业、机械/工业领域,并且一直在我的键盘上,我的双手实际上一直接触着从汽车到金融到营销到体育到内容到农业到机械/工业领域的一切。

在 2026 年,真正的"知识"工作与分析由平台吐出的数据没有任何关系。这是行业专业知识和对劳动成果——技术或其他——的技术理解与经验的平衡,在行业的迷宫及其客户、尤其是随着规则、参数和趋势每天都在为该行业变化的基础上取得成功。

所以是的,如果你冻结人类并冻结行业,AI 可能表现得相当好。但如果你承认人类运用独创性取得结果,并且也承认行业动态在任何行业每天都在演变,AI 将继续在其 75% 的错误率上超越自己——除非你有处于循环中的人类。

3、风险投资公司开始承认

风险投资公司开始在其下一轮 AI 风险投资中承认专注于中小企业(SME)的策略。企业领导层开始软化他们对"AI 优先"指令,将经验人才赶出大门。他们终于开始将 AI 视为工具,并认识到人类在循环中的逻辑价值。

但我会进一步一步。如果你真的想要 AI 在知识工作游戏中产生价值,策略需要是"AI 在循环中"。不要替代知识工作者,而是协助他们。

一旦你这样看待,"AI 中最大的未解之谜"可以轻松解决。


原文链接: It Turns Out, AI Agents Suck At Replacing White-Collar Workers

汇智网翻译整理,转载请标明出处