我们在当前的AI上犯了太多错
除少数例外,大多数AI进步都是毫无意义的,特别是图像、视频和音频生成,对人类来说总价值是负面的。
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
我从TensorFlow 1发布以来就一直在编写和构建AI管道和模型。但最近它开始变得有些无聊了。只有我一个人这么觉得吗,还是有其他人对AI项目的工作不再像以前那样享受了?
构建AI管道最大的乐趣是思考如何优化某个模型或管道,哪种数据增强对某个用例最好,或者哪种特征工程能给我们最好的F1分数。我们培养了对什么有效、什么无效的直觉,尤其是在特定上下文中。但最近,大部分工作都简化为直接问LLM:"我该怎么做这个?"
那么,到底发生了什么?我们在所有这些最新最强大的LLM和智能体AI的方向上,到底走向何方?
1、背景
当年对我来说最困难的任务之一是为神经网络的每一层编写代码,并希望维度能匹配每一层,尤其是在YOLO或Attention这样的复杂网络中。在这些挣扎中,我慢慢建立起了对这些网络内部机制、损失函数等的理解。
在开始任何计算机视觉项目之前,我经常花好几天浏览OpenCV,理解每个参数如何影响给定算法的学习。安装OpenCV至少要花一天的时间。
看,我不只是在回忆过去的好时光,我想强调的是,这些练习对于建立对这些系统的理解很重要。AI开发不是调用OpenAI或Claude API,而是真正理解什么有效、什么无效。
2、API调用者
现在很大一部分AI工作是这样的:产品经理带来需求,工程师打开聊天窗口,描述问题,获得解决方案,集成它,能工作,发布。
我这里要小心,因为这个论点的简单版本是错误的。简单版本说:LLM让工程师变懒了,人们应该学习基础知识,以前更好。我说的不是这个。抽象层是所有计算进步的方式。没有人会为生产系统编写汇编代码。没有人应该这么做。问题不是抽象是否好——它显然是好的——而是当抽象完全吞噬理解时,会丢失什么。
最后一部分是让我担心的东西。答案通常是正确的。对于常见情况,对于成熟路径,对于类似于训练数据中问题的问题,LLM是对的。但你最需要深度理解的情况,恰恰不是常见情况。新颖的领域。分布怪异的数据集。在基准测试上表现良好但在你的业务真正关心的东西上静默失败的模型。这些情况下,通过多年调试建立直觉的人会注意到有问题,而只会调用API的人不会。
3、我们现在实际上在构建什么
AI的部署规模扩大了几个数量级。在2018年需要研究团队、重大基础设施和数月工作才能完成的事情,现在一个工程师一天就能原型化。设计通用冠状病毒疫苗的剑桥团队使用AI处理所有可用的全球冠状病毒序列数据,设计出针对整个病毒家族保守特征的超抗原。AlphaFold改变了结构生物学。这些是真实的。它们发生了。它们很重要。
但我想诚实地说说AI工作的实际分布是什么样的,因为剑桥疫苗和AlphaFold不是典型的。它们是被引用来证明整个企业合理性的例外。2026年典型的AI项目是:**调用API生成营销文案、构建检索管道回答企业文档问题、推荐系统告诉你接下来看什么、客服聊天机器人。**这些不是小事。它们为真实企业创造真实价值。但它们与构建智能工作模型或将AI应用于正在杀死人们的问题不是同一回事。
3、没人报名参加的军备竞赛
我认为实际发生的是这样的,为什么感觉与之前的技术周期不同。我们正在构建趋向自主的东西,之前没有任何技术趋向自主,没有任何决策能力,这是一个关键区别。
所有不断告诉我们AI会创造新工作的人,从来没有详细说明过。他们只是用夸张的说法,就像以前的技术革命一样,这也将创造一个巨大的就业市场和很多人的财富。但当被追问时,没有人能真正回答什么类型的工作。不是每个人都能成为AI专家或类似的人。
想想最常见的工作,它们会怎样,那些中等技能的人会怎样,似乎没有人有答案。我听到的全是空洞的修辞。
我们正在自动化 frankly 没人要求的东西,但这些前沿实验室只能用这种方式来证明他们巨大的估值。就像没人要求移除手机上的耳机孔,或者自动播放视频。这些不是人们要求的东西,但是让公司获得巨大利润的东西。
没有人在回答人类伦理和工作目的问题。一切都是自动化的世界是一个没有意义的世界。不是每个人都会进入社会服务或成为艺术家,正如许多人声称的那样。自从AI进入我的生活以来,我绝对没有感到更自由。我被期望以更快的速度完成更多任务。
我们正在创建这些庞大的系统,以便获得政府合同、侵犯人们的隐私、让人们24小时不间断地参与。这就是军备竞赛。除少数例外,大多数AI进步都是毫无意义的,特别是图像、视频和音频生成,对人类来说总价值是负面的。是的,个别开发者可以低成本构建东西,但我们为什么要将人类劳动减少到零呢?
我可以继续说下去……但你明白我的意思。
4、实际驱动竞赛的是什么
Anthropic在6月1日提交了一份机密的S-1文件,投后估值9650亿美元——从3月份的3500亿美元上升。OpenAI正在准备自己的文件。预计2026年第四季度将有三个同时进行的大型IPO——SpaceX、OpenAI、Anthropic——争夺相同的机构资本。这些公司需要证明的不仅仅是当前收入,而是不断扩展的能力前沿,以证明接近万亿美元的估值。证明扩展前沿的方式是发布新模型。发布新模型的方式是在更多数据、更多计算、更多能力上进行训练。模型不需要解决新问题。它需要在基准测试上得分更高,比上一版本更有能力。
这就是军备竞赛。它不是由科学好奇心或人道主义使命驱动的。它是由风投支持的公司需要足够快地增长以证明他们消耗的资本是合理的而驱动的。微软花了130亿美元支持OpenAI。亚马逊向Anthropic承诺了40亿美元。Google向多个实验室承诺了数十亿美元。这些公司需要回报。回报需要能力增长。能力增长需要更多计算、更多数据、更多研究人员、更多发布。重复。
没有人要求移除耳机孔。没有人要求自动播放视频。这些不是人们请求的东西——它们是让公司通过让产品稍微更无摩擦、更容易上瘾或更难离开而变得更赚钱的东西。这个类比是精确的。我们正在构建更有能力的AI系统,不是因为世界迫切需要更有能力的AI,而是因为构建AI的公司需要不断构建才能作为公司生存下去。
"我们正在创建这些庞大的系统,以便获得政府合同、侵犯隐私、让人们24小时不间断地参与。这就是军备竞赛。除少数真正的例外,大多数AI进步都是毫无意义的——图像、视频和音频生成对人类来说总价值是负面的。"
5、我们实际上应该构建什么
我不想以纯粹的批评结束,至少要指出替代方案,即使替代方案是不完整的。
值得构建的东西是AI能做真正不可能的事情。不只是更快或更便宜,而是不可能的。剑桥疫苗就是如此。它以任何人类团队都无法复制的规模处理和综合序列数据。AlphaFold也是如此。UC圣地亚哥展示的气候建模通过将生成方法与基于物理的模拟相结合,运行速度提高了25倍,这也是。这不是边际改进,而是可回答问题的定性转变。
不值得构建的东西是其主要功能是从人类注意力中提取价值,或者用现有资源的更好分配就能自动完成的任务。大多数内容生成AI。大多数参与度优化AI。大多数正在部署以取代客服工人的自主智能体层,而在这些市场中,这些工人没有安全网。
这个论点的困难版本是,该领域需要的伦理超越了"我们有负责任的AI指导原则",而是具体的:我们拒绝构建什么,为什么?如果我们知道它造成了净伤害,我们会停止构建什么?制药行业尽管有缺陷,但有一个这样的框架:临床试验、FDA批准、强制披露不良反应。AI行业有自愿承诺和发布竞赛。
基准测试不是问题。模型不是问题。问题是行业的经济结构选择了令人印象深刻的东西来展示和有利可图的东西来销售,而不是解决重要问题的东西。只要有钱不断涌入,没有人有权力改变这种结构的人有动力这样做。
原文链接: We Are Getting So Much Wrong With Current AI
汇智网翻译整理,转载请标明出处