AI代理为何搞不定基础数据科学

什么方案能让你的数据科学团队超越前沿模型。

AI代理为何搞不定基础数据科学
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

大约六个月前,我认识了Sphinx AI,印象深刻。如果你领导一个分析或数据科学团队,这篇文章就是为你写的。看看这段20秒的短视频,Sphinx创始人Rohan正在解释他要为数据科学和分析解决的问题。

一个前沿编程代理被要求构建一个基本的线性回归模型。这是一个初级数据科学家就能完成的任务。但它生成的趋势线完全错误——被几个异常值和微小的数据问题所扭曲,而任何人类分析师都能发现这些问题。

这正是我从合作的Analytics团队那里不断听到的问题。他们对使用AI进行数据科学实践很感兴趣,但数据分析的结果往往是不正确的。当分析正确时,感觉像魔法一样;但太频繁地,结果令人沮丧,因为它搞错了。

我个人一直在用Claude做问卷调查分析,效果很好。但一旦涉及到更复杂的数据集,这项技术就撑不住了。

1、你的AI代理正在用固定航向法导航你的数据

完整视频中有一个很好的比喻(你可以在这里观看),把这个道理讲得很生动(尤其对我这个非数据科学背景的人来说)。Rohan解释道:1707年,一位名叫Cloudsley Shovell的英国海军上将正在返航英格兰。他相信自己安全地在航线上,但他的方位偏差了大约半度。这个微小的误差不断累积,最终四艘船撞上了锡利群岛,超过1400名水手丧生。

六十年后,库克船长穿越太平洋,在地球上最大的海洋中散布的无数小岛之间精确导航。区别在哪里?库克痴迷地测量自己的位置。每天六次或更多。他从不假设自己在航线上,他反复核实。

视频解释说,当今大多数AI代理都像Shovell海军上将一样工作。它们编写代码,执行代码,然后假设结果是正确的。也许它们会检查一两次,然后就继续了。但你的数据有异常值、缺失值、文档不完善的模式(schema),以及那些只有当你真正去查看时才有意义的东西。如果你的AI没有不断检查自己的位置,它可能偏差超过半度。而在数据科学中,偏差半度意味着你的决策完全错误。

2、你无法编排你不信任的东西

我一直在写关于洞察和分析专业人士如何从执行者转变为编排者的文章。AI正在压缩问题与答案之间的距离,真正的价值正在转向知道该问哪些问题,而不是自己crunch那些数字。

但问题是,你无法编排一个不知道自己何时出错的AI代理。如果你在管理一个分析师团队,你信任他们会在数据出现异常时提醒你。他们会在提交最终答案之前说"嘿,这些异常值正在扭曲结果"。如今的通用LLM不会这样做。它们给你一个自信的答案,然后继续前进。

如果你的工作是将决策交给高管层,这就是一个问题。

3、数据原生AI真正的样子

如前所述,我大约六个月前第一次见到Rohan和他的Sphinx AI团队,对他们深厚的技术实力印象深刻。我不是他们产品的专家,但我熟悉他们正在解决的问题。我认为分析团队应该关注他们。

Sphinx的不同之处在于它如何将数据视为上下文。大多数AI代理可以读取模式(schema)、编写代码并运行。但它们仍然遗漏了更困难的部分:理解数据在业务内部实际上是如何被解释和使用的。它们不知道团队真正信任哪些指标,哪些表在技术上有效但在实践中被避免使用,或者哪些边界情况是大家随着时间学会应对的。

可以这样想。一个通用LLM看待你的数据,就像一个聪明的人但假设一切就是它表面上看起来的那样。如果一个列叫做revenue(收入),它假设这就是正确的收入数字。如果一个表存在于数据库中,它就假设它是干净的、可以安全使用的。如果一个指标通常以某种方式定义,它就假设这个定义就是人们在实践中实际的意思。Sphinx是为更混乱的现实而构建的。它学习关于指标、连接、注意事项和异常的部落知识,这些知识通常存在于笔记本、查询历史、仪表板和人们的头脑中。

他们通过一个受治理的AI优先知识库来实现这一点。用通俗的话说,这意味着系统持续构建和更新对数据如何映射到真实业务含义的理解,而不仅仅是列名所表达的字面意思。它捕获在数据工作中产生的组织知识,允许团队对这些信息进行治理。

这意味着AI可以一致地应用定义,在数据问题扭曲分析之前捕获它们,并生成基于公司实际如何解释其数据的输出。它不是让AI每次都绊倒在同样的问题上,而是将专家知识转化为共享基础设施。

4、你的团队不知道自己需要的那位额外数据科学家

完整视频中(链接在上面)有一句话让我深有感触:一个两人团队说他们在使用Sphinx后现在像一个20人的团队一样运作。就像我对当今大多数AI的感受一样,这个工具不是来取代你的数据科学团队的,而是来壮大它的。Sphinx AI需要一个数据科学编排者来为它服务。

如果你是一位拥有小型分析团队的洞察副总裁,或者一位试图将少数几个数据科学家分配到太多请求中的分析总监,这可能就是你的突破点。一个真正理解你的数据、让你能信任其输出结果的AI。

而且它在你的环境中运行。你的基础设施、你的数据库、你的安全控制。他们不会保留你的提示词、你的数据或输出结果。

5、门槛正在提高

我在开头给你看的那个短片很能说明问题。前沿AI模型在很多方面都非常强大。但当涉及你的数据时,你需要在整个分析过程中进行更多检查。

从执行者到编排者的转变,只有在你编排的工具值得信任时才能成功。对于分析团队来说,这意味着AI要像库克船长导航太平洋那样导航你的数据——通过持续的、痴迷的检查。

Sphinx是我见过的第一批真正做到这一点的工具之一。我建议你去了解一下。如果你想认识Rohan,请告诉我。


原文链接:Watch a Frontier AI Agent Fail at Basic Data Science

汇智网翻译整理,转载请标明出处