AI 时代新的数据岗位

每隔几年，数据行业就会制造一场关于自身劳动力危机的讨论。2010 年代，是自助 BI 的兴起："如果业务用户可以自己构建仪表板，分析师会怎样？"

2020 年代初，是现代数据栈："如果任何人都可以点击三下就启动一个管道，数据工程师会怎样？"

这两种对话产生的噪音远多于解决方案，因为潜在的问题被错误地构建了。问题从来不是这些角色会存活吗？ 问题始终是这些角色会变成什么？

AI 的对话正在遵循同样的模式，但赌注更高、声量更大。LinkedIn 上充满了自信的预测：数据工程师将在三年内被淘汰，AI 会写所有的 SQL，或者一个提示工程师就能完成整个分析团队的工作。

另一边，同样自信的安抚：数据人是安全的，因为 AI 无法理解业务上下文，基本面不会改变，或者学 dbt 就好了。

两个阵营都看错了起点。问题不是数据角色是否存活。问题是这些角色将解决什么问题以及为谁解决。 那个问题的答案就是认真对待 AI 的组织中数据团队实际上应该是什么样的答案。

答案不是更少或更多的数据角色，而是不同的角色。围绕一个根本不同的数据消费者来设计。

要理解为什么，我们需要回到基本面。

1、当今语境下什么是数据角色

忘掉职位名称。分析师、工程师、科学家、架构师等等。问问每个数据角色有什么共同点。

每个数据角色的存在都是为了解决同一个问题的某个版本：

……将正确的信息，以正确的形式，在正确的时间，传递给正确的消费者，以消费者可以信任并据此行动的方式。

这句话包含四个变量：信息、形式、消费者、信任。一个数据角色由它主要拥有哪些变量，以及为哪个消费者服务来定义。

数据工程师拥有形式：管道、模式、转换、使数据可访问和可靠的基础设施。
分析师拥有信息：解释、查询、被问的问题。
数据科学家拥有推断：从噪声中提取信号，构建能预测原始数据无法直接揭示的模型。
数据架构师拥有结构：使所有其他角色成为可能的系统设计。

所有这些角色在历史上都有一个不言而喻的假设，即消费者是一个人类。一个能够容忍模糊性、提出后续问题、运用机构知识并使用判断力来填补数据明确表述中空白的的人类。

这个假设现在是错误的。或者更确切地说，它是不完整的。

2、什么改变了：AI 消费者的到来

AI 代理不是被动等待问题的 AI 助手，而是采取行动、调用工具、查询数据和做出决策的自主系统。这些实体正在成为企业数据的活跃消费者。

这不是未来状态。这是当前状态，而且正在加速。

被指派监控库存的代理将自主查询库存水平。管理客户沟通的代理将在没有人类指令的情况下拉取 CRM 数据。生成财务摘要的代理将直接调用数据仓库，解释它发现的内容，并据此采取行动。

这些代理不会浏览仪表板并应用判断力。它们发出查询、接收结果，然后以机器速度、大规模地继续前进，没有人类分析师提供的解释缓冲。

这在数据职业的历史上创造了一个史无前例的问题。

一个遇到名为 flag_A 列的人类分析师可以问它是什么意思。一个遇到 flag_A 的 AI 代理将推断它的含义并自信地继续前进，无论对错。

人类对数据的模糊容忍度、暂停、质疑和验证的能力，在自主系统中不存在。代理不会因为数据令人困惑而放慢速度。 它会继续，使用它可用的任何上下文，生成看起来权威的输出，无论输入是否连贯。

这改变了数据基础设施必须提供的东西。也改变了数据角色必须做的事情。数据栈是为服务人类消费者而构建的。

数据团队现在必须重建它，或至少扩展它，以服务 AI 消费者。这两类消费者几乎没有共同点。

3、新版图：代理时代正在创造的角色

以下不是会出现在 LinkedIn 上的职位名称列表。其中一些已经存在于先进的数据组织中。一些正在以不同的名称被创建。

它们共享一个共同的起源：它们的存在是因为 AI 数据消费者有着人类消费者从未提出过的要求。

3.1 上下文工程师

这是数据职业中最重要的新角色，一年前在更广泛的市场中几乎不存在。

上下文工程师的工作是设计和构建为 AI 代理提供正确运行所需信息的系统：不仅仅是数据本身，还有围绕它的含义。

这个列代表什么？
已知的例外是什么？
在这个领域中，"客户"的业务定义是什么，与"潜在客户"相比？
代理应该从这里的空值与那里的空值推断出什么？

文档是为能够阅读、解释和应用判断力的人类编写的。而上下文工程将机器可读的含义嵌入数据基础设施本身（在契约中、在元数据中、在本体中、在语义层中），以便消费数据的代理获得正确使用该数据所需的解释支架。

所需的技能很不寻常：对 AI 系统如何处理信息的深入了解，结合对业务领域的严格理解，结合正式建模含义的能力。它处于数据架构、知识工程和认知科学的交汇处。

3.2 数据产品经理

这个角色存在于数据栈和业务的边界上，随着组织从原始数据集转向托管数据产品，它正在结构上变得更加重要。

数据产品不是一个附带仪表板的数据集。它是一个离散的、托管的数据基础设施单元，具有

明确的契约（它承诺交付什么），
质量保证（它维持什么标准），
语义定义（它的字段正式、一致地意味着什么），
定义的消费者（它为谁服务和为什么决策），
以及所有权（谁负责它）。

管理这是一个产品管理问题。数据产品经理拥有数据产品的生命周期：理解消费者需求（人类和代理），定义产品承诺什么，与工程师协作构建和维护它，确保契约得到遵守，并在产品不再服务于其目的时退役它。

这种学科借鉴自软件产品管理，但领域完全不同。软件产品服务于用户体验。数据产品服务于决策，这意味着质量标准、契约设计和失败模式都不同。

随着 AI 代理越来越多地自主选择和消费数据产品：通过目录发现它们、评估它们的契约、决定是否信任它们，投入数据产品的产品思维直接成为 AI 驱动工作流成功与否的关键。

3.3 语义架构师

语义层争论（业务逻辑存在于栈中的什么位置）已经持续了十年。代理时代解决了它，或者至少使利害关系足够清晰，以至于组织不能再推迟答案。

业务逻辑必须存在于一个权威的、一致的、机器可读的地方。不在只有 BI 开发者才能访问的 BI 工具中。不在编码了一个团队对"收入"解释的转换脚本中。不在分析师的脑海中。在一个 AI 代理可以到达、查询和信任的地方。

语义架构师设计并维护这一层。他们负责业务定义在所有系统和所有消费者之间的一致性。他们决定"活跃客户"在营销数据产品、财务数据产品和面向代理的 API 中意味着同样的事情。

他们设计本体，即实体和关系的正式结构，赋予数据语义连贯性。当两个领域以不同方式定义同一概念时——他们总是这样做——他们负责解决冲突。

这个角色在概念上并不新鲜。知识工程师和本体学家在学术界和专业企业环境中已经存在了几十年。新鲜的是企业的紧迫性。

3.4 AI 数据质量工程师

数据质量工程一直存在。新鲜的是重要的失败模式的性质。

当人类消费数据时，质量问题通常是可见的。一个看到指标一夜之间跳升 400% 的分析师会问是不是出了什么问题。一个遇到与上周数字矛盾的报告的业务用户会要求调查。人类消费者提供了一层健全性检查，这层检查正因为有效而是不可见的。

AI 代理不提供这一点。还没有。一个接收到数据质量失败的代理，比如模式变更、预期值处的空值、或者使指标膨胀的重复行，将使用它收到的任何内容继续前进，可能在任何人注意到之前，通过整个自动化工作流级联传播该失败。

AI 数据质量工程师正是为此而设计。他们的工作不仅仅是验证数据是否符合预期的范围和模式（那是基本的门槛）。他们的工作是为机器消费者设计质量框架：自动检测代理无法自我纠正的失败、使承诺机器可读的质量契约，以及在退化通过代理工作流传播之前捕获它的可观测性系统。

3.5 代理工作流架构师

随着组织部署 AI 代理来执行数据密集型任务，需要有人设计这些代理操作的工作流。这不是传统意义上的数据工程角色。它更像是自主流程的系统设计角色。

代理工作流架构师回答以下问题：

这个工作流中的哪些决策应该由代理自主做出，哪些需要人类审查？
当代理遇到它无法解释的数据时会发生什么？
代理操作如何被记录、审计和可逆？
在同一数据上操作的多个代理如何协调以避免冲突？
当代理在工作流中途失败时，回退策略是什么？

这些问题不是大多数现有角色被设计来回答的。数据工程师专注于管道。ML 工程师专注于模型。数据架构师专注于系统设计。代理工作流架构师拥有这些领域之间的空间（自主数据流程的操作逻辑），这是一个真正新的设计问题。

3.6 AI 治理专家

治理不是新鲜事。新鲜的是治理必须治理什么。

传统的数据治理主要是关于访问：谁能在什么条件下看到什么，有什么审计跟踪。这仍然很重要。但代理 AI 引入了一层访问控制无法解决的治理：对针对数据做出的自动化决策的治理。

当 AI 代理对数据采取行动（对客户进行分类、标记交易、生成推荐）时，该行动就是一个决策。在许多行业和司法管辖区，决策有问责要求：谁做出了这个决策，基于什么，使用什么数据，受什么审查？一个无法回答这些问题的自动化代理就是一个治理责任。

代理时代的 AI 治理专家负责确保使用企业数据的 AI 系统做出的决策是可审计的、可解释的和合规的。他们在法律和监管要求、数据架构和 AI 系统设计的交汇处工作。这个角色需要技术素养（足以理解代理如何消费数据）和政策素养（足以知道监管实际要求什么）的结合。

这不是一个软性角色。随着 AI 监管的成熟——它确实在成熟（各司法管辖区程度不同但方向一致）——无法证明其对 AI 驱动的数据流程的治理的组织面临真实的法律和声誉风险。

4、正在被淘汰重新定义的角色

数据职业中的每个角色并没有被替代。大多数正在被提升——如果从事这些角色的人愿意前进的话。

数据工程师正在成为代理数据基础设施的系统架构师。管道布线——将数据从 A 可靠地移动到 B 的任务——正在越来越多地被自动化。保留下来并增值的是架构：设计服务 AI 消费者的系统，构建使代理可消费的数据产品成为可能的元数据和契约基础设施，以及管理一个现在同时服务人类和机器消费者的栈的复杂性。
数据分析师正在成为决策智能专家。拉取数据和构建标准报告的大宗工作正在被自动化。保留下来的是分析师原始工作中最高价值的部分：理解实际上需要做出什么决策，设计做好这些决策的框架，评估 AI 生成的分析是否正确且得到了适当的上下文化，以及在业务问题和数据系统之间进行翻译。
数据科学家正在分化。一个分支走向 ML 工程：模型在生产中的运营化和维护，随着 AI 系统的激增，这变得越来越复杂。另一个分支走向可以被称为决策科学：应用统计和因果思维来评估 AI 驱动的决策是否实际实现了它们设计的目标。

共同的主线：每个角色中的大宗工作正在被自动化。 不可减少的人类工作（判断力、上下文、架构思维、问责）正在扩展。角色没有被淘汰，而是在向上重新分配。

5、新数据角色的实际意义

这张地图的实际意义不是组织需要立即雇用六个新的职位名称。大多数这些功能最初将由现有团队成员中那些有广度和求知欲去扩展到这些领域的人来承担。

这张地图对组织设计的启示：

以消费者来思考。

传统数据团队围绕它生产的东西来组织：管道、报告、模型。服务代理型组织的数据团队需要围绕谁消费其输出来组织，并认识到 AI 代理现在是一等消费者，其需求与任何业务用户一样真实和苛刻。

在 AI 层之前投资语义层。

每向一个语义不连贯的数据环境添加一个新的 AI 消费者，都会成倍增加那种不连贯的成本。从 AI 驱动的数据工作流中获得最大价值的组织是那些首先做了基础工作的：一致的业务定义、托管的数据产品、随数据一起传递的契约。AI 层会复合它下面的任何东西，这可以说应该是先修复下面的问题再在上面添加更多东西的最令人信服的论据。

为数据产品创建明确的所有权。

在大多数数据组织中，数据集有所有者。具有明确契约、质量保证、语义定义和消费者关系的数据产品没有。数据产品经理角色的存在就是为了填补这个空白。没有它，随时间维护数据产品的纪律默认没有归属，数据产品会退化为数据集。

为决策构建治理。

大多数组织现有的治理框架被设计来控制谁能看到数据。它们不是被设计来审计用什么数据做了什么决策，或者确保这些决策是可解释和合规的。这是代理时代将暴露的结构性缺口，暴露的代价将与组织的运营有多少运行在 AI 驱动的数据决策上成正比。

6、新的组织架构图

现代数据团队是为服务分析师和业务用户而构建的。在那个世界中，天花板是一个治理良好、可访问、高质量的数据环境。好的数据进，好的洞察出。

代理数据团队是为同时服务人类和机器而构建的。在那个世界中，天花板是一个含义被管理、契约被遵守、决策可审计的环境，AI 代理可以在其中以多年来最好的人类分析师所赢得的同等信任度来操作。

这是一个实质上更高的标准。满足这些标准的角色现在正在被创造——有时用新的头衔，更多时候是现有角色的无形扩展——几乎总是相对于其重要性投入不足。

原文链接: New Data Roles to Prep for in an AI-Transitioned World

汇智网翻译整理，转载请标明出处