AI时代，数据仓库的5个趋势

我花了过去二十年深入数据仓库领域。如果你和我一样，你的职业生涯可能围绕着高度可预测、偶尔令人抓狂的循环：处理脆弱的数据管道、与昂贵的ETL工具搏斗，以及为似乎永远无法完全满足的利益相关者构建无尽的仪表板迭代。

我记得2002年的深夜，绝望地试图让夜间批处理作业在CEO早上的会议之前运行，结果却发现一个以前从未遇到的数据问题。我们接受了这种摩擦，因为四十年来，我们的行业在一个共同的、无可置疑的范式下运作。数据仓库是我们用于历史记录的庞大、结构化的文件柜。人类与之交互的主要方式是通过被动监控。我们，数据工程师，构建仪表板；商业用户盯着预定义的指标，希望在静态图表中发现趋势、下降或异常。

最近，生成式AI爆发式登场。让我们残酷地诚实一点：它从根本上打破了我们传统的规则。

用户不再想要被动监控仪表板。*他们意识到可以实时与数据交互。他们想要提出复杂问题、运行假设情景，并通过对话方式操作信息。从被动观察到直接、动态交互的这种巨大转变意味着我们的底层技术架构必须改变。硬编码每一条数据路径的旧方式已经消亡。

在从本地遗留数据库迁移到现代云数据栈的20年里，我看到了很多趋势来来去去。但这不是一个趋势；这是一个结构性重置。每位数据专业人士现在都需要为以下五个重大转变做好准备。

1、Lakehouse是新标准

"是否有可能基于标准开放数据格式的数据湖……转化为高性能系统，既能提供数据仓库的性能和管理功能？我们认为这种系统设计——我们称之为Lakehouse——既是可行的，而且已经显示出成功的证据。"

——Matei Zaharia，Databricks联合创始人，Apache Spark创建者

历史上，我们必须处理架构中令人沮丧且昂贵的分裂。一方面，我们有数据仓库：高度结构化、严格治理、查询速度极快，但扩展成本极其昂贵。另一方面，我们有数据湖：一个廉价、混乱的非结构化数据倾倒场，对于典型商业用户来说几乎无法直接查询。我们花费数百万美元和数千小时在两者之间复制数据，只是为了保持业务运转。

今天，随着行业围绕Lakehouse模型集结，这个问题正在消退。在未来几年内，绝大多数企业数据将存储在开放表格式中——如Apache Iceberg、Delta Lake或Apache Hudi——直接驻留在低成本对象存储上，如AWS S3或Google Cloud Storage。我花了多年时间应对的专有供应商锁定终于要消亡了。

这对我们在一线的工作意味着什么：

计算和存储解耦：我们不再必须忍受将数据物理移动到专门的、专有仓库以便分析它的痛苦和成本。存储现在高度商品化。我们只需将可互换的计算引擎——无论是传统BI的SQL、机器学习的Python，还是生成式AI的向量搜索——直接带到数据已经存在的地方。
零ETL虚拟化：告别构建无尽、脆弱的ETL管道仅仅为了将数据从A点移动到B点。操作数据库，如PostgreSQL或你的Salesforce后端，越来越多地通过联邦层直接查询。这种架构转变将消除我们重复数据复制任务的一大部分，让我们能够进行实际的工程工作。

2、静态仪表板的终结

如果你曾经构建过仪表板，你知道"n+1"查询问题的恐惧。你花了三周时间收集需求、清理数据，并构建一个漂亮的仪表板来回答特定的一组利益相关者问题。当你展示它的那一刻，销售副总裁看着它说："这很好。但我能按客户获取群组查看这个吗，排除欧洲市场，与去年的促销支出相比？"

你的仪表板不是为此而构建的。所以，你回到你的待办事项，写一个新的工单，循环继续。传统仪表板本质上是静态的；它们只回答在会议期间明确界定的问题。

分析的未来是短暂和动态的。用户想要获得他们现在思考的问题的答案。他们不会点击过滤器，而是使用自然语言："为什么Q3销售下降，并运行一个模拟，显示如果我们将企业级定价降低5%，我们的利润会发生什么变化？"

在这个新世界里，图表不是占据BI工具空间的永久、硬编码的制品。它是动态生成的。用户获得他们的洞察，做出决定，然后图表消散在以太中。对于工程方面的我们来说，这是一个巨大的范式转变。这意味着我们必须构建能够以大规模处理低延迟、临时的、完全不可预测查询的平台——这是我们以前只保留给仔细预聚合的OLAP立方体的东西。

3、语义层是不可妥协的

"你不会上升到你的技术水平——你会下降到你的数据水平。"

——Cassie Kozyrkov，Data Scientific CEO，前谷歌首席决策科学家

让生成式AI代理直接查询你的原始源数据是绝对灾难的配方。原始数据表以混乱著称。它们有神秘的列名，如usr_txn_amt_final_v2、空值和复杂的连接条件。如果你直接将大语言模型指向它，它缺乏业务上下文来理解它正在看什么，这直接导致AI幻觉。当CFO要求董事会报告时，你绝对不希望聊天机器人猜测计算"净流失率"或"年度经常性收入"（ARR）背后的复杂、特定于公司的逻辑。

为了解决这个巨大的操作风险，语义层（有时称为指标存储）正在成为现代数据栈的绝对、不可妥协的基础。它充当人类意图和物理数据之间的智能翻译器。

真理词典：在语义层中，你在一个集中的地方严格用代码定义你的核心业务指标（收入、活跃用户、利润率）。你定义连接、过滤器和确切的数学公式。
受控执行：当用户向AI代理提问时，AI不会猜测如何计算答案。它从语义层检索经过认证的、受治理的公式，将其转换为正确的SQL方言，并安全地针对Lakehouse执行。

如果没有一个维护良好的语义层，在分析中部署生成式AI是一个巨大的责任，会在一夜之间侵蚀你的数据团队的信任。有了它，生成式AI成为你最聪明、最可靠的数据分析师。

4、欢迎代理工程

"对于大多数企业来说，专注于使用代理工作流构建应用程序，而不仅仅是扩展传统AI。这就是最大的机会所在。"

——Andrew Ng，DeepLearning.AI创始人，AI先驱

我们正在迅速超越AI"副驾驶"的第一波浪潮。副驾驶是有帮助的——它自动完成你的SQL，编写代码，或建议一个正则表达式模式。但它仍然需要一个人类驾驶员时刻在方向盘上。我们现在正在进入AI"代理"的时代——设计为完全自主执行复杂、多步骤任务的系统。

在未来几年内，代理AI将处理目前吞噬我们几周的常规、乏味的维护工作。想想你的团队花了多少时间处理紧急问题。

以下是在实践中代理工程的样子：

自主优化：目前，数据工程师花费数小时分析查询档案，以弄清楚为什么仪表板慢，手动添加索引或创建物化视图。在未来，代理将全天候后台监控你的查询性能和计算成本。它们将自动重写低效查询、索引表或物化视图以节省资金和提高速度，你甚至不需要动一根手指。
自愈管道：想象一下，你在凌晨3点醒来，收到Slack警报，说关键数据管道失败了。但不是登录修复它，你看到一条后续消息：AI代理已经分析了错误日志，意识到上游工程团队将列名从customer_id更改为cust_id，修改了下游架构以匹配，安全地回填了缺失的数据，并在你甚至还没喝早咖啡之前重新启动了作业。

我们作为数据专业人士的工作并没有消失，但它们正在急剧演变。我们从自己编写管道转变为审计、指导和管理编写管道的AI代理。

5、自动化治理和"真理层"

数据治理一直是数据世界的支柱。历史上，治理是一个手动的、政策驱动的功能。我们建立数据管理委员会，撰写无尽的Confluence文档，希望人们实际遵循规则。

随着AI生成的洞察、代码和短暂图表的绝对数量爆炸，手动治理已经不够了。人类根本无法扩展到审查每个AI输出。治理必须从一组政策演变为自动化的、技术性的"真理层"。

未来的数据平台将严重依赖卫士代理。这些是专门的、狭窄范围的AI模型，其唯一工作是审计其他AI模型的工作。在AI生成的洞察或数据集到达决策者屏幕之前，卫士代理将自动检查数据血统，确保它来自经过认证的来源。它将扫描查询是否符合GDPR或CCPA等隐私框架，确保没有意外暴露个人身份信息（PII）。最后，它将为答案分配严格的数学置信度分数。在AI驱动的数据仓库中，信任不能仅仅因为计算机吐出答案而被假设；信任将被严格量化。

6、结束语：进化或变得隐形

传统数据仓库没有消亡，但它正在消退到背景中。它正在成为为全新的动态、对话式、AI驱动界面提供动力的隐形、高度可靠的引擎。

我回顾15年前构建的管道，硬编码和僵化，惊叹于我们已经走了多远。未来属于那些愿意放弃静态仪表板的虚假安全并拥抱Lakehouse和代理AI的实时流动性的数据团队。下一个十年的成功将不会通过你可以在数据库中成功存储多少拍字节数据来衡量——而是通过你的架构如何有效地赋能AI将数据转化为即时、可信的行动。

原文链接: I Spent 20 Years Building Data Warehouses. Here's Why GenAI Just Changed Our Playbook.

汇智网翻译整理，转载请标明出处