AI时代,系统 = 数据

为什么下一个十年的软件将由你的数据质量、来源和编排来定义,而不是更大的模型。

AI时代,系统 = 数据
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

单体模型的时代正在终结。在过去五年中,改进人工智能系统的主要杠杆是架构规模——更大的模型、更多的训练数据、呈指数级增长的算力需求。我们现在正在进入一个新阶段:仅靠扩大参数规模带来的边际收益正在递减,而部署的复杂性却在急剧上升。新的竞争优势不在于你选择的模型,而在于你喂给它的数据以及你围绕它构建的系统。

1、为什么这现在很重要

从以模型为中心到以数据为中心的开发转型不是一场学术辩论;它是工程资源配置的根本性转变。Llama 3、Mistral 和 Gemma 等功能强大的开放权重模型的普及已经使"推理引擎"商品化。当核心技术成为商品时,价值就会迁移到其上层和下层。

在下层,价值迁移到专用硬件和推理优化栈。在上层,价值迁移到应用逻辑,以及至关重要的——为这些模型提供数据的数据管道。对于初创企业和成熟企业来说,一个仅仅能运行的原型和一个能够交付可靠的、差异化的商业价值的生产系统之间的区别,几乎完全取决于对数据所施加的工程严谨性。我们正在见证这个行业从一个科学项目成熟为一门真正的工程学科,而数据就是新的源代码。

2、基础概念:数据即可执行程序

要理解这种转变,我们必须重新定义对"模型"是什么的思维模型。不要把预训练的基础模型看作一个完成的应用程序,而要把它看作一个高度优化的、静态的计算内核。它是一个冻结的数学运算块,能够进行模式匹配和生成,但它对你的特定用户、你独特的业务逻辑或你的专有领域知识一无所知。

在这个模型中,你的数据就是可执行代码。当你执行检索增强生成(RAG)、微调模型,甚至构建一个复杂的提示词时,你不仅仅是在向模型"喂"信息。你正在编写一个在模型的潜空间中执行的程序。模型提供了指令集架构(ISA),但你的数据提供了解决你的问题的具体操作。一个构造糟糕的提示词就是一行有 bug 的代码。一个充满噪声、无关文档的向量数据库就是内存泄漏。这种视角将数据工作从一项准备工作提升为开发的核心行为。

3、架构分解:智能体的数据飞轮

随着我们从简单的聊天机器人转向智能体系统,复杂性成倍增加。一个智能体不是一次单一的模型调用;它是一个循环:规划、执行、观察、反思。这种架构在每一步都引入了新的数据依赖。

  1. 规划(编排器): 核心智能体循环通常由一个强大的模型驱动。它的数据依赖是系统提示词和工具的 API 规范。这是"控制平面"数据。
  2. 执行(工具使用): 智能体调用外部工具——一个数据库查询、一个 CRM 的 API 调用、一个代码解释器。这个动作的输出是一条新数据,必须将其反馈到上下文窗口中。
  3. 观察(上下文注入): 这是传统 RAG 大放异彩的地方。智能体从向量存储中检索相关的文本块来为下一步提供依据。这里的质量直接取决于你的嵌入模型、分块策略和数据卫生状况。
  4. 反思(记忆和状态): 对于多轮任务,智能体需要记忆。这不仅仅是聊天历史;它是进度、失败尝试和中间结果的精炼摘要。这些状态数据被写回数据库(通常是图数据库或另一个向量存储),为未来的规划提供信息。

整个系统的可靠性取决于数据在这个循环中无缝、低延迟和高保真的流动。任何数据管道中的故障——过时的 CRM 数据、分块不当的文档、损坏的嵌入——都会中断智能体的推理链。

4、真实实施视角:ML 数据运维的兴起

要可靠地实现这一点,需要将数据运营(DataOps)的原则直接应用于机器学习工作流。我们看到工程团队正在采用类似软件开发向 CI/CD 转变的实践。

1) 数据版本控制和血缘追踪: 正如你不会在没有版本控制的情况下部署代码一样,你也不能在不知道嵌入语料库确切版本的情况下部署 RAG 管道。DVC 和 lakeFS 等工具正在成为标准。当用户查询返回错误结果时,第一个问题不再是"哪个模型?",而是"使用的是哪个版本的知识库?"

2) 提示词管理即代码: 提示词不再是 Jupyter 笔记本中硬编码的字符串。它们通过 CI/CD 管道进行版本控制、测试和部署。团队使用 LangSmith 或 HoneyHive 等工具将提示词视为它们本质上的脆弱可执行代码,在预发布和生产环境中跟踪版本。

3) 评估驱动开发(EDD): 你无法改进你无法衡量的东西。团队正在构建综合评估套件,不仅测试模型的输出,还测试整个系统的性能。这包括:

  • 检索评估: 独立于生成步骤来衡量检索步骤的精确率和召回率。
  • 忠实度评估: 检查最终生成的响应是否真正基于检索到的上下文。
  • 工具使用准确性: 验证智能体是否使用正确的参数调用了正确的工具。

5、思维模型:"数据债务"的概念

这种新现实引入了一种新的技术债务形式:数据债务。与代码债务类似,数据债务是在构建和维护数据管道时采取捷径所产生的复合成本。它表现为:

  • 脆弱的提示词: 过度工程化的提示词只适用于一种特定情况,但当输入略有变化时就会灾难性地失败,通常是因为它们所依赖的底层数据结构不一致。
  • 幻觉级联: 智能体检索到一条略微不正确的数据,这污染了它的观察,导致了有缺陷的计划,最终产生了幻觉输出。错误通过系统传播,因为源头的数据质量很差。
  • 无法追踪的故障: 当生产环境的智能体做出错误决策时,高数据债务环境使得几乎不可能将故障追溯到其根本原因——是糟糕的检索、有缺陷的工具输出,还是模型推理错误?

偿还数据债务需要与重构代码相同的纪律:持续投资于数据卫生、可观察性和验证。

6、职业杠杆:新的高价值能力

掌握这种以数据为中心的范式可以直接转化为更高的技术杠杆和收入潜力。市场已经饱和了那些只会调用 API 的人。市场急需的是能够在这些 API 周围构建健壮数据基础设施的工程师。

  • 技术(转变): 你的价值不再与了解"最好"的模型挂钩,而在于你构建使任何模型在特定业务环境中可靠工作的系统的能力。
  • 生产力(倍增器): 通过实施严格的 DataOps 和 EDD,你从手动调试提示词转变为系统性地提升系统性能。这就是工匠和流水线管理者之间的区别。你的生产力随系统扩展,而不是随个人努力扩展。
  • 在线收入(利基市场): 对于顾问和自由职业者来说,高价值的合同不再是为了"构建一个 AI 应用",而是为了"修复我们的 RAG 管道"或"减少我们客户支持智能体中的幻觉"。这些是披着 AI 外衣的数据工程问题。
  • 自我提升(心态): 采用以数据为中心的心态迫使你从摆弄工具转向真正的工程实践。它需要学习数据库索引、向量搜索算法、可观察性栈和 MLOps。这种持续提升到核心基础设施领域的技能正是创造抗衰退技能组合的关键。

7、常见错误和战略盲点

团队最常犯的错误是将数据视为事后才考虑的事情。他们急于集成最新的模型,结果发现他们的原型无法泛化到真实的、杂乱的数据。

另一个重要的盲点是孤立评估。一个团队可能在检索测试中获得 95% 的准确率,但没有意识到他们的生成模型忽略了检索到的上下文。你必须评估整个系统,而不是单个组件。最后,许多人低估了嵌入和向量数据库的运营成本。为数百万文档托管一个大型高维索引并不免费,而延迟可能很快成为用户体验的致命因素。

8、未来方向:模型的解耦

我们正在走向一个"模型"被解耦为一套专业化的、相互关联的服务组合的未来。核心智能将成为商品,但价值将在于公司自行构建的专有数据引擎、复杂的记忆架构和多模态数据编排器。下一波浪潮中的赢家不是那些训练最大模型的人,而是那些围绕它构建最智能系统的人。

魔力不再在于芯片,而在于我们对噪声施加的结构。当模型像电力一样成为一种公用设施时,我们的关注点正确地从原始功率转移到了建筑的精妙布线上。技术的未来不属于最大模型的守护者,而属于最优雅数据系统的架构师。


原文链接: The Shift from Model Centric to Data Centric Development: Engineering Reality in the Agentic Era

汇智网翻译整理,转载请标明出处