数据采集即基础设施

本文介绍一个有争议的观点:对于大多数现实世界的AI产品,下一个10倍增长并不隐藏在模型中——而是在上游。

数据采集即基础设施

我有点厌倦了AI社区对越来越大的模型、数十亿token的上下文窗口和让GPU熔化的微调运行的痴迷。但AI堆中最被忽视的增效因素却安静地位于其下一层:数据

让我明确地说:虽然扩展模型大小仍然重要,但对于大多数现实世界的AI产品来说,性能提升越来越多地受到数据质量和新鲜度的限制,而不仅仅是参数数量。将模型规模翻倍以获得边际收益不仅昂贵;它也是环境不可持续的,伴随着难以想象的电力和水成本,这些成本根本无法扩展。

这个瓶颈已经向下移动了。

构建AI原生产品的创始人和CTO们开始意识到,他们的代理不会错过新兴市场信号或用泛泛之谈代替可操作的见解,并不是因为“插入模型这里”不够聪明——而是因为它在过时、无关或不完整的上下文中盲目飞行。 这就是为什么在2025年5月,Salesforce以80亿美元收购Informatica以增强其AI驱动的Agentforce平台。现在他们可以访问高质量的实时数据,这意味着更准确、可扩展的结果。

性能取决于你能检索到什么,而不仅仅是你怎么提示。除非你拥有H100集群或运行无限API预算的前沿模型,否则你超越巨人的最佳机会是用你可以负担得起的模型喂食更智能的数据:领域特定、结构化、去重且新鲜的数据

但在上下文可以被设计之前,它必须存在。这意味着拥有可靠、实时访问开放网络的能力——不只是单次抓取或数据集,而是能够反映当前发生情况的稳健管道。

伙计们,这就是基础设施。如果计算使NVIDIA变得不可或缺,那么我认为下一个主要突破不是更多的层,而是更多的信号。而这始于将数据采集视为生产基础设施。

1、什么是“好数据”?

如果你正在构建一个AI原生产品,你的系统的智能不会由你的提示有多巧妙或你能放入上下文窗口中的标记数来定义。它将由你如何向它提供现在重要的上下文来定义。

但“好数据”是一个相当模糊的定义。让我们澄清一下。以下是它对AI的意义:

  • 领域特定:AI辅助优化零售定价需要竞争对手数据、客户评论或地区趋势——而不是无关的噪音。你必须具体。
  • 持续更新:网络变化很快。一个错过了今天X趋势的情感模型,或者使用了上周价格的供应链模型,已经过时了。
  • 结构化且去重:重复、不一致和噪音浪费计算资源并稀释信号。结构胜于规模。干净胜过大。
  • 实时可操作:陈旧的数据是死数据。实时信号——价格变动、新闻、库存变化——推动即时决策。但只有在伦理上、可靠地和大规模收集的情况下才能实现。

这就是Salesforce收购Informatica的原因——不是为了新模型,而是为了向Agentforce提供结构化、实时的数据,从而改善下游决策。

这就是为什么IBM在2024年7月以23亿美元收购StreamSets 用于Watsonx。StreamSets专门从事从混合来源进行摄取、数据流监控和模式漂移处理——这给了IBM一种方式,将新鲜、一致的信号输入Watsonx,跨越企业系统。对于需要推理实时状态(即不仅仅历史模式)的AI来说,这种基础设施是一个10倍的增效因子。

这也是Dataweps转向Bright Data 的原因,为像飞利浦和ASUS这样的电子商务客户提供实时竞争对手定价和市场趋势。他们的AI驱动的定价和竞价系统依赖于快速、准确的信号,而Bright Data的API驱动生态系统(涵盖代理、归档/数据集、AI代理就绪的浏览器自动化工具等)使他们能够可靠且大规模地收集这些数据。不仅仅是抓取,Bright Data提供了真实世界AI系统所需的韧性、体积和合规性。直截了当地说,它是一个AI基础设施提供商。

关键点在于:现在检索质量胜过提示工程。即使最好的提示也无法修复模型在推理时从过时或无关数据中提取的问题。

正确的上下文,就在现在。 这就是后Deepseek时代AI的生死所在。

2、第一步总是最难的

乍看之下,数据基础设施听起来像是……管道。摄入管道、转换、存储?无聊的东西。但在RAG和代理AI的时代,这些管道已经成为战略。为什么?因为你的系统不仅仅是运行推理——它正在推理外部、不断变化的、多模态的、实时的信息。而这改变了一切。

我这样考虑:现代AI数据栈已成为一个完整的价值链,从获取和摄入信息,到转换和丰富它,再到策划和排序它,最后将其存储并提供给正确的组件——无论是模型、代理还是人类。每一层都引入了实时挑战和现实后果。与传统的ETL管道不同,这不仅仅是将数据放入湖中然后留在那里的事情。

放大图像将显示!

大多数团队在这个第一步就搞砸了:摄入。

糟糕的数据提取是上下文杀手。如果你的摄入层错过了关键更新,在边缘案例中静默失败,或者以错误的结构或语言捕获信息,你的整个栈都会继承这种盲点

换句话说:你无法构建你没有摄入的上下文。这里有一篇有趣的论文,“大型语言模型中的幻觉:一项综述” by Zhang et al. 显示,在生产级系统中,未解决的摄入问题是最常见的“模型幻觉”和其他代理行为异常的来源。

因此,在RAG和代理AI的时代,摄入必须具有战略性:

  • 它必须是AI代理友好型,意味着能够提供结构化、提示准备好的数据。
  • 必须处理动态UI、CAPTCHAs、模式变化以及混合提取(API + 抓取)。
  • 多步骤AI代理需要实时信号和历史记忆——现在发生了什么,之前发生了什么,按什么顺序,为什么。因此,这种基础设施必须支持定期提取、增量更新和TTL感知路由——所有这些都是稳健、合规且准备好变化的。
  • 它必须在大规模下可靠,持续从数百万个来源交付新鲜信息。
  • 并且必须符合网站条款和法律规范。

这就是为什么脆弱的爬虫、静态数据集和一次性连接器不再足够,为什么专注于自动化友好的、以代理为中心的数据基础设施的平台(如Bright Data)正变得和模型本身一样基础。

我看到开源、开权重模型如Gemma 3在狭窄领域中表现优于GPT-4,仅仅是因为新鲜、精心整理、领域基础的数据让他们能够被用于更好的检索系统。

让我们做些数学计算。假设我们将检索到的上下文片段的总效用定义为:

U=i=1∑k​Ri​⋅Fi​

其中:

  • R i ​ ∈[0,1] 是第i个检索片段相对于查询的相关性评分
  • 𝐹 𝑖 ∈ [ 0 , 1 ] 是新鲜度评分,建模为随时间衰减的函数(例如指数或线性)。
  • k 是检索到的上下文块的数量,受模型的上下文窗口约束。

那么即使假设完美的语义搜索(即𝑅 𝑖 ​ 的值被优化),最大化U可能意味着丢弃高度相关但过时的数据,而选择稍微不太相关(但最近!)的信号。如果你的摄入层跟不上,这会导致可见性损失和效用下降。第二个效应会加剧第一个效应:不仅新鲜内容不可用,而且过时内容的存在会主动降低性能。这造成了上下文检索质量的复合下降

这就是为什么数据采集——包括(但不限于)定期刷新、TTL感知爬行、SERP摄入、feed解析等——不再仅仅是管道。

3、数据采集即基础设施到底是什么样子的

那么,真正将数据采集视为第一类基础设施意味着什么?

这意味着:

  • 构建重复的管道,而不是负载。 数据不应该只被抓取一次并存档。它应该流式传输、定期刷新和更新——内置自动化、版本控制、重试逻辑和可追溯性。一次性转储无法推动持续的情报。
  • 将新鲜度纳入检索逻辑。 数据会老化。你的排名和检索系统应将时间漂移作为首要信号——优先考虑反映世界当前状态的上下文。
  • 使用基础设施级别的来源。 从自定义脚本中抓取原始HTML无法扩展。你需要提供SLA、抗CAPTCHA能力、模式漂移处理、重试、代理协调和合规支持的接入层。
  • 跨模态摄入。 有价值的信号存在于PDF、仪表板、视频、表格、截图和嵌入组件中。如果你的系统只能从干净的HTML或markdown中提取,你就错过了故事的一半。
  • 架构事件原生摄入。 Kafka、Redpanda、Materialize、时序数据库——这些不仅仅是后端基础设施团队的工具。在AI原生系统中,它们成为摄入和重放时间敏感信号的神经系统。

基本上,停止将数据视为静态资源。开始将其视为计算资源——一种可以编排、抽象、扩展和保护的东西。这就是数据采集即基础设施的真正含义。

4、未来是信号 > 规模

大多数RAG讨论停留在模型上。但现在出现的是一个AI栈,其中模型是可以互换的——但数据基础设施是一个长期护城河。

摩尔定律可能已死,但原始性能仍在稳步上升。但在不久的将来,我不确定AI系统的性能是否取决于微调或提示巫术。我认为胜利将来自你的系统知道什么以及它们能多快知道。最聪明的AI系统不会是那些拥有最大窗口的系统。它们将是那些拥有最佳上下文管理的系统——由实时信号、动态记忆和智能摄入驱动。

因此,作为工程师,我们应该将每个新的数据源、馈送或实时流不仅视为“内容”,而是视为能力。随后,每个新的流不一定被视为噪声,而是信号

也许你已经构建了这样一个关键的AI基础设施——你可能只是还没有称它为那样。

也许你已经开始思考你的数据馈送(如API)到自己的内部智能层,并意识到:你不需要最大的模型。你只需要正确的管道。

以这种方式思考的团队,将数据采集视为基础设施而非次要任务,将会更快前进、学习更多,并以更少的资源获胜。


原文链接:The AI Stack No One Talks About: Data Acquisition as Infrastructure

汇智网翻译整理,转载请标明出处