数据是你唯一的护城河

无论你处于哪个象限,数据都是你唯一的护城河。

数据是你唯一的护城河
AI编程/Vibe Coding 遇到问题需要帮助的,联系微信 ezpoda,免费咨询。

理论上,我们现在应该已经为生活中的每个问题都配备了出色的AI代理。人才是有的,资本当然也不缺,而且模型能力越来越强。然而,结果却是不平衡的。为什么我们有能够挖掘销售线索和准确回答支持票的代理,但却似乎无法持续生成高质量的幻灯片?

最简单的解释可能是复杂性。更简单的问题(例如,回答支持问题)自然会先得到解决,而像幻灯片生成这样更开放的问题需要更多的努力。这并不完全成立:编码显然不是一个简单的应用领域,然而编码代理却是我们今天拥有的最好的代理之一——事实上,它们比其他任何单一代理用例都改进得更快。

这是怎么发生的?易于采用使得大规模数据收集成为可能,这反过来帮助编码代理迅速改进。每个开发者都可以在5分钟内切换到Cursor,无需任何审批。这创造了一个数据飞轮(下面会详细介绍),使Cursor团队能够随着时间的推移构建更好的应用体验——以至于我们整个团队现在都依赖Cursor的Composer模型进行代码生成。

技术复杂性和采用难度的结合创造了一个有趣的2x2矩阵:

你可能会忍不住认为,处于"易于采用"象限之一是圣杯——毕竟,谁不想有更多的数据来构建更好的模型呢?这当然是建立业务的一种有效方式,但陷阱在于,易于采用意味着易于被取代。难以采用的产品有自己的数据护城河:一旦你嵌入到企业中,你就会以某种方式了解那家公司的运作方式,使你的产品难以被取代。

无论你处于哪个象限,数据都是你唯一的护城河。

1、易于采用,易于解决

易于采用和易于解决是最明显的工作领域。早在2023年,不需要太多远见就能看出谷歌上的消费者搜索将被定制答案所取代——无论是找到一个有趣的事实还是提供医疗保健建议。这已经成为基础模型提供商的主要用例,许多新进入者(例如,Perplexity、You.com)也涌向这些用例。

"易于解决,易于采用"象限是一个价值陷阱。如果进入门槛低对你来说是这样,那么对前沿实验室来说就根本不存在(或者更可能的是,他们已经建立了)。鉴于这些是"显而易见"的用例,它们是现有聊天应用程序会看到最高使用量的用例。这意味着——无论用例是什么——OpenAI、谷歌和Anthropic都在收集数百万个数据点来改进他们在这些领域的模型。上周发布的ChatGPT Health感觉像是朝着这个方向的明显一步。除了数据访问之外,模型提供商还可以补贴成本并利用他们庞大的用户基础来快速学习任何新的应用领域。简而言之,你很可能会被模型提供商压垮。

一个有趣的附带说明是,这个象限的忠诚度相当低——我们都根据用例使用多个聊天代理,而且与网络搜索市场不同,每个人似乎都处于相对平等的地位。如果出现主导品牌领导者,我们会把赌注押在模型提供商身上。

2、易于采用,难以解决

为什么编码——显然是解决起来最难的问题之一!——看到如此快速的进展?最重要的是,这是因为采用很容易——早在2023年,你就可以通过将代码片段粘贴到ChatGPT中看到巨大的价值,尽管早期质量有限,但Cursor迅速让这变得更加容易。由于每个工程师通常都有选择自己的IDE的自由,从IntelliJ或VSCode切换到Cursor并不是什么疯狂的事情。一旦就位,它也有非常快的反馈循环——软件工程师每天可能会用Cursor生成代码数十次或数百次。这创造了一个数据飞轮:每一个被接受或拒绝的建议都会增加未来模型改进的训练数据。有了这些数据,模型质量随着时间的推移显著改进是不可避免的。值得注意的是,这个象限中的其他市场(例如,幻灯片生成)没有相同的细粒度反馈循环,因此改进速度要慢得多。

"难以解决"类别中的任何事物都需要大量投资——在token使用、技术人才,以及可能最终是模型训练和RL方面。易于采用是一个强大的数据获取飞轮,可以实现更深入的投资。前沿模型实验室似乎将这些广泛使用的生产力代理视为他们的领域。他们已经在编码代理上展开激烈竞争,我们毫不惊讶地看到他们会推出更多超越现有文档编辑器的办公套件生产力工具。换句话说,我们的预测是这些市场将进行重量级战斗——如果没有巨额资本支出,较小的参与者将难以竞争。

然而,粘性在这里仍然很低。我们许多人运行多个编码代理,随着办公生产力工具的改进,没有理由你不会跳到任何能让你制作最漂亮幻灯片的应用程序。粘性的论点是公司特定的定制(例如,Cursor规则、品牌模板),但我们可能会看到互操作性或单一标准的出现以实现迁移。

3、难以采用,易于解决

这是企业AI采用在过去两年真正起飞的领域。当我们说易于解决时,我们并不是说没有产品深度,但很容易想象LLM如何执行电子商务退货或密码重置的操作手册。鉴于大多数企业都在寻找AI的胜利,"显而易见"的问题是他们寻求立即采用的地方。这使得这些市场的领导者获得了令人难以置信的收入增长步伐。

两个关键的事情使这个象限与众不同。首先,这些产品不能单独采用——购买一个处理支持票或IT帮助台请求的代理是一个组织层面的决策,可能有一个采购委员会。其次,用例的相对简单性被企业集成的困难和繁琐现实所抵消。能够驾驭遗留企业系统的团队有很大的优势。

那个集成故事就是有数据护城河的地方。虽然从这些代理获得的数据适用性较低——而且企业可能会限制你用它训练模型的能力——但你正在收集关于每个客户如何运作的数据。随着时间的推移,这将帮助你使你的产品整体上更好,但最重要的是,你的产品对每个客户来说将变得更粘。下一个出现的代理将很难重新创造那种学到的专业知识。

在这个领域,投资者将较大的初创公司视为事实上的在位者。这并不是说没有产品创新可以做——很可能有!——但不太清楚为什么较小的初创公司能够与Sierra和Decagon等公司竞争,例如。不太清楚的是,这些公司筹集的资金主要用于推动GTM,还是是否有像编码特定模型那样正在出现的明确技术护城河。如果只是前者,那么初创公司可能不得不诉诸于在成本上竞争。

4、难以采用,难以解决。

示例应用:SRE、安全运营

难以采用、难以解决的问题在所有四个象限中受到(相对)最少的关注。解决复杂工程或运营工作流的潜在价值可能非常高,因为这些任务通常需要人类数小时或数天。不幸的是,这些工作流在公司之间的差异也很大,这意味着评估和实施比"易于解决,难以采用"产品要麻烦得多。

我们在这个难-难象限下了赌注,这是我们期望看到下一阶段增长的地方。难-难市场将在未来几年非常迅速地增长,有几个原因。首先,推理模型现在能够规划处理更复杂的任务,这将有助于应对多步解决方案。其次,解决这些问题的很多复杂性来自于AI之外的步骤——构建和配置工作流;随着编码代理变得更好,这将变得更容易和更快。最后,企业已经在积极采摘低垂的果实,一旦那些耗尽,就会转向更难的问题。

这里的数据护城河是最复杂的,也可能是最有价值的。如果你在一个公司的工作流中建立专业知识,那将非常难以复制——切换产品将类似于解雇一名经验丰富的工程师并用新人替换他们。可能有核心能力(例如,在AWS方面是专家的SRE代理)建立专业知识的机会。然而,这个改进周期将显著慢于编码代理,因为数据量较低且可验证性不那么明显。

虽然这些市场中的每一个都有一家公司筹集了巨额资金(通常远远领先于收入增长),但我们很难想象这些公司像"易于解决,难以采用"类别中的同等公司那样根深蒂固。这个市场还有很长的路要走。

5、结束语

这个地图不是一成不变的;两个边界都会改变。在复杂性方面,我们看到模型能力每隔几个月就有显著改进。然而,模型改进似乎正在趋于平稳,所以对这个轴线的兴趣减少了。

真正的兴奋点在于用户体验。我们一直认为AI应用的用户体验方面被探索不足。我们不会惊讶地看到新的用户体验范式的开发改变用户采用产品的方式。Claude Code on the web可能是这方面最好的近期例子——通过在网页浏览器中向每个人提供编码代理,它让那些可能被IDE或终端吓跑的用户能够访问这些工具。

无论他们采取什么路径,我们的赌注是,未来12-24个月将看到难-难象限赢家的崛起。它不会像Sierra和Decagon的增长那样无缝——会有更长的评估周期、更复杂的实施,以及可能整体更低的成功率。但随着公司改进他们的流程和数据使模型得到改进,这是可以产生惊人收入的地方。


原文链接: Data is your only moat

汇智网翻译整理,转载请标明出处