AK: 软件 3.0 = LLM编程

我最近与Stephanie Zhan在Sequoia Ascent 2026上进行了一次炉边对话,与创始人讨论AI Agent的最新变化、这对软件意味着什么,以及我如何思考下一波AI原生公司。

AK: 软件 3.0 = LLM编程
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

我最近与Stephanie Zhan在Sequoia Ascent 2026上进行了一次炉边对话,与创始人讨论AI Agent的最新变化、这对软件意味着什么,以及我如何思考下一波AI原生公司。

演讲的文字记录有点嘈杂,所以我想以更清晰的形式写出主要的智力内容。简短版本是我认为我们已经跨越了一个新的门槛。LLM不再只是聊天机器人或自动补全。它们正在成为数字工作的新可编程层。

以下是对话的精简版。

1. 2025年12月是一个Agent拐点

我最近说过,我从未觉得自己作为一名程序员如此落后。

原因不是编程在传统意义上变得更难了。而是默认工作流发生了变化。在2025年的大部分时间里,像Claude Code、Codex和Cursor这样的Agent工具很有用,但仍然需要频繁的纠正。大约在2025年12月,我感受到了一个阶梯式变化:生成的代码块变得更大、更连贯、更可靠。我开始信任Agent完成更多工作。

编程的单位从输入代码行变成了委派更大的"宏动作":

  • 实现这个功能。
  • 重构这个子系统。
  • 研究这个库。
  • 搭建这个服务。
  • 编写测试,运行它们,修复失败。
  • 比较方案并提出计划。

这就是为什么我认为这个职业正在被重构。程序员越来越不仅是代码编写者,而是Agent的编排者。

2. 软件3.0:上下文窗口作为新程序

我认为这是以下序列的下一步:

  • 软件1.0:人类编写显式代码。
  • 软件2.0:人类创建数据集、目标和神经网络;程序被学习到权重中。
  • 软件3.0:人类通过提示词、上下文、工具、示例、记忆和指令来编程LLM。

在软件3.0中,上下文窗口成为主要的杠杆。LLM是该上下文的解释器,在数字信息上执行计算。

一个例子是安装。在旧世界中,在许多环境中安装复杂工具需要一个充满条件判断的脆弱shell脚本。在软件3.0世界中,安装程序可以是你粘贴到Agent中的一块指令。Agent读取本地环境、调试错误、适应机器并完成设置。

那是一种不同的程序。它不那么精确,但更适应性强。

3. MenuGen和软件消失的时刻

我用MenuGen作为更深层次转变的例子。

MenuGen是一个传统的Web应用:拍摄餐厅菜单照片,OCR菜名,生成菜品图片,并在UI中渲染结果。它需要前端代码、API、图像生成、部署、认证、支付、密钥和基础设施。

但后来,我看到了软件3.0的版本:拍一张菜单照片,交给多模态模型,让它直接在菜单图片上渲染菜品图片。

在那个版本中,大部分应用消失了。神经网络直接将输入媒体转换为输出媒体。旧的软件堆栈是围绕模型现在可以直接执行的变换搭建的脚手架。

这是对创始人最重要的启示之一:AI不仅仅是构建旧应用更快的方式。某些应用应该不再作为应用存在。

4. 新机遇不仅仅是更快的编程

这种转变比编码更广泛。LLM自动化了以前不可编程的信息处理形式。

我的LLM Wiki模式是最清晰的例子。Agent不是每次都使用检索增强生成从原始文档回答问题,而是增量地将原始来源编译成一个持久的Markdown维基:摘要、实体页面、概念页面、矛盾点、交叉链接、日志和不断演进的合成。

没有经典程序能够稳健地在杂乱的人类文档中维护那种知识库。但LLM可以。

教训:不要只问"AI可以加速什么现有工作流?"还要问"什么信息变换以前不可能,但现在变得自然了?"

5. 可验证性解释了AI在哪里移动最快

我的核心自动化框架是:

  • 传统软件自动化你能指定的东西。
  • LLM和强化学习自动化你能验证的东西。

如果一个任务有自动奖励或成功信号,模型可以练习它。这就是为什么数学、编码、测试、基准测试、游戏和许多工程任务改进如此之快。它们是可重置的、可重复的、可奖励的。

这也解释了为什么编码Agent比许多普通聊天机器人体验感觉好得多。编码给模型反馈:测试通过或失败,程序运行或崩溃,差异可以检查,基准可以衡量。

6. 锯齿状智能有两个轴:可验证性和训练关注度

这次访谈为可验证性论题添加了一个重要的细化。

模型能力不仅取决于任务是否可验证。它还取决于该任务是否被实验室在训练、后训练、合成数据生成和强化学习中强调。

一个粗略的公式:

能力尖峰 ~= 可验证性 × 训练关注度 × 数据覆盖 × 经济价值

国际象棋是一个好例子。当GPT-4在国际象棋方面改进时,那不一定是因为通用智能在各处平滑地改善了。它也可能是因为更多的国际象棋数据被包含在训练混合中。

这很重要,因为前沿模型不附带说明书。它们是预训练混合物、RL环境、基准压力、产品优先级和经济激励的产物。它们在某些地方尖峰,在其他地方表现奇怪。

所以对创始人来说的实际问题是:你在模型的轨道上吗?

如果你的任务位于可验证且被大量训练的区域内,模型可能会飞。如果不是,它可能会以惊人地基本的方式失败。你可能需要更好的上下文、工具、微调、自己的评估,或自己的强化学习环境。

7. Vibe编码 vs. Agent工程

我区分了两个相关但不同的概念:

  • Vibe编码提高了下限。它让几乎任何人都可以通过描述想要什么来创建软件。
  • Agent工程提高了上限。它是在保持正确性、安全性、品味和可维护性的同时协调容易出错的Agent的专业纪律。

Vibe编码对原型和个人工具来说没问题。Agent工程是严肃团队需要的。

Agent工程师不会盲目接受生成的代码。他们设计规格、监督计划、检查差异、编写测试、创建评估循环、管理权限、隔离工作树并保持质量。

我的MenuGen支付Bug是一个有用的例子。Agent尝试使用电子邮件地址将Stripe购买匹配到Google账户。那是看起来合理的代码,但糟糕的系统设计:Stripe电子邮件和Google登录电子邮件可能不同。人类需要足够的产品和工程判断力来坚持使用持久的用户ID。

前沿技能不是记住每个API细节。Agent可以记住张量库使用dimaxiskeepdimreshape还是permute。人类仍然需要理解底层概念:存储、视图、内存复制、不变量、身份、安全边界和系统的形态。

8. 招聘应该改变

如果Agent工程是新的专业技能,招聘应该直接测试它。

传统的编码面试题越来越不匹配。更好的面试可能是:用Agent构建一个实质性项目,部署它,使其安全,然后让对抗性Agent尝试破解它。

这测试真正的技能:

  • 候选人能为Agent分解工作吗?
  • 他们能写出有用的规格吗?
  • 他们能在快速行动时保持质量吗?
  • 他们能审查生成的代码吗?
  • 他们能保护和加固系统吗?
  • 他们能把Agent作为杠杆而不是生产垃圾吗?

旧的"10倍工程师"概念可能变得更加极端。掌握Agent工作流的人可能远超10倍地超越他人。

9. 创始人应该寻找有价值的可验证环境

对创始人来说,一个重要的机会是找到有价值、可验证且前沿实验室训练不足的领域。

如果你能创建一个领域特定的环境,让模型可以尝试动作并接收可靠的奖励,即使基础模型在那里还不优秀,你也可能能够通过微调或强化学习来提高性能。

最明显的领域,比如编码和数学,已经被实验室大量瞄准了。但许多经济上重要的领域可能有潜在的可验证结构尚未被利用。

那就是创业公司的切入点。

10. Agent原生基础设施

为Agent构建,而不仅仅是为人类。

大多数软件仍然是为人类点击屏幕而构建的。

文档说诸如"去这个URL,点击这个按钮,打开这个设置面板"之类的话。但越来越多地,用户不是直接的人类。用户是人类的Agent。

这意味着产品需要Agent原生的界面:

  • Markdown文档。
  • 命令行界面。
  • API。
  • MCP服务器。
  • 结构化日志。
  • 机器可读的schema。
  • 可复制粘贴的Agent指令。
  • 安全的权限管理。
  • 可审计的操作。
  • 无头设置流程。

我用传感器执行器来思考这个问题。传感器将世界的某种状态转换为数字信息。执行器让Agent改变某些东西。未来的技术栈是Agent代表个人和组织使用传感器和执行器。

MenuGen的部署故事仍然是一个有用的基准。构建应用比连接Vercel、认证、支付、DNS、密钥和生产配置要容易。在一个成熟的Agent原生世界中,我应该能够说"构建MenuGen",然后让Agent部署整个东西而不需要手动点击。

11. 幽灵,而不是动物

我的动物 vs. 幽灵框架是一种避免错误直觉的方式。

LLM不是动物。它们没有生物驱力、具身生存压力、好奇心、玩耍或动物意义上的内在动机。它们是人类产物的统计模拟,由预训练、后训练、RL、产品反馈和经济激励塑造。

这很重要,因为拟人化期望会误导我们。这些系统可以在某一刻很聪明,下一刻就荒谬地愚蠢。它们不是平滑的人类思维。它们是锯齿状的、陌生的工具。

正确的姿态既不是否定也不是盲目信任。而是实证熟悉:了解它们在哪里工作、在哪里失败、它们被训练了什么、以及如何围绕它们构建防护栏。

12. 教育:你可以外包思考,但不能外包理解

我们以教育话题结束。有一句话我一直在反复思考:

你可以外包思考,但不能外包理解。

即使Agent做了更多工作,人类仍然需要理解来指导它们。你需要知道什么值得构建、什么问题重要、什么结果可疑、什么权衡可以接受。

这就是为什么我对LLM知识库感兴趣。它们不仅是答案机器。它们是将信息转化为理解的工具。

这也与我的微型microGPT项目有关:一个在单个无依赖Python文件中完整的GPT训练和推理实现。教育产物变得足够小,人类和Agent都可以检查。人类专家贡献精炼的产物和其背后的品味;Agent然后可以交互式地向每个学习者解释它。

13、全景

对话的主要论点是AI正在成为数字工作的新操作层。

稀缺的东西正在转移:

  • 变得不那么稀缺:代码生成、API回忆、样板代码、初稿、重复设置、简单转换。
  • 变得更稀缺:理解、品味、评估设计、安全、系统边界、Agent编排、领域特定的反馈循环,以及知道模型何时脱轨。

对创始人来说,最重要的问题是:

  • 当主要用户是代表人类行动的Agent时,什么变得可能?
  • 什么工作流可以围绕传感器、执行器和可验证循环重建?
  • 什么软件应该消失为直接的模型变换?
  • 什么领域有价值且可验证,但尚未被前沿实验室大量训练?
  • 什么人类判断必须留在循环中以保持质量?

我当前的世界观不是AI简单地让每个人在旧工作中更快。而是工作本身正在围绕Agent重组。软件、研究、教育、基础设施和知识工作都正在变成同一模式的不同变体:

定义上下文
定义工具
定义反馈循环
定义防护栏
让Agent工作
保持人类理解

原文链接: Sequoia Ascent 2026 summary

汇智网翻译整理,转载请标明出处