APPLICATION

AK: 软件 3.0 = LLM编程

我最近与Stephanie Zhan在Sequoia Ascent 2026上进行了一次炉边对话，与创始人讨论AI Agent的最新变化、这对软件意味着什么，以及我如何思考下一波AI原生公司。

admin

May 6, 2026 • 13 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

演讲的文字记录有点嘈杂，所以我想以更清晰的形式写出主要的智力内容。简短版本是我认为我们已经跨越了一个新的门槛。LLM不再只是聊天机器人或自动补全。它们正在成为数字工作的新可编程层。

以下是对话的精简版。

1. 2025年12月是一个Agent拐点

我最近说过，我从未觉得自己作为一名程序员如此落后。

原因不是编程在传统意义上变得更难了。而是默认工作流发生了变化。在2025年的大部分时间里，像Claude Code、Codex和Cursor这样的Agent工具很有用，但仍然需要频繁的纠正。大约在2025年12月，我感受到了一个阶梯式变化：生成的代码块变得更大、更连贯、更可靠。我开始信任Agent完成更多工作。

编程的单位从输入代码行变成了委派更大的"宏动作"：

实现这个功能。
重构这个子系统。
研究这个库。
搭建这个服务。
编写测试，运行它们，修复失败。
比较方案并提出计划。

这就是为什么我认为这个职业正在被重构。程序员越来越不仅是代码编写者，而是Agent的编排者。

2. 软件3.0：上下文窗口作为新程序

我认为这是以下序列的下一步：

软件1.0：人类编写显式代码。
软件2.0：人类创建数据集、目标和神经网络；程序被学习到权重中。
软件3.0：人类通过提示词、上下文、工具、示例、记忆和指令来编程LLM。

在软件3.0中，上下文窗口成为主要的杠杆。LLM是该上下文的解释器，在数字信息上执行计算。

一个例子是安装。在旧世界中，在许多环境中安装复杂工具需要一个充满条件判断的脆弱shell脚本。在软件3.0世界中，安装程序可以是你粘贴到Agent中的一块指令。Agent读取本地环境、调试错误、适应机器并完成设置。

那是一种不同的程序。它不那么精确，但更适应性强。

3. MenuGen和软件消失的时刻

我用MenuGen作为更深层次转变的例子。

MenuGen是一个传统的Web应用：拍摄餐厅菜单照片，OCR菜名，生成菜品图片，并在UI中渲染结果。它需要前端代码、API、图像生成、部署、认证、支付、密钥和基础设施。

但后来，我看到了软件3.0的版本：拍一张菜单照片，交给多模态模型，让它直接在菜单图片上渲染菜品图片。

在那个版本中，大部分应用消失了。神经网络直接将输入媒体转换为输出媒体。旧的软件堆栈是围绕模型现在可以直接执行的变换搭建的脚手架。

这是对创始人最重要的启示之一：AI不仅仅是构建旧应用更快的方式。某些应用应该不再作为应用存在。

4. 新机遇不仅仅是更快的编程

这种转变比编码更广泛。LLM自动化了以前不可编程的信息处理形式。

我的LLM Wiki模式是最清晰的例子。Agent不是每次都使用检索增强生成从原始文档回答问题，而是增量地将原始来源编译成一个持久的Markdown维基：摘要、实体页面、概念页面、矛盾点、交叉链接、日志和不断演进的合成。

没有经典程序能够稳健地在杂乱的人类文档中维护那种知识库。但LLM可以。

教训：不要只问"AI可以加速什么现有工作流？"还要问"什么信息变换以前不可能，但现在变得自然了？"

5. 可验证性解释了AI在哪里移动最快

我的核心自动化框架是：

传统软件自动化你能指定的东西。
LLM和强化学习自动化你能验证的东西。

如果一个任务有自动奖励或成功信号，模型可以练习它。这就是为什么数学、编码、测试、基准测试、游戏和许多工程任务改进如此之快。它们是可重置的、可重复的、可奖励的。

这也解释了为什么编码Agent比许多普通聊天机器人体验感觉好得多。编码给模型反馈：测试通过或失败，程序运行或崩溃，差异可以检查，基准可以衡量。

6. 锯齿状智能有两个轴：可验证性和训练关注度

这次访谈为可验证性论题添加了一个重要的细化。

模型能力不仅取决于任务是否可验证。它还取决于该任务是否被实验室在训练、后训练、合成数据生成和强化学习中强调。

一个粗略的公式：

能力尖峰 ~= 可验证性 × 训练关注度 × 数据覆盖 × 经济价值

国际象棋是一个好例子。当GPT-4在国际象棋方面改进时，那不一定是因为通用智能在各处平滑地改善了。它也可能是因为更多的国际象棋数据被包含在训练混合中。

这很重要，因为前沿模型不附带说明书。它们是预训练混合物、RL环境、基准压力、产品优先级和经济激励的产物。它们在某些地方尖峰，在其他地方表现奇怪。

所以对创始人来说的实际问题是：你在模型的轨道上吗？

如果你的任务位于可验证且被大量训练的区域内，模型可能会飞。如果不是，它可能会以惊人地基本的方式失败。你可能需要更好的上下文、工具、微调、自己的评估，或自己的强化学习环境。

7. Vibe编码 vs. Agent工程

我区分了两个相关但不同的概念：

Vibe编码提高了下限。它让几乎任何人都可以通过描述想要什么来创建软件。
Agent工程提高了上限。它是在保持正确性、安全性、品味和可维护性的同时协调容易出错的Agent的专业纪律。

Vibe编码对原型和个人工具来说没问题。Agent工程是严肃团队需要的。

Agent工程师不会盲目接受生成的代码。他们设计规格、监督计划、检查差异、编写测试、创建评估循环、管理权限、隔离工作树并保持质量。

我的MenuGen支付Bug是一个有用的例子。Agent尝试使用电子邮件地址将Stripe购买匹配到Google账户。那是看起来合理的代码，但糟糕的系统设计：Stripe电子邮件和Google登录电子邮件可能不同。人类需要足够的产品和工程判断力来坚持使用持久的用户ID。

前沿技能不是记住每个API细节。Agent可以记住张量库使用dim、axis、keepdim、reshape还是permute。人类仍然需要理解底层概念：存储、视图、内存复制、不变量、身份、安全边界和系统的形态。

8. 招聘应该改变

如果Agent工程是新的专业技能，招聘应该直接测试它。

传统的编码面试题越来越不匹配。更好的面试可能是：用Agent构建一个实质性项目，部署它，使其安全，然后让对抗性Agent尝试破解它。

这测试真正的技能：

候选人能为Agent分解工作吗？
他们能写出有用的规格吗？
他们能在快速行动时保持质量吗？
他们能审查生成的代码吗？
他们能保护和加固系统吗？
他们能把Agent作为杠杆而不是生产垃圾吗？

旧的"10倍工程师"概念可能变得更加极端。掌握Agent工作流的人可能远超10倍地超越他人。

9. 创始人应该寻找有价值的可验证环境

对创始人来说，一个重要的机会是找到有价值、可验证且前沿实验室训练不足的领域。

如果你能创建一个领域特定的环境，让模型可以尝试动作并接收可靠的奖励，即使基础模型在那里还不优秀，你也可能能够通过微调或强化学习来提高性能。

最明显的领域，比如编码和数学，已经被实验室大量瞄准了。但许多经济上重要的领域可能有潜在的可验证结构尚未被利用。

那就是创业公司的切入点。

10. Agent原生基础设施

为Agent构建，而不仅仅是为人类。

大多数软件仍然是为人类点击屏幕而构建的。

文档说诸如"去这个URL，点击这个按钮，打开这个设置面板"之类的话。但越来越多地，用户不是直接的人类。用户是人类的Agent。

这意味着产品需要Agent原生的界面：

Markdown文档。
命令行界面。
API。
MCP服务器。
结构化日志。
机器可读的schema。
可复制粘贴的Agent指令。
安全的权限管理。
可审计的操作。
无头设置流程。

我用传感器和执行器来思考这个问题。传感器将世界的某种状态转换为数字信息。执行器让Agent改变某些东西。未来的技术栈是Agent代表个人和组织使用传感器和执行器。

MenuGen的部署故事仍然是一个有用的基准。构建应用比连接Vercel、认证、支付、DNS、密钥和生产配置要容易。在一个成熟的Agent原生世界中，我应该能够说"构建MenuGen"，然后让Agent部署整个东西而不需要手动点击。

11. 幽灵，而不是动物

我的动物 vs. 幽灵框架是一种避免错误直觉的方式。

LLM不是动物。它们没有生物驱力、具身生存压力、好奇心、玩耍或动物意义上的内在动机。它们是人类产物的统计模拟，由预训练、后训练、RL、产品反馈和经济激励塑造。

这很重要，因为拟人化期望会误导我们。这些系统可以在某一刻很聪明，下一刻就荒谬地愚蠢。它们不是平滑的人类思维。它们是锯齿状的、陌生的工具。

正确的姿态既不是否定也不是盲目信任。而是实证熟悉：了解它们在哪里工作、在哪里失败、它们被训练了什么、以及如何围绕它们构建防护栏。

12. 教育：你可以外包思考，但不能外包理解

我们以教育话题结束。有一句话我一直在反复思考：

你可以外包思考，但不能外包理解。

即使Agent做了更多工作，人类仍然需要理解来指导它们。你需要知道什么值得构建、什么问题重要、什么结果可疑、什么权衡可以接受。

这就是为什么我对LLM知识库感兴趣。它们不仅是答案机器。它们是将信息转化为理解的工具。

这也与我的微型microGPT项目有关：一个在单个无依赖Python文件中完整的GPT训练和推理实现。教育产物变得足够小，人类和Agent都可以检查。人类专家贡献精炼的产物和其背后的品味；Agent然后可以交互式地向每个学习者解释它。

13、全景

对话的主要论点是AI正在成为数字工作的新操作层。

稀缺的东西正在转移：

变得不那么稀缺：代码生成、API回忆、样板代码、初稿、重复设置、简单转换。
变得更稀缺：理解、品味、评估设计、安全、系统边界、Agent编排、领域特定的反馈循环，以及知道模型何时脱轨。

对创始人来说，最重要的问题是：

当主要用户是代表人类行动的Agent时，什么变得可能？
什么工作流可以围绕传感器、执行器和可验证循环重建？
什么软件应该消失为直接的模型变换？
什么领域有价值且可验证，但尚未被前沿实验室大量训练？
什么人类判断必须留在循环中以保持质量？

我当前的世界观不是AI简单地让每个人在旧工作中更快。而是工作本身正在围绕Agent重组。软件、研究、教育、基础设施和知识工作都正在变成同一模式的不同变体：

定义上下文
定义工具
定义反馈循环
定义防护栏
让Agent工作
保持人类理解

原文链接: Sequoia Ascent 2026 summary

汇智网翻译整理，转载请标明出处