我用 Auto Research 优化提示词
最近我一直在全力开发 The Great Me 的 Mac 版本。这次发布比往常慢了一些,因为我不再把它当作一次功能更新,而是当作一个我想精心打磨的产品。
在 Mac 版本中,我设计了一个具有情报室质感的 Dashboard。其中一个核心功能是我称之为"战术地图"的东西。
1、什么是战术地图?
The Great Me 是一款个人成长应用,帮助人们设定人生目标、每日打卡、每周复盘,并不断改进方向。
战术地图做一件简单的事:它读取每日打卡、复盘和 AI 对话,然后将正在进行的事件、项目、产品和任务转化为行动地图。
一眼望去,你可以看到:
- 你实际上在推进什么;
- 哪些事情相互影响;
- 一个项目如何随时间演变;
- 哪些节点是里程碑,哪些只是临时状态。
如果这个功能运作良好,它就不仅仅是一个记录页面。它将成为一个帮助你理解自己行动路径的系统。
一开始,结果并不理想。
2、主要问题:一切都很碎片化
起初,战术地图经常将临时的或局部的细节视为独立事件。
日期、版本号、一次性的进度状态,甚至"完成了 5 项"这样的短语都可能变成独立的气泡。地图上有很多节点,但主线故事反而更难看清了。
更糟糕的是,一级事件和二级事件之间的关系不稳定。有时一个大事件吞掉了不属于它的东西。有时一条故事线被拆分成许多碎片。
以前的做法是每次出现错误输出时就修改提示词。这很快变成了打地鼠的过程:一个 bug 消失了,另一个逻辑又出了问题。
这就是我不满意的原因。这个功能有潜力,但还不够稳定。
3、Auto Research 给了我一条不同的路
一段时间前,Andrej Karpathy 谈到了一个我觉得非常有用的理念:Auto Research。
核心理念不是让 AI 一次性修复所有问题。而是将任务缩小,建立一个稳定的评分系统,每次只改变一件事,反复测试,保留有用的修改,丢弃不好的修改。
我立刻就喜欢上了这个想法。
我先在写作上试了一下,但写作很难一致地评分。更好的结构、更强的情感、更清晰的逻辑:这些可以被评判,但不容易以稳定的方式衡量。
后来我意识到,AI 产品内部的提示词和规则其实更适合 Auto Research。
它们包含容易衡量的东西,比如有效的 JSON、规则合规性和运行时间。也包含模型可以评判的东西,比如层次质量、命名清晰度以及主线故事是否可见。
4、我准备了两类数据
在这个实验中,我使用 DeepSeek V4 Flash 和 Doubao Seed 2.0 Lite 260428 作为主要的提取模型。
我准备了两类数据。
第一类是我自己的 The Great Me 备份 ZIP 中的真实数据:28,599 条记录、23 个附件、50 个事件实体和 298 个事件更新,包括活跃和归档的事件。
第二类是合成数据。由于我自己的数据偏向独立开发,我让 GPT 创建了来自不同职业的 20 个样本,加上 6 个固定的边缘案例,涵盖碎片化、主线和支线、多条工作流、手动编辑的标题,以及不应恢复的已删除或已静音的项目。
最终,我们有 845 个测试行,包括 744 个真实模型评分。合成样本和真实 ZIP 样本大致平衡。
这不是几次随意的运行。这是针对固定考试集的反复测试。
5、评分:不是写作质量,而是规则遵循
我为战术地图定义了几条明确的规则。
第一,一级事件必须是主线故事。不是每个出现的名词都能成为顶级事件。
第二,二级事件必须服务于父事件。它们不能随意附加。
第三,日期、版本号、计数和一次性状态不能成为事件标题。
第四,手动编辑的标题必须受到保护,已删除或已静音的事件不能被 AI 恢复。
第五,同样的规则必须同时适用于 DeepSeek 和 Doubao,而不仅仅是一个模型。
这部分很重要,因为一个稳定的提示词不是一句优美的句子。它是可测试的、可重复的、可比较的东西。
6、迭代:一次解决一个问题
这个过程经历了大约 10 个版本。
从 V1 到 V2,重点是格式稳定性和基本表达。模型首先必须停止产生混乱的输出。
从 V3 到 V4,我处理事件粒度:什么值得成为事件,什么只是过程文本。
从 V5 到 V6,我专注于边界。日期、版本号、临时完成状态和通用标题不能成为主线。
V7 之后,最难的问题出现了:分配二级事件。
一级事件相对容易。一旦模型理解了主线,得分就迅速提高。二级事件更难,因为每个较小的事件都必须附加到正确的父事件上,或者作为同级分支保留。
如果规则模糊,模型倾向于把所有东西放进一个大容器里。
7、最大的陷阱:归属
在这个实验中,最大的陷阱不是命名或格式化,而是归属。
一个人可能同时在做应用开发、内容运营、视频脚本和用户反馈。它们都与这个人相关,但这并不意味着它们都应该归属于同一个父事件。
最坏的情况是 AI 创建了一个听起来合理的标题,比如"Great Me 的整体运营",然后把所有东西都放在下面。
它看起来完整,但它破坏了结构。如果一切都属于一个大盒子,就没有什么关系是真正被解释的。
所以我添加了更严格的边界规则:先判断同级关系,再判断父子关系;首先决定某件事是否是一个独立的工作流,然后才决定它是否需要父事件。两件事不应该仅仅因为共享同一个产品就被强制放在同一个父事件下。
在这个改变之后,子事件分配得分从 52.7 上升到了 97.8。
8、结果:从 30 到 90
最终结果很清晰。
DeepSeek V4 Flash 从 36.4 上升到 90.7。
Doubao Seed 2.0 Lite 260428 从 54.0 上升到 96.8。
这不是一次幸运的运行。它来自固定的样本、固定的评分和反复的测试。
更重要的是,最终的提示词不仅适用于一个模型。DeepSeek 更擅长大规模的结构调整,而 Doubao 更擅长日常刷新和稳定提取。它们可以扮演不同的角色。
10、这对我真正改变了什么
在这次实验之后,我对提示词的理解发生了变化。
提示词不是魔法咒语。
重要的不是一句话听起来是否优雅,而是它背后是否有稳定的框架:数据如何准备、规则如何拆分、测试如何运行、评分如何分配、什么时候保留修改、什么时候回滚。
我现在更把它看作一个系统。
提示词是入口。框架是核心。
11、TheGreatMe 应用
最终,这一切都回到了产品。
我不想让 The Great Me 只是一个打卡应用,或者只是一个与你聊天的 AI 工具。
我希望它感觉像一个帮助你完成人生使命的系统。
你写下目标,每天回顾成绩和障碍,每周重新校准。在幕后,AI 不断整理你的行动轨迹,提取关键事件,识别主线和支线,将你的进展变成一张越来越清晰的地图。
这就是我构建 Mac Dashboard 和战术地图的原因。
当一个人能清楚地看到自己在推进什么、过去几周发生了什么、哪些事情相互影响、下一步应该走向哪里时,他们不仅仅是在记录生活。他们开始获得一种掌控感。
使用 Auto Research 来改进战术地图对我来说不仅仅是一次提示词实验。
它让一件事变得更清晰:独立开发者可以使用顶级 AI 研究者的理念。关键不是把这些概念留在社交媒体上谈论,而是把它放入一个真实的产品、一个真实的问题和真实的数据中,然后一轮一轮地改进。
原文链接:I Used Auto Research to Push an AI Product Prompt from 30 to 90
汇智网翻译整理,转载请标明出处