从RAG到自更新知识库
当今大多数AI知识助手都依赖检索增强生成(RAG)。你上传文档,模型在运行时搜索它们,并从检索到的片段生成答案。
它有效——但它无法积累理解。
Andrej Karpathy提出的一个新想法建议采用不同的方法:与其反复搜索原始文件,不如让 LLM构建并维护一个结构化的Wiki。
这被称为LLM Wiki模式。
在本文中,你将学习到:
- 什么是LLM Wiki模式
- 它与传统RAG有何不同
- 架构如何工作
- 构建它的实际工作流程
- 你今天可以实现的实际用例
让我们从它解决的问题开始。
1、为什么传统RAG在知识构建方面扩展性不佳
大多数基于文档的助手遵循以下流程:
用户问题
↓
嵌入模型
↓
向量数据库搜索
↓
检索相关片段
↓
LLM生成答案
这有效——但每个答案都是从零开始重建的。
即使模型昨天回答了相同的问题,它仍然:
- 再次搜索
- 再次检索
- 再次综合
没有记忆积累。
正如原始LLM Wiki概念中描述的,NotebookLM、ChatGPT文件上传和许多RAG栈等典型系统反复重新发现知识,而不是保留它。
这是低效的。
LLM Wiki模式通过引入持久知识层来解决这个问题。
2、什么是LLM Wiki模式?
与其每次检索原始文档片段,LLM会:
- 阅读源材料
- 提取结构化知识
- 编写Wiki风格的Markdown页面
- 将它们链接在一起
- 持续更新它们
这样想:
LLM成为活跃知识库的维护者 📘
随着时间推移,系统构建一个它所学一切的结构化地图。
未来的答案来自Wiki——而不是原始文档。
3、核心架构(简单的心智模型)
以下是高层流程:
原始来源
(PDF、文章、笔记)
↓
LLM阅读和总结
↓
结构化Wiki页面
(Markdown知识库)
↓
交叉链接和更新
↓
查询Wiki
而不是原始文件
关键区别:
知识编译一次,永远复用。
4、LLM Wiki系统的三层结构
该模式之所以有效,是因为它将知识分成三层。
4.1 原始来源(不可变真相层)
这包括:
- 研究论文
- 文档
- 文章
- 会议记录
- 书籍
- 数据集
LLM阅读它们——但从不编辑它们。
它们保持作为基本事实。
4.2 Wiki(结构化知识层)
这是核心创新。
LLM生成:
- 摘要
- 概念页面
- 实体页面
- 比较
- 主题概述
- 综合文档
这些页面存储为Markdown文件,并在新来源到达时自动更新。
示例结构:
/wiki
transformers.md
rag.md
embeddings.md
vector-databases.md
随着时间推移,这成为你AI的内部知识地图。
4.3 模式(行为层)
模式定义:
- 页面格式
- 命名规则
- 更新工作流程
- 链接约定
- 索引策略
它就像指导LLM如何维护Wiki的指令。
这将模型从聊天机器人转变为知识工程师。
5、知识如何添加到Wiki
这个过程被称为摄取。
示例工作流程:
新文章添加
↓
LLM阅读内容
↓
提取关键思想
↓
更新现有页面
↓
创建缺失页面
↓
添加交叉引用
↓
记录变更
一个来源可以自动更新10-15个页面。
这就是结构化积累的力量。
6、查询Wiki而不是搜索文档
传统系统搜索原始文本。
LLM Wiki系统搜索结构化知识。
用户问题
↓
搜索Wiki索引
↓
打开相关页面
↓
生成综合答案
↓
可选地将结果存储为新页面
重要洞察:
答案本身可以成为知识库的一部分。
你的系统每次使用时都会改进 📈
7、随时间保持Wiki健康(Linting)
随着知识增长,维护变得重要。
LLM可以定期检查:
- 页面间的矛盾
- 过时的声明
- 缺失的交叉引用
- 孤立的主题
- 未探索的想法
这个过程被称为Wiki linting。
它保持你的知识库一致和可靠。
8、使导航简单的两个文件
大型知识库需要结构。
两个特殊文件帮助管理一切:
8.1 index.md
充当目录:
Transformers → 架构概述
Embeddings → 向量表示解释
RAG → 基于检索的生成工作流程
LLM在回答问题时首先阅读这个。
8.2 log.md
跟踪历史:
[2026-04-02] 摄取 | Attention Is All You Need
[2026-04-05] 查询 | Transformer vs RNN比较
[2026-04-07] lint | 交叉引用更新
这创建了你的知识如何演变的时间线。
9、LLM Wiki最有效发挥作用的实际用例
这种模式非常灵活。
以下是一些强大的应用。
9.1 个人知识系统
跟踪:
- 笔记
- 目标
- 想法
- 日记条目
- 学习进度
随着时间推移,系统构建一个你如何思考的结构化模型。
9.2 研究助手
非常适合:
- 文献综述
- 论文准备
- 长期调查
LLM自动连接论文间的想法。
9.3 工程团队文档
向系统提供:
- Slack线程
- 会议记录
- 架构文档
- API规范
Wiki无需手动努力即可保持更新。
9.4 竞争情报或市场研究
持续跟踪:
- 竞争对手
- 战略转变
- 产品发布
- 价格变化
你的知识库自动演变。
10、为什么这种模式如此有效
手动维护知识库很困难。
人类停止更新文档是因为:
- 交叉链接很繁琐
- 摘要变得过时
- 矛盾累积
- 结构随时间破裂
LLM解决了这个维护问题。
它们可以瞬间更新数十个文件而不会失去一致性。
你的角色变成:
- 选择来源
- 提出问题
- 指导方向
LLM处理其他一切。
11、LLM Wiki vs RAG:何时使用每个?
当以下情况使用LLM Wiki:
- 知识逐渐增长
- 结构很重要
- 综合很重要
- 需要可解释性
当以下情况使用RAG:
- 数据集巨大
- 信息频繁变化
- 需要实时检索
今天的最佳实践:
结合两者。
稳定知识 → LLM Wiki
实时数据 → RAG
这种混合方法给出最佳结果。
12、你今天可以尝试的最小实现工作流程
你可以在一个周末构建一个简单的版本。
步骤1:
创建文件夹:
/raw_sources
/wiki
/schema.md
/index.md
/log.md
步骤2:
将一篇文章放入/raw_sources
步骤3:
询问你的LLM:
将其转换为结构化Wiki页面并更新相关主题
步骤4:
随着你阅读更多材料重复
几天内,你就会看到你的知识库自动增长 🚀
13、关键要点
以下是使LLM Wiki模式强大的原因:
- 知识积累而不是每次查询重置
- 系统自动构建结构化Markdown页面
- 交叉引用随时间改进
- 矛盾被早期标记
- 答案成为可复用的知识资产
- 维护成本大幅下降
最重要的是:
你的AI不再像搜索引擎那样行为——而开始像研究伙伴那样行为。
14、结束语
LLM Wiki模式不仅仅是一个技术技巧。
它是一种处理知识的新方式。
与其反复检索信息,不如构建一次理解并持续完善。
如果你正在构建:
- 开发者copilots
- 研究助手
- 学习系统
- 内部文档工具
- 个人知识图谱
今天尝试创建你的第一个AI维护的Wiki。
从一个来源开始。
让LLM编写第一页。
然后看着你的知识系统从那里成长。
原文链接: From RAG to Self-Updating Knowledge: Understanding Andrej Karpathy's "LLM Wiki" Pattern
汇智网翻译整理,转载请标明出处