从RAG到自更新知识库

当今大多数AI知识助手都依赖检索增强生成（RAG）。你上传文档，模型在运行时搜索它们，并从检索到的片段生成答案。

它有效——但它无法积累理解。

Andrej Karpathy提出的一个新想法建议采用不同的方法：与其反复搜索原始文件，不如让 LLM构建并维护一个结构化的Wiki。

这被称为LLM Wiki模式。

在本文中，你将学习到：

什么是LLM Wiki模式
它与传统RAG有何不同
架构如何工作
构建它的实际工作流程
你今天可以实现的实际用例

让我们从它解决的问题开始。

1、为什么传统RAG在知识构建方面扩展性不佳

大多数基于文档的助手遵循以下流程：

用户问题
↓
嵌入模型
↓
向量数据库搜索
↓
检索相关片段
↓
LLM生成答案

这有效——但每个答案都是从零开始重建的。

即使模型昨天回答了相同的问题，它仍然：

再次搜索
再次检索
再次综合

没有记忆积累。

正如原始LLM Wiki概念中描述的，NotebookLM、ChatGPT文件上传和许多RAG栈等典型系统反复重新发现知识，而不是保留它。

这是低效的。

LLM Wiki模式通过引入持久知识层来解决这个问题。

2、什么是LLM Wiki模式？

与其每次检索原始文档片段，LLM会：

阅读源材料
提取结构化知识
编写Wiki风格的Markdown页面
将它们链接在一起
持续更新它们

这样想：

LLM成为活跃知识库的维护者 📘

随着时间推移，系统构建一个它所学一切的结构化地图。

未来的答案来自Wiki——而不是原始文档。

3、核心架构（简单的心智模型）

以下是高层流程：

原始来源
（PDF、文章、笔记）
↓
LLM阅读和总结
↓
结构化Wiki页面
（Markdown知识库）
↓
交叉链接和更新
↓
查询Wiki
而不是原始文件

关键区别：

知识编译一次，永远复用。

4、LLM Wiki系统的三层结构

该模式之所以有效，是因为它将知识分成三层。

4.1 原始来源（不可变真相层）

这包括：

研究论文
文档
文章
会议记录
书籍
数据集

LLM阅读它们——但从不编辑它们。

它们保持作为基本事实。

4.2 Wiki（结构化知识层）

这是核心创新。

LLM生成：

摘要
概念页面
实体页面
比较
主题概述
综合文档

这些页面存储为Markdown文件，并在新来源到达时自动更新。

示例结构：

/wiki
  transformers.md
  rag.md
  embeddings.md
  vector-databases.md

随着时间推移，这成为你AI的内部知识地图。

4.3 模式（行为层）

模式定义：

页面格式
命名规则
更新工作流程
链接约定
索引策略

它就像指导LLM如何维护Wiki的指令。

这将模型从聊天机器人转变为知识工程师。

5、知识如何添加到Wiki

这个过程被称为摄取。

示例工作流程：

新文章添加
↓
LLM阅读内容
↓
提取关键思想
↓
更新现有页面
↓
创建缺失页面
↓
添加交叉引用
↓
记录变更

一个来源可以自动更新10-15个页面。

这就是结构化积累的力量。

6、查询Wiki而不是搜索文档

传统系统搜索原始文本。

LLM Wiki系统搜索结构化知识。

用户问题
↓
搜索Wiki索引
↓
打开相关页面
↓
生成综合答案
↓
可选地将结果存储为新页面

重要洞察：

答案本身可以成为知识库的一部分。

你的系统每次使用时都会改进 📈

7、随时间保持Wiki健康（Linting）

随着知识增长，维护变得重要。

LLM可以定期检查：

页面间的矛盾
过时的声明
缺失的交叉引用
孤立的主题
未探索的想法

这个过程被称为Wiki linting。

它保持你的知识库一致和可靠。

8、使导航简单的两个文件

大型知识库需要结构。

两个特殊文件帮助管理一切：

8.1 index.md

充当目录：

Transformers → 架构概述
Embeddings → 向量表示解释
RAG → 基于检索的生成工作流程

LLM在回答问题时首先阅读这个。

8.2 log.md

跟踪历史：

[2026-04-02] 摄取 | Attention Is All You Need
[2026-04-05] 查询 | Transformer vs RNN比较
[2026-04-07] lint | 交叉引用更新

这创建了你的知识如何演变的时间线。

9、LLM Wiki最有效发挥作用的实际用例

这种模式非常灵活。

以下是一些强大的应用。

9.1 个人知识系统

跟踪：

笔记
目标
想法
日记条目
学习进度

随着时间推移，系统构建一个你如何思考的结构化模型。

9.2 研究助手

非常适合：

文献综述
论文准备
长期调查

LLM自动连接论文间的想法。

9.3 工程团队文档

向系统提供：

Slack线程
会议记录
架构文档
API规范

Wiki无需手动努力即可保持更新。

9.4 竞争情报或市场研究

持续跟踪：

竞争对手
战略转变
产品发布
价格变化

你的知识库自动演变。

10、为什么这种模式如此有效

手动维护知识库很困难。

人类停止更新文档是因为：

交叉链接很繁琐
摘要变得过时
矛盾累积
结构随时间破裂

LLM解决了这个维护问题。

它们可以瞬间更新数十个文件而不会失去一致性。

你的角色变成：

选择来源
提出问题
指导方向

LLM处理其他一切。

11、LLM Wiki vs RAG：何时使用每个？

当以下情况使用LLM Wiki：

知识逐渐增长
结构很重要
综合很重要
需要可解释性

当以下情况使用RAG：

数据集巨大
信息频繁变化
需要实时检索

今天的最佳实践：

结合两者。

稳定知识 → LLM Wiki
实时数据 → RAG

这种混合方法给出最佳结果。

12、你今天可以尝试的最小实现工作流程

你可以在一个周末构建一个简单的版本。

步骤1：

创建文件夹：

/raw_sources
/wiki
/schema.md
/index.md
/log.md

步骤2：

将一篇文章放入/raw_sources

步骤3：

询问你的LLM：

将其转换为结构化Wiki页面并更新相关主题

步骤4：

随着你阅读更多材料重复

几天内，你就会看到你的知识库自动增长 🚀

13、关键要点

以下是使LLM Wiki模式强大的原因：

知识积累而不是每次查询重置
系统自动构建结构化Markdown页面
交叉引用随时间改进
矛盾被早期标记
答案成为可复用的知识资产
维护成本大幅下降

最重要的是：

你的AI不再像搜索引擎那样行为——而开始像研究伙伴那样行为。

14、结束语

LLM Wiki模式不仅仅是一个技术技巧。

它是一种处理知识的新方式。

与其反复检索信息，不如构建一次理解并持续完善。

如果你正在构建：

开发者copilots
研究助手
学习系统
内部文档工具
个人知识图谱

今天尝试创建你的第一个AI维护的Wiki。

从一个来源开始。

让LLM编写第一页。

然后看着你的知识系统从那里成长。

原文链接: From RAG to Self-Updating Knowledge: Understanding Andrej Karpathy's "LLM Wiki" Pattern

汇智网翻译整理，转载请标明出处