上下文优先:AI原生搜索实战指南
地球上每一个大语言模型都共享同一个令人着迷又令人沮丧的缺陷:它是一个没有记忆的天才。才华横溢和健忘症的程度恰好相等。
当今的模型记住关键词。它们不记住关系。它们能找到提到"Priya"的三封邮件。但它们无法告诉你Priya的阻碍因素已经修复,所以交易又活过来了。
检索文本和真正记住之间的差距就是2026年的全部核心问题。AI原生搜索是结构性修复——不是在搜索框旁边 bolt 上一个语言模型,而是一个解释你真正意思、保留真正重要内容的系统,让第二次对话比第一次更精准,第十次对话让第一次看起来很原始。
以下是它在底层的工作原理。更重要的是,以下是如何检查你的AI是真正记住了你还是只是把你的数据囤积在一个数字垃圾抽屉里。
1、3.6比特的天花板
当AI忘记事情时,本能反应是投入更多模型。更大的权重、更大的上下文窗口、更大的账单。这行不通,而且现在有一个确切的数字解释了原因。
2025年,来自Meta的FAIR实验室、Google DeepMind、康奈尔大学和NVIDIA的研究人员发表了 How Much Do Language Models Memorize?——得出了一个令人惊讶的具体数字。GPT风格的模型每个参数大约能存储3.6比特的信息。仅此而已。用人话说:3.6比特大约足够从十二个选项中选出一个——一年中的某个月,或者12面骰子的一面。每个参数。模型塞入事实直到触及那个天花板,只有到那时它们才停止记忆并开始真正地泛化。
简单来说:你不可能通过塞入来解决这个问题。记忆必须存在于模型外部——因此这是一个架构问题,而不是预算问题。
你在外部附加的记忆需要三个 brute force 真正买不到的属性:
- 它必须跨会话持久存在。
- 它必须在事实变化时更新。
- 它必须在运行时保持便宜和选择性。
如果你的"记忆"在聊天窗口关闭时消失了,那它从来就不是记忆,只是短期召回。当事情发生变化时记忆必须被更新——此外你为每个token、每次调用付费。"以防万一"塞入所有东西既昂贵又不够准确。
2、机器记忆的五个阶段
把这想象成一句话从"冲击系统的原始噪声"到"你的AI在几周后随口知道答案"所经历的旅程。
2.1 摄取
这基本上是原始数据被摄入系统的阶段——可以是任何东西:聊天消息、通话记录、支持工单、PDF、CRM行、日历事件。在这个阶段你不需要做任何聪明的事——只需用时间戳捕获信息洪流。黄金法则:永远不要丢弃原始数据。你会想要将任何事实追溯到其来源。
几乎每个人在这里犯的错误:把所有这些原始输入嵌入,然后直接倾倒到向量数据库中——然后称之为"记忆"。
注意囤积问题:
假设在一个月内有三件事落入你的系统:
- "Priya正在评估我们的产品,"然后
- "Priya的主要阻碍因素是SOC 2合规,"后来
- "SOC 2在Q2发布了。"
向量存储将这三条都保持为独立的、互不相连的文本块。
所以当你的销售代表问**"Priya准备好购买了吗?"**时,系统获取听起来与问题最相似的分块——也许它抓取了第一条和第三条,漏掉了第二条,然后回答"Priya正在评估产品"——技术上正确,完全无用。它从未将阻碍因素与修复连接起来。
这是囤积,不是记忆:一切都存储了,什么都没理解。
我们想要的是一个在存储之前先阅读这三条消息并理解它们作为一个集合的含义的系统。
2.2 编码
现在它读取混乱的文本并提取重要的东西。具体来说是三样东西:
- 实体= 一个事物。一个人、一家公司、一个产品、一个城市。(Priya。Lumen。柏林。)
- 属性= 该事物的属性。(Priya的角色。Lumen的员工人数。交易的阶段。)
- 边= 两个实体之间的关系。(Priya在Lumen工作_at。Lumen总部在_in柏林。)
使这一过程可靠的技巧是一个模式(schema)——一个合同说:"不要给我一个漂亮的段落。给我这些确切的字段。"这一个约束将模型从"复述一些看似合理的东西"翻转为"实际解析这个输入"。像Pydantic(配合Instructor或PydanticAI)这样的工具使合同可执行——它们会拒绝任何不符合形状的内容。
下面是一个物有所值的提取提示词。把一段漫无目的的销售通话喂给它,看着结构从另一端出来:
你是一个实体提取器。从下面的记录中,只返回一个精确符合此形状的JSON对象:
{
"people": [{ "name", "role", "company", "location", "sentiment" }],
"companies": [{ "name", "industry", "size", "location" }],
"intents": [{ "who", "wants", "blocker", "timeline" }]
}
**规则:**
- 当文本没有提及某项内容时使用null。永远不要编造值。
- 对于每一个事实,添加一个"source_quote",包含证明它的确切词语。
- 不要添加评论、markdown或前言。仅JSON。
**记录:**
"是的,我是Priya,我在Lumen负责增长——我们是一家金融科技公司,大概40人,全部远程但主要在柏林。我们很喜欢演示,唯一的阻碍是SOC 2。如果Q3前能搞定我们就加入。"
输出一些干净且可验证的东西:
Priya → 角色:增长负责人 → 公司:Lumen → 地点:柏林;Lumen → 金融科技,约40人;意图 → 想购买,被SOC 2阻碍,时间线Q3
2.3 存储
这是存储悄然变成记忆的阶段。诱惑是将你提取的内容当作一份整洁的笔记归档——但笔记是惰性的,你只能完整地读回它。相反,你将其分解为一个图。
Priya提到的每个实体都成为一个节点:Priya本人、她的公司Lumen、城市柏林。关于一个节点的每个事实成为挂在其上的属性——Lumen的行业、它的大致员工人数。最重要的是,每个关系成为连接两个节点的边:**Priya —[works_at]→ Lumen。**这句话不再是你重新阅读的散文,而成为你可以行走的路径。
边是双时间态的:每一条边携带了它为真的时间段,而不仅仅是声称它为真。所以当Priya后来离职时,系统不会覆盖过去或被矛盾绊倒——它标记旧边过期,标注新边的日期,并保留两者。你的记忆现在有了之前和之后的感觉,这是理解一个人和仅仅积累关于他们的事实之间的区别。
2.4 检索
问题到来了:"Priya准备好购买了吗?"
这里是大多数系统悄悄作弊的地方——它们把整个历史塞进提示词并祈祷答案埋在某个地方。这很昂贵、缓慢,而且——已被证明——不可靠。
斯坦福大学的一项里程碑式研究,Lost in the Middle,表明语言模型有一个U形注意力曲线:它们可靠地使用长上下文开头和结尾的信息,而当相关事实困在中间时显著退化——即使是专门为长上下文构建的模型也是如此。你的完美答案可能就在提示词中,模型却会直接走过它。
图让你成为一个外科医生而不是一个囤积者。与其阅读一切,不如定位问题触及的节点——Priya、Lumen——然后向外遍历,只拉取相关的子图:她的角色、她的地点、阻碍因素、时间线、修复。你通过混合搜索来完成这一点,融合三个信号:
- 语义含义——所以"the Lumen deal"即使没有人输入这些确切字眼也能找到正确的聚类。
- 关键词匹配——用于"SOC 2"这样你不希望模糊化的精确术语。
- 图遍历——沿着实际的关系向外走,一跳一跳地。
由于每条边都有时间戳,检索会默默地过滤掉当前为真的内容,丢弃已过期的。你给模型的是一个紧凑的、相关的、当前的子图——而不是一个40,000 token的干草堆。
2.5 交付
最后阶段是综合。你不是让模型在它找到的任何东西上自由联想,而是要求一个结构化答案——一个回答、一个信心水平和它依赖的确切来源——严格地基于你检索到的子图。
在那次三月通话几周后,你的销售代表输入:"我们应该向Priya推介企业版吗?"助手回答:
"现在值得推。Priya(增长负责人,Lumen,柏林)在你们三月通话中因SOC 2被阻碍——那在Q2发布了,所以阻碍已经消除。交易阶段较晚,流失风险低。以合规更新为切入点。信心:高。来源:call_0312, release_note_soc2."
3、给构建者的工具
如果你想构建上述记忆层而不仅仅是理解它,以下是该领域正在汇聚的开源工具包:
- Graphiti / Zep —— 第三阶段双时间态边背后的时间知识图谱引擎。开源,生产级。
- Mem0 —— 一个专注于token效率和选择性的流行记忆层。2026年的基准测试对它很友好。
- Neo4j —— 大规模存储节点和边的图数据库主力。
- Pydantic + Instructor —— 第二阶段的模式合同,强制干净、结构化的提取。
4、拿走这个:审计你自己的AI记忆
1. 矛盾测试——它是更新,还是只是囤积?
提示词:
"之前我告诉过你我们公司使用Postgres。现在我告诉你我们上个月迁移到了DynamoDB。如果我问我们用什么数据库,你会怎么说,旧的事实怎么了?"
囤积者会说"你使用Postgres和DynamoDB。"真正的记忆会说"DynamoDB现在;Postgres从上个月起已过期。"
2. 凭证测试——它能将事实追溯到来源吗?
提示词:
"告诉我一件你相信的关于我项目的事情,并准确引用你是从哪里学到的。如果你无法指向来源,请说明。"
如果它拿不出凭证,那它就只是在猜测。
3. 关系测试——它是连接事实,还是只是存储事实?
提示词:
"根据我告诉过你的一切,你能得出什么我从未直接陈述过的结论——通过连接两个或更多独立的事实?"
原文链接:But Context First : A field guide to AI-native search
汇智网翻译整理,转载请标明出处