LIBRARY

PageIndex：将检索视为推理

一个基于推理的树搜索框架如何达到98.7%的准确率——并悄然挑战一个价值22亿美元的传统RAG产业。

admin

Mar 25, 2026 • 11 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

两年来，AI行业对每个文档密集型应用都运行着相同的套路。你将PDF分块，将这些块嵌入向量，存储在Pinecone、Chroma或Weaviate中，然后希望余弦相似度搜索能找到正确答案。这是检索的流水线作业。它也存在严重缺陷。

现在，一个小型但快速增长的开源项目PageIndex——由VectifyAI构建，受AlphaGo树搜索逻辑启发——正在迫使人们重新审视。 它的数字很难反驳：PageIndex在FinanceBench基准测试上达到98.7%的准确率，完全消除了向量数据库和分块，而传统向量RAG在相同基准测试上大约只有50%——近49个百分点的差距挑战了价值22亿美元的向量数据库市场。

这不是渐进式改进。这是一个架构论证。它可能是自RAG本身被引入以来，我们对检索思考方式的最重要转变。

1、关键数字

98.7%：PageIndex在FinanceBench上的准确率，最严格的文档问答基准测试
~50%：优化向量RAG管道在相同基准测试上的典型上限
0：PageIndex所需的向量数据库、嵌入模型或分块

2、没人愿意承认的分块问题

基于向量的RAG依赖语义嵌入和向量数据库来识别相关的文本块。在预处理阶段，文档被分成更小的块，每个块使用嵌入模型嵌入向量空间，生成的向量存储在数据库中。在查询阶段，用户查询使用相同模型嵌入，数据库搜索语义相似的块，系统检索top-k结果。

理论上听起来很优雅。实践中，它充满了失败模式。

还有交叉引用问题，它悄悄地破坏了整个金融和法律查询类别。用户询问美联储年度报告中递延资产的总值。主要部分描述了价值的"变化"但没有列出总数。然而，文本写道："更详细信息请参见附录G。"基于向量的系统在这里通常会失败——附录G中的文本看起来与用户查询完全不同，因此数据库忽略了它。

即使经过数月优化"分块+嵌入+向量存储"管道，准确率通常低于60%。

— RAG实践者，引自PageIndex基准分析

这不是边缘案例。这在结构化专业文档中是常规发生的。这种失败可能会影响真正的决策。底层问题现在有了名字："感觉检索"（vibe retrieval）——在工程师中流传的术语，描述向量搜索找到感觉相关但实际并不需要的东西。

3、PageIndex登场：检索即导航，而非搜索

PageIndex是一种无向量RAG架构，通过对文档结构进行推理来检索信息，而不是执行语义搜索。它不将文档视为一堆扁平的文本，而是将其视为结构化的层次结构——像教科书一样有目录。

受AlphaGo启发，PageIndex从长文档构建分层树索引，并使用LLM对该索引进行推理，实现智能体化、上下文感知的检索。它模拟人类专家如何通过树搜索导航和从复杂文档中提取知识，使LLM能够思考和推理到最相关的文档部分。

这里的概念转变是微妙但深刻的。传统向量RAG问： 哪些块在语义上与我的查询相似？ PageIndex问：专家会在哪里寻找，为什么？

4、它实际如何工作：三个阶段

结构索引——构建树

PageIndex将文档转换为分层JSON树，组织章节、节和小节。它的OCR将整个文档理解为单一结构——保留标题、表格和上下文——而不是孤立地处理每页。

LLM驱动的树搜索——推理到答案

不是最近邻向量，LLM读取目录，对查询进行推理，选择最可能的节点，深入探索，评估充分性，然后迭代。如果某个部分不完整，它会获取相邻部分直到上下文足够。

可追溯的答案生成

一旦识别出相关节点，只有它们的原始文本被传递用于最终生成。每个答案都可以通过确切的路径追溯——访问了哪个部分、为什么、提取了什么。没有黑箱。

JSON索引结构在实践中看起来像这样：

{
  "node_id": "0006",
  "title": "Financial Stability",
  "start_index": 21,
  "end_index": 22,
  "summary": "The Federal Reserve's monitoring frameworks...",
  "sub_nodes": [
    {
      "node_id": "0007",
      "title": "Monitoring Financial Vulnerabilities",
      "start_index": 22,
      "end_index": 28
    }
  ]
}

每个节点直接链接到原始内容——文本、图像、表格。 这个上下文索引驻留在LLM的活动推理上下文中，而不是单独的数据库中。模型可以在推理过程中动态导航、遍历和推理它。

5、改变对话的FinanceBench结果

让PageIndex出名的基准测试是FinanceBench——一个严格的评估，需要从SEC文件、10-K和收益报告中精确提取数字。 这些文档中"差不多"是不够好的。

让这个结果特别引人注目的是PageIndex不使用什么。它没有嵌入模型。没有向量数据库。没有分块管道。准确率差距不是因为它有更好的相似度算法——它完全放弃了相似度，转向结构化推理。

金融文档包含分层关系、交叉引用和结构语义，固定大小分块会破坏这些。这是差距的技术解释。但战略意义更重大：建立在Pinecone、Weaviate和Chroma之上的价值22亿美元的向量数据库市场正受到挑战——不是被更好的向量数据库挑战，而是被不需要向量数据库的架构挑战。

6、为什么树搜索是正确的思维模型

VectifyAI从AlphaGo获得的灵感不仅仅是营销。AlphaGo不是通过搜索每个可能的棋盘位置来赢得围棋——这在计算上是不可能的。 它通过使用神经网络推理哪些位置值得探索，然后在缩小的空间内更深入地搜索来获胜。

PageIndex将相同的逻辑应用于文档。不是扫描嵌入空间中的每个向量寻找接近度，LLM推理文档结构以决定哪些节点值得导航到。当人类需要在密集的教科书或长篇年度报告中找到特定信息时，他们不会线性扫描每个段落。他们会去目录，识别相关部分，遵循层次结构，阅读特定段落。

PageIndex赋予机器做同样事情的能力——不是通过近似，而是通过有意识的、结构化的推理。

7、这对智能体化转变意味着什么

即使像Claude Code这样的高级系统也已从传统的基于向量的RAG转向代码检索，实现了更高的精度和速度，而无需依赖向量数据库。相同的轨迹现在正在文档检索中上演。

底层模式是一致的：随着LLM在推理方面变得更好，将智能卸载到静态向量索引变得越来越没有意义。模型已经知道如何导航。为什么要将它限制在相似度分数上？

随着模型在规划和推理方面变得更强大，查找数据的责任正从数据库层转移到模型层。我们已经在编码工具中看到这一点，Claude Code和Cursor等智能体正从简单的向量查找转向主动的代码库探索。文档检索正遵循相同的轨迹。

8、公正的批评：准确率 ≠ 生产就绪

并非所有人都确信这是向量RAG的完全替代品，这些批评者有合理的观点。

PageIndex的准确率提升伴随着更高的成本和延迟—— 架构涉及多次LLM调用来遍历文档树，这会增加推理成本。对于需要亚秒响应的高吞吐量消费级应用，这种权衡在今天可能无法接受。

PageIndex也没有发布查询延迟（毫秒）、索引吞吐量（文档/秒）、负载下的内存占用或并发查询处理容量的指标。这反映了一个明确的设计哲学：它针对精度而非规模优化。

然而，创建者认为最终用户的感知延迟可能可以忽略不计。使用PageIndex，检索在模型的推理过程中内联发生。系统可以立即开始流式传输并在生成时检索——这意味着首个token时间与普通LLM调用相当，在首个token之前没有额外的检索门控。

架构中还隐藏着一个实际好处：通过消除对嵌入的依赖，企业不再需要维护专用的向量数据库。树结构索引足够轻量级，可以驻留在PostgreSQL等传统关系数据库中——为许多团队显著减少了运营开销。

9、PageIndex在何处获胜——以及在何处不获胜

更聪明的框架，正如一些工程师已经发现的，是混合的：使用向量搜索识别大型语料库中哪些文档相关，然后使用PageIndex从这些文档中提取精确答案。两个阶段，每个工具做它最擅长的事。在跨语料库搜索时使用向量。在文档内分析时使用PageIndex。

10、更大的信号：检索正在变成推理

从PageIndex获得的最重要启示不是基准测试数字——而是它验证的架构原则。

多年来，RAG本质上是一个披着LLM外衣的搜索问题。你嵌入东西，搜索相似的东西，祈祷最好的结果。PageIndex将检索重新定义为推理问题：给定我对此文档结构和用户意图的了解，我应该在哪里寻找，为什么？

PageIndex将RAG从近似的"语义感觉"转向关于信息位置的显式推理。这种清晰度帮助团队信任输出并更有效地调试工作流。这不仅仅是准确率改进。这是语言模型与数据之间的根本不同关系——模型是主动导航知识的智能体，而不是预过滤块的被动消费者。

向量搜索将继续有用。但当正确性、透明度和深度理解很重要时，推理优先、智能体化的检索是前进的方向。

PageIndex是开源的，可在VectifyAI的GitHub上获取，可以自托管或通过其云平台和MCP集成访问。对于处理财务报告、法律文件、监管文件或任何长篇结构化内容的团队——98.7%的数字值得认真对待。

分块和嵌入的时代运行得不错。但事实证明，更聪明的做法始终是先阅读目录。

原文链接: Vector RAG Is Dead. PageIndex Just Proved It.

汇智网翻译整理，转载请标明出处