PageIndex vs. 传统RAG

一篇病毒推文声称PageIndex，一个新的开源"基于推理的RAG"系统，在没有向量数据库、分块或相似性搜索的情况下，在金融基准上达到了98.7%的准确率。

AI界注意到了这一点。一些人称其为"RAG杀手"。

我过去一周花时间试图将PageIndex与领先的RAG提供商进行基准测试。结果讲述了一个更微妙的故事 —— 并揭示了没有人正在谈论的一个基本局限。

1、PageIndex是什么？

PageIndex由VectifyAI采用了一种与文档检索根本不同的方法。不是标准的分块-嵌入-检索管道，而是：

构建层次树索引（像语义内容表）
使用LLM推理来导航树并找到相关部分
从识别的部分提取内容以生成答案

这个想法很引人注目：相似性搜索找到相似内容，但推理找到相关内容。

当问题询问认证日期时，相似性搜索可能会返回认证表格 —— 相关但无用。基于树的推理可以导航到时间线部分。

VectifyAI的Maﬁn2.5，由PageIndex驱动，在FinanceBench上达到了98.7%的准确率。但FinanceBench测试单个文档问答 —— 每个问题针对特定的财务报告。

问题是：当你有1000个文档时会发生什么？

2、可扩展性问题

这是通过测试确认的：PageIndex的基于树的方法实际上无法扩展到多文档场景。

它非常适合单文档用例（例如：财务文档），但在大型多文档知识库上表现不佳。

在我们的测试中，使用Google的simpleqa-verified数据集（一个约1000个问题、约2795个文档的基准数据集），构建索引遇到了主要的可扩展性问题。

由于这个原因：我们不得不回退到标准向量搜索 —— 它声称要取代的相同方法。

PageIndex团队对此很透明。在X（Twitter）上的公开交流中，他们的官方账户指出，PageIndex目前是为单个长文档问答设计的，对于多个文档（超过5个），他们通过其他定制技术支持。

他们也承认，开源版本使用顺序索引过程，更多地作为概念证明而非企业级系统。

3、基准：100个问题，1000个文档

为了在多文档场景中评估PageIndex，我测试了实际在规模化时会发生什么：FAISS向量检索（当树索引不可用时的后备方案），随后是GPT-5.1回答生成。

我将此与三个商业RAG提供商进行了比较，所有提供商都从SimpleQA-Verified回答相同的问题，跨越2,795个源文档：

4、评分

质量 =（正确 - 4 x不正确）/总数

4倍的不正确答案惩罚反映了倾向于精确性而非召回率的设计选择：自信的错误答案成本是正确答案的四倍。

这有利于保守的系统，当不确定时保持沉默。使用不同的惩罚比率，排名会改变。

注意：这些结果基于来自SimpleQA-Verified的100个问题样本，而非完整的1,000个问题基准。在这个样本大小下，排名应被视为方向指标而非统计确定性。相邻提供商之间的差异（例如，CustomGPT在0.78 vs PageIndex在0.69）在n=100时可能不具统计显著性。

当管道回答时，它达到96.4%准确率（84次尝试中正确81次）。

5、核心权衡

这些结果揭示了PageIndex设计中的一个基本权衡：

单文档：旨在卓越

PageIndex构建用于单文档深度分析。当它可以在已知文档上使用基于树的推理时，结构导航实际上找到相似性搜索遗漏的信息。PageIndex在FinanceBench上的结果证明了这种能力。

多文档：回退到标准RAG

当PageIndex面对数百或数千个文档时，它无法足够快地构建树索引。它回退到FAISS向量搜索 —— 并且表现得像任何其他向量RAG系统一样，没有使其特殊的结构推理。

这是核心洞察：PageIndex的优势（树推理）正是无法扩展到多文档检索场景的内容，其中大多数RAG系统都在操作。

6、PageIndex真正表现出色的地方

尽管有多文档局限，PageIndex的方法具有真正的价值：

单文档深度分析。 对于财务报告、法律备案、技术手册 —— 任何你知道要搜索哪个文档的场景 —— 基于推理比基于分块的相似性搜索更能更好地导航复杂结构。PageIndex自身的FinanceBench结果证明了这种能力。

结构化文档。 具有自然层次结构（章节、小节、编号项）的文档发挥PageIndex的优势。树索引镜像文档自身的结构。

可审计性。 每个检索决策都是可追溯的 —— 考虑了哪些树节点，选择了哪些，以及为什么。这对于合规重强的领域很重要。

原则性的保留。 PageIndex说"我不知道"而非猜测错误 —— 对于高赌注应用程序是有价值的属性。

7、诚实的收获

PageIndex不会"杀死"RAG。其核心技术（树推理）无法扩展到大多数RAG系统运行的多文档检索场景。

但PageIndex在某些情况下确实很好。对于高赌注、单文档分析 —— 法律审查、财务尽职调查、监管合规 —— 结构化推理和原则性保留的结合确实有价值。

真正的未来可能涉及混合方法：用于文档发现的向量检索，用于顶部候选中精确提取的基于树的推理。PageIndex已经证明了基于文档结构的LLM推理可以在文档内检索方面超越相似性搜索。这是一个有意义的贡献。

不是RAG杀手。但对于特定、高赌注用例的有价值工具。

8、方法论和可重复性

完整的基准代码、数据和结果发布于：github.com/adorosario/pageindex-rag-benchmark

技术细节

问题：100个问题来自SimpleQA-Verified（事实性、单答案）
文档：2,795个在FAISS中索引（text-embedding-3-small, 81,868个分块）
回答模型：PageIndex后备管道使用GPT-5.1（temperature=0）；每个商业提供商使用其原生模型
评估者：使用simple-evals分级器模板的GPT-4.1-mini
评分：质量 =（正确 — 4 x不正确）/总数（penalty_ratio=4.0）

注意：4倍惩罚比率是倾向于面向精确性的系统的设计选择。在不同惩罚比率下排名会改变：

在1倍惩罚（对不正确答案无额外惩罚）时，OpenAI RAG（0.81）将在PageIndex（0.78）之前排名第三。

每个提供商使用自己的回答模型，这使得这成为端到端的提供商比较，而非仅检索比较。

我设计了基准方法并选择了提供商、评分公式，和惩罚比率，使用OpenAI最近的"为什么语言模型产生幻觉"论文 https://arxiv.org/abs/2509.04664的方法 —— PS：阅读博客文章，这是必读的。

局限性

样本大小：此基准使用来自SimpleQA-Verified的100个问题。结果是方向指标，而非统计确定性 —— 相邻提供商之间的差异在此样本大小下可能不具统计显著性
每个提供商使用自己的回答模型，使其成为端到端的提供商比较，而非仅检索比较
我设计了基准方法并选择了提供商、评分公式，和惩罚比率，使用OpenAI最近的"为什么语言模型产生幻觉"论文 https://arxiv.org/abs/2509.04664的方法 —— PS：阅读博客文章，这是必读的。

原文链接: No, PageIndex Will Not "Kill" RAG, But It Is Indeed Excellent In Some Cases

汇智网翻译整理，转载请标明出处