PageIndex vs. 传统RAG

一篇病毒推文声称PageIndex,一个新的开源"基于推理的RAG"系统,在没有向量数据库、分块或相似性搜索的情况下,在金融基准上达到了98.7%的准确率。

AI界注意到了这一点。一些人称其为"RAG杀手"。

我过去一周花时间试图将PageIndex与领先的RAG提供商进行基准测试。结果讲述了一个更微妙的故事 —— 并揭示了没有人正在谈论的一个基本局限。

1、PageIndex是什么?

PageIndex由VectifyAI采用了一种与文档检索根本不同的方法。不是标准的分块-嵌入-检索管道,而是:

  • 构建层次树索引(像语义内容表)
  • 使用LLM推理来导航树并找到相关部分
  • 从识别的部分提取内容以生成答案

这个想法很引人注目:相似性搜索找到相似内容,但推理找到相关内容。

当问题询问认证日期时,相似性搜索可能会返回认证表格 —— 相关但无用。基于树的推理可以导航到时间线部分。

VectifyAI的Mafin2.5,由PageIndex驱动,在FinanceBench上达到了98.7%的准确率。但FinanceBench测试单个文档问答 —— 每个问题针对特定的财务报告。

问题是:当你有1000个文档时会发生什么?

2、可扩展性问题

这是通过测试确认的:PageIndex的基于树的方法实际上无法扩展到多文档场景。

它非常适合单文档用例(例如:财务文档),但在大型多文档知识库上表现不佳。

在我们的测试中,使用Google的simpleqa-verified数据集(一个约1000个问题、约2795个文档的基准数据集),构建索引遇到了主要的可扩展性问题。

由于这个原因:我们不得不回退到标准向量搜索 —— 它声称要取代的相同方法。

PageIndex团队对此很透明。在X(Twitter)上的公开交流中,他们的官方账户指出,PageIndex目前是为单个长文档问答设计的,对于多个文档(超过5个),他们通过其他定制技术支持。

他们也承认,开源版本使用顺序索引过程,更多地作为概念证明而非企业级系统。

3、基准:100个问题,1000个文档

为了在多文档场景中评估PageIndex,我测试了实际在规模化时会发生什么:FAISS向量检索(当树索引不可用时的后备方案),随后是GPT-5.1回答生成。

我将此与三个商业RAG提供商进行了比较,所有提供商都从SimpleQA-Verified回答相同的问题,跨越2,795个源文档:

4、评分

质量 =(正确 - 4 x不正确)/总数

4倍的不正确答案惩罚反映了倾向于精确性而非召回率的设计选择:自信的错误答案成本是正确答案的四倍。

这有利于保守的系统,当不确定时保持沉默。使用不同的惩罚比率,排名会改变。

注意:这些结果基于来自SimpleQA-Verified的100个问题样本,而非完整的1,000个问题基准。在这个样本大小下,排名应被视为方向指标而非统计确定性。相邻提供商之间的差异(例如,CustomGPT在0.78 vs PageIndex在0.69)在n=100时可能不具统计显著性。

当管道回答时,它达到96.4%准确率(84次尝试中正确81次)。

5、核心权衡

这些结果揭示了PageIndex设计中的一个基本权衡:

单文档:旨在卓越

PageIndex构建用于单文档深度分析。当它可以在已知文档上使用基于树的推理时,结构导航实际上找到相似性搜索遗漏的信息。PageIndex在FinanceBench上的结果证明了这种能力。

多文档:回退到标准RAG

当PageIndex面对数百或数千个文档时,它无法足够快地构建树索引。它回退到FAISS向量搜索 —— 并且表现得像任何其他向量RAG系统一样,没有使其特殊的结构推理。

这是核心洞察:PageIndex的优势(树推理)正是无法扩展到多文档检索场景的内容,其中大多数RAG系统都在操作。

6、PageIndex真正表现出色的地方

尽管有多文档局限,PageIndex的方法具有真正的价值:

单文档深度分析。 对于财务报告、法律备案、技术手册 —— 任何你知道要搜索哪个文档的场景 —— 基于推理比基于分块的相似性搜索更能更好地导航复杂结构。PageIndex自身的FinanceBench结果证明了这种能力。

结构化文档。 具有自然层次结构(章节、小节、编号项)的文档发挥PageIndex的优势。树索引镜像文档自身的结构。

可审计性。 每个检索决策都是可追溯的 —— 考虑了哪些树节点,选择了哪些,以及为什么。这对于合规重强的领域很重要。

原则性的保留。 PageIndex说"我不知道"而非猜测错误 —— 对于高赌注应用程序是有价值的属性。

7、诚实的收获

PageIndex不会"杀死"RAG。其核心技术(树推理)无法扩展到大多数RAG系统运行的多文档检索场景。

但PageIndex在某些情况下确实很好。对于高赌注、单文档分析 —— 法律审查、财务尽职调查、监管合规 —— 结构化推理和原则性保留的结合确实有价值。

真正的未来可能涉及混合方法:用于文档发现的向量检索,用于顶部候选中精确提取的基于树的推理。PageIndex已经证明了基于文档结构的LLM推理可以在文档内检索方面超越相似性搜索。这是一个有意义的贡献。

不是RAG杀手。但对于特定、高赌注用例的有价值工具。

8、方法论和可重复性

完整的基准代码、数据和结果发布于:github.com/adorosario/pageindex-rag-benchmark

技术细节

  • 问题:100个问题来自SimpleQA-Verified(事实性、单答案)
  • 文档:2,795个在FAISS中索引(text-embedding-3-small, 81,868个分块)
  • 回答模型:PageIndex后备管道使用GPT-5.1(temperature=0);每个商业提供商使用其原生模型
  • 评估者:使用simple-evals分级器模板的GPT-4.1-mini
  • 评分:质量 =(正确 — 4 x不正确)/总数(penalty_ratio=4.0)

注意:4倍惩罚比率是倾向于面向精确性的系统的设计选择。在不同惩罚比率下排名会改变:

在1倍惩罚(对不正确答案无额外惩罚)时,OpenAI RAG(0.81)将在PageIndex(0.78)之前排名第三。

每个提供商使用自己的回答模型,这使得这成为端到端的提供商比较,而非仅检索比较。

我设计了基准方法并选择了提供商、评分公式,和惩罚比率,使用OpenAI最近的"为什么语言模型产生幻觉"论文 https://arxiv.org/abs/2509.04664的方法 —— PS:阅读博客文章,这是必读的。

局限性

  • 样本大小:此基准使用来自SimpleQA-Verified的100个问题。结果是方向指标,而非统计确定性 —— 相邻提供商之间的差异在此样本大小下可能不具统计显著性
  • 每个提供商使用自己的回答模型,使其成为端到端的提供商比较,而非仅检索比较
  • 我设计了基准方法并选择了提供商、评分公式,和惩罚比率,使用OpenAI最近的"为什么语言模型产生幻觉"论文 https://arxiv.org/abs/2509.04664的方法 —— PS:阅读博客文章,这是必读的。

原文链接: No, PageIndex Will Not "Kill" RAG, But It Is Indeed Excellent In Some Cases

汇智网翻译整理,转载请标明出处