传统RAG改变了我们构建AI应用的方式。通过在生成答案前检索相关文档,它让LLM能够访问私有的、最新的知识。但存在一个根本性问题: vanilla RAG将数据视为孤立的文本块。它能找到语义上相似的内容,但会忽略关联的内容。 进入GraphRAG — 一种将知识图谱融入检索流程的范式,使LLM能够跨关系进行推理、遍历多跳连接,并在结构化、可解释的上下文中产生答案。 在本文中,我将带你了解什么是GraphRAG、为什么它重要、如何运作,以及如何构建一个完整的系统。我们将涵盖架构、代码、基础设施,以及投入生产前需要了解的权衡取舍。 1、什么是GraphRAG?GraphRAG(图检索增强生成)将知识图谱与大语言模型结合,创建了一个不仅理解数据内容,而且理解信息之间关系的检索系统。 在标准RAG流程中,你将文档分块、将它们嵌入为向量,并根据余弦相似度检索最相似的top-k块。这对于直接的事实查询效果很好——"我们的退款政策是什么?"但当答案需要综合多个文档的信息或推理实体间的关系时,它就失效了。 考虑这样一个问题:"哪些参与了Project Alpha的团队成员也贡献了任何Q3计划?" 向量搜索可能会分别检索到提及Project Alpha的块和提及Q3的块,但它无法将人、项目和时间线联系起来。GraphRAG通过将实体(人、项目、日期)