如何提取高价值知识图谱关系
知识图谱在连接事实而不仅仅是存储事实时最为有效。它们的真正价值来自于关系,例如谁拥有什么、哪个产品依赖哪个组件、哪种疾病与哪种症状相关联、哪位作者写了哪篇论文、哪个客户与哪个账户相关联,或者哪份文件支持业务决策。
知识图谱关系通常表示为两个实体之间的连接。在RDF中,这通常表示为主语-谓语-宾语三元组,其中谓语描述了主语和宾语之间的关系。W3C RDF规范将其描述为一个陈述,即谓语所指示的关系存在于两个资源之间。
并非你提取的每个关系都值得保留。如果图谱充满了薄弱、重复、模糊或 unsupported 的关系,它很快就会变得杂乱无章。目标不是收集尽可能多的关系,而是专注于那些准确、有用、可解释且对搜索、分析、推荐、自动化或决策有价值的关系。
1、什么使知识图谱关系具有"高价值"?
高价值关系是一种能够提高图谱实用性的连接。它有助于回答重要问题、支持业务流程、揭示隐藏模式或提高下游系统的准确性。
例如,关系:
产品 A — 使用组件 — 电池 B
比以下关系更有用:
产品 A — 与...一起提及 — 电池 B
第一个关系为我们提供了具体、可操作的信息。它可以帮助进行供应链分析、兼容性检查、保修决策、产品推荐和风险警报。第二个关系仅表明两个实体一起出现,这可能并不重要。
高价值关系通常具备五个特质:
它们是具体的。"由...创立"、"在...制造"、"依赖于"、"经...批准"和"与...兼容"比模糊的谓语(如"与...相关"或"与...关联")更强。
它们与真实的用例相关。一个有助于回答客户、运营、合规、研究或SEO问题的关系比仅仅增加数量的关系更有价值。
它们是可验证的。一个强有力的关系应该可以追溯到一个来源,如文档、数据库行、API响应、合同、科学论文或可信赖的网页。来源很重要,因为用户需要知道事实来自何处。
它们是可复用的。一个好的关系可以支持多个查询、工作流或应用程序。
它们是可维护的。关系可能会变得过时。职位头衔会变化,公司会合并,价格会变动,政策会更新,科学认识也会发展。一个高价值的图谱需要一个流程来随着时间的推移刷新和纠正关系。
2、从图谱必须回答的问题开始
最佳的关系提取项目从问题开始,而不是工具。这些在本体论和知识图谱设计中通常被称为能力问题。它们定义了图谱应该能够回答什么。
示例包括:
这一步防止图谱成为垃圾场。如果一个关系无助于回答有意义的问题,它可能不值得提取。
行业知识图谱用于搜索、产品理解、社交网络、问答和企业发现。谷歌研究的一篇著名行业论文将知识图谱描述为结构化的事实知识,被主要公司用于驱动智能产品和搜索体验。
3、在规模化提取之前构建关系模式
关系模式定义了图谱应包含的连接类型。如果没有模式,提取系统可能会产生同一思想的多种变体:
- "为...工作"
- "受雇于..."
- "在...工作"
- "...的员工"
- "加入了公司"
- "有雇主"
这些可能都需要映射到一个规范的关系,例如:
4、人 — 为...工作 — 组织
模式在开始时不需要完美。它可以演变。但它应该包括核心关系类型、实体类型、允许的方向、预期的数据源和验证规则。
一个简单的关系定义可能如下所示:
对于语义网和结构化数据项目,Schema.org 还可以帮助标准化实体和关系的公开描述。Schema.org 指出,其词汇表涵盖实体、实体之间的关系以及动作,并且可以通过 RDFa、Microdata 和 JSON-LD 等格式表达。
5、为关系提取选择正确的来源
高价值关系通常来自高质量来源。选择正确的来源是构建知识图谱的最重要步骤之一。
结构化数据源通常是最容易处理的。这些包括关系数据库、CRM记录、产品目录、电子表格、API、数据仓库和事件日志。它们通常包含明确的关系,如客户到账户、产品到类别或员工到部门。
半结构化来源包括HTML页面、JSON文件、XML文档、元数据、表格和结构化Web标记。这些通常具有清晰的实体属性和关系,但可能需要清理和规范化。
非结构化来源包括PDF、报告、电子邮件、合同、手册、研究论文、新闻文章、转录文本和支持票证。这些更难处理,因为关系是用自然语言表达的。然而,它们通常包含最丰富和最有价值的知识。
对于SEO和公共Web可见性,结构化数据尤为重要。Google Search Central 解释说,结构化数据为 Google 提供了关于页面含义的明确线索,可以帮助它理解有关人员、书籍、公司、食谱以及Web上其他实体的信息。Google 还指出,如果站点设置允许,通常建议使用 JSON-LD。
6、在提取关系之前提取实体
关系提取依赖于实体提取。系统必须先识别正在连接的事物,然后才能理解它们是如何连接的。
识别实体后,系统应该对它们进行规范化。"IBM"、"International Business Machines"和"IBM Corp."可能指同一个组织。"New York"、"NYC"和"New York City"可能需要合并为一个位置实体,具体取决于领域。
这一步通常被称为实体链接或实体解析。这是必不可少的,因为重复的实体会产生重复的关系。一个包含同一公司三个版本的图谱将产生碎片化的、误导性的结果。
7、使用多种提取方法,而不是仅一种
没有一种最佳方法来提取知识图谱关系。最有效的管道通常结合规则、机器学习、语言模型、人工审查和图谱验证。
7.1 基于规则的关系提取
当语言可预测或数据结构化时,基于规则的提取效果很好。例如:
- "X 由 Y 创立。"
- "X 总部位于 Y。"
- "X 需要 Y。"
- "X 与 Y 兼容。"
- "X 向 Y 汇报"
规则可以使用正则表达式、依存句法分析、数据库映射或基于模板的模式创建。它们是透明的且易于审计,但它们可能会错过以意外方式表达的关系。
基于规则的方法适用于法律条款、产品手册、财务文件、政策文件以及其他语言遵循可重复模式的领域。
7.2 开放信息提取
开放信息提取(通常称为 OpenIE)从文本中提取关系三元组,而无需预先定义每种关系类型。最初的 OpenIE 研究引入了一种可扩展的方法,用于从 Web 文本中提取大量关系元组,而无需首先手动指定每个目标关系。
例如,Stanford CoreNLP 的 OpenIE 注释器提取由主语、关系和宾语组成的开放域三元组。其文档描述了诸如某人出生在某地之类的三元组,并指出当训练数据有限时,OpenIE 可能很有用。
OpenIE 对于发现很有用。它有助于找到你可能未包含在原始模式中的可能关系。然而,OpenIE 结果通常需要清理,因为自然语言谓语可能不一致、冗长或重复。
例如,OpenIE 可能会提取:
"电池 B" — "是...运行所必需的" — "产品 A"
知识图谱管道可能需要将其规范化为:
产品 A — 需要组件 — 电池 B
7.3 监督关系提取
监督关系提取使用标记示例来训练模型。例如,人工可能会标记表达以下关系的句子:
- acquiredBy
- locatedIn
- treats
- causes
- authorOf
- manufacturedBy
- partOf
模型学习这些关系在文本中的出现方式,然后在新文档中预测它们。
如果有足够的标记数据,这种方法可能是准确的。缺点是需要成本,因为创建高质量的标记示例需要时间和领域知识。
7.4 远程监督
远程监督通过自动从现有知识库生成训练示例来减少手动标记的需求。Mintz、Bills、Snow 和 Jurafsky 的经典远程监督论文使用 Freebase 关系从未标记文本中训练关系提取器,为人工标记语料库提供了一种替代方案。
如果你已经有一个部分知识图谱或可信赖的数据库,这种方法会很有帮助。它可以帮助你扩展关系提取,但它也可能引入噪声标签。该过程仍应包括置信度评分和验证。
7.5 LLM 辅助关系提取
大型语言模型可以帮助从复杂文本中提取关系,特别是当关系是隐含的而不是以简单模式表达时。它们还可以帮助将混乱的自然语言关系重写为规范的图谱谓语。
例如,一份文档可能会说:
"除非已安装固件 B,否则产品 A 无法运行。"
语言模型可以帮助推断:
产品 A — 需要软件 — 固件 B
LLM 对于候选生成、模式映射、总结证据和处理各种语言特别有用。然而,它们不应被视为最终的真理来源。对于高价值关系,每次提取都应基于源文本,根据模式规则进行检查,并分配置信度分数。
一个实用的 LLM 辅助管道应该要求模型返回:
这使关系更容易解释和审查。
7.6 规范化关系谓语
原始提取通常会产生许多含义相同的关系短语。规范化将它们转换为受控词汇表。
例如:
这一步提高了查询质量。用户和应用程序可以查询一个规范的关系,而不是在几十个几乎重复的谓语中进行搜索。
规范化还应保留方向。"公司 A 拥有公司 B"与"公司 A 被公司 B 拥有"不同。方向错误是知识图谱构建中最具破坏性的错误之一。
7.7 为关系添加上下文
某些关系始终为真,但许多关系仅在特定上下文中为真。
例如:
人 A — 为...工作 — 公司 B
可能需要上下文:
- 职位头衔
- 部门
- 开始日期
- 结束日期
- 地点
- 雇佣状态
- 源文档
- 置信度分数
没有时间和上下文,图谱可能会产生误导。2018 年为某公司工作的人今天可能不在那里工作。与某一软件版本兼容的产品可能与下一版本不兼容。
上下文对于涉及雇佣、所有权、合同、价格、法规、医疗证据、科学声明、政治角色和产品兼容性的关系尤为重要。
7.7 为每个重要关系捕获来源
来源告诉用户关系来自何处以及它是如何创建的。它回答以下问题:
- 哪个来源支持这种关系?
- 它是何时提取的?
- 它是通过规则、模型、API 还是人工提取的?
- 它是否经过验证?
- 文本支持什么证据?
- 来源是否已更改?
W3C PROV-O 规范提供了一个用于表示和交换跨系统和领域来源信息的模型。它包括可以针对不同应用程序进行专门化的类和属性。
高价值关系不应仅存储为:
供应商 A — 供应 — 组件 B
它还应包括:
这使图谱更值得信赖且更易于审计。
7.8 按价值而不是仅按置信度对关系进行评分
置信度和价值是不同的。一个关系可能置信度很高但不是很有用。另一个关系可能置信度中等,但如果它影响风险、收入、合规性或用户体验,则极具价值。
一个好的关系评分模型应该同时考虑两者。
一个简单的评分公式可能如下所示:
关系价值分数 = 置信度 + 来源权威性 + 用例重要性 + 复用性 + 新鲜度 + 特异性
这个分数有助于团队决定首先审查哪些关系、发布哪些关系以及将哪些关系保留为低置信度候选。
图谱分析还可以帮助识别重要的实体和关系。例如,中心性算法通常用于确定网络中的重要节点。Neo4j 的 Graph Data Science 文档列出了中心性方法,如 PageRank、度中心性、接近中心性、介数中心性和特征向量中心性。
然而,在图谱中很重要并不意味着它是真实的。一个高度连接的节点可能很重要,但其关系仍需检查。
发布前验证关系
验证保护图谱免受不正确的事实、错误的逻辑和不一致的结构的影响。
常见的验证检查包括:
对于 RDF 图谱,SHACL 是一种广泛使用的验证语言。W3C SHACL 规范将其定义为一种用于根据形状表示的条件验证 RDF 图谱的语言。
验证应在关系加载到生产环境之前进行。加载后也应继续进行,因为新数据可能与旧数据冲突。
7.9 在错误成本高的地方使用人工审查
自动化可以快速提取关系,但对于高风险领域,人工审查仍然很重要。
人工专家应审查涉及以下方面的关系:
- 法律义务
- 医疗或科学声明
- 财务风险
- 法规遵从
- 安全权限
- 供应商依赖
- 公共品牌事实
- 客户敏感数据
人工审查不需要涵盖每个关系。基于风险的方法效果更好。首先审查高价值和低置信度的关系。低风险、高置信度的关系通常可以被自动接受。
7.10 以图谱友好格式存储关系
一旦提取、规范化、评分和验证完成,关系应存储在支持图谱查询的格式中。
常见选项包括:
一个关系通常应不仅包括主语、谓语和宾语,还应包括来源、置信度、时间戳、状态和证据等详细信息。
示例:
7.11 持续改进关系提取
提取知识图谱不是一次性的任务。最好的图谱通过反馈变得更好。
跟踪这些指标:
来自用户、分析师、搜索日志和失败查询的反馈应指导下一次提取周期。例如,如果用户经常搜索产品兼容性但图谱缺少这些关系,则表明需要改进该领域的提取。
8、应避免的常见错误
一个常见错误是在没有明确目的的情况下提取关系。这会创建一个看起来令人印象深刻但回答不了多少重要问题的大型图谱。
另一个错误是使用模糊的谓语。"与...相关"很容易提取但很难使用。特定的关系可以改善搜索、推理、过滤和分析。
第三个错误是忽略来源。没有证据的关系很难信任,特别是当用户需要基于它做出决策时。
第四个错误是跳过实体解析。如果同一家公司、产品或人以不同的名称出现,图谱就会变得支离破碎。
第五个错误是将 AI 输出视为最终结果。AI 可以加速提取,但高价值关系仍需要模式对齐、来源检查、验证和质量控制。
9、提取高价值知识图谱关系的实用工作流程
一个强大的提取工作流程如下所示:
- 定义图谱必须回答的用例和问题。
- 识别最有价值的实体和关系类型。
- 选择受信任的结构化、半结构化和非结构化来源。
- 提取和规范化实体。
- 将重复实体链接到规范 ID。
- 使用规则、OpenIE、监督模型、远程监督、LLM 或混合方法提取候选关系。
- 将原始谓语规范化到受控关系模式中。
- 添加上下文,如日期、角色、地点和来源证据。
- 分配置信度和价值分数。
- 根据模式规则和质量检查验证关系。
- 将高风险或不确定的关系发送给人工审查。
- 将批准的关系存储在图谱数据库或 RDF 存储中。
- 监控新鲜度、冲突、用户反馈和图谱性能。
12、结束语
知识图谱的价值不是通过它包含的节点和边的数量来衡量的。它是通过它可以用来回答有意义问题的关系的质量来衡量的。
高价值知识图谱关系是具体的、可信的、有上下文的和有用的。它们以正确的方式连接正确的实体,有足够的证据供人员和系统依赖。最好的提取管道结合了人工领域知识、清晰的模式、强大的来源选择、自动提取、来源、验证和持续改进。
以这种方式构建的图谱不仅仅是一个数据库。它成为一个支持搜索、发现、推理、分析、自动化和更好决策的活生生的知识地图。
原文链接: How to Extract High-Value Knowledge Graph Relationships
汇智网翻译整理,转载请标明出处