CN117725222A

CN117725222A - 融合知识图谱与大语言模型的文献复杂知识对象抽取方法

Info

Publication number: CN117725222A
Application number: CN202311551341.3A
Authority: CN
Inventors: 陈文杰; 胡正银; 卢颖; 石栖
Original assignee: Chengdu Document And Information Center Chinese Academy Of Sciences
Current assignee: Chengdu Document And Information Center Chinese Academy Of Sciences
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-19
Anticipated expiration: 2043-11-20

Abstract

本发明公开了一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法，属于数据挖掘领域，包括步骤：S1，领域知识图谱构建；S2，大语言模型微调；S3，复杂知识对象抽取：利用知识图谱来构建提示prompt，通过步骤S1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优提示prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘。本发明可以从海量的多源异构文献数据中高效、可信地进行知识对象的自动化抽取、结构化组织、语义化关联与知识化存储。

Description

融合知识图谱与大语言模型的文献复杂知识对象抽取方法

技术领域

本发明涉及数据挖掘领域，更为具体的，涉及一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法。

背景技术

知识图谱是一种大规模的语义网络，描述了真实世界中存在的各种实体和实体间的关系。知识图谱包括模式层和实例层两部分，前者定义实体、关系和属性的层次结构与语义关系，后者以三元组(h,r,t)的形式存储具体的领域知识，其中，h和t代表头尾两个实体，r代表关系。大语言模型指使用大量文本数据训练的深度学习模型，集成了监督微调、反馈自助、人类反馈强化学习等技术，可用于文本分类、知识问答、信息抽取等多种自然语言处理任务。复杂知识对象抽取采用人工智能、自然语言处理、文本挖掘、语义分析等技术手段，对文本中显性与隐性的知识进行分析、推理，从中抽取出实验方法、实验原理、研究问题和解决方案等不同类型的知识元素，通过语义组织形成复杂知识对象。

科技文献蕴含大量“专业、可信”的知识，是实施创新驱动发展战略、建设创新型国家不可或缺的支撑条件。传统以领域专家为核心的复杂知识对象抽取模式存在效率低下和主观性强等缺陷，难以适用于大规模科技文献的知识抽取与建模。

发明内容

本发明的目的在于克服现有技术的不足，针对科技文献具有数量巨大、类型繁多、关系复杂和来源分散等特点，提供一种融合知识图谱与大语言模型的科技文献知识对象抽取方法，可以从海量的多源异构文献数据中高效、可信地进行知识对象的自动化抽取、结构化组织、语义化关联与知识化存储。

本发明的目的是通过以下方案实现的：

一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法，包括以下步骤：

S1，领域知识图谱构建：设计学科领域本体完成知识图谱模式层构建，通过标注工具进行命名实体识别和关系抽取，将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建；

S2，大语言模型微调：本地化部署大语言模型，利用知识图谱实例层构建微调数据集；

S3，复杂知识对象抽取：利用知识图谱来构建提示prompt，通过步骤S1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优提示prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘。

进一步地，在步骤S1中，所述设计学科领域本体完成知识图谱模式层构建，具体包括子步骤：利用protégé工具实现知识图谱模式层的构建，在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。

进一步地，所述在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环，具体包括子步骤：

基于STKOS科技文献本体建模经验，本体构建的明确性、一致性、可扩展性、最小编码偏差和最小本体承诺原则以及专家先验知识，结合对领域通用本体的复用与融合，自顶向下构建静态Schema，同时利用文本挖掘自底向上对静态Schema进行迭代完善，构建选定领域动态Schema，用于实现从纵向维度对领域知识组织体系的深度挖掘，同时从横向维度对信息资源进行关联汇聚，从而更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系。

进一步地，在步骤S1中，所述通过标注工具进行命名实体识别和关系抽取，包括子步骤：基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注。

进一步地，所述基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注，包括子步骤：

步骤(a)：一标：采集选定领域的研究人员对待标数据集进行的初次人工标注后数据，并将数据提取至标注模板保存，便于后期校对和自动标注工作开展；

步骤(b)：二标：对一标的结果进行交叉检验，检查数据有无错标和漏标情况，并纠正错误标注结果；

步骤(c)：三标：对二标的结果进行最终审定，确保标注的数据没有错误，并对标注的部分数据进行归类。

进一步地，在步骤S1中，所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建，包括子步骤：将标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建，并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘；对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。

进一步地，所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理，具体包括子步骤：

元素预处理：对缺失数据根据实际情况进行补充以及剔除重复的元素，仅存储非重复项；

名称规范化：对涉及歧义的实验元素再次进行校对，其中针对类别进行核对，纠正错误分类，但要保留某种元素及其类型存在的一对多情况；针对同一元素对应多种名称的情况，进行规范化，将元素最常见的名称作为首选，其次将其他名称另外对应存储，作为选定领域的标准元素库。

进一步地，在步骤S2中，所述本地化部署大语言模型，利用知识图谱实例层构建微调数据集，包括子步骤：

利用实例层三元组数据和科技文献构建微调训练数据集，即给定三元组(h,r,t)和科技文献，若文献中的一个句子同时包括“h”和“t”，则将这个句子作为训练样本，并标注为关系“r”，反之将句子标注为不可用；基于P-Tuning v2技术微调模型，即首先冻结语言模型的全部参数，然后通过前缀调优方法在输入数据中***表征特定任务的虚拟标记，接着利用Transformer模型将prompt嵌入低维向量空间得到连续prompt，最后通过调节prompt长度和训练的学习率以取得最优的模型微调效果。

进一步地，在步骤S3中，所述利用知识图谱来构建prompt，通过步骤S1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘，具体包括子步骤：

首先，利用实例层三元组数据生成MOT，即给定三元组(h,r,t)，基于头实体h和问题模版构建问题Question，基于关系r所在本体中同层的所有关系类型构建回答选项，基于t和答案模版构建答案Answer；

然后，对科技文献进行文本分割，针对每个句子进行大语言模型的多轮问答；在第一轮问答中，选择模式层本体schema结构中根节点下的多个子类型来构建Question，计算MOT中Question的相似度，选择Top-K个Question-Answer来构建Prompt，输入到大语言模型得到回答；根据模型回答结果开启下一轮问答，若到达schema的叶子节点则结束多轮问答；在相似度的计算中，利用doc2vec模型将Question文本向量化，计算向量相似度，如下：

最后，已知句子s和提示p，抽取出的知识三元组为(h,r,t)，复杂知识对象的抽取过程的形式化表示如下：

P((h,r,t)|s,p)＝P(r₁|s,p₁)……P(r_n-1|s,p_n-1)P((h,t)|s,p_n)

其中，p_i是每一轮问答中构建的Prompt，r_i是每一轮问答输出的判断结果；前n-1轮问答用于确定关系r的类型在本体中的层级位置，第n轮用于提取知识三元组。

进一步地，所述计算向量相似度具体包括：通过欧式距离计算向量相似度。

本发明的有益效果包括：

本发明提出了一种新的基于大语言模型的复杂知识对象抽取方法，通过知识图谱技术实现领域本体构建和人工标引数据的表示和存储，利用标引的知识和P-Tuning v2技术实现大语言模型微调，最后设计了基于知识图谱和MOT技术的prompt以实现复杂知识对象的抽取，提高了知识抽取任务的准确率，可广泛适用于科技文献的复杂知识对象抽取。

本发明可以实现从纵向维度对领域知识组织体系的深度挖掘，同时从横向维度对领域科技文献等其他类型信息资源进行关联汇聚，更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系。

本发明通过不同长度的问题链来实现细粒度的领域知识对象挖掘。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的结构框图；

图2为本发明实施例构建的知识图谱模式层；

图3为本发明实施例方法的步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

本发明构思了一种融合知识图谱与大语言模型的科技文献知识对象抽取方法，包括领域知识图谱构建、大语言模型微调和复杂知识对象抽取的步骤。

(1)领域知识图谱构建

如图1所示，具体包括如下子步骤：

1)利用protégé工具实现知识图谱模式层的构建，在准备阶段确定特定学科领域的范围与界限，本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐等三轮循环。首先基于STKOS(Scientific&Technological Knowledge Organization Systems)科技文献本体建模经验，本体构建的明确性(Clarity)、一致性(Coherence)、可扩展性(Extendibility)、最小编码偏差(Minimal encoding bias)和最小本体承诺(Minimalontological commitment)等原则以及专家先验知识，结合对领域通用本体的复用与融合(如EXPO、SEM等)，自顶向下构建静态Schema，同时利用文本挖掘技术自底向上对静态Schema进行迭代完善，构建特定领域动态Schema，旨在实现从纵向维度对领域知识组织体系的深度挖掘，同时从横向维度对领域科技文献等其他类型信息资源进行关联汇聚，更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系，构建的本体模型如图2所示。

2)基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注，主要分为三个阶段：

(a)一标：由特定领域的研究人员分别对待标数据集进行初次人工标注，将数据提取至标注模板保存，便于后期校对和自动标注工作开展；

(b)二标：由上述的标注人员对一标的结果进行交叉检验，主要检查数据有无错标、漏标等情况，并纠正错误标注结果；

(c)三标：由特定领域专家对二标的结果进行最终审定，确保标注的数据没有错误，并对标注的部分数据进行归类。

3)将BRAT的标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建，并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘。标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化工作，包括元素预处理和命名规范化等工作。

(a)元素预处理：一方面，由于Schema设计的通用性和完备性，部分方案中可能存在缺失的元素，需要对缺失数据根据实际情况进行补充；另外，标注数据中各方案可能存在重复使用的元素，为实现高效的数据管理和知识图谱的构建，需要剔除重复的元素，仅存储非重复项。

(b)名称规范化：由于不同标注人员的分类标准不一，可能导致同一元素属于多种类型，针对此类歧义数据，本发明拟通过专家咨询，对涉及歧义的实验元素再次进行校对，尤其针对类别进行核对，纠正错误分类，也保留某种元素及其类型存在的一对多情况；另外，也存在同一元素对应多种名称的情况，也需要规范化，本发明通过专家咨询，将元素最常见的名称作为首选，其次将其他名称(如英文全称、中文名称等)另外对应存储，作为特定领域的标准元素库。

(2)大语言模型微调

利用实例层三元组数据和科技文献构建微调训练数据集，即给定三元组(h,r,t)和科技文献，若文献中的一个句子同时包括“h”和“t”,则将这个句子作为训练样本，并标注为关系“r”，反之将句子标注为不可用。基于P-Tuning v2技术微调模型，即首先冻结语言模型的全部参数，然后通过前缀调优方法在输入数据中***表征特定任务的虚拟标记，接着利用Transformer模型将prompt嵌入低维向量空间得到连续prompt，最后通过调节prompt长度和训练的学习率以取得最优的模型微调效果。

微调数据集生成算法如下：

表1

(3)复杂知识对象抽取

首先，利用实例层三元组数据生成MOT，即给定三元组(h,r,t)，基于头实体h和问题模版构建Question，基于关系r所在本体中同层的所有关系类型构建回答选项，基于t和答案模版构建Answer。然后，对科技文献进行文本分割，针对每个句子进行大语言模型的多轮问答。在第一轮问答中，选择模式层本体schema结构中根节点下的多个子类型来构建Question，计算MOT中Question的相似度，选择Top-K个Question-Answer来构建Prompt，输入到大语言模型得到回答。根据模型回答结果开启下一轮问答，若到达schema的叶子节点则结束多轮问答。在相似度的计算中，利用doc2vec模型将Question文本向量化，通过欧式距离计算向量相似度，如下：

P((h,r,t)|s,p)＝P(r₁|s,p₁)……P(r_n-1|s,p_n-1)P((h,t)|s,p_n)

复杂知识对象抽取算法如下表2：

表2

需要说明的是，在本发明权利要求书中所限定的保护范围内，以下实施例均可以从上述具体实施方式中，例如公开的技术原理，公开的技术特征或隐含公开的技术特征等，以合乎逻辑的任何方式进行组合和/或扩展、替换。

实施例1

如图3所示，一种融合知识图谱与大语言模型的科技文献知识对象抽取方法，包括以下步骤：

实施例2

在实施例1的基础上，在步骤S1中，所述设计学科领域本体完成知识图谱模式层构建，具体包括子步骤：利用protégé工具实现知识图谱模式层的构建，在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。

实施例3

在实施例2的基础上，所述在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环，具体包括子步骤：

实施例4

在实施例1的基础上，在步骤S1中，所述通过标注工具进行命名实体识别和关系抽取，包括子步骤：基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注。

实施例5

在实施例4的基础上，所述基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注，包括子步骤：

实施例6

在实施例1的基础上，在步骤S1中，所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建，包括子步骤：将标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建，并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘；对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。

实施例7

在实施例6的基础上，所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理，具体包括子步骤：

实施例8

在实施例1的基础上，在步骤S2中，所述本地化部署大语言模型，利用知识图谱实例层构建微调数据集，包括子步骤：

实施例9

在实施例1的基础上，在步骤S3中，所述利用知识图谱来构建prompt，通过步骤S1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘，具体包括子步骤：

P((h,r,t)|s,p)＝P(r₁|s,p₁)……P(r_n-1|s,p_n-1)P((h,t)|s,p_n)

实施例10

在实施例9的基础上，所述计算向量相似度具体包括：通过欧式距离计算向量相似度。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，包括以下步骤：

S1，领域知识图谱构建：设计学科领域本体完成知识图谱模式层构建，通过标注工具进行命名实体识别和关系抽取，将标注结果以三元组的形式导入图数据库实现知识存储与图谱实例层构建；

2.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S1中，所述设计学科领域本体完成知识图谱模式层构建，具体包括子步骤：利用protégé工具实现知识图谱模式层的构建，在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。

3.根据权利要求2所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环，具体包括子步骤：

4.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S1中，所述通过标注工具进行命名实体识别和关系抽取，包括子步骤：基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注。

5.根据权利要求4所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注，包括子步骤：

6.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S1中，所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建，包括子步骤：将标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建，并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘；对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。

7.根据权利要求6所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理，具体包括子步骤：

8.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S2中，所述本地化部署大语言模型，利用知识图谱实例层构建微调数据集，包括子步骤：

9.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S3中，所述利用知识图谱来构建prompt，通过步骤S1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘，具体包括子步骤：

P((h,r,t)|s,p)＝P(r₁|s,p₁)……P(r_n-1|s,p_n-1)P((h,t)|s,p_n)

10.根据权利要求9所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述计算向量相似度具体包括：通过欧式距离计算向量相似度。