CN117725222A - 融合知识图谱与大语言模型的文献复杂知识对象抽取方法 - Google Patents
融合知识图谱与大语言模型的文献复杂知识对象抽取方法 Download PDFInfo
- Publication number
- CN117725222A CN117725222A CN202311551341.3A CN202311551341A CN117725222A CN 117725222 A CN117725222 A CN 117725222A CN 202311551341 A CN202311551341 A CN 202311551341A CN 117725222 A CN117725222 A CN 117725222A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- graph
- language model
- labeling
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000005065 mining Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000008520 organization Effects 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 50
- 238000010276 construction Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000003068 static effect Effects 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 5
- 230000018109 developmental process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 229910044991 metal oxide Inorganic materials 0.000 claims description 4
- 150000004706 metal oxides Chemical class 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000004065 semiconductor Substances 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法,属于数据挖掘领域,包括步骤:S1,领域知识图谱构建;S2,大语言模型微调;S3,复杂知识对象抽取:利用知识图谱来构建提示prompt,通过步骤S1中模式层将挖掘任务转换为多轮问答问题,在每一轮问答中获取实例层中的三元组来构建最优提示prompt,通过不同长度的问题链来实现细粒度的领域知识对象挖掘。本发明可以从海量的多源异构文献数据中高效、可信地进行知识对象的自动化抽取、结构化组织、语义化关联与知识化存储。
Description
技术领域
本发明涉及数据挖掘领域,更为具体的,涉及一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法。
背景技术
知识图谱是一种大规模的语义网络,描述了真实世界中存在的各种实体和实体间的关系。知识图谱包括模式层和实例层两部分,前者定义实体、关系和属性的层次结构与语义关系,后者以三元组(h,r,t)的形式存储具体的领域知识,其中,h和t代表头尾两个实体,r代表关系。大语言模型指使用大量文本数据训练的深度学习模型,集成了监督微调、反馈自助、人类反馈强化学习等技术,可用于文本分类、知识问答、信息抽取等多种自然语言处理任务。复杂知识对象抽取采用人工智能、自然语言处理、文本挖掘、语义分析等技术手段,对文本中显性与隐性的知识进行分析、推理,从中抽取出实验方法、实验原理、研究问题和解决方案等不同类型的知识元素,通过语义组织形成复杂知识对象。
科技文献蕴含大量“专业、可信”的知识,是实施创新驱动发展战略、建设创新型国家不可或缺的支撑条件。传统以领域专家为核心的复杂知识对象抽取模式存在效率低下和主观性强等缺陷,难以适用于大规模科技文献的知识抽取与建模。
发明内容
本发明的目的在于克服现有技术的不足,针对科技文献具有数量巨大、类型繁多、关系复杂和来源分散等特点,提供一种融合知识图谱与大语言模型的科技文献知识对象抽取方法,可以从海量的多源异构文献数据中高效、可信地进行知识对象的自动化抽取、结构化组织、语义化关联与知识化存储。
本发明的目的是通过以下方案实现的:
一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法,包括以下步骤:
S1,领域知识图谱构建:设计学科领域本体完成知识图谱模式层构建,通过标注工具进行命名实体识别和关系抽取,将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建;
S2,大语言模型微调:本地化部署大语言模型,利用知识图谱实例层构建微调数据集;
S3,复杂知识对象抽取:利用知识图谱来构建提示prompt,通过步骤S1中模式层将挖掘任务转换为多轮问答问题,在每一轮问答中获取实例层中的三元组来构建最优提示prompt,通过不同长度的问题链来实现细粒度的领域知识对象挖掘。
进一步地,在步骤S1中,所述设计学科领域本体完成知识图谱模式层构建,具体包括子步骤:利用protégé工具实现知识图谱模式层的构建,在准备阶段确定特定学科领域的范围与界限;在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。
进一步地,所述在准备阶段确定特定学科领域的范围与界限;在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环,具体包括子步骤:
基于STKOS科技文献本体建模经验,本体构建的明确性、一致性、可扩展性、最小编码偏差和最小本体承诺原则以及专家先验知识,结合对领域通用本体的复用与融合,自顶向下构建静态Schema,同时利用文本挖掘自底向上对静态Schema进行迭代完善,构建选定领域动态Schema,用于实现从纵向维度对领域知识组织体系的深度挖掘,同时从横向维度对信息资源进行关联汇聚,从而更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系。
进一步地,在步骤S1中,所述通过标注工具进行命名实体识别和关系抽取,包括子步骤:基于本体模型构建标签体系结构,利用标注工具BRAT实现科技文献中知识实体和语义关系的标注。
进一步地,所述基于本体模型构建标签体系结构,利用标注工具BRAT实现科技文献中知识实体和语义关系的标注,包括子步骤:
步骤(a):一标:采集选定领域的研究人员对待标数据集进行的初次人工标注后数据,并将数据提取至标注模板保存,便于后期校对和自动标注工作开展;
步骤(b):二标:对一标的结果进行交叉检验,检查数据有无错标和漏标情况,并纠正错误标注结果;
步骤(c):三标:对二标的结果进行最终审定,确保标注的数据没有错误,并对标注的部分数据进行归类。
进一步地,在步骤S1中,所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建,包括子步骤:将标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建,并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘;对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。
进一步地,所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理,具体包括子步骤:
元素预处理:对缺失数据根据实际情况进行补充以及剔除重复的元素,仅存储非重复项;
名称规范化:对涉及歧义的实验元素再次进行校对,其中针对类别进行核对,纠正错误分类,但要保留某种元素及其类型存在的一对多情况;针对同一元素对应多种名称的情况,进行规范化,将元素最常见的名称作为首选,其次将其他名称另外对应存储,作为选定领域的标准元素库。
进一步地,在步骤S2中,所述本地化部署大语言模型,利用知识图谱实例层构建微调数据集,包括子步骤:
利用实例层三元组数据和科技文献构建微调训练数据集,即给定三元组(h,r,t)和科技文献,若文献中的一个句子同时包括“h”和“t”,则将这个句子作为训练样本,并标注为关系“r”,反之将句子标注为不可用;基于P-Tuning v2技术微调模型,即首先冻结语言模型的全部参数,然后通过前缀调优方法在输入数据中***表征特定任务的虚拟标记,接着利用Transformer模型将prompt嵌入低维向量空间得到连续prompt,最后通过调节prompt长度和训练的学习率以取得最优的模型微调效果。
进一步地,在步骤S3中,所述利用知识图谱来构建prompt,通过步骤S1中模式层将挖掘任务转换为多轮问答问题,在每一轮问答中获取实例层中的三元组来构建最优prompt,通过不同长度的问题链来实现细粒度的领域知识对象挖掘,具体包括子步骤:
首先,利用实例层三元组数据生成MOT,即给定三元组(h,r,t),基于头实体h和问题模版构建问题Question,基于关系r所在本体中同层的所有关系类型构建回答选项,基于t和答案模版构建答案Answer;
然后,对科技文献进行文本分割,针对每个句子进行大语言模型的多轮问答;在第一轮问答中,选择模式层本体schema结构中根节点下的多个子类型来构建Question,计算MOT中Question的相似度,选择Top-K个Question-Answer来构建Prompt,输入到大语言模型得到回答;根据模型回答结果开启下一轮问答,若到达schema的叶子节点则结束多轮问答;在相似度的计算中,利用doc2vec模型将Question文本向量化,计算向量相似度,如下:
最后,已知句子s和提示p,抽取出的知识三元组为(h,r,t),复杂知识对象的抽取过程的形式化表示如下:
P((h,r,t)|s,p)=P(r1|s,p1)……P(rn-1|s,pn-1)P((h,t)|s,pn)
其中,pi是每一轮问答中构建的Prompt,ri是每一轮问答输出的判断结果;前n-1轮问答用于确定关系r的类型在本体中的层级位置,第n轮用于提取知识三元组。
进一步地,所述计算向量相似度具体包括:通过欧式距离计算向量相似度。
本发明的有益效果包括:
本发明提出了一种新的基于大语言模型的复杂知识对象抽取方法,通过知识图谱技术实现领域本体构建和人工标引数据的表示和存储,利用标引的知识和P-Tuning v2技术实现大语言模型微调,最后设计了基于知识图谱和MOT技术的prompt以实现复杂知识对象的抽取,提高了知识抽取任务的准确率,可广泛适用于科技文献的复杂知识对象抽取。
本发明可以实现从纵向维度对领域知识组织体系的深度挖掘,同时从横向维度对领域科技文献等其他类型信息资源进行关联汇聚,更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系。
本发明通过不同长度的问题链来实现细粒度的领域知识对象挖掘。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的结构框图;
图2为本发明实施例构建的知识图谱模式层;
图3为本发明实施例方法的步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明构思了一种融合知识图谱与大语言模型的科技文献知识对象抽取方法,包括领域知识图谱构建、大语言模型微调和复杂知识对象抽取的步骤。
(1)领域知识图谱构建
如图1所示,具体包括如下子步骤:
1)利用protégé工具实现知识图谱模式层的构建,在准备阶段确定特定学科领域的范围与界限,本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐等三轮循环。首先基于STKOS(Scientific&Technological Knowledge Organization Systems)科技文献本体建模经验,本体构建的明确性(Clarity)、一致性(Coherence)、可扩展性(Extendibility)、最小编码偏差(Minimal encoding bias)和最小本体承诺(Minimalontological commitment)等原则以及专家先验知识,结合对领域通用本体的复用与融合(如EXPO、SEM等),自顶向下构建静态Schema,同时利用文本挖掘技术自底向上对静态Schema进行迭代完善,构建特定领域动态Schema,旨在实现从纵向维度对领域知识组织体系的深度挖掘,同时从横向维度对领域科技文献等其他类型信息资源进行关联汇聚,更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系,构建的本体模型如图2所示。
2)基于本体模型构建标签体系结构,利用标注工具BRAT实现科技文献中知识实体和语义关系的标注,主要分为三个阶段:
(a)一标:由特定领域的研究人员分别对待标数据集进行初次人工标注,将数据提取至标注模板保存,便于后期校对和自动标注工作开展;
(b)二标:由上述的标注人员对一标的结果进行交叉检验,主要检查数据有无错标、漏标等情况,并纠正错误标注结果;
(c)三标:由特定领域专家对二标的结果进行最终审定,确保标注的数据没有错误,并对标注的部分数据进行归类。
3)将BRAT的标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建,并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘。标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化工作,包括元素预处理和命名规范化等工作。
(a)元素预处理:一方面,由于Schema设计的通用性和完备性,部分方案中可能存在缺失的元素,需要对缺失数据根据实际情况进行补充;另外,标注数据中各方案可能存在重复使用的元素,为实现高效的数据管理和知识图谱的构建,需要剔除重复的元素,仅存储非重复项。
(b)名称规范化:由于不同标注人员的分类标准不一,可能导致同一元素属于多种类型,针对此类歧义数据,本发明拟通过专家咨询,对涉及歧义的实验元素再次进行校对,尤其针对类别进行核对,纠正错误分类,也保留某种元素及其类型存在的一对多情况;另外,也存在同一元素对应多种名称的情况,也需要规范化,本发明通过专家咨询,将元素最常见的名称作为首选,其次将其他名称(如英文全称、中文名称等)另外对应存储,作为特定领域的标准元素库。
(2)大语言模型微调
利用实例层三元组数据和科技文献构建微调训练数据集,即给定三元组(h,r,t)和科技文献,若文献中的一个句子同时包括“h”和“t”,则将这个句子作为训练样本,并标注为关系“r”,反之将句子标注为不可用。基于P-Tuning v2技术微调模型,即首先冻结语言模型的全部参数,然后通过前缀调优方法在输入数据中***表征特定任务的虚拟标记,接着利用Transformer模型将prompt嵌入低维向量空间得到连续prompt,最后通过调节prompt长度和训练的学习率以取得最优的模型微调效果。
微调数据集生成算法如下:
表1
(3)复杂知识对象抽取
首先,利用实例层三元组数据生成MOT,即给定三元组(h,r,t),基于头实体h和问题模版构建Question,基于关系r所在本体中同层的所有关系类型构建回答选项,基于t和答案模版构建Answer。然后,对科技文献进行文本分割,针对每个句子进行大语言模型的多轮问答。在第一轮问答中,选择模式层本体schema结构中根节点下的多个子类型来构建Question,计算MOT中Question的相似度,选择Top-K个Question-Answer来构建Prompt,输入到大语言模型得到回答。根据模型回答结果开启下一轮问答,若到达schema的叶子节点则结束多轮问答。在相似度的计算中,利用doc2vec模型将Question文本向量化,通过欧式距离计算向量相似度,如下:
最后,已知句子s和提示p,抽取出的知识三元组为(h,r,t),复杂知识对象的抽取过程的形式化表示如下:
P((h,r,t)|s,p)=P(r1|s,p1)……P(rn-1|s,pn-1)P((h,t)|s,pn)
其中,pi是每一轮问答中构建的Prompt,ri是每一轮问答输出的判断结果;前n-1轮问答用于确定关系r的类型在本体中的层级位置,第n轮用于提取知识三元组。
复杂知识对象抽取算法如下表2:
表2
需要说明的是,在本发明权利要求书中所限定的保护范围内,以下实施例均可以从上述具体实施方式中,例如公开的技术原理,公开的技术特征或隐含公开的技术特征等,以合乎逻辑的任何方式进行组合和/或扩展、替换。
实施例1
如图3所示,一种融合知识图谱与大语言模型的科技文献知识对象抽取方法,包括以下步骤:
S1,领域知识图谱构建:设计学科领域本体完成知识图谱模式层构建,通过标注工具进行命名实体识别和关系抽取,将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建;
S2,大语言模型微调:本地化部署大语言模型,利用知识图谱实例层构建微调数据集;
S3,复杂知识对象抽取:利用知识图谱来构建提示prompt,通过步骤S1中模式层将挖掘任务转换为多轮问答问题,在每一轮问答中获取实例层中的三元组来构建最优提示prompt,通过不同长度的问题链来实现细粒度的领域知识对象挖掘。
实施例2
在实施例1的基础上,在步骤S1中,所述设计学科领域本体完成知识图谱模式层构建,具体包括子步骤:利用protégé工具实现知识图谱模式层的构建,在准备阶段确定特定学科领域的范围与界限;在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。
实施例3
在实施例2的基础上,所述在准备阶段确定特定学科领域的范围与界限;在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环,具体包括子步骤:
基于STKOS科技文献本体建模经验,本体构建的明确性、一致性、可扩展性、最小编码偏差和最小本体承诺原则以及专家先验知识,结合对领域通用本体的复用与融合,自顶向下构建静态Schema,同时利用文本挖掘自底向上对静态Schema进行迭代完善,构建选定领域动态Schema,用于实现从纵向维度对领域知识组织体系的深度挖掘,同时从横向维度对信息资源进行关联汇聚,从而更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系。
实施例4
在实施例1的基础上,在步骤S1中,所述通过标注工具进行命名实体识别和关系抽取,包括子步骤:基于本体模型构建标签体系结构,利用标注工具BRAT实现科技文献中知识实体和语义关系的标注。
实施例5
在实施例4的基础上,所述基于本体模型构建标签体系结构,利用标注工具BRAT实现科技文献中知识实体和语义关系的标注,包括子步骤:
步骤(a):一标:采集选定领域的研究人员对待标数据集进行的初次人工标注后数据,并将数据提取至标注模板保存,便于后期校对和自动标注工作开展;
步骤(b):二标:对一标的结果进行交叉检验,检查数据有无错标和漏标情况,并纠正错误标注结果;
步骤(c):三标:对二标的结果进行最终审定,确保标注的数据没有错误,并对标注的部分数据进行归类。
实施例6
在实施例1的基础上,在步骤S1中,所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建,包括子步骤:将标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建,并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘;对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。
实施例7
在实施例6的基础上,所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理,具体包括子步骤:
元素预处理:对缺失数据根据实际情况进行补充以及剔除重复的元素,仅存储非重复项;
名称规范化:对涉及歧义的实验元素再次进行校对,其中针对类别进行核对,纠正错误分类,但要保留某种元素及其类型存在的一对多情况;针对同一元素对应多种名称的情况,进行规范化,将元素最常见的名称作为首选,其次将其他名称另外对应存储,作为选定领域的标准元素库。
实施例8
在实施例1的基础上,在步骤S2中,所述本地化部署大语言模型,利用知识图谱实例层构建微调数据集,包括子步骤:
利用实例层三元组数据和科技文献构建微调训练数据集,即给定三元组(h,r,t)和科技文献,若文献中的一个句子同时包括“h”和“t”,则将这个句子作为训练样本,并标注为关系“r”,反之将句子标注为不可用;基于P-Tuning v2技术微调模型,即首先冻结语言模型的全部参数,然后通过前缀调优方法在输入数据中***表征特定任务的虚拟标记,接着利用Transformer模型将prompt嵌入低维向量空间得到连续prompt,最后通过调节prompt长度和训练的学习率以取得最优的模型微调效果。
实施例9
在实施例1的基础上,在步骤S3中,所述利用知识图谱来构建prompt,通过步骤S1中模式层将挖掘任务转换为多轮问答问题,在每一轮问答中获取实例层中的三元组来构建最优prompt,通过不同长度的问题链来实现细粒度的领域知识对象挖掘,具体包括子步骤:
首先,利用实例层三元组数据生成MOT,即给定三元组(h,r,t),基于头实体h和问题模版构建问题Question,基于关系r所在本体中同层的所有关系类型构建回答选项,基于t和答案模版构建答案Answer;
然后,对科技文献进行文本分割,针对每个句子进行大语言模型的多轮问答;在第一轮问答中,选择模式层本体schema结构中根节点下的多个子类型来构建Question,计算MOT中Question的相似度,选择Top-K个Question-Answer来构建Prompt,输入到大语言模型得到回答;根据模型回答结果开启下一轮问答,若到达schema的叶子节点则结束多轮问答;在相似度的计算中,利用doc2vec模型将Question文本向量化,计算向量相似度,如下:
最后,已知句子s和提示p,抽取出的知识三元组为(h,r,t),复杂知识对象的抽取过程的形式化表示如下:
P((h,r,t)|s,p)=P(r1|s,p1)……P(rn-1|s,pn-1)P((h,t)|s,pn)
其中,pi是每一轮问答中构建的Prompt,ri是每一轮问答输出的判断结果;前n-1轮问答用于确定关系r的类型在本体中的层级位置,第n轮用于提取知识三元组。
实施例10
在实施例9的基础上,所述计算向量相似度具体包括:通过欧式距离计算向量相似度。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,包括以下步骤:
S1,领域知识图谱构建:设计学科领域本体完成知识图谱模式层构建,通过标注工具进行命名实体识别和关系抽取,将标注结果以三元组的形式导入图数据库实现知识存储与图谱实例层构建;
S2,大语言模型微调:本地化部署大语言模型,利用知识图谱实例层构建微调数据集;
S3,复杂知识对象抽取:利用知识图谱来构建提示prompt,通过步骤S1中模式层将挖掘任务转换为多轮问答问题,在每一轮问答中获取实例层中的三元组来构建最优提示prompt,通过不同长度的问题链来实现细粒度的领域知识对象挖掘。
2.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,在步骤S1中,所述设计学科领域本体完成知识图谱模式层构建,具体包括子步骤:利用protégé工具实现知识图谱模式层的构建,在准备阶段确定特定学科领域的范围与界限;在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。
3.根据权利要求2所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,所述在准备阶段确定特定学科领域的范围与界限;在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环,具体包括子步骤:
基于STKOS科技文献本体建模经验,本体构建的明确性、一致性、可扩展性、最小编码偏差和最小本体承诺原则以及专家先验知识,结合对领域通用本体的复用与融合,自顶向下构建静态Schema,同时利用文本挖掘自底向上对静态Schema进行迭代完善,构建选定领域动态Schema,用于实现从纵向维度对领域知识组织体系的深度挖掘,同时从横向维度对信息资源进行关联汇聚,从而更加***全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系。
4.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,在步骤S1中,所述通过标注工具进行命名实体识别和关系抽取,包括子步骤:基于本体模型构建标签体系结构,利用标注工具BRAT实现科技文献中知识实体和语义关系的标注。
5.根据权利要求4所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,所述基于本体模型构建标签体系结构,利用标注工具BRAT实现科技文献中知识实体和语义关系的标注,包括子步骤:
步骤(a):一标:采集选定领域的研究人员对待标数据集进行的初次人工标注后数据,并将数据提取至标注模板保存,便于后期校对和自动标注工作开展;
步骤(b):二标:对一标的结果进行交叉检验,检查数据有无错标和漏标情况,并纠正错误标注结果;
步骤(c):三标:对二标的结果进行最终审定,确保标注的数据没有错误,并对标注的部分数据进行归类。
6.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,在步骤S1中,所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建,包括子步骤:将标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建,并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘;对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。
7.根据权利要求6所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理,具体包括子步骤:
元素预处理:对缺失数据根据实际情况进行补充以及剔除重复的元素,仅存储非重复项;
名称规范化:对涉及歧义的实验元素再次进行校对,其中针对类别进行核对,纠正错误分类,但要保留某种元素及其类型存在的一对多情况;针对同一元素对应多种名称的情况,进行规范化,将元素最常见的名称作为首选,其次将其他名称另外对应存储,作为选定领域的标准元素库。
8.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,在步骤S2中,所述本地化部署大语言模型,利用知识图谱实例层构建微调数据集,包括子步骤:
利用实例层三元组数据和科技文献构建微调训练数据集,即给定三元组(h,r,t)和科技文献,若文献中的一个句子同时包括“h”和“t”,则将这个句子作为训练样本,并标注为关系“r”,反之将句子标注为不可用;基于P-Tuning v2技术微调模型,即首先冻结语言模型的全部参数,然后通过前缀调优方法在输入数据中***表征特定任务的虚拟标记,接着利用Transformer模型将prompt嵌入低维向量空间得到连续prompt,最后通过调节prompt长度和训练的学习率以取得最优的模型微调效果。
9.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,在步骤S3中,所述利用知识图谱来构建prompt,通过步骤S1中模式层将挖掘任务转换为多轮问答问题,在每一轮问答中获取实例层中的三元组来构建最优prompt,通过不同长度的问题链来实现细粒度的领域知识对象挖掘,具体包括子步骤:
首先,利用实例层三元组数据生成MOT,即给定三元组(h,r,t),基于头实体h和问题模版构建问题Question,基于关系r所在本体中同层的所有关系类型构建回答选项,基于t和答案模版构建答案Answer;
然后,对科技文献进行文本分割,针对每个句子进行大语言模型的多轮问答;在第一轮问答中,选择模式层本体schema结构中根节点下的多个子类型来构建Question,计算MOT中Question的相似度,选择Top-K个Question-Answer来构建Prompt,输入到大语言模型得到回答;根据模型回答结果开启下一轮问答,若到达schema的叶子节点则结束多轮问答;在相似度的计算中,利用doc2vec模型将Question文本向量化,计算向量相似度,如下:
最后,已知句子s和提示p,抽取出的知识三元组为(h,r,t),复杂知识对象的抽取过程的形式化表示如下:
P((h,r,t)|s,p)=P(r1|s,p1)……P(rn-1|s,pn-1)P((h,t)|s,pn)
其中,pi是每一轮问答中构建的Prompt,ri是每一轮问答输出的判断结果;前n-1轮问答用于确定关系r的类型在本体中的层级位置,第n轮用于提取知识三元组。
10.根据权利要求9所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法,其特征在于,所述计算向量相似度具体包括:通过欧式距离计算向量相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311551341.3A CN117725222B (zh) | 2023-11-20 | 融合知识图谱与大语言模型的文献复杂知识对象抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311551341.3A CN117725222B (zh) | 2023-11-20 | 融合知识图谱与大语言模型的文献复杂知识对象抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117725222A true CN117725222A (zh) | 2024-03-19 |
CN117725222B CN117725222B (zh) | 2024-07-02 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992600A (zh) * | 2024-04-07 | 2024-05-07 | 之江实验室 | 一种业务执行方法、装置、存储介质以及电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能*** |
CN109726298A (zh) * | 2019-01-08 | 2019-05-07 | 上海市研发公共服务平台管理中心 | 适用于科技文献的知识图谱构建方法、***、终端及介质 |
US10482384B1 (en) * | 2018-11-16 | 2019-11-19 | Babylon Partners Limited | System for extracting semantic triples for building a knowledge base |
KR102111733B1 (ko) * | 2018-11-29 | 2020-05-15 | 주식회사 솔트룩스 | 데이터 증강 기반 지식 통합 시스템 및 방법 |
CN114417004A (zh) * | 2021-11-10 | 2022-04-29 | 南京邮电大学 | 一种知识图谱和事理图谱的融合方法、装置和*** |
WO2022116417A1 (zh) * | 2020-12-03 | 2022-06-09 | 平安科技(深圳)有限公司 | 三元组信息提取方法、装置、设备及计算机可读存储介质 |
CN115470339A (zh) * | 2022-07-28 | 2022-12-13 | 北京万方软件有限公司 | 基于科技大数据知识图谱的技术诊断专家智能匹配算法 |
US20230007965A1 (en) * | 2020-03-23 | 2023-01-12 | Zhejiang University | Entity relation mining method based on biomedical literature |
CN115658862A (zh) * | 2022-10-19 | 2023-01-31 | 中南大学 | 一种科技文献推荐方法 |
CN116127095A (zh) * | 2023-01-04 | 2023-05-16 | 北京工业大学 | 一种序列模型与知识图谱结合的问答方法 |
CN116484024A (zh) * | 2023-05-12 | 2023-07-25 | 中国人民解放军空军工程大学 | 一种基于知识图谱的多层次知识库构建方法 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919671A (zh) * | 2017-02-20 | 2017-07-04 | 广东省中医院 | 一种中医文本病案挖掘与辅助决策智能*** |
US10482384B1 (en) * | 2018-11-16 | 2019-11-19 | Babylon Partners Limited | System for extracting semantic triples for building a knowledge base |
KR102111733B1 (ko) * | 2018-11-29 | 2020-05-15 | 주식회사 솔트룩스 | 데이터 증강 기반 지식 통합 시스템 및 방법 |
CN109726298A (zh) * | 2019-01-08 | 2019-05-07 | 上海市研发公共服务平台管理中心 | 适用于科技文献的知识图谱构建方法、***、终端及介质 |
US20230007965A1 (en) * | 2020-03-23 | 2023-01-12 | Zhejiang University | Entity relation mining method based on biomedical literature |
WO2022116417A1 (zh) * | 2020-12-03 | 2022-06-09 | 平安科技(深圳)有限公司 | 三元组信息提取方法、装置、设备及计算机可读存储介质 |
CN114417004A (zh) * | 2021-11-10 | 2022-04-29 | 南京邮电大学 | 一种知识图谱和事理图谱的融合方法、装置和*** |
CN115470339A (zh) * | 2022-07-28 | 2022-12-13 | 北京万方软件有限公司 | 基于科技大数据知识图谱的技术诊断专家智能匹配算法 |
CN115658862A (zh) * | 2022-10-19 | 2023-01-31 | 中南大学 | 一种科技文献推荐方法 |
CN116127095A (zh) * | 2023-01-04 | 2023-05-16 | 北京工业大学 | 一种序列模型与知识图谱结合的问答方法 |
CN116484024A (zh) * | 2023-05-12 | 2023-07-25 | 中国人民解放军空军工程大学 | 一种基于知识图谱的多层次知识库构建方法 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
Non-Patent Citations (1)
Title |
---|
吕叶欣、张娟: "基于本体和关联数据的单元信息知识组织模式研究", 现代情报, vol. 39, no. 5, 1 May 2019 (2019-05-01), pages 43 - 49 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992600A (zh) * | 2024-04-07 | 2024-05-07 | 之江实验室 | 一种业务执行方法、装置、存储介质以及电子设备 |
CN117992600B (zh) * | 2024-04-07 | 2024-06-11 | 之江实验室 | 一种业务执行方法、装置、存储介质以及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答*** | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN112542223A (zh) | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 | |
CN111597347B (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN106250412A (zh) | 基于多源实体融合的知识图谱构建方法 | |
CN110188147B (zh) | 基于知识图谱的文献实体关系发现方法及*** | |
CN112559766B (zh) | 一种法律知识图谱构建*** | |
CN109918672B (zh) | 一种基于树结构的甲状腺超声报告的结构化处理方法 | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN115809345A (zh) | 一种基于知识图谱的多源数据差异溯源检索方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空***知识图谱构建方法 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及*** | |
CN117371523A (zh) | 基于人机混合增强的教育知识图谱构建方法与*** | |
CN114238524B (zh) | 基于增强样本模型的卫星频轨数据信息抽取方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
Wilcke et al. | End-to-end learning on multimodal knowledge graphs | |
Loglisci et al. | Toward geographic information harvesting: Extraction of spatial relational facts from Web documents | |
CN117216221A (zh) | 一种基于知识图谱的智能问答***及构建方法 | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN117151659A (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |