CN116910272A

CN116910272A - 基于预训练模型t5的学术知识图谱补全方法

Info

Publication number: CN116910272A
Application number: CN202310997295.3A
Authority: CN
Inventors: 薛涛; 吴章敏
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-10-20
Anticipated expiration: 2043-08-09
Also published as: CN116910272B

Abstract

本发明公开了一种基于预训练模型T5的学术知识图谱补全方法，针对知识图谱设计了句子模板，生成了融入实体类型信息的前缀提示，将知识图谱补全任务转换为连贯句子生成任务；可以更好的引导模型依赖预训练阶段学习到的知识进行推理，无需从头训练一个特定于学术领域的大型预训练模型，节省训练成本同时提升知识图谱补全任务精度。本发明基于预训练模型T5的学术知识图谱补全方法发明采用替换词汇表中预留词汇的方法来修改分词器，避免了模型整体从头训练，显著节约了时间成本，利用集束搜索的自回归解码方式替换传统的打分方式，极大地节约了模型的训练时间。

Description

基于预训练模型T5的学术知识图谱补全方法

技术领域

本发明属于知识图谱技术领域，涉及一种基于预训练模型T5的学术知识图谱补全方法。

背景技术

知识图谱本质上是一个图结构化的知识库，将真实世界的知识以结构化的三元组形式来进行表示和存储，其特有的表征能力和巨大的知识储量，能够提供高质量的结构化知识而被广泛应用于诸如机器阅读、智能问答、推荐等下游任务。然而相关数据表明大型知识图谱中一些常见的基本关系缺失严重，知识图谱的不完备性引发了学术界对知识图谱补全任务的研究。

知识图谱补全任务本质上是基于知识图谱的已有知识对缺失的知识进行推理。知识图谱从应用领域的角度可分为通用领域的知识图谱和(垂直)领域知识图谱两大类，针对通用领域知识图谱补全方法的研究趋于成熟，但直接应用于金融、医疗、学术、工业等产业领域知识图谱，性能却不尽人意。

根据是否利用附加信息可将知识图谱补全方法分为两大类：依赖结构信息的方法和依赖附加信息的方法。依赖结构信息的方法是指利用知识图谱内部事实的结构信息，这类方法可根据得分函数的特点分为基于翻译的模型和基于语义匹配的模型，前者使用基于距离的得分函数，后者使用基于语义匹配的得分函数。依赖附加信息的方法是指在知识表示学习阶段融入知识图谱内部的节点属性、实体关系相关的信息或者注入知识图谱外部知识，此类方法能更好学习到稀疏实体的表示，领域知识图谱因存在较多稀疏实体，因此更适合使用依赖附加信息的方法进行补全。

发明内容

本发明的目的是提供一种基于预训练模型T5的学术知识图谱补全方法，能够更好的引导模型依赖预训练阶段学习到的知识进行推理，无需从头训练一个特定于学术领域的大型预训练模型，节省训练成本同时提升知识图谱补全任务精度。

本发明所采用的技术方案是，基于预训练模型T5的学术知识图谱补全方法，该方法按照以下步骤实施：

步骤1：对学术领域知识图谱数据集进行处理，将知识图谱中的(头实体-关系-尾实体)三元组转换为连贯的句子作为模型输入；

步骤2：修改预训练模型T5的词汇表，加入学术领域文本分词器中的高频令牌；

步骤3：将步骤1处理后的句子经步骤2修改词汇表后的T5模型编码器进行编码；

步骤4：采用集束搜索算法缩小模型解码器的搜索空间，解码后得到待预测的实体/关系的文本并对模型输出进行打分排序；

本发明的特点还在于，

作为本发明的进一步限定，步骤1具体包括：

步骤1.1：对知识图谱数据集进行数据清洗，删除数据集中三元组存在实体或关系缺失的数据项；

骤1.2：学术知识图谱只包含少量关系类型，对每种关系可以人为设计固定的句子模板，同时加入软提示符将三元组的元素进行区分，最后将三元组按照句子模板的定义转换为连贯的语句，作为模型训练的输入和输出；比如将数据项(李沐，书的作者，动手学深度学习)转换为(动手学深度学习|的作者是|李沐)；

步骤1.3：对学术知识图谱中的关系进行分析，易发现关系两侧的实体类型可直接从关系中进行推理得到，如对于数据集中“书的作者”关系两侧的实体类型分别为作者和书名，将头实体和尾实体的类型补充到原始数据项后；

步骤1.4：知识图谱补全任务可分为链接预测任务和关系预测任务，针对两个子任务，将步骤1.2处理完的连贯句子进行输入和输出的拆分；对链接预测任务将头/尾实体和关系作为输入，输出为待预测实体；对关系预测任务则将头实体和为实体一起作为输入，输出为实体间的关系；

步骤1.5：T5模型在预训练阶段使用的语料针对多个下游任务设计了不同的前缀提示，为贴合T5模型预训练任务，将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前，对输入进行增强，如(预测作者：动手学深度学习的作者是)，模型输出为(李沐)；

作为本发明的进一步限定，步骤2具体包括：

步骤2.1：sciBERT模型实在学术领域文本语料下训练的大型预训练模型，对学术领域文本具有更合理的分词，分别利用sciBERT和T5的分词器对步骤1中处理后的数据集文本进行分词，统计分词结果中各令牌出现的频率；

步骤2.2：对比两个模型分词结果，统计分词结果不同的令牌的频率，按照从高到低进行排序，取频率最高的前999个令牌替换T5模型词汇表中预留的令牌，将这些令牌的权重随机初始化，在保留现有模型能力情况下训练新令牌的嵌入表示；

作为本发明的进一步限定，步骤3具体包括：

步骤3.1：将步骤1处理得到连贯句子通过T5分词器进行分词处理；

步骤3.2：将分词后的令牌序列通过编码器进行编码，得到[x₁,x₂,x₃,...,x_n]；

步骤3.3：将编码后的输入经带有预训练权重的T5模型得到句子的嵌入表示[y₁,y₂,y₃,...,y_n]；

作为本发明的进一步限定，步骤4具体包括：

步骤4.1：解码器中选择使用集束搜索算法来进行解码，将集束搜索算法中的集束宽度N设置为3，集束搜索算法对待预测词汇的对数概率进行计算，计算方法为：

p(e)＝max{logp(e₁|F),logp(e₂|F),logp(e₃|F)},e∈c

其中，c为分词器中包含的所有令牌的集合；e₁、e₂、e₃分别对数概率最高的三个令牌；F是模型预测输出的正确概率；

步骤4.2：通过自回归解码的方式来计算预测输出的得分，最后按照得分从高到低进行排序得到预测结果，得分计算公式为：

x为模型的输入序列；y代表模型的预测输出序列；z_i代表第i个令牌；

步骤4.3：训练过程采用标准的序列到序列模型目标函数进行优化；

本发明步骤1的固定模板设计是针对学术领域知识图谱进行设计，融入了学术领域中存在的实体类型信息，以提示工程的形式进行设计；本发明针对学术领域设计了两种类型的提示并进行对比，两种提示分别是前缀提示和完型提示，在学术领域知识图谱补全任务中均能取得一定提升，对比结果表示学术领域更适合前缀提示模板；

步骤2中修改分词器为保持预训练模型原有能力，只是替换词汇表中预留的令牌，随机初始化后在领域文本上继续训练，能够避免模型完全从头训练的问题；

步骤3中将三元组转为连贯的句子输入，步骤4利用自回归解码的方式来得到模型输出，将链接预测任务转化为了文本生成任务；

步骤4中采用了集束搜索算法，替换了模型原有的贪婪搜索算法，能够减少搜索范围并且减少空间的消耗，同时还能提高解码效率.

本发明的有益效果是：

1、本发明基于预训练模型T5的学术知识图谱补全方法发明采用替换词汇表中预留词汇的方法来修改分词器，避免了模型整体从头训练，显著节约了时间成本，利用集束搜索的自回归解码方式替换传统的打分方式，极大地节约了模型的训练时间。

2、针对知识图谱设计了句子模板，生成了融入实体类型信息的前缀提示，将知识图谱补全任务转换为文本生成任务；可以更好的引导模型依赖预训练阶段学习到的知识进行推理，无需从头训练一个特定于学术领域的大型预训练模型，节省训练成本同时提升知识图谱补全任务精度。

3、采用提示工程的手段融入实体类型信息来对模型输入进行增强，显著提升了学术领域知识图谱上链接预测任务的精度，在三个学术领域数据集上进行实验，尤其是Hits@1和Hits@3两个指标上有显著提升。

附图说明

图1是本发明的基于预训练模型的学术领域知识图谱补全方法的框架示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例1

图1为本发明基于预训练模型的学术领域知识图谱补全方法的框架示意图；本方法的主体架构主要分为三个部分：数据预处理、编码-解码模块、知识图谱补全任务应用。整体上看，数据预处理是方法的核心部分，主要包括两个步骤，一是分析每种关系对应的实体类型，为数据集中的每一种关系设计句子模板，构造带有实体信息的前缀提示，二是将用于链接预测的三元组转为连贯的句子，加入设计的前缀提示和软提示符形成模型输入；编码-解码部分主要完成两部分工作，修改分词器和更换解码的搜索算法；知识图谱补全任务应用部分主要对链接预测和关系预测两个子任务进行评估；方法整体结果的设计如图1所示：

模块一：数据预处理部分，方法的核心部分，主要完成工作分为两部分：关系固定模版设计和输入处理。T5模型对预训练阶段用到的大规模语料进行了特定处理，针对不同下游任务设计了不同的前缀提示，为贴合T5模型预训练任务，本发明针对学术领域知识图谱补全的链接预测和关系预测子任务设计了前缀提示；

学术知识图谱数据集包含的关系种类、实体类型十分有限，实体类型对可以很容易作为附加信息融入到前缀提示中来增强输入，以KG20C数据集为例，本发明针对数据集中的5种关系设计了融入实体类型信息的前缀提示。针对链接/关系预测任务对输入进行处理，除了将固定模板中的前缀提示加入，方法中还加入了特殊软提示符对三元组的实体和关系进行分割，然后将三元组输入转为连贯句子作为输入。

模块二：编码-解码部分，本发明利用谷歌模型T5的编码器-解码器的结构来完成知识图谱补全任务，方法中并没有对GoogleT5模型的结构做出调整，而是利用预训练模型T5在学术知识图谱数据集上进行微调，针对性地设计合理的输入来更好地利用模型在预训练阶段学习到的知识。本模块主要完成工作可分为两点：修改分词器和解码策略选择。

SciBERT模型在大型科学文本语料上训练了一个分词表，与通用领域下的词汇表差异高达42％，证明针对科学文本与通用领域文本的用词频率有很大不同。在保留现有模型能力的情况下训练新词汇的嵌入表示，本发明利用sciBERT提供的科学词汇分词表来对分词器进行修改，统计分词结果中出现频率高且不在T5模型词汇表中的词汇，选择出现频率最高999个词来替换T5模型词汇表中预留的999个令牌，这种修改分词器的方法无需对词汇表的大小进行修改，但能获得更适合科学文本的分词效果；

T5模型采用自回归解码的方式取代了主流方法中对所有三元组进行打分的负采样方式，本发明采取集束搜索算法来进行解码，替换了T5模型中的贪婪算法。利用搜索算法进行采样的自回归解码方式用于较大规模的知识图谱补全任务能够减少搜索范围，显著减少空间的消耗并提高时间效率；

模块三：候选实体/关系打分排序部分，本发明采用了生成类的大语言模型进行下游任务的微调，利用自回归解码方式直接生成预测实体，无需针对任务设计特定的得分函数，而是基于生成内容对应的概率分布为候选实体/关系分配一个分数，同时给未见过的内容分配一个负无穷大的分数。最后按照分数进行降序排列，得到得分最高的k个值作为预测输出，同时计算任务的评价指标。

实施例2

本发明的基于预训练模型T5的学术知识图谱补全方法，通过向词汇表中增加专业名词以及设计句子模板的方式来提升模型性能，具体按照以下步骤实施：

步骤1：对学术领域知识图谱数据集中的三元组进行数据清洗，将知识图谱中的三元组转换为特定的模型输入；所述三元组包括头实体、关系、尾实体；

步骤1.1：对知识图谱数据集进行数据清洗，删除数据集中三元组存在实体或关系缺失的数据项；方法中用到的学术知识图谱数据集包含了三个不同的数据集，包括论文及作者数据、医学文本数据以及科学文本数据，由于数据集的来源不同，数据集中除了实体和关系之外，还存在实体类型、实体描述等额外的信息；

步骤1.2：学术知识图谱只包含少量关系类型，对每一种关系设计一个句子模板，该模板用于将三元组转换为连贯句子，在句子模板中加入软提示符[SP]对三元组的头实体、关系和尾实体的字符进行分隔，最后将三元组转换为连贯句子；比如对于关系“作者是”设计句子模板为：

[SP]h[SP]r[SP]t

其中，[SP]为软提示符；h和r为头实体和尾实体；r代表实体间关系；三元组(动手学深度学习，作者是，李沐)可转换为：[SP]动手学深度学习[SP]作者是[SP]李沐；

步骤1.3：对学术知识图谱中的关系进行分析，将头实体和尾实体的类型补充到原始数据项，学术知识图谱中主要包括的实体类型有论文、作者、机构等；

步骤1.4：知识图谱补全任务可分为链接预测任务和关系预测任务，针对两个子任务，将步骤1.2处理完的连贯句子进行输入和输出的拆分；对链接预测任务将头/尾实体和关系作为输入，输出为待预测实体；对关系预测任务则将头实体和尾实体一起作为输入，输出为实体间的关系；

步骤1.5：T5模型在预训练阶段使用的语料针对多个下游任务设计了不同的前缀提示，为贴合T5模型预训练任务，将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前，对输入进行增强。针对链接预测任务，前缀提示则分别融入了待预测实体的类型，比如“预测书名”或“预测作者所在机构”，最后的输入模板为“预测书名:[SP]头实体/尾实体[SP]关系[SP]"，其中[SP]为软提示符，“预测书名”为融入实体类型的前缀提示，以这种输入模式对预训练好的模型进行引导；针对关系预测任务，统一前缀提示为“预测关系”；对于训练集中的一个三元组转换后的会得到两条训练数据:

模型输入1：“预测作者:[SP]动手学深度学习[SP]作者是[SP]"；

模型输入2：“预测书名:[SP]李沐[SP]作者是[SP]"；

模型预期输出1：“李沐”；

模型预期输出2：“动手学深度学习”；

步骤2：修改T5模型预训练的词汇表，加入学术领域文本分词器中的高频令牌；

步骤2.1：利用sciBERT模型分词器对步骤1处理得到的句子进行分词，统计分词结果中各令牌出现频率；

步骤2.2：利用T5模型分词器对步骤1处理得到的句子进行分词，统计分词结果中各令牌出现频率；

步骤2.3：对比两个模型分词结果，统计分词结果不同的令牌的频率，按照从高到低进行排序，取频率最高的前999个令牌替换T5词汇表中预留的令牌，将这些令牌的权重随机初始化，在保留现有模型能力情况下训练这些高频令牌的嵌入表示。

步骤3：将步骤1处理后的文本经步骤2修改词汇表后的T5模型编码器进行编码；

步骤3.1：将步骤1处理得到句子通过T5模型的分词器进行分词处理；

步骤3.3：将编码后的输入经带有预训练权重的T5模型得到句子的嵌入表示[y₁,y₂,y₃,...,y_n]。

步骤4.1：解码器中选择使用集束搜索算法来进行解码，将集束搜索算法中的集束宽度N设置为3，集束搜索算法对待预测词汇e的概率进行计算，计算方法为：

p(e)＝max{logp(e₁|F),logp(e₂|F),logp(e₃|F)},e∈c

x为模型的输入序列；y代表模型的预测输出序列；z_i代表第i个令牌；c为分词器中包含的所有令牌集合；

步骤4.3：训练过程采用标准的序列到序列模型目标函数进行优化。

实施例3

为了证明本发明学术领域知识图谱补全方法的有效性，分别在三个公开的学术知识图谱数据集上进行了实验，我们与其他当前较为流行的知识图谱补全方法进行了比较：Yao等人的研究(Yao,L.,Mao,C.,&Luo,Y..(2019).Kg-bert:bert for knowledge graphcompletion)，Jaradeh等人的研究(Jaradeh M Y,Singh K,Stocker M,et al.TripleClassification for Scholarly Knowledge Graph Completion)，以及Saxena等人的研究(Saxena A,Kochsiek A,Gemulla R.Sequence-to-Sequence Knowledge GraphCompletion and Question Answering)；方法采取的评价指标为关系/链接预测任务常用的Hits@k，其中Hits@k代表前k个结果的命中概率，k值选取1、3、10，Hits@k的计算方式为：

式中S代表所有三元组的集合，rank_i代表第i个三元组的排名，是指示函数，若条件真则函数值为1，否则为0。这三个指标在数据集上均有提升，最低分别是0.089、0.021、0.032，由此可以发现模型针对学术领域的知识图谱补全的效果有一定提升，这是由于本发明的方法针对学术领域的文本特点融入了具有实体类型的前缀提示，能够更好地引导模型的训练和推理。

Claims

1.基于预训练模型T5的学术知识图谱补全方法，其特征在于，该方法按照以下步骤实施，

步骤1：对学术领域知识图谱数据集中的三元组进行数据清洗，将三元组转换为连贯句子作为模型输入；所述三元组包括头实体、关系、尾实体；

步骤2：修改T5模型预训练词汇表，在词汇表中加入在科学文本语料上训练得到的sciBERT分词器中的高频令牌；

步骤3：将步骤1处理后的连贯句子经步骤2修改词汇表后的T5模型进行编码；

步骤4：采用集束搜索算法缩小T5模型解码器的搜索空间，解码后得到待预测的实体/关系的文本并对模型输出进行打分排序。

2.根据权利要求1所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，步骤1具体如下：

步骤1.2：学术知识图谱只包含少量关系类型，对每一种关系设计一个固定的句子模板，该模板用于将三元组转换为连贯句子，在句子模板中加入软提示符对三元组的头实体、关系和尾实体的字符进行区分，最后将三元组转换为连贯句子；

步骤1.3：对学术知识图谱中的关系进行分析，将头实体和尾实体的类型补充到原始数据项，学术知识图谱中主要包括的实体类型有论文、作者、机构；

步骤1.5：将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前，对输入进行增强。

3.根据权利要求2所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，步骤2修改T5模型词汇表的方法具体如下：

4.根据权利要求3所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，步骤3具体如下：

步骤3.1：将步骤1处理得到连贯句子通过T5模型的分词器进行分词处理；

步骤3.3：将编码后的令牌序列输入经带有预训练权重的T5模型得到句子的嵌入表示[y₁,y₂,y₃,...,y_n]。

5.根据权利要求4所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，步骤4具体如下：

p(e)＝max{logp(e₁|F),logp(e₂|F),logp(e₃|F)},e∈c

6.根据权利要求2所述的基于预训练模型T5的学术知识图谱补全方法，其特征在于，所述句子模板融入了实体类型信息的前缀提示，具体如下：

[SP]h[SP]r[SP]t

其中，[SP]为软提示符；h和r为头实体和尾实体；r代表实体间关系。