CN115564049B

CN115564049B - 一种双向编码的知识图谱嵌入方法

Info

Publication number: CN115564049B
Application number: CN202211553251.3A
Authority: CN
Inventors: 邓岳; 祁益民
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-05-09
Anticipated expiration: 2042-12-06
Also published as: CN115564049A

Abstract

本发明公开了一种双向编码的知识图谱嵌入方法，采用了双向编码器的结构，以encoder‑decoder结构进行预训练，以被破坏的三元组作为输入，decoder采用自回归的方式计算出原始输入，这样可以在正式训练时减少运算量，同时模型在预训练中对上下文关系也进行了学习，解决了一对多、多对一等传统方法的问题。在正式训练阶段，只采用encoder模型，同时在输出端加入链接预测、关系预测和相关度排序的任务。采用预训练的模式，大幅减少了模型正式训练时的计算量，并为模型提前注入上下文理解基础，有利于模型进一步训练；其次在训练时采用多重任务，增强了模型的鲁棒性和可解释性。

Description

一种双向编码的知识图谱嵌入方法

技术领域

本发明涉及自然语言处理技术领域，更具体的说是涉及一种双向编码的知识图谱嵌入方法。

背景技术

知识图谱（Knowledge Graph，下称KG）作为人工智能的一个分支，引起了学术界和工业界的广泛关注，其构建与应用也得到了迅速发展。如YAGO，Wikidata等知识图谱已经成功建成并应用于许多现实任务，大部分应用于自然语言处理任务中，如语义分析、命名实体消歧、信息提取和智能问答等。

知识图谱是以现实世界的实体为节点，实体之间的关系为边的有向图。在这个图中，头实体，尾实体以及连接其的有向边构成了一个三元组，即(头实体，关系，尾实体)，表示头实体与尾实体通过关系进行连接。尽管知识图谱在表示结构化数据方面非常有效，但这种三元组的基本符号性质使知识图谱难以大规模使用在很多人工智能应用中。为了解决这个问题，近年来提出了一个新的研究方向，称为知识图谱嵌入（Knowledge GraphEmbedding，下称KGE）或知识表示学习，旨在将知识图谱的三元组嵌入到连续的向量空间中，在简化操作的同时亦保留图谱的固有结构。与传统的表示方法相比，KGE为知识图谱中的实体和关系提供了更加密集的表示，降低了其应用中的计算复杂度。

目前的知识图谱嵌入技术大致分为两类：平移距离模型和语义匹配模型。前者使用基于距离的评分函数，后者使用基于相似度的评分函数。平移距离模型利用了基于距离的评分函数，通过两个实体之间的距离对事实的合理性进行度量；语义匹配模型利用基于相似性的评分函数，它们通过匹配实体的潜在语义和向量空间表示中包含的关系来度量事实的可信性。

但是，目前大多数的知识图谱嵌入技术仍然仅根据知识图谱中观察到的事实来执行嵌入任务。具体地说，给定一个知识图谱，首先在低维向量空间中表示实体和关系，并为每个三元组定义一个评分函数以衡量其在该空间中的合理性，然后通过最大化观察到的三元组的总合理性来学习实体和关系的嵌入。其存在一对多、多对一问题，以及模型与计算复杂度不匹配、加入神经网络模型训练效果欠佳的问题。

因此，如何解决知识图谱嵌入的一对多、多对一，以及模型训练复杂度高、效果差的问题是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种双向编码的知识图谱嵌入方法，采用双向编码器的结构进行知识图谱嵌入，采用encoder-decoder结构进行预训练，解决了一对多、多对一等传统方法的问题，以预训练好的encoder模型作为基础，解决了模型与计算复杂度不匹配以及加入神经网络模型训练效果欠佳的问题。

为了实现上述目的，本发明采用如下技术方案：

一种双向编码的知识图谱嵌入方法，包括以下步骤：

采用Encoder-Decoder架构构建预训练模型；

采集知识图谱的三元组作为原始样本，根据原始样本对预训练模型进行训练优化；

采用训练优化后的预训练模型输入层的Encoder结构作为训练模型；

将原始样本作为正样本，对正样本进行样本转换获得负样本，将正样本和负样本进行语义转换获得的语义信息输入训练模型中，并结合训练任务对训练模型进行训练优化，获得知识图谱嵌入模型；

将待嵌入知识图谱输入知识图谱嵌入模型，获得待嵌入知识图谱的嵌入表征向量。

优选的，预训练模型为标准transformer网络，将Encoder结构的输入作为预训练模型的输入层，Decoder结构的输出作为预训练模型的输出层。

优选的，对原始样本进行损坏处理，获得损坏样本；

将损坏样本输入到预训练模型的输入层，由输出层获得模型输出；

计算原始样本与模型输出之间的交叉熵作为损失函数，优化预训练模型。

优选的，将原始样本作为正样本，对正样本进行样本转换获得负样本，将正样本和负样本进行语义转换获得的语义信息输入训练模型中，并结合训练任务对训练模型进行训练优化，获得知识图谱嵌入模型的具体过程为：

将原始样本作为正样本，对正样本进行语义转换得到语义信息，输入训练模型中，获得cls标签，并投影到打分函数空间中得到三元组评分；

对正样本进行样本转换获得负样本；

对负样本进行语义转换得到语义信息，输入训练模型中，获得cls标签，并投影到打分函数空间得到三元组评分；

根据正样本和负样本的cls标签和对应的三元组评分来计算交叉熵损失函数；

根据训练任务结合交叉熵损失函数设定损失函数，根据设定的损失函数对训练模型进行训练，从而优化训练模型。

优选的，损坏处理包括标签遮挡、交换顺序和三元组缺失。

优选的，预训练模型的输出层采用自回归方法获得模型输出。

优选的，所述正样本进行样本转换的方式包括：头实体更换、尾实体更换和关系更换。

优选的，训练任务包括三元组分类、关系预测和相关度排序。利用训练任务结合根据正样本和负样本计算的交叉熵损失函数，设定每种训练任务对应的损失函数，根据每种训练任务对应的损失函数分别对训练模型进行训练优化，即对模型输出进行优化，实现对预训练后的Encoder结构的参数进行微调。

优选的，所述预训练模型和所述训练模型均采用Adam结合损失函数进行优化。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种双向编码的知识图谱嵌入方法，采用了双向编码器的结构，以encoder-decoder结构进行预训练，以被破坏的三元组作为输入，decoder采用自回归的方式计算出原始输入，这样可以在正式训练时减少运算量，同时模型在预训练中对上下文关系也进行了学习，解决了一对多、多对一等传统方法的问题。在正式训练阶段，只采用encoder模型，同时在输出端加入链接预测、关系预测和相关度排序的任务。采用预训练的模式，大幅减少了模型正式训练时的计算量，并为模型提前注入上下文理解基础，有利于模型进一步训练；其次在训练时采用多重任务，增强了模型的鲁棒性和可解释性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的预训练模型的网络架构示意图；

图2附图为本发明提供的预训练中破坏三元组结构的方式示意图；

图3附图为本发明提供的根据训练任务对训练模型进行训练示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种双向编码的知识图谱嵌入方法，分为预训练阶段和训练阶段，包括以下步骤：

S1：预训练阶段；

S11：以Encoder-Decoder架构，构建标准transformer网络，作为预训练模型，其中，Encoder结构的输入即为整个预训练模型的输入，Decoder结构的输出即为整个预训练模型的输出；

其中，采用标准的Transformer模型，将激活函数改为高斯误差线性单元激活函数GeLU,并且参数初始化服从正态分布N（0,0.02）；Encoder和Decoder各有六层，Decoder对最终隐藏层额外执行cross- attention操作；

S12：以采用Wikidata作为知识图谱为例，将KG的三元组作为原始样本，将原始样本以标签遮罩、交换顺序、三元组缺失的方式进行处理，得到损坏样本；

将损坏样本作为S11建立的transformer模型中Encoder结构的输入；Encoder负责将输入进行self-attention运算，并获得cls标签作为三元组的表示向量；为了防止模型过度拟合，预训练采用的数据本身利用损坏样本采用了丰富的噪声信息，意图破坏掉这些有关序列表层的信息，让模型越过三元组的结构信息，学习到更多语义和知识层面的信息，采用的三种方式如图2所示，从从左到右分别为交换顺序，标签遮罩和三元组缺失；

a.标签遮罩，随机将三元组的token替换成mask，意图训练模型推断单个token的能力；

b.交换顺序，将三元组的头实体、尾实体、关系token顺序交换。训练模型掌握知识图谱上下文信息及各三元组关系的能力；

c.三元组缺失，随机删去三元组的token，意图训练模型推断单个token及其位置的能力；

S13：S11建立模型中Decoder采用自回归的方式计算出原始三元组输入，如图1所示，输入和输出之间差一个位置，主要模拟在推理（inference）时能让模型看到未来的词，这种方式称为AutoRegressive。单独的decoder结构仅基于左侧上下文来预测单词，无法学习双向交互，因此将编码器和解码器合在一起，预训练时成为一种seq2seq模型；预训练的本质是翻译任务，意图模型能学到知识图谱的上下文信息和语义知识；

S14：待S13得到输出后，将其和原始样本间的交叉熵作为损失函数，意图模型可以在输入损坏样本的情况下，输出原始样本；在预训练时将三元组考虑为携带语义和知识的句子，需要考虑原始样本三元组和Decoder输出的三元组是否为同一三元组，因此使用交叉熵函数；

S15：在预训练模型优化过程中使用的优化器是Adam，其学习率随着训练的进程变化：

其中，lrate表示学习率；dmodel为单个token的维度，即词向量的维度；step_num为当前的迭代步数；warmup_steps为预热学习率的步数，设定为4000；

预热学习率的步数的确定是由于刚开始训练时，模型的权重(weights)是随机初始化的，此时若选择一个较大的学习率，可能带来模型的不稳定(振荡)，选择Warmup预热学习率的方式，可以使得开始训练的几个epoches或者一些steps内学习率较小，在预热的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再选择预先设置的学习率进行训练，使得模型收敛速度变得更快，模型效果更佳；

S2：训练阶段；采用预训练好的Encoder作为训练阶段的基础网络模型，并且通过加入多重任务对Encoder参数进行调整，最后将知识图谱三元组通过训练好的Encoder，得到的副产物表征向量，即Encoder的embedding层的参数，即完成知识图谱嵌入，如附图3所示；

S21：只将预训练好的Encoder编码器作为网络架构；预训练结束后，将预训练模型中的Encoder结构作为训练模型，Encoder学习的是输入端的语义信息，能对输入的数据有较好的学习；而Decoder通常用来做序列生成，可以根据上文生成下文信息；

S22：将KG的三元组进行语义转换后得到的语义信息作为S21建立好模型的输入；将头实体、关系、尾实体的名称（描述文本），通过[CLS]和[SEP]进行顺序拼接，同时以原始三元组作为正样本，在正样本的基础上，随机采取以下三种方式中的一种得到正样本对应的负样本：用其他实体更换头实体、用其他实体更换尾实体或用其他关系替换关系，如<h₁，r₁，t₁>，<h₂，r₂，t₂>是KG中的两组三元组，打乱顺序后，将<h₁，r₁，t₂>作为负样本，<h₁，r₁，t₁>作为正样本，且保证正样本三元组属于KG的三元组集合；

负样本的形式化描述为：

S23：将S22输出的cls标签作为整个三元组的表示向量，并投影到一个打分函数空间中得到三元组评分；将cls标签投影到打分函数空间的表达式为：

其中，C表示cls标签；W表示投影矩阵；表示三元组评分；

S24：在S23的基础上，通过正样本和负样本输入训练模型后得到的cls标签和三元组评分，可计算得到交叉熵损失函数；

S25：根据交叉熵损失函数对不同的训练任务定义不同的损失函数；本专利将三元组分类、关系预测和相关度排序作为训练任务，对训练模型进行训练（即分别对预训练后的Encoder结构的参数进行微调）；以下对三个任务及其对应损失函数进行详细说明：

a.三元组分类任务；对于一个三元组，输入的序列应该是：[CLS]+头实体embedding +[SEP]+关系embedding +[SEP]+尾实体embedding+[SEP]；该任务使得预训练模型经过训练可以预测给定的三元组<h，r，t>是否有效，并且通过将头部或尾部实体替换为一个随机实体来生成无效三元组，则最终的输出和损失函数是：

其中，W_LP是投影矩阵，在本任务中的物理意义是输出的最终隐藏向量；S是有效的三元组集合；是无效的三元组集合；是一个标签；

b.关系预测任务；该任务使得预训练模型经过学习可以对两个实体的关系进行分类；输入是头实体序列和尾实体序列，如：[CLS]+植物组织（植物）+[SEP]+植物组织的任何部分+[SEP]，然后对模型进行训练以预测关系上位词的序列（embedding），在此应预测的是“属于”；输出函数和损失函数如下式所示：

其中，S是有效的三元组集合，g(x)是最终模型的输出，是一个标签，关系预测的最终隐藏向量W_RP，R是关系数，模型训练的最终任务是将交叉熵的损失最小化；

c.相关度排序任务；该任务使得预训练模型可以对有效的三元组比无效的三元组打出更高的分数，使用Margin-rank Loss损失函数来让有效三元组和无效三元组之间产生更大的差距；Margin表示两个元素之间的间隔，即在损失函数上加入一个偏移量，模型输出函数和损失函数如下；

其中，S是有效的三元组集合，是无效的三元组集合；h(x)是最终模型对有效三元组的打分，是最终模型对无效三元组的打分，是一个参数，软化两个打分间的差距；相关度排序任务的最终隐藏向量W_RR，R是关系数；

S26：在训练阶段，使用了基于小批量的随机梯度下降算法；将三元组分类任务命名为D_LP，将关系预测任务命名为D_RP，将相关度排序任务命名为D_RR，将每种任务分割成小批量集合，然后合并所有数据，；在每个训练步骤中，从数据集D中随机选择一个小批量集合，然后训练与该批次对应的任务；

S27：训练阶段的模型采用Adam作为优化器，根据每项任务对应的损失函数对训练阶段的模型进行训练，其学习率随着训练的进程变化，具体参数设置同S15；正样本和负样本，及对应的cls标签构成模型训练的数据集，对数据集进行拆分，根据三种训练任务拆分成三组；训练时，每一个训练步骤随机采样一个组中的一小批样本并训练其对应的任务，如此训练若干步；通过三种训练任务的损失函数分别对模型参数进行调整，最终获得训练好的encoder模型；

S28：将待嵌入知识图谱的原始三元组输入训练好的encoder模型，得到输出完成运算后，模型中得到的embedding层（嵌入层）即作为最终的知识图谱三元组的嵌入表征向量，如图3所示的，，。

实施例

智能问答任务的主要目的是检索并为用户提出的自然语言问题提供答案，如“A出生在哪”，“B今年年龄多大”。当知识图谱应用在智能问答任务中时，可以将其看做是链接预测任务，即预测与给定的实体有特定关系的实体的任务，即给定（r,t）预测h或给定(h,r)预测t，前者可以表示为（*,r,t)，后者为（h,r,*）。以（h,r,*）举例来说，“A出生在哪”即可以看做是（A，出生于，*）。本发明的知识图谱嵌入方法可以很好地应用在该任务中。

以Wikidata作为知识图谱数据集（即作为本实施例中的KG），采集其中的三元组作为原始样本，构建并训练预训练模型；然后以三元组分类、关系预测和相关度排序对训练模型进行训练，训练时每一批次样本包括32个样本。模型训练好后就得到了最终KG三元组的表征向量。

预测任务以（*,r,t)为例。为预测头实体，可以将KG中每个实体h作为候选答案，然后为每个实体计算分数。定义打分函数

将这些分数按下降顺序排列将得到一个候选答案的排序列表。例如，对于预测任务(*,DirectorOf,Psycho)，可以使用这个排序过程生成一个有序列表{JamesCameron,AlfredHitchcock,GeorgeLucas,QuentinTarantino}。预测任务（h,r,*）也可以以同样的方式进行。以此完成了本发明的知识图谱嵌入方法在智能问答上的应用。

本发明的有益效果：

（1）针对一对多、多对一、多对多的问题，由于三元组本身符合一个句子的主谓宾结构，本发明以encoder-decoder结构进行预训练，训练时将三元组整体看作是一个完整的句子，并且采用破坏的三元组（加入噪声）的结构，使得模型能学习到上下文语义信息和三元组之间的关系，从知识层面避免了一对多、多对一的问题。

（2）针对模型与计算复杂度不相匹配的问题，本发明采用了encoder-decoder的seq2seq模型进行预训练，并且在正式训练时采用的预训练的encoder模型。编码器和解码器采用了Multi-Head Attention结构，其中的注意力机制支持并行多维向量计算，使得可以支持计算度复杂的运算和大规模的知识图谱数据。

（3）针对加入神经网络效果欠佳的问题，本发明在正式训练阶段，由于解码器的任务是学习到输入数据的向量表示，而编码器的任务是做序列生成，根据上文生成下文信息，因此只采用encoder模型，增加了本发明方法的可解释性。同时在输出端加入链接预测、关系预测和相关度排序的任务，增加了模型的鲁棒性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种双向编码的知识图谱嵌入方法，应用于自然语言处理领域，其特征在于，包括以下步骤：

采用Encoder-Decoder架构构建预训练模型；预训练模型为transformer网络，将Encoder结构的输入作为预训练模型的输入层，Decoder结构的输出作为预训练模型的输出层；

采集Wikidata知识图谱数据集的三元组作为原始样本，根据原始样本对预训练模型进行训练优化；对原始样本进行损坏处理，获得损坏样本；损坏处理包括标签遮挡、交换顺序和三元组缺失；标签遮挡，随机将三元组的token替换成mask；交换顺序，将三元组的头实体、尾实体、关系token顺序交换；三元组缺失，随机删去三元组的token；

计算原始样本与模型输出之间的交叉熵作为损失函数，优化预训练模型；

将原始样本作为正样本，对正样本进行样本转换获得负样本，将正样本和负样本进行语义转换获得的语义信息输入训练模型中，并结合训练任务对训练模型进行训练优化，获得知识图谱嵌入模型；样本转换的方式包括：头实体更换、尾实体更换和关系更换，以原始样本的三元组随机采取用其他实体更换头实体、用其他实体更换尾实体或用其他关系替换关系中的一种方式得到负样本；

将待嵌入知识图谱输入知识图谱嵌入模型，获得待嵌入知识图谱的嵌入表征向量，得到最终知识图谱三元组的表征向量。

2.根据权利要求1所述的一种双向编码的知识图谱嵌入方法，其特征在于，将原始样本作为正样本，对正样本进行样本转换获得负样本，将正样本和负样本进行语义转换获得的语义信息输入训练模型中，并结合训练任务对训练模型进行训练优化，获得知识图谱嵌入模型的具体过程为：

对正样本进行样本转换获得负样本；

3.根据权利要求1所述的一种双向编码的知识图谱嵌入方法，其特征在于，预训练模型的输出层采用自回归方法获得模型输出。

4.根据权利要求1所述的一种双向编码的知识图谱嵌入方法，其特征在于，训练任务包括三元组分类、关系预测和相关度排序。

5.根据权利要求1所述的一种双向编码的知识图谱嵌入方法，其特征在于，所述预训练模型和所述训练模型均采用Adam结合损失函数进行优化。