CN107391623B

CN107391623B - 一种融合多背景知识的知识图谱嵌入方法

Info

Publication number: CN107391623B
Application number: CN201710549884.XA
Authority: CN
Inventors: 孟小峰; 杜治娟
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2020-03-31
Anticipated expiration: 2037-07-07
Also published as: CN107391623A

Abstract

本发明涉及一种融合多背景知识的知识图谱嵌入方法，其步骤：1)从知识库的实体标签中选择优质的实体描述信息，从Web语料中选择与实体相关的优质语料，构成多背景知识MCK；2)通过嵌入多背景知识MCK来学习知识库的嵌入表示；3)使用DBALSTM模型从MCK获得相应实体的语义嵌入向量；其中，DBALSTM＝深度D+双向B+关注A+基本LSTM；4)将融合嵌入机制用于MCK与RDF三元组的细粒度结合，完成融合多背景知识的知识图谱嵌入。本发明能提高知识图谱嵌入的准确性。

Description

一种融合多背景知识的知识图谱嵌入方法

技术领域

本发明涉及一种知识图谱嵌入方法，特别是关于一种融合多背景知识的知识图谱嵌入方法。

背景技术

近年来，构建web规模的知识图谱(knowledge graphs，KG)与日俱增，并用KG解决实际问题如DBPedia，Wikidata，Freebase，YAGO和Probase等广泛用于自然语言问答、智能搜索，以及知识推理、融合和补全等。然而，随着KG规模的增加，图表示的KG在应用中正面临着数据稀疏和计算效率低下的问题。更重要的是，用图表示的KG不便于机器学习，而机器学习是大数据自动化和智能化的不可或缺的工具。为此，KG的嵌入式表示学习技术诞生并成为主流，它是将实体和关系投射到连续的低维向量空间。KG的嵌入式学习模型可能有两个基本派系：基于三元组的模型和实体描述辅助的模型。

基于三元组的模型只是将KG看作是符号三元组，仅解码了KG中的结构化信息，忽略了隐含语义。例如，对于三元组<Stanford University,Location,California>，TransE刻板的将其建模为Stanford University+Location＝California。此外，实体StanfordUniversity在KGs中被记录为不可理解的符号/m/06pwq，拟合的三元组缺乏语义。由于实践证明文本是架起KG与自然语言的桥梁，所以，出现了利用KG中实体的描述信息辅助KG嵌入的模型，比如，语料中与头实体相匹配的关键词“Stanford University”和“stay inCalifornia”等可以为这个三元组提供额外的语义相关性。然而，KG中不是所有的实体都有描述信息，描述信息的质量也参差不齐(据统计在Freebase中有33.4％的实体没有描述信息，7.5％是不明确的)。因此，现有的方法难以适用于没有描述信息或描述信息质量差的实体。所以提出多背景知识(multiple contextual knowledge，MCK，)辅助的模型来改进实体描述辅助的模型，主要是选择从文本语料库中获取头尾实体的背景信息作为弱描述实体的补充知识。但这样做也存在以下3个问题：

(1)并非所有实体的外部知识都是可靠的，或者能够说明相应的实体，比如，文本知识(a)谈论实体“Stanford University”的位置，与三元组相关，可以表示实体，而文本知识(b)则提供了相当混乱和无意义的信息。类似地，实体描述信息的质量也参差不齐。因此，如何选出高价值量的MCK是一个非常关键的问题。

(2)头尾实体与MCK具有长期语义依赖性和双向相关性。然而，它们在现有方法中被忽略。例如，“Jointly model”只考虑了词袋假设，忽略了单词的顺序。DKRL使用CBOW和CNN来编码实体描述的语义。SSP通过主题模型捕获实体的符号三元组和描述信息。因此，如何建立长期语义依赖和双向相关性将成为另一个关键问题。

(3)不是所有的三元组都需要MCK的帮助，因为频繁出现的实体很大程度上取决于结构化的三元组知识，而不频繁出现的实体可能在很大程度上取决于MCK。然而，已有方法将结构化知识和文本知识简单地链接在一起，这是非常不合适的。因此，如何将结构化知识、描述知识和外部知识自适应的融合在一起将成为又一个关键问题。

发明内容

针对上述问题，本发明的目的是提供一种融合多背景知识的知识图谱嵌入方法，该方法能提高知识图谱嵌入的准确性。

为实现上述目的，本发明采取以下技术方案：一种融合多背景知识的知识图谱嵌入方法，其特征在于包括以下步骤：1)从知识库的实体标签中选择优质的实体描述信息，从Web语料中选择与实体相关的优质语料，构成多背景知识MCK；2)通过嵌入多背景知识MCK来学习知识库的嵌入表示；3)使用DBALSTM模型从MCK获得相应实体的语义嵌入向量；其中，DBALSTM＝深度D+双向B+关注A+基本LSTM；4)将融合嵌入机制用于MCK与RDF三元组的细粒度结合，完成融合多背景知识的知识图谱嵌入。

进一步，所述步骤1)中，优质是指经预处理后，文本长度多于3个词且平均长度为69个词，最长描述不超过343个字。

进一步，所述步骤3)中，采用DBALSTM模型解码MCK，DBALSTM模型分为3层：(1)外部关注层中采用外部关注机制根据实体基于描述、补充知识的特征向量表示与基于元组的向量表示的相似度从多个MCK中挑选出有价值的MCK；(2)在深度层使用轻量级深度机制来平衡建模质量和模型复杂性，同时使用内部关注机制来增强单个MCK中有价值词的权重；轻量级深度机制外部关注与内部关注形成两级关注；(3)词表示用于将实体的描述知识和单条外部知识表示为词向量，采用位置嵌入+词嵌入的方式，词嵌入采用负采样Skipgram模型训练，并用X表示；位置嵌入被定义为从当前词到头实体h和尾实体t的相对距离的组合。

进一步，位置嵌入为：每个词都有两个相对距离，左边的单词是负值，右边的单词是正值，如果相关距离大于d，这些值将被标记为-d或d，d表示预定义距离阈值；随机初始化两位置嵌入矩阵PMi，并通过查找它们将相对距离变换为向量，其中i＝1,2。

进一步，DBALSTM模型构建方法如下：3.1)定义双向LSTM，简称BLSTM：BLSTM是用两个独立的LSTM层来实现，用于计算前向隐藏序列h^f和后向隐藏序列h^b；其中，LSTM单元包括4个门1个记忆单元，输入门决定让输入信号通过存储单元或阻塞它，输出门允许新的输出或阻止它，忘记门决定记住或忘记单元以前的状态；记忆单元c由一组sigmoid门控制；3.2)构建BASLTM：在BLSTM内部加入内部关注机制，内部关注机制是用于计算单条实体描述知识或外部知识中的单词的权重，该单词的权重为：

R_att＝yα^Τ；

式中，W是词表示矩阵，y是输出向量，

是给定关系的向量，α是内部关注向量，R_att是内部关注加权句子表示，

3.3)将内部关注机制与外部关注机制合成两级关注，外部关注机制主要是基于实体的MCK向量表示和三元组表示的余弦相似度来计算每条MCK的权重，过滤低信息量的句子，每条MCK的权重

为：

式中，s_c是句子的表示，

是三元组表示，

是句子s_c的权重，即外部关注，

是选择的m条相关度最高的句子所形成的实体多背景知识表示；3.4)采用轻量级深度机制减少网络深度，即在输入和隐藏状态之间增加一个捷径层ST，借鉴堆叠多个隐藏层的LSTM中隐式转换函数，通过下式来学习隐藏的转换函数ψ_h：

式中，

是t时刻第l层的隐藏状态，U是连接过渡层的矩阵，V是连接转换层的矩阵。

进一步，所述步骤4)中，在融合嵌入学习中，实体的3种表示根据下式进行自适应融合：

融合嵌入的评分函数为：

式中，I是一个向量，所有元素都是1，

表示权重向量，当

接近0时，对应的嵌入向量

被忽略，否则会变得更重要；为了约束

的每个元素的值在0和1之间，令

满足下式：

将评分函数转换成最小化问题，目标函数

如下所示；然后在小批量模式下通过随机梯度下降

求解：

其中，γ是边界，Δ′和Δ分别是正确和不正确的三元组的集合，Δ′是Δ的负采样集，定义为等式：

Δ'＝{(h',r,t)|h'∈E∪(h,r,t')|t'∈E}。

本发明由于采取以上技术方案，其具有以下优点：1、本发明设计了两级关注机制自动突出MCK中有价值的实例。其中，采用句子级关注机制(外部关注机制)来最大限度地减少多条背景知识集成时的噪声问题或信息丢失问题，采用采用实例级关注机制(内部关注机制)来增强一条背景知识中有价值词的重量。2、本发明依据LSTM的长距离学习能力、词表达能力，其双向模式对历史和未来信息的捕捉能力，以及NLP深度学习的成功设计一个具有关注能力的深度双向LSTM模型，简称DBALSTM来深入解码隐含语义。3、本发明设计了融合操作，从结构知识和MCK为每个实体自适应、细粒度的学习一个融合嵌入向量。每种知识的信息贡献量由融合嵌入机制决定。

附图说明

图1是本发明的KFM模型的整体架构图；

图2是本发明的DBALSTM模型整体架构图；

图3是本发明位置特征例子示意图；

图4是本发明的BLSTM模型架构图；其中图(a)是LSTM单元图；图(b)是双向LSTM编码-解码图；

图5是本发明的内部关注与BLSTM的关系示意图；其中图(a)是基于编码-解码的双向关注LSTM图；图(b)是内部关注图；

图6是本发明的捷径转换示意图。

具体实施方式

本发明针对实体弱描述知识的问题，采用MCK辅助KG嵌入，MCK包括描述知识和补充知识，其中，描述知识，在任务中取KG中那些实体描述信息经预处理后多余于3个词且平均长度为69个词的描述信息，最长描述不超过343个字。如果没有描述知识，则设置为null；补充知识，对于每个实体，补充知识是从文本语料库中抽取的与实体高相关的句子，例如***。在本发明的任务中，每个实体的外部知识大约包括40个句子。下面结合附图和实施例对本发明进行详细的描述。

本发明中涉及的符号含义如下表所示：

h,r,t：分别表示头实体,关系,尾实体；

<h,r,t>：元组；

分别表示h,r,t的列向量；

下标k,c,d,f：分别表示基于元组的向量，基于描述的知识向量，基于外部知识的向量，最终的融合嵌入向量；

e,

x：e＝{h,t}，

x＝{k,d,c}；

权重向量；

f_r()：评分函数；

⊙：融合操作(哈达玛积)；

l₁距离，l₂距离。

本发明采用KFM(Knowledge Graph Fusion Embedding with MCK，KFM)模型解决：(i)实体出现频率少、没有描述信息或描述信息质量差的问题；(ii)长距离语义依赖和双向相关的问题；(iii)结构化的三元组知识与文本知识不能简单地拼接的问题。在KFM模型中,每种实体有3种表示：(1)基于元组的向量表示为

采用TransE从RDF三元组中学习得到；(2)基于描述的知识向量表示

采用DBALSTM从实体描述知识中学习得到；(3)基于补充知识的向量表示

采用DBALSTM从实体外部知识中学习得到。实体的每种表示对应一个权重向量。所以，KFM模型包含6个与头尾实体对应的权重向量

它们最终通过自适应细粒度地融合操作融合在一起，形成融合向量

最后，依据评分函数

对关系向量

和实体的融合向量

执行融合嵌入学习。评分函数

为：

如图2所示，本发明提供一种融合多背景知识的知识图谱嵌入方法，其包括以下步骤：

1)从知识库的实体标签中选择优质的实体描述信息，从Web语料中选择与实体相关的优质语料，构成多背景知识MCK；利用了补充知识，解决了实体没有描述知识和描述知识质量差的问题；其中，优质是指经预处理后，文本(描述知识或补充知识)长度多于3个词且平均长度为69个词，最长描述不超过343个字。

2)通过嵌入多背景知识MCK来学习知识库的嵌入表示。MCK不仅包括实体描述(来自知识库中实体的描述信息，也属于文本)，还包括来自其他文本语料库的文本知识。(MCK包括来自知识库中实体的描述信息(知识库中实体的标签)和来自其他文本语料库的文本知识，前者叫做描述知识，后者叫做补充知识。)

3)使用DBALSTM模型(DBALSTM＝深度(Deep,简称D)+双向(Bidirectional,简称B)+关注(Attention，简称A)+基本LSTM)从MCK获得相应实体的语义嵌入向量。其中，DBALSTM模型中采用两级关注机制选择价值量高的MCK，轻量级深度机制减少网络深度和防止参数急剧增加，双向机制捕捉语义的双向相关，基本LSTM刻画长期语义依赖关系。

4)将融合嵌入机制用于MCK与RDF三元组的细粒度结合，完成融合多背景知识的知识图谱嵌入。

上述步骤3)中，如图2所示，本发明采用DBALSTM模型解码MCK，DBALSTM模型分为3层：(1)外部关注层中采用外部关注机制根据实体基于描述、补充知识的特征向量表示与基于元组的向量表示的相似度从多个MCK中挑选出有价值的MCK。(2)在深度层使用轻量级深度机制来平衡建模质量和模型复杂性，同时使用内部关注机制来增强单个MCK中有价值词的权重。轻量级深度机制外部关注与内部关注形成两级关注。(3)词表示用于将实体的描述知识和单条外部知识表示为词向量，采用“位置嵌入+词嵌入”的方式，词嵌入采用负采样Skipgram模型训练，并用X表示。位置嵌入被定义为从当前词到头实体h和尾实体t的相对距离的组合。

其中，如图3所示，位置嵌入为：每个词都有两个相对距离，左边的单词是负值，右边的单词是正值，如果相关距离大于d，这些值将被标记为-d或d，d表示预定义阈值，即常量。(例如，“Located At”位于“Stanford University"”和“California”的相对距离为1和-2。)随机初始化两位置嵌入矩阵PMi(i＝1,2)(对于h和t)，并通过查找它们将相对距离变换为向量。

DBALSTM模型构建方法如下：

3.1)如图4中的图(b)所示，定义双向LSTM(简称BLSTM＝B+LSTM)：BLSTM是用两个独立的LSTM层来实现，用于计算前向隐藏序列h^f和后向隐藏序列h^b；其中，如图4中的图(a)所示，LSTM单元包括4个门1个记忆单元，其中，输入门决定让输入信号通过存储单元或阻塞它，输出门允许新的输出或阻止它，忘记门决定记住或忘记单元以前的状态。记忆单元c由一组sigmoid门控制。

3.2)如图5中的图(a)所示，构建BASLTM：在BLSTM内部加入内部关注机制，内部关注机制是用于计算单条实体描述知识或外部知识(单条句子)中的单词的权重，主要是在BLSTM内部执行，该单词的权重为：

R_att＝yα^Τ； (2)

式中，W是词表示矩阵，y是输出向量，

是给定关系的向量，α是内部关注向量，R_att是内部关注加权句子表示。其中，α由图5中的图(b)关注函数f_att()计算得到，即给定词表示和h_t-1。f_att()由多层感知层和softmax函数计算，

3.3)将内部关注机制与外部关注机制合成两级关注，外部关注机制主要是基于实体的MCK(句子)向量表示和三元组表示的余弦相似度来计算每条MCK(句子)的权重，过滤低信息量的句子，每条MCK(句子)的权重

为：

式中，s_c是句子的表示，

是三元组表示，

是句子s_c的权重，即外部关注，

是选择的m条相关度最高的句子所形成的实体多背景知识表示。

3.4)如图6所示，采用轻量级深度机制减少网络深度，防止参数大小急剧增长，即在输入和隐藏状态之间增加一个捷径层(简称ST，shortcut transition)，借鉴堆叠多个隐藏层的LSTM(如图6中除去线W)中隐式转换函数，通过式(6)来学习隐藏的转换函数ψ_h。

式中，

上述步骤4)中，融合嵌入学习是为了自适应细粒度的结合元组知识、描述知识和外部知识，主要依据是频繁实体很大程度上依赖于元组知识，而不频繁实体很大程度上依赖于MCK。

融合嵌入学习是一种新的KG嵌入方法。它不仅将三元组和MCK融合在一起，而且还根据权重向量

提供了一种细粒度方法来量化三元组和MCK的贡献。其中，实体的3种表示根据公式(7)-(8)进行自适应融合，融合嵌入的评分函数如公式(9)所示。

式中，I是一个向量，所有元素都是1，

表示权重向量。这样做的好处是

每个元素是

和

相应元素的加权和。当

接近0时，对应的嵌入向量

被忽略，否则会变得更重要。这允许KFM自适应地处理频繁实体和不频繁实体。为了约束

的每个元素的值在0和1之间，令

满足公式(10)。

将等式(9)转换成最小化问题，目标函数

如式(11)所示。然后在小批量模式下通过随机梯度下降

求解。

其中，γ是边界，Δ′和Δ分别是正确和不正确的三元组的集合。Δ′是Δ的负采样集，定义为等式(12)。

Δ'＝{(h',r,t)|h'∈E∪(h,r,t')|t'∈E}。 (12)

上述各实施例仅用于说明本发明，各部件的结构、尺寸、设置位置及形状都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别部件进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种融合多背景知识的知识图谱嵌入方法，其特征在于包括以下步骤：

1)从知识库的实体标签中选择优质的实体描述信息，从Web语料中选择与实体相关的优质语料，构成多背景知识MCK；

优质是指经预处理后，文本长度多于3个词且平均长度为69个词，最长描述不超过343个字；

2)通过嵌入多背景知识MCK来学习知识库的嵌入表示；

3)使用DBALSTM模型从MCK获得相应实体的语义嵌入向量；其中，DBALSTM＝深度D+双向B+关注A+基本LSTM；

采用DBALSTM模型解码MCK，DBALSTM模型分为3层：(1)外部关注层中采用外部关注机制根据实体基于描述、补充知识的特征向量表示与基于元组的向量表示的相似度从多个MCK中挑选出有价值的MCK；(2)在深度层使用轻量级深度机制来平衡建模质量和模型复杂性，同时使用内部关注机制来增强单个MCK中有价值词的权重；轻量级深度机制外部关注与内部关注形成两级关注；(3)词表示用于将实体的描述知识和单条外部知识表示为词向量，采用位置嵌入+词嵌入的方式，词嵌入采用负采样Skipgram模型训练，并用X表示；位置嵌入被定义为从当前词到头实体h和尾实体t的相对距离的组合；

2.如权利要求1所述的一种融合多背景知识的知识图谱嵌入方法，其特征在于：位置嵌入为：每个词都有两个相对距离，左边的单词是负值，右边的单词是正值，如果相关距离大于d，这些值将被标记为-d或d，d表示预定义距离阈值；随机初始化两位置嵌入矩阵PMi，并通过查找它们将相对距离变换为向量，其中i＝1,2。

3.如权利要求1所述的一种融合多背景知识的知识图谱嵌入方法，其特征在于：DBALSTM模型构建方法如下：

3.1)定义双向LSTM，简称BLSTM：BLSTM是用两个独立的LSTM层来实现，用于计算前向隐藏序列h^f和后向隐藏序列h^b；其中，LSTM单元包括4个门1个记忆单元，输入门决定让输入信号通过存储单元或阻塞它，输出门允许新的输出或阻止它，忘记门决定记住或忘记单元以前的状态；记忆单元c由一组sigmoid门控制；

3.2)构建BASLTM：在BLSTM内部加入内部关注机制，内部关注机制是用于计算单条实体描述知识或外部知识中的单词的权重，该单词的权重为：

R_att＝yα^Τ；