CN107871158A

CN107871158A - 一种结合序列文本信息的知识图谱表示学习方法及装置

Info

Publication number: CN107871158A
Application number: CN201610852672.4A
Authority: CN
Inventors: 刘知远; 孙茂松; 吴佳炜; 谢若冰; 林衍凯
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-09-26
Filing date: 2016-09-26
Publication date: 2018-04-03

Abstract

本发明提供了一种结合序列文本信息的知识图谱表示学习方法及装置，该方法不仅利用了实体之间的三元关系组信息，还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程，使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数，学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示，显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示，充分利用了语料库中包含实体的序列文本信息，能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率，具有良好的实用性，提高知识图谱的表示性能。

Description

一种结合序列文本信息的知识图谱表示学习方法及装置

技术领域

本发明属于自然语言处理和信息抽取领域，具体涉及一种结合序列文本信息的知识图谱表示学习方法及装置。

背景技术

在社会飞速发展的背景下，人类现在处于信息***的时代，每天都会有海量的实体知识和信息产生。这些信息广泛分布在互联网上，并且通常以文字或者图片等非结构化的形式产生并存储。然而，随着用户对互联网上有效信息筛选与归纳的需求日益增加，如何从海量数据中获取有价值的信息成为一个难题。于是，知识图谱应运而生。

知识图谱将世界上所有的具象事物(如人物、地名、书名、球队名等专有名词)与抽象概念表示为实体，将实体之间内在的交互联系表示为关系，旨在构建一个结构化信息的数据库。在典型的知识图谱中，实体与实体之间的关系被构建成一张巨大的图，其中图中的节点表示实体，而图中的边表示实体间的关系，因此世界的海量知识被表示为实体之间利用关系作为桥梁的三元关系组。例如，针对北京是中国的首都这一知识，在知识图谱就利用三元关系组(北京，是……首都，中国)进行表示。传统的自然语言处理存在歧义性的问题，而在知识图谱的构建过程中，一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元关系组记录了实体之间的内在联系以及实体内在的属性，因此被广泛运用于信息检索、问答***和数据挖掘等多个领域。

由于知识图谱中实体数量庞大，但实体之间的利用关系相对较少，知识图谱网络存在严重的结构稀疏性问题，同时也存在着知识信息不完整的问题。并且随着信息在极短的时间内不断增加，实体之间的关系也不断进行更新与变化，仅靠人工维护与更新信息难以担当重任。因此，知识图谱的表示与自动补全成为当今重要的研究热点。

近年来，表示学习在知识图谱上的运用获得了巨大的成功，显著提高了知识图谱的表示与自动补全性能。表示学习使用分布式表示方法，将实体与关系映射到低维连续向量空间中，解决了之前知识图谱表示学习中的稀疏性问题，同时也提高了效率，其中基于转化的模型表现最为突出。但是，现有的知识图谱表示学习方法往往只考虑知识图谱三元组关系本身。考虑到实体本身是从语料文本中提取的，这些现有的表示学习方法忽略了语料库中丰富的包含实体的序列文本信息，因此限制了知识图谱的表示性能。

发明内容

本发明所要解决的技术问题是如何提供一种结合序列文本信息的知识图谱表示学习方法，解决现有技术中存在的未能充分利用语料库中包含实体的序列文本信息的问题，以提高知识图谱的表示性能。

针对以上技术问题，本发明提供了一种结合序列文本信息的知识图谱表示学习方法，包括：

S1：获取知识图谱中的三元组关系，所述三元组关系的头实体和尾实体，并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句；

S2：针对每一个所述第一参考语句和每一个所述第二参考语句，采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示，所述第二参考语句对应的第二最终向量表示；

S3：根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示，采用注意力模型得到所述头实体的基于文本向量表示，并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示，采用注意力模型得到所述尾实体的基于文本向量表示；

S4：根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示，以及所述头实体和尾实体的关系向量表示，构建能量方程；

S5：根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。

可选地，所述步骤S2包括：

将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量，其中，所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述头实体或者尾实体的位置的向量；

针对每一个所述第一参考语句，按照所述第一参考语句中的单词出现的先后顺序，读入单词的词向量，采用公式h_t＝tanh(Wx_t+Uh_t-1+b)得到所述第一参考语句在第t个单词的词向量输入后，t时刻循环神经网络的隐状态表示，同理，针对每一个所述第二参考语句，按照所述第二参考语句中的单词出现的先后顺序，读入单词的词向量，采用公式h_t＝tanh(Wx_t+Uh_t-1+b)得到所述第二参考语句在第t个单词的词向量输入后，t时刻循环神经网络的隐状态表示；

针对每一个所述第一参考语句，将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作，得到所述第一参考语句对应的第一最终向量表示，同理，针对每一个所述第二参考语句，将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作，得到所述第二参考语句对应的第二最终向量表示；

其中，h_t为第t个单词的词向量输入后，t时刻循环神经网络的隐状态表示,x_t为第t个单词的词向量，W和U为模型训练得到的矩阵参数，b为模型训练得到的向量参数，c为参考语句的最终的向量表示，h_i表示第i时刻循环神经网络的隐状态，n为参考语句的单词长度。

或者，可选地，所述步骤S2包括：

将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量，其中，所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述实体的位置的向量；

针对每一个所述第一参考语句和所述第二参考语句，按照所述第一参考语句和所述第二参考语句中的单词出现的先后顺序，读入单词的词向量，按照以下公式：

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1+b⁽ⁱ⁾)；

f_t＝σ(W^(f)x_t+U^(f)h_t-1+b^(f))；

o_t＝σ(W^(o)x_t+U^(o)h_t-1+b^(o))；

u_t＝tanh(W^(u)x_t+U^(u)h_t-1+b^(u))；

c＝h_n；

得到所述第一参考语句对应的第一最终向量表示和所述第二参考语句对应的第二最终向量表示；

其中，在每个当前时刻t，i_t为输入门限，f_t为遗忘门限，o_t为输出门限，i_t、f_t和o_t的取值均在0和1之间，c_t为记忆模块参数，h_t为第t个单词表示输入后，t时刻长短时记忆网络的隐状态表示，c为参考语句最终向量表示，n为该参考语句的单词长度。

可选地，所述步骤S3包括：

针对每一所述第一参考语句，按照公式计算其所对应的第一最终向量表示与所述头实体对应的基于结构向量表示之间的第一相似度，同理，针对每一所述第二参考语句，按照公式计算其所对应的第二最终向量表示与所述尾实体对应的基于结构向量表示之间的第二相似度；

获取所述第一参考语句中第一相似度大于第一预设相似度的至少一个第一参考语句，作为第一参考语句集，获取所述第二参考语句中第二相似度大于第二预设相似度的至少一个第二参考语句，作为第二参考语句集，将所述第一参考语句集中第一参考语句按照公式合成为所述头实体的基于文本向量表示，将所述第二参考语句集中第二参考语句合成为所述尾实体的基于文本向量表示；

其中，c为参考语句的最终向量表示，e_K为所述头实体或尾实体的基于结构向量表示，s为所述头实体或尾实体的基于文本的向量表示，c_i为所述第一参考语句集中的第i句第一参考语句的第一最终向量表示或第二参考语句集中的第i句第二参考语句的第二最终向量表示，e_K为所述头实体或尾实体的基于结构向量表示，m为预设的参数。

可选地，所述步骤S4包括：

根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示，以及所述头实体和尾实体的关系向量表示，按照以下公式

E(h,r,t)＝E_KK+E_SS+E_KS+E_SK；

E_KK＝||h_K+r-t_K||；

E_SS＝||h_S+r-t_S||；

E_KS＝||h_K+r-t_S||；

E_SK＝||h_S+r-t_K||；

构建能量方程；

其中，E(h,r,t)、E_KK、E_SS、E_KS以及E_SK均为能量方程，h_S与h_K分别表示所述头实体h对应的基于文本向量表示与基于结构向量表示，t_S与t_K分别所述尾实体t基于文本向量表示与基于结构向量表示，r为关系向量。

可选地，所述步骤S5包括：

根据所述能量方程按照以下公式

构建基于边际的评价函数，通过最小化所述评价函数，学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示；

其中，γ>0是超参数，T′为所述三元组关系的负例集，T为所述三元组关系的正例集，h′为替换h的负例实体，t′为替换t的负例实体，E为实体集合。

可选地，所述单词相对于所述头实体的位置的向量表示为所述单词在其所在的第一参考语句中相对于所述头实体的位置的数值差，所述单词相对于所述尾实体的位置的向量表示为所述单词在其所在的第二参考语句中相对于所述尾实体的位置的数值差。

另一方面，本发明还提供了一种结合序列文本信息的知识图谱表示学习装置，包括：

获取单元，用于获取知识图谱中的三元组关系，所述三元组关系的头实体和尾实体，并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句；

第一构建单元，用于针对每一个所述第一参考语句和每一个所述第二参考语句，采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示，所述第二参考语句对应的第二最终向量表示；

第二构建单元，用于根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示，采用注意力模型得到所述头实体的基于文本向量表示，并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示，采用注意力模型得到所述尾实体的基于文本向量表示；

第三构建单元，用于根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示，以及所述头实体和尾实体的关系向量表示，构建能量方程；

学习单元，用于根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。

本发明提出的结合序列文本信息的知识图谱表示学习方法及装置，不仅利用了实体之间的三元关系组信息，还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程，使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数，学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示，显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示，充分利用了语料库中包含实体的序列文本信息，能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率，具有良好的实用性，提高知识图谱的表示性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的结合序列文本信息的知识图谱表示学习方法的流程示意图；

图2是本发明一个实施例提供的对整个结合序列文本信息的知识图谱表示学习方法模型全面示例的示意图；

图3是本发明一个实施例提供的对给定实体的一个参考语句，采用一个引入均值池化操作的循环神经网络构建这个参考语句的向量表示的示例。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本,实施例提供的结合序列文本信息的知识图谱表示学习方法的流程示意图。参见图1，该方法包括：

需要说明的是，需要选定含有大量实体的文本为语料库(如***)，对文本中的实体进行标注；

对知识图谱中包含的每个实体，从选定的语料库中，提取包含且仅包含该实体的语句作为该实体的参考语句。

本实施例提供的结合序列文本信息的知识图谱表示学习方法，不仅利用了实体之间的三元关系组信息，还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程，使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数，学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示，显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示，充分利用了语料库中包含实体的序列文本信息，能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率，具有良好的实用性，提高知识图谱的表示性能。

进一步地，所述步骤S2包括：

或者，所述步骤S2包括：

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1+b⁽ⁱ⁾)；

f_t＝σ(W^(f)x_t+U^(f)h_t-1+b^(f))；

o_t＝σ(W^(o)x_t+U^(o)h_t-1+b^(o))；

u_t＝tanh(W^(u)x_t+U^(u)h_t-1+b^(u))；

c＝h_n；

需要说明的是，在将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量时，将所有在语料库中出现的单词转化为连续的向量表示：每一个单词转化为一个词向量矩阵中的向量。进一步的，使用位置值来对每个单词相对实体的位置进行标注。这里，词向量用于刻画每个单词的语法和语义信息，采用word2vec学习得到；位置值用于刻画单词的位置信息，定义为每个单词和其所在参考语句中实***置的数值差。最终的词向量定义为word2vec学习到的词向量与位置值的拼接；

步骤S2第一参考语句对应的第一最终向量表示，和第二参考语句对应的第二最终向量表示，可以通过循环神经网络或长短时记忆网络将输入的单词表示转化为的最终向量表示，通过一个引入池化操作的循环神经网络或长短时记忆网络将输入的词表示转化为向量表示。

进一步地，所述步骤S3包括：

进一步地，所述步骤S4包括：

E(h,r,t)＝E_KK+E_SS+E_KS+E_SK；

E_KK＝||h_K+r-t_K||；

E_SS＝||h_S+r-t_S||；

E_KS＝||h_K+r-t_S||；

E_SK＝||h_S+r-t_K||；

构建能量方程；

进一步地，所述步骤S5包括：

根据所述能量方程按照以下公式

进一步地，所述单词相对于所述头实体的位置的向量表示为所述单词在其所在的第一参考语句中相对于所述头实体的位置的数值差，所述单词相对于所述尾实体的位置的向量表示为所述单词在其所在的第二参考语句中相对于所述尾实体的位置的数值差。

作为一种具体的实施例，如图2所示，将仅包含头实体的至少一个参考语句(reference sentences of head)，例如：ref1、ref2、ref3……refm，经过如上述实施例中所述的采用循环神经网络(RNN)或长短时记忆网络(LSTM)的处理，得到包含头实体的参考语句的最终向量表示，如图2中c₁、c₁、c₃……c_m。然后通过合并过程a₁、a₂、a₃……a_m，也就是上述实施例中所述的根据最终向量表示和基于结构向量表示生成基于文本向量表示，最终构建能量方程，得到所述头实体head的基于结构向量表示和基于文本的向量表示。

同理，将仅包含尾实体的至少一个参考语句(reference sentences of tail)，例如：ref1、ref2、ref3……refm，经过如上述实施例中所述的采用循环神经网络(RNN)或长短时记忆网络(LSTM)的处理，得到包含头实体的参考语句的最终向量表示，如图2中c₁、c₁、c₃……c_m。然后通过合并过程a₁、a₂、a₃……a_m，也就是上述实施例中所述的根据最终向量表示和基于结构向量表示生成基于文本向量表示，最终构建能量方程，得到所述尾实体tail的基于结构向量表示和基于文本的向量表示。

结合关系向量relation，得到最终的三元组关系。

其中，采用引入均值池化操作的循环神经网络构建参考语句的最终向量表示的方法如图3所示，针对每一个包含头实体或者尾实体的参考语句，按照参考语句中的单词(例如，图3中的x₁、x₂、x₃……x_m)按照其在参考语句中出现的先后顺序读入单词的词向量，其中，每一个单词的词向量均包括用于表示单词语法和语义的向量(如图3中的word)以及用于表示单词相对于头实体或者尾实体的位置的向量(如图3中的position)。采用循环神经网络(RNN)，例如采用公式h_t＝tanh(Wx_t+Uh_t-1+b)将得到不同时刻(例如，t时刻)循环神经网络的隐状态表示。进一步，根据不同时刻循环神经网络的隐状态表示得到该参考语句的最终向量表示c，具体地，例如，如上实施例中所述的采用得到参考语句的最终向量表示c。

另一方面，本实施例还提供了一种结合序列文本信息的知识图谱表示学习装置，包括：

本实施例提供的结合序列文本信息的知识图谱表示学习装置，不仅利用了实体之间的三元关系组信息，还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程，使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数，学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示，显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示，充分利用了语料库中包含实体的序列文本信息，能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率，具有良好的实用性，提高知识图谱的表示性能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合序列文本信息的知识图谱表示学习方法，其特征在于，包括：

2.根据权利要求1中所述的方法，其特征在于，所述步骤S2包括：

3.根据权利要求1中所述的方法，其特征在于，所述步骤S2包括：

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1+b⁽ⁱ⁾)；

f_t＝σ(W^(f)x_t+U^(f)h_t-1+b^(f))；

o_t＝σ(W^(o)x_t+U^(o)h_t-1+b^(o))；

u_t＝tanh(W^(u)x_t+U^(u)h_t-1+b^(u))；

c_t＝i_t⊙u_t+f_t⊙c_t-1；

h_t＝o_t⊙tanh(c_t)；

c＝h_n；

4.根据权利要求2或3中所述的方法，其特征在于，所述步骤S3包括：

5.根据权利要求4中所述的方法，其特征在于，所述步骤S4包括：

E(h,r,t)＝E_KK+E_SS+E_KS+E_SK；

E_KK＝||h_K+r-t_K||；

E_SS＝||h_S+r-t_S||；

E_KS＝||h_K+r-t_S||；

E_SK＝||h_S+r-t_K||；

构建能量方程；

6.根据权利要求5中所述的方法，其特征在于，所述步骤S5包括：

根据所述能量方程按照以下公式

<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <msup> <mi>h</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>T</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>+</mo> <mi>E</mi> <mo>(</mo> <mrow> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mo>)</mo> <mo>-</mo> <mi>E</mi> <mo>(</mo> <mrow> <msup> <mi>h</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&prime;</mo> </msup> </mrow> <mo>)</mo> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

T′＝{(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}；

7.根据权利要求2中所述的方法，其特征在于，所述单词相对于所述头实体的位置的向量表示为所述单词在其所在的第一参考语句中相对于所述头实体的位置的数值差，所述单词相对于所述尾实体的位置的向量表示为所述单词在其所在的第二参考语句中相对于所述尾实体的位置的数值差。

8.一种结合序列文本信息的知识图谱表示学习装置，其特征在于，包括：