CN106055675B

CN106055675B - 一种基于卷积神经网络和距离监督的关系抽取方法

Info

Publication number: CN106055675B
Application number: CN201610393749.6A
Authority: CN
Inventors: 凌立刚; 朱海鹏
Original assignee: Hangzhou Measurement Data Technology Co Ltd
Current assignee: Hangzhou Measurement Data Technology Co Ltd
Priority date: 2016-06-06
Filing date: 2016-06-06
Publication date: 2019-10-29
Anticipated expiration: 2036-06-06
Also published as: CN106055675A

Abstract

本发明公开了一种基于卷积神经网络和距离监督的关系抽取方法。包括如下步骤：(1)将已有的少量关系映射成所需要的关系类型；(2)扩展已有的关系中实体的不同表达方式；(3)从互联网上获取大量相关的非结构化文本，并建立索引；(4)通过索引查询与实体相关的句子，并分出正负样本；(5)基于卷积神经网络，将样本转换为特征向量；(6)利用获取的特征向量，对文本进行分类，得到新的关系对。本发明基于一个句子可能存在一种关系的假设，从少量的已知关系开始，利用大量来自互联网的非结构化文本，获取得到大量新的结构化信息，也就是发现新的关系。

Description

一种基于卷积神经网络和距离监督的关系抽取方法

技术领域

本发明涉及神经网络、自然语言处理、信息提取和关系抽取，尤其涉及一种基于卷积神经网络和距离监督的关系抽取方法。

背景技术

近年来，随着互联网的快速发展，互联网上的内容和知识越来越多，甚至是以指数翻倍的形式增长，包括新闻，博客，电子邮件，政府文件，聊天记录等等。但是，这些数据都是非机构化的电子文本。如何能够使得人类能够轻松地理解所有这些数据？一个非常好的想法就是把这些非结构化的数据转换成结构化的语义信息。但是庞大的数据量使得人工去注释这些信息变得非常困难，甚至是不可能的。所以，希望能够通过电脑，用计算机技术将这些数据标注成易于人类理解、阅读的文本结构。这就有了关系抽取方法的出现。

关系抽取主要有以下几种方法：

第一，监督方法。这种方法首先对语料库中的句子进行人工标记，标记出实体和实体之间的关系。例如2004年ACE会议的数据包含了1000多个文档，其中标记了16，771个实体对作为关系实例。ACE会议利用这些标记的关系实例作为训练集，通过抽取这些实例的词法、句法以及语义特征，使用监督学习方法得到一个关系分类器。然后用这个分类器去判断测试数据中的实体对是否有某个关系。由于监督方法需要事先人工标记训练数据集，而该工作是比较耗费人力的，所以监督方法不适合大规模开放领域的信息抽取任务。

第二，无监督方法。该类方法抽取两个实体之间的字符串，并对这些字符串进行聚类、精简操作，从而得到关系的字符串表示。该方法适合于大规模数据情况下，也可以产生大量的关系实例，但是此方法得到的关系实例难以直接映射到一个特定的知识库。

第三，半监督方法。该方法以少量的标记数据作为初始种子，然后迭代学习标注模型，并用该模型去标注未标记的数据，把最确信的标注实例添加到已标记的数据中。然而，经过大量的迭代次数之后，其准确率通常会下降的比较多，这是因为标注错误的累积造成的，此现象被称为“语义漂移(semantic drift)”问题。为了减少这种错误，学者进行了深入的研究。其中Co-training方法是一种利用两个条件独立的特征集，来提供不同且互补的信息，从而减少标注错误。类型检查(Type checking)方法是利用一个命名实体识别器去检查关系实例。

基于距离监督的关系抽取方法(DS,Distance Supervision)，相比于监督方法，能够利用相当大数量的数据，包括更多的文本内容，更多的关系，更多的实例。由于结合了相当数目的特征，避免了很多由于特征差而出现的问题。由于DS是由数据驱动的，而不是依赖标签好的文本，所以克服了监督方法所遇到的过拟合和领域依赖的问题。相比于无监督方法，DS分类的结果具有明确的而且有意义的关系，抽取出的关系更具有实际的意义，可以为人类服务。DS方法相比于之前的方法，不仅仅使用词性特征，而且还加入了很多语法特征。因此，DS方法，取代了之前比较广泛使用的基于核(Kernel)的方法成为了目前为止主流方法的基础。

深度学习模型在计算机视觉和语音识别方面取得了显著的效果。近年来，有些人将深度学习模型也用在了自然语言处理方面的工作，发现相比于之前的方法，有相当大的效果提升。卷积神经网络(Convolution Neural NetWork)就是其中一种方法。卷积神经网络是由Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效降低反馈神经网络的复杂性，继而提出的一种神经网络。自他们提出这种网络结构以后，更多的研究工作者对网络进行了改进，并在众多学科领域中成为了研究热点。卷积神经网络的特点在于，特征提取和模式分类同时进行，并在训练中产生，权重可以共享，从而减少网络参数，所以网络结构简单，适应性强，速度快。

发明内容

本发明的目的是克服现有技术的不足，提供一种卷积神经网络和基于距离监督的关系抽取方法。

一种基于卷积神经网络和距离监督的关系抽取方法，包含如下步骤：

1)将已有的关系映射成目标关系；

2)扩展已有的关系中实体别名，通过问题扩展寻找实体别名的各种不同的形式；

3)从互联网上，获取实体相关的非结构化文本，并建立索引；

4)通过索引查询与实体别名相关的句子，并分离出正负样本；

5)基于卷积神经网络，将正负样本转换为特征向量；

6)利用获取的特征向量，用多实例多标签模型，对非结构化文本进行分类，得到新的关系对。

上述方案基础上，各步骤可以进一步采用如下优选方案：

步骤1)具体如下：将已有的知识库存在的不同领域、不同地方的关系表达形式映射成需要的目标关系。

所述的步骤2)具体为：

1)寻找已有的关系中实体在***上的重定向链接所对应的实体别名；

2)对没有全名的实体别名进行扩展：缩写转换成全名或在没有后缀的实体别名后面加上后缀；

3)对没有缩写的实体别名进行缩减：首字母缩写或将全名进行部分表述；

4)对步骤1)～3)进行迭代，直到找到满足目标需求的实体别名；

5)采用实体链接和消除歧义对实体别名进行过滤处理。

所述的步骤3)具体为：

1)用已经存在的关系中的实体别名以及实体别名扩展所得到的一个实体别名构建成一个词典；

2)用构建出的词典中的词作为关键词，通过爬虫从互联网上爬取关键词对应的实体相关的网页；

3)对已经爬取的网页进行文本抽取，并对文本内容进行分句处理，获取得到非结构化的文本，并以文件的形式存放；

4)用全文检索工具对已经得到的非结构化的文本建立全文索引。

所述的步骤4)具体为：

1)将已经存在的关系表示成r(e₁,e₂)，其中r是关系名，e₁和e₂分别是实体1和实体2的名字；

2)以实体1的名字e₁作为关键字，用全文检索工具检索实体1相关名字的句子；如果检索得到的句子包含实体2的名称e₂，将该句子标记为正样本；否则，将该句子标记为负样本。

所述的步骤5)具体为：

1)用word2vec将正负样本中的每个词转换为词向量；

2)将转换成词向量的句子通过卷积，将所有样本转换成卷积后的序列；

3)用聚合函数将卷积序列池化得到最终的特征。

所述的步骤6)具体为：

1)定义文档集合为C，从C中抽取的实体描述的集合为E，已知的关系标签的集合为R，所有关系的数据库为D，D至少被C中的句子实例化一次；

2)用多实例多标签的模型进行基于距离监督的关系抽取，所述的模型利用硬判别的期望最大化算法，模型的训练步骤分为两步:

第一步，执行E过程，通过最大化以下公式给出的联合概率p的最大似然估计，找出最优的关系标签:

其中，P_i和N_i分别表示第i个实体对的正、负关系标签对应的集合，z_i表示第i个实体对的关系标签，y_i表示是否持有相应的关系，如果r∈P_i，则如果r∈N_i,则w_y和w_z分别表示y分类器和z分类器的参数，x_i表示第i个句子，r表示关系对应的标签，m表示第m个描述，z′_i包含第i个实体对对应组从前一次求联合概率中得到的描述标签，i＝1,…,n均进行计算联合概率，n是D中的实体对的个数，M_i是第i个实体对所对应的实体描述集合，对于每个m∈M_i计算以下公式：

其中：P(·)表示最终得到的联合概率，上标*表示该参数最终结果；

第二步，执行M过程，分别最优化y分类器和z分类器的参数，得到新的w_y和w_z，且分别优化两层分类器的参数，优化公式如下，其中w为每个函数的参数：

本发明与现有技术相比具有的有益的效果：

1.本发明提出的基于距离监督的关系提取的方法，该方法相比于用非常少量的标注好的语料的监督训练方式，能够利用大量的数据，包括更多的文本、更多的关系、更多的实例。而且由于有相当大的数据量，所以能够组合庞大数量的特征提供给分类器，这样就避免了很多因为特征差而带来的问题。

2.本发明提出的方法相比于无监督的方法。无监督的方法存在的问题就是，难以将模型训练得到的结果映射到已知的知识库中去，训练得到的关系难以表达成人类易于人类理解的形式。

3.本发明应用的是多实例多标签(MIML)的模型，这个模型相比于基本的距离监督模型。由于MIML采用了至少存在一次(At Least Once)实例的特征，所以避免了许多因为缺少实例而存在偏差的结果。多实例多标签还用了两层的模型，能够多实体对的描述级别的类别进行表述，又使得实体对能够拥有多个关系类别，更真实的模拟了实际情况。比方说，乔丹既是公牛队的队员，也是黄蜂队的老板。一个实体可能存在多个关系。

4.本发明相比于基本的多实例多标签(MIML)的模型，加上了卷积神经网络层。由于应用了最新的深度学习模型，对文本的表述性更强了，特征相比于原来一般的自然语言特征更具有代表性。因此，性能和准确率都有了比较高的提升。

附图说明

图1是本发明所使用的自然语言模型，其中的第一层是卷积层，也就是将原始的样本转换成词向量的表达方式以后，然后卷积得到卷积序列，第二层是池化层，将卷积序列池化，最后一层连接的是多实例多标签层。

图2是本发明的整个流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1～2所示，一种基于卷积神经网络和距离监督的关系抽取方法，包含如下步骤：

1)将已有的少量关系映射成目标关系。具体如下：将已有的知识库存在的不同领域、不同地方的关系表达形式映射成需要的目标关系。将已有的知识库存在的关系映射成需要的目标关系，因为不同领域、不同地方对关系的表述形式不一样。比方说***(Wikipedia)的信息盒(Info Box)包含的很多事物属性，但是跟我们需要的目标关系不一样。例如：信息盒中University:established对应的是Org:founded。

2)扩展已有的关系中实体别名(实体的不同表达方式)，通过问题扩展(QueryExpansion)寻找实体别名的各种不同的形式。具体为：

2.1)寻找已有的关系中实体在***上的重定向链接所对应的实体别名；

***的链接源头文(Anchor Text)，链接源头文包含实体各种不同名字的变形，而且在实际的句子中都会出现，对提取实体相关的句子非常有用

2.2)对没有全名的实体别名进行扩展：缩写转换成全名或在没有后缀的实体别名后面加上后缀(例如：有限公司(Ltd)，公司(Corp))；

2.3)对没有缩写的实体别名进行缩减：首字母缩写或将全名进行部分表述。

2.4)对步骤1)～3)进行迭代，直到找到满足目标需求的实体别名；目标需求可根据实际进行确定，即实体名字合适且数量足够多；

2.5)采用实体链接(Entity Linking)和消除歧义(Disambiguation)对实体别名进行过滤处理。

3)从互联网上，可以是新闻、博客、电子邮件信息、政府文件、聊天记录等等，获取大量实体相关的非结构化文本，并建立索引。具体为：

3.1)用已经存在的关系中的实体别名以及实体别名扩展所得到的一个实体别名构建成一个词典；

3.2)用构建出的词典中的词作为关键词，通过爬虫从互联网上爬取关键词对应的实体相关的网页；

3.3)对已经爬取的网页进行文本抽取，并对文本内容进行分句处理，获取得到大量的非结构化的文本，并以文件的形式存放得到的大量文本；

3.4)用Lucene或者Solr等全文检索工具对已经得到的非结构化的文本建立全文索引。

4)通过索引查询与实体别名相关的句子，并分离出正负样本。具体为：

4.1)将已经存在的关系表示成r(e₁,e₂)，其中r是关系名，e₁和e₂分别是关系中对应的两个实体的名字，分别定义为实体1和实体2的名字；

4.2)以实体1的名字e₁作为关键字，用全文检索工具检索实体1相关名字的句子；如果检索得到的句子包含实体2的名称e₂，将该句子标记为正样本；否则，将该句子标记为负样本。

5)基于卷积神经网络，将正负样本转换为特征向量。具体为：

5.1)用word2vec将正负样本中的每个词转换为词向量；

5.2)将转换成词向量的句子通过卷积，将所有样本转换成卷积后的序列；

5.3)用聚合函数(这里是max函数)将句子卷积后得到的卷积序列池化得到最终的特征。

6)利用获取的特征向量，用多实例多标签模型(MIML)，对非结构化文本进行分类，得到新的关系对。具体为：

6.1)定义文档集合为C，从C中抽取的实体描述的集合为E，已知的关系标签的集合为R，所有关系的数据库为D，D至少被C中的句子实例化一次；

6.2)用多实例多标签的模型进行基于距离监督的关系抽取，所述的模型利用硬判别的期望最大化算法(EM,Expectation Maximization)，模型的训练步骤分为两步:

其中，P_i和N_i分别表示第i个实体对的正、负关系标签对应的集合，z_i表示第i个实体对(Entity Tuple)的关系标签，y_i表示是否持有相应的关系(也就是说，如果r∈P_i，则如果r∈N_i,则w_y和w_z分别表示y分类器和z分类器的参数，x_i表示第i个句子，r表示关系对应的标签，m表示第m个描述，z′_i包含第i个实体对对应组从前一次求联合概率中得到的描述标签，i＝1,…,n均进行计算联合概率，n是D中的实体对的个数，M_i是第i个实体对所对应的实体描述集合，对于每个m∈M_i计算以下公式：

实施例

以***82万左右的词条和大量的***的语料来完成KBP2010的关系抽取任务为例，本发明的实施步骤如下：

说明：

***上有一个词条，也就是对应一个实体，它相关的属性，在每个词条的信息盒(Info Box)中，还有这个词条相关的文章，也就是文本内容。***语料库是大量的来自***的新闻文本，其中包含大量的非结构化的信息。

1.将***上的信息盒(Info Box)的信息映射成KBP所对应的属性类型。比方说将University:established的关系映射成Org:founded的目标属性。映射有些维基上的属性在任务中没有，就把这些属性忽略掉，也有一对多的，就相对应的映射；

2.寻找实体在***上的重定向链接所对应的实体别名；

3.***的链接源头文(Anchor Text):链接源头文包含实体各种不同名字的变形，而且在实际的句子中都会出现，对提取实体相关的句子非常有用；

4.扩展名字：缩写字转换成全名，姓转换成全名，在名字后面加上一些后缀(例如：有限公司(Ltd)，公司(Corp))；

5.缩减实体名字：跟扩展名字相反，找到所有可能的缩写：首字母缩写，部分表述等等；

6.第4步和第5步以后，再跳到第1步和第2步，迭代进行，直到找到合适的且足够多的实体名字；

7.将***上词条对应的所有文本单独抽取出来放在一起，把***相关的文章也抽取出来放在一起；

8.用分句工具对得到的文本进行分句子，一个句子一行存在新的文件中；

9.用Lucene或者Solr等全文检索工具对已经分好句的文本建立索引；

10.以维基中每个词条的词条名，以及它的别名作为关键字，用Lucene等全文检索工具查询这个词条在所有文本中相关的句子，将这些句子抽取出来；

11.对抽取出来的句子进行简单的处理，如果抽取出来的句子中包含该词条信息盒(Info Box)中所涉及的属性，那么就把这个句子标记为正样本；否则就把这个句子标记为负样本，以供后续分类器分类使用；

12.用word2vec将样本中的每个词转换为词向量；

13.将转换成词向量的句子通过卷积，将所有样本转换成卷积后的序列；

14.用聚合函数(这里是max函数)将句子卷积后得到的卷积序列池话得到最终的特征；

15.设P_i和N_i分别表示第i个实体对的正、负关系标签对应的集合，z_i表示第i个实体对(Entity Tuple)的关系标签，y_i表示是否持有相应的关系(也就是说，如果r∈P_i那么如果r∈N_i,那么w_y和w_z分别表示y分类器和z分类器的参数，x表示句子，r表示关系对应的标签，m表示第m个描述。z′_i包含第i个实体对对应组从之前的推理中得到的描述标签。通过最大化一下公式所描述的联合概率，得到实体对的新的关系标签：

16.分别最优化y分类器和z分类器的参数，得到新的w_y和w_z，由于两层的分类器优化过程不相关，所以分别独立优化两组参数，按以下公式：

17.重复迭代步骤15和步骤16直到得到最终的模型。

Claims

1.一种基于卷积神经网络和距离监督的关系抽取方法，其特征在于包含如下步骤：

1)将已有的关系映射成目标关系；

2)扩展已有的关系中实体别名，通过问题扩展寻找实体别名的各种不同的形式，具体为：

2.2)对没有全名的实体别名进行扩展：缩写转换成全名或在没有后缀的实体别名后面加上后缀；

2.3)对没有缩写的实体别名进行缩减：首字母缩写或将全名进行部分表述；

2.4)对步骤2.1)～2.3)进行迭代，直到找到满足目标需求的实体别名；

2.5)采用实体链接和消除歧义对实体别名进行过滤处理；

3)从互联网上获取实体相关的非结构化文本，并建立索引；

5)基于卷积神经网络，将正负样本转换为特征向量；

2.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法，其特征在于步骤1)具体如下：将已有的知识库存在的不同领域、不同地方的关系表达形式映射成需要的目标关系。

3.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法，其特征在于所述的步骤3)具体为：

3.3)对已经爬取的网页进行文本抽取，并对文本内容进行分句处理，获取得到非结构化的文本，并以文件的形式存放；

3.4)用全文检索工具对已经得到的非结构化的文本建立全文索引。

4.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法，其特征在于所述的步骤4)具体为：

4.1)将已经存在的关系表示成r(e₁,e₂)，其中r是关系名，e₁和e₂分别是实体1和实体2的名字；

5.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法，其特征在于所述的步骤5)具体为：

5.1)用word2vec将正负样本中的每个词转换为词向量；

5.3)用聚合函数将卷积序列池化得到最终的特征。

6.根据权利要求1所述的一种基于卷积神经网络和距离监督的关系抽取方法，其特征在于所述的步骤6)具体为：

6.2)用多实例多标签的模型进行基于距离监督的关系抽取，所述的模型利用硬判别的期望最大化算法，模型的训练步骤分为两步: