CN110245292A

CN110245292A - 一种基于神经网络过滤噪声特征的自然语言关系抽取方法

Info

Publication number: CN110245292A
Application number: CN201910449634.8A
Authority: CN
Inventors: 杨燕; 战蕾; 陈成才; 贺樑; 陈培华; 李雨承
Original assignee: East China Normal University; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: East China Normal University; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-17
Anticipated expiration: 2039-05-28
Also published as: CN110245292B

Abstract

本发明公开了一种基于神经网络过滤噪声特征的自然语言关系抽取方法，该方法采用句子的向量信息注入到卷积神经网络中进行特征值提取，对得到的特征进行过滤筛选，对筛选结束的优秀的特征矩阵进行关系抽取建模，能够进行更准确的实体间的关系预测。本发明与现有技术相比在于利用神经网络挖掘句子及句子中实体间关系的特征值的基础上，增加特征过滤结构，将卷积神经网络提取的特征值进行进一步筛选，从而进行更准确的关系抽取，能够更加全面有效地对句子中实体间关系进行预测，方法简便、高效，成本低廉，并且能够在不同数据领域之间进行迁移，具有广泛的实用意义，能够为知识图谱***、关系预测***等应用提供有效的解决方案。

Description

一种基于神经网络过滤噪声特征的自然语言关系抽取方法

技术领域

本发明涉及自然语言处理中关系抽取领域，具体地说是利用神经网络挖掘出句子以及句子中实体的内在联系的表示信息，利用这些信息对两个实体的关系进行预测。

背景技术

现如今，随着网络信息资源的日渐丰富、计算机速度的大幅度提高，主要以文字、图像等形式为依托的信息化时代强势到来。信息化时代的标志是信息爆发价值，如今信息化成为了时代发展的主流趋势，是前沿生产力的主要标志。随着信息时代的高速发展，信息数据呈现规模巨大、模态多样和高速增长等特征。在网络搜索过程中，当用户输入要查询的信息时，希望计算机能够从语义层面理解用户真实想要获取的信息，而不只是关键字的提取和搜索，这就迫切要求能快速、准确地获取用户真正所需信息的技术手段——信息抽取技术的进一步发展，以满足用户搜索的需求。比如说，当用户输入“英国伦敦”时，希望得到的是关于英国伦敦这座城市的多方面相关信息，如政治、经济、文化、地理位置、旅游景点、教育机制等，而不仅仅是简单的关于伦敦的关键字的句子提取。近年来，自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图，通俗来讲，就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的，为搜索提供了新思路:直接返回问题的答案，而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。

信息抽取的研究内容主要包括三个方面：实体抽取、实体关系抽取、事件抽取。实体关系抽取是核心任务，其问题定义为“输入一段文本，抽取出每句话中的实体及其之间的语义关系”。目前的研究主要是指从一句话中抽取出两个实体及语义关系，通常用三元组(实体1，关系，实体2)表示。例如，从句子“北京市中国的首都。”中抽取出实体1“北京市”与实体2”中国”并发现两者之间的语义关系，用三元组表示即为(中国，首都，北京)。

在商业需求的推动下，实体关系抽取方法从上世纪九十年代基于知识工程的方法发展到近十年基于统计的机器学习方法。随着在线文本数量的增加和硬件计算能力的提高，基于统计的机器学习方法应用广泛，主要分为有监督、半监督和无监督三大类方法。由于有监督的方法准确率和召回率较高，国内外学者大多采用有监督的方法有监督机器学习方法将实体关系抽取视为一个分类任务，将句子中出现的实体关系划分到预先定义好的类别中。近年来，深度学习框架的神经网络模型成为实体关系抽取的新方法，深度学习是一种特殊的有监督机器学习方法，是机器学习的一个分支，不同之处在于神经网络模型自动学习句子特征，无需复杂的特征工程同时能够取得更好的效果，所以受到广泛的应用。

现有技术的关系抽取通常依赖于逻辑规则和手工构建的特征，这些特征耗费劳动力且难以泛化。而基于神经网络的模型也只是端到端训练，利用神经网络对输入的句子及实体进行特征值提取后，并没有进行筛选，而是将这些包含着噪声的特征值矩阵进行模型训练，这就导致模型学习了部分错误数据产生的特征值，从而影响到最后对两个实体的关系进行预测的效果。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于神经网络过滤噪声特征的自然语言关系抽取方法，采用基于神经网络的方法，在模型训练过程中进行自学习，过滤噪声数据带来的噪声特征值，利用这种过滤了错误信息的句子及实体的特征表示，能够进行更准确的实体间的关系预测，具有广泛的实用意义，为现有的知识图谱***、关系预测***等应用提供有效的解决方案。

本发明的目的是这样实现的：

一种基于神经网络过滤噪声特征的自然语言关系抽取方法，该方法包括：

步骤1：句子及实体的向量表示

对每个句子及其包含的一对实体，采用神经网络构建所述一对实体的句子向量表示，定义长度为n的句子的向量表示为：

其中，是连接操作并且v代表句子的向量表示，d为向量的维度；

步骤2：句子及实体的特征提取

使用卷积神经网络对句子及实体特征值提取；

c_i＝f(w·x_i∶i+h-1+b)

其中，是一个偏置量，f是一个非线性函数，w为参数矩阵，h为滑动窗口大小；

步骤3：对得到的特征进行过滤筛选

将这种基于句子与实体的特征进行过滤筛选，筛选相关公式如下：

s＝softsign(g(z，W))＝softsign(W₂δ(W₁z))，

其中，δ指的是Relu激活函数，W为对应的参数矩阵；

其中，F_screening(0,s)指的是标量s和特征u之间的函数；

步骤4：实体关系预测。

将筛选出的特征输入到全连接神经网络(Fully connected network)中，并且使用softmax函数计算所述句子中所有存在可能关系的概率分布,取概率最大的关系作为最终预测结果；具体如下：

original:y＝w.z+b

其中，是逐元素相乘的操作，r是符合伯努利分布(Bernoulli random)遮蔽向量，并且

本发明采用句子的向量信息注入到卷积神经网络中进行特征值提取，对得到的特征进行过滤筛选，对筛选后优秀的特征矩阵进行关系抽取，其包括：句子及实体的向量表示、卷积神经网络对句子及实体特征值提取，将这种基于句子与实体的特征值进行过滤筛选，并且利用筛选出的特征值对两个实体在句子中的关系进行预测。

本发明与现有技术相比在利用神经网络挖掘句子及句子中实体间关系的特征值的基础上，增加特征过滤结构，将卷积神经网络提取的特征值进行进一步筛选，从而进行更准确的关系抽取，能够更加全面有效地对句子中实体间关系进行预测，方法简便、高效，成本低廉，并且能够在不同数据领域之间进行迁移，具有广泛的实用意义，能够为知识图谱***、关系预测***等应用提供有效的解决方案。

附图说明

图1为本发明流程示意图；

图2为本发明特征过滤流程示意图。

具体实施方式

以下结合附图及实施例，对本发明作进一步的详细说明。

实施例1

参阅附图1，本发明按下述步骤进行多角度特征融合的关系抽取：

(一)、句子及实体的向量表示

设x_i为句子中的第i个单词。每个单词将访问两个向量查找表以获得每个单词的向量表示WF_i和每个实体的相对位置的向量表示PF_i。然后连接两个向量并将每个单词表示为v_i＝[WF_i；PF_i]。

在本发明中，使用skip-gram模型来训练词向量。对应于x_i的每个表示v_i是实值向量。所有的词向量都被编码成一个词向量矩阵其中V是固定大小的词表。

在关系分类中，专注于寻找实体对的关系。向量PF表示的是当前单词与第一实体e₁和第二实体e₂的相对距离的组合。例如，在句子中“Steve Jobs is the founder ofApple.”，founder与e₁(Steve Job)和e₂(Apple)的相对距离分别为3和2。然后，通过查找一个随机初始化的位置向量矩阵将这种相对距离转换成实值的向量表示，其中P是固定大小的相对距离集合。应该注意的是，如果一个单词离实体太远，它可能与该关系无关，因此，为相对距离选择最大值e_max和最小值e_min。

有两个位置向量：一个用于e₁，另一个用于e₂。最后，连接所有单词的词向量和所有单词的位置向量，并将其表示为长度为n的句子(必要时填充)的向量表示：

其中，是连接操作并且

(二)、句子及实体的特征提取

在得到了一个句子的向量表示之后，使用了一个简单的神经网络来对它的上下文表示进行提取。下面是具体的细节：

假设用v_(i:i+1)来代表单词v_i，v_i+1,，…，v_(i+j)的连接表示。在之后，使用一个卷积神经网络，每一次卷积操作过程就是维度为的卷积核被应用于长度为h的单词窗口进行计算，生成新特征的过程。每个特征c_i计算如下：

c_i＝f(w·x_i：i+h-1+b)

其中，是一个偏置量，f是一个非线性函数，w为参数矩阵，h为滑动窗口大小。

(三)、噪声特征值过滤

在本发明中，对于关系抽取中存在噪声影响的问题，提出了一种创新的结构。它使用“特征筛选”策略来处理筛选特征而不引入新的空间维度的参数。在本节中，将分三部分介绍这种结构：聚合操作，筛选操作和屏蔽操作。

聚合操作：首先，为了解决特征不同重要性的问题，尝试将全局特征信息进行聚合到一层描述当中。这里是通过使用全局平均池(Avgpooling)来实现的，生成聚合统计信息。正式定义，池化后的聚合信息计算公式如下：

其中H×W为转换后向量的维度。

筛选操作：接下来，在充分利用到第一步中得到了聚合信息，同时希望捕获到全局的特征依赖分布。为了实现这一目标，必须符合下面两个要求：第一，它必须是足够灵活，能够适合各种特征分布；第二，要求必须学习到一种非互斥的特征关系，因为希望确保允许强调足够多种的类型特征，而不是一种互斥特征的学习。为了满足这些标准，选用了一个新型的激活函数softsign作为一种门控机制，即：

s＝softsign(g(z，W))＝softsign(W₂δ(W₁z))，

其中δ指的是Relu激活函数。为了限制模型的复杂程度，又要引入非线性计算矩阵，使用了两个全连接层(FullyConnectionlayer)来对聚合的全局统计信息进行计算，来参数化门控机制。

屏蔽操作：筛选模块的最终输出是通过屏蔽转换(Maskoperation)输出获得的。对于数据中的噪声问题，利用softsign激活(将特征的权重范围映射到-1和1之间的能力)来滤除由噪声数据引起的负面特征。

其中，F_screening(u,s)指的是标量s和特征u之间的函数。

(四)、特征池化及实体关系预测

在本发明中，在最后的输出预测层使用了一个最大池化(max-pooling)操作和一个平均池化(averagepooling)操作来获取最突出的特征值即：

在之前已经描述了一个卷积核如何获取一个特征的过程，接下来将所有的特征进行拼接，得到一个高层的特征集合l，即：

其中，m为卷积核的个数。

最后将这些特征传递给全连接神经网络(Fully connected network)之后跟softmax层，其输出便是所有可能关系的概率分布，取其最大的最为最后预测关系的输出。其中，在前向传播的过程中，使用dropout来代替普通向前传播的计算方式，具体如下：

original:y＝w.z+b

其中，是逐元素相乘的操作，r是符合伯努利分布(Bernoulli random)遮蔽向量，并且这种随机屏蔽掉部分神经单元的方式与正则化技术完全不同，与L1和L2范式正则化不同的是dropout并不会修改代价函数而是修改深度网络本身，从而使得整个模型的泛化能力有所提高。

以上只是对本发明作进一步的说明，并非用以限制本发明，凡为本发明等效实施，均应包含于本发明的权利要求范围之内。

Claims

1.一种基于神经网络过滤噪声特征的自然语言关系抽取方法，其特征在于，该方法包括：

步骤1：句子及实体的向量表示

步骤2：句子及实体的特征提取

使用卷积神经网络对句子及实体特征值提取；

c_i＝f(w·x_i：i+h-1+b)

步骤3：对得到的特征进行过滤筛选

将这种基于句子与实体的特征进行过滤筛选，筛选公式如下：

s＝softsign(g(z，W))＝softsign(W₂δ(W₁z))，

其中，δ指的是Relu激活函数，W为对应的参数矩阵；

其中，F_screening(u，s)指的是标量s和特征u之间的函数；

步骤4：实体关系预测。

将筛选出的特征输入到全连接神经网络(Fully connected network)中，并且使用softmax函数计算所述句子中所有存在可能关系的概率分布，取概率最大的关系作为最终预测结果；具体如下：

original：y＝w·z+b