CN107239446A

CN107239446A - 一种基于神经网络与注意力机制的情报关系提取方法

Info

Publication number: CN107239446A
Application number: CN201710392030.5A
Authority: CN
Inventors: 刘兵; 周勇; 张润岩; 王重秋
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-10-10
Anticipated expiration: 2037-05-27
Also published as: CN107239446B; WO2018218707A1

Abstract

本发明公开了一种基于神经网络与注意力机制的情报关系提取方法，涉及结合注意力机制的循环神经网络、自然语言处理、情报分析领域，用以解决现今情报分析***多基于人工构建的知识库，工作量大、泛化能力低的问题。方法具体实现包括训练阶段与应用阶段。在训练阶段，首先构建用户字典、训练词向量，然后从历史情报数据库中构造训练集，进行语料预处理，然后进行神经网络模型训练；在应用阶段，获取情报，进行情报预处理，可自动地完成情报关系抽取任务，同时支持扩充用户词典，以及纠错判断，加入训练集增量式的训练神经网络模型。本发明的情报关系提取方法可寻找情报间的关系，为整合事件脉络、决策研判提供依据，有着广泛的实用价值。

Description

一种基于神经网络与注意力机制的情报关系提取方法

技术领域

本发明涉及结合注意力机制的循环神经网络、自然语言处理、情报分析领域，尤其是一种使用结合注意力机制的双向循环神经网络进行情报关系提取的方法。

背景技术

随着信息时代各项技术的发展，信息数据量呈***式增长。如今，情报信息的获取和存储技术较为成熟，而在情报分析、海量情报数据的关键信息抽取等领域，仍需要许多技术改进。情报数据有着主题性强、时效性高、隐含信息丰富等特点。对同一主题下的情报进行关系分析，按时空、因果等关系整合情报，可完成主题事件的描述、多角度分析等任务，并为最终的决策研判提供依据。因此，寻找情报间的关系并整合出事件脉络有着重要的实际意义。

目前，情报的关系分类多基于标准知识框架或模型范式，即由领域专家提取情报的关键特征、整理情报各关系类别的表述形式、搭建知识库来完成关系分类。专利CN201410487829.9的情报分析***，基于标准知识框架，利用计算机进行知识积累、整合零散信息，综合历史信息完成情报关联关系的甄别，最终提供指挥决策的思维脑图，辅助决策。专利CN201610015796的情报关联处理方法，基于领域知识模型，通过命名体识别和领域字典的方式提取特征词汇，以主题图模型训练特征词的主题关联度，从而建立事件的主题词模板，以此模板完成情报的关联判断。

此外，也有一些研究运用机器学习的神经网络方法进行关系抽取。专利CN201610532802.6、专利CN201610393749.6和专利CN201610685532.2分别使用多层卷积神经网络、结合距离监督的卷积神经网络、结合注意力的卷积神经网络进行关系抽取。

基于上述研究现状，针对情报的关系抽取方法，主要存在以下问题：第一，基于知识框架或模型的情报分析，需要大量且覆盖面广的历史事例，需要富有专业知识的领域专家进行知识库的构建，即工作量大且完成的框架可能泛化能力较弱；第二，基于神经网络的方法多停留在理论方法的研究上，在实际应用中需要一定调整，且现使用较多的卷积神经网络，在整句语境的把握上效果欠佳，不经特殊处理准确率不如双向循环神经网络(Bi-directional RNN)。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种智能的、准确率高、展示效果好的情报关系提取方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于神经网络与注意力机制的情报关系提取方法，包括以下步骤：

步骤1)构建用户字典，神经网络***已有初始的用户字典。

步骤2)训练词向量，从与该领域有关的数据库中提取文本资料，利用步骤1)得到的用户字典训练词向量库，将文本资料中的文本词汇映射成数值化的向量数据；

步骤3)构造训练集，从历史情报数据库中提取情报对，使用步骤2)中得到的词向量库将每对情报转化为情报关系三元组训练数据<情报1,情报2,关系>；

步骤4)语料预处理，先利用步骤1)得到的用户字典对步骤3)得到的训练数据进行语料预处理，即分词和命名体识别；分词和命名体识别使用现有的自动化工具实现，预处理最终结果是将每条情报转化为行为词向量维度、列为语句长度的情报词语矩阵，并标注其中命名***置，情报两两一组；

步骤5)神经网络模型训练，将步骤4)得到的矩阵加入神经网络进行训练，得到关系抽取神经网络模型；其中神经网络的训练方法，包括以下步骤：

步骤5-1)将情报词语矩阵输入双向长短时记忆网络Bi-LSTM单元提取综合语境的信息，分别将正序语句和倒序语句输入两个长短时记忆网络LSTM单元；在计算本时刻时，迭代地考虑上时刻的作用；LSTM单元的隐层计算及特征提取的组合表达式如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

c_t＝i_tg_t+f_tc_t-1

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t·tanh(c_t)

式中：x_t表示t时刻步骤4)中得到的情报词语矩阵，也是神经网络的输入矩阵；

i_t表示t时刻输入门的输出结果；

f_t表示t时刻遗忘门的输出结果；

g_t表示t时刻输入整合的输出结果；

c_t、c_t-1分别表示t时刻和t-1时刻记忆流状态；

o_t表示t时刻输出门的输出结果；

h_t、h_t-1分别表示t时刻和t-1时刻隐层信息，即神经网络提取的特征输出；

σ()表示sigmoid激活函数，tanh()表示双曲正切激活函数；

W_xi、W_hi、W_ci等表示待训练的权值参数，其角标前者表示相乘的输入量，后者表示所属的计算部分；

b_i、b_f等表示待训练的偏置参数，其角标表示所属的计算部分；

这里待训练的参数W_xi、W_hi、W_ci、b_i、b_f都是先随机初始化，然后训练过程中自动修正，最后会随神经网络的训练得到最终的值；

步骤5-2)加权拼接正序语句和倒序语句的两个长短时记忆网络LSTM单元输出作为神经网络的最终输出；

o_final＝W_fwh_fw+W_bwh_bw

式中，h_fw表示处理正序语句的LSTM网络的输出，W_fw表示其对应的待训练的权值；

h_bw表示处理倒序语句的LSTM网络的输出，W_bw表示其对应的待训练的权值；

o_final表示神经网络的最终输出；

这里待训练的权值W_fw、W_bw也是先随机初始化，然后训练过程中自动修正，最后会随神经网络的训练得到最终的值；

步骤5-3)依据命名体对应位置的神经网络输出来计算情报整句话的注意力分配，并按照分配组合神经网络的整句输出，其公式如下：

α＝softmax(tanh(E)·W_a·O_final)

r＝α·O_final

式中，α为注意力分配矩阵，r为情报语句经过针对性整合的输出；E为循环神经网络在命名***置上的输出，使用固定窗口的模式，选取前K重要的命名体拼接成命名体矩阵；O_final为循环神经网络的输出，形如[o₁,o₂,o₃…o_n]，其中o₁,o₂,o₃…o_n为神经网络对应节点的输出，n为情报的词语数量；

W_a为待训练的权值矩阵，softmax()为softmax分类器函数，tanh()为双曲正切激活函数；这里待训练的权值W_a也是先随机初始化，然后训练过程中自动修正，最后会随神经网络的训练得到最终的值；

步骤5-4)对于两条情报的特征信息r，拼接后输入全连接层，最后使用softmax分类器进行关系分类，对得到的预测结果使用梯度下降法训练权值；

步骤6)情报获取，输入两条一组的文字情报，一个批次可以有多组，其中文字情报为一段中心明确的文字，若为新情报，则可以选择扩充步骤1)中得到的用户字典；

步骤7)文本预处理，通过步骤4)中训练好的分词工具、步骤2)得到的词向量库和步骤4)中使用的命名体识别工具，将步骤6)中原始的整句的文字信息转化为情报数值矩阵；其中每行是每个词的向量表示，一个矩阵即表示一条情报，同时标注其中命名体的位置；

步骤8)关系抽取，将步骤7)处理好的两两一组的情报矩阵对输入步骤5)训练好的关系抽取神经网络模型，进行自动化的关系抽取，最终得到每组情报的关系类别；得到每组情报关系类别；

步骤9)增量式更新，判断步骤8)得到的每组情报的关系类别正误，若判断正确，则结合步骤6)中获取的情报和相应的关系类别进行可视化展示，若判断错误，则可以选择将正确判断的情报关系三元组训练数据加入步骤3)中的训练集，重复步骤4)与步骤5)，重新训练修正神经网络模型。

进一步地：步骤1)中可选方案为构建专业领域用户词典，专业领域用户词典指在特定领域的专有名词、且脱离本领域较难识别的词语；其他普遍的词汇可以自动识别；所述专有词汇可从历史情报数据库中选取，若从历史情报数据库中提取的词汇为专有词汇，用户只需将已知的专有词汇加入神经网络***的用户字典即可。

优选的：训练集的构造是从历史情报数据库中提取足量的情报，构建情报关系三元组训练数据，要求5000条以上；具体首先确定关系类别，关系类别包括前因与后果、主题与详述、位置联系、时间联系，按照不同关系，将情报对分成形如<情报1,情报2,关系>的三元组。

优选的：从与领域有关的数据库中提取文本资料，结合网络百科、新闻广播的文本语料，通过Google工具包word2vector训练词向量库，将文本词汇映射成数值化的向量数据，向量数据包含了原语义信息，以此完成自然语言到数值表示的转化。

优选的：中文在语义上以词为单位，对于整句的输入，需要先进行分词处理；在分词过程中，加入专业领域用户词典。

优选的：获取情报步骤中情报应为一小段100词以内的中心明确的文字；关系抽取针对的是二元关系，即处理对象为一对情报，所以长短时记忆网络LSTM单元的输入应为两条一组的文字情报。

优选的：分词和命名体识别使用现有的自动化工具实现，如nlpir和stanford-ner。

优选的：在自动化工具识别分词和命名体时使用专业领域的用户词典。

本发明相比现有技术，具有以下有益效果：

本发明使用双向循环神经网络、结合命名实体对情报中各词的注意力分配，在情报的词向量表示中提取出特征信息，使用softmax分类器对提取的特征信息进一步分类，从而完成情报的关系提取任务。双向循环神经网络在文本数据上有强大的特征提取能力，可克服传统知识库方法中人工特征提取工作量大的问题以及主观性导致的泛化能力弱问题；使用双向长短时记忆网络可以有效地考虑完整语境信息，使用命名实体的注意力权重可依据这些叙事中心词自动分配情报中每个词的重要程度，这使得本发明的关系提取方法较其他神经网络方法有更高的准确率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，其中：

图1是本发明一种基于神经网络与注意力机制的的情报关系提取方法的流程图。

图2是本发明一种基于神经网络与注意力机制的的情报关系提取方法中采用的双向循环神经网络示意图。

图3是本发明一种基于神经网络与注意力机制的的情报关系提取方法中采用的注意力机制示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示为一种基于神经网络与注意力机制的情报关系提取方法，在实现上分为两个阶段：训练阶段、应用阶段。

(一)、训练阶段：

如图1所示，在训练阶段，***需首先构建用户字典(可选)、训练词向量，然后从历史情报数据库中构建训练集，进行语料预处理，最后进行关系抽取神经网络模型的训练。

a、构建用户字典：神经网络***已有初始的用户字典，从历史情报数据库中提取词汇，若从历史情报数据库中提取的词汇为专有词汇，用户只需将已知的专有词汇加入神经网络***的用户字典即可构建专有词汇用户字典。专业领域用户词典指在特定领域的专有名词、且脱离本领域较难识别的词语；其他普遍的词汇可以自动识别；

b、训练词向量：从与领域有关的数据库中提取文本资料，结合网络百科、新闻广播等文本语料，利用步骤(一)a)得到的用户字典通过Google工具包word2vector训练词向量库，将文本词汇映射成数值化的向量数据，向量数据包含了原语义信息，以此完成自然语言到数值表示的转化。

c、构建训练集：从历史情报数据库中提取5000条以上情报对，使用步骤(一)b)中得到的词向量库构建情报关系三元组训练数据。具体需要首先确定关系类别，如前因与后果、主题与详述、位置联系、时间联系，按照不同关系，将情报对分成形如<情报1,情报2,关系>的三元组。

d、语料预处理：先利用步骤a)得到的用户字典对步骤(一)c)得到的三元组训练数据进行语料预处理，即分词和命名体识别，分词和命名体识别使用现有的自动化工具实现，如nlpir和stanford-ner。在此过程中，将使用专业领域的用户词典，最终可达到95％以上的准确率。预处理最终结果是将三元组训练数据中的每条情报转化为行为词向量维度、列为语句长度的情报矩阵，并标注其中命名***置，情报两两一组。

e、神经网络模型训练：步骤(一)d)预处理后的两两一组的情报矩阵均进行下面的神经网络训练处理：将步骤(一)d)预处理后的情报矩阵输入关系抽取神经网络进行训练。首先将情报词语矩阵输入双向长短时记忆网络Bi-LSTM提取综合语境的信息，LSTM网络的公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

c_t＝i_tg_t+f_tc_t-1

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t·tanh(c_t)

式中：x_t表示t时刻(对应第t个词向量输入)步骤4)中得到的矩阵，也是神经网络的输入矩阵；

i_t表示t时刻(对应第t个词向量输入)输入门的输出结果，它决定了记忆流记录本次信息的比重；

f_t表示t时刻(对应第t个词向量输入)遗忘门的输出结果，它决定了记忆流依据本次信息，遗忘记忆数据的比重；

g_t表示t时刻(对应第t个词向量输入)输入整合的输出结果，它整合了本次输入的信息；

c_t、c_t-1分别表示t时刻(对应第t个词向量输入)和t-1时刻(对应第t-1个词向量输入)记忆流状态；

o_t表示t时刻(对应第t个词向量输入)输出门的输出结果，它决定了从记忆流输出数据的比重；

h_t、h_t-1分别表示t时刻(对应第t个词向量输入)和t-1时刻(对应第t-1个词向量输入)隐层信息，即神经网络提取的特征输出；

σ()表示sigmoid激活函数，tanh()表示双曲正切激活函数；

b_i、b_f等表示待训练的偏置参数，其角标表示所属的计算部分。

如图2所示，双向循环神经网络的具体实现即训练两个循环神经网络，输入分别为正序语句和倒序语句，图中w1、w2、w3...即为一串词汇(语句)，分别以正序和逆序输入两个神经网络。之后拼接两者的输出作为神经网络的最终输出，即图中o1、o2、o3...相应公式如下：

o_final＝W_fwh_fw+W_bwh_bw

式中，h_fw表示处理正序语句的神经网络的输出，W_fw表示其对应的待训练的权值；

h_bw表示处理倒序语句的神经网络的输出，W_bw表示其对应的待训练的权值；

o_final表示神经网络的最终输出。

如图3所示，依据命名体对应位置的神经网络输出来计算情报整句话的注意力分配，并按照分配组合神经网络的整句输出，其公式如下：

α＝softmax(tanh(E)·W_a·O_final)

r＝α·O_final

式中，α为注意力分配矩阵，r为情报语句经过针对性整合的输出；E为循环神经网络在命名***置上的输出，使用固定窗口的模式，选取前K重要的命名体拼接成命名体矩阵；

O_final为循环神经网络的输出，形如[o₁,o₂,o₃…o_n]，其中o₁,o₂,o₃…o_n为神经网络对应节点的输出，n为情报的词语数量；

W_a为待训练的权值矩阵，softmax()为softmax分类器函数，tanh()为双曲正切激活函数；

这里待训练的权值W_a也是先随机初始化，然后训练过程中自动修正，最后会随神经网络的训练得到最终的值；

对于两条情报的特征信息r，拼接后输入全连接层，最后使用softmax分类器进行关系分类，对得到的预测结果使用梯度下降法训练权值；

(二)、应用阶段：

如图1所示，本发明的情报关系抽取方法在应用阶段包括情报获取、文本预处理、关系抽取、增量式更新四步：

a、情报获取，情报应为一小段100词以内的中心明确的文字。关系抽取针对的是二元关系，即处理对象为一对情报，所以***的输入应为两条一组的文字情报，一个批次可以有多组。如图1所示，若为新情报，则可以选择扩充步骤(一)a)用户词典以适应新情报中的新词汇。

b、文本预处理，通过步骤(一)d)中训练好的分词工具、步骤(一)b)得到的词向量库和步骤(一)d)中使用的命名体识别工具，将步骤(二)a)中两条一组的原始的整句的文字信息均转化为数值矩阵，其中每行是每个词的向量表示，一个矩阵即表示一条情报，同时标注其中命名体的位置。

c、关系抽取，将步骤(二)b)处理好的两两一组的情报矩阵对输入步骤(一)e)训练好的关系抽取神经网络模型，进行自动化的关系抽取，最终得到每组情报的关系类别。

d、增量式更新，如图1所示，***支持纠正错误判断，判断步骤(二)c)得到的每组情报的关系类别正误，若判断正确，则结合步骤(二)a)中获取的情报和相应的关系类别进行可视化展示，若判断错误，则可以选择将正确判断的情报关系三元组训练数据加入步骤(一)c)中的训练集，重复步骤(一)d)与步骤(一)e)，重新训练修正神经网络模型。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于神经网络与注意力机制的情报关系提取方法，其特征在于，包括以下步骤：

步骤1)构建用户字典，神经网络***已有初始的用户字典。

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

c_t＝i_tg_t+f_tc_t-1

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t·tanh(c_t)

i_t表示t时刻输入门的输出结果；

f_t表示t时刻遗忘门的输出结果；

g_t表示t时刻输入整合的输出结果；

c_t、c_t-1分别表示t时刻和t-1时刻记忆流状态；

o_t表示t时刻输出门的输出结果；

σ()表示sigmoid激活函数，tanh()表示双曲正切激活函数；

o_final＝W_fwh_fw+W_bwh_bw

o_final表示神经网络的最终输出；

α＝softmax(tanh(E)·W_a·O_final)

r＝α·O_final

步骤8)关系抽取，将步骤7)处理好的两两一组的情报矩阵对输入步骤5)训练好的关系抽取神经网络模型，进行自动化的关系抽取，最终得到每组情报的关系类别；

2.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法，其特征在于：

步骤1)中可选方案为构建专业领域用户词典，专业领域用户词典指在特定领域的专有名词、且脱离本领域较难识别的词语；其他普遍的词汇可以自动识别；所述专有词汇可从历史情报数据库中选取，若从历史情报数据库中提取的词汇为专有词汇，用户只需将已知的专有词汇加入神经网络***的用户字典即可。

3.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法，其特征在于：训练集的构造是从历史情报数据库中提取足量的情报，构建情报关系三元组训练数据，要求5000条以上；具体首先确定关系类别，关系类别包括前因与后果、主题与详述、位置联系、时间联系，按照不同关系，将情报对分成形如<情报1,情报2,关系>的三元组。

4.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法，其特征在于：从与领域有关的数据库中提取文本资料，结合网络百科、新闻广播的文本语料，通过Google工具包word2vector训练词向量库，将文本词汇映射成数值化的向量数据，向量数据包含了原语义信息，以此完成自然语言到数值表示的转化。

5.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法，其特征在于：中文在语义上以词为单位，对于整句的输入，需要先进行分词处理；在分词过程中，加入专业领域用户词典。

6.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法，其特征在于：获取情报步骤中情报应为一小段100词以内的中心明确的文字；关系抽取针对的是二元关系，即处理对象为一对情报，所以长短时记忆网络LSTM单元的输入应为两条一组的文字情报。

7.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法，其特征在于：分词和命名体识别使用现有的自动化工具实现，如nlpir和stanford-ner。

8.根据权利要求7所述的一种基于神经网络与注意力机制的情报关系提取方法，其特征在于：在自动化工具识别分词和命名体时使用专业领域的用户词典。