CN111368542A

CN111368542A - 一种基于递归神经网络的文本语言关联抽取方法和***

Info

Publication number: CN111368542A
Application number: CN201811600745.6A
Authority: CN
Inventors: 韩英; 陈薇; 王腾蛟; ***; 刘迪; 黄晓光
Original assignee: Peking University; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd
Current assignee: Peking University; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-07-03

Abstract

本发明公开一种基于递归神经网络的文本语言关联抽取方法和***。该方法基于递归神经网络(双向长短期记忆网络)自动提取复杂的上下文特征，对上下文的语义信息进行编码；通过基于规则的实体表述对抽取器发现文档内的定义模式，识别文档内部关于非标准表述的定义，并抽取定义的从属于同一个实体概念的标准表述与非标准表述；将抽取到的实体表述对的特征进行编码，把关于实体归一化的信息嵌入到低维的实体表述向量；实体表述向量与上下文特征编码向量联结起来并进行维度转换得到最终的编码；基于条件随机场的解码器结合编码器学习到的特征与状态之间的转移概率，解码出全局最优的状态序列作为最终的输出序列。本发明能够有效提升实体识别的性能。

Description

一种基于递归神经网络的文本语言关联抽取方法和***

技术领域

本发明属于人工智能领域，涉及利用自然语言处理技术从海量的非结构化的数据中抽取信息，具体指从文本中识别实体及实体关联关系抽取，它是信息抽取的关键技术。

背景技术

文本实体抽取是从文本中识别出有特定意义的实体，如人名，地名，组织名等。它是从海量的非结构化数据中抽取信息的关键技术，是众多复杂的自然语言处理应用的基石，如智能问答、知识图谱、自动摘要、机器翻译等。

由于自然语言的丰富表达形式，同一个实体可能有多种不同的表述，如实体的全称、简称和别称等。“一义多词”现象在中英文中广泛存在，如中文中的“中国工商银行”与“工行”，英文中的‘United States’与‘U.S.’等。实体多变的表述形式给实体识别带来了巨大的挑战。Khalid M A0等[Khalid M A,Jijkoun V,De Rijke M.The impact of namedentity normalization on information retrieval for question answering[C]//European Conference on Information Retrieval.Springer,Berlin,Heidelberg,2008:705-710.]的研究结果表明通过实体关联归一化确定实体的表述与实体概念间的联系，有助于提升实体识别的效果。

在自然语言处理领域，传统的做法将实体识别和实体关联归一化视为独立的任务各自分开处理。先做实体识别，再将实体识别的结果作为实体关联归一化的输入，这种流水线的方式导致实体归一化的结果无法反馈给实体识别，因此实体识别无法利用实体归一化的有用信息。现有的关于实体识别和实体归一化的联合处理这部分的研究还非常有限。LiuX等人[Liu X,Zhou M,Wei F,et al.Joint inference of named entity recognitionand normalization for tweets[C]//Proceedings of the 50th Annual Meeting ofthe Association for Computational Linguistics:Long Papers-Volume1.Association for Computational Linguistics,2012:526-535.]研究针对tweets的实体识别和实体归一化的联合处理，并提出了一个基于概率图的模型。该模型通过引入一个二元随机变量去刻画内容相似的tweet之间的两个实体表述是否指代同一个实体概念。类似的，Luo G等人[Luo G,Huang X,Lin C Y,et al.Joint entity recognition anddisambiguation[C]//Proceedings of the 2015Conference on Empirical Methods inNatural Language Processing.2015:879-888.]也提出了基于概率图的模型来联合实体识别和实体归一化。这些方法都集中于短文本tweets之间的实体表述的归一化与实体识别的联合处理，基于统计机器学习的概率图模型，依赖大量人工构建的特征。这些特征工程的代价较大，且难以在大规模数据集上拓展，没有很好地发挥海量数据的作用，不是数据驱动型的。而且很多隐藏的上下文特征的高阶交互无法通过人工构建特征的方式覆盖。而且这些方法中的实体归一化模块都依赖于现有的词典，存在“标准的实体表述在词典中已经存在”的不合理假设。而现有的词典覆盖有限，很多语料存在缺乏对应领域的词典的情况。尤其是在信息技术十分发达的今天，新闻媒体的文本中经常会出现一些新实体，如关于新成立的机构、新发行的债券、新发生的事件等的报道，这些新实体并不存在于已有的词典和知识库中，依赖于词典的方法无法对此类新实体的名称归一化。

解决以上这些问题需要一种技术解决方案，能够不依赖人工特征工程，自动学习文本上下文的复杂特征，同时能够有效利用文档内关于非标准实体表述的定义获取实体归一化的信息，综合文本上下文特征的学习与文档内定义的实体表述对的信息实现更好的实体识别。

发明内容

针对上述问题，本发明的目的在于设计并实现一个规则与深度学习相结合的模型用于文本实体及实体关联关系抽取，既能利用深度学习实现上下文特征的自动抽取，免去复杂的特征工程，又能利用规则融入人的知识与经验，发现文档内关于实体表述的定义，并通过文本内的实体关联归一化辅助实体识别，实现更好的实体识别。

为实现上述目的，本发明采用如下技术方案：

一种基于递归神经网络的文本实体及实体关联关系抽取方法，其步骤包括：

(1)通过时间递归神经网络(双向长短期记忆网络)自动抽取复杂的上下文特征，并对上下文特征的信息进行编码；

(2)通过规则发现文档内的定义模式，识别文档内部关于非标准表述的定义，并抽取定义的从属于同一个实体概念的标准表述与非标准表述，作为实体表述特征；

(3)将抽取到的实体表述特征进行编码，把关于实体归一化的信息嵌入到低维的实体表述向量；

(4)将上下文特征与实体表述特征的编码在向量空间进行联结，得到融合实体识别与实体表述归一化信息的最终编码；

(5)将所述最终编码送入条件随机场模型，结合状态之间的转移概率，计算全局全局最优的状态序列，解码并输出文本实体及实体关联关系的最终的结果序列。

一种基于递归神经网络的文本实体及实体关联关系抽取***，其包括：

字/词嵌入模块，用于将原始文本序列的每一个字/词映射成一定维度的向量；

上下文特征编码器，用于字/词嵌入后的文本序列的向量形式的表示，自动提取复杂的上下文特征，并对上下文的语义信息进行编码；

分词模块，用于对原始文本序列进行分词；

实体表述对抽取器，用于基于所述分词模块的分词结果，发现文档内部关于非标准表述的定义，并抽取定义的从属于同一个实体概念的标准表述与非标准表述，作为实体表述特征；

实体归一化信息编码器，用于将所述实体表述对抽取器抽取到的实体表述特征进行编码，把关于实体归一化的信息嵌入到低维的实体表述向量；

实体识别与归一化编码的联合模块，用于将所述上下文特征编码器得到的上下文特征与所述实体归一化信息编码器得到的实体表述特征的编码在向量空间进行联结，得到融合实体识别与实体表述归一化信息的最终编码；

基于条件随机场的解码器，用于结合所述实体识别与归一化编码的联合模块的输出与状态之间的转移概率，计算得到全局最优的状态序列，作为文本实体及实体关联关系的最终的输出序列。

与现有技术相比，本发明的积极效果为：

本发明采用规则与深度学习融合的方式，提出一种基于递归神经网络的文本实体及实体关联关系抽取方法，利用双向长短期记忆网络自动提取文本上下文语义特征，同时将人的经验与知识融入规则用于抽取文档内定义的实体非标准表述，通过实体关联归一化提升实体识别***的性能。本发明既利用了深度学习自动提取特征的优势，免去了时间代价大、人力成本高又难以扩展到大数据集的人工特征工程，实现了真正的数据驱动；同时充分发挥了人的知识与经验，基于规则快速地发现文档内关于实体非标准表述的定义，充分利用了文档内容本身传递的信息抽取出实体表述对；充分利用了实体识别与实体归一化任务的关联性，相较于传统的分开处理的方式，能支持实体识别与实体归一化的同时处理，实现二者的信息共享，利用实体归一化的信息提升实体识别的性能。本发明具有低开销、高表达、多适用的优点。

附图说明

图1是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的模块组成示意图。

图2是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的数据流及网络结构示意图。其中，B-ORG表示机构类实体的开头，I-ORG表示机构类实体的中间，E-ORG表示机构类实体的结尾，O表示非机构类实体。

图3是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的步骤流程图。

具体实施方式

下面通过具体实施例并配合附图，对本发明做详细的说明。

图1是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的组成模块示意图，图2是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取***的数据流及网络结构示意图。结合图1及图2，对图1所示各模块的功能及其实现分别说明如下：

(1)基于时间递归神经网络(双向长短期记忆网络)的上下文特征编码器，由前向的长短期记忆网络(LSTM)与后向的长短期记忆网络组成，负责自动提取复杂的上下文特征，并对上下文的语义信息进行编码。

LSTM在时刻t接收前一时刻的信息时，细胞(LSTM的神经元)首先要决定遗忘掉部分信息，遗忘门控制着遗忘的参数。该门的输入是当前时刻的输入x_t和前一时刻的输出h_t-1，遗忘门的公式如下所示：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中f_t是遗忘门的循环权重，σ是激活函数(sigmoid函数)，W_f是遗忘门的输入权重，b_f是遗忘门的偏置。

在丢弃无用的信息之后，细胞需要决定吸收哪些新输入的信息，输入门的公式如下所示：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其中i_t是输入门的循环权重，σ是激活函数(sigmoid函数)，W_i是输入门的输入权重，b_f是遗输入门的偏置。

当前时刻细胞候选项：

其中

是细胞的候选项，W_c是细胞候选项的输入权重，x_t是当前时刻的输入x_t，h_t-1是前一时刻的输出，b_c是细胞候选项的偏置。

对细胞状态进行更新，得到新的细胞状态，由旧的细胞状态选择性遗忘和候选细胞状态计算得来：

其中C_t是新的细胞状态值，f_t是遗忘门的循环权重，C_t-1是上一时刻的细胞状态值，i_t是输入门的循环权重，

是当前时刻的细胞候选项。

最后由输出门发挥作用，决定当前时刻隐藏层的输出向量h_t，输出门的定义：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

其中，o_t是输入门的权重，σ是激活函数(sigmoid函数)，W_o是输出门的连接权重，b_o是输出门的偏置，x_t是当前时刻的输入x_t，h_t-1是前一时刻的输出。

当前时刻隐藏层的输出是激活后的细胞状态经由输出门向外输出：

h_t＝o_t*tanhC_t

其中，o_t是输入门的权重，C_t是更新后的当前时刻的细胞状态值，h_t是当前时刻的输出。

对给定的一串长度为n个字/词(英文为单词，中文为字符)的文本序列，记为S＝[w₁,w₂,w₃,….w_n]，其中w_i表示序列的第i个字/词经过字/词嵌入后的向量。则时刻n时，前向LSTM网络的隐藏层输出为

后向LSTM网络的隐藏层输出记为

前向LSTM网络的隐藏层输出与后向LSTM网络的隐藏层输出经由合并层而合并在一起得到

上下文特征编码器输出记为H_R。

(2)基于规则的实体表述对抽取器，作用是充分利用人的知识经验，通过基于句法结构和词法结构的规则，发现文档内关于实体非标准表述的定义，并抽取出由定义给出的指代同一个实体概念的表述对，如<全称，简称>，<全称，别称>的名称对。

表1给出了表述对抽取器所使用的规则。其中F代表标准表述，A代表非标准表述如简称、别称等。规定F的字符串长度要长于A的字符串长度。符合句法类条件且符合词法条件的，表述对抽取器从中抽取出实体表述对。

表1.表述对抽取器所使用的规则

(3)实体归一化信息编码器，负责将抽取到的实体表述对的特征进行编码，把关于实体归一化的信息嵌入到低维的实体表述向量。对于实体表述对抽取器抽取的表述对，首先转化为一定长度的向量，再经由线性层进一步学习。

表述向量的每一个元素对应的意义从左至右分别对应表示非标准名称的开头、中间、结尾、独立单字，标准名称的开头、中间和结尾。由于标准名称是实体的多种名称中最长的一个，故不存在独立单字的情况。对给定的一串包含n个字/词(英文为单词，中文为字符)的文本序列，记为S＝[w₁,w₂,w₃,….w_n]，假设表述对抽取器抽得的表述对集合为{<F₁,A₁>,<F₂,A₂>,……<F_k,A_k>},对于每个字w_i有，

其中，g(w_i)表示第w个字/词的表述函数的值。

对满足g(w_i)≠0的w_i,其对应的命名实体归一化的表述向量的每个元素对应的含义M_i定义为：

其中Pos是w_i在名称对中的位置，分别为B(开头)，I(中间)，E(结尾),S(名称仅由一个字组成)。

初始化表述向量记为V,则对每个字/词(中文为字，英文为词)w_i有：

其中1≤i≤n,1≤j≤7,N_j代表表述向量的第j个元素表征的标签。

初始化的表述向量记为V,经过线性层的处理后，实体归一化信息编码器输出的结果是最终的表述向量：

其中，H_N表示最终的表述向量，

表示作用在初始化的表述向量的函数，w_l表示线性层的输入权重，b_l表示线性层的偏置。

(4)上下文特征与实体表述特征的联合模块，负责实现上下文特征与实体表述特征的编码在向量空间的联结，得到融合实体识别与实体表述归一化信息的最终编码。

经过上下文特征编码器得到的隐藏层向量H_R与经过实体归一化信息编码器得到的表述向量H_N拼接成一个包含了高阶特征交互和低阶特征交互的向量H_A：

H_A＝[H_R，H_N]

H_A再经过全连接层的转换，成为最终编码器的输出向量H：

H＝w_f·H_A+b_f

H是一个维度为(n,L)的张量，n是每个样本序列的长度，L是输出标签的种类数。

(5)基于条件随机场的解码器，负责结合编码器学习到的特征与状态之间的转移概率，解码出全局最优的状态序列作为最终的输出序列。

表示序列的第i个字的预测标签为y_i时的状态特征的得分，

代表从标签y_i转移到y_i+1的状态转移特征的得分，y₀代表标记序列的开头，y_n代表标记序列的结尾。标记序列的总得分为状态特征的得分和转移特征的得分之和，定义如下：

对所有可能的标记序列y对应的得分S(X,y)进行Softmax处理，得到序列y的概率：

其中Y_X代表对输入序列X所有可能的标记序列，在解码器的预测阶段，输出的标记序列是获得最大得分的序列。

图3是本发明实施例的基于递归神经网络的文本实体及实体关联关系抽取方法的步骤流程图。对其中各步骤具体说明如下：

步骤1.1准备数据并切分数据集。

准备好标注的数据，切分为训练数据集，开发数据集及测试数据集，训练数据集和开发数据集用于训练阶段，测试数据集用于测试阶段。数据集是文本数据集，每个样本是一篇文章。

步骤1.2建立字符索引表。

对获得的全部语料建立字符索引，为每种字符编号从1开始，附加未知字符的编号。用于后面的词嵌入模块(中文为字符，英文为词)

步骤1.3批量样本输入

对训练数据集的训练按照小批量原则，依据设定的batchsize(批量规模)的大小，按批输入***。

步骤2.1分词

按句子为单位对每个句子进行分词

步骤2.2定义模式匹配

对每个句子检索是否满足句法结构中关于定义模式的条件，如是否有全称(简称)之类的定义存在。如果存在，则可能定义了一个实体表述对。如果没有，那么这个句子中没有实体表述对。

步骤2.3前向后向搜索抽取实体表述对

对发现的定义按照定义标志为分隔符，如‘(’，对分隔符前后的词进行搜索，检查是否有符合实体表述对词法条件的前后词组合，如果存在，抽取出实体表述对。

步骤2.4表述信息嵌入

对抽取到的实体表述信息进行嵌入，将信息转化为低维的实体表述向量，每个维度对应是否是简称或者全称以及其对应字符在实体中的位置。如果不存在实体表述对，则全零初始化。

步骤3词嵌入

对于输入的每个样本的每个字符，进行字/词嵌入(英文为词，中文为字符级别)，依据字符索引表并结合线性层转化为300维度的向量。

步骤4双向LSTM网络

将用词向量表示的输入样本序列送入双向LSTM网络，提取上下文特征信息。

步骤5联结并转换

双向LSTM网络输出的隐藏层向量与实体表述向量拼接，实现向量空间的联结。再经过全连接层转换张量的维度。得到每个字符的发射概率(状态序列生成观察序列的概率)，也就是CRF模型的状态特征。

步骤6CRF建模状态转移概率

CRF建模，考虑状态(标签)之间的依赖关系，以及观察序列到状态序列的发射概率。

步骤7解码全局最优序列

对每个序列算分，通过动态规划算法算出结合了标签转移概率后全局得分最高的序列作为最终的输出序列。如果是预测阶段，那么到步骤7就结束了。如果是训练阶段，则还有步骤8和9。

步骤8计算代价函数

在训练过程中，目标函数是最大化训练集的正确标记序列的对数似然。

代价函数是目标函数的负数。

步骤9自适应的梯度下降算法

利用Adam算法训练模型，并根据训练的速度自适应的调节学习率。如果模型在测试集上的效果在下降，则说明过拟合了，应该立即停止，结束训练，否则继续训练。

尽管前面公开的内容示出了本发明的示例性实施例，但应注意，在不背离权利要求限定的本发明的范围的前提下，可以进行多种改变和修改。根据这里描述的发明实施例的结构，权利要求的组成元件可以用任何功能等效的元件替代。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于递归神经网络的文本语言关联抽取方法，其特征在于，包括以下步骤：

(1)通过时间递归神经网络自动抽取复杂的上下文特征，并对上下文特征的信息进行编码；

2.根据权利要求1所述的方法，其特征在于，步骤(1)所述时间递归神经网络为双向长短期记忆网络。

3.根据权利要求1所述的方法，其特征在于，步骤(2)通过基于句法结构和词法结构的规则抽取指代同一个实体概念的表述对，其中非标准表述包括简称、别称，并规定标准表述的字符串长度长于非标准表述的字符串长度。

4.根据权利要求1所述的方法，其特征在于，步骤(3)将所述实体表述对抽取器抽取的表述对首先转化为一定长度的向量，再经由线性层进一步学习，得到最终的实体表述向量。

5.根据权利要求4所述的方法，其特征在于，所述实体表述向量的每一个元素对应的意义从左至右分别对应表示非标准名称的开头、中间、结尾、独立单字，标准名称的开头、中间和结尾。

6.根据权利要求1所述的方法，其特征在于，步骤(4)将经过上下文特征编码器得到的隐藏层向量H_R与经过实体归一化信息编码器得到的表述向量H_N拼接成一个包含高阶特征交互和低阶特征交互的向量H_A，H_A再经过全连接层的转换，成为最终编码器的输出向量H，H是一个维度为(n,L)的张量，其中n是每个样本序列的长度，L是输出标签的种类数。

7.根据权利要求1所述的方法，其特征在于，步骤(5)包括：

(5.1)计算标记序列的总得分，其为状态特征的得分和转移特征的得分之和，定义如下：

其中，H_i,yi表示序列的第i个字的预测标签为y_i时的状态特征的得分，A_yi,yi+1代表从标签y_i转移到y_i+1的状态转移特征的得分，y₀代表标记序列的开头，y_n代表标记序列的结尾；

(5.2)对所有可能的标记序列y对应的得分S(X,y)进行Softmax处理，得到序列y的概率：

其中，Y_X代表对输入序列X所有可能的标记序列；

(5.3)在解码器的预测阶段，输出的标记序列是获得最大得分的序列：

8.根据权利要求1或7所述的方法，其特征在于，所述基于条件随机场的解码器，在训练过程中的目标函数是最大化训练集的正确标记序列的对数似然，代价函数是目标函数的负数。

9.根据权利要求8所述的方法，其特征在于，采用自适应的梯度下降算法训练所述基于条件随机场的解码器，并根据训练的速度自适应的调节学习率，如果模型在测试集上的效果在下降则结束训练，否则继续训练。

10.一种基于递归神经网络的文本语言关联抽取***，其特征在于，包括：

分词模块，用于对原始文本序列进行分词；