CN111353306B

CN111353306B - 基于实体关系和依存Tree-LSTM的联合事件抽取的方法

Info

Publication number: CN111353306B
Application number: CN202010109601.1A
Authority: CN
Inventors: 张旻; 曹祥彪; 汤景凡; 姜明; 李鹏飞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-02-22
Filing date: 2020-02-22
Publication date: 2020-10-16
Anticipated expiration: 2040-02-22
Also published as: CN111353306A

Abstract

本发明公开了一种基于实体关系和依存Tree‑LSTM的联合事件抽取的方法。本发明步骤：1、对原始文本以及文本标注信息进行编码。2、将步骤1的结果输入双向LSTM。获取具有时序的前向和向后隐含状态向量。3、首先将输入句子解析成依存树形结构，然后将步骤1结果输入构建的依存Tree‑LSTM,获取树根节点隐含状态向量和每个时刻的隐含状态向量。4、获取保存实体关系句子信息特征向量。同时连接双向LSTM t的前向、向后隐含状态向量以及依存Tree‑LSTM t时刻的隐含状态向量

5、进行触发词识别和分类；6、进行事件论元的识别和分类。

Description

基于实体关系和依存Tree-LSTM的联合事件抽取的方法

技术领域

本发明设计事件抽取方法，具体来讲是一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法，属于自然语言处理领域。

背景技术

事件抽取(Event Extraction,EE)是信息抽取任务(Information Extraction,IE)的重要组成。事件抽取主要包括触发词识别和分类(Event Detection,ED)和事件论元识别和分类(Argument Identification,AI)两个子任务，ED任务主要是从文本中找出引发事件的触发词，并正确判断触发词的事件类型。而后者这是在确定句子是事件句(包含触发词)，然后判断句子中出现的实体提及是否为该事件论元。并为每个实体提及分配正确的事件论元角色。随着海量文本信息的出现以及深度学习技术的深度发展，事件抽取也成为人们研究的热点问题。此外，事件抽取技术已应用于新闻消息归类、社会舆情管理等。

发明内容

本发明主要针对于事件触发词和事件论元的依赖路径过长和模型输出特征缺乏实体关系的问题提出的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。

基于实体关系和依存Tree-LSTM的联合事件抽取的方法，按照如下步骤进行：

步骤1、对原始文本以及文本标注信息进行编码；

步骤2、将步骤1的结果输入双向LSTM；获取具有时序的前向隐含状态向量

和后向隐含状态向量

步骤3、首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构，然后将步骤1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量

和t个时刻的隐含状态向量

步骤4、将实体关系向量R^k编码连接树根节点隐含状态向量

获取保存实体关系句子向量

同时连接双向LSTM t时刻的前向隐含状态向量

和后向隐含状态向量

以及依存Tree-LSTM t时刻的隐含状态向量

求得新隐含状态向量

从而既保存子结点的信息也获取具有一定时序的局部下上文信息；

步骤5、连接步骤4中t时刻隐含状态向量H_t与句子向量F，进行触发词识别和分类；

步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量H_t、第i个事件论元候选词(第i个实体提及)隐含状态向量

包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量R^k中的实体关系论元角色

连接，进行事件论元的识别和分类；

进一步的，步骤1具体实现如下：

1-1从源文件中获取未处理原始文本以及文本标注信息，标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色，其中，一共7种实体类型，39种事件触发词类型、20种实体关系类型和16种实体关系论元角色；然后利用Stanford CoreNLP对原始文本进行分句、分词；获取词性和句子的依存树形结构，其中，每个词作为树性结构的一个结点；并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表，其中每一种向量表都有类型“其他”对应的初始化向量；实体提及可能由多个词构成；为了方便表示实体提及，我们用每个实体提及的head(多为实体提及的最后一个单词)表示每个实体提及以及head在句子中出现的下标表示每个实体提及的下标；因此，每个实体提及的下标用符号表示：head₁,head₂,head₃,...,head_k-1,head_k(其中k是实体提及的个数，k有可能为零)；为此，我们用

表示句子中出现的实体提及；随机初始化所有向量表中的每个向量，在训练的时候更新这些向量；

1-2查询预训练的glove词向量矩阵，获取句子中每个词的词向量w_i,然后查询词性向量表得到词性向量w_pos和查询实体类型向量表得到实体类型向量w_e；

获取每个词表示x_i＝{w_i,w_pos,w_e}，因此句子向量矩阵表示为W＝{x₁,x₂,...,x_n-1,x_n},其中n是句子的长度；

进一步的，步骤2具体实现如下：

将句子的向量矩阵W＝{x₁,x₂,...,x_n-1,x_n}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵

和后向隐含状态矩阵

其中

和

分别表示t时刻的前向隐含状态向量和后向隐含状态，t∈[1,n]，双向LSTM是一种时间序列敏感的模型，因此，

和

分别保存具有一定时序信息的上文和下文信息；

进一步的，步骤3具体实现如下：

通过Stanford CoreNLP工具将每个句子解析成树形结构，句中每个单词构成树形结构的结点，与该单词有依存关系的则以该结点的父节点或者子结点出现；将W＝{x₁,x₂,...,x_n-1,x_n}输入到该树形结构为基础构建的依存Tree-LSTM，获取该句子解析成的树形结构中的每个结点的隐含状态向量

和根节点的隐含状态向量

因此句子的依存Tree-LSTM输出的句子的隐含状态矩阵

其中t,root∈[1,n],n是句子的长度；

进一步的，步骤4具体实现如下：

4-1.通过查询步骤1随机初始化的实体关系表，获取句子中的实体关系向量R^k,表示第k种实体关系；如果不存在实体关系，R^k指向“其他”的实体关系向量，并在训练过程中调整向量；

4-2依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到；所以语义依存树结构中的根节点包含全句信息，为了使句子中包含实体关系信息的句子级别的向量，将步骤4生成的根节点隐含向量

和实体关系向量R^k连接，获取包含实体关系信息的句子向量

4-3将步骤2和步骤3每个时刻的隐含向量组合，同时为降低隐含向量的维度，采用求平均的方式获取t时刻的隐含状态向量：

而整个句子的隐含状态矩阵为H＝{H₁,H₂,···,H_n-1,H_n}，其中t∈[1,n]，n是句子的长度；

进一步的，步骤5具体实现如下：

5-1规定只有动词和名词作为触发词候选词，一共有39种子类型，其中包括“其他”类型；对句子中的每个词进行词性判断，如果词性为动词或名词，将当前t时刻的隐含状态向量H_t表示与句子向量F连接，输入触发词多分类公式中：

其中，W_T和b_T分别是触发词多分类的权重矩阵和偏置项；

表示第t个词(每个词为一个时刻)的触发词候选词触发事件类型的概率，

表示第t个时刻触发的事件类型；

进一步的，步骤6具体实现如下：

6-1实体关系论元角色一共有20种，创建随机初始化的实体关系论元角色向量表，通过实体关系论元角色查找该向量表，并在训练的过程中调整向量；用

表示第i个实体提及在实体关系向量R^k中扮演第j种实体关系论元角色；

6-2将句子中实体提及作为事件论元候选词；依次将第i个事件论元候选词(第i个实体提及)隐含状态向量

在步骤5-1被识别为触发词的第t个词的隐含状态向量H_t、包含实体关系的句子向量F以及第i个事件论元候选词在实体关系R^k中的实体关系论元角色

连接；将连接向量输入事件论元识别多分类公式：

其中，W_A和b_A分别是事件论元分类的权重矩阵和偏置项，

表示第i个事件论元候选词在事件类型

扮演的事件论元角色的概率值；

表示第i个事件论元候选词在事件类型

扮演的事件论元角色；

本发明有益效果如下：

针对现有技术的不足，提出一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。利用依存Tree-LSTM和双向LSTM获取每个时刻的隐含状态向量，将实体关系向量和实体关系论元角色向量分别和这些隐含状态向量结合，对触发词候选词和论元候选词进行多分类。该模型不仅可以减少错误的触发词类型对论元识别的影响，也可以充分利用实体关系、实体关系论元角色信息，从而提高事件抽取模型的准确性。

附图说明

图1是本发明的整体实施流程图。

图2是本发明触发词识别和分类以及事件论元识别和分类的具体流程图。

图3是本发明模型网络结构图。

具体实施方式

附图非限制性地公开了本发明所涉及优选实例的流程示意图；以下将结合附图详细地说明本发明的技术方案。

事件抽取是信息抽取研究的重要组成部分，是新闻热点抽取和社会舆情分析的常用技术基础。事件抽取就是从大量文本中找出事件提及，由事件触发词和事件论元组成。因此事件抽取主要包含触发词识别和事件论元角色分类两个任务。有些研究把上述任务分成两个阶段，第一阶段首先获取触发词的事件类型，然后再根据触发词的类别，去判断句子中事件论元候选词的角色。这种方法的不足就是第一阶段触发词的错误分类影响事件论元角色分类的效果，因此，触发词识别和事件论元分类的联合学习模型被提出。但上述模型并没有充分利用实体关系以及实体提及在实体关系论元角色。因此我们提出了基于实体关系和依存Tree-LSTM的联合事件抽取的方法。

如图1-3所示，一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法，按照如下步骤进行：

步骤1对原始文本以及文本标注信息进行编码。

步骤2将步骤1的结果输入双向LSTM。获取具有时序的前向隐含状态向量

和后向隐含状态向量

步骤3首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构，然后将步骤1的结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量

和每个时刻的隐含状态向量

步骤4将实体关系R^k编码连接

获取保存实体关系句子信息特征向量

同时，连接双向LSTM t的前向隐含状态向量

和后向隐含状态向量

以及依存Tree-LSTM t时刻的隐含状态向量

使

既可以保存子结点的信息也可以获取具有一定时序的局部下上文信息。

连接，进行事件论元的识别和分类。

进一步的，步骤1具体实现如下：

从源文件中获取未处理原始文本和以及标注信息，标注信息包含实体词、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色，其中，一共7种实体类型，39种事件触发词类型、20种实体关系类型和16种实体关系论元角色。然后利用Stanford CoreNLP对原始文本进行分句、分词。获取词性和句子的依存树形结构，其中，每个词作为树性结构的一个结点。并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表，其中每一种向量表都有“其他”对应的初始化向量。随机初始化这些向量，在训练的时候更新这些向量。

查询预训练的glove词向量矩阵，获取句子中每个词的词向量w_i,然后查询词性向量表得到w_pos和查询实体类型得到w_e。

将获取到的每个词表示x_i＝{w_i,w_pos,w_e}，因此句子向量矩阵表示为W＝{x₁,x₂,...,x_n-1,x_n},其中n是句子的长度。

和后向隐含状态矩阵

其中

和

和

分别保存具有一定时序信息的上文和下文信息。

Stanford CoreNLP工具将每个句子解析成树形结构，句中每个单词构成树形结构的结点，其中，与该单词有依存关系以该结点的父节点或者子结点出现。将W＝{x₁,x₂,...,x_n-1,x_n}输入到该树形结构为基础构建的依存Tree-LSTM，获取该句子解析成的树结构中的每个结点的隐含状态向量

和根节点的隐含状态向量

因此句子的依存Tree-LSTM输出句子的隐含状态矩阵

其中t,root∈[1,n],n是句子的长度。

在事件抽取中，有些触发词在识别时会出现歧义，例如：Elop plan to leaveNokia。大部分事件抽取模型(EE)更容易将leave识别为事件类型transport，但是如果利用句子中实体Elop和实体Nokia中存在membership的关系，EE就较容易识别出句子中leave触发的End-Position事件。因此，通过查询步骤(1)随机初始化的实体关系表，获取句子中的实体关系向量R^k(表示第k种实体关系),如果不存在实体关系，R^k指向“其他”的实体关系向量，并在训练过程中调整向量。

依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到。所以，语义依存树结构中的根节点包含全句信息，为了使句子中包含实体关系信息的句子级别的向量，将步骤4生成的根节点隐含向量

和实体关系向量R^k连接，获取包含实体关系信息的句子向量

依存Tree-LSTM是一种非时间序列敏感的模型，那么每个时刻输出的隐含状态向量也缺少一定的时间序列信息，因此，将步骤2和步骤3每个时刻的隐含向量组合，但为了降低隐含向量的维度，采用求平均的方式获取t时刻的隐含状态向量：

而整个句子的隐含状态矩阵为H＝{H₁,H₂,…,H_n-1,H_n}，其中t∈[1,n]，n是句子的长度。

规定只有动词和名词作为触发词候选词，一共有39种子类型，其中包括“其他”类型。首先对句子中的每个词进行词性判断，如果词性为动词或名词，将当前t时刻的隐含状态向量H_t表示与句子向量F连接，输入触发词多分类公式中：

其中，

表示第t个词的触发词候选词触发事件类型的概率，

表示第t词触发的事件类型。

对于判断句子中事件论元候选词(实体提及)在事件类型中扮演的事件论元角色，希望利用该实体提及在实体关系中扮演的实体关系论元角色。如同4-1提到的例句，如果模型获知Elop和Nokia两个实体提及分别在实体关系membership中扮演employeemember和org。模型会更容易为事件类型transport中的两个事件论元Elop和Nokia分配事件论元角色Person和Entity。实体关系论元角色一共有20种，创建随机初始化的实体关系论元角色向量表，通过实体关系论元角色查找该表，并在训练的过程中调整向量。用

表示i时刻的实体提及在实体关系R^k中扮演第j种实体关系论元角色。

将句子中实体提及作为事件论元候选词。依次将第i个事件论元候选词隐含状态向量H_i、在5-1被识别为触发词的第t个词的隐含状态向量连接H_t，包含实体关系的句子向量F以及第i个事件论元候选词在关系关系R^k中的实体关系论元角色

连接。将连接向量输入事件论元识别多分类公式：

其中，

表示第i个事件论元候选词在事件类型

扮演的事件论元角色的概率值。

表示第i个事件论元候选词在事件类型

扮演的事件论元角色。

Claims

1.基于实体关系和依存Tree-LSTM的联合事件抽取的方法，其特征在于包括如下步骤：

步骤1、对原始文本以及文本标注信息进行编码；

和后向隐含状态向量

和t个时刻的隐含状态向量

步骤4、将实体关系向量R^k编码连接树根节点隐含状态向量

获取保存实体关系句子向量

同时连接双向LSTM t时刻的前向隐含状态向量

和后向隐含状态向量

以及依存Tree-LSTM t时刻的隐含状态向量

求得新隐含状态向量

步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量H_t、第i个事件论元候选词即第i个实体提及隐含状态向量

连接，进行事件论元的识别和分类。

2.根据权利要求1所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤1具体实现如下：

1-1.从源文件中获取未处理原始文本以及文本标注信息，标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色，其中，一共7种实体类型，39种事件触发词类型、20种实体关系类型和16种实体关系论元角色；然后利用Stanford CoreNLP对原始文本进行分句、分词；获取词性和句子的依存树形结构，其中，每个词作为树性结构的一个结点；并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表，其中每一种向量表都有类型“其他”对应的初始化向量；

1-2.查询预训练的glove词向量矩阵，获取句子中每个词的词向量w_i,然后查询词性向量表得到词性向量w_pos和查询实体类型向量表得到实体类型向量w_e；

获取每个词表示x_i＝{w_i,w_pos,w_e}，因此句子向量矩阵表示为W＝{x₁,x₂,...,x_n-1,x_n},其中n是句子的长度。

3.根据权利要求1或2所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤2具体实现如下：