CN111353306B - 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 - Google Patents

基于实体关系和依存Tree-LSTM的联合事件抽取的方法 Download PDF

Info

Publication number
CN111353306B
CN111353306B CN202010109601.1A CN202010109601A CN111353306B CN 111353306 B CN111353306 B CN 111353306B CN 202010109601 A CN202010109601 A CN 202010109601A CN 111353306 B CN111353306 B CN 111353306B
Authority
CN
China
Prior art keywords
vector
sentence
entity
event
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010109601.1A
Other languages
English (en)
Other versions
CN111353306A (zh
Inventor
张旻
曹祥彪
汤景凡
姜明
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010109601.1A priority Critical patent/CN111353306B/zh
Publication of CN111353306A publication Critical patent/CN111353306A/zh
Application granted granted Critical
Publication of CN111353306B publication Critical patent/CN111353306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于实体关系和依存Tree‑LSTM的联合事件抽取的方法。本发明步骤:1、对原始文本以及文本标注信息进行编码。2、将步骤1的结果输入双向LSTM。获取具有时序的前向和向后隐含状态向量。3、首先将输入句子解析成依存树形结构,然后将步骤1结果输入构建的依存Tree‑LSTM,获取树根节点隐含状态向量和每个时刻的隐含状态向量。4、获取保存实体关系句子信息特征向量。同时连接双向LSTM t的前向、向后隐含状态向量以及依存Tree‑LSTM t时刻的隐含状态向量
Figure DDA0002389509340000011
5、进行触发词识别和分类;6、进行事件论元的识别和分类。

Description

基于实体关系和依存Tree-LSTM的联合事件抽取的方法
技术领域
本发明设计事件抽取方法,具体来讲是一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法,属于自然语言处理领域。
背景技术
事件抽取(Event Extraction,EE)是信息抽取任务(Information Extraction,IE)的重要组成。事件抽取主要包括触发词识别和分类(Event Detection,ED)和事件论元识别和分类(Argument Identification,AI)两个子任务,ED任务主要是从文本中找出引发事件的触发词,并正确判断触发词的事件类型。而后者这是在确定句子是事件句(包含触发词),然后判断句子中出现的实体提及是否为该事件论元。并为每个实体提及分配正确的事件论元角色。随着海量文本信息的出现以及深度学习技术的深度发展,事件抽取也成为人们研究的热点问题。此外,事件抽取技术已应用于新闻消息归类、社会舆情管理等。
发明内容
本发明主要针对于事件触发词和事件论元的依赖路径过长和模型输出特征缺乏实体关系的问题提出的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。
基于实体关系和依存Tree-LSTM的联合事件抽取的方法,按照如下步骤进行:
步骤1、对原始文本以及文本标注信息进行编码;
步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量
Figure BDA0002389509320000011
和后向隐含状态向量
Figure BDA0002389509320000012
步骤3、首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量
Figure BDA0002389509320000013
和t个时刻的隐含状态向量
Figure BDA0002389509320000014
步骤4、将实体关系向量Rk编码连接树根节点隐含状态向量
Figure BDA0002389509320000021
获取保存实体关系句子向量
Figure BDA0002389509320000022
同时连接双向LSTM t时刻的前向隐含状态向量
Figure BDA0002389509320000023
和后向隐含状态向量
Figure BDA0002389509320000024
以及依存Tree-LSTM t时刻的隐含状态向量
Figure BDA0002389509320000025
求得新隐含状态向量
Figure BDA0002389509320000026
从而既保存子结点的信息也获取具有一定时序的局部下上文信息;
步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词(第i个实体提及)隐含状态向量
Figure BDA0002389509320000029
包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色
Figure BDA0002389509320000027
连接,进行事件论元的识别和分类;
进一步的,步骤1具体实现如下:
1-1从源文件中获取未处理原始文本以及文本标注信息,标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色;然后利用Stanford CoreNLP对原始文本进行分句、分词;获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点;并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有类型“其他”对应的初始化向量;实体提及可能由多个词构成;为了方便表示实体提及,我们用每个实体提及的head(多为实体提及的最后一个单词)表示每个实体提及以及head在句子中出现的下标表示每个实体提及的下标;因此,每个实体提及的下标用符号表示:head1,head2,head3,...,headk-1,headk(其中k是实体提及的个数,k有可能为零);为此,我们用
Figure BDA0002389509320000028
表示句子中出现的实体提及;随机初始化所有向量表中的每个向量,在训练的时候更新这些向量;
1-2查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量we
获取每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度;
进一步的,步骤2具体实现如下:
将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵
Figure BDA0002389509320000031
和后向隐含状态矩阵
Figure BDA0002389509320000032
其中
Figure BDA0002389509320000033
Figure BDA0002389509320000034
分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此,
Figure BDA0002389509320000035
Figure BDA0002389509320000036
分别保存具有一定时序信息的上文和下文信息;
进一步的,步骤3具体实现如下:
通过Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,与该单词有依存关系的则以该结点的父节点或者子结点出现;将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树形结构中的每个结点的隐含状态向量
Figure BDA0002389509320000037
和根节点的隐含状态向量
Figure BDA0002389509320000038
因此句子的依存Tree-LSTM输出的句子的隐含状态矩阵
Figure BDA0002389509320000039
其中t,root∈[1,n],n是句子的长度;
进一步的,步骤4具体实现如下:
4-1.通过查询步骤1随机初始化的实体关系表,获取句子中的实体关系向量Rk,表示第k种实体关系;如果不存在实体关系,Rk指向“其他”的实体关系向量,并在训练过程中调整向量;
4-2依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到;所以语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量
Figure BDA0002389509320000041
和实体关系向量Rk连接,获取包含实体关系信息的句子向量
Figure BDA0002389509320000042
4-3将步骤2和步骤3每个时刻的隐含向量组合,同时为降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量:
Figure BDA0002389509320000043
而整个句子的隐含状态矩阵为H={H1,H2,···,Hn-1,Hn},其中t∈[1,n],n是句子的长度;
进一步的,步骤5具体实现如下:
5-1规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型;对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:
Figure BDA0002389509320000044
Figure BDA0002389509320000045
其中,WT和bT分别是触发词多分类的权重矩阵和偏置项;
Figure BDA0002389509320000046
表示第t个词(每个词为一个时刻)的触发词候选词触发事件类型的概率,
Figure BDA0002389509320000047
表示第t个时刻触发的事件类型;
进一步的,步骤6具体实现如下:
6-1实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该向量表,并在训练的过程中调整向量;用
Figure BDA0002389509320000048
表示第i个实体提及在实体关系向量Rk中扮演第j种实体关系论元角色;
6-2将句子中实体提及作为事件论元候选词;依次将第i个事件论元候选词(第i个实体提及)隐含状态向量
Figure BDA0002389509320000049
在步骤5-1被识别为触发词的第t个词的隐含状态向量Ht、包含实体关系的句子向量F以及第i个事件论元候选词在实体关系Rk中的实体关系论元角色
Figure BDA00023895093200000410
连接;将连接向量输入事件论元识别多分类公式:
Figure BDA0002389509320000051
Figure BDA0002389509320000052
其中,WA和bA分别是事件论元分类的权重矩阵和偏置项,
Figure BDA0002389509320000053
表示第i个事件论元候选词在事件类型
Figure BDA0002389509320000054
扮演的事件论元角色的概率值;
Figure BDA0002389509320000055
表示第i个事件论元候选词在事件类型
Figure BDA0002389509320000056
扮演的事件论元角色;
本发明有益效果如下:
针对现有技术的不足,提出一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。利用依存Tree-LSTM和双向LSTM获取每个时刻的隐含状态向量,将实体关系向量和实体关系论元角色向量分别和这些隐含状态向量结合,对触发词候选词和论元候选词进行多分类。该模型不仅可以减少错误的触发词类型对论元识别的影响,也可以充分利用实体关系、实体关系论元角色信息,从而提高事件抽取模型的准确性。
附图说明
图1是本发明的整体实施流程图。
图2是本发明触发词识别和分类以及事件论元识别和分类的具体流程图。
图3是本发明模型网络结构图。
具体实施方式
附图非限制性地公开了本发明所涉及优选实例的流程示意图;以下将结合附图详细地说明本发明的技术方案。
事件抽取是信息抽取研究的重要组成部分,是新闻热点抽取和社会舆情分析的常用技术基础。事件抽取就是从大量文本中找出事件提及,由事件触发词和事件论元组成。因此事件抽取主要包含触发词识别和事件论元角色分类两个任务。有些研究把上述任务分成两个阶段,第一阶段首先获取触发词的事件类型,然后再根据触发词的类别,去判断句子中事件论元候选词的角色。这种方法的不足就是第一阶段触发词的错误分类影响事件论元角色分类的效果,因此,触发词识别和事件论元分类的联合学习模型被提出。但上述模型并没有充分利用实体关系以及实体提及在实体关系论元角色。因此我们提出了基于实体关系和依存Tree-LSTM的联合事件抽取的方法。
如图1-3所示,一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法,按照如下步骤进行:
步骤1对原始文本以及文本标注信息进行编码。
步骤2将步骤1的结果输入双向LSTM。获取具有时序的前向隐含状态向量
Figure BDA0002389509320000061
和后向隐含状态向量
Figure BDA0002389509320000062
步骤3首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤1的结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量
Figure BDA0002389509320000063
和每个时刻的隐含状态向量
Figure BDA0002389509320000064
步骤4将实体关系Rk编码连接
Figure BDA0002389509320000065
获取保存实体关系句子信息特征向量
Figure BDA0002389509320000066
同时,连接双向LSTM t的前向隐含状态向量
Figure BDA0002389509320000067
和后向隐含状态向量
Figure BDA0002389509320000068
以及依存Tree-LSTM t时刻的隐含状态向量
Figure BDA0002389509320000069
使
Figure BDA00023895093200000610
既可以保存子结点的信息也可以获取具有一定时序的局部下上文信息。
步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词(第i个实体提及)隐含状态向量
Figure BDA00023895093200000612
包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色
Figure BDA00023895093200000611
连接,进行事件论元的识别和分类。
进一步的,步骤1具体实现如下:
从源文件中获取未处理原始文本和以及标注信息,标注信息包含实体词、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色。然后利用Stanford CoreNLP对原始文本进行分句、分词。获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点。并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有“其他”对应的初始化向量。随机初始化这些向量,在训练的时候更新这些向量。
查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到wpos和查询实体类型得到we
将获取到的每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。
将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵
Figure BDA0002389509320000071
和后向隐含状态矩阵
Figure BDA0002389509320000072
其中
Figure BDA0002389509320000073
Figure BDA0002389509320000074
分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此,
Figure BDA0002389509320000075
Figure BDA0002389509320000076
分别保存具有一定时序信息的上文和下文信息。
Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,其中,与该单词有依存关系以该结点的父节点或者子结点出现。将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树结构中的每个结点的隐含状态向量
Figure BDA0002389509320000077
和根节点的隐含状态向量
Figure BDA0002389509320000078
因此句子的依存Tree-LSTM输出句子的隐含状态矩阵
Figure BDA0002389509320000079
其中t,root∈[1,n],n是句子的长度。
在事件抽取中,有些触发词在识别时会出现歧义,例如:Elop plan to leaveNokia。大部分事件抽取模型(EE)更容易将leave识别为事件类型transport,但是如果利用句子中实体Elop和实体Nokia中存在membership的关系,EE就较容易识别出句子中leave触发的End-Position事件。因此,通过查询步骤(1)随机初始化的实体关系表,获取句子中的实体关系向量Rk(表示第k种实体关系),如果不存在实体关系,Rk指向“其他”的实体关系向量,并在训练过程中调整向量。
依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到。所以,语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量
Figure BDA0002389509320000081
和实体关系向量Rk连接,获取包含实体关系信息的句子向量
Figure BDA0002389509320000082
依存Tree-LSTM是一种非时间序列敏感的模型,那么每个时刻输出的隐含状态向量也缺少一定的时间序列信息,因此,将步骤2和步骤3每个时刻的隐含向量组合,但为了降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量:
Figure BDA0002389509320000083
而整个句子的隐含状态矩阵为H={H1,H2,…,Hn-1,Hn},其中t∈[1,n],n是句子的长度。
规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型。首先对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:
Figure BDA0002389509320000084
Figure BDA0002389509320000085
其中,
Figure BDA0002389509320000086
表示第t个词的触发词候选词触发事件类型的概率,
Figure BDA0002389509320000087
表示第t词触发的事件类型。
对于判断句子中事件论元候选词(实体提及)在事件类型中扮演的事件论元角色,希望利用该实体提及在实体关系中扮演的实体关系论元角色。如同4-1提到的例句,如果模型获知Elop和Nokia两个实体提及分别在实体关系membership中扮演employeemember和org。模型会更容易为事件类型transport中的两个事件论元Elop和Nokia分配事件论元角色Person和Entity。实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该表,并在训练的过程中调整向量。用
Figure BDA0002389509320000091
表示i时刻的实体提及在实体关系Rk中扮演第j种实体关系论元角色。
将句子中实体提及作为事件论元候选词。依次将第i个事件论元候选词隐含状态向量Hi、在5-1被识别为触发词的第t个词的隐含状态向量连接Ht,包含实体关系的句子向量F以及第i个事件论元候选词在关系关系Rk中的实体关系论元角色
Figure BDA0002389509320000092
连接。将连接向量输入事件论元识别多分类公式:
Figure BDA0002389509320000093
Figure BDA0002389509320000094
其中,
Figure BDA0002389509320000095
表示第i个事件论元候选词在事件类型
Figure BDA0002389509320000096
扮演的事件论元角色的概率值。
Figure BDA0002389509320000097
表示第i个事件论元候选词在事件类型
Figure BDA0002389509320000098
扮演的事件论元角色。

Claims (7)

1.基于实体关系和依存Tree-LSTM的联合事件抽取的方法,其特征在于包括如下步骤:
步骤1、对原始文本以及文本标注信息进行编码;
步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量
Figure FDA0002637879980000011
和后向隐含状态向量
Figure FDA0002637879980000012
步骤3、首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量
Figure FDA0002637879980000013
和t个时刻的隐含状态向量
Figure FDA0002637879980000014
步骤4、将实体关系向量Rk编码连接树根节点隐含状态向量
Figure FDA0002637879980000015
获取保存实体关系句子向量
Figure FDA0002637879980000016
同时连接双向LSTM t时刻的前向隐含状态向量
Figure FDA0002637879980000017
和后向隐含状态向量
Figure FDA0002637879980000018
以及依存Tree-LSTM t时刻的隐含状态向量
Figure FDA0002637879980000019
求得新隐含状态向量
Figure FDA00026378799800000110
从而既保存子结点的信息也获取具有一定时序的局部下上文信息;
步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词即第i个实体提及隐含状态向量
Figure FDA00026378799800000111
包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色
Figure FDA00026378799800000112
连接,进行事件论元的识别和分类。
2.根据权利要求1所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤1具体实现如下:
1-1.从源文件中获取未处理原始文本以及文本标注信息,标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色;然后利用Stanford CoreNLP对原始文本进行分句、分词;获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点;并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有类型“其他”对应的初始化向量;
1-2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量we
获取每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。
3.根据权利要求1或2所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤2具体实现如下:
将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵
Figure FDA0002637879980000021
和后向隐含状态矩阵
Figure FDA0002637879980000022
其中
Figure FDA0002637879980000023
Figure FDA0002637879980000024
分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此,
Figure FDA0002637879980000025
Figure FDA0002637879980000026
分别保存具有一定时序信息的上文和下文信息。
4.根据权利要求3所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤3具体实现如下:
通过Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,与该单词有依存关系的则以该结点的父节点或者子结点出现;将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树形结构中的每个结点的隐含状态向量
Figure FDA0002637879980000027
和根节点的隐含状态向量
Figure FDA0002637879980000028
因此句子的依存Tree-LSTM输出的句子的隐含状态矩阵
Figure FDA0002637879980000029
其中t,root∈[1,n],n是句子的长度。
5.根据权利要求4所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤4具体实现如下:
4-1.通过查询步骤1随机初始化的实体关系表,获取句子中的实体关系向量Rk,表示第k种实体关系;如果不存在实体关系,Rk指向“其他”的实体关系向量,并在训练过程中调整向量;
4-2依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到;所以语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量
Figure FDA0002637879980000031
和实体关系向量Rk连接,获取包含实体关系信息的句子向量
Figure FDA0002637879980000032
4-3将步骤2和步骤3每个时刻的隐含向量组合,同时为降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量:
Figure FDA0002637879980000033
而整个句子的隐含状态矩阵为H={H1,H2,···,Hn-1,Hn},其中t∈[1,n],n是句子的长度。
6.根据权利要求5所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤5具体实现如下:
5-1规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型;对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:
Pt tri=softmaxtri(WT[Ht,F]+bT)
Figure FDA0002637879980000034
其中,WT和bT分别是触发词多分类的权重矩阵和偏置项;Pt tri表示第t个词的触发词候选词触发事件类型的概率,每个词为一个时刻,
Figure FDA0002637879980000035
表示第t个时刻触发的事件类型。
7.根据权利要求6所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤6具体实现如下:
6-1实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该向量表,并在训练的过程中调整向量;用
Figure FDA0002637879980000036
表示第i个实体提及在实体关系向量Rk中扮演第j种实体关系论元角色;
6-2.将句子中实体提及作为事件论元候选词;依次将第i个事件论元候选词隐含状态向量
Figure FDA0002637879980000041
在步骤5-1被识别为触发词的第t个词的隐含状态向量Ht、包含实体关系的句子向量F以及第i个事件论元候选词在实体关系Rk中的实体关系论元角色
Figure FDA0002637879980000042
连接;将连接向量输入事件论元识别多分类公式:
Figure FDA0002637879980000043
Figure FDA0002637879980000044
其中,WA和bA分别是事件论元分类的权重矩阵和偏置项,
Figure FDA0002637879980000045
表示第i个事件论元候选词在事件类型
Figure FDA0002637879980000046
扮演的事件论元角色的概率值;
Figure FDA0002637879980000047
表示第i个事件论元候选词在事件类型
Figure FDA0002637879980000048
扮演的事件论元角色。
CN202010109601.1A 2020-02-22 2020-02-22 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 Active CN111353306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010109601.1A CN111353306B (zh) 2020-02-22 2020-02-22 基于实体关系和依存Tree-LSTM的联合事件抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010109601.1A CN111353306B (zh) 2020-02-22 2020-02-22 基于实体关系和依存Tree-LSTM的联合事件抽取的方法

Publications (2)

Publication Number Publication Date
CN111353306A CN111353306A (zh) 2020-06-30
CN111353306B true CN111353306B (zh) 2020-10-16

Family

ID=71195780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010109601.1A Active CN111353306B (zh) 2020-02-22 2020-02-22 基于实体关系和依存Tree-LSTM的联合事件抽取的方法

Country Status (1)

Country Link
CN (1) CN111353306B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417878B (zh) * 2020-11-24 2024-06-14 北京明略昭辉科技有限公司 实体关系抽取方法、***、电子设备及存储介质
CN112541364A (zh) * 2020-12-03 2021-03-23 昆明理工大学 融合多层次语言特征知识的汉越神经机器翻译的方法
CN112507077B (zh) * 2020-12-15 2022-05-20 杭州电子科技大学 基于关系图注意力神经网络的事件时序关系识别方法
CN112559713B (zh) * 2020-12-24 2023-12-01 北京百度网讯科技有限公司 文本相关性判断方法及装置、模型、电子设备、可读介质
CN112784576B (zh) * 2021-01-13 2022-07-29 哈尔滨工程大学 一种文本依存句法分析方法
CN113158667B (zh) * 2021-04-09 2022-03-01 杭州电子科技大学 基于实体关系级别注意力机制的事件检测方法
CN115794444B (zh) * 2023-02-02 2023-05-16 广州钛动科技股份有限公司 事件通信方法、装置、计算机设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及***
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注***及方法
CN107992476A (zh) * 2017-11-28 2018-05-04 苏州大学 面向句子级生物关系网络抽取的语料库生成方法及***
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809105B (zh) * 2015-05-11 2017-12-26 苏州大学 基于最大熵的事件论元及论元角色的识别方法及***
US20170357625A1 (en) * 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents
EP3407209A1 (en) * 2017-05-22 2018-11-28 Fujitsu Limited Apparatus and method for extracting and storing events from a plurality of heterogeneous sources
US12002010B2 (en) * 2017-06-02 2024-06-04 Apple Inc. Event extraction systems and methods
CN108875809A (zh) * 2018-06-01 2018-11-23 大连理工大学 联合attention机制与神经网络的生物医学实体关系分类方法
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN109657041B (zh) * 2018-12-04 2023-09-29 南京理工大学 基于深度学习的问题自动生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及***
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注***及方法
CN107992476A (zh) * 2017-11-28 2018-05-04 苏州大学 面向句子级生物关系网络抽取的语料库生成方法及***
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于依存树的越南语新闻事件元素抽取技术研究;周晶晶;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第02期);I138-4499页 *

Also Published As

Publication number Publication date
CN111353306A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN108829757B (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
US8280719B2 (en) Methods and systems relating to information extraction
CN114020768B (zh) 中文自然语言的sql语句生成模型的构建方法及应用
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
Viola et al. Learning to extract information from semi-structured text using a discriminative context free grammar
CN109145260B (zh) 一种文本信息自动提取方法
Fonseca et al. A two-step convolutional neural network approach for semantic role labeling
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
US20060277028A1 (en) Training a statistical parser on noisy data by filtering
Mori et al. A machine learning approach to recipe text processing
CN113821605B (zh) 一种事件抽取方法
US7627567B2 (en) Segmentation of strings into structured records
CN107818141A (zh) 融入结构化要素识别的生物医学事件抽取方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN111091009A (zh) 一种基于语义分析的文档关联审核方法
CN108460150A (zh) 新闻标题的处理方法及装置
KR101072460B1 (ko) 한국어 형태소 분석 방법
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及***
CN113158667B (zh) 基于实体关系级别注意力机制的事件检测方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200630

Assignee: Hangzhou Yuanchuan New Technology Co.,Ltd.

Assignor: HANGZHOU DIANZI University

Contract record no.: X2021330000781

Denomination of invention: Joint event extraction method based on entity relationship and dependent tree LSTM

Granted publication date: 20201016

License type: Common License

Record date: 20211206

EE01 Entry into force of recordation of patent licensing contract