CN113886601A - 电子文本事件抽取方法、装置、设备及存储介质 - Google Patents

电子文本事件抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113886601A
CN113886601A CN202111161308.0A CN202111161308A CN113886601A CN 113886601 A CN113886601 A CN 113886601A CN 202111161308 A CN202111161308 A CN 202111161308A CN 113886601 A CN113886601 A CN 113886601A
Authority
CN
China
Prior art keywords
task
electronic text
event extraction
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111161308.0A
Other languages
English (en)
Inventor
钱铁云
朱晓雨
李万理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202111161308.0A priority Critical patent/CN113886601A/zh
Publication of CN113886601A publication Critical patent/CN113886601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种电子文本事件抽取方法、装置、设备及存储介质,包括:对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集;根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型;根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,实现引入上下文相关文本信息,将上下文中与抽取句子相关的文本表示作为辅助表示,帮助模型分辨易于混淆的事件以及角色,同时让上下文表示作为多个任务之间的特征桥梁,帮助任务之间进行交互,提升抽取的准确性,并且通过上下文表示,增强多个子任务之间的交互。

Description

电子文本事件抽取方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种电子文本事件抽取方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着科技的不断发展和互联网的普及,互联网已经成为人们生活与工作中必不可少的工具,无数的信息以***式地呈现在我们面前,不经过任何有效过滤就充斥于我们当下的生活,高效获取有效信息遇到前所未有的挑战。事件抽取(event extraction EE)从大量非结构化的文本中进行快速且准确的信息挖掘,提炼用户所需的信息,具有重要的现实意义。事件抽取任务可以划分为三个子任务,包括实体识别任务、触发词识别任务与论元角色预测任务。
初期的事件抽取任务通常采用基于特征工程技术的管道模型。这种模型的复杂度较低,实现简单,但是存在显著缺陷。首先,特征工程技术需要由领域相关的专家人工设计关键的特征和规则,并且会依赖外部的自然语言处理工具;其次,管道模型会存在级联误差,即上游子任务的错误会传递到下游子任务。
针对事件抽取任务的相关研究中,由于管道模型实现容易以及模型复杂度低,早期的工作中绝大部分都使用的是管道模型来实现。具体做法是,先实现前面所说的两个子任务,也就是实体识别任务和触发词任务,通过对实体做抽取和对触发词做抽取,再将实体结果和触发词结果表示拼接,最后做论元角色预测任务。这种做法虽然简单易懂,但在实现过程中忽略了任务之间的交互,下一个任务获取上一个任务的结果,会存在错误传播的问题,并且,后面任务的结果对前面的预测无影响,使得后续任务的结果没法对前面的任务进行纠错。
为了解决管道模型的缺陷,人们开始采用联合模型来进行事件抽取。通过使用联合模型,进行表示共享,解决了任务之间相互独立的问题,加强不同任务之间的交互,使不同的任务之间可以进行表示纠错。现阶段的大多数联合模型将实体类型信息当作已知信息来进行抽取,在联合抽取过程中只联合了触发词抽取任务和论元角色预测任务,使得模型无法获取实体任务和其他两个任务之间内在的深层语义联系。
发明内容
本申请的主要目的在于提供一种电子文本事件抽取方法、装置、计算机设备及计算机可读存储介质,旨在解决现阶段的大多数联合模型将实体类型信息当作已知信息来进行抽取,在联合抽取过程中只联合了触发词抽取任务和论元角色预测任务,使得模型无法获取实体任务和其他两个任务之间内在的深层语义联系的技术问题。
第一方面,本申请提供一种电子文本事件抽取方法,所述方法包括以下步骤:
对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,其中,所述原始数据集包括文本以及所述文本对应的标注结果,所述标注结果至少包含对所述文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;
根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块;
根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,其中,所述测试结果包括各个字词的实体类型、触发词类型以及每两个字词之间的论元角色关系。
优选地,所述上下文集成的多任务联合电子文本事件抽取网络包括:
输入模块、上下文表示模块、多任务交互模块和输出模块;
其中,所述输入模块用于获取共享特征表示,所述共享特征表示用于将各个字词转为为对应的向量表示,并将各个所述字词对应的向量表示作为多个子任务的上游共享词向量层;
所述输出模块用于根据实体识别任务、事件句任务、触发词任务和论元角色分类任务获得损失函数,并基于不同任务的预置权重,进行联合训练。优选地,所述上下文表示模块包括私有序列信息特征表示和上下文表示;
所述私有序列信息特征表示用于每条句子的序列信息进行建模;
所述上下文表示用于对当前抽取句子的前后句子序列进行编码。
优选地,所述多任务交互模块包括实体识别任务、事件句任务、触发词任务和论元角色分类任务;
所述实体识别任务用于识别句子中每个实体边界和实体类型;
所述事件句任务用于判断每条句子中是否包含事件,使句子级别的信息辅助词级别的触发词任务;
所述触发词任务用于识别每条句子中的每个触发词以及所述触发词代表的时间类型;
所述论元角色分类任务用于对识别出的所述实体和所述触发词之间的关系进行预测。
优选地,所述根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,包括:
将所述训练集与验证集中的样本随机批量的输入到多任务联合电子文本事件抽取网络中;
分别获取所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数;
利用随机梯度下降方法使所述多任务联合电子文本事件抽取网络逐渐学习所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数中最优的参数值,同时计算在验证集上的评价指标;
若所述验证集上的评价指标不再上升或者网络训练迭代到一定次数后停止训练,则保存所述验证集上表现最优的上下文集成的联合事件抽取模型作为任务联合电子文本事件抽取模型。
优选地,所述根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,包括:
将所述测试集中各个待测试短句分别输入到所述多任务联合电子文本事件抽取模型中,通过所述多任务联合电子文本事件抽取模型分别对各个所述待测试短句进行预测;
抽取所述多任务联合电子文本事件抽取模型输出各个所述待测试短句中的各个字词的实体类型、触发词类型以及每任意两个子词之间的论元角色关系。
优选地,所述对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,包括:
确定所述原始数据集中的文本,并基于自然语言处理工具对所述文本进行分句以及分词,获取各个字词的词性信息,其中,所述文本包括新闻文本,且所述新闻文本至少为一个;
基于各个所述字词的词性信息对所述字词进行标注,确定各个所述字词的标签,其中,所述标签包括初始实体标签、触发词标签和实体与触发词的论元角色关系标签;
将带标签所述字词组成带标签的短句,以及将所述带标签的短句按照预置比例,划分为训练集、验证集和测试集。
第二方面,本申请还提供一种电子文本事件抽取装置,所述装置包括:
划分模块,用于对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,其中,所述原始数据集包括文本以及所述文本对应的标注结果,所述标注结果至少包含对所述文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;
生成模块,用于根据所述训练集和验证集训练多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块;
抽取模块,用于根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,其中,所述测试结果包括各个字词的实体类型、触发词类型以及每两个字词之间的论元角色关系。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的电子文本事件抽取方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的电子文本事件抽取方法的步骤。
本申请提供一种电子文本事件抽取方法、装置、计算机设备及计算机可读存储介质,通过对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,其中,所述原始数据集包括文本以及所述文本对应的标注结果,所述标注结果至少包含对所述文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块;根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,其中,所述测试结果包括各个字词的实体类型、触发词类型以及每两个字词之间的论元角色关系,实现引入上下文相关文本信息,将上下文中与抽取句子相关的文本表示作为辅助表示,帮助模型分辨易于混淆的事件以及角色,同时让上下文表示作为多个任务之间的特征桥梁,帮助任务之间进行交互,提升抽取的准确性,并且通过上下文表示,增强多个子任务之间的交互。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种电子文本事件抽取方法的流程示意图;
图2为本申请实施例提供的网络框架示意图;
图3为本申请实施例提供的一种电子文本事件抽取装置的示意性框图;
图4为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种电子文本事件抽取方法、装置、计算机设备及计算机可读存储介质。其中,该电子文本事件抽取方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种电子文本事件抽取方法的流程示意图。
如图1所示,该方法包括步骤S101至步骤S103。
步骤S101、对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集。
示范性的,本申请选取了领域内通用的ACE2005数据集中的英文语料作为原始数据集,其中包含了预定义的事件体系结构。在ACE2005体系中,事件抽取任务包含实体识别任务、触发词识别任务与论元角色预测任务三个子任务,其中实体为句中的具体事物,触发词为最能体现当前事件发生的动词或者名词,论元角色关系则是实体与触发词之间的关系。对于原始的新闻文本,首先需要对其进行分句与分词,接着将其与标注一一对应起来,处理成模型需要的符号化表示。
对于一句原始新闻句子,采用Stanford CoreNLP自然语言处理工具对其进行分词、得到每个词的词性。接着,得到句中每个词的初始实体标签、触发词标签与实体和触发词的论元角色关系标签。在进行预处理后,将按照通用的训练、验证、测试划分方式,对于总计包含六种新闻文本{bc,bn,cts,nw,un,wl}的ACE2005英文数据集,从nw中随机选择40篇新闻作为测试集Dtest,随机选择30篇新闻作为验证集Ddev,剩下的新闻文本全部作为训练集Dtrain。例如,一篇具有m条句子的新闻文本可以表示为:D={W1,W2,W3,......Wm},其中W={W1,W2,W3,......WN}代表每条句子包含n个词。
步骤S102、根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块。
示范性的,每次随机选定部分样本句作为输入。如图2所示,例如,用金融新闻Dtrain中的一条句子W,说明整个网络的实现过程。
共享特征表示:本申请采用Google公司提出的BERT模型对谷歌新闻中的句子序列进行编码最终得到共享的BERT句子特征表示:HB=HB1,HB2,HB3,......,HBn,获得句子特征表示后,还利用了当前词的词性特征。假定有M种词性标注结果,将随机初始化一个维度为M*dpos的向量矩阵,对于第i种词性标注结果(1≤i≤M),将选择矩阵的第i行得到一个维度为1*dpos的向量来表示,最终可以得到词性标注向量表示矩阵:Xp=Xp1,Xp2,......,Xpn,其大小为n*dpos,其中dpos为设定的词性标注向量的维度。
最后,将二者得到的向量表示矩阵在列方向进行拼接,得到句子序列初步的矩阵向量表示
Figure BDA0003290321420000071
其维度为N*(dw+dpos)。该矩阵X为整个模型的共享特征层,它可以被任意一个子任务使用与更新。
上下文表示模块:对于私有特征序列表示,本申请选择使用双向门控循环单元(Bi-GRU)来捕获每个句子的特定序列信息。具体地,将词向量矩阵X送入双向GRU网络中,得到前向的表示:
Figure BDA0003290321420000072
以及后向的表示:
Figure BDA0003290321420000073
接着将前向表示与后向表示拼接得到序列信息的特征表示:
Figure BDA0003290321420000074
其维度为N*(2dgru),其中dgru为设定的双向GRU的隐藏单元个数。
本申请考虑了子任务之间训练趋势的差异,为实体识别任务和触发词识别任务分别训练了一套双向GRU,即对于同样的输入向量矩阵
Figure BDA0003290321420000075
最终可以分别得到hemd与hed。为了加入周边词的语境信息,本申请还选择将当前词的前后C个词的词向量作为语境信息。当前词的周边语境向量可以表示为:[Xi-c,......,Xi,......,Xi+c],其大小为1*(2c*dw)。最后可以得到语境向量序列:Xc=Xc1,Xc2,......,Xcn,其大小为n*(2c*dw)。
得到语境向量序列后,将双向GRU网络得到的序列向量表示矩阵h与语境向量表示矩阵Xc在列方向进行拼接,得到
Figure BDA0003290321420000081
Figure BDA0003290321420000082
作为后续子任务的输入。
上下文表示:对于上下文表示其输入句子采用BERT编码得到其表示为S=S1,S2,......,S8,对于其中某一个句子St同样采用双向门控循环单元编码,最后获得表示为Hc=H1,H2,......,H8
多任务交互模块:实体识别任务与上下文交互部分,本申请采用序列标注中的“BIO”标注方式来联合标注实体的边界与类型。具体地,“B”即“Begin”代表一种实体类型标签的开头,“I”即“Inside”代表一种实体类型标签的非开头部分,而“O”即“Outside”代表非实体标签。具体地,如果整个训练集中存在p种实体类型,那么采用BIO标注方式的标签集合将为:LEMD={B-l1,I-l1,B-l2,I-l2,......,B-lp,I-lp,0},其大小为2*p+1,其中“O”标签代表当前词不属于任何一种实体类型。
在实体识别任务中,采用输入向量矩阵XEMD,以及上下文句子表示,通过attention获得上下文特征表示
Figure BDA0003290321420000083
对于文本长度较短的句子上下文表示可以辅助信息帮助模型抽取,对于自身信息已经足够丰富的句子,上下文表示的引入只会加入噪声,使模型效果下降。本文加入门控机制,让模型自己学习上下文表示以及当前抽取句子表示的权重。当上下文表示对当前抽取句子抽取事件要素有促进作用时,上下文表示的权重会变大,当上下文表示对当前抽取句子抽取事件要素无促进作用时,反而引入噪声,上下文表示的权重会更小,
Figure BDA0003290321420000084
其中We E为随机初始化的参数矩阵,
Figure BDA0003290321420000085
为偏置参数。
通过门控单元将上下文表示与当前抽取句子表示融合,得到句子融合表示:
Figure BDA0003290321420000086
最后将融合表示
Figure BDA0003290321420000087
通过一个前馈神经网络(Feedforward Neural Network),在实体识别任务中为FFEMD,得到标注的结果:E=e1,e2,e3,......,en,其中ei(1≤i≤n)为标签集合LEMD中的元素。
二分类事件句识别任务与上下文交互部分:为了捕获更容易学习的句子级别的信息,并且让训练器更加专注于事件句,本申请提出新增一个二分类的事件句识别任务,其标签集合为Ltwo={有事件,无事件}。在本申请中,设定若一个句子包含触发词,则它的二分类标签为“有事件”。
为了得到句子级别的向量表示,本申请采用了注意力attention机制来获取一个更符合新增事件句识别任务目的的向量表示。具体地,首先将其通过一层隐藏层,压缩向量维度至dff,然后模型对其进行仿射变换以获得更深层的语义信息:ut=WwXED+bw,其中XED是大小为N*dff的矩阵,WwWw是大小为dff*dattention的随机初始化的矩阵,最终得到大小为N*dattention的矩阵ut。接着通过一层softmax获得归一化的权重表示:
Figure BDA0003290321420000091
按权重将每个词的向量相加,获得句子级别的向量表示:
Figure BDA0003290321420000092
其大小为1*2*dgru
得到句子级别的向量表示后,用类似实体识别任务的方法,对上下文表示做attention,将得到的表示与句子表示融合,最终得到
Figure BDA0003290321420000093
最后将其送入一个softmax层中,判断其是否包含事件,得到分类结果Tsentence
对于触发词识别任务,本申请仍采用序列标注的方法。如果存在S种事件类型,那么触发词识别任务的标签集合为:LED={l1,l2,......,ls,0},其大小为s+1,其中“O”标签代表当前词不是任何一种事件类型的触发词。
具体地,本申请将输入序列向量矩阵:XED=xed1,xed2,......,xedn,按照类似前面实体识别任务的方法,得到
Figure BDA0003290321420000094
将前面得到的二分类句子预测结果与其拼接,然后送入前馈神经网络FFED中,隐藏层的大小设定为dff,输出层为softmax层,其维度为标签集合LED的大小,得到标注结果:T=t1,t2,t3,......,tn,通过softmax层,可以得到每个词属于每一种事件类型标签的概率,最终选择概率最大的作为其标签。
对于论元角色预测任务,在联合三个子任务的事件抽取模型中,由于假定了实体抽取结果是未知的,因此需要对句中每两个词进行一次关系预测。在本申请中,为了得到更加直观的展现,选择将实体向量表示与触发词向量表示构建成一个矩阵R,其大小为n*n,并且默认每一行代表的是触发词,每一列代表的是实体。于是矩阵中的每一个元素rij(1≤i≤n,1≤j≤n)的含义为对应行i代表的触发词与对应列j代表的实体之间的角色关系标签。为了降低论元角色预测任务的复杂度,本申请设定对于句中的每一个实体,只采用实体的第一个词,即标签为B-X类型的词。这样做是可行的,因为在第一个子任务实体识别任务中,对于预测出的实体,是可以得到其边界的。特殊地,在训练过程中,为了得到更好的识别效果,使用了真实的实体标签。
在论元角色预测任务中,如果有0种论元角色类型,那么标签集合为:LRP={l1,l2,......,l0,0},其大小为0+1,标签“O”代表当前实体与当前触发词之间不存在角色关系。
具体地,对于输入序列XEMD与XED,首先分别将它们输入一层隐藏层做线性变化,将其列方向的向量维度压缩至dff。接着为了利用上前两个任务的信息,并让上下文表示与其有一定的交互,对于矩阵元素rij再拼接上预测出的实体类型标签ei与预测出的触发词标签tj,以及两种私有特征序列表示对应的上下文表示。因此矩阵元素rij的向量可以表示为:
Figure BDA0003290321420000101
其中onehot()函数代表着将一个实数转化为one-hot向量。
接着,再将其通过一个前馈神经网络FFARP中,隐藏层的大小设定为dff,输出层为softmax层,其维度为标签集合LARP的大小,得到标注结果Aij。通过softmax层,可以得到每一对实体与触发词属于每一种论元角色类型标签的概率,最终利用argmax函数来选择概率最大的作为其标签。
本申请使用Adam算法将梯度回传并计算更新后的参数值。在每一轮训练后,考察模型在验证集Ddev上的性能指标:精确度Precision、召回率Recall和宏平均F1值。最后,保存在验证集上表现最好的模型,作为最终的上下文集成的多任务联合事件抽取模型。
步骤S103、根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集的测试结果。
示范性的,加载在验证集上表现最好的模型,输入测试集Dtest,得到测试集的事件抽取结果。例如,对于输入句“撞击摧毁了三个附近的房子并且造成至少两个人死亡。”,模型输出的事件类型为包括“摧毁”和“死亡”。在摧毁事件中,摧毁与房子、人都形成受害者的关系,在死亡事件中,只有人承担受害者的角色。
在本申请实施例中,引入上下文相关文本信息,将上下文中与抽取句子相关的文本表示作为辅助表示,帮助模型分辨易于混淆的事件以及角色,同时让上下文表示作为多个任务之间的特征桥梁,帮助任务之间进行交互,提升抽取的准确性,并且通过上下文表示,增强多个子任务之间的交互,大幅度改善了联合事件抽取任务的效果。
请参照图3,图3为本申请实施例提供的一种电子文本事件抽取装置的示意性框图。
如图3所示,该装置400,包括:划分模块401、生成模块402、抽取模块403。
划分模块401,用于对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,其中,所述原始数据集包括文本以及所述文本对应的标注结果,所述标注结果至少包含对所述文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;
生成模块402,用于根据所述训练集和验证集训练多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块;
抽取模块403,用于根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,其中,所述测试结果包括各个字词的实体类型、触发词类型以及每两个字词之间的论元角色关系。其中,
其中,生成模块402具体还用于:
输入模块、上下文表示模块、多任务交互模块和输出模块;
其中,所述输入模块用于获取共享特征表示,所述共享特征表示用于将各个字词转为为对应的向量表示,并将各个所述字词对应的向量表示作为多个子任务的上游共享词向量层;
所述输出模块用于根据实体识别任务、事件句任务、触发词任务和论元角色分类任务获得损失函数,并基于不同任务的预置权重,进行联合训练。
其中,生成模块402具体还用于:
所述私有序列信息特征表示用于每条句子的序列信息进行建模;
所述上下文表示用于对当前抽取句子的前后句子序列进行编码。
其中,生成模块402具体还用于:
所述实体识别任务用于识别句子中每个实体边界和实体类型;
所述事件句任务用于判断每条句子中是否包含事件,使句子级别的信息辅助词级别的触发词任务;
所述触发词任务用于识别每条句子中的每个触发词以及所述触发词代表的时间类型;
所述论元角色分类任务用于对识别出的所述实体和所述触发词之间的关系进行预测。
其中,生成模块402具体还用于:
将所述训练集与验证集中的样本随机批量的输入到多任务联合电子文本事件抽取网络中;
分别获取所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数;
利用随机梯度下降方法使所述多任务联合电子文本事件抽取网络逐渐学习所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数中最优的参数值,同时计算在验证集上的评价指标;
若所述验证集上的评价指标不再上升或者网络训练迭代到一定次数后停止训练,则保存所述验证集上表现最优的上下文集成的联合事件抽取模型作为任务联合电子文本事件抽取模型。
其中,抽取模块403具体还用于:
将所述测试集中各个待测试短句分别输入到所述多任务联合电子文本事件抽取模型中,通过所述多任务联合电子文本事件抽取模型分别对各个所述待测试短句进行预测;
抽取所述多任务联合电子文本事件抽取模型输出各个所述待测试短句中的各个字词的实体类型、触发词类型以及每任意两个子词之间的论元角色关系。
其中,划分模块401具体还用于:
确定所述原始数据集中的文本,并基于自然语言处理工具对所述文本进行分句以及分词,获取各个字词的词性信息,其中,所述文本包括新闻文本,且所述新闻文本至少为一个;
基于各个所述字词的词性信息对所述字词进行标注,确定各个所述字词的标签,其中,所述标签包括初始实体标签、触发词标签和实体与触发词的论元角色关系标签;
将带标签所述字词组成带标签的短句,以及将所述带标签的短句按照预置比例,划分为训练集、验证集和测试集。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述电子文本事件抽取实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图4所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种电子文本事件抽取方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种电子文本事件抽取方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,其中,所述原始数据集包括文本以及所述文本对应的标注结果,所述标注结果至少包含对所述文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;
根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块;
根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,其中,所述测试结果包括各个字词的实体类型、触发词类型以及每两个字词之间的论元角色关系。
在一个实施例中,所述处理器实现时,用于实现:
所述上下文集成的多任务联合电子文本事件抽取网络包括:
输入模块、上下文表示模块、多任务交互模块和输出模块;
其中,所述输入模块用于获取共享特征表示,所述共享特征表示用于将各个字词转为为对应的向量表示,并将各个所述字词对应的向量表示作为多个子任务的上游共享词向量层;
所述输出模块用于根据实体识别任务、事件句任务、触发词任务和论元角色分类任务获得损失函数,并基于不同任务的预置权重,进行联合训练。
在一个实施例中,所述处理器实现时,用于实现:
所述上下文表示模块包括私有序列信息特征表示和上下文表示;
所述私有序列信息特征表示用于每条句子的序列信息进行建模;
所述上下文表示用于对当前抽取句子的前后句子序列进行编码。
在一个实施例中,所述处理器实现时,用于实现:
所述多任务交互模块包括实体识别任务、事件句任务、触发词任务和论元角色分类任务;
所述实体识别任务用于识别句子中每个实体边界和实体类型;
所述事件句任务用于判断每条句子中是否包含事件,使句子级别的信息辅助词级别的触发词任务;
所述触发词任务用于识别每条句子中的每个触发词以及所述触发词代表的时间类型;
所述论元角色分类任务用于对识别出的所述实体和所述触发词之间的关系进行预测。
在一个实施例中,所述处理器实现根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型时,用于实现:
将所述训练集与验证集中的样本随机批量的输入到多任务联合电子文本事件抽取网络中;
分别获取所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数;
利用随机梯度下降方法使所述多任务联合电子文本事件抽取网络逐渐学习所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数中最优的参数值,同时计算在验证集上的评价指标;
若所述验证集上的评价指标不再上升或者网络训练迭代到一定次数后停止训练,则保存所述验证集上表现最优的上下文集成的联合事件抽取模型作为任务联合电子文本事件抽取模型。
在一个实施例中,所述处理器实现根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果时,用于实现:
将所述测试集中各个待测试短句分别输入到所述多任务联合电子文本事件抽取模型中,通过所述多任务联合电子文本事件抽取模型分别对各个所述待测试短句进行预测;
抽取所述多任务联合电子文本事件抽取模型输出各个所述待测试短句中的各个字词的实体类型、触发词类型以及每任意两个子词之间的论元角色关系。
在一个实施例中,所述处理器实现对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集时,用于实现:
确定所述原始数据集中的文本,并基于自然语言处理工具对所述文本进行分句以及分词,获取各个字词的词性信息,其中,所述文本包括新闻文本,且所述新闻文本至少为一个;
基于各个所述字词的词性信息对所述字词进行标注,确定各个所述字词的标签,其中,所述标签包括初始实体标签、触发词标签和实体与触发词的论元角色关系标签;
将带标签所述字词组成带标签的短句,以及将所述带标签的短句按照预置比例,划分为训练集、验证集和测试集。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请电子文本事件抽取的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种电子文本事件抽取方法,其特征在于,包括:
对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,其中,所述原始数据集包括文本以及所述文本对应的标注结果,所述标注结果至少包含对所述文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;
根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块;
根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,其中,所述测试结果包括各个字词的实体类型、触发词类型以及每两个字词之间的论元角色关系。
2.如权利要求1所述的电子文本事件抽取方法,其特征在于,所述输入模块用于获取共享特征表示,所述共享特征表示用于将各个字词转为为对应的向量表示,并将各个所述字词对应的向量表示作为多个子任务的上游共享词向量层;
所述输出模块用于根据实体识别任务、事件句任务、触发词任务和论元角色分类任务获得损失函数,并基于不同任务的预置权重,进行联合训练。
3.如权利要求1所述的电子文本事件抽取方法,其特征在于,所述上下文表示模块包括私有序列信息特征表示和上下文表示;
所述私有序列信息特征表示用于每条句子的序列信息进行建模;
所述上下文表示用于对当前抽取句子的前后句子序列进行编码。
4.如权利要求1所述的电子文本事件抽取方法,其特征在于,所述多任务交互模块包括实体识别任务、事件句任务、触发词任务和论元角色分类任务;
所述实体识别任务用于识别句子中每个实体边界和实体类型;
所述事件句任务用于判断每条句子中是否包含事件,使句子级别的信息辅助词级别的触发词任务;
所述触发词任务用于识别每条句子中的每个触发词以及所述触发词代表的时间类型;
所述论元角色分类任务用于对识别出的所述实体和所述触发词之间的关系进行预测。
5.如权利要求4所述的电子文本事件抽取方法,其特征在于,所述根据所述训练集和验证集训练上下文集成的多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,包括:
将所述训练集与验证集中的样本随机批量的输入到多任务联合电子文本事件抽取网络中;
分别获取所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数;
利用随机梯度下降方法使所述多任务联合电子文本事件抽取网络逐渐学习所述实体识别任务、事件句任务、触发词任务和论元角色分类任务对应的损失函数中最优的参数值,同时计算在验证集上的评价指标;
若所述验证集上的评价指标不再上升或者网络训练迭代到一定次数后停止训练,则保存所述验证集上表现最优的上下文集成的联合事件抽取模型作为任务联合电子文本事件抽取模型。
6.如权利要求1所述的电子文本事件抽取方法,其特征在于,所述根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,包括:
将所述测试集中各个待测试短句分别输入到所述多任务联合电子文本事件抽取模型中,通过所述多任务联合电子文本事件抽取模型分别对各个所述待测试短句进行预测;
抽取所述多任务联合电子文本事件抽取模型输出各个所述待测试短句中的各个字词的实体类型、触发词类型以及每任意两个子词之间的论元角色关系。
7.如权利要求1所述的电子文本事件抽取方法,其特征在于,所述对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,包括:
确定所述原始数据集中的文本,并基于自然语言处理工具对所述文本进行分句以及分词,获取各个字词的词性信息,其中,所述文本包括新闻文本,且所述新闻文本至少为一个;
基于各个所述字词的词性信息对所述字词进行标注,确定各个所述字词的标签,其中,所述标签包括初始实体标签、触发词标签和实体与触发词的论元角色关系标签;
将带标签所述字词组成带标签的短句,以及将所述带标签的短句按照预置比例,划分为训练集、验证集和测试集。
8.一种电子文本事件抽取装置,其特征在于,包括:
划分模块,用于对原始数据集进行预处理,并将预处理后的所述原始数据集划分为训练集、验证集和测试集,其中,所述原始数据集包括文本以及所述文本对应的标注结果,所述标注结果至少包含对所述文本中句子出现的实体、触发词以及实体与触发词之间关系的标签;
生成模块,用于根据所述训练集和验证集训练多任务联合电子文本事件抽取网络,生成多任务联合电子文本事件抽取模型,其中,所述上下文集成的多任务联合电子文本事件抽取网络包括:输入模块、上下文表示模块、多任务交互模块和输出模块;
抽取模块,用于根据所述多任务联合电子文本事件抽取模型预测所述测试集,抽取所述测试集中各个字词的测试结果,其中,所述测试结果包括各个字词的实体类型、触发词类型以及每两个字词之间的论元角色关系。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的电子文本事件抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的电子文本事件抽取方法的步骤。
CN202111161308.0A 2021-09-30 2021-09-30 电子文本事件抽取方法、装置、设备及存储介质 Pending CN113886601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111161308.0A CN113886601A (zh) 2021-09-30 2021-09-30 电子文本事件抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111161308.0A CN113886601A (zh) 2021-09-30 2021-09-30 电子文本事件抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113886601A true CN113886601A (zh) 2022-01-04

Family

ID=79004844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111161308.0A Pending CN113886601A (zh) 2021-09-30 2021-09-30 电子文本事件抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113886601A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741473A (zh) * 2022-04-17 2022-07-12 中国人民解放军国防科技大学 一种基于多任务学习的事件抽取方法
CN115687625A (zh) * 2022-11-14 2023-02-03 五邑大学 文本分类方法、装置、设备及介质
CN116991983A (zh) * 2023-09-27 2023-11-03 之江实验室 一种面向公司资讯文本的事件抽取方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741473A (zh) * 2022-04-17 2022-07-12 中国人民解放军国防科技大学 一种基于多任务学习的事件抽取方法
CN114741473B (zh) * 2022-04-17 2023-04-18 中国人民解放军国防科技大学 一种基于多任务学习的事件抽取方法
CN115687625A (zh) * 2022-11-14 2023-02-03 五邑大学 文本分类方法、装置、设备及介质
CN115687625B (zh) * 2022-11-14 2024-01-09 五邑大学 文本分类方法、装置、设备及介质
CN116991983A (zh) * 2023-09-27 2023-11-03 之江实验室 一种面向公司资讯文本的事件抽取方法及***
CN116991983B (zh) * 2023-09-27 2024-02-02 之江实验室 一种面向公司资讯文本的事件抽取方法及***

Similar Documents

Publication Publication Date Title
CN111611810B (zh) 一种多音字读音消歧装置及方法
CN110866401A (zh) 基于注意力机制的中文电子病历命名实体识别方法及***
CN113886601A (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN112069811A (zh) 多任务交互增强的电子文本事件抽取方法
KR102315830B1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
CN110309282A (zh) 一种答案确定方法及装置
CN110348007B (zh) 一种文本相似度确定方法及装置
CN112417855A (zh) 文本意图识别方法、装置以及相关设备
CN112632230A (zh) 一种基于多层级图网络的事件联合抽取方法及装置
CN112686049A (zh) 文本审核方法、装置、设备及存储介质
CN116304748B (zh) 一种文本相似度计算方法、***、设备及介质
Yu et al. Make it directly: event extraction based on tree-LSTM and Bi-GRU
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
WO2021223882A1 (en) Prediction explanation in machine learning classifiers
CN112183030A (zh) 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112417878A (zh) 实体关系抽取方法、***、电子设备及存储介质
CN111241843B (zh) 基于复合神经网络的语义关系推断***和方法
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN108875024B (zh) 文本分类方法、***、可读存储介质及电子设备
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN113076749A (zh) 一种文本识别方法和***
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN113822018B (zh) 实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination