CN114880427A

CN114880427A - 基于多层级注意力机制的模型、事件论元抽取方法及***

Info

Publication number: CN114880427A
Application number: CN202210416103.0A
Authority: CN
Inventors: 吴昆�; 丁国栋
Original assignee: Mairong Intelligent Technology Shanghai Co ltd
Current assignee: Mairong Intelligent Technology Shanghai Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-08-09

Abstract

本发明公开了一种基于多层级注意力机制的模型、事件论元抽取方法及***，首先，预处理包含事件类型以及描述该事件的输入文本，使用预训练语言模型对数据集中的文本进行编码，得到模型的初始文本表征；其次，将事件类型输入多层级注意力机制的模型，获取事件类型‑论元角色层级注意力特征和论元角色‑论元角色层级注意力特征；然后，将文本表征输入双仿射层，与事件类型‑论元角色层级注意力特征和论元角色‑论元角色层级注意力特征进行融合，获取最终的融合分类特征；最后，将融合分类特征作为最终分类层的输入，采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测，迭代训练，获取最优模型。有效提升了从文档中抽取事件论元的效果。

Description

基于多层级注意力机制的模型、事件论元抽取方法及***

技术领域

本发明属于自然语言处理中信息抽取的事件论元抽取研究领域，具体涉及一种基于多层级注意力机制的模型、事件论元抽取方法及***。

背景技术

互联网发展到现在已全面进入大数据时代，每个人都被海量的数据裹挟。数据的形式多种多样，其中文本作为信息的重要表现形式之一，在各行各业被广泛使用。面对纷繁的文本数据，如何快速获取人们需要的信息则显得至关重要，信息抽取任务正是诞生于这种需求之下。

事件抽取是信息抽取领域内的核心任务，旨在将事件从自然文本中提取出来并以表格类的结构化形式用以表示。一个完整的事件由一个定义事件类型的事件触发词和多个事件涉及的论元构成，触发词和论元常为实体。按照抽取阶段划分，事件抽取任务可分解为事件触发词抽取和事件论元抽取两个子任务。事件论元抽取是在已知事件触发词及事件类型的基础上将该事件涉及的所有论元抽取出来。

现有事件论元抽取方法在抽取论元时对已知信息往往仅进行简单使用，在引入事件类别信息时仅将其类别向量拼接在文本表征之后，忽略了事件模板中定义的事件类型与事件论元间的层级关系。除此之外，同一语句中通常包含多个论元，论元间或多或少在领域与语义上存在关联，而这种依赖信息也常常不被纳于建模过程。因此，如何合理高效地利用已知的事件类型信息以及论元间的依赖信息以辅助事件论元抽取具有重要的研究价值。

发明内容

本发明所要解决的技术问题是：提供一种基于多层级注意力机制的模型、事件论元抽取方法及***，解决了现有技术中事件论元抽取算法分类精度低的问题。

本发明为解决上述技术问题采用以下技术方案：

一种多层级注意力机制的模型构建方法，首先，构建事件类型-论元角色层级关系、论元角色-论元角色层级关系，并且分别使用二维矩阵进行表示；然后，将预先获得的文本表征和事件类型-事件论元层级关系矩阵输入事件类型-事件论元注意力模块，计算事件类型-论元角色层级注意力特征；将预先获得的文本表征和事件论元-事件论元层级关系矩阵输入事件论元-事件论元注意力模块，计算论元角色-论元角色层级注意力特征；最后，将事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征作为该模型的输出。

计算事件类型-论元角色层级注意力特征的具体过程如下：

依据官方事件模板，分析事件类型与论元角色之间的所属关系并且使用二维矩阵表示，事件模板在定义事件时给出了特定类型事件包含的论元，以事件类型作为横坐标，论元角色作为纵坐标构建二维关系矩阵，若某一事件包含某一论元，则在二维矩阵中将其值置为1，否则置为0。

计算论元角色-论元角色层级注意力特征的具体过程如下：

分析论元角色彼此之间的依赖关系并且使用二维矩阵表示，将论元角色包含的值属性抽象成上层概念，表达论元角色某一维度的属性，以论元角色类型作为横坐标，上层概念类型作为纵坐标构建二维关系矩阵，若某一论元拥有某一属性，则在二维矩阵中将其值置为1，否则置为0。

所述文本表征通过应用预训练语言模型对原始数据集中的文本进行编码获取。

一种基于多层级注意力机制的事件论元抽取方法，包括如下步骤：

步骤1、预处理包含事件类型以及描述该事件的输入文本，使用预训练语言模型对数据集中的文本进行编码，得到模型的初始文本表征；

步骤2、将步骤1中的事件类型输入多层级注意力机制的模型，获取事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征；

步骤3、将步骤1中得到的文本表征输入双仿射层，与事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征进行融合，获取最终的融合分类特征；

步骤4、将融合分类特征作为最终分类层的输入，采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测，迭代训练，获取最优模型。

所述步骤1的具体过程如下：

划分训练集和测试集，将文档中的长文档分隔为固定长度为200个字的句子集合，其中一个句子对应数据集中的一条样本，使用预训练语言模型BERT进行词嵌入表示得到初始文本表征h。

对于每个样本使用其已知事件类型e所得的事件类型-论元角色层级注意力特征二维关系矩阵中进行查找，得到该事件类型与论元角色的关联向量，之后在随机初始化的事件类型-论元角色参数矩阵中查表得到该事件类型对应于论元角色的语义特征e_uc，假设该事件可能包含k个论元，将步骤1所得文本表征与e_uc融合并使用softmax函数计算得到事件类型面向论元角色的注意力分数s_e；

对于每个样本使用论元角色-论元角色层级注意力特征的二维矩阵在随机初始化的论元角色-论元角色参数矩阵中查表得到所有论元之间关联信息的语义特征r_uc；将步骤1所得文本表征与r_uc融合并使用softmax函数计算论元角色间基于上层概念的注意力分数s_r以及样本的论元-论元层级特征e_r；

将e_r与步骤1所得文本表征h进行拼接，对文本中的每一个token计算一个提供论元角色之间注意力分数的概率矩阵

并且针对每一个候选论元使用max函数筛选出与其相关性最大的另一论元，得到用于最终分类的论元-论元特征矩阵h_r。

所述步骤3的具体过程如下：

将步骤1得到的文本表征嵌入输入双仿射层，使用前馈神经网络将其映射到对于每一论元角色计算概率的向量p，并且与多层级注意力机制模型的事件类型-事件论元层级注意力特征以及事件论元-事件论元层级注意力特征进行融合，得到最终的融合分类特征。

所述步骤4的具体过程如下：

多层级注意机制融合特征表示作为最终分类层的输入，将步骤3所得向量p使用多个二分类器进行分类，采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测，迭代训练得到最优模型。

基于多层级注意力机制的事件论元抽取***，包括预训练语言模型、跨度提取模块、多层级注意力机制模型、特征融合模块、论元提取模块；其中，

预训练语言模型，用于接收外部输入包含事件类型以及描述该事件的一段文本进行预训练，获取事件文本表征；

跨度提取模块，用于对接收的文本表征进行处理，获取初始分类特征；

多层级注意力机制模型，用于接收事件类型，并获取两个层级特征；

特征融合模块，用于将两个层级特征和初始分类特征进行融合，获取最终的融合分类特征；

论元提取模块，用于将融合分类特征进行二分类得到论元实体首尾位置，并提取事件论元参数。

与现有技术相比，本发明具有以下有益效果：

1、该方案首先探究了引入模板中事件类型对事件角色的影响，使用注意力机制建立了事件类型-论元类型上下文层级特征；其次探究了论元之间的上层概念相关性，使用层级注意力机制构建了论元类型-论元类型上下文层级特征；最终通过对多层级注意力机制的融合，提升了从文档中抽取事件论元的效果。

2、通过注意力机制对事件类型与事件论元间的关系、事件论元彼此之间的关系分别建模，得到的特征将与文本表征进行融合并被用于最终的事件论元分类任务，从而实现更加准确的事件论元抽取结果。

3、本方案提出了多层级注意力机制的模型概念，考虑了事件论元抽取这个任务的相关信息和概念，该模型作为一个独立的部分，可以用于相关的领域，能够有效提升事件论元抽取的处理性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一种基于多层级注意力机制的事件论元抽取方法流程图。

图2为本发明使用的事件-论元层级关系抽象示意图。

图3为本发明使用的论元-论元层级关系抽象示意图。

图4为本发明进行句子级事件论元抽取任务的整体结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

为了更好说明本实施例，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

值得注意的是，本文档中所提到的所述注意力权重的概念本领域中还可以叫注意力分数、注意力特征，因此，在本文档中出现这三种概念均代表同一个含义，属于本领域的常用概念更换，不会造成表述不清晰或者变量和解释不能对应的问题。

计算事件类型-论元角色层级注意力特征的具体过程如下：

计算论元角色-论元角色层级注意力特征的具体过程如下：

基于上述多层级注意力机制的事件论元抽取方法，包括如下步骤：

具体实施例，如图1所示，

基于多层级注意力机制的事件论元抽取方法，包括如下步骤：

S1：预处理包含事件类型以及描述该事件的输入文本，使用预训练语言模型对数据集中的文本进行编码，得到模型的初始文本表征；

S2：使用现有官方事件模板构建事件类型-论元角色层级关系，并且使用二维矩阵进行表示；

S3：基于人的经验知识抽象出论元的上级属性，通过上级属性构建论元角色-论元角色层级关系，并且使用二维矩阵进行表示；

S4：将步骤S1中的事件类型、文本表征和步骤S2得到的事件类型-论元角色层级关系矩阵输入事件类型-事件论元注意力模块，计算事件类型-论元角色层级注意力特征；

S5：将步骤S1得到的文本表征和步骤S3得到的论元角色-论元角色层级关系矩阵输入事件论元-事件论元注意力模块，计算论元角色-论元角色层级注意力特征；

S6：将步骤S1得到的文本表征嵌入输入双仿射层，并且与步骤S4得到的事件类型-事件论元层级注意力特征以及步骤S5得到的论元角色-论元角色层级注意力特征进行融合得到最终的分类特征；

S7：将步骤6中得到的融合分类特征表示作为最终分类层的输入，采用0/1标注格式对每个角色类型的事件论元的首尾位置索引进行预测，迭代训练，得到最优模型。

所述步骤S1的具体过程如下：

将训练模型所用数据集划分为训练集和测试集，将数据集中的文档以最大长度200个字分隔为句子集合，以句子为单位进行论元抽取，其中，一个句子对应数据集中的一条样本，使用预训练的语言模型BERT进行编码，将每个字映射到固定维度d_h的向量以得到通用的语义嵌入文本表征h：

其中h_i为对应于每个字的词嵌入表征，tri则指示事件触发词的位置，N指示文本序列长度；文本表征h的大小为N*d_h。

所述步骤S2的具体过程如下：

使用官方事件模板构建事件类型-论元角色二维关系矩阵，官方事件模板为每个类型的事件预设了其下属论元角色，示意图如图2所示，即事件真正论元角色集一定是模板预设论元角色集的子集。基于上述理论，将事件类型与论元角色之间的层级关系使用二维矩阵表示；该二维关系矩阵的横坐标为33种事件类型，纵坐标为35种论元角色，若某一论元角色属于某一事件类型，则在二维矩阵中将其对应位置置为1，反之则为0。

所述步骤S3的具体过程如下：

步骤S300：根据领域前沿研究构建论元角色-论元角色二维关系矩阵。

步骤S301：论元角色往往不是独立存在的，不同的论元角色在某种维度上存在相互关联，而这最终关联有助于促进论元的共同抽取。基于该理论，根据专家设计将上层概念抽象为8大类(Person,Behavior,Entity,Good,Place,Org,Time,NA)，示意图如图3所示。

步骤S302：设计论元角色-论元角色二维关系矩阵；该二维关系矩阵的横坐标为35种论元角色，纵坐标为8种上层概念，若某一论元角色包含某一上层概念属性，则在二维矩阵中将其对应位置置为1，反之则为0。

所述步骤S4的具体过程如下：

步骤S400：对于每个样本使用其已知事件类型e所得的事件类型-论元角色层级注意力特征二维关系矩阵中进行查找，得到该事件类型与论元角色的关联向量，计算事件类型-论元角色层级注意力特征。

步骤S401：随机初始化一个大小为num_e(事件类型数)*d_h(与步骤S1中的文本表征h同维度)的二维查询向量E_e。

步骤S402：根据已知事件类型在查询向量E_e中进行查询并在第一维度上进行扩展得到大小为N*num_r*d_h的对应于论元角色的语义特征向量e_uc，其中num_r为论元种类数目。

步骤S403：将来自步骤S1的文本表征h在第二维度上进行扩展得到与向量e_uc大小相同的向量

之后将二者进行拼接并经过全连接层得到特征向量h_e，其大小为N*num_r。

h_e＝tanh(W_ae[h；e_uc])

步骤S404：使用softmax函数计算该事件文本面向论元角色的注意力权重s_e。

其中i指示当前论元类型，k_r表示当前事件类型在模板中拥有的论元个数。

所述步骤S5的具体过程如下：

步骤S500：计算论元角色-论元角色层级注意力特征。

步骤S501：对于每个样本使用论元角色-论元角色层级注意力特征的二维矩阵，随机初始化一个大小为num_c(上层概念数)*d_h(与步骤S1中的文本表征h同维度)的二维查询向量E_r。

步骤S502：将所有论元与上层概念之间的关系在查询向量E_c中进行查询并在扩展维度得到大小为num_c*N*d_h的所有论元之间关联信息的语义特征向量r_uc。

步骤S503：将来自步骤S1的文本表征h在第二维度上进行扩展得到与向量r_uc大小相同的向量

之后将二者进行拼接并经过全连接层得到特征向量

其大小为num_c*N。

这里

步骤S504：使用softmax函数计算论元角色关联上层概念的注意力权重

大小为num_c*N。

其中i表示当前位置索引，n表示当前文本序列的长度。

步骤S505：对于每一论元，计算其所有关联上层概念的加权平均注意分数s_r，经过维度扩展后该向量的大小为N*num_r(论元角色数目)。

其中i表示当前位置索引，k_c表示当前论元角色包含的上层概念属性个数，记为c₁,c₂,...,c_k。

步骤S506：将来自步骤S1的文本表征h在第二维度上进行扩展得到向量

将上一步所得向量s_r在第二维度上进行扩展得到向量

计算二者的哈达玛积得到大小为N*num_r*d_h的论元-论元层级特征向量e_r。

步骤S507：将来自步骤S1的文本表征h经过维度扩展得到的向量

与上述步骤得到的向量e_r经过维度扩展得到的向量

进行拼接并经过全连接层得到特征向量

该向量为每个特征字(token)提供所有论元角色彼此之间的注意力分数的概率矩阵

其大小为N*num_r*num_r。

步骤S508：针对每一个候选论元，使用max函数筛选出与其相关性最大的另一论元，得到与每个论元关联度最高的角色注意力分数矩阵h_r，大小为N*num_r。

所述步骤S6的具体过程如下：

步骤S600：结合图4对多特征融合进行详述，最终得到分类特征。

步骤S601：将来自步骤S1的文本表征h分别输入两个双仿射层，使用前馈神经网络将其映射到对于每一论元角色计算概率的向量p′，得到对应于首尾索引的概率矩阵p′_s/e，p′_s指示开始(start)索引，p′_e指示结束(end)索引，二者大小均为N*num_r*2。

p′＝W₁(tanh(W₂·h+b₂))+b₁

步骤S602：将步骤S4得到的事件类型-论元角色特征向量s_e以及步骤五得到的论元角色-论元角色特征向量h_r与上述向量p进行融合得到最终融合分类特征概率。

p＝h_r*(λ·s_e+p′)

步骤S7的具体过程如下：

多层级注意机制融合特征表示作为最终分类层的输入，将上述所得向量p使用多个二元分类器为每个论元角色的首尾位置索引分配0/1标签。

y_s/e＝argmax(p_s/e)

至此，基于多层级注意力机制的事件论元抽取已经完成。通过上述方案，充分挖掘并利用了事件自身蕴藏的先验信息，在编码过程中使用注意力机制充分融合了事件类型对于论元角色的指导信息以及论元角色之间的相互关联信息，增强了语义特征，使得事件元素抽取的精度和性能得以提升。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多层级注意力机制的模型构建方法，其特征在于：首先，构建事件类型-论元角色层级关系、论元角色-论元角色层级关系，并且分别使用二维矩阵进行表示；然后，将预先获得的文本表征和事件类型-事件论元层级关系矩阵输入事件类型-事件论元注意力模块，计算事件类型-论元角色层级注意力特征；将预先获得的文本表征和事件论元-事件论元层级关系矩阵输入事件论元-事件论元注意力模块，计算论元角色-论元角色层级注意力特征；最后，将事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征作为该模型的输出。

2.根据权利要求1所述的多层级注意力机制的模型构建方法，其特征在于：计算事件类型-论元角色层级注意力特征的具体过程如下：

3.根据权利要求1所述的多层级注意力机制的模型构建方法，其特征在于：计算论元角色-论元角色层级注意力特征的具体过程如下：

4.根据权利要求1所述的多层级注意力机制的模型构建方法，其特征在于：所述文本表征通过应用预训练语言模型对原始数据集中的文本进行编码获取。

5.一种基于多层级注意力机制的事件论元抽取方法，其特征在于：包括如下步骤：

步骤2、将步骤1中的事件类型输入权利要求1至4中任一项所述多层级注意力机制的模型，获取事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征；

6.根据权利要求5所述的基于多层级注意力机制的事件论元抽取方法，其特征在于：所述步骤1的具体过程如下：

7.根据权利要求6所述的基于多层级注意力机制的事件论元抽取方法，其特征在于：对于每个样本使用其已知事件类型e所得的事件类型-论元角色层级注意力特征二维关系矩阵中进行查找，得到该事件类型与论元角色的关联向量，之后在随机初始化的事件类型-论元角色参数矩阵中查表得到该事件类型对应于论元角色的语义特征e_uc，假设该事件可能包含k个论元，将步骤1所得文本表征与e_uc融合并使用softmax函数计算得到事件类型面向论元角色的注意力分数s_e；

8.根据权利要求5所述的基于多层级注意力机制的事件论元抽取方法，其特征在于：所述步骤3的具体过程如下：

9.根据权利要求5所述的基于多层级注意力机制的事件论元抽取方法，其特征在于：所述步骤4的具体过程如下：

10.基于多层级注意力机制的事件论元抽取***，其特征在于：包括预训练语言模型、跨度提取模块、多层级注意力机制模型、特征融合模块、论元提取模块；其中，