CN114880427A - 基于多层级注意力机制的模型、事件论元抽取方法及*** - Google Patents

基于多层级注意力机制的模型、事件论元抽取方法及*** Download PDF

Info

Publication number
CN114880427A
CN114880427A CN202210416103.0A CN202210416103A CN114880427A CN 114880427 A CN114880427 A CN 114880427A CN 202210416103 A CN202210416103 A CN 202210416103A CN 114880427 A CN114880427 A CN 114880427A
Authority
CN
China
Prior art keywords
argument
event
role
attention
event type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210416103.0A
Other languages
English (en)
Inventor
吴昆�
丁国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mairong Intelligent Technology Shanghai Co ltd
Original Assignee
Mairong Intelligent Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mairong Intelligent Technology Shanghai Co ltd filed Critical Mairong Intelligent Technology Shanghai Co ltd
Priority to CN202210416103.0A priority Critical patent/CN114880427A/zh
Publication of CN114880427A publication Critical patent/CN114880427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多层级注意力机制的模型、事件论元抽取方法及***,首先,预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;其次,将事件类型输入多层级注意力机制的模型,获取事件类型‑论元角色层级注意力特征和论元角色‑论元角色层级注意力特征;然后,将文本表征输入双仿射层,与事件类型‑论元角色层级注意力特征和论元角色‑论元角色层级注意力特征进行融合,获取最终的融合分类特征;最后,将融合分类特征作为最终分类层的输入,采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测,迭代训练,获取最优模型。有效提升了从文档中抽取事件论元的效果。

Description

基于多层级注意力机制的模型、事件论元抽取方法及***
技术领域
本发明属于自然语言处理中信息抽取的事件论元抽取研究领域,具体涉及一种基于多层级注意力机制的模型、事件论元抽取方法及***。
背景技术
互联网发展到现在已全面进入大数据时代,每个人都被海量的数据裹挟。数据的形式多种多样,其中文本作为信息的重要表现形式之一,在各行各业被广泛使用。面对纷繁的文本数据,如何快速获取人们需要的信息则显得至关重要,信息抽取任务正是诞生于这种需求之下。
事件抽取是信息抽取领域内的核心任务,旨在将事件从自然文本中提取出来并以表格类的结构化形式用以表示。一个完整的事件由一个定义事件类型的事件触发词和多个事件涉及的论元构成,触发词和论元常为实体。按照抽取阶段划分,事件抽取任务可分解为事件触发词抽取和事件论元抽取两个子任务。事件论元抽取是在已知事件触发词及事件类型的基础上将该事件涉及的所有论元抽取出来。
现有事件论元抽取方法在抽取论元时对已知信息往往仅进行简单使用,在引入事件类别信息时仅将其类别向量拼接在文本表征之后,忽略了事件模板中定义的事件类型与事件论元间的层级关系。除此之外,同一语句中通常包含多个论元,论元间或多或少在领域与语义上存在关联,而这种依赖信息也常常不被纳于建模过程。因此,如何合理高效地利用已知的事件类型信息以及论元间的依赖信息以辅助事件论元抽取具有重要的研究价值。
发明内容
本发明所要解决的技术问题是:提供一种基于多层级注意力机制的模型、事件论元抽取方法及***,解决了现有技术中事件论元抽取算法分类精度低的问题。
本发明为解决上述技术问题采用以下技术方案:
一种多层级注意力机制的模型构建方法,首先,构建事件类型-论元角色层级关系、论元角色-论元角色层级关系,并且分别使用二维矩阵进行表示;然后,将预先获得的文本表征和事件类型-事件论元层级关系矩阵输入事件类型-事件论元注意力模块,计算事件类型-论元角色层级注意力特征;将预先获得的文本表征和事件论元-事件论元层级关系矩阵输入事件论元-事件论元注意力模块,计算论元角色-论元角色层级注意力特征;最后,将事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征作为该模型的输出。
计算事件类型-论元角色层级注意力特征的具体过程如下:
依据官方事件模板,分析事件类型与论元角色之间的所属关系并且使用二维矩阵表示,事件模板在定义事件时给出了特定类型事件包含的论元,以事件类型作为横坐标,论元角色作为纵坐标构建二维关系矩阵,若某一事件包含某一论元,则在二维矩阵中将其值置为1,否则置为0。
计算论元角色-论元角色层级注意力特征的具体过程如下:
分析论元角色彼此之间的依赖关系并且使用二维矩阵表示,将论元角色包含的值属性抽象成上层概念,表达论元角色某一维度的属性,以论元角色类型作为横坐标,上层概念类型作为纵坐标构建二维关系矩阵,若某一论元拥有某一属性,则在二维矩阵中将其值置为1,否则置为0。
所述文本表征通过应用预训练语言模型对原始数据集中的文本进行编码获取。
一种基于多层级注意力机制的事件论元抽取方法,包括如下步骤:
步骤1、预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
步骤2、将步骤1中的事件类型输入多层级注意力机制的模型,获取事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征;
步骤3、将步骤1中得到的文本表征输入双仿射层,与事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征进行融合,获取最终的融合分类特征;
步骤4、将融合分类特征作为最终分类层的输入,采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测,迭代训练,获取最优模型。
所述步骤1的具体过程如下:
划分训练集和测试集,将文档中的长文档分隔为固定长度为200个字的句子集合,其中一个句子对应数据集中的一条样本,使用预训练语言模型BERT进行词嵌入表示得到初始文本表征h。
对于每个样本使用其已知事件类型e所得的事件类型-论元角色层级注意力特征二维关系矩阵中进行查找,得到该事件类型与论元角色的关联向量,之后在随机初始化的事件类型-论元角色参数矩阵中查表得到该事件类型对应于论元角色的语义特征euc,假设该事件可能包含k个论元,将步骤1所得文本表征与euc融合并使用softmax函数计算得到事件类型面向论元角色的注意力分数se
对于每个样本使用论元角色-论元角色层级注意力特征的二维矩阵在随机初始化的论元角色-论元角色参数矩阵中查表得到所有论元之间关联信息的语义特征ruc;将步骤1所得文本表征与ruc融合并使用softmax函数计算论元角色间基于上层概念的注意力分数sr以及样本的论元-论元层级特征er
将er与步骤1所得文本表征h进行拼接,对文本中的每一个token计算一个提供论元角色之间注意力分数的概率矩阵
Figure BDA0003606058130000031
并且针对每一个候选论元使用max函数筛选出与其相关性最大的另一论元,得到用于最终分类的论元-论元特征矩阵hr
所述步骤3的具体过程如下:
将步骤1得到的文本表征嵌入输入双仿射层,使用前馈神经网络将其映射到对于每一论元角色计算概率的向量p,并且与多层级注意力机制模型的事件类型-事件论元层级注意力特征以及事件论元-事件论元层级注意力特征进行融合,得到最终的融合分类特征。
所述步骤4的具体过程如下:
多层级注意机制融合特征表示作为最终分类层的输入,将步骤3所得向量p使用多个二分类器进行分类,采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测,迭代训练得到最优模型。
基于多层级注意力机制的事件论元抽取***,包括预训练语言模型、跨度提取模块、多层级注意力机制模型、特征融合模块、论元提取模块;其中,
预训练语言模型,用于接收外部输入包含事件类型以及描述该事件的一段文本进行预训练,获取事件文本表征;
跨度提取模块,用于对接收的文本表征进行处理,获取初始分类特征;
多层级注意力机制模型,用于接收事件类型,并获取两个层级特征;
特征融合模块,用于将两个层级特征和初始分类特征进行融合,获取最终的融合分类特征;
论元提取模块,用于将融合分类特征进行二分类得到论元实体首尾位置,并提取事件论元参数。
与现有技术相比,本发明具有以下有益效果:
1、该方案首先探究了引入模板中事件类型对事件角色的影响,使用注意力机制建立了事件类型-论元类型上下文层级特征;其次探究了论元之间的上层概念相关性,使用层级注意力机制构建了论元类型-论元类型上下文层级特征;最终通过对多层级注意力机制的融合,提升了从文档中抽取事件论元的效果。
2、通过注意力机制对事件类型与事件论元间的关系、事件论元彼此之间的关系分别建模,得到的特征将与文本表征进行融合并被用于最终的事件论元分类任务,从而实现更加准确的事件论元抽取结果。
3、本方案提出了多层级注意力机制的模型概念,考虑了事件论元抽取这个任务的相关信息和概念,该模型作为一个独立的部分,可以用于相关的领域,能够有效提升事件论元抽取的处理性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种基于多层级注意力机制的事件论元抽取方法流程图。
图2为本发明使用的事件-论元层级关系抽象示意图。
图3为本发明使用的论元-论元层级关系抽象示意图。
图4为本发明进行句子级事件论元抽取任务的整体结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
为了更好说明本实施例,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
值得注意的是,本文档中所提到的所述注意力权重的概念本领域中还可以叫注意力分数、注意力特征,因此,在本文档中出现这三种概念均代表同一个含义,属于本领域的常用概念更换,不会造成表述不清晰或者变量和解释不能对应的问题。
一种多层级注意力机制的模型构建方法,首先,构建事件类型-论元角色层级关系、论元角色-论元角色层级关系,并且分别使用二维矩阵进行表示;然后,将预先获得的文本表征和事件类型-事件论元层级关系矩阵输入事件类型-事件论元注意力模块,计算事件类型-论元角色层级注意力特征;将预先获得的文本表征和事件论元-事件论元层级关系矩阵输入事件论元-事件论元注意力模块,计算论元角色-论元角色层级注意力特征;最后,将事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征作为该模型的输出。
计算事件类型-论元角色层级注意力特征的具体过程如下:
依据官方事件模板,分析事件类型与论元角色之间的所属关系并且使用二维矩阵表示,事件模板在定义事件时给出了特定类型事件包含的论元,以事件类型作为横坐标,论元角色作为纵坐标构建二维关系矩阵,若某一事件包含某一论元,则在二维矩阵中将其值置为1,否则置为0。
计算论元角色-论元角色层级注意力特征的具体过程如下:
分析论元角色彼此之间的依赖关系并且使用二维矩阵表示,将论元角色包含的值属性抽象成上层概念,表达论元角色某一维度的属性,以论元角色类型作为横坐标,上层概念类型作为纵坐标构建二维关系矩阵,若某一论元拥有某一属性,则在二维矩阵中将其值置为1,否则置为0。
所述文本表征通过应用预训练语言模型对原始数据集中的文本进行编码获取。
基于上述多层级注意力机制的事件论元抽取方法,包括如下步骤:
步骤1、预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
步骤2、将步骤1中的事件类型输入多层级注意力机制的模型,获取事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征;
步骤3、将步骤1中得到的文本表征输入双仿射层,与事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征进行融合,获取最终的融合分类特征;
步骤4、将融合分类特征作为最终分类层的输入,采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测,迭代训练,获取最优模型。
具体实施例,如图1所示,
基于多层级注意力机制的事件论元抽取方法,包括如下步骤:
S1:预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
S2:使用现有官方事件模板构建事件类型-论元角色层级关系,并且使用二维矩阵进行表示;
S3:基于人的经验知识抽象出论元的上级属性,通过上级属性构建论元角色-论元角色层级关系,并且使用二维矩阵进行表示;
S4:将步骤S1中的事件类型、文本表征和步骤S2得到的事件类型-论元角色层级关系矩阵输入事件类型-事件论元注意力模块,计算事件类型-论元角色层级注意力特征;
S5:将步骤S1得到的文本表征和步骤S3得到的论元角色-论元角色层级关系矩阵输入事件论元-事件论元注意力模块,计算论元角色-论元角色层级注意力特征;
S6:将步骤S1得到的文本表征嵌入输入双仿射层,并且与步骤S4得到的事件类型-事件论元层级注意力特征以及步骤S5得到的论元角色-论元角色层级注意力特征进行融合得到最终的分类特征;
S7:将步骤6中得到的融合分类特征表示作为最终分类层的输入,采用0/1标注格式对每个角色类型的事件论元的首尾位置索引进行预测,迭代训练,得到最优模型。
所述步骤S1的具体过程如下:
将训练模型所用数据集划分为训练集和测试集,将数据集中的文档以最大长度200个字分隔为句子集合,以句子为单位进行论元抽取,其中,一个句子对应数据集中的一条样本,使用预训练的语言模型BERT进行编码,将每个字映射到固定维度dh的向量以得到通用的语义嵌入文本表征h:
Figure BDA0003606058130000061
其中hi为对应于每个字的词嵌入表征,tri则指示事件触发词的位置,N指示文本序列长度;文本表征h的大小为N*dh
所述步骤S2的具体过程如下:
使用官方事件模板构建事件类型-论元角色二维关系矩阵,官方事件模板为每个类型的事件预设了其下属论元角色,示意图如图2所示,即事件真正论元角色集一定是模板预设论元角色集的子集。基于上述理论,将事件类型与论元角色之间的层级关系使用二维矩阵表示;该二维关系矩阵的横坐标为33种事件类型,纵坐标为35种论元角色,若某一论元角色属于某一事件类型,则在二维矩阵中将其对应位置置为1,反之则为0。
所述步骤S3的具体过程如下:
步骤S300:根据领域前沿研究构建论元角色-论元角色二维关系矩阵。
步骤S301:论元角色往往不是独立存在的,不同的论元角色在某种维度上存在相互关联,而这最终关联有助于促进论元的共同抽取。基于该理论,根据专家设计将上层概念抽象为8大类(Person,Behavior,Entity,Good,Place,Org,Time,NA),示意图如图3所示。
步骤S302:设计论元角色-论元角色二维关系矩阵;该二维关系矩阵的横坐标为35种论元角色,纵坐标为8种上层概念,若某一论元角色包含某一上层概念属性,则在二维矩阵中将其对应位置置为1,反之则为0。
所述步骤S4的具体过程如下:
步骤S400:对于每个样本使用其已知事件类型e所得的事件类型-论元角色层级注意力特征二维关系矩阵中进行查找,得到该事件类型与论元角色的关联向量,计算事件类型-论元角色层级注意力特征。
步骤S401:随机初始化一个大小为nume(事件类型数)*dh(与步骤S1中的文本表征h同维度)的二维查询向量Ee
步骤S402:根据已知事件类型在查询向量Ee中进行查询并在第一维度上进行扩展得到大小为N*numr*dh的对应于论元角色的语义特征向量euc,其中numr为论元种类数目。
步骤S403:将来自步骤S1的文本表征h在第二维度上进行扩展得到与向量euc大小相同的向量
Figure BDA0003606058130000071
之后将二者进行拼接并经过全连接层得到特征向量he,其大小为N*numr
he=tanh(Wae[h;euc])
步骤S404:使用softmax函数计算该事件文本面向论元角色的注意力权重se
Figure BDA0003606058130000072
其中i指示当前论元类型,kr表示当前事件类型在模板中拥有的论元个数。
所述步骤S5的具体过程如下:
步骤S500:计算论元角色-论元角色层级注意力特征。
步骤S501:对于每个样本使用论元角色-论元角色层级注意力特征的二维矩阵,随机初始化一个大小为numc(上层概念数)*dh(与步骤S1中的文本表征h同维度)的二维查询向量Er
步骤S502:将所有论元与上层概念之间的关系在查询向量Ec中进行查询并在扩展维度得到大小为numc*N*dh的所有论元之间关联信息的语义特征向量ruc
步骤S503:将来自步骤S1的文本表征h在第二维度上进行扩展得到与向量ruc大小相同的向量
Figure BDA0003606058130000081
之后将二者进行拼接并经过全连接层得到特征向量
Figure BDA0003606058130000082
其大小为numc*N。
这里
Figure BDA0003606058130000083
步骤S504:使用softmax函数计算论元角色关联上层概念的注意力权重
Figure BDA0003606058130000084
大小为numc*N。
Figure BDA0003606058130000085
其中i表示当前位置索引,n表示当前文本序列的长度。
步骤S505:对于每一论元,计算其所有关联上层概念的加权平均注意分数sr,经过维度扩展后该向量的大小为N*numr(论元角色数目)。
Figure BDA0003606058130000086
其中i表示当前位置索引,kc表示当前论元角色包含的上层概念属性个数,记为c1,c2,...,ck
步骤S506:将来自步骤S1的文本表征h在第二维度上进行扩展得到向量
Figure BDA0003606058130000087
将上一步所得向量sr在第二维度上进行扩展得到向量
Figure BDA0003606058130000088
计算二者的哈达玛积得到大小为N*numr*dh的论元-论元层级特征向量er
Figure BDA0003606058130000089
步骤S507:将来自步骤S1的文本表征h经过维度扩展得到的向量
Figure BDA00036060581300000810
与上述步骤得到的向量er经过维度扩展得到的向量
Figure BDA00036060581300000811
进行拼接并经过全连接层得到特征向量
Figure BDA00036060581300000812
该向量为每个特征字(token)提供所有论元角色彼此之间的注意力分数的概率矩阵
Figure BDA0003606058130000091
其大小为N*numr*numr
Figure BDA0003606058130000092
步骤S508:针对每一个候选论元,使用max函数筛选出与其相关性最大的另一论元,得到与每个论元关联度最高的角色注意力分数矩阵hr,大小为N*numr
Figure BDA0003606058130000093
所述步骤S6的具体过程如下:
步骤S600:结合图4对多特征融合进行详述,最终得到分类特征。
步骤S601:将来自步骤S1的文本表征h分别输入两个双仿射层,使用前馈神经网络将其映射到对于每一论元角色计算概率的向量p′,得到对应于首尾索引的概率矩阵p′s/e,p′s指示开始(start)索引,p′e指示结束(end)索引,二者大小均为N*numr*2。
p′=W1(tanh(W2·h+b2))+b1
步骤S602:将步骤S4得到的事件类型-论元角色特征向量se以及步骤五得到的论元角色-论元角色特征向量hr与上述向量p进行融合得到最终融合分类特征概率。
p=hr*(λ·se+p′)
步骤S7的具体过程如下:
多层级注意机制融合特征表示作为最终分类层的输入,将上述所得向量p使用多个二元分类器为每个论元角色的首尾位置索引分配0/1标签。
ys/e=argmax(ps/e)
至此,基于多层级注意力机制的事件论元抽取已经完成。通过上述方案,充分挖掘并利用了事件自身蕴藏的先验信息,在编码过程中使用注意力机制充分融合了事件类型对于论元角色的指导信息以及论元角色之间的相互关联信息,增强了语义特征,使得事件元素抽取的精度和性能得以提升。
基于多层级注意力机制的事件论元抽取***,包括预训练语言模型、跨度提取模块、多层级注意力机制模型、特征融合模块、论元提取模块;其中,
预训练语言模型,用于接收外部输入包含事件类型以及描述该事件的一段文本进行预训练,获取事件文本表征;
跨度提取模块,用于对接收的文本表征进行处理,获取初始分类特征;
多层级注意力机制模型,用于接收事件类型,并获取两个层级特征;
特征融合模块,用于将两个层级特征和初始分类特征进行融合,获取最终的融合分类特征;
论元提取模块,用于将融合分类特征进行二分类得到论元实体首尾位置,并提取事件论元参数。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种多层级注意力机制的模型构建方法,其特征在于:首先,构建事件类型-论元角色层级关系、论元角色-论元角色层级关系,并且分别使用二维矩阵进行表示;然后,将预先获得的文本表征和事件类型-事件论元层级关系矩阵输入事件类型-事件论元注意力模块,计算事件类型-论元角色层级注意力特征;将预先获得的文本表征和事件论元-事件论元层级关系矩阵输入事件论元-事件论元注意力模块,计算论元角色-论元角色层级注意力特征;最后,将事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征作为该模型的输出。
2.根据权利要求1所述的多层级注意力机制的模型构建方法,其特征在于:计算事件类型-论元角色层级注意力特征的具体过程如下:
依据官方事件模板,分析事件类型与论元角色之间的所属关系并且使用二维矩阵表示,事件模板在定义事件时给出了特定类型事件包含的论元,以事件类型作为横坐标,论元角色作为纵坐标构建二维关系矩阵,若某一事件包含某一论元,则在二维矩阵中将其值置为1,否则置为0。
3.根据权利要求1所述的多层级注意力机制的模型构建方法,其特征在于:计算论元角色-论元角色层级注意力特征的具体过程如下:
分析论元角色彼此之间的依赖关系并且使用二维矩阵表示,将论元角色包含的值属性抽象成上层概念,表达论元角色某一维度的属性,以论元角色类型作为横坐标,上层概念类型作为纵坐标构建二维关系矩阵,若某一论元拥有某一属性,则在二维矩阵中将其值置为1,否则置为0。
4.根据权利要求1所述的多层级注意力机制的模型构建方法,其特征在于:所述文本表征通过应用预训练语言模型对原始数据集中的文本进行编码获取。
5.一种基于多层级注意力机制的事件论元抽取方法,其特征在于:包括如下步骤:
步骤1、预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
步骤2、将步骤1中的事件类型输入权利要求1至4中任一项所述多层级注意力机制的模型,获取事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征;
步骤3、将步骤1中得到的文本表征输入双仿射层,与事件类型-论元角色层级注意力特征和论元角色-论元角色层级注意力特征进行融合,获取最终的融合分类特征;
步骤4、将融合分类特征作为最终分类层的输入,采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测,迭代训练,获取最优模型。
6.根据权利要求5所述的基于多层级注意力机制的事件论元抽取方法,其特征在于:所述步骤1的具体过程如下:
划分训练集和测试集,将文档中的长文档分隔为固定长度为200个字的句子集合,其中一个句子对应数据集中的一条样本,使用预训练语言模型BERT进行词嵌入表示得到初始文本表征h。
7.根据权利要求6所述的基于多层级注意力机制的事件论元抽取方法,其特征在于:对于每个样本使用其已知事件类型e所得的事件类型-论元角色层级注意力特征二维关系矩阵中进行查找,得到该事件类型与论元角色的关联向量,之后在随机初始化的事件类型-论元角色参数矩阵中查表得到该事件类型对应于论元角色的语义特征euc,假设该事件可能包含k个论元,将步骤1所得文本表征与euc融合并使用softmax函数计算得到事件类型面向论元角色的注意力分数se
对于每个样本使用论元角色-论元角色层级注意力特征的二维矩阵在随机初始化的论元角色-论元角色参数矩阵中查表得到所有论元之间关联信息的语义特征ruc;将步骤1所得文本表征与ruc融合并使用softmax函数计算论元角色间基于上层概念的注意力分数sr以及样本的论元-论元层级特征er
将er与步骤1所得文本表征h进行拼接,对文本中的每一个token计算一个提供论元角色之间注意力分数的概率矩阵
Figure FDA0003606058120000021
并且针对每一个候选论元使用max函数筛选出与其相关性最大的另一论元,得到用于最终分类的论元-论元特征矩阵hr
8.根据权利要求5所述的基于多层级注意力机制的事件论元抽取方法,其特征在于:所述步骤3的具体过程如下:
将步骤1得到的文本表征嵌入输入双仿射层,使用前馈神经网络将其映射到对于每一论元角色计算概率的向量p,并且与多层级注意力机制模型的事件类型-事件论元层级注意力特征以及事件论元-事件论元层级注意力特征进行融合,得到最终的融合分类特征。
9.根据权利要求5所述的基于多层级注意力机制的事件论元抽取方法,其特征在于:所述步骤4的具体过程如下:
多层级注意机制融合特征表示作为最终分类层的输入,将步骤3所得向量p使用多个二分类器进行分类,采用0/1标注格式对每个角色类型的事件论元的首尾索引进行预测,迭代训练得到最优模型。
10.基于多层级注意力机制的事件论元抽取***,其特征在于:包括预训练语言模型、跨度提取模块、多层级注意力机制模型、特征融合模块、论元提取模块;其中,
预训练语言模型,用于接收外部输入包含事件类型以及描述该事件的一段文本进行预训练,获取事件文本表征;
跨度提取模块,用于对接收的文本表征进行处理,获取初始分类特征;
多层级注意力机制模型,用于接收事件类型,并获取两个层级特征;
特征融合模块,用于将两个层级特征和初始分类特征进行融合,获取最终的融合分类特征;
论元提取模块,用于将融合分类特征进行二分类得到论元实体首尾位置,并提取事件论元参数。
CN202210416103.0A 2022-04-20 2022-04-20 基于多层级注意力机制的模型、事件论元抽取方法及*** Pending CN114880427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210416103.0A CN114880427A (zh) 2022-04-20 2022-04-20 基于多层级注意力机制的模型、事件论元抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210416103.0A CN114880427A (zh) 2022-04-20 2022-04-20 基于多层级注意力机制的模型、事件论元抽取方法及***

Publications (1)

Publication Number Publication Date
CN114880427A true CN114880427A (zh) 2022-08-09

Family

ID=82670994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210416103.0A Pending CN114880427A (zh) 2022-04-20 2022-04-20 基于多层级注意力机制的模型、事件论元抽取方法及***

Country Status (1)

Country Link
CN (1) CN114880427A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049884A (zh) * 2022-08-15 2022-09-13 菲特(天津)检测技术有限公司 基于Faster RCNN网络的广义少样本目标检测方法及***
CN116049345A (zh) * 2023-03-31 2023-05-02 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049884A (zh) * 2022-08-15 2022-09-13 菲特(天津)检测技术有限公司 基于Faster RCNN网络的广义少样本目标检测方法及***
CN116049345A (zh) * 2023-03-31 2023-05-02 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及***
CN116049345B (zh) * 2023-03-31 2023-10-10 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及***

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
Zou et al. A lexicon-based supervised attention model for neural sentiment analysis
CN111324696B (zh) 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN111680159A (zh) 数据处理方法、装置及电子设备
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及***
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN116304748B (zh) 一种文本相似度计算方法、***、设备及介质
CN115860006A (zh) 一种基于语义句法的方面级情感预测方法及装置
CN113254581A (zh) 一种基于神经语义解析的金融文本公式抽取方法及装置
CN113128237A (zh) 一种服务资源的语义表征模型构建方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及***
CN113516094B (zh) 一种用于为文档匹配评议专家的***以及方法
Che et al. Tensor factorization with sparse and graph regularization for fake news detection on social networks
Sun et al. Graph force learning
CN112287119B (zh) 一种在线资源相关信息抽取的知识图谱生成方法
Barik et al. Analysis of customer reviews with an improved VADER lexicon classifier
CN116719999A (zh) 文本相似度检测方法和装置、电子设备及存储介质
Zhang et al. An attentive memory network integrated with aspect dependency for document-level multi-aspect sentiment classification
CN113822018B (zh) 实体关系联合抽取方法
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及***
KR102330190B1 (ko) 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법
CN113705197A (zh) 一种基于位置增强的细粒度情感分析方法
CN113486142A (zh) 一种基于义原的词语语义的预测方法及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination