CN115510236A

CN115510236A - 基于信息融合和数据增强的篇章级事件检测方法

Info

Publication number: CN115510236A
Application number: CN202211472983.XA
Authority: CN
Inventors: 谭立君; 胡艳丽; 周庄易; 朱煜琛; 张馨予; 李宏阳; 蔡琦
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2022-12-23

Abstract

本发明公开了基于信息融合和数据增强的篇章级事件检测方法，步骤包括：预训练得到句子的词嵌入向量；将向量输入编码层提取句子的序列特征，并通过自注意力机制获得语句上下文信息；将词向量、语句序列信息和上下文信息解码得到每个token对应的事件标签向量；将事件标签向量进行句子级的信息聚合，将聚合后的前后相邻句语义信息作为当前语句的输入再次解码；将解码层每次迭代得到的语句信息加权求和后，通过Softmax层得到序列标注结果。本发明基于信息融合和数据增强的事件检测方法，应用神经网络模型充分地提取了文档级的上下文信息及事件相关性，实现语义信息的跨句传播，有效提升了模型的稳定性和准确性。

Description

基于信息融合和数据增强的篇章级事件检测方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及基于信息融合和数据增强的篇章级事件检测方法。

背景技术

从无结构的文本数据中检测事件信息是自然语言处理（Natural LanguageProcessing, NLP）领域的关键基础技术，广泛应用于机器翻译、智能问答、文摘生成等众多NLP的下游任务。事件检测（Event Detection, ED）也可称为事件识别，是指通过识别文本中的事件触发词，正确判断其事件类型。触发词通常为动词或名词，与预定义的事件类型相对应，针对不同的触发词都有特定的表示。例如，在语句“He has given an assurancethat they would not run away and there will not be a huge crowd at thehouse.”中run away是动词触发词，表达“逃跑”语义，所属的事件类型为Start-Position。

当前大多数方法都关注于从单个句子中提取事件，但通常文档由多个句子表示，包含多个事件，事件之间相互联系，句内事件并存、句间事件共现以及一词多义等问题普遍存在。例如，表1所示的文档包含6个句子

，事件检测***需要从中识别出5类事件：由“wedding”和“marry”分别触发的两个Marry事件，由“hearing”触发的Trial- Hearing事件，由“taken”触发的Transport事件，以及由“run away”触发的Start-Position事件。在此文档中，一词多义现象如

中的“run”既可以表示奔跑，触发Start-Position事件，又可以表示经营管理而触发Nominate事件；事件共现问题如

和

都触发了Marry事件；事件并存如

中既包含由“wedding”触发的Marry事件，又包含由“hearing”触发的Trial-Hearing事件等，这些问题都直接影响事件检测的结果。因此在事件检测的过程中，必须充分利用文档级的上下文信息及事件间的相互关联性。

表1 ACE2005数据集示例文档

s<sub>1</sub>: The prison department has agreed to allow a jailed man to attend his daughter's wedding[<i>Marry</i>]ceremony Friday after his bail hearing[<i>Trial-Hearing</i>].
	s<sub>2</sub>: He will be taken to the appeal[<i>Appeal</i>] court early Friday for a bail application.
s<sub>3</sub>: Prison authorities have given the nod for he to be taken[<i>Transport</i>] home to marry[<i>Marry</i>] hiseldest daughter to an engineer.
	s<sub>4</sub>: But this is also conditional on police approval.
s<sub>5</sub>: They have to get the green light from police.
	s<sub>6</sub>: He has given an assurance that they would not run away[<i>Start-Position</i>] and there will not be ahuge crowd at the house.

采用神经网络模型进行事件检测是近年来的热门研究方向。神经网络模型的训练通常需要大量的数据作为支撑，但事件检测所需的文本数据面临着人工标注困难、语料不足、数据不平衡等众多问题，极大地影响模型的泛化性和训练的稳定性。

例如，在ACE2005数据集数据不平衡现象明显（如图1所示，其虚线阈值为100）：33类事件样本数据具有长尾特性，仅少量事件样本数较大，如Attack事件样本众多，而Marry、Fine等事件类型样本数都低于100远少于Attack事件，Acquit事件包含的三种类型实例甚至少于10个。

数据匮乏可通过寻找新数据进行标注和基于原有数据进行扩充这两种方法有效解决，但由于事件信息结构复杂，人工标注事件对标注者的专业要求高，导致新数据标注往往成本高、代价大。基于原数据进行数据增强、扩充数据样本规模是当前的主流方法。

事件检测是近年来NLP领域研究的热点之一，目前针对事件检测任务的研究主要难点在于：

（1）触发词检测方面，同一词语在不同语句中会表达出不同的语意，并且一个单独的事件的论元可能被分散在不同的语句中；

（2）事件分类方面，对于未出现的新事件的检测分类困难，句内事件并存和句间事件共现现象明显，但事件间的相互关联性影响难以建模解决。

现有的方法中提出了许多事件检测模型，大致可以分为基于特征工程的方法和基于神经网络的方法这两类。

基于特征的方法取决于不同的事件特征。这类研究关注于事件信息的某些特征，通常使用支持向量机等传统的机器学***衡等问题对于特征抽取也有较大的影响。

神经网络始终是近年来人工智能领域的热点研究方向，利用大数据来自主学习、自动化构造特征，更能够挖掘出数据的丰富内在信息，使分类或预测任务更加容易。神经网络在处理图像、文本、音视频等非结构化数据上表现突出，取得的效果远超于通过人工规则构造特征的传统的机器学习方法。

事件检测模型的训练往往需要大量的语料作为支撑，但在文本数据方面，数据不平衡、数据匮乏等问题仍是一个较大的挑战，且极大地影响着神经网络模型训练过程中稳定性和泛化能力。

发明内容

数据增强相比于基于新数据进行人工标注的方法，代价小，速度快、成本低，且构造的产生的伪数据能够在模型训练中注入噪声，使模型的稳定性得以提升。针对上述问题，本发明提出基于信息融合和数据增强的篇章级事件检测方法。信息融合从跨句子的角度聚合文档级上下文信息，联合抽取出一段文本中的多个事件触发词和事件类型。融合文档信息、进行联合检测对于提升事件检测准确率具有重要作用，能够有效解决篇章级事件检测的两大难题：一是语句级上下文表示及文档级信息聚合；二是句内及句间事件相互关联性建模。

数据增强是采用同义词替换方法，该策略可以视为对原数据的微小扰动，并不改变语句结构和语义信息，仍然符合文本特性。而替换产生的相似语句，往往具有相似的特征，在模型训练的过程中，能够充分调动模型挖掘相似特征间的差别，提升模型的稳定性和准确率。此外，替换产生的新数据对模型的泛化能力有一定增强作用。

本发明公开的基于信息融合和数据增强的篇章级事件检测方法，包括以下步骤：

使用词嵌入层，通过语句预训练得到词嵌入向量；

将所述词嵌入向量输入编码层提取句子的序列特征，并通过自注意力机制获得语句上下文信息；

将所述序列特征和所述语句上下文信息输入解码层以综合前两层信息处理的结果，解码得到每个token对应的事件标签向量；

将所述事件标签向量输入信息融合模块进行句子级的信息聚合，并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码，实现跨句信息的传播；

将每次迭代得到的语句信息加权求和，并通过Softmax层得到最后的序列标注结果。

将数据集通过同义词替换增强后，加入模型进行训练。

进一步的，将事件检测任务视为一个序列到序列的标注问题，并使用BIO标注模式进行建模，其中“B”为begin，“B-X”表示此元素在片段的开始位置且所在的片段属于X类型；“I”为inside，“I-Y”表示此元素在片段的中间位置且所在的片段属于Y类型，“O”为outside，表示所在的片段不属于任何类型。

进一步的，通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示，其中，词嵌入矩阵由Skip-gram模型预训练，NER类型嵌入矩阵在训练过程中随机初始化和更新；对于给定的token

，其综合嵌入向量表示为

。

进一步的，将BiLSTM模型应用于句子级语义编码，获取每个token的序列信息和上下文信息，表示为

。

进一步的，对于每个token

，通过自注意力机制将句子中所有token的语义信息加权平均后，作为其上下文表示。注意力权值计算如下：

其中

是当前时刻t第j个token的注意力权重，

是第j个token的得分值，

是任一token的得分值，

是当前时刻t的目标状态，

是所有的源状态，

是参数矩阵，

是偏置项；

由此，

的上下文表示为

，连接

的词嵌入和上下文表示得到

的最终语义表示为：

，其中

是第j个token的经过BiLSTM编码的语义向量，

是

经过注意力机制加权的语义向量，

是

的词嵌入表示；

将上下文向量c直接转化为

，这等价于用退化的注意力权值表示，即：

，

是t时刻第

个token的注意力权重，

是t时刻

的注意力权重；

先前涉及的事件信息辅助确定由第t个token触发的事件类型，这种关联由前向解码获取：

其中，

是前向RNN，

是前向RNN的状态值序列，

是前向事件标签向量序列，t为对应时刻，

是参数矩阵，

是偏置项，

是操作函数；

如果当前句子的后续语句提到关联事件，通过后向解码来捕获这种依赖关系：

其中

是后向RNN，

是后向RNN的状态值序列，

是后向事件标签向量序列，t为对应时刻；

通过将

和

连接起来，利用双向解码来对句子中的事件相互关联性进行建模，得到事件标签向量

，从而获取了双向事件的关联关系；由于

为间接输入，因此

还携带了语义信息和事件相关的实体信息。

进一步的，将所述事件标签向量输入信息融合模块进行句子级的信息聚合，包括：

对当前句子

，采用另一个以事件标记向量

作为输入的LSTM层，则第t个token处的信息为：

为第t-1个token处的信息，将最后一个状态

作为一个句子的综合表示，即

。

进一步的，通过用

和

扩展输入来整合跨句信息，

是第

个句子的综合表示，

是第

个句子的综合表示，并通过循环将相邻句子的信息迭代地聚合到当前句子，实现语句信息的跨句传播：

一个迭代结构由解码层和信息融合模块组成；对于给定的句子

，第k次迭代的输出用下式计算：

其中，

是在第

轮迭代中聚集的

的语句信息，

是在第

轮迭代中聚集的

的语句信息，

是在第k轮迭代中t时刻获得的事件标签向量序列，故

是t-1时刻的前向事件标签向量，

是t-1时刻的后向事件标签向量；对于源序列语句

的每个token，跨句信息的输入一致为

。

进一步的，在第一轮迭代中，解码层和信息融合模块对当前句子的信息进行建模；在第二轮中，通过将

和

输入到双向解码，把相邻句子的信息传播到当前语句；在第

轮，由于

捕获了在第

轮中的句子

的信息，则

可以通过获取

中的信息来获取

中的信息；对于

轮迭代的模型，可以获取距离最长为

层的句子信息。

进一步的，对于拥有不同迭代轮数的模型，最终将

的事件标签向量定义为各轮中

的加权和，即：

其中

是权重衰减参数，当

时，各层信息的贡献度随着距离的增加而逐渐减小。

进一步的，使用同义词替换的方法在保留语义的情况下生成尽量多符合语法结构的伪数据，再将替换产生的新数据输入模型进行训练，提升模型泛化能力，具体包括以下步骤：

使用同义词替换的方式进行数据增强，以概率p随机替换句子中的非停用词，并将生成的新文档

作为真实的标注数据，直接加入到原始的训练数据中，通过最小化损失函数进行模型的训练与更新；使用负对数似然函数

作为损失函数：

其中

是训练文档集和增强文档集的合集，D为训练文档集，

表示增强文档集，s是语句集，

是将

分类为事件

的对应值；

的对应的事件标签概率通过Softmax层计算为：

其中M是事件类型的数量，

是当参数为

时将事件类型j分配给文档d中的token

的概率，

是将

分类为事件m的对应值，

是参数矩阵，

是偏置项，

是

与所有事件类型的对应值。

本发明的有益效果如下：

本发明为解决句子级事件检测的信息有限，事件跨句关联以及语料标注困难、数据不平衡等问题，提出了基于信息融合和数据增强的篇章级事件检测方法，跨句传播语义信息，有效提升了模型的稳定性和准确性。本发明将事件检测任务转换为一个序列到序列的问题，应用基于双向LSTM机制和编码器-解码器框架的神经网络模型充分地提取了文档级的上下文信息及事件相关性等特征，并通过基于Wordnet同义词替换的数据增强方式解决了小样本数据集的扩充和平衡问题。通过实验，模型在ACE2005和TAC-KBP2017两个数据集上都取得较好的结果，与其他模型相比更优。

附图说明

图1 ACE2005数据集类型分布图；

图2本发明的篇章级事件检测模型结构。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本发明采用基于神经网络的事件检测模型，基于编码器-解码器框架，使用双向LSTM（BiLSTM）模型融合文档级的跨句信息，进行联合事件检测。并通过数据增强的方法解决数据稀缺的问题，提升模型的稳定性和泛化性。

本发明提出的篇章级事件检测模型共有五个核心模块，能够有效利用句内和句间事件相关性，跨句传播文档内上下文语句信息，进行篇章级信息融合及联合事件检测。

本发明采用编码器-解码器框架，使用双向LSTM（BiLSTM）模型进行联合事件检测模型，主要由五个核心模块组成：嵌入层、编码层、解码层、信息融合模块以及数据增强模块。

模型首先包含一个词嵌入层，通过语句预训练得到词嵌入向量；然后输入编码层提取句子的序列特征，并通过自注意力机制获得语句上下文信息；再把得到的结果输入解码层以综合前两层信息处理的结果，解码得到每个token对应的事件标签向量，将其输入信息融合模块进行句子级的信息聚合，并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码，实现跨句信息的传播；最后将每次迭代得到的语句信息加权求和，并通过Softmax层得到最后的序列标注结果。模型的整体框架如图2所示。

为解决跨句事件检测中一词多义、论元分散、句内事件并存，句间事件共现等众多挑战，本发明将事件检测任务视为一个序列到序列的标注问题，并使用BIO标注模式进行建模，其中“B”为begin，“B-X”表示此元素在该片段的开始位置且所在的片段属于X类型；“I”为inside，“I-Y”表示此元素在该片段的中间位置且所在的片段属于Y类型，“O”为outside，表示此片段不属于任何类型。

使用在这个模块中，通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示，其中，词嵌入矩阵由Skip-gram模型预训练，NER类型嵌入矩阵在训练过程中随机初始化和更新。

对于给定的token

，其综合嵌入向量表示为

。

编码层是使用双向LSTM和自注意力机制（Self-attention机制）对每个token的句子级上下文信息进行编码。

将BiLSTM模型应用于句子级语义编码，该模型能够有效地获取每个token的序列信息和上下文信息。BiLSTM结构包含前向编码和后向编码的两个LSTM模块，即：

（1）

编码后token的上下文表示为

。

在句子内使用自注意力机制能进一步整合远范围的上下文语义信息。对于每个token

，将句子中所有token的语义信息加权平均后，作为其上下文表示。Luong等人提出的注意机制应用如下：

（2）

（3）

由此，

的上下文表示为

，连接

的词嵌入和上下文表示得到

的最终语义表示为：

。

ED任务中的解码目的是生成与token对应的事件标签序列。由于标签序列（目标序列）元素和token序列（源序列）是一一对应的。因此，常规编解码框架中的上下文向量c可以直接转化为

，这等价于用退化的注意力权值表示。也就是说，

。

除了上下文语义向量

之外，先前涉及的事件信息可以辅助确定由第t个token触发的事件类型。这种关联可以由前向解码获取：

（4）

（5）

其中，

是前向RNN，

是前向RNN的状态值序列，

是前向事件标签向量序列，t为对应时刻，

是参数矩阵，

是偏置项，

是操作函数。

在传统的序列到序列任务中，目标序列长度在推导过程中是未知的，只可进行前向解码。但对于ED任务，当给定源序列时，目标序列的长度是已知的，因此可以从目标序列到源序列进行反向生成。由于当前句子的后续语句可能会提到关联事件，因此通过后向解码来捕获这种依赖关系：

（6）

（7）

其中

是后向RNN，

是后向RNN的状态值序列，

是后向事件标签向量序列，t为对应时刻。

通过将

和

，从而获取了双向事件的关联关系；由于

为间接输入，因此

还携带了语义信息和事件相关的实体信息。

双向LSTM解码模块可得到对应于每个token的事件标签向量，并捕获句子内的双向事件相互关联关系，为后续跨句信息传播的基础。

就单个句子而言，主要关注的信息为哪些实体触发了哪些事件。但前序及后序相邻语句的信息都与当前句子的事件信息紧密相关。因此，既要总结当前句子的语义信息，更需捕获跨语句的交互信息。

对当前句子

，采用另一个以事件标记向量

作为输入的LSTM层（如图2所示的信息融合模块）。则第t个token处的信息为：

（8）

将最后一个状态

作为一个句子的综合表示，即

。由于结构良好的信息能够方便地整合到其他句子的解码过程中，所以语句级信息融合模块能连接语句间的信息，增强了事件相关性。

双向解码层和信息融合模块获取的信息

捕获了句子内部的事件关联信息。然而，跨句信息尚未产生交互作用。对于一个给定的句子，如表1所示，它的相关信息主要存储在几个相邻句子中，而远距离句子相关性较弱。因此，主要在相邻句子之间传递综合后的句子信息

。

对于式（4）、（5）和式（6）、（7）所示的解码框架，可以通过用

和

扩展输入来整合跨句信息，并通过循环将相邻句子的信息迭代地聚合到当前句子，实现语句信息的跨句传播。

如图2所示，一个循环结构由解码层和信息融合模块组成。对于给定的句子

，第k次迭代的输出可以用下式计算：

（9）

（10）

（11）

（12）

（13）

其中，

是在第

轮迭代中聚集的

的语句信息，

是在第

轮迭代中聚集的

的语句信息，

是在第k轮迭代中t时刻获得的事件标签向量序列，故

是t-1时刻的前向事件标签向量，

是t-1时刻的后向事件标签向量；对于源序列语句

的每个token，跨句信息的输入一致为

。

公式（9）~（13）所示的迭代过程即为跨句语义和事件信息在文档中的扩散过程。也就是说，在第一轮迭代中，解码层和信息融合模块有效地对当前句子的信息进行建模，并未产生跨句交互；在第二轮中，通过将

和

输入到双向解码，把相邻句子的信息传播到当前语句；在第

轮，由于

捕获了在第

轮中的句子

的信息，则

可以通过获取

中的信息来获取

中的信息；对于

轮迭代的模型，可以获取距离最长为

层的句子信息。因此，随着迭代轮数的增加，该模型可以获取相邻较远句子的信息，由此实现句子级语义信息和事件相互关联性的跨句传播。

对于拥有不同迭代轮数的模型，最终将

的事件标签向量定义为各轮中

的加权和，即：

（14）

其中

是权重衰减参数，当

时，各层信息的贡献度随着距离的增加而逐渐减小。

数据增强起初应用于图像处理领域并取得众多成果，近年来逐渐迁移到NLP领域。相比于图像，自然语言的数据增强面临着不小的挑战：

（1）自然语言表达是离散的、多样化的，简单使用图像数据增强的方法如翻转、平移会导致文本语法结构错乱，实体信息漂移。

（2）语句表达具有语言顺序，随意替换文本片段会使语义缺失或语义改变，导致特征信息错误。

因此，在保留语义的情况下生成尽量多符合语法结构的伪数据是文本数据增强关键所在。本发明使用同义词替换的方法能够针对性解决这些问题。首先，同义词替换使用的是与原文单词意思相近的词语，基本不会改变语义信息；其次，替换过程中没有词语的增加或减少则不会造成语义缺失。此外，同义词替换能够生成特征相近的语句词向量表示，使得模型充分挖掘语句信息，增强了对相近语句的辨别能力，有助于提升事件检测准确率及模型的稳定性。而将替换产生的“新”数据输入模型进行训练，能够有效提升模型泛化能力。具体操作流程如算法1所示。

本发明使用同义词替换的方式进行数据增强，以概率p随机替换句子中的非停用词，并将生成的新文档

作为真实的标注数据，直接加入到原始的训练数据中，通过最小化损失函数进行模型的训练与更新。在本发明中，使用负对数似然函数

作为损失函数：

（15）

其中D为训练文档集，

表示增强文档集。

的对应的事件标签概率通过Softmax层计算为：

（16）

（17）

其中M是事件类型的数量，

是当参数为

时将事件类型j分配给文档d中的token

的概率，

是将

分类为事件m的对应值，

是参数矩阵，

是偏置项，

是

与所有事件类型的对应值。

本发明的有益效果如下：

本发明为解决句子级事件检测的信息有限、事件跨句关联以及语料标注困难、数据不平衡等问题，提出了基于信息融合和数据增强的事件检测方法，跨句传播语义信息，有效提升了模型的稳定性和准确性。本发明将事件检测任务转换为一个序列到序列的问题，应用基于双向LSTM机制和编码器-解码器框架的神经网络模型充分地提取了文档级的上下文信息及事件相关性等特征，并通过基于Wordnet同义词替换的数据增强方式解决了小样本数据集的扩充和平衡问题。通过实验，模型在ACE2005和TAC-KBP2017两个数据集上都取得较好的结果，与其他模型相比更优。

本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或***，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于信息融合和数据增强的篇章级事件检测方法，其特征在于，包括以下步骤：

使用词嵌入层，通过语句预训练得到词嵌入向量；

将所述序列特征和上下文信息输入解码层以综合解码层信息处理的结果，解码得到每个token对应的事件标签向量；

将所述事件标签向量输入信息融合模块进行句子级的信息聚合，并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码，通过迭代，实现跨句信息的不断传播；

将每次迭代得到的语句信息加权求和，并通过Softmax层得到最后的序列标注结果；

将数据集通过同义词替换增强后，加入模型进行训练。

2.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法，其特征在于，将事件检测任务视为一个序列到序列的标注问题，并使用BIO标注模式进行建模，其中“B”为begin，“B-X”表示此元素在片段的开始位置且所在的片段属于X类型；“I”为inside，“I-Y”表示此元素在片段的中间位置且所在的片段属于Y类型，“O”为outside，表示所在的片段不属于任何类型。

3.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法，其特征在于，通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示，其中，词嵌入矩阵由Skip-gram模型预训练，NER类型嵌入矩阵在训练过程中随机初始化和更新；对于给定的token