CN115510236A - 基于信息融合和数据增强的篇章级事件检测方法 - Google Patents
基于信息融合和数据增强的篇章级事件检测方法 Download PDFInfo
- Publication number
- CN115510236A CN115510236A CN202211472983.XA CN202211472983A CN115510236A CN 115510236 A CN115510236 A CN 115510236A CN 202211472983 A CN202211472983 A CN 202211472983A CN 115510236 A CN115510236 A CN 115510236A
- Authority
- CN
- China
- Prior art keywords
- information
- sentence
- event
- vector
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 230000002776 aggregation Effects 0.000 claims abstract description 9
- 238000004220 aggregation Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 150000003949 imides Chemical class 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于信息融合和数据增强的篇章级事件检测方法,步骤包括:预训练得到句子的词嵌入向量;将向量输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;将词向量、语句序列信息和上下文信息解码得到每个token对应的事件标签向量;将事件标签向量进行句子级的信息聚合,将聚合后的前后相邻句语义信息作为当前语句的输入再次解码;将解码层每次迭代得到的语句信息加权求和后,通过Softmax层得到序列标注结果。本发明基于信息融合和数据增强的事件检测方法,应用神经网络模型充分地提取了文档级的上下文信息及事件相关性,实现语义信息的跨句传播,有效提升了模型的稳定性和准确性。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及基于信息融合和数据增强的篇章级事件检测方法。
背景技术
从无结构的文本数据中检测事件信息是自然语言处理(Natural LanguageProcessing, NLP)领域的关键基础技术,广泛应用于机器翻译、智能问答、文摘生成等众多NLP的下游任务。事件检测(Event Detection, ED)也可称为事件识别,是指通过识别文本中的事件触发词,正确判断其事件类型。触发词通常为动词或名词,与预定义的事件类型相对应,针对不同的触发词都有特定的表示。例如,在语句“He has given an assurancethat they would not run away and there will not be a huge crowd at thehouse.”中run away是动词触发词,表达“逃跑”语义,所属的事件类型为Start-Position。
当前大多数方法都关注于从单个句子中提取事件,但通常文档由多个句子表示,包含多个事件,事件之间相互联系,句内事件并存、句间事件共现以及一词多义等问题普遍存在。例如,表1所示的文档包含6个句子,事件检测***需要从中识别出5类事件:由“wedding”和“marry”分别触发的两个Marry事件,由“hearing”触发的Trial- Hearing事件,由“taken”触发的Transport事件,以及由“run away”触发的Start-Position事件。在此文档中,一词多义现象如中的“run”既可以表示奔跑,触发Start-Position事件,又可以表示经营管理而触发Nominate事件;事件共现问题如和都触发了Marry事件;事件并存如中既包含由“wedding”触发的Marry事件,又包含由“hearing”触发的Trial-Hearing事件等,这些问题都直接影响事件检测的结果。因此在事件检测的过程中,必须充分利用文档级的上下文信息及事件间的相互关联性。
表1 ACE2005数据集示例文档
s<sub>1</sub>: The prison department has agreed to allow a jailed man to attend his daughter's wedding[<i>Marry</i>]ceremony Friday after his bail hearing[<i>Trial-Hearing</i>]. |
s<sub>2</sub>: He will be taken to the appeal[<i>Appeal</i>] court early Friday for a bail application. |
s<sub>3</sub>: Prison authorities have given the nod for he to be taken[<i>Transport</i>] home to marry[<i>Marry</i>] hiseldest daughter to an engineer. |
s<sub>4</sub>: But this is also conditional on police approval. |
s<sub>5</sub>: They have to get the green light from police. |
s<sub>6</sub>: He has given an assurance that they would not run away[<i>Start-Position</i>] and there will not be ahuge crowd at the house. |
采用神经网络模型进行事件检测是近年来的热门研究方向。神经网络模型的训练通常需要大量的数据作为支撑,但事件检测所需的文本数据面临着人工标注困难、语料不足、数据不平衡等众多问题,极大地影响模型的泛化性和训练的稳定性。
例如,在ACE2005数据集数据不平衡现象明显(如图1所示,其虚线阈值为100):33类事件样本数据具有长尾特性,仅少量事件样本数较大,如Attack事件样本众多,而Marry、Fine等事件类型样本数都低于100远少于Attack事件,Acquit事件包含的三种类型实例甚至少于10个。
数据匮乏可通过寻找新数据进行标注和基于原有数据进行扩充这两种方法有效解决,但由于事件信息结构复杂,人工标注事件对标注者的专业要求高,导致新数据标注往往成本高、代价大。基于原数据进行数据增强、扩充数据样本规模是当前的主流方法。
事件检测是近年来NLP领域研究的热点之一,目前针对事件检测任务的研究主要难点在于:
(1)触发词检测方面,同一词语在不同语句中会表达出不同的语意,并且一个单独的事件的论元可能被分散在不同的语句中;
(2)事件分类方面,对于未出现的新事件的检测分类困难,句内事件并存和句间事件共现现象明显,但事件间的相互关联性影响难以建模解决。
现有的方法中提出了许多事件检测模型,大致可以分为基于特征工程的方法和基于神经网络的方法这两类。
基于特征的方法取决于不同的事件特征。这类研究关注于事件信息的某些特征,通常使用支持向量机等传统的机器学***衡等问题对于特征抽取也有较大的影响。
神经网络始终是近年来人工智能领域的热点研究方向,利用大数据来自主学习、自动化构造特征,更能够挖掘出数据的丰富内在信息,使分类或预测任务更加容易。神经网络在处理图像、文本、音视频等非结构化数据上表现突出,取得的效果远超于通过人工规则构造特征的传统的机器学习方法。
事件检测模型的训练往往需要大量的语料作为支撑,但在文本数据方面,数据不平衡、数据匮乏等问题仍是一个较大的挑战,且极大地影响着神经网络模型训练过程中稳定性和泛化能力。
发明内容
数据增强相比于基于新数据进行人工标注的方法,代价小,速度快、成本低,且构造的产生的伪数据能够在模型训练中注入噪声,使模型的稳定性得以提升。针对上述问题,本发明提出基于信息融合和数据增强的篇章级事件检测方法。信息融合从跨句子的角度聚合文档级上下文信息,联合抽取出一段文本中的多个事件触发词和事件类型。融合文档信息、进行联合检测对于提升事件检测准确率具有重要作用,能够有效解决篇章级事件检测的两大难题:一是语句级上下文表示及文档级信息聚合;二是句内及句间事件相互关联性建模。
数据增强是采用同义词替换方法,该策略可以视为对原数据的微小扰动,并不改变语句结构和语义信息,仍然符合文本特性。而替换产生的相似语句,往往具有相似的特征,在模型训练的过程中,能够充分调动模型挖掘相似特征间的差别,提升模型的稳定性和准确率。此外,替换产生的新数据对模型的泛化能力有一定增强作用。
本发明公开的基于信息融合和数据增强的篇章级事件检测方法,包括以下步骤:
使用词嵌入层,通过语句预训练得到词嵌入向量;
将所述词嵌入向量输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;
将所述序列特征和所述语句上下文信息输入解码层以综合前两层信息处理的结果,解码得到每个token对应的事件标签向量;
将所述事件标签向量输入信息融合模块进行句子级的信息聚合,并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码,实现跨句信息的传播;
将每次迭代得到的语句信息加权求和,并通过Softmax层得到最后的序列标注结果。
将数据集通过同义词替换增强后,加入模型进行训练。
进一步的,将事件检测任务视为一个序列到序列的标注问题,并使用BIO标注模式进行建模,其中“B”为begin,“B-X”表示此元素在片段的开始位置且所在的片段属于X类型;“I”为inside,“I-Y”表示此元素在片段的中间位置且所在的片段属于Y类型,“O”为outside,表示所在的片段不属于任何类型。
进一步的,通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示,其中,词嵌入矩阵由Skip-gram模型预训练,NER类型嵌入矩阵在训练过程中随机初始化和更新;对于给定的token ,其综合嵌入向量表示为。
先前涉及的事件信息辅助确定由第t个token触发的事件类型,这种关联由前向解码获取:
如果当前句子的后续语句提到关联事件,通过后向解码来捕获这种依赖关系:
进一步的,将所述事件标签向量输入信息融合模块进行句子级的信息聚合,包括:
其中,是在第轮迭代中聚集的的语句信息,是在第轮迭代中聚集的的语句信息,是在第k轮迭代中t时刻获得的事件标签向量序列,故是t-1时刻的前向事件标签向量,是t-1时刻的后向事件标签向量;对于源序列语句的每个token,跨句信息的输入一致为。
进一步的,在第一轮迭代中,解码层和信息融合模块对当前句子的信息进行建模;在第二轮中,通过将和输入到双向解码,把相邻句子的信息传播到当前语句;在第轮,由于捕获了在第轮中的句子的信息,则可以通过获取中的信息来获取中的信息;对于 轮迭代的模型,可以获取距离最长为层的句子信息。
进一步的,使用同义词替换的方法在保留语义的情况下生成尽量多符合语法结构的伪数据,再将替换产生的新数据输入模型进行训练,提升模型泛化能力,具体包括以下步骤:
使用同义词替换的方式进行数据增强,以概率p随机替换句子中的非停用词,并将生成的新文档作为真实的标注数据,直接加入到原始的训练数据中,通过最小化损失函数进行模型的训练与更新;使用负对数似然函数作为损失函数:
本发明的有益效果如下:
本发明为解决句子级事件检测的信息有限,事件跨句关联以及语料标注困难、数据不平衡等问题,提出了基于信息融合和数据增强的篇章级事件检测方法,跨句传播语义信息,有效提升了模型的稳定性和准确性。本发明将事件检测任务转换为一个序列到序列的问题,应用基于双向LSTM机制和编码器-解码器框架的神经网络模型充分地提取了文档级的上下文信息及事件相关性等特征,并通过基于Wordnet同义词替换的数据增强方式解决了小样本数据集的扩充和平衡问题。通过实验,模型在ACE2005和TAC-KBP2017两个数据集上都取得较好的结果,与其他模型相比更优。
附图说明
图1 ACE2005数据集类型分布图;
图2本发明的篇章级事件检测模型结构。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本发明采用基于神经网络的事件检测模型,基于编码器-解码器框架,使用双向LSTM(BiLSTM)模型融合文档级的跨句信息,进行联合事件检测。并通过数据增强的方法解决数据稀缺的问题,提升模型的稳定性和泛化性。
本发明提出的篇章级事件检测模型共有五个核心模块,能够有效利用句内和句间事件相关性,跨句传播文档内上下文语句信息,进行篇章级信息融合及联合事件检测。
本发明采用编码器-解码器框架,使用双向LSTM(BiLSTM)模型进行联合事件检测模型,主要由五个核心模块组成:嵌入层、编码层、解码层、信息融合模块以及数据增强模块。
模型首先包含一个词嵌入层,通过语句预训练得到词嵌入向量;然后输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;再把得到的结果输入解码层以综合前两层信息处理的结果,解码得到每个token对应的事件标签向量,将其输入信息融合模块进行句子级的信息聚合,并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码,实现跨句信息的传播;最后将每次迭代得到的语句信息加权求和,并通过Softmax层得到最后的序列标注结果。模型的整体框架如图2所示。
为解决跨句事件检测中一词多义、论元分散、句内事件并存,句间事件共现等众多挑战,本发明将事件检测任务视为一个序列到序列的标注问题,并使用BIO标注模式进行建模,其中“B”为begin,“B-X”表示此元素在该片段的开始位置且所在的片段属于X类型;“I”为inside,“I-Y”表示此元素在该片段的中间位置且所在的片段属于Y类型,“O”为outside,表示此片段不属于任何类型。
使用在这个模块中,通过串联每个token的词嵌入和NER类型嵌入得到其综合的词向量表示,其中,词嵌入矩阵由Skip-gram模型预训练,NER类型嵌入矩阵在训练过程中随机初始化和更新。
编码层是使用双向LSTM和自注意力机制(Self-attention机制)对每个token的句子级上下文信息进行编码。
将BiLSTM模型应用于句子级语义编码,该模型能够有效地获取每个token的序列信息和上下文信息。BiLSTM结构包含前向编码和后向编码的两个LSTM模块,即:
ED任务中的解码目的是生成与token对应的事件标签序列。由于标签序列(目标序列)元素和token序列(源序列)是一一对应的。因此,常规编解码框架中的上下文向量c可以直接转化为,这等价于用退化的注意力权值表示。也就是说,。
在传统的序列到序列任务中,目标序列长度在推导过程中是未知的,只可进行前向解码。但对于ED任务,当给定源序列时,目标序列的长度是已知的,因此可以从目标序列到源序列进行反向生成。由于当前句子的后续语句可能会提到关联事件,因此通过后向解码来捕获这种依赖关系:
双向LSTM解码模块可得到对应于每个token的事件标签向量,并捕获句子内的双向事件相互关联关系,为后续跨句信息传播的基础。
就单个句子而言,主要关注的信息为哪些实体触发了哪些事件。但前序及后序相邻语句的信息都与当前句子的事件信息紧密相关。因此,既要总结当前句子的语义信息,更需捕获跨语句的交互信息。
双向解码层和信息融合模块获取的信息捕获了句子内部的事件关联信息。然而,跨句信息尚未产生交互作用。对于一个给定的句子,如表1所示,它的相关信息主要存储在几个相邻句子中,而远距离句子相关性较弱。因此,主要在相邻句子之间传递综合后的句子信息。
其中,是在第轮迭代中聚集的的语句信息,是在第轮迭代中聚集的的语句信息,是在第k轮迭代中t时刻获得的事件标签向量序列,故是t-1时刻的前向事件标签向量,是t-1时刻的后向事件标签向量;对于源序列语句的每个token,跨句信息的输入一致为。
公式(9)~(13)所示的迭代过程即为跨句语义和事件信息在文档中的扩散过程。也就是说,在第一轮迭代中,解码层和信息融合模块有效地对当前句子的信息进行建模,并未产生跨句交互;在第二轮中,通过将和输入到双向解码,把相邻句子的信息传播到当前语句;在第轮,由于捕获了在第轮中的句子的信息,则可以通过获取中的信息来获取中的信息;对于 轮迭代的模型,可以获取距离最长为层的句子信息。因此,随着迭代轮数的增加,该模型可以获取相邻较远句子的信息,由此实现句子级语义信息和事件相互关联性的跨句传播。
数据增强起初应用于图像处理领域并取得众多成果,近年来逐渐迁移到NLP领域。相比于图像,自然语言的数据增强面临着不小的挑战:
(1)自然语言表达是离散的、多样化的,简单使用图像数据增强的方法如翻转、平移会导致文本语法结构错乱,实体信息漂移。
(2)语句表达具有语言顺序,随意替换文本片段会使语义缺失或语义改变,导致特征信息错误。
因此,在保留语义的情况下生成尽量多符合语法结构的伪数据是文本数据增强关键所在。本发明使用同义词替换的方法能够针对性解决这些问题。首先,同义词替换使用的是与原文单词意思相近的词语,基本不会改变语义信息;其次,替换过程中没有词语的增加或减少则不会造成语义缺失。此外,同义词替换能够生成特征相近的语句词向量表示,使得模型充分挖掘语句信息,增强了对相近语句的辨别能力,有助于提升事件检测准确率及模型的稳定性。而将替换产生的“新”数据输入模型进行训练,能够有效提升模型泛化能力。具体操作流程如算法1所示。
本发明使用同义词替换的方式进行数据增强,以概率p随机替换句子中的非停用词,并将生成的新文档作为真实的标注数据,直接加入到原始的训练数据中,通过最小化损失函数进行模型的训练与更新。在本发明中,使用负对数似然函数作为损失函数:
本发明的有益效果如下:
本发明为解决句子级事件检测的信息有限、事件跨句关联以及语料标注困难、数据不平衡等问题,提出了基于信息融合和数据增强的事件检测方法,跨句传播语义信息,有效提升了模型的稳定性和准确性。本发明将事件检测任务转换为一个序列到序列的问题,应用基于双向LSTM机制和编码器-解码器框架的神经网络模型充分地提取了文档级的上下文信息及事件相关性等特征,并通过基于Wordnet同义词替换的数据增强方式解决了小样本数据集的扩充和平衡问题。通过实验,模型在ACE2005和TAC-KBP2017两个数据集上都取得较好的结果,与其他模型相比更优。
本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或***,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于信息融合和数据增强的篇章级事件检测方法,其特征在于,包括以下步骤:
使用词嵌入层,通过语句预训练得到词嵌入向量;
将所述词嵌入向量输入编码层提取句子的序列特征,并通过自注意力机制获得语句上下文信息;
将所述序列特征和上下文信息输入解码层以综合解码层信息处理的结果,解码得到每个token对应的事件标签向量;
将所述事件标签向量输入信息融合模块进行句子级的信息聚合,并将聚合后的前一句和后一句的事件信息作为当前语句的输入再次解码,通过迭代,实现跨句信息的不断传播;
将每次迭代得到的语句信息加权求和,并通过Softmax层得到最后的序列标注结果;
将数据集通过同义词替换增强后,加入模型进行训练。
2.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,将事件检测任务视为一个序列到序列的标注问题,并使用BIO标注模式进行建模,其中“B”为begin,“B-X”表示此元素在片段的开始位置且所在的片段属于X类型;“I”为inside,“I-Y”表示此元素在片段的中间位置且所在的片段属于Y类型,“O”为outside,表示所在的片段不属于任何类型。
注意力权值为:
先前涉及的事件信息辅助确定由第t个token触发的事件类型,这种关联由前向解码获取:
如果当前句子的后续语句提到关联事件,通过后向解码来捕获这种依赖关系:
10.根据权利要求1所述的基于信息融合和数据增强的篇章级事件检测方法,其特征在于,使用同义词替换的方法在保留语义的情况下生成尽量多符合语法结构的伪数据,再将替换产生的新数据输入模型进行训练,提升模型泛化能力,具体包括以下步骤:
使用同义词替换的方式进行数据增强,以概率p随机替换句子中的非停用词,并将生成的新文档作为真实的标注数据,直接加入到原始的训练数据中,通过最小化损失函数进行模型的训练与更新;使用负对数似然函数作为损失函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211472983.XA CN115510236A (zh) | 2022-11-23 | 2022-11-23 | 基于信息融合和数据增强的篇章级事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211472983.XA CN115510236A (zh) | 2022-11-23 | 2022-11-23 | 基于信息融合和数据增强的篇章级事件检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115510236A true CN115510236A (zh) | 2022-12-23 |
Family
ID=84513711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211472983.XA Pending CN115510236A (zh) | 2022-11-23 | 2022-11-23 | 基于信息融合和数据增强的篇章级事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115510236A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701576A (zh) * | 2023-08-04 | 2023-09-05 | 华东交通大学 | 无触发词的事件检测方法和*** |
CN117236436A (zh) * | 2023-11-16 | 2023-12-15 | 江西师范大学 | 基于外部知识的跨句多层双向网络事件检测方法 |
CN117670571A (zh) * | 2024-01-30 | 2024-03-08 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177417A (zh) * | 2021-05-20 | 2021-07-27 | 辽宁师范大学 | 一种基于混合神经网络和多级注意力机制的触发词识别方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN114580428A (zh) * | 2022-01-24 | 2022-06-03 | 中国电子科技集团公司第十五研究所 | 融合多任务和多标签学习的司法领域深度事件抽取方法 |
CN114706975A (zh) * | 2022-01-19 | 2022-07-05 | 天津大学 | 引入数据增强的sa-lstm对停电新闻的文本分类方法 |
-
2022
- 2022-11-23 CN CN202211472983.XA patent/CN115510236A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177417A (zh) * | 2021-05-20 | 2021-07-27 | 辽宁师范大学 | 一种基于混合神经网络和多级注意力机制的触发词识别方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN114706975A (zh) * | 2022-01-19 | 2022-07-05 | 天津大学 | 引入数据增强的sa-lstm对停电新闻的文本分类方法 |
CN114580428A (zh) * | 2022-01-24 | 2022-06-03 | 中国电子科技集团公司第十五研究所 | 融合多任务和多标签学习的司法领域深度事件抽取方法 |
Non-Patent Citations (1)
Title |
---|
DONGFANG LOU ET AL.: "MLBiNet: A Cross-Sentence Collective Event Detection Network", 《PROCEEDINGS OF THE 59TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 11TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701576A (zh) * | 2023-08-04 | 2023-09-05 | 华东交通大学 | 无触发词的事件检测方法和*** |
CN116701576B (zh) * | 2023-08-04 | 2023-10-10 | 华东交通大学 | 无触发词的事件检测方法和*** |
CN117236436A (zh) * | 2023-11-16 | 2023-12-15 | 江西师范大学 | 基于外部知识的跨句多层双向网络事件检测方法 |
CN117670571A (zh) * | 2024-01-30 | 2024-03-08 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
CN117670571B (zh) * | 2024-01-30 | 2024-04-19 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | A comprehensive survey on pretrained foundation models: A history from bert to chatgpt | |
CN112487807B (zh) | 一种基于膨胀门卷积神经网络的文本关系抽取方法 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Yang et al. | Rits: Real-time interactive text steganography based on automatic dialogue model | |
CN111666756B (zh) | 一种基于主题融合的序列模型文本摘要生成方法 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
Gao et al. | Generating natural adversarial examples with universal perturbations for text classification | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN115329088A (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
Zhao et al. | Video captioning based on vision transformer and reinforcement learning | |
CN113268985B (zh) | 基于关系路径的远程监督关系抽取方法、装置及介质 | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与*** | |
Wu et al. | Context-aware style learning and content recovery networks for neural style transfer | |
Gao et al. | Chinese causal event extraction using causality‐associated graph neural network | |
CN112287687A (zh) | 基于案件属性感知的案件倾向性抽取式摘要方法 | |
CN116720531A (zh) | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及*** | |
CN113822018B (zh) | 实体关系联合抽取方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN115422945A (zh) | 一种融合情感挖掘的谣言检测方法及*** | |
CN115659172A (zh) | 基于关键信息掩码与拷贝的生成式文本摘要方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221223 |
|
RJ01 | Rejection of invention patent application after publication |