CN113282714A - 一种基于区分性词向量表示的事件检测方法 - Google Patents

一种基于区分性词向量表示的事件检测方法 Download PDF

Info

Publication number
CN113282714A
CN113282714A CN202110726463.6A CN202110726463A CN113282714A CN 113282714 A CN113282714 A CN 113282714A CN 202110726463 A CN202110726463 A CN 202110726463A CN 113282714 A CN113282714 A CN 113282714A
Authority
CN
China
Prior art keywords
word
representing
module
trigger
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110726463.6A
Other languages
English (en)
Other versions
CN113282714B (zh
Inventor
唐九阳
廖劲智
赵翔
李欣奕
谭真
陈盈果
黄魁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110726463.6A priority Critical patent/CN113282714B/zh
Publication of CN113282714A publication Critical patent/CN113282714A/zh
Application granted granted Critical
Publication of CN113282714B publication Critical patent/CN113282714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种基于区分性词向量表示的事件检测方法,所述方法包括:构建一种基于区分性词向量表示模型,包括编码模块、高斯核函数模块和对抗学习模块,所述的编码模块用于将句子中的每个单词生成高维向量空间中的表示,所述的高斯核函数模块,用于加大触发词内部组成单词与外部其他单词之间表示的区分性,所述的对抗学习模块,用于提升对触发词正样本的泛化识别能力;利用训练好的区分性词向量表示模型,在所有事件类型上逐一对每个单词预测是否属于该类下某一个触发词的起始位置或者结束位置,然后通过组合预测的开始位置和结束位置输出所有可能的触发词。

Description

一种基于区分性词向量表示的事件检测方法
技术领域
本发明涉及自然语言处理中的事件检测技术领域,尤其涉及一种基于区分性词向量表示的事件检测方法。
背景技术
从文本中检索、抽取事件实例在自动问答、对话***等自然语言相关任务中发挥着关键作用,而其中首先要完成的工作就是事件检测。事件检测(event detection,ED)致力于解决两个方面的问题:1)识别触发词,触发词是一类用以指使文本中特定事件的词语,包括但不限于单个动词、名词或者词组;2)判定分类,通过触发词及相关文本判定该触发词所属类别。
由于ED有利于自然语言处理中的许多下游应用,如问答、时空事件信息检索和机器阅读理解,ED引起了研究人员的广泛注意。具体来说,现有的方法中存在结合特征工程技术来手工构造特征;为解决数据的稀缺,采用了数据增强技术来增加训练数据的规模;以及基于最近神经网络的发展,引入潜在词表示,以更好地执行ED。
在ED的两个子任务之间,触发词识别的结果是触发词分类的基础。然而,正确识别触发词并非易事,因为当前数据稀缺成为ED中一个不可忽略的问题,这就需要模型能够更精准地判定句子中触发词的文本边界。然而,如果模型未关注单词的表示,会使得词向量包含的语义信息过于模糊,进而导致检测触发词的边界成为了一个棘手的挑战。在这种情况下,如果模型过于“谨慎”,它会倾向于做有把握的预测,可能忽略部分触发词,从而错过某些事件;而如果模型“大胆”,它可能会引入许多预测噪声,进而增大探测触发词边界的困难。本实施例将该问题定义为事件检测中的触发词片段检测问题。
这个问题严重影响了ED的表现。首先,现有的ED方法会产生许多假阴性的情况,其准确率远高于召回率。其次,错误分析显示,83%以上的错案被认为是由该问题引起的。在这种情况下,PLMEE,一种具有代表性的最先进(SOTA)方法,不仅错误预测了触发词的数量,而且混淆了触发词的特定边界(例如,“penalty”和“death penalty”)。此外,当前的ED方法忽略了触发词片段检测的问题,并且在识别事件触发词时缺乏专门的处理方法。
发明内容
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出了一种基于区分性词向量表示的事件检测方法。所述方法从文本中学习区分性词向量表示(DER),有了DER,模型期望能够精准地识别每个触发词,并正确标记其片段。为了实现这一目标,本发明方法提出了一个基于神经信息抽取的经典解决方案的新框架,该框架利用了两种有前景的技术:1)高斯核函数编码,它扩大了触发词内部单词和外部句子中其他单词表示之间的差异,2)对抗学习策略,该策略提升对触发词正样本的泛化识别能力。
一种基于区分性词向量表示的事件检测方法,所述方法包括:
步骤1,构建区分性词向量表示模型,包括编码模块、高斯核函数模块和对抗学习模块,所述的编码模块用于将句子中的每个单词生成高维向量空间中的表示,所述的高斯核函数模块,用于加大触发词内部组成单词与外部其他单词之间表示的差异性,所述的对抗学习模块,用于提升对触发词正样本的泛化识别能力;
步骤2,在所述的编码模块中,通过使用预训练BERT模型将句子的每个单词嵌入到高维向量空间中的上下文词向量表示中,以便提供包含语义特征的输入,同时,结合预定义事件类型的外部知识,进一步丰富单词表示中包含的信息;
步骤3,在所述的高斯核函数模块中,通过对编码后的词向量表示进行高斯核函数变换,利用高斯处理将词向量的分布约束在高斯分布中,以实现词向量在高维空间中的聚类,提升其对触发词和非触发词的差异性编码能力;
步骤4,在所述的对抗学习模块中,在训练时通过向词向量中加入随机扰动,促使模型更多地关注训练样本中有规律的语义信息,进而提升模型触发词正样本的泛化能力;
步骤5,利用训练好的区分性词向量表示模型,在所有事件类型上逐一对每个单词预测是否属于该类下某一个触发词的起始位置或者结束位置,然后通过组合预测的开始位置和结束位置输出所有可能的触发词;
更进一步地,在所述的编码模块中,基于BERT的语言表示模型被用作编码器,所述的BERT由12个相同的Transformer块的堆栈组成,每个块处理词嵌入、位置嵌入和段嵌入。在所有块依次计算出三种类型的嵌入之后,BERT输出它们的总和作为表示,同时,在编码模块中,利用预定义的触发词类型作为外部知识来增强BERT中的自注意机制,只使用上层事件类别作为外部知识,将所有上层事件类别与每个句子连接起来,具体形式如下:
[CLS]sentence[SEP]UT1[SEP]···[SEP]UTm[SEP],
其中,[CLS]表示BERT中起始位置标记,sentence表示输入的特定句子,[SEP]表示BERT中间隔符标记,UT是upper-type的缩写,表示事件的上层类型,m是数据集中的上层事件类别的数量。
更进一步地,所述的高斯核编码模块采用以下方法步骤:
经过编码模块后,可获得每个单词表示E∈Rl×d,其中R表示维度为d的实数空间,l表示输入文本的序列长度。整个高斯核函数映射过程由平均词向量表示和核函数两个部分构成,即:
p(X)=N(X|mean(E),KEE)
X=f(E)
其中,p表示先验概率符合高斯分布,N表示高斯分布符号,mean表示求目标序列中的平均词向量表示,f表示全连接网络对词向量表示进行映射,KEE表示核函数,具体定义如下:
[KEE]ij=k(Ei,Ej)=exp(-γ||Ei-Ej||2)
其中,k表示核函数运算,i和j表示文本中对应位置的词向量,exp表示自然指数函数,γ表示超参数,
Figure BDA0003137742670000041
表示向量的范数。
使用插值法抽在词向量中获取一定规模的数据样本,有:
U={f(I1),f(I2),...,f(Ik)}
其中,U表示插值后获得的词向量序列,I∈Rd表示不按序列顺序获取的词向量。当插值取值达到一定规模时,其概率分布同样符合高斯分布,此时有:
p(U)=N(mean(I),KII)
获得差值序列I=(I1,I2,...,Im),m表示插值时所选样本数量。
定义后验概率q,其概率分布满足高斯分布,其分布中的均值μ和方差σ2基于神经网络计算而得,具体如下:
Figure BDA0003137742670000051
Figure BDA0003137742670000052
表示高斯核函数模块计算所得的损失值,
Figure BDA0003137742670000053
Figure BDA0003137742670000054
分别表示开始和结束位置对抗学习模块计算所得的损失值,α∈(0,1)表示超参数用于控制损失值的数量级;高斯核函数模块的损失值计算如下:
Figure BDA0003137742670000055
其中,E表示求期望,ln表示自然数为底的对数函数,KL表示相对熵,||为相对熵中的特殊标记符号,无实际含义。其目的是为了使得计算中设计到的两个概率分布尽可能相似,因此在相对熵中,无论固定q(x)或是p(x)都能满足:
Figure BDA0003137742670000056
此外,衡量概率分布除了相对熵之外,还存在例如巴氏距离:
Figure BDA0003137742670000057
而此处选择相对熵是因其在神经网络计算中可进行更好的采样计算。
p(U|X)表示条件概率,同样符合高斯概率分布,其概率计算如下:
Figure BDA0003137742670000058
其中,[KIE]ij=k(Ii,Ej),K-1表示转置且
Figure BDA0003137742670000059
更进一步地,所述的对抗学习模块中采用以下对抗学习方法步骤:
首先构造对抗学习中的随机扰动产生方式,表示为:
Figure BDA00031377426700000510
其中,radv表示最终输入的随机扰动,r表示随机扰动,
Figure BDA0003137742670000061
表示二范数,ε表示超参数,
Figure BDA0003137742670000062
表示损失函数,θ表示模型中需要学习的参数。
采用线性近似生成上述随机扰动,表示为:
radv=-εg/||g||
Figure BDA0003137742670000063
其中,g表示损失函数
Figure BDA0003137742670000064
对输入词向量表示E的梯度,
Figure BDA0003137742670000065
表示梯度运算,f表示模型运算,y表示样本标签。在经过编码层的词向量表示E∈Rd上加入随机扰动,表示为:
E+radv
所得表示加入至事件抽取主体框架,具体地,将每个单词分为n个类,其中n是事件类型的数量,然后根据每种类型预测标签,对于每个句子,分别有两个相同的开始位置和结束位置分类器,每个单词的分类器的详细操作如下,
Figure BDA0003137742670000066
Figure BDA0003137742670000067
其中
Figure BDA0003137742670000068
是从句子中识别出第i个单词并将其分类为触发词的开始位置对于所有事件类型的概率,
Figure BDA0003137742670000069
是从句子中识别出第i个单词并将其分类为触发词的结束位置对于所有事件类型的概率,sigmoid是非线性激活函数,Wl和Wr是神经网络中的可训练权重,而bl和br是偏差项。对抗学习中综合损失值计算如下:
Figure BDA00031377426700000610
其中,
Figure BDA00031377426700000611
表示事件抽取过程产生的损失值,P表示模型预测单词的概率,Padv表示对抗学***衡两个部分的权重;
其中,
Figure BDA0003137742670000071
损失遵循二进制交叉熵损失函数,计算公示为:
Figure BDA0003137742670000072
其中,
Figure BDA0003137742670000073
表示经由二进制交叉熵损失函数计算得出的损失值,P表示句子中单词的预测概率,L表示真实标签的集合;T是事件类型的集合,S是选定的句子,|·|表示特定对象的数量,1≤k≤n,n为事件类型的数量;
综合可得最终优化的损失函数如下:
Figure BDA0003137742670000074
其中,
Figure BDA0003137742670000075
表示高斯核函数模块计算所得的损失值,
Figure BDA0003137742670000076
Figure BDA0003137742670000077
分别表示开始和结束位置对抗学习模块计算所得的损失值,α∈(0,1)表示超参数用于控制损失值的数量级。
与现有方法相比,本发明方法的优点在于:提出了一个新的针对ED问题的学习框架DER,包括两个创新设计的模块——高斯核函数和对抗学习,提高了区分触发词内部和外部单词的能力;本发明方法是第一个在ED中引入高斯核函数的思想,这是与ED的SOTA解决方案正交的;在标准数据集上的大量实验表明,DER模型在解决触发词片段识别问题方面是有效的。
附图说明
图1是本发明实施例中的典型事例图;
图2示出了本发明实施例的框架流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例遵循自动内容提取(ACE)共享任务中的术语。事件提及是描述事件的短语或句子,包括触发词和相应的组成要素;触发词是最清楚地表达事件提及的一些单词。
ACE上ED的标准任务包括事件触发词识别和相应的类型分类。考虑图1中的示例。“death penalty”是一个事件触发词,其事件类型由较高类型的“Justice”和子类型“Execute”组成,从而形成组合类型“Justice:Execute”。因此,给定该句子,ED将预测:1)“death penalty”是事件触发词,其事件类型为“Justice:Execute”;2)“convicted”是事件触发,其事件类型为“Justice:Convict”。
模型框架
图2为DER整体框架示意图,主要包括。
为了使它能够正确处理触发范围检测问题,本实施例设计了两个新的模块来升级框架。简而言之,DER模型由三个组件组成:编码模块,高斯核函数模块和对抗学习模块。
一种基于区分性词向量表示的事件检测方法,所述方法包括:
步骤1,构建区分性词向量表示模型,包括编码模块、高斯核函数模块和对抗学习模块,所述的编码模块用于将句子中的每个单词生成高维向量空间中的表示,所述的高斯核函数模块,用于加大触发词内部组成单词与外部其他单词之间表示的差异性,所述的对抗学习模块,用于提升对触发词正样本的泛化识别能力;
步骤2,在所述的编码模块中,通过使用预训练BERT模型将句子的每个单词嵌入到高维向量空间中的上下文词向量表示中,以便提供包含语义特征的输入,同时,结合预定义事件类型的外部知识,进一步丰富单词表示中包含的信息;
步骤3,在所述的高斯核函数模块中,通过对编码后的词向量表示进行高斯核函数变换,利用高斯处理将词向量的分布约束在高斯分布中,以实现词向量在高维空间中的聚类,提升其对触发词和非触发词的差异性编码能力;
步骤4,在所述的对抗学习模块中,在训练时通过向词向量中加入随机扰动,促使模型更多地关注训练样本中有规律的语义信息,进而提升模型触发词正样本的泛化能力;
步骤5,利用训练好的区分性词向量表示模型,在所有事件类型上逐一对每个单词预测是否属于该类下某一个触发词的起始位置或者结束位置,然后通过组合预测的开始位置和结束位置输出所有可能的触发词;
步骤6,根据触发词的预测结果进行文本中的事件检测。
具体地,在所述的编码模块中,基于BERT的语言表示模型被用作编码器,所述的BERT由12个相同的Transformer块的堆栈组成,每个块处理词嵌入、位置嵌入和段嵌入,在所有块依次计算出三种类型的嵌入之后,BERT输出它们的总和作为表示,同时,在编码模块中,利用预定义的触发词类型作为外部知识来增强BERT中的自注意机制,只使用上层事件类别作为外部知识,将所有上层事件类别与每个句子连接起来,具体形式如下:
[CLS]sentence[SEP]UT1[SEP]···[SEP]UTm[SEP],
其中,[CLS]表示BERT中起始位置标记,sentence表示输入的特定句子,[SEP]表示BERT中间隔符标记,UT是upper-type的缩写,表示事件的上层类型,m是数据集中的上层事件类别的数量。
具体地,所述的高斯核函数模块中:
经过编码模块后,可获得每个单词表示E∈Rl×d,其中R表示维度为d的实数空间,l表示输入文本的序列长度,整个高斯核函数映射过程由平均词向量表示和核函数两个部分构成,即:
p(X)=N(X|mean(E),KEE) (1)
X=f(E)
其中,p表示先验概率即高斯概率分布,N表示高斯分布符号,mean表示求目标序列中的平均词向量表示,f表示全连接网络对词向量表示进行映射,KEE表示核函数,具体定义如下:
[KEE]ij=k(Ei,Ej)=exp(-γ||Ei-Ej||2) (2)
其中,k表示核函数运算,Ei和Ej分别表示文本中对应i和j位置的词向量,exp表示自然指数函数,γ表示超参数,
Figure BDA0003137742670000101
表示向量的范数;
使用插值法抽在词向量中获取一定规模的数据样本,有:
U={f(I1),f(I2),...,f(Ik)} (3)
其中,U表示插值后获得的词向量序列,I∈Rd表示不按序列顺序获取的词向量;当插值取值达到一定规模时,其概率分布同样符合高斯分布,此时有:
p(U)=N(mean(I),KII) (4)
其中,KII所表示核函数与KEE相同。
更进一步地,所述的对抗学习模块中采用以下对抗学习方法步骤:
步骤401,构造对抗学习中的随机扰动产生方式,表示为:
Figure BDA0003137742670000111
其中,radv表示最终输入的随机扰动,r表示随机扰动,
Figure BDA0003137742670000112
表示二范数,ε表示超参数,
Figure BDA0003137742670000113
表示损失函数,θ表示模型中需要学习的参数;
步骤402,采用线性近似生成上述随机扰动,表示为:
radv=-εg/||g|| (6)
Figure BDA0003137742670000114
其中,g表示损失函数
Figure BDA0003137742670000115
对输入词向量表示E的梯度,
Figure BDA0003137742670000116
表示梯度运算,f表示模型运算,y表示样本标签;
步骤403,在经过编码层的词向量表示E∈Rd上加入随机扰动,表示为:
E+radv
步骤404,将随机扰动的词向量表示用作损失函数的输入。
更进一步地,在模型训练的过程中的综合损失函数为:
Figure BDA0003137742670000117
其中,
Figure BDA0003137742670000118
表示高斯核函数模块计算所得的损失值,
Figure BDA0003137742670000119
Figure BDA00031377426700001110
分别表示开始和结束位置对抗学习模块计算所得的损失值,α∈(0,1)表示超参数用于控制损失值的数量级;高斯核函数模块的损失值计算如下:
Figure BDA0003137742670000121
其中,E表示求期望,ln表示自然数为底的对数函数,KL表示相对熵,||为相对熵中的特殊标记符号,无实际含义,p(U|X)表示条件概率,计算如下:
Figure BDA0003137742670000122
其中,[KIE]ij=k(Ii,Ej),K-1表示转置且
Figure BDA0003137742670000123
q(U|X)表示先验概率,q同样是满足高斯分布的后验概率,对q(U|X)的计算基于神经网络,具体如下:
Figure BDA0003137742670000124
其中,μ和σ2表示神经网络的输出即q分布的均值和方差;
对抗学习模块的损失值计算如下:
Figure BDA0003137742670000125
其中,
Figure BDA0003137742670000126
表示事件抽取过程产生的损失值,P表示模型预测单词的概率,Padv表示对抗学***衡两个部分的权重;
其中,
Figure BDA0003137742670000127
损失遵循二进制交叉熵损失函数,计算公示为:
Figure BDA0003137742670000128
其中,
Figure BDA0003137742670000129
表示经由二进制交叉熵损失函数计算得出的损失值,P表示句子中单词的预测概率,L表示真实标签的集合;T是事件类型的集合,S是选定的句子,|·|表示特定对象的数量,1≤k≤n,n为事件类型的数量。
实验设定
数据集。本实施例对两个标准数据集进行评估:2005年的自动内容提取数据集(ACE2005)。关于该数据集的统计描述如表1所,它是事件相关任务中使用最广泛的数据集,包含599个文档。所有事件都被标记为8种类型和33种子类型。本实施例评估了33种组合类型分类。根据先前的研究,本实施例将599个文档分为529个训练文档,30个验证文档和40个测试文档。
Figure BDA0003137742670000131
表1数据集分析
指标。本实施例遵循事件检测的标准评估指标,该指标有两个方面:识别和分类。如果事件触发词的片段与真实触发词匹配,则可以正确识别事件触发词;如果事件触发词和对应的事件类型与真实触发词、类别均匹配,则认为正确分类事件触发词。本实施例在所有评估中报告了微-平均精度(Pre),召回率(Rec)和F1分数(F1)。
基线。采用以下9种方法进行比较:(1)基于特征的方法:涉及三种代表性方法。CrossEvent利用复杂功能的文档信息,MaxEnt仅采用人工设计的特征,Combined-PSL使用概率软逻辑模型来利用全局信息。(2)基于增强的方法:涉及两种代表方法。GMLATT采用门控式跨语言注意机制来利用多语言数据传递的补充信息,AD-DMBERT使用对抗模型来获取更多训练数据。(3)基于神经的方法:涉及四种代表性方法。DMCNN使用CNN自动提取特征,GCN-ED使用图卷积网络来捕获语法信息,JMEE利用多语言信息来进行更准确的上下文建模,DISTILL引入了Δ学习方法来提炼泛化知识。
总体结果
Figure BDA0003137742670000141
表2ACE2005上的总体结果。除DER的结果外,其他结果均引自原始论文。
在所有任务中,DER模型均优于对比的方法,并且在所有指标方面均达到了SOTA性能,这证明了本实施例所提出模块的优越性和解决触发词片段检测问题的有效性。特别是,对于类型分类的任务,就F1而言,DER模型要赶超基于数据增强的SOTA方法AD-DMBERT0.2%,赶超基于神经的SOTA方法DISTILL1.3%。
在基于增强的方法中,尽管该分支中方法的性能相对较好,但生成的样本不精确和不平衡会导致过拟合的问题。这个问题使得模型只能在训练数据中出现过的样本上表现良好,但是缺乏泛化能力,导致了最终预测精度高但召回率低。与基于增强的方法相比,DER模型不需要额外/外部的数据源。在基于表示的方法中,为ED任务设计了许多复杂的结构,这也导致了过拟合问题。与基于表示的方法相比,DER模型不依赖复杂的结构。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (5)

1.一种基于区分性词向量表示的事件检测方法,其特征在于,所述方法包括:
步骤1,构建区分性词向量表示模型,包括编码模块、高斯核函数模块和对抗学习模块,所述的编码模块用于将句子中的每个单词生成高维向量空间中的表示,所述的高斯核函数模块,用于加大触发词内部组成单词与外部其他单词之间表示的差异性,所述的对抗学习模块,用于提升对触发词正样本的泛化识别能力;
步骤2,在所述的编码模块中,通过使用预训练BERT模型将句子的每个单词嵌入到高维向量空间中的上下文词向量表示中,以便提供包含语义特征的输入,同时,结合预定义事件类型的外部知识,进一步丰富单词表示中包含的信息;
步骤3,在所述的高斯核函数模块中,通过对编码后的词向量表示进行高斯核函数变换,利用高斯处理将词向量的分布约束在高斯分布中,以实现词向量在高维空间中的聚类,提升其对触发词和非触发词的差异性编码能力;
步骤4,在所述的对抗学习模块中,在训练时通过向词向量中加入随机扰动,促使模型更多地关注训练样本中有规律的语义信息,进而提升模型触发词正样本的泛化能力;
步骤5,利用训练好的区分性词向量表示模型,在所有事件类型上逐一对每个单词预测是否属于该类下某一个触发词的起始位置或者结束位置,然后通过组合预测的开始位置和结束位置输出所有可能的触发词;
步骤6,根据触发词的预测结果进行文本中的事件检测。
2.根据权利要求1所述的一种基于区分性词向量表示的事件检测方法,其特征在于,在所述的编码模块中,基于BERT的语言表示模型被用作编码器,所述的BERT由12个相同的Transformer块的堆栈组成,每个块处理词嵌入、位置嵌入和段嵌入,在所有块依次计算出三种类型的嵌入之后,BERT输出它们的总和作为表示,同时,在编码模块中,利用预定义的触发词类型作为外部知识来增强BERT中的自注意机制,只使用上层事件类别作为外部知识,将所有上层事件类别与每个句子连接起来,具体形式如下:
[CLS]sentence[SEP]UT1[SEP]…[SEP]UTm[SEP],
其中,[CLS]表示BERT中起始位置标记,sentence表示输入的特定句子,[SEP]表示BERT中间隔符标记,UT是upper-type的缩写,表示事件的上层类型,m是数据集中的上层事件类别的数量。
3.根据权利要求2所述的一种基于区分性词向量表示的事件检测方法,其特征在于,所述的高斯核函数模块中:
经过编码模块后,可获得每个单词表示E∈Rl×d,其中R表示维度为d的实数空间,l表示输入文本的序列长度,整个高斯核函数映射过程由平均词向量表示和核函数两个部分构成,即:
p(X)=N(X|mean(E),KEE) (1)
X=f(E)
其中,p表示先验概率即高斯概率分布,N表示高斯分布符号,mean表示求目标序列中的平均词向量表示,f表示全连接网络对词向量表示进行映射,KEE表示核函数,具体定义如下:
[KEE]ij=k(Ei,Ej)=exp(-γ||Ei-Ej||2) (2)
其中,k表示核函数运算,Ei和Ej分别表示文本中对应i和j位置的词向量,exp表示自然指数函数,γ表示超参数,
Figure FDA0003137742660000021
表示向量的范数;
使用插值法抽在词向量中获取一定规模的数据样本,有:
U={f(I1),f(I2),...,f(Ik)} (3)
其中,U表示插值后获得的词向量序列,I∈Rd表示不按序列顺序获取的词向量;当插值取值达到一定规模时,其概率分布同样符合高斯分布,此时有:
p(U)=N(mean(I),KII) (4)
其中,KII所表示核函数与KEE相同。
4.根据权利要求3所述的一种基于区分性词向量表示的事件检测方法,其特征在于,所述的对抗学习模块中采用以下对抗学习方法步骤:
步骤401,构造对抗学习中的随机扰动产生方式,表示为:
Figure FDA0003137742660000031
其中,radv表示最终输入的随机扰动,r表示随机扰动,
Figure FDA0003137742660000032
表示二范数,ε表示超参数,
Figure FDA0003137742660000033
表示损失函数,θ表示模型中需要学习的参数;
步骤402,采用线性近似生成上述随机扰动,表示为:
radv=-εg/||g|| (6)
Figure FDA0003137742660000034
其中,g表示损失函数
Figure FDA0003137742660000035
对输入词向量表示E的梯度,
Figure FDA0003137742660000036
表示梯度运算,f表示模型运算,y表示样本标签;
步骤403,在经过编码层的词向量表示E∈Rd上加入随机扰动,表示为:
E+radv
步骤404,将随机扰动的词向量表示用作损失函数的输入。
5.根据权利要求3所述的一种基于区分性词向量表示的事件检测方法,其特征在于,在模型训练的过程中的综合损失函数为:
Figure FDA0003137742660000037
其中,
Figure FDA0003137742660000041
表示高斯核函数模块计算所得的损失值,
Figure FDA0003137742660000042
Figure FDA0003137742660000043
分别表示开始和结束位置对抗学习模块计算所得的损失值,α∈(0,1)表示超参数用于控制损失值的数量级;高斯核函数模块的损失值计算如下:
LG=E[-lnp(U|X)]+KL[q(U|X)||p(U)] (9)
其中,E表示求期望,ln表示自然数为底的对数函数,KL表示相对熵,||为相对熵中的特殊标记符号,无实际含义,p(U|X)表示条件概率,计算如下:
Figure FDA0003137742660000044
其中,[KIE]ij=k(Ii,Ej),K-1表示转置且
Figure FDA0003137742660000045
q(U|X)表示先验概率,q同样是满足高斯分布的后验概率,对q(U|X)的计算基于神经网络,具体如下:
Figure FDA0003137742660000046
其中,μ和σ2表示神经网络的输出即q分布的均值和方差;
对抗学习模块的损失值计算如下:
Figure FDA0003137742660000047
其中,
Figure FDA0003137742660000048
表示事件抽取过程产生的损失值,P表示模型预测单词的概率,Padv表示对抗学***衡两个部分的权重;
其中,
Figure FDA0003137742660000049
损失遵循二进制交叉熵损失函数,计算公示为:
Figure FDA00031377426600000410
其中,
Figure FDA00031377426600000411
表示经由二进制交叉熵损失函数计算得出的损失值,P表示句子中单词的预测概率,L表示真实标签的集合;T是事件类型的集合,S是选定的句子,|·|表示特定对象的数量,1≤k≤n,n为事件类型的数量。
CN202110726463.6A 2021-06-29 2021-06-29 一种基于区分性词向量表示的事件检测方法 Active CN113282714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110726463.6A CN113282714B (zh) 2021-06-29 2021-06-29 一种基于区分性词向量表示的事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110726463.6A CN113282714B (zh) 2021-06-29 2021-06-29 一种基于区分性词向量表示的事件检测方法

Publications (2)

Publication Number Publication Date
CN113282714A true CN113282714A (zh) 2021-08-20
CN113282714B CN113282714B (zh) 2022-09-20

Family

ID=77286273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110726463.6A Active CN113282714B (zh) 2021-06-29 2021-06-29 一种基于区分性词向量表示的事件检测方法

Country Status (1)

Country Link
CN (1) CN113282714B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与***
CN113806490A (zh) * 2021-09-27 2021-12-17 中国人民解放军国防科技大学 一种基于bert采样的文本通用触发器生成***和方法
CN114707517A (zh) * 2022-04-01 2022-07-05 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN111767402A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于对抗学习的限定域事件检测方法
CN112148832A (zh) * 2019-06-26 2020-12-29 天津大学 一种基于标签感知的双重自注意力网络的事件检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN112148832A (zh) * 2019-06-26 2020-12-29 天津大学 一种基于标签感知的双重自注意力网络的事件检测方法
CN111767402A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于对抗学习的限定域事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨玉亭等: "面向上下文注意力联合学习网络的方面级情感分类模型", 《模式识别与人工智能》 *
魏优等: "基于深层语境词表示与自注意力的生物医学事件抽取", 《计算机工程与科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与***
CN113468333B (zh) * 2021-09-02 2021-11-19 华东交通大学 一种融合层次类别信息的事件检测方法与***
CN113806490A (zh) * 2021-09-27 2021-12-17 中国人民解放军国防科技大学 一种基于bert采样的文本通用触发器生成***和方法
CN114707517A (zh) * 2022-04-01 2022-07-05 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法
CN114707517B (zh) * 2022-04-01 2024-05-03 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法

Also Published As

Publication number Publication date
CN113282714B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN110209823B (zh) 一种多标签文本分类方法及***
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN113282713B (zh) 基于差异性神经表示模型的事件触发词检测方法
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
Prabhakar et al. Performance analysis of hybrid deep learning models with attention mechanism positioning and focal loss for text classification
CN113656548B (zh) 基于数据包络分析的文本分类模型解释方法及***
CN116152551A (zh) 分类模型训练方法、分类方法、装置、设备及介质
Devkota et al. Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity
CN114722818A (zh) 一种基于对抗迁移学习的命名实体识别模型
Tang et al. Interpretability rules: Jointly bootstrapping a neural relation extractorwith an explanation decoder
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN113987090B (zh) 句中实体关系模型训练方法及句中实体关系识别方法
CN117113941B (zh) 标点符号恢复方法、装置、电子设备及存储介质
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant