CN113282714A

CN113282714A - 一种基于区分性词向量表示的事件检测方法

Info

Publication number: CN113282714A
Application number: CN202110726463.6A
Authority: CN
Inventors: 唐九阳; 廖劲智; 赵翔; 李欣奕; 谭真; 陈盈果; 黄魁华
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-08-20
Anticipated expiration: 2041-06-29
Also published as: CN113282714B

Abstract

本发明一种基于区分性词向量表示的事件检测方法，所述方法包括：构建一种基于区分性词向量表示模型，包括编码模块、高斯核函数模块和对抗学习模块，所述的编码模块用于将句子中的每个单词生成高维向量空间中的表示，所述的高斯核函数模块，用于加大触发词内部组成单词与外部其他单词之间表示的区分性，所述的对抗学习模块，用于提升对触发词正样本的泛化识别能力；利用训练好的区分性词向量表示模型，在所有事件类型上逐一对每个单词预测是否属于该类下某一个触发词的起始位置或者结束位置，然后通过组合预测的开始位置和结束位置输出所有可能的触发词。

Description

一种基于区分性词向量表示的事件检测方法

技术领域

本发明涉及自然语言处理中的事件检测技术领域，尤其涉及一种基于区分性词向量表示的事件检测方法。

背景技术

从文本中检索、抽取事件实例在自动问答、对话***等自然语言相关任务中发挥着关键作用，而其中首先要完成的工作就是事件检测。事件检测(event detection，ED)致力于解决两个方面的问题：1)识别触发词，触发词是一类用以指使文本中特定事件的词语，包括但不限于单个动词、名词或者词组；2)判定分类，通过触发词及相关文本判定该触发词所属类别。

由于ED有利于自然语言处理中的许多下游应用，如问答、时空事件信息检索和机器阅读理解，ED引起了研究人员的广泛注意。具体来说，现有的方法中存在结合特征工程技术来手工构造特征；为解决数据的稀缺，采用了数据增强技术来增加训练数据的规模；以及基于最近神经网络的发展，引入潜在词表示，以更好地执行ED。

在ED的两个子任务之间，触发词识别的结果是触发词分类的基础。然而，正确识别触发词并非易事，因为当前数据稀缺成为ED中一个不可忽略的问题，这就需要模型能够更精准地判定句子中触发词的文本边界。然而，如果模型未关注单词的表示，会使得词向量包含的语义信息过于模糊，进而导致检测触发词的边界成为了一个棘手的挑战。在这种情况下，如果模型过于“谨慎”，它会倾向于做有把握的预测，可能忽略部分触发词，从而错过某些事件；而如果模型“大胆”，它可能会引入许多预测噪声，进而增大探测触发词边界的困难。本实施例将该问题定义为事件检测中的触发词片段检测问题。

这个问题严重影响了ED的表现。首先，现有的ED方法会产生许多假阴性的情况，其准确率远高于召回率。其次，错误分析显示，83％以上的错案被认为是由该问题引起的。在这种情况下，PLMEE，一种具有代表性的最先进(SOTA)方法，不仅错误预测了触发词的数量，而且混淆了触发词的特定边界(例如，“penalty”和“death penalty”)。此外，当前的ED方法忽略了触发词片段检测的问题，并且在识别事件触发词时缺乏专门的处理方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明提出了一种基于区分性词向量表示的事件检测方法。所述方法从文本中学习区分性词向量表示(DER)，有了DER，模型期望能够精准地识别每个触发词，并正确标记其片段。为了实现这一目标，本发明方法提出了一个基于神经信息抽取的经典解决方案的新框架，该框架利用了两种有前景的技术：1)高斯核函数编码，它扩大了触发词内部单词和外部句子中其他单词表示之间的差异，2)对抗学习策略，该策略提升对触发词正样本的泛化识别能力。

一种基于区分性词向量表示的事件检测方法，所述方法包括：

步骤1，构建区分性词向量表示模型，包括编码模块、高斯核函数模块和对抗学习模块，所述的编码模块用于将句子中的每个单词生成高维向量空间中的表示，所述的高斯核函数模块，用于加大触发词内部组成单词与外部其他单词之间表示的差异性，所述的对抗学习模块，用于提升对触发词正样本的泛化识别能力；

步骤2，在所述的编码模块中，通过使用预训练BERT模型将句子的每个单词嵌入到高维向量空间中的上下文词向量表示中，以便提供包含语义特征的输入，同时，结合预定义事件类型的外部知识，进一步丰富单词表示中包含的信息；

步骤3，在所述的高斯核函数模块中，通过对编码后的词向量表示进行高斯核函数变换，利用高斯处理将词向量的分布约束在高斯分布中，以实现词向量在高维空间中的聚类，提升其对触发词和非触发词的差异性编码能力；

步骤4，在所述的对抗学习模块中，在训练时通过向词向量中加入随机扰动，促使模型更多地关注训练样本中有规律的语义信息，进而提升模型触发词正样本的泛化能力；

步骤5，利用训练好的区分性词向量表示模型，在所有事件类型上逐一对每个单词预测是否属于该类下某一个触发词的起始位置或者结束位置，然后通过组合预测的开始位置和结束位置输出所有可能的触发词；

更进一步地，在所述的编码模块中，基于BERT的语言表示模型被用作编码器，所述的BERT由12个相同的Transformer块的堆栈组成，每个块处理词嵌入、位置嵌入和段嵌入。在所有块依次计算出三种类型的嵌入之后，BERT输出它们的总和作为表示，同时，在编码模块中，利用预定义的触发词类型作为外部知识来增强BERT中的自注意机制，只使用上层事件类别作为外部知识，将所有上层事件类别与每个句子连接起来，具体形式如下：

[CLS]sentence[SEP]UT₁[SEP]···[SEP]UT_m[SEP],

其中，[CLS]表示BERT中起始位置标记，sentence表示输入的特定句子，[SEP]表示BERT中间隔符标记，UT是upper-type的缩写，表示事件的上层类型，m是数据集中的上层事件类别的数量。

更进一步地，所述的高斯核编码模块采用以下方法步骤：

经过编码模块后，可获得每个单词表示E∈R^l×d，其中R表示维度为d的实数空间，l表示输入文本的序列长度。整个高斯核函数映射过程由平均词向量表示和核函数两个部分构成，即：

p(X)＝N(X|mean(E),K_EE)

X＝f(E)

其中，p表示先验概率符合高斯分布，N表示高斯分布符号，mean表示求目标序列中的平均词向量表示，f表示全连接网络对词向量表示进行映射，K_EE表示核函数，具体定义如下：

[K_EE]_ij＝k(Eⁱ,E^j)＝exp(-γ||Eⁱ-E^j||²)

其中，k表示核函数运算，i和j表示文本中对应位置的词向量，exp表示自然指数函数，γ表示超参数，

表示向量的范数。

使用插值法抽在词向量中获取一定规模的数据样本，有：

U＝{f(I¹),f(I²),...,f(I^k)}

其中，U表示插值后获得的词向量序列，I∈R^d表示不按序列顺序获取的词向量。当插值取值达到一定规模时，其概率分布同样符合高斯分布，此时有：

p(U)＝N(mean(I),K_II)

获得差值序列I＝(I¹，I²，...,I^m)，m表示插值时所选样本数量。

定义后验概率q，其概率分布满足高斯分布，其分布中的均值μ和方差σ²基于神经网络计算而得，具体如下：

表示高斯核函数模块计算所得的损失值，

和

分别表示开始和结束位置对抗学习模块计算所得的损失值，α∈(0,1)表示超参数用于控制损失值的数量级；高斯核函数模块的损失值计算如下：

其中，E表示求期望，ln表示自然数为底的对数函数，KL表示相对熵，||为相对熵中的特殊标记符号，无实际含义。其目的是为了使得计算中设计到的两个概率分布尽可能相似，因此在相对熵中，无论固定q(x)或是p(x)都能满足：

此外，衡量概率分布除了相对熵之外，还存在例如巴氏距离：

而此处选择相对熵是因其在神经网络计算中可进行更好的采样计算。

p(U|X)表示条件概率，同样符合高斯概率分布，其概率计算如下：

其中，[K_IE]_ij＝k(Iⁱ,E^j)，K^-1表示转置且

更进一步地，所述的对抗学习模块中采用以下对抗学习方法步骤：

首先构造对抗学习中的随机扰动产生方式，表示为：

其中，r_adv表示最终输入的随机扰动，r表示随机扰动，

表示二范数，ε表示超参数，

表示损失函数，θ表示模型中需要学习的参数。

采用线性近似生成上述随机扰动，表示为：

r_adv＝-εg/||g||

其中，g表示损失函数

对输入词向量表示E的梯度，

表示梯度运算，f表示模型运算，y表示样本标签。在经过编码层的词向量表示E∈R^d上加入随机扰动，表示为：

E+r_adv

所得表示加入至事件抽取主体框架，具体地，将每个单词分为n个类，其中n是事件类型的数量，然后根据每种类型预测标签，对于每个句子，分别有两个相同的开始位置和结束位置分类器,每个单词的分类器的详细操作如下，

其中

是从句子中识别出第i个单词并将其分类为触发词的开始位置对于所有事件类型的概率，

是从句子中识别出第i个单词并将其分类为触发词的结束位置对于所有事件类型的概率，sigmoid是非线性激活函数，W_l和W_r是神经网络中的可训练权重，而b_l和b_r是偏差项。对抗学习中综合损失值计算如下：

其中，

表示事件抽取过程产生的损失值，P表示模型预测单词的概率，P_adv表示对抗学***衡两个部分的权重；

其中，

损失遵循二进制交叉熵损失函数，计算公示为：

其中，

表示经由二进制交叉熵损失函数计算得出的损失值，P表示句子中单词的预测概率，L表示真实标签的集合；T是事件类型的集合，S是选定的句子，|·|表示特定对象的数量，1≤k≤n，n为事件类型的数量；

综合可得最终优化的损失函数如下：

其中，

表示高斯核函数模块计算所得的损失值，

和

分别表示开始和结束位置对抗学习模块计算所得的损失值，α∈(0,1)表示超参数用于控制损失值的数量级。

与现有方法相比，本发明方法的优点在于：提出了一个新的针对ED问题的学习框架DER，包括两个创新设计的模块——高斯核函数和对抗学习，提高了区分触发词内部和外部单词的能力；本发明方法是第一个在ED中引入高斯核函数的思想，这是与ED的SOTA解决方案正交的；在标准数据集上的大量实验表明，DER模型在解决触发词片段识别问题方面是有效的。

附图说明

图1是本发明实施例中的典型事例图；

图2示出了本发明实施例的框架流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例遵循自动内容提取(ACE)共享任务中的术语。事件提及是描述事件的短语或句子，包括触发词和相应的组成要素；触发词是最清楚地表达事件提及的一些单词。

ACE上ED的标准任务包括事件触发词识别和相应的类型分类。考虑图1中的示例。“death penalty”是一个事件触发词，其事件类型由较高类型的“Justice”和子类型“Execute”组成，从而形成组合类型“Justice：Execute”。因此，给定该句子，ED将预测：1)“death penalty”是事件触发词，其事件类型为“Justice：Execute”；2)“convicted”是事件触发，其事件类型为“Justice：Convict”。

模型框架

图2为DER整体框架示意图，主要包括。

为了使它能够正确处理触发范围检测问题，本实施例设计了两个新的模块来升级框架。简而言之，DER模型由三个组件组成：编码模块，高斯核函数模块和对抗学习模块。

步骤6，根据触发词的预测结果进行文本中的事件检测。

具体地，在所述的编码模块中，基于BERT的语言表示模型被用作编码器，所述的BERT由12个相同的Transformer块的堆栈组成，每个块处理词嵌入、位置嵌入和段嵌入，在所有块依次计算出三种类型的嵌入之后，BERT输出它们的总和作为表示，同时，在编码模块中，利用预定义的触发词类型作为外部知识来增强BERT中的自注意机制，只使用上层事件类别作为外部知识，将所有上层事件类别与每个句子连接起来，具体形式如下：

[CLS]sentence[SEP]UT₁[SEP]···[SEP]UT_m[SEP],

具体地，所述的高斯核函数模块中：

经过编码模块后，可获得每个单词表示E∈R^l×d，其中R表示维度为d的实数空间，l表示输入文本的序列长度，整个高斯核函数映射过程由平均词向量表示和核函数两个部分构成，即：

p(X)＝N(X|mean(E),K_EE) (1)

X＝f(E)

其中，p表示先验概率即高斯概率分布，N表示高斯分布符号，mean表示求目标序列中的平均词向量表示，f表示全连接网络对词向量表示进行映射，K_EE表示核函数，具体定义如下：

[K_EE]_ij＝k(Eⁱ,E^j)＝exp(-γ||Eⁱ-E^j||²) (2)

其中，k表示核函数运算，Eⁱ和E^j分别表示文本中对应i和j位置的词向量，exp表示自然指数函数，γ表示超参数，

表示向量的范数；

使用插值法抽在词向量中获取一定规模的数据样本，有：

U＝{f(I¹),f(I²),...,f(I^k)} (3)

其中，U表示插值后获得的词向量序列，I∈R^d表示不按序列顺序获取的词向量；当插值取值达到一定规模时，其概率分布同样符合高斯分布，此时有：

p(U)＝N(mean(I),K_II) (4)

其中，K_II所表示核函数与K_EE相同。

步骤401，构造对抗学习中的随机扰动产生方式，表示为：

其中，r_adv表示最终输入的随机扰动，r表示随机扰动，

表示二范数，ε表示超参数，

表示损失函数，θ表示模型中需要学习的参数；

步骤402，采用线性近似生成上述随机扰动，表示为：

r_adv＝-εg/||g|| (6)

其中，g表示损失函数

对输入词向量表示E的梯度，

表示梯度运算，f表示模型运算，y表示样本标签；

步骤403，在经过编码层的词向量表示E∈R^d上加入随机扰动，表示为：

E+r_adv

步骤404，将随机扰动的词向量表示用作损失函数的输入。

更进一步地，在模型训练的过程中的综合损失函数为：

其中，

表示高斯核函数模块计算所得的损失值，

和

其中，E表示求期望，ln表示自然数为底的对数函数，KL表示相对熵，||为相对熵中的特殊标记符号，无实际含义，p(U|X)表示条件概率，计算如下：

其中，[K_IE]_ij＝k(Iⁱ,E^j)，K^-1表示转置且

q(U|X)表示先验概率，q同样是满足高斯分布的后验概率，对q(U|X)的计算基于神经网络，具体如下：

其中，μ和σ²表示神经网络的输出即q分布的均值和方差；

对抗学习模块的损失值计算如下：

其中，

其中，

损失遵循二进制交叉熵损失函数，计算公示为：

其中，

表示经由二进制交叉熵损失函数计算得出的损失值，P表示句子中单词的预测概率，L表示真实标签的集合；T是事件类型的集合，S是选定的句子，|·|表示特定对象的数量，1≤k≤n，n为事件类型的数量。

实验设定

数据集。本实施例对两个标准数据集进行评估：2005年的自动内容提取数据集(ACE2005)。关于该数据集的统计描述如表1所，它是事件相关任务中使用最广泛的数据集，包含599个文档。所有事件都被标记为8种类型和33种子类型。本实施例评估了33种组合类型分类。根据先前的研究，本实施例将599个文档分为529个训练文档，30个验证文档和40个测试文档。

表1数据集分析

指标。本实施例遵循事件检测的标准评估指标，该指标有两个方面：识别和分类。如果事件触发词的片段与真实触发词匹配，则可以正确识别事件触发词；如果事件触发词和对应的事件类型与真实触发词、类别均匹配，则认为正确分类事件触发词。本实施例在所有评估中报告了微-平均精度(Pre)，召回率(Rec)和F1分数(F1)。

基线。采用以下9种方法进行比较：(1)基于特征的方法：涉及三种代表性方法。CrossEvent利用复杂功能的文档信息，MaxEnt仅采用人工设计的特征，Combined-PSL使用概率软逻辑模型来利用全局信息。(2)基于增强的方法：涉及两种代表方法。GMLATT采用门控式跨语言注意机制来利用多语言数据传递的补充信息，AD-DMBERT使用对抗模型来获取更多训练数据。(3)基于神经的方法：涉及四种代表性方法。DMCNN使用CNN自动提取特征，GCN-ED使用图卷积网络来捕获语法信息，JMEE利用多语言信息来进行更准确的上下文建模，DISTILL引入了Δ学习方法来提炼泛化知识。

总体结果

表2ACE2005上的总体结果。除DER的结果外，其他结果均引自原始论文。

在所有任务中，DER模型均优于对比的方法，并且在所有指标方面均达到了SOTA性能，这证明了本实施例所提出模块的优越性和解决触发词片段检测问题的有效性。特别是，对于类型分类的任务，就F1而言，DER模型要赶超基于数据增强的SOTA方法AD-DMBERT0.2％，赶超基于神经的SOTA方法DISTILL1.3％。

在基于增强的方法中，尽管该分支中方法的性能相对较好，但生成的样本不精确和不平衡会导致过拟合的问题。这个问题使得模型只能在训练数据中出现过的样本上表现良好，但是缺乏泛化能力，导致了最终预测精度高但召回率低。与基于增强的方法相比，DER模型不需要额外/外部的数据源。在基于表示的方法中，为ED任务设计了许多复杂的结构，这也导致了过拟合问题。与基于表示的方法相比，DER模型不依赖复杂的结构。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种基于区分性词向量表示的事件检测方法，其特征在于，所述方法包括：

步骤6，根据触发词的预测结果进行文本中的事件检测。

2.根据权利要求1所述的一种基于区分性词向量表示的事件检测方法，其特征在于，在所述的编码模块中，基于BERT的语言表示模型被用作编码器，所述的BERT由12个相同的Transformer块的堆栈组成，每个块处理词嵌入、位置嵌入和段嵌入，在所有块依次计算出三种类型的嵌入之后，BERT输出它们的总和作为表示，同时，在编码模块中，利用预定义的触发词类型作为外部知识来增强BERT中的自注意机制，只使用上层事件类别作为外部知识，将所有上层事件类别与每个句子连接起来，具体形式如下：

[CLS]sentence[SEP]UT₁[SEP]…[SEP]UT_m[SEP],

3.根据权利要求2所述的一种基于区分性词向量表示的事件检测方法，其特征在于，所述的高斯核函数模块中：

p(X)＝N(X|mean(E),K_EE) (1)

X＝f(E)

[K_EE]_ij＝k(Eⁱ,E^j)＝exp(-γ||Eⁱ-E^j||²) (2)