CN114398500B

CN114398500B - 一种基于图增强预训练模型的事件预测方法

Info

Publication number: CN114398500B
Application number: CN202210112341.2A
Authority: CN
Inventors: 丁效; 吴婷婷; 杜理; 秦兵; 刘挺; 王若珂
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-09-09
Anticipated expiration: 2042-01-29
Also published as: CN114398500A

Abstract

本发明公开了一种基于图增强预训练模型的事件预测方法，包括：获取事件序列，对事件序列进行预训练获得若干个编码向量，并对若干个编码向量进行聚合，获得事件序列的表示向量；基于事件序列的表示向量，获取事件序列中任两个事件的邻接关系；获取事理图谱，基于事理图谱获取事件的逻辑关系；基于任两个事件的邻接关系和事件的逻辑关系完成事件预测。采用事理图谱作为模型学习事件间关系模式的知识库，事理图谱是描述事件及其逻辑关系的图谱，其知识将为事件预测任务提供有力支撑，将预训练语言模型与图结构信息预测进行融合，既能利用预训练模型中的丰富语言学知识，充分理解各个事件的语义，能通过学习事理图谱结构变量实现图结构信息的预测。

Description

一种基于图增强预训练模型的事件预测方法

技术领域

本发明属于事件预测领域，特别是涉及一种基于图增强预训练模型的事件预测方法。

背景技术

事件预测任务要求机器为给定的一个或多个事件构成的事件上下文选择合适的后续事件。这一任务需要机器在充分理解事件语义的基础之上，进一步理解事件之间的关系。这种预测的能力可以更好地模拟现实事件的发展规律，能够应用在热点事件预测、金融风险预警、舆情分析等领域。为此，部分前期工作提出建模事件对关系与事件间链状关系，以预测给定的事件上下文的后续事件。为有效预测后续事件，模型还需进一步理解事件间的图结构的密集连接关系。此前工作大多利用检索式方法，向事件预测模型中引入图知识。然而，此类方法的表现高度依赖于事理图谱的覆盖度。如果事件未能被事理图谱所覆盖，则此类方法无从获得相应的结构特征，结构信息的缺失将极大影响模型的性能。但实际情况中几乎不可能构建一个覆盖绝大多数可能事件的事理图谱，因为事件是由多个语义元素组成的复杂语义单位。这种复杂性使得对于同一语义的事件对应多种表达方式，这使得事理图谱难以完全覆盖所有可能的事件。这一特性引起了检索式地利用事理图谱信息的困难。

发明内容

本发明的目的是提供一种基于图增强预训练模型的事件预测方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于图增强预训练模型的事件预测方法，包括：

获取事件序列，对所述事件序列进行预训练获得若干个编码向量，并对若干个所述编码向量进行聚合，获得事件序列的表示向量；

基于所述事件序列的表示向量，获取所述事件序列中任两个事件的邻接关系；

获取事理图谱，基于所述事理图谱获取事件的逻辑关系；

基于所述任两个事件的邻接关系和所述事件的逻辑关系完成事件预测。

可选的，对所述事件序列进行预训练获得若干个编码向量的过程中包括：

采用预训练语言模型BERT的若干层Transformer作为预训练的编码器；

基于所述编码器将所述事件序列中的若干个字符编码为若干个分布式表示向量，将所述分布式表示向量作为所述编码向量。

可选的，对若干个所述编码向量进行聚合，获得事件的表示向量的过程中包括：

基于注意力机制对所述编码向量进行均值池化，获得向量表示；

将所有所述向量表示集合成表示矩阵，将所述表示矩阵作为所述事件序列的表示向量。

可选的，基于所述事件序列的表示向量，获取所述事件序列中任意两个事件的邻接关系的过程中包括：

基于双线性机制预测任意两个事件间的邻接关系，获得若干个任意两个事件间的关系强度系数；

将若干个所述关系强度系数构成矩阵并进行归一化，获得关系矩阵；

基于所述关系矩阵获得所述事件序列中任意两个事件的邻接关系。

可选的，基于所述双线性机制预测任意两个事件间的邻接关系的过程中，通过如下公式实现：

其中

为可训练参数，T(·)为转置操作，

代表在第n层事件i的表示，

代表在第n层事件j的表示，Γ_ij为所述关系强度系数；

式中，

均为可训练参数，·||·为拼接操作，i代表事件i，

代表i的邻域，其中X_j∈X，j≠i。

可选的，将若干个所述关系强度系数构成矩阵并进行归一化，获得关系矩阵的过程中包括：

对于事件序列中的所有事件，任意两个事件间的关系强度系数Γ_ij形成一个矩阵

其中t+1为事件个数，通过进一步将Γ归一化：

其中，softmax_j代表softmax函数，

代表所述关系矩阵。

可选的，获取所述事理图谱，基于所述事理图谱获取事件的逻辑关系的过程中包括：

基于所述事理图谱对所述事件序列获取一个邻接矩阵；

基于邻接矩阵中的元素获得所述事件序列中任意两事件互为后续事件的概率；

基于所述邻接矩阵和所述关系矩阵，获取事件的逻辑关系。

可选的，基于所述事理图谱获取事件的逻辑关系的过程中还包括：

在事件预测误差项之外引入了一项额外的图重构损失，损失函数为：

L＝L_{event_prediction}+L_{graph_reconstruction}

其中，L_{event_prediction}为事件预测误差项，为一交叉熵损失，L_{graph_reconstruction}为图重构误差项：

其中A_i与

为A及

的第i行，MultiNomial指多项分布。

本发明的技术效果为：

本发明提出了一种基于图增强预训练模型的事件预测方法。本方案拟采用事理图谱作为模型学习事件间关系模式的知识库，事理图谱是描述事件及其逻辑关系的图谱，其知识将为事件预测任务提供有力支撑。为了解决图谱覆盖性不足的问题，本方案提出了能够自动预测事理图谱结构信息，并有效利用该信息进行事件预测的框架GraphBERT，将预训练语言模型BERT与图结构信息预测进行融合，既能利用预训练模型中的丰富语言学知识，充分理解各个事件的语义，又能通过学习事理图谱结构变量实现图结构信息的预测。在没有事理图谱信息存在的情况下，也能通过预测该结构变量的取值，从而得到任意两个事件间之间的邻接关系，服务于事件预测任务。通过在脚本事件预测任务和故事结尾预测任务两个经典的事件预测任务数据集上的测试，在相同数据量的情况下，本方法取得了比现有事件预测方法更好的结果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的一种基于图增强预训练模型的事件预测的结构示意图；

图2为本发明实施例中的一种基于图增强预训练模型的事件预测的方法流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1、图2所示，本实施例中提供一种基于图增强预训练模型的事件预测的结构示意图及方法流程图，包括：

1.事件表示与聚合

给定事件序列X，GraphBERT首先利用BERT的第1至s₀层Transformer作为编码器，得到事件所包含的各个字符的编码向量。随后，利用事件表示聚合器模块，得到事件的表示向量。

具体而言，对于X＝{X₁，…，X_t+1}，其中

为X中的一个事件，第s₀层Transformer能够给将X中包含的各个字符编码为分布式表示向量

其中

是X_i中第j个字符的表示向量。

随后，基于注意力机制实现了事件表示聚合器模块。其中注意力机制中的Query定义为H_i的均值池化，即

同时令Key和Value矩阵均等于

如此，事件X_i的向量表示可以按如下方式得到：

对于事件链X中的T+1个事件而言，他们的向量表示组成了一个表示矩阵

注意到，

是从BERT内部的Transformer层中获得。以这种方法，GraphBERT能够利用BERT中蕴含的丰富语言学信息，得到高质量的事件表示。

随后，GraphBERT利用这些深度事件表示估计事件间邻接关系。

2.事件间邻居关系强度预测

给定事件表示矩阵

GraphBERT引入了一个事件关系推断器模块，以利用

估计X中任两个事件间的邻接关系。事件关系推断器模块的输出是一个(t+1)×(t+1)的矩阵

中每个元素

代表事件i与事件j之间的邻接关系。从而，在测试阶段对于任意两个事件，GraphBERT可以利用事件关系推断器预测出其邻接关系。

为此，GraphBERT首先基于图注意力机制(GAT)升级事件表示。GAT需要已知每个节点的邻接节点。对于事件i，因为其邻接关系事先未知，因而将i的邻域定义为

其中X_j∈X，j≠i，

其中

均为可训练参数，·||·为拼接操作。

随后，利用一个双线性机制预测两个事件之间的邻接关系：

其中

为可训练参数，T(·)为转置操作。对于X中的所有t+1个事件，任意两个事件X_i与X_j间的关系强度系数Γ_ij形成一个矩阵

通过进一步将Γ归一化：

可得

因此，通过事件表示聚合器模块和事件关系推断器模块，GraphBERT可以得到任意事件的表示向量，以及任意两个事件间的邻接关系，不论这些事件是否被事理图谱所覆盖。通过将预测出的

与

按照通过上述矩阵相乘操作，

中任一元素A_ij描述了E^(I)W₁的第i行与E^(I)W₂的第j行之间的关系强度。注意到E^(I)W₁的第i行与E^(I)W₂的第j行是事件X_i与事件X_j的向量表示。因而，A_ij可用于描述事件i与事件j之间的邻接关系强度。

将记事件的表示向量组成的表示矩阵为E，并记邻接矩阵为A。随后，GraphBERT以如下形式整合E与A：

E^(U)＝σ(AEW_U)

其中

是一个权重矩阵；σ是sigmoid函数；E^(U)则是结合了邻接信息的事件表示矩阵。

随后，该基线***进一步将E^(U)整合至下游的预测任务中。具体地，GraphBERT利用注意力机制，从E^(U)中选取相关信息，以更新BERT内部Transformer层的隐含状态：

其中，

是BERT的第s₁层Transformer的隐含状态，E^(U)为与

Claims

1.一种基于图增强预训练模型的事件预测方法，其特征在于，包括以下步骤：

获取事理图谱，基于所述事理图谱获取事件的逻辑关系；

基于所述事理图谱获取事件的逻辑关系的过程中包括：

基于所述事理图谱对所述事件序列获取一个邻接矩阵；

基于所述邻接矩阵和关系矩阵，获取事件的逻辑关系；

基于所述事件序列的表示向量，获取所述事件序列中任意两个事件的邻接关系的过程中包括：

基于所述关系矩阵获得所述事件序列中任意两个事件的邻接关系；

基于所述双线性机制预测任意两个事件间的邻接关系的过程中，通过如下公式实现：

其中

为可训练参数，T(·)为转置操作，

代表在第n层事件i的表示，

代表在第n层事件j的表示，Γ_ij为所述关系强度系数；

式中，

均为可训练参数，softmax_j代表softmax函数，·||·为拼接操作，i代表事件i，

代表i的邻域，其中，X为给定事件序列，X_j∈X，j≠i；

基于所述事理图谱获取事件的逻辑关系的过程中还包括：

L＝L_{event_prediction}+L_{graph_reconstruction}

其中，KL代表KL散度，又称相对熵，等价于两个概率分布的信息熵的差值，A_k为邻接矩阵A的第k行，

为关系矩阵

的第k行，MultiNomial指多项分布；

2.根据权利要求1所述的方法，其特征在于，对所述事件序列进行预训练获得若干个编码向量的过程中包括：

3.根据权利要求2所述的方法，其特征在于，对若干个所述编码向量进行聚合，获得事件的表示向量的过程中包括：

4.根据权利要求1所述的方法，其特征在于，将若干个所述关系强度系数构成矩阵并进行归一化，获得关系矩阵的过程中包括：

对于事件序列中的所有事件，任意两个事件间的关系强度系数形成一个矩阵

其中t+1为事件个数，通过进一步将归一化：

其中，

代表所述关系矩阵

中的一个元素。