CN111259851A

CN111259851A - 一种多模态事件检测方法及装置

Info

Publication number: CN111259851A
Application number: CN202010076960.1A
Authority: CN
Inventors: 许斌; 仝美涵; 李涓子; 侯磊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2020-06-09
Anticipated expiration: 2040-01-23
Also published as: CN111259851B

Abstract

本发明实施例提供一种多模态事件检测方法及装置。所述方法包括获取与待测句子匹配的待测图像集合；得到待测句子的初始的句子表达式，并得到各待测图像的图像表达式；采用交替对偶注意力机制，依次根据各图像表达式对句子表达式进行更新，得到更新后的句子表达式；采用残差融合器得到融合后的句子表达式；输入到事件预测模块得到对应的事件检测结果，本发明实施例通过获取待测句子的待测图像，分别编码得到句子表达式和图像表达式，依次根据各待测图像的图像表达式，采用交替对偶注意力机制，对句子表达式进行更新和残差融合，再将融合后的句子表达式通过事件预测模型，得到事件检测结果，从而提升了对于待测文本的事件检测的效率和质量。

Description

一种多模态事件检测方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种多模态事件检测方法及装置。

背景技术

事件检测旨在从非结构化新闻报道中检测事件触发词并判断其事件类型(通常是动词或名词)。例如“福特与多伦多市议会的议员见了面”，事件检测任务需要将“见了面”这个词识别为事件触发词，并判定其触发了“会见”事件。目前，事件检测已经作为人工智能领域的一项基础核心技术，被广泛引入到信息检索、问答***、推荐***、知识库构建等任务上。事件检测中优质的结构化知识信息，能够指导我们的智能模型具备更深层的事物理解、更精准的任务查询以及一定程度上的逻辑推理能力，从而对海量的信息分析起到至关重要的作用。

事件检测是一项具有挑战性的任务，因为反映事件核心类型的触发词通常是模棱两可的。这种歧义性具体表现在：同一个触发词在不同的语句环境下，可以触发不同的事件，并且周围的上下文通常不足以消除它们的歧义。例如在“迈克卸下了身上的担子”中“卸下”可能指的是迈克不再担任重要职务，发生了“离职”事件，也可能是迈克放下了重物，发生了“物品转移”事件。已有的事件检测分析通过词性标注，句法分析等一系列的自然语言标注工具，对文本进行解析，然后利用解析出的文本特征对事件进行分类抽取。

但是现有的分析方法，无法在句子信息缺失，或者词语语义指向性模糊的情景下，判断出新闻表达的事件的类型，因此得到的结果不够准确。

发明内容

由于现有方法存在上述问题，本发明实施例提供一种多模态事件检测方法及装置。

第一方面，本发明实施例提供了一种多模态事件检测方法，包括：

根据预设的匹配规则，获取与待测文本中待测句子匹配的待测图像集合；

根据预设的句子编码模块，得到所述待测句子的初始的句子表达式，并根据预设的图像编码模块，得到所述待测图像集合中各待测图像的图像表达式；

采用预设的交替对偶注意力机制，依次根据各图像表达式对所述待测句子的句子表达式进行更新，得到更新后的句子表达式；

根据初始的句子表达式和更新后的句子表达式，采用预设的残差融合器得到融合后的句子表达式；

将所述融合后的句子表达式输入到预先训练的事件预测模块中，得到所述待测句子对应的事件检测结果。

进一步地，所述采用预设的交替对偶注意力机制，从依次根据各图像表达式对所述待测句子的句子表达式进行更新，得到更新后的句子表达式，具体包括：

依次获取所述待测图像集合中第i个待测图像对应的图像表达式m_i；

根据预设的多头注意力机制，利用所述待测句子的当前的句子表达式H_i-1，更新所述图像表达式m_i的多头注意力分布，得到更新后的图像表达式m′_i；

根据所述预设的多头注意力机制，利用所述更新后的图像表达式m′_i，更新所述当前的句子表达式H_i-1的多头注意力分布，得到更新后的当前的句子表达式H_i。

进一步地，所述根据预设的匹配规则，获取与待测文本中待测句子匹配的待测图像集合，具体包括：

提取出所述待测文本包含的标题的事件特征信息；

根据所述事件特征信息，从预设的文本数据库中获取与所述待测文本匹配的历史文本；其中，所述历史文本的标题包含所述事件特征信息；

将所述历史文本所包含的图像作为与所述待测句子匹配的待测图像，存入所述待测图像集合。

进一步地，所述根据预设的句子编码模块，得到所述待测句子的初始的句子表达式，具体包括：

将所述待测句子输入到预设的深度双向表征的预训练转换器BERT模型中，得到所述待测句子的初始的句子表达式。

进一步地，所述根据预设的图像编码模块，得到所述待测图像集合中各待测图像的图像表达式，具体包括：

将各待测图像输入到预设的残差网络ResNet模型中，并对所述残差网络ResNet模型的输出结果采用预设的Sigmoid函数，生成各待测图像的图像表达式。

第二方面，本发明实施例提供了一种多模态事件检测装置，包括：

数据收集模块，用于根据预设的匹配规则，获取与待测文本中待测句子匹配的待测图像集合；

句子编码模块，用于得到所述待测句子的初始的句子表达式；

图像编码模块，用于得到所述待测图像集合中各待测图像的图像表达式；

多图片编码器模块，用于采用预设的交替对偶注意力机制，依次根据各图像表达式对所述待测句子的句子表达式进行更新，得到更新后的句子表达式；

残差融合器模块，用于根据初始的句子表达式和更新后的句子表达式，采用预设的残差融合器得到融合后的句子表达式；

事件预测模块，用于将所述融合后的句子表达式输入到预先训练的事件预测模块中，得到所述待测句子对应的事件检测结果。

进一步地，所述多图片编码器模块具体包括：信息获取子模块，第一注意力子模块，第二注意力子模块；其中，

所述信息获取子模块，用于依次获取所述待测图像集合中第i个待测图像对应的图像表达式m_i；

所述第一注意力子模块，用于根据预设的多头注意力机制，利用所述待测句子的当前的句子表达式H_i-1，更新所述图像表达式m_i的多头注意力分布，得到更新后的图像表达式m′_i；

所述第二注意力子模块，用于根据所述预设的多头注意力机制，利用所述更新后的图像表达式m′_i，更新所述当前的句子表达式H_i-1的多头注意力分布，得到更新后的当前的句子表达式H_i。

进一步地，所述数据收集模块具体用于：

提取出所述待测文本包含的标题的事件特征信息；

第三方面，本发明实施例还提供了一种电子设备，包括：

处理器、存储器、通信接口和通信总线；其中，

所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信；

所述通信接口用于该电子设备的通信设备之间的信息传输；

所述存储器存储有可被所述处理器执行的计算机程序指令，所述处理器调用所述程序指令能够执行如下方法：

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：

本发明实施例提供的多模态事件检测方法及装置，通过获取待测句子的待测图像，分别编码得到句子表达式和图像表达式，依次根据各待测图像的图像表达式，采用预设的交替对偶注意力机制，对所述句子表达式进行更新和残差融合，再将融合后的句子表达式通过预先训练的事件预测模型，得到事件检测结果，从而提升了对于待测文本的事件检测的效率和质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的多模态事件检测方法流程图；

图2为本发明实施例的还一多模态事件检测方法流程图；

图3为本发明实施例的另一多模态事件检测方法流程图；

图4为本发明实施例的交替注意力模块的结构示意图；

图5为本发明实施例的又一多模态事件检测方法流程图；

图6为本发明实施例的多模态事件检测装置结构示意图；

图7为本发明实施例的又一多模态事件检测装置结构示意图；

图8示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的事件检测方法局限于文本模态这一单一模态，而并没有利用多模态信息：图片模态和文本模态。实际上融合多模态的信息图像对于处理事件触发词歧义非常有效。以新闻为例，新闻中匹配的图像能够反映报道的核心事件，使得事件消歧时有一个大致的指向性。例如在恐怖袭击的新闻中，匹配的图会反映“难民”，“武器”，“军队”等景象，事件的类型倾向于“死亡”，“受伤”，“攻击”，而不是“出行”，“审判”，“庆祝”等。有了核心事件的类型倾向，在事件检测时具备了大的背景知识，因而能够有效提高事件检测的准确度。同时，图像模态可以补充更加详实的细节信息，能够与文本模态的信息互补，从而提高事件检测的能力。有些在文本模态中很难表达的信息，能够在图像模态轻松的反映出来，例如着装风格，面部表情或人物手势动作，这些细节能够决定事件发生的场合和形式，对推断事件类型起到有益效果。

图1为本发明实施例的多模态事件检测方法流程图，图2为本发明实施例的还一多模态事件检测方法流程图，如图1所示，所述方法包括：

步骤S01、根据预设的匹配规则，获取与待测文本中待测句子匹配的待测图像集合。

通过预设的方式获取待测文本，例如，从网站获取新闻文章，该新闻文章包括有标题、新闻内容和新闻图像，分别对应于所述待测文本的标题、文本内容和待测图像，所述文本内容可以由多个待测句子组成。

对所述待测文本进行事件检测，具体为对包含的各待测句子分别进行事件检测，以获取各待测句子对应的事件检测结果，例如，由所述待测句子中的关键词触发的触发事件。

由于所述待测文本中包含的待测图像往往很少，甚至没有，为此，需要通过预设的匹配规则，从其它的渠道或历史数据中获取与所述待测文本匹配的待测图像，从而得到大量与所述待测文本中各待测句子匹配的待测图像，以组成待测图像集合。

步骤S02、根据预设的句子编码模块，得到所述待测句子的初始的句子表达式，并根据预设的图像编码模块，得到所述待测图像集合中各待测图像的图像表达式，并组合得到图像表达式集合。

如图2所示，预先设置句子编码模块和图像编码模块，采用预设的编码模型，分别对所述待测句子和所述待测图像集合中各待测图像进行编码，以得到所述待测句子的句子表达式和各待测图像的图像表达式。

所述句子编码器模块中采用的编码模型可根据实际的需要进行设定，本发明实施例仅以预设的深度双向表征的预训练转换器(Bidirectional Encoder Representationfrom Transformers，BERT)模型为例进行举例说明。所述BERT模型是一种经过预先训练的语言表示模型，包含多层多头注意力层，能够深层次的多角度的理解句子语义信息，其强大功能适用于文本的事件检测。

采用BERT模型作为文本特征提取器，将所述待测句子S＝<w₁,w₂,…,w_n>输入到BERT模型中，并使用顺序输出得到初始的句子表达式H₀＝<h₁,h₂,…,h_n>。其中，所述w_i为所述待测语句经过分词处理得得到的分词或单词，所述h_i为与各个分词一一对应的分词向量。所述BERT模型的编码过程可以表示为：

H₀＝BERT(S)

所述图像编码模块中采用的编码模型可根据实际的需要进行设定，本发明实施例仅给出了其中的一种举例说明。

采用预设的残差网络(Residual Network，ResNet)模型分别对所述待测图像集合P＝{p₁,p₂,…,p_k}中各待测图像p_i进行特征提取。将待测图像p_i输入到所述ResNet模型中，得到所述待测图像的隐藏表示u_i。所述ResNet模型的编码过程可以表示为：

u_i＝ResNet(p_i)

为了将图像表达式映射到与文本相同的纬度空间，采用Sigmoid函数将所述待测图像的隐藏表示u_i转换为图像表达式m_i，所述Sigmoid函数可以表示为：

m_i＝σ(W_uu_i+b_u)

其中，所述σ(·)为Sigmoid函数，所述W_u和b_u为超参矩阵。

步骤S03、采用预设的交替对偶注意力机制，依次根据各图像表达式对所述待测句子的句子表达式进行更新，得到更新后的句子表达式。

获取到的与所述待测句子匹配的待测图像，倾向于从不同的角度来描述事件，例如，对于地震事件的新闻报道，所述待测图像可以是道路倒塌的图像用于报道破坏情况，也可以是工人背着重建物资的图像用于报道重建情况，等等。因此，本发明实施例通过动态聚合多个待测图像的信息来消除检测事件的歧义。

依次根据所述待测图像集合中各待测图像对应的图像表达式，采用交替对偶注意力机制，对所述待测句子的句子表达式进行递归更新，具体地，可通过预设的交替对偶注意力(Alternating Dual Attention，ADA)子模块来实现，依次将获取到的第i个待测图像p_i对应的图像表达式m_i输入到预设的ADA子模块中，用于对前次更新后得到的句子表达式H_i-1进行更新，以得到第i次更新后的句子表达式H_i。从而在经过所述待测图像集合P＝{p₁,p₂,…,p_k}中的k个待测图像对应的图像表达式的递归更新，将所述待测句子的句子表达式，由初始的句子表达式H₀，得到经过k次更新后的句子表达式H_k。

步骤S04、根据初始的句子表达式和更新后的句子表达式，采用预设的残差融合器得到融合后的句子表达式。

采用预设的残差融合器，将所述初始的句子表达式H₀和经过k次更新后的句子表达式H_k，进行融合处理，得到融合后的句子表达式，作为所述待测句子的最终的句子表达式。

所述融合处理的方法有很多，本发明实施例仅采用一种方法进行举例说明。采用残差块将初始的句子表达式H₀集成回更新后的句子表达式H_k，从而得到融合后的句子表达式R＝H₀+H_k。

所述融合后的句子表达式R，尽可能保留了所述待测句子原始的语义，防止了经过前述的更新过程使BERT中参数的梯度消失。

步骤S05、将所述融合后的句子表达式输入到预先训练的事件预测模块中，得到所述待测句子对应的事件检测结果。

预先设置事件预测模块，将所有的事件检测结果分为预设数量的事件类型。根据预先获取的语料库

其中的事件预测模型进行训练，所述语料库包括大量的训练样本x_i＝〈S，P>,y_i＝Y，其中，S、P和Y分别表示同一训练文本中的训练句子、与所述训练文本匹配的训练图像集合和与各训练文本匹配的训练图像和预先标注的与所述训练句子对应的事件检测结果。输入的训练样本x_i得到输出结果向量O，所述结果向量O由条件概率O_ijc组成，所述O_ijc表示待测句子x_i中的第j个分词属于第c个事件类别的概率，再经过softmax函数归一化，得到如下结果：

其中，θ表示上述所有模块中所有定义的超参数。

对所述事件预测模型的训练过程中采用的优化函数定义如下：

并用Adam作为梯度下降的优化器。

将所述待测句子的融合后的句子表达式R输入到训练后的事件预测模块，将得到事件检测结果为所述待测句子中每个分词的事件类型的条件概率。通过后续对得到的条件概率进一步地分析就可以确定出所述待测句子，甚至是所述待测文本所对应的准确的事件类型。

与现有技术相比，本发明实施例提出的基于交替对偶注意力机制的多模态的事件检测方法，所述多模态包括待测句子的文本模态和待测图像的图像模态。通过将多模态中蕴含的各模态独立的信息和跨模态的一致的信息分别编码到不同的语义空间，并采用交替对偶注意力机制更深层地抽取出跨模态的语义信息，建构统一的语义空间的方式，以达到提升实际应用中多模态场景下的事件检测任务表现的效果，并提升对例如新闻文本等待测文本的事件分析效率和质量，具有广阔的应用前景。

本发明实施例通过获取待测句子的待测图像，分别编码得到句子表达式和图像表达式，依次根据各待测图像的图像表达式，采用预设的交替对偶注意力机制，对所述句子表达式进行更新和残差融合，再将融合后的句子表达式通过预先训练的事件预测模型，得到事件检测结果，从而提升了对于待测文本的事件检测的效率和质量。

图3为本发明实施例的另一多模态事件检测方法流程图，图4为本发明实施例的交替注意力模块的结构示意图，如图2所示，所述步骤S03具体包括：

步骤S031、依次获取所述待测图像集合中第i个待测图像对应的图像表达式m_i。

通过所述图像编码模块依次对所述待测图像集合中的待测图像p_i进行编码得到对应的图像表达式m_i，再利用预设的交替对偶注意力模块对当前的句子表达式H_i-1进行更新以得到第i次更新后的句子表达式H_i。

步骤S032、根据预设的多头注意力机制，利用所述待测句子的当前的句子表达式H_i-1，更新所述图像表达式m_i的多头注意力分布，得到更新后的图像表达式m′_i。

所述交替对偶注意力机制分为两个部分构成，分别为：先利用文本信息，即句子表达式引导图像的多头注意力分布，用于更新图像表达式；然后再利用图像信息，即更新后的图像表达式，引导文本的多头注意力分布，用于更新句子表达式。由于图像信息和文本信息相互影响，因此采用对偶的结构。具体来说，在不同的文本背景中，同一图像的焦点区域是不同的；同样，在不同的图片描述背景下，同一个词可以在触发不同的事件。

将利用句子表达式更新图像表达式的多头注意力分布称为第一轮更新，将利用图像表达式更新句子表达式的多头注意力分布称为第二轮更新。

在第一轮更新中，如图4所示，使用两个全连接层Linear层将当前的句子表达式H_i-1分别映射到缩放点积注意力模块Scaled Dot-Product Attention层的前两个输入中，映射后的隐含表示标记为键k，值v。然后使用第三个全连接层将图像表达式m_i映射到缩放点积注意力模块的第三输入中，映射后的隐含表示标记为查询q。

然后，通过q查询k来计算图像表达式上的焦点注意力α。通过除以k的维数来重新缩放注意力值以避免梯度消失。接下来，将学习的注意力α与第三输入v点积，以获取加权图像表示z。上述过程的具体公式表示如下：

z＝αv^T

其中，所述d_k表示维度数，所述s_i表示第i个词语和其他模态交互后的嵌入式表示，所述L表示句子中词的个数。

重复上述过程u次，并采用线性变换以获得修正图像表示h，公式表示如下：

Z＝[z₁；z₂；…；z_u]

h＝W_hZ+b_h

其中，“；”表示最后一个维度上的拼接。

采用残差模块将隐含表示q直接送到输出端来获得最终的更新表示。

m_i′＝h+q

将上述公式的运算统一标记为Ω，那么第一轮的更新过程可以总结为：

m_i′＝Ω(m_i,H_i-1)

其中，m_i′为更新后的图像表达式。

步骤S033、根据所述预设的多头注意力机制，利用所述更新后的图像表达式m′_i，更新所述当前的句子表达式H_i-1的多头注意力分布，得到更新后的当前的句子表达式H_i。

在第二轮更新中，如图4所示，与第一轮更新相似，将更新后的图像表达式m_t′映射到缩放点积注意力模块的前两个输入中，将当前的句子表达式H_i-1映射到第三个输入中，与第一轮更新相似地，同样可以将第二轮更新过程总结为：

H_i＝Ω(H_i-1,m_t′)

其中，所述H_i为经过i次更新后句子表达式。

将所述待测图像集合P＝{p₁,p₂,…,p_k}中的k个待测图像对应的图像表达式依次用于对所述句子表达式进行更新，得到更新后的句子表达式为H_k。

本发明实施例通过利用句子表达式更新图像表达式的多头注意力分布，再将利用图像表达式更新句子表达式的多头注意力分布，来实现交替对偶注意力机制，用于更新待测句子的句子表达式，提升了对于待测文本的事件检测的效率和质量。

图5为本发明实施例的又一多模态事件检测方法流程图，如图5所示，所述步骤S01具体包括：

步骤S011、提取出所述待测文本包含的标题的事件特征信息。

在获取到待测文本时，先根据所述待测文本的标题，采用预设的信息提取模型，得到所述标题的事件特征信息。具体地，可通过抽象句法解析器(Abstract MeaningRepresentation，AMR)对标题进行结构化的解析来获取，从中提取出事件角色作为特征信息，所述事件角色包括：实动者、受动者和地点等。

步骤S012、根据所述事件特征信息，从预设的文本数据库中获取与所述待测文本匹配的历史文本；其中，所述历史文本的标题包含所述事件特征信息。

将得到的事件特征信息与预先获取的文本数据库中各历史文本进行匹配，来判断所述历史文本与所述待测文本是否对应于同一事件。具体通过将所述历史文本的标题的事件特征信息和所述待测文本的标题的事件特征信息进行比较，若所述历史文本的标题的事件特征信息中包括所述待测文本的标题的事件特征信息，则判定所述历史文本与所述待测文本对应于同一事件；否则，判定所述历史文本与待测文本对应于不同事件。例如，待测文本的标题为“穿越加州的野火肆虐”，历史文本的标题为“加利福尼亚的大规模野火肆虐”，经过提取确定两个标题的事件特征信息均为“大规模野火”和“加利福尼亚”，因此，可判定该待测文本和历史文本对应于同一事件。

所述文本数据库中的各历史文本可从预设的网站搜索获取，例如，对于新闻报道，可以从多个具有权威性和能力的新闻网站中搜索得到。

步骤S013、将所述历史文本所包含的图像作为与所述待测句子匹配的待测图像，存入所述待测图像集合。

提取出与所述待测文本对应于同一事件的各历史文本中包含的图像，作为与所述待测文本匹配的待测图像，也相当于作为所述待测文本中各待测句子匹配的待测图像，存入所述待测图像集合中。

本发明实施例通过获取待测文本的标题的事件特征信息与文本数据库中的历史文本进行匹配，将对应于同一事件的历史文本包含的图像，作为与所述待测文本中待测句子匹配的待测图像，得到所述待测图像集合，从而提升了对于待测文本的事件检测的效率和质量。

综上所述，本发明实施例设计了一种基于交替对偶注意力机制的多模态的神经网络的事件检测模型。首先，收集与文本相关的图像模态信息，通过连接同一事件的不同历史文本，保证图像模态信息的多样性。之后通过预训练的语言编码模型和图像编码模型，分别获取文本和图像模态的表达式。紧接着，设计了一个以交替对偶注意力机制为基本单元的循环神经网络模型对图像模态和文本进行深层次的融合。最后，设计了一个全连接神经网络判断每个词的事件类型。交替对偶注意力机制不但会根据文本模态的语境，删选图像模态的强注意力区域，而且会反过来，根据图像模态的语境，筛选文本模态的强注意力区域。这种深层的多模态融合机制，能够删选掉无关的语义信息而保留和与的事件语义契合的信息，从而能够提升多模态事件检测的效果。

图6为本发明实施例的多模态事件检测装置结构示意图，如图6所示，所述多模态事件检测装置包括：数据收集模块10、句子编码模块11、图像编码模块12、多图片编码器模块13、残差融合器模块14和事件预测模块15；其中，

所述数据收集模块10用于根据预设的匹配规则，获取与待测文本中待测句子匹配的待测图像集合；所述句子编码模块11用于得到所述待测句子的初始的句子表达式；所述图像编码模块12用于得到所述待测图像集合中各待测图像的图像表达式；所述多图片编码器模块13用于采用预设的交替对偶注意力机制，依次根据各图像表达式对所述待测句子的句子表达式进行更新，得到更新后的句子表达式；所述残差融合器模块14，用于根据初始的句子表达式和更新后的句子表达式，采用预设的残差融合器得到融合后的句子表达式；所述事件预测模块15用于将所述融合后的句子表达式输入到预先训练的事件预测模块中，得到所述待测句子对应的事件检测结果。具体地：

数据收集模块10通过预设的方式获取待测文本，所述待测文本包括标题、文本内容和待测图像，所述文本内容可以由多个待测句子组成。

对所述待测文本进行事件检测，具体为对包含的各待测句子分别进行事件检测，以获取各待测句子对应的事件检测结果。

由于所述待测文本中包含的待测图像往往很少，甚至没有，为此，数据收集模块10需要通过预设的匹配规则，从其它的渠道或历史数据中获取与所述待测文本匹配的待测图像，从而得到大量与所述待测文本中各待测句子匹配的待测图像，以组成待测图像集合。

数据收集模块10分别将所述待测句子和各待测图像发送给句子编码模块11和图像编码模块12，采用预设的编码模型，分别对所述待测句子和所述待测图像集合中各待测图像进行编码，以得到所述待测句子的句子表达式和各待测图像的图像表达式。

进一步地，所述根据预设的句子编码模块11具体用于：

所述句子编码器模块11中采用的编码模型可根据实际的需要进行设定，本发明实施例仅以预设的BERT模型为例进行举例说明。

H₀＝BERT(S)

进一步地，所述根据预设的图像编码模块12具体用于：

所述图像编码模块12中采用的编码模型可根据实际的需要进行设定，本发明实施例仅给出了其中的一种举例说明。

u_i＝ResNet(p_i)

m_i＝σ(W_uu_i+b_u)

其中，所述σ(·)为Sigmoid函数，所述W_u和b_u为超参矩阵。

多图片编码器模块13依次从图像编码模块12获取所述待测图像集合中各待测图像对应的图像表达式，采用交替对偶注意力机制，对从所述句子编码模块11获取的待测句子的句子表达式进行递归更新，具体地，可通过预设的ADA子模块来实现，多图片编码器模块13依次将获取到的第i个待测图像p_i对应的图像表达式m_i输入到预设的ADA子模块中，用于对前次更新后得到的句子表达式H_i-1进行更新，以得到第i次更新后的句子表达式H_i。从而在经过所述待测图像集合P＝{p₁,p₂,…,p_k}中的k个待测图像对应的图像表达式的递归更新，将所述待测句子的句子表达式，由初始的句子表达式H₀，得到经过k次更新后的句子表达式H_k，并将句子表达式H₀和H_k发送给残差融合器模块14。

残差融合器模块14将所述初始的句子表达式H₀和经过k次更新后的句子表达式H_k，进行融合处理，得到融合后的句子表达式，作为所述待测句子的最终的句子表达式。

所述融合处理的方法有很多，本发明实施例仅采用一种方法进行举例说明。残差融合器模块14采用残差块将初始的句子表达式H₀集成回更新后的句子表达式H_k，从而得到融合后的句子表达式R＝H₀+H_k，并发送给事件预测模块15。

事件预测模块15将所有的事件检测结果分为预设数量的事件类型。根据预先获取的语料库

其中的事件预测模型进行训练，所述语料库包括大量的训练样本x_i＝<S，P>,y_i＝Y，其中，S、P和Y分别表示同一训练文本中的训练句子、与所述训练文本匹配的训练图像集合和与各训练文本匹配的训练图像和预先标注的与所述训练句子对应的事件检测结果。输入的训练样本x_i得到输出结果向量O，所述结果向量O由条件概率O_ijc组成，所述O_ijc表示待测句子x_i中的第j个分词属于第c个事件类别的概率，再经过softmax函数归一化，得到如下结果：

其中，θ表示上述所有模块中所有定义的超参数。

并用Adam作为梯度下降的优化器。

本发明实施例提供的装置用于执行上述方法，其功能具体参考上述方法实施例，其具体方法流程在此处不再赘述。

图7为本发明实施例的又一多模态事件检测装置结构示意图，如图7所示，所述装置包括：数据收集模块10、句子编码模块11、图像编码模块12、多图片编码器模块13、残差融合器模块14和事件预测模块15，所述多图片编码器模块13包括：信息获取子模块131，第一注意力子模块132，第二注意力子模块133；其中，

所述信息获取子模块131用于依次获取所述待测图像集合中第i个待测图像对应的图像表达式m_i；所述第一注意力子模块132用于根据预设的多头注意力机制，利用所述待测句子的当前的句子表达式H_i-1，更新所述图像表达式m_i的多头注意力分布，得到更新后的图像表达式m＇_i；所述第二注意力子模块133用于根据所述预设的多头注意力机制，利用所述更新后的图像表达式m′_i，更新所述当前的句子表达式H_i-1的多头注意力分布，得到更新后的当前的句子表达式H_i。具体地：

所述多图片编码器模块13可以采用如上述实施例所述的多个ADA子模块的结构，每个ADA子模块对应于一个待测图像的图像表达式，然后依次根据所述ADA子模块对所述待测句子的句子表达式进行更新。所述多图片编码器模块13也可以采用如本发明实施例所述，由信息获取子模块131，第一注意力子模块132和第二注意力子模块133组成，相当于仅包括一个ADA子模块，循环使用所述ADA子模块对所述句子表达式进行更新。

当所述图像编码模块12依次对所述待测图像集合中的待测图像p_i进行编码得到对应的图像表达式m_i后，发送给信息获取子模块131。

第一注意力子模块132使用两个全连接层将当前的句子表达式H_i-1分别映射到缩放点积注意力模块的前两个输入中，映射后的隐含表示标记为键k，值v。然后使用第三个全连接层将信息获取子模块131接收到的图像表达式m_i映射到缩放点积注意力模块的第三输入中，映射后的隐含表示标记为查询q。

z＝αv^T

Z＝[z₁；z₂；…；z_u]

h＝W_hZ+b_h

其中，“；”表示最后一个维度上的拼接。

m_i′＝h+q

将上述公式的运算统一标记为Ω，那么第一注意力子模块132的更新过程可以总结为：

m_i′＝Ω(m_i,H_i-1)

其中，m_i′为更新后的图像表达式。

相似地，第二注意力子模块133将第一注意力子模块132输出的更新后的图像表达式m_t′映射到缩放点积注意力模块的前两个输入中，将当前的句子表达式H_i-1映射到第三个输入中，与第一注意力子模块132相似地，同样可以将第二注意力子模块133更新过程总结为：

H_i＝Ω(H_i-1,m_t′)

其中，所述H_i为经过i次更新后句子表达式。

信息获取子模块131依次获取所述待测图像集合P＝{p₁,p₂,…,p_k}中的k个待测图像对应的图像表达式用于对所述句子表达式进行更新，得到更新后的句子表达式为H_k。

基于上述实施例，进一步地，所述数据收集模块具体用于：

提取出所述待测文本包含的标题的事件特征信息；

数据收集模块在获取到待测文本时，先根据所述待测文本的标题，采用预设的信息提取模型，得到所述标题的事件特征信息。具体地，可通过AMR对标题进行结构化的解析来获取，从中提取出事件角色作为特征信息，所述事件角色包括：实动者、受动者和地点等。

数据收集模块将得到的事件特征信息与预先获取的文本数据库中各历史文本进行匹配，来判断所述历史文本与所述待测文本是否对应于同一事件。具体通过将所述历史文本的标题的事件特征信息和所述待测文本的标题的事件特征信息进行比较，若所述历史文本的标题的事件特征信息中包括所述待测文本的标题的事件特征信息，则数据收集模块判定所述历史文本与所述待测文本对应于同一事件；否则，数据收集模块判定所述历史文本与待测文本对应于不同事件。

数据收集模块提取出与所述待测文本对应于同一事件的各历史文本中包含的图像，作为与所述待测文本匹配的待测图像，也相当于作为所述待测文本中各待测句子匹配的待测图像，存入所述待测图像集合中。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)801、通信接口(Communications Interface)803、存储器(memory)802和通信总线804，其中，处理器801，通信接口803，存储器802通过通信总线804完成相互间的通信。处理器801可以调用存储器802中的逻辑指令，以执行上述方法。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

进一步地，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

本领域普通技术人员可以理解：此外，上述的存储器802中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态事件检测方法，其特征在于，包括：

2.根据权利要求1所述的多模态事件检测方法，其特征在于，所述采用预设的交替对偶注意力机制，从依次根据各图像表达式对所述待测句子的句子表达式进行更新，得到更新后的句子表达式，具体包括：

3.根据权利要求1所述的多模态事件检测方法，其特征在于，所述根据预设的匹配规则，获取与待测文本中待测句子匹配的待测图像集合，具体包括：

提取出所述待测文本包含的标题的事件特征信息；

4.根据权利要求1所述的多模态事件检测方法，其特征在于，所述根据预设的句子编码模块，得到所述待测句子的初始的句子表达式，具体包括：

5.根据权利要求1所述的多模态事件检测方法，其特征在于，所述根据预设的图像编码模块，得到所述待测图像集合中各待测图像的图像表达式，具体包括：

6.一种多模态事件检测装置，其特征在于，包括：

7.根据权利要求6所述的多模态事件检测装置，其特征在于，所述多图片编码器模块具体包括：信息获取子模块，第一注意力子模块，第二注意力子模块；其中，

8.根据权利要求6所述的多模态事件检测装置，其特征在于，所述数据收集模块具体用于：

提取出所述待测文本包含的标题的事件特征信息；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述多模态事件检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述多模态事件检测方法的步骤。