CN116861363A

CN116861363A - 多模态的特征处理方法、装置、存储介质与电子设备

Info

Publication number: CN116861363A
Application number: CN202310854673.2A
Authority: CN
Inventors: 姚顺雨
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-10

Abstract

本公开提供一种多模态的特征处理方法、装置、存储介质与电子设备，涉及人工智能与多模态技术领域。该方法包括：获取第一模态待处理信息和第二模态待处理信息；对第一模态待处理信息提取第一模态初始特征，对第二模态待处理信息提取第二模态初始特征；根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制进行处理，得到第一中间特征；根据第二模态初始特征确定第二查询信息，根据第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制进行处理，得到第二中间特征；融合第一中间特征和第二中间特征，得到多模态目标特征。本公开能够实现多模态特征的高质量融合。

Description

多模态的特征处理方法、装置、存储介质与电子设备

技术领域

本公开涉及人工智能与多模态技术领域，尤其涉及一种多模态的特征处理方法、多模态的特征处理装置、计算机可读存储介质与电子设备。

背景技术

随着人工智能技术的发展，越来越多的人工智能任务需要采用多模态信息来实现。例如，在事件检测任务中，采用多模态信息相比于采用单模态信息而言，能够提供更加全面的信息，便于更好地实现事件检测。

相关技术中，在采用多模态信息时，难以将多模态的特征进行很好地融合。例如，通过对图像特征和文本特征进行拼接，以实现两种模态特征的融合。这样的融合方式缺乏对多模态相关性的表征，进而影响对多模态的特征的使用结果。

发明内容

本公开提供一种多模态的特征处理方法、多模态的特征处理装置、计算机可读存储介质与电子设备，以至少在一定程度上解决相关技术难以将多模态的特征进行很好融合的问题。

根据本公开的第一方面，提供一种多模态的特征处理方法，包括：获取第一模态待处理信息和第二模态待处理信息；对所述第一模态待处理信息提取第一模态初始特征，对所述第二模态待处理信息提取第二模态初始特征；根据所述第一模态初始特征确定第一查询信息，根据所述第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对所述第一查询信息、所述第一键信息、所述第一值信息进行处理，得到第一中间特征；根据所述第二模态初始特征确定第二查询信息，根据所述第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对所述第二查询信息、所述第二键信息、所述第二值信息进行处理，得到第二中间特征；融合所述第一中间特征和所述第二中间特征，得到多模态目标特征。

根据本公开的第二方面，提供一种多模态的特征处理装置，包括：信息获取模块，被配置为获取第一模态待处理信息和第二模态待处理信息；初始特征提取模块，被配置为对所述第一模态待处理信息提取第一模态初始特征，对所述第二模态待处理信息提取第二模态初始特征；第一注意力处理模块，被配置为根据所述第一模态初始特征确定第一查询信息，根据所述第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对所述第一查询信息、所述第一键信息、所述第一值信息进行处理，得到第一中间特征；第二注意力处理模块，被配置为根据所述第二模态初始特征确定第二查询信息，根据所述第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对所述第二查询信息、所述第二键信息、所述第二值信息进行处理，得到第二中间特征；中间特征融合模块，被配置为融合所述第一中间特征和所述第二中间特征，得到多模态目标特征。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的多模态的特征处理方法及其可能的实现方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令，来执行上述第一方面的多模态的特征处理方法及其可能的实现方式。

本公开的技术方案具有以下有益效果：

一方面，采用两种注意力机制处理方式：第一种是根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，通过注意力机制对第一查询信息、第一键信息、第一值信息进行处理，得到第一中间特征；第二种是根据第二模态初始特征确定第二查询信息，根据第一模态初始特征确定第二键信息和第二值信息，通过注意力机制对第二查询信息、第二键信息、第二值信息进行处理，得到第二中间特征。第一中间特征主要表征模态对齐情况下的第二模态信息，第二中间特征主要表征模态对齐情况下的第一模态信息，由此利用两种模态间的相关性实现信息聚合，进而融合第一中间特征和第二中间特征得到多模态目标特征，能够实现两种模态间的信息互补，提高多模态目标特征的质量。另一方面，可适用于任意两种不同模态的特征融合，方案实现过程简单，普适性强。

附图说明

图1示出本示例性实施方式中一种多模态的特征处理方法的流程图。

图2示出本示例性实施方式中一种得到第一中间特征的流程图。

图3示出本示例性实施方式中一种得到多模态目标特征的流程图。

图4示出本示例性实施方式中另一种多模态的特征处理方法的流程图。

图5示出本示例性实施方式中生成多模态目标特征的示意图。

图6示出本示例性实施方式中模型训练的示意图。

图7示出本示例性实施方式中一种多模态的特征处理装置的结构示意图。

图8示出本示例性实施方式中一种电子设备的结构示意图。

具体实施方式

下文将结合附图更全面地描述本公开的示例性实施方式。

附图为本公开的示意性图解，并非一定是按比例绘制。附图中所示的一些方框图可能是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在硬件模块或集成电路中实现这些功能实体，或在网络、处理器或微控制器中实现这些功能实体。实施方式能够以多种形式实施，不应被理解为限于在此阐述的范例。本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或多个实施方式中。在下文的描述中，提供许多具体细节从而给出对本公开实施方式的充分说明。然而，本领域技术人员应意识到，可以在实现本公开的技术方案时省略其中的一个或多个特定细节，或者可以采用其它的方法、组元、装置、步骤等替代一个或多个特定细节。

多模态信息在各种人工智能任务中的应用越来越广泛。以事件检测任务为例，事件检测的目的是判断一段信息是否表达了特定事件的发生，或者发生的事件属于什么类别。若上述信息采用图像或文本等单模态信息，其信息量相对有限，影响事件检测结果的准确性。若上述信息采用多模态信息，如同时采用图像和文本两种不同模态信息，图像和文本之间具有相关性与互补性，即图像能够提供文本中缺失的信息，文本能够提供图像中缺失的信息，这样模型能够学习到的内容更加全面、充分，有利于提高事件检测结果的准确性。

由于多模态信息对应不同的维度或特征空间。在采用多模态信息时，需要实现不同模态之间的结合。

相关技术的一种方案中，将不同模态的特征进行拼接，如对图像和文本分别提取特征后进行拼接，由此实现不同模态特征的融合。然而，该方案并没有将不同模态特征的维度或特征空间进行统一，无法对多模态相关性进行表征，缺乏对多模态互补性的利用，由此不能使多模态的特征真正地实现融合。进而影响后续的处理结果，如基于拼接后的特征进行事件检测，事件检测结果的准确性较低。

相关技术的另一种方案中，不对不同模态的特征进行直接融合，而是单独由每一种模态的信息得到对应的任务处理结果(如事件检测结果)，再将不同模态对应的任务处理结果相结合，如通过投票等方式确定最终处理结果。该方案未考虑多模态相关性，同样缺乏对多模态互补性的利用，影响最终处理结果的准确性。并且，该方案无法得到多模态的融合特征，这限制了其在部分任务场景中的使用。

鉴于上述一个或多个问题，本公开的示例性实施方式提供一种多模态的特征处理方法，能够将多模态的特征进行很好地融合，输出高质量的多模态目标特征。

图1示出了多模态的特征处理方法的示例性流程，可以包括以下步骤S110至S150：

步骤S110，获取第一模态待处理信息和第二模态待处理信息；

步骤S120，对第一模态待处理信息提取第一模态初始特征，对第二模态待处理信息提取第二模态初始特征；

步骤S130，根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对第一查询信息、第一键信息、第一值信息进行处理，得到第一中间特征；

步骤S140，根据第二模态初始特征确定第二查询信息，根据第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对第二查询信息、第二键信息、第二值信息进行处理，得到第二中间特征；

步骤S150，融合第一中间特征和第二中间特征，得到多模态目标特征。

在图1所示的方法中，一方面，采用两种注意力机制处理方式：第一种是根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，通过注意力机制对第一查询信息、第一键信息、第一值信息进行处理，得到第一中间特征；第二种是根据第二模态初始特征确定第二查询信息，根据第一模态初始特征确定第二键信息和第二值信息，通过注意力机制对第二查询信息、第二键信息、第二值信息进行处理，得到第二中间特征。第一中间特征主要表征模态对齐情况下的第二模态信息，第二中间特征主要表征模态对齐情况下的第一模态信息，由此利用两种模态间的相关性实现信息聚合，进而融合第一中间特征和第二中间特征得到多模态目标特征，能够实现两种模态间的信息互补，提高多模态目标特征的质量。另一方面，可适用于任意两种不同模态的特征融合，方案实现过程简单，普适性强。

下面对图1中的每个步骤做具体说明。

参考图1，在步骤S110中，获取第一模态待处理信息和第二模态待处理信息。

其中，第一模态待处理信息和第二模态待处理信息是不同模态的信息。示例性的，第一模态待处理信息、第二模态待处理信息可以是文本、图像、音频、视频中的任意两种不同模态的信息。例如，第一模态待处理信息可以是待处理文本，第二模态待处理信息可以是待处理图像。

第一模态待处理信息和第二模态待处理信息可以具有预设关联关系，两者可用于表达相同或相关的信息内容。在一种实施方式中，第一模态待处理信息和第二模态待处理信息的来源相同，如两者来源于互联网上的同一页面或同一主题。举例来说，新闻或社交平台上的一条消息(如可以是一篇文章、一条微博、一条朋友圈、一个帖子等)包括文本和图像，可以获取该文本和图像，作为待处理文本和待处理图像，待处理文本即第一模态待处理信息，待处理图像即第二模态待处理信息。

继续参考图1，在步骤S120中，对第一模态待处理信息提取第一模态初始特征，对第二模态待处理信息提取第二模态初始特征。

其中，第一模态初始特征是对第一模态待处理信息单独提取的特征，不包含第二模态待处理信息的特征。第二模态初始特征是对第二模态待处理信息单独提取的特征，不包含第一模态待处理信息的特征。可以采用各种模态下的特征提取方式分别提取第一模态初始特征和第二模态初始特征。

在一种实施方式中，第一模态待处理信息可以是待处理文本，第一模态初始特征可以是文本特征。上述对第一模态待处理信息提取第一模态初始特征，可以包括以下步骤：

对待处理文本中的词进行编码，得到词向量，将词向量进行融合，得到待处理文本的文本特征。

其中，可以对待处理文本中的每个词均进行编码，也可以仅对待处理文本中的关键词进行编码。例如，对待处理文本分词，将每个词与预先配置的词库进行匹配，以筛选出词库中已有的词，作为关键词并进行编码。或者，对待处理文本分词，删除其中无实意的词(如停用词等)，将剩余的词作为关键词并进行编码。可以采用嵌入模型等对词进行稠密编码，得到词向量。在一种实施方式中，可以采用BERT模型(Bidirectional EncoderRepresentations from Transformers，基于Transformer的双向语义编码表征模型)对待处理文本中的词进行编码。BERT模型能够引导每个词捕捉上下文中的语义和句法依赖信息，具备在不同的上下文中对同一个词给出不同表达的能力，使得编码后的词向量信息非常全面。

在得到词向量后，将词向量融合为文本特征，融合的方式可以包括但不限于：将词向量拼接为维度更多的向量；将词向量拼接为矩阵；将词向量相加或进行全连接处理。融合后得到文本特征，本公开对文本特征数据形式不做限定，如可以是向量或矩阵，这与融合词向量的具体方式有关。

在一种实施方式中，第二模态待处理信息可以是待处理图像，第二模态初始特征可以是图像特征。上述对第二模态待处理信息提取第二模态初始特征，可以包括以下步骤：

利用预先训练的残差网络对待处理图像进行处理，得到待处理图像的图像特征。

其中，残差网络(ResNet)是具有残差连接的卷积神经网络，残差连接可以使不同中间层的特征相结合。一般的，随着网络深度的增加，所提取的图像特征越来越抽象，偏向于宏观层面的特征，可能会丢失表象或微观信息，导致难以与文本等其他模态的特征对齐(或匹配)。通过残差连接，可以使不同层面的特征相结合，提高特征的全面性。因此，利用残差网络有利于对待处理图形提取高质量的图像特征。

示例性的，可采用图像分类(或目标检测，或其他图像处理任务)的数据集，训练用于图像分类的残差网络。在训练完成后，可使用该残差网络提取图像特征，具体地，可以将待处理图像输入残差网络，从残差网络特定的中间层(如可以是最后一个卷积层、最后一个池化层、第一个全连接层、最后一个全连接层等)获取特征，作为待处理图像的图像特征。

以上针对文本、图像两种模态的信息，说明了如何提取初始特征。若采用其他模态的信息，也可以利用相应的模型提取初始特征。例如，若第二模态待处理信息为待处理音频，则可以采用音频编码模型或音频特征提取模型提取音频特征，即为第二模态初始特征。

继续参考图1，在步骤S130中，根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对第一查询信息、第一键信息、第一值信息进行处理，得到第一中间特征。

在步骤S140中，根据第二模态初始特征确定第二查询信息，根据第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对第二查询信息、第二键信息、第二值信息进行处理，得到第二中间特征。

由于步骤S130和S140的处理方式相似，将两步骤放在一起进行说明。查询信息(query)、键信息(key)、值信息(value)是注意力机制中对信息的三种表示。查询信息和键信息用于计算信息之间的相关性，该相关性可用于对值信息做进一步表示，得到基于注意力机制的特征。

以第一模态初始特征是文本特征，第二模态初始特征是图像特征为例说明。在步骤S130中，根据文本特征确定第一查询信息，根据图像特征确定第一键信息和第一值信息，通过第一查询信息和第一键信息可以进行图文两种模态的信息对齐，可以理解为以文本信息作为基准对图像信息进行对齐。信息对齐的结果是生成用于图像信息重表征的参数，进而对第一值信息进行信息重表征，本质上是以图像与文本的信息相关性为引导，对图像中的特征进行重新学习，得到第一中间特征，其主要表征模态对齐情况下的图像信息。类似的，在步骤S140中，根据图像特征确定第二查询信息，根据文本特征确定的第二键信息和第二值信息，通过第二查询信息和第二键信息同样可以进行图文两种模态的信息对齐，可以理解为以图像信息作为基准对文本信息进行对齐。信息对齐的结果是生成用于文本信息重表征的参数，进而对第二值信息进行信息重表征，本质上是以文本与图像的信息相关性为引导，对文本中的特征进行重新学习，得到第二中间特征，其主要表征模态对齐情况下的文本信息。

注意力机制使得在对第一值信息或第二值信息进行重表征的过程中，当对当前位置的信息进行编码时，不再过度关注自身的信息，而能够学习到其他位置的信息(特别是相关性较高的位置的信息)，这样保证第一中间特征的全面性。并且，本示例性实施方式通过改变查询信息、键信息、值信息的来源特征的模态，能够更好地实现不同模态信息互补，提高信息的全面表达能力。

在一种实施方式中，参考图2所示，上述根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对第一查询信息、第一键信息、第一值信息进行处理，得到第一中间特征，可以包括以下步骤S210至S240：

步骤S210，将第一模态初始特征与第一查询权重参数相乘，得到第一查询信息；

步骤S220，将第二模态初始特征与第一键权重参数相乘，得到第一键信息，将第二模态初始特征与第一值权重参数相乘，得到第一值信息；

步骤S230，根据第一查询信息与第一键信息，确定第一注意力权重；

步骤S240，基于第一注意力权重对第一值信息进行加权处理，得到第一中间特征。

其中，注意力机制的处理过程可以通过注意力模型来实现，该模型的参数包括第一查询权重参数、第一键权重参数、第一值权重参数，这三种参数均可以是向量或矩阵。将第一模态初始特征与第一查询权重参数相乘，相当于利用第一查询权重参数对第一模态初始特征提取一次特征，得到第一查询信息。将第二模态初始特征与第一键权重参数相乘，并与第一值权重参数相乘，当于利用第一键权重参数和第一值权重参数分别对第二模态初始特征提取一次特征，得到第一键信息和第一值信息。

根据第一查询信息与第一键信息，确定第一注意力权重。例如可以将第一查询信息与第一键信息进行相似度计算，以计算两种模态信息相关性的分布，得到第一注意力权重。最后基于第一注意力权重对第一值信息进行加权处理，如可以将第一注意力权重与第一值信息相乘，得到第一中间特征。

图2的计算过程可以参考如下公式：

其中，Q1、K1、V1分别表示第一查询信息、第一键信息、第一值信息；d_K表示K的维度；attention表示进行注意力机制的运算；softmax表示归一化指数函数；M1表示第一中间特征。

在一种实施方式中，也可以采用多头注意力机制进行特征聚合，得到第一中间特征。示例性的，在图2所示的方法中，可以设置多组第一查询权重参数、第一键权重参数、第一值权重参数，每一组第一查询权重参数、第一键权重参数、第一值权重参数可以对应计算出一组第一注意力权重，并对第一值信息进行加权处理，这样每一组参数可以对应计算出一个第一中间特征。可以将各组参数对应的第一中间特征进行融合，如将这些第一中间特征拼接后降维，得到最终的第一中间特征。使用多头注意力机制使得注意力模型可以学习到更多特征空间内的信息，并将这些信息组织起来，给予第一中间特征包含有不同空间中的编码表示信息，增强模型的表达能力。

在一种实施方式中，上述根据第二模态初始特征确定第二查询信息，根据第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对第二查询信息、第二键信息、第二值信息进行处理，得到第二中间特征，可以包括以下步骤：

将第二模态初始特征与第二查询权重参数相乘，得到第二查询信息；

将第一模态初始特征与第二键权重参数相乘，得到第二键信息，将第一模态初始特征与第二值权重参数相乘，得到第二值信息；

根据第二查询信息与第二键信息，确定第二注意力权重；

基于第二注意力权重对第二值信息进行加权处理，得到第二中间特征。

其中，第二查询权重参数与第一查询权重参数可以相同，也可以不同。例如，可以训练一个注意力模型，在提取第一中间特征和提取第二中间特征时，均采用该注意力模型，该注意力模型中的查询权重参数即为第一查询权重参数与第二查询权重参数，两者相同。或者，可以训练两个注意力模型，一个用于提取第一中间特征，其查询权重参数即为第一查询权重参数，另一个用于提取第二中间特征，其查询权重参数即为第二查询权重参数，两者一般不同。类似的，第二键权重参数与第一键权重参数可以相同，也可以不同。第二值权重参数与第一值权重参数可以相同，也可以不同。

上述得到第二中间特征的步骤具体实现方式，可以参考图2部分的内容。因而不再赘述。

继续参考图1，在步骤S150中，融合第一中间特征和第二中间特征，得到多模态目标特征。

第一中间特征和第二中间特征均是对第一模态信息和第二模态信息进行聚合后的特征，只是特征中的信息侧重不同。通过将第一中间特征和第二中间特征进一步融合，得到多模态目标特征，作为多模态的特征融合最终结果。

在一种实施方式中，参考图3所示，上述融合第一中间特征和第二中间特征，得到多模态目标特征，可以包括以下步骤S310和S320：

步骤S310，基于第一融合权重参数、第二融合权重参数对第一中间特征、第二中间特征进行加权融合；

步骤S320，对加权融合结果进行激活，得到多模态目标特征。

其中，第一融合权重参数是对第一中间特征进行加权的权重参数，第二融合权重参数是对第二中间特征进行加权的权重参数。基于第一融合权重参数、第二融合权重参数，可以对第一中间特征、第二中间特征的融合占比进行调整，可以理解为对第二模态信息(由于第一中间特征主要表征第二模态信息)、第一模态信息(由于第二中间特征主要表征第一模态信息)的融合占比进行调整。以图文融合为例，基于第一融合权重参数、第二融合权重参数，能够动态控制图像信息与文本信息在多模态目标特征中的贡献，如能够避免文本中的虚词(如the、of)与任何图像块的对齐，相比于对不同模态的特征直接相加或拼接，本方案能够减小融合误差。

在得到加权融合结果后，可以对其进行激活，以使得特征具有非线性特性，并可筛除掉特征中的无用信息，得到多模态目标特征。

示例性的，融合第一中间特征和第二中间特征的过程可以参考如下公式：

其中，W₁表示第一融合权重参数，其可以是向量或矩阵，其右上角标的T表示转置；W₂表示第二融合权重参数，其可以是向量或矩阵，其右上角标的T表示转置；σ表示sigmoid激活函数，当然也可以采用其他激活函数，如ReLU(Rectified Linear Unit，修正线性单元)等；g表示多模态目标特征。

在一种实施方式中，上述加权融合、激活的处理可以通过多模态融合模型来实现，多模态融合模型可以包括一个或多个全连接层与激活层，也可以包括其他类型的中间层。全连接层中的权重参数包括第一融合权重参数、第二融合权重参数，通过全连接层对第一中间特征和第二中间特征进行加权融合，再通过激活层进行激活处理，输出多模态目标特征。

在一种实施方式中，参考图4所示，在步骤S150之后，多模态的特征处理方法还可以包括以下步骤S160：

步骤S160，通过对多模态目标特征进行分类处理，得到第一模态待处理信息和第二模态待处理信息的事件检测结果。

例如，可以对多模态目标特征进行回归处理，得到第一模态待处理信息和第二模态待处理信息表示发生特定事件的概率值，进而得到事件检测结果。或者，可以预先训练用于分类的事件检测模型(如可以是全连接网络)，将多模态目标特征输入事件检测模型，输出事件检测结果，包括第一模态待处理信息和第二模态待处理信息是否表示发生特定事件，以及发生事件的类别。

由于本示例性实施方式中的多模态目标特征充分融合了第一模态和第二模态的信息，实现了两种模态信息的互补，基于多模态目标特征进行事件检测，有利于得到准确性较高的事件检测结果。

在一种实施方式中，还可以基于多模态目标特征或事件检测结果进行事件论元识别，即识别出事件中的论元类型，如事件发生的时间、地点、人物等。由此实现事件抽取，在信息检索、文本摘要、知识图谱等领域有着重要的应用价值。

当然，除了事件检测外，多模态目标特征还可以用于其他任务，如生成相关的信息图谱，输出文本或图像的语义信息(或翻译信息)等。

在一种实施方式中，多模态的特征融合过程可以参考图5所示。首先将待处理文本输入BERT模型，得到文本特征，将待处理图像输入残差网络，得到图像特征。然后根据文本特征确定查询信息(Q)，根据图像特征确定键信息(K)、值信息(V)，通过多模态多头注意力模型输出第一中间特征。根据图像特征确定查询信息(Q)，根据文本特征确定键信息(K)、值信息(V)，通过多模态多头注意力模型输出第二中间特征。最后，将第一中间特征和第二中间特征输入多模态融合模型，输出多模态目标特征。

在一种实施方式中，上述一个或多个模型的训练过程可以参考图6所示。首先获取训练数据，其包括样本文本、样本图像、事件检测标签(ground truth)这样三元组形式的数据，同一三元组中的样本文本和样本图像具有预设关联关系，事件检测标签用于表示样本文本和样本图像是否表示发生了特定事件。将样本文本输入BERT模型，得到样本文本特征。将样本图像输入残差网络，得到样本图像特征。然后根据样本文本特征确定查询信息(Q)，根据样本图像特征确定键信息(K)、值信息(V)，通过多模态多头注意力模型输出第一中间样本特征。根据样本图像特征确定查询信息(Q)，根据样本文本特征确定键信息(K)、值信息(V)，通过多模态多头注意力模型输出第二中间样本特征。将第一中间样本特征和第二中间样本特征输入多模态融合模型，输出多模态样本特征。接下来，将多模态样本特征输入事件检测模型，输出事件检测样本结果。根据事件检测样本结果和事件检测标签确定损失函数，如可以根据事件检测样本结果和事件检测标签的差异值确定损失函数。最后，基于损失函数更新上述一个或多个需要训练的模型的参数，需要训练的模型例如可以包括事件检测模型、多模态融合模型、多模态多头注意力模型，BERT模型和残差网络可以是预训练的模型，因此无需在图6的流程中进行训练。通过训练，得到高质量的模型，可应用于对第一模态待处理信息和第二模态待处理信息的处理，提取高质量的多模态目标特征，并得到准确的事件检测结果。

本公开的示例性实施方式还提供一种多模态的特征处理装置。参考图7所示，多模态的特征处理装置700可以包括以下程序模块：

信息获取模块710，被配置为获取第一模态待处理信息和第二模态待处理信息；

初始特征提取模块720，被配置为对第一模态待处理信息提取第一模态初始特征，对第二模态待处理信息提取第二模态初始特征；

第一注意力处理模块730，被配置为根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对第一查询信息、第一键信息、第一值信息进行处理，得到第一中间特征；

第二注意力处理模块740，被配置为根据第二模态初始特征确定第二查询信息，根据第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对第二查询信息、第二键信息、第二值信息进行处理，得到第二中间特征；

中间特征融合模块750，被配置为融合第一中间特征和第二中间特征，得到多模态目标特征。

在一种实施方式中，第一模态待处理信息包括待处理文本，第二模态待处理信息包括待处理图像。

在一种实施方式中，第一模态初始特征包括文本特征；上述对第一模态待处理信息提取第一模态初始特征，包括：

在一种实施方式中，第二模态初始特征包括图像特征；上述对第二模态待处理信息提取第二模态初始特征，包括：

在一种实施方式中，上述根据第一模态初始特征确定第一查询信息，根据第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对第一查询信息、第一键信息、第一值信息进行处理，得到第一中间特征，包括：

将第一模态初始特征与第一查询权重参数相乘，得到第一查询信息；

将第二模态初始特征与第一键权重参数相乘，得到第一键信息，将第二模态初始特征与第一值权重参数相乘，得到第一值信息；

根据第一查询信息与第一键信息，确定第一注意力权重；

基于第一注意力权重对第一值信息进行加权处理，得到第一中间特征。

在一种实施方式中，上述融合第一中间特征和第二中间特征，得到多模态目标特征，包括：

基于第一融合权重参数、第二融合权重参数对第一中间特征、第二中间特征进行加权融合；

对加权融合结果进行激活，得到多模态目标特征。

在一种实施方式中，多模态的特征处理装置700还可以包括事件检测模块，被配置为：在中间特征融合模块750在得到多模态目标特征后，通过对多模态目标特征进行分类处理，得到第一模态待处理信息和第二模态待处理信息的事件检测结果。

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种可选的实施方式中，该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施方式还提供一种电子设备。该电子设备可以包括处理器与存储器。存储器存储有处理器的可执行指令，如可以是程序代码。处理器通过执行该可执行指令来执行本示例性实施方式中的方法。

下面参考图8，以通用计算设备的形式对电子设备进行示例性说明。应当理解，图8显示的电子设备800仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来限制。

如图8所示，电子设备800可以包括：处理器810、存储器820、总线830、I/O(输入/输出)接口840、网络适配器850。

存储器820可以包括易失性存储器，例如RAM 821、缓存单元822，还可以包括非易失性存储器，例如ROM 823。存储器820还可以包括一个或多个程序单元824，这样的程序单元824包括但不限于：操作***、一个或者多个应用程序、其它程序单元以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。例如，程序单元824可以包括上述装置中的各模块。

总线830用于实现电子设备800的不同组件之间的连接，可以包括数据总线、地址总线和控制总线。

电子设备800可以通过I/O接口840与一个或多个外部设备900(例如键盘、鼠标、外置控制器等)进行通信。

电子设备800可以通过网络适配器850与一个或者多个网络通信，例如网络适配器850可以提供如3G/4G/5G等移动通信解决方案，或者提供如无线局域网、蓝牙、近场通信等无线通信解决方案。网络适配器850可以通过总线830与电子设备800的其它单元通信。

尽管图8中未示出，还可以在电子设备800中设置其它硬件和/或软件单元，包括但不限于：显示器、微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干单元或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多单元或者单元的特征和功能可以在一个单元或者单元中具体化。反之，上文描述的一个单元或者单元的特征和功能可以进一步划分为由多个单元或者单元来具体化。

本领域技术人员能够理解，本公开的各个方面可以实现为***、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“单元”或“***”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种多模态的特征处理方法，其特征在于，包括：

获取第一模态待处理信息和第二模态待处理信息；

对所述第一模态待处理信息提取第一模态初始特征，对所述第二模态待处理信息提取第二模态初始特征；

根据所述第一模态初始特征确定第一查询信息，根据所述第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对所述第一查询信息、所述第一键信息、所述第一值信息进行处理，得到第一中间特征；

根据所述第二模态初始特征确定第二查询信息，根据所述第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对所述第二查询信息、所述第二键信息、所述第二值信息进行处理，得到第二中间特征；

融合所述第一中间特征和所述第二中间特征，得到多模态目标特征。

2.根据权利要求1所述的方法，其特征在于，所述第一模态待处理信息包括待处理文本，所述第二模态待处理信息包括待处理图像。

3.根据权利要求2所述的方法，其特征在于，所述第一模态初始特征包括文本特征；所述对所述第一模态待处理信息提取第一模态初始特征，包括：

对所述待处理文本中的词进行编码，得到词向量，将所述词向量进行融合，得到所述待处理文本的文本特征。

4.根据权利要求2所述的方法，其特征在于，所述第二模态初始特征包括图像特征；所述对所述第二模态待处理信息提取第二模态初始特征，包括：

利用预先训练的残差网络对所述待处理图像进行处理，得到所述待处理图像的图像特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一模态初始特征确定第一查询信息，根据所述第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对所述第一查询信息、所述第一键信息、所述第一值信息进行处理，得到第一中间特征，包括：

将所述第一模态初始特征与第一查询权重参数相乘，得到所述第一查询信息；

将所述第二模态初始特征与第一键权重参数相乘，得到所述第一键信息，将所述第二模态初始特征与第一值权重参数相乘，得到所述第一值信息；

根据所述第一查询信息与所述第一键信息，确定第一注意力权重；

基于所述第一注意力权重对所述第一值信息进行加权处理，得到所述第一中间特征。

6.根据权利要求1所述的方法，其特征在于，所述融合所述第一中间特征和所述第二中间特征，得到多模态目标特征，包括：

基于第一融合权重参数、第二融合权重参数对所述第一中间特征、所述第二中间特征进行加权融合；

对加权融合结果进行激活，得到所述多模态目标特征。

7.根据权利要求1至6任一项所述的方法，其特征在于，在得到多模态目标特征后，所述方法还包括：

通过对所述多模态目标特征进行分类处理，得到所述第一模态待处理信息和所述第二模态待处理信息的事件检测结果。

8.一种多模态的特征处理装置，其特征在于，包括：

信息获取模块，被配置为获取第一模态待处理信息和第二模态待处理信息；

初始特征提取模块，被配置为对所述第一模态待处理信息提取第一模态初始特征，对所述第二模态待处理信息提取第二模态初始特征；

第一注意力处理模块，被配置为根据所述第一模态初始特征确定第一查询信息，根据所述第二模态初始特征确定第一键信息和第一值信息，并通过注意力机制对所述第一查询信息、所述第一键信息、所述第一值信息进行处理，得到第一中间特征；

第二注意力处理模块，被配置为根据所述第二模态初始特征确定第二查询信息，根据所述第一模态初始特征确定第二键信息和第二值信息，并通过注意力机制对所述第二查询信息、所述第二键信息、所述第二值信息进行处理，得到第二中间特征；

中间特征融合模块，被配置为融合所述第一中间特征和所述第二中间特征，得到多模态目标特征。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。