CN111563551A

CN111563551A - 一种多模态信息融合方法、装置及电子设备

Info

Publication number: CN111563551A
Application number: CN202010371018.8A
Authority: CN
Inventors: 高睿哲; 李超; 汲小溪
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-21
Anticipated expiration: 2040-04-30
Also published as: CN111563551B

Abstract

本说明书实施例提供一种多模态信息融合方法、装置及电子设备。所述方法包括：获取目标对象所对应的原始数据，所述原始数据中至少包含第一模态信息和第二模态信息；对所述第一模态信息和第二模态信息分别进行表征处理，得到各模态信息所对应的初始特征向量；将所述初始特征向量作为输入，利用预定的由多个模态融合层所组成的多模态融合层结构对所述初始特征向量执行融合操作得到目标特征向量，以便完成对所述第一模态信息和第二模态信息的融合；其中，每个所述模态融合层中均采用注意力机制根据预设的目标标签为输入的特征向量或融合后的向量分配不同的权重。

Description

一种多模态信息融合方法、装置及电子设备

技术领域

本说明书涉及互联网技术领域，尤其涉及一种多模态信息融合方法、装置及电子设备。

背景技术

随着互联网的发展以及需求表达方式的进步，对某一场景或者主体的数据描述呈现出多种表现形式，包括传统的结构化数据以及文本、图片、音频、视频等非结构化的模态形式。基于数据表现形式多样化的背景，多模态学习成为一个重要的研究领域，如何将各模态的信息更好地联合利用起来越来越受人们的关注，而多模态融合是多模态学习中的一个研究方向，通过融合多个模态的信息，有利于对场景及主体进行更为全面地感知、分析和理解。

以多模态信息融合在商户风险识别领域中的应用为例，通过联合与商户相关的多种模态信息进行建模，来识别商户准入、巡查等场景中的风险，现有的多模态信息融合方案中，通过将不同的模态信息分别进行表征处理，再将这些模态信息的表征连在一起作为一个连续向量输入到神经网络中进行训练，这种模态信息融合方案仅仅是简单地将多个模态信息连在一起，没有考虑模态之间的相互关联。因此，采用上述多模态信息融合方案得到的多模态信息融合模型的效能较低，无法更好地对目标进行识别。

发明内容

本说明书实施例提供一种多模态信息融合方法、装置及电子设备，以解决现有技术存在的利用多模态信息融合方案训练得到的模型的效能较低，无法更好地对目标进行识别的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种多模态信息融合方法，所述方法包括：

获取目标对象所对应的原始数据，所述原始数据中至少包含第一模态信息和第二模态信息；

对所述第一模态信息和第二模态信息分别进行表征处理，得到各模态信息所对应的初始特征向量；

将所述初始特征向量作为输入，利用预定的由多个模态融合层所组成的多模态融合层结构对所述初始特征向量执行融合操作得到目标特征向量，以便完成对所述第一模态信息和第二模态信息的融合；其中，每个所述模态融合层中均采用注意力机制根据预设的目标标签为输入的特征向量或融合后的向量分配不同的权重。

本说明书实施例提供的一种多模态信息融合装置，所述装置包括：

获取模块，用于获取目标对象所对应的原始数据，所述原始数据中至少包含第一模态信息和第二模态信息；

处理模块，用于对所述第一模态信息和第二模态信息分别进行表征处理，得到各模态信息所对应的初始特征向量；

融合模块，用于将所述初始特征向量作为输入，利用预定的由多个模态融合层所组成的多模态融合层结构对所述初始特征向量执行融合操作得到目标特征向量，以便完成对所述第一模态信息和第二模态信息的融合；其中，每个所述模态融合层中均采用注意力机制根据预设的目标标签为输入的特征向量或融合后的向量分配不同的权重。

本说明书实施例提供的一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种多模态信息融合方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过获取目标对象所对应的原始数据，原始数据中至少包含第一模态信息和第二模态信息；对第一模态信息和第二模态信息分别进行表征处理，得到各模态信息所对应的初始特征向量；将初始特征向量作为输入，利用预定的由多个模态融合层所组成的多模态融合层结构对初始特征向量执行融合操作得到目标特征向量，以便完成对第一模态信息和第二模态信息的融合；其中，每个模态融合层中均采用注意力机制根据预设的目标标签为输入的特征向量或融合后的向量分配不同的权重。基于本方案，提出了一种在不同模态信息融合层基于注意力机制进行多模态信息融合的方法，使得各模态信息的融合更具有可解释性，也使训练得到的模型能够获取模态之间的关联信息，从而更好地实现对目标进行识别。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种多模态信息融合方法的流程示意图；

图2为本说明书实施例提供的一种多模态融合层结构的示意图；

图3为本说明书实施例提供的一种多模态信息融合装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

模态可以被定义为信息的来源或者表示方式，比如图像、文本、语音、视频等都可以认为是一种单模态信息，而多模态学习可以认为是通过机器学习的方法实现处理和理解多源模态信息的能力。在多模态学习领域中多模态融合(即多模态信息融合)是其中一个重要的研究方向，多模态融合主要是指通过联合多个模态的信息进行目标预测(如分类或者回归)。下面以商户风险识别领域为例，对利用模态模型进行风险识别的过程进行介绍，具体内容如下：

在商户小程序底线风险识别、商户非法投融资网页识别、以及商户赌博网页识别过程中，一般可以利用文本和图像这两种模态信息进行建模从而对风险进行识别，具体又可以包括两种方案，即单模态模型方案和多模态concat融合方案；

在单模态模型方案中，对于小程序底线风险识别，目前可以获取小程序商户名、商品名等文本信息，以及小程序页面截图等图像信息，然后分别基于以上单模态信息(文本信息或图像信息)用nlp及cv模型进行建模，并以存在欺诈、赌博等底线风险的小程序为黑标进行模型训练。

但是，这种单模态模型利用的模态信息比较单一。以文本模态为例，如果某赌博小程序为了逃过文本内容的审核，该小程序会将关于赌博信息的内容尽可能少地暴露在文本中，但是同时，由于其需要让需求者了解到自己经营的内容，因此会在其他模态的特征上有比较显著的体现，例如在图像上会有一些明显的牌类标志等等。那么，在这种情况下，单一文本模态的识别模型无法将这一类小程序识别出来，需要辅以图像的信息一起做判断。

在多模态concat融合方案中，concat是多模态融合中一种比较常见和简单的方法，即在对不同模态进行表征处理之后，将这些模态的表征连在一起作为一个连续向量embedding输入到神经网络以及分类器中；比如在小程序底线风险识别的场景中，首先将文本及图像这两种模态的原始数据用nlp、cv模型进行表征处理，再将两个单模态模型中输出的连续向量embedding连在一起输入到网络中，并以存在欺诈、赌博等底线风险的小程序为黑标进行模型训练。

但是，这种多模态concat融合方案仅仅是简单地将两个单模态的信息表征连成一个连续向量embedding进行训练，仅仅是在信息上做了增加，没有考虑到两个模态之间的相互关联。例如，同样是某赌博小程序，文本上的“棋牌”文字与图像上的棋牌图案是有关联的，如果模型能够学到这两个模态间的这种关联，并加强这种关联的作用，会为模型的识别预测带来增益。因此，仅仅将两个模态的信息连在一起会浪费两个模态隐藏的关联信息的作用。

针对现有技术中的上述情形，为了能够从更多的角度和层面上对目标进行刻画与识别，并且将两个模态之间的关系考虑到模型中来，使模型能够进一步学习到两个模态间隐藏的一些关联信息，从而进一步提升多模态融合模型的效能，使得各模态信息的融合更具有可解释性，从而更好地实现对目标进行识别。本方案在上述目标下，提供了一种使得模型能够获取两种模态之间的关系，从而更好地对目标进行识别的多模态信息融合方法。

基于以上场景，下面对本说明书的方案进行详细说明，上述应用场景不构成对本说明书实际应用场景的限定。

图1为本说明书实施例提供的一种多模态信息融合方法的流程示意图，该方法具体可以包括以下步骤：

在步骤S110中，获取目标对象所对应的原始数据，所述原始数据中至少包含第一模态信息和第二模态信息。

在本说明书一个或多个实施例中，在商户风险识别领域，既有传统的结构化数据模态(即交易数据)，同时可以通过商户提交的网址、申请的小程序等获得与商户相关的文本模态信息和图像模态信息，例如网页内容、小程序页面内容、网页截图等，再者商户的行为信息(即序列数据)也是一种模态信息。

具体地，在说明书实施例中，目标对象是指多模态融合模型的训练样本，比如商户小程序、商户页面等；原始数据即训练样本(商户小程序、商户页面等)所对应的数据。由于本说明书实施例是以文本信息和图像信息这两种模态信息的融合方法为例进行说明的，因此，可以分别通过对商户小程序或商户页面进行文本爬取得到文本信息，并对商户小程序或商户页面进行截图得到图像信息，其中，文本信息对应第一模态信息，图像信息对应第二模态信息。但是值得说明的是，在现实应用中，本说明书实施例不限于上述这两种模态信息，第一和第二也不构成对模态信息的数量、先后顺序或重要程度的限定，音频模态信息或者视频模态信息也同样适应于本方案。

在得到目标对象(即训练样本)对应的模态信息后，便可以基于该模态信息进行建模，下面通过结合图2，对多模态信息融合模型的生成过程进行详细介绍，图2为本说明书实施例提供的一种多模态信息融合模型的结构示意图。

在步骤S120中，对所述第一模态信息和第二模态信息分别进行表征处理，得到各模态信息所对应的初始特征向量。

在本说明书一个或多个实施例中，在得到目标对象(即训练样本)的原始数据后，为了将原始数据转化为能够被机器学习的表征，因此需要对原始数据进行表征处理，可以采用以下方式对模态信息进行表征处理得到初始特征向量，具体内容如下：

以文本模态信息和图像模态信息的表征处理为例，首先将文本信息转化为词向量，并利用卷积神经网络提取图像信息的图像特征向量；将词向量以及图像特征向量分别作为第一模态信息和第二模态信息所对应的初始特征向量。

进一步地，在说明书一具体实施例中，对于文本信息的表征处理来说，可以通过将原始的文本文字输入到word2vec中转化为词向量，即转化为图2的layer1(word encodinglayer)中的w_ij；同时，对于图像信息的表征处理来说，可以利用已经在ImageNet上训练好的CNN网络提取图像的embedding，即表示图2的layer2(attention fusion layer)中最左侧的过程，m_j即提取到的图像特征。由此便完成了原始数据的表征处理，接下来就可以将向量表示的文本模态信息和图像模态信息作为两个模态的特征输入到融合层结构中进行处理。

在步骤S130中，将所述初始特征向量作为输入，利用预定的由多个模态融合层所组成的多模态融合层结构对所述初始特征向量执行融合操作得到目标特征向量，以便完成对所述第一模态信息和第二模态信息的融合；其中，每个所述模态融合层中均采用注意力机制根据预设的目标标签为输入的特征向量或融合后的向量分配不同的权重。

在本说明书一个或多个实施例中，步骤S130对应本说明书技术方案中的多模态融合部分，在对该部分内容进行详细介绍之前，先对多模态融合部分中的分层结构以及注意力机制进行简要说明。

本说明书技术方案通过由多个模态融合层所组成的多模态信息融合结构实现对表征后的文本模态信息和图像模态信息的融合，所谓的分层结构可以认为是通过对某一任务从不同层面进行结构分层，并在分层后进行处理；例如在NLP任务中，可以从词、句子、文本等多个层级进行处理。由于本说明书是以文本信息为第一模态信息举例进行说明的，因此可以基于文本信息的特点，按照词、句子和文本的层次将多模态融合层结构划分为三个模态融合层。当然在实际应用中，也可以根据其他模态信息的特点划分成不同层次的模态融合层，模态融合层的层数不构成对本说明书技术方案的限定。

注意力机制(Attention机制)可以用于对输入向量的不同部分赋予不同的权重，进而实现软区分的目的；在本说明书实施例中可以认为是多模态融合层中的一种融合算子。由于本说明书实施例中每一个模态融合层均使用了Attention机制，因此，本说明书中的多模态融合层结构也可以认为是一种Attention算子分层结构，下面通过分别介绍三个使用到Attention机制的模态融合层，详细阐述Attention算子分层结构的运作原理以及基于Attention算子分层结构的模态信息融合方法。

在第一模态融合层(对应图2的Layer1)中，主要包含以下操作：以词向量作为输入，根据目标标签以及第一注意力机制确定每个词向量所对应的第一注意力权重，并根据词向量以及第一注意力权重进行加权得到句子特征向量。下面结合具体实施例对第一模态融合层的实际操作过程进行详细说明如下：

第一模态融合层layer1可以认为是将词向量转化为句子向量的网络，通过第一模态融合层以最终学习的标签信息(即目标标签)为导向，学习每一个词在句子中重要性。首先，将每个词向量输入到双向RNN中，利用双向RNN对每个词向量进行处理得到每个词在句子中的表征向量，此时的词向量结合了句子上下文的信息；其次，对每个表征向量执行线性变换及激活函数操作，并根据执行操作后的表征向量与第一注意力机制的矩阵确定每个词向量所对应的第一注意力权重，具体地，将经过线性变换及激活函数操作(tanh操作)的表征向量与第一模态融合层的Attention机制(即第一注意力机制)中的Query矩阵(这里表示为图2中的矩阵U)相乘，从而得到每个词向量所对应的第一注意力权重；进一步地，对第一注意力权重经softmax进行归一化处理，得到每个词向量经softmax归一化处理后的第一注意力权重(也可以称为attention权重)；最后，再将词向量与其对应的经归一化处理后的第一注意力权重进行加权从而得到句子特征向量，具体地，将每一个词向量与其对应的第一注意力权重相乘(即对一个词进行attention加权)，进而实现对输入的不同词向量赋予不同的权重，实现软区分的目的。

例如，以商户小程序页面中的赌博文本为例，“欢迎参与棋牌游戏”这一个句子中，以最终学习的标签为导向，“棋牌”一词与赌博标签的关联度更高，因此在模型的学习过程中会赋予更高的权重；通过第一模态融合层中的注意力机制可以将文本的每一句话中对于标签信息重要的词语增大权重。

具体地，在本说明书实施例中，可以采用以下计算式执行第一模态融合层的操作：

u_i,t＝U^Ttanh(W_wh_i,t+b_w)

s_i＝∑_tα_i,th_i,t

其中，U^T表示第一注意力机制的矩阵；h_i,t表示每个词在句子中的表征向量；b_w表示线性变换的常量；u_i,t表示归一化处理前的第一注意力权重；α_i,t表示归一化处理后的第一注意力权重；s_i表示句子特征向量。

进一步地，在将词向量表示转化成句子向量表示后，句子向量将通过第二模态融合层layer2与图像特征进行融合，在融合的过程中同样使用了Attention机制，关于第二模态融合层的操作主要包括以下内容：

在第二模态融合层中，以句子特征向量以及图像特征向量作为输入，将句子特征向量与图像特征向量进行融合，根据目标标签以及第二注意力机制为融合之后的向量分配第二注意力权重，并根据融合之后的向量以及第二注意力权重进行加权得到文本特征向量。下面结合具体实施例对第二模态融合层的实际操作过程进行详细说明如下：

第二模态融合层layer2主要用于抓取文本与图像之间相关联的对于目标预测更为重要的信息。首先，利用双向RNN对每个句子特征向量进行处理得到每个句子在文本中的表征向量，对表征向量以及图像特征向量分别执行线性变换及激活函数操作(tanh操作)；其次，将执行了操作后的表征向量以及图像特征向量进行融合，具体地，将经过线性变换及激活函数操作后的图像特征向量及文本表征向量进行点乘，然后再加一次文本表征向量，即可完成图像特征与文本特征的融合；进一步地，对融合之后的特征向量根据目标标签来分配权重，具体地，将图像特征向量作为第二注意力机制中的Query矩阵(这里表示为图2中的矩阵V)，根据融合后的向量与第二注意力机制的矩阵确定每个融合后的向量所对应的第二注意力权重；最后，对得到的第二注意力权重进行softmax归一化处理，并将融合后的向量与其对应的经归一化处理后的第二注意力权重进行加权得到文本特征向量，该文本特征向量用于表示在文本信息中融合了图像信息后的向量，即商户小程序页面中每篇文本融合了图像信息的向量。通过第二模态融合层layer2的处理，将图像特征作为Query矩阵计算attention表示，在句子的层级上进行attention加权，从而实现了根据目标信息对每一个句子在整个文本中的重要性进行区分，layer2是在句子层级上的注意力机制的应用。

具体地，在本说明书实施例中，可以采用以下计算式执行第二模态融合层的操作：

p_j＝tanh(W_pm_j+b_p)

q_i＝tanh(W_qh_i+b_q)

v_j,i＝V^T(p_jοq_i+q_i)

d_j＝∑_iβ_i,th_i

其中，m_j表示图像特征向量；h_i表示句子在文本中的表征向量；p_j°q_i+q_i表示融合后的向量；V^T表示第二注意力机制的矩阵；v_j,i表示归一化处理前的第二注意力权重；β_j,i表示归一化处理后的第二注意力权重；d_j表示文本特征向量。

更进一步地，由于一个商户小程序可能对应多篇文本，因此对于目标对象(如商户小程序)来说，不同文本对于标签的重要程度也不相同，因此在第二模态融合层的基础上，需要进一步判断不同文本对目标预测的权重，即利用第三注意力机制对每篇文本赋予不一样的权重，下面对第三模态融合层(对应图2的Layer3)的实际操作过程进行说明如下：

以文本特征向量(即融合了图像信息的文本特征向量)作为输入，根据目标标签以及第三注意力机制为文本特征向量分配第三注意力权重，并根据文本特征向量以及第三注意力权重进行加权得到目标特征向量，具体地，利用第三注意力机制中的Query矩阵(这里表示为图2中的矩阵K)为每个文本特征向量赋予不同的权重(即第三注意力权重)，然后再将每一篇文本特征向量与其对应的第三注意力权重相乘，进而实现对输入的不同文本特征向量赋予不同的权重，实现软区分的目的。

基于本说明书以上实施例的内容，通过对文本模态信息从不同层面进行分层，例如从词和句子的层面进行分层，并在句子分层中利用注意力机制对两种模态的信息(文本信息和图像特征)进行融合，使得模型能够获取两种模态之间的关系，并且在融合过程中，对于模型训练标签更为重要的信息会给与更高的权重，本说明书技术方案通过划分的多个不同模态融合层并基于Attention机制的多模态融合方法，使得各模态信息的融合更具有可解释性，能够更好地对目标进行识别。

基于前述步骤S110-步骤S130便完成了多模态信息融合的全部操作，为了利用多模态信息融合的结果进行多模态信息融合模型的训练，本说明书实施例中还进一步包括以下步骤：

在步骤S140中，将所述目标特征向量输入到分类器中，根据所述目标标签进行模型训练得到多模态信息融合模型。

在本说明书一个或多个实施例中，通过步骤S130中的三个模态融合层之后，可以将获得的包含着文本和图像信息的目标特征向量输入到分类器(如DNN分类器、逻辑回归分类器等)中，根据目标label(目标标签)进行模型的训练，至此，整个基于attention算子分层结构的多模态信息融合模型便搭建完成了。基于本方案所生成的多模态融合模型相对于单模态的模型可以获取更多的信息，可以从更多的角度和层面上对目标进行刻画与识别，再者，基于attention算子的分层结构方法不仅包含了两个模态各自的信息，还将两个模态之间的关系考虑到模型中来，因此，模型能够进一步学习到两个模态间隐藏的一些关联信息，进一步提升模型的效能。

基于同样的思路，本说明书实施例还提供了一种多模态信息融合装置，如图3为本说明书实施例提供的一种多模态信息融合装置的结构示意图，该装置300主要包括：

获取模块301，用于获取目标对象所对应的原始数据，所述原始数据中至少包含第一模态信息和第二模态信息；

处理模块302，用于对所述第一模态信息和第二模态信息分别进行表征处理，得到各模态信息所对应的初始特征向量；

融合模块303，用于将所述初始特征向量作为输入，利用预定的由多个模态融合层所组成的多模态融合层结构对所述初始特征向量执行融合操作得到目标特征向量，以便完成对所述第一模态信息和第二模态信息的融合；其中，每个所述模态融合层中均采用注意力机制根据预设的目标标签为输入的特征向量或融合后的向量分配不同的权重。

进一步地，所述装置中还包括：训练模块304，用于将所述目标特征向量输入到分类器中，根据所述目标标签进行模型训练得到多模态信息融合模型。

本说明书实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种多模态信息融合方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的，因此，装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、***、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种多模态信息融合方法，所述方法包括：

2.如权利要求1所述的方法，所述目标对象包括商户小程序和/或商户网页，所述获取目标对象所对应的原始数据，所述原始数据中至少包含第一模态信息和第二模态信息，包括：

对所述商户小程序或商户页面进行文本爬取得到文本信息，并对所述商户小程序或商户页面进行截图得到图像信息，其中，所述文本信息对应第一模态信息，所述图像信息对应第二模态信息。

3.如权利要求2所述的方法，所述对所述第一模态信息和第二模态信息分别进行表征处理，得到各模态信息所对应的初始特征向量，包括：

将所述文本信息转化为词向量，并利用卷积神经网络提取所述图像信息的图像特征向量；将所述词向量以及图像特征向量分别作为所述第一模态信息和第二模态信息所对应的初始特征向量。

4.如权利要求3所述的方法，所述多模态融合层结构中包含三个模态融合层，所述利用预定的由多个模态融合层所组成的多模态融合层结构对所述初始特征向量执行融合操作得到目标特征向量，包括：

在第一模态融合层中，以所述词向量作为输入，根据目标标签以及第一注意力机制确定每个词向量所对应的第一注意力权重，并根据所述词向量以及第一注意力权重进行加权得到句子特征向量；

在第二模态融合层中，以所述句子特征向量以及图像特征向量作为输入，将所述句子特征向量与图像特征向量进行融合，根据目标标签以及第二注意力机制为融合之后的向量分配第二注意力权重，并根据所述融合之后的向量以及第二注意力权重进行加权得到文本特征向量；

在第三模态融合层中，以所述文本特征向量作为输入，根据目标标签以及第三注意力机制为所述文本特征向量分配第三注意力权重，并根据所述文本特征向量以及第三注意力权重进行加权得到目标特征向量。

5.如权利要求4所述的方法，在所述第一模态融合层中具体包括以下操作：

利用双向RNN对每个词向量进行处理得到每个词在句子中的表征向量，对所述表征向量执行线性变换及激活函数操作，并根据执行所述操作后的表征向量与第一注意力机制的矩阵确定每个词向量所对应的第一注意力权重，对所述第一注意力权重进行归一化处理，将所述词向量与其对应的经归一化处理后的第一注意力权重进行加权得到句子特征向量。

6.如权利要求5所述的方法，采用以下计算式执行所述第一模态融合层中的操作，具体地：

u_i，t＝U^Ttanh(W_wh_i，t+b_w)

s_i＝∑_tα_i，th_i，t

其中，U^T表示第一注意力机制的矩阵；h_i，t表示每个词在句子中的表征向量；b_w表示线性变换的常量；u_i，t表示归一化处理前的第一注意力权重；α_i，t表示归一化处理后的第一注意力权重；s_i表示句子特征向量。

7.如权利要求4所述的方法，在所述第二模态融合层中具体包括以下操作：

利用双向RNN对每个句子特征向量进行处理得到每个句子在文本中的表征向量，对所述表征向量以及图像特征向量分别执行线性变换及激活函数操作，将执行了所述操作后的表征向量以及图像特征向量进行融合，将所述图像特征向量作为第二注意力机制的矩阵，根据融合后的向量与第二注意力机制的矩阵确定每个融合后的向量所对应的第二注意力权重，对所述第二注意力权重进行归一化处理，将融合后的向量与其对应的经归一化处理后的第二注意力权重进行加权得到文本特征向量。

8.如权利要求7所述的方法，采用以下计算式执行所述第二模态融合层中的操作，具体地：

p_j＝tanh(W_pm_j+b_p)

q_i＝tanh(W_qh_i+b_q)

d_j＝∑_iβ_i，th_i

其中，m_j表示图像特征向量；h_i表示句子在文本中的表征向量；

表示融合后的向量；V^T表示第二注意力机制的矩阵；v_j，i表示归一化处理前的第二注意力权重；β_j，i表示归一化处理后的第二注意力权重；d_j表示文本特征向量。

9.如权利要求4所述的方法，在所述第三模态融合层中具体包括以下操作：

根据所述文本特征向量以及第三注意力机制的矩阵确定每个文本特征向量所对应的第三注意力权重，将所述文本特征向量与其对应的第三注意力权重进行加权得到目标特征向量。

10.如权利要求1所述的方法，在得到目标特征向量之后，所述方法还包括：

将所述目标特征向量输入到分类器中，根据所述目标标签进行模型训练得到多模态信息融合模型。

11.一种多模态信息融合装置，所述装置包括：

12.如权利要求11所述的装置，所述目标对象包括商户小程序和/或商户网页，所述获取模块还用于：

13.如权利要求11所述的装置，所述处理模块还用于：

14.如权利要求13所述的装置，所述多模态融合层结构中包含三个模态融合层，所述融合模块还用于：

15.如权利要求14所述的装置，所述融合模块还用于：

在所述第一模态融合层中，利用双向RNN对每个词向量进行处理得到每个词在句子中的表征向量，对所述表征向量执行线性变换及激活函数操作，并根据执行所述操作后的表征向量与第一注意力机制的矩阵确定每个词向量所对应的第一注意力权重，对所述第一注意力权重进行归一化处理，将所述词向量与其对应的经归一化处理后的第一注意力权重进行加权得到句子特征向量。

16.如权利要求14所述的装置，所述融合模块还用于：

在所述第二模态融合层中，利用双向RNN对每个句子特征向量进行处理得到每个句子在文本中的表征向量，对所述表征向量以及图像特征向量分别执行线性变换及激活函数操作，将执行了所述操作后的表征向量以及图像特征向量进行融合，将所述图像特征向量作为第二注意力机制的矩阵，根据融合后的向量与第二注意力机制的矩阵确定每个融合后的向量所对应的第二注意力权重，对所述第二注意力权重进行归一化处理，将融合后的向量与其对应的经归一化处理后的第二注意力权重进行加权得到文本特征向量。

17.如权利要求14所述的装置，所述融合模块还用于：

在所述第三模态融合层中，根据所述文本特征向量以及第三注意力机制的矩阵确定每个文本特征向量所对应的第三注意力权重，将所述文本特征向量与其对应的第三注意力权重进行加权得到目标特征向量。

18.如权利要求11所述的装置，所述装置还包括：

训练模块，用于将所述目标特征向量输入到分类器中，根据所述目标标签进行模型训练得到多模态信息融合模型。

19.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至10中任一项所述的方法。