CN112905822B

CN112905822B - 一种基于注意力机制的深度监督跨模态对抗学习方法

Info

Publication number: CN112905822B
Application number: CN202110144443.8A
Authority: CN
Inventors: 曾焕强; 王欣唯; 朱建清; 廖昀; 刘青松; 陈虢
Original assignee: Xiamen Yealink Network Technology Co Ltd; Huaqiao University; Xiamen Yunzhixin Intelligent Technology Co Ltd; Xiamen Hualian Electronics Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd; Huaqiao University; Xiamen Yunzhixin Intelligent Technology Co Ltd; Xiamen Hualian Electronics Co Ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-07-01
Anticipated expiration: 2041-02-02
Also published as: CN112905822A

Abstract

本发明涉及一种基于注意力机制的深度监督跨模态对抗学习方法，针对每个模态构建深度学习网络获取深度特征，引入生成对抗网络，利用模态间的交叉判别借助注意力机制不断提炼模态特征网络的生成特征，在公共子空间进行异质性数据的度量的同时，利用标签信息在标签空间对模态数据进行深度监督学习。如此构建的网络，使得训练得到的基于注意力机制的跨模态深度监督对抗模型具有良好的图文互相检索性能；在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及余弦距离计算，从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者，实现跨模态检索。

Description

一种基于注意力机制的深度监督跨模态对抗学习方法

技术领域

本发明涉及多模态学习和信息检索技术领域，更具体地说，涉及一种基于注意力机制的深度监督跨模态对抗学习方法。

背景技术

图像、文本等不同模态数据广泛存在于互联网之中，然而，“异构鸿沟”问题导致不同模态的数据分布及表征不一致，难以实现语义关联，为用户在海量互联网不同模态间数据中检索有用信息带来不便。现有技术中，跨模态检索能够用于在不同模态的数据间(图像、文本、语音、视频等)进行检索，如通过图像检索文本、通过文本检索音频、通过音频检索视频等等，跨模态检索常用于搜索引擎和大数据管理中。

但是，多模态数据具有底层特征异构高层语义相关的特性，因此，现有技术的跨模态检索存在的不足是：在数据表征不一致的情况下，不同模态间的内在关联关系差，语义关联程度低；造成现有技术的跨模态的相似性度量面临很大挑战。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于注意力机制的深度监督跨模态对抗学习方法，能够有效提高跨模态检索的准确度。

本发明的技术方案如下：

一种基于注意力机制的深度监督跨模态对抗学习方法，包括训练过程和检索过程，具体如下：

训练过程：将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练，直至模型收敛，从而获得网络模型M；

检索过程：利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量，从而计算待查询的第一类型对象与候选库中第二类型对象的相似度，返回相似度最高的检索结果；

其中，第一类型对象为图像，第二类型对象为文本，或者，第一类型对象为文本，第二类型对象为图像。

作为优选，训练过程的步骤如下：

1.1)将不同类别的第一类型对象的数据输入对应模态的特征提取网络中，提取第一类型对象的特征；

1.2)将1.1)中提取的特征输入对应模态的判别器中，作为真样本；并将要检索的第二类型对象对应模态的特征网络作为生成器，生成的特征作为假样本，输入判别器中进行对抗学习；

1.3)将1.1)中提取的特征输入对抗学习引导的跨模态联合注意力机制中，根据模态间的共同语义信息特征图P，生成保留更多语义相关性的第一类型对象的特征向量和第二类型对象的特征向量，即图像特征I和文本特征T；

1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习，采用误差反向传播算法先优化在公共子空间和标签空间的损失，得到收敛的基于注意力机制的两个空间上的网络；然后更新注意力机制中的共同语义特征图P，利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习，进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M。

作为优选，步骤1.1)中，具体地，将不同类别的图像数据v_i输入到图像特征提取网络中提取图像的图像特征，将对应的文本数据t_i输入到文本特征提取网络中提取文本数据的文本特征。

作为优选，图像特征提取网络包括五个卷积层、池化层和三个全连接层，其中，最后一层全连接层隐藏单元数量为d，d表示提取得到的图像特征的维数。

作为优选，文本特征提取网络为三层全连接的多层感知机模型，整体为Q→8192→4096→N，其中，Q表示文本网络输入层，8192和4096分别表示前两个全连接的层的隐含神经元个数，N表示要提取的文本特征的维数。

作为优选，图像模态对应的图像判别器为分类器D_x，是参数为θ_Dx的多层感知机模型；文本模态对应的文本判别器为分类器D_y，是参数为θ_Dy的多层感知机模型；

步骤1.2)中，对抗损失L_adv具体如下：

其中，f_i ^x表示是图像模态的第i个实例，f_i ^y表示是文本模态的第i个实例，n表示图像文本对的数量。

作为优选，步骤1.3)中，对抗学习引导的跨模态联合注意力机制根据第一类型对象的特征表示与第二类型对象的特征表示之间的距离，对相应的特征项分配权重；在注意力机制中，共同语义特征图P为语义标签的嵌入矩阵，第一类型对象和第二类型对象具有相同的共同语义特征图P；

特征向量的长度各不相同，并且特征表示和共同语义特征图P之间的值范围不一致，则通过L2归一化对输出进行预处理，将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1，1]；

注意力机制的输出是在共同语义特征图P上通过权重平均获得的第一类型对象和第二类型对象的联合特征

具体如下：

其中，*∈{x,y}，则f^x表示第一类型对象的特征，f^y表示第一类型对象的特征，f^x、f^y用于引导注意力机制中的共同语义特征图P的生成，C为类标签的数量；M_c是第c个类标签的嵌入特征，属于向量空间R^1×d的行向量，d为特征表示维度；共同语义特征图P是mask的总和，则

λ是控制mask特征效果的参数，σ为激活函数，

为M_c的转置。

作为优选，步骤1.4)具体如下：

1.4.1)将注意力机制输出的图像特征I、文本特征T分别映射到公共子空间和标签空间进行联合学习；

使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间，第二个全连接层的隐含神经元个数为映射到公共空间的维数d，每个图像和文本表示为u_ic、v_ic，并在此层上设计基于余弦距离的三重损失，具体如下：

其中，

表示第k个文本且与图像u_i语义不相关，

表示第j个文本且与图像u_i语义相关，

表示第k个图像且与文本v_i语义不相关，

表示第j个图像且与文本v_i语义相关；m是范围参数；

在公共子空间中还设计有公共空间判别性损失L_cdis，具体如下：

其中，u_i、u_j为第i个图像、第j个图像在公共空间的表示，v_i、v_j为第i个文本、第j个文本在公共空间的表示，则

1{,}是设定的一个函数，如果中间的两个实例具有同一个类标签则为1，否则为0；

则公共空间的损失为：

L_com＝L_tri+L_cdis；

1.4.2)基于在公共子空间的理想判别模态间语义关系，图像特征I和文本特征T被参数矩阵为B的线性分类层预测出语义标签，然后映射到标签空间进行度量，此层的输出维度为C，与图像和文本的标签类别数相一致；在标签空间的目标函数表示为：

其中，U＝[u₁,u₂,...,u_n]，表示图像在公共空间的矩阵，V＝[v₁,v₂,...,v_n]，表示文本在公共空间的矩阵，Y表示标签空间，则Y＝[l₁,l₂,...,l_n]；||·||_F表示Frobenius范数；

结合所述的三种损失可得到网络的整体损失：

L＝L_adv+τL_com+γL_lab；

其中，τ、γ为超参数。

1.4.3)采用误差反向传播算法先优化网络的整体损失L，更新注意力机制中的共同语义特征图P，利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习，迭代不断进行对抗和损失优化直至模型收敛，形成基于注意力机制的深度监督跨模态对抗学习网络模型M。

作为优选，检索过程的步骤如下：

2.1)利用训练过程得到的网络模型M，分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量；

2.2)通过余弦距离

计算待查询第一对象类型的特征向量与候选库中每个第二类型对象的特征向量之间的相似度，p_i表示查询图像i的特征表示，q_j表示候选库中第j个文本的特征表示，<·>表示内积计算；

2.3)返回相似度最高的检索结果。

作为优选，步骤2.3)中，将得到的相似度进行降序排序，然后返回相似度最高的检索结果；

本发明的有益效果如下：

本发明所述的基于注意力机制的深度监督跨模态对抗学习方法，针对每个模态构建深度学习网络获取深度特征，引入生成对抗网络，利用模态间的交叉判别借助注意力机制不断提炼模态特征网络的生成特征，在公共子空间进行异质性数据的度量的同时，利用标签信息在标签空间对模态数据进行深度监督学习。如此构建的网络，使得训练得到的基于注意力机制的跨模态深度监督对抗模型具有良好的图文互相检索性能；在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及余弦距离计算，从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者，实现跨模态检索。

本发明通过构建生成对抗网络进行对抗学习，同时将原始特征映射到公共空间和标签空间保留更多语义信息，极大提升了在图像-文本上的检索精度。

附图说明

图1是训练过程的流程框图；

图2是检索过程的流程框图。

具体实施方式

以下结合附图及实施例对本发明进行进一步的详细说明。

本发明所述的基于注意力机制的深度监督跨模态对抗学习方法，如图1、图2所示，包括训练过程和检索过程，具体如下：

1)训练过程：将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练，直至模型收敛，从而获得网络模型M。其中，第一类型对象为图像，第二类型对象为文本，或者，第一类型对象为文本，第二类型对象为图像。

训练过程具体如下：

2)检索过程：利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量，从而计算待查询的第一类型对象与候选库中第二类型对象的相似度，返回相似度最高的检索结果。

检索过程具体如下：

2.2)通过余弦距离

2.3)将得到的相似度进行降序排序，并返回相似度最高的检索结果。

本实施例中，以第一类型对象为图像，第二类型对象为文本为例，则训练过程中，步骤1.1)中，具体地，将不同类别的图像数据v_i输入到图像特征提取网络中提取图像的图像特征，将对应的文本数据t_i输入到文本特征提取网络中提取文本数据的文本特征。

图像特征提取网络包括五个卷积层、池化层和三个全连接层，其中，最后一层全连接层隐藏单元数量为d，d表示提取得到的图像特征的维数。

文本特征提取网络为三层全连接的多层感知机模型，整体为Q→8192→4096→N，其中，Q表示文本网络输入层，8192和4096分别表示前两个全连接的层的隐含神经元个数，N表示要提取的文本特征的维数。

本实施例中，图像模态对应的图像判别器为分类器D_x，是参数为

的多层感知机模型；文本模态对应的文本判别器为分类器D_y，是参数为

的多层感知机模型。步骤1.2)中，在对抗学习的过程中，将图像特征提取网络得到的图像特征作为判别器的真图像特征I_R，将从文本特征提取网络作为生成网络，生成的图像特征作为假图像特征I_F，文本网络尝试生成能让图像判别器混淆判断的特征，图像判别器需要不断区分出真假图像特征，从而形成对抗学习。当第一类型对象为文本，第二类型对象为图像，即文本模态，其生成对抗同理。

步骤1.2)中，生成对抗的过程中，存在对抗损失，是分类图像和文本模态的交叉熵损失，对抗损失L_adv具体如下：

步骤1.3)中，对抗学习引导的跨模态联合注意力机制根据第一类型对象(本实施例中为图像)的特征表示与第二类型对象(本实施例中为文本)的特征表示之间的距离，对相应的特征项分配权重；在注意力机制中，共同语义特征图P为语义标签的嵌入矩阵，第一类型对象和第二类型对象具有相同的共同语义特征图P。

由于特征向量的长度各不相同，并且特征表示和共同语义特征图P之间的值范围不一致，为了解决这个问题，本实施例通过L2归一化对输出进行预处理，将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1，1]。

具体如下：

λ是控制mask特征效果的参数，σ为激活函数，

为M_c的转置。

步骤1.4)具体如下：

其中，

表示第k个文本且与图像u_i语义不相关，

表示第j个文本且与图像u_i语义相关，

表示第k个图像且与文本v_i语义不相关，

表示第j个图像且与文本v_i语义相关；m是范围参数；

则公共空间的损失为：

L_com＝L_tri+L_cdis；

结合所述的三种损失可得到网络的整体损失：

L＝L_adv+τL_com+γL_lab；

其中，τ、γ为超参数。

上述实施例仅是用来说明本发明，而并非用作对本发明的限定。只要是依据本发明的技术实质，对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims

1.一种基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，包括训练过程和检索过程，具体如下：

其中，第一类型对象为图像，第二类型对象为文本，或者，第一类型对象为文本，第二类型对象为图像；

训练过程的步骤如下：

1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习，采用误差反向传播算法先优化在公共子空间和标签空间的损失，得到收敛的基于注意力机制的两个空间上的网络；然后更新注意力机制中的共同语义特征图P，利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习，进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M；

步骤1.4)具体如下：

使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间，第二个全连接层的隐含神经元个数为映射到公共空间的维数d₁，每个图像和文本表示为u_i、v_i，并在此层上设计基于余弦距离的三重损失，具体如下：

其中，

表示第k个文本且与图像u_i语义不相关，

表示第j个文本且与图像u_i语义相关，

表示第k个图像且与文本v_i语义不相关，

表示第j个图像且与文本v_i语义相关；m是范围参数；

则公共空间的损失为：

L_com＝L_tri+L_cdis；

其中，U＝[u₁,u₂,…,u_n]，表示图像在公共空间的矩阵，V＝[v₁,v₂,…,v_n]，表示文本在公共空间的矩阵，Y表示标签空间，则Y＝[l₁,l₂,…,l_n]；||·||_F表示Frobenius范数；

结合所述的三种损失可得到网络的整体损失：

L＝L_adv+τL_com+γL_lab；

其中，τ、γ为超参数；

2.根据权利要求1所述的基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，步骤1.1)中，具体地，将不同类别的图像数据v_i输入到图像特征提取网络中提取图像的图像特征，将对应的文本数据t_i输入到文本特征提取网络中提取文本数据的文本特征。

3.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，图像特征提取网络包括五个卷积层、池化层和三个全连接层，其中，最后一层全连接层隐藏单元数量为d，d表示提取得到的图像特征的维数。

4.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，文本特征提取网络为三层全连接的多层感知机模型，整体为Q→8192→4096→N，其中，Q表示文本网络输入层，8192和4096分别表示前两个全连接的层的隐含神经元个数，N表示要提取的文本特征的维数。

5.根据权利要求1所述的基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，图像模态对应的图像判别器为分类器D_x，是参数为

的多层感知机模型；

步骤1.2)中，对抗损失L_adv具体如下：

6.根据权利要求1所述的基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，步骤1.3)中，对抗学习引导的跨模态联合注意力机制根据第一类型对象的特征表示与第二类型对象的特征表示之间的距离，对相应的特征项分配权重；在注意力机制中，共同语义特征图P为语义标签的嵌入矩阵，第一类型对象和第二类型对象具有相同的共同语义特征图P；

具体如下：

λ是控制mask特征效果的参数，σ为激活函数，

为M_c的转置。

7.根据权利要求1至6任一项所述的基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，检索过程的步骤如下：

2.2)通过余弦距离

2.3)返回相似度最高的检索结果。

8.根据权利要求7所述的基于注意力机制的深度监督跨模态对抗学习方法，其特征在于，步骤2.3)中，将得到的相似度进行降序排序，然后返回相似度最高的检索结果。