CN110647904B

CN110647904B - 一种基于无标记数据迁移的跨模态检索方法及***

Info

Publication number: CN110647904B
Application number: CN201910707010.1A
Authority: CN
Inventors: 朱福庆; 王雪如; 张卫博; 戴娇; 虎嵩林; 韩冀中
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2022-09-23
Anticipated expiration: 2039-08-01
Also published as: CN110647904A

Abstract

本发明提出一种基于无标记数据迁移的跨模态检索方法及***，将经过聚类的无标注信息的单模态图像和文本数据作为迁移源域，有标注信息的跨模态数据集作为目标域，通过迁移学习将源域迁移至目标域的跨模态数据集，扩大训练数据规模，增加跨模态数据的语义信息，学得一个更好的共同空间。本发明很好地解决了跨模态数据集数据规模小的问题，更加符合实际用户查询不在预定义类别范围内的情况；同时，可以更好地提取不同模态数据的上层语义信息，克服模态之间的异构性差异，增加模态之间的相似性，提高跨模态检索准确率。

Description

一种基于无标记数据迁移的跨模态检索方法及***

技术领域

本发明涉及跨模态数据检索技术领域，具体涉及一种基于无标记数据迁移的跨模态检索方法及***。

背景技术

图像、文本等不同模态数据广泛存在于互联网中，且呈现相互融合的趋势。跨模态检索任务尝试打破不同模态数据之间的界限，跨越不同模态数据实现信息检索，即尝试利用某一模态样本检索出与其语义相似的其他模态的样本，在搜索引擎和大数据管理中均有广泛应用。现有跨模态检索方法尝试将不同模态数据的特征表示映射到一个共同空间来学习统一表征，通过计算其对应统一表征之间的距离来度量相似度。然而，由于不同模态数据的异构性，数据分布及表征不一致，难以实现语义关联，跨模态相似性依旧难以度量。

虽然互联网中图像、文本数据众多，但是绝大多数的图像和文本数据是未经标注的，难以利用。这些数据含有丰富的语义信息，一方面数据标注需要大量的成本，另一方面，互联网信息时刻更新，每一个新的热点事件的发生都伴随着大量新类别的图像、文本等数据，因此也无法对所有类别的数据进行标注，如何充分利用这些无标注数据对于传统的跨模态检索任务是一个很大的挑战。

在实际场景中，用户提交的查询，往往不一定落在预先定义的类别范围内，训练集和测试集不共享相同的类别的情况时有发生。现有的跨模态检索方法通常只针对训练数据和测试数据类别相同的情况(不可扩展的跨模态检索)。如何更好地构造出一个跨模态共同空间，输入一种模态数据，无论这个数据的类别为已知或未知，都能检索出与其相关的多模态数据在实际应用中有着重要意义。

发明内容

为了克服不同模态数据异构性、无标记数据过多、训练数据不足并且不可扩展等问题，本发明提出一种基于无标记数据迁移的跨模态检索方法及***，将经过聚类的无标注信息的单模态图像和文本数据作为迁移源域，有标注信息的跨模态数据集作为目标域，通过迁移学习将源域迁移至目标域的跨模态数据集，扩大训练数据规模，增加跨模态数据的语义信息，学得一个更好的共同空间。

本发明的技术方案如下：

一种基于无标记数据迁移的跨模态检索方法，包括以下步骤：

将待检索样本输入训练完成的跨模态数据检索模型，得到其特征表示；

对于每个待检索的样本，计算其与所有其他模态样本的欧氏距离，再进行排序，距离小于指定阈值的其他模态样本即为检索结果；

其中，所述跨模态数据检索模型的训练过程如下：

(1)通过聚类的方法分别为无标记图像、文本设置伪标签；

(2)将带有伪标签的无标记图像、文本所含知识分别迁移至跨模态数据集的图像、文本部分，学习跨模态数据集图像和文本的单独表达；

(3)将图像和文本的单独表达传入同一个网络，学习图像和文本在同一语义空间下的共同表达。

进一步地，上述阈值的确定方法：训练过程中Loss_cross-modal损失的值为成对图像文本的距离，根据Loss_cross-modal损失值设置10-20个初始阈值，计算在每个阈值下，检索的mAP值(mAP(mean Average Precision)，(衡量的是学出的模型在所有查询上的好坏，即所有AP的平均值；AP(Average Precision)衡量的是学出来的模型在每个查询上的好坏)，使得mAP值最大的阈值为检索的阈值；其中，Loss_cross-modal为跨模态知识的损失函数：

其中，l6，l7指跨模态数据集图像文本相连的两个全连接层，nl指传入的图像和文本的对数，

为第p个图像文本对，使用g()将图像和文本映射为特征向量。

一种基于无标记数据迁移的跨模态检索***，包括：

无标记数据聚类模块，数据迁移模块和共同空间学习模块，通过无标记数据聚类模块构造迁移数据集，将该数据集作为数据迁移模块的迁移源域，最后通过共同空间学习模块为数据迁移模块得到的图像、文本学习统一表达，建立跨模态数据的相似性度量基础，从而实现跨模态检索。

进一步地，所述无标记数据聚类模块包括图像聚类子模块和文本聚类子模块两部分。该模块将所有无标记图像/文本提取特征后做无监督聚类，得到一系列聚类中心；将相同聚类中心下的图像/文本样本归为一类，将这些样本设置为相同的标签，即完成迁移数据集的构造。

进一步地，所述数据迁移模块包括图像迁移子模块和文本迁移子模块，迁移仅在同一子模块内发生。对于每个子模块，迁移源域为相应模态聚类后的无标记数据，目标域为跨模态数据集相应模态的数据。迁移学习通过最小化源域与目标域之间的分布损失实现。跨模态数据集的输入均为成对输入且属于相同的类别，其最后生成的表达应该相近，通过最小化这两个模态数据的成对欧几里得距离，使得具有相同语义信息的图像和文本的距离尽可能近，语义不同的图像和文本距离尽可能远，而与模态无关。

进一步地，所述共同空间学习模块将数据迁移模块得到的图像、文本的单独表达传入同一个网络学习不同模态数据的统一表达，这个网络含有多个共享的全连接层，在这个网络中加入跨模态数据集类别的词嵌入向量，增加了不同模态间的语义关联，进一步增强语义信息。

本方法的有益效果在于：

本方法通过将大量无标记单模态数据集聚类并为它们分配伪标签，将聚类后的无标记数据迁移至跨模态数据集，很好地缓解了跨模态数据集数据规模小的问题，更加符合实际用户查询不在预定义类别范围内的情况。通过该方法可以更好地提取不同模态数据的上层语义信息，克服模态之间的异构性差异，增加模态之间的相似性，提高跨模态检索准确率。在公开数据集和实际应用中均取得了不错的效果。

附图说明

图1为本发明的总体流程图；

图2为数据迁移流程图；

图3为特征提取***流程图。

具体实施方式

这里主要介绍基于迁移学习的跨模态检索网络建模，无标记数据聚类，数据迁移，共同表达学习和测试流程。

下面将结合附图对本方法做进一步的说明。

基于迁移学习的跨模态检索网络建模：

对无标记数据进行聚类即给定无标签数据集S，使用图像聚类算法C_i将无标签图像S_i聚为k_i个类别，使用文本聚类算法C_t对无标签文本S_t聚为k_t个类别，同一聚类中心下的所有图像、文本打上相同的伪标签y_i。将聚类后的无标签数据集S使用迁移学习算法T迁移至跨模态数据集D，联合训练生成跨模态数据集图像、文本的单独向量表达R_i，R_t。最后将图像和文本的单独表达R_i，R_t和类别的词嵌入向量V传入同一个全连接网络F中，在同一空间生成图像和文本的共同表达R。其中：

无标签数据集S＝{S_i,S_t}：作为迁移学习的源域，其中S_i为无标签图像数据集，S_t为无标签文本数据集。

跨模态数据集D＝{D_i,D_t}：D_i和D_t分别为跨模态数据集的图像、文本，跨模态数据集的图像和文本成对输入且相互关联，对于每个图像/文本对，图像和文本来自同一篇文章，或文本是图像的描述。

词嵌入向量V：跨模态数据集的所有已知类别通过Word2vec模型转化为300维词向量。

文本输入：文本是图像的描述，可以是文章，段落，句子，单词等。使用Bert提取文本向量，维数为768维。

图像输入：在该网络中，图像的输入为224*224的图。

聚类算法C＝{C_i,C_t}，C_i为图像聚类算法，C_t为文本聚类算法。

簇的个数k_i,k_t通过经验和多次计算共同得出。

迁移算法T：是通过源域获得一些知识来提升目标任务的一种算法，其中源域与目标域不相等或者源任务与目标任务不相同。

共同表达向量R：最终生成的图像和文本的向量表示。

无标记数据聚类模块：

对于含有丰富语义信息的无标记图像，首先使用预训练的VGG网络提取每个图像的特征向量，然后利用KMeans方法对图像进行聚类。具体方法为：根据无标记图像的个数及分布情况，设置初始的聚类中心数目(即k_i)并随机选取k_i张图像作为最初的聚类中心。遍历所有图像，将每个图像分配到距离其最近的聚类中心，更新每个聚类的均值作为新的聚类中心，迭代多次，直到每个簇不再变化或达到最大迭代次数。将同一个簇的所有样本归为一类并将这些样本设置为相同的标签，用于构造图像迁移的源域数据集。

对于无标记文本，首先使用Bert提取每个文本的特征，然后采用和图像相同的无监督聚类方法将相似的文本归到同一个簇中并打上相同的标签，用于构造文本迁移的源域数据集。

确定合适的聚类中心数目的方法：根据无标记数据量的大小，设置k的初始值为5至15，对每一个k值进行聚类并且记下对应的SSE(sum of the squared errors，误差平方和，SSE为每一个样本点和该样本点对应聚类中心的距离之和)。随着簇个数的增加，样本划分更加精细，每个簇的聚合程度会逐渐提高，误差平方和SSE会逐渐变小。当k小于最佳聚类数时，k的增大会大幅增加每个簇的聚合程度，SSE的下降幅度会很大，而当k到达最佳聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓。画出k和SSE的关系图，斜率变化的那个点即为最佳的k值。

数据迁移模块：

数据迁移模块包括两个部分，单模态知识迁移和跨模态知识共享。

单模态迁移指将聚类后的无标签图像迁移至跨模态数据集相应的图像，将聚类后的无标签文本迁移至跨模态数据集相应的文本。因此该模块包含图像、文本两个单模态迁移子模块。

请参照图2，对于图像的迁移，迁移的源域为经过聚类的无标签图像，目标域是跨模态数据的图像部分。首先，将源域和目标域的图像传入网络，经过AlexNet网络的前五个卷积层，再加入三个全连接层fc6，fc7，fc8，源域的损失函数为SoftMax损失。通过最小化源域和目标域的损失函数MMD(Maximum Mean Discrepancy,最大均值差异，MMD用来度量两个不同但相关的分布的差异)，从而实现图像模态的知识迁移。定义图像目标域的分布为X_i，源域的分布为Y_i，图像模态的迁移损失为：

其中

表示这个距离是由f()将数据映射到再生希尔伯特空间(RKHS)中进行度量的，m为源域数据的样本数量，n为目标域数据的样本数量。

文本的迁移和图像迁移过程类似，迁移的源域为经过聚类的无标签文本，目标域是跨模态数据的文本部分，使用GOOGLE公开的NLP模型Bert分别提取源域和目标域的文本特征向量，再经过三个全连接层fc6，fc7，fc8，源域的损失函数为SoftMax损失，迁移的损失函数为MMD损失。定义文本目标域的分布为X_t，源域的分布为Y_t，文本模态的迁移损失为：

设置跨模态知识共享层的目标是充分利用不同模态间相似的语义信息，克服模态间的异构性差异，数据无论来自于哪个模态，只要它们包含相同的语义信息，就应该有相似的特征向量，含有不同的语义信息，特征向量的距离应该较远。使用欧几里得距离(fc6-img/fc6-txt和fc7-img/fc7-txt)度量向量的相似性，对于输入的每一对相似的图像和文本，它们特征的欧几里得距离应该尽量小。跨模态知识的损失函数为：

为第p个图像文本对，使用g()将图像和文本映射为特征向量。

经过两个单模态知识迁移模块和一个跨模态知识共享模块后，模型充分利用无标记数据，拥有更强的语义辨别能力，并且为跨模态数据集中的每个样本生成了单独的表示。

该迁移模块最终的损失函数为：

Loss_transfer＝Loss_img+Loss_txt+Loss_cross-modal

共同空间学习模块：

跨模态目标域内在语义关联也为跨模态共同空间的构造提供了关键的语义信息，为了进一步增强图像和文本特征的语义相关性，进一步设计了一个共同空间学习模块来增强这种相关性。该模块是一个简单而有效的结构，包含两个全连接层和一个共同分类层。将图像特征、文本特征和类别的词嵌入(word embedding)向量传入该模块，由于fc8，fc9的参数是两个模态共享的，因此可以利用跨模态目标域中的监督信息来保证不同模态的语义相关性。考虑到目标域中两个成对模态的标签，相关损失为：

其中，f_s为SoftMax损失函数，

为输入的第p个相关的图像文本对，l^p为该图像文本对的类别标签。

迁移模块和共同空间学习模块是一个统一的网络结构，这两个模块共同训练并且相互促进。因此该网络最终的损失为：

Loss＝Loss_transfer+Loss_common

实施例：

本发明具体实施时，包括训练***、特征提取***和检索三个部分：上述三个模块合起来为本发明的总体结构(图1)，将训练数据传入训练***进行训练，保存得到训练模型。特征提取***(图3)和训练***的参数相同，但是不需要数据迁移、类别词嵌入等结构，将测试集传入特征提取***，得到测试集每一个样本的向量表示。检索时，计算待检索样本与其他模态所有样本的距离，小于指定阈值的即为检索结果。

训练***：

如图1所示，将上述三个模块(无标记数据聚类模块、数据迁移模块、共同表达学习模块)合起来即为训练***。具体训练步骤为：

1、图像源域预处理：对于无标签图像集中的每个图像，使用预训练过的VGG网络提取图像特征，选取其中k_i张图像作为初始聚类中心，将每个图像分配到距离其最近的聚类中心，更新每个聚类的均值作为新的聚类中心，迭代多次，直到每个簇不再变化或达到最大迭代次数。将同一个簇的所有样本归为一类并将这些样本设置为相同的标签li(li在0至ki-1之间)，用于构造迁移数据集。将图像路径和伪标签存入同一个.txt文件中，每行代表一张图像，格式为“图像路径li”。

2、文本源域预处理：对于无标签文本集中的每个文本，使用Bert提取每个文本的特征，设簇的个数为kt然后采用和图像相同的无监督聚类方法将相似的文本归到同一个簇中并打上相同的标签lt(lt在0至kt-1之间)。将文本路径和伪标签存入同一个.txt文件中，每行代表一个文本，格式为“文本路径lt”。

3、跨模态数据集预处理：跨模态数据集图像和文本一一对应，成对输入。将图像存入.txt文档中，格式为“图像路径相似度”，每行代表一个图像。文本先转化为向量，将向量和类别标签存入lmdb文件中。

4、设置网络学习率固定，基础学习率为0.01，迭代500轮，网络参数的更新，使用随机梯度下降算法。

5、将图像源域、文本源域跨模态数据集传入模型，开始训练模型。图像和文本经过迁移模块和共同空间学习模块后，得到它们在共同空间中的表达R。

特征提取***：

本发明特征提取过程框架图如图3所示，该***比训练***少了迁移源域、类别的词嵌入向量和SoftMax损失函数，并且跨模态数据集不需要成对输入。特征提取***首先提取图像/文本的特征表示，其中图像/文本的输入方式和训练过程一致，送入到训练过程学习优化后的CNN模型中，取倒数第二个全连接层的响应，作为图像/文本的特征表示。得到图像/文本的特征表示后，再进行跨模态检索。

检索：

1、将所有测试集的图像、文本传入特征提取***得到它们的特征表示；

2、实现“文搜图”和“图搜文”：对于每个图像，计算其和所有文本的欧氏距离，再进行排序，距离其最近的多个文本即为检索结果。文本亦然。

Claims

1.一种基于无标记数据迁移的跨模态检索方法，所述迁移包括单模态知识迁移和跨模态知识共享，包括以下步骤：

其中，所述跨模态数据检索模型的训练过程如下：

(1)收集无标记图像与无标记文本；

(2)使用预训练的VGG网络提取每个图像的特征向量，并根据所述无标记图像的数据量，确定图像聚类中心数目，选取与图像聚类中心数目相同数量的无标记图像作为最初的聚类中心，其中，所述确定图像聚类中心数目，包括：

根据无标记图像的数据量大小，设置图像聚类中心数目的初始值范围，并对每一个初始值进行聚类且记录误差平方和；

画出图像聚类中心数目和误差平方和的关系图，并基于所述关系图中的斜率变化，得到图像聚类中心数目；其中，随着簇个数的增加，样本划分更加精细，每个簇的聚合程度会逐渐提高，误差平方和会逐渐变小；当图像聚类中心数目小于最佳聚类数时，图像聚类中心数目的增大会增加每个簇的聚合程度，所述误差平方和的下降幅度很大；而当图像聚类中心数目到达最佳聚类数时，再增加图像聚类中心数目的情况下，误差平方和的下降幅度会骤减，且随着图像聚类中心数目的继续增大，斜率趋于平缓；

(3)遍历所有无标记图像，将每个无标记图像分配到距离最近的聚类中心，更新每个聚类的均值作为新的聚类中心，迭代多次，直到每个簇不再变化或达到最大迭代次数；

(4)将同一个簇的所有无标记图像归为一类并设置为相同的标签，从而得到带有伪标签的无标签图像；

(5)使用Bert提取每个无标记文本的特征，并对所述特征进行无监督聚类，从而得到带有伪标签的无标签文件；

(6)将带有伪标签的无标签图像、文本所含知识分别迁移至跨模态数据集的图像、文本部分，生成跨模态数据集图像和文本的单独表达；其中，损失函数Loss_transfer＝Loss_img+Loss_txt+Loss_cross-modal；

图像模态的知识迁移损失

表示由f()将数据映射到再生希尔伯特空间中进行度量的距离；X_i为图像目标域的分布，Y_i为图像源域的分布，k为聚类中心数目，m为源域数据的样本数量，n为目标域数据的样本数量；

所述图像模态的知识迁移实现方法包括：首先，将源域和目标域的图像传入网络，经过AlexNet网络的前五个卷积层，再加入三个全连接层，源域的损失函数为SoftMax损失；通过最小化源域和目标域的损失函数MMD，从而实现图像模态的知识迁移；

文本模态的知识迁移损失

X_t为文本目标域的分布，Y_t为文本源域的分布；

所述文本模态的知识迁移实现方法包括：使用Bert分别提取源域和目标域的文本特征向量，再经过三个全连接层，源域的损失函数为SoftMax损失，迁移的损失函数为MMD损失；

跨模态知识的损失函数

l6，l7指跨模态数据集图像文本相连的两个全连接层，nl指传入的图像和文本的对数，

为第p个图像文本对，使用g()将图像和文本映射为特征向量；

(7)将图像和文本的单独表达传入同一个网络，学习图像和文本在同一语义空间下的共同表达。

2.如权利要求1所述一种基于无标记数据迁移的跨模态检索方法，其特征在于，共同空间学习损失函数Loss_common为：

其中，f_s为SoftMax损失函数，

为输入的第p个相关的图像文本对，l^p为该图像文本对的类别标签，n为图像文本对的个数。

3.如权利要求1所述一种基于无标记数据迁移的跨模态检索方法，其特征在于，阈值的确定方法包括：训练过程中跨模态知识的损失函数Loss_cross-modeal损失的值为成对图像文本的距离，根据Loss_cross-modal损失值设置10-20个初始阈值，计算在每个阈值下，检索的mAP值，使得mAP值最大的阈值为检索的阈值。

4.一种基于无标记数据迁移的跨模态检索***，所述迁移包括单模态知识迁移和跨模态知识共享，包括：无标记数据聚类模块，数据迁移模块和共同空间学习模块；

无标记数据聚类模块，用于通过无标记数据聚类模块构造迁移数据集，将该数据集作为数据迁移模块的迁移源域，包括：

收集无标记图像与无标记文本；

使用预训练的VGG网络提取每个图像的特征向量，并根据所述无标记图像的数据量，确定图像聚类中心数目，选取与图像聚类中心数目相同数量的无标记图像作为最初的聚类中心；其中，所述确定图像聚类中心数目，包括：

遍历所有无标记图像，将每个无标记图像分配到距离最近的聚类中心，更新每个聚类的均值作为新的聚类中心，迭代多次，直到每个簇不再变化或达到最大迭代次数；

将同一个簇的所有无标记图像归为一类并设置为相同的标签，从而得到带有伪标签的无标签图像；

提取每个无标记文本的特征，并对所述特征进行无监督聚类，从而得到带有伪标签的无标签文件；

数据迁移模块，用于通过共同空间学习模块为数据迁移模块得到的图像、文本学习统一表达，建立跨模态数据的相似性度量基础，从而实现跨模态检索，其中，所述数据迁移模块的损失函数Loss_transfer＝Loss_img+Loss_txt+Loss_cross-modal；

图像模态的知识迁移损失