CN110110122A

CN110110122A - 基于多层语义深度哈希算法的图像-文本跨模态检索

Info

Publication number: CN110110122A
Application number: CN201810649234.7A
Authority: CN
Inventors: 冀振燕; 姚伟娜; 杨文韬; 皮怀雨
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2019-08-09

Abstract

本发明涉及结合深度学习与哈希方法的图像‑文本跨模态检索模型。为了解决传统基于深度学习的跨模态哈希方法在处理多标签数据问题时直接将其转换为单标签问题的局限性，提出了一种基于多层语义的深度跨模态哈希算法。通过多标签数据之间的共现关系定义数据之间的相似度，并以此作为网络训练的监督信息。设计综合考虑多层语义相似度与二值相似度的损失函数，对网络进行训练，使得特征提取和哈希码学习过程统一在一个框架内，实现端到端学习。该算法充分利用数据之间的语义相关性信息，提高了检索准确率。

Description

基于多层语义深度哈希算法的图像-文本跨模态检索

技术领域

本发明涉及到跨模态检索领域，尤其涉及到一种基于多层语义的结合深度学习与哈希方法的图像-文本跨模态检索算法。

背景技术

随着移动互联网的发展和智能手机、数码相机等设备的普及，互联网上的多媒体数据呈***式增长。在信息检索领域，多媒体大数据的不断增长带来了跨模态检索应用需求。而目前主流的搜索引擎，如百度、谷歌、必应等，仅提供一种模态的检索结果。此外，随着深度学习在计算机视觉、自然语言处理等领域取得一系列突破性进展，将多媒体大数据与人工智能相结合，是两个领域未来共同的发展趋势。因此，结合新技术和新需求，探索新的跨模态检索模式成为当前信息检索领域亟待解决的挑战之一。

传统的跨模态检索通常采用依赖领域知识的手工设计特征，“语义鸿沟”问题仍是该领域的难点。将深度学习应用于跨模态检索领域，不仅为解决不同模态异质数据之间的“媒体鸿沟”提供了大量特征学习与表示方面先进的研究成果。然而，随着多媒体数据的不断增长，采用深度学习的特征表示由于维数过大而面临存储空间与检索效率的挑战，导致无法适应大规模多媒体数据检索任务。同时，跨模态检索问题还面临真实数据存在多个标签的问题。现有的解决方法大部分均采用了将问题转化为二值相关的单标签学习问题，导致学习到的模型不能充分保留数据在原语义空间的关联关系，影响最终检索结果

发明内容

本发明的目的在于克服现有技术的不足，将结合基于深度学习的特征表示，并同时考虑图像、文本两种模态数据的二值相似性和多层语义相似性，应用哈希方法通过网络训练得到数据到哈希码的映射，提供一种检索准确率更高的图像-文本跨模态检索方法。

为实现上述目的，本发明所提供的技术方案为：

分为三个模块，分别为深度特征提取模块、相似度矩阵生成模块、哈希码学习模块；

其中，深度特征提取模块采用深度神经网络提取图像和文本数据特征。该模块采用两个子网络分别提取图像和文本模态数据特征的结构，即包含两个深度神经网络，一个用于提取图像数据的特征，一个用于提取文本数据特征。采用深度卷积神经网络CNN-F网络结构进行图像特征提取。CNN-F的结构由5层卷积层和3层全连接层构成。在文本特征提取阶段，首先以词袋(Bag-of-Words,BOW)向量对文本数据建模。基于上述词袋模型，文本特征提取网络采用由三层全连接层构成的多层感知机(Multi-Layer Perception,MLP)网络提取文本特征。

对于相似度矩阵生成模块，包含二值相似度矩阵生成和多层语义相似度矩阵生成。它们各自生成一个跨模态相似度矩阵。对于二值相似度矩阵当图像i与文本j相似时，矩阵对应的取值为1；当图像i与文本j不相似时，矩阵对应的取值为0。对于多层语义相似度矩阵根据标签共现关系设计其计算方法，使得两个样本的类别标签集拥有更多相似标签时，样本的相似度越大，当两个标签集完全相同时，达到最大值1。当两个样本标签集中的标签完全不同时，取最小值0。

对于哈希码生成模块，为了使学习到的哈希码保留二值相似度矩阵及多层语义相似度矩阵中的语义信息，设计目标函数：

其中，

通过优化该目标函数，学习网络参数，得到数据与哈希码的映射关系。

与现有技术相比，本方案原理及优点如下：

本方案结合深度学习与哈希方法，克服传统手工设计特征在特征表示能力上的不足，及深度特征维数过大，不利于数据存储和计算的缺点，并结合二值相似度和多层语义相似度，充分考虑跨模态数据之间复杂的相似度关系，使学习到的哈希码保留更多语义信息，提高检索准确率。

附图说明

图1为本发明基于多层语义深度哈希算法的图像-文本跨模态检索的整体框架图；

具体实施方式

下面结合具体实例对本发明作进一步说明：

本发明中皆以图像和文本两种模态为例进行讨论。

本发明提供了一种基于多层语义深度哈希算法的图像-文本跨模态检索(DeepMulti-Level Semantic Hashing for Cross-modal Retrieval，DMSH)方法，其中包含三个模块：深度特征提取模块、相似度矩阵生成模块、哈希码学习模块，如图1所示；

表1图像特征提取网络结构

深度特征提取模块采用深度神经网络提取图像和文本数据特征。采用深度卷积神经网络CNN-F网络结构进行图像特征提取，网络结构配置如表1所示。在文本特征提取阶段，首先以词袋向量对文本数据建模。基于词袋模型，文本特征提取网络采用由三层全连接层构成的多层感知机网络提取文本特征，网络配置如表2所示.

其中，conv1层采用4步长卷积，conv2-conv5层均采用1步长卷积。pad即补边(Padding)，表示步长移动方式。通常指给图像边缘补边，使得卷积后输出的图像尺寸与原尺寸一致。LRN表示局部响应归一化(Local Response Normalization)。其模仿生物神经元的侧抑制机制，对局部神经元的活动创建竞争机制，使响应较大的值更大，并抑制反馈较小的神经元，增强模型泛化能力。采用MAX操作的池化技术，取原图像某一尺寸内的最大值，从而有效减少模型参数，防止过拟合。并通过Dropout正则化技术，通过在训练期间随机的丢弃一定数量的神经元，防止网络过拟合。

表2文本特征提取网络

其中，网络的第一个隐藏层是与输入词袋向量长度相同的全连接层，第二层隐藏层是4096维全连接层，第三层是长度为哈希码长的全连接层。网络的输出即文本特征向量。

相似度矩阵生成模块包含二值相似度矩阵生成和多层语义相似度矩阵生成。它们各自生成一个跨模态相似度矩阵对于二值相似度矩阵当图像i与文本j相似时，矩阵对应的取值为1；当图像i与文本j不相似时，矩阵对应的取值为0。其中，不同模态数据之间的相似性通过类别标签衡量。即若图像i和文本j有共同的一组类别标签，那么认为它们是相似的；否则认为它们是不相似的。其定义如下：

对于多层语义相似度矩阵采用一种基于类别标签共现关系的相似度矩阵计算方法；下面介绍具体生成方法。

对于两个类别标签t_i,t_j，定义标签相似度：

其中，d(t_i，t_j)表示两个标签的语义距离，定义如下：

其中，分别表示训练集中t_i，t_j出现的次数；表示t_i，t_j共同出现的次数；N_c表示训练集中所有标签的个数。

由定义(2)可知，s(t_i，t_j)∈[0，1]，表示当两个标签共同出现的次数越多时，它们的相似度越大。根据标签相似性s，可定义样本间的相似性

对于两个样本D_m,D_n，定义样本相似度

其中，t_m，t_m分别表示样本D_m，D_n的类别标签集；|t_m|,|t_n|分别表示t_m，t_n的个数；即哈希标签。由定义可知，当两个样本的类别标签集拥有更多相似标签时，样本的相似度越大，当两个标签集t_m，t_n完全相同时，达到最大值1。当t_m中的标签与t_n中的标签全部不相似时，取最小值0。因此，基于多标签的语义相似度矩阵可以作为哈希码学习过程的监督信息。与二值相似度矩阵相比，将跨模态相似度由离散的{0,1}扩展为连续的[0,1]区间取值，保留了更多隐含在数据类别标签中的丰富的语义信息。

哈希码学习模块，以表示学习到的样本D_i的图像特征，即图像特征提取网络的输出；以表示学习到的样本D_j的文字特征，即文字特征提取网络的输出。分别表示两个深度网络的参数。

为了使学习到的哈希码保留二值相似度矩阵的语义信息，采用sigmoid交叉熵损失函数：

其中，为保证训练过程的稳定性及避免溢出，在实现阶段采用(3-5)的等价形式：

基于上述二值语义信息损失函数进一步引入多层语义损失函数使得学习到的模型保留包含在多层语义相似度矩阵中更加丰富的语义信息。这里同样采用sigmoid交叉熵损失函数的等价形式：

因此，可以得到目标函数的完整形式：

其中，F^(g)、F^(x)分别表示学习到的图像和文本的特征向量，它们包含了相似度矩阵中的语义信息；C^(g)、C^(x)分别表示图像和文本的哈希码，sign(·)表示符号函数，定义如式(3-9)。F^(g)、F^(x)中的语义信息通过符号函数传递给C^(g)、C^(x)；表示斐波那契范数，E表示元素取值全为1的向量；μ，ρ，τ为超参数。

C^(g)＝sign(F^(g)) (9)

C^(x)＝sign(F^(x)) (10)

目标函数的前两项是跨模态相似度的负对数似然函数，通过优化该项可保证当越大时，F(g)_*i与F^(x) _*j的相似度越大；越小，F^(g) _*i与F^(x) _*j的相似度越小。因此，优化第1、2项保证了网络学习到的图像和文本的特征保留了原来语义空间的跨模态相似性。

目标函数的第3项为正则化项，通过优化该项，得到图像和文本的哈希码C^(g)、C^(x),并且保留了网络提取的特征F^(g) _*i与F^(x) _*j的相似性。由于F^(g) _*i与F^(x) _*j保持了语义空间的跨模态相似性，因此得到的哈希码也保留了语义空间的跨模态相似性。

通过优化目标函数的第4项，使得最终得到的哈希码的每一位在整个训练集上取值为“1”和“-1”的个数保持平衡，即哈希码的同一位置上取“1”和“-1”的个数各占一半。这一约束可以保证哈希码的每一位包含的信息最大化。

实验表明，在网络的训练过程中，令来自同一数据点的图像和文本取完全相同的哈希码，能更好的提升网络的性能。因此，本文在原目标函数的基础上增加加约束C^(g)＝C^(x)＝C，最终的目标函数为：

通过优化该目标函数，使得网络同时学习特征提取的参数和哈希码表示，即将特征学习和哈希码学习过程统一在一个深度学习框架中，实现端到端学习。

在测试及应用阶段，输入任意的单一模态的图像或文本数据，都可以通过训练好的网络来生成其对应的二值码向量，即哈希码。

具体的，将数据点D_i的图像模态g_i输入网络,通过网络的前向传播可生成其哈希码表示，计算过程如下：

类似地，对数据点D_j的文本模态x_j，通过网络的前向传播可以生成其对应的哈希码：

因此，本文提出的DMSH检索模型可以实现给定图像或文本任意一种模态的查询数据，返回不同模态数据库中与之最相似的前k个检索结果。检索过程中，首先计算查询数据(Query)的哈希码与待检索数据库中存储的哈希码之间的距离，然后返回距离最近的前k个哈希码，其所对应的k个数据即最终检索结果。

Claims

1.一种基于多层语义深度哈希算法的图像-文本跨模态检索方法。其特征在于：整体框架包含三个模块：深度特征提取模块、相似度矩阵生成模块、哈希码学习模块；分别采用两个深度神经网络提取图像和文字特征，将特征学习和哈希码学习过程统一在一个框架内，并通过引入基于标签共现的多层次语义监督信息指导整个训练过程，使得到的二值码不仅保留了原样本空间基本的相似/不相似关系，并且能够区分样本间的相似程度，更大程度的保留样本间的高层语义，提高检索准确率；在结构上，通过对网络施加“在语义空间相似的图像和文字在汉明空间具有相似的哈希码”这一约束进行训练，直接将哈希码作为网络的输出，实现端到端学习，从而保证学习到的特征适应特定的检索任务。

2.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法，其特征在于：整体框架由深度特征提取模块、相似度矩阵生成模块、哈希码学习模块三个部分构成，通过将原始空间的数据映射为汉明空间中由统一形式的“+1/-1”构成的二值码向量，降低存储空间，提高计算效率。

3.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法，其特征在于：深度特征提取模块对图像和文本数据分别采用不同的深度神经网络，提取两种模态数据的语义特征，对图像数据，采用改进的CNN-F网络，对文本数据，采用多层感知机网络。

4.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法，其特征在于：相似度矩阵生成模块根据不同模态数据之间是否有共同标签生成二值相似度矩阵，根据不同模态数据标签的相似性大小生成多层语义相似度矩阵，保留更多标签提供的寓意信息。

5.根据权利要求1所述的一种基于多层语义深度哈希算法的图像-文本跨模态检索方法，其特征在于：哈希码学习模块通过设计同时保留数据在原语义空间的二值相似度信息和多层语义相似度信息的目标函数，对网络进行训练，学习特征空间到汉明空间的映射。