CN107943938A

CN107943938A - 一种基于深度乘积量化的大规模图像相似检索方法及***

Info

Publication number: CN107943938A
Application number: CN201711182524.7A
Authority: CN
Inventors: ***; 龙明盛; 曹越; 刘斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-04-20

Abstract

本发明提出一种基于深度乘积量化的大规模图像相似检索方法，包括将待检索的图片输入到训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层；基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离；在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。本发明通过在深度表征学习基础上将量化误差最小化，显著提高了深度特征的可量化性，从而大大提高检索的准确度和时间效率。

Description

一种基于深度乘积量化的大规模图像相似检索方法及***

技术领域

本发明涉及计算机数据管理技术领域，更具体地，涉及一种基于深度乘积量化的大规模图像相似检索方法及***。

背景技术

在互联网时代，随着互联网上多媒体资源的不断增加，如何从大规模数据中快速、有效的查找到相关的数据，无论是在时间上还是空间上都是一个极大的考验。随着互联网的飞速发展，大容量、高维度的图像大数据在搜索引擎和社会网络中越来越普遍，也吸引了越来越多的关注，如何快速有效的进行图像检索分析是一个亟需解决的问题，近似近邻查询正是针对这一问题而产生的，而如何同时保证计算效率和搜索质量是近似近邻查询的关键。针对这一问题，一个非常常用且有效的解决方法是哈希，即将高维数据转换为紧凑的二进制码，并为相似的数据生成相似的二进制码。

现有技术中，一般采用基于深度学习的哈希方法，基于深度学习的哈希方法表明，使用深度神经网络可以更有效地学习特征表示和哈希编码，因为深度神经网络可以自然地拟合任何非线性哈希函数。这些深度哈希方法在一些标准数据集上取得了最好的结果。

然而，现有技术提供的深度哈希方法不能在统计学意义上最小化量化误差，从而无法在检索中提高图像深度特征的可量化性，导致检索精度不高。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度乘积量化的大规模图像相似检索方法及***，所述方法包括：

S1、将待检索的图片输入到经深度乘积量化方法训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层；

S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离；

S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。

其中，步骤S1之前所述方法还包括：

基于预设的损失函数，对所述深度神经网络进行训练，所述损失函数包括成对余弦损失函数和乘积量化损失函数。

其中，训练过程包括：

将训练样本集输入到所述深度神经网络中，获取所述训练样本集对应的特征表示；

基于预设的损失函数和所述训练样本集对应的特征表示，计算所述损失函数对所述深度神经网络的梯度；

基于所述损失函数对所述深度神经网络的梯度以及标准的反向传播算法，对所述深度神经网络进行训练。

其中，所述深度神经网络的网络架构包括多个卷积层构成的子网络和多个单元的全连接量化层；

相应的，步骤S1包括：

将所述待检索的图片输入到训练后的深度神经网络中，基于所述多个卷积层构成的子网络，获取所述待检索的图片的图像表征；

基于所述多个单元的全连接量化层，对所述待检索的图片的图像表征进行量化，得到所述待检索的图片对应的压缩后的特征表示。

其中，所述多个单元的全连接量化层中的激活函数为双曲正切(tanh)函数。

其中，步骤S2包括：

S21、将所述检索库中每一张图片输入到所述训练后的深度神经网络，得到所述检索库中每一张图片各自对应的特征表示；

S22、基于预设的乘积量化算法，计算所述检索库中每一张图片对应的哈希编码和所述检索库在预设的多个码本下对应的多个聚类中心矩阵；

S23、基于所述检索库中每一张图片对应的哈希编码和所述聚类中心矩阵以及所述待检索的图片对应的特征表示，构建距离度量函数，以计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离。

其中，步骤S23中所述距离度量函数具体为：

其中，所述AQD(q,x_i)为非对称量化距离，q代表带检索图片，x_i代表检索库中的其中一张图片，M为预设的码本数量，z_q为待检索的图片对应的特征表示，C是所述聚类中心矩阵，h_i为所述检索库中的其中一张图片对应的哈希编码。

其中，步骤S2之后步骤S3之前所述方法还包括：

预先计算所述带检索的图片的特征向量和所述多个聚类中心矩阵中每一个聚类中心矩阵之间的欧几里德距离，并将计算结果存储在预设的查找表中。

根据本发明的第二方面，提供一种基于深度乘积量化的大规模图像相似检索***，包括：

量化模块，用于将待检索的图片输入到训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层；

测距模块，用于基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离；

检索模块，用于在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。

根据本发明的第三方面，提供一种非暂态计算机可读存储介质，用于存储如前所述的计算机程序。

本发明提供的基于深度乘积量化的大规模图像相似检索方法及***，通过在深度表征学习基础上将量化误差最小化，显著提高了深度特征的可量化性，从而大大提高检索的准确度和时间效率。

附图说明

图1是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索方法流程图；

图2是本发明提出的一种基于深度乘积量化的大规模图像相似检索的总体架构图；

图3是本发明提出的一种基于深度乘积量化的大规模图像相似检索的总体流程图；

图4是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索***结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索方法流程图，如图1所示，所述方法包括：

现有技术中，已有的深度哈希方法的一个关键缺点是没有在统计学意义上最小化量化误差，并且特征表示与二进制哈希编码不能完美匹配。

具体的，这是由于不是所有的输入向量都可以使用向量量化方法来进行有效的量化：如果输入向量没有表现出一个簇结构，那么它们就不能被准确地量化，这正是特征表示与二进制编码不能完美匹配的原因所在，我们将此种性质定义为可量化性。

因此，提高图像深度特征的可量化性是深度哈希方法中非常重要的一部分，在另一方面，这些方法没有采用定义良好的成对损失函数来关联成对距离与相似性标签，即基于成对距离来辨别两个数据是相似还是不相似。

那么现有技术使用深度哈希方法只会产生次优的哈希编码，而不是最优的哈希编码。

针对上述现有技术中存在的问题，本发明实施例提供了一种基于深度乘积量化的高效图片检索方法，一定程度上解决了上述问题，并在标准数据集中验证了该方法的有效性。

具体的，S1中，所述深度神经网络是本发明实施例在深度卷积神经网络AlexNet的基础上针对量化做出的改进后的神经网络，具体的，在保留AlexNet多个卷积层子网络的基础上，用一个具有R个单元的全连接量化层替换了原始AlexNet中的多项对率回归分类器前的最后一个全连接层。

其中，所述子网络共包含5层卷积层和两层全连接层，每个全连接层学习一个非线性映射其中是图片x_i在第l层的隐含表征1≤l≤8，W^l和b^l分别是第l层的权重和偏置参数，a^l是激活函数，在本发明中对所有隐藏层使用的激活函数均为整流线性单元函数(ReLU)：a^l(x)＝max(0,x)。

本发明实施例用一个具有R个单元的全连接量化层替换了原始AlexNet中的多项对率回归分类器前的最后一个全连接层，那么本发明实施例提供的全连接量化层会将子网络中的7层表征转换为R维量化表征z_i，其中l＝8是总层数。

可以理解的是，上述量化表征z_i即为由深度神经网络获取的特征表示，在本发明实施例中也称为特征表示，所述特征表示是图片经过深度神经网络学习后与哈希编码匹配的深层图像特征。

对于待检索图片q，对应为待检索的图片的特征表示z_q，对于检索库中的每张图片，对应的特征表示为z_i。

然后计算待检索的图片与检索库中每张图片之间的非对称量化距离，并在检索库中选出非对称距离最小的若干张图片作为检索结果，可以理解的是，选择的数量可自由设置，本发明实施例对此不做具体限定。

图2是本发明实施例提供的深度神经网络架构示意图，如图2所示，将样本输入深度神经网络后，经卷积层和全连接层处理后，由预设的成对余弦损失函数和乘积量化损失函数进行处理，处理后实现将所***本的数据转换为二进制编码。

图3是本发明提出的一种基于深度乘积量化的大规模图像相似检索的总体流程图，如图3所示，当需要进行相似检索时，将待检索图片输入深度神经网络中，根据是否进行训练过程，完成后续检索流程，训练过程如图3流程图中内容所示，根据训练结果计算待检索图片和检索库中图片的非对称量化距离，从而从检索库中选出相似的图片。

在上述实施例的基础上，步骤S1之前所述方法还包括：

其中，需要说明的是，对于一对二进制编码h_i和h_j，它们汉明距离dist_H(.,.)和内积＜.,.＞有如下关系：其中B为二进制编码的维度。因此，我们可以使用内积代替汉明距离来量化成对相似性。然而，由于我们的目标是在z_i为连续值时，学***方损失函数来量化全连接量化表征对之间的相似性：

其中，||·||表示向量长度，由于余弦距离故其与二进制相似度标签s_ij∈{-1,1}保持一致，因此上面定义的余弦损失保留了相似矩阵S中所包含的成对相似性信息。需要说明的是，在实际的检索***中，余弦距离被广泛用于减轻矢量长度的多样性，从而提高检索质量，但对于有监督哈希学习的方法中却尚未得到很好的应用，而在本发明实施例中，我们定义的成对余弦函数能得到非常好的损失函数定义效果。

对于乘积量化损失函数，我们采用最前沿的乘积量化(PQ)方法从保留了相似性的量化表征z中构建紧凑二进制编码h_i。当需要大量的聚类中心来准确地重构输入向量时，乘积量化是向量量化的一个有效的解决方案。

乘积量化的关键思想是将原始向量空间分解为M个低维子空间的笛卡尔乘积，并通过K均值(K-means)聚类算法将每个子空间划分为K个簇。具体来说，我们将深度特征表示划分为M个子空间，即z_i＝[z_i1；...；z_im]，其中z_im∈R^R/M是与第m个子空间相关联的z_i的子向量。然后，我们通过K-means独立地量化每个子空间m的所有子向量到K个簇。故乘积量化误差定义如下：

h_im0＝1,h_im∈{0,1}^K，

其中表示第m个子空间中的K个聚类中心的码本，而h_im是一个1-of-k，即k维向量中有且仅有一个值为1，其余值全为0的指示编码，指示z_i在第m个码本中对应的聚类中心。C_m用于近似表示第i个点z_i。记h_i＝[h_i1；...；h_iM]∈R^MK为点z_i对应的编码。由于每个h_im都能被压缩到log₂K位，故h_i可被压缩到M log₂K位。

为了保证全连接量化层输出的特征z_i对于哈希编码是最佳的，我们需要：控制将z_i二进制化为二进制码h_i的量化误差，并且提高z_i的可量化性，以便可以有效量化。

由此，我们亦可以将乘积量化误差重写为如下紧凑的矩阵形式：

其中聚类中心矩阵C∈R^R×MK是一个分块对角阵：

在上述实施例的基础上，所述基于预设的损失函数，对所述深度神经网络进行训练，所述损失函数包括成对余弦损失函数和乘积量化损失函数，包括：

基于所述损失函数对所述深度神经网络的梯度和反向传播算法，对所述深度神经网络进行训练。

可以理解的是，区别于传统的神经网络训练过程，本发明实施例提供的训练过程是需要调整损失函数中参数的值从而完成训练，整个训练过程具体为：

记当前训练轮数为Epoch_current，所述Epoch_current的初始值为0，最大训练轮数为Epoch_max。每一次训练对Epoch_current进行一次更新，更新式为：Epoch_current＝Epoch_current+1，若更新后Epoch_current＜Epoch_max，则代表尚未训练结束，标记训练集中所有图片均为未使用状态，若Epoch_current＝1，首先使用当前深度网络获取所有训练图片的深度特征{z₁,z₂,...z_N}，若Epoch_current＞1，则所有训练图片深度特征已由深度神经网络得到，使用M个独立的K-means算法求解下列目标函数，得到更新后的中心矩阵C＝diag(C₁,C₂,...C_M)和训练图片对应的二进制码H＝[h₁,...h_N]，所述目标函数为：

然后从训练集中随机获取一批本轮训练尚为使用过的图片以及这些图片之间的相关关系，图片数量为批次数量，并将其标记为已使用。将图片记为X,X＝{x₁,x₂,...,x_n}，图片之间的相关关系记为S,S＝{S_ij|1＜i,j≤n},S_ij＝1代表x_i,x_j为语义相关，而S_ij＝-1代表图片x_i,x_j为语义无关。

可以理解的是，若本轮训练中所有图片均已经被使用过，则重新进行训练过程。

将X传入具有多个卷积层的子网络，获得紧致的图像表征z^l-1，再将z^l-1传入给全连接量化层，用于生成对哈希编码更匹配的低维度表征z^l，即z。

计算损失函数对于深度网络参数的梯度并根据梯度更新W^l,b^l的值，其中最后一层的残差δ_ik的计算方式如下：

最后使用标准的反向传播算法对全连接量化层进行训练，对子网络的卷积层以及全连接层进行微调。

所述对子网络的卷积层以及全连接层进行微调是指根据损失函数中训练后更新的参数值再次对子网络的卷积层以及全连接层进行训练，从而再次更新子网络的卷积层以及全连接层的特征表示，从而完成微调。

在上述实施例的基础上，所述深度神经网络包括多个卷积层构成的子网络和多个单元的全连接量化层，步骤S1包括：

基于所述多个单元的全连接量化层，对所述待检索的图片的图像表征进行量化，得到所述待检索的图片对应的特征表示。

可以理解的是，对于本发明实施例提供的深度神经网络，实质上是包括了多个卷积层构成的子网络和多个单元的全连接量化层构成的，其中多个卷积层的子网络，用于获得良好的图像表征，全连接量化层，用于生成与哈希编码最匹配的低维度表征，从而得到与哈希编码匹配的深层图像特征。

在上述实施例的基础上，所述全连接量化层中的激活函数为双曲正切(tanh)函数。

需要说明的是，为了保证全连接量化层表征z_i对于哈希编码是最佳的，我们使用双曲正切(tanh)激活函数a(x)＝tanh(x)来生成低维表征。

在上述实施例的基础上，步骤S2包括：

可以理解的是，对于检索库中的图片z_i，同样需要将图片输入训练后的深度神经网络中进行特征表示提取，对于其中的每一张图片，将其输入给子网络及全连接量化层得到图片的特征表示，然后根据乘积量化算法计算聚类中心矩阵C和每张图片对应的哈希编码h_i。

进一步的，步骤S23中所述距离度量函数具体为：

需要说明的是，具体的乘积量化算法在上述实施例中的乘积量化损失函数处已有详细说明，本发明实施例对此不再进行赘述。

那么通过上述公式可以由所述检索库中每一张图片对应的哈希编码和所述聚类中心矩阵以及所述待检索的图片对应的特征表示，构建距离度量函数，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离。

在上述实施例的基础上，步骤S2之后步骤S3之前所述方法还包括：

可以理解的是，为了加速检索的速度，需做一些预处理。对于每个待查询的图片q，可以预先计算图片q的深度特征z_q与M个码本中所有聚类中心之间的欧几里德距离并存储在一个与q关联的M×K大小的查询表中，该查询表用于计算q和所有数据库点之间的AQD距离。

有了该查找表，在进行检索操作时每次计算只需要进行M次表查找操作和M次加法操作，计算代价仅仅比计算汉明距离略高。

其中，M是本发明实施例提供的预设码本数量，一个码本对应一个聚类中心，对于每一个聚类中心计算图片与该聚类中心的欧几里德距离，并将计算结果存储在该查找表中，待查询时查找相应的聚类中心即可完成快速查询的功能。

图4是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索***结构图，如图4所示，一种基于深度乘积量化的大规模图像相似检索***，包括：量化模块1、测距模块2以及检索模块3，其中：

量化模块1用于将待检索的图片输入到训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层；

测距模块2用于基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离；

检索模块3用于在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。

具体的，在本发明实施例中，对于大规模图像的相似检索，首先需要明确待检索图片以及检索库，那么在对待检索图片进行检索时，量化模块1会将待检索图片输入到训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述特征表示是待检索图片对于哈希编码匹配的深层图像特征，然后测距模块2根据待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示进行非对称量化距离计算，在计算过程中，为了提高计算效率，本发明实施例会优先对待检索图片进行预处理，即预先计算所述带检索的图片的特征向量和所述多个聚类中心矩阵中每一个聚类中心矩阵之间的欧几里德距离，并将计算结果存储在预设的查找表中，那么检索模块3将直接通过在查找表中查找的方式直接获取到预设数量与待检索图片相似的若干张图片。

本发明提供的基于深度乘积量化的大规模图像相似检索***，通过在深度表征学习基础上将量化误差最小化，显著提高了深度特征的可量化性，从而大大提高检索的准确度和时间效率。

本发明实施例提供一种基于深度乘积量化的大规模图像相似检索***，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法，例如包括：S1、将待检索的图片输入到训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层；S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离；S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：S1、将待检索的图片输入到训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层；S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离；S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：S1、将待检索的图片输入到训练后的深度神经网络中，获取所述待检索的图片对应的特征表示，所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层；S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示，计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离；S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度乘积量化的大规模图像相似检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1之前所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，训练过程包括：

4.根据权利要求1所述的方法，其特征在于，所述深度神经网络的网络架构包括多个卷积层构成的子网络和多个单元的全连接量化层；

相应的，步骤S1包括：

5.根据权利要求4所述的方法，其特征在于，所述多个单元的全连接量化层中的激活函数为双曲正切tanh函数。

6.根据权利要求1所述的方法，其特征在于，步骤S2包括：

7.根据权利要求6所述的方法，其特征在于，步骤S23中所述距离度量函数具体为：

<mrow> <mi>A</mi> <mi>Q</mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>z</mi> <mrow> <mi>q</mi> <mi>m</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>C</mi> <mi>m</mi> </msub> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mi>m</mi> </mrow> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>,</mo> </mrow>

8.根据权利要求6所述的方法，其特征在于，步骤S2之后步骤S3之前所述方法还包括：

9.一种基于深度乘积量化的大规模图像相似检索***，其特征在于，包括：

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至8任一所述的方法。