CN109947963A

CN109947963A - 一种基于深度学习的多尺度哈希检索方法

Info

Publication number: CN109947963A
Application number: CN201910237901.5A
Authority: CN
Inventors: 刘琚; 顾凌晨; 刘晓玺; 孙建德
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-06-28

Abstract

本发明通过优化图像成对信息、图像分类信息和哈希码量化过程，实现了一种简单易行的端到端深度多尺度监督哈希方法，同时设计了一种全新金字塔连接的卷积神经网络结构，它以成对的图像作为训练输入，并使得每个图像的输出近似离散哈希码。此外，对每个卷积层的特征图进行了训练，并在训练中进行了特征融合，有效地提高了深层特征的性能。通过一种新的基于端到端学习的二元约束损失函数对神经网络进行约束，得到特征表示能力强的哈希码。通过端到端网络动态直接学习高质量的多尺度哈希码，提高了哈希码在大规模图像检索中的表示能力。与现有的哈希方法相比，具有更高的检索准确性。同时，网络模型简单灵活，可以产生表征能力强的特征，可以广泛适用于其他计算机视觉领域的应用。

Description

一种基于深度学习的多尺度哈希检索方法

技术领域

本发明涉及一种基于深度学习的多尺度哈希检索方法，属于图像、多媒体信号处理技术领域。

背景技术

近年来,由于互联网上图像数量的***式增长，对于图像的快速和有效检索显得日益重要。在众多的检索技术中，基于哈希的检索方法同时平衡了效率与准确率，使检索达到很好的效果，从而受到了广泛的关注。

基于哈希的检索方法将每一张图片用一个二进制编码表示，这个编码依然近似保持了图片空间的物理近邻关系。利用相似性准则计算查询图片与图像特征库中的每一个图像的相似度，根据相似度排序后，输出给定阈值下的检索结果。其优点在于使用机器对图像的内容进行判别性的信息提取，得到特征的描述子，不需要人为地对图像进行标注。并且，该过程作为一个近似匹配的过程，对于检索效率的提升也有了很大的贡献，但是对于图像特征的提取上，需要实现从最底层图像特征到高层的语义信息的联系，因此检索准确性上不是很高。

针对传统基于哈希算法的图像检索方法生成的哈希编码难以保留图像语义相似性,从而导致检索准确率较低的问题。深度学习技术凭借它强大的拟合能力在信号处理领域，尤其是计算机视觉领域取得了突破性的进展。深度学习技术通过优化不同的损失函数，将复杂的图像数据层层地映射成适合不同任务的特征描述符。由于深度学习的映射是不可逆的，图像数据通过每一层都会产生部分损失。因此，当前基于深度学习的哈希检索技术主要存在训练时间过长，量化误差过大，编码过程信息损失过大问题。

发明内容

针对基于深度学习的哈希检索存在训练时间过长、量化误差过大、编码过程中信息损失等问题，本发明提出了一种基于深度学习的多尺度哈希检索方法。设计了一种金字塔连接的卷积神经网络结构来获取多尺度哈希码。该方法提取每个卷积层输出的特征图，赋予每一层的特征图一个独立的权重，然后设计了一个新的融合层，融合所有卷积层的特征作为哈希层的输入。为了训练得到更有效的哈希码，本发明设计了一个二元约束损失函数，充分考虑了不同约束条件对设计参数的影响，有效地提高了哈希学习的效率和准确性。

本发明采用的技术方案如下：

一种基于深度学习的多尺度哈希检索方法，利用卷积神经网络，融合卷积层的所有信息得到图像描述符，并将图像描述符映射成近似的二进制码后进行检索，具体步骤如下：

步骤1：根据训练数据的标签，计算成对图像的相似度矩阵，并保存训练图像二元组；

步骤2：构建金字塔连接的卷积神经网络结构，该结构包含一个融合层，其输入是全部卷积层输出降维后的级联，初始化模型参数；

步骤3：将步骤1得到的训练图像二元组输入步骤2构建的金字塔连接的卷积神经网络结构进行训练；

步骤4：将训练图像通过不同的卷积层进行特征提取，在每一层上生成不同尺度的特征图，对不同尺度的特征图分别进行特征降维；

步骤5：对降维后不同尺度的特征送入融合层进行融合；

步骤6：将融合层的输出送入哈希层得到近似哈希码，计算损失函数并反向更新参数，直至模型参数收敛，所述损失函数由三部分组成，第一部分是使用近似的二进制码之间的欧式距离实现成对的语义保持，第二部分是使用交叉熵损失函数度量分类层的输出和标签之间的距离实现对语义保持的加强，第三部分是使用二进制码和近似的二进制码之间的欧氏距离实现对量化误差的约束；

步骤7：检索时，将查询图像输入训练好的模型得到查询图像的二进制哈希码，计算查询图像和检索图像库哈希码的汉明距离，并排序，返回低于某一阈值的图像。

优选地，在步骤2中采用金字塔连接的卷积神经网络结构，使用1×1的卷积核降低特征图的高度，卷积核的参数通过反向传播算法更新，即得到自适应的线性组合参数，并对每一个卷积层的输出进行降维；同时，在反向传播过程中，损失函数的梯度可以直接用于更新卷积层的参数，避免了梯度消失的现象，使得收敛曲线更平滑。

优选地，步骤2中的融合层是一层全连接层，该融合层将底层的卷积层输出的低层次特征图与高层的卷积层输出的高层次特征图进行维度重组，并以首尾相接的方式进行融合，补偿了最后一层卷积层特征的信息损失。

优选地，步骤6中损失函数的表达式为：

其中，μ和η是权衡参数，γ＝λμ，

其中S表示相似度矩阵，s_i,j是第i个图像和第j个图像构成的二元组的标签，如果两个图像相似，即两个图像属于同一类，则s_i,j＝0，反之则s_i,j＝1，D_h(Ω_i,j)表示第i个图像和第j个图像构成的图像对的近似二进制码之间的欧式距离，Ω_i,j表示第i个图像和第j个图像构成的二元组，m＞0是边缘阈值参数，J₁第一部分约束相似图像映射到相似的二进制码，J₁第二部分约束不相似的图像的二进制码的汉明距离接近边缘阈值m，m设置为哈希码长度；

其中N表示图像的数量，t_i是分类层第i个图像的输出，y_i表示标签，u_i表示近似的二进制码，V表示全连接层的参数,p_i(t_i|u_i；V)表示分类层第i个图像输出的概率分布,J₂第二部分是正则项，提高了网络的泛化能力，λ是正则系数；

其中b_i是第i个图像的哈希码。

优选地，步骤6通过下述方法实现：首先计算图像二元组的近似哈希码之间的汉明距离，标签和分类层输出的交叉熵和近似哈希码和量化后的哈希码的汉明距离，然后求和并计算网络参数的调节量，并更新参数，完成反向传播过程。

本发明的优势在于：训练了一个多尺度特征融合的卷积神经网络架构，融合了图像各个层次的信息；提出一个高效的损失函数，减少量化误差的同时，加强图像的语义信息；设计了一个金字塔连接的卷积神经网络结构，加快网络参数的收敛速度；将融合后的特征描述符映射成近似的哈希码，通过计算汉明距离获得排序，加快检索速度。

本发明利用深度多尺度哈希卷积神经网络模型，对图像数据进行哈希编码，增强了图像语义信息的保持，减小了量化误差和训练时间。使用1×1的卷积核对卷积层的输出降维，降低了网络参数，加快编码速度，最终得到了更准确的哈希码。

附图说明

图1是本发明方法整体流程图。

图2是基于深度学习的多尺度哈希检索方法的模型结构图。

具体实施方式

本发明提出的基于深度学习的多尺度哈希检索方法具体流程如图1所示，首先对数据进行预处理，根据图像的标签得到相似度矩阵，生成二元图像对，然后建立模型，调整模型的参数，再采用反向传播算法训练模型。然后对图像进行编码，得到数据的唯一标识。最后，编码查询图像，计算查询图像与数据库图像的汉明距离。根据汉明距离的大小升序排列，返回汉明距离小于某一阈值的图像数据，即为检索结果。

下面结合具体实施例(但不限于此例)以及附图对本发明进行进一步的说明。

(一)数据预处理

(1)读入图像数据和标签。

(2)计算相似度矩阵S＝YY^T，其中Y为图像的标签矩阵，其中的每一行为对应图像的标签。如果该图像属于第i类，则该行的第i个元素为1，其余为0。

(二)模型训练

(1)模型建立：

网络结构由4个卷积池化层和3个全连接层组成。降维层使用尺寸为1×1的卷积核将每一个卷积层的输出高度减少四分之三。连接降维后的特征并输入融合层。然后，融合后的特征经过哈希层和分类层的映射，得到哈希码并保持数据的语义信息，如图2所示。

为了保持图像的原始特征，相似图像的二进制码应尽可能接近，而不相似图像的二进制码距离较远。基于该目的，损失函数的第一项用来约束哈希层语义信息，如公式1所示。

其中S表示相似度矩阵，s_i,j是第i个图像和第j个图像构成的二元组的标签，如果两个图像相似，即两个图像属于同一类，则s_i,j＝0，反之则s_i,j＝1。D_h(Ω_i,j)表示第i个图像和第j个图像构成的图像对的近似二进制码之间的欧式距离，Ω_i,j表示第i个图像和第j个图像构成的二元组，m＞0是边缘阈值参数。第一部分约束相似图像映射到相似的二进制码，第二部分约束不相似的图像的二进制码的汉明距离接近边缘阈值m，m设置为哈希码长度。

为了直接充分利用标签信息，需要学习一个简单的线性分类器来关联二进制代码图像的标签。损失函数的第二项用来约束分类层的误差：

其中N表示图像的数量，t_i是分类层第i个图像的输出，y_i表示标签，u_i表示近似的二进制码，V表示全连接层的参数。p_i(t_i|u_i；V)表示分类层第i个图像输出的概率分布。第二部分是正则项，提高了网络的泛化能力，λ是正则系数。

损失函数的第三项通过最小化哈希层的量化误差，确保二进制码的有效性：

其中b_i是第i个图像的哈希码。

因此，最终的损失函数如公式4所示：

其中，μ和η是权衡参数，γ＝λμ。

(2)前向传播：

更新网络参数的第一步是计算损失函数的数值。设图像数据为{x_i}∈X，a^l表示第l层的输出，z^l表示第l层的输入，w^l表示第l层的权重，bias^l表示第l层的偏置。

图像首先经过四个堆叠的卷积池化层的映射，卷积层的计算公式4所示：

a^l＝σ(z^l)＝σ(a^l-1*w^l+b^l) (公式4)

其中，σ(·)是激活函数。池化层对卷积层的输出进行下采样，使用的是最大池化且窗口尺寸为3×3。

然后提取每个卷积池化层的特征输入到降维层进行降维，降维通过1×1的卷积核对图像进行线性组合。计算公式如下：

a^d＝z^d*w^d (公式5)其中，d代表降维层的层数。

最后，降维后的特征输入到融合层实现特征融合以及生成近似哈希码。其中全连接层的计算公式如公式6所示：

a^f＝σ(z^f)＝σ(a^f-1w^f+b^f) (公式6)

为了保持语义信息，本发明将近似的哈希码输入到softmax分类器中实现近似的哈希码到标签的映射，计算公式如公式7所示：

其中θ表示softmax分类器的权重，a表示分类器的输入。

(3)反向传播

本发明利用自适应反向传播算法和小批量梯度下降法对网络进行训练。因此，首先需要计算损失函数对哈希层输出的误差梯度，计算如公式所示。

然后按照不同映射层的反向传播公式传播误差梯度，并更新该层的权重。设δ^l为第l层的误差梯度，则哈希层的误差梯度为：

因此全连接层的反向传播公式为公式12所示：

δ^l＝(W^l+1)^Tδ^l+1σ(z^l) (公式12)

其参数更新如公式13所示：

本发明的模型融合了各个卷积层的特征，因此卷积层的误差梯度不仅仅有上一层的误差梯度，还有融合层的误差梯度，两个误差梯度联合作用于卷积层的参数更新，其误差梯度传播公式如：

δ^i,l＝δ^i,l+1*rot180(W^l+1)·σ'(z^i,l)+δ^i,4 (公式14)

则卷积层的参数更新为：

(三)数据编码

为了获得对于每一个图像的二进制码，b_i∈{1,0}^K×1，其中K为二进制码的长度。通常将网络输出的近似二进制码u_i，经过如公式16的变换得到最终的哈希码。

b_i＝sgn(u_i) (公式16)

在训练过程未使用饱和非线性，例如tanh或sigmoid来近似量化，因为这些非线性的变换会减慢训练过程。同时，也可能使近似二进制码的分布不均匀。因此，我们改进公式16为公式17。首先，我们得到U的平均值，用表示，然后，我们通过定义一个方程g(·)来得到最终的二进制码。

(四)距离计算

对于训练图像和查询图像都需要进行哈希编码，然后将得到的二进制哈希码，按位进行汉明(Hamming)距离的计算，如公式18所示，即异或(XOR)运算。在设置的汉明距离阈值范围内再对候选样本做排序，最后返回检索到的图像，这些得到的图像称为查询图像的近似最近邻，即为检索结果。

本发明选用了两个基准图像数据库CIFAR-10和SVHN进行测试并与当前先进方法进行比较，包括局部敏感哈希(Locality-Sensitive Hashing,LSH)，基于典型关联分析的迭代量化(Iterative Quantization-Canonical Correlation Analysis,ITQ-CCA)，深度哈希网络(Deep Hashing Network,DHN)和深度监督哈希(Deep Supervised Hashing,DSH)。评价的标准是平均精确率均值mAP(mean Average Precision)，值越大表明检索结果越好，结果如表1所示，可以看出本申请与其他方法相比，检索结果更好，可以得到更好地保持原始数据在空间中关系的哈希码。

表1

Claims

1.一种基于深度学习的多尺度哈希检索方法，利用卷积神经网络，融合卷积层的所有信息得到图像描述符，并将图像描述符映射成近似的二进制码后进行检索，具体步骤如下：

步骤5：对降维后不同尺度的特征送入融合层进行融合；

2.根据权利要求1所述的基于深度学***滑。

3.根据权利要求1所述的基于深度学习的多尺度哈希检索方法，其特征在于：步骤2中的融合层是一层全连接层，该融合层将底层的卷积层输出的低层次特征图与高层的卷积层输出的高层次特征图进行维度重组，并以首尾相接的方式进行融合，补偿了最后一层卷积层特征的信息损失。

4.根据权利要求1所述的基于深度学习的多尺度哈希检索方法，其特征在于：步骤6中损失函数的表达式为：

其中，μ和η是权衡参数，γ＝λμ，

其中b_i是第i个图像的哈希码。

5.根据权利要求1所述的基于深度学习的多尺度哈希检索方法，其特征在于：步骤6通过下述方法实现：首先计算图像二元组的近似哈希码之间的汉明距离，标签和分类层输出的交叉熵和近似哈希码和量化后的哈希码的汉明距离，然后求和并计算网络参数的调节量，并更新参数，完成反向传播过程。