CN110134803B

CN110134803B - 基于哈希学习的图像数据快速检索方法

Info

Publication number: CN110134803B
Application number: CN201910415146.5A
Authority: CN
Inventors: 王红滨; 纪斯佳; 张毅; 周连科; 王念滨; 童鹏鹏; 崔琎
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-12-11
Anticipated expiration: 2039-05-17
Also published as: CN110134803A

Abstract

基于哈希学习的图像数据快速检索方法，涉及图像数据快速检索方法，属于数据检索技术领域。为了解决现有模型在哈希码生成阶段使用多次松弛会使模型在训练阶段负反馈过程出现偏差的问题。本发明的深度哈希模型包含五个卷积‑池化层、两个全连接层、特征层、哈希层和输出层；并基于三元组约束进行训练，得到训练好的深度哈希模型后，利用深度哈希模型建立样本库，样本库由图像样本及对应的哈希码构成；针对查询图像，利用训练好的深度哈希模型生成查询图像的哈希码；利用查询图像的哈希码与图像样本库进行检索。本发明适用于图像数据检索。

Description

基于哈希学习的图像数据快速检索方法

技术领域

本发明涉及图像数据快速检索方法，属于数据检索技术领域。

背景技术

近年来互联网的快速发展，高维数据呈现出指数式的发展，如何利用这些数据成为各行业的焦点。过去时间里研究者们提出许多对大规模数据检索的方法，哈希方法有着其高效的存储和计算效率而被广泛使用(LI WuJun，ZHOU ZhiHua.大数据哈希学习：现状与趋势[J]. 科学通报，2015，60(Z1)：485-490.)。传统哈希方法包括局部敏感哈希和谱哈希，在图像检索上取得一定的成果，但距实际应用仍存在着一段距离。深度学习的快速发展推进着哈希方法的进步，2014年由潘炎和颜水成首次结合卷积神经网络提出了卷积神经网络哈希模型 (Convolutional Neural Network Hashing，CNNH)(R.Xia，Y.Pan，H.Lai，et al.Supervised hashing for image retrieval via image representationlearning[C].AAAI Conference on Artificial Intelligence，2014.)，相比较传统哈希方法取得了更好的效果。CNNH分成两个阶段对哈希码进行训练，第一步是将相似矩阵S分解，矩阵S中的每一个元素表示该元素行和列的样本图像是否相似，矩阵H的每一个行都是训练数据的近似哈希码。模型中的图像在训练过程中表现的图像特征不能反作用于哈希码的生成，不能够动态调节哈希码之间的汉明距离，也就无法利用到卷积神经网络的优点造成学习到的哈希函数次优。在该基础上，Li W J，Wang S，Kang W C等人在《FeatureLearning based Deep Supervised Hashing with Pairwise Labels》中提出了深度神经网络哈希模型(Deep Neural Network Hashing，DNNH)，H.Liu，R.Wang， S.Shan等人在《Deep Supervised Hashing for Fast Image Retrieval》中提出了深度有监督哈希模型(Deep Supervised Hashing，DSH)。两种模型采用端到端的模型，在本质上克服了CNNH 特征提取和哈希编码分离的问题，从不同角度设计损失函数用于生成哈希码。但是这两种模型在进行哈希码生成阶段使用多次松弛，会使模型在训练阶段负反馈过程出现偏差，导致利用生成的训练好的模型进行图像数据检索不够准确。

发明内容

本发明为了解决现有模型在哈希码生成阶段使用多次松弛会使模型在训练阶段负反馈过程出现偏差的问题，提供了基于哈希学习的图像数据快速检索方法。

本发明所述基于哈希学习的图像数据快速检索方法，包括以下步骤：

步骤1、建立深度哈希模型：

深度哈希模型包含五个卷积-池化层、两个全连接层、特征层、哈希层和输出层；

步骤2、训练深度哈希模型：

训练数据为一系列带有标签的数据集{(p₁，w₁)，(p₂，w₂)，(p₃，w₃)，...(p_n，w_n)}，其中 p_i为样本图像，w_i是对应图像样本的标签；

输入为三元组标签{p_i，p_j，p_k}，其中p_i和p_j为同一类别，p_i和p_k为不同类别，相同类别之间的相似性距离小于不同类别之间的相似性；

得到训练好的深度哈希模型后，利用深度哈希模型建立样本库，样本库由图像样本及对应的哈希码构成；

步骤3、针对查询图像，利用训练好的深度哈希模型生成查询图像的哈希码；

步骤4、利用查询图像的哈希码与图像样本库进行检索。

进一步地，所述的利用查询图像的哈希码与图像样本库进行检索的过程包括以下步骤：

设样本库中图像所对应的哈希码是p_i＝{h_i，1，h_i，2，h_i，3，…，h_i，m}，查询图像对应的哈希码是p_query＝{h_query，1，h_query，2，h_query，3，…，h_query，m}，则在汉明空间中，查询图像的ε近邻表示为 NN(p_query,ε)＝{p|||p_query-p_i||₂＜ε}；

通过|p_query-p_i||₂＜ε得到查询样本的ε近邻集合p；

统计最近邻查询样本集合p中所有哈希码中每一位中“0”或“1”比例较大的比特 S＝{S₁,S₂,S₃,…,S_m},S_i∈{0,1}；

统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“0”的概率 P(S₀)＝{P(S_1,0),P(S_2,0),P(S_3,0),…,P(S_m,0)}，其中P(S_i,0)∈[0,1]；

P(S_i,0)＝∑(S_i＝0,NN(p_query,ε))/count(NN(p_query,ε))，count是满足哈希码中某个比特位中为“0”的的数量；

统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“1”的概率 P(S₁)＝{P(S_1,1),P(S_2,1),P(S_3,1),…,P(S_m,1)}，其中P(S_i,1)∈[0,1]；

P(S_i,1)＝∑(S_i＝1,NN(p_query,ε))/count(NN(p_query,ε))，count是满足哈希码中某个比特位中为“1”的的数量；

通过ω_i＝1+max(P(S_i,0),P(S_i,1))/m确定哈希码各位的权值ω＝{ω₁,ω₂,ω₃,…,ω_m}；

然后利用哈希码各位的权值计算样本库中图像所对应的哈希码p_i和查询图像对应的哈希码p_query的加权汉明距离

通过加权汉明距离确定查询图像的查询到数据库中的图像和顺序。

进一步地，所述ε近邻中的ε＝2。

进一步地，所述特征层长度为4倍的哈希码长度。

进一步地，所述哈希层使用对约束作为约束条件，该阶段输入的是特征层的特征向量，即输入为对约束的{p_i,p_j,w_ij}；w_ij＝1时表示两个特征向量代表的样本是同类的，w_ij＝0时表示两个特征向量代表的样本是不同类的；由特征层生成的特征向量为F_i，F_j∈R^d，映射到哈希空间上输出为bi，bj∈{-1,1}^m，则dist_H(b_i,b_j)为bi和bj之间的汉明空间；损失函数如下：

样本图像的特征向量在经过哈希层之后，生成哈希码之前通过tanh函数，最后的哈希码是通过松弛变量之后才是最终的b_i和b_j，在进行松弛之前的值为u_i和u_j，u_i，u_j∈R^m；在损失函数的计算中使用松弛前变量u_i和u_j代替哈希码b_i和b_j，损失函数为：

式中，m为哈希码的长度，α为偏好范数权值。

进一步地，所述训练深度哈希模型的过程中采用小规模数据进行在线训练，创建小规模三元组是遵循以下几个规则：(1)从小批量确定不同标签的选择样本数，选择最少的标签样本数；(2)将某一标签进行随机洗牌，选择样本中的i和i+1作为三元组的锚p_i和正示例p_j；(3) 随机选择其他标签样本i作为三元组p_i的负示例p_k；(4)循环全部标签和全部样本，生成含有锚、正示例和负示例的随机组合。

本发明最为突出的特点和显著的有益效果是：

本发明通过完成深度哈希网络结构和重排算法的对比实验，验证本发明提出的深度哈希网络结构具有较好的优越性，以及重排算法对于基于哈希码的图像检索有着更好的视觉效果。在以往哈希函数的研究中通常都是通过对比汉明距离方式比较相似性，当数据规模较大时汉明距离区分度会不足，本发明通过哈希码作为索引，进一步区分相同汉明距离大小返回结果的相似度，得到相似度更高的返回结果。经实验表明，本发明基于哈希学习的方法在CIFAR-10 和NUS-WIDE上有着相比较其他方法更好的性能。

附图说明

图1为深度哈希网络结构；

图2为邻近集合中哈希码的不同分类示意图；

图3为CIFAR-10结果对比图；

图4为NUS-WIDE结果对比图；

图5为可视化实验结果；

图6为重排算法可视化实验结果；

图7为24bit准确率。

具体实施方式

具体实施方式一：

本实施方式的基于哈希学习的图像数据快速检索方法，具体包括以下步骤：

1、建立深度哈希模型：

深度哈希模型包含五个卷积-池化层、两个全连接层、特征层、哈希层和输出层；特征层输出一定长度的特征向量；然后特征向量通过哈希层映射到哈希码。模型结构如图1所示，具体参数表1所示。

表1模型参数

在结构上每个全连接层由的单层500×1神经元和激活函数组成。其中全连接层作用是连接中间特征层的每一个特征，抽取特征之间的关系通过哈希层对应到哈希码不同的比特上，从而使不同样本图像生成汉明距离较大的哈希码。

2、训练深度哈希模型：

训练数据为一系列带有标签的数据集{(p₁，w₁)，(p₂，w₂)，(p₃，w₃)，...(p_n，w_n)}，其中 p_i样本图像，w_i是对应图像样本的标签；

三元组标签{p_i，p_j，p_k}表示三元约束，代表样本之间的临近关系，在某一种度量下p_i和p_j的距离小于p_i和p_k之间的距离；三元约束在本发明的实际训练中分类效果更好，对于模型的适应性也更好。输入为三元组标签{p_i，p_j，p_k}，其中p_i和p_j为同一类别，p_i和p_k为不同类别，相同类别之间的相似性距离小于不同类别之间的相似性；

一般而言会选择对所有训练数据进行全部组合，但是模型的训练效率十分低效，此外训练样本中误差样本会误导模型的生成。为确保模型能够快速收敛于三元约束条件，本发明使用小规模数据进行大批量在线训练，如每次选取40张小规模样本图像，对这些样本建立三元组，该种方法优点在于可以使用每一个批次的样本更新模型参数，防止模型的过拟合。创建小规模三元组是遵循以下几个规则：(1)从小批量确定不同标签的选择样本数，选择最少的标签样本数；(2)将某一标签进行随机洗牌，选择样本中的i和i+1作为三元组的锚p_i和正示例 p_j；(3)随机选择其他标签样本i作为三元组p_i的负示例p_k；(4)循环全部标签和全部样本，生成含有锚、正示例和负示例的随机组合。在该规则的加持下，保证了样本数据的分布均匀，增加了随机性。

特征层：深度哈希网络的收敛条件是训练数据在特征层输出的特征向量满足三元组约束条件，该约束条件能够使模型的提取出更具有表现力的特征。三元组约束应用到特征提取就是使同类样本的特征向量之间的欧式距离小于异类样本之间，公式如下：

式中

表示锚样本，

表示正例样本，

表示负例样本，f是通过学习得到的映射函数(将样本从样本图像映射到特征向量)，threshold表示特定阈值用于控制正负样本的距离，||·||表示特征向量之间的欧式距离。公式中，满足类内距离小于类间距离时误差为0，不满足时表示存在误差，公式中使用“+”表示。

在训练阶段threshold的值越小时，损失函数Loss^triplet比较容易趋向于0，锚与正示例之间的距离不会太近，锚与负示例之间距离又不会太远，但是这时候得到的模型较难收敛。当 threshold较大时使得模型拉近锚和正示例之间的距离，拉远锚和负示例之间的距离，使得模型的损失函数Loss^triplet保持在一个较大的值，所以合理的threshold值对于模型的训练显得尤为关键。深度哈希网络在特征层使用了三元损失函数进行约束，即通过最小化Loss^tripl_et进行负向反馈网络，调节网络中参数得到更具有表现性的特征。

哈希层：在哈希层使用对约束作为约束条件，该阶段输入的是特征层的特征向量，即输入为对约束的{p_i,p_j,w_ij}；w_ij＝1时表示两个特征向量代表的样本是同类的，w_ij＝0时表示两个特征向量代表的样本是不同类的。由特征层生成的特征向量F_i，F_j∈R^d，映射到哈希空间上输出为bi，bj∈{-1,1}^m，则dist_H(b_i,b_j)为bi和bj之间的汉明空间；损失函数如下：

其中，m为哈希码的长度；

损失函数中除以m可以将损失函数控制在0和1之间，而与哈希吗长度无关。如果没有除以m的话，会造成哈希码长度越长，损失就会越大，这样能够使结果更加准确。

当w_ij＝1时，对Loss^pair求导做梯度下降时会尽量减小b_i和b_j之间的汉明距离，以降低Loss^pair的值，当w_ij＝0时，会增大bi和bj之间的汉明距离。使用该损失函数做为约束条件时，使同类别样本所生成的哈希码之间汉明距离较近，不同类别样本所生成哈希码之间汉明距离相比较远，通过该种方法得到的哈希码是最优的。

公式中dist_H(b_i，b_j)函数是离散化的，由于其梯度不可导问题，无法通过传统方法进行随机梯度下降，也就是无法进行反向调节模型参数。为解决损失函数不可求导的问题，样本图像的特征向量在经过哈希层之后，生成哈希码之前通过tanh函数，tanh的优点在于将实数值压缩在(-1，1)之间，当值在0周围为梯度值较大，能够使值尽量分布在-1和1周围，有利于哈希码的生成。由该过程知，最后的哈希码是通过松弛变量之后才是最终的b_i和b_j，所以在进行松弛之前的值为u_i和u_j，u_i，u_j∈R^m。为了使函数在进行训练过程中可导，在损失函数的计算中使用松弛前变量u_i和u_j代替哈希码b_i和b_j，为防止模型在训练过程中出现过拟合提高模型的泛化能力，在损失函数后增加正则项。在实际训练过程中使用的损失函数为：

式中α为偏好范数权值，当α→0时，模型容易出现过拟合现象，当α→∞时，模型会出现欠拟合，所以合适的α值对于模型的训练同样至关重要。

3、针对查询图像，利用训练好的深度哈希模型生成查询图像的哈希码；

4、利用查询图像的哈希码与图像样本库进行检索。

具体实施方式二：

本实施方式所述的利用查询图像的哈希码与图像样本库进行检索的过程包括以下步骤：

深度哈希模型得到的哈希函数能够使样本库中的每个样本图像都有唯一的哈希码 {h₁,h₂,…,h_m},h_i∈{0,1}。当要检索查询样本q的相似图像时，与样本库中图像的汉明距离计算公式为：

公式中，dist_H(h_i，h_j)是汉明距离，m是哈希码的长度。通过公式能够知道，哈希码中每一位作用都相同，而在进行哈希码的生成过程中，每一位哈希码都是单个特征或者多个特征的组合表现，在使用汉明距离进行检索时会被忽视。除了无法进行表现特征之外，在进行图像的检索中，相同汉明距离的检索结果无法进行进一步划分使检索结果不够准确。因此，本发明为每一个哈希码赋予其特定的特征权值ω_i，在进行汉明距离计算时使用加权汉明距离进行计算，可以细化查询样本和样本库数据之间的相似度，使检索返回结果与查询样本有更高的相似度。在本实施方式中，可以为哈希码的每一位赋予其特定的权值，假设在某一类中哈希码各位的权值为ω＝{ω₁,ω₂,ω₃,…,ω_m}，则加权汉明距离定义如下：

对比汉明距离的离散性，加权汉明距离有着更小的相似性度量粒度，可以进一步划分相同汉明距离之间的相似性。加权汉明距离的加权方法众多，本发明提出一种全新加权方法，对于哈希码每一位的权值，在后续过程中对权值的设计进行详细介绍。

设样本库中图像所对应的哈希码是p_i＝{h_i，1，h_i，2，h_i，3，…，h_i，m}，查询图像对应的哈希码是p_query＝{h_query，1，h_query，2，h_query，3，…，h_query，m}，则在汉明空间中，查询图像的ε近邻表示为

NN(p_query,ε)＝{p|||p_query-p_i||₂＜ε}

汉明距离对于图像检索是简单且高效的，所以在进行设计汉明距离权值时要保留其的简单高效。对于本发明所提出的特征权值是基于汉明空间中ε近邻，在进行加权汉明距离计算之前先通过汉明距离检索出ε近邻样本集合p，在集合p中所有样本的哈希码与查询样本的哈希码之间的汉明距离都小于ε，但是该集合中哈希码是不同的，如图2所示。如何确定不同比特位哈希码的权重，首先将集合p中所有样本进行统计，统计每一个比特位上“0”和“1” 的概率，然后使用概率的方式在该样本集合上的计算查询样本和样本库中的加权汉明距离。

对于该集合样本数据生成的所有哈希码中，设P("1")_i为哈希码第i比特位为“1”的概率，设P("0")_i为哈希码第i比特位为“0”的概率，则有下列关系：

P("1")_i+P("0")_i＝1

由该关系可知在样本集p中特征聚集的较为明显，样本中的大多数哈希码在某一位上会偏向于确定的。例如样本猫主要用“耳朵”进行判别时，当样本库中猫类数据有耳朵特征时会在某一编码位表现具有高度一致性。当进行权值设计时，该位置相比较其他位置更重要。当进行哈希码每一位权值计算时，根据其“重要程度”对权值进行更新。

权值ω的计算过程如下。

(2)过程作用为为了体现bit位特征表现力。对于所有哈希码中的某一bit的分离度越大，说明该bit位特征表现力越强。例如现在有10个长度为12的哈希码，对于所有哈希码的第一位，有9个‘1’和1个‘0’，第二位有5个‘1’和5个‘0’，那么第一位哈希码的权重就会高于第二位。

由权值ω的计算过程可知，权值主要用去区分具有相同汉明距离样本，从根本上保留了汉明距离与相似性之间的关系。对于汉明距离和加权汉明距离之间的关系如下：

公式中，

为加权汉明距离，加权汉明距离在不破坏汉明距离高效性的基础上进一步细化了划分的规则，在一定程度上克服了具有相同距离排序的问题。

实施例

利用CIFAR-10(A.Krizhevsky,G.Hinton.Learning Multiple Layers ofFeatures from Tiny Images[J].2012.)和NUS-WIDE(Zhang P,Zhang W,Li W J,etal.Supervised hashing with latent factor models[M].2014.)数据集进行实验，保证实验对比的有效可靠性。实验从CIFAR-10 数据集中每一类中抽取600个图像样本作为实验数据，其中500个图像样本作为训练数据，其他100个图像样本作为测试数据。由于NUS-WIDE数据集是多标签数据集，如果两个样本图像有一个相同标签则认为它们是同类样本数据。在实验中，采用和其他相同的计算方法，取前5000个返回样本的平均mAP作为最后的对比数据。通过结果可以看出，结合深度神经网络的FastH、CNNH、NINH相比较传统方法有着更好的准确度。在CNNH中，通过深度神经网络用于拟合的哈希码对比其他哈希学习方法得到的哈希码是次优的。通过对比实验可以看出本课题提出的深度哈希方法有着更好的实验效果，随着哈希码长度的增加，数据的度量标准mAP越来越高。如表2所示，本发明所提出的深度哈希模型对比其他方法，在一定程度上有所提高。对比传统哈希方法，例如LSH、SH、ITQ提升效果明显。相比较其他哈希学习方法，例如FastH、CNNH和NINH在CIFAR-10数据集和NUS-WIDE数据集上都有所提升，验证了本发明深度哈希模型在哈希编码上的优良性能。

表2数据集检索精确度(mAP)结果对比

由表2可以看出，本课题所提出的深度哈希网络模型实验结果对比，CIFAR-10数据集中提升较为明显，在不同比特哈希码提升分别为3.8％、3.5％、5.0％和5.1％的提升。在NUS-WIDE 数据集中不同比特哈希码提升分别是5％、6.8％、5.4％和6.8％。通过对比实验可知，在不同数据集的不同长度的哈希码都有着一定程度的提高。

特征提取使用三元损失函数提取出图像的特征，在该实验中提取出特征的长度同样是影响哈希码生成的关键因素，特征长度较短在哈希层容易过拟合，较长的特征长度会提取出干扰特征，影响哈希码的生成。为了得到最佳的特征层长度的值，通过对比不同特征长度对于最终mAP结果的影响。在实验中选取的实验长度通过与最终生成的哈希码长度进行关联，在实验中分别选取“L”、“2*L”、“3*L”、“4*L”和“5*L”长度进行比较，其中的“L”是最终生成哈希码的长度，对比图中的折线分别代表不同长度的哈希码结果。

对两个数据集的折线图(图3和图4)进行分析，当特征层长度为1倍的哈希码时，可以在该层直接通过处理得到哈希码，但是结果一般。随着特征层长度的增加，当特征层长度为4倍的哈希码长度时，效果较好，在进行增加时部分数据mAP会出现小幅下降的。所以通过测试为本实验中最佳的特征层长度。

可视化实验中主要通过CIFAR-10数据集进行图像检索，该数据集是单标签数据集而且每个样本图像包含的信息较少，能够更为准确的表示出某一类的特征，对于检索返回结果有着更加直观的显示。实验原理是返回与检索样本哈希码汉明距离最小的TOP-K个样本返回，从每一行第一个是检索样本，返回汉明距离与检索样本之间最相近的10个样本图像。从检索返回的样本图像中可以看出，深度哈希模型提取的特征较能表现出不同类别，基于深度哈希网络模型生成哈希进行图像检索从客观分类的角度来看有着较好的准确度，但是从主观的角度分析返回的结果与检索样本之间的相似度一般，检索图像偏向于理论上的同类样本，如图 5所示。

在该实验中主要为了对比验证深度哈希返回结果重排，首先通过基于三元组的深度哈希网络模型对于CIFAR-10数据集生成其对应的哈希码，然后使用基于特征权值重排算法返回检索结果。在该实验中存在一个关键参数ε，在汉明空间中距离小于ε的结果，在这里设置 ε＝2，表示以汉明距离小于2的范围内使用基于特征权值重排算法对返回结果进行重排返回。如图所示，以可视化的角度分析重排后的结果与检索样本有着更加明显的相同特征，作为返回结果更加合理。该算法有着明显的特点是区分具有汉明距离而哈希码不同的返回结果，所以从返回结果可以看出重排之后的返回结果与还未重排结果有着相同的返回结果。通过对比汉明距离直接返回的TOP-K结果和经过重排后返回结果，在前10个返回结果中同类样本的数量增加，同时也就说明了准确率有所提高。对比结果可以发现，在主观视觉上有着更好的相似度，如图6所示。

在进行主观判定之后，对于TOP-K中不同K值的返回结果的准确率也会有所不同，通过实验对比不同K值的准确率，可以总结出规律。TOP-K的K值结果越小，重排后准确率越高，随着K值的逐渐增加，重排后准确值和重排前准确值差距逐渐减小直至相同。从另一方面验证了基于量化哈希重排算法可以区分具有相同哈希码的返回结果与检索样本的相似度对比，准确率变化如图7所示。

通过完成深度哈希网络结构和重排算法的对比实验，验证本发明提出的深度哈希网络结构具有较好的优越性，以及重排算法对于基于哈希码的图像检索有着更好的视觉效果。在以往哈希函数的研究中通常都是通过对比汉明距离方式比较相似性，当数据规模较大时汉明距离区分度会不足，本发明通过哈希码作为索引，进一步区分相同汉明距离大小返回结果的相似度，得到相似度更高的返回结果。

Claims

1.基于哈希学习的图像数据快速检索方法，其特征在于，包括以下步骤：

步骤1、建立深度哈希模型：

步骤2、训练深度哈希模型：

训练数据为一系列带有标签的数据集{(p₁，w₁)，(p₂，w₂)，(p₃，w₃)，...(p_n，w_n)}，其中p_i为样本图像，w_i是对应图像样本的标签；

步骤4、利用查询图像的哈希码与图像样本库进行检索，具体过程为：

设样本库中图像所对应的哈希码是p_i＝{h_i，1，h_i，2，h_i，3，…，h_i，m}，查询图像对应的哈希码是p_query＝{h_query，1，h_query，2，h_query，3，…，h_query，m}，则在汉明空间中，查询图像的ε近邻表示为NN(p_query,ε)＝{p|||p_query-p_i||₂＜ε}；

通过|p_query-p_i||₂＜ε得到查询样本的ε近邻集合p；

统计最近邻查询样本集合p中所有哈希码中每一位中“0”或“1”比例较大的比特S＝{S₁,S₂,S₃,…,S_m},S_i∈{0,1}；

统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“0”的概率P(S₀)＝{P(S_1,0),P(S_2,0),P(S_3,0),…,P(S_m,0)}，其中P(S_i,0)∈[0,1]；

统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“1”的概率P(S₁)＝{P(S_1,1),P(S_2,1),P(S_3,1),…,P(S_m,1)}，其中P(S_i,1)∈[0,1]；

2.根据权利要求1所述基于哈希学习的图像数据快速检索方法，其特征在于，所述ε近邻中的ε＝2。

3.根据权利要求2所述基于哈希学习的图像数据快速检索方法，其特征在于，所述特征层长度为4倍的哈希码长度。

4.根据权利要求1、2或3所述基于哈希学习的图像数据快速检索方法，其特征在于，所述哈希层使用对约束作为约束条件，该阶段输入的是特征层的特征向量，即输入为对约束的{p_i,p_j,w_ij}；w_ij＝1时表示两个特征向量代表的样本是同类的，w_ij＝0时表示两个特征向量代表的样本是不同类的；由特征层生成的特征向量为F_i，F_j∈R^d，映射到哈希空间上输出为bi，bj∈{-1,1}^m，则dist_H(b_i,b_j)为bi和bj之间的汉明空间；损失函数如下：

式中，m为哈希码的长度，α为偏好范数权值。

5.根据权利要求4所述基于哈希学习的图像数据快速检索方法，其特征在于，所述训练深度哈希模型的过程中采用小规模数据进行在线训练，创建小规模三元组是遵循以下几个规则：(1)从小批量确定不同标签的选择样本数，选择最少的标签样本数；(2)将某一标签进行随机洗牌，选择样本中的i和i+1作为三元组的锚p_i和正示例p_j；(3)随机选择其他标签样本i作为三元组p_i的负示例p_k；(4)循环全部标签和全部样本，生成含有锚、正示例和负示例的随机组合。