CN110134803B - 基于哈希学习的图像数据快速检索方法 - Google Patents
基于哈希学习的图像数据快速检索方法 Download PDFInfo
- Publication number
- CN110134803B CN110134803B CN201910415146.5A CN201910415146A CN110134803B CN 110134803 B CN110134803 B CN 110134803B CN 201910415146 A CN201910415146 A CN 201910415146A CN 110134803 B CN110134803 B CN 110134803B
- Authority
- CN
- China
- Prior art keywords
- hash
- query
- image
- hash code
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于哈希学习的图像数据快速检索方法,涉及图像数据快速检索方法,属于数据检索技术领域。为了解决现有模型在哈希码生成阶段使用多次松弛会使模型在训练阶段负反馈过程出现偏差的问题。本发明的深度哈希模型包含五个卷积‑池化层、两个全连接层、特征层、哈希层和输出层;并基于三元组约束进行训练,得到训练好的深度哈希模型后,利用深度哈希模型建立样本库,样本库由图像样本及对应的哈希码构成;针对查询图像,利用训练好的深度哈希模型生成查询图像的哈希码;利用查询图像的哈希码与图像样本库进行检索。本发明适用于图像数据检索。
Description
技术领域
本发明涉及图像数据快速检索方法,属于数据检索技术领域。
背景技术
近年来互联网的快速发展,高维数据呈现出指数式的发展,如何利用这些数据成为各行 业的焦点。过去时间里研究者们提出许多对大规模数据检索的方法,哈希方法有着其高效的 存储和计算效率而被广泛使用(LI WuJun,ZHOU ZhiHua.大数据哈希学习:现状与趋势[J]. 科学通报,2015,60(Z1):485-490.)。传统哈希方法包括局部敏感哈希和谱哈希,在图像 检索上取得一定的成果,但距实际应用仍存在着一段距离。深度学习的快速发展推进着哈希 方法的进步,2014年由潘炎和颜水成首次结合卷积神经网络提出了卷积神经网络哈希模型 (Convolutional Neural Network Hashing,CNNH)(R.Xia,Y.Pan,H.Lai,et al.Supervised hashing for image retrieval via image representationlearning[C].AAAI Conference on Artificial Intelligence,2014.),相比较传统哈希方法取得了更好的效果。CNNH分成两个阶段对哈希 码进行训练,第一步是将相似矩阵S分解,矩阵S中的每一个元素表示该元素行和列的样本 图像是否相似,矩阵H的每一个行都是训练数据的近似哈希码。模型中的图像在训练过程中 表现的图像特征不能反作用于哈希码的生成,不能够动态调节哈希码之间的汉明距离,也就 无法利用到卷积神经网络的优点造成学习到的哈希函数次优。在该基础上,Li W J,Wang S,Kang W C等人在《FeatureLearning based Deep Supervised Hashing with Pairwise Labels》 中提出了深度神经网络哈希模型(Deep Neural Network Hashing,DNNH),H.Liu,R.Wang, S.Shan等人在《Deep Supervised Hashing for Fast Image Retrieval》中提出了深度有监督哈希 模型(Deep Supervised Hashing,DSH)。两种模型采用端到端的模型,在本质上克服了CNNH 特征提取和哈希编码分离的问题,从不同角度设计损失函数用于生成哈希码。但是这两种模型在进行哈希码生成阶段使用多次松弛,会使模型在训练阶段负反馈过程出现偏差,导致利 用生成的训练好的模型进行图像数据检索不够准确。
发明内容
本发明为了解决现有模型在哈希码生成阶段使用多次松弛会使模型在训练阶段负反馈过 程出现偏差的问题,提供了基于哈希学习的图像数据快速检索方法。
本发明所述基于哈希学习的图像数据快速检索方法,包括以下步骤:
步骤1、建立深度哈希模型:
深度哈希模型包含五个卷积-池化层、两个全连接层、特征层、哈希层和输出层;
步骤2、训练深度哈希模型:
训练数据为一系列带有标签的数据集{(p1,w1),(p2,w2),(p3,w3),...(pn,wn)},其中 pi为样本图像,wi是对应图像样本的标签;
输入为三元组标签{pi,pj,pk},其中pi和pj为同一类别,pi和pk为不同类别,相同类别 之间的相似性距离小于不同类别之间的相似性;
得到训练好的深度哈希模型后,利用深度哈希模型建立样本库,样本库由图像样本及对 应的哈希码构成;
步骤3、针对查询图像,利用训练好的深度哈希模型生成查询图像的哈希码;
步骤4、利用查询图像的哈希码与图像样本库进行检索。
进一步地,所述的利用查询图像的哈希码与图像样本库进行检索的过程包括以下步骤:
设样本库中图像所对应的哈希码是pi={hi,1,hi,2,hi,3,…,hi,m},查询图像对应的哈希码 是pquery={hquery,1,hquery,2,hquery,3,…,hquery,m},则在汉明空间中,查询图像的ε近邻表示为 NN(pquery,ε)={p|||pquery-pi||2<ε};
通过|pquery-pi||2<ε得到查询样本的ε近邻集合p;
统计最近邻查询样本集合p中所有哈希码中每一位中“0”或“1”比例较大的比特 S={S1,S2,S3,…,Sm},Si∈{0,1};
统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“0”的概率 P(S0)={P(S1,0),P(S2,0),P(S3,0),…,P(Sm,0)},其中P(Si,0)∈[0,1];
P(Si,0)=∑(Si=0,NN(pquery,ε))/count(NN(pquery,ε)),count是满足哈希码中某个比特位 中为“0”的的数量;
统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“1”的概率 P(S1)={P(S1,1),P(S2,1),P(S3,1),…,P(Sm,1)},其中P(Si,1)∈[0,1];
P(Si,1)=∑(Si=1,NN(pquery,ε))/count(NN(pquery,ε)),count是满足哈希码中某个比特位 中为“1”的的数量;
通过ωi=1+max(P(Si,0),P(Si,1))/m确定哈希码各位的权值ω={ω1,ω2,ω3,…,ωm};
进一步地,所述ε近邻中的ε=2。
进一步地,所述特征层长度为4倍的哈希码长度。
进一步地,所述哈希层使用对约束作为约束条件,该阶段输入的是特征层的特征向量, 即输入为对约束的{pi,pj,wij};wij=1时表示两个特征向量代表的样本是同类的,wij=0时表示 两个特征向量代表的样本是不同类的;由特征层生成的特征向量为Fi,Fj∈Rd,映射到哈希 空间上输出为bi,bj∈{-1,1}m,则distH(bi,bj)为bi和bj之间的汉明空间;损失函数如下:
样本图像的特征向量在经过哈希层之后,生成哈希码之前通过tanh函数,最后的哈希码 是通过松弛变量之后才是最终的bi和bj,在进行松弛之前的值为ui和uj,ui,uj∈Rm;在损 失函数的计算中使用松弛前变量ui和uj代替哈希码bi和bj,损失函数为:
式中,m为哈希码的长度,α为偏好范数权值。
进一步地,所述训练深度哈希模型的过程中采用小规模数据进行在线训练,创建小规模 三元组是遵循以下几个规则:(1)从小批量确定不同标签的选择样本数,选择最少的标签样本 数;(2)将某一标签进行随机洗牌,选择样本中的i和i+1作为三元组的锚pi和正示例pj;(3) 随机选择其他标签样本i作为三元组pi的负示例pk;(4)循环全部标签和全部样本,生成含有 锚、正示例和负示例的随机组合。
本发明最为突出的特点和显著的有益效果是:
本发明通过完成深度哈希网络结构和重排算法的对比实验,验证本发明提出的深度哈希 网络结构具有较好的优越性,以及重排算法对于基于哈希码的图像检索有着更好的视觉效果。 在以往哈希函数的研究中通常都是通过对比汉明距离方式比较相似性,当数据规模较大时汉 明距离区分度会不足,本发明通过哈希码作为索引,进一步区分相同汉明距离大小返回结果 的相似度,得到相似度更高的返回结果。经实验表明,本发明基于哈希学习的方法在CIFAR-10 和NUS-WIDE上有着相比较其他方法更好的性能。
附图说明
图1为深度哈希网络结构;
图2为邻近集合中哈希码的不同分类示意图;
图3为CIFAR-10结果对比图;
图4为NUS-WIDE结果对比图;
图5为可视化实验结果;
图6为重排算法可视化实验结果;
图7为24bit准确率。
具体实施方式
具体实施方式一:
本实施方式的基于哈希学习的图像数据快速检索方法,具体包括以下步骤:
1、建立深度哈希模型:
深度哈希模型包含五个卷积-池化层、两个全连接层、特征层、哈希层和输出层;特征层 输出一定长度的特征向量;然后特征向量通过哈希层映射到哈希码。模型结构如图1所示, 具体参数表1所示。
表1模型参数
在结构上每个全连接层由的单层500×1神经元和激活函数组成。其中全连接层作用是连 接中间特征层的每一个特征,抽取特征之间的关系通过哈希层对应到哈希码不同的比特上, 从而使不同样本图像生成汉明距离较大的哈希码。
2、训练深度哈希模型:
训练数据为一系列带有标签的数据集{(p1,w1),(p2,w2),(p3,w3),...(pn,wn)},其中 pi样本图像,wi是对应图像样本的标签;
三元组标签{pi,pj,pk}表示三元约束,代表样本之间的临近关系,在某一种度量下pi和pj的距离小于pi和pk之间的距离;三元约束在本发明的实际训练中分类效果更好,对于模型 的适应性也更好。输入为三元组标签{pi,pj,pk},其中pi和pj为同一类别,pi和pk为不同类 别,相同类别之间的相似性距离小于不同类别之间的相似性;
一般而言会选择对所有训练数据进行全部组合,但是模型的训练效率十分低效,此外训 练样本中误差样本会误导模型的生成。为确保模型能够快速收敛于三元约束条件,本发明使 用小规模数据进行大批量在线训练,如每次选取40张小规模样本图像,对这些样本建立三元 组,该种方法优点在于可以使用每一个批次的样本更新模型参数,防止模型的过拟合。创建 小规模三元组是遵循以下几个规则:(1)从小批量确定不同标签的选择样本数,选择最少的标 签样本数;(2)将某一标签进行随机洗牌,选择样本中的i和i+1作为三元组的锚pi和正示例 pj;(3)随机选择其他标签样本i作为三元组pi的负示例pk;(4)循环全部标签和全部样本,生 成含有锚、正示例和负示例的随机组合。在该规则的加持下,保证了样本数据的分布均匀, 增加了随机性。
特征层:深度哈希网络的收敛条件是训练数据在特征层输出的特征向量满足三元组约束 条件,该约束条件能够使模型的提取出更具有表现力的特征。三元组约束应用到特征提取就 是使同类样本的特征向量之间的欧式距离小于异类样本之间,公式如下:
式中表示锚样本,表示正例样本,表示负例样本,f是通过学习得到的映射函数(将 样本从样本图像映射到特征向量),threshold表示特定阈值用于控制正负样本的距离,||·||表 示特征向量之间的欧式距离。公式中,满足类内距离小于类间距离时误差为0,不满足时表 示存在误差,公式中使用“+”表示。
在训练阶段threshold的值越小时,损失函数Losstriplet比较容易趋向于0,锚与正示例之间 的距离不会太近,锚与负示例之间距离又不会太远,但是这时候得到的模型较难收敛。当 threshold较大时使得模型拉近锚和正示例之间的距离,拉远锚和负示例之间的距离,使得模 型的损失函数Losstriplet保持在一个较大的值,所以合理的threshold值对于模型的训练显得尤为 关键。深度哈希网络在特征层使用了三元损失函数进行约束,即通过最小化Losstriplet进行负向 反馈网络,调节网络中参数得到更具有表现性的特征。
哈希层:在哈希层使用对约束作为约束条件,该阶段输入的是特征层的特征向量,即输 入为对约束的{pi,pj,wij};wij=1时表示两个特征向量代表的样本是同类的,wij=0时表示两个 特征向量代表的样本是不同类的。由特征层生成的特征向量Fi,Fj∈Rd,映射到哈希空间上 输出为bi,bj∈{-1,1}m,则distH(bi,bj)为bi和bj之间的汉明空间;损失函数如下:
其中,m为哈希码的长度;
损失函数中除以m可以将损失函数控制在0和1之间,而与哈希吗长度无关。如果没有 除以m的话,会造成哈希码长度越长,损失就会越大,这样能够使结果更加准确。
当wij=1时,对Losspair求导做梯度下降时会尽量减小bi和bj之间的汉明距离,以降低Losspair的值,当wij=0时,会增大bi和bj之间的汉明距离。使用该损失函数做为约束条件时,使同 类别样本所生成的哈希码之间汉明距离较近,不同类别样本所生成哈希码之间汉明距离相比 较远,通过该种方法得到的哈希码是最优的。
公式中distH(bi,bj)函数是离散化的,由于其梯度不可导问题,无法通过传统方法进行随 机梯度下降,也就是无法进行反向调节模型参数。为解决损失函数不可求导的问题,样本图 像的特征向量在经过哈希层之后,生成哈希码之前通过tanh函数,tanh的优点在于将实数值 压缩在(-1,1)之间,当值在0周围为梯度值较大,能够使值尽量分布在-1和1周围,有利于 哈希码的生成。由该过程知,最后的哈希码是通过松弛变量之后才是最终的bi和bj,所以在 进行松弛之前的值为ui和uj,ui,uj∈Rm。为了使函数在进行训练过程中可导,在损失函数 的计算中使用松弛前变量ui和uj代替哈希码bi和bj,为防止模型在训练过程中出现过拟合提 高模型的泛化能力,在损失函数后增加正则项。在实际训练过程中使用的损失函数为:
式中α为偏好范数权值,当α→0时,模型容易出现过拟合现象,当α→∞时,模型会出 现欠拟合,所以合适的α值对于模型的训练同样至关重要。
得到训练好的深度哈希模型后,利用深度哈希模型建立样本库,样本库由图像样本及对 应的哈希码构成;
3、针对查询图像,利用训练好的深度哈希模型生成查询图像的哈希码;
4、利用查询图像的哈希码与图像样本库进行检索。
具体实施方式二:
本实施方式所述的利用查询图像的哈希码与图像样本库进行检索的过程包括以下步骤:
深度哈希模型得到的哈希函数能够使样本库中的每个样本图像都有唯一的哈希码 {h1,h2,…,hm},hi∈{0,1}。当要检索查询样本q的相似图像时,与样本库中图像的汉明距离计算 公式为:
公式中,distH(hi,hj)是汉明距离,m是哈希码的长度。通过公式能够知道,哈希码中每 一位作用都相同,而在进行哈希码的生成过程中,每一位哈希码都是单个特征或者多个特征 的组合表现,在使用汉明距离进行检索时会被忽视。除了无法进行表现特征之外,在进行图 像的检索中,相同汉明距离的检索结果无法进行进一步划分使检索结果不够准确。因此,本 发明为每一个哈希码赋予其特定的特征权值ωi,在进行汉明距离计算时使用加权汉明距离进 行计算,可以细化查询样本和样本库数据之间的相似度,使检索返回结果与查询样本有更高 的相似度。在本实施方式中,可以为哈希码的每一位赋予其特定的权值,假设在某一类中哈 希码各位的权值为ω={ω1,ω2,ω3,…,ωm},则加权汉明距离定义如下:
对比汉明距离的离散性,加权汉明距离有着更小的相似性度量粒度,可以进一步划分相 同汉明距离之间的相似性。加权汉明距离的加权方法众多,本发明提出一种全新加权方法, 对于哈希码每一位的权值,在后续过程中对权值的设计进行详细介绍。
设样本库中图像所对应的哈希码是pi={hi,1,hi,2,hi,3,…,hi,m},查询图像对应的哈希码 是pquery={hquery,1,hquery,2,hquery,3,…,hquery,m},则在汉明空间中,查询图像的ε近邻表示为
NN(pquery,ε)={p|||pquery-pi||2<ε}
汉明距离对于图像检索是简单且高效的,所以在进行设计汉明距离权值时要保留其的简 单高效。对于本发明所提出的特征权值是基于汉明空间中ε近邻,在进行加权汉明距离计算 之前先通过汉明距离检索出ε近邻样本集合p,在集合p中所有样本的哈希码与查询样本的哈 希码之间的汉明距离都小于ε,但是该集合中哈希码是不同的,如图2所示。如何确定不同 比特位哈希码的权重,首先将集合p中所有样本进行统计,统计每一个比特位上“0”和“1” 的概率,然后使用概率的方式在该样本集合上的计算查询样本和样本库中的加权汉明距离。
对于该集合样本数据生成的所有哈希码中,设P("1")i为哈希码第i比特位为“1”的概率, 设P("0")i为哈希码第i比特位为“0”的概率,则有下列关系:
P("1")i+P("0")i=1
由该关系可知在样本集p中特征聚集的较为明显,样本中的大多数哈希码在某一位上会 偏向于确定的。例如样本猫主要用“耳朵”进行判别时,当样本库中猫类数据有耳朵特征时会 在某一编码位表现具有高度一致性。当进行权值设计时,该位置相比较其他位置更重要。当 进行哈希码每一位权值计算时,根据其“重要程度”对权值进行更新。
权值ω的计算过程如下。
(2)过程作用为为了体现bit位特征表现力。对于所有哈希码中的某一bit的分离度越大, 说明该bit位特征表现力越强。例如现在有10个长度为12的哈希码,对于所有哈希码的第一 位,有9个‘1’和1个‘0’,第二位有5个‘1’和5个‘0’,那么第一位哈希码的权重就会高于第二位。
由权值ω的计算过程可知,权值主要用去区分具有相同汉明距离样本,从根本上保留了 汉明距离与相似性之间的关系。对于汉明距离和加权汉明距离之间的关系如下:
实施例
利用CIFAR-10(A.Krizhevsky,G.Hinton.Learning Multiple Layers ofFeatures from Tiny Images[J].2012.)和NUS-WIDE(Zhang P,Zhang W,Li W J,etal.Supervised hashing with latent factor models[M].2014.)数据集进行实验,保证实验对比的有效可靠性。实验从CIFAR-10 数据集中每一类中抽取600个图像样本作为实验数据,其中500个图像样本作为训练数据, 其他100个图像样本作为测试数据。由于NUS-WIDE数据集是多标签数据集,如果两个样本 图像有一个相同标签则认为它们是同类样本数据。在实验中,采用和其他相同的计算方法, 取前5000个返回样本的平均mAP作为最后的对比数据。通过结果可以看出,结合深度神经 网络的FastH、CNNH、NINH相比较传统方法有着更好的准确度。在CNNH中,通过深度神 经网络用于拟合的哈希码对比其他哈希学习方法得到的哈希码是次优的。通过对比实验可以 看出本课题提出的深度哈希方法有着更好的实验效果,随着哈希码长度的增加,数据的度量 标准mAP越来越高。如表2所示,本发明所提出的深度哈希模型对比其他方法,在一定程度 上有所提高。对比传统哈希方法,例如LSH、SH、ITQ提升效果明显。相比较其他哈希学习 方法,例如FastH、CNNH和NINH在CIFAR-10数据集和NUS-WIDE数据集上都有所提升, 验证了本发明深度哈希模型在哈希编码上的优良性能。
表2数据集检索精确度(mAP)结果对比
由表2可以看出,本课题所提出的深度哈希网络模型实验结果对比,CIFAR-10数据集中 提升较为明显,在不同比特哈希码提升分别为3.8%、3.5%、5.0%和5.1%的提升。在NUS-WIDE 数据集中不同比特哈希码提升分别是5%、6.8%、5.4%和6.8%。通过对比实验可知,在不同 数据集的不同长度的哈希码都有着一定程度的提高。
特征提取使用三元损失函数提取出图像的特征,在该实验中提取出特征的长度同样是影 响哈希码生成的关键因素,特征长度较短在哈希层容易过拟合,较长的特征长度会提取出干 扰特征,影响哈希码的生成。为了得到最佳的特征层长度的值,通过对比不同特征长度对于 最终mAP结果的影响。在实验中选取的实验长度通过与最终生成的哈希码长度进行关联,在 实验中分别选取“L”、“2*L”、“3*L”、“4*L”和“5*L”长度进行比较,其中的“L”是最 终生成哈希码的长度,对比图中的折线分别代表不同长度的哈希码结果。
对两个数据集的折线图(图3和图4)进行分析,当特征层长度为1倍的哈希码时,可以在该层直接通过处理得到哈希码,但是结果一般。随着特征层长度的增加,当特征层长度为4倍的哈希码长度时,效果较好,在进行增加时部分数据mAP会出现小幅下降的。所以通过测试为本实验中最佳的特征层长度。
可视化实验中主要通过CIFAR-10数据集进行图像检索,该数据集是单标签数据集而且 每个样本图像包含的信息较少,能够更为准确的表示出某一类的特征,对于检索返回结果有 着更加直观的显示。实验原理是返回与检索样本哈希码汉明距离最小的TOP-K个样本返回, 从每一行第一个是检索样本,返回汉明距离与检索样本之间最相近的10个样本图像。从检索 返回的样本图像中可以看出,深度哈希模型提取的特征较能表现出不同类别,基于深度哈希 网络模型生成哈希进行图像检索从客观分类的角度来看有着较好的准确度,但是从主观的角 度分析返回的结果与检索样本之间的相似度一般,检索图像偏向于理论上的同类样本,如图 5所示。
在该实验中主要为了对比验证深度哈希返回结果重排,首先通过基于三元组的深度哈希 网络模型对于CIFAR-10数据集生成其对应的哈希码,然后使用基于特征权值重排算法返回 检索结果。在该实验中存在一个关键参数ε,在汉明空间中距离小于ε的结果,在这里设置 ε=2,表示以汉明距离小于2的范围内使用基于特征权值重排算法对返回结果进行重排返回。 如图所示,以可视化的角度分析重排后的结果与检索样本有着更加明显的相同特征,作为返 回结果更加合理。该算法有着明显的特点是区分具有汉明距离而哈希码不同的返回结果,所 以从返回结果可以看出重排之后的返回结果与还未重排结果有着相同的返回结果。通过对比 汉明距离直接返回的TOP-K结果和经过重排后返回结果,在前10个返回结果中同类样本的 数量增加,同时也就说明了准确率有所提高。对比结果可以发现,在主观视觉上有着更好的 相似度,如图6所示。
在进行主观判定之后,对于TOP-K中不同K值的返回结果的准确率也会有所不同,通 过实验对比不同K值的准确率,可以总结出规律。TOP-K的K值结果越小,重排后准确率越高,随着K值的逐渐增加,重排后准确值和重排前准确值差距逐渐减小直至相同。从另一方面验证了基于量化哈希重排算法可以区分具有相同哈希码的返回结果与检索样本的相似度对 比,准确率变化如图7所示。
通过完成深度哈希网络结构和重排算法的对比实验,验证本发明提出的深度哈希网络结 构具有较好的优越性,以及重排算法对于基于哈希码的图像检索有着更好的视觉效果。在以 往哈希函数的研究中通常都是通过对比汉明距离方式比较相似性,当数据规模较大时汉明距 离区分度会不足,本发明通过哈希码作为索引,进一步区分相同汉明距离大小返回结果的相 似度,得到相似度更高的返回结果。
Claims (5)
1.基于哈希学习的图像数据快速检索方法,其特征在于,包括以下步骤:
步骤1、建立深度哈希模型:
深度哈希模型包含五个卷积-池化层、两个全连接层、特征层、哈希层和输出层;
步骤2、训练深度哈希模型:
训练数据为一系列带有标签的数据集{(p1,w1),(p2,w2),(p3,w3),...(pn,wn)},其中pi为样本图像,wi是对应图像样本的标签;
输入为三元组标签{pi,pj,pk},其中pi和pj为同一类别,pi和pk为不同类别,相同类别之间的相似性距离小于不同类别之间的相似性;
得到训练好的深度哈希模型后,利用深度哈希模型建立样本库,样本库由图像样本及对应的哈希码构成;
步骤3、针对查询图像,利用训练好的深度哈希模型生成查询图像的哈希码;
步骤4、利用查询图像的哈希码与图像样本库进行检索,具体过程为:
设样本库中图像所对应的哈希码是pi={hi,1,hi,2,hi,3,…,hi,m},查询图像对应的哈希码是pquery={hquery,1,hquery,2,hquery,3,…,hquery,m},则在汉明空间中,查询图像的ε近邻表示为NN(pquery,ε)={p|||pquery-pi||2<ε};
通过|pquery-pi||2<ε得到查询样本的ε近邻集合p;
统计最近邻查询样本集合p中所有哈希码中每一位中“0”或“1”比例较大的比特S={S1,S2,S3,…,Sm},Si∈{0,1};
统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“0”的概率P(S0)={P(S1,0),P(S2,0),P(S3,0),…,P(Sm,0)},其中P(Si,0)∈[0,1];
P(Si,0)=∑(Si=0,NN(pquery,ε))/count(NN(pquery,ε)),count是满足哈希码中某个比特位中为“0”的的数量;
统计最近邻查询样本集合p中所有哈希码中每一个比特位中为“1”的概率P(S1)={P(S1,1),P(S2,1),P(S3,1),…,P(Sm,1)},其中P(Si,1)∈[0,1];
P(Si,1)=∑(Si=1,NN(pquery,ε))/count(NN(pquery,ε)),count是满足哈希码中某个比特位中为“1”的的数量;
通过ωi=1+max(P(Si,0),P(Si,1))/m确定哈希码各位的权值ω={ω1,ω2,ω3,…,ωm};
2.根据权利要求1所述基于哈希学习的图像数据快速检索方法,其特征在于,所述ε近邻中的ε=2。
3.根据权利要求2所述基于哈希学习的图像数据快速检索方法,其特征在于,所述特征层长度为4倍的哈希码长度。
4.根据权利要求1、2或3所述基于哈希学习的图像数据快速检索方法,其特征在于,所述哈希层使用对约束作为约束条件,该阶段输入的是特征层的特征向量,即输入为对约束的{pi,pj,wij};wij=1时表示两个特征向量代表的样本是同类的,wij=0时表示两个特征向量代表的样本是不同类的;由特征层生成的特征向量为Fi,Fj∈Rd,映射到哈希空间上输出为bi,bj∈{-1,1}m,则distH(bi,bj)为bi和bj之间的汉明空间;损失函数如下:
样本图像的特征向量在经过哈希层之后,生成哈希码之前通过tanh函数,最后的哈希码是通过松弛变量之后才是最终的bi和bj,在进行松弛之前的值为ui和uj,ui,uj∈Rm;在损失函数的计算中使用松弛前变量ui和uj代替哈希码bi和bj,损失函数为:
式中,m为哈希码的长度,α为偏好范数权值。
5.根据权利要求4所述基于哈希学习的图像数据快速检索方法,其特征在于,所述训练深度哈希模型的过程中采用小规模数据进行在线训练,创建小规模三元组是遵循以下几个规则:(1)从小批量确定不同标签的选择样本数,选择最少的标签样本数;(2)将某一标签进行随机洗牌,选择样本中的i和i+1作为三元组的锚pi和正示例pj;(3)随机选择其他标签样本i作为三元组pi的负示例pk;(4)循环全部标签和全部样本,生成含有锚、正示例和负示例的随机组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910415146.5A CN110134803B (zh) | 2019-05-17 | 2019-05-17 | 基于哈希学习的图像数据快速检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910415146.5A CN110134803B (zh) | 2019-05-17 | 2019-05-17 | 基于哈希学习的图像数据快速检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134803A CN110134803A (zh) | 2019-08-16 |
CN110134803B true CN110134803B (zh) | 2020-12-11 |
Family
ID=67571194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910415146.5A Expired - Fee Related CN110134803B (zh) | 2019-05-17 | 2019-05-17 | 基于哈希学习的图像数据快速检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134803B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522903A (zh) * | 2020-04-01 | 2020-08-11 | 济南浪潮高新科技投资发展有限公司 | 一种深度哈希检索方法、设备及介质 |
CN111625258B (zh) * | 2020-05-22 | 2021-08-27 | 深圳前海微众银行股份有限公司 | 默克尔树更新方法、装置、设备及可读存储介质 |
CN111626408B (zh) * | 2020-05-22 | 2021-08-06 | 深圳前海微众银行股份有限公司 | 哈希编码方法、装置、设备及可读存储介质 |
CN113127661B (zh) * | 2021-04-06 | 2023-09-12 | 中国科学院计算技术研究所 | 基于循环查询扩展的多监督医学图像检索方法和*** |
CN112800260B (zh) * | 2021-04-09 | 2021-08-20 | 北京邮电大学 | 基于深度哈希能量模型的多标签图像检索方法和装置 |
CN113190699B (zh) * | 2021-05-14 | 2023-04-18 | 华中科技大学 | 一种基于类别级语义哈希的遥感图像检索方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7991778B2 (en) * | 2005-08-23 | 2011-08-02 | Ricoh Co., Ltd. | Triggering actions with captured input in a mixed media environment |
CN103646080A (zh) * | 2013-12-12 | 2014-03-19 | 北京京东尚科信息技术有限公司 | 基于倒序索引的微博去重方法和*** |
US8838591B2 (en) * | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
CN104978729A (zh) * | 2014-04-08 | 2015-10-14 | 华中科技大学 | 一种基于数据感知的图像哈希方法 |
CN106355608A (zh) * | 2016-09-09 | 2017-01-25 | 南京信息工程大学 | 基于可变权重代价计算与S‑census变换的立体匹配方法 |
CN106484782A (zh) * | 2016-09-18 | 2017-03-08 | 重庆邮电大学 | 一种基于多核哈希学习的大规模医学图像检索方法 |
JP2018028899A (ja) * | 2016-08-19 | 2018-02-22 | 三菱電機株式会社 | 画像レジストレーションの方法及びシステム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702673B2 (en) * | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
CN106354735A (zh) * | 2015-07-22 | 2017-01-25 | 杭州海康威视数字技术股份有限公司 | 一种图像中目标的检索方法和装置 |
CN105469096B (zh) * | 2015-11-18 | 2018-09-25 | 南京大学 | 一种基于哈希二值编码的特征袋图像检索方法 |
CN105512273A (zh) * | 2015-12-03 | 2016-04-20 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN106682233B (zh) * | 2017-01-16 | 2020-03-10 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN106777388B (zh) * | 2017-02-20 | 2020-11-24 | 华南理工大学 | 一种双重补偿的多表哈希图像检索方法 |
CN109472282B (zh) * | 2018-09-10 | 2022-05-06 | 中山大学 | 一种基于极少训练样本的深度图像哈希方法 |
-
2019
- 2019-05-17 CN CN201910415146.5A patent/CN110134803B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7991778B2 (en) * | 2005-08-23 | 2011-08-02 | Ricoh Co., Ltd. | Triggering actions with captured input in a mixed media environment |
US8838591B2 (en) * | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
CN103646080A (zh) * | 2013-12-12 | 2014-03-19 | 北京京东尚科信息技术有限公司 | 基于倒序索引的微博去重方法和*** |
CN104978729A (zh) * | 2014-04-08 | 2015-10-14 | 华中科技大学 | 一种基于数据感知的图像哈希方法 |
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
JP2018028899A (ja) * | 2016-08-19 | 2018-02-22 | 三菱電機株式会社 | 画像レジストレーションの方法及びシステム |
CN106355608A (zh) * | 2016-09-09 | 2017-01-25 | 南京信息工程大学 | 基于可变权重代价计算与S‑census变换的立体匹配方法 |
CN106484782A (zh) * | 2016-09-18 | 2017-03-08 | 重庆邮电大学 | 一种基于多核哈希学习的大规模医学图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110134803A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134803B (zh) | 基于哈希学习的图像数据快速检索方法 | |
Barz et al. | Hierarchy-based image embeddings for semantic image retrieval | |
CN107480261B (zh) | 一种基于深度学习细粒度人脸图像快速检索方法 | |
Xiang et al. | Fabric image retrieval system using hierarchical search based on deep convolutional neural network | |
CN111639544A (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN112613552B (zh) | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 | |
CN113095442B (zh) | 基于半监督学习在多维度雷达数据下的冰雹识别方法 | |
CN108446334B (zh) | 一种无监督对抗训练的基于内容的图像检索方法 | |
CN114386534A (zh) | 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法 | |
CN109886334A (zh) | 一种隐私保护的共享近邻密度峰聚类方法 | |
Zeng et al. | Pyramid hybrid pooling quantization for efficient fine-grained image retrieval | |
CN113591529A (zh) | 动作分割模型的处理方法、装置、计算机设备和存储介质 | |
Zhang et al. | Visual saliency detection via kernelized subspace ranking with active learning | |
Prakash et al. | Dual-layer deep ensemble techniques for classifying heart disease | |
Zhang et al. | MetaDT: Meta decision tree with class hierarchy for interpretable few-shot learning | |
Yang et al. | Sampling agnostic feature representation for long-term person re-identification | |
Liu et al. | Learning multiple gaussian prototypes for open-set recognition | |
Qin et al. | Deep neighborhood structure-preserving hashing for large-scale image retrieval | |
Wang et al. | Prototype-based intent perception | |
Kumar et al. | Predictive analytics on gender classification using machine learning | |
Shen et al. | Equiangular basis vectors | |
Sadeghi et al. | Deep multirepresentation learning for data clustering | |
Alkanat et al. | Enabling open-set person re-identification for real-world scenarios | |
Arulmozhi et al. | DSHPoolF: deep supervised hashing based on selective pool feature map for image retrieval | |
CN116452241B (zh) | 一种基于多模态融合神经网络的用户流失概率计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201211 Termination date: 20210517 |
|
CF01 | Termination of patent right due to non-payment of annual fee |