CN105653723B

CN105653723B - 一种用于图像检索的查询图像特征裁剪方法

Info

Publication number: CN105653723B
Application number: CN201610034219.2A
Authority: CN
Inventors: 凌强; 杜彬彬; 李峰
Original assignee: University of Science and Technology of China USTC
Current assignee: Snegrid Electric Technology Co ltd
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2019-03-01
Anticipated expiration: 2036-01-19
Also published as: CN105653723A

Abstract

本发明公开了一种用于图像检索的查询图像特征裁剪方法，其选择一个小的无关图像集的搜索结果作为参考信号。通过统计该信号中各个visual word对得分的贡献来对查询图像中的特征进行删减，这样能够在最后的得分中减去一些错误投票，对错误的结果进行压制。该方法能够对检索的性能起到促进的作用。本发明使用了对查询图像特征进行删减的方法，得到了更准确的搜索性能。使用无关图像的搜索结果作为参考信号，能够提升性能。

Description

一种用于图像检索的查询图像特征裁剪方法

技术领域

本发明涉及计算机视觉、模式识别、图像检索、搜索引擎的领域，具体涉及一种用于图像检索的查询图像特征裁剪方法。

背景技术

随着互联网的发展，网络上存放的数据量逐年飞速增长，互联网用户对信息的检索需求也日益增长。随着信息检索技术与计算机视觉技术的发展，使得用户可以从互联网实时获取需要的图像。在此类应用中，相似图像检索技术占有很大的比重。

由于图像拍摄的角度、环境有着很大的差异，且图像中的信息量很大，因此实时地从海量图片中搜索到相似图片是一件很困难的事情。本发明在不明显提高时间复杂度的情况下能提升一些图像检索的性能，具有很大的意义。

目前图像检索的主流技术是基于SIFT特征(参见文献【1】D.G.Lowe,Distinctiveimage features from scale-invariant keypoints,International Journal ofComputer Vision,vol.60,no.2,pp.91-110,2004.)和词袋模型(Bag-of-words)对图像进行表达，然后利用倒排索引的技术完成检索过程。

该类技术从每副图像提取一些关键区域，然后在关键区域处提取一些高维特征，然后利用词袋模型进行量化得到最终的表达。在完成所有图像的表达后利用统计模型计算出每个visual word的tf-idf权重，最后利用倒排文件检索(参见文献【2】J.Sivic,A.Zisserman,Video Google:A text retrieval approach to object matching invideos,IEEE International Conference on Computer Vision,pp.1470-1477,2003.和文献【3】J.Philbin,O.Chum,M.Isard,et al,Object retrieval with largevocabularies and fast spatial matching,IEEE Conference on Computer Vision andPattern Recognition,pp.1-8,2007.)。

针对该方法的一些缺陷，一些弥补缺陷提升性能的方法被提出，且不会较大提升时间耗费。且一些方法能以兼容的方式结合起来使性能得到更大的提升。

1)Philbin(参见文献【3】J.Philbin,O.Chum,M.Isard,et al,Object retrievalwith large vocabularies and fast spatial matching,IEEE Conference on ComputerVision and Pattern Recognition,pp.1-8,2007.)于2007年提出使用大词典完成大规模的图像检索，利用空间信息的re-rank策略对搜索结果进行改善，该方法被广泛作为baseline使用。

2)Philbin(参见文献【4】J.Philbin,O.Chum,M.Isard,et al,Lost inquantization:Improving particular object retrieval in large scale imagedatabases,pp.1-8,2008.)于2008年提出Soft Assignment的方法解决量化误差问题。将每个描述子量化给多个Visual word。

3)Chum(参见文献【5】O.Chum,J.Philbin,J.Sivic,et al,Total recall:Automatic query expansion with a generative feature model for objectretrieval,IEEE International Conference on Computer Vision,pp.1-8,2007.)于2007年Query expansion的方法提升搜索的召回率，即使用初始搜索结果对query进行信息补充。

4)Jégou(参见文献【6】H.Jégou,M.Douze,C.Schmid,Improving bag-of-featuresfor large scale image search,International Journal of Computer Vision,vol.87,no.3,pp.316-336,2010.)于2008年提出了弱化量化误差影响的Hamming Embedding方法，每个SIFT描述子除了量化到一个Visual word外，还与一个二进制编码绑定，该二进制编码与描述子与Visual word的残差相关。

5)Jégou(参见文献【7】H.Jégou,M.Douze,C.Schmid,On the burstiness ofvisual elements,IEEE Conference on Computer Vision and Pattern Recognition,pp.1169-1176,2009.)于2009年提出在图像中，往往有很多word会很大概率多次出现。Jégou在Hamming Embedding的基础上利用更详尽的量化信息进行统计，解决Intra-burstiness(图像内)和Inter-burstiness(图像间)问题。

6)Chum(参见文献【8】O.Chum,J.Matas.Unsupervised discovery of co-occurrence in sparse high dimensional data,IEEE Conference on Computer Visionand Pattern Recognition,pp.3416-3423,2010.)于2010年提出通过检测一些word的共发性来来减少一些重复元素的重复得分。

7)Zheng(参见文献【9】L.Zheng,S.Wang,Z.Liu,et al,Lp-norm idf for largescale image search,IEEE Conference on Computer Vision and PatternRecognition,pp.1626-1633,2013.)于2013年提出在计算idf权重时考虑tf权重，来计算各个word的权重。

本发明中选择一个小的无关图像集的搜索结果作为参考信号。通过统计该信号中各个visual word对得分的贡献来对查询图像中的特征进行删减，这样能够在最后的得分中减去一些错误投票，对错误的结果进行压制。该方法能够对检索的性能起到促进的作用。

发明内容

本发明的目的在于：1)能够使用特征删减的方法提升图像搜索的性能；2)能够不显著提高时间复杂度；3)能够不显著提高内存用量；4)方法不过于复杂，能与其他方法保持良好的兼容性。

本发明采用的技术方案为：一种用于图像检索的查询图像特征裁剪方法，该方法包括如下步骤：

步骤一、对查询图像提取SIFT特征并使用词袋模型量化，然后在大的待检索图像库中搜索与查询图像在余弦距离下相似的图像，并对其排名；

步骤二、统计出其中排名靠前的图像得分中各visual word的贡献次数，作为正信号；

步骤三、在无关图像库中搜索与查询图像在余弦距离下相似的图像，并对其排名；

步骤四、统计出其中排名靠前的图像得分中各visual word的贡献次数，作为负信号；

步骤五、根据正负信号的统计结果计算负信号中每个visual word的互信息值，按该值大小排序，取值较大的一些visual word；

步骤六、在查询图像中减去这些特征，并使用删减后的特征在大的待检索图像库中搜索得到最终的结果。

其中，步骤一种待检索图像库中的搜索具体如下：

对查询图像中提取Hessian-affine区域，然后在每个区域提取一个128维的SIFT特征，然后利用词袋模型中训练好的词典进行量化，得到图像的最终表达，该表达为一些visual word的ID的集合；然后使用该图像表达在待检索数据库中进行搜索，得到搜索结果，经过Spatial verification，取其排名靠前的搜索结果作为正参考信号。

其中，步骤二中统计出正参考信号中各visual word的贡献次数具体为：

步骤一中已经得到真正待检索库中排名靠前的图像，步骤二统计这些图像的得分中贡献频率较多的一些visual word，这些图像是经过spatial verification的，假设它们是正确的搜索结果，这些visual word的模式是值得保留的。

其中，步骤三中无关图像库中的搜索具体为：

在网络中随机抽取的一些自然图像库中进行搜索，该网络中所有图像与查询图像无关，取其排名靠前的搜索结果作为负参考信号。

其中，步骤四统计负参考信号中中各visual word的贡献次数具体为：

统计负参考信号中贡献频率较多的一些visual word，这些visual word的模式也可以被认为对结果是有妨害的。

其中，步骤五中计算互信息具体为：

结合正负参考信号的统计结果计算负参考信号中出现的visual word的互信息值，取其值较大的一些visual word。

其中，步骤六种使用删减后的特征完成检索具体为：

在查询图像中减去上一阶段得到的visual word，然后利用删减后的特征在真正待检索的图像库中完成检索，输出搜索结果。

本发明与现有技术相比的优点和积极效果为：

1、使用了对查询图像特征进行删减的方法，得到了更准确的搜索性能。

2、使用无关图像的搜索结果作为参考信号，能够提升性能。

3、对算法的时间复杂度和空间复杂度的提升较小。

4、算法中使用政府参考信号比单一负参考信号能获得更好的性能。

5、以互信息作为标准对特征删减，简单、速度快且效果好。

附图说明

图1为本发明一种用于图像检索的查询图像特征裁剪方法流程图。

具体实施方式

下面结合附图以及具体实施例进一步说明本发明。

本发明通过使用无关图像库中的搜索结果作为负参考信号，对查询图像的特征进行删减，然后使用删减后的特征进行最后的搜索。

1.在待检索数据库中的初始检索

本发明中使用传统的方法完成在待检索图像库中的第一次搜索操作。对查询图像提取Hessian-affine区域，然后对每个区域提取128维的SIFT特征，然后使用预先训练好的词袋模型中的词典对每一个SIFT特征进行量化，得到最后的图像表达。这里的量化使用FLANN开源库中的最近邻查找算法。搜索时也采用传统的倒排索引方法，同时也使用tf-idf权重。统计排名靠前的图像搜索结果作为正参考信号。

2.统计出正参考信号中各visual word的贡献次数

本发明中仍需统计正参考信号中各个visual word出现的次数，每个visual word对任意图像的搜索得分贡献一次，出现次数即加1。

3.在无关图像库中的检索

本发明算法中还需要在预先搜集的无关图像库中进行检索，特征提取与搜索策略与前述相同，统计排名靠前的图像搜索结果作为负参考信号。该信号中的信息被认为是无用且会对搜索结果造成妨害的。

4.统计出负参考信号中各visual word的贡献次数

以前述同样的方法统计负参考信号中各个visual word出现的次数。

5.互信息的计算

互信息的计算公式如下：

I(x_:i,y)＝H(y)+H(x_:i)-H(x_:i,y)

其中x_:i为第i维的特征，这里对应每一个visual word，y为信号的标签，正信号中为1，负信号中为0，H为熵函数。

依此公式可以计算出负参考信号中各visual word的互信息值，选择其中值较大的一些visual word作为待删减特征。

6.使用删减后的特征完成检索

使用删减后的查询图像特征在待检索数据库中再次检索，此次搜索得到的结果为最终的搜索结果。

算法整体流程图如图1。

1)读取待查询图像。

2)对图像提取Hessian-affine区域，在每个区域提取SIFT特征，然后使用词袋模型量化。

3)在待检索图像库中进行搜索，此处使用倒排索引。

4)统计排名靠前的图像，作为正参考信号。

5)统计正参考信号中各visual word的贡献次数。

6)在无关图像库中进行搜索，此处使用倒排索引。

7)统计排名靠前的图像，作为负参考信号。

8)统计负参考信号中各visual word的贡献次数。

9)根据正负信号，计算负信号中各visual word的互信息。

10)统计互信息中值较大的一些visual word，将其从query特征中去除。

11)使用删减后的query特征在待检索图像库中进行搜索。

12)输出搜索结果。

Claims

1.一种用于图像检索的查询图像特征裁剪方法，其特征在于：该方法包括如下步骤：

2.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法，其特征在于：步骤一中待检索图像库中的搜索具体如下：

对查询图像中提取Hessian-affine区域，然后在每个区域提取一个128维的SIFT特征，然后利用词袋模型中训练好的词典进行量化，得到图像的最终表达，该表达为一些visualword的ID的集合；然后使用该图像表达在待检索数据库中进行搜索，得到搜索结果，经过Spatial verification，取其排名靠前的搜索结果作为正参考信号。

3.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法，其特征在于：步骤二中统计出正参考信号中各visual word的贡献次数具体为：

步骤一中已经得到真正待检索库中排名靠前的图像，步骤二统计这些图像的得分中贡献频率较多的一些visual word，这些图像是经过spatial verification的，若它们是正确的搜索结果，则保留这些visual word的模式。

4.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法，其特征在于：步骤三中无关图像库中的搜索具体为：

5.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法，其特征在于：步骤四统计负参考信号中各visual word的贡献次数具体为：

统计负参考信号中贡献频率较多的一些visual word，这些visual word的模式被认为对结果是有妨害的。

6.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法，其特征在于：步骤五中计算互信息具体为：

7.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法，其特征在于：步骤六中使用删减后的特征完成检索具体为：