CN105653723B - 一种用于图像检索的查询图像特征裁剪方法 - Google Patents

一种用于图像检索的查询图像特征裁剪方法 Download PDF

Info

Publication number
CN105653723B
CN105653723B CN201610034219.2A CN201610034219A CN105653723B CN 105653723 B CN105653723 B CN 105653723B CN 201610034219 A CN201610034219 A CN 201610034219A CN 105653723 B CN105653723 B CN 105653723B
Authority
CN
China
Prior art keywords
image
visual word
query image
reference signal
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610034219.2A
Other languages
English (en)
Other versions
CN105653723A (zh
Inventor
凌强
杜彬彬
李峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snegrid Electric Technology Co ltd
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201610034219.2A priority Critical patent/CN105653723B/zh
Publication of CN105653723A publication Critical patent/CN105653723A/zh
Application granted granted Critical
Publication of CN105653723B publication Critical patent/CN105653723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种用于图像检索的查询图像特征裁剪方法,其选择一个小的无关图像集的搜索结果作为参考信号。通过统计该信号中各个visual word对得分的贡献来对查询图像中的特征进行删减,这样能够在最后的得分中减去一些错误投票,对错误的结果进行压制。该方法能够对检索的性能起到促进的作用。本发明使用了对查询图像特征进行删减的方法,得到了更准确的搜索性能。使用无关图像的搜索结果作为参考信号,能够提升性能。

Description

一种用于图像检索的查询图像特征裁剪方法
技术领域
本发明涉及计算机视觉、模式识别、图像检索、搜索引擎的领域,具体涉及一种用于图像检索的查询图像特征裁剪方法。
背景技术
随着互联网的发展,网络上存放的数据量逐年飞速增长,互联网用户对信息的检索需求也日益增长。随着信息检索技术与计算机视觉技术的发展,使得用户可以从互联网实时获取需要的图像。在此类应用中,相似图像检索技术占有很大的比重。
由于图像拍摄的角度、环境有着很大的差异,且图像中的信息量很大,因此实时地从海量图片中搜索到相似图片是一件很困难的事情。本发明在不明显提高时间复杂度的情况下能提升一些图像检索的性能,具有很大的意义。
目前图像检索的主流技术是基于SIFT特征(参见文献【1】D.G.Lowe,Distinctiveimage features from scale-invariant keypoints,International Journal ofComputer Vision,vol.60,no.2,pp.91-110,2004.)和词袋模型(Bag-of-words)对图像进行表达,然后利用倒排索引的技术完成检索过程。
该类技术从每副图像提取一些关键区域,然后在关键区域处提取一些高维特征,然后利用词袋模型进行量化得到最终的表达。在完成所有图像的表达后利用统计模型计算出每个visual word的tf-idf权重,最后利用倒排文件检索(参见文献【2】J.Sivic,A.Zisserman,Video Google:A text retrieval approach to object matching invideos,IEEE International Conference on Computer Vision,pp.1470-1477,2003.和文献【3】J.Philbin,O.Chum,M.Isard,et al,Object retrieval with largevocabularies and fast spatial matching,IEEE Conference on Computer Vision andPattern Recognition,pp.1-8,2007.)。
针对该方法的一些缺陷,一些弥补缺陷提升性能的方法被提出,且不会较大提升时间耗费。且一些方法能以兼容的方式结合起来使性能得到更大的提升。
1)Philbin(参见文献【3】J.Philbin,O.Chum,M.Isard,et al,Object retrievalwith large vocabularies and fast spatial matching,IEEE Conference on ComputerVision and Pattern Recognition,pp.1-8,2007.)于2007年提出使用大词典完成大规模的图像检索,利用空间信息的re-rank策略对搜索结果进行改善,该方法被广泛作为baseline使用。
2)Philbin(参见文献【4】J.Philbin,O.Chum,M.Isard,et al,Lost inquantization:Improving particular object retrieval in large scale imagedatabases,pp.1-8,2008.)于2008年提出Soft Assignment的方法解决量化误差问题。将每个描述子量化给多个Visual word。
3)Chum(参见文献【5】O.Chum,J.Philbin,J.Sivic,et al,Total recall:Automatic query expansion with a generative feature model for objectretrieval,IEEE International Conference on Computer Vision,pp.1-8,2007.)于2007年Query expansion的方法提升搜索的召回率,即使用初始搜索结果对query进行信息补充。
4)Jégou(参见文献【6】H.Jégou,M.Douze,C.Schmid,Improving bag-of-featuresfor large scale image search,International Journal of Computer Vision,vol.87,no.3,pp.316-336,2010.)于2008年提出了弱化量化误差影响的Hamming Embedding方法,每个SIFT描述子除了量化到一个Visual word外,还与一个二进制编码绑定,该二进制编码与描述子与Visual word的残差相关。
5)Jégou(参见文献【7】H.Jégou,M.Douze,C.Schmid,On the burstiness ofvisual elements,IEEE Conference on Computer Vision and Pattern Recognition,pp.1169-1176,2009.)于2009年提出在图像中,往往有很多word会很大概率多次出现。Jégou在Hamming Embedding的基础上利用更详尽的量化信息进行统计,解决Intra-burstiness(图像内)和Inter-burstiness(图像间)问题。
6)Chum(参见文献【8】O.Chum,J.Matas.Unsupervised discovery of co-occurrence in sparse high dimensional data,IEEE Conference on Computer Visionand Pattern Recognition,pp.3416-3423,2010.)于2010年提出通过检测一些word的共发性来来减少一些重复元素的重复得分。
7)Zheng(参见文献【9】L.Zheng,S.Wang,Z.Liu,et al,Lp-norm idf for largescale image search,IEEE Conference on Computer Vision and PatternRecognition,pp.1626-1633,2013.)于2013年提出在计算idf权重时考虑tf权重,来计算各个word的权重。
本发明中选择一个小的无关图像集的搜索结果作为参考信号。通过统计该信号中各个visual word对得分的贡献来对查询图像中的特征进行删减,这样能够在最后的得分中减去一些错误投票,对错误的结果进行压制。该方法能够对检索的性能起到促进的作用。
发明内容
本发明的目的在于:1)能够使用特征删减的方法提升图像搜索的性能;2)能够不显著提高时间复杂度;3)能够不显著提高内存用量;4)方法不过于复杂,能与其他方法保持良好的兼容性。
本发明采用的技术方案为:一种用于图像检索的查询图像特征裁剪方法,该方法包括如下步骤:
步骤一、对查询图像提取SIFT特征并使用词袋模型量化,然后在大的待检索图像库中搜索与查询图像在余弦距离下相似的图像,并对其排名;
步骤二、统计出其中排名靠前的图像得分中各visual word的贡献次数,作为正信号;
步骤三、在无关图像库中搜索与查询图像在余弦距离下相似的图像,并对其排名;
步骤四、统计出其中排名靠前的图像得分中各visual word的贡献次数,作为负信号;
步骤五、根据正负信号的统计结果计算负信号中每个visual word的互信息值,按该值大小排序,取值较大的一些visual word;
步骤六、在查询图像中减去这些特征,并使用删减后的特征在大的待检索图像库中搜索得到最终的结果。
其中,步骤一种待检索图像库中的搜索具体如下:
对查询图像中提取Hessian-affine区域,然后在每个区域提取一个128维的SIFT特征,然后利用词袋模型中训练好的词典进行量化,得到图像的最终表达,该表达为一些visual word的ID的集合;然后使用该图像表达在待检索数据库中进行搜索,得到搜索结果,经过Spatial verification,取其排名靠前的搜索结果作为正参考信号。
其中,步骤二中统计出正参考信号中各visual word的贡献次数具体为:
步骤一中已经得到真正待检索库中排名靠前的图像,步骤二统计这些图像的得分中贡献频率较多的一些visual word,这些图像是经过spatial verification的,假设它们是正确的搜索结果,这些visual word的模式是值得保留的。
其中,步骤三中无关图像库中的搜索具体为:
在网络中随机抽取的一些自然图像库中进行搜索,该网络中所有图像与查询图像无关,取其排名靠前的搜索结果作为负参考信号。
其中,步骤四统计负参考信号中中各visual word的贡献次数具体为:
统计负参考信号中贡献频率较多的一些visual word,这些visual word的模式也可以被认为对结果是有妨害的。
其中,步骤五中计算互信息具体为:
结合正负参考信号的统计结果计算负参考信号中出现的visual word的互信息值,取其值较大的一些visual word。
其中,步骤六种使用删减后的特征完成检索具体为:
在查询图像中减去上一阶段得到的visual word,然后利用删减后的特征在真正待检索的图像库中完成检索,输出搜索结果。
本发明与现有技术相比的优点和积极效果为:
1、使用了对查询图像特征进行删减的方法,得到了更准确的搜索性能。
2、使用无关图像的搜索结果作为参考信号,能够提升性能。
3、对算法的时间复杂度和空间复杂度的提升较小。
4、算法中使用政府参考信号比单一负参考信号能获得更好的性能。
5、以互信息作为标准对特征删减,简单、速度快且效果好。
附图说明
图1为本发明一种用于图像检索的查询图像特征裁剪方法流程图。
具体实施方式
下面结合附图以及具体实施例进一步说明本发明。
本发明通过使用无关图像库中的搜索结果作为负参考信号,对查询图像的特征进行删减,然后使用删减后的特征进行最后的搜索。
1.在待检索数据库中的初始检索
本发明中使用传统的方法完成在待检索图像库中的第一次搜索操作。对查询图像提取Hessian-affine区域,然后对每个区域提取128维的SIFT特征,然后使用预先训练好的词袋模型中的词典对每一个SIFT特征进行量化,得到最后的图像表达。这里的量化使用FLANN开源库中的最近邻查找算法。搜索时也采用传统的倒排索引方法,同时也使用tf-idf权重。统计排名靠前的图像搜索结果作为正参考信号。
2.统计出正参考信号中各visual word的贡献次数
本发明中仍需统计正参考信号中各个visual word出现的次数,每个visual word对任意图像的搜索得分贡献一次,出现次数即加1。
3.在无关图像库中的检索
本发明算法中还需要在预先搜集的无关图像库中进行检索,特征提取与搜索策略与前述相同,统计排名靠前的图像搜索结果作为负参考信号。该信号中的信息被认为是无用且会对搜索结果造成妨害的。
4.统计出负参考信号中各visual word的贡献次数
以前述同样的方法统计负参考信号中各个visual word出现的次数。
5.互信息的计算
互信息的计算公式如下:
I(x:i,y)=H(y)+H(x:i)-H(x:i,y)
其中x:i为第i维的特征,这里对应每一个visual word,y为信号的标签,正信号中为1,负信号中为0,H为熵函数。
依此公式可以计算出负参考信号中各visual word的互信息值,选择其中值较大的一些visual word作为待删减特征。
6.使用删减后的特征完成检索
使用删减后的查询图像特征在待检索数据库中再次检索,此次搜索得到的结果为最终的搜索结果。
算法整体流程图如图1。
1)读取待查询图像。
2)对图像提取Hessian-affine区域,在每个区域提取SIFT特征,然后使用词袋模型量化。
3)在待检索图像库中进行搜索,此处使用倒排索引。
4)统计排名靠前的图像,作为正参考信号。
5)统计正参考信号中各visual word的贡献次数。
6)在无关图像库中进行搜索,此处使用倒排索引。
7)统计排名靠前的图像,作为负参考信号。
8)统计负参考信号中各visual word的贡献次数。
9)根据正负信号,计算负信号中各visual word的互信息。
10)统计互信息中值较大的一些visual word,将其从query特征中去除。
11)使用删减后的query特征在待检索图像库中进行搜索。
12)输出搜索结果。

Claims (7)

1.一种用于图像检索的查询图像特征裁剪方法,其特征在于:该方法包括如下步骤:
步骤一、对查询图像提取SIFT特征并使用词袋模型量化,然后在大的待检索图像库中搜索与查询图像在余弦距离下相似的图像,并对其排名;
步骤二、统计出其中排名靠前的图像得分中各visual word的贡献次数,作为正信号;
步骤三、在无关图像库中搜索与查询图像在余弦距离下相似的图像,并对其排名;
步骤四、统计出其中排名靠前的图像得分中各visual word的贡献次数,作为负信号;
步骤五、根据正负信号的统计结果计算负信号中每个visual word的互信息值,按该值大小排序,取值较大的一些visual word;
步骤六、在查询图像中减去这些特征,并使用删减后的特征在大的待检索图像库中搜索得到最终的结果。
2.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法,其特征在于:步骤一中待检索图像库中的搜索具体如下:
对查询图像中提取Hessian-affine区域,然后在每个区域提取一个128维的SIFT特征,然后利用词袋模型中训练好的词典进行量化,得到图像的最终表达,该表达为一些visualword的ID的集合;然后使用该图像表达在待检索数据库中进行搜索,得到搜索结果,经过Spatial verification,取其排名靠前的搜索结果作为正参考信号。
3.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法,其特征在于:步骤二中统计出正参考信号中各visual word的贡献次数具体为:
步骤一中已经得到真正待检索库中排名靠前的图像,步骤二统计这些图像的得分中贡献频率较多的一些visual word,这些图像是经过spatial verification的,若它们是正确的搜索结果,则保留这些visual word的模式。
4.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法,其特征在于:步骤三中无关图像库中的搜索具体为:
在网络中随机抽取的一些自然图像库中进行搜索,该网络中所有图像与查询图像无关,取其排名靠前的搜索结果作为负参考信号。
5.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法,其特征在于:步骤四统计负参考信号中各visual word的贡献次数具体为:
统计负参考信号中贡献频率较多的一些visual word,这些visual word的模式被认为对结果是有妨害的。
6.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法,其特征在于:步骤五中计算互信息具体为:
结合正负参考信号的统计结果计算负参考信号中出现的visual word的互信息值,取其值较大的一些visual word。
7.根据权利要求1所述的一种用于图像检索的查询图像特征裁剪方法,其特征在于:步骤六中使用删减后的特征完成检索具体为:
在查询图像中减去上一阶段得到的visual word,然后利用删减后的特征在真正待检索的图像库中完成检索,输出搜索结果。
CN201610034219.2A 2016-01-19 2016-01-19 一种用于图像检索的查询图像特征裁剪方法 Active CN105653723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610034219.2A CN105653723B (zh) 2016-01-19 2016-01-19 一种用于图像检索的查询图像特征裁剪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610034219.2A CN105653723B (zh) 2016-01-19 2016-01-19 一种用于图像检索的查询图像特征裁剪方法

Publications (2)

Publication Number Publication Date
CN105653723A CN105653723A (zh) 2016-06-08
CN105653723B true CN105653723B (zh) 2019-03-01

Family

ID=56486832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610034219.2A Active CN105653723B (zh) 2016-01-19 2016-01-19 一种用于图像检索的查询图像特征裁剪方法

Country Status (1)

Country Link
CN (1) CN105653723B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542014A (zh) * 2011-12-16 2012-07-04 华中科技大学 基于内容的图像检索反馈方法
CN103440262A (zh) * 2013-07-31 2013-12-11 东莞中山大学研究院 基于相关反馈和Bag-of-Features的图像检索***及方法
CN104077344A (zh) * 2013-12-31 2014-10-01 河南大学 基于自适应学习区域重要性的交互式图像检索方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9405773B2 (en) * 2010-03-29 2016-08-02 Ebay Inc. Searching for more products like a specified product

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542014A (zh) * 2011-12-16 2012-07-04 华中科技大学 基于内容的图像检索反馈方法
CN103440262A (zh) * 2013-07-31 2013-12-11 东莞中山大学研究院 基于相关反馈和Bag-of-Features的图像检索***及方法
CN104077344A (zh) * 2013-12-31 2014-10-01 河南大学 基于自适应学习区域重要性的交互式图像检索方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"图像检索中的图像表达方法研究";杜彬彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170110;第I138-516页

Also Published As

Publication number Publication date
CN105653723A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
Zheng et al. SIFT meets CNN: A decade survey of instance retrieval
US11949964B2 (en) Generating action tags for digital videos
Jing et al. Pagerank for product image search
Li et al. Object bank: An object-level image representation for high-level visual recognition
Chum et al. Total recall II: Query expansion revisited
CN104050247B (zh) 实现海量视频快速检索的方法
Wang et al. Contextual weighting for vocabulary tree based image retrieval
Clinchant et al. Semantic combination of textual and visual information in multimedia retrieval
Bruni et al. Distributional semantics from text and images
Kato et al. Image reconstruction from bag-of-visual-words
US9087297B1 (en) Accurate video concept recognition via classifier combination
CN102053991B (zh) 用于多语言文档检索的方法及***
US20110116690A1 (en) Automatically Mining Person Models of Celebrities for Visual Search Applications
CN102549603A (zh) 基于相关性的图像选择
Ueki et al. Waseda_Meisei at TRECVID 2017: Ad-hoc Video Search.
Weyand et al. Visual landmark recognition from internet photo collections: A large-scale evaluation
Le et al. NII-HITACHI-UIT at TRECVID 2016.
CN110502664A (zh) 视频标签索引库创建方法、视频标签生成方法及装置
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
CN109446399A (zh) 一种影视实体搜索方法
Kumar et al. A survey of evolution of image captioning techniques
Xian et al. Generalized few-shot video classification with video retrieval and feature generation
CN105760875A (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
Mazloom et al. Few-example video event retrieval using tag propagation
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220608

Address after: 230093 room 1701, block C, building 1, zone J, phase II, Hefei Innovation Industrial Park, No. 2800, innovation Avenue, high tech Zone, Hefei, Anhui

Patentee after: SNEGRID ELECTRIC TECHNOLOGY Co.,Ltd.

Address before: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Patentee before: University of Science and Technology of China