CN104699783A - 基于个性化视觉字典自适应调整的社交图像检索方法 - Google Patents
基于个性化视觉字典自适应调整的社交图像检索方法 Download PDFInfo
- Publication number
- CN104699783A CN104699783A CN201510111639.1A CN201510111639A CN104699783A CN 104699783 A CN104699783 A CN 104699783A CN 201510111639 A CN201510111639 A CN 201510111639A CN 104699783 A CN104699783 A CN 104699783A
- Authority
- CN
- China
- Prior art keywords
- vision
- dictionary
- image
- word
- vision word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于个性化视觉字典自适应调整的社交图像检索方法,主要解决现有的社交图像检索性能不足的缺点。其实现步骤是:1.提取通用图像集中每幅图像的局部特征SIFT,构建通用视觉字典;2.提取用户图像集中每幅图像的局部特征SIFT,并利用用户图像集的局部特征SIFT的分布情况,对通用视觉字典进行调整,生成用户的个性化视觉字典;3.利用用户的个性化视觉字典,对用户图像进行量化表示,建立用户图像集的个性化倒排索引;4.根据用户的个性化视觉字典与倒排索引,完成查询图像的检索。本发明能有效减小从图像局部特征到视觉单词的量化误差,提高了图像检索的准确率,可用于对互联网中社交图像搜索。
Description
技术领域
本发明属于多媒体信息检索领域,更进一步涉及一种社交图像检索方法,可用于对互联网中社交图像搜索。
背景技术
随着互联网的高速发展,每天都有数以亿计的社交图像被上传到各种社交网站,因此,如何对海量的社交图像进行快速高效的检索就显得尤为重要。现有技术对海量图像检索的一般步骤是:1)提取通用图像集的图像局部特征,建立通用视觉字典;2)提取目标图像集的图像局部特征,根据通用视觉字典得到目标图像的词袋表示,并创建倒排索引;3)给定一幅查询图像,提取其局部特征,得到其词袋表示,并根据倒排索引计算该图像与目标图像的相似度,最后根据相似度对目标图像进行排序,将排在最前面的图像作为检索结果返回。因此,生成较好的视觉字典、减小从图像局部特征到视觉单词的量化误差是提高图像检索准确率的关键。目前,大多数的图像检索方法都是通过考虑图像局部特征的空间结构信息来减小生成视觉字典的量化误差。
H.Jégou,M.Douze和C.Schmid在文章“Hamming embedding and weak geometricconsistency for large scale image search”(ECCV,2008)中提出通过引入汉明编码来减小查询图像与目标图像集的量化误差。该方法的不足之处是简单地使用了通用视觉字典、没有考虑目标图像集图像特征的分布特点。
X.Shen,Z.Lin,J.Brandt,S.Avidan和Y.Wu在文章“Object retrieval and localization withspatially-constrained similarity measure and k-NN reranking”(CVPR,2012)中提出在提取图像局部特征时,通过考虑图像局部特征的空间结构信息来减小查询图像与目标图像集的量化误差。该方法的不足之处也是简单地使用了通用视觉字典、没有考虑目标图像集图像特征的分布特点。
R.Arandjelovi和A.Zisserman在文章“All about VLAD”(CVPR,2013)中提出通过考虑目标图像集图像特征的分布特点,通过使用图像特征与通用视觉单词间的距离信息来减小查询图像与目标图像集图像特征的量化误差。该方法虽然考虑了目标图像集图像特征的分布特点,但是该方法并没有调整通用视觉字典或生成新的视觉字典,由于非判别性视觉单词的存在,查询图像与目标图像集的量化误差仍然较大。
发明内容
本发明的目的在于克服上述现有技术的不足,提出基于个性化视觉字典自适应调整的社交图像检索方法,以提高图像检索的效率和准确率。
实现本发明目的的技术思路是,根据用户图像集图像特征的分布特点对通用视觉字典进行调整,生成该用户图像集的个性化视觉字典;并利用该个性化视觉字典对用户图像进行量化表示,建立用户图像集的个性化倒排索引;在查询时,根据该个性化视觉字典与倒排索引,完成查询图像与用户图像间的相似度计算。
根据上述思路。本发明技术步骤包括如下:
(1)在互联网上抓取Flickr网站的N幅图像作为通用图像集,提取每幅图像的局部特征SIFT,构建通用视觉字典,N>=100万;
(2)输入用户的图像集,提取每幅图像的局部特征SIFT,并利用用户图像集的局部特征SIFT的分布情况,对通用视觉字典进行调整,生成用户的个性化视觉字典;
(3)利用用户的个性化视觉字典,对用户图像进行量化表示,建立用户图像集的个性化倒排索引;
(4)根据用户的个性化视觉字典与倒排索引,完成查询图像的检索:
(4a)根据用户的个性化视觉字典,对查询图像进行量化表示;
(4b)计算查询图像与用户图像之间的相似度,根据相似度对用户图像集进行排序,将排在最前面的图像的索引值作为检索结果返回。
本发明由于考虑了目标图像集图像特征的分布特点,对通用视觉字典进行自适应调整,生成用户的个性化视觉字典。因此,可以有效减小从图像局部特征到视觉单词的量化误差,提高了图像检索的准确率。
附图说明
图1为本发明的实现流程图。
具体实施方式
下面结合附图1,对本发明实现的步骤作进一步的详细描述。
步骤1,在互联网上抓取Flickr网站的N幅图像作为通用图像集,提取每幅图像的局部特征SIFT,构建通用视觉字典。
(1a)通过调用Flickr网站公开的应用程序编程接口抓取N幅图像作为通用图像集;
(1b)提取图像局部特征。将图像分成多个8×8的图像块,利用高斯差分法检测出每个图像块的有效点,提取有效点的SIFT特征;
(1c)利用K均值聚类方法对第二步中提取的SIFT特征集合进行聚类,得到的每一个聚类中心即为视觉字典中的一个视觉单词,所有的视觉单词共同构建通用视觉字典。
步骤2,输入用户的图像集,提取图像局部特征,对通用视觉字典进行调整,生成该用户的个性化视觉字典。
(2a)提取用户图像集的SIFT特征;
(2b)利用欧式距离度量法,量化SIFT特征与通用视觉字典中每个视觉单词的误差,采用硬划分的准则选取SIFT特征与视觉单词之间误差最小的视觉单词作为SIFT特征对应的视觉单词;
(2c)统计每个视觉单词覆盖的SIFT特征的数目,选取覆盖数目大于60%的视觉单词作为非判别性视觉单词候选集;
(2d)按照下式,计算非判别性视觉单词候选集中每个视觉单词在特征空间中占据的空间体积:
其中,ci表示视觉单词,K表示与视觉单词ci最近邻的视觉单词的数目,dij表示视觉单词之间的距离,si表示视觉单词在特征空间中占据的空间体积;
(2e)按照下式,计算非判别性视觉单词候选集中每个视觉单词的方差:
其中,ci表示视觉单词,T表示被分配到视觉单词ci的SIFT特征数目,xt表示SIFT特征,vi表示视觉单词的方差;
(2f)针对实验数据设定阈值F,将非判别性视觉单词候选集中视觉单词在特征空间中占据的空间体积或者视觉单词的方差大于给定阈值F的视觉单词判定为非判别性视觉单词;
(2g)将用户图像集中被分配到非判别性视觉单词中的SIFT特征组成特征集合,重新利用K均值聚类方法,得到新的视觉单词;
(2h)用新得到的视觉单词替换通用视觉字典中非判别性视觉单词,构建出用户图像集的个性化视觉字典。
步骤3,利用用户的个性化视觉字典,对用户图像进行量化表示,建立用户图像集的个性化倒排索引。
(3a)利用用户的个性化视觉字典,采用硬化分的准则,选取距离最近的视觉单词作为用户图像的特征,得到用户图像在个性化视觉字典上的特征分布词袋;
(3b)用步骤(3a)中得到的用户图像集的特征分布词袋建立个性化倒排索引。
步骤4,根据个性化视觉字典与倒排索引,完成查询图像的检索。
(4a)根据用户的个性化视觉字典,对查询图像进行量化表示;
(4b)计算查询图像与用户图像之间的相似度,根据相似度对用户图像集进行排序,将排在最前面的图像的索引值作为检索结果返回。
本发明的效果可以通过以下仿真实验做进一步的说明:
1.仿真条件
本发明是在中央处理器为Intel(R)Core i3-5302.93GHZ、内存4G、WINDOWS 7操作***上,运用MATLAB软件进行的仿真。通用图像集由从Flickr上下载的100万张图像构成,测试图像采用UKbench数据库,UKbench数据库包含2550个物体四个不同观测角度的图像。
2.仿真内容
本发明在通用图像集,UKbench数据库上进行图片检索仿真实验。
对于UKbench数据库,本发明以四个不同观测角度图像的召回率为指标对图片检索性能进行评测,仿真对比了三种不同视觉字典构建方法下不同字典尺寸图像检索的召回率,对比的多种视觉字典包括通用视觉字典、目标图像集的视觉字典以及本发明提出的个性化视觉字典。对比实验结果如表1所示。
表1.不同视觉字典构建方法下不同字典尺寸图像检索的召回率
由表1可见,在UKbench数据库上进行图片检索实验,本发明的召回率是三种不同视觉字典构建方法中是最高的。这是因为本发明利用了通用视觉字典信息,在通用视觉字典的基础上构建个性化视觉字典,由此获得高于其他两种方法的召回率,进一步验证了本发明的先进性。
Claims (4)
1.一种基于个性化视觉字典自适应调整的社交图像检索方法,其特征在于,包括以下步骤:
(1)在互联网上抓取Flickr网站的N幅图像作为通用图像集,提取每幅图像的局部特征SIFT,构建通用视觉字典,N>=100万;
(2)输入用户的图像集,提取每幅图像的局部特征SIFT,并利用用户图像集的局部特征SIFT的分布情况,对通用视觉字典进行调整,生成用户的个性化视觉字典;
(3)利用用户的个性化视觉字典,对用户图像进行量化表示,建立用户图像集的个性化倒排索引;
(4)根据用户的个性化视觉字典与倒排索引,完成查询图像的检索:
(4a)根据用户的个性化视觉字典,对查询图像进行量化表示;
(4b)计算查询图像与用户图像之间的相似度,根据相似度对用户图像集进行排序,将排在最前面的图像的索引值作为检索结果返回。
2.根据权利要求1所述的基于个性化视觉字典重建的社交图像检索方法,其特征在于,步骤(1)所述的在互联网上抓取Flickr网站的N幅图像作为通用图像集,是通过调用Flickr网站公开的应用程序编程接口完成。
3.根据权利要求1所述的基于个性化视觉字典自适应调整的社交图像检索方法,其特征在于,步骤(2)所述对通用视觉字典进行调整,生成用户的个性化视觉字典,按如下步骤进行:
(2a)提取用户图像集的SIFT特征;
(2b)利用欧式距离度量法,量化SIFT特征与通用视觉字典中每个视觉单词的误差,采用硬划分的准则选取SIFT特征与视觉单词之间误差最小的视觉单词作为SIFT特征对应的视觉单词;
(2c)统计每个视觉单词覆盖的SIFT特征的数目,选取覆盖数目大于60%的视觉单词作为非判别性视觉单词候选集;
(2d)按照下式,计算非判别性视觉单词候选集中每个视觉单词在特征空间中占据的空间体积:
其中,ci表示视觉单词,K表示与视觉单词ci最近邻的视觉单词的数目,dij表示视觉单词之间的距离,si表示视觉单词在特征空间中占据的空间体积;
(2e)按照下式,计算非判别性视觉单词候选集中每个视觉单词的方差:
其中,ci表示视觉单词,T表示被分配到视觉单词ci的SIFT特征数目,xt表示SIFT特征,vi表示视觉单词的方差;
(2f)针对实验数据设定阈值F,将非判别性视觉单词候选集中视觉单词在特征空间中占据的空间体积或者视觉单词的方差大于给定阈值F的视觉单词判定为非判别性视觉单词;
(2g)将用户图像集中被分配到非判别性视觉单词中的SIFT特征组成特征集合,重新利用K均值聚类方法,得到新的视觉单词;
(2h)用新得到的视觉单词替换通用视觉字典中非判别性视觉单词,构建用户图像集的个性化视觉字典。
4.根据权利要求1所述的基于个性化视觉字典自适应调整的社交图像检索方法,其特征在于,步骤(3)所述的对用户图像进行量化表示,是利用个性化视觉字典,采用硬化分的准则,得到用户图像在个性化视觉字典上的特征分布词袋。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510111639.1A CN104699783A (zh) | 2015-03-13 | 2015-03-13 | 基于个性化视觉字典自适应调整的社交图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510111639.1A CN104699783A (zh) | 2015-03-13 | 2015-03-13 | 基于个性化视觉字典自适应调整的社交图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104699783A true CN104699783A (zh) | 2015-06-10 |
Family
ID=53346903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510111639.1A Pending CN104699783A (zh) | 2015-03-13 | 2015-03-13 | 基于个性化视觉字典自适应调整的社交图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104699783A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426533A (zh) * | 2015-12-17 | 2016-03-23 | 电子科技大学 | 一种融合空间约束信息的图像检索方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN109074399A (zh) * | 2016-05-02 | 2018-12-21 | 微软技术许可有限责任公司 | 计算机网络中的个性化内容建议 |
CN111177071A (zh) * | 2019-12-12 | 2020-05-19 | 广州地理研究所 | Flickr平台的图片下载方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012934A (zh) * | 2010-11-30 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 图片搜索方法及搜索*** |
CN102368237A (zh) * | 2010-10-18 | 2012-03-07 | 中国科学技术大学 | 图像检索方法、装置及*** |
CN103927387A (zh) * | 2014-04-30 | 2014-07-16 | 成都理想境界科技有限公司 | 图像检索***及其相关方法和装置 |
-
2015
- 2015-03-13 CN CN201510111639.1A patent/CN104699783A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368237A (zh) * | 2010-10-18 | 2012-03-07 | 中国科学技术大学 | 图像检索方法、装置及*** |
CN102012934A (zh) * | 2010-11-30 | 2011-04-13 | 百度在线网络技术(北京)有限公司 | 图片搜索方法及搜索*** |
CN103927387A (zh) * | 2014-04-30 | 2014-07-16 | 成都理想境界科技有限公司 | 图像检索***及其相关方法和装置 |
Non-Patent Citations (1)
Title |
---|
Z NIU等: "Personalized Visual Vocabulary Adaption for Social Image Retrieval", 《MM "14: PROCEEDINGS OF THE 22ND ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426533A (zh) * | 2015-12-17 | 2016-03-23 | 电子科技大学 | 一种融合空间约束信息的图像检索方法 |
CN105426533B (zh) * | 2015-12-17 | 2019-07-19 | 电子科技大学 | 一种融合空间约束信息的图像检索方法 |
CN109074399A (zh) * | 2016-05-02 | 2018-12-21 | 微软技术许可有限责任公司 | 计算机网络中的个性化内容建议 |
CN109074399B (zh) * | 2016-05-02 | 2022-01-11 | 微软技术许可有限责任公司 | 计算机网络中的个性化内容建议 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN107688821B (zh) * | 2017-07-11 | 2021-08-06 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN111177071A (zh) * | 2019-12-12 | 2020-05-19 | 广州地理研究所 | Flickr平台的图片下载方法及装置 |
CN111177071B (zh) * | 2019-12-12 | 2023-07-07 | 广州地理研究所 | Flickr平台的图片下载方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102254015B (zh) | 基于视觉词组的图像检索方法 | |
CN104794219A (zh) | 一种基于地理位置信息的场景检索方法 | |
CN104820718A (zh) | 基于地理位置特征与全局视觉特征的图像分类和检索方法 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN109522434B (zh) | 基于深度学习图像检索的社交图像地理定位方法及*** | |
CN110738647B (zh) | 融合多感受野特征映射与高斯概率模型的老鼠检测方法 | |
CN102208033B (zh) | 基于数据聚类的鲁棒sift特征匹配方法 | |
CN104199842A (zh) | 一种基于局部特征邻域信息的相似图片检索方法 | |
CN104036012A (zh) | 字典学习、视觉词袋特征提取方法及检索*** | |
CN102890700A (zh) | 一种基于体育比赛视频的相似视频片段检索方法 | |
CN103955543A (zh) | 基于多模态的服装图像检索方法 | |
CN103473307A (zh) | 跨媒体稀疏哈希索引方法 | |
CN105678244B (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
CN104699783A (zh) | 基于个性化视觉字典自适应调整的社交图像检索方法 | |
CN104317838A (zh) | 一种基于耦合鉴别性字典的跨媒体哈希索引方法 | |
CN105631037A (zh) | 一种图像检索方法 | |
CN114511452B (zh) | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 | |
CN103995864B (zh) | 一种图像检索方法和装置 | |
Lin et al. | Robust fisher codes for large scale image retrieval | |
CN105183746A (zh) | 从多相关图片中挖掘显著特征实现图像检索的方法 | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
CN104765764A (zh) | 一种基于大规模图像检索方法 | |
CN113327227B (zh) | 一种基于MobilenetV3的小麦头快速检测方法 | |
CN103577409A (zh) | 一种图像搜索中建立图像索引的方法和装置 | |
CN111221819B (zh) | 一种基于多维数据空间分割的相似台风快速匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150610 |
|
WD01 | Invention patent application deemed withdrawn after publication |