CN112163114A - 一种基于特征融合的图像检索方法 - Google Patents
一种基于特征融合的图像检索方法 Download PDFInfo
- Publication number
- CN112163114A CN112163114A CN202010947296.3A CN202010947296A CN112163114A CN 112163114 A CN112163114 A CN 112163114A CN 202010947296 A CN202010947296 A CN 202010947296A CN 112163114 A CN112163114 A CN 112163114A
- Authority
- CN
- China
- Prior art keywords
- image
- descriptor
- floating point
- features
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000004931 aggregating effect Effects 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000010276 construction Methods 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000010606 normalization Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011480 coordinate descent method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征融合的图像检索方法,属于图像检索领域,包括:训练特征提取网络;提取训练图像集中各图像的多层语义浮点描述符,并进行哈希学习生成旋转矩阵R;提取图像库中各图像的多层语义浮点描述符,利用R进行旋转之后进行二值化;利用分类网络对图像库中各图像进行分类;对应存储各图像的二值描述符和类概率向量;提取多层语义浮点描述符包括:提取图像的高层语义特征和底层图像特征,并进行融合;高层语义特征包括全局描述符,其提取方式为:将图像缩放至多个不同尺度,利用特征提取网络提取特征并融合;底层图像特征包括SIFT描述符,其提取方式为:提取图像的多个SIFT特征并聚合为VALD。本发明能够构建区分力强且占空间小的描述符。
Description
技术领域
本发明属于图像检索领域,更具体地,涉及一种基于特征融合的图像检索方法。
背景技术
基于内容的图像检索方法提取图像的视觉特征来描述图像,可以比文本更加准确全面的描述图像。尺度不变特征变换(Scale Invariant Feature Transform,SIFT)在1999年由David提出,以用于计算机视觉领域的图像匹配问题。SIFT不仅对尺度、平移、旋转具有较强的不变性,还对光照变化、遮挡及噪声具有很好的鲁棒性。RootSIFT是SIFT的改进版,RootSIFT在SIFT的基础上进行1-范数标准化和平方根变换,从而提高了SIFT的描述力。局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)用于将特征集编码为一个定长的向量,VLAD对k-means算法生成的每一个聚类求残差,将每一个聚类中的残差分别相加,再将各“残差和”向量串连起来。IntraVLAD使用“内部归一化”方法,来消除视觉爆发现象。内部归一化分别对各个视觉单词对应的“残差和”子向量进行2-范数归一化处理。
卷积神经网络(Convolutional Neural Net,CNN)的研究源于Hubel和Wiesel对猫的视觉神经***的研究,Hubel和Wiesel发现,视觉皮层的神经网络具有一种层次结构,“复杂细胞”在接受“简单细胞”的输出后,会选择性地对更加复杂的视觉模式产生响应,并且具有更大的“感受野”,对视觉模式的平移更加不敏感。基于CNN的方法是一种数据驱动的方法,首先利用图像数据来训练神经网络,然后通过训练后的神经网络来提取特征。网络参数是可以在训练过程中调节的,机器自动学习如何提取特征。而与此相对的,SIFT的提取过程是利用复杂的专业知识设计的,其参数一般是固定的。由于全连接层特征在描述图像上的较高准确性,一些研究者利用全连接层来提取图像的特征。然而,经过合适的处理,卷积层特征形成的图像表示可以在图像检索任务上获得较高的准确率。
CNN一般是在分类任务上训练的,为了适应分类任务,位于CNN后面的全连接层包含了较多的高层语义,而位于前面的卷积层则包含了较多的低层局部信息。因此,在仅使用全连接层特征的情况下,生成的图像表示缺乏局部信息。为了弥补底层图像特征与高层语义特征间的鸿沟以及提高检索的准确率,如何构建区分力强且占空间小的描述符具有重要意义。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于特征融合的图像检索方法,其目的在于,提高增强图像描述符的区分力,同时节省存储开销。
为实现上述目的,按照本发明的一个方面,提供了一种基于特征融合的图像检索方法,包括:
模型训练步骤:建立用于提取图像特征的卷积神经网络,并利用训练图像集对其进行训练,得到特征提取网络;
多层语义浮点描述符构建步骤:提取图像的至少一种高层语义特征和至少一种底层图像特征,并将所提取的高层语义特征和底层图像特征进行融合,得到图像的多层语义浮点描述符;高层语义特征包括全局描述符,全局描述符的提取方式为:将图像缩放至多个不同尺度,利用特征提取网络分别提取缩放后各尺度图像的特征,并融合为图像的全局描述符;底层图像特征包括SIFT描述符,SIFT描述符的提取方式为:提取图像的多个SIFT特征,并聚合为局部聚合描述符向量,作为图像的SIFT描述符;
哈希学习步骤:根据多层语义浮点描述符构建步骤提取训练图像集中每一幅图像的多层语义浮点描述符,得到浮点描述符集合F,并利用浮点描述符集合F进行哈希学习生成旋转矩阵R;
描述符库构建步骤:根据多层语义浮点描述符构建步骤提取图像库中每一幅图像的多层语义浮点描述符,并利用旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到图像的二值描述符;利用已训练好的分类网络对图像库中的每一幅图像进行分类,得到各图像的类概率向量;对应存储各图像的二值描述符和类概率向量,以构建用于图像检索的描述符库。
本发明同时融合高层语义特征和底层图像特征,得到图像的多层语义浮点描述符,能够有效得弥补底层图像特征和高层语义特征间鸿沟,提高图像描述符的区分力;同时,本发明对图像描述图进行二值化压缩,能够有效节省存储开销。总的来说,本发明能够有效提高图像描述符的区分力,并降低图像描述符的存储开销。
本发明在构建图像描述符时,所提取的高层语义特征包括全局描述符,该全局描述符描述了图像的全局特征,同时,本发明在提取图像的全局描述符时,会对图像进行多尺度缩放,因此所提取的全局描述符可以捕获图像多个尺度的模式或对象信息,并且具有一定的尺度不变性,对几何变换更加的鲁棒。
本发明在构建图像描述符时,所提取的底层图像特征包括SIFT描述符,SIFT描述符描述了图像的小区域特征,包括图像的纹理、边缘等信息,由于SIFT特征对尺度、平移、旋转具有较强的不变性,还对光照变化、遮挡及噪声具有很好的鲁棒性,本发明能够利用SIFT特征与CNN特征的互补性,使得融合得到的多层语义浮点描述符具有更强的区分力,并增强描述符的几何不变性。
进一步地,高层语义特征还包括对象描述符,对象描述符的提取方式为:将图像缩放至多个不同的尺度,并分别对各尺度的图像进行对象检测,得到多个可能包含对象的图像分片,利用特征提取网络提取各图像分片的特征,并聚合为局部聚合描述符向量,作为图像的对象描述符。
本发明在构建图像描述符时,还会融合对象描述符,对象描述符描述了图像中的对象信息,因此,本发明所构建的多层语义浮点描述符能够很好地捕获图像对象信息,具有更强的区分力;本发明在提取对象描述符时,同样会对图像进行多尺度缩放操作,能够进一步增强几何不变性。
进一步地,在将提取的图像分片的特征聚合为聚合描述符向量时,使用软分配。
本发明在将提取的图像分片的特征聚合为聚合描述符向量时,使用软分配,能够解决码字二义性(visual word ambiguity)问题,提高对象描述符的准确性。
进一步地,高层语义特征还包括显著性区域描述符,显著性区域描述符的提取方式为:对图像进行显著性区域检测,生成图像的显著性图,将显著性图缩放至预设尺寸后与图像进行点乘,得到显著性区域,利用特征提取网络提取显著性区域的特征,作为图像的显著性区域描述符。
对象检测得到的图像分片是方形的,这些图像分片可能仅包含对象的一部分,还有可能来自杂乱的背景,不包含前景对象;本发明在提取了图像的对象描述符的基础上,进一步提取并融合了图像的显著性区域描述符,显著性区域描述符描述了显著性区域信息,进一步增强了所构建的多层语义浮点描述符的信息含量和区分力。
进一步地,哈希学习步骤中,利用浮点描述符集合F进行哈希学习生成旋转矩阵R,包括:
(S1)将浮点描述符集合F表示为矩阵形式,并对该矩阵进行正交旋转,得到矩阵X,基于矩阵X设置哈希学习的目标函数如下:
其中,f表示目标函数;B表示学到的哈希编码,R表示旋转矩阵,I表示单位矩阵;bi表示B的第i列,对应训练图像集中第i幅图像的哈希码,|bi|表示哈希码bi中1的个数;k表示稠密度;||.||1表示L1-范数,||.||2表示L2-范数;为预设的系数;
(S2)初始化旋转矩阵R和哈希编码B;
(S4)固定哈希编码B,令矩阵变量C=BRT,对矩阵变量C进行奇异值分解,分解结果为USVT=SVD(C),按照R=UVT对旋转矩阵R进行更新;
其中,SVD()表示奇异值分解,U和V表示奇异值分解得到的酉矩阵,S表示奇异值分解得到的半正定的对角矩阵;
(S5)固定旋转矩阵R,按照B=sign(RX)对编码矩阵B进行更新;其中,sign(.)表示符号函数;
(S6)迭代执行步骤(S3)~(S5),直至达到预设的最大迭代次数。
本发明在哈希学习的过程中,所设置的目标函数中,第一项||RX-B||2为量化损失,第二项为稀疏约束,稠密度k的取值越小,二值表示越稀疏;本发明在哈希学习的过程中,通过正交旋转去除描述符各位之间的相关性,能够通过稀疏化来去除描述符的冗余信息,使得在通过二值化对图像描述符进行压缩的同时,保证量化误差不增加,最大程度上保持描述符的区分力。
进一步地,描述符库构建步骤中,将旋转后的多层语义浮点描述符进行二值化,通过符号函数完成。
进一步地,本发明提供的基于特征融合的图像检索方法,还包括:
检索步骤:对于待检索的目标图像,根据多层语义浮点描述符构建步骤提取其多层语义浮点描述符,并利用旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到目标图像的二值描述符;利用分类网络对目标图像进行分类,得到目标图像的类概率向量;分别计算目标图像与描述符库中各图像的二值描述符距离和类概率向量距离,以基于所计算的距离度量目标图像与描述符库中各图像之间的不相似性;按照不相似性从小到大的顺序对描述符库中的图像进行排序,将排序在前top-K的图像作为检索结果;
其中,top-K为预设的正整数或比例。
本发明基于目标图像与描述符库中图像之间的二值描述符距离和类概率向量距离来衡量目标图像与描述符库中图像之间的不相似性,并根据不相似性完成图像检索,由于二值描述符距离中携带了哈希视觉信息,类概率向量距离描述了图像的类语义信息,因此,本发明所计算的不相似性同时融合了哈希视觉信息和类语义信息,可以有效提高图像检索的准确率。
进一步地,不相似性为:
D(I1,I2)=(1-Wi,j)*Dp(p1,p2)+Dh(H1,H2);
其中,I1表示目标图像,I2表示描述符库中的图像,D(I1,I2)表示目标图像和图像之间的不相似性;p1和p2分别表示目标图像I1和图像I2的类概率向量,Dp(p1,p2)表示目标图像I1和图像I2的类概率向量距离;H1和H2分别表示目标图像I1和图像I2的二值描述符,Dh(H1,H2)表示目标图像I1和图像I2的二值描述符距离;Wi,j为权重,用于表示目标图像I1和图像I2属于同一个类的概率。
进一步地,权重Wi,j的计算式为:Wi,j=<p1,p2>*max(p2);
其中,<p1,p2>表示类概率向量p1和p2间的内积;max(p2)表示类概率向量p2各维中最大的值,作为图像I1的类概率。
按照本发明的另一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的计算机程序,其中,在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行本发明提供的基于特征融合的图像检索方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明同时提取图像的高层语义特征和底层图像特征,融合为图像的多层语义浮点描述符,能够有效弥补底层图像特征和高层语义特征间的鸿沟,提高图像描述符的区分力;通过对多层语义浮点描述符进行二值化压缩处理,能够有效降低图像描述符的存储开销。总的来说,本发明构建了一种区分力强且存储开销小的图像描述符。
(2)本发明所构建的多层语义浮点描述符中,融合了图像的全局描述符和SIFT描述符,能够利用SIFT特征与CNN特征的互补性,使得融合得到的多层语义浮点描述符具有更强的区分力,并增强描述符的几何不变性。
(3)在本发明的优选方案中,所构建的多层语义浮点描述符中还融合了对象描述符,由此能够很好地捕获图像对象信息,具有更强的区分力。
(4)在本发明的优选方案中,所构建的多层语义浮点描述符中还融合了显著性区域描述符,能够进一步增强所构建的多层语义浮点描述符的信息含量和区分力。
(5)本发明在提取各层次的描述符时,都会对图像进行多尺度操作,能够有效提高尺度不变性,对几何变换更加的鲁棒。
(6)本发明在进行图像检索时,会基于目标图像与描述符库中图像之间的二值描述符距离和类概率向量距离来衡量目标图像与描述符库中图像之间的不相似性,并根据不相似性完成图像检索,由于二值描述符距离中携带了哈希视觉信息,类概率向量距离描述了图像的类语义信息,因此,本发明所计算的不相似性同时融合了哈希视觉信息和类语义信息,可以有效提高图像检索的准确率。
附图说明
图1为本发明实施例提供的基于特征融合的图像检索方法示意图;
图2为本发明实施例提供的多层语义浮点描述符的构建方法示意图;
图3为本发明实施例提供的特征提取网络架构图;
图4为本发明实施例提供的不相似性度量示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了在图像检索任务中,构建区分力强且占空间小的描述符,以弥补底层图像特征与高层语义特征间的鸿沟,提高检索的准确率,本发明提供了一种基于特征融合的图像检索方法,其整体思路在于:同时利用全局和局部信息,结合深度特征及浅层特征,使描述符可以同时捕获全局和局部、高层和低层的信息,通过融合多个特征层次及多尺度信息,增强描述符的区分力和尺度不变性,通过对描述符进行二值化压缩,节省存储开销。
以下为实施例。
实施例1:
一种基于特征融合的图像检索方法,如图1所示,包括:
模型训练步骤:建立用于提取图像特征的卷积神经网络,并利用训练图像集对其进行训练,得到特征提取网络;
多层语义浮点描述符构建步骤:提取图像的至少一种高层语义特征和至少一种底层图像特征,并将所提取的高层语义特征和底层图像特征进行融合,得到图像的多层语义浮点描述符;图1和图2所示,本实施例中,高层语义特征包括全局描述符(Global)、对象描述符(Object)和显著性区域描述符(Salient),底层图像特征包括SIFT描述符,其中,全局描述符描述了图像的全局特征,对象描述符描述了图像中的对象信息,显著性区域描述符描述了图像显著性区域信息,SIFT描述符描述了图像的小区域特征,包括图像的纹理、边缘等信息;
哈希学习步骤:根据多层语义浮点描述符构建步骤提取训练图像集中每一幅图像的多层语义浮点描述符,得到浮点描述符集合F,并利用浮点描述符集合F进行哈希学习生成旋转矩阵R;
描述符库构建步骤:根据多层语义浮点描述符构建步骤提取图像库中每一幅图像的多层语义浮点描述符,并利用旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到图像的二值描述符;利用已训练好的分类网络对图像库中的每一幅图像进行特征分类,得到各图像的类概率向量;对应存储各图像的二值描述符和类概率向量,以构建用于图像检索的描述符库;
本实施例中,在模型训练步骤中,所选取的卷积神经网络(CNN)可根据实际的精度要求选取,作为一种可选的实施方式,在本实施例中,所选取的卷积神经网络为VGG-16,其架构如图3所示;特征提取网络利用了CNN多个层的信息来生成输入图像的特征,在图3中,“GMP”表示Global Max-pooling层,“concat”表示“串连”;在训练时,特征提取网络首先会用在ImageNet数据集上训练的网络进行初始化,然后在目标数据集上进行微调,将特征提取网络作为一个softmax分类器进行训练;应当说明的是,此处仅为本发明一种可选的实施方式,不应理解为对本发明的唯一限定,在本发明其他的一些实施例中,也可以使用ResNet等其他的卷积神经网络;
本实施例中,所选用的训练图像集中,每一个样本由图像及其对应的类标签构成,具体可使用图像检索领域常用的Oxford5K,Paris6K,Holidays,UKB,Landmarks等数据集。
本实施例中,所述多层语义浮点描述符构建步骤具体如图2所示,以I表示输入图像各描述符的具体提取方式如下:
全局描述符的提取方式为:
将图像缩放至多个不同尺度,可选地,本实施例中,具体将图像缩放至三个尺度{0.75,1.0,1.25};
利用特征提取网络分别提取缩放后各尺度图像的特征,并融合为图像的全局描述符;作为一种可选的实施方式,本实施例中,具体通过平均池化(Average Pooling)的方式将不同尺度的图像特征融合为图像的全局描述符;
本实施例提取图像的全局描述符的过程,可通过如下公式(1)~(3)进行描述:
Ii=resizei(I) (1)
gi=FEN(Ii) (2)
在公式(1)~(3)中,resizei表示将输入图像I缩放至第i个尺度下,Ii表示缩放后的第i个尺度的图像;FEN表示特征提取网络,gi表示利用特征提取网络提取的第i个尺度的图像的特征;Fg表示通过平均池化对各尺度图像的特征进行融合后得到的全局描述符;
本实施例在提取图像的全局描述符时,会对图像进行多尺度缩放,因此所提取的全局描述符可以捕获图像多个尺度的模式或对象信息,并且具有一定的尺度不变性,对几何变换更加的鲁棒;
对象描述符的提取方式为:
将图像缩放至多个不同的尺度,由此能够充分捕获到各个尺度的对象信息;可选地,本实施例中,将图像缩放至三个尺度{1.25,1.0,0.75},保持长宽比不变;
分别对各尺度的图像进行对象检测,得到多个可能包含对象的图像分片;
利用特征提取网络提取各图像分片的特征,并聚合为局部聚合描述符向量,作为图像的对象描述符;作为一种可选的实施方式,本实施例中,在将图像分片的特征聚合为局部聚合描述符向量(VLAD)时,使用的是IntraVLAD;同时,为了提高描述符的准确性,在本实施例中,在使用IntraVLAD生成VLAD时,还使用了软分配,具体地,在生成VLAD时,每个特征分配到10个码字,码书的大小为200;
本实施例提取图像的对象描述符的过程,可通过如下公式(4)~(6)进行描述:
fi=FEN(pi) (5)
Fo(I)=VLAD_Pooling({fi}) (6)
在公式(4)~(6)中,resizes表示将输入图像I缩放至第s个尺度下,Dt表示对象检测器,U表示并集符号,pi表示第i个可能包含对象的图像分片,fi表示利用特征提取网络提取的第i个图像分片的特征;VLAD_Pooling表示实现了软分配的IntraVLAD,Fo表示图像的对象描述符;
本实施例中,通过在多层语义浮点描述符中融合对象描述符,能够很好地捕获图像对象信息,具有更强的区分力;通过对图像进行多尺度缩放操作,能够进一步增强几何不变性;在将提取的图像分片的特征聚合为聚合描述符向量时,使用软分配,能够解决码字二义性(visual word ambiguity)问题,提高对象描述符的准确性;
显著性区域描述符的提取方式为:
对图像进行显著性区域检测,生成图像的显著性图,将显著性图缩放至预设尺寸后与图像进行点乘,得到显著性区域,利用特征提取网络提取显著性区域的特征,作为图像的显著性区域描述符;
本实施例提取图像的显著性区域描述符的过程,可通过如下公式(7)~(9)进行描述:
M=resize(S(I)) (7)
Fs=FEN(R) (9)
在公式(7)~(9)中,S表示显著性区域检测器,resize表示对显著性区域检测结果进行缩放,可选地,在本实施例中,最终缩放为500*500,M表示缩放后的显著性图;表示点乘,R表示显著性区域;Fs表示利用特征提取网络对显著性区域R进行特征提取后,得到的显著性区域描述符;在本实施例中,显著性区域检测的具体方式,可参考文献“Deeplysupervised salient object detection with short connections”中的方法,在此将不作复述;
对象检测得到的图像分片是方形的,这些图像分片可能仅包含对象的一部分,还有可能来自杂乱的背景,不包含前景对象;本实施例在提取了图像的对象描述符的基础上,进一步提取并融合了图像的显著性区域描述符,显著性区域描述符描述了显著性区域信息,进一步增强了所构建的多层语义浮点描述符的信息含量和区分力;
SIFT描述符的提取方式为:
提取图像的多个SIFT特征,并聚合为局部聚合描述符向量,作为图像的SIFT描述符;作为一种可选的实施方式,本实施例中,具体通过IntraVLAD将多个SIFT特征聚合为局部聚合描述符向量(VLAD);
本实施例中,SIFT描述符的提取方式,可通过如下公式(10)~(11)进行描述:
{sfi}=SIFT(I) (10)
Fsf=IntraVLAD({sfi}) (11)
在公式(10)~(11)中,SIFT表示提取输入图像I的SIFT特征,可选的,本实施例中,提取图像的SIFT特征,具体使用的是HessianAffine-rootSIFT;sfi表示第i个SIFT特征,Fsf表示通过IntraVLAD聚合多个SIFT特征后得到的SIFT描述符;
本实施例将SIFT特征与利用卷积神经网络提取的高层语义特征融合为图像的多层语义浮点描述符,能够利用SIFT特征与CNN特征的互补性,使得融合得到的多层语义浮点描述符具有更强的区分力,并增强描述符的几何不变性。
在本实施例中,提取到图像的高层语义特征和底层图像特征后,融合为多层语义浮点描述符的具体方式,可通过如下公式(12)~(16)所示:
FMSBD=[F1 T,F2 T,F3 T,F4 T]T (16)
在公式(12)~(16)中,分别表示L2-归一化之后的全局描述符、对象描述符、显著性区域描述符以及SIFT描述符;P1,P2,P3,P4分别表示各个层的PCA(主成分分析)变换矩阵;Normalize表示进行L2-范数归一化,F1,F2,F3,F4分别表示L2-范数归一化之后的结果;FMSBD表示融合之后的多层语义浮点描述符,由F1,F2,F3,F4串联而成。
总体而言,本实施例同时融合高层语义特征和底层图像特征,得到图像的多层语义浮点描述符,能够有效得弥补底层图像特征和高层语义特征间鸿沟,提高图像描述符的区分力;同时,本发明对图像描述图进行二值化压缩,能够有效节省存储开销。
为了在通过二值化对图像描述符进行压缩的同时,最大程度上保持描述符的区分力,本实施例的哈希学习步骤中,利用浮点描述符集合F进行哈希学习生成旋转矩阵R,包括:
(S1)将浮点描述符集合F表示为矩阵形式,并对该矩阵进行正交旋转,得到矩阵X,基于矩阵X设置哈希学习的目标函数如下:
其中,f表示目标函数;B表示学到的哈希编码,R表示旋转矩阵,I表示单位矩阵;bi表示B的第i列,对应训练图像集中第i幅图像的哈希码,|bi|表示哈希码bi中1的个数;k表示稠密度;||.||1表示L1-范数,||.||2表示L2-范数;为预设的系数,可选地,在本实施例中,系数
(S2)初始化旋转矩阵R和哈希编码B;作为一种可选的实施方式,在本实施例中,利用PCA旋转矩阵初始化旋转矩阵R,用ITQ哈希编码初始化哈希编码B,ITQ的具体方法可参考文献“Iterative quantization:A procrustean approach to learning binary codesfor large-scale image retrieval”,在此将不作复述,本实施例中,ITQ的迭代次数设为50;
(S4)固定哈希编码B,令矩阵变量C=BRT,对矩阵变量C进行奇异值分解,分解结果为USVT=SVD(C),按照R=UVT对旋转矩阵R进行更新;
其中,SVD()表示奇异值分解,U和V表示奇异值分解得到的酉矩阵,S表示奇异值分解得到的半正定的对角矩阵;
(S5)固定旋转矩阵R,按照B=sign(RX)对哈希编码B进行更新;其中,sign(.)表示符号函数;
(S6)迭代执行步骤(S3)~(S5),即使用坐标下降法交替更新旋转矩阵R和哈希编码B,直至达到预设的最大迭代次数。
本实施例在哈希学习的过程中,所设置的目标函数中,第一项||RX-B||2为量化损失,第二项为稀疏约束,稠密度k的取值越小,二值表示越稀疏;本实施例在哈希学习的过程中,通过正交旋转去除描述符各位之间的相关性,能够通过稀疏化来去除描述符的冗余信息,使得在通过二值化对图像描述符进行压缩的同时,保证量化误差不增加,最大程度上保持描述符的区分力。
作为一种可选的实施方式,本实施例的描述符库构建步骤中,将旋转后的多层语义浮点描述符进行二值化,通过符号函数完成。
作为一种可选的实施方式,本实施例的描述符库构建步骤中,所选用的分类网络为ResNet网络,该网络在数据集ImageNet上训练好了之后,在目标数据集上进行了微调;应当说明的是,此处关于分类网络的选择,仅为本发明的一种优选的实施方式,不应理解为对本发明的唯一限定,在本发明其他的一些实施例中,也可以选用AlexNet等其他的分类网络;
基于所构建的描述符库,如图1所示,本实施例还包括:
检索步骤:对于待检索的目标图像,根据多层语义浮点描述符构建步骤提取其多层语义浮点描述符,并利用旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到目标图像的二值描述符;利用ResNet网络对目标图像进行分类,得到目标图像的类概率向量;分别计算目标图像与描述符库中各图像的二值描述符距离和类概率向量距离,以基于所计算的距离度量目标图像与描述符库中各图像之间的不相似性;按照不相似性从小到大的顺序对描述符库中的图像进行排序,将排序在前top-K的图像作为检索结果;
本实施例中,不相似性的计算方式如图4所示,具体地,不相似性为:
D(I1,I2)=(1-Wi,j)*Dp(p1,p2)+Dh(H1,H2);
其中,I1表示目标图像,I2表示描述符库中的图像,D(I1,I2)表示目标图像和图像之间的不相似性;p1和p2分别表示目标图像I1和图像I2的类概率向量,Dp(p1,p2)表示目标图像I1和图像I2的类概率向量距离;H1和H2分别表示目标图像I1和图像I2的二值描述符,Dh(H1,H2)表示目标图像I1和图像I2的二值描述符距离;Wi,j为权重,用于表示目标图像I1和图像I2属于同一个类的概率;本实施例中,权重Wi,j的计算式为:Wi,j=<p1,p2>*max(p2),<p1,p2>表示类概率向量p1和p2间的内积;max(p2)表示类概率向量p2各维中最大的值,作为图像I1的类概率。
本实施例基于目标图像与描述符库中图像之间的二值描述符距离和类概率向量距离来衡量目标图像与描述符库中图像之间的不相似性,并根据不相似性完成图像检索,由于二值描述符距离中携带了哈希视觉信息,类概率向量距离描述了图像的类语义信息,因此,所计算的不相似性同时融合了哈希视觉信息和类语义信息,可以有效提高图像检索的准确率。
实施例2:
一种基于特征融合的图像检索方法,本实施例与上述实施例1类似,所不同之处在于,本实施例中,高层语义特征包括全局描述符、对象描述符,底层图像特征包括SIFT描述符。
本实施例的具体实现,可参考上述实施例1中的描述,在此将不作复述。
实施例3:
一种基于特征融合的图像检索方法,本实施例与上述实施例1类似,所不同之处在于,本实施例中,高层语义特征包括全局描述符,底层图像特征包括SIFT描述符。
本实施例的具体实现,可参考上述实施例1中的描述,在此将不作复述。
实施例4:
一种计算机可读存储介质,该计算机可读存储介质包括存储的计算机程序,其中,在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行上述实施例1-3任意任一项提供的基于特征融合的图像检索方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于特征融合的图像检索方法,其特征在于,包括:
模型训练步骤:建立用于提取图像特征的卷积神经网络,并利用训练图像集对其进行训练,得到特征提取网络;
多层语义浮点描述符构建步骤:提取图像的至少一种高层语义特征和至少一种底层图像特征,并将所提取的高层语义特征和底层图像特征进行融合,得到图像的多层语义浮点描述符;所述高层语义特征包括全局描述符,所述全局描述符的提取方式为:将所述图像缩放至多个不同尺度,利用所述特征提取网络分别提取缩放后各尺度图像的特征,并融合为所述图像的全局描述符;所述底层图像特征包括SIFT描述符,所述SIFT描述符的提取方式为:提取所述图像的多个SIFT特征,并聚合为局部聚合描述符向量,作为所述图像的SIFT描述符;
哈希学习步骤:根据所述多层语义浮点描述符构建步骤提取所述训练图像集中每一幅图像的多层语义浮点描述符,得到浮点描述符集合F,并利用所述浮点描述符集合F进行哈希学习生成旋转矩阵R;
描述符库构建步骤:根据所述多层语义浮点描述符构建步骤提取图像库中每一幅图像的多层语义浮点描述符,并利用所述旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到图像的二值描述符;利用已训练好的分类网络对所述图像库中的每一幅图像进行分类,得到各图像的类概率向量;对应存储各图像的二值描述符和类概率向量,以构建用于图像检索的描述符库。
2.如权利要求1所述的基于特征融合的图像检索方法,其特征在于,所述高层语义特征还包括对象描述符,所述对象描述符的提取方式为:将所述图像缩放至多个不同的尺度,并分别对各尺度的图像进行对象检测,得到多个可能包含对象的图像分片,利用所述特征提取网络提取各图像分片的特征,并聚合为局部聚合描述符向量,作为所述图像的对象描述符。
3.如权利要求2所述的基于特征融合的图像检索方法,其特征在于,在将提取的图像分片的特征聚合为聚合描述符向量时,使用软分配。
4.如权利要求2所述的基于特征融合的图像检索方法,其特征在于,所述高层语义特征还包括显著性区域描述符,所述显著性区域描述符的提取方式为:对所述图像进行显著性区域检测,生成所述图像的显著性图,将所述显著性图缩放至预设尺寸后与所述图像进行点乘,得到显著性区域,利用所述特征提取网络提取所述显著性区域的特征,作为所述图像的显著性区域描述符。
5.如权利要求1所述的基于特征融合的图像检索方法,其特征在于,所述哈希学习步骤中,利用所述浮点描述符集合F进行哈希学习生成旋转矩阵R,包括:
(S1)将所述浮点描述符集合F表示为矩阵形式,并对该矩阵进行正交旋转,得到矩阵X,基于矩阵X设置哈希学习的目标函数如下:
其中,f表示所述目标函数;B表示学到的哈希编码,R表示旋转矩阵,I表示单位矩阵;bi表示B的第i列,对应所述训练图像集中第i幅图像的哈希码,|bi|表示哈希码bi中1的个数;k表示稠密度;||.||1表示L1-范数,||.||2表示L2-范数;为预设的系数;
(S2)初始化旋转矩阵R和哈希编码B;
(S4)固定所述哈希编码B,令矩阵变量C=BRT,对所述矩阵变量C进行奇异值分解,分解结果为USVT=SVD(C),按照R=UVT对所述旋转矩阵R进行更新;
其中,SVD()表示奇异值分解,U和V表示奇异值分解得到的酉矩阵,S表示奇异值分解得到的半正定的对角矩阵;
(S5)固定所述旋转矩阵R,按照B=sign(RX)对所述哈希编码B进行更新;其中,sign(.)表示符号函数;
(S6)迭代执行步骤(S3)~(S5),直至达到预设的最大迭代次数。
6.如权利要求1所述的基于特征融合的图像检索方法,其特征在于,所述描述符库构建步骤中,将旋转后的多层语义浮点描述符进行二值化,通过符号函数完成。
7.如权利要求1-6任一项所述的基于特征融合的图像检索方法,其特征在于,还包括:
检索步骤:对于待检索的目标图像,根据所述多层语义浮点描述符构建步骤提取其多层语义浮点描述符,并利用所述旋转矩阵R进行旋转,将旋转后的多层语义浮点描述符进行二值化,得到所述目标图像的二值描述符;利用所述分类网络对所述目标图像进行分类,得到所述目标图像的类概率向量;分别计算所述目标图像与所述描述符库中各图像的二值描述符距离和类概率向量距离,以基于所计算的距离度量所述目标图像与所述描述符库中各图像之间的不相似性;按照不相似性从小到大的顺序对所述描述符库中的图像进行排序,将排序在前top-K的图像作为检索结果;
其中,top-K为预设的正整数或比例。
8.如权利要求7所述的基于特征融合的图像检索方法,其特征在于,所述不相似性为:
D(I1,I2)=(1-Wi,j)*Dp(p1,p2)+Dh(H1,H2);
其中,I1表示所述目标图像,I2表示所述描述符库中的图像,D(I1,I2)表示所述目标图像和所述图像之间的不相似性;p1和p2分别表示所述目标图像I1和所述图像I2的类概率向量,Dp(p1,p2)表示所述目标图像I1和所述图像I2的类概率向量距离;H1和H2分别表示所述目标图像I1和所述图像I2的二值描述符,Dh(H1,H2)表示所述目标图像I1和所述图像I2的二值描述符距离;Wi,j为权重,用于表示所述目标图像I1和所述图像I2属于同一个类的概率。
9.如权利要求8所述的基于特征融合的图像检索方法,其特征在于,所述权重Wi,j的计算式为:Wi,j=<p1,p2>*max(p2);
其中,<p1,p2>表示类概率向量p1和p2间的内积;max(p2)表示所述类概率向量p2各维中最大的值,作为所述图像I1的类概率。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1-9任一项所述的基于特征融合的图像检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010947296.3A CN112163114B (zh) | 2020-09-10 | 2020-09-10 | 一种基于特征融合的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010947296.3A CN112163114B (zh) | 2020-09-10 | 2020-09-10 | 一种基于特征融合的图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163114A true CN112163114A (zh) | 2021-01-01 |
CN112163114B CN112163114B (zh) | 2024-03-22 |
Family
ID=73857793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010947296.3A Active CN112163114B (zh) | 2020-09-10 | 2020-09-10 | 一种基于特征融合的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163114B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177914A (zh) * | 2021-04-15 | 2021-07-27 | 青岛理工大学 | 基于语义特征聚类的机器人焊接方法及*** |
CN113656582A (zh) * | 2021-08-17 | 2021-11-16 | 北京百度网讯科技有限公司 | 神经网络模型的训练方法、图像检索方法、设备和介质 |
CN113780304A (zh) * | 2021-08-09 | 2021-12-10 | 国网安徽省电力有限公司检修分公司 | 基于神经网络的变电站设备图像检索方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010041008A1 (en) * | 1999-12-10 | 2001-11-15 | Eiji Kasutani | Image retrieval device, image retrieval method and storage medium storing similar-image retrieval program |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
-
2020
- 2020-09-10 CN CN202010947296.3A patent/CN112163114B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010041008A1 (en) * | 1999-12-10 | 2001-11-15 | Eiji Kasutani | Image retrieval device, image retrieval method and storage medium storing similar-image retrieval program |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177914A (zh) * | 2021-04-15 | 2021-07-27 | 青岛理工大学 | 基于语义特征聚类的机器人焊接方法及*** |
CN113177914B (zh) * | 2021-04-15 | 2023-02-17 | 青岛理工大学 | 基于语义特征聚类的机器人焊接方法及*** |
CN113780304A (zh) * | 2021-08-09 | 2021-12-10 | 国网安徽省电力有限公司检修分公司 | 基于神经网络的变电站设备图像检索方法及*** |
CN113780304B (zh) * | 2021-08-09 | 2023-12-05 | 国网安徽省电力有限公司超高压分公司 | 基于神经网络的变电站设备图像检索方法及*** |
CN113656582A (zh) * | 2021-08-17 | 2021-11-16 | 北京百度网讯科技有限公司 | 神经网络模型的训练方法、图像检索方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112163114B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239793B (zh) | 多量化深度二值特征学习方法及装置 | |
CN108510559B (zh) | 一种基于有监督多视角离散化的多媒体二值编码方法 | |
US8374442B2 (en) | Linear spatial pyramid matching using sparse coding | |
CN113657425B (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
EP4042320A1 (en) | Adversarial network for transforming handwritten text | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
WO2014205231A1 (en) | Deep learning framework for generic object detection | |
CN108460400B (zh) | 一种结合多种特征信息的高光谱图像分类方法 | |
Ali et al. | Modeling global geometric spatial information for rotation invariant classification of satellite images | |
Nanni et al. | General purpose (GenP) bioimage ensemble of handcrafted and learned features with data augmentation | |
Wei et al. | Compact MQDF classifiers using sparse coding for handwritten Chinese character recognition | |
Kishorjit Singh et al. | Image classification using SLIC superpixel and FAAGKFCM image segmentation | |
Ni et al. | Scene classification from remote sensing images using mid-level deep feature learning | |
Li et al. | A novel visual codebook model based on fuzzy geometry for large-scale image classification | |
Chen et al. | Sparsity-regularized feature selection for multi-class remote sensing image classification | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN115392357A (zh) | 分类模型训练、标注数据样本抽检方法、介质及电子设备 | |
Li et al. | Image decomposition with multilabel context: Algorithms and applications | |
Wang et al. | A multi-label hyperspectral image classification method with deep learning features | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN116778339A (zh) | 局部视图辅助判别高光谱波段选择方法及*** | |
Chen et al. | A weighted block cooperative sparse representation algorithm based on visual saliency dictionary | |
CN111768214A (zh) | 产品属性的预测方法、***、设备和存储介质 | |
Benuwa et al. | Group sparse based locality–sensitive dictionary learning for video semantic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |