CN110688511A - 细粒度图像检索方法、装置、计算机设备及存储介质 - Google Patents
细粒度图像检索方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110688511A CN110688511A CN201910751805.2A CN201910751805A CN110688511A CN 110688511 A CN110688511 A CN 110688511A CN 201910751805 A CN201910751805 A CN 201910751805A CN 110688511 A CN110688511 A CN 110688511A
- Authority
- CN
- China
- Prior art keywords
- image
- fine
- grained
- target object
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003062 neural network model Methods 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 230000002087 whitening effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000003287 optical effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种细粒度图像检索方法,包括:构建细粒度神经网络模型,并对细粒度神经网络模型进行预训练;将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的细粒度神经网络模型中;在细粒度神经网络模型中自动定位输入图像中的主要目标对象,并提取目标对象特征;将待识别图像的目标对象特征与对比图像的目标对象特征比对,输出待识别图像的目标对象特征中含有的与对比图像的主要目标对象同类别的待识别图像。本发明还公开了一种细粒度图像检索装置、计算机设备及存储介质。本发明的技术方案旨在解决现有的细粒度图像检索技术的图像检索效率低的问题。
Description
技术领域
本发明涉及图像检索技术领域,尤其涉及一种细粒度图像检索方法和应用该细粒度图像检索方法的细粒度图像检索装置、计算机设备和计算机可读存储介质。
背景技术
图像检索是通过输入图像来检索相似图像的一种技术,其主要涉及图像特征提取以及图像特征相似度分析这两大部分。细粒度图像识别是在于寻找图像中存在细微差别的局部区域特征,可以识别一个大类中的不同小类。将细粒度图像识别技术用于图像检索中,可以提取图像细粒度特征并对图像细粒度特征相似性进行分析。
现有的细粒度图像检索技术大多需要先标注图像类别或选框标注对象位置,再输入典型神经网络模型提取图像细粒度特征,并将其与参照图像特征进行相似度比较,因此,现有的细粒度图像检索技术的弊端是,图像检索效率低。
发明内容
本发明的主要目的在于提供一种细粒度图像检索方法,旨在解决现有的细粒度图像检索技术的图像检索效率低的问题。
为实现上述目的,本发明提供的细粒度图像检索方法包括如下步骤:
构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练;
将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中;
在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;
将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。
优选地,所述在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征的步骤,包括:
在所述细粒度神经网络模型中自动定位所述对比图像中的第一主要目标对象,并提取第一目标对象特征;
在所述细粒度神经网络模型中自动定位所述待识别图像中的第二主要目标对象,并提取第二目标对象特征。
优选地,所述在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征的步骤,包括:
将所述输入图像输入所述细粒度神经网络模型,在通过所述细粒度神经网络模型最后一层激活卷积层提取图像特征后,输出n个二维特征映射,每个所述二维特征映射分布式表示有多个激活响应的特征显著性区域,其中,n>1;
获取设定的阈值,将n个所述二维特征映射叠加,选取叠加后激活响应高于所述阈值的第一区域,以得到掩映图;
采用双三次插值的方法调整所述掩映图的大小,使其与所述输入图像同样大小,并将所述掩映图覆盖到所述输入图像上;
选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域,将所述第二区域在所述输入图像中所对应的第三区域确定为所述输入图像的所述主要目标对象位置,激活响应特征即为所述目标对象特征。
优选地,所述将n个所述二维特征映射叠加的步骤,包括:
将n个所述二维特征映射在深度方向进行加和以得到加和结果;
将所述加和结果作为总结特征。
优选地,所述选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域的步骤,包括:
采用Flood Fill算法,选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域。
优选地,所述构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练的步骤,包括:
获取神经网络模型,所述神经网络模型为VGG-m模型或Alex-Net模型;
采用全局平均池化替换所述神经网络模型中的全连接层,并融合从激活的卷积特征映射中提取的图像特征,以得到所述细粒度神经网络模型;
用ImageNet数据集预训练细粒度神经网络模型,并采用反向传播算法微调模型参数。
优选地,所述将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像的步骤之前,还包括:
对所述目标对象特征采用奇异值分解、白化和主成分分析中的至少一种处理方式进行处理。
此外,为实现上述目的,本发明还提供一种细粒度图像检索装置,应用如上述任一项所述的细粒度图像检索方法;所述细粒度图像检索装置包括图像采集模块、特征提取模块和目标识别模块;
所述图像采集模块,用于获取待识别图像;
所述特征提取模块,用于在构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练后,将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中,并用于在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;
所述目标识别模块,用于将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。
此外,为实现上述目的,本发明还提供一种计算机设备,包括:存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如上述任一项所述的细粒度图像检索方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的细粒度图像检索方法的步骤。
在本发明的技术方案中,该细粒度图像检索方法在构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练后,直接将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中,从而,在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;而不需要先标注图像类别或选框标注对象位置,再输入神经网络模型提取图像细粒度特征,显著提升了图像检索效率。然后,将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。因此,本发明的技术方案有利于解决现有的细粒度图像检索技术的图像检索效率低的问题的问题。
附图说明
图1为本发明细粒度图像检索方法第一实施例的流程示意图;
图2为本发明细粒度图像检索装置一实施例的结构组成示意图;
图3为本发明计算机设备一实施例的模块结构示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
请参阅图1,为实现上述目的,本发明的第一实施例中提供一种细粒度图像检索方法,包括如下步骤:
步骤S10,构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练;
步骤S20,将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中;
步骤S30,在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;
步骤S40,将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。
在本发明的技术方案中,该细粒度图像检索方法在构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练后,直接将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中,从而,在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;而不需要先标注图像类别或选框标注对象位置,再输入神经网络模型提取图像细粒度特征,显著提升了图像检索效率。然后,将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。因此,本发明的技术方案有利于解决现有的细粒度图像检索技术的图像检索效率低的问题的问题。
本发明通过改进神经网络模型,使图像输入神经网络模型后可以自动定位图像区域,并对图像细粒度特征相似性进行分析,输出与参照图像同类别的图像,适用于针对车辆、行人等目标对象的图像检索,相比与现有方法,节省成本,提高了效率。本发明采用神经网络模型自动定位图像对象的方式,通过深度学习提取图像细粒度特征,并与参照图像特征进行相似度比较,识别与参照图像对象同类的图像。相比于现有技术,减少了需预先标注图像类别或选框标注对象位置的工作量,节省成本,提高了效率。
进一步的,所述细粒度神经网络模型所提取的特征包括细微的局部特征。
基于本发明的细粒度图像检索方法的第一实施例,本发明的细粒度图像检索方法的第二实施例中,所述步骤S30包括:
步骤S31,在所述细粒度神经网络模型中自动定位所述对比图像中的第一主要目标对象,并提取第一目标对象特征;
步骤S32,在所述细粒度神经网络模型中自动定位所述待识别图像中的第二主要目标对象,并提取第二目标对象特征。
在本实施例中,采用同样的方法对对比图像和待识别图像先后进行处理。
基于本发明的细粒度图像检索方法的第一实施例或第二实施例,本发明的细粒度图像检索方法的第三实施例中,所述步骤S30,包括:
步骤S33,将所述输入图像输入所述细粒度神经网络模型,在通过所述细粒度神经网络模型最后一层激活卷积层提取图像特征后,输出n个二维特征映射,每个所述二维特征映射分布式表示有多个激活响应的特征显著性区域,其中,n>1;
步骤S34,获取设定的阈值,将n个所述二维特征映射叠加,选取叠加后激活响应高于所述阈值的第一区域,以得到掩映图;
步骤S35,采用双三次插值的方法调整所述掩映图的大小,使其与所述输入图像同样大小,并将所述掩映图覆盖到所述输入图像上;
步骤S36,选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域,将所述第二区域在所述输入图像中所对应的第三区域确定为所述输入图像的所述主要目标对象位置,激活响应特征即为所述目标对象特征。
以对比图像作为输入图像为例,在所述细粒度神经网络模型中自动定位所述对比图像中的第一主要目标对象,并提取第一目标对象特征具体包括如下步骤:
首先将对比图像输入预训练好的细粒度神经网络模型中,在通过模型最后一层激活卷积层提取图像特征后,输出n个二维特征映射,每个特征映射分布式表示有多个特征显著性区域。假设给定尺寸H×W的对比图像在经过卷积后有h×w×d卷积特征,即卷积特征包含了一系列二维的特征映射S={Sn}(n=1,...,d),Sn尺寸为h×w。Sn是第n通道的特征映射,即第n特征,H、W、h、w及d分别大于0。
然后,将n个二维特征映射叠加,并设定一个阈值,选取叠加后激活响应高于阈值的区域,得到一个总结特征掩映图;
经过激活函数激活的特征映射激活区域可以表示图像语义上有意义的部分,但是单个通道的激活区域并不能准确表示该图像有意义的语义部分,只有多个通道的同一区域都是激活区域,该激活区域才能确定为有意义部分,因此需要将多个通道同一区域叠加,增强激活区域的显著性。将n个二维特征映射叠加,即将h×w×d的三维卷积特征变成一个h×w的二维张量,在深度方向做加和,叠加后的总结特征表示为A,其中:
同时设定一个阈值α,α>0,构建一个和总结特征图A同样大小的掩映图M,则掩映图M可以表示为:
接着,采用双三次插值的方法调整掩映图的大小,使其与输入图像同样大小,并将掩映图覆盖到输入图像上。
采用双三次插值的方法调整掩映图的大小具体为根据原图像距离某一像素M(x,y)最近的16个像素点的像素值作为计算目标图像对应像素点处像素值的参数,其中,x>0,y>0,最近的16个像素点取其附近的4×4领域点a(x+xi,y+yj),其中i,j=0,1,2,3。利用BiCubic函数求出16个像素点像素值的权重,目标图像像素点(X,Y)的像素值为16个像素点的加权叠加。
构建一个BiCubic函数:
最后,选取掩映图中所占面积最大的激活响应高于阈值的区域,即像素点连续为1的最大区域,该区域在输入图像中所对应的区域即为图像主要目标对象位置,激活响应特征即为目标对象的特征。
以待识别图像作为输入图像,在所述细粒度神经网络模型中自动定位所述待识别图像中的第二主要目标对象,并提取第二目标对象特征的具体步骤与上述步骤相同,在此不做赘述。
基于本发明的细粒度图像检索方法的第三实施例,本发明的细粒度图像检索方法的第四实施例中,所述步骤S34中的将n个所述二维特征映射叠加的步骤,包括:
步骤S341,将n个所述二维特征映射在深度方向进行加和以得到加和结果;
步骤S342,将所述加和结果作为总结特征。
基于本发明的细粒度图像检索方法的第三实施例或第四实施例,本发明的细粒度图像检索方法的第五实施例中,所述步骤S36中的选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域的步骤,包括:
步骤S36a,采用Flood Fill算法,选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域。
具体地,选取掩映图中的一个像素点作为起始点,判断是否为1,是则标记,否则不标记,并以该起始点向周围像素点扩充,直至所有像素点都被标记,并重新选取未标记点作为起始点。最后结果选取标记连续像素最多的区域。该区域在输入图像中所对应的区域即为图像主要目标对象位置,激活响应特征即为目标对象的特征信息。
用标记连续像素最多区域定位所对应的输入图像主要目标对象位置,并提取该对象的特征信息。
基于本发明的细粒度图像检索方法的第一实施例至第五实施例中的任一项,本发明的细粒度图像检索方法的第六实施例中,所述步骤S10,包括:
步骤S11,获取神经网络模型,所述神经网络模型为VGG-m模型或Alex-Net模型;
步骤S12,采用全局平均池化替换所述神经网络模型中的全连接层,并融合从激活的卷积特征映射中提取的图像特征,以得到所述细粒度神经网络模型;
步骤S13,用ImageNet数据集预训练细粒度神经网络模型,并采用反向传播算法微调模型参数。
采用全局平均池化取代全连接层的神经网络模型,减少了模型参数数量,提高了运算速度,更适用于大规模图像集的检索识别。
在本实施例中,具体地,先构建一个基于VGG-16的细粒度神经网络模型,采用全局平均池化取代全连接层,直接融合从激活的卷积特征映射中提取的图像特征,减少了参数数量,提高运算速度。
基于本发明的细粒度图像检索方法的第一实施例至第五实施例中的任一项,本发明的细粒度图像检索方法的第七实施例中,所述步骤S40之前,还包括:
步骤S50,对所述目标对象特征采用奇异值分解、白化和主成分分析中的至少一种处理方式进行处理。
所提取的图像的主要目标对象特征可以采用奇异值分解、白化或主成分分析中的一种或几种方法进一步降低维度,消除冗余信息,减少计算成本。
进一步地,步骤S40中,将提取的待识别图像对象特征信息与对比图像中提取的特征信息比较,输出含有与对比图像主要目标对象同类别对象的待识别图像。待识别图像中提取的对象特征信息与对比图像的目标对象特征信息的相似度计算,可基于余弦相似度算法来分析。关于余弦相似度算法具体可参见现有技术,这里不再赘述。当然,具体实施时,也可根据其他图像相似度算法来分析,本申请对此不做限定。
步骤S30中所提取的图像的主要目标对象特征信息包括对象细微的局部特征信息,根据这些细粒度级局部特征信息可以从图像集中识别与对比图像主要目标对象同类别的图像。例如根据车辆的车形、颜色等细粒度特征,识别图像集中与参照图像中的车辆同一型号的车辆图像。
此外,请参阅图2,为实现上述目的,本发明还提供一种细粒度图像检索装置,应用如上述任一项所述的细粒度图像检索方法。所述细粒度图像检索装置包括图像采集模块1、特征提取模块2和目标识别模块3;
所述图像采集模块1,用于获取待识别图像;
所述特征提取模块2,用于在构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练后,将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中,并用于在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;
所述目标识别模块3,用于将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。
由于本实施例细粒度图像检索装置的技术方案至少包括上述细粒度图像检索方法实施例的全部技术方案,因此至少具有以上实施例的全部技术效果,此处不再一一赘述。
此外,为实现上述目的,本发明还提供一种计算机设备,存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如上述任一实施例所述的细粒度图像检索方法的步骤。
由于本实施例计算机设备的技术方案至少包括上述细粒度图像检索方法实施例的全部技术方案,因此至少具有以上实施例的全部技术效果,此处不再一一赘述。
请参阅图3,图3显示的计算机设备/服务器10仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机设备/服务器10以通用计算设备的形式表现。计算机设备/服务器10的组件可以包括但不限于:一个或者多个处理器(处理单元)11、存储器12,连接不同***组件(包括存储器12和处理器11)的总线13。
总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机设备/服务器10典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备/服务器10访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器12可以包括易失性存储器形式的计算机设备可读介质,例如随机存取存储器(RAM)14和/或高速缓存存储器15。计算机设备/服务器10可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机设备存储介质。仅作为举例,存储***16可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线13相连。存储器12可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块17的程序/实用工具18,可以存储在例如存储器12中,这样的程序模块17包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块17通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备/服务器10也可以与一个或多个外部设备19(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该计算机设备/服务器10交互的设备通信,和/或与使得该计算机设备/服务器10能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口20进行。并且,计算机设备/服务器10还可以通过网络适配器21与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器21通过总线13与计算机设备/服务器10的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器11通过运行存储在存储器12中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本领域技术人员可以理解,图3中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述细粒度图像检索方法的第一实施例至第八实施例中任一项的步骤。
由于本实施例计算机可读存储介质的技术方案至少包括上述细粒度图像检索方法实施例的全部技术方案,因此至少具有以上实施例的全部技术效果,此处不再一一赘述。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种细粒度图像检索方法,其特征在于,包括如下步骤:
构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练;
将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中;
在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;
将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。
2.根据权利要求1所述的细粒度图像检索方法,其特征在于,所述在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征的步骤,包括:
在所述细粒度神经网络模型中自动定位所述对比图像中的第一主要目标对象,并提取第一目标对象特征;
在所述细粒度神经网络模型中自动定位所述待识别图像中的第二主要目标对象,并提取第二目标对象特征。
3.根据权利要求1所述的细粒度图像检索方法,其特征在于,所述在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征的步骤,包括:
将所述输入图像输入所述细粒度神经网络模型,在通过所述细粒度神经网络模型最后一层激活卷积层提取图像特征后,输出n个二维特征映射,每个所述二维特征映射分布式表示有多个激活响应的特征显著性区域,其中,n>1;
获取设定的阈值,将n个所述二维特征映射叠加,选取叠加后激活响应高于所述阈值的第一区域,以得到掩映图;
采用双三次插值的方法调整所述掩映图的大小,使其与所述输入图像同样大小,并将所述掩映图覆盖到所述输入图像上;
选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域,将所述第二区域在所述输入图像中所对应的第三区域确定为所述输入图像的所述主要目标对象位置,激活响应特征即为所述目标对象特征。
4.根据权利要求3所述的细粒度图像检索方法,其特征在于,所述将n个所述二维特征映射叠加的步骤,包括:
将n个所述二维特征映射在深度方向进行加和以得到加和结果;
将所述加和结果作为总结特征。
5.根据权利要求3所述的细粒度图像检索方法,其特征在于,所述选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域的步骤,包括:
采用Flood Fill算法,选取所述掩映图中所占面积最大的激活响应高于所述阈值的第二区域。
6.根据权利要求1至5中任一项所述的细粒度图像检索方法,其特征在于,所述构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练的步骤,包括:
获取神经网络模型,所述神经网络模型为VGG-m模型或Alex-Net模型;
采用全局平均池化替换所述神经网络模型中的全连接层,并融合从激活的卷积特征映射中提取的图像特征,以得到所述细粒度神经网络模型;
用ImageNet数据集预训练细粒度神经网络模型,并采用反向传播算法微调模型参数。
7.根据权利要求1至5中任一项所述的细粒度图像检索方法,其特征在于,所述将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像的步骤之前,还包括:
对所述目标对象特征采用奇异值分解、白化和主成分分析中的至少一种处理方式进行处理。
8.一种细粒度图像检索装置,其特征在于,应用如权利要求1至7中任一项所述的细粒度图像检索方法;所述细粒度图像检索装置包括图像采集模块、特征提取模块和目标识别模块;
所述图像采集模块,用于获取待识别图像;
所述特征提取模块,用于在构建细粒度神经网络模型,并对所述细粒度神经网络模型进行预训练后,将对比图像和通过图像采集模块获取的待识别图像分别作为输入图像输入完成预训练的所述细粒度神经网络模型中,并用于在所述细粒度神经网络模型中自动定位所述输入图像中的主要目标对象,并提取目标对象特征;
所述目标识别模块,用于将所述待识别图像的目标对象特征与所述对比图像的目标对象特征比对,输出所述待识别图像的目标对象特征中含有的与所述对比图像的主要目标对象同类别的待识别图像。
9.一种计算机设备,其特征在于,包括:存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的细粒度图像检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的细粒度图像检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751805.2A CN110688511A (zh) | 2019-08-15 | 2019-08-15 | 细粒度图像检索方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910751805.2A CN110688511A (zh) | 2019-08-15 | 2019-08-15 | 细粒度图像检索方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688511A true CN110688511A (zh) | 2020-01-14 |
Family
ID=69108250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910751805.2A Pending CN110688511A (zh) | 2019-08-15 | 2019-08-15 | 细粒度图像检索方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688511A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737512A (zh) * | 2020-06-04 | 2020-10-02 | 东华大学 | 基于深度特征区域融合的丝绸文物图像检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491797A (zh) * | 2018-03-22 | 2018-09-04 | 河北省科学院应用数学研究所 | 一种基于大数据的车辆图像精确检索方法 |
CN109359684A (zh) * | 2018-10-17 | 2019-02-19 | 苏州大学 | 基于弱监督定位和子类别相似性度量的细粒度车型识别方法 |
CN110059718A (zh) * | 2019-03-18 | 2019-07-26 | 国网浙江省电力有限公司信息通信分公司 | 基于多类多注意力机制的细粒度检测方法 |
-
2019
- 2019-08-15 CN CN201910751805.2A patent/CN110688511A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491797A (zh) * | 2018-03-22 | 2018-09-04 | 河北省科学院应用数学研究所 | 一种基于大数据的车辆图像精确检索方法 |
CN109359684A (zh) * | 2018-10-17 | 2019-02-19 | 苏州大学 | 基于弱监督定位和子类别相似性度量的细粒度车型识别方法 |
CN110059718A (zh) * | 2019-03-18 | 2019-07-26 | 国网浙江省电力有限公司信息通信分公司 | 基于多类多注意力机制的细粒度检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737512A (zh) * | 2020-06-04 | 2020-10-02 | 东华大学 | 基于深度特征区域融合的丝绸文物图像检索方法 |
CN111737512B (zh) * | 2020-06-04 | 2021-11-12 | 东华大学 | 基于深度特征区域融合的丝绸文物图像检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898696B (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
US10740647B2 (en) | Detecting objects using a weakly supervised model | |
CN111563502B (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
US11983903B2 (en) | Processing images using self-attention based neural networks | |
CN110188766B (zh) | 基于卷积神经网络的图像主目标检测方法及装置 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
US20200250401A1 (en) | Computer system and computer-readable storage medium | |
WO2021141726A1 (en) | Radioactive data generation | |
CN114445904A (zh) | 基于全卷积神经网络的虹膜分割方法和装置、介质和设备 | |
CN112287144B (zh) | 图片检索方法、设备及存储介质 | |
CN112541902A (zh) | 相似区域搜索方法、装置、电子设备及介质 | |
CN110879972A (zh) | 一种人脸检测方法及装置 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN113111708B (zh) | 车辆匹配样本生成方法、装置、计算机设备和存储介质 | |
CN113111684B (zh) | 神经网络模型的训练方法、装置和图像处理*** | |
CN110688511A (zh) | 细粒度图像检索方法、装置、计算机设备及存储介质 | |
CN115810152A (zh) | 基于图卷积的遥感图像变化检测方法、装置和计算机设备 | |
CN112801960B (zh) | 图像处理方法及装置、存储介质、电子设备 | |
CN112001479B (zh) | 基于深度学习模型的处理方法、***及电子设备 | |
CN113205131A (zh) | 图像数据的处理方法、装置、路侧设备和云控平台 | |
CN112633134A (zh) | 基于图像识别的车内人脸识别方法、装置及介质 | |
CN113469172B (zh) | 目标定位、模型训练、界面交互方法及设备 | |
CN115455227B (zh) | 图形界面的元素搜索方法及电子设备、存储介质 | |
US20240169702A1 (en) | Image recognition edge device and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |