CN109829065A - 图像检索方法、装置、设备及计算机可读存储介质 - Google Patents

图像检索方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109829065A
CN109829065A CN201910174727.4A CN201910174727A CN109829065A CN 109829065 A CN109829065 A CN 109829065A CN 201910174727 A CN201910174727 A CN 201910174727A CN 109829065 A CN109829065 A CN 109829065A
Authority
CN
China
Prior art keywords
image
hash
convolution
neural networks
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910174727.4A
Other languages
English (en)
Other versions
CN109829065B (zh
Inventor
张莉
陆鋆
王邦军
周伟达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910174727.4A priority Critical patent/CN109829065B/zh
Publication of CN109829065A publication Critical patent/CN109829065A/zh
Application granted granted Critical
Publication of CN109829065B publication Critical patent/CN109829065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种图像检索方法、装置、设备及计算机可读存储介质。其中,方法包括首先利用卷积层数不同的两个卷积神经网络并联构造双列卷积哈希映射模型,第一卷积神经网络与第二卷积神经网络的池化层数目、池化窗口的大小和步长均相同;该模型包含由第一卷积神经网络和第二卷积神经网络的输出并联而成的第一全连接层及作为哈希编码层的第二全连接层。将待检索图像利用双列卷积哈希映射模型映射为待检索哈希编码;在哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为待检索图像在图像数据库的检索结果;哈希编码库为将图像数据库中每张图像经双列卷积哈希映射模型映射后所得。本申请提高图像检索的准确率。

Description

图像检索方法、装置、设备及计算机可读存储介质
技术领域
本发明实施例涉及图像处理技术领域,特别是涉及一种图像检索方法、装置、设备及计算机可读存储介质。
背景技术
近些年来,随着互联网的进一步普及和大数据技术的深入应用,每天都会有数以亿计的图像产生。图像数据资源的集中和规模的增大使得现有技术越来越难以满足用户图像检索的需求。因此,如何有效地描述图像的特征信息,采用何种数据结构进行高效索引和快速相似性检索等问题成为了这个方向的研究热点。
面对大规模的图像数据,鉴于二进制编码具有易于比较与存储的性质,可以极大的提升相似性检索的速度并节省更多的计算机资源,故在进行图像检索时一般将图像映射成二进制编码。
深度学习的出现推动了计算机视觉的发展,也为学习哈希映射方法提供了更有效的工具。相关技术用神经网络模型映射哈希编码,然利用图像的方式训练深度学习模型,通过损失函数来约束该模型参数,取得了较为不错的结果。
但是,该方法检索图像的准确率不高,尤其是针对比较相似图像,无法满足用户对图像检索精度的高要求。鉴于此,如何提升图像检索的准确率,是本领域技术人员亟待解决的问题。
发明内容
本公开实施例提供了一种图像检索方法、装置、设备及计算机可读存储介质,提高图像检索的准确率。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种图像检索方法,包括:
利用预先构建的双列卷积哈希映射模型将待检索图像映射为待检索哈希编码;
在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;
其中,所述双列卷积哈希映射模型为由卷积层数不同的两个卷积神经网络组合而成,包含由第一卷积神经网络和第二卷积神经网络的输出并联而成的第一全连接层及作为哈希编码层的第二全连接层;所述第一卷积神经网络与所述第二卷积神经网络的池化层数目、池化窗口的大小和步长均相同;所述哈希编码库为将所述图像数据库中每张图像经所述双列卷积哈希映射模型映射后所得。
可选的,所述双列卷积哈希映射模型的训练过程包括:
以所述图像数据库中的图像对为输入;
若所述图像对的标签类别为相似,则以所述图像对映射得到的哈希编码对之间的距离为损失值;若所述图像对的标签类别为不相似,则以所述图像对映射得到的哈希编码对之间的距离和间隔为损失值;所述标签类别用于标识所述图像对中两张图像的相似性;
采用机器学习优化算法优化所述损失值以训练所述双列卷积哈希映射模型。
可选的,所述双列卷积哈希映射模型的损失值为:
式中,Loss为所述损失值,第i张图像与第j张图像组成所述图像对,n为所述图像数据库中图像总个数,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,m为所述图像对映射得到的哈希编码对的间隔,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为相似,yi,j=0表示第i张图像与第j张图像不相似。
可选的,采用机器学习优化算法优化所述损失值以训练所述双列卷积哈希映射模型为采用随机梯度下降优化所述损失值以训练所述双列卷积哈希映射模型。
可选的,所述哈希编码库的生成过程为:
将所述图像数据库中的每张图像输入至所述双列卷积哈希映射模型,通过设置阈值,将所述双列卷积哈希映射模型的哈希编码层的输出映射为哈希编码;
根据每张图像的哈希编码生成所述哈希编码库;
其中,所述图像数据库的第i张图像的第m位编码可如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为所述阈值。
可选的,所述在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像为:
在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像;
按照与所述待检索哈希编码的汉明距离的差值从小到大对T张图像进行排序;
输出排序后的T张图像。
可选的,所述第一卷积神经网络为卷积层为14层的VGG-16网络模型,所述第二卷积神经网络为卷积层为5层的VGG-16网络模型,所述第一卷积神经网络和所述第二卷积神经网络的池化窗口为2*2且步长为1。
本发明实施例另一方面提供了一种图像检索装置,包括:
哈希编码生成模块,用于利用预先构建的双列卷积哈希映射模型将待检索图像映射为待检索哈希编码;所述双列卷积哈希映射模型为由卷积层数不同的两个卷积神经网络组合而成,包含由第一卷积神经网络和第二卷积神经网络的输出并联而成的第一全连接层及作为哈希编码层的第二全连接层;所述第一卷积神经网络与所述第二卷积神经网络的池化层数目、池化窗口的大小和步长均相同;
图像检索模块,用于在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;所述哈希编码库为将所述图像数据库中每张图像经所述双列卷积哈希映射模型映射后所得。
本发明实施例还提供了一种图像检索设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述图像检索方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像检索程序,所述图像检索程序被处理器执行时实现如前任一项所述图像检索方法的步骤。
本申请提供的技术方案的优点在于,将第一卷积神经网络模型和第二卷积神经网络模型并联连接、并添加哈希编码层以构造双列卷积哈希映射模型,利用卷积层数多的卷积神经网络模型识别高级别的语义特征,利用卷积层数少的神经网络用来辨别低级别的形状、纹理等特征,将这两个模型叠加连接可以增强特征对图像的表达能力,从而提升二进制编码的辨别力,增强图像映射生成哈希编码的表达能力,以此来提升大规模图像检索的准确率。
此外,本发明实施例还针对图像检索方法提供了相应的实现装置、设备及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置、设备及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像检索方法的流程示意图;
图2为本公开根据一示例性实施例示出的一种卷积神经网络模型的结构示意图;
图3为本公开根据一示例性实施例示出的另一种卷积神经网络模型的结构示意图;
图4为本公开根据一示例性实施例示出的双列卷积哈希映射模型的训练过程示意图;
图5为本发明实施例提供的图像检索装置的一种具体实施方式结构图;
图6为本发明实施例提供的图像检索装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种图像检索方法的流程示意图,本发明实施例可包括以下内容:
S101:利用预先构建的双列卷积哈希映射模型将待检索图像映射为待检索哈希编码。
基于深层卷积神经网络模型可用来识别高级别的语义特征,浅层神经网络可用来辨别低级别的形状、纹理等特征,若将这两个模型叠加连接可以增强特征对图像的表达能力,从而提升二进制编码的辨别力。鉴于此,可通过将卷积层数不同的深层卷积神经网络模型(第一卷积神经网络)和浅层卷积神经网络模型(第二卷积神经网络)并联连接,构造出双列卷积神经网络模型,然后基于图像数据库学习得到该双列卷积网络结构的参数权重,最后用图像对的方式训练得到哈希映射模型,将图像映射成哈希编码,从而完成双列卷积哈希映射模型构建。
将两个卷积神经网络进行并联组合为双列卷积哈希映射模型,该模型包含由第一卷积神经网络和第二卷积神经网络的输出并联而成的第一全连接层及作为哈希编码层的第二全连接层。可通过在双列卷积神经网络的最后一层前添加一层全连接层,结点数即为哈希编码长度,作为哈希编码层,哈希编码层的生成过程可参阅任何一种相关技术中记载的实现过程,此处,便不再赘述。
第一卷积神经网络和第二卷积神经网络可采用任何一种卷积神经网络结构,例如可为VGG-16网络模型,VGG-16网络模型通过增加网络深度提高了整个卷积神经网络的最终性能。当然,也可为其他卷积网络结构,这均不影像本申请的实现。
第一卷积神经网络和第二卷积神经网络可通过增加或删减卷积层可区别模型深度,卷积层数越多,模型深度越高,利用卷积层数多的卷积神经网络模型识别高级别的语义特征,卷积层数少的神经网络辨别低级别的形状、纹理等特征。例如图3及图2所示,第一卷积神经网络可为取VGG-16网络模型前14层生成的网络结构,也即卷积层为14层,第二卷积神经网络可为通过删减VGG-16网络模型的卷积层生成的网络结构,如卷积层为5层的VGG-16网络模型。
为了保证第一卷积神经网络与第二卷积神经网络可在输出层进行并联,可设置第一卷积神经网络与第二卷积神经网络的池化层数目、池化窗口的大小和步长均相同。例如第一卷积神经网络和第二卷积神经网络的池化窗口可设置为2*2,步长可设置为1。
用doi表示图像在第一卷积神经网络上的输出,doi向量的维度可以表达为(dw,dh,dd)。用soi表示图像在第二卷积神经网络上的输出,soi向量的维度可以表达为(sw,sh,sd)。对于同一张图像,这两个卷积神经网络的输出分别为doi和soi,并且dw=sw、dh=sh,因而doi和soi可以在最后一个维度上连接在一起,形成维度为(dw,dh,dd+sd)的向量,记为moi。双列卷积哈希映射模型包含两个全连接层,对于输入图像,moi为第一层全连接层的输入,第二层全连接层(哈希编码层)的输出为oi。oi用来生成哈希编码,因而哈希编码的长度k和与oi的维度一致,等于哈希编码层结点的个数。
双列卷积哈希映射模型训练过程可如下所述,请参阅图4所示:
可以图像数据库中的图像对为输入。可以图像数据库中的随机的一个图像对作为网络结构的输入,图像数据库中任何两张图像随机构成一个图像对,且每个图像对具有标签类别,标签类别用于标识构成图像对的这两张图像的相似性,若这两张图像为同一类别的图像,则图像对的标签类别为相似;若这两张图像不为同一类别的图像,则图像对的标签类别为不相似。举例来说,图像数据库中的图像表示为集合X={x1,x2,…,xn},也就是图像数据库中共有n张图像,第i张图像和第j张图像构成的图像对可表示为(xi,xj),用符号yi,j来表示该图像的标签,yi,j=1表示这两张图像相似,yi,j=0表示这两张图像不相似。
若图像对的标签类别为相似,则以图像对映射得到的哈希编码对之间的距离为损失值;若图像对的标签类别为不相似,则以图像对映射得到的哈希编码对之间的距离和间隔为损失值。也就是说,双列卷积哈希映射模型的损失函数由图像对的类别和二进制化约束决定,对于包含n张图像的图像数据库,双列卷积哈希映射模型的损失值可表示为:
式中,Loss为损失值,第i张图像与第j张图像组成图像对,n为图像数据库中图像总个数,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,m为图像对映射得到的哈希编码对的间隔,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为相似,yi,j=0表示第i张图像与第j张图像不相似。
然后可采用随机梯度下降优化损失值训练该网络结构得到模型权重,以完成双列卷积哈希映射模型的训练。当然,也可采用其他优化算法,本申请对此不做任何限定。
双列卷积哈希映射模型在哈希编码层的输出可采用来表示,通过设置阈值将其映射成哈希编码。
将待检索图像输入至双列卷积哈希映射模型,将该模型的哈希编码层输出基于阈值映射为待检索图像的哈希编码,即待检索哈希编码。
S102:在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为待检索图像在图像数据库的检索结果。
图像数据库为待检索图像检索与其相似或相同图像的数据库,该数据库包含大量图像。
哈希编码库与图像数据库相对应,哈希编码库包含的每个哈希编码与图像数据库中的图像唯一相对应,将图像数据库中的每张图像输入至双列卷积哈希映射模型,通过设置阈值,将双列卷积哈希映射模型的哈希编码层的输出映射为相应的哈希编码,然后根据每张图像的哈希编码生成哈希编码库。图像数据库的第i张图像的第m位编码可如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为阈值。
在图像数据库中检索与待检索图像相似的图像,也即目标图像,可根据待检索图像的哈希编码与图像数据库中各图像的哈希编码之间的汉明距离来决定,可根据汉明距离差值、目标图像输出的张数和图像数据库总图像数目来设置预设条件,例如在一种具体的实施方式中,可在哈希编码库中查找与待检索哈希编码的汉明距离值最小的前T张图像,T值的大小可由图像数据库中图像数量总数和用户实际需求相确定,这均不影响本申请的实现。举例来说,T为2,计算待检索哈希编码依次与图像数据库中各图像的哈希编码的汉明距离差值,那么从10个汉明距离差值中选取最小差值和次小差值对应的图像。
为了方便相似图像的输出,可按照与待检索哈希编码的汉明距离的差值从小到大对T张图像进行排序,然后输出排序后的T张图像。当然也可按照与待检索哈希编码的汉明距离的差值从大到小对T张图像进行排序,这均不影像本申请的实现。
在本发明实施例提供的技术方案中,将第一卷积神经网络模型和第二卷积神经网络模型并联连接、并添加哈希编码层以构造双列卷积哈希映射模型,利用卷积层数多的卷积神经网络模型识别高级别的语义特征,利用卷积层数少的神经网络用来辨别低级别的形状、纹理等特征,将这两个模型叠加连接可以增强特征对图像的表达能力,从而提升二进制编码的辨别力,增强图像映射生成哈希编码的表达能力,以此来提升大规模图像检索的准确率。
为了便于本领域技术人员更加清楚明白本申请技术方案,本申请还提供了一个示意性例子,以CIFAR-10数据集作为图像数据库进行了测试。CIFAR-10数据集中共包含60000张32*32*3的彩色图像,共有10个类别,可包括下述内容:
双列卷积哈希映射模型构建:
图像数据库中的图像可表示为X={x1,x2,…,xn},其中n是图像数据库的类别数目。此处取CIFAR-10的前50000张作为训练集,因而n=50000,剩余的10000张图像构成Xtest
构建双列卷积哈希映射模型,该模型由深层卷积神经网络和浅层神经网络两部分组成。将深层卷积神经网络和浅层卷积神经网络的输出并联连接作为全连接层的输入,完成双列卷积哈希映射模型端到端的构建,记为CNNM
深层神经网络选取的是VGG-16模型的前14层,较深的网络能够较好的学习高级别语义特征。浅层神经网络通过删减VGG-16的一些卷积层来降低模型的深度,可以用来学习低级别的形状、纹理等特征。
doi表示输入图像xi在深层神经网络上的输出,对于CIFAR-10,图片大小为(32,32,3),因而doi的维度为(1,1,512)。
soi表示xi在浅层神经网络上的输出,对于CIFAR-10,图片大小为(32,32,3),因而soi的维度为(1,1,512)。
在数据集X中图像xi在这两个神经网络上的输出分别为doi和soi,并且dw=sw=1、dh=sh=1,因而doi和soi可以在最后一个维度上连接在一起,形成moi,维度为(1,1,1024)。
CNNM共有2层全连接层,对于图像xi,moi为第一层全连接层的输入,第二层全连接层(哈希编码层)的输出为oi。oi用来生成哈希编码,因而哈希编码的长度k和与oi的维度一致,等于哈希编码层结点的个数,此处k=12。
双列卷积哈希映射模型训练:
对于图像数据库X,将图像随机两张组成一对,第i张图像和第j张图像构成的图像对表示为(xi,xj),用符号yi,j来表示图像对的标签,yi,j=1表示这两张图像相似,yi,j=0表示这两张图像不相似。
以随机图像对(xi,xj)作为CNNM的输入,哈希编码层的输出为(fi,fj)。损失函数由2种因素决定:(1)类别yi,j;(2)二进制化约束。因此,对于总数为50000的数据库CIFAR-10,其总的损失值为:
此处,m=12。
在图像数据库X上,可通过梯度下降最小化Loss得到CNNM的模型权重w,将训练好的CNNM表示为w-CNNM。此处梯度下降的学习率为0.00001。
图像xi作为本申请w-CNNM模型的输入,得到输出oi,设置阈值θ=0将其映射成哈希编码,哈希编码表示为来表示第i张图像的第m位编码,其中:
因而,图像数据库X经w-CNNM映射后得到哈希编码库,表示为H。
图像检索:
对于待检索图像xquery,从图像数据库X中检索出最相似的前T张图像。
用本申请w-CNNM将待检索图像xquery映射成哈希编码hquery
在哈希编码库H中查找汉明距离最小的前T张图像,此处T=5000。
将这5000张图像按照与xquery的汉明距离从小到大重新排序。
将重新排序后的5000张图像作为检索结果返回。
由上可知,本发明实施例增强了图像映射生成哈希编码的表达能力,提升大规模图像检索的准确率。
进一步地,为了证实本申请提供的技术方案可实现对同一类别图像的准确检索,可用检索准确率Precison作为评估标准来衡量图像检索算法在一张检索图像的检索效果。Precison的计算方法为:
Rel(i)表示待检索图像和图像数据库中的第i张图像是否相似,如果相似则值为1,不相似则值为0。对于检索图像集(测试集)Xtest,用所有检索图像的平均检索准确率MRP来衡量不同方法的检索性能。
通过实验,本申请的双列卷积哈希映射模型的MRP为83.52%,浅层卷积哈希映射模型的MRP为76.54%,深层卷积哈希映射模型的MRP为81.78%。由此可见,双列卷积神经网络模型将深层卷积神经网络和浅层卷积神经网络这两个模型叠加连接可以增强特征对图像的表达能力,提升了二进制编码的辨别力。
本发明实施例还针对图像检索方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的图像检索装置进行介绍,下文描述的图像检索装置与上文描述的图像检索方法可相互对应参照。
参见图5,图5为本发明实施例提供的图像检索装置在一种具体实施方式下的结构图,该装置可包括:
哈希编码生成模块501,用于利用预先构建的双列卷积哈希映射模型将待检索图像映射为待检索哈希编码;双列卷积哈希映射模型为由卷积层数不同的两个卷积神经网络组合而成,包含由第一卷积神经网络和第二卷积神经网络的输出并联而成的第一全连接层及作为哈希编码层的第二全连接层;第一卷积神经网络与第二卷积神经网络的池化层数目、池化窗口的大小和步长均相同。
图像检索模块502,用于在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为待检索图像在图像数据库的检索结果;哈希编码库为将图像数据库中每张图像经双列卷积哈希映射模型映射后所得。
可选的,在本实施例的一些实施方式中,请参阅图6,所述装置例如还可以包括模型训练模块503,所述模型训练模块503用于以图像数据库中的图像对为输入;若图像对的标签类别为相似,则以图像对映射得到的哈希编码对之间的距离为损失值;若图像对的标签类别为不相似,则以图像对映射得到的哈希编码对之间的距离和间隔为损失值;标签类别用于标识图像对中两张图像的相似性;采用机器学习优化算法优化损失值训练双列卷积哈希映射模型。
在另外一种实施方式中,所述模型训练模块503还可为利用下述公式作为双列卷积哈希映射模型的损失值:
式中,Loss为损失值,第i张图像与第j张图像组成图像对,n为图像数据库中图像总个数,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,m为图像对映射得到的哈希编码对的间隔,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为相似,yi,j=0表示第i张图像与第j张图像不相似。
在另外一些实施方式中,所述模型训练模块503例如还可为采用机器学习优化算法优化损失值训练双列卷积哈希映射模型为采用随机梯度下降优化损失值以训练双列卷积哈希映射模型的模块。
可选的,所述图像检索模块502还可包括哈希编码库生成子模块,所述哈希编码库生成子模块用于将图像数据库中的每张图像输入至双列卷积哈希映射模型,通过设置阈值,将双列卷积哈希映射模型的哈希编码层的输出映射为哈希编码;根据每张图像的哈希编码生成哈希编码库;
其中,图像数据库的第i张图像的第m位编码可如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为阈值。
在一些其他的实施方式中,所述图像检索模块502还用于在哈希编码库中查找与待检索哈希编码的汉明距离值最小的前T张图像;按照与待检索哈希编码的汉明距离从小到大对T张图像进行排序;输出排序后的T张图像。
本发明实施例所述图像检索装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例增强了图像映射生成哈希编码的表达能力,提升大规模图像检索的准确率。
本发明实施例还提供了一种图像检索设备,具体可包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如上任意一实施例所述图像检索方法的步骤。
本发明实施例所述图像检索设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例增强了图像映射生成哈希编码的表达能力,提升大规模图像检索的准确率。
本发明实施例还提供了一种计算机可读存储介质,存储有图像检索程序,所述图像检索程序被处理器执行时如上任意一实施例所述图像检索方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例增强了图像映射生成哈希编码的表达能力,提升大规模图像检索的准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种图像检索方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种图像检索方法,其特征在于,包括:
利用预先构建的双列卷积哈希映射模型将待检索图像映射为待检索哈希编码;
在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;
其中,所述双列卷积哈希映射模型为由卷积层数不同的两个卷积神经网络组合而成,包含由第一卷积神经网络和第二卷积神经网络的输出并联而成的第一全连接层及作为哈希编码层的第二全连接层;所述第一卷积神经网络与所述第二卷积神经网络的池化层数目、池化窗口的大小和步长均相同;所述哈希编码库为将所述图像数据库中每张图像经所述双列卷积哈希映射模型映射后所得。
2.根据权利要求1所述的图像检索方法,其特征在于,所述双列卷积哈希映射模型的训练过程包括:
以所述图像数据库中的图像对为输入;
若所述图像对的标签类别为相似,则以所述图像对映射得到的哈希编码对之间的距离为损失值;若所述图像对的标签类别为不相似,则以所述图像对映射得到的哈希编码对之间的距离和间隔为损失值;所述标签类别用于标识所述图像对中两张图像的相似性;
采用机器学习优化算法优化所述损失值以训练所述双列卷积哈希映射模型。
3.根据权利要求2所述的图像检索方法,其特征在于,所述双列卷积哈希映射模型的损失值为:
式中,Loss为所述损失值,第i张图像与第j张图像组成所述图像对,n为所述图像数据库中图像总个数,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,m为所述图像对映射得到的哈希编码对的间隔,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为相似,yi,j=0表示第i张图像与第j张图像不相似。
4.根据权利要求2所述的图像检索方法,其特征在于,采用机器学习优化算法优化所述损失值以训练所述双列卷积哈希映射模型为采用随机梯度下降优化所述损失值以训练所述双列卷积哈希映射模型。
5.根据权利要求1至4任意一项所述的图像检索方法,其特征在于,所述哈希编码库的生成过程为:
将所述图像数据库中的每张图像输入至所述双列卷积哈希映射模型,通过设置阈值,将所述双列卷积哈希映射模型的哈希编码层的输出映射为哈希编码;
根据每张图像的哈希编码生成所述哈希编码库;
其中,所述图像数据库的第i张图像的第m位编码可如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为所述阈值。
6.根据权利要求1-4任意一项所述的图像检索方法,其特征在于,所述在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像为:
在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像;
按照与所述待检索哈希编码的汉明距离的差值从小到大对T张图像进行排序;
输出排序后的T张图像。
7.根据权利要求5所述的图像检索方法,其特征在于,所述第一卷积神经网络为卷积层为14层的VGG-16网络模型,所述第二卷积神经网络为卷积层为5层的VGG-16网络模型,所述第一卷积神经网络和所述第二卷积神经网络的池化窗口为2*2且步长为1。
8.一种图像检索装置,其特征在于,包括:
哈希编码生成模块,用于利用预先构建的双列卷积哈希映射模型将待检索图像映射为待检索哈希编码;所述双列卷积哈希映射模型为由卷积层数不同的两个卷积神经网络组合而成,包含由第一卷积神经网络和第二卷积神经网络的输出并联而成的第一全连接层及作为哈希编码层的第二全连接层;所述第一卷积神经网络与所述第二卷积神经网络的池化层数目、池化窗口的大小和步长均相同;
图像检索模块,用于在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;所述哈希编码库为将所述图像数据库中每张图像经所述双列卷积哈希映射模型映射后所得。
9.一种图像检索设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述图像检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像检索程序,所述图像检索程序被处理器执行时实现如权利要求1至7任一项所述图像检索方法的步骤。
CN201910174727.4A 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质 Active CN109829065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910174727.4A CN109829065B (zh) 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910174727.4A CN109829065B (zh) 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109829065A true CN109829065A (zh) 2019-05-31
CN109829065B CN109829065B (zh) 2023-08-18

Family

ID=66865643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910174727.4A Active CN109829065B (zh) 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109829065B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815631A (zh) * 2020-09-02 2020-10-23 北京易真学思教育科技有限公司 模型生成方法、装置、设备和可读存储介质
CN111813975A (zh) * 2020-07-09 2020-10-23 国网电子商务有限公司 一种图像检索方法、装置及电子设备
CN111880558A (zh) * 2020-07-06 2020-11-03 广东技术师范大学 植保无人机避障喷施方法、装置、计算机设备和存储介质
WO2022032938A1 (zh) * 2020-08-14 2022-02-17 深圳前海微众银行股份有限公司 哈希编码优化方法、设备及可读存储介质
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、***、设备以及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机***工程有限公司 基于深度学习和哈希的图像检索方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法
CN109165306A (zh) * 2018-08-09 2019-01-08 长沙理工大学 基于多任务哈希学习的图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机***工程有限公司 基于深度学习和哈希的图像检索方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法
CN109165306A (zh) * 2018-08-09 2019-01-08 长沙理工大学 基于多任务哈希学习的图像检索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111880558A (zh) * 2020-07-06 2020-11-03 广东技术师范大学 植保无人机避障喷施方法、装置、计算机设备和存储介质
CN111880558B (zh) * 2020-07-06 2021-05-11 广东技术师范大学 植保无人机避障喷施方法、装置、计算机设备和存储介质
CN111813975A (zh) * 2020-07-09 2020-10-23 国网电子商务有限公司 一种图像检索方法、装置及电子设备
WO2022032938A1 (zh) * 2020-08-14 2022-02-17 深圳前海微众银行股份有限公司 哈希编码优化方法、设备及可读存储介质
CN111815631A (zh) * 2020-09-02 2020-10-23 北京易真学思教育科技有限公司 模型生成方法、装置、设备和可读存储介质
WO2022134728A1 (zh) * 2020-12-25 2022-06-30 苏州浪潮智能科技有限公司 一种图像检索方法、***、设备以及介质

Also Published As

Publication number Publication date
CN109829065B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN109918532A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN109829065A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及***
CN104598611B (zh) 对搜索条目进行排序的方法及***
CN110647904B (zh) 一种基于无标记数据迁移的跨模态检索方法及***
US20090106179A1 (en) System and method for the longitudinal analysis of education outcomes using cohort life cycles, cluster analytics-based cohort analysis, and probablistic data schemas
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN106663124A (zh) 生成和使用知识增强型模型
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
US12032605B2 (en) Searchable data structure for electronic documents
WO2023274059A1 (zh) 交替序列生成模型训练方法、从文本中抽取图的方法
CN108985133B (zh) 一种人脸图像的年龄预测方法及装置
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及***
CN112632406B (zh) 查询方法、装置、电子设备及存储介质
CN106484782B (zh) 一种基于多核哈希学习的大规模医学图像检索方法
CN115797795A (zh) 基于强化学习的遥感影像问答式检索***及方法
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
CN113420119B (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质
Bueno et al. Genetic algorithms for approximate similarity queries
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
Bulysheva et al. Visual database design: indexing methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant