CN109918532B - 图像检索方法、装置、设备及计算机可读存储介质 - Google Patents

图像检索方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109918532B
CN109918532B CN201910175051.0A CN201910175051A CN109918532B CN 109918532 B CN109918532 B CN 109918532B CN 201910175051 A CN201910175051 A CN 201910175051A CN 109918532 B CN109918532 B CN 109918532B
Authority
CN
China
Prior art keywords
image
hash
images
depth
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910175051.0A
Other languages
English (en)
Other versions
CN109918532A (zh
Inventor
张莉
陆鋆
王邦军
周伟达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910175051.0A priority Critical patent/CN109918532B/zh
Publication of CN109918532A publication Critical patent/CN109918532A/zh
Priority to PCT/CN2020/077586 priority patent/WO2020182019A1/zh
Application granted granted Critical
Publication of CN109918532B publication Critical patent/CN109918532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种图像检索方法、装置、设备及计算机可读存储介质。其中,方法包括以图像数据库中的图像对为输入,以图像对映射得到的哈希编码对间的距离、标签类别和图像对的特征相似度为损失值,采用机器学习优化算法优化损失值以训练得到深度哈希映射模型;将待检索图像利用深度哈希映射模型映射为待检索哈希编码;在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像,作为待检索图像在图像数据库的检索结果进行输出,哈希编码库为将图像数据库中每张图像经深度哈希映射模型映射后所得。本申请有效地解决了相关技术中同一类别图像哈希编码过于一致的问题,从而实现了同一类别图像的准确检索。

Description

图像检索方法、装置、设备及计算机可读存储介质
技术领域
本发明实施例涉及图像处理技术领域,特别是涉及一种图像检索方法、装置、设备及计算机可读存储介质。
背景技术
近些年来,随着互联网的进一步普及和大数据技术的深入应用,每天都会有数以亿计的图像产生。图像数据资源的集中和规模的增大使得现有技术越来越难以满足用户图像检索的需求。因此,如何有效地描述图像的特征信息,采用何种数据结构进行高效索引和快速相似性检索等问题成为了这个方向的研究热点。
面对大规模的图像数据,鉴于二进制编码具有易于比较与存储的性质,可以极大的提升相似性检索的速度并节省更多的计算机资源,故在进行图像检索时一般将图像映射成二进制编码。
深度学习的出现推动了计算机视觉的发展,也为学习哈希映射方法提供了更有效的工具。相关技术用神经网络模型映射哈希编码,然利用图像的方式训练深度学习模型,通过损失函数来约束该模型参数,取得了较为不错的结果。
但是,该训练得到的二进制编码存在这样的问题:同类图像的哈希编码过于一致,因而同类图像近乎毫无区分度,无法辨别出与检索图像较为相似的图像,也就是说,相关技术无法对同一类别图像进行检索。
发明内容
本公开实施例提供了一种图像检索方法、装置、设备及计算机可读存储介质,实现了同一类别图像的准确检索。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种图像检索方法,包括:
利用预先构建的深度哈希映射模型将待检索图像映射为待检索哈希编码;
在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;
其中,所述深度哈希映射模型为以所述图像数据库中的图像对为输入,以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值,采用机器学习优化算法优化所述损失值训练所得;所述标签类别用于标识所述图像对中两张图像的相似性;所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得。
可选的,所述深度哈希映射模型的训练过程包括:
将全连接层为哈希编码层的卷积神经网络模型作为所述深度哈希映射模型的网络结构;
以所述图像数据库中的图像对作为所述网络结构的输入,以下述公式作为所述网络结构的损失值,采用随机梯度下降优化所述损失值训练所述网络结构:
式中,Loss为所述损失值,第i张图像与第j张图像组成所述图像对,n为所述图像数据库中图像总个数,Si,j为第i张图像与第j张图像的深度特征相似度,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像。
可选的,第i张图像与第j张图像的深度特征相似度值可从预先计算得到的相似度矩阵获取,所述相似度矩阵计算过程为:
利用预先构建的卷积神经网络模型提取所述图像数据库中各图像的深度特征,生成深度特征向量集合;
分别计算所述深度特征向量集合中两两向量之间的欧式距离,生成所述图像数据库的相似度矩阵;
其中,所述卷积神经网络为基于深度学习利用所述图像数据库中图像训练所得。
可选的,所述第i张图像与第j张图像的深度特征相似度值的计算过程为:
利用下述公式计算第i张图像与第j张图像的深度特征相似度值:
式中,fi为第i张图像的深度特征向量,fj为第j张图像的深度特征向量,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像,α、β为超参数。
可选的,所述卷积神经网络模型为VGG-16网络模型。
可选的,所述哈希编码库的生成过程为:
将所述图像数据库中的每张图像输入至所述深度哈希映射模型,通过设置阈值,将所述深度哈希映射模型的哈希编码层的输出映射为哈希编码;
根据每张图像的哈希编码生成所述哈希编码库;
其中,所述图像数据库的第i张图像的第m位编码如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为所述阈值。
可选的,所述在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像为:
在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像;
按照与所述待检索哈希编码的汉明距离差值从小到大对T张图像进行排序;
输出排序后的T张图像。
本发明实施例另一方面提供了一种图像检索装置,包括:
模型训练模块,用于以图像数据库中的图像对为输入,以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值,采用机器学习优化算法优化所述损失值以训练得到深度哈希映射模型;所述标签类别用于标识所述图像对中两张图像的相似性;
哈希编码生成模块,用于利用所述深度哈希映射模型将待检索图像映射为待检索哈希编码;
图像检索模块,用于在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得。
本发明实施例还提供了一种图像检索设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述图像检索方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像检索程序,所述图像检索程序被处理器执行时实现如前任一项所述图像检索方法的步骤。
本申请提供的技术方案的优点在于,在训练哈希映射模型时考虑图像数据中各图像之间相似度,图像间越相似,映射得到的哈希编码之间的汉明距离就越小,图像间越不相似,映射得到的哈希编码之间的汉明距离就稍大,促使同类图像映射得到的哈希编码之间的汉明距离根据图像间的相似度来决定,有效地解决了相关技术中同一类别图像哈希编码过于一致导致同类图像无法检索的问题,从而实现了同一类别图像的准确检索。
此外,本发明实施例还针对图像检索方法提供了相应的实现装置、设备及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置、设备及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像检索方法的流程示意图;
图2为本公开根据一示例性实施例示出的一种深度哈希映射模型的生成过程示意图;
图3为本公开根据一示例性实施例示出的一种VGG-16网络结构示意图;
图4为本公开根据一示例性实施例示出的另一种VGG-16网络结构示意图;
图5为本公开根据一示例性实施例示出的相似性矩阵的生成过程示意图;
图6为本公开根据一示例性实施例示出的本申请技术方案的二进制编码分布示意图;
图7为本公开根据一示例性实施例示出的相关技术的二进制编码分布示意图;
图8为本发明实施例提供的图像检索装置的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种图像检索方法的流程示意图,本发明实施例可包括以下内容:
S101:预先以图像数据库中的图像对为输入,以图像对映射得到的哈希编码对间的距离、标签类别和图像对的特征相似度为损失值,采用机器学习优化算法优化损失值以训练得到深度哈希映射模型。
首先构建卷积神经网络结构用于哈希映射,然后基于图像数据库和图像相似度矩阵学习得到该卷积网络结构的参数权重,从而完成基于图像相似度的深度哈希映射模型构建,深度哈希映射模型的训练过程可如下所述,请参阅图2所示:
将全连接层为哈希编码层的卷积神经网络模型作为深度哈希映射模型的网络结构,卷积神经网络结构可采用任何一种卷积神经网络结构,例如可为图3所示的VGG-16网络模型,VGG-16网络模型通过增加网络深度提高了整个卷积神经网络的最终性能。当然,也可为其他卷积网络结构,这均不影像本申请的实现。可通过在卷积神经网络的最后一层前添加一层全连接层,结点数即为哈希编码长度,作为哈希编码层,哈希编码层的生成过程可参阅任何一种相关技术中记载的实现过程,此处,便不再赘述。
图像数据库为待检索图像检索与其相似或相同图像的数据库,该数据库包含大量图像。
在训练深度哈希映射模型的时,可加入图像相似度的比较,使得不同类别图像映射得到的哈希编码之间的汉明距离要尽可能的大;同一类别图像映射得到的哈希编码之间的汉明距离根据图像间的相似度来决定,具体表达为图像间越相似,映射得到的哈希编码之间的汉明距离就越小;图像间越不相似,映射得到的哈希编码之间的汉明距离就稍大。
鉴于此,可以图像数据库中的随机的一个图像对作为网络结构的输入,图像数据库中任何两张图像随机构成一个图像对,且每个图像对具有标签类别,标签类别用于标识构成图像对的这两张图像的相似性,若这两张图像为同一类别的图像,则图像对的标签类别为相似;若这两张图像不为同一类别的图像,则图像对的标签类别为不相似。举例来说,图像数据库中的图像表示为集合X={x1,x2,…,xn},也就是图像数据库中共有n张图像,第i张图像和第j张图像构成的图像对可表示为(xi,xj),用符号yi,j来表示该图像的标签,yi,j=1表示这两张图像相似,yi,j=0表示这两张图像不相似。
提取每张图像的深度特征,可根据构成图像对的两张图像的深度特征来判断两张图像是否具有相似性。在提取图像的深度特征时,可采用任何一种卷积神经网络模型,例如可参阅图4所示的VGG-16网络作为的网络结构,通过卷积层和池化层获取的特征一般有较高的维度,因此通常选取全连接层输出的特征向量值作为深度特征,图4中fc7层的输出则为深度特征。
在一种具体的实施方式中,可预先为图像数据库生成相应的相似性矩阵,图像对的相似度值可直接从该相似度矩阵中获取。相似性矩阵的生成过程可参阅图5所示,第i张图像与第j张图像的深度特征相似度值可从预先计算得到的相似度矩阵获取,相似度矩阵计算过程可为:
利用预先构建的卷积神经网络模型提取图像数据库中各图像的深度特征,生成深度特征向量集合。卷积神经网络可为基于深度学习利用图像数据库中图像训练所得,为了提高准确率提取图像的深度特征,可利用图像数据库中的图像训练的卷积神经网络模型。用训练好的卷积神经网络模型为图像数据库集合X中的每张图像提取深度特征,第i张图像提取得到的特征向量记为fi,图像数据库集合X中图像的深度特征向量构成了深度特征向量集合,可表示为F={f1,f2,…,fn}。
分别计算深度特征向量集合中两两深度特征向量之间的距离,以作为两张图像的相似度值,例如可分别计算深度特征向量集合中两两向量之间的欧式距离,生成图像数据库的相似度矩阵,相似度矩阵可如图5所示的矩阵。
第i张图像与第j张图像的深度特征相似度值可利用下述公式进行计算:
式中,fi为第i张图像的深度特征向量,fj为第j张图像的深度特征向量,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像,α、β为超参数。
深度哈希映射模型的损失值可由输入网络结构的图像对的类别、相似度及二进制化约束来决定,对于共有n张图像的图像数据库,可以下述公式作为该网络结构的损失值:
式中,Loss为损失值,第i张图像与第j张图像组成图像对,n为图像数据库中图像总个数,Si,j为第i张图像与第j张图像的深度特征相似度,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像。
然后可采用随机梯度下降优化损失值训练该网络结构得到模型权重,以完成深度哈希映射模型的训练。当然,也可采用其他优化算法,本申请对此不做任何限定。
深度哈希映射模型在哈希编码层的输出可采用来表示,通过设置阈值将其映射成哈希编码。
S102:利用深度哈希映射模型将待检索图像映射为待检索哈希编码。
将待检索图像输入至深度哈希映射模型,将该模型的哈希编码层输出基于阈值映射为待检索图像的哈希编码,即待检索哈希编码。
S103:在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为待检索图像在图像数据库的检索结果。
哈希编码库与图像数据库相对应,哈希编码库包含的每个哈希编码与图像数据库中的图像唯一相对应,将图像数据库中的每张图像输入至深度哈希映射模型,通过设置阈值,将深度哈希映射模型的哈希编码层的输出映射为相应的哈希编码,然后根据每张图像的哈希编码生成哈希编码库。图像数据库的第i张图像的第m位编码可如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为阈值。
在图像数据库中检索与待检索图像相似的图像,也即目标图像,可根据待检索图像的哈希编码与图像数据库中各图像的哈希编码之间的汉明距离来决定,可根据汉明距离差值、目标图像输出的张数和图像数据库总图像数目来设置预设条件,例如在一种具体的实施方式中,可在哈希编码库中查找与待检索哈希编码的汉明距离值最小的前T张图像,T值的大小可由图像数据库中图像数量总数和用户实际需求相确定,这均不影响本申请的实现。举例来说,T为2,计算待检索哈希编码依次与图像数据库中各图像的哈希编码的汉明距离差值,那么从10个汉明距离差值中选取最小差值和次小差值对应的图像。
为了方便相似图像的输出,可按照与待检索哈希编码的汉明距离的差值从小到大对T张图像进行排序,然后输出排序后的T张图像。当然也可按照与待检索哈希编码的汉明距离的差值从大到小对T张图像进行排序,这均不影像本申请的实现。
在本发明实施例提供的技术方案中,在训练哈希映射模型时考虑图像数据中各图像之间相似度,图像间越相似,映射得到的哈希编码之间的汉明距离就越小,图像间越不相似,映射得到的哈希编码之间的汉明距离就稍大,促使同类图像映射得到的哈希编码之间的汉明距离根据图像间的相似度来决定,有效地解决了相关技术中同一类别图像哈希编码过于一致导致同类图像无法检索的问题,从而实现了同一类别图像的准确检索。
为了便于本领域技术人员更加清楚明白本申请技术方案,本申请还提供了一个示意性例子,以CIFAR-10数据集作为图像数据库进行了测试。CIFAR-10数据集中共包含60000张32*32*3的彩色图像,共有10个类别,可包括下述内容:
图像数据库中的图像表示为集合X={x1,x2,…,xn},共有n张图像,此处取CIFAR-10的前50000张作为训练集,因而n=50000。将图像随机两张组成一对,第i张图像和第j张图像构成的图像对表示为(xi,xj),用符号yi,j来表示该图像的标签,yi,j=1表示这两张图像相似,yi,j=0表示这两张图像不相似。
如图2所示,本例中针对数据集CIFAR-10对卷积神经网络结构CNN1稍作修改,全连接层由2层构成,其中fc6为特征提取层。用图像数据库集合X作为训练集训练CNN1,使得训练后的CNN1提取出的特征能更好的表示图像。
用训练好的CNN1为数据库集合X中的每张图像提取深度特征,第i张图像提取得到的特征向量记为fi,因而数据库集合X每张图像的特征向量构成的集合表示为F={f1,f2,…,fn}。如图2所示,此处特征提取层fc6由512个结点构成,因而特征向量fi的维度为(1,512),特征向量集合F的维度为(50000,512)。
计算特征向量集合F中两两向量之间的距离,得到图像间相似度矩阵,记为S。对于图像间相似度矩阵S,第i行、第j列表示的是:图像对(xi,xj)对应的特征向量fi和fj之间的距离值Si,j
此处,对于CIFAR-10数据集,设定参数β=30、α=30。
基于图像相似性的深度哈希映射模型表示为CNNhash。此例中,哈希编码层的结点个数k=12,因此哈希编码的位数也为12位。故而,图像xi在哈希编码层的输出为来表示。
以随机图像对(xi,xj)作为CNNhash的输入,哈希编码层的输出为(fi,fj)。如图2所示,损失函数由3种因素决定:(1)类别yi,j;(2)相似度Si,j;(3)二进制化约束。因此,对于总数为n的数据库X,其总的损失值为:
在图像数据库X上,通过梯度下降最小化Loss得到CNNhash的模型权重w,将训练好的CNNhash表示为w-CNNhash。此处,随机梯度下降的学习率可设置为lr=0.00001。
图像xi作为本申请深度哈希映射模型w-CNNhash的输入,得到输出oi,本例阈值θ=0将其映射成哈希编码,哈希编码表示为用/>来表示第i张图像的第m位编码,其中:
因而,图像数据库X经w-CNNhash映射后得到哈希编码库,表示为H。
对于待检索图像xquery,从图像数据库X中检索出最相似的前T张图像。
用本发明模型w-CNNhash将待检索图像xquery映射成哈希编码hquery
在哈希编码库H中查找汉明距离最小的前T张图像。
将这T张图像按照与xquery的汉明距离从小到大重新排序。
将重新排序后的T张图像作为检索结果返回。
由上可知,本发明实施例有效地解决了相关技术中同一类别图像哈希编码过于一致的问题,从而实现了同一类别图像的准确检索。
进一步地,为了证实本申请提供的技术方案可实现对同一类别图像的准确检索,可用检索准确率Precison作为评估标准来衡量图像检索算法在一张检索图像的检索效果。Precison的计算方法为:
Rel(i)表示待检索图像和图像数据库中的第i张图像是否相似,如果相似则值为1,不相似则值为0。对于检索图像集Xtest,可用所有检索图像的平均检索准确率MRP来衡量不同方法的检索性能。
通过实验,基于图像相似度的深度哈希映射模型的MRP为83.42%,相关技术的MRP为81.78%。由此可见,基于图像相似度的深度哈希映射模型有不错的检索准确率。如图6和7所示,图6为表示CIFAR-10在基于图像相似度的深度哈希映射模型上映射得到的二进制编码分布,共有320种;图7所示为图像数据库经映射后得到的二进制编码分布,共有89种。由此可见,基于图像相似度的深度哈希映射模型映射得到的哈希编码具有多样性,能较好的决绝同类图像的哈希编码过于一致,因而同类图像近乎毫无区分度的问题。
本发明实施例还针对图像检索方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的图像检索装置进行介绍,下文描述的图像检索装置与上文描述的图像检索方法可相互对应参照。
参见图8,图8为本发明实施例提供的图像检索装置在一种具体实施方式下的结构图,该装置可包括:
模型训练模块801,用于以图像数据库中的图像对为输入,以图像对映射得到的哈希编码对间的距离、标签类别和图像对的特征相似度为损失值,采用机器学习优化算法优化损失值以训练得到深度哈希映射模型;标签类别用于标识图像对中两张图像的相似性。
哈希编码生成模块802,用于利用深度哈希映射模型将待检索图像映射为待检索哈希编码。
图像检索模块803,用于在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为待检索图像在图像数据库的检索结果;哈希编码库为将图像数据库中每张图像经深度哈希映射模型映射后所得。
可选的,在本实施例的一些实施方式中,所述模型训练模块801还可用于将全连接层为哈希编码层的卷积神经网络模型作为深度哈希映射模型的网络结构;
以图像数据库中的图像对作为网络结构的输入,以下述公式作为网络结构的损失值,采用随机梯度下降优化损失值训练网络结构:
式中,Loss为损失值,第i张图像与第j张图像组成图像对,n为图像数据库中图像总个数,Si,j为第i张图像与第j张图像的深度特征相似度,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像。
在本发明实施例的其他一些实施方式中,所述模型训练模块801还可用于利用预先构建的卷积神经网络模型提取图像数据库中各图像的深度特征,生成深度特征向量集合;
分别计算深度特征向量集合中两两向量之间的欧式距离,生成图像数据库的相似度矩阵;
其中,卷积神经网络为基于深度学习利用图像数据库中图像训练所得。
在本发明实施例的另外一些实施方式中,所述模型训练模块801还可用于利用下述公式计算第i张图像与第j张图像的深度特征相似度值:
式中,fi为第i张图像的深度特征向量,fj为第j张图像的深度特征向量,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像,α、β为超参数。
可选的,在本实施例的另一些实施方式中,所述图像检索模块803例如还可以由于在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像;按照与所述待检索哈希编码的汉明距离从小到大对T张图像进行排序;输出排序后的T张图像。
本发明实施例所述图像检索装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例有效地解决了相关技术中同一类别图像哈希编码过于一致的问题,从而实现了同一类别图像的准确检索。
本发明实施例还提供了一种图像检索设备,具体可包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如上任意一实施例所述图像检索方法的步骤。
本发明实施例所述图像检索设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例有效地解决了相关技术中同一类别图像哈希编码过于一致的问题,从而实现了同一类别图像的准确检索。
本发明实施例还提供了一种计算机可读存储介质,存储有图像检索程序,所述图像检索程序被处理器执行时如上任意一实施例所述图像检索方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例有效地解决了相关技术中同一类别图像哈希编码过于一致的问题,从而实现了同一类别图像的准确检索。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种图像检索方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (7)

1.一种图像检索方法,其特征在于,包括:
利用预先构建的深度哈希映射模型将待检索图像映射为待检索哈希编码;
在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;
其中,所述深度哈希映射模型为以所述图像数据库中的图像对为输入,以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值,采用机器学习优化算法优化所述损失值训练所得;所述标签类别用于标识所述图像对中两张图像的相似性;所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得;
其中,所述深度哈希映射模型的训练过程包括:
将全连接层为哈希编码层的卷积神经网络模型作为所述深度哈希映射模型的网络结构;
以所述图像数据库中的图像对作为所述网络结构的输入,以下述公式作为所述网络结构的损失值,采用随机梯度下降优化所述损失值训练所述网络结构:
式中,Loss为所述损失值,第i张图像与第j张图像组成所述图像对,n为所述图像数据库中图像总个数,Si,j为第i张图像与第j张图像的深度特征相似度,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像;
对应地,采用所述随机梯度下降优化所述损失值训练所述网络结构得到模型权重,以完成所述深度哈希映射模型的训练;
对应地,所述第i张图像与第j张图像的深度特征相似度值的计算过程为:
利用下述公式计算第i张图像与第j张图像的深度特征相似度值:
式中,fi为第i张图像的深度特征向量,fj为第j张图像的深度特征向量,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像,α、β为超参数;
对应地,所述哈希编码库的生成过程为:
将所述图像数据库中的每张图像输入至所述深度哈希映射模型,通过设置阈值,将所述深度哈希映射模型的哈希编码层的输出映射为哈希编码;
根据每张图像的哈希编码生成所述哈希编码库;
其中,所述图像数据库的第i张图像的第m位编码如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为所述阈值。
2.根据权利要求1所述的图像检索方法,其特征在于,第i张图像与第j张图像的深度特征相似度值从预先计算得到的相似度矩阵获取,所述相似度矩阵计算过程为:
利用预先构建的卷积神经网络模型提取所述图像数据库中各图像的深度特征,生成深度特征向量集合;
分别计算所述深度特征向量集合中两两向量之间的欧式距离,生成所述图像数据库的相似度矩阵;
其中,所述卷积神经网络为基于深度学习利用所述图像数据库中图像训练所得。
3.根据权利要求2所述的图像检索方法,其特征在于,所述卷积神经网络模型为VGG-16网络模型。
4.根据权利要求1至3任意一项所述的图像检索方法,其特征在于,所述在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像为:
在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像;
按照与所述待检索哈希编码的汉明距离差值从小到大对T张图像进行排序;
输出排序后的T张图像。
5.一种图像检索装置,其特征在于,包括:
模型训练模块,用于以图像数据库中的图像对为输入,以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值,采用机器学习优化算法优化所述损失值以训练得到深度哈希映射模型;所述标签类别用于标识所述图像对中两张图像的相似性;
哈希编码生成模块,用于利用所述深度哈希映射模型将待检索图像映射为待检索哈希编码;
图像检索模块,用于在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像,以作为所述待检索图像在图像数据库的检索结果;所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得;
其中,所述深度哈希映射模型的训练过程包括:
将全连接层为哈希编码层的卷积神经网络模型作为所述深度哈希映射模型的网络结构;
以所述图像数据库中的图像对作为所述网络结构的输入,以下述公式作为所述网络结构的损失值,采用随机梯度下降优化所述损失值训练所述网络结构:
式中,Loss为所述损失值,第i张图像与第j张图像组成所述图像对,n为所述图像数据库中图像总个数,Si,j为第i张图像与第j张图像的深度特征相似度,oi为第i张图像的哈希编码,oj为第j张图像的哈希编码,||oi-oj||2为的哈希编码对间的距离,α为超参数,yi,j为标签类别,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像;
对应地,采用所述随机梯度下降优化所述损失值训练所述网络结构得到模型权重,以完成所述深度哈希映射模型的训练;
对应地,所述第i张图像与第j张图像的深度特征相似度值的计算过程为:
利用下述公式计算第i张图像与第j张图像的深度特征相似度值:
式中,fi为第i张图像的深度特征向量,fj为第j张图像的深度特征向量,yi,j=1表示第i张图像与第j张图像为同一类别图像,yi,j=0表示第i张图像与第j张图像为不同类别图像,α、β为超参数;
对应地,所述哈希编码库的生成过程为:
将所述图像数据库中的每张图像输入至所述深度哈希映射模型,通过设置阈值,将所述深度哈希映射模型的哈希编码层的输出映射为哈希编码;
根据每张图像的哈希编码生成所述哈希编码库;
其中,所述图像数据库的第i张图像的第m位编码如下式:
式中,为第i张图像的第m位在哈希编码层的输出,θ为所述阈值。
6.一种图像检索设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4任一项所述图像检索方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像检索程序,所述图像检索程序被处理器执行时实现如权利要求1至4任一项所述图像检索方法的步骤。
CN201910175051.0A 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质 Active CN109918532B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910175051.0A CN109918532B (zh) 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质
PCT/CN2020/077586 WO2020182019A1 (zh) 2019-03-08 2020-03-03 图像检索方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910175051.0A CN109918532B (zh) 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109918532A CN109918532A (zh) 2019-06-21
CN109918532B true CN109918532B (zh) 2023-08-18

Family

ID=66963962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910175051.0A Active CN109918532B (zh) 2019-03-08 2019-03-08 图像检索方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109918532B (zh)
WO (1) WO2020182019A1 (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918532B (zh) * 2019-03-08 2023-08-18 苏州大学 图像检索方法、装置、设备及计算机可读存储介质
CN111079828B (zh) * 2019-12-13 2023-10-20 北京因特睿软件有限公司 基于神经网络的图像聚类的方法、装置与存储介质
CN111325322A (zh) * 2020-02-12 2020-06-23 深圳壹账通智能科技有限公司 基于隐私保护的深度学习方法、***、服务器及存储介质
CN111581421B (zh) * 2020-04-30 2024-06-04 京东方科技集团股份有限公司 图像检索方法、图像检索装置及图像检索***
CN111626408B (zh) * 2020-05-22 2021-08-06 深圳前海微众银行股份有限公司 哈希编码方法、装置、设备及可读存储介质
CN111612080B (zh) * 2020-05-22 2021-11-09 深圳前海微众银行股份有限公司 模型解释方法、设备及可读存储介质
CN111813975A (zh) * 2020-07-09 2020-10-23 国网电子商务有限公司 一种图像检索方法、装置及电子设备
CN111967609B (zh) * 2020-08-14 2021-08-06 深圳前海微众银行股份有限公司 模型参数验证方法、设备及可读存储介质
CN112131421B (zh) * 2020-09-23 2023-09-15 平安科技(深圳)有限公司 医学图像分类方法、装置、设备及存储介质
CN112527855B (zh) * 2020-09-23 2024-05-03 广东协城信息科技有限公司 一种人脸向量快速比对技术
CN112132099A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 身份识别方法、掌纹关键点检测模型训练方法和装置
CN112256895B (zh) * 2020-10-16 2024-07-19 江南大学 一种基于多任务学习的织物图像检索方法
CN112231514B (zh) * 2020-10-19 2024-01-05 腾讯科技(深圳)有限公司 一种数据去重方法、装置及存储介质和服务器
CN112215302A (zh) * 2020-10-30 2021-01-12 Oppo广东移动通信有限公司 图像的标识方法、标识装置及终端设备
CN112270760B (zh) * 2020-11-03 2023-07-25 北京百度网讯科技有限公司 一种定位方法、装置、电子设备及存储介质
CN112561053B (zh) * 2020-11-10 2023-09-08 北京百度网讯科技有限公司 图像处理方法、预训练模型的训练方法、装置和电子设备
CN112307248B (zh) * 2020-11-26 2023-11-03 国网数字科技控股有限公司 一种图像检索方法及装置
CN112182262B (zh) * 2020-11-30 2021-03-19 江西师范大学 一种基于特征分类的图像查询方法
CN112801867B (zh) * 2020-12-30 2023-10-31 杭州趣链科技有限公司 基于区块链的卫星遥感图像拼接方法、装置及设备
CN112907712A (zh) * 2021-01-22 2021-06-04 杭州电子科技大学 一种基于多视图散列增强哈希的三维模型特征表示方法
CN112766288B (zh) * 2021-03-03 2024-01-23 重庆赛迪奇智人工智能科技有限公司 图像处理模型构建方法、装置、电子设备和可读存储介质
CN112925940B (zh) * 2021-03-04 2022-07-01 浙江中设天合科技有限公司 一种相似图像检索方法、装置、计算机设备及存储介质
CN112966755A (zh) * 2021-03-10 2021-06-15 深圳市固电电子有限公司 电感缺陷检测方法、设备及可读存储介质
CN113094531B (zh) * 2021-03-22 2022-05-20 华中科技大学 一种存内图像检索方法及检索***
CN113111953B (zh) * 2021-04-20 2022-08-26 深圳吉祥星科技股份有限公司 一种投影画质处理装置
CN113270199B (zh) * 2021-04-30 2024-04-26 贵州师范大学 医学跨模态多尺度融合类别指导哈希方法及其***
CN113536012A (zh) * 2021-05-26 2021-10-22 浙江大华技术股份有限公司 图像检索方法、装置、电子设备、计算机可读存储介质
CN113542750B (zh) * 2021-05-27 2024-06-25 绍兴市北大信息技术科创中心 采用两套以上哈希表进行搜索的数据编码方法
CN113326393B (zh) * 2021-05-31 2023-04-07 深圳前瞻资讯股份有限公司 一种基于深度哈希特征和异构并行处理的图像检索方法
CN113239226A (zh) * 2021-06-01 2021-08-10 平安科技(深圳)有限公司 一种图像检索方法、装置、设备及存储介质
CN113177130B (zh) * 2021-06-09 2022-04-08 山东科技大学 基于二值语义嵌入的图像检索和识别方法和装置
CN113344826B (zh) * 2021-07-06 2023-12-19 北京锐安科技有限公司 图像处理方法、装置、电子设备及存储介质
CN113918753B (zh) * 2021-07-23 2024-05-28 腾讯科技(深圳)有限公司 基于人工智能的图像检索方法及相关设备
CN113688261B (zh) * 2021-08-25 2023-10-13 山东极视角科技股份有限公司 图像数据清理方法、装置、电子设备及可读存储介质
CN114547354B (zh) * 2022-02-15 2023-04-07 华南师范大学 一种基于函数自适应映射的深度哈希方法
CN114446407A (zh) * 2022-03-03 2022-05-06 冰洲石生物科技(上海)有限公司 化学反应的反应模板提取方法、***、介质及电子设备
CN114780763A (zh) * 2022-03-28 2022-07-22 东南大学 一种用于室内设计家具模型的高效检索方法
CN115964527B (zh) * 2023-01-05 2023-09-26 北京东方通网信科技有限公司 一种用于单标签图像检索的标签表征构建方法
CN117156138B (zh) * 2023-10-31 2024-02-09 季华实验室 图像的不定长深度哈希编码方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN107423306A (zh) * 2016-05-24 2017-12-01 华为技术有限公司 一种图像检索方法及装置
CN108491528A (zh) * 2018-03-28 2018-09-04 苏州大学 一种图像检索方法、***及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275747B2 (en) * 2015-03-12 2022-03-15 Yahoo Assets Llc System and method for improved server performance for a deep feature based coarse-to-fine fast search
CN108399211B (zh) * 2018-02-02 2020-11-24 清华大学 基于二值特征的大规模图像检索算法
CN108427738B (zh) * 2018-03-01 2022-03-25 中山大学 一种基于深度学习的快速图像检索方法
CN108932314A (zh) * 2018-06-21 2018-12-04 南京农业大学 一种基于深度哈希学习的菊花图像内容检索方法
CN109918532B (zh) * 2019-03-08 2023-08-18 苏州大学 图像检索方法、装置、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN107423306A (zh) * 2016-05-24 2017-12-01 华为技术有限公司 一种图像检索方法及装置
CN106407352A (zh) * 2016-09-06 2017-02-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于深度学习的交通图像检索方法
CN108491528A (zh) * 2018-03-28 2018-09-04 苏州大学 一种图像检索方法、***及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Cascaded Deep Hashing for Large-Scale Image Retrieval;Jun Lu等;《https://link.springer.com/chapter/10.1007/978-3-030-04224-0_36》;20181230;第1-26页 *

Also Published As

Publication number Publication date
CN109918532A (zh) 2019-06-21
WO2020182019A1 (zh) 2020-09-17

Similar Documents

Publication Publication Date Title
CN109918532B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN108416384B (zh) 一种图像标签标注方法、***、设备及可读存储介质
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN105354307B (zh) 一种图像内容识别方法及装置
CN110188223B (zh) 图像处理方法、装置及计算机设备
CN109960737B (zh) 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN110647904B (zh) 一种基于无标记数据迁移的跨模态检索方法及***
CN107506793B (zh) 基于弱标注图像的服装识别方法及***
CN108491528B (zh) 一种图像检索方法、***及装置
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其***
US20120221572A1 (en) Contextual weighting and efficient re-ranking for vocabulary tree based image retrieval
CN108334574A (zh) 一种基于协同矩阵分解的跨模态检索方法
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111950728B (zh) 图像特征提取模型的构建方法、图像检索方法及存储介质
JPWO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
Qian et al. Landmark summarization with diverse viewpoints
CN113806580B (zh) 基于层次语义结构的跨模态哈希检索方法
CN104731882A (zh) 一种基于哈希编码加权排序的自适应查询方法
CN112819162A (zh) 一种知识图谱三元组的质检方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant