WO2020182019A1

WO2020182019A1 - 图像检索方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2020182019A1
Application number: PCT/CN2020/077586
Authority: WO
Inventors: 张莉; 陆鋆; 周伟达; 王邦军; 章晓芳; 屈蕴茜; 赵雷
Original assignee: 苏州大学
Priority date: 2019-03-08
Filing date: 2020-03-03
Publication date: 2020-09-17
Also published as: CN109918532A; CN109918532B

Abstract

一种图像检索方法、装置、设备及计算机可读存储介质。其中，方法包括以图像数据库中的图像对为输入，以图像对映射得到的哈希编码对间的距离、标签类别和图像对的特征相似度为损失值，采用机器学习优化算法优化损失值以训练得到深度哈希映射模型（S101）；将待检索图像利用深度哈希映射模型映射为待检索哈希编码（S102）；在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像，作为待检索图像在图像数据库的检索结果进行输出，哈希编码库为将图像数据库中每张图像经深度哈希映射模型映射后所得（S103）。该方法有效地解决了相关技术中同一类别图像哈希编码过于一致的问题，从而实现了同一类别图像的准确检索。

Description

图像检索方法、装置、设备及计算机可读存储介质

本申请要求于2019年3月8日提交至中国专利局、申请号为201910175051.0、发明名称为“图像检索方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及图像处理技术领域，特别是涉及一种图像检索方法、装置、设备及计算机可读存储介质。

背景技术

近些年来，随着互联网的进一步普及和大数据技术的深入应用，每天都会有数以亿计的图像产生。图像数据资源的集中和规模的增大使得现有技术越来越难以满足用户图像检索的需求。因此，如何有效地描述图像的特征信息，采用何种数据结构进行高效索引和快速相似性检索等问题成为了这个方向的研究热点。

面对大规模的图像数据，鉴于二进制编码具有易于比较与存储的性质，可以极大的提升相似性检索的速度并节省更多的计算机资源，故在进行图像检索时一般将图像映射成二进制编码。

深度学习的出现推动了计算机视觉的发展，也为学习哈希映射方法提供了更有效的工具。相关技术用神经网络模型映射哈希编码，然利用图像的方式训练深度学习模型，通过损失函数来约束该模型参数，取得了较为不错的结果。

但是，该训练得到的二进制编码存在这样的问题：同类图像的哈希编码过于一致，因而同类图像近乎毫无区分度，无法辨别出与检索图像较为相似的图像，也就是说，相关技术无法对同一类别图像进行检索。

发明内容

本公开实施例提供了一种图像检索方法、装置、设备及计算机可读存储介质，实现了同一类别图像的准确检索。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种图像检索方法，包括：

利用预先构建的深度哈希映射模型将待检索图像映射为待检索哈希编码；

在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像，以作为所述待检索图像在图像数据库的检索结果；

其中，所述深度哈希映射模型为以所述图像数据库中的图像对为输入，以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值，采用机器学习优化算法优化所述损失值训练所得；所述标签类别用于标识所述图像对中两张图像的相似性；所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得。

可选的，所述深度哈希映射模型的训练过程包括：

将全连接层为哈希编码层的卷积神经网络模型作为所述深度哈希映射模型的网络结构；

以所述图像数据库中的图像对作为所述网络结构的输入，以下述公式作为所述网络结构的损失值，采用随机梯度下降优化所述损失值训练所述网络结构：

式中，Loss为所述损失值，第i张图像与第j张图像组成所述图像对，n为所述图像数据库中图像总个数，S _i,j为第i张图像与第j张图像的深度特征相似度，o _i为第i张图像的哈希编码，o _j为第j张图像的哈希编码，||o _i-o _j|| ₂为的哈希编码对间的距离，α为超参数，y _i,j为标签类别，y _i,j＝1表示第i张图像与第j张图像为同一类别图像，y _i,j＝0表示第i张图像与第j张图像为不同类别图像。

可选的，第i张图像与第j张图像的深度特征相似度值可从预先计算得到的相似度矩阵获取，所述相似度矩阵计算过程为：

利用预先构建的卷积神经网络模型提取所述图像数据库中各图像的深度特征，生成深度特征向量集合；

分别计算所述深度特征向量集合中两两向量之间的欧氏距离，生成所述图像数据库的相似度矩阵；

其中，所述卷积神经网络为基于深度学习利用所述图像数据库中图像训练所得。

可选的，所述第i张图像与第j张图像的深度特征相似度值的计算过程为：

利用下述公式计算第i张图像与第j张图像的深度特征相似度值：

式中，f _i为第i张图像的深度特征向量，f _j为第j张图像的深度特征向量，y _i,j＝1表示第i张图像与第j张图像为同一类别图像，y _i,j＝0表示第i张图像与第j张图像为不同类别图像，α、β为超参数。

可选的，所述卷积神经网络模型为VGG-16网络模型。

可选的，所述哈希编码库的生成过程为：

将所述图像数据库中的每张图像输入至所述深度哈希映射模型，通过设置阈值，将所述深度哈希映射模型的哈希编码层的输出映射为哈希编码；

根据每张图像的哈希编码生成所述哈希编码库；

其中，所述图像数据库的第i张图像的第m位编码

如下式：

式中，

为第i张图像的第m位在哈希编码层的输出，θ为所述阈值。

可选的，所述在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像为：

在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像；

按照与所述待检索哈希编码的汉明距离差值从小到大对T张图像进行排序；

输出排序后的T张图像。

本发明实施例另一方面提供了一种图像检索装置，包括：

模型训练模块，用于以图像数据库中的图像对为输入，以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值，采用机器学习优化算法优化所述损失值以训练得到深度哈希映射模型；所述标签类别用于标识所述图像对中两张图像的相似性；

哈希编码生成模块，用于利用所述深度哈希映射模型将待检索图像映射为待检索哈希编码；

图像检索模块，用于在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像，以作为所述待检索图像在图像数据库的检索结果；所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得。

本发明实施例还提供了一种图像检索设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述图像检索方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有图像检索程序，所述图像检索程序被处理器执行时实现如前任一项所述图像检索方法的步骤。

本申请提供的技术方案的优点在于，在训练哈希映射模型时考虑图像数据中各图像之间相似度，图像间越相似，映射得到的哈希编码之间的汉明距离就越小，图像间越不相似，映射得到的哈希编码之间的汉明距离就稍大，促使同类图像映射得到的哈希编码之间的汉明距离根据图像间的相似度来决定，有效地解决了相关技术中同一类别图像哈希编码过于一致导致同类图像无法检索的问题，从而实现了同一类别图像的准确检索。

此外，本发明实施例还针对图像检索方法提供了相应的实现装置、设备及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置、设备及计算机可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像检索方法的流程示意图；

图2为本公开根据一示例性实施例示出的一种深度哈希映射模型的生成过程示意图；

图3为本公开根据一示例性实施例示出的一种VGG-16网络结构示意图；

图4为本公开根据一示例性实施例示出的另一种VGG-16网络结构示意图；

图5为本公开根据一示例性实施例示出的相似性矩阵的生成过程示意图；

图6为本公开根据一示例性实施例示出的本申请技术方案的二进制编码分布示意图；

图7为本公开根据一示例性实施例示出的相关技术的二进制编码分布示意图；

图8为本发明实施例提供的图像检索装置的一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种图像检索方法的流程示意图，本发明实施例可包括以下内容：

S101：预先以图像数据库中的图像对为输入，以图像对映射得到的哈希编码对间的距离、标签类别和图像对的特征相似度为损失值，采用机器学习优化算法优化损失值以训练得到深度哈希映射模型。

首先构建卷积神经网络结构用于哈希映射，然后基于图像数据库和图像相似度矩阵学习得到该卷积网络结构的参数权重，从而完成基于图像相似度的深度哈希映射模型构建，深度哈希映射模型的训练过程可如下所述，请参阅图2所示：

将全连接层为哈希编码层的卷积神经网络模型作为深度哈希映射模型的网络结构，卷积神经网络结构可采用任何一种卷积神经网络结构，例如可为图3所示的VGG-16网络模型，VGG-16网络模型通过增加网络深度提高了整个卷积神经网络的最终性能。当然，也可为其他卷积网络结构，这均不影像本申请的实现。可通过在卷积神经网络的最后一层前添加一层全连接层，结点数即为哈希编码长度，作为哈希编码层，哈希编码层的生成过程可参阅任何一种相关技术中记载的实现过程，此处，便不再赘述。

图像数据库为待检索图像检索与其相似或相同图像的数据库，该数据库包含大量图像。

在训练深度哈希映射模型的时，可加入图像相似度的比较，使得不同类别图像映射得到的哈希编码之间的汉明距离要尽可能的大；同一类别图像映射得到的哈希编码之间的汉明距离根据图像间的相似度来决定，具体表达为图像间越相似，映射得到的哈希编码之间的汉明距离就越小；图像间越不相似，映射得到的哈希编码之间的汉明距离就稍大。

鉴于此，可以图像数据库中的随机的一个图像对作为网络结构的输入，图像数据库中任何两张图像随机构成一个图像对，且每个图像对具有标签类别，标签类别用于标识构成图像对的这两张图像的相似性，若这两张图像为同一类别的图像，则图像对的标签类别为相似；若这两张图像不为同一类别的图像，则图像对的标签类别为不相似。举例来说，图像数据库中的图像表示为集合X＝{x ₁,x ₂,…,x _n}，也就是图像数据库中共有n张图像，第i张图像和第j张图像构成的图像对可表示为(x _i,x _j)，用符号y _i,j来表示该图像的标签，y _i,j＝1表示这两张图像相似，y _i,j＝0表示这两张图像不相似。

提取每张图像的深度特征，可根据构成图像对的两张图像的深度特征来判断两张图像是否具有相似性。在提取图像的深度特征时，可采用任何一种卷积神经网络模型，例如可参阅图4所示的VGG-16网络作为的网络结构，通过卷积层和池化层获取的特征一般有较高的维度，因此通常选取全连接层输出的特征向量值作为深度特征，图4中fc7层的输出则为深度特征。

在一种具体的实施方式中，可预先为图像数据库生成相应的相似性矩阵，图像对的相似度值可直接从该相似度矩阵中获取。相似性矩阵的生成过程可参阅图5所示，第i张图像与第j张图像的深度特征相似度值可从预先计算得到的相似度矩阵获取，相似度矩阵计算过程可为：

利用预先构建的卷积神经网络模型提取图像数据库中各图像的深度特征，生成深度特征向量集合。卷积神经网络可为基于深度学习利用图像数据库中图像训练所得，为了提高准确率提取图像的深度特征，可利用图像数据库中的图像训练的卷积神经网络模型。用训练好的卷积神经网络模型为图像数据库集合X中的每张图像提取深度特征，第i张图像提取得到的特征向量记为f _i，图像数据库集合X中图像的深度特征向量构成了深度特征向量集合，可表示为F＝{f ₁,f ₂,…,f _n}。

分别计算深度特征向量集合中两两深度特征向量之间的距离，以作为两张图像的相似度值，例如可分别计算深度特征向量集合中两两向量之间的欧氏距离，生成图像数据库的相似度矩阵，相似度矩阵可如图5所示的矩阵。

第i张图像与第j张图像的深度特征相似度值可利用下述公式进行计算：

深度哈希映射模型的损失值可由输入网络结构的图像对的类别、相似度及二进制化约束来决定，对于共有n张图像的图像数据库，可以下述公式作为该网络结构的损失值：

式中，Loss为损失值，第i张图像与第j张图像组成图像对，n为图像数据库中图像总个数，S _i,j为第i张图像与第j张图像的深度特征相似度，o _i为第i张图像的哈希编码，o _j为第j张图像的哈希编码，||o _i-o _j|| ₂为的哈希编码对间的距离，α为超参数，y _i,j为标签类别，y _i,j＝1表示第i张图像与第j张图像为同一类别图像，y _i,j＝0表示第i张图像与第j张图像为不同类别图像。

然后可采用随机梯度下降优化损失值训练该网络结构得到模型权重，以完成深度哈希映射模型的训练。当然，也可采用其他优化算法，本申请对此不做任何限定。

深度哈希映射模型在哈希编码层的输出可采用

来表示，通过设置阈值将其映射成哈希编码。

S102：利用深度哈希映射模型将待检索图像映射为待检索哈希编码。

将待检索图像输入至深度哈希映射模型，将该模型的哈希编码层输出基于阈值映射为待检索图像的哈希编码，即待检索哈希编码。

S103：在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像，以作为待检索图像在图像数据库的检索结果。

哈希编码库与图像数据库相对应，哈希编码库包含的每个哈希编码与图像数据库中的图像唯一相对应，将图像数据库中的每张图像输入至深度哈希映射模型，通过设置阈值，将深度哈希映射模型的哈希编码层的输出映射为相应的哈希编码，然后根据每张图像的哈希编码生成哈希编码库。图像数据库的第i张图像的第m位编码

可如下式：

式中，

为第i张图像的第m位在哈希编码层的输出，θ为阈值。

在图像数据库中检索与待检索图像相似的图像，也即目标图像，可根据待检索图像的哈希编码与图像数据库中各图像的哈希编码之间的汉明距离来决定，可根据汉明距离差值、目标图像输出的张数和图像数据库总图像数目来设置预设条件，例如在一种具体的实施方式中，可在哈希编码库中查找与待检索哈希编码的汉明距离值最小的前T张图像，T值的大小可由图像数据库中图像数量总数和用户实际需求相确定，这均不影响本申请的实现。举例来说，T为2，计算待检索哈希编码依次与图像数据库中各图像的哈希编码的汉明距离差值，那么从10个汉明距离差值中选取最小差值和次小差值对应的图像。

为了方便相似图像的输出，可按照与待检索哈希编码的汉明距离的差值从小到大对T张图像进行排序，然后输出排序后的T张图像。当然也可按照与待检索哈希编码的汉明距离的差值从大到小对T张图像进行排序，这均不影像本申请的实现。

在本发明实施例提供的技术方案中，在训练哈希映射模型时考虑图像数据中各图像之间相似度，图像间越相似，映射得到的哈希编码之间的汉明距离就越小，图像间越不相似，映射得到的哈希编码之间的汉明距离就稍大，促使同类图像映射得到的哈希编码之间的汉明距离根据图像间的相似度来决定，有效地解决了相关技术中同一类别图像哈希编码过于一致导致同类图像无法检索的问题，从而实现了同一类别图像的准确检索。

为了便于本领域技术人员更加清楚明白本申请技术方案，本申请还提供了一个示意性例子，以CIFAR-10数据集作为图像数据库进行了测试。CIFAR-10数据集中共包含60000张32*32*3的彩色图像，共有10个类别，可包括下述内容：

图像数据库中的图像表示为集合X＝{x ₁,x ₂,…,x _n}，共有n张图像，此处取CIFAR-10的前50000张作为训练集，因而n＝50000。将图像随机两张组成一对，第i张图像和第j张图像构成的图像对表示为(x _i,x _j)，用符号y _i,j来表示该图像的标签，y _i,j＝1表示这两张图像相似，y _i,j＝0表示这两张图像不相似。

如图2所示，本例中针对数据集CIFAR-10对卷积神经网络结构CNN ₁稍作修改，全连接层由2层构成，其中fc6为特征提取层。用图像数据库集合X作为训练集训练CNN ₁，使得训练后的CNN ₁提取出的特征能更好的表示图像。

用训练好的CNN ₁为数据库集合X中的每张图像提取深度特征，第i张图像提取得到的特征向量记为f _i，因而数据库集合X每张图像的特征向量构成的集合表示为F＝{f ₁,f ₂,…,f _n}。如图2所示，此处特征提取层fc6由512个结点构成，因而特征向量f _i的维度为(1,512)，特征向量集合F的维度为(50000,512)。

计算特征向量集合F中两两向量之间的距离，得到图像间相似度矩阵，记为S。对于图像间相似度矩阵S，第i行、第j列表示的是：图像对(x _i,x _j)对应的特征向量f _i和f _j之间的距离值S _i,j。

此处，对于CIFAR-10数据集，设定参数β＝30、α＝30。

基于图像相似性的深度哈希映射模型表示为CNN _hash。此例中，哈希编码层的结点个数k＝12，因此哈希编码的位数也为12位。故而，图像x _i在哈希编码层的输出为

来表示。

以随机图像对(x _i,x _j)作为CNN _hash的输入，哈希编码层的输出为(f _i,f _j)。如图2所示，损失函数由3种因素决定：(1)类别y _i,j；(2)相似度S _i,j；(3)二进制化约束。因此，对于总数为n的数据库X，其总的损失值为：

在图像数据库X上，通过梯度下降最小化Loss得到CNN _hash的模型权重w，将训练好的CNN _hash表示为w-CNN _hash。此处，随机梯度下降的学习率可设置为lr＝0.00001。

图像x _i作为本申请深度哈希映射模型w-CNN _hash的输入，得到输出o _i，本例阈值θ＝0将其映射成哈希编码，哈希编码表示为

用

来表示第i张图像的第m位编码，其中：

因而，图像数据库X经w-CNN _hash映射后得到哈希编码库，表示为H。

对于待检索图像x _query，从图像数据库X中检索出最相似的前T张图像。

用本发明模型w-CNN _hash将待检索图像x _query映射成哈希编码h _query；

在哈希编码库H中查找汉明距离最小的前T张图像。

将这T张图像按照与x _query的汉明距离从小到大重新排序。

将重新排序后的T张图像作为检索结果返回。

由上可知，本发明实施例有效地解决了相关技术中同一类别图像哈希编码过于一致的问题，从而实现了同一类别图像的准确检索。

进一步地，为了证实本申请提供的技术方案可实现对同一类别图像的准确检索，可用检索准确率Precison作为评估标准来衡量图像检索算法在一张检索图像的检索效果。Precison的计算方法为：

Rel(i)表示待检索图像和图像数据库中的第i张图像是否相似，如果相似则值为1，不相似则值为0。对于检索图像集X _test，可用所有检索图像的平均检索准确率MRP来衡量不同方法的检索性能。

通过实验，基于图像相似度的深度哈希映射模型的MRP为83.42％，相关技术的MRP为81.78％。由此可见，基于图像相似度的深度哈希映射模型有不错的检索准确率。如图6和7所示，图6为表示CIFAR-10在基于图像相似度的深度哈希映射模型上映射得到的二进制编码分布，共有320种；图7所示为图像数据库经映射后得到的二进制编码分布，共有89种。由此可见，基于图像相似度的深度哈希映射模型映射得到的哈希编码具有多样性，能较好的决绝同类图像的哈希编码过于一致，因而同类图像近乎毫无区分度的问题。

本发明实施例还针对图像检索方法提供了相应的实现装置，进一步使得所述方法更具有实用性。下面对本发明实施例提供的图像检索装置进行介绍，下文描述的图像检索装置与上文描述的图像检索方法可相互对应参照。

参见图8，图8为本发明实施例提供的图像检索装置在一种具体实施方式下的结构图，该装置可包括：

模型训练模块801，用于以图像数据库中的图像对为输入，以图像对映射得到的哈希编码对间的距离、标签类别和图像对的特征相似度为损失值，采用机器学习优化算法优化损失值以训练得到深度哈希映射模型；标签类别用于标识图像对中两张图像的相似性。

哈希编码生成模块802，用于利用深度哈希映射模型将待检索图像映射为待检索哈希编码。

图像检索模块803，用于在预先构建的哈希编码库中查找与待检索哈希编码的汉明距离差值满足预设条件的目标图像，以作为待检索图像在图像数据库的检索结果；哈希编码库为将图像数据库中每张图像经深度哈希映射模型映射后所得。

可选的，在本实施例的一些实施方式中，所述模型训练模块801还可用于将全连接层为哈希编码层的卷积神经网络模型作为深度哈希映射模型的网络结构；

以图像数据库中的图像对作为网络结构的输入，以下述公式作为网络结构的损失值，采用随机梯度下降优化损失值训练网络结构：

在本发明实施例的其他一些实施方式中，所述模型训练模块801还可用于利用预先构建的卷积神经网络模型提取图像数据库中各图像的深度特征，生成深度特征向量集合；

分别计算深度特征向量集合中两两向量之间的欧氏距离，生成图像数据库的相似度矩阵；

其中，卷积神经网络为基于深度学习利用图像数据库中图像训练所得。

在本发明实施例的另外一些实施方式中，所述模型训练模块801还可用于利用下述公式计算第i张图像与第j张图像的深度特征相似度值：

可选的，在本实施例的另一些实施方式中，所述图像检索模块803例如还可以由于在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像；按照与所述待检索哈希编码的汉明距离从小到大对T张图像进行排序；输出排序后的T张图像。

本发明实施例所述图像检索装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种图像检索设备，具体可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上任意一实施例所述图像检索方法的步骤。

本发明实施例所述图像检索设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，存储有图像检索程序，所述图像检索程序被处理器执行时如上任意一实施例所述图像检索方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种图像检索方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

一种图像检索方法，其特征在于，包括：

利用预先构建的深度哈希映射模型将待检索图像映射为待检索哈希编码；

在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像，以作为所述待检索图像在图像数据库的检索结果；

其中，所述深度哈希映射模型为以所述图像数据库中的图像对为输入，以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值，采用机器学习优化算法优化所述损失值训练所得；所述标签类别用于标识所述图像对中两张图像的相似性；所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得。
根据权利要求1所述的图像检索方法，其特征在于，所述深度哈希映射模型的训练过程包括：

将全连接层为哈希编码层的卷积神经网络模型作为所述深度哈希映射模型的网络结构；

以所述图像数据库中的图像对作为所述网络结构的输入，以下述公式作为所述网络结构的损失值，采用随机梯度下降优化所述损失值训练所述网络结构：

式中，Loss为所述损失值，第i张图像与第j张图像组成所述图像对，n为所述图像数据库中图像总个数，S _i,j为第i张图像与第j张图像的深度特征相似度，o _i为第i张图像的哈希编码，o _j为第j张图像的哈希编码，||o _i-o _j|| ₂为的哈希编码对间的距离，α为超参数，y _i,j为标签类别，y _i,j＝1表示第i张图像与第j张图像为同一类别图像，y _i,j＝0表示第i张图像与第j张图像为不同类别图像。
根据权利要求2所述的图像检索方法，其特征在于，第i张图像与第j张图像的深度特征相似度值可从预先计算得到的相似度矩阵获取，所述相似度矩阵计算过程为：

利用预先构建的卷积神经网络模型提取所述图像数据库中各图像的深度特征，生成深度特征向量集合；

分别计算所述深度特征向量集合中两两向量之间的欧氏距离，生成所述图像数据库的相似度矩阵；

其中，所述卷积神经网络为基于深度学习利用所述图像数据库中图像训练所得。
根据权利要求2所述的图像检索方法，其特征在于，所述第i张图像与第j张图像的深度特征相似度值的计算过程为：

利用下述公式计算第i张图像与第j张图像的深度特征相似度值：

式中，f _i为第i张图像的深度特征向量，f _j为第j张图像的深度特征向量，y _i,j＝1表示第i张图像与第j张图像为同一类别图像，y _i,j＝0表示第i张图像与第j张图像为不同类别图像，α、β为超参数。
根据权利要求3所述的图像检索方法，其特征在于，所述卷积神经网络模型为VGG-16网络模型。
根据权利要求1至5任意一项所述的图像检索方法，其特征在于，所述哈希编码库的生成过程为：

将所述图像数据库中的每张图像输入至所述深度哈希映射模型，通过设置阈值，将所述深度哈希映射模型的哈希编码层的输出映射为哈希编码；

根据每张图像的哈希编码生成所述哈希编码库；

其中，所述图像数据库的第i张图像的第m位编码
如下式：

式中，
为第i张图像的第m位在哈希编码层的输出，θ为所述阈值。
根据权利要求1至5任意一项所述的图像检索方法，其特征在于，所述在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像为：

在所述哈希编码库中查找与所述待检索哈希编码的汉明距离值最小的前T张图像；

按照与所述待检索哈希编码的汉明距离差值从小到大对T张图像进行排序；

输出排序后的T张图像。
一种图像检索装置，其特征在于，包括：

模型训练模块，用于以图像数据库中的图像对为输入，以所述图像对映射得到的哈希编码对间的距离、标签类别和所述图像对的特征相似度为损失值，采用机器学习优化算法优化所述损失值以训练得到深度哈希映射模型；所述标签类别用于标识所述图像对中两张图像的相似性；

哈希编码生成模块，用于利用所述深度哈希映射模型将待检索图像映射为待检索哈希编码；

图像检索模块，用于在预先构建的哈希编码库中查找与所述待检索哈希编码的汉明距离差值满足预设条件的目标图像，以作为所述待检索图像在图像数据库的检索结果；所述哈希编码库为将所述图像数据库中每张图像经所述深度哈希映射模型映射后所得。
一种图像检索设备，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述图像检索方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像检索程序，所述图像检索程序被处理器执行时实现如权利要求1至7任一项所述图像检索方法的步骤。