CN113051417A

CN113051417A - 一种细粒度图像检索方法及***

Info

Publication number: CN113051417A
Application number: CN202110423306.8A
Authority: CN
Inventors: 项欣光; 张亚杰; 金露
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-06-29
Anticipated expiration: 2041-04-20
Also published as: CN113051417B

Abstract

本发明涉及一种细粒度图像检索方法及***，先计算待检索图片的哈希码，然后计算待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离，并按照汉明距离从小到大的顺序依次选取预定个数的图片作为检索图片，由于哈希码是一种短的二进制码，其可以在数据库中进行高效的存储，进而通过计算汉明距离来表征数据之间的相似度能够缩短细粒度图像检索的时间，提高检索的时间效率。

Description

一种细粒度图像检索方法及***

技术领域

本发明涉及细粒度图像检索技术领域，特别是涉及一种细粒度图像检索方法及***。

背景技术

图片检索技术是计算机视觉领域的核心问题之一，图片检索是指给定一张图片，需要在数据库中检索出跟该图片相似的图片。在图片检索技术中，目前大部分工作都是在通用图片的基础上进行研究，对于细粒度图像的检索技术还有待挖掘。细粒度图像是指对属于某一类基础类别的图像进行子类别的细分，比如对各种鸟进行细分。相比于通用图像，细粒度图像的每一子类都是同属于一个大类，所以不同子类别之间的总体结构非常相似，而由于拍摄角度或者姿势的原因，所属同一子类的图片之间还会存在较大的差异。因此，这种类间差异小、类内差异大的特点增加了深度网络的复杂度，进而增加了细粒度图像的识别时间。

发明内容

本发明的目的是提供一种细粒度图像检索方法及***，能够缩短细粒度图像检索的时间。

为实现上述目的，本发明提供了如下方案：

一种细粒度图像检索方法，所述检索方法包括如下步骤：

计算待检索图片的哈希码；

计算所述待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离，并按照所述汉明距离从小到大的顺序依次选取预定个数的所述图片作为检索图片。

一种细粒度图像检索***，所述检索***包括：

哈希码计算单元，用于计算待检索图片的哈希码；

检索图片选取单元，用于计算所述待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离，并按照所述汉明距离从小到大的顺序依次选取预定个数的所述图片作为检索图片。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明用于提供一种细粒度图像检索方法及***，先计算待检索图片的哈希码，然后计算待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离，并按照汉明距离从小到大的顺序依次选取预定个数的图片作为检索图片，由于哈希码是一种短的二进制码，其可以在数据库中进行高效的存储，进而通过计算汉明距离来表征数据之间的相似度能够显著缩短细粒度图像检索的时间，提高检索的时间效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的检索方法的方法流程图。

图2为本发明实施例1所提供的训练模型的结构示意图。

图3为本发明实施例1所提供的训练方法的方法流程图。

图4为本发明实施例1所提供的计算二值离散类中心的方法流程图。

图5为本发明实施例1所提供的计算显著性局部特征的方法流程图。

图6为本发明实施例1所提供的计算模型的结构示意图。

图7为本发明实施例2所提供的检索***的***框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

请参见图1，本实施例用于提供一种细粒度图像检索方法，所述检索方法包括如下步骤：

S1：计算待检索图片的哈希码；

S2：计算所述待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离，并按照所述汉明距离从小到大的顺序依次选取预定个数的所述图片作为检索图片。

对于检索技术而言，需要能够对细粒度图像进行快速检索。而哈希表示能够将数据从高维空间映射到低维空间，并将数据采用二进制码(哈希码)来表示，数据之间的相似度则可以通过哈希码之间的汉明距离来表示。这种短的二进制码可以进行高效的存储，进而通过计算汉明距离来确定数据之间的相似度可以提升检索的时间效率。因此，需要有能够用哈希码来进行细粒度图像检索的方法，本实施例旨在将细粒度图像进行哈希编码以实现快速检索。

为了设计一种能够进行快速检索的细粒度图像检索网络，本实施例先设计了一种训练模型，通过对训练模型进行训练，来得到用于计算待检索图像的哈希码的计算模型。

具体的，请参见图2，本实施例所用的训练模型包括：

特征提取模块，用于利用卷积网络层提取训练图片的特征；卷积网络层可由具有残差结构块的多个卷积层组成。

全局特征提取模块，与所述特征提取模块相连接，用于根据所述特征，利用全局平均池化层计算所述训练图片的全局特征；

局部特征提取模块，分别与所述特征提取模块和所述全局特征提取模块相连接，用于根据所述特征和所述全局特征计算所述训练图片的显著性局部特征；

哈希码计算模块，与所述全局特征提取模块相连接，用于根据所述全局特征，利用第一全连接层计算所述训练图片的哈希码；

离散类中心计算模块，与所述哈希码计算模块相连接，用于根据所有所述训练图片的哈希码计算二值离散类中心；

预测标签计算模块，与所述全局特征提取模块相连接，用于根据所述全局特征，利用第二全连接层计算所述训练图片的预测标签。

对上述训练模型进行训练时，需要先生成训练数据集。具体的，先选取N个训练图片，形成训练数据集，训练数据集中的每一训练图片均具有真实标签，即知晓每一训练图片的真实类别，训练图片的类别个数为C。在利用训练数据集对训练模型进行训练之前，本实施例的检索方法还包括对每一训练图片进行预处理，预处理可以包括：将训练图片缩放为方形的训练图片，具体可缩放成具有224*224像素的训练图片，然后将缩放后的训练图片读取为具有实值的三维矩阵，该三维矩阵分别包括训练图片RGB图像通道的像素值。再将训练图片进行随机翻转，能够提高训练数据的多样性，提高训练模型的鲁棒性。最后将训练图片的像素值归一化到[0，1]之间。

请参见图3，利用上述训练数据集对训练模型进行训练得到计算模型时，所用的训练方法可以包括：

S11：利用卷积网络层提取多个训练图片的特征；

在进行训练时，可以将多个训练图片同时输入卷积网络层。本实施例对同时输入至卷积网络层内的训练图片的数量不做限定。

通过卷积网络层提取训练数据集中每一个训练图片的特征X，具体的，该特征X为网格特征，该网格特征一般携带训练图片的高层语义特征。特征X为三维矩阵，其对应的三个维度分别为长度维度、宽度维度和通道维度，可以认为通道维度即为高度维度。将长度维度的数量记为H，宽度维度的数量记为W，通道维度的数量记为D。通道维度的数量与卷积网络层针对一张训练图片所提取出的特征图个数和卷积网络层所包括的卷积核个数相同。对特征X这一三维矩阵进行变换，记Z轴方向上的每一竖列组成一个通道单元，进而特征X具有HW个通道单元，将HW个通道单元按行进行排列，则可将特征X转换为二维矩阵(HW×D)，将该二维矩阵记为特征通道单元矩阵F，F有HW行，D列。

S12：根据所述特征，利用全局平均池化层计算每一所述训练图片的全局特征；

全局特征的长度为D。

S13：根据所述全局特征，利用第一全连接层计算每一所述训练图片的哈希码；

对于每一训练图片，将全局特征G通过第一全连接层得到中间数据B1，其长度为q。将中间数据B1送入tanh()激活函数得到哈希码B，哈希码B的长度为q。

S14：根据所有所述训练图片的哈希码计算二值离散类中心；

由于训练通常是在所有数据中采样一批数据进行训练，这样的训练方式会使训练模型在局部空间内计算训练图片的相似性，不便于哈希码的学习。因此，本实施例提供了一种基于离散类中心的哈希码学习方法，有利于训练模型在训练过程中尽可能在全局空间内衡量训练图片的相似性。

利用S13得到训练数据集中每一训练图片的哈希码后，请参见图4，S14可以包括：

S141：根据所有所述训练图片的真实标签，将所有所述训练图片分为多类；所述真实标签为所述训练图片的真实类别；

S142：分别计算每一类所包括的所述训练图片的哈希码的均值，得到每一类的哈希类中心；

具体的，第c类的哈希类中心的计算公式如下：

式1中，C1_c为第c类的哈希类中心；N_c为训练数据集中真实标签属于第c类的训练图片的个数；n_c＝1，2，...N_c；

为第c类训练图片中的第n_c个训练图片的哈希码。

S143：将所有所述哈希类中心进行施密特正交化处理，得到正交化类中心；

将正交化类中心记为C2。

S144：根据所述正交化类中心，利用符号函数得到二值离散类中心。

将正交化类中心C2输入sign()函数，得到二值离散类中心C3，C3有C行，q列。

S15：根据所述全局特征，利用第二全连接层计算每一所述训练图片的预测标签；

S16：根据所述特征和所述全局特征计算每一所述训练图片的显著性局部特征；

在对细粒度图像进行检索时，为了区分类别之间的细微差异，需要对图片的显著性特征进行识别。对于显著性特征的识别，现有的方法可以分为三类，它们分别是：(1)结合局部特征标注信息和目标检测的方法提取细粒度图像的局部特征，但局部特征标注结果的采集需要很大的人力，并且目标检测的局部特征提取需要大量的计算资源和时间，不利于实现快速的图片检索；(2)采用注意力机制的方法和图片的类别标志信息进行弱监督的显著特征提取，这种方式的缺陷是注意力机制会引入额外的网络参数，增加计算时间和资源；(3)采用双线性卷积网络来获取特征的高阶特征，但双线性卷积网络结构计算后的特征维度是平方的增长，占用计算资源。为了节约计算时间和资源，本实施例提供了一种基于关键点的显著性局部特征提取方法，此方法不需要引入额外的网络参数，并且只在训练阶段使用来促进全局特征的表示，在将训练模型训练好以得到计算模型后，再用计算模型计算哈希码，则不再涉及提取显著性局部特征的过程，大大加快了特征编码时间，并节省计算资源。

另外，虽然全局特征可以通过分类损失进行约束，但是细粒度图像的整体结构非常相似，仅仅依靠分类损失不足以很好地区分类别之间的差异。因此，本实施例提供了基于关键点的显著性局部特征提取方法来提取细粒度图像的显著性局部特征，并且这些显著性局部特征的学习可以促进训练模型学习到更好的全局特征。显著性局部特征需要具备两个条件，分别是：①在一个细粒度图像中，良好的局部特征的位置之间应该不是重合，并且有一定的距离。以鸟类为例，鸟的显著性局部区域一般是鸟的嘴、肚子、翅膀、冠，它们这些区域相对于整个身体来说位置是不同的并且没有重合。②良好的局部特征应该是网格特征中激活值比较高的区域，因为不同类别细粒度图片之间的整体结构是非常相似的，它们的差异主要体现在固有的局部特征中，所以显著性局部特征应该是网格特征中激活值比较高的区域。基于这两个条件，本实施例设计了基于关键点的显著性局部特征提取方法。

对于每一训练图片，请参见图5，S16可以包括：

S161：将所述特征在通道维度上进行求和，得到激活映射矩阵；所述特征为三维矩阵，包括通道维度、长度维度和宽度维度；

将特征对应的三维矩阵在Z轴方向上进行求和，选取XOY平面上，所有第h行，第w列的像素值，将这些像素值在Z轴方向上求和，得到激活映射矩阵。激活映射矩阵为二维矩阵，其有H行，W列。

S162：分别在所述长度维度和所述宽度维度上，将所述激活映射矩阵等分为A份，得到A×A个局部激活块；

S163：选取每一所述局部激活块中激活值最高的点作为候选关键点，得到A×A个候选关键点；

S164：根据所述候选关键点的位置，选取每一所述候选关键点所对应的所述特征的通道单元，得到关键点通道单元矩阵；

根据候选关键点的行列坐标，定位到特征X中，提取出这一位置点对应通道单元。举例而言，候选关键点位于第h行第w列，则选取特征X中第h行第w列对应的通道单元，所有候选关键点的通道单元组成关键点通道单元矩阵E。E有AA行，D列。

S165：根据所述关键点通道单元矩阵和所述特征计算语义关系矩阵；

语义关系矩阵的计算公式为：

T＝EF^T (2)

式2中，T为语义关系矩阵；E为关键点通道单元矩阵；F为特征通道单元矩阵矩阵。进而得到每一候选关键点的通道单元与特征中每一通道单元之间的语义关系，T有AA行，HW列。

S166：根据每一所述候选关键点的通道单元的位置和所述特征计算位置关系矩阵；

位置关系矩阵的计算公式为：

式3中，L_ij为第i个候选关键点的通道单元的位置与特征中第j个通道单元的位置之间的位置关系；K_i为第i个候选关键点的通道单元的位置，i＝1，2，...AA；F_j为特征中第j个通道单元的位置，j＝1，2，...HW。所有的L_ij组成位置关系矩阵L。L有AA行，HW列。

S167：根据所述语义关系矩阵和所述位置关系矩阵计算综合关系矩阵；

综合关系矩阵的计算公式为：

式4中，M为综合关系矩阵。进而得到每一候选关键点的通道单元与特征中每一通道单元之间的综合关系，M有AA行，HW列。

S168：根据所述综合关系矩阵和所述特征计算每一所述候选关键点对应的局部特征；

局部特征的计算公式为：

式5中，O_i为第i个候选关键点对应的局部特征；M_ij为第i个候选关键点的通道单元与特征中第j个通道单元之间的综合关系；F_j为特征中第j个通道单元。

S169：计算每一所述局部特征与所述全局特征之间的余弦距离，按照所述余弦距离从小到大的顺序选取预定个数的局部特征作为显著性局部特征。

预设个数为K，利用上述方法，对于每一训练样本，均可以得到K个显著性局部特征。在训练过程中，提取显著性局部特征，以对训练模型的网络参数进行训练，能够对细粒度图像进行更加详细的区分，在实际进行细粒度图像的检索时，精确度高。

S17：根据所述二值离散类中心、所述预测标签和所述显著性局部特征，利用损失函数对所述卷积网络层、所述第一全连接层和所述第二全连接层的网络参数进行调整，直至所述损失函数收敛，得到训练好的训练模型，并选取所述训练好的训练模型的部分结构作为计算模型。

所述损失函数的公式为：

l＝λ₁l₁+λ₂l₂+λ₃l₃； (6)

其中，l为损失函数；l₁为分类损失；λ₁为分类损失对应的第一权重；l₂为局部特征损失；λ₂为局部特征损失对应的第二权重；l₃为语义相似度损失；λ₃为语义相似度损失对应的第三权重。

利用S15计算得到的每一训练图片的预测标签，来计算分类损失。分类损失的计算公式为：

式7中，N为训练图片的个数；n＝1，2，..N；C为所有训练图片的类别的个数；c＝1，2，...C；Y_nc为第n个训练图片的真实类别为c；

为第n个训练图片被预测为第c类的数值。

利用S16计算得到的每一训练图片的显著性局部特征，来计算局部特征损失。在计算之前，对于每一训练图片，先确定其对应的正样本和负样本。将真实标签与训练图片的真实标签相同的任意一个训练图片作为正样本，将真实标签与训练图片的真实标签不同的任意一个训练图片作为负样本。所述局部特征损失的计算公式为：

式8中，N为训练图片的个数；n＝1，2，..N；K为显著性局部特征的个数；k＝1，2，...K；f_nk为第n个训练图片对应的负样本的第k个显著性局部特征；

为第n个训练图片的第k个显著性局部特征；t_nk为第n个训练图片对应的正样本的第k个显著性局部特征；m为预设参数，其为预设的正负样本到训练图片距离之间的间隔，该值可由人工调整。

利用S13计算得到的每一训练图片的哈希码和S14得到的二值离散类中心来计算语义相似度损失，语义相似度损失的计算公式为：

l₃＝||PC3^T-qS||+η||P-1||； (9)

式9中，P为所有训练图片的哈希码组成的矩阵，其有N行，q列；C3为二值离散类中心，其有C行，q列；S为所有训练图片的哈希码与二值离散类中心之间的相似度矩阵，如果第n个样本属于第c类，那么S_nc＝1，否则S_nc＝-1，进而确定S中每一元素的元素值。S有N行，C列。

在对训练模型训练完成后，得到训练好的训练模型。在计算待检索图片的哈希码时，不必再采用整个训练模型的结构，而是利用训练模型的部分结构，具体的，请参见图6，所述计算模型包括：

特征提取模块，用于利用卷积网络层提取待检索图片的特征；

全局特征提取模块，与所述特征提取模块相连接，用于根据所述特征，利用全局平均池化层计算所述待检索图片的全局特征；

哈希码计算模块，与所述全局特征提取模块相连接，用于根据所述全局特征，利用第一全连接层计算所述待检索图片的哈希码。

所述计算所述待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离所用的公式为：

式10中，d为汉明距离；q为哈希码的长度；Q为待检索图片的哈希码；R为数据库中图片的哈希码。

本实施例在计算待检索图片的哈希码时，不再需要提取待检索图片的显著性局部特征，而是在得到全局特征后，直接根据全局特征计算待检索图片的哈希码，能够进一步降低细粒度图像的检索时间。

实施例2：

请参见图7，本实施例用于提供一种细粒度图像检索***，所述检索***包括：

哈希码计算单元M1，用于计算待检索图片的哈希码；

检索图片选取单元M2，用于计算所述待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离，并按照所述汉明距离从小到大的顺序依次选取预定个数的所述图片作为检索图片，即优先选取汉明距离小的图片作为检索出来的检索图片。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种细粒度图像检索方法，其特征在于，所述检索方法包括如下步骤：

计算待检索图片的哈希码；

2.根据权利要求1所述的一种细粒度图像检索方法，其特征在于，所述计算待检索图片的哈希码具体包括：利用计算模型计算待检索图片的哈希码；

所述计算模型包括：

3.根据权利要求1所述的一种细粒度图像检索方法，其特征在于，所述计算所述待检索图片的哈希码与数据库中每一图片的哈希码之间的汉明距离所用的公式为：

其中，d为汉明距离；q为哈希码的长度；Q为待检索图片的哈希码；R为数据库中图片的哈希码。

4.根据权利要求1所述的一种细粒度图像检索方法，其特征在于，所述检索方法还包括对训练模型进行训练，得到计算模型；

所述训练模型包括：

特征提取模块，用于利用卷积网络层提取训练图片的特征；

5.根据权利要求4所述的一种细粒度图像检索方法，其特征在于，所述对训练模型进行训练，得到计算模型具体包括：

利用卷积网络层提取多个训练图片的特征；

根据所述特征，利用全局平均池化层计算每一所述训练图片的全局特征；

根据所述全局特征，利用第一全连接层计算每一所述训练图片的哈希码；

根据所有所述训练图片的哈希码计算二值离散类中心；

根据所述全局特征，利用第二全连接层计算每一所述训练图片的预测标签；

根据所述特征和所述全局特征计算每一所述训练图片的显著性局部特征；

根据所述二值离散类中心、所述预测标签和所述显著性局部特征，利用损失函数对所述卷积网络层、所述第一全连接层和所述第二全连接层的网络参数进行调整，直至所述损失函数收敛，得到训练好的训练模型，并选取所述训练好的训练模型的部分结构作为计算模型。

6.根据权利要求5所述的一种细粒度图像检索方法，其特征在于，所述根据所有所述训练图片的哈希码计算二值离散类中心具体包括：

根据所有所述训练图片的真实标签，将所有所述训练图片分为多类；所述真实标签为所述训练图片的真实类别；

分别计算每一类所包括的所述训练图片的哈希码的均值，得到每一类的哈希类中心；

将所有所述哈希类中心进行施密特正交化处理，得到正交化类中心；

根据所述正交化类中心，利用符号函数得到二值离散类中心。

7.根据权利要求5所述的一种细粒度图像检索方法，其特征在于，所述根据所述特征和所述全局特征计算每一所述训练图片的显著性局部特征具体包括：

将所述特征在通道维度上进行求和，得到激活映射矩阵；所述特征为三维矩阵，包括通道维度、长度维度和宽度维度；

分别在所述长度维度和所述宽度维度上，将所述激活映射矩阵等分为A份，得到A×A个局部激活块；

选取每一所述局部激活块中激活值最高的点作为候选关键点，得到A×A个候选关键点；

根据所述候选关键点的位置，选取每一所述候选关键点所对应的所述特征的通道单元，得到关键点通道单元矩阵；

根据所述关键点通道单元矩阵和所述特征计算语义关系矩阵；

根据每一所述候选关键点的通道单元的位置和所述特征计算位置关系矩阵；

根据所述语义关系矩阵和所述位置关系矩阵计算综合关系矩阵；

根据所述综合关系矩阵和所述特征计算每一所述候选关键点对应的局部特征；

计算每一所述局部特征与所述全局特征之间的余弦距离，按照所述余弦距离从小到大的顺序选取预定个数的局部特征作为显著性局部特征。

8.根据权利要求5所述的一种细粒度图像检索方法，其特征在于，所述损失函数的公式为：

l＝λ₁l₁+λ₂l₂+λ₃l₃；

9.根据权利要求8所述的一种细粒度图像检索方法，其特征在于，所述局部特征损失的计算公式为：

其中，N为训练图片的个数；n＝1，2，..N；K为显著性局部特征的个数；k＝1，2，...K；f_nk为第n个训练图片对应的负样本的第k个显著性局部特征；

为第n个训练图片的第k个显著性局部特征；t_nk为第n个训练图片对应的正样本的第k个显著性局部特征；m为预设参数。

10.一种细粒度图像检索***，其特征在于，所述检索***包括：

哈希码计算单元，用于计算待检索图片的哈希码；