CN116861022A

CN116861022A - 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法

Info

Publication number: CN116861022A
Application number: CN202310841050.1A
Authority: CN
Inventors: 张正卿; 胡超; 赖盛鑫; 邬伟杰; 黄家耀; 朱力强
Original assignee: China Unicom Shanghai Industrial Internet Co Ltd
Current assignee: China Unicom Shanghai Industrial Internet Co Ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-10-10

Abstract

本发明涉及图像检索(ImageRetrieval)技术领域，尤其为通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，其步骤具体如下：步骤S1：图像检索的开源数据集中训练集和验证集；步骤S2：训练时，模型的输入；步骤S3：测试检索排名；步骤S4：图像检索的损失函数采用对比损失函数，模型评价指标除了mAP以外，还新增mP@k，本方法通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，该算法利用深度卷积的方式提取获取gallery库和query库的图像特征，进行LSH哈希编码，大大提升了检索性能，使用孪生网络中的对比学习，大大提升了检索精度。

Description

一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法

技术领域

本发明涉及图像检索(Image Retrieval)技术领域，具体为一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法。

背景技术

以图搜图，或称图像检索，是一种通过输入一张图像(多张可存放在query库)，在图像库(也称gallery库)，通常利用计算机视觉等技术，对输入图像进行特征提取，并与图像库中进行特征匹配，快速准确在图像库中查询到与之类似或相同图像的过程。目前，已有的真正能运用的基于图像内容的检索技术领域主要有2种：一种是基于图像特征(如颜色、纹理等)来区分不同的图像，将图像转换为颜色直方图等方式，利用相似性度量方法(如欧氏距离、余弦相似度等)方式计算图像之间的相似度。这种方法简单易实现，但对于复杂的图像来说，可能无法捕捉到图像的更高级别的语义特征，因此检索效果有限。另一种，基于深度学习的检索技术：利用卷积神经网络(CNN)等深度学习模型进行特征提取和匹配。这种方法可以有效地提取高级别的语义特征，并且在大规模数据集上进行端到端的训练，从而获得更好的性能。但需要大量的数据和计算资源，且对于小规模的数据集效果不佳。前者提取特征有限，只能运用到简单的图像比对，不适合实际场景应用，后者依赖大量的数据支持，精度无法保证。

综上所述，本发明通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法来解决存在的速度和精度无法同时保证的问题。

发明内容

为了克服检索复杂图像和精度的问题，本发明的目的在于提供一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，去重特征冗余，并在损失函数层面进行了优化，实现精度和速度双提升，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，其步骤具体如下：

步骤S1：图像检索的开源数据集中训练集和验证集采用的是retrieval-SfM-120k，测试集则采用Oxford5k、Paris6k、ROxford5k、RParis6k，如需在自己的数据集上进行训练，需要将数据格式准备为与上述数据集一致，对数据进行预处理后，图片输入大小1024*1024*3，使用深度卷积神经网络ResNet101提取RGB图像特征,涉及到gallery库和query库的图像均需提取特征，为了后续检索比对，从gallery库和query库提取特征的区别是是否返回LSH编码，通过局部敏感哈希算法LSH对每张图片特征图进行0，1二进制编码，旨在加快查询图像与图像搜索库的匹配速度；

步骤S2：训练时，模型的输入：训练集中的图片通过模型变成特征向量，从中选取QSIZE，即Q-P对的个数个元组，每个元组共有，即1+1+NNUM个特征向量，分别是查询对象Q，正类P和NNUM个负类N1,N2....查询和正类是由Q-P对直接给出；负类是Q由当前模型的在图片池中的查询结果，按照查询顺序从上到下依次选取NNUM个与q在不同簇的图片，且这NNUM个图片也在不同的簇中；模型的输出：每个元组经过模型的向量特征组成的矩阵；

测试时，模型的输入：测试集中图库的图片和查询对象的图片，测试模型的输出：查询对象的特征矩阵，即所有查询对象的特征向量组成的矩阵和图库图片特征矩阵，即图库图片所有的特征向量组成的矩阵；

步骤S3：测试检索排名：图库图片特征矩阵与查询对象特征矩阵的点乘，得到的是scores矩阵，即维度：图库图片数量*查询数量，其中第i行，第j列表示图片池中的第i个图片与第j个查询对象的相似度得分；ranks是scores的按列排序的索引值，即得分高的图片的索引排在前面，是最终的检索结果；

步骤S4：图像检索的损失函数采用对比损失函数，模型评价指标除了mAP以外，还新增mP@k，是结果列表中top-k检索结果的准确率指标，反映了图像搜索引擎的质量；匹配的图片排的越前面得分会越高，不匹配的图片越排在匹配的后面得分会越高。

作为本方法优选的方案，所述S1中的RGB图像维度是W*H*3，H和W分别的特征图的高和宽，3为通道数。

作为本方法优选的方案，所述S2中图像输入为1024*1024*3，图像经过卷积层，也即卷积神经网络，如ResNet101去掉最后一层，即全连接层，再经过GeM池化层和L2归一化操作，即向量单位化，最终形成一个图像的固定维度的向量表示,即高维特征，涉及到gallery库和query库的图像均需提取特征，为了后续检索比对，从gallery库和query库提取特征的区别是是否返回LSH编码，通过局部敏感哈希算法LSH对每张图片特征图进行0，1二进制编码，旨在加快查询图像与图像搜索库的匹配速度；GeM池化，广义平均池化可以提高输出描述符的质量，

GeM池化：

公式2中，当P_k→∞公式(2)为最大池化，当P_k＝1公式(2)为平均池化，结合注意力机制。

作为本方法优选的方案，所述检索过程具体步骤如下：

首先，将检索库图片池里的图片转换为列向量特征，多个列向量特征再拼在一起组成矩阵，引入局部敏感哈希算法，即LSH对检索库中的图片进行编码，旨在提升检索效率；LSH算法如下所示：

S1-初始化：随机生成k个随机向量作为初始的哈希表；

S2-计算哈希：对于每个查询向量x,将其哈希为一个哈希值h(x),并将h(x)映射到对应的哈希表中的槽位上；

S3-扩展槽位：如果当前槽位上的元素数量超过了m,则需要进行槽位扩展。具体来说，从所有元素中随机选择p个元素，将它们添加到当前槽位上；

S4-计算相似度：对于每个待查找的向量y,计算其与所有槽位上的元素之间的相似度。常用的相似度度量方法有欧几里得距离、余弦相似度等；

S5-匹配结果：根据每个槽位上的相似度排名，选择前k个槽位作为可能匹配的位置；然后对于每个位置，计算其对应的对象的哈希值，并将其与查询向量进行比较，找到最接近的k个对象；

在S2中计算哈希过程中，对于每张图片特征图进行0,1编号意味着将每个像素点的值，通常为灰度值，转换为二进制数(0或1),并将其作为哈希函数的输入；目的是将图像中的每个像素点表示为一个固定长度的二进制向量，从而使得具有相似属性的对象在哈希空间中被映射到相邻的位置上；此种方法可以提高哈希算法的效率和准确性，因为它允许对图像进行更紧凑的编码，并且可以在相对较短的时间内找到与查询图像最相似的图像；

其次，将查询对象转换为列向量特征，如果有多个查询对象同时查询，则将它们的列向量特征拼成矩阵。

最后，将图片池的特征矩阵转置后与查询对象的向量特征，即计算余弦相似度得到相似度的结果；这个结果中第i行，第j列元素表示的是第i个图片池中的图片与第j个查询对象的相似度。

作为本方法优选的方案，所述S4中的对比损失函数，具体如下：

其中,d表示两个向量的距离，例如一般是欧氏距离；y表示两个输入是否相似，如果相似则为1，如果不相似为0；margin是设定好的阈值，当两个样本的向量距离超过一定值，也就是margin，就表示这两个样本不相似了。从公式(1)上，如果两个输入相似，即y＝1，则式中只剩下d²；符合常规理解：如果两个输入相似，向量的距离越大，则损失越大。如果两个输入不相似，即y＝0，则式中只剩下max(margin-d,0)²即当两个输入不相似时，若向量的距离大于margin，则损失为0；若向量的距离小于margin，且距离越小，损失越大。

与现有技术相比，本发明的有益效果是：

本发明中，通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，该算法利用深度卷积的方式提取获取gallery库和query库的图像特征，进行LSH哈希编码，大大提升了检索性能，使用孪生网络中的对比学习，大大提升了检索精度。

附图说明

图1为本发明网络架构图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：

一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，包括以下步骤：

步骤S1：图像检索的开源数据集中训练集和验证集采用的是retrieval-SfM-120k，测试集则采用Oxford5k、Paris6k、ROxford5k、RParis6k，如需在自己的数据集上进行训练，需要将数据格式准备为与上述数据集一致，对数据进行预处理后，图片输入大小1024*1024*3，RGB图像维度是W*H*3，H和W分别的特征图的高和宽，3为通道数，使用深度卷积神经网络ResNet101提取RGB图像特征,图像经过卷积层(即卷积神经网络，如ResNet101去掉最后一层【全连接层】)，再经过添加注意力机制的GeM池化层和L2归一化操作(即向量单位化)，最终形成一个图像的固定维度的向量表示,即高维特征。涉及到gallery库和query库的图像均需提取特征，为了后续检索比对，从gallery库和query库提取特征的区别是是否返回LSH编码，通过局部敏感哈希算法LSH对每张图片特征图进行0，1二进制编码，旨在加快查询图像与图像搜索库的匹配速度；GeM池化，广义平均池化可以提高输出描述符的质量，

GeM池化：

公式2中，当P_k→∞公式(2)为最大池化，当P_k＝1公式(2)为平均池化，结合注意力机制，使用的效果如下所示，更加聚焦显著特征：

如图1网络架构图：在ResNet-101中添加3个注意力单元，

Att1单元由卷积核大小3*3，3*1，1*1，1*1四个卷积层组成，第一层步长为2，其余步长为1，输出通道分别为1024、512、512、2048，此外，每个卷积层之后是BN和ReLU激活，除最后一层由sigmoid函数，Att2、Att3都是只包含一个卷积层，卷积核大小为1*1，步长为1，输出通道大小与输入通道大小相同，然后是sigmoid激活，通过GeM池化和L2归一化，最终形成2048维的向量作为输入图像的描述符。

步骤S2：训练时，模型的输入：训练集中的图片通过模型变成特征向量，从中选取QSIZE(Q-P对的个数)个元组。每个元组共有(1+1+NNUM)个特征向量，分别是查询对象Q，正类P和NNUM个负类N1,N2....查询和正类是由Q-P对直接给出。负类是Q由当前模型的在图片池中的查询结果，按照查询顺序从上到下依次选取NNUM个与q在不同簇的图片，且这NNUM个图片也在不同的簇中。模型的输出：每个元组经过模型的向量特征组成的矩阵。测试时，模型的输入：测试集中图库的图片和查询对象的图片，测试模型的输出：查询对象的特征矩阵(所有查询对象的特征向量组成的矩阵)和图库图片特征矩阵(图库图片所有的特征向量组成的矩阵)；

步骤S3：测试检索排名：图库图片特征矩阵与查询对象特征矩阵的点乘，得到的是scores矩阵(维度：图库图片数量*查询数量)，其中第i行，第j列表示图片池中的第i个图片与第j个查询对象的相似度得分。ranks是scores的按列排序的索引值，即得分高的图片的索引排在前面，是最终的检索结果；

其中，检索过程具体步骤如下：

首先，将检索库图片池里的图片转换为列向量特征，多个列向量特征再拼在一起组成矩阵，引入局部敏感哈希算法(LSH)对检索库中的图片进行编码，旨在提升检索效率；LSH算法如下所示：

S1-初始化：随机生成k个随机向量作为初始的哈希表。

S2-计算哈希：对于每个查询向量x,将其哈希为一个哈希值h(x),并将h(x)映射到对应的哈希表中的槽位上。

S3-扩展槽位：如果当前槽位上的元素数量超过了m,则需要进行槽位扩展。具体来说，从所有元素中随机选择p个元素，将它们添加到当前槽位上。

S4-计算相似度：对于每个待查找的向量y,计算其与所有槽位上的元素之间的相似度。常用的相似度度量方法有欧几里得距离、余弦相似度等。

S5-匹配结果：根据每个槽位上的相似度排名，选择前k个槽位作为可能匹配的位置。然后对于每个位置，计算其对应的对象的哈希值，并将其与查询向量进行比较，找到最接近的k个对象。

在S2中计算哈希过程中，对于每张图片特征图进行0,1编号意味着将每个像素点的值(通常为灰度值)转换为二进制数(0或1),并将其作为哈希函数的输入。这样做的目的是将图像中的每个像素点表示为一个固定长度的二进制向量，从而使得具有相似属性的对象在哈希空间中被映射到相邻的位置上。这种方法可以提高哈希算法的效率和准确性，因为它允许对图像进行更紧凑的编码，并且可以在相对较短的时间内找到与查询图像最相似的图像。

最后，将图片池的特征矩阵转置后与查询对象的向量特征(即计算余弦相似度)得到相似度的结果。这个结果中第i行，第j列元素表示的是第i个图片池中的图片与第j个查询对象的相似度。

步骤S4：图像检索的损失函数采用对比损失函数。模型评价指标除了mAP以外，还新增mP@k，是结果列表中top-k检索结果的准确率指标，反映了图像搜索引擎的质量。匹配的图片排的越前面得分会越高，不匹配的图片越排在匹配的后面得分会越高。对比损失函数，具体如下：

其中,d表示两个向量的距离，例如一般是欧氏距离；y表示两个输入是否相似，如果相似则为1，如果不相似为0；margin是设定好的阈值，当两个样本的向量距离超过一定值，也就是margin，就表示这两个样本不相似了。从公式(1)上，如果两个输入相似(即y＝1)，则式中只剩下d²。符合常规理解：如果两个输入相似，向量的距离越大，则损失越大。如果两个输入不相似(即y＝0)，则式中只剩下max(margin-d,0)²即当两个输入不相似时，若向量的距离大于margin，则损失为0；若向量的距离小于margin，且距离越小，损失越大。

实施例：

算法的步骤具体如下:

图像输入为1024*1024*3，图像经过卷积层(也即卷积神经网络，如ResNet等去掉最后一层【全连接层】)，再经过GeM池化层和L2归一化操作(即向量单位化)，最终形成一个图像的固定维度的向量表示。通过LSH算法，对每张图片的特征图进行0、1二进制编号，对所有图片进行特征编码，为每张图片的尺寸可以不一样，Resnet101网络的最后通过一个全连接层输出1*2048，因此特征图每个特征编码是1*2048。同时对检索图像进行特征编码后进入图像检索，将gallery库的特征矩阵转置后与检索对象的向量特征(即计算余弦相似度)得到相似度的结果。这个结果中第i行，第j列元素表示的是第i个图片池中的图片与第j个查询对象的相似度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，其步骤具体如下：

步骤S1：图像检索的开源数据集中训练集和验证集采用的是retrieval-SfM-120k，测试集则采用Oxford5k、Paris6k、ROxford5k、RParis6k，如需在自己的数据集上进行训练，需要将数据格式准备为与上述数据集一致，对数据进行预处理后，图片输入大小1024*1024*3，使用深度卷积神经网络ResNe t101提取RGB图像特征,涉及到gallery库和query库的图像均需提取特征，为了后续检索比对，从gallery库和query库提取特征的区别是是否返回LSH编码，通过局部敏感哈希算法LSH对每张图片特征图进行0，1二进制编码，旨在加快查询图像与图像搜索库的匹配速度；

2.根据权利要求1所述的一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，其特征在于，所述S1中的RGB图像维度是W*H*3，H和W分别的特征图的高和宽，3为通道数。

3.根据权利要求1所述的一基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索技术，其特征在于，所述S2中图像输入为1024*1024*3，图像经过卷积层，也即卷积神经网络，如ResNet101去掉最后一层，即全连接层，再经过GeM池化层和L2归一化操作，即向量单位化，最终形成一个图像的固定维度的向量表示,即高维特征，涉及到gallery库和query库的图像均需提取特征，为了后续检索比对，从gallery库和query库提取特征的区别是是否返回LSH编码，通过局部敏感哈希算法LSH对每张图片特征图进行0，1二进制编码，旨在加快查询图像与图像搜索库的匹配速度；GeM池化，广义平均池化可以提高输出描述符的质量，

GeM池化：

4.根据权利要求1所述的一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，其特征在于，所述检索过程具体步骤如下：

S1-初始化：随机生成k个随机向量作为初始的哈希表；

5.根据权利要求1所述的一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法，其特征在于，所述S4中的对比损失函数，具体如下：