CN114491130A

CN114491130A - 图片检索方法、装置以及计算机可读存储介质

Info

Publication number: CN114491130A
Application number: CN202210064816.5A
Authority: CN
Inventors: 孙宇轩; 袁哲
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-05-13

Abstract

本发明涉及计算机处理技术领域，具体提供一种图片检索方法、装置以及计算机可读存储介质，旨在解决高效检索匹配图片的技术问题。为此目的，本发明的方法包括：获取用于进行图片检索的第一模型和第二模型，第一模型为通过知识蒸馏技术对第二模型进行压缩得到的模型；通过第一模型，从第一组图片中检索出与目标图片相似度高于预设水平的第二组图片；通过第二模型，从第二组图片中检索出与目标图片匹配的图片。根据本发明，通过知识蒸馏技术，预先准备了轻量化的小模型进行初步图片检索，使用复杂大模型进行第二检索，两次检索效率快，最终检索结果准确率高。

Description

图片检索方法、装置以及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，具体提供一种图片检索方法、装置以及计算机可读存储介质。

背景技术

随着硬件产业的不断发展，视频分析已经是现代生活中必不可少的安全保障。其中，对于行人的智能分析是重要的组成部分。行人重识别技术即是利用计算机视觉领域中图像处理相关技术，通过给定的行人信息，检索跨领域、跨摄像头中该行人图像，突破单摄像头带来的视野的局限性。行人重识别技术有着广泛的应用领域，例如：对于商业服务场景下，通过收集顾客的购物行为，可以分析得到关于顾客的性别、年龄、购物偏好、购买能力等信息，对于商场以及商家策划活动、有针对性地服务具有重要的参考意义，从而提升销售业绩。

行人重识别任务的关键技术是图像检索，即给定一个行人图或行人视频作为查询样本，利用图片的相似性关系，在跨镜头拍摄的大规模底库中对图片进行重排序，找出最匹配的行人样本图片，通过分析再找回样本的ID(图片标识，指示了图片中行人身份)信息，得到重识别任务的准确率。然而当底库规模过大时，从几十、几百万的数据中进行图片检索，返回排序结果，效率是非常低的。这在需要大量商用的场景下，无法满足实时性检索的需求。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决高效检索匹配图片的技术问题的图片检索方法、装置以及计算机可读存储介质。

在第一方面，本发明提供一种图片检索方法，所述方法包括：

获取用于进行图片检索的第一模型和第二模型，所述第一模型为通过知识蒸馏技术对所述第二模型进行压缩得到的模型；

通过所述第一模型，从第一组图片中检索出与目标图片相似度高于预设水平的第二组图片；

通过所述第二模型，从所述第二组图片中检索出与所述目标图片匹配的图片。

在上述图片检索方法的一个技术方案中，“通过所述第一模型，从第一组图片中检索出与目标图片相似度高于预设水平的第二组图片”的步骤包括：

通过所述第一模型提取所述目标图片以及所述第一组图片的a维特征，根据所述目标图片以及所述第一组图片的a维特征计算所述目标图片与所述第一组图片的第一相似度，根据第一相似度高低从所述第一组图片中筛选出所述第二组图片；

和/或，

“根据所述目标图片以及所述第一组图片的a维特征计算所述目标图片与所述第一组图片的第一相似度”的步骤包括：

根据所述目标图片以及所述第一组图片的a维特征计算所述目标图片以及所述第一组图片之间的欧氏距离，根据距离大小确定计算所述目标图片与所述第一组图片的第一相似度；

和/或，

“根据第一相似度高低从所述第一组图片中筛选出所述第二组图片”的步骤包括：

从所述第一组图片中检索出第一相似度最高的k个图片作为所述第二组图片；

和/或，

“通过所述第二模型，从所述第二组图片中检索出与所述目标图片匹配的图片”的步骤包括：

通过所述第二模型提取所述目标图片以及第二组图片的b维特征，根据所述目标图片以及第二组图片的b维特征计算所述目标图片与所述第二组图片的第二相似度，根据第二相似度高低从所述第二组图片中筛选出与所述目标图片匹配的图片，b大于a；

和/或，

在“根据第二相似度高低从所述第二组图片中筛选出与所述目标图片匹配的图片”的步骤之前，还包括：

根据所述目标图片与所述第二组图片的第一相似度，对所述目标图片与所述第二组图片的第二相似度进行调整；

和/或，

所述目标图片与所述第二组图片的第一相似度的分布情况与所述目标图片与所述第二组图片的第二相似度的分布情况差距位于预设区间。

在第二方面，提供一种图片检索装置，所述装置包括：

模型获取模块，获取用于进行图片检索的第一模型和第二模型，所述第一模型为通过知识蒸馏技术对所述第二模型进行压缩得到的模型；

第一检索模块，通过所述第一模型，从第一组图片中检索出与目标图片相似度高于预设水平的第二组图片；

第二检索模块，通过所述第二模型，从所述第二组图片中检索出与所述目标图片匹配的图片。

在第三方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述图片检索方法的技术方案中任一项技术方案所述图片检索方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述图片检索方法的技术方案中任一项技术方案所述的上述图片检索方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的一个技术方案中，图片检索方法可以包括下列步骤：获取用于进行图片检索的第一模型和第二模型，第一模型为通过知识蒸馏技术对第二模型进行压缩得到的模型，相比之下，现有技术中相当于只使用了第二模型；通过第一模型，从第一组图片中检索出与目标图片相似度高于预设水平的第二组图片，由于第一模型是经过知识蒸馏的小模型，规模小、计算快、准确度相对低，所以第二组图片的筛选可以快速完成，同时由于第二组图片保留了与目标图片最相似的多张图片，所以即使第一模型的准确率不足，也可以将匹配图片保留在第二组图片中；通过第二模型，从第二组图片中检索出与目标图片匹配的图片，第二模型规模大、计算复杂、准确率高，但由于第二组图片数量有限，所以能够快速准确地检索到目标图片的匹配图片。在本发明的技术方案中，通过知识蒸馏技术，预先准备了轻量化的小模型进行初步图片检索，使用复杂大模型进行第二检索，两次检索效率快，最终检索结果准确率高。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。其中：

图1是根据本发明的一个实施例的图片检索方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的图片检索方法的主要步骤流程示意图；

图3是根据本发明的一个实施例的图片检索方法使用的第一模型训练示意图；

图4是根据本发明的一个实施例的图片检索方法使用的第二模型训练示意图；

图5是根据本发明的一个实施例的图片检索方法的欧氏距离计算示意图；

图6是根据本发明的一个实施例的图片检索方法的工作流程示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

参阅附图1，图1是根据本发明的一个实施例的图片检索方法的主要步骤流程示意图。

本实施例的技术方案可用于多种类型的图片检索，并不限于在执行ReID(用计算机技术判断图像或者视频序列是否存在特定行人)任务时进行行人检索(即给定一个行人图或行人视频图像作为查询图片，利用图片的相似性关系，在大规模底库中对图片进行重排序，找出与其最相近的同一ID的行人图作为行人检索返回结果)。

如图1所示，本发明实施例中的图片检索方法主要包括下列步骤：

步骤S110，获取用于进行图片检索的第一模型和第二模型，第一模型为通过知识蒸馏技术对第二模型进行压缩得到的模型。

知识蒸馏(Knowledge Distillation)技术中引入与教师模型(复杂、但预测精度优越)与学生模型(精简、低复杂度，更适合推理部署)，通过训练使得学生模型与教师模型的输出结果分布情况尽可能地接近，提升学生模型的分类精度，实现知识迁移(Knowledgetransfer)。本实施例中，第一模型为学生模型，第二模型为教师模型。

步骤S120，通过第一模型，从第一组图片中检索出与目标图片相似度高于预设水平的第二组图片。

通过知识蒸馏技术得到的第一模型推理速度快、精度低，在进行行人图片检索时，可以先快速检索一遍底库(即第一组图片)，缩小底库范围(第二组图片)，缩短行人检索所需时间。

步骤S130，通过第二模型，从第二组图片中检索出与目标图片匹配的图片。

在二次检索时，充分发挥第二模型计算准确度高的特点，虽然第二模型计算复杂，但是底库范围已经被缩小，所以二次检索效率极高。

根据本实施例的技术方案，通过知识蒸馏技术，预先准备了轻量化的小模型进行初步图片检索，使用复杂大模型进行第二检索，两次检索效率快，最终检索结果准确率高。

如图2所示，本发明实施例中的图片检索方法主要包括下列步骤：

步骤S210，获取用于进行图片检索的第一模型和第二模型，第一模型为通过知识蒸馏技术对第二模型进行压缩得到的模型。

假设第一模型为Resnet18模型，第二模型为Resnet152模型，通过对Resnet152模型进行知识蒸馏得到Resnet18模型，具体如下：

Resnet152模型的训练流程可以如图3所示，模型将输入图片切割为384×192的固定尺寸，提取特征(将图像转换为一个特征向量，用特征向量来表示该图像，本实施例中使用ResNet的深度神经网络将行人图像转换成为固定维度的深度特征向量)得到一个2048×24×12维的特征向量，再通过一层池化层压缩到2048×1×1维，然后通过一层1×1的卷积层，降维到512维得到三元组向量(triplet embedding)并计算三元组损失，三元组损失值可用于优化正例负例样本图片之间的距离，实现样本图片的相似性计算。另外一个分支通过BatchNorm(深度网络中经常用到的加速神经网络训练、加速收敛速度及稳定性的算法)层激活，然后通过Arcface(一种基于人脸识别的损失函数训练得到的人脸识别算法)函数将特征向量映射为指示目标图片与底库图片形似度高低的logits(模型全连接层的输出结果)，并计算交叉熵损失函数，以用于分类学习。

将训练好的教师模型Resnet152的输出结果logits作为更轻量化学生模型Resnet18的目标，仅对学生模型进行反向传播，训练学生模型的logits分布逼近教师模型的logits分布。知识蒸馏流程如图4所示，输入图片同时通过教师模型和学生模型，根据输出的logits计算KL散度(相对熵)损失，以拉近正例负例距离，通过梯度回传技术对学生模型进行参数更新。在蒸馏过程中，不仅使用KL散度损失优化学生模型，与教师模型类似地，同样使用交叉熵损失、三元组损失对学生模型进行优化。

步骤S220，通过第一模型提取目标图片以及第一组图片的a维特征，根据目标图片以及第一组图片的a维特征计算目标图片与第一组图片的第一相似度，根据第一相似度高低从第一组图片中筛选出第二组图片。

具体地，可以根据目标图片以及第一组图片的a维特征计算目标图片以及第一组图片之间的欧氏距离，根据距离大小确定计算目标图片与第一组图片的第一相似度。

本实施例中，利用小模型提取底库图片特征，初步检索底库图片，具体如图5所示，首先将目标图片和底库分别通过学生模型提取256维特征向量，对于目标图片分别和数量为D的底库图片进行一一比对，计算两两之间的欧几里得距离(欧氏距离)，欧氏距离表示多维空间中两个点之间的真实距离，计算公式如下：

上式为特征向量的归一化公式，归一化后的特征二范数为1。下式为欧氏距离的计算公式，其中X、Y分别表示不同的特征向量，m表示特征空间的维度。

具体地，本实施例中可以从第一组图片中检索出第一相似度最高的k个图片作为第二组图片。

计算欧氏距离后，对底库样本图片按距离从近到远进行排序，距离越近说明相似度越高。从数据量为D的底库中筛选前K张相似度最高的样本图片(K＜＜D)。因为底库数据非常杂乱，有不同镜头下的不同的行人图片，所以如果要在如此庞杂的底库数据中查询和目标图片为同一ID的行人，那么极大概率该样本图片的相似度应该在前K张。本实施例采用小模型快速推理，对底库初步筛选，为后续更大体量模型的检索运算节约时间。

本实施例中还可以设置相似度阈值，在使用第一模型初步检索时进行特征相似度比对，大于阈值的底库样本图片保留，小于阈值的底库样本图片删除，最后留下的样本图片再去做二次检索。但是对于行人检索而言，通常底库样本图片本身没有统一标准，对于质量较差的样本图片，通过小模型得到的特征本身表达性就不强，相似度可能不会太高，设置较高的阈值会导致初步筛查时删除过多底库样本图片，而对于某些ID的图片，底库中有大量对应样本图片，这时对应的有效筛查阈值就会比较高，所以设置相似度阈值时，如何选择阈值的大小是一个很复杂的问题。本实施例中对每个ID都固定返回前K个相似度最高的样本图片，对于不同ID样本图片都是一个可行的方案，是最简单高效的方法。

步骤S230，通过第二模型提取目标图片以及第二组图片的b维特征，根据目标图片以及第二组图片的b维特征计算目标图片与第二组图片的第二相似度，根据目标图片与第二组图片的第一相似度，对目标图片与第二组图片的第二相似度进行调整后，根据第二相似度高低从第二组图片中筛选出与目标图片匹配的图片，b大于a。

本实施例中，对调整方式不进行限制，一般地可以将第一相似度和第二相似度直接相加实现级联。

此处采用级联融合方式，将Resnet152的512维logits向量与Resnet18的256维logits向量融合为768维向量，进行最后的检索，二次目标检索的流程与初次几乎相同，在这里仅用筛选后的K张底库样本图片与查询图片进行欧氏距离计算，得到K张图片的距离排序，计算相应的性能指标mAP、Top1、Top10，辅助挑选最终匹配的样本图片。即联合训练多模型，结合全局和局部的特征学习，进行特征融合，提升检索性能，在初始排序结果筛选出的图片底库中再次优化，做二次排序，得到最终结果。

此处也可以不对第二相似度进行调整，即仅基于第二模型输出的logits筛选出目标图片匹配结果，该种方式效率较高，但准确性低于级联logits的方式。

本实施例中，目标图片与第二组图片的第一相似度的分布情况与目标图片与第二组图片的第二相似度的分布情况差距位于预设区间。

本实施例中对预设区间不进行限制，仅反映第一模型与第二模型输出的logits分布接近，即经过知识蒸馏的第一模型与第二模型具有相似性能。

本实施例针对检索速度过慢的问题，设计了一款针对ReID任务的多模型快速检索底库的方案，其流程如图6所示：通过联合训练一个大模型和一个小模型，先用小模型对底库进行第一次排序，从大批量数据的底库中快速筛选出前K个相似样本图片，再通过多模型特征融合，从K张底库中做二次排序，得到排序结果和首位命中行人图。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的图片检索方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的图片检索方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的图片检索方法的程序，该程序可以由处理器加载并运行以实现上述图片检索方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种图片检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图片检索方法，其特征在于，“通过所述第一模型，从第一组图片中检索出与目标图片相似度高于预设水平的第二组图片”的步骤包括：

通过所述第一模型提取所述目标图片以及所述第一组图片的a维特征，根据所述目标图片以及所述第一组图片的a维特征计算所述目标图片与所述第一组图片的第一相似度，根据第一相似度高低从所述第一组图片中筛选出所述第二组图片。

3.根据权利要求2所述的图片检索方法，其特征在于，“根据所述目标图片以及所述第一组图片的a维特征计算所述目标图片与所述第一组图片的第一相似度”的步骤包括：

根据所述目标图片以及所述第一组图片的a维特征计算所述目标图片以及所述第一组图片之间的欧氏距离，根据距离大小确定计算所述目标图片与所述第一组图片的第一相似度。

4.根据权利要求2所述的图片检索方法，其特征在于，“根据第一相似度高低从所述第一组图片中筛选出所述第二组图片”的步骤包括：

从所述第一组图片中检索出第一相似度最高的k个图片作为所述第二组图片。

5.根据权利要求2所述的图片检索方法，其特征在于，“通过所述第二模型，从所述第二组图片中检索出与所述目标图片匹配的图片”的步骤包括：

通过所述第二模型提取所述目标图片以及第二组图片的b维特征，根据所述目标图片以及第二组图片的b维特征计算所述目标图片与所述第二组图片的第二相似度，根据第二相似度高低从所述第二组图片中筛选出与所述目标图片匹配的图片，b大于a。

6.根据权利要求5所述的图片检索方法，其特征在于，在“根据第二相似度高低从所述第二组图片中筛选出与所述目标图片匹配的图片”的步骤之前，还包括：

根据所述目标图片与所述第二组图片的第一相似度，对所述目标图片与所述第二组图片的第二相似度进行调整。

7.根据权利要求5所述的图片检索方法，其特征在于，

8.一种图片检索装置，其特征在于，所述装置包括：

9.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的图片检索方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的图片检索方法。