CN112668374A

CN112668374A - 图像处理方法、装置、重识别网络的训练方法及电子设备

Info

Publication number: CN112668374A
Application number: CN201910985132.7A
Authority: CN
Inventors: 张启坤; 高岱恒; 吴臻志
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2021-04-16

Abstract

本公开实施例公开了一种图像处理方法、装置、重识别网络的训练方法及电子设备，通过获取包括至少一个待识别对象的待识别图像，对待识别图像进行特征提取，得到包括全局特征信息和局部特征信息的特征图，并根据待识别图像的特征图获取至少一个待识别对象的特征向量信息，以根据待识别对象的特征向量信息和目标对象的特征向量信息确定待识别图像中的目标对象，由此，本公开实施例可以使得对象检测和对象识别操作共享待识别图像的特征图，并通过使得待识别图像的特征图包括全局特征信息和局部特征信息增强了特征信息的特征表达能力，从而提高了对象检测和对象识别的准确率。

Description

图像处理方法、装置、重识别网络的训练方法及电子设备

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种图像处理方法、装置、重识别网络的训练方法及电子设备。

背景技术

行人重识别(Person Re-identification，ReID)的概念在2006年的CVPR会议上第一次被提出，行人重识别可以概括为对已知行人的二次图像匹配技术，即已有某个人的图像，在未知数量的图像或视频帧中找到特定人的技术。

传统的ReID算法通过复杂且耗时的手工技术提取低级图像特征进行全局表示或局部描述，性能很大程度上依赖于人的经验，基本没有比较好的效果。目前通常基于深度学习来实现行人重识别，基于深度学习的ReID一般包括两部分：一是行人检测，使用神经网络，例如DPM(Deformable Parts Model，基于组件的目标检测算法)将图像中单个行人检测出来，二是重识别，训练卷积神经网络对行人图像进行重识别，以此判别行人的身份，但这种ReID很大程度上容易被行人检测结果的影响。

发明内容

有鉴于此，本公开提供一种图像处理方法、装置、重识别网络的训练方法及电子设备，以提高对象检测及对象识别的准确率。

第一方面，本公开实施例提供一种图像处理方法，所述方法包括：

获取待识别图像，所述待识别图像中包括至少一个待识别对象；

对所述待识别图像进行特征提取，得到所述待识别图像的特征图，所述待识别图像的特征图包括全局特征信息和局部特征信息；

根据所述待识别图像的特征图获取所述至少一个待识别对象的特征向量信息；

根据各所述待识别对象的特征向量信息和目标对象的特征向量信息，确定所述待识别图像中的目标对象。

可选的，对所述待识别图像进行特征提取，得到所述待识别图像的特征图包括：

将所述待识别图像输入到重识别网络的特征提取网络中进行特征提取，得到所述待识别图像的特征图，其中，所述特征提取网络的卷积层采用形变卷积。

可选的，根据所述待识别图像的特征图获取所述至少一个待识别对象的特征向量信息包括：

根据重识别网络的对象检测网络对所述特征图进行检测，得到至少一个待识别对象检测框；

根据所述重识别网络的对象识别网络对所述至少一个待识别对象检测框进行特征提取，得到所述至少一个待识别对象的特征向量信息。

可选的，所述特征图包括至少一个特征单元，其中，根据重识别网络的对象检测网络对所述特征图进行检测，得到至少一个待识别对象检测框包括：

对所述特征图中的各特征单元进行特征解码，得到各所述特征单元对应的检测框；

对各所述检测框进行去重复处理，得到至少一个待识别对象检测框。

可选的，根据各所述待识别对象的特征向量信息和目标对象的特征向量信息，确定所述待识别对象中的目标对象包括：

根据各所述待识别对象的特征向量信息和所述目标对象的特征向量信息，分别计算所述目标对象与各所述待识别对象的相似度；

对于各待识别对象，响应于所述目标对象与所述待识别对象的相似度大于或等于相似度阈值，确定所述待识别对象为所述目标对象。

对所述待识别图像进行特征提取，的都所述待识别图像的多个尺寸的特征图。

可选的，所述方法还包括：

将目标对象图像输入重识别网络中进行处理，得到所述目标对象的特征向量信息。

第二方面，本公开实施例提供一种重识别网络的训练方法，所述方法包括：

获取训练集，所述训练集包括多个对象的图像组，所述图像组包括对应的对象的多个不同角度的图像；

基于损失函数，根据所述训练集训练所述重识别网络；

其中，所述重识别网络包括特征提取网络、对象检测网络和对象识别网络，所述特征提取网络的卷积层采用形变卷积。

可选的，所述训练集中的图像具有图像的全局区域和多个局部区域的位置标注信息；

所述基于损失函数，根据所述训练集训练所述重识别网络包括：

基于对象检测网络对应的第一损失函数和对象识别网络对应的第二损失函数，根据所述训练集中的各图像的位置标注信息训练所述重识别网络。

第三方面，本公开实施例提供一种图像处理装置，所述装置包括：

图像获取单元，用于获取待识别图像，所述待识别图像中包括至少一个待识别对象；

特征提取单元，用于对所述待识别图像进行特征提取，得到所述待识别图像的特征图，所述待识别图像的特征图包括全局特征信息和局部特征信息；

第一信息获取单元，用于根据所述待识别图像的特征图获取所述至少一个待识别对象的特征向量信息；

目标对象确定单元，用于根据各所述待识别对象的特征向量信息和目标对象的特征向量信息，确定所述待识别图像中的目标对象。

可选的，特征提取单元包括：

第一特征提取子单元，用于将所述待识别图像输入到重识别网络的特征提取网络中进行特征提取，得到所述待识别图像的特征图，其中，所述特征提取网络的卷积层采用形变卷积。

可选的，第一信息获取单元包括：

检测子单元，用于根据重识别网络的对象检测网络对所述特征图进行检测，得到至少一个待识别对象检测框；

检测框特征提取子单元，用于根据所述重识别网络的对象识别网络对所述至少一个待识别对象检测框进行特征提取，得到所述至少一个待识别对象的特征向量信息。

可选的，所述特征图包括至少一个特征单元，其中，检测子单元包括：

特征解码模块，用于对所述特征图中的各特征单元进行特征解码，得到各所述特征单元对应的检测框；

去重复处理模块，用于对各所述检测框进行去重复处理，得到至少一个待识别对象检测框。

可选的，目标对象确定单元包括：

相似度计算子单元，用于根据各所述待识别对象的特征向量信息和所述目标对象的特征向量信息，分别计算所述目标对象与各所述待识别对象的相似度；

相似度比较子单元，用于对于各待识别对象，响应于所述目标对象与所述待识别对象的相似度大于或等于相似度阈值，确定所述待识别对象为所述目标对象。

可选的，特征提取单元还包括：

第二特征提取子单元，用于对所述待识别图像进行特征提取，得到所述待识别图像的多个尺寸的特征图。

可选的，所述装置还包括：

第二信息获取单元，用于将目标对象图像输出重识别网络中进行处理，得到所述目标对象的特征向量信息。

第四方面，本公开实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现本公开实施例第一方面所述的方法和/或本公开实施例第二方面所述的方法。

第五方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现本公开实施例第一方面所述的方法和/或本公开实施例第二方面所述的方法。

本公开实施例通过获取包括至少一个待识别对象的待识别图像，对待识别图像进行特征提取，得到包括全局特征信息和局部特征信息的特征图，并根据待识别图像的特征图获取至少一个待识别对象的特征向量信息，以根据待识别对象的特征向量信息和目标对象的特征向量信息确定待识别图像中的目标对象，由此，本公开实施例可以使得对象检测和对象识别操作共享待识别图像的特征图，并通过使得待识别图像的特征图包括全局特征信息和局部特征信息增强了特征信息的特征表达能力，从而提高了对象检测和对象识别的准确率。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是相关技术的行人重识别方法的示意图；

图2是相关技术的行人重识别方法的示意图；

图3是相关技术的行人对齐前后的图像对比示意图；

图4是本公开一实施例的图像处理方法的流程图；

图5是本公开一实施例的端到端的ReID网络框架示意图；

图6是本公开一实施例的端到端的重识别网络的示意图；

图7是本实施例的多尺寸特征提取的示意图；

图8是本公开一实施例的对象识别网络的示意图；

图9是本公开一实施例的特征提取网络的示意图；

图10是相关技术的标准卷积的示意图；

图11-图13是本公开一实施例的形变卷积的示意图；

图14是本公开一实施例的重识别网络训练方法的流程图；

图15是本公开一实施例的热力图分布的示意图；

图16是本公开一实施例的重识别网络训练示意图；

图17是本公开一实施例的对象识别网络的损失函数示意图；

图18是本公开一实施例的图像识别过程的示意图；

图19是本公开一实施例的图像处理置的示意图；

图20是本公开一实施例的重识别网络的训练装置的示意图；

图21是本公开一实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本公开进行描述，但是本公开并不仅仅限于这些实施例。在下文对本公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本公开。为了避免混淆本公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是相关技术的行人重识别方法的示意图。传统ReID方法着重设计底层特征提取方法，使用传统特征算子(如SIFT、LBP、HOG等)进行特征度量。如图1所示，传统ReID方法一般对图像进行分块处理，按照一定比例将图像分为多个图像块，分别对每一块图像提取颜色特征或其他经典传统特征，将不同特征经过归一化组合得到一种混合特征的特征表示，再使用DTW(Dynamic Time Warping，动态时间规整)或LDA(Linear DiscriminantAnalysis，线性判别式分析)等特征度量的方法进行特征匹配，以进行行人重识别。

传统ReID方法基于图像颜色、纹理信息或其他传统图像算子进行特征表示，因此对于光照变化、图像的清晰度都非常敏感，在光照条件不佳或图像分辨率较低时，识别准确率较低。

图2是相关技术的行人重识别方法的示意图。目前，基于深度学习的ReID网络不但能提取图像的颜色纹理信息，而且还能提取图像的高层语义信息、空间信息、时序信息。如图2所示，基于深度学习的ReID网络通常分为两个步骤，首先使用行人检测网络将单个人检测出来，然后经过识别网络再判别行人的身份。行人检测常使用一些检测准确率较高或速度性能较好的目标检测网络，如DPM、SSD(Single Shot MultiBox Detector，单次多框检测器)等经典目标检测网络。然后使用CNN或RNN(Recurrent Neural Network，循环神经网络)等深度学习网络进行特征提取，完成行人身份识别。

图3是相关技术的行人对齐前后的图像对比示意图。为了避免检测框中除单个行人意外的干扰信息影响行人识别性能，提出了行人对齐(person alignment)作为行人重识别网络的预处理，以对识别准确率和稳定性有一定的提升，行人对齐前后的图像对比如图3所示。

在基于深度学习的ReID网络中，行人重识别的性能比较依赖于行人检测的图像内容。其中，对整个行人图像进行重识别，没有很好地考虑姿势变化对识别的影响，也没有对人体图像的局部显著性信息进行凸显，因此，现有的基于深度学习的ReID算法的行人识别准确率较低。由此，本公开实施例提供一种图像处理方法，以提高对象检测和对象识别的准确率。

在下面的描述中，本实施例以目标对象为行人为例进行描述，应理解，本公开实施例的目标对象还可以为任一动物、或其他需要被识别的物体等，本公开实施例并不对此进行限制。

图4是本公开一实施例的图像处理方法的流程图。如图4所示，本实施例的图像处理方法包括以下步骤：

步骤S100，获取待识别图像，该待识别图像中包括至少一个待识别对象。其中，待识别图像可以为任意图像或视频帧，待识别对象为与目标对象同一类的对象。例如，待识别图像可以为在一路口拍摄的图像，待识别对象为处于该路口并被该拍摄的图像记录下来的行人。

步骤S200，对待识别图像进行特征提取，得到待识别图像的特征图。其中，待识别图像的特征图包括全局特征信息和局部特征信息。在本实施例中，在对待识别图像进行特征提取时，不仅对整张图像进行全局特征提取，还对图像中的局部区域进行局部特征提取，综合全局特征信息和局部特征信息得到待识别图像的特征图，从而可以提高特征图的特征表达能力，进一步可以提高对象检测和对象识别的准确率。例如，对于一张行人图像，对整张图像进行特征提取，并对局部区域(例如行人头部区域、腿部区域等局部区域)进行特征提取，综合该行人图像的全局特征信息和局部特征信息以获取对应的特征图，则可以使得该特征图的特征表达能力较强，由此，可以更好的判断该行人图像中的行人信息。其中，得到包括全局特征信息和局部特征信息的特征图的方式可以为多种，例如，可以通过训练好的特征提取网络对待识别图像进行特征提取，特征提取网络在训练过程中，通过对训练集中的各图像进行全局区域的位置标注和局部区域位置标注，使得训练得到的特征提取网络在对待识别图像进行特征提取，可以直接得到包括全局特征信息和局部特征信息的特征图。还可以是对待识别图像分别进行全局特征提取和局部特征提取，并综合得到包括全局特征信息和局部特征信息的特征图。本公开对提取得到包括全局特征信息和局部特征信息的特征图的方式不做限制。

步骤S300，根据待识别图像的特征图获取至少一个待识别对象的特征向量信息。在一种可选的实现方式中，对待识别图像的特征图进行检测，得到至少一个待识别对象的检测框，并对至少一个待识别对象检测框中对应的特征进行特征提取，得到至少一个待识别对象的特征向量信息。

步骤S400，根据各待识别对象的特征向量信息和目标对象的特征向量信息，确定待识别图像中的目标对象。在一种可选的实现方式中，预先对包括目标对象的目标图像进行特征提取，得到目标对象的特征向量信息，并将目标对象的特征向量信息存储至对应的数据库，在待识别对象和目标对象进行比对时，从对应的数据库中获取目标对象的特征向量信息。在另一种可选的实现方式中，在需要待识别对象和目标对象进行比对时，通过对包括目标对象的目标图像进行特征提取，得到目标对象的特征向量信息。

在一种可选的实现方式中，步骤S400具体为：根据各待识别对象的特征向量信息和目标对象的特征向量信息，分别计算目标对象与各待识别对象的相似度，并将每个待识别对象与目标对象的相似度与相似度阈值进行比对，响应于待识别对象与目标对象的相似度大于或等于相似度阈值，则确定该待识别对象为目标对象。例如，得到待识别对象A、待识别对象B和待识别对象C的特征向量信息，分别将上述三个待识别对象的特征向量信息与目标对象的特征向量信息进行相似度计算，并将计算得到的三个相似度分别与相似度阈值进行比较，例如，其中待识别对象A与目标对象的相似度大于相似度阈值，待识别对象B和待识别对象C与目标对象的相似度小于相似度阈值，则可以待识别对象A为目标对象。其中，可以通过计算待识别对象的特征向量信息与目标对象的特征向量信息的余弦相似度或欧式距离等来计算对应的相似度。

本实施例通过获取包括至少一个待识别对象的待识别图像，对待识别图像进行特征提取，得到包括全局特征信息和局部特征信息的特征图，并根据待识别图像的特征图获取至少一个待识别对象的特征向量信息，以根据待识别对象的特征向量信息和目标对象的特征向量信息确定待识别图像中的目标对象，由此，本公开实施例可以使得对象检测和对象识别操作共享待识别图像的特征图，并通过使得待识别图像的特征图包括全局特征信息和局部特征信息增强了特征信息的特征表达能力，从而提高了对象检测和对象识别的准确率。

在一种可选的实现方式中，本实施例的图像处理方法可以基于端到端的ReID网络实现，以使得能够基于同一特征图来进行对象检测处理和对象识别处理，从而提高对象识别的准确率和识别效率。图5是本公开一实施例的端到端的ReID网络框架示意图。如图5所示，CNN卷积神经网络对输入的图像进行特征提取得到对应的特征图(Feature Maps)，并从特征图中提取候选人(candidate person)的特征信息输入至RoI Align(Regions ofInterest Align，感兴趣区域对齐)模块，RoI Align模块处理该特征信息后进行L2正则化处理，然后对L2正则化处理后的特征信息与目标对象的特征信息进行比对，并依据特征距离或相似度信息确定输入图像中是否包含目标对象。其中，感兴趣区域对齐为预先给定图像的重点区域，将该重点区域作为分析的重点，以能够更准确地分析图像。

可选的，以ResNet-50网络结构作为基础CNN卷积神经网络为例，将图像输入CNN卷积神经网络后输出1024个通道特征图，其中，预测网络(Pedestrian Proposal Net)采用512*3*3的卷积层变换特征图，再在每个特征图上用多个锚(anchors)进行定位，并预测每个锚处是否为一个行人，从每个锚对应的候选预测框中保留经非极大值抑制去重处理后得到的预测框，并将这些预测框所在的图像块送入识别网络(Identification Net)，获取每个预测框对应的对象的特征信息，并基于该特征信息进行行人检测和重识别操作。

图6是本公开一实施例的端到端的重识别网络的示意图。本实施例的重识别网络基于图5所示的端到端(End-to-End)的ReID网络框架。如图6所示，本实施例的重识别网络6包括特征提取网络61、对象检测网络62和对象识别网络63。其中，特征提取网络61的卷积层采用形变卷积，形变卷积的偏移量通过预先训练获得，这可以使得不同位置的卷积核的采样点位置会根据图像内容进行自适应变化，从而适应不同对象的形状、姿势或大小等变化。这样，采用形变卷积的特征提取网络可以对于图像中不同物体的形变、大小等几何形变有更好的特征提取能力，进而能够提高重识别网络的识别准确度。

特征提取网络61用于获取待识别图像的特征图f1，其中，特征图f1包括待识别图像的全局特征信息和局部特征信息。在本实施例中，基于特征提取网络61对待识别图像的特征图f1进行RoI Align操作，得到获取特征图f2。其中，特征图f2中的包括多个特征单元f21。其中，每个特征单元对应至少一个检测框，假设特征图f2的尺寸为13*13，则可以将特征图f2划分为13*13个特征单元f21(grid cell)，如果一个待识别对象的中心坐标落在某个特征单元f21中，则根据该特征单元来预测该待识别对象。

对象检测网络62对特征图f2进行检测，根据多个特征单元f21得到至少一个待识别对象检测框。在一种可选的实现方式中，通过对待识别图像的特征图f2中的各特征单元f21进行特征解码，得到各特征单元f21对应的检测框，对各检测框进行去重复处理，得到至少一个待识别对象检测框f21'。可选的，可以通过非极大值抑制方法对各检测框进行去重复处理。由此，对象检测网络62对待识别图像的特征图f2进行检测，得到了至少一个待识别对象检测框f21'的位置信息。

对象识别网络63用于对至少一个待识别对象检测框f21'进行特征提取，得到至少一个待识别对象的特征向量信息，并分别计算获取的目标对象的特征向量信息和各待识别对象的特征向量信息的余弦相似度，以获取目标对象分别和各待识别对象的相似度，将目标对象和各待识别对象的相似度与相似度阈值进行比对，以从各待识别对象中确定目标对象。在本实施例中，在待识别对象与目标对象的相似度大于或等于相似度阈值时，确定该待识别对象为目标对象。可选的，在本实施例中，可以采用重识别网络6对包括目标对象图像进行特征提取，以获取目标对象的特征向量信息，并存储至对应的数据库中。

应理解，若存在多个待识别对象与目标对象的相似度大于或等于相似度阈值时，对象识别网络63可以将最大相似度对应的待识别对象确定为目标对象，或者对象识别网络63将这多个待识别对象均确定为目标对象，后续通过其他方法(例如后续进行人工识别)来最终确定待识别图像中的目标对象。上述描述中，采用余弦相似度计算待识别对象和目标对象的相似度，应理解，其他计算相似度的方法，例如计算特征向量之间的欧式距离、汉明距离等均可应用于本实施例中，本实施例并不对此进行限制。

在本实施例中，对象检测网络62和对象识别网络63均对待识别图像的特征图f2进行处理。其中，在对象检测网络62确定待识别图像的特征图f2中的各待识别对象检测框f21'的位置信息后，对象识别网络63提取各待识别对象检测框f21'对应的图像块的特征向量信息(也即待识别对象的特征向量信息)，由此，本实施例通过采用端到端的重识别网络，实现了对象检测网络和对象识别网络共享处理待识别图像的特征图，从而提高了对象检测和对象识别的准确率。可选的，在对象检测网络检测待识别图像的特征图时，对象识别网络可以同时扫描待识别图像的特征图，并在找到被对象检测网络标记的待识别对象检测框后，提取该待识别对象检测框对应的图像块的特征向量信息，以进行图像识别操作。由此，本实施例还可以实现边检测边识别，提高了对象重识别的效率。

在一种可选的实现方式中，步骤S200可以包括：对待识别图像进行特征提取，得到待识别图像的多个尺寸的特征图。

图7是本实施例的多尺寸特征提取的示意图。如图7所示，将待识别图像71输入至重识别网络6中，特征提取网络61对待识别图像71进行卷积处理、采样处理、残差处理及RoIAlign处理等处理后，输出多个尺寸的待识别图像71的特征图，如图7所示，本实施例以输出三个尺寸的待识别图像71的特征图为例，其尺寸分别为Nx13x13x27、Nx26x26x27、Nx52x52x27。应理解，本实施例不对特征提取网络输出的特征图的数量及尺寸进行限制。其中，待识别图像71的各特征图分别包括13*13个特征单元、26*26个特征单元、52*52个特征单元，假设每个特征单元对应3个检测框，对象检测网络62对各特征单元进行特征解码，可以得到(13*13+26*26+52*52)*3＝10647个检测框，对这些检测框进行非极大值抑制去重复处理，获取至少一个待识别对象检测框。由此，在本实施例中，通过对多个不同尺寸的特征图得到的检测框进行去重复处理，可以对多个不同尺寸的特征图进行特征融合，进一步加强了特征表达能力，从而可以进一步提高对象检测和对象识别的准确率。

图8是本公开一实施例的对象识别网络的示意图。如图8所示，对象识别网络63可包括全局平均池化层81(Global Averagepool)、全连接层82(Fully Connected layer，FC)、正则化处理层83(例如赋范域的正则化处理L2-normed)以及识别单元84。其中，对象识别网络63获取待识别对象检测框对应的图像块，并将待识别对象对应的图像块经过全局平均池化层81、全连接层82以及正则化处理层83处理后，获取待识别对象的特征向量信息。识别单元84计算待识别对象的特征向量信息和目标对象的特征向量信息的距离(例如余弦相似度或欧式距离等)，以获取待识别对象与目标对象的相似度，进而根据相似度和预设的相似度阈值确定该待识别对象是否为目标对象。可选的，对象识别网络63从对应的数据库中获取目标对象的特征向量信息。

图9是本公开一实施例的特征提取网络的示意图。在一种可选的实现方式中，特征提取网络61根据darknet53网络结构确定。在YOLOv3中的骨干网络darknet53网络结构的基础上，将YOLOv3中的骨干网络darknet53的标准卷积层改为形变卷积层以获取本实施例的特征提取网络61。如图9所示，特征提取网络61包括形变卷积层91和残差模块92-96。其中，残差模块92'为残差模块92的具体结构，其包括两层卷积层。在本实施例中，形变卷积层91采用形变卷积，形变卷积的偏移量通过预先训练获得。

理论上来说，神经网络层数越多，具有的平移旋转不变性越强，这个性质对于保证分类模型的鲁棒性具有积极意义。但是，在对于本实施例的端到端的重识别网络来说，目标对象识别定位任务需要网络结构对位置信息具有良好的感知能力，因此，过度的平移旋转不变性会削弱darknet53网络结构的感知能力，也即随着darknet53网络结构的神经网络层的加深，其对对象的位置信息的敏感度下降，检测框(Bounding Box)的准确度也可能会随之降低，因此，现有的darknet53网络结构的对象检测准确率较低。由此，本实施例为了消除或削弱标准卷积层中的规则的标准卷积核难以适应几何形变的限制，用形变卷积来替换标准卷积，以加强不同姿态的对象的形变特征的建模能力，提高了对象检测和对象识别的准确率。

在形变卷积层91中，对卷积核中的每个采样点的位置增加了一个偏移量x，由此，卷积核可以根据偏移量x在当前位置附近进行采样，而不再局限于标准卷积核的规则采样点，由此，可以对对象姿势的变化具有很好的表征能力，提高对象检测和对象识别的准确率。

图10是相关技术的标准卷积的示意图。图11-图13是本公开一实施例的形变卷积的示意图。如图10-图13所示，本实施例的卷积层中的卷积核在标准卷积核的基础上加了一个偏移量，图11-图13中的形变卷积的偏移量不同，展示了形变卷积核对于不同尺寸、不同比例以及不同旋转角度的图像的特征表达能力。本实施例中的特征提取网络61中的形变卷积的偏移量在重识别网络的训练过程中通过学习确定，以使得形变卷积的偏移量的大小和位置可以根据需要识别的图像内容进行动态调整，也就是说，不同位置的形变卷积层的卷积核的采样点位置会根据图像内容发生自适应变化，从而适应不同对象的形状、大小等几何形变。由此，可以进一步提高对象检测和对象识别的准确率。

在本实施例中，将包括至少一个待识别对象的待识别图像输入至重识别网络中，通过重识别网络中的特征提取网络对待识别图像进行特征提取，得到包括全局特征信息和局部特征信息的特征图，并根据重识别网络中的对象检测网络对特征图进行检测，获取至少一个待识别对象检测框，通过重识别网络的对象识别网络获取待识别对象的特征向量信息，并基于待识别对象的特征向量信息和目标对象的特征向量信息确定待识别图像中的目标对象。由此，本实施例通过采用端到端的重识别网络，实现了对象检测网络和对象识别网络共享处理待识别图像的特征图，提高了对象检测和对象识别的准确率。并且，本实施例中的特征提取网络的卷积层采用形变卷积，可以适应不同对象的形状、大小等几何形变，进一步提高了对象检测和对象识别的准确率。

在一种可选的实现方式中，本实施例的图像处理方法还包括：训练本实施例的重识别网络。

图14是本公开一实施例的重识别网络训练方法的流程图，如图14所示，本实施例的重识别网络训练方法包括以下步骤：

步骤S141，获取训练集。其中，训练集包括多个对象的图像组，各图像组包括对应的对象的多个不同姿态或角度的图像，例如行人的正面、背面、左侧、右侧、步行、跑步等姿势或角度。可选的，可以采用CUHK03或PAP2.0等数据集作为本实施例的重识别网络的训练集。在本实施例中，首先对训练集中的多张图像进行梳理，选择K(K大于1)个对象的各M(M大于1)张图像，作为一个训练批次对重识别网络进行训练。其中，各对象的M张图像具有该对象的不同姿态(例如行人行走时的不同姿态等)。由此，可以提高本实施例的重识别网络对不同姿态的对象的检测和识别能力。

步骤S142，基于损失函数，根据上述训练集训练重识别网络。其中，重识别网络包括特征提取网络、对象检测网络和对象识别网络，所述特征提取网络的卷积层采用形变卷积。特征提取网络对待识别图像进行特征提取，得到包括全局特征信息和局部特征信息的特征图。特征提取网络的卷积层采用形变卷积以适应不同对象的形状、大小等几何形变。对象检测网络对特征图进行检测，获取至少一个待识别对象检测框。对象识别网络获取待识别对象的特征向量信息，并基于待识别对象的特征向量信息和目标对象的特征向量信息确定待识别图像中的目标对象。

在一种可选的实现方式中，本实施例的训练集中的图像具有图像的全局区域和多个局部区域的位置标注信息，以获取包括图像全局特征信息和局部特征信息的特征图，从而提高图像的特征图的特征表达能力。

图15是本公开一实施例的热力图分布的示意图。如图15所示，在行人的热力图分布中，行人的头部、上身等均有关键信息区域。由此，在一种可选的实现方式中，将训练集中的行人图像划分为头部区域、上身区域及下身区域等三个局部区域，并对行人图像的全局区域及这三个局部区域进行位置信息进行标注，将标注后的图像输入至重识别网络中以训练该重识别网络，由此，训练后的重识别网络在对输入的图像进行特征提取时能够提取全局特征信息和局部特征信息，从而提高获取的图像特征图的特征表达能力，进一步提高行人检测和行人识别的准确率。

图16是本公开一实施例的重识别网络训练示意图。如图16所示，将一个行人的多张不同姿态的图像输入至重识别网络，其中，该行人的多张不同姿态的图像均具有全局区域、头部区域、上身区域及下身区域的位置标注信息。重识别网络中的特征提取网络对多个图像进行全局特征信息及局部区域特征提取，并对获取的多个特征图进行卷积处理、采样处理、残差连接处理、特征图拼接处理及RoI Align处理等处理，得到该行人对应的三个尺寸的特征图。由此，该行人对应的三个尺寸的特征图包括该行人的全局特征信息和局部特征信息。重识别网络中的对象检测网络及对象识别网络对多个对象的三个尺寸的特征图的处理来进行训练。

本实施例的重识别网络通过对多个对象的多个不同姿态的全局区域及局部区域进行特征提取，得到多个对象分别对应的多个不同尺寸的特征图，基于对多个对象分别对应的多个不同尺寸的特征图来训练重识别网络，由此，可以提高重识别网络的对象识别准确率。应理解，本实施例以三个尺度进行举例说明，但是本实施例并不对此进行限制。

在一种可选的实现方式中，步骤S142可以包括：

基于对象检测网络对应的第一损失函数和对象识别网络对应的第二损失函数，根据上述训练集中的各图像的位置标注信息训练所述重识别网络。其中，对象检测网络基于第一损失函数来控制待识别对象检测框的位置信息的提取，对象识别网络基于第二损失函数来控制对象身份特征的提取。

在本实施例中，根据上述训练集中的各图像的位置标注信息训练所述重识别网络，以使得重识别网络中的特征提取网络输出的特征图包括全局特征信息和局部特征信息，并基于对象检测网络的第一损失函数和对象识别网络对应的第二损失函数，根据训练过程中的输出结果，调整特征提取网络的参数、形变卷积的偏移量、对象检测网络的参数及对象识别网络的参数。

在一种可选的实现方式中，第一损失函数可以为YOLO损失函数。YOLO损失函数为YOLO网络中应用的损失函数，包括4个部分：1、对预测的检测框的中心坐标做损失。2、对检测框的宽高做损失。3、对预测的类别做损失。4、对预测的是否包含待识别对象的置信度做损失。

图17是本公开一实施例的对象识别网络的损失函数示意图。在一种可选的实现方式中，第二损失函数可以为三元损失函数(Triplet loss)。如图17所示，输入数据包括锚(Anchor)样本171、正(Positive)样本172和负(Negative)样本173。其中，锚样本171与正样本172的距离较远(表征锚样本171的特征向量与正样本172的特征向量的夹角较大)，锚样本171与负样本173的距离较近(表征锚样本171的特征向量与正样本173的特征向量的夹角相对较小)。在经过训练学习之后，如图17所示，锚样本171与正样本172的距离较近，锚样本171的特征向量与负样本173的距离较远。因此，经过训练后的对象识别网络可以根据待识别对象和目标对象的特征向量的距离确定该待识别对象是否为目标对象。

可选的，三元损失函数的公式如下所示：

其中，

表示第i个人的第a张图片，

是图像经过神经网络得到的特征向量，θ是图像到特征图的映射关系，D(a,b)是表示两特征向量a、b的欧式距离，m表示最大特征距离和最小特征距离之间的最小余量(margin)，可选的，m为0.5。

在本实施例中，重识别网络基于端到端的ReID网络构建，其中，特征提取网络的卷积层采用形变卷积，通过具有位置标注信息的多个对象的多个不同姿态或角度的图像对重识别网络进行训练，并基于第一损失函数和第二损失函数在训练过程中调整特征提取网络的参数、形变卷积的偏移量、对象检测网络的参数及对象识别网络的参数，从而使得训练后的重识别网络可以根据需要识别的图像内容进行动态调整，以适应不同物体的形状、大小等几何形变，并且使得特征提取网络输出的特征图包括全局特征信息和局部特征信息，增强了获取的特征图的特征表达能力，由此，通过本实施例的训练方法对重识别网络进行训练，可以提高对象检测和对象识别的准确率。

图18是本公开一实施例的图像识别过程的示意图。如图18所示，将待识别图像fig1输入至重识别网络18中。重识别网络18中的特征提取网络181对待识别图像进行特征提取，得到三个不同尺寸的特征图。其中，各尺寸的特征图均包括全局特征信息和局部特征信息。如图18所示，各特征图包括至少一个特征单元。对象检测网络182对每个特征图中的各特征单元进行特征解码，得到各特征单元对应的检测框，并对各检测框进行非极大值抑制去重复处理，得到至少一个待识别对象检测框f1-f5。对象识别网络183对待识别对象检测框f1-f5对应的图像块进行特征提取，得到各待识别对象的特征向量。对象识别网络183从特征向量数据库D中获取目标对象的特征向量，并分别计算各待识别对象的特征向量和目标对象的特征向量的余弦相似度，以获取各待识别对象与目标对象的相似度，然后将各待识别对象和目标对象的相似度分别与相似度阈值进行比对，以确定待识别图像中的目标对象。在本实施例中，待识别对象检测框f1对应的待识别对象与目标对象的相似度大于或等于相似度阈值，由此，将待识别对象检测框f1对应的待识别对象tag1在图像fig1中进行标记输出。

在本实施例中，将目标对象图像fig2输入至重识别网络18中以获取目标对象的特征向量并存储至对应的特征向量数据库D中。由此，可以使得在重识别网络18对目标对象进行识别时，特征向量库D中直接获取目标对象的特征向量即可。

应理解，图18所示的行人重识别过程仅仅是示例性的，以便于简便清晰地展示本实施例的对象检测及识别过程，其并不与本实施例中的重识别网络的处理过程一一对应。

在本实施例中，重识别网络基于端到端的ReID网络构建，其中，特征提取网络的卷积层采用形变卷积，通过具有位置标注信息的多个对象的多个不同姿态或角度的图像对重识别网络进行训练，并基于第一损失函数和第二损失函数在训练过程中调整特征提取网络的参数、形变卷积的偏移量、对象检测网络的参数及对象识别网络的参数，从而使得训练后的重识别网络可以根据需要识别的图像内容进行动态调整，以适应不同物体的形状、大小等几何形变，并且使得特征提取网络输出的特征图包括全局特征信息和局部特征信息，增强了提取的特征信息的特征表达能力，由此，通过本实施例的重识别网络对待识别图像进行对象检测及对象识别，可以提高对象检测和对象识别的准确率。

图19是本公开一实施例的图像处理置的示意图。如图19所示，本实施例的图像处理置19包括图像获取单元191、特征提取单元192、第一信息获取单元193及目标对象确定单元194。

图像获取单元191用于获取待识别图像，所述待识别图像中包括至少一个待识别对象。

特征提取单元192用于对所述待识别图像进行特征提取，得到所述待识别图像的特征图，所述待识别图像的特征图包括全局特征信息和局部特征信息。可选的，特征提取单元192包括第一特征提取子单元1921。第一特征提取子单元1921用于将所述待识别图像输入到重识别网络的特征提取网络中进行特征提取，得到所述待识别图像的特征图，其中，所述特征提取网络的卷积层采用形变卷积。可选的，特征提取单元192还包括第二特征提取子单元1922。第二特征提取子单元1922用于对所述待识别图像进行特征提取，得到所述待识别图像的多个尺寸的特征图。

第一信息获取单元193用于根据所述待识别图像的特征图获取所述至少一个待识别对象的特征向量信息。可选的，第一信息获取单元193包括检测子单元1931和检测框特征提取子单元1932。检测子单元1931用于根据重识别网络的对象检测网络对所述特征图进行检测，得到至少一个待识别对象检测框。检测框特征提取子单元1932用于根据所述重识别网络的对象识别网络对所述至少一个待识别对象检测框进行特征提取，得到所述至少一个待识别对象的特征向量信息。

可选的，所述特征图包括至少一个特征单元，其中，检测子单元1931包括特征解码模块1931a和去重复处理模块1931b。特征解码模块1931a用于对所述特征图中的各特征单元进行特征解码，得到各所述特征单元对应的检测框。去重复处理模块1931b用于对各所述检测框进行去重复处理，得到至少一个待识别对象检测框。

目标对象确定单元194用于根据各所述待识别对象的特征向量信息和目标对象的特征向量信息，确定所述待识别图像中的目标对象。可选的，目标对象确定单元194包括相似度计算子单元1941和相似度比较子单元1942。相似度计算子单元1941用于根据各所述待识别对象的特征向量信息和所述目标对象的特征向量信息，分别计算所述目标对象与各所述待识别对象的相似度。相似度比较子单元1942用于对于各待识别对象，响应于所述目标对象与所述待识别对象的相似度大于或等于相似度阈值，确定所述待识别对象为所述目标对象。

可选的，本实施例的图像处理装置19还包括第二信息获取单元195。第二信息获取单元195用于将目标对象图像输出重识别网络中进行处理，得到所述目标对象的特征向量信息。

图20是本公开一实施例的重识别网络的训练装置的示意图。在本实施例中，重识别网络包括特征提取网络、对象检测网络和对象识别网络，所述特征提取网络的卷积层采用形变卷积。如图20所示，本实施例的重识别网络的训练装置20包括训练集获取单元201和训练单元202。其中，训练集获取单元201用于获取训练集，所述训练集包括多个对象的图像组，所述图像组包括对应的对象的多个不同角度的图像。训练单元202用于基于损失函数，根据所述训练集训练所述重识别网络。

在一种可选的实现方式中，所述训练集中的图像具有图像的全局区域和多个局部区域的位置标注信息。训练单元202进一步用于基于对象检测网络对应的第一损失函数和对象识别网络对应的第二损失函数，根据所述训练集中的各图像的位置标注信息训练所述重识别网络。

图21是本公开一实施例的电子设备的示意图。如图21所示，电子设备21：至少包括一个处理器211；以及，与处理器211通信连接的存储器212；以及，与扫描装置通信连接的通信组件213，通信组件213在处理器211的控制下接收和发送数据；其中，存储器212存储有可被至少一个处理器211执行的指令，指令被至少一个处理器211执行以实现上述任一实施方式的图像处理方法和/或训练方法。其中，处理器211为CPU处理器或加速处理器(例如GPU处理器)。

具体地，电子设备21包括：一个或多个处理器211以及存储器212，图21中以包括一个处理器211为例，处理器211用于执行本实施例中的图像处理方法和/或训练方法的至少一个步骤。处理器211和存储器212可以通过总线或者其他方式连接，图21中以通过总线连接为例。存储器212作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器211通过运行存储在存储器212中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本公开实施例的图像处理方法和/或训练方法。

存储器212可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器212可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器212可选包括相对于处理器211远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器212存储有一个或者多个单元，当一个或者多个单元被处理器211执行时，执行上述任意方法实施方式中的图像处理方法和/或训练方法。

本公开的另一个实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述产品可执行本公开实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本公开实施方式所提供的方法。

以上所述仅为本公开的优选实施例，并不用于限制本公开，对于本领域技术人员而言，本公开可以有各种改动和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述待识别图像进行特征提取，得到所述待识别图像的特征图包括：

3.根据权利要求1或2所述的方法，其特征在于，根据所述待识别图像的特征图获取所述至少一个待识别对象的特征向量信息包括：

4.根据权利要求3所述的方法，其特征在于，所述特征图包括至少一个特征单元，其中，根据重识别网络的对象检测网络对所述特征图进行检测，得到至少一个待识别对象检测框包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，根据各所述待识别对象的特征向量信息和目标对象的特征向量信息，确定所述待识别对象中的目标对象包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，对所述待识别图像进行特征提取，得到所述待识别图像的特征图包括：

对所述待识别图像进行特征提取，得到所述待识别图像的多个尺寸的特征图。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

8.一种重识别网络的训练方法，其特征在于，所述方法包括：

基于损失函数，根据所述训练集训练所述重识别网络；

9.根据权利要求8所述的方法，其特征在于，所述训练集中的图像具有图像的全局区域和多个局部区域的位置标注信息；

10.一种图像处理装置，其特征在于，所述装置包括：

11.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行以实现如权利要求1-9中任一项所述的方法。