CN111783753B

CN111783753B - 基于语义一致水平条和前景修正的行人重识别方法

Info

Publication number: CN111783753B
Application number: CN202010918791.1A
Authority: CN
Inventors: 郭海云; 朱宽; 王金桥; 唐明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu Beijing Technology Co ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-15
Anticipated expiration: 2040-09-04
Also published as: CN111783753A

Abstract

本发明属于计算机视觉和模式识别领域，具体涉及一种基于语义一致水平条和前景修正的行人重识别方法，旨在解决现有的行人重实别方法重实别鲁棒性较差的问题。本发明方法包括：获取待识别的图像，作为输入图像；提取输入图像的特征，作为第一特征；基于第一特征，通过行人重识别模型中的行分类器分别获取输入图像中行人对应的前景特征作为第二特征，获取输入图像中行人各设定部位水平条区域的特征作为第三特征；将将第二特征与第三特征进行点对点相乘，并与第一特征拼接，得到第四特征；计算第四特征与图像库中各图像对应特征的欧式距离并排序，将排序结果作为重识别结果进行输出。本发明提高了行人重识别的鲁棒性。

Description

基于语义一致水平条和前景修正的行人重识别方法

技术领域

本发明属于计算机视觉和模式识别领域，具体涉及一种基于语义一致水平条和前景修正的行人重识别方法、***、装置。

背景技术

行人重识别属于图像检索领域的一个子问题。给定一个行人图像，行人重识别任务旨在找到其他场景下的该行人图像。但是由于视角的变换、姿态的差异和物体的遮挡，导致人体的部位可能出现在图片的任何位置。因此，学习一种能够有效定位人体各个部位，并单独提取出有足够判别力的部位特征是十分重要的。

现有的基于部位对齐的行人重识别大概有四类：基于水平条的方法、基于包围框的方法、基于注意力的方法和基于额外语义信息的方法。这其中，基于水平条方法因其方便快捷和相对较高的性能而尤其流行。其中，比较流行的有PCB、MGN、Pyramid等。PCB (YifanSun, Liang Zheng,Yi Yang,Qi Tian,Shengjin Wang.Beyond Part Models: PersonRetrieval with Refined Part Pooling (and A Strong Convolutional Baseline).ECCV, 2018)最早提出将行人图片划分成等高度得水平条，然后单独对每一个水平条进行平均池化得到特征，并单独计算损失。MGN (Guanshuo Wang, Yufeng Yuan, Xiong Chen,Jiwei Li.Learning discriminative features with multiple granularities forperson re-identification. ACM MM, 2018)和Pyramid(Zheng F , Deng C , Sun X ,et al. Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training.CVPR, 2019.)在PCB的基础上，设计了多粒度和有重叠的水平条，大大提升了算法的鲁棒性。但是，以上方法都没有解决以下两个问题：(1)水平条高度和位置固定。由于姿态、视角的差异和遮挡等问题的影响，并不能保证每一个水平条内的语义都是一致的。但是以上方法采用固定水平条，并没有尝试解决这个问题。(2)背景噪声的干扰。在每个水平条的内部，不可避免地会有背景信息的干扰，如何去除水平条内部的背景噪音，目前还没有方法能够解决。基于此，本发明提出了一种基于语义一致水平条和前景修正的行人重识别方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的行人重识别方法由于水平条高度和位置固定、未消除背景噪声，导致重识别鲁棒性较差的问题，本发明提出了一种基于语义一致水平条和前景修正的行人重识别方法，该方法包括：

步骤S10，获取待识别的图像，作为输入图像；

步骤S20，通过行人重识别模型的特征提取层提取所述输入图像的特征，作为第一特征；

步骤S30，基于所述第一特征，通过行人重识别模型中预训练的行分类器分别获取所述输入图像中行人对应的前景特征作为第二特征，获取所述输入图像中行人各设定部位水平条区域的特征作为第三特征；

步骤S40，将所述第二特征与所述第三特征进行点对点相乘，并与所述第一特征拼接，得到第四特征；

步骤S50，计算所述第四特征与图像库中各图像对应特征的欧式距离并进行排序，将排序结果作为重识别结果进行输出；

其中，所述行人重识别模型基于深度卷积神经网络构建；所述行分类器基于全连接层和softmax层构建。

在一些优选的实施方式中，所述行分类器，其训练方法为：

步骤A10，获取训练样本图像集；

步骤A20，对所述训练样本图像集中的任一图像，提取其行特征并池化，得到其对应的平均特征；

步骤A30，判断当前的迭代次数M是否为N的倍数，若是，则执行步骤A40，否则跳转步骤A50；其中，N、M为自然数；

步骤A40，提取所述训练样本集中各训练样本图像的行特征，通过自相似聚类获取各设定部位对应的伪标签，并执行步骤A50；

步骤A50，计算步骤A20获取的局部特征与所述伪标签的损失，并对所述行分类器进行参数更新。

在一些优选的实施方式中，所述自相似聚类为k-means聚类方法。

在一些优选的实施方式中，“通过行人重识别模型中预训练的行分类器分别获取所述输入图像中行人对应的前景特征作为第二特征”，其方法为：

通过所述行分类器获取所述输入图像中各像素点对人体前景语义的置信度；

将置信度大于第一设定阈值的像素点作为前景像素，将直线度小于第二设定阈值的像素点作为背景像素；

基于提取的前景像素构建的特征作为所述输入图像中行人对应的前景特征。

在一些优选的实施方式中，“通过行人重识别模型中预训练的行分类器获取所述输入图像中行人各设定部位水平条区域的特征作为第三特征”，其方法为：

通过行分类器对所述输入图像进行语义分割，得到所述输入图像中行人各设定部位水平条区域的置信图；

将各置信图分别与所述第一特征进行点对点乘积运算，得到所述输入图像中行人各设定部位水平条区域的特征。

在一些优选的实施方式中，所述行人重识别模型，其在训练时的损失函数为：

其中，

表示行人重识别模型的损失值，

表示行人重识别模型在训练时一批次的训练样本图像的数量，

表示批次，

表示行人重识别模型在训练时一批次的训练样本图像中的任一图像，

表示图像集A中图像特征与的

的特征欧式距离最大的一张训练样本图像，

表示图像集B中图像特征与

的特征的欧式距离最小的一张训练样本图像，

表示预设的距离间隔，

表示包含与

相同ID的所有图像的图像集，

表示当前批次中除了

中包含的图像外所有图像构建的图像集，

表示欧氏距离。

本发明的第二方面，提出了一种基于语义一致水平条和前景修正的行人重识别***，该***包括：图像获取模块、全局特征提取模块、局部特征提取模块、特征拼接模块、识别输出模块；

所述图像获取模块，配置为获取待识别的图像，作为输入图像；

所述全局特征提取模块，配置为通过行人重识别模型的特征提取层提取所述输入图像的特征，作为第一特征；

所述局部特征提取模块，配置为基于所述第一特征，通过行人重识别模型中预训练的行分类器分别获取所述输入图像中行人对应的前景特征作为第二特征，获取所述输入图像中行人各设定部位水平条区域的特征作为第三特征；

所述特征拼接模块，配置为将所述第二特征与所述第三特征进行点对点相乘，并与所述第一特征拼接，得到第四特征；

所述识别输出模块，配置为计算所述第三特征与图像库中各图像对应特征的欧式距离并进行排序，将排序结果作为重识别结果进行输出；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的基于语义一致水平条和前景修正的行人重识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于语义一致水平条和前景修正的行人重识别方法。

本发明的有益效果：

本发明提高了行人重识别的鲁棒性。本发明通过预训练的行分类器会将每一行分到特定的语义从而组成语义一致的水平条，可以自适应的调整水平条的高度和位置，以确保每一个水平条内部所包含的语义是一致的，解决了水平条语义一致性的问题。

同时，每一个像素还会被分到前景或背景语义。通过取水平条语义和前景区域的交集，我们便会近似地得到人体各个部位的位置，解决了背景信息的干扰，提高各部分定位的精准性和局部特征的判别性。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1 是本发明一种实施例的基于语义一致水平条和前景修正的行人重识别方法的流程示意图；

图2为本发明一种实施例的基于语义一致水平条和前景修正的行人重识别***的框架示意图；

图3是本发明一种实施例的基于语义一致水平条和前景修正的行人重识别方法的简略结构示意图；

图4是本发明一种实施例的本发明行分类器与现有水平条高度和位置固定行分类器的对比效果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种基于语义一致水平条和前景修正的行人重识别方法，如图1所示，该方法包括以下步骤：

步骤S10，获取待识别的图像，作为输入图像；

为了更清晰地对本发明基于语义一致水平条和前景修正的行人重识别方法进行说明，下面对本发明方法一种实施例中各步骤进行展开详述。

在下文的实施例中，先对行人重识别模型的训练过程进行详述，在再对基于语义一致水平条和前景修正的行人重识别方法获取行人重识别结果的过程进行详述。

1、行人重识别模型的训练过程

步骤B10，对行人重识别模型进行预训练

本发明中，行人重识别模型基于深度卷积神经网络构建，深度卷积神经网络在本发明中优选为文献“Sun K , Xiao B , Liu D , et al. Deep High-ResolutionRepresentation Learning for Human Pose Estimation[J]. 2019.”所提出的HRNet网络，HRNet包含多尺度的语义信息，较为适合做人体语义解析和行人重识别共同的网络。行人重识别模型，如图3所示，其中，图3中的神经网络模型指的是卷积神经网络，用于提取特征，对齐后的行人各部位的特征，表示按顺序将人体各部位的特征拼接后得到的特征，具体在下文中解释。

在本实施例中，采用ImageNet数据集对行人重识别模型进行预训练，初始化行人重识别模型的网络参数。在预训练过程中，将选取的样本图像尺寸压缩至

，每一次迭代输入64张图像，迭代训练6000次，在其他实施例中，可以根据实际需求选取模型预训练的迭代次数以及每次迭代输入的样本图像数量。

步骤B20，获取训练样本图像集

在本实施例中，获取包含行人的训练样本图像，构建训练样本图像集。

步骤B30，提取训练样本图像集中各训练样本图像的特征，作为全局特征

在本实施例中，通过行人重识别模型的特征提取层提取训练样本图像的特征，作为全局特征，特征提取层为基于卷积神经构建的特征提取层。其中，HRNet最终输出的特征（特征图）大小为64322048，本发明中将HRNet输出的特征通过11的卷积对特征进行降维到6432512大小，然后进行行划分和前景修正操作。

步骤B40，基于全局特征，通过行人重识别模型中预训练的行分类器分别获取各训练样本图像中行人对应的前景特征、获取各训练样本图像中行人各设定部位水平条区域的特征。

本发明提出了一种语义一致水平条和前景修正分类器，先对行人图像进行语义一致水平条的划分，然后再去除水平条内部的背景。该网络包含语义一致水平条和前景修正模块。前者用迭代聚类的方式生成水平条的伪标签，然后指导水平条划分的学***条分类器得到前景响应图，并利用前景响应图指导前背景的划分。最后，通过组合全局和局部特征来获得有效的行人特征描述。具体如下：

在本实施例中，语义一致水平条的划分，即行划分，行划分主要包括一个行分类器，由全连接层和softmax层构建，可以将每一行分到不同的语义。首先通过对训练样本图像每一行进行池化操作（即图3中的行单元池化），得到每一行的平均特征，即行特征，然后用行分类器将每一行平均特征进行分类，每一行平均特征被分到的类别就代表这一行的语义部分，即通过行分类器对训练样本图像中行人设定身体部位区域进行语义分割，获取行人设定身体部位区域的置信图，将各置信图与全局特征进行点对点乘积运算，形成对应于身体不同部位的加权特征图（行人各设定部位水平条区域（行区域）的特征）。

本发明中优选获取行人五个身体部位的水平条特征，分别对应头部，胸部，腹部，腿部和脚部的特征，表示为M1，M2，M3，M4和M5。如图4所示，图4中的（a）（b）（c）为现有的水平条高度和位置固定行分类器获取的特征图，可以发现，利用现有的人体解析模型得到的特征图（即拼接后的特征图）无法利用背包等有效信息而影响性能。

其中，行分类器在训练过程中使用迭代聚类的方法给每一行分配伪标签。即每进行n次训练阶段，我们便将图像每一行（行人设定部位的水平条区域）的特征均值进行聚类，然后按照从上至下的位置分配语义。在之后的训练过程中，将分配到的语义伪标签用于监督行分类器的学***条划分，得到语义一致的水平条。行分类器的训练过程具体如下：

步骤B41，对所述训练样本图像集中的任一图像，提取其行特征并池化，得到其对应的平均特征；

步骤B42，判断当前的迭代次数M是否为N的倍数，若是，则执行步骤B43，否则跳转步骤B44；其中，N、M为自然数；当前的迭代次数M也为行人重识别训练模型的当前迭代次数；

步骤B43，提取所述训练样本集中所有训练样本图像的平均特征，并通过自相似聚类获取每一行对应的伪标签进行更新，执行步骤B44；

步骤B44，计算步骤B41获取的平均特征与更新后的伪标签的损失，并对所述行分类器进行参数更新。

步骤B45，循环执行步骤B41-B44，直至得到训练好的行分类器。

自相似聚类在本发明中k-means聚类算法。

在行分类器获取行人各设定部位的局部特征后，为了进一步的去除各设定部位水平条中的背景像素，减少噪音干扰。本发明设计了前景引导的部位精细化方法，即添加了一个前背景分类器，来预测训练样本图像每一个像素是属于前景还是背景。鉴于之前已经学到了行分类器，本发明优选用行分类器去区分各像素点对人体各设定部位的置信度，本发明优选将置信度大于0.8的作为前景像素，将置信度小于0.2作为背景像素，其他的作为中立像素（即图3中的中立）。基于提取的前景像素构建的特征作为训练样本图像中行人对应的前景特征（即图3中以像素为单元，提取前景/背景特征）。

步骤B50，特征拼接

在本实施例中，首先，将M1-5通过全局特征池化压缩为5个256维度的向量，记作S1-5。然后，将M1-5相加，得到前景特征图，并由平均池化映射压缩为一个256维向量，记作S6。将全局特征通过平均池化映射压缩为一个256维向量，记作S7，这个特征向量可以很好地传递整体抽象特征。最后拼接上述三个特征向量，最终获得一个7×256维的特征，来表征行人融合后的特征。

其中，S6也可以直接通过行分类器获取各训练样本图像的前景特征，若通过行分类器获取各训练样本图像的前景特征，则将S1-5与S6进行点对点相乘后与S7拼接，来表征行人融合后的特征。

步骤B60，计算拼接后的特征与图像库中各图像对应特征的欧式距离并进行排序，将排序结果作为重识别结果进行输出。

在本实施例中，计算拼接后的行人特征与图像库中各图像对应的欧式距离并进行升序排序，Rank-1（排名第一）和排序靠前的匹配率越高，表明对目标重识别任务的效果越好。图像库为存储多张行人图像的数据库。

基于重识别后的结果，本发明采用三元组损失来监督整个网络的训练。该损失的核心思想是通过距离间隔将不匹配的行人对与匹配的行人对分离开来，以增大类间差异，缩小类内差异，如公式（1）所示：

（1）

其中，

表示行人重识别模型的损失值，

表示批次，

表示图像集A中图像特征与的

的特征欧式距离最大的一张训练样本图像，即最不像的正样本，

表示图像集B中图像特征与

的特征的欧式距离最小的一张训练样本图像，即最像的负样本，

构成一个三元组，

表示预设的距离间隔，

表示包含与

相同ID的所有图像的图像集，

表示当前批次中除了

中包含的图像外所有图像构建的图像集，

表示欧氏距离。

基于上述损失对行人重识别模型的网络参数进行更新，并跳转至步骤B20，直至得到训练好的行人重识别模型。

2、基于语义一致水平条和前景修正的行人重识别方法

步骤S10，获取待识别的图像，作为输入图像；

在本实施例中，先获取识别的行人图像，作为输入图像。

在本实施例中，通过上述训练好的行人重识别模型获取输入图像中行人的全局特征，即基于行人重识别模型的特征提取层提取输入图像的特征，作为第一特征。

在本实施例中，通过行分类器获取输入图像中各像素点对人体前景语义的置信度，将置信度大于第一设定阈值的像素点作为前景像素，将置信度小于第二设定阈值的像素点作为背景像素，基于提取的前景像素构建的特征作为所述输入图像中行人对应的前景特征，作为第二特征。

通过行分类器对输入图像进行语义分割，得到输入图像中行人各设定部位水平条区域的置信图，将各置信图分别与第一特征进行点对点乘积运算，得到输入图像中行人各设定部位水平条区域的特征，作为第三特征。

在本实施例中，将获取的行人的各特征进行拼接。

步骤S50，计算所述第四特征与图像库中各图像对应特征的欧式距离并进行排序，将排序结果作为重识别结果进行输出。

在本实施例中，计算拼接后的第四特征与图像库中各行人图像对应的特征之间的欧式距离，并进行排序，将排序结果作为重识别结果进行输出。本发明中优选采用升序排序，排序越靠前表明匹配率越高。

本发明第二实施例的一种基于语义一致水平条和前景修正的行人重识别***，如图2所示，包括：图像获取模块100、全局特征提取模块200、局部特征提取模块300、特征拼接模块400、识别输出模块500；

所述图像获取模块100，配置为获取待识别的图像，作为输入图像；

所述全局特征提取模块200，配置为通过行人重识别模型的特征提取层提取所述输入图像的特征，作为第一特征；

所述局部特征提取模块300，配置为基于所述第一特征，通过行人重识别模型中预训练的行分类器分别获取所述输入图像中行人对应的前景特征作为第二特征，获取所述输入图像中行人各设定部位水平条区域的特征作为第三特征；

所述特征拼接模块400，配置为将所述第二特征与所述第三特征进行点对点相乘，并与所述第一特征拼接，得到第四特征；

所述识别输出模块500，配置为计算所述第四特征与图像库中各图像对应特征的欧式距离并进行排序，将排序结果作为重识别结果进行输出；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的***的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于语义一致水平条和前景修正的行人重识别***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于语义一致水平条和前景修正的行人重识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于语义一致水平条和前景修正的行人重识别方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。