CN110807434A

CN110807434A - 一种基于人体解析粗细粒度结合的行人重识别***及方法

Info

Publication number: CN110807434A
Application number: CN201911078998.6A
Authority: CN
Inventors: 陈彬; 赵聪聪; 白雪峰; 于水; 胡明亮; 朴铁军
Original assignee: Weihai Ruowi Information Technology Co Ltd
Current assignee: Weihai Ruowi Information Technology Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-02-18
Anticipated expiration: 2039-11-06
Also published as: CN110807434B

Abstract

一种基于人体解析粗细粒度结合的行人重识别***，包括参数预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征提取模块、人体重识别模型加载模块、用户检索模块；所述参数预训练初始化模块用于在公开数据集中进行参数预训练初始化网络，得到行人重识别网络模型；监控视频数据读取模块用于上传和读取视频数据，并发送给视频图像分析模块；与现有技术相比，本发明的有益效果是：从人体解析方面考虑，本发明采用粗细粒度结合的方式设计神经网络模型，注重不同层次的人体语义，使得提取到更具判别力的行人特征，提高准确性；还有的是，结合知识蒸馏思想设计损失函数，优化网络的训练有效地降低行人重识别的识别时间，提高效率。

Description

一种基于人体解析粗细粒度结合的行人重识别***及方法

技术领域

本发明涉及行人重识别领域，尤其涉及一种基于人体解析粗细粒度结合的行人重识别***。

背景技术

面对海量的视频，传统依靠人工对录像进行分析是一件非常耗费人力的事情，同时长时间观察容易使工作人员产生视觉疲劳而导致一定的错误。针对传统人工搜索中存在的问题，人们开始重视如何依靠计算机视觉技术来准确、高效地从海量视频中完成感兴趣行人的检索问题，因此，利用计算机视觉中的行人重识别 (Person Re-Identification)技术辅助甚至代替工作人员来对不同摄像头下的视频中的行人进行分析。

行人重识别旨在从具有不同摄像机视角的给定图像集中检索相同的行人，与需要待识别人的配合且要求高质量的图片的人脸识别技术不同，该技术不需要行人的配合并且可以对复杂场景下低分辨率的行人图像进行识别，通过该技术能快速地查询到感兴趣行人在监控摄像头网络中的出现情况，其在智能安防领域、人机交互领域、新零售领域中都有广泛的应用前景。

目前的行人重识别研究工作主要在于如何对行人图片进行特征提取，得到能够应对不同摄像头场景复杂变化的鲁棒特征，以实现对目标行人的准确匹配。传统的行人重识别方法的研究主要分为两个方面：1)特征表示学习:通过设计对行人身份具有一定不变性的特征表示来应对不同摄像头视角下行人的外观变化；2) 度量学习:通过学习将高维特征映射到新的特征空间，使在新的特征空间下相同的人特征距离更近，不同人的特征距离更远。2014年，随着研究人员将深度学习引入行人重识别领域，通过卷积神经网络可以将特征表示学习与度量学习以端到端的方式进行联合优化，性能超越了传统方法，深度学习也逐渐成为了行人重识别领域的主流方法。

在行人重识别的发展从传统方法的特征提取、度量学习两阶段到转向基于深度学习的端到端学习过程中，基于深度学习下的行人重识别技术则采用数据驱动以端到端的学习来提高行人图片在不同摄像头下变化特征的鲁棒性与判别能力。目前基于深度学习的行人重识别方法已在大多公开数据集上取得了不错的结果，但是由于这些数据集中的行人图片通常是通过人工裁剪与筛选得到，因此，目前行人重识别技术在大型数据集ImageNet进行预训练过程中，会出现人体结构的先验信息使用的模型往往与监控场景有较大的领域偏差，使用错误的预测结果划分行人图片可能会增加行人重识别的错误率；另外，在待识别图像细节不同区域特征的关注度上，行人重识别技术也往往会受光照不同、摄像头角度不同等造成重识别缺陷问题。

发明内容

本发明所解决的问题是提供了一种基于人体解析粗细粒度结合的行人重识别***及方法，能够有效地增强在不同的视角、姿态、光照变化下行人重识别的准确性和效率性。

一种基于人体解析粗细粒度结合的行人重识别***，其特征在于，包括参数预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征提取模块、人体重识别模型加载模块、用户检索模块；

所述参数预训练初始化模块用于在公开数据集中进行参数预训练初始化网络，得到行人重识别网络模型；

所述监控视频数据读取模块用于上传和读取视频数据，并发送给所述视频图像分析模块；

所述用户检索模块用于上传待检索人体图像，并发送给所述视频图像分析模块；

视频图像分析模块包括视频解码子模块和图像预处理子模块，所述视频解码子模块用于对所述监控视频数据读取模块上传的视频数据进行解码并处理成可处理的图像；所述图像预处理子模块用于提高视频解码后的图像和待检索人体图像的视觉效果；

所述行人特征提取模块用于设计粗细粒度结合的神经网络，粗细粒度结合的神经网络中的粗粒度分支和细粒度分支学习分别提取到视频解码后的图像和待检索人体图像的行人特征，并储存；

所述人体重识别模型加载模块用于根据储存的行人特征和待检索人体图像利用所述行人重识别网络模型进行检索匹配，并计算得到相似度。

上述技术方案中，更进一步的是，所述用户检索模块还用于设定相似度阈值。设定相似度阈值可以识别到不同程度的相似度行人图片，使得识别标准更加灵活。

上述技术方案中，更进一步的是，所述人体重识别模型加载模块还用于将计算得到的相似度反馈给所述用户检索模块。

一种如所述的行人重识别***的方法，包括以下几个步骤：

步骤A：在公开的数据集上进行参数预训练初始化网络，得到行人重识别网络模型；

步骤B：在所述监控视频数据读取模块中上传、读取视频数据；所述视频解码子模块将视频数据进行解码，处理成可采用的图片格式，对其进行图像预处理，再利用设计的粗细粒度结合的神经网络模型，其包括粗粒度分支和细粒度分支；对于粗粒度分支，采用知识蒸馏损失函数增强对全局特征的提取，对于细粒度分支，采用知识蒸馏损失函数与三元组损失函数来增强对细节特征的提取；学习到的特征进行拼接得到行人特征集合f_i；再利用SE Block来学习一个特征向量重要性权值W选择性增强判别力强的特征、抑制判别力弱的特征；

W＝Sigmoid(FC(ReLU(FC(f_i))))

其中，从内向外的两个FC层用来压缩和激活；

在得到行人特征向量重要性权值W后，输出行人特征f₀；

f₀＝f_i*W+f_i

并储存；

步骤C：在所述检索模块中上传待检索人体图像，利用步骤B计算输出待检索人体图像的行人特征；

步骤D：所述行人重识别网络模型根据所述待检索人体图像的行人特征，在视频解码后的图像中以一定的帧隔间抽取检测、计算行人特征相似度，若高于阀值，将其保存并以相似度大小排列返回。

上述技术方案中，更进一步的是，在步骤B中，所述图片格式可以为JPG、 PNG。支持多种格式的图片，提高适应广度。

上述技术方案中，更进一步的是，在步骤B中，所述视频数据来自监控摄像头。

根上述技术方案中，更进一步的是，在步骤B中，所述图像预处理是指对图像进行失真处理。使得图像提高品质，减少干扰信息影响行人特征的提取。

上述技术方案中，更进一步的是，在步骤B中，所述行人特征f₀以.mat 文件储存。便于以后查询。

上述技术方案中，更进一步的是，在步骤D中，使用FPN-Person对视频解码后的图像进行检测。

上述技术方案中，更进一步的是，在步骤D中，若视频解码后的图像已经进行行人特征提取，则使用CFNet对上传的待检索人体图像提取行人特征，并读取对应的.mat文件中出现的行人特征。

与现有技术相比，本发明的有益效果是：从人体解析方面考虑，本发明采用粗细粒度结合的方式设计神经网络模型，注重不同层次的人体语义，使得提取到更具判别力的行人特征，提高准确性；还有的是，结合知识蒸馏思想设计损失函数，优化网络的训练有效地降低行人重识别的识别时间，提高效率。

附图说明

图1为本发明所述行人重识别***的模块框架图。

图2为本发明所述行人重识别***的方法流程图。

图3为本发明所述行人重识别***的方法中人体语义注意图示意图。

图4为本发明所述行人重识别***的行人重识别网络模型示意图。

图5为本发明所述行人重识别***中相似性信息三分类示意图。

图6为本发明所述行人重识别***中的用户检索模块启动流程示意图。

具体实施方式

以下实施例结合附图对本发明进一步描述。

如图1—6所示，一种基于人体解析粗细粒度结合的行人重识别***，包括参数预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征提取模块、人体重识别模型加载模块、用户检索模块；

行人重识别网络模型用来检索上传的代检索行人图像和视频数据中的图像特征相似度；

所述监控视频数据读取模块负责对图像、视频数据的输入与输出进行管理，包括读取用户上传的检索行人图片、指定时间段与摄像头编号下的监控视频数据。

所述用户检索模块用于上传待检索人体图像，并发送给所述视频图像分析模块；在用户上传所需查询的行人图片以及指定好所需对比检索的视频后并点击查询按钮后，该模块对用户上传的待检索行人图片进行读取并显示，接着对用户指定时间段与摄像头编号下的视频数据进行读取，并在***处理结束后对处理的结果保存于返回。

视频数据解码为成熟的现有技术，本实施例中不在赘述；

图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像分割、匹配和识别的可靠性。

本发明所述的行人重识别***的方法，具体如下：

首先，需要在ImageNet大型公开数据集上进行参数预训练初始化网络。神经网络模型一般依靠随机梯度下降进行模型训练和参数更新，网络的最终性能与收敛得到的最优解直接相关，而收敛结果实际上又很大程度取决于网络参数的最开始的初始化。理想的网络参数初始化使模型训练事半功倍，相反，糟糕的初始化方案不仅会影响网络收敛，甚至会导致梯度弥散或***，在参数预训练初始化时，利用Batch Normalization将输入的数据分布变成高斯分布，这样可以保证每一层神经网络的输入保持相同分布，其优点是随着网络层数的增加，分布逐渐发生偏移，之所以收敛慢，是因为整体分布往非线性函数取值区间的上下限靠近。这会导致反向传播时梯度消失。BN就是通过规范化的手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值0方差1的标准正态分布，使得激活输入值落入非线性函数中比较敏感的区域，可以让梯度变大，学习收敛速度快，能大大加快收敛速度；

在得到行人重识别网络模型之后，在所述监控视频数据读取模块中上传、读取视频数据；所述视频解码子模块将视频数据进行解码，处理成可采用的图片格式，对其进行图像预处理，本实施例中，图像预处理可以是对图像的失真处理，在图像预处理子模块对图像预处理操作时，使用图像增强操作，增强图像中的有用信息，它是一个失真的过程，其目的是要改善图像的视觉效果，针对给定图像的应用场合，有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果，满足分析的需要；

再设计一个粗细粒度结合的神经网络模型，为了让网络能够提取到不同粒度的行人特征，设计粗细粒度结合的神经网络模型(Coarse Fine Net，CFNet)，选取ResNet-50作为骨干网络，Res Block2卷积模块后的部分被分为两个类型的分支，其中一个为粗粒度分支(Coarse Branch)，另一个为细粒度分支(Fine Branch)，细粒度分支进一步分为两个子分支：上半身分支与下半身分支；如图3所示，进行人体解析注意力机制操作：通过获取的人体解析关键点来进行几何变换计算两幅行人图像间的跨视角同一区域，目前比较流行的注意力图有一定的相似性，因此我们将20个身体部位的概率图进行组合生成了7个人体部位的不同层次的人体语义注意力图：M_鞋子＝{Socks、LeftShoe、RightShoe}，M_头部＝ {Hat、Hair、Sunglasses、Face}，M_上体＝{Glove、UpperClothes、Coat、Scarf、 LeftArm、RightArm}，M_下体＝{Dress、Pants、Jumpsuits、Skirt、LeftLeg、 RightLeg}，M_上半部分＝M_上体+M_头部，M_下半部分＝M_下体+M_鞋子，M_全身＝ M_上半部分+M_下半部分，

通过这些语义注意图，我们可以对人体的不同部位进行定位，对于卷积神经网络不同层输出具有不同的语义信息，本发明将人体语义注意力图采用类似注意力机制在不同的阶段来与卷积网络不同层次的特征进行结合使网络对身体的局部区域进行关注，在浅层提供更为宏观的语义图来捕获更多的细节特征，对于深层逐渐提供更高级语义信息来增强抽象特征的捕获，形式定义如式所示：

F_attetnion＝F_i*M+F_i

其中M∈{M_全身、M_上半身、M_下半身、M_上体、M_下体、M_头部、M_鞋子}为不同层次的语义注意力图，F_i为网络每层输出的特征图，F_attention为加强对局部区域关注的特征图；

当分辨率十分低的时模型不能输出很好的分割结果时，M接近0，从而 F_attention接近F_i。通过这种方式，坏的分割结果不会产生负面影响，而好的分割结果可以提供充分的信息提高识别的准确性，本发明生成的基于人体解析的语义注意力图通过类似注意力机制的方式与网络结合，相比其他方法可以充分的利用人体先验信息而不损害模型性能；

在行人重识别网络模型的训练过程中，很多工作将其看成一个分类任务使用带有独热(One-Hot)编码标签的交叉熵函数作为损失函数进行训练。而独热编码的标签通常没有包含类别之间的相似性信息。

对于行人重识别任务来说，目前比较常见的做法是在训练阶段将其看成一个分类任务，使用带有独热编码标签的交叉熵损失函数来进行预测，在测试阶段舍弃分类层，直接将全局池化层后的特征向量作为行人的特征表示进行相似性计算。这种方式进行训练与测试二者的目的存在较大的差异，因为行人重识别的最终目标是区分未知身份的不同行人图片的相似度而不是在训练集上简单的分类，独热编码将数据属于的类别标记为1，其他类别标记为0，忽略了行人图片之间的相似性信息且容易在训练集上发生过拟合，因此这种做法可能不是最优的。通过借鉴知识蒸馏的思想，我们期望在训练阶段引入更多的相似性信息来优化网络训练过程，进而降低训练与测试二者的差异，我们提出了知识蒸馏损失函数 (Knowledge Distillation Loss)来改进带有独热编码标签的交叉熵损失函数。

我们首先将CFNet作为老师模型在重识别数据集上进行分类训练来预测包含行人图片相似信息的软标签，接着利用软标签和独热标编码签构成知识蒸馏损失函数对模型重新进行训练，其数学表达式如式所示：

其中H(·)为交叉熵，p_t为老师模型输出的软标签，p_s为学生模型的标准 softmax函数输出，τ为温度参数控制概率分布的平滑程度，α为平衡因子平衡两项的权重。

同时为了让网络能够学习到互补的特征，我们对不同的分支使用了不同的损失函数进行学习以侧重不同方面的特征提取。对于粗粒度分支，采用了知识蒸馏损失函数来注重对全局特征的提取；对于细粒度分支，采用了知识蒸馏损失函数与三元组损失函数来增强对细节特征的提取。

行人特征提取的过程如下：首先将backbone网络(本实施例采取Resnet50 作为backbone骨干网络)在行人重识别数据集上进行训练，损失采用基于行人 ID的交叉熵损失；然后，将backbone网络与获取的行人部件区域预测结果的融合获取行人部件特征图：即将Backbone网络的特征图与行人部件预测区域特征图进行点乘；对backbone网络输出的特征图、行人部件特征图以及部件区域特征图进行全局平均池化，获取全局特征、部件区域特征向量及部件可视概率；将部件区域特征向量与部件可视概率通过1×1卷积获取部件特征权重，并与部件区域特征向量进行点乘获取最终的部件局部特征；

不同分支学习到的行人特征拼接后通过特征选择(Feature Select Module，FSM)来突出更具判别力的特征并得到最终的行人特征表示；直接将不同分支的特征向量拼接起来可能会忽视掉不同特征的重要性，受到Hu等人工作的启发，我们认为学习到的行人特征向量的元素应具有不同的重要程度，本发明选用了SE Block来学习一个重要性权值W选择性地增强判别力强的特征，抑制判别力弱的特征，该部分操作如下式所示：

W＝Sigmoid(FC(ReLU(FC(f_i))))

其中，从内向外的两个FC层用来压缩和激活操作。在得到特征向量重要性的权值W后，输出特征f_o计算方式如下式所示：

f_o＝f_i*W+f_i

其中*与+操作为元素间的操作，经过加强的特征与原特征向量相加进一步增强特征的判别能力。

为了让这两个类型分支能够关注到人体不同粒度的信息，设计通过人体解析模型来生成不同层次的人体语义注意力图(Semantic Attention Map，SAM)，并在不同的分支提供不同的语义信息引导网络的学习；另外，通过分析行人重识别模型训练过程中常用的交叉熵损失函数存在的不足，采用知识蒸馏思想设计出知识蒸馏损失函数(KnowledgeDistillation Loss，KD Loss)向网络提供包含行人身份相似性信息的软标签来优化模型的训练，同时为了让两个类型分支学习的行人特征尽可能互补，对于粗粒度分支我们仅使用知识蒸馏损失函数进行监督来侧重全局特征的提取，而对于细粒度分支我们使用三元组损失函数(Triplet Loss) 与知识蒸馏损失函数联合监督来加强网络对细粒度特征的关注。图4为基于人体解析粗细粒度结合的行人重识别网络模型示意图。

在所述检索模块中上传待检索人体图像，利用步骤B计算输出待检索人体图像的行人特征；

所述行人重识别网络模型根据所述待检索人体图像的行人特征，使用 FPN-Person将根据一定的帧间隔对视频数据中出现的行人特征进行检测。

在检测完成后，对于首次查询的监控视频数据，需要利用CFNet同时对用户上传的待检索行人图片以及检测得到的行人图片进行特征提取，并将提取到的特征以.mat文件存储下来以便于以后的查询。

对于已经提取过特征的监控视频数据，仅需要使用CFNet对用户上传的待检索行人图片提取特征后，直接读取对应的.mat文件视频中出现的行人特征。

计算待检索行人特征与检测行人图片的特征之间的相似性，并将相似度大于给定阈值的行人图片按照相似度大小排序后返回给用户；

针对相似性计算，如图5所示，我们在训练一个模型进行汽车、马、斑马三分类任务时，通常会有标签[1,0,0],[0,1,0],[0,0,1]，而一个训练好的网络预测值通常是由Softmax函数产生的概率分布，其基本形式如式所示：

其中z为网络最后一层输出的logits值，p为由softmax函数处理后对应类别的概率值。

网络对于图5a)汽车预测的类别概率分布可能是[0.95,0.03,0.02]，对于图5b)马的预测概率分布可能是[0.06,0.73,0.21]，而对于图5c)斑马的预测概率分布可能是[0.09,0.19,0.72]，从对图5b)的预测的概率分布可以看到该图片有0.21可能性是斑马，0.06可能性是汽车，说明斑马比汽车更像马，这个预测值包含了类别之间的相似性信息。而行人重识别任务的最终目的是比较行人图片特征相似性信息来进行识别，由上面的分析可知使用独热编码进行训练会忽视行人身份之间的相似信息，我们通过借鉴知识蒸馏的思想引入包含行人相似性信息的标签来优化网络的训练与特征提取。

用户检索模块负责用户查询的交互，包括上传待检索行人图片、指定时间段与摄像头编号以及检索结果显示与浏览的功能。用户可以选取自己需要检索的行人图片进行上传，指定需要检索的时间段与摄像头编号，最后对***返回的检索结果进行查看与浏览，该模块的实现流程图如图5所示；

用户首先通过Choose File按钮选取需要查询的行人图片之后由输入输出模块读入并显示。

接着在摄像头列表中选取需要查询的摄像头编号，并在时间输入框中指定所需查询的时间段。

在点击查询按钮后，监控视频读取模块会读取指定时间段与摄像头编号下的视频数据，并送入视频图像分析模块、行人特征提取模块、人体重识别模型加载模块；

最后将人体重识别模型加载模块返回的结果显示在检索结果显示界面上供用户浏览，将用户指定摄像头编号下搜索库中相似度大于给定阈值并按照相似度从大到小排列在前30位的行人图片作为检索结果显示。

本发明不局限于上述实施例，领域内的技术人员可在所具备的知识范围内，在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于人体解析粗细粒度结合的行人重识别***，其特征在于，包括参数预训练初始化模块、监控视频数据读取模块、视频图像分析模块、行人特征提取模块、人体重识别模型加载模块、用户检索模块；

2.根据权利要求1所述的一种基于人体解析粗细粒度结合的行人重识别***，其特征在于，所述用户检索模块还用于设定相似度阈值。

3.根据权利要求1所述的一种基于人体解析粗细粒度结合的行人重识别***，其特征在于，所述人体重识别模型加载模块还用于将计算得到的相似度反馈给所述用户检索模块。

4.一种如权利要求1所述的行人重识别***的方法，其特征在于，包括以下几个步骤：

步骤B：在所述监控视频数据读取模块中上传、读取视频数据；所述视频解码子模块将视频数据进行解码，处理成可采用的图片格式，对其进行图像预处理，再利用设计的粗细粒度结合的神经网络模型，其包括粗粒度分支和细粒度分支；对于粗粒度分支，采用知识蒸馏损失函数增强对全局特征的提取，对于细粒度分支，采用知识蒸馏损失函数与三元组损失函数来增强对细节特征的提取；学习到的特征进行拼接得到行人特征集合f_i；再利用SEBlock来学习一个特征向量重要性权值W选择性增强判别力强的特征、抑制判别力弱的特征；

W＝Sigmoid(FC(ReLU(FC(f_i))))

其中，从内向外的两个FC层用来压缩和激活；

在得到行人特征向量重要性权值W后，输出行人特征f₀；

f₀＝f_i*W+f_i

并储存；

5.根据权利要求4中所述的行人重识别***的方法，其特征在于，在步骤B中，所述图片格式可以为JPG、PNG。

6.根据权利要求4中所述的行人重识别***的方法，其特征在于，在步骤B中，所述视频数据来自监控摄像头。

7.根据权利要求4中所述的行人重识别***的方法，其特征在于，在步骤B中，所述图像预处理是指对图像进行失真处理。

8.根据权利要求4中所述的行人重识别***的方法，其特征在于，在步骤B中，所述行人特征f₀以.mat文件储存。

9.根据权利要求4中所述的行人重识别***的方法，其特征在于，在步骤D中，使用FPN-Person对视频解码后的图像进行检测。

10.根据权利要求8中所述的行人重识别***的方法，其特征在于，在步骤D中，若视频解码后的图像已经进行行人特征提取，则使用CFNet对上传的待检索人体图像提取行人特征，并读取对应的.mat文件中出现的行人特征。