CN113378729B

CN113378729B - 一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法

Info

Publication number: CN113378729B
Application number: CN202110667913.9A
Authority: CN
Inventors: 廖开阳; 雷浩; 郑元林; 章明珠; 范冰; 黄港
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2024-05-10
Anticipated expiration: 2041-06-16
Also published as: CN113378729A

Abstract

本发明公开了一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法，包括：采用随机擦除的方式对原始行人图像进行预处理得到行人图像，并对Resnet‑50网络模型进行基线网络优化，提取深度卷积特征；对原始行人图像提取显著性人体图像；先对人体显著性图像进行姿态提取，再对身体部位图像提取局部语义特征；将深度卷积特征和局部语义特征进行加权融合，对加权融合特征进行进行距离度量，生成初始度量列表；根据重排序算法对初始度量列表中的图像进行重新排序，得到图像正确匹配排名，输出行人匹配图像识别特定行人。能够大幅度提高识别和定位的精度。

Description

一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法

技术领域

本发明属于图像处理方法技术领域，涉及一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法。

背景技术

近年来，人工智能作为现在科技发展的重要进步点，在我们使用的各项技术中独占鳌头。它在智能监控范畴中的使用也变得极其重要。随着城市的扩张，监控***进一步的普及，每个城市都有成千上万的摄像头遍布在街头巷尾。摄像头的使用不断增多，而单单依靠人为去监控的代价是极为昂贵的，并且无法在同一时间监控如此多的画面。因此行人重识别技术就引起了研究人员的重视。它能够帮助人们进行实行的监控、跟踪、和识别行人。由于人类主要是通过视觉技术来接收和感知到外界的各种信息,而且人类所拥有的这种视觉技术能够从繁琐的图像中直接获得到所需要的信息。研究人员也希望能够仿照人的视觉***来让摄像机有效的、迅速的捕捉环境中的物体。这种技术最终衍生成为我们现在的行人重识别技术。行人重识别这一项技术的使用非常的广泛，例如智能监控***就需要使用到行人重识别技术。这项技术借用计算机强大的能力来处理数据，例如视频监控***可以自动的过滤掉一些无用信息并且主动的来识别人体，从而达到有效的进行全方位的监控，并且可以做到事先预警、过后取证的24小时监控体系。同样使用这项技术的还有行人流量统计。它同样借用计算机强大的能力来处理数据，自动的过滤掉一些无用信息，并且自动识别行人并计数。同时在不同地区出现多次的行人并不会被重复统计，因此可以做到有效、准确的统计行人流量。

影响行人重识别精度的一个关键的因素就是行人的错位，这种错位带来的行人身体各部件之间相互遮挡和姿态的不断变化对于行人重识别研究是一个很大的挑战。首先，行人在运动的过程中姿态是不断发生改变的，行人不可避免的会变化各种姿态，而这种姿态变化意味着身体的局部变化在边界框中是不可预测的。例如，行人在运动过程种可能将手放在背后或者头顶上，造成了错位带来的局部遮挡，这对提取的特征具有很大的影响。其次，当行人排列不规则时进行检测对行人重识别研究的准确度会带来影响。在行人重识别领域常用的一个方法是将边界框划分为水平条纹，然而这种方法只能建立在有轻微的垂直偏差下。当垂直偏差失准时，身体和头部的检测可能会与背景进行匹配，导致行人重识别任务的错误识别。因此水平条纹的方法在严重错位时的情况并不理想。在行人不断变化姿态的情况下，背景也在随之不断产生变化，导致背景可能会被卷积神经网络错误的加权从而影响识别精度。因此如何解决行人姿态变化带来的错位和背景变化的影响是提高行人重识别精度的关键。

发明内容

本发明的目的是提供一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法，解决了现有技术中存在的行人姿态变化带来的错位和背景变化导致行人重识别精度较低的问题。

本发明所采用的技术方案是，一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法，包括以下步骤：

步骤1、采用随机擦除的方式对原始行人图像进行预处理得到行人图像，并对Resnet-50网络模型进行基线网络优化，将行人图像输入优化后的Resnet-50网络模型得到深度卷积特征；

步骤2、将原始行人图像作为输入图像进行特征提取，得到显著性人体图像；

步骤3、先采用姿态卷积器对显著性人体图像进行姿态提取，得到身体部位图像，再将身体部位图像输入ResNet-50网络中提取局部语义特征；

步骤4、将深度卷积特征和局部语义特征进行加权融合，得到加权后的融合特征，对图像测试库、图像查询库中图像与融合特征的距离分别进行度量，对距离度量后的结果生成初始度量列表；

步骤5、根据重排序算法对初始度量列表中的图像进行重新排序，得到图像正确匹配排名，输出行人匹配图像识别特定行人。

本发明的特点还在于：

对Resnet-50网络模型进行基线网络优化的具体方式为：

结合Softmax loss和Triplet loss对Resnet-50网络模型的损失函数进行优化，优化后的损失函数为：

上式中，m为损失函数的个数；

上式中，为锚点样本的特征向量，/>为正样本的特征向量，/>为负样本的特征向量，a为/>之间的距离和/>之间的距离之间最小的间隔，+表示[]内的值大于零时，该值为损失值，小于零的时候，损失为零。

步骤2具体包括以下步骤：

步骤2.1、将VGG-16网络结构的最后一个池化阶段去掉后作为网络结构，将原始行人图像作为输入图像输入网络结构后输出特征映射；

步骤2.2、将特征映射反卷积为输入图像的大小，并添加一个新的卷积层，生成预测显著性图；

步骤2.3、先将网络结构中核尺寸为1×1的卷积层应用于conv1-2层，产生边界预测，再将边界预测添加至预测显著性图中得到细化边界框，然后应用一个卷积层对细化边界框进行卷积，得到显著性人体图像。

步骤3具体包括以下步骤：

步骤3.1、将显著性人体图像作为姿态估计器的输入，对14个关节点进行定位；

步骤3.2、将14个人体关节定位为6个子区域，对6个子区域通过裁剪、旋转和调整大小到固定的大小和方向，并组合后形成拼接身体部位图像；

步骤3.3、对拼接身体部位图像中每个身体部位的尺寸进行位姿变换，得到身体部位图像；

步骤3.4、将身体部位图像输入ResNet-50网络进行训练，提取局部语义特征。

步骤5的具体过程为：

对一幅行人测试图像p和一个图像集G＝{g_i|i＝1,2,...,N}，通过加权将k-倒数最近邻编码为单个向量，形成k-倒数特征，然后利用图像k-倒数特征计算出行人测试图像p和图像集的雅克比距离，最后将行人测试图像p和图像集的原始距离、雅克比距离进行加权得到距离公式；根据距离公式计算初始度量列表中图像与融合特征的距离，并进行重新排序，得到图像正确匹配排名，输出行人匹配图像识别特定行人。

本发明的有益效果是：

本发明一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法，融合深度全局特征和局部语义特征，通过融合后的加权特征进行不同图像之间的距离度量，对相同行人的图像进行识别和检索，使用位姿嵌入的多尺度卷积特征融合行人重识别方法对原始图像数据库中的行人图像进行识别的检索，得到特定行人的图像，使其更好的适用于基于位姿嵌入的多尺度卷积特征融合行人重识别***；通过随机擦除和三元组损失函数的方法提高的基线网络的性能，并通过使用姿态估计提取得到的局部特征与基线网络得到的全局特征进行特征加权聚合，实现了全局优化的目的，有利于目标识别和定位，加快了算法的运算速度，并提高了***的稳定性；能够大幅度提高识别和定位的精度，使用该方法不仅可以对行人图像进行目标识别与检索，同时也能在其他领域中进行使用。

附图说明

图1是本发明一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法的流程图；

图2是本发明的一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法的随机擦除处理效果图；

图3是本发明的一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法的三元组损失示意图；

图4是本发明的一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法的位姿嵌入效果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法，如图1所示，包括以下步骤：

步骤1、建立图像数据库，本实施例中图像数据库是由人工采集并使用计算机进行修正的行人图像，共计72000幅图像。采用随机擦除的方式对原始行人图像进行预处理得到行人图像，并对Resnet-50网络模型进行基线网络优化，将行人图像输入优化后的Resnet-50网络模型得到深度卷积特征；

步骤1.1、采用随机擦除增强处理法对原始行人图像进行随机擦除，得到行人图像；

具体的，随机擦除增强处理(Random Erasing Augmentation,REA)是一种有效的数据增强方法。它旨在对不同训练图像进行遮挡，在图像中随机生成一个矩形区域，该矩形区域的位置和大小都随机产生，并遮挡部分行人图像，将图像遮挡区域的像素值设定为随机值。通过这种方法可以降低过拟合的情况发生，提高网络模型收敛的能力，从而提高深度学习模型的性能。

在网络模型训练中，对于原始训练数据集，假设原始数据集进行随机擦除的概率为P，则不被进行擦除的概率为1-P。在随机擦除过程中，以设定好的概率P产生矩形区域对图像进行遮挡，这个过程中随机擦除并遮挡的位置和遮挡区域大小都是随机的。

假设需要进行随机擦除的图像，即原始行人图像的大小为：

S＝W×H (1)；

上式中，W为行人图像的宽度，H为行人图像的高度值；

假设进行随机擦除的矩形区域面积大小为S_e，并且该面积大小在最小值S_l和最大值S_h指定的范围内。随机擦除区域的长宽比为r_e，那么随机擦除矩形区域的宽度H_e和高度W_e为：

上式中，S_e为擦除的矩形框的面积值，r_e为擦除矩形框的高宽比，H_e为擦除矩形框的高，W_e为擦除矩形框的宽。

在原始行人图像上随机选择一个点P＝(x_e，y_e)，若满足如下公式(4)和公式(5)：

x_e+W_e≤W (4)；

y_e+H_e≤H (5)；

那么原始行人图像的待擦除矩形区域为(x_e，y_e，x_e+W_e，y_e+H_e)，利用随机擦除选择好的待擦除区域，将矩形区域中的每一个像素分配[0,255]中的随机值用以取代原矩形区域。如果随机选择的点P＝(x_e，y_e)不满足公式(4)和(5)的条件，则会一直重复上述过程，在图像中重新选择一个新的点P＝(x_e，y_e)，直到选择了恰当的随机点。最后，被随机擦除后的原始行人图像(即行人图像)会被输出，如图2所示。

步骤1.2、结合Softmax loss和Triplet loss对Resnet-50网络模型的损失函数进行优化；

具体的，在行人重识别领域，三元组损失(Triplet loss)也被广泛应用，更多的是结合Softmax损失一起应用在网络模型中。如图3所示，在使用三元组损失函数时，将三张图片作为网络的输入：其中/>为锚点样本(Anchor)，在数据集内随机选取样本进行网络模型的训练，/>代表与锚点样本属于同一类行人身份的训练样本，也就是正样本，/>表示与锚点样本属于不同类行人身份的训练样本，也就是负样本。这些训练样本被输入到相似的网络结构来进行特征提取，如图3所示，通过Triplet loss的学习后，会使得原始样本与正样本之间的距离最小，而与负样本之间的距离最大。最终用于计算Triplet loss的公式为：

上式中，为锚点样本的特征向量，/>为正样本的特征向量，/>为负样本的特征向量，a为/>之间的距离和/>之间的距离之间最小的间隔，+表示[]内的值大于零时，该值为损失值，小于零的时候，损失为零；

由目标函数可以看出：当与/>之间的距离小于/>与/>之间的距离时加上a，[]中的值大于零，就会存在损失值，当/>与/>之间的距离大于或等于/>与/>之间的距离时加上a时，损失值为零。

通过Triplet loss损失函数，网络模型可以将相同标签的行人图片之间的距离拉近，将不同标签的行人图像之间的距离拉远，使得训练的网络模型更具有判别性。

上式中，m为损失函数的个数；

步骤1.3、将行人图像输入优化后的Resnet-50网络模型得到深度卷积特征。

步骤2、将原始行人图像作为输入图像进行特征提取，对前景与背景进行分离，得到显著性人体图像；

具体的，由于VGG-16模型在图像分类和泛化特效方面的效果理想，因此显著性模型也使用VGG-16构建网络结构。给定一个大小为W×H的输入图像，则输出映射的大小为[W/2⁵，H/2⁵]，所以基于VGG-16构建的网络结构将输出减少了32倍的特征映射。本实施例中去掉VGG-16的最后一个池化阶段，能扩大输入图像的大小，平衡语义上下文和图像细节。所以，本发明网络结构输出的特征映射相较于输入图像被缩小了16倍。

步骤2.2、集成的特征映射已经包含了各种显著性线索，因此可以利用它们来预测显著性映射。具体的，将特征映射反卷积为输入图像的大小，并添加一个新的卷积层，生成预测显著性图；

步骤2.3、通过在预测结果中引入短连接来增加边界细化，能进一步进行边界细化分离前景与背景，期望这些底层特征有助于预测物体的边界。此外，这些特征对于输入图像也具有相同的空间分辨率。具体的，先将网络结构中核尺寸为1×1的卷积层应用于conv1-2层，产生边界预测，再将边界预测添加至预测显著性图中得到细化边界框，然后应用一个卷积层对细化边界框进行卷积，得到显著性人体图像。

步骤3、先采用姿态卷积器对显著性人体图像进行姿态提取，得到身体部位图像，再将身体部位图像输入ResNet-50网络中提取局部语义特征。具体的，采用姿态卷积器的现成模型进行姿态提取，姿态卷积器是一种顺序卷积结构，它可以检测到14个身体关节，即头部、颈部、左肩和右肩、左肘和右肘、左腕和右腕、左髋和右髋、左膝和右膝以及左踝和右踝，如图4所示。

步骤3.1、将显著性人体图像作为姿态估计器的输入，对14个关节点进行定位，14个关节是头、颈、右肩、右肘、右腕、左肩、左肘、左腕、左髋、左膝、左踝、右髋、右膝、右踝；

步骤3.2、将14个人体关节定位为6个子区域(头部、上身、左臂、右臂、左腿和右腿)作为人体部位，对6个子区域通过裁剪、旋转和调整大小到固定的大小和方向，并组合后形成拼接身体部位图像；由于人体6个部位的大小不同，在人体图像中不可避免地会出现黑色区域；

由于拼接身体部位图像会出现黑色区域，因此需要对每个身体部位的尺寸进行位姿变换，以去除黑色区域，每个身体部位的尺寸主要是根据观察确定的。例如，本实施例观察到手臂的宽度约为20像素，腿部的宽度约为30像素，减小这些参数值将导致信息丢失，增大这些参数可能会带来更多的背景噪声。但是只要参数变化很小，***性能就保持稳定。其原因是当零件尺寸在较小范围内变化时，其中包含的鉴别信息变化不大，因此在给定监控信号的情况下，网络仍然能够学习鉴别嵌入。

步骤3.4、将身体部位图像分为测试集和训练集，输入ResNet-50网络进行训练，提取局部语义特征。该步骤中的ResNet-50网络与步骤1优化后的ResNet-50网络并不贡献权重，而是单独训练一个新的权重来对局部语义图像进行判断，提取局部语义特征。

步骤4、将深度卷积特征和局部语义特征进行加权融合，得到加权后的融合特征，对图像测试库、图像查询库中图像与融合特征的距离分别进行度量，对距离度量后的结果生成初始度量列表排名，并返回查询得分；采取特征加权聚合如下式所示：

d＝αf_DEEP+(1-α)f_SOD (8)；

上式中，参数0≤α≤1代表深度全局特征和局部语义特征之间不同的权重。

具体的，对一幅行人测试图像p和一个图像集G＝{g_i|i＝1,2,...,N}，通过加权将k-倒数最近邻编码为单个向量，形成k-倒数特征，然后利用图像k-倒数特征计算出行人测试图像p和图像集的雅克比距离，最后将行人测试图像p和图像集的原始距离、雅克比距离进行加权得到距离；计算初始度量列表中图像与融合特征的距离，并进行排序，得到图像正确匹配排名，输出行人匹配图像识别特定行人。

步骤5.1、首先，给定一个行人图像p用于测试，并给定一个图像集G＝{g_i|i＝1,2,...,N}用于行人图像参考，通过马氏距离来对行人图像p和参考数据集gi之间的原始距离进行度量，度量结果如公式所示

d(p,g_i)＝(x_p-x_gi)^TM(x_p-x_gi) (9)；

上式中，x_p为测试图像p的外观特征，为参考图像g_i的外观特征，M为半正定矩阵；

根据测试图像P和参考图像g_i之间的原始距离对排序列表进行初始化后得到：

步骤5.2、重排序策略的目的是对L(p,G)初始列表排名进行重排序，使得更多的正确匹配的图像样本排在列表的第一位，从而提高行人重识别的识别精度。

定义初始排名列表中的前k个排名的样本，即k近邻(k-nearest neighbors,k-nn)：

k-倒数最近邻(k-reciprocal nearest neighbors,k-rnn)表示为：

R(p，k)＝g_i|(g_i∈N(p，k))∧p∈N(g_i，k) (12)；

然而，由于亮度变化、姿态变化、视角变化以及遮挡等一系列影响因素，正确匹配样本可能被排除在最近邻之外。为了解决这个问题，将每一个候选的最近邻集合转化为一个更加鲁棒的集合：

对于原集合R(p,k)中的每一个测试图像样本,找到它们k-倒数最近邻集合在重合样本数量达到一定的条件时，求其与R(p,k)的并集，通过膨胀后，可以在R(p,k)集合中加入更多的正样本；

步骤5.3、根据检索图像和较近邻之间的原始距离重新分配权重，通过高斯核将样本图像的k倒排最近邻集合编码成N维向量，定义为表示为：

基于近邻被分配较大的权重，远邻被分配较小的权重，计算雅克比距离需要的交集和并集的候选数可以计算为：

交集通过最小操作将两个特征向量对应维度上的最小的那个值作为两者共同包含g_i的程度，并集的最大操作就是为了统计两个集合中的匹配候选的总集合；

步骤5.4、最终的雅克比距离表示为：

将原始距离与雅克比距离联合对初始排序列表进行修正，则最终的距离定义为：

d^*(p，g_i)＝(1-λ)d_J(p，g_i)+λd(p，g_i) (18)；

上式中，λ为加权参数，λ表示两个距离的权重，当λ＝0时只考虑雅克比距离，当λ＝1时只考虑原始距离，文中设置λ＝0.3；

步骤5.5、利用公式(18)计算初始度量列表中图像与融合特征的距离，并进行排序，得到图像正确匹配排名，输出行人匹配图像识别特定行人，完成识别。

通过以上方式，本发明一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法，主要目的是从大量的行人图像数据库中检索和查询出对应的行人图片，可以通过一副图像找到图像数据库中相同行人的照片。通过分离前景与背景，滤除复杂背景的影响下，利用人体关键点估计的方法提取行人的局部特征，并通过随机擦除的方法对基线网络进行图像预处理，加强网络模型的鲁棒性，从而提取到更具鲁棒性的全局特征；最后通过将这些不同尺度的特征进行深度加权融合，通过重排序的方法来提高特征之间的相似性度量。

Claims

1.一种基于位姿嵌入的多尺度卷积特征融合行人重识别方法，其特征在于，包括以下步骤：

步骤3、先采用姿态卷积器对所述显著性人体图像进行姿态提取，得到身体部位图像，再将所述身体部位图像输入ResNet-50网络中提取局部语义特征；

步骤4、将所述深度卷积特征和局部语义特征进行加权融合，得到加权后的融合特征，对图像测试库、图像查询库中图像与融合特征的距离分别进行度量，对距离度量后的结果生成初始度量列表；

步骤5、根据重排序算法对初始度量列表中的图像进行重新排序，得到图像正确匹配排名，输出行人匹配图像识别特定行人；

对Resnet-50网络模型进行基线网络优化的具体方式为：

结合Softmax loss和Triplet loss对所述Resnet-50网络模型的损失函数进行优化，优化后的损失函数为：

上式中，m为损失函数的个数；

步骤2具体包括以下步骤：

步骤2.1、将VGG-16网络结构的最后一个池化阶段去掉后作为网络结构，将原始行人图像作为输入图像输入所述网络结构后输出特征映射；

步骤2.2、将所述特征映射反卷积为输入图像的大小，并添加一个新的卷积层，生成预测显著性图；

步骤2.3、先将所述网络结构中核尺寸为1×1的卷积层应用于conv1-2层，产生边界预测，再将所述边界预测添加至预测显著性图中得到细化边界框，然后应用一个卷积层对细化边界框进行卷积，得到显著性人体图像；

步骤3具体包括以下步骤：

步骤3.2、将14个人体关节定位为6个子区域，对所述6个子区域通过裁剪、旋转和调整大小到固定的大小和方向，并组合后形成拼接身体部位图像；

步骤3.3、对所述拼接身体部位图像中每个身体部位的尺寸进行位姿变换，得到身体部位图像；

步骤3.4、将所述身体部位图像输入ResNet-50网络进行训练，提取局部语义特征；