CN117173792A

CN117173792A - 一种基于三维人体骨架的多人步态识别***

Info

Publication number: CN117173792A
Application number: CN202311379123.6A
Authority: CN
Inventors: 周如坤; 吕荣华; 陈汉光; 陈贞林; 陈昌鸿
Original assignee: CHANGXUN COMMUNICATION SERVICE CO LTD
Current assignee: CHANGXUN COMMUNICATION SERVICE CO LTD
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2023-12-05

Abstract

本发明公开了一种基于三维人体骨架的多人步态识别***，包括如下步骤：采集步态视频序列，使用摄像头捕获行人行走的RGB视频，获取原始RGB步态视频序列；行人检测与跟踪，使用目标检测模型YOLOv8作为目标检测器；行人骨架提取、用2D姿态估计模型对记录下行动轨迹的行人的每一帧图像做2D姿态估计，得到2D人体骨架关键点；二维骨架转三维骨架；步态特征提取、将3D骨架关键点序列放入图卷积网络中训练，使用训练好的图卷积网络模型提取人体骨架关键点中的步态特征；步态特征匹配、将获取的行人步态特征与已注册库中的已注册行人的特征向量做相似度度量，完成特征匹配。本发明***提高对衣着及携带物变化等干扰的鲁棒性，解决视角变换场景下的步态识别问题。

Description

一种基于三维人体骨架的多人步态识别***

技术领域

本发明涉及步态识别***技术领域，具体为一种基于三维人体骨架的多人步态识别***。

背景技术

步态识别技术是利用行人行走视频的生理和行为特征来验证个体的身份。与人脸，指纹，虹膜等其他生物识别技术相比，我们可以从远处捕获行人步态，而不需要人和身体接触，同时，步态作为一个运动的特征，是很难伪装和伪造的，因此对于通常与受试者相关的协变量，如穿衣，携带和站立条件，具有很好的鲁棒性。这些优点使得步态识别适用于公共安全领域，例如刑事侦查和嫌疑人跟踪。随着深度学习的蓬勃发展，步态识别在过去十年中取得了重大进展，然而，很多实验结果证明，大多数现有的步态识别技术在野外表现不佳，这种性能差距主要源自复杂遮挡，背景变化和明暗变化等。

而目前现有技术一：基于鲁棒步态特征提取的步态识别方法，现有的步态识别技术主要使用的是基于步态剪影图的特征提取方法，基于步态剪影图的步态识别方法旨在从人体外观提取步态特征，步态剪影图一般通过背景减除或分割算法从原始RGB视频中将人体掩膜从背景中分离出来得到，进而利用深度学习方法从步态剪影图序列中提取步态特征。基于步态剪影图的步态识别方法依赖于步态剪影图的提取，而在实际步态识别场景中，车辆、树木等路面物体的静态遮挡、衣着遮挡、携带物遮挡等因素将使分割算法提取得到的步态剪影图存在大面积残缺的情况，使得基于鲁棒步态特征提取的步态识别方法性能大打折扣，识别效果下降。

现有技术二：基于人体骨架的步态识别方法，基于人体骨架的步态识别方法旨在为人体建立模型来提取步态特征，首先采用人体姿态估计算法从原始RGB视频中提取人体关键点，得到人体骨架图，其次采用深度学习方法从其中提取步态特征。现有的基于人体骨架方法都是使用的二维姿态提取步态特征，但是二维姿态不够准确，这点在于其处于二维空间，缺少深度和尺度信息，因此有对视角的敏感性，从而导致其对于视角切换干扰抗性较差。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明为了解决这个问题，提出一种基于三维人体骨架的多人步态识别***，提高对衣着及携带物变化等干扰的鲁棒性，解决视角变换场景下的步态识别问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于三维人体骨架的多人步态识别***，包括如下步骤：

S1、采集步态视频序列，使用摄像头捕获行人行走的RGB视频，获取原始RGB步态视频序列；

S2、行人检测与跟踪，使用目标检测模型YOLOv8作为目标检测器；

S3、行人骨架提取、用2D姿态估计模型对记录下行动轨迹的行人的每一帧图像做2D姿态估计，得到2D人体骨架关键点；

S4、二维骨架转三维骨架；

S5、步态特征提取、将3D骨架关键点序列放入图卷积网络中训练，使用训练好的图卷积网络模型提取人体骨架关键点中的步态特征；

S6、步态特征匹配、将获取的行人步态特征与已注册库中的已注册行人的特征向量做相似度度量，完成特征匹配。

优选的，所述S2中采用实时的多目标跟踪算法ByteTrack对检测到的行人进行跟踪，首先根据检测到目标得分高低将检测框分成高分框和低分框，总共进行两次匹配：

第一次，第一次将高分框按照物体运动轨迹的相似性与现有的运动轨迹进行匹配，并使用卡尔曼滤波来预测下一帧的运动轨迹；

第二次则将低分框与尚未匹配上目标的运动轨迹进行匹配，避免因遮挡造成的目标丢失；

最后对于两次都没有匹配到检测框的运动轨迹，将其保留一段时间，等待能匹配上的目标出现，而对于没有匹配上的高分检测框，则对其新建运动轨迹。

优选的，所述S3中采用的姿态估计网络是HRNet，采用高分辨率的子网络作为第一阶段，然后逐渐添加高分辨率到低分辨率的子网络，最后，并行的连接多分辨率子网络的输出，其进行了多次多尺度融合，使得HRnet能一直保证高分辨率表示，通过这种方式得到的骨架热图具有更高的空间准确度，最后按照热图中各关键点得分将热图转化为骨架关键点。

优选的，所述S4中通过引入相邻帧提供的上下文信息更好地预测当前帧的姿态，对于遮挡情况，也可以根据前后几帧的姿态做一些合理推测，并且由于一段视频中同一个人的骨骼长度不变，这里引入骨骼长度一致性的约束限制，能输出更稳定的三维骨架，其操作过程为：

将获取的2D骨架关键点按时间序列拼接在一起，以二维姿态序列作为输入，通过训练好的时序卷积网络(TCN)对2D骨架关键点序列进行进一步处理，捕获长期信息并提高精度，同时利用扩展卷积扩大TCN的感受野，输出人体骨架各关键点的相对三维坐标，最后得到3D骨架关键点序列。

优选的，所述S5中步态特征提取过程为：

将3D骨架关键点序列放入图卷积网络中训练，使用训练好的图卷积网络模型提取人体骨架关键点中的步态特征；

步态特征提取使用的是图卷积网络，将3D人体骨架关键点序列输入至训练好的图卷积神经网络STGCN中进行卷积操作，先使用空间卷积操作从3D关键点序列中提取空间特征，再利用时序卷积操作将提取得到的人体空间特征进行时间维度上聚合池化操作，使得卷积网络能提取到步态序列的时空特征；

最后再使用全连接层将特征图映射到特征空间，得到行人的步态特征向量。

优选的，所述步态特征匹配过程为：将获取的行人步态特征与已注册库中的已注册行人的特征向量做相似度度量，完成特征匹配。采用的是特征向量间的欧式距离作为判断依据，在超过得分阈值，特征向量认定有效的基础上，与已注册库中的人员的特征向量进行距离计算，距离最近的已注册人员作为识别结果，否则视为未注册人员。

(三)有益效果

与现有技术相比，本发明提供了一种基于三维人体骨架的多人步态识别***，具备以下有益效果：本发明采用了基于三维姿态的步态识别***，通过提取基于三维空间的步态特征在一定程度上能提高步态识别对于上述干扰的鲁棒性，解决视角变换场景下的步态识别问题。

附图说明

图1为本发明***方法流程图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，将结合具体实施例及附图，对本发明一种基于三维人体骨架的多人步态识别***做进一步详细的描述。

参考图1，本发明：一种基于三维人体骨架的多人步态识别***，其包括：

采集步态视频序列

使用摄像头捕获行人行走的RGB视频，获取原始RGB步态视频序列。

行人检测与跟踪

采用目前最实用的单阶段目标检测模型YOLOv8作为目标检测器，YOLOv8在之前的YOLO系列的基础上做出创新和改进，在性能和灵活性上都大幅提升，是当前的SOTA目标检测器。用YOLOv8对采集到的行人步态视频进行抽帧后目标检测，获取画面中每个目标的检测框，并根据目标类别滤除行人以外的目标；

采用实时的多目标跟踪算法ByteTrack对检测到的行人进行跟踪，首先根据检测到目标得分高低将检测框分成高分框和低分框，总共进行两次匹配：第一次将高分框按照物体运动轨迹的相似性与现有的运动轨迹进行匹配，并使用卡尔曼滤波来预测下一帧的运动轨迹；第二次则将低分框与尚未匹配上目标的运动轨迹进行匹配，避免因遮挡造成的目标丢失；最后对于两次都没有匹配到检测框的运动轨迹，将其保留一段时间，等待能匹配上的目标出现，而对于没有匹配上的高分检测框，则对其新建运动轨迹。

对于行人检测模型，本发明不限于使用目标检测模型YOLOv8，可采用其他能够用于获取行人检测框的一切目标检测模型代替。

对于行人跟踪算法，本发明不限于使用ByteTrack跟踪，可采用其他目标跟踪算法代替。

行人骨架提取

用2D姿态估计模型对记录下行动轨迹的行人的每一帧图像做2D姿态估计，得到2D人体骨架关键点；采用的姿态估计网络是HRNet，采用高分辨率的子网络作为第一阶段，然后逐渐添加高分辨率到低分辨率的子网络，最后，并行的连接多分辨率子网络的输出，其进行了多次多尺度融合，使得HRnet能一直保证高分辨率表示，通过这种方式得到的骨架热图具有更高的空间准确度。最后按照热图中各关键点得分将热图转化为骨架关键点。

为提高步态识别对于静态遮挡，动态遮挡等干扰的鲁棒性，相比于基于步态剪影图的方法，只要通过合理的骨架提取，三维人体骨架受衣着及携带物影响较小，在训练时可以排除这部分干扰。对于三维步态的提取方法是相邻帧二维步态序列预测，通过上下文信息补全当前帧的骨架关键点，能有效消除遮挡影响。因此这种方法对各种干扰有着较高的鲁棒性。为对视角切换干扰抗性强，三维骨架步态识别可以提供更准确的姿态信息，包括人体在三维空间中的位置、旋转和尺度变化等。相比之下，二维骨架步态识别只能提供人体在二维平面上的姿态信息，无法捕捉到深度和尺度方面的细节。因此，三维骨架步态识别可以更准确地表示和分析人体的步态特征。

二维骨架转三维骨架

三维姿态数据采集的难度和成本是要远超过二维姿态的提取的，因此就有了从二维骨架转三维骨架的思路，基于视频的方法的转化方法就是基于这种思路呈现的，通过引入相邻帧提供的上下文信息可以帮助我们更好地预测当前帧的姿态，对于遮挡情况，也可以根据前后几帧的姿态做一些合理推测。并且由于一段视频中同一个人的骨骼长度不变，这里引入骨骼长度一致性的约束限制，能输出更稳定的三维骨架；

步态特征提取

将3D骨架关键点序列放入图卷积网络中训练，使用训练好的图卷积网络模型提取人体骨架关键点中的步态特征；步态特征提取使用的是图卷积网络，将3D人体骨架关键点序列输入至训练好的图卷积神经网络STGCN中进行卷积操作，先使用空间卷积操作从3D关键点序列中提取空间特征，再利用时序卷积操作将提取得到的人体空间特征进行时间维度上聚合池化操作，使得卷积网络能提取到步态序列的时空特征，最后再使用全连接层将特征图映射到特征空间，得到行人的步态特征向量。

步态特征匹配

将获取的行人步态特征与已注册库中的已注册行人的特征向量做相似度度量，完成特征匹配。采用的是特征向量间的欧式距离作为判断依据，在超过得分阈值，特征向量认定有效的基础上，与已注册库中的人员的特征向量进行距离计算，距离最近的已注册人员作为识别结果，否则视为未注册人员。

对于步态识别算法，本发明使用的步态识别网络不限制于GCN(图卷积神经网络)作为步态特征提取的模型，可采用其他步态识别算法模型替代。

本发明将步态识别算法的输入由之前的基于步态剪影图，二维姿态，能量图等改为基于三维姿态，在获取行人行走视频序列后，将其输入到二维姿态估计器中，获取二维姿态关键点，二维姿态估计器由沙漏结构组成，再将二维姿态通过时序卷积聚合，时序卷积由多层膨胀卷积层和池化层组成，通过相邻帧的关键点信息预测三维关键点，本发明基于三维姿态的步态识别***，通过提取基于三维空间的步态特征在一定程度上能提高步态识别对于上述干扰的鲁棒性。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于三维人体骨架的多人步态识别***，其特征在于，包括如下步骤：

S4、二维骨架转三维骨架；

2.根据权利要求1所述的一种基于三维人体骨架的多人步态识别***，其特征在于，所述S2中采用实时的多目标跟踪算法ByteTrack对检测到的行人进行跟踪，首先根据检测到目标得分高低将检测框分成高分框和低分框，总共进行两次匹配：

3.根据权利要求1所述的一种基于三维人体骨架的多人步态识别***，其特征在于，所述S3中采用的姿态估计网络是HRNet，采用高分辨率的子网络作为第一阶段，然后逐渐添加高分辨率到低分辨率的子网络，最后，并行的连接多分辨率子网络的输出，其进行了多次多尺度融合，使得HRnet能一直保证高分辨率表示，通过这种方式得到的骨架热图具有更高的空间准确度，最后按照热图中各关键点得分将热图转化为骨架关键点。

4.根据权利要求1所述的一种基于三维人体骨架的多人步态识别***，其特征在于，所述S4中通过引入相邻帧提供的上下文信息更好地预测当前帧的姿态，对于遮挡情况，也可以根据前后几帧的姿态做一些合理推测，并且由于一段视频中同一个人的骨骼长度不变，这里引入骨骼长度一致性的约束限制，能输出更稳定的三维骨架，其操作过程为：

5.根据权利要求1所述的一种基于三维人体骨架的多人步态识别***，其特征在于,所述S5中步态特征提取过程为：

6.根据权利要求1所述的一种基于三维人体骨架的多人步态识别***，其特征在于,所述步态特征匹配过程为：将获取的行人步态特征与已注册库中的已注册行人的特征向量做相似度度量，完成特征匹配。采用的是特征向量间的欧式距离作为判断依据，在超过得分阈值，特征向量认定有效的基础上，与已注册库中的人员的特征向量进行距离计算，距离最近的已注册人员作为识别结果，否则视为未注册人员。