CN112861605A

CN112861605A - 基于时空混合特征的多人步态识别方法

Info

Publication number: CN112861605A
Application number: CN202011570903.5A
Authority: CN
Inventors: 成科扬; 何霄兵; 王文杉; 师文喜; 司宇
Original assignee: Zhenjiang Zhaoyuan Intelligent Technology Co ltd; Jiangsu University; Electronic Science Research Institute of CTEC
Current assignee: Zhenjiang Zhaoyuan Intelligent Technology Co ltd; Jiangsu University; Electronic Science Research Institute of CTEC
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2021-05-28

Abstract

本发明公开了一种基于时空混合特征的多人步态识别方法。该方法首先引入混合掩膜网络进行行人检测与分割，并在混合掩膜网络中添加关联头来提取行人的低维特征。然后，选择需要识别的行人轮廓序列，送入基于伪三维残差网络的步态识别模型进行特征提取。该方法利用伪三维残差网络分别提取行人轮廓上半身和下半身的特征，并在水平金字塔池化时进行拼接。最后，通过欧氏距离度量，输出行人的身份信息。本发明公开的多人步态识别方法能够解决复杂场景下无法进行行人步态识别的问题。

Description

基于时空混合特征的多人步态识别方法

技术领域

本发明涉及计算机视觉、模式识别等技术领域，主要涉及的是监控视频中行人的身份识别，它在预防犯罪、法医鉴定和社会保障等方面具有广泛的应用。

背景技术

与其它生物识别技术(例如人脸、指纹和虹膜)不同，步态是一种独特的生物识别功能，它可以在远处识别，而无需受试者的配合。因此步态识别具有较高的实用价值和广阔的应用前景。

在过去的十几年里，步态识别取得了一系列的进展，但是对于步态识别的研究仍然停留在单个行人的步态识别阶段，多人步态识别研究领域仍然属于空白。目前，单人步态识别方法主要可以分为两类：基于模型的方法和基于外观的方法。基于模型的方法通过对人体结构和不同身体部位的局部运动模式进行建模来提取特征。一些早期的基于模型的方法甚至手动标记不同的身体部位，或使用某些特定的设备来获取人体的关节位置，具有沉重的计算代价。后来随着姿势估计的发展，Liao等人在2017年提出了基于姿势的步态识别方法取得了巨大的进展。

基于外观的方法通常使用人体轮廓作为原始输入数据。步态能量图像是最流行的特征之一，它通过对齐轮廓并将其平均来获得，具有较低的计算成本并且可以实现相对较高的识别率。但是这种方法性能仍然不够好，因为步态能量图像会导致某些时间信息丢失。最近，一些研究人员直接使用人体轮廓作为输入数据，而不是使用它们的平均值。Wu等人在2017年首次使用深度学习模型从人体轮廓序列中提取特征。2018年Chao等人将步态视为由独立轮廓而非连续剪影组成的集合，以从该集合中提取不变特征。通过实验表明，帧之间的时间特征可以比步态能量图像取得更好的性能。

单人步态识别技术已经取得了巨大的进展，但是在真实的应用场景下，监控视频中不可能只有单个行人的出现，因此为了解决这种问题，提出了一种基于时空混合特征的多人步态识别方法。

发明内容

发明目的：在真实应用场景下，监控视频中不仅包括单人行走条件下的步态形式，还包括多人行走条件下的步态形式。但是目前的步态识别技术仍然停留在实验室阶段，也就是说视频中不能出现除了目标以外的行人或运动物体。因此本发明希望通过将行人分割与跟踪和步态识别技术相结合，解决多人步态识别问题，从而使得步态识别技术能够真正落到实处，为社会保障方面节省更多的资源。

1、一种基于时空混合特征的多人步态识别方法，其特征在于，包括以下步骤：

步骤1.1：使用行人分割与跟踪方法对原始视频帧中的行人进行分割与跟踪；

步骤1.2：将每个行人的步态轮廓序列分别保存至对应文件夹中；

步骤1.3：选择要识别的行人步态轮廓序列，通过步态识别网络提取特征；

步骤1.4：通过欧氏距离度量，输出行人的身份信息。

2、根据权利要求1所述的一种基于时空混合特征的多人步态识别方法，其特征在于，所述步骤1.1中行人分割与跟踪的方法如下：

步骤2.1：利用2个三维卷积层对视频帧进行特征提取；

步骤2.2：采用混合掩膜网络，进行行人检测与分割；

步骤2.3：通过关联头扩展混合掩膜网络，将混合掩膜网络产生的区域对应的特征图作为输入并且提取每个区域的关联向量，关联向量之间的欧几里得距离用于将随时间变化的检测关联到轨迹中，从而实现行人的跟踪。

步骤2.4：通过选择与样本距离最远的正样本和距离最近的负样本来计算三元组关联损失，并优化整个跟踪模块，其中关联损失如下：

其中，

为视频的检测集，d、e分别为时间帧t_d和t_e的检测，a_d和a_e分别为关联向量，α为阈值。

3、根据权利要求2所述的行人分割与跟踪方法，其特征在于，步骤2.3中提取关联向量的方法为：

步骤3.1：将混合掩膜网络中卷积的最后一层特征图进行不断上采样，并与每一个金字塔阶级的特征图进行加法合并操作，得到新的表征能力更强的不同金字塔层次的特征图；

步骤3.2：将新的金字塔的底层特征图对应区域作为关联模块的输入，提取行人的低维特征。

4、根据权利要求1所述的一种基于时空混合特征的多人步态识别方法，其特征在于，所述步骤1.3中通过步态识别网络提取特征的方法：

步骤4.1：将步态视为一组由连续的行人轮廓组成的序列，通过两个伪三维残差网络主管道分别提取行人轮廓上半身和下半身的时空混合特征。与此同时，把不同层的特征加到多层全局管道中；

步骤4.2：利用水平金字塔池化来提取4个尺度的特征；

步骤4.3：采用三元组损失和中心损失联合训练的方式优化整体网络模型，其中：

三元组损失函数如下：

上式中，

为欧氏距离，

和

分别为样本、正样本和负样本的特征表达，a为阈值，+的含义是当[]内的值大于0的时候取该值为损失，小于0的时候损失为0。

中心损失函数如下：

上式中，x_i表示全连接层之前的特征，c_yi表示第yi个类别的特征中心。

5、根据权利要求4所述的步态识别模型，其特征在于，步骤4.1中提取行人轮廓上半身和下半身的时空混合特征的方法为：

步骤5.1：将输入的特征图水平分割为上下两个部分，并通过两个伪三维残差网络主管道分别进行特征提取；

步骤5.2：将提取的两部分特征向量在水平金字塔池化时进行拼接。

本发明的有益结果：

在单个行人步态识别技术的基础上，结合行人分割与跟踪的相关技术，提出了一种多人步态识别的解决方案，极大地提高了步态识别技术落实到实际应用中的可能性。

附图说明

图1是本发明所述的基于时空混合特征的多人步态识别方法的核心结构示意图；

图2是行人分割与跟踪模型结构示意图；

图3是混合掩膜网络结构示意图；

图4是卷积网络和特征金字塔模块结构示意图；

图5是步态识别模型结构示意图；

图6是伪三维残差块结构示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，本发明所述的基于时空混合特征的多人步态识别方法，具体过程如下：

步骤1：输入原始视频序列至行人分割与跟踪模型，获得行人分割与跟踪的结果。其中行人分割与跟踪模型结构如图2所示：

步骤1.1：为了增强帧之间的时域信息关联，利用两个三维卷积层对原始视频帧进行特征提取，其中两个三维卷积层的卷积核大小均为3x3x3，步幅为1x1x1。随后采用线性整流函数作为激活函数并进行卷积核大小为1x1x1的最大三维池化操作；

步骤1.2：采用混合掩膜网络，进行行人检测与分割。混合掩膜网络是一个统一目标检测和实例分割的网络，具体结构如图3所示：它主要由特征提取模块，目标检测模块和实例分割模块构成。

其中，特征提取模块输入的是步骤1提取出的特征图，主要由卷积网络和特征金字塔模块构成，具体结构和参数如图4所示。

目标检测模块也就是检测器模块，分为分类分支和回归分支，都是在特征图之后添加4个卷积层。其中每个卷积层的输入输出通道都为256，卷积核的大小为3x3，步幅和填充都为1，随后进行组归一化并采用线性整流函数作为激活函数。

实例分割模块则由顶部模块，底部模块和混合模块组成。其中，顶部模块是在每个检测器上附加了单个卷积层，其中输入和输出通道数分别为256和4，卷积核的大小为1x1，从而生成4个预测实例注意力图。底部模块的输入是C2～C5或P2～P5的某些特征图，例如选了C3和C5，那就先将C5上采样4倍，再和C3进行拼接。然后经过一个卷积核大小为3x3，输出通道数为4的卷积层之后，产生4个预测得分图。最后混合模块则依次将实例注意力图的矩阵和得分图对应的矩阵进行元素相乘操作，随后再将4个结果进行相加从而得到掩码。

步骤1.3：通过关联头扩展混合掩膜网络，该关联头是一个全连接层，其将混合掩膜网络产生的区域对应的特征图作为输入并且提取每个区域的关联向量，关联向量的大小为128维，关联向量之间的欧几里得距离用于将随时间变化的检测关联到轨迹中，从而实现行人的跟踪。

步骤1.4：通过选择与样本距离最远的正样本和距离最近的负样本来计算三元组关联损失，并优化整个跟踪模块，其中关联损失如下：

其中，

总体而言，行人分割与跟踪模型对目标数据集KITTI MOTS进行训练，使用自适应矩估计作为优化器，以5*10^-7的学习率进行40个周期的训练。在训练期间，使用由单个视频的8个相邻帧组成的小批量作为输入。

步骤2：将步骤1获得的分割与跟踪结果经过后处理之后，生成行人步态轮廓序列，其具体方法为：首先对于每一帧而言，每个目标都会生成对应的二进制掩码，将二进制掩码转换为对应的二值图像并有序的保存至与其身份序号对应的文件夹下。

步骤3：选择需要识别的行人轮廓序列，利用步态识别模型进行特征提取，其中步态识别模型结构如图5所示：

步骤3.1：将步态视为一组由连续的行人轮廓组成的序列，通过2个伪三维残差网络主管道分别提取行人轮廓上半身和下半身的时空混合特征。与此同时，为了利用不同深度的特征把不同层的特征加到多层全局管道中。所谓的伪三维残差网络则是由不同的伪三维残差块结构和三维池化组成。其中，伪三维卷积是这个网络结构的核心操作，基本思想是将3x3x3的三维卷积核解耦为1x3x3的二维空间卷积和3x1x1的一维时域卷积。然后结合残差学习单元的思想，将二维空间卷积和一维时域卷积分别经过串行和并行的方式组成伪三维残差块结构A和B，具体结构如图6所示。

步骤3.2：为了使特征提取具有局部性和全局性，利用水平金字塔池化来提取4个尺度的特征。所谓的水平金字塔池化则是按照尺度水平划分特征图，对每个水平特征图分别进行最大池化和平均池化，并将两者结果对应相加。在水平金字塔池化之后使用参数独立的全连接层优化特征整体鉴别性。

步骤3.3：最后采用三元组损失和中心损失联合训练的方式优化整体模型。其中，三元组损失通过优化样本与正样本的距离小于样本与负样本的距离，从而最大化类间差异，损失函数如下：

上式中，

为欧氏距离，

和

中心损失则更加关注类内分布的均匀性，让其绕类内中心均匀分布，从而最小化类内差异，损失函数如下：

总体而言，步态识别模型对目标数据集CASIA-B进行训练，输入的是一组对齐的轮廓，尺寸大小为64*44。训练中的轮廓基数设置为30，对于每一个批次，人数p设置为8，每个人的帧数k设置为16。选择自适应矩估计作为优化器，三元组损失和中心损失作为损失函数。学习率设置为1e^-4。训练进行80000次迭代。

步骤4，将要识别行人的特征向量与数据库中已有行人的特征向量进行欧氏距离度量，从而判断出行人的身份。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。