CN111814624A

CN111814624A - 视频中行人步态识别训练方法、步态识别方法及存储装置

Info

Publication number: CN111814624A
Application number: CN202010604691.1A
Authority: CN
Inventors: 罗时现; 张迪; 潘华东
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-23

Abstract

本发明公开了一种视频中行人步态识别训练方法、步态识别方法及存储装置。该行人步态识别训练方法包括：检测出视频中的行人图片并提取行人轮廓图；将行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对行人轮廓图进行处理，获得特征图；对特征图在帧维度上进行分块处理，并计算每一分块特征图的三元组损失；优化三元组损失直至收敛得到行人步态识别结果。通过上述方式，本发明能够对行人轮廓图的不同空间和不同时序进行不同权重的关注，针对行人的不同部位进行细粒度学习且兼顾全局特征学习，提高步态识别的准确性和鲁棒性。

Description

视频中行人步态识别训练方法、步态识别方法及存储装置

技术领域

本申请涉及计算机视觉及机器学习技术领域，特别是涉及一种视频中行人步态识别训练方法、步态识别方法及存储装置。

背景技术

在监控***中的步态识别任务，通常包括行人分割、特征提取和步态识别三个步骤，其中特征提取主要分为基于轮廓序列和基于步态能量图(Gait Energy Image，GEI)的方法，而这些方法都依赖于精准的行人分割结果，较差的行人分割结果直接导致无法实现后续的步态识别任务。传统的步态识别方法要求行人背景简单，而在真实的监控环境中，背景条件是动态多变的，导致步态识别效果不佳。

发明内容

本申请提供一种视频中行人步态识别训练方法、步态识别方法及存储装置，能够提高步态识别的准确性和鲁棒性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种视频中的行人步态识别训练方法，包括：

检测出视频中的行人图片并提取行人轮廓图；

将所述行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对所述行人轮廓图进行处理，获得特征图；

对所述特征图在帧维度上进行分块处理，并计算每一分块特征图的三元组损失；

优化所述三元组损失直至收敛得到行人步态识别结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种视频中的行人步态识别方法，包括：

检测出待测视频中的待测行人图片并提取待测行人轮廓图；

将所述待测行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对所述待测行人轮廓图进行处理，获得所述待测行人轮廓图的特征向量；

将所述待测行人轮廓图的特征向量与预设搜索底库的行人轮廓图的特征向量做比对，搜索出相似度最高的目标图片并输出识别匹配结果。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储装置，存储有能够实现上述行人步态识别方法的程序文件。

本申请的有益效果是：通过上述方式能够对行人轮廓图的不同空间和不同时序进行不同权重的关注，针对行人的不同部位进行细粒度学习且兼顾全局特征学习，提高步态识别的准确性和鲁棒性。

附图说明

图1是本发明实施例的视频中的行人步态识别训练方法的流程示意图；

图2是本发明实施例的视频中的行人步态识别训练方法中获取特征图及特征图分块的流程示意图；

图3是本发明实施例的视频中的行人步态识别训练方法中步骤S102的流程示意图；

图4是本发明实施例中空间注意力机制的结构示意图；

图5是本发明实施例中帧注意力机制的结构示意图；

图6是本发明实施例的视频中的行人步态识别方法的流程示意图；

图7是本发明实施例的建立预设搜索底库的流程示意图；

图8是本发明实施例的视频中的行人步态识别训练装置的结构示意图；

图9是本发明实施例的视频中的行人步态识别装置的结构示意图；

图10是本发明实施例的存储装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明实施例的视频中的行人步态识别训练方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：检测出视频中的行人图片并提取行人轮廓图。

在步骤S101中，首先采集监控视频，然后利用行人检测与行人跟踪方法从监控视频中提取行人图片，再将提取到的行人图片制作成行人图片序列，对行人图片序列标注身份信息，最后对所有的行人图片进行前后背景标注以提取行人轮廓图。本实施例中，提取行人轮廓图时，将行人区域标注为255，背景区域标注为0，再进行归一化处理，得到的结果是行人区域为1，背景区域为0。

步骤S102：将行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对行人轮廓图进行处理，获得特征图。

在步骤S102中，请参见图2，首先将行人轮廓图21输入神经卷积网络22中，提取第一特征图23；然后将第一特征图23输入空间注意力模块24中，对第一特征图23施加空间注意力，获得第二特征图25；最后将第二特征图25输入帧注意力模块26中，对第二特征图25施加时间注意力，获得第三特征图27。

具体地，请参见图3，步骤S102还包括以下步骤：

步骤S301：将行人轮廓图输入神经卷积网络中，提取行人轮廓图的第一特征图。

在步骤S301中，采用随机抽样的方式从行人轮廓图中选取多个图片；对图片进行缩放处理后输入神经卷积网络中，提取行人轮廓图的第一特征图。

具体地，在本实施例中，采用随机抽样的方式从行人轮廓图中选取24个图片；对24个图片分别进行等比例缩放至96×64尺寸后，再输入神经卷积网络中提取24个图片的第一特征图。

在一实施例中，采用随机抽样的方式从行人轮廓图中选取24个图片；将每个图片平分为24块，训练采样时，从每个图片的分块中随机选取一块进行训练，可以关注行人步态随时间的变化，避免冗余。

步骤S302：采用空间注意力机制对第一特征图施加空间注意力，获得第二特征图。

在步骤S302中，对第一特征图在帧维度上进行最大池化得到步态特征图；对步态特征图在通道维度上分别进行最大池化和平均池化，并将池化结果进行合并，得到合并特征图；对合并特征图进行压缩得到空间权重矩阵；将空间权重矩阵与第一特征图进行点乘，获得第二特征图。

具体地，请参见图4，将第一特征图作为输入，第一特征图的尺寸为(t，c，h，w)，其中，t为帧数，c为通道数，h为高度，w为宽度。首先对输入的第一特征图在t维度上进行最大池化操作，得到步态特征图(c，h，w)，然后对步态特征图分别进行最大池化操作和平均池化操作，得到两个特征图(1，h，w)，再将这两个特征图进行合并，得到合并特征图(2，h，w)，利用卷积核为(3，3)的卷积层将合并特征图压缩为(1，h，w)的空间权重矩阵，最后将空间权重矩阵与24个第一特征图进行点乘，输出24个第二特征图，第二特征图的尺寸为(t，c，h，w)。

步骤S303：采用帧注意力机制对第二特征图施加时间注意力，获得第三特征图。

在步骤S303中，对第二特征图分别进行3D最大池化和3D平均池化；对池化结果进行压缩和扩张得到帧维度权重矩阵；将帧维度权重矩阵与第二特征图进行点乘，获得第三特征图。

具体地，请参见图5，将第二特征图作为输入，第二特征图的尺寸为(t，c，h，w)，其中，t为帧数，c为通道数，h为高度，w为宽度。首先对输入的第二特征图在c，h，w维度上分别进行3D最大池化操作和3D平均池化操作，然后利用卷积核为(1，1)的卷积层分别对3D最大池化结果和3D平均池化结果进行压缩和扩张，得到t维度权重矩阵，最后将t维度权重矩阵与24个第二特征图依次进行点乘，获得24个第三特征图(t，c，h，w)。

步骤S103：对特征图在帧维度上进行分块处理，并计算每一分块特征图的三元组损失。

在步骤S103中，分别对特征图在帧维度上进行最大池化和平均池化，得到全局特征图和局部分块特征图；利用独立的全连接方式分别将对全局特征图和局部分块特征图的通道数进行拉伸；分别计算全局特征图和局部分块特征图的三元组损失。

具体地，在一实施例中，如图2所示，对24个特征图在帧维度上进行最大池化，将每个特征图依次分为1，8，16块，得到局部分块特征图28，对24个特征图在帧维度上进行平均池化，将每个特征图都分为1块，得到全局特征图29，利用26个独立的全连接将每一分块的通道数由128拉伸为256，并计算这26个分块的三元组损失。

在本实施例中，局部分块特征图更加关注行人的局部特征，全局特征图更加关注行步态的整体特征。

步骤S104：优化三元组损失直至收敛得到行人步态识别结果。

在步骤S104中，利用Adam优化算法优化该损失进行训练，直至训练收敛得到达到预设条件的行人步态识别结果。

本发明实施例的视频中的行人步态识别训练方法通过人工标注把行人轮廓图从环境背景中分割出来，防止环境背景对识别结果的影响，同时，对行人轮廓图的不同空间和不同时序进行不同权重的关注，针对行人的不同部位进行细粒度学习且兼顾全局特征学习，提高步态识别的准确性和鲁棒性。

图6是本发明实施例的视频中的行人步态识别方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图6所示的流程顺序为限。如图6所示，该方法包括步骤：

步骤S601：检测出待测视频中的待测行人图片并提取待测行人轮廓图。

在步骤S601中，首先采集监控视频，然后利用行人检测与行人跟踪方法从监控视频中提取待测行人图片，再将提取到的待测行人图片制作成待测行人图片序列，对待测行人图片序列标注身份信息，最后对所有的待测行人图片进行前后背景标注以提取待测行人轮廓图。本实施例中，提取待测行人轮廓图时将行人区域标注为255，背景区域标注为0，再进行归一化处理，得到的结果是行人区域为1，背景区域为0。

步骤S602：将待测行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对待测行人轮廓图进行处理，获得待测行人轮廓图的特征向量。

在本实施例中，步骤S602与图1的步骤S102相类似，为简约起见，在此不再一一赘述。

步骤S603：将待测行人轮廓图的特征向量与预设搜索底库的行人轮廓图的特征向量做比对，搜索出相似度最高的目标图片并输出识别匹配结果。

在步骤S603中，计算待测行人轮廓图的特征向量与预设搜索底库的行人轮廓图的特征向量之间的余弦距离；对余弦距离进行排序，输出最小的余弦距离对应预设搜索底库的行人轮廓图。

在本实施例中，行人步态识别方法还包括：建立预设搜索底库。如图7所示，建立预设搜索底库的步骤包括：

步骤S701：利用行人检测与行人跟踪方法采集监控视频中的注册行人，检测并提取每个注册行人的注册图片，对每个注册行人形成一段注册行人图片序列，对注册行人图片序列中的每个注册图片提取注册行人轮廓图。

步骤S702：为每段注册行人图片序列标注对应的行人身份标签；

步骤S703：将注册行人轮廓图输入行人步态识别训练模型中，得到注册行人轮廓图的特征向量；

步骤S704：根据注册行人轮廓图的特征向量建立预设搜索底库。

本发明实施例的视频中的行人步态识别方法对行人轮廓图的不同空间和不同时序进行不同权重的关注，针对行人的不同部位进行细粒度学习且兼顾全局特征学习，提高步态识别的准确性和鲁棒性。

图8是本发明实施例的视频中的行人步态识别训练装置的结构示意图。如图8所示，该装置80包括图片获取模块81、特征图获取模块82、分块及损失计算模块83以及优化模块84。

图片获取模块81用于检测出视频中的行人图片并提取行人轮廓图。

特征图获取模块82与图片获取模块81耦接，用于将行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对行人轮廓图进行处理，获得特征图。

可选地，特征图获取模块82包括提取单元、空间注意力单元以及帧注意力单元，提取单元用于将行人轮廓图输入神经卷积网络中，提取行人轮廓图的第一特征图，空间注意力单元与提取单元耦接，用于采用空间注意力机制对第一特征图施加空间注意力，获得第二特征图，帧注意力单元与空间注意力单元耦接，用于采用帧注意力机制对第二特征图施加时间注意力，获得第三特征图。

分块及损失计算模块83与特征图获取模块82耦接，用于对特征图在帧维度上进行分块处理，并计算每一分块特征图的三元组损失。

优化模块84与分块及损失计算模块83耦接，用于优化该损失直至收敛得到行人步态识别结果。

图9是本发明实施例的视频中的行人步态识别装置的结构示意图。如图9所示，该装置90包括图片获取模块91、特征提取模块92以及步态识别模块93。

图片获取模块91用于检测出待测视频中的待测行人图片并提取待测行人轮廓图。

特征提取模块92与图片获取模块91耦接，用于将待测行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对待测行人轮廓图进行处理，获得待测行人轮廓图的特征向量。

步态识别模块93与特征提取模块92耦接，用于将待测行人轮廓图的特征向量与预设搜索底库的行人轮廓图的特征向量做比对，搜索出相似度最高的目标图片并输出识别匹配结果。

参阅图10，图10为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件11，其中，该程序文件11可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频中的行人步态识别训练方法，其特征在于，包括：

检测出视频中的行人图片并提取行人轮廓图；

优化所述三元组损失直至收敛得到行人步态识别结果。

2.根据权利要求1所述的行人步态识别训练方法，其特征在于，所述将所述行人轮廓图输入神经卷积网络中，依次采用空间注意力机制和帧注意力机制对所述行人轮廓图进行处理，获得特征图的步骤包括：

将所述行人轮廓图输入神经卷积网络中，提取所述行人轮廓图的第一特征图；

采用空间注意力机制对所述第一特征图施加空间注意力，获得第二特征图；

采用帧注意力机制对所述第二特征图施加时间注意力，获得第三特征图。

3.根据权利要求2所述的行人步态识别训练方法，其特征在于，所述采用空间注意力机制对所述第一特征图施加空间注意力，获得第二特征图的步骤包括：

对所述第一特征图在帧维度上进行最大池化得到步态特征图；

对所述步态特征图在通道维度上分别进行最大池化和平均池化，并将池化结果进行合并，得到合并特征图；

对所述合并特征图进行压缩得到空间权重矩阵；

将所述空间权重矩阵与所述第一特征图进行点乘，获得所述第二特征图。

4.根据权利要求3所述的行人步态识别训练方法，其特征在于，所述采用帧注意力机制对所述第二特征图施加时间注意力，获得第三特征图的步骤包括：

对所述第二特征图分别进行3D最大池化和3D平均池化；

对所述池化结果进行压缩和扩张得到帧维度权重矩阵；

将所述帧维度权重矩阵与所述第二特征图进行点乘，获得所述第三特征图。

5.根据权利要求2所述的行人步态识别训练方法，其特征在于，所述将所述行人轮廓图输入神经卷积网络中，提取所述行人轮廓图的第一特征图的步骤包括：

采用随机抽样的方式从所述行人轮廓图中选取多个图片；

对所述图片进行缩放处理后输入所述神经卷积网络中，提取所述行人轮廓图的第一特征图。

6.根据权利要求1所述的行人步态识别训练方法，其特征在于，所述对所述特征图在帧维度上进行分块处理，并计算每一分块特征图的三元组损失的步骤包括：

分别对所述特征图在帧维度上进行最大池化和平均池化，得到全局特征图和局部分块特征图；

利用独立的全连接方式分别将对所述全局特征图和所述局部分块特征图的通道数进行拉伸；

分别计算所述全局特征图和所述局部分块特征图的三元组损失。

7.一种视频中的行人步态识别方法，其特征在于，包括：

检测出待测视频中的待测行人图片并提取待测行人轮廓图；

8.根据权利要求7所述的行人步态识别方法，其特征在于，所述将所述待测行人轮廓图的特征向量与预设搜索底库的行人轮廓图的特征向量做比对，搜索出相似度最高的目标图片并输出识别匹配结果的步骤包括：

计算所述待测行人轮廓图的特征向量与预设搜索底库的行人轮廓图的特征向量之间的余弦距离；

对所述余弦距离进行排序，输出最小的余弦距离对应预设搜索底库的所述行人轮廓图。

9.根据权利要求7所述的行人步态识别方法，其特征在于，所述行人步态识别方法还包括：建立预设搜索底库。

10.一种存储装置，其特征在于，存储有能够实现如权利要求7-9中任一项所述的行人步态识别方法的程序文件。