CN110059598B

CN110059598B - 基于姿态关节点的长时程快慢网络融合的行为识别方法

Info

Publication number: CN110059598B
Application number: CN201910274983.0A
Authority: CN
Inventors: 孙宁; 郭大双; 李晓飞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2021-07-09
Anticipated expiration: 2039-04-08
Also published as: CN110059598A

Abstract

本发明提出了一种基于姿态关节点的长时程快慢网络融合的行为识别方法，包括如下步骤：利用图卷积网络自动捕捉空间和时序内关节点结构特征和轨迹特征的模式；通过特征拼接网络模型生成每个视频片段的整体时空特征，并按片段顺序串接形成视频的整体时空特征，然后在卷积网络的高层融合输入视频中提取的RGB特征和姿态关节点特征；将两种特征通过支持向量机分类器，经过加权融合的方式输出该视频行为的分类结果。本发明通过提取姿态关节点特征，大大减少了数据量，去除了冗余信息。同时提取长时程多帧图像序列中的时空特征来进行特征补偿，提高了视频复杂行为的识别率和鲁棒性。

Description

基于姿态关节点的长时程快慢网络融合的行为识别方法

技术领域

本发明属于图像识别技术领域，具体涉及一种基于姿态关节点的长时程快慢网络融合的行为识别方法。

背景技术

随着计算机学科与人工智能的发展和应用，视频分析技术迅速兴起并得到了广泛关注。视频分析中的一个核心就是人体行为识别。识别***的性能在很大程度上取决于能否从中提取和利用相关信息。然而，由于诸如尺度变化、视点变化和相机运动等许多复杂性，提取此类信息是较为困难的。因此，设计能够应对这些挑战的有效特征，同时保留行为类别的分类信息变得至关重要。在2D或3D坐标形式下，动态骨骼模态可以自然地由人类关节位置的时间序列表示，通过分析其动作模式可以做到人类行为识别。早期基于骨骼进行动作识别的方法只是在各个时间步骤使用关节坐标形成特征向量，并对其进行时序分析。但这些方法能力有限，因为它们没有明确利用人类关节的空间关系和时序关系，而这类特征对理解人类行为而言至关重要，不仅如此，视频的语义信息例如空间信息、背景信息对视频理解也有补偿性作用。早期基于深度学习的行为识别方法研究，如两分支卷积神经网络结构为深度学习在行为识别领域奠定了基础，但其不适用于长视频的识别，并且在行为识别方法对外貌特征的提取中，往往忽略了行为的空间结构特征，目前的算法主要还是基于RGB图片进行特征提取，这就无可避免的代入冗余信息，使得描述行为的表达不够精细。

发明内容

发明目的：针对现有技术的不足，本发明提出一种基于姿态关节点的长时程快慢网络融合的行为识别方法，提高了视频复杂行为的识别率和鲁棒性。

技术方案：一种基于姿态关节点的长时程快慢网络融合的行为识别方法，包括以下步骤：

S1、利用图卷积网络提取单帧人体姿态的空间结构特征，以及不同帧之间同一个关节点的运动轨迹特征；

S2、构建特征拼接网络模型，用于提取长时程多帧图像序列中的时空特征来识别视频中的复杂行为以及构建行为的整体特征；

S3、将姿态空间结构信息和关节点轨迹特征映射到描述符中，与征拼接网络模型的行为特征进行特征融合；

S4、将得到的行为姿态关节点特征、行为融合特征通过支持向量机分类器，经过加权融合的方式输出该视频行为的分类结果。

优选地，所述步骤S1包括：利用姿态关节点定位算法，提取视频行为数据集中每个视频的视频帧中有序的人体骨骼关节点；将每个视频级的关节点处理成(C,N,V,M)维的数组作为时空图卷积网络的输入，C表示通道数，N表示视频的帧数，V表示关节点个数，M表示人数；将N重复扩展为150帧，将数据进行扩增和正则化后输入到图卷积网络进行行为特征的提取和分类，所述图卷积网络的多层时空图卷积分为若干卷积部，分别对应不同的输出通道。

优选地，所述步骤S2包括：基于卷积神经网络构建用于提取行为数据集中每个视频的彩色图像序列空间信息的特征拼接网络模型；将每个视频的彩色图像序列按照连续多帧分为若干片段，片段输入特征拼接网络模型，先经过模型第一特征处理部提取每个片段连续帧的时空特征，再由模型第二特征处理部拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征。

优选地，所述步骤S3包括：在图卷积网络的第二卷积部和特征拼接网络第二特征处理部之间引入侧连接结构，将图卷积网络的特征图经过卷积层维度变换后与特征拼接网络特征在时间维度进行连接；同样，将图卷积网络最后一层卷积层输出的特征与特征拼接网络模型经过特征拼接后的整体时空特征进行串接，串接后的特征输入到3D卷积网络中，在卷积网络全连接层的前一层提取特征融合后的语义信息。

有益效果：本方法中图卷积网络模型注重行为主体的运动视点的变化，姿态关节点的数据量相对于RGB数据来说大大减少，能够保证行为主体动作的连贯性，特征拼接网络模型在提取背景特征的同时更加保存了整体的运动的特征，避免丢失补偿信息。基于姿态关节点的长时程快慢网络提高了视频复杂行为的识别率和鲁棒性。

附图说明

图1为根据本发明的行为识别方法流程图；

图2为根据本发明的快慢网络融合示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。应当了解，以下提供的实施例仅是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的技术构思，本发明还可以用许多不同的形式来实施，并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。

图1示出了本发明的基于姿态关节点的长时程快慢网络融合的行为识别方法流程图，图2为快慢网络融合示意图，图中alphapose为对于RGB图片中的人进行姿态关节点定位和提取使用的算法名称，提取的结果是关节点的坐标和置信度，GCN表示图卷积网络。首先参照图1，方法包括以下步骤：

步骤S1，利用图卷积网络提取单帧人体姿态的空间结构特征，以及不同帧之间同一个关节点的运动轨迹特征。

选取视频行为数据集，提取视频行为数据集中每个视频的视频帧中有序的人体骨骼关节点，这些数据所在的栅格是不规则的或是非欧几里得的，所以更适合被构建为图，骨架信息是二维坐标点组成的向量，卷积神经网络无法直接处理这样的数据。本发明提出一种利用图卷积网络自动捕捉空间和时序内关节点结构特征和轨迹特征的模式，通过将图卷积网络对用于行为识别的骨架序列建模，在高层网络提取视频的整体时空特征。

具体而言，实现过程如下：

使用姿态估计算法对视频中每帧人体进行姿态估计，得到左眼、右眼、鼻子、人体脖子、胸部、头部、右肩、左肩、右臀部、左臀部、右手肘、左手肘、右膝盖、左膝盖、右手腕、左手腕、右脚踝和左脚踝这18个关节点的位置坐标，其中第k个关节点的坐标表示为Lk＝(xk,yk)，k从1到18，提取视频行为数据集中每个视频的视频帧中有序的18个人体骨骼关节点，对姿态关节点数据集进行滤波处理，去除缺失值较多的坐标矩阵，同时补足缺失值较少的坐标矩阵；

对每个关节点的位置坐标进行归一化，用归一化之后的18个关节点位置坐标构成坐标矩阵P；

将每个视频级的关节点处理成(C,N,V,M)维的数组作为时空图卷积网络的输入，C表示通道数，N表示视频的帧数，V表示关节点个数，M表示人数。

接着将N重复扩展为150帧。将数据进行扩增和正则化后输入到批量归一化层。

实施例中时空图卷积网络模型由九层时空图卷积组成。前三层构成第一卷积部，输出64通道数，中间三层构成第二卷积部，输出128通道，最后三层构成第三卷积部，输出256层通道数。应当了解，此处所述的第一、第二、第三卷积部及其划分仅是为了描述方便的目的，便于对本实施例的模型结构有更直观的认识，但并不表示在其他实施例中必须按上述结构进行划分，本发明对各卷积部的划分不做限制。一共有9个时间卷积核，在每一个时空图卷积之间使用残差链接，使用dropout进行特征正则化处理，将一半的神经元进行舍弃部分神经元处理。第4、7层的时间卷积层设置为池化层。最后将输出的256个通道数的输出进行全局池化，并由交叉熵层进行分类。使用随机梯度下降进行优化。对表征视频数据进行姿态估计，并在骨骼序列上构建时空图。此后，对其应用多层时空图卷积操作，并逐渐在图像上生成表征视频的更高级的特征图，最终形成整个视频的整体时空特征。

步骤S2，构建特征拼接网络模型，用于提取长时程多帧图像序列中的时空特征来识别视频中的复杂行为以及构建行为的整体特征。

具体而言，构建用于提取行为数据集中每个视频的彩色图像序列空间信息的特征拼接网络模型；将每个视频的彩色图像序列按照连续多帧分为若干片段，片段输入特征拼接网络模型，先经过模型第一特征处理部提取每个片段连续帧的时空特征，再由模型第二特征处理部拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征。

作为优选，对于训练特征拼接网络模型，采用Kinetics数据集预训练参数加快每路卷积神经网络收敛速度，进行迁移学习。

对于RGB图片，特征拼接网络模型包括1个输入、24层网络和1个输出，所述输入为原始视频帧图像输入，24层网络的前21层为特征拼接网络模型的卷积神经网络，24层网络的第22,23,24层为两个全连接层及一个交叉熵函数层来预测动作标签。更优选地，每路卷积神经网络的前21层依次为1层卷积层、1层池化层、2层Inception模块层、1层池化层、5层Inception模块层、1层池化层、特征拼接层、片段特征串接层、3层卷积层、1层池化层、特征拼接层、2层Inception模块层、1层平均池化层；卷积层的卷积核分别为7×7×7，1×3×3，3×3×3，池化层为最大池化，其池化核为1×3×3,1×3×3,3×3×3,2×2×2，平均池化层的池化核为2×2×2；特征拼接层以2×2方形的形式拼接，将各片段的整体时空特征按片段顺序串接。

由第二特征处理部拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为：

将卷积神经网络的第一特征处理部获取的连续16帧片段的时空特征以每4帧作为一个单位，每个单位的4帧图像以2×2形式拼接为小块的整体时空特征；

每个小块的整体时空特征是三维的，保持第三维深度不变，将第一维长度和第二维宽度拼接，使连续16帧片段的时空特征转化为4个小块的整体时空特征；

4个小块的整体时空特征的第三维深度不变，将第一维长度和第二位宽度扩大一倍，再经过卷积池化后，将4个小块的整体时空特征以2×2形式拼接为片段的整体时空特征；

将各片段的整体时空特征按片段顺序串接，最终形成整个视频的整体时空特征。

请参照图2，每一小的长方体是4帧当中的1帧图片的特征表示，后面4个小长方体表示一个单位的整体特征表征，后面将4个大长方体合成整体的长方体表示视频的整体特征，后面接着的方框表示经过卷积层后特征的宽和高尺寸变化成和图卷积网络输出的大小一样，以便于进行两种特征的串接。

步骤S3，将姿态空间结构信息和关节点轨迹特征映射到描述符中进行特征融合。

在卷积网络的第三特征处理部融合视频的RGB特征和姿态关节点特征，在卷积网络全连接层的前一层提取视频特征，融合视频的整体时空特征的融合方式为串接融合。

具体而言，在图卷积网络的第二卷积部以及特征拼接网络的第二特征处理部之间引入侧连接结构，将图卷积网络的特征图经过卷积层维度变换后与特征拼接网络特征在时间维度进行连接。同样，将图卷积网络表征视频行为的高层特征(即最后一个卷积层输出的特征)与特征拼接网络模型经过特征拼接后的特征(即最后一层卷积神经网络输出的特征)进行串接，串接后的特征输入到3D卷积网络中，在卷积网络全连接层的前一层提取特征融合后的语义信息。当前实施例中图卷积网络的高层特征指的是全连接层前一层卷积层(即第九卷积层)输出的特征，特征拼接网络的高层特征是在24层中第21层输出的特征。

为了将图卷积网络和3D卷积网络两条途径的信息融合在一起，采用侧向连接(lateral connection)的方式来实现。侧向连接技术已被广泛用于融合基于光流的双流网络，而在行为识别任务中，横向连接作为一种流行的融合的技术，能够将空间分辨率和语义水平特征融合在一起。在两条路径之间引入一个横向连接，即每个“阶段”的两条路径。对基于姿态关节点的双流时空网络的行为识别方法，由于两条路径存在差异，因此侧向连接需要通过转换过程以便匹配各自的路径，即采用单向连接的方式来将姿态关节点特征通过特征串接的方式融合到3D卷积网络的路径上。特征串接的方法如下：在图卷积网络的第二卷积部输出的特征经过反卷积操作，将特征图的大小与3D卷积网络第二特征处理部所得特征图的大小尺寸保持一致，在时间维度保持原来通道数的大小，将特征进行串接作为3D卷积网络下一层的输入。最后，在每条路径的输出后引入一个全局平均池化操作，并将两个池化特征向量分别用支持向量机进行分类。

步骤S4，最后将得到的姿态关节点特征、RGB空间特征和姿态关节点特征融合后的视频整体时空特征通过支持向量机分类器，经过加权融合的方式输出该视频行为的分类结果。

通过步骤S1-S3得到两类特征，一类是图卷积网络输出的姿态关节点特征，另一类是特征拼接网络输出的特征，该网络由于引入了侧连接结构，所以输出的是RGB空间特征和姿态关节点特征融合后特征，这样做的好处是让网络更加注重人体运动视点的变化，而且由于图卷积网络处理的数据是关节点坐标，数据量较少，所以在一段视频中能够提取更多帧的姿态关节点数据，这样就保证了人体动作的连贯性，并且特征拼接网络是3D网络，输入的是RGB图片，所以提取的特征是基于场景的运动变化特征，这两种特征能够进行信息互补，提高分类的鲁棒性和正确率。

Claims

1.一种基于姿态关节点的长时程快慢网络融合的行为识别方法，其特征在于，包括如下步骤：

S2、构建特征拼接网络模型，用于提取长时程多帧图像序列中的时空特征来识别视频中的复杂行为以及构建行为的整体特征，包括：

基于卷积神经网络构建用于提取行为数据集中每个视频的彩色图像序列空间信息的特征拼接网络模型；将每个视频的彩色图像序列按照连续多帧分为若干片段，片段输入特征拼接网络模型，先经过模型第一特征处理部提取每个片段连续帧的时空特征，再由模型第二特征处理部拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征；

其中所述由模型第二特征处理部拼接生成每个视频片段的整体时空特征，并将每个视频片段的整体时空特征按片段顺序串接形成视频的整体时空特征的具体方法为：

将64帧的视频帧按顺序平均分为4个视频片段，将卷积神经网络的第一特征处理部获取的连续16帧片段的时空特征以每4帧作为一个单位，每个单位的4帧图像以2×2形式拼接为小块的整体时空特征；

将各片段的整体时空特征按片段顺序串接，最终形成整个视频的整体时空特征；

S3、将姿态空间结构信息和关节点轨迹特征映射到描述符中，与特征拼接网络模型的行为特征进行特征融合，包括：

在图卷积网络的第二卷积部以及特征拼接网络的第二特征处理部引入侧连接结构，将图卷积网络的特征图经过卷积层维度变换后与特征拼接网络特征在时间维度进行连接；将图卷积网络的最后一层卷积层输出的特征与特征拼接网络模型经过特征拼接后的整体时空特征进行串接，串接后的特征输入到3D卷积网络中，在卷积网络全连接层的前一层提取行为融合特征；

2.根据权利要求1所述的一种基于姿态关节点的长时程快慢网络融合的行为识别方法，其特征在于，所述步骤S1包括：

利用姿态关节点定位算法，提取视频行为数据集中每个视频的视频帧中有序的人体骨骼关节点；

将每个视频级的关节点处理成(C,N,V,M)维的数组作为时空图卷积网络的输入，C表示通道数，N表示视频的帧数，V表示关节点个数，M表示人数；

将N重复扩展为150帧，将数据进行扩增和正则化后输入到图卷积网络进行行为特征的提取和分类，所述图卷积网络的多层时空图卷积分为若干卷积部，分别对应不同的输出通道。

3.根据权利要求2所述的基于姿态关节点的长时程快慢网络融合的行为识别方法，其特征在于，所述人体骨骼关节点包括：左眼、右眼、鼻子、人体脖子、胸部、头部、右肩、左肩、右臀部、左臀部、右手肘、左手肘、右膝盖、左膝盖、右手腕、左手腕、右脚踝和左脚踝。

4.根据权利要求1所述的一种基于姿态关节点的长时程快慢网络融合的行为识别方法，其特征在于，所述特征拼接网络模型采用Kinetics数据集预训练参数加快每路卷积神经网络收敛速度，进行迁移学习。

5.根据权利要求1所述的一种基于姿态关节点的长时程快慢网络融合的行为识别方法，其特征在于，所述特征串接的方法如下：在图卷积网络的第二卷积部输出的特征经过反卷积操作，将特征图的大小与3D卷积网络第二特征处理部所得特征图的大小尺寸保持一致，在时间维度保持原来通道数的大小，将特征进行串接作为3D卷积网络下一层的输入。