CN111814719A

CN111814719A - 一种基于3d时空图卷积的骨架行为识别方法

Info

Publication number: CN111814719A
Application number: CN202010692916.3A
Authority: CN
Inventors: 曹毅; 刘晨; 费鸿博; 周辉
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-23
Anticipated expiration: 2040-07-17
Also published as: CN111814719B

Abstract

本发明提供一种基于3D时空图卷积的骨架行为识别方法，其不仅能够实现对骨架信息同时进行空间建模、时间建模，还能表示时空信息之间的连通性；同时，其能够在大型骨架数据集上取得优异的识别准确率，并具备有良好的泛化性能。本发明的技术方案中，通过结合2D图卷积的拉普拉斯算子与多帧的时间拉普拉斯算子，构建了3D时空图卷积神经网络模型，3D时空图卷积神经网络模型中的当前节点的更新依赖于所述当前2D图中与之存在连接的关节节点的状态，同时还与前后相邻的所述相邻2D图中对应节点的节点状态相关；通过联合所述当前2D图中的相关状态信息与前后相邻的所述相邻2D图中相同节点的状态信息，实现空间信息与时间信息的连通，构建出3D图卷积。

Description

一种基于3D时空图卷积的骨架行为识别方法

技术领域

本发明涉及机器视觉识别技术领域，具体为一种基于3D时空图卷积的骨架行为识别方法。

背景技术

机器视觉领域中的骨架行为识别方法为利用深度相机、红外相机等传感器收集目标对象的动作数据，并对其进行数据分析，借助计算机实现对目标对象动作的自动理解和行为分析。骨骼行为识别技术沟通了底层视频数据与高层动作语意信息，因此骨架行为识别研究能广泛的应用于视频监控、人机交互、视频理解等领域。现有的骨架行为识别技术研究中，大多基于循环神经网络、时间卷积网络展开；随着图卷积神经网络的兴起也有基于图卷积神经网络的研究，将图卷积与骨架行为识别相结合，提出了基于图卷积的骨架行为识别技术。然而，现有技术中的研究方向大多是针对空间特征或者针对时间特征进行建模，而忽略了时间信息与空间信息之间存在连通性；所以现有的骨架行为识别技术大多存在缺乏针对骨架信息同时进行时间和空间建模的能力，而忽略时空连通性，会导致识别准确率不理想，识别方法的泛化性能不够强。

发明内容

为了解决现有技术缺乏针对骨架信息同时进行时空建模的能力，导致识别准确率不理想的问题，本发明提供一种基于3D时空图卷积的骨架行为识别方法，其不仅能够实现对骨架信息同时进行空间建模、时间建模，还能表示时空信息之间的连通性；同时，其能够在大型骨架数据集上取得优异的识别准确率，并具备有良好的泛化性能。

本发明的技术方案是这样的：一种基于3D时空图卷积的骨架行为识别方法，其包括以下步骤：

S1：获取原始视频样本，对所述原始视频样本进行预处理，并获取所述原始视频样本中骨架信息数据；

其特征在于，其还包括以下步骤：

S2：将所述原始视频样本的每一帧的所述骨架信息数据建模成一张2D图G(x,A)：

其中：x∈R^N×C，A是骨架关节点连接关系矩阵；

S3：基于获取的所述骨架信息数据，进行数据处理，提取验证用输入特征向量、训练用特征向量；

S4：基于3D时空图卷积方法，构建3D图卷积神经网络模型，作为骨架行为识别模型；

设，所述3D时空图卷积方法中，当前节点对应的所述2D图记做当前2D图，与所述当前节点的前后相邻的所述2D图都记做相邻2D图；

则：所述3D时空图卷积方法中，所述当前节点的更新依赖于所述当前2D图中与之存在连接的关节节点的状态，同时还与前后相邻的所述相邻2D图中对应节点的节点状态相关；通过联合所述当前2D图中的相关状态信息与前后相邻的所述相邻2D图中相同节点的状态信息，实现空间信息与时间信息的连通，从而完整表示动作的时空动作信息；

所述骨架行为识别模型包括子网络结构块，串联子网络结构块构建完整网络模型；每一个所述子网络结构块包括：3D图卷积层、选择性卷积层；所述3D图卷积层用于提取具有时空连通性特征；所述选择性卷积层用于进行特征层数调整；

S5：设置并调整所述骨架行为识别模型的超参数，基于所述训练用特征向量，通过训练确定最优超参数与网络结构，获得训练好的所述骨架行为识别模型；

S6：获取待识别视频数据，提取所述待识别视频数据组中的骨架信息数据，记做待识别骨架信息数据；将所述待识别骨架信息数据对应的特征向量输入到训练好的所述骨架行为识别模型中，得到最终识别结果。

其进一步特征在于：

所述骨架行为识别模型还包括2个全连接层，所述全连接层的神经元的数目依次为64、60；

第一个全连接层后面引入一个dropout层进行优化操作；

所述骨架行为识别模型中，所述3D图卷积层、所述选择性卷积层、第一个所述全连接层采用的激活函数为Rectified Linear Units函数；最后的所述全连接层使用softmax函数作为激活函数；

步骤S1中，获取所述原始视频样本中所述骨架信息数据的步骤包括：

S1-1：对采集到的所述原始视频样本进行分帧处理，将连续视频片段分解为一个包括静态帧的图片序列；

S1-2：基于Openpose姿态估计算法进行计算；

设置Openpose算法的计算参数，将分解视频得到的所述静态帧的图片输入Openpose，提出所述静态帧中的对应关节数的人体骨架数据；

所述计算参数包括：人体关节数、人体个数；

S1-3：依据人体关节与Openpose算法中对于相应关节的编号，构建人体骨架数据的连接关系表示人体的形态特征，即获得所述骨架信息数据；

步骤S3中，基于获取的所述骨架信息数据，进行所述数据处理，所述数据处理包括：

S3-1：视角修正；

针对因视角问题引起的动作重叠和动作的变形，通过视角的变换算法，将相机视角转换到动作正面，完成视角的变换；同时针对人体比例的不同进行相应的放大和缩小，统一所有样本中动作主体大小；

S3-2：序列扰动；

将每一个所述原始视频样本划分为动作片段，通过随机抽取片段来表示所述原始视频样本；

所述3D时空图卷积方法中，连接原先受限于固定连接关系，故基于固定的连接结构，通过参数化表示连接关系的邻接矩阵，生成自适应邻接矩阵，创建3D图中的全新连接关系；

所述3D时空图卷积方法中的3D图卷积对应的邻接矩阵包括：2D图的邻接矩阵、时序邻接矩阵；与之对应的，所述3D图卷积层中的卷积操作包括：空间图卷积、时域图卷积；

所述空间图卷积中，利用1×1卷积对输入特征向量进行特征编码；将编码后的所述输入特征向量与邻接矩阵进行矩阵相乘，连接所述2D图中相关节点表示骨架数据中的连接关系，具体如下公式所示：

其中：

X_spa、X_in分别为空间图卷积的输出特征向量、编码后的输入特征向量；A表示2D图的邻接矩阵； D表示A的度矩阵；

W表示1×1卷积操作；

表示卷积运算；·表示矩阵乘法；

所述时域图卷积中使用1×1卷积对所述输入特征向量进行特征编码实现特征的参数化，并构建表示各个帧间的连接关系，对当前帧与前后帧之间都存在连接关系的时序邻接矩阵进行3D时间图卷积；

通过所述时序邻接矩阵表示指定时间范围内的帧存在时间关系；

设：三维采样空间中有L张连续骨架帧，从第1帧到第L帧记作G⁰,G¹,......G^L-1，则3D图卷积层的输出结果表示为：

其中，A表示连接关系的时序邻接矩阵，D表示A的度矩阵，

表示三维采样空间中第t帧的第k 个邻居节点的第c通道特征值，

表示三维图卷积的权重矩阵的权重值，b表示偏置值；σ(·)函数包含批量标准化、激活函数；

所述选择性卷积层设置单层1×1卷积操作进行特征维度的规整，使所述3D图卷积层的输出特征与输入特征保持特征维度相同；

比较当所述3D图卷积层的输出特征与输入特征的特征维度；

当所述3D图卷积层的输出特征与输入特征的特征维度相同，则进行相加操作；

否则，当所述3D图卷积层的输出特征与输入特征的特征维度存在差异，则通过单层1×1卷积操作来调整所述3D图卷积层的输出特征的特征维度，使其与所述3D图卷积层的输出进行相加操作；

所述选择性卷积层的操作如下公式所示：

所述3D时空图卷积方法中，构建自适应邻接矩阵结构，用以改进所述3D图卷积层中的卷积操作；

基于非局部结构与图卷积理论参数化表示邻接矩阵，通过归一化操作构建所述自适应邻接矩阵结构；所述自适应邻接矩阵结构具体操作如下公式所示：

其中：

ε表示自适应邻接矩阵；

θ(X_in)分别表示双路并行的1×1卷积操作；C(X_in)表示归一化函数； f表示嵌入式高斯函数；W_φ，W_θ表示核函数；

表示

W_φ的转置矩阵；

j为除第i节点以外的其他任意时间节点；T表示时间动作图中时间节点数目；

所述自适应邻接矩阵结构工作的步骤如下所示：

a1：输入原始时间动作图的特征序列；

a2：将所述原始时间动作图执行双路并行的1×1卷积操作，实现特征编码和信道压缩，获得两份编码后的特征序列；

a3：对双路卷积输出的所述编码后的特征序列分别进行矩阵变换和降维，分别获得未做换维的特征序列、换维特征序列；将两个特征序列做矩阵乘法，构建嵌入式高斯函数求解关节间相关性矩阵；

将所述嵌入式高斯函数求解关节间相关性矩阵利用softmax函数求解进行归一化，按行求解计算出每一个节点与其他节点之间的相关性大小，最终求解得出2D图的自适应邻接矩阵，即：生成所述自适应邻接矩阵ε；

a4：基于融合矩阵的时间动作图生成方法，通过矩阵乘法，将基于N阶固定时间结构邻接矩阵A与自适应邻接矩阵ε进行融合；

a5：基于图卷积的时间特征提取，将输出的时间动作图进行图卷积操作以提取时间特征：

其中，

表示时间动作图第k通道特征，w表示核函数；m为时间节点索引，n为人体关节索引，k为通道索引；

a6：残差结构的构建；

将原始时间动作图X_in作Res的选择性卷积并与输出特征X_g求和构建残差结构：

X＝Res(X_in,X_g)＝R(X_in)+X_g

式中，R表示选择性卷积。

本发明提供了一种基于3D时空图卷积的骨架行为识别方法，通过结合2D图卷积的拉普拉斯算子与多帧的时间拉普拉斯算子，构建了3D时空图卷积神经网络模型，3D时空图卷积神经网络模型中的当前节点的更新依赖于所述当前2D图中与之存在连接的关节节点的状态，同时还与前后相邻的所述相邻2D图中对应节点的节点状态相关；通过联合所述当前2D图中的相关状态信息与前后相邻的所述相邻2D图中相同节点的状态信息，实现空间信息与时间信息的连通，构建出3D图卷积；本发明技术方案可以针对骨架信息同时进行时间和空间建模，保留了时空信息之间的连通性，提高了识别准确率；同时本发明提出参数化邻接矩阵的改进方案，通过参数化邻接矩阵，构建了自适应邻接矩阵结构；自适应邻接矩阵结构使原始模型取得了更优异的识别准确率和更好的泛化性能。

附图说明

图1为本发明中的人体行为识别方法的流程示意图；

图2为本发明中3D时空图卷积的工作原理示意图；

图3为本发明中生成自适应邻接矩阵结构示意图。

具体实施方式

如图1～图3所示，本发明一种基于3D时空图卷积的骨架行为识别方法，其包括以下步骤：

S1：获取原始视频样本，对原始视频样本进行预处理，并获取原始视频样本中骨架信息数据；

获取原始视频样本中骨架信息数据的步骤包括：

S1-1：对采集到的原始视频样本进行分帧处理，将连续视频片段分解为一个包括静态帧的图片序列；

S1-2：基于Openpose姿态估计算法进行计算；

设置Openpose算法的计算参数，将分解视频得到的静态帧的图片输入Openpose，提出静态帧中的对应关节数的人体骨架数据；

计算参数包括：人体关节数、人体个数；

S1-3：依据人体关节与Openpose算法中对于相应关节的编号，构建人体骨架数据的连接关系表示人体的形态特征，即获得骨架信息数据。

S2：将原始视频样本的每一帧的骨架信息数据建模成一张2D图G(x,A)：

其中：x∈R^N×C，A是骨架关节点连接关系矩阵，大小为N×N；

最终将所有帧图像并合并骨架数据形成一段骨架数据序列，对应视频样本中的人体动作

骨架数据序列的数据结构为[C,T,V,M]；

其中，C为特征通道数，T为帧数，V为关节个数，M为单帧图像中人体个数。

S3：基于获取的骨架信息数据，进行数据处理，提取验证用输入特征向量、训练用特征向量；

对骨架信息数据的数据处理操作包括：

S3-1：视角修正；

针对因视角问题引起的动作重叠和动作的变形，通过视角的变换算法，将相机视角转换到动作正面，完成视角的变换；同时针对人体比例的不同进行相应的放大和缩小，统一所有样本中动作主体大小，将因视角与动作主体大小对于行为识别准确率的影响降低；

S3-2：序列扰动；

将每一个原始视频样本划分为若干个动作片段，通过随机抽取片段来表示该样本，通过动作划分为若干个单独片段，提高训练样本的数量与增加单类动作的多样性，实现模型泛化性能的提高。

设，3D时空图卷积方法中，当前节点对应的2D图记做当前2D图，与当前节点的前后相邻的2D图都记做相邻2D图；

如图1所示：3D时空图卷积方法中，当前节点的更新依赖于当前2D图中与之存在连接的关节节点的状态，同时还与前后相邻的相邻2D图中对应节点的节点状态相关；通过联合当前2D图中的相关状态信息与前后相邻的相邻2D图中相同节点的状态信息，实现空间信息与时间信息的连通，从而完整表示动作的时空动作信息；

3D时空图卷积方法中，连接原先受限于固定连接关系，故基于固定的连接结构，通过参数化表示连接关系的邻接矩阵，生成自适应邻接矩阵，创建3D图中的全新连接关系；

3D时空图卷积方法中的3D图卷积对应的邻接矩阵包括：2D图的邻接矩阵、时序邻接矩阵；与之对应的，3D图卷积层中的卷积操作包括：空间图卷积、时域图卷积；2D图的邻接矩阵在整个样本的2D图中共享，时序邻接矩阵的大小视采样空间的大小进行制定；

骨架行为识别模型包括子网络结构块，串联子网络结构块构建完整网络模型；每一个子网络结构块包括：3D图卷积层、选择性卷积层；3D图卷积层用于提取具有时空连通性特征；选择性卷积层用于进行特征层数调整；

骨架行为识别模型还包括2个全连接层，全连接层的神经元的数目依次为64、60；

第一个全连接层后面引入一个dropout层进行优化操作；

骨架行为识别模型中，3D图卷积层、选择性卷积层、第一个全连接层采用的激活函数为Rectified Linear Units函数；最后的全连接层使用softmax函数作为激活函数；

本发明实施例中，子网络结构块共有10个。

空间图卷积中，利用1×1卷积对输入特征向量进行特征编码，将固定的特征向量赋予一个变量有利于神经网络进行动态调整该特征，实现特征的参数化表示更加有利于网络的调整；将编码后的输入特征向量与邻接矩阵进行矩阵相乘，连接2D图中相关节点表示骨架数据中的连接关系，具体如下公式所示：

其中：

W表示1×1卷积操作；

表示卷积运算；·表示矩阵乘法。

时域图卷积中使用1×1卷积对输入特征向量进行特征编码实现特征的参数化，有利于在训练过程中进行动态调整；

设置对应的时序邻接矩阵，通过时序邻接矩阵表示各个帧间的连接关系，对当前帧与前后帧之间都存在连接关系的时序邻接矩阵进行3D时间图卷积；

具体实现时，当前帧与前后帧之间都存在连接关系，在时序邻接矩阵中可以表示为第i行中第i个索引前后一定范围之内都为1，表示该时间范围内的帧存在时间关系；即，可以实施为：将时序邻接矩阵与1×1 卷积输出进行矩阵乘法，实现前后多帧中相同位置节点共同参与当前节点的状态更新，实现时域上的建模。

如图1中所示，设：三维采样空间中有L张连续骨架帧，从第1帧到第L帧记作G⁰,G¹,......G^L-1，则3D图卷积层的输出结果表示为：

其中，A表示连接关系的时序邻接矩阵，D表示A的度矩阵，

表示三维图卷积的权重矩阵的权重值，b表示偏置值；σ(·)函数包含批量标准化、激活函数。

选择性卷积层设置单层1×1卷积操作进行特征维度的规整，使3D图卷积层的输出特征与输入特征保持特征维度相同，用以解决构建残差结构中出现的特征维度不匹配问题；

比较当3D图卷积层的输出特征与输入特征的特征维度；

当3D图卷积层的输出特征与输入特征的特征维度相同，则进行相加操作；

否则，当3D图卷积层的输出特征与输入特征的特征维度存在差异，则通过单层1×1卷积操作来调整 3D图卷积层的输出特征的特征维度，使其与3D图卷积层的输出进行相加操作；

选择性卷积层的操作如下公式所示：

残差结构通过跳层连接，增强梯度的流动，简化了学习过程，增强了梯度传播，保持了网络在反向传播过程中梯度的大小，使得在较深层调整权重时任能保持一定的梯度，解决了梯队消失，减轻了神经网络的退化，最终实现了损失函数在训练过程中的快速收敛和模型稳定性。

3D时空图卷积方法中，构建自适应邻接矩阵结构，用以改进3D图卷积层中的卷积操作；

基于非局部结构与图卷积理论参数化表示邻接矩阵，通过归一化操作构建自适应邻接矩阵结构；自适应邻接矩阵结构具体操作如下公式所示：

其中：

ε表示自适应邻接矩阵；

θ(X_in)分别表示双路并行的1×1卷积操作；C(X_in)表示归一化函数；

f表示嵌入式高斯函数；W_φ，W_θ表示核函数；

表示

W_φ的转置矩阵；

j为除第i节点以外的其他任意时间节点；T表示时间动作图中时间节点数目。

2D图的自适应邻接矩阵基于非局部结构改进生成，如图3所示，自适应邻接矩阵结构工作的步骤如下所示：

a1(图3中步骤1)：特征输入：输入原始时间动作图的特征序列；将原始时间动作图X_in输入结构，其尺寸为N×C×T×V，分别对应训练批次、通道数、帧数、关节数；

a2(图3中步骤2)：特征编码与信道压缩：将原始时间动作图X_in执行双路并行的1×1卷积操作，实现特征编码和信道压缩，获得两份编码后的特征序列；两份输出的编码后的特征序列互不相同，且经信道压缩后特征维数降低为输入特征序列的1/4，两份特征序列尺寸均为[N,C/4,T,V]；

a3(图3中步骤3)：自适应邻接矩阵ε的求解：对双路卷积输出的编码后的特征序列分别进行矩阵变换和降维，分别获得生成特征尺寸为[N,V,C/4*T]的未做换维的特征序列、特征尺寸为[N,C/4*T,V]的换维特征序列；将两个特征序列做矩阵乘法，构建嵌入式高斯函数求解关节间相关性矩阵；

将嵌入式高斯函数求解关节间相关性矩阵利用softmax函数求解进行归一化，按行求解计算出每一个节点与其他节点之间的相关性大小，每一行相关性相加为1，最终求解得出2D图的自适应邻接矩阵，即：生成自适应邻接矩阵ε；

a4(图3中步骤4)：基于融合矩阵的时间动作图生成方法，通过矩阵乘法，将基于N阶固定时间结构邻接矩阵A与自适应邻接矩阵ε进行融合；融合时，邻接矩阵与原始输入特征作矩阵乘法；

a5(图3中步骤5)：基于图卷积的时间特征提取，将输出的时间动作图进行图卷积操作以提取时间特征：

其中，

a6(图3中步骤6)：残差结构的构建；

X＝Res(X_in,X_g)＝R(X_in)+X_g

式中，R表示选择性卷积。

骨架行为识别模型中，空间图卷积的1×1卷积、第一个全连接层采用的激活函数为Rectified Linear Units (以下简称ReLU)函数；ReLU函数计算公式为：

空间图卷积的1×1卷积后面均跟着一个BN(Batch Normalization)层，BN层中使用的批量归一化函数的公式，如下：

其中，m表示单一批量中样本的数目；ε微小变量，防止出现分母为零；γ表示BN层可学习变量；

β表示BN层可学习变量。

骨架行为识别模型中，最后的全连接层使用softmax函数作为激活函数，计算样本分类的概率分布，其具体计算公式如下所示：

其中：

i表示k中的某一分类；g_i表示对应分类的概率值。

S5：设置并调整骨架行为识别模型的超参数，基于训练用特征向量，通过训练确定最优超参数与网络结构，获得训练好的骨架行为识别模型。

S6：获取待识别视频数据，提取待识别视频数据组中的骨架信息数据，记做待识别骨架信息数据；将待识别骨架信息数据对应的特征向量输入到训练好的骨架行为识别模型中，得到最终识别结果。

计算骨架行为识别模型的识别准确率包括以下步骤：

a1：获取原始视频样本对应数据标签；

a2：将验证用输入特征向量输入到训练好的骨架行为识别模型中，得到验证集识别结果；

a3：将验证集识别结果与验证用输入特征向量对应的数据标签对比计算，得到识别准确率。

本发明技术方案中的3D图卷积神经网络模型的详细的网络结构如下面表1所示：

表1：3D图卷积神经网络模型的网络结构

基于本发明的网络网络结构，输入的数据，经过10个子网络结构块(表中的1^st～10^th的包括三维图卷积、选择性卷积层的子网络结构块)的处理之后，进入Flatting层，在Flatting层中将子子网络结构块输出的3维数据转换成1维数据，然后通过FC层将数据从120000降低维度到64维，最后通过Predict层映射到 60维后进行预测。

为了验证本发明技术方案中的人体行为识别方法的有效性和实用性，选取NTU-RGB+D与MSR Action 3D数据集作为实验数据集进行实验。

在Win10***、CPU选择i7-8700k、显卡GTX-1080Ti、计算能力为8.1的实验环境下，采用pytorch 作为深度学习框架进行试验；作为实验数据集的NTU-RGB+D与MSR Action 3D数据集，在每个动作类中均匀划分出训练集、验证集和测试集。

为验证3D时空图卷积神经网络具有针对骨架信息同时进行时空建模的能力，同时通过自适应邻接矩阵能够显著提高模型的识别准确率分别采用LSTM，TCN作为实验对比，通过设置训练批次(epoch)、学习率(learning rate)、批量大小(batch size)等超参数在NTU-RGB+D与MSR Action 3D数据集上进行试验。对比试验的具体结果如下面的表2、表3中的试验结果所示。

表2 NTU数据集上不同模型的识别准确率对比

模型	使用方法	X-View(％)	X-Sub(％)
				Two-Stream 3DCNN	三维卷积+双流	72.58	66.85
ST-GCN	图卷积+TCN	88.30	81.50
				3D skeleton GCN	GCN	89.60	82.60
本发明技术方案	3DGCN	93.30	89.43

从表2中的数据可以看出：在以X-View与X-Sub两种方式划分的NTU数据集上，本发明技术方案均取得最高的识别准确率，分别为93.30％与89.43％。充分显示了本发明技术方案的先进性；

表3 MSR Action 3D数据集上三种训练条件下的识别准确率对比

模型	使用方法	AS1(％)	AS2(％)	AS3(％)	Aver(％)
						3DDCNN	三维卷积+SVM	92.03	88.59	95.54	92.05
SPMF-3DCNN	三维卷积+SPMF	96.73	97.35	98.77	97.62
						TGLSTM	图卷积+LSTM	93.70	95.80	96.60	95.20
本发明技术方案	三维图卷积	96.78	98.56	99.02	98.12

从表3中的数据可以看出：本发明技术方案在AS1、AS2、AS3三种训练条件下均取得了高于三维卷积与图卷积的识别准确率，进一步验证了模型时空信息提取的有效性。