CN116665300A

CN116665300A - 基于时空自适应特征融合图卷积网络的骨架动作识别方法

Info

Publication number: CN116665300A
Application number: CN202310609183.6A
Authority: CN
Inventors: 张海平; 张昕昊; 周福兴; 管力明; 施月玲
Original assignee: Hangzhou Dianzi University; School of Information Engineering of Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University; School of Information Engineering of Hangzhou Dianzi University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-29

Abstract

本发明公开了一种基于时空自适应特征融合图卷积网络的骨架动作识别方法，包括如下步骤：S1、获取人体的骨架动作序列的原始数据集并进行数据预处理和数据增强；S2、对预处理和数据增强后得到的骨架数据进行处理，得到骨架数据的二阶骨骼信息；S3、将关节运动流态和骨骼运动流态整合形成肢体流；S4、构建时空自适应特征融合图卷积网络；S5、分别将关节流态、骨骼流态和肢体流数据输入到时空自适应特征融合图卷积网络中进行训练，获取对应的初始预测结果和softmax分数，最终通过权重相加的方式融合输出最后的预测结果。该方法可更充分地提取不同尺度上下文信息，结合数量更多、特征更明显的关节数据以实现人体行为预测，有助于提高人体行为的预测精确度。

Description

基于时空自适应特征融合图卷积网络的骨架动作识别方法

技术领域

本发明涉及计算机视觉和深度学习技术领域，具体指一种基于时空自适应特征融合图卷积网络的骨架动作识别方法。

背景技术

骨架数据是包含多个人体骨骼关节的二维或三维坐标位置的时间序列，可以使用姿态估计方法从视频图像中提取或者利用传感器设备直接采集。相比于传统的RGB视频识别方法，基于骨架数据的动作识别能有效地减少识别过程中由于光照变化、环境背景、遮挡等干扰因素的影响，对动态环境和复杂背景具有较强的适应性。

目前，使用骨架进行动作识别的一种典型方法是构建图卷积网络(GCNs)。然而，目前基于GCN的主流模型还存在如下不足：(1)特征提取能力有限。靠近输入的模块(低级模块)具有相对较小的感受野。因此，与低级模块相比，高级模块的焦点对输入骨架序列具有更全局的视图。因此，对于时间尺度学习，仅通过在网络的每层使用固定大小的卷积核或膨胀率来解决诸如骨架动作语义之类的问题以获得更有效的建模是困难的；(2)多流融合特定行为模式的方法简单。目前，经典的多流框架模型通常直接将各流的softmax分数相加获得最终的预测结果，但实际上各个流的预测效果是有明显差异的，单纯的分数相加难以获得精确的预测结果，并且参数计算量较大。(3)生成具有语义意义的边的邻接矩阵在此任务中尤为重要，传统的空间拓扑图受物理连接性影响，边的提取仍是一个具有挑战性的问题。

发明内容

本发明的目的在于针对上述问题，提出一种基于时空自适应特征融合图卷积网络的骨架动作识别方法，可更充分地提取不同尺度上下文信息，并在不增加计算量的情况下，结合数量更多、特征更明显的关节数据以实现人体行为预测，有助于提高人体行为的预测精确度。

为了解决上述技术问题，本发明的技术方案为：

一种基于时空自适应特征融合图卷积网络的骨架动作识别方法，包括如下步骤：

S1、对大规模原始骨架动作序列的人体动作识别数据集进行数据预处理和数据增强；

S2、对增强后的骨架数据进行处理，得到骨架数据的二阶信息，其中，X表示关节流态X_joint，为一阶骨骼信息，C、T、N分别是关节的特征维度、序列帧数和关节数。

所述二阶骨骼信息包括骨骼流态X_bone、关节运动流态X_joint-motion以及骨骼运动流态X_bone-motion数据，公式如下：

X_bone＝x[：，：，i]-x[：，：，i_nei]|i＝1，2，...，N

X_joint-motion＝x[：，t+1，：]-x[：，t，：]|t＝1，2，...，T，x∈X_joint

X_joint-motion＝x[：，t+1，：]-x[：，t，：]|t＝1，2，...，T，x∈X_bone

其中，i表示第i个关节，i_nei表示同一帧上第i个关节的相邻关节，t表示序列的第t帧。

S3、原始数据集包含25个人体关节，将关节运动流态和骨骼运动流态在通道维度上通过聚合的方式整合形成肢体流，肢体流只包含四肢上的总共22个关节。

S4、分别将关节流态X_joint、骨骼流态和肢体流数据输入到时空自适应特征融合图卷积网络中进行训练，获取对应的初始预测结果和softmax分数，最终通过权重相加的方式融合输出最后的预测结果。

优选地，时空自适应特征融合图卷积网络模型包括依次连接的时空自适应特征融合模块、全局平均池化层、全连接层和softmax分类器，所述时空自适应特征融合模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块。

优选地，各层所述特征提取模块包括依次连接的空间注意力图卷积模块、BN+ReLU层和时间自适应特征融合模块，同时将骨架数据输入到一个1×1的卷积层并与空间注意力图卷积模块的输出相乘输入到BN+ReLU层，将骨架数据/>以残差连接与BN+ReLU层的输出相加并输入到时间自适应特征融合模块。

优选地，空间注意力图卷积模块包含两个并行分支，每个分支包含一个1×1的卷积层和一个时间池化模块，将两个分支的池化输出执行相减操作，再依次经过Tanh模块和一个1×1的卷积层构建特征图，将该特征图与预定义的邻接矩阵A进行相加得到A_cwt，满足如下公式：

A_cwt＝αQ(X_in)+A

其中，α是可学习的参数，A_cwt为特定通道的拓扑图。Q的定义如下公式：

Q(X_i)＝σ(TP(φ(X_in))-TP(ψ(X_in)))

其中，σ、φ和ψ是所述1×1的卷积层，TP是时间池化模块。

优选地，所述时间自适应特征融合模块包含四个分支、注意力特征融合模块M和注意力特征融合模块1-M，，每个分支包含一个1×1的卷积层以降低通道维度，前三个分支包含两个卷积核大小为ks×1的动态时间卷积、空洞率分别为1和dr的动态空洞卷积以及一个最大池化层。ks的计算公式如下：

其中，abs表示求绝对值，C_l为第l层特征提取模块的输出通道维度，gamma和b分别设置为2和1，通过t可以获取动态卷积核以及动态空洞率，方法如下：

ks＝t if t％2 else t+1

四个分支的输出通过Concat函数进行聚合，得到多尺度时间特征X₁，将初始的骨架数据以残差形式输入注意力特征融合模块M中，所述注意力特征融合模块M的输出与初始骨架特征X相乘得到初始注意力融合特征，所述多尺度时间特征X₁输入注意力特征融合模块1-M中，所述注意力特征融合模块1-M的输出与X₁相乘得到时间注意力融合特征，将初始注意力融合特征和时间注意力融合特征进行相加输出特征X′，公式表示为：

其中M(·)表示为：

其中，g(·)和l(·)分别代表全局上下文和局部上下文。

优选地，数据预处理为在训练过程中，将整个骨架序列平均分割为20个片段，并从每个片段中随机选择一帧作为20帧的新序列。

优选地，数据增强为在训练过程中，随机旋转三维骨架序列以增强对视图变化的鲁棒性。

本发明具有以下的特点和有益效果：

该方法采用时空自适应特征融合图卷积网络模型，首先对聚合的时空拓扑进行多尺度自适应特征提取，获得更大的感受野，然后利用注意机制进行特征融合。时间建模模块可以自适应地实现拓扑特征融合，帮助完成动作的建模。在现有的多流处理方法的基础上，提出了一种基于身体部位的流处理方法，称为肢体流，它可以实现更丰富和精细的表示。在不增加计算量的情况下，结合数量更多、特征更明显的关节数据以实现人体行为预测，有效提高人体行为的最终预测精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于时空自适应特征融合图卷积网络的骨架动作识别方法流程图；

图2为本发明时空自适应特征融合图卷积网络框架图；

图3为本发明时空自适应特征融合图卷积网络模型的结构示意图；

图3(a)为本发明时空自适应特征融合图卷积网络单一流态输入的结构示意图；

图3(b)为本发明特征提取模块的结构示意图；

图3(c)为本发明空间注意力图卷积模块的结构示意图；

图3(d)为本发明时间自适应特征融合模块的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明提供了一种基于时空自适应特征融合图卷积网络的骨架动作识别方法，如图1-图3所示，包括如下步骤：

S1、对大规模原始骨架动作序列的人体动作识别数据集进行数据预处理和数据增强。

在一实施例中，该数据集为可获取的公开骨架数据集，由深度传感相机制作，包括56800个骨架动作序列，该数据集共有60种动作类别，每个人体骨架关节数量为25个；数据预处理为在训练过程中，将整个骨架动作序列平均分割为20个片段，并从每个片段中随机选择一帧作为20帧的新序列。数据增强为在训练过程中，随机旋转三维骨架动作序列以增强对视图变化的鲁棒性。

需要说明的是，对增强后的骨架数据进行处理方法为：基于关节数据生成，为两个关节点的向量差。该处理方法为常规技术手段，因此不展开具体说明。

具体的，所述二阶骨骼信息包括骨骼流态X_bone、关节运动流态X_joint-motion以及骨骼运动流态X_bone-motion数据，公式如下：

X_bone＝x[：，：，i]-x[：，：，i_nei]||i＝1，2，...，N

X_joint-motion＝x[：，t+1，：]-x[：，t，：]||t＝1，2，...，T，x∈X_bone

对于骨架的动作识别任务，一阶骨骼信息(关节的坐标)和二阶骨骼信息(骨骼的方向和长度)以及它们的运动信息都对动作识别有帮助，通过结合数量更多、特征更明显的数据有助于提高动作识别准确度。

S3、原始数据集包含25个人体关节，将关节运动流和骨骼运动流整合形成肢体流，肢体流只包含四肢上的总共22个关节。

S4、分别将关节流态X_joint、骨骼流态和肢体流数据输入到时空自适应特征融合图卷积网络中进行训练，获取对应的初始预测结果和softmax分数，最终融合输出最后的预测结果，如图2所示。

本实施例中，时空自适应特征融合图卷积网络模型包括依次连接的时空自适应特征融合模块、全局平均池化层、全连接层和softmax分类器，所述时空自适应特征融合模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块。对于关节和骨骼流态，使用十层特征提取模块，对于肢体流态，使用其中的八层特征提取模块。

如图3(a)所示，以单一流态输入作为实例，不同的流态数据经过不同层数的特征提取模块，最后进行全局平均池化、全连接获取输出分数。

如图3(b)所示，各层所述特征提取模块包括依次连接的空间注意力图卷积模块、BN+ReLU层和时间自适应特征融合模块，同时将骨架数据输入到一个1×1的卷积层并与空间注意力图卷积模块的输出相乘输入到BN+ReLU层，将骨架数据/>以残差连接与BN+ReLU层的输出相加并输入到时间自适应特征融合模块。

如图3(c)所示，空间注意力图卷积模块，其输入为将骨架数据该模块包含两个并行分支，每个分支包含一个1×1的卷积层和一个时间池化模块，将两个分支的池化输出执行相减操作，再依次经过Tanh模块和一个1×1的卷积层构建特征图，将该特征图与预定义的邻接矩阵A进行相加得到A_cwt，满足如下公式：

A_cwt＝αQ(X_in)+A

Q(X_i)＝σ(TP(φ(X_in))-TP(ψ(X_in)))

其中，σ、φ和ψ是所述1×1的卷积层，TP是时间池化模块。

如图3(d)所示，时间自适应特征融合模块包含四个分支，每个分支包含一个1×1的卷积层以降低通道维度，前三个分支包含两个卷积核大小为ks×1的动态时间卷积、空洞率分别为1和dr的动态空洞卷积以及一个最大池化层。ks的计算公式如下：

ks＝t if t％2 else t+1

四个分支的输出通过Concat函数进行聚合，得到多尺度时间特征X₁，将初始骨架特征X以残差形式输入注意力特征融合模块M中，所述注意力特征融合模块M的输出与初始骨架特征X相乘得到初始注意力融合特征，所述多尺度时间特征X₁输入注意力特征融合模块1-M中，所述注意力特征融合模块1-M的输出与X₁相乘得到时间注意力融合特征，将初始注意力融合特征和时间注意力融合特征进行相加输出特征X′，公式表示为：

其中M(·)表示为：

其中，g(·)和l(·)分别代表全局上下文和局部上下文。对输入特征X和X₁进行初始特征融合。经过sigmoid激活函数后，输出值在0到1之间，通过训练，网络可以确定它们各自的权值。

S5、在本实施例中所有的实验都是在PyTorch深度学习框架下进行的，使用两块NVIDIA A800 GPU进行训练。训练参数如下：初始学习率设置为0.1，权重衰减设置为0.0004，采用Nesterov动量为0.9的随机梯度下降(SGD)来调整参数，最大训练轮数设置为80次，在第35和第55次训练阶段将学习率除以10。对模型进行训练为本领域技术人员熟知技术，在此不再赘述。

下面为添加的具体实验以及说明：

本实施例与先进模型在NTU-RGB+D 60和NTU-RGB+D 120数据集上进行比较，如表1、2所示，我们的模型在几乎所有基准测试中都获得了最先进的结果。

表1：在NTU-RGB+D数据集的top-1精度(％)与最先进方法的比较

表2：在NTU-RGB+D120数据集的top-1精度(％)与最先进方法的比较

S6、此实施例演示多模态自适应特征融合网络的有效性，所有的消融实验均在NTURGB+D 60和NTU RGB+D 120 Cross Subject基准上进行。

表3演示图3(d)时间自适应特征融合模块的有效性

表3中，骨干网络为CTR-GCN模型，本发明在其上进行改进，在NTU60和NTU120的Cross Subject基准上精度分别提升了0.7％和0.8％。表明时间自适应融合模块可以指导模型更好地进行动作分类的学习。

表4本发明与传统的独立流在不同数据流上的性能比较。

表4中，与先进的方法进行比较，CTR-GCN使用关节流、骨骼流、关节运动流、骨骼运动流，实验复现结果分别为，89.8％、90.2％、87.4％、86.9％，本发明使用关节流、骨骼流以及肢体流的数据，与CTR-GCN相比，关节流和骨骼流分别提升了0.4％和0.5％，肢体流为关节运动流和骨骼运动流的融合，比单一的关节运动流和骨骼运动流效果要好。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，包括如下步骤：

S1、获取人体的骨架动作序列的原始数据集并进行数据预处理和数据增强；

S2、对预处理和数据增强后得到的骨架数据进行处理，得到骨架数据的二阶骨骼信息，其中，X表示关节流态X_joint，为一阶骨骼信息，C、T、N分别是关节的特征维度、序列帧数和关节数，所述二阶骨骼信息包括骨骼流态、关节运动流态和骨骼运动流态；

S3、将关节运动流态和骨骼运动流态在通道维度上通过聚合的方式整合形成肢体流；

S4、构建时空白适应特征融合图卷积网络，所述时空自适应特征融合图卷积网络模型包括依次连接的时空自适应特征融合模块、全局平均池化层、全连接层和softmax分类器；

S5、分别将关节流态X_joint、骨骼流态和肢体流数据输入到时空自适应特征融合图卷积网络中进行训练，获取对应的初始预测结果和softmax分数，最终通过权重相加的方式融合输出最后的预测结果。

2.根据权利要求1所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，所述步骤S1中原始数据集的预处理方法为：将整个骨架动作序列平均分割为20个片段，并从每个片段中随机选择一帧作为20帧的新序列。

3.根据权利要求2所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，所述步骤S1中，将预处理后骨架动作序列的通过随机旋转骨架动作序列进行数据增强。

4.根据权利要求1所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，所述时空自适应特征融合模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块。

5.根据权利要求4所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，各层所述特征提取模块包括1×1的卷积层、空间注意力图卷积模块、BN+ReLU层和时间自适应特征融合模块，同时将骨架数据输入到一个1×1的卷积层与空间注意力图卷积模块，并将两则的输出相乘输入到BN+ReLU层，将骨架数据/>以残差连接与BN+ReLU层的输出相加并输入到时间自适应特征融合模块。

6.根据权利要求5所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，所述空间注意力图卷积模块包含两个并行分支，每个分支包含1×1的卷积层、时间池化模块和Tanh模块，将两个分支的时间池化模块输出执行相减操作，再依次经过Tanh模块和一个1×1的卷积层构建特征图，将特征图与预定义的邻接矩阵A进行相加得到A_cwt，满足如下公式：

A_cwt＝αQ(X_in)+A

其中，α是可学习的参数，A_cwt为特定通道的拓扑图，Q的定义如下公式：

Q(X_i)＝σ(TP(φ(X_in))-TP(ψ(X_in)))

其中，σ、φ和ψ是所述1×1的卷积层，TP是时间池化模块。

7.根据权利要求5所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，所述时间自适应特征融合模块包含四个分支、注意力特征融合模块M和注意力特征融合模块1-M，每个所述分支包含一个1×1的卷积层以降低通道维度，前三个分支包含两个卷积核大小为ks×1的动态时间卷积、空洞率分别为1和dr的动态空洞卷积以及一个最大池化层，

其中M(·)表示为：

其中，g(·)和l(·)分别代表全局上下文和局部上下文。

8.根据权利要求7所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，所述ks的计算公式如下：

ks＝t if t％2else t+1。

9.根据权利要求7所述的基于时空自适应特征融合图卷积网络的骨架动作识别方法，其特征在于，所述原始数据集中包含25个人体关节，所述肢体流包含四肢上的总共22个关节。