CN111814719A - 一种基于3d时空图卷积的骨架行为识别方法 - Google Patents
一种基于3d时空图卷积的骨架行为识别方法 Download PDFInfo
- Publication number
- CN111814719A CN111814719A CN202010692916.3A CN202010692916A CN111814719A CN 111814719 A CN111814719 A CN 111814719A CN 202010692916 A CN202010692916 A CN 202010692916A CN 111814719 A CN111814719 A CN 111814719A
- Authority
- CN
- China
- Prior art keywords
- convolution
- time
- graph
- skeleton
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000010586 diagram Methods 0.000 title claims description 40
- 238000004891 communication Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 115
- 239000010410 layer Substances 0.000 claims description 86
- 230000009471 action Effects 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 30
- 230000003044 adaptive effect Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000003068 static effect Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 36
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Social Psychology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于3D时空图卷积的骨架行为识别方法,其不仅能够实现对骨架信息同时进行空间建模、时间建模,还能表示时空信息之间的连通性;同时,其能够在大型骨架数据集上取得优异的识别准确率,并具备有良好的泛化性能。本发明的技术方案中,通过结合2D图卷积的拉普拉斯算子与多帧的时间拉普拉斯算子,构建了3D时空图卷积神经网络模型,3D时空图卷积神经网络模型中的当前节点的更新依赖于所述当前2D图中与之存在连接的关节节点的状态,同时还与前后相邻的所述相邻2D图中对应节点的节点状态相关;通过联合所述当前2D图中的相关状态信息与前后相邻的所述相邻2D图中相同节点的状态信息,实现空间信息与时间信息的连通,构建出3D图卷积。
Description
技术领域
本发明涉及机器视觉识别技术领域,具体为一种基于3D时空图卷积的骨架行为识别方法。
背景技术
机器视觉领域中的骨架行为识别方法为利用深度相机、红外相机等传感器收集目标对象的动作数据, 并对其进行数据分析,借助计算机实现对目标对象动作的自动理解和行为分析。骨骼行为识别技术沟通了 底层视频数据与高层动作语意信息,因此骨架行为识别研究能广泛的应用于视频监控、人机交互、视频理 解等领域。现有的骨架行为识别技术研究中,大多基于循环神经网络、时间卷积网络展开;随着图卷积神 经网络的兴起也有基于图卷积神经网络的研究,将图卷积与骨架行为识别相结合,提出了基于图卷积的骨 架行为识别技术。然而,现有技术中的研究方向大多是针对空间特征或者针对时间特征进行建模,而忽略 了时间信息与空间信息之间存在连通性;所以现有的骨架行为识别技术大多存在缺乏针对骨架信息同时进 行时间和空间建模的能力,而忽略时空连通性,会导致识别准确率不理想,识别方法的泛化性能不够强。
发明内容
为了解决现有技术缺乏针对骨架信息同时进行时空建模的能力,导致识别准确率不理想的问题,本发 明提供一种基于3D时空图卷积的骨架行为识别方法,其不仅能够实现对骨架信息同时进行空间建模、时 间建模,还能表示时空信息之间的连通性;同时,其能够在大型骨架数据集上取得优异的识别准确率,并 具备有良好的泛化性能。
本发明的技术方案是这样的:一种基于3D时空图卷积的骨架行为识别方法,其包括以下步骤:
S1:获取原始视频样本,对所述原始视频样本进行预处理,并获取所述原始视频样本中骨架信息数据;
其特征在于,其还包括以下步骤:
S2:将所述原始视频样本的每一帧的所述骨架信息数据建模成一张2D图G(x,A):
其中:x∈RN×C,A是骨架关节点连接关系矩阵;
S3:基于获取的所述骨架信息数据,进行数据处理,提取验证用输入特征向量、训练用特征向量;
S4:基于3D时空图卷积方法,构建3D图卷积神经网络模型,作为骨架行为识别模型;
设,所述3D时空图卷积方法中,当前节点对应的所述2D图记做当前2D图,与所述当前节点的前后 相邻的所述2D图都记做相邻2D图;
则:所述3D时空图卷积方法中,所述当前节点的更新依赖于所述当前2D图中与之存在连接的关节 节点的状态,同时还与前后相邻的所述相邻2D图中对应节点的节点状态相关;通过联合所述当前2D图 中的相关状态信息与前后相邻的所述相邻2D图中相同节点的状态信息,实现空间信息与时间信息的连通, 从而完整表示动作的时空动作信息;
所述骨架行为识别模型包括子网络结构块,串联子网络结构块构建完整网络模型;每一个所述子网络 结构块包括:3D图卷积层、选择性卷积层;所述3D图卷积层用于提取具有时空连通性特征;所述选择性 卷积层用于进行特征层数调整;
S5:设置并调整所述骨架行为识别模型的超参数,基于所述训练用特征向量,通过训练确定最优超参 数与网络结构,获得训练好的所述骨架行为识别模型;
S6:获取待识别视频数据,提取所述待识别视频数据组中的骨架信息数据,记做待识别骨架信息数据; 将所述待识别骨架信息数据对应的特征向量输入到训练好的所述骨架行为识别模型中,得到最终识别结 果。
其进一步特征在于:
所述骨架行为识别模型还包括2个全连接层,所述全连接层的神经元的数目依次为64、60;
第一个全连接层后面引入一个dropout层进行优化操作;
所述骨架行为识别模型中,所述3D图卷积层、所述选择性卷积层、第一个所述全连接层采用的激活 函数为Rectified Linear Units函数;最后的所述全连接层使用softmax函数作为激活函数;
步骤S1中,获取所述原始视频样本中所述骨架信息数据的步骤包括:
S1-1:对采集到的所述原始视频样本进行分帧处理,将连续视频片段分解为一个包括静态帧的图片序 列;
S1-2:基于Openpose姿态估计算法进行计算;
设置Openpose算法的计算参数,将分解视频得到的所述静态帧的图片输入Openpose,提出所述静态 帧中的对应关节数的人体骨架数据;
所述计算参数包括:人体关节数、人体个数;
S1-3:依据人体关节与Openpose算法中对于相应关节的编号,构建人体骨架数据的连接关系表示人体 的形态特征,即获得所述骨架信息数据;
步骤S3中,基于获取的所述骨架信息数据,进行所述数据处理,所述数据处理包括:
S3-1:视角修正;
针对因视角问题引起的动作重叠和动作的变形,通过视角的变换算法,将相机视角转换到动作正面, 完成视角的变换;同时针对人体比例的不同进行相应的放大和缩小,统一所有样本中动作主体大小;
S3-2:序列扰动;
将每一个所述原始视频样本划分为动作片段,通过随机抽取片段来表示所述原始视频样本;
所述3D时空图卷积方法中,连接原先受限于固定连接关系,故基于固定的连接结构,通过参数化表 示连接关系的邻接矩阵,生成自适应邻接矩阵,创建3D图中的全新连接关系;
所述3D时空图卷积方法中的3D图卷积对应的邻接矩阵包括:2D图的邻接矩阵、时序邻接矩阵;与 之对应的,所述3D图卷积层中的卷积操作包括:空间图卷积、时域图卷积;
所述空间图卷积中,利用1×1卷积对输入特征向量进行特征编码;将编码后的所述输入特征向量与邻 接矩阵进行矩阵相乘,连接所述2D图中相关节点表示骨架数据中的连接关系,具体如下公式所示:
其中:
Xspa、Xin分别为空间图卷积的输出特征向量、编码后的输入特征向量;A表示2D图的邻接矩阵; D表示A的度矩阵;
所述时域图卷积中使用1×1卷积对所述输入特征向量进行特征编码实现特征的参数化,并构建表示各 个帧间的连接关系,对当前帧与前后帧之间都存在连接关系的时序邻接矩阵进行3D时间图卷积;
通过所述时序邻接矩阵表示指定时间范围内的帧存在时间关系;
设:三维采样空间中有L张连续骨架帧,从第1帧到第L帧记作G0,G1,......GL-1,则3D图卷积层的 输出结果表示为:
其中,A表示连接关系的时序邻接矩阵,D表示A的度矩阵,表示三维采样空间中第t帧的第k 个邻居节点的第c通道特征值,表示三维图卷积的权重矩阵的权重值,b表示偏置值;σ(·)函数包含 批量标准化、激活函数;
所述选择性卷积层设置单层1×1卷积操作进行特征维度的规整,使所述3D图卷积层的输出特征与输 入特征保持特征维度相同;
比较当所述3D图卷积层的输出特征与输入特征的特征维度;
当所述3D图卷积层的输出特征与输入特征的特征维度相同,则进行相加操作;
否则,当所述3D图卷积层的输出特征与输入特征的特征维度存在差异,则通过单层1×1卷积操作来 调整所述3D图卷积层的输出特征的特征维度,使其与所述3D图卷积层的输出进行相加操作;
所述选择性卷积层的操作如下公式所示:
所述3D时空图卷积方法中,构建自适应邻接矩阵结构,用以改进所述3D图卷积层中的卷积操作;
基于非局部结构与图卷积理论参数化表示邻接矩阵,通过归一化操作构建所述自适应邻接矩阵结构; 所述自适应邻接矩阵结构具体操作如下公式所示:
其中:
j为除第i节点以外的其他任意时间节点;T表示时间动作图中时间节点数目;
所述自适应邻接矩阵结构工作的步骤如下所示:
a1:输入原始时间动作图的特征序列;
a2:将所述原始时间动作图执行双路并行的1×1卷积操作,实现特征编码和信道压缩,获得两份编 码后的特征序列;
a3:对双路卷积输出的所述编码后的特征序列分别进行矩阵变换和降维,分别获得未做换维的特征序 列、换维特征序列;将两个特征序列做矩阵乘法,构建嵌入式高斯函数求解关节间相关性矩阵;
将所述嵌入式高斯函数求解关节间相关性矩阵利用softmax函数求解进行归一化,按行求解计算出每 一个节点与其他节点之间的相关性大小,最终求解得出2D图的自适应邻接矩阵,即:生成所述自适应邻 接矩阵ε;
a4:基于融合矩阵的时间动作图生成方法,通过矩阵乘法,将基于N阶固定时间结构邻接矩阵A与自 适应邻接矩阵ε进行融合;
a5:基于图卷积的时间特征提取,将输出的时间动作图进行图卷积操作以提取时间特征:
a6:残差结构的构建;
将原始时间动作图Xin作Res的选择性卷积并与输出特征Xg求和构建残差结构:
X=Res(Xin,Xg)=R(Xin)+Xg
式中,R表示选择性卷积。
本发明提供了一种基于3D时空图卷积的骨架行为识别方法,通过结合2D图卷积的拉普拉斯算子与 多帧的时间拉普拉斯算子,构建了3D时空图卷积神经网络模型,3D时空图卷积神经网络模型中的当前节 点的更新依赖于所述当前2D图中与之存在连接的关节节点的状态,同时还与前后相邻的所述相邻2D图 中对应节点的节点状态相关;通过联合所述当前2D图中的相关状态信息与前后相邻的所述相邻2D图中 相同节点的状态信息,实现空间信息与时间信息的连通,构建出3D图卷积;本发明技术方案可以针对骨 架信息同时进行时间和空间建模,保留了时空信息之间的连通性,提高了识别准确率;同时本发明提出参 数化邻接矩阵的改进方案,通过参数化邻接矩阵,构建了自适应邻接矩阵结构;自适应邻接矩阵结构使原 始模型取得了更优异的识别准确率和更好的泛化性能。
附图说明
图1为本发明中的人体行为识别方法的流程示意图;
图2为本发明中3D时空图卷积的工作原理示意图;
图3为本发明中生成自适应邻接矩阵结构示意图。
具体实施方式
如图1~图3所示,本发明一种基于3D时空图卷积的骨架行为识别方法,其包括以下步骤:
S1:获取原始视频样本,对原始视频样本进行预处理,并获取原始视频样本中骨架信息数据;
获取原始视频样本中骨架信息数据的步骤包括:
S1-1:对采集到的原始视频样本进行分帧处理,将连续视频片段分解为一个包括静态帧的图片序列;
S1-2:基于Openpose姿态估计算法进行计算;
设置Openpose算法的计算参数,将分解视频得到的静态帧的图片输入Openpose,提出静态帧中的对 应关节数的人体骨架数据;
计算参数包括:人体关节数、人体个数;
S1-3:依据人体关节与Openpose算法中对于相应关节的编号,构建人体骨架数据的连接关系表示人体 的形态特征,即获得骨架信息数据。
S2:将原始视频样本的每一帧的骨架信息数据建模成一张2D图G(x,A):
其中:x∈RN×C,A是骨架关节点连接关系矩阵,大小为N×N;
最终将所有帧图像并合并骨架数据形成一段骨架数据序列,对应视频样本中的人体动作
骨架数据序列的数据结构为[C,T,V,M];
其中,C为特征通道数,T为帧数,V为关节个数,M为单帧图像中人体个数。
S3:基于获取的骨架信息数据,进行数据处理,提取验证用输入特征向量、训练用特征向量;
对骨架信息数据的数据处理操作包括:
S3-1:视角修正;
针对因视角问题引起的动作重叠和动作的变形,通过视角的变换算法,将相机视角转换到动作正面, 完成视角的变换;同时针对人体比例的不同进行相应的放大和缩小,统一所有样本中动作主体大小,将因 视角与动作主体大小对于行为识别准确率的影响降低;
S3-2:序列扰动;
将每一个原始视频样本划分为若干个动作片段,通过随机抽取片段来表示该样本,通过动作划分为若 干个单独片段,提高训练样本的数量与增加单类动作的多样性,实现模型泛化性能的提高。
S4:基于3D时空图卷积方法,构建3D图卷积神经网络模型,作为骨架行为识别模型;
设,3D时空图卷积方法中,当前节点对应的2D图记做当前2D图,与当前节点的前后相邻的2D图 都记做相邻2D图;
如图1所示:3D时空图卷积方法中,当前节点的更新依赖于当前2D图中与之存在连接的关节节点的 状态,同时还与前后相邻的相邻2D图中对应节点的节点状态相关;通过联合当前2D图中的相关状态信 息与前后相邻的相邻2D图中相同节点的状态信息,实现空间信息与时间信息的连通,从而完整表示动作 的时空动作信息;
3D时空图卷积方法中,连接原先受限于固定连接关系,故基于固定的连接结构,通过参数化表示连 接关系的邻接矩阵,生成自适应邻接矩阵,创建3D图中的全新连接关系;
3D时空图卷积方法中的3D图卷积对应的邻接矩阵包括:2D图的邻接矩阵、时序邻接矩阵;与之对 应的,3D图卷积层中的卷积操作包括:空间图卷积、时域图卷积;2D图的邻接矩阵在整个样本的2D图 中共享,时序邻接矩阵的大小视采样空间的大小进行制定;
骨架行为识别模型包括子网络结构块,串联子网络结构块构建完整网络模型;每一个子网络结构块包 括:3D图卷积层、选择性卷积层;3D图卷积层用于提取具有时空连通性特征;选择性卷积层用于进行特 征层数调整;
骨架行为识别模型还包括2个全连接层,全连接层的神经元的数目依次为64、60;
第一个全连接层后面引入一个dropout层进行优化操作;
骨架行为识别模型中,3D图卷积层、选择性卷积层、第一个全连接层采用的激活函数为Rectified Linear Units函数;最后的全连接层使用softmax函数作为激活函数;
本发明实施例中,子网络结构块共有10个。
空间图卷积中,利用1×1卷积对输入特征向量进行特征编码,将固定的特征向量赋予一个变量有利于 神经网络进行动态调整该特征,实现特征的参数化表示更加有利于网络的调整;将编码后的输入特征向量 与邻接矩阵进行矩阵相乘,连接2D图中相关节点表示骨架数据中的连接关系,具体如下公式所示:
其中:
Xspa、Xin分别为空间图卷积的输出特征向量、编码后的输入特征向量;A表示2D图的邻接矩阵; D表示A的度矩阵;
时域图卷积中使用1×1卷积对输入特征向量进行特征编码实现特征的参数化,有利于在训练过程中进 行动态调整;
设置对应的时序邻接矩阵,通过时序邻接矩阵表示各个帧间的连接关系,对当前帧与前后帧之间都存 在连接关系的时序邻接矩阵进行3D时间图卷积;
具体实现时,当前帧与前后帧之间都存在连接关系,在时序邻接矩阵中可以表示为第i行中第i个索引 前后一定范围之内都为1,表示该时间范围内的帧存在时间关系;即,可以实施为:将时序邻接矩阵与1×1 卷积输出进行矩阵乘法,实现前后多帧中相同位置节点共同参与当前节点的状态更新,实现时域上的建模。
如图1中所示,设:三维采样空间中有L张连续骨架帧,从第1帧到第L帧记作G0,G1,......GL-1, 则3D图卷积层的输出结果表示为:
其中,A表示连接关系的时序邻接矩阵,D表示A的度矩阵,表示三维采样空间中第t帧的第k 个邻居节点的第c通道特征值,表示三维图卷积的权重矩阵的权重值,b表示偏置值;σ(·)函数包含 批量标准化、激活函数。
选择性卷积层设置单层1×1卷积操作进行特征维度的规整,使3D图卷积层的输出特征与输入特征保 持特征维度相同,用以解决构建残差结构中出现的特征维度不匹配问题;
比较当3D图卷积层的输出特征与输入特征的特征维度;
当3D图卷积层的输出特征与输入特征的特征维度相同,则进行相加操作;
否则,当3D图卷积层的输出特征与输入特征的特征维度存在差异,则通过单层1×1卷积操作来调整 3D图卷积层的输出特征的特征维度,使其与3D图卷积层的输出进行相加操作;
选择性卷积层的操作如下公式所示:
残差结构通过跳层连接,增强梯度的流动,简化了学习过程,增强了梯度传播,保持了网络在反向传 播过程中梯度的大小,使得在较深层调整权重时任能保持一定的梯度,解决了梯队消失,减轻了神经网络 的退化,最终实现了损失函数在训练过程中的快速收敛和模型稳定性。
3D时空图卷积方法中,构建自适应邻接矩阵结构,用以改进3D图卷积层中的卷积操作;
基于非局部结构与图卷积理论参数化表示邻接矩阵,通过归一化操作构建自适应邻接矩阵结构;自适 应邻接矩阵结构具体操作如下公式所示:
其中:
j为除第i节点以外的其他任意时间节点;T表示时间动作图中时间节点数目。
2D图的自适应邻接矩阵基于非局部结构改进生成,如图3所示,自适应邻接矩阵结构工作的步骤如 下所示:
a1(图3中步骤1):特征输入:输入原始时间动作图的特征序列;将原始时间动作图Xin输入结构,其 尺寸为N×C×T×V,分别对应训练批次、通道数、帧数、关节数;
a2(图3中步骤2):特征编码与信道压缩:将原始时间动作图Xin执行双路并行的1×1卷积操作, 实现特征编码和信道压缩,获得两份编码后的特征序列;两份输出的编码后的特征序列互不相同,且经信 道压缩后特征维数降低为输入特征序列的1/4,两份特征序列尺寸均为[N,C/4,T,V];
a3(图3中步骤3):自适应邻接矩阵ε的求解:对双路卷积输出的编码后的特征序列分别进行矩阵变 换和降维,分别获得生成特征尺寸为[N,V,C/4*T]的未做换维的特征序列、特征尺寸为[N,C/4*T,V]的换 维特征序列;将两个特征序列做矩阵乘法,构建嵌入式高斯函数求解关节间相关性矩阵;
将嵌入式高斯函数求解关节间相关性矩阵利用softmax函数求解进行归一化,按行求解计算出每一个 节点与其他节点之间的相关性大小,每一行相关性相加为1,最终求解得出2D图的自适应邻接矩阵,即: 生成自适应邻接矩阵ε;
a4(图3中步骤4):基于融合矩阵的时间动作图生成方法,通过矩阵乘法,将基于N阶固定时间结 构邻接矩阵A与自适应邻接矩阵ε进行融合;融合时,邻接矩阵与原始输入特征作矩阵乘法;
a5(图3中步骤5):基于图卷积的时间特征提取,将输出的时间动作图进行图卷积操作以提取时间特 征:
a6(图3中步骤6):残差结构的构建;
将原始时间动作图Xin作Res的选择性卷积并与输出特征Xg求和构建残差结构:
X=Res(Xin,Xg)=R(Xin)+Xg
式中,R表示选择性卷积。
骨架行为识别模型中,空间图卷积的1×1卷积、第一个全连接层采用的激活函数为Rectified Linear Units (以下简称ReLU)函数;ReLU函数计算公式为:
空间图卷积的1×1卷积后面均跟着一个BN(Batch Normalization)层,BN层中使用的批量归一化函数的 公式,如下:
其中,m表示单一批量中样本的数目;ε微小变量,防止出现分母为零;γ表示BN层可学习变量;
β表示BN层可学习变量。
骨架行为识别模型中,最后的全连接层使用softmax函数作为激活函数,计算样本分类的概率分布, 其具体计算公式如下所示:
其中:
i表示k中的某一分类;gi表示对应分类的概率值。
S5:设置并调整骨架行为识别模型的超参数,基于训练用特征向量,通过训练确定最优超参数与网络 结构,获得训练好的骨架行为识别模型。
S6:获取待识别视频数据,提取待识别视频数据组中的骨架信息数据,记做待识别骨架信息数据;将 待识别骨架信息数据对应的特征向量输入到训练好的骨架行为识别模型中,得到最终识别结果。
计算骨架行为识别模型的识别准确率包括以下步骤:
a1:获取原始视频样本对应数据标签;
a2:将验证用输入特征向量输入到训练好的骨架行为识别模型中,得到验证集识别结果;
a3:将验证集识别结果与验证用输入特征向量对应的数据标签对比计算,得到识别准确率。
本发明技术方案中的3D图卷积神经网络模型的详细的网络结构如下面表1所示:
表1:3D图卷积神经网络模型的网络结构
基于本发明的网络网络结构,输入的数据,经过10个子网络结构块(表中的1st~10th的包括三维图卷 积、选择性卷积层的子网络结构块)的处理之后,进入Flatting层,在Flatting层中将子子网络结构块输出 的3维数据转换成1维数据,然后通过FC层将数据从120000降低维度到64维,最后通过Predict层映射到 60维后进行预测。
为了验证本发明技术方案中的人体行为识别方法的有效性和实用性,选取NTU-RGB+D与MSR Action 3D数据集作为实验数据集进行实验。
在Win10***、CPU选择i7-8700k、显卡GTX-1080Ti、计算能力为8.1的实验环境下,采用pytorch 作为深度学习框架进行试验;作为实验数据集的NTU-RGB+D与MSR Action 3D数据集,在每个动作类中 均匀划分出训练集、验证集和测试集。
为验证3D时空图卷积神经网络具有针对骨架信息同时进行时空建模的能力,同时通过自适应邻接矩 阵能够显著提高模型的识别准确率分别采用LSTM,TCN作为实验对比,通过设置训练批次(epoch)、学习 率(learning rate)、批量大小(batch size)等超参数在NTU-RGB+D与MSR Action 3D数据集上进行试验。对 比试验的具体结果如下面的表2、表3中的试验结果所示。
表2 NTU数据集上不同模型的识别准确率对比
模型 | 使用方法 | X-View(%) | X-Sub(%) |
Two-Stream 3DCNN | 三维卷积+双流 | 72.58 | 66.85 |
ST-GCN | 图卷积+TCN | 88.30 | 81.50 |
3D skeleton GCN | GCN | 89.60 | 82.60 |
本发明技术方案 | 3DGCN | 93.30 | 89.43 |
从表2中的数据可以看出:在以X-View与X-Sub两种方式划分的NTU数据集上,本发明技术方案均 取得最高的识别准确率,分别为93.30%与89.43%。充分显示了本发明技术方案的先进性;
表3 MSR Action 3D数据集上三种训练条件下的识别准确率对比
模型 | 使用方法 | AS1(%) | AS2(%) | AS3(%) | Aver(%) |
3DDCNN | 三维卷积+SVM | 92.03 | 88.59 | 95.54 | 92.05 |
SPMF-3DCNN | 三维卷积+SPMF | 96.73 | 97.35 | 98.77 | 97.62 |
TGLSTM | 图卷积+LSTM | 93.70 | 95.80 | 96.60 | 95.20 |
本发明技术方案 | 三维图卷积 | 96.78 | 98.56 | 99.02 | 98.12 |
从表3中的数据可以看出:本发明技术方案在AS1、AS2、AS3三种训练条件下均取得了高于三维卷 积与图卷积的识别准确率,进一步验证了模型时空信息提取的有效性。
Claims (10)
1.一种基于3D时空图卷积的骨架行为识别方法,其包括以下步骤:
S1:获取原始视频样本,对所述原始视频样本进行预处理,并获取所述原始视频样本中骨架信息数据;其特征在于,其还包括以下步骤:
S2:将所述原始视频样本的每一帧的所述骨架信息数据建模成一张2D图G(x,A):
其中:x∈RN×C,A是骨架关节点连接关系矩阵;
S3:基于获取的所述骨架信息数据,进行数据处理,提取验证用输入特征向量、训练用特征向量;
S4:基于3D时空图卷积方法,构建3D图卷积神经网络模型,作为骨架行为识别模型;
设,所述3D时空图卷积方法中,当前节点对应的所述2D图记做当前2D图,与所述当前节点的前后相邻的所述2D图都记做相邻2D图;
则:所述3D时空图卷积方法中,所述当前节点的更新依赖于所述当前2D图中与之存在连接的关节节点的状态,同时还与前后相邻的所述相邻2D图中对应节点的节点状态相关;通过联合所述当前2D图中的相关状态信息与前后相邻的所述相邻2D图中相同节点的状态信息,实现空间信息与时间信息的连通,从而完整表示动作的时空动作信息;
所述骨架行为识别模型包括子网络结构块,串联子网络结构块构建完整网络模型;每一个所述子网络结构块包括:3D图卷积层、选择性卷积层;所述3D图卷积层用于提取具有时空连通性特征;所述选择性卷积层用于进行特征层数调整;
S5:设置并调整所述骨架行为识别模型的超参数,基于所述训练用特征向量,通过训练确定最优超参数与网络结构,获得训练好的所述骨架行为识别模型;
S6:获取待识别视频数据,提取所述待识别视频数据组中的骨架信息数据,记做待识别骨架信息数据;将所述待识别骨架信息数据对应的特征向量输入到训练好的所述骨架行为识别模型中,得到最终识别结果。
2.根据权利要求1所述一种基于3D时空图卷积的骨架行为识别方法,其特征在于:所述骨架行为识别模型还包括2个全连接层,所述全连接层的神经元的数目依次为64、60;
第一个全连接层后面引入一个dropout层进行优化操作;
所述骨架行为识别模型中,所述3D图卷积层、所述选择性卷积层、第一个所述全连接层采用的激活函数为Rectified Linear Units函数;最后的所述全连接层使用softmax函数作为激活函数。
3.根据权利要求1所述一种基于3D时空图卷积的骨架行为识别方法,其特征在于:步骤S1中,获取所述原始视频样本中所述骨架信息数据的步骤包括:
S1-1:对采集到的所述原始视频样本进行分帧处理,将连续视频片段分解为一个包括静态帧的图片序列;
S1-2:基于Openpose姿态估计算法进行计算;
设置Openpose算法的计算参数,将分解视频得到的所述静态帧的图片输入Openpose,提出所述静态帧中的对应关节数的人体骨架数据;
所述计算参数包括:人体关节数、人体个数;
S1-3:依据人体关节与Openpose算法中对于相应关节的编号,构建人体骨架数据的连接关系表示人体的形态特征,即获得所述骨架信息数据。
4.根据权利要求1所述一种基于3D时空图卷积的骨架行为识别方法,其特征在于:步骤S3中,基于获取的所述骨架信息数据,进行所述数据处理,所述数据处理包括:
S3-1:视角修正;
针对因视角问题引起的动作重叠和动作的变形,通过视角的变换算法,将相机视角转换到动作正面,完成视角的变换;同时针对人体比例的不同进行相应的放大和缩小,统一所有样本中动作主体大小;
S3-2:序列扰动;
将每一个所述原始视频样本划分为动作片段,通过随机抽取片段来表示所述原始视频样本。
5.根据权利要求1所述一种基于3D时空图卷积的骨架行为识别方法,其特征在于:所述3D时空图卷积方法中,连接原先受限于固定连接关系,故基于固定的连接结构,通过参数化表示连接关系的邻接矩阵,生成自适应邻接矩阵,创建3D图中的全新连接关系;
所述3D时空图卷积方法中的3D图卷积对应的邻接矩阵包括:2D图的邻接矩阵、时序邻接矩阵;与之对应的,所述3D图卷积层中的卷积操作包括:空间图卷积、时域图卷积。
7.根据权利要求5所述一种基于3D时空图卷积的骨架行为识别方法,其特征在于:所述时域图卷积中使用1×1卷积对所述输入特征向量进行特征编码实现特征的参数化,并构建表示各个帧间的连接关系,对当前帧与前后帧之间都存在连接关系的时序邻接矩阵进行3D时间图卷积;
通过所述时序邻接矩阵表示指定时间范围内的帧存在时间关系;
设:三维采样空间中有L张连续骨架帧,从第1帧到第L帧记作G0,G1,......GL-1,则3D图卷积层的输出结果表示为:
10.根据权利要求9所述一种基于3D时空图卷积的骨架行为识别方法,其特征在于:所述自适应邻接矩阵结构工作的步骤如下所示:
a1:输入原始时间动作图的特征序列;
a2:将所述原始时间动作图执行双路并行的1×1卷积操作,实现特征编码和信道压缩,获得两份编码后的特征序列;
a3:对双路卷积输出的所述编码后的特征序列分别进行矩阵变换和降维,分别获得未做换维的特征序列、换维特征序列;将两个特征序列做矩阵乘法,构建嵌入式高斯函数求解关节间相关性矩阵;
将所述嵌入式高斯函数求解关节间相关性矩阵利用softmax函数求解进行归一化,按行求解计算出每一个节点与其他节点之间的相关性大小,最终求解得出2D图的自适应邻接矩阵,即:生成所述自适应邻接矩阵ε;
a4:基于融合矩阵的时间动作图生成方法,通过矩阵乘法,将基于N阶固定时间结构邻接矩阵A与自适应邻接矩阵ε进行融合;
a5:基于图卷积的时间特征提取,将输出的时间动作图进行图卷积操作以提取时间特征:
a6:残差结构的构建;
将原始时间动作图Xin作Res的选择性卷积并与输出特征Xg求和构建残差结构:
X=Res(Xin,Xg)=R(Xin)+Xg
式中,R表示选择性卷积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010692916.3A CN111814719B (zh) | 2020-07-17 | 2020-07-17 | 一种基于3d时空图卷积的骨架行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010692916.3A CN111814719B (zh) | 2020-07-17 | 2020-07-17 | 一种基于3d时空图卷积的骨架行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814719A true CN111814719A (zh) | 2020-10-23 |
CN111814719B CN111814719B (zh) | 2024-02-20 |
Family
ID=72866519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010692916.3A Active CN111814719B (zh) | 2020-07-17 | 2020-07-17 | 一种基于3d时空图卷积的骨架行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814719B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036379A (zh) * | 2020-11-03 | 2020-12-04 | 成都考拉悠然科技有限公司 | 基于注意力时间池化图卷积的骨架动作识别方法 |
CN112329689A (zh) * | 2020-11-16 | 2021-02-05 | 北京科技大学 | 车载环境下基于图卷积神经网络的异常驾驶行为识别方法 |
CN112434655A (zh) * | 2020-12-07 | 2021-03-02 | 安徽大学 | 一种基于自适应置信度图卷积网络的步态识别方法 |
CN112446923A (zh) * | 2020-11-23 | 2021-03-05 | 中国科学技术大学 | 人体三维姿态估计方法、装置、电子设备及存储介质 |
CN112464808A (zh) * | 2020-11-26 | 2021-03-09 | 成都睿码科技有限责任公司 | 一种基于计算机视觉的跳绳姿态及个数识别方法 |
CN112528811A (zh) * | 2020-12-02 | 2021-03-19 | 建信金融科技有限责任公司 | 行为识别方法和装置 |
CN112560712A (zh) * | 2020-12-18 | 2021-03-26 | 西安电子科技大学 | 基于时间增强图卷积网络的行为识别方法、装置及介质 |
CN112733704A (zh) * | 2021-01-07 | 2021-04-30 | 浙江大学 | 图像处理方法、电子设备和计算机可读存储介质 |
CN112801060A (zh) * | 2021-04-07 | 2021-05-14 | 浙大城市学院 | 运动动作识别方法及装置、模型、电子设备、存储介质 |
CN112906604A (zh) * | 2021-03-03 | 2021-06-04 | 安徽省科亿信息科技有限公司 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及*** |
CN113435576A (zh) * | 2021-06-24 | 2021-09-24 | 中国人民解放军陆军工程大学 | 一种双速时空图卷积神经网络架构及数据处理方法 |
CN113486706A (zh) * | 2021-05-21 | 2021-10-08 | 天津大学 | 一种基于人体姿态估计和历史信息的在线动作识别方法 |
CN113887486A (zh) * | 2021-10-20 | 2022-01-04 | 山东大学 | 基于时空注意力增强图卷积的异常步态识别方法及*** |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
US11645874B2 (en) | 2021-06-23 | 2023-05-09 | International Business Machines Corporation | Video action recognition and modification |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304795A (zh) * | 2018-01-29 | 2018-07-20 | 清华大学 | 基于深度强化学习的人体骨架行为识别方法及装置 |
US20180211155A1 (en) * | 2017-01-23 | 2018-07-26 | Fotonation Limited | Method for synthesizing a neural network |
CN109191445A (zh) * | 2018-08-29 | 2019-01-11 | 极创智能(北京)健康科技有限公司 | 基于人工智能的骨骼形变分析方法 |
CN109614874A (zh) * | 2018-11-16 | 2019-04-12 | 深圳市感动智能科技有限公司 | 一种基于注意力感知和树形骨架点结构的人体行为识别方法和*** |
-
2020
- 2020-07-17 CN CN202010692916.3A patent/CN111814719B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180211155A1 (en) * | 2017-01-23 | 2018-07-26 | Fotonation Limited | Method for synthesizing a neural network |
CN108304795A (zh) * | 2018-01-29 | 2018-07-20 | 清华大学 | 基于深度强化学习的人体骨架行为识别方法及装置 |
CN109191445A (zh) * | 2018-08-29 | 2019-01-11 | 极创智能(北京)健康科技有限公司 | 基于人工智能的骨骼形变分析方法 |
CN109614874A (zh) * | 2018-11-16 | 2019-04-12 | 深圳市感动智能科技有限公司 | 一种基于注意力感知和树形骨架点结构的人体行为识别方法和*** |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036379A (zh) * | 2020-11-03 | 2020-12-04 | 成都考拉悠然科技有限公司 | 基于注意力时间池化图卷积的骨架动作识别方法 |
CN112329689A (zh) * | 2020-11-16 | 2021-02-05 | 北京科技大学 | 车载环境下基于图卷积神经网络的异常驾驶行为识别方法 |
CN112446923A (zh) * | 2020-11-23 | 2021-03-05 | 中国科学技术大学 | 人体三维姿态估计方法、装置、电子设备及存储介质 |
CN112464808B (zh) * | 2020-11-26 | 2022-12-16 | 成都睿码科技有限责任公司 | 一种基于计算机视觉的跳绳姿态及个数识别方法 |
CN112464808A (zh) * | 2020-11-26 | 2021-03-09 | 成都睿码科技有限责任公司 | 一种基于计算机视觉的跳绳姿态及个数识别方法 |
CN112528811A (zh) * | 2020-12-02 | 2021-03-19 | 建信金融科技有限责任公司 | 行为识别方法和装置 |
CN112434655B (zh) * | 2020-12-07 | 2022-11-08 | 安徽大学 | 一种基于自适应置信度图卷积网络的步态识别方法 |
CN112434655A (zh) * | 2020-12-07 | 2021-03-02 | 安徽大学 | 一种基于自适应置信度图卷积网络的步态识别方法 |
CN112560712B (zh) * | 2020-12-18 | 2023-05-26 | 西安电子科技大学 | 基于时间增强图卷积网络的行为识别方法、装置及介质 |
CN112560712A (zh) * | 2020-12-18 | 2021-03-26 | 西安电子科技大学 | 基于时间增强图卷积网络的行为识别方法、装置及介质 |
CN112733704A (zh) * | 2021-01-07 | 2021-04-30 | 浙江大学 | 图像处理方法、电子设备和计算机可读存储介质 |
CN112906604A (zh) * | 2021-03-03 | 2021-06-04 | 安徽省科亿信息科技有限公司 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及*** |
CN112906604B (zh) * | 2021-03-03 | 2024-02-20 | 安徽省科亿信息科技有限公司 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及*** |
CN112801060A (zh) * | 2021-04-07 | 2021-05-14 | 浙大城市学院 | 运动动作识别方法及装置、模型、电子设备、存储介质 |
CN113486706A (zh) * | 2021-05-21 | 2021-10-08 | 天津大学 | 一种基于人体姿态估计和历史信息的在线动作识别方法 |
US11645874B2 (en) | 2021-06-23 | 2023-05-09 | International Business Machines Corporation | Video action recognition and modification |
CN113435576A (zh) * | 2021-06-24 | 2021-09-24 | 中国人民解放军陆军工程大学 | 一种双速时空图卷积神经网络架构及数据处理方法 |
CN113887486A (zh) * | 2021-10-20 | 2022-01-04 | 山东大学 | 基于时空注意力增强图卷积的异常步态识别方法及*** |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
CN114882421B (zh) * | 2022-06-01 | 2024-03-26 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111814719B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN111476181B (zh) | 一种人体骨架动作的识别方法 | |
US11967175B2 (en) | Facial expression recognition method and system combined with attention mechanism | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN108038420B (zh) | 一种基于深度视频的人体行为识别方法 | |
CN108280858B (zh) | 多视图重建中的一种线性全局相机运动参数估计方法 | |
CN112434655A (zh) | 一种基于自适应置信度图卷积网络的步态识别方法 | |
Li et al. | A novel spatial-temporal graph for skeleton-based driver action recognition | |
CN114821640A (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
CN113128424A (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN112446253B (zh) | 一种骨架行为识别方法及装置 | |
CN114708649A (zh) | 基于集成学习方法融合时间注意力图卷积的行为识别方法 | |
Wang et al. | Paul: Procrustean autoencoder for unsupervised lifting | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
CN114743273A (zh) | 基于多尺度残差图卷积网络的人体骨骼行为识别方法及*** | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别*** | |
Barthélemy et al. | Decomposition and dictionary learning for 3D trajectories | |
CN116797640A (zh) | 一种面向智能伴行巡视器的深度及3d关键点估计方法 | |
Liu et al. | Contextualized trajectory parsing with spatio-temporal graph | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 | |
CN116246338A (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN114613011A (zh) | 基于图注意力卷积神经网络的人体3d骨骼行为识别方法 | |
Mishra et al. | Multi-stage attention based visual question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |