CN112651360B - 一种小样本下骨架动作识别方法 - Google Patents

一种小样本下骨架动作识别方法 Download PDF

Info

Publication number
CN112651360B
CN112651360B CN202011616955.1A CN202011616955A CN112651360B CN 112651360 B CN112651360 B CN 112651360B CN 202011616955 A CN202011616955 A CN 202011616955A CN 112651360 B CN112651360 B CN 112651360B
Authority
CN
China
Prior art keywords
skeleton
network
sequence
time
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011616955.1A
Other languages
English (en)
Other versions
CN112651360A (zh
Inventor
柯逍
杜鹏强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011616955.1A priority Critical patent/CN112651360B/zh
Publication of CN112651360A publication Critical patent/CN112651360A/zh
Application granted granted Critical
Publication of CN112651360B publication Critical patent/CN112651360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种小样本下骨架动作识别方法,包括以下步骤;步骤S1:构建序列到序列生成网络对骨架运动序列进行生成、构建增强数据集;步骤S2:构建基于时空图卷积的序列质量评估网络,用于解决生成质量欠佳的骨架运动序列会对后续步骤产生负面影响的问题;步骤S3:构建基于多层次骨架分割算法的骨架动作识别网络;步骤S4:整合步骤S1、步骤S2、步骤S3构建的所有网络模型并使用;使用步骤S1的骨架序列生成网络生成骨架运动序列,使用步骤S2的骨架序列质量评估网络过滤步骤S1生成的质量较差的数据,优化数据集,使用步骤S3的骨架动作识别网络基于上述步骤构建的数据集进行骨架动作识别;本发明可用于小样本条件下的骨架动作识别。

Description

一种小样本下骨架动作识别方法
技术领域
本发明涉及涉及模式识别与计算机视觉的数据增强技术领域,尤其是一种小样本下骨架动作识别方法。
背景技术
现代社会中计算已经无所不在,其对人类的生活已经产生了巨大的影响。通过计算,机器可以分析人类的相关数据,从中给出建设性意见,方便了人们的生活。而计算机视觉是数据分析中发展最为迅速的几个领域之一,其在智能监控、智能家居、人机协作等多个与人类行为密切相关的领域有着重要作用,因此基于计算机视觉领域的人类行为理解就显得尤为重要。机器通过视觉传感器获取数据,检测并跟踪人物,对人物运动进行分析识别并结合数据的上下文信息理解动作的目的和语义,通过这一系列的研究,可以让机器对人的行为有进一步地认知,从而更好地发挥其优势。传统RGB数字视频在人体动作识别领域中有着种种缺陷,因此基于RGB图像运动序列的动作识别研究面对复杂背景,人体尺度以及视点的变化时存在计算量大、鲁棒性差的缺陷。由于传统的RGB图像只能描述二维平面上的信息,而能够表示三维信息的图结构数据能更加准确地对运动进行描述,从三维的角度更加全面地表示人体运动的状态,相比传统数字视频具有优势,因此基于3D骨架的人体动作识别具有很高的价值。但是许多特定场景下动作的相关数据缺乏,在这种小样本情况下,对人体骨架数据增强也十分重要。
发明内容
本发明提出一种小样本下骨架动作识别方法,可用于小样本条件下的骨架动作识别。
本发明采用以下技术方案。
一种小样本下骨架动作识别方法,可用于小样本条件下的骨架动作识别,所述方法包括以下步骤;
步骤S1:构建序列到序列生成网络对骨架运动序列进行生成,若在小样本条件下人体骨架模型的复杂性过高导致数据量不足以支持序列生成,则使用旁路网络模型增强生成网络在小样本条件下的鲁棒性,最终构建增强数据集;
步骤S2:构建基于时空图卷积的序列质量评估网络,用于解决生成质量欠佳的骨架运动序列会对后续步骤产生负面影响的问题;该评估网络对生成序列进行质量评估,通过过滤质量较差的生成序列来优化数据集;
步骤S3:构建基于多层次骨架分割算法的骨架动作识别网络,该网络模型通过三个层次对骨架运动序列进行分割,之后将分割的骨架运动序列送入图卷积神经网络中进行特征融合,使网络从不同的角度对骨架运动序列进行特征提取,从而提高网络对骨架运动序列数据的鲁棒性;
步骤S4:整合步骤S1、步骤S2、步骤S3构建的所有网络模型并使用;使用步骤S1的骨架序列生成网络生成骨架运动序列,使用步骤S2的骨架序列质量评估网络过滤步骤S1生成的质量较差的数据,优化数据集,使用步骤S3的骨架动作识别网络基于上述步骤构建的数据集进行骨架动作识别。
所述步骤S1具体包括以下步骤;
步骤S11:构建序列到序列架构的骨架运动序列生成网络,将两个循环神经网络进行串联,前一个起到编码器的功能,后一个则是用于解码,两个循环神经网络的内置单元均为1024个门控循环单元;编码器的表示如下
xte=E(xte-1,hte-1)  公式一;
其中E表示编码器,xte-1为te时刻的输入,xte为te时刻的输出,同时也会作为te+1时刻的输入,hte-1表示te时刻编码器的状态。
解码器的表示如下:
ytd=D(ytd-1,std-1)  公式二;
其中D表示解码器,ytd-1为td时刻的输入,ytd为td时刻的输出,同时也会作为td+1时刻的输入,std-1表示td时刻编码器的状态;
步骤S12:在原本解码器的结构上,在每一次输入和输出之间添加一个残差连接。表示方法如下:
ytd=D(ytd-1,std-1)+ytd-1  公式三;
其中D,ytd-1,ytd和std-1与步骤S11的含义一致,加入残差结构仅仅改变了输出的计算方式;
步骤S13:构建序列到序列架构的旁路网络;该旁路网络为序列生成网络,其编码器和解码器内置单元均为256个门控循环单元;其作用为网络训练时,骨架运动序列生成网络的输入分拆主干骨架为旁路网络的输入;生成序列时,将旁路网络输出主干骨架嵌入到骨架运动序列生成网络的输入中,这样可以指导和校正整个骨架模型的生成。其中主干骨架为人体骨架中的胯部中点、左胯部以及右胯部;
步骤S14:分别训练骨架运动序列生成网络和旁路网络,其中两个网络的训练初始学习率均为0.005,学习衰减率均为0.95,迭代次数为10000次;
步骤S15:将旁路网络和骨架运动序列生成网络进行结合,也就是将旁路网络的输出嵌入到骨架运动序列生成网络中,整个网络架构可以描述为:
Figure BDA0002877024730000031
其中,Mn为骨架运动序列生成网络,Bp为旁路网络,sxt为在t时刻主要网络对于主干骨架部分的输出,spt为在t时刻主要网络对于余下部分的输出,pt为经过残差结构之后余下部分的输出,bxt为在t时刻旁路网络对于主干骨架部分的输出,同时pt和bxt这两个部分整合之后作为整个模型的输出。
所述步骤S2具体包括以下步骤:
步骤S21:构建质量评估数据集负样本部分。使用步骤S1中训练早期的模型生成的质量低下的骨架动作序列作为数据集的负样本部分。质量低下的骨架动作序列为生成的动作僵硬、运动角度不符合客观物理规律等样本;
步骤S22:使用时间域动作序列插值构建质量评估数据集正样本部分。基于时间域的动作序列插值是在同一个序列下,对两个相邻帧之间的姿态进行运动轨迹建模,建模方式如下:
Figure BDA0002877024730000041
其中,tq1和tq2是同一骨架运动序列中相邻的两帧之间两个相同关节点的不同关节向量,tq是经过时间域动作序列插值的结果,tθ为关节向量tq1到关节向量tq2转过的角度;
步骤S23:使用空间域动作序列插值构建质量评估数据集正样本部分。基于空间域的插值是指对两个不同的运动姿态,对空间上属于同一关节点的坐标进行插值,这种计算方法的如下:
Figure BDA0002877024730000051
其中,sq1和sq2是用两个不同骨架运动序列中两个相同关节点的不同关节向量,sq是经过空间域动作序列插值的结果,sθ为关节向量sq1到关节向量sq2转过的角度,ω为时间域插值结果中sq2的权重;
步骤S24:整合步骤S21、步骤S22、步骤S23得到的骨架运动序列数据,得到质量评估数据集;
步骤S25:构建基于图卷积的骨架运动序列质量评估网络。该图卷积网络是一个六层的时空图卷积神经网络。其中第一、二层为64通道,卷积步进为1;第三层为128通道,卷积步进为2;第四层为128通道,卷积步进为1;第五层为256通道,卷积步进为2;第六层为全连接层。使用步骤S24构建的质量评估数据集对其进行训练,其中使用的初始学习率为0.001,参数衰减率均为0.95,训练的batch size为64,总共迭代80个epoch。
所述步骤S3具体包括以下步骤:
步骤S31:构建人体骨架运动时空图,这个图中包含N个关节点,这些关节点构成集合
Figure BDA0002877024730000052
这个时空图分两步构造;首先,根据人体在物理结构上的连通性将同一帧内的关节点
Figure BDA0002877024730000053
Figure BDA0002877024730000054
通过边
Figure BDA0002877024730000055
连接起来;然后在时间序列上将连续帧中,空间语义结构上相同的点
Figure BDA0002877024730000056
Figure BDA0002877024730000057
通过边
Figure BDA0002877024730000058
连接起来;这两处连接可以不需要额外的人工定义;
步骤S32:定义人体骨架时空图上的分割,如下:
Figure BDA0002877024730000059
其中上标t表示序列中的t时刻,
Figure BDA0002877024730000061
为根节点,
Figure BDA0002877024730000062
为节点
Figure BDA0002877024730000063
与根节点的连接表示,符号~表示在规则下左边的节点与右边的节点互相关联,该定义将根节点映射为与之相关的节点集合;
进一步的,对骨架时空图的所有分割集合定义如下:
Figure BDA0002877024730000064
其中V是人体骨架运动时空图中的关节点集合,
Figure BDA0002877024730000065
是其中的一个关节点;
Figure BDA0002877024730000066
为以这个关节点为根节点的一个分割。以下步骤均对
Figure BDA0002877024730000067
做分割为例;
步骤S33:基于物理连接对人体骨架时空图进行分割,方法如下:
Figure BDA0002877024730000068
其中
Figure BDA0002877024730000069
表示从节点
Figure BDA00028770247300000610
到节点
Figure BDA00028770247300000611
的最短路径长度。这个分割表示将物理以及时间上相邻的关节点作为一个集合看待;
步骤S34:基于空间构型对人体骨架时空图进行分割,方法如下:
Figure BDA00028770247300000612
其中d函数与步骤S33的定义一致;在基于空间构型的骨架分割下,与比节点
Figure BDA00028770247300000613
到全局根节点
Figure BDA00028770247300000614
最短路径还要短的节点构成与节点
Figure BDA00028770247300000615
的空间构型分割;
步骤S35:基于对称语义对人体骨架时空图进行分割。由于人体存在对称性,因此在人体上呈现对称的两个节点天然就具有语义相关性,因此在节点语义分割时对节点
Figure BDA00028770247300000616
来说,对其对称节点
Figure BDA00028770247300000617
应该有
Figure BDA00028770247300000618
步骤S36:构建基于多层次分割的时空图卷积,节点
Figure BDA00028770247300000619
对应的卷积计算方法如下:
Figure BDA0002877024730000071
其中,
Figure BDA0002877024730000072
为经过映射的
Figure BDA0002877024730000073
节点对应的特征,
Figure BDA0002877024730000074
为节点
Figure BDA0002877024730000075
和节点
Figure BDA0002877024730000076
对应的卷积权重,As为分割集合SegA(A)中的一个分割,
Figure BDA0002877024730000077
为分割As对应谱图卷积中的拉普拉斯矩阵趋近的第m行第n列元素,规范化项|As|等于As集中所有元素的数量,也就是As的基数,增加这个项是为了平衡不同子集对输出的贡献,防止出现某些集合过大而导致结果出现偏差,
Figure BDA0002877024730000078
为As分割对应的掩膜注意力矩阵第m行第n列元素;
步骤S37:构建基于多层次分割的时空图卷积骨架动作识别网络。该图卷积网络是一个十层的时空图卷积神经网络。其中第一、二、三、四层为64通道,卷积步进为1;第五层为128通道,卷积步进为2;第六、七层为128通道,卷积步进为1;第八层为256通道,卷积步进为2;第九层为256通道,卷积步进为1;第十层为1×1大小的全卷积层。
所述步骤S4具体包括以下步骤:
步骤S41:使用步骤S1中训练好的骨架动作序列生成网络对每一个动作类别生成测试集数量2倍的动作序列;
步骤S42:使用步骤S2中训练好的骨架序列质量评估网络对所有生成骨架序列进行质量评估,剔除评估值小于0.8的骨架序列;
步骤S43:整合原本数据集以及质量评估完成的生成数据集形成增强数据集;
步骤S44:使用增强数据集对步骤S3中的基于多层次分割的时空图卷积骨架动作识别网络进行训练,使用的初始学习率为0.001,参数衰减率均为0.95,训练的batch size为64,总共迭代80个epoch;训练完毕之后得到小样本下骨架动作识别模型。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出的旁路网络架构骨架动作序列生成网络能够对骨架动作序列进行数据扩充。
(2)本发明提出的骨架动作序列质量评估网络能有效地对质量欠佳的骨架序列进行过滤。
(3)本发明提出的多层次分割时空图卷积网络能从多层次分割中提取到更多的骨架运动序列特征。
(4)本发明提出的小样本下骨架动作识别框架能在样本缺乏的情况下显著提升对骨架动作识别的性能。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1是本发明实施例的流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图所示,一种小样本下骨架动作识别方法,可用于小样本条件下的骨架动作识别,所述方法包括以下步骤;
步骤S1:构建序列到序列生成网络对骨架运动序列进行生成,若在小样本条件下人体骨架模型的复杂性过高导致数据量不足以支持序列生成,则使用旁路网络模型增强生成网络在小样本条件下的鲁棒性,最终构建增强数据集;
步骤S2:构建基于时空图卷积的序列质量评估网络,用于解决生成质量欠佳的骨架运动序列会对后续步骤产生负面影响的问题;该评估网络对生成序列进行质量评估,通过过滤质量较差的生成序列来优化数据集;
步骤S3:构建基于多层次骨架分割算法的骨架动作识别网络,该网络模型通过三个层次对骨架运动序列进行分割,之后将分割的骨架运动序列送入图卷积神经网络中进行特征融合,使网络从不同的角度对骨架运动序列进行特征提取,从而提高网络对骨架运动序列数据的鲁棒性;
步骤S4:整合步骤S1、步骤S2、步骤S3构建的所有网络模型并使用;使用步骤S1的骨架序列生成网络生成骨架运动序列,使用步骤S2的骨架序列质量评估网络过滤步骤S1生成的质量较差的数据,优化数据集,使用步骤S3的骨架动作识别网络基于上述步骤构建的数据集进行骨架动作识别。
所述步骤S1具体包括以下步骤;
步骤S11:构建序列到序列架构的骨架运动序列生成网络,将两个循环神经网络进行串联,前一个起到编码器的功能,后一个则是用于解码,两个循环神经网络的内置单元均为1024个门控循环单元;编码器的表示如下
xte=E(xte-1,hte-1)  公式一;
其中E表示编码器,xte-1为te时刻的输入,xte为te时刻的输出,同时也会作为te+1时刻的输入,hte-1表示te时刻编码器的状态。
解码器的表示如下:
ytd=D(ytd-1,std-1)  公式二;
其中D表示解码器,ytd-1为td时刻的输入,ytd为td时刻的输出,同时也会作为td+1时刻的输入,std-1表示td时刻编码器的状态;
步骤S12:在原本解码器的结构上,在每一次输入和输出之间添加一个残差连接。表示方法如下:
ytd=D(ytd-1,std-1)+ytd-1  公式三;
其中D,ytd-1,ytd和std-1与步骤S11的含义一致,加入残差结构仅仅改变了输出的计算方式;
步骤S13:构建序列到序列架构的旁路网络;该旁路网络为序列生成网络,其编码器和解码器内置单元均为256个门控循环单元;其作用为网络训练时,骨架运动序列生成网络的输入分拆主干骨架为旁路网络的输入;生成序列时,将旁路网络输出主干骨架嵌入到骨架运动序列生成网络的输入中,这样可以指导和校正整个骨架模型的生成。其中主干骨架为人体骨架中的胯部中点、左胯部以及右胯部;
步骤S14:分别训练骨架运动序列生成网络和旁路网络,其中两个网络的训练初始学习率均为0.005,学习衰减率均为0.95,迭代次数为10000次;
步骤S15:将旁路网络和骨架运动序列生成网络进行结合,也就是将旁路网络的输出嵌入到骨架运动序列生成网络中,整个网络架构可以描述为:
Figure BDA0002877024730000101
其中,Mn为骨架运动序列生成网络,Bp为旁路网络,sxt为在t时刻主要网络对于主干骨架部分的输出,spt为在t时刻主要网络对于余下部分的输出,pt为经过残差结构之后余下部分的输出,bxt为在t时刻旁路网络对于主干骨架部分的输出,同时pt和bxt这两个部分整合之后作为整个模型的输出。
所述步骤S2具体包括以下步骤:
步骤S21:构建质量评估数据集负样本部分。使用步骤S1中训练早期的模型生成的质量低下的骨架动作序列作为数据集的负样本部分。质量低下的骨架动作序列为生成的动作僵硬、运动角度不符合客观物理规律等样本;
步骤S22:使用时间域动作序列插值构建质量评估数据集正样本部分。基于时间域的动作序列插值是在同一个序列下,对两个相邻帧之间的姿态进行运动轨迹建模,建模方式如下:
Figure BDA0002877024730000111
其中,tq1和tq2是同一骨架运动序列中相邻的两帧之间两个相同关节点的不同关节向量,tq是经过时间域动作序列插值的结果,tθ为关节向量tq1到关节向量tq2转过的角度;
步骤S23:使用空间域动作序列插值构建质量评估数据集正样本部分。基于空间域的插值是指对两个不同的运动姿态,对空间上属于同一关节点的坐标进行插值,这种计算方法的如下:
Figure BDA0002877024730000112
其中,sq1和sq2是用两个不同骨架运动序列中两个相同关节点的不同关节向量,sq是经过空间域动作序列插值的结果,sθ为关节向量sq1到关节向量sq2转过的角度,ω为时间域插值结果中sq2的权重;
步骤S24:整合步骤S21、步骤S22、步骤S23得到的骨架运动序列数据,得到质量评估数据集;
步骤S25:构建基于图卷积的骨架运动序列质量评估网络。该图卷积网络是一个六层的时空图卷积神经网络。其中第一、二层为64通道,卷积步进为1;第三层为128通道,卷积步进为2;第四层为128通道,卷积步进为1;第五层为256通道,卷积步进为2;第六层为全连接层。使用步骤S24构建的质量评估数据集对其进行训练,其中使用的初始学习率为0.001,参数衰减率均为0.95,训练的batch size为64,总共迭代80个epoch。
所述步骤S3具体包括以下步骤:
步骤S31:构建人体骨架运动时空图,这个图中包含N个关节点,这些关节点构成集合
Figure BDA0002877024730000121
这个时空图分两步构造;首先,根据人体在物理结构上的连通性将同一帧内的关节点
Figure BDA0002877024730000122
Figure BDA0002877024730000123
通过边
Figure BDA0002877024730000124
连接起来;然后在时间序列上将连续帧中,空间语义结构上相同的点
Figure BDA0002877024730000125
Figure BDA0002877024730000126
通过边
Figure BDA0002877024730000127
连接起来;这两处连接可以不需要额外的人工定义;
步骤S32:定义人体骨架时空图上的分割,如下:
Figure BDA0002877024730000128
其中上标t表示序列中的t时刻,
Figure BDA0002877024730000129
为根节点,
Figure BDA00028770247300001210
为节点
Figure BDA00028770247300001211
与根节点的连接表示,符号~表示在规则下左边的节点与右边的节点互相关联,该定义将根节点映射为与之相关的节点集合;
进一步的,对骨架时空图的所有分割集合定义如下:
Figure BDA0002877024730000131
其中V是人体骨架运动时空图中的关节点集合,
Figure BDA0002877024730000132
是其中的一个关节点;
Figure BDA0002877024730000133
为以这个关节点为根节点的一个分割。以下步骤均对
Figure BDA0002877024730000134
做分割为例;
步骤S33:基于物理连接对人体骨架时空图进行分割,方法如下:
Figure BDA0002877024730000135
其中
Figure BDA0002877024730000136
表示从节点
Figure BDA0002877024730000137
到节点
Figure BDA0002877024730000138
的最短路径长度。这个分割表示将物理以及时间上相邻的关节点作为一个集合看待;
步骤S34:基于空间构型对人体骨架时空图进行分割,方法如下:
Figure BDA0002877024730000139
其中d函数与步骤S33的定义一致;在基于空间构型的骨架分割下,与比节点
Figure BDA00028770247300001310
到全局根节点
Figure BDA00028770247300001311
最短路径还要短的节点构成与节点
Figure BDA00028770247300001312
的空间构型分割;
步骤S35:基于对称语义对人体骨架时空图进行分割。由于人体存在对称性,因此在人体上呈现对称的两个节点天然就具有语义相关性,因此在节点语义分割时对节点
Figure BDA00028770247300001313
来说,对其对称节点
Figure BDA00028770247300001314
应该有
Figure BDA00028770247300001315
步骤S36:构建基于多层次分割的时空图卷积,节点
Figure BDA00028770247300001316
对应的卷积计算方法如下:
Figure BDA00028770247300001317
其中,
Figure BDA0002877024730000141
为经过映射的
Figure BDA0002877024730000142
节点对应的特征,
Figure BDA0002877024730000143
为节点
Figure BDA0002877024730000144
和节点
Figure BDA0002877024730000145
对应的卷积权重,As为分割集合SegA(A)中的一个分割,
Figure BDA0002877024730000146
为分割As对应谱图卷积中的拉普拉斯矩阵趋近的第m行第n列元素,规范化项|As|等于As集中所有元素的数量,也就是As的基数,增加这个项是为了平衡不同子集对输出的贡献,防止出现某些集合过大而导致结果出现偏差,
Figure BDA0002877024730000147
为As分割对应的掩膜注意力矩阵第m行第n列元素;
步骤S37:构建基于多层次分割的时空图卷积骨架动作识别网络。该图卷积网络是一个十层的时空图卷积神经网络。其中第一、二、三、四层为64通道,卷积步进为1;第五层为128通道,卷积步进为2;第六、七层为128通道,卷积步进为1;第八层为256通道,卷积步进为2;第九层为256通道,卷积步进为1;第十层为1×1大小的全卷积层。
所述步骤S4具体包括以下步骤:
步骤S41:使用步骤S1中训练好的骨架动作序列生成网络对每一个动作类别生成测试集数量2倍的动作序列;
步骤S42:使用步骤S2中训练好的骨架序列质量评估网络对所有生成骨架序列进行质量评估,剔除评估值小于0.8的骨架序列;
步骤S43:整合原本数据集以及质量评估完成的生成数据集形成增强数据集;
步骤S44:使用增强数据集对步骤S3中的基于多层次分割的时空图卷积骨架动作识别网络进行训练,使用的初始学习率为0.001,参数衰减率均为0.95,训练的batch size为64,总共迭代80个epoch;训练完毕之后得到小样本下骨架动作识别模型。
较佳的,本实施例能够有效地提升小样本下的骨架动作识别性能。首先使用了基于旁路网络骨架动作生成网络,使用这个方法主要是针对小样本下骨架动作数据量不足的问题。使用本实施例的方法可以生成大量平时难以获得的骨架动作序列数据。之后,使用骨架动作序列质量评估网络对生成的骨架动作序列进行质量评估以过滤生成质量欠佳的数据。本实施例的方法针对小部分不稳定的情况下生成的骨架序列动作存在僵化、运动轨迹不符合客观物理规律的数据。使用本实施例的方法可以对其进行评估,从而识别出这些质量欠佳的生成数据。然后构建基于多层次分割的骨架动作识别网络。本实施例的方法通过对骨架动作进行多层次分割,可以引导网络从多个层次提取骨架序列的运动特征,从而进行有效识别。最后进行网络架构整合,将构建的网络按照生成、质量评估、动作识别的逻辑顺序依次进行,从而构建出一个在小样本条件下的骨架动作识别模型。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (2)

1.一种小样本下骨架动作识别方法,用于小样本条件下的骨架动作识别,其特征在于:所述方法包括以下步骤;
步骤S1:构建序列到序列生成网络对骨架运动序列进行生成,若在小样本条件下人体骨架模型的复杂性过高导致数据量不足以支持序列生成,则使用旁路网络模型增强生成网络在小样本条件下的鲁棒性,最终构建增强数据集;
步骤S2:构建基于时空图卷积的序列质量评估网络,用于解决生成质量欠佳的骨架运动序列会对后续步骤产生负面影响的问题;该评估网络对生成序列进行质量评估,通过过滤质量较差的生成序列来优化数据集;
步骤S3:构建基于多层次骨架分割算法的骨架动作识别网络,该网络模型通过三个层次对骨架运动序列进行分割,之后将分割的骨架运动序列送入图卷积神经网络中进行特征融合,使网络从不同的角度对骨架运动序列进行特征提取,从而提高网络对骨架运动序列数据的鲁棒性;
步骤S4:整合步骤S1、步骤S2、步骤S3构建的所有网络模型并使用;使用步骤S1的骨架序列生成网络生成骨架运动序列,使用步骤S2的骨架序列质量评估网络过滤步骤S1生成的质量较差的数据,优化数据集,使用步骤S3的骨架动作识别网络基于上述步骤构建的数据集进行骨架动作识别;
所述步骤S1具体包括以下步骤;
步骤S11:构建序列到序列架构的骨架运动序列生成网络,将两个循环神经网络进行串联,前一个起到编码器的功能,后一个则是用于解码,两个循环神经网络的内置单元均为1024个门控循环单元;编码器的表示如下
xte=E(xte-1,hte-1)     公式一;
其中E表示编码器,xte-1为te时刻的输入,xte为te时刻的输出,同时也会作为te+1时刻的输入,hte-1表示te时刻编码器的状态;
解码器的表示如下:
ytd=D(ytd-1,std-1)     公式二;
其中D表示解码器,ytd-1为td时刻的输入,ytd为td时刻的输出,同时也会作为td+1时刻的输入,std-1表示td时刻编码器的状态;
步骤S12:在原本解码器的结构上,在每一次输入和输出之间添加一个残差连接;表示方法如下:
ytd=D(ytd-1,std-1)+ytd-1     公式三;
其中D,ytd-1,ytd和std-1与步骤S11的含义一致,加入残差结构仅仅改变了输出的计算方式;
步骤S13:构建序列到序列架构的旁路网络;该旁路网络为序列生成网络,其编码器和解码器内置单元均为256个门控循环单元;其作用为网络训练时,骨架运动序列生成网络的输入分拆主干骨架为旁路网络的输入;生成序列时,将旁路网络输出主干骨架嵌入到骨架运动序列生成网络的输入中,指导和校正整个骨架模型的生成;其中主干骨架为人体骨架中的胯部中点、左胯部以及右胯部;
步骤S14:分别训练骨架运动序列生成网络和旁路网络,其中两个网络的训练初始学习率均为0.005,学习衰减率均为0.95,迭代次数为10000次;
步骤S15:将旁路网络和骨架运动序列生成网络进行结合,也就是将旁路网络的输出嵌入到骨架运动序列生成网络中,整个网络架构描述为:
Figure FDA0004029233350000021
其中,Mn为骨架运动序列生成网络,Bp为旁路网络,sxt为在t时刻主要网络对于主干骨架部分的输出,spt为在t时刻主要网络对于余下部分的输出,pt为经过残差结构之后余下部分的输出,bxt为在t时刻旁路网络对于主干骨架部分的输出,同时pt和bxt这两个部分整合之后作为整个模型的输出;
所述步骤S2具体包括以下步骤:
步骤S21:构建质量评估数据集负样本部分;使用步骤S1中训练早期的模型生成的质量低下的骨架动作序列作为数据集的负样本部分;质量低下的骨架动作序列为生成的动作僵硬、运动角度不符合客观物理规律样本;
步骤S22:使用时间域动作序列插值构建质量评估数据集正样本部分;基于时间域的动作序列插值是在同一个序列下,对两个相邻帧之间的姿态进行运动轨迹建模,建模方式如下:
Figure FDA0004029233350000031
其中,tq1和tq2是同一骨架运动序列中相邻的两帧之间两个相同关节点的不同关节向量,tq是经过时间域动作序列插值的结果,tθ为关节向量tq1到关节向量tq2转过的角度;
步骤S23:使用空间域动作序列插值构建质量评估数据集正样本部分;基于空间域的插值是指对两个不同的运动姿态,对空间上属于同一关节点的坐标进行插值,这种计算方法的如下:
Figure FDA0004029233350000041
其中,sq1和sq2是用两个不同骨架运动序列中两个相同关节点的不同关节向量,sq是经过空间域动作序列插值的结果,sθ为关节向量sq1到关节向量sq2转过的角度,ω为时间域插值结果中sq2的权重;
步骤S24:整合步骤S21、步骤S22、步骤S23得到的骨架运动序列数据,得到质量评估数据集;
步骤S25:构建基于图卷积的骨架运动序列质量评估网络;该图卷积网络是一个六层的时空图卷积神经网络;其中第一、二层为64通道,卷积步进为1;第三层为128通道,卷积步进为2;第四层为128通道,卷积步进为1;第五层为256通道,卷积步进为2;第六层为全连接层;使用步骤S24构建的质量评估数据集对其进行训练,其中使用的初始学习率为0.001,参数衰减率均为0.95,训练的batch size为64,总共迭代80个epoch;
所述步骤S3具体包括以下步骤:
步骤S31:构建人体骨架运动时空图,这个图中包含N个关节点,这些关节点构成集合
Figure FDA0004029233350000042
这个时空图分两步构造;首先,根据人体在物理结构上的连通性将同一帧内的关节点
Figure FDA0004029233350000043
Figure FDA0004029233350000044
通过边
Figure FDA0004029233350000045
连接起来;然后在时间序列上将连续帧中,空间语义结构上相同的点
Figure FDA0004029233350000051
Figure FDA0004029233350000052
通过边
Figure FDA0004029233350000053
连接起来;这两处连接不需要额外的人工定义;
步骤S32:定义人体骨架时空图上的分割,如下:
Figure FDA0004029233350000054
其中上标t表示序列中的t时刻,
Figure FDA0004029233350000055
为根节点,
Figure FDA0004029233350000056
为节点
Figure FDA0004029233350000057
与根节点的连接表示,符号~表示在规则下左边的节点与右边的节点互相关联,该定义将根节点映射为与之相关的节点集合;
进一步的,对骨架时空图的所有分割集合定义如下:
Figure FDA0004029233350000058
其中V是人体骨架运动时空图中的关节点集合,
Figure FDA0004029233350000059
是其中的一个关节点;
Figure FDA00040292333500000510
为以这个关节点为根节点的一个分割;以下步骤均对
Figure FDA00040292333500000511
做分割为例;
步骤S33:基于物理连接对人体骨架时空图进行分割,方法如下:
Figure FDA00040292333500000512
其中
Figure FDA00040292333500000513
表示从节点
Figure FDA00040292333500000514
到节点
Figure FDA00040292333500000515
的最短路径长度;这个分割表示将物理以及时间上相邻的关节点作为一个集合看待;
步骤S34:基于空间构型对人体骨架时空图进行分割,方法如下:
Figure FDA00040292333500000516
其中d函数与步骤S33的定义一致;在基于空间构型的骨架分割下,与比节点
Figure FDA00040292333500000517
到全局根节点
Figure FDA00040292333500000518
最短路径还要短的节点构成与节点
Figure FDA00040292333500000519
的空间构型分割;
步骤S35:基于对称语义对人体骨架时空图进行分割;由于人体存在对称性,因此在人体上呈现对称的两个节点天然就具有语义相关性,因此在节点语义分割时对节点
Figure FDA0004029233350000061
来说,对其对称节点
Figure FDA0004029233350000062
应该有
Figure FDA0004029233350000063
步骤S36:构建基于多层次分割的时空图卷积,节点
Figure FDA0004029233350000064
对应的卷积计算方法如下:
Figure FDA0004029233350000065
其中,
Figure FDA0004029233350000066
为经过映射的
Figure FDA0004029233350000067
节点对应的特征,
Figure FDA0004029233350000068
为节点
Figure FDA0004029233350000069
和节点
Figure FDA00040292333500000610
对应的卷积权重,As为分割集合SegA(A)中的一个分割,
Figure FDA00040292333500000611
为分割As对应谱图卷积中的拉普拉斯矩阵趋近的第m行第n列元素,规范化项|As|等于As集中所有元素的数量,也就是As的基数,增加这个项是为了平衡不同子集对输出的贡献,防止出现某些集合过大而导致结果出现偏差,
Figure FDA00040292333500000612
为As分割对应的掩膜注意力矩阵第m行第n列元素;
步骤S37:构建基于多层次分割的时空图卷积骨架动作识别网络;该图卷积网络是一个十层的时空图卷积神经网络;其中第一、二、三、四层为64通道,卷积步进为1;第五层为128通道,卷积步进为2;第六、七层为128通道,卷积步进为1;第八层为256通道,卷积步进为2;第九层为256通道,卷积步进为1;第十层为1×1大小的全卷积层。
2.根据权利要求1所述的一种小样本下骨架动作识别方法,其特征在于:所述步骤S4具体包括以下步骤:
步骤S41:使用步骤S1中训练好的骨架动作序列生成网络对每一个动作类别生成测试集数量2倍的动作序列;
步骤S42:使用步骤S2中训练好的骨架序列质量评估网络对所有生成骨架序列进行质量评估,剔除评估值小于0.8的骨架序列;
步骤S43:整合原本数据集以及质量评估完成的生成数据集形成增强数据集;
步骤S44:使用增强数据集对步骤S3中的基于多层次分割的时空图卷积骨架动作识别网络进行训练,使用的初始学习率为0.001,参数衰减率均为0.95,训练的batch size为64,总共迭代80个epoch;训练完毕之后得到小样本下骨架动作识别模型。
CN202011616955.1A 2020-12-31 2020-12-31 一种小样本下骨架动作识别方法 Active CN112651360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011616955.1A CN112651360B (zh) 2020-12-31 2020-12-31 一种小样本下骨架动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011616955.1A CN112651360B (zh) 2020-12-31 2020-12-31 一种小样本下骨架动作识别方法

Publications (2)

Publication Number Publication Date
CN112651360A CN112651360A (zh) 2021-04-13
CN112651360B true CN112651360B (zh) 2023-04-07

Family

ID=75364560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011616955.1A Active CN112651360B (zh) 2020-12-31 2020-12-31 一种小样本下骨架动作识别方法

Country Status (1)

Country Link
CN (1) CN112651360B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408455B (zh) * 2021-06-29 2022-11-29 山东大学 一种基于多流信息增强图卷积网络的动作识别方法、***及存储介质
CN114818989B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质
CN116453648B (zh) * 2023-06-09 2023-09-05 华侨大学 基于对比学习的康复运动质量评估***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881731A (zh) * 2020-05-19 2020-11-03 广东国链科技股份有限公司 基于人体骨架的行为识别方法、***、装置及介质
CN111985343A (zh) * 2020-07-23 2020-11-24 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8929612B2 (en) * 2011-06-06 2015-01-06 Microsoft Corporation System for recognizing an open or closed hand
CN106203363A (zh) * 2016-07-15 2016-12-07 中国科学院自动化研究所 人体骨架运动序列行为识别方法
CN110096950B (zh) * 2019-03-20 2023-04-07 西北大学 一种基于关键帧的多特征融合行为识别方法
CN111199216B (zh) * 2020-01-07 2022-10-28 上海交通大学 面向人体骨架的运动预测方法及***
CN111325099B (zh) * 2020-01-21 2022-08-26 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881731A (zh) * 2020-05-19 2020-11-03 广东国链科技股份有限公司 基于人体骨架的行为识别方法、***、装置及介质
CN111985343A (zh) * 2020-07-23 2020-11-24 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法

Also Published As

Publication number Publication date
CN112651360A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN112651360B (zh) 一种小样本下骨架动作识别方法
CN112395945A (zh) 基于骨骼关节点的图卷积行为识别方法及装置
CN111652124A (zh) 一种基于图卷积网络的人体行为识别模型的构建方法
CN113469356A (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN103003846B (zh) 关节区域显示装置、关节区域检测装置、关节区域归属度计算装置、关节状区域归属度计算装置以及关节区域显示方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和***
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN113111760B (zh) 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN113239897B (zh) 基于时空特征组合回归的人体动作评价方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN107423747A (zh) 一种基于深度卷积网络的显著性目标检测方法
CN110516724A (zh) 可视化作战场景的高性能多层字典学习特征图像处理方法
CN113689382A (zh) 基于医学影像和病理图像的肿瘤术后生存期预测方法及***
CN111753207A (zh) 一种基于评论的神经图协同过滤模型
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
CN113255569B (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
CN112052795B (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant