CN117523659A - 基于骨架的多特征多流实时动作识别方法、装置和介质 - Google Patents
基于骨架的多特征多流实时动作识别方法、装置和介质 Download PDFInfo
- Publication number
- CN117523659A CN117523659A CN202311472740.0A CN202311472740A CN117523659A CN 117523659 A CN117523659 A CN 117523659A CN 202311472740 A CN202311472740 A CN 202311472740A CN 117523659 A CN117523659 A CN 117523659A
- Authority
- CN
- China
- Prior art keywords
- feature
- joint
- skeleton
- pair
- stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000003068 static effect Effects 0.000 claims abstract description 42
- 230000004927 fusion Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 9
- 230000005484 gravity Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 210000004556 brain Anatomy 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000035622 drinking Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 2
- 210000002478 hand joint Anatomy 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001217 buttock Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于骨架的多特征多流实时动作识别方法、计算机装置和存储介质,包括获取骨架数据的第一特征对、第二特征对和第三特征对,将第一特征对、第二特征对和第三特征对输入至多特征多流网络进行处理,根据多特征多流网络输出的处理结果识别动作类别等步骤。本发明通过获取骨架数据的具有动作直观性的第一特征对、具有尺度不变性的第二特征对和具有信息全局性的第三特征对,每个特征对都包含静态特征和动态特征,能够获得较充分和全面地表示骨架数据的关键特征;使用多特征多流网络同时对多个特征对进行处理,从而根据这些特征对所包含的充分和全面的特征信息进行推理,输出高精度的动作类别结果。本发明广泛应用于动作识别技术领域。
Description
技术领域
本发明涉及动作识别技术领域,尤其是一种基于骨架的多特征多流实时动作识别方法、计算机装置和存储介质。
背景技术
动作识别是计算机视觉领域的一个热门话题。动作识别技术已被广泛地应用于人机/机器人交互异常行为监测和医疗辅助。动作识别技术的原理是识别出被检测者的身体上的关键部位的位置,从而描述被检测者所做出的动作。动作识别技术所要处理的数据可以是对被检测者拍摄得到的视频等图像形式,也可以是通过传感器对被检测者检测到的描述骨骼位置的骨架数据的形式。
由于骨架数据具有良好的鲁棒性,因此基于骨架数据的动作识别是动作识别技术的一个重要方向。目前大多数基于骨架数据的动作识别方法存在着输入特征的不完全性和通用性差、网络模型的特征提取不充分,以及识别精度和模型大小之间没有平衡等缺点。
发明内容
针对目前的基于骨架数据的动作识别技术存在输入特征的不完全性和通用性差、网络模型的特征提取不充分,以及识别精度和模型大小之间没有平衡等技术问题,本发明的目的在于提供一种基于骨架的多特征多流实时动作识别方法、计算机装置和存储介质。
一方面,本发明实施例包括一种基于骨架的多特征多流实时动作识别方法,包括:
获取骨架数据的第一特征对、第二特征对和第三特征对;所述第一特征对、所述第二特征对和所述第三特征对分别包括一个静态特征和一个动态特征,所述第一特征对具有动作直观性,所述第二特征对具有尺度不变性,所述第三特征对具有信息全局性;
获取多特征多流网络;
将所述第一特征对、所述第二特征对和所述第三特征对输入至所述多特征多流网络进行处理;
根据所述多特征多流网络输出的处理结果,识别动作类别。
进一步地,所述获取骨架数据的第一特征对、第二特征对和第三特征对,包括:
从所述骨架数据获取关节距离与关节距离速度,组成所述第一特征对;
从所述骨架数据获取关节角度与关节角度速度,组成所述第二特征对;
从所述骨架数据获取慢动作关节位置与快动作关节位置,组成所述第三特征对。
进一步地,所述从所述骨架数据获取关节距离与关节距离速度,组成所述第一特征对,包括:
根据所述骨架数据,获取各个关节的坐标;
根据公式
JDVk=JDk+2-JDk,k{1,3,5,…,N-2}
进行计算;其中,Ji表示所述骨架数据中第i个关节的坐标,JD表示所述关节距离,JDV表示所述关节距离速度,k表示序号,N表示所述骨架数据中的帧的总数量;
以所述关节距离JD作为静态特征,以所述关节距离速度JDV作为动态特征,组成所述第一特征对。
进一步地,所述从所述骨架数据获取关节角度与关节角度速度,包括:
根据所述骨架数据,获取各个关节的坐标,确定骨架中心点Gk;
根据公式
JAVk=JAk+2-JAk,k{1,3,5,…,N-2}
进行计算;其中,表示所述骨架数据的第k帧中的第i个关节的坐标,/>表示所述骨架数据的第k帧中的第j个关节的坐标,/>表示所述关节角度,JAVk表示所述关节角度速度;
以所述关节角度作为静态特征,以所述关节角度速度JAVk作为动态特征,组成所述第二特征对。
进一步地,所述确定骨架中心点Gk,包括:
当所述骨架数据表示身体骨架,以身体的重心点作为所述骨架中心点Gk;
当所述骨架数据表示手部骨架,以手掌关节点作为所述骨架中心点Gk。
进一步地,所述从所述骨架数据获取慢动作关节位置与快动作关节位置,组成所述第三特征对,包括:
根据所述骨架数据,获取各个关节的位置;
根据公式
SJPk=JPk+2-JPk,k{1,3,5,…,N-2}
FJPk=JPk+1-JPk,k{1,2,3,…,N-1}
进行计算;其中,JPk表示所述骨架数据的第k帧中的关节的位置,SJPk表示所述慢动作关节位置,FJPk表示快动作关节位置;
以所述慢动作关节位置SJPk作为静态特征,以所述快动作关节位置FJPk作为动态特征,组成所述第三特征对。
进一步地,所述获取多特征多流网络,包括:
建立一维卷积神经网络,作为所述多特征多流网络。
进一步地,所述将所述第一特征对、所述第二特征对和所述第三特征对输入至所述多特征多流网络进行处理,包括:
由所述多特征多流网络对所述第一特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第一融合特征;
由所述多特征多流网络对所述第二特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第二融合特征;
由所述多特征多流网络对所述第三特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第三融合特征;
由所述多特征多流网络计算所述第一融合特征、所述第二融合特征与所述第三融合特征的加权和;
由所述多特征多流网络输出所述加权和作为处理结果。
另一方面,本发明实施例还包括一种计算机装置,包括存储器和处理器,存储器用于存储至少一个程序,处理器用于加载至少一个程序以执行实施例中的一种基于骨架的多特征多流实时动作识别方法。
另一方面,本发明实施例还包括一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于执行实施例中的一种基于骨架的多特征多流实时动作识别方法。
本发明的有益效果是:实施例中的基于骨架的多特征多流实时动作识别方法,通过获取骨架数据的具有动作直观性的第一特征对、具有尺度不变性的第二特征对和具有信息全局性的第三特征对,每个特征对都包含各自的静态特征和动态特征,能够获得较充分和全面地表示骨架数据的关键特征;使用多特征多流网络同时对多个特征对进行处理,从而根据这些特征对所包含的充分和全面的特征信息进行推理,输出高精度的动作类别结果。
附图说明
图1为实施例中基于骨架的多特征多流实时动作识别方法的步骤图;
图2(a)为实施例中喝水动作关节点之间距离变化的示意图;
图2(b)为实施例中将相同动作旋转和反转后骨架的示意图;
图2(c)为实施例中关节点距离的特征矩阵可视化效果的示意图;
图3(a)为实施例中不同体型做相同动作骨架的示意图;
图3(b)为实施例中动作捡和弯腰骨架的示意图;
图3(c)为实施例中人体骨架中心点和手部中心点的示意图;
图3(d)为实施例中关节角度的特征矩阵可视化效果的示意图;
图4(a)为实施例中挥手动作手部关节点骨架的示意图;
图4(b)为实施例中跳跃和走路骨架序列的示意图;
图5为实施例中多特征多流网络对各个特征对进行处理的原理示意图;
图6为实施例中使用训练好的多特征多流网络执行基于骨架的多特征多流实时动作识别方法的流程示意图。
具体实施方式
基于骨架数据的动作识别面临三个主要挑战。首先,从大量的骨架数据中找到理想的特征是不容易的,这是因为理想的特征对于动作识别至关重要,并且可以适用于广泛的基于骨架的动作识别场景,也就是对特征的要求较高。第二,需要建立一个高效的特征学习网络,充分学习动作识别的特征信息。第三,提出的的方法应该是实时的和高度准确的,并且可以在真实世界的场景中使用。在现实世界的场景中使用。
一些相关技术提出了姿势特征作为上述的理想特征,具体地,使用几何姿势描述器,采集身体部位之间的几何关系和时间信息(即速度和加速度)的姿势特征来识别动作。一些相关技术提出了一种使用相对不变的特征(即身体部位之间的相对距离)作为上述的理想特征来进行动作识别的方法,以消除由相机抖动和偏移造成的噪音。以上两种相关技术都只关注身体部位之间的运动信息而不使用全局运动信息,因此识别全局相关动作的准确性非常低。
对于网络模型,早期的方法通常使用递归神经网络,因为它可以有效地建立起特征间的时间关系,这对动作识别来说是十分重要的。但是由于其本身的结构,很难很好地建立空间关系。递归神经网络使用复杂且缓慢的并行操作,使得模型非常慢并且容易在训练时崩溃。因此有的研究者转向使用卷积神经网络。卷积神经网络擅长建模空间关系可以高效地提取高级语义信息。卷积神经网络不擅长建模时序关系,因此许多研究者手动提取时间特征信息输入到网络中。但是大量的特征信息需要充分地提取,大量的研究者在提取特征时都不够充分,要么过早地进行了特征融合,要么特征组合不恰当。
基于上述原理,本实施例中,提出了动作识别中的三对理想特征,该特征全面,能够充分地表示一个动作;构建一个多特征多流网络对这三对特征进行处理,能够有效解决特征提取不足的问题。
基于上述原理,本实施例中,设计一种基于骨架的多特征多流实时动作识别方法。参照图1,基于骨架的多特征多流实时动作识别方法包括以下步骤:
S1.获取骨架数据的第一特征对、第二特征对和第三特征对;
S2.获取多特征多流网络;
S3.将第一特征对、第二特征对和第三特征对输入至多特征多流网络进行处理;
S4.根据多特征多流网络输出的处理结果,识别动作类别。
步骤S1中,通过对骨架数据进行处理,获得第一特征对、第二特征对和第三特征对等3个特征对。其中,第一特征对、第二特征对和第三特征对分别由相应的一个静态特征和一个动态特征组成。
本实施例中,选择具有动作直观性的特征对,作为第一特征对;选择具有尺度不变性的特征对,作为第二特征对;选择具有信息全局性的特征对,作为第三特征对。
其中,动作直观性可以是指人的大脑在观察和识别动作时产生的直观性,即具有动作直观性的特征对能够被人的大脑直观地认识到。尺度不变性可以是指不同体型和动作习惯的人做同样的动作中包含的特征,不因体型和动作习惯等因素的不同而改变的性质。信息全局性可以是指特征能够提供动作的全局信息的性质。
通过执行步骤S1,获取骨架数据的具有动作直观性的第一特征对、具有尺度不变性的第二特征对和具有信息全局性的第三特征对,而且每个特征对都包含各自的静态特征和动态特征,因此能够获得较充分和全面地表示骨架数据的关键特征。
步骤S2所建立的多特征多流网络能够同时对步骤S1获得的多个特征对进行处理,从而根据这些特征对所包含的充分和全面的特征信息进行推理,在步骤S3中输出高精度的动作类别结果。
本实施例中,在执行步骤S1,也就是获取骨架数据的第一特征对、第二特征对和第三特征对这一步骤时,具体可以执行以下步骤:
S101.从骨架数据获取关节距离与关节距离速度,组成第一特征对;
S102.从骨架数据获取关节角度与关节角度速度,组成第二特征对;
S103.从骨架数据获取慢动作关节位置与快动作关节位置,组成第三特征对。
通过执行步骤S101-S103,所获得的第一特征对中包含关节距离与关节距离速度这两个特征,其中关节距离为静态特征,关节距离速度为动态特征;所获得的第二特征对中包含关节角度与关节角度速度这两个特征,其中关节角度为静态特征,关节角度速度为动态特征;所获得的第三特征对中包含慢动作关节位置与快动作关节位置这两个特征,其中慢动作关节位置为静态特征,快动作关节位置为动态特征。
本实施例中,执行步骤S101的原理在于:
关节距离和关节距离速度特征对的引入是受到大脑如何识别身体动作的启发。大脑是如何识别身体动作的。身体各部分之间的相互作用往往是大脑识别身体动作的关键。而关节之间的距离变化是最直观的交互的最直观表现。图2(a)为被检测者做出喝水动作时测得的骨架数据的示意图。从图2(a)中,可以看到,随着喝水的动作,手部关节和身体关节之间的距离从远到近,再到远。大脑收集这些变化的信息来判断这个动作。
参照图2(b),当骨架数据中的一个帧的骨架图发生了旋转等变换,关节之间的距离是保持不变的,因此关节距离特征对于动作的旋转和反转不敏感。
然而,仅靠关节距离特征不能区分一些具有类似距离变化的动作。在慢跑和步行中,手臂摆动和步长高度一致。意味着它们与身体其他部位有类似的距离变化。为此,在网络中引入了关节距离速度特征络中,以帮助网络区分步行和慢跑。这两个动作有类似的关节距离变化,但变化速度不同。
关节距离特征的获取很简单,通过求两两关节之间的欧氏距离,将每一帧的关节距离特征保存为一个一维向量,便得到关节距离。计算关节距离的差分,便得到关节距离速度。具体地,计算关节距离与关节距离速度的公式如下:
JDVk=JDk+2-JDk,k{1,3,5,…,N-2} (2)
其中,JD是Joint Distance的缩写,因此使用符号JD表示关节距离这一静态特征;JDV是Joint Distance Velocity的缩写,因此使用符号JDVk表示关节距离速度这一动态特征。
公式(1)和(2)中,Ji表示骨架数据中第i个关节的坐标,k表示序号(可以表示骨架数据中的帧的序号)。因为本实施例中使用的数据集中,一个被检测人员有15个关节检测点,即通过计算两两关节不重复的组合一个有105种。
本实施例中,骨架数据中的一个动作样本由N帧组成,通常N=32,即骨架数据中的一个动作样本由32帧组成,也就是一个动作样本会形成32个这样的一维向量,组合在一起所得到的关节距离JD是一个32×105的矩阵。将关节距离JD可视化,其效果如图2(c)所示。
执行公式(2)获取关节距离速度的原理是:通过每个样本的32帧关节距离,按照间隔帧相减的方式来获得,输出最后每一个样本的关节距离速度,从而得到关节距离速度JDVk。本实施例中,关节距离速度JDVk是一个16×105的矩阵。
本实施例中,执行步骤S102的原理在于:
从图3(a)中可以看到,不同体型的人做同样的动作,它们的关节距离会随着发生变化,但这不是所希望的出现,因为他们做的是相同的动作,在这种情况下,关节距离特征对网络的识别来说就是噪音,会严重影响网络的识别精度。而通过引入关节角度,可以给多特征多流网络带来尺度不变性,也就是不同体型的人做同样的动作,无论其关节距离怎样变化,关节角度都是不变的,从而仍能够识别出是同样的动作。
关节角度的引入还可以帮助网络识别那些仅靠关节距离特征无法识别的相似动作。从图3(b)可以看到,捡和弯腰这两个动作只依靠关节距离和关节距离速度特征对很容易被混淆,而关节角度特征可以帮助网络区分它们。从图3(b)可以看到,当这两个动作发生时,腰部和臀部之间的角度以及腿部和身体之间的角度是不同的,这将是区分它们的关键信息。
关节角度速度这一特征有助于网络区分具有相似的关节角度变化幅度,但不同频率的动作。例如,阅读和写作有相同的关节角度变化量,但阅读的变化更慢,而写作的变化更快。为了获得关节角度特征,可以首先获得每一帧的骨架中心。参照图3(c),对于身体骨架,可以把重心作为骨架的中心点,而对于手骨架,可以将手掌关节作为其中心点。参照图3(c),计算每一个关节点相对于中心点的向量,再通过反三角函数,就可以计算出两两关节点之间的角度,即关节角度。
具体地,计算关节角度与关节角度速度的公式如下:
JAVk=JAk+2-JAk,k{1,3,5,…,N-2} (4)
其中,JA是Joint Angle的缩写,因此使用符号表示关节角度这一静态特征;JAV是Joint Angle Velocity的缩写,因此使用符号JAVk表示关节角度速度这一动态特征。
公式(3)和(4)中,Gk表示骨架中心点,表示骨架数据的第k帧中的第i个关节的坐标,/>表示骨架数据的第k帧中的第j个关节的坐标。
公式(3)中,通过反余弦函数获得两两关节之间的关节角度后,可以像处理两两关节之间的关节距离的方式一样,把每一个动作样本N帧(N=32)的关节角度特征转换为一个32×105的特征矩阵,这一特征矩阵即关节角度的可视化效果如图3(d)所示。
公式(4)中,通过间隔帧的关节角度相减获得关节角度速度JAVk。本实施例中,关节角度速度JAVk是一个16×105的特征矩阵。
本实施例中,执行步骤S103的原理在于:
关节距离与关节距离速度特征对(第一特征对)以及关节角度与关节角度速度特征对(第二特征对)更多是提供了骨架数据中的局部运动信息。图4(a)显示了摇晃动作时的手部骨架,可以看出,手部骨架内各关节之间的距离和角度没有明显的变化。在识别这种类型的动作时,局部特征并不能提供有价值的信息,而关节位置则可以引入全局信息,可以告诉多特征多流网络手在移动而不是保持静止。在手势识别中,手的整体运动是常见的,因此可也引入关节位置特征。如图4(b)所示,骨架动作可以被分为快速和慢动作。
为了更好地捕捉各帧之间关节位置的变化,可以同时使用快慢两种来计算关节位置的变化。因此,可以将关节位置的特征分为慢动作关节位置和快动作关节位置特征。慢动作关节位置和快动作关节位置特征可以通过减去各帧之间的关节位置来获得。具体地,计算慢动作关节位置和快动作关节位置特征的公式如下:
其中,SJP是Slow motion Joint Position的缩写,因此使用符号SJPk表示慢动作关节位置这一静态特征;FJP是Fast motion Joint Position的缩写,因此使用符号FJPk表示快动作关节位置这一动态特征。
公式(5)和(6)中,JPk表示骨架数据的第k帧中的关节的位置。具体地,可以根据公式(1)对应同一关节部位的全部坐标Ji,计算平均位置,从而得到这个关节部位的位置JPk。
通过计算慢动作关节位置SJPk与快动作关节位置FJPk,能够给多特征多流网络带来全局的运动信息。
步骤S2中,可以建立一维卷积神经网络(1D-CNN)作为多特征多流网络。一维卷积神经网络具有网络参数量小、运行速度快的优点,有利于进行实时性的动作识别。
本实施例中,在执行步骤S3,也就是将第一特征对、第二特征对和第三特征对输入至多特征多流网络进行处理这一步骤时,具体可以执行以下步骤:
S301.由多特征多流网络对第一特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第一融合特征;
S302.由多特征多流网络对第二特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第二融合特征;
S303.由多特征多流网络对第三特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第三融合特征;
S304.由多特征多流网络计算第一融合特征、第二融合特征与第三融合特征的加权和;
S305.由多特征多流网络输出加权和作为处理结果。
步骤S301-S305的原理如图5所示。
参照图5,步骤S301-S303中,基于一维卷积神经网络的多特征多流网络对第一特征对进行静态特征提取和动态特征提取,从而获得关节距离这一静态特征以及关节距离速度这一动态特征,然后将关节距离与关节距离速度通过拼接的方式融合在一起,获得第一特征融合特征;多特征多流网络对第二特征对进行静态特征提取和动态特征提取,从而获得关节角度这一静态特征以及关节角度速度这一动态特征,然后将关节角度与关节角度速度通过拼接的方式融合在一起,获得第二特征融合特征;多特征多流网络对第三特征对进行静态特征提取和动态特征提取,从而获得慢动作关节位置这一静态特征以及快动作关节位置这一动态特征,然后将慢动作关节位置与快动作关节位置通过拼接的方式融合在一起,获得第三特征融合特征。
参照图5,步骤S304中,多特征多流网络设定第一融合特征对应的权重a1、第二融合特征对应的权重a2以及第三融合特征对应的权重a3,根据公式加权和=第一融合特征×a1+第二融合特征×a26第三融合特征×a3进行计算,从而得到加权和。
步骤S305中,多特征多流网络输出加权和作为处理结果。
步骤S4中,可以根据多特征多流网络输出的处理结果即加权和的数值大小或者所在的范围,确定骨架数据对应的动作类别。
本实施例中,在执行步骤S1-S4之前,可以对多特征多流网络进行训练。具体地,可以获取与第一特征同类型的第一训练样本、与第二特征同类型的第二训练样本,以及与第三特征同类型的第三训练样本,并获取各个训练样本的标签。将第一训练样本、第二训练样本与第三训练样本同时输入多特征多流网络,获取多特征多流网络的实际输出数据,判断实际输出数据与标签之间的误差,再根据误差的大小反向调整各个权重的大小,直至得到的误差在可接受范围内,保存网络识别准确率最高的那一次迭代过程的权重参数,完成对多特征多流网络的训练。
本实施例中,使用训练好的多特征多流网络执行步骤S1-S4的流程如图6所示:首先使用深度相机和MediaPipe算法提取骨架数据,具体地,骨架数据可以是人体骨架坐标的形式;将人体骨架坐标通过数据处理模块,数据处理模块将人体骨架坐标转换成第一特征对、第二特征对和第三特征对,然后将第一特征对、第二特征对和第三特征对同时输入到已经训练好的多特征多流网络中进行动作识别。根据仿真的结果,图6中的多特征多流网络能够进行实时动作识别,速度可以达到950FPS。
可以通过编写执行本实施例中的基于骨架的多特征多流实时动作识别方法的计算机程序,将该计算机程序写入至计算机装置或者存储介质中,当计算机程序被读取出来运行时,执行本实施例中的基于骨架的多特征多流实时动作识别方法,从而实现与实施例中的基于骨架的多特征多流实时动作识别方法相同的技术效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文步骤的指令或程序时,本实施例的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本实施例的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (10)
1.一种基于骨架的多特征多流实时动作识别方法,其特征在于,所述基于骨架的多特征多流实时动作识别方法包括:
获取骨架数据的第一特征对、第二特征对和第三特征对;所述第一特征对、所述第二特征对和所述第三特征对分别包括一个静态特征和一个动态特征,所述第一特征对具有动作直观性,所述第二特征对具有尺度不变性,所述第三特征对具有信息全局性;
获取多特征多流网络;
将所述第一特征对、所述第二特征对和所述第三特征对输入至所述多特征多流网络进行处理;
根据所述多特征多流网络输出的处理结果,识别动作类别。
2.根据权利要求1所述的基于骨架的多特征多流实时动作识别方法,其特征在于,所述获取骨架数据的第一特征对、第二特征对和第三特征对,包括:
从所述骨架数据获取关节距离与关节距离速度,组成所述第一特征对;
从所述骨架数据获取关节角度与关节角度速度,组成所述第二特征对;
从所述骨架数据获取慢动作关节位置与快动作关节位置,组成所述第三特征对。
3.根据权利要求2所述的基于骨架的多特征多流实时动作识别方法,其特征在于,所述从所述骨架数据获取关节距离与关节距离速度,组成所述第一特征对,包括:
根据所述骨架数据,获取各个关节的坐标;
根据公式
JDVk=JDk+2-JDk,k{1,3,5,…,N-2}
进行计算;其中,Ji表示所述骨架数据中第i个关节的坐标,JD表示所述关节距离,JDV表示所述关节距离速度,k表示序号,N表示所述骨架数据中的帧的总数量;
以所述关节距离JD作为静态特征,以所述关节距离速度JDV作为动态特征,组成所述第一特征对。
4.根据权利要求2所述的基于骨架的多特征多流实时动作识别方法,其特征在于,所述从所述骨架数据获取关节角度与关节角度速度,包括:
根据所述骨架数据,获取各个关节的坐标,确定骨架中心点Gk;
根据公式
JAVk=JAk+2-JAk,k{1,3,5,…,N-2}
进行计算;其中,表示所述骨架数据的第k帧中的第i个关节的坐标,/>表示所述骨架数据的第k帧中的第j个关节的坐标,/>表示所述关节角度,JAVk表示所述关节角度速度;
以所述关节角度作为静态特征,以所述关节角度速度JAVk作为动态特征,组成所述第二特征对。
5.根据权利要求4所述的基于骨架的多特征多流实时动作识别方法,其特征在于,所述确定骨架中心点Gk,包括:
当所述骨架数据表示身体骨架,以身体的重心点作为所述骨架中心点Gk;
当所述骨架数据表示手部骨架,以手掌关节点作为所述骨架中心点Gk。
6.根据权利要求2所述的基于骨架的多特征多流实时动作识别方法,其特征在于,所述从所述骨架数据获取慢动作关节位置与快动作关节位置,组成所述第三特征对,包括:
根据所述骨架数据,获取各个关节的位置;
根据公式
SJPk=JPk+2-JPk,k{1,3,5,…,N-2}
FJPk=JPk+1-JPk,k{1,2,3,…,N-1}
进行计算;其中,JPk表示所述骨架数据的第k帧中的关节的位置,SJPk表示所述慢动作关节位置,FJPk表示快动作关节位置;
以所述慢动作关节位置SJPk作为静态特征,以所述快动作关节位置FJPk作为动态特征,组成所述第三特征对。
7.根据权利要求1所述的基于骨架的多特征多流实时动作识别方法,其特征在于,所述获取多特征多流网络,包括:
建立一维卷积神经网络,作为所述多特征多流网络。
8.根据权利要求1-7任一项所述的基于骨架的多特征多流实时动作识别方法,其特征在于,所述将所述第一特征对、所述第二特征对和所述第三特征对输入至所述多特征多流网络进行处理,包括:
由所述多特征多流网络对所述第一特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第一融合特征;
由所述多特征多流网络对所述第二特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第二融合特征;
由所述多特征多流网络对所述第三特征对进行静态特征提取、动态特征提取以及动静态特征融合处理,获得第三融合特征;
由所述多特征多流网络计算所述第一融合特征、所述第二融合特征与所述第三融合特征的加权和;
由所述多特征多流网络输出所述加权和作为处理结果。
9.一种计算机装置,其特征在于,包括存储器和处理器,存储器用于存储至少一个程序,处理器用于加载至少一个程序以执行权利要求1-8任一项的基于骨架的多特征多流实时动作识别方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,处理器可执行的程序在由处理器执行时用于执行权利要求1-8任一项的基于骨架的多特征多流实时动作识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311472740.0A CN117523659A (zh) | 2023-11-07 | 2023-11-07 | 基于骨架的多特征多流实时动作识别方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311472740.0A CN117523659A (zh) | 2023-11-07 | 2023-11-07 | 基于骨架的多特征多流实时动作识别方法、装置和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117523659A true CN117523659A (zh) | 2024-02-06 |
Family
ID=89750611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311472740.0A Pending CN117523659A (zh) | 2023-11-07 | 2023-11-07 | 基于骨架的多特征多流实时动作识别方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523659A (zh) |
-
2023
- 2023-11-07 CN CN202311472740.0A patent/CN117523659A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Materzynska et al. | The jester dataset: A large-scale video dataset of human gestures | |
Hasan et al. | RETRACTED ARTICLE: Static hand gesture recognition using neural networks | |
Chaudhari et al. | Yog-guru: Real-time yoga pose correction system using deep learning methods | |
CN109117893A (zh) | 一种基于人体姿态的动作识别方法及装置 | |
US20130335318A1 (en) | Method and apparatus for doing hand and face gesture recognition using 3d sensors and hardware non-linear classifiers | |
CN105159463B (zh) | 一种非接触式可穿戴智能戒指***及其手势识别方法 | |
CN103324938A (zh) | 训练姿态分类器及物体分类器、物体检测的方法及装置 | |
CN111274998A (zh) | 帕金森病手指敲击动作识别方法及***、存储介质及终端 | |
CN112861808B (zh) | 动态手势识别方法、装置、计算机设备及可读存储介质 | |
CN111401318A (zh) | 动作识别方法及装置 | |
CN116958584B (zh) | 关键点检测方法、回归模型的训练方法、装置及电子设备 | |
Santhalingam et al. | Synthetic smartwatch imu data generation from in-the-wild asl videos | |
Riedel et al. | Hand gesture recognition of methods-time measurement-1 motions in manual assembly tasks using graph convolutional networks | |
Guo et al. | Action recognition based on 3D skeleton and LSTM for the monitoring of construction workers’ safety harness usage | |
Mohammed et al. | Recognition of yoga asana from real-time videos using blaze-pose | |
CN114332927A (zh) | 课堂举手行为检测方法、***、计算机设备和存储介质 | |
CN116740618A (zh) | 一种运动视频动作评估方法、***、计算机设备及介质 | |
CN117372657A (zh) | 关键点旋转模型的训练方法及装置、电子设备和存储介质 | |
Faujdar et al. | Human pose estimation using artificial intelligence with virtual gym tracker | |
CN117523659A (zh) | 基于骨架的多特征多流实时动作识别方法、装置和介质 | |
Pradeep et al. | Advancement of sign language recognition through technology using python and OpenCV | |
Liu et al. | Trajectory-based hand gesture recognition using kinect via deterministic learning | |
Lu et al. | Dynamic hand gesture recognition using HMM-BPNN model | |
Deepika et al. | Machine Learning-Based Approach for Hand Gesture Recognition | |
Chen et al. | An integrated sensor network method for safety management of construction workers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |