CN108764050A - 基于角度无关性的骨架行为识别方法、***及设备 - Google Patents
基于角度无关性的骨架行为识别方法、***及设备 Download PDFInfo
- Publication number
- CN108764050A CN108764050A CN201810398601.0A CN201810398601A CN108764050A CN 108764050 A CN108764050 A CN 108764050A CN 201810398601 A CN201810398601 A CN 201810398601A CN 108764050 A CN108764050 A CN 108764050A
- Authority
- CN
- China
- Prior art keywords
- activity recognition
- attention
- skeleton
- visual angle
- subnet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000000007 visual effect Effects 0.000 claims abstract description 80
- 230000015654 memory Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 40
- 230000006399 behavior Effects 0.000 claims description 33
- 239000000203 mixture Substances 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 7
- 238000013461 design Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人体行为识别领域,具体涉及一种基于角度无关性的骨架行为识别方法、***及设备,只在提高角度无关性骨架行为识别的准确率。本发明的基于角度无关性的骨架行为识别方法,包括:基于每个视角的骨架序列设计特定视角子网,通过空域注意力和时域注意力模块分别重点关注关键关节点和关键帧,通过多层长短时记忆网络学习每个视角序列的判别性特征;将各个特定视角子网的输出特征串联起来作为公共子网的输入,通过双向长短时记忆网络进一步学习角度无关性特征,通过视角注意力模块重点关注关键视角;提出正则化交叉熵损失函数推动网络多模块共同学习。本发明有效地提高了识别准确率,能够自动专注学习信息较多的视角特征。
Description
技术领域
本发明涉及人体行为识别领域,具体涉及一种基于角度无关性的骨架行为识别方法、***及设备。
背景技术
作为计算机视觉的一个重要研究领域,人体行为识别是通过输入数据进行人体行为分类识别的***。从***的输入输出角度来看,输入是一种或者多种人体行为相关的数据,数据为不同传感器通过一定频率采样得到的时间序列。***的输出是人体行为的识别分类结果。一般来说,人体行为识别***的输入分为四种形式的数据:RGB时间序列、骨架时间序列、深度图视频和红外线视频。随着深度传感器的快速发展,骨架数据的获取越来越方便快捷,因此,基于骨架的人体行为识别也受到越来越多的关注。在行为识别研究中,复杂的数据变化是该研究的一个主要挑战,骨架数据相比于传统的RGB数据更具有鲁棒性,但是在视角变化方面,基于角度无关性的骨架行为识别和基于角度无关性的RGB行为识别同样具有挑战性。
基于角度无关性的骨架行为识别技术,其关键在于三部分:一方面是如何提取判别性强的特征,一方面是如何减少角度变化对行为识别的影响,还有一方面是如何利用时域相关性对行为动作的动态变化建模。根据人体行为识别的建模方式,分为传统方法建模和深度学习方法建模。其中传统的方式分为两个过程:特征表征和动作的识别及理解。传统的特征提取方法有HOG(Histogram of Oriented Gradient)、SIFT(Scale-InvariantFeature Transform)等特征提取方法;提取后的特征通常采用常见的分类算法,如支持向量机(Support Vector Machine,SVM)进行分类识别。而随着深度学习理论的提出和发展,深度学习算法越来越多地应用于人体行为识别的研究。循环神经网络(Recurrent NeuralNetwork,RNN)致力于对视频信息的建模,将上几个隐含层数据作为当前时刻的输入,从而允许时间维度上的信息得以保留;基于长短时记忆(Long Short Term Memory,LSTM)的循环神经网络(RNN)是普通RNN模型的扩展,主要解决RNN模型中的梯度消亡现象。因此,近年来的大部分人体骨架行为识别都是利用深度学习中的基于LSTM的RNN模型。
当前的基于LSTM的角度无关性骨架行为识别方法的主要问题在于没有充分挖掘给定序列的全部信息以及识别准确率有待提高。具体来说,通过LSTM提取单个视角下视频序列的判别性特征,从而忽略了同一行为在多视角下视频之间的联系;同时多视角骨架数据中的每个关节点,每一帧以及每个视角都对角度无关性骨架行为识别有不同的作用,而仅通过LSTM的建模方式,骨架数据的不同组成结构对行为识别有相同的贡献,限制了角度无关性骨架行为识别的准确率。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于角度无关性的骨架行为识别方法、***及设备,提高了角度无关性骨架行为识别的准确率。
本发明的一方面,提出一种基于角度无关性的骨架行为识别方法,包括:
将待识别的骨架时间序列按不同的视角,输入到训练好的骨架行为识别模型中;
利用所述训练好的骨架行为识别模型,计算待识别骨架时间序列的行为类别概率;
其中,
所述骨架行为识别模型,包括:预设数量的特定视角子网,以及公共子网;
所述骨架行为识别模型的训练方法,包括以下步骤:
步骤S1,针对每个所述特定视角子网,输入与该特定视角对应的一帧训练数据,分别计算空域注意力权重、时域注意力权重,进而计算出该特定视角子网的判别性特征;
步骤S2,将各个所述特定视角子网的判别性特征串联为视角序列,作为所述公共子网的输入,计算角度无关性特征和视角注意力权重,进而计算出所述训练数据的行为类别的概率;
步骤S3,判断训练数据是否已全部输入,若是,则转至步骤S4;否则,转至步骤S1;
步骤S4,计算损失函数;
步骤S5,判断损失函数是否收敛,若是则训练结束,否则,转至步骤S6;
步骤S6,调整所述骨架行为识别模型的参数,转至步骤S1。
优选地,所述特定视角子网,包括:空域注意力模块、时域注意力模块、判别性特征提取模块;
所述公共子网,包括:双向长短时记忆网络、视角注意力模块、概率计算模块。
优选地,步骤S1中“计算空域注意力权重、时域注意力权重,进而计算出该特定视角子网的判别性特征”,具体包括:
通过所述空域注意力模块,为每个关节点分配注意力权重;
通过所述时域注意力模块,为每一帧分配时域注意力权重;
根据所述训练数据和所述空域注意力权重,通过所述判别性特征提取模块提取所述训练数据在该特定视角上的判别性特征;
根据所述时域注意力权重和所述该特定视角上的判别性特征,输出该特定视角子网的判别性特征。
优选地,步骤S2中“计算角度无关性特征和视角注意力权重,进而计算出所述训练数据的行为类别的概率”,具体包括:
通过所述双向长短时记忆网络输出角度无关性特征;
通过所述视角注意力模块给每个所述特定视角分配不同的视角注意力权重;
根据所述角度无关性特征、所述视角注意力权重,通过所述概率计算模块,得到所述训练数据的行为类别的概率。
优选地,所述损失函数为:
其中,
第一项为整个网络的交叉熵损失;yi为所述训练数据的真实标签;为所述公共子网预测出的所述训练数据属于第i个行为类别的概率;C为行为类别的数量;
λ1、λ2和λ3为平衡整个网络的参数;
第二项为所述空域注意力模块的正则项;K为关节点个数;v为所述特定视角的个数;T为输入的所述训练数据的帧数;为第j个视角下第t帧中第k个关节点的所述空域注意力权重;
第三项为所述时域注意力模块的正则项;为第j个视角下第t帧的所述时域注意力权重;
第四项为参数的正则项;Wsv为网络的连接矩阵,使用L1范数防止整个网络过拟合。
优选地,所述空域注意力模块,由LSTM层、两个全连接层,以及一个tanh激活单元组成;
相应地,计算所述空域注意权重的方法包括:
输入数据经过所述空域注意力模块,得出第t帧内个K关节点的对应分数:
将得到的分数归一化,得到每个关节点的所述空域注意力权重:
其中,
Wes、Wxs、Whs均为需要学习的参数矩阵;为第t帧的输入数据;表示第t-1帧的输入数据经过LSTM层的空域隐输出;bs和bes均为偏置项;
为第j个视角下第t帧中第k个关节点的所述空域注意力权重;为第j个视角下第t帧中第k个关节点的对应分数;为第j个视角下第t帧中第l个关节点的对应分数。
优选地,所述时域注意力模块,由LSTM层、一个全连接层,以及一个ReLU激活单元组成;
相应地,计算所述时域注意力权重的方法包括:
其中,
为第t帧的所述时域注意力权重;We1、We2均为需要学习的参数矩阵,表示第t-1帧的输入数据经过LSTM层后的时域隐输出;be为偏置项。
优选地,所述判别性特征提取模块,由3层LSTM构成;
所述判别性特征提取模块的输入由所述空域注意力权重和输入数据逐元素点乘得到:
其中,
分别为第j个视角下第t帧中第k个关节点的所述空域注意力权重和输入数据;
所述判别性特征提取模块的输出与所述时域注意力权重进行点乘作为所述公共子网输入数据的第j个元素:
优选地,所述骨架行为识别模型的训练方法,在步骤S1之前还包括对训练数据进行预处理的步骤:
步骤S0,将同一受试者在相同环境下的相同行为对应的骨架序列,按视角的不同进行分组;将每个关节点的坐标保留小数点后四位;每个视角的骨架序列取前100帧,不足100帧的,取最后一帧数据补齐。
本发明的第二方面,提出一种存储设备,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的基于角度无关性的骨架行为识别方法。
本发明的第三方面,提出一种处理设备,包括:处理器和存储设备;其中,所述处理器适于执行程序;所述存储设备适于存储该程序;所述程序适于由处理器加载并执行以实现上面所述的基于角度无关性的骨架行为识别方法。
本发明的第四方面,提出一种基于角度无关性的骨架行为识别***,包括:控制单元,以及骨架行为识别模型;
所述控制单元,用于对所述骨架行为识别模型进行训练,并利用训练好的所述骨架行为识别模型计算待识别骨架时间序列的行为类别概率;
所述骨架行为识别模型,包括:预设数量的特定视角子网,以及公共子网;
其中,
所述特定视角子网,包括:空域注意力模块、时域注意力模块、判别性特征提取模块;
所述公共子网,包括:双向长短时记忆网络、视角注意力模块、概率计算模块。
本发明的有益效果:
本发明基于每个视角的骨架序列设计特定视角子网,通过空域注意力和时域注意力模块分别重点关注关键关节点和关键帧,通过多层长短时记忆网络学习每个视角序列的判别性特征;将各个特定视角子网的输出特征串联起来作为公共子网的输入,通过双向长短时记忆网络进一步学习角度无关性特征,通过视角注意力模块重点关注关键视角;提出正则化交叉熵损失函数推动网络多模块共同学习。本发明融合特定视角子网和公共子网,充分挖掘给定多视角序列的全部信息,同时添加时空注意力以及视角注意力模块,有效地提高了行为识别的准确率,能够自动专注学习信息较多的视角特征,充分挖掘了给定序列的全部信息。
附图说明
图1是本发明的基于角度无关性的骨架行为识别方法实施例的流程示意图;
图2是本发明的骨架行为识别模型的训练方法实施例的流程示意图;
图3是本发明的骨架行为识别模型实施例的信号流向示意图;
图4是本发明的骨架行为识别模型实施例中特定视角子网的构成示意图;
图5是本发明的骨架行为识别模型实施例中公共子网的构成示意图;
图6是本发明的基于角度无关性的骨架行为识别***实施例的构成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
为解决现有骨架行为识别技术没有充分挖掘给定序列的全部信息以及识别准确率有待提高的问题。本发明提出一种基于时空视角注意力深度网络的角度无关性骨架行为识别方法,融合特定视角子网和公共子网充分挖掘给定多视角序列的全部信息,同时添加时空注意力以及视角注意力,以提高行为识别的准确率。其方法设计思路如下:(1)基于每个视角的骨架序列设计特定视角子网,通过空域注意力和时域注意力模块分别重点关注关键关节点和关键帧,通过判别性特征提取模块学习每个视角序列的判别性特征;(2)将各个特定视角子网的输出特征作为公共子网的输入,通过双向长短时记忆网络Bi-LSTM进一步学习角度无关性特征,通过视角注意力模块重点关注关键视角;(3)提出正则化交叉熵损失函数推动网络多模块共同学习。
图1是本发明的基于角度无关性的骨架行为识别方法实施例的流程示意图。如图1所示,本实施例的识别方法包括以下步骤:
步骤A1,将待识别的骨架时间序列按不同的视角,输入到训练好的骨架行为识别模型中;
步骤A2,利用训练好的骨架行为识别模型,计算待识别骨架时间序列的行为类别概率。
其中,骨架行为识别模型,包括:预设数量的特定视角子网,以及公共子网。
图2是本发明的骨架行为识别模型的训练方法实施例的流程示意图。图3是本发明的骨架行为识别模型实施例的信号流向示意图。如图2所示,本实施例的训练方法包括步骤S0-S6:
在步骤S0中,对训练数据进行预处理:将同一受试者在相同环境下的相同行为对应的骨架序列,按视角的不同进行分组;将每个关节点的坐标保留小数点后四位;每个视角的骨架序列取前100帧(样本小于100帧的,取最后一帧数据补齐;样本大于100帧的,取前100帧)。
如图3所示,将训练数据集分成v组,分别送入v个视角子网。每个特定视角子网包括:空域注意力模块、时域注意力模块、判别性特征提取模块;v个视角子网的输出串联输入公共子网,公共子网包括:双向长短时记忆网络、视角注意力模块、概率计算模块。
在第j个特定视角子网中,输入数据为给定动作在第j个视角下第t帧中的K个关节点信息,如公式(1)所示:
其中,K表示一帧中关节点的数量
在步骤S1中,针对每个特定视角子网,输入与该特定视角对应的一帧训练数据,分别计算空域注意力权重、时域注意力权重,进而计算出该特定视角子网的判别性特征。该步骤具体分为步骤S11-S14:
在步骤S11中,通过空域注意力模块(Spatial Attention Module,SAM),为每个关节点分配注意力权重。
图4是本发明的骨架行为识别模型实施例中特定视角子网的构成示意图。如图4所示:空域注意力模块由LSTM层、两个全连接层(FC),以及一个tanh激活单元组成。将上一帧输入数据通过LSTM层得出的隐输出作为当前帧的历史信息,该历史信息和当前帧的输入数据共同经过全连接层,以及激活层的非线性操作得到如公式(2)所示的当前第t帧内个K关节点的对应分数:
的计算方法如公式(3)所示:
得出的分数分别对应每个关节点,表示每个关节点对该模型的重要程度。再将得到的分数进行归一化,得到每个关节点的关节点选择门,即空域注意力权重,对于第k个关节点,关节点选择门如公式(4)所示:
其中:
Wes、Wxs、Whs均为需要学习的参数矩阵;为第t帧的输入数据;表示第t-1帧的输入数据经过LSTM层的空域隐输出;bs和bes均为偏置项;为第j个视角下第t帧中第k个关节点的空域注意力权重;为第j个视角下第t帧中第k个关节点的对应分数;为第j个视角下第t帧中第l个关节点的对应分数。
在步骤S12中,通过时域注意力模块(Temporal Attention Model,TAM),为每一帧分配时域注意力权重。
由图4还可以看出,时域注意力模块由LSTM层、一个全连接层,以及一个ReLU激活单元组成。计算时域注意力权重的方法如公式(5)所示:
其中,
为计算出的第t帧的时域注意力权重;We1、We2均为需要学习的参数矩阵,表示第t-1帧的输入数据经过LSTM层后的时域隐输出;be为偏置项。
在步骤S13中,根据训练数据和空域注意力权重,通过判别性特征提取模块提取训练数据在该特定视角上的判别性特征。
由图4还可以看出,判别性特征提取模块由3层LSTM构成。该模块的输入如公式(6)所示:
输入由空域注意力权重和输入数据逐元素点乘得到,如公式(7)所示:
分别为第j个视角下第t帧中第k个关节点的空域注意力权重和输入数据。该步骤中,将空域注意力权重作用于判别性特征提取模块的输入数据,使网络能够自动地选择性学习关键的关节点。
在步骤S14中,根据时域注意力权重和该特定视角上的判别性特征,输出该特定视角子网的判别性特征。
判别性特征提取模块的输出与时域注意力权重点乘,得到该特定视角子网的判别性特征,作为公共子网输入数据的第j个元素,如公式(8)所示:
在步骤S2中,将各个特定视角子网的判别性特征串联为视角序列作为公共子网的输入,计算角度无关性特征和视角注意力权重,进而计算出训练数据的行为类别的概率。该步骤具体分为步骤S21-S23:
在步骤S21中,通过双向长短时记忆网络Bi-LSTM输出角度无关性特征。
将预设数量(v个)特定视角子网的输出串联为视角序列作为公共视角子网中双向长短时记忆网络的输入,如公式(9)所示:
z=[α1,α2,...,αv] (9)
图5是本发明的骨架行为识别模型实施例中公共子网的构成示意图。如图5所示:Bi-LSTM学习同一行为在多个视角下潜在的共有特征,即角度无关性特征,也就是根据第j个视角下的上下文信息,计算正向和逆向的隐状态和如公式(10)、(11)所示:
然后将两个方向的隐状态和串联构成一个隐状态hj。其中,Wj为双向LSTM中需要学习的权重参数。
在步骤S22中,Bi-LSTM每个视角的输出组成序列作为VAM的输入,如图5中的虚线箭头所示,将v个隐状态组成隐状态集,如公式(12)所示:
H=(h1,h2,...,hv) (12)
再通过视角注意力模块(View Attention Module,VAM)给每个特定视角分配不同的视角注意力权重,由图5可知本实施例中视角注意力模块包括两个全连接层FC和一个Tanh激活层,计算出的视角注意力权重如公式(13)所示,是针对每个视角分配一个权重值:
β=(β1,β2,...,βV) (13)
在步骤S23中,根据角度无关性特征、视角注意力权重,通过概率计算模块,得到训练数据的行为类别的概率。由图5可知本实施例中概率计算模块包括一个全连接层和一个Softmax层。
步骤S3,判断T帧训练数据是否已全部输入,若是,则转至步骤S4;否则,转至步骤S1;
在步骤S4中,计算正则化的交叉熵损失函数,如公式(14)所示:
其中,
第一项为整个网络的交叉熵损失;yi为训练数据的真实标签;为公共子网预测出的训练数据属于第i个行为类别的概率;C为行为类别的数量。
λ1、λ2和λ3为平衡整个网络的参数。
第二项为空域注意力模块的正则项,使得骨架行为识别模型能够动态地集中在每个视角对应序列内每一帧中的关键关节点;K为关节点个数;v为特定视角的个数;T为输入的训练数据的帧数;为第j个视角下第t帧中第k个关节点的空域注意力权重。
第三项为时域注意力模块的正则项,使得骨架行为识别模型能够动态地集中在关键帧上;为第j个视角下第t帧的时域注意力权重。
第四项为参数的正则项;Wsv为网络的连接矩阵,使用L1范数防止整个网络过拟合。
在步骤S5中,判断损失函数是否收敛,若是则训练结束,否则,转至步骤S6。
在步骤S6中,调整骨架行为识别模型的参数,转至步骤S1。
本发明的一种存储设备的实施例,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的基于角度无关性的骨架行为识别方法。
本发明的一种处理设备,包括:处理器和存储器。其中,处理器适于执行程序;存储设备适于存储该程序;所述程序适于由处理器加载并执行以实现上面所述的基于角度无关性的骨架行为识别方法。
本实施例中,具体运行的硬件和编程语言为:实验基于Ubuntu 14.04LTS***,所使用的服务器配置为Xeon E5-2630V4 2.2GHZ处理器,128G内存和具有12G显存的NVIDIATian-X GPU四个。实验采用Keras深度学习框架,TensorFlow后端,集成开发环境为Pycharm,使用随机梯度下降(SGD)算法训练我们的网络。
本实施例中选择目前最大的多视角骨架公开数据集NTU RGB+D数据集作为训练数据和测试数据。该数据集包含56880个视频样本,60个行为类,40个受试者,每帧人体数据用25个关节点的坐标表示。采用标准的cross-subject测试方式,将该数据集中20个演员所做的视频作为训练集,剩余的作为测试集。
图6是本发明的基于角度无关性的骨架行为识别***实施例的构成示意图。如图6所示,本实施例的骨架行为识别***包括:控制单元100,以及骨架行为识别模型200;
控制单元100用于对骨架行为识别模型200进行训练,并利用训练好的骨架行为识别模型200计算待识别骨架时间序列的行为类别概率;
骨架行为识别模型200包括:预设数量的特定视角子网210,以及公共子网220;
其中,
特定视角子网210包括:空域注意力模块211、时域注意力模块212、判别性特征提取模块213;公共子网220包括:双向长短时记忆网络221、视角注意力模块222、概率计算模块223。
控制单元100的功能配置参见步骤A1-A2和步骤S1-S6的叙述;空域注意力模块211、时域注意力模块212、判别性特征提取模块213、双向长短时记忆网络221、视角注意力模块222、概率计算模块223的结构与功能也请参看前面的相关叙述,此处不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤、模块、单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (12)
1.一种基于角度无关性的骨架行为识别方法,其特征在于,包括:
将待识别的骨架时间序列按不同的视角,输入到训练好的骨架行为识别模型中;
利用所述训练好的骨架行为识别模型,计算待识别骨架时间序列的行为类别概率;
其中,
所述骨架行为识别模型,包括:预设数量的特定视角子网,以及公共子网;
所述骨架行为识别模型的训练方法,包括以下步骤:
步骤S1,针对每个所述特定视角子网,输入与该特定视角对应的一帧训练数据,分别计算空域注意力权重、时域注意力权重,进而计算出该特定视角子网的判别性特征;
步骤S2,将各个所述特定视角子网的判别性特征串联为视角序列,作为所述公共子网的输入,计算角度无关性特征和视角注意力权重,进而计算出所述训练数据的行为类别的概率;
步骤S3,判断训练数据是否已全部输入,若是,则转至步骤S4;否则,转至步骤S1;
步骤S4,计算损失函数;
步骤S5,判断损失函数是否收敛,若是则训练结束,否则,转至步骤S6;
步骤S6,调整所述骨架行为识别模型的参数,转至步骤S1。
2.根据权利要求1所述的骨架行为识别方法,其特征在于,
所述特定视角子网,包括:空域注意力模块、时域注意力模块、判别性特征提取模块;
所述公共子网,包括:双向长短时记忆网络、视角注意力模块、概率计算模块。
3.根据权利要求2所述的骨架行为识别方法,其特征在于,步骤S1中“计算空域注意力权重、时域注意力权重,进而计算出该特定视角子网的判别性特征”,具体包括:
通过所述空域注意力模块,为每个关节点分配注意力权重;
通过所述时域注意力模块,为每一帧分配时域注意力权重;
根据所述训练数据和所述空域注意力权重,通过所述判别性特征提取模块提取所述训练数据在该特定视角上的判别性特征;
根据所述时域注意力权重和所述该特定视角上的判别性特征,输出该特定视角子网的判别性特征。
4.根据权利要求2所述的骨架行为识别方法,其特征在于,步骤S2中“计算角度无关性特征和视角注意力权重,进而计算出所述训练数据的行为类别的概率”,具体包括:
通过所述双向长短时记忆网络输出角度无关性特征;
通过所述视角注意力模块给每个所述特定视角分配不同的视角注意力权重;
根据所述角度无关性特征、所述视角注意力权重,通过所述概率计算模块,得到所述训练数据的行为类别的概率。
5.根据权利要求1所述的骨架行为识别方法,其特征在于,所述损失函数为:
其中,
第一项为整个网络的交叉熵损失;yi为所述训练数据的真实标签;为所述公共子网预测出的所述训练数据属于第i个行为类别的概率;C为行为类别的数量;
λ1、λ2和λ3为平衡整个网络的参数;
第二项为所述空域注意力模块的正则项;K为关节点个数;v为所述特定视角的个数;T为输入的所述训练数据的帧数;为第j个视角下第t帧中第k个关节点的所述空域注意力权重;
第三项为所述时域注意力模块的正则项;为第j个视角下第t帧的所述时域注意力权重;
第四项为参数的正则项;Wsv为网络的连接矩阵,使用L1范数防止整个网络过拟合。
6.根据权利要求3所述的骨架行为识别方法,其特征在于,所述空域注意力模块,由LSTM层、两个全连接层,以及一个tanh激活单元组成;
相应地,计算所述空域注意权重的方法包括:
输入数据经过所述空域注意力模块,得出第t帧内个K关节点的对应分数:
将得到的分数归一化,得到每个关节点的所述空域注意力权重:
其中,
Wes、Wxs、Whs均为需要学习的参数矩阵;为第t帧的输入数据;表示第t-1帧的输入数据经过LSTM层的空域隐输出;bs和bes均为偏置项;
为第j个视角下第t帧中第k个关节点的所述空域注意力权重;为第j个视角下第t帧中第k个关节点的对应分数;为第j个视角下第t帧中第l个关节点的对应分数。
7.根据权利要求6所述的骨架行为识别方法,其特征在于,所述时域注意力模块,由LSTM层、一个全连接层,以及一个ReLU激活单元组成;
相应地,计算所述时域注意力权重的方法包括:
其中,
为第t帧的所述时域注意力权重;We1、We2均为需要学习的参数矩阵,表示第t-1帧的输入数据经过LSTM层后的时域隐输出;be为偏置项。
8.根据权利要求7所述的骨架行为识别方法,其特征在于,所述判别性特征提取模块,由3层LSTM构成;
所述判别性特征提取模块的输入由所述空域注意力权重和输入数据逐元素点乘得到:
其中,
分别为第j个视角下第t帧中第k个关节点的所述空域注意力权重和输入数据;
所述判别性特征提取模块的输出与所述时域注意力权重进行点乘作为所述公共子网输入数据的第j个元素:
9.根据权利要求1所述的骨架行为识别方法,其特征在于,所述骨架行为识别模型的训练方法,在步骤S1之前还包括对训练数据进行预处理的步骤:
步骤S0,将同一受试者在相同环境下的相同行为对应的骨架序列,按视角的不同进行分组;将每个关节点的坐标保留小数点后四位;每个视角的骨架序列取前100帧,不足100帧的,取最后一帧数据补齐。
10.一种存储设备,其中存储有程序,其特征在于,所述程序适于由处理器加载并执行,以实现权利要求1-9中任一项所述的基于角度无关性的骨架行为识别方法。
11.一种处理设备,包括:
处理器,适于执行程序;以及
存储设备,适于存储该程序;
其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-9中任一项所述的基于角度无关性的骨架行为识别方法。
12.一种基于角度无关性的骨架行为识别***,其特征在于,包括:控制单元,以及骨架行为识别模型;
所述控制单元,用于对所述骨架行为识别模型进行训练,并利用训练好的所述骨架行为识别模型计算待识别骨架时间序列的行为类别概率;
所述骨架行为识别模型,包括:预设数量的特定视角子网,以及公共子网;
其中,
所述特定视角子网,包括:空域注意力模块、时域注意力模块、判别性特征提取模块;
所述公共子网,包括:双向长短时记忆网络、视角注意力模块、概率计算模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810398601.0A CN108764050B (zh) | 2018-04-28 | 2018-04-28 | 基于角度无关性的骨架行为识别方法、***及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810398601.0A CN108764050B (zh) | 2018-04-28 | 2018-04-28 | 基于角度无关性的骨架行为识别方法、***及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108764050A true CN108764050A (zh) | 2018-11-06 |
CN108764050B CN108764050B (zh) | 2021-02-26 |
Family
ID=64012136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810398601.0A Active CN108764050B (zh) | 2018-04-28 | 2018-04-28 | 基于角度无关性的骨架行为识别方法、***及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764050B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109558811A (zh) * | 2018-11-12 | 2019-04-02 | 中山大学 | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 |
CN109614874A (zh) * | 2018-11-16 | 2019-04-12 | 深圳市感动智能科技有限公司 | 一种基于注意力感知和树形骨架点结构的人体行为识别方法和*** |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109919358A (zh) * | 2019-01-31 | 2019-06-21 | 中国科学院软件研究所 | 一种基于神经网络时空注意力机制的实时站点流量预测方法 |
CN110210372A (zh) * | 2019-05-29 | 2019-09-06 | 中国科学院自动化研究所 | 基于注意增强图卷积网络的骨架行为识别方法、*** |
CN110348572A (zh) * | 2019-07-09 | 2019-10-18 | 上海商汤智能科技有限公司 | 神经网络模型的处理方法及装置、电子设备、存储介质 |
CN111199202A (zh) * | 2019-12-30 | 2020-05-26 | 南京师范大学 | 基于循环注意力网络的人体动作识别方法及识别装置 |
CN111340067A (zh) * | 2020-02-10 | 2020-06-26 | 天津大学 | 一种用于多视图分类的再分配方法 |
CN111368810A (zh) * | 2020-05-26 | 2020-07-03 | 西南交通大学 | 基于人体及骨骼关键点识别的仰卧起坐检测***及方法 |
CN111401270A (zh) * | 2020-03-19 | 2020-07-10 | 南京未艾信息科技有限公司 | 一种人体运动姿态识别评价方法及其*** |
CN111832351A (zh) * | 2019-04-18 | 2020-10-27 | 杭州海康威视数字技术股份有限公司 | 一种事件检测方法、装置和计算机设备 |
CN112966628A (zh) * | 2021-03-17 | 2021-06-15 | 广东工业大学 | 一种基于图卷积神经网络的视角自适应多目标摔倒检测方法 |
CN113158983A (zh) * | 2021-05-18 | 2021-07-23 | 南京航空航天大学 | 一种基于红外视频序列图像的机场场面活动行为识别方法 |
CN113255408A (zh) * | 2020-02-11 | 2021-08-13 | 深圳绿米联创科技有限公司 | 行为识别方法、装置、电子设备及存储介质 |
CN113408349A (zh) * | 2021-05-17 | 2021-09-17 | 浙江大华技术股份有限公司 | 动作评价模型的训练方法、动作评价方法及相关设备 |
CN114973403A (zh) * | 2022-05-06 | 2022-08-30 | 广州紫为云科技有限公司 | 一种基于时空双重维度特征深度网络的高效行为预测方法 |
CN116402811A (zh) * | 2023-06-05 | 2023-07-07 | 长沙海信智能***研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109722466B (zh) * | 2019-01-30 | 2022-03-25 | 华南农业大学 | 一种运用ai模型快速检测产生碳青霉烯酶菌株的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034096A (zh) * | 2010-12-08 | 2011-04-27 | 中国科学院自动化研究所 | 基于自顶向下运动注意机制的视频事件识别方法 |
CN103839047A (zh) * | 2013-12-30 | 2014-06-04 | 华为技术有限公司 | 一种人体运动轨迹的识别方法及装置 |
US20160042227A1 (en) * | 2014-08-06 | 2016-02-11 | BAE Systems Information and Electronic Systems Integraton Inc. | System and method for determining view invariant spatial-temporal descriptors for motion detection and analysis |
CN106203283A (zh) * | 2016-06-30 | 2016-12-07 | 重庆理工大学 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
US9600717B1 (en) * | 2016-02-25 | 2017-03-21 | Zepp Labs, Inc. | Real-time single-view action recognition based on key pose analysis for sports videos |
CN106909938A (zh) * | 2017-02-16 | 2017-06-30 | 青岛科技大学 | 基于深度学习网络的视角无关性行为识别方法 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN107679522A (zh) * | 2017-10-31 | 2018-02-09 | 内江师范学院 | 基于多流lstm的动作识别方法 |
-
2018
- 2018-04-28 CN CN201810398601.0A patent/CN108764050B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034096A (zh) * | 2010-12-08 | 2011-04-27 | 中国科学院自动化研究所 | 基于自顶向下运动注意机制的视频事件识别方法 |
CN103839047A (zh) * | 2013-12-30 | 2014-06-04 | 华为技术有限公司 | 一种人体运动轨迹的识别方法及装置 |
US20160042227A1 (en) * | 2014-08-06 | 2016-02-11 | BAE Systems Information and Electronic Systems Integraton Inc. | System and method for determining view invariant spatial-temporal descriptors for motion detection and analysis |
US9600717B1 (en) * | 2016-02-25 | 2017-03-21 | Zepp Labs, Inc. | Real-time single-view action recognition based on key pose analysis for sports videos |
CN106203283A (zh) * | 2016-06-30 | 2016-12-07 | 重庆理工大学 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
CN106909938A (zh) * | 2017-02-16 | 2017-06-30 | 青岛科技大学 | 基于深度学习网络的视角无关性行为识别方法 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN107679522A (zh) * | 2017-10-31 | 2018-02-09 | 内江师范学院 | 基于多流lstm的动作识别方法 |
Non-Patent Citations (2)
Title |
---|
ZHIHENG HUANG等: "Bidirectional LSTM-CRF Models for Sequence Tagging", 《ARXIV:1508.01991V1》 * |
裴晓敏: "时空特征融合深度学习网络人体行为识别方法", 《红外与激光工程》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558811A (zh) * | 2018-11-12 | 2019-04-02 | 中山大学 | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 |
CN109614874A (zh) * | 2018-11-16 | 2019-04-12 | 深圳市感动智能科技有限公司 | 一种基于注意力感知和树形骨架点结构的人体行为识别方法和*** |
CN109614874B (zh) * | 2018-11-16 | 2023-06-30 | 深圳市感动智能科技有限公司 | 一种基于注意力感知和树形骨架点结构的人体行为识别方法和*** |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109376720B (zh) * | 2018-12-19 | 2022-01-18 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109919358A (zh) * | 2019-01-31 | 2019-06-21 | 中国科学院软件研究所 | 一种基于神经网络时空注意力机制的实时站点流量预测方法 |
CN109919358B (zh) * | 2019-01-31 | 2021-03-02 | 中国科学院软件研究所 | 一种基于神经网络时空注意力机制的实时站点流量预测方法 |
CN111832351A (zh) * | 2019-04-18 | 2020-10-27 | 杭州海康威视数字技术股份有限公司 | 一种事件检测方法、装置和计算机设备 |
CN110210372A (zh) * | 2019-05-29 | 2019-09-06 | 中国科学院自动化研究所 | 基于注意增强图卷积网络的骨架行为识别方法、*** |
CN110348572A (zh) * | 2019-07-09 | 2019-10-18 | 上海商汤智能科技有限公司 | 神经网络模型的处理方法及装置、电子设备、存储介质 |
CN111199202B (zh) * | 2019-12-30 | 2024-04-26 | 南京师范大学 | 基于循环注意力网络的人体动作识别方法及识别装置 |
CN111199202A (zh) * | 2019-12-30 | 2020-05-26 | 南京师范大学 | 基于循环注意力网络的人体动作识别方法及识别装置 |
CN111340067A (zh) * | 2020-02-10 | 2020-06-26 | 天津大学 | 一种用于多视图分类的再分配方法 |
CN111340067B (zh) * | 2020-02-10 | 2022-07-08 | 天津大学 | 一种用于多视图分类的再分配方法 |
CN113255408A (zh) * | 2020-02-11 | 2021-08-13 | 深圳绿米联创科技有限公司 | 行为识别方法、装置、电子设备及存储介质 |
CN113255408B (zh) * | 2020-02-11 | 2024-03-29 | 深圳绿米联创科技有限公司 | 行为识别方法、装置、电子设备及存储介质 |
CN111401270A (zh) * | 2020-03-19 | 2020-07-10 | 南京未艾信息科技有限公司 | 一种人体运动姿态识别评价方法及其*** |
WO2021184619A1 (zh) * | 2020-03-19 | 2021-09-23 | 南京未艾信息科技有限公司 | 一种人体运动姿态识别评价方法及其*** |
CN111368810B (zh) * | 2020-05-26 | 2020-08-25 | 西南交通大学 | 基于人体及骨骼关键点识别的仰卧起坐检测***及方法 |
CN111368810A (zh) * | 2020-05-26 | 2020-07-03 | 西南交通大学 | 基于人体及骨骼关键点识别的仰卧起坐检测***及方法 |
CN112966628A (zh) * | 2021-03-17 | 2021-06-15 | 广东工业大学 | 一种基于图卷积神经网络的视角自适应多目标摔倒检测方法 |
CN113408349A (zh) * | 2021-05-17 | 2021-09-17 | 浙江大华技术股份有限公司 | 动作评价模型的训练方法、动作评价方法及相关设备 |
CN113158983A (zh) * | 2021-05-18 | 2021-07-23 | 南京航空航天大学 | 一种基于红外视频序列图像的机场场面活动行为识别方法 |
CN114973403A (zh) * | 2022-05-06 | 2022-08-30 | 广州紫为云科技有限公司 | 一种基于时空双重维度特征深度网络的高效行为预测方法 |
CN114973403B (zh) * | 2022-05-06 | 2023-11-03 | 广州紫为云科技有限公司 | 一种基于时空双重维度特征深度网络的行为预测方法 |
CN116402811A (zh) * | 2023-06-05 | 2023-07-07 | 长沙海信智能***研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
CN116402811B (zh) * | 2023-06-05 | 2023-08-18 | 长沙海信智能***研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108764050B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764050A (zh) | 基于角度无关性的骨架行为识别方法、***及设备 | |
Nadeem et al. | Automatic human posture estimation for sport activity recognition with robust body parts detection and entropy markov model | |
CN109902546B (zh) | 人脸识别方法、装置及计算机可读介质 | |
CN104063719B (zh) | 基于深度卷积网络的行人检测方法及装置 | |
CN108510194A (zh) | 风控模型训练方法、风险识别方法、装置、设备及介质 | |
CN106570477B (zh) | 基于深度学习的车型识别模型构建方法及车型识别方法 | |
CN103890781B (zh) | 用于机器视觉的视网膜编码器 | |
CN110147807A (zh) | 一种船舶智能识别跟踪方法 | |
WO2019157508A1 (en) | System and method for diagnosing gastrointestinal neoplasm | |
CN109961034A (zh) | 基于卷积门控循环神经单元的视频目标检测方法 | |
CN106951867A (zh) | 基于卷积神经网络的人脸识别方法、装置、***及设备 | |
CN110213244A (zh) | 一种基于时空特征融合的网络入侵检测方法 | |
CN107529650A (zh) | 网络模型的构建和闭环检测方法、相应装置及计算机设备 | |
CN107016357A (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN109101876A (zh) | 基于长短时记忆网络的人体行为识别方法 | |
CN109359608A (zh) | 一种基于深度学习模型的人脸识别方法 | |
CN109817276A (zh) | 一种基于深度神经网络的蛋白质二级结构预测方法 | |
CN108764107A (zh) | 基于人体骨架序列的行为与身份联合识别方法及装置 | |
CN110826453A (zh) | 一种通过提取人体关节点坐标的行为识别方法 | |
CN109522925A (zh) | 一种图像识别方法、装置和存储介质 | |
CN108447057A (zh) | 基于显著性和深度卷积网络的sar图像变化检测方法 | |
CN106909938A (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN112597921B (zh) | 一种基于注意力机制gru深度学习的人体行为识别方法 | |
CN112084891A (zh) | 基于多模态特征与对抗学习的跨域人体动作识别方法 | |
CN105404865A (zh) | 基于概率态受限玻尔兹曼机级联的人脸检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |