CN108764050A

CN108764050A - 基于角度无关性的骨架行为识别方法、***及设备

Info

Publication number: CN108764050A
Application number: CN201810398601.0A
Authority: CN
Inventors: 原春锋; 李鸽; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-11-06
Anticipated expiration: 2038-04-28
Also published as: CN108764050B

Abstract

本发明涉及人体行为识别领域，具体涉及一种基于角度无关性的骨架行为识别方法、***及设备，只在提高角度无关性骨架行为识别的准确率。本发明的基于角度无关性的骨架行为识别方法，包括：基于每个视角的骨架序列设计特定视角子网，通过空域注意力和时域注意力模块分别重点关注关键关节点和关键帧，通过多层长短时记忆网络学习每个视角序列的判别性特征；将各个特定视角子网的输出特征串联起来作为公共子网的输入，通过双向长短时记忆网络进一步学习角度无关性特征，通过视角注意力模块重点关注关键视角；提出正则化交叉熵损失函数推动网络多模块共同学习。本发明有效地提高了识别准确率，能够自动专注学习信息较多的视角特征。

Description

基于角度无关性的骨架行为识别方法、***及设备

技术领域

本发明涉及人体行为识别领域，具体涉及一种基于角度无关性的骨架行为识别方法、***及设备。

背景技术

作为计算机视觉的一个重要研究领域，人体行为识别是通过输入数据进行人体行为分类识别的***。从***的输入输出角度来看，输入是一种或者多种人体行为相关的数据，数据为不同传感器通过一定频率采样得到的时间序列。***的输出是人体行为的识别分类结果。一般来说，人体行为识别***的输入分为四种形式的数据：RGB时间序列、骨架时间序列、深度图视频和红外线视频。随着深度传感器的快速发展，骨架数据的获取越来越方便快捷，因此，基于骨架的人体行为识别也受到越来越多的关注。在行为识别研究中，复杂的数据变化是该研究的一个主要挑战，骨架数据相比于传统的RGB数据更具有鲁棒性，但是在视角变化方面，基于角度无关性的骨架行为识别和基于角度无关性的RGB行为识别同样具有挑战性。

基于角度无关性的骨架行为识别技术，其关键在于三部分：一方面是如何提取判别性强的特征，一方面是如何减少角度变化对行为识别的影响，还有一方面是如何利用时域相关性对行为动作的动态变化建模。根据人体行为识别的建模方式，分为传统方法建模和深度学习方法建模。其中传统的方式分为两个过程：特征表征和动作的识别及理解。传统的特征提取方法有HOG(Histogram of Oriented Gradient)、SIFT(Scale-InvariantFeature Transform)等特征提取方法；提取后的特征通常采用常见的分类算法，如支持向量机(Support Vector Machine，SVM)进行分类识别。而随着深度学习理论的提出和发展，深度学习算法越来越多地应用于人体行为识别的研究。循环神经网络(Recurrent NeuralNetwork，RNN)致力于对视频信息的建模，将上几个隐含层数据作为当前时刻的输入，从而允许时间维度上的信息得以保留；基于长短时记忆(Long Short Term Memory，LSTM)的循环神经网络(RNN)是普通RNN模型的扩展，主要解决RNN模型中的梯度消亡现象。因此，近年来的大部分人体骨架行为识别都是利用深度学习中的基于LSTM的RNN模型。

当前的基于LSTM的角度无关性骨架行为识别方法的主要问题在于没有充分挖掘给定序列的全部信息以及识别准确率有待提高。具体来说，通过LSTM提取单个视角下视频序列的判别性特征，从而忽略了同一行为在多视角下视频之间的联系；同时多视角骨架数据中的每个关节点，每一帧以及每个视角都对角度无关性骨架行为识别有不同的作用，而仅通过LSTM的建模方式，骨架数据的不同组成结构对行为识别有相同的贡献，限制了角度无关性骨架行为识别的准确率。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于角度无关性的骨架行为识别方法、***及设备，提高了角度无关性骨架行为识别的准确率。

本发明的一方面，提出一种基于角度无关性的骨架行为识别方法，包括：

将待识别的骨架时间序列按不同的视角，输入到训练好的骨架行为识别模型中；

利用所述训练好的骨架行为识别模型，计算待识别骨架时间序列的行为类别概率；

其中，

所述骨架行为识别模型，包括：预设数量的特定视角子网，以及公共子网；

所述骨架行为识别模型的训练方法，包括以下步骤：

步骤S1，针对每个所述特定视角子网，输入与该特定视角对应的一帧训练数据，分别计算空域注意力权重、时域注意力权重，进而计算出该特定视角子网的判别性特征；

步骤S2，将各个所述特定视角子网的判别性特征串联为视角序列，作为所述公共子网的输入，计算角度无关性特征和视角注意力权重，进而计算出所述训练数据的行为类别的概率；

步骤S3，判断训练数据是否已全部输入，若是，则转至步骤S4；否则，转至步骤S1；

步骤S4，计算损失函数；

步骤S5，判断损失函数是否收敛，若是则训练结束，否则，转至步骤S6；

步骤S6，调整所述骨架行为识别模型的参数，转至步骤S1。

优选地，所述特定视角子网，包括：空域注意力模块、时域注意力模块、判别性特征提取模块；

所述公共子网，包括：双向长短时记忆网络、视角注意力模块、概率计算模块。

优选地，步骤S1中“计算空域注意力权重、时域注意力权重，进而计算出该特定视角子网的判别性特征”，具体包括：

通过所述空域注意力模块，为每个关节点分配注意力权重；

通过所述时域注意力模块，为每一帧分配时域注意力权重；

根据所述训练数据和所述空域注意力权重，通过所述判别性特征提取模块提取所述训练数据在该特定视角上的判别性特征；

根据所述时域注意力权重和所述该特定视角上的判别性特征，输出该特定视角子网的判别性特征。

优选地，步骤S2中“计算角度无关性特征和视角注意力权重，进而计算出所述训练数据的行为类别的概率”，具体包括：

通过所述双向长短时记忆网络输出角度无关性特征；

通过所述视角注意力模块给每个所述特定视角分配不同的视角注意力权重；

根据所述角度无关性特征、所述视角注意力权重，通过所述概率计算模块，得到所述训练数据的行为类别的概率。

优选地，所述损失函数为：

其中，

第一项为整个网络的交叉熵损失；y_i为所述训练数据的真实标签；为所述公共子网预测出的所述训练数据属于第i个行为类别的概率；C为行为类别的数量；

λ₁、λ₂和λ₃为平衡整个网络的参数；

第二项为所述空域注意力模块的正则项；K为关节点个数；v为所述特定视角的个数；T为输入的所述训练数据的帧数；为第j个视角下第t帧中第k个关节点的所述空域注意力权重；

第三项为所述时域注意力模块的正则项；为第j个视角下第t帧的所述时域注意力权重；

第四项为参数的正则项；W_sv为网络的连接矩阵，使用L₁范数防止整个网络过拟合。

优选地，所述空域注意力模块，由LSTM层、两个全连接层，以及一个tanh激活单元组成；

相应地，计算所述空域注意权重的方法包括：

输入数据经过所述空域注意力模块，得出第t帧内个K关节点的对应分数：

将得到的分数归一化，得到每个关节点的所述空域注意力权重：

其中，

W_es、W_xs、W_hs均为需要学习的参数矩阵；为第t帧的输入数据；表示第t-1帧的输入数据经过LSTM层的空域隐输出；b_s和b_es均为偏置项；

为第j个视角下第t帧中第k个关节点的所述空域注意力权重；为第j个视角下第t帧中第k个关节点的对应分数；为第j个视角下第t帧中第l个关节点的对应分数。

优选地，所述时域注意力模块，由LSTM层、一个全连接层，以及一个ReLU激活单元组成；

相应地，计算所述时域注意力权重的方法包括：

其中，

为第t帧的所述时域注意力权重；W_e1、W_e2均为需要学习的参数矩阵，表示第t-1帧的输入数据经过LSTM层后的时域隐输出；b_e为偏置项。

优选地，所述判别性特征提取模块，由3层LSTM构成；

所述判别性特征提取模块的输入由所述空域注意力权重和输入数据逐元素点乘得到：

其中，

分别为第j个视角下第t帧中第k个关节点的所述空域注意力权重和输入数据；

所述判别性特征提取模块的输出与所述时域注意力权重进行点乘作为所述公共子网输入数据的第j个元素：

优选地，所述骨架行为识别模型的训练方法，在步骤S1之前还包括对训练数据进行预处理的步骤：

步骤S0，将同一受试者在相同环境下的相同行为对应的骨架序列，按视角的不同进行分组；将每个关节点的坐标保留小数点后四位；每个视角的骨架序列取前100帧，不足100帧的，取最后一帧数据补齐。

本发明的第二方面，提出一种存储设备，其中存储有程序，所述程序适于由处理器加载并执行，以实现上面所述的基于角度无关性的骨架行为识别方法。

本发明的第三方面，提出一种处理设备，包括：处理器和存储设备；其中，所述处理器适于执行程序；所述存储设备适于存储该程序；所述程序适于由处理器加载并执行以实现上面所述的基于角度无关性的骨架行为识别方法。

本发明的第四方面，提出一种基于角度无关性的骨架行为识别***，包括：控制单元，以及骨架行为识别模型；

所述控制单元，用于对所述骨架行为识别模型进行训练，并利用训练好的所述骨架行为识别模型计算待识别骨架时间序列的行为类别概率；

其中，

所述特定视角子网，包括：空域注意力模块、时域注意力模块、判别性特征提取模块；

本发明的有益效果：

本发明基于每个视角的骨架序列设计特定视角子网，通过空域注意力和时域注意力模块分别重点关注关键关节点和关键帧，通过多层长短时记忆网络学习每个视角序列的判别性特征；将各个特定视角子网的输出特征串联起来作为公共子网的输入，通过双向长短时记忆网络进一步学习角度无关性特征，通过视角注意力模块重点关注关键视角；提出正则化交叉熵损失函数推动网络多模块共同学习。本发明融合特定视角子网和公共子网，充分挖掘给定多视角序列的全部信息，同时添加时空注意力以及视角注意力模块，有效地提高了行为识别的准确率，能够自动专注学习信息较多的视角特征，充分挖掘了给定序列的全部信息。

附图说明

图1是本发明的基于角度无关性的骨架行为识别方法实施例的流程示意图；

图2是本发明的骨架行为识别模型的训练方法实施例的流程示意图；

图3是本发明的骨架行为识别模型实施例的信号流向示意图；

图4是本发明的骨架行为识别模型实施例中特定视角子网的构成示意图；

图5是本发明的骨架行为识别模型实施例中公共子网的构成示意图；

图6是本发明的基于角度无关性的骨架行为识别***实施例的构成示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

为解决现有骨架行为识别技术没有充分挖掘给定序列的全部信息以及识别准确率有待提高的问题。本发明提出一种基于时空视角注意力深度网络的角度无关性骨架行为识别方法，融合特定视角子网和公共子网充分挖掘给定多视角序列的全部信息，同时添加时空注意力以及视角注意力，以提高行为识别的准确率。其方法设计思路如下：(1)基于每个视角的骨架序列设计特定视角子网，通过空域注意力和时域注意力模块分别重点关注关键关节点和关键帧，通过判别性特征提取模块学习每个视角序列的判别性特征；(2)将各个特定视角子网的输出特征作为公共子网的输入，通过双向长短时记忆网络Bi-LSTM进一步学习角度无关性特征，通过视角注意力模块重点关注关键视角；(3)提出正则化交叉熵损失函数推动网络多模块共同学习。

图1是本发明的基于角度无关性的骨架行为识别方法实施例的流程示意图。如图1所示，本实施例的识别方法包括以下步骤：

步骤A1，将待识别的骨架时间序列按不同的视角，输入到训练好的骨架行为识别模型中；

步骤A2，利用训练好的骨架行为识别模型，计算待识别骨架时间序列的行为类别概率。

其中，骨架行为识别模型，包括：预设数量的特定视角子网，以及公共子网。

图2是本发明的骨架行为识别模型的训练方法实施例的流程示意图。图3是本发明的骨架行为识别模型实施例的信号流向示意图。如图2所示，本实施例的训练方法包括步骤S0-S6：

在步骤S0中，对训练数据进行预处理：将同一受试者在相同环境下的相同行为对应的骨架序列，按视角的不同进行分组；将每个关节点的坐标保留小数点后四位；每个视角的骨架序列取前100帧(样本小于100帧的，取最后一帧数据补齐；样本大于100帧的，取前100帧)。

如图3所示，将训练数据集分成v组，分别送入v个视角子网。每个特定视角子网包括：空域注意力模块、时域注意力模块、判别性特征提取模块；v个视角子网的输出串联输入公共子网，公共子网包括：双向长短时记忆网络、视角注意力模块、概率计算模块。

在第j个特定视角子网中，输入数据为给定动作在第j个视角下第t帧中的K个关节点信息，如公式(1)所示：

其中，K表示一帧中关节点的数量

在步骤S1中，针对每个特定视角子网，输入与该特定视角对应的一帧训练数据，分别计算空域注意力权重、时域注意力权重，进而计算出该特定视角子网的判别性特征。该步骤具体分为步骤S11-S14：

在步骤S11中，通过空域注意力模块(Spatial Attention Module，SAM)，为每个关节点分配注意力权重。

图4是本发明的骨架行为识别模型实施例中特定视角子网的构成示意图。如图4所示：空域注意力模块由LSTM层、两个全连接层(FC)，以及一个tanh激活单元组成。将上一帧输入数据通过LSTM层得出的隐输出作为当前帧的历史信息，该历史信息和当前帧的输入数据共同经过全连接层，以及激活层的非线性操作得到如公式(2)所示的当前第t帧内个K关节点的对应分数：

的计算方法如公式(3)所示：

得出的分数分别对应每个关节点，表示每个关节点对该模型的重要程度。再将得到的分数进行归一化，得到每个关节点的关节点选择门，即空域注意力权重，对于第k个关节点，关节点选择门如公式(4)所示：

其中：

W_es、W_xs、W_hs均为需要学习的参数矩阵；为第t帧的输入数据；表示第t-1帧的输入数据经过LSTM层的空域隐输出；b_s和b_es均为偏置项；为第j个视角下第t帧中第k个关节点的空域注意力权重；为第j个视角下第t帧中第k个关节点的对应分数；为第j个视角下第t帧中第l个关节点的对应分数。

在步骤S12中，通过时域注意力模块(Temporal Attention Model，TAM)，为每一帧分配时域注意力权重。

由图4还可以看出，时域注意力模块由LSTM层、一个全连接层，以及一个ReLU激活单元组成。计算时域注意力权重的方法如公式(5)所示：

其中，

为计算出的第t帧的时域注意力权重；W_e1、W_e2均为需要学习的参数矩阵，表示第t-1帧的输入数据经过LSTM层后的时域隐输出；b_e为偏置项。

在步骤S13中，根据训练数据和空域注意力权重，通过判别性特征提取模块提取训练数据在该特定视角上的判别性特征。

由图4还可以看出，判别性特征提取模块由3层LSTM构成。该模块的输入如公式(6)所示：

输入由空域注意力权重和输入数据逐元素点乘得到，如公式(7)所示：

分别为第j个视角下第t帧中第k个关节点的空域注意力权重和输入数据。该步骤中，将空域注意力权重作用于判别性特征提取模块的输入数据，使网络能够自动地选择性学习关键的关节点。

在步骤S14中，根据时域注意力权重和该特定视角上的判别性特征，输出该特定视角子网的判别性特征。

判别性特征提取模块的输出与时域注意力权重点乘，得到该特定视角子网的判别性特征，作为公共子网输入数据的第j个元素，如公式(8)所示：

在步骤S2中，将各个特定视角子网的判别性特征串联为视角序列作为公共子网的输入，计算角度无关性特征和视角注意力权重，进而计算出训练数据的行为类别的概率。该步骤具体分为步骤S21-S23：

在步骤S21中，通过双向长短时记忆网络Bi-LSTM输出角度无关性特征。

将预设数量(v个)特定视角子网的输出串联为视角序列作为公共视角子网中双向长短时记忆网络的输入，如公式(9)所示：

z＝[α¹,α²,...,α^v] (9)

图5是本发明的骨架行为识别模型实施例中公共子网的构成示意图。如图5所示：Bi-LSTM学习同一行为在多个视角下潜在的共有特征，即角度无关性特征，也就是根据第j个视角下的上下文信息，计算正向和逆向的隐状态和如公式(10)、(11)所示：

然后将两个方向的隐状态和串联构成一个隐状态h_j。其中，W_j为双向LSTM中需要学习的权重参数。

在步骤S22中，Bi-LSTM每个视角的输出组成序列作为VAM的输入，如图5中的虚线箭头所示，将v个隐状态组成隐状态集，如公式(12)所示：

H＝(h₁,h₂,...,h_v) (12)

再通过视角注意力模块(View Attention Module，VAM)给每个特定视角分配不同的视角注意力权重，由图5可知本实施例中视角注意力模块包括两个全连接层FC和一个Tanh激活层，计算出的视角注意力权重如公式(13)所示，是针对每个视角分配一个权重值：

β＝(β¹,β²,...,β^V) (13)

在步骤S23中，根据角度无关性特征、视角注意力权重，通过概率计算模块，得到训练数据的行为类别的概率。由图5可知本实施例中概率计算模块包括一个全连接层和一个Softmax层。

步骤S3，判断T帧训练数据是否已全部输入，若是，则转至步骤S4；否则，转至步骤S1；

在步骤S4中，计算正则化的交叉熵损失函数，如公式(14)所示：

其中，

第一项为整个网络的交叉熵损失；y_i为训练数据的真实标签；为公共子网预测出的训练数据属于第i个行为类别的概率；C为行为类别的数量。

λ₁、λ₂和λ₃为平衡整个网络的参数。

第二项为空域注意力模块的正则项，使得骨架行为识别模型能够动态地集中在每个视角对应序列内每一帧中的关键关节点；K为关节点个数；v为特定视角的个数；T为输入的训练数据的帧数；为第j个视角下第t帧中第k个关节点的空域注意力权重。

第三项为时域注意力模块的正则项，使得骨架行为识别模型能够动态地集中在关键帧上；为第j个视角下第t帧的时域注意力权重。

在步骤S5中，判断损失函数是否收敛，若是则训练结束，否则，转至步骤S6。

在步骤S6中，调整骨架行为识别模型的参数，转至步骤S1。

本发明的一种存储设备的实施例，其中存储有程序，所述程序适于由处理器加载并执行，以实现上面所述的基于角度无关性的骨架行为识别方法。

本发明的一种处理设备，包括：处理器和存储器。其中，处理器适于执行程序；存储设备适于存储该程序；所述程序适于由处理器加载并执行以实现上面所述的基于角度无关性的骨架行为识别方法。

本实施例中，具体运行的硬件和编程语言为：实验基于Ubuntu 14.04LTS***，所使用的服务器配置为Xeon E5-2630V4 2.2GHZ处理器，128G内存和具有12G显存的NVIDIATian-X GPU四个。实验采用Keras深度学习框架，TensorFlow后端，集成开发环境为Pycharm，使用随机梯度下降(SGD)算法训练我们的网络。

本实施例中选择目前最大的多视角骨架公开数据集NTU RGB+D数据集作为训练数据和测试数据。该数据集包含56880个视频样本，60个行为类，40个受试者，每帧人体数据用25个关节点的坐标表示。采用标准的cross-subject测试方式，将该数据集中20个演员所做的视频作为训练集，剩余的作为测试集。

图6是本发明的基于角度无关性的骨架行为识别***实施例的构成示意图。如图6所示，本实施例的骨架行为识别***包括：控制单元100，以及骨架行为识别模型200；

控制单元100用于对骨架行为识别模型200进行训练，并利用训练好的骨架行为识别模型200计算待识别骨架时间序列的行为类别概率；

骨架行为识别模型200包括：预设数量的特定视角子网210，以及公共子网220；

其中，

特定视角子网210包括：空域注意力模块211、时域注意力模块212、判别性特征提取模块213；公共子网220包括：双向长短时记忆网络221、视角注意力模块222、概率计算模块223。

控制单元100的功能配置参见步骤A1-A2和步骤S1-S6的叙述；空域注意力模块211、时域注意力模块212、判别性特征提取模块213、双向长短时记忆网络221、视角注意力模块222、概率计算模块223的结构与功能也请参看前面的相关叙述，此处不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤、模块、单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于角度无关性的骨架行为识别方法，其特征在于，包括：

其中，

所述骨架行为识别模型的训练方法，包括以下步骤：

步骤S4，计算损失函数；

步骤S6，调整所述骨架行为识别模型的参数，转至步骤S1。

2.根据权利要求1所述的骨架行为识别方法，其特征在于，

3.根据权利要求2所述的骨架行为识别方法，其特征在于，步骤S1中“计算空域注意力权重、时域注意力权重，进而计算出该特定视角子网的判别性特征”，具体包括：

通过所述空域注意力模块，为每个关节点分配注意力权重；

通过所述时域注意力模块，为每一帧分配时域注意力权重；

4.根据权利要求2所述的骨架行为识别方法，其特征在于，步骤S2中“计算角度无关性特征和视角注意力权重，进而计算出所述训练数据的行为类别的概率”，具体包括：

通过所述双向长短时记忆网络输出角度无关性特征；

5.根据权利要求1所述的骨架行为识别方法，其特征在于，所述损失函数为：

其中，

λ₁、λ₂和λ₃为平衡整个网络的参数；

6.根据权利要求3所述的骨架行为识别方法，其特征在于，所述空域注意力模块，由LSTM层、两个全连接层，以及一个tanh激活单元组成；

相应地，计算所述空域注意权重的方法包括：

其中，

7.根据权利要求6所述的骨架行为识别方法，其特征在于，所述时域注意力模块，由LSTM层、一个全连接层，以及一个ReLU激活单元组成；

相应地，计算所述时域注意力权重的方法包括：

其中，

8.根据权利要求7所述的骨架行为识别方法，其特征在于，所述判别性特征提取模块，由3层LSTM构成；

其中，

9.根据权利要求1所述的骨架行为识别方法，其特征在于，所述骨架行为识别模型的训练方法，在步骤S1之前还包括对训练数据进行预处理的步骤：

10.一种存储设备，其中存储有程序，其特征在于，所述程序适于由处理器加载并执行，以实现权利要求1-9中任一项所述的基于角度无关性的骨架行为识别方法。

11.一种处理设备，包括：

处理器，适于执行程序；以及

存储设备，适于存储该程序；

其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-9中任一项所述的基于角度无关性的骨架行为识别方法。

12.一种基于角度无关性的骨架行为识别***，其特征在于，包括：控制单元，以及骨架行为识别模型；

其中，