CN108304795B

CN108304795B - 基于深度强化学习的人体骨架行为识别方法及装置

Info

Publication number: CN108304795B
Application number: CN201810083816.3A
Authority: CN
Inventors: 鲁继文; 周杰; 唐彦嵩; 田毅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2020-05-12
Anticipated expiration: 2038-01-29
Also published as: CN108304795A

Abstract

本发明公开了一种基于深度强化学习的人体骨架行为识别方法及装置，其中，方法包括：通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，以训练图卷积神经网络；在图卷积神经网络的参数固定之后，通过图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧；通过满足预设条件的代表帧更新图卷积神经网络；获取目标视频，并对目标视频进行均匀采样，以将采样得到的帧送入萃取帧网络得到关键帧；将关键帧送入更新后的图卷积神经网络，以得到行为的最终类别。该方法可以加强挑选出来帧的判别性，去除冗余信息，提高识别性能，降低测试阶段计算量，同时可以充分利用人体骨骼的拓扑关系，来提高行为识别的性能。

Description

基于深度强化学习的人体骨架行为识别方法及装置

技术领域

本发明涉及计算机视觉、强化学习及深度学习技术领域，特别涉及一种基于深度强化学习的人体骨架行为识别方法及装置。

背景技术

行为识别旨在区分出在一段给定视频中的行为类别，是计算机视觉中的一个重要研究方向。行为识别有着广泛的应用，比如视频监控，人与机器人的交互等。相比于传统的彩***，基于骨骼的视频中包含着人体关键骨骼的3D位置，其对视角的变换、人体的尺度和运动速度都有着较高的鲁棒性。并且，随着深度传感器(如Kinect)的发展和人体姿态估计算法的成熟，基于人体骨骼的数据正与日俱增。因此，基于人体骨架的行为识别研究，在近些年来受到了越来越多的关注。

基于人体骨架行为识别的方法大体上可以分为两类：基于手工设计特征的方法和基于深度学习的方法。基于手工特征设计的方法在于设计有判别力的特征，用于描述视频在时空上的关系。如，将人体的骨骼建模成Lie群中的一个点，并且通过基于Lie代数的方法对行为进行分类。再如，将朴素贝叶斯最近邻方法扩展为时空朴素贝叶斯最近邻方法，并通过“阶段到类别”的距离来对动作进行分类。总体而言，这些方法通常需要较强的先验手工知识。并且，由于从视频到动作标签是一个较为复杂的非线性映射，这些手工设计方法对其表征的能力是有限的。

另一方面，很多研究者近些年致力于设计不同的深度网络结构来进行行为识别，如RNN(Recurrent Neural Networks，递归神经网络)、CNN(Cable News Network，卷积神经网络)等。其中，RNN模型能够描述时间上的依赖性，但是在实际工程中，训练堆叠的RNN有一定的难度。在另一方面，基于CNN的模型能够在低层描述相邻帧的信息，在高层描述长时间的时序关系，CNN训练起来更有效，也在近期取得了一些令人满意的结果。然而，大多数基于CNN的方法认为所有的帧都是一样重要的，这样便忽视了视频中那些最关键的帧。比如，在一段“踢腿”的视频中，有一些帧描述着动作主体站着，还有一些帧描述着运动主体踢出腿。相比之下，后者对于识别“踢腿”这个动作更加关键。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度强化学习的人体骨架行为识别方法，该方法可以加强挑选出来帧的判别性，去除冗余信息，提高识别性能，降低测试阶段计算量，同时可以充分利用人体骨骼的拓扑关系，来提高行为识别的性能。

本发明的另一个目的在于提出一种基于深度强化学习的人体骨架行为识别装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度强化学习的人体骨架行为识别方法，包括以下步骤：通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，以训练图卷积神经网络；在所述图卷积神经网络的参数固定之后，通过所述图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧；通过所述满足预设条件的代表帧更新所述图卷积神经网络；获取目标视频，并对所述目标视频进行均匀采样，以将采样得到的帧送入所述萃取帧网络得到关键帧；将所述关键帧送入所述更新后的图卷积神经网络，以得到行为的最终类别。

本发明实施例的基于深度强化学习的人体骨架行为识别方法，利用强化学习的方法选取图像中的关键帧，并将视频序列中的人体骨骼建模为一张无向图，同时区分骨骼间的内在相连关系和不相连关系，利用图卷积神经网络对其进行学习，从而可以加强挑选出来帧的判别性，去除冗余信息，提高识别性能，降低测试阶段计算量，同时可以充分利用人体骨骼的拓扑关系，来提高行为识别的性能。

另外，根据本发明上述实施例的基于深度强化学习的人体骨架行为识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，进一步包括：将视频中的每一帧建模成一张图g(x,W)，其中，x∈R^N×3，包含着N个关节点的3D坐标，W是一个N×N的权重邻接矩阵：

进一步地，在本发明的一个实施例中，所述训练图卷积神经网络，进一步包括：将每一帧的图像送入基于图的卷积层，以得到：

Z_t＝y(η,W)*x_t，

其中，y(η,W)代表图卷积核，*代表图卷积操作，x_t代表一个N*3的向量，代表N个关节点的3维坐标。

进一步地，在本发明的一个实施例中，所述在所述图卷积神经网络的参数固定之后，通过所述图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧，进一步包括：获取挑选出来的帧的信息，并获取所述挑选出来的帧的信息与全局视频的关系；对每一个挑选出来的帧进行方向的调整；通过训练好的图卷积神经网络生成调整过方向的帧的回馈，以得到满足预设条件的代表帧。

进一步地，在本发明的一个实施例中，所述训练萃取帧网络，还包括：通过强化学习技术训练所述萃取帧网络。

为达到上述目的，本发明另一方面实施例提出了一种基于深度强化学习的人体骨架行为识别装置，包括：图卷积神经网络训练模块，用于通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，以训练图卷积神经网络；代表帧获取模块，用于在所述图卷积神经网络的参数固定之后，通过所述图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧；更新模块，用于通过所述满足预设条件的代表帧更新所述图卷积神经网络；关键帧获取模块，用于获取目标视频，并对所述目标视频进行均匀采样，以将采样得到的帧送入所述萃取帧网络得到关键帧；处理模块，用于将所述关键帧送入所述更新后的图卷积神经网络，以得到行为的最终类别。

本发明实施例的基于深度强化学习的人体骨架行为识别装置，利用强化学习的方法选取图像中的关键帧，并将视频序列中的人体骨骼建模为一张无向图，同时区分骨骼间的内在相连关系和不相连关系，利用图卷积神经网络对其进行学习，从而可以加强挑选出来帧的判别性，去除冗余信息，提高识别性能，降低测试阶段计算量，同时可以充分利用人体骨骼的拓扑关系，来提高行为识别的性能。

另外，根据本发明上述实施例的基于深度强化学习的人体骨架行为识别装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述图卷积神经网络训练模块还用于将视频中的每一帧建模成一张图g(x,W)，其中，x∈R^N×3，包含着N个关节点的3D坐标，W是一个N×N的权重邻接矩阵：

Z_t＝y(η,W)*x_t，

进一步地，在本发明的一个实施例中，所述代表帧获取模块还用于获取挑选出来的帧的信息，并获取所述挑选出来的帧的信息与全局视频的关系，并对每一个挑选出来的帧进行方向的调整，通过训练好的图卷积神经网络生成调整过方向的帧的回馈，以得到满足预设条件的代表帧。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度强化学习的人体骨架行为识别方法的流程图；

图2为根据本发明一个实施例的将人体骨架建模成无向图的过程示意图；

图3为根据本发明一个实施例的马尔科夫决策过程的示意图；

图4为根据本发明一个实施例的萃取帧网络的结构示意图；

图5为根据本发明一个具体实施例的基于深度强化学习的人体骨架行为识别方法的流程图；

图6为根据本发明一个实施例的基于深度强化学习的人体骨架行为识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在介绍基于深度强化学习的人体骨架行为识别方法及装置之前，先简单介绍一下深度强化学习与关于人体骨架的行为识别。

关于人体骨架的行为识别任务，可用于实验训练与测试的数据有近40多个公开数据集，其中比较主流的有NTU-RGBD、SYSU-3D、UT-Kinect等。NTU-RGBD是目前最大的数据集，包含着由多个Kinect 2传感器采集的56,880段视频。在每一帧中，骨骼数据包含着人体25个关键点的3D坐标信息。这个数据集有交叉主体和交叉视角两个实验设置。SYSU-3D数据集包含着480段视频，有12个行为和40个执行者。实验时随机选取其中来自20个执行者的样本进行训练，剩下的20个样本进行测试，重复以上操作30次，并且在最后评测他们的平均结果。UT-Kinect数据集包含200段视频，有10个行为种类，每个行为被10个执行者重复表演了两次，并采用去一人交叉验证的方法对该数据集进行实验。

强化学***的效果。

深度强化学习近些年来同样也推动了计算机视觉领域的发展。递归注意力模型，在其中，一张图片上的视觉注意力变化被建模成了一系列的马尔科夫决策过程。此外，强化学习还分别被应用于行人再识别、行为检测和物体检测等视觉任务中。使用深度强化学习来进行视频中的人脸识别问题进行研究。它们大致的思想是在学习过程中，丢掉视频中不关键的帧，那么剩下的帧可以认为是最具有代表性的帧。然后再基于这些帧进行人脸识别。虽然深度强化学习在以上的视觉任务中取得了较好的效果，但目前还没有研究将其应用到行为识别上来。

正是基于上述原因，本发明实施例提出了一种基于深度强化学习的人体骨架行为识别方法及装置。

下面参照附图描述根据本发明实施例提出的基于深度强化学习的人体骨架行为识别方法及装置，首先将参照附图描述根据本发明实施例提出的基于深度强化学习的人体骨架行为识别方法。

图1是本发明一个实施例的基于深度强化学习的人体骨架行为识别方法的流程图。

如图1所示，该基于深度强化学习的人体骨架行为识别方法包括以下步骤：

在步骤S101中，通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，以训练图卷积神经网络。

可以理解的是，本发明实施例分为训练和测试两个阶段。首先，在训练阶段，对于训练集中的每一段视频，首先对其中的帧进行均匀采样，得到一些帧数固定的视频，用它们来训练一个图卷积神经网络。

在本发明的一个实施例中，通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，进一步包括：将视频中的每一帧建模成一张图g(x,W)，其中，x∈R^N×3，包含着N个关节点的3D坐标，W是一个N×N的权重邻接矩阵：

具体而言，通过数据表示，将人体骨架建模成无向图。如图所示，给定一段定长视频，首先将其中的每一帧建模成一张图g(x,W)，其中，x∈R^N×3，包含着N个关节点的3D坐标，W是一个N×N的权重邻接矩阵：

本发明实施例将w_ij置为0，是为了去除关节间的自相关性，并将关节和关节间的连接关系分为两类，分别为内在相连性和不相连性。行为执行者在进行“拍手”这个行为。其中，内在相连性，表示两个关节在物理上直接相连(由图中的实线表示)，本发明实施例通过参数α来刻画内在相连间的权重，而且这种相连具有一个很好的性质，那就是两个关节间的距离不会随行为的改变而发生改变。不相连性(由图中的虚线表示)，这种关系对于判断一个行为也很重要。譬如手和脚之间的关系变换，也能很好的体现出“拍手”这个行为，本发明实施例通过参数β来刻画内在不相连性的权重。

进一步地，在本发明的一个实施例中，训练图卷积神经网络，进一步包括：将每一帧的图像送入基于图的卷积层，以得到：

Z_t＝y(η,W)*x_t，

具体而言，训练图卷积神经网络。对于每一帧

本发明实施例将其送入一个基于图的卷积层，以得到：

Z_t＝y(η,W)*x_t，

其中，y(η,W)代表图卷积核，*代表图卷积操作。为了实现上述操作，首先对W进行基于图的拉普拉斯变换，L＝I_n-D^-1/2WD^-1/2，这里D为对角矩阵，满足d_ii＝Σ_jw_ij。接下来对L进行归一化，

并且令

其中，λ_max是对应于L的最大特征值，T_k为契比雪夫多项式。那么图卷积操作可以写成：

这里，η∈[η₀，η₁...，η_K-1]是需要训练的参数，K是图卷积的大小。接下来，本发明实施例将z_t送入一个全连接层中，并记全连接层的输出为g_t。将每一帧对应的g_t拼接到一起，得到一个3D的特征图G＝concat[g₁，g₂，..，g_T]，然后再将其送入一个传统的卷积神经网络中进行分类。

在步骤S102中，在图卷积神经网络的参数固定之后，通过图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧。

可以理解的是，本发明实施例通过固定图卷积神经网络中的参数，并通过它和之前视频来训练萃取帧的网络，以此挑选出那些最具有代表性的帧。

在本发明的一个实施例中，在图卷积神经网络的参数固定之后，通过图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧，进一步包括：获取挑选出来的帧的信息，并获取挑选出来的帧的信息与全局视频的关系；对每一个挑选出来的帧进行方向的调整；通过训练好的图卷积神经网络生成调整过方向的帧的回馈，以得到满足预设条件的代表帧。

具体而言，构建马尔科夫决策过程中的状态、动作和回馈。本发明实施例将挑选帧的过程建模为一个MDP(Markov Decision Processes，马尔科夫决策过程)，如图3所示，对于一段给定的视频，首先对其进行均匀采样。然后通过这个过程来对采样出来的帧进行不断调整，直到挑选那些出最有判别力的帧。在这个过程中，有三个重要的因素：状态、动作和回馈。下面将对它们进行详细的描述：

状态：MDP的状态主要包含了挑选出来的帧的信息，以及它们与全局视频的关系。具体地，它主要包含两个部分{S_a，S_b}。其中，S_a＝[F，M]。F是一个f×N×3的张量，包含着视频的全局信息。这里，f、N和3分别代表帧数、骨骼关节数和3维坐标轴。类似于F，M是一个m×N×3的向量，代表着每一次被选出来的帧。S_b是一个关于被挑选出来帧的二值掩码，在被挑选出的帧的m个位置上为1，其余的位置为0。

动作：MDP的动作表示对每一个挑选出来的帧进行调整的方向。本发明实施例定义3种类型的动作：“左移”(动作0)，保持不变(动作1)和右移(动作2)，移动的步长均为1。“萃取帧”网络将其中的一个向量A∈R^m×3作为输出，里面的每一个元素A_i，j∈[0，1]代表对于第i帧采用第j个动作的概率。为了保证选取来的m帧的顺序，比如在时序上，选出的第一帧应该比选出的第二帧靠前，将每一帧的调整上界设置为Υ_i(i＝1，2，...，m)，满足：

其调整的下界满足：

那么，将根据如下准则进行调整：

M′_i＝M_i+δ_i，

其中，δ_i满足：

回馈：对于一个回馈函数r(S，A)而言，它表示了在某个状态S下，一个动作A的好坏程度。本发明实施例通过训练好的图卷积神经网络来生成回馈。在第一轮迭代中，本发明实施例将r设置为1如果预测准确，否则置为-1。对于第n轮迭代来说，首先定义r₀回馈：

r₀＝sgn(P_n，c-P_n-1，c)

其中，c代表了视频的真实类别号，P_n，c代表在第n轮将视频预测为类别c。另外，如果预测在某一轮迭代中由错误的变成了正确的，将会给它一个强激励r＝Ω，反之，如果在某一轮迭代中由正确的变成了错误的，将给它一个强惩罚r＝-Ω。那么，对于第一轮之后的回馈，本发明实施例将按照如下的情况进行定义：

进一步地，在本发明的一个实施例中，训练萃取帧网络，还包括：通过强化学习技术训练萃取帧网络。

具体而言，本发明实施例通过强化学习技术，训练“萃取帧”网络。如图4所示，这个网络包含了三层卷积层，三个全连接层。网络将状态S作为输入，然后输出动作A。具体的,S_a＝[F，M]被送入了一个接着全连接层的卷积网络中，S_b也被送入了一个全连接层中。本发明实施例将这两个全连接层的输出拼接在一起，送入第三个全连接层中。接着，网络输出m个softmax层，对应产生了调整的动作。

为了最大化折扣权重R＝∑_t≥0γ^tr_t，按照如下方式计算交叉熵：

这一项中，给出了更新梯度θ的方向，本发明实施例将R归一化为

并按照如下方式计算交叉熵，其中

在过程中起到了强化梯度下降的作用。那么，θ将按照如下的方式被更新：

在步骤S103中，通过满足预设条件的代表帧更新图卷积神经网络。

可以理解的是，满足预设条件的代表帧即为经过上述过程挑选出来的帧，将被进一步用于更新之前训练的图卷积神经网络网络。

在步骤S104中，获取目标视频，并对目标视频进行均匀采样，以将采样得到的帧送入萃取帧网络得到关键帧。

可以理解的是，在测试阶段，如图5所示，给定一段视频，同样对其进行均匀采样，然后将其送入训练好的“萃取帧”的网络，对采样视频进行调整，挑选出其中最关键的帧。

在步骤S105中，将关键帧送入更新后的图卷积神经网络，以得到行为的最终类别。

可以理解的是，本发明实施例再将采样的帧送入之前训练好的图卷积神经网络图卷积神经网络中，从而得出行为的最终类别。

综上，给定一段视频，本发明实施例首先对其进行均匀采样，然后通过一个“萃取帧”的网络，对采样视频进行调整，挑选出其中最关键的帧。之后，再将采样的帧送入一个图卷积神经网络中，从而得出行为的最终类别。本发明实施例通过强化学习的方法，从一段视频中挑选出关键的帧，然后再送到一个图卷积神经网络中进行识别。该方法充分考虑到了挑选出的帧的质量，以及这些关键帧与整段视频的关系，同时也考虑到了人体骨骼之间的拓扑关联

根据本发明实施例提出的基于深度强化学习的人体骨架行为识别方法，在时序上，对于原始视频，通过强化学习的方式挑选数量固定的出关键帧，从而有效的提高输出信息的判别，在空间上，考虑到人体的骨架本质上是一个图的结构，从而采用无向图对其进行建模，并利用图卷积神经网络对其进行分类，充分的挖掘了骨骼间的拓扑关系，提出了一种有效的面向人体骨架数据的鲁棒识别的算法。

其次参照附图描述根据本发明实施例提出的基于深度强化学习的人体骨架行为识别装置。

图6是本发明一个实施例的基于深度强化学习的人体骨架行为识别装置的结构示意图。

如图6所示，该基于深度强化学习的人体骨架行为识别装置10包括：图卷积神经网络训练模块100、代表帧获取模块200、更新模块300、关键帧获取模块400和处理模块500。

其中，图卷积神经网络训练模块100用于通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，以训练图卷积神经网络。代表帧获取模块200用于在图卷积神经网络的参数固定之后，通过图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧。更新模块300用于通过满足预设条件的代表帧更新图卷积神经网络。关键帧获取模块400用于获取目标视频，并对目标视频进行均匀采样，以将采样得到的帧送入萃取帧网络得到关键帧。处理模块500用于将关键帧送入更新后的图卷积神经网络，以得到行为的最终类别。本发明实施例的装置10可以加强挑选出来帧的判别性，去除冗余信息，提高识别性能，同时降低测试阶段计算量，可以充分利用人体骨骼的拓扑关系，来提高行为识别的性能。

进一步地，在本发明的一个实施例中，图卷积神经网络训练模块100还用于将视频中的每一帧建模成一张图g(x,W)，其中，x∈R^N×3，包含着N个关节点的3D坐标，W是一个N×N的权重邻接矩阵：

Z_t＝y(η,W)*x_t，

进一步地，在本发明的一个实施例中，代表帧获取模块200还用于获取挑选出来的帧的信息，并获取挑选出来的帧的信息与全局视频的关系，并对每一个挑选出来的帧进行方向的调整，通过训练好的图卷积神经网络生成调整过方向的帧的回馈，以得到满足预设条件的代表帧。

需要说明的是，前述对基于深度强化学习的人体骨架行为识别方法实施例的解释说明也适用于该实施例的基于深度强化学习的人体骨架行为识别装置，此处不再赘述。

根据本发明实施例提出的基于深度强化学习的人体骨架行为识别装置，在时序上，对于原始视频，通过强化学习的方式挑选数量固定的出关键帧，从而有效的提高输出信息的判别，在空间上，考虑到人体的骨架本质上是一个图的结构，从而采用无向图对其进行建模，并利用图卷积神经网络对其进行分类，充分的挖掘了骨骼间的拓扑关系，提出了一种有效的面向人体骨架数据的鲁棒识别的算法。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度强化学习的人体骨架行为识别方法，其特征在于，包括以下步骤：

通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，以训练图卷积神经网络；

在所述图卷积神经网络的参数固定之后，通过所述图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧，其中，所述在所述图卷积神经网络的参数固定之后，通过所述图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧，进一步包括：获取挑选出来的帧的信息，并获取所述挑选出来的帧的信息与全局视频的关系；对每一个挑选出来的帧进行方向的调整；通过训练好的图卷积神经网络生成调整过方向的帧的回馈，以得到满足预设条件的代表帧；其中，所述萃取帧网络包括三层卷积层和三个全连接层，网络将状态S作为输入，然后输出动作A；

通过所述满足预设条件的代表帧更新所述图卷积神经网络；

获取目标视频，并对所述目标视频进行均匀采样，以将采样得到的帧送入所述萃取帧网络得到关键帧；以及

将所述关键帧送入所述更新后的图卷积神经网络，以得到行为的最终类别。

2.根据权利要求1所述的基于深度强化学习的人体骨架行为识别方法，其特征在于，所述通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，进一步包括：

将视频中的每一帧建模成一张图g(x,W)，其中，x∈R^N×3，包含着N个关节点的3维坐标，W是一个N×N的权重邻接矩阵：

其中，参数α来刻画两个关节在物理上直接相连间的权重，参数β来刻画两个关节在物理上不直接相连间的权重。

3.根据权利要求1所述的基于深度强化学习的人体骨架行为识别方法，其特征在于，所述训练图卷积神经网络，进一步包括：

将每一帧的图像送入基于图的卷积层，以得到：

Z_t＝y(η,W)*x_t，

其中，y(η,W)代表图卷积核，*代表图卷积操作，x_t代表一个N*3的向量，代表N个关节点的3维坐标，η∈[η₀，η₁...，η_K-1]是需要训练的参数，K是图卷积的大小，W是一个N×N的权重邻接矩阵。

4.根据权利要求1所述的基于深度强化学习的人体骨架行为识别方法，其特征在于，所述训练萃取帧网络，还包括：

通过强化学习技术训练所述萃取帧网络。

5.一种基于深度强化学习的人体骨架行为识别装置，其特征在于，包括：

图卷积神经网络训练模块，用于通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频，以训练图卷积神经网络；

代表帧获取模块，用于在所述图卷积神经网络的参数固定之后，通过所述图卷积神经网络训练萃取帧网络，以得到满足预设条件的代表帧，其中，所述代表帧获取模块还用于获取挑选出来的帧的信息，并获取所述挑选出来的帧的信息与全局视频的关系，并对每一个挑选出来的帧进行方向的调整，通过训练好的图卷积神经网络生成调整过方向的帧的回馈，以得到满足预设条件的代表帧；其中，所述萃取帧网络包括三层卷积层和三个全连接层，网络将状态S作为输入，然后输出动作A；

更新模块，用于通过所述满足预设条件的代表帧更新所述图卷积神经网络；

关键帧获取模块，用于获取目标视频，并对所述目标视频进行均匀采样，以将采样得到的帧送入所述萃取帧网络得到关键帧；以及

处理模块，用于将所述关键帧送入所述更新后的图卷积神经网络，以得到行为的最终类别。

6.根据权利要求5所述的基于深度强化学习的人体骨架行为识别装置，其特征在于，所述图卷积神经网络训练模块还用于将视频中的每一帧建模成一张图g(x,W)，其中，x∈R^N×3，包含着N个关节点的3维坐标，W是一个N×N的权重邻接矩阵：

7.根据权利要求5所述的基于深度强化学习的人体骨架行为识别装置，其特征在于，所述训练图卷积神经网络，进一步包括：

将每一帧的图像送入基于图的卷积层，以得到：

Z_t＝y(η,W)*x_t，

8.根据权利要求5所述的基于深度强化学习的人体骨架行为识别装置，其特征在于，所述训练萃取帧网络，还包括：

通过强化学习技术训练所述萃取帧网络。