CN110222551B

CN110222551B - 识别动作类别的方法、装置、电子设备及存储介质

Info

Publication number: CN110222551B
Application number: CN201810175625.XA
Authority: CN
Inventors: 李超
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2021-07-09
Anticipated expiration: 2038-03-02
Also published as: CN110222551A

Abstract

本发明是关于一种识别动作类别的方法、装置、电子设备及存储介质，属于计算机技术领域。所述方法包括：获取连续的多帧图像的骨架数据，其中，每帧图像的骨架数据包括多个关节点位置；基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据；基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，其中，所述动作属性信息包括动作类别。采用本发明，可以提高识别动作类别的效率。

Description

识别动作类别的方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种识别动作类别的方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，机器人越来越智能化、人工化，有的智能机器人可以根据人的动作给出相应的反应，这个功能的实现依赖于动作识别技术。

目前的动作识别的方法是，对连续多帧图像分别采集关节点坐标，得到多组关节点坐标，计算每组坐标对应的躯干中心节点或髋中心节点的坐标，然后，确定关节点与对应的躯干中心节点或髋中心节点之间的向量，得到多组向量，成为向量集合。然后计算此向量集合与预先存储的每种动作类别对应的多个向量集合(某动作类别的不同向量集合分别是该动作类别的不同图像对应的向量集合)的相似度，将相似度最大的动作类别作为该多帧图像对应的动作类别。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

基于上述方法进行动作识别时，为了保证识别准确度，对应每种动作类别需要存储大量的向量集合，因此计算相似度的计算量很大，耗费时间比较久，导致识别动作类别的效率较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种识别动作类别的方法、装置、电子设备及存储介质。所述技术方案如下：

第一方面，提供了一种识别动作类别的方法，所述方法包括：

获取连续的多帧图像的骨架数据，其中，每帧图像的骨架数据包括多个关节点位置；

基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据；

基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，其中，所述动作属性信息包括动作类别。

可选地，所述特征数据包括初始特征数据和动态特征数据；

所述基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据，包括：

所述将所述多帧图像的骨架数据，输入预先训练的特征提取模型，得到每帧图像的骨架数据对应的初始特征数据；

对每两帧相邻图像的骨架数据对应的初始特征数据计算差值，得到多个动态特征数据。

可选地，所述每帧图像的骨架数据为多个关节点位置组成的关节点位置矩阵；

所述将所述多帧图像的骨架数据，输入预先训练的特征提取模型，得到每帧图像的骨架数据对应的初始特征数据，包括：

将每帧图像的关节点位置矩阵的转置矩阵，分别与预先训练的系数矩阵相乘，确定相乘得到的每个矩阵的转置矩阵，得到每帧图像的骨架数据对应的初始特征数据。

可选地，所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，包括：

所述将所述特征数据，输入预先训练的卷积神经网络模型，得到中间向量；

将所述中间向量输入所述softmax算法模型，得到多种动作类别分别与所述多帧图像的匹配概率；

将匹配概率最高的动作类别，确定为所述多帧图像对应的动作类别。

可选地，所述动作属性信息还包括动作起始概率和动作结束概率；

所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，包括：

所述将所述特征数据，输入预先训练的卷积神经网络模型，得到第一中间向量；

在所述第一中间向量中去除预设位置的第一数值和第二数值，得到第二中间向量；

将所述第二中间向量输入所述softmax算法模型，得到多种动作类别分别与所述多帧图像的匹配概率；

将匹配概率最高的动作类别，确定为所述多帧图像对应的动作类别，并将所述第一数据和所述第二数据，分别确定为所述动作起始概率和动作结束概率。

可选地，所述卷积神经网络模型中包括卷积层、池化层、MaxOut层以及全连接层。

可选地，所述获取连续的多帧图像的骨架数据之前，还包括：

获取多个训练样本，其中，每个训练样本包括连续的多帧图像的样本骨架数据和对应的样本动作类别；

基于所述多个训练样本和预设的训练函数，分别对初始特征提取模型和初始动作识别模型进行训练，得到所述特征提取模型和所述动作识别模型。

第二方面，提供了一种识别动作类别的装置，所述装置包括：

获取模块，用于获取连续的多帧图像的骨架数据，其中，每帧图像的骨架数据包括多个关节点位置；

提取模块，用于基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据；

确定模块，用于基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，其中，所述动作属性信息包括动作类别。

可选地，所述特征数据包括初始特征数据和动态特征数据；

所述提取模块，用于：

所述提取模块，还用于：

可选地，所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述确定模块，用于：

所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述确定模块，还用于：

可选地，所述装置还包括：

训练模块，用于获取连续的多帧图像的骨架数据之前，获取多个训练样本，其中，每个训练样本包括连续的多帧图像的样本骨架数据和对应的样本动作类别；

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述第一方面所述的识别动作类别的方法。

第四方面，一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的识别动作类别的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，获取连续的多帧图像的骨架数据，其中，每帧图像的骨架数据包括多个关节点位置；基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据；基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，其中，所述动作属性信息包括动作类别。这样，使用训练好的模型进行动作识别时，无需进行大量的图像相似度计算，处理量较小，耗费的时间少，因此，可以使识别动作类别的效率提高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种识别动作类别的方法的流程图；

图2是本发明实施例提供的一种识别动作类别的方法的流程框图；

图3是本发明实施例提供的一种识别动作类别的方法的流程框图；

图4是本发明实施例提供的一种识别动作类别的方法的流程框图；

图5是本发明实施例提供的一种识别动作类别的方法的流程框图；

图6是本发明实施例提供的一种识别动作类别的装置的结构示意图；

图7是本发明实施例提供的一种识别动作类别的方法的结构示意图；

图8是本发明实施例提供的一种终端的结构框图；

图9是本发明实施例提供的一种服务器的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种识别动作类别的方法、装置、电子设备及存储介质，该方法可以由服务器或终端实现。

服务器可以包括处理器、存储器、收发器等部件。处理器，可以为CPU(CentralProcessing Unit，中央处理单元)等，可以用于提取特征数据、确定多帧图像对应的动作属性信息、得到多个动态特征数据等处理。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如连续的多帧图像的骨架数据、特征数据、匹配概率、动作属性信息等。收发器，可以用于与终端或其它服务器进行数据传输，例如，接收连续的多帧图像，收发器可以包括天线、匹配电路、调制解调器等。

终端可以包括处理器、存储器、图像检测部件等部件。处理器，可以为CPU(CentralProcessing Unit，中央处理单元)等，可以用于提取特征数据、确定多帧图像对应的动作属性信息、得到多个动态特征数据等处理。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如连续的多帧图像的骨架数据、特征数据、匹配概率、动作属性信息等。图像检测部件可以是摄像头等。终端还可以包括收发器、屏幕、音频输出部件和音频输入部件等。收发器，可以用于与其它设备进行数据传输，例如，接收服务器发送的动作类别结果等，可以包括天线、匹配电路、调制解调器等。屏幕可以用于显示多帧图像等。音频输出部件可以是音箱、耳机等。音频输入部件可以是麦克风等。

如图1所示，该方法的处理流程可以包括如下的步骤：

在步骤101中，获取连续的多帧图像的骨架数据。

其中，每帧图像的骨架数据包括多个关节点位置。

在实施中，当想要识别某用户的连续动作的动作类别时，需要先获取该连续动作对应的连续的多帧图像。电子设备可以从每帧图像中的用户图像上提取用户的骨架数据，骨架数据包括多个关节点位置，该关节点位置可以用坐标的形式表示。获取关节点位置坐标的方式有很多种，例如，可以用Kinect(一种体感传感器)等专业设备获取3D(3Dimensions，三维)空间中的坐标，这种情况下，获取到的坐标为三维坐标，可以用J_i＝(x_i,y_i,z_i)表示任意一个关节点的坐标。再例如，也可以在普通视频中使用人体关节点检测算法，在每帧图像中获取关节点在图像中的位置坐标，这种情况下，获取到的坐标为二维坐标，可以用J_i＝(x_i,y_i)表示任意一个关节点的坐标。

获取每一帧图像的骨架数据的所有关节点位置坐标后，每一帧图像的骨架数据可以表示为S₀＝{J₁,J₂,J₃,…,J_n}，其中，n表示每一帧图像的骨架数据包含的关节点个数。除此之外，每一帧图像的骨架数据也可以表示成一个维数为n×d的矩阵，其中，n表示每一帧图像的骨架数据包含的关节点个数，d表示每个关节点的坐标维数，例如，关节点的坐标获取方式是通过Kinect获取3D空间中的三维坐标，这种情况下的d的取值为3。

可选地，在对用户的动作进行识别之前，即获取连续的多帧图像的骨架数据之前，需要对待使用的特征提取模型以及动作识别模型进行训练，相应的处理过程可以如下：获取多个训练样本，其中，每个训练样本包括连续的多帧图像的样本骨架数据和对应样本动作类别；基于多个训练样本和预设的训练函数，同时对初始特征提取模型和初始动作识别模型进行训练，得到特征提取模型和动作识别模型。

在实施中，首先，获取多个训练样本，每个训练样本中可以包括连续的多帧图像的样本骨架数据，以及该样本骨架数据对应的样本动作类别。样本骨架数据可以是连续的多帧图像中各关节点位置坐标的集合，样本动作类别可以采用独热码的形式进行表示。

然后，以一次参数更新过程中的一个样本的训练过程为例，将样本骨架数据输入初始特征提取模型，将得到的特征数据输入初始动作识别模型，可以得到预测动作类别，该预测动作类别可以采用向量的形式进行表示，且该预测动作类别的向量与该样本动作类别的独热码长度相同。

然后，基于下述交叉熵损失函数，根据预测动作类别和样本动作类别，计算预测动作类别与样本动作类别之间的差异程度：

其中，y代表样本动作类别，p代表预测动作类别，L(y,p)代表预测动作类别与样本动作类别之间的差异程度，N代表预测动作类别的向量的长度。

得到预测动作类别与样本动作类别之间的差异程度后，再基于下述参数更新公式，根据初始特征提取模型以及初始动作识别模型中待训练的初始参数、预测动作类别与样本动作类别之间的差异程度、以及学习率，计算更新参数：

其中，w_i'表示所述更新参数，w_i表示初始特征提取模型以及初始动作识别模型中待训练的初始参数，α表示学习率，L(y,p)代表所述预测动作类别与所述样本动作类别之间的差异程度。

需要说明的是，初始特征提取模型以及初始动作识别模型是同时训练以及更新参数的，整个训练过程需要对不止一个参数矩阵进行训练，初始特征提取模型以及初始动作识别模型中，所有待训练的初始参数均按照上述训练过程进行训练，在此不做赘述。

需要说明的是，上述参数更新公式采用的是梯度下降法合理推导得到，其中的学习率可以是技术人员预先设定好的固定值，也可以是根据多次样本训练不断调整的数值，本发明在此不做限定。

需要说明的是，上述过程仅以一次参数更新过程中的一个训练样本的训练过程为例，在可选的训练过程中，一次参数更新过程中，同时获取多个训练样本，使用该批训练样本中的所有样本计算得到梯度的平均值，将该梯度的平均值代替前一个参数更新公式中的单个样本梯度，以此得到更新参数。

在步骤102中，基于预先训练的特征提取模型，对多帧图像的骨架数据，提取特征数据。

需要说明的是，在该步骤102中所用到的模型，不限于上述特征提取模型，也可以是全连接神经网络模型等算法模型，本发明在此不做限定。

可选地，特征数据可以包括初始特征数据和动态特征数据，基于特征提取模型，获取初始特征数据和动态特征数据的具体过程可以是：将多帧图像的骨架数据，输入预先训练的特征提取模型，得到每帧图像的骨架数据对应的初始特征数据。对每两帧相邻图像的骨架数据对应的初始特征数据计算差值，得到多个动态特征数据。

在实施中，得到每帧图像的骨架数据后，将多帧图像的骨架数据输入到特征提取模型，对每帧图像中的所有关节点进行线性组合，得到线性组合后的新的关节点位置矩阵，即为每帧图像的骨架数据对应的初始特征数据。

得到每帧图像的所有关节点后，可以使用各关节点在相邻两帧图像中的位置变化量来表征骨架数据的运动特征，根据如下公式，计算每两帧相邻图像的初始特征数据的差值，得到的差值即为多个动态特征数据。

其中，M^t表示第t个动态运动特征，C^t表示第t个初始特征数据，

表示第t个初始特征数据中第i个关节点的坐标，m表示每个初始特征数据中包含的关节点的个数。

可选地，每帧图像的骨架数据可表示为多个关节点位置组成的关节点位置矩阵，将多个关节点位置矩阵输入到特征提取模型得到初始特征数据，实质上是对每帧图像中的所有关节点进行线性组合，得到线性组合后的新的关节点位置矩阵，新的关节点位置矩阵即为初始特征数据，该步骤的具体处理过程可以如下：将每帧图像的关节点位置矩阵的转置矩阵，分别与预先训练的系数矩阵相乘，确定相乘得到的每个矩阵的转置矩阵，得到每帧图像的骨架数据对应的初始特征数据。

在实施中，将得到线性组合后的新的关节点位置矩阵输入特征提取模型后，假设关节点位置矩阵用S_i来表示，该Si的维数为n×d。根据特征提取模型中的算法，先将每个关节点位置矩阵的行列互换，得到每帧图像的关节点位置矩阵的转置矩阵(S_i ^T)，该(S_i ^T)是一个维数为d×n的矩阵。然后，将得到的多个转置矩阵分别与系数矩阵W相乘，该W是预先训练好的、维数为n×m的系数矩阵，其中，m是预设的对关节点线性组合后得到的新的关节点的个数。得到相乘后的矩阵(S_i ^TW)，该(S_i ^TW)是维数为d×m的矩阵。最后，将相乘得到的矩阵(S_i ^TW)的行列互换，得到该矩阵的转置矩阵(S_i ^TW)^T，最终得到的转置矩阵是维数为d×m的矩阵，将最终得到的多个转置矩阵确定为每帧图像的骨架数据对应的初始特征数据，即初始特征数据C_i＝(S_i ^TW)^T。

在步骤103中，基于特征数据和预先训练的动作识别模型，确定多帧图像对应的动作属性信息，其中，动作属性信息包括动作类别。

可选地，当动作属性信息只包括动作类别时，在这种情况下，步骤103的处理可以如下：将特征数据，输入预先训练的卷积神经网络模型，得到中间向量；将中间向量输入softmax算法模型，得到多种动作类别分别与多帧图像的匹配概率；将匹配概率最高的动作类别，确定为多帧图像对应的动作类别。

在实施中，在某些实际应用场景中，各类电子设备了解用户的某连续多帧图像对应的动作类别，并对动作类别给予相应回应，以此实现人机交互，如体感游戏等。体感游戏是一种通过肢体动作变化来控制操作的新型电子游戏，游戏终端依靠相机捕捉三维空间中玩家的连续多帧图像，并根据玩家的骨架数据判断玩家的动作类别，例如，玩家在进行一款踢球类的体感游戏时，用脚踢仅存在于屏幕中的足球，游戏终端根据玩家的连续多帧图像判断玩家的动作类别是“踢球”，根据该动作类别相应的关联操作，控制屏幕中的足球飞出去，以此回应玩家的动作。

具体处理过程中，通过上述过程得到特征数据后，如图2所示，将特征数据输入到卷积神经网络模型，经过卷积神经网络的特征提取后，可以得到中间向量。将中间向量输入softmax算法模型，softmax算法模块可以计算中间向量中，每种动作类别的权重，将中间向量转换成概率向量，概率向量可以用于表示多种动作类别分别与多帧图像的匹配概率。其中，概率向量为q×1的向量，q为正整数，表示动作类别的个数。比较概率向量中的各分量大小，将匹配概率最高的动作类别，确定为这多帧图像对应的动作类别。

softmax算法模块的计算公式如下：

其中，D_i表示概率向量中的第i个分量，z_i表示中间向量中的第i个分量。

可选地，动作属性信息还可以包括动作起始概率和动作结束概率，在这种情况下，步骤103的处理可以如下：将特征数据，输入预先训练的卷积神经网络模型，得到第一中间向量；在第一中间向量中去除预设位置的第一数值和第二数值，得到第二中间向量；将第二中间向量输入softmax算法模型，得到多种动作类别分别与多帧图像的匹配概率；将匹配概率最高的动作类别，确定为多帧图像对应的动作类别，并将第一数据和第二数据，分别确定为动作起始概率和动作结束概率。

在实施中，在某些实际应用场景中，各类电子设备不仅需要了解某连续多帧图像对应的动作类别，还需要了解该动作起始概率以及动作结束概率，以此给予用户回应，实现人机交互，这种情况下，一般需要电子设备与图像采集设备相连接，对用户的动作进行实时识别。例如，一种智能看护机器人在看护老人时，如果检测到老人的动作类别是摔倒，且动作起始概率超过一定阈值，说明老人即将摔倒，智能看护机器人会根据相应的程序，及时将老人扶住，防止老人摔倒；如果检测到老人的动作类别是摔倒，且动作终止概率超过一定阈值，说明老人已经摔倒，智能看护机器人会根据相应的程序，对摔倒的老人进行辅助处理，如扶起老人、扫描老人身体状况等。

在这种情况下，通过上述步骤得到特征数据后，如图3所示，将特征数据输入预先训练的卷积神经网络模型，通过特征提取后，卷积神经网络模型输出第一中间向量，在该第一中间向量中，存在有预设位置的第一数值与第二数值，第一数值为动作起始概率的数值，第二数值为动作结束概率的数值。在第一中间向量中取出第一数值和第二数值，将第一数值和第二数值直接输出，将去除了第一数值和第二数值的向量确定为第二中间向量。将第二中间向量输入softmax算法模型，得到多种动作类别分别与多帧图像的匹配概率，将匹配概率最高的动作类别，确定为多帧图像对应的动作类别，该步骤按照上述相应的处理过程进行处理，在此不做赘述。同时，将输出的第一数值确定为动作起始概率，将输出的第二数值确定为动作结束概率。

需要说明的是，在这种情况下，模型训练过程可以是：首先，获取多个训练样本，每个训练样本中可以包括连续的多帧图像的样本骨架数据、该样本骨架数据对应的样本动作类别、样本动作起始概率以及样本动作结束概率。

然后，将样本骨架数据输入初始特征提取模型以及初始动作识别模型，得到预测动作类别、预测动作起始概率以及预测动作结束概率。然后，基于下述交叉熵损失函数，根据预测动作类别和样本动作类别，计算预测动作类别与样本动作类别之间的差异程度：

其中，y代表样本动作类别，p代表预测动作类别，L₁代表预测动作类别与样本动作类别之间的差异程度，N代表预测动作类别的向量的长度。

基于下述均方误差函数，根据预测动作起始概率与样本动作起始概率，以及预测动作结束概率与样本动作结束概率，分别计算预测动作起始概率与样本动作起始概率之间的差异程度、以及预测动作结束概率与样本动作结束概率之间的差异程度：

L₂＝(y1_true-y1_predict)²

L₃＝(y2_true-y2_predict)²

其中，L₂代表预测动作起始概率与样本动作起始概率之间的差异程度，y1_true代表样本动作起始概率，y1_predict代表预测动作起始概率；

L₃代表预测动作结束概率与样本动作结束概率之间的差异程度，y2_true代表样本动作结束概率，y2_predict代表预测动作结束概率。

根据下述公式计算总体差异程度：L＝L₁+L₂+L₃

最后，根据下述参数更新公式计算更新参数，相应的处理可以按照上述处理过程进行处理，在此不做赘述。

其中，w_i'表示所述更新参数，w_i表示初始特征提取模型以及初始动作识别模型中待训练的初始参数，α表示学习率。

可选地，当卷积神经网络模型中包括卷积层、池化层、maxOut层以及全连接层。

在实施中，如果待识别的多帧图像的骨架数据只包含一个物体的骨架数据，在这种情况下，上述卷积神经网络模型中可以包括若干个卷积层、若干个池化层以及全连接层，具体过程可以是：如图4所示，通过上述步骤得到初始特征数据以及动态特征数据后，将初始特征数据以及动态特征数据分别输入两个卷积神经网络模型中，两个卷积神经网络模型中的若干个卷积层、池化层分别对初始特征数据以及动态特征数据进行卷积池化处理，将处理后得到的特征输入卷积层和全连接层，得到卷积神经网络模型最终输出的中间向量。

如果待识别的多帧图像的骨架数据包含了多个物体的骨架数据，且这多个物体同时执行同一个动作，例如两个人握手、两个人拥抱等，在这种情况下，上述卷积神经网络模型中可以包括若干个卷积层、若干个池化层、maxout层以及全连接层。maxout层用于对两个或两个以上的数组逐个元素取最大值，maxout层这种特征融合方法使每个人的特征响应值产生竞争关系，最大的响应值才能留下，这样使网络模型自动选择判别能力强的特征输入到下一层，可以提高识别精度。

具体过程可以是：如图5所示，在骨架数据获取阶段，确定待识别的骨架数据对应的实际人数，并且把同一个人的关节点放在同一个数组。按照上述步骤处理得到初始特征数据以及动态特征数据后，将初始特征数据以及动态特征数据分别输入两个卷积神经网络模型中，两个卷积神经网络模型中的若干个卷积层、池化层分别对初始特征数据以及动态特征数据进行卷积池化处理，将处理后得到的特征输入maxout层，得到融合后的特征。将融合后的特征输入卷积层和全连接层，得到卷积神经网络模型最终输出的中间向量。

或者，上述过程也可以是，将初始特征数据以及动态特征数据分别输入两个卷积神经网络模型中，两个卷积神经网络模型中的若干个卷积层、池化层分别对初始特征数据以及动态特征数据进行卷积池化处理，将处理后得到的特征输入卷积层和全连接层，然后将得到的特征输入maxout层，得到融合后的特征。将融合后的特征输出，得到卷积神经网络模型最终输出的中间向量。

需要说明的是，当卷积神经网络模型中包含maxout层时，也可以用于识别待识别的多帧图像的骨架数据只包含一个物体的骨架数据的情况。

需要说明的是，上述步骤102中的特征提取模型以及动作识别模型是一个端到端的行为识别神经网络模型，其中，特征提取模型与动作识别模型均为该神经网络模型的一个子模型。向该神经网络模型输入连续的多帧图像的骨架数据，该神经网络模型直接输出该骨架数据对应的动作类别，简化了动作识别的操作过程，同时，训练好的神经网络模型在进行动作识别时，没有人工操作带来的误差，因此，可以提高动作识别的准确率。

基于相同的技术构思，本发明实施例还提供了一种识别动作类别的装置，该装置可以为上述实施例中的电子设备，如图6所示，该装置包括：获取模块610，提取模块620和确定模块630。

该获取模块610被配置为获取连续的多帧图像的骨架数据，其中，每帧图像的骨架数据包括多个关节点位置；

该提取模块620被配置为基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据；

该确定模块630被配置为基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，其中，所述动作属性信息包括动作类别。

可选地，所述特征数据包括初始特征数据和动态特征数据；

所述提取模块620被配置为：

可选地，所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述确定模块630被配置为：

所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述确定模块630被配置为：

可选地，如图7所示，所述装置还包括：

训练模块710被配置为获取连续的多帧图像的骨架数据之前，获取多个训练样本，其中，每个训练样本包括连续的多帧图像的样本骨架数据和对应的样本动作类别；

图8是本发明实施例提供的一种终端的结构框图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑。终端800还可能被称为用户设备、便携式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中提供的识别动作类别的方法。

在一些实施例中，终端800还可选包括有：***设备接口803和至少一个***设备。具体地，***设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

***设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏805还具有采集在触摸显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。触摸显示屏805用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，触摸显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，触摸显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，触摸显示屏805还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏805可以采用LCD(LiquidCrystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807用于提供用户和终端800之间的音频接口。音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，可以根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的正面。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本发明实施例提供的服务器的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，一个或一个以上键盘956，和/或，一个或一个以上操作***941，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器900可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行此一个或者一个以上程序来执行上述各个实施例所述的识别动作类别的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实施例中的识别动作类别的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别动作类别的方法，其特征在于，所述方法包括：

获取连续的多帧图像的骨架数据，其中，每帧图像的骨架数据包括多个关节点位置，所述每帧图像的骨架数据为多个关节点位置组成的关节点位置矩阵；

基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据，所述特征数据包括初始特征数据；

基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，其中，所述动作属性信息包括动作类别；

所述提取特征数据包括：将每帧图像的关节点位置矩阵的转置矩阵，分别与预先训练的系数矩阵相乘，确定相乘得到的每个矩阵的转置矩阵，得到每帧图像的骨架数据对应的初始特征数据。

2.根据权利要求1所述的方法，其特征在于，所述特征数据还包括动态特征数据；

3.根据权利要求1所述的方法，其特征在于，所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，包括：

将所述特征数据，输入预先训练的卷积神经网络模型，得到中间向量；

4.根据权利要求1所述的方法，其特征在于，所述动作属性信息还包括动作起始概率和动作结束概率；

将所述特征数据，输入预先训练的卷积神经网络模型，得到第一中间向量；

5.根据权利要求3或者4所述的方法，其特征在于，所述卷积神经网络模型中包括卷积层、池化层、MaxOut层以及全连接层。

6.根据权利要求1所述的方法，其特征在于，所述获取连续的多帧图像的骨架数据之前，还包括：

7.一种识别动作类别的装置，其特征在于，所述装置包括：

获取模块，用于获取连续的多帧图像的骨架数据，其中，每帧图像的骨架数据包括多个关节点位置，所述每帧图像的骨架数据为多个关节点位置组成的关节点位置矩阵；

提取模块，用于基于预先训练的特征提取模型，对所述多帧图像的骨架数据，提取特征数据，所述特征数据包括初始特征数据；

确定模块，用于基于所述特征数据和预先训练的动作识别模型，确定所述多帧图像对应的动作属性信息，其中，所述动作属性信息包括动作类别；

提取模块，还用于将每帧图像的关节点位置矩阵的转置矩阵，分别与预先训练的系数矩阵相乘，确定相乘得到的每个矩阵的转置矩阵，得到每帧图像的骨架数据对应的初始特征数据。

8.根据权利要求7所述的装置，其特征在于，所述特征数据还包括动态特征数据；

所述提取模块，用于：

9.根据权利要求7所述的装置，其特征在于，所述动作识别模型包括卷积神经网络模型和柔性最大值传输函数softmax算法模型，所述确定模块，用于：

10.根据权利要求7所述的装置，其特征在于，所述动作属性信息还包括动作起始概率和动作结束概率；

11.根据权利要求9或者10所述的装置，其特征在于，所述卷积神经网络模型中包括卷积层、池化层、MaxOut层以及全连接层。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现如权利要求1至6任一所述的识别动作类别的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至6任一所述的识别动作类别的方法。