CN111539349A

CN111539349A - 姿态识别模型的训练方法及装置、姿态识别方法及其装置

Info

Publication number: CN111539349A
Application number: CN202010343546.2A
Authority: CN
Inventors: 姜沛; 曹锋铭
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Shenzhen Saiante Technology Service Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-14
Also published as: WO2021217937A1

Abstract

本发明涉及人工智能，公开了一种姿态识别模型的训练方法，包括：获取人体样本图像和对应的人体样本姿态，将人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型。其中，第一姿态识别模型对应的沙漏网络的第一层数大于第二姿态识别模型对应的沙漏网络的第二层数。根据第一姿态识别模型的输出和第二姿态识别模型的输出，对第二姿态识别模型进行训练。当训练次数达到预设阈值时，完成对第二姿态识别模型的训练。此外，本案涉及区块链技术，所述人体样本图像和对应的人体样本姿态存储于区块链中。

Description

姿态识别模型的训练方法及装置、姿态识别方法及其装置

【技术领域】

本发明涉及人工智能技术领域，尤其涉及一种姿态识别模型的训练方法及装置、姿态识别方法及其装置。

【背景技术】

随着计算机视觉技术的不断发展，多人姿态识别技术不断出现到人们的生活中，比如说，在养老机构或者居家养老场景下，多人姿态识别技术能够对老人的危险动作进行识别，并进行告警，能够对老人的行动能力进行评估，以便对老人进行更好地照料。

多人姿态识别技术包括识别精度和识别速度两个指标，相关技术中，通过不断增加姿态识别模型的结构复杂度，提升识别精度，但是消耗了大量的***资源，技术落地成本较高。但是，通过简化模型的方式来提升识别速度，降低成本，又会导致识别精度降低。因此，亟需一种识别精度和识别速度都能够满足应用需求的姿态识别模型。

【发明内容】

有鉴于此，本发明实施例提供了一种姿态识别模型的训练方法及其装置，用以解决现有技术中简化模型导致识别精度降低的问题。

一方面，本发明实施例提供了一种姿态识别模型的训练方法，包括：获取人体样本图像和对应的人体样本姿态；将所述人体样本图像分别输入第一姿态识别模型和第二姿态识别模型；其中，所述第一姿态识别模型包括第一堆叠沙漏网络，所述第一堆叠沙漏网络包括第一层数的沙漏网络，所述第二姿态识别模型包括第二堆叠沙漏网络，所述第二堆叠沙漏网络包括第二层数的沙漏网络，所述第一层数大于所述第二层数；根据所述第一姿态识别模型的输出，对所述第一姿态识别模型进行训练，并根据所述第一姿态识别模型的输出和所述第二姿态识别模型的输出，对所述第二姿态识别模型进行训练；以及当训练次数达到预设阈值时，完成对所述第一姿态识别模型和所述第二姿态识别模型的训练。

可选地，所述第一姿态识别模型通过以下步骤进行训练：确定所述第一姿态识别模型的输出和所述人体样本姿态的第一差别；根据所述第一差别，对所述第一姿态识别模型的参数进行优化。

可选地，所述人体样本图像和对应的人体样本姿态存储于区块链中，所述根据所述第一姿态识别模型的输出和所述第二姿态识别模型的输出，对所述第二姿态识别模型进行训练，包括：确定所述第二姿态识别模型的输出和所述人体样本姿态的第二差别；确定所述第一姿态识别模型的输出和所述第二姿态识别模型的输出的第三差别；根据所述第二差别和所述第三差别，对所述第二姿态识别模型的参数进行优化。

可选地，所述根据所述第二差别和所述第三差别，对所述第二姿态识别模型的参数进行优化，包括：对所述第二差别和所述第三差别加权求和，以生成第四差别；其中，所述第二差别对应的权重和所述第三差别对应的权重之和为一；根据所述第四差别，对所述第二姿态识别模型的参数进行优化。

一方面，本发明实施例提供了一种姿态识别方法，包括：获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态；其中，所述人体姿态包括人体骨骼点的位置；将所述当前帧人体图像输入训练后的第二姿态识别模型；其中，所述第二姿态识别模型通过如前述姿态识别模型的训练方法训练后生成；根据所述上一帧人体图像对应的人体骨骼点的位置，生成所述当前帧人体图像对应的人体骨骼点的预测位置；以及根据所述第二姿态识别模型的输出，以及所述当前帧人体图像对应的人体骨骼点的预测位置，生成所述当前帧人体图像对应的人体姿态。

一方面，本发明实施例提供了一种姿态识别模型的训练装置，包括：第一获取模块，用于获取人体样本图像和对应的人体样本姿态；第一输入模块，用于将所述人体样本图像分别输入第一姿态识别模型和第二姿态识别模型；其中，所述第一姿态识别模型包括第一堆叠沙漏网络，所述第一堆叠沙漏网络包括第一层数的沙漏网络，所述第二姿态识别模型包括第二堆叠沙漏网络，所述第二堆叠沙漏网络包括第二层数的沙漏网络，所述第一层数大于所述第二层数；第一训练模块，用于根据所述第一姿态识别模型的输出，对所述第一姿态识别模型进行训练；第二训练模块，用于根据所述第一姿态识别模型的输出和所述第二姿态识别模型的输出，对所述第二姿态识别模型进行训练；以及完成模块，用于当训练次数达到预设阈值时，完成对所述第一姿态识别模型和所述第二姿态识别模型的训练。

可选地，所述装置还包括：确定模块，用于确定所述第一姿态识别模型的输出和所述人体样本姿态的第一差别；优化模块，用于根据所述第一差别，对所述第一姿态识别模型的参数进行优化。

可选地，所述训练模块，包括：第一确定子模块，用于确定所述第二姿态识别模型的输出和所述人体样本姿态的第二差别；第二确定子模块，用于确定所述第一姿态识别模型的输出和所述第二姿态识别模型的输出的第三差别；优化子模块，用于根据所述第二差别和所述第三差别，对所述第二姿态识别模型的参数进行优化。

可选地，所述优化子模块，包括：求和单元，用于对所述第二差别和所述第三差别加权求和，以生成第四差别；其中，所述第二差别对应的权重和所述第三差别对应的权重之和为一；优化单元，用于根据所述第四差别，对所述第二姿态识别模型的参数进行优化。

一方面，本发明实施例提供了一种姿态识别装置，包括：第二获取模块，用于获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态；其中，所述人体姿态包括人体骨骼点的位置；第二输入模块，用于将所述当前帧人体图像输入训练后的第二姿态识别模型；其中，所述第二姿态识别模型通过如前述姿态识别模型的训练装置训练后生成；第一生成模块，用于根据所述上一帧人体图像对应的人体骨骼点的位置，生成所述当前帧人体图像对应的人体骨骼点的预测位置；以及第二生成模块，用于根据所述第二姿态识别模型的输出，以及所述当前帧人体图像对应的人体骨骼点的预测位置，生成所述当前帧人体图像对应的人体姿态。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的姿态识别模型的训练方法的步骤。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的姿态识别方法的步骤。

一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的姿态识别模型的训练方法的步骤。

一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的姿态识别方法的步骤。

在本发明实施例中，利用层数较大的第一姿态识别模型的输出帮助层数较小的第二姿态识别模型进行训练，使得训练后的第二姿态识别模型的准确度接近第一姿态识别模型，但是数据处理量远小于第一姿态识别模型。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例所提供的一种姿态识别模型的训练方法的流程示意图；

图2为人体骨骼点的位置分布示意图；

图3为沙漏网络的结构示意图；

图4为堆叠沙漏网络的结构示意图；

图5为本发明实施例所提出的姿态识别方法的流程示意图；

图6为本发明实施例所提出的一种姿态识别模型的训练装置的结构示意图；

图7为本发明实施例所提出的一种姿态识别装置的结构示意图；以及

图8为本发明实施例提供的一种计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

基于前述对现有技术的说明，可以知道，多人姿态识别技术包括识别精度和识别速度两个指标。多人姿态识别技术在实现过程中具体包括两个步骤，步骤一是进行人体目标的检测，步骤二是对每个人体目标进行人体姿态的检测，其中，人体姿态的检测占用了整个实现过程约六分之五的时间。因此，对多人姿态识别技术进行识别速度提升，主要是对姿态识别模型进行简化，以使识别精度和识别速度都能够满足应用需求。

基于此，本发明实施例提供了一种姿态识别模型的训练方法，利用层数较大的第一姿态识别模型的输出帮助层数较小的第二姿态识别模型进行训练，使得训练后的第二姿态识别模型的准确度接近第一姿态识别模型，但是数据处理量远小于第一姿态识别模型。

图1为本发明实施例所提供的一种姿态识别模型的训练方法的流程示意图。如图1所示，该方法包括以下步骤：

步骤S101，获取人体样本图像和对应的人体样本姿态。

其中，人体样本图像是已经确定了人体姿态的图像，正确的识别结果是对应的人体样本姿态。因此，可以用于对姿态识别模型进行训练。需要强调的是，为进一步保证上述人体样本图像和对应的人体样本姿态的私密和安全性，上述人体样本图像和对应的人体样本姿态还可以存储于一区块链的节点中。

具体来说，人体姿态包括人体骨骼点的位置，图2为人体骨骼点的位置分布示意图。如图2所示，人身体的各个部分可以通过人体骨骼点进行确定，具体来说，对每个人体骨骼点进行编号，根据每个人体骨骼点在图像中的坐标，确定不同人体骨骼点之间的相对位置，从而对应不同的人体姿态。

步骤S102，将人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型。

其中，第一姿态识别模型包括第一堆叠沙漏网络，第一堆叠沙漏网络包括第一层数的沙漏网络，第二姿态识别模型包括第二堆叠沙漏网络，第二堆叠沙漏网络包括第二层数的沙漏网络，第一层数大于第二层数。

图3为沙漏网络的结构示意图。如图3所示，单个沙漏网络的输入为图像，输出为图像特征，将图像输入沙漏网络后，对图像的处理过程可以分为卷积路和跳级路两部分。其中，卷积路通过卷积路残差模块对图像进行卷积，将最后一个卷积路残差模块的输出作为第一个上采样模块的输入。

需要说明的是，图3中方块模型的大小代表着输入分辨率的大小，第一个卷积路残差模块的输出分辨率为输入分辨率的一半，而第二个卷积路残差模块的输入为第一个卷积路残差模块的输出，即第二个卷积路残差模块的输入分辨率为第一个卷积路残差模块的输出分辨率的一半。

此外，每一个上采样模块的输出分辨率为输入分辨率的两倍，使得上采样模块与卷积路残差模块一一对应。举例来说，图3中第四个卷积路神经网络的输出分辨率和第一个上采样模块的输入分辨率相等，第四个卷积路神经网络的输入分辨率和第一个上采样模块的输出分辨率相等。

而每一个跳级路残差模块的输入分辨率和输出分辨率相等，卷积路残差模块的输出一部分经过多个卷积路残差模块、以及多个上采样模块的处理，另一部分经过跳级路残差模块的处理，以相同的分辨率进行叠加。举例来说，第一个残差模块的输出一部分经过第二、三、四、五个卷积路残差模块处理，其中第五个卷积路残差模块的输入和输出分辨率相等，再经过第一、二、三个上采样模块进行上采样，分辨率和第一个残差模块的输出分辨率大小相同。第一个残差模块的输出经过跳级路残差模块的处理，分辨率保持不变，也是和第一个残差模块的输出分辨率大小相同。因此，第一个残差模块的输出的两部分经过不同的处理后，分辨率大小相同，能够进行叠加，叠加后的结果作为第四个上采样模块的输入。

基于上述对沙漏网络的结构的分析，沙漏网络输出的特征图像既保留了所有层的信息，又能够从中确定人体骨骼点。

图4为堆叠沙漏网络的结构示意图。如图4所示，将多个沙漏网络进行级联(前一个沙漏网络的输出作为下一个沙漏网络的输入)，即可得到堆叠沙漏网络，堆叠沙漏网络中下一个沙漏网络能够借助上一个沙漏网络确定的人体骨骼点之间的相互关系，使得下一个沙漏网络输出中人体骨骼点的确定更加准确。

应当理解，堆叠沙漏网络的层数越多，人体骨骼点的确定越准确。因此，第一姿态识别模型的准确度高于第二姿态识别模型，但是第一姿态识别模型在使用中数据处理量也大于第二姿态识别模型，识别速度较低。

本发明实施例旨在利用训练完的层数较大的第一姿态识别模型的输出帮助层数较小的第二姿态识别模型进行训练，使得训练后的第二姿态识别模型的准确度接近第一姿态识别模型，但是数据处理量远小于第一姿态识别模型。

步骤S103，根据第一姿态识别模型的输出和第二姿态识别模型的输出，对第二姿态识别模型进行训练。

需要说明的是，本发明实施例中，先对第一姿态识别模型进行训练，当第一姿态识别模型的识别准确度满足预设条件时，完成对第一姿态识别模型的训练，并利用训练完的第一姿态识别模型，对第二姿态识别模型进行训练。具体来说，将人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型，得到第一姿态识别模型和第二姿态识别模型的输出。根据第一姿态识别模型的输出和第二姿态识别模型的输出，对第二姿态识别模型进行训练。

举例来说，第一姿态识别模型可以包括8层堆叠的沙漏网络，第二姿态识别模型可以包括4层堆叠的沙漏网络，使得第二姿态识别模型在使用时，数据处理量远小于第一姿态识别模型，从而提升识别速度。此外，第二姿态识别模型输入的特征向量的维度也应当小于第一姿态识别模型，比如说第一姿态识别模型输入的特征向量的维度可以是256维，第二姿态识别模型输入的特征向量的维度可以是128维，从而使得第二姿态识别模型的数据处理量小于第一姿态识别模型。

具体来说，本发明实施例中的第一姿态识别模型通过以下步骤进行训练：

步骤S11，确定第一姿态识别模型的输出和人体样本姿态的第一差别。

其中，第一姿态识别模型的输出为人体骨骼点，人体骨骼点为坐标的形式。具体来说，第一姿态识别模型输出的第k个人体骨骼点的坐标(x，y)，人体样本姿态中第k个人体骨骼点的坐标为(x_k，y_k)，则根据公式

计算第k个人体骨骼点的分布情况，其中σ²为高斯分布的方差，根据公式

计算第一姿态识别模型的输出和人体样本姿态的第一差别。

步骤S12，根据第一差别，对第一姿态识别模型的参数进行优化。

需要说明的是，使用梯度下降法，可以对第一姿态识别模型的参数进行优化，使得L₁逐渐减小。

步骤S103，根据第一姿态识别模型的输出和第二姿态识别模型的输出，对第二姿态识别模型进行训练，包括：

步骤S21，确定第二姿态识别模型的输出和人体样本姿态的第二差别。

可以理解，第二姿态识别模型的输出也是人体骨骼点，第k个人体骨骼点的坐标(x，y)，人体样本姿态中第k个人体骨骼点的坐标为(x_k，y_k)，则根据公式

计算第二姿态识别模型的输出和人体样本姿态的第二差别。

步骤S22，确定第一姿态识别模型的输出和第二姿态识别模型的输出的第三差别。

具体地，根据公式

计算第一姿态识别模型的输出和第二姿态识别模型的输出的第三差别。其中，

为训练完的第一姿态识别模型的输出。

步骤S23，根据第二差别和第三差别，对第二姿态识别模型的参数进行优化。

一种可能的实现方式是，对第二差别和第三差别加权求和，以生成第四差别。其中，第二差别对应的权重和第三差别对应的权重之和为一，根据第四差别，对第二姿态识别模型的参数进行优化。具体来说，根据公式L₄＝wL₃+(1-w)L₂计算第四差别。使用梯度下降法，可以对第二姿态识别模型的参数进行优化，使得L₄逐渐减小。

步骤S104，当训练次数达到预设阈值时，完成对第二姿态识别模型的训练。

需要说明的是，在使用梯度下降法对第二姿态识别模型的参数进行优化时，需要不断调整梯度下降法中的学习率，即梯度下降过程中的步长，随着参数的不断优化，需要不断减小学习率，来减小参数优化的幅度。比如说，人体样本图像库中有40k的人体样本图像，将其中29k的人体样本图像作为训练数据，将剩余的11k的人体样本图像作为测试数据，训练开始时，将学习率的数值设置为0.01，将29k的人体样本图像全部训练完，并将剩余的11k全部测试完，得到对应的识别准确度，作为一次训练。训练次数为120次时，将学习率的数值调整为0.001，训练次数达到200次时，将学习率的数值调整为0.0001，训练次数达到250次时，完成对第二姿态识别模型的训练。

综上所述，本发明实施例所提出的姿态识别模型的训练方法，获取人体样本图像和对应的人体样本姿态，将人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型。其中，第一姿态识别模型对应的沙漏网络的第一层数大于第二姿态识别模型对应的沙漏网络的第二层数。根据第一姿态识别模型的输出和第二姿态识别模型的输出，对第二姿态识别模型进行训练。当训练次数达到预设阈值时，完成对第二姿态识别模型的训练。由此，实现了利用训练完的层数较大的第一姿态识别模型的输出帮助层数较小的第二姿态识别模型进行训练，使得训练后的第二姿态识别模型的准确度接近第一姿态识别模型，但是数据处理量远小于第一姿态识别模型。

为了能将本发明实施例所提出的姿态识别模型的训练方法训练出的第二姿态识别模型用于人体图像的姿态识别，本发明实施例还提出了一种姿态识别方法，图5为本发明实施例所提出的姿态识别方法的流程示意图。如图5所示，该方法包括以下步骤：

步骤S201，获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态。

其中，人体姿态包括人体骨骼点的位置。需要强调的是，为进一步保证上述人体样本图像和对应的人体样本姿态的私密和安全性，上述人体样本图像和对应的人体样本姿态还可以存储于一区块链的节点中。

需要说明的是，由于本发明实施例所训练出的第二姿态识别模型的准确度不如第一姿态识别模型，为了弥补第二姿态识别模型在准确度上的不足，本发明实施例使用光流算法对第二姿态识别模型的识别准确度进行补偿。

其中，光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，光流算法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

在本发明实施例中，光流算法通过对上一帧人体图像中人体骨骼点的位置进行分析，能够对当前帧人体图像中对应的人体骨骼点的位置进行预测。

步骤S202，将当前帧人体图像输入训练后的第二姿态识别模型。

其中，第二姿态识别模型通过如前述姿态识别模型的训练方法训练后生成。

应当理解，和第一姿态识别模型相比，第二姿态模型的数据处理量较小，因此识别速度较快。

步骤S203，根据上一帧人体图像对应的人体骨骼点的位置，生成当前帧人体图像对应的人体骨骼点的预测位置。

步骤S204，根据第二姿态识别模型的输出，以及当前帧人体图像对应的人体骨骼点的预测位置，生成当前帧人体图像对应的人体姿态。

具体来说，对于前一帧人体图像对应的人体骨骼点，根据前一帧和当前帧人体图像对应的光流，得到当前帧人体图像对应的人体骨骼点的预测位置。根据公式

计算得到当前帧人体图像对应的人体姿态。其中，

是当前帧人体图像对应的第k个人体骨骼点的预测位置，K_cur是第二姿态识别模型的输出中第k个人体骨骼点的位置，

是当前帧人体图像对应的第k个人体骨骼点的位置，α为修正系数，为0.25-0.3之间的常量。根据全部人体骨骼点的位置，可以确定当前帧人体图像对应的人体姿态。

综上所述，本发明实施例所提出的姿态识别方法，获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态。将当前帧人体图像输入训练后的第二姿态识别模型，根据上一帧人体图像对应的人体骨骼点的位置，生成当前帧人体图像对应的人体骨骼点的预测位置。根据第二姿态识别模型的输出，以及当前帧人体图像对应的人体骨骼点的预测位置，生成当前帧人体图像对应的人体姿态。由此，实现了利用光流算法，对第二姿态识别模型的输出进行补偿，提升了人体姿态识别的准确度。

为了实现上述实施例，本发明实施例还提出了一种姿态识别模型的训练装置，图6为本发明实施例所提出的一种姿态识别模型的训练装置的结构示意图。如图6所示，该装置包括：第一获取模块310，第一输入模块320，训练模块330，完成模块340。

第一获取模块310，用于获取人体样本图像和对应的人体样本姿态。

第一输入模块320，用于将人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型。

训练模块330，用于根据第一姿态识别模型的输出和第二姿态识别模型的输出，对第二姿态识别模型进行训练。

完成模块340，用于当训练次数达到预设阈值时，完成对第二姿态识别模型的训练。

进一步地，为了对第一姿态识别模型的参数进行优化，一种可能的实现方式是，该装置还包括：确定模块350，用于确定第一姿态识别模型的输出和人体样本姿态的第一差别。优化模块360，用于根据第一差别，对第一姿态识别模型的参数进行优化。

进一步地，为了对第二姿态识别模型的参数进行优化，一种可能的实现方式是，训练模块330，包括：第一确定子模块331，用于确定第二姿态识别模型的输出和人体样本姿态的第二差别。第二确定子模块332，用于确定第一姿态识别模型的输出和第二姿态识别模型的输出的第三差别。优化子模块333，用于根据第二差别和第三差别，对第二姿态识别模型的参数进行优化。

进一步地，为了综合考虑第二差别和第三差别，对第二姿态识别模型的参数进行优化，一种可能的实现方式，优化子模块333，包括：求和单元333a，用于对第二差别和第三差别加权求和，以生成第四差别。其中，第二差别对应的权重和第三差别对应的权重之和为一。优化单元333b，用于根据第四差别，对第二姿态识别模型的参数进行优化。

需要说明的是，前述对姿态识别模型的训练方法实施例的解释说明也适用于该实施例的姿态识别模型的训练装置，此处不再赘述。

综上所述，本发明实施例所提出的姿态识别模型的训练装置，在对姿态识别模型进行训练时，获取人体样本图像和对应的人体样本姿态，将人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型。其中，第一姿态识别模型对应的沙漏网络的第一层数大于第二姿态识别模型对应的沙漏网络的第二层数。根据第一姿态识别模型的输出和第二姿态识别模型的输出，对第二姿态识别模型进行训练。当训练次数达到预设阈值时，完成对第二姿态识别模型的训练。由此，实现了利用训练完的层数较大的第一姿态识别模型的输出帮助层数较小的第二姿态识别模型进行训练，使得训练后的第二姿态识别模型的准确度接近第一姿态识别模型，但是数据处理量远小于第一姿态识别模型。

为了实现上述实施例，本发明实施例还提出了一种姿态识别装置，图7为本发明实施例所提出的一种姿态识别装置的结构示意图。如图7所示，该装置包括：第二获取模块410，第二输入模块420，第一生成模块430，第二生成模块440。

第二获取模块410，用于获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态。

第二输入模块420，用于将当前帧人体图像输入训练后的第二姿态识别模型。

其中，第二姿态识别模型通过前述姿态识别模型的训练装置训练后生成。

第一生成模块430，用于根据上一帧人体图像对应的人体骨骼点的位置，生成当前帧人体图像对应的人体骨骼点的预测位置。

第二生成模块440，用于根据第二姿态识别模型的输出，以及当前帧人体图像对应的人体骨骼点的预测位置，生成当前帧人体图像对应的人体姿态。

需要说明的是，前述对姿态识别方法实施例的解释说明也适用于该实施例的姿态识别装置，此处不再赘述。

综上所述，本发明实施例所提出的姿态识别装置，在进行姿态识别时，获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态。将当前帧人体图像输入训练后的第二姿态识别模型，根据上一帧人体图像对应的人体骨骼点的位置，生成当前帧人体图像对应的人体骨骼点的预测位置。根据第二姿态识别模型的输出，以及当前帧人体图像对应的人体骨骼点的预测位置，生成当前帧人体图像对应的人体姿态。由此，实现了利用光流算法，对第二姿态识别模型的输出进行补偿，提升了人体姿态识别的准确度。

为了实现上述实施例，本发明实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如前述方法实施例的姿态识别模型的训练方法的步骤。

为了实现上述实施例，本发明实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如前述方法实施例的姿态识别方法的步骤。

图8为本发明实施例提供的一种计算机设备的示意图。如图8所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的姿态识别模型的训练方法和姿态识别方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中基于婴儿哭声的情绪检测装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图8仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

为了实现上述实施例，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如前述方法实施例的姿态识别模型的训练方法的步骤。

为了实现上述实施例，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如前述方法实施例的姿态识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种姿态识别模型的训练方法，其特征在于，包括：

获取人体样本图像和对应的人体样本姿态；

将所述人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型；其中，所述第一姿态识别模型包括第一堆叠沙漏网络，所述第一堆叠沙漏网络包括第一层数的沙漏网络，所述第二姿态识别模型包括第二堆叠沙漏网络，所述第二堆叠沙漏网络包括第二层数的沙漏网络，所述第一层数大于所述第二层数；

根据所述第一姿态识别模型的输出和所述第二姿态识别模型的输出，对所述第二姿态识别模型进行训练；以及

当训练次数达到预设阈值时，完成对所述第二姿态识别模型的训练。

2.如权利要求1所述的训练方法，其特征在于，所述第一姿态识别模型通过以下步骤进行训练：

确定所述第一姿态识别模型的输出和所述人体样本姿态的第一差别；

根据所述第一差别，对所述第一姿态识别模型的参数进行优化。

3.如权利要求2所述的训练方法，其特征在于，所述人体样本图像和对应的人体样本姿态存储于区块链中，所述根据所述第一姿态识别模型的输出和所述第二姿态识别模型的输出，对所述第二姿态识别模型进行训练，包括：

确定所述第二姿态识别模型的输出和所述人体样本姿态的第二差别；

确定所述第一姿态识别模型的输出和所述第二姿态识别模型的输出的第三差别；

根据所述第二差别和所述第三差别，对所述第二姿态识别模型的参数进行优化。

4.一种姿态识别方法，其特征在于，包括：

获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态；其中，所述人体姿态包括人体骨骼点的位置；

将所述当前帧人体图像输入训练后的第二姿态识别模型；其中，所述第二姿态识别模型通过如权利要求1-3中任一项所述姿态识别模型的训练方法训练后生成；

根据所述上一帧人体图像对应的人体骨骼点的位置，生成所述当前帧人体图像对应的人体骨骼点的预测位置；以及

根据所述第二姿态识别模型的输出，以及所述当前帧人体图像对应的人体骨骼点的预测位置，生成所述当前帧人体图像对应的人体姿态。

5.一种姿态识别模型的训练装置，其特征在于，包括：

第一获取模块，用于获取人体样本图像和对应的人体样本姿态；

第一输入模块，用于将所述人体样本图像分别输入训练完的第一姿态识别模型和第二姿态识别模型；其中，所述第一姿态识别模型包括第一堆叠沙漏网络，所述第一堆叠沙漏网络包括第一层数的沙漏网络，所述第二姿态识别模型包括第二堆叠沙漏网络，所述第二堆叠沙漏网络包括第二层数的沙漏网络，所述第一层数大于所述第二层数；

训练模块，用于根据所述第一姿态识别模型的输出和所述第二姿态识别模型的输出，对所述第二姿态识别模型进行训练；以及

完成模块，用于当训练次数达到预设阈值时，完成对所述第二姿态识别模型的训练。

6.一种姿态识别装置，其特征在于，所述人体样本图像和对应的人体样本姿态存储于区块链中，包括：

第二获取模块，用于获取待识别的当前帧人体图像，和上一帧人体图像对应的人体姿态；其中，所述人体姿态包括人体骨骼点的位置；

第二输入模块，用于将所述当前帧人体图像输入训练后的第二姿态识别模型；其中，所述第二姿态识别模型通过如权利要求5所述姿态识别模型的训练装置训练后生成；

第一生成模块，用于根据所述上一帧人体图像对应的人体骨骼点的位置，生成所述当前帧人体图像对应的人体骨骼点的预测位置；以及

第二生成模块，用于根据所述第二姿态识别模型的输出，以及所述当前帧人体图像对应的人体骨骼点的预测位置，生成所述当前帧人体图像对应的人体姿态。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的姿态识别模型的训练方法的步骤。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求4所述的姿态识别方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的姿态识别模型的训练方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求4所述的姿态识别方法的步骤。