CN115410182A

CN115410182A - 人体姿态估计方法、装置、存储介质及计算机设备

Info

Publication number: CN115410182A
Application number: CN202211013842.1A
Authority: CN
Inventors: ***; 吴士泓; 王瑞平; 李孟全
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-29

Abstract

本申请实施例公开了一种人体姿态估计方法、装置、存储介质及计算机设备，涉及图像处理领域。本申请对输入图像进行仿射变换，然后利用目标检测算法检测出变换后的图像中的人体目标及位置，基于人体目标的位置对变换后的图像进行裁剪，然后将裁剪后的图像进行卷积得到低分辨率图像，深度高分辨率表示学习网络对低分辨率图像进行处理得到姿态估计结果，达到降低网络整体的参数量和运算量的效果。

Description

人体姿态估计方法、装置、存储介质及计算机设备

技术领域

本申请涉及图像处理领域，尤其涉及一种人体姿态估计方法、装置、存储介质及计算机设备。

背景技术

随着深度学习技术的热度逐渐增高，人工智能得以飞速发展，所衍生的自动驾驶技术也越来越被人们重视,研究者希望利用自动驾驶技术安全辅助驾驶，守护司机及行人安全。自然场景下司机和行人的运动均具有连贯性和可预测性,由此可知驾驶员驾驶状态和行人的人体姿态可作为决策***的输入因素之一，从而高效地辅助驾驶。自动驾驶场景中对人体姿态估计的实时性要求较高，人体姿态估计任务相关的图像处理、推理计算过程可以完全在车载终端完成，这样就能在一定程度上避免网络时延、信道阻塞等问题，因此需要设计一个能够在自动驾驶终端上高效运行的人体姿态估计***算法。针对此背景下提出一种基于高分辨率表示学习网络(deep high-resolution representation learning)的人体姿态估计优化算法，该方法主要是利用卷积神经网络从图像中提取特征，借助卷积神经网络得到更丰富的图像特征，目前使用的高分辨率表示学习网络由于整个通道维持高分辨率特性，因此运算量较大。

发明内容

本申请实施例提供了人体姿态估计方法、装置、存储介质及计算机设备，可以解决现有技术执行人体姿态估计运算量较大的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种人体姿态估计方法，所述方法包括：

获取输入图像；

对所述输入图像进行仿射变换；

在变换后的图像中检测出人体目标和所述人体目标的位置；

根据所述人体目标的位置对所述变换后的图像进行裁剪；

将裁剪后的图像进行卷积；

将卷积后的图像输入到深度高分辨率表示学习网络得到姿态估计结果。

第二方面，本申请实施例提供了一种人体姿态估计装置，所述装置包括：

获取单元，用于获取输入图像；

变换单元，用于对所述输入图像进行仿射变换；

检测单元，用于在变换后的图像中检测出人体目标和所述人体目标的位置；

裁剪单元，用于根据所述人体目标的位置对所述变换后的图像进行裁剪；

卷积单元，用于将裁剪后的图像进行卷积；

估计单元，用于将卷积后的图像输入到深度高分辨率表示学习网络得到姿态估计结果。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种计算机设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

对输入图像进行仿射变换，然后利用目标检测算法检测出变换后的图像中的人体目标及位置，基于人体目标的位置对变换后的图像进行裁剪，然后将裁剪后的图像进行卷积得到低分辨率图像，深度高分辨率表示学习网络对低分辨率图像进行处理得到姿态估计结果，本申请通过对输入图片仿射变换以增强人体目标和背景的区分度，然后通过裁剪和卷积操作减小深度高分辨率表示学习网络输入的数据量，从而达到降低网络整体的参数量和运算量的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的人体姿态估计方法的流程示意图；

图2是本申请实施例提供的目前使用的多通道特征提取的原理示意图；

图3是本申请实施例提供的改进的多通道特征提取的原理示意图

图4是本申请提供的一种人体姿态估计装置的结构示意图；

图5是本申请提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

需要说明的是，本申请提供的人体姿态估计方法一般由计算机设备执行，相应的，人体姿态估计装置一般设置于计算机设备中。

本申请的计算机设备包括但不限于：智能手机、平板电脑、膝上型便携式计算机、台式计算机、车载计算机、舰载计算机或其他设备设置的计算机等等。当计算机设备为软件时，可以是安装上述所列举的计算机设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

计算机设备还可以安装有显示设备和摄像头，显示设备显示可以是各种能实现显示功能的设备，摄像头用于采集视频流；例如：显示设备可以是阴极射线管显示器(cathoderay tube display，简称CR)、发光二极管显示器(light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(liquid crystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用计算机设备上的显示设备，来查看显示的文字、图片、视频等信息。

下面将结合附图1，对本申请实施例提供的人体姿态估计方法进行详细介绍。其中，本申请实施例中的人体姿态估计装置可以是图1所示的计算机设备。

请参见图1，为本申请实施例提供了一种人体姿态估计方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101、获取输入图像。

在本申请实施例中，输入图像是图像采集单元采集，图像采集单元可以是内置于计算机设备中或外置于计算机设备。输入图像的数量可以为一个或多个，计算机设备可以对静态图像或动态视频中的人体目标进行姿态估计。

S102、对输入图像进行仿射变换。

在本申请实施例中，对输入图像进行线性变换和平移组成的仿射变换可以有效保持变换过程中的平行性，增加输入图像的质量，便于后续进行处理。

S103、在变换后的图像中检测出人体目标和人体目标的位置。

在本申请实施例中，目标检测算法用于识别出图像中的目标类别和位置，计算机设备利用目标检测算法在S102变换后的图像中检测出人体目标和人体目标的位置，检测出的人体目标的数量可能为一个或多个，人体目标在图像中的位置可以通过检测框进行标记。其中，当检测出的人体目标的数量为多个时，通过不同颜色的检测框对人体目标进行标记，以便用户进行区分。

进一步，本申请可以利用Faster-RCNN(Faster Region Convolutional NeuralNetwork，快速区域卷积神经网络)完成人体目标的识别和定位，通过检测框的方式在图像中标记出人体目标。

S104、根据人体目标的位置对变换后的图像进行裁剪。

在本申请实施例中，计算机设备根据人体目标的位置将对变换后的图像进行裁剪，保留图像中人体目标的区域，剔除图像中与人体目标无关的区域。进一步的，本申请可以基检测框对变换后的图像进行裁剪，仅保留检测框内的像素区域。裁剪后的图像仍保留人体姿态的丰富信息，在后续使用深度高分辨率表示学习网络进行姿态估计时，可以减少姿态识别的数据量，进一步减小网络的参数量，从而限制网络模型的大小。

S105、对裁剪后的图像进行卷积。

在本申请实施例中，计算机设备对S104中裁剪得到的图像进行两次卷积，实现对图像的下采样，以降低图像的分辨率，进一步降低后续深度高分辨率表示学习网络的输入数据量。可选的，本申请通过两次卷积使得卷积后图像的分辨率下降为原来的1/4。

S106、将卷积的图像输入到深度高分辨率表示学习网络得到姿态估计结果。

在本申请实施例中，将S105卷积后的图像输入到深度高分辨率表示学习(deephigh-resolution representation learning)网络中，得到姿态估计结果，姿态估计结果通过在图像中标记人体关键点的坐标来表示，人体关键点包括：头部关键点、肩膀关键点、颈部关键点、肩膀关键点、手臂关键点、大腿关键点和足部关键点等。

进一步的，本申请的计算机设备可以为车载计算机，车载计算机通过驾驶室内置的摄像头实时采集一个或多个输入图像，基于S101～S106的估计方法估计得到姿态估计结果，根据姿态估计结果判断当前用户姿态和预设的标准用户姿态是否匹配，判断匹配的方法可以是：姿态估计结果使用人体姿态向量来表示，计算该人体姿态相连和预设的模板姿态向量之间的相似度，基于相似度来判断是否匹配。若不匹配，计算机设备对驾驶室内的用户进行提醒，例如：进行声音提醒、发光提醒或冷气提醒等，以便提醒用户当前姿态不符合标准，避免疲劳驾驶，提升行车安全。

其中，在深度高分辨率表示学习网络中，通过不断变换并行多分支结构实现高分辨率特征图的全局传递，利用高分辨率特性完成人体姿态估计过程。为保证不同分支的交叉融合会产生大量的卷积采样操作，造成目前使用的深度高分辨率表示学习网络的参数量较多以及结构复杂度较高的问题。

其中，输入特征图的聚合输出为：

不同阶段交换单元的输出特征图为：N_s+1＝a(N_s,s+1)。

公式中s为并行分支子网数，输入特征图采用矩阵表示为:{M₁,M₂,...,M_S}，输出特征图采用矩阵表示为{N₁,N₂,...,N_S}。高分辨率网络中不同并行分支多尺度融合过程：i、k分别代表不同通道中的分辨率，若i＞k，网络采用大小为3×3的卷积核进行下采样操作，使得输入特征图分辨率从i降低到k；若i＝k，代表分支网络对应分辨率相同，不执行采样操作；若i＜k，将使用最近邻上采样使得输入特征图分辨率从i提高到k。

举例来说，参见图2所示目前使用的多通道特征提取的原理示意图，第1组包括3个不同尺度的输入特征图，将3个输入特征图并行转换相同分辨率的输出特征图，该组中第1个输入特征图的分辨率和输出特征图的分辨率相同，不执行采样操作；该组中第2个输入特征图的分辨率小于输出特征图的分辨率，因此执行上采样(1×1的卷积核)操作；该组中第3个输入特征图的分辨率也小于输出特征图的分辨率，执行两次上采样(1×1的卷积核)。

第2组包括3个不同尺度的输入特征图，将3个输入特征图并行转换为相同分辨率的输出特征图。该组中第1个输入特征图的分辨率大于输出特征图的分辨率，采用3×3的卷积核进行下采样；该组中第2个输入特征图的分辨率等于输出特征图的分辨率，不执行采样操作；该组中第3个输入特征图的分辨率小于输出特征图的分辨率，采用1×1的卷积核进行上采样。

第3组包括3个不同尺度的输入特征图，将3个输入特征图并行转换为相同分辨率的输出特征图。该组中第1个输入特征图的分辨率大于输出特征图的分辨率，采用3×3的卷积核执行两次下采样；该组中第2个输入特征图的分辨率大于输出特征图的分辨率，采用3×3的卷积核执行一次下采样；该组中第3个输入特征图的分辨率等于输出特征图的分辨率，不执行采样操作。

由此可以看出，通过对深度高分辨率表示学习网络在判断并行通道的各个输入特征图和输出特征图之间的分辨率大小关系后，为了变换输入特征图的分辨率达到相同，会执行一次或多次上采样和下采样，从而增加大量的计算开销。

在本申请实施例中，为了解决上述问题，借助不同空洞卷积采样间隔构成空洞卷积金字塔网络。设置与原始的高分辨率表示学习网络相对应的采样间隔，完成对并行多分支结构最后阶段的特征提取工作，较大程度的降低原始高分辨率表示学习网络中的参数量。空洞卷积金字塔网络的层数和最终的输出特征图的数量相等，即各个空洞卷积层输出不同尺度的输出特征图。

举例来说，参见图3所示的改进的多通道并行特征提取的原理示意图，空洞卷积金字塔网络设置有3个空洞卷积层，不同间隔采样是根据输入特征图分辨率大小而发生调整的，对于图3中三层不同的特征图分支分别对应空洞卷积金字塔网络中不同间隔采样的卷积操作，对于第一层分辨率最大，相应的卷积采样间隔也最大，第二层特征图分辨率是由第一层下采样等到，为第一层的一半，所对应的空洞卷积中的采样间隔同样为第一层的一半大小，以此类推第三层为第二层的一半分别输出不同尺度的输出特征图，完成最后阶段的特征提取过程，得到最终的输出特征图，相较于原始的高分辨率表示学习网络在图2中使用的特征提取过程，优化后特征提取过程会产生更少的参数量，能有效降低模型大小，为模型下一步部署到移动端提供便利。

本申请实施例中，基于高分辨率的人体姿态估计优化检测模型具有多通道融合高分辨率特征图来预测关键点位置的先进性，同时具备低参数量、低网络运算复杂度的优点。能有效压缩网络训练模型的大小，便于移动端算法的部署；优化设计网络中空洞卷积的特征图提取过程是扩大感受野，减小不必要卷积参数量产生的有效手段，能有效避免传统卷积神经网络中池化层对有效语义信息的剔除造成特征图预测性能降低等不利现状；注意力机制的构建能对特征图在空间和通道两个方面进行权值分配，抑制无关信息，达到提高特征图质量的目的，该模块应用到优化后的高分辨率检测网络，能减小空洞卷积因卷积核间隔过大所带来的网络特征图质量下降，一定程度上保证人体姿态估计的高性能检测。

本申请实施例在估计人体姿态时，对输入图像进行仿射变换，然后利用目标检测算法检测出变换后的图像中的人体目标及位置，基于人体目标的位置对变换后的图像进行裁剪，然后将裁剪后的图像进行卷积得到低分辨率图像，深度高分辨率表示学习网络对低分辨率图像进行处理得到姿态估计结果，本申请通过对输入图片仿射变换以增强人体目标和背景的区分度，然后通过裁剪和卷积操作减小深度高分辨率表示学习网络输入的数据量，从而达到降低网络整体的参数量和运算量的效果。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图4，其示出了本申请一个示例性实施例提供的人体姿态估计装置的结构示意图，以下简称装置4。该装置4可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。装置4包括：获取单元401、变换单元402、检测单元403、裁剪单元404、卷积单元405和估计单元406。

获取单元401，用于获取输入图像；

变换单元402，用于对所述输入图像进行仿射变换；

检测单元403，用于在变换后的图像中检测出人体目标和所述人体目标的位置；

裁剪单元404，用于根据所述人体目标的位置对所述变换后的图像进行裁剪；

卷积单元405，用于将裁剪后的图像进行卷积；

估计单元406，用于将卷积后的图像输入到深度高分辨率表示学习网络得到姿态估计结果。

在一个或多个可能的实施例中，所述在变换后的图像中检测出人体目标和所述人体目标的位置，包括：

根据Faster-RCNN在变换后的图像中检测出人体目标和所述人体目标的位置。

在一个或多个可能的实施例中，所述根据所述人体目标的位置对所述变换后的图像进行裁剪，包括：

根据Faster-RCNN在变换后的图像中标记出检测框；

基于所述检测框内的像素区域生成裁剪后的图像。

在一个或多个可能的实施例中，利用空洞卷积金字塔网络进行多尺度特征图的提取。

在一个或多个可能的实施例中，对裁剪后的图像进行两次卷积，卷积后的分辨率减少为裁剪前的图像的1/4。

在一个或多个可能的实施例中，所述获取输入图像，包括：

通过车辆驾驶室内置的摄像头采集一个或多个输入图像。

在一个或多个可能的实施例中，还包括：

提醒单元，用于根据姿态估计结果判断当前用户姿态和标准用户姿态是否匹配，若为否，对用户进行提醒。

需要说明的是，上述实施例提供的装置4在执行人体姿态估计方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成上述的全部或者部分功能。另外，上述实施例提供的人体姿态估计装置与人体姿态估计方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤，具体执行过程可以参见图1所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的人体姿态估计方法。

请参见图5，为本申请实施例提供了一种计算机设备的结构示意图。如图5所示，所述计算机设备500可以包括：至少一个处理器501，至少一个网络接口504，用户接口503，存储器505，至少一个通信总线502。

其中，通信总线502用于实现这些组件之间的连接通信。

其中，用户接口503可以包括显示屏(Display)、摄像头(Camera)，可选用户接口503还可以包括标准的有线接口、无线接口。

其中，网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器501可以包括一个或者多个处理核心。处理器501利用各种接口和线路连接整个计算机设备500内的各个部分，通过运行或执行存储在存储器505内的指令、程序、代码集或指令集，以及调用存储在存储器505内的数据，执行计算机设备500的各种功能和处理数据。可选的，处理器501可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器501中，单独通过一块芯片进行实现。

其中，存储器505可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示，作为一种计算机存储介质的存储器505中可以包括操作***、网络通信模块、用户接口模块以及应用程序。

在图5所示的计算机设备500中，用户接口503主要用于为用户提供输入的接口，获取用户输入的数据；而处理器501可以用于调用存储器505中存储的应用程序，并具体执行如图1所示的方法，具体过程可参照图1所示，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种人体姿态估计方法，其特征在于，包括：

获取输入图像；

对所述输入图像进行仿射变换；

在变换后的图像中检测出人体目标和所述人体目标的位置；

根据所述人体目标的位置对所述变换后的图像进行裁剪；

将裁剪后的图像进行卷积；

2.根据权利要求1所述的方法，其特征在于，所述在变换后的图像中检测出人体目标和所述人体目标的位置，包括：

根据Faster-RCNN快速区域卷积神经网络在变换后的图像中检测出人体目标和所述人体目标的位置。

3.根据权利要求2所述的方法，其特征在于，所述根据所述人体目标的位置对所述变换后的图像进行裁剪，包括：

根据Faster-RCNN在变换后的图像中标记出检测框；

基于所述检测框内的像素区域生成裁剪后的图像。

4.根据权利要求1或2或3所述的方法，其特征在于，利用空洞卷积金字塔网络进行多尺度特征图的提取。

5.根据权利要求4所述的方法，其特征在于，对裁剪后的图像进行两次卷积，卷积后的分辨率减少为裁剪前的图像的1/4。

6.根据权利要求1或2或3或5所述的方法，其特征在于，所述获取输入图像，包括：

通过车辆驾驶室内置的摄像头采集一个或多个输入图像。

7.根据权利要求6所述的方法，其特征在于，还包括：

根据姿态估计结果判断当前用户姿态和标准用户姿态是否匹配，若为否，对用户进行提醒。

8.一种人体姿态估计装置，其特征在于，包括：

获取单元，用于获取输入图像；

变换单元，用于对所述输入图像进行仿射变换；

卷积单元，用于将裁剪后的图像进行卷积；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种计算机设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。