CN110728209A

CN110728209A - 一种姿态识别方法、装置、电子设备及存储介质

Info

Publication number: CN110728209A
Application number: CN201910906271.6A
Authority: CN
Inventors: 刘梦源; 陈宸; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-24
Anticipated expiration: 2039-09-24
Also published as: CN110728209B

Abstract

本申请涉及计算机技术领域，主要涉及人工智能中计算机视觉、机器学习技术，尤其涉及一种姿态识别方法、装置、电子设备及存储介质，确定待识别图像中的人体图像区域；对所述人体图像区域中进行人体姿态预估，得到所述人体图像区域对应的姿态特征热力图；根据所述姿态特征热力图，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分；基于所述姿态得分，得到所述人体图像区域中人体姿态识别结果，这样，使用姿态特征热力图进行姿态识别，可以提高姿态识别准确性。

Description

一种姿态识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种姿态识别方法、装置、电子设备及存储介质。

背景技术

实际中，人体姿态可以是用户表达的一种互动方式，通过人体姿态识别，可以分析了解人体动作所传递出的信息，因此如何实现人体姿态识别是很有必要的。

现有技术中，人体姿态识别方法主要是先通过人体姿态估计算法获得关节点，然后将关节点输入到分类器从而判断人体姿态类别。但是，这种方式依赖于估计得到的关节点的准确性，若关节点不准确或缺失时，后续分类器得到的结果必然不准确。

发明内容

本申请实施例提供一种姿态识别方法、装置、电子设备及存储介质，以提高姿态识别的准确性。

本申请实施例提供的具体技术方案如下：

本申请一个实施例提供了一种姿态识别方法，包括：

确定待识别图像中的人体图像区域；

对所述人体图像区域中进行人体姿态预估，得到所述人体图像区域对应的姿态特征热力图；

根据所述姿态特征热力图，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分；

基于所述姿态得分，得到所述人体图像区域中人体姿态识别结果。

本申请另一个实施例提供了一种姿态识别装置，包括：

检测模块，用于确定待识别图像中的人体图像区域；

估计模块，用于对所述人体图像区域中进行人体姿态预估，得到所述人体图像区域对应的姿态特征热力图；

识别模块，用于根据所述姿态特征热力图，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分；基于所述姿态得分，得到所述人体图像区域中人体姿态识别结果。

本申请另一个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一种姿态识别方法的步骤。

本申请另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种姿态识别方法的步骤。

本申请实施例中，从待识别图像中检测获得人体图像区域，并对人体图像区域中进行人体姿态预估，得到人体图像区域对应的姿态特征热力图，根据姿态特征热力图，确定人体图像区域分别对应于各预设姿态类别的姿态得分，从而根据姿态得分，得到人体图像区域中人体姿态识别结果，这样，获得姿态特征热力图，并使用姿态特征热力图确定对应于各预设姿态类别的姿态得分，从而获得人体姿态识别结果，由于姿态特征热力图与关节点相比包含有更多的人体姿态信息，因此使用姿态特征热力图可以提高姿态识别的准确性，并且先检测获得人体图像区域，然后将人体图像区域的图像作为输入来获得姿态特征热力图，通常人体图像区域中包含单个人体，减少了多余的背景图像，因此也可以提高姿态估计性能和效率。

附图说明

图1为本申请实施例中人体姿态估计算法估计的关节点和姿态特征热力图对比效果示意图；

图2为本申请实施例中姿态识别方法的应用架构示意图；

图3为本申请实施例中姿态识别方法流程图；

图4为本申请实施例中人体关节点和躯干分布示意图；

图5为本申请实施例中OpenPose原理流程图；

图6为本申请实施例中姿态识别方法原理流程图；

图7为本申请实施例中简单图像样本示例图；

图8为本申请实施例中困难图像样本示例图；

图9为本申请实施例中关节特征分类网络的结构示意图；

图10为本申请实施例中卷积层特征分类网络的结构示意图；

图11为本申请实施例中姿态识别装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

关节点：可以表示人体预设的关键点，例如脖颈关键点、手肘关键点、手腕关键点、肩部关键点、头部关键点等关节部位，本申请实施例中从图像中识别出的关节点即可以表示人体关节在图像中对应的坐标点。

躯干：表示人体的相邻关节点的连线。

姿态：表示关节点和躯干的统称。

姿态特征热力图：表示基于人体姿态估计算法估计关节点和躯干的位置时的中间层特征，可以表征关节点和躯干的位置出现的概率，姿态特征热力图可以为人体关节点和躯干在原图像大小的灰度图中，在相同位置用圆形高斯表示，也即表征输入的特征图中的像素属于人体关节点和躯干的概率。

人体检测算法：可以用于输入一张图像，输出该图像中所有人的人体候选框，例如，可以为Yolo第三版本(You Only Look Once V3，YoloV3)、基于快速区域的卷积网络(Fast Region-based Convolutional Network，Fast-RCNN)、基于单网络的多目标检测(Single Shot MultiBox Detector，SSD)等检测算法，本申请实施例中并不进行限制，可以根据需求选取不同的人体检测算法。

人体姿态估计算法：可以用于输入一张图像，中间层输出姿态特征热力图特征，然后可以根据姿态特征热力图获得人体关节点位置，通常人体姿态估计算法可以分为自底向上和自顶向下两种设计模式，其中，自底向上的人体姿态估计算法直接可由单张图像估计得到多个人各自的关节点，自顶向下的人体姿态估计算法先由人体检测算法检测得到各个人的位置，然后逐次对抠取出的单人图像估计得到关节点。例如，自底向上的人体姿态估计算法有卷积姿态网络(Convolutional Pose Machines，CPM)、OpenPose等，自顶向下的人体姿态估计算法有AlphaPose等。由于OpenPose在实际场景中估计出的人体姿态鲁棒性较强，因此本申请实施例中，主要以人体姿态估计算法采用OpenPose为例进行说明，但并不进行限制。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(3Dimensions，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。例如，本申请实施例中可以通过计算机视觉技术中图像语义理解技术，实现图像特征提取、图像分类等，可以对图像进行人体检测，生成人体图像区域，并对图像中人体姿态信息特征进行提取，获得姿态特征热力图，进而根据姿态特征热力图，学习相应的姿态类别，实现根据姿态特征热力图进行姿态类别分类。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如，本申请实施例中，检测人体获得人体图像区域的人体检测模型、获得姿态特征热力图或关节点的人体姿态估计模型、用于根据姿态特征热力图或关节点识别姿态类别的分类器等都是通过机器学习训练获得的。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案主要涉及人工智能的计算机视觉、机器学习等技术，具体通过如下实施例进行说明：

人体姿态识别在行为识别、人机交互、游戏、动画等领域有着很广阔的应用前景，是计算机视觉领域中一个具有研究价值的方向。现有技术中，基于图像的人体姿态识别方法通用框架主要分为两部分，即人体姿态估计算法和基于关节点的分类器，首先通过人体姿态估计算法从图像中估计得到人体各个关节点的坐标，然后以这些关节点的坐标作为特征输入到分类器判断出人体姿态类别，分类器需要预先设计可以用于将关节点映射为人体姿态类别，例如，分类器可以采用模板匹配，即相似近邻算法进行分类，又例如，可以将关节点连接成人体躯干，并保存为图片模式，然后用多层卷积网络进行分类。但是现有技术中这种策略导致分类器的效果受限于估计得到的关节点的准确性，若关节点估计不准确或缺失时，后续分类器得到的结果也必然是不准确的。

本申请实施例中，在研究分析中发现，通过人体姿态估计算法估计关节点的过程中，通常是先得到姿态特征热力图，然后选择姿态特征热力图中的高响应位置作为关节点并输出，如果姿态特征热力图响应比较分散，最终的输出就会缺失该关节点，即不会得到该关节点，可知即使估计出的关节点缺失时，其对应的姿态特征热力图中仍提供了对于该关节点位置的预测信息，这些信息对姿态识别是有益的，例如参阅图1所示，为本申请实施例中人体姿态估计算法估计的关节点和姿态特征热力图对比效果示意图，如图1所示，图1中第二个图(从左至右)中的人体腿部关节缺失时，图1中第三至第五的姿态特征热力图中仍能提供用于预测腿部关节位置的信息，因此本申请实施例中提出使用姿态特征热力图代替关节点作为分类器的输入，从而提升分类的准确性。

另外，按照图像采集方式的不同，现有技术中人体姿态识别算法处理的对象可以分为彩色图像、深度图像和彩色深度图像融合三种。例如，监控摄像头、手机摄像头、电脑摄像头捕获的都是彩色图像，深度传感器如Kinect等捕获的是深度图像，其中，深度图像只感知物体表面到摄像头的距离而忽略复杂纹理信息，通过深度图像估计人体姿态要比通过彩色图像估计人体姿态更加容易，得到的关节点更为稳定，但是，相比普通摄像头，深度传感器的价格更为昂贵、且使用范围更为狭窄，例如不适用于光照充沛的户外环境，因此实际中进行人体姿态估计场景通常都是使用彩色图像作为输入，本申请实施例中图像也是表示彩色图像，当然，本申请实施例中对此并不进行限制，对于其它类型图像，本申请实施例中的姿态识别方法也是适用的。

参阅图2所示，为本申请实施例中姿态识别方法的应用架构示意图，包括终端100、服务器200。

终端100可以是智能手机、平板电脑、便携式个人计算机等任何智能设备，终端100可以拍摄图像，或者终端100上可以安装有需要人体姿态识别场景的应用程序(Application，APP)或用于图像识别的客户端，例如游戏客户端、不同姿态图像检索客户端等，终端100可以向服务器200发送针对待识别图像的识别请求，该待识别图像中包括一个或多个人体，并可以接收服务器200返回的姿态识别结果。

服务器200能够为终端100提供各种网络服务，对于终端100上不同的应用程序，服务器200可以认为是提供相应网络服务的后台服务器。

其中，服务器200可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

具体地，服务器200可以包括处理器210(Center Processing Unit，CPU)、存储器220、输入设备230和输出设备240等，输入设备230可以包括键盘、鼠标、触摸屏等，输出设备240可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器220可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器210提供存储器220中存储的程序指令和数据。在本发明实施例中，存储器220可以用于存储本发明实施例中任一种姿态识别方法的程序。

处理器210通过调用存储器220存储的程序指令，处理器210用于按照获得的程序指令执行本发明实施例中任一种姿态识别方法的步骤。

需要说明的是，本申请实施例中的姿态识别方法主要由服务器200侧来执行，并且姿态识别方法中涉及的分类器、人体检测模型、人体姿态估计模型的预先训练也是由服务器200侧执行，训练完成后，可以通过训练获得的人体检测模型从待识别图像中检测出人体图像区域，并通过人体姿态估计模型获得人体的姿态特征热力图，将姿态特征热力图输入到分类器中，从而输出该待识别图像中人体的姿态类别。

终端100与服务器200之间以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

需要说明的是，本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案，并不构成对本申请实施例提供的技术方案的限制，对于其它的应用架构和业务应用，本申请实施例提供的技术方案对于类似的问题，同样适用。下面本申请各个实施例中，以姿态识别方法应用于图2所示的应用架构为例进行示意性说明。

基于上述实施例，下面对本申请实施例中的姿态识别方法进行说明，参阅图3所示，为本申请实施例中姿态识别方法流程图，该方法包括：

步骤300：获取待识别图像。

其中，待识别图像中可以包括一个或多个人体。

步骤310：确定待识别图像中的人体图像区域。

本申请实施例中，可以通过人体姿态估计模型获得姿态特征热力图，例如人体姿态估计模型可以采用OpenPose，但是将带有背景的整张图像作为OpenPose的输入会导致其性能急剧，因此本申请实施例中先从待识别图像中检测出人体图像区域，然后再将人体图像区域对应的图像抠出作为OpenPose即人体姿态估计模型的输入，这样可以提高准确性和性能。

执行步骤310时，具体包括：

S1、当待识别图像不满足异常图像条件时，基于预先训练获得的人体检测模型，对待识别图像进行人体检测，得到人体检测结果。

其中，人体检测模型可以采用YoloV3算法，本申请实施例中并不进行限制。

其中，异常图像表示满足以下任意一种条件的图像：宽高比超过比例阈值、宽或高小于像素阈值，也可以为其它条件，满足这些条件的异常图像，通常不包含人体或很难提取出人体，因此可以先进行异常图像的预先判断。

这样，通过人体检测模型，可以从待识别图像中检测人体，得到人体检测结果，人体检测结果可以为是否存在人体检测框。

S2、当人体检测结果中不存在人体检测框时，以待识别图像作为人体图像区域。

本申请实施例中若从待识别图像中没有检测获得人体检测框，则也可以将整张待识别图像作为输入，进行后续处理，获得姿态特征热力图并通过分类器输出姿态类别，这样也可以防止漏检，提高检测效果。

S3、当人体检测结果中存在人体检测框时，过滤掉人体检测框中的异常人体检测框，得到人体候选框；根据人体候选框确定人体图像区域。

本申请实施例中，若待识别图像中包括多个人体，通过人体检测模型，可以从待识别图像中检测出多个人体，人体检测结果中存在人体检测框，生成多个人体检测框，即获得多个人体图像区域，进而可以分别对每个人体图像区域对应的图像进行姿态估计，并确定其对应的姿态类别。

并且，例如基于YoloV3算法进行人体检测，生成的人体检测框可能包含单人，也可能为人群，确定的人体图像区域也即相应可能包含单人或人群，但是本申请实施例中主要是针对单人的姿态识别，因此还需要去除包含人群的人体检测框，具体地，本申请实施例中提供了一种可能的实施方式，当人体检测结果中存在人体检测框时，计算各人体检测框的面积；根据各人体检测框的面积，确定各人体检测框中的异常人体检测框；对异常人体检测框进行过滤，得到人体候选框。

也就是说，本申请实施例中可以根据人体检测框的面积，来确定是否为包含人群的人体检测框，例如，从待识别图像中检测出3个人体检测框，将这3个人体检测框按照面积大小进行排序，若排名第一的人体检测框的面积超过排名第二的人体检测框的面积的预设倍数，例如10倍，则可以认为该排名第一的人体检测框中包含的为人群，为异常人体检测框，可以去除，排名第二和排名第三的人体检测框的面积差不多，可以认为排名第二和排名第三的人体检测框中包含的为单人，确定为人体候选框，进而后续只需对该排名第二和排名第三的人体候选框中的人体进行姿态识别即可。

步骤320：对人体图像区域中进行人体姿态预估，得到人体图像区域对应的姿态特征热力图。

执行步骤320时，具体包括：将人体图像区域对应的图像输入到预先训练的人体姿态估计模型，对人体图像区域对应的图像中各关节点的位置信息进行检测，输出各关节点热力图和/或各躯干热力图。

其中，关节点热力图用于表征关节点的位置信息，躯干热力图用于表征躯干的位置信息，躯干表示相邻关节点的连线。

本申请实施例中，通常人体姿态估计模型训练时人体的关节点会有多个，通过人体姿态估计模型，每一个关节点会对应一个关节点热力图，每张关节点热力图反映每个关节点的位置信息，每一个躯干对应一对躯干热力图，每对躯干热力图反映一个躯干的位置信息，这样，针对每个人体候选框，通过人体姿态估计模型可以输出多个姿态特征热力图。

例如，参阅图4所示，为本申请实施例中人体关节点和躯干分布示意图，人体姿态估计模型采用OpenPose为例，通过OpenPose获得的姿态特征热力图包括关节点热力图和躯干热力图，OpenPose估计的关节点为18个，如图4所示，图4中左图为人体关节点分布示意图，有18个关节点，图4中左图中的18个关节点对应18张关节点热力图，图4中右图为躯干分布示意图，有19个躯干，每个躯干为相邻关节点的连线，图4中右图中的19个躯干对应19对躯干热力图。

下面以人体姿态估计模型采用OpenPose为例，对获得各关节点热力图和各躯干热力图的流程进行简单说明。

参阅图5所示，为本申请实施例中OpenPose原理流程图，如图5所示，OpenPose中间层输出的姿态特征热力图记为S^t和L^t，其中S^t为关节点热力图，L^t为躯干热力图，t为OpenPose的迭代次数，t取值为1到T，综合考虑姿态特征热力图准确性和算法性能，较佳的T取值为4，当然本申请实施例中并不进行限制。

如图5所示，当t＝1时，运行OpenPose的第一阶段，输入待处理图像F，分别经过两个分支，即子网络1和子网络2并分别输出关节点热力图S¹和躯干热力图L¹；当t＝2时，运行OpenPose的第二阶段，将待处理图像F、关节点热力图S¹和躯干热力图L¹，分别输入到子网络1和子网络2并分别输出关节点热力图S²和躯干热力图L²；重复该过程，迭代T次，直至输出关节点热力图S^T和躯干热力图L^T，这样，通过T次迭代，不断提取待处理图像中人体姿态的特征信息，这是一个从粗到细的姿态估计过程，初始得到的关节点热力图S¹和躯干热力图L¹可能只能粗糙反映人体姿态位置信息，而最终得到的关节点热力图S^T和躯干热力图L^T融合了前面T-1个阶段得到的姿态特征热力图的所有信息，从而可以精细描述人体姿态位置信息，进而可以将关节点热力图S^T和/或躯干热力图L^T作为后续分类器的输入。

例如，若OpenPose输入的人体候选框对应的图像的最长边被设置为150像素，则关节点热力图S^T和躯干热力图L^T的大小可以分别为19*M*N和38*M*N，其中，19和38分别与关节点数目和躯干数目相关，max(M，N)＝19，M和N的取值与输入的图像尺寸和OpenPose的卷积和池化结构相关。

这样，通过人体姿态估计模型，可以获得人体图像区域对应的图像中的人体的各姿态特征热力图，由于姿态特征热力图与关节点相比包含有更加丰富的人体姿态信息，因此后续将获得的各姿态特征热力图输入到分类器中以输出姿态类别，可以提升识别和分类的准确性。

步骤330：根据姿态特征热力图，确定人体图像区域分别对应于各预设姿态类别的姿态得分，并基于姿态得分，得到人体图像区域中人体姿态识别结果。

具体执行步骤330中根据姿态特征热力图，确定人体图像区域分别对应于各预设姿态类别的姿态得分，包括：将姿态特征热力图输入到分类器中，确定人体图像区域分别对应于各预设姿态类别的姿态得分。

本申请实施例中在根据姿态特征热力图和分类器确定姿态类别时，可以仅输入关节点热力图或躯干热力图，不管是关节点热力图还是躯干热力图都相比于关节点包含更多的人体姿态信息，因此即使仅输入一种姿态特征热力图也可以提高人体姿态类别识别的准确性，当然，也可以同时输入关节点热力图和躯干热力图，可以进一步提高识别准确性。

进一步地，将各关节点热力图和/或躯干热力图输入到分类器中之前，还包括：将各关节点热力图和/或各躯干热力图的维度调整为预设固定维度。

例如，将S^T和L^T按照双线性插值法调整为固定维度大小，例如调整的固定维度分别为19*19*19和38*19*19，本申请实施例中并不进行限制。

这样，调整为预设固定维度的目的是为了保证分类器的输入维度是固定的，便于分类器的网络结构设计。

本申请实施例中设计了分类器的网络结构，具体地执行步骤330时，根据输入的姿态特征热力图的类型，可以设计不同的分类器，可以分为以下两种情况：

第一种情况：仅输入关节点热力图或躯干热力图。

具体包括：1)将各关节点热力图或各躯干热力图输入到分类器中。

其中，分类器的结构至少包括双通道池化、第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，第一全连接网络的输入神经元个数为输入维度，输出神经元个数为训练获得的参数值，第二全连接网络的输入神经元个数为上层网络输出的维度，输出神经元个数为预设的各姿态类别数目。

2)获得分类器对各关节点热力图或各躯干热力图进行特征提取后，确定的人体图像区域分别对应于各预设姿态类别的姿态得分，并根据姿态得分，输出人体图像区域中识别出的姿态类别。

具体包括：通过分类器中双通道池化，采用预设两种池化方式分别对各关节点热力图或各躯干热力图进行特征压缩，并将预设两种池化方式压缩后的特征进行拼接，以及将拼接后的特征依次通过第一全连接网络、非线性激活函数和第二全连接网络进行特征提取，获得人体图像区域分别对应于各预设姿态类别的姿态得分，并将姿态得分通过归一化函数归一化到预设取值范围内，根据归一化后的姿态得分，输出人体图像区域中识别出的姿态类别。

也就是说，在单独使用关节点热力图或躯干热力图时，分类器的网络结构可以包括双通道池化、第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，这样，将关节点热力图或躯干热力图输入到分类器后，依次经过双通道池化处理、第一全连接网络进行特征提取、非线性激活函数处理、第二全连接网络进行特征提取，最后经过归一化函数处理，获得属于各预设姿态类别的姿态得分，最终基于姿态得分输出识别出的姿态类别，具体地将姿态得分最大姿态类别作为最终识别的姿态类别。

其中，双通道池化的作用是用于去除冗余特征，对关节点热力图或躯干热力图进行特征压缩，并且为了减少特征压缩的损失，因此本申请实施例中采用双通道池化处理，双通道池化方式调用的基础池化方法可以为均值(Mean)池化，最大(Max)池化或均值-最大(Mean-Max)池化，其中Mean-Max池化指的是分别调用max池化和mean池化实现双通道池化方式。

第一全连接网络的输入神经元个数由输入维度决定，输出神经元个数为训练获得的参数值，第一全连接网络的输出神经元个数为超参数，需要在训练阶段选择优化。第二全连接网络的输入神经元个数为上层网络输出的维度，输出神经元个数为预设的各姿态类别数目。

非线性激活函数目的是为了增加各网络结构层之间的非线性关系，例如可以采用修正线性单元(Rectified linear unit，ReLU)方法，本申请实施例中并不进行限制。

归一化函数目的是用于将姿态得分归一到预设取值范围内，便于更加直观评估属于各姿态类别的姿态得分，例如可以采用SoftMax方法，可以将姿态得分归一化到0～1之间。

例如，以输入大小为38*19*19的躯干热力图L^T为例，首先通过双通道池方法将38*19*19的第二通道池化，得到38*1*19，等价于38*19，然后将38*19*19的第三通道池化，得到38*19*1，等价于38*19，最后将两次池化结果拼接得到38*38，以采用Mean-Max池化方法为例，分别调用Max池化和Mean池化方法，然后将得到的38*38和38*38维特征拼接成38*76维特征，即大小为38*19*19的躯干热力图L^T经过双通道池化方式处理后，其维度大小为38*76，再将38*76大小的特征依次第一全连接网络、非线性激活、第二全连接网络和归一化函数处理，最终输出其对应的姿态类别。

第二种情况：同时输入关节点热力图和躯干热力图。

具体包括：1)将各关节点热力图和各躯干热力图输入到分类器中。

其中，分类器的结构至少包括双通道池化、特征级联处理、第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，第一全连接网络的输入神经元个数为输入维度，输出神经元个数为训练获得的参数值，第二全连接网络的输入神经元个数为上层网络输出的维度，输出神经元个数为预设的各姿态类别数目。

2)获得分类器对所述各关节点热力图和各躯干热力图进行特征提取后，确定的人体图像区域分别对应于各预设姿态类别的姿态得分，并根据姿态得分，输出人体图像区域中识别出的姿态类别。

具体包括：通过分类器中双通道池化，采用预设两种池化方式分别对各关节点热力图和各躯干热力图进行特征压缩，并将预设两种池化方式压缩后的特征进行拼接，将各关节点热力图对应的拼接后的特征和各躯干热力图对应的拼接后的特征，通过特征级联再进行级联拼接，以及将级联拼接后的特征依次通过第一全连接网络、非线性激活函数和第二全连接网络进行特征提取，获得人体图像区域分别对应于各预设姿态类别的姿态得分，并将姿态得分通过归一化函数归一化到预设取值范围内，根据归一化后的姿态得分，输出人体图像区域中识别出的姿态类别。

也就是说，当同时输入关节点热力图和躯干热力图时，分类器的网络结构至少包括双通道池化、特征级联、第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，相比于上述第一种情况，分类器的设计中需要增加特征级联模块，即分别将关节点热力图和躯干热力图经过双通道池化处理后，再经过特征级联处理进行拼接，后续操作就和上述第一种实施情况相同了，这里不再进行赘述。

进一步地，本申请实施例中的分类器的网络结构，双通道池化和特征级联之后的其它模块结构，即第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，并不进行限制，也可以使用其它分类器代替，例如一维卷积神经网络、支持向量机(SupportVector Machine，SVM)、决策树、最近邻分类器等。

这样，本申请实施例中针对待识别图像，从待识别图像中检测获得人体图像区域，对人体图像区域中进行姿态预估获得人体图像区域对应的姿态特征热力图，包括各关节点热力图和/或各躯干热力图，再将姿态特征热力图输入到分类器中，确定属于各预设姿态类别的姿态得分，将姿态得分最大的姿态类别确定为人体图像区域中人体姿态识别结果，姿态特征热力图是估计关节点产生的中间特征，与关节点相比包含有更加丰富的人体姿态信息，因此使用姿态特征热力图代替关节点作为分类器的输入，通过姿态特征热力图来获得姿态类别，可以提高分类的准确性。

基于上述实施例，为了进一步评估本申请实施例中姿态识别方法的效果和准确性，本申请实施例中获取图像样本，分别训练使用关节点作为分类器输入和使用姿态特征热力图作为分类器输入的情况，并根据训练完成的方法，来验证本申请实施例中的姿态识别方法相比于现有技术中的方法的优势和效果，并且为了保证实验的可靠性，本申请实施例中设计的两种情况下的分类器的网络结构基本一致。

具体参阅图6所示，为本申请实施例中姿态识别方法原理流程图，以人体图像区域为人体候选框为例进行说明，如图6所示，姿态识别方法主要分为人体候选框生成、人体姿态估计、人体姿态识别(分类器)四部分，具体如下：

步骤60：获取图像样本集。

其中，这里初始获取的图像样本集可以为各预设姿态类别相关的图像，可以先不进行标注，在通过人体候选框生成模块处理后获得包含单人的图像，再针对包含单人的图像进行姿态类别标注。

例如，预设姿态类别有10类，分别为蹲下、翘腿、下跪、敬礼、爬行、趴着、平躺、弯腰、站立、坐着，获取这10类人体姿态相关图像样本集，然后通过后续的人体候选框生成模块，基于人体检测模型检测获得人体候选框，并针对各人体候选框分别抠取其图像，获得各带有人体姿态的单人图像，再进行姿态类别标注。

并且可以将标注后的每类图像拆分为简单图像样本和困难图像样本，其中，简单图像样本指通过人眼观察易区分人体姿态的图像，例如参阅图7所示，为本申请实施例中简单图像样本示例图，可以将简单图像样本按照8:2拆分为训练集和验证集，如表1所示，为本申请实施例中简单图像样本总量分布，表1中列举了10类人体姿态类别和每种姿态类别对应的图像样本数量，困难样本指通过人眼观察难以区分人体姿态的图像，参阅图8所示，为本申请实施例中困难图像样本示例图，困难样本全部作为测试集，如表2所示，为本申请实施例中困难图像样本总量分布，表2中同样列举了这10类人体姿态类别和对应的图像样本数量，另需要说明的是，实际训练、验证和测试时仅使用图像样本本身，图7和图8示例图中在图片上画姿态仅为了数据标注。

表1.

0	1	2	3	4	5	6	7	8	9
										蹲下	翘腿	下跪	敬礼	爬行	趴着	平躺	弯腰	站立	坐着
1005	872	660	504	383	432	358	512	2284	1974

表2.

0	1	2	3	4	5	6	7	8	9
										蹲下	翘腿	下跪	敬礼	爬行	趴着	平躺	弯腰	站立	坐着
18	178	245	150	31	192	33	99	261	145

步骤61：人体候选框生成。

具体包括：步骤61.1：过滤异常图像。

本申请实施例中提供了一种可能的实施方式：过滤掉图像样本集中的异常图像，其中，异常图像表示满足以下任意一种条件的图像：宽高比超过比例阈值、宽或高小于像素阈值。

本申请实施例中，进一步地，为提高姿态识别方法的效率，在生成人体候选框时，还可以对异常图像进行处理，并且考虑到通常宽高比异常的图像不含有人体，并且通常从低分辨率图像中检测出人体也相对困难，因此可以过滤掉这两类异常图像，也可以提高姿态识别方法的整体响应速度。

例如，比例阈值为10倍，像素阈值为20，则可以过滤掉宽高比超过10倍，或者图像的宽或高小于20像素的图像。

步骤61.2：检测获得人体检测框。

例如，可以根据YoloV3算法来检测人体检测框，并不进行限制。

步骤61.3：判断是否检测获到人体检测框，若有，则执行步骤61.5，若无，则执行步骤61.4。

步骤61.4：使用原图。

本申请实施例中，为防止漏检人体的情况，当没有检测无人体候选框时直接采用整张图像作为输入，即不需要对原图像进行抠图，将原图像输入到下一个模块即可。

步骤61.5：去除异常人体检测框。

其中，异常人体检测框表示满足以下任意一种条件的人体候选框：图像中检测出的多个人体检测框中面积最大的人体检测框比其它人体检测框的面积预设大小。

其中，预设倍数为10倍，可以针对每个图像，将属于同一个图像中检测出的人体候选框按照面积进行排序，若排序第一的面积最大的人体检测框超过排序第二的人体检测框的面积10倍，则认为该排序第一的人体检测框为异常人体检测框，将该排序第一的人体检测框去除。

例如，YoloV3算法可以基于开源的开放图(OpenImage)数据库训练，考虑到该数据库将人群也划分为人的标签，训练得到的YoloV3输出的人体检测框可能为单个人，也可能为人群，为排除包含人群的人体检测框，因此需要去除面积异常的人体检测框，保证最终对异常人体检测框进行过滤后获得的人体候选框中都是包含单个人体的。

步骤61.6：选择最大面积的人体候选框。

即选取过滤掉异常人体检测框后的多个人体候选框中面积最大的人体候选框作为人体检测算法的输入。

这样，可以保证算法性能，便于训练和验证过程，当然也可以将过滤后剩余的多个人体候选框，按照面积大小依次送入到后续模块，并不进行限制。

进一步地，为提高后续人体姿态估计算法的性能，还可以限定人体候选框的边大小，例如可以将人体候选框的最大边缩放到150像素。

进而在训练阶段，可以对抠取获得的人体候选框对应的图像进行姿态类别标注，并划分为训练集、验证集和测试集，训练集和验证集均是为了确定姿态识别方法中各模块的最优参数配置，测试集是为了训练完成后测试训练效果。

步骤62：人体姿态估计。

具体地，将人体候选框对应的图像输入到人体姿态估计模型中，对人体候选框对应的图像中各关节点的位置信息进行检测，输出各关节点热力图和/或各躯干热力图。

进一步地，为了比对直接输入关节到分类器与输入姿态特征热力图到分类器的识别效果，因此，这里通过人体姿态估计模型，不仅输出中间层特征的姿态特征热力图，还输出最终识别出的关节点。

例如，人体姿态估计模型采用OpenPose，通过OpenPose可以识别18个关节点和19对躯干。

步骤63：人体姿态识别。

其中，人体姿态识别模块的核心是分类器的设计，为了验证本申请实施例中姿态识别方法的与现有技术中姿态识别方法的识别准确性和效果，本申请实施例中在人体姿态识别过程，可以分别设计不同情况下分类器的网络结构，并且分类器的网络结构应基本一致，为便于区分，将使用关节点进行姿态识别的分类器称为关节特征分类网络，将使用姿态特征热力图进行姿态识别的分类器称为卷积层特征分类网络，基于不同的分类器，可以分为两个分支分别进行处理，具体包括：

步骤63.1：去除残缺姿态。

本申请实施例中，若通过人体姿态估计模型获得的关节点数目过少，则可能通过这些关节点也无法确定是属于哪个姿态类别，因此，为提高算法的响应速度，可以设定阈值，将关节点过少的情况进行舍弃。

例如，OpenPose估计出的关节点有18个，包括头部5个和其它位置的13个，在进行姿态识别时，可以忽略眼睛和耳朵位置处的4个关节点，因为这4个关节点对于人体姿态完整性判断是冗余的，也就是说，只需要10个关节点输入到分类器就可以识别出所属的姿态类别，基于此可以设定阈值，例如阈值为10，当人体姿态估计模型估计出的关节点数目少于10个时，可以直接舍弃，不用再输入到分类器中进行姿态识别。

步骤63.2：关节特征分类网络。

参阅图9所示，为本申请实施例中关节特征分类网络的结构示意图，该关节特征分类网络即为输入为关节点的分类器，如图9所示，关节特征分类网络的网络结构至少包括第一全连接网络、非线性激活函数、第二全连接网络、归一化函数。其中，输入的关节特征由OpenPose估计出的18个关节点组成，大小为18*2，表示18个关节点各自的横纵坐标；第一全连接网络输入神经元个数由输入特征维度决定，输出神经元个数为超参数，需要训练选择优化；第二全连接网络的输入神经元个数由上层网络输出决定，输出神经元个数为人体姿态类别数目；非线性激活函数可以采用ReLU方法，归一化函数可以将第二全连接网络的输出归一化，可以采用SoftMax函数。

并且关节特征分类网络也可以选用其它分类器，例如卷积神经网络、SVM、决策树、最近邻分类器等，具体设置与卷积层特征分类网络相同即可。

这样，将通过人体姿态估计模型获得的关节点，经过步骤63.1的过滤，若人体候选框对应的图像中估计出的关节点数目小于阈值，则可以过滤掉该人体候选框对应的图像估计出的这些关节点，进而将过滤后的各人体候选框对应的图像的关节点，输入到关节特征分类网络进行姿态识别，输出姿态类别。

步骤63.3：卷积层特征分类网络。

以输入的姿态特征热力图包括各关节点热力图和各躯干热力图为例，则参阅图10所示，为本申请实施例中卷积层特征分类网络结构示意图，该卷积层特征分类网络即为输入为姿态特征热力图的分类器，如图10所示，卷积层特征分类网络结构至少包括双通道池化、特征级联、第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，其中，输入为关节点热力图和躯干热力图，将关节点热力图和躯干热力图分别经过双通道池化，去除冗余特征，再将经过双通道池化处理的结果通过特征级联模块进行拼接，并通过特征拉伸模块后输入到第一全连接网络，第一全连接网络的输入神经元个数为输入维度，输出神经元个数为超参数，可以通过训练优化，第二全连接网络的输入神经元个数为上层网络输出的维度，输出神经元个数为预设的各姿态类别数目，非线性激活函数可以采用ReLU方法，归一化函数可以采用SoftMax函数，具体设置与关节特征分类网络相同。

也就是说，本申请实施例中，通过人体姿态估计模型还可以获得各关节点热力图和各躯干热力图，将各关节点热力图和各躯干热力图输入到卷积层特征分类网络，可以对各关节点热力图和各躯干热力图进行特征学习和提取，从而输出姿态类别。

当然，也可以仅输入各关节点热力图或各躯干热力图，这时卷积层特征分类网络结构和上述图10所示的相同，只需将其中的特征级联模块去掉即可，在进行训练和对比验证时，也可以训练只输入各关节点热力图或各躯干热力图的卷积层特征分类网络。

步骤63.4：输出姿态得分最大的姿态类别。

本申请实施例中，通过卷积层特征分类网络或关节特征分类网络，可以确定属于各姿态类别的姿态得分，将姿态得分最大的姿态类别作为预测的姿态类别，并且还可以设置姿态得分阈值，姿态得分大于阈值的姿态类别认为是预测的姿态类别，若姿态得分大于阈值的姿态类别有多个，可以再取姿态得分最大的姿态类别作为最终预测获得的姿态类别。

本申请实施例中，通过上述图6所示的原理流程图，可以通过实验对比本申请实施例中的姿态识别方法相对于现有技术中的姿态识别方法的效果。

另外，本申请实施例中在训练过程中，图6中各个模块可以分别进行训练，即可以先基于图像样本，训练人体检测模型，生成人体候选框，从而可以获得人体候选框对应的图像，即获得包含单人姿态的单人图像，进行姿态类别标注，再根据人体候选框对应的图像及对应的姿态类别标注信息，训练人体姿态估计模型，获得人体姿态估计模型输出的姿态特征热力图或关节点，最后再根据姿态特征热力图训练对应的卷积层特征分类网络，或者根据关节点训练对应的关节特征分类网络，当然也可以各个模块作为整体训练，本申请实施例中并不进行限制。

基于上述实施例，下面简单介绍下实验的参数设置和实验结果说明：

参阅表3所示，为本申请实施例中实验结果对比情况表。

表3.

Batch_size

Mid_fea_num

Pool_method

Is_init

Val

Test

Pose

32

200

-

No

90.96％

50.96％

ST

16

300

Max

No

89.73％

58.51％

LT

8

300

Mean_max

No

91.41％

62.43％

ST+LT

8

200

Mean_max

Yes

91.80％

63.02％

如表3所示，其中实验参数设置如下：

输入特征：Pose表示关节点，S^T表示关节点热力图，L^T表示躯干热力图，S^T+L^T表示同时使用关节点热力图和躯干热力图作为输入特征。

参数选择：Batch_size表示输入的图像数量，选择范围可以为8、16、32；Mid_fea_num表示第一全连接网络的输出神经元个数，选择范围可以为50、100、200、300；Pool_method表示针对输入特征的池化方法，选择范围可以为Max、Mean、Mean_max；Is_init表示是否对网络进行初始化，选择范围可以为Yes、No，其中，Yes表示在训练刚开始初始化时，以符合设定规律初始化参数，No表示在训练刚开始初始化时，以随机分布初始化参数。

如表3可知，本申请实施例中，先根据训练集进行训练，然后根据验证集来确定各姿态类别分类平均准确率最高的参数配置，这里以姿态类别为前述的10个姿态类别为例，最后使用该确定的参数配置，对测试集进行测试，获得在测试集上的效果和识别结果，表3中列举的参数Batch_size、Mid_fea_num、Pool_method、Is_init的取值为对应输入不同输入特征的最优配置，如表3所示，可知，输入S^T、L^T或S^T+L^T的效果都比输入Pose更好，具体地，使用S^T的10分类平均准确率为58.51％，比Pose提高7.55％，使用L^T的10分类平均准确率为62.43％，比Pose提高11.47％，使用S^T+L^T最高的10分类平均准确率为63.02％，比Pose提高12.06％，即可知基于姿态特征热力图的姿态识别方法，相比于基于关节点的姿态识别方法更加准确，分类效果更好。

为进一步说明对比情况，以使用关节点、以及关节点热力图和躯干热力图输入到分类器中进行姿态识别为例，预设姿态类别为10类，对各姿态类别下的识别情况进行说明。

具体分别如表4和表5所示，参阅表4所示，为本申请实施例中使用关节点的混淆矩阵对比情况表，参阅表5所示，为本申请实施例中使用S^T+L^T的混淆矩阵对比情况。

表4.

	0	1	2	3	4	5	6	7	8	9
											0	3	1	1	0	0	1	1	4	3	4
1	6	85	0	0	1	2	3	0	9	72
											2	10	3	44	2	10	6	4	24	74	68
3	0	0	1	59	0	7	0	0	80	3
											4	1	0	0	0	15	3	1	2	7	2
5	3	0	0	4	20	120	3	1	22	19
											6	3	1	0	0	0	3	19	1	3	3
7	4	1	2	0	2	4	0	55	23	8
											8	1	7	6	5	1	4	1	0	209	27
9	8	6	3	2	3	7	2	0	34	80

表5.

	0	1	2	3	4	5	6	7	8	9
											0	4	0	1	0	2	1	0	2	3	5
1	5	104	0	0	0	0	3	0	4	62
											2	7	1	80	2	20	5	3	25	61	41
3	0	0	0	93	1	1	1	0	52	2
											4	0	0	1	0	23	1	0	2	1	3
5	2	0	0	15	43	119	1	2	2	8
											6	0	1	0	1	2	1	23	1	0	4
7	1	0	0	0	1	0	0	78	16	3
											8	1	1	2	18	1	0	1	2	221	14
9	6	4	3	3	4	0	1	3	14	107

如表4和表5所示，第一行和第一列均代表10类姿态类别，其中，第一列中的姿态类别表示图像实际真实的姿态类别，第一行的姿态类别表示图像被识别出的姿态类别，可知只有对应的行和列的姿态类别一致，才说明识别准确，否则识别错误，表4和表5中除第一行和第一列之外的其余行或列上的数字表示属于对应情况的图像个数，例如，表4中第4行第3列上的数字3表示有3个真实姿态类别为2但被算法识别判定为姿态类别1，也就是说，表4和表5中只有对角线(即行和列的姿态类别一致的位置)上的数字表示被正确分类的图像个数，其余位置上的数字表示被错误分类的图像个数，对比表4和表5也可知使用关节点热力图和躯干热力图相比于使用关节点在这10个姿态类别上的识别准确性都更高。

基于同一发明构思，本申请实施例中还提供了一种姿态识别装置，该姿态识别装置例如可以是前述实施例中的服务器，该姿态识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图11所示，本申请实施例中姿态识别装置，具体包括：

检测模块1110，用于确定待识别图像中的人体图像区域；

估计模块1120，用于对所述人体图像区域中进行人体姿态预估，得到所述人体图像区域对应的姿态特征热力图；

识别模块1130，用于根据所述姿态特征热力图，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分；基于所述姿态得分，得到所述人体图像区域中人体姿态识别结果。

可选的，检测模块1110具体用于：当所述待识别图像不满足异常图像条件时，基于预先训练获得的人体检测模型，对所述待识别图像进行人体检测，得到人体检测结果；

当所述人体检测结果中不存在人体检测框时，以所述待识别图像作为人体图像区域；

当所述人体检测结果中存在人体检测框时，过滤掉所述人体检测框中的异常人体检测框，得到人体候选框；根据所述人体候选框确定人体图像区域。

可选的，进一步包括：过滤模块1140，用于当所述人体检测结果中存在人体检测框时，计算各人体检测框的面积；根据所述各人体检测框的面积，确定所述各人体检测框中的异常人体检测框；对所述异常人体检测框进行过滤，得到人体候选框。

可选的，所述姿态特征热力图包括关节点热力图和/或躯干热力图；估计模块1120具体用于：

将所述人体图像区域对应的图像输入到预先训练的人体姿态估计模型，对所述人体图像区域对应的图像中各关节点的位置信息进行检测，输出各关节点热力图和/或各躯干热力图，其中，关节点热力图用于表征关节点的位置信息，躯干热力图用于表征躯干的位置信息，躯干表示相邻关节点的连线。

可选的，识别模块1130具体用于：将所述姿态特征热力图输入到分类器中，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分。

可选的，所述姿态特征热力图包括关节点热力图和/或躯干热力图；则识别模块1130具体用于：

将所述各关节点热力图或各躯干热力图输入到分类器中，其中，所述分类器的结构至少包括双通道池化、第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，所述第一全连接网络的输入神经元个数为输入维度，输出神经元个数为训练获得的参数值，所述第二全连接网络的输入神经元个数为上层网络输出的维度，输出神经元个数为预设的各姿态类别数目；

通过所述分类器中双通道池化，采用预设两种池化方式分别对所述各关节点热力图或各躯干热力图进行特征压缩，并将所述预设两种池化方式压缩后的特征进行拼接，以及将拼接后的特征依次通过第一全连接网络、非线性激活函数和第二全连接网络进行特征提取，获得所述人体图像区域分别对应于各预设姿态类别的姿态得分，并将所述姿态得分通过归一化函数归一化到预设取值范围内，根据归一化后的姿态得分，输出所述人体图像区域中识别出的姿态类别。

可选的，所述姿态特征热力图包括关节点热力图和躯干热力图，则识别模块1130具体用于：

将所述各关节点热力图和各躯干热力图输入到分类器中，其中，所述分类器的结构至少包括双通道池化、特征级联、第一全连接网络、非线性激活函数、第二全连接网络、归一化函数，所述第一全连接网络的输入神经元个数为输入维度，输出神经元个数为训练获得的参数值，所述第二全连接网络的输入神经元个数为上层网络输出的维度，输出神经元个数为预设的各姿态类别数目；

通过所述分类器中双通道池化，采用预设两种池化方式分别对所述各关节点热力图和各躯干热力图进行特征压缩，并将所述预设两种池化方式压缩后的特征进行拼接，将所述各关节点热力图对应的拼接后的特征和所述各躯干热力图对应的拼接后的特征，通过特征级联再进行级联拼接，以及将级联拼接后的特征依次通过第一全连接网络、非线性激活函数和第二全连接网络进行特征提取，获得所述人体图像区域分别对应于各预设姿态类别的姿态得分，并将所述姿态得分通过归一化函数归一化到预设取值范围内，根据归一化后的姿态得分，输出所述人体图像区域中识别出的姿态类别。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的姿态识别方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种姿态识别方法，其特征在于，包括：

确定待识别图像中的人体图像区域；

2.根据权利要求1所述的方法，其特征在于，所述确定待识别图像中的人体图像区域，包括：

当所述待识别图像不满足异常图像条件时，基于预先训练获得的人体检测模型，对所述待识别图像进行人体检测，得到人体检测结果；

3.根据权利要求2所述的方法，其特征在于，所述当所述人体检测结果中存在人体检测框时，过滤掉所述人体检测框中的异常人体检测框，得到人体候选框，包括：

当所述人体检测结果中存在人体检测框时，计算各人体检测框的面积；

根据所述各人体检测框的面积，确定所述各人体检测框中的异常人体检测框；

对所述异常人体检测框进行过滤，得到人体候选框。

4.如权利要求1所述的方法，其特征在于，所述姿态特征热力图包括关节点热力图和/或躯干热力图；所述对所述人体图像区域中进行人体姿态预估，得到所述人体图像区域对应的姿态特征热力图，具体包括：

5.如权利要求1所述的方法，其特征在于，根据所述姿态特征热力图，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分，具体包括：

将所述姿态特征热力图输入到分类器中，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分。

6.如权利要求5所述的方法，其特征在于，所述姿态特征热力图包括关节点热力图和/或躯干热力图；则将所述姿态特征热力图输入到分类器中，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分，基于所述姿态得分，得到所述人体图像区域中人体姿态识别结果，具体包括：

7.如权利要求5所述的方法，其特征在于，所述姿态特征热力图包括关节点热力图和躯干热力图，则将所述姿态特征热力图输入到分类器中，确定所述人体图像区域分别对应于各预设姿态类别的姿态得分，基于所述姿态得分，得到所述人体图像区域中人体姿态识别结果，具体包括：

8.一种姿态识别装置，其特征在于，包括：

检测模块，用于确定待识别图像中的人体图像区域；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。