CN113326778B

CN113326778B - 基于图像识别的人体姿态检测方法、装置和存储介质

Info

Publication number: CN113326778B
Application number: CN202110602637.8A
Authority: CN
Inventors: 段勃; 李浩澜; 杨东鑫; 张春明; 王佩; 张杨
Original assignee: Western Research Institute Of China Science And Technology Computing Technology
Current assignee: Western Research Institute Of China Science And Technology Computing Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-07-12
Anticipated expiration: 2041-05-31
Also published as: CN113326778A

Abstract

本发明提供一种基于图像识别的人体姿态检测方法、装置和存储介质，所述方法包括：获取待识别的当前帧图像；对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集；根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；根据所述人体姿态框架图，获取到所述人体姿态检测结果；因此，本发明解决了现有技术进行人体姿态识别方法存在误检率高和实时性差的问题，有效提高了检测速度和准确度，满足了对人体姿态识别的实时性和准确性的需求。

Description

基于图像识别的人体姿态检测方法、装置和存储介质

技术领域

本发明涉及图像识别技术领域，具体涉及基于图像识别的人体姿态检测方法、装置和存储介质。

背景技术

人体姿态识别技术是机器视觉领域的重要分支和前沿性技术,其在目前的智能应用具有重要意义，例如,可广泛应用于智能视频监控、机器人视觉、人机交互、游戏控制等领域,应用市场前景广阔。

在现有技术中，一般采用基于人工设定的图像HOG、SHIFT特征的进行姿态估计，但是该种方式需要人工提前设定HOG及SHIFT特征，并没有准确获取图像丰富信息，导致算法在不同成像视角、多人互相遮挡、等噪声影响时，无法准确捕捉特征变化，导致姿态识别结果不唯一，并且在人体做出相似动作时姿态识别结果容易出现混淆的问题。

可见，现有技术进行人体姿态识别方法存在误检率高和实时性差的问题，不能满足对人体姿态识别的实时性和准确性的需求。

发明内容

针对现有技术中所存在的不足，本发明提供的基于图像识别的人体姿态检测方法、装置和存储介质，其解决了现有技术进行人体姿态识别方法存在误检率高和实时性差的问题，有效提高了检测速度和准确度，满足了对人体姿态识别的实时性和准确性的需求。

第一方面，本发明提供一种基于图像识别的人体姿态检测方法，所述方法包括：获取待识别的当前帧图像；对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集；根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；根据所述人体姿态框架图，获取到所述人体姿态检测结果。

可选地，对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集，包括：将所述当前帧图像输入ShuffleNet_v2神经网络，得到当前特征图像；将所述当前特征图像输入第一卷积神经网络，得到每个关键点的置信度参数和位置参数；根据每个关键点的置信度参数，得到每个关键点的类别信息；将所有关键点的类别信息组合成所述关键点类别信息集。

可选地，对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集，还包括：将所述当前特征图像输入第二卷积神经网络，得到每个关键点的向量参数；根据所述每个关键点的位置参数和置信度参数，得到每个关键点的类别信息；根据所述每个关键点的类别信息、所述位置参数、所述向量参数和亲和度算法，获取每个关键点相对应的亲和度向量；将所有关键点的亲和度向量组成所述亲和度向量集。

可选地，所述亲和度算法为：

其中，D表示关键点i和关键点i+1的欧式距离，u为单位向量，k_i和k_i+1表示关键点的向量参数。

可选地，根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图，包括：根据所述关键点类别信息集和所述亲和度向量集，获取与每个关键点亲和度最高的匹配点；将所述每个关键点与所述匹配点进行拼接，得到所述人体姿态框架图。

可选地，获取待识别的当前帧图像，包括：在当前时间段内，实时获取目标监控区域的视频图像；对所述视频图像进行多线程解码，得到解码图像集；对所述解码图像集进行预处理，得到所述待识别的当前帧图像。

可选地，对所述解码图像集进行预处理，得到所述待识别的当前帧图像，包括：按照预设标准尺寸，对所述解码图像集中每个图像的尺寸进行修改，得到标准图像集；对所述标准图像集中的每帧图像进行双边滤波，得到所述待识别的当前帧图像。

可选地，在根据所述人体姿态框架图，获取到所述人体姿态检测结果之后，所述方法还包括：获取所述当前时间段内的若干个人体姿态识别结果；对所述若干个人体姿态识别结果进行数据分析，得到在所述当前时间段的安全分析结果。

第二方面，本发明提供一种基于图像识别的人体姿态检测装置，所述装置包括：图像获取模块，用于获取待识别的当前帧图像；特征提取模块，用于对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集；构建模块，用于根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；识别结果获取模块，用于根据所述人体姿态框架图，获取到所述人体姿态检测结果。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待识别的当前帧图像；对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集；根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；根据所述人体姿态框架图，获取到所述人体姿态检测结果。

相比于现有技术，本发明具有如下有益效果：

本发明通过轻量级神经网络进行图像的特征提取，减少了网络宽度和卷积层，有效提高了检测速度，满足了对人体姿态识别的实时性需要；本发明根据人体关键点的亲和度向量进行人体姿态框架的构建，提高了人体姿态识别的准确度，有效避免多人互相遮挡时出现姿态识别误差，满足了对人体姿态识别的准确性的需求。

附图说明

图1所示为本发明实施例提供的一种基于图像识别的人体姿态检测方法的流程示意图；

图2所示为本发明实施例提供的一种人体关键点标注示意图；

图3所示为本发明实施例提供的另一种基于图像识别的人体姿态检测方法的流程示意图；

图4所示为本发明实施例提供的又一种基于图像识别的人体姿态检测方法的流程示意图；

图5所示为本发明实施例提供的一种基于图像识别的人体姿态检测装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本发明实施例提供的一种基于图像识别的人体姿态检测方法的流程示意图；如图1所示，所述基于图像识别的人体姿态检测方法具体包括以下步骤：

步骤S101，获取待识别的当前帧图像。

在本实施例中，获取待识别的当前帧图像，包括：在当前时间段内，实时获取目标监控区域的视频图像；对所述视频图像进行多线程解码，得到解码图像集；对所述解码图像集进行预处理，得到所述待识别的当前帧图像。

其中，对所述解码图像集进行预处理，得到所述待识别的当前帧图像，包括：按照预设标准尺寸，对所述解码图像集中每个图像的尺寸进行修改，得到标准图像集；对所述标准图像集中的每帧图像进行双边滤波，得到所述待识别的当前帧图像。

需要说明的是，所述视频图像可以是当前时间段的实时视频图像数据，也可以是历史视频图像数据；为了实现对视频图像实时监测的要求，根据实际情况可以每个时间段的时长定义为1秒、200毫秒、300毫秒等，将在当前时长内获取到目标监控区域内的所有图像数据组合成所述视频图像。当本发明应用在吊篮的视频监控的应用场景中时，图像采集装置是固定在吊篮的目标监控点，在所述目标监控点可以以最大视野范围采集吊篮作业区域的视频图像数据，因此将在目标监控点所监控的作业区域作为目标监控区域。

进一步地，在本实施可以通过单线程对视频图像数据进行解码，为了提高解码效率本实施还可以采用多线程同时对视频图像数据进行解码；图像采集装置将采集到的作业视频图像经过压缩、编码等处理得到所述视频图像数据，再将所述视频图像数据传输到服务器的核心处理器中，所述核心处理器将接收到的所述视频图像数据中的每个图像进行多线程解码，得到多个解码图像。

进一步地，对所述视频图像数据进行解码，得到解码图像集，包括：主线程将所视频图像数据中的每帧图像分配到多个解码子线程进行解码；所述多个解码子线程将解码后的解码图像存放在缓存队列；其中，所述缓存队列中的所有解码图像作为所述解码图像集。

需要说明的是，为了提高视频图像处理效率，在本实施例中通过核心处理器实现对视频图像的解码，通过显卡对视频图像进行图像识别，然后在通过核心处理器对图像识别结果进行分析计算，得到安全监测结果；因此核心处理器将视频图像进行一一解码后需要发送到显卡再进行图像识别，那么解码效率会影响图像识别的效率。

为了减少或避免显卡获取解码图像的等待时间，核心处理器采用多个线程实现对视频图像的同步解码，所述主线程为控制线程，用于接收控制指令、图像识别结果和安全分析结果等数据，还用于发送控制指令到多个解码线程，使所述多个解码线程根据所述控制指令从相应的视频源地址获取编码图像，再对所述编码图像进行解码，并将解码后的图像依次存储在缓存队列中，使显卡从缓存队列中获取已经解码后的图像。需要说明的是，图像在进行目标检测模型识别之前，需要进行预处理步骤，解码图像需要修改到模型固定输入大小，在本实施例可选为720*720、608*608或者416*416，图像越大模型捕获的特征越多，识别效果则会越好；修改尺寸过后的图像会经过全局双边滤波单元进行模糊处理，主要是减少背景中远处小目标带来的随机噪声；其中双边滤波方法引入了图像像素域核，可以准确衡量图像像素变换剧烈程度；在本实施例中，所述双边滤波公式为：

步骤S102，对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集。

如图2所示，在实际应用中按照吊篮真实场景中人体姿态，将人体划分为25个关键点标注，每个关键点的标注类别如下表所示：

序号	标注类别	序号	标注类别
				0	鼻子	13	左腿膝盖
1	脖子	14	左腿脚踝
				2	右肩	15	右眼
3	右臂手肘	16	左眼
				4	右臂手腕	17	右耳
5	左肩	18	左耳
				6	左臂手肘	19	左脚大拇指
7	左臂手腕	20	左脚小拇指
				8	中腹	21	左脚脚跟
9	右臀	22	右脚大拇指
				10	右腿膝盖	23	右脚小拇指
11	右腿脚踝	24	右脚脚跟
				12	左臀

在本发明的实施例中，对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集，包括：将所述当前帧图像输入ShuffleNet_v2神经网络，得到当前特征图像；将所述当前特征图像输入第一卷积神经网络，得到每个关键点的置信度参数和位置参数；根据每个关键点的置信度参数，得到每个关键点的类别信息；将所有关键点的类别信息组合成所述关键点类别信息集。

在本发明的实施例中，对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集，还包括：将所述当前特征图像输入第二卷积神经网络，得到每个关键点的向量参数；根据所述每个关键点的位置参数和置信度参数，得到每个关键点的类别信息；根据所述每个关键点的类别信息、所述位置参数、所述向量参数和亲和度算法，获取每个关键点相对应的亲和度向量；将所有关键点的亲和度向量组成所述亲和度向量集。

如图3所示，将当前帧图像经过ShuffleNet_v2神经网络后，提取人体姿态特征，从而得到当前特征图像；其中ShuffleNet_v2同时满足了CNN网络中速度、精度二个指标，大量使用1*1卷积融合输入和输出通道大小，详细设计了组卷积数量，优化了网络碎片以及减少元素级运算，照比传统轻量神经网络大大提高了FLOPs(浮点运算次数)，采用ShuffleNet_v2可以解决人体提取姿态特征的同时兼顾实时推理速度。同时自定义了一个CNN神经网络，该网络大量采用了1*1卷积核，在尽量保证特征不丢的同时进行参数降维，通过该自定义网络分别获得图像特征向量。

经过shufflenet_v2后将完整图像特征向量分别送入两个卷积神经网络，分别获得图片内每个人体关键点的置信度和位置参数，以及每个关键点的向量参数。

需要说明的是，在获得关键点位置及置信度信息后，根据人体关键点中某一类关键点类别i，得到与相关联的两类匹配关键点，比如关键点类别为左膝盖，对应着匹配关键点点为左胯骨关键点及左脚关键点，评判给定类别关键点的亲和度算法是：

其中，D表示关键点i和关键点i+1的欧式距离，u为单位向量，k_i和k_i+1表示关键点的向量参数，整体表示两个关键点向量与两点连线方向的单位向量的路径积分，值越小则说明亲和度越高。

步骤S103，根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图。

具体地，根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图，包括：根据所述关键点类别信息集和所述亲和度向量集，获取与每个关键点亲和度最高的匹配点；将所述每个关键点与所述匹配点进行拼接，得到所述人体姿态框架图。

需要说明的是，将点集及亲和度参数转换为图论中偶图匹配，通过一个种连线方式找使得所有关键点都分别匹配到亲和度最高的周围关键点，也就是将同一个人的关节点链接起来，使得最后形成每个人体连线亲和度最高，上述过程中因为亲和度向量场具有矢量性，可以保证生成的偶匹配准确度较高，所以最终可以保证合并成一个整体骨架。

步骤S104，根据所述人体姿态框架图，获取到所述人体姿态检测结果。

需要说明的是，根据人体姿态框架图，可以识别出当前人体数量、人体的姿态识别结果，其中可以通过现有技术的公开方案使根据人体姿态框架图得到相应的人体姿态识别结果，所述姿态识别结果包括但不限于人体数量、人体站立、人体坐姿或人体瘫倒。

相比于现有技术，本发明具有如下有益效果：

在本发明的另一个实施例中，在根据所述人体姿态框架图，获取到所述人体姿态检测结果之后，所述方法还包括：获取所述当前时间段内的若干个人体姿态识别结果；对所述若干个人体姿态识别结果进行数据分析，得到在所述当前时间段的安全分析结果。

本发明应用在吊篮场景下工人姿态检测方法，如图4所示，本发明在获取到一批次人体姿态检测结果，以此来判断这个计算周期内人员是否处于安全状态，假设一批次人体姿态检测结果中检测到吊篮作业人数是否等于后台指定人数，当检测到的吊篮作业人数大于指定人数时输出超载违规作业的安全分析结果，当检测到的吊篮作业人数小于指定人数时输出缺勤或人员发生意外的安全分析结果；当检测到的吊篮作业人数等于指定人数时，检测当前人体姿态是否为瘫倒姿态，当检测出当前人体姿态为瘫倒姿态时输出人员发生意外的安全分析结果，当为检测出瘫倒姿态是输出人员处于安全状态的分析结果。

在本发明的实施例中，在获取待识别的当前帧图像之前，本发明所提供的方法还包括以下步骤：获取样本数据集；对所述样本数据集进行数据标注，得到标注数据集；对所述标注数据集进行数据增强，得到训练数据集；将所述训练数据集输入人工智能方法进行迭代训练，得到特征提取模型，通过所述特征提取模型进行上述当前帧图像的特征提取。

在实际应用中，按照吊篮真实场景，人体姿态关键点分为上述25类，因此分别采集上述作业类别下所有类别下的视频图像，将所述视频图像中的图像数据作为样本数据集；再根据所述作业类别对所述样本数据集进行数据标注和数据增强后，得到增强数据集，将所述增强数据集按照8:1:1的比例划分为训练数据集、验证数据集和测试数据集。

进一步地，将所述训练数据集输入到人工智能方法进行迭代训练，得到训练检测模型，然后根据所述验证数据集和测试数据集对所述训练检测模型进行验证和测试后得到所述特征提取模型；其中，所述人工智能方法包括但不限于卷积神经网络、循环神经网络、深度神经网络、决策树、基于规则的专家***、遗传算法、回归算法、贝叶斯算法和具有与上述方法类似功能的其他方法。在本实施例中，通过采集摄像头仰视、俯视角度，不同光照、背景、半遮挡图像实现对样本数据集的扩充，还通过在模型训练阶段均加入了图像几何畸变、光照畸变、随机角度倾斜、图层混合、模糊、马赛克、随机遮挡等增强方法，来保证模型泛化能力更强。本发明通过对场景的定制化分类可有效保证误识别率下降，通过数据集扩充保障模型泛化能力，提高更多复杂场景下的认知能力，还通过马赛克增强保障小目标的检测能力。

图5所示为本发明实施例提供的一种基于图像识别的人体姿态检测装置的结构示意图，如图5所示，本发明提供的一种基于图像识别的人体姿态检测装置具体包括：

图像获取模块510，用于获取待识别的当前帧图像；

特征提取模块520，用于对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集；

构建模块530，用于根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；

识别结果获取模块540，用于根据所述人体姿态框架图，获取到所述人体姿态检测结果。

在本发明的又一个实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待识别的当前帧图像；对所述当前帧图像进行特征提取，得到所述当前帧图像中的关键点类别信息集和亲和度向量集；根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；根据所述人体姿态框架图，获取到所述人体姿态检测结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于图像识别的人体姿态检测方法，其特征在于，所述方法包括：

获取待识别的当前帧图像；

将所述当前帧图像输入ShuffleNet_v2神经网络，得到当前特征图像；

将所述当前特征图像输入第一卷积神经网络，得到每个关键点的置信度参数和位置参数；根据每个关键点的置信度参数，得到每个关键点的类别信息；将所有关键点的类别信息组合成关键点类别信息集；

将所述当前特征图像输入第二卷积神经网络，得到每个关键点的向量参数；根据所述每个关键点的位置参数和置信度参数，得到每个关键点的类别信息；根据所述每个关键点的类别信息、所述位置参数、所述向量参数和亲和度算法，获取每个关键点相对应的亲和度向量；将所有关键点的亲和度向量组成亲和度向量集；所述亲和度算法为：

其中，

表示关键点

和关键点

的欧式距离，

为单位向量，

和

表示关键点的向量参数；

根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；

根据所述人体姿态框架图，获取到所述人体姿态检测结果。

2.如权利要求1所述的基于图像识别的人体姿态检测方法，其特征在于，根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图，包括：

根据所述关键点类别信息集和所述亲和度向量集，获取与每个关键点亲和度最高的匹配点；

将所述每个关键点与所述匹配点进行拼接，得到所述人体姿态框架图。

3.如权利要求1所述的基于图像识别的人体姿态检测方法，其特征在于，获取待识别的当前帧图像，包括：

在当前时间段内，实时获取目标监控区域的视频图像；

对所述视频图像进行多线程解码，得到解码图像集；

对所述解码图像集进行预处理，得到所述待识别的当前帧图像。

4.如权利要求3所述的基于图像识别的人体姿态检测方法，其特征在于，对所述解码图像集进行预处理，得到所述待识别的当前帧图像，包括：

按照预设标准尺寸，对所述解码图像集中每个图像的尺寸进行修改，得到标准图像集；

对所述标准图像集中的每帧图像进行双边滤波，得到所述待识别的当前帧图像。

5.如权利要求3所述的基于图像识别的人体姿态检测方法，其特征在于，在根据所述人体姿态框架图，获取到所述人体姿态检测结果之后，所述方法还包括：

获取所述当前时间段内的若干个人体姿态识别结果；

对所述若干个人体姿态识别结果进行数据分析，得到在所述当前时间段的安全分析结果。

6.一种基于图像识别的人体姿态检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待识别的当前帧图像；

特征提取模块，用于将所述当前帧图像输入ShuffleNet_v2神经网络，得到当前特征图像；还用于将所述当前特征图像输入第一卷积神经网络，得到每个关键点的置信度参数和位置参数；根据每个关键点的置信度参数，得到每个关键点的类别信息；将所有关键点的类别信息组合成关键点类别信息集；还用于将所述当前特征图像输入第二卷积神经网络，得到每个关键点的向量参数；根据所述每个关键点的位置参数和置信度参数，得到每个关键点的类别信息；根据所述每个关键点的类别信息、所述位置参数、所述向量参数和亲和度算法，获取每个关键点相对应的亲和度向量；将所有关键点的亲和度向量组成亲和度向量集；所述亲和度算法为：

其中，

表示关键点

和关键点

的欧式距离，

为单位向量，

和

表示关键点的向量参数；

构建模块，用于根据所述关键点类别信息集和所述亲和度向量集，构建出所述当前帧图像中的人体姿态框架图；

识别结果获取模块，用于根据所述人体姿态框架图，获取到所述人体姿态检测结果。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项方法的步骤。