WO2024114500A1

WO2024114500A1 - 一种人体姿态识别方法及装置

Info

Publication number: WO2024114500A1
Application number: PCT/CN2023/133598
Authority: WO
Inventors: 殷政; 张力文; 栾元杰; 金子杰
Original assignee: 天翼数字生活科技有限公司
Priority date: 2022-11-30
Filing date: 2023-11-23
Publication date: 2024-06-06
Also published as: CN115909497A

Abstract

本申请公开了一种人体姿态识别方法及装置，方法包括：结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，预置***为基于IOU和阈值对人体进行跟踪的网络；采用预设关键点预测网络在目标人体框中预测出人体关键点，预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络；根据人体关键点对目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。本申请能够解决现有技术无法同时兼顾较高识别精度和较快识别速度的技术问题。

Description

一种人体姿态识别方法及装置

技术领域

本申请涉及机器视觉技术领域，尤其涉及一种人体姿态识别方法及装置。

背景技术

人体姿态识别任务主要是从摄像机捕获的视频或者图片中获取人体的各个部位的关节点坐标。人体姿态识别当下有许多应用领域，包括虚拟现实，人机交互，体育训练及分析，异常行为检测等。

当前的人体姿态识别算法主要可以分为两类，一类是自上而下(Top-down)，先检测每一个人体边界框，然后在通过关键点回归网络对每个人的骨骼关键点进行预测。一类是自下而上(Bottom-up)，直接预测所有人体的骨骼关键点，然后将关键点连接为不同人体。前者在人体目标检测阶段会消耗大量计算成本，整体算法速度慢；而后者抗干扰能力差，算法识别精度较低。

发明内容

本申请提供了一种人体姿态识别方法及装置，用于解决现有技术无法同时兼顾较高识别精度和较快识别速度的技术问题。

有鉴于此，本申请第一方面提供了一种人体姿态识别方法，包括：

结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络；

采用预设关键点预测网络在所述目标人体框中预测出人体关键点，所述预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络；

根据所述人体关键点对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

优选的，所述结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络，之前还包括：

在监控视频中获取多个人物图像帧；

对所述人物图像帧进行预处理操作，得到目标人物图像帧，所述预处理包括剪裁处理、减均值处理和正态化处理。

优选的，所述结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络，包括：

通过预置***判断上一帧的历史IOU是否小于阈值，若是，则通过人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，并更新当前IOU；

若否，则将上一帧人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框作为所述目标人体框，并更新所述当前IOU。

优选的，所述采用预设关键点预测网络在所述目标人体框中预测出人体关键点，所述预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络，包括：

通过基准姿态估计网络在所述目标人体框中获取基准关键点；

依据干扰部位分类网络对所述目标人体框中的人体躯干进行干扰性分析，得到干扰性向量；

基于所述基准关键点和所述干扰性向量进行加权计算，得到人体关键点。

优选的，所述根据所述人体关键点对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果，包括：

基于关键点匹配算法将所述人体关键点连接为人体骨架图；

根据所述人体骨架图对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

本申请第二方面提供了一种人体姿态识别装置，包括：

人体框检测单元，用于结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络；

关键点预测单元，用于采用预设关键点预测网络在所述目标人体框中预测出人体关键点，所述预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络；

人体姿态识别单元，用于根据所述人体关键点对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

优选的，还包括：

图像帧获取单元，用于在监控视频中获取多个人物图像帧；

图像预处理单元，用于对所述人物图像帧进行预处理操作，得到目标人物图像帧，所述预处理包括剪裁处理、减均值处理和正态化处理。

优选的，还包括：

图像帧获取单元，用于在监控视频中获取多个人物图像帧；

优选的，所述人体框检测单元，包括：

第一判断子单元，用于通过预置***判断上一帧的历史IOU是否小于阈值，若是，则通过人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，并更新当前IOU；

第二判断子单元，用于若否，则将上一帧人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框作为所述目标人体框，并更新所述当前IOU。

优选的，所述关键点预测单元，包括：

基准预测子单元，用于通过基准姿态估计网络在所述目标人体框中获取基准关键点；

干扰分析子单元，用于依据干扰部位分类网络对所述目标人体框中的人体躯干进行干扰性分析，得到干扰性向量；

加权计算子单元，用于基于所述基准关键点和所述干扰性向量进行加权计算，得到人体关键点。

优选的，所述人体姿态识别单元，包括：

连接子单元，用于基于关键点匹配算法将所述人体关键点连接为人体骨架图；

识别子单元，用于根据所述人体骨架图对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种人体姿态识别方法，包括：结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，预置***为基于IOU和阈值对人体进行跟踪的网络；采用预设关键点预测网络在目标人体框中预测出人体关键点，预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络；根据人体关键点对目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

本申请提供的人体姿态识别方法，通过***配合人体检测网络进行人体框检测，依据IOU和阈值对人体进行跟踪可以减少人体检测次数，降低了冗余计算，能够加快处理速度；而在关键点预测过程中加入了干扰部位分类网络进行干扰分析，基于干扰分析结果进行关键点预测能够提升预测准确度；通过对人体姿态识别过程进行针对性改进，可以同时兼顾较高的识别精度和较快的识别速度。因此，本申请能够解决现有技术无法同时兼顾较高识别精度和较快识别速度的技术问题。

附图说明

图1为本申请实施例提供的一种人体姿态识别方法的一个流程示意图；

图2为本申请实施例提供的一种人体姿态识别方法的另一个流程示意图；

图3为本申请实施例提供的一种人体姿态识别装置的结构示意图；

图4为本申请实施例提供的MMpose网络模型的人体框检测过程示意图；

图5为本申请实施例提供的结合预置***和人体检测网络的人体框检测过程示意图；

图6为本申请实施例提供的预设关键点预测网络预测关键点过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种人体姿态识别方法的实施例一，包括：

步骤101、结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，预置***为基于IOU和阈值对人体进行跟踪的网络。

预置***是基于IOU(Intersection over Union)和对应的阈值对图像帧中的人体进行跟踪的网络；其中，阈值可以根据实际经验或者实际情况设置，在此不做限定；IOU是测量在特定数据集中检测相应物体准确度的一个标准。只要是在输出中得出一个预测范围(bounding boxes，后简称bbox)的任务都可以用IoU来进行测量。预置***通过对人体进行跟踪，可以避免人体检测网络多次重复检测带来的较大计算量，可以加快算法处理速度。

具体检测原理是，预置***可以跟踪到具体的人体时，人体检测网络只需要检测一次人体框，直至跟踪的人体丢失，即超出预置跟踪范围，则重新启动人体检测网络进行人体框检测，这样的机制可以较大程度的减少计算量，提高运行速度。

本申请实施例的改进算法是以MMpose网络模型为基准的，该网络模型是Top-down类型算法，它的人体框检测机制是通过检测网络获取图片中人体边界框，然后直接将人体区域图作为人体骨骼关键点预测网络的输入图进行关键点预测计算。该方法就是不断重读人体框检测，造成较大的计算量，拖慢了运行进程。

步骤102、采用预设关键点预测网络在目标人体框中预测出人体关键点，预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络。

预设关键点预测网络包括两种重要的网络层，即基准姿态估计网络和干扰部位分类网络。基准姿态估计网络可以直接预测出目标人体框中的人体关键点，但是，在多人场景中会存在多个不同人体部分部位发生重叠的情况，这部分躯干对主体人的识别而言会造成干扰，进而导致关键点预测不准，所以，本实施例中增设干扰部位分类网络提取各部位分类的向量特征，进而优化关键点的预测。具体的，为了不增加整体算法的计算负担，可以选取轻量级网络构建干扰部位分类网络，既可以提高预测准确度，又可以降低计算量。

步骤103、根据人体关键点对目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

预测出的人体关键点存在标记，根据标记就可以完成点与点的连接，形成人体骨架线条，根据线条方向，或者线条与线条形成的几何形状可以识别出目标人物图像帧中的人体姿态，得到人体姿态识别结果。

本申请实施例提供的人体姿态识别方法，通过***配合人体检测网络进行人体框检测，依据IOU和阈值对人体进行跟踪可以减少人体检测次数，降低了冗余计算，能够加快处理速度；而在关键点预测过程中加入了干扰部位分类网络进行干扰分析，基于干扰分析结果进行关键点预测能够提升预测准确度；通过对人体姿态识别过程进行针对性改进，可以同时兼顾较高的识别精度和较快的识别速度。因此，本申请实施例能够解决现有技术无法同时兼顾较高识别精度和较快识别速度的技术问题。

为了便于理解，请参阅图2，本申请提供了一种人体姿态识别方法的实施例二，包括：

步骤201、在监控视频中获取多个人物图像帧。

步骤202、对人物图像帧进行预处理操作，得到目标人物图像帧，预处理包括剪裁处理、减均值处理和正态化处理。

监控设备可以不断获取视频流，监控视频即从视频流中选取，通过FFmpeg进行视频解码，监控视频中就可以提取出多个图像帧，相邻帧与帧之间存在时序关系，可以对连续帧进行检测和关键点预测，从而判断出人体姿态，甚至是人物行为。本实施例主要是对人体动作进行分析，所以选取存在人物的图像帧即可。

预处理操作是为了提升图像帧的质量，便于后续的人体框检测和关键点预测。除了本实施例提出的剪裁处理、减均值处理和正态化处理之外，还可以根据实际情况增设其他的预处理过程，在此不做限定。

步骤203、通过预置***判断上一帧的历史IOU是否小于阈值，若是，则通过人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，并更新当前IOU。

步骤204、若否，则将上一帧人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框作为目标人体框，并更新当前IOU。

如果每个图像帧都采用人体检测网络检测一次，那么一段监控视频需要多次调用人体检测网络，带来较大的计算量。所以，是否采用人体检测网络检测到当前的目标人体框还需要通过历史IOU判断，即启动预置***进行判断处理，进而决定是否需要人体检测网络处理该帧图像。

如果上一帧的历史IOU小于阈值，则说明上一帧图像帧识别出的人体关键点的最小外接矩形框与上上一帧识别的人体关键点的最小外接矩形框之间重叠部分较小，那基于两个最小外接矩形框计算得到的IOU就会小于阈值，检测目标可能已经移动出前面的图像帧，人体已经脱离的***允许的移动范围，所以当前帧就不再沿用上一帧的最小外接矩形框提取目标人体框，而是需要通过人体检测网络对目标人物图像帧进行人体检测，得到目标人体框。

如果上一帧的历史IOU不小于阈值，则说明上一帧图像帧识别出的人体关键点的最小外接矩形框与上上一帧识别的人体关键点的最小外接矩形框之间重叠部分较多，所以基于两个最小外接矩形框计算得到的历史IOU大于或者等于阈值，检测目标仍然在图像帧内，当前帧则可以采用上一时刻识别出的人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框在当前帧中提取目标人体框，不经过人体检测网络进行冗余检测。

需要说明的是，第一帧图像是需要直接采用人体检测网络检测出的人体框，然后采用预设关键点预测网络识别人体关键点，而此时人体关键点的最小外接矩形扩展一定像素得到的扩展框即可以看作初始bbox，此时的人体框没有前一时刻的人体框对应计算IOU，所以直接定义第一帧图像处理完成的IOU＝1。

需要解释的是，bbox是人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框，不是从图像帧中提取的目标人体框，所以，每个bbox都是在人体关键点预测完成后获取到的，用于计算当前帧对应的当前IOU，当前IOU则用于判定下一帧是否需要采用人体检测网络进行目标检测。

需要说明的是，扩展是以像素为单位，并且具体扩展多少像素，即预置数量可根据实际情况设定，在此不做限定，而且扩展是指从最小外接矩形的四条边同时向外扩展，不是某一条边。

请参阅4，其检测人体框的过程是传统方法，直接通过人体检测网络(Person detector)检测人体框，而本申请的检测机制请参阅图5，其中的Tracker即为预置***，可以对人体进行跟踪，Pose landmarks为后续的预设关键点预测网络。

步骤205、通过基准姿态估计网络在目标人体框中获取基准关键点。

步骤206、依据干扰部位分类网络对目标人体框中的人体躯干进行干扰性分析，得到干扰性向量。

步骤207、基于基准关键点和干扰性向量进行加权计算，得到人体关键点。

需要说明的是，预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络。为了提高这种多人躯干重叠时，主体目标关键点的预测准确率，本实施例在关键点预测过程增设了干扰部位分类网络，请参阅图6，其中Image为上述检测得到的目标人体框图，目标人体框除了需要输入基准姿态估计网络进行关键点预测之外，还需要输入干扰部位分类网络进行干扰性分析；然后将二者的结果通过通道加权计算，得到更加准确的人体关键点预测结果。此外，每个当前帧图像预测出人体关键点后，都需要提取该人体关键点的最小外接矩形，并扩展预置数量像素得到扩展框，与上一帧对应的扩展框计算当前IOU。

干扰部位分类网络主要是预测框中每个关节点是否属于主体目标，或者说，对属于主体的关节点和不属于主体的关节点进行二分类的过程。本实施例中选取轻量级网络MobileNetV2作为干扰部位分类网络的主干网络，用于提取适合干扰部位分类任务的特征，获得每个关节点的干扰性向量：
V＝[v₀p₀，v₁p₁，.....v_kp_k]，v_i∈{0，1}，i∈[0，k]

其中，p_i为人体每个关节点，v_i为二值变量，表示第i个关节点是否为干扰关节点，取值0即为非干扰关节点，取值1则为干扰关节点，k为关节点的数量。

本实施例对MobileNetV2做出适当的修改，以适应干扰部位分类任务，将网络MobileNetV2中用于图像分类的1000维全连接分类器替换为输出通道数为k的1×1卷积。基于以上构成的预设关键点预测网络的损失函数表达为：
L＝L_lm+λL_ic

其中，L_lm为基准姿态估计网络的损失函数，L_ic为干扰部位分类网络的损失函数，λ为平衡因子。因此，本实施例可以在引入较小的计算代价的情况下有效的提高多人干扰造成的关键点预测效果较差的问题。

步骤208、基于关键点匹配算法将人体关键点连接为人体骨架图。

步骤209、根据人体骨架图对目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

关键点匹配算法可以根据匹配准确度选取合适的算法，在此不做限定。人体骨架图包括关键点连接成的线条和原始的目标人物图像帧，叠加显示便于对应人体部位。

本实施例提供的方法既保留了Top-down类型的高精度，又得到了比Top-down类型算法更快的速度，降低了计算量和功耗，使得算法更具实际工程意义。

为了便于理解，请参阅图3，本申请还提供了一种人体姿态识别装置的实施例，包括：

人体框检测单元301，用于结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，预置***为基于IOU和阈值对人体进行跟踪的网络；

关键点预测单元302，用于采用预设关键点预测网络在目标人体框中预测出人体关键点，预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络；

人体姿态识别单元303，用于根据人体关键点对目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

进一步地，还包括：

图像帧获取单元304，用于在监控视频中获取多个人物图像帧；

图像预处理单元305，用于对人物图像帧进行预处理操作，得到目标人物图像帧，预处理包括剪裁处理、减均值处理和正态化处理。

进一步地，人体框检测单元301，包括：

第一判断子单元3011，用于通过预置***判断上一帧的历史IOU是否小于阈值，若是，则通过人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，并更新当前IOU；

第二判断子单元3012，用于若否，则将上一帧人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框作为目标人体框，并更新当前IOU。

进一步地，关键点预测单元302，包括：

基准预测子单元3021，用于通过基准姿态估计网络在目标人体框中获取基准关键点；

干扰分析子单元3022，用于依据干扰部位分类网络对目标人体框中的人体躯干进行干扰性分析，得到干扰性向量；

加权计算子单元3023，用于基于基准关键点和干扰性向量进行加权计算，得到人体关键点。

进一步地，人体姿态识别单元303，包括：

连接子单元3031，用于基于关键点匹配算法将人体关键点连接为人体骨架图；

识别子单元3032，用于根据人体骨架图对目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-Only Memory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种人体姿态识别方法，其特征在于，包括：

结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络；

采用预设关键点预测网络在所述目标人体框中预测出人体关键点，所述预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络；

根据所述人体关键点对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。
根据权利要求1所述的人体姿态识别方法，其特征在于，所述结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络，之前还包括：

在监控视频中获取多个人物图像帧；

对所述人物图像帧进行预处理操作，得到目标人物图像帧，所述预处理包括剪裁处理、减均值处理和正态化处理。
根据权利要求1所述的人体姿态识别方法，其特征在于，所述结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络，包括：

通过预置***判断上一帧的历史IOU是否小于阈值，若是，则通过人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，并更新当前IOU；

若否，则将上一帧人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框作为所述目标人体框，并更新所述当前IOU。
根据权利要求1所述的人体姿态识别方法，其特征在于，所述采用预设关键点预测网络在所述目标人体框中预测出人体关键点，所述预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络，包括：

通过基准姿态估计网络在所述目标人体框中获取基准关键点；

依据干扰部位分类网络对所述目标人体框中的人体躯干进行干扰性分析，得到干扰性向量；

基于所述基准关键点和所述干扰性向量进行加权计算，得到人体关键点。
根据权利要求1所述的人体姿态识别方法，其特征在于，所述根据所述人体关键点对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果，包括：

基于关键点匹配算法将所述人体关键点连接为人体骨架图；

根据所述人体骨架图对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。
一种人体姿态识别装置，其特征在于，包括：

人体框检测单元，用于结合预置***和人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，所述预置***为基于IOU和阈值对人体进行跟踪的网络；

关键点预测单元，用于采用预设关键点预测网络在所述目标人体框中预测出人体关键点，所述预设关键点预测网络包括基准姿态估计网络和干扰部位分类网络；

人体姿态识别单元，用于根据所述人体关键点对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。
根据权利要求6所述的人体姿态识别装置，其特征在于，还包括：

图像帧获取单元，用于在监控视频中获取多个人物图像帧；

图像预处理单元，用于对所述人物图像帧进行预处理操作，得到目标人物图像帧，所述预处理包括剪裁处理、减均值处理和正态化处理。
根据权利要求6所述的人体姿态识别装置，其特征在于，所述人体框检测单元，包括：

第一判断子单元，用于通过预置***判断上一帧的历史IOU是否小于阈值，若是，则通过人体检测网络对目标人物图像帧进行人体检测，得到目标人体框，并更新当前IOU；

第二判断子单元，用于若否，则将上一帧人体关键点的最小外接矩形扩展预置数量像素后得到的扩展框作为所述目标人体框，并更新所述当前IOU。
根据权利要求6所述的人体姿态识别装置，其特征在于，所述关键点预测单元，包括：

基准预测子单元，用于通过基准姿态估计网络在所述目标人体框中获取基准关键点；

干扰分析子单元，用于依据干扰部位分类网络对所述目标人体框中的人体躯干进行干扰性分析，得到干扰性向量；

加权计算子单元，用于基于所述基准关键点和所述干扰性向量进行加权计算，得到人体关键点。
根据权利要求6所述的人体姿态识别装置，其特征在于，所述人体姿态识别单元，包括：

连接子单元，用于基于关键点匹配算法将所述人体关键点连接为人体骨架图；

识别子单元，用于根据所述人体骨架图对所述目标人物图像帧中的人体姿态进行识别，得到人体姿态识别结果。