CN112200157A

CN112200157A - 一种降低图像背景干扰的人体3d姿态识别方法及其***

Info

Publication number: CN112200157A
Application number: CN202011369668.5A
Authority: CN
Inventors: 唐浩; 范宇航
Original assignee: Chengdu Tishi Technology Co ltd
Current assignee: Chengdu Tishi Technology Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-01-08

Abstract

本发明公开了一种降低图像背景干扰的人体3D姿态识别方法及其***，包括：S1：基于多个摄像单元获取多信道的当前帧采集图像；S2：对多个所述当前帧采集图像进行行人检测并生成行人图像集；S3：通过对所述行人图像集进行2D骨骼关键点检测并通过三角测量计算空间3D坐标生成人体姿态信息。本发明通过对采集图像进行行人检测，降低了采集图像的背景干扰，并通过将行人检测生成的行人图像集作为计算2D骨骼关键点的神经网络的输入，增加了2D骨骼关键点的计算结果准确率，同时通过预设判断参与2D骨骼关键点计算的摄像单元数量的步骤，降低整体***的摄像单元数量限制并提升了姿态识别***的覆盖范围。

Description

一种降低图像背景干扰的人体3D姿态识别方法及其***

技术领域

本发明涉及人体姿态识别技术领域，具体涉及一种降低图像背景干扰的人体3D姿态识别方法及其***。

背景技术

3D人体姿态估计方法可以作为人体姿态识别、行为识别、人体跟踪等任务的基础，同时也在医疗、监控、人机交互等领域具有很高的应用价值。目前3D人体姿态估计方法可以分为基于单摄像头的人体姿态估计方法和基于多摄像头的人体姿态估计方法。基于单摄像头的3D姿态估计方法通过图像的前景背景差异来估计图像中人体的深度，结合2D人体姿态关节点估计算法，还原人体姿态在3D空间中的位置。基于多摄像头的3D姿态估计方法，首先分别在每个摄像头中估计人体的2D关节点坐标，然后通过三角测量的方法计算出关节点的3D空间坐标。

随着近几年来以卷积神经网络为核心的深度学习的发展以及计算能力的显著提升，使得基于多摄像头的实时3D人体姿态估计成为了很多应用的最佳选择。基于多摄像头能够通过摄像头之间的外参标定确定摄像头的空间位置，从而使用三角测量的方法获取3D空间位置，相较于基于单摄像头的3D姿态估计通过估计深度来还原3D空间位置，基于多摄像头的方法能够获得更稳定和更精确的3D空间位置。

但是，目前无论基于单摄像头还是多摄像头的姿态估计方法，在使用采集图像估计2D/3D姿态时，都使用整张图像作为深度学习网络的输入，因此背景会对结果产生很大的干扰，算法的局限性很大。

因此，现有的人体3D姿态识别方法具有抗干扰能力弱及检测精度低的问题。

发明内容

有鉴于此，本发明提供一种降低图像背景干扰的人体3D姿态识别方法，通过改进图像检测方法，解决了现有的人体3D姿态识别方法具有抗干扰能力弱及检测精度低的问题。

为解决以上问题，本发明的技术方案为采用一种降低图像背景干扰的人体3D姿态识别方法，包括：S1：基于多个摄像单元获取多信道的当前帧采集图像；S2：对多个所述当前帧采集图像进行行人检测并生成行人图像集；S3：通过对所述行人图像集进行2D骨骼关键点检测并通过三角测量计算空间3D坐标生成人体姿态信息。

可选地，所述S2包括：S21：构建用于行人检测的第一神经网络模型；S22：基于训练样本集和所述第一神经网络模型构建回归模型，训练所述第一神经网络模型；S23：将多个所述当前帧采集图像输入训练后的所述第一神经网络模型，获取多个所述当前帧采集图像的行人坐标；S24：基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集。

可选地，基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集包括：S241：基于所述第一神经网络模型输出的行人坐标构建提取框；S242：基于所述提取框提取所述当前帧采集图像对应区域的图像构成所述行人图像；S243：重复步骤S241-S242直至遍历完全部包含行人坐标的所述当前帧采集图像。

可选地，所述S2还包括：在多个所述当前帧采集图像中至少存在两个所述行人图像时提取多个所述行人图像构成所述行人图像集；在多个所述当前帧采集图像中仅存在一个所述行人图像时，获取多信道的下一帧采集图像并进行行人检测。

可选地，所述S1包括：对多个所述摄像单元进行内参标定获取内参和畸变参数；选取主摄像头，并对所述主摄像头外的其余多个所述摄像单元进行外参标定获取外参、平移向量和旋转矩阵；基于所述内参和畸变参数，利用图像处理函数获取畸变矫正后的多信道的所述当前帧采集图像。

可选地，所述S3包括：S31：构建第二神经网络模型；S32：基于训练样本集和所述第二神经网络模型构建回归模型，训练所述第二神经网络模型；S33：将多个所述行人图像进行尺寸一致化后输入训练后的所述第二神经网络模型，获取行人的2D骨骼关键点坐标；S34：通过对所述2D骨骼关键点坐标进行三角测量计算空间3D坐标生成人体姿态信息。

相应地，本发明提供，一种降低图像背景干扰的人体3D姿态识别***，包括：摄像单元，用于获取多信道的视频流数据；数据处理单元，用于逐帧处理并提取所述视频流数据的多信道的当前帧采集图像；第一神经网络单元，用于对多个所述当前帧采集图像进行行人检测并生成行人图像集；第二神经网络单元，用于对所述行人图像集进行2D骨骼关键点检测并通过三角测量计算空间3D坐标生成人体姿态信息。

可选地，所述人体3D姿态识别***还包括跨平台计算机视觉库单元，用于提供所述数据处理单元和所述第二神经网络单元所需的图像处理函数。

可选地，所述人体3D姿态识别***还包括数据存储单元，用于存储所述第一神经网络单元和所述第二神经网络单元所需的训练样本集。

可选地，所述第一神经网络单元通过构建用于行人检测的第一神经网络模型，并基于训练样本集和所述第一神经网络模型构建回归模型，训练所述第一神经网络模型，以及将多个所述当前帧采集图像输入训练后的所述第一神经网络模型获取多个所述当前帧采集图像的行人坐标，并基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集，其中，在多个所述当前帧采集图像中至少存在两个所述行人图像时提取多个所述行人图像构成所述行人图像集，在多个所述当前帧采集图像中仅存在一个所述行人图像时，获取多信道的下一帧采集图像并进行行人检测。

本发明的首要改进之处为提供的降低图像背景干扰的人体3D姿态识别方法，通过对采集图像进行行人检测，降低了采集图像的背景干扰，并通过将行人检测生成的行人图像集作为计算2D骨骼关键点的神经网络的输入，增加了2D骨骼关键点的计算结果准确率，同时通过预设判断参与2D骨骼关键点计算的摄像单元数量的步骤，降低整体***的摄像单元数量限制并提升了姿态识别***的覆盖范围。

附图说明

图1是本发明的降低图像背景干扰的人体3D姿态识别方法的简化流程图；

图2是本发明的生成行人图像集的简化流程图；

图3是本发明的生成2D骨骼关键点的简化流程图；

图4是本发明的降低图像背景干扰的人体3D姿态识别***的简化模块连接图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，一种降低图像背景干扰的人体3D姿态识别方法，包括：S1：基于多个摄像单元获取多信道的当前帧采集图像；S2：对多个所述当前帧采集图像进行行人检测并生成行人图像集；S3：通过对所述行人图像集进行2D骨骼关键点检测并通过三角测量计算空间3D坐标生成人体姿态信息。

进一步的，如图2所示，所述S2包括：

S21：构建用于行人检测的第一神经网络模型，其中，所述第一神经网络模型可以是基于YOLO检测框架的行人检测模型，该模型的输入为224*224*3的RBG三通道图像，输出为(x,y,w,h,confidene)，其中x，y分别是检测出来人的目标框的左上角坐标，w为目标框的宽，h为目标框的高，confidence则表示该目标框内包含行人的置信度的大小；

S22：基于训练样本集和所述第一神经网络模型构建回归模型，训练所述第一神经网络模型，训练样本集可以是（I,x,y,w,h）表示的图片集和标签集，其中I为包含行人的复杂背景图像，(x,y,w,h)为行人在该图像中的目标框的位置，具体的，构建回归模型后，输入为包含行人的RBG图像，输出为(x,y,w,h,confidene)，并采用随机梯度下降法通过计算输出的坐标和真实标签中的坐标的差值，通过梯度回传来修改网络的参数，训练所述第一神经网络模型；

S23：将多个所述当前帧采集图像输入训练后的所述第一神经网络模型，获取多个所述当前帧采集图像的行人坐标；

S24：基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集。

具体的，基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集包括：S241：基于所述第一神经网络模型输出的行人坐标构建提取框；S242：基于所述提取框提取所述当前帧采集图像对应区域的图像构成所述行人图像；S243：重复步骤S241-S242直至遍历完全部包含行人坐标的所述当前帧采集图像。其中，在多个所述当前帧采集图像中至少存在两个所述行人图像时提取多个所述行人图像构成所述行人图像集；在多个所述当前帧采集图像中仅存在一个所述行人图像时，获取多信道的下一帧采集图像并进行行人检测。

进一步的，所述S1包括：对多个所述摄像单元进行内参标定获取内参K和畸变参数，内参K为，其中，fx，fy为相机的焦距，u0和v0是主点的坐标，摄像单元的畸变参数为（k1,k2,k3,p1,p2），其中，k和p分别代表摄像头的径向畸变和切向畸变；选取主摄像头，并对所述主摄像头外的其余多个所述摄像单元进行外参标定获取外参T= (Tx,Ty,Tz)、平移向量和旋转矩阵R = R(α,β,γ)；基于所述内参和畸变参数，利用图像处理函数获取畸变矫正后的多信道的所述当前帧采集图像。

更进一步的，如图3所示，所述S3包括：

S31：构建第二神经网络模型，该神经网络模型可以是包含153层网络的深度卷积神经网络，该模型的输入为RGB三通道图像，输出为（key points，confidence），其中，keypoints为2D骨骼关键点坐标（x_i，y_i），confidence为该骨骼关键点没有被遮挡的置信度；

S32：基于训练样本集（I，key points，confidence）和所述第二神经网络模型构建回归模型，训练所述第二神经网络模型，其中，I为行人图像，key points为2D骨骼关键点在图像中的坐标，confidence为该骨骼关键点没有被遮挡的置信度，回归模型采用随机梯度下降法通过计算输出的关键点坐标和真实标签中的坐标的差值L1，以及预测的confidence的差值L2，计算总体差值Loss=L1+L2，通过梯度回传来修改网络的参数，训练所述第二神经网络模型；

S33：将多个所述行人图像进行尺寸一致化后输入训练后的所述第二神经网络模型，获取行人的2D骨骼关键点坐标，其中，每张输入的尺寸一致的所述行人图像经卷积运算、最大值池化运算、反卷积运算和均值池化运算后输出预测多个2D骨骼关键点坐标的热力图和对应2D骨骼关键点坐标的最高置信度confidence，基于所述热力图及其对应2D骨骼关键点坐标的最高置信度confidence，提取所述热力图中置信度最高的坐标作为该2D骨骼关键点的预测坐标，即可输出该2D骨骼关键点坐标及其对应的置信度confidence，重复上述步骤即可获取行人的全部2D骨骼关键点坐标及其置信度；

S34：通过对所述2D骨骼关键点坐标进行三角测量计算空间3D坐标生成人体姿态信息。其中，在所述第二神经网络模型获取多个摄像单元采集的行人的对应2D骨骼关键点坐标（x_i，y_i）的情况下，基于所有摄像单元的投影矩阵P和每个摄像单元采集的对应的2D骨骼关键点坐标（x_i，y_i）构建转换矩阵A，并利用公式A×Y=0计算该骨骼关键点的3D坐标Y，重复上述步骤即可生成全部骨骼关键点的3D坐标。

进一步的，在计算空间3D坐标的神经网络单元必然需要计算2D骨骼关键点坐标的置信度的情况下，传统的计算空间3D坐标的方法中默认全部2D骨骼关键点坐标的置信度相同，但是由于多个摄像头采集的2D骨骼关键点坐标的被遮挡程度不同（即2D骨骼关键点坐标的置信度不同）且所述第二神经网络模型的输出中必然包含有2D骨骼关键点坐标的置信度，因此，传统的计算空间3D坐标的方法不仅造成了2D骨骼关键点坐标的置信度的相关信息成为冗余信息、浪费了相关神经网络单元的算力，还降低了输出的空间3D坐标的准确度。本申请为解决这一问题，提出一种改进后的计算空间3D坐标生成人体姿态信息的方法，在基于所有摄像单元的投影矩阵P和每个摄像单元采集的对应的2D骨骼关键点坐标（xi，yi）构建矩阵A时，将2D骨骼关键点坐标的置信度的相关信息加入转换矩阵A，利用公式A1=W*A生成更新后的转换矩阵A1，其中，W为2D骨骼关键点坐标的置信度的集合，并利用公式A1×Y=0计算该骨骼关键点的3D坐标Y，重复上述步骤即可生成全部骨骼关键点的3D坐标，充分利用了前期运算时的冗余信息，有效地提升了输出的空间3D坐标的准确度。

相应的，本发明提供，如图4所示，一种降低图像背景干扰的人体3D姿态识别***，包括：摄像单元，用于获取多信道的视频流数据；数据处理单元，用于逐帧处理并提取所述视频流数据的多信道的当前帧采集图像；第一神经网络单元，用于对多个所述当前帧采集图像进行行人检测并生成行人图像集；第二神经网络单元，用于对所述行人图像集进行2D骨骼关键点检测并通过三角测量计算空间3D坐标生成人体姿态信息。其中，所述人体3D姿态识别***还包括跨平台计算机视觉库单元，用于提供所述数据处理单元和所述第二神经网络单元所需的图像处理函数；数据存储单元，用于存储所述第一神经网络单元和所述第二神经网络单元所需的训练样本集。

进一步的，所述第一神经网络单元通过构建用于行人检测的第一神经网络模型，并基于训练样本集和所述第一神经网络模型构建回归模型，训练所述第一神经网络模型，以及将多个所述当前帧采集图像输入训练后的所述第一神经网络模型获取多个所述当前帧采集图像的行人坐标，并基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集，其中，在多个所述当前帧采集图像中至少存在两个所述行人图像时提取多个所述行人图像构成所述行人图像集，在多个所述当前帧采集图像中仅存在一个所述行人图像时，获取多信道的下一帧采集图像并进行行人检测。

本发明通过对采集图像进行行人检测，降低了采集图像的背景干扰，并通过将行人检测生成的行人图像集作为计算2D骨骼关键点的神经网络的输入，增加了2D骨骼关键点的计算结果准确率，同时通过预设判断参与2D骨骼关键点计算的摄像单元数量的步骤，降低整体***的摄像单元数量限制并提升了姿态识别***的覆盖范围。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种降低图像背景干扰的人体3D姿态识别方法，其特征在于，包括：

S1：基于多个摄像单元获取多信道的当前帧采集图像；

S2：对多个所述当前帧采集图像进行行人检测并生成行人图像集；

S3：通过对所述行人图像集进行2D骨骼关键点检测并通过三角测量计算空间3D坐标生成人体姿态信息。

2.根据权利要求1所述的人体3D姿态识别方法，其特征在于，所述S2包括：

S21：构建用于行人检测的第一神经网络模型；

S22：基于训练样本集和所述第一神经网络模型构建回归模型，训练所述第一神经网络模型；

3.根据权利要求2所述的人体3D姿态识别方法，其特征在于，基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集包括：

S241：基于所述第一神经网络模型输出的行人坐标构建提取框；

S242：基于所述提取框提取所述当前帧采集图像对应区域的图像构成所述行人图像；

S243：重复步骤S241-S242直至遍历完全部包含行人坐标的所述当前帧采集图像。

4.根据权利要求3所述的人体3D姿态识别方法，其特征在于，所述S2还包括：

在多个所述当前帧采集图像中至少存在两个所述行人图像时提取多个所述行人图像构成所述行人图像集；

在多个所述当前帧采集图像中仅存在一个所述行人图像时，获取多信道的下一帧采集图像并进行行人检测。

5.根据权利要求4所述的人体3D姿态识别方法，其特征在于，所述S1包括：

对多个所述摄像单元进行内参标定获取内参和畸变参数；

选取主摄像头，并对所述主摄像头外的其余多个所述摄像单元进行外参标定获取外参、平移向量和旋转矩阵；

基于所述内参和畸变参数，利用图像处理函数获取畸变矫正后的多信道的所述当前帧采集图像。

6.根据权利要求5所述的人体3D姿态识别方法，其特征在于，所述S3包括：

S31：构建用于生成2D骨骼关键点坐标的第二神经网络模型；

S32：基于训练样本集和所述第二神经网络模型构建回归模型，训练所述第二神经网络模型；

S33：将多个所述行人图像进行尺寸一致化后输入训练后的所述第二神经网络模型，获取行人的2D骨骼关键点坐标；

S34：通过对所述2D骨骼关键点坐标进行三角测量计算空间3D坐标生成人体姿态信息。

7.一种降低图像背景干扰的人体3D姿态识别***，其特征在于，包括：

摄像单元，用于获取多信道的视频流数据；

数据处理单元，用于逐帧处理并提取所述视频流数据的多信道的当前帧采集图像；

第一神经网络单元，用于对多个所述当前帧采集图像进行行人检测并生成行人图像集；

第二神经网络单元，用于对所述行人图像集进行2D骨骼关键点检测并通过三角测量计算空间3D坐标生成人体姿态信息。

8.根据权利要求7所述的人体3D姿态识别***，其特征在于，所述人体3D姿态识别***还包括跨平台计算机视觉库单元，用于提供所述数据处理单元和所述第二神经网络单元所需的图像处理函数。

9.根据权利要求7所述的人体3D姿态识别***，其特征在于，所述人体3D姿态识别***还包括数据存储单元，用于存储所述第一神经网络单元和所述第二神经网络单元所需的训练样本集。

10.根据权利要求7所述的人体3D姿态识别***，其特征在于，所述第一神经网络单元通过构建用于行人检测的第一神经网络模型，并基于训练样本集和所述第一神经网络模型构建回归模型，训练所述第一神经网络模型，以及将多个所述当前帧采集图像输入训练后的所述第一神经网络模型获取多个所述当前帧采集图像的行人坐标，并基于多个所述行人坐标及其对应的所述当前帧采集图像生成所述行人图像集，其中，

在多个所述当前帧采集图像中至少存在两个所述行人图像时提取多个所述行人图像构成所述行人图像集，