CN111428664A

CN111428664A - 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法

Info

Publication number: CN111428664A
Application number: CN202010239278.XA
Authority: CN
Inventors: 徐邵凯
Original assignee: Xiamen Ruiwei Information Technology Co ltd
Current assignee: Xiamen Ruiwei Information Technology Co ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-17
Anticipated expiration: 2040-03-30
Also published as: CN111428664B

Abstract

本发明适用于视频处理技术领域，提供了一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，通过依次获取摄像头采集的当前帧图像，并进行归一化操作，使用预训练的神经网络模型与后处理算法对当前帧图像进行多人姿态估计，得到图像中所有人的人体关键点和人体骨架，从而实现多人姿态估计。本发明基于全图进行多人姿态估计，能够通过摄像头采集的图像快速准确的预测图片中所有人的人体关键点和骨架姿态，非常适合在安防领域用于判断人的行为和人体的姿态。本发明通过预训练的神经网络，经过一次前向传播即可预测出图片中所有人的人体姿态，运行速度不受图片中人数多少的限制，因此可以更加快速稳定的运行。

Description

一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法

技术领域

本发明属于视频处理技术领域，尤其涉及一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法。

背景技术

随着计算机技术的高速发展，深度学习在计算机领域的应用越来越广泛。其中，通过对摄像头采集的视频流中的人体姿态进行估计拥有广泛的应用价值。通过对视频流中每帧图像中人体的姿态进行估计，可以进一步进行行为识别，从而判断人的行为，可用于智能监控；此外，也可以通过人体姿态估计进行人机交互，开发各种人机交互应用程序。

而目前基于深度学习的人体姿态估计算法由于网络模型结构庞大、后处理流程复杂等因素，导致算法耗时非常多，难以做到实时处理，这就限制了人体姿态估计的应用。

发明内容

本发明提供一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，能够在嵌入式终端或服务器端进行快速准确的多人人体姿态估计，从而进行进一步的行为识别或人机交互。

本发明是这样实现的，一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，包括以下步骤：

获取摄像头采集的当前帧图像，并进行归一化操作；

使用预训练的神经网络模型与后处理算法对当前帧图像进行多人姿态估计，得到图像中所有人的人体关键点和人体骨架。

优选的，所述获取摄像头采集的当前帧图像，并进行归一化操作，具体为：

从摄像头获取当前帧的RGB图片；

对所述图片使用预设参数进行归一化处理；

将所述图片缩放到宽576*高320。

优选的，所述神经网络模型与后处理算法对当前帧图像进行多人姿态估计，具体为：

所述神经网络模型的主干网络为ResNet50结构，输入大小为宽576、高320，使用ResNet50的卷积部分提取多尺度特征，分别从ResNet50的四个残差组结构获得四种大小的feature maps。接着将第一组feature maps进行2倍上采样后与第二组feature maps按通道拼接，前两组拼接后的feature maps经过卷积层与2倍上采样层后与第三组featuremaps按通道拼接，前三组拼接后的feature maps经过卷积层与2倍上采样层后与第四组feature maps按通道拼接。将第一组feature maps经过四个bottleneck结构后进行8倍上采样，将上述前两组拼接后的feature maps经过卷积层融合后再经过三个bottleneck结构后进行4倍上采样，将上述前三组拼接后的feature maps经过卷积层融合后再经过两个bottleneck结构后进行2倍上采样，将前四组拼接后的feature maps经过卷积层融合后再经过一个bottleneck结构，最后将8倍上采样、4倍上采样、2倍上采样和最后一个bottleneck结构输出的feature maps按照通道进行拼接，经过卷积层后得到输出featuremaps，通道数为35，宽为144，高为80；

使用后处理算法对神经网络模型输出的feature maps进行后处理；取输出feature maps第一个通道的144*80个数据，对每个值求sigmoid函数值，根据提前设定的阈值，找到144*80个sigmoid输出值中大于阈值的值及其位置，并将所有满足条件的点进行点的非极大值抑制，经过非极大值抑制以后剩余的满足条件的点为输入图像中每个人体的中心点；取feature maps第二通道的144*80个数据，将人体中心点作为第一个人体关键点的父节点，找到该二维矩阵中每个父节点坐标处的值，该值与人体中心点的横坐标值相加得出第一个人体关键点的横坐标；从feature maps第三个通道的144*80个数据，找到该二维矩阵中第一个人体关键点父节点坐标处的值，该值与人体中心点的纵坐标相加得出第一个人体关键点的纵坐标；同样的方法，第一个人体关键点为第二个人体关键点的父节点，根据feature maps第四、五个通道的数据，可以得出第二个人体关键点的横纵坐标；所有人体关键点中父节点关系为：中心点->第一个关键点->第二个关键点->第三个关键点，中心点->第四个关键点->第五个关键点->第六个关键点，中心点->第七个关键点->第八个关键点->第九个关键点，中心点->第十个关键点->第十一个关键点->第十二个关键点->第十三个关键点，中心点->第十四个关键点->第十五个关键点->第十六个关键点->第十七个关键点；根据所有人体关键点父节点对应关系，应用上述方法，从feature maps中依次得出每个人体关键点的横纵坐标；根据图像原大小和宽144*高80的对应倍数关系，将每个人体关键点的横纵坐标还原到原图大小；

将十七个人体关键点按照预设的规则进行连接，形成人体骨架。

优选的，所述神经网络模型的训练方法包括以下步骤：

获取包含人体的训练样本集，所述训练样本集包含每张图片中全部人的人体框及十七个人体关键点的标注信息；

对训练图片和标注信息进行预处理：对训练图片进行随机左右翻转、旋转随机角度、随机缩放和裁剪，随机增强图像色彩、亮度、饱和度以及对比度，最后将图像缩放到576*320像素，根据标注信息中人体框位置计算出人体中心点坐标，将人体中心点和十七个人体关键点坐标根据图片预处理情况进行转换，转换后的人体中心点和十七个人体关键点坐标为预处理后的图片相对值；

根据人体中心点和十七个人体关键点坐标生成神经网络训练标签；首先根据人体中心点坐标生成Center map：生成一个144*80的全0矩阵，根据图中每个人体的中心点坐标将矩阵对应位置及其邻域元素处置1，邻域大小根据人体框大小设定，将该置1区域以邻域半径为高斯核大小进行高斯化，若多个人体中心的邻域有重叠部分，则重叠部分元素取最大值；然后根据十七个人体关键点坐标生成三十四个Heat map：每个关键点对应两个Heatmap，分别为该关键点的横坐标Heat map和纵坐标Heat map，横坐标Heat map中，对于某一个关键点A，其父节点为R，则在A的横坐标Heat map上点R位置处的值为点A实际横坐标与点R实际横坐标的差，点R邻域内某点的值为点A实际横坐标与该点横坐标的差，同样的，点A纵坐标Heat map上的点R位置处的值为点A实际纵坐标与点R实际纵坐标的差，点R邻域内某点的值为点A实际纵坐标与该点纵坐标的差；最后，若某个Heat map中有若干个人的关节点邻域有重叠，则重叠区域的取值为所有人取值之和的平均；

使用预处理后的图片和训练标签训练神经网络模型。

与现有技术相比，本发明的有益效果是：

1、本发明基于全图进行多人姿态估计，能够通过摄像头采集的图像快速准确的预测图片中所有人的人体关键点和骨架姿态，非常适合在安防领域用于判断人的行为和人体的姿态。

2、本发明通过预训练的神经网络，经过一次前向传播即可预测出图片中所有人的人体姿态，运行速度不受图片中人数多少的限制，同时无需进行人体检测步骤，因此可以更加快速稳定的运行。

3、本发明中的神经网络模型输出结果中已经自动将所有预测出的关键点分配给每个人体，后处理算法不需要对预测出的关键点进行再分配，从而大大降低了算法运行的时间复杂度，实现了实时的多人姿态估计。

附图说明

图1为本发明进行多人姿态估计的一较佳实施例的执行流程图。

图2为本发明多人姿态估计方法的神经网络模型结构图。

图3为本发明多人姿态估计方法的神经网络模型训练方法的一较佳实施例的执行流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明提供一种技术方案：一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，包括下述步骤：

a、获取摄像头采集的当前帧图像，并进行归一化操作，具体包括以下步骤：

a1，从摄像头获取当前帧的RGB图片。

a2，对图片使用预设参数进行归一化处理。一般的归一化过程可用如下公式表示：

其中，min为图像中像素最小值，max为图像中像素最大值，在本发明实施min例中值取0，max值取255。

a3，将归一化后的图片进行缩放，宽缩放到576像素，高缩放到320像素。

b、预训练神经网络模型，请参阅图3，具体包括以下步骤：

b1，获取包含人体的训练样本集。获取训练数据和标注信息，收集图片中包含人体的数据集，包括图片数据和标注信息。对数据进行清洗，去掉低质量、图片中人体占比过少、标注错误的数据。训练样本集包含每张图片中全部人的人体框及十七个人体关键点的标注信息。

b2，对训练图片和标注信息进行预处理：对训练图片进行随机左右翻转、旋转随机角度、随机缩放和裁剪，随机增强图像色彩、亮度、饱和度以及对比度，最后将图像缩放到576*320像素，根据标注信息中人体框位置计算出人体中心点坐标，将人体中心点和十七个人体关键点坐标根据图片预处理情况进行转换，转换后的人体中心点和十七个人体关键点坐标为预处理后的图片相对值。

b2-1，为提高多人姿态估计神经网络模型的人体角度鲁棒性，使其能够对各种角度的人体进行姿态估计，将原图随机旋转-90°到90°之间的某个角度值，同时将图片的标注信息根据图片实际旋转的角度做对应转换。

b2-2，为提高多人姿态估计神经网络模型对不同大小和不同部位的人体进行预测的鲁棒性，随机将图片进行放大或缩小，放大后截取原大小对应的区域，缩小后将图片四周用0填充到原大小，同时将图片的标注信息根据图片实际的放大或缩小情况做对应转换。

b2-3，为提高年龄性别预测神经网络模型的颜色空间鲁棒性，使其能够适应不同光照、不同场景、不同摄像头造成的成像差异，对图像色彩、亮度、饱和度、对比度等随机进行增强。

b2-4，将增强后的图片进行缩放，将图像宽高分别缩放为576像素、320像素，若图像发生形变，则用0扩充较短边。

b2-5，将缩放后的图片进行归一化，一般的归一化过程可用如下公式表示：

b3，根据人体中心点和十七个人体关键点坐标生成神经网络训练标签；首先根据人体中心点坐标生成Center map：生成一个144*80的全0矩阵，根据图中每个人体的中心点坐标将矩阵对应位置及其邻域元素处置1，邻域大小根据人体框大小设定，将该置1区域以邻域半径为高斯核大小进行高斯化，若多个人体中心的邻域有重叠部分，则重叠部分元素取最大值；然后根据十七个人体关键点坐标生成三十四个Heat map：每个关键点对应两个Heat map，分别为该关键点的横坐标Heat map和纵坐标Heat map，横坐标Heat map中，对于某一个关键点A，其父节点为R，则在A的横坐标Heat map上点R位置处的值为点A实际横坐标与点R实际横坐标的差，点R邻域内某点的值为点A实际横坐标与该点横坐标的差，同样的，点A纵坐标Heat map上的点R位置处的值为点A实际纵坐标与点R实际纵坐标的差，点R邻域内某点的值为点A实际纵坐标与该点纵坐标的差，所有人体关键点中父节点关系在步骤b2中已做说明；最后，若某个Heat map中有若干个人的关节点邻域有重叠，则重叠区域的取值为所有人取值之和的平均。

b4，使用预处理后的图片和训练标签训练神经网络模型：输入训练图片，网络输出通道数为35、宽为144、高为80的feature maps，提取第一个通道的feature map与Centermap求得中心点损失，中心点损失的目标函数使用像素逻辑回归的Focal Loss：

其中α和β是Focal Loss的超参数，实际使用中两个数分别设置为2和4，N是图像中的关键点个数，除以N主要为了将所有focal loss归一化，

表示某一点的预测值，Y_xyc表示某一点的真实值。提取余下34个通道的feature map与Heat map求得关键点偏移回归损失，关键点偏移回归损失的目标函数使用SmoothL1 Loss：

其中，f(x_i)表示某点的预测值，y_i表示某点的真实值。将中心点损失和关键点偏移回归损失相加后求导进行反向传播，更新神经网络模型参数。

b5，若网络模型的前向传播预测损失值满足停止阈值，则结束训练，保存网络模型参数。若不满足，则对网络模型参数梯度进行反向传播，更新模型参数值，返回到步骤b4。

c、使用预训练的神经网络模型与后处理算法对当前帧图像进行多人姿态估计，得到图像中所有人的人体关键点和人体骨架，具体包括以下步骤：

c1，请参阅图2，神经网络模型主干网络为ResNet50结构，输入大小为宽576、高320，使用ResNet50的卷积部分提取多尺度特征，分别从ResNet50的四个残差组结构获得四种大小的feature maps。接着将第一组feature maps进行2倍上采样后与第二组featuremaps按通道拼接，前两组拼接后的feature maps经过卷积层与2倍上采样层后与第三组feature maps按通道拼接，前三组拼接后的feature maps经过卷积层与2倍上采样层后与第四组feature maps按通道拼接。将第一组feature maps经过四个bottleneck结构后进行8倍上采样，将上述前两组拼接后的feature maps经过卷积层融合后再经过三个bottleneck结构后进行4倍上采样，将上述前三组拼接后的feature maps经过卷积层融合后再经过两个bottleneck结构后进行2倍上采样，将前四组拼接后的feature maps经过卷积层融合后再经过一个bottleneck结构，最后将8倍上采样、4倍上采样、2倍上采样和最后一个bottleneck结构输出的feature maps按照通道进行拼接，经过卷积层后得到输出feature maps，通道数为35，宽为144，高为80。

c2，使用后处理算法对神经网络模型输出的feature maps进行后处理。取输出feature maps第一个通道的144*80个数据，对每个值求sigmoid函数值，根据提前设定的阈值，找到144*80个sigmoid输出值中大于阈值的值及其位置，并将所有满足条件的点进行点的非极大值抑制，经过非极大值抑制以后剩余的满足条件的点为输入图像中每个人体的中心点；取feature maps第二通道的144*80个数据，将人体中心点作为第一个人体关键点的父节点，找到该二维矩阵中每个父节点坐标处的值，该值与人体中心点的横坐标值相加得出第一个人体关键点的横坐标；从feature maps第三个通道的144*80个数据，找到该二维矩阵中第一个人体关键点父节点坐标处的值，该值与人体中心点的纵坐标相加得出第一个人体关键点的纵坐标；同样的方法，第一个人体关键点为第二个人体关键点的父节点，根据feature maps第四、五个通道的数据，可以得出第二个人体关键点的横纵坐标；所有人体关键点中父节点关系为：中心点->第一个关键点->第二个关键点->第三个关键点，中心点->第四个关键点->第五个关键点->第六个关键点，中心点->第七个关键点->第八个关键点->第九个关键点，中心点->第十个关键点->第十一个关键点->第十二个关键点->第十三个关键点，中心点->第十四个关键点->第十五个关键点->第十六个关键点->第十七个关键点；根据所有人体关键点父节点对应关系，应用上述方法，可以从feature maps中依次得出每个人体关键点的横纵坐标。根据图像原大小和宽144*高80的对应倍数关系，将每个人体关键点的横纵坐标还原到原图大小。

c3，将十七个人体关键点按照预设的规则进行连接，形成人体骨架。

本发明还提供一种基于全图的多人姿态估计***，包括图片获取模块、图像预处理模块和多人姿态估计模块。

图片获取模块用于获取摄像头采集的当前帧图像。图像预处理模块用于对摄像头采集的图片进行归一化和缩放等预处理操作。多人姿态估计模块，将预处理后的全图输入到预训练的神经网络模型，并经过与预训练模型匹配的后处理算法，预测图片中所有人的人体骨架，输出人体关键点坐标。

另外，本发明的基于全图的多人姿态估计***可以在一个电子设备上运行，并且该电子设备包括存储器和处理器，存储器存储计算机程序，处理器执行计算机程序时实现实时的多人姿态估计。

综上所述，本发明具有以下特点：

1、本发明基于全图进行多人姿态估计，能够通过摄像头采集的图像快速准确的预测图片中所有人的人体关键点和骨架姿态，非常适合在安防领域用于判断人的行为和人体的姿态，此外，在家庭娱乐领域还可以通过人体姿态估计进行方便快捷的人机交互。

2、本发明通过预训练的神经网络，经过一次前向传播即可预测出图片中所有人的人体姿态，相比于目前常用的人体检测算法+单人姿态估计算法策略耗时随人数线性增长的缺点，本算法运行速度不受图片中人数多少的限制，同时无需进行人体检测步骤，因此可以更加快速稳定的运行。

3、本发明的后处理算法时间复杂度极低，相比于其他多人姿态估计的后处理算法需要对每两个关键点进行匹配从而将关键点分配给每个人体的策略，本发明中的神经网络模型输出结果中已经自动将所有预测出的关键点分配给每个人体，后处理算法不需要对预测出的关键点进行再分配，从而大大降低了算法运行的时间复杂度，实现了实时的多人姿态估计。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，其特征在于：包括以下步骤：

获取摄像头采集的当前帧图像，并进行归一化操作；

2.如权利要求1所述的一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，其特征在于：所述获取摄像头采集的当前帧图像，并进行归一化操作，具体为：

从摄像头获取当前帧的RGB图片；

对所述图片使用预设参数进行归一化处理；

将所述图片缩放到宽576*高320。

3.如权利要求2所述的一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，其特征在于：所述神经网络模型与后处理算法对当前帧图像进行多人姿态估计，具体为：

所述神经网络模型的主干网络为ResNet50结构，输入大小为宽576、高320，使用ResNet50的卷积部分提取多尺度特征，分别从ResNet50的四个残差组结构获得四种大小的feature maps；接着将第一组feature maps进行2倍上采样后与第二组feature maps按通道拼接，前两组拼接后的feature maps经过卷积层与2倍上采样层后与第三组featuremaps按通道拼接，前三组拼接后的feature maps经过卷积层与2倍上采样层后与第四组feature maps按通道拼接；将第一组feature maps经过四个bottleneck结构后进行8倍上采样，将上述前两组拼接后的feature maps经过卷积层融合后再经过三个bottleneck结构后进行4倍上采样，将上述前三组拼接后的feature maps经过卷积层融合后再经过两个bottleneck结构后进行2倍上采样，将前四组拼接后的feature maps经过卷积层融合后再经过一个bottleneck结构，最后将8倍上采样、4倍上采样、2倍上采样和最后一个bottleneck结构输出的feature maps按照通道进行拼接，经过卷积层后得到输出featuremaps，通道数为35，宽为144，高为80；

使用后处理算法对神经网络模型输出的feature maps进行后处理；取输出featuremaps第一个通道的144*80个数据，对每个值求sigmoid函数值，根据提前设定的阈值，找到144*80个sigmoid输出值中大于阈值的值及其位置，并将所有满足条件的点进行点的非极大值抑制，经过非极大值抑制以后剩余的满足条件的点为输入图像中每个人体的中心点；取feature maps第二通道的144*80个数据，将人体中心点作为第一个人体关键点的父节点，找到该二维矩阵中每个父节点坐标处的值，该值与人体中心点的横坐标值相加得出第一个人体关键点的横坐标；从feature maps第三个通道的144*80个数据，找到该二维矩阵中第一个人体关键点父节点坐标处的值，该值与人体中心点的纵坐标相加得出第一个人体关键点的纵坐标；同样的方法，第一个人体关键点为第二个人体关键点的父节点，根据feature maps第四、五个通道的数据，可以得出第二个人体关键点的横纵坐标；所有人体关键点中父节点关系为：中心点->第一个关键点->第二个关键点->第三个关键点，中心点->第四个关键点->第五个关键点->第六个关键点，中心点->第七个关键点->第八个关键点->第九个关键点，中心点->第十个关键点->第十一个关键点->第十二个关键点->第十三个关键点，中心点->第十四个关键点->第十五个关键点->第十六个关键点->第十七个关键点；根据所有人体关键点父节点对应关系，应用上述方法，从feature maps中依次得出每个人体关键点的横纵坐标；根据图像原大小和宽144*高80的对应倍数关系，将每个人体关键点的横纵坐标还原到原图大小；

4.如权利要求3所述的一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法，其特征在于：所述神经网络模型的训练方法包括以下步骤：

根据人体中心点和十七个人体关键点坐标生成神经网络训练标签；首先根据人体中心点坐标生成Center map：生成一个144*80的全0矩阵，根据图中每个人体的中心点坐标将矩阵对应位置及其邻域元素处置1，邻域大小根据人体框大小设定，将该置1区域以邻域半径为高斯核大小进行高斯化，若多个人体中心的邻域有重叠部分，则重叠部分元素取最大值；然后根据十七个人体关键点坐标生成三十四个Heat map：每个关键点对应两个Heat map，分别为该关键点的横坐标Heat map和纵坐标Heat map，横坐标Heat map中，对于某一个关键点A，其父节点为R，则在A的横坐标Heat map上点R位置处的值为点A实际横坐标与点R实际横坐标的差，点R邻域内某点的值为点A实际横坐标与该点横坐标的差，同样的，点A纵坐标Heat map上的点R位置处的值为点A实际纵坐标与点R实际纵坐标的差，点R邻域内某点的值为点A实际纵坐标与该点纵坐标的差；最后，若某个Heat map中有若干个人的关节点邻域有重叠，则重叠区域的取值为所有人取值之和的平均；

使用预处理后的图片和训练标签训练神经网络模型。