CN113673354A

CN113673354A - 一种基于上下文信息与联合嵌入的人体关键点检测方法

Info

Publication number: CN113673354A
Application number: CN202110838489.XA
Authority: CN
Inventors: 张辉; 李晨; 赵晨阳; 陈瑞博; 孔森林; 曹意宏; 王耀南
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-19
Anticipated expiration: 2041-07-23
Also published as: CN113673354B

Abstract

本发明公开了一种基于上下文信息与联合嵌入的人体关键点检测方法，该方法包含以下步骤：S1：获取训练数据；S2：搭建人体关键点检测模型；S3：构建人体关键点真实标签热图和联合嵌入值标签热图；S4：使用训练数据对人体关键点检测模型进行训练，得到训练后的人体关键点检测模型；S5：使用验证数据对人体关键点检测模型进行评估，选取最优模型；S6：重复步骤S4至S5，至全部训练数据被训练完成，得到最优模型；S7：利用最优模型进行人体关键点预测。该方法通过上下文融合模块对特征图中的像素内在相关性进行建模，提高了对关键点像素位置的预测进度，同时通过构造联合嵌入损失，降低训练难度加快收敛速度，保证不同人体关键点之间的正确匹配。

Description

一种基于上下文信息与联合嵌入的人体关键点检测方法

技术领域

本发明涉及计算机视觉和深度学习技术领域，尤其涉及一种基于上下文信息与联合嵌入的人体关键点检测方法。

背景技术

人体关键点检测是计算机视觉领域的一个重要分支，在研究人体行为分析、姿态识别与追踪等任务中起着关键性作用。人体关键点检测主要是对图像或视频中人体的一些重要关键点(例如人体关节点或其他一些重要部位)位置进行检测，即给定输入一幅包含至少一个行人的图像，输出图像中包含所有行人的全部关键点的位置坐标，通过对输出关键点坐标进行配对即可获取图像中所有人的姿态信息。

传统方法主要包括图模型和图形结构，从特征表示和关键点的空间位置关系两个方面分别进行建模。但是这种方法的检测精度一般，对背景干扰信息敏感，只适用于一些背景干净的场景。随着检测场景越来越复杂多变，以及对检测精度的要求越来越高，基于传统方法的关键点检测已经不能满足应用需求了。从2012年AlexNet的提出开始，深度学习开始快速发展，一系列的深度学习算法被引入到人体关键点检测问题，极大地提升了人体关键点的检测精度和检测速度。自2016年COCO多人姿态估计数据集公布后，多人姿态估计以其更广泛的应用需求逐渐取代了单人姿态估计成为人体关键点检测的主流研究方向。按照检测模式的不同多人姿态估计可以划分为自上而下的人体关键点检测方法和自下而上的人体关键点检测方法。

自上而下的检测方法是先通过一个行人检测器对图像中包含的行人进行检测，再对检测到的行人在原图中裁剪后进行仿射变换输入到关键点检测网络种预测人体关键点位置坐标。因此自上而下的检测方法可以看成是行人检测器加单人关键点检测的两阶段串行模式，这并不是一个端到端的模型，且后一阶段的检测精度很大程度上取决前一阶段的输出结果，在一些密集复杂场景下，行人检测器的往往会出现严重的漏检现象。此外，其检测时间受图像中行人数量的影响，检测速度难以保证，难以在实际场景中推广应用。

自下而上的检测方法无需使用行人检测器，直接对图像中所有行人的关键点进行预测，然后对所有关键点分组配对，自下而上的检测方法由于其相对较快的检测速度，在实际的应用场景中有着很大的发挥空间，但目前自下而上方法的检测精度，在实际应用中仍受到诸多限制，检测速度不够快，检测精度不高。

发明内容

本发明所要解决的技术问题是：克服现有技术存在的上述缺陷，提供一种基于上下文信息与联合嵌入的人体关键点检测方法，包含以下步骤：

S1：获取训练数据集，训练数据集包含训练数据和验证数据，标注训练数据中训练图片上的人体关键点坐标位置信息；

S2：依据自上而下检测策略搭建人体关键点检测模型；

S3：根据人体关键点检测模型构建人体关键点真实标签热图和联合嵌入值标签热图；

S4：使用步骤S1获取的已标注人体关键点坐标位置信息的训练数据对步骤S2搭建的人体关键点检测模型进行训练，得到训练后的人体关键点检测模型；

S5：使用训练数据集中的验证数据对步骤S4得到的训练后的人体关键点检测模型进行评估，选取最优模型；

S6：重复执行步骤S4至S5，直至全部训练数据被训练完成，得到最优模型；

S7：利用步骤S6得到的最优模型进行人体关键点预测。

进一步的，所述人体关键点检测模型包含高分辨率网络模块、特征金字塔模块及上下文信息融合模块，其中：

高分辨率网络模块与特征金字塔模块相连，高分辨率网络模块对接收的图像进行四个阶段的特征提取，将提取的特征图发送至特征金字塔模块；

特征金字塔模块与上下文信息融合模块相连，将接收的由高分辨率网络模块输出的特征图进行融合处理，将融合处理后的特征图输入至上下文信息融合模块；

上下文信息融合模块接收特征金字塔模块发送的融合处理后的特征图，通过上下文信息融合模块的融合处理后输出人体关键点值热图及联合嵌入值热图。

进一步的，所述步骤S3包含以下具体步骤：

S31：按预设的人体关键点个数K，生成K张人体关键点真实标签热图，并对K张人体关键点真实标签热图进行数据增强，该预设的人体关键点个数K为训练数据中训练图片上定义的人体关键点个数；

S32：将训练图片上的人体关键点坐标位置信息转换为人体关键点真实标签热图上的人体关键点峰值，分别在K张人体关键点真实标签热图中进行标记，使得每张人体关键点真实标签热图包含对应的人体关键点位置坐标信息；

S33：给定一个半径r，对K张人体关键点真实标签热图中的所有人体关键点生成非规范二维高斯分布

其中，e为自然对数的底数，x为人体关键点真实标签热图中人体关键点的x轴坐标值，y为人体关键点真实标签热图中人体关键点的y轴坐标值，σ为半径r的1/3；

S34：根据K张人体关键点真实标签热图生成与之对应的K张联合嵌入值标签热图，K张联合嵌入值标签热图中的联合嵌入值为对应K张人体关键点真实标签热图中人体关键点像素值。

进一步的，所述步骤S4包含以下具体步骤：

S41：将训练数据中的训练图片输入到步骤S2搭建的人体关键点检测模型；

S42：高分辨率网络模块作为模型主干网络对输入的训练图片进行特征提取，输出四张不同尺度的特征图；

S43：特征金字塔模块对四张不同尺度的特征图进行上采样融合，输出融合后的多尺度特征图；

S44：上下文信息融合模块接收上述融合后的多尺度特征图，并将该多尺度特征图进行融合处理，得到融合后的人体关键点预测热图和联合嵌入值预测热图；

S45：根据步骤S44输出的人体关键点预测热图和联合嵌入值预测热图分别计算人体关键点损失和联合嵌入损失，并对人体关键点检测模型参数进行调整，其中人体关键点检测模型参数包含软间隔Δ以及控制各人体关键点预测分值的超参数α和β；

S46：重复执行步骤S41-S45，直至完成对训练数据集中全部训练图片的训练。

进一步的，所述步骤S42包含以下具体步骤：

S421：高分辨率网络模块接收输入的单张训练图片；

S422：高分辨率网络模块进行第一阶段特征图提取，在该阶段，仅有一个特征提取分支，将该特征提取分支定义为高分辨率网络模块第一分支，图像通道数增加为原输入特征图通道数的2倍，本阶段提取的特征图大小比输入的训练图片大小减少1/2；

S423：高分辨率网络模块进行第二阶段特征图提取，在该阶段，增加一个特征提取处理分支，将该特征提取分支定义为高分辨率网络模块第二分支，高分辨率网络模块第二分支与高分辨率网络模块第一分支并行，则在本阶段通过高分辨率网络模块第一分支和高分辨率网络模块第二分支分别对第一阶段提取的特征图进行特征提取，图像通道数增加为本阶段输入的特征图通道数的两倍，在本阶段，高分辨率网络模块第一分支提取的特征图大小保持不变，高分辨率网络模块第二分支提取高分辨率网络模块第一分支输出的特征图，提取后特征图大小为高分辨率网络模块第一分支的1/2；

S424：高分辨率网络模块进行第三阶段特征图提取，在该阶段，再增加一个特征提取分支，将该特征提取分支定义为高分辨率网络模块第三分支，高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支并行，则在本阶段通过高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支分别对第二阶段提取的特征图进行特征提取，图像通道数增加为本阶段输入的特征图通道数的两倍，在本阶段，高分辨率网络模块第一分支和高分辨率网络模块第二分支提取的特征图大小保持不变，高分辨率网络模块第三分支提取高分辨率网络模块第二分支输出的特征图，提取的特征图大小为高分辨率网络模块第二分支的1/2；

S435：高分辨率网络模块进行第四阶段特征图提取，在该阶段，再增加一个特征提取分支，将该特征提取分支定义为高分辨率网络模块第四分支，高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支、高分辨率网络模块第四分支并行，则在本阶段高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支和高分辨率网络模块第四分支分别对第三阶段提取的特征图进行特征提取，图像通道数增加为本阶段输入的特征图通道数的两倍，图像通道数增加为本阶段输入的特征图通道数的两倍，高分辨率网络模块第一分支、高分辨率网络模块第二分支和高分辨率网络模块第三分支提取的特征图大小保持不变，高分辨率网络模块第四分支提取高分辨率网络模块第三分支输出的特征图，提取的特征图大小为高分辨率网络模块第三分支的1/2；

S436：高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支、高分辨率网络模块第四分支分别输出4张不同尺度大小的特征图。

进一步的，所述步骤S43包含以下具体步骤：

S431：特征金字塔模块使用双线性上采样依次对高分辨率网络模块第四分支至高分辨率网络模块第一分支输出的4张不同尺度大小的特征图进行上采样，采样后的特征图大小为原特征图的两倍；

S432：再将上采样后的特征图与高分辨率网络模块中对应分支输出的原特征图在通道维度上进行Concat拼接，输出融合多尺度特征高分辨率特征图，其中，Concat为合并多个字符串。

进一步的，所述步骤S44包含以下具体步骤：

S441：上下文信息融合模块的融合处理包含三个处理分支，上下文信息融合模块第一分支和上下文信息融合模块第二分支对特征金字塔模块输入的特征图进行卷积，再对卷积后输出的特征图在空间维度上进行拉伸变换得到高宽维度的向量，最后对该向量应用矩阵乘法获取特征图中所有两两像素之间的关系系数，得到像素关系矩阵；

S442：上下文信息融合模块第三分支对特征金字塔模块输入的特征图进行卷积，再对卷积后输出的特征图在空间维度上进行拉伸变换得到高宽维度的向量；

S443：将步骤S441得到的像素关系矩阵进行归一化处理，使得像素关系矩阵的每个行向量都为标准正交基；

S444：将步骤S442得到的向量以像素关系矩阵中行向量为投影基坐标进行投影映射，得到投影映射后的特征向量；

S445：对步骤S444得到的特征向量中的像素进行加权融合，输出融合全局关系信息的特征图；

S446：对融合全局关系信息的特征图生成K张人体关键点预测热图及与K张人体关键点预测热图对应的K张联合嵌入值预测热图。

进一步的，所述步骤S45包含以下具体步骤：

S451：设置超参数α、β和软间隔Δ，α和β是控制各人体关键点预测得分的超参数；

S452：计算人体关键点损失L_key：

人体关键点损失使用Focal Loss，使P_kij为人体关键点预测热图中第k个人体关键点在位置(i，j)上的得分，y_kij为加入了非规范二维高斯分布的真实热图中第k个人体关键点在位置(i，j)的得分，则人体关键点损失为：

其中，Focal Loss为带权的交叉熵损失函数，N为训练图片中人体个数，K为人体关键点个数，H为预测热图高，W为预测热图宽；

S453：计算联合嵌入损失：

首先，设h_k为第k个联合嵌入值热图，h(x)表示x位置处的联合嵌入值，假定一幅训练图共包含N个人，h_k(x_nk)为第n个人的第k个人体关键点的联合嵌入值，则第 n个人的所有K个人体关键点联合嵌入分布的均值

为：

同一人的联合嵌入损失：

不同人的联合嵌入损失：

其中，L_pull为同一人的联合嵌入损失，L_push为不同人的联合嵌入损失，Δ为软间隔，

表示第n′个人的所有K个人体关键点联合嵌入分布的均值；

S454：计算联合嵌入损失L为：

L＝L_key+λ(L_pull+L_push) (5)

其中，λ为联合嵌入损失权重系数。

进一步的，所述步骤S5包含以下具体步骤：

S51：获取步骤S4中进行训练的人体关键点检测模型的模型参数；

S52：获取验证数据集，通过该模型参数使用验证数据集上的评估指标OKS进行评估，选取最优训练模型，其中OKS为目标关键点相似度。

进一步的，所述步骤S7包含以下具体步骤：

S71：输入待测图像，对该待测图像进行数据增强处理；

S72：使用步骤S6得到的最优模型对数据增强后的待测图像进行预测，得到人体关键点预测热图及联合嵌入值预测热图；

S73：利用步骤S3得到的联合嵌入值标签热图中的联合嵌入值对步骤S72输出的人体关键点预测热图中的人体关键点进行分配；

S74：对分配后的人体关键点坐标映射回原待测图像，得到最终的人体关键点坐标。

本发明的有益效果为：本发明自主研发了一种基于上下文信息与联合嵌入的人体关键点检测方法，解决了现有技术检测精度不高，检测速度不够快的问题。本发明构建了人体关键点检测网络，该网络通过高分辨率网络模块、特征金字塔模块及上下文信息的融合模块的组合，对特征图在像素级上重新进行加权排序，为每个像素重新赋予长距离上下文信息，显著增强了网络的特征表达能力，提高对人体关键点像素位置的预测精度，同时通过重新构造联合嵌入损失，利用相对距离作为优化目标，使用软间隔距离，降低网络训练难度，加快网络收敛速度，保证不同人体关键点之间的正确匹配，本发明还通过改进高分率网络和联合嵌入优化策略，大幅提高检测精度和速度。因此本发明提出的一种基于上下文信息与联合嵌入的人体关键点检测方法，检测速度快，模型鲁棒性好，能够适应人体姿态估计任务中的各种复杂场景。

附图说明

图1为本发明提供的一种基于上下文信息与联合嵌入的人体关键点检测方法流程图；

图2为本发明提供的人体关键点检测模型示意图；

图3为本发明提供的上下文信息融合模块示意图。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例及附图对本发明作进一步详细的描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

如图1所示，本发明提供的一种基于上下文信息与联合嵌入的人体关键点检测方法，包含以下步骤：

S1：获取训练数据集，训练数据集包含训练数据和验证数据，标注训练数据中训练图片上的人体关键点坐标位置信息：

其中，训练数据包含训练数据集和验证数据集，训练数据包含不同人体姿态的图片以及标注了人体各关节点真实坐标值的标记文件，本发明实施例选用MS COCO2017(微软图像检测定位数据集)，该人体键点检测数据集共标注17个人体关键点信息，训练集共包含58K幅图片和150K个人体实例，验证集包含5K幅图片和45K个人体实例。

S2：依据自上而下检测策略搭建人体关键点检测模型；

所述人体关键点检测模型包含高分辨率网络模块、特征金字塔模块及上下文信息融合模块，其中：

高分辨率网络模块与特征金字塔模块相连，高分辨率网络模块对接收的图像进行特征提取，将提取的特征图发送至特征金字塔模块；

在多人关键点检测中，由于没有使用行人检测器进行行人区域检测和行人区域剪裁，而是直接在输入的包含多人且尺度大小不同的图片中直接对所有出现的人体关键点进行检测，因此不同视角拍摄导致的不同距离的行人在成像图像中尺度大小不一，会影响最终预测结果，因此在本发明中使用特征金字塔模块对高分辨率网络模块输出的不同尺度的特征图进行融合输出，特征金字塔模块使用双线性上采样依次对从高分辨率网络模块第四分支到高分辨率网络模块第一分支输出的4张不同尺度大小的特征图进行上采样，采样后的特征图大小为原特征图的两倍，再将上采样后的特征图与对应高分辨率网络模块对应分支输出的原特征图在通道维度上进行Concat拼接，输出融合多尺度特征高分辨率特征图，其中，Concat为合并多个字符串，使用更大的特征图进行人体关键点预测，该过程可以防止出现因为下采样操作过多而导致的小尺度人体区域像素被池化消除，从而保留更多的图片细节信息，提升人体关键点检测模型在预测特征图中恢复出待检测的人体关键点的精度。

上下文信息融合模块接收特征金字塔模块发送的特征图，输出人体关键点预测热图及联合嵌入值预测热图，由于人体关键点的预测为像素级的预测，因此在上下文信息融合模块中所有操作均为像素级别，上下文信息融合模块第一分支和上下文信息融合模块第二分支在空间维度对特征图中特征像素之间的相关性进行建模，获取特征图中任意两两像素之间的相关系数，上下文信息融合模块第三分支将获取到的像素相关系数矩阵应用到输入的特征图上，获取得到融合全局关系信息的特征图；

上下文信息融合模块包含两个输出分支，分别为人体关键点热图预测分支及联合嵌入值热图预测分支，输出特征图的尺寸大小与输入图像保持一致，输出通道个数均为K(待预测的人体关键点个数)，通过对融合全局关系信息的特征图进行处理分别从两个分支输出人体关键点预测热图及联合嵌入值预测热图。

人体关键点检测模型的训练需要真实人体关键点的热图作为真实的标签用来对每次训练的结果进行评估，因此需要构建人体关键点真实标签热图，其构建步骤包含以下具体步骤：

S31：按预设人体关键点个数K生成K张热图，该人体关键点个数K为训练数据集定义的人体关键点个数，对于MS COCO数据集，人体关键点个数为17，因此生成17张热图，每张热图中只负责标记对应位置的人体关键点，如第一张热图标注第一个人体关键点的位置信息，依次类推，接着对K张热图进行数据增强，数据增强是指将热图图片按照等比例原则将最短边调整为512像素，然后对图像按照最短边进行剪裁操作，以0.5的随机概率对图像水平翻转和缩放，其中缩放比例控制在0.75～1.25，以-15°∽+15°的随机旋转角度对图像进行旋转，最终剪裁出的图像大小为512×512(意为高H＝512像素，宽 W＝512像素)；

S32：将训练图片上的人体关键点坐标位置信息转换为人体关键点真实标签热图上的人体关键点峰值，分别在K张人体关键点真实标签热图中进行标记，使得每张人体关键点真实标签热图包含对应的人体关键点位置坐标信息；；

若由人体关键点检测模型预测到的人体关键点位置在该非规范二维高斯分布范围内，则认为正确预测到了人体关键点，同时若预测的人体关键点位置与热图中标记的真实人体关键点位置越近则预测得分越高；

首先，对训练数据中的训练图片进行数据增强，数据增强是指将训练图片按照等比例原则将最短边调整为512像素，然后对图像按照最短边进行剪裁操作，以0.5的随机概率对图像水平翻转和缩放，其中缩放比例控制在0.75～1.25，以-15°∽+15°的随机旋转角度对图像进行旋转，最终剪裁出的图像大小为512×512(意为高H＝512像素，宽W＝512 像素)，然后将该数据增强后的训练图片输入到人体关键点检测模型；

S42：参考图2，高分辨率网络模块作为模型主干网络对输入的训练图片进行特征提取，输出四个不同尺度的特征图，具体包含以下步骤：

S421：输入数据增强后的训练图片，图片尺度大小为512×512×320(意为高H＝512 像素，宽W＝512像素，通道C＝320，本文其余部分也做此解释)，高分辨率网络模块接收该训练图片；

S422：高分辨率网络模块进行第一阶段特征图提取，在该阶段，仅有一个特征提取分支，将该特征提取分支定义为高分辨率网络模块第一分支，图像通道数增加为原输入特征图通道数的2倍，本阶段提取的特征图大小比输入的训练图片大小减少1/2，为 128×128×64和128×128×256；

S423：高分辨率网络模块进行第二阶段特征图提取，在该阶段，增加一个特征提取处理分支，将该特征提取分支定义为高分辨率网络模块第二分支，高分辨率网络模块第二分支与高分辨率网络模块第一分支并行，则在本阶段通过高分辨率网络模块第一分支和高分辨率网络模块第二分支分别对第一阶段提取的特征图进行特征提取，图像通道数增加为本阶段输入的特征图通道数的两倍，在本阶段，高分辨率网络模块第一分支提取的特征图大小保持不变，高分辨率网络模块第二分支提取高分辨率网络模块第一分支输出的特征图，提取后特征图大小为高分辨率网络模块第一分支的1/2，大小为64×64×96，高分辨率网络模块第一分支的特征图大小为128×128×48；

S424：高分辨率网络模块进行第三阶段特征图提取，在该阶段，再增加一个特征提取分支，将该特征提取分支定义为高分辨率网络模块第三分支，高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支并行，则在本阶段通过高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支分别对第二阶段提取的特征图进行特征提取，图像通道数增加为本阶段输入的特征图通道数的两倍，在本阶段，高分辨率网络模块第一分支和高分辨率网络模块第二分支提取的特征图大小保持不变，高分辨率网络模块第三分支提取高分辨率网络模块第二分支输出的特征图，提取的特征图大小为高分辨率网络模块第二分支的1/2，大小为32×32×192，此时高分辨率网络模块第二分支的特征图大小为64×64×96，高分辨率网络模块第一分支的特征图大小为128×128×48；

S425：高分辨率网络模块进行第四阶段特征图提取，在该阶段，再增加一个特征提取分支，将该特征提取分支定义为高分辨率网络模块第四分支，高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支、高分辨率网络模块第四分支并行，则在本阶段高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支和高分辨率网络模块第四分支分别对第三阶段提取的特征图进行特征提取，图像通道数增加为本阶段输入的特征图通道数的两倍，图像通道数增加为本阶段输入的特征图通道数的两倍，高分辨率网络模块第一分支、高分辨率网络模块第二分支和高分辨率网络模块第三分支提取的特征图大小保持不变，高分辨率网络模块第四分支提取高分辨率网络模块第三分支输出的特征图，提取的特征图大小为高分辨率网络模块第三分支的1/2，大小为16×16×384，此时第三分支的特征图大小为32×32×192，第二分支的特征图大小为64×64×96，第一分支的特征图大小为128×128×48；

S426：高分辨率网络模块第一分支、高分辨率网络模块第二分支、高分辨率网络模块第三分支、高分辨率网络模块第四分支分别输出4张不同尺度大小的特征图，大小依次为128×128×48、64×64×96、32×32×192、16×16×384。

S43：特征金字塔模块对四个不同尺度的特征图进行上采样融合，输出融合后的多尺度特征图；

S431：特征金字塔模块使用双线性上采样依次对从高分辨率网络模块第四分支输出到第一分支输出的4张不同尺度大小的特征图进行上采样，采样后的特征图大小为原特征图的两倍；

S432：再将上采样后的特征图与对应高分辨率网络不同分支输出的原特征图在通道维度上进行concat拼接，输出融合多尺度特征高分辨率特征图，本实施例中输出的融合多尺度特征高分辨率特征图大小为128×128×720，其中，Concat为合并多个字符串。

S44：参考图3，上下文信息融合模块输入上述融合后的多尺度特征图，将该多尺度特征图分别通过上下文信息融合模块第一分支、上下文信息融合模块第二分支和上下文信息融合模块第三分支进行处理，得到融合后的人体关键点预测热图及联合嵌入值预测热图，其中，K表示卷积核大小，S表示步长大小，P表示补零大小，Reshape表示将矩阵拉伸为向量的操作，输入到上下文信息融合模块的融合多尺度特征高分辨率特征图F大小为128×128×720；

S441：上下文信息融合模块第一条分支和上下文信息融合模块第二条分支对特征金字塔模块输入的特征图进行卷积，再对卷积后输出的特征图在空间维度上进行拉伸变换得到高宽维度的向量，最后对该向量应用矩阵乘法获取特征图中所有两两像素之间的关系系数，得到像素关系矩阵，具体的，上下文信息融合模块第一分支和上下文信息融合模块第二分支分别使用卷积核K＝3×3，步长S＝1的卷积将通道C降维至512，则特征图大小减半，输出两个大小为64×64×512的特征图F1和F2，接着对特征图F1和F2在空间维度上进行拉伸变换，将H×W的矩阵变为HW的特征向量V1和V2，再对V1和V2应用矩阵乘法获取特征图中所有两两像素之间的相关系数，得到像素关系矩阵；

S442：上下文信息融合模块第三条分支对特征金字塔模块输入的特征图进行卷积，再对卷积后输出的特征图在空间维度上进行拉伸变换得到高宽维度的向量，具体的，上下文信息融合模块第三分支也使用卷积核K＝3×3，步长S＝1的卷积将通道C降维至512，则特征图大小减半，输出大小为64×64×512的特征图F3，接着对特征图F3在空间维度上进行拉伸变换，将H×W的矩阵变为HW的特征向量V3；

S444：将步骤S442得到的特征向量在步骤S443得到的像素关系矩阵中行向量为投影基坐标进行投影映射；

S445：对步骤S444输出的特征向量中的像素进行加权融合，输出融合全局关系信息的特征图；

S446：对融合全局关系信息的特征图生成K张人体关键点预测热图及与K张人体关键点预测热图对应的K张联合嵌入值预测热图，其中，在人体关键点预测热图中按阈值选出峰值高于阈值的像素点作为人体关键点，然后根据联合嵌入值预测热图，在该人体关键点的对应位置找出每个人体关键点的联合嵌入值，按照该联合嵌入值对不同热图上的人体关键点进行分配，嵌入值相近的认为是同一个人的人体关键点。

S45：根据步骤S44输出的人体关键点预测热图及联合嵌入值预测热图计算人体关键点损失和联合嵌入损失，并对超参数进行调整；

S451：设置人体关键点检测模型参数，该人体关键点检测模型参数包含超参数α和β及软间隔Δ，在本实施例中，设置α＝2，β＝4，同时为了人体关键点检测模块快速收敛，只需要不同人的关键点分布中心的距离大于一个固定值就可以，并不需要无限大，因此Δ设置为1；

S451：计算人体关键点损失L_key：

人体关键点损失使用Focal Loss(带权的交叉熵损失函数)，由于一幅图像中属于人体关键点的像素个数是极其有限的，若将一幅图中属于人体关键点的像素定义为正样本，不属于人体关键点的像素定义为负样本，则人体关键点检测是典型的类别不均衡问题，设P_kij为人体关键点预测热图中第k个人体关键点在位置(i，j)上的得分，y_kij为加入了非规范二维高斯分布的人体关键点真实标签热图中第k个人体关键点在位置(i， j)的得分，则人体关键点损失为：

其中，N为图像中人体个数，K为人体关键点个数，H为人体关键点预测热图的高，W为人体关键点预测热图的宽，α和β是控制各点分值的超参数。

S452：计算联合嵌入损失：

首先，设h_k为第k个联合嵌入值预测热图，h(x)表示x位置处的联合嵌入值。假定一幅图共包含N个人，h_k(x_nk)为第n个人的第k个人体关键点的联合嵌入值，则第 n个人的所有K个人体关键点联合嵌入分布的均值

为：

同一人的联合嵌入损失：

不同人的联合嵌入损失：

其中，L_pull为同一人的联合嵌入损失，L_push为不同人的联合嵌入损失，Δ为软间隔；

S453：计算人体关键点检测模型训练采用的总损失L：

L＝L_key+λ(L_pull+L_push) (5)

其中，λ为联合嵌入损失权重系数，本实施例中λ设置为1e-2，e为科学技术法符号。

进一步的，所述步骤S5包含以下具体步骤：

S51：依据步骤S4得到训练模型参数，在本实施例中，训练的迭代次数设置为60，每一次迭代，对训练数据训练一遍，保存每次训练的人体关键点检测模型参数；

S52：获取验证数据集，对每次训练的人体关键点检测模型参数使用验证数据集上的评估指标OKS进行评估，选取最优训练模型，其中OKS为目标关键点相似度，指一个关键点预测结果和标注之间的相似度，定义为：

其中e为自然对数的底数，k为第k个关键点，

表示预测结果，

表示真实标签，s是对应单个人体实例的像素面积，k_i为关键点影响因子，可由真实标注图片中计算得到的，上面的公式中，相似度和距离呈反比，和k_i呈正比，和面积也呈正比。

其中，K为待预测关键点类型个数，v_i为关键点标注类型，v_i＝0表示关键点未标注，v_i＝1 表示关键点有遮挡但已经标注，v_i＝2表示关键点无遮挡且已标注。δ()表示在条件成立时为1否则为0。

进一步的，所述步骤S7包含以下具体步骤：

S71：输入待测图像，对该待测图像进行数据增强处理，将待测图片按照等比例原则将最短边调整为512像素，然后对图像按照最短边进行剪裁操作，以0.5的随机概率对图像水平翻转和缩放，其中缩放比例控制在0.75～1.25，以-15°∽+15°的随机旋转角度对图像进行旋转，最终剪裁出的图像大小为512×512(意为高H＝512像素，宽W＝512像素)；

S74：对分配后的人体关键点坐标映射回原待测图得到最终的人体关键点坐标。

本发明通过设计一种基于上下文信息的高分辨率网络用来构建人体关键点检测模型，显著提升了检测精度，同时通过联合嵌入对所有关键点进行分组配对，提高模型鲁棒性，适用于复杂背景场景的人体关键点检测。

上面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，不能理解为对本发明保护范围的限制。

总之，本发明虽然列举了上述优选实施方式，但是应该说明，虽然本领域的技术人员可以进行各种变化和改型，除非这样的变化和改型偏离了本发明的范围，否则都应该包括在本发明的保护范围内。