CN116958584A - 关键点检测方法、回归模型的训练方法、装置及电子设备 - Google Patents
关键点检测方法、回归模型的训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116958584A CN116958584A CN202311225095.2A CN202311225095A CN116958584A CN 116958584 A CN116958584 A CN 116958584A CN 202311225095 A CN202311225095 A CN 202311225095A CN 116958584 A CN116958584 A CN 116958584A
- Authority
- CN
- China
- Prior art keywords
- sample
- heat map
- key point
- regression model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000009826 distribution Methods 0.000 claims abstract description 272
- 238000013507 mapping Methods 0.000 claims abstract description 127
- 239000013598 vector Substances 0.000 claims description 145
- 230000006870 function Effects 0.000 claims description 83
- 238000012545 processing Methods 0.000 claims description 45
- 238000009499 grossing Methods 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000012417 linear regression Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 27
- 239000004973 liquid crystal related substance Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 11
- 230000001133 acceleration Effects 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 210000000746 body region Anatomy 0.000 description 7
- 210000003128 head Anatomy 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 210000000707 wrist Anatomy 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000012800 visualization Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000002683 foot Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012993 chemical processing Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种关键点检测方法、回归模型的训练方法、装置及电子设备,通过基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数;将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图;获取样本图像对应的参考热图,根据模拟热图和参考热图确定回归模型的目标损失,根据目标损失训练回归模型;然后,获取待检测的目标图像,基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标,能够有效地提升关键点检测的准确性,可广泛应用于人工智能、智慧交通、辅助驾驶等多种场景。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种关键点检测方法、回归模型的训练方法、装置及电子设备。
背景技术
目前,计算机视觉技术的应用范围越来越广泛,可以利用计算机视觉技术实现人机交互,例如,通过姿态估计来进行运动分析、活动识别或动作捕捉等。而姿态估计旨在检测目标对象上预定义的关键点,相关技术中,通常采用关键点坐标回归的方式来进行关键点检测,然而,由于关键点坐标回归的方式是使用全局平均池化来简化特征信息的,因此也会丢失掉特征图中的空间信息,同时模型并不能很好地捕捉到图像的内在信息,从而影响了关键点检测的准确性。
发明内容
以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种关键点检测方法、回归模型的训练方法、装置及电子设备,能够有效地提升关键点检测的准确性。
一方面,本申请实施例提供了一种关键点检测方法,包括:
获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型;
获取待检测的目标图像,基于训练后的所述回归模型对所述目标图像进行特征映射,输出所述目标图像所承载的对象的目标关键点坐标。
另一方面,本申请实施例还提供了一种回归模型的训练方法,包括:
获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型。
另一方面,本申请实施例还提供了一种关键点检测装置,包括:
第一映射模块,用于获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
第一处理模块,用于将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
第一获取模块,用于获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
第二处理模块,用于根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型;
第二映射模块,用于获取待检测的目标图像,基于训练后的所述回归模型对所述目标图像进行特征映射,输出所述目标图像所承载的对象的目标关键点坐标。
进一步地,第一处理模块还用于:
将所述基础热图中任意一个像素点的坐标作为多元变量,将所述样本关键点坐标作为均值,根据所述相关系数、所述第一标准差和所述第二标准差进行混合高斯分布的构建,得到所述样本关键点坐标对应的所述基础热图;
根据所述基础热图得到所述样本关键点坐标对应的模拟热图。
进一步地,第一处理模块还用于:
根据所述样本分量权重对多个所述基础热图进行加权,得到所述样本关键点坐标对应的模拟热图。
进一步地,第一处理模块还用于:
根据所述相关系数、所述第一标准差和所述第二标准差确定分布的协方差矩阵;
根据所述协方差矩阵以及所述样本关键点坐标对所述多元变量进行标准化;
根据所述多元变量的标准化结果进行混合高斯分布的构建,得到所述样本关键点坐标对应的所述基础热图。
进一步地,第二处理模块还用于:
基于KL散度损失函数确定所述模拟热图与所述参考热图之间的第一损失,基于平均绝对值误差损失函数确定所述模拟热图与所述参考热图之间的第二损失;
根据所述第一损失和所述第二损失之和确定所述回归模型的目标损失。
进一步地,第二处理模块还用于:
获取用于调整梯度的锋利程度的平滑系数,根据所述平滑系数对所述第一损失进行平滑处理,得到第三损失;
根据所述第三损失与所述第二损失之和确定所述回归模型的目标损失。
进一步地,第一映射模块还用于:
将所述样本图像输入至回归模型;
对所述样本图像进行特征提取,得到所述样本图像的图像特征向量;
对所述图像特征向量进行映射,得到映射向量;
对所述映射向量进行线性回归,得到回归向量;
根据所述回归向量得到所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数。
进一步地,第一映射模块还用于:
根据其中一个所述输出层输出的所述回归向量,得到所述样本图像所承载的对象的样本关键点坐标;
根据另一个所述输出层输出的所述回归向量,得到所述样本关键点坐标对应的样本热图分布参数。
进一步地,第一获取模块还用于:
获取所述样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将所述标注关键点坐标作为均值,根据所述参考热图分布参数进行高斯分布的构建,得到所述样本图像对应的参考热图;
或者,基于预先训练好的热图生成模型,基于所述热图生成模型生成所述样本图像对应的参考热图。
进一步地,关键点检测装置还包括第五处理模块,第五处理模块用于:
根据多个所述目标分量权重之和确定所述目标关键点坐标的置信度;
当所述置信度大于或者等于预设的置信度阈值时,基于所述目标关键点坐标执行下游任务。
另一方面,本申请实施例还提供了一种回归模型的训练装置,包括:
第三映射模块,用于获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
第三处理模块,用于将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
第二获取模块,用于获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
第四处理模块,用于根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型。
进一步地,第三处理模块还用于:
将所述基础热图中任意一个像素点的坐标作为多元变量,将所述样本关键点坐标作为均值,根据所述相关系数、所述第一标准差和所述第二标准差进行混合高斯分布的构建,得到所述样本关键点坐标对应的所述基础热图;
根据所述基础热图得到所述样本关键点坐标对应的模拟热图。
进一步地,第三处理模块还用于:
根据所述样本分量权重对多个所述基础热图进行加权,得到所述样本关键点坐标对应的模拟热图。
进一步地,第三处理模块还用于:
根据所述相关系数、所述第一标准差和所述第二标准差确定分布的协方差矩阵;
根据所述协方差矩阵以及所述样本关键点坐标对所述多元变量进行标准化;
根据所述多元变量的标准化结果进行混合高斯分布的构建,得到所述样本关键点坐标对应的所述基础热图。
进一步地,第四处理模块还用于:
基于KL散度损失函数确定所述模拟热图与所述参考热图之间的第一损失,基于平均绝对值误差损失函数确定所述模拟热图与所述参考热图之间的第二损失;
根据所述第一损失和所述第二损失之和确定所述回归模型的目标损失。
进一步地,第四处理模块还用于:
获取用于调整梯度的锋利程度的平滑系数,根据所述平滑系数对所述第一损失进行平滑处理,得到第三损失;
根据所述第三损失与所述第二损失之和确定所述回归模型的目标损失。
进一步地,第三映射模块还用于:
将所述样本图像输入至回归模型;
对所述样本图像进行特征提取,得到所述样本图像的图像特征向量;
对所述图像特征向量进行映射,得到映射向量;
对所述映射向量进行线性回归,得到回归向量;
根据所述回归向量得到所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数。
进一步地,第三映射模块还用于:
根据其中一个所述输出层输出的所述回归向量,得到所述样本图像所承载的对象的样本关键点坐标;
根据另一个所述输出层输出的所述回归向量,得到所述样本关键点坐标对应的样本热图分布参数。
进一步地,第二获取模块还用于:
获取所述样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将所述标注关键点坐标作为均值,根据所述参考热图分布参数进行高斯分布的构建,得到所述样本图像对应的参考热图;
或者,基于预先训练好的热图生成模型,基于所述热图生成模型生成所述样本图像对应的参考热图。
另一方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的关键点检测方法或者回归模型的训练方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行实现上述的关键点检测方法或者回归模型的训练方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的关键点检测方法或者回归模型的训练方法。
本申请实施例至少包括以下有益效果:通过获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,除了输出样本图像所承载的对象的样本关键点坐标之外,还进一步输出了样本关键点坐标对应的样本热图分布参数,再将样本关键点坐标作为均值,根据样本热图分布参数反过来生成样本关键点坐标对应的模拟热图,进而能够利用模拟热图与样本图像对应的参考热图进行对比,从而确定回归模型的目标损失,因此,在根据目标损失训练回归模型时,相当于通过模拟热图进一步约束了回归模型的输出,从而使得回归模型能够显式地学习到关键点的信息,更好地捕捉到样本图像中的内在信息,提升了回归模型的性能,使得后续在基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标时,能够有效地提升关键点检测的准确性。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的一种可选的实施环境的示意图;
图2为本申请实施例提供的关键点检测方法的一种可选的流程示意图;
图3为本申请实施例提供的样本图像获取的流程示意图;
图4为本申请实施例提供的基于回归模型进行特征映射的示意图;
图5为本申请实施例提供的模拟热图生成的流程示意图;
图6为本申请实施例提供的确定目标损失的流程示意图;
图7为本申请另一实施例提供的确定目标损失的流程示意图;
图8为本申请实施例提供的训练后的回归模型进行特征映射的流程示意图;
图9为本申请实施例提供的掌纹识别的流程示意图;
图10为本申请实施例提供的姿态估计的流程示意图;
图11为本申请实施例提供的模拟热图生成的流程示意图;
图12为本申请实施例提供的损失函数的梯度可视化示意图;
图13为本申请实施例提供的目标损失函数在不同平滑系数下的梯度可视化示意图;
图14为本申请实施例提供的回归模型进行特征映射的流程示意图;
图15为本申请实施例提供的回归模型的结构示意图;
图16为本申请另一实施例提供的回归模型的结构示意图;
图17为本申请另一实施例提供的回归模型的结构示意图;
图18为本申请实施例提供的一种关键点筛选的流程示意图;
图19为本申请实施例提供的回归模型的训练方法的一种可选的流程示意图;
图20为本申请实施例提供的关键点检测方法的一种可选的整体流程示意图;
图21为本申请实施例提供的回归模型的训练方法的一种可选的整体流程示意图;
图22为本申请实施例提供的关键点检测装置的一种可选的结构示意图;
图23为本申请实施例提供的回归模型的训练装置的一种可选的结构示意图;
图24为本申请实施例提供的终端的部分结构框图;
图25为本申请实施例提供的服务器的部分结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。其中,目标对象可以是用户。此外,当本申请实施例需要获取目标对象属性信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
热图(Heatmap)是一种可视化的数据格式,用于呈现矩阵数据的相对数值大小或模式。热图可以通过使用不同颜色的方块或方格来表示数据点的数值,并将这些方块或方格排列成矩阵的形式。在热图中,每个方块或方格的颜色深浅、色调或亮度通常代表了对应数据点的数值大小或相对比例。较浅或较亮的颜色表示较大的数值,而较深或较暗的颜色表示较小的数值。通过观察热图中的颜色变化和模式,可以直观地理解数据之间的关系和区别。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
相关技术中,通常采用关键点坐标回归的方式来进行关键点检测,然而,由于关键点坐标回归的方式是使用全局平均池化来简化特征信息的,因此也会丢失掉特征图中的空间信息,同时模型并不能很好地捕捉到图像的内在信息,从而影响了关键点检测的准确性。
为了解决上述问题,本申请实施例提供了一种关键点检测方法、回归模型的训练方法、装置及电子设备,能够有效地提升关键点检测的准确性。
本申请实施例提供的方法可应用于不同的技术领域,包括但不限于人工智能、智慧交通、辅助驾驶等多种场景。
参照图1,图1为本申请实施例提供的一种可选的实施环境的示意图,该实施环境包括终端101和服务器102,其中,终端101和服务器102之间通过通信网络连接。
终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。可选地,终端101可以获取用于作为训练样本的样本图像、样本图像对应的参考热图,以及待检测的目标图像,并且可以将样本图像、参考热图和目标图像发送至服务器102。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。另外,服务器102还可以是区块链网络中的一个节点服务器。可选地,服务器102内部可以预先存储有回归模型,在得到样本图像之后,可以基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数;接着,将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图;在得到样本图像对应的参考热图之后,可以根据模拟热图和参考热图确定回归模型的目标损失,根据目标损失训练回归模型;从而,在得到待检测的目标图像之后,可以基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标。
示例性地,服务器102可以获取用于作为训练样本的样本图像,调用预先存储的回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数;接着,服务器102可以将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图。另外,服务器102还可以获取样本图像对应的参考热图,以作为回归模型的训练标签,因此,服务器102可以根据模拟热图和参考热图确定回归模型的目标损失,根据目标损失训练回归模型。在回归模型训练完成之后,服务器102还可以接收得到终端101发送的待检测的目标图像,并调用训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标,然后可以将目标关键点返回至终端101,从而终端101可以得到目标图像所承载的对象的目标关键点坐标,进而可以利用目标关键点坐标和目标图像执行下游任务。通过获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,除了输出样本图像所承载的对象的样本关键点坐标之外,还进一步输出了样本关键点坐标对应的样本热图分布参数,再将样本关键点坐标作为均值,根据样本热图分布参数反过来生成样本关键点坐标对应的模拟热图,进而能够利用模拟热图与样本图像对应的参考热图进行对比,从而确定回归模型的目标损失,因此,在根据目标损失训练回归模型时,相当于通过模拟热图进一步约束了回归模型的输出,从而使得回归模型能够显式地学习到关键点的信息,更好地捕捉到样本图像中的内在信息,提升了回归模型的性能,使得后续在基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标时,能够有效地提升关键点检测的准确性。
在一种可能的实现方式中,得到的目标关键点坐标可以用于掌纹识别、动作识别等下游任务,例如,可以基于目标关键点坐标进行掌纹识别,进而进行支付校验、手势解锁等等;又例如,可以基于目标关键点坐标进行动作识别,进而进行摔倒预测、体育教学、行人检测、辅助驾驶等等。
参照图2,图2为本申请实施例提供的关键点检测方法的一种可选的流程示意图,该关键点检测方法可以由终端执行,或者也可以由服务器执行,或者也可以由终端和服务器配合执行,在本申请实施例中,以该方法由服务器执行为例进行说明,该关键点检测方法包括但不限于以下步骤201至步骤205。
步骤201:获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。
在一种可能的实现方式中,样本图像可以是包含有测试对象的图像,是用于训练回归模型的输入数据,测试对象可以是指样本图像中出现的被回归模型进行关键点检测的主体,而样本图像关键点是指测试对象中具有特定意义或重要位置的像素点,其中,样本图像的测试对象可以是指人体、人脸、手掌等自然场景中的一项或多项物体,例如,样本图像可以是包含有人体的人体运动捕捉视频中的截图,测试对象对应为人体,而关键点可以是人体的关键部位如肩膀、肘部、手腕、胯部、膝部、头部、脚踝等;或者,样本图像可以是包含有人脸的人物摄影图像,测试对象为人脸,而关键点可以是人脸的关键部位如眉毛、眼镜、鼻子、嘴巴等;或者,样本图像可以是包含有手掌的掌纹扫描图像,测试对象为手掌,而关键点可以是手腕点、掌指关节点、手指指尖等;又或者,样本图像可以是包含有建筑物的摄影图像,测试对象可以为房屋,而关键点可以是屋顶顶点、门和窗户等;或者样本图像可以是包含有道路的卫星图像,测试对象为道路,而关键点可以是道路的中心线、道路的连接点、交通信号灯的位置等等。
其中,样本图像中的测试对象和关键点可以根据测试任务或应用场景的需求而设定,例如,若需要进行姿态估计的样本图像,测试对象可以是人体姿态,而关键点可以是人体的各个关键部位。
在一种可能的实现方式中,样本图像可以预先存储于服务器或终端内,样本图像也可以通过开源数据中获取得到,或者样本图像可以通过对原始样本数据进行处理后得到,例如,参照图3,图3为本申请实施例提供的样本图像获取的流程示意图,可以看出,可以通过对文件格式为视频的原始样本数据进行抽帧所得到的帧图像,将帧图像作为样本图像;或者通过对文件格式为图像的原始样本数据进行目标检测,然后将目标检测框标出的区域进行感兴趣区域(Region of Interest,ROI)提取得到样本图像,具体地,原始样本数据可以是包含有人体的图像,通过预训练的目标检测器可以检测出图像中含有人体信息的人体区域,并提供人体区域的边界框位置信息,即在图像中对人体区域进行标记,然后基于标记后的人体区域对图像进行ROI区域提取,将人体区域对应的像素点从图像中提取出来,形成含有人体区域的样本图像;另外,原始样本数据可以是包含有手掌的图像,通过预训练的目标检测器可以检测出图像中含有手掌信息的手掌区域,并提供手掌区域的边界框位置信息,即在图像中对手掌区域进行标记,然后基于标记后的手掌区域对图像进行ROI区域提取,将人体区域对应的像素点从图像中提取出来,形成含有手掌区域的样本图像,相当于,在输入至回归模型之前,可以对样本图像进行预处理(如包括目标检测、感兴趣区域提取等),从而能够使得回归模型集中关注于含有对象的区域,减少背景干扰,提高回归模型进行检测的准确性。
在一种可能的实现方式中,利用回归模型对样本图像进行特征映射,可以得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。其中,样本关键点坐标可以是一个或者多个,而每个样本关键点坐标所对应的样本热图分布参数可以是一组或多组。样本热图分布参数指的是用于描述样本关键点坐标对应的热图分布特征的参数,是回归模型预测得出各个样本关键点坐标在同一样本图像中的位置分布和变化情况,样本热图分布参数可以包括关键点坐标对应的平均值、方差、协方差矩阵等用于描述关键点的位置和形态特征的统计量,从而样本热图分布参数可以提供待构建的模拟热图中关键点位置的先验知识,有助于利用样本热图分布参数进行热图构建。
参照图4,图4为本申请实施例提供的基于回归模型进行特征映射的示意图,可以看出,在输入样本图像至回归模型之后,回归模型可以针对同一张样本图像进行特征映射,在输出样本图像所承载的对象的样本关键点坐标之外,还进一步输出了样本关键点坐标对应的样本热图分布参数。其中,样本关键点坐标可以是二维坐标或者多维坐标,而样本热图分布参数可以包括样本关键点坐标的各个坐标元素的方差,以及各个坐标元素的相关系数,例如,样本关键点坐标为平面二维坐标,样本热图分布参数可以包括横坐标的方差、纵坐标的方差,以及横坐标与纵坐标的相关系数。通过增加回归模型的输出,促使回归模型预测出关键点坐标对应的样本热图分布参数,能够得到样本关键点坐标对应的热图分布特征的参数,可以反映样本关键点的位置、离散程度和相关性等特征,从而有助于生成模拟热图或对样本关键点进行热图反推,进而能够利用热图来约束回归模型,提高回归模型的性能。
步骤202:将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,可以将样本关键点坐标作为均值,即将样本关键点作为模拟热图分布的中心位置,从而能够通过样本热图分布参数来确定关键点的分布特征。模拟热图是根据样本关键点坐标作为均值以及对应的样本热图分布参数反推生成的模拟的热图,是能够表示出样本关键点在样本图像中的概率分布特征的图像,具体地,模拟热图中每个位置的像素值均表示了对应位置处回归模型所预测得到的概率,有助于回归模型理解和分析样本图像中的关键点分布位置信息。
参照图5,图5为本申请实施例提供的模拟热图生成的流程示意图,可以看出,在利用样本热图分布参数进行热图反推的过程中,可以利用每个关键点坐标以及对应的样本热图分布参数,分别生成各个关键点坐标对应的模拟热图,具体地,利用关键点坐标A和对应的样本热图分布参数A生成关键点坐标A对应的模拟热图A;而针对关键点坐标B,可以利用关键点坐标B和对应的样本热图分布参数B生成模拟热图B;相应地,针对关键点坐标C,可以利用关键点坐标C和对应的样本热图分布参数C生成模拟热图C;因此,通过对每个关键点进行模拟热图建模,能够更细粒度地捕捉样本图像中对象的局部位置信息或姿态信息。需要说明的是,在利用样本热图分布参数生成模拟热图的过程中,可以根据实际的任务需求和回归模型而采用不同的热图生成方式。
在一种可能的实现方式中,调用回归模型对样本图像进行特征映射后,可以得到多个样本关键点坐标,其中,/>,/>表示为第/>个样本关键点的横坐标,/>表示为第/>个样本关键点的纵坐标,/>表示为样本关键点坐标的数量。
样本热图分布参数可以包括有样本关键点坐标的样本方差参数,从而可以利用样本关键点坐标作为均值,并利用样本方差参数进行模拟热图的构建,具体的热图构建公式可以如下公式(1)所示:
(1)
其中,表示为关键点坐标对应的模拟热图,/>表示为关键点坐标在横坐标轴下的均值,/>表示为关键点坐标在纵坐标轴下的均值,由于将样本关键点坐标作为均值,即/>;/>表示为样本方差参数;/>表示为热图平面空间里每个像素点的坐标。
步骤203:获取样本图像对应的参考热图。
在一种可能的实现方式中,参考热图可以是指用于指导回归模型学习目标的图像,即用于作为回归模型的训练标签,参考热图中每个位置的像素值表示了对应位置处所标注的概率,能够为回归模型提供预测对象在样本图像中的位置信息或在热图上的分布信息,其中,参考热图的尺寸、样本图像的尺寸以及模拟热图的尺寸相等,即模拟热图、参考热图和样本图像处于同一空间维度,采用对齐的约束方式能够有效避免因为热图尺寸与实际图像尺寸不符合,导致从热图中提取得到的概率峰值点坐标与实际图像中的关键点坐标存在误差,影响回归模型的性能。需要说明的是,样本图像对应的参考热图可以与样本图像进行绑定,形成样本数据对,通过获取样本数据对可以同时得到样本图像和对应的参考热图;参考热图作为回归模型的训练标签,可以是基于人工标注方式生成的,也可以是基于概率密度算法生成的,还可以是通过预训练的热图模型对样本图像进行预测生成的,等等,具体地,可以根据实际使用需求采用一种或多种上述的热图生成方式,例如,可以采用人工标注的方式为样本图像添加标签,再将添加人工标签后的样本图像输入至热图模型,而生成参考热图。
步骤204:根据模拟热图和参考热图确定回归模型的目标损失,根据目标损失训练回归模型。
在一种可能的实现方式中,由于模拟热图是回归模型根据样本图像进行特征映射所输出的关键点坐标以及对应的样本热图分布参数反推生成的,通过对比模拟热图与参考热图之间的差异可以得出回归模型的目标损失,从而在利用目标损失训练回归模型的过程中,相当于通过模拟热图进一步约束了回归模型的输出,使得回归模型能够显式地学***均池化来简化特征信息而丢失特征图中的空间信息,影响关键点检测的准确性。其中,在计算目标损失时,可以利用对数损失函数、交叉熵函数或者均方误差函数来计算目标损失。
在一种可能的实现方式中,结合图5和图6,图6为本申请实施例提供的确定目标损失的流程示意图,可以看出,当生成的模拟热图具有多个且与各个关键点坐标对应时,可以计算各个模拟热图与参考热图之间的损失,得到各个关键点坐标对应的基础损失,然后综合所有关键点坐标对应的基础损失,得到回归模型的目标损失,具体地,可以计算模拟热图A与参考热图X之间的损失,得到关键点坐标A对应的基础损失,同时还可以计算模拟热图B与参考热图X之间的损失,得到关键点坐标B对应的基础损失,相应地,针对关键点坐标C对应的基础损失,可以通过计算模拟热图C与参考热图X之间损失得到,然后,可以将关键点坐标A、B和C三者的基础损失进行叠加,得到回归模型的目标损失。其中,可以根据任务需求以及关键点之间的相关性,对所有基础损失进行求和、平均或者加权求和,得到目标损失。相应地,在得到回归模型的目标损失之后,可以采用最小化目标损失的方式对回归模型进行训练,调整回归模型的参数,以改善回归模型的性能。
参照图7,图7为本申请另一实施例提供的确定目标损失的流程示意图,除了可以通过模拟热图和参考热图来计算回归模型的目标损失,还可以在此基础上结合回归模型输出的关键点坐标与样本图像中的实际关键点坐标,具体地,可以计算模拟热图K和参考热图I之间的热图损失,同时计算回归模型输出的关键点坐标与样本图像中的实际关键点坐标/>之间的坐标损失,通过结合热图损失和坐标损失确定出回归模型的目标损失。由于坐标损失能够直观反应出关键点坐标的准确度,关注于关键点的具***置,而热图损失能够反映热图分布的不同,关注于关键点分布的全局特征,通过综合关键点的局部特征和全局特征,能够减少热图量化误差的影响,能够更为全面和准确地确定出目标损失,有助于提高回归模型训练的准确性,改善回归模型的鲁棒性。其中,在综合热图损失和坐标损失的过程中,可以采用求和、平均或者加权求和的方式得到目标损失。
步骤205:获取待检测的目标图像,基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标。
在一种可能的实现方式中,待检测的目标图像是指包含有待检测对象的图像,是用于回归模型进行预测的输入数据,待检测对象可以是指在目标图像中出现的希望回归模型进行特征映射输出对应的关键点坐标的主体,而目标关键点是指待检测对象中具有特定意义或重要位置的像素点,其中,目标图像可以是包含有人体、人脸、手掌等自然场景中的一项或多项物体,相应地,待检测对象可以是人体、人脸、手掌等自然场景中的一项或多项物体。
其中,目标图像中的待检测对象和关键点可以根据测试任务或应用场景的需求而设定,例如,若需要进行掌纹识别的目标图像,待检测对象可以是手掌,而目标关键点可以是手掌的各个关键部位。
在一种可能的实现方式中,目标图像可以预先存储于服务器或终端内,具体地,目标图像可以是通过终端的拍摄组件拍摄得到,然后终端可以将目标图像发送至服务器;或者,目标图像可以通过开源数据中获取得到,目标图像还可以通过原始待检测数据进行化处理后得到,例如,通过对文件格式为视频的原始待检测数据进行抽帧所得到的帧图像,将帧图像作为目标图像;或者,通过对文件格式为图像的原始待检测数据进行目标检测,然后将目标检测框标出的区域进行感兴趣区域提取得到目标图像,具体地,目标图像的获取方式可以与样本图像的获取方式相同或相似。
在一种可能的实现方式中,参照图8,图8为本申请实施例提供的训练后的回归模型进行特征映射的流程示意图,可以看出,调用训练后的回归模型对待检测的目标图像进行特征映射,训练后的回归模型可以仅输出目标图像所承载的对象的目标关键点坐标,无需同时输出目标关键点坐标对应的热图分布参数,相当于,回归模型中的热图分布参数的输出分支可以不工作或者不输出,减少了回归模型的数据处理量,提高了回归模型的性能。
在一种可能的实现方式中,本申请实施例提供的关键点检测方法可以应用于掌纹识别、动作识别或者对象识别等应用场景,另外,本申请实施例提供的关键点检测方法可以检测出二维图像中所承载的对象的目标关键点坐标,利用这些目标关键点坐标进行三维空间坐标预测,实现对三维空间的姿态估计,即能够应用于三维空间的应用场景。
具体地,本申请实施例提供的关键点检测方法可以实时检测手部关键点,已完成手掌区域的定位任务。参照图9,图9为本申请实施例提供的掌纹识别的流程示意图,可以看出,可以利用手掌检测模型(即目标检测器)与训练后的回归模型构成手掌检测模块,将拍摄得到的手掌图像输入至手掌检测模块,调用手掌检测模型对手掌图像进行对象检测并将手掌图像中包含有手掌信息的手掌区域进行区域标记,然后将带有区域标记的手掌图像输入至训练后的回归模型中进行目标关键点检测,从而回归模型可以根据区域标记输出手掌图像中以手掌为待检测对象的目标关键点坐标,进而可以根据目标关键点坐标,对手掌图像进行ROI区域提取,能够得到更为准确的手掌待识别图,使得能够与预先存储于数据库中的掌纹数据图进行掌纹识别,完成掌纹识别任务。同时,在训练后的回归模型所输出的目标关键点坐标之后,可以利用目标关键点坐标对手掌图像进行检测框估计,修正区域标记,接着,将带有修正后的区域标记的手掌图像返回至回归模型再次进行目标关键点检测,优化目标关键点坐标的精度,从而能够更为精确地对手掌进行定位。
参照图10,图10为本申请实施例提供的姿态估计的流程示意图,可以看出,可以将拍摄得到的目标图像输入至目标检测器,利用目标检测器识别图像中的对象,并返回检测结果,所返回的检测结果可以是利用边界框表示出所检测得到的目标对象的位置的目标图像,然后将检测结果输入至训练后的回归模型,调用回归模型对检测结果进行特征映射,得到目标关键点坐标,从而可以根据目标关键点坐标对检测结果进行ROI区域提取,所得到的提取结果可以应用于动作识别、手势识别和步态识别等应用场景,具体地,例如判断摔倒情况、健身、体育和舞蹈姿势教学等。
在一种可能的实现方式,样本热图分布参数包括待构建的基础热图中任意一个像素点的横坐标与纵坐标之间的相关系数、待构建的基础热图中所有像素点的第一横坐标的第一标准差,以及基础热图中所有像素点的纵坐标的第二标准差,因此,在将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图的过程中,可以先将基础热图中任意一个像素点的坐标作为多元变量,并将样本关键点作为均值,然后根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图;接着,根据基础热图得到样本关键点坐标对应的模拟热图。需要说明的是,由于基础热图为平面二维图像,所对应的像素点的坐标为二维坐标,即包括横坐标和纵坐标,将基础热图中任意一个像素点的坐标作为多元变量,相当于将基础热图中任意一个像素点的横坐标和纵坐标作为多元变量;而每个样本关键点对应一组样本热图分布参数,相关系数用于描述多元变量中横坐标与纵坐标之间的相关性,能够表示两个变量之间的线性关系程度,其中,相关系数的取值范围可以是[-1,1],当相关系数的取值为0,说明多元向量中横坐标与纵坐标相互独立;第一标准差用于描述多元变量中横坐标的分散程度,而第二标准差用于描述多元变量中纵坐标的分散程度。通过利用样本关键点作为基础热图的中心点,并利用相关系数、第一标准差和第二标准差进行混合高斯分布的构建后,将多元向量代入至构建得到的混合高斯分布函数,可以计算出各个像素点所对应的概率值,进而可以根据各个基础热图的像素点对应的概率值,生成以样本关键点坐标为中心的基础热图。具体地,样本关键点坐标对应的基础热图的构建公式如下公式(2)所示:
(2)
其中,表示为第/>个关键点坐标对应的基础热图,/>表示为关键点坐标在横坐标轴下的均值,/>表示为关键点坐标在纵坐标轴下的均值,由于将样本关键点坐标作为均值,即/>;/>表示为第一标准差;/>表示为第二标准差;/>表示为相关系数;/>表示为图像平面空间里每个像素点的坐标。由于所构建的混合高斯分布的概率密度等高线在平面二维空间中可以视为椭圆曲线,而该混合高斯分布式基于均值和协方差矩阵所定义的,均值向量确定了椭圆曲线的中心即样本关键点坐标,而协方差矩阵决定了椭圆曲线的方向和形状,该协方差矩阵由第一标准差构建的第一方差、由第二标准差构建的第二方差以及由第一标准差、第二标准差和相关系数构建的协方差构成,即相关系数会影响混合高斯分布所对应的椭圆形的长轴与坐标轴之间的夹角,因此,通过引入相关系数来描述多元变量中横坐标与纵坐标之间的相关性,可以使得通过混合高斯分布得到的概率密度等高线所对应的椭圆形的长轴和短轴不一定与/>轴平行或者/>轴平行,能够更为准确地模拟出样本图像实际的关键点的分布特征,从而提高回归模型的性能。
在一种可能的实现方式中,在得到样本关键点坐标对应的基础热图之后,可以直接将该基础热图直接作为该样本关键点坐标对应的模拟热图,也可以对基础热图中所有像素点所对应的概率值进行归一化,将归一化后的基础热图作为模拟热图。
在一种可能的实现方式中,每个样本关键点坐标所对应的样本热图分布参数的数量为多组,而回归模型除了输出样本关键点坐标以及样本关键点坐标所对应的样本热图分布参数之外,还输出样本热图分布参数对应的基础热图的样本分量权重;因此,在根据基础热图得到样本关键点坐标对应的模拟热图的过程中,可以根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图。样本分量权重可以用于确定每个基础热图对样本关键点坐标对应的模拟热图的贡献程度,通过样本分量权重对多个基础热图进行加权,得到多个对应的加权热图,然后可以利用多个加权热图构建得到样本关键点坐标对应的模拟热图,从而能够更为准确地反映出样本关键点坐标所对应的热图分布。
具体地,在根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图的过程中,样本关键点坐标对应的基础热图的构建公式如下公式(3)所示:
(3)
其中,表示为第/>个关键点坐标对应的第/>个基础热图,/>,/>表示为关键点坐标所对应的样本热图分布参数的组数;/>表示为关键点坐标在横坐标轴下的均值,/>表示为关键点坐标在纵坐标轴下的均值,由于将样本关键点坐标作为均值,即;/>表示为第/>个关键点坐标对应的第/>个基础热图中各个像素点的横坐标的第一标准差;/>表示为第/>个关键点坐标对应的第/>个基础热图中各个像素点的纵坐标的第二标准差;/>表示为第/>个关键点坐标对应的第/>组相关系数;/>表示为图像平面空间里每个像素点的坐标。/>
在得到各个样本关键点坐标对应的基础热图之后,可以结合分量权重确定出样本关键点坐标对应的模拟热图,模拟热图的构建公式如下公式(4)所示:
(4)
其中,表示为第/>个关键点坐标对应的模拟热图;/>表示第/>个关键点坐标对应第/>个基础热图的样本分量权重,因此,可以将回归模型输出的关键点坐标转换为模拟热图,且模拟热图的峰值处所对应的位置即为关键点坐标的位置。
参照图11,图11为本申请实施例提供的模拟热图生成的流程示意图,可以看出,将样本图像输入至回归模型进行特征映射,可以分别得到多个样本关键点坐标、各个样本关键点坐标对应的多组样本热图分布参数,以及样本热图分布参数对应的基础热图的样本分量权重。根据各个样本关键点坐标对应的多组样本热图分布参数,可以分别构建出各个样本关键点坐标对应的基础热图,接着,利用对应的分量权重对各个基础热图进行加权求和,可以得到样本关键点坐标所对应的模拟热图。其中,可以看出,利用对应的分量权重对各个基础热图进行加权求和,可以得到样本关键点所对应的解耦混合分布,进而将解耦混合分布转换为基于混合高斯的解耦混合模拟热图(Disentangled Mixture SimulatedHeatmap,DMSH),即样本关键点对应的模拟热图。然后,可以利用损失函数计算出参考热图与模拟热图之间的差异,即回归模型的目标损失,使得后续可以利用目标损失对回归模型进行训练。
在一种可能的实现方式中,在根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图的过程中,可以先根据相关系数、第一标准差和第二标准差确定分布的协方差矩阵;然后根据协方差矩阵以及样本关键点坐标对多元变量进行标准化;接着,根据多元变量的标准化结果进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图。具体地,可以利用第一标准差进行平方计算得到基础热图中所有像素点的横坐标的第一方差,同样地,还可以利用第二标准差进行平方计算得到基础热图中所有像素点的纵坐标的第二方差,接着,可以利用第一标准差、第二标准差和相关系数进行乘积得到基础热图中所有像素点的横坐标与纵坐标之间的协方差,然后利用利用第一方差和第二方差分别构建协方差矩阵的对角线上的元素,而利用协方差填充协方差矩阵上非对角线上的元素,从而构建得到分布的协方差矩阵。具体地,协方差矩阵可以如下所示:
其中,表示为分布的协方差矩阵;/>表示为第/>个关键点坐标对应的第/>个基础热图中所有像素点的横坐标的第一方差;/>表示为第/>个关键点坐标对应的第/>个基础热图中各个像素点的纵坐标的第二方差;/>表示为第/>个关键点坐标对应的第/>组相关系数。
在得到协方差矩阵之后,可以根据协方差矩阵以及样本关键点坐标进行高斯分布的构建,并通过省略高斯分布中的方差实现对多元向量进行标准化,从而可以得到多源变量的标准化结果。接着,可以利用多元变量的标准化结果进行混合高斯分布的构建,可以得到样本关键点坐标对应的高斯分布,即基础热图分布,具体公式可以参照公式(3),进而可以代入基础热图的各个像素点至基础热图分布转化为基础热图。
另外,在利用多元变量的标准化结果进行混合高斯分布的构建,可以得到样本关键点坐标对应的高斯分布,具体的高斯分布函数可以参照如下公式:
(5)
其中,表示为样本关键点坐标对应的二元高斯分布,/>表示为高斯分布系数,用于调整高斯分布的振幅和尺度,高斯分布系数能够确保高斯分布函数即概率密度函数的积分结果为1,以符合概率的定义。由于回归模型在对图像进行特征映射输出关键点坐标的过程中,仅选取基础热图中峰值处的坐标作为关键点坐标,因此,可以通过去掉公式(5)中的高斯分布系数,来实现对基础热图分布的归一化,即转换为公式(3),使得关键点坐标的置信度为1,保证回归模型输出基础热图中峰值处的坐标作为关键点坐标。
在一种可能的实现方式中,在根据模拟热图和参考热图确定回归模型的目标损失的过程中,可以基于KL散度损失函数确定模拟热图与参考热图之间的第一损失,基于平均绝对值误差损失函数确定模拟热图与参考热图之间的第二损失;然后,根据第一损失和第二损失之和确定回归模型的目标损失。
参照图12,图12为本申请实施例提供的损失函数的梯度可视化示意图,图12分别示出了平均绝对值误差损失函数(L1Loss)、均方误差损失函数(MESLoss)、KL散度损失函数(KLLoss)和目标损失函数(ARLoss)的梯度可视化示意图。如图12所示,平均绝对值误差损失函数和均方误差损失函数在回归模型尚未收敛的时候很难起到一个有效的作用;而当回归模型初步收敛时,平均绝对值误差损失函数和均方误差损失函数能够提供稳定的梯度将热图分布逐步地拉到合适的位置。不同的是,KL散度损失函数能够在回归模型最初的阶段提供非常锋利的梯度,将回归模型快速地推动到初步收敛的状态;但随后KL散度损失函数的梯度会变得越来越平缓,难以更精细地优化回归模型的预测结果。因此,可以先基于KL散度损失函数确定模拟热图与参考热图之间的第一损失,KL散度损失函数可以用于衡量模拟热图与参考热图两者在概率分布上的相似性,还能够利用KL散度损失函数在回归模型最初的阶段所具备的锋利梯度特性,促使回归模型进入初步收敛的状态;然后再基于平均绝对值误差损失函数确定模拟热图与参考热图之间的第二损失,平均绝对值误差损失函数能够衡量模拟热图与参考热图两个分布之间每个对应的像素点的平均差异,第二损失可以通过求解模拟热图和参考热图在每个像素位置上的差异,然后对差异值取平均得到,同时,在回归模型进入初步收敛的状态后,平均绝对值误差损失函数能够提供稳定的梯度;所以,通过结合第一损失和第二损失之和,能够优化损失,可以更为准确地确定出回归模型的目标损失。
需要说明的是,还可以基于均方误差损失函数确定模拟热图与参考热图之间的额外函数损失,然后根据第一损失与额外函数损失之和,确定出回归模型的目标损失;或者,可以对第一损失、第二损失和额外函数损失进行加权求和,确定出回归模型的目标损失。其中,损失函数可以根据实际任务需求,选择不同的损失函数或者通过组合不同的损失函数来确定回归模型的目标损失。
具体地,KL散度损失函数可以表示为如下公式(6):
(6)/>
其中,表示为参考热图对应的热图分布,/>表示为回归模型预测得出的模拟热图对应的热图分布。由于热图分布是一种特殊的概率分布,热图分布上的每个值都处在[0,1]区间内,但热图上的所有值之和不为1。为了最小程度地改变热图分布的形状,可以分别对参考热图对应的热图分布和模拟热图对应的热图分布进行归一化,具体地,可以对热图分布上的所有概率值进行求和后,利用和值对各个像素点进行归一化;将归一化后的热图分布代入至公式(6),从而可以推导得到下式(7):
(7)
接着,可以参考泰勒公式,将公式(7)进行展开,得到下式(8):
(8)
可以看出,公式(8)为一个全局累加的计算公式,即KL散度损失函数仅全局性地作用在模拟热图对应的热图分布上,从而容易忽略掉热图上的像素细节,无法让初步收敛的热图分布学***均绝对值误差损失函数进行计算,以对模拟热图的热图分布进行一个局部性的约束。因此,通过综合公式(7)和公式(8),可以得到下式(9):
(9)
其中,表示为目标损失函数,/>可以表示平均绝对值误差损失函数部分,可以看出,通过综合KL散度损失函数和平均绝对值误差损失函数可以得到目标损失函数,目标损失函数的梯度可以参考图12所示,可以看出,在初始阶段,目标损失函数能够提供锋利的梯度,将回归模型快速地推动到初步收敛的状态,而在回归模型进入初步收敛的阶段后,目标损失函数能够提供稳定的梯度,因此,可以利用目标损失函数计算参考热图与模拟热图之间的差异,更为准确地确定回归模型的目标损失,有助于提高模拟热图预测的准确性。
在一种可能的实现方式中,在根据第一损失和第二损失之和确定回归模型的目标损失的过程中,可以先获取用于调整梯度的锋利程度的平滑系数,根据平滑系数对第一损失进行平滑处理,得到第三损失;然后根据第三损失与第二损失之和确定回归模型的目标损失。平滑系数能够调整第一损失的平滑程度,相当于平滑系数可以调节在初始阶段中目标损失函数的梯度的锋利程度。具体地,目标损失函数的具体公式如下式(10)所示:
(10)
其中,表示为平滑系数,可以看出,将第一损失乘以平滑系数,即对第一损失进行平滑处理,得到第三损失。接着,可以将第三损失与第二损失进行叠加求和,确定出回归模型的目标损失。其中,平滑系数可以根据不同的下游任务需求得到,参照图13,图13为本申请实施例提供的目标损失函数在不同平滑系数下的梯度可视化示意图,可以看出,当平滑系数为1,虽然目标损失函数ARLoss能够在模型最初的阶段提供非常锋利的梯度,但随后,梯度越来越平缓,无法更精细地优化回归模型的预测结果。当平滑系数为0.3,目标损失函数ARLoss能够在模型尚未收敛的阶段中提供锋利的梯度,快速推动模型进行初步收敛的状态,同时,在模型初步收敛的状态下,目标损失函数ARLoss的梯度相较于在平滑系数为1时的梯度更平缓;而当平滑系数为0.1,目标损失函数ARLoss不仅能够在模型最初阶段提供锋利的梯度,还能够在后续的初步收敛阶段提供稳定的梯度,将热图分布逐步拉到合适的位置,有助于提高回归模型预测的准确性。因此,针对不同的平滑系数,目标损失函数的梯度的锋利程度不同,从而可以通过采用不同的平滑系数对回归模型进行针对性的训练和输出。
在一种可能的实现方式中,可以通过引入判别器网络,将回归模型作为生成器,从而构建生成对抗网络,判别器网络用于判断回归模型生成的模拟热图与参考热图之间的差异,回归模型则通过优化目标损失来生成尽可能接近于参考热图的模拟热图,回归模型与判别器网络相互对抗,不断学习,进而使得回归模型输出的模拟热图与参考热图的差异越来越小。
在一种可能的实现方式中,在基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数的过程中,可以先将样本图像输入至回归模型;然后,对样本图像进行特征提取,得到样本图像的图像特征向量;接着,对图像特征向量进行映射,得到映射向量;从而可以对映射向量进行线性回归,得到回归向量;进而可以根据回归向量得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。另外,根据回归向量除了可以得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数之外,还可以得到样本热图分布参数对应的基础热图的分量权重。
参照图14,图14为本申请实施例提供的回归模型进行特征映射的流程示意图。回归模型可以包括有输入层、全连接层和输出层。输入层可以接收样本图像作为回归模型的输入,从而可以对输入的样本图像进行特征提取,得到用于表征样本图像视觉信息的图像特征向量,其中,输入层可以通过卷积神经网络构建,输入层可以包括卷积层和池化层,通过卷积层检测图像中不同的特征,而通过池化层来降低图像特征的维度并提取出关键特征。经过输入层提取出样本图像的图像特征向量后,输入至全连接层,利用全连接层中的激活函数进行进一步的特征提取和组合,将图像特征向量映射为更低维度的映射向量。接着输出层可以接收映射向量作为输入,通过拟合映射向量和样本关键点坐标之间的线性关系,对映射向量进行线性回归,得到回归向量,其中,可以根据实际的任务需求对输出层的结构和损失函数进行调整,以得到所需的数据,使得回归模型能够输出所需的数据。然后,可以根据回归向量的类型输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。具体地,如图14所示,输出层可以通过调整输出特征的维度,以实现同时输出样本关键点坐标和对应的样本热图分布参数,也可以分别输出样本关键点坐标和样本热图分布参数。另外,还可以根据回归向量得到样本热图分布参数对应的基础热图的分量权重,因此,输出层除了输出样本关键点坐标和样本热图分布参数之外,还可以输出分量权重。由于均通过输出层对所有映射向量进行线性回归,输出层可以采用相同的特征信息进行线性回归数据,共享模型参数,能够提高关键点坐标与对应的样本热图分布参数之间的关联性,有助于得到关键点坐标之间关系的隐式先验,同时能够减少回归模型的复杂度和参数量,简化回归模型。
在一种可能的实现方式中,参照图15,图15为本申请实施例提供的回归模型的结构示意图,可以看出,回归模型可以包括有多个输出层,如图15所示,回归模型可以基于两个输出层分别对映射向量进行线性回归,可以根据其中一个输出层输出的回归向量,得到样本图像所承载的对象的样本关键点坐标;并根据另一个输出层输出的回归向量,得到样本关键点坐标对应的样本热图分布参数。另外,回归模型还可以基于除上述两个输出层以外的输出层对映射向量进行线性回归,根据该输出层输出的回归向量,可以得到样本热图分布参数对应的基础热图的分量权重。因此,可以根据不同的输出层的输出任务,调整相应的损失函数,来衡量回归向量与实际真实值之间的差异,使得回归模型在多个任务上能够进行独立的优化,具体地,针对用于输出样本关键点坐标对应的回归向量的输出层,可以通过调整其独立的损失函数,来降低样本关键点坐标与样本图像中实际的关键点坐标(参考热图中峰值处的点所对应的坐标位置)之间的差异,进而能够输出更为准确的样本关键点坐标;同时,针对用于输出样本热图分布参数对应的回归向量的输出层,也可以通过独立调整相应的损失函数,来降低样本热图分布参数与参考热图对应的热图分布参数之间的差异,以输出更为准确的样本热图分布参数。
在一种可能的实现方式中,参照图16,图16为本申请另一实施例提供的回归模型的结构示意图,可以看出,回归模型可以包括有多个全连接层,回归模型可以基于多个全连接层分别对图像特征向量进行映射,输出层可以根据其中一个全连接层输出的映射向量进行线性回归,得到第一回归向量,并根据另一个全连接层输出的映射向量进行线性回归,可以得到第二回归向量。输出层可以根据第一回归向量,得到样本图像所承载的对象的样本关键点坐标;而根据第二回归向量,可以得到样本关键点坐标对应的样本热图分布参数。另外,回归模型的输出层还可以根据除上述两个全连接层以外的全连接层输出的映射向量进行线性回归,得到第三回归向量,接着可以根据第三回归向量,得到样本热图分布参数对应的基础热图的分量权重。同样地,可以根据不同的任务需求,通过调整全连接层的激活函数来调整各个全连接层的映射能力,以得到不同的映射向量,进而通过对不同的映射向量进行线性回归,得到关键点坐标、样本热图分布参数,以及分量权重。
在一种可能的实现方式中,参照图17,图17为本申请另一实施例提供的回归模型的结构示意图,可以看出,回归模型还可以包括有多个全连接层和输出层,全连接层和输出层可以一一对应,如图17所示,第一输出层可以接收第一全连接层的输出,第二输出层可以接收第二全连接层的输出,第三输出层可以接收第三全连接层的输出,其中,第一输出层、第二输出层和第三输出层的损失函数和结构可以不同,第一全连接层、第二全连接层和第三全连接层的激活函数也可以不相同。第一全连接层可以对图像特征向量进行映射,得到第一映射向量;第二全连接层可以对同一图像特征向量进行映射,得到第二映射向量;同样地,第三全连接层也可以对同一图像特征向量进行映射,得到第三映射向量。接着,第一输出层接收第一全连接层输出的第一映射向量,并对第一映射向量进行线性回归,得到第一回归向量,从而可以根据第一回归向量,得到样本图像所承载的对象的样本关键点坐标;第二输出层可以接收第二全连接层输出的第二映射向量,并对第二映射向量进行线性回归,得到第二回归向量,从而可以根据第二回归向量,得到样本关键点坐标对应的样本热图分布参数;相应地,第三输出层可以接收第三全连接层输出的第三映射向量,并对第三映射向量进行线性回归,得到第三回归向量,从而可以根据第三回归向量,得到样本热图分布参数对应的基础热图的分量权重。
在一种可能的实现方式中,在获取样本图像对应的参考热图的过程中,可以获取样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将标注关键点坐标作为均值,根据参考热图分布参数进行高斯分布的构建,得到样本图像对应的参考热图。首先,可以通过对样本图像所承载的对象进行人工标注,得到标注关键点坐标;也可以通过采用预先训练好的回归模型或者热图模型对样本图像进行关键点检测,确定出样本图像所承载的对象的标注关键点坐标。接着,可以将标注关键点坐标作为均值,即,利用参考热图分布参数进行高斯分布的构建,其中,参考热图分布参数包括标注方差参数,即标注关键点的离散程度,然后可以根据参考热图的构建公式进行参考热图的构建,具体公式如下公式(11)所示:
(11)
其中,表示为样本图像对应的参考热图,/>表示为标注关键点坐标在横坐标轴下的均值,即标注关键点坐标的横坐标,/>表示为标注关键点坐标在纵坐标轴下的均值,即标注关键点坐标的纵坐标;/>表示为标注方差参数;/>表示为图像平面空间里每个像素点的坐标。
在一种可能的实现方式中,在获取样本图像对应的参考热图的过程中,可以基于预先训练好的热图生成模型,基于热图生成模型生成样本图像对应的参考热图。具体地,可以利用训练好的热图生成模型对参考热图进行热图预测,生成经验热图分布(EmpiricalHeatmap Distribution,EHD),即参考热图,具体的实现过程可以参考下式(12):
(12)
其中,表示为样本图像对应的经验热图分布,即参考热图,/>表示为热图生成模型/>对样本图像进行热图预测。
在一种可能的实现方式中,回归模型可以输出目标关键点坐标对应的多组目标热图分布参数,同时还输出有各组目标热图分布参数对应的基础热图的目标分量权重,关键点检测方法还可以包括以下步骤:
根据多个目标分量权重之和确定目标关键点坐标的置信度;
当置信度大于或者等于预设的置信度阈值时,基于目标关键点坐标执行下游任务。
置信度可以表示回归模型对自身的预测结果的可信程度,可以理解为回归模型对关键点位置预测的自信程度的度量。模拟热图是通过回归模型生成的,模拟热图峰值处的坐标即为模型回归的关键点坐标,可以将模拟热图峰值的高度解读为关键点的置信度。由于目标分量权重反映了各组目标热图分布参数对应的基础热图在生成热图的贡献度,且在生成目标图像对应的模拟热图是通过将各组目标热图分布参数对应的基础热图与目标分量权重进行加权求和生成,因此,可以根据多个目标分量权重之和确定目标关键点坐标的置信度,具体地,可以根据下式(13)计算得到:
(13)
其中,表示为目标图像中第/>个目标关键点坐标的置信度,/>表示为目标图像中第/>个目标关键点坐标的第/>组目标热图分布参数对应的目标分量权重,/>表示为目标关键点坐标对应的目标热图分布参数组数的数量。
当模拟热图的峰值数值较高,表示回归模型对关键点的位置预测具有很高的置信度,即可以认为高置信度的关键点坐标更高靠,因此,通过设置置信度阈值,将置信度大于或等于置信度阈值的关键点坐标执行下游任务,需要说明的是,下游任务可以是利用关键点坐标进行姿态估计、目标定位、距离或尺寸预测、动作识别、模型生成等等,其中,可以根据不同的应用领域和需求,设计不同类型的下游任务,同时,置信度阈值可以根据不同的下游任务进行调整。参照图18,图18为本申请实施例提供的一种关键点筛选的流程示意图,可以看出,在针对目标图像进行人体姿态估计的应用场景中,可以利用目标图像的关键点坐标进行估计人体姿态,实现对人体动作的识别和分析。首先可以通过调用训练好的回归模型对目标图像进行特征映射,输出得到目标图像的多个目标关键点坐标,具体包括头部坐标A、头部坐标B、腰部坐标C、腰部坐标D、腕部坐标E和足部坐标F。另外,在调用训练好的回归模型对目标图像进行特征映射,回归模型还可以输出各个目标关键点坐标的置信度,其中,各个目标关键点坐标的置信度可以根据公式(13)求取得到。通过将各个目标关键点的置信度与预先设置好的置信度阈值进行比较,可以判断出头部坐标B对应的置信度以及腕部坐标E对应的置信度均低于置信度阈值,说明头部坐标B和腕部坐标E的可靠性较低,将头部坐标B和腕部坐标E从目标关键点中剔除,即得到筛选后的目标关键点坐标:头部坐标A、腰部坐标C、腰部坐标D和足部坐标F,这些筛选后的目标关键点坐标可以认为具有高可靠性,从而利用这些目标关键点坐标进行人体动作识别和运动分析,并结合这些目标关键点坐标的时序信息,来分析人体的姿态变化,实现利用目标关键点坐标进行人体姿态估计。通过置信度和置信度阈值来筛选关键点坐标,可以排出置信度较低的关键点,减少了数据误差和不准确的数据对姿态估计的影响,有效提高人体姿态估计的准确性和可靠性。
在一种可能的实现方式中,本申请实施例提供的关键点检测方法可以应用于姿态估计领域,通过获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,除了输出样本图像所承载的对象的样本关键点坐标之外,还进一步输出了样本关键点坐标对应的样本热图分布参数,再将样本关键点坐标作为均值,根据样本热图分布参数反过来生成样本关键点坐标对应的模拟热图,进而能够利用模拟热图与样本图像对应的参考热图进行对比,从而确定回归模型的目标损失,因此,在根据目标损失训练回归模型时,相当于通过模拟热图进一步约束了回归模型的输出,从而使得回归模型能够显式地学习到关键点的信息,更好地捕捉到样本图像中的内在信息,提升了回归模型的性能,使得后续在基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标时,能够有效地提升关键点检测的准确性。具体地,可以通过采用公开数据集MSCOCO进行关键点检测,并利用相应的验证集进行评价。参照表1,表1为各个采用模型进行关键点检测的方法在公开数据集MSCOCO的验证集上的结果。
表1 在公开数据集MSCOCO[8]的验证集上结果
其中,评价指标为参数量、运算量(Giga Floating-point Operations PerSecond,GFLOPs)和平均精度(mean Average Precision,mAP)。其中,参数量和运算量可以综合表征模型方法的处理速度,参数量和运算量越小,可以认为模型方法的处理速度越快;平均精度可以表征模型方法对关键点预测的准确度,平均精度越高,说明模型预测得越准确。
骨干网络是用于计算机视觉任务中的特征提取网络,通过表1可以看出,ResNet-50网络和Stemnet网络的规模相对于表1中其他的骨干网络的规模较小,相比之下,ResNet-152网络和HRNet网络的规模较大,规模更大的网络意味着骨干网络可以包含更多的卷积层和参数,因此具有更高的表示能力和更好的特征提取能力。其中,HRNet的W系数指的是网络的宽度(Width)越大,代表它的网络层数越深越宽,即模型的规模也越大。但模型规模的大小不一定直接决定了模型的性能,因为模型的预测性能还受到多个因素的影响,包括数据集、任务和训练过程等,而在采用同一数据集执行同一姿态估计任务的情况下,模型的不同训练过程对模型的预测性能影响至关重要。结合表1,Ours()表示为本申请实施例提供的采用高斯分布构建的参考热图进行模型训练的回归模型,而Ours(/>)表示为本申请实施例提供的采用预训练的热图模型构建的参考热图进行模型训练的回归模型,可以看出,本申请实施例提供的关键点检测方法的平均精度相对于相关技术中的模型方法的平均精度更高,且在保证高平均精度的同时,能够兼顾参数量和运算量,有效提高了回归模型的性能,有助于提高关键点检测的准确性。
参照图19,图19为本申请实施例提供的回归模型的训练方法的一种可选的流程示意图,该回归模型的训练方法可以由终端执行,或者也可以由服务器执行,或者也可以由终端和服务器配合执行,在本申请实施例中,以该方法由服务器执行为例进行说明,该回归模型的训练方法包括但不限于以下步骤1901至步骤1904。
步骤1901:获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。
在一种可能的实现方式中,利用回归模型对样本图像进行特征映射,可以得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数之外,还可以得到样本热图分布参数对应的基础热图的分量权重。
在一种可能的实现方式中,在基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数的过程中,可以先将样本图像输入至回归模型;然后,对样本图像进行特征提取,得到样本图像的图像特征向量;接着,对图像特征向量进行映射,得到映射向量;从而可以对映射向量进行线性回归,得到回归向量;进而可以根据回归向量得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。另外,根据回归向量除了可以得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数之外,还可以得到样本热图分布参数对应的基础热图的分量权重。
在一种可能的实现方式中,回归模型可以基于两个输出层分别对映射向量进行线性回归,可以根据其中一个输出层输出的回归向量,得到样本图像所承载的对象的样本关键点坐标;并根据另一个输出层输出的回归向量,得到样本关键点坐标对应的样本热图分布参数。另外,回归模型还可以基于除上述两个输出层以外的输出层对映射向量进行线性回归,根据该输出层输出的回归向量,可以得到样本热图分布参数对应的基础热图的分量权重。
在一种可能的实现方式中,回归模型可以包括有多个全连接层,回归模型可以基于多个全连接层分别对图像特征向量进行映射,输出层可以根据其中一个全连接层输出的映射向量进行线性回归,得到第一回归向量,并根据另一个全连接层输出的映射向量进行线性回归,可以得到第二回归向量。输出层可以根据第一回归向量,得到样本图像所承载的对象的样本关键点坐标;而根据第二回归向量,可以得到样本关键点坐标对应的样本热图分布参数。另外,回归模型的输出层还可以根据除上述两个全连接层以外的全连接层输出的映射向量进行线性回归,得到第三回归向量,接着可以根据第三回归向量,得到样本热图分布参数对应的基础热图的分量权重。
步骤1902:将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,样本热图分布参数包括待构建的基础热图中任意一个像素点的横坐标与纵坐标之间的相关系数、待构建的基础热图中所有像素点的第一横坐标的第一标准差,以及基础热图中所有像素点的纵坐标的第二标准差,因此,在将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图的过程中,可以先将基础热图中任意一个像素点的坐标作为多元变量,并将样本关键点作为均值,然后根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图;接着,根据基础热图得到样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,每个样本关键点坐标所对应的样本热图分布参数的数量为多组,而回归模型除了输出样本关键点坐标以及样本关键点坐标所对应的样本热图分布参数之外,还输出样本热图分布参数对应的基础热图的样本分量权重;因此,在根据基础热图得到样本关键点坐标对应的模拟热图的过程中,可以根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,在根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图的过程中,可以先根据相关系数、第一标准差和第二标准差确定分布的协方差矩阵;然后根据协方差矩阵以及样本关键点坐标对多元变量进行标准化;接着,根据多元变量的标准化结果进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图。
步骤1903:获取样本图像对应的参考热图,其中,参考热图用于作为回归模型的训练标签。
在一种可能的实现方式中,在获取样本图像对应的参考热图的过程中,可以获取样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将标注关键点坐标作为均值,根据参考热图分布参数进行高斯分布的构建,得到样本图像对应的参考热图。
在一种可能的实现方式中,在获取样本图像对应的参考热图的过程中,可以基于预先训练好的热图生成模型,基于热图生成模型生成样本图像对应的参考热图。
步骤1904:根据模拟热图和参考热图确定回归模型的目标损失,根据目标损失训练回归模型。
在一种可能的实现方式中,在根据模拟热图和参考热图确定回归模型的目标损失的过程中,可以基于KL散度损失函数确定模拟热图与参考热图之间的第一损失,基于平均绝对值误差损失函数确定模拟热图与参考热图之间的第二损失;然后,根据第一损失和第二损失之和确定回归模型的目标损失。
在一种可能的实现方式中,在根据第一损失和第二损失之和确定回归模型的目标损失的过程中,可以先获取用于调整梯度的锋利程度的平滑系数,根据平滑系数对第一损失进行平滑处理,得到第三损失;然后根据第三损失与第二损失之和确定回归模型的目标损失。平滑系数能够调整第一损失的平滑程度,相当于平滑系数可以调节在初始阶段中目标损失函数的梯度的锋利程度。
下面详细说明本申请实施例提供的关键点检测方法。
参照图20,图20为本申请实施例提供的关键点检测方法的一种可选的整体流程示意图,其中,该关键点检测方法包括但不限于以下步骤2001至步骤2012:
步骤2001:获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。
在本步骤中,样本热图分布参数的数量可以为一组或多组,当样本热图分布参数的数量为多组时,回归模型还可以输出各组样本热图分布参数对应的基础热图的样本分量权重。其中,在基于回归模型对样本图像进行特征映射的过程中,可以先将样本图像输入至回归模型,对样本图像进行特征提取,得到样本图像的图像特征向量;然后,对图像特征向量进行映射,得到映射向量;接着,对映射向量进行线性回归,得到回归向量;从而可以根据回归向量得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。需要说明的是,回归模型可以基于多个输出层分别对映射向量进行线性回归,例如,可以根据其中一个输出层输出的回归向量,得到样本图像所承载的对象的样本关键点坐标,并根据另一个输出层输出的回归向量,得到样本关键点坐标对应的样本热图分布参数;还可以根据除上述两个输出层以外的输出层输出的回归向量,得到各组样本热图分布参数对应的基础热图的样本分量权重。
步骤2002:将基础热图中任意一个像素点的坐标作为多元变量,将样本关键点坐标作为均值,根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图。
在本步骤中,样本热图分布参数包括待构建的基础热图中任意一个像素点的横坐标与纵坐标之间的相关系数、基础热图中所有像素点的横坐标的第一标准差,以及基础热图中所有像素点的纵坐标的第二标准差。另外,在进行混合高斯分布的构建过程中,可以先根据相关系数、第一标准差和第二标准差确定分布的协方差矩阵;然后,根据协方差矩阵以及样本关键点坐标对多元变量进行标准化;接着,根据多元变量的标准化结果进行混合高斯分布的构建,从而可以得到样本关键点坐标对应的基础热图。
步骤2003:根据基础热图得到样本关键点坐标对应的模拟热图。
在本步骤中,当样本热图分布参数的数量为多组,且回归模型还输出各组样本热图分布参数对应的基础热图的样本分量权重,可以根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图,然后根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图。
获取样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将标注关键点坐标作为均值,根据参考热图分布参数进行高斯分布的构建,得到样本图像对应的参考热图。
步骤2004:基于预先训练好的热图生成模型,基于热图生成模型生成样本图像对应的参考热图。
步骤2005:基于KL散度损失函数确定模拟热图与参考热图之间的第一损失,基于平均绝对值误差损失函数确定模拟热图与参考热图之间的第二损失。
步骤2006:获取用于调整梯度的锋利程度的平滑系数,根据平滑系数对第一损失进行平滑处理,得到第三损失。
步骤2007:根据第三损失与第二损失之和确定回归模型的目标损失。
步骤2008:根据目标损失训练回归模型。
步骤2009:获取待检测的目标图像,基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标,接着,选择执行步骤2010,或者执行步骤2012。
步骤2010:根据多个目标分量权重之和确定目标关键点坐标的置信度。
在本步骤中,回归模型还输出目标关键点坐标对应的多组目标热图分布参数,以及各组目标热图分布参数对应的基础热图的目标分量权重。
步骤2011:筛选置信度大于或者等于预设的置信度阈值的目标关键点,并基于该目标关键点坐标执行下游任务。
步骤2012:结束步骤流程。
下面详细说明本申请实施例提供的回归模型的训练方法。
参照图21,图21为本申请实施例提供的回归模型的训练方法的一种可选的整体流程示意图,其中,该关键点检测方法包括但不限于以下步骤2101至步骤2109:
步骤2101:获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。
在本步骤中,样本热图分布参数的数量可以为一组或多组,当样本热图分布参数的数量为多组时,回归模型还可以输出各组样本热图分布参数对应的基础热图的样本分量权重。其中,在基于回归模型对样本图像进行特征映射的过程中,可以先将样本图像输入至回归模型,对样本图像进行特征提取,得到样本图像的图像特征向量;然后,对图像特征向量进行映射,得到映射向量;接着,对映射向量进行线性回归,得到回归向量;从而可以根据回归向量得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。需要说明的是,回归模型可以基于多个输出层分别对映射向量进行线性回归,例如,可以根据其中一个输出层输出的回归向量,得到样本图像所承载的对象的样本关键点坐标,并根据另一个输出层输出的回归向量,得到样本关键点坐标对应的样本热图分布参数;还可以根据除上述两个输出层以外的输出层输出的回归向量,得到各组样本热图分布参数对应的基础热图的样本分量权重。
步骤2102:将基础热图中任意一个像素点的坐标作为多元变量,将样本关键点坐标作为均值,根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图。
在本步骤中,样本热图分布参数包括待构建的基础热图中任意一个像素点的横坐标与纵坐标之间的相关系数、基础热图中所有像素点的横坐标的第一标准差,以及基础热图中所有像素点的纵坐标的第二标准差。另外,在进行混合高斯分布的构建过程中,可以先根据相关系数、第一标准差和第二标准差确定分布的协方差矩阵;然后,根据协方差矩阵以及样本关键点坐标对多元变量进行标准化;接着,根据多元变量的标准化结果进行混合高斯分布的构建,从而可以得到样本关键点坐标对应的基础热图。
步骤2103:根据基础热图得到样本关键点坐标对应的模拟热图。
在本步骤中,当样本热图分布参数的数量为多组,且回归模型还输出各组样本热图分布参数对应的基础热图的样本分量权重,可以根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图,然后根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图。
获取样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将标注关键点坐标作为均值,根据参考热图分布参数进行高斯分布的构建,得到样本图像对应的参考热图。
步骤2104:基于预先训练好的热图生成模型,基于热图生成模型生成样本图像对应的参考热图。
步骤2105:基于KL散度损失函数确定模拟热图与参考热图之间的第一损失,基于平均绝对值误差损失函数确定模拟热图与参考热图之间的第二损失。
步骤2106:获取用于调整梯度的锋利程度的平滑系数,根据平滑系数对第一损失进行平滑处理,得到第三损失。
步骤2107:根据第三损失与第二损失之和确定回归模型的目标损失。
步骤2108:根据目标损失训练回归模型。
步骤2109:结束步骤流程。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
参照图22,图22为本申请实施例提供的关键点检测装置2200的一种可选的结构示意图,该关键点检测装置2200包括:
第一映射模块2201,用于获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数;
第一处理模块2202,用于将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图;
第一获取模块2203,用于获取样本图像对应的参考热图,其中,参考热图用于作为回归模型的训练标签;
第二处理模块2204,用于根据模拟热图和参考热图确定回归模型的目标损失,根据目标损失训练回归模型;
第二映射模块2205,用于获取待检测的目标图像,基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标。
在一种可能的实现方式中,第一处理模块2202还用于:
将基础热图中任意一个像素点的坐标作为多元变量,将样本关键点坐标作为均值,根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图;
根据基础热图得到样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,第一处理模块2202还用于:
根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,第一处理模块2202还用于:
根据相关系数、第一标准差和第二标准差确定分布的协方差矩阵;
根据协方差矩阵以及样本关键点坐标对多元变量进行标准化;
根据多元变量的标准化结果进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图。
在一种可能的实现方式中,第二处理模块2204还用于:
基于KL散度损失函数确定模拟热图与参考热图之间的第一损失,基于平均绝对值误差损失函数确定模拟热图与参考热图之间的第二损失;
根据第一损失和第二损失之和确定回归模型的目标损失。
在一种可能的实现方式中,第二处理模块2204还用于:
获取用于调整梯度的锋利程度的平滑系数,根据平滑系数对第一损失进行平滑处理,得到第三损失;
根据第三损失与第二损失之和确定回归模型的目标损失。
在一种可能的实现方式中,第一映射模块2201还用于:
将样本图像输入至回归模型;
对样本图像进行特征提取,得到样本图像的图像特征向量;
对图像特征向量进行映射,得到映射向量;
对映射向量进行线性回归,得到回归向量;
根据回归向量得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。
在一种可能的实现方式中,第一映射模块2201还用于:
根据其中一个输出层输出的回归向量,得到样本图像所承载的对象的样本关键点坐标;
根据另一个输出层输出的回归向量,得到样本关键点坐标对应的样本热图分布参数。
在一种可能的实现方式中,第一获取模块2203还用于:
获取样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将标注关键点坐标作为均值,根据参考热图分布参数进行高斯分布的构建,得到样本图像对应的参考热图;
或者,基于预先训练好的热图生成模型,基于热图生成模型生成样本图像对应的参考热图。
在一种可能的实现方式中,关键点检测装置2200还包括第五处理模块,第五处理模块用于:
根据多个目标分量权重之和确定目标关键点坐标的置信度;
当置信度大于或者等于预设的置信度阈值时,基于目标关键点坐标执行下游任务。
上述关键点检测装置2200与关键点检测方法基于相同的发明构思,通过获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,除了输出样本图像所承载的对象的样本关键点坐标之外,还进一步输出了样本关键点坐标对应的样本热图分布参数,再将样本关键点坐标作为均值,根据样本热图分布参数反过来生成样本关键点坐标对应的模拟热图,进而能够利用模拟热图与样本图像对应的参考热图进行对比,从而确定回归模型的目标损失,因此,在根据目标损失训练回归模型时,相当于通过模拟热图进一步约束了回归模型的输出,从而使得回归模型能够显式地学习到关键点的信息,更好地捕捉到样本图像中的内在信息,提升了回归模型的性能,使得后续在基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标时,能够有效地提升关键点检测的准确性。
参照图23,图23为本申请实施例提供的回归模型的训练装置2300的一种可选的结构示意图,该回归模型的训练装置2300包括:
第三映射模块2301,用于获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,输出样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数;
第三处理模块2302,用于将样本关键点坐标作为均值,根据样本热图分布参数生成样本关键点坐标对应的模拟热图;
第二获取模块2303,用于获取样本图像对应的参考热图,其中,参考热图用于作为回归模型的训练标签;
第四处理模块2304,用于根据模拟热图和参考热图确定回归模型的目标损失,根据目标损失训练回归模型。
在一种可能的实现方式中,第三处理模块2302还用于:
将基础热图中任意一个像素点的坐标作为多元变量,将样本关键点坐标作为均值,根据相关系数、第一标准差和第二标准差进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图;
根据基础热图得到样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,第三处理模块2302还用于:
根据样本分量权重对多个基础热图进行加权,得到样本关键点坐标对应的模拟热图。
在一种可能的实现方式中,第三处理模块2302还用于:
根据相关系数、第一标准差和第二标准差确定分布的协方差矩阵;
根据协方差矩阵以及样本关键点坐标对多元变量进行标准化;
根据多元变量的标准化结果进行混合高斯分布的构建,得到样本关键点坐标对应的基础热图。
在一种可能的实现方式中,第四处理模块2304还用于:
基于KL散度损失函数确定模拟热图与参考热图之间的第一损失,基于平均绝对值误差损失函数确定模拟热图与参考热图之间的第二损失;
根据第一损失和第二损失之和确定回归模型的目标损失。
在一种可能的实现方式中,第四处理模块2304还用于:
获取用于调整梯度的锋利程度的平滑系数,根据平滑系数对第一损失进行平滑处理,得到第三损失;
根据第三损失与第二损失之和确定回归模型的目标损失。
在一种可能的实现方式中,第三映射模块2301还用于:
将样本图像输入至回归模型;
对样本图像进行特征提取,得到样本图像的图像特征向量;
对图像特征向量进行映射,得到映射向量;
对映射向量进行线性回归,得到回归向量;
根据回归向量得到样本图像所承载的对象的样本关键点坐标,以及样本关键点坐标对应的样本热图分布参数。
在一种可能的实现方式中,第三映射模块2301还用于:
根据其中一个输出层输出的回归向量,得到样本图像所承载的对象的样本关键点坐标;
根据另一个输出层输出的回归向量,得到样本关键点坐标对应的样本热图分布参数。
在一种可能的实现方式中,第二获取模块2303还用于:
获取样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将标注关键点坐标作为均值,根据参考热图分布参数进行高斯分布的构建,得到样本图像对应的参考热图;
或者,基于预先训练好的热图生成模型,基于热图生成模型生成样本图像对应的参考热图。
上述回归模型的训练装置2300与回归模型的训练方法基于相同的发明构思,先通过获取用于作为训练样本的样本图像,基于回归模型对样本图像进行特征映射,除了输出样本图像所承载的对象的样本关键点坐标之外,还进一步输出了样本关键点坐标对应的样本热图分布参数,再将样本关键点坐标作为均值,根据样本热图分布参数反过来生成样本关键点坐标对应的模拟热图,进而能够利用模拟热图与样本图像对应的参考热图进行对比,从而确定回归模型的目标损失,因此,在根据目标损失训练回归模型时,相当于通过模拟热图进一步约束了回归模型的输出,从而使得回归模型能够显式地学习到关键点的信息,更好地捕捉到样本图像中的内在信息,提升了回归模型的性能,使得后续在基于训练后的回归模型对目标图像进行特征映射,输出目标图像所承载的对象的目标关键点坐标时,能够有效地提升关键点检测的准确性。
本申请实施例提供的用于执行上述关键点检测方法或者回归模型的训练方法的电子设备可以是终端,参照图24,图24为本申请实施例提供的终端的部分结构框图,该终端包括:摄像头组件2410、第一存储器2420、输入单元2430、显示单元2440、传感器2450、音频电路2460、无线保真(wireless fidelity,简称WiFi)模块2470、第一处理器2480、以及电源2490等部件。本领域技术人员可以理解,图24中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
摄像头组件2410可用于采集图像或视频。可选地,摄像头组件2410包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。
第一存储器2420可用于存储软件程序以及模块,第一处理器2480通过运行存储在第一存储器2420的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。
输入单元2430可用于接收输入的数字或字符信息,以及产生与终端的设置以及功能控制有关的键信号输入。具体地,输入单元2430可包括触摸面板2431以及其他输入装置2432。
显示单元2440可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元2440可包括显示面板2441。
音频电路2460、扬声器2461,传声器2462可提供音频接口。
电源2490可以是交流电、直流电、一次性电池或可充电电池。
传感器2450的数量可以为一个或者多个,该一个或多个传感器2450包括但不限于:加速度传感器、陀螺仪传感器、压力传感器、光学传感器等等。其中:
加速度传感器可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器可以用于检测重力加速度在三个坐标轴上的分量。第一处理器2480可以根据加速度传感器采集的重力加速度信号,控制显示单元2440以横向视图或纵向视图进行用户界面的显示。加速度传感器还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器可以检测终端的机体方向及转动角度,陀螺仪传感器可以与加速度传感器协同采集用户对终端的3D动作。第一处理器2480根据陀螺仪传感器采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器可以设置在终端的侧边框和/或显示单元2440的下层。当压力传感器设置在终端的侧边框时,可以检测用户对终端的握持信号,由第一处理器2480根据压力传感器采集的握持信号进行左右手识别或快捷操作。当压力传感器设置在显示单元2440的下层时,由第一处理器2480根据用户对显示单元2440的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器用于采集环境光强度。在一个实施例中,第一处理器2480可以根据光学传感器采集的环境光强度,控制显示单元2440的显示亮度。具体地,当环境光强度较高时,调高显示单元2440的显示亮度;当环境光强度较低时,调低显示单元2440的显示亮度。在另一个实施例中,第一处理器2480还可以根据光学传感器采集的环境光强度,动态调整摄像头组件2410的拍摄参数。
在本实施例中,该终端所包括的第一处理器2480可以执行前面实施例的关键点检测方法或者回归模型的训练方法。
本申请实施例提供的用于执行上述关键点检测方法或者回归模型的训练方法的电子设备也可以是服务器,参照图25,图25为本申请实施例提供的服务器的部分结构框图,服务器2500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上第二处理器2522和第二存储器2532,一个或一个以上存储应用程序2542或数据2544的存储介质2530(例如一个或一个以上海量存储装置)。其中,第二存储器2532和存储介质2530可以是短暂存储或持久存储。存储在存储介质2530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器2500中的一系列指令操作。更进一步地,第二处理器2522可以设置为与存储介质2530通信,在服务器2500上执行存储介质2530中的一系列指令操作。
服务器2500还可以包括一个或一个以上电源2526,一个或一个以上有线或无线网络接口2550,一个或一个以上输入输出接口2558,和/或,一个或一个以上操作***2541,例如Windows ServerTM,Mac OS XTM,UnixTM ,LinuxTM,FreeBSDTM等等。
服务器2500中的第二处理器2522可以用于执行关键点检测方法或者回归模型的训练方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述各个实施例的关键点检测方法或者回归模型的训练方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的关键点检测方法或者回归模型的训练方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
应了解,在本申请实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
还应了解,本申请实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本申请权利要求所限定的范围内。
Claims (15)
1.一种关键点检测方法,其特征在于,包括:
获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型;
获取待检测的目标图像,基于训练后的所述回归模型对所述目标图像进行特征映射,输出所述目标图像所承载的对象的目标关键点坐标。
2.根据权利要求1所述的关键点检测方法,其特征在于,所述样本热图分布参数包括待构建的基础热图中任意一个像素点的横坐标与纵坐标之间的相关系数、所述基础热图中所有像素点的横坐标的第一标准差、所述基础热图中所有像素点的纵坐标的第二标准差,所述将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图,包括:
将所述基础热图中任意一个像素点的坐标作为多元变量,将所述样本关键点坐标作为均值,根据所述相关系数、所述第一标准差和所述第二标准差进行混合高斯分布的构建,得到所述样本关键点坐标对应的所述基础热图;
根据所述基础热图得到所述样本关键点坐标对应的模拟热图。
3.根据权利要求2所述的关键点检测方法,其特征在于,所述样本热图分布参数的数量为多组,所述回归模型还输出各组所述样本热图分布参数对应的所述基础热图的样本分量权重,所述根据所述基础热图得到所述样本关键点坐标对应的模拟热图,包括:
根据所述样本分量权重对多个所述基础热图进行加权,得到所述样本关键点坐标对应的模拟热图。
4.根据权利要求2所述的关键点检测方法,其特征在于,所述根据所述相关系数、所述第一标准差和所述第二标准差进行混合高斯分布的构建,得到所述样本关键点坐标对应的所述基础热图,包括:
根据所述相关系数、所述第一标准差和所述第二标准差确定分布的协方差矩阵;
根据所述协方差矩阵以及所述样本关键点坐标对所述多元变量进行标准化;
根据所述多元变量的标准化结果进行混合高斯分布的构建,得到所述样本关键点坐标对应的所述基础热图。
5.根据权利要求1所述的关键点检测方法,其特征在于,所述根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,包括:
基于KL散度损失函数确定所述模拟热图与所述参考热图之间的第一损失,基于平均绝对值误差损失函数确定所述模拟热图与所述参考热图之间的第二损失;
根据所述第一损失和所述第二损失之和确定所述回归模型的目标损失。
6.根据权利要求5所述的关键点检测方法,其特征在于,所述根据所述第一损失和所述第二损失之和确定所述回归模型的目标损失,包括:
获取用于调整梯度的锋利程度的平滑系数,根据所述平滑系数对所述第一损失进行平滑处理,得到第三损失;
根据所述第三损失与所述第二损失之和确定所述回归模型的目标损失。
7.根据权利要求1所述的关键点检测方法,其特征在于,所述基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数,包括:
将所述样本图像输入至回归模型;
对所述样本图像进行特征提取,得到所述样本图像的图像特征向量;
对所述图像特征向量进行映射,得到映射向量;
对所述映射向量进行线性回归,得到回归向量;
根据所述回归向量得到所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数。
8.根据权利要求7所述的关键点检测方法,其特征在于,所述回归模型基于两个输出层分别对所述映射向量进行线性回归,所述根据所述回归向量得到所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数,包括:
根据其中一个所述输出层输出的所述回归向量,得到所述样本图像所承载的对象的样本关键点坐标;
根据另一个所述输出层输出的所述回归向量,得到所述样本关键点坐标对应的样本热图分布参数。
9.根据权利要求1所述的关键点检测方法,其特征在于,所述获取所述样本图像对应的参考热图,包括:
获取所述样本图像所承载的对象的标注关键点坐标,以及预设的参考热图分布参数,将所述标注关键点坐标作为均值,根据所述参考热图分布参数进行高斯分布的构建,得到所述样本图像对应的参考热图;
或者,基于预先训练好的热图生成模型,基于所述热图生成模型生成所述样本图像对应的参考热图。
10.根据权利要求1所述的关键点检测方法,其特征在于,所述回归模型还输出所述目标关键点坐标对应的多组目标热图分布参数,以及各组所述目标热图分布参数对应的基础热图的目标分量权重,所述关键点检测方法还包括:
根据多个所述目标分量权重之和确定所述目标关键点坐标的置信度;
当所述置信度大于或者等于预设的置信度阈值时,基于所述目标关键点坐标执行下游任务。
11.一种回归模型的训练方法,其特征在于,包括:
获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型。
12.一种关键点检测装置,其特征在于,包括:
第一映射模块,用于获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
第一处理模块,用于将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
第一获取模块,用于获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
第二处理模块,用于根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型;
第二映射模块,用于获取待检测的目标图像,基于训练后的所述回归模型对所述目标图像进行特征映射,输出所述目标图像所承载的对象的目标关键点坐标。
13.一种回归模型的训练装置,其特征在于,包括:
第三映射模块,用于获取用于作为训练样本的样本图像,基于回归模型对所述样本图像进行特征映射,输出所述样本图像所承载的对象的样本关键点坐标,以及所述样本关键点坐标对应的样本热图分布参数;
第三处理模块,用于将所述样本关键点坐标作为均值,根据所述样本热图分布参数生成所述样本关键点坐标对应的模拟热图;
第二获取模块,用于获取所述样本图像对应的参考热图,其中,所述参考热图用于作为所述回归模型的训练标签;
第四处理模块,用于根据所述模拟热图和所述参考热图确定所述回归模型的目标损失,根据所述目标损失训练所述回归模型。
14.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任意一项所述的关键点检测方法或者权利要求11所述的回归模型的训练方法。
15.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任意一项所述的关键点检测方法或者权利要求11所述的回归模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311225095.2A CN116958584B (zh) | 2023-09-21 | 2023-09-21 | 关键点检测方法、回归模型的训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311225095.2A CN116958584B (zh) | 2023-09-21 | 2023-09-21 | 关键点检测方法、回归模型的训练方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116958584A true CN116958584A (zh) | 2023-10-27 |
CN116958584B CN116958584B (zh) | 2024-01-05 |
Family
ID=88462492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311225095.2A Active CN116958584B (zh) | 2023-09-21 | 2023-09-21 | 关键点检测方法、回归模型的训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958584B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117483996A (zh) * | 2023-11-24 | 2024-02-02 | 浩元电子(东莞)有限公司 | 电子烟生产用加热丝自动焊接装置及加热丝自动定位方法 |
CN117854156A (zh) * | 2024-03-07 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 一种特征提取模型的训练方法和相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532981A (zh) * | 2019-09-03 | 2019-12-03 | 北京字节跳动网络技术有限公司 | 人体关键点提取方法、装置、可读存储介质及设备 |
US20210225069A1 (en) * | 2020-01-20 | 2021-07-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating 3d joint point regression model |
CN114186632A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 关键点检测模型的训练方法、装置、设备、存储介质 |
CN116012913A (zh) * | 2022-12-29 | 2023-04-25 | 杭州网易智企科技有限公司 | 模型训练方法、人脸关键点检测方法、介质及装置 |
CN116030517A (zh) * | 2022-12-26 | 2023-04-28 | 浙江大华技术股份有限公司 | 模型训练方法、人脸识别方法、装置以及计算机存储介质 |
US20230162472A1 (en) * | 2020-04-22 | 2023-05-25 | Continental Autonomous Mobility Germany GmbH | Method and system for keypoint detection based on neural networks |
CN116167426A (zh) * | 2022-12-08 | 2023-05-26 | 沙宇洋 | 人脸关键点定位模型的训练方法及人脸关键点定位方法 |
-
2023
- 2023-09-21 CN CN202311225095.2A patent/CN116958584B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532981A (zh) * | 2019-09-03 | 2019-12-03 | 北京字节跳动网络技术有限公司 | 人体关键点提取方法、装置、可读存储介质及设备 |
US20210225069A1 (en) * | 2020-01-20 | 2021-07-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating 3d joint point regression model |
US20230162472A1 (en) * | 2020-04-22 | 2023-05-25 | Continental Autonomous Mobility Germany GmbH | Method and system for keypoint detection based on neural networks |
CN114186632A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 关键点检测模型的训练方法、装置、设备、存储介质 |
CN116167426A (zh) * | 2022-12-08 | 2023-05-26 | 沙宇洋 | 人脸关键点定位模型的训练方法及人脸关键点定位方法 |
CN116030517A (zh) * | 2022-12-26 | 2023-04-28 | 浙江大华技术股份有限公司 | 模型训练方法、人脸识别方法、装置以及计算机存储介质 |
CN116012913A (zh) * | 2022-12-29 | 2023-04-25 | 杭州网易智企科技有限公司 | 模型训练方法、人脸关键点检测方法、介质及装置 |
Non-Patent Citations (1)
Title |
---|
邓健康 等: "基于稀疏级联回归的快速人脸配准方法及其在移动设备上的应用", 计算机科学, vol. 42, no. 10, pages 301 - 305 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117483996A (zh) * | 2023-11-24 | 2024-02-02 | 浩元电子(东莞)有限公司 | 电子烟生产用加热丝自动焊接装置及加热丝自动定位方法 |
CN117854156A (zh) * | 2024-03-07 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 一种特征提取模型的训练方法和相关装置 |
CN117854156B (zh) * | 2024-03-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种特征提取模型的训练方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116958584B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476306B (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
CN108460338B (zh) | 人体姿态估计方法和装置、电子设备、存储介质、程序 | |
US11237637B2 (en) | Gesture recognition systems | |
CN110659582A (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
CN112052186B (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
CN103514432A (zh) | 人脸特征提取方法、设备和计算机程序产品 | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN103324938A (zh) | 训练姿态分类器及物体分类器、物体检测的方法及装置 | |
CN113850865A (zh) | 一种基于双目视觉的人体姿态定位方法、***和存储介质 | |
CN116958584B (zh) | 关键点检测方法、回归模型的训练方法、装置及电子设备 | |
CN116935203B (zh) | 一种基于声光融合的潜水员智能监控方法和*** | |
Núnez et al. | Real-time human body tracking based on data fusion from multiple RGB-D sensors | |
CN112907658A (zh) | 视觉定位评估方法和电子设备 | |
CN111589138B (zh) | 动作预测方法、装置、设备及存储介质 | |
CN114005149A (zh) | 一种目标角度检测模型的训练方法及装置 | |
CN112699748B (zh) | 基于yolo及rgb图像的人车距离估计方法 | |
CN117132649A (zh) | 人工智能融合北斗卫星导航的船舶视频定位方法及装置 | |
CN115880740A (zh) | 人脸活体检测方法、装置、计算机设备和存储介质 | |
KR20130081126A (ko) | 손 제스처 인식 방법 및 그 장치 | |
CN112016495A (zh) | 人脸识别的方法、装置和电子设备 | |
CN117523428B (zh) | 基于飞行器平台的地面目标检测方法和装置 | |
KR102407802B1 (ko) | 인공신경망 학습 기반의 실내외 3차원 좌표 및 방위 추정 장치 | |
CN113326716B (zh) | 面向装配现场环境装配指导ar应用定位的回环检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |