CN114863539A

CN114863539A - 一种基于特征融合的人像关键点检测方法及***

Info

Publication number: CN114863539A
Application number: CN202210648008.3A
Authority: CN
Inventors: 林志贤; 陈凯; 林珊玲; 郭太良; 林坚普; 叶芸; 张永爱; 周雄图
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-08-05

Abstract

本发明涉及一种基于特征融合的人像关键点检测方法，该方法包括：S1：将人像图片送入人脸检测网络进行人脸检测并裁剪，将训练数据集中的坐标信息转化为热力图信息；S2：将人像图片送入基于Transformer和Convolution特征融合的回归网络对其进行训练，回归网络为并行结构，通过Convolution捕捉人像图片的低级语义特征，通过Transformer捕捉人像图片中的高级语义特征，将得到的特征图进行跳跃连接，共同编码包含坐标信息的热力图；S3：基于Convolution和Transformer特征融合的回归网络将N个关键点的N个热力图联合在同一个通道，生成具有边界信息的热力图，输出N+1个通道的热力图；S4：将输出的热力图取前N个热力图进行解码，得到精确的N个关键点的坐标信息。该方法及***有利于提高检测精度和运行速度。

Description

一种基于特征融合的人像关键点检测方法及***

技术领域

本发明涉及本发明属于计算机视觉技术领域，具体涉及一种基于特征融合的人像关键点检测方法及***。

背景技术

近年来，随着Convolution网络以及深度学习在计算机视觉领域的蓬勃发展，关于人脸图像的计算机视觉任务也得到了实际应用。其中，基于深度学习的人像关键点检测技术是当前图像检测领域的研究热门之一，人脸关键点检测在虚拟现实，识别表情，人脸重建，人脸追踪，人像美颜等方面发展趋势明显。

而Transformer网络并不是因计算机视觉领域的蓬勃发展而诞生的。Transformer模型是Google团队在2017年所提出，目的是应用于NLP领域(自然语言处理)。Transformer模型中的自我注意机制，不采用RNN的顺序结构，使得Transformer模型可以实现并行化训练，而且能够拥有全局信息。在2020年，Carion提出一种端到端的Transformer物体检测模型，成功将NLP领域中的Transformer模型与计算机视觉领域相结合，从此视觉Transformer开始迅速发展，取得了与传统卷积相当的成绩，甚至有的Transformer网络结构已经实现对传统卷积模型的超越。

人脸关键点检测技术发展迅猛。其中，由Cootes等提出的ASM(Active ShapeModel)算法的特点是基于点分布式的，通过预先标定的训练集，经过网络训练获得特征，再通过关键点的位置实现特点位置的匹配。随后，在2010年，Dollar提出CPR(CascadedPoseRegression,级联姿势回归)，CPR通过一系列回归器将一个指定的初始预测值逐步细化，每一个回归器都依靠前一个回归器的输出来执行简单的图像操作，整个***可自动的从训练样本中学习。最后进入了深度学习时代，最为代表性的是Zhang等人提出一种多任务级联卷积神经网络(MTCNN,Multi-task Cascaded Convolutional Networks)用以同时处理人脸检测和人脸关键点定位问题。作者认为人脸检测和人脸关键点检测两个任务之间往往存在着潜在的联系，然而大多数方法都未将两个任务有效的结合起来，本文为了充分利用两任务之间潜在的联系，提出一种多任务级联的人脸检测框架，将人脸检测和人脸关键点检测同时进行。

然而，目前主流的人像关键点检测算法都是采用热力图回归的形式，这一种方法需要渲染高斯热图，因为热力图中的最值点直接对应了关键点，这就导致了两个问题，一是这一类算法都需要维持一个相对高分辨率的热图，导致这一类回归网络具有难以回归的特点。二是这一类算法，热力图中的最值点直接代表了对应的关键点位置，渲染准确的热力图仅仅依靠传统的卷积层个数加深的方法往往是不足的。

发明内容

本发明的目的在于提供一种基于特征融合的人像关键点检测方法及***，该方法及***有利于提高检测精度和运行速度。

为实现上述目的，本发明采用的技术方案是：一种基于特征融合的人像关键点检测方法，包括以下步骤：

步骤S1：将人像数据集中的图片送入轻量化人脸检测网络YOLOV5-n-face进行人脸检测并裁剪，摒弃背景多余信息，得到经过处理后的人像图片，将人像图片中的原有的坐标信息归一化后，通过高斯分布转化为热力图；

步骤S2：将步骤S1得到的人像图片送入基于Transformer和Convolution特征融合的回归网络对其进行训练，将步骤S1得到的热力图用于监督学习，损失函数采用自适应Wing loss；回归网络为并行结构，通过Convolution捕捉人像图片的低级语义特征，通过Transformer捕捉人像图片中的高级语义特征，将Convolution和Transformer得到的特征图进行跳跃连接，即通道相连，共同编码包含坐标信息的热力图；

步骤S3：基于Convolution和Transformer特征融合的回归网络将N个关键点的N个热力图联合在同一个通道，生成一个单通道具有边界信息的热力图，输出N+1个通道、分辨率为64*64的热力图，N为关键点个数，其中每一个通道为关键点的高斯分布图，取其概率最大值则为所求的关键点；

步骤S4：将输出的热力图通过解码函数，取前N个热力图进行解码，得到精确的N个关键点的坐标信息。

进一步地，步骤S2中，通过所述回归网络获得低级语义特征与高级语义特征融合的特征图，其方法为：将Convolution和Transformer并行结构得到不同尺度和不同特征空间的特征图，经过下采样操作后，以跳跃连接，即通道连接方式进行特征融合，从而构造基于Convolution和Transformer特征融合的回归网络；基于Convolution和Transformer特征融合的回归网络的主干模块由CNN卷积神经网络ConvNeXt中的卷积模块blocks构造，辅以Transformer捕捉远距离语义相关信息进一步融合特征。

进一步地，Transformer通过一个Embedding操作，将序列输入转化为Token，格式为(N,C,H*W)，其中N为一次训练时输入网络的图片数量，C为图片通道数，H和W分别为图片的高度和宽度；Embedding层利用不同卷积核大小的二维卷积应用于(N,C,H,W)的特征图，再将不同分辨率大小的特征图进行双线性插值变为同一个分辨率大小，利用通道连接的方式得到包含不同分辨率的特征图，将此特征图进行格式变化，从(N,C,H,W)方式转化为(N,C,H*W)再送入Transformer的自我注意机制中。

进一步地，Transformer中的Embedding操作为：送入的特征图并行通过卷积核大小分别为1*1，3*3，7*7，9*9，步长分别为1，1，2，2的二维卷积，得到四种分辨率大小不同的特征图；再将四种分辨率大小不同的特征图通过双线性插值的方法变成四种分辨率大小相同的特征图进行通道连接，最后通过格式变化函数，将特征图的尺寸变为适合Transformer中自我注意层的大小。

进一步地，将Transformer结构中的Self-attention的线性层操作改为位置卷积CoordConv操作，进一步加强自我注意层捕捉远距离高级语义的特征以及通过卷积的形式加入位置信息。

本发明还提供了一种基于特征融合的人像关键点检测***，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：提供了一种基于特征融合的人像关键点检测方法及***，该方法及***设计了结合Convolution模块和Transformer模块的特征融合网络，可以结合Transformer和Convolution的优点，在提取低级语义特征的同时能够捕捉全局信息，同时可以减小了计算量和模型复杂度，在保持高检测精度的同时，减小模型参数量，提高模型的运行速度。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例中基于热力图回归的网络结构示意图。

图3是本发明实施例中关键点在图像上的投影示意图。

图4是本发明实施例中编码后具有边界信息的人像热力图。

图5是本发明实施例中CoordConv(位置卷积)结构示意图。

图6是本发明实施例中卷积模块(Conv Blocks)结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供了一种基于特征融合的人像关键点检测方法，其实现步骤如图1所示，包括：

步骤一：将训练数据集中的二维数字坐标，通过高斯模型编码的方式，编为热力图，热力图中的最大值点代表了此二维数字坐标。有N个二维数字坐标，就有N张热力图。设定输入图像的分辨率为256*256，根据经验，设定输出热力图分辨率为64*64。

步骤二：根据此网络以热力图的方式回归数字坐标，不同的损失函数对训练神经网络的结果有不同的影响，本发明设定Adaptive Wing Loss为损失函数，Adaptive WingLoss将N张热力图的最值点通过描点的方式汇聚到一张图上，如图4所示，达到人脸边界定位准确的效果。

本实施例的网络结构如图2所示，通过卷积预处理网络初步提取特征后，得到的特征图并行进行Convolution操作和Transformer操作，其中Transformer操作中的embedding方式，为二维卷积方式，将输入的特征图进一步分辨率减小，通道数增加。Convolution操作将经过一个Conv Blocks，卷积模块的结构如图6所示，得到的特征图的分辨率是Transformer操作得到的分辨率的两倍，将Convolution操作得到的特征图进行下采样后与Transformer得到的特征图进行跳跃连接，采用通道连接的方式，送入下一个阶段。

本发明在Transformer的自我注意层中引入了Coord Conv(位置卷积)替代普通的线性层操作。位置卷积的结构如图5所示，普通卷积神经网络在进行变换空间表征时存在缺陷，无法学***移不变性或不同程度的平移依赖性，以完美的泛化方法解决坐标变换的问题。

步骤三：网络输出结果为N+1张热力图，通过解码函数，由热力图转换为数字坐标信息。图3为二维关键点坐标在图像上的投影。

所述二维数字坐标通过高斯模型转换为热力图坐标，高斯模型公式为：

为数据集中的参考坐标，X为图像像素点，当二者相等时，取得最大值1，即为热力图中的最大值点。

所述Adaptive Wing Loss公式为：

为网络输出的关键点预测热力图，y为参考的关键点热力图，a，w，θ均为常数，其中：

C＝(θA-ωln(1+(θ/∈)^α-y))

A＝ω(1/(1+(θ/∈)^(α-y)))(α-y)((θ/∈)^(α-y-1))(1/∈)

我们将提取到的坐标向量和参考坐标向量做对比论证，通过具体的实验数据验证本方法的正确性。将本方法所得实验结果和现有的算法作对比，其结果如表1、表2所示。

表1在WFLW数据集上，ESR、SDM、CFSS、DVLD和本方法的性能对比

Method	NME
		ESR	11.13
SDM	10.20
		CFSS	9.07
DVLD	6.08
		本方法	4.32

表2 SDM、SAN、LAB、PFLD和本方法的网络参数量大小对比

本实施例还提供了一种基于特征融合的人像关键点检测***，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于特征融合的人像关键点检测方法，其特征在于，包括以下步骤：

步骤S2：将步骤S1得到的人像图片送入基于Transformer和Convolution特征融合的回归网络对其进行训练，将步骤S1得到的热力图用于监督学习，损失函数采用自适应Wingloss；回归网络为并行结构，通过Convolution捕捉人像图片的低级语义特征，通过Transformer捕捉人像图片中的高级语义特征，将Convolution和Transformer得到的特征图进行跳跃连接，即通道相连，共同编码包含坐标信息的热力图；

2.根据权利要求1所述的一种基于特征融合的人像关键点检测方法，其特征在于，步骤S2中，通过所述回归网络获得低级语义特征与高级语义特征融合的特征图，其方法为：将Convolution和Transformer并行结构得到不同尺度和不同特征空间的特征图，经过下采样操作后，以跳跃连接，即通道连接方式进行特征融合，从而构造基于Convolution和Transformer特征融合的回归网络；基于Convolution和Transformer特征融合的回归网络的主干模块由CNN卷积神经网络ConvNeXt中的卷积模块blocks构造，辅以Transformer捕捉远距离语义相关信息进一步融合特征。

3.根据权利要求1所述的一种基于特征融合的人像关键点检测方法，其特征在于，Transformer通过一个Embedding操作，将序列输入转化为Token，格式为(N,C,H*W)，其中N为一次训练时输入网络的图片数量，C为图片通道数，H和W分别为图片的高度和宽度；Embedding层利用不同卷积核大小的二维卷积应用于(N,C,H,W)的特征图，再将不同分辨率大小的特征图进行双线性插值变为同一个分辨率大小，利用通道连接的方式得到包含不同分辨率的特征图，将此特征图进行格式变化，从(N,C,H,W)方式转化为(N,C,H*W)再送入Transformer的自我注意机制中。

4.根据权利要求3所述的一种基于特征融合的人像关键点检测方法，其特征在于，Transformer中的Embedding操作为：送入的特征图并行通过卷积核大小分别为1*1，3*3，7*7，9*9，步长分别为1，1，2，2的二维卷积，得到四种分辨率大小不同的特征图；再将四种分辨率大小不同的特征图通过双线性插值的方法变成四种分辨率大小相同的特征图进行通道连接，最后通过格式变化函数，将特征图的尺寸变为适合Transformer中自我注意层的大小。

5.根据权利要求3所述的一种基于特征融合的人像关键点检测方法，其特征在于，将Transformer结构中的Self-attention的线性层操作改为位置卷积CoordConv操作，进一步加强自我注意层捕捉远距离高级语义的特征以及通过卷积的形式加入位置信息。

6.一种基于特征融合的人像关键点检测***，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-5任一项所述的方法步骤。