CN115862119A

CN115862119A - 基于注意力机制的人脸年龄估计方法及装置

Info

Publication number: CN115862119A
Application number: CN202310116722.2A
Authority: CN
Inventors: 杨通; 杜曦; 张金宝; 熊传旺
Original assignee: Nanjing Kaiwei Network Technology Co ltd
Current assignee: Nanjing Kaiwei Network Technology Co ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-03-28
Anticipated expiration: 2043-02-15
Also published as: CN115862119B

Abstract

本发明提出基于注意力机制的人脸年龄估计方法及装置，该方法通过预先构建的人脸年龄估计模型对输入图像进行人脸年龄估计，所述人脸年龄估计模型包括依次连接的卷积神经网络模块、标签分布学习网络模块和高斯回归网络模块。本发明设计了新的卷积神经网络结构和新型的损失函数，可以在提高准确率的前提下，快速的进行人脸年龄估计。

Description

基于注意力机制的人脸年龄估计方法及装置

技术领域

本发明涉及人脸识别技术领域，具体涉及一种基于注意力机制的人脸年龄估计方法及装置。

背景技术

人脸年龄估计是指利用设备的摄像头获取人脸图片，并由机器根据获取到的面部图片估计出此人的年龄或者所属年龄段。早期的年龄估计方法来自于Kwon和Lobo，其将年龄简单的划分为三组，分别是孩童，青年和老年人；其后，Lanities提出了 AAM，其在人脸图片上提取造型和外观特征并用于年龄估计；后来，BIF特征被证明在年龄估计数据集上是高效的；近年来，基于CNN的方法由于其优越的性能表现而被广泛应用于年龄估计，如DEX将年龄划分为101个年龄组，每个年龄组作为一个类别；然而，将年龄估计看成是分类问题完全忽略了年龄标签的连续性和模糊性，因为人脸老化是一个持续性的进程，而不是独立的类别；纯回归问题又将其过度简化成线性模型，而人脸年龄一般都是非线性的。基于上述原因，当前的人脸年龄估计方***度较低。

发明内容

发明目的：为克服以上技术问题，本发明提出一种基于注意力机制的人脸年龄估计方法及装置。该方法设计了新的卷积神经网络结构和新型的损失函数，可以在提高准确率的前提下，快速的进行人脸年龄估计。

发明内容；为实现上述目的，本发明提出以下技术方案。

第一方面，本公开实施例提出一种基于注意力机制的人脸年龄估计方法，所述方法通过预先构建的人脸年龄估计模型对输入图像进行人脸年龄估计，所述人脸年龄估计模型包括依次连接的卷积神经网络模块、标签分布学习网络模块和高斯回归网络模块；

所述卷积神经网络模块的构建方法为：以VGG网络为基础模型，去除VGG网络中所有的全连接层，然后在VGG网络的前三个卷积块的最大池化层之后分别增加一个SE模块，在VGG网络的第四个卷积块的卷积层后依次连接通道注意力模块CAM和空间注意力模块SAM，在VGG网络的最后一个卷积块的最大池化层之后增加全局平均池化层，得到所述卷积神经网络模块；

所述标签分布学习网络模块包括一个全连接层、一个Softmax层和KL损失函数层；

所述高斯回归网络模块包括一个回归器和一个高斯损失函数层，所述高斯损失函数为：

；

其中，N表示输入样本图像的总数，m表示输入样本图像的年龄均值，l表示所述输入样本图像的年龄标签向量，P表示相应的概率密度；y表示真实年龄值。

具体的，所述概率密度通过概率密度函数计算得到，所述概率密度函数为：

，/>

表示高斯分布的标准差，/>

表示年龄预测值。

作为本公开实施例所述基于注意力机制的人脸年龄估计方法的一种可选实施方式，所述人脸年龄估计模型的训练步骤包括：

1）将样本图片输入所述卷积神经网络模块进行人脸年龄特征提取；

2）将所述人脸年龄特征输入至所述标签分布学习网络模块，经由所述Softmax 层输出预测年龄分布，然后将所述预测年龄分布与真实年龄分布一起输入至所述KL损失函数层；

3）将所述预测年龄分布输入所述回归器得出预测年龄，然后将所述预测年龄与真实年龄输入所述高斯损失函数层；

4）通过反向传播算法对KL损失函数和高斯损失函数进行联合训练，寻找最优权重；

5）保存所述最优权重，得到训练好的所述人脸年龄估计模型。

作为本公开实施例所述基于注意力机制的人脸年龄估计方法的一种可选实施方式，所述KL损失函数的表达式为：

；

作为本公开实施例所述基于注意力机制的人脸年龄估计方法的一种可选实施方式，所述联合训练的总损失函数为：

其中，

和/>

为权重系数，/>

为L2正则项。

作为本公开实施例所述基于注意力机制的人脸年龄估计方法的一种可选实施方式，所述样本图片的构建方法为：

采用人脸检测器获取每个输入图片的人脸关键点坐标和人脸框坐标，剔除未检测到人脸图片；

根据检测到的所述人脸关键点计算人脸偏移角度，并根据仿射变换矩阵执行人脸对齐操作，最后将对齐之后的所述输入图片按照设定尺寸进行裁剪、填充、添加真实年龄标签，得到所述样本图片。

作为本公开实施例所述基于注意力机制的人脸年龄估计方法的一种可选实施方式，所述通道注意力模块CAM的表达式为：

；

其中，

为sigmoid激活函数，MLP为多层感知机，/>

和/>

为权重系数，

，/>

，F表示输入图像，/>

表示平均池化，/>

表示最大池化，/>

表示最大池化特征，/>

表示平均池化特征。

作为本公开实施例所述基于注意力机制的人脸年龄估计方法的一种可选实施方式，所述空间注意力模块SAM的表达式为：

；

其中，

是空间注意力模块SAM的输入图像，/>

为sigmoid激活函数，/>

表示平均池化，/>

表示最大池化，/>

表示经过平均池化后的特征图像，/>

表示经过最大池化后的特征图像，/>

表示进行卷积核为7x7 的卷积运算。

第二方面，本公开实施例提出一种基于注意力机制的人脸年龄估计装置，包括处理器和存储器；所述存储器存储有计算机程序，而所述处理器执行所述计算机程序，以实现所述的基于注意力机制的人脸年龄估计方法。

第三方面，本公开实施例提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序能够被处理器执行，以实现所述的基于注意力机制的人脸年龄估计方法。

有益效果：与现有技术相比，本发明具有以下优势：

本发明针对现有人脸年龄估计方案的不足，提供一种基于注意力机制的人脸年龄估计方法及装置。

第一方面，本发明提出一种新的卷积神经网络结构，在其中引入SE模块，用于在通道处增加注意力，通过自动学习的方式，使用新的神经网络，获取到特征图的每个通道的重要程度，然后通过这个重要程度去给每个特征值赋予一个权重值，从而让神经网络更加关注某些特征通道，使得所述卷积神经网络模型具有更好的鲁棒性。此外，本发明还引入通道注意力模块CAM和空间注意力模块SAM，可以使得模型具有更好的泛化性能，卷积运算是通过将跨通道信息和空间信息混合在一起来提取信息特征的，而CAM和SAM可以更好的强调通道维度和空间维度上有意义的特征。

第二方面，本发明设计了一种新型的损失函数，可以进一步提高估计结果的准确率。

附图说明

图1为本公开实施例涉及的基于注意力机制的人脸年龄估计模型的结构图；

图2为本公开实施例涉及的仿射变换的流程图；

图3为本公开实施例涉及的通道注意力模块CAM的网络结构图；

图4为本公开实施例涉及的空间注意力模块SAM的网络结构图；

图5为本公开实施例所述的人脸年龄估计模型在Morph2 数据集上的模型表现；

图6为本公开实施例涉及的人脸年龄估计装置结构图。

具体实施方式

下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是，本发明可以以各种形式实施，以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例，并不意图将本发明限制于所说明的具体实施例。

应当理解的是，在技术上可行的情况下，以上针对不同实施例所列举的技术特征可以相互组合，从而形成本发明范围内的另外的实施例。此外，本发明所述的特定示例和实施例是非限制性的，并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。

本公开实施例旨在针对当前人脸年龄估计方案的缺陷，提出一种基于注意力机制的人脸年龄估计方法，该方法包括以下步骤：

S1、数据预处理。

S11、对公开年龄样本数据集中的每张样本图片进行预处理操作，由人脸检测器获取每个样本的人脸关键点坐标和人脸框坐标，同时剔除未检测到人脸的图片样本，5个人脸关键点分别为：左眼，右眼，鼻尖，嘴唇左侧，嘴唇右侧。本实施例中示意性地采用MTCNN(Multi-task Cascaded Convolutional Neural Networks)模型实现人脸检测器功能，MTCNN是一种多任务级联卷积神经网络，用以同时处理人脸检测和人脸关键点定位问题，能够实现人脸检测和5个特征点的标定。

S12、根据检测到的人脸关键点计算人脸偏移角度，并根据仿射变换矩阵执行人脸对齐操作，最后将对齐之后的人脸图片按照设定尺寸进行裁剪、填充，并形成最后的样本图片。请参考图2，图2示意性地给出了仿射变换的具体流程。

以两眼之间的连线方向为横轴，以鼻子至两眼连线的垂直方向为纵轴，构建人脸坐标系。计算出人脸坐标系与参考坐标系之间（图片本身坐标系）的偏移角度，即为人脸偏移角度，记该角度为

。然后采用仿射矩阵执行人脸对齐操作，仿射矩阵公式如下：

；

其中，

表示图片缩放比例，/>

和

是鼻子在参考坐标系中的横、纵坐标。

S2、构建基于注意力机制的人脸年龄估计模型。

请参考图1，图1示意性地给出了一种基于注意力机制的人脸年龄估计模型的结构图，整个模型主要包括三个部分：（a）卷积神经网络模块、(b)标签分布学习网络模块和(c)高斯回归网络模块，下面分别对这三个网络模块的具体结构进行介绍。

（a）卷积神经网络模块：选取VGG网络作为卷积神经网络基础模型，VGG网络由五个卷积块和三层全连接层组成。我们首先去除VGG网络中所有的全连接层，然后在VGG网络的前三个卷积块的最大池化层之后分别增加一个SE模块，在第四个卷积块的卷积层后连接通道注意力模块CAM和空间注意力模块SAM，在最后一个卷积块的最大池化层之后增加全局平均池化层，就得到本公开实施例中的卷积神经网络模块。

SE模块用于在通道处增加注意力，通过自动学习的方式，使用新的神经网络，获取到特征图的每个通道的重要程度，然后通过这个重要程度去给每个特征值赋予一个权重值，从而让神经网络更加关注某些特征通道，使得所述卷积神经网络模型具有更好的鲁棒性。

通道注意力模块CAM的主要功能是为了保持通道维度不变，压缩空间维度，使得模型关注输入图片中有意义的信息。主要是利用特征间的通道关系来生成通道注意力图，由于特征映射中的每个通道都被认为是一个特征检测器，因此通道的注意力集中在输入图像的哪些部分是有意义的。请参考图3，图3示出了通道注意力模块CAM的网络结构图。输入图像F分别经最大池化层和平均池化层处理后得到最大池化特征

和平均池化特征/>

。最大池化特征/>

和平均池化特征 />

经多层感知机处理后相加得到特征图像/>

；

；

其中，

为sigmoid激活函数，MLP为多层感知机，/>

和/>

为权重系数，

。

空间注意力模块SAM的主要功能是保持空间维度不变，压缩通道维度，使得模型更加关注目标的位置信息。主要是利用特征间的空间关系生成空间注意图，其更注重哪个位置是一个信息的部分，这是对通道注意力的补充。请参考图4，图4示出了空间注意力模块SAM的网络结构图。输入图像

依次经过最大池化和平均池化后经过卷积核进行卷积处理，得到特征图像/>

；

；

其中，

是空间注意力模块SAM的输入图像，/>

为sigmoid激活函数，/>

表示平均池化，/>

表示最大池化，/>

表示经过平均池化后的特征图像，/>

表示经过最大池化后的特征图像，/>

表示进行卷积核为7x7 的卷积运算。

本公开实施例采用在通道注意力模块CAM后接空间注意力模块SAM的方式，可以使得模型具有更好的泛化性能，卷积运算是通过将跨通道信息和空间信息混合在一起来提取信息特征的，而CAM和SAM可以更好的强调通道维度和空间维度上有意义的特征。

(b)标签分布学习网络模块：标签分布模块主要包括一个全连接层、一个Softmax层和KL损失函数层。

标签分布学习是处理标签模糊性问题的学习框架，其适用于许多标签模糊性的现实问题，如人脸年龄估计任务。因为即使是人类也不能根据一张人脸图片准确预测出年龄，更多的是预测人脸在某个年龄区间的概率，因此分配给每个人脸图像的年龄概率分布使得误差更小，准确率更高，鲁棒性更好。

本公开实施例中，我们采用标签分布学习网络预测输入图像的人脸年龄，并使用KL散度来描述标签分布学习网络的预测结果分布与真实标签分布之间的差异，并构建基于KL散度的KL损失函数来约束上述差异；

；

其中，

为KL损失函数，/>

为样本的真实年龄标签，/>

为样本的年龄估计值，P表示概率密度函数。

(c)高斯回归网络模块：高斯回归网络模块主要包括一个回归器和一个高斯损失函数层。

标签分布学习网络在对样本子集中的每个样本进行学习时，其softmax层都会输出一个年龄分布。因为标签分布学习网络对每一张图片的估计行为是独立的，因此可以将每个样本对应的估计结果（年龄分布）假设成高斯分布，那么标签分布学习网络每次的估计行为实际上相当于对习得的年龄分布进行一次采样。基于此，我们可以计算出年龄分布的概率密度函数：

；

其中，

表示高斯分布的标准差，/>

表示高斯分布的期望值。将期望/>

近似为ground-truth的预测年龄标签/>

，则年龄分布的概率密度函数公式可以转换为：

其均值m为：

；

其中，l表示所有输入图像的标签，此公式表示将x维的概率和x维的标签对应位置相乘，最后全部相加，得出输入图像的平均年龄。x可以取值为101。

基于m构建高斯损失函数：

因此，联合训练的总损失函数为：

其中，

和/>

为权重系数，/>

为L2正则项。

S3、将步骤S1中预处理后的样本图像添加真实年龄标签后输入人脸年龄估计模型进行训练。具体步骤如下：

S31、对待训练的样本图片进行数据增强操作，主要包括：调整亮度、调整对比度、旋转、翻折、随机裁剪等。

S32、将步骤S31处理后的图片输入卷积神经网络模块进行特征提取，通过注意力机制能够使得模型更加的聚焦于人脸，提取出更加精细化的人脸年龄特征。

S33、将提取出的年龄特征输入至标签分布学习网络模块，经由Softmax层输出预测年龄的概率分布，然后将预测年龄分布与真实年龄标签的年龄分布一起输入至KL损失函数层。

S34、将步骤S33得出的预测年龄分布，输入回归器得出预测年龄

，然后将其与真实标签y输入高斯损失函数层。

S35、通过反向传播算法对KL损失函数和高斯损失函数进行联合训练，寻找最优权重。

S36、保存模型最优权重。

S37、加载训练好的人脸年龄估计模型，并将待检测图片输入模型中，输出模型估计的年龄。

本实施例中，基于高斯分布假设的损失函数等价于预测分布均值和真实年龄的误差平方和，因此优化损失函数实质是优化L2损失函数，即估计分布的平均年龄与真实年龄越相近，则损失函数越小。同时采用带有均值的分布进行优化的方法在训练过程中能更好的贴合于基于真实年龄的分布。

下面通过实验数据对本实施例提出的年龄估计方法的技术效果进行说明。

请参考图5，图5为本公开实施例所述的人脸年龄估计模型在Morph2 数据集上的模型表现，其中实曲线为验证集的MAE，点状线为训练集的MAE，共经过了300个epoch，最终得到的最优MAE为2.502。从图5中可以看出，人脸年龄估计模型经过IMDB-WIKI预训练，并在年龄估计方向主流基准数据集Morph2上的MAE最低为2.5，人脸年龄估计模型效果超过c3ae（2.75）。

此外，我们还在主流基准数据集Morph2上，将本公开实施例所述的人脸年龄估计模型与其他先进模型进行了比较，结果如表1所示。

表1

；

由上述实验结果可知，本公开实施例所述的人脸年龄估计模型的人脸年龄估计结果的MAE低于现有的各种主流人脸年龄估计模型，这表明本公开实施例提出的人脸年龄估计模型均方误差MSE最小，估计结果最精确，这证明了本实施例所提出的技术方案取得了良好的技术效果。

为实现上述基于注意力机制的人脸年龄估计方法，本公开实施例还提出一种人脸年龄估计装置，其结构请参考图6，包括处理器和存储器。存储器存储有计算机程序，而处理器执行所述计算机程序，以实现本公开实施例所述的基于注意力机制的人脸年龄估计方法。

具体来说，存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本申请实施例中的人脸年龄估计模型的训练方法和人脸年龄估计方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，可以实现本公开实施例中的人脸年龄估计方法。存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、硬件芯片或者其任意组合；还可以是数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ApplicationSpecificIntegratedCircut，ASIC)、可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmablegate array，FPGA)，通用阵列逻辑(genericarray logic，GAL)或其任意组合。

本公开实施例还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的人脸年龄估计模型的训练和人脸年龄估计方法。例如，该计算机可读存储介质可以是只读存储器(Read-OnlyMemory ,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CDROM)、磁带、软盘和光数据存储设备等。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括一条或多条程序代码，该程序代码存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，以完成上述实施例中提供的人脸年龄估计模型的训练步骤和人脸年龄估计方法的实现步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。