CN111814611B

CN111814611B - 一种嵌入高阶信息的多尺度人脸年龄估计方法及***

Info

Publication number: CN111814611B
Application number: CN202010590398.4A
Authority: CN
Inventors: 钟福金; 王新月
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-09-13
Anticipated expiration: 2040-06-24
Also published as: CN111814611A

Abstract

本发明涉及人脸年龄估计领域，具体涉及一种嵌入高阶信息的多尺度人脸年龄估计方法及***，所述方法包括：输入人脸图像，对其进行预处理；将人脸图像输入到残差网络中进行全局特征提取以构建全局支路；在全局支路的不同位置***用于提取高阶年龄信息的块；将ResNets的第一个卷积层的输出特征图作为长短期记忆网络的输入，获取年龄敏感区域的位置信息，通过剪裁得到局部特征图以构建局部支路；通过反向传播最小化损失函数，对两条支路进行联合优化，对神经网络进行迭代训练；将测试集输入到训练好的神经网络模型中，根据年龄特征计算输出最终预测年龄。本发明的网络模型计算成本较低，精度高，相关产品的适用性较强。

Description

一种嵌入高阶信息的多尺度人脸年龄估计方法及***

技术领域

本发明属于人脸年龄估计领域，特别涉及一种嵌入高阶信息的多尺度人脸年龄估计方法及***。

背景技术

人脸年龄估计的目的是通过人脸图像自动输出生物年龄，广泛应用于基于年龄的人脸检索，精确广告，智能监视，人机交互(HCI)，互联网访问控制等领域，是计算机视觉中的一个活跃的研究课题。由于面部衰老的内部因素(如各种基因)和面部图像的复杂变化(如不同角度的面部姿态和相机视觉)等因素的共同作用，面部衰老过程呈不可控制且个性化，从面部图像准确可靠地自动估计年龄极具挑战性。

经典年龄估计算法由两个连续但相对独立的阶段组成：年龄特征提取和年龄估计。根据特征提取的方式，可将目前的人脸年龄估计方法分为两类：一是基于传统的机器学习的方法；二是基于深度学习的方法。传统机器学习方法主要是通过手动提取年龄特征，然后通过传统分类器分类，从而实现人脸年龄估计。近年来，随着深度学习技术的发展，深度神经网络在图像识别方面取得了最先进的性能，可以实现自动提取面部特征，被广泛应用于年龄估计，并取得了优于传统机器学习方法的成绩。

现有技术中，深度卷积神经网络的设计主要专注于更深或是更宽的网络以增强模型的非线性建模能力，但基于深度学习的人脸年龄估计方法存在不能很好的进行兼顾全局-局部细节的人脸年龄特征表达问题，使得CNN的特征表达能力得到一定程度的限制。因此，如何实现兼顾全局和局部细节的人脸年龄估计特征表达，是未来人脸年龄估计研究方向之一。

发明内容

鉴于上述提到的缺乏兼顾全局-局部的特征表达能力问题，本发明的目的在于提供一种嵌入高阶信息的多尺度人脸年龄估计方法及***，能够较好的进行兼顾全局-局部的年龄特征表达，并通过在网络中***用于提取高阶年龄特征的块，进一步增强了模型的非线性建模能力，可以有效提升人脸年龄估计的准确率，实现高精度的年龄估计。

在本发明的第一方面，本发明提供了一种嵌入高阶信息的多尺度年龄估计方法，包括以下步骤：

一种嵌入高阶信息的多尺度人脸年龄估计方法，包括以下步骤：

输入带有精确年龄标签的人脸图像集合作为数据集，并对人脸图像数据集进行预处理；

将预处理后的人脸图像输入到基线模型ResNet-50中，经过卷积层和最大池化层提取出浅层特征图；

在提取所述浅层特征图后连接有四组顺次相连的残差模块，并构成残差网络，将所述残差网络作为全局支路并提取出人脸图像的全局特征；

在第一组残差模块和第二组残差模块之间嵌入有全局二阶池化块，从而在全局支路中生成高维的全局图像表示；

将所述浅层特征图作为长短期记忆神经网络的输入，构建出局部支路并提取年龄敏感区域的局部特征；

联合优化求解两条支路的交叉熵损失函数，对由全局支路和局部支路所构成的卷积神经网络进行迭代训练至收敛，保存训练好的卷积神经网络模型；

将待测的人脸图像输入到训练好的卷积神经网络模型中，分类器根据年龄特征计算输出最终预测年龄。

在本发明的第二方面，本发明提供了一种嵌入高阶信息的多尺度人脸年龄估计***，包括图像获取模块、数据预处理模块、数据增强模块、神经网络模块以及输出模块；

图像获取模块用于输入数据集，获取人脸图像信息或待测人脸图像；

数据预处理模块用于对人脸图像信息或待测人脸图像进行人脸检测、人脸对齐、剪裁，并对人脸图像作像素归一化处理；

数据增强模块用于按照随机水平翻转、缩放、旋转和平移操作对训练集进行扩展；

神经网络模块用于构建并训练以全局模块和局部模块所形成的卷积神经网络；

优选的，在全局模块和局部模块前还设置有共享模块，所述共享模块用于全局模块和局部模块间的转移；

所述全局模块用于全局特征的提取和学习；

所述局部模块用于局部特征的提取和学习；

输出模块用于输出待测人脸图像的最终预测年龄。

本发明的有益技术效果：

(1)本发明具有速度快、精度高的效果，能够对任意输入的人脸图像进行准确的年龄估计。

(2)本发明提出了一种新颖的兼顾全局-局部信息的多尺度特征提取架构，通过多尺度的特征提取保证了网络能够提取到不同类型(全局、局部细节)的年龄特征，增强了网络的特征表征能力，克服了现有人脸年龄估计方法中存在的缺陷。

(3)本发明在年龄估计网络中嵌入了用以提取高阶年龄信息的GSoP块，高阶模块能沿着通道维或位置维捕获全局二阶统计信息，模型的非线性建模能力较传统的一阶网络更强。

附图说明

图1为本发明实施例提供的一种嵌入高阶信息的多尺度人脸估计方法流程图；

图2为本发明实施例的高阶模块示意图；

图3为本发明实施例的训练流程示意图；

图4为本发明实施例的一种嵌入高阶信息的多尺度网络的结构示意图；

图5为本发明实施例的一个应用效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种嵌入高阶信息的多尺度人脸年龄估计方法，如图1所示，包括：

在一个实施例中，本发明所采用的数据集为Morph II人脸年龄数据集，该数据集包含从受控环境下拍摄的55134幅人脸图像，来自13618人，年龄范围为16～77岁，年龄标注类型为年龄值。为保证训练集充分性和所述测试集的合理性，本发明采用该数据集上广泛使用的S1-S2-S3协议进行实验，具体地，本发明实施例将所包含的所有步骤重复两遍，第一遍采用S1作为训练集，S2+S3作为测试集；第二遍采用S2作为训练集，S1+S3作为测试集。Morph II人脸年龄数据集提供的原始图像具有质量高、噪声小及数量多等优点，便于实验后续的处理。

对Morph II数据集进行预处理：采用多任务卷积神经网络(Multi-task CascadedConvolutional Networks，MTCNN)对原始采集的人脸图像进行人脸检测，通过眼睛中心、鼻尖和上唇坐标进行关键点对齐，并将处理后的图片统一裁剪为256×256大小，对候选训练集进行随机水平翻转，缩放，旋转(比如±5°)和平移一系列数据扩增操作，以增强后续卷积神经网络模型的泛化能力，并对处理后的人脸图像作像素归一化处理，其公式包括：

X_pix＝(X_pix-128)/128

其中，在本发明中，X_pix对应为所输入的人脸图像像素值，具体而言，就是输入至MTCNN网络的人脸图像像素值。

将数据增强后的训练样本图像依次输送至神经网络中，利用反向传播最小化损失函数，进行网络的训练。相比于传统的年龄估计算法，本发明采用基线模型ResNet-50以缩减模型大小且提高模型精度，ResNet-50在原始卷积层外部加入越层连接(shortcut)支路构成基本残差模块，原始的映射H(X)被表示为H(X)＝F(X)+x，其中，F(X)为残差映射，x为输入信号，通过残差模块结构将卷积层对H(X)的学习转化为对F(X)的学习，而对F(X)的学习较H(X)更为简单，这种结构缩减了计算量的同时有效解决了因网络层数过深导致的衰减问题。

将人脸图像输入到ResNet-50网络中，经过卷积层和最大池化层进行浅层特征提取作为接下来各分支网络的输入特征图，具体的，输入通道数为3的特征图首先通过核大小为7×7、通道数为64、步长为2的卷积层进行特征提取，输出特征图的大小为112×112，输出通道变为64，再经过核大小为3×3、步长为2的最大池化层，输出通道变为64，此时的输出特征图作为后续分支的输入特征图。

在提取浅层特征图后连接有四组顺次相连的残差模块，并构成残差网络，将所述残差网络作为全局支路并提取出人脸图像的全局特征；

可以理解的是，本发明的核心改进在于本发明所提出的两个分支网络，即全局支路和局部支路，而对于全局支路，其核心一方面是对基线模型ResNet-50进行了一些改造，在基线模型ResNet-50的卷积层和最大池化层提取出浅层特征图，而在最大池化层后面连接有四组顺次相连的残差模块，构成残差网络，将残差网络作为全局支路提取出人脸图像的全局特征，另一方面是在全局支路中嵌入了提取高阶年龄信息的高阶模块，其而是在局部支路中用浅层特征图作为LSTM的输入，利用LSTM的“门“结构得到局部特征的坐标，进而剪裁得到局部特征图。在本发明中，若未特意强调说明，本发明的残差网络主要指的是在基线模型ResNet-50后面由多组残差模块所构成的结构，当然上述划分指代只是为了更突出体现本发明的改进之处，本领域技术人员可以根据本发明的整体实施例和附图进行适应性理解。

本实施例中将基线模型ResNet-50的卷积层和最大池化层作为共享层，将共享层的输出特征图作为双分支网络的输入，形成由全局支路和局部支路构成的混合网络结构，即本发明最终获得的卷积神经网络模型；

进一步的，全局支路是由残差模块和高阶嵌入模块构成。

更进一步的，构建全局支路过程包括以下步骤：

首先，将共享层的特征图输入到全局网络分支中，全局网络分支由4组残差模块串联而成，各组残差模块的输入通道数分别为64，128，256，512，而每个残差模块又由卷积操作、BN(Batch Normalization，批量标准化)操作和ReLU(Rectified liner unit，修正线性单元)操作构成，这一系列操作作用于全局特征的映射，其对应的输出通道变为256，512，1024，2048；

然后，在第一组残差模块和第二组残差模块之间嵌入有全局二阶池化块，全局二阶池化块的嵌入过程包括：

在残差网络***用于提取高阶信息的块，具体地，如图2所示，输入为h′×w′×c′的三维张量，将三维张量先进行1×1卷积，得到h′×w′×c的三维张量；其中h′，w′分别为输入人脸图像的长度和宽度，c′为通道数，c<c′；

计算通道的相关性，获得一个固定大小的c×c协方差矩阵，对协方差矩阵进行行方向的归一化；

执行协方差矩阵行卷积以及Sigmoid非线性激活两个连续操作，输出为c×1的权向量；

将输入张量的每个通道乘以权重向量中的相应元素，得到新的三维张量h′×w′×c，将其作为后续残差模块的输入；

在残差网络的最后一个残差模块末端***矩阵归一化协方差矩阵生成最终的全局特征表示。

在一个实施例中，第一个残差模块进行卷积操作后，输入是128×128×256的三维张量，分别为输入feature map的长度，宽度和通道数，将三维张量先进行1×1卷积，得到128×128×c的三维张量，值得注意的是，这里可以通过c<c′降低计算成本，本实施例c取256，无压缩参数量操作；之后计算通道相关性，获得一个固定大小的c×c协方差矩阵，并对协方差矩阵进行行方向的归一化；再执行协方差矩阵行卷积以及Sigmoid非线性激活两个连续操作，输出为c×1的权向量；将输入张量的每个通道乘以权重向量中的相应元素，以柔和的方式强调或抑制了各个通道，得到新的代表全局特征的三维张量128×128×c。

最后，在网络末端用二阶的统计方法替换一阶的全局平均池化，***矩阵归一化协方差矩阵作为最终的全局图像表示，从而实现高阶信息的嵌入，具体的，ResNet-50的第四个残差层进行特征映射后，输出为一个7×7×2048的三维张量，将其调整为一个维度为2048，特征数为49的特征矩阵X，然后通过

计算协方差矩阵应用二阶的池化，其中

其中I和1分别是n×n的单位矩阵和全为1的矩阵。

在一个实施例中，基于长短期记忆神经网络(Long Short-term MemoryNetworks，简称LSTM)构建出局部支路并提取年龄敏感区域的局部特征是通过长短期记忆神经网络、局部区域定位模块和剪裁模块构成。

更进一步的，构建局部支路过程包括以下步骤：

首先，将共享层的输出特征图输入到LSTM中，LSTM单元通过“门”的结构来控制单元状态，不仅考虑了当前图像的特征，还利用了其他类似图像的位置信息，对于定位年龄敏感区域更加全面，门的结构分为输入门，遗忘门和输出门。首先，遗忘门从先前状态C_prev的输出中选择信息，输入门和tanh层生成的新候选向量C_in-tan相乘，然后将两个信息源组合起来以进行状态更新，该步骤的目的是放弃不必要的信息并添加新的信息。此外，使用单元状态获取LSTM隐藏层的状态输出，该单元状态保持在-1到1之间，并乘以输出门的输出值。公式包括：

C_next＝forget_gate⊙C_prev+in_gate⊙C_in-tan

h_next＝out_gate⊙tanh(C_next)

C_in-tan＝tan h(W_C[h_prev，x_input]+b_C)

其中，forget_gate表示长短期记忆神经网络LSTM的遗忘门，in_gate表示LSTM的输入门，out_gate表示LSTM的输出门；⊙表示同或符号；C_prev和C_next、h_next分别为LSTM的先前状态、当前状态和隐藏状态；C_in-tan是用于更新单元状态的候选向量，W_C和b_C分别表示权重和偏置，x_input为LSTM的输入；

然后，将S_next输入到定位模块中，定位模块由一个卷积层和S型激活函数组成，S_next作为卷积层的输入，输出为l_1-4＝L(W*S_next)，其中，l_1-4表示一个四维向量，分别表示坐标(x，y)，宽度和高度，在反向传播过程中使用交叉熵损失函数策略来更新LSTM单位模块和定位模块。

最后，LSTM剪裁模块根据位置坐标剪裁得到大小为112×112的局部特征图，将其依次输入到后面的4个残差模块组中进行局部特征学习，其输入通道数分别为64，128，256，512，其对应的输出通道分别为256，512，1024，2048；

将全局分支和局部分支联合进行交叉熵损失求解，通过反向传播最小化损失函数，对两条支路进行联合优化，对神经网络进行迭代训练。

进一步的，所述的损失函数表示如下：

P_final(X_i)＝P_global+0.5P_local

其中，

表示卷积神经网络的损失，P_global表示全局支路中样本i的预测年龄概率，P_local表示全局支路中样本i的预测年龄概率，P_final(X_i)表示样本i的最终预测年龄，n表示人脸图像的训练集总样本数。

使用Adam优化器进行训练调节，经过多轮训练后，神经网络趋于稳定，迭代过程结束，得到训练好的卷积神经网络模型，其中训练过程如图3所示，

获取图像数据集后，对人脸图像进行预处理；

构建出嵌入高阶信息的多尺度网络模型，即本发明所构建出的卷积神经网络模型；

使用数据集训练网络，并进行多次迭代；

将网络输出的结果与该人脸图像所对应的真实年龄值标签进行损失求解，直至损失趋于稳定。

此时，结束训练并输出训练好的卷积神经网络模型。

训练完成的卷积神经网络如图4所示。

使用训练好的神经网络模型时，将包含人脸的图像输入到训练好的神经网络模型中，训练好的神经网络模型根据事先得到的权重参数，计算该样本的预测年龄值。

一种嵌入高阶信息的多尺度人脸年龄估计***，包括图像获取模块、数据预处理模块、数据增强模块、神经网络模块以及输出模块；

图像获取模块用于输入数据集，获取人脸图像信息或待测人脸图像；图像获取模块作为整个***的数据读取入口，用于输入数据集，获取原始图像的像素及年龄标签；

数据增强模块用于按照随机水平翻转、缩放、旋转和平移操作对训练集进行扩展；对有限的训练集进行数据增强，以增加模型的泛化能力，使网络能够应对更加复杂背景下如非受控环境下的人脸估计；

神经网络模块用于构建并训练以全局模块和局部模块所形成的卷积神经网络；神经网络模块用于网络的训练与测试，是整个***的核心模块；

所述全局模块用于全局特征的提取和学习，所述局部模块用于局部特征的提取和学习；

在一个优选实施例中，本发明中可以采用基线模型ResNet-50作为共享层，提供全局模块和局部模块的输入，并可以实现全局模块和局部模块之间的转移。

输出模块用于输出待测人脸图像的年龄估计值。

所述全局模块包括残差模块和高阶模块，其中各残差模块依次连接组成了残差网络，残差网络提取出人脸图像的全局特征，高阶模块将全局二阶池化块从较低层引入到较高层，使得人脸图像的二阶统计信息得以充分利用。

高阶模块用于高阶信息的嵌入，包括：1×1大小的卷积模块，用于整合各个通道的信息，同时缩减输出通道数，以此压缩参数量；协方差矩阵模块，用于计算通道相关性，获得一个固定大小的协方差矩阵，并对协方差矩阵进行行方向的归一化；协方差卷积模块，用于执行协方差矩阵行卷积以及Sigmoid非线性激活两个连续操作。

所述局部模块包括长短期记忆神经网络、局部区域定位模块和剪裁模块，长短期记忆神经网络用于状态的更新，局部区域定位模块用于定位年龄敏感区域的坐标，宽度和高度，剪裁模块根据局域位置信息剪裁得到局部特征图。本发明的一种嵌入高阶信息的多尺度人脸年龄估计***，包括图像获取模块，数据预处理模块，神经网络模块，输出模块。

图5是本发明的人脸年龄估计图，输入最左边的原始人脸图片后，根据人脸关键点检测对人脸进行检测、对齐、剪裁等预处理凸显出人脸图像的年龄特征，尤其是可以对人脸的五官的间距等等进行标识；将处理好的图片输入到嵌入高阶信息的多尺度人脸年龄估计网络中进行特征提取及年龄估计。可以看出提取了人脸图像的全局特征和局部特征后，可以估计出人脸所对应的年龄为22。

可以理解的是，本发明的一种嵌入高阶信息的多尺度人脸年龄估计方法及***的部分特征可以相互引用，例如方法中的全局支路对应***的全局模块等等，本领域常规技术人员可以根据本发明实施例进行相应的理解和实施，本发明不再一一赘述。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种嵌入高阶信息的多尺度人脸年龄估计方法，其特征在于，包括以下步骤：

全局二阶池化块的嵌入过程包括：

在残差网络中***用于提取高阶信息的块，具体地，输入为h′×w′×c′的三维张量，将三维张量先进行1×1卷积，得到h′×w′×c的三维张量；其中h′，w′分别为输入人脸图像的长度和宽度，c′为通道数，c<c′；

在所述残差网络的最后一个残差模块末端***矩阵归一化协方差矩阵生成人脸图像最终的全局特征表示；

基于长短期记忆神经网络构建出局部支路并提取年龄敏感区域的局部特的过程包括：

长短期记忆神经网络通过长期和短期存储机制自动保留与当前人脸图像相似的其他人脸图像的位置信息来实现定位功能，计算公式包括：

C_next＝forget_gate⊙C_ptev+in_gate⊙C_in-tan

h_next＝out_gate⊙tanh(C_next)

C_in-tan＝tanh(W_C[h_prev,x_input]+b_c)

通过状态更新生成对年龄敏感的局部区域框的坐标，宽度和高度，公式包括：

l_1-4＝L(W*S_next)

其中，l_1-4表示一个四维向量，分别表示坐标(x，y),宽度和高度，S_next为LSTM的联合输出，W为总的参数，L(.)表示卷积函数；

根据位置坐标剪裁得到年龄敏感区域的局部特征，将其依次输入到残差网络中的四组残差模块进行局部特征学习；

2.根据权利要求1所述的一种嵌入高阶信息的多尺度人脸年龄估计方法，其特征在于，对人脸图像数据集进行预处理包括采用多任务卷积神经网络进行人脸检测与人脸对齐，并将人脸图像剪裁到相同的尺寸，对人脸图像数据集中的候选训练集进行数据增强操作，根据下述公式对人脸图像作像素归一化：

X_pix＝(X_pix-128)/128

其中，X_pix是输入的人脸图像像素值。

3.根据权利要求1所述的一种嵌入高阶信息的多尺度人脸年龄估计方法，其特征在于，基线模型ResNet-50的卷积层和最大池化层的构造包括人脸图像输入到ResNet-50中，首先经过卷积核大小为7×7，步长为2的卷积层，输出特征图为112×112，再经过最大池化层，输出人脸图像的浅层特征图。

4.根据权利要求1所述的一种嵌入高阶信息的多尺度人脸年龄估计方法，其特征在于，在提取出浅层特征图后，将经过人脸图像特征图依次经过四组不同的残差模块，各残差模块组依次包含数量为3，4，6，3的残差模块，每组的残差模块输出维度各不相同，输出特征图的大小依次为56×56，28×28，14×14，7×7。

5.根据权利要求1所述的一种嵌入高阶信息的多尺度人脸年龄估计方法，其特征在于，所述交叉熵损失函数表示如下：

P_final(X_i)＝P_global+0.5P_local

其中，

6.一种嵌入高阶信息的多尺度人脸年龄估计***，用于实现如权利要求1～5任一所述的一种嵌入高阶信息的多尺度人脸年龄估计方法，其特征在于，包括图像获取模块、数据预处理模块、数据增强模块、神经网络模块以及输出模块；

输出模块用于输出待测人脸图像的最终预测年龄。

7.根据权利要求6所述的一种嵌入高阶信息的多尺度人脸年龄估计***，其特征在于，所述全局模块包括残差模块和高阶模块，残差模块用于提取出人脸图像的全局特征，高阶模块将全局二阶池化块从较低层引入到较高层，使得人脸图像的二阶统计信息得以充分利用。

8.根据权利要求6所述的一种嵌入高阶信息的多尺度人脸年龄估计***，其特征在于，所述局部模块包括长短期记忆神经网络、局部区域定位模块和剪裁模块，长短期记忆神经网络用于状态的更新，局部区域定位模块用于定位年龄敏感区域的坐标，宽度和高度，剪裁模块根据局域位置信息剪裁得到局部特征图。