CN110532970B

CN110532970B - 人脸2d图像的年龄性别属性分析方法、***、设备和介质

Info

Publication number: CN110532970B
Application number: CN201910823680.XA
Authority: CN
Inventors: 张帅
Original assignee: Xiamen Ruiwei Information Technology Co ltd
Current assignee: Xiamen Ruiwei Information Technology Co ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2022-06-24
Anticipated expiration: 2039-09-02
Also published as: CN110532970A

Abstract

本发明公开了一种人脸2D图像的年龄性别属性分析方法、***和计算机设备，方法包括：获取需要检测的人脸2D图片；通过训练好的第一神经网络模型对单张人脸2D图片进行人脸检测，获取人脸框位置和面部特征点位置；根据人脸框位置和面部特征点位置进行图片矫正和截取，获得经过矫正标准化后的人脸2D图片；通过训练好的第二神经网络模型对矫正标准化后的人脸2D图片进行年龄性别属性预测，获得原始预测值；根据所述原始预测值以及年龄性别属性选择策略来确定人脸的年龄性别属性，输出预测的年龄及性别；将预测的年龄性别结果输出到后台并记录到数据库内，用于后续的数据分析。本发明方法能快速准确的检测摄像头内人脸的年龄性别属性信息。

Description

人脸2D图像的年龄性别属性分析方法、***、设备和介质

技术领域

本发明涉及基于深度学习方法的图像处理技术领域，具体涉及一种基于2D人脸图片的年龄性别属性分析方法、***和计算机设备。

技术背景

当我们行走在大街上或者各种商场店铺超市内，如果留心关注，会发现各式各样的摄像头遍布在我们的日常生活中，这其中的大部分的摄像头都是用来进行数据记录且具有存储功能，在某些情况下(案件追踪，店面监控等)调取监控数据进行历史回溯分析，这些摄像头每天都会产生大量的数据，但是这些数据绝大部分都是用作回溯作用，数据并没有得到充分的利用，例如在零售商铺场景内的摄像头，店主虽然有摄像头记录的历史记录，但是并没有利用该数据来分析入店顾客的年龄和性别分布，没有数据支撑，也就很难进行有针对性的商品布置优化。为了解决上述类似场景的实际问题，我们发明了一种基于2D人脸照片的年龄性别属性分析方法。

公开日为20190607，公开号为CN109858388A的中国发明公开了一种智慧旅游管理***，包括：无人机航拍游客分布***、景区人脸识别***、景区入口人流预测***、景区基础信息数据***、酒店数据统计***、云端数据管理平台和移动终端；其中景区人脸识别***是利用人脸识别技术对游客的年龄阶段及性别进行识别，其包括如下步骤：

首先，建立人脸数据库，数据库中人脸图像包括来自不同年龄、不同表情的照片，照片背景与景区入口摄像头拍摄的照片背景一致；

然后，按照性别人工整理数据库，训练样本分为男性图像集与女性图像集，数据库命名是按英文首字母缩写，第一层：对性别初次划分；第二层：在男性或女性性别层中划分出青年YM、中年MM、老年OM；第三层划分年龄范围，第四层划分年龄间距更小的数据库，“MM-i-13”解释为第i位中年男子附属于第1数据库中的第3子数据库；第五层年龄估算；

最后，采用平均年龄估计法age＝Li/Nij，其中，Li为数据库年龄段，Nij表示为子数据库训练的总张数，图片分成每人每岁的多张照片，再单独做训练；

所述景区人脸识别***的训练模型如下：

首先，在人脸数据库上进行人脸识别预训练得到深度学习人脸模型，然后使用该模型在人脸属性数据集上对其头发、眼睛、鼻子、嘴巴、胡子的特征进行微调训练，得到人脸属性模型，并将网络的各全连接层特征连接起来作为人脸特征向量，最后使用随机森林分类器在数据集上训练和测试；

然后，将年龄阶段分为5-15岁，15-25岁，25-50岁，50岁以上四个年龄段类别；云端数据管理平台将所述景区人脸识别***得出的游客年龄根据四个年龄阶段分类，计算每个年龄段类别的游客人数占比，游客在终端APP上查询景区信息时输入自己的年龄和性别，***向游客推送适合游客年龄阶段和性别的景区数据。但该发明只能预测年龄段，而不能预测具体的年龄值，应用场景范围单一，而且其深度学***均的方法，结果不准确。

发明内容

本发明要解决的技术问题，在于提供一种人脸2D图像的年龄性别属性分析方法、***、设备和介质，能够快速准确的针对人脸图像分析出其年龄性别，统计分析各种场景下摄像头内的年龄和性别信息。

第一方面，本发明的方法是这样实现的：一种人脸2D图像的年龄性别属性分析方法，包括：

步骤S1、获取需要检测的人脸2D图片；

步骤S2、通过训练好的第一神经网络模型对单张人脸2D图片进行人脸检测，获取人脸框位置和面部特征点位置；根据人脸框位置和面部特征点位置进行图片矫正和截取，获得经过矫正标准化后的人脸2D图片；

步骤S3、通过训练好的第二神经网络模型对矫正标准化后的人脸2D图片进行年龄性别属性预测，获得原始预测值；

步骤S4、根据所述原始预测值以及年龄性别属性选择策略来确定人脸的年龄性别属性，输出预测的年龄及性别；

步骤S5、将预测的年龄性别结果输出到后台并记录到数据库内，用于后续的数据分析。

第二方面，本发明的***是这样实现的：一种人脸2D图像的年龄性别属性分析***，包括：

获取数据模块，用于获取需要检测的人脸2D图片；

第一神经网络模型，用于对单张人脸2D图片进行人脸检测，获取人脸框位置和面部特征点位置；根据人脸框位置和面部特征点位置进行图片矫正和截取，获得经过矫正标准化后的人脸2D图片；

第二神经网络模型，用于对矫正标准化后的人脸2D图片进行年龄性别属性预测，获得原始预测值；

预测模块，用于根据所述原始预测值以及年龄性别属性选择策略来确定人脸的年龄性别属性，输出预测的年龄及性别；

结果输出模块，用于将预测的年龄性别结果输出到后台并记录到数据库内，用于后续的数据分析。

第三方面，本发明的计算机设备是这样实现的：一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现如上述本发明的方法。

第四方面，本发明的介质是这样实现的：一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上述本发明的方法。

与现有技术相比，本发明的有益效果如下：

(1)本发明一种基于2D人脸照片的年龄性别属性分析方法、***和计算机设备，通过人脸检测神经网络模型能够快速检测到图片中的人脸框和面部特征点，并输出人脸框位置和面部特征点位置；对人脸图片进行校正和扩增后截取矫正标准化的人脸图片。

(2)本发明一种基于2D人脸照片的年龄性别属性分析方法、***和计算机设备，能快速准确的检测摄像头内人脸的年龄性别属性信息，以帮助店主能够准确的掌握店内顾客的年龄和性别分布，进而可以利用分析后的数据做出有效的策略来提高营业额。

(3)本发明预测的年龄范围在[0-90]岁之间，数据获取后会经过模型预测后可得到非常精准的表面年龄，最终预测的结果是年龄值和性别，而非年龄段和性别。

(4)本发明在数据的源自于真实使用场景，采用多人标注加权求平均的方法让结果更加准确，经过人脸检测后进行统一的矫正和剪切进行标准化，并且年龄性别预测模型是经过阅读大量相关论文后确定基础模型并进行设计特征处理分支结构，并根据年龄性别预测模型输出结果经过后处理流程得到精准的年龄值和性别。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明基于2D人脸照片的年龄性别属性分析方法在真实场景的使用流程图；

图2为本发明实施例的人脸检测神经网络模型结构图；其中2(a)为人脸检测模型的P-Net网络结构图；2(b)为人脸检测模型的R-Net网络结构图；2(c)为人脸检测模型的O-Net网络结构图；

图3为本发明***的架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步的详细描述。

一方面，本发明提供了一种人脸2D图像的年龄性别属性分析方法，通过使用深度学习的人脸检测算法、人脸年龄性别分析算法对视频进行分析，能够满足一些需要判断人脸年龄性别的需求场景。能有效快速准确的检测视频或/和图片内人脸位置及特征点并预测出其人脸的年龄性别属性，以帮助一些对人脸年龄性别属性有要求的项目或者场景进行人脸图片的年龄性别属性分析，进而可以更好的分析和利用相关数据。

如图1所示，本发明方法包括：

步骤S1、获取需要检测的人脸2D图片；

所述步骤S2具体包括：

步骤S21，通过训练好的第一神经网络模型对单张图片进行人脸框检测，获取人脸框位置和面部特征点位置；其中，人脸框位置包括人脸框的左上角的坐标和人脸框右下角的坐标；面部特征点包括左眼瞳孔、右眼瞳孔、鼻尖、嘴巴最左点和嘴巴最右点；面部特征点位置包括五个面部特征点的坐标；

步骤S22，根据左眼瞳孔和右眼瞳孔的位置，计算双瞳孔的连线与水平线的夹角；将双瞳孔连线的中点，与嘴巴最左点和嘴巴最右点两点连线的中点进行连接作为纵线，对纵线从上到下取线段的预设值作为图像的中心点；以中心点为中心，逆向旋转夹角的度数，得到双瞳水平的照片；

步骤S23，根据人脸框位置进行预设比例的扩增，截取扩增后的人脸框中的图片，获得矫正标准化的人脸图片。

另一方面，如图3所示，本发明还提供了一种人脸2D图像的年龄性别属性分析***，包括：

获取数据模块，用于获取需要检测的人脸2D图片；

所述第一神经网络模型具体用于：

对单张图片进行人脸框检测，获取人脸框位置和面部特征点位置；其中，人脸框位置包括人脸框的左上角的坐标和人脸框右下角的坐标；面部特征点包括左眼瞳孔、右眼瞳孔、鼻尖、嘴巴最左点和嘴巴最右点；面部特征点位置包括上述五个面部特征点的坐标；

根据左眼瞳孔和右眼瞳孔的位置，计算双瞳孔的连线与水平线的夹角；将双瞳孔连线的中点，与嘴巴最左点和嘴巴最右点两点连线的中点进行连接作为纵线，对纵线从上到下去线段的预设值作为图像的中心点；以中心点为中心，逆向旋转夹角的度数，得到双瞳水平的照片；

根据人脸框位置进行预设比例的扩增，截取扩增后的人脸框中的图片，获得矫正标准化的人脸图片。

再一方面，本发明还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明所述人脸2D图像的年龄性别属性分析方法。

又一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现本发明所述人脸2D图像的年龄性别属性分析方法。

实现本发明方案的具体步骤如下：

一、神经网络模型训练

训练数据主要包含两部分：公开数据集和非公开数据集，首先我们收集了网上公开数据集IMBD-WIKI，用作预训练，同时收集了真实场景摄像头收集到的真实场景的人脸数据，用作优化模型提高其在真实场景下的预测的准确度，因为神经网络模型的特点是在相同场景下的数据表现效果会很好，但是在不同场景下会有较大的效果损失。

1、第一神经网络的训练

首先通过采集各种人物在各种场景下摄像头内的图片和视频，然后采用外接矩形框人工标定出人脸区域及面部五个特征点(分别是左眼瞳孔、右眼瞳孔、鼻尖、左边嘴角和右边嘴角)，将标定好的数据及相对应的标签送入第一神经网络中进行训练。在具体的实施例中，第一神经网络模型采用MTCCN人脸检测(Multi-task Cascaded ConvolutionalNetworks，多任务级联卷积网络)模型，该人脸检测模型是由P-Net(Proposal Network)、R-Net(Refine Network)和O-Net(Output Network)这三个网络结构组成，则所述获取人脸框位置和面部特征点位置包括三个阶段：

(1)由所述P-Net网络获得人脸区域的候选窗口，和边界框的回归向量，并用该边界框的回归向量做回归，对所述候选窗口进行校准，然后通过非极大值抑制来合并高度重叠的候选框，输出初始的人脸框预测结果和五个面部特征点；

(2)由所述R-Net网络通过边界框回归和非极大值抑制去掉那些false-positive的区域，输出较精准的人脸框预测结果和五个面部特征点；

(3)由所述0-Net网络通过边界框回归和非极大值抑制进一步去掉那些false-positive的区域，输出更为精准的人脸框预测结果和五个面部特征点。

如下分别详细介绍一下这三个网络：

P-Net网络：网络结构如图2的(a)所示，采用12pixel×12pixel×3channel作为网络输入，经过3×3的卷积网络-＞MaxPooling层-＞3×3的卷积网络-＞3×3的卷积网络-＞3×3的卷积网络后得到1×1×32的输出结果。

R-Net网络：网络结构如图2的(b)所示，主要是通过边界框回归和NMS来去掉那些false-positive(网络预测为人脸区域但是事实上并不是)的区域。只是由于该网络结构和P-Net网络结构有差异，输入改成24pixel×24pixel×3channel，并且多了一个全连接层，所以会取得更好的抑制false-positive的作用。

O-Net网络：网络结构如图2的(c)所示，输入进一步扩大到48pixel×48pixel×3channel所以输入的信息会更加精细，并且该层比R-Net层又多了一层卷基层，作用和R-Net层作用一样。但是该层对人脸区域进行了更多的监督，作为整个模型的最后阶段，输出的五个面部特征点(landmark，包括左眼瞳孔、右眼瞳孔、鼻尖、嘴巴最左点和嘴巴最右点)相比于前两个阶段要精准很多，三个小网络结构都输出了面部五个特征点坐标，但是由于R-Net和P-Net网络输入太小，面部特征点的信息很少，所以在前两个阶段的人脸面部特征点回归所产生的损失函数的权重系数设置为比较小的0.5，而在最后阶段的O-Net网络产生的人脸面部特征点损失函数采用的权重比较大为1.0，因为面部特征点的预测在O-Net阶段输出的结果最为准确，所以实践中选择在最后阶段O-Net网络输出的时候作为面部特征点预测结果，O-Net的网络输入也是这三个小网络里面最大，有利于更准确提取面部特征。

MCCN人脸检测模型的人脸检测特征描述的损失函数主要包含3个部分：人脸分类损失函数(人脸/非人脸分类器)、人脸框损失函数(边界框回归)和面部特征点损失函数(特征点定位)。

(a)所述人脸分类损失函数表示如下：

其中，i代表第i个样本，p_i代表第i个样本是人脸的概率，范围为在0-1之间，p_i∈[0，1]，

代表第i个样本的真实标签数据，数据范围为0和1，y∈{0，1}；

(b)所述人脸框损失函数表示如下：

其中，

为通过网络预测得到，

为实际的真实的背景坐标，y为人脸框左上角横纵坐标、人脸框的长和人脸框的宽组成的四元组；

(c)所述面部特征点损失函数表示如下：

其中，

为通过网络预测得到，

为实际的真实的面部特征点坐标，y为5个面部特征点坐标组成的十元组。

综上，整个模型训练过程的整体损失函数可以表示为如下：

P-Net R-Net(α_det＝1，α_box＝0.5，α_landmark＝0.5)

0-Net(α_det＝1，α_box＝0.5，α_landmark＝1)

其中，N是预设人脸框的正样本数量；α_det、α_box和α_landmark表示分别表示人脸分类损失、人脸框和面部特征点损失的权重；

表示是否人脸输入；

和

分别表示人脸分类损失函数、人脸框损失函数和面部特征点损失函数。

由上可知，在训练的时候虽然都会计算上述的3个损失函数但是并不是对每个输入这些损失都有意义，因此定义了上述公式用来控制对不同的输入采用不同的损失以及分配不同的权重。可以看出，在P-Net网络和R-Net网络中，面部特征点回归的损失权重α_landmark要小于O-Net部分，这是因为前面2个stage重点在于过滤掉非人脸的bbox。β存在的意义是比如非人脸输入，就只需要计算有意义的人脸分类损失，而不需要计算无意义的边界框和面部特征点的回归损失，因为针对非人脸区域。

经过训练，得到一个可以精准检测人脸框以及面部特征点的深度学习神经网络模型，用于预测视频或/和图片中的人脸框及面部特征点的位置，进而提取出人脸为下一步提取人脸的年龄性别属性分析所用。

2、第二神经网络模型的训练

在具体的实施例中，第二神经网络模型使用LightCNN作为作为特征抽取层，将128pixel×128pixel×3channel作为网络输入，设定输出为512维向量作为抽取的特征，并在其后面接了三个并行的分支：

第一个分支用来进行性别的预测，预测的结果在0-1之间，越接近1则表示模型越确定照片里面是个男性，越接近0则表示模型越确定照片里面是个女性；

第二个分支是用来进行年龄组别分类，将预测的年龄段设置为0-90岁，并平均分为18个分段，所以在第二个分支有18个结果输出，分别代表了各个分段的置信度，在训练及预测的时候会选择置信度最大的分段作为年龄段预测的结果；比如每5岁一个分段，共18个分段，所以在第二个分支有18个结果输出；

第三个分支同样有18个结果输出，分别对应的小范围的调整值，结合第二个分支的结果，可以得到预测的年龄值。

例如第二个分支预测结果为第五个年龄段的置信度最大，对应的年龄范围是[20，25)这个年龄段，中心年龄为22.5岁，第三个分支对应的第五个预测结果为1.2，结合第二分支和第三分支的结果，则最终预测的年龄为22.5+1.2＝23.7≈24岁。

1)、所述第一个分支(性别预测分支)采用均方差MSELoss作为损失函数，其公式如下：

其中，

表示预测的为男性性别属性的概率值，y表示性别属性的真实值，y∈{0，1}，0代表本张图片为女性，1代表本张图片为男性；n代表全部属性的种类数；

2)、所述第二分支(年龄段分类分支)采用交叉熵CELoss作为损失函数，其公式如下：

其中，

表示所有预测的年龄段的概率值，

y表示所有年龄段的真实值，y∈{0，1}，0代表不在这个年龄段，1代表在这个年龄段，对于同一张图片，只会有一个年龄段的标签为1，其他都为0；

表示第i个年龄段的预测概率值；y_i表示第i个年龄段的真实值；n代表所有年龄段的数量；

3)、所述第三分支(段内年龄调整分支)采用均方误差MSE作为Loss损失函数，其公式如下：

其中，

表示预测的对应年龄段调整值的回归值，

y表示所有年龄段的真实值，y∈[-2.5，2.5]；

表示第i个年龄段的调整值的预测回归值；y_i表示第i个年龄段的真实回归值；n代表全部年龄段的数量。

经过大量训练调参，得到一个能够较为精确预测人脸的年龄性别属性的模型，用于人脸的年龄性别属性的分析。

二、在真实场景的使用

如图1所示，在具体的实施例中，使用训练好的第一神经网络模型和第二神经网络模型对真实场景下的数据进行预测年龄和性别，该实施例具体包括：

步骤S1、从视屏中获取需要检测的人脸2D图片；

本发明在实际场景中预测的年龄和性别，可在图片中左上角标注出了预测的性别(男为M，女为F)及其对应的预测值(范围为0-1，越接近0则越像女性，越接近1则越像男性)、以及预测的年龄大小，并且在图片中画出了检测到的人脸框的位置以及五个坐标点(左眼瞳孔，右眼瞳孔，鼻尖，左侧嘴角以及右侧嘴角)的位置。

Claims

1.一种人脸2D图像的年龄性别属性分析方法，其特征在于：包括：

步骤S1、获取需要检测的人脸2D图片；

步骤S3、通过训练好的第二神经网络模型对矫正标准化后的人脸2D图片进行年龄性别属性预测，获得原始预测值；所述第二神经网络模型使用LightCNN作为作为特征抽取层，将128pixel×128pixel×3channel作为网络输入，设定输出为512维向量作为抽取的特征，并在其后面接了三个并行的分支：

第二个分支是用来进行年龄组别分类，将预测的年龄段设置为0-90岁，并平均分为18个分段，所以在第二个分支有18个结果输出，分别代表了各个分段的置信度，在训练及预测的时候会选择置信度最大的分段作为年龄段预测的结果；

第三个分支同样有18个结果输出，分别对应的小范围的调整值，结合第二个分支的结果，可以得到预测的年龄值；所述第三分支采用均方误差MSE作为Loss损失函数，其公式如下：