CN105095833B

CN105095833B - 用于人脸识别的网络构建方法、识别方法及***

Info

Publication number: CN105095833B
Application number: CN201410193260.5A
Authority: CN
Inventors: 李松斌; 蒋雨欣; 刘鹏; 戴琼兴; 邓浩江
Original assignee: Institute of Acoustics CAS
Current assignee: Hengfeng Information Technology Co ltd
Priority date: 2014-05-08
Filing date: 2014-05-08
Publication date: 2019-03-15
Anticipated expiration: 2034-05-08
Also published as: CN105095833A

Abstract

本发明提出了一种用于人脸性别识别或年龄估计的深层网络构建方法，所述方法包含：步骤101)将所有的训练图片划分为若干组；步骤102)基于卷积神经网络提取一组训练图片的高层特征，进而得到由高层特征向量组成的第一矩阵；同时基于人工神经网络提取同一组训练图片的低层和全局特征，进而得到低层特征向量组成的第二矩阵；基于提取的第一矩阵、第二矩阵和定义的判决公式得到一组性别识别或者年龄估计的结果；其中定义的判决公式中的第一权值矩阵w₁、第二权值矩阵w₂、偏置矩阵b和调节权重β的值利用误差反向传播算法更新，获得这些参数的最终取值，完成网络构建。基于网络构建完成时确定的参数的值确定的判决公式进行待识别人脸的年龄和性别的判决。

Description

用于人脸识别的网络构建方法、识别方法及***

技术领域

本发明涉及计算机视觉及深度学习技术领域，特别涉及一种用于人脸识别的网络构建方法、识别方法及***。

背景技术

人脸作为一个对计算机来说识别和分析都非常困难的物体，从20世纪90年代开始就引起了研究者们的广泛关注。而成功有效的人脸分析在智能监控，视频索引以及人口信息统计等领域又存在着巨大的应用前景。人脸分析主要包括人脸的性别识别和人脸的年龄估计，性别分类的准确率和年龄估计的平均绝对误差分别是两者的关键性指标。

目前存在的人脸分析领域的相关研究，都是基于人为“手工”确定特征描述子来表示人脸，结合分类器算法或者回归算法展开。人工选定特征往往耗费大量的前期准备时间，具有主观性，且选取出来的特征往往在某一类数据上表现良好，而扩展到另外的数据时性能会有显著下降，泛化能力较弱。而实际应用时，传统方法的弱泛化能力恰好在质量较低的图片(强光照图片、存在背景干扰图片、歪脸侧脸图片)上性能不佳，满足不了实际应用的需求。目前人脸分析领域的研究受限于这一瓶颈而发展缓慢。另一方面，近年来,基于深度学***，例如人脸检测，行人检测以及人脸识别等；而深度信念网络算法主要在语音识别领域的应用较多，效果较好；深层稀疏自编码算法则更多的被应用于数据降维类的问题。

卷积神经网络本质是一种深层的神经网络结构，其算法的基本原理和特点是网络结构由两种重要的部分组成：卷积处理单元构成的卷积层，以及下采样处理单元构成的下采样层。卷积层和下采样层由神经元组成二维结构，对同样是二维结构的输入图像分别进行卷积处理和下采样处理，然后重复卷积和下采样，直到提取出图像的“理想”(根据研究应用需要确定)特征后，再进行分类或者回归或者检测。当输入图像为N×N大小时，首先连接卷积层C₁，C₁中每一个神经元只与上一层的一块局部接收域(又称作卷积核，filter)相连。假设卷积核的大小为m×m,那么C₁层将会用这m×m的卷积核卷积输入图片所有可能的(N-m+1)×(N-m+1)位置的像素点，生成一张(N-m+1)×(N-m+1)的局部特征图。输入图片每一块m×m大小区域内的所有像素点与C₁层中一个神经元相连，且这m×m个连接采取相同的权值(即权值共享机制)。当使用多个不同权值的连接方式生成多张局部特征图时，C₁层就提取出原图的不同局部特征。接着C₁层的局部特征图连接至下一层的下采样层S₁。假设C₁层有F₁张特征图，那么对应C₁层也有F₁张下采样图，且与C₁层的特征图一一对应。S₁层每一张图中的每一个神经元连接这上一层的一块局部域，且没有重叠，然后计算这块区域内所有值的平均值作为采样层的值。假设C₁层中每张特征图的大小为(N-m+1)×(N-m+1)，局部连接区域大小为n×n,那么S₁层每一张下采样图的大小即为(N-m+1)/n×(N-m+1)/n。这样即实现了对上一层特征图的下采样，降低空间分辨率。然后S₁层再与一个新的卷积层C₂层连接，C₂层与S₂层连接，如此交叉反复，根据实际需要确定卷积层的个数和下采样层的个数。最后网络的输出称作输出层，根据问题的不同可能是输出不同的类别，也可能是输出回归估计的概率。

然而，卷积神经网络的卷积+下采样处理方式虽然能够提取目标物体的高层、抽象的特征，用于某些分类问题时取得了很好的效果，但忽略了一些低层却对分类有效的特征和信息。且卷积+下采样处理提取到的特征图描述的主要是物体的局部特征和局部关联性，缺少对物体整体特征的表现。解决人脸性别识别和人脸年龄估计问题时，恰恰需要对人脸进行全方位、多层次的特征提取和描述，才能够获得准确、全面的信息。

基于上述，在人脸分析领域应用传统的“手工”确定特征描述子的方法，或者直接应用卷积神经网络(包括现有的其它深度学习的方法)，它们性能和最终的效果都不能满足实际应用的需要。本发明应用全新的基于多特征深度学习的方法进行人脸分析，构建训练深层的网络，“自动”地学习、提取到人脸的分层次、全方位的特征，形成一种多特征(高层、低层，抽象、具体)的结构描述表示人脸。这样的多特征结构应用于最终的性别分类和年龄估计时取得了非常好的效果。

在现有技术中尚缺乏此类方法或***。

发明内容

本发明的目的在于，为克服现有人脸分析的技术中的传统方法的性能满足不了实际应用需要的缺陷，从而提出一种用于人脸识别的网络构建方法、及基于该构建网络的人脸识别方法及***。

为了实现上述目的，本发明提供一种用于人脸性别识别或年龄估计的深层网络构建方法，所述方法包含：

步骤101)将所有的训练图片划分为若干组；

步骤102)基于卷积神经网络提取一组训练图片的高层特征，进而得到由高层特征向量组成的第一矩阵；同时基于人工神经网络提取同一组训练图片的低层和全局特征，进而得到低层特征向量组成的第二矩阵；

基于提取的第一矩阵、第二矩阵和如下判决公式得到一组性别识别或者年龄估计的结果：

o＝sigm(w₁*hfo+β×w₂*lfo+b)

其中，hfo表示第一矩阵；lfo表示第二矩阵；针对输入的第一组训练图片上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、偏置矩阵b和调节权重β的初值采用随机初始化方式获得；针对输入的其余各组的训练图片上述公式中的w₁、w₂、b和β的获取方法为：利用误差反向传播算法计算判决结果o与各组训练图片的实际标签矩阵Y的误差函数J(W,b；β)，再通过计算w₁、w₂、b和β对误差函数J(W,b；β)的梯度进而更新参数w₁、w₂、b和β的值；

步骤103)再输入一组训练图片，并对再次输入的训练图片重复执行上述步骤102)，直至所有的分组均被进行了步骤102)的处理，完成一次训练迭代；

步骤104)将所有的训练图片重新划分为若干组，并对重新划分的各组重复执行上述步骤102)和步骤103)，完成再次迭代；

经过若干重新分组和迭代处理，直至最终输出的判决o满足设定的条件时，得到最终的参数w₁、w₂、b和β的值，完成网络构建。

可选的，进行低层特征提取时进一步包含：

步骤102-11)将输入的一组训练图片的每一张训练图片由二维的图结构形式转化为向量的形式，再对向量进行归一化，得到每一张训练图片的原始特征向量；

步骤102-12)将得到的每一张训练图片的原始向量输入人工神经网络，进而得到一组重建特征向量，即得到所述的第二矩阵；其中，所述人工神经网络包含L层，且层与层之间采用全连接方式，每一层的各神经元采用sigmoid函数激活。

可选的，针对一张输入训练图片的性别或年龄识别过程具体包含：

步骤102-21)当提取的一张训练图片的高层特征向量为H_f维的高层特征向量，且低层特征向量为L_f维的特征向量时，构造一个包含“H_f+L_f”个神经元的联合表决层；

步骤102-22)当用于性别识别时，将构造的联合表决层的各个神经元分别与输出层的两个输出神经元相连，且每个输出神经元基于所述判决公式进行性别判别，输出训练图片为男性或女性的概率；当用于年龄估计时，联合表决层的各个神经元与输出层的S个输出神经元相连，其中每个输出神经元对应一岁。

可选的，采用如下公式的误差反向传播算法更新第一权值矩阵w₁的值：

其中，(w₁)_new表示在每一次的误差反向传播时更新后的第一权值矩阵w₁的值,(w₁)_old对应更新前的第一权值矩阵w₁的值，Od表示输出层灵敏度矩阵,该输出层灵敏度矩阵采用误差函数J(W,b；β)结合判决结果o求出；α表示网络的学习率，其中将α的取值初始化为一个较大的值，然后随训练迭代次数的增加而逐渐减小；

通过如下公式更新第二权值矩阵w₂的值：

其中，(w₂)_new表示在每一次的误差反向传播时更新后的第二权值矩阵w₂的值，(w₂)_old对应更新前的第二权值矩阵w₂的值。

可选的，所述β的值在每一次训练迭代中更新方法为：

其中，β_new表示在每一次的误差反向传播时更新后的调节权重β的值，β_old对应更新前的调节权重β的值；

上述公式中求偏导的部分可由如下公式得到：

其中，f′(o)表示对判决结果o求导，“mean(B(:))”表示对矩阵B中所有元素取平均值运算；矩阵B表示由在每一次的误差反向传播时更新后的调节权重β的值构成的矩阵，该矩阵B的行列数与判决结果o的行列数相同。

基于上述构建的深层网络，本发明还提供了一种用于人脸的年龄或性别的识别方法，所述方法包含：

用于基于卷积神经网络提取待识别人脸图片的高层特征；

用于基于人工神经网络提取待识别人脸图片的低层和全局特征；

用于将提取的低层特征和高层特征输入如下的判决公式，进行性别或者年龄判决，输出判决结果：

o＝sigm(w₁*hfo+β×w₂*lfo+b)

其中，上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、β和b为深层网络构建方法确定的值，hfo表示提取的待识别人脸的高层特征向量，lfo表示提取的待识别人脸的低层特征向量，o表示性别或年龄的判决结果。

采用如下步骤提取低层特征：

用于将输入的待识别的人脸图片进行扁平化处理并归一化后，得到人脸的原始特征向量；

用于将原始特征向量输入人工神经网络，通过多层神经元结构对输入向量进行重建，得到一个L_f维的特征向量作为提取的低层特征向量。

此外，本发明提供了一种用于人脸的年龄或性别的识别***，所述***包含：

高层特征提取模块，用于基于卷积神经网络提取待识别人脸图片的高层特征；

低层特征提取模块，用于基于人工神经网络提取待识别人脸图片的低层和全局特征；

基于神经网络的判决模块，用于将提取的低层特征和高层特征输入如下的判决公式，进行性别或者年龄判决，输出判决结果：

o＝sigm(w₁*hfo+β×w₂*lfo+b)

其中，上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、β和b为完成针对训练图片的若干次迭代后获取(即上述网络构建完成时得到的各参数的最终取值)，hfo表示提取的待识别人脸的高层特征向量，lfo表示提取的待识别人脸的低层特征向量，o表示性别或年龄的判决结果。

可选的，上述低层特征提取模块进一步包含：

扁平化处理模块，用于将输入的待识别的人脸图片进行扁平化处理并归一化后，得到人脸的原始特征向量；

重建特征向量获取模块，用于将原始特征向量输入人工神经网络，通过多层神经元结构对输入向量进行重建，得到一个L_f维的特征向量作为提取的低层特征向量。

可选的，上述判决模块进一步包含：

联合表决层模块，用于融合提取到的高层特征和低层特征，输出一种多特征结构；

输出层模块，用于采用若干输出神经元进行性别判决或年龄判决，所述的各个神经元基于所述判决公式进行判决。

与传统的“手工”确定特征描述子的方法相比，本发明的技术优势在于：

本发明提供的深层网络能够“自动”学习人脸的特征，并且学习到的特征具有分层结构，这样的特征对数据本身有着更本质的刻画，所以最终使用这样的特征进行分类和回归估计时的效果也更好。进一步，与现有的深度学习的方法相比，本发明的深层网络不仅能学习到人脸的高层抽象特征，同时学习了人脸的低层全局特征，结合两种全方位、多层次的描述表示人脸，这样最终的分类和回归估计时，本发明的性能比只提取了单独的高层特征的现有深度学习的方法要更好。本发明这种基于多特征的深度学习的方法在应用于人脸分析领域时，不仅具有极强的学习能力，还有极强的泛化能力。在测试公共数据集的高质量标准人脸图片，质量较低的网络人脸图片以及监控设备采集的实际人脸图片时，都取得了超过现有技术的性能。故本发明能够满足实际人脸分析应用的需要。

附图说明

图1为本发明提供的人脸性别识别流程图；

图2为本发明提供的人脸年龄估计流程图；

图3为本发明实施实例提供的人脸分析***的结构示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

本发明给出了一种基于多特征深度学习的人脸分析方法，包括：

步骤1)、对图片进行人脸检测和预处理。

步骤2)、对步骤1)得到的人脸图片进行人脸分析，分别输入到人脸性别识别深层网络和人脸年龄估计深层网络。

步骤3)、人脸性别识别深层网络输出预测的人脸图片的性别，男或女；人脸年龄估计深层网络输出估计的人脸图片的年龄整数值，多少岁。

一、人脸性别识别网络的构建：

上述技术方案中，所述的步骤2)提供了一种人脸性别识别方法，如图1所示，即一种用于人脸性别识别的深层网络***，包括：

步骤2-1)以步骤1)中得到的人脸图片作为网络的输入，网络的输出为图片中人的性别预测值(男或女)。网络主要由4部分功能模块组成，包括高层特征提取模块，低层特征提取模块，融合特征联合判决输出模块以及参数训练模块。

上述方案中，所述步骤2-1)具体包括如下步骤：

步骤2-1-1)、高层特征提取：直接采用现有深度学习方法中的卷积神经网络的卷积层和下采样层结构实现对输入训练图片的高层特征提取。在具体实施时，采用3层卷积层C₁，C₂和C₃，以及两层下采样层S₁，S₂的组合，层与层之间全连接。

步骤2-1-2)、低层特征提取：与高层特征提取模块同步对输入训练图像进行处理。

首先，将输入的人脸的训练图片由二维的图结构形式转化为向量的形式(称为扁平化处理，flat操作)。对输入图片进行flat操作后再对得到的向量进行归一化，得到人脸的原始特征向量。

然后，将原始特征向量连接到重建网络以获得重建特征向量。重建网络基于人工神经网络原理搭建，共L层。每一层的神经元输出即可看作是特征向量，下一层的神经元对上一层输出的向量进行重新编码，进行重新表示和描述后再输出，层与层之间采取全连接的方式，每一个神经元采用sigmoid函数进行激活。原始特征向量首先连接至重建网络的H₁层，H₁层含有h₁个神经单元，假设输入图片大小为N×N,那么人脸原始特征向量为N×N维，经过H₁层后变为h₁维特征向量。然后接着连接至H₂层，H₂层含有h₂个神经单元，那么特征向量进一步变为h₂维。以此类推，根据实际需要，最后连接至H_n层，得到一个h_n维的特征向量。层与层之间的连接用数学公式表达为：

a^l+1＝sigm(W^l·a^l+b^l) (1)

其中“sigm()”表示sigmoid函数的矩阵形式(即对矩阵中每一个元素进行sigmoid函数激活)，a^l+1及a^l分别表示第(l+1)层和第l层的输出的矩阵形式(此处即为特征向量)，W^l为连接第(l+1)层和第l层之间神经元的权值矩阵，b^l表示第l层的偏置矩阵。

这个h_n维的特征向量即是重建网络的输出，也即重建特征向量。重建特征向量剔除了人脸原始特征向量中对性别分类无效的冗余信息，减少了部分噪声干扰，能够较好的刻画人脸的低层和全局特征。

步骤2-1-3)、联合判决输出：联合提取到的高层特征与低层特征一起进行最终的性别判决，输出性别预测值(男或女)。

高层特征提取部分得到的高层特征图进行flat操作后转化为向量形式，与低层特征提取得到的重建特征向量连接在一起构成联合表决层，联合表决层仍然基于人工神经网络原理与上一层相连。假设高层特征提取最后得到了G张q×q大小的特征图，那么转化为向量后可得到一个G×q×q维高层特征向量；重建特征向量为h_n维；那么联合表决层中即含有(G×q×q+h_n)个神经元，对高层特征向量和重建特征向量进行融合，形成一种多特征结构形式的向量。联合表决层的输出即是我们整个网络提取到的多特征结构的(G×q×q+h_n)维特征向量。

联合表决层再全连接到最终的输出神经元，输出神经元有两个(男女两类)，输出的是最终结果某一类的概率p_i，输出神经元采用sigmoid函数激活，那么每一类的概率可表示为：

其中表示联合表决层第k个神经元的输出，表示联合表决层第i个神经元与输出层第k个神经元的连接权值，为输出层对应偏置。

因为整个网络的每次输入多张训练图片(参数训练部分会有相应说明)，故本发明定义的网络的判决输出结果的矩阵形式为：

o＝sigm(w₁*hfo+w₂*lfo+b) (3)

其中，o表示网络输出的判决结果(每一列表示一个样本的判决结果)；w₁表示输出层与高层特征提取部分的输出相连的权值矩阵，即第一权值矩阵；“*”表示矩阵乘法，hfo表示高层特征提取部分的输出(每一列表示一个样本的输出)；w₂表示输出层与低层特征提取部分的输出相连的权值矩阵，即第二权值矩阵；lfo表示低层特征提取部分的输出矩阵(每一列表示一个样本的输出)；b表示输出层偏置矩阵。

考虑到两种特征对最后结果的影响，在表示低层特征的重建特征向量中加入一个调节权重β，0≤β≤1，进行调节，低层特征对最终结果的判定的影响得到一定程度的抑制。则最终网络输出的判决结果为：

o＝sigm(w₁*hfo+β×w₂*lfo+b) (4)

步骤2-1-4)、采用训练方法获取参数w₁、w₂、b和β的最终取值：人工神经网络，深度学习的基本理论分为网络的设计和网络中参数的训练两部分。当设计好网络的结构后(即获得上述高层特征、低层特征、及判决公式)，需要训练确定网络中每一个参数的值(即确定w₁、w₂、b和β的值，以及卷积层和下采样层中的参数的值，人工神经网络中L层中的各神经元的参数的值)，然后才能使用该网络对待识别的人脸图片进行实际的分类和回归等应用。

所述训练方法采取误差反向传播算法，同时考虑到深度学习需要大量训练样本支持，为减少计算负荷，结合随机梯度下降策略进行训练。将所有T张训练图片随机划分为若干组，且每B张一组(B要能够整除T)，共“T/B”组。按顺序将所有“T/B”组输入上述设计好的网络中，进而提取高层特征低层特征并进行性别判决后，完成一次训练迭代；然后重新将所有T张训练图片随机划分为若干组，仍然是每B张一组，共“T/B”组。每次都是随机划分，确保每次划分后每一组的图片与上一次都不相同，仍然按顺序将所有“T/B”组输入上述设计好的网络中，进而提取高层特征低层特征并进行性别判决后，完成新的一次训练迭代。总共进行E次训练迭代才能最终获得参数w₁、w₂、b和β的取值。

更新参数w₁、w₂、b的具体过程如下：

首先，随机初始化参数w₁、w₂、b和β的取值，再输入第一组训练图片得到最后的判决结果o，o中每一列表示一个样本的判决输出结果。然后计算出输出层的误差，计算公式如下：

其中，MSE表示判决结果o与实际样本标签(类别，此处即为男女)矩阵Y之间的均方误差，MSE为矩阵表示；Y为输入样本的标签矩阵，如果输入的人脸图片是男性，那么Y就为[10]^T矩阵，若是女性，则为[0 1]^T矩阵；o为网络输出的判决结果，“|| ||₂”表示矩阵之间对应元素求平方差后的矩阵表示。

然后，利用这个误差可以计算出公式(4)中的参数w₁，w₂，b以及β对于最终的误差函数J(W,b；β)的梯度，利用梯度下降原理更新上述参数w₁，w₂，b以及β的值。其中误差函数J(W,b；β)的矩阵形式即为MSE。为此，需计算输出层的灵敏度：

其中，Od表示输出层灵敏度的矩阵形式，表示矩阵之间的点乘(对应元素相乘，维度一致)。其中f′(o)表示对输出函数求导，激活函数采用sigmoid函数，其导数形式为f′(x)＝f(x)(1-f(x))。根据灵敏度采用如下3个公式可进一步求出参数w₁，w₂以及偏置b的值，即对w₁，w₂以及偏置b进行更新：

其中，(w₁)_new表示在每一次的误差反向传播时更新后的第一权值矩阵w₁的值,(w₁)_old对应更新前的第一权值矩阵w₁的值；α表示网络的学习率，本发明采取变学习率策略训练，即α的取值初始化为一个较大的值，然后随训练迭代次数的增加而逐渐减小，保证整个网络的收敛性。

其中，(b)_new表示在每一次的误差反向传播时更新后的偏置矩阵b的值，(b)_old对应更新前的偏置矩阵b的值。

更新参数β的具体过程如下：

由于β是一个实数，采取梯度下降法更新β的更新公式如下：

误差函数对β求偏导的式子可由链式规则进一步化为：

β与矩阵(w₂*lfo)相乘可看作一个与矩阵相同行列数的矩阵A与矩阵(w₂*lfo)点乘，其中A中元素值全都为β。这样，公式(11)最终可化为：

其中“mean(B(:))”表示对矩阵B中所有元素取平均值运算，矩阵B表示由在每一次的误差反向传播时更新后的调节权重β的值构成的矩阵，该矩阵B的行列数与判决结果o的行列数相同。

总之利用误差反向传播算法，可完成公式(4)中的网络参数w₁，w₂，b以及β的更新。整个网络中还包括卷积层中的参数，下采样层中的参数以及L层人工神经网络中的参数需要通过训练确定它们的值。所使用方法仍然是误差反向传播算法。继续将误差MSE向前传播，此时联合表决层一部分与高层特征提取部分相连，一部分与重建网络相连，那么MSE分为两部分误差，分别在这两个模块中继续向前传播。在高层特征提取部分的误差反向传播过程中，直接采用现有深度学习技术中的卷积层和下采样层误差反向传播更新参数的方法，更新卷积层和下采样层中的参数{CS}({CS}表示卷积层和下采样层中所有参数的矩阵集合)的值。在低层特征提取部分的误差反向传播过程中，直接采用现有人工神经网络技术中的误差反向传播更新参数的方法，更新L层人工神经网络中的参数{LN}({LN}表示L层人工神经网络中所有参数的矩阵集合)的值。这样就完成了一组图片的参数训练过程，接着输入第二组图片训练时，以第一组图片确定的网络参数w₁，w₂，b和β的值，以及{CS}和{LN}的值计算判决结果o，然后重复误差反向传播过程，更新网络中w₁，w₂，b和β值，以及{CS}和{LN}的值。以此类推，每一组图片的训练以上一组图片训练后确定的参数的值计算判决结果，然后从输出开始计算误差并反向传播至输入，更新整个网络所有的参数的值。直到“T/B”组训练样本全部输入网络完成训练后，才完成一次训练迭代。

当完成所有E次训练迭代后，此时的网络即可用于实际的性别识别，输入人脸图片，网络就会输出性别的预测值。

二、人脸年龄估计网络的构建：

上述技术方案中，所述的步骤2)提供了一种人脸年龄估计的方法，如图2所示，即一种用于人脸年龄估计的深层网络***，包括：

步骤2-2)以步骤1)中得到的人脸训练图片作为网络的输入，网络的输出为图片中人的年龄估计值(整数)。网络主要由4部分功能模块组成，包括高层特征提取模块，低层特征提取模块，融合特征联合判决输出模块以及参数训练模块。

上述方案中，所述步骤2-1)包括：

步骤2-2-1)、高层特征提取：直接采用现有深度学习方法中的卷积神经网络的卷积层和下采样层结构实现针对训练图片的高层特征提取。在具体实施时，采用3层卷积层C₁，C₂和C₃，以及三层下采样层S₁，S₂和S₃的组合，层与层之间全连接。

步骤2-2-2)、低层特征提取：与高层特征提取模块同步对输入图像进行处理。

首先，将输入的人脸的训练图片由二维的图结构形式转化为向量的形式(称为扁平化处理，flat操作)，再对得到的向量进行归一化，得到人脸原始特征向量。

然后，将原始特征向量连接到重建网络以获得重建特征向量。重建网络基于人工神经网络原理搭建，共L层。每一层的神经元输出即可看作是特征向量，下一层的神经元对上一层输出的向量进行重新编码，进行重新表示和描述后再输出，层与层之间采取全连接的方式，每一个神经元采用sigmoid函数进行激活。人脸原始特征向量首先连接至重建网络的H₁层，H₁层含有h₁个神经单元，假设输入图片大小为N×N,那么人脸原始特征向量为N×N维，经过H₁层后变为h₁维特征向量。然后接着连接至H₂层，H₂层含有h₂个神经单元，那么特征向量进一步变为h₂维。以此类推，根据实际需要，最后连接至H_n层，得到一个h_n维的特征向量。层与层之间的连接的具体计算可由公式(1)得到。

这个h_n维的特征向量即是重建网络的输出，也即重建特征向量。重建特征向量剔除了人脸原始特征向量中对年龄估计无效的冗余信息，减少了部分噪声干扰，能够较好的刻画人脸的低层、全局特征。

步骤2-2-3)、联合表决层和输出：联合提取的高层特征和低层特征进行最终的年龄估计，输出年龄预测值(多少岁)。

将提取得到的高层特征图连接至一个含有M个神经元的全连接层，得到一个M维的高层特征向量。然后高层特征向量与重建特征向量连接在一起构成联合表决层。假设重建特征向量为h_n维，那么两者联合在一起即构成一个含有(M+h_n)个神经元的联合表决层。联合表决层的输出即是我们整个网络提取到的多特征结构的(M+h_n)维特征向量。

联合表决层再全连接到最终的输出神经元。输出神经元有S个(每一个对应一岁)。输出层仍然采用sigmoid函数激活，那么每一类的概率可表示为公式(2)。因为整个网络的每次输入多张图片(参数训练部分会有相应说明)，故本发明定义的网络的输出矩阵形式可表示为公式(3)。

考虑到两种特征对最后结果的影响，在表示低层特征的重建特征向量中加入一个调节权重β，0≤β≤1，进行调节，低层特征对最终结果的判定的影响得到一定程度的抑制。则最终网络输出可由公式(4)得到。

步骤2-2-4)、采用训练方法获取参数w₁、w₂、b和β的最终取值：人工神经网络，深度学习的基本理论分为网络的设计和网络中参数的训练两部分。当设计好网络的结构后(即获得上述高层特征、低层特征、及判决公式)，需要训练确定网络中每一个参数的值(即确定w₁、w₂、b和β的值，以及卷积层和下采样层中的参数的值，人工神经网络中L层中的各神经元的参数的值)，然后才能使用该网络对待识别的人脸图片进行实际的分类和回归等应用。

所述训练方法采取误差反向传播算法，同时考虑到深度学习需要大量训练样本支持，为减少计算负荷，结合随机梯度下降策略进行训练。将所有T张训练图片随机划分为若干组，且每B张一组(B要能够整除T)，共“T/B”组。按顺序将所有“T/B”组输入上述设计好的网络中，进而提取高层特征低层特征并进行性别判决后，完成一次训练迭代；然后重新将所有T张训练图片随机划分为若干组，仍然是每B张一组，共“T/B”组。每次都是随机划分，确保每次划分后每一组的图片与上一次都不相同，仍然按顺序将所有“T/B”组输入上述设计好的网络中，进而提取高层特征低层特征并进行性别判决后，完成新的一次训练迭代。总共进行E次训练迭代才能最终获得参数w₁、w₂、b和β的取值。更新参数w₁、w₂、b的具体过程如下：

首先，随机初始化参数w₁、w₂、b和β的取值，再输入第一组训练图片得到最后的判决结果o，o中每一列表示一个样本的判决输出结果。然后使用公式(5)计算出输出层的误差。需要注意的是，在年龄估计中，公式(5)中的样本标签矩阵Y为S维向量形式，如果输入人脸图片对应的年龄是1岁，那么Y则为[1 0 ... 0]^T；如果年龄是2岁，Y为[0 1 ... 0]^T；如果是S岁，则为[0 0 ... 1]^T。

然后，利用公式(5)得到的误差可以计算出公式(4)中的参数w₁，w₂，b以及β对于最终的误差函数J(W,b；β)的梯度，利用梯度下降原理更新上述参数w₁，w₂，b以及β的值。其中误差函数J(W,b；β)的矩阵形式即为MSE。为此，需计算输出层的灵敏度，可有公式(6)得到。根据灵敏度，采用公式(7)，公式(8)和公式(9)可进一步求出参数w₁，w₂以及偏置b的值，即对w₁，w₂以及偏置b进行更新。

由于β是一个实数，采取梯度下降法更新β时，可利用公式(10)求出更新后的β的值。误差函数对β求偏导的式子可由链式规则进一步通过公式(11)转化。最后，β与矩阵(w₂*lfo)相乘可看作一个与矩阵相同行列数的矩阵A与矩阵(w₂*lfo)点乘，其中A中元素值全都为β。这样，公式(11)最终可化为公式(12)，从而计算出β的更新值。

总之利用误差反向传播算法，可完成公式(4)中的网络参数w₁，w₂，b以及β的更新。整个网络中还包括卷积层中的参数，下采样层中的参数以及L层人工神经网络中的参数需要通过训练确定它们的值，所使用方法仍然是误差反向传播算法。继续将误差MSE向前传播，此时联合表决层一部分与高层特征提取部分相连，一部分与重建网络相连，那么MSE分为两部分误差，分别在这两个模块中继续向前传播。在高层特征提取部分的误差反向传播过程中，直接采用现有深度学习技术中的卷积层和下采样层误差反向传播更新参数的方法，更新卷积层和下采样层中的参数{CS}({CS}表示卷积层和下采样层中所有参数的矩阵集合)的值。在低层特征提取部分的误差反向传播过程中，直接采用现有人工神经网络技术中的误差反向传播更新参数的方法，更新L层人工神经网络中的参数{LN}({LN}表示L层人工神经网络中所有参数的矩阵集合)的值。这样就完成了一组图片的参数训练过程，接着输入第二组图片训练时，以第一组图片确定的网络参数w₁，w₂，b和β的值，以及{CS}和{LN}的值计算判决结果o，然后重复误差反向传播过程，更新网络中w₁，w₂，b和β值，以及{CS}和{LN}的值。以此类推，每一组图片的训练以上一组图片训练后确定的参数的值计算判决结果，然后从输出开始计算误差并反向传播至输入，更新整个网络所有的参数的值。直到“T/B”组训练样本全部输入网络完成训练后，才完成一次训练迭代。

当完成所有E次训练迭代后，此时的网络即可用于实际的年龄估计，输入人脸图片，网络就会输出年龄的估计值。

上述公式(3)、(4)、(7)、(8)、(10)、(12)是本发明提出的新的公式。

三，基于上述构建网络进行人脸年龄估计和性别识别：

当采用上述方法构建得到性别识别网络和年龄估计网络后，将待识别的图片输入已经构建的网络中进行性别识别或年龄估计，具体的识别过程为：

基于卷积神经网络提取待识别人脸图片的高层特征；

基于人工神经网络提取待识别人脸图片的低层和全局特征；

将提取的低层特征和高层特征输入如下的判决公式，进行性别或者年龄判决，输出判决结果：

o＝sigm(w₁*hfo+β×w₂*lfo+b)

低层特征提取进一步包含：

将输入的待识别的人脸图片进行扁平化处理并归一化后，得到人脸的原始特征向量；

将原始特征向量输入人工神经网络，通过多层神经元结构对输入向量进行重建，得到一个L_f维的特征向量作为提取的低层特征向量。

具体的判决过程为：

融合提取到的高层特征和低层特征，输出一种多特征结构；采用若干输出神经元进行性别判决或年龄判决，所述的各个神经元基于所述判决公式进行判决。

本发明还给出了一种基于多特征深度学习的人脸分析方法具体实施的***实例，如图3所示。其中图3中的“人脸检测和图片预处理”直接采用现有技术手段实现，人脸检测基于标注点检测评分结合人脸局部区域验证的方法实现；图片预处理包括彩色图片的灰度化处理，图片大小调整以及图片直方图均衡化处理。经过预处理后***对人脸图片采用如下策略进行识别：

判决模块，用于将提取的低层特征和高层特征输入如下的判决公式，进行性别或者年龄判决，输出判决结果：

o＝sigm(w₁*hfo+β×w₂*lfo+b)

上述低层特征提取模块进一步包含：

上述判决模块进一步包含：

联合表决层模块，用于融合提取到的高层特征和低层特征，输出一种多特征结构；到输出层进行最终的性别或年龄的判决。

总之，本发明提供了一种基于多特征深度学***均绝对误差，同时***具有较强的泛化能力，能在低质量的网络图片和摄像头实际采集的图片上表现出良好的性能。

上述技术方案中的黑体的变量表示矩阵。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于人脸性别识别或年龄估计的深层网络构建方法，所述方法包含：

步骤101)将所有的训练图片划分为若干组；

o＝sigm(w₁*hfo+β×w₂*lfo+b)

其中，hfo表示第一矩阵；lfo表示第二矩阵；针对第一组训练图片上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、偏置矩阵b和调节权重β的初值采用随机初始化方式获得；针对输入的其余各组的训练图片上述公式中的w₁、w₂、b和β的值的获取方法为：利用误差反向传播算法计算判决结果o与各组训练图片的实际标签矩阵Y的误差函数J(W,b；β)，再通过计算w₁、w₂、b和β对误差函数J(W,b；β)的梯度进而更新参数w₁、w₂、b和β的值；

经过若干重新分组和迭代处理，直至最终输出的判决o满足设定的条件时，得到最终的参数w₁、w₂、b和β的值，完成网络构建；

采用如下公式的误差反向传播算法更新第一权值矩阵w₁的值：

其中，(w₁)_new表示在每一次的误差反向传播时更新后的第一权值矩阵w₁的值,(w₁)_old对应更新前的第一权值矩阵w₁的值，Od表示输出层灵敏度矩阵；α表示网络的学习率；

通过如下公式更新第二权值矩阵w₂的值：

2.根据权利要求1所述的用于人脸性别识别或年龄估计的深层网络构建方法，其特征在于，进行低层特征提取时进一步包含：

3.根据权利要求1所述的用于人脸性别识别或年龄估计的深层网络构建方法，其特征在于，所述得到一组性别识别或者年龄估计的结果中针对一张训练图片的性别识别或年龄估计过程具体包含：

4.根据权利要求1所述的用于人脸性别识别或年龄估计的深层网络构建方法，其特征在于，所述β的值在每一次训练迭代中更新方法为：

上述公式中求偏导的部分可由如下公式得到：

其中，f′(o)表示对判决结果o求导，“mean(B(:))”表示对矩阵B中所有元素取平均值运算；矩阵B表示由在每一次的误差反向传播时更新后的调节权重β的值构成的矩阵，且该矩阵B的行列数与判决结果o的行列数相同。

5.一种用于人脸的年龄或性别的识别方法，该方法基于权利要求1-4中任意一条权利要求记载的构建网络最终确定的第一权值矩阵w₁、第二权值矩阵w₂、β和b的值，所述方法包含：

基于卷积神经网络提取待识别人脸图片的高层特征；

基于人工神经网络提取待识别人脸图片的低层和全局特征；

o＝sigm(w₁*hfo+β×w₂*lfo+b)

6.根据权利要求5所述的用于人脸的年龄或性别的识别方法，其特征在于，采用如下步骤提取低层特征：

7.一种用于人脸的年龄或性别的识别***，其特征在于，所述***包含：

o＝sigm(w₁*hfo+β×w₂*lfo+b)

其中，上述公式中的第一权值矩阵w₁、第二权值矩阵w₂、β和b为完成针对训练图片的若干次迭代后获取，hfo表示提取的待识别人脸的高层特征向量，lfo表示提取的待识别人脸的低层特征向量，o表示性别或年龄的判决结果；

通过如下公式更新第二权值矩阵w₂的值：

8.根据权利要求7所述的人脸的年龄或性别的识别***，其特征在于，所述低层特征提取模块进一步包含：

9.根据权利要求7所述的人脸的年龄或性别的识别***，其特征在于，所述判决模块进一步包含：