CN108021908B

CN108021908B - 人脸年龄段识别方法及装置、计算机装置及可读存储介质

Info

Publication number: CN108021908B
Application number: CN201711449997.9A
Authority: CN
Inventors: 杨龙; 游德创
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2020-06-16
Anticipated expiration: 2037-12-27
Also published as: CN108021908A

Abstract

一种人脸年龄段识别方法，包括：(a)获取训练样本集中各个人脸图像的人脸特征；(b)对多层栈式自编码模型进行预训练；(c)对各个人脸图像的人脸特征进行编码，获得各个人脸图像的年龄段特征；(d)对各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；(e)计算各个人脸图像的年龄段特征对各个聚类中心的归属度，调整多层栈式自编码模型的网络参数以优化所述归属度；(f)重复(c)‑(e)，直至满足预设条件；(g)对待处理人脸图像进行编码，得到待处理人脸图像的年龄段特征；(h)对待处理人脸图像进行年龄段识别，得到待处理人脸图像的年龄段类型。本发明还提供一种人脸年龄段识别装置、计算机装置及可读存储介质。本发明可以实现快速高效的人脸年龄段识别。

Description

人脸年龄段识别方法及装置、计算机装置及可读存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种人脸年龄段识别方法及装置、计算机装置和计算机可读存储介质。

背景技术

年龄段识别是生物特征识别领域中新的研究方向，实现年龄段的精确识别有着巨大的应用前景，例如应用于安全控制、视频监控、电子客户关系管理等。

人脸中包含大量的和年龄相关的信息，根据人脸图像可以进行年龄段识别(即人脸年龄段识别)。现有的人脸年龄段识别技术包括卷积神经网络、年龄成长模式子空间等。然而，卷积神经网络需要不断地对图像进行卷积计算，提取年龄段特征的时间比较长，时间效率低下。年龄成长模式子空间需要将所有年龄段的特征拼接成一个大的向量，容易导致维数灾难。

发明内容

鉴于以上内容，有必要提出一种人脸年龄段识别方法及装置、计算机装置和计算机可读存储介质，其可以实现快速高效的人脸年龄段识别。

本申请的第一方面提供一种人脸年龄段识别方法，所述方法包括：

(a)获取训练样本集中各个人脸图像的人脸特征；

(b)利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值；

(c)利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；

(d)对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；

(e)计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；

(f)判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型，否则，若不满足预设训练结束条件，则返回步骤(c)；

(g)利用所述训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到所述待处理人脸图像的年龄段特征；

(h)根据所述待处理人脸图像的年龄段特征对所述待处理人脸图像进行年龄段识别，得到所述待处理人脸图像的年龄段类型。

另一种可能的实现方式中，所述人脸特征包括梯度方向直方图特征和/或局部二值模式特征。

另一种可能的实现方式中，所述多层栈式自编码模型包括三个隐藏层，所述三个隐藏层的神经元个数分别为500、500、1000。

另一种可能的实现方式中，所述对所述多层栈式自编码模型进行预训练包括：

用受限玻尔兹曼机对所述多层栈式自编码模型进行逐层贪婪预训练。

另一种可能的实现方式中，所述优化所述归属度包括：通过优化目标函数L来优化所述归属度，所述目标函数L采用KL散度来衡量，计算公式为：

其中，Q是由q_ij组成的特征空间，P是由p_ij组成的特征空间，

其中，q_ij为所述训练样本集中的人脸图像x_i对聚类中心μ_j的归属度，z_i为人脸图像x_i的年龄段特征，α为t-分布的自由度，j＝1,...,n，j′＝1,...,n，n为聚类中心的个数。

本申请的第二方面提供一种人脸年龄段识别装置，所述装置包括：

获取单元，用于获取训练样本集中各个人脸图像的人脸特征；

预训练单元，用于利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值；

调整单元，用于利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；

判断单元，用于判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型；

编码单元，用于利用所述训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到所述待处理人脸图像的年龄段特征；

识别单元，用于根据所述待处理人脸图像的年龄段特征对所述待处理人脸图像进行年龄段识别，得到所述待处理人脸图像的年龄段类型。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述人脸年龄段识别方法。

本申请的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述人脸年龄段识别方法。

本发明(a)获取训练样本集中各个人脸图像的人脸特征；(b)利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值；(c)利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；(d)对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；(e)计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；(f)判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型，否则，若不满足预设训练结束条件，则返回步骤(c)；(g)利用所述训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到所述待处理人脸图像的年龄段特征；(h)根据所述待处理人脸图像的年龄段特征对所述待处理人脸图像进行年龄段识别，得到所述待处理人脸图像的年龄段类型。

本发明使用了深度学习的栈式自编码结构，能够不断地修正人脸图像的特征表示，最终训练出人脸图像的最优年龄段特征表达。本发明改进了现有技术中的特征提取问题，当前的训练模式不用进行卷积计算，在时间效率上有了极大的改进。并且，本发明获取年龄段特征的编码过程是将人脸特征映射到维度较小的特征空间，避免了维数灾难问题的出现，降低了算法的计算复杂度，加快了训练和识别过程。因此，本发明可以实现快速高效的人脸年龄段识别。

附图说明

图1是本发明实施例一提供的多层栈式自编码模型训练方法的流程图。

图2是本发明实施例二提供的人脸年龄段识别方法的流程图。

图3是本发明实施例三提供的多层栈式自编码模型训练装置的结构图。

图4是本发明实施例四提供的人脸年龄段识别装置的结构图。

图5是本发明实施例五提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明的人脸年龄段识别方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的多层栈式自编码模型训练方法的流程图。所述多层栈式自编码模型训练方法应用于计算机装置。所述多层栈式自编码模型训练方法训练出适合人脸年龄段识别(即根据人脸图像进行年龄段识别)的多层栈式自编码模型，以应用于安全控制、视频监控、电子客户关系管理等场合。

如图1所示，所述多层栈式自编码模型训练方法具体包括以下步骤：

101：获取训练样本集中各个人脸图像的人脸特征。

多层栈式自编码模型的训练样本集包括多个已标注年龄段类型的人脸图像，每个人脸图像为一个训练样本。例如，所述训练样本集包括4000张人脸图像，其中标注为儿童年龄段类型、青少年年龄段类型、中青年年龄段类型、老年年龄段类型的人脸图像各1000张。

可以根据需要划分不同的年龄段类型，根据划分的年龄段类型对训练样本集中的人脸图像进行标注。例如，可以划分儿童、青少年、中青年、老年四个年龄段类型。或者，可以划分幼儿、儿童、成年和老年四个年龄段类型。

在本实施例中，所述人脸特征可以包括如下一种或多种特征：

(A)梯度方向直方图(Histogram of Oriented Gradient，HOG)特征。

HOG特征侧重于图像局部梯度的描述，具有几何不变性和光照不变性。

在一具体实施例中，I为灰度图像，I(x,y)为图像I在像素点(x,y)处的像素值。可以按照如下方法提取图像I的HOG特征：

(A1)图像归一化。可以按如下公式进行图像归一化：

I(x,y)＝I(x,y)^1/2。

(A2)计算图像的梯度。计算公式如下：

G_x(x,y)＝I(x+1,y)-I(x-1,y)，

G_y(x,y)＝I(x,y+1)-I(x,y-1)，

G(x,y)＝(G_x(x,y)²+G_y(x,y)²)^1/2，

α(x,y)＝tan^-1(G_y(x,y)/G_x(x,y))。

其中，G_x(x,y)、G_y(x,y)、G(x,y)、α(x,y)分别表示图像I在像素点(x,y)处的水平方向梯度值、垂直方向梯度值、梯度幅值、梯度方向。

(A3)将图像分成若干个单元格(cell)，为每个单元格构建梯度方向直方图，得到各个单元格的HOG特征向量。

例如，将32×32的图像分为64个单元格，每个单元格有4×4个像素点，将单元格的梯度方向在360度平均分成9个方向块，将梯度方向属于方向块范围的梯度幅值累加，形成9维特征向量。

(A4)把相邻的若干个单元格组合成图像块(block)，在图像块内归一化梯度直方图，得到各个图像块的HOG特征向量。

例如，将相邻的四个单元格组成图像块，对图像块中36维特征向量z＝[z₁,z₂,z₃,...,z₃₆]按照公式v_i＝(z_i-min(z))/(max(z)-min(z))进行归一化，得到图像块的HOG特征向量v＝[v₁,v₂,v₃,...,v₃₆]。

(A5)串联所有图像块的HOG特征向量，得到图像的HOG特征向量。

更多的HOG特征提取方法可以参照现有技术，此处不再赘述。

(B)局部二值模式(Local Binary Pattern，LBP)特征。

LBP特征侧重于图像局部纹理的描述，具有旋转不变性和灰度不变性。

在一具体实施例中，可以按照如下方法提取图像的LBP特征：

(B1)将图像分成若干个单元格。例如，将32×32的图像分为4个单元格，每个单元格有16×16个像素点。

(B2)对单元格中每个像素点，将以其为中心相邻的8个像素点的灰度值与其灰度值进行比较，若大于其灰度值，则该像素点的位置标记为1，否则为0，产生的8位二进制数即为中心像素点的LBP值。

(B3)计算每个单元格内LBP值的统计直方图。

(B4)对每个单元格内LBP值的统计直方图进行归一化，得到每个单元格的LBP特征向量。

(B5)串联所有单元格的LBP特征向量，得到图像的LBP特征向量。

更多的LBP特征提取方法可以参照现有技术，此处不再赘述。

102：利用训练样本集对多层栈式自编码模型进行预训练，得到多层栈式自编码模型的网络参数的初始值。

多层栈式自编码模型是由多层自编码器组成的神经网络，前一层自编码器的输出作为后一层自编码器的输入。在一具体实施例中，所述多层栈式自编码模型可以包括一层输入层、三层隐藏层，三层隐藏层的神经元个数分别为500、500、1000。输入层和三层隐藏层构成堆叠的三个自编码器。

自编码器分为两个部分，一个是编码部分，另一个是解码部分。编码部分对输入数据(如训练样本集中各个人脸图像的人脸特征)进行编码，即对输入数据进行压缩映射，得到编码后的数据，解码部分对编码后的数据进行解码，得到重建的输出数据。自编码器的原理是尝试学习一个函数，使得重建生成的输出数据尽可能地等于输入数据。因此通过限定隐藏神经元的数量，可以使得自编码器去学习输入数据的压缩表示，对于输入数据中隐含着一些特定的结构，自编码器可以发现主要的特征表达。

多层栈式自编码模型的预训练是无监督的学习过程。多层栈式自编码模型预训练的过程中不需要使用对训练样本集中各个人脸图像标注的年龄段类型，而是根据自编码器的原理(使输出尽可能地等于输入)来进行预训练。可以用受限玻尔兹曼机对多层栈式自编码模型进行逐层贪婪预训练，获得多层栈式自编码模型的网络参数的初始值。

103：利用多层栈式自编码模型对训练样本集中各个人脸图像的人脸特征进行编码，获得训练样本集中各个人脸图像的年龄段特征。

如前所述，自编码器分为编码部分和解码部分。利用多层栈式自编码模型对训练样本集中各个人脸图像的人脸特征进行编码，就是利用多层栈式自编码模型的自编码器的编码部分对人脸特征进行编码，获得训练样本集中各个人脸图像的年龄段特征。

利用多层栈式自编码模型对训练样本集中各个人脸图像的人脸特征进行编码，是为了得到更好的特征表达。编码得到的年龄段特征比人脸特征具有更好的年龄段区分性，适合于对人脸图像进行年龄段识别。例如，利用多层栈式自编码模型对训练样本集中各个人脸图像的人脸特征进行编码，可以获得人脸图像中细微的纹理特征及几何特征。

对人脸特征进行编码是将人脸特征映射到维度较小的特征空间，因此避免了维数灾难问题的出现，降低了算法的计算复杂度，加快了训练过程。

104：对训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心。

所述预设数量为划分的不同年龄段类型的数量。例如，划分为儿童年龄段类型、青少年年龄段类型、中青年年龄段类型、老年年龄段类型四个年龄段类型，即所述预设数量为4。

每个聚类中心对应一个年龄段类型。例如，聚类得到4个聚类中心，分别对应儿童年龄段类型、青少年年龄段类型、中青年年龄段类型、老年年龄段类型。

可以使用GMM(Gaussian Mixture Model，高斯混合模型)或K-Means算法对训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心。例如，使用聚类中心数为4的高斯混合模型GMM或K-Means算法对训练样本集中各个人脸图像的年龄段特征进行聚类，得到4个聚类中心。

还可以使用其他的聚类算法对训练样本集中各个人脸图像的年龄段特征进行聚类。例如，使用聚类中心数为4的DBSCAN(Density-Based Spatial Clustering ofApplications with Noise，具有噪声的基于密度的聚类方法)算法对训练样本集中各个人脸图像的年龄段特征进行聚类，得到4个聚类中心。

105：计算训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整多层栈式自编码模型的网络参数以优化所述归属度。

对于训练样本集中每个人脸图像x_i，可以计算x_i对各个聚类中心μ_j,j＝1,...,n的t-分布的归属度，该归属度表示x_i属于μ_j的概率，归属度的计算公式如下：

其中z_i表示人脸图像x_i的年龄段特征，α是t-分布的自由度，α可以取1，j′＝1,...,n，n表示步骤104中聚类中心的个数(例如4)。人脸图像对某个聚类中心的归属度最高，则识别人脸图像所属的年龄段类型为该聚类中心对应的年龄段类型。例如，人脸图像对聚类中心μ₂的归属度最高，则识别人脸图像所属的年龄段类型为聚类中心μ₂对应的年龄段类型。

可以使用一个辅助的目标分布P来优化归属度。优化归属度是指最大化正确的归属度。

可以使用K-L散度作为目标函数来进行优化，具体如下：

其中Q是由q_ij组成的特征空间，P是由p_ij组成的特征空间，

调整多层栈式自编码模型的网络参数，以优化目标函数L，即优化归属度。

106：判断是否满足预设训练结束条件。

可以判断训练样本集中各个人脸图像的年龄段类型的识别准确率是否大于或等于第一阈值(例如99％)，若所述训练样本集中各个人脸图像的年龄段类型的识别准确率大于或等于第一阈值，则判断满足预设训练结束条件。例如，训练样本集包含4000个人脸图像，3980个人脸图像的识别结果正确(即识别的年龄段类型同标注的年龄段类型)，200个人脸图像的识别结果错误(即识别的年龄段类型不同于标注的年龄段类型)，则识别准确率为39800/4000＝99.5％，大于第一阈值99％，因而满足预设训练结束条件。

或者，可以判断训练样本集中各个人脸图像的年龄段类型的识别结果的变化率是否小于或等于第二阈值(例如0.1％)，若训练样本集中各个人脸图像的年龄段类型的识别结果的变化率小于或等于第二阈值，则判断满足预设训练结束条件。训练样本集中各个人脸图像的年龄段类型的识别结果的变化率是指本轮调整相较于上一轮调整识别结果变化的比率。例如，训练样本集包含4000个人脸图像，相较于上一轮调整，本轮调整有2个人脸图像的年龄段类型的识别结果发生变化，则识别结果的变化率为2/4000＝0.05％，小于第二阈值0.1％，因而满足预设训练结束条件。

或者，可以判断调整的轮数是否达到预设轮数(例如400轮)，若调整的轮数达到预设轮数，则判断满足预设训练结束条件。

若不满足预设训练结束条件，例如，若所述训练样本集中各个人脸图像的年龄段类型的识别准确率小于第一阈值，则返回步骤103。

否则，若满足预设训练结束条件，例如，若所述训练样本集中各个人脸图像的年龄段类型的识别准确率大于或等于第一阈值，则得到训练好的多层栈式自编码模型，流程结束。

实施例一的多层栈式自编码模型训练方法(a)获取训练样本集中各个人脸图像的人脸特征；(b)利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值；(c)利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；(d)对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；(e)计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；(f)判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型，否则，若不满足预设训练结束条件，则返回步骤(c)。

现有的人脸年龄段识别使用的模型包括卷积神经网络和年龄成长模式子空间。卷积神经网络需要不断地对图像进行卷积计算，提取年龄段特征的时间比较长，时间效率低下。年龄成长模式子空间需要将所有年龄段的特征拼接成一个大的向量，容易导致维数灾难。实施例一使用了深度学习的栈式自编码结构，能够不断的进行前向修改参数和后向传播，不断地修正人脸图像的特征表示，最终训练出人脸图像的最优年龄段特征表达。实施例一改进了现有技术中的特征提取问题，当前的训练模式不用进行卷积计算，在时间效率上有了极大的改进。并且，实施例一获取年龄段特征的编码过程是将人脸特征映射到维度较小的特征空间，避免了维数灾难问题的出现，降低了算法的计算复杂度，加快了训练过程。因此，实施例一可以快速高效地训练好用于人脸年龄段识别的多层栈式自编码模型。

实施例二

图2是本发明实施例二提供的人脸年龄段识别方法的流程图。所述人脸年龄段识别方法应用于计算机装置。所述人脸年龄段识别方法可以应用于安全控制、视频监控、电子客户关系管理等场合。该方法对多层栈式自编码模型进行训练，利用训练好的多层栈式自编码模型对待处理人脸图像进行人脸年龄段识别。

如图2所示，所述人脸年龄段识别方法具体包括以下步骤：

201：获取多层栈式自编码模型的训练样本集，获取训练样本集中各个人脸图像的人脸特征。

本实施例中步骤201与实施例一中步骤101一致，具体请参阅实施例一中步骤101的相关描述，此处不再赘述。

202：建立多层栈式自编码模型，利用所述训练样本集对所述多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值。

本实施例中步骤202与实施例一中步骤102一致，具体请参阅实施例一中步骤102的相关描述，此处不再赘述。

203：利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得各个人脸图像的年龄段特征。

本实施例中步骤203与实施例一中步骤103一致，具体请参阅实施例一中步骤103的相关描述，此处不再赘述。

204：对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心。

本实施例中步骤204与实施例一中步骤104一致，具体请参阅实施例一中步骤104的相关描述，此处不再赘述。

205：计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度。

本实施例中步骤205与实施例一中步骤105一致，具体请参阅实施例一中步骤105的相关描述，此处不再赘述。

206：判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型，执行步骤207；否则，若不满足预设训练结束条件，则返回步骤203。

本实施例中步骤206与实施例一中步骤106一致，具体请参阅实施例一中步骤106的相关描述，此处不再赘述。

207：利用训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到待处理人脸图像的年龄段特征。

当需要对待处理人脸图像进行年龄段识别时，接收待处理图像，利用训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到所述待处理人脸图像的年龄段特征。

208：根据待处理人脸图像的年龄段特征对待处理人脸图像进行年龄段识别，得到待处理人脸图像的年龄段类型。

例如，根据待处理人脸图像的年龄段特征对待处理人脸图像进行年龄段识别，得到待处理人脸图像的年龄段类型为老年年龄段类型。

可以利用决策树(Decision Tree)对待处理人脸图像进行年龄段识别。决策树又称判定树，是运用于分类的一种树结构。决策树中的每个内部结点代表对某个属性的一次测试，每条边代表一个测试结果，叶结点代表某个类或者类的分布，最上面的结点是根结点。也可以利用其他的分类器对待处理人脸图像进行年龄段识别，例如，利用Softmax分类器对待处理人脸图像进行年龄段识别。

根据待处理人脸图像的年龄段特征对待处理人脸图像进行年龄段识别可以参考现有技术，此处不再赘述。

实施例二的人脸年龄段识别方法(a)获取训练样本集中各个人脸图像的人脸特征；(b)利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值；(c)利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；(d)对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；(e)计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；(f)判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型，否则，若不满足预设训练结束条件，则返回步骤(c)；(g)利用所述训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到所述待处理人脸图像的年龄段特征；(h)根据所述待处理人脸图像的年龄段特征对所述待处理人脸图像进行年龄段识别，得到所述待处理人脸图像的年龄段类型。

现有的人脸年龄段识别技术包括卷积神经网络和年龄成长模式子空间。卷积神经网络需要不断地对图像进行卷积计算，提取年龄段特征的时间比较长，时间效率低下。年龄成长模式子空间需要将所有年龄段的特征拼接成一个大的向量，容易导致维数灾难。实施例二使用了深度学习的栈式自编码结构，能够不断的进行前向修改参数和后向传播，不断地修正人脸图像的特征表示，最终训练出人脸图像的最优年龄段特征表达。实施例二改进了现有技术中的特征提取问题，当前的训练模式不用进行卷积计算，在时间效率上有了极大的改进。并且，实施例二获取年龄段特征的编码过程是将人脸特征映射到维度较小的特征空间，避免了维数灾难问题的出现，降低了算法的计算复杂度，加快了训练和识别过程。因此，实施例二可以实现快速高效的人脸年龄段识别。

实施例三

图3为本发明实施例三提供的多层栈式自编码模型训练装置的结构图。所述多层栈式自编码模型训练装置10应用于计算机装置。所述多层栈式自编码模型训练装置10训练出适合人脸年龄段识别(即根据人脸图像进行年龄段识别)的多层栈式自编码模型，以应用于安全控制、视频监控、电子客户关系管理等场合。

如图3所示，所述多层栈式自编码模型训练装置10可以包括：获取单元301、预训练单元302、调整单元303、判断单元304。

获取单元301，用于获取训练样本集中各个人脸图像的人脸特征。

(A)梯度方向直方图(Histogram of Oriented Gradient，HOG)特征。

(A1)图像归一化。可以按如下公式进行图像归一化：

I(x,y)＝I(x,y)^1/2。

(A2)计算图像的梯度。计算公式如下：

G_x(x,y)＝I(x+1,y)-I(x-1,y)，

G_y(x,y)＝I(x,y+1)-I(x,y-1)，

G(x,y)＝(G_x(x,y)²+G_y(x,y)²)^1/2，

α(x,y)＝tan^-1(G_y(x,y)/G_x(x,y))。

(A5)串联所有图像块的HOG特征向量，得到图像的HOG特征向量。

更多的HOG特征提取方法可以参照现有技术，此处不再赘述。

(B)局部二值模式(Local Binary Pattern，LBP)特征。

在一具体实施例中，可以按照如下方法提取图像的LBP特征：

(B3)计算每个单元格内LBP值的统计直方图。

(B5)串联所有单元格的LBP特征向量，得到图像的LBP特征向量。

更多的LBP特征提取方法可以参照现有技术，此处不再赘述。

预训练单元302，用于利用训练样本集对多层栈式自编码模型进行预训练，得到多层栈式自编码模型的网络参数的初始值。

调整单元303，用于利用多层栈式自编码模型对训练样本集中各个人脸图像的人脸特征进行编码，获得训练样本集中各个人脸图像的年龄段特征。

调整单元303，还用于对训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心。

调整单元303，还用于计算训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整多层栈式自编码模型的网络参数以优化所述归属度。

可以使用K-L散度作为目标函数来进行优化，具体如下：

其中Q是由q_ij组成的特征空间，P是由p_ij组成的特征空间，

判断单元304，用于判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型。

若不满足预设训练结束条件，例如，若所述训练样本集中各个人脸图像的年龄段类型的识别准确率小于第一阈值，则调整单元303继续对网络参数进行调整。

实施例三的多层栈式自编码模型训练装置(a)获取训练样本集中各个人脸图像的人脸特征；(b)利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值；(c)利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；(d)对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；(e)计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；(f)判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型。

现有的人脸年龄段识别使用的模型包括卷积神经网络和年龄成长模式子空间。卷积神经网络需要不断地对图像进行卷积计算，提取年龄段特征的时间比较长，时间效率低下。年龄成长模式子空间需要将所有年龄段的特征拼接成一个大的向量，容易导致维数灾难。实施例三使用了深度学习的栈式自编码结构，能够不断的进行前向修改参数和后向传播，不断地修正人脸图像的特征表示，最终训练出人脸图像的最优年龄段特征表达。实施例三改进了现有技术中的特征提取问题，当前的训练模式不用进行卷积计算，在时间效率上有了极大的改进。并且，实施例三获取年龄段特征的编码过程是将人脸特征映射到维度较小的特征空间，避免了维数灾难问题的出现，降低了算法的计算复杂度，加快了训练过程。因此，实施例三可以快速高效地训练好用于人脸年龄段识别的多层栈式自编码模型。

实施例四

图4为本发明实施例四提供的人脸年龄段识别装置的结构图。所述人脸年龄段识别装置11应用于计算机装置。所述人脸年龄段识别装置11可以应用于安全控制、视频监控、电子客户关系管理等场合。该装置11对多层栈式自编码模型进行训练，利用训练好的多层栈式自编码模型对待处理人脸图像进行人脸年龄段识别。

如图4所示，所述人脸年龄段识别装置11可以包括：获取单元401、预训练单元402、调整单元403、判断单元404、编码单元405、识别单元406。

获取单元401，用于获取训练样本集中各个人脸图像的人脸特征。

本实施例中获取单元401与实施例三中获取单元301一致，具体请参阅实施例三中获取单元301的相关描述，此处不再赘述。

预训练单元402，用于利用训练样本集对多层栈式自编码模型进行预训练，得到多层栈式自编码模型的网络参数的初始值。

本实施例中预训练单元402与实施例三中预训练单元302一致，具体请参阅实施例三中预训练单元302的相关描述，此处不再赘述。

调整单元403，用于利用多层栈式自编码模型对训练样本集中各个人脸图像的人脸特征进行编码，获得训练样本集中各个人脸图像的年龄段特征；对训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；计算训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整多层栈式自编码模型的网络参数以优化所述归属度。

本实施例中调整单元403与实施例三中调整单元303一致，具体请参阅实施例三中调整单元303的相关描述，此处不再赘述。

判断单元404，用于判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型。

本实施例中判断单元404与实施例三中判断单元304一致，具体请参阅实施例三中判断单元304的相关描述，此处不再赘述。

编码单元405，用于利用训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到所述待处理人脸图像的年龄段特征。

当需要对待处理人脸图像进行年龄段识别时，接收待处理图像，利用训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到待处理人脸图像的年龄段特征。

识别单元406，用于根据待处理人脸图像的年龄段特征对待处理人脸图像进行年龄段识别，得到待处理人脸图像的年龄段类型。

例如，根据所述待处理人脸图像的年龄段特征对所述待处理人脸图像进行年龄段识别，得到待处理人脸图像的年龄段类型为老年年龄段类型。

根据待处理人脸图像的年龄段特征对所述待处理人脸图像进行年龄段识别可以参考现有技术，此处不再赘述。

实施例四(a)获取训练样本集中各个人脸图像的人脸特征；(b)利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值；(c)利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的人脸特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；(d)对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；(e)计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；(f)判断是否满足预设训练结束条件，若满足预设训练结束条件，则得到训练好的多层栈式自编码模型；(g)利用所述训练好的多层栈式自编码模型对待处理人脸图像进行编码，得到所述待处理人脸图像的年龄段特征；(h)根据所述待处理人脸图像的年龄段特征对所述待处理人脸图像进行年龄段识别，得到所述待处理人脸图像的年龄段类型。

现有的人脸年龄段识别技术包括卷积神经网络和年龄成长模式子空间。卷积神经网络需要不断地对图像进行卷积计算，提取年龄段特征的时间比较长，时间效率低下。年龄成长模式子空间需要将所有年龄段的特征拼接成一个大的向量，容易导致维数灾难。实施例四使用了深度学习的栈式自编码结构，能够不断的进行前向修改参数和后向传播，不断地修正人脸图像的特征表示，最终训练出人脸图像的最优年龄段特征表达。实施例四改进了现有技术中的特征提取问题，当前的训练模式不用进行卷积计算，在时间效率上有了极大的改进。并且，实施例四获取年龄段特征的编码过程是将人脸特征映射到维度较小的特征空间，避免了维数灾难问题的出现，降低了算法的计算复杂度，加快了训练和识别过程。因此，实施例四可以实现快速高效的人脸年龄段识别。

实施例五

图5为本发明实施例五提供的计算机装置的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40，例如人脸年龄段识别程序。所述处理器30执行所述计算机程序40时实现上述人脸年龄段识别方法实施例中的步骤，例如图1所示的步骤101～106或图2所示的步骤201～208。或者，所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能，例如图3中的单元301～304或图4中的单元401～406。

示例性的，所述计算机程序40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如，所述计算机程序40可以被分割成图3中的获取单元301、预训练单元302、调整单元303、判断单元304或图4中的获取单元401、预训练单元402、调整单元403、判断单元404、编码单元405、识别单元406，各单元具体功能参见实施例三与实施例四。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图4仅仅是计算机装置1的示例，并不构成对计算机装置1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等，所述处理器30是所述计算机装置1的控制中心，利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的计算机装置和方法，可以通过其它的方式实现。例如，以上所描述的计算机装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种人脸年龄段识别方法，其特征在于，所述方法包括：

(a)获取训练样本集中各个人脸图像的人脸特征，所述人脸特征包括梯度方向直方图特征和/或局部二值模式特征；

(b)利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值，所述多层栈式自编码模型包括一个输入层和三个隐藏层，所述一个输入层和三个隐藏层构成堆叠的三个自编码器；

(c)利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的梯度方向直方图特征和/或局部二值模式特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；

2.如权利要求1所述的方法，其特征在于，所述判断是否满足预设训练结束条件包括：

判断训练样本集中各个人脸图像的年龄段类型的识别准确率是否大于或等于预设阈值；或者

判断调整的轮数是否达到预设轮数。

3.如权利要求1所述的方法，其特征在于，所述三个隐藏层的神经元个数分别为500、500、1000。

4.如权利要求1所述的方法，其特征在于，所述对所述多层栈式自编码模型进行预训练包括：

5.如权利要求1-4中任一项所述的方法，其特征在于，所述优化所述归属度包括：通过优化目标函数L来优化所述归属度，所述目标函数L采用KL散度来衡量，计算公式为：

其中，Q是由q_ij组成的特征空间，P是由p_ij组成的特征空间，

6.一种人脸年龄段识别装置，其特征在于，所述装置包括：

获取单元，用于获取训练样本集中各个人脸图像的人脸特征，所述人脸特征包括梯度方向直方图特征和/或局部二值模式特征；

预训练单元，用于利用所述训练样本集对多层栈式自编码模型进行预训练，得到所述多层栈式自编码模型的网络参数的初始值，所述多层栈式自编码模型包括一个输入层和三个隐藏层，所述一个输入层和三个隐藏层构成堆叠的三个自编码器；

调整单元，用于利用所述多层栈式自编码模型对所述训练样本集中各个人脸图像的梯度方向直方图特征和/或局部二值模式特征进行编码，获得所述训练样本集中各个人脸图像的年龄段特征；对所述训练样本集中各个人脸图像的年龄段特征进行聚类，得到预设数量的聚类中心；计算所述训练样本集中各个人脸图像的年龄段特征对各个聚类中心的归属度，调整所述多层栈式自编码模型的网络参数以优化所述归属度；

7.如权利要求6所述的装置，其特征在于，所述判断单元具体用于：

判断调整的轮数是否达到预设轮数。

8.如权利要求6所述的装置，其特征在于，所述三个隐藏层的神经元个数分别为500、500、1000。

9.一种计算机装置，其特征在于：所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任一项所述人脸年龄段识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述人脸年龄段识别方法。