CN111967382A

CN111967382A - 年龄估计方法、年龄估计模型的训练方法及装置

Info

Publication number: CN111967382A
Application number: CN202010822523.XA
Authority: CN
Inventors: 苏驰; 李凯; 刘弘也; 王育林
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-20

Abstract

本发明提供了一种年龄估计方法、年龄估计模型的训练方法及装置，该方法包括：获取包含有人脸的多帧视频帧，该多帧视频帧具有时序性；将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果，该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果；基于多帧视频帧的输出结果确定人脸的年龄。该方式在对视频中人脸对应的人的年龄进行估计时，可以融合不同时刻的视频帧的特征，使得年龄估计模型提取到富含更加全面的时序特征信息，从而可以提高年龄估计的准确度和稳定性。

Description

年龄估计方法、年龄估计模型的训练方法及装置

技术领域

本发明涉及视频处理技术领域，尤其是涉及一种年龄估计方法、年龄估计模型的训练方法及装置。

背景技术

年龄作为一种重要的人脸属性，在人机交互、智能商务、安全监控和娱乐等领域都有着重要的应用。相关技术中，可以通过训练好的深度学习模型进行年龄估计；该深度学习模型通常是基于单张人脸图像进行训练得到的，可以准确估计出人脸图像中人的年龄。但是随着视频技术的发展，需要对视频中的人进行年龄估计，由于视频中同一个人脸不同帧上的人脸图像差别较大，导致该深度学习模型应用于视频上很难得到稳定且准确的年龄估计结果。

发明内容

本发明的目的在于提供一种年龄估计方法、年龄估计模型的训练方法及装置，以提高估计视频中人的年龄的准确度和稳定性。

第一方面，本发明实施例提供一种年龄估计方法，该方法包括：获取包含有人脸的多帧视频帧，其中，多帧视频帧具有时序性，多帧视频帧中包含的人脸属于同一个人；将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果，该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果；基于多帧视频帧的输出结果确定人脸的年龄。

在可选的实施方式中，上述年龄估计模型包括：特征提取网络、递归神经网络和年龄估计网络；上述将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果的步骤，包括：通过特征提取网络提取多帧视频帧中每帧视频帧的特征数据；通过递归神经网络对多帧视频帧中的第一帧视频帧的特征数据与该第一帧视频帧的特征数据进行融合，得到第一帧视频帧的融合特征；通过递归神经网络按照视频帧的时序，将多帧视频帧中除第一帧以外的视频帧中，当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征；通过年龄估计网络对每帧视频帧的融合特征进行特征提取，得到每帧视频帧的输出结果。

在可选的实施方式中，上述年龄估计模型的权重参数是在机器学习的过程中根据损失量确定的；其中，损失量根据年龄估计模型输出的每帧视频帧的输出结果，以及多帧视频帧对应的年龄标签确定；该年龄标签用于指示多帧视频帧中包含的人的年龄。

在可选的实施方式中，上述损失量包括第一损失值和第二损失值；上述第一损失值用于指示：年龄估计模型输出的每帧视频帧的输出结果，与年龄标签之间的差距；第二损失值用于指示：年龄估计模型输出的每帧视频帧的输出结果，与每帧视频帧对应的输出结果的均值之间的差距。

在可选的实施方式中，上述第一损失值通过下述算式确定：

其中，L_age表示第一损失值；a表示年龄标签；

表示多帧视频帧中第i个视频帧对应的输出结果；T表示多帧视频帧的视频帧总数；∑表示求和运算。

在可选的实施方式中，上述第二损失值通过下述算式确定：

其中，L_var表示第二损失值；

表示多帧视频帧中第i个视频帧对应的输出结果；T表示多帧视频帧的视频帧总数；m表示多帧视频帧中每帧视频帧对应的输出结果的均值；∑表示求和运算。

在可选的实施方式中，上述基于多帧视频帧的输出结果确定人脸的年龄的步骤，包括：计算多帧视频帧中每帧视频帧对应的输出结果的平均值，将平均值确定为人脸的年龄。

第二方面，本发明实施例提供一种年龄估计模型的训练方法，该训练方法包括：获取样本视频；该样本视频包括多帧视频帧，该样本视频的多帧视频帧中的每帧视频帧携带的年龄标签相同；将样本视频输入至初始模型中，以通过初始模型按照多帧视频帧的时序，对样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的年龄估计结果；基于每帧视频帧的年龄估计结果和年龄标签，对初始模型进行机器学习训练，得到年龄估计模型。

在可选的实施方式中，上述年龄估计模型的初始模型包括：特征提取网络、递归神经网络和年龄估计网络；上述将样本视频输入至初始模型中，以通过初始模型按照多帧视频帧的时序，对样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的年龄估计结果的步骤，包括：通过特征提取网络提取样本视频中每帧视频帧的特征数据；通过递归对样本视频中的第一帧视频帧的特征数据与第一帧视频帧的特征数据进行融合，得到第一帧视频帧的融合特征；通过递归神经网络按照视频帧的时序，将样本视频中除第一帧以外的视频帧中，当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征；通过年龄估计网络对每帧视频帧的融合特征进行特征提取，得到每帧视频帧的年龄估计结果。

在可选的实施方式中，上述基于每帧视频帧的年龄估计结果和年龄标签，对初始模型进行机器学习训练，得到年龄估计模型的步骤，包括：根据每帧视频帧的年龄估计结果和年龄标签，确定损失量；基于损失量更新初始模型的权重参数；继续执行获取样本视频的步骤，直到损失量收敛或者达到预设的训练次数，得到年龄估计模型。

在可选的实施方式中，上述根据每帧视频帧的年龄估计结果和年龄标签，确定损失量的步骤，包括：根据样本视频中每帧视频帧的年龄估计结果，与年龄标签之间的差距，确定第一损失值；根据样本视频中每帧视频帧的年龄估计结果，与每帧视频帧的年龄估计结果的均值之间的差距，确定第二损失值；根据第一损失值和第二损失值，得到损失量。

第三方面，本发明实施例提供一种年龄估计装置，该装置包括：视频帧获取模块，用于获取包含有人脸的多帧视频帧，其中，多帧视频帧具有时序性，多帧视频帧中包含的人脸属于同一个人；视频帧输入模块，用于将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果；该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果；年龄估计模块，用于基于多帧视频帧的输出结果确定人脸的年龄。

第四方面，本发明实施例提供一种年龄估计模型的训练装置，该训练装置包括：样本获取模块，用于获取样本视频；该样本视频包括多帧视频帧，该样本视频的多帧视频帧的每帧视频帧对应的年龄标签相同；样本输入模块，用于将样本视频输入至初始模型中，以通过初始模型按照多帧视频帧的时序，对样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的年龄估计结果；模型训练模块，用于基于每帧视频帧的年龄估计结果和年龄标签，对初始模型进行机器学习训练，得到年龄估计模型。

第五方面，本发明实施例提供一种电子设备，该电子设备包括处理器和存储器，该存储器存储有能够被处理器执行的机器可执行指令，该处理器执行机器可执行指令以实现上述年龄估计方法或者上述年龄估计模型的训练方法。

第六方面，本发明实施例提供一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述年龄估计方法或者上述年龄估计模型的训练方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种年龄估计方法、年龄估计模型的训练方法及装置，首先获取包含有人脸的多帧视频帧，该多帧视频帧具有时序性；再将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果；其中，该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果；然后基于每帧视频帧的输出结果确定人脸的年龄。该方式在对视频中的人脸对应的人的年龄进行估计时，可以融合不同时刻的视频帧的特征，使得年龄估计模型提取到富含更加全面的时序特征信息，从而可以提高年龄估计的准确度和稳定性。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种年龄估计方法的流程图；

图2为本发明实施例提供的另一种年龄估计方法的流程图；

图3为本发明实施例提供的一种年龄估计模型的结构示意图；

图4为本发明实施例提供的一种年龄估计模型的训练方法的流程图；

图5为本发明实施例提供的一种年龄估计装置的结构示意图；

图6为本发明实施例提供的一种年龄估计模型的训练装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

自动人脸年龄估计作为一种重要的生物特征识别技术，目前已经成为模式识别和计算机视觉领域内一个热门的研究课题。人脸年龄估计问题的定义通常是指采用计算机视觉等技术根据输入的人脸图像自动估计出其真实年龄。

相关技术中，存在两种年龄估计方法，第一种是传统人脸年龄估计算法，通常需要人工提取人脸图像中的人脸特征(如主动外观特征、人体测量学特征、生物启发特征等)，然后训练一个由人脸特征得到年龄的回归器，通过该回归器可以对待估计的人脸图像进行年龄估计，但是该方式缺乏人脸的高层语义信息，导致该方式得到的年龄估计结果的精度较低。

第二种是基于训练好的深度学习模型进行年龄估计；该深度学习模型通常是基于单张人脸图像进行训练得到的，训练好的深度学习模型建立了输入人脸与年龄的映射关系，该深度学习模型对输入的人脸图像的姿态、表情、光照等变化较为敏感，可准确估计出人脸图像中人的年龄。因此，该方式可以学习到人脸的高层语义信息，可提高人脸年龄估计的精度，但是随着视频技术的发展，需要对视频中的人进行年龄估计，由于视频中同一个人脸在不同帧上的人脸图像差别较大，导致该深度学习模型应用于视频上很难得到稳定且准确的年龄估计结果。

基于上述描述，本发明实施例提供了一种年龄估计方法、年龄估计模型的训练方法及装置。该技术可以应用于人机交互、智能商务、安全监控和娱乐等领域的年龄识别和年龄估计的场景中，尤其是针对了视频中的人的年龄估计场景中。为便于对本实施例进行理解，首先对本发明实施例所公开的一种年龄估计方法进行详细介绍，如图1所示，该方法包括如下步骤：

步骤S102，获取包含有人脸的多帧视频帧，该多帧视频帧具有时序性。

上述多帧视频帧中的每帧视频帧中包含的人脸属于同一个人，在不同的视频帧中该人脸可能有不同的姿态、光照或者表情等，也即是随着时间的推移，视频中的人脸会发生一定的变化，例如，该视频帧中的人脸可以是正脸、侧脸、笑脸、哭脸、抬头、低头、强光照射的人脸或者柔光照射的人脸等。上述多帧视频帧具有的时序性可以指产生相邻的两个视频帧的时间顺序，例如，针对与某一段视频，该视频中产生第一帧视频帧的时间，必然早于产生第二帧视频帧的时间，产生第二帧视频帧的时间必然早于产生第三帧视频帧的时间。

在具体实现时，上述多帧视频帧可以是包含有人脸的待处理视频中的视频帧，当待处理视频的视频时长较短(例如，视频时长小于预设时间阈值)时，该多帧视频可以是待处理视频中的每一帧视频帧；当待处理视频的视频时长较长(例如，视频时长大于或者等于预设时间阈值)时，可以从待处理视频中抽取指定数量的视频帧作为多帧视频帧，从而可以降低后续年龄估计的计算量。上述预设时间阈值和指定抽取数量均是根据用户需求设定的。

步骤S104，将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果；其中，该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果。

步骤S106，基于多帧视频帧的输出结果确定上述人脸的年龄。

上述年龄估计模型可以采用深度学习模型或者神经网络模型等。该年龄估计模型通常是根据预设的训练样本集通过机器学习训练得到的，该年龄估计模型可以提取多帧视频帧中每帧视频帧的特征，并根据每帧视频帧的特征，以及视频帧的时序顺序，得到每帧视频帧对应的输出结果。

在具体实现时，首先将获取到的多帧视频帧中的每帧视频帧依次输入至预先训练完成的年龄估计模型中，该年龄估计模型可提取每帧视频帧的特征，然后根据第一帧视频帧的特征，得到第一帧视频帧的输出结果，针对多帧视频帧中除第一帧之外的视频帧，根据当前视频帧的特征以及该当前视频帧的之前的视频帧的特征，得到当前视频帧的输出结果，从而该年龄估计模型可以输出多帧视频帧中每帧视频帧的输出结果。

上述年龄估计模型输出的每帧视频帧的输出结果，为得到的每帧视频帧中人脸的年龄估计值，可以将每帧视频帧对应的年龄估计值的均值，确定为人脸的年龄；也可以将每帧视频帧对应的年龄估计值的最大值或者最小值确定为人脸的年龄；还可以根据其他规则，通过每帧视频帧对应的年龄估计值，得到人脸的年龄。

本发明实施例提供的一种年龄估计方法，首先获取包含有人脸的多帧视频帧，该多帧视频帧具有时序性；再将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果；其中，该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果；然后基于每帧视频帧的输出结果确定人脸的年龄。该方式在对视频中的人脸对应的人的年龄进行估计时，可以融合不同时刻的视频帧的特征，使得年龄估计模型提取到富含更加全面的时序特征信息，从而可以提高年龄估计的准确度和稳定性。

本发明实施例还提供了另一种年龄估计方法，该方法在上述实施例方法的基础上实现；该方法重点描述获取包含有人脸的多帧视频帧的具体过程(通过下述步骤S202实现)，基于将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果的具体过程(通过下述步骤S204-S212实现)，以及基于多帧视频帧的输出结果确定人脸的年龄的具体过程(通过下述步骤S214实现)；如图2所示，该方法包括如下步骤：

步骤S202，从包含有人脸的待处理视频中抽取指定数量的视频帧；将抽取的指定数量的视频帧确定为多帧视频帧。

上述待处理视频中的每帧视频帧均包含有人脸，该待处理视频可以是用户通过与电子设备通信连接的照相机、摄像头等设备拍摄的视频，或者是存储有已经拍摄完成的视频的存储设备中的视频。上述指定数量可以是用户根据计算量或者业务需求等设置的数值，例如，该指定数量可以是20帧或者50帧等。在具体实现时，抽取指定数量的视频帧是为了提高后续年龄估计的计算效率。

步骤S204，将上述多帧视频帧中的每帧视频帧依次输入至预先训练完成的年龄估计模型中；该年龄估计模型包括：特征提取网络、递归神经网络和年龄估计网络。

步骤S206，通过上述特征提取网络提取多帧视频帧中每帧视频帧的特征数据。

上述特征提取层可以提取每帧视频帧的特征数据，该特征数据也可以理解为每帧视频帧对应的图像的图像特征，从而可以获得每帧视频帧的高层语义信息。上述特征提取层可以包括依次连接的卷积层和激活函数层，该激活函数层可以对卷积层输出的图像特征进行函数变换，该变换过程可打破卷积层输入的线性组合，该激活函数层具体可以为Sigmoid函数、tanh函数、Relu函数等。为了提高特征提取层的性能，通常该特征提取层可以包括多组依次连接的卷积层和激活函数层，具体包含多少组依次连接的卷积层和激活函数层，可以由具体应用的速度与精度需求决定，一般来说，组数越多网络整体越深，性能越好，速度则越慢。

步骤S208，通过递归神经网络对多帧视频帧中的第一帧视频帧的特征数据与该第一帧视频帧的特征数据进行融合，得到第一帧视频帧的融合特征。

步骤S210，通过递归神经网络按照视频帧的时序，将多帧视频帧中除第一帧以外的视频帧中，当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征。

上述递归神经网络也可以称为循环神经网络(Recurrent Neural Network,RNN)，该循环神经网络通常是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。在具体实现时，由于多帧视频帧中的第一帧视频帧，在时序上没有对应的前一帧视频帧，因此，该递归神经网络会将特征提取层输出的第一帧视频帧的特征数据与自身进行融合，得到第一帧视频帧的融合特征。

针对于多帧视频帧中除第一帧之外的视频帧，该递归神经网络可以将当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征，从而得到每帧视频帧的融合特征，因此，上述当前视频帧对应的融合特征均与前一帧视频帧的融合特征有关，从而使得网络所提取的融合特征富含更加全面的时序特征信息，有利于提高年龄估计的精度。

步骤S212，通过年龄估计网络对每帧视频帧的融合特征进行特征提取，得到每帧视频帧的输出结果。

上述年龄估计网络可以称为年龄估计模型中的输出层，该输出层可以是全连接层(Fully Connectedlayers，简称FC)，该全连接层可以提取递归神经网络输出的每帧视频帧的融合特征的特征，得到每帧视频帧的年龄估计结果。

为了更好的理解通过年龄估计模型估计年龄的方式，图3给出了一种年龄估计模型的结构示意图；图3中的Block1、Block2和FC1组成特征提取网络，其中，Block1由一组卷积层和激活函数层组成、Block2也由一组卷积层和激活函数层组成，FC1表示一个全连接层；图3中的RNN表示递归神经网络，FC2表示年龄估计网络，为一个全连接层；图3中相同名称的网络代表此处网络参数是共享的(比如，所有的FC2全连接层的参数都共享一套参数)。

假设多帧视频帧包括T帧视频帧，将这T帧视频帧按照时序顺序，依次输入到对应的特征提取层中，每帧视频帧通过Block1、Block2和FC1，得到每帧视频对应的特征数据，该特征数据可以是长度为c(该长度根据用户设置的网络参数确定)的特征向量fⁱ,i∈[1,…,T]，其中，向量fⁱ表示提取到的第i帧视频帧的特征向量。然后通过递归神经网络来融合不同时刻的视频帧的特征数据，具体来说，将每帧视频帧的特征向量送入递归神经网络RNN中，得到每帧视频帧的融合特征hⁱ,i∈[1,…,T]，融合特征融合了不同时刻的视频帧的特征，其中，hⁱ表示第i帧视频帧的融合特征。

由图3可知，第一帧视频帧的融合特征只与第一帧视频帧的特征向量有关，而除第一帧视频帧之外的视频帧的融合特征均是由前一帧视频帧的融合特征和当前视频帧的特征向量得到，例如，将第一帧视频帧的融合特征h¹和第二帧视频帧的特征向量f²进行融合，可以得到第二视频帧的融合特征h²。最后将每帧视频帧对应的融合特征分别送入到各自对应的年龄估计网络FC2中，得到每帧视频帧对应的输出结果

其中，

表示第i帧视频帧的输出结果，在一些实施例中，该输出结果也可称为年龄估计结果。

步骤S214，计算多帧视频帧中每帧视频帧的输出结果的平均值，将该平均值确定为人脸的年龄。

假设多帧视频帧为T帧视频帧，人脸的年龄为

其中，

表示多帧视频帧中第i帧视频帧的输出结果。

在具体实现时，上述年龄估计模型中各个网络的权重参数是在机器学习的过程中根据损失量确定的；其中，该损失量根据年龄估计模型输出的每帧视频帧的输出结果，以及多帧视频帧对应的年龄标签确定；该年龄标签用于指示多帧视频帧中包含的人的年龄；该年龄估计模型的具体训练过程会在下述年龄估计模型的训练方法的实施例中进行详细介绍，在此不再赘述。

上述年龄估计方法，首先从包含有人脸的待处理视频中抽取指定数量的视频帧；将提取的指定数量的视频帧确定为多帧视频帧；进而将每帧视频帧依次输入至预先训练完成的年龄估计模型中；该年龄估计模型包括：特征提取网络、递归神经网络和年龄估计网络；然后通过特征提取网络提取多帧视频帧中每帧视频帧的特征数据；通过递归神经网络对多帧视频帧中的第一帧视频帧的特征数据与第一帧视频帧的特征数据进行融合，得到第一帧视频帧的融合特征；通过递归神经网络按照视频帧的时序，将多帧视频帧中除第一帧以外的视频帧中，当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征；通过年龄估计网络对每帧视频帧的融合特征进行特征提取，得到每帧视频帧的输出结果；最后计算多帧视频帧中每帧视频帧的输出结果的平均值，将该平均值确定为人脸的年龄。该方式通过年龄估计模型估计人脸的年龄，该年龄估计模型可以自动学习到与年龄有关的多层级语义特征，而且显式地考虑视频输入的情况，利用递归神经网络来融合视频不同时刻的视频帧所包含的信息，使得网络所提取的特征富含更加全面的时序特征信息，提高了年龄估计的精度。

针对于上述年龄估计方法的实施例，本发明实施例还提供了一种年龄估计模型的训练方法，如图4所示，该方法包括如下步骤：

步骤S402，获取样本视频；该样本视频包括多帧视频帧，该样本视频的多帧视频帧的每帧视频帧携带的年龄标签相同。

上述样本视频通常是训练样本集中的样本，该训练样本集中包含有大量的样本，每个样本均包含有人脸的多帧视频帧，并携带有多帧视频中的人脸对应的年龄标签，该多帧视频帧中包含的人脸相同，且不同时刻的视频帧中的人脸的表情、姿态可能不同也可能相同。在具体实现时，该年龄标签可以通过下述步骤10-11确定：

步骤10，获取样本视频对应的多个标注结果；该标注结果用于标识样本视频中人的年龄值；该标注结果中标注的年龄值为预设的多个年龄值中的一个年龄值。

上述预设的多个年龄值是研发人员根据需求设置的多个年龄值，该年龄值的范围和数量也是根据研发需求设置的，例如，可以设置101个年龄值，年龄值为0至100之间的整数，分别代表0岁到100岁。上述样本视频对应的多个标注结果，可以是预设的n个人分别对样本视频中的人进行年龄标注后，得到的n个标注结果，这n个人标注的年龄值为预设的多个年龄值中的一个年龄值。

步骤11，计算多个标注结果对应的年龄值的平均值，得到年龄均值；将该年龄均值作为样本视频的年龄标签。

例如，假设预设的多个年龄值为0至100之间的整数，n个人对样本视频中的人进行年龄标注，得到n个标注结果

其中，k的取值范围为1到n，

表示第k个人对样本视频的标注结果，根据n个标注结果，可以得到年龄均值为：

其中，a表示样本视频的年龄均值，也即是该样本视频的年龄标签；

表示对*进行向下取整。

步骤S404，将样本视频输入至初始模型中，以通过初始模型按照多帧视频帧的时序，对样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的年龄估计结果。

在具体实现时，上述年龄估计模型的初始模型包括：特征提取网络、递归神经网络和年龄估计网络；上述步骤S404可以通过下述步骤20-23实现：

步骤20，通过特征提取网络提取样本视频中每帧视频帧的特征数据。

步骤21，通过递归对样本视频中的第一帧视频帧的特征数据与第一帧视频帧进行融合，得到第一帧视频帧的融合特征。

步骤22，通过递归神经网络按照视频帧的时序，将样本视频中除第一帧以外的视频帧中，当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征。

步骤23，通过年龄估计网络对每帧视频帧的融合特征进行特征提取，得到每帧视频帧的年龄估计结果。

步骤S406，基于每帧视频帧的年龄估计结果和年龄标签，对初始模型进行机器学习训练，得到年龄估计模型。

在具体实现时，根据每帧视频帧的年龄估计结果和年龄标签，确定损失量；基于该损失量更新初始模型的权重参数；继续执行基于获取样本视频的步骤，直到损失量收敛或者达到预设的训练次数，得到年龄估计模型。

上述根据每帧视频帧的年龄估计结果和年龄标签，确定损失量的步骤可以通过下述步骤30-32实现：

步骤30，根据样本视频中每帧视频帧的年龄估计结果，与龄标签之间的差距，确定第一损失值。也即是该第一损失值用于指示：年龄估计模型输出的每帧视频帧的年龄估计结果，与年龄标签之间的差距。

具体地，上述第一损失值通过下述算式确定：

其中，L_age表示第一损失值；a表示样本视频的年龄标签；

表示多帧视频帧中第i个视频帧对应的年龄估计结果(也相当于第i个视频帧对应的输出结果)；T表示多帧视频帧的视频帧总数；∑表示求和运算，|*|代表*的绝对值。

步骤31，根据样本视频中每帧视频帧的年龄估计结果之间的差距，确定第二损失值。也即是该第二损失值用于指示：年龄估计模型输出的每帧视频帧的年龄估计结果，与每帧视频帧的年龄估计结果的均值之间的差距。

具体地，上述第二损失值通过下述算式确定：

其中，L_var表示第二损失值；

表示多帧视频帧中第i个视频帧对应的年龄估计结果(相当于第i个视频帧对应的输出结果)；T表示多帧视频帧的视频帧总数；m表示多帧视频帧中每帧视频帧的年龄估计结果的均值；∑表示求和运算。

随着模型训练的进行，L_var会不断减小，从而是减小不同时刻的视频帧的年龄估计结果的方差，也即是为了不出现第一帧视频帧的年龄估计结果为30岁，而第二帧视频帧的年龄估计结果为5岁，这种方差较大的情况。因此，上述第二损失值可以对不同时刻的视频帧的年龄估计结果的方差进行约束，使得不同时刻的年龄估计结果更加一致，从而可以提高年龄估计结果的稳定性。

步骤32，根据上述第一损失值和第二损失值，得到损失量。例如，将第一损失值和第二损失值的和确定为损失量。

在具体实现时，可以通过下述步骤40-43，基于损失量更新初始模型的权重参数：

步骤40，计算损失量对初始模型中待更新权重参数的导数

其中，L为损失量；W为待更新权重参数；该待更新权重参数可以为初始模型中的所有参数，也可以为随机从初始模型中确定的部分参数；其中，该更新权重参数也即是初始模型中各层网络的权值。通常可以根据反向传播算法求解待更新权重参数的导数；如果损失量较大，则说明当前的初始模型的识别结果与期望结果相差较多，则求出损失量对初始模型中待更新权重参数的导数，该导数可以作为更新待更新权重参数的依据。

步骤41，更新待更新权重参数，得到更新后的待更新权重参数

其中，α为预设系数，该预设系数为人工预先设定的超参数，可以取值为0.01、0.001等。该过程也可以称为随机梯度下降算法；各个待更新权重参数的导数也可以理解为相对于当前参数，损失量下降最快的方向，通过该方向调整参数，可以使损失量快速降低，使该权重参数收敛。

步骤42，判断更新后的初始模型的参数是否均收敛，如果均收敛，执行基于预设的训练样本集确定样本视频的步骤；否则执行步骤43。

如果更新后的初始模型的参数不是均收敛，则基于预设的训练样本集确定新的样本视频，继续执行步骤S402-S406，直到更新后的初始模型的参数均收敛。

步骤43，将参数更新后的初始模型确定为训练后的年龄估计模型。

在具体实现时，可以预设的样本集中的图像按照预设比例(例如，10:1)划分为用来训练模型的样本集合，以及用来验证模型的样本集合。通过用来验证模型的样本集合可以确定训练后的年龄估计模型的识别精度；通常可以从用来验证模型的样本集合确定测试样本，该测试样本包含有样本视频，以及该样本视频对应的年龄标签，将该测试样本输入至训练完成的年龄估计模型中可以得到每帧视频帧的年龄估计结果，将每帧视频帧的年龄估计结果的均值与年龄标签比对，判定该年龄估计结果是否正确，继续从用来验证模型的样本集合确定测试样本，直到用来验证模型的样本集中的所有样本选取完毕；统计每个测试样本对应的测试结果对应的正确性，得到训练后的年龄估计模型的预测精度。

上述年龄估计模型的训练方法，首先获取样本视频；进而将样本视频输入至初始模型中，以通过初始模型按照多帧视频帧的时序，对样本视频中除第一帧以外的视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的年龄估计结果；然后基于每帧视频帧的年龄估计结果和年龄标签，对初始模型进行机器学习训练，得到年龄估计模型。该方式在训练年龄估计模型的过程中，可以自动学习与年龄有关的多层级语义特征，而且该方式中的年龄估计模型可以融合不同时刻的视频帧所包含的特征，使得模型所提取的特征富含更加全面的时序特征信息，提高了年龄估计的精度；另外，该方式对不同时刻的视频帧的年龄估计结果的方差进行约束，使得不同时刻的视频帧的年龄估计结果更加一致，从而进一步地提高了年龄估计结果的稳定性。

对应于上述年龄估计方法的实施例，本发明实施例还提供了一种年龄估计装置，如图5所示，该装置包括：

视频帧获取模块50，用于获取包含有人脸的多帧视频帧，其中，多帧视频帧具有时序性，多帧视频帧中包含的人脸属于同一个人。

视频帧输入模块51，用于将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果，该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果。

年龄估计模块52，用于基于多帧视频帧的输出结果确定人脸的年龄。

上述年龄估计装置，首先获取包含有人脸的多帧视频帧，该多帧视频帧具有时序性；再将每帧视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧视频帧对应的输出结果；其中，该年龄估计模型用于：按照输入的多帧视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的输出结果；然后基于每帧视频帧的输出结果确定人脸的年龄。该方式在对视频中的人脸对应的人的年龄进行估计时，可以融合不同时刻的视频帧的特征，使得年龄估计模型提取到富含更加全面的时序特征信息，从而可以提高年龄估计的准确度和稳定性。

具体地，上述年龄估计模型包括：特征提取网络、递归神经网络和年龄估计网络；上述视频帧输入模块51，用于：通过特征提取网络提取多帧视频帧中每帧视频帧的特征数据；通过递归神经网络对多帧视频帧中的第一帧视频帧的特征数据与第一帧视频帧的特征数据进行融合，得到第一帧视频帧的融合特征；通过递归神经网络按照视频帧的时序，将多帧视频帧中除第一帧以外的视频帧中，当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征；通过年龄估计网络对每帧视频帧的融合特征进行特征提取，得到每帧视频帧的年龄估计结果。

进一步地，上述视频帧获取模块50，用于：从包含有人脸的待处理视频中抽取指定数量的视频帧；将抽取的指定数量的视频帧确定为多帧视频帧。

在具体实现时，上述年龄估计模型的权重参数是在机器学习的过程中根据损失量确定的；其中，该损失量根据输出模型输出的每帧视频帧的年龄估计结果，以及多帧视频帧对应的年龄标签确定；该年龄标签用于指示多帧视频帧中包含的人脸的年龄。

进一步地，上述损失量包括第一损失值和第二损失值；该第一损失值用于指示：年龄估计模型输出的每帧视频帧的输出结果，与年龄标签之间的差距；该第二损失值用于指示：年龄估计模型输出的每帧视频帧的年龄估计结果，与每帧视频帧对应的输出结果的均值之间的差距。

具体地，上述第一损失值通过下述算式确定：

其中，L_age表示第一损失值；a表示年龄标签；

具体地，上述第二损失值通过下述算式确定：

其中，L_var表示第二损失值；

进一步地，上述年龄估计模块52，还用于：计算多帧视频帧中每帧视频帧对应的输出结果的平均值，将该平均值确定为人脸的年龄。

本发明实施例所提供的年龄估计装置，其实现原理及产生的技术效果和前述年龄估计方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

对应于上述年龄估计模型的训练方法实施例，本发明实施例还提供了一种年龄估计模型的训练装置，如图6所示，该训练装置包括：

样本获取模块60，用于获取样本视频；该样本视频包括多帧视频帧，该样本视频的多帧视频帧的每帧视频帧对应的年龄标签相同。

样本输入模块61，用于将样本视频输入至初始模型中，以通过初始模型按照多帧视频帧的时序，对样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的年龄估计结果。

模型训练模块62，用于基于每帧视频帧的年龄估计结果和年龄标签，对初始模型进行机器学习训练，得到年龄估计模型。

上述年龄估计模型的训练装置，首先获取样本视频；进而将样本视频输入至初始模型中，以通过初始模型按照多帧视频帧的时序，对样本视频中除第一帧以外的视频帧，根据当前视频帧的特征以及当前视频帧之前的视频帧的特征，确定当前视频帧的年龄估计结果；然后基于每帧视频帧的年龄估计结果和年龄标签，对初始模型进行机器学习训练，得到年龄估计模型。该方式在训练年龄估计模型的过程中，可以自动学习与年龄有关的多层级语义特征，而且该方式中的年龄估计模型可以融合不同时刻的视频帧所包含的特征，使得网络所提取的特征富含更加全面的时序特征信息，提高了年龄估计的精度；另外，该方式对不同时刻的视频帧的年龄估计结果的方差进行约束，使得不同时刻的视频帧的年龄估计结果更加一致，从而进一步地提高了年龄估计结果的稳定性。

具体地，上述年龄估计模型的初始模型包括：特征提取网络、递归神经网络和年龄估计网络；上述样本输入模块61，用于：通过特征提取网络提取样本视频中每帧视频帧的特征数据；通过递归对样本视频中的第一帧视频帧的特征数据与第一帧视频帧的特征数据进行融合，得到第一帧视频帧的融合特征；通过递归神经网络按照视频帧的时序，将样本视频中除第一帧以外的视频帧中，当前视频帧的特征数据与当前视频帧的前一帧视频帧对应的融合特征进行融合，得到当前视频帧的融合特征；通过年龄估计网络对每帧视频帧的融合特征进行特征提取，得到每帧视频帧的年龄估计结果。

进一步地，上述模型训练模块62，用于：根据每帧视频帧的年龄估计结果和年龄标签，确定损失量；基于该损失量更新初始模型的权重参数；继续执行获取样本视频的步骤，直到该损失量收敛或者达到预设的训练次数，得到年龄估计模型。

具体地，上述模型训练模块62，还用于：根据样本视频中每帧视频帧的年龄估计结果，与年龄标签之间的差距，确定第一损失值；根据样本视频中每帧视频帧的年龄估计结果，与每帧视频帧的年龄估计结果的均值之间的差距，确定第二损失值；根据第一损失值和第二损失值，得到损失量。

具体地，上述第一损失值通过下述算式确定：

其中，L_age表示第一损失值；a表示年龄标签；

表示多帧视频帧中第i个视频帧对应的年龄估计结果；T表示多帧视频帧的视频帧总数；∑表示求和运算。

具体地，上述第二损失值通过下述算式确定：

其中，L_var表示第二损失值；

表示多帧视频帧中第i个视频帧对应的年龄估计结果(与输出结果的含义相同)；T表示多帧视频帧的视频帧总数；m表示多帧视频帧中每帧视频帧的年龄估计结果的均值；∑表示求和运算。

本发明实施例所提供的年龄估计模型的训练装置，其实现原理及产生的技术效果和前述年龄估计模型的训练方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，参见图7所示，该电子设备包括处理器101和存储器100，该存储器100存储有能够被处理器101执行的机器可执行指令，该处理器执行机器可执行指令以实现上述年龄估计方法或者上述年龄估计模型的训练方法。

进一步地，图7所示的电子设备还包括总线102和通信接口103，处理器101、通信接口103和存储器100通过总线102连接。

其中，存储器100可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100，处理器101读取存储器100中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述年龄估计方法或者上述年龄估计模型的训练方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的年龄估计方法、年龄估计模型的训练方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种年龄估计方法，其特征在于，所述方法包括：

获取包含有人脸的多帧视频帧，其中，所述多帧视频帧具有时序性，所述多帧视频帧中包含的人脸属于同一个人；

将每帧所述视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧所述视频帧对应的输出结果；其中，所述年龄估计模型用于：按照输入的多帧所述视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及所述当前视频帧之前的视频帧的特征，确定所述当前视频帧的输出结果；

基于所述多帧视频帧的输出结果确定所述人脸的年龄。

2.根据权利要求1所述的方法，其特征在于，所述年龄估计模型包括：特征提取网络、递归神经网络和年龄估计网络；

所述将每帧所述视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧所述视频帧对应的输出结果的步骤，包括：

通过所述特征提取网络提取所述多帧视频帧中每帧视频帧的特征数据；

通过所述递归神经网络对所述多帧视频帧中的第一帧视频帧的特征数据与所述第一帧视频帧的特征数据进行融合，得到所述第一帧视频帧的融合特征；

通过所述递归神经网络按照所述视频帧的时序，将所述多帧视频帧中除第一帧以外的视频帧中，当前视频帧的特征数据与所述当前视频帧的前一帧视频帧的融合特征进行融合，得到所述当前视频帧的融合特征；

通过所述年龄估计网络对每帧所述视频帧的融合特征进行特征提取，得到每帧所述视频帧的输出结果。

3.根据权利要求1所述的方法，其特征在于，所述年龄估计模型的权重参数是在机器学习的过程中根据损失量确定的；其中，所述损失量根据所述年龄估计模型输出的每帧所述视频帧的输出结果，以及所述多帧视频帧对应的年龄标签确定；所述年龄标签用于指示所述多帧视频帧中包含的人的年龄。

4.根据权利要求3所述的方法，其特征在于，所述损失量包括第一损失值和第二损失值；

所述第一损失值用于指示：所述年龄估计模型输出的每帧所述视频帧对应的输出结果，与所述年龄标签之间的差距；

所述第二损失值用于指示：所述年龄估计模型输出的每帧所述视频帧对应的输出结果，与每帧所述视频帧对应的输出结果的均值之间的差距。

5.根据权利要求4所述的方法，其特征在于，所述第一损失值通过下述算式确定：

其中，L_age表示所述第一损失值；a表示所述年龄标签；

表示所述多帧视频帧中第i个视频帧对应的输出结果；T表示所述多帧视频帧的视频帧总数；∑表示求和运算。

6.根据权利要求4所述的方法，其特征在于，所述第二损失值通过下述算式确定：

其中，L_var表示所述第二损失值；

表示所述多帧视频帧中第i个视频帧对应的输出结果；T表示所述多帧视频帧的视频帧总数；m表示所述多帧视频帧中每帧所述视频帧对应的输出结果的均值；∑表示求和运算。

7.根据权利要求1所述的方法，其特征在于，所述基于所述多帧视频帧的输出结果确定所述人脸的年龄的步骤，包括：

计算所述多帧视频帧中每帧所述视频帧对应的输出结果的平均值，将所述平均值确定为所述人脸的年龄。

8.一种年龄估计模型的训练方法，其特征在于，所述训练方法包括：

获取样本视频；所述样本视频包括多帧视频帧，所述样本视频的多帧视频帧的每帧所述视频帧携带的年龄标签相同；

将所述样本视频输入至初始模型中，以通过所述初始模型按照多帧所述视频帧的时序，对所述样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及所述当前视频帧之前的视频帧的特征，确定所述当前视频帧的年龄估计结果；

基于每帧所述视频帧的年龄估计结果和所述年龄标签，对所述初始模型进行机器学习训练，得到所述年龄估计模型。

9.根据权利要求8所述的训练方法，其特征在于，所述年龄估计模型的初始模型包括：特征提取网络、递归神经网络和年龄估计网络；

所述将所述样本视频输入至初始模型中，以通过所述初始模型按照多帧所述视频帧的时序，对所述样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及所述当前视频帧之前的视频帧的特征，确定所述当前视频帧的年龄估计结果的步骤，包括：

通过所述特征提取网络提取所述样本视频中每帧视频帧的特征数据；

通过所述递归对所述样本视频中的第一帧视频帧的特征数据与所述第一帧视频帧的特征数据进行融合，得到所述第一帧视频帧的融合特征；

通过所述递归神经网络按照所述视频帧的时序，将所述样本视频中除第一帧以外的视频帧中，当前视频帧的特征数据与所述当前视频帧的前一帧视频帧对应的融合特征进行融合，得到所述当前视频帧的融合特征；

通过所述年龄估计网络对每帧所述视频帧的融合特征进行特征提取，得到每帧所述视频帧的年龄估计结果。

10.根据权利要求8所述的训练方法，其特征在于，所述基于每帧所述视频帧的年龄估计结果和所述年龄标签，对所述初始模型进行机器学习训练，得到所述年龄估计模型的步骤，包括：

根据每帧所述视频帧的年龄估计结果和所述年龄标签，确定损失量；

基于所述损失量更新所述初始模型的权重参数；继续执行获取样本视频的步骤，直到所述损失量收敛或者达到预设的训练次数，得到所述年龄估计模型。

11.根据权利要求10所述的训练方法，其特征在于，所述根据每帧所述视频帧的年龄估计结果和所述年龄标签，确定损失量的步骤，包括：

根据所述样本视频中每帧所述视频帧的年龄估计结果，与所述年龄标签之间的差距，确定第一损失值；

根据所述样本视频中每帧所述视频帧的年龄估计结果，与每帧所述视频帧的年龄估计结果的均值之间的差距，确定第二损失值；

根据所述第一损失值和所述第二损失值，得到所述损失量。

12.一种年龄估计装置，其特征在于，所述装置包括：

视频帧获取模块，用于获取包含有人脸的多帧视频帧，其中，所述多帧视频帧具有时序性，所述多帧视频帧中包含的人脸属于同一个人；

视频帧输入模块，用于将每帧所述视频帧依次输入至预先训练完成的年龄估计模型中，得到与每帧所述视频帧对应的输出结果；所述年龄估计模型用于：按照输入的多帧所述视频帧的时序，对于除第一帧以外的每帧视频帧，根据当前视频帧的特征以及所述当前视频帧之前的视频帧的特征，确定所述当前视频帧的输出结果；

年龄估计模块，用于基于所述多帧视频帧的输出结果确定所述人脸的年龄。

13.一种年龄估计模型的训练装置，其特征在于，所述训练装置包括：

样本获取模块，用于获取样本视频；所述样本视频包括多帧视频帧，所述样本视频的多帧视频帧的每帧所述视频帧对应的年龄标签相同；

样本输入模块，用于将所述样本视频输入至初始模型中，以通过所述初始模型按照多帧所述视频帧的时序，对所述样本视频中除第一帧以外的每帧视频帧，根据当前视频帧的特征以及所述当前视频帧之前的视频帧的特征，确定所述当前视频帧的年龄估计结果；

模型训练模块，用于基于每帧所述视频帧的年龄估计结果和所述年龄标签，对所述初始模型进行机器学习训练，得到所述年龄估计模型。

14.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至7任一项所述的年龄估计方法或者权利要求8至11任一项所述的年龄估计模型的训练方法。

15.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使处理器实现权利要求1至7任一项所述的年龄估计方法或者权利要求8至11任一项所述的年龄估计模型的训练方法。