WO2022042043A1

WO2022042043A1 - 机器学习模型的训练方法、装置和电子设备

Info

Publication number: WO2022042043A1
Application number: PCT/CN2021/104517
Authority: WO
Inventors: 王婷婷
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-08-27
Filing date: 2021-07-05
Publication date: 2022-03-03
Also published as: CN112016450B; CN112016450A; US20230030419A1

Abstract

本公开涉及一种机器学习模型的训练方法、装置和电子设备，涉及人工智能技术领域。该训练方法包括：将图像样本输入回归机器学习模型，利用回归机器学习模型提取图像样本的特征图，根据特征图确定所述图像样本的识别结果；将特征图输入分类机器学习模型，根据特征图，利用分类机器学习模型，确定图像样本属于各分类的隶属概率；根据识别结果和图像样本的标注结果，计算第一损失函数，根据隶属概率和所述图像样本的标注结果，计算第二损失函数；利用第一损失函数和第二损失函数，训练回归机器学习模型。

Description

机器学习模型的训练方法、装置和电子设备

相关申请的交叉引用

本申请是以CN申请号为202010878794.7，申请日为2020年8月27日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及人工智能技术领域，特别涉及一种机器学习模型的训练方法、机器学习模型的装置、人脸图像的年龄识别方法、人脸图像的年龄识别装置、电子设备和非易失性计算机可读存储介质。

背景技术

深度机器学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。

例如，基于深度机器学习的人脸图像处理技术是计算机视觉任务中一个非常重要的研究方向。

人脸的年龄信息作为人类的一种重要生物特征，在人机交互领域中有着众多应用需求，并且对人脸识别***的性能有着重要影响。基于人脸图像的年龄估计是指应用计算机技术对人脸图像随年龄变化的规律进行建模，从而使机器能够根据面部图像推测出人的大概年龄或所属的年龄范围。

这项技术有很多应用，如视频监控、产品推荐、人机交互、市场分析、用户画像、年龄变化预测(age progression)等。如果基于人脸图像的年龄估计问题得到解决，那么在日常生活中，基于年龄信息的各种人机交互***将在现实生活中有着极大的应用需求。

因此，如何训练出优质的机器学习模型，是解决各类人工智能应用需求的基础。

在相关技术中，利用机器学习模型自身的输出结果和预先标注结果，训练该机器学习模型。

发明内容

根据本公开的一些实施例，提供了一种机器学习模型的训练方法，包括：将图像样本输入回归机器学习模型；利用所述回归机器学习模型提取所述图像样本的特征图，并根据所述特征图确定所述图像样本的识别结果；将所述特征图输入分类机器学习模型；根据所述特征图，利用所述分类机器学习模型，确定所述图像样本属于各分类的隶属概率；根据所述识别结果和所述图像样本的标注结果，计算第一损失函数，根据所述隶属概率和所述图像样本的标注结果，计算第二损失函数；利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型。

在一些实施例中，所述利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型包括：利用所述第一损失函数训练所述回归机器学习模型，然后利用所述第一损失函数和所述第二损失函数的加权和训练所述回归机器学习模型。

在一些实施例中，所述利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型包括：利用所述第二损失函数训练所述分类机器学习模型，然后利用所述第一损失函数和所述第二损失函数的加权和训练所述分类机器学习模型。

在一些实施例中，所述根据所述隶属概率和所述图像样本的标注结果，计算第二损失函数包括：根据所述图像样本所属正确分类中的样本数量在总样本数量中的占比，计算所述第二损失函数，所述第二损失函数与所述占比负相关。

在一些实施例中，所述利用回归机器学习模型提取图像样本的特征图包括：利用回归机器学习模型提取所述图像样本对于各图像通道的通道特征；将各通道特征组合为所述图像样本的特征图。

在一些实施例中，所述利用回归机器学习模型提取所述图像样本对于各图像通道的通道特征包括：利用回归机器学习模型，按照不同的图像通道分别对所述图像样本进行卷积，以提取所述各通道特征。

在一些实施例中，所述根据所述特征图，利用分类机器学习模型，确定所述图像样本属于各分类的隶属概率包括：利用所述分类机器学习模型，确定所述特征图中各图像通道之间的关联信息；根据所述关联信息，更新所述特征图；根据更新后的特征图，确定所述图像样本属于各分类的隶属概率。

在一些实施例中，所述根据所述关联信息，更新所述特征图包括：根据所述关联信息，确定所述各通道特征的权重；利用权重，对相应的通道特征进行加权处理；根据加权处理后的所述各通道特征，更新所述特征图。

在一些实施例中，所述图像样本为人脸图像样本，所述识别结果为所述人脸图像样本中人脸的年龄，所述各分类为各年龄段分类。

根据本公开的另一些实施例，提供一种机器学习模型的训练装置，包括至少一个处理器，所述处理器被配置为执行如下步骤：将图像样本输入回归机器学习模型，利用所述回归机器学习模型提取所述图像样本的特征图，并根据所述特征图确定所述图像样本的识别结果；将所述特征图输入分类机器学习模型，根据所述特征图，利用所述分类机器学习模型，确定所述图像样本属于各分类的隶属概率；根据所述识别结果和所述图像样本的标注结果，计算第一损失函数，根据所述隶属概率和所述图像样本的标注结果，计算第二损失函数；利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型。

根据本公开的又一些实施例，提供一种人脸图像的年龄识别方法，包括：利用上述任一个实施例中的训练方法训练的回归机器学习模型，识别人脸图像中人脸的年龄。

根据本公开的再一些实施例，提供一种人脸图像的年龄识别装置，包括至少一个处理器，所述处理器被配置为执行如下步骤：利用上述任一个实施例中的训练方法训练的回归机器学习模型，识别人脸图像中人脸的年龄。

根据本公开的又一些实施例，提供一种电子设备，包括：存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行上述任一个实施例中的机器学习模型的训练方法或人脸图像的年龄识别方法。

根据本公开的再一些实施例，提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例中的机器学习模型的训练方法或人脸图像的年龄识别方法。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出本公开的机器学习模型的训练方法的一些实施例的流程图；

图2示出图1中步骤110的一些实施例的流程图；

图3示出图1中步骤120的一些实施例的流程图；

图4示出本公开的机器学习模型的训练方法的一些实施例的示意图；

图5示出本公开的机器学习模型的训练装置的一些实施例的流程图；

图6示出本公开的电子设备的一些实施例的框图；

图7示出本公开的电子设备的另一些实施例的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的发明人发现上述相关技术中存在如下问题：训练效果无法满足任务需求，导致机器学模型的处理能力低。

鉴于此，本公开提出了一种机器学习模型的训练技术方案，能够利用分类模型辅助训练回归模型，从而提高机器学模型的处理能力。

在一些实施例中，可以利用参数较少的卷积网络(如shuffle Net模型等)构建回归机器学习模型(如用于年龄识别)，能够在保证处理准确度的前提下，提高处理速度。针对需要精细处理粒度的分类问题(如年龄分类问题)，利用处理粒度较精细的分类机器学习模型(如注意力网络)辅助进行训练。例如，这样可以在脸色的等特征上区分不同年龄的人脸。例如，可以通过下面的实施例实现本公开的技术方案。

图1示出本公开的机器学习模型的训练方法的一些实施例的流程图。

如图1所示，训练方法包括：步骤110，确定图像样本的识别结果；步骤120，确定图像样本的各隶属概率；步骤130，计算第一、第二损失函数；和步骤140，训练回归机器学习模型。

在步骤110中，将图像样本输入回归机器学习模型，利用回归机器学习模型提取图像样本的特征图，并根据特征图确定所述图像样本的识别结果。

在一些实施例中，可以通过图2中的实施例提取特征图。

图2示出图1中步骤110的一些实施例的流程图。

如图2所示，步骤110包括：步骤1110，提取各通道特征；和步骤1120，组合特征图。

在步骤1110中，利用回归机器学习模型提取所述图像样本对于各图像通道的通道特征。

在一些实施例中，利用回归机器学习模型，按照不同的图像通道分别对图像样本进行卷积，以提取各通道特征。

在步骤1120中，将各通道特征组合为图像样本的特征图。

在提取了特征图后，可以继续通过图1中的其余步骤进行训练。

在步骤120中，将特征图输入分类机器学习模型，根据特征图，利用分类机器学习模型，确定图像样本属于各分类的隶属概率。

在一些实施例中，可以通过图3中的实施例确定隶属概率。

图3示出图1中步骤120的一些实施例的流程图。

如图3所示，步骤120包括：步骤1210，确定各图像通道的关联信息；步骤1220，更新特征图；和步骤1230，确定各隶属概率。

在步骤1210中，利用分类机器学习模型，确定特征图中各图像通道之间的关联信息。例如，可以提取特征图中各通道特征之间的关联信息，作为各图像通道之间的关联信息。

在步骤1220中，根据关联信息，更新特征图。

在一些实施例中，根据关联信息，确定各通道特征的权重；根据加权处理后的各通道特征，更新特征图。

在步骤1230中，根据更新后的特征图，确定图像样本属于各分类的隶属概率。

在确定了隶属概率后，可以继续通过图1中的其余步骤进行训练。

在步骤130中，根据识别结果和图像样本的标注结果，计算第一损失函数。根据隶属概率和所述图像样本的标注结果，计算第二损失函数。

在一些实施例中，可以利用Mae loss(Mean Absolute loss，平均绝对误差)实现第一损失函数。例如，第一损失函数可以为：

例如，y _i为图像样本的标注结果(如真实年龄数值)，

为回归机器学习模型输出的识别结果(如预测年龄数值)。Mae loss对异常值不敏感，从而提高机器学习模型的性能。

在一些实施例中，根据图像样本所属正确分类中的样本数量在总样本数量中的占比，计算第二损失函数。第二损失函数与占比负相关。例如，当前图像样本的正确分类为分类i，分类i中的样本数量为n _i，所有分类中的总样本数量为N。在这种情况下，第二损失函数与n _i在N中的占比负相关。

这样，可以解决各样本分类中样本数量分布不均匀的问题。

在一些实施例中，各种年龄段的样本数据集中的样本数量分布都不均衡。例如，特别是年龄小的儿童和65岁以上的老年人人数较少。在这种情况下，对各年龄段进行平均对待，以计算损失函数会造成训练效果降低。

在这种情况下，可以采用Focal loss解决不同类型样本比例失衡的问题。例如，结合多分类问题，可以确定第二损失函数为：

L ₂＝class_weight _i(1-y _i′×y _{i_label}) ^γ×log(i _i′×y _{i_label})

y _i′为当前图像样本对于分类i的隶属概率。y _{i_label}为当前图像样本对于分类i的标注结果。例如，当前图像样本的正确分类为分类i，则y _{i_label}为1，否则为0。γ>0为可调节的超参数，能够减少易分类样本的损失，使得训练过程更关注于困难的、错分的样本。

class_weight _i为分类i的占比参数，class_weight _i可以为：

class_weight _i＝N/(n _class×n _i)

n _class为所有分类的数量。

在步骤140中，利用第一损失函数和第二损失函数，训练回归机器学习模型。

在一些实施例中，利用第一损失函数训练回归机器学习模型，然后利用第一损失函数和第二损失函数的加权和训练回归机器学习模型。

在一些实施例中，利用第二损失函数训练分类机器学习模型，然后利用第一损失函数和第二损失函数的加权和训练分类机器学习模型。

例如，可以利用第一损失函数和第二损失函数的加权和确定综合损失函数L，用于训练回归机器学习模型和分类机器学习模型：

L＝L ₁+L ₂

在一些实施例中，图像样本可以为人脸图像样本，识别结果为人脸图像样本中人脸的年龄，各分类为各年龄段分类。回归机器学习模型用于估计人脸的年龄，分类机器学习模型用于确定人脸属于各年龄分类(如年龄段)的隶属概率。

例如，可以利用上述任一个实施例中的训练方法训练的回归机器学习模型，识别人脸图像中人脸的年龄。

图4示出本公开的机器学习模型的训练方法的一些实施例的示意图。

如图4所示，整个网络模型可分为两个部分：用于提取特征并进行年龄估计的回归机器学习模型；具有注意力机制模块，用于计算各分类隶属概率的分类机器学习模型。

在一些实施例中，可以使用shuffle Net V2(混洗网络)的分组卷积(Group convolution)模块和通道混洗(Channel shuffle)模块构建回归机器学习模型。

在一些实施例中，分组卷积模块可以按照不同的图像通道，将输入层的不同特征图进行分组。然后采用不同的卷积核，对各分组进行卷积。例如，可以利用深度分离卷积(Depth Wise)实现分组卷积模块，此时分组数量等于输入通道数量。

这样，可以利用这种通道稀疏连接方式，降低卷积的计算量。

在一些实施例中，经过分组卷积模块处理后，输出的是各分组的卷积结果，即各通道特征。分组卷积结果无法达到通道间特征通信的目的。鉴于此，可以利用通道混洗模块对各通道特征进行“重组”，使得重组后的特征图能够包含各通道特征中的分量。

这样，可以保证以重组后的特征图作为输入的分组卷积模块能够根据来源于不同通道的信息，继续进行特征提取。因此，这些信息可以在不同分组之间流转，提高机器学习模型的处理能力。

例如，回归机器学习模型可以包括Conv1_BR模块。Conv1_BR模块可以包括卷积层(如16个stride为2，padding为1的3×3卷积核)、BR(Batch norm Relu，批量正则化激活)层。

例如，在conv1_BR模块之后，可以交替连接多个分组卷积模块和多个通道重组模块，用于提取特征图。

例如，在多个分组卷积模块和多个通道重组模块之后，可以连接Conv5_BR模块。Conv5_BR模块可以包括卷积层(如32个stride为1，padding为0的1×1卷积)、BR层。

例如，Conv5_BR模块之后可以连接Flatten(平坦化)层、全连接层Fc1(如维度为年龄段分类数量的全连接层)、Softmax层、全连接层Fc2(如维度1)。Fc2的输出可以为年龄估计值。

在一些实施例中，可以利用DANet(Dual Attention Network，双注意力机制网络)中的CAM(Channel Attention mechanism，通道注意力机制CAM)模块，构建分类机器学习模型中的通道注意力模块。CAM模块用于提取各通道特征之间的关系(关联信息)。例如，可以根据关联信息，对各通道特征进行加权处理，以更新各通道特征。

这样，可以增强特征图对图像的表达能力，从而提高机器学习模型的处理能力。

例如，分类机器学习模型可以包括连接在CAM模块后的Conv6_BR层。Conv6_BR层可以包括卷积层(如32个stride为1，padding为0的1×1卷积)、BR层。

例如，在Conv6_BR层后面还可以连接Flatten层、全连接层Fc_fl(如维度等于年龄数值的数量的全连接层)、softmax层。最终输出人脸属于各年龄数值的隶属概率。

在一些实施例中，可以根据第一损失函数训练回归机器学习模型；根据第二损失函数训练分类机器学习模型；利用综合损失函数训练回归机器学习模型。

在上述实施例中，针对同一处理任务，利用分类学习模型共享回归学习模型提取的特征图，并辅助训练回归学习模型。这样，可以结合分类处理和回归处理训练机器学习模型，从而提高机器学习模型的处理能力。

图5示出本公开的机器学习模型的训练装置的一些实施例的流程图。

如图5所示，机器学习模型的训练装置5，包括至少一个处理器51。处理器51被配置为执行上述任一个实施例中的训练方法。

图6示出本公开的电子设备的一些实施例的框图。

如图6所示，该实施例的电子设备6包括：存储器61以及耦接至该存储器61的处理器62，处理器62被配置为基于存储在存储器61中的指令，执行本公开中任意一个实施例中的机器学习模型的训练方法或人脸图像的年龄识别方法。

其中，存储器61例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图7示出本公开的电子设备的另一些实施例的框图。

如图7所示，该实施例的电子设备7包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一个实施例中的机器学习模型的训练方法或人脸图像的年龄识别方法。

存储器710例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。

电子设备7还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730、740、750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

至此，已经详细描述了根据本公开的机器学习模型的训练方法、机器学习模型的装置、人脸图像的年龄识别方法、人脸图像的年龄识别装置、电子设备和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和***。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

一种机器学习模型的训练方法，包括：

将图像样本输入回归机器学习模型，利用所述回归机器学习模型提取所述图像样本的特征图，根据所述特征图确定所述图像样本的识别结果；

将所述特征图输入分类机器学习模型，根据所述特征图，利用所述分类机器学习模型，确定所述图像样本属于各分类的隶属概率；

根据所述识别结果和所述图像样本的标注结果，计算第一损失函数，根据所述隶属概率和所述图像样本的标注结果，计算第二损失函数；

利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型。
根据权利要求1所述的训练方法，其中，所述利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型包括：

利用所述第一损失函数训练所述回归机器学习模型，然后利用所述第一损失函数和所述第二损失函数的加权和训练所述回归机器学习模型。
根据权利要求1所述的训练方法，其中，所述利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型包括：

利用所述第二损失函数训练所述分类机器学习模型，然后利用所述第一损失函数和所述第二损失函数的加权和训练所述分类机器学习模型。
根据权利要求1所述的训练方法，其中，所述根据所述隶属概率和所述图像样本的标注结果，计算第二损失函数包括：

根据所述图像样本所属正确分类中的样本数量在总样本数量中的占比，计算所述第二损失函数，所述第二损失函数与所述占比负相关。
根据权利要求1所述的训练方法，其中，所述利用回归机器学习模型提取图像样本的特征图包括：

利用回归机器学习模型提取所述图像样本对于各图像通道的通道特征；

将各所述通道特征组合为所述图像样本的特征图。
根据权利要求5所述的训练方法，其中，所述利用回归机器学习模型提取所述图像样本对于各图像通道的通道特征包括：

利用回归机器学习模型，按照不同的图像通道分别对所述图像样本进行卷积，提取所述各通道特征。
根据权利要求1所述的训练方法，其中，所述根据所述特征图，利用分类机器学习模型，确定所述图像样本属于各分类的隶属概率包括：

利用所述分类机器学习模型，确定所述特征图中各图像通道之间的关联信息；

根据所述关联信息，更新所述特征图；

根据更新后的特征图，确定所述图像样本属于各分类的隶属概率。
根据权利要求7所述的训练方法，其中，所述根据所述关联信息，更新所述特征图包括：

根据所述关联信息，确定所述各通道特征的权重；

利用所述权重，对相应的通道特征进行加权处理；

根据加权处理后的所述各通道特征，更新所述特征图。
根据权利要求1-8任一项所述的训练方法，其中，

所述图像样本为人脸图像样本，所述识别结果为所述人脸图像样本中人脸的年龄，所述各分类为各年龄段分类。
一种人脸图像的年龄识别方法，包括：

利用权利要求1-9任一项所述的训练方法训练的回归机器学习模型，识别人脸图像中人脸的年龄。
一种机器学习模型的训练装置，包括至少一个处理器，所述处理器被配置为执行如下步骤：

将图像样本输入回归机器学习模型，利用所述回归机器学习模型提取所述图像样本的特征图，根据所述特征图确定所述图像样本的识别结果；

将所述特征图输入分类机器学习模型，根据所述特征图，利用所述分类机器学习模型，确定所述图像样本属于各分类的隶属概率；

根据所述识别结果和所述图像样本的标注结果，计算第一损失函数，根据所述隶属概率和所述图像样本的标注结果，计算第二损失函数；

利用所述第一损失函数和所述第二损失函数，训练所述回归机器学习模型。
一种人脸图像的年龄识别装置，包括至少一个处理器，所述处理器被配置为执行如下步骤：

利用权利要求1-9任一项所述的训练方法训练的回归机器学习模型，识别人脸图像中人脸的年龄。
一种电子设备，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-9任一项所述的机器学习模型的训练方法或权利要求10所述的人脸图像的年龄识别方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-9任一项所述的机器学习模型的训练方法或权利要求10所述的人脸图像的年龄识别方法。