CN114358197A

CN114358197A - 分类模型的训练方法及装置、电子设备、存储介质

Info

Publication number: CN114358197A
Application number: CN202210021820.3A
Authority: CN
Inventors: 单齐齐; 周涛; 史治国
Original assignee: Shanghai Yibao Health Management Co ltd; Zhejiang University ZJU
Current assignee: Shanghai Yibao Health Management Co ltd; Zhejiang University ZJU
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-15

Abstract

本申请提供一种分类模型的训练方法及装置、电子设备、计算机可读存储介质，方法包括：构建与已训练的标准分类模型对应的轻量模型；将样本数据集中的样本***图像分别输入标准分类模型和轻量模型，获得标准分类模型在预测过程的第一损失参数和轻量模型在预测过程中的第二损失参数；对第一损失参数和第二损失参数加权求和，得到目标损失参数；依据目标损失参数对轻量模型的网络参数进行调整，并迭代至轻量模型收敛，得到轻量分类模型。本申请方案，训练过程中参考了标准分类模型的第一凭据参数，可将标准分类模型从样本***图像中学习到的知识传递至轻量模型，从而训练出预测效果更佳、模型复杂度较低的轻量分类模型。

Description

分类模型的训练方法及装置、电子设备、存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种分类模型的训练方法及装置、电子设备、计算机可读存储介质。

背景技术

深度学习领域，为使网络模型达到更好的预测效果，一是可以采用过参数化的深度神经网络；二是可以集成多个较弱的网络模型。这两种方式均具有极大的支出，网络模型在运行时占用的计算资源非常大，计算量大，因此在部署时受到硬件条件的限制。为降低网络模型的部署门槛，可以通过量化权值和剪枝的方式对网络模型进行压缩。然而，量化权值会使得网络模型在训练时反向传播不可行，因为梯度不能通过离散神经元反向传播，导致网络模型难以收敛。而剪枝的方法往往只能减少网络模型的规模，无法降低计算时间。

发明内容

本申请实施例的目的在于提供一种分类模型的训练方法及装置、电子设备、计算机可读存储介质，用于在网络模型的复杂度较低的情况下，训练出预测效果更好的分类模型。

一方面，本申请提供了一种分类模型的训练方法，包括：

构建与已训练的标准分类模型对应的轻量模型；

将样本数据集中的样本***图像分别输入所述标准分类模型和所述轻量模型，获得所述标准分类模型在预测过程的第一凭据参数和所述轻量模型在预测过程中的第二凭据参数；

根据所述第一凭据参数和所述第二凭据参数，确定目标损失参数；

依据所述目标损失参数对所述轻量模型的网络参数进行调整，并迭代至所述轻量模型收敛，得到轻量分类模型。

在一实施例中，在所述构建与已训练的标准分类模型对应的轻量模型之前，所述方法还包括：

将样本数据集中的样本***图像输入标准网络模型，获得所述标准网络模型输出的预测类别信息；其中，所述样本数据集包括多个样本***图像，每一样本***图像携带***类别标签；

基于所述预测类别信息与所述***类别标签之间的差异，调整所述标准网络模型的网络参数，直至所述标准网络模型收敛，得到标准分类模型。

在一实施例中，所述方法还包括：

将目标***图片输入所述轻量分类模型，获得所述轻量分类模型输出的***类别信息。

在一实施例中，所述标准分类模型包括第一卷积神经网络和第一分类器，所述第一凭据参数通过如下方式确定：

在所述标准分类模型对任一样本图像预测过程中，获得所述第一卷积神经网络对所述样本图像的卷积计算结果，作为所述第一凭据参数。

在一实施例中，所述轻量模型包括第二卷积神经网络和第二分类器，所述第二凭据参数通过如下方式确定：

在所述轻量模型对任一样本图像预测过程中，获得所述第二卷积神经网络对所述样本图像的卷积计算结果，作为所述第二凭据参数。

在一实施例中，所述根据所述第一凭据参数和所述第二凭据参数，确定目标损失参数，包括：

根据所述第一凭据参数、所述第二凭据参数、预设第一温度参数和预设类别总量，确定第一损失参数；

根据所述样本***图像的***类别标签、所述第二凭据参数、预设第二温度参数和所述类别总量，确定第二损失参数；

对所述第一损失参数和所述第二损失参数加权求和，得到所述目标损失参数。

在一实施例中，所述方法还包括：

获取多个初始***图像，并对所述多个初始***图像进行数据增强处理，得到多个样本***图像；

根据所述多个样本***图像构建所述样本数据集。

另一方面，本申请提供了一种分类模型的训练装置，包括：

构建模块，用于构建与已训练的标准分类模型对应的轻量模型；

获取模块，用于将样本数据集中的样本***图像分别输入所述标准分类模型和所述轻量模型，获得所述标准分类模型在预测过程的第一凭据参数和所述轻量模型在预测过程中的第二凭据参数；

确定模块，用于根据所述第一凭据参数和所述第二凭据参数，确定目标损失参数；

更新模块，用于依据所述目标损失参数对所述轻量模型的网络参数进行调整，并迭代至所述轻量模型收敛，得到轻量分类模型。

此外，本申请提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述分类模型的训练方法。

进一步的，本申请提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述分类模型的训练方法。

本申请方案，在已训练的标准分类模型之后，构建与其对应的轻量模型，在训练轻量模型时将样本***图像分别输入标准分类模型和轻量模型，从而依据标准分类模型预测过程的第一凭据参数和轻量模型在预测过程中的第二凭据参数，确定目标损失参数，并以目标损失参数对轻量模型的网络参数进行调整，从而训练出轻量分类模型；

由于训练过程中参考了已训练的标准分类模型的第一凭据参数，可将标准分类模型从样本***图像中学习到的知识传递至轻量模型，从而训练出预测效果更佳、模型复杂度较低的轻量分类模型。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的电子设备的结构示意图；

图2为本申请一实施例提供的分类模型的训练方法的流程示意图；

图3为本申请一实施例提供的目标损失参数的确定方法的流程示意图；

图4为本申请一实施例提供的分类模型的训练装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是主机，用于执行分类模型的训练方法。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请提供的分类模型的训练方法。

参见图2，为本申请一实施例提供的分类模型的训练方法的流程示意图，如图2所示，该方法可以包括以下步骤210-步骤240。

步骤210：构建与已训练的标准分类模型对应的轻量模型。

其中，标准分类模型是模型复杂度较高的网络模型。这里，模型复杂度可以以网络模型的参数量和每秒浮点运算数(floating-point operations per second，FLOPS)衡量。示例性的标准分类模型的参数量的数量级在10⁷，每秒浮点运算数的数量级在10⁸。

轻量模型是模型复杂度较低的网络模型。示例性的，轻量模型的参数量的数量级在10⁶，每秒浮点运算数的数量级在10⁷。

在获得已训练的标准分类模型之后，主机可以构建与标准分类模型具有相似结构的轻量模型。主机可以响应于轻量模型的搭建指令，依据搭建指令所指示的方式，构建轻量模型。

步骤220：将样本数据集中的样本***图像分别输入标准分类模型和轻量模型，获得标准分类模型在预测过程的第一凭据参数和轻量模型在预测过程中的第二凭据参数。

其中，样本***图像为待分类的***图像。样本数据集中可以包括多个样本***图像，且每一样本***图像均携带***类别标签，该***类别标签指示样本***图像的类别。示例性的，样本***图像的类别可以包括医疗***、出租车***、餐饮消费***、超市消费***、旅店住宿***等。

第一凭据参数表示标准分类模型在预测过程从样本***图像提取的特征参数。第二凭据参数表示轻量模型在预测过程从样本***图像提取的特征参数。

步骤230：根据第一凭据参数和第二凭据参数，确定目标损失参数。

步骤240：依据目标损失参数对轻量模型的网络参数进行调整，并迭代至轻量模型收敛，得到轻量分类模型。

这里，目标损失参数为评估轻量模型在预测过程的误差的参数。

在获得第一凭据参数和第二凭据参数之后，主机可以根据两种凭据参数进行计算，从而获得目标损失参数。在获得目标损失参数之后，可以对轻量模型的网络参数进行调整。

经过调整之后，主机可以重新将样本数据集中的样本***图像分别输入标准分类模型和轻量模型，从而重新得到第一凭据参数和第二凭据参数，并依据新的第一凭据参数和第二凭据参数确定新的目标损失参数，以新的目标损失参数调整轻量模型的网络参数。

经过反复迭代，当目标损失参数趋于稳定时，可以认定轻量模型收敛，此时，得到用于对***图像进行分类的轻量分类模型。

通过上述措施，在获得模型复杂度较高的标准分类模型之后，可以以该标准分类模型作为教师模型，构建与其对应的模型复杂度较低的轻量模型，作为学生模型；在训练轻量模型时，将样本***图像分别输入标准分类模型和轻量模型，获得标准分类模型在预测过程中的第一凭据参数和轻量模型在预测过程中的第二凭据参数，并以第一凭据参数和第二凭据参数确定目标损失参数；由于标准分类模型经过训练，以第一凭据参数确定目标损失参数，可以将标准分类模型已学习的知识作为软标签传递至轻量模型，从而训练得到复杂度较低但预测效果更好的轻量分类模型。

在一实施例中，在构建与标准分类模型对应的轻量模型之前，可以训练得到标准分类模型。

主机可以将样本数据集中的样本***图像输入标准网络模型，获得标准网络模型输出的预测类别信息。这里，预测类别信息为网络模型输出的类别信息。

主机可以基于预测类别信息与***类别标签之间的差异，调整标准网络模型的网络参数。预测类别信息和***类别标签均可以为多维向量；多维向量的每一元素表示对应类别的置信度。

主机可以通过交叉熵损失函数(Cross Entropy Loss)对预测类别信息与***类别标签之间的差异进行计算，获得损失参数，并以该损失参数调整标准网络模型的网络参数。交叉熵损失函数可以通过如下公式(1)来表示：

其中，n表示一个批次样本***图像的数量；m表示类别总量；y_im表示第i个样本***图像在第m个类别上的真实置信度；y’_im表示第i个样本***图像在第m个类别上的预测置信度。

在训练过程中，经过多个轮次迭代后，可以降低标准网络模型的学习率。示例性的，标准网络模型的总训练量为100轮，经过29轮训练之后，可以第一次降低学习率；经过59轮训练之后，可以第二次降低学习率。

通过反复迭代，当损失参数趋于稳定时，可以认定标准网络模型收敛，此时，得到标准分类模型。

在一实施例中，在训练得到轻量分类模型之后，可以通过轻量分类模型对***图像进行分类。

主机可以将目标***图像输入轻量分类模型，从而得到轻量分类模型输出的***类别信息。这里，目标***图像为待分类的***图像，***类别信息用于指示目标***图像所属的***类别。

由于轻量分类模型的模型复杂度较低，计算量较小，计算时长较短，可以通过轻量分类模型快速获得目标***图像的分类结果。此外，由于轻量分类模型的部署门槛较低，主机可以将轻量分类模型部署至硬件条件较低的设备(比如：手机)，从而在其它设备上通过轻量分类模型进行***类别的检测。

在一实施例中，标准分类模型包括第一卷积神经网络和第一分类器。这里，第一卷积神经网络是复杂度较高的卷积神经网络，示例性的，第一卷积神经网络可以是ResNet18；第一分类器用于依据第一卷积神经网络的输出，计算得到预测类别信息，示例性的，第一分类器可以是softmax。

在标准分类模型对任一样本图像预测过程中，主机可以获得第一卷积神经网络对样本图像的卷积计算结果，作为第一凭据参数。这里，卷积计算结果为第一卷积神经网络的最后一个网络层输出的计算结果。

在一实施例中，轻量模型包括第二卷积神经网络和第二分类器。这里，第二卷积神经网络是复杂度较低的卷积神经网络，第二卷积神经网络相比第一卷积神经网络，可以包含更少的卷积层，示例性的，第二卷积神经网络可以是TRN8(Tiny Residual Network 8)；第二分类器用于依据第二卷积神经网络的输出，计算得到预测类别信息，示例性的，第二分类器可以是softmax。

在轻量模型对任一样本图像预测过程中，主机可以获得第二卷积神经网络对样本图像的卷积计算结果，作为第二凭据参数。这里，卷积计算结果为第二卷积神经网络的最后一个网络层输出的计算结果。

在一实施例中，参见图3，为本申请一实施例提供的目标损失参数的确定方法的流程示意图，如图3所示，该方法可以包括如下步骤310-步骤330。

步骤310：根据第一凭据参数、第二凭据参数、预设第一温度参数和预设类别总量，确定第一损失参数。

其中，第一温度参数为大于1的数值，示例性的，第一温度参数为2.5。

主机可以通过第一凭据参数、第一温度参数和类别总量，确定标准分类模型在第一温度参数下的softmax输出在各个类别上的值(置信度)。示例性的，通过如下公式(2)表示：

这里，T为第一温度参数；p_i ^T是标准分类模型在第一温度参数下的softmax输出在第i个类别上的值；N为类别总量；v_i为第一凭据参数在第i个类别上的值；v_k表示第一凭据参数在第k个类别上的值。

主机可以通过第二凭据参数、第一温度参数和类别总量，确定轻量模型在第一温度参数下的softmax输出在各个类别上的值。示例性的，通过如下公式(3)表示：

这里，T为第一温度参数；q_i ^T是轻量模型在第一温度参数下的softmax输出在第i个类别上的值；N为类别总量；z_i为第二凭据参数在第i个类别上的值；z_k表示第二凭据参数在第k个类别上的值。

在获得标准分类模型在第一温度参数下的softmax输出在各个类别上的值，以及轻量模型在第一温度参数下的softmax输出在各个类别上的值之后，主机可以确定第一损失参数。示例性的，通过如下公式(4)表示：

这里，L_soft为第一损失参数；N为类别总量；q_j ^T是轻量模型在第一温度参数下的softmax输出在第j个类别上的值；p_j ^T是标准分类模型在第一温度参数下的softmax输出在第j个类别上的值。

步骤320：根据样本***图像的***类别标签、第二凭据参数、预设第二温度参数和类别总量，确定第二损失参数。

其中，第二温度参数可以为1。

主机可以通过第二凭据参数、第二温度参数和类别总量，确定轻量模型在第二温度参数下的softmax输出在各个类别上的值。示例性的，通过如下公式(5)表示：

这里，T为第二温度参数；q_i ^T是轻量模型在第二温度参数下的softmax输出在第i个类别上的值；N为类别总量；z_i为第二凭据参数在第i个类别上的值；z_k表示第二凭据参数在第k个类别上的值。

在获得轻量模型在第二温度参数下的softmax输出在各个类别上的值之后，主机可以结合***类别标签确定第二损失参数。示例性的，通过如下公式(6)表示：

这里，L_hard为第二损失参数；N为类别总量；q_j ^T是轻量模型在第二温度参数下的softmax输出在第j个类别上的值；p_j ^T是***类别标签在第j个类别上的值，若***类别标签指示***属于第j类***，则该值为1，否则，该值为0。

步骤330：对第一损失参数和第二损失参数加权求和，得到目标损失参数。

主机可以根据预设权重系数，对第一损失参数和第二损失参数进行加权求和，从而得到目标损失参数。示例性的，通过如下公式(7)表示：

L＝αL_soft+βL_hard (7)

其中，L为目标损失参数；L_soft为第一损失参数；α为第一损失参数的权重系数，示例性的，该权重系数可以为1；L_hard为第二损失参数；β为第二损失参数的权重系数，示例性的，该权重系数可以为0.5。

在一实施例中，在训练标准分类模型和轻量分类模型之前，可以构建样本数据集。

主机可以获取多个初始***图像，并对多个初始***图像进行数据增强处理，得到多个样本***图像。

其中，初始***图像可以为拍摄得到的***图像，或者从外部数据源直接获得的***图像。初始***图像可以经过标注，已携带***类别标签。样本***图像为最终用于训练的***图像。

主机可以对初始***图像修改亮度、对比度、饱和度，进行色调抖动、统一尺寸、随机旋转，从而完成数据增强处理，提高***图像的数据量。经过图像增强处理的样本***图像，携带其对应的初始***图像的***类别标签。在获得多个样本***图像之后，主机可以根据多个样本***图像构建样本数据集。

通过上述措施，主机可以提高***图像的数据量，从而使得后续训练效果更好。

本申请方案通过模型复杂度高的标准分类模型作为教师模型，以模型复杂度低的轻量模型作为学生模型，通过知识蒸馏(Knowledge Distillation)的训练方式，将教师模型已学习的知识传递至学生模型，使得轻量模型训练得到的轻量分类模型具有更好的预测效果。其中，预测效果可以通过ACC(accuracy，准确率)来表示。

示例性的，标准分类模型中卷积神经网络为resnet18，经过样本数据集训练后，准确率为99.7％；轻量分类模型中卷积神经网络为trn8，经过样本数据集训练后，准确率为99.18％；通过知识蒸馏的方式，在已训练的标准分类模型的基础上，训练出轻量分类模型，准确率为99.68％。可见，在轻量分类模型的网络结构未变化的情况下，以知识蒸馏的方式进行训练，可以显著提升预测效果。

图4是本发明一实施例的一种分类模型的训练装置的框图，如图4所示，该装置可以包括：

构建模块410，用于构建与已训练的标准分类模型对应的轻量模型；

获取模块420，用于将样本数据集中的样本***图像分别输入所述标准分类模型和所述轻量模型，获得所述标准分类模型在预测过程的第一凭据参数和所述轻量模型在预测过程中的第二凭据参数；

确定模块430，用于根据所述第一凭据参数和所述第二凭据参数，确定目标损失参数；

更新模块440，用于依据所述目标损失参数对所述轻量模型的网络参数进行调整，并迭代至所述轻量模型收敛，得到轻量分类模型。

上述装置中各个模块的功能和作用的实现过程具体详见上述分类模型的训练方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种分类模型的训练方法，其特征在于，包括：

构建与已训练的标准分类模型对应的轻量模型；

2.根据权利要求1所述的方法，其特征在于，在所述构建与已训练的标准分类模型对应的轻量模型之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述标准分类模型包括第一卷积神经网络和第一分类器，所述第一凭据参数通过如下方式确定：

5.根据权利要求1所述的方法，其特征在于，所述轻量模型包括第二卷积神经网络和第二分类器，所述第二凭据参数通过如下方式确定：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一凭据参数和所述第二凭据参数，确定目标损失参数，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述多个样本***图像构建所述样本数据集。

8.一种分类模型的训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的分类模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的分类模型的训练方法。