CN110232411B

CN110232411B - 模型蒸馏实现方法、装置、***、计算机设备及存储介质

Info

Publication number: CN110232411B
Application number: CN201910463011.6A
Authority: CN
Inventors: 李超; 刘国翌; 张家栋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2022-08-23
Anticipated expiration: 2039-05-30
Also published as: CN110232411A

Abstract

本发明公开了模型蒸馏实现方法，装置、***、计算机设备及存储介质，其中方法可包括：教师模型客户端针对用于模型训练的每张图像，分别进行以下处理：获取图像的预测标签，所述预测标签为教师模型服务端对图像进行前向预测后生成的；将图像及预测标签存入图像数据队列，以便模型训练器基于图像数据队列中的内容进行学生模型训练。应用本发明所述方案，可加快模型训练速度等。

Description

模型蒸馏实现方法、装置、***、计算机设备及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及模型蒸馏实现方法，装置、***、计算机设备及存储介质。

【背景技术】

近些年来，卷积神经网络技术在计算机视觉领域广泛发展，卷积神经网络的结构越来越多，其适用的范围也各不相同，如基于残差神经网络(ResNet，Residual NeuralNetwork)152结构的分类模型，具有精度高、效果好等特点，但其参数多、模型大、计算量大，受端上存储空间、计算能力的限制无法广泛使用。

鉴于此，一些针对手机端的卷积神经网络结构应运而生，如MobileNet模型、ShuffleNet模型等，这些卷积神经网络结构参数少、计算量小，非常适合在端上运行，但模型精度和效果与ResNet152模型等相比还有较大差距。因此，如何提升端上小模型的精度成为一个丞待解决的问题。

为了提升端上小模型的精度，目前通常采用模型蒸馏的方式，即使用一个高精度的大模型去指导小模型的训练，大模型又可称为教师模型，如可为ResNet152模型等，小模型又可称为学生模型，如可为MobileNet模型等。可以使用一个教师模型训练多个学生模型。

整个训练过程通常包含多轮，每轮都会使用一遍用于模型训练的图像集中的图像，受训练硬件资源的限制，每轮的训练又会分为多次，每次获取图像集中的一组图像用于训练。每次的训练过程可包括：教师模型和学生模型拉取同一组图像；教师模型和学生模型分别对拉取的图像进行前向预测(前向计算)，获得教师模型输出和学生模型输出；通过损失函数计算教师模型输出和学生模型输出的误差；根据误差对学生模型进行反向传播，更新学生模型，训练完成后的学生模型即为所需的模型。

但是，上述方式在实际应用中也会存在一定的问题，如：教师模型和学生模型共享训练服务器，教师模型的模型参数多、计算量大，会抢占有限的训练资源，如图形处理器(GPU，Graphics Processing Unit)资源等，而学生模型是所需训练的模型，这样无疑会影响学生模型的训练速度等。

【发明内容】

有鉴于此，本发明提供了模型蒸馏实现方法，装置、***、计算机设备及存储介质。

具体技术方案如下：

一种模型蒸馏实现方法，包括：

教师模型客户端针对用于模型训练的每张图像，分别进行以下处理：

获取所述图像的预测标签，所述预测标签为教师模型服务端对所述图像进行前向预测后生成的；

将所述图像及所述预测标签存入图像数据队列，以便模型训练器基于所述图像数据队列中的内容进行学生模型训练。

一种模型蒸馏实现方法，包括：

教师模型服务端对教师模型客户端所请求的用于模型训练的图像进行前向预测，生成预测标签；

所述教师模型服务端将所述预测标签返回给所述教师模型客户端，以便所述教师模型客户端将所述图像及所述预测标签存入图像数据队列，用于模型训练器基于所述图像数据队列中的内容进行学生模型训练。

一种模型蒸馏实现方法，包括：

模型训练器获取学生模型输出；所述学生模型输出为学生模型从图像数据队列中拉取到图像及对应的预测标签后，利用拉取到的图像进行前向预测后的输出结果；所述图像数据队列中保存有教师模型客户端存入的用于模型训练的图像及对应的预测标签；所述预测标签为教师模型服务端对所述图像进行前向预测后生成并发送给所述教师模型客户端的；

所述模型训练器计算拉取到的所述预测标签与所述学生模型输出的误差，根据所述误差对所述学生模型进行反向传播，更新所述学生模型。

一种模型蒸馏实现装置，所述模型蒸馏实现装置应用于教师模型客户端中，包括：第一获取单元以及存储单元；

所述第一获取单元，用于针对用于模型训练的每张图像，分别获取所述图像的预测标签，所述预测标签为教师模型服务端对所述图像进行前向预测后生成的；

所述存储单元，用于将所述图像及所述预测标签存入图像数据队列，以便模型训练器基于所述图像数据队列中的内容进行学生模型训练。

一种模型蒸馏实现装置，所述模型蒸馏实现装置应用于教师模型服务端中，包括：预测单元以及反馈单元；

所述预测单元，用于对教师模型客户端所请求的用于模型训练的图像进行前向预测，生成预测标签；

所述反馈单元，用于将所述预测标签返回给所述教师模型客户端，以便所述教师模型客户端将所述图像及所述预测标签存入图像数据队列，用于模型训练器基于所述图像数据队列中的内容进行学生模型训练。

一种模型蒸馏实现装置，所述模型蒸馏实现装置应用于模型训练器中，包括：第二获取单元以及更新单元；

所述第二获取单元，用于获取学生模型输出；所述学生模型输出为学生模型从图像数据队列中拉取到图像及对应的预测标签后，利用拉取到的图像进行前向预测后的输出结果；所述图像数据队列中保存有教师模型客户端存入的用于模型训练的图像及对应的预测标签；所述预测标签为教师模型服务端对所述图像进行前向预测后生成并发送给所述教师模型客户端的；

所述更新单元，用于计算拉取到的所述预测标签与所述学生模型输出的误差，根据所述误差对所述学生模型进行反向传播，更新所述学生模型。

一种模型蒸馏实现***，包括：如以上所述的三种模型蒸馏实现装置。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，可将教师模型侧的处理与学生模型的训练解耦，如在教师模型完成前向预测生成图像的预测标签之后，利用存储在图像数据队列中的图像及对应的预测标签进行学生模型的训练，从而避免了教师模型对训练资源的抢占，使得学生模型可以尽可能得独享训练资源，加快训练速度等。

【附图说明】

图1为本发明所述模型蒸馏实现方法第一实施例的流程图。

图2为现有模型蒸馏实现过程示意图。

图3为本发明所述模型蒸馏实现方法第二实施例的流程图。

图4为本发明所述模型蒸馏实现方法第三实施例的流程图。

图5为本发明所述模型蒸馏实现过程示意图。

图6为本发明所述模型蒸馏实现装置第一实施例的组成结构示意图。

图7为本发明所述模型蒸馏实现装置第二实施例的组成结构示意图。

图8为本发明所述模型蒸馏实现装置第三实施例的组成结构示意图。

图9示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明所述模型蒸馏实现方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，教师模型客户端针对用于模型训练的每张图像，分别按照102-103所示方式进行处理。

在102中，获取图像的预测标签，所述预测标签为教师模型服务端对图像进行前向预测后生成的。

在103中，将图像及预测标签存入图像数据队列，以便模型训练器基于图像数据队列中的内容进行学生模型训练。

为便于表述，将待处理的图像称为图像a。针对图像a，可获取其预测标签，如图像分类结果。具体地，可首先确定是否缓存有图像a的预测标签，若是，可将缓存的预测标签作为获取到图像a的预测标签，若否，可向教师模型服务端请求图像a的预测标签，并获取教师模型服务端返回的图像a的预测标签，还可将图像a的预测标签进行缓存。

可以看出，本发明所述方案中，将教师模型分为教师模型客户端和教师模型服务端，当教师模型客户端确定未缓存有图像a的预测标签时，可向教师模型服务端请求图像a的预测标签，并可获取教师模型服务端对图像a进行前向预测后生成的预测标签，进行缓存等。

为了加强模型泛化能力，提升模型训练效果等，进行前向预测所基于的图像通常为预处理后的图像。为此，教师模型客户端可生成图像a的预处理标识符(pkey)，用于指示需要对图像a执行的预处理操作，进而可将图像a及预处理标识符均发送给教师模型服务端，向教师模型服务端请求图像a的预测标签。相应地，教师模型服务端可根据预处理标识符对图像a执行预处理操作，之后可基于预处理后的图像进行前向预测后生成预测标签。

预处理操作可包括是否需要对图像进行反转、是否需要进行色彩变换、是否需要进行缩放等。可在预处理标识符中指明所需进行的预处理操作，即由预处理标识符可以映射到一组图像预处理操作。预处理标识符的具体格式不作限制，可根据实际需要而定。教师模型客户端如何确定需要对图像a执行哪些预处理操作同样不作限制，可根据实际需要而定。教师模型服务端可根据预处理标识符的指示，对图像a进行预处理操作，如进行图像反转和色彩变换等，之后可将预处理后的图像a传入教师网络，进行前向预测，得到预测标签，返回给教师模型客户端。

如前所述，对图像进行预处理可加强模型泛化能力，提升模型训练效果等，因此教师模型客户端可获取预处理后的图像a，将预处理后的图像a及图像a的预测标签存入图像数据队列，即存入到图像数据队列中的图像a不是原始的图像a，而是进行预处理后的图像a。

可以由教师模型客户端对图像a进行预处理，得到预处理后的图像a。或者，教师模型客户端也可获取教师模型服务端返回的预处理后的图像a，教师模型服务端在根据预处理标识符对图像a执行预处理操作后，可将预处理后的图像a返回给教师模型客户端，可以和预测标签同时返回，也可分别返回。教师模型客户端也可对预处理后的图像a进行缓存，从而可以在后续需要时直接使用。

模型训练器可基于图像数据队列中的内容进行学生模型训练，如模型训练器可获取学生模型输出，所述学生模型输出为学生模型从图像数据队列中拉取到图像及对应的预测标签后，利用拉取到的图像进行前向预测后的输出结果，计算拉取到的预测标签与学生模型输出的误差，根据误差对学生模型进行反向传播，更新学生模型。

可以看出，本实施例所述方案中，可将教师模型侧的处理与学生模型的训练解耦，如在教师模型完成前向预测生成图像的预测标签之后，利用存储在图像数据队列中的图像及对应的预测标签进行学生模型的训练，从而避免了教师模型对训练资源的抢占，使得学生模型可以尽可能得独享训练资源，加快训练速度等。

另外，采用本实施例所述方案，还可避免大量的重复结算，节省计算资源等。

图2为现有模型蒸馏实现过程示意图。如图2所示，假设存在两个学生模型，分别为学生模型A和学生模型B，这些学生模型通常具有以下特点：训练任务不同，如学生模型A为动物分类模型，学生模型B为植物分类模型；网络结构不同，如学生模型A为MobileNet模型，学生模型B为ShuffleNet模型；训练配置不同，如不同的学习率、不同的优化方法、不同的预处理方式等；其中，后两种方式尤为常见。

如图2所示，不同学生模型的训练流程类似，主要包括：将硬盘中的用于模型训练的图像集中的图像读取到内存中；对图像进行预处理；预处理后的图像会存放在图像数据队列中，供模型训练器使用。模型训练器中的训练通常会包含多轮，每轮都会使用一遍图像集中的图像，受训练硬件资源的限制，每轮的训练又会分为多次，每次可获取图像集中的一组图像用于训练。每次的训练过程可包括：教师模型和学生模型拉取同一组图像；教师模型和学生模型分别对拉取到的图像进行前向预测，获得教师模型输出和学生模型输出；通过损失函数计算教师模型输出和学生模型输出的误差；根据误差对学生模型进行反向传播，更新学生模型，训练完成后的学生模型即为所需的模型。

训练过程往往需要进行几十轮甚至上百轮，按照图2所示方式，不同轮使用的数据经常会发生重复，比如，教师模型是固定的，在每轮中均需要对图像进行前向预测，从而会导致大量重复的计算，造成了计算资源的浪费等。

而采用本实施例所述方案，在每轮的训练中，可直接将之前所缓存的预测标签等存入到图像数据队列(通常，每轮训练结束后图像数据队列会清空)，从而避免了大量的重复计算，极大地节省了计算资源等。

图3为本发明所述模型蒸馏实现方法第二实施例的流程图。如图3所示，包括以下具体实现方式。

在301中，教师模型服务端对教师模型客户端所请求的用于模型训练的图像进行前向预测，生成预测标签。

在302中，教师模型服务端将预测标签返回给教师模型客户端，以便教师模型客户端将图像及预测标签存入图像数据队列，用于模型训练器基于图像数据队列中的内容进行学生模型训练。

为便于表述，将所请求的图像称为图像a。针对图像a，教师模型客户端在确定未缓存有图像a的预测标签时，可向教师模型服务端请求图像a的预测标签。相应地，教师模型服务端可对图像a进行前向预测，生成预测标签，返回给教师模型客户端。教师模型客户端可将图像a及图像a的预测标签存入图像数据队列，以便模型训练器基于图像数据队列中的内容进行学生模型训练，并可将图像a的预测标签进行缓存。

教师模型客户端还可生成图像a的预处理标识符，用于指示需要对图像a执行的预处理操作，进而可将图像a及预处理标识符发送给教师模型服务端，向教师模型服务端请求图像a的预测标签。教师模型服务端获取到来自教师模型客户端的图像a及预处理标识符后，可根据预处理标识符对图像a执行预处理操作，之后可将预处理后的图像a传入教师网络，进行前向预测，得到预测标签，返回给教师模型客户端。

预处理操作可包括是否需要对图像进行反转、是否需要进行色彩变换、是否需要进行缩放等。

教师模型服务端还可将预处理后的图像a返回给教师模型客户端，可以和预测标签同时返回，也可分别返回。教师模型客户端可将预处理后的图像a及图像a的预测标签存入图像数据队列。

另外，深度学习任务一般分为两个阶段，训练阶段和预测阶段，训练阶段会对网络进行前向计算和反向传播，而预测阶段只会进行前向计算，可对其进行优化，如模型的层融合、存储复用、计算方法选择等，本实施例所述方案中，由于前向预测已经与模型训练解耦，因此可以使用TensorRT、Anakin等预测引擎进行优化加速，相比于现有方式，前向计算性能可提升2-3倍甚至4-5倍，并可提高资源利用率等。

图4为本发明所述模型蒸馏实现方法第三实施例的流程图。如图4所示，包括以下具体实现方式。

在401中，模型训练器获取学生模型输出；学生模型输出为学生模型从图像数据队列中拉取到图像及对应的预测标签后，利用拉取到的图像进行前向预测后的输出结果；图像数据队列中保存有教师模型客户端存入的用于模型训练的图像及对应的预测标签；预测标签为教师模型服务端对图像进行前向预测后生成并发送给教师模型客户端的。

在402中，模型训练器计算拉取到的预测标签与学生模型输出的误差，根据误差对学生模型进行反向传播，更新学生模型。

模型训练器中的训练通常会包含多轮，每轮都会使用一遍图像集中的图像，受训练硬件资源的限制，每轮的训练又会分为多次，每次可获取图像集中的一组图像(包括图像和对应的预测标签)用于训练。

学生模型每次可从图像数据队列中拉取一组图像，并可对拉取到的图像进行前向预测，得到学生模型输出，之后可通过损失函数计算拉取到的预测标签与学生模型输出的误差，进而可根据计算出的误差对学生模型进行反向传播，更新学生模型。其中，如何进行前向预测、如何计算误差以及如何对学生模型进行反向传播等均为现有技术。

图像数据队列中的图像可为预处理后的图像，可为教师模型客户端对用于模型训练的图像进行预处理后得到的，也可为教师模型服务端对用于模型训练的图像进行预处理后发送给教师模型客户端的。预测标签可为教师模型服务端基于预处理后的图像进行前向预测生成的。

综合上述介绍，图5为本发明所述模型蒸馏实现过程示意图。

如图5所示，可进行图像数据读取，即将硬盘中的用于模型训练的图像集中的图像读取到内存中。

针对图像集中的每张图像a，教师模型客户端可进行以下处理：确定是否缓存有图像a的预测标签，若是，可将预处理后的图像a及图像a的预测标签存入图像数据队列，若否，可生成图像a的预处理标识符，将图像a及预处理标识符发送给教师模型服务端，向教师模型服务端请求图像a的预测标签，并获取教师模型服务端返回的图像a的预测标签，将图像a的预测标签进行缓存，并将预处理后的图像a及图像a的预测标签存入图像数据队列。假设预处理后的图像a为教师模型客户端对图像a进行预处理后得到的。

教师模型服务端在接收到教师模型客户端发送来的图像a及预处理标识符后，可根据预处理标识符对图像a执行预处理操作，并可基于预处理后的图像a进行前向预测，得到预测标签，返回给教师模型客户端。

模型训练器中的训练通常会包含多轮，在每轮中的每次训练时，学生模型会从图像数据队列中拉取图像(预处理后的图像)及对应的预测标签，利用拉取到的图像进行前向预测，得到学生模型输出，之后可通过损失函数计算拉取到的预测标签与学生模型输出的误差，进而可根据计算出的误差对学生模型进行反向传播，更新学生模型。

通常来说，每轮训练结束后，图像数据队列会清空，下一轮训练时，教师模型客户端、教师模型服务端和模型训练器可重复上述处理，直至训练完成。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

总之，采用本发明方法实施例所述方案，将教师模型侧的处理与学生模型的训练解耦，从而更加方便对教师模型的维护管理，如预测引擎优化等，并可避免教师模型对训练资源的抢占，使得学生模型可以尽可能得独享训练资源，加快训练速度，再有，通过缓存处理，使得不同的学生模型的训练任务以及同一个训练任务的不同迭代(不同轮训练)之间可以共享计算结果，从而避免了大量的重复计算，节省了计算资源等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图6为本发明所述模型蒸馏实现装置第一实施例的组成结构示意图。本实施例所述模型蒸馏实现装置可应用于教师模型客户端中，如图6所示，包括：第一获取单元601以及存储单元602。

第一获取单元601，用于针对用于模型训练的每张图像，分别获取图像的预测标签，所述预测标签为教师模型服务端对图像进行前向预测后生成的。

存储单元602，用于将图像及预测标签存入图像数据队列，以便模型训练器基于图像数据队列中的内容进行学生模型训练。

第一获取单元601在需要获取图像的预测标签时，可首先确定是否缓存有预测标签，若是，则可将缓存的预测标签作为获取到的预测标签，若否，可向教师模型服务端请求预测标签，并获取教师模型服务端返回的预测标签，进行缓存。

具体地，第一获取单元601可生成图像的预处理标识符，预处理标识符用于指示需要对图像执行的预处理操作，将图像及预处理标识符发送给教师模型服务端，向教师模型服务端请求预测标签，进而可获取教师模型服务端根据预处理标识符对图像执行预处理操作后、基于预处理后的图像进行前向预测生成的预测标签。

优选地，存入到图像数据队列中的图像可为预处理后的图像，预处理后的图像可为第一获取单元601对图像进行预处理后得到的，也可为教师模型服务端对图像进行预处理后发送给第一获取单元601的。

图7为本发明所述模型蒸馏实现装置第二实施例的组成结构示意图。本实施例所述模型蒸馏实现装置可应用于教师模型服务端中，如图7所示，包括：预测单元701以及反馈单元702。

预测单元701，用于对教师模型客户端所请求的用于模型训练的图像进行前向预测，生成预测标签。

反馈单元702，用于将预测标签返回给教师模型客户端，以便教师模型客户端将图像及预测标签存入图像数据队列，用于模型训练器基于图像数据队列中的内容进行学生模型训练。

预测单元701可获取来自教师模型客户端的图像及预处理标识符，预处理标识符用于指示需要对图像执行的预处理操作，根据预处理标识符对图像执行预处理操作，基于预处理后的图像进行前向预测。比如，可根据预处理标识符的指示，对获取到的图像进行图像反转和色彩变换等预处理操作，之后可将预处理后的图像传入教师网络，进行前向预测，得到预测标签。

反馈单元702还可将预处理后的图像返回给教师模型客户端，以便教师模型客户端将预处理后的图像及预测标签存入图像数据队列。比如，在预测单元701根据预处理标识符对图像执行预处理操作后，反馈单元702可将预处理后的图像返回给教师模型客户端，可以和预测标签同时返回，也可分别返回。

图8为本发明所述模型蒸馏实现装置第三实施例的组成结构示意图。本实施例所述模型蒸馏实现装置可应用于模型训练器中，如图8所示，包括：第二获取单元801以及更新单元802。

第二获取单元801，用于获取学生模型输出；所述学生模型输出为学生模型从图像数据队列中拉取到图像及对应的预测标签后，利用拉取到的图像进行前向预测后的输出结果；图像数据队列中保存有教师模型客户端存入的用于模型训练的图像及对应的预测标签；所述预测标签为教师模型服务端对图像进行前向预测后生成并发送给教师模型客户端的。

更新单元802，用于计算拉取到的预测标签与学生模型输出的误差，根据误差对学生模型进行反向传播，更新学生模型。

模型训练器中的训练通常会包含多轮，每轮的训练又会分为多次。学生模型每次可从图像数据队列中拉取一组图像，并可对拉取到的图像进行前向预测，得到学生模型输出，之后可通过损失函数计算拉取到的预测标签与学生模型输出的误差，进而可根据计算出的误差对学生模型进行反向传播，更新学生模型。其中，如何进行前向预测、如何计算误差以及如何对学生模型进行反向传播等均为现有技术。

优选地，图像数据队列中的图像为预处理后的图像，可为教师模型客户端对图像进行预处理后得到的，也可为教师模型服务端对图像进行预处理后发送给教师模型客户端的。预测标签可为教师模型服务端基于预处理后的图像进行前向预测生成的。

本发明同时公开了一种模型蒸馏实现***，可包括：如图6所示实施例中的模型蒸馏实现装置、如图7所示实施例中的模型蒸馏实现装置，以及，如图8所示实施例中的模型蒸馏实现装置。

上述装置和***实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本发明装置和***实施例所述方案，将教师模型侧的处理与学生模型的训练解耦，从而更加方便对教师模型的维护管理，如预测引擎优化等，并可避免教师模型对训练资源的抢占，使得学生模型可以尽可能得独享训练资源，加快训练速度，再有，通过缓存处理，使得不同的学生模型的训练任务以及同一个训练任务的不同迭代(不同轮训练)之间可以共享计算结果，从而避免了大量的重复计算，节省了计算资源等。

图9示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图9显示的计算机***/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同***组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信，和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机***/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1、图3或图4所示实施例中的方法。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1、图3或图4所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种模型蒸馏实现方法，其特征在于，包括：

获取所述图像的预测标签，所述预测标签为教师模型服务端对所述图像进行前向预测后生成的，其中，所述前向预测为利用预定的预测引擎进行优化加速后的前向预测；

将所述图像及所述预测标签存入图像数据队列，以便模型训练器在所述用于模型训练的每张图像及对应的预测标签均存入所述图像数据队列中后、基于所述图像数据队列中的内容进行学生模型训练。

2.根据权利要求1所述的方法，其特征在于，

所述获取所述图像的预测标签包括：

确定是否缓存有所述预测标签；

若是，则将缓存的所述预测标签作为获取到的预测标签；

若否，则向所述教师模型服务端请求所述预测标签，获取所述教师模型服务端返回的所述预测标签，并将所述预测标签进行缓存。

3.根据权利要求2所述的方法，其特征在于，

该方法进一步包括：所述教师模型客户端生成所述图像的预处理标识符，所述预处理标识符用于指示需要对所述图像执行的预处理操作；

所述向所述教师模型服务端请求所述预测标签包括：所述教师模型客户端将所述图像及所述预处理标识符发送给所述教师模型服务端，向所述教师模型服务端请求所述预测标签；

所述获取所述教师模型服务端返回的所述预测标签包括：获取所述教师模型服务端根据所述预处理标识符对所述图像执行预处理操作后、基于预处理后的图像进行前向预测生成的预测标签。

4.根据权利要求3所述的方法，其特征在于，

所述图像数据队列中的图像为预处理后的图像；

所述预处理后的图像为所述教师模型客户端对所述图像进行预处理后得到的，或者，为所述教师模型服务端对所述图像进行预处理后发送给所述教师模型客户端的。

5.一种模型蒸馏实现方法，其特征在于，包括：

教师模型服务端对教师模型客户端所请求的用于模型训练的图像进行前向预测，生成预测标签，其中，所述前向预测为利用预定的预测引擎进行优化加速后的前向预测；

所述教师模型服务端将所述预测标签返回给所述教师模型客户端，以便所述教师模型客户端将所述图像及所述预测标签存入图像数据队列，用于模型训练器在所述用于模型训练的每张图像及对应的预测标签均存入所述图像数据队列中后、基于所述图像数据队列中的内容进行学生模型训练。

6.根据权利要求5所述的方法，其特征在于，

该方法进一步包括：所述教师模型服务端获取来自所述教师模型客户端的所述图像及预处理标识符，所述预处理标识符用于指示需要对所述图像执行的预处理操作；

所述进行前向预测包括：所述教师模型服务端根据所述预处理标识符对所述图像执行预处理操作，基于预处理后的图像进行前向预测。

7.根据权利要求6所述的方法，其特征在于，

该方法进一步包括：所述教师模型服务端将所述预处理后的图像返回给所述教师模型客户端，以便所述教师模型客户端将所述预处理后的图像及所述预测标签存入所述图像数据队列。

8.一种模型蒸馏实现方法，其特征在于，包括：

模型训练器获取学生模型输出；所述学生模型输出为学生模型从图像数据队列中拉取到图像及对应的预测标签后，利用拉取到的图像进行前向预测后的输出结果；所述图像数据队列中保存有教师模型客户端存入的用于模型训练的图像及对应的预测标签；所述预测标签为教师模型服务端对所述图像进行前向预测后生成并发送给所述教师模型客户端的，其中，所述前向预测为利用预定的预测引擎进行优化加速后的前向预测；

9.根据权利要求8所述的方法，其特征在于，

所述图像数据队列中的图像为预处理后的图像；

所述预处理后的图像为所述教师模型客户端对所述图像进行预处理后得到的，或者，为所述教师模型服务端对所述图像进行预处理后发送给所述教师模型客户端的；

所述预测标签为所述教师模型服务端基于预处理后的图像进行前向预测生成的。

10.一种模型蒸馏实现装置，其特征在于，所述模型蒸馏实现装置应用于教师模型客户端中，包括：第一获取单元以及存储单元；

所述第一获取单元，用于针对用于模型训练的每张图像，分别获取所述图像的预测标签，所述预测标签为教师模型服务端对所述图像进行前向预测后生成的，其中，所述前向预测为利用预定的预测引擎进行优化加速后的前向预测；

所述存储单元，用于将所述图像及所述预测标签存入图像数据队列，以便模型训练器在所述用于模型训练的每张图像及对应的预测标签均存入所述图像数据队列中后、基于所述图像数据队列中的内容进行学生模型训练。

11.根据权利要求10所述的装置，其特征在于，

所述第一获取单元确定是否缓存有所述预测标签，若是，则将缓存的所述预测标签作为获取到的预测标签，若否，则向所述教师模型服务端请求所述预测标签，获取所述教师模型服务端返回的所述预测标签，并将所述预测标签进行缓存。

12.根据权利要求11所述的装置，其特征在于，

所述第一获取单元进一步用于，生成所述图像的预处理标识符，所述预处理标识符用于指示需要对所述图像执行的预处理操作，将所述图像及所述预处理标识符发送给所述教师模型服务端，向所述教师模型服务端请求所述预测标签，获取所述教师模型服务端根据所述预处理标识符对所述图像执行预处理操作后、基于预处理后的图像进行前向预测生成的预测标签。

13.根据权利要求12所述的装置，其特征在于，

所述图像数据队列中的图像为预处理后的图像；

所述预处理后的图像为所述第一获取单元对所述图像进行预处理后得到的，或者，为所述教师模型服务端对所述图像进行预处理后发送给所述第一获取单元的。

14.一种模型蒸馏实现装置，其特征在于，所述模型蒸馏实现装置应用于教师模型服务端中，包括：预测单元以及反馈单元；

所述预测单元，用于对教师模型客户端所请求的用于模型训练的图像进行前向预测，生成预测标签，其中，所述前向预测为利用预定的预测引擎进行优化加速后的前向预测；

所述反馈单元，用于将所述预测标签返回给所述教师模型客户端，以便所述教师模型客户端将所述图像及所述预测标签存入图像数据队列，用于模型训练器在所述用于模型训练的每张图像及对应的预测标签均存入所述图像数据队列中后、基于所述图像数据队列中的内容进行学生模型训练。

15.根据权利要求14所述的装置，其特征在于，

所述预测单元进一步用于，获取来自所述教师模型客户端的所述图像及预处理标识符，所述预处理标识符用于指示需要对所述图像执行的预处理操作，根据所述预处理标识符对所述图像执行预处理操作，基于预处理后的图像进行前向预测。

16.根据权利要求15所述的装置，其特征在于，

所述反馈单元进一步用于，将所述预处理后的图像返回给所述教师模型客户端，以便所述教师模型客户端将所述预处理后的图像及所述预测标签存入所述图像数据队列。

17.一种模型蒸馏实现装置，其特征在于，所述模型蒸馏实现装置应用于模型训练器中，包括：第二获取单元以及更新单元；

所述第二获取单元，用于获取学生模型输出；所述学生模型输出为学生模型从图像数据队列中拉取到图像及对应的预测标签后，利用拉取到的图像进行前向预测后的输出结果；所述图像数据队列中保存有教师模型客户端存入的用于模型训练的图像及对应的预测标签；所述预测标签为教师模型服务端对所述图像进行前向预测后生成并发送给所述教师模型客户端的，其中，所述前向预测为利用预定的预测引擎进行优化加速后的前向预测；

18.根据权利要求17所述的装置，其特征在于，

所述图像数据队列中的图像为预处理后的图像；

19.一种模型蒸馏实现***，其特征在于，包括：如权利要求10-13中任一项所述的模型蒸馏实现装置、如权利要求14-16中任一项所述的模型蒸馏实现装置，以及，如权利要求17-18中任一项所述的模型蒸馏实现装置。

20.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～9中任一项所述的方法。

21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～9中任一项所述的方法。