CN111507378A

CN111507378A - 训练图像处理模型的方法和装置

Info

Publication number: CN111507378A
Application number: CN202010214454.4A
Authority: CN
Inventors: 魏龙辉; 肖安; 谢凌曦; 田奇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-08-07
Also published as: EP4113375A1; EP4113375A4; WO2021190451A1; US20230028237A1

Abstract

本申请中的技术方案可以应用于人工智能领域中的计算机视觉领域。本申请提供的训练图像处理模型的技术方案中，获得增强图像之后，获取增强图像的软标签，并基于该软标签指导图像处理模型的训练，以提高图像处理模型的性能。此外，本申请的技术方案中，可以从增强图像的软标签中选出较高的分值来指导图像处理模型的训练，从而进一步提高图像处理模型的性能。

Description

训练图像处理模型的方法和装置

技术领域

本申请涉及人工智能领域，并且更具体地，涉及计算机视觉领域中训练图像处理模型的方法和装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

随着人工智能技术的快速发展，神经网络，例如深度神经网络，近年来在图像、视频以及语音等多种媒体信号的处理与分析中取得了很大的成就。一个性能优良的神经网络一般都需要大量的训练数据才能获得比较理想的结果。在数据量有限的情况下，可以通过数据增强(data augmentation)来增加训练样本的多样性，提高网络模型的鲁棒性，避免过拟合。

自动数据增强技术是现在业界非常流行的一种数据增强方法，该技术在目标任务中搜索出较好甚至最好的数据增强策略，并利用搜索出的数据增强策略来对现有的训练数据集进行数据增强，以达到丰富训练数据集的目的，这使得使用该增强后的数据集上对模型进行训练可以大幅提升模型的性能。

尽管自动数据增强技术在各个任务上大获成功，但是，其在实际应用中还存在着许多问题。其中，最关建的问题是该技术一般是在整个数据集上进行数据增强策略搜索的，其策略虽然相对于整体数据集而言可能是较佳的，但是并不一定对每张图像都是较优的。

例如，“沿X轴坐标进行平移”操作能够让某些图像的背景从图像中移出去，在这种情况下显然是对图像分类任务有帮助的。但是，该操作也可能让某些图像的主体从图像中移出去，显然，这种情况对任务是有害的。

又如，一些亮度操作也很可能会改变图像中主体的原本样貌，使改变后的图像与自身类别的相似度变得更远，而与其他类别的相似度变得更小。

诸如上述已经改变了图像主体类别特征的增强图像统称为数据增强后的离群点。显然，在训练模型的时候，还用原始图像的类别标签对这些离群点进行指导是不恰当的，这样会增加图像处理模型学习的难度，进而降低图像处理模型的性能。

发明内容

本申请提供一种训练图像处理模型的方法，有助于提高训练后的图像处理模型的性能。

第一方面，本申请提供一种训练图像处理模型的方法，该方法包括：根据第一图像处理模型获取增强图像的第一软标签，所述增强图像为使用数据增强策略对训练图像进行数据增强得到的图像，所述第一软标签指示所述增强图像属于多个分类中每个分类的置信度；根据所述增强图像和所述增强图像的第一软标签，对第二图像处理模型进行训练。

其中，第一图像处理模型可以理解为对图像进行处理的模型，可以包括但不限于：图像分割模型，图像分类模型，物体检测模型，图像识别模型。第一图像处理模型可以由卷积神经网络、循环神经网络等网络模型构成。第一图像处理模型也可以称为教师模型，第二图像处理模型可以称为学生模型。本申请的训练方法可以看作是一种知识蒸馏与数据增强相结合的训练方法。

第一软标签指示的置信度可以是度量增强图像属于相应分类的分数或分值，也可以是增强图像属于相应分类的概率。

根据增强图像和增强图像的第一软标签对第二图像处理模型进行训练时，增强图像的第一软标签可以作为一种监督信号来指导第二图像处理模型的参数调整。

在对训练图像使用增强策略以获取增强图像时，部分增强策略会对训练图像产生破坏性的影响，导致增强图像与原始训练图像相比发生显著偏移。此时若仅采用原始训练图像的标签作为增强图像的标签来对模型进行训练，会影响模型性能。

第一方面的方法中，由于增强图像的第一软标签是根据增强图像中的内容预测得到的，因此在一定程度上可以保证增强图像中的内容与增强图像的第一软标签的一致性。此时，根据增强图像的第一软标签来监督模型的训练，有助于提高模型的性能。

在第一方面的一些可能的实现方式中，根据所述增强图像和所述增强图像的第一软标签，可以包括：根据所述第二图像处理模型获取所述增强图像的第二软标签，所述第二软标签指示所述增强图像属于多个分类中每个分类的置信度；根据所述第一软标签和所述第二软标签，调整所述第二图像处理模型的参数。

其中，根据所述第一软标签和所述第二软标签调整所述第二图像处理模型的参数，可以包括：根据所述第一软标签和所述第二软标签，确定所述第二图像处理模型的损失值，并根据该损失值调整所述第二图像处理模型的参数。

所述根据所述第一软标签和所述第二软标签，调整所述第二图像处理模型的参数，可以包括：根据所述第一软标签和所述第二软标签，确定所述第一软标签和所述第二软标签的相对熵；根据所述相对熵，调整所述第二图像处理模型的参数。

根据所述第一软标签和所述第二软标签调整所述第二图像处理模型的参数时，可以进一步结合增强图像的硬标签来调整所述第二图像处理模型的参数，即可以根据所述第一软标签、所述第二软标签和所述硬标签来调整所述第二图像处理模型的参数。

例如，可以根据所述第一软标签和所述第二软标签确定所述第一软标签和所述第二软标签的相对熵，并根据所述相对熵和所述硬标签确定所述第二图像处理模型的损失值，以及根据该损失值调整第二图像处理模型的参数。

所述第一目标软标签、所述第二目标软标签和所述损失值之间可以满足如下关系：

L＝y·lnf^S+ψ·KL[f^S||f^T]，

其中，L表示所述损失值，y表示所述增强图像的硬标签，KL[f^S||f^T]表示所述第一软标签和所述目标软标签的相对熵，ψ为预设的值。

经过分析发现，在根据第一软标签训练第二图像处理模型时，采用第一软标签中的全部置信度和全部分类信息作为监督信号进行训练，并非最优选择。这是因为较小的置信度和对应的分类对模型的训练所提供的监督作用较小，甚至可能会出现错误导向的情况。

因此，第一方面的一些可能的实现方式中，可以从第一软标签中选择较高的置信度和这些置信度对应的分类信息来训练第二图像处理模块。

例如，在一些可能的实现方式中，根据所述增强图像和所述增强图像的第一软标签，对第二图像处理模型训练，可以包括：根据所述第一软标签确定第一目标软标签，所述第一目标软标签用于指示所述增强图像属于多个目标分类中每个分类的置信度，所述多个目标分类包括所述第一软标签指示的多个分类中的部分分类，且所述多个目标分类中每个分类对应的置信度大于所述第一软标签指示的多个分类中除所述多个目标分类以外的每个分类对应的置信度；根据所述第一目标软标签和所述增强图像，对所述第二图像处理模型进行训练。

这些实现方式中，选出第一软标签中较大的置信度和这些置信度对应的分类作为第一目标软标签来调整或监督第二图像处理模型的训练，可以提高第二图像处理模型的性能。

根据所述第一目标软标签和所述增强图像，对所述第二图像处理模型进行训练，可以包括：根据所述第二图像处理模型获取所述增强图像的第二软标签，所述第二软标签指示所述增强图像属于多个分类中每个分类的置信度；根据所述第二软标签确定第二目标软标签，所述第二目标软标签指示所述第二软标签所指示的所述增强图像属于所述多个目标分类中每个分类的置信度；根据所述第一目标软标签和所述第二目标软标签，调整所述第二图像处理模型的参数。

所述根据所述第一目标软标签和所述第二目标软标签，调整所述第二图像处理模型的参数，可以包括：根据所述第一目标软标签和第二目标软标签，确定所述第二图像处理模型的损失值；根据所述损失值，调整所述第二图像处理模型的参数

例如，可以根据所述第一目标软标签和第二目标软标签确定根据所述第一目标软标签和第二目标软标签的相对熵，并根据该相对熵来计算第二图像处理模型的损失值。

L＝y·lnf^S+ψ·KL[f^S||f^T]，

其中，L表示所述损失值，y表示所述增强图像的硬标签，KL[f^S||f^T]表示所述第一目标软标签和所述第二目标软标签的相对熵，ψ为预设的值。

第二方面，提供了一种训练图像处理模型的装置，该装置包括用于执行上述第一方面或其中任意一种实现方式中的方法的模块。

第三方面，提供了一种训练图像处理模型的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面或者其中任意一种实现方式中的方法。

第四方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第一方面或其中任意一种实现方式中的方法。

第五方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或其中任意一种实现方式中的方法。

第六方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面或其中任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或其中任意一种实现方式中的方法。

第七方面，提供了一种计算设备，该计算设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面或者其中任意一种实现方式中的方法。

第八方面，本申请提供一种训练模型的方法，该方法包括：根据第一模型获取增强数据的第一软标签，所述增强数据为使用数据增强策略对训练数据进行增强得到的数据，所述训练数据包括训练图像、训练语音或训练文本；根据所述增强数据和所述增强数据的第一软标签，对第二模型进行训练。

其中，第一模型可以是能够对相关数据进行相关处理的模型，例如，可以是图像处理模型、语音识别模型、文本翻译模型、语句复述模型等等。相应地，第一软标签为相关领域中用于标注相应类型数据的软标签。

根据增强数据和增强数据的第一软标签对第二模型进行训练时，增强数据的第一软标签可以作为一种监督信号来指导第二模型的参数调整。

在对训练数据使用增强策略以获取增强数据时，部分增强策略会对训练数据产生破坏性的影响，导致增强数据与原始训练数据相比发生显著偏移。此时若仅采用原始训练数据的标签作为增强数据的标签来对模型进行训练，会影响模型性能。

第八方面的方法中，由于增强数据的第一软标签是根据增强数据中的内容预测得到的，因此在一定程度上可以保证增强数据中的内容与增强数据的第一软标签的一致性。此时，根据增强数据的第一软标签来监督模型的训练，有助于提高模型的性能。

第八方面的方法中，根据所述增强数据和所述增强数据的第一软标签对第二模型进行训练的实现方式，可以参考第一方面中根据增强图像和所述增强图像的第一软标签对第二模型进行训练的实现方式。

第九方面，提供了一种训练模型的装置，该装置包括用于执行上述第八方面或其中任意一种实现方式中的方法的模块。

第十方面，提供了一种训练模型的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第八方面或者其中任意一种实现方式中的方法。

第十一方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第八方面或其中任意一种实现方式中的方法。

第十二方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第八方面或其中任意一种实现方式中的方法。

第十三方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第八方面或其中任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第八方面或其中任意一种实现方式中的方法。

第十四方面，提供了一种计算设备，该计算设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第八方面或者其中任意一种实现方式中的方法。

第十五方面，提供了一种图像处理方法，包括：获取待处理图像；使用第二图像处理模型对所述待处理图像进行处理，其中，所述第二图像处理模型为使用第一方面或其中任意一种实现方式所述的方法训练得到的模型。

第十六方面，提供了一种训练图像处理模型的装置，该装置包括用于执行上述第十五方面或其中任意一种实现方式中的方法的模块。

第十七方面，提供了一种训练图像处理模型的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第十五方面或者其中任意一种实现方式中的方法。

第十八方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第十五方面或其中任意一种实现方式中的方法。

第十九方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第十五方面或其中任意一种实现方式中的方法。

第二十方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第十五方面或其中任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第十五方面或其中任意一种实现方式中的方法。

第二十一方面，提供了一种计算设备，该计算设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第十五方面或者其中任意一种实现方式中的方法。

第二十二方面，提供了一种数据处理方法，包括：获取待处理数据，所述待处理数据包括待处理图像、待处理语音或待处理文本；使用第二模型对所述待处理数据进行处理，其中，所述第二模型为使用第八方面或其中任意一种实现方式所述的方法训练得到的模型。

第二十三方面，提供了一种训练数据处理模型的装置，该装置包括用于执行上述第二十二方面或其中任意一种实现方式中的方法的模块。

第二十四方面，提供了一种训练数据处理模型的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二十二方面或者其中任意一种实现方式中的方法。

第二十五方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第二十二方面或其中任意一种实现方式中的方法。

第二十六方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第二十二方面或其中任意一种实现方式中的方法。

第二十七方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第二十二方面或其中任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第二十二方面或其中任意一种实现方式中的方法。

第二十八方面，提供了一种计算设备，该计算设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二十二方面或者其中任意一种实现方式中的方法。

附图说明

图1是本申请一个实施例的人工智能主体框架的示意图；

图2为本申请一个实施例的卷积神经网络的示例性结构图；

图3为本申请另一个实施例的卷积神经网络的示例性结构图；

图4是本申请一个实施例的***架构的示意图；

图5是本申请一个实施例提供的训练装置的部署示意图；

图6是本申请一个实施例的计算设备的示意性结构图；

图7为本申请另一个实施例的***架构的示意图；

图8是本申请一个实施例的芯片的示意性硬件结构图；

图9是本申请一个实施例的训练图像处理模型的方法的示意性流程图；

图10是本申请另一个实施例的训练图像处理模型的装置的示意性结构图；

图11是本申请另一个实施例的图像处理方法的示意性流程图；

图12是本申请另一个实施例的图像处理装置的示意性结构图。

具体实施方式

下面将结合附图，对本申请的技术方案进行描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能***总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能***提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。

智能芯片包括但不限于：中央处理器(central processing unit，CPU)、神经网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processingunit，GPU)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程逻辑门阵列(field programmable gate array，FPGA)等硬件加速芯片。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能***中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用***，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能***在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

本申请的技术方案可以应用的人工智能主体框架中，基础框架可以是智能芯片；基础平台处理的数据可以包括图像；基础平台进行的数据处理可以包括数据训练；基础平台对数据进行数据处理之后；基于处理后的结果形成的通用能力可以包括图像处理，该图像处理可以包括但不限于图像分类、图像识别、图像检测、图像分割等等；根据该通用能力形成的智能产品可以应用在人工智能中需要进行视觉数据分析的很多领域，例如，可以应用与需要进行视觉数据分析的智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市等领域。

下面对可以应用本申请的技术方案的较为三种常用的应用场景进行简单的介绍。

应用场景一：人脸识别***

人脸识别是当下应用最为广泛的视觉任务之一，其可以广泛应用在金融、安防、物流等领域，极大地提升了人们在城市生活中的安全性和便利性。尽管当前大多数场景下人脸识别***的准确率已经非常高了，但其高准确率主要依赖于标注大量的人脸数据来进行模型训练。

然而，在很多场景中，人脸数据较难采集，这种场景下，自动数据增强技术能够应用到人脸识别***中来丰富人脸数据。采集的人脸训练数据库可以输入到自动数据增强***进行数据增强，以得到人脸增强训练数据库；然后可以使用训练***，基于该人脸增强训练数据库对人脸识别模型进行训练，从而得到具有较高准确率的人脸识别***。

本申请的技术方案主要是对数据处理的方法进行优化，具体地，对使用训练***基于人脸增强训练数据库对人脸识别模型进行训练的方法进行优化。例如，在基于人脸增强训练数据对人脸识别模型进行训练之后，先使用具有一定识别准确率的人脸识别模型来预测人脸增强训练数据集中的训练数据的软标签，然后根据该软标签和训练数据的硬标签来监督人脸识别模型的训练。这样，可以较好地克服自动数据增强技术对人脸识别训练***带来的离群点问题，从而更好地提升人脸识别模型的识别精度。

应用场景二：通用物体检测***

通用物体检测是当前较为常见的视觉任务，其通过云端服务提供的通用物体检测能力，可对任意输入的图像进行检测。物体检测分为两个部分：定位以及识别，定位即告知每个物体在图像所处的问题，识别则是告知检测到的每个物体是什么类别。

训练通用物体检测能力时也需要大量的标注数据，并且，当前技术中，可以应用自动增强技术对物体检测训练数据进行数据增强。因此，本申请的训练方案也能够应用到通用物体检测模型的训练中，以帮助提升通用物体检测中物体识别的准确率。

本申请的实施例中，涉及了神经网络的相关应用，为了更好地理解本申请的实施例，下面先对本申请的实施例可能涉及的神经网络的相关术语和其他相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以如公式(1-1)所示：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)分类器

很多神经网络结构最后都有一个分类器，用于对图像中的物体进行分类。分类器一般由全连接层(fully connected layer)和softmax函数(可以称为归一化指数函数，简称为归一化函数)组成，能够根据输入而输出不同类别的概率。

(4)卷积神经网络(convosutionas neuras network，CNN)

卷积神经网络是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，我们都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

(6)循环神经网络(recurrent neural networks，RNN)

RNN的目的是用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

对于RNN的训练和对传统的ANN(人工神经网络)训练一样。同样使用BP误差反向传播算法，不过有一点区别。如果将RNNs进行网络展开，那么参数W,U,V是共享的，而传统神经网络却不是的。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，并且还以来前面若干步网络的状态。比如，在t＝4时，还需要向后传递三步，已经后面的三步都需要加上各种的梯度。该学习算法称为基于时间的反向传播算法。

(6)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。预测值和目标值之间的差异可以称为神经网络的损失值。

(7)数据增强策略

一个数据增强策略包括一个或多个子策略，一个子策略由一个或多个操作组成，一个操作为类似于平移、旋转或剪切的图像处理函数，且一个操作有两个超参数，一个超参数为应用该操作的概率，另一个超参数为应用该操作的幅度(magnitude)。

子策略中的操作可以包括以下任意一种：对x坐标进行剪切、对y坐标进行剪切、对x轴坐标进行翻转、对y坐标进行翻转、旋转、自动对比度、反转、均衡、曝光、分层、对比度、颜色、亮度、清晰度、切口、样本配对等。

可以理解的是，一个子策略中包括多个操作时，这多个操作的类型可以相同。

(8)数据增强

数据增强，即根据数据增强策略对已有的数据(例如图像或语音等)进行变换，例如进行翻转、平移或旋转等操作，以创造出更多的数据。

(9)神经网络模型

神经网络模型是一类模仿生物神经网络(动物的中枢神经***)的结构和功能的数学计算模型。一个神经网络模型可以包括多种不同功能的神经网络层，每层包括参数和计算公式。根据计算公式的不同或功能的不同，神经网络模型中不同的层有不同的名称，例如：进行卷积计算的层称为卷积层，所述卷积层常用于对输入信号(例如：图像)进行特征提取。

一个神经网络模型也可以由多个已有的神经网络模型组合构成。不同结构的神经网络模型可用于不同的场景(例如：分类、识别或图像分割)或在用于同一场景时提供不同的效果。神经网络模型结构不同具体包括以下一项或多项：神经网络模型中网络层的层数不同、各个网络层的顺序不同、每个网络层中的权重、参数或计算公式不同。

业界已存在多种不同的用于识别或分类或图像分割等应用场景的具有较高准确率的神经网络模型。其中，一些神经网络模型可以被特定的训练集进行训练后单独完成一项任务或与其他神经网络模型(或其他功能模块)组合完成一项任务。一些神经网络模型也可以被直接用于单独完成一项任务或与其他神经网络模型(或其他功能模块)组合完成一项任务。

本申请的实施例中，将神经网络模型简称为神经网络。

(10)边缘设备

边缘设备是指在数据产生源头和云中心之间任一具有计算资源和网络资源的设备。比如，手机就是人与云中心之间的边缘设备，网关是智能家居和云中心之间的边缘设备。在理想环境中，边缘设备指是指在数据产生源附近分析或处理数据的设备。由于没有数据的流转，进而减少网络流量和响应时间。

本申请实施例中的边缘设备可以是具有计算能力的移动电话、平板个人电脑(tablet personal computer，TPC)、媒体播放器、智能家居、笔记本电脑(laptopcomputer，LC)、个人数字助理(personal digital assistant，PDA)、个人计算机(personalcomputer，PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device，WD)或者自动驾驶的车辆等。可以理解的是，本申请实施例对边缘设备的具体形式不作限定。

(11)推理

推理是相对训练而言的，指神经网络输入数据之后，神经网络输出损失函数的值、特征图等信息的同时，不更新神经网络的参数。

(12)相对熵(relative entropy)

相对熵又被称为KL散度(Kullback-Leibler divergence)或信息散度(information divergence)，是两个概率分布(probability distribution)间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。

相对熵是一些优化算法，例如最大期望算法(expectation-maximizationalgorithm,EM)的损失函数。此时，参与计算的一个概率分布为真实分布，另一个为理论(或拟合)分布，相对熵表示使用理论分布拟合真实分布时产生的信息损耗。

图2为本申请一个实施例的卷积神经网络的示例性结构图。如图2所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220，其中池化层为可选的，以及神经网络层230。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层221为例，卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240的传播为前向传播)完成，反向传播(如图2由240至210的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，如图3所示的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层330进行处理。

图2或图3所示的卷积神经网络可以构成后续内容中描述的第一模型，用于根据增强数据确定增强数据的第一软标签。例如，图2或图3所示的卷积神经网络可以构成后续内容中描述的第一图像处理模型，用于对增强图像进行预测，以得到第一增强图像的第一软标签。

图2或图3所示的卷积神经网络可以构成后续内容中描述的教师模型，且该教师模型的参数可以是使用图9或图12所示的训练方法训练得到的。例如，图2或图3所示的卷积神经网络可以构成后续内容中描述的第二图像处理模型，且该第二图像处理模型的参数可以是使用图9所示的训练方法训练得到的。又如，图2或图3所示的卷积神经网络所构成的第二图像处理模型可以执行图11所示的图像处理方法。

图4是本申请一个实施例的***架构的示意图。如图4所示，***架构400包括执行设备410、训练设备420、数据库430、客户设备440、数据存储***450、以及数据采集***460。

数据采集设备460用于采集训练数据。在采集到训练数据之后，数据采集设备460将这些训练数据存入数据库430，训练设备420使用数据增强策略对数据库430中维护的训练数据进行数据增强，得到增强数据，并使用教师模型获取增强数据的软标签，以及根据增强数据和增强数据的软标签对学生模型进行训练，以得到目标模型401。本申请的实施例中，目标模型也可以称为目标规则。

本申请实施例中的目标模型401具体可以为神经网络。例如，目标模型401可以是图像识别、图像分割、图像检测或图像分类等图像处理模型。更具体地，例如，目标模型401可以是人脸识别模型，又如，目标模型401可以是通用物体检测模型。

需要说明的是，在实际应用中，数据库430中维护的训练数据不一定都来自于数据采集设备460的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备420也不一定完全基于数据库430维护的训练数据进行目标模型401的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备420训练得到的目标模型401可以应用于不同的***或设备中，如应用于图4中的执行设备410。

所述执行设备410可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，或者是可以应用在上述这些设备上的芯片，还可以是服务器或者云端等。

在图4中，执行设备410配置输入/输出(input/output，I/O)接口412，用于与外部设备进行数据交互，用户可以通过客户设备440向I/O接口412输入数据。另外，执行设备410包括计算模块411，计算模块411中包括训练设备420根据增强数据和增强数据的软标签训练得到的目标模型401。

在执行设备410的计算模块411使用目标模型401对待处理数据执行相关处理过程中，执行设备410可以调用数据存储***450中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储***450中。

最后，I/O接口412将处理结果，如将目标模型401计算得到的人脸识别结果或物体检测结构呈现给客户设备440，从而提供给用户。

可以理解的是，本申请实施例中的执行设备410和客户设备440可以是同一个设备，例如为同一个终端设备。

值得说明的是，训练设备420可以针对不同的目标或称不同的任务(或者说业务)，基于不同的数据增强策略对不同的训练数据进行数据增强，以得到不同的增强数据，并使用不同的教师网络获取不同的增强数据的软标签，以及根据不同增强数据的软标签训练得目标模型401，该目标模型401即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图4中，用户可以手动给定输入数据，该手动给定可以通过I/O接口412提供的界面进行操作。另一种情况下，客户设备440可以自动地向I/O接口412发送输入数据，如果要求客户设备440自动发送输入数据需要获得用户的授权，则用户可以在客户设备440中设置相应权限。用户可以在客户设备440查看执行设备410输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备440也可以作为数据采集端，采集如图4所示输入I/O接口412的输入数据及输出I/O接口412的输出结果作为新的样本数据，并存入数据库430。当然，也可以不经过客户设备440进行采集，而是由I/O接口412直接将如图4所示输入I/O接口412的输入数据及输出I/O接口412的输出结果，作为新的样本数据存入数据库430。

例如，数据采集设备460可以采集训练数据存储在数据库430中，该训练数据可以包括训练图像以及标注数据，其中，标注数据中给出了训练图像中的目标物的包围框(bounding box)的坐标。训练设备420调用数据存储***450中的数据增强策略对数据库430中的训练图像进行增强，得到增强图像；并调用数据存储***450中的教师模型获取增强图像的软标签；以及根据增强图像和增强图像的软标签对学生模型进行训练，从而得到目标模型401。目标模型401部署到执行设备410上之后，客户设备440可以采集待处理图像，并通过I/O接口412传输给执行设备410。执行设备410使用其上部署的目标模型401对待处理图像进行处理，并通过I/O接口412传输给客户设备。

其中，训练设备420根据教师模型获取增强图像的软标签以及根据增强图像和增强图像的软标签对学生模型进行训练的实现方式，可以参考图9中的相关内容。

可以理解的是，图4仅是本申请实施例提供的一种***架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图4中，数据存储***450相对执行设备410是外部存储器，在其它情况下，也可以将数据存储***450置于执行设备410中。

图5是本申请一个实施例提供的训练装置的部署示意图，训练装置可部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。

训练装置可以是云数据中心中根据增强数据的软标签对模型进行训练的服务器。

训练装置也可以是创建在云数据中心中根据增强数据的软标签对模型进行训练的虚拟机。

训练装置还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于根据增强数据的软标签对模型进行训练，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。

例如，训练装置中包括用于获取增强数据的软标签的模块和根据增强数据的软标签训练模型的模块时，这些模块可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。

如图5所示，训练装置可以由云服务提供商在云服务平台抽象成一种根据增强数据的软标签训练模型的云服务提供给用户，用户在云服务平台购买该云服务后，云环境利用该云服务向用户提供训练神经网络的云服务。

例如，用户可以通过应用程序接口(application program interface，API)或者通过云服务平台提供的网页界面上传待训练的神经网络(进一步地还可以上传原始训练集)至云环境，由训练装置接收待训练的神经网络以及原始训练集，并使用数据增强策略对原始训练集进行数据增强，以及使用增强后的数据集对待训练的神经网络进行训练，最终训练得到的目标神经网络由训练装置返回至用户所在的边缘设备。

又如，用户可以通过应用程序接口或者通过云服务平台提供的网页界面上传待训练的神经网络(进一步地还可以上传增强后的数据集)至云环境，由训练装置接收待训练的神经网络以及增强数据集，并使用增强数据集对待训练的神经网络进行训练，最终训练得到的目标神经网络由训练装置返回至用户所在的边缘设备。

例如，用户可以通过应用程序接口或者通过云服务平台提供的网页界面上传目标任务的类型至云环境，进一步地，还可以上传原始训练集，由训练装置接收目标任务类型以及原始训练集，并使用增强策略对原始训练集进行数据增强，得到增强训练集，以及使用增强训练集对该类型的目标神经网络进行训练，最终训练得到的目标神经网络由训练装置返回至用户所在的边缘设备。

以待训练的模型为图像处理模型为例，用户可以通过应用程序接口或者通过云服务平台提供的网页界面上传目标任务的类型为图像处理(例如人脸识别或物体检测等)至云环境，由训练装置接收目标任务类型，并使用增强策略对原始训练图像进行数据增强，得到增强图像，并使用教师网络获取增强图像的软标签，以及使用增强图像和增强图像的软标签对学生网络进行训练，最终训练得到的图像处理模型由训练装置返回至用户所在的边缘设备。

其中，训练装置根据教师模型获取增强图像的软标签以及根据增强图像和增强图像的软标签对学生模型进行训练的实现方式，可以参考图9中的相关内容。

当训练装置为软件装置时，训练装置也可以单独部署在任意环境的一个计算设备上，例如，单独部署在一个计算设备上或者单独部署在数据中心中的一个计算设备上。

图6为本申请一个实施例的计算设备的示例性结构图。如图6所示，计算设备600包括总线601、处理器602、通信接口603和存储器604。

处理器602、存储器604和通信接口603之间通过总线601通信。其中，处理器602可以为中央处理器。存储器604可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器604还可以包括非易失性存储器(2non-volatile memory，2NVM)，例如只读存储器(2read-only memory，2ROM)，快闪存储器，硬盘驱动器(hard disk drive，HDD)或固态启动器(solid state disk，SSD)。存储器604中存储有训练装置所包括的可执行代码，处理器602读取存储器604中的该可执行代码以执行训练方法。存储器604中还可以包括操作***等其他运行进程所需的软件模块。操作***可以为LINUX^TM，UNIX^TM，WINDOWS^TM等。

例如，存储器604中存储有获取增强数据的软标签以及根据增强数据的软标签对模型进行训练的可执行代码；处理器602读取并执行这些可执行代码，以获取增强数据的软标签以及根据增强数据的软标签对模型进行训练，从而得到训练后的目标模型；通信接口603向执行设备传输该目标模型，以便于执行设备使用该目标模型执行相关任务。

以目标模型为图像处理模型(例如人脸识别或物体检测)为例，存储器604中存储有获取增强图像的软标签以及根据增强图像的软标签对图像处理模型进行训练的可执行代码；处理器602读取并执行这些可执行代码，以获取增强图像的软标签以及根据增强图像的软标签对模型进行训练，从而得到目标图像处理模型；通信接口603向执行设备传输该目标图像处理模型，以便于执行设备使用该目标图像处理模型对待处理图像进行处理(人脸识别或物体检测)。

其中，计算设备600获取增强图像的软标签以及根据增强图像和增强图像的软标签对图像处理模型进行训练的实现方式，可以参考图9中的相关内容。

图7为本申请另一个实施例的***架构的示意图。执行设备710由一个或多个服务器实现，可选的，可以与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备。执行设备710可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备710可以使用数据存储***750中的数据，或者调用数据存储***750中的程序代码实现本申请中的数据处理方法，例如图11所示的图像处理方法。

用户可以操作各自的用户设备(例如本地设备701和本地设备702)与执行设备710进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备710进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

例如，执行设备710中可以部署有使用图9中所示方法训练得到的图像处理模型；本地设备702采集到待处理图像之后，可以向执行设备710上传该待处理图像；执行设备710使用所述图像处理模型对该待处理图像进行处理，从而得到处理结果。

例如，执行设备710中可以部署有使用图9中所示方法训练得到的人脸识别模型；本地设备702采集到待识别图像之后，可以向执行设备710上传该待识别图像；执行设备710使用所述人脸识别模型对该待识别图像进行人脸识别，从而得到待识别图像中的人脸的信息。

又如，执行设备710中可以部署有使用图9中所示方法训练得到的物体检测模型；本地设备702采集到待检测图像之后，可以向执行设备710上传该待检测图像；执行设备710使用所述物体检测模型对该待检测图像进行检测，从而得到待检测图像中的物体的位置和分类。

在另一种实现中，执行设备710的一个方面或多个方面可以由每个本地设备实现，例如，本地设备701可以为执行设备710提供本地数据或反馈计算结果。

需要注意的，执行设备710的所有功能也可以由本地设备实现。例如，本地设备701实现执行设备710的功能并为自己的用户提供服务，或者为本地设备702的用户提供服务。

图8是本申请一个实施例的芯片的示意性硬件结构图。神经网络处理器NPU 80作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路803，通过控制器804控制运算电路803提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路803内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路803是二维脉动阵列。运算电路803还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路803是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器802中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器801中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)808中。

统一存储器806用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)805被搬运到权重存储器802中。输入数据也通过DMAC被搬运到统一存储器806中。

总线接口单元(bus interface unit，BIU)810，用于AXI总线与DMAC和取指存储器(instruction fetch buffer)809的交互。

总线接口单元810，用于取指存储器809从外部存储器获取指令，还用于存储单元访问控制器805从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器806或将权重数据搬运到权重存储器802中或将输入数据数据搬运到输入存储器801中。

向量计算单元807多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现种，向量计算单元能807将经处理的输出的向量存储到统一缓存器806。例如，向量计算单元807可以将非线性函数应用到运算电路803的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元807生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路803的激活输入，例如用于在神经网络中的后续层中的使用。

控制器804连接的取指存储器(instruction fetch buffer)809，用于存储控制器804使用的指令。

统一存储器806，输入存储器801，权重存储器802以及取指存储器809均为片上(On-Chip)存储器。外部存储器私有于该NPU硬件架构。

使用图8所示的芯片实现本申请的训练方法时，主CPU可以使用教师模型获取增强数据的第一软标签，并调用神经网络处理器80来获取增强数据的第二软标签，然后，主CPU可以根据第一软标签和第二软标签来调整学生模型的参数。

例如，主CPU可以使用第一图像处理模型获取增强图像的第一软标签，并调用神经网络处理器80来获取增强图像的第二软标签，然后，主CPU可以根据第一软标签和第二软标签来调整第二图像处理模型的参数，以实现第二图像处理模型的训练。其中，各个步骤的实现方式可以参考图9中的相关内容。

图9是本申请一个实施例的训练图像处理模型的方法的示意性流程图。该方法包括S910至S920。

S910，根据第一图像处理模型获取增强图像的第一软标签，所述增强图像为使用数据增强策略对训练图像进行数据增强得到的图像，所述第一软标签指示所述增强图像属于多个分类中每个分类的置信度。

其中，第一图像处理模型也可以称为教师模型(或教师网络)；使用数据增强策略对训练图像进行数据增强以得到增强图像的方法，可以参考现有技术，本申请在此不再详述。

本步骤的一种实现方式中，每次从训练数据仓库采样一张原始训练图像，并使用数据增强策略对原始训练图像进行增强生成相应的增强图像之后，将该增强图像作为教师模型的输入。增强图像在教师模型中，经过正向传播过程后，得到相应的输出，即该增强图像的软标签，为了描述方便，该软标签称为第一软标签。

S920，根据所述增强图像和所述增强图像的第一软标签，对第二图像处理模型进行训练。

其中，第二图像处理模型与第一图像处理模型可以是相同的模型，也可以是比第一图像处理模型性能更强或更弱的模型。第二图像处理模型可以称为学生模型(或学生网络)。其中，第二图像处理模型与第一图像处理模型是相同的模型，可以理解为第一图像处理模型与第二图像处理模型为结构相同的模型。第一图像处理模型比第二图像处理模型的性能更强，可以理解为第一图像处理模型在目标任务上的准确率高于第一图像处理模型在该目标任务上的准确率。

根据所述增强图像和所述增强图像的第一软标签对第二图像处理模型进行训练时，可以将第一软标签和增强图像的手工标注的真实标签作为联合约束来指导第二图像处理模型的训练。相较于仅用手工标签和增强图像对第二图像处理模型进行训练，由于第一软标签提供了另外一种有益约束，因此，可以有效克服增强图像较原始图像发生结构性破坏后带来的第二图像处理模型性能低和训练效率低的问题。

例如，使用每一张经过数据增强策略得到的增强图像对第二图像处理模型进行训练时，可以利用两种监督信号来指导模型的优化。第一种监督信号可以通过传统模型训练中常用的交叉熵损失函数计算得到，具体地，第一种监督信号可以通过计算第二图像处理模型基于该增强图像输出的第二软标签与增强图像的真实手工标签的交叉熵得到。第二种监督信号为KL散度，其可以通过计算第二图像处理模型基于该增强图像输出的第二软标签与第一软标签之间的KL散度得到。最后，可以将两种监督信号结合起来监督第二图像处理模型的训练。

第二图像处理模型的损失函数的一种示例性表达式如下：

L＝y·lnf^S+ψ·KL[f^S||f^T]，

其中，L表示损失值；y表示手工标签；f^S表示第二软标签；f^T表示第一软标签，KL[f^S||f^T]表示第一软标签和第二软标签的KL散度；ψ通常是预设的。

上述损失函数中，y·lnf^S可以理解为第一种监督信号，KL[f^S||f^T]可以理解为第二种监督信号，ψ为两种监督信号之间的平衡因子。

基于上述损失函数和两种监督信号，可以计算得到第二图像处理模型的实际损失值，并基于该损失值调整第二图像处理模型的参数。

针对包含不同数据集图像的数据仓库，在计算模型第二软标签与第一软标签之间KL散度时，采用第一软标签全部信息和第二软标签全部信息作为监督信号进行训练可能并非最优选择。因此，针对不同数据仓库，可以对第二种监督信号进行进一步优化。

例如，可以根据数据集图像的特点，选出第一软标签中置信度较高的前K个置信度以及对应的K个分类信息，以及选出第二软标签中与这K个分类信息对应的置信度，并基于选出的信息计算第二种监督信号。因此，前述损失函数中的第二种监督信号可以通过如下公式计算得到：

其中，f_c ^T表示第一软标签中置信度较大的前K个置信度，f_c ^S表示第二软标签中的K个置信度，且这K个置信度与第一软标签中的前K个置信度对应的分类一一相同。

本实施例的方法可以理解为联合使用知识蒸馏方法和数据增强方法对图像处理模型进行训练。

本实施例中，对每个增强后的图像通过教师网络预测软标签，通过软标签计算KL散度来约束网络的训练；同时，由于教师网络的准确率并不是完美的，因此本方案也利用原始训练图像的手工标签对增强后的数据进行指导，即通过交叉熵来约束网络的训练。因此，网络训练过程中同时接受两个监督信号的指导：KL监督信号和交叉熵监督。其中，KL监督信号可以减轻增强数据中的离群点对网络训练的影响，交叉熵监督信号则可以减轻教师网络产生的第一软标签不准确的影响。

图10为本申请一个实施例的训练图像处理模型的装置1000的示意性结构图。该装置可以包括软标签生成模块1010和模型训练模块1020。

其中，软标签生成模块1010可以用于执行S910，模型训练模块1020可以用于执行S920。

图11是本申请一个实施例的图像处理方法的示意性流程图。该方法可以包括S1110和S1120。

S1110，获取待处理图像。

S1120，使用第二图像处理模型对所述待处理图像进行处理，所述第二图像处理模型是根据第一软标签进行训练得到的，所述第一软标签是使用第一图像处理模型基于增强图像获取的。

具体地，该第二图像处理模型可以是图9所示的方法训练得到的第二图像处理模型，此处不再赘述。

图12为本申请一个实施例的图像处理装置1200的示意性结构图。该装置可以包括获取模块1210和处理模块1220。

其中，获取模块1210可以用于执行S1110，处理模块1220可以用于执行S1120。

针对不同的网络，使用本申请的方法基于公开数据集CIFAR训练得到的网络的准确率，与使用现有方法基于公开数据集CIFAR训练得到的网络的错误率如表1所示。

表1中，NA为没有自动数据增强(No Augmentation)的英文缩写，表示对应的这一列中的数值表示没有使用自动数据增强技术进行训练得到的网络的错误率；AA为自动增强(AutoAugment)的英文缩写，表示对应的这一列中的数值为使用自动数据增强技术进行训练得到的网络的错误率；FAA为Fast AutoAugment的应为缩写，表示对应的这一列中的数值为使用快速自动增强技术训练得到的网络的错误率；PBA为Population Basedaugmentation的英文缩写，表示对应的这一列中的数值为使用基于种群的自动数据增强技术训练得到的网络的错误率；RA为RandAugment的英文缩写，表示对应这一列中的数值为使用随机自动数据增强技术训练得到的网络的错误率；“-”表示没有对应数值。

表1各类训练方法在公开数据集CIFAR上训练得到的网络的错误率

针对不同的网络，使用本申请的方法基于标准大型数据集ImageNET训练得到的网络的准确率，与使用现有方法基于标准大型数据集ImageNET训练得到的网络的准确率如表2所示。

表2各类训练方法在标准大型数据集ImageNET上训练得到的网络的准确率

表2中，前八行和第十三行对应的准确率均为使用标准数据处理方法对训练数据进行处理后训练得到的网络的Top1准确率；第9至第11行对应的准确率为使用随机自动数据增强技术对训练数据进行处理后训练得到的网络的Top1准确率；第十二行是使用自动数据增强技术对数据进行处理后进行对抗训练(AdvProp)得到的网络的Top1准确率；第十四行对应的准确率均为使用随机自动数据增强方法对训练数据进行处理后训练得到的网络的Top1准确率；最后两行为使用本申请的方法训练得到的网络的Top1准确率；Top1的准确率是指网络输出的结果中概率最大的分类的准确率；额外训练数据(Extra TrainingData)是指在训练中，除了使用标准Imagenet训练数据集以外，还使用其他训练数据，其中，3.5B tagged images表示还使用了35亿张带标签的图像，300M unlabeled images表示还使用了3亿张没有带标签的图像。

由表1和表2可知，本申请的训练方法在图像分类准确率上达到领先水平。

本申请一个实施例的训练模型的方法可以包括如下几个步骤。

步骤一，使用自动数据增强技术搜索的增强策略或者人工设定的增强策略，对训练数据进行数据增强，得到增强数据。

该训练数据可以是语音数据，图像数据或文本数据等，相应地，增强数据为语音数据、图像数据或文本数据。

步骤二，将增强数据输入教师网络，得到增强数据的软标签。

步骤三，根据增强数据、增强数据的软标签以及训练数据的手工标签，对学生模型进行训练，得到训练后的模型。

例如，对每个增强后的数据，通过教师网络预测软标签，以及通过学生网络预测其软标签；计算这两个软标签的KL散度来约束学生网络的训练。该KL散度可以称为KL监督信号。

同时，由于教师网络的准确率并不是完美的，因此本方案也利用原始数据的手工标签对增强后的数据进行指导。例如，通过计算手工标签和教师网络预测的软标签的交叉熵来约束学生网络的训练。该交叉熵可以称为交叉熵监督信号。

由于学生网络的训练过程中是同时接受了两个监督信号的指导：KL监督信号和交叉熵监督信号，且KL监督信号可以减轻增强数据中的离群点对学生网络训练的影响，以及交叉熵监督信号可以减轻教师网络产生软标签可能不准确的影响，因此，本实施例的技术方案可以提高训练后的学生网络的性能，以及提高训练效率。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种训练图像处理模型的方法，其特征在于，包括：

根据第一图像处理模型获取增强图像的第一软标签，所述增强图像为使用数据增强策略对训练图像进行数据增强得到的图像，所述第一软标签指示所述增强图像属于多个分类中每个分类的置信度；

根据所述增强图像和所述增强图像的第一软标签，对第二图像处理模型进行训练。

2.如权利要求1所述的方法，其特征在于，所述根据所述增强图像和所述增强图像的第一软标签，对第二图像处理模型进行训练，包括：

根据所述第一软标签确定第一目标软标签，所述第一目标软标签指示所述增强图像属于多个目标分类中每个分类的置信度，所述多个目标分类包括所述第一软标签指示的多个分类中的部分分类，且所述多个目标分类中每个分类对应的置信度大于所述第一软标签指示的多个分类中除所述多个目标分类以外的每个分类对应的置信度；

根据所述第一目标软标签和所述增强图像，对所述第二图像处理模型进行训练。

3.如权利要求2所述的方法，其特征在于，所述根据所述第一目标软标签和所述增强图像，对所述第二图像处理模型进行训练，包括：

根据所述第二图像处理模型获取所述增强图像的第二软标签，所述第二软标签指示所述增强图像属于多个分类中每个分类的置信度；

根据所述第二软标签确定第二目标软标签，所述第二目标软标签指示所述第二软标签所指示的、且所述增强图像属于所述多个目标分类中每个分类的置信度；

根据所述第一目标软标签和所述第二目标软标签，调整所述第二图像处理模型的参数。

4.如权利要求3所述的方法，其特征在于，所述根据所述第一目标软标签和所述第二目标软标签，调整所述第二图像处理模型的参数，包括：

根据所述第一目标软标签和所述第二目标软标签，确定所述第二图像处理模型的损失值；

根据所述损失值调整所述第二图像处理模型的参数。

5.如权利要求4所述的方法，其特征在于，所述第一目标软标签、所述第二目标软标签和所述损失值之间满足如下关系：

L＝y·ln f^S+ψ·KL[f^S||f^T]，

6.一种图像处理方法，其特征在于，包括：

获取待处理图像；

使用第二图像处理模型对所述待处理图像进行处理，其中，所述第二图像处理模型为使用如权利要求1至5中任意一项所述的方法训练得到的模型。

7.一种训练图像处理模型的装置，其特征在于，包括：

获取模块，用于根据第一图像处理模型获取增强图像的第一软标签，所述增强图像为使用数据增强策略对训练图像进行数据增强得到的图像，所述第一软标签指示所述增强图像属于多个分类中每个分类的置信度；

训练模块，用于根据所述增强图像和所述增强图像的第一软标签，对第二图像处理模型进行训练。

8.如权利要求7所述的装置，其特征在于，所述训练模块具体用于：

9.如权利要求8所述的装置，其特征在于，所述训练模块具体用于：

10.如权利要求9所述的装置，其特征在于，所述训练模块具体用于：

根据所述损失值调整所述第二图像处理模型的参数。

11.如权利要求10所述的装置，其特征在于，所述第一目标软标签、所述第二目标软标签和所述损失值之间满足如下关系：

L＝y·ln f^S+ψ·KL[f^S||f^T]，

12.一种图像处理装置，其特征在于，包括：

获取模块，用于获取待处理图像；

处理模块，用于使用第二图像处理模型对所述待处理图像进行处理，其中，所述第二图像处理模型为使用如权利要求1至5中任意一项所述的方法训练得到的模型。

13.一种训练图像处理模型的装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中存储的指令，以使得所述装置执行如权利要求1至5中任一项所述的方法。

14.一种图像处理装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中存储的指令，以使得所述装置执行如权利要求6所述的方法。

15.一种计算机可读介质，其特征在于，包括指令，当所述指令在处理器上运行时，使得所述处理器执行如权利要求1至5中任一项所述的方法。

16.一种计算机可读介质，其特征在于，包括指令，当所述指令在处理器上运行时，使得所述处理器执行如权利要求6所述的方法。