CN110163344A

CN110163344A - 神经网络训练方法、装置、设备和存储介质

Info

Publication number: CN110163344A
Application number: CN201910344418.7A
Authority: CN
Inventors: 郭义; 袁野; 王剑锋; 俞刚
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-23
Anticipated expiration: 2039-04-26
Also published as: CN110163344B

Abstract

本发明涉及一种神经网络训练方法、装置、设备和存储介质，终端通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，并根据第一前景信息，采用预设的编码器获得教师网络低维特征图，同时根据第二前景信息，采用编码器获得学生网络低维特征图，进而根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数，并根据监督损失函数，及预设的自学习损失函数，训练学生网络，自学习损失函数用于根据真实的数据标签训练学生网络。使得训练学生网络的损失函数中同时使用了只作用于前景信息的监督损失函数，和根据真实数据标签得到的自学习损失函数，因此学生网络的损失函数更加准确，提高了学生网络的精度。

Description

神经网络训练方法、装置、设备和存储介质

技术领域

本发明涉及深度学习技术领域，特别是涉及了一种神经网络训练方法、装置、设备和存储介质。

背景技术

计算机视觉任务中通常采用卷积神经网络进行数据处理。一般来说，精度越高的网络，计算量越大，不适用于小型设备或移动设备等。通过大网络的帮助，训练一个小网络，使得小网络在视觉任务中也拥有相对较高的精度。这种情形下，大网络称之为教师网络，小网络称之为学生网络。学生网络在训练过程中，不仅从真实标签里面获取信息，还可以从教师网络中获取信息，这样训练得到的学生网络，其精度往往高于仅用真实标签训练得到的学生网络。这种用大网络带着小网络一起训练的过程，称之为“知识蒸馏”。

在物体检测领域的知识蒸馏，通常使用方差作为损失函数，使同一图片在教师网络中的特征图和其在学生网络中的特征图逐点相似，以完成对学生网络的训练。

然而，采用上述方法对学生网络进行训练，得到的学生网络精度不高。

发明内容

基于此，有必要针对学生网络精度不高的问题，提供了一种神经网络训练方法、装置、设备和存储介质。

第一方面，一种神经网络训练方法，该方法包括：

通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，其中，第一前景信息为在教师网络中待训练图片对应的前景信息；第二前景信息为在学生网络中待训练图片对应的前景信息；

根据第一前景信息，采用预设的编码器获得教师网络低维特征图，并根据第二前景信息，采用编码器获得学生网络低维特征图；

根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数；

根据监督损失函数，及预设的自学习损失函数，训练学生网络；其中，自学习损失函数用于根据真实的数据标签训练所述学生网络。

在其中一个实施例中，上述根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数，包括：

根据教师网络低维特征图和学生网络低维特征图，确定监督损失函数的权值；

根据监督损失函数的权值，确定监督损失函数。

在其中一个实施例中，上述根据教师网络低维特征图和学生网络低维特征图，确定监督损失函数的权值，包括：

根据公式获取监督损失函数的权值fm_weights，其中，fm_T表示所述教师网络低维特征图，fm_S表示所述学生网络低维特征图。

在其中一个实施例中，上述学生网络包括分类分支，上述训练学生网络，包括：

将待训练图片输入教师网络，得到检测对象的第一概率分布；

将待训练图片输入学生网络，得到检测对象的第二概率分布；

将第一概率分布作为标签，将第二概率分布作为预测值，调整分类损失函数的参数，以训练分类分支。

在其中一个实施例中，上述根据所述监督损失函数和所述预设的自学习损失函数，训练学生网络还包括：获取学生网络的分类损失函数；根据监督损失函数、预设的自学习损失函数和分类损失函数，训练学生网络。

在其中一个实施例中，上述获取学生网络的分类损失函数，包括：根据第一概率分布和第二概率分布，确定分类损失函数的权值；根据分类损失函数的权值，确定分类损失函数。

在其中一个实施例中，上述学生网络还包括回归分支，上述根据监督损失函数、预设的自学习损失函数和分类损失函数，训练学生网络，包括：获取回归损失函数；根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络。

在其中一个实施例中，上述根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络，包括：根据预设的权重系数，对监督损失函数、分类损失函数和回归损失函数进行加权处理，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数；则上述根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络，包括：根据加权后的监督损失函数、预设的自学习损失函数、加权后的分类损失函数和加权后的回归损失函数，训练学生网络。

第二方面，一种目标检测方法，该方法包括：

将待检测图像输入预设的学生网络，得到目标检测结果；上述预设的学生网络是通过第一方面中任一项神经网络训练方法得到的。

第三方面，一种神经网路训练装置，该装置包括：

提取模块，用于通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，其中，第一前景信息为在教师网络中，待训练图片对应的前景信息；第二前景信息为在学生网络中，待训练图片对应的前景信息；

压缩模块，用于根据第一前景信息，采用预设的编码器获得教师网络低维特征图，并根据第二前景信息，采用预设的编码器获得学生网络低维特征图；

确定模块，用于根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数；

训练模块，用于根据监督损失函数，及预设的自学习损失函数，训练学生网络；其中，自学习损失函数用于根据真实的数据标签训练学生网络。

第四方面，一种目标检测装置，该装置包括：

检测模块，用于将图像输入预设的学生网络，得到目标检测结果；所述预设的学生网络是通过第一方面中任一项神经网络训练方法得到的。

第五方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述神经网络训练方法所述的方法步骤。

第六方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述神经网络训练方法所述的方法步骤。

上述神经网络训练方法、装置、设备和存储介质，终端通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，第一前景信息为在教师网络中待训练图片对应的前景信息；第二前景信息为在学生网络中待训练图片对应的前景信息，并根据第一前景信息，采用预设的编码器获得教师网络低维特征图，同时根据第二前景信息，采用编码器获得学生网络低维特征图，进而根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数，并根据监督损失函数，及预设的自学习损失函数，训练学生网络；自学习损失函数用于根据真实的数据标签训练学生网络。由于监督损失函数是通过只作用于前景信息的教师网络低维特征图和学生网络低维特征图确定的，自学习损失函数是根据真实数据标签得到的，使得训练学生网络的损失函数中同时使用了只用于前景信息的监督损失函数，和根据真实数据标签得到的自学习损失函数，因此学生网络的损失函数更加准确，提高了学生网络的精度。

附图说明

图1为一个实施例中神经网络训练方法的应用环境的示意图；

图2为一个实施例中神经网络训练方法的流程示意图；

图3为另一个实施例中神经网络训练方法的流程示意图；

图4为另一个实施例中神经网络训练方法的流程示意图；

图5为另一个实施例中神经网络训练方法的流程示意图；

图6为另一个实施例中神经网络训练方法的流程示意图；

图7为另一个实施例中神经网络训练方法的流程示意图；

图8为另一个实施例中神经网络训练方法的流程示意图；

图9为一个实施例中提供的神经网络训练装置的结构示意图；

图10为另一个实施例中提供的神经网络训练装置的结构示意图；

图11为另一个实施例中提供的神经网络训练装置的结构示意图；

图12为一个实施例中提供的目标检测装置的结构示意图。

具体实施方式

本申请提供的神经网络训练方法、装置、设备和存储介质，旨在解决学生网络精度不高的问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本实施例提供的神经网络训练方法，可以适用于如图1所示的应用环境中。其中上述神经网络训练方法应用于神经网络训练终端。神经网络训练终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

需要说明的是，本申请实施例提供的神经网络训练方法，其执行主体可以是神经网络训练装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为神经网络训练终端的部分或者全部。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

图2为一个实施例中神经网络训练方法的流程示意图。本实施例涉及的是通过教师网络低维特征图和学生网络低维特征图确定监督损失函数，并根据监督损失函数和预设的自学习损失函数，训练学生网络的具体过程。如图2所示，该方法包括以下步骤：

S101、通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，第一前景信息为在教师网络中待训练图片对应的前景信息；第二前景信息为在学生网络中待训练图片对应的前景信息。

其中，前景信息可以是待训练图片中目标检测对象的信息。例如，待训练图片为包含检测对象为一只猫和一条狗的图片，其对应的前景信息可以是描述上述猫和狗，而不包括图片中的背景信息的信息。预设的提取方法可以是提取待训练图片中前景信息的方法，可以通过设计一张mask，mask的高宽与待训练图片的高宽一致。对于任意一张输入的待训练图片，若该图片中一个像素点的像素值属于前景范围，在mask中这个像素点的值就是1，若该图片中一个像素点的像素值不属于上述前景范围，在mask中这个像素点的值就是0。也就是说，mask在前景置为1，背景置为0。其中，第一前景信息可以为在教师网络中待训练图片对应的前景信息；第二前景信息可以为在学生网络中待训练图片对应的前景信息。具体地，终端可以通过在教师网络中，通过上述预设的提取方法提取待训练图片的前景信息，获得第一前景信息；在学生网络中，通过上述预设的提取方法提取待训练图片的前景信息，获得第二前景信息。

S102、根据第一前景信息，采用预设的编码器获得教师网络低维特征图，并根据第二前景信息，采用预设的编码器获得学生网络低维特征图。

具体地，预设的编码器可以是一个自动的编码器，其可以将图片从高维空间压缩为低维空间。在本实施例中，终端可以通过教师网络来训练一个编码器，获得预设的编码器。在上述实施例的基础上，终端获取了待训练图片的第一前景信息和第二前景信息时，可以通过上述预设的编码器压缩只包括前景信息的待训练图片，得到压缩后的低维特征图。终端可以根据上述第一前景信息，在教师网络中，通过上述预设的编码器，压缩只包括前景信息的待训练图片，获得第一前景信息对应的教师网络低维特征图。还可以根据上述第二前景信息，在学生网络中，通过共享上述预设的编码器，压缩只包括前景信息的待训练图片，获得第二前景信息对应的学生网络低维特征图。

S103、根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数。

具体地，监督损失函数可以是上述教师网络监督学生网络时使用的损失函数，其可以用fm_loss表示。其中，监督损失函数中的参数可以是根据上述教师网络低维特征图和学生网络低维特征图确定的。由于教师网络低维特征图是压缩了只包括第一前景信息的图片获得的，其中，第一前景信息中只包括待训练图片中的检测对象的信息，也即是说，教师网络低维特征图是对待训练图片中的检测对象信息进行降维处理获得的特征图，是滤除了待训练图片的背景信息的低维特征图；学生网络低维特征图是压缩了只包括第二前景信息的图片获得的，第二前景信息中只包括待训练图片中的检测对象信息；也即是说，学生网络低维特征图是对待训练图片中的检测对象信息进行降维处理获得的特征图，是滤除了待训练图片的背景信息的低维特征图。也即是说，通过教师网络低维特征图和学生网络低维特征确定的监督损失函数，是去除了待训练图片中的背景信息影响的损失函数。

S104、根据监督损失函数，及预设的自学习损失函数，训练学生网络；自学习损失函数用于根据真实的数据标签训练学生网络。

具体地，预设的自学习损失函数可以用于根据真实的数据标签训练学生网络时使用的损失函数，可以用gt_loss表示。预设的自学习损失函数是在不做知识蒸馏时候的损失函数，其中自学习损失函数可以包含自学习分类损失函数与自学习回归损失函数。在上述实施例的基础上，终端获取了监督损失函数时，可以同时根据监督损失函数和预设的自学习损失函数，确定学生网络的损失函数，训练学生网络。例如，学生网络的损失函数可以表示为：

final_loss＝gt_loss+distill_loss

其中，final_loss为学生网络的损失函数，gt_loss为预设的自学习损失函数，distill_loss为根据只作用于前景信息的损失函数，在本实施例中，distill_loss为fm_loss。

上述神经网络训练方法，终端通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，其中，第一前景信息为在教师网络中待训练图片对应的前景信息；第二前景信息为在学生网络中待训练图片对应的前景信息，并根据第一前景信息，采用预设的编码器获得教师网络低维特征图，同时根据第二前景信息，采用编码器获得学生网络低维特征图，进而根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数，并根据监督损失函数，及预设的自学习损失函数，训练学生网络；自学习损失函数用于根据真实的数据标签训练学生网络。由于监督损失函数是通过只作用于前景信息的教师网络低维特征图和学生网络低维特征图确定的，自学习损失函数是根据真实数据标签得到的，使得训练学生网络的损失函数中同时使用了只用于前景信息的监督损失函数，和根据真实数据标签得到的自学习损失函数，因此学生网络的损失函数更加准确，提高了学生网络的精度。

在通过教师网络低维特征图和学生网络低维特征图确定学生网络的监督损失函数的具体过程中，可以先确定监督损失函数的权值，进而根据监督损失函数的权值，确定监督损失函数。

图3为另一个实施例中神经网络训练方法的流程示意图，本实施例涉及的是确定监督损失函数的具体过程。如图3所示，上述S103“根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数”一种可能的实现方法包括以下步骤：

S201、根据教师网络低维特征图和学生网络低维特征图，确定监督损失函数的权值。

具体地，监督损失函数可以是由监督损失函数的权值和损失函数相乘获得的。其中，监督损失函数的权值可以是通过教师网络低维特征图和学生网络低维特征图确定。其可以是通过监督损失函数的权值来放大教师网络的特征，来训练学生网络；也可以是通过放大教师网络与学生网络之间的差值的特征，来训练学生网络；还可以是通过同时放大教师网络的特征，和教师网络与学生网络之间的差值的特征，来训练学生网络的；本申请实施例对此不做限制。

可选地，根据公式获取监督损失函数的权值fm_weights，其中，fm_T表示教师网络低维特征图，fm_S表示学生网络低维特征图。

其中，监督损失函数的维度也与输入值的维度相同。监督损失函数的权值fm_weights的分母是对所有特征点求和，其结果是一个数值。因此，fm_weights的各个特征点之和为1。监督损失函数的权值fm_weights的分子是两个平方式相乘，第一个平方式fm_T²是对教师网络低维特征图进行平方，使得学生网络着重学***方式(fm_S-fm_T)²是对教师网络低维特征图和学生网络低维特征图进行逐特征点求差，重点学习教师网络和学生网络差异比较大的特征点。

S202、根据监督损失函数的权值，确定监督损失函数。

具体地，在上述实施例的基础上，可以将监督损失函数的权值，与f函数相乘，确定监督损失函数。例如，监督损失函数fm_loss可以用下述公式表示：

fm_loss＝fm_weights*f(fm_T,fm_S)

其中，fm_weights表示监督损失函数的权值，f函数中的两个参数分别是教师网络低维特征图fm_T，和学生网络低维特征图fm_S。在梯度反向传播过程中，只有f函数求导产生梯度，而对fm_weights不予求导。例如，f函数可以选取smooth L1 loss。由上述实施例可知：

则对于监督损失函数的权值的分子的第二个平方项与f函数相乘，与普通的L3loss的差别不仅仅在于求导以后的系数的3倍差异，还在于监督损失函数的权值的分母的归一化，使得整个训练变得十分平稳，而不会剧烈震荡导致发散。

上述神经网络训练方法，终端根据公式获取监督损失函数的权值fm_weights，其中，fm_T表示教师网络低维特征图，fm_S标识学生网络低维特征图，进而根据监督损失函数的权值，确定监督损失函数。由于监督损失函数的权值是根据通过放大教师网络的特征，和教师网络与学生网络之间的差异特征获得的，使得通过上述监督损失函数训练的学生网络，着重学习了携带更多特征信息的教师网络响应强烈的特征点，和教师网络和学生网络之间差异较大的特征点，使得学生网络更加接近教师网络，提高了学生网络的精度。

对于目标检测的图片识别任务而言，常常还包括分类任务分支和回归任务分支，对应的，学生网络还包括分类分支和回归分支，则终端还可以通过训练分类分支和回归分支训练上述学生网络。下面通过图4-7来详细说明。

图4为另一个实施例中神经网络训练方法的流程示意图，本实施例涉及的是训练分类分支的具体过程。如图4所示，上述S104“根据监督损失函数，及预设的自学习损失函数，训练学生网络”一种可能的实现方法包括以下步骤：

S301、将待训练图片输入教师网络，得到检测对象的第一概率分布。

具体地，检测对象可以是一个检测对象，也可以是多个检测对象，本申请实施例对此不做限制。在上述实施例的基础上，目标检测的图片识别任务网络还包括了分类分支，分类分支的任务是获取检测对象的分类概率，则将待训练图片输入的图片识别任务的网络时，通过分类分支最后一层激活函数输出检测对象的概率分布。当上述图片识别任务的网络为教师网络时，此时分类分支最后一层激活函数输出的概率分布为第一概率分布，可以用p_T表示。

S302、将待训练图片输入学生网络，得到检测对象的第二概率分布。

具体地，在上述实施例的基础上，当上述图片识别任务的网络为学生网络时，此时分类分支最后一层激活函数输出概率分布为第二概率分布，可以用p_S表示。

S303、将第一概率分布作为标签，将第二概率分布作为预测值，调整分类损失函数的参数，以训练分类分支。

具体地，在上述实施例的基础上，此处的分类分支为学生网络中的分支网路，该分类分支的输入标签可以是通过教师网络获得的第一概率分布，分类分支的预测值可以是通过学生网络获得的第二概率分布。通过第一概率分布和第二概率分布，调整上述分类损失函数的参数，训练该分类分支。使得通过上述分类分支的输出结果更加接近教师网络中分类分支的输出结果，也即是，通过学生网络输出的检测对象的概率分布更加接近通过教师网络输出的检测对象的概率分布。

上述神经网络训练方法，终端将待训练图片输入教师网络，得到检测对象的第一概率分布，并将待训练图片输入学生网络，得到检测对象的第二概率分布，进而将第一概率分布作为标签，将第二概率分布作为预测值，调整分类损失函数的参数，以训练分类分支。使得通过分类分支获得检测对象的概率分布更加接近通过教师网络获得的检测对象的概率分布，提高了通过学生网络获得的检测对象的概率分布的准确性，进一步地提高了学生网络的准确度。

图5为另一个实施例中神经网络训练方法的流程示意图，本实施例涉及的是根据分类损失函数训练学生网络的具体过程。如图5所示，上述S104“根据监督损失函数，及预设的自学习损失函数，训练学生网络”一种可能的实现方法包括以下步骤：

S401、获取学生网络的分类损失函数。

具体地，学生网络的分类损失函数可以是训练学生网络的分类分支的损失函数，其可以用cls_loss来表示。在上述实施例的基础上，学生网络的分类分支是通过将第一概率分布作为标签，将第二概率分布作为预测值来训练的，在具体的获取学生网络的分类损失函数时，可以由第一概率分布和第二概率分布来确定，其可以由分类损失函数的权值，第一概率分布和第二概率分布的交叉熵确定。需要说明的是，此时分类损失函数只作用于通过预设的提取方法提取前景信息。

S402、根据监督损失函数、预设的自学习损失函数和分类损失函数，训练学生网络。

具体地，在上述实施例的基础上，学生网络的损失函数中可以加入上述分类损失函数cls_loss，也即是说，学生网络的损失函数final_loss可以表示为：final_loss＝gt_loss+distill_loss，上述distill_loss可以包括cls_loss和监督损失函数fm_loss。进而通过加入了分类损失函数cls_loss的损失函数final_loss来训练学生网络。

上述神经网络训练方法，终端通过获取学生网络的分类损失函数，进而根据监督损失函数、预设的自学习损失函数和分类损失函数，训练学生网络，使得训练学生网络的损失函数中加入了分类损失函数，提高了学生网络分类任务的准确性，进一步地提高了学生网络的准确性。

图6为另一个实施例中神经网络训练方法的流程示意图，如图6所示，上述S401“获取学生网络的分类损失函数”一种可能的实现方式包括以下步骤：

S501、根据第一概率分布和第二概率分布，确定分类损失函数的权值。

具体地，在上述实施例的基础上，分类损失函数可以由分类损失函数的权值，第一概率分布和第二概率分布的交叉熵确定。其中，分类损失函数的权值也可以是由第一概率分布和第二概率分布确定的。分类损失函数的权值cls_weights可以表示为：

其中，分类损失函数的权值cls_weights是由第一概率分布和第二概率分布的差值确定的。

S502、根据分类损失函数的权值，确定分类损失函数。

具体地，在上述实施例的基础上，分类损失函数可以是由分类损失函数的权值，第一概率分布和第二概率分布的交叉熵确定的，其中第一概率分布和第二概率分布的交叉熵可用g函数来表达。在分类损失函数可以表示为：cls_loss＝cls_weights*g(p_T,p_S)。这里的g函数，就是教师网络输出的检测对象的概率分布和学生网络的输出的检测对象的概率分布的交叉熵。同样的，cls_weights的分母是对所有特征点求和，其结果是一个数值，不参与求导运算。

上述实施例详细描述了通过训练分类分支来训练学生网络的具体过程。在一个实施例中，学生网络还包括回归分支，下面通过图7所示实施例来详细描述如何通过回归分类损失函数来训练学生网络的具体过程。

图7另一个实施例中神经网络训练方法的流程示意图，如图7所示，上述S104“根据监督损失函数，及预设的自学习损失函数，训练学生网络”一种可能的实现方法包括以下步骤：

S601、获取回归损失函数。

具体地，学生网络的回归损失函数可以是训练学生网络的回归分支的损失函数，其可以用bbox_loss来表示，其可以是smooth L1 loss，而不是的加权损耗函数。需要说明的是，学生网络的回归分支也只作用于通过预设的提取方法提取前景信息上。

S602、根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络。

具体地，在上述实施例的基础上，学生网络的损失函数中可以加入上述回归损失函数bbox_loss，在上述实施例的基础上，学生网络的损失函数final_loss可以表示为：final_loss＝gt_loss+distill_loss，上述distill_loss可以包括分类损失函数cls_loss、监督损失函数fm_loss和回归损失函数bbox_loss。进而通过加入了回归损失函数bbox_loss的损失函数final_loss来训练学生网络。

上述神经网络训练方法，终端通过获取回归损失函数，进而根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络。使得训练学生网络的损失函数中加入了回归损失函数，提高了学生网络回归任务的准确性，进一步地提高了学生网络的准确性。

终端在获取了上述监督损失函数、分类分支函数、回归损失函数之后，还可以通过预设的权重系数，对上述监督损失函数、分类分支函数、回归损失函数进行加权处理，训练学生网络。下面通过图8所示实施例来详细说明。

图8另一个实施例中神经网络训练方法的流程示意图，如图8所示，上述S602“根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络”一种可能的实现方法包括以下步骤：

S701、根据预设的权重系数，对监督损失函数、分类损失函数和回归损失函数进行加权处理，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数。

具体地，预设的权重系数可以是调节上述监督损失函数、分类损失函数和回归损失函数权重的系数，其可以预先设置的一组常数，通过监督损失函数、分类损失函数和回归损失函数分别于对应的常数相乘，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数。例如，预设的权重系数分别为λ₁、λ₂和λ₃，其中λ₁是监督损失函数对应的权重系数，λ₂是分类损失函数对应的权重系数，λ₃是回归损失函数对应的权重系数。则加权后的监督损失函数为λ₁*fm_loss，加权后的分类损失函数为λ₂*cls_loss，加权后的回归损失函数为λ₃*bbox_loss。

S702、根据加权后的监督损失函数、预设的自学习损失函数、加权后的分类损失函数和加权后的回归损失函数，训练学生网络。

具体地，在上述实施例的基础上，学生网络的损失函数final_loss可以表示为：final_loss＝gt_loss+distill_loss，上述distill_loss可以是包括上述加权后的的监督损失函数λ₁*fm_loss、加权后的分类损失函数λ₂*cls_loss和加权后的回归损失函数λ₃*bbox_loss。则学生网络的损失函数可以是：

final_loss＝gt_loss+λ₁*fm_loss+λ₂*cls_loss+λ₃*bbox_loss。进而通过学生网络的损失函数final_loss训练学生网络。

上述神经网络训练方法，终端根据预设的权重系数，对监督损失函数、分类损失函数和回归损失函数进行加权处理，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数，进而根据加权后的监督损失函数、预设的自学习损失函数、加权后的分类损失函数和加权后的回归损失函数，训练学生网络，通过对监督损失函数、分类损失函数和回归损失函数进行加权处理，进一步地放大了各损失函数对应的特征点，加强了学生网络对有效的特征点学习，提高了学生网络的准确度。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示，依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本申请实施例还提供了一种目标检测方法，该方法包括：将待检测图像输入预设的学生网络，得到目标检测结果；所述预设的学生网络是图2-8任一项实施例所提供的神经网络训练方法训练得到的。

本发明实施例提供的目标检测方法，其实现原理和技术效果与上述实施例类似，在此不再赘述。

图9为一个实施例中提供的神经网络训练装置的结构示意图，如图9所示，该神经网络训练装置包括：提取模块10、压缩模块20、确定模块30和训练模块40，其中：

提取模块10，用于通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，其中第一前景信息为在教师网络中，待训练图片对应的前景信息；第二前景信息为在学生网络中，待训练图片对应的前景信息；

压缩模块20，用于根据第一前景信息，采用预设的编码器获得教师网络低维特征图，并根据第二前景信息，采用预设的编码器获得学生网络低维特征图；

确定模块30，用于根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数；

训练模块40，用于根据监督损失函数，及预设的自学习损失函数，训练学生网络；其中，自学习损失函数用于根据真实的数据标签训练学生网络。

本发明实施例提供的神经网络训练装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图10为另一个实施例中提供的神经网络训练装置的结构示意图，在图9所示实施例的基础上，如图10所示，确定模块30还包括：第一确定单元301和第二确定单元302，其中：

第一确定单元301，用于根据教师网络低维特征图和学生网络低维特征图，确定监督损失函数的权值；

第二确定单元302，用于根据监督损失函数的权值，确定监督损失函数。

在一个实施例中，第一确定单元301具体用于根据公式获取监督损失函数的权值fm_weights，其中，fm_T表示所述教师网络低维特征图，fm_S表示所述学生网络低维特征图。

图11为另一个实施例中提供的神经网络训练装置的结构示意图，在图9或图10所示实施例的基础上，上述学生网络包括分类分支，如图11所示，，训练模块40还包括：获取单元401和训练单元402，其中：

获取单元401用于将待训练图片输入教师网络，得到检测对象的第一概率分布；

获取单元401还用于将待训练图片输入学生网络，得到检测对象的第二概率分布；

训练单元402用于将第一概率分布作为标签，将第二概率分布作为预测值，调整分类损失函数的参数，以训练分类分支。

在一个实施例中，获取单元401还用于获取学生网络的分类损失函数；

训练单元402还用于根据监督损失函数、预设的自学习损失函数和分类损失函数，训练学生网络。

在一个实施例中，获取单元401具体用于根据第一概率分布和第二概率分布，确定分类损失函数的权值；根据分类损失函数的权值，确定分类损失函数。

在一个实施例中，上述学生网络还包括回归分支，则，

获取单元401还用于获取回归损失函数；

训练单元402还用于根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络。

在一个实施例中，训练单元402具体用于根据预设的权重系数，对监督损失函数、分类损失函数和回归损失函数进行加权处理，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数，根据加权后的监督损失函数、预设的自学习损失函数、加权后的分类损失函数和加权后的回归损失函数，训练学生网络。

需要说明的是，图11是基于图10的基础上进行示出的，当然图11也可以基于图9的结构进行示出，这里仅是一种示例。

关于一种神经网络训练装置的具体限定可以参见上文中对神经网络训练方法的限定，在此不再赘述。上述神经网络训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图12为一个实施例中提供的目标检测装置的结构示意图，如图11所示，该目标检测装置包括，检测模块50，其中：

检测模块50用于将图像输入预设的学生网络，得到目标检测结果；所述预设的学生网络是通过图2-8任一项实施例所示的神经网络训练方法训练得到的。

本发明实施例提供的目标检测装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于一种目标检测装置的具体限定可以参见上文中对目标检测方法的限定，在此不再赘述。上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端设备，其内部结构图可以如图1所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种神经网络训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据教师网络低维特征图和学生网络低维特征图，确定监督损失函数的权值；根据监督损失函数的权值，确定监督损失函数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据公式获取监督损失函数的权值fm_weights，其中，fm_T表示所述教师网络低维特征图，fm_S表示所述学生网络低维特征图。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将待训练图片输入教师网络，得到检测对象的第一概率分布；将待训练图片输入学生网络，得到检测对象的第二概率分布；将第一概率分布作为标签，将第二概率分布作为预测值，调整分类损失函数的参数，以训练分类分支。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取学生网络的分类损失函数；根据监督损失函数、预设的自学习损失函数和分类损失函数，训练学生网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据第一概率分布和第二概率分布，确定分类损失函数的权值；根据分类损失函数的权值，确定分类损失函数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取回归损失函数；根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据预设的权重系数，对监督损失函数、分类损失函数和回归损失函数进行加权处理，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数；根据加权后的监督损失函数、预设的自学习损失函数、加权后的分类损失函数和加权后的回归损失函数，训练学生网络。

本实施例提供的终端设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

通过预设的提取方法，获取待训练图片的第一前景信息和第二前景信息，其中，第一前景信息为在教师网络中待训练图片对应的前景信息；第二前景信息为在学生网络中待训练图片对应的前景信息；根据第一前景信息，采用预设的编码器获得教师网络低维特征图，并根据第二前景信息，采用编码器获得学生网络低维特征图；根据教师网络低维特征图和学生网络低维特征图，确定学生网络的监督损失函数；根据监督损失函数，及预设的自学习损失函数，训练学生网络；其中，自学习损失函数用于根据真实的数据标签训练所述学生网络。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据教师网络低维特征图和学生网络低维特征图，确定监督损失函数的权值；根据监督损失函数的权值，确定监督损失函数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据公式获取监督损失函数的权值fm_weights，其中，fm_T表示所述教师网络低维特征图，fm_S表示所述学生网络低维特征图。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将待训练图片输入教师网络，得到检测对象的第一概率分布；将待训练图片输入学生网络，得到检测对象的第二概率分布；将第一概率分布作为标签，将第二概率分布作为预测值，调整分类损失函数的参数，以训练分类分支。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取学生网络的分类损失函数；根据监督损失函数、预设的自学习损失函数和分类损失函数，训练学生网络。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据第一概率分布和第二概率分布，确定分类损失函数的权值；根据分类损失函数的权值，确定分类损失函数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取回归损失函数；根据监督损失函数、预设的自学习损失函数、分类损失函数和回归损失函数，训练学生网络。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据预设的权重系数，对监督损失函数、分类损失函数和回归损失函数进行加权处理，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数；根据加权后的监督损失函数、预设的自学习损失函数、加权后的分类损失函数和加权后的回归损失函数，训练学生网络。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种神经网络训练方法，其特征在于，所述方法包括：

通过预设的提取方法，获取所述待训练图片的第一前景信息和第二前景信息；所述第一前景信息为在教师网络中所述待训练图片对应的前景信息；所述第二前景信息为在学生网络中所述待训练图片对应的前景信息；

根据所述第一前景信息，采用预设的编码器获得教师网络低维特征图，并根据所述第二前景信息，采用所述预设的编码器获得学生网络低维特征图；

根据所述教师网络低维特征图和所述学生网络低维特征图，确定所述学生网络的监督损失函数；

根据所述监督损失函数，及预设的自学习损失函数，训练所述学生网络；所述自学习损失函数用于根据真实的数据标签训练所述学生网络。

2.根据权利要求1所述方法，其特征在于，所述根据所述教师网络低维特征图和所述学生网络低维特征图，确定所述学生网络的监督损失函数，包括：

根据所述教师网络低维特征图和所述学生网络低维特征图，确定所述监督损失函数的权值；

根据所述监督损失函数的权值，确定所述监督损失函数。

3.根据权利要求2所述方法，其特征在于，所述根据所述教师网络低维特征图和所述学生网络低维特征图，确定所述监督损失函数的权值，包括：

根据公式获取所述监督损失函数的权值fm_weights，其中，所述fm_T表示所述教师网络低维特征图，所述fm_S表示所述学生网络低维特征图。

4.根据权利要求1-3任一项所述方法，其特征在于，所述学生网络包括分类分支，则所述训练所述学生网络，包括：

将所述待训练图片输入所述教师网络，得到检测对象的第一概率分布；

将所述待训练图片输入所述学生网络，得到所述检测对象的第二概率分布分布；

将所述第一概率分布作为标签，将所述第二概率分布作为预测值，调整分类损失函数的参数，以训练所述分类分支。

5.根据权利要求4所述方法，其特征在于，所述根据所述监督损失函数和所述预设的自学习损失函数，训练所述学生网络还包括：

获取所述学生网络的分类损失函数；

根据所述监督损失函数、所述预设的自学习损失函数和所述分类损失函数，训练所述学生网络。

6.根据权利要求5所述方法，其特征在于，所述获取所述学生网络的分类损失函数，包括：

根据所述第一概率分布和所述第二概率分布，确定所述分类损失函数的权值；

根据所述分类损失函数的权值，确定所述分类损失函数。

7.根据权利要求4-6任一项所述方法，其特征在于，所述学生网络还包括回归分支，所述根据所述监督损失函数、所述预设的自学习损失函数和所述分类损失函数，训练所述学生网络，包括：

获取回归损失函数；

根据所述监督损失函数、所述预设的自学习损失函数、所述分类损失函数和所述回归损失函数，训练所述学生网络。

8.根据权利要求7所述方法，其特征在于，所述根据所述监督损失函数、所述预设的自学习损失函数、所述分类损失函数和所述回归损失函数，训练所述学生网络，包括：

根据预设的权重系数，对所述监督损失函数、所述分类损失函数和所述回归损失函数进行加权处理，获得加权后的监督损失函数、加权后的分类损失函数和加权后的回归损失函数；

则根据所述监督损失函数、所述预设的自学习损失函数、所述分类损失函数和所述回归损失函数，训练所述学生网络，包括：

根据所述加权后的监督损失函数、所述预设的自学习损失函数、所述加权后的分类损失函数和所述加权后的回归损失函数，训练所述学生网络。

9.一种目标检测方法，其特征在于，所述方法包括：

将待检测图像输入预设的学生网络，得到目标检测结果；所述预设的学生网络是通过权利要求1-8任一项方法训练得到的。

10.一种神经网络训练装置，其特征在于，所述装置包括：

提取模块，用于通过预设的提取方法，获取所述待训练图片的第一前景信息和第二前景信息，所述第一前景信息为在教师网络中，所述待训练图片对应的前景信息；所述第二前景信息为在学生网络中，所述待训练图片对应的前景信息；

压缩模块，用于根据所述第一前景信息，采用预设的编码器获得教师网络低维特征图，并根据所述第二前景信息，采用所述预设的编码器获得学生网络低维特征图；

确定模块，用于根据所述教师网络低维特征图和所述学生网络低维特征图，确定所述学生网络的监督损失函数；

训练模块，用于根据所述监督损失函数，及预设的自学习损失函数，训练所述学生网络；所述自学习损失函数用于根据真实的数据标签训练所述学生网络。

11.一种目标检测装置，其特征在于，所述装置包括：

检测模块，用于将图像输入预设的学生网络，得到目标检测结果；所述预设的学生网络是通过权利要求1-8任一项方法训练得到的。

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8中任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法的步骤。