CN110766044B

CN110766044B - 一种基于高斯过程先验指导的神经网络训练方法

Info

Publication number: CN110766044B
Application number: CN201910858834.9A
Authority: CN
Inventors: 崔家宝; 朱文武; 励雪巍; 李玺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2021-10-26
Anticipated expiration: 2039-09-11
Also published as: CN110766044A

Abstract

本发明公开了一种基于高斯过程先验指导的神经网络训练方法，用于改善神经网络的训练过程以获得更好的训练效果。具体包括如下步骤：S1.获取用于进行神经网络训练的数据集并选出用于建模先验知识的代表集，定义算法目标；S2.对神经网络模型进行一期分批次迭代学习的训练过程，且在每个迭代批次中依次执行步骤S21～S24；S3.本期训练过程结束后，使用验证集对神经网络模型进行验证，得出当前模型的验证集错误率；S4.不断重复S2和S3步骤对神经网络模型进行多期训练过程，直到模型收敛。本发明的基于高斯过程先验指导的神经网络训练方法，在任务中能够有效提高训练的有效性，提升网络学习能力和学习质量，具有良好的应用价值。

Description

一种基于高斯过程先验指导的神经网络训练方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种于高斯过程先验指导的神经网络训练方法。

背景技术

图像分类是将数据集中不同类别的图片区分开来的一种任务。目前，在图像分类任务上主流的解决方案是训练卷积神经网络来解决问题，而训练的方法一般采用随机梯度下降法。近年来，随着网络结构的进步速度日趋放缓，训练策略的改良日渐重要。针对这一目标，本发明认为要在图像分类这类监督学习中将给定的模型训练的更好，就需要提供尽可能完善、有效的监督信息。数据集本身提供了标签，但是这固有的标签只表征了该张图片的分类结果，没有体现出该张图片和其他类别之间的关系。本发明在利用数据集固有的标签的基础上，通过随机过程建模，引入表征图片分类结果概率分布的“软标签”，和数据集固有的标签结合使用，提高训练方法的有效性。

发明内容

为了解决以上问题，本发明提供一种基于高斯过程先验指导的神经网络训练方法。该方法基于深度学习和随机过程，利用随机过程中的高斯过程对图像之间的相互关联性进行建模，并利用这模型对每一个训练样本给出一个“软标签”，使用软标签和数据集固有的标签一起对训练过程进行指导，从而使训练出的模型更具准确性和鲁棒性。

为了实现上述目的，本发明的技术方案为：

一种基于高斯过程先验指导的神经网络训练方法，其包括以下步骤：

S1.获取用于进行神经网络训练的数据集并选出用于建模先验知识的代表集，定义算法目标；

S2.对神经网络模型进行一期(epoch)分批次迭代学习的训练过程，且在每个迭代批次(batch)中依次执行步骤S21～S24：

S21.在当前迭代批次开始前，对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识；

S22.开始当前迭代批次学习过程，根据代表集和本批次的训练样本计算出该批次训练样本的软标签；并在进行本批次训练样本的正向传播过程后，计算网络输出和本批次训练样本固有标签的损失函数

以及本批次训练样本固有标签和软标签的损失函数

S23.计算网络输出和本批次训练样本软标签的损失函数

S24.令总损失函数

并对

进行反向传播，其中

部分和

部分用于优化神经网络的全部参数，

部分只用于优化神经网络的卷积层参数；

S3.本期训练过程结束后，使用验证集对神经网络模型进行验证，得出当前模型的验证集错误率；

S4.不断重复S2和S3步骤对神经网络模型进行多期训练过程，直到模型收敛。

基于上述方案，各步骤可以通过如下方式实现：

步骤S1中所述的代表集是一个包含若干张不同类图像的集合，代表集的构建方法为：

首先，对整个数据集的类别数进行评估：

当数据集类别数小于50类时，在每一类图像中取50张图片，然后将所有类中取出的图片作为代表集；

当数据集的类别数大于等于50类时，在每一类图像中取100张图片，然后将所有类中取出的图片作为代表集；

定义算法目标为：将总损失函数

最小化。

步骤S21中，对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识的具体步骤包括：

S211.利用每期训练过程中初始神经网络模型的卷积层参数，对代表集内的样本和本批次的训练样本进行特征提取，得出所有样本的特征向量；

S212.将代表集里的所有样本和待预测样本联合建模成高斯过程：

其中，

表示代表集，

为代表集中所有图片样本的特征向量集合，

为代表集中所有样本的特征向量组成的集合；

是待预测样本的标签，h_b是待预测样本的特征向量；K(·,·)表示协方差矩阵，使用RBF核函数进行计算，RBF核函数的计算通式为：

其中r²(a,b)代表a和b之间的二阶欧式距离，l为特征长度；-

通过所述高斯过程的建模，计算得到先验知识

步骤S22的具体实现方法为：

S221.依据本批次训练样本计算出

K(h_b,h_b)、

利用步骤S21中构建的高斯过程进行高斯过程回归算法，对

进行预测：

其中g_m和g_v分别为预测的均值和方差；

S222.对网络进行正向传播，计算出网络的当前输出h(xⁱ)，并利用h(xⁱ)和g_m、g_v计算损失函数网络输出h(xⁱ)和本批次训练样本固有标签yⁱ的损失函数

以及本批次训练样本固有标签yⁱ和软标签g_m(xⁱ)的损失函数

其中

和

均表示交叉熵计算，参数α和γ的计算公式为：

u是前一期训练过程中的验证集错误率，在第一期训练过程中的初始值为

C为数据集的类别数；

为本期训练过程中上一个迭代批次中的

的绝对值，第一个迭代批次中

的初始值均为1。

在步骤S23中，网络输出h(xⁱ)和本批次训练样本软标签g_m(xⁱ)的损失函数

的计算公式为：

其中：

表示相对熵计算，参数β的计算公式为；

u是前一期训练过程中的验证集错误率，初始值为

C为类别数；

为本期训练过程中上一个迭代批次中的

的绝对值，第一个迭代批次中

的初始值均为1。

步骤S24中，将步骤S22、S23中得到的三项损失函数相加后构成总的损失函数

对

进行优化达到算法目标，其中

部分和

部分用于优化神经网络的全部参数，

部分只用于优化神经网络的卷积层参数。

步骤S3中，在完成本期训练过程的全部迭代之后，利用当前网络，将验证集的图片依次通过网络，然后计算当前网络给出的预测结果的错误率。

相对于现有技术而言，本发明具有以下有益效果：

首先，本发明的基于高斯过程先验指导的神经网络训练方法面向当前深度学习中常用的随机梯度下降法只能同时采样小部分样本进行训练而无法兼顾全局信息的问题提出了解决方案，有效的解决这个问题可以使得训练出的网络的性能得到提升。

其次，本发明的代表集采样方法基于不同数据集的不同特点，可以在不同大小的数据集上都发挥作用。

最后，本发明中提出的三项损失函数相比于传统的一项损失函数，可以使模型考虑不同的标签带来的信息以及“软标签”中蕴含的全局信息，使得模型的训练更加完善。

本发明的基于高斯过程先验指导的神经网络训练方法，在任务中能够有效提高训练的有效性，提升网络学习能力和学习质量，具有良好的应用价值。

附图说明

图1为本发明的流程示意图；

图2为实施例中ResNet20网络在CIFAR-100数据集上训练集错误率对比；

图3为实施例中ResNet20网络在CIFAR-100数据集上验证集错误率对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，一种基于高斯过程先验指导的神经网络训练方法，其特征在于，包括以下步骤：

S1.获取用于进行神经网络训练的数据集，定义待训练的神经网络模型结构。从数据集中选出用于建模先验知识的代表集。本步骤中代表集是一个包含若干张不同类图像的集合，代表集的构建方法为：

首先，对整个数据集的类别数进行评估：

定义算法目标为：将总损失函数

最小化。

S2.对神经网络模型进行一期分批次迭代学习的训练过程，且在每个迭代批次中依次执行步骤S21～S24：

S21.在当前迭代批次开始前，对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识。在本实施例中，步骤S21中的具体实现步骤包括：

S212.假设代表集为

代表集中的所有图片样本集合为

代表集中的所有图片样本的固有标签集合为

这里的xⁱ为图片，yⁱ为图片的标签。定义：

为代表集中所有样本

的所有特征向量组成的集合，函数f()即神经网络模型除了全连接层以外的结构，也就是神经网络模型的所有卷积层参数，用于提取样本的特征向量。

是待预测样本的标签，h_b是待预测样本的特征向量。函数h()代表全连接层。

将代表集里的所有样本和待预测样本联合建模成高斯过程：

其中，K(·,·)表示协方差矩阵，它使用RBF核函数进行计算，RBF核函数的计算通式为：

其中r²(a,b)代表a和b之间的二阶欧式距离，l为特征长度。需要注意的是，当a和b两项中有一项为矩阵，另一项为向量时，我们需要先将向量扩展至和矩阵相同的维度，然后再计算欧氏距离。

通过所述高斯过程的建模，计算得到先验知识

S22.开始当前迭代批次学习过程，首先在先验知识的指导下，根据代表集和本批次的训练样本计算出该批次训练样本的软标签；并在进行本批次训练样本的正向传播过程后，计算网络输出和本批次训练样本固有标签的损失函数

以及本批次训练样本固有标签和软标签的损失函数

本实施例中，步骤S22的具体实现方法为：

S221.依据本批次训练样本计算出

K(h_b,h_b)、

利用步骤S21中构建的高斯过程进行高斯过程回归算法，假设有

所以对于

的预测有：

其中g_m和g_v分别为预测的均值和方差；

S222.类似于传统深度学习一样对网络进行正向传播的过程，计算出网络的当前输出h(xⁱ)，并利用h(xⁱ)和g_m、g_v计算损失函数网络输出h(xⁱ)和本批次训练样本固有标签yⁱ的损失函数

以及本批次训练样本固有标签yⁱ和软标签g_m(xⁱ)的损失函数

需要注意的是，h(xⁱ)表示本批次训练样本xⁱ的网络输出，而g_m(xⁱ)表示本批次训练样本xⁱ的特征向量作为h_b输入S221中公式后预测得到的均值g_m。

另外，

和

均表示交叉熵计算，参数α和γ的计算公式为：

u是前一期训练过程中的验证集错误率，由于在第一期训练过程中不存在上一期的验证集错误率，因此第一期训练过程中u直接采用初始值为

C为数据集的类别数。

为本期训练过程中上一个迭代批次中的

的绝对值，由于对于第一个迭代批次不存在上一个迭代批次，因此第一个迭代批次中

的初始值均为1。

S23.计算网络输出和本批次训练样本软标签的损失函数

本实施例中，在步骤S23中，网络输出h(xⁱ)和本批次训练样本软标签g_m(xⁱ)的损失函数

的计算公式为：

其中：

表示相对熵计算，参数β的计算公式为；

u是前一期训练过程中的验证集错误率，同样的第一期训练过程中初始值为

C为类别数；

为本期训练过程中上一个迭代批次中的

的绝对值，同样的第一个迭代批次中

的初始值均为1。

S24.令总损失函数

并对

进行反向传播，其中

部分和

部分用于优化神经网络的全部参数，

部分只用于优化神经网络的卷积层参数。在本步骤中，将步骤S22、S23中得到的三项损失函数相加后构成总的损失函数

对

进行优化即达到算法目标。

S3.本期训练过程结束后，使用验证集对神经网络模型进行验证，得出当前模型的验证集错误率。

在实施例具体计算时，完成当前epoch训练过程的全部迭代(iteration)之后，利用当前网络，将验证集的图片依次通过网络，然后计算当前网络给出的预测结果的错误率。可以根据该验证集错误率是否低于阈值，来判断模型是否收敛。若模型收敛，则神经网络的训练结束，若尚未收敛则需继续执行步骤S4.

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明基于ResNet网络在三个具有真值标注的数据集上实施，分别为：

Cifar10数据集

Cifar100数据集

Tiny-ImageNet数据集

本实施例在每个选取的数据集上进行一组实验，分别是普通的SGD优化方法和本发明所述的方法进行对比。

本实施例的实验结果的精度对比见表1所示。图中数据显示了本发明在相关数据集上的5次测试的平均表现，表中的GPGL即基于高斯过程先验指导的神经网络训练方法(Gaussian Process Guided Learning)

表1实验结果的精度对比

另外，图2展示了普通的SGD优化方法和本发明所述的方法在CIFAR-100数据集上训练集错误率对比；图3为普通的SGD优化方法和本发明所述的方法在CIFAR-100数据集上验证集错误率对比，可以直观表明本发明的方法相对于传统方法可以使得训练出的网络的性能得到提升。

通过以上技术方案，本发明实施基于高斯过程先验指导的神经网络训练方法。本发明可以在各种真实图像数据上对不同类别的图片之间的关系进行建模，从而帮助卷积神经网络训练的更好。

以上所述仅为本发明的几个实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高斯过程先验指导的神经网络训练方法，其特征在于，包括以下步骤：

以及本批次训练样本固有标签和软标签的损失函数

S23.计算网络输出和本批次训练样本软标签的损失函数

S24.令总损失函数

并对

进行反向传播，其中

部分和

部分用于优化神经网络的全部参数，

部分只用于优化神经网络的卷积层参数；

S4.不断重复S2和S3步骤对神经网络模型进行多期训练过程，直到模型收敛；

首先，对整个数据集的类别数进行评估：

定义算法目标为：将总损失函数

最小化；

其中，

表示代表集，

为代表集中所有图片样本的特征向量集合，

为代表集中所有样本的特征向量组成的集合；

其中r²(a,b)代表a和b之间的二阶欧式距离，l为特征长度；

通过所述高斯过程的建模，计算得到先验知识

步骤S22的具体实现方法为：

S221.依据本批次训练样本计算出

K(h_b,h_b)、

利用步骤S21中构建的高斯过程进行高斯过程回归算法，对

进行预测：

其中g_m和g_v分别为预测的均值和方差；

以及本批次训练样本固有标签yⁱ和软标签g_m(xⁱ)的损失函数

其中

和

均表示交叉熵计算，参数α和γ的计算公式为：

C为数据集的类别数；

为本期训练过程中上一个迭代批次中的

的绝对值，第一个迭代批次中

的初始值均为1；

的计算公式为：

其中：

表示相对熵计算，参数β的计算公式为；

u是前一期训练过程中的验证集错误率，初始值为

C为类别数；

为本期训练过程中上一个迭代批次中的

的绝对值，第一个迭代批次中

的初始值均为1；

对

进行优化达到算法目标，其中

部分和

部分用于优化神经网络的全部参数，

部分只用于优化神经网络的卷积层参数；