CN110766044B - 一种基于高斯过程先验指导的神经网络训练方法 - Google Patents

一种基于高斯过程先验指导的神经网络训练方法 Download PDF

Info

Publication number
CN110766044B
CN110766044B CN201910858834.9A CN201910858834A CN110766044B CN 110766044 B CN110766044 B CN 110766044B CN 201910858834 A CN201910858834 A CN 201910858834A CN 110766044 B CN110766044 B CN 110766044B
Authority
CN
China
Prior art keywords
training
batch
neural network
samples
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910858834.9A
Other languages
English (en)
Other versions
CN110766044A (zh
Inventor
崔家宝
朱文武
励雪巍
李玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910858834.9A priority Critical patent/CN110766044B/zh
Publication of CN110766044A publication Critical patent/CN110766044A/zh
Application granted granted Critical
Publication of CN110766044B publication Critical patent/CN110766044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于高斯过程先验指导的神经网络训练方法,用于改善神经网络的训练过程以获得更好的训练效果。具体包括如下步骤:S1.获取用于进行神经网络训练的数据集并选出用于建模先验知识的代表集,定义算法目标;S2.对神经网络模型进行一期分批次迭代学习的训练过程,且在每个迭代批次中依次执行步骤S21~S24;S3.本期训练过程结束后,使用验证集对神经网络模型进行验证,得出当前模型的验证集错误率;S4.不断重复S2和S3步骤对神经网络模型进行多期训练过程,直到模型收敛。本发明的基于高斯过程先验指导的神经网络训练方法,在任务中能够有效提高训练的有效性,提升网络学习能力和学习质量,具有良好的应用价值。

Description

一种基于高斯过程先验指导的神经网络训练方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种于高斯过程先验指导的神经网络训练方法。
背景技术
图像分类是将数据集中不同类别的图片区分开来的一种任务。目前,在图像分类任务上主流的解决方案是训练卷积神经网络来解决问题,而训练的方法一般采用随机梯度下降法。近年来,随着网络结构的进步速度日趋放缓,训练策略的改良日渐重要。针对这一目标,本发明认为要在图像分类这类监督学习中将给定的模型训练的更好,就需要提供尽可能完善、有效的监督信息。数据集本身提供了标签,但是这固有的标签只表征了该张图片的分类结果,没有体现出该张图片和其他类别之间的关系。本发明在利用数据集固有的标签的基础上,通过随机过程建模,引入表征图片分类结果概率分布的“软标签”,和数据集固有的标签结合使用,提高训练方法的有效性。
发明内容
为了解决以上问题,本发明提供一种基于高斯过程先验指导的神经网络训练方法。该方法基于深度学习和随机过程,利用随机过程中的高斯过程对图像之间的相互关联性进行建模,并利用这模型对每一个训练样本给出一个“软标签”,使用软标签和数据集固有的标签一起对训练过程进行指导,从而使训练出的模型更具准确性和鲁棒性。
为了实现上述目的,本发明的技术方案为:
一种基于高斯过程先验指导的神经网络训练方法,其包括以下步骤:
S1.获取用于进行神经网络训练的数据集并选出用于建模先验知识的代表集,定义算法目标;
S2.对神经网络模型进行一期(epoch)分批次迭代学习的训练过程,且在每个迭代批次(batch)中依次执行步骤S21~S24:
S21.在当前迭代批次开始前,对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识;
S22.开始当前迭代批次学习过程,根据代表集和本批次的训练样本计算出该批次训练样本的软标签;并在进行本批次训练样本的正向传播过程后,计算网络输出和本批次训练样本固有标签的损失函数
Figure BDA0002199057050000021
以及本批次训练样本固有标签和软标签的损失函数
Figure BDA0002199057050000022
S23.计算网络输出和本批次训练样本软标签的损失函数
Figure BDA0002199057050000023
S24.令总损失函数
Figure BDA0002199057050000024
并对
Figure BDA0002199057050000025
进行反向传播,其中
Figure BDA0002199057050000026
部分和
Figure BDA0002199057050000027
部分用于优化神经网络的全部参数,
Figure BDA0002199057050000028
部分只用于优化神经网络的卷积层参数;
S3.本期训练过程结束后,使用验证集对神经网络模型进行验证,得出当前模型的验证集错误率;
S4.不断重复S2和S3步骤对神经网络模型进行多期训练过程,直到模型收敛。
基于上述方案,各步骤可以通过如下方式实现:
步骤S1中所述的代表集是一个包含若干张不同类图像的集合,代表集的构建方法为:
首先,对整个数据集的类别数进行评估:
当数据集类别数小于50类时,在每一类图像中取50张图片,然后将所有类中取出的图片作为代表集;
当数据集的类别数大于等于50类时,在每一类图像中取100张图片,然后将所有类中取出的图片作为代表集;
定义算法目标为:将总损失函数
Figure BDA0002199057050000031
最小化。
步骤S21中,对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识的具体步骤包括:
S211.利用每期训练过程中初始神经网络模型的卷积层参数,对代表集内的样本和本批次的训练样本进行特征提取,得出所有样本的特征向量;
S212.将代表集里的所有样本和待预测样本联合建模成高斯过程:
Figure BDA0002199057050000032
其中,
Figure BDA0002199057050000033
表示代表集,
Figure BDA0002199057050000034
为代表集中所有图片样本的特征向量集合,
Figure BDA0002199057050000035
为代表集中所有样本的特征向量组成的集合;
Figure BDA0002199057050000036
是待预测样本的标签,hb是待预测样本的特征向量;K(·,·)表示协方差矩阵,使用RBF核函数进行计算,RBF核函数的计算通式为:
Figure BDA0002199057050000037
其中r2(a,b)代表a和b之间的二阶欧式距离,l为特征长度;-
通过所述高斯过程的建模,计算得到先验知识
Figure BDA0002199057050000038
Figure BDA0002199057050000039
步骤S22的具体实现方法为:
S221.依据本批次训练样本计算出
Figure BDA00021990570500000310
K(hb,hb)、
Figure BDA00021990570500000311
利用步骤S21中构建的高斯过程进行高斯过程回归算法,对
Figure BDA0002199057050000041
进行预测:
Figure BDA0002199057050000042
Figure BDA0002199057050000043
其中gm和gv分别为预测的均值和方差;
S222.对网络进行正向传播,计算出网络的当前输出h(xi),并利用h(xi)和gm、gv计算损失函数网络输出h(xi)和本批次训练样本固有标签yi的损失函数
Figure BDA0002199057050000044
以及本批次训练样本固有标签yi和软标签gm(xi)的损失函数
Figure BDA0002199057050000045
Figure BDA0002199057050000046
Figure BDA0002199057050000047
其中
Figure BDA0002199057050000048
Figure BDA0002199057050000049
均表示交叉熵计算,参数α和γ的计算公式为:
Figure BDA00021990570500000410
Figure BDA00021990570500000411
u是前一期训练过程中的验证集错误率,在第一期训练过程中的初始值为
Figure BDA00021990570500000412
C为数据集的类别数;
Figure BDA00021990570500000413
为本期训练过程中上一个迭代批次中的
Figure BDA00021990570500000414
的绝对值,第一个迭代批次中
Figure BDA00021990570500000415
的初始值均为1。
在步骤S23中,网络输出h(xi)和本批次训练样本软标签gm(xi)的损失函数
Figure BDA00021990570500000416
的计算公式为:
Figure BDA00021990570500000417
其中:
Figure BDA00021990570500000418
表示相对熵计算,参数β的计算公式为;
Figure BDA00021990570500000419
u是前一期训练过程中的验证集错误率,初始值为
Figure BDA00021990570500000420
C为类别数;
Figure BDA0002199057050000051
为本期训练过程中上一个迭代批次中的
Figure BDA0002199057050000052
的绝对值,第一个迭代批次中
Figure BDA0002199057050000053
的初始值均为1。
步骤S24中,将步骤S22、S23中得到的三项损失函数相加后构成总的损失函数
Figure BDA0002199057050000054
Figure BDA0002199057050000055
进行优化达到算法目标,其中
Figure BDA0002199057050000056
部分和
Figure BDA0002199057050000057
部分用于优化神经网络的全部参数,
Figure BDA0002199057050000058
部分只用于优化神经网络的卷积层参数。
步骤S3中,在完成本期训练过程的全部迭代之后,利用当前网络,将验证集的图片依次通过网络,然后计算当前网络给出的预测结果的错误率。
相对于现有技术而言,本发明具有以下有益效果:
首先,本发明的基于高斯过程先验指导的神经网络训练方法面向当前深度学习中常用的随机梯度下降法只能同时采样小部分样本进行训练而无法兼顾全局信息的问题提出了解决方案,有效的解决这个问题可以使得训练出的网络的性能得到提升。
其次,本发明的代表集采样方法基于不同数据集的不同特点,可以在不同大小的数据集上都发挥作用。
最后,本发明中提出的三项损失函数相比于传统的一项损失函数,可以使模型考虑不同的标签带来的信息以及“软标签”中蕴含的全局信息,使得模型的训练更加完善。
本发明的基于高斯过程先验指导的神经网络训练方法,在任务中能够有效提高训练的有效性,提升网络学习能力和学习质量,具有良好的应用价值。
附图说明
图1为本发明的流程示意图;
图2为实施例中ResNet20网络在CIFAR-100数据集上训练集错误率对比;
图3为实施例中ResNet20网络在CIFAR-100数据集上验证集错误率对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,一种基于高斯过程先验指导的神经网络训练方法,其特征在于,包括以下步骤:
S1.获取用于进行神经网络训练的数据集,定义待训练的神经网络模型结构。从数据集中选出用于建模先验知识的代表集。本步骤中代表集是一个包含若干张不同类图像的集合,代表集的构建方法为:
首先,对整个数据集的类别数进行评估:
当数据集类别数小于50类时,在每一类图像中取50张图片,然后将所有类中取出的图片作为代表集;
当数据集的类别数大于等于50类时,在每一类图像中取100张图片,然后将所有类中取出的图片作为代表集;
定义算法目标为:将总损失函数
Figure BDA0002199057050000071
最小化。
S2.对神经网络模型进行一期分批次迭代学习的训练过程,且在每个迭代批次中依次执行步骤S21~S24:
S21.在当前迭代批次开始前,对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识。在本实施例中,步骤S21中的具体实现步骤包括:
S211.利用每期训练过程中初始神经网络模型的卷积层参数,对代表集内的样本和本批次的训练样本进行特征提取,得出所有样本的特征向量;
S212.假设代表集为
Figure BDA0002199057050000072
代表集中的所有图片样本集合为
Figure BDA0002199057050000073
代表集中的所有图片样本的固有标签集合为
Figure BDA0002199057050000074
这里的xi为图片,yi为图片的标签。定义:
Figure BDA0002199057050000075
Figure BDA0002199057050000076
为代表集中所有样本
Figure BDA0002199057050000077
的所有特征向量组成的集合,函数f()即神经网络模型除了全连接层以外的结构,也就是神经网络模型的所有卷积层参数,用于提取样本的特征向量。
Figure BDA0002199057050000078
是待预测样本的标签,hb是待预测样本的特征向量。函数h()代表全连接层。
将代表集里的所有样本和待预测样本联合建模成高斯过程:
Figure BDA0002199057050000079
其中,K(·,·)表示协方差矩阵,它使用RBF核函数进行计算,RBF核函数的计算通式为:
Figure BDA00021990570500000710
其中r2(a,b)代表a和b之间的二阶欧式距离,l为特征长度。需要注意的是,当a和b两项中有一项为矩阵,另一项为向量时,我们需要先将向量扩展至和矩阵相同的维度,然后再计算欧氏距离。
通过所述高斯过程的建模,计算得到先验知识
Figure BDA0002199057050000081
Figure BDA0002199057050000082
S22.开始当前迭代批次学习过程,首先在先验知识的指导下,根据代表集和本批次的训练样本计算出该批次训练样本的软标签;并在进行本批次训练样本的正向传播过程后,计算网络输出和本批次训练样本固有标签的损失函数
Figure BDA0002199057050000083
以及本批次训练样本固有标签和软标签的损失函数
Figure BDA0002199057050000084
本实施例中,步骤S22的具体实现方法为:
S221.依据本批次训练样本计算出
Figure BDA0002199057050000085
K(hb,hb)、
Figure BDA0002199057050000086
利用步骤S21中构建的高斯过程进行高斯过程回归算法,假设有
Figure BDA0002199057050000087
所以对于
Figure BDA0002199057050000088
的预测有:
Figure BDA0002199057050000089
Figure BDA00021990570500000810
其中gm和gv分别为预测的均值和方差;
S222.类似于传统深度学习一样对网络进行正向传播的过程,计算出网络的当前输出h(xi),并利用h(xi)和gm、gv计算损失函数网络输出h(xi)和本批次训练样本固有标签yi的损失函数
Figure BDA00021990570500000811
以及本批次训练样本固有标签yi和软标签gm(xi)的损失函数
Figure BDA00021990570500000812
Figure BDA00021990570500000813
Figure BDA00021990570500000814
需要注意的是,h(xi)表示本批次训练样本xi的网络输出,而gm(xi)表示本批次训练样本xi的特征向量作为hb输入S221中公式后预测得到的均值gm
另外,
Figure BDA00021990570500000815
Figure BDA00021990570500000816
均表示交叉熵计算,参数α和γ的计算公式为:
Figure BDA0002199057050000091
Figure BDA0002199057050000092
u是前一期训练过程中的验证集错误率,由于在第一期训练过程中不存在上一期的验证集错误率,因此第一期训练过程中u直接采用初始值为
Figure BDA0002199057050000093
C为数据集的类别数。
Figure BDA0002199057050000094
为本期训练过程中上一个迭代批次中的
Figure BDA0002199057050000095
的绝对值,由于对于第一个迭代批次不存在上一个迭代批次,因此第一个迭代批次中
Figure BDA0002199057050000096
的初始值均为1。
S23.计算网络输出和本批次训练样本软标签的损失函数
Figure BDA0002199057050000097
本实施例中,在步骤S23中,网络输出h(xi)和本批次训练样本软标签gm(xi)的损失函数
Figure BDA0002199057050000098
的计算公式为:
Figure BDA0002199057050000099
其中:
Figure BDA00021990570500000910
表示相对熵计算,参数β的计算公式为;
Figure BDA00021990570500000911
u是前一期训练过程中的验证集错误率,同样的第一期训练过程中初始值为
Figure BDA00021990570500000912
C为类别数;
Figure BDA00021990570500000913
为本期训练过程中上一个迭代批次中的
Figure BDA00021990570500000914
的绝对值,同样的第一个迭代批次中
Figure BDA00021990570500000915
的初始值均为1。
S24.令总损失函数
Figure BDA00021990570500000916
并对
Figure BDA00021990570500000917
进行反向传播,其中
Figure BDA00021990570500000918
部分和
Figure BDA00021990570500000919
部分用于优化神经网络的全部参数,
Figure BDA00021990570500000920
部分只用于优化神经网络的卷积层参数。在本步骤中,将步骤S22、S23中得到的三项损失函数相加后构成总的损失函数
Figure BDA00021990570500000921
Figure BDA00021990570500000922
进行优化即达到算法目标。
S3.本期训练过程结束后,使用验证集对神经网络模型进行验证,得出当前模型的验证集错误率。
在实施例具体计算时,完成当前epoch训练过程的全部迭代(iteration)之后,利用当前网络,将验证集的图片依次通过网络,然后计算当前网络给出的预测结果的错误率。可以根据该验证集错误率是否低于阈值,来判断模型是否收敛。若模型收敛,则神经网络的训练结束,若尚未收敛则需继续执行步骤S4.
S4.不断重复S2和S3步骤对神经网络模型进行多期训练过程,直到模型收敛。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明基于ResNet网络在三个具有真值标注的数据集上实施,分别为:
Cifar10数据集
Cifar100数据集
Tiny-ImageNet数据集
本实施例在每个选取的数据集上进行一组实验,分别是普通的SGD优化方法和本发明所述的方法进行对比。
本实施例的实验结果的精度对比见表1所示。图中数据显示了本发明在相关数据集上的5次测试的平均表现,表中的GPGL即基于高斯过程先验指导的神经网络训练方法(Gaussian Process Guided Learning)
表1实验结果的精度对比
Figure BDA0002199057050000111
另外,图2展示了普通的SGD优化方法和本发明所述的方法在CIFAR-100数据集上训练集错误率对比;图3为普通的SGD优化方法和本发明所述的方法在CIFAR-100数据集上验证集错误率对比,可以直观表明本发明的方法相对于传统方法可以使得训练出的网络的性能得到提升。
通过以上技术方案,本发明实施基于高斯过程先验指导的神经网络训练方法。本发明可以在各种真实图像数据上对不同类别的图片之间的关系进行建模,从而帮助卷积神经网络训练的更好。
以上所述仅为本发明的几个实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于高斯过程先验指导的神经网络训练方法,其特征在于,包括以下步骤:
S1.获取用于进行神经网络训练的数据集并选出用于建模先验知识的代表集,定义算法目标;
S2.对神经网络模型进行一期分批次迭代学习的训练过程,且在每个迭代批次中依次执行步骤S21~S24:
S21.在当前迭代批次开始前,对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识;
S22.开始当前迭代批次学习过程,根据代表集和本批次的训练样本计算出该批次训练样本的软标签;并在进行本批次训练样本的正向传播过程后,计算网络输出和本批次训练样本固有标签的损失函数
Figure FDA0003169613800000011
以及本批次训练样本固有标签和软标签的损失函数
Figure FDA0003169613800000012
S23.计算网络输出和本批次训练样本软标签的损失函数
Figure FDA0003169613800000013
S24.令总损失函数
Figure FDA0003169613800000014
并对
Figure FDA0003169613800000015
进行反向传播,其中
Figure FDA0003169613800000016
部分和
Figure FDA0003169613800000017
部分用于优化神经网络的全部参数,
Figure FDA0003169613800000018
部分只用于优化神经网络的卷积层参数;
S3.本期训练过程结束后,使用验证集对神经网络模型进行验证,得出当前模型的验证集错误率;
S4.不断重复S2和S3步骤对神经网络模型进行多期训练过程,直到模型收敛;
步骤S1中所述的代表集是一个包含若干张不同类图像的集合,代表集的构建方法为:
首先,对整个数据集的类别数进行评估:
当数据集类别数小于50类时,在每一类图像中取50张图片,然后将所有类中取出的图片作为代表集;
当数据集的类别数大于等于50类时,在每一类图像中取100张图片,然后将所有类中取出的图片作为代表集;
定义算法目标为:将总损失函数
Figure FDA0003169613800000021
最小化;
步骤S21中,对代表集内的样本和本批次的训练样本进行联合建模并得出相关先验知识的具体步骤包括:
S211.利用每期训练过程中初始神经网络模型的卷积层参数,对代表集内的样本和本批次的训练样本进行特征提取,得出所有样本的特征向量;
S212.将代表集里的所有样本和待预测样本联合建模成高斯过程:
Figure FDA0003169613800000022
其中,
Figure FDA0003169613800000023
表示代表集,
Figure FDA0003169613800000024
为代表集中所有图片样本的特征向量集合,
Figure FDA0003169613800000025
为代表集中所有样本的特征向量组成的集合;
Figure FDA0003169613800000026
是待预测样本的标签,hb是待预测样本的特征向量;K(·,·)表示协方差矩阵,使用RBF核函数进行计算,RBF核函数的计算通式为:
Figure FDA0003169613800000027
其中r2(a,b)代表a和b之间的二阶欧式距离,l为特征长度;
通过所述高斯过程的建模,计算得到先验知识
Figure FDA0003169613800000028
Figure FDA0003169613800000029
步骤S22的具体实现方法为:
S221.依据本批次训练样本计算出
Figure FDA00031696138000000210
K(hb,hb)、
Figure FDA00031696138000000211
利用步骤S21中构建的高斯过程进行高斯过程回归算法,对
Figure FDA0003169613800000031
进行预测:
Figure FDA0003169613800000032
Figure FDA0003169613800000033
其中gm和gv分别为预测的均值和方差;
S222.对网络进行正向传播,计算出网络的当前输出h(xi),并利用h(xi)和gm、gv计算损失函数网络输出h(xi)和本批次训练样本固有标签yi的损失函数
Figure FDA0003169613800000034
以及本批次训练样本固有标签yi和软标签gm(xi)的损失函数
Figure FDA0003169613800000035
Figure FDA0003169613800000036
Figure FDA0003169613800000037
其中
Figure FDA0003169613800000038
Figure FDA0003169613800000039
均表示交叉熵计算,参数α和γ的计算公式为:
Figure FDA00031696138000000310
Figure FDA00031696138000000311
u是前一期训练过程中的验证集错误率,在第一期训练过程中的初始值为
Figure FDA00031696138000000312
C为数据集的类别数;
Figure FDA00031696138000000313
为本期训练过程中上一个迭代批次中的
Figure FDA00031696138000000314
的绝对值,第一个迭代批次中
Figure FDA00031696138000000315
的初始值均为1;
在步骤S23中,网络输出h(xi)和本批次训练样本软标签gm(xi)的损失函数
Figure FDA00031696138000000316
的计算公式为:
Figure FDA00031696138000000317
其中:
Figure FDA00031696138000000318
表示相对熵计算,参数β的计算公式为;
Figure FDA00031696138000000319
u是前一期训练过程中的验证集错误率,初始值为
Figure FDA00031696138000000320
C为类别数;
Figure FDA0003169613800000041
为本期训练过程中上一个迭代批次中的
Figure FDA0003169613800000042
的绝对值,第一个迭代批次中
Figure FDA0003169613800000043
的初始值均为1;
步骤S24中,将步骤S22、S23中得到的三项损失函数相加后构成总的损失函数
Figure FDA0003169613800000044
Figure FDA0003169613800000045
进行优化达到算法目标,其中
Figure FDA0003169613800000046
部分和
Figure FDA0003169613800000047
部分用于优化神经网络的全部参数,
Figure FDA0003169613800000048
部分只用于优化神经网络的卷积层参数;
步骤S3中,在完成本期训练过程的全部迭代之后,利用当前网络,将验证集的图片依次通过网络,然后计算当前网络给出的预测结果的错误率。
CN201910858834.9A 2019-09-11 2019-09-11 一种基于高斯过程先验指导的神经网络训练方法 Active CN110766044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910858834.9A CN110766044B (zh) 2019-09-11 2019-09-11 一种基于高斯过程先验指导的神经网络训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910858834.9A CN110766044B (zh) 2019-09-11 2019-09-11 一种基于高斯过程先验指导的神经网络训练方法

Publications (2)

Publication Number Publication Date
CN110766044A CN110766044A (zh) 2020-02-07
CN110766044B true CN110766044B (zh) 2021-10-26

Family

ID=69329421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910858834.9A Active CN110766044B (zh) 2019-09-11 2019-09-11 一种基于高斯过程先验指导的神经网络训练方法

Country Status (1)

Country Link
CN (1) CN110766044B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931801B (zh) * 2020-05-28 2024-03-12 浙江大学 一种基于路径多样性与一致性的动态路由网络学习方法
CN111639759A (zh) * 2020-06-01 2020-09-08 深圳前海微众银行股份有限公司 神经网络模型保护方法、装置、设备及可读存储介质
CN111667016B (zh) * 2020-06-12 2023-01-06 中国电子科技集团公司第三十六研究所 一种基于prototype的增量式信息分类方法
CN111860660A (zh) * 2020-07-24 2020-10-30 辽宁工程技术大学 基于改进高斯网络的小样本学习垃圾分类方法
CN111860424B (zh) * 2020-07-30 2023-07-11 厦门熵基科技有限公司 一种可见光手掌识别模型的训练方法和装置
CN112380631B (zh) * 2020-12-02 2023-02-14 黑龙江科技大学 一种基于神经网络的新型迭代混合试验方法
CN112633503B (zh) * 2020-12-16 2023-08-22 浙江大学 基于神经网络的工具变量生成与手写数字识别方法及装置
CN112614550B (zh) * 2020-12-17 2024-03-15 华东理工大学 一种基于神经网络的分子筛x射线衍射图谱峰位置的预测方法
CN112884059B (zh) * 2021-03-09 2022-07-05 电子科技大学 一种融合先验知识的小样本雷达工作模式分类方法
CN113435641B (zh) * 2021-06-24 2023-03-07 布瑞克农业大数据科技集团有限公司 一种农产品全自动化管理方法、***及存储介质
CN114463602B (zh) * 2022-04-12 2022-07-08 北京云恒科技研究院有限公司 一种基于大数据的目标识别的数据处理方法
CN116127371B (zh) * 2022-12-06 2023-09-08 东北林业大学 融合先验分布与同态混沌加密的多用户模型联合迭代方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108806A (zh) * 2017-12-14 2018-06-01 西北工业大学 基于预训练模型滤波器提取的卷积神经网络初始化方法
WO2018184222A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems using improved training and learning for deep neural networks
CN110020718A (zh) * 2019-03-14 2019-07-16 上海交通大学 基于变分推断的逐层神经网络剪枝方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666148B2 (en) * 2010-06-03 2014-03-04 Adobe Systems Incorporated Image adjustment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018184222A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems using improved training and learning for deep neural networks
CN108108806A (zh) * 2017-12-14 2018-06-01 西北工业大学 基于预训练模型滤波器提取的卷积神经网络初始化方法
CN110020718A (zh) * 2019-03-14 2019-07-16 上海交通大学 基于变分推断的逐层神经网络剪枝方法和***

Also Published As

Publication number Publication date
CN110766044A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN110766044B (zh) 一种基于高斯过程先验指导的神经网络训练方法
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN110033089B (zh) 基于分布式估计算法的手写体数字图像识别深度神经网络参数优化方法及***
CN113128671B (zh) 一种基于多模态机器学习的服务需求动态预测方法及***
CN112740200B (zh) 用于基于共指消解的端到端深度强化学习的***和方法
CN114936639A (zh) 一种渐进式的对抗训练方法及装置
CN112710310A (zh) 一种视觉语言室内导航方法、***、终端及应用
CN113902129A (zh) 多模态的统一智能学习诊断建模方法、***、介质、终端
CN114444727B (zh) 活体检测的方法、装置、电子模型及存储介质
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
Bai et al. A unified deep learning model for protein structure prediction
CN110674860A (zh) 基于邻域搜索策略的特征选择方法、存储介质和终端
Zhu et al. Fast Adaptive Character Animation Synthesis Based on Greedy Algorithm
Calderhead et al. Sparse approximate manifolds for differential geometric mcmc
CN111416595B (zh) 一种基于多核融合的大数据滤波方法
Hu et al. Pwsnas: powering weight sharing nas with general search space shrinking framework
CN114154582A (zh) 基于环境动态分解模型的深度强化学习方法
CN111860556A (zh) 一种模型的处理方法、装置及存储介质
Li et al. Revisiting semi-supervised training objectives for differentiable particle filters
Sheng et al. Coarse-to-Fine Loss Based On Viterbi Algorithm for Weakly Supervised Action Segmentation
Pour et al. Optimal Bayesian feature selection with missing data
CN113963165B (zh) 一种基于自监督学习的小样本图像分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant