CN110458180B - 一种基于小样本的分类器训练方法 - Google Patents

一种基于小样本的分类器训练方法 Download PDF

Info

Publication number
CN110458180B
CN110458180B CN201910351889.0A CN201910351889A CN110458180B CN 110458180 B CN110458180 B CN 110458180B CN 201910351889 A CN201910351889 A CN 201910351889A CN 110458180 B CN110458180 B CN 110458180B
Authority
CN
China
Prior art keywords
label
variables
classifier
priori
posterior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910351889.0A
Other languages
English (en)
Other versions
CN110458180A (zh
Inventor
刘芷菁
刘波
林露樾
肖燕珊
刘倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910351889.0A priority Critical patent/CN110458180B/zh
Publication of CN110458180A publication Critical patent/CN110458180A/zh
Application granted granted Critical
Publication of CN110458180B publication Critical patent/CN110458180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于小样本的分类器训练方法,包括以下步骤:包括以下步骤:S1:设置参数α,β,学习率,最大训练步长T;S2:从训练集中读取一批图像,并将图像x输入到先验分类器中,得到先验标签的值和每一张图片的潜在变量z的值;S3:对所读取图片的第i类,计算该类潜在变量的均值和断言S4:重复步骤S3,直至所读取图片的所有类均进行了对应的潜在变量的均值和断言的计算;S5:在得知图像x、先验标签的基础上结合后验分类器,获取所描述的后验标签S6:对损失函数进行优化,降低损失函数的计算代价;S7:计算所需要优化的所有变量的集合Θ中所有变量的损失函数的梯度。本发明收敛速度快,训练耗费时间较短,能训练得到高精度分类器。

Description

一种基于小样本的分类器训练方法
技术领域
本发明涉及机器学习的技术领域,尤其涉及到一种基于小样本的分类器训练方法。
背景技术
随着深度学习的发展,人们提出了一种基于深度神经网络的图像分类方法,并需要通过大量的样本进行训练,使得深度神经网络具有更好的性能。然而,在某些实际应用中,例如对象跟踪或对象检测,我们可能只有有限的样本,因此很难建立大量有价值、已标记的样本集。
在仅有稀少样本的情况下,深度神经网络的监督训练过程是非常困难的并且容易导致深度神经网络模型的表达能力不足和泛化能力差,并且训练数据不足的深度神经网络在网络的深化中往往存在性能限制。
对于样本不足的深度学习问题,有人对比分析了卷积神经网络结构各个层次的特征表达能力,提出了层冻结方法微调卷积模型,并在小规模数据集上进行了分类识别,但该方法在网络结构较深时收敛速度较慢,训练耗费时间较长。
发明内容
本发明的目的在于克服现有技术的不足,提供一种收敛速度快、训练耗费时间较短、能训练得到高精度分类器的基于小样本的分类器训练方法。
为实现上述目的,本发明所提供的技术方案为:
包括以下步骤:
S1:设置参数α,β,学习率,最大训练步长T;
S2:从训练集中读取一批图像,并将图像x输入到先验分类器中,得到先验标签的值和每一张图片的潜在变量z的值;
S3:对所读取图片的第i类,计算该类潜在变量的均值和断言/>
S4:重复步骤S3,直至所读取图片的所有类均进行了对应的潜在变量的均值和断言的计算;
S5:在得知图像x、先验标签的基础上结合后验分类器,获取所描述的后验标签/>
S6:对损失函数进行优化,降低损失函数的计算代价;
S7:计算所需要优化的所有变量的集合Θ中所有变量的损失函数的梯度。
进一步地,所述步骤S2的具体过程如下:
训练深度网络CNNs作为先验分类器;先验分类器以图像x作为输入,隐藏层g(x)作为特征提取器生成输入图像的特征描述z,也称作潜在变量,接着为每一个特征描述z分配一个先验标签
进一步地,所述步骤S5获取所描述的后验标签的具体过程如下:
S5-1:将图像x、先验标签输入到编码器/>得出潜在变量的均值和协方差,即/>潜在变量/>的分布满足/>
S5-2:基于前k个分类器的估计和交叉熵的倒数,引入一个修改层来修正先验标签的结果;
S5-3:从分布所产生的/>中采样潜在变量/>并将其输入到CNNs中,为输入图像分配一个标签;
S5-4:将步骤S5-3重复γ次,得到一组潜在变量其中*表示点积运算;
S5-5:将所采样的潜在变量输入到解码器/>后,得到输出的后验标签
进一步地,所述步骤S5-2中,修改层以从先验分类器得到的先验标签作为输入;在修改层中,图像的标签从多项式输入分布中获得,利用激活函数给采样的潜在变量z分配一个标签;采用减法运算计算先验标签和类前半部分的真实标签的差异,其中L表示类的数量,分配给前L/2个类一个标签并标记为1。
进一步地,所述步骤S5-5的计算过程如下:
利用平均操作来处理采样的潜在变量并计算交叉熵;给定第i类的任意样本x,定义vi为在后验分类器中,输入到顶层激活函数softmax或sigmoid的变量,得到输出后验标签/>
上式中,θv和bv为顶层激活函数的参数。
进一步地,所述步骤S6对损失函数进行优化的具体过程如下:
上两式中,公式(1)为损失函数,Θ表示在后验概率中所需要优化的一组变量,公式(1)中的第二项可改写成公式(2);
通过引入随机梯度变分贝叶斯方法的思想,将小批处理中每个类的潜在变量的平均值视为图像集中所有图像的全局变量的平均值,那么,给定训练集中任意第i类的小批样本B,与第i类相关的潜在变量定义为:
关于该类的潜在变量的断言定义为:
则优化问题可改写成如下:
进一步地,利用Adam方法解决步骤S6优化问题;
在Adam方法中,利用θ代表所需要优化的所有变量的集合;θt-1表示在第t次迭代中,在Θ中的任意一个所需要优化的变量;
首先通过后向传播方法,计算出目标在第t次迭代时相对于元素θt-1的梯度gt;接着,通过三步更新规则计算来更新每一个参数:
计算偏置校正的一阶矩估计:
计算偏置校正的二阶矩估计:
将偏置校正的一阶矩估计和偏置校正的二阶矩估计代入到以下式子,得到任意变量θt-1在第t次的表达式:
计算上式,即可对每一个参数进行更新优化。
与现有技术相比,本方案原理和优点如下:
1.基于变分自编码器(VAE),其由先验分类器和后验分类器组成,不同于通过添加扰动或其他方法来增强原始数据的数据增强方法,而是从学习分布中提取更多的潜在变量来生成更多实例,避免出现因学习样本稀少而导致深度神经网络模型的表达能力不足和泛化能力差的情况。
2.在编码器中引入修改层,用于修正先验标签的结果,以补偿真实标签和先验标签之间的差异。
3.考虑随机梯度变分贝叶斯方法的思想,将小批处理中每个类的潜在变量的平均值视为图像集中所有图像的全局变量的平均值,大大降低计算代价。
附图说明
图1为本发明一种基于小样本的分类器训练方法的工作流程图;
图2为结合先验分类器和后验分类器后得出后验标签的流程图;
图3为修改层的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1-3所示,本实施例所述的一种基于小样本的分类器训练方法,包括以下步骤:
S1:设置参数α,β,学习率,最大训练步长T;
S2:训练深度网络CNNs作为先验分类器;先验分类器以图像x作为输入,隐藏层g(x)作为特征提取器生成输入图像的特征描述z,也称作潜在变量,接着为每一个特征描述z分配一个先验标签
S3:对所读取图片的第i类,计算该类潜在变量的均值和断言/>其中断言是指潜在变量的先验分布服从高斯分布;
S4:重复步骤S3,直至所读取图片的所有类均进行了对应的潜在变量的均值和断言的计算;
S5:在得知图像x、先验标签的基础上结合后验分类器,获取所描述的后验标签具体过程如下:
S5-1:将图像x、先验标签输入到编码器/>得出潜在变量的均值和协方差,即/>潜在变量/>的分布满足/>
S5-2:基于前k个分类器的估计和交叉熵的倒数,引入一个修改层来修正先验标签的结果;
具体地,修改层以从先验分类器得到的先验标签作为输入;在修改层中,图像的标签从多项式输入分布中获得,利用激活函数给采样的潜在变量z分配一个标签;采用减法运算计算先验标签和类前半部分的真实标签的差异,其中L表示类的数量,分配给前L/2个类一个标签并标记为1;
S5-3:从分布所产生的/>中采样潜在变量/>并将其输入到CNNs中,为输入图像分配一个标签;
S5-4:将步骤S5-3重复γ次,得到一组潜在变量其中*表示点积运算;
S5-5:将所采样的潜在变量输入到解码器/>后,得到输出的后验标签/>计算过程如下:
利用平均操作来处理采样的潜在变量并计算交叉熵;给定第i类的任意样本x,定义vi为在后验分类器中,输入到顶层激活函数softmax或sigmoid的变量,得到输出后验标签/>
上式中,θv和bv为顶层激活函数的参数;
S6:获取后验标签后,对损失函数进行优化,降低损失函数的计算代价;具体的优化过程如下:
上两式中,公式(1)为损失函数,Θ表示在后验概率中所需要优化的一组变量,公式(1)中的第二项可改写成公式(2);
从上述发现,由于断言P(zi)=N(αzi,βI)的存在,优化损失函数的计算代价很大。这是因为表示第i类中所有图像的潜在变量的平均值,所以这需要通过遍历每个类的数据集中的所有图像才能来计算;
为此,本实施例通过引入随机梯度变分贝叶斯方法的思想,将小批处理中每个类的潜在变量的平均值视为图像集中所有图像的全局变量的平均值,那么,给定训练集中任意第i类的小批样本B,与第i类相关的潜在变量定义为:
关于该类的潜在变量的断言定义为:
则优化问题可改写成如下:
S7:计算所需要优化的所有变量的集合Θ中所有变量的损失函数的梯度
在算法的反向传播中,是将先验分类器的输出视为一个常量,因此无法得到关于公式(1)的梯度,即公式(1)的损失梯度无法传播到前一个分类器;而Adam方法是一个基于梯度下降和自适应估计的低阶矩优化器;Adam算法广泛应用于小批处理的深度学习优化中,其保证了损失函数收敛于零;于是本实施例利用Adam方法,解决上一步骤提到的优化问题;
在Adam方法中,利用θ代表所需要优化的所有变量的集合;θt-1表示在第t次迭代中,在Θ中的任意一个所需要优化的变量;
首先通过后向传播方法,计算出目标在第t次迭代时相对于元素θt-1的梯度gt;接着,通过三步更新规则计算来更新每一个参数:
计算偏置校正的一阶矩估计:
计算偏置校正的二阶矩估计:
将偏置校正的一阶矩估计和偏置校正的二阶矩估计代入到以下式子,得到任意变量θt-1在第t次的表达式:
计算上式,即可对每一个参数进行更新优化。
本实施例基于变分自编码器(VAE),其由先验分类器和后验分类器组成,不同于通过添加扰动或其他方法来增强原始数据的数据增强方法,而是从学***均值视为图像集中所有图像的全局变量的平均值,大大降低计算代价。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种基于小样本的分类器训练方法,其特征在于,包括以下步骤:
S1:设置参数α,β,学习率,最大训练步长T;
S2:从训练集中读取一批图像,并将图像x输入到先验分类器中,得到先验标签的值和每一张图像的潜在变量z的值;
S3:对所读取图像的第i类,计算该类潜在变量的均值和断言/>
S4:重复步骤S3,直至所读取图像的所有类均进行了对应的潜在变量的均值和断言的计算;
S5:在得知图像x、先验标签的基础上结合后验分类器,获取所描述的后验标签/>
S6:对损失函数进行优化,降低损失函数的计算代价;
S7:计算所需要优化的所有变量的集合Θ中所有变量的损失函数的梯度。
2.根据权利要求1所述的一种基于小样本的分类器训练方法,其特征在于,所述步骤S2的具体过程如下:
训练深度网络CNNs作为先验分类器;先验分类器以图像x作为输入,隐藏层g(x)作为特征提取器生成输入图像的特征描述z,也称作潜在变量,接着为每一个特征描述z分配一个先验标签
3.根据权利要求1所述的一种基于小样本的分类器训练方法,其特征在于,所述步骤S5获取所描述的后验标签的具体过程如下:
S5-1:将图像x、先验标签输入到编码器/>得出潜在变量的均值和协方差,即潜在变量/>的分布满足/>
S5-2:基于前k个分类器的估计和交叉熵的倒数,引入一个修改层来修正先验标签的结果;
S5-3:从分布所产生的/>中采样潜在变量/>并将其输入到CNNs中,为输入图像分配一个标签;
S5-4:将步骤S5-3重复γ次,得到一组潜在变量其中/>ε~N(0,1),*表示点积运算;
S5-5:将所采样的潜在变量输入到解码器/>后,得到输出的后验标签/>
4.根据权利要求3所述的一种基于小样本的分类器训练方法,其特征在于,所述步骤S5-2中,修改层以从先验分类器得到的先验标签作为输入;在修改层中,图像的标签从多项式输入分布中获得,利用激活函数给采样的潜在变量z分配一个标签;采用减法运算计算先验标签和类前半部分的真实标签的差异,其中L表示类的数量,分配给前L/2个类一个标签并标记为1。
5.根据权利要求3所述的一种基于小样本的分类器训练方法,其特征在于,所述步骤S5-5的计算过程如下:
利用平均操作来处理采样的潜在变量并计算交叉熵;给定第i类的任意样本x,定义vi为在后验分类器中,输入到顶层激活函数softmax或sigmoid的变量,得到输出后验标签/>
上式中,θv和bv为顶层激活函数的参数。
6.根据权利要求1所述的一种基于小样本的分类器训练方法,其特征在于,所述步骤S6对损失函数进行优化的具体过程如下:
上两式中,公式(1)为损失函数,Θ表示在后验概率中所需要优化的一组变量,公式(1)中的第二项可改写成公式(2);
通过引入随机梯度变分贝叶斯方法的思想,将小批处理中每个类的潜在变量的平均值视为图像集中所有图像的全局变量的平均值,那么,给定训练集中任意第i类的小批样本B,与第i类相关的潜在变量定义为:
关于该类的潜在变量的断言定义为:
则优化问题可改写成如下:
CN201910351889.0A 2019-04-28 2019-04-28 一种基于小样本的分类器训练方法 Active CN110458180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910351889.0A CN110458180B (zh) 2019-04-28 2019-04-28 一种基于小样本的分类器训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910351889.0A CN110458180B (zh) 2019-04-28 2019-04-28 一种基于小样本的分类器训练方法

Publications (2)

Publication Number Publication Date
CN110458180A CN110458180A (zh) 2019-11-15
CN110458180B true CN110458180B (zh) 2023-09-19

Family

ID=68480903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910351889.0A Active CN110458180B (zh) 2019-04-28 2019-04-28 一种基于小样本的分类器训练方法

Country Status (1)

Country Link
CN (1) CN110458180B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020971A (zh) * 2012-12-28 2013-04-03 青岛爱维互动信息技术有限公司 从图像中自动分割目标对象的方法
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN108932705A (zh) * 2018-06-27 2018-12-04 北京工业大学 一种基于矩阵变量变分自编码器的图像处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531852B2 (en) * 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020971A (zh) * 2012-12-28 2013-04-03 青岛爱维互动信息技术有限公司 从图像中自动分割目标对象的方法
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN108932705A (zh) * 2018-06-27 2018-12-04 北京工业大学 一种基于矩阵变量变分自编码器的图像处理方法

Also Published As

Publication number Publication date
CN110458180A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
Li et al. Deep retinex network for single image dehazing
Singh et al. Enhancement of low exposure images via recursive histogram equalization algorithms
CN109165735B (zh) 基于生成对抗网络与自适应比例生成样本图片的方法
CN110580496A (zh) 一种基于熵最小化的深度迁移学习***及方法
CN111882055B (zh) 一种基于CycleGAN与伪标签的目标检测自适应模型的构建方法
CN110443372B (zh) 一种基于熵最小化的迁移学习方法及***
CN113642715B (zh) 自适应分配动态隐私预算的差分隐私保护深度学习算法
CN113077388B (zh) 一种数据增广的深度半监督超限学习图像分类方法及***
Kim et al. Adaptively tuning a convolutional neural network by gate process for image denoising
CN108986101B (zh) 基于循环“抠图-分割”优化的人体图像分割方法
Peng et al. A robust coverless steganography based on generative adversarial networks and gradient descent approximation
Guo et al. Double forward propagation for memorized batch normalization
KR102421349B1 (ko) 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법
Sun et al. A spatially constrained shifted asymmetric Laplace mixture model for the grayscale image segmentation
CN113469186A (zh) 一种基于少量点标注的跨域迁移图像分割方法
CN114037712A (zh) 基于深度学习的用户实时涂抹交互式图像分割方法
CN112686383A (zh) 一种通信并行的分布式随机梯度下降的方法、***及装置
Yu Image noise preprocessing of interactive projection system based on switching filtering scheme
CN110458180B (zh) 一种基于小样本的分类器训练方法
Shang et al. A gradient-based method for multilevel thresholding
CN114663665A (zh) 基于梯度的对抗样本生成方法与***
CN113838066A (zh) 一种基于改进模糊c均值聚类算法的彩色图像分割方法
Ashir Multilevel thresholding for image segmentation using mean gradient
CN109359677B (zh) 一种耐噪在线多分类核学习算法
CN111145221A (zh) 一种基于多层深度特征提取的目标跟踪算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant