CN109034205B - 基于直推式半监督深度学习的图像分类方法 - Google Patents

基于直推式半监督深度学习的图像分类方法 Download PDF

Info

Publication number
CN109034205B
CN109034205B CN201810713131.2A CN201810713131A CN109034205B CN 109034205 B CN109034205 B CN 109034205B CN 201810713131 A CN201810713131 A CN 201810713131A CN 109034205 B CN109034205 B CN 109034205B
Authority
CN
China
Prior art keywords
training
data set
neural network
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810713131.2A
Other languages
English (en)
Other versions
CN109034205A (zh
Inventor
张玥
龚怡宏
石伟伟
程德
陶小语
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201810713131.2A priority Critical patent/CN109034205B/zh
Publication of CN109034205A publication Critical patent/CN109034205A/zh
Application granted granted Critical
Publication of CN109034205B publication Critical patent/CN109034205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种基于直推式半监督深度学习的图像分类方法,包括:准备半监督图像数据集,将训练数据划分为训练数据集和验证数据集;训练数据集中其中一部分数据为有标签的数据,另一部分为无标签的数据,验证数据集中为有标签的数据;在有标签的训练数据集上,训练通用的深度神经网络图像分类模型,当训练的模型在验证数据集上达到预期的精度,保存网络模型参数;搭建基于Min‑Max准则的直推式半监督深度卷积神经网络模型,同时使用训练数据集中有标签的数据和无标签的数据循环训练模型,当循环次数达到最大循环次数,保存网络模型参数;使用训练好的模型计算测试图像的标签或测试数据集的识别精度。本发明提出的TSSDL算法,具有很好的可移植性。

Description

基于直推式半监督深度学习的图像分类方法
技术领域
本发明属于计算机视觉图像分类技术领域,具体涉及一种基于Min-Max准则的直推式半监督深度学习的图像分类方法。
背景技术
迄今为止,深度卷积神经网络已经在许多计算机视觉应用中展示了高水准的性能,如图像分类、物体检测、人脸识别和图像转换等。包含数百万个标注图像的大规模训练数据集,是驱动深度卷积神经网络获得成功的重要因素之一。然而,手动标注创建一个大规模、高质量的训练集,是非常耗时、昂贵或甚至难以完成的(例如图像语义分割的训练集)。与此同时,可以很容易地通过网络爬虫和搜索引擎从互联网上获取海量未标记的图像。因此,近年来越来越多的研究人员开始研究如何利用标记数据和未标记数据,使用半监督学习(SSL)方法训练深度卷积神经网络。半监督学习的研究工作在极大的降低训练高性能精度的深度卷积神经网络的成本上有很大的潜力。
传统的SSL方法大多基于标签传播算法,即通过度量训练样本之间的相似性将有标签样本的标签传播到相似度高的无标签样本。另一类研究工作被称为直推式半监督学习(TSSL),这类方法将无标签样本的标签视为变量,通过迭代训练过程确定其类别。在训练过程结束时,同时使用有标签和无标签的训练样本训练分类器。由于在训练过程中使用了额外的无标签样本,使用SSL和TSSL方法训练得到的分类器通常比使用相同有标签训练样本全监督训练得到的分类器效果更好。
然而,传统的SSL和TSSL存在两个共同的问题。首先,这两类方法通常在训练过程的最初阶段,就需要高质量的特征描述子来度量训练样本之间的相似度。由于深度卷积神经网络模型在训练初始阶段输出的特征质量较差,随着训练过程推进特征质量逐渐提高,因此很难将这两类方法与深度卷积神经网络的训练相结合。其次,传统的SSL和TSSL方法平等地对待每个未标记的样本,不能合理的处理奇异样本和不确定的数据样本,影响模型训练的稳定性和效果。这个问题在深度卷积神经网络训练中影响更明显,因为网络模型训练初始阶段产生的特征质量较差且不稳定,可能会误导模型训练到错误的方向。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于直推式半监督深度学习的图像分类方法。
为达到上述目的,本发明采用如下技术方案:
基于直推式半监督深度学习的图像分类方法,包括以下步骤:
1)准备半监督图像数据集,将训练数据划分为训练数据集和验证数据集;训练数据集中其中一部分数据为有标签的数据,另一部分为无标签的数据,验证数据集中为有标签的数据;
2)在有标签的训练数据集上,训练通用的深度神经网络图像分类模型,当训练的模型在验证数据集上达到预期的精度,保存网络模型参数;
3)搭建基于Min-Max准则的直推式半监督深度卷积神经网络模型,同时使用训练数据集中有标签的数据和无标签的数据循环训练模型,当循环次数达到最大循环次数,保存网络模型参数;
4)使用训练好的模型计算测试图像的标签或测试数据集的识别精度。
本发明进一步的改进在于,步骤2)的具体实现方法如下:
设训练集为
Figure BDA0001717103820000031
其中
Figure BDA0001717103820000032
表示有标签的数据集,
Figure BDA0001717103820000033
表示无标签的数据集,Xi是第ith个训练样本;如果
Figure BDA0001717103820000034
那么
Figure BDA0001717103820000035
是对应的真值标签向量,当Xi属于第jth类时
Figure BDA0001717103820000036
否则,
Figure BDA0001717103820000037
K表示类别数量,L和U分别表示有标签数据集和无标签数据集训练样本的数量,通常L<<U,N=L+U为训练样本的总数量;
在有标签的训练数据集上,训练通用的深度神经网络图像分类模型时,典型的损失函数通常定义如下:
Figure BDA0001717103820000038
其中,
Figure BDA0001717103820000039
θ为整个深度卷积神经网络的参数集,l0(Xi,yi;θ)为样本Xi的损失函数,
Figure BDA00017171038200000310
为人工提供的训练集
Figure BDA00017171038200000311
的真值标签向量,通过训练过程确定其取值;
如果使用通用的softmax损失函数,那么上述公式改写为:
Figure BDA00017171038200000312
其中,f(Xi;θ)为样本Xi在深度卷积神经网络倒数第二层的输出,即样本Xi学习到的特征,W为网络最后一层全连接层的参数;定义CEsoftmax(a,b)=Cross-Entropy(softmax(a),b),通过最小化损失函数
Figure BDA00017171038200000313
学习模型最优的参数θ*
本发明进一步的改进在于,步骤3)中每次循环的具体实现方法如下:
101)根据提出的TSSDL算法,按以下损失训练深度卷积神经模型:
Figure BDA0001717103820000041
其中,
Figure BDA0001717103820000042
为训练集
Figure BDA0001717103820000043
的预测标签向量集,
Figure BDA0001717103820000044
中的元素ri为样本Xi的置信度,表征标签向量
Figure BDA0001717103820000045
属于样本Xi的可信度;如果
Figure BDA0001717103820000046
那么
Figure BDA0001717103820000047
在整个训练过程中始终置为真值标签向量
Figure BDA0001717103820000048
如果
Figure BDA0001717103820000049
那么
Figure BDA00017171038200000410
为当前网络参数下预测的标签向量,并作为变量优化;
传导学习过程通过优化以下损失函数,优化参数θ*,
Figure BDA00017171038200000411
Figure BDA00017171038200000412
Figure BDA00017171038200000413
102)在上述损失函数中,固定θ,更新置信度
Figure BDA00017171038200000414
103)在上述损失函数中,固定θ和
Figure BDA00017171038200000415
优化
Figure BDA00017171038200000416
104)在上述损失函数中,固定
Figure BDA00017171038200000417
Figure BDA00017171038200000418
在训练集上使用小批量随机梯度下降法训练深度卷积神经网络至收敛。
本发明进一步的改进在于,步骤102)中具体实现方法如下:
对于有标签的样本
Figure BDA00017171038200000419
始终将其置信度为ri=1;对于无标签的样本
Figure BDA00017171038200000420
有如下直观假设:奇异样本和极度不确定样本通常落在特征空间的稀疏区域;稠密区域的样本正确分类的概率更大;设{f1,…,fN}为当前网络参数下{X1,…,XN}的特征即fi=f(Xi;θ),定义Xi的邻近度di为:
Figure BDA00017171038200000421
其中,
Figure BDA00017171038200000422
为fi的k近邻;显然,如果样本Xi落在稠密区域,则di的值较小,样本Xi预测正确标签的可能性较大;因此,样本Xi的置信度定义如下:
Figure BDA00017171038200000423
dmax=max{d1,…,dN}
训练过程中,随着网络参数θ迭代更新,学习的样本特征{f1,…,fN}也不断更新,训练迭代过程中特征更新后,重新计算置信度
Figure BDA0001717103820000051
本发明进一步的改进在于,步骤103)中具体实现方法如下:
固定网络参数θ和置信度
Figure BDA0001717103820000052
通过优化获得最优的预测标签向量
Figure BDA0001717103820000053
计算无标签样本Xi,(i=L+1,…,N)的最优解
Figure BDA0001717103820000054
这里为了方便说明用yi代替
Figure BDA0001717103820000055
令图像Xi的预测得分向量为pi=[p1i,p2i,…,pKi],pi即softmax归一化后的深度卷积神经网络最后一层输出,其中pji表示图像Xi在第jth类上的预测得分;
损失函数中的相关项改写为:
Figure BDA0001717103820000056
其中,
Figure BDA0001717103820000057
显然,对不同的样本i是解耦的,因此上述公式的优化问题转化为
Figure BDA0001717103820000058
独立的子问题:
Figure BDA0001717103820000059
由于ri≥0,优化问题转化为:
Figure BDA00017171038200000510
Figure BDA00017171038200000511
当s=argmaxkpki时,上述优化问题的解取决于
Figure BDA00017171038200000512
否则,
Figure BDA00017171038200000513
s=1,…,K,因此其最优解为:
Figure BDA00017171038200000514
本发明进一步的改进在于,步骤104)中具体实现方法如下:
定义基于Min-Max准则的MMF正则项为:
Figure BDA0001717103820000061
其中,若
Figure BDA0001717103820000062
否则
Figure BDA0001717103820000063
h为预设间隔;
对每个训练样本Xi,通过添加不同的随机扰动ηii′,分别得到两个有扰动的样本Xii,Xi+η′i,设计损失项使两个添加了不同扰动的样本学习到的特征尽可能一致,用公式表示如下:
Figure BDA0001717103820000064
结合上述两项正则项,得到深度卷积网络模型学习鲁棒Min-Max特征:
Figure BDA0001717103820000065
其中,λ1和λ2为两个正则项的权重;因此,提出的TSSDL算法损失函数表示如下:
Figure BDA0001717103820000066
使用梯度下降法的深度卷积神经网络反向传播;其中,上述公式的第一项的梯度使用标准算法计算,RRF的梯度根据
Figure BDA0001717103820000067
计算,RMMF的梯度计算方法为
Figure BDA0001717103820000068
且:
Figure BDA0001717103820000069
其中,当a<0时ψ(a)=1,否则ψ(a)=0;
Figure BDA00017171038200000610
通过深度卷积神经网络反向传播获得。
相对于现有技术,本发明具有如下的优点:
本发明提出的TSSDL算法独立于任何深度卷积神经网络架构,具有很好的可移植性。首先,本发明提出的TSSDL算法,扩展了传统的SSL方法和TSSL方法,使其适用于深度卷积神经网络的训练。传统的TSSL方法对于每个训练样本的特征描述子是固定的,而本发明提出的TSSDL方法在训练过程中不断优化特征描述子。其次,对每个未标记样本引入的置信度,特殊处理来自异常值和不确定样本的影响。传统的TSSL方法,均等的对待每个无标签样本
Figure BDA0001717103820000071
没有处理奇异样本和极度不确定样本对模型带来的不稳定性。相反的,本发明提出的TSSDL方法对样本Xi引入了置信度ri,减弱特殊样本对模型训练的负面影响。最后,提出了MMF正规项,使深度卷积神经网络学习到的特征具有如下性质:具有相同标签的图像在特征空间距离尽可能近,不同标签的图像在特征空间距离大于预设间隔。
本发明分别在通用实验基准数据集CIFAR10和SVHN上,对提出的TSSDL算法进行了测试。CIFAR10数据集包括10个类别共计60000张自然图像,其中50000张为训练图像,10000张为验证图像。本发明采用了通用的测试方法,即分别从50000张训练图像中选取1000、2000、4000和50000张图像作为有标签图像,其余训练图像作为无标签图像进行训练。SVHN数据集包括73257张训练图像和26032张验证图像。同样采用通用的测试方法,分别从训练集中选择250、500、1000和73257张图像作为有标签训练数据,其余训练图像为无标签图像进行训练。测试结果显示本发明提出的TSSDL算法与其他SSL方法相比,在数据集上取得了更好的分类精度,提出的TSSDL-MT算法在两个数据集上取得了最好的分类精度。
附图说明
图1为CIFAR10测试集上采用TDCNN方法提取的特征可视化效果图,每个点表示一张图像,不同的颜色深度表示不同的类别。
图2为CIFAR10测试集上采用TMMF方法提取的特征可视化效果图,每个点表示一张图像,不同的颜色深度表示不同的类别。
图3为CIFAR10测试集上采用TRF方法提取的特征可视化效果图,每个点表示一张图像,不同的颜色深度表示不同的类别。
图4为CIFAR10测试集上采用TSSDL方法提取的特征可视化效果图,每个点表示一张图像,不同的颜色深度表示不同的类别。
具体实施方式
针对上述研究现状,本发明提出了一种能有效训练深度卷积神经网络模型的直推式半监督深度学习(TSSDL)算法。提出的直推式半监督深度学习(TSSDL)算法主要包含三个部分:首先,本发明扩展传统的TSSL方法,使其适用于DCNN训练。本发明将未标记样本的标签作为变量,通过迭代训练最小化损失函数,同时确定最优的未标记样本标签和深度卷积神经网络模型参数。据本发明所知,本发明提出的方法是最先尝试将传导学习原理应用于深度卷积神经网络模型训练过程中的。其次,为了克服深度卷积神经网络模型在训练初始阶段生成的低质量特征描述子可能将训练过程误导到错误的方向的问题,本发明为每个未标记样本Xi引入的置信度ri,表示当前版本的深度卷积神经网络模型预测出样本Xi的标签矢量yi的可靠程度。通常,在标签高密度区域对无标签样本的预测比低密度区域更为准确,因此提出如下假设计算置信度ri:如果Xi位于高密度区域,那么预测的标签向量yi可靠程度较高,反之较低。第三,本发明提出了Min-Max准则强制深度卷积神经网络模型学习的特征具有以下属性:如果两幅图像具有相同的标签,那么它们的特征描述子之间的距离必须尽可能小,如果两幅图像具有不同的标签,它们的特征距离必须大于预定的间隔。MMF可以作为传统标签传播算法的重要扩展,它不仅要求具有相同标签的图像在特征空间尽可能接近,同时要求不同标签的图像在特征空间的距离大于预订的间隔,因此训练的模型能从标记样本和未标记样本中学习到更有辨别力的特征描述子。
设训练集为
Figure BDA0001717103820000091
其中
Figure BDA0001717103820000092
表示有标签的数据集,
Figure BDA0001717103820000093
表示无标签的数据集,Xi是第ith个训练样本。如果
Figure BDA0001717103820000094
那么
Figure BDA0001717103820000095
是对应的真值标签向量,当Xi属于第jth类时
Figure BDA0001717103820000096
否则,
Figure BDA0001717103820000097
K表示类别数量,L和U分别表示有标签数据集和无标签数据集训练样本的数量,通常L<<U。N=L+U为训练样本的总数量。
1.直推式半监督深度学习(TSSDL)
使用全监督学习方法训练深度卷积神经网络模型时,典型的损失函数通常定义如下:
Figure BDA0001717103820000098
其中,
Figure BDA0001717103820000099
θ为整个深度卷积神经网络的参数集,l0(Xi,yi;θ)为样本Xi的损失函数。
Figure BDA00017171038200000910
为人工提供的训练集
Figure BDA00017171038200000911
的真值标签向量,通过训练过程确定其取值。如果使用通用的softmax损失函数,那么公式(1)可改写为:
Figure BDA00017171038200000912
其中,f(Xi;θ)为样本Xi在深度卷积神经网络倒数第二层的输出,即样本Xi学习到的特征,W为网络最后一层全连接层的参数。定义CEsoftmax(a,b)=Cross-Entropy(softmax(a),b)。通过最小化损失函数
Figure BDA0001717103820000101
学习模型最优的参数θ*
本发明提出的TSSDL算法,根据以下损失训练深度卷积神经模型:
Figure BDA0001717103820000102
其中,
Figure BDA0001717103820000103
为训练集
Figure BDA0001717103820000104
的预测标签向量集。
Figure BDA0001717103820000105
中的元素ri为样本Xi的置信度,表征标签向量
Figure BDA0001717103820000106
属于样本Xi的可信度。如果
Figure BDA0001717103820000107
那么
Figure BDA0001717103820000108
在整个训练过程中始终置为真值标签向量
Figure BDA0001717103820000109
如果
Figure BDA00017171038200001010
那么
Figure BDA00017171038200001011
为当前网络参数下预测的标签向量,并作为变量优化。随着传导学习过程的收敛,迭代更新
Figure BDA00017171038200001012
收敛到样本Xi的最终预测标签向量。传导学习过程通过优化以下损失函数,优化参数θ*,
Figure BDA00017171038200001013
Figure BDA00017171038200001014
Figure BDA00017171038200001015
下面介绍样本Xi的置信度ri计算方法。对于有标签的样本
Figure BDA00017171038200001016
始终将其置信度为ri=1。对于无标签的样本
Figure BDA00017171038200001017
有如下直观假设:奇异样本和极度不确定样本通常落在特征空间的稀疏区域;稠密区域的样本正确分类的概率更大。设{f1,…,fN}为当前网络参数下{X1,…,XN}的特征即fi=f(Xi;θ),定义Xi的邻近度di为:
Figure BDA00017171038200001018
其中,
Figure BDA00017171038200001019
为fi的k近邻。显然,如果样本Xi落在稠密区域,则di的值较小,样本Xi预测正确标签的可能性较大。因此,样本Xi的置信度定义如下:
Figure BDA0001717103820000111
dmax=max{d1,…,dN}#(6)
训练过程中,随着网络参数θ迭代更新,学习的样本特征{f1,…,fN}也不断更新。因此,训练迭代过程中特征更新后,需要重新计算置信度
Figure BDA0001717103820000112
2.鲁棒Min-Max特征学习(RMMF)
在提出的TSSDL算法中,通过学习鲁棒的Min-Max特征进一步提高图像分类的精度。具体的,通过在公式(3)增加两个正则项实现,其中一个正则项学习Min-Max特征,另一个学习鲁棒特征,下面将详细介绍这两个正则项。
Min-Max准则要求学习的特征空间具有以下性质,相同标签的图像特征间的距离尽可能小,且不同标签图像特征间的距离大于预设间隔。基于这一性质,定义MMF正则项为:
Figure BDA0001717103820000113
其中,若
Figure BDA0001717103820000114
否则
Figure BDA0001717103820000115
h为预设间隔。
为了学习鲁棒的特征,对每个训练样本Xi,通过添加不同的随机扰动ηii′,分别得到两个有扰动的样本Xii,Xi+η′i,本发明希望两个添加了不同扰动的样本学习到的特征尽可能一致,用公式表示如下:
Figure BDA0001717103820000116
结合上述两项正规项,使得深度卷积网络模型学习鲁棒Min-Max特征:
Figure BDA0001717103820000117
其中,λ1和λ2为两个正则项的权重。因此,本发明提出的TSSDL算法损失函数表示如下:
Figure BDA0001717103820000121
3.TSSDL算法求解
下面将介绍公式(10)中损失函数的优化方法,优化流程如下:
输入:训练集
Figure BDA0001717103820000122
参数λ12,迭代次数Tmax(设Tmax=3)。
输出:深度卷积神经网络参数θ。
步骤:
1、在有标签的数据集
Figure BDA0001717103820000123
上,使用全监督方法训练深度卷积神经网络。
2、从loop=1到Tmax:
3、固定θ,根据公式(6)更新置信度
Figure BDA0001717103820000124
4、固定θ和
Figure BDA0001717103820000125
优化
Figure BDA0001717103820000126
5、固定
Figure BDA0001717103820000127
Figure BDA0001717103820000128
根据公式(10)在训练集上使用小批量随机梯度下降法训练深度卷积神经网络至收敛。
6、循环结束
下面将详细介绍优化流程中的步骤4和步骤5。
步骤4:固定网络参数θ和置信度
Figure BDA0001717103820000129
通过优化获得最优的预测标签向量
Figure BDA00017171038200001210
本发明只需要计算无标签样本Xi,(i=L+1,…,N)的最优解
Figure BDA00017171038200001211
这里为了方便说明用yi代替
Figure BDA00017171038200001212
令图像Xi的预测得分向量为pi=[p1i,p2i,…,pKi](pi即softmax归一化后的深度卷积神经网络最后一层输出),其中pji表示图像Xi在第jth类上的预测得分。
公式(10)中的相关项可改写为:
Figure BDA00017171038200001213
其中,
Figure BDA0001717103820000131
显然,对不同的样本i是解耦的,因此公式(11)的优化问题转化为
Figure BDA0001717103820000132
独立的子问题:
Figure BDA0001717103820000133
由于ri≥0,优化问题转化为:
Figure BDA0001717103820000134
当s=argmaxkpki时,上述优化问题的解取决于
Figure BDA0001717103820000135
否则,
Figure BDA0001717103820000136
(s=1,…,K)。因此,公式(12)的最优解为:
Figure BDA0001717103820000137
步骤4中的优化根据公式(14)实现。
步骤5:本步骤即使用梯度下降法的深度卷积神经网络反向传播。其中,公式(10)的第一项的梯度使用标准算法计算,RRF的梯度根据
Figure BDA0001717103820000138
计算,RMMF的梯度计算方法为
Figure BDA0001717103820000139
且:
Figure BDA00017171038200001310
其中,当a<0时ψ(a)=1,否则ψ(a)=0。
Figure BDA00017171038200001311
通过深度卷积神经网络反向传播获得。
4.TSSDL-MT算法
在实验中,本发明结合TSSDL算法和Mean Teacher算法,开发了TSSDL的一个变种TSSDL-MT算法,损失函数定义如下:
Figure BDA0001717103820000141
其中,θ′t=αθ′t-1+(1-α)θt,α为指数移动平均数参数(EMA)。使用参数的基准模型为学生模型,使用参数的模型为老师模型。TSSDL-MT算法的优化方法与TSSDL算法相似。
表1为在CIFAR10测试集上Top-1错误率的性能比较结果(取10次实验平均值)。
Figure BDA0001717103820000142
Figure BDA0001717103820000151
表2为在SVHN测试集上Top-1错误率的性能比较结果(取10次实验平均值)。
Figure BDA0001717103820000152
如图1至图4所示,为CIFAR10测试集上不同方法提取的特征可视化效果图,每个点表示一张图像,不同的颜色深度表示不同的类别。

Claims (4)

1.基于直推式半监督深度学习的图像分类方法,其特征在于,包括以下步骤:
1)准备半监督图像数据集,将训练数据划分为训练数据集和验证数据集;训练数据集中其中一部分数据为有标签的数据,另一部分为无标签的数据,验证数据集中为有标签的数据;
2)在有标签的训练数据集上,训练通用的深度卷积神经网络图像分类模型,当训练的模型在验证数据集上达到预期的精度,保存网络模型参数;具体实现方法如下:
设训练数据集为
Figure FDA0002842316060000011
其中
Figure FDA0002842316060000012
表示有标签的数据集,
Figure FDA0002842316060000013
Figure FDA0002842316060000014
表示无标签的数据集,Xi是第ith个训练样本;如果
Figure FDA0002842316060000015
那么
Figure FDA0002842316060000016
Figure FDA0002842316060000017
是对应的真值标签向量,当Xi属于第jth类时
Figure FDA0002842316060000018
否则,
Figure FDA0002842316060000019
K表示类别数量,L和U分别表示有标签数据集和无标签数据集训练样本的数量,L<<U,N=L+U为训练样本的总数量;
在有标签的训练数据集上,训练通用的深度卷积神经网络图像分类模型时,损失函数定义如下:
Figure FDA00028423160600000110
其中,
Figure FDA00028423160600000111
θ为整个深度卷积神经网络的参数集,l0(Xi,yi;θ)为样本Xi的损失函数,
Figure FDA00028423160600000112
为人工提供的训练数据集
Figure FDA00028423160600000113
对应的真值标签向量的集合;
使用通用的softmax损失函数,上述公式改写为:
Figure FDA00028423160600000114
其中,f(Xi;θ)为样本Xi在深度卷积神经网络倒数第二层的输出,即样本Xi学习到的特征,W为网络最后一层全连接层的参数;定义CEsoftmax(a,b)=Cross-Entropy(softmax(a),b),通过最小化损失函数
Figure FDA0002842316060000021
学习模型最优的参数θ*
3)搭建基于Min-Max准则的直推式半监督深度卷积神经网络模型,同时使用训练数据集中有标签的数据和无标签的数据循环训练模型,当循环次数达到最大循环次数,保存网络模型参数;每次循环的具体实现方法如下:
101)按以下损失训练深度卷积神经网络模型:
Figure FDA0002842316060000022
其中,
Figure FDA0002842316060000023
为训练数据集
Figure FDA0002842316060000024
的预测标签向量集,
Figure FDA0002842316060000025
中的元素ri为样本Xi的置信度,表征标签向量
Figure FDA0002842316060000026
属于样本Xi的可信度;如果
Figure FDA0002842316060000027
那么
Figure FDA0002842316060000028
在整个训练过程中始终置为真值标签向量
Figure FDA0002842316060000029
如果
Figure FDA00028423160600000210
那么
Figure FDA00028423160600000211
为当前网络参数下预测的标签向量,并作为变量优化;
传导学习过程通过优化以下损失函数,优化参数θ*
Figure FDA00028423160600000212
Figure FDA00028423160600000213
Figure FDA00028423160600000214
102)在上述损失函数中,固定θ,更新置信度
Figure FDA00028423160600000215
103)在上述损失函数中,固定θ和
Figure FDA00028423160600000216
优化
Figure FDA00028423160600000217
104)在上述损失函数中,固定
Figure FDA00028423160600000218
Figure FDA00028423160600000219
在训练数据集上使用小批量随机梯度下降法训练深度卷积神经网络至收敛;
4)使用训练好的模型计算测试图像的标签或测试数据集的识别精度。
2.根据权利要求1所述的基于直推式半监督深度学习的图像分类方法,其特征在于,步骤102)中具体实现方法如下:
对于有标签的样本
Figure FDA0002842316060000031
始终将其置信度为ri=1;对于无标签的样本
Figure FDA0002842316060000032
Figure FDA0002842316060000033
有如下直观假设:奇异样本和极度不确定样本落在特征空间的稀疏区域;稠密区域的样本正确分类的概率更大;设{f1,…,fN}为当前网络参数下{X1,…,XN}的特征向量,即fi=f(Xi;θ),定义Xi的邻近度di为:
Figure FDA0002842316060000034
其中,
Figure FDA0002842316060000035
为fi的k近邻;显然,如果样本Xi落在稠密区域,则di的值较小,样本Xi预测正确标签的可能性较大;因此,样本Xi的置信度定义如下:
Figure FDA0002842316060000036
训练过程中,随着网络参数集θ迭代更新,学习的样本特征{f1,…,fN}也不断更新,训练迭代过程中特征更新后,重新计算置信度
Figure FDA0002842316060000037
3.根据权利要求1所述的基于直推式半监督深度学习的图像分类方法,其特征在于,步骤103)中具体实现方法如下:
固定网络参数集θ和置信度
Figure FDA0002842316060000038
通过优化获得最优的预测标签向量集
Figure FDA0002842316060000039
计算无标签样本Xi,(i=L+1,…,N)的最优解
Figure FDA00028423160600000310
这里为了方便说明用yi代替
Figure FDA00028423160600000311
令图像Xi的预测得分向量为pi=[p1i,p2i,…,pKi],pi即softmax归一化后的深度卷积神经网络最后一层输出,其中pji表示图像Xi在第jth类上的预测得分;
损失函数中的相关项改写为:
Figure FDA00028423160600000312
其中,
Figure FDA00028423160600000313
显然,对不同的样本i是解耦的,因此上述公式的优化问题转化为
Figure FDA00028423160600000314
独立的子问题:
Figure FDA0002842316060000041
由于ri≥0,优化问题转化为:
Figure FDA0002842316060000042
Figure FDA0002842316060000043
当s=argmaxkpki时,上述优化问题的解取决于
Figure FDA0002842316060000044
否则,
Figure FDA0002842316060000045
S=1,…,K,因此其最优解为:
Figure FDA0002842316060000046
4.根据权利要求1所述的基于直推式半监督深度学习的图像分类方法,其特征在于,步骤104)中具体实现方法如下:
定义基于Min-Max准则的MMF正则项为:
Figure FDA0002842316060000047
其中,若
Figure FDA0002842316060000048
Figure FDA0002842316060000049
否则
Figure FDA00028423160600000410
h为预设间隔;
对每个训练样本Xi,通过添加不同的随机扰动ηi,ηi′,分别得到两个有扰动的样本Xii,Xi+η′i,设计正则项使两个添加了不同扰动的样本学习到的特征尽可能一致,用公式表示如下:
Figure FDA00028423160600000411
结合上述两项正则项,得到深度卷积神经网络模型学习鲁棒Min-Max特征:
Figure FDA00028423160600000412
其中,λ1和λ2为两个正则项的权重;因此,算法损失函数表示如下:
Figure FDA0002842316060000051
使用梯度下降法的深度卷积神经网络反向传播;其中,上述公式的第一项的梯度使用标准算法计算,RRF的梯度根据
Figure FDA0002842316060000052
计算,RMMF的梯度计算方法为
Figure FDA0002842316060000053
且:
Figure FDA0002842316060000054
其中,当a<0时ψ(a)=1,否则ψ(a)=0;
Figure FDA0002842316060000055
通过深度卷积神经网络反向传播获得。
CN201810713131.2A 2018-06-29 2018-06-29 基于直推式半监督深度学习的图像分类方法 Active CN109034205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810713131.2A CN109034205B (zh) 2018-06-29 2018-06-29 基于直推式半监督深度学习的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810713131.2A CN109034205B (zh) 2018-06-29 2018-06-29 基于直推式半监督深度学习的图像分类方法

Publications (2)

Publication Number Publication Date
CN109034205A CN109034205A (zh) 2018-12-18
CN109034205B true CN109034205B (zh) 2021-02-02

Family

ID=65521370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810713131.2A Active CN109034205B (zh) 2018-06-29 2018-06-29 基于直推式半监督深度学习的图像分类方法

Country Status (1)

Country Link
CN (1) CN109034205B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN109697469A (zh) * 2018-12-26 2019-04-30 西北工业大学 一种基于一致性约束的自学习小样本遥感图像分类方法
CN111583321A (zh) * 2019-02-19 2020-08-25 富士通株式会社 图像处理装置、方法及介质
CN109919243A (zh) * 2019-03-15 2019-06-21 天津拾起卖科技有限公司 一种基于cnn的废钢铁种类自动识别方法及装置
CN110189305B (zh) * 2019-05-14 2023-09-22 上海大学 一种多任务舌象自动分析方法
CN110232403B (zh) * 2019-05-15 2024-02-27 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110245723B (zh) * 2019-06-27 2023-06-09 南京大学 一种安全可靠的图像分类半监督机器学习方法及装置
CN112215248A (zh) * 2019-07-11 2021-01-12 深圳先进技术研究院 深度学习模型训练方法、装置、电子设备及存储介质
CN110647992A (zh) * 2019-09-19 2020-01-03 腾讯云计算(北京)有限责任公司 卷积神经网络的训练方法、图像识别方法及其对应的装置
CN110909784B (zh) * 2019-11-15 2022-09-02 北京奇艺世纪科技有限公司 一种图像识别模型的训练方法、装置及电子设备
CN112966701A (zh) * 2019-12-12 2021-06-15 北京沃东天骏信息技术有限公司 目标分类的方法和装置
CN111160474B (zh) * 2019-12-30 2023-08-29 合肥工业大学 一种基于深度课程学习的图像识别方法
CN111242897A (zh) * 2019-12-31 2020-06-05 北京深睿博联科技有限责任公司 胸部x射线影像分析方法和装置
CN111239137B (zh) * 2020-01-09 2021-09-10 江南大学 基于迁移学习与自适应深度卷积神经网络的谷物质量检测方法
CN111523597B (zh) * 2020-04-23 2023-08-25 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111724867B (zh) * 2020-06-24 2022-09-09 中国科学技术大学 分子属性测定方法、装置、电子设备及存储介质
CN111797935B (zh) * 2020-07-13 2023-10-31 扬州大学 基于群体智能的半监督深度网络图片分类方法
CN112116063B (zh) * 2020-08-11 2024-04-05 西安交通大学 一种基于元学习的特征偏移矫正方法
CN112086174B (zh) * 2020-09-24 2023-12-12 深圳先进技术研究院 一种三维知识诊断模型构建方法和***
CN112132088B (zh) * 2020-09-29 2024-01-12 动联(山东)电子科技有限公司 一种巡检点位漏巡识别方法
CN112699960B (zh) * 2021-01-11 2023-06-09 华侨大学 基于深度学习的半监督分类方法、设备及存储介质
CN113139464B (zh) * 2021-04-23 2022-11-18 国网山东省电力公司青岛市即墨区供电公司 一种电网故障检测方法
CN113326764B (zh) * 2021-05-27 2022-06-07 北京百度网讯科技有限公司 训练图像识别模型和图像识别的方法和装置
CN113541834B (zh) * 2021-06-24 2023-03-03 西安电子科技大学 一种异常信号半监督分类方法、***、数据处理终端
CN113408650B (zh) * 2021-07-12 2023-07-18 厦门大学 基于一致性训练的半监督三维形状识别方法
CN114170333B (zh) * 2021-11-24 2023-02-03 西安理工大学 基于直推式半监督深度学习的图像哈希编码方法
CN114970862B (zh) * 2022-04-28 2024-05-28 北京航空航天大学 一种基于多实例知识蒸馏模型的pdl1表达水平预测方法
CN114882279B (zh) * 2022-05-10 2024-03-19 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266083B2 (en) * 2008-02-07 2012-09-11 Nec Laboratories America, Inc. Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels
CN103942749A (zh) * 2014-02-24 2014-07-23 西安电子科技大学 一种基于修正聚类假设和半监督极速学习机的高光谱地物分类方法
CN107506793A (zh) * 2017-08-21 2017-12-22 中国科学院重庆绿色智能技术研究院 基于弱标注图像的服装识别方法及***
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及***
CN107958263A (zh) * 2017-11-13 2018-04-24 浙江工业大学 一种半监督的图像分类器训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266083B2 (en) * 2008-02-07 2012-09-11 Nec Laboratories America, Inc. Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels
CN103942749A (zh) * 2014-02-24 2014-07-23 西安电子科技大学 一种基于修正聚类假设和半监督极速学习机的高光谱地物分类方法
CN107506793A (zh) * 2017-08-21 2017-12-22 中国科学院重庆绿色智能技术研究院 基于弱标注图像的服装识别方法及***
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及***
CN107958263A (zh) * 2017-11-13 2018-04-24 浙江工业大学 一种半监督的图像分类器训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Knowledge Guided Disambiguation for Large-Scale Scene Classification With Multi-Resolution CNNs;Limin Wang 等;《 IEEE Transactions on Image Processing》;20170430;第26卷(第4期);第2055-2068页 *

Also Published As

Publication number Publication date
CN109034205A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109034205B (zh) 基于直推式半监督深度学习的图像分类方法
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与***
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN106951825B (zh) 一种人脸图像质量评估***以及实现方法
CN111723674B (zh) 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN113837238A (zh) 一种基于自监督和自蒸馏的长尾图像识别方法
CN114998602B (zh) 基于低置信度样本对比损失的域适应学习方法及***
CN112085055A (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
WO2018083804A1 (ja) 分析プログラム、情報処理装置および分析方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN114357221B (zh) 一种基于图像分类的自监督主动学习方法
CN113792594B (zh) 一种基于对比学习的视频中语言片段定位方法及装置
CN114399661A (zh) 一种实例感知主干网络训练方法
CN114417975A (zh) 基于深度pu学习与类别先验估计的数据分类方法及***
CN112199505B (zh) 一种基于特征表示学习的跨领域情感分类方法及***
CN114048314A (zh) 一种自然语言隐写分析方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
CN116910571A (zh) 一种基于原型对比学习的开集域适应方法及***
CN116401369A (zh) 用于生物制品生产术语的实体识别及分类方法
CN112784927B (zh) 一种基于在线学习的半自动图像标注方法
CN115098681A (zh) 一种基于有监督对比学习的开放服务意图检测方法
CN115131549A (zh) 一种基于自提升学习的显著性目标检测训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant