CN114373093A - 基于直推式半监督深度学习的细粒度图像分类方法 - Google Patents

基于直推式半监督深度学习的细粒度图像分类方法 Download PDF

Info

Publication number
CN114373093A
CN114373093A CN202111478946.5A CN202111478946A CN114373093A CN 114373093 A CN114373093 A CN 114373093A CN 202111478946 A CN202111478946 A CN 202111478946A CN 114373093 A CN114373093 A CN 114373093A
Authority
CN
China
Prior art keywords
fine
grained
class
training
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111478946.5A
Other languages
English (en)
Inventor
石伟伟
黑新宏
谢国
王晓帆
贾萌
鲁晓锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202111478946.5A priority Critical patent/CN114373093A/zh
Publication of CN114373093A publication Critical patent/CN114373093A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的基于直推式半监督深度学习的细粒度图像分类方法,包括以下步骤:准备细粒度图像的半监督学习训练样本集,将训练样本集划分为有标注训练样本集和无标注训练样本集;构建树型类层级结构;根据类层级结构,搭建深度卷积神经网络模型;在有标注训练样本集上训搭建的网络模型;为所有训练样本推断出对应的层级类标签向量集合;为每一个训练样本计算出与之对应的置信度;使用整个训练样本集从随机初始化开始训练搭建的网络模型;重复执行步骤5~7,直到前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量基本一致;将待分类的细粒度图像输入训练好的网络模型,在细粒度分类层得到该图像的预测类别。

Description

基于直推式半监督深度学习的细粒度图像分类方法
技术领域
本发明属于计算机视觉细粒度图像分类技术领域,涉及基于直推式半监督深度学习的细粒度图像分类方法。
背景技术
细粒度图像分类是对某一粗粒度基类的细粒度子类进行识别,例如区分不同车型的车、不同种类的鸟、不同型号的飞行器等等。细粒度图像分类具有广泛的应用,细粒度图像分类的应用场景包括车辆精细识别、飞行器精细识别、花朵或植物的精细识别、垂直搜索、动物保护中鸟或狗的精细识别等。细粒度图像分类的难点主要在于:类间相似性和类内多样性。
对于细粒度图像分类问题,许多基于部位的方法已经被提出来,基于部位的方法的核心思想是先通过定位有判别性的目标部位来捕捉细微的局部差异,再提取出不同部位的特征,最后根据特征训练分类器。基于部位的方法严重依赖于精准的部位检测,精准的部位检测是另外一个极具挑战性研究课题,并且在出现遮挡、较大的视角和姿态变化时,部位检测器将无法检测到相应部位。部位检测器的训练往往需要大量带目标物体标注框和部位标注的训练样本。显然,对目标物体部位进行标注比对目标物体进行细粒度类别标签标注更加具有挑战性和代价高昂。
近年来许多研究工作利用对比损失、三元组损失和广义三元组损失函数等目标函数来训练深度卷积神经网络以期望获得具有较小类内变化和较大类间距离的特征。然而,对于图像分类数据集,当生成训练样本对或样本三元组时,这些函数都将会面临显著的数据膨胀问题。构造训练样本对或三元组的方式对网络的性能精度会有几个百分点的影响。因此,对于图像分类问题,使用对比损失、三元组损失和广义三元组损失函数会导致深度卷积神经网络模型收敛较慢、计算成本较高和结果的不稳定性。本质上,对比损失、三元组损失和广义三元组损失函数都是基于点对点度量学习的目标函数,它们没有考虑训练集的数据分布。
深度卷积神经网络已在细粒度图像分类等多个计算机视觉应用领域中都取得了目前最好的性能。训练深度卷积神经网络通常需要大规模的有标注训练样本集。但是,对于细粒度图像,创建一个大规模、高质量、有标注的训练样本集是非常耗时、昂贵、甚至是不可行的,而且往往还需要相关专业知识。然而,获得大量无标细粒度图像比较容易。因此,研究面向细粒度图像分类的半监督深度学习方法具有重要的实际意义和广阔的应用前景。
半监督深度学习的目标是:利用小量有标注和大量无标注样本训练出高精度的网络模型,使其能够逼近甚至等同于监督学习方法所能达到的模型精度,从而能够大大降低训练数据的标注成本。
目前,许多面向图像分类的半监督深度学习方法被提出来。虽然它们在一般的单标签图像分类任务上已经基本达到了较为满意的分类精度,但在细粒度图像分类任务上,分类精度还有较大的提升空间,无法满足实际需求,主要原因是:它们没有考虑细粒度图像分类的难点,且没有显式地进行深度判别特征学习。
发明内容
本发明的目的是提供一种基于直推式半监督深度学习的细粒度图像分类方法,采用该方法能够实现细粒度图像的分类。
本发明所采用的技术方案是,基于直推式半监督深度学习的细粒度图像分类方法,具体包括如下步骤:
步骤1,获取细粒度图像的半监督学习训练样本集,将训练样本集划分为有标注训练样本集和无标注训练样本集;
步骤2,根据细粒度类的语义信息,将细粒度类组织成一个树型的类层级结构;
步骤3,根据步骤2所得的类层级结构,搭建深度卷积神经网络模型;
步骤4,在有标注训练样本集上训练步骤3搭建的网络模型直到网络模型收敛;
步骤5,基于当前学习到的网络模型,为所有训练样本推断出对应的层级类标签向量集合;
步骤6,基于当前学习到的网络模型和所推断出的训练样本的层级类标签向量集合,为每一个训练样本计算出与之对应的置信度;
步骤7,基于当前所有训练样本的层级类标签向量集合和置信度,使用整个训练样本集从随机初始化开始训练步骤3搭建的网络模型直到网络模型收敛;
步骤8,重复执行步骤5~7,直到前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量基本一致;
步骤9,将待分类的细粒度图像输入到步骤8训练好的网络模型,在细粒度分类层得到该图像的预测类别。
本发明的特点还在于:
步骤1的具体过程为:
定义D=L∪U为细粒度图像的半监督学习训练样本集,其中,
Figure BDA0003394303840000041
Figure BDA0003394303840000042
分别表示有标注和无标注训练样本集;Xi表示第i个训练样本图像;如果Xi∈L,那么yi=[yi1,yi2,…,yiK]T∈{0,1}K是相应的细粒度类标签向量,yi中有且仅有一个元素为1,其余全部为0;如果Xi含有第j类,那么yij=1,否则yij=0;K表示细粒度类别总数,L和U分别表示有标注和无标注训练样本的数量。定义N=L+U为训练样本图像的总数。
步骤2的具体过程为:
对于一个细粒度图像分类数据集,根据细粒度类的语义信息将该数据集组织成一个树型的类层级结构,最下层的叶子节点表示细粒度类,上层的节点表示父类;
一个具有类层级结构的细粒度图像数据集描述为:每一个样本图像Xi都与一个层级类标签向量集合
Figure BDA0003394303840000043
相关联,
Figure BDA0003394303840000044
表示样本Xi在类层级结构第j层的类标签向量,K(j)是第j层的类别总数,k表示类层级结构的层数。定义类层级结构的第一层为细粒度类,即
Figure BDA0003394303840000051
表示样本Xi的细粒度类标签向量,K(1)=K表示细粒度类的总数。
步骤6的具体过程为:
给每一个训练样本图像Xi都赋予一个置信度ri,若Xi∈L,则ri在整个训练过程中都为1;若Xi∈U,则假定样本图像Xi属于细粒度类ci,在特征空间中,样本图像Xi的到同类样本的平均距离zi表示为:
Figure BDA0003394303840000052
其中,
Figure BDA0003394303840000053
表示属于细粒度类ci的训练样本的下标索引的集合,
Figure BDA0003394303840000054
表示集合
Figure BDA0003394303840000055
中元素的个数,fi表示细粒度图像Xi的特征向量,‖·‖表示向量的模长;
细粒度图像Xi的置信度ri的计算公式为:
Figure BDA0003394303840000056
其中,zmax=max{z1,z2,…,zN},zmin=min{z1,z2,…,zN}。
步骤7的具体过程为:
步骤7.1,构造带置信度的级联Softmax分类损失函数;
步骤7.2,构造带置信度的广义Min-Max正则项;
步骤7.3,结合带置信度的级联Softmax分类损失函数和带置信度的广义Min-Max正则项,构造总的目标函数;
步骤7.4,根据总的目标函数,使用基于mini-batch的随机梯度下降法训练深度卷积神经网络模型。
步骤8中,当前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量不一致率小于5%时,就认为满足前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量基本一致这个条件。
本发明的有益效果如下:
1.本发明将传统的直推式半监督学习原理拓展并应用到了基于深度学习的细粒度图像分类方法中。
2.本发明提出了带置信度的级联Softmax分类损失函数,能够更好地建模细粒度类层级结构关系。
3.本发明提出了带置信度的广义Min-Max正则项对深度卷积神经网络所学习到的特征进行正则约束以便充分利用类层级结构关系和细粒度类之间的相似性关系信息来监督网络的训练过程。
4.本发明提出的带置信度的广义Min-Max正则项是一种基于集合对集合度量学习的目标函数,能够有效克服对比损失、三元组损失和广义三元组损失函数等目标函数的缺陷。
5.本发明所提出的基于直推式半监督深度学习的细粒度图像分类方法不依赖于网络结构。
附图说明
图1为本发明基于直推式半监督深度学习的细粒度图像分类方法的深度卷积神经网络模型。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
深度卷积神经网络已在细粒度图像分类等多个计算机视觉应用领域中都取得了目前最好的性能。训练深度卷积神经网络通常需要大规模的有标注训练样本集。但是,对于细粒度图像,创建一个大规模、高质量、有标注的训练样本集是非常耗时、昂贵、甚至是不可行的,而且往往还需要相关专业知识。然而,获得大量无标细粒度图像比较容易。
本发明基于直推式半监督深度学习的细粒度图像分类方法,具体包括如下步骤:
步骤1,准备细粒度图像的半监督学习训练样本集,将训练样本集划分为有标注训练样本集和无标注训练样本集,具体为:
定义D=L∪U为细粒度图像的半监督学习训练样本集,其中,
Figure BDA0003394303840000071
Figure BDA0003394303840000072
分别表示有标注和无标注训练样本集;Xi表示第i个训练样本图像;如果Xi∈L,那么yi=[yi1,yi2,…,yiK]T∈{0,1}K是相应的细粒度类标签向量,yi中有且仅有一个元素为1,其余全部为0;如果Xi含有第j类,那么yij=1,否则yij=0;K表示细粒度类别总数,L和U分别表示有标注和无标注训练样本的数量。定义N=L+U为训练样本图像的总数。
步骤2,根据细粒度类的语义信息,将它们组织成一个树型的类层级结构;
具体为:通常情况下,对于一个细粒度图像分类数据集,可以根据细粒度类的语义信息将它们组织成一个树型的类层级结构,最下层的叶子节点表示细粒度类,上层的节点表示父类。
一个具有类层级结构的细粒度图像数据集可以描述为:每一个样本图像Xi都与一个层级类标签向量集合
Figure BDA0003394303840000081
相关联,
Figure BDA0003394303840000082
表示样本Xi在类层级结构第j层的类标签向量,K(j)是第j层的类别总数,k表示类层级结构的层数。定义类层级结构的第一层为细粒度类,即
Figure BDA0003394303840000083
表示样本Xi的细粒度类标签向量,K(1)=K表示细粒度类的总数。
步骤3,根据类层级结构,搭建基于直推式半监督深度学习的细粒度图像分类方法的深度卷积神经网络模型;
具体为:给定一个深度卷积神经网络和一个具有k层类层级结构的细粒度图像分类数据集,为了更好地建模k层类层级结构关系,利用k个新的全连接层来替换原深度卷积神经的分类层,每一个新层对应一个类层级。这k个新的全连接层从左至右分别为细粒度分类层,第二层级父类分类层,......,第k层级父类分类层,它们的神经元数目分别等于类层级结构中对应层的类别总数;同时,每一个分类层均与特征层存在跨层连接。
下面以一个深度卷积神经网络来阐述本发明提出的基于两层类层级结构的细粒度图像分类模型(见图1)。将卷积神经网络的的倒数第二层和最后一层分别称为特征层Fea和分类层。对于一个具有两层类层级结构的数据集,将分类层替换为两个新的全连接层,分别称为细粒度分类层Cls_fine和父类分类层Cls_coarse。Cls_fine和Cls_coarse,Cls_coarse与Fea和Cls_fine都是全连接的。将从Fea到Cls_coarse的全连接称为跨层连接,Cls_fine和Cls_coarse层神经元的个数分别为K(1)和K(2)。对于输入图像Xi,Cls_fine和Cls_coarse层分别输出第一层级细粒度类的概率分数和第二层级父类的概率分数。
步骤4,在有标注训练样本集上训练步骤3搭建的网络模型直到网络模型收敛;具体为:
对深度卷积神经网络模型中k个分类层分别采用对应的Softmax分类损失函数,按照基于mini-batch的随机梯度下降法训练网络模型。
步骤5,基于当前学习到的网络模型,为所有训练样本推断出对应的层级类标签向量集合;
步骤5的具体实现方法如下:
实际上,只需为所有的无标注训练样本图像推断出相应的层级类标签向量集合即可。无标注样本集的分类损失函数为:
Figure BDA0003394303840000091
其中,
Figure BDA0003394303840000092
表示相应粒度层的Softmax分类损失函数;W表示当前学习到的网络模型的权值参数集合;
Figure BDA0003394303840000093
表示根据当前学习到的网络模型需要为训练图像Xi推断出的第j层级类标签向量;事实上,对于图像Xi,只要推断出
Figure BDA0003394303840000094
那么
Figure BDA0003394303840000095
便可以根据类层级结构依次确定。又因为不同的样本的分类损失函数是相互独立的,所以上式可以改写为U个相互独立的子优化问题:
Figure BDA0003394303840000096
其中,是
Figure BDA0003394303840000097
根据当前学习到的网络模型需要为训练图像Xi推断出的第1层级类标签向量,如果推断Xi含有第s个细粒度类,那么
Figure BDA0003394303840000101
否则
Figure BDA0003394303840000102
I(cond)表示指示函数,如果条件cond为真,其值为1,否则为0;
Figure BDA0003394303840000103
表示将样本图像Xi输入当前网络模型在细粒度分类层第s个细粒度类的得分。
上面子优化问题的最优解为:
Figure BDA0003394303840000104
基于该最优解便可求得:
Figure BDA0003394303840000105
Figure BDA0003394303840000106
进行更新后,再根据类层级结构,对
Figure BDA0003394303840000107
进行更新,得到
Figure BDA0003394303840000108
进而可得
Figure BDA0003394303840000109
步骤6,基于当前学习到的网络模型和所推断出的训练样本的层级类标签向量集合,为每一个训练样本计算出与之对应的置信度;
步骤6的具体实现方法如下:
给每一个训练样本图像Xi都赋予一个置信度ri。如果Xi∈L,那么ri在整个训练过程中都为1。如果Xi∈U,本发明计算置信度ri的方法如下。
假定样本图像Xi属于细粒度类ci,在特征空间中,样本图像Xi的到同类样本的平均距离zi可以表示为:
Figure BDA00033943038400001010
其中,
Figure BDA0003394303840000111
表示属于细粒度类ci的训练样本的下标索引的集合,
Figure BDA0003394303840000112
表示集合
Figure BDA0003394303840000113
中元素的个数,fi表示细粒度图像Xi的特征向量,‖·‖表示向量的模长。
本发明提出的细粒度图像Xi的置信度ri的计算公式为:
Figure BDA0003394303840000114
其中,zmax=max{z1,z2,…,zN},zmin=min{z1,z2,…,zN}。
步骤7,基于当前的所有训练样本的层级类标签向量集合和置信度,使用整个训练样本集从随机初始化开始训练步骤3搭建的网络模型直到网络模型收敛;
步骤7的具体实现方法如下:
步骤7.1,构造带置信度的级联Softmax分类损失函数,具体为:
在训练过程中,带置信度的级联Softmax分类损失函数直接施加在网络新添加的分类层上。本发明提出的带置信度的级联Softmax分类损失函数
Figure BDA0003394303840000115
为:
Figure BDA0003394303840000116
其中,
Figure BDA0003394303840000117
是由上一轮学习到的网络模型对训练图像Xi所推断出的第j层级类标签向量,并在当前轮的训练中保持不变;W表示所要学习的网络权值参数集合;
Figure BDA0003394303840000118
ri表示样本Xi的置信度,即ri表示为样本Xi所推断出的细粒度类标签向量
Figure BDA0003394303840000119
的确信程度,
Figure BDA00033943038400001110
表示类层级结构中第j层的Softmax分类损失函数。
步骤7.2,构造带置信度的广义Min-Max正则项;
步骤7.2的具体实现方法如下:
带置信度的广义Min-Max正则项
Figure BDA0003394303840000121
直接施加在特征层。下面,首先给出基于两层类层级结构的带置信度的广义Min-Max正则项。
对于每一个给定的细粒度类c,将其余所有的细粒度类分为两组SP(c)和
Figure BDA0003394303840000123
,它们分别表示与细粒度类c具有相同和不同父类的细粒度类的集合。带置信度的广义Min-Max正则项使得学习到的特征满足如下两种属性:(1)细粒度类c与其在SP(c)中最近的细粒度类之间的类间距离和细粒度类c的类内距离的的差值要尽可能的大;(2)细粒度类c与其在
Figure BDA0003394303840000124
中最近的细粒度类之间的类间距离和细粒度类c与其在SP(c)中最远的细粒度类之间的类间距离的差值要尽可能的大。
定义属于细粒度类c的训练样本的特征向量的集合为
Fc={fi|i∈τc};
其中,τc表示属于细粒度类c的训练样本的下标索引的集合,fi表示细粒度图像Xi的特征向量。属于细粒度类c的训练样本的均值向量为
Figure BDA0003394303840000122
其中,ri为训练样本图像Xi的置信度。
细粒度类c的类内距离为L(W)(Fc),其定义为
Figure BDA0003394303840000131
其中,‖·‖表示向量模长。
属于细粒度类p和q的训练样本的特征向量集合分别为Fp={fi|i∈τp}和Fq={fi|q∈τq}。定义细粒度类p和q的类间距离为:
Figure BDA0003394303840000132
Figure BDA0003394303840000133
其中,rij=ri·rj
Figure BDA0003394303840000134
表示邻接矩阵
Figure BDA0003394303840000135
的第i行第j列位置的元素;ξk(Fp,Fq)表示特征向量对集合{(fi,fj)|fi∈Fp,fi∈Fq}中的k个相互距离最近的特征向量对的集合。
带置信度的广义Min-Max正则项的两个约束条件可以通过最小化如下两个式子来满足:
Figure BDA0003394303840000136
Figure BDA0003394303840000137
其中,
Figure BDA0003394303840000138
Figure BDA0003394303840000139
Figure BDA00033943038400001310
基于上面的叙述,基于两层类层级结构的带置信度的广义Min-Max正则项为
Figure BDA0003394303840000141
下面给出基于三层类层级结构的带置信度的广义Min-Max正则项:对于每一个给定的细粒度类c,将除细粒度类c外的其余所有的细粒度类重新划分为新的两组SG(c)和
Figure BDA0003394303840000146
,它们分别表示与细粒度类c具有相同和不同祖父类的细粒度类的集合。基于三层类层级结构的带置信度的广义Min-Max正则项使得学习到的特征除了满足上述的约束条件(1)和(2)外,还需要再满足一个新的约束条件(3)细粒度类c与其在
Figure BDA0003394303840000147
中最近的细粒度类之间的类间距离和细粒度类c与其在SG(c)中最远的细粒度类之间的类间距离的差值要尽可能的大。第(3)个约束条件可以通过最小化如下式子来满足:
Figure BDA0003394303840000142
其中,
Figure BDA0003394303840000143
Figure BDA0003394303840000144
于是,基于三层类层级结构的带置信度的广义Min-Max正则项为
Figure BDA0003394303840000145
上述分析可以推广到多层类层级结构情形的带置信度的广义Min-Max正则项。
步骤7.3,结合带置信度的级联Softmax分类损失函数和带置信度的广义Min-Max正则项,构造总的目标函数;
步骤7.3的具体实现方法如下:
本发明提出的总的目标函数
Figure BDA0003394303840000151
为:
Figure BDA0003394303840000152
式中,第一项和第二项分别表示带置信度的级联Softmax分类损失函数和带置信度的广义Min-Max正则项;参数λ用于调节式中两项之间的平衡。
步骤7.4,根据总的目标函数,使用基于mini-batch的随机梯度下降法训练深度卷积神经网络模型。
步骤8,重复执行步骤5~7,直到前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量基本一致;
具体为,当前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量不一致率小于百分之五时,就认为满足前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量基本一致这个条件。
步骤9,将待分类的细粒度图像输入训练好的网络模型,在细粒度分类层得到该图像的预测类别。
实施例
将本发明本发明在业界常用的3个深度卷积神经网络(AlexNet、GoogLeNet和VGG19)和3个细粒度图像分类数据集(Stanford Car、CUB-200-2011和FGVC-Aircraft)上对所提出的方法进行了充分的实验验证。对于每一个数据集,将原训练集中的10%看成是有标注训练样本,其余90%看成是无标注训练样本。表1、表2、表3中分别列出了对应的实验结果,这三个表还包含了当前一些非常具有代表性的半监督深度学习方法的测试结果。从这三个表可以看出,本发明提出的方法均显著优于表中其他半监督深度学习方法,充分证明了本发明所提方法的有效性。
表1
在Stanford Car数据集上的分类精度的比较结果
方法 分类精度(%)
AlexNet-Pimodel 72.1
AlexNet-TempEns 72.6
AlexNet-Meanteacher 74.3
AlexNet-ours(本发明方法) 75.1
GoogLeNet-Pimodel 81.2
GoogLeNet-TempEns 81.9
GoogLeNet-Mean teacher 83.5
GoogLeNet-ours(本发明方法) 85.8
VGG19-Pimodel 86.1
VGG19-TempEns 86.1
VGG19-Meanteacher 87.0
VGG19-ours(本发明方法) 88.1
表2
在CUB-200-2011数据集上的分类精度的比较结果
方法 分类精度(%)
AlexNet-Pimodel 58.6
AlexNet-TempEns 58.9
AlexNet-Mean teacher 59.7
AlexNet-ours(本发明方法) 61.8
GoogLeNet-Pimodel 73.0
GoogLeNet-TempEns 73.8
GoogLeNet-Mean teacher 75.0
GoogLeNet-ours(本发明方法) 76.3
VGG19-Pimodel 74.2
VGG19-TempEns 74.1
VGG19-Mean teacher 75.1
VGG19-ours(本发明方法) 77.2
表3
在FGVC-Aircraft数据集上的分类精度的比较结果
方法 分类精度(%)
AlexNet-Pimodel 67.1
AlexNet-TempEns 68.3
AlexNet-Meanteacher 70.1
AlexNet-ours(本发明方法) 72.4
GoogLeNet-Pi model 76.0
GoogLeNet-TempEns 76.2
GoogLeNet-Mean teacher 78.4
GoogLeNet-ours(本发明方法) 80.2
VGG19-Pimodel 78.3
VGG19-TempEns 79.9
VGG19-Mean teacher 80.8
VGG19-ours(本发明方法) 82.5

Claims (6)

1.基于直推式半监督深度学习的细粒度图像分类方法,其特征在于:具体包括如下步骤:
步骤1,获取细粒度图像的半监督学习训练样本集,将训练样本集划分为有标注训练样本集和无标注训练样本集;
步骤2,根据细粒度类的语义信息,将细粒度类组织成一个树型的类层级结构;
步骤3,根据步骤2所得的类层级结构,搭建深度卷积神经网络模型;
步骤4,在有标注训练样本集上训练步骤3搭建的网络模型直到网络模型收敛;
步骤5,基于当前学习到的网络模型,为所有训练样本推断出对应的层级类标签向量集合;
步骤6,基于当前学习到的网络模型和所推断出的训练样本的层级类标签向量集合,为每一个训练样本计算出与之对应的置信度;
步骤7,基于当前的所有训练样本的层级类标签向量集合和置信度,使用整个训练样本集从随机初始化开始训练步骤3搭建的网络模型直到网络模型收敛;
步骤8,重复执行步骤5~7,直到前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量基本一致;
步骤9,将待分类的细粒度图像输入到步骤8训练好的网络模型,在细粒度分类层得到该图像的预测类别。
2.根据权利要求1所述的基于直推式半监督深度学习的细粒度图像分类方法,其特征在于:所述步骤1的具体过程为:
定义D=L∪U为细粒度图像的半监督学习训练样本集,其中,
Figure FDA0003394303830000021
Figure FDA0003394303830000022
分别表示有标注和无标注训练样本集;Xi表示第i个训练样本图像;如果Xi∈L,那么
Figure FDA0003394303830000026
是相应的细粒度类标签向量,yi中有且仅有一个元素为1,其余全部为0;如果Xi含有第j类,那么yij=1,否则yij=0;K表示细粒度类别总数,L和U分别表示有标注和无标注训练样本的数量;定义N=L+U为训练样本图像的总数。
3.根据权利要求2所述的基于直推式半监督深度学习的细粒度图像分类方法,其特征在于:所述步骤2的具体过程为:
对于一个细粒度图像分类数据集,根据细粒度类的语义信息将该数据集组织成一个树型的类层级结构,最下层的叶子节点表示细粒度类,上层的节点表示父类;
一个具有类层级结构的细粒度图像数据集描述为:每一个样本图像Xi都与一个层级类标签向量集合
Figure FDA0003394303830000023
相关联,
Figure FDA0003394303830000024
表示样本Xi在类层级结构第j层的类标签向量,K(j)是第j层的类别总数,k表示类层级结构的层数。定义类层级结构的第一层为细粒度类,即
Figure FDA0003394303830000025
表示样本Xi的细粒度类标签向量,K(1)=K表示细粒度类的总数。
4.根据权利要求3所述的基于直推式半监督深度学习的细粒度图像分类方法,其特征在于:所述步骤6的具体过程为:
给每一个训练样本图像Xi都赋予一个置信度ri,若Xi∈L,则ri在整个训练过程中都为1;若Xi∈U,则假定样本图像Xi属于细粒度类ci,在特征空间中,样本图像Xi的到同类样本的平均距离zi表示为:
Figure FDA0003394303830000031
其中,
Figure FDA0003394303830000033
表示属于细粒度类ci的训练样本的下标索引的集合,
Figure FDA0003394303830000034
表示集合
Figure FDA0003394303830000035
中元素的个数,fi表示细粒度图像Xi的特征向量,‖·‖表示向量的模长;
细粒度图像Xi的置信度ri的计算公式为:
Figure FDA0003394303830000032
其中,zmax=max{z1,z2,…,zN},zmin=min{z1,z2,…,zN}。
5.根据权利要求4所述的基于直推式半监督深度学习的细粒度图像分类方法,其特征在于:所述步骤7的具体过程为:
步骤7.1,构造带置信度的级联Softmax分类损失函数;
步骤7.2,构造带置信度的广义Min-Max正则项;
步骤7.3,结合带置信度的级联Softmax分类损失函数和带置信度的广义Min-Max正则项,构造总的目标函数;
步骤7.4,根据总的目标函数,使用基于mini-batch的随机梯度下降法训练深度卷积神经网络模型。
6.根据权利要求5所述的基于直推式半监督深度学习的细粒度图像分类方法,其特征在于:所述步骤8中,当前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量不一致率小于5%时,就认为满足前后两轮次所学习到的网络模型对无标注样本所推断出的细粒度类标签向量基本一致这个条件。
CN202111478946.5A 2021-12-06 2021-12-06 基于直推式半监督深度学习的细粒度图像分类方法 Pending CN114373093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111478946.5A CN114373093A (zh) 2021-12-06 2021-12-06 基于直推式半监督深度学习的细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111478946.5A CN114373093A (zh) 2021-12-06 2021-12-06 基于直推式半监督深度学习的细粒度图像分类方法

Publications (1)

Publication Number Publication Date
CN114373093A true CN114373093A (zh) 2022-04-19

Family

ID=81140707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111478946.5A Pending CN114373093A (zh) 2021-12-06 2021-12-06 基于直推式半监督深度学习的细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN114373093A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882279A (zh) * 2022-05-10 2022-08-09 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN117556068A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 目标索引模型的训练方法、信息检索方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882279A (zh) * 2022-05-10 2022-08-09 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN114882279B (zh) * 2022-05-10 2024-03-19 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN117556068A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 目标索引模型的训练方法、信息检索方法及装置
CN117556068B (zh) * 2024-01-12 2024-05-17 中国科学技术大学 目标索引模型的训练方法、信息检索方法及装置

Similar Documents

Publication Publication Date Title
CN111191732B (zh) 一种基于全自动学习的目标检测方法
CN106778832B (zh) 基于多目标优化的高维数据半监督集成分类方法
CN111724867B (zh) 分子属性测定方法、装置、电子设备及存储介质
CN115494865B (zh) 基于时空图卷积网络的无人机集群态势分析方法及介质
CN114373093A (zh) 基于直推式半监督深度学习的细粒度图像分类方法
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及***
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
CN114612721A (zh) 基于多层次自适应特征融合类增量学习的图像分类方法
CN110830291B (zh) 一种基于元路径的异质信息网络的节点分类方法
CN116310647A (zh) 一种基于增量学习的劳保物品目标检测方法及***
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN110175631A (zh) 一种基于共同学习子空间结构和聚类指示矩阵的多视图聚类方法
CN113344069A (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
CN103559510B (zh) 一种利用相关主题模型识别社会群体行为的方法
CN109829472B (zh) 基于概率近邻的半监督分类方法
CN107392243A (zh) 一种基于零空间lda的语义空间监督学习的图像分类方法
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
CN111259176A (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
CN116415177A (zh) 一种基于极限学习机的分类器参数辨识方法
CN113010697B (zh) 用于无监督跨模态检索的充分场景表达生成方法
CN114882279A (zh) 基于直推式半监督深度学习的多标签图像分类方法
CN113420821A (zh) 一种基于标记和特征局部相关性的多标记学习方法
CN108985371B (zh) 一种图像多分辨率字典学习方法及其应用
CN113408652A (zh) 基于群表示特征的半监督学习图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination