CN113177587B - 基于主动学习和变分自编码器的广义零样本目标分类方法 - Google Patents

基于主动学习和变分自编码器的广义零样本目标分类方法 Download PDF

Info

Publication number
CN113177587B
CN113177587B CN202110459763.2A CN202110459763A CN113177587B CN 113177587 B CN113177587 B CN 113177587B CN 202110459763 A CN202110459763 A CN 202110459763A CN 113177587 B CN113177587 B CN 113177587B
Authority
CN
China
Prior art keywords
encoder
classifier
layer
sample
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110459763.2A
Other languages
English (en)
Other versions
CN113177587A (zh
Inventor
李晓
翟之博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110459763.2A priority Critical patent/CN113177587B/zh
Publication of CN113177587A publication Critical patent/CN113177587A/zh
Application granted granted Critical
Publication of CN113177587B publication Critical patent/CN113177587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于主动学习和变分自编码器的广义零样本目标分类方法,用于解决现有技术中存在的由于未知类监督信息丢失导致的偏置问题和从高维特征到低维空间投影所导致的低维特征聚集问题,有效地提高了分类准确率,实现步骤为:获取训练样本集Ptrain和测试样本集Ptest;构建基于变分自编码器的广义零样本分类模型H;对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练;获取广义零样本的目标分类结果。本发明可以实现对缺乏训练数据的稀有物种分类、生物医学图像识别等领域。

Description

基于主动学习和变分自编码器的广义零样本目标分类方法
技术领域
本发明属于零样本图像分类技术领域,涉及一种广义零样本目标分类方法,具体涉及一种基于主动学习和变分自编码器的广义零样本目标分类方法,可用于稀有物种分类、生物医学图像识别等领域。
背景技术
目标分类作为人工智能主要的研究方向之一,随着人工智能的蓬勃发展,目标分类已经广泛应用于缺陷检测、无人驾驶、医学诊断等人工智能领城。当前目标分类的研究主要针对图像的分类问题。但随着社交网络和社会标签***的快速发展,新的标签和概念不断涌现,随之而来的是人们如何使用这些新标签对图像进行标记的问题,即广义零样本目标分类问题。在广义零样本目标分类问题中,已知类样本集和未知类样本集属于不同的目标类别,并且对于未知类样本集中样本没有带标记的训练样本可用,其目的是实现一个从已知类样本或未知类样本到已知类和未知类所属类别的分类。
现有的目标分类学习方法大多是监督学习方法,需要大量标记信息才能进行有效分类,因此不能适用于这种没有标记信息的情况,而无监督的方法虽然可行但却不能充分利用己有的相关领域中的信息,来提高目标领城中的分类准确率。针对上述情况,研究者提出了半监督学习,半监督学习一种是将监督学习和无监督学习相结合的学习方法,主要考虑的是如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。
现有的广义零样本目标分类方法大多采用的是半监督的方法,通过建立视觉特征和监督信息之间的联系来实现新目标的分类,由于未知类缺失有效的监督信息,导致现有的广义零样本目标分类方法都存在着较强的偏置问题,即在训练阶段,视觉特征通常被投影到由已知类确定的子空间中的几个固定的点,这样就导致了在测试阶段中,测试数据集中的新类图像倾向于被分到已知类当中,除此之外,广义零样本学习的方法通常会把视觉特征空间和语义空间投影到一个公共的子空间,通过拉近视觉特征和对应的语义在子空间中投影点的距离来减小两个空间的结构差异,但这种方式往往使得不同类别样本在子空间出现聚集的问题,即当将高维向量投影到低维空间时,会出现聚集现象,这样的投影减小了样本方差,从而导致投影点聚集成中心点,因而子空间的判别性降低,分类准确率也随之下降。
例如Edgar Schonfeld等人发表的名称为“Generalized Zero-and Few-ShotLearning via Aligned Variational Autoencoders”(Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2019:8247-8255)的论文中,提出了一种基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法,该方法通过构建两个变分自编码器,分别将视觉特征和语义特征投影至相近的子空间。在分类时,先通过编码器将样本视觉特征投影至子空间,再用分类器对子空间特征进行分类,但该方法中并没有解决由于未知类监督信息缺失带来的偏置问题和从高维特征向低维空间投影所带来的聚集性问题,即子空间并不具有较强的判别性,因而导致该方法的分类准确率较低。
主动学习方法能够使得在模型在训练的过程中主动地采样出“难”分类的样本数据,通过人为地对样本数据添加标注信息,然后将人工标注得到的数据再次使用半监督学习模型进行训练,这种主动采样并添加标注信息的操作可以有效消除广义零样本问题中由于未知类监督信息丢失带来的偏置问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于主动学习和变分自编码器的广义零样本目标分类方法,用于解决现有技术存在的广义零样本目标分类准确率较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集Ptrain和测试样本集Ptest
将从零样本图像集O中获取的包含ns个已知目标类别的n1幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集Ptrain s,和从O中获取的包含nu个未知目标类别的n2幅图像组成未知类训练样本集Ptrain u,组成训练样本集Ptrain,同时将从O中获取的包含nu个未知目标类别的m幅图像组成测试样本集Ptest,其中,ns≥10,n1≥1000,nu≥10,n2≥1000,m≥1000,且n1+n2>m;
(2)构建基于变分自编码器的广义零样本分类模型H:
(2a)构建基于变分自编码器的广义零样本分类模型H的结构:
构建包括变分自编码器f和非线性分类器fclassifier的广义零样本分类模型的结构,其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成,VAE由顺次连接的第一编码器f1 encoder和第一解码器f1 decoder组成,CVAE由顺次连接的第二编码器f2 encoder和第二解码器f2 decoder组成,非线性分类器fclassifier的输入与第一编码器f1 encoder的输出相连;
(2b)定义广义零样本分类模型H的损失函数:
定义广义零样本分类模型H中变分自编码器f的损失函数为L,非线性分类器fclassifier的损失函数LClassifier
L=LVAE+LCVAE+λLDA
Figure GDA0004048573720000035
Figure GDA0004048573720000036
Figure GDA0004048573720000031
其中,LVAE表示第一变分自编码器VAE的损失函数,LCVAE表示第二变分自编编码器CVAE的损失函数,λ表示权重系数,λ∈(0,1),LDA表示VAE和CVAE的对齐损失函数,
Figure GDA0004048573720000032
μ1和μ2分别表示VAE和CVAE输出的隐含分布的均值,σ1 2和σ2 2分别表示VAE和CVAE输出的方差,||·||2表示向量二范数,||·||Frob表示矩阵的Frobenius范数,LClassifier表示非线性分类器fclassifier的损失函数,KL(·)为概率分布间的Kullback-Leibler散度,N(μ11 2)表示均值为μ1方差为σ1 2的正态分布,N(μ22 2)表示均值为μ2方差为σ2 2的正态分布,
Figure GDA0004048573720000033
Figure GDA0004048573720000034
分别表示VAE和CVAE的重建损失函数,
Figure GDA0004048573720000041
xi表示第i个已知类图像特征,
Figure GDA0004048573720000042
Figure GDA0004048573720000043
分别表示VAE和CVAE对xi的重建结果,Σ表示求和操作,yj表示训练样本集Ptrain中第j类样本的标签,pj表示xi被分类为yj的概率;
(3)对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练:
(3a)将训练样本集Ptrain作为残差网络模型的输入进行特征提取,得到已知类训练样本集Ptrain s对应的图像特征集
Figure GDA00040485737200000420
和未知类训练样本集Ptrain u对应的图像特征集
Figure GDA00040485737200000421
(3b)初始化迭代次数为q,最大迭代次数为Q,Q≥30,并令q=1;
(3c)将图像特征集P'train s作为广义零样本分类模型H的输入,变分自编码器f中的第一变分自编码器VAE所包含的第一编码器f1 encoder对每个已知类图像特征xi进行编码,得到隐含分布的均值
Figure GDA0004048573720000044
和方差
Figure GDA0004048573720000045
非线性分类器fclassifier
Figure GDA0004048573720000046
进行分类,得到已知类图像特征xi所属各类的概率
Figure GDA0004048573720000047
CVAE所包含的第二编码器f2 encoder对每个已知类图像特征xi和特征标签yi进行编码,得到隐含分布的均值
Figure GDA0004048573720000048
和方差
Figure GDA0004048573720000049
(3d)第一解码器f1 decoder对隐含变量
Figure GDA00040485737200000410
进行解码,得到第一图像重建特征
Figure GDA00040485737200000411
同时第二解码器f2 decoder对隐含变量
Figure GDA00040485737200000412
进行解码,得到第二图像重建特征
Figure GDA00040485737200000413
其中,
Figure GDA00040485737200000414
z1和z2表示从随机高斯分布z~N(0,1)中采样得到的高斯噪声;
(3e)采用变分自编码器f的损失函数为L,并通过第一编码器f1 encoder编码的
Figure GDA00040485737200000415
Figure GDA00040485737200000416
第二编码器f2 encoder编码的
Figure GDA00040485737200000417
Figure GDA00040485737200000418
以及第一解码器f1 decoder解码的
Figure GDA00040485737200000419
和第二解码器f2 decoder解码的
Figure GDA0004048573720000051
计算变分自编码器的损失值L*,同时采用非线性分类器fclassifier的损失函数LClassifier,并通过非线性分类器fclassifier的分类结果
Figure GDA0004048573720000052
计算非线性分类器的损失值
Figure GDA0004048573720000053
(3f)采用反向传播法,并通过L*计算L的梯度▽L*,同时通过
Figure GDA0004048573720000054
计算LClassifier的梯度
Figure GDA0004048573720000055
然后采用梯度下降法,通过▽L*
Figure GDA0004048573720000056
分别对变分自编码器f和非线性分类器fclassifier的权值参数进行更新;
(3g)将图像样本特征集P'train u作为第一变分自编码器VAE的输入,第一编码器f1 encoder对每个未知类图像特征uj进行编码,采用非线性分类器fclassifier对编码结果
Figure GDA0004048573720000057
进行分类,得到uj所属各类的概率
Figure GDA0004048573720000058
(3h)通过
Figure GDA0004048573720000059
中概率的最大值
Figure GDA00040485737200000510
和次大值
Figure GDA00040485737200000511
计算
Figure GDA00040485737200000512
的不确定性
Figure GDA00040485737200000513
并将ui
Figure GDA00040485737200000514
Figure GDA00040485737200000515
组合为三元组集合
Figure GDA00040485737200000516
的计算公式为:
Figure GDA00040485737200000517
(3i)对三元组集合S1进行聚类,并对聚类获取的nu个类别中的三元组中的不确定性按照由小到大的顺序进行排列,然后选取每个类别对应的不确定性集合中前nadd个未知类图像特征uj,组成待标注样本集S2,其中nadd>0;
(3j)对S2中的未知类图像特征uj添加标注信息后加入P'train s中,同时从P'train u中删除S2中的uj,并判断q>Q是否成立,若是,得到训练好的广义零样本分类模型H*,否则,令q=q+1,并执行步骤(3c);
(4)获取广义零样本的目标分类结果:
(4a)将测试样本集Ptest作为残差网络模型的输入进行特征提取,得到未知类测试样本集Ptest的图像特征集P'test={t1,…,tk,…,tm},其中tk为P'test中第k个样本,m为P'test中的样本个数;
(4b)将P'test作为训练好的广义零样本分类模型H*的输入,第一编码器f1 encoder对每个未知类图像特征tk进行编码,得到隐含分布的均值
Figure GDA0004048573720000061
非线性分类器fclassifier
Figure GDA0004048573720000062
进行分类,得到m个测试样本的分类结果。
本发明与现有技术相比,具有如下优点:
1.本发明由于在对广义零样本分类模型进行训练的过程中,通过计算非线性分类器分类得到每个图像特征所属各类的概率的不确定性,并对包括不确定性的三元组集合进行聚类,再从聚类中选取对分类准确率提升最有帮助的样本,即具有最大的不确定性的样本进行标注,经过多次迭代,实现对广义零样本分类模型的主动学习,消除了广义零样本目标分类中未知类监督信息缺失所导致的偏置问题,与现有技术相比,有效提高了目标分类准确率。
2.本发明在对广义零样本分类模型进行训练的过程中,第一编码器对每个已知类图像特征进行编码,第二编码器对每个已知类图像特征和特征标签进行编码,并通过两个编码器的编码结果,以及两个解码器的解码结果来计算变分自编码器的损失值,然后通过变分自编码器的损失值计算出的梯度实现对变分自编码器权值的更新,由于第二编码器输入的已知类图像特征添加有特征标签,能够实现将图像特征映射到更具判别性的子空间中,且因为两个编码器为同时训练,第一编码器也具有将图像特征映射到更具判别性的子空间的特性,与现有技术中的编码器接受输入为不带监督信息的图像特征相比,解决了从高维特征向低维空间投影时出现的聚集问题,有效地降低了目标分类的难度,提高了目标分类准确率。
附图说明
图1是本发明的实现流程图。
图2是本发明基于主动学习和变分自编码器的广义零样本目标分类模型的结构示意图。
图3是本发明在AWA1数据集下分类准确率随迭代次数与采样方式变化的结果图。
图4是本发明在AWA2数据集下分类准确率随迭代次数与采样方式变化的结果图。
图5是本发明在CUB1数据集下分类准确率随迭代次数与采样方式变化的结果图。
图6是本发明在APY数据集下分类准确率随迭代次数与采样方式变化的结果图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
步骤1,获取训练样本集Ptrain和测试样本集Ptest
将从零样本图像集O中获取的包含ns个已知目标类别的n1幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集Ptrain s,和从O中获取的包含nu个未知目标类别的n2幅图像组成未知类训练样本集Ptrain u,组成训练样本集Ptrain,同时将从O中获取的包含nu个未知目标类别的m幅图像组成测试样本集Ptest,本实施例中,零样本图像集O为AWA1数据集,ns=40,n1=17060,nu=10,n2=4251,m=9164,且满足n1+n2>m;
步骤2,构建基于主动学习和变分自编码器的广义零样本目标分类模型H:
(2a)构建如图2所示的基于主动学习和变分自编码器的广义零样本目标分类模型H的结构:
构建包括变分自编码器f和非线性分类器fclassifier的广义零样本分类模型的结构,其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成,VAE由顺次连接的第一编码器f1 encoder和第一解码器f1 decoder组成,CVAE由顺次连接的第二编码器f2 encoder和第二解码器f2 decoder组成。f1 encoder的具体结构设置为,第一层为d1×d2的全连接层,第二层为ReLU层,第三层为d2×hiden_d的全连接层,第四层为ReLU层;f2 encoder的具体结构设置为,第一层为d3×d4的全连接层,第二层为ReLU层,第三层为d4×hiden_d的全连接层,第四层为ReLU层;f1 decoder和f2 decoder的具体结构设置为,第一层为hiden_d×d5的全连接层,第二层为ReLU层,第三层为d5×d1的全连接层,第四层为ReLU层;同时第一编码器f1 encoder的输出与非线性分类器fclassifier的输入相连,fclassifier的具体结构设置为,第一层为d6×d7的全连接层,第二层为非线性层,第三层为d7×(ns+nu)全连接层,本实施例中,d1,d2,d3,d4,d5,d6,d7,hiden_d分别为对应全连接层的神经元个数,d1=2048,d2=1540,hiden_d=128,d3=2098,d4=1640,d5=1540,d6=64,d7=128。
(2b)定义广义零样本分类模型H的损失函数:
定义广义零样本分类模型H中变分自编码器f的损失函数为L,非线性分类器fclassifier的损失函数LClassifier
L=LVAE+LCVAE+λLDA
Figure GDA0004048573720000081
Figure GDA0004048573720000082
Figure GDA0004048573720000083
其中,LVAE表示第一变分自编码器VAE的损失函数,LCVAE表示第二变分自编编码器CVAE的损失函数,λ表示权重系数,λ∈(0,1),LDA表示VAE和CVAE的对齐损失函数,
Figure GDA0004048573720000084
μ1和μ2分别表示VAE和CVAE输出的隐含分布的均值,σ1 2和σ2 2分别表示VAE和CVAE输出的方差,||·||2表示向量二范数,||·||Frob表示矩阵的Frobenius范数,LClassifier表示非线性分类器fclassifier的损失函数,KL(·)为概率分布间的Kullback-Leibler散度,N(μ11 2)表示均值为μ1方差为σ1 2的正态分布,N(μ22 2)表示均值为μ2方差为σ2 2的正态分布,
Figure GDA0004048573720000085
Figure GDA0004048573720000086
分别表示VAE和CVAE的重建损失函数,
Figure GDA0004048573720000087
xi表示第i个已知类图像特征,
Figure GDA0004048573720000088
Figure GDA0004048573720000089
分别表示VAE和CVAE对xi的重建结果,Σ表示求和操作,yj表示训练样本集Ptrain中第j类样本的标签,pj表示xi被分类为yj的概率,本实施例中,λ=0.7;
其中第二编码器的输入为带监督信息的图像特征,能够实现将图像特征映射到更具判别性的子空间中,且因为两个编码器为同时训练,对对齐损失函数LDA进行优化可以拉近图像特征在子空间投影的距离,从而使得第一编码器也具有将图像特征映射到更具判别性的子空间的特性,与现有技术中的编码器接受输入为不带监督信息的图像特征相比,解决了从高维特征向低维空间投影时出现的聚集问题,有效地降低了目标分类的难度,提高了目标分类准确率。
步骤3,对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练:
(3a)将训练样本集Ptrain作为残差网络模型的输入进行特征提取,得到已知类训练样本集Ptrain s对应的图像特征集
Figure GDA0004048573720000097
和未知类训练样本集Ptrain u对应的图像特征集
Figure GDA0004048573720000098
(3b)初始化迭代次数为q,最大迭代次数为Q,Q≥30,并令q=1;本实施例中,K=30;
(3c)将图像特征集P'train s作为广义零样本分类模型H的输入,变分自编码器f中的第一变分自编码器VAE所包含的第一编码器f1 encoder对每个已知类图像特征xi进行编码,得到隐含分布的均值
Figure GDA0004048573720000091
和方差
Figure GDA0004048573720000092
非线性分类器fclassifier
Figure GDA0004048573720000093
进行分类,得到已知类图像特征xi所属各类的概率
Figure GDA0004048573720000094
CVAE所包含的第二编码器f2 encoder对每个已知类图像特征xi和特征标签yi进行编码,得到隐含分布的均值
Figure GDA0004048573720000095
和方差
Figure GDA0004048573720000096
其中f1 encoder接受的输入为不带标签的图像特征,f2 encoder接受的输入为带标签的图像特征,因而f2 encoder可以学习到一个从图像特征到一个更具判别性的子空间的映射,通过对f1 encoder和f2 encoder共同训练能够使得f1 encoder学习到与f2 encoder相同的映射,可以解决高维特征向低维空间投影时出现的聚集问题,该判别性子空间可以提高目标分类的准确率。
(3d)第一解码器f1 decoder对隐含变量
Figure GDA0004048573720000101
进行解码,得到第一图像重建特征
Figure GDA0004048573720000102
同时第二解码器f2 decoder对隐含变量
Figure GDA0004048573720000103
进行解码,得到第二图像重建特征
Figure GDA0004048573720000104
其中,
Figure GDA0004048573720000105
z1和z2表示从随机高斯分布z~N(0,1)中采样得到的高斯噪声;
(3e)采用变分自编码器f的损失函数为L,并通过第一编码器f1 encoder编码的
Figure GDA0004048573720000106
Figure GDA0004048573720000107
第二编码器f2 encoder编码的
Figure GDA0004048573720000108
Figure GDA0004048573720000109
以及第一解码器f1 decoder解码的
Figure GDA00040485737200001010
和第二解码器f2 decoder解码的
Figure GDA00040485737200001011
计算变分自编码器的损失值L*,同时采用非线性分类器fclassifier的损失函数LClassifier,并通过非线性分类器fclassifier的分类结果
Figure GDA00040485737200001012
计算非线性分类器的损失值
Figure GDA00040485737200001013
(3f)采用反向传播法,并通过L*计算L的梯度▽L*,同时通过
Figure GDA00040485737200001014
计算LClassifier的梯度
Figure GDA00040485737200001015
然后采用梯度下降法,通过▽L*
Figure GDA00040485737200001016
分别对变分自编码器f和非线性分类器fclassifier的权值参数进行更新;
(3g)将图像样本特征集P'train u作为第一变分自编码器VAE的输入,第一编码器f1 encoder对每个未知类图像特征uj进行编码,采用非线性分类器fclassifier对编码结果
Figure GDA00040485737200001017
进行分类,得到uj所属各类的概率
Figure GDA00040485737200001018
(3h)通过
Figure GDA00040485737200001019
中概率的最大值
Figure GDA00040485737200001020
和次大值
Figure GDA00040485737200001021
计算
Figure GDA00040485737200001022
的不确定性
Figure GDA00040485737200001023
并将ui
Figure GDA00040485737200001024
Figure GDA00040485737200001025
组合为三元组集合
Figure GDA00040485737200001026
的计算公式为:
Figure GDA00040485737200001027
(3i)对三元组集合S1进行聚类,并对聚类获取的nu个类别中的三元组中的不确定性按照由小到大的顺序进行排列,然后选取每个类别对应的不确定性集合中前nadd个未知类图像特征uj,组成待标注样本集S2,本实施例中,nadd=1;
其中从每个聚类中选取前nadd个未知类图像特征uj可以保证模型可以主动选择出对分类准确率提升最有帮助的样本,从而有效地提高分类准确率。
(3j)对S2中的未知类图像特征uj添加标注信息后加入P'train s中,同时从P'train u中删除S2中的uj,并判断q>Q是否成立,若是,得到训练好的广义零样本分类模型H*,否则,令q=q+1,并执行步骤(3c);
步骤(3h)至(3j)为主动学习过程,其中通过对S2中未知类图像特征添加标注信息,可以消除广义零样本目标分类中未知类监督信息缺失所导致的偏置问题,进而提高分类准确率。
步骤4,获取广义零样本的目标分类结果:
(4a)将测试样本集Ptest作为残差网络模型的输入进行特征提取,得到未知类测试样本集Ptest的图像特征集P'test={t1,…,tk,…,tm},其中tk为P'test中第k个样本,m为P'test中的样本个数;
(4b)将P'test作为训练好的广义零样本分类模型H*的输入,第一编码器f1 encoder对每个未知类图像特征tk进行编码,得到隐含分布的均值
Figure GDA0004048573720000111
非线性分类器fclassifier
Figure GDA0004048573720000112
进行分类,得到m个测试样本的分类结果。
下面结合仿真实验,对本发明的技术效果作进一步的说明。
1.仿真条件和内容:
仿真实验在CPU为AMD r7 3700x、GPU为NVIDIA 2070super、内存16G的Microsoftwindows 10***上使用Python仿真,实验使用的深度学习框架为Pytorch。
仿真1:本发明在数据集AWA1、AWA2、APY、CUB1上分别用随机采样和主动学习采样两种方案进行对比仿真,其结果分别如图3、图4、图5、图6所示。
仿真2:对本发明与现有的基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法的分类准确率进行对比仿真,其结果如表1所示。
表1
Figure GDA0004048573720000121
2.仿真结果分析:
参照图3至图6,在不同数据集上对比了随机采样与主动学习采样两种策略随迭代次数增加对识别率提升的影响,横坐标为迭代次数,纵坐标为未知类目标的分类准确率。
参照图3,从图3中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第10次的14%提升到了迭代次数第30次的63%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第10次的12%只提升到了迭代次数第30次的19%。
参照图4,从图4中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第3次的0%提升到了迭代次数第30次的54%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第3次的0%只提升到了迭代次数第30次的18%;
参照图5,从图5中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第4次的0%提升到了迭代次数第30次的60%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第4次的0%只提升到了迭代次数第30次的37%;
参照图6,从图6中可以看出,模型由于采用了主动学习的采样方法,未知类的目标分类准确率从迭代次数第9次的8%提升到了迭代次数第30次的62%,而当模型采用随机采样方法时,未知类的目标分类准确率从迭代次数第9次的8%只提升到了迭代次数第30次的46%。
从图3到图6可以看出,采用主动学习采样策略较随机采样策略可以有效地提升模型对未知类目标的分类准确率。
参照表1对比了本发明与现有的基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法在不同数据集下的分类准确率,评价指标包括未知类样本的分类准确率、已知类样本的分类准确率以及未知类样本和已知类样本分类准确率的调和平均数,在AWA1,AWA2,CUB1,APY数据集上本发明所达到的未知类分类准确率分别为0.63、0.54、0.62、0.60,已知类分类准确率分别为0.894、0.913、0.882、0.592,未知类样本和已知类样本分类准确率的调和平均数分别为0.753,0.71,0.598,0.714,均高于现已有技术的分类准确率。
综上,本发明既能缓解未知类由于缺少监督信息导致的偏置问题,又可以解决高维特征向低维空间投影时,低维特征的聚集问题,从而提高目标分类的准确率。

Claims (4)

1.一种基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,包括如下步骤:
(1)获取训练样本集Ptrain和测试样本集Ptest
将从零样本图像集O中获取的包含ns个已知目标类别的n1幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集Ptrain s,和从O中获取的包含nu个未知目标类别的n2幅图像组成未知类训练样本集Ptrain u,组成训练样本集Ptrain,同时将从O中获取的包含nu个未知目标类别的m幅图像组成测试样本集Ptest,其中,ns≥10,n1≥1000,nu≥10,n2≥1000,m≥1000,且n1+n2>m;
(2)构建基于变分自编码器的广义零样本分类模型H:
(2a)构建基于变分自编码器的广义零样本分类模型H的结构:
构建包括变分自编码器f和非线性分类器fclassifier的广义零样本分类模型的结构,其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成,VAE由顺次连接的第一编码器f1 encoder和第一解码器f1 decoder组成,CVAE由顺次连接的第二编码器f2 encoder和第二解码器f2 decoder组成,非线性分类器fclassifier的输入与第一编码器f1 encoder的输出相连;
(2b)定义广义零样本分类模型H的损失函数:
定义广义零样本分类模型H中变分自编码器f的损失函数为L,非线性分类器fclassifier的损失函数LClassifier
L=LVAE+LCVAE+λLDA
Figure FDA0004048573710000011
Figure FDA0004048573710000012
Figure FDA0004048573710000021
其中,LVAE表示第一变分自编码器VAE的损失函数,LCVAE表示第二变分自编编码器CVAE的损失函数,λ表示权重系数,λ∈(0,1),LDA表示VAE和CVAE的对齐损失函数,
Figure FDA0004048573710000022
μ1和μ2分别表示VAE和CVAE输出的隐含分布的均值,σ1 2和σ2 2分别表示VAE和CVAE输出的方差,||·||2表示向量二范数,||·||Frob表示矩阵的Frobenius范数,LClassifier表示非线性分类器fclassifier的损失函数,KL(·)为概率分布间的Kullback-Leibler散度,N(μ11 2)表示均值为μ1方差为σ1 2的正态分布,N(μ22 2)表示均值为μ2方差为σ2 2的正态分布,
Figure FDA0004048573710000023
Figure FDA0004048573710000024
分别表示VAE和CVAE的重建损失函数,
Figure FDA0004048573710000025
xi表示第i个已知类图像特征,
Figure FDA0004048573710000026
Figure FDA0004048573710000027
分别表示VAE和CVAE对xi的重建结果,Σ表示求和操作,yj表示训练样本集Ptrain中第j类样本的标签,pj表示xi被分类为yj的概率;
(3)对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器fclassifier进行迭代训练:
(3a)将训练样本集Ptrain作为残差网络模型的输入进行特征提取,得到已知类训练样本集Ptrain s对应的图像特征集
Figure FDA0004048573710000028
和未知类训练样本集Ptrain u对应的图像特征集
Figure FDA0004048573710000029
(3b)初始化迭代次数为q,最大迭代次数为Q,Q≥30,并令q=1;
(3c)将图像特征集P'train s作为广义零样本分类模型H的输入,变分自编码器f中的第一变分自编码器VAE所包含的第一编码器f1 encoder对每个已知类图像特征xi进行编码,得到隐含分布的均值
Figure FDA00040485737100000210
和方差
Figure FDA00040485737100000211
非线性分类器fclassifier
Figure FDA00040485737100000212
进行分类,得到已知类图像特征xi所属各类的概率
Figure FDA0004048573710000031
CVAE所包含的第二编码器f2 encoder对每个已知类图像特征xi和特征标签yi进行编码,得到隐含分布的均值
Figure FDA0004048573710000032
和方差
Figure FDA0004048573710000033
(3d)第一解码器f1 decoder对隐含变量
Figure FDA0004048573710000034
进行解码,得到第一图像重建特征
Figure FDA0004048573710000035
同时第二解码器f2 decoder对隐含变量
Figure FDA0004048573710000036
进行解码,得到第二图像重建特征
Figure FDA0004048573710000037
其中,
Figure FDA0004048573710000038
z1和z2表示从随机高斯分布z~N(0,1)中采样得到的高斯噪声;
(3e)采用变分自编码器f的损失函数为L,并通过第一编码器f1 encoder编码的
Figure FDA0004048573710000039
Figure FDA00040485737100000310
第二编码器f2 encoder编码的
Figure FDA00040485737100000311
Figure FDA00040485737100000312
以及第一解码器f1 decoder解码的
Figure FDA00040485737100000313
和第二解码器f2 decoder解码的
Figure FDA00040485737100000314
计算变分自编码器的损失值L*,同时采用非线性分类器fclassifier的损失函数LClassifier,并通过非线性分类器fclassifier的分类结果
Figure FDA00040485737100000315
计算非线性分类器的损失值
Figure FDA00040485737100000316
(3f)采用反向传播法,并通过L*计算L的梯度
Figure FDA00040485737100000317
同时通过
Figure FDA00040485737100000318
计算LClassifier的梯度
Figure FDA00040485737100000319
然后采用梯度下降法,通过
Figure FDA00040485737100000320
Figure FDA00040485737100000321
分别对变分自编码器f和非线性分类器fclassifier的权值参数进行更新;
(3g)将图像样本特征集P'train u作为第一变分自编码器VAE的输入,第一编码器f1 encoder对每个未知类图像特征uj进行编码,采用非线性分类器fclassifier对编码结果
Figure FDA00040485737100000322
进行分类,得到uj所属各类的概率
Figure FDA00040485737100000323
(3h)通过
Figure FDA00040485737100000324
中概率的最大值
Figure FDA00040485737100000325
和次大值
Figure FDA00040485737100000326
计算
Figure FDA00040485737100000327
的不确定性
Figure FDA00040485737100000328
并将ui
Figure FDA00040485737100000329
Figure FDA00040485737100000330
组合为三元组集合
Figure FDA00040485737100000331
Figure FDA00040485737100000332
的计算公式为:
Figure FDA00040485737100000333
(3i)对三元组集合S1进行聚类,并对聚类获取的nu个类别中的三元组中的不确定性按照由小到大的顺序进行排列,然后选取每个类别对应的不确定性集合中前nadd个未知类图像特征uj,组成待标注样本集S2,其中nadd>0;
(3j)对S2中的未知类图像特征uj添加标注信息后加入P'train s中,同时从P'train u中删除S2中的uj,并判断q>Q是否成立,若是,得到训练好的广义零样本分类模型H*,否则,令q=q+1,并执行步骤(3c);
(4)获取广义零样本的目标分类结果:
(4a)将测试样本集Ptest作为残差网络模型的输入进行特征提取,得到未知类测试样本集Ptest的图像特征集P'test={t1,…,tk,…,tm},其中tk为P'test中第k个样本,m为P'test中的样本个数;
(4b)将P'test作为训练好的广义零样本分类模型H*的输入,第一编码器f1 encoder对每个未知类图像特征tk进行编码,得到隐含分布的均值
Figure FDA0004048573710000041
非线性分类器fclassifier
Figure FDA0004048573710000042
进行分类,得到m个测试样本的分类结果。
2.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,步骤(2a)中所述的基于变分自编码器的广义零样本分类模型H的结构,其中第一编码器f1 encoder的具体结构设置为,第一层为d1×d2的全连接层,第二层为ReLU层,第三层为d2×hiden_d的全连接层,第四层为ReLU层;第二编码器f2 encoder的具体结构设置为,第一层为d3×d4的全连接层,第二层为ReLU层,第三层为d4×hiden_d的全连接层,第四层为ReLU层;第一解码器f1 decoder和第二解码器f2 decoder的具体结构设置为,第一层为hiden_d×d5的全连接层,第二层为ReLU层,第三层为d5×d1的全连接层,第四层为ReLU层;非线性分类器fclassifier的具体结构设置为,第一层为d6×d7的全连接层,第二层为非线性层,第三层为d7×(ns+nu)全连接层,d1,d2,d3,d4,d5,d6,d7,hiden_d分别为对应全连接层的神经元个数。
3.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,步骤(3a)和(4a)中所述残差网络是由多个包括卷积层、全连接层、ReLU层、正则化层的残差块构成的ResNet101网络。
4.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法,其特征在于,步骤(3f)中所述的计算L的梯度
Figure FDA0004048573710000051
和LClassifier的梯度
Figure FDA0004048573710000052
以及对变分自编码器f和非线性分类器fclassifier的权值参数wf
Figure FDA0004048573710000053
进行更新,其公式分别为:
Figure FDA0004048573710000054
Figure FDA0004048573710000055
Figure FDA0004048573710000056
Figure FDA0004048573710000057
其中,
Figure FDA0004048573710000058
Figure FDA0004048573710000059
分别为wf
Figure FDA00040485737100000510
的更新结果。
CN202110459763.2A 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法 Active CN113177587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110459763.2A CN113177587B (zh) 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110459763.2A CN113177587B (zh) 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法

Publications (2)

Publication Number Publication Date
CN113177587A CN113177587A (zh) 2021-07-27
CN113177587B true CN113177587B (zh) 2023-04-07

Family

ID=76926452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110459763.2A Active CN113177587B (zh) 2021-04-27 2021-04-27 基于主动学习和变分自编码器的广义零样本目标分类方法

Country Status (1)

Country Link
CN (1) CN113177587B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838041B (zh) * 2021-09-29 2023-09-08 西安工程大学 一种基于自编码器的彩色纹理织物缺陷区域的检测方法
CN114383845A (zh) * 2022-01-06 2022-04-22 合肥工业大学 一种基于嵌入式零样本学习模型的轴承复合故障诊断方法
CN118072835A (zh) * 2024-04-19 2024-05-24 宁波甬恒瑶瑶智能科技有限公司 基于机器学习的生物信息学数据处理方法、***及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN104751477A (zh) * 2015-04-17 2015-07-01 薛笑荣 基于空间域和频域特征的并行sar图像分类方法
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN111191786A (zh) * 2019-12-20 2020-05-22 南京航空航天大学 一种基于主动学习的迁移学习算法
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别***
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法
CN111563554A (zh) * 2020-05-08 2020-08-21 河北工业大学 基于回归变分自编码器的零样本图像分类方法
CN111680757A (zh) * 2020-06-12 2020-09-18 汪金玲 一种基于自编码器的零样本图像识别算法及***
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031331B2 (en) * 2012-07-30 2015-05-12 Xerox Corporation Metric learning for nearest class mean classifiers
US10872209B2 (en) * 2018-10-13 2020-12-22 Massachusetts Institute Of Technology Methods and apparatus for radio frequency sensing in diverse environments

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN104751477A (zh) * 2015-04-17 2015-07-01 薛笑荣 基于空间域和频域特征的并行sar图像分类方法
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN111191786A (zh) * 2019-12-20 2020-05-22 南京航空航天大学 一种基于主动学习的迁移学习算法
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别***
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法
CN111563554A (zh) * 2020-05-08 2020-08-21 河北工业大学 基于回归变分自编码器的零样本图像分类方法
CN111680757A (zh) * 2020-06-12 2020-09-18 汪金玲 一种基于自编码器的零样本图像识别算法及***
CN112364894A (zh) * 2020-10-23 2021-02-12 天津大学 一种基于元学习的对抗网络的零样本图像分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders;Ashish Mishra 等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops》;20181231;第2269-2277页 *
Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders;Edgar Schonfeld 等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20191231;第8239-8247页 *
一种主动学习和协同训练相结合的半监督微博情感分类方法;毕秋敏等;《现代图书情报技术》;20150125(第01期);第38-44页 *
基于改进变分自编码器的零样本图像分类;曹真 等;《太原理工大学学报》;20210331;第52卷(第2期);第300-306页 *
基于自编码器的零样本学习方法研究进展;杨晨曦等;《现代计算机》;20200105(第01期);第48-52页 *
融合零样本学习和小样本学习的弱监督学习方法综述;潘崇煜 等;《***工程与电子技术》;20201031;第42卷(第10期);第2246-2256页 *

Also Published As

Publication number Publication date
CN113177587A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN113177587B (zh) 基于主动学习和变分自编码器的广义零样本目标分类方法
CN112116030B (zh) 一种基于向量标准化和知识蒸馏的图像分类方法
CN112560432B (zh) 基于图注意力网络的文本情感分析方法
CN111858989B (zh) 一种基于注意力机制的脉冲卷积神经网络的图像分类方法
CN109190665A (zh) 一种基于半监督生成对抗网络的通用图像分类方法和装置
CN114119979A (zh) 基于分割掩码和自注意神经网络的细粒度图像分类方法
CN109389166A (zh) 基于局部结构保存的深度迁移嵌入聚类机器学习方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN110188653A (zh) 基于局部特征聚合编码和长短期记忆网络的行为识别方法
CN111832650B (zh) 基于生成对抗网络局部聚合编码半监督的图像分类方法
CN110827260B (zh) 一种基于lbp特征与卷积神经网络的布匹缺陷分类方法
CN111222638B (zh) 一种基于神经网络的网络异常检测方法及装置
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
CN114332545B (zh) 一种基于低比特脉冲神经网络的图像数据分类方法和装置
CN112766283B (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN108364073A (zh) 一种多标记学习方法
CN112084330A (zh) 一种基于课程规划元学习的增量关系抽取方法
CN111985152A (zh) 一种基于二分超球面原型网络的事件分类方法
CN112132257A (zh) 基于金字塔池化及长期记忆结构的神经网络模型训练方法
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN109063750B (zh) 基于cnn和svm决策融合的sar目标分类方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
CN114200245A (zh) 一种配电网的线损异常识别模型的构建方法
CN106650769A (zh) 基于线性表示多视图鉴别字典学习的分类方法
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant