CN113177587B

CN113177587B - 基于主动学习和变分自编码器的广义零样本目标分类方法

Info

Publication number: CN113177587B
Application number: CN202110459763.2A
Authority: CN
Inventors: 李晓; 翟之博
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2023-04-07
Anticipated expiration: 2041-04-27
Also published as: CN113177587A

Abstract

本发明提出了一种基于主动学习和变分自编码器的广义零样本目标分类方法，用于解决现有技术中存在的由于未知类监督信息丢失导致的偏置问题和从高维特征到低维空间投影所导致的低维特征聚集问题，有效地提高了分类准确率，实现步骤为：获取训练样本集P_train和测试样本集P_test；构建基于变分自编码器的广义零样本分类模型H；对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器f_classifier进行迭代训练；获取广义零样本的目标分类结果。本发明可以实现对缺乏训练数据的稀有物种分类、生物医学图像识别等领域。

Description

基于主动学习和变分自编码器的广义零样本目标分类方法

技术领域

本发明属于零样本图像分类技术领域，涉及一种广义零样本目标分类方法，具体涉及一种基于主动学习和变分自编码器的广义零样本目标分类方法，可用于稀有物种分类、生物医学图像识别等领域。

背景技术

目标分类作为人工智能主要的研究方向之一，随着人工智能的蓬勃发展，目标分类已经广泛应用于缺陷检测、无人驾驶、医学诊断等人工智能领城。当前目标分类的研究主要针对图像的分类问题。但随着社交网络和社会标签***的快速发展，新的标签和概念不断涌现，随之而来的是人们如何使用这些新标签对图像进行标记的问题，即广义零样本目标分类问题。在广义零样本目标分类问题中，已知类样本集和未知类样本集属于不同的目标类别，并且对于未知类样本集中样本没有带标记的训练样本可用，其目的是实现一个从已知类样本或未知类样本到已知类和未知类所属类别的分类。

现有的目标分类学习方法大多是监督学习方法，需要大量标记信息才能进行有效分类，因此不能适用于这种没有标记信息的情况，而无监督的方法虽然可行但却不能充分利用己有的相关领域中的信息，来提高目标领城中的分类准确率。针对上述情况，研究者提出了半监督学习，半监督学习一种是将监督学习和无监督学习相结合的学习方法，主要考虑的是如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。

现有的广义零样本目标分类方法大多采用的是半监督的方法，通过建立视觉特征和监督信息之间的联系来实现新目标的分类，由于未知类缺失有效的监督信息，导致现有的广义零样本目标分类方法都存在着较强的偏置问题，即在训练阶段，视觉特征通常被投影到由已知类确定的子空间中的几个固定的点，这样就导致了在测试阶段中，测试数据集中的新类图像倾向于被分到已知类当中，除此之外，广义零样本学习的方法通常会把视觉特征空间和语义空间投影到一个公共的子空间，通过拉近视觉特征和对应的语义在子空间中投影点的距离来减小两个空间的结构差异，但这种方式往往使得不同类别样本在子空间出现聚集的问题，即当将高维向量投影到低维空间时，会出现聚集现象，这样的投影减小了样本方差，从而导致投影点聚集成中心点，因而子空间的判别性降低，分类准确率也随之下降。

例如Edgar Schonfeld等人发表的名称为“Generalized Zero-and Few-ShotLearning via Aligned Variational Autoencoders”(Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2019:8247-8255)的论文中，提出了一种基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法，该方法通过构建两个变分自编码器，分别将视觉特征和语义特征投影至相近的子空间。在分类时，先通过编码器将样本视觉特征投影至子空间，再用分类器对子空间特征进行分类，但该方法中并没有解决由于未知类监督信息缺失带来的偏置问题和从高维特征向低维空间投影所带来的聚集性问题，即子空间并不具有较强的判别性，因而导致该方法的分类准确率较低。

主动学习方法能够使得在模型在训练的过程中主动地采样出“难”分类的样本数据，通过人为地对样本数据添加标注信息，然后将人工标注得到的数据再次使用半监督学习模型进行训练，这种主动采样并添加标注信息的操作可以有效消除广义零样本问题中由于未知类监督信息丢失带来的偏置问题。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于主动学习和变分自编码器的广义零样本目标分类方法，用于解决现有技术存在的广义零样本目标分类准确率较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集P_train和测试样本集P_test：

将从零样本图像集O中获取的包含n_s个已知目标类别的n₁幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集P_train ^s，和从O中获取的包含n_u个未知目标类别的n₂幅图像组成未知类训练样本集P_train ^u，组成训练样本集P_train，同时将从O中获取的包含n_u个未知目标类别的m幅图像组成测试样本集P_test，其中，n_s≥10，n₁≥1000，n_u≥10，n₂≥1000，m≥1000，且n₁+n₂＞m；

(2)构建基于变分自编码器的广义零样本分类模型H：

(2a)构建基于变分自编码器的广义零样本分类模型H的结构：

构建包括变分自编码器f和非线性分类器f_classifier的广义零样本分类模型的结构，其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成，VAE由顺次连接的第一编码器f¹ _encoder和第一解码器f¹ _decoder组成，CVAE由顺次连接的第二编码器f² _encoder和第二解码器f² _decoder组成，非线性分类器f_classifier的输入与第一编码器f¹ _encoder的输出相连；

(2b)定义广义零样本分类模型H的损失函数：

定义广义零样本分类模型H中变分自编码器f的损失函数为L，非线性分类器f_classifier的损失函数L_Classifier：

L＝L_VAE+L_CVAE+λL_DA

其中，L_VAE表示第一变分自编码器VAE的损失函数，L_CVAE表示第二变分自编编码器CVAE的损失函数，λ表示权重系数，λ∈(0,1)，L_DA表示VAE和CVAE的对齐损失函数，

μ₁和μ₂分别表示VAE和CVAE输出的隐含分布的均值，σ₁ ²和σ₂ ²分别表示VAE和CVAE输出的方差，||·||₂表示向量二范数，||·||_Frob表示矩阵的Frobenius范数，L_Classifier表示非线性分类器f_classifier的损失函数，KL(·)为概率分布间的Kullback-Leibler散度，N(μ₁,σ₁ ²)表示均值为μ₁方差为σ₁ ²的正态分布，N(μ₂,σ₂ ²)表示均值为μ₂方差为σ₂ ²的正态分布，

和

分别表示VAE和CVAE的重建损失函数，

x_i表示第i个已知类图像特征，

和

分别表示VAE和CVAE对x_i的重建结果，Σ表示求和操作，y_j表示训练样本集P_train中第j类样本的标签，p_j表示x_i被分类为y_j的概率；

(3)对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器f_classifier进行迭代训练：

(3a)将训练样本集P_train作为残差网络模型的输入进行特征提取，得到已知类训练样本集P_train ^s对应的图像特征集

和未知类训练样本集P_train ^u对应的图像特征集

(3b)初始化迭代次数为q，最大迭代次数为Q，Q≥30，并令q＝1；

(3c)将图像特征集P'_train ^s作为广义零样本分类模型H的输入，变分自编码器f中的第一变分自编码器VAE所包含的第一编码器f¹ _encoder对每个已知类图像特征x_i进行编码，得到隐含分布的均值

和方差

非线性分类器f_classifier对

进行分类，得到已知类图像特征x_i所属各类的概率

CVAE所包含的第二编码器f² _encoder对每个已知类图像特征x_i和特征标签y_i进行编码，得到隐含分布的均值

和方差

(3d)第一解码器f¹ _decoder对隐含变量

进行解码，得到第一图像重建特征

同时第二解码器f² _decoder对隐含变量

进行解码，得到第二图像重建特征

其中，

z₁和z₂表示从随机高斯分布z～N(0,1)中采样得到的高斯噪声；

(3e)采用变分自编码器f的损失函数为L，并通过第一编码器f¹ _encoder编码的

和

第二编码器f² _encoder编码的

和

以及第一解码器f¹ _decoder解码的

和第二解码器f² _decoder解码的

计算变分自编码器的损失值L^*，同时采用非线性分类器f_classifier的损失函数L_Classifier，并通过非线性分类器f_classifier的分类结果

计算非线性分类器的损失值

(3f)采用反向传播法，并通过L^*计算L的梯度▽L^*，同时通过

计算L_Classifier的梯度

然后采用梯度下降法，通过▽L^*和

分别对变分自编码器f和非线性分类器f_classifier的权值参数进行更新；

(3g)将图像样本特征集P'_train ^u作为第一变分自编码器VAE的输入，第一编码器f¹ _encoder对每个未知类图像特征u_j进行编码，采用非线性分类器f_classifier对编码结果

进行分类，得到u_j所属各类的概率

(3h)通过

中概率的最大值

和次大值

计算

的不确定性

并将u_i、

和

组合为三元组集合

的计算公式为：

(3i)对三元组集合S₁进行聚类，并对聚类获取的n_u个类别中的三元组中的不确定性按照由小到大的顺序进行排列，然后选取每个类别对应的不确定性集合中前n_add个未知类图像特征u_j，组成待标注样本集S₂，其中n_add＞0；

(3j)对S₂中的未知类图像特征u_j添加标注信息后加入P'_train ^s中，同时从P'_train ^u中删除S₂中的u_j，并判断q＞Q是否成立，若是，得到训练好的广义零样本分类模型H^*，否则，令q＝q+1，并执行步骤(3c)；

(4)获取广义零样本的目标分类结果：

(4a)将测试样本集P_test作为残差网络模型的输入进行特征提取，得到未知类测试样本集P_test的图像特征集P'_test＝{t₁,…,t_k,…,t_m}，其中t_k为P'_test中第k个样本，m为P'_test中的样本个数；

(4b)将P'_test作为训练好的广义零样本分类模型H^*的输入，第一编码器f¹ _encoder对每个未知类图像特征t_k进行编码，得到隐含分布的均值

非线性分类器f_classifier对

进行分类，得到m个测试样本的分类结果。

本发明与现有技术相比，具有如下优点：

1.本发明由于在对广义零样本分类模型进行训练的过程中，通过计算非线性分类器分类得到每个图像特征所属各类的概率的不确定性，并对包括不确定性的三元组集合进行聚类，再从聚类中选取对分类准确率提升最有帮助的样本，即具有最大的不确定性的样本进行标注，经过多次迭代，实现对广义零样本分类模型的主动学习，消除了广义零样本目标分类中未知类监督信息缺失所导致的偏置问题，与现有技术相比，有效提高了目标分类准确率。

2.本发明在对广义零样本分类模型进行训练的过程中，第一编码器对每个已知类图像特征进行编码，第二编码器对每个已知类图像特征和特征标签进行编码，并通过两个编码器的编码结果，以及两个解码器的解码结果来计算变分自编码器的损失值，然后通过变分自编码器的损失值计算出的梯度实现对变分自编码器权值的更新，由于第二编码器输入的已知类图像特征添加有特征标签，能够实现将图像特征映射到更具判别性的子空间中，且因为两个编码器为同时训练，第一编码器也具有将图像特征映射到更具判别性的子空间的特性，与现有技术中的编码器接受输入为不带监督信息的图像特征相比，解决了从高维特征向低维空间投影时出现的聚集问题，有效地降低了目标分类的难度，提高了目标分类准确率。

附图说明

图1是本发明的实现流程图。

图2是本发明基于主动学习和变分自编码器的广义零样本目标分类模型的结构示意图。

图3是本发明在AWA1数据集下分类准确率随迭代次数与采样方式变化的结果图。

图4是本发明在AWA2数据集下分类准确率随迭代次数与采样方式变化的结果图。

图5是本发明在CUB1数据集下分类准确率随迭代次数与采样方式变化的结果图。

图6是本发明在APY数据集下分类准确率随迭代次数与采样方式变化的结果图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

步骤1，获取训练样本集P_train和测试样本集P_test：

将从零样本图像集O中获取的包含n_s个已知目标类别的n₁幅图像以及每幅已知类别图像的目标类别标签组成的已知类训练样本集P_train ^s，和从O中获取的包含n_u个未知目标类别的n₂幅图像组成未知类训练样本集P_train ^u，组成训练样本集P_train，同时将从O中获取的包含n_u个未知目标类别的m幅图像组成测试样本集P_test，本实施例中，零样本图像集O为AWA1数据集，n_s＝40，n₁＝17060，n_u＝10，n₂＝4251，m＝9164，且满足n₁+n₂＞m；

步骤2，构建基于主动学习和变分自编码器的广义零样本目标分类模型H：

(2a)构建如图2所示的基于主动学习和变分自编码器的广义零样本目标分类模型H的结构：

构建包括变分自编码器f和非线性分类器f_classifier的广义零样本分类模型的结构，其中变分自编码器由并行连接的第一变分自编码器VAE和第二变分自编编码器CVAE组成，VAE由顺次连接的第一编码器f¹ _encoder和第一解码器f¹ _decoder组成，CVAE由顺次连接的第二编码器f² _encoder和第二解码器f² _decoder组成。f¹ _encoder的具体结构设置为，第一层为d₁×d₂的全连接层，第二层为ReLU层，第三层为d₂×hiden_d的全连接层，第四层为ReLU层；f² _encoder的具体结构设置为，第一层为d₃×d₄的全连接层，第二层为ReLU层，第三层为d₄×hiden_d的全连接层，第四层为ReLU层；f¹ _decoder和f² _decoder的具体结构设置为，第一层为hiden_d×d₅的全连接层，第二层为ReLU层，第三层为d₅×d₁的全连接层，第四层为ReLU层；同时第一编码器f¹ _encoder的输出与非线性分类器f_classifier的输入相连，f_classifier的具体结构设置为，第一层为d₆×d₇的全连接层，第二层为非线性层，第三层为d₇×(n_s+n_u)全连接层，本实施例中，d₁，d₂，d₃，d₄，d₅，d₆，d₇，hiden_d分别为对应全连接层的神经元个数，d₁＝2048,d₂＝1540,hiden_d＝128,d₃＝2098,d₄＝1640,d₅＝1540,d₆＝64,d₇＝128。

(2b)定义广义零样本分类模型H的损失函数：

L＝L_VAE+L_CVAE+λL_DA

和

分别表示VAE和CVAE的重建损失函数，

x_i表示第i个已知类图像特征，

和

分别表示VAE和CVAE对x_i的重建结果，Σ表示求和操作，y_j表示训练样本集P_train中第j类样本的标签，p_j表示x_i被分类为y_j的概率，本实施例中，λ＝0.7；

其中第二编码器的输入为带监督信息的图像特征，能够实现将图像特征映射到更具判别性的子空间中，且因为两个编码器为同时训练，对对齐损失函数L_DA进行优化可以拉近图像特征在子空间投影的距离，从而使得第一编码器也具有将图像特征映射到更具判别性的子空间的特性，与现有技术中的编码器接受输入为不带监督信息的图像特征相比，解决了从高维特征向低维空间投影时出现的聚集问题，有效地降低了目标分类的难度，提高了目标分类准确率。

步骤3，对基于变分自编码器的广义零样本分类模型H中的变分自编码器f和非线性分类器f_classifier进行迭代训练：

和未知类训练样本集P_train ^u对应的图像特征集

(3b)初始化迭代次数为q，最大迭代次数为Q，Q≥30，并令q＝1；本实施例中，K＝30；

和方差

非线性分类器f_classifier对

进行分类，得到已知类图像特征x_i所属各类的概率

和方差

其中f¹ _encoder接受的输入为不带标签的图像特征，f² _encoder接受的输入为带标签的图像特征，因而f² _encoder可以学习到一个从图像特征到一个更具判别性的子空间的映射，通过对f¹ _encoder和f² _encoder共同训练能够使得f¹ _encoder学习到与f² _encoder相同的映射，可以解决高维特征向低维空间投影时出现的聚集问题，该判别性子空间可以提高目标分类的准确率。

(3d)第一解码器f¹ _decoder对隐含变量

进行解码，得到第一图像重建特征

同时第二解码器f² _decoder对隐含变量

进行解码，得到第二图像重建特征

其中，

和

第二编码器f² _encoder编码的

和

以及第一解码器f¹ _decoder解码的

和第二解码器f² _decoder解码的

计算非线性分类器的损失值

(3f)采用反向传播法，并通过L^*计算L的梯度▽L^*，同时通过

计算L_Classifier的梯度

然后采用梯度下降法，通过▽L^*和

进行分类，得到u_j所属各类的概率

(3h)通过

中概率的最大值

和次大值

计算

的不确定性

并将u_i、

和

组合为三元组集合

的计算公式为：

(3i)对三元组集合S₁进行聚类，并对聚类获取的n_u个类别中的三元组中的不确定性按照由小到大的顺序进行排列，然后选取每个类别对应的不确定性集合中前n_add个未知类图像特征u_j，组成待标注样本集S₂，本实施例中，n_add＝1；

其中从每个聚类中选取前n_add个未知类图像特征u_j可以保证模型可以主动选择出对分类准确率提升最有帮助的样本，从而有效地提高分类准确率。

步骤(3h)至(3j)为主动学习过程，其中通过对S₂中未知类图像特征添加标注信息，可以消除广义零样本目标分类中未知类监督信息缺失所导致的偏置问题，进而提高分类准确率。

步骤4，获取广义零样本的目标分类结果：

非线性分类器f_classifier对

进行分类，得到m个测试样本的分类结果。

下面结合仿真实验，对本发明的技术效果作进一步的说明。

1.仿真条件和内容：

仿真实验在CPU为AMD r7 3700x、GPU为NVIDIA 2070super、内存16G的Microsoftwindows 10***上使用Python仿真，实验使用的深度学习框架为Pytorch。

仿真1：本发明在数据集AWA1、AWA2、APY、CUB1上分别用随机采样和主动学习采样两种方案进行对比仿真，其结果分别如图3、图4、图5、图6所示。

仿真2：对本发明与现有的基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法的分类准确率进行对比仿真，其结果如表1所示。

表1

2.仿真结果分析：

参照图3至图6，在不同数据集上对比了随机采样与主动学习采样两种策略随迭代次数增加对识别率提升的影响，横坐标为迭代次数，纵坐标为未知类目标的分类准确率。

参照图3，从图3中可以看出，模型由于采用了主动学习的采样方法，未知类的目标分类准确率从迭代次数第10次的14％提升到了迭代次数第30次的63％，而当模型采用随机采样方法时，未知类的目标分类准确率从迭代次数第10次的12％只提升到了迭代次数第30次的19％。

参照图4，从图4中可以看出，模型由于采用了主动学习的采样方法，未知类的目标分类准确率从迭代次数第3次的0％提升到了迭代次数第30次的54％，而当模型采用随机采样方法时，未知类的目标分类准确率从迭代次数第3次的0％只提升到了迭代次数第30次的18％；

参照图5，从图5中可以看出，模型由于采用了主动学习的采样方法，未知类的目标分类准确率从迭代次数第4次的0％提升到了迭代次数第30次的60％，而当模型采用随机采样方法时，未知类的目标分类准确率从迭代次数第4次的0％只提升到了迭代次数第30次的37％；

参照图6，从图6中可以看出，模型由于采用了主动学习的采样方法，未知类的目标分类准确率从迭代次数第9次的8％提升到了迭代次数第30次的62％，而当模型采用随机采样方法时，未知类的目标分类准确率从迭代次数第9次的8％只提升到了迭代次数第30次的46％。

从图3到图6可以看出，采用主动学习采样策略较随机采样策略可以有效地提升模型对未知类目标的分类准确率。

参照表1对比了本发明与现有的基于分布对齐和交叉重建对齐的变分自编码器的广义零样本目标分类方法在不同数据集下的分类准确率，评价指标包括未知类样本的分类准确率、已知类样本的分类准确率以及未知类样本和已知类样本分类准确率的调和平均数，在AWA1,AWA2,CUB1,APY数据集上本发明所达到的未知类分类准确率分别为0.63、0.54、0.62、0.60，已知类分类准确率分别为0.894、0.913、0.882、0.592，未知类样本和已知类样本分类准确率的调和平均数分别为0.753，0.71，0.598，0.714，均高于现已有技术的分类准确率。

综上，本发明既能缓解未知类由于缺少监督信息导致的偏置问题，又可以解决高维特征向低维空间投影时，低维特征的聚集问题，从而提高目标分类的准确率。

Claims

1.一种基于主动学习和变分自编码器的广义零样本目标分类方法，其特征在于，包括如下步骤：

(1)获取训练样本集P_train和测试样本集P_test：

(2)构建基于变分自编码器的广义零样本分类模型H：

(2a)构建基于变分自编码器的广义零样本分类模型H的结构：

(2b)定义广义零样本分类模型H的损失函数：

L＝L_VAE+L_CVAE+λL_DA

和

分别表示VAE和CVAE的重建损失函数，

x_i表示第i个已知类图像特征，

和

和未知类训练样本集P_train ^u对应的图像特征集

和方差

非线性分类器f_classifier对

进行分类，得到已知类图像特征x_i所属各类的概率

和方差

(3d)第一解码器f¹ _decoder对隐含变量

进行解码，得到第一图像重建特征

同时第二解码器f² _decoder对隐含变量

进行解码，得到第二图像重建特征

其中，

和

第二编码器f² _encoder编码的

和

以及第一解码器f¹ _decoder解码的

和第二解码器f² _decoder解码的

计算非线性分类器的损失值

(3f)采用反向传播法，并通过L^*计算L的梯度

同时通过

计算L_Classifier的梯度

然后采用梯度下降法，通过

和

进行分类，得到u_j所属各类的概率

(3h)通过

中概率的最大值

和次大值

计算

的不确定性

并将u_i、

和

组合为三元组集合

的计算公式为：

(4)获取广义零样本的目标分类结果：

非线性分类器f_classifier对

进行分类，得到m个测试样本的分类结果。

2.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法，其特征在于，步骤(2a)中所述的基于变分自编码器的广义零样本分类模型H的结构，其中第一编码器f¹ _encoder的具体结构设置为，第一层为d₁×d₂的全连接层，第二层为ReLU层，第三层为d₂×hiden_d的全连接层，第四层为ReLU层；第二编码器f² _encoder的具体结构设置为，第一层为d₃×d₄的全连接层，第二层为ReLU层，第三层为d₄×hiden_d的全连接层，第四层为ReLU层；第一解码器f¹ _decoder和第二解码器f² _decoder的具体结构设置为，第一层为hiden_d×d₅的全连接层，第二层为ReLU层，第三层为d₅×d₁的全连接层，第四层为ReLU层；非线性分类器f_classifier的具体结构设置为，第一层为d₆×d₇的全连接层，第二层为非线性层，第三层为d₇×(n_s+n_u)全连接层，d₁，d₂，d₃，d₄，d₅，d₆，d₇，hiden_d分别为对应全连接层的神经元个数。

3.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法，其特征在于，步骤(3a)和(4a)中所述残差网络是由多个包括卷积层、全连接层、ReLU层、正则化层的残差块构成的ResNet101网络。

4.根据权利要求1所述的基于主动学习和变分自编码器的广义零样本目标分类方法，其特征在于，步骤(3f)中所述的计算L的梯度