CN112115995A

CN112115995A - 一种基于半监督学习的图像多标签分类方法

Info

Publication number: CN112115995A
Application number: CN202010954339.0A
Authority: CN
Inventors: 李炜; 秦世祥; 张乐剑; 王玉龙; 赵海秀; 王晶
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-22
Anticipated expiration: 2040-09-11
Also published as: CN112115995B

Abstract

一种基于半监督学习的图像多标签分类方法，包括：从训练数据集中分别提取有标签数据和无标签数据的训练图片，并构成有标签数据集、无标签数据集，然后为每张训练图片标注标签向量；构建图像多标签分类网络，将有标签数据集和无标签数据集中的所有训练图片作为训练样本输入进行半监督训练，其输入是有标签数据集和无标签数据集的训练图片及标签向量，输出是训练图片对应各标签的预测概率；为待分类图片标注标签向量，然后将待分类图片及标签向量输入图像多标签分类网络，并根据输出确定待分类图片的多个标签。本发明属于信息技术领域，能基于无标签和有标签数据组成的混合数据集实现图像多标签分类，充分利用标签有效信息，有效提高网络分类性能。

Description

一种基于半监督学习的图像多标签分类方法

技术领域

本发明涉及一种基于半监督学习的图像多标签分类方法，属于网络通信技术领域。

背景技术

多标签图像分类是计算机视觉领域的一项基础性和实践性工作，其目标是预测图像中出现的一系列物体标签。它有许多现实世界的应用，包括人体属性识别，医学诊断识别，视频多标签分类以及图像标注等。近些年来，大多数卷积神经网络都是为了处理单标签分类问题而设计，每个图像只使用一个标签来描述该图像中最重要、最显著的内容，比如描述一个对象或场景。然而，仅用一个标签来标记图像与现实应用并不相符，因为现实世界中的大多数图像都含有多个对象或概念。因此，为了自然而全面的地描述图像，需要建立多标签的图像分类模型。

随着深度卷积神经网络的发展，研究者们越来越多的关注网络的深度和宽度。网络越大、越深，其性能越好，同时网络的参数数量也明显增加，此时便需要更多的标记训练样本来防止过拟合。然而在现实场景下的深度学习问题中，准确标记海量的训练图像，需要大量的人工劳动和精力，成本非常高，获得完整标记的多标签数据集往往是困难的。要解决大量未标记数据的训练问题，一个简单的解决方案是丢弃所有无标签的样本，然而这可能会付出丢失大量的数据样本的特征信息的代价。同时，在神经网络的训练过程中我们发现，知道尽可能多的正确标记的训练数据有助于提高模型性能。另外一种解决方案是在模型训练前，通过聚类或标签特征相关性生成无标签数据的标签，进而进行监督训练。然而，这种对无标签样本的预处理忽略了神经网络对数据的特征表达且标签的噪声也显著增加，因此会降低网络的分类性能。

专利申请号CN 201910883908.4(申请名称：一种基于ACGAN图像半监督分类算法，申请日：2019.09.18，申请人：长沙理工大学)公开了基于ACGAN图像半监督分类算法，解决在半监督学习中标签过少导致分类过拟合的问题，通过ACGAN网络中的生成器生成假数据及其对应的标签，并把假数据放入分类器中进行分类，增加带有标签的数据量，从而提高分类模型的泛化能力。但这种技术方案由于分类器的分类性能原因会使生成的标签不具备可靠性，从而使得标签数据集引入较大的噪声，降低模型的泛化性能。

因此，如何基于无标签和有标签数据组成的混合数据集实现图像的多标签分类，从而充分利用标签数据的有效信息，有效提高网络的分类性能，已成为技术人员急需解决的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种基于半监督学习的图像多标签分类方法，能基于无标签和有标签数据组成的混合数据集实现图像的多标签分类，从而充分利用标签数据的有效信息，有效提高网络的分类性能。

为了达到上述目的，本发明提供了一种基于半监督学习的图像多标签分类方法，包括有：

步骤一、从训练数据集中分别提取有标签数据的训练图片和无标签数据的训练图片，并由有标签数据的训练图片构成有标签数据集、由无标签数据的训练图片构成无标签数据集，然后使用one-hot编码格式，为有标签数据集、无标签数据集中的每张训练图片标注对应的标签向量：[b₁，b₂，…，b_C]，其中，C是所有标签总数，有标签数据集中每张训练图片的标签向量中的第c个标签值b_c为0或者1，当b_c＝1时，表示该训练图片包含有第c个标签，当b_c＝0时，表示该训练图片不包含有第c个标签，c∈[1，C]，无标签数据中每张训练图片的标签向量中的所有标签值均为-1，表示该训练图片的标签未知；

步骤二、构建图像多标签分类网络，并将有标签数据集和无标签数据集中的所有训练图片作为训练样本输入至图像多标签分类网络中，进行半监督训练，所述图像多标签分类网络的输入是有标签数据集和无标签数据集中的训练图片及其对应的标签向量，输出是训练图片对应各标签的预测概率；

步骤三、为待分类图片标注对应的标签向量，所述待分类图片的标签向量中的所有标签值均为-1，然后将待分类图片及其标签向量输入至步骤二训练后的图像多标签分类网络，并根据输出的待分类图片对应各标签的预测概率确定待分类图片的多个标签。

与现有技术相比，本发明的有益效果是：多标签分类中最常用的损失函数是二元交叉熵，本发明在训练过程中针对生成的伪标签，提出部分标签损失替换传统的二元交叉熵损失，可以加快模型的收敛速度，提高模型的分类性能；本发明基于GCN网络，利用图的特点表征多标签之间的相关性，具有灵活性和扩展性，通过对数据标签的整体性建模分析，提高了模型的分类性能，引入标签相关性对多标签分类模型具有促进效果；如果基于阈值或基于置信度 top-k的伪标签生成策略，都会引入较多的标签噪声，对网络的监督训练造成不利的影响，本发明基于标签一致性来生成和优化无标签数据的伪标签，可以降低网络生成伪标签错误的可能性，减少标签噪声，提高模型的分类性能。

附图说明

图1是本发明一种基于半监督学习的图像多标签分类方法的流程图。

图2是图1步骤二将有标签数据集和无标签数据集中的所有训练图片作为训练样本输入至图像多标签分类网络时，图像多标签分类网络的具体处理流程图。

图3是以训练中的第t次迭代为例，为无标签数据集中的第j张训练图片生成伪标签向量中的每个伪标签值的具体步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于半监督学习的图像多标签分类方法，包括有：

步骤一、从训练数据集中分别提取有标签数据的训练图片和无标签数据的训练图片，并由有标签数据的训练图片构成有标签数据集、由无标签数据的训练图片构成无标签数据集，然后使用one-hot编码格式，为有标签数据集、无标签数据集中的每张训练图片标注对应的标签向量：[b₁，b₂，…，b_C]，其中，C是所有标签总数，有标签数据集中每张训练图片的标签向量中的第c个标签值b_c可以为0或者1，当b_c＝1时，表示该训练图片包含有第c个标签，当b_c＝0时，表示该训练图片不包含有第c个标签，c∈[1，C]，无标签数据中每张训练图片的标签向量中的所有标签值均为-1，表示该训练图片的标签未知；

如图2所示，步骤二将有标签数据集和无标签数据集中的所有训练图片作为训练样本输入至图像多标签分类网络时，图像多标签分类网络的具体处理流程如下：

步骤21、构建ResNet网络，从输入的有标签数据集和无标签数据集中的每张训练图片中提取图片特征，然后输出每张训练图片的图片特征向量；

步骤22、根据有标签数据集中所有训练图片的标签向量，计算用于表征所有标签之间相互关系的相关系数矩阵：统计有标签数据集中所有训练图片的标签对的出现次数，构建所有标签的标签共现矩阵，然后使用有标签数据集中的各标签文本对G loVe模型进行训练以生成每个标签的词嵌入向量，并由有标签数据集中所有训练图片的标签向量计算得到所有标签的条件概率矩阵，再使用每个标签的词嵌入向量和所有标签的条件概率矩阵计算得到有标签数据集中每张训练图片的标签邻接矩阵，最后构建GCN网络，并将有标签数据集中所有训练图片的标签邻接矩阵输入GCN网络，从而输出得到所有标签的相关系数矩阵；

G loVe模型是基于全局词频统计的词表征工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性、类比性等。通过对向量的运算，比如欧几里得距离或者cos ine相似度，可以计算出两个单词之间的语义相似性，步骤22中通过G loVe模型可以充分分析标签之间的关系。图卷积神经网络(GCN)是一种能对图数据进行深度学习的方法，图数据每个节点都有自己的特征信息、结构信息，通过GCN网络可以自动化地学习到这些数据信息，本发明通过GCN网络可以很好的学习多标签之间的相关性，GCN网络在训练时可以以标签数据集中所有训练图片的标签邻接矩阵为训练样本，输出的所有标签的相关系数矩阵可以使用所有标签的标签共现矩阵进行初始化；

步骤23、将步骤21输出的每张训练图片的图片特征向量与步骤22获得的所有标签的相关系数矩阵作点乘(dot product)，并将点乘后的结果再通过分类器，从而获得每张训练图片对应各标签的预测概率。

为加快收敛速度，图像多标签分类网络可以使用ResNet-50在大型数据集ImageNet中的预处理模型进行初始化，并使用SGD作为优化器、动量设定为0.9、重量衰减为10-4。初始学习率为0.01，每40个epoch衰减10倍，网络总共训练100个epoch，batch-s ize为64。

在步骤二的训练过程中，可以将有标签数据集、无标签数据集中的训练图片以1：1的比例输入到ResNet网络中，先使用有标签数据集进行迭代训练，然后利用所学习的模型逐步预测、生成无标签数据的伪标签向量，最后利用这些伪标签和真实标签继续对模型进行训练。

在训练最初的阶段，由于模型的分类性能较弱，无标签数据生成的伪标签会引入较大的噪声，因而步骤二中的图像多标签分类网络在训练过程中的损失函数可以定义为：

其中，loss_label(x，y)是当训练图片属于有标签数据集时的损失函数，

是当训练图片属于无标签数据集时的损失函数，α(t) 表示高斯增长函数。loss_label(x，y)采用传统的二元交叉熵，

x是ResNet网络从训练图片中提取的图片特征向量，y是使用one-hot格式为训练图片所标注的真实的标签向量，C是所有标签总数，σ(·)表示sigmoid函数，y_c表示训练图片的第c 个标签值，其值为1或0。

x是ResNet网络从训练图片中提取的图片特征向量，

是训练过程中得到的训练图片的伪标签向量，

和

分别表示

中第c个伪标签值

为1和0的数量，

表示指示函数，若

为1，则

为1，

为0，若

为0，则

为0，

为1。α(t)表示高斯增长函数，α(t)的设置对于网络性能是非常重要的，如果α(t)过高，则起初模型的伪标签噪声很大，将使得网络性能降低，如果α(t)太小，则不能充分利用无标签数据的有效信息，因此α(t) 是缓慢增加的高斯增长函数，公式如下所示：

其中，t 表示当前模型的训练的迭代次数，T＝80，表示在起初训练迭代80个周期内，缓慢增加无标签损失的权重。

同时，在步骤二对无标签数据集中的训练图片进行训练时，本发明还可以进一步基于标签一致性来为无标签数据集中的训练图片生成相应的伪标签值。训练过程中，不断生成、优化无标签数据的伪标签，并加入训练集中，从而提高模型的分类性能。这样，如图3所示，以训练中的第t次迭代为例，为无标签数据集中的第j张训练图片生成伪标签向量中的每个伪标签值的具体过程如下：

步骤A1、将第j张训练图片输入至第t次迭代训练后的图像多标签分类网络，预测并记录第j张训练图片在第t次迭代对应的每个类别标签置信度分数；

步骤A2、逐一提取第j张训练图片的每个类别标签置信度分数在前p次迭代中的对应值，然后判断第j张训练图片的每个类别标签置信度分数在前p次迭代中是否排序都在所有类别标签置信度分数的前k名之内、且其值都大于绝对置信度阈值θ1，如果是，则将第j张训练图片对应标签的伪标签值设为1，并继续判断第j张训练图片的下一个类别标签置信度分数；如果否，则直接继续判断第j张训练图片的下一个类别标签置信度分数，当判断完所有类别标签置信度分数后，继续下一步；

步骤A3、逐一判断第j张训练图片的每个类别标签置信度分数在前p次迭代中是否都小于绝对置信度阈值θ2、且其对应的伪标签值不为1，如果是，则将第j张训练图片对应标签的伪标签值设为0，然后继续判断下一个类别标签置信度分数；如果否，则表示标签未知，将第j张训练图片对应标签的伪标签值设为-1，然后继续判断下一个类别标签置信度分数。

上述k、p、θ1、θ2可根据实际业务需要而设置，通过实验证明，当p＝4，k＝3,θ1＝1.0，θ2＝-5.0时，网络模型可预测出更多、更准确的伪标签，网络模型具有更好的分类效果。

当步骤二完成对图像多标签分类网络的训练后，步骤三将待分类图片及其标签向量输入至图像多标签分类网络时，也是先通过ResNet网络计算得到待分类图片的图片特征向量，然后将待分类图片的图片特征向量和步骤22计算得到的所有标签的相关系数矩阵作点乘(dot product)，再将点乘后的结果通过分类器，从而获得待分类图片对应各标签的预测概率，最后根据预测概率为待分类图片确定对应的多个标签。

上述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于半监督学习的图像多标签分类方法，其特征在于，包括有：

步骤二、构建图像多标签分类网络，并将有标签数据集和无标签数据集中的所有训练图片作为训练样本输入至图像多标签分类网络中，进行半监督训练，所述图像多标签分类网络的输入是标签数据集和无标签数据集中的训练图片及其对应的标签向量，输出是训练图片对应各标签的预测概率；

2.根据权利要求1所述的方法，其特征在于，步骤二将有标签数据集和无标签数据集中的所有训练图片作为训练样本输入至图像多标签分类网络时，图像多标签分类网络的具体处理流程如下：

步骤22、根据有标签数据集中所有训练图片的标签向量，计算用于表征所有标签之间相互关系的相关系数矩阵：统计有标签数据集中所有训练图片的标签对的出现次数，构建所有标签的标签共现矩阵，然后使用有标签数据集中的各标签文本对GloVe模型进行训练以生成每个标签的词嵌入向量，并由有标签数据集中所有训练图片的标签向量计算得到所有标签的条件概率矩阵，再使用每个标签的词嵌入向量和所有标签的条件概率矩阵计算得到有标签数据集中每张训练图片的标签邻接矩阵，最后构建GCN网络，并将有标签数据集中所有训练图片的标签邻接矩阵输入GCN网络，从而输出得到所有标签的相关系数矩阵；

步骤23、将步骤21输出的每张训练图片的图片特征向量与步骤22获得的所有标签的相关系数矩阵作点乘，并将点乘后的结果再通过分类器，从而获得每张训练图片对应各标签的预测概率。

3.根据权利要求2所述的方法，其特征在于，图像多标签分类网络使用ResNet-50在大型数据集ImageNet中的预处理模型进行初始化，并使用SGD作为优化器、动量设定为0.9、重量衰减为10-4，初始学习率为0.01，每40个epoch衰减10倍，网络总共训练100个epoch，batch-size为64。

4.根据权利要求1所述的方法，其特征在于，步骤二中的图像多标签分类网络在训练过程中的损失函数定义为：

是当训练图片属于无标签数据集时的损失函数，α(t)表示高斯增长函数。

5.根据权利要求4所述的方法，其特征在于，loss_label(x，y)采用传统的二元交叉熵，

x是ResNet网络从训练图片中提取的图片特征向量，y是使用one-hot格式为训练图片所标注的真实的标签向量，C是所有标签总数，σ(·)表示sigmoid函数，y_c表示训练图片的第c个标签值，其值为1或0，

x是ResNet网络从训练图片中提取的图片特征向量，

是训练过程中得到的训练图片的伪标签向量，

和

分别表示

中第c个伪标签值

为1和0的数量，

表示指示函数，若

为1，则

为1，

为0，若

为0，则

为0，

为1。

6.根据权利要求4所述的方法，其特征在于，α(t)的公式如下所示：

其中，t表示当前模型的训练的迭代次数，T＝80，表示在起初训练迭代80个周期内，缓慢增加无标签损失的权重。

7.根据权利要求1所述的方法，其特征在于，以训练中的第t次迭代为例，为无标签数据集中的第j张训练图片生成伪标签向量中的每个伪标签值的具体过程如下：

步骤A3、逐一判断第j张训练图片的每个类别标签置信度分数在前p次迭代中是否都小于绝对置信度阈值θ2、且其对应的伪标签值不为1，如果是，则将第j张训练图片对应标签的伪标签值设为0，然后继续判断下一个类别标签置信度分数；如果否，则将第j张训练图片对应标签的伪标签值设为-1，然后继续判断下一个类别标签置信度分数。

8.根据权利要求7所述的方法，其特征在于，p＝4，k＝3,θ1＝1.0，θ2＝-5.0。