CN114998613B

CN114998613B - 一种基于深度互学习的多标记零样本学习方法

Info

Publication number: CN114998613B
Application number: CN202210721119.2A
Authority: CN
Inventors: 袁志祥; 王雅卿
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2024-04-26
Anticipated expiration: 2042-06-24
Also published as: CN114998613A

Abstract

本发明公开了一种基于深度互学习的多标记零样本学习方法，涉及机器学习领域的多标记学习技术。本发明利用深度互学习技术，首先设计两个子网络，分别对CNNs提取的特征学习出两种表示，即基于区域的视觉特征和基于语义的视觉特征，在图像区域特征与区域特征相关联的基础上，融合了图像特征与标签语义的关系；并在整个训练过程中使两个子网络进行深度互学习，相互协作、相互促进，使得结果分布尽可能保持一致；同时在深度互学习过程中能够不断增强区域特征与区域特征、区域特征与标签语义之间的关联，从而提升多标记零样本问题下分类的准确性。

Description

一种基于深度互学习的多标记零样本学习方法

技术领域

本发明属于涉及机器学习领域的多标记学习技术，针对深度多标记学习中的零样本学习问题，本发明设计两个子网络并进行深度互学习，同时增强视觉特征与视觉特征、视觉特征和标签语义之间的相关性，从而提升多标记零样本分类的准确性。

背景技术

传统监督学习主要是单标记学习，即一张图像对应唯一的一个标签。而现实生活中目标样本往往比较复杂，传统的单标记标注方法无法满足对复杂样本进行标注的需求，因为在现实世界当中，一个样本通常同时属于多个类别，也即所谓的多标记分类问题。

然而，传统的多标记学习中，大多数的方法是通过有标签的训练集进行学习，侧重于对已经在训练过程中出现过标签类别的样本进行分类，需要大量的已标记数据去训练模型。在现实场景中，许多任务需要对以前从未见过的实例类别进行分类，尽管大量科研相关人员已经标注了很多标准数据集，而在现实世界中已经标注的数据仍然只占少数，且有诸多场景如疾病图像数据难以大量获取，这样就使得原有训练方法不再适用。零样本学习便应运而生，它旨在通过将已知类的语义知识转移到未知类中来解决对未知类的预测问题。传统零样本问题的训练实例所涉及的类与测试集中要预测的类是不相交的、完全不同的，根据训练集中的已知类别数据,通过相关先验知识(属性、词向量、文本描述等)，实现对未知类别的识别和预测。零样本学习不仅可以对难以标注的样例进行识别分类,相关解决方法也模拟了人类对于从未见过的对象的认知过程,零样本学习方法的研究，也会在一定程度上促进认知科学的研究。

但当下对零样本学习的研究几乎都分布在单标记分类领域，而对多标记零样本学习的研究比较少。在多标记零样本学习中，需要训练出的模型能够预测每个输入实例中的多个在训练过程中未见过的类标签。同样地，在传统零样本学习设置中，训练数据中的类标签集合和测试数据中的类标签集合没有交集，两两互斥；在广义零样本学习设置中，测试数据集中同时包含已知标签和未知标签。在零样本学习中进行多标记分类的挑战主要在于：一是在模型训练过程中没有未知标签所对应的样本参与训练，导致训练出的模型缺乏识别未知标签的能力；二是一幅图像中包含多个类别，不同类别之间内容和关系的复杂性，导致图像中存在的已知和未知标签更加难以预测。

发明内容

1.要解决的问题

针对现有零样本学习过程中存在的上述问题，本发明利用一种深度互学习的技术，通过设计两个子网络，产生两种特征表示，使两个子网络在模型训练过程中相互学习、相互促进，同时能够进一步增强视觉特征与视觉特征、视觉特征与语义特征之间的关联，从而解决多标记零样本学习的问题。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种基于深度互学习的多标记零样本学习方法，包括以下步骤：

S1、获取图像视觉特征，加载预训练的深度卷积神经网络提取图像特征；获取标签语义，加载预训练的GloVe模型提取标签语义信息；

S2、设计一个语义微调模块，用于对利用GloVe模型提取出的标签语义信息进行细化或微调，使得提取到的标签语义信息更准确；

S3、设计融合图像区域与图像区域之间相关性的子网络1：利用多头自注意力机制，将图像中每个区域都与其它各区域相关联，得到基于区域的视觉特征表示；

S4、再将S3中得到的基于区域的视觉特征映射到语义空间中，计算标签的置信度分数，即每个标签出现在该图像中的概率；

S5、设计融合标签语义与图像特征之间相关性的子网络2：将标签语义信息与视觉特征相关联，得到基于语义的视觉特征表示；

S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中，计算标签的置信度分数，即每个标签出现在该图像中的概率；

S7、利用深度互学习技术，提出一种互学习损失，使得在训练过程中，两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验，达到互相增强的效果；

S8、在测试时，给定一个测试样本，输入到S1-S7训练得到的模型中，得到两个子网络的预测值，再将两个预测值加权求和进行融合，即可得到测试样本最终的预测值。

相比于现有技术，本发明的有益效果为：

(1)本发明的一种基于深度互学习的多标记零样本学习方法，是针对目前多标记零样本学习存在的问题，利用深度互学习技术，提出两个子网络相互学习的方案，使得在整个训练过程中，两个子网络在训练自身的分类性能的同时也能够学习对方的训练经验；在两个子网络进行深度互学习的过程中能够不断增强区域特征与区域特征、区域特征与标签语义之间的关联，从而显著提升了在多标记零样本问题设置下图像分类的准确度。

附图说明

图1为本发明中多标记零样本学习两个子网络互学习模型框架图。

具体实施方式

为进一步了解本发明的内容，下面结合具体实施例对本发明进一步进行描述。

实施例1

如图1所示，本实施例的一种基于深度互学习的多标记零样本学习方法，主要包含模型构建、训练与标记预测三个阶段，具体的方法步骤如下：

一、模型构建、训练：

S1、读取图像文件，获取图像视觉特征，加载预训练的深度卷积神经网络来提取图像特征；与此同时，获取标签语义，通过加载预训练的GloVe模型来提取标签语义信息。具体操作为：

x_i∈χ表示深度卷积神经网络提取得到的图像特征，即h，w表示特征图的高和宽，d表示通道数。

y_i∈{0,1}^S表示图像i的相关标签，训练集中图像对应的标签都属于已知类别集合。C^S表示已知类别集合，S表示已知类别的个数。本发明中图像特征的获取利用深度卷积神经网络VGG19，提取最后一个卷积层输出的图像特征用做模型的输入。

表示S个已知类别的语义向量，d_a＝300，用来表示S个已知类的语义信息以及对它们之间的关系进行编码。/>表示U个未知类别的语义向量，同样地，d_a＝300，C^U表示未知类别集合，U表示未知类别的个数。本发明中利用GloVe模型获取标签语义向量，GloVe是一种词向量学习方法，它对标签进行词向量化表示，使得向量之间尽可能多的蕴含语义和语法信息。

S2、设计一个语义微调模块，它对利用GloVe模型提取的标签语义信息进行细化或微调，使得提取到的标签语义信息更准确。具体为：

本发明设计的语义微调模块G_v，由一个可学习的3层感知机和激活函数(ReLU函数)组成，其中我们将感知机中的隐藏维度设置为1024，最终的输出维度设置为300：

V_s＝G_v(A_S) (1)

式(1)中是从GloVe模型里提取出的语义向量；/>是经过G_v模块微调的语义向量。

S3、设计融合图像区域与图像区域之间相关性的子网络1：利用多头自注意力机制，将图像中每个区域都与其他区域相关联，得到基于区域的视觉特征表示。具体为：

本发明使用多头自注意机制将图像中的各个区域特征相关联。首先将提取的图像特征当作hw个区域特征，每个区域特征由d维组成，即/>其中表示图像i的第r个区域。将图像特征x_i投影到一个低维空间(d′＝d/N)，使用N个投影头创建查询向量(query)、键向量(key)、值向量(value)，查询向量用来寻找与所有区域特征的键向量的相关性，值向量则保持每个区域特征当前形式的状态。每个图像区域特征都有自己的查询向量-键向量-值向量。将图像特征分别经过投影得到：

式(2)-(4)中n表示多头注意机制的投影头，n∈{1,2,...,N}；/>表示可学习的投影权重。

然后将每个查询向量(query)寻找与来自hw个区域特征的所有键向量(keys)的相关性，可得到每个区域特征与其他各区域特征的相关权重：

式(5)中σ表示softmax函数，用来做归一化处理，使得r_n值处在[0,1]之间；/>表示对/>做转置操作。

利用式(5)得到的权重值对值向量(value)进行加权：

式(6)中例如α₁表示第一个头的输出，其中包含hw个加权区域特征，每个区域特征由d′维组成；即在计算多头注意力并加权的过程中，将特征的d维通道数划分成N个d′维，这些由式(6)计算出的每个头的低维自注意特征沿着通道维合并，最终得到基于区域的特征表示F_i：

F_i＝[α₁；α₂；...α_N]W_f (7)

式(7)中表示可学习的权重参数。

与原始图像特征x_i一致，基于区域的特征也可当作hw个加权区域特征，每个加权区域特征由d维组成，即/>其中/>表示图像i中第r个区域的加权特征。

S4、再将S3中得到的基于区域的视觉特征映射到语义空间中，计算标签的置信度分数，即每个标签出现在该图像中的概率。具体为：

图像i中标签c的置信度分数可以计算为：

式(8)中为S3中得到的图像i中第r个区域的加权特征；c表示第c个标签；/>为标签c的分类器参数，/>表示对θ^c进行转置操作；图像中每个区域加权特征与标签c的分类器参数相乘，其中取最大值即为/>

这里我们将每个标签分类器的参数表示为该标签语义向量的相关函数：

θ^c＝V_cW_v (9)

式(9)中表示经G_v模块微调得到的标签c的语义向量；/>是可学习的权重参数。

为了使每个图像中存在标签的分数大于不存在标签的分数，我们引入一种排名损失(rank loss)函数：

式(10)中y_i表示图像i对应的标签集合；表示标签c出现在图像i中的置信度分数；/>表示标签c′出现在图像i中的置信度分数。

S5、设计融合标签语义与图像特征之间相关性的子网络2：将标签语义信息与视觉特征相关联，得到基于语义的视觉特征表示。具体为：

式(11)中表示经G_v模块微调得到的标签c的语义向量；是可学习的权重参数；/>表示图像i的第r个区域特征，/>表示对/>做转置操作；/>表示标签c在图像第r个区域的权重。

式(12)中表示经归一化得到的第c个标签语义在图像第r个区域特征上的权值；S表示已知类别个数。

式(13)中表示图像特征经标签c重新加权后的特征。则F_g＝{F₁,F₂,...,F_S}表示经所有标签语义信息重新加权后的图像特征，即基于语义的视觉特征表示。

S6、再将S5中得到的基于语义的视觉特征同样映射到语义空间中，计算标签的置信度分数，即每个标签出现在该图像中的概率。具体为：

图像i中标签c的置信度分数可以计算为：

式(14)中为S5中得到的基于语义标签c加权的特征；c表示第c个标签；/>为标签c的分类器参数，/>表示对θ^c进行转置操作。

θ^c＝V_cW_v (15)

式(15)中表示经G_v模块微调得到的标签c的语义向量；是可学习的权重参数。

式(16)中y_i表示图像i对应的标签集合；表示标签c出现在图像i中的置信度分数；/>表示标签c′出现在图像i中的置信度分数。

S7、利用深度互学习技术，提出一种互学习损失，使得在训练过程中，两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验，达到互相增强的效果。具体为：

本发明利用子网络2得到的预测概率为子网络1提供训练经验；同样地，利用子网络1得到的预测概率/>为子网络2提供训练经验。这样一来，两个子网络就可以互相学习对方的经验，从而做到互相增强共同进步。

为了度量由两个子网络得到的预测概率的匹配程度，使其尽可能保持一致，我们引入一个互学习损失函数进行约束。本发明利用Jensen-Shannon散度(JS散度)作为该互学习损失，如下：

式(17)中M表示训练集中的样本个数；D_KL表示Kullback-Leibler散度(KL散度)；其中，Kullback-Leibler散度可表示为：它用来计算两个概率分布之间的差别，如果P₁(x_i)＝P₂(x_i)，即两个概率分布完全相同，这时KL散度为0。但KL散度的弊端在于其不对称，即D_KL(P₁(x_i)||P₂(x_i))≠D_KL(P₂(x_i)||P₁(x_i))。因此本发明中采用的是Jensen-Shannon散度，是Kullback-Leibler散度的变体，具有对称性。

二、标签预测

S8、在测试时，给定一个测试样本，输入到S1-S7训练得到的模型中，得到两个子网络的预测值，再将两个预测概率值加权求和进行融合，即可得到输入样本最后的预测值。具体为：

模型训练结束后，我们首先通过子网络1得到测试样本x_i的基于区域的特征表示，通过子网络2得到测试样本x_i的基于语义的特征表示，分别映射到语义空间中，得到每个标签出现在图像中的置信度分数即和/>最后，我们使用一个组合权重系数(w₁,w₂)融合它们的预测值，以得到测试样本x_i中出现标签的最终预测值，公式如下：

式(18)中w₁和w₂表示两个子网络预测值的权重，经实验对比可得到使结果最优的[w₁,w₂]组合；topk表示按照预测值大小排序，取前k个值的操作。

本发明提供一种基于深度互学习的多标记零样本解决方法，利用深度互学习技术，设计两个子网络，在图像区域特征与区域特征关联的基础上，融合了图像特征与标签语义信息的关系，分别得到基于区域的视觉特征表示和基于语义的视觉特征表示，并且在整个训练过程中使两个子网络互相学习，保证结果分布的一致性，同时在深度互学习过程中不断增强区域特征与区域特征、区域特征和标签语义之间的相关性，从而提升多标记零样本问题下分类的准确性。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于深度互学习的多标记零样本学习方法，其特征在于：包括以下步骤：

S1、获取图像视觉特征，即加载预训练的深度卷积神经网络提取图像特征；获取标签语义，即加载预训练的GloVe模型提取标签语义信息；

S7、利用深度互学习技术，设计互学习损失，使得在训练过程中，两个子网络在训练自身分类性能的同时能够互相学习对方的训练经验，达到互相增强的效果；

2.根据权利要求1所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S1中，深度卷积神经网络提取图像特征记为x_i∈χ，即其中，/>表示实数域，h，w分别表示特征图的高和宽，d表示通道数；

图像i的对应标签记为y_i∈{0,1}^S，训练集中图像对应的标签都属于已知类别集合，C^S表示已知类别集合，S表示已知类别的个数；

表示利用GloVe模型提取出的S个已知类别的语义向量，其中，d_a＝300，用来表示S个已知类别的信息以及对它们之间的关系进行编码；

表示利用GloVe模型提取出的U个未知类别的语义向量，同样，d_a＝300，C^U表示未知类别集合，U表示未知类别的个数；C^S+U表示同时包含已知类别和未知类别的集合。

3.根据权利要求2所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S2中，语义微调模块G_v的设计方法为：利用一个可学习的3层感知机和ReLU激活函数构成语义微调模块G_v，其中将感知机的隐藏维度设为1024，输出维度设为300；

V_s＝G_v(A_S) (1)

公式(1)中是利用GloVe模型获取的类别语义向量；/>是经过G_v模块微调的类别语义向量。

4.根据权利要求3所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S3中，子网络1的设计方法为：

步骤一、首先将提取的图像特征当作hw个区域特征，每个区域特征由d维组成，即/>其中/>表示图像i的第r个区域；将图像特征x_i投影到低维空间d′中，其中d′＝d/N；使用N个投影头创建查询向量、键向量、值向量，查询向量用来寻找与所有区域特征的键向量的相关性，值向量则保持每个区域特征当前形式的状态；每个区域特征都有自己的查询向量-键向量-值向量，将图像特征x_i分别经过投影变换得到：

公式(2)-(4)中，n表示多头注意机制的投影头，n∈{1,2,...,N}；/>表示可学习的投影权重；

步骤二、将每个查询向量寻找与来自hw个区域特征的所有键向量的相关性，可得到每个区域特征与其他各区域特征的相关性权重r_n如下：

公式(5)中σ表示softmax激活函数，用来做归一化处理，使得权重值处在[0,1]之间；/>表示对/>做转置操作；

步骤三、利用公式(5)得到的权重值对值向量进行加权：

公式(6)中将公式(6)计算出的每个头的低维自注意特征沿着通道维度进行合并，最终得到基于区域的特征表示F_i：

F_i＝[α₁；α₂；...α_N]W_f (7)

公式(7)中表示可学习的权重参数；

与原始图像特征x_i一致，基于区域的特征作为hw个加权区域特征，每个加权区域特征由d维组成，即/>其中/>表示图像i中第r个区域的加权特征。

5.根据权利要求4所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S4中，图像i中标签c的置信度分数可以计算为：

公式(8)中为步骤S3中得到的图像i中第r个区域的加权特征；c表示第c个标签；/>为标签c的分类器参数，/>表示对θ^c做转置操作；图像中每个区域加权特征与标签c的分类器参数相乘，其中取最大值即为/>

这里我们将每个标签分类器的参数表示为与该标签语义向量相关的函数：

θ^c＝V_cW_v (9)

公式(9)中表示经G_v模块微调得到的标签c的语义向量；/>是可学习的权重参数。

6.根据权利要求5所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：为了使每个图像中存在标签的分数大于不存在标签的分数，引入排名损失函数L_rank1：

公式(10)中y_i表示图像i对应的标签集合；表示标签c出现在图像i中的置信度分数；表示标签c′出现在图像i中的置信度分数。

7.根据权利要求1-6中任一项所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S5中，设计将标签语义信息与图像特征相融合的子网络2：

公式(11)中表示经G_v模块微调得到的标签c的语义向量；/>是可学习的权重参数；/>表示图像i的第r个区域特征，/>表示对/>做转置操作；/>表示标签c在图像第r个区域的权重；

公式(12)中表示经归一化得到的第c个标签语义在图像第r个区域特征上的权值；S表示已知类别个数；

公式(13)中表示图像特征经标签c重新加权后的特征，则F_g＝{F₁,F₂,...,F_S}表示经所有标签语义信息加权后的图像特征，即基于语义的视觉特征表示。

8.根据权利要求7所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S6中，将步骤S5中得到的基于语义的视觉特征F_g同样映射到语义空间中，计算图像i中标签c置信度分数的方法为：

公式(14)中为S5中得到的基于标签语义c加权的特征；c表示第c个标签；为标签c的分类器参数，/>表示对θ^c做转置操作；

这里将每个标签分类器的参数表示为该标签语义向量的相关函数：

θ^c＝V_cW_v (15)

公式(15)中表示经G_v模块微调得到的标签c的语义向量；/>是可学习的权重参数；

为了使每个图像中存在标签的分数大于不存在标签的分数，引入排名损失函数L_rank2：

公式(16)中y_i表示图像i对应的标签集合；表示标签c出现在图像i中的置信度分数；表示标签c′出现在图像i中的置信度分数。

9.根据权利要求8所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S7中，引进深度互学习技术使两个子网络在训练过程中能够互相学习对方的训练经验，采用Jensen-Shannon散度计算子网络1和子网络2的互学习损失L_mutual，如下：

公式(17)中M表示训练集中的样本个数；表示Kullback-Leibler散度；/>

10.根据权利要求9所述的一种基于深度互学习的多标记零样本学习方法，其特征在于：步骤S8中，模型训练结束后，首先通过子网络1得到测试样本x_i的基于区域的特征表示，通过子网络2得到测试样本x_i的基于语义的特征表示，分别映射到语义空间中，得到每个标签出现在图像中的置信度分数即和/>然后使用一个组合权重系数(w₁,w₂)融合所得预测值，以得到测试样本x_i中出现标签的最终预测值，公式如下：

公式(18)中w₁和w₂表示两个概率分布的权重，经实验对比得到[w₁,w₂]组合；topk表示按照预测值大小排序，取前k个值的操作。