CN115546553A

CN115546553A - 一种基于动态特征抽取和属性修正的零样本分类方法

Info

Publication number: CN115546553A
Application number: CN202211268579.0A
Authority: CN
Inventors: 贺喆南; 徐浚哲; 吕建成; 汤臣薇; 江姗霖
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2022-12-30

Abstract

本发明公开了一种基于动态特征抽取和属性修正的零样本分类方法，包括以下步骤：获取视觉样本和语义特征；构建基于动态特征抽取和属性修正的零样本学习网络；将视觉样本和语义特征传输至基于动态特征抽取和属性修正的零样本学习网络，得到并根据视觉样本特征和修正后的语义特征计算损失值，将损失值反向传播重复本步骤直至训练结束；对训练后的基于动态特征抽取和属性修正的零样本学习网络进行验证；若准确率高于预定值则进入下一步；否则返回上一步；采用训练后的基于动态特征抽取和属性修正的零样本学习网络对数据集进行分类。本发明针对不同属性的不同性质采用不同的特征抽取方法，提出属性修正概念，增强了网络的表征能力。

Description

一种基于动态特征抽取和属性修正的零样本分类方法

技术领域

本发明涉及零样本识别领域，具体包括一种基于动态特征抽取和属性修正的零样本分类方法。

背景技术

在传统的深度学习分类算法研究中，训练集中的样本包括了该数据集中的所有的标签分布信息，此时模型可以通过对训练集的学习来掌握样本分布的所有知识并且在测试集上通过测试模型的预测准确率来验证模型的学习效果。在这样的情况下，训练集和测试集拥有同样的标签是验证模型效果的关键。但是在部分特殊的应用场景下，某些类别的训练样本可能难以获得或者样本的标签难以标注，此时由于没有这些样本的标签信息，预先训练好的模型无法在这些类别上进行预测，这一现实难题大大限制了深度学习模型应用的范围。因此，为了解决在新的类别上预测的问题，零样本学习任务被提出，该任务试图让一个模型能在已经能识别训练集中已有类别的情况下准确地识别那些训练集中没有见过的类别的样本。这种让模型在没有见过任何样本的情况下学习不可见类别的知识的任务大大扩宽了深度学习的应用面，具有很高的研究价值。

为了研究零样本学习，研究者们提出和设计了若干数据集，每个数据集中包括大量的视觉样本X。假设所有视觉样本的所有类别为

其中

是模型训练时会见到的可见类，数量为N_s，属于可见类的视觉样本可以记录为X_s，

类是测试集用来检测模型零样本学习性能的不可见类，数量为N_u，属于不可见类的视觉样本可以记录为X_u。值得注意的是，可见类和不可见类是没有任何重合的并且涵盖了数据集中所有的类，即

为了使模型在没有样本的情况下进行学习，研究者们在数据集中引入了语义特征这个概念，每个类有一个对应的语义特征

假设数据集中所有类的语义特征可以表示为A，其中

表示所有可见类的语义特征，

表示不可见类的语义特征，K表示语义特征向量的维度，其中，每一维度都可以表示为一个特定的属性，因此每个语义特征可以被K种属性的组合所表示。在零样本学习模型训练的时候，模型可以看到可见类的视觉样本X_s，和包括不可见类在内的所有类的语义A。零样本学习旨在以语义特征A作为桥梁，让模型通过可见类和不可见类的语义之间的关系来学习其对应的视觉样本之间的关系，从而对测试集中不可见类的视觉样本做出准确的预测。

目前，零样本学习有三大主流技术：

现有技术一：基于跨模态映射的学习算法，该算法将原本分布在视觉空间中的视觉样本和分布在语义空间中的语义特征映射到同一个空间，并且以语义特征为中心点对齐视觉样本分布，在测试阶段将不可见类的视觉样本映射到该空间中进行分类。

该技术的缺点在于视觉样本的特征抽取质量无法得到保证，该方法使用视觉样本的全局特征和语义特征进行对齐却忽视了对样本局部特征进行抽取和理解，这会导致视觉样本的某些冗余特征影响到模型的训练，最终降低算法的性能。

现有技术二：基于生成的方法，该方法直击零样本学习的核心问题：缺少不可见类的样本。通过以语义为参考生成大量不可见类的样本，最终将零样本学习任务转化成标准的监督学习任务。

该技术的主要缺点和现有技术一类似，就是使用了全局特征作为视觉样本的特征表达进行模型训练而忽视了局部特征的重要性。为了实现高质量的不可见类样本生成，我们往往希望模型在和语义相关的特定属性上具有较好的生成能力，而那些和语义无关的背景部分则不是那么重要，但是这种基于全局特征的生成方法往往没有针对这一点做出考虑，因此生成质量无法获得保证。

现有技术三：基于注意力机制的方法，该方法将语义分解成不同的属性，以属性为单位在视觉图片上进行特征抽取，随后将抽取出来的属性特征作为图片的特征表达和语义进行对齐，由于语义是由不同的属性组合起来的，并且属性在不同的类之间是通用的，因此根据属性抽取出来的特征可以很好地实现对不可见类视觉样本的预测。

尽管该技术路线首次考虑到了局部特征的重要性，但该技术仍然存在两大缺点，第一大缺点在于并没有对属性的类别做出有针对性的讨论。语义的属性一般可以被分成两种，第一种是基于低级纹理的属性，这种属性往往是描述视觉样本的主体的特定部位的颜色或者形状特征，这是可以很容易被模型提取到的。另外一种属性是需要理解相关内容的高级抽象属性，例如动物的食草属性，是无法通过低级纹理捕捉到的。现有的方案统一使用一套用于抽取低级纹理属性的方法来抽取所有属性的特征，缺乏对高级抽象属性的考虑。另一个缺点是现有的技术往往将一个固定的属性特征作为目标进行预测，但是实际上由于不同的视觉样本在拍摄时可能由于角度，光线的不同，导致语义特征也会产生变化。因此用固定的属性值来描述一个类中的所有视觉样本忽略了不同视觉样本中属性的特征变化，最后造成特征抽取效果不佳。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于动态特征抽取和属性修正的零样本分类方法解决了现有技术中缺乏对高级抽象属性的考虑、忽略了不同视觉样本中属性的特征变化的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于动态特征抽取和属性修正的零样本分类方法，包括以下步骤：

S1、获取视觉样本x、语义特征α；

S2、构建基于动态特征抽取和属性修正的零样本学习网络；

S3、将视觉样本和语义特征传输至基于动态特征抽取和属性修正的零样本学习网络，得到并根据视觉样本特征和修正后的语义特征计算损失函数，根据损失函数计算损失值并将损失值进行梯度回传；重复本步骤直至训练结束；

S4、对训练后的基于动态特征抽取和属性修正的零样本学习网络进行验证；若准确率高于预定值则进入步骤S5；否则进入步骤S3；

S5、采用训练后的基于动态特征抽取和属性修正的零样本学习网络对数据集进行分类。

进一步地，基于动态特征抽取和属性修正的零样本学习网络包括特征抽取主干网络、属性定位网络、属性修正网络、尺度控制单元和损失值计算模块；

特征抽取主干网络的第一输出端连接属性修正网络的第一输入端；特征抽取主干网络的第二输出端连接属性定位网络的第一输入端；特征抽取主干网络的第三输出端连接尺度控制单元的输入端；尺度控制单元的第一输出端连接属性修正网络的第二输入端；尺度控制单元的第二输出端连接属性定位网络的第二输入端；属性定位网络的输出端和属性修正网络的输出端连接损失值计算模块。

进一步地，步骤S3的具体实现方式如下：

S3-1、通过属性定位网络对视觉样本特征属性定位并提取局部特征和全局特征；

S3-2、通过属性修正网络提取属性修正所需的局部特征和全局特征；

S3-3、通过尺度控制单元融合属性定位网络和属性修正网络提取的局部特征和全局特征，获得属性修正值和视觉样本特征；

S3-4、根据属性修正值对语义特征进行修正，得到修正后的语义特征；

S3-5、根据视觉样本特征和修正后的语义特征之间的距离计算损失值；回传损失值，更新基于动态特征抽取和属性修正的零样本学习网络参数。

进一步地，步骤S3-1的具体实现方式如下：

S3-1-1、通过特征抽取主干网络获取视觉样本x的视觉样本特征图

其中，C表示特征图的通道数，即每个像素点的特征的维数；H表示特征图的高度；W表示特征图的宽度；

表示数据的形状；

S3-1-2、根据公式：

得到视觉样本的局部特征u_L；其中，i表示特征图的高度；j表示特征图的宽度；

为属性图，表示属性在特征图上的分布情况，K表示属性的数量，w表示注意力权重，v表示属性的具体分布值；softmax函数表示将每个通道上的特征图的像素值归一化到0-1之间；φ_v和φ_w表示两个卷积核大小为1×1的卷积层；

S3-1-3、根据公式：

得到视觉样本的全局特征u_G；其中；

i'表示特征图的高度；j'表示特征图的宽度。

进一步地，步骤S3-2的具体实现方式如下：

根据公式：

得到每个属性的局部特征t_L和每个属性的全局特征t_G；其中，φ_r表示计算属性修正值的卷积核大小为1×1的卷积核；max_c’,d’表示全局最大池化；c'表示特征图的高度；d'表示特征图的宽度；

进一步地，步骤S3-3的具体实现方式如下：

S3-3-1、根据公式：

得到属性是局部属性还是全局属性的概率g；其中，φ_s表示卷积核为1×1的卷积层；c表示特征图的高度；d表示特征图的宽度；

S3-3-2、根据公式：

得到属性修正值

和视觉样本特征ψ(x)。

进一步地，步骤S3-4的具体实现方式如下：

根据公式：

得到修正后的语义特征π_m(α)；其中，Normalize表示将向量长度归一化到1；

表示第m类的语义特征中第n维对应的值，n＝1,2,...,K；

表示

的第n维对应的值。

进一步地，步骤S3-5的具体实现方式如下：

S3-5-1、根据公式：

得到分类损失

和距离损失

其中，N_B表示每一轮学***方；

是可见类；α_q是可见类中第q个类的语义特征；

S3-5-2、根据公式：

得到基于动态特征抽取和属性修正的零样本学习网络的预测值和真实值的差距

即最终的损失函数。

S3-5-3、根据损失函数计算损失值并进行梯度回传，更新基于动态特征抽取和属性修正的零样本学习网络参数。

本发明的有益效果为：本发明对语义的属性进行分类，设计了一套全面的属性特征抽取方法。对于那些基于低级纹理的属性，仍然保留基于注意力机制的局部特征抽取，对于那些基于内容理解的高级抽象属性，采用视觉样本的全局特征作为其特征表达。将局部特征和全局特征进行特征融合，以门控单元为权重，调节两种特征的属性占比，最终实现对视觉样本特征的抽取。提出属性修正概念，设计了一个属性修正模块对属性值进行修改，让属性的值更加逼近视觉样本的真实表达。将视觉样本提取的特征和该修正后的属性对齐，增强网络的表征能力。

附图说明

图1为本发明流程图；

图2为本发明网络结构图；

图3为属性定位模块注意力机制可视化图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于动态特征抽取和属性修正的零样本分类方法，包括以下步骤：

S1、获取视觉样本x、语义特征α；

S2、构建基于动态特征抽取和属性修正的零样本学习网络；

步骤S3的具体实现方式如下：

步骤S3-1的具体实现方式如下：

表示数据的形状；

S3-1-2、根据公式：

S3-1-3、根据公式：

得到视觉样本的全局特征u_G；其中；

i'表示特征图的高度；j'表示特征图的宽度。

步骤S3-2的具体实现方式如下：

根据公式：

步骤S3-3的具体实现方式如下：

S3-3-1、根据公式：

S3-3-2、根据公式：

得到属性修正值

和视觉样本特征ψ(x)。

步骤S3-4的具体实现方式如下：

根据公式：

表示第m类的语义特征中第n维对应的值，n＝1,2,...,K；

表示

的第n维对应的值。

步骤S3-5的具体实现方式如下：

S3-5-1、根据公式：

得到分类损失

和距离损失

其中，N_B表示每一轮学***方；

是可见类；α_q是可见类中第q个类的语义特征；

S3-5-2、根据公式：

即最终的损失函数。

如图2所示，基于动态特征抽取和属性修正的零样本学习网络包括特征抽取主干网络、属性定位网络、属性修正网络、尺度控制单元和损失值计算模块；

如图3所示，SUN表示的是场景理解数据集，CUB表示的是细粒度鸟类分类数据集。可以看出，模型对于局部特征的定位十分准确，例如，对于鸟类的身体不同部位的定位以及在复杂场景下对于静水，围栏的定位。除此之外，模型对于需要内容理解的复杂属性，例如，SUN数据集中的开放场地，模型对整张图片都赋予了较高的注意力权重值，这是符合开放场地的定义的。

在本发明的一个实施例中，softmax函数将每个通道上的特征图的像素值归一化到0-1之间，以此来表示注意力权重，值高的像素代表更高的重要性。全局最大池化可以被认为是注意力机制的一个特殊表现形式，也就是只有一个像素点的权重为1，其他像素点权重为0。基于动态特征抽取和属性修正的零样本学***均池化将每个属性在图上的特征综合起来获得图片对于该属性是属于全局属性还是局部属性的评判分数，最后用sigmoid函数将该分数归一化到0-1之间。分类损失

使属性定位模块抽取出来的视觉样本特征和通过属性修正模块修正之后的语义特征在余弦相似度上拉近，这是整体语义级别的对齐；距离损失

直接要求样本特征和修正语义在每一个维度上相同，这是要求抽取得到的样本特征在每一维度上都和修正语义相同，这是属性级别的对齐。

在定量分析上，本发明相较于现有技术，获得了更高的测试集预测准确率，如表1所示。

表1

零样本学***均数H，通常调和平均数越高表示算法的综合性能越好。通过表1可以看出，本发明在准确率的调和平均数上相较于现有技术有较大的提升，这证明了本发明的优越性。

在定性分析上，通过注意力机制的可视化分析，可以说明本发明在抽取属性特征这一关键任务上获得了不错的效果。

本发明对语义的属性进行分类，设计了一套全面的属性特征抽取方法。对于那些基于低级纹理的属性，仍然保留基于注意力机制的局部特征抽取，对于那些基于内容理解的高级抽象属性，采用视觉样本的全局特征作为其特征表达。将局部特征和全局特征进行特征融合，以门控单元为权重，调节两种特征的属性占比，最终实现对视觉样本特征的抽取。提出属性修正概念，设计了一个属性修正模块对属性值进行修改，让属性的值更加逼近视觉样本的真实表达。将视觉样本提取的特征和该修正后的属性对齐，增强网络的表征能力。