CN108399421B

CN108399421B - 一种基于词嵌入的深度零样本分类方法

Info

Publication number: CN108399421B
Application number: CN201810095061.9A
Authority: CN
Inventors: 秦牧轩; 荆晓远; 吴飞; 孙莹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2022-04-01
Anticipated expiration: 2038-01-31
Also published as: CN108399421A

Abstract

本发明公开了一种基于词嵌入的深度零样本分类方法，在学习阶段未出现的类别，依然可以在预测阶段被识别。本发明提出了基于词嵌入和深度特征提取的零样本图像学习模型，该方法通过强大的深度神经网络学习一个图像特征和语义特征联合嵌入的子空间，利用词向量的语义能力，达到图像的零样本学习目的。本发明不仅提出了深度学习方法与零样本学习结合的模型，同时还针对其结合部分嵌入空间做了大量改进，为图像零样本，亦或者其他模态的零样本学习提供参考和指导，克服传统零样本学习中样本属性定义不明确、人工特征提取等等缺点。本发明广泛用于端到端的类别预测任务中，特别适合训练样本不足甚至是缺少某一类训练样本的类别预测任务。

Description

一种基于词嵌入的深度零样本分类方法

技术领域

本发明涉及模式识别技术领域，特别是一种基于词嵌入的深度零样本分类方法。

背景技术

零样本学习(ZSL)模型是一种特殊的机器学习问题，属于迁移学习的极端情况，即在训练样本中缺失某几类样本或者训练数据集中从未存在某几类样本，然而实际情况需要我们依然能够在测试任务中识别出这些训练集缺失的类别样本。零样本学习在各种实际生活中有大量的应用，最主要的应用就是针对数据不够多的情况下使用，如何有效的提高零样本学习效率具有十分重要意义。

由于训练集样本的缺失，传统机器学习方法无法完成零样本学习任务，研究者们提出一种全部类别共同映射的中间层特征空间，建立一种训练类别信息与测试类别信息的连接空间，将原本使用类别信息分类能力转化到该中间层，摆脱了必须使用类别信息分类的限制。目前主要的技术手段是选择属性空间作为中间层特征空间。

属性空间是人为的定义的特征空间，如“形状”“纹理”“是否含有某个属性”，这些可以描述类别的语义特性，属性作为不同类别共享的中间层语义特征，不仅可以弥补底层的视觉特征和高层的类别特征之间的语义鸿沟，还可是通过不同属性的组合，学习到新的类别。但是基于属性的零样本学习有着本质的缺点，各个类别的属性是需要人为设定的，分类效果好坏与否取决于人为的属性选择的好坏，不同种类的图像分类需要不同领域的专业人士来做属性标定，然后才能实现分类，并不是一种端到端的实现方法。而且人为的设定属性会消耗人力物力，效率不高。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于词嵌入的深度零样本分类方法，利用文本数据集易获取的优势和词向量语义推理特性，用词向量替代属性，解决了人为属性标定环节，实现图像的零样本学习。本发明不仅能挖掘视觉和文本模态之间的联系和分类信息，还使用了强大的深度神经网络建立了输入图像直接输出类别的端到端过程。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于词嵌入的深度零样本分类方法，包括以下步骤：

步骤1，输入图像训练集

x_i表示图像训练集的第i张图片，1≤i≤n₁，n₁为图像训练集图片数量，训练卷积神经网络，得到卷积神经网络参数θ_x；

步骤2，输入文本训练集

y_j表示文本训练集的第j个单词，1≤j≤n₂，n₂为文本训练集单词数量，且n₂>n₁，训练文本神经网络，得到文本神经网络参数θ_y；

步骤3，改变步骤1和步骤2的网络结构，去掉卷积神经网络和文本神经网络的顶层，各自新增一个全连接层：图像特征映射层和文本特征映射层，使卷积神经网络和文本神经网络在顶层相互连接，建立公共子空间；再次输入图像和文本训练集，通过如下损失函数L训练两者的映射层参数W_x和W_y：

其中，F_i和G_j分别表示第i张图片和第j个单词的特征，W_x和W_y为图像特征映射层参数和文本特征映射层参数，

为

和

的内积，

和

分别表示图像和单词经过映射后的公共子空间特征，sigmoid(*)为激活函数,上标T表示转置，S_ij为相似矩阵，当x_i和y_j为同一种类别时S_ij值为1，否则为0；γ和η是超参数，

为F范数，e为自然底数；

步骤4，通过随机梯度下降算法SGD交替迭代优化步骤3的损失函数L，使其最小；计算

和

并通过反向传播算法的链式法则来更新W_x、θ_x、W_y和θ_y；

步骤5，将测试图像x_q输入到神经网络中得到测试图片的公共子空间特征

在该空间中使用最近邻分类器直接判断测试图像类别cq；

其中，c为任意文本类别，

是任意文本的特征，D(·)是求其欧几里得距离函数。

作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案，步骤1和步骤2中，输入图像训练集的样本为二维图像矩阵，输入文本训练集的样本为词袋向量。

作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案，步骤3中学习过程是一个优化问题，目的优化两个神经网络的权重参数θ_x和θ_y以及学习两个空间映射参数W_x和W_y的最优值。

作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案，步骤4中所述交替迭代优化步骤3的损失函数L，具体如下：

1)固定文本神经网络参数，优化卷积神经网络参数，

2)固定卷积神经网络参数，优化文本神经网络参数。

作为本发明所述的一种基于词嵌入的深度零样本分类方法进一步优化方案，步骤5中判断测试图像类别具体如下：

1)针对训练集中已存在的类别图像：在公共子空间中，与测试图像欧式距离最近的样本类别即为判定类别；

2)针对训练集中不存在的类别图像：文本训练集含有一些新的类别，这些类别的特征并不是独立的，而是与已有类别存在相关性，依据步骤4学习到的映射参数W_x和W_y，测试图像被判定为新的类别；

测试阶段将测试图像的特征与混合原有类别和新的类别的特征中做最近邻分类，输出其类别。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明创造性的将深度神经网络特征提取应用在零样本学习中，在此基础上设计了一种有效的基于语义的词嵌入方法，通过结合两个模态各自不同的特点，并学习模态映射关系，提出适用零样本分类的图像识别方法；

(2)本发明方法属于多模态学习方法，通过引入语义模态，来解决视觉模态上的零样本问题，最大化模态数据之间的语义相关性，挖掘不同模态之间的语义信息；

(3)本发明属于一种端到端的学习方法，相比传统机器学习算法和属性学习模型，深度神经网络和词嵌入模型具有自动的无需人为参与的特性，大大提高效率和人为干扰因素。

附图说明

图1是本发明的方法流程图。

图2是本发明实施例的基于词嵌入的图像零样本学习模型。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明提供一种基于词嵌入模型的深度零样本图像学习算法，通过结合文本特征，实现图像特征的零样本分类，包括如下步骤：

步骤1，输入图像训练集

步骤2，输入文本训练集

为

和

的内积，

和

为F范数，e为自然底数；

和

并通过反向传播算法的链式法则来更新W_x、θ_x、W_y和θ_y；

在该空间中使用最近邻分类器直接判断测试图像类别c_q；

其中，c为任意文本类别，

是任意文本的特征，D(·)是求其欧几里得距离函数。

本实施例的模型结构如图2所示，具体实施过程如图1所示。

步骤1，输入图像训练集

n₁为图像训练集图片数量，其中x_i表示输入图像，一共n₁张c₁种不同类别的图像。训练卷积神经网络，得到卷积神经网络参数。其中卷积神经网络输入层是227*227的三通道图像像素矩阵x_i，中间层如表1和表2所示；

表1：神经网络的卷积层数据

卷积层	卷积核数量	卷积核大小	图像扩张	卷积核间隔	池化
						Conv1	96	11	4个像素	1	Max
Conv2	256	5	无	2	Max
						Conv3	384	3	无	1	无
Conv4	384	3	无	1	无
						Conv5	256	3	无	1	Max

其中在卷积之后使用如下激活函数：

a为上一层卷积后的参数，输出作为下一层的输入。该激活函数可以保证单侧抑制性和稀疏激活性。

表2：神经网络的全连接层数据

全连接层	输出神经元个数
		Fc6	4096
Fc7	4096
		Fc8	c1

同样在fc6和fc7层之后会有激活函数和drop函数。其中fc8层为预测标签层，维度与图像训练集的类别数c₁相等，大小为c₁维的特征向量，每一位对应一个类别，与真实的类别计算softmax损失函数，得到卷积神经网络的参数θ_x。

在本发明的卷积神经网络模型中，fc8层特征只作用与单独视觉模态的学习，在图像特征映射层使用的是fc7层的特征，相较于fc8层，fc7层特征能好的表达图像层级的特征。

步骤2，使用***上面570万文本(约54亿单词)来训练三层神经网络，输入文本训练集

n₂为文本训练集单词数量，并且n₂>n₁，其中y_i为代表单词的词袋向量，文本训练集的类别数量为c₂，不同于图像，同一类别的单词是唯一的，所以种类数量c₂等于单词数量n₂。注意到文本训练集种类数量是远远大于图像训练集种类数量，c₂＞＞c₁。

文本特征的训练使用skip-gram模型，输入为一个单词，输出为与该单词大概率一同出现的单词，对于一个句子：“波斯猫是一种可爱的宠物”，假设输入为“波斯猫”，输出即为“可爱”“一种”“宠物”这些词语。Skip-gram模式是一种一对多的模型，这种一对多的模型实际上也可以理解为输入为类别，输出为对应的属性，所以学习中的表征具有学习输入类别的语义的能力，以上述句子为例，“波斯猫”具有“可爱”“宠物”这些属性，而且通过“一种”这个数量词可以了解的其也是一个具体的“类别”。

同时使用skip-gram模型具有学习到逻辑推理的功能，比如同义词，对于另一个句子“加菲猫也是一种可爱的宠物”，由于输出和“波斯猫”相当接近，所以学习到的“加菲猫”文本特征和“波斯猫”文本特征也是近似相等的，实际上是由于“加菲猫”和“波斯猫”具有相同的猫的属性，当然，训练样本中必然有描述“加菲猫”特有的而“波斯猫”没有的属性，所以这两个类别的文本特征只是相似而不相等。

对于基于神经网络的skip-gram模型，输入是代表各个单词的One-hot编码的词袋向量y_i，One-hot编码向量基于上述***的大量文本构件的词袋(Bag of Word)，其维度等于去重后的单词总数，即文本训练集类别数量c₂，约为15500。

y定义如下：

其中y^(c)表示向量y的第c位，c′为向量表示的类别标签。y^(c)值为1表示该向量含有对应标签的单词，值为0的位表示不含有对应标签的单词。

输入层经过隐层到达第三层，第三层实际上是一个softmax损失层，作用同图像模快的神经网络最后一层一样，优化softmax得到文本神经网络的参数θ_y。通过比较100维到2000维的隐层权重分类效果，本发明选择将隐层权重大小设置为512维最为合适。

步骤3，改变网络结构。在文本模块的最后一层，去除原来的输出层，添加一个全连接层，将隐层的特征通过映射层映射到特征子空间中，在图像特征空间中，去除原来的输出层，添加一个全连接层，将fc7层的特征通过映射层映射到特征子空间中，联合损失函数为：

其中，F_i＝f(x_i；θ_x)和G_j＝g(y_j；θ_y)分别表示第i张图片和第j个单词的特征，x_i表示图像训练集的第i张图片，y_j表示文本训练集的第j个单词，θ_x和θ_y分别是步骤1和步骤2得到的神经网络参数。

分别表示图像和单词经过映射后的公共子空间特征，W_x和W_y为图像特征映射层参数和文本特征映射层参数，sigmoid(*)为激活函数。

为

和

的内积，上标T表示转置，S_ij为相似矩阵，当图像x_i和单词y_j为同一种类别时S_ij值为1，否则为0。γ和η是超参数。

为F范数，e为自然底数，n₁为图像训练集图片数量；

上式的第一项

是跨模态相似性的负对数似然函数，其概率函数定义如下：

其中

并且

为相似的概率定义，可将Θ_ij大小转化为0到1之间概率。当S_ij＝1时

和

的相似度(内积)较大，而当S_ij＝0时相似度(内积)较小，通过计算

和

的相似度最小化上述的负对数似然函数就等价于最大化其概率。因此，优化损失函数L的第一项可以保证映射后的图像特征

和文本特征

直接的跨模态相似度。

通过优化上式的第二项

我们可以认为，在子空间中，映射后的图像H^(x)＝sigmoid(W_xF)和文本特征H^(y)＝sigmoid(W_yG)的欧几里得距离是相近的，即同一个类别的

和

是最近邻的。

第三项

是正则项，保证学习过程中参数不要过大。

步骤4，联合训练阶段，通过随机梯度下降算法(SGD)交替迭代优化学习步骤3的特征子空间，分为2个子步骤：

1)固定θ_y和W_y，优化θ_x和W_x

当θ_y和W_y固定时，本发明使用一种微调的技术(fine-tuning)在原来单独图像模态的CNN参数θ_x上调优，通过固定θ_x前5层的参数，对第6和第7层参数进行微调，学习率降低10倍学习。对第6和第7层，学习算法同反向传播算法(BP)一致，使用随机梯度下降(SGD)来学习θ_x。在每次迭代中，本发明取训练集中的一部分样本训练，然后执行上述学习算法。

对每个样本，计算其如下梯度：

然后，通过反向传播算法的链式法则计算

和

更新W_x和θ_x。

2)固定θ_x和W_x，优化θ_y和W_y

当θ_y和W_y固定时，本发明同样使用SGD的BP算法优化文本神经网络参数θ_y和文本特征映射层参数W_y，对每个样本，计算如下梯度：

然后，通过反向传播算法的链式法则计算

和

更新W_y和θ_y。

重复执行上述两个子步骤。

步骤5，利用训练好的的联合神经网络模型做测试样本的特征提取。

对于训练集里不存在的图像，本发明可以获得其图像特征并映射到联合空间中，在联合空间中通过一个最近邻分类器，识别该图像在概率上最大可能所属的类。特别的，给定一个图像x_q,通过前向传播获得其图像特征，再通过映射关系得到联合空间特征：

同样地，文本数据前向传播得到联合空间特征,给定文本y_q，通过前向传播获得其图像特征，再通过映射关系得到联合空间特征：

在联合特征空间中，使用最近邻分类器对图像特征分类，对于一个新的图像，可以有效的识别出新的类：

最终在AwA数据集上和CUB数据集上零样本预测效果如下表3所示

表3：

	AwA(seen)	AwA(unseen)	CuB(seen)	CuB(unseen)
					A	96.7	85.7	74.8	61.9
W	95.4	78.1	70.7	58.4

其中A表示是基于属性的零样本学习，W表示基于词嵌入的零样本学习，上表还对比了有样本学习(seen)和零样本学习(unseen)的结果。

从上述结果可知，运用本方法不仅可以有效的实现零样本学习，实现与非零样本学习的相近的分类效果，还能利用无监督的词嵌入模型达到有监督的属性模式效果。同时也是一种端到端的学习算法，适用性较好，可直接应用在数据采集不足的单样本或零样本学习或迁移学习任务中，易于实际工程应用。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。