CN110929624A

CN110929624A - 一种基于正交损失函数的多任务分类网络的构建方法

Info

Publication number: CN110929624A
Application number: CN201911124037.4A
Authority: CN
Inventors: 何贵青; 敖振; 霍胤丞; 纪佳琪
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-27
Anticipated expiration: 2039-11-18
Also published as: CN110929624B

Abstract

本发明提供了一种基于正交损失函数的多任务分类网络的构建方法，构建的多任务分类网络模拟了人类学习过程，用深度卷积神经网络作为隐藏层模拟人的大脑进行深度特征提取，使用树分类器作为任务相关的输出层进行递进式分类，将识别过程构成不同的学习任务。本发明使不同任务得到的特征更加符合各自的需求，使分类器在完成粗分类任务时使同一粗类的深度特征更加聚合，而在完成细分类任务时，不同细类的深度特征更加离散，对不同分类任务的任务输出层特征进行区分，使得不同层级的分类器得到更加匹配不同分类任务的特征，去掉无用特征，从而提高分类准确率。

Description

一种基于正交损失函数的多任务分类网络的构建方法

技术领域

本发明涉及图像分类领域，尤其涉及一种多任务分类构建方法。

背景技术

近年来，拍照识图越来越广泛应用于野外探索和日常生活中。这得益于深度学习的发展。当前在特征提取表现最好的工具便是深度卷积神经网络。正如大家所知，深度卷积神经网络不仅可以在浅层提取边缘信息，并且随着层数的加深特征的语义信息会越来越抽象，所得到的特征也更加接近人类的认知行为。

随后，多任务分类网络也逐渐进入了人们的视线。多任务分类网络不同任务之间相互辅助，同一个网络的不同任务同时训练，并且每个不同的任务有各自独立的损失函数。仿照人类学习经验，在识别大千世界成千上万个目标的时候，是一个循序渐进，由易到难的过程。在孩童时期，人类只能识别出所有目标的粗分类，例如，鸟类、汽车、植物。随着大脑***的成熟，可能在学习或生活过程中，接触到的种类会逐渐细化，例如，鸟类有鹦鹉、麻雀等，汽车里有bus或者轿车。多任务网络将识别粗类看做第一层级任务，在这一级任务下又有很多识别细类的子任务。因此，早期在完成识别粗类的任务中学到的知识，也可以使用到识别细类这个新任务中。

但是人类大脑中进行分类的结构往往没有想象中的简单，在利用多任务分类网络进行多任务分类时，由于隐藏层参数利用多任务的各个损失函数共同学习，所以提取的特征同时也是用于多分类任务复用的。但是对于不同的分类任务，它们所需要的特征并不完全一致。例如在进行粗分类时，方向盘和轮子的信息会帮助网络有效地将目标识别到汽车这一类别。但是在进行细分类时，这些共有特征可能会更偏向于将SUV和面包车分到同一类别，而识别细类的任务却是将这两个类别分开，因此期望网络能更加关注它们的特有特征，例如外观、形状。但是由于隐藏层参数共享，提取到的特征存在交叉，所以，多任务分类网络在执行不同的分类任务的过程中缺少了对提取出的共有特征和特有特征进行区分。

发明内容

为了克服现有技术的不足，本发明提供一种基于正交损失函数的多任务分类网络的构建方法。本发明通过在多任务分类网络模型下提出了一种正交损失函数来对共有特征和特有特征进行区分，该损失函数利用特征的空间相似度进行损失度量，使每个分类任务得到的特征更加符合各自分类任务的需求，提高特征的可分性，有效地抑制了无用特征对分类任务的干扰。本发明所构建的多任务分类网络模拟了人类学习过程，用深度卷积神经网络作为隐藏层模拟人的大脑进行深度特征提取，使用树分类器作为任务相关的输出层进行递进式分类，将从难倒易、相互关联的识别过程构成不同的学习任务。其中正交损失函数在反向传播时可以指导多任务分类网络对树分类器不同层级的特征进行区分，使网络在参数更新的过程中，根据不同任务需求，学习更加符合各自任务的特征。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤一：构建层级标签树

层级标签树的结构分为两层，第一层标签为图像的粗类标签，根据图像所属物种划分，第二层标签为图像的细类标签，根据图像属于哪一物种的子类进行定义；

步骤二：搭建深度卷积神经网络作为特征提取模块；

选择深度卷积神经网络为具有残差结构的Resnet-18提取图像深度特征，包含18层网络结构，其中包括17个卷积层和一个全连接层。除去第一个卷积层使用7*7的卷积核外，其余的卷积层均使用3*3的卷积核，其中每两个卷积层构成一个残差块，加入恒等映射，网络要求输入维度为3*224*224的图像RGB三维像素值，经过17个卷积层的运算后得到特征向量输出维度为512*7*7，特征向量输入到全连接层输出维度设为1024，因此，图像经过Resnet-18得到一个包含1024个神经元的一维向量，即为深度卷积神经网络提取的深度特征；

步骤三：搭建树分类器进行分类；

根据步骤一中各数据库的层级标签树构建对应的树分类器，树分类器的结构为两层，第一层包含一个粗分类器，用于粗分类任务；第二层包含N个细分类器，用于细分类任务，子分类器包括一个粗分类器和N个细分类器，子分类器有相同的网络结构，且相互独立，每个子分类器都包括两个全连接层和一个softmax分类器，每一个子分类器得到一个分类结果；将步骤二得到的深度特征输入到每一个子分类器中进行分类，其中粗分类器首先得到图像属于第n个粗类，根据粗分类器的分类结果和层级标签树定义的从属关系，选择第n个细分类器进行细分类得到图像属于哪一细类；至此，包含深度卷积神经网络和树分类器的多任务网络搭建完毕，当将一张图像输入多任务网络中即可进行图像分类，得到图像分类结果；

步骤四：构造正交损失函数

将深度卷积神经网络和树分类器进行结合，搭建好多任务分类网络后，输入训练集图像来训练多任务网络，需要构建损失函数来进行参数更新；

首先构造正交损失函数进行参数更新，采用正交损失所实现的期望结果为粗分类器特征向量和细分类器特征向量在空间上正交，使得在理想状态下交叉特征向量为0，将特征选择要完成的目标加入损失函数中提出了一种正交损失，构造正交损失函数公式如下：

其中x为输入N张图像的像素值，k代表粗类的个数，f₁，f₂，......，f_k代表k个细分类任务，Tr代表求矩阵的迹，T代表矩阵转置，f_g(x)代表得到的N张图像的粗分类器特征，f_s(x)代表N张图像的细分类器特征，

的迹代表N张图像的粗分类器特征和细分类器特征对应求内积再相加求和，当

等于0时，表示粗分类器特征和细分类器特征每一行向量都正交，α为超参数；

输入训练集图像来训练多任务网络时，利用正交损失函数进行反向传播，通过更新参数，降低正交损失函数的值；当正交损失函数无限趋近于0时，f_g(x)和f_s(x)趋于正交；

步骤五：构造分类损失函数；

在将f_g(x)和f_s(x)传输到下一层全连接层和softmax分类器中进行分类时，经过softmax分类器将多个神经元的输出映射到(0，1)区间内，分别得到粗分类预测值和细分类预测值，而后利用交叉熵损失函数度量预测值和真实标签值之间的误差，交叉熵损失函数公式如下：

其中g代表粗类，s代表细类，X代表输入图像经过步骤二得到的深度特征，Wg和Ws分别代表粗分类器和细分类器中的权重值，b_s和b_g分别代表粗分类器和细分类器中的偏置，当交叉熵损失函数无限接近于0时，预测值无限接近真实值；

步骤六：将步骤四的正交损失函数和步骤五的交叉熵损失函相加，通过反向传播用于网络参数的更新，反向传播使用SGD优化器，通过随机梯度下降法利用训练集图像不断更新参数，每一轮训练都加入测试集进行测试。

本发明的有益效果为通过在多任务分类网络模型下提出了一种正交损失函数进行共有特征和特有特征的区分，可以使不同任务得到的特征更加符合各自的需求，使分类器在完成粗分类任务时使同一粗类的深度特征更加聚合，而在完成细分类任务时，不同细类的深度特征更加离散。并且本发明选取不同的阈值作为衡量正交损失和交叉熵损失平衡点，并且通过实验对比来找到阈值的最优解。在取得阈值最优解后，加入正交损失函数来更新网络参数，从而对不同分类任务的任务输出层特征进行区分，使得不同层级的分类器得到更加匹配不同分类任务的特征，去掉无用特征，从而提高分类准确率。本发明在两个不同的数据库上均取得了更优的分类效果。

附图说明

图1为本发明中Fashion-60数据库层级标签树的构造图。

图2为本发明中Caltech-UCSD Birds-200-2011数据库层级标签树的构造图。

图3为本发明中正交损失函数在三维空间对特征进行选择的示意图。

图4为本发明中多任务分类网络的整体结构示意图。

图5为本发明中加入正交损失函数的多任务分类网络实现方法示意图。

图6为本发明中对于Fashion-60不同阈值下网络识别准确率柱状示意图。

图7为本发明中对于Caltech-UCSD Birds-200-2011不同阈值下网络识别准确率柱状示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

步骤一：构建层级标签树；

因为属于同一种族的物种之间有视觉相似性，因此对于不同的数据库利用自然学中物种之间的从属关系构造层级标签树。层级标签树的结构分为两层，第一层标签为图像的粗类标签，根据图像所属物种划分，第二层标签为图像的细类标签，根据图像属于哪一物种的子类进行定义。标签树的枝代表从属关系。Caltech-UCSD Birds-200-2011是一个鸟类数据库，构造方法是通过查阅百科知识，根据鸟类物种的科属划分粗类。比如，将蜂鸟认定为鸟类的一个粗属类，此为样本的一级标签。而在这个粗属下有包含很多不同类型的蜂鸟作为细类，此为样本的二级标签，也就是原始数据库标签。而两级样本之间的从属关系作为标签树的枝来定义两者之间的关联，构造具体结构如图1所示。同理，对于Fashion-60数据库，包含60种服装配饰类别。构造方法是参照常识将各个按照其功能划分为5种服饰品类作为粗类。比如将鞋子认定为该数据库的一个粗属类，作为层级标签树的一级标签。鞋子下包含的拖鞋和皮靴等作为细类为二级标签,同样把这种从属关系作为标签树的枝，构造具体结果如图2所示；

步骤二：搭建深度卷积神经网络作为特征提取模块

选择深度卷积神经网络为具有残差结构的Resnet-18提取图像深度特征，包含18层网络结构，其中包括17个卷积层和一个全连接层。除去第一个卷积层使用7*7的卷积核外，其余的卷积层均使用3*3的卷积核，其中每两个卷积层构成一个残差块，加入恒等映射，该网络要求输入维度为3*224*224的图像RGB三维像素值，经过17个卷积层的运算后得到特征向量输出维度为512*7*7，特征向量输入到全连接层输出维度设为1024，因此，图像经过Resnet-18得到一个包含1024个神经元的一维向量即为深度卷积神经网络提取的深度特征。

步骤三：搭建树分类器进行分类

根据步骤一中各数据库的层级标签树构建对应的树分类器，树分类器的结构为两层，第一层包含一个粗分类器，用于粗分类任务；第二层包含N个细分类器(假设有N个粗类)，用于细分类任务，子分类器(一个粗分类器和N个细分类器)有相同的网络结构，且相互独立，每个子分类器都包括两个全连接层和一个softmax分类器，每一个子分类器得到一个分类结果；将步骤二得到的深度特征输入到每一个子分类器中进行分类，其中粗分类器首先得到图像属于第n个粗类，根据粗分类器的分类结果和层级标签树定义的从属关系，选择第n个细分类器进行细分类得到图像属于哪一细类；至此，包含深度卷积神经网络和树分类器的多任务网络搭建完毕，如图5所示；当将一张图像输入多任务网络中即可进行图像分类，得到图像分类结果；

步骤四：构造正交损失函数

首先构造正交损失函数进行参数更新，实现特征选择的目的，采用正交损失所实现的期望结果为粗分类器特征向量和细分类器特征向量在空间上正交，使得在理想状态下交叉特征向量为0，如图3所示。本发明将特征选择要完成的目标加入损失函数中提出了一种正交损失，构造公式如下：

其中x为输入N张图像的像素值，k代表粗类的个数，f₁，f₂，......，f_k代表k个细分类任务(图4中只画出一个细分类器结构)，Tr代表求矩阵的迹，T代表矩阵转置，f_g(x)代表得到的N张图像的粗分类器特征，f_s(x)代表N张图像的细分类器特征，

等于0时，表示粗分类器特征和细分类器特征每一行向量都正交，α为超参数(鸟类数据库最优值为2，Fashion-60数据库最优值为2.5)，α的大小代表在反向传播的过程中正交损失对整个网络参数的影响力大小。

输入训练集图像来训练多任务网络时，利用正交损失函数进行反向传播，通过更新参数，降低正交损失函数的值；当正交损失函数无限趋近于0时，f_g(x)和f_s(x)趋于正交。作用位置如图4所示。

步骤五：构造分类损失函数

在将f_g(x)和f_s(x)传输到下一层全连接层和softmax分类器中进行分类时，经过softmax分类器将多个神经元的输出映射到(0，1)区间内，分别得到粗分类预测值和细分类预测值，而后利用交叉熵损失函数度量预测值和真实标签值之间的误差，公式如下：

其中g代表粗类，s代表细类，X代表输入图像经过步骤二得到的深度特征，Wg和Ws分别代表粗分类器和细分类器中的权重值，b_s和b_g分别代表粗分类器和细分类器中的偏置，当交叉熵损失函数无限接近于0时，预测值无限接近真实值。作用位置如图4所示；

本发明使用Resnet网络作为隐藏层用于特征提取，再将特征传递给树分类器用于多任务分类。虽然多任务分类网络有效解决了类间相似性对网络的干扰，但是也存在一些不足。在进行多任务分类时，各分类任务所需要的特征是不同的，但由于该模型中的各个任务在进行特征提取时参数共享，提取到各任务所需要的特征是混淆在一起的，因此针对非自身任务所需的冗余特征很有可能对分类器的识别性能造成干扰。所以本发明提出正交损失函数用于多任务分类网络，通过对树分类器中不同层级的分类器的深度特征进行空间距离的度量来实现特征选择，使每层分类器得到的特征更加符合各自分类任务的需求，解决现有模型的不足。

根据图3所示，本实施例提出了基于正交损失函数的多任务分类网络函数，包括以下四部分：(1)利用物种之间的从属关系组织大量图片标签，构造出完整的层级标签数；(2)使用深度卷积神经网络来提取不同图片的深度特征，使得网络提取到的深度特征可以同时用于多任务分类器；(3)利用树分类器替代掉传统的N-way softmax分类器，实现多任务分类。(4)构造正交损失函数度量不同层次分类器的深度特征，通过加大共有特征和特有特征之间的空间距离，删除交叉特征，使两类特征得到区分。

与传统的深度学习网络模型相比本实例模型有两大优势：首先，本实例利用物种之间的从属关系构造层级标签树从而实现多任务分类，关注到类别间的区分度是不同的，并且通过构造难度层层递进分类任务，使得各层级任务之间相互辅助，帮助误差梯度分配更加均匀；其次，本实例构造的正交损失函数，对深度卷积神经网络提取出的深度特征进行了区分，正交损失度量了粗分类器特征和细分类器特征之间的空间距离，并通过网络参数的自动更新来加大其空间距离，从而降低交叉特征在分类任务中的比例，提高模型对图像识别的精度。在本实例中，通过设置不同的阈值来控制反向传播的过程中正交损失对整个网络参数的影响力，以此进行实验来验证该正交损失函数在特征选择方面的优势。显然，在加入正交损失函数后的多任务网络，得到的特征更符合各分类任务的要求，提高了网络识别精度。

为了定量评价正交损失函数用于多任务分类网络的作用，本实施实例首先选用Fashion-60来评估了正交损失函数的作用，该数据库具有60个服饰细类，和依据生活常识划分成的10个服饰的品类作为粗类。本实施实例将从两方面来进行评估：(1)通过对阈值α的大小的调整来改变在反向传播的过程中正交损失函数对整个网络参数的影响力，评估如何达到正交损失和交叉熵损失的平衡。(2)在多任务分类网络中使用了正交损失函数进行参数更新，评估是否比传统的多任务分类网络结构表现更加良好的性能；本实施实例的网络结构中CNN使用Resnet进行特征提取，共有18层。

在实验过程中，网络对阈值α有不同的设定，以此来选择合适的α进行训练。因此，本实施实例从0.0001～6中选择了14个不同的α值。实验结果如图4所示。从图中可以看出，当α为2.5时，网络性能最佳。当影响因子较小时，正交性损失函数对网络的影响不明显。当该值逐渐增加时，网络的性能将逐渐降低，这表明当该值太大时，正交性损失函数的作用将增加，这会影响网络的原始性能并起到负面作用。因此，选择α＝2.5来训练网络并将其与基准网络进行比较。

表一：各网络的分类正确率

从表一中可以看出，与传统的深度卷积神经网络和无正交损失的多任务网络相比，基于正交损失的多任务网络进行分类时正确率明显优于其他两种类型的网络。结果证明，本发明提出的正交性损失函数有效地完成了特征选择，使得在多任务网络中获得的特征更符合任务要求。

同样，本实施实例从0.0001～6中选择14个不同的α值用于评价Caltech-UCSDBirds-200-2011数据库结果。实验结果如图5所示。从图中可以看出，当α为2时，网络性能最佳。当影响因子α小时，正交性损失函数对于网络不稳定。并且当该值逐渐增加到一定范围之外时，网络性能将逐渐下降。与Fashion-60上的实验结果相比，α的最佳值不同，但是对于两种类型的数据库，α对网络性能的总体趋势都是相同的。进一步的实验结果表明，在不同的数据库中，α的值可能不同，但是α值对网络性能的影响是规律的。因此，对于α的值，太小不能起作用，而太大的值将起反作用。因此取中间值时才能找到正交损失和softmax损失之间的平衡点。

表二：各网络的分类正确率

Methods	Basic architecture	Fine-classes	Coarse-classes
				CNN	Alexnet	67.683％	--
CNN	VGG-19	68.816％	--
				CNN	Resnet-18	70.094％	--
Multi-task network	Resnet-18+tree classifier(baseline)	72.491％	96.303％
				Multi-task network	Resnet-18+tree classifier+Orthogonality Loss	73.399％	96.842％

从表二的数据可以看出，在Caltech-UCSD Birds-200-2011上，基于正交损失的多任务网络同样明显优于其他两种类型的网络。这进一步证明了本发明提出的正交性损失函数有效地完成了特征选择，使得在多任务网络中获得的特征更具区分性。

通过在多任务分类网络模型下提出了一种正交损失函数进行共有特征和特有特征的区分，可以使不同任务得到的特征更加符合各自的需求，使分类器在完成粗分类任务时使同一粗类特征更加聚合，而在完成细分类任务时，不同细类特征更加离散。并且本发明方法选取不同的阈值作为衡量正交损失和交叉熵损失平衡点，并且通过实验对比来找到阈值的最优解。在取得阈值最优解后，加入正交损失函数来更新网络参数，从而对不同分类任务的任务输出层特征进行区分，使得不同层级的分类器得到更加匹配不同分类任务的特征，去掉无用特征，从而提高分类准确率。本发明在两个不同的数据库上均取得了更优的分类效果。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于正交损失函数的多任务分类网络的构建方法，其特征在于包括下述步骤：

步骤一：构建层级标签树；

步骤二：搭建深度卷积神经网络作为特征提取模块；

选择深度卷积神经网络为具有残差结构的Resnet-18提取图像深度特征，包含18层网络结构，其中包括17个卷积层和一个全连接层；除去第一个卷积层使用7*7的卷积核外，其余的卷积层均使用3*3的卷积核，其中每两个卷积层构成一个残差块，加入恒等映射，网络要求输入维度为3*224*224的图像RGB三维像素值，经过17个卷积层的运算后得到特征向量输出维度为512*7*7，特征向量输入到全连接层输出维度设为1024，因此，图像经过Resnet-18得到一个包含1024个神经元的一维向量，即为深度卷积神经网络提取的深度特征；

步骤三：搭建树分类器进行分类；

步骤四：构造正交损失函数

步骤五：构造分类损失函数；

在将f_g(x)和f_s(x)传输到下一层全连接层和softmax分类器中进行分类时，经过softmax分类器将多个神经元的输出映射到(0,1)区间内，分别得到粗分类预测值和细分类预测值，而后利用交叉熵损失函数度量预测值和真实标签值之间的误差，交叉熵损失函数公式如下：