CN109919177B

CN109919177B - 基于层次化深度网络的特征选择方法

Info

Publication number: CN109919177B
Application number: CN201910061009.6A
Authority: CN
Inventors: 何贵青; 吕裕; 纪佳琪
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2022-03-29
Anticipated expiration: 2039-01-23
Also published as: CN109919177A

Abstract

本发明提供了一种基于层次化深度网络的特征选择方法，一种对树分类器不同层次的深度特征进行选择性正交的特征选择算法，使每层分类器提取的特征更加符合各自分类任务的需求，提高特征的可分性，有效地抑制了类别间的相似性特征对网络图像识别能力的影响，并且在反向传播时利用知识图谱来指导网络对特征选择参数进行更新，使网络在粗略分类时更加关注“粗类”内各类别间的相似性，精细分类时更加关注各相似类别间的差异性。本发明提高了特征的有效性和可分性，提升整体网络结构的识别能力，提高了分类的准确率。本发明在各个数据集上均取得了更优的分类效果。

Description

基于层次化深度网络的特征选择方法

技术领域

本发明涉及图像识别领域，尤其是一种深度网络的特征选择方法。

背景技术

随着互联网时代的到来，数字图像的规模越来越大，图像数目不仅呈指数增长，图像类别也随之暴增。目前，基于深度学习的研究层出不穷，也表现出越来越良好的性能。但是，大规模图像分类仍旧是一个具有挑战性的问题。因此，针对大规模图像分类开发一种可泛化的新型算法来提高识别精度是十分有吸引力的。

目前，传统的深度卷积神经网络在图像识别领域取得了巨大的成就，是图像识别最有效的工具。原始的像素级特征对图像的几何变换和画质转变都非常敏感，十分不利于分类，因此需要对图像进行深度特征提取。在深度学***移旋转不变性，还可以降低特征维度。通过对这些操作的整体迭代，图像的特征能够逐层提取出来——从像素到边缘特征，再从局部特征迭代出整体的结构。随着网络层数的加深，特征的语义信息越来越抽象，提取出的特征也越来越接近于认知领域。不断优化的CNN框架虽然表现出了良好的性能，但传统的N-way softmax分类器在进行分类时会忽略掉类别间的相关性，而随着图像类别的增长，某些类别之间会存在很强的相关性，因此便使得类别之间的区分程度不同：例如，区分苹果和汽车要比区分苹果和梨子容易很多。综上所述,如果在进行图像识别时完全忽略掉类别之间的相关性是不合理的。然而在使用传统的N-way softmax分类器进行分类时，网络往往会考虑全局最优，无法顾及到较难区分的类别，无形之中会降低网络对图像识别的精度。所以，针对这一问题很多现有模型将图像类别间的相关性加入到网络的学习之中，借助图像类别间的相关性将大规模图像构建成分层的知识图谱，对图像类别进行归纳，将相似度高的类别组合成一类虚拟的“粗类”，而将图像真实类别称为“细类”，并且构建与知识图谱相对应的树分类器来进行大规模图像的识别与分类。随着图像数量和类别的增加，如果对于层次化分类器每一层的每一个分类器都整合一个CNN进行特征提取，计算复杂度就会呈线性增长。

发明内容

为了克服现有技术的不足，本发明提供一种通过在层次化深度网络模型下提出了一种对树分类器不同层次的深度特征进行选择性正交的特征选择算法，使每层分类器提取的特征更加符合各自分类任务的需求，提高特征的可分性，有效地抑制了类别间的相似性特征对网络图像识别能力的影响，并且在反向传播时利用知识图谱来指导网络对特征选择参数进行更新，使网络在粗略分类时更加关注“粗类”内各类别间的相似性，精细分类时更加关注各相似类别间的差异性。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤一：知识图谱的构建

针对不同的数据库构建知识图谱，先将数据库中的图片按照类间相似性进行划分，标注成若干个粗类，然后在粗类下进行精准划分，再次标注为若干个细类，形成一个两层结构的知识图谱，其中每个图片均有两个标签，即粗类标签和细类标签，并且每个图片被标注的细类均被包含在该图片被标注的粗类范围中；

步骤二：图像深度特征提取

利用CNN网络提取步骤一中每一张图片的深度特征，即先使用卷积层提取出图片边缘信息；利用非线性层的RELU函数模拟神经元对特征进行增强和抑制；池化层提取图片局部信息；

步骤三：树分类器的构建

根据步骤一中各数据库的知识图谱构建对应的树分类器，首先在树分类器的第一层设置一个粗分类器用于识别图片属于知识图谱中的粗类，然后在第二层对每一个粗类都设置一个细分类器用于识别图片属于知识图谱的细类，对于树分类器结构中的N+1个子分类器，每个子分类器均包含两个全连接层C1与C2和一个softmax分类器，将步骤二中提取到的深度特征传入到树分类器的各个子分类器中进行分类，当第一层分类器判断图片属于某一粗类，用属于该粗类下第二层细分类器判断图片属于哪一细类，即可识别出图像的类别；

步骤四：图像深度特征选择

针对树分类器不同层次分类任务的需求，将粗分类器提取的特征与细分类器提取特征进行选择性正交实现特征选择；选择性正交时，首先利用特征间的余弦相似度对特征进行筛选，并将筛选后的特征进行施密特正交变换，选择性正交后使得树分类器在进行细分类时的特征更加关注类间的差异性，而减小类间相似性的影响。

所述余弦相似度具体计算步骤如下：

对于树分类器的每个子分类器的C1层，各分类器共用一个CNN网络提取网络深度特征，因此输入是相同的，但各分类器的C1层不同，输出是不同的，全连接层输出为神经元，因此使用神经元对应的权重向量之间的余弦相似度来度量神经元之间的相似度，C1层的计算公式为：

Y_g＝W_g*X (1)

Y_s＝W_s*X (2)

其中，

Y_g为粗分类器C1层的输出，Y_s为细分类器C1层的输出，W_g为粗分类器C1层的权重向量，W_s为细分类器C1层的权重向量，由于输入向量X相同，求得W_g与W_s各个行向量[a_k1，a_k2，....，a_kn]和[b_k1，b_k2，....，b_kn]的余弦相似度，即可得到粗分类器输出的第k个神经元Y_g[k]和细分类器输出的第k个神经元Y_s[k]之间的相关性，其中k代表行数，余弦相似度cosθ的公式如下：

其中dot_product为W_g和W_s各个行向量的内积组成的列向量，包含各个向量本身的长度与余弦相似度信息；norm为W_s和W_g的各个行向量的长度乘积组成的列向量；.*代表矩阵对应点相乘；sum表示将向量中每一个行向量的向量点进行求和，求出的dot_product和norm都是一维列向量，i代表第i个向量值，则可得：

其中，θ_i表示粗分类器C1层与细分类器C1层得到的第i个神经元之间的相似度夹角，根据得到的夹角值的大小设置阈值θ′进行选择，其中，θ′为一个常数，将夹角大于θ′的神经元组合成特征向量，夹角小于θ′的神经元在原输出点不做任何改动；

所述施密特正交法进行特征正交的具体计算步骤为：

设定的阈值角为θ，第i个点的特征夹角为θ_i，有p个点的θ_i大于θ，将θ_i所对应的p个Y_g[i]与p个Y_s[i]构成两个p维列向量α和β，其中α是粗分类器上的特征，β是细分类器的特征，α和β是由相似度较大的特征点构成的，说明β中含有较多的α中存在的类间相似性特征，使用公式(5)对β进行施密特正交变换：

得出的γ代表β与α垂直的向量，将β在α上的投影滤掉，使得α与β的余弦相似度为零，即将β中与α之间的相似性滤去，只留下了特征向量β自身的特性，使得到的特征向量更加具有有效性和可分性，最后，将通过公式(5)得到的向量γ[i]放回到对应位置Y_s[i]处作为下一层的输入。

本发明的有益效果为由于采用在层次化深度网络模型下提出了一种对树分类器的不同层次的深度特征进行选择性正交的特征选择算法，使不同层次分类器提取到的特征更加符合各自的分类任务，使分类器在进行分类时忽略类间相似性，更多的关注到类间的差异性，提高了特征的有效性和可分性，并且通过知识图谱来层次化的对大规模类别进行整理，将类别间的相关性信息加入到标签中，让网络学习到更多信息用于图像分类。并且本发明选取不同的阈值作为衡量特征间相似度的标准，再通过阈值的改变来筛选出相似程度不同的特征进行正交，对于不同的数据库阈值的选择也是不同的，通过网络自学习可以找到阈值的最优解。通过在层次化深度网络中的树分类器内加入特征选择算法，使树分类器不同层次分类器所提取的特征更加有利于执行各自不同的分类任务，最终提升整体网络结构的识别能力。本发明将特征选择算法和层次化深度网络相结合，并用根据知识图谱层次化的构建大规模类别间的语义关系对层次化深度网络网络的学习进行指导，提高了分类的准确率。本发明方法的算法在各个数据集上均取得了更优的分类效果。

附图说明

图1为本发明中Caltech-UCSD Birds-200-2011鸟类数据库的21个粗类的知识图谱示意图。

图2为本发明中Caltech-UCSD Birds-200-2011鸟类数据库的10个粗类的知识图谱示意图。

图3为本发明中Orchid-2608植物数据库的一个子数据库的38个粗类的知识图谱示意图。

图4为本发明中Fashion-60服装配饰数据库的5个粗类的知识图谱示意图。

图5为本发明方法的网络结构图。

图6为本发明方法中各数据库分类准确率折线图，其中图6(a)为用Caltech-UCSDBirds-200-2011分成21个粗类的知识图谱指导网络进行训练的准确率折线图，图6(b)为对Caltech-UCSD Birds-200-2011分成10个粗类的知识图谱指导网络进行训练的准确率折线图，图6(c)为针对Orchid-2608的子集955个类别，37个粗类进行实验，得到的分类结果，图6(d)为在Fashion-60的5个粗类的知识图谱的试验结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为了使发明实现的技术手段、达成目的与功效易于明白了解，下面结合具体网络模型，进一步阐述本发明。

本发明基于使用一路CNN网络用于特征提取，再将特征传递给树分类器用于分类的层次化深度网络模型。虽然该模型的计算复杂度低，但是也存在一些不足。在使用树分类器进行分类时，分类器各层之间的分类任务是不同的，进行识别时所需要的特征自然也是不同的，但该模型深度卷积神经网络提取到的特征是提供给树分类器的各个子分类器共同使用的，因此提取到的特征是混淆在一起的，并不能只针对不同分类器各自的任务要求，网络提取的冗余特征很有可能对识别的准确率造成影响。因此本发明基于层次化深度网络提出特征选择方法，在树分类器内构建深度特征选择模块来提高特征的有效性，使每层分类器得到的特征更加符合各自分类任务的需求，解决现有模型的不足。

步骤一：知识图谱的构建

首先，Caltech-UCSD Birds-200-2011是一个含有200个鸟类的数据库，但是每个类别的图像数目很少，在进行训练的时候很难收敛，给分类带来了很大的困难。针对这个数据库的特点，本发明对数据库内的类别进行了知识图谱的构建。根据已有的前人的经验，鸟类的嘴部特征对其分类时的影响程度很大，因此本发明首先根据鸟的嘴部特性进行知识图谱的构建。如附图1所示，先按鸟类嘴的大小分为三类，再根据宽窄程度的不同进行分类得到21个粗类200个细类。随后，在进行实验的过程中，考虑到分层结构在进行粗分类时，会更多的关注到这一粗类下的细类间整体特征的相似性，而嘴部特征仅仅是一个局部特征。便对知识图谱进行了优化，在划分粗类时是按照鸟类的不同类群进行的，如将所有的属于鸭属的细类放入一类粗类中。优化后得到10个粗类200个细类，如附图2所示。划分Orchid-2608植物数据库的一个子数据库时,每个粗类代表一个植物属,而每个细类代表一个植物种类，如附图3所示，包括38个粗类和955个细类。针对Fashion-60服装配饰数据库,是根据服饰的不同功能对此数据库进行知识图谱构建，例如上衣和裤子为两个粗类，则T恤和牛仔裤则为这两个粗类下所包含的细类，如附图4所示。根据这些数据库构建的知识图谱容易看出,位于同一个粗类下的类别具有很强的相似性；对不同图像数据库构建知识图谱后将其应用于图像分类。由于大规模类别中存在很强的类间差异性和类内相似性,因此知识图谱被用来层次化的对大规模类别进行整理，能够将类内相似性较强的类别分到同一个粗类中,因而更有效的关注同一粗类中难以区分的类别。

步骤二：图像深度特征提取

原始的像素级特征对图像的几何变换和画质转变都非常敏感，十分不利于分类，因此需要对图像进行深度特征提取，提高特征可分性。利用CNN网络提取步骤一中每一张图片的深度特征，即先使用卷积层提取出图片边缘信息；利用非线性层的RELU函数模拟神经元对特征进行增强和抑制；池化层提取图片局部信息，并且保证平移旋转不变性，还可以降低特征维度。通过对这些操作的整体迭代，图像的特征被逐层提取出来——从像素到边缘特征，再从局部特征迭代出整体的结构，使得网络提取到的深度特征相较于原始的图像像素级特征更加具有可分性。另外本发明并没有对步骤三中树分类器的每个子分类器都整合一个CNN网络来进行特征提取，而是多个分类器共用一个CNN网络来提取图片的深度特征，有效地降低了计算复杂度；

步骤三：树分类器的构建

根据步骤一中各数据库的知识图谱构建对应的树分类器，首先在树分类器的第一层设置一个粗分类器用于识别图片属于知识图谱中的粗类，然后在第二层对每一个粗类都设置一个细分类器(有N个粗类就有N个细分类器)用于识别图片属于知识图谱的细类。对于树分类器结构中的N+1个子分类器，每个子分类器均包含两个全连接层C1与C2和一个softmax分类器，如附图5所示。将步骤二中提取到的深度特征传入到树分类器的各个子分类器中进行分类，当第一层分类器判断图片属于某一粗类后，接下来用属于这一粗类下第二层细分类器判断图片属于哪一细类，这样便识别出图像的类别；

步骤四：图像深度特征选择

所述步骤四中特征间的余弦相似度具体计算步骤如下：

对于树分类器的每个子分类器的C1层，如步骤二中提出，各分类器共用一个CNN网络提取网络深度特征，因此输入是相同的。但各分类器的C1层不同，输出是不同的，粗分类器的C1层输出特征更加偏向于属于同一粗类下细类间的相似性，因此将细分类器的C1层输出特征向量与粗类分类器C1层的特征向量的余弦相似度进行度量，从而监控细类分类器C1层输出的特征向量所包含的类间相似性特征，因为全连接层输出为神经元，因此使用神经元对应的权重向量之间的余弦相似度来度量神经元之间的相似度，C1层的计算公式为：

Y_g＝W_g*X (1)

Y_s＝W_s*X (2)

其中，

(X相同)

所述步骤四中施密特正交法进行特征正交的具体计算步骤为：

根据图5所示，本实施例提出了基于层次化深度网络的特征选择方法，包括以下四部分：(1)利用图像中类间视觉相似性对大量图片信息进行组织，构造出完整的知识图谱；(2)使用一路CNN网络来学习不同图片的深度特征，使得网络提取到的深度特征相较于原始的图像像素级特征更加具有可分性；(3)利用基于语义的树分类器替代掉传统的N-waysoftmax分类器。(4)设置特征选择模块，对不同层次分类器的深度特征进行选择性正交。

与传统的深度学习网络模型相比本实例模型有两大优势:首先，本实例利用类别之间的视觉相关性将原始的N-way softmax分类器换成了基于语义的树分类器，关注到类别间的区分度是不同的，并且以此得到不同的特征集进行粗类和底层类别的分类；其次，本实例设置了特征选择模块，对经过CNN网络之后提取出的特征集进行了选择性正交，利用细类类别特征与粗类类别特征的余弦相似度来筛选出一部分特征，将提取出的这部分特征进行施密特正交变换，通过粗类类别的特征对细类类别的特征进行选择，使得在进行细分类时，分类器忽略掉类别之间的相关性而更加关注到类别间的差异性，提高模型对图像识别的精度。在本实例中，通过设置不同的阈值进行实验来验证算法的优势。显然，在使用选择性正交算法进行特征选择后，得到的特征更具有可分性。

为了定量评价特征选择用于图像识别的作用，本实施实例首先选用Orchid 2608的一个子集来评估了特征选择算法，该子集具有955个细类，和按照植物学的不同科目划分成的37个粗类。本实施实例将从两方面来进行评估：(1)在层次化分类器中加入了选择性正交的特征选择算法是否比传统的层次化分类器的网络结构表现更加良好的性能；(2)使用完全正交的特征选择算法是否在大规模图像识别中获得更高的性能。本实施实例的网络结构中CNN使用Alexnet进行特征提取，共有8层。在实验过程中，网络对阈值θ′有不同的设定。

表一：各网络的分类正确率

网络结构	955个细类	38个粗类
			Alexnet+树分类器	69.046	91.677
Alexnet+树分类器+特征选择(阈值为30°)	69.314	91.785
			Alexnet+树分类器+特征选择(阈值为45°)	71.044	93.001
Alexnet+树分类器+特征选择(阈值为60°)	70.328	92.466
			Alexnet+树分类器+特征选择(阈值为90°)	61.432	86.635

表一中，90°代表不使用余弦相似度进行度量，直接全部正交。从表中数据可以看出，加入选择性正交算法的层次化深度网络不论在哪个阈值下相较于传统的层次化深度网络结构(69.046％)都表现出了良好的性能，其中阈值为45°时，网络性能(71.044％)表现最好。而在阈值角度为90°即全部正交时，发现网络的分类效果(61.432％)会变得很差，这说明事先用余弦相似度对特征进行选择的有效性。考虑到出现这种情况的原因可能是若将特征全部正交会丢失掉一些有用的信息，所以阈值的选择也是十分重要的，对此针对不同的知识图谱所设置的最佳相似度量阈值也是不同的。

在进一步实验过程中，将CNN设置为Resnet进行测试，首先用Caltech-UCSDBirds-200-2011分成21个粗类的知识图谱指导网络进行训练，其结果如图6中(a)所示。随后又对Caltech-UCSD Birds-200-2011分成10个粗类的知识图谱指导网络进行训练，得到了如图6中(b)的结果，接下来，针对Orchid-2608的子集955个类别，37个粗类进行实验，得到的分类结果如图6中(c)所示。最后又在Fashion-60的5个粗类的知识图谱上进行进一步的验证特征选择的有效性和对阈值选择的影响。得到了如图6中(d)结果。

对于图6的正确率折线图，横轴代表所选阈值角度的大小，纵轴代表使用这一阈值后分类的正确率。当阈值为0(即不加特征选择模块)时，各个数据库的正确率都不如加入特征选择的层次化深度网络表现好。21个粗分类的Caltech-UCSD Birds-200-2011在阈值为30时分类效果最好(71.247％)，10个粗分类Caltech-UCSD Birds-200-2011在阈值为45时分类效果最好(78.962％)。38个粗类的Orchid-2608的一个子集和5个粗类的Fashion-60在阈值为30时表现最好(76.245％和72.723％)。但是Fashion-60在加入阈值为60的特征选择模块后，分类准确率(72.31％)却不如原始的不加特征选择模块的网络(72.414％)。综合上述的实验结果，可以得出本实例对特征进行选择性正交对于网络对图片的识别能力是有所提升的。但是不同的数据库阈值的影响程度是不同的，但总体上看过高或者过低都会对识别能力产生不利的影响。当阈值过低时，在进行特征选择时，可能仍旧存在包含类间相似性的冗余特征对图像的分类进行干扰；而当阈值过高时，由于对特征进行了大量的剔除，使得对分类有利的特征丢失，对图像的分类造成困难。基于上述的表现，在进行特征选择时阈值的选定十分重要，并且不同的数据库对阈值的选择也是不尽相同的。

通过在层次化深度网络模型下提出了一种对树分类器的不同层次的深度特征进行选择性正交的特征选择算法，可以使不同层次分类器提取到的特征更加符合各自的分类任务，使分类器在进行分类时忽略类间相似性，更多的关注到类间的差异性，提高了特征的有效性和可分性，并且通过知识图谱来层次化的对大规模类别进行整理，将类别间的相关性信息加入到标签中，让网络学习到更多信息用于图像分类。并且本发明方法选取不同的阈值作为衡量特征间相似度的标准，再通过阈值的改变来筛选出相似程度不同的特征进行正交，对于不同的数据库阈值的选择也是不同的，通过网络自学习可以找到阈值的最优解。通过在层次化深度网络中的树分类器内加入特征选择算法，使树分类器不同层次分类器所提取的特征更加有利于执行各自不同的分类任务，最终提升整体网络结构的识别能力。本发明将特征选择算法和层次化深度网络相结合，并用根据知识图谱层次化的构建大规模类别间的语义关系对层次化深度网络网络的学习进行指导，提高了分类的准确率。本发明方法的算法在各个数据集上均取得了更优的分类效果。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于层次化深度网络的特征选择方法，其特征在于包括下述步骤：

步骤一：知识图谱的构建

步骤二：图像深度特征提取

步骤三：树分类器的构建

步骤四：图像深度特征选择

针对树分类器不同层次分类任务的需求，将粗分类器提取的特征与细分类器提取特征进行选择性正交实现特征选择；选择性正交时，首先利用特征间的余弦相似度对特征进行筛选，并将筛选后的特征进行施密特正交变换，选择性正交后使得树分类器在进行细分类时的特征更加关注类间的差异性，而减小类间相似性的影响；

所述余弦相似度具体计算步骤如下：

Y_g＝W_g*X (1)

Y_s＝W_s*X (2)

其中，

其中dot_product为W_g和W_s各个行向量的内积组成的列向量，包含各个向量本身的长度与余弦相似度信息；norm为W_s和W_g的各个行向量的长度乘积组成的列向量；.*代表矩阵对应点相乘；sum表示将向量中每一个行向量的向量点进行求和，求出的dot_product和norm都是一维列向量，i代表第i个神经元，则可得：

所述施密特正交法进行特征正交的具体计算步骤为：

设定的阈值角为θ，第i个神经元的相似度夹角为θ_i，有p个点的第i个点的特征夹角θ_i大于θ，将特征夹角大于θ的点所对应的p个值Y_g[i]与Y_s[i]构成两个p维列向量α和β，其中α是粗分类器上的特征，β是细分类器的特征，α和β是由相似度较大的特征点构成的，说明β中含有较多的α中存在的类间相似性特征，使用公式(5)对β进行施密特正交变换：

得出的γ代表β与α垂直的向量，将β在α上的投影滤掉，使得α与β的余弦相似度为零，即将β中与α之间的相似性滤去，只留下了特征向量β自身的特性，使得到的特征向量更加具有有效性和可分性，最后，将通过公式(5)得到的第i个点的向量γ[i]放回到对应第i个点的位置Y_s[i]处作为下一层的输入。