CN108681775B

CN108681775B - 通过WordNet嵌入进行测试和更新的树形网络方法

Info

Publication number: CN108681775B
Application number: CN201810517482.6A
Authority: CN
Inventors: 张仲楠; 曾鸣; 朱展图
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2021-04-13
Anticipated expiration: 2038-05-25
Also published as: CN108681775A

Abstract

通过WordNet嵌入进行测试和更新的树形网络方法，涉及图片智能分类。构建树形网络；预训练；基于SVM的动态剪枝，在测试过程中，可以动态剪枝特征映射的激活值过低的节点和节点的子树，因为若节点的激活值太低，则该节点表示的类的概率较低，因此后代节点的概率会较低并且可以忽略；每张特征图的激活值之和的具有较强的线性可分性，因此使用SVM在测试过程中进行模型的加速；基于分支的在线更新，使用检测到的图像作为训练样本，将预测概率高的样本回传给树形网络进行训练。

Description

通过WordNet嵌入进行测试和更新的树形网络方法

技术领域

本发明涉及图片智能分类，尤其是涉及一种通过WordNet嵌入进行测试和更新的树形网络方法。

背景技术

深卷积神经网络引发了多项计算机视觉任务的一系列突破，如图像分类^[1-5]、目标检测^[6-7]和语义分割^[8-10]等。深度卷积神经网络带来了许多强大的优势：低维/中维/高维的特征整合^[11]；端到端的训练方式和随着层数增加而增加的准确性。最近的许多工作都着重于堆叠网络深度，以获得更加出色的准确性，但却导致了越来越差的可解释性。虽然越来越深的网络获得了极好的评估指标，但它带来了更多的前向传播时间和更差的解释能力。

另外，决策树拥有优秀的可解释性以及快速的测试速度，可用于广泛的应用领域，如诊断、认知科学、人工智能、博弈论、工程和数据挖掘。但由于它的模型空间较小，因此它在处理自然语言处理和计算机视觉的问题时，不像神经网络一样具有很强的泛化能力。

参考文献：

[1]Simonyan,K.,Zisserman,A.:Very deep convolutional networks forlarge-scale image recognition.Computer Science(2014)。

[2]Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,Erhan,D.,Vanhoucke,V.,Rabinovich,A.:Going deeper with convolutions.(2014)1-9。

[3]Krizhevsky,A.:Learning multiple layers offeatures from tinyimages.(2009)。

[4]Krizhevsky,A.,Sutskever,I.,Hinton,G.E.:Imagenet classificationwith deep convolutional neural networks.In:International Conference on NeuralInformation Processing Systems.(2012)1097-1105。

[5]He,K.,Zhang,X.,Ren,S.,Sun,J.:Deep residual learning for imagerecognition.(2015)770-778。

[6]Ren,S.,He,K.,Girshick,R.,Sun,J.:Faster r-cnn:towards real-timeobject detection with region proposal networks.In:International Conference onNeural Information Processing Systems.(2015)91-99。

[7]Dai,J.,Li,Y.,He,K.,Sun,J.:R-fcn:Object detection via region-basedfully convolutional networks.(2016)。

[8]Pinheiro,P.O.,Collobert,R.,Doll,Piotr,R.:Learning to segmentobject candidates.(2015)1990-1998。

[9]Li,Y.,Qi,H.,Dai,J.,Ji,X.,Wei,Y.:Fully convolutional instance-awaresemantic segmentation.In:IEEE Conference on Computer Vision and PatternRecognition.(2017)4438-4446。

[10]He,K.,Gkioxari,G.,Dollr,P.,Girshick,R.:Mask r-cnn.(2017)。

[11]Miller,G.A.,Beckwith,R.,Fellbaum,C.,Gross,D.,Miller,K.J.:Introduction to wordnet:An on-line lexical database*.International JournalofLexicography 3(4)(1990)235-244。

发明内容

本发明的目的在于提供通过WordNet嵌入进行测试和更新的树形网络方法。

本发明包括以下步骤：

1)构建树形网络；

在步骤1)中，构建树形网络的具体方法可为：从英语词汇数据库(WordNet^[11])中提取有关类之间语义关系和距离的信息，将带有先验知识的信息封装成一棵名为WordTree的树中，其中深层节点包含高维语义信息的类和更浅层节点包含低维语义信息的类；所述英语词汇数据库中，名词、动词、形容词和副词被分组成同组集合；

裁剪所得到的WordTree：若一个节点只有一个孩子，则用它的后代节点替换它；因此，WordTree中的每个节点都包含两个或更多后代节点，每个节点只需要负责其后代节点的分类，将至少1个ResBlock^[5]组合为一个TreeBlock，然后使用TreeBlock以高级语义构建层次化的WordTree，构造出树形网络。

2)预训练；

在步骤2)中，所述预训练的具体方法可为：由于树形网络中的每个节点都分配不同的任务，以使用树形网络训练CIFAR-10数据集为例，根节点负责人造物和生物的分类任务，哺乳动物节点负责食肉动物和有蹄类动物的分类任务，使每个节点的任务更简单，更清晰，因此，可以预先重复使用相同的分类数据集预训练每个节点；

在预训练过程中，根据WordTree的结构从浅到深训练每个节点，具体方法为：在训练根节点时，在根节点之后添加一个简单的2类softmax，并将数据标签转换为人造物和生物，迫使根节点学习如何对这两个类进行分类；然后训练在根节点之后的节点，比如生物，只保留根节点的CNN部分并且固定所有权重；然后添加代表生物节点的TreeBlock和4类加权softmax：鸟类、蛙类、哺乳动物和其他类；最后转换将数据标签分为上述4类，迫使生物节点学习如何对这4类进行分类；以此类推预训练所有的节点。

3)基于SVM的动态剪枝，在测试过程中，可以动态剪枝特征映射的激活值过低的节点和节点的子树，因为若节点的激活值太低，则该节点表示的类的概率较低，因此后代节点的概率会较低并且可以忽略；每张特征图的激活值之和的具有较强的线性可分性，因此使用SVM在测试过程中进行模型的加速；

4)基于分支的在线更新，使用检测到的图像作为训练样本，将预测概率高的样本回传给树形网络进行训练。

本发明源于深层卷积神经网络和决策树的互补性，以实现更快的前向传播速度和更好的可解释性，其基础是：1、由于其庞大的模型空间，深卷积神经网络获得精确的准确性；2、决策树易于解释，并且可以快速使用分支结构进行测试。

由于WordNet^[11]包含高级语义信息，包括人类对物体感知的层次结构，并且是一种易于理解的，可解释的层次关系。基于WordNet^[11]，本发明可以根据人类的语义来动态剪枝分支或仅更新相关分支。这样做一方面可以提高前向传播效率；另一方面，在专注于特定语义并需要忽略不相关类别影响的学习过程中，它会更有效率。

基于这种结构，本发明设计了一系列相关的算法，包括预训练、动态剪枝和分支更新。当使用分支结构时，本发明可以为每个节点分配一个特定的分类任务，并在叶节点输出最终结果，这个独特的任务允许重新定义数据标签，然后在每个节点的预训练中使用它。在前向传播过程中，动态剪枝掉低概率的子树可以减少深层网络的计算量。此外，沿特定分支更新会在类似分支之间产生类似影响，同时避免影响不类似的分支。本发明使用CIFAR-10、CIFAR-100和VID-2017三个数据集所做的实验证明了这些方法的可行性和可靠性。

本发明的突出技术效果在于：

1、提出了一种新颖的树型网络结构，通过嵌入WordNet^[11]的语义信息进行编码，语义信息引导的结构计算效率高，同时能达到较高的分类精度。

2、设计一种动态剪枝算法，根据浅层结果避免深层的计算需求，使其在前向传播过程中实现更快的检测速度。

3、设计一个新的动态更新方法，有效调整特定类的分支，同时避免对网络树中其他类分支的影响。

附图说明

图1为使用至少1个ResBlock^[5]组合为一个TreeBlock示意图。

图2为使用TreeBlock构造树形网络以及树形网络前向传播过程中动态剪枝示意图。

图3为通道1特征图之和的热点图。

图4为通道7特征图之和的热点图。

图5为通道11特征图之和的热点图。

图6为通道14特征图之和的热点图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

本发明实施例包括以下步骤：

1)树形网络的构建：

WordNet^[11]是一个大型的英语词汇数据库。名词、动词、形容词和副词被分组成同组集合，每个集合表达一个独特的概念，通过概念，语义和词汇关系相互关联；本发明可以从中提取有关类之间语义关系和距离的信息，将这些带有先验知识的信息封装成一棵名为WordTree的树中，其中深层节点包含高维语义信息的类和更浅层节点包含低维语义信息的类；

得到WordTree后，需要做一个简单的裁剪：如果一个节点只有一个孩子，用它的后代节点替换它；这使得WordTree中的每个节点都包含两个或更多后代节点，并且每个节点负责其后代节点的分类任务；将一个或多个ResBlock^[5]组合为一个TreeBlock，然后使用这些TreeBlock以人类高级语义构建层次化WordTree，构造出树形网络(如图1)；

2)预训练：

通常所指的预训练是由R-CNN^[12]提出的方法，它在首次训练前利用分类数据对网络进行预训练，并用目标检测数据训练最后网络。通过预训练，目标检测的准确性明显提高。之后，预训练通常指的是，在一个非常大的数据集(例如，ImageNet^[13]，其中包含120万张图像和1000个类别)上预先训练卷积神经网络，然后使用卷积神经网络作为初始化或固定特征提取器用于目标任务。一般来说，预培训是指使用不同任务的另一大型数据集来训练当前任务的网络。

因为树形网络中的每个节点都分配了不同的任务，树形网络的网络定义可以使用全新的预训练方法。以CIFAR-10数据集为例，根节点负责人造物和生物的分类任务，哺乳动物节点负责食肉动物和有蹄类动物的分类任务，使每个节点的任务更简单，更清晰。因此，可以预先重复使用相同的分类数据训练每个节点，而不是将另一个数据集用于不同的任务。

在预训练过程中，根据WordTree的结构从浅到深训练每个节点，具体方法为：在训练根节点时，在根节点之后添加一个简单的2类softmax，并将数据标签转换为人造物和生物，迫使根节点学习如何对这两个类进行分类；然后训练在根节点之后的节点，比如生物，只保留根节点的CNN部分并且固定所有权重；然后添加代表生物节点的TreeBlock和4类加权softmax：鸟类，蛙类，哺乳动物和其他类；最后转换将数据标签分为上述四类，迫使生物节点学习如何对这4类进行分类；以此类推预训练所有的节点；

3)基于SVM的动态剪枝：

树形网络的树结构可以带来很多好处，其中之一就是速度。在测试过程中，可以动态剪枝特征映射的激活值过低的节点和子树(如图2)。其含义在于，若节点的激活值太低，则该节点表示的类的概率较低，因此后代节点的概率会较低并且可以忽略。

通过打印每张特征图的激活值之和的热图(如图3)，分段线的上面代表节点的后代叶节点，即需要分类为正，而下面代表节点需要分类为负。可以看出，线段的上下部分的大部分值(颜色越深，点越集中)具有明显的差异。即，这些特征具有强的线性可分性。

测试时间短且适合线性分离数据的SVM很好的契合了这种使用场景，基于SVM的动态剪枝在实验证明中保持了大部分精度和得到了极大的加速。

4)基于分支的在线更新：

本发明可以使用检测到的图像作为训练样本来训练网络。传统结构的神经网络也可以在线更新，但是由于神经网络的黑盒属性，此更新将对其他分支产生不可预计的影响。特别是，当ResNet^[5]的残差可以通过映射传递回较浅层时，将产生更大的影响。

树结构可以隔离了不同类别之间的相互影响。对于不相似的类，它需要反向传播到远处的父节点甚至是根节点，才能相互影响。对于类似的类，如拥有相同食肉动物父节点的猫和狗，或者具有相同生物父节点的猫和鸟，它们只需要反向传播到非常近的父节点以相互影响。并且由于梯度消散的存在，树结构可以增强上述的隔离效果。

以下给出具体实施例，整体流程如图1所示，包括以下步骤：

1)树形网络的构造：

从WordNet^[11]中将包含CIFAR-10数据集10个目标类的子树裁剪出来；并做剪枝：如果一个节点只有一个孩子，用它的后代节点替换它，来构建出WordTree；然后使用1或n个resblock^[5]组成TreeBlock，使用这些TreeBlock以WordTree形式构建神经网络，并在每个叶节点处添加一个全连接的输出层；在前向传播期间，树从浅到深计算，在每个叶节点产生表示节点表示类的概率的最终值，最后将10个值连接起来并添加softmax函数以组成每个类的最终概率。

以ResNet^[5]和VGG nets^[1]为例，树形网络也符合：

1、每个Resblock^[5]是卷积操作，卷积核大小为3，填充大小为1，这使得卷积常数特征映射的大小不变。每个TreeBlock只需要注意前一层TreeBlock输出的特征图的通道数；

2、滤波器的数量加倍时，特征映射大小减半。在网络的开始还增加了一个内核大小3，填充1，3→16的卷积层和一个批量标准化层作为初始特征提取器。

2)预训练：

由于树结构的特殊性，将每个TreeBlock作为子节点的分类器进行预训练，然后让每个TreeBlock在最后的任务中进行整体的反向传播训练。

预训练从浅到深进行。首先训练根节点，然后冻结根节点的参数，继续训练人造物节点和生物节点，冻结上述节点的参数等，直到所有叶节点被训练。当每个节点的预训练完成时，完全连接的输出层中的参数将被放弃；

3)基于SVM的分支预测器：

观察到数据的线性可分性，使用SVM作为网络的分支预测器，使用每个特征映射的激活值的和作为特征，将分支节点的后代叶节点分类为正，其他节点为负。

4)基于分支的在线更新：

树形网络可以从图像中学习当前场景的特定特征，而树结构可以减少类间的影响。沿反向传播的分支，类似的类将产生类似的影响；对于更多不同类别，影响几乎可以忽略不计。

在使用中，本发明直接使用用CIFAR-10数据集训练好的模型来拟合新的数据集。视频检测时，首先进行1帧图像的测试，然后使用标签来逐帧更新网络。当一个视频完成后，将模型的权重恢复到CIFAR-10的训练模型。

通道7特征图之和的热点图参见图4，通道11特征图之和的热点图参见图5，通道14特征图之和的热点图参见图6。

Claims

1.通过WordNet嵌入进行测试和更新的树形网络方法，其特征在于包括以下步骤：

1)构建树形网络；

2)预训练：由于树形网络中的每个节点都分配不同的任务，根节点负责人造物和生物的分类任务，哺乳动物节点负责食肉动物和有蹄类动物的分类任务，预先重复使用相同的分类数据集预训练每个节点；

在预训练过程中，根据WordTree的结构从浅到深训练每个节点，具体方法为：在训练根节点时，在根节点之后添加一个简单的2类softmax，并将数据标签转换为人造物和生物，迫使根节点学习如何对这两个类进行分类；然后训练在根节点之后的节点，只保留根节点的CNN部分并且固定所有权重；然后添加代表生物节点的TreeBlock和4类加权softmax：鸟类、蛙类、哺乳动物和其他类；最后转换将数据标签分为上述4类，迫使生物节点学习如何对这4类进行分类；以此类推预训练所有的节点；

3)基于SVM的动态剪枝，在测试过程中，以动态剪枝特征映射的激活值过低的节点和节点的子树，因为若节点的激活值太低，则该节点表示的类的概率较低，因此后代节点的概率会较低并且忽略；每张特征图的激活值之和的具有较强的线性可分性，因此使用SVM在测试过程中进行模型的加速；

2.如权利要求1所述通过WordNet嵌入进行测试和更新的树形网络方法，其特征在于在步骤1)中，构建树形网络的具体方法为：从英语词汇数据库中提取有关类之间语义关系和距离的信息，将带有先验知识的信息封装成一棵名为WordTree的树中，其中深层节点包含高维语义信息的类和更浅层节点包含低维语义信息的类；所述英语词汇数据库中，名词、动词、形容词和副词被分组成同组集合；

裁剪所得到的WordTree：若一个节点只有一个孩子，则用它的后代节点替换它；因此，WordTree中的每个节点都包含两个或更多后代节点，每个节点只需要负责其后代节点的分类，将至少1个ResBlock组合为一个TreeBlock，然后使用TreeBlock以高级语义构建层次化的WordTree，构造出树形网络。