CN108664924B

CN108664924B - 一种基于卷积神经网络的多标签物体识别方法

Info

Publication number: CN108664924B
Application number: CN201810443651.6A
Authority: CN
Inventors: ***; 孙振华
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2022-07-08
Anticipated expiration: 2038-05-10
Also published as: CN108664924A

Abstract

本发明公开了一种基于卷积神经网络的多标签物体识别方法，该方法利用标签之间的包含关系，并按照包含顺序依次构建各个标签的CNN特征提取部分，通过卷积运算操作不断抽象提取各层特征，并在网络的不同深度分别设置各个标签的分类器，将相应标签的CNN特征提取部分所提取的特征图，输入到对应的分类器，同时利用多个分类器进行误差反向传播，监督训练相应各层的网络权值参数，最终获取各标签类别以完成识别。本发明采用的多标签卷积神经网络，可以很好地解决多个标签之间信息的融合，解决了传统多标签物体识别准确率不高的问题，同时提高了训练和识别的效率。

Description

一种基于卷积神经网络的多标签物体识别方法

技术领域

本发明属于图像处理技术领域，特别涉及一种基于卷积神经网络的多标签物体识别方法。

背景技术

随着人工智能技术的迅速发展，自动物体识别已成为近些年来国内外研究的热点问题，在智能监控、遥测遥感、机器人、医学图像处理等领域具有广泛的应用前景。在真实生活中，物体种类繁多，个体相似度较高，人类可以通过视觉感知形状、颜色和距离等信息，并且综合这些信息，来准确地判断出物体所属类别，但是这对计算机来讲往往比较困难。因此，如何使计算机拥有和人类相似、甚至超过人类的识别能力，已成为当前物体识别的重要方向和主要挑战。

物体识别的主要研究方法是提取物体特征实现物体描述，然后利用一定的机器学习算法进行物体类型的学习，最后对物体进行分类，实现物体识别。但是待识别的目标存在类内差异大、类间相似度高的情况，这种情况下提取的特征通常很难反映出类间差异和类内共性。尤其在物体具有多个标签的情况下，由于传统特征提取方式的限制，不同标签所使用的特征之间往往是没有关联的，这使物体识别起来更加困难。

多标签物体识别问题目前主要依靠两种类型的方法来处理。一种是基于传统图像处理的方法，首先对物体图像提取一些SIFT、HOG、SURF等特征，再结合优化的BoW模型和融合算法对特征进行转换，最终采用传统的分类器(如SVM等)获取物体类别的预测结果，该方法的识别速度比较快，但是识别准确率比较低。

另一种是基于深度学习的方法，该方法主要采用近些年图像处理领域比较火热的卷积神经网络结构，用于自动提取分类所需要的特征，其识别准确率比传统图像处理方法有一定提高。但现在大多数卷积神经网络结构在处理多标签物体识别问题时，是根据每个标签分别训练独立的网络，然后通过每个独立的网络，分别对每个标签进行分类预测。该方法主要有两个问题：一方面，由于采用的网络数目过多，且相互无关联，从而增加了网络训练的成本，造成信息冗余，以致时间效率低下；另一方面，忽略了不同标签之间固有的关系，从而损失了一部分先验知识，使有效信息没有得到充分利用，造成物体识别准确率不高。

发明内容

发明目的：针对现有技术中单一标签卷积神经网络对图像特征的重复提取，以及各标签网络间缺乏联系，导致物体识别算法的准确度不高的问题，提供一种利用各标签之间的包含关系，进行不同层级的特征提取和分类，用于解决传统的物体识别准确率不高的技术问题的基于卷积神经网络的多标签物体识别方法。

技术方案：为解决上述技术问题，本发明提供一种基于卷积神经网络的多标签物体识别方法，包括如下步骤：

(1)读取物体识别所使用的数据集，将其转化为卷积神经网络输入的标准格式；

(2)搭建多标签卷积神经网络模型，并对该模型进行参数初始化；

(3)对搭建好的多标签卷积神经网络模型进行训练，不断优化网络内部结构参数；

(4)判断步骤(3)中训练后的多标签卷积神经网络模型是否满足训练要求，如果满足则进入步骤(5)，如果不满足则返回步骤(3)重新进行训练；

(5)对已经训练好的多标签卷积神经网络模型进行测试评估，获得测试准确率；

(6)判断测试准确率是否能够达到A级，如果是则进行步骤(7)，如果否则更新模型补兵重新进入步骤(2)重新进行模型的搭建、训练与测试；

(7)输出最终的多标签卷积神经网络模型与参数，获得可以实际应用的物体识别方法。

进一步的，所述多标签卷积神经网络模型由数据输入部分、CNN特征提取部分和分类器部分组成。

进一步的，所述多标签卷积神经网络模型中CNN特征提取部分需要进行多次卷积对输入特征图进行局部特征提取。

进一步的，所述多标签卷积神经网络模型中分类器部分包括若干个结构相似的分类器。

进一步的，所述步骤(3)中对搭建好的多标签卷积神经网络模型进行训练的具体步骤如下：

(3.1)对MLCNN模型的各个参数进行初始化；

(3.2)读取当前步数的训练图像到网络层；

(3.3)让图像流在网络模型中进行前馈传导，获得训练误差；根据当前网络参数值，从第一个卷积层开始不断对读取的各个图像依次进行卷积和池化运算操作，直到网络输出各分类器的训练损失值；

(3.4)判断步骤(3.3)中输出的训练损失值是否达到训练损失值要求或达到设定步数，如果达到则进入步骤(3.5)，如果没有达到则根据网络损失值，则按照误差反向传播的方法，获得各层参数的变化量，并进行相应层的参数更新用于下一步数的前馈运算，最后返回步骤(3.2)；

(3.5)输出网络参数模型。

进一步的，所述步骤(3.1)中对MLCNN模型的各个参数进行初始化的方法包括常量初始化、高斯分布初始化和均匀分布初始化。

进一步的，所述步骤(5)中对已经训练好的多标签卷积神经网络模型进行测试评估的具体步骤如下：

(5.1)将步骤(4)中得到的网络参数模型加载到多标签卷积神经网络模型中；

(5.2)读取当前步数的测试图像到网络层；

(5.3)将当前步数的测试图像依次按照模型结构和训练得到的参数，进行卷积等前馈运算操作，通过分类器部分输出各个图像对应的预测类别，并输出预测类别；

(5.4)判断当前步数是否达到遍历全部测试集图像所需要的最少步数，如果达到则输出当前保存的所有图像的标签数据并进入步骤(5.5)；如果没有达到则返回步骤(5.2)；

(5.5)将前面记录的所有测试集图像的预测类别与各个图像对应的实际类别进行对比，统计获得该模型参数下的测试集分类准确率。

与现有技术相比，本发明的优点在于：

本发明提供的基于卷积神经网络的多标签物体识别方法，能够解决物体识别在物体外观结构相似和观察角度多变的情况下，由于多标签关系利用不完全和信息获取的不确定性所引起的正确识别率低下的问题，且能够缩短多标签识别***训练构建所需要的时间。

附图说明

图1为本发明的方法流程图；

图2为图1中多标签卷积神经网络模型训练的流程图；

图3为图1中多标签卷积神经网络模型测试的流程图；

图4为图1中多标签卷积神经网络模型的结构示意图；

图5为实施例中CNN特征提取部分结构示意图；

图6为实施例中分类器结构示意图；

图7为实施例中飞机数据集标签层级结构示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。本发明描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的其他实施例，都属于本发明所保护的范围。

本发明提出一种基于卷积神经网络的多标签物体识别方法。该方法针对传统卷积神经网络在处理多标签识别时存在的问题，采用如图4的多标签卷积神经网络(Multi-label Convolutional Neural Network,MLCNN)结构，利用各标签之间的关系，将多个标签的特征提取和分类融合到一个完整的网络。

如图4所示，MLCNN网络主要包括三大部分：数据输入部分、CNN特征提取部分Ci(i＝1,2,...,n)和分类器部分Li(i＝1,2,...,n)，每个标签Li的分类器都有与之相对应的特征提取器Ci。其中n为采用该网络的分类问题所具有的标签数目，且各标签之间具有如下的包含关系：

其中，

表明标签Li中的任意一个类包含标签Lj中的一个或多个类，也就是说标签Lj具有比标签Li更多、更细分的类别。可以看出从属于标签Lj的不同类之间的相似性更大，具有更高的识别难度，因此需要比标签Li更加抽象的特征，也就需要构建更深层的卷积网络来进一步进行特征提取。

因此，在网络MLCNN中位于最低层的特征提取部分C1，主要负责对图像的特征进行初步提取，所得特征被用作L1标签分类器和更深层网络C2的输入。然后，特征提取部分C2对特征图进行更高层的语义抽象，所得特征被用作L2标签分类器和更深层网络C3的输入。依次向下直到最细分的标签Ln和最高语义的特征提取部分Cn。

从最初的数据输入开始，数据流首先经过扩充和预处理，然后经过相应CNN特征提取部分Ci进行卷积抽象和池化降维后，分别得到对每一个标签Li进行分类所需要的特征图，再将该特征图输入到各个标签Li对应的分类器中，经过1×1卷积核降维和采用dropout的全连接层处理后，输入到softmax层中进行回归分析，最终可以得到每个标签Li所对应的类别。

各部分详细介绍如下：

1.1数据输入层

数据输入层主要负责对初始数据集进行扩充和数据预处理，从而增强数据的多样性，防止模型过拟合。该层实现数据扩充的方法，主要包括水平翻转、尺度变换、旋转变换和Fancy PCA等。

在对数据集进行扩充以后，需要对输入图像进行中心式归一化操作，即对每个特征减去训练集图像的平均值，以凸显图像个体差异。

1.2CNN特征提取

如图5所示，“CNN特征提取”部分主要采用CNN的核心算法思想——卷积对输入特征图进行局部特征提取，为了能够更高效地控制网络的深度和调整参数，卷积核大小固定为3×3。由于该多标签网络整体结构较深，为减少梯度弥散的发生，同时避免ReLU函数常见的“死区”问题，故该部分采用指数化线性单元(Exponential Linear Unit,ELU)函数作为卷积后特征值的激活函数，其函数公式如下所示。

在多次卷积之后，采用最大值池化(max-pooling)的方式对卷积后的特征图进行降采样，以减小特征图的大小，并保证一定程度的特征不变性和防止过拟合。

1.3分类器

MLCNN网络的分类器部分共包含n个结构相似的分类器，分别对应于n个层级的标签。该分类器的基本结构如图6所示。

特征提取部分获取的特征图，需要首先经过卷积核尺寸为1×1的卷积操作降维后，再输入到采取dropout策略进行训练的全连接神经元，然后将神经元输出的特征向量输入到softmax层进行回归分析。

softmax回归是逻辑斯蒂回归在多类别分类问题上的推广，其分类目标损失函数为：

其中ω为网络结构参数，x_l为第l个样本的输入，N为训练样本数目，C为单个标签所包含的类别数，1{y_l＝i}在满足y_l＝i时为1，否则为0。

由于采用数学方法直接求得目标函数的解是难以实现的，因此采用梯度下降法逼近代价函数的极小值点，并将所求极小值点对应的参数作为网络的***参数估计值，其梯度公式如下：

有了上面的偏导数公式，将它带入梯度下降算法中，在每一次迭代时进行如下的权重更新，直到目标损失或训练步数达到要求为止。

2实验测试

2.1数据集

本发明以飞机物体为例，采用具有多标签的飞机数据集进行网络训练与测试，来检测本发明所提供方法的识别性能。训练为了保证实验结果的可靠性和针对多标签分类问题的适用性，使得实验能够准确测试出算法的有效性，在数据集构建时主要选择Boeing和Airbus两个具有多种型号飞机的厂商，同时针对不同标签数据的数量进行了适当平衡。

本发明数据集所采用的图像和标签，主要采集自FGVC-Aircraft数据集，同时根据需要按飞机型号标签采用爬虫的方式从网络爬取图片，对相应标签数据进行扩充，其共包含1万张飞机图像。如图7所示，其主要包含三级标签：“厂商”、“系列”、“型号”，且三者具有如下的包含关系：一个厂商包含一个或多个系列，一个系列包含一个或多个型号，其关系如图所示。如图，“厂商”共包含2类，“系列”共包含14类，“型号”包含35类，每张飞机图像都具有唯一的“厂商”、“系列”、“型号”标注。

为了评估本发明提出算法的性能，该部分进行了多个实验，统计多种情况下正确识别率，正确识别率计算方法：

其中，P表示正确识别率，n_r表示测试样本中正确识别个数，N表示总测试样本个数。

2.2实验结果与分析

数据集采集构建完成后，将数据集的三分之二分割出来作为训练集，剩余三分之一作为测试集。其中训练集被用作训练神经网络，使网络在目标函数的监督下能够更新自身权重，以实现自我学习，而测试集被用作验证算法的有效性。

由于本发明采用的数据集具有3个标签，所以图4中MLCNN结构中所对应的n＝3，也就是说实验所采用的MLCNN共包含3个CNN特征提取部分(C1,C2,C3)和3个对应标签(L1,L2,L3)的分类器。因为卷积层的层数直接决定了CNN特征提取的能力，而影响分类器的识别效果，所以在该MLCNN网络中，3个CNN特征提取部分(C1,C2,C3)各自卷积层的层数，是影响其识别效果的主要结构参数。

为了在本发明数据集上，选择识别效果较好的MLCNN网络。针对C1、C2、C3层数的不同比例分布，分别对不同的MLCNN网络进行训练和测试。同时为了保证各组网络之间可以进行比较，固定每组MLCNN网络的总层数均为15层。

该实验共选取7组层数分布不同的MLCNN网络。其中，第1组网络对应包含5个卷积层的C1、5个卷积层的C2和5个卷积层的C3，第2组网络对应包含6个卷积层的C1、6个卷积层的C2和3个卷积层的C3。同样，后5组网络C1、C2、C3所包含卷积层的数目，依次为：6层、3层、6层，3层、6层、6层，3层、3层、9层，3层、9层、3层，9层、3层、3层。所得的实验结果如表1所示。

表1不同特征提取层数分布的测试结果

从表1可以看出，当最细分标签L3的识别率较高时，标签L1和L2的识别率也较高；只比较最终标签L3的识别率，发现第2组和第7组的识别率高于其他各组，此时C1+C2＝12为几组实验中最高；只比较标签L2的识别率，发现也是第2组和第7组的识别率最高，此时C1层数分别为6和9，不低于其他各组；只比较标签L1的识别率，同样是第2组和第7组的识别率最高。

由该实验可以总结如下特征提取部分的层数选择经验：

(1)当总卷积层数不限时，适当增加MLCNN的总层数可以提高最细分标签的准确率。

(2)当总卷积层数受限时，适当减小最后一个特征提取层C3的层数，增加C1和C2的层数，可以提高标签L3的识别率；适当减小C2的层数，增加C1的层数，可以提高标签L2的识别率。将其归纳为MLCNN特征提取层数选取的渐减策略，如下：

C1≥C2≥C3≥...≥Cn

从实验结果看出，当“CNN特征提取”层数采用渐减策略时，更能保证准确地提取出各层标签分类器所需要的特征，从而总体上提高各个标签的分类准确度。

综合考虑多个标签的识别效果，选用上述实验第7组方案的结果作为MLCNN针对本发明数据集的最优实验结果。同时，采用另外两种传统方案，分别对相同数据集进行训练和测试。一种是SIFT特征提取，再用SVM进行分类的方式；另一种是针对各个标签分别训练独立的CNN，为了便于比较，各个CNN的层数与MLCNN中特征提取层数相对应，分别为：9层、12层和15层。实验结果如表2所示。

表2不同方法在本发明数据集的测试结果

从表2可以看出，本发明所提出的MLCNN在三个标签的识别率均高于相互独立的单标签CNN，尤其在最高层级标签——“型号”上相比单独的15层“型号”CNN分类网络，在测试集上的识别率提高了7.54％。这表明，本发明提出的MLCNN可以利用不同层级标签之间的关系信息，将其作为特征提取的依据，从而减少干扰信息，优化网络的识别效果。

为了测试MLCNN在训练上的时间效率，在网络训练的同时进行了计时。实验所使用的计算机配置为：GPU(TITANXP)、CPU(E5-2650)和内存(64GB)。对应于三个标签的独立CNN训练用时分别为5h、6.5h和7h，而MLCNN的训练用时为7.5h。可以看出，训练一个MLCNN比起训练三个独立的CNN，在时间上节约了一半多。因此，MLCNN在时间效率上也有了较大的提高。

Claims

1.一种基于卷积神经网络的多标签物体识别方法，其特征在于，包括如下步骤：

(7)输出最终的多标签卷积神经网络模型与参数，获得可以实际应用的物体识别方法；

所述多标签卷积神经网络模型包括数据输入部分、CNN特征提取部分Ci和分类器部分Li；每个标签Li的分类器都有与之相对应的特征提取器Ci；

其中位于最低层的特征提取部分C1，所得特征被用作L1标签分类器和更深层网络C2的输入；特征提取部分C2所得特征被用作L2标签分类器和更深层网络C3的输入；依次向下直到最细分的标签Ln和最高语义的特征提取部分Cn；

其中i＝1,2,...,n，n为采用该网络的分类问题所具有的标签数目，且各标签之间具有如下的包含关系：

其中，

表明标签Li中的任意一个类包含标签Lj中的一个或多个类。

2.根据权利要求1所述的一种基于卷积神经网络的多标签物体识别方法，其特征在于，所述多标签卷积神经网络模型中分类器部分Li结构相似。

3.根据权利要求1所述的一种基于卷积神经网络的多标签物体识别方法，其特征在于，所述步骤(3)中对搭建好的多标签卷积神经网络模型进行训练的具体步骤如下：

(3.1)对MLCNN模型的各个参数进行初始化；

(3.2)读取当前步数的训练图像到网络层；

(3.5)输出网络参数模型。

4.根据权利要求3所述的一种基于卷积神经网络的多标签物体识别方法，其特征在于，所述步骤(3.1)中对MLCNN模型的各个参数进行初始化的方法包括常量初始化、高斯分布初始化和均匀分布初始化。

5.根据权利要求1所述的一种基于卷积神经网络的多标签物体识别方法，其特征在于，所述步骤(5)中对已经训练好的多标签卷积神经网络模型进行测试评估的具体步骤如下：

(5.2)读取当前步数的测试图像到网络层；