CN107679552A

CN107679552A - 一种基于多分支训练的场景分类方法以及***

Info

Publication number: CN107679552A
Application number: CN201710814242.8A
Authority: CN
Inventors: 黄泽桑; 董远; 白洪亮
Original assignee: Beijing Faceall Co
Current assignee: Beijing Faceall Co
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2018-02-09

Abstract

本发明公开了一种基于多分支训练的场景分类方法以及***，方法包括：将含有多语义的标签图像预处理后，输入卷积神经网络提取图像特征，通过多分支训练网络对提取得到的所述图像特征进行多分支训练，将多语义标签图像的特征聚类，并基于深度学习训练框架构建出分类器，通过得到的分类器，输出识别后的所述含有多语义的标签图像。采用本发明的方法，当图像数据中存在多个特定的语义标签，通过分类器提取出有效的判别特征，可有效地区分场景类间的差异性和相似性。

Description

一种基于多分支训练的场景分类方法以及***

技术领域

本发明涉及图像处理领域和图像识别领域，特别涉及一种基于多分支训练的场景分类方法以及***。

背景技术

场景图像分类作为图像理解的重要研究内容，已经成为计算机视觉和模式识别领域的重要研究问题，并且在过去的几年里受到了极大的关注。在给定一组包括含多个目标类别的场景图像，场景分类的目标是通过图像中各个目标类别的分布关系对图像的全局的语义进行分析和理解。

目前在含有多语义标签图像的场景分类任务中主要的解决办法分为:传统方法和深度学习方法。

传统方法是指，比如空间局部二值模式的算法，主要是在不同的方向、不同的投影中心及不同的尺度上投影LBP描述子，来编码图像中物体的空间信息和物体之间的相互关系信息，最后的分类器往往是采用SVM分类器，而传统方法的主要缺陷在于：相对深度学习算法，提取的语义信息往往过于表层，当类别数较多时，表达能力较弱。

深度学习方法是指，采用卷积神经网络的方法来提取特征，在解决场景分类问题时，主流方法包括图像分割和图像多标签训练，但是当样本数量过大时，这两种方法所需要的标注任务会相当庞大，需要大量的人工成本，这对实际的生产需求来说是难以满足的。

综上，传统的方法表达能力较弱，而深度学习的方法需要花费较多的人工标注成本。

发明内容

本发明要解决的技术问题是，一种可有效地区分场景类间的差异性和相似性的基于多分支训练的场景分类方法，减少图像标注，数据处理的工作量。不需要将大量的多语义标签的图像进行人工标注，省时省力。

解决上述技术问题，本发明提供了一种基于多分支训练的场景分类方法，包括如下步骤：

将含有多语义的标签图像预处理后，输入卷积神经网络提取图像特征，

通过多分支训练网络对提取得到的所述图像特征进行多分支训练，将多语义标签图像的特征聚类，并基于深度学习训练框架构建出分类器，

通过得到的分类器，输出识别后的所述含有多语义的标签图像。

更进一步，在所述深度学习训练框架构中还包括：输入多分支训练网络后进行降学习率处理。

更进一步，在所述深度学习训练框架构中，进一步包括：

首先，对每一个分支，去掉网络的最后一层全连接层，

其次，固定前边的所有层的所有学习率，使之权重不更新，

最后，再用各个分支的数据微调全连接层。

更进一步，所述卷积神经网络增设一残差网络结构。

更进一步，所述卷积神经网络的激活函数为：连接修正线性单元。

更进一步，所述深度学习训练框架构为mxnet。

更进一步，含有多语义的标签图像是从ImageNet或Places的数据集，以及网络中收集的样图。

更进一步，所述预处理还包括：将作为负样本收集的背景类样图与正样本有一设定距离，用以表示不同语义信息。

基于上述，本发明还提供了基于多分支训练的场景分类***，包括：预处理单元、卷积神经网络单元、训练网络单元，

所述预处理单元，用以将含有多语义的标签图像预处理后，输入卷积神经网络提取图像特征，

所述卷积神经网络单元，用以通过多分支训练网络对提取得到的所述图像特征进行多分支训练，将多语义标签图像的特征聚类，并基于深度学习训练框架构建出分类器，

所述训练网络单元，用以通过得到的分类器，输出识别后的所述含有多语义的标签图像。

上述的基于多分支训练的场景分类***中，训练方法简单、可利用现有的框架，方便调整网络结构和模型融合。

更进一步，所述卷积神经网络单元基于inception-bn网络结构。

本发明的有益效果：

本发明的方法通过在图像场景分类中，利用多分支训练来提取多语义标签图像中的不同特征，并且在提取局部特征后，融合全局特征，从而得到一个对类间相似性和差异性有更好区分能力的分类器。通过分类器可有效地区分场景类间的不同，从而更好地进行场景图像分类。此外，由于采用了多分支训练网络容易调整。在进行调整时只需要将各个分支进行聚类，新加入的分支很容易加入训练。同时，相对于单分支训练，有较好的性能提升。

附图说明

图1是本发明一实施例中的方法流程示意图；

图2是本发明一实施例中的***结构示意图；

图3(a)、图3(b)分别是两层以及三层Resnet残差学习模块示意图；

图4是基于mxnet的网络结构示意图；

具体实施方式

现在将参考一些示例实施例描述本公开的原理。可以理解，这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述，而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。

在本申请中的卷积神经网络，是一种特殊的深层的神经网络模型，它的特殊性体现在两个方面，一方面它的神经元间的连接是非全连接的，另一方面同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络，降低了网络模型的复杂度(对于很难学习的深层结构来说，这是非常重要的)，减少了权值的数量

可以理解在本申请中的卷积层，是在卷积神经网络中由多个卷积核构成一种结构，主要进行卷积运算。

在本申请中的池化层是卷积神经网络中的一种结构，用于图像的降维。

在本申请中的全连接层是卷积神经网络中的一种结构，用于将前面一层的神经元与后面一层相连接。

在本申请中的激活函数是神经网络中的一种非线性函数，用于给神经网络加入非线性因素，因为只有线性函数表达能力不够。

如图1所示是本发明一实施例中的方法流程示意图，本实施例中的一种基于多分支训练的场景分类方法，具体地包括如下步骤：

步骤S100将含有多语义的标签图像预处理后，输入卷积神经网络提取图像特征，可以理解在本实施例中的预处理包括但不限于，数据收集和处理过程。具体而言，在数据来源中主要来自ImageNet和Places两大数据集和网络收集的样图。比如，对美食可细分为69个子类，对文字可细分为报纸、明信片、信件等子类，当然其余类别也可以进行细分。优选地，作为负样本收集的背景类需要尽可能地与正样本有较大的L2欧式距离，即可以代表不同的语义信息，从而扩大训练样本的类间距离，使训练后得到的模型得到更好的表达能力。输入卷积神经网络提取图像特征可通过卷积神经网络CNN的多层网络自学习特性，利用其局部连接、权值共享和子采样等结构特点，使网络具有了一定的缩放、位移不变性等特点，显著地增强了网络的泛化能力。含有多语义的标签图像是指这些图像数据中存在着不少多语义标签的图像，比如蓝天的正样本中可能也是绿植的正样本，日出日落的图像也同时具有背光的特性，舞台的样本中也存在夜景的图像。

步骤S101通过多分支训练网络对提取得到的所述图像特征进行多分支训练，将多语义标签图像的特征聚类，并基于深度学习训练框架构建出分类器，通过利用多分支训练来提取多语义标签图像中的不同特征，并且在提取局部特征后，然后融合全局特征，从而得到一个对类间相似性和差异性有更好区分能力的分类器。作为本实施例中的核心部分，该步骤通过在多语义标签的图像数据上，利用多分支训练，提高类间距离，达到优异的分类能力。比如，方案目标是对10个常见场景的数据进行场景分类，分别是：美食、绿植、文字、沙滩、雪景、蓝天、背光、日出日落、夜景和舞台。将10类的数据，分为3组，分别是{{美食，绿植，舞台},{文字，背光，蓝天，夜景},{日出日落，沙滩，雪景}}，深度学习训练框架为mxnet，该框架具有速度快，省显存的特点。

步骤S102通过得到的分类器，输出识别后的所述含有多语义的标签图像。分类器由于融合全局特征，对含有多语义标签图像具有较好判别能力，特别是可以有效地区分场景类间的差异性和相似性。

本实施例中的对于含有多语义标签的图像，先通过对正负样本数据清理，细分，利用多层卷积神经网络提取图像特征，相当于在所有的数据上先进行预训练，使模型具有好的泛化能力，再通过将不同具有多语义标签的图像进行聚类，各个类别分别微调全连接层，最后将模型融合，融合全局特征，从而训练出一个对含有多语义标签图像具有较好判别能力的分类器

作为本实施例中的优选，在所述深度学习训练框架构中还包括：输入多分支训练网络后进行降学习率处理。具体而言，可以将所有单标签数据batch批处理后输入网络训练，在验证集准确率稳定不升后，降学习率为原来的1/10，多次降学习率后，网络性能趋于稳定。主为了提取所有数据的特征，使预训练的网络在所有数据上具有一定的普适性，网络的权重参数在所有的数据上具有较好的表达能力，便于进行下一步的微调操作。

作为本实施例中的优选，在所述深度学习训练框架构中，进一步包括：首先，对每一个分支，去掉网络的最后一层全连接层，其次，固定前边的所有层的所有学习率，使之权重不更新，最后，再用各个分支的数据微调全连接层。

在得到深度学习训练模型之后，对于每一个分支，去掉网络的最后一层全连接层，固定前边的所有层的所有学习率，使之权重不更新，在mxnet中，固定网络的学习率需要将每一层的lr_mult设为0，之后用各个分支的数据微调全连接层。特别地，在每个分支的样本选择中，依然需要包括少量的其他分支的正样本作为本分支的负样本，用来使该分支对其余分支的类别数据具有一定的辨识能力。经过上述操作后，可以得到三个分支，三个模型。优选地，所述深度学习训练框架构为mxnet，模型融合。

作为本实施例中的优选，如图4所示，在得到多个分支的模型后，还需要将多个模型进行融合，在深度学习训练框架构mxnet中，通过mxnet.nd.load可以获得各个模型的权重和偏置，将多个模型的权重和偏置相加，即可得到合并后的新模型，同时，还需要修改网络结构，将三个全连接层接到最后一个池化层，至此得到合并后的网络结构和模型。

作为本实施例中的优选，所述卷积神经网络增设一残差网络结构。本实施例中采用的基网络为inception-bn网络结构，该网络在Googlenet的基础上进行了改进，一方面增加了bn层来减少了Internal Covariate Shift，使每一个输出都归一化到N(0,1)的高斯分布，另一方面，用3x 3的卷积替代inception模块中5x 5的卷积核，降低了计算量的同时加速了计算。另外，在本发明中，修改了原始的inception-bn网络结构，在网络中加入了Resnet网络的直连结构，具体如图3(a)、图3(b)所示，通过引入残差网络结构，直接将输入信息绕道传到输出，保护信息的完整性可以加深网络，减缓因网络层数不断加深导致在训练集上误差增大，梯度弥散的问题。

作为本实施例中的优选，上述卷积神经网络的激活函数为：连接修正线性单元。同时，本实施例中将常见的ReLU激活函数替换成另一种激活函数，称为ConcatenatedRectified Linear Units，简称为CReLU。

已知的ReLU函数的表达式为：

f(x)＝max(0,x)，即当x>0，则输入等于输出；

当x<＝0，则输出等于0。

ReLU相对于sigmoid等函数时，计算量节省很多，同时relu会使一部分神经元的输出为0，造成网络的稀疏性，减少参数的相互依赖，缓解过拟合的问题产生，而在本实施例中所使用的CReLU，正是在ReLU函数上进行改进，CReLU的数学表达式为：设[·]+＝max(·,0)，CRELU定义CReLU函数为：

CReLU(x)＝([x]+,[-x]+)

通过采用CReLU激活函数，去掉负相关程度很高的滤波器核，减少了滤波器的冗余，从而减少模型大小。

此外，针对本实施例提出的方法，还进行了测试：

测试集与训练集的数据分布相同，以相同FPR(假阳性)下，召回率的高低为标准来验证本发明是否比单分支训练更有效。在测试阶段，由于各个类别是由各个子类构成(例如文字由报纸，明信片，信件等构成)，在计算输出判别为文字的概率时，需要把文字所在分支里属于文字的各个子类的概率相加，作为本类的输出，其余类别计算方式相同。另外，作为对比实验，也进行了单分支的训练，计算各类的概率也由各子类概率相加。

表1.多分支和单分支在相同FPR下的召回率比较

FPR(False Positive Rate)＝模型预测为正的负样本/(模型预测为正的负样本+模型预测为负的负样本)

召回率(Recall)＝预测为真实正例除以所有真实正例样本的个数

请参考图2是本发明一实施例中的***结构示意图，基于多分支训练的场景分类***，其特征在于，包括：预处理单元1、卷积神经网络单元2、训练网络单元3，所述预处理单元1，用以将含有多语义的标签图像预处理后，输入卷积神经网络提取图像特征，所述卷积神经网络单元2，用以通过多分支训练网络对提取得到的所述图像特征进行多分支训练，将多语义标签图像的特征聚类，并基于深度学习训练框架构建出分类器，所述训练网络单元3，用以通过得到的分类器，输出识别后的所述含有多语义的标签图像。优选地，所述卷积神经网络单元2基于inception-bn网络结构。

在本实施例中的方案目标以10个常见场景为例，对10个常见场景的数据进行场景分类，分别是：美食、绿植、文字、沙滩、雪景、蓝天、背光、日出日落、夜景和舞台。显而易见，这些图像数据中存在着不少多语义标签的图像，比如蓝天的正样本中可能也是绿植的正样本，日出日落的图像也同时具有背光的特性，舞台的样本中也存在夜景的图像。实际的生产需求中，往往得到的更多是多语义标签的数据，然而，大量的多标签数据也带来了大量的标注任务，而本发明所提出的多分支训练方法，能够针对这些数据，得到一个较好的模型。

在所述预处理单元1，数据来源主要来自ImageNet和Places两大数据集和网络收集的样图。其中，美食可细分为69个子类，文字可细分为报纸，明信片，信件等子类，其余类别也可进行细分。另外，作为负样本收集的背景类需要尽可能地与正样本(即目标10类)有较大的L2距离，代表不同的语义信息，从而扩大训练样本的类间距离，使训练后得到的模型得到更好的表达能力。

在所述卷积神经网络单元2，本采用的基网络为inception-bn网络结构，该网络在Googlenet的基础上进行了改进，一方面增加了bn层来减少了Internal Covariate Shift，使每一个输出都归一化到N(0,1)的高斯分布，另一方面，用3x 3的卷积替代inception模块中5x 5的卷积核，降低了计算量的同时加速了计算。另外，修改了原始的inception-bn网络结构，在网络中加入了Resnet网络的直连结构。通过引入残差网络结构，直接将输入信息绕道传到输出，保护信息的完整性可以加深网络，减缓因网络层数不断加深导致在训练集上误差增大，梯度弥散的问题。

同时，本实施例还尝试了将常见的ReLU激活函数替换成另一种激活函数，称为Concatenated Rectified Linear Units，简称为CReLU。ReLU函数的表达式为：f(x)＝max(0,x)，即当x>0，则输入等于输出；当x<＝0，则输出等于0。ReLU相对于sigmoid等函数时，计算量节省很多，同时relu会使一部分神经元的输出为0，造成网络的稀疏性，减少参数的相互依赖，缓解过拟合的问题产生，而本发明所使用的CReLU，正是在ReLU函数上进行改进，CReLU的数学表达式为：设[·]+＝max(·,0)，CRELU定义CReLU函数为

CReLU(x)＝([x]+,[-x]+)

在所述训练网络单元3中，作为本实施例中最重要的部分是在多语义标签的图像数据上，利用多分支训练，提高类间距离，达到优异的分类能力。在本方案中，将10类的数据，分为3组，分别是{{美食，绿植，舞台},{文字，背光，蓝天，夜景},{日出日落，沙滩，雪景}}，深度学习训练框架为mxnet，如图4所示，该框架具有速度快，省显存的特点。网络训练分为多个步骤。

3.1将所有单标签数据打batch后输入网络训练，在验证集准确率稳定不升后，降学习率为原来的1/10，多次降学习率后，网络性能趋于稳定。这一步骤主要是为了提取所有数据的特征，使预训练的网络在所有数据上具有一定的普适性，网络的权重参数在所有的数据上具有较好的表达能力。便于进行下一步的微调操作。

3.2在得到第3.1步的模型之后，对于每一个分支，去掉网络的最后一层全连接层，固定前边的所有层的所有学习率，使之权重不更新，在mxnet中，固定网络的学习率需要将每一层的lr_mult设为0，之后用各个分支的数据微调全连接层。需要注意的是，在每个分支的样本选择中，依然需要包括少量的其他分支的正样本作为本分支的负样本，用来使该分支对其余分支的类别数据具有一定的辨识能力。经过这些操作后，可以得到三个分支，三个模型。

3.3模型融合，在3.2中得到多个分支的模型后，需要将多个模型进行融合，在mxnet中，通过mxnet.nd.load可以获得各个模型的权重和偏置，将多个模型的权重和偏置相加，即可得到合并后的新模型，同时，还需要修改网络结构，将三个全连接层接到最后一个池化层，至此得到合并后的网络结构和模型。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

总体而言，本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施，而其它一些方面可以以固件或软件实施，该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示，但是可以理解本文描述的框、设备、***、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。

此外，虽然操作以特定顺序描述，但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行，或是要求所有所示的操作被执行以实现期望结果。在一些情形下，多任务或并行处理可以是有利的。类似地，虽然若干具体实现方式的细节在上面的讨论中被包含，但是这些不应被解释为对本公开的范围的任何限制，而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对，在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。

Claims

1.一种基于多分支训练的场景分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的场景分类方法，其特征在于，在所述深度学习训练框架构中还包括：输入多分支训练网络后进行降学习率处理。

3.根据权利要求2所述的场景分类方法，其特征在于，在所述深度学习训练框架构中，进一步包括：

首先，对每一个分支，去掉网络的最后一层全连接层，

其次，固定前边的所有层的所有学习率，使之权重不更新，

最后，再用各个分支的数据微调全连接层。

4.根据权利要求1所述的场景分类方法，其特征在于，所述卷积神经网络增设一残差网络结构。

5.根据权利要求1所述的场景分类方法，其特征在于，所述卷积神经网络的激活函数为：连接修正线性单元Concatenated Rectified Linear Units。

6.根据权利要求1-5任一项所述的场景分类方法，其特征在于，所述深度学习训练框架构为mxnet。

7.根据权利要求1-5任一项所述的场景分类方法，其特征在于，含有多语义的标签图像是从ImageNet或Places的数据集，以及网络中收集的样图。

8.根据权利要求1-5任一项所述的场景分类方法，其特征在于，所述预处理还包括：将作为负样本收集的背景类样图与正样本有一设定距离，用以表示不同语义信息。

9.基于多分支训练的场景分类***，其特征在于，包括：预处理单元、卷积神经网络单元、训练网络单元，

10.根据权利要求9所述的场景分类***，其特征在于，所述卷积神经网络单元基于inception-bn网络结构。