CN105389584B

CN105389584B - 基于卷积神经网络与语义转移联合模型的街景语义标注方法

Info

Publication number: CN105389584B
Application number: CN201510671900.3A
Authority: CN
Inventors: 袁媛; 王�琦; 高君宇
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-10-13
Filing date: 2015-10-13
Publication date: 2018-07-10
Anticipated expiration: 2035-10-13
Also published as: CN105389584A

Abstract

本发明涉及一种基于卷积神经网络与语义转移联合模型的街景标注方法，包括深度特征提取和软限制语义转移两个部分，通过构建一个更为平衡的训练集，并在此之上训练一个具有先验信息的超像素分类深度模型。它能够充分挖掘场景的先验信息，学***均类别准确率达到了77％和53％以上。

Description

基于卷积神经网络与语义转移联合模型的街景语义标注方法

技术领域

本发明属于计算机视觉，图形处理技术领域，具体涉及一种基于卷积神经网络与语义转移联合模型的街景标注方法。

背景技术

随着智能驾驶领域的不断发展，无人驾驶技术已经成为该领域研究的重要方向之一。如何使计算机理解车辆行驶过程中的周围环境并针对性地做出驾驶操作，是无人驾驶汽车的重要研究内容。当前的无人驾驶***采用一些行人检测、道路检测、交通标志检测等传统技术的整合来达到理解周围街景的目的，但效果并不显著。近几年，研究者也提出了采用街景标注的方法来使计算机理解场景。街景标注是一个对场景进行逐像素标注类别的图像处理任务。但是由于场景内所需标注的目标类别过多，各个目标之间的差异性特征难以得到有效提取，导致多目标同时进行识别标注的难度较大。之前的研究主要分为两类：参数方法和非参数方法。

参数方法有Shotton等人在文献“J.Shotton,J.Winn,C.Rother,etal.TextonBoost for Image Understanding:Multi-Class Object Recognition andSegmentation by Jointly Modeling Texture,Layout,and Context.InternationalJournal of Computer Vision,81(1),2-23,2009.”中提出的随机场模型。通过提取纹理基元(Texton)的特征，在待标注图上构建条件随机场模型和能量函数，选取能量函数最小时的观测值作为最终的标注结果。

非参数方法有Tighe和Lazebnik在文献“J.Tighe andS.Lazebnik.Superparsing.International Journal of Computer Vision,101(2),329-349,2013.”中提出的基于超像素的语义转移方法。该方法通过将图像分割为超像素，将训练集中与之相似的超像素的标签转移给待标注超像素，从而完成整幅图像的标注。

这些方法都有其局限性。采用传统的手工特征来描述图像，不能够很好的描述图像的内在表达以及场景中的先验信息；除此之外，这些方法大都受制于数据集不平衡现象的影响，使得一些在数据集中出现较少的目标类别得不到有效训练，实用性较低。

发明内容

要解决的技术问题

为了避免现有数据集不平衡问题以及现有方法不能提取到更丰富和更差异性的目标特征的问题，本发明提出一种基于卷积神经网络与语义转移联合模型的街景语义标注方法。

技术方案

一种基于卷积神经网络与语义转移联合模型的街景语义标注方法，其特征在于包括深度特征提取和软限制语义转移两个部分，步骤如下：

深度特征提取：

A)训练阶段：

步骤A1：采用过分割算法SLIC将训练集中的每一幅图像分别分割成N、N±50、N±25、N±20个超像素，保留每个超像素在原图中的位置，其他区域的颜色值则置为0，生成一幅与原图像大小相同的图像，将每个超像素中占其区域50％以上的语义标签作为该超像素的语义标签；对上述得到的N、N±50、N±25、N±20个超像素分别进行左右翻转；

步骤A2：在N个超像素里面提取大比例目标放入训练数据中，所述的大比例目标为训练集中天空、建筑和道路；在N个超像素以及左右翻转后得到的N个超像素里面提取常见目标放入训练数据中，所述的常见目标为目标的像素数量在整个训练集中占据的比例p_c≥10％；在N个超像素以及左右翻转后得到的N个超像素、N±50个超像素以及左右翻转后得到的N±50个超像素、N±25个超像素以及左右翻转后得到的N±25个超像素里面提取不常见目标放入训练数据中，所述的不常见目标为目标的像素数量在整个训练集中占据的比例3％≤p_c＜10％；在N个超像素以及左右翻转后得到的N个超像素、N±50个超像素以及左右翻转后得到的N±50个超像素、N±25个超像素以及左右翻转后得到的N±25个超像素、N±20个超像素以及左右翻转后得到的N±20个超像素里面提取稀有目标放入训练数据中，所述的稀有目标为目标的像素数量在整个训练集中占据的比例p_c＜3％；

步骤A3：将训练数据及其所对应的语义标签输入到AlexNet网络中，对AlexNet网络进行全监督训练得到深度模型；所述的AlexNet网络中的“fc8”层的输出维度为L+1；

B)测试阶段：

步骤B1：采用过分割算法SLIC将待标注图像分割成N个超像素，保留每个超像素在原图中的位置，其他区域的颜色值则置为0，生成一幅与原图像大小相同的图像，将每个超像素中占其区域50％以上的语义标签作为该超像素的语义标签；

步骤B2：将待标注图像的N个超像素输入到深度模型，对每一个超像素提取4096维的特征，通过soft-max层对特征进行分类，得到超像素被划分为每一类别的得分向量其中，下角标i表示超像素的序列，1≤i≤N，i∈Z，L代表目标类别的数量；

软限制语义转移：

步骤1：分别计算训练集中每幅图像和待标注图像的GIST、空间金字塔和颜色直方图三个特征向量；分别计算训练集中每幅图像与待标注图像三个特征的欧式距离，并按升序排列；记录每幅训练图像在三个特征向量下的位次，选择最小的位次作为该训练图像与待标注图像的接近程度；选取前k个最接近待标注图像的训练图像作为检索集；

步骤2：以待标注图像的超像素为结点，相邻超像素的关系集合作为边，构建马尔科夫随机场模型，定义模型的能量函数：

其中，SP代表待标注图像的超像素集合；l表示在集合SP上取的一组观测值；代表第i个超像素在深度模型中输出的得分值；代表在给定观测标签l_i时的指示向量；ε_w代表待标注图像的相邻超像素的集合；P(l_i|l_l)与P(l_j|l_i)是统计了检索集中的相邻超像素的条件概率，δ函数是常见的Potts模型；λ是第二项的权重常数，w_ij是软限制权重：

其中，为第j个超像素在深度模型中的得分值；

步骤3：利用图割法中的α-β交换算法最优化能量函数，取最小化能量函数值时的观测变量l为街景语义标注结果。

所述的λ＝0.5。

有益效果

本发明提出的一种基于卷积神经网络与语义转移联合模型的街景语义标注方法，通过构建一个更为平衡的训练集，并在此之上训练一个具有先验信息的超像素分类深度模型。它能够充分挖掘场景的先验信息，学***均类别准确率达到了77％和53％以上。

附图说明

图1本发明流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明提出了一种基于卷积神经网络和语义转移的联合模型的街景标注方法。具体的，该算法通过提取更丰富的和更具差异性的目标特征，结合场景中的上下文信息，提高了街景标注的准确性。为了优化时间性能，该发明将逐像素的标注问题转化为超像素的标注问题。其技术方案包括两大模块：深度特征提取与软限制语义转移。

特征提取：

1、超像素处理。首先把图像过分割为一定数量的超像素，并保留超像素在原图中的位置先验信息。

2、深度模型训练。在经典的AlexNet网络上进行特定超像素分类任务：通过监督地训练、不断调整网络参数达到对网络的训练目的。在生成训练数据过程中，采用分等级的数据增强方法来针对性地扩展现有训练集，使得训练数据能过更加平衡。具体来讲，在不同的参数(单幅图像的超像素生成数量)下来生成训练集，越稀少的数据，在越多的参数下生成数据以平衡数据集。除此之外，数据增强还采用了左右翻转的方法来加大平衡的力度。

3、超像素的初步标注。待模型训练完成后，待标注图像的超像素被送入到模型中进行初步分类。可以得到每一个超像素被分为n个目标分类的得分向量A＝{a₁,a₂,...,a_n}。

语义转移：

1、k近邻图像检索。对于一幅待标注图像，根据GIST、图像金字塔和颜色直方图三个特征在训练集中寻找前k相似的近邻图像。

2、训练集的语义信息转移。通过计算相邻超像素类别在训练集中出现的条件概率，作为局部的上下文信息转移到待标注的超像素中去。接着在待标注图像的所有超像素上构建马尔科夫随机场模型，并定义相应的能量函数。最终，通过最小化能量函数值求得整幅图像标注结果。

参照图1左，本发明的深度特征提取模块的实现步骤如下：

A)训练阶段：

步骤1、首先，超像素生成。对于训练集中的每一幅图像，采用过分割算法SLIC将其分别分割成N、N±50、N±25、N±20个超像素。为保留超像素在图像中的先验位置信息，将所生成的每个超像素单独作为一幅与原图像大小相同的图像，仅保留超像素在原图中的区域，其他区域的颜色值则置为0。将每个超像素中占其区域50％以上的语义标签作为该超像素的语义标签。最终，对得到的所述所有超像素进行数据加强，数据加强的方法为左右翻转。

步骤2、分等级的数据增强。统计训练集中目标类别(共L个)像素数量在整个训练集中占据的比例p_c。并根据比例大小分为四类，对于每一类在不同的方法下生成超像素，并加入到训练集。具体如表1所示：

表1

步骤3、深度模型的监督训练。采用AlexNet网络结构，调整网络中的“fc8”层的输出维度为(L+1)，其中多增加一项空类别。将训练数据及其所对应的语义标签输入到网络中，进行全监督地训练，不断修改网络参数，训练出最终的深度模型。

B)测试阶段：

步骤1、超像素生成。对于一幅待标注图像，采用与训练阶段步骤1相同的算法进行操作。

步骤2、深度特征提取及超像素标注。将超像素送入网络后，每一个超像素均会提取4096维的特征，并通过soft-max层对其进行分类，最终得到该超像素被划分为每一类别的得分值，组成一个得分向量其中，下角标i表示超像素的序列，1≤i≤N，i∈Z，L代表目标类别的数量。

参照图1右，本发明的软限制语义转移模块的实现步骤如下：

步骤1、k近邻图像检索。1)计算训练集中每幅图像的GIST(参考文献Nowozin S,Rother C,Bagon S,et al.Decision Tree Fields[A].In:IEEE InternationalConference on Computer Vision[C].New York:IEEE,2011.1668-1675.)(3通道，3个尺度，8方向和4方向，共计960维)、空间金字塔(参考文献Lazebnik S,Schmid C,PonceJ.Beyond Bags of Features:Spatial Pyramid Matching for Recognizing NaturalScene Categories[A].In:IEEE Conference on Computer Vision and PatternRecognition[C].New York:IEEE,2006,2169-2178.)(3级，共计4200维)和颜色直方图(3通道，8等分，共计24维)三个特征向量。2)同样方法计算待标注图像的三个特征向量。3)计算训练集中所有图像与待标注图像三个特征的欧式距离，并按升序排列。记录每幅训练图像在三种特征下的位次，选择最小的位次来作为该训练图像与待标注图像的接近程度。4)选取前k个最接近待标注图像的训练图像作为检索集。

步骤2、软限制的语义转移。对于一幅待标注图像，以其超像素为结点，相邻超像素的关系集合作为边，构建马尔科夫随机场模型。通过定义能量函数，将检索集中相邻超像素之间的条件概率转移至待标注图像。能量函数定义如下：

公式中SP代表待标注图像的超像素集合；l表示在集合SP上取的一组观测值；代表第i个超像素在深度模型中输出的得分值；代表在给定观测标签l_i时的指示向量(长度为L+1维，对应l_i的项为1，其余各项为0)；ε_w代表待标注图像的相邻超像素的集合；P(l_i|l_l)与P(l_j|l_i)是统计了训练集中的相邻超像素的条件概率，w_ij是软限制权重；δ函数是常见的Potts模型；λ是第二项的权重常数，在实际使用中，我们取λ＝0.5。具体的，w_ij的定义如下：

同上，为超像素i、j在深度模型中的得分值。

步骤3，利用图割法(参考文献Boykov Y,Veksler O,Zabih R.Fast ApproximateEnergy Minimization via Graph Cuts[J].IEEE Transactions on Pattern Analysisand Machine Intelligence,2001,23(11):1222-1239.)α-β交换算法最优化能量函数。取最小化能量函数值时的观测变量l作为最终的标注结果，完成语义标注任务。

本发明的效果可以通过以下仿真实验做进一步的说明。

1、仿真条件

本发明是在中央处理器为CPU [email protected]、内存128G、图形处理器为Tesla K40GPU、Red Hat 6.5操作***上，利用Caffe框架并结合MATLAB软件进行的仿真。

仿真中使用的数据为CamVid数据集的图像序列，该数据集由Brostow等人在文献“G.Brostow,J.Shotton,J.Fauqueur,et al.Segmentation and Recognition UsingStructure From Motion Point Clouds.In Proceeding of European Conference onComputer Vision.Springer,44-57,2008.”中提出，包括701张图像序列(分属于5个视频中)，其中468幅训练图像，233幅测试图像。

2、仿真内容

首先，利用训练数据训练好深度模型；然后，利用联合模型对测试集进行标注，并计算标注准确率。标注准确率分为逐像素标注准确率及平均类别准确率。

为了证明算法的有效性，选择了超像素分析模型(SuperParsing)，局部标签描述子模型(LLD)、基于语义模型的目标关系学习算法(LOR)以及结构化随机森林模型(SLiRF)作为对比算法，算法在文献“J.Tighe and S.Lazebnik.Superparsing.InternationalJournal of Computer Vision,101(2),329-349,2013.”中有详细说明；LLD算法是Yang等人在文献“Y.Yang,Z.Li,L.Zhang,et al.Local Label Descriptor for Example BasedSemantic Image Labeling.In Proceeding of European Conference on ComputerVision,361-375,2012.”中提出的；LOR算法在文献“H.Myeong,J.Chang,K.Lee.LearningObject Relationships via Graph-based Context Model.In Proceeding of IEEEConference on Computer Vision and Pattern Recognition,2727-2734,2012.”中提出的；SLiRF算法在文献“P.Kontschieder,S.Rota,M.Pelillo,et al.Structured Labels inRandom Forests for Semantic Labelling and Object Detection.IEEE Transactionson Pattern Analysis and Machine Intelligence,36(10),2104-2116,2014.”中有详细介绍。对比结果如表2所示。

表2

从表1可见，本发明的逐像素准确率(77.7％)接近最佳方法SuperParsing(78.6％)，但平均类别准确率(53.0％)远远高于其他算法。本发明通过提取更为丰富的、更具差异性的特征，使得平均类别准确率有了大幅度提升。本发明的在街景图像上进行的，但不局限于该类场景。算法设计中并没有特定场景的约束，因此还可以扩展到室内场景、服饰分割等领域。

Claims

1.一种基于卷积神经网络与语义转移联合模型的街景语义标注方法，其特征在于包括深度特征提取和软限制语义转移两个部分，步骤如下：

深度特征提取：

A)训练阶段：

步骤A1：采用过分割算法SLIC将训练集中的每一幅图像分别分割成N、N±50、N±25、N±20个超像素，保留每个超像素在原图中的位置，其他区域的颜色值则置为0，生成一幅与原图像大小相同的图像，将每个超像素中占其区域50％以上的语义标签作为该超像素的语义标签；对上述得到的N、N±50、N±25、N±20个超像素分别进行左右翻转；N为正自然数；

B)测试阶段：

软限制语义转移：

其中，为第j个超像素在深度模型中的得分值；

2.根据权利要求1所述的一种基于卷积神经网络与语义转移联合模型的街景语义标

注方法，其特征在于所述的λ＝0.5。