CN110517270A

CN110517270A - 一种基于超像素深度网络的室内场景语义分割方法

Info

Publication number: CN110517270A
Application number: CN201910642478.7A
Authority: CN
Inventors: 王立春; 陆建霖; 王少帆; 孔德慧; 李敬华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-11-29
Anticipated expiration: 2039-07-16
Also published as: CN110517270B

Abstract

一种基于超像素深度网络的室内场景语义分割方法，能够缓解像素作为深度网络计算单元带来的图像语义分割边界不清晰以及计算量大的问题，同时打破现有深度网络方法无法接受无序的超像素集合作为输入的局限。该方法包括：(1)对RGB颜色图像使用简单线性迭代聚类分割算法SLIC得到超像素集合；(2)计算每一个超像素的最小包围矩形；(3)基于超像素深度网络RCN提取图像的颜色特征与深度特征；(4)用每一个超像素的最小包围矩形，在颜色与深度的多层次特征图上进行裁剪和重塑操作，得到每一个超像素颜色多层次特征表示与深度多层次特征表示；(5)融合超像素颜色多层次特征与深度多层次特征得到超像素特征，对超像素进行分类。

Description

一种基于超像素深度网络的室内场景语义分割方法

技术领域

本发明涉及多媒体技术与计算机图形学的技术领域，尤其涉及一种基于超像素深度网络的室内场景语义分割方法。

背景技术

场景语义分割为场景图像的每个像素点提供语义标签，是场景理解的核心工作。根据场景类别不同，场景语义分割可分为室外场景语义分割与室内场景语义分割两类。相较于室外场景，室内场景有以下几个特点：1、物体种类繁杂；2、物体间遮挡更为严重；3、场景差异性大；4、光照不均匀。因此相对于室外场景而言，室内场景研究进展较为缓慢。室内场景语义分割结果提供了对象级场景语义理解，对于自动理解环境、检测环境状态及其变化等具有重要价值，安防监控领域的事件检测等，在机器人视觉、安防监控、消防等场景有着较为广泛的应用。

较早的室内场景语义分割工作以RGB图像为源数据，随着RGB-D传感器(例如Microsoft Kinect相机)的迅速发展，获取三维场景数据越来越容易，近年来越来越多的研究工作考虑RGB-D数据。RGB-D图像是同步采集的彩色图像和深度图像，包含图像的颜色与深度信息。深度图像(Depth Image)，或者称做距离图像(Range Image)，是一种特殊的图像，每个像素信息包含了实际场景中对应点的深度。与RGB图像相比，不易受光照、阴影等的影响，能够更好地表现场景的原始面貌，因此在室内场景中得到更广泛的应用。Silberman与Fergus的研究成果表明，当对室内场景进行语义分割时，使用RGB-D数据的实验结果明显优于只使用RGB的结果。

在室内场景语义分割的研究工作当中，根据计算单元的不同，可分为两类：基于像素的语义分割，基于超像素的语义分割。

室内场景像素级语义分割方法是近些年来随着FCN的提出而崛起的一种新的语义分割方法，通常利用神经网络模型完成像素特征提取与分类操作，其基本框架如图1所示。

FCN是Jonathan Long等人于2015年提出的一种卷积深度网络，使得图像语义分割可以实现端到端的训练。FCN使用一系列卷积操作与最大池化操作学习室内场景RGB颜色图像的特征图，然后使用上采样将特征图调整到与原图尺寸一致，最终得到每个像素的物体类别。在NYU V2数据集上取得了46.1％的像素级语义分割准确率。但是FCN对于物体边界和形状结构的描述能力非常差。为了学习到更多的上下文信息，Liang-Chieh Chen等使用条件随机场(CRF)将全局上下文与物体结构信息整合到FCN中。2015年，Alex等人提出了一个用于多类分割的编码-解码深度模型SegNet，该模型由一系列非线性编码器、对应的解码器以及最后的softmax分类层构成，每一个编码器由一个或多个卷积器、非重叠max-pooling层、下采样层构成，而每一个解码器由上采样层、一个或多个卷积层构成。解码器是SegNet的关键网络结构，它的解码器逐层递进，且每个层次的解码器都有与之一一对应的编码器。2017年，Heng Fan等人利用多模态RNNs(MM-RNNs)网络结构分别基于彩色图(RGB)和深度图(Depth)进行逐像素预测，然后将两者预测结果相结合作为最终的预测结果，在NYU V1数据集上取得了73％的像素级语义分割准确率。

超像素级别的室内场景语义分割方法，首先根据像素相似性将室内场景图像分割成为超像素，然后提取超像素特征，进而对超像素进行分类，最后使用上下文优化算法对分类结果进行优化。2011年，Silberman和Fergus等人利用SIFT算子提取超像素特征，以一种反馈式前向神经网络作为判别分类器，通过条件随机场(CRF)概率模型进行上下文优化，在NYU V1数据集上获得了56.6％的语义分割准确率。Liefeng Bo与Xiaofeng Ren在2011年针对室内场景识别提出四类特征表示，分别是尺寸核描述子(提取物体物理尺寸信息)、形状核描述子(提取物体三维形状信息)、梯度核描述子(提取物体深度信息)与局部二值核描述子(提取物体局部纹理信息)，它们优于传统的3D特征(如Spin Image)，并且极大地提高了RGB-D室内场景中的物体识别准确率。Xiaofeng Ren等在2012年将深度核描述子用于描述超像素特征，并使用马尔科夫随机场基于分割树对超像素间的上下文建模，将在NYU v1数据集上的室内场景语义分割准确率由56.6％提升至76.1％。2016年，Salman和Mohammed等人基于表面、深度和全局几何特征提出了一种新的条件随机场(CRF)概率模型，他们的方法在Ceiling、Wall等平面型语义类别对象上识别效果非常显著，在NYU V1数据集上取得了61.7％的语义分割准确率。

图像像素是矩阵规格化的，因此像素级室内场景语义分割方法可以直接使用深度网络提取图像特征。基于深度网络的像素级室内场景语义分割方法已经取得了显著的效果。但是由于基于深度网络的像素级语义分割方法均是将经过下采样后尺寸缩小的特征图上采样至原图像大小，因此基于深度网络的像素级语义分割结果边界模糊。同时图像像素数量巨大导致计算成本较大。而超像素分割算法根据图像像素间的相似性将临近的像素集合聚合成为超像素，超像素与超像素之间就具有了明显的边界。同时，一副图像分割成超像素之后，所包含的超像素数量一般不超过一千，以超像素为基本计算单元的计算成本大大降低。但是将图像分割成超像素之后，超像素间的位置关系不再是规则化的，即一张图像分割得到的超像素之间是无序的，无法将超像素作为深度网络的输入。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于超像素深度网络的室内场景语义分割方法，其能够缓解像素作为深度网络计算单元带来的图像语义分割边界不清晰以及计算量大的问题，同时打破了现有深度网络方法无法接受无序的超像素集合作为输入的局限。

本发明的技术方案是：这种基于超像素深度网络的室内场景语义分割方法，该方法包括以下步骤：

(1)对RGB颜色图像使用简单线性迭代聚类分割算法SLIC得到超像素集合；

(2)计算每一个超像素的最小包围矩形；

(3)基于超像素深度网络RCN提取图像的颜色特征与深度特征；

(4)使用每一个超像素的最小包围矩形，在颜色与深度的多层次特征图上进行裁剪和重塑操作，得到每一个超像素颜色多层次特征表示与深度多层次特征表示；

(5)融合超像素颜色多层次特征与深度多层次特征得到超像素特征，对超像素进行分类，实现室内场景语义分割。

本发明以超像素作为深度网络输入，所以能够缓解像素作为深度网络计算单元带来的图像语义分割边界不清晰以及计算量大的问题；提出了一种用于RGB-D室内场景语义分割的超像素深度网络结构，该网络包含两个子网络，分别以RGB图像与HHA图像作为输入，提取图像颜色特征与深度特征；结合超像素最小包围矩形及深度网络特征图得到超像素的多层次特征表示。基于该特征表示对超像素进行分类，实现室内场景RGB-D图像的超像素级语义分割，同时打破了现有深度网络方法无法接受无序的超像素集合作为输入的局限。

附图说明

图1示出了室内场景像素级语义分割方法的基本框架。

图2是根据本发明的基于超像素深度网络的室内场景语义分割方法的流程图。

图3是RCN网络结构。

图4是裁剪和重塑的示意图。

具体实施方式

如图2所示，这种基于超像素深度网络的室内场景语义分割方法，该方法包括以下步骤：

(2)计算每一个超像素的最小包围矩形；

(3)基于超像素深度网络RCN提取图像的颜色特征与深度特征；

优选地，所述步骤(1)中简单线性迭代聚类分割算法SLIC包括以下分步骤：

(1.1)确定分割得到的超像素的数量K；

(1.2)对于一张有N个像素的图像，以步长为初始化K个聚类中心c_j，1≤j≤K；

(1.3)将聚类中心点c_j移至它的3x3邻域内的最小梯度位置，其坐标记为(x_j,y_j)；

(1.4)给每一个像素点i，其坐标记为(x_i,y_i)，设置一个标签l(i)＝-1，以及距离d(i)＝∞；

(1.5)将图像由RGB颜色空间转换到LAB颜色空间；

(1.6)对于每个中心点c_j，在它的2S×2S的邻接区域中，根据公式(1)计算区域内每个像素点i与c_j的距离d_s；

其中，d_lab表示第j个聚类中心c_j与像素点i的颜色差异，d_xy表示第j个聚类中心c_j与像素点i的空间距离，而d_s是颜色距离和归一化的空间距离的加权和；变量m用来权衡颜色距离和空间距离对像素相似度的影响，m越大，空间距离影响越大，超像素更紧凑；m越小，

颜色距离影响越大，超像素更贴合图像边缘；

(1.7)若d_s＜d(i)，则置l(i)＝l(c_j)，d(i)＝d_s；

(1.8)重复步骤(1.6)-(1.7)，直到所有聚类中心点c_j的邻接区域都被搜索；

(1.9)计算每个超像素的重心，将其做为超像素新的聚类中心；

(1.10)计算新聚类中心与旧聚类中心的距离E；

(1.11)如果E小于给定的阈值，算法收敛；否则重复步骤(1.6)-(1.10)。

优选地，所述步骤(2)中，对于每一个超像素找出属于该超像素的最左、最右、最上和最下的四个像素相应的坐标，取最左像素的坐标x₀与最上像素的坐标y₀组成最小包围矩形左上角的坐标值(x₀,y₀)；取最右像素的坐标x₁与最下像素的坐标y₁组成最小包围矩形右下角的坐标值(x₁,y₁)；使用两个坐标值(x₀,y₀)与(x₁,y₁)表示超像素的最小包围矩形。

优选地，所述步骤(3)中，包括计算图像多层次颜色特征和图像多层次深度特征的卷积层(Conv1，Pool1；Conv2，Pool2；Conv3，Pool3；Atrous Conv4，Pool4；Atrous Conv5，Pool5)。

优选地，所述步骤(4)中假设输入图像的大小为(H₀,W₀)，特征图大小为(H,W)，超像素SP的最小包围矩形对应于输入图像的左上角和右下角坐标为(x₀,y₀)与(x₁,y₁)；

裁剪特征图的具体方法如下：

(a.1)计算特征图相对输入图像的缩放比例(sh,sw)，其中

(a.2)将超像素SP的最小包围矩形左上角和右下角坐标按照特征图相对输入图像的比例进行缩放且记为(x₀',y₀')与(x₁',y₁')，其中

(a.3)特征图上左上角坐标为(x₀',y₀')与右下角坐标为(x₁',y₁')的矩形框所包围的特征图即为超像素SP的特征图；

重塑操作使用双线性插值方法：假设重塑操作输入的特征图大小为H'×W'，输出的特征图大小为1×1；具体步骤如下：

(b.1)计算输出特征图上像素点在超像素SP特征图上的位置坐标(x_r,y_r)，其计算为公式(2)：

(b.2)在输入特征图上选取距离坐标(x_r,y_r)最近的四个坐标(x_r1,y_r1)、(x_r1,y_r2)、(x_r2,y_r1)以及(x_r2,y_r2)，其中x_r1≤x_r,y_r1≤y_r,x_r2≥x_r,y_r2≥y_r；

(b.3)根据公式(3)计算输出特征图的特征值F；

F₁₁、F₁₂、F₂₁、F₂₂分别是特征图上(x_r1,y_r1)、(x_r1,y_r2)、(x_r2,y_r1)以及(x_r2,y_r2)位置对应的特征值。

优选地，所述步骤(5)中，将图像多层次颜色特征RGB支路中pool3、pool4以及pool5的输出，经过裁剪和重塑得到的3组超像素颜色特征按通道进行拼接作为超像素多层次颜色特征；将图像多层次深度特征HHA支路中pool3、pool4以及pool5的输出，经过裁剪和重塑得到3组超像素深度特征按通道进行拼接作为超像素多层次深度特征。

优选地，所述步骤(5)中，将超像素多层次颜色特征与超像素多层次深度特征的通道相连接，形成超像素特征，实现颜色信息与深度信息融合。

优选地，所述步骤(5)中，三个全连接层FC6、FC7、FC8构成了超像素分类器。其中，FC6与FC7的输出维度均为4096，且均后接Relu激活函数与dropout比例为0.5的dropout层；FC8的输出维度为分类任务的语义类别数量；最后接一层softmax层输出每个超像素属于各语义类别的概率。

优选地，初始学习率设置为0.01，并且学习率以2000个step为步长，衰减率为0.7进行衰减，FC6、FC7以及FC8的所有参数的初始化使用Xavier初始化方法，除了最后一层不使用激活函数外，其余卷积层与全连接层均使用Relu作为激活函数。

以下更详细地说明本发明。

本发明在NYUv1 RGB-D数据集上做测试，该数据集包含2284个场景，共13种类别。将数据集划分为两个不相交的子集，分别用于训练和测试。训练集中包含1370个场景，测试集中包含914个场景。

本发明所提出方法的具体步骤如下：

1.超像素分割

本发明使用简单线性迭代聚类分割算法(simple linear iterativeclustering，SLIC)对室内场景图像进行超像素分割。

简单线性迭代聚类(SLIC)是在K-Means聚类算法的基础上扩展而来的，是一种简单而高效的构建超像素的方法。具体算法步骤如下：

(1)首先确定参数K，即分割得到的超像素的数量；

(2)对于一张有N个像素的图像，以步长为初始化K个聚类中心c_j，1≤j≤K；

(3)将聚类中心点c_j移至它的3x3邻域内的最小梯度位置，其坐标记为(x_j,y_j)；

(4)给每一个像素点i(其坐标记为(x_i,y_i))设置一个标签l(i)＝-1，以及距离d(i)＝∞；

(5)将图像由RGB颜色空间转换到LAB颜色空间；

(6)对于每个中心点c_j，在它的2S×2S的邻接区域中，计算区域内每个像素点i与c_j的距离d_s；

其中，距离的测量公式为：

其中，d_lab表示第j个聚类中心c_j与像素点i的颜色差异，d_xy表示第j个聚类中心c_j与像素点i的空间距离，而d_s是颜色距离和归一化的空间距离的加权和。公式中的变量m用来权衡颜色距离和空间距离对像素相似度的影响。m越大，空间距离影响越大，超像素更紧凑；m越小，颜色距离影响越大，超像素更贴合图像边缘。

(7)若d_s＜d(i)，则置l(i)＝l(c_j)，d(i)＝d_s；

(8)重复(6)～(7)，直到所有聚类中心点c_j的邻接区域都被搜索；

(9)计算每个超像素的重心，将其作为超像素新的聚类中心；

(10)计算新聚类中心与旧聚类中心的距离E；

(11)如果E小于给定的阈值，算法收敛；否则重复(6)～(10)。

2.计算超像素最小包围矩形

对于每一个超像素找出属于该超像素的最左、最右、最上和最下的四个像素相应的坐标，取最左像素的坐标x₀与最上像素的坐标y₀组成最小包围矩形左上角的坐标值(x₀,y₀)；取最右像素的坐标x₁与最下像素的坐标y₁组成最小包围矩形右下角的坐标值(x₁,y₁)。使用两个坐标值(x₀,y₀)与(x₁,y₁)表示超像素的最小包围矩形。

3.基于超像素深度网络Region Classification Net(RCN)分类超像素

RCN网络结构如图3所示，包括计算图像多层次颜色特征和图像多层次深度特征的卷积层(Conv1，Pool1；Conv2，Pool2；Conv3，Pool3；Atrous Conv4，Pool4；Atrous Conv5，Pool5)、计算超像素特征的crop and size模块和用于超像素分类的全卷积层(FC6；FC7；FC8)。

3.1卷积层

将深度图像编码为HHA图像后，结合RGB图像作为RCN网络的输入，利用卷积层提取多层次特征。卷积层以VGG16的前5层卷积层为基础，具体参数如表1所示，实现场景图像的多层次、多模态特征提取。

表1

表1中，Conv层的K表示卷积核大小；Pool层的K表示池化窗口的大小；C表示卷积操作输出通道的数量；S表示卷积操作步长。其中，Atrous_Conv4_2与Atrous_Conv5_2是扩张率为2的空洞卷积，Atrous_Conv4_3与Atrous_Conv5_3是扩张率为4的空洞卷积。网络参数基于VGG16在ImageNet上预训练的卷积层参数进行fine tune。

3.2crop(裁剪)and resize(重塑)模块

RCN网络的crop and resize模块示意图如图4所示。基于超像素最小包围矩形在Pool3、Pool4与Pool5这三层输出的特征图上进行裁剪操作得到裁剪的特征图(H′,W′,C)。然后将每个通道的特征图(H’,W’)resize成1×1大小，得到超像素的特征表示(1,1,C)。

假设输入图像的大小为(H₀,W₀)，特征图大小为(H,W)，超像素SP的最小包围矩形对应于输入图像的左上角和右下角坐标为(x₀,y₀)与(x₁,y₁)。裁剪特征图的具体方法如下：

(1)计算特征图相对输入图像的缩放比例(sh,sw)，其中

(2)将超像素SP的最小包围矩形左上角和右下角坐标按照特征图相对输入图像的比例进行缩放且记为(x₀',y₀')与(x₁',y₁')，其中

(3)特征图上左上角坐标为(x₀',y₀')与右下角坐标为(x₁',y₁')的矩形框所包围的特征图即为超像素SP的特征图；

resize操作使用双线性插值方法。假设resize操作输入的特征图大小为H'×W'，输出的特征图大小为1×1。具体算法步骤如下：

(1)计算输出特征图上像素点在超像素SP特征图上的位置坐标(x_r,y_r)，其计算如下式所示：

(2)在输入特征图上选取距离坐标(x_r,y_r)最近的四个坐标(x_r1,y_r1)、(x_r1,y_r2)、(x_r2,y_r1)以及(x_r2,y_r2)，其中x_r1≤x_r,y_r1≤y_r,x_r2≥x_r,y_r2≥y_r；

(3)计算输出特征图的特征值F；

其中，

3.3融合超像素多层次颜色特征和多层次深度特征

将图像多层次颜色特征(RGB支路中pool3、pool4以及pool5的输出)经过crop andresize得到的3组超像素颜色特征按通道进行拼接作为超像素多层次颜色特征，将图像多层次深度特征(HHA支路中pool3、pool4以及pool5的输出)经过crop and resize得到3组超像素深度特征按通道进行拼接作为超像素多层次深度特征。

更进一步地，将超像素多层次颜色特征与超像素多层次深度特征的通道相连接，形成超像素特征，实现颜色信息与深度信息融合。

3.4超像素分类

图3中，三个全连接层FC6、FC7、FC8构成了超像素分类器。其中，FC6与FC7的输出维度均为4096，且均后接Relu激活函数与dropout比例为0.5的dropout层；FC8的输出维度为分类任务的语义类别数量；最后接一层softmax层输出每个超像素属于各语义类别的概率。

本发明采用由Silberman和Fergus等人收集并整理的NYU V1数据集进行实验，该数据集总共有13个语义类别(Bed、Blind、Bookshelf、Cabinet、Ceiling、Floor、Picture、Sofa、Table、TV、Wall、Window、Background)和7个场景。数据集包含2284帧彩色图像(RGB)和2284帧深度图像(Depth)，彩色图像与深度图像之间一一对应，每张图像分辨率均为480×640。按照传统划分方法，本发明选取数据集的60％用于训练，40％用于测试。

基于NYU V1数据集，进行了本发明所提方法与Silberman，Ren，Salman H.Khan,Anran,Heng等5人所提方法的对照实验，实验结果见表2(类平均准确率)，可以看出本发明所提出的方法在室内场景语义标注中取得了优秀的标注效果。

本发明使用常用的图像处理方式对输入的RGB与HHA图像做数据增广，随机从以下五种方式中挑选一种方式对任意一对训练图像(RGB与HHA图像)进行处理：1)不进行数据增广；2)将源图像随机裁剪成原面积的90％，再采样至源图像大小；3)将源图像随机裁剪成原面积的80％，再采样至源图像大小；4)将源图像随机裁剪成原面积的70％，再采样至源图像大小；5)水平翻转。

本发明中初始学习率设置为0.01，并且学习率以2000个step为步长，衰减率为0.7进行衰减，FC6、FC7以及FC8的所有参数的初始化使用Xavier初始化方法，除了最后一层不使用激活函数外，其余卷积层与全连接层均使用Relu作为激活函数。

NYU V1数据集上，本发明与其他标注方法的类平均准确率比较如表2所示。

表2

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于超像素深度网络的室内场景语义分割方法，其特征在于：该方法包括以下步骤：

(2)计算每一个超像素的最小包围矩形；

(3)基于超像素深度网络RCN提取图像的颜色特征与深度特征；

2.根据权利要求1所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：所述步骤(1)中简单线性迭代聚类分割算法SLIC包括以下分步骤：

(1.1)确定分割得到的超像素的数量K；

(1.5)将图像由RGB颜色空间转换到LAB颜色空间；

其中，d_lab表示第j个聚类中心c_j与像素点i的颜色差异，d_xy表示第j个聚类中心c_j与像素点i的空间距离，而d_s是颜色距离和归一化的空间距离的加权和；变量m用来权衡颜色距离和空间距离对像素相似度的影响，m越大，空间距离影响越大，超像素更紧凑；m越小，颜色距离影响越大，超像素更贴合图像边缘；

(1.7)若d_s＜d(i)，则置l(i)＝l(c_j)，d(i)＝d_s；

(1.10)计算新聚类中心与旧聚类中心的距离E；

3.根据权利要求2所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：所述步骤(2)中，对于每一个超像素找出属于该超像素的最左、最右、最上和最下的四个像素相应的坐标，取最左像素的坐标x₀与最上像素的坐标y₀组成最小包围矩形左上角的坐标值(x₀,y₀)；取最右像素的坐标x₁与最下像素的坐标y₁组成最小包围矩形右下角的坐标值(x₁,y₁)；使用两个坐标值(x₀,y₀)与(x₁,y₁)表示超像素的最小包围矩形。

4.根据权利要求3所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：所述步骤(3)中，包括计算图像多层次颜色特征和图像多层次深度特征的卷积层(Conv1，Pool1；Conv2，Pool2；Conv3，Pool3；Atrous Conv4，Pool4；Atrous Conv5，Pool5)。

5.根据权利要求4所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：所述步骤(4)中假设输入图像的大小为(H₀,W₀)，特征图大小为(H,W)，超像素SP的最小包围矩形对应于输入图像的左上角和右下角坐标为(x₀,y₀)与(x₁,y₁)；

裁剪特征图的具体方法如下：

(a.1)计算特征图相对输入图像的缩放比例(sh,sw)，其中

(b.3)根据公式(3)计算输出特征图的特征值F；

6.根据权利要求5所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：所述步骤(5)中，将图像多层次颜色特征RGB支路中pool3、pool4以及pool5的输出，经过裁剪和重塑得到的3组超像素颜色特征按通道进行拼接作为超像素多层次颜色特征；将图像多层次深度特征HHA支路中pool3、pool4以及pool5的输出，经过裁剪和重塑得到3组超像素深度特征按通道进行拼接作为超像素多层次深度特征。

7.根据权利要求6所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：所述步骤(5)中，将超像素多层次颜色特征与超像素多层次深度特征的通道相连接，形成超像素特征，实现颜色信息与深度信息融合。

8.根据权利要求7所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：所述步骤(5)中，三个全连接层FC6、FC7、FC8构成了超像素分类器。其中，FC6与FC7的输出维度均为4096，且均后接Relu激活函数与dropout比例为0.5的dropout层；FC8的输出维度为分类任务的语义类别数量；最后接一层softmax层输出每个超像素属于各语义类别的概率。

9.根据权利要求8所述的基于超像素深度网络的室内场景语义分割方法，其特征在于：初始学习率设置为0.01，并且学习率以2000个step为步长，衰减率为0.7进行衰减，FC6、FC7以及FC8的所有参数的初始化使用Xavier初始化方法，除了最后一层不使用激活函数外，其余卷积层与全连接层均使用Relu作为激活函数。