CN109829449B

CN109829449B - 一种基于超像素时空上下文的rgb-d室内场景标注方法

Info

Publication number: CN109829449B
Application number: CN201910174110.2A
Authority: CN
Inventors: 王立春; 王梦涵; 王少帆; 孔德慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2021-09-14
Anticipated expiration: 2039-03-08
Also published as: CN109829449A

Abstract

本发明公开了一种基于超像素时空上下文的RGB‑D室内场景标注方法，在计算机视觉领域，将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域，这些小区域保留了局部有效信息，且一般不会破坏图像中物体的边界信息。本方法中以0.08阈值确定的超像素的语义标注为优化目标，以0.06分割阈值确定的超像素作为空间上下文，用于优化语义标注结果。对叶节点以及中间节点对应的每一块超像素进行语义分类，得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率。本发明显著优于现有常规室内场景标注方法。

Description

一种基于超像素时空上下文的RGB-D室内场景标注方法

技术领域

本发明涉及RGB-D室内场景图像标注，属于计算机视觉及模式识别领域。

背景技术

室内场景图像的语义标注是目前基于视觉的场景理解中一项具有挑战性的任务，基本目标是为给定室内场景图像(或拍摄的室内场景视频中的帧)中的每一个像素稠密地提供一个预定义的语义类别标签。

室内场景中存在大量的语义类别、场景对象互相遮挡、底层视觉特征辨识力较弱以及不均匀光照等问题，使得室内场景图像标注面临巨大困难。随着深度传感器的普及，目前已能够便捷且可靠地获得包含颜色、纹理和深度的RGB-D数据。RGB-D室内场景标注通常有两类方法，一是基于定义特征的RGB-D室内场景标注；二是基于学习特征的RGB-D室内场景标注。本发明提出一种基于超像素时空上下文的RGB-D室内场景标注方法，属于基于定义特征的RGB-D室内场景标注方法。

以下针对基于定义特征的RGB-D室内场景标注主要方法给出综合分析。作为利用深度信息进行室内场景语义标注的先驱，Silberman等从彩色图像(RGB)、深度图像(Depth)以及经旋转处理后的RGB中提取SIFT特征描述子，对该特征描述子通过反馈式前向神经网络进行语义分类从而得到图像语义标注结果。在得到语义标注结果后进一步使用简单的CRFs(条件随机场概率图模型)进行优化。Ren等人利用gPb/UCM算法对图像进行超像素分割，基于分割阈值将超像素集合组合为层次化树结构。在RGB-D图像上稠密的计算Patch(图像块)的特征描述，基于Patch特征计算超像素区域的特征描述。在语义分类时，超像素特征做为SVM的输入，给出每个超像素的分类结果。基于SVM分类器得到的标签向量构建新的超像素类别特征，使用新特征构建MRFs(马尔科夫随机场)模型对识别结果进行进一步的优化。

在语义识别中，一个共识是使用更多上下文信息，识别的结果通常更为准确。像素级空间上下文通常基于像素间邻接关系构建MRF或CRF模型，约束邻接像素点语义标签一致。超像素级空间上下文，将存在包含关系的超像素特征串接作为分类特征，或者使用超像素信息CRF模型。超像素信息CRF模型中，像素点的预估计概率作为一元能量，像素点对的特征差异作为二元能量，超像素信息作为高层次能量，通过求解定义的能量函数来确定最优的标签。

在对时间上下文的使用中，Kundu认为在同一场景下的视频序列中相邻帧间像素信息存在重叠，故提出一种新的稠密CRF模型方法，二元项计算时先通过光流追踪相邻帧间具有对应关系的点对，并将有对应关系的点对间特征欧式距离作为二元能量，最终用优化完成的CRF模型预测每个像素点的对应标签。

发明目的

本发明的目的在于充分利用时间和空间上下文，在标注过程中利用连续帧图像计算超像素时间上下文，利用层次超像素分割提供的空间上下文联合完成室内场景标注任务。

为实现上述目的，本发明采用的技术方案为一种基于超像素时空上下文的RGB-D室内场景标注方法，输入为待标注图像Fr_tar及其时间序上的前后相邻帧Fr_tar-1、Fr_tar+1，输出为Fr_tar的像素级标注。

基于光流算法计算待标注图像Fr_tar中每个超像素在Fr_tar时序上的相邻帧Fr_tar-1和Fr_tar+1中的对应超像素，对应超像素即是其时间上下文；利用gPb/UCM算法对图像进行超像素分割，且根据阈值将分割结果组织为分割树，Fr_tar中的每个超像素在分割树中的子结点即是其空间上下文。

构造Fr_tar中每个超像素基于时间上下文的特征表示，采用梯度提升树(GradientBoost Decision Tree，GBDT)利用超像素的基于时间上下文特征进行分类；利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果，得到Fr_tar中超像素的语义标注。

S1超像素

在计算机视觉领域，将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域，这些小区域保留了局部有效信息，且一般不会破坏图像中物体的边界信息。

S1.1图像的超像素分割

超像素分割使用gPb/UCM算法，通过图像局部、全局特征计算像素属于边界的概率值

将gPb/UCM算法分别应用于彩色图像和深度图像，按照式(1)计算

。式(1)中，

是基于彩色图像计算得到的像素属于边界的概率值，

是基于深度图像计算得到的像素属于边界的概率值。

依据公式(1)得到的概率值

和设定不同的概率阈值tr来得到多层次分割的结果。

在本方法中设定的概率阈值tr为0.06和0.08，按照八连通原则，将概率值小于设定阈值的像素连成一个区域，每个区域即为一个超像素。

S1.2Patch特征

Patch定义为m×m大小的网格，以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动，最终在彩色图像和深度图像上形成密集的网格。本方法在实验中设置Patch的尺寸为16×16，选取Patch时滑动步长n取值为2，大小为N*M的图像，最终得到的Patch数量为

针对每个Patch计算四类特征：深度梯度特征、彩色梯度特征、彩色特征、纹理特征。

S1.2.1深度梯度特征

深度图像中的Patch记为Z^d，对每个Z^d计算深度梯度特征F_{g_d}，其中第t个分量的值由公式(2)定义：

公式(2)中，z∈Z^d表示像素z在深度Patch中的相对二维坐标位置；

和

分别表示像素z的深度梯度方向和梯度大小；

和

分别为深度梯度基向量和位置基向量，两组基向量为预定义值；d_g和d_s分别表示深度梯度基向量个数和位置基向量个数；

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为深度梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK(Efficient Match Kernel)算法对深度梯度特征进行变换，变换后的特征向量仍然记为F_{g_d}。

S1.2.2彩色梯度特征

彩色图像中的Patch记为Z^c，对每个Z^c计算彩色梯度特征F_{g_c}，其中第t个分量的值由公式(3)定义：

公式(3)中，z∈Z^c表示一个像素z在彩色图像Patch中的相对二维坐标位置；

和

分别表示像素z的梯度方向和梯度大小；

和

分别为彩色梯度基向量和位置基向量，两组基向量为预定义值；c_g和c_s分别表示彩色梯度基向量个数和位置基向量个数；

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为彩色梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK算法对彩色梯度特征进行变换，变换后的特征向量仍然记为F_{g_c}。

S1.2.3彩色特征

彩色图像中的Patch记为Z^c，对每个Z^c计算彩色特征F_col，其中第t个分量的值由公式(4)定义：

公式(4)中，z∈Z^c表示像素z在彩色图像Patch中的相对二维坐标位置；r(z)为三维向量，是像素z的RGB值；

和

分别为彩色基向量和位置基向量，两组基向量为预定义值；c_c和c_s分别表示彩色基向量个数和位置基向量个数；

是在

上应用核主成分分析KPCA得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为彩色高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK算法对彩色特征进行变换，变换后的特征向量仍然记为F_col。

S1.2.4纹理特征(Texture)

首先将RGB场景图像变换为灰度图，灰度图像中的Patch记为Z^g，对每个Z^g计算纹理特征F_tex，其中第t个分量的值由公式(5)定义：

公式(5)中，z∈Z^g表示像素z在彩色图像Patch中的相对二维坐标位置；S(z)表示以像素z为中心的3×3区域内像素灰度值的标准方差；lbp(z)为像素z的局部二值模式特征(Local Binary Pattern，LBP)；

和

分别为局部二值模式基向量和位置基向量，两组基向量为预定义值；g_b和g_s分别表示局部二值模式基向量个数和位置基向量个数；

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为局部二值模式高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK算法对纹理特征进行变换，变换后的特征向量仍然记为F_tex。

S1.3超像素特征

超像素特征F_seg定义如(6)式：

分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征，定义如(7)式：

式(7)中，F_{g_d}(p)，F_{g_c}(p)，F_col(p)，F_tex(p)表示第p个中心位置落入超像素seg内的Patch的特征，n表示中心位置落入超像素seg内的Patch的数量。

超像素几何特征

按(8)式定义：

式(8)中各分量定义如下：

超像素面积A^seg＝∑_s∈seg1，s为超像素seg内的像素；超像素周长P^seg定义如式(9)：

公式(9)中，M、N分别表示RGB场景图像的横、纵向分辨率；seg、seg′表示不同的超像素；N₄(s)是像素s的四邻域集合；B_seg是超像素seg的边界像素集合。

超像素的面积周长比R^seg定义如式(10)：

是基于像素s的x坐标s_x、y坐标s_y、x坐标与y坐标乘积分别计算的二阶(2+0＝2或0+2＝2)Hu矩，定义如式(11)、(12)、(13)

公式(14)中

分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方，定义如式(14)：

Width，Height分别表示图像宽度和高度，即

基于归一化的像素坐标值进行计算。

D_var分别表示超像素seg内像素s深度值s_d的平均值，深度值s_d平方的平均值、深度值方差，定义如式(15)：

D_miss表示超像素中丢失深度信息的像素的比例，定义如式(16)：

N^seg是对应于超像素的点云的主法向量模长，其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。

S2超像素上下文

本方法基于RGB-D图像序列时序关系和超像素分割的树结构，分别构造时间上下文和空间上下文。

S2.1超像素时间上下文

S2.1.1帧间光流计算

在本方法中，定义目标帧到参考帧计算得到的光流为正向光流，参考帧到目标帧计算得到的光流为反向光流。

(1)初始光流估计

帧间初始光流估计采用SimpleFlow方法。对两帧图像Fr_tar和Fr_tar+1，(x，y)表示Fr_tar中像素点，(u(x，y)，v(x，y))表示在(x，y)处的光流向量。定义图像Fr_tar为目标帧，图像Fr_tar+1为参考帧，则图像Fr_tar到图像Fr_tar+1的正向光流是Fr_tar中所有像素点的光流向量的集合，即{(u(x，y)，v(x，y))|(x，y)∈Fr_tar}。以下过程中u(x，y)和v(x，y)分别简记为u和v，则Fr_tar中像素(x，y)根据光流计算得到的在Fr_tar+1中对应像素点为(x+u，y+v)。

首先，计算图像Fr_tar到图像Fr_tar+1的正向光流，对Fr_tar帧像素点(x₀，y₀)，以其为中心取尺寸为a×a的窗口

在本方法中取a＝10，W₁内任意点(p，q)在Fr_tar+1帧中的对应像素点是(p+u，q+v)，对窗口W₁中所有点计算能量项e，如式(17)

e(p，q，u，v)＝||Int_tar(p，q)-Int_tar+1(p+u，q+v)||² (17)

其中，(p，q)∈W₁，Int_tar(p，q)表示Fr_tar中像素点(p，q)的像素点颜色信息，Int_tar+1(p+u，q+v)表示Fr_tar+1中像素点(p+u，q+v)的像素点颜色信息，依次对窗口中的每对点计算可得到a²维的向量e。

然后，基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量如式(18)所示：

式(18)中E(x₀，y₀，u，v)是局部区域能量，表示图像Fr_tar帧中像素点(x₀，y₀)处正向光流向量(u，v)的能量，是Fr_tar帧中(x₀，y₀)为中心的窗口W₁内所有像素点能量项e的加权累加；

本方法中设O＝20，表示光流向量(u，v)变化范围；距离权重w_d和颜色权重w_c由像素点(x₀，y₀)与其依据光流(u，v)计算得到的对应点(x₀+u，y₀+v)的距离差异和颜色差异决定，设定彩色参数σ_c＝0.08(经验值)，距离参数σ_d＝5.5(经验值)。使E能量最小的(u，v)即是像素点(x₀，y₀)的光流向量估计结果，对Fr_tar帧图像上所有像素点计算光流向量得到图像Fr_tar到图像Fr_tar+1的正向光流。

同样，计算Fr_tar+1帧到Fr_tar帧的反向光流。

(2)遮挡点检测

记图像Fr_tar帧中到图像Fr_tar+1帧正向光流为{(u_f(x)，v_f(y))|(x，y)∈Fr_tar}，以及图像Fr_tar+1帧到图像Fr_tar的反向光流结果为{(u_b(x′)，v_b(y′))|(x′，y′)∈Fr_tar+1}。对像素(x，y)计算||(u_f(x)，v_f(v))-(-u_b(x+u_f(x))，-v_b(y+v_f(y)))||，若该值不为0则认为像素点(x，y)为遮挡点。

(3)遮挡点光流的重新估算

对被标记为遮挡点的像素(x₀，y₀)，利用式(19)重新估计光流能量，记为E_b(x₀，y₀，u，v)：

式(19)中，

表示Fr_tar帧像素点(x₀，y₀)处不同光流估计值对应的能量项e的平均值；

表示Fr_tar帧像素点(x₀，y₀)处不同光流估计值对应能量项e的最小值；w_r(x₀，y₀)为能量项e均值和最小能量项e值的差，对标记为遮挡的像素点(x₀，y₀)使E_b最小的(u，v)即使像素(x₀，y₀)处的光流向量。

对标记为遮挡点的像素，其最终光流向量采用步骤(3)重新估计的光流向量。

S2.1.2超像素时间上下文及其特征表示

利用S1.1计算的超像素分割图的方法对Fr_tar帧图像、Fr_tar-1帧图像和Fr_tar+1帧图像进行超像素分割。

(1)超像素时间上下文

首先根据Fr_tar到Fr_tar+1的正向光流计算Fr_tar帧超像素Seg_tar包含的所有像素点{(x，y)|(x，y)∈Seg_tar}的正向光流{(u_f(x)，v_f(y))|(x，y)∈Seg_tar}的均值

如式(20)所示：

式(20)中，Num(Seg_tar)表示超像素Seg_tar包含的像素点的数量，依据正向光流均值计算超像素Seg_tar包含的像素点在Fr_tar+1的对应像素，得到区域Seg_tar＝{(x′，y′)|x′＝x+u_f(x)，y＝y+u_f(y)，(x，y)∈Seg_tar，(x′，y′)∈Fr_tar+1}，称为超像素Seg_tar在Fr_tar+1的对应区域。计算Seg′_tar与Fr_tar+1帧中第i个超像素

的交并比IOU如式(21)所示：

式(21)中，Num(·)表示区域包含像素点数量。若

τ，则依据Fr_tar+1到Fr_tar的反向光流计算超像素

在Fr_tar帧的对应区域Seg′_tar，依据式(21)计算区域Seg′_tar与超像素Seg_tar的交并比IOU(Seg′_tar，Seg_tar)。若IOU(Seg″_tar，Seg_tar)τ，则

称为超像素Seg_tar在Fr_tar+1的对应超像素，超像素Seg_tar在Fr_tar+1的对应超像素数量可以是0个、1个或多个。本方法中设定交并比判定阈值τ＝0.3。同理，求得超像素Seg_tar在Fr_tar-1帧的对应超像素，超像素Seg_tar在Fr_tar-1的对应超像素数量是0个、1个或多个。

超像素Seg_tar的时间上下文记

其中

和

分别是Fr_tar帧超像素Seg_tar在Fr_tar-1帧和Fr_tar+1帧的对应超像素集合。

(2)超像素时间上下文语义特征表示

超像素时间上下文Segs_tar的语义特征记为

如式(22)：

为Fr_tar帧中超像素Seg_tar的特征，

为Fr_tar-1帧中所有对应超像素

特征的均值，

为Fr_tar+1帧中所有对应超像素

特征的均值，每个超像素的特征按照式1.3节的方法计算。

Fr_tar帧中的超像素Seg_tar在Fr_tar+1帧或Fr_tar-1帧的对应超像素数量为0时，使用其自身特征

替代

或

S2.2超像素空间上下文

利用S1.1的方法对图像进行超像素分割，超像素层次分割树的阈值设定为1时可得到最高层次的超像素分割图，即层次分割树的根节点，该节点表示整张图像作为一个超像素；设定阈值为0.06时得到较低层次的超像素分割结果；当阈值为0.08时，边界判定标准比提高，使得原本边界概率值在[0.06，0.08]的像素点被判定为非边界点，而这些点在阈值为0.06时是判定为边界点的。高层次的超像素会将低层次的超像素包含在其中。本方法定义层次分割树中，子节点超像素是父节点超像素的空间上下文。

S3语义分类

S3.1基于时间上下文的超像素语义分类

本方法输入为超像素的时间上下文特征，利用GBDT(梯度提升决策树)进行超像素语义分类，输出为超像素的预测标签。

在GBDT训练过程中，设训练MR轮，mr∈{1，2，3，...，MR}，则第mr轮对每个类别训练一棵回归树即弱分类器，即有L个类别时训练L棵回归树，j∈{1，2，3，...，L}。最终能得到L×MR个弱分类器。在每一轮中对每一个分类器的训练方法是相同的。

(1)GBDT多分类器训练

训练集Fea_tr包含NSeg_tr个样本：

其中，训练样本Fea_i是第i个超像素的时间上下文特征，其真实标签为lab_i，lab_i∈{1，2，3，...，L}。

首先，第0轮进行初始化的操作，设第l类分类器预测函数值h_l，0(x)为0；将真实标签lab_i转换为L维标签向量

lab_i[k]∈{0，1}，第i个训练样本的真实标签为j的话，其标签向量的第l维分量lab_i[l]＝1，其他分量值为0。计算第i个样本属于类别l的概率

I(lab_i＝j)为指示函数，当样本i的标签为j时指示函数的值为1，否则值为0。

记第i个样本应用第mr-1轮第j个分类器的预测结果为h_l，(mr-1)(Fea_i)，第mr-1轮分类器对第i个样本的分类误差为

定义如式(23)：

则得到第mr-1轮的分类误差集

构建第mr轮第l个分类器时，遍历训练样本数据集Fea_tr中每个样本的每一特征维度，以第i个样本第par维特征值为分类基准值对数据集Fea_tr中全部样本进行分类，特征值大于基准值的样本属于集合{Region₁}，反之属于集合{Region₂}，全部样本分类完成后根据式(25)计算回归树的误差

其中，

NRegion_m表示落入Region_m的样本总数。最终选择使回归树误差最小的特征值为树的新分类值。重复构建回归树直到达到树的设定高度，在本方法中设定回归树树高为5。以相同方法构建本轮其它类别的回归树。

第mr轮第j类的回归树叶节点数量记为Reg_mr，l个，每一个节点是训练样本集合的一个子集，且任意两个叶节点交集为空集。对第mr轮构建好的第l类的回归树计算每一个叶节点的增益值

如式(26)：

通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值h_l，mr(Fea_i)：

其中，reg∈{1，2，...，Reg_mr，l}

直到训练MR轮结束。第MR轮第l类别的回归树对第i个样本的预测值h_l，MR(Fea_i)表达式如(28)：

其中，reg∈{1，2，...，Reg_MR，l}。

式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测预测结果则得到式(29)：

依次类推，带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测预测结果，得到式(30)

(2)GBDT预测

对超像素Seg计算其时间上下文特征Fea_Seg，利用式(30)计算超像素Seg属于不同类别的预测值h_l，MR(Fea_Seg)，再通过式(24)计算超像素Seg属于不同类别的概率值prob_l，MR(Fea_Seg)。概率值最高的类别l即为超像素Seg的预测类别。

S3.2基于空间上下文优化语义分类

本方法在对图像进行超像素分割时，设定0.06和0.08两个边界判断阈值，从而得到高度为2的层次分割树。

本方法中以0.08阈值确定的超像素的语义标注为优化目标，以0.06分割阈值确定的超像素作为空间上下文，用于优化语义标注结果。

首先根据S3.1的方法，对叶节点以及中间节点对应的每一块超像素进行语义分类，得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率，通过式(31)计算超像素块的最终语义标签。

其中l*表示对式(31)计算取最大概率值的类别即超像素块最终语义标签，

表示0.08阈值超像素包含的阈值0.06超像素集合中第a个超像素语义标签为l的概率，

为阈值0.08超像素语义标签为l的概率。Naux表示0.08阈值超像素包含的0.06阈值超像素的数量；w_aux为阈值0.06超像素语义标注的信任度，本方法取值为0.4；w_{tar get}为阈值0.08超像素语义标注的信任度，本方法取值为0.6。

附图说明

图1基于时空上下文的RGBD室内场景识别方法流程图。

图2超像素分割层次树示意图。

图3基于空间上下文的优化示意图。

具体实施方式

以下本发明结合附图和实施例对本发明进行详细说明。

如图1-3所示，一种基于超像素时空上下文的RGB-D室内场景标注方法，输入为待标注图像Fr_tar及其时间序上的前后相邻帧Fr_tar-1、Fr_tar+1，输出为Fr_tar的像素级标注。

S1超像素

S1.1图像的超像素分割

将gPb/UCM算法分别应用于彩色图像和深度图像，按照公式(1)计算

式(1)中，

是基于彩色图像计算得到的像素属于边界的概率值，

是基于深度图像计算得到的像素属于边界的概率值。

依据公式(1)得到的概率值

和设定不同的概率阈值tr来得到多层次分割的结果。

S1.2 Patch特征

Patch定义为m×m大小的网格，以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动，最终在彩色图像和深度图像上形成密集的网格。本方法在实验中设置Patch的尺寸为16×16，选取Patch时滑动步长n取值为2，以大小为N*M的图像为例，最终得到的Patch数量为

S1.2.1深度梯度特征

和

分别表示像素z的深度梯度方向和梯度大小；

和

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为深度梯度高斯核函数和位置高斯核函数，

和

S1.2.2彩色梯度特征

和

分别表示像素z的梯度方向和梯度大小；

和

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为彩色梯度高斯核函数和位置高斯核函数，

和

S1.2.3彩色特征

和

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为彩色高斯核函数和位置高斯核函数，

和

S1.2.4纹理特征(Texture)

和

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为局部二值模式高斯核函数和位置高斯核函数，

和

S1.3超像素特征

超像素特征F_seg定义如(6)式：

超像素几何特征

按(8)式定义：

式(8)中各分量定义如下：

公式(9)中，M、N分别表示RGB场景图像的横、纵向分辨率；seg、seg表示不同的超像素；N₄(s)是像素s的四邻域集合；B_seg是超像素seg的边界像素集合。

超像素的面积周长比R^seg定义如式(10)：

公式(14)中

Width，Height分别表示图像宽度和高度，即

基于归一化的像素坐标值进行计算。

S2超像素上下文

S2.1超像素时间上下文

S2.1.1帧间光流计算

(2)初始光流估计

e(p，q，u，v)＝||Int_tar(p，q)-Int_tar+1(p+u，q+v)||² (17)

同样，依据上述的方法计算Fr_tar+1帧到Fr_tar帧的反向光流。

(2)遮挡点检测

(3)遮挡点光流的重新估算

式(19)中，

S2.1.2超像素时间上下文及其特征表示

利用S1.1计算的超像素分割图的方法对Fr_tar帧图像、Fr_ar-1帧图像和Fr_tar+1帧图像进行超像素分割。

(1)超像素时间上下文

如式(20)所示：

式(20)中，Num(Seg_tar)表示超像素Seg_tar包含的像素点的数量，依据正向光流均值计算超像素Seg_tar包含的像素点在Fr_tar+1的对应像素，得到区域Seg_tar＝{(x′，y′)|x′＝x+u_f(x)，y′＝y+u_f(y)，(x，y)∈Seg_tar，(x′，y′)∈Fr_tar+1}，称为超像素Seg_tar在Fr_tar+1的对应区域。计算Seg′_tar与Fr_tar+1帧中第i个超像素

的交并比IOU如式(21)所示：

式(21)中，Num(·)表示区域包含像素点数量。若

τ，则依据Fr_tar+1到Fr_tar的反向光流计算超像素

在Fr_tar帧的对应区域Seg′_tar，依据式(21)计算区域Seg″_tar与超像素Seg_tar的交并比IOU(Seg′_tar，Seg_tar)。若IOU(Seg″_tar，Seg_tar)τ，则

称为超像素Seg_tar在Fr_tar+1的对应超像素(超像素Seg_tar在Fr_tar+1的对应超像素数量可以是0个、1个或多个)。本方法中设定交并比判定阈值τ＝0.3(经验值)。同理，求得超像素Seg_tar在Fr_tar-1帧的对应超像素(超像素Seg_tar在Fr_tar-1的对应超像素数量可以是0个、1个或多个)。

超像素Seg_tar的时间上下文记

其中

和

(2)超像素时间上下文语义特征表示

超像素时间上下文Segs_tar的语义特征记为

如式(22)：

为Fr_tar帧中超像素Seg_tar的特征，

为Fr_tar-1帧中所有对应超像素

特征的均值，

为Fr_tar+1帧中所有对应超像素

特征的均值，每个超像素的特征按照式1.3节的方法计算。

替代

或

S2.2超像素空间上下文

利用S1.1节的方法对图像进行超像素分割，图2所示为依据多个边界判断阈值得到的超像素层次分割树。超像素层次分割树的阈值设定为1时可得到最高层次的超像素分割图，即层次分割树的根节点，该节点表示整张图像作为一个超像素；设定阈值为0.06时得到较低层次的超像素分割结果；当阈值为0.08时，边界判定标准比提高，使得原本边界概率值在[0.06，0.08]的像素点被判定为非边界点，而这些点在阈值为0.06时是判定为边界点的。以此可以看出，高层次的超像素会将低层次的超像素包含在其中。本方法定义层次分割树中，子节点超像素是父节点超像素的空间上下文。

S3语义分类

S3.1基于时间上下文的超像素语义分类

在GBDT训练过程中，设训练MR轮，mr∈{1，2，3，...，MR}，则第mr轮对每个类别训练一棵回归树(弱分类器)，即有L个类别时训练L棵回归树，l∈{1，2，3，...，L}。最终能得到L×MR个弱分类器。在每一轮中对每一个分类器的训练方法是相同的。

(1)GBDT多分类器训练

训练集Fea_tr包含NSeg_tr个样本：

lab_i[k]∈{0，1}，第i个训练样本的真实标签为l的话，其标签向量的第l维分量lab_i[l]＝1，其他分量值为0。计算第i个样本属于类别l的概率

I(lab_i＝l)为指示函数，当样本i的标签为l时指示函数的值为1，否则值为0。

记第i个样本应用第mr-1轮第l个分类器的预测结果为h_l，(mr-1)(Fea_i)，第mr-1轮分类器对第i个样本的分类误差为

定义如式(23)：

则得到第mr-1轮的分类误差集

其中，

NRegion_m表示落入Region_m的样本总数。最终选择使回归树误差最小的特征值为树的新分类值。重复上述过程构建回归树直到达到树的设定高度，在本方法中设定回归树树高为5。以相同方法构建本轮其它类别的回归树。

第mr轮第l类的回归树叶节点数量记为Reg_mr，l个，每一个节点是训练样本集合的一个子集，且任意两个叶节点交集为空集。对第mr轮构建好的第l类的回归树计算每一个叶节点的增益值

如式(26)：

其中，reg∈{1，2，...，Reg_mr，l}

以上述流程计算，直到训练MR轮结束。第MR轮第l类别的回归树对第i个样本的预测值h_l，MR(Fea_i)表达式如(28)：

其中，reg∈{1，2，...，Reg_MR，l}。

(2)GBDT预测

S3.2基于空间上下文优化语义分类

本方法在对图像进行超像素分割时，设定0.06和0.08两个边界判断阈值，从而得到高度为2的层次分割树，如图3。

首先根据S3.1的方法，对图3中叶节点以及中间节点对应的每一块超像素进行语义分类，得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率，通过式(31)计算超像素块的最终语义标签。

为阈值0.08超像素语义标签为l的概率。Naux表示0.08阈值超像素包含的0.06阈值超像素的数量；w_aux为阈值0.06超像素语义标注的信任度，本方法取值为0.4；W_target为阈值0.08超像素语义标注的信任度，本方法取值为0.6。

表1 NYUV2数据集上13类语义实验本方法与其他基于定义特征的RGB-D室内场景标注方法的类平均准确率比较。

表1

[1]C.Coupire，C.Farabet，L.Najman and Y.LeCun..Indoor scenesegmentation using depth information.In ICLR，2013.

[2]A.Hermans，G.Floros，and B.Leibe.Dense 3d semantic mapping of indoorscenes fron rgb-d images.In ICRA，2014.

[3]A.Wang，J.Lu，J.Cai，G.Wang，and T.-J.Cham.Unsupervised joint feature1eaming and encoding for rgb-d scene labeling(TIP)，2015.

[4]J.Wang，Z.Wang，D.Tao，S.See and G.Wang.Learning common and specificfeatures for rgb-d semantic segmentation with deconvolutional networks.InECCV，2016.

Claims

1.一种基于超像素时空上下文的RGB-D室内场景标注方法，其特征在于：输入为待标注图像Fr_tar及其时序上的前后相邻帧Fr_tar-1、Fr_tar+1，输出为Fr_tar的像素级标注；

基于光流算法计算待标注图像Fr_tar中每个超像素在Fr_tar时序上的相邻帧Fr_tar-1和Fr_tar+1中的对应超像素，对应超像素即是其时间上下文；利用gPb/UCM算法对图像进行超像素分割，且根据阈值将分割结果组织为分割树，Fr_tar中的每个超像素在分割树中的子结点即是其空间上下文；

构造Fr_tar中每个超像素基于时间上下文的特征表示，采用梯度提升树对超像素进行基于时间上下文特征的分类；利用超像素空间上下文加权组合及空间上下文的语义分类结果，得到Fr_tar中超像素的语义标注；

S1超像素

在计算机视觉领域，将数字图像细分为多个图像子区域的过程称为超像素分割；超像素是由一系列位置相邻且颜色、亮度、纹理特征相似的像素点组成的区域，此区域保留局部有效信息，且不会破坏图像中物体的边界信息；

S1.1图像的超像素分割

将gPb/UCM算法分别应用于彩色图像和深度图像，按照式(1)计算

式(1)中，

是基于彩色图像计算得到的像素属于边界的概率值，

是基于深度图像计算得到的像素属于边界的概率值；

依据公式(1)得到的概率值

和设定不同的概率阈值tr来得到多层次分割的结果；

其中，设定的不同概率阈值tr分别为0.06和0.08，按照八连通原则，将概率值小于设定的概率阈值的像素连成一个区域，每个区域即为一个超像素；

S1.2 Patch特征

Patch定义为h×h大小的网格，以hs像素为步长从彩色图像和深度图像左上角向右向下进行滑动，最终在彩色图像和深度图像上形成密集的网格；其中，Patch的尺寸为16×16，选取Patch时滑动步长hs取值为2，大小为N*M的图像，最终得到的Patch数量为

针对每个Patch计算四类特征：深度梯度特征、彩色梯度特征、彩色特征、纹理特征；

S1.3超像素特征

超像素特征F_seg定义如(6)式：

式(7)中,F_{g_d}(q1)，F_{g_c}(q1)，F_col(q1)，F_tex(q1)表示第q1个中心位置落入超像素seg内的Patch的特征，n表示中心位置落入超像素seg内的Patch的数量；

超像素几何特征

按(8)式定义：

式(8)中各分量定义如下：

超像素面积A^seg＝∑_s∈seg1，s为超像素seg内的像素；超像素周长P^seg根据B_seg得到，定义如式(9)：

公式(9)中，M、N分别表示RGB场景图像的横、纵向分辨率；seg、seg′表示不同的超像素；N₄(s)是像素s的四邻域集合；B_seg是超像素seg的边界像素集合；

超像素的面积周长比R^seg定义如式(10)：

是基于像素s的x坐标s_x、y坐标s_y、x坐标与y坐标乘积分别计算的二阶Hu矩，定义如式(11)、(12)、(13)

公式(14)中

Width，Heiqht分别表示图像宽度和高度，即

基于归一化的像素坐标值进行计算；

N^seg是对应于超像素的点云的主法向量模长，其中超像素对应点云的主法向量通过主成分分析法PCA估计；

S2超像素上下文

基于RGB-D图像序列时序关系和超像素分割的树结构，分别构造时间上下文和空间上下文；

S2.1超像素时间上下文

S2.1.1帧间光流计算

定义目标帧到参考帧计算得到的光流为正向光流，参考帧到目标帧计算得到的光流为反向光流；

(1)初始光流估计

帧间初始光流估计采用SimpleFlow方法；对两帧图像Fr_tar和Fr_tar+1，(x，y)表示Fr_tar中像素点，(u(x，y)，v(x，y))表示在(x，y)处的光流向量；定义图像Fr_tar为目标帧，图像Fr_tar+1为参考帧，则图像Fr_tar到图像Fr_tar+1的正向光流是Fr_tar中所有像素点的光流向量的集合，即{(u(x，y)，v(x，y))|(x，y)∈Fr_tar}；将u(x，y)和v(x，y)分别简记为u和v，则Fr_tar中像素(x，y)根据光流计算得到的在Fr_tar+1中对应像素点为(x+u，y+v)；

首先，计算图像Fr_tar到图像Fr_tar+1的正向光流，对Fr_tar像素点(x₀，y₀)，以其为中心取尺寸为b×b的窗口

其中，b＝10，W₁内任意点(p，q)在Fr_tar+1中的对应像素点是(p+u，q+v)，对窗口W₁中所有点计算能量项e，如式(17)

e(p，q，u，v)＝||Int_tar(p，q)-Int_tar+1(p+u，q+v)||² (17)

其中，(p，q)∈W₁，Int_tar(p，q)表示Fr_tar中像素点(p，q)的像素点颜色信息，Int_tar+1(p+u，q+v)表示Fr_tar+1中像素点(p+u，q+v)的像素点颜色信息，依次对窗口中的每对点计算可得到b²维的向量e；

然后，基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量，如式(18)所示：

式(18)中E(x₀，y₀，u，v)是局部区域能量，表示图像Fr_tar中像素点(x₀，y₀)处正向光流向量(u，v)的能量，是Fr_tar中(x₀，y₀)为中心的窗口W₁内所有像素点能量项e的加权累加；

其中，O＝20，表示光流向量(u，v)变化范围；距离权重w_d和颜色权重w_c由像素点(x₀，y₀)与其依据光流(u，v)计算得到的对应点(x₀+u，y₀+v)的距离差异和颜色差异决定，设定彩色参数σ_c＝0.08，距离参数σ_d＝5.5；使E能量最小的(u，v)即是像素点(x₀，y₀)的光流向量估计结果，对图像Fr_tar上所有像素点计算光流向量得到图像Fr_tar到图像Fr_tar+1的正向光流；

同样，计算Fr_tar+1到Fr_tar的反向光流；

(2)遮挡点检测

记图像Fr_tar到图像Fr_tar+1正向光流为{(u_f(x)，v_f(y))|(x，y)∈Fr_tar}，以及图像Fr_tar+1到图像Fr_tar的反向光流结果为{(u_b(x′)，v_b(y′))|(x′，y′)∈Fr_tar+1}；对像素(x，y)计算||(u_f(x)，v_f(y))-(-u_b(x+u_f(x))，-v_b(y+v_f(y)))||，若该值(||(u_f(x)，v_f(y))-(-u_b(x+u_f(x))，-v_b(y+v_f(y)))||)不为0则认为像素点(x，y)为遮挡点；

(3)遮挡点光流的重新估算

式(19)中，

表示Fr_tar像素点(x₀，y₀)处不同光流估计值对应的能量项e的平均值；

表示Fr_tar像素点(x₀，y₀)处不同光流估计值对应能量项e的最小值；w_r(x₀，y₀)为能量项e均值和最小能量项e值的差，对标记为遮挡的像素点(x₀，y₀)使E_b最小的(u，v)即是像素(x₀，y₀)处的光流向量；

对标记为遮挡点的像素，其最终光流向量采用步骤(3)重新估计的光流向量；

S2.1.2超像素时间上下文及其特征表示

利用S1.1计算的超像素分割图的方法对图像Fr_tar、图像Fr_tar-1和图像Fr_tar+1进行超像素分割；

(1)超像素时间上下文

首先根据Fr_tar到Fr_tar+1的正向光流计算Fr_tar超像素Seg_tar包含的所有像素点{(x，y)|(x，y)∈Seg_tar}的正向光流{(u_f(x)，v_f(y))|(x，y)∈Seg_tar}的均值

如式(20)所示：

式(20)中，Num(Seg_tar)表示超像素Seg_tar包含的像素点的数量，依据正向光流均值计算超像素Seg_tar包含的像素点在Fr_tar+1的对应像素，得到区域Seg′_tar＝{(x′，y′)|x′＝x+u_f(x)，y′＝y+v_f(y)，(x，y)∈Seg_tar，(x′，y′)∈Fr_tar+1}，称为超像素Seg_tar在Fr_tar+1的对应区域；计算Seg′_tar与Fr_tar+1中第i个超像素

的交并比IOU如式(21)所示：

式(21)中，Num(·)表示区域包含像素点数量；若

则依据Fr_tar+1到Fr_tar的反向光流计算超像素

在Fr_tar的对应区域Seg″_tar，依据式(21)计算区域Seg″_tar与超像素Seg_tar的交并比IOU(Seg″_tar，Seg_tar)；若IOU(Seg″_tar，Seg_tar)≥τ，则

称为超像素Seg_tar在Fr_tar+1的对应超像素，超像素Seg_tar在Fr_tar+1的对应超像素数量是0个、1个或多个；设定交并比判定阈值τ＝0.3；求得超像素Seg_tar在Fr_tar-1的对应超像素，超像素Seg_tar在Fr_tar-1的对应超像素数量是0个、1个或多个；

超像素Seg_tar的时间上下文记

其中

和

分别是Fr_tar帧超像素Seg_tar在FF_tar-1和Fr_tar+1的对应超像素集合；

(2)超像素时间上下文语义特征表示

超像素时间上下文Segs_tar的语义特征记为

如式(22)：

为Fr_tar中超像素Seg_tar的特征，

为Fr_tar-1中所有对应超像素

特征的均值，

为Fr_tar+1中所有对应超像素

特征的均值，每个超像素的特征按照S1.3的方法计算；

Fr_tar中的超像素Seg_tar在Fr_tar+1或Fr_tar-1的对应超像素数量为0时，使用其自身特征

替代

或

S2.2超像素空间上下文

利用S1.1的方法对图像进行超像素分割，超像素层次分割树的阈值设定为1时得到最高层次的超像素分割图，即层次分割树的根节点，该节点表示整张图像作为一个超像素；设定阈值为0.06时得到较低层次的超像素分割结果；当阈值为0.08时，边界判定标准比提高，使得原本边界概率值在[0.06,0.08]的像素点被判定为非边界点，而这些点在阈值为0.06时是判定为边界点的；高层次的超像素会将低层次的超像素包含在其中；定义层次分割树中，子节点超像素是父节点超像素的空间上下文；

S3语义分类

S3.1基于时间上下文的超像素语义分类

将超像素的时间上下文特征作为输入，利用GBDT进行超像素语义分类，输出为超像素的预测标签；

在GBDT训练过程中，设训练MR轮，mr∈{1，2，3，...，MR}，则第mr轮对每个类别训练一棵回归树即弱分类器，即有L个类别时训练L棵回归树，l∈{1，2，3，...，L}；最终能得到L×MR个弱分类器；在每一轮中对每一个分类器的训练方法是相同的；

(1)GBDT多分类器训练

训练集Fea_tr包含NSeg_tr个样本：

其中，训练样本Fea_i是第i个超像素的时间上下文特征，其真实标签为lab_i，lab_i∈{1，2，3，...，L}；

首先，第0轮进行初始化的操作，设第l类分类器预测函数值h_l,0(x)为0；将真实标签lab_i转换为L维标签向量

lab_i[k]∈{0，1}，第i个训练样本的真实标签为l的话，其标签向量的第l维分量lab_i[l]＝1，其他分量值为0；计算第i个样本属于类别l的概率

I(lab_i＝l)为指示函数，当样本i的标签为l时指示函数的值为1，否则值为0；

记第i个样本应用第mr-1轮第l个分类器的预测结果为h_l,(mr-1)(Fea_i)，第mr-1轮分类器对第i个样本的分类误差为

定义如式(23)：

则得到第mr-1轮的分类误差集

构建第mr轮第l个分类器时，遍历训练集Fea_tr中每个样本的每一特征维度，以第i个样本第par维特征值为分类基准值对训练集Fea_tr中全部样本进行分类，特征值大于基准值的样本属于集合{Region₁}，反之属于集合{Region₂}，全部样本分类完成后根据式(25)计算回归树的误差

其中，

m＝1,2，NRegion_m表示落入Region_m的样本总数；最终选择使回归树误差最小的特征值为树的新分类值；重复构建回归树直到达到树的设定高度，其中，回归树树高为5；以相同方法构建本轮其它类别的回归树；

第mr轮第l类的回归树叶节点数量记为Reg_mr,l个，每一个节点是训练样本集合的一个子集，且任意两个叶节点交集为空集；对第mr轮构建好的第l类的回归树计算每一个叶节点的增益值

如式(26)：

通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值h_l,mr(Fea_i)：

其中，reg∈{1，2，...，Reg_mr,l}

直到训练MR轮结束；第MR轮第l类别的回归树对第i个样本的预测值h_l,MR(Fea_i)表达式如(28)：

其中，reg∈{1，2，...，Reg_MR,l}；

式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测结果则得到式(29)：

依次类推，带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测结果，得到式(30)

(2)GBDT预测

对超像素Seg计算其时间上下文特征Fea_Seg，利用式(30)计算超像素Seg属于不同类别的预测值h_l,MR(Fea_Seg)，再通过式(24)计算超像素Seg属于不同类别的概率值prob_l,MR(Fea_Seg)；概率值最高的类别l即为超像素Seg的预测类别；

S3.2基于空间上下文优化语义分类

在对图像进行超像素分割时，设定0.06和0.08两个边界判断阈值，从而得到高度为2的层次分割树；

以0.08阈值确定的超像素的语义标注为优化目标，以0.06分割阈值确定的超像素作为空间上下文，用于优化语义标注结果；

首先根据S3.1的方法，对叶节点以及中间节点对应的每一块超像素进行语义分类，得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率，通过式(31)计算超像素块的最终语义标签；

其中l^*表示对式(31)计算取最大概率值的类别即超像素块最终语义标签，

为阈值0.08超像素语义标签为l的概率；Naux表示0.08阈值超像素包含的0.06阈值超像素的数量；w_aux为阈值0.06超像素语义标注的信任度，取值为0.4；w_target为阈值0.08超像素语义标注的信任度，取值为0.6。

2.根据权利要求1所述的一种基于超像素时空上下文的RGB-D室内场景标注方法，其特征在于：S1.2 Patch特征的实现过程如下，

S1.2.1深度梯度特征

深度图像中的Patch记为Z^d，对每个Z^d计算深度梯度特征F_{g_d},其中第t个分量的值由公式(2)定义：

和

分别表示像素z的深度梯度方向和梯度大小；

和

是在

上应用核主成分分析得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为深度梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK算法对深度梯度特征进行变换，变换后的特征向量仍然记为F_{g_d}；

S1.2.2彩色梯度特征

和

分别表示像素z的梯度方向和梯度大小；

和

是在

上应用核主成分分析KPCA得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为彩色梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK算法对彩色梯度特征进行变换，变换后的特征向量仍然记为F_{g_c}；

S1.2.3彩色特征

和

是在

上应用核主成分分析KPCA得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为彩色高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK算法对彩色特征进行变换，变换后的特征向量仍然记为F_col；

S1.2.4纹理特征

公式(5)中，z∈Z^g表示像素z在彩色图像Patch中的相对二维坐标位置；S(z)表示以像素z为中心的3×3区域内像素灰度值的标准方差；lbp(z)为像素z的局部二值模式特征；

和

是在

上应用核主成分分析得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为局部二值模式高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK算法对纹理特征进行变换，变换后的特征向量仍然记为F_tex。