CN109829449B - 一种基于超像素时空上下文的rgb-d室内场景标注方法 - Google Patents

一种基于超像素时空上下文的rgb-d室内场景标注方法 Download PDF

Info

Publication number
CN109829449B
CN109829449B CN201910174110.2A CN201910174110A CN109829449B CN 109829449 B CN109829449 B CN 109829449B CN 201910174110 A CN201910174110 A CN 201910174110A CN 109829449 B CN109829449 B CN 109829449B
Authority
CN
China
Prior art keywords
tar
pixel
super
seg
superpixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910174110.2A
Other languages
English (en)
Other versions
CN109829449A (zh
Inventor
王立春
王梦涵
王少帆
孔德慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910174110.2A priority Critical patent/CN109829449B/zh
Publication of CN109829449A publication Critical patent/CN109829449A/zh
Application granted granted Critical
Publication of CN109829449B publication Critical patent/CN109829449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于超像素时空上下文的RGB‑D室内场景标注方法,在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。本方法中以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果。对叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率。本发明显著优于现有常规室内场景标注方法。

Description

一种基于超像素时空上下文的RGB-D室内场景标注方法
技术领域
本发明涉及RGB-D室内场景图像标注,属于计算机视觉及模式识别领域。
背景技术
室内场景图像的语义标注是目前基于视觉的场景理解中一项具有挑战性的任务,基本目标是为给定室内场景图像(或拍摄的室内场景视频中的帧)中的每一个像素稠密地提供一个预定义的语义类别标签。
室内场景中存在大量的语义类别、场景对象互相遮挡、底层视觉特征辨识力较弱以及不均匀光照等问题,使得室内场景图像标注面临巨大困难。随着深度传感器的普及,目前已能够便捷且可靠地获得包含颜色、纹理和深度的RGB-D数据。RGB-D室内场景标注通常有两类方法,一是基于定义特征的RGB-D室内场景标注;二是基于学习特征的RGB-D室内场景标注。本发明提出一种基于超像素时空上下文的RGB-D室内场景标注方法,属于基于定义特征的RGB-D室内场景标注方法。
以下针对基于定义特征的RGB-D室内场景标注主要方法给出综合分析。作为利用深度信息进行室内场景语义标注的先驱,Silberman等从彩色图像(RGB)、深度图像(Depth)以及经旋转处理后的RGB中提取SIFT特征描述子,对该特征描述子通过反馈式前向神经网络进行语义分类从而得到图像语义标注结果。在得到语义标注结果后进一步使用简单的CRFs(条件随机场概率图模型)进行优化。Ren等人利用gPb/UCM算法对图像进行超像素分割,基于分割阈值将超像素集合组合为层次化树结构。在RGB-D图像上稠密的计算Patch(图像块)的特征描述,基于Patch特征计算超像素区域的特征描述。在语义分类时,超像素特征做为SVM的输入,给出每个超像素的分类结果。基于SVM分类器得到的标签向量构建新的超像素类别特征,使用新特征构建MRFs(马尔科夫随机场)模型对识别结果进行进一步的优化。
在语义识别中,一个共识是使用更多上下文信息,识别的结果通常更为准确。像素级空间上下文通常基于像素间邻接关系构建MRF或CRF模型,约束邻接像素点语义标签一致。超像素级空间上下文,将存在包含关系的超像素特征串接作为分类特征,或者使用超像素信息CRF模型。超像素信息CRF模型中,像素点的预估计概率作为一元能量,像素点对的特征差异作为二元能量,超像素信息作为高层次能量,通过求解定义的能量函数来确定最优的标签。
在对时间上下文的使用中,Kundu认为在同一场景下的视频序列中相邻帧间像素信息存在重叠,故提出一种新的稠密CRF模型方法,二元项计算时先通过光流追踪相邻帧间具有对应关系的点对,并将有对应关系的点对间特征欧式距离作为二元能量,最终用优化完成的CRF模型预测每个像素点的对应标签。
发明目的
本发明的目的在于充分利用时间和空间上下文,在标注过程中利用连续帧图像计算超像素时间上下文,利用层次超像素分割提供的空间上下文联合完成室内场景标注任务。
为实现上述目的,本发明采用的技术方案为一种基于超像素时空上下文的RGB-D室内场景标注方法,输入为待标注图像Frtar及其时间序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注。
基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文。
构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树(GradientBoost Decision Tree,GBDT)利用超像素的基于时间上下文特征进行分类;利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果,得到Frtar中超像素的语义标注。
S1超像素
在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。
S1.1图像的超像素分割
超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值
Figure BDA0001988977880000021
将gPb/UCM算法分别应用于彩色图像和深度图像,按照式(1)计算
Figure BDA0001988977880000022
。式(1)中,
Figure BDA0001988977880000023
是基于彩色图像计算得到的像素属于边界的概率值,
Figure BDA0001988977880000024
是基于深度图像计算得到的像素属于边界的概率值。
Figure BDA0001988977880000025
依据公式(1)得到的概率值
Figure BDA0001988977880000026
和设定不同的概率阈值tr来得到多层次分割的结果。
在本方法中设定的概率阈值tr为0.06和0.08,按照八连通原则,将概率值小于设定阈值的像素连成一个区域,每个区域即为一个超像素。
S1.2Patch特征
Patch定义为m×m大小的网格,以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格。本方法在实验中设置Patch的尺寸为16×16,选取Patch时滑动步长n取值为2,大小为N*M的图像,最终得到的Patch数量为
Figure BDA0001988977880000031
针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征。
S1.2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
Figure BDA0001988977880000032
公式(2)中,z∈Zd表示像素z在深度Patch中的相对二维坐标位置;
Figure BDA0001988977880000033
Figure BDA0001988977880000034
分别表示像素z的深度梯度方向和梯度大小;
Figure BDA0001988977880000035
Figure BDA0001988977880000036
分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;
Figure BDA0001988977880000037
是在
Figure BDA0001988977880000038
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA0001988977880000039
表示克罗内克积。
Figure BDA00019889778800000310
Figure BDA00019889778800000311
分别为深度梯度高斯核函数和位置高斯核函数,
Figure BDA00019889778800000312
Figure BDA00019889778800000313
为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d
S1.2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
Figure BDA0001988977880000041
公式(3)中,z∈Zc表示一个像素z在彩色图像Patch中的相对二维坐标位置;
Figure BDA0001988977880000042
Figure BDA0001988977880000043
分别表示像素z的梯度方向和梯度大小;
Figure BDA0001988977880000044
Figure BDA0001988977880000045
分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;
Figure BDA0001988977880000046
是在
Figure BDA0001988977880000047
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA0001988977880000048
表示克罗内克积。
Figure BDA0001988977880000049
Figure BDA00019889778800000410
分别为彩色梯度高斯核函数和位置高斯核函数,
Figure BDA00019889778800000411
Figure BDA00019889778800000412
为对应高斯核函数的参数。最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c
S1.2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
Figure BDA00019889778800000413
公式(4)中,z∈Zc表示像素z在彩色图像Patch中的相对二维坐标位置;r(z)为三维向量,是像素z的RGB值;
Figure BDA00019889778800000414
Figure BDA00019889778800000415
分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;
Figure BDA00019889778800000416
是在
Figure BDA00019889778800000417
上应用核主成分分析KPCA得到的第t个主成分的映射系数,
Figure BDA00019889778800000418
表示克罗内克积。
Figure BDA00019889778800000419
Figure BDA00019889778800000420
分别为彩色高斯核函数和位置高斯核函数,
Figure BDA00019889778800000421
Figure BDA00019889778800000422
为对应高斯核函数的参数。最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol
S1.2.4纹理特征(Texture)
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
Figure BDA0001988977880000051
公式(5)中,z∈Zg表示像素z在彩色图像Patch中的相对二维坐标位置;S(z)表示以像素z为中心的3×3区域内像素灰度值的标准方差;lbp(z)为像素z的局部二值模式特征(Local Binary Pattern,LBP);
Figure BDA0001988977880000052
Figure BDA0001988977880000053
分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;
Figure BDA0001988977880000054
是在
Figure BDA0001988977880000055
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA0001988977880000056
表示克罗内克积。
Figure BDA0001988977880000057
Figure BDA0001988977880000058
分别为局部二值模式高斯核函数和位置高斯核函数,
Figure BDA0001988977880000059
Figure BDA00019889778800000510
为对应高斯核函数的参数。最后,利用EMK算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex
S1.3超像素特征
超像素特征Fseg定义如(6)式:
Figure BDA00019889778800000511
Figure BDA00019889778800000512
分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:
Figure BDA00019889778800000513
式(7)中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量。
超像素几何特征
Figure BDA00019889778800000514
按(8)式定义:
Figure BDA00019889778800000515
式(8)中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如式(9):
Figure BDA0001988977880000061
公式(9)中,M、N分别表示RGB场景图像的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合。
超像素的面积周长比Rseg定义如式(10):
Figure BDA0001988977880000062
Figure BDA0001988977880000063
是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶(2+0=2或0+2=2)Hu矩,定义如式(11)、(12)、(13)
Figure BDA0001988977880000064
Figure BDA0001988977880000065
Figure BDA0001988977880000066
公式(14)中
Figure BDA0001988977880000067
分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):
Figure BDA0001988977880000068
Width,Height分别表示图像宽度和高度,即
Figure BDA0001988977880000069
基于归一化的像素坐标值进行计算。
Figure BDA00019889778800000610
Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):
Figure BDA00019889778800000611
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Figure BDA0001988977880000071
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。
S2超像素上下文
本方法基于RGB-D图像序列时序关系和超像素分割的树结构,分别构造时间上下文和空间上下文。
S2.1超像素时间上下文
S2.1.1帧间光流计算
在本方法中,定义目标帧到参考帧计算得到的光流为正向光流,参考帧到目标帧计算得到的光流为反向光流。
(1)初始光流估计
帧间初始光流估计采用SimpleFlow方法。对两帧图像Frtar和Frtar+1,(x,y)表示Frtar中像素点,(u(x,y),v(x,y))表示在(x,y)处的光流向量。定义图像Frtar为目标帧,图像Frtar+1为参考帧,则图像Frtar到图像Frtar+1的正向光流是Frtar中所有像素点的光流向量的集合,即{(u(x,y),v(x,y))|(x,y)∈Frtar}。以下过程中u(x,y)和v(x,y)分别简记为u和v,则Frtar中像素(x,y)根据光流计算得到的在Frtar+1中对应像素点为(x+u,y+v)。
首先,计算图像Frtar到图像Frtar+1的正向光流,对Frtar帧像素点(x0,y0),以其为中心取尺寸为a×a的窗口
Figure BDA0001988977880000072
在本方法中取a=10,W1内任意点(p,q)在Frtar+1帧中的对应像素点是(p+u,q+v),对窗口W1中所有点计算能量项e,如式(17)
e(p,q,u,v)=||Inttar(p,q)-Inttar+1(p+u,q+v)||2 (17)
其中,(p,q)∈W1,Inttar(p,q)表示Frtar中像素点(p,q)的像素点颜色信息,Inttar+1(p+u,q+v)表示Frtar+1中像素点(p+u,q+v)的像素点颜色信息,依次对窗口中的每对点计算可得到a2维的向量e。
然后,基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量如式(18)所示:
Figure BDA0001988977880000081
Figure BDA0001988977880000082
Figure BDA0001988977880000083
Figure BDA0001988977880000084
式(18)中E(x0,y0,u,v)是局部区域能量,表示图像Frtar帧中像素点(x0,y0)处正向光流向量(u,v)的能量,是Frtar帧中(x0,y0)为中心的窗口W1内所有像素点能量项e的加权累加;
Figure BDA0001988977880000085
本方法中设O=20,表示光流向量(u,v)变化范围;距离权重wd和颜色权重wc由像素点(x0,y0)与其依据光流(u,v)计算得到的对应点(x0+u,y0+v)的距离差异和颜色差异决定,设定彩色参数σc=0.08(经验值),距离参数σd=5.5(经验值)。使E能量最小的(u,v)即是像素点(x0,y0)的光流向量估计结果,对Frtar帧图像上所有像素点计算光流向量得到图像Frtar到图像Frtar+1的正向光流。
同样,计算Frtar+1帧到Frtar帧的反向光流。
(2)遮挡点检测
记图像Frtar帧中到图像Frtar+1帧正向光流为{(uf(x),vf(y))|(x,y)∈Frtar},以及图像Frtar+1帧到图像Frtar的反向光流结果为{(ub(x′),vb(y′))|(x′,y′)∈Frtar+1}。对像素(x,y)计算||(uf(x),vf(v))-(-ub(x+uf(x)),-vb(y+vf(y)))||,若该值不为0则认为像素点(x,y)为遮挡点。
(3)遮挡点光流的重新估算
对被标记为遮挡点的像素(x0,y0),利用式(19)重新估计光流能量,记为Eb(x0,y0,u,v):
Figure BDA0001988977880000086
Figure BDA0001988977880000087
Figure BDA0001988977880000088
式(19)中,
Figure BDA0001988977880000089
表示Frtar帧像素点(x0,y0)处不同光流估计值对应的能量项e的平均值;
Figure BDA00019889778800000810
表示Frtar帧像素点(x0,y0)处不同光流估计值对应能量项e的最小值;wr(x0,y0)为能量项e均值和最小能量项e值的差,对标记为遮挡的像素点(x0,y0)使Eb最小的(u,v)即使像素(x0,y0)处的光流向量。
对标记为遮挡点的像素,其最终光流向量采用步骤(3)重新估计的光流向量。
S2.1.2超像素时间上下文及其特征表示
利用S1.1计算的超像素分割图的方法对Frtar帧图像、Frtar-1帧图像和Frtar+1帧图像进行超像素分割。
(1)超像素时间上下文
首先根据Frtar到Frtar+1的正向光流计算Frtar帧超像素Segtar包含的所有像素点{(x,y)|(x,y)∈Segtar}的正向光流{(uf(x),vf(y))|(x,y)∈Segtar}的均值
Figure BDA0001988977880000091
如式(20)所示:
Figure BDA0001988977880000092
式(20)中,Num(Segtar)表示超像素Segtar包含的像素点的数量,依据正向光流均值计算超像素Segtar包含的像素点在Frtar+1的对应像素,得到区域Segtar={(x′,y′)|x′=x+uf(x),y=y+uf(y),(x,y)∈Segtar,(x′,y′)∈Frtar+1},称为超像素Segtar在Frtar+1的对应区域。计算Seg′tar与Frtar+1帧中第i个超像素
Figure BDA0001988977880000097
的交并比IOU如式(21)所示:
Figure BDA0001988977880000093
式(21)中,Num(·)表示区域包含像素点数量。若
Figure BDA0001988977880000094
τ,则依据Frtar+1到Frtar的反向光流计算超像素
Figure BDA0001988977880000095
在Frtar帧的对应区域Seg′tar,依据式(21)计算区域Seg′tar与超像素Segtar的交并比IOU(Seg′tar,Segtar)。若IOU(Seg″tar,Segtar)τ,则
Figure BDA0001988977880000096
称为超像素Segtar在Frtar+1的对应超像素,超像素Segtar在Frtar+1的对应超像素数量可以是0个、1个或多个。本方法中设定交并比判定阈值τ=0.3。同理,求得超像素Segtar在Frtar-1帧的对应超像素,超像素Segtar在Frtar-1的对应超像素数量是0个、1个或多个。
超像素Segtar的时间上下文记
Figure BDA0001988977880000101
其中
Figure BDA0001988977880000102
Figure BDA0001988977880000103
分别是Frtar帧超像素Segtar在Frtar-1帧和Frtar+1帧的对应超像素集合。
(2)超像素时间上下文语义特征表示
超像素时间上下文Segstar的语义特征记为
Figure BDA0001988977880000104
如式(22):
Figure BDA0001988977880000105
Figure BDA0001988977880000106
为Frtar帧中超像素Segtar的特征,
Figure BDA0001988977880000107
为Frtar-1帧中所有对应超像素
Figure BDA0001988977880000108
特征的均值,
Figure BDA0001988977880000109
为Frtar+1帧中所有对应超像素
Figure BDA00019889778800001010
特征的均值,每个超像素的特征按照式1.3节的方法计算。
Frtar帧中的超像素Segtar在Frtar+1帧或Frtar-1帧的对应超像素数量为0时,使用其自身特征
Figure BDA00019889778800001011
替代
Figure BDA00019889778800001012
Figure BDA00019889778800001013
S2.2超像素空间上下文
利用S1.1的方法对图像进行超像素分割,超像素层次分割树的阈值设定为1时可得到最高层次的超像素分割图,即层次分割树的根节点,该节点表示整张图像作为一个超像素;设定阈值为0.06时得到较低层次的超像素分割结果;当阈值为0.08时,边界判定标准比提高,使得原本边界概率值在[0.06,0.08]的像素点被判定为非边界点,而这些点在阈值为0.06时是判定为边界点的。高层次的超像素会将低层次的超像素包含在其中。本方法定义层次分割树中,子节点超像素是父节点超像素的空间上下文。
S3语义分类
S3.1基于时间上下文的超像素语义分类
本方法输入为超像素的时间上下文特征,利用GBDT(梯度提升决策树)进行超像素语义分类,输出为超像素的预测标签。
在GBDT训练过程中,设训练MR轮,mr∈{1,2,3,...,MR},则第mr轮对每个类别训练一棵回归树即弱分类器,即有L个类别时训练L棵回归树,j∈{1,2,3,...,L}。最终能得到L×MR个弱分类器。在每一轮中对每一个分类器的训练方法是相同的。
(1)GBDT多分类器训练
训练集Featr包含NSegtr个样本:
Figure BDA0001988977880000111
其中,训练样本Feai是第i个超像素的时间上下文特征,其真实标签为labi,labi∈{1,2,3,...,L}。
首先,第0轮进行初始化的操作,设第l类分类器预测函数值hl,0(x)为0;将真实标签labi转换为L维标签向量
Figure BDA0001988977880000112
labi[k]∈{0,1},第i个训练样本的真实标签为j的话,其标签向量的第l维分量labi[l]=1,其他分量值为0。计算第i个样本属于类别l的概率
Figure BDA0001988977880000113
I(labi=j)为指示函数,当样本i的标签为j时指示函数的值为1,否则值为0。
记第i个样本应用第mr-1轮第j个分类器的预测结果为hl,(mr-1)(Feai),第mr-1轮分类器对第i个样本的分类误差为
Figure BDA0001988977880000114
定义如式(23):
Figure BDA0001988977880000115
Figure BDA0001988977880000116
则得到第mr-1轮的分类误差集
Figure BDA0001988977880000117
构建第mr轮第l个分类器时,遍历训练样本数据集Featr中每个样本的每一特征维度,以第i个样本第par维特征值为分类基准值对数据集Featr中全部样本进行分类,特征值大于基准值的样本属于集合{Region1},反之属于集合{Region2},全部样本分类完成后根据式(25)计算回归树的误差
Figure BDA0001988977880000118
Figure BDA0001988977880000119
其中,
Figure BDA00019889778800001110
NRegionm表示落入Regionm的样本总数。最终选择使回归树误差最小的特征值为树的新分类值。重复构建回归树直到达到树的设定高度,在本方法中设定回归树树高为5。以相同方法构建本轮其它类别的回归树。
第mr轮第j类的回归树叶节点数量记为Regmr,l个,每一个节点是训练样本集合的一个子集,且任意两个叶节点交集为空集。对第mr轮构建好的第l类的回归树计算每一个叶节点的增益值
Figure BDA00019889778800001111
如式(26):
Figure BDA0001988977880000121
通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值hl,mr(Feai):
Figure BDA0001988977880000122
其中,reg∈{1,2,...,Regmr,l}
直到训练MR轮结束。第MR轮第l类别的回归树对第i个样本的预测值hl,MR(Feai)表达式如(28):
Figure BDA0001988977880000123
其中,reg∈{1,2,...,RegMR,l}。
式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测预测结果则得到式(29):
Figure BDA0001988977880000124
依次类推,带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测预测结果,得到式(30)
Figure BDA0001988977880000125
(2)GBDT预测
对超像素Seg计算其时间上下文特征FeaSeg,利用式(30)计算超像素Seg属于不同类别的预测值hl,MR(FeaSeg),再通过式(24)计算超像素Seg属于不同类别的概率值probl,MR(FeaSeg)。概率值最高的类别l即为超像素Seg的预测类别。
S3.2基于空间上下文优化语义分类
本方法在对图像进行超像素分割时,设定0.06和0.08两个边界判断阈值,从而得到高度为2的层次分割树。
本方法中以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果。
首先根据S3.1的方法,对叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率,通过式(31)计算超像素块的最终语义标签。
Figure BDA0001988977880000131
Figure BDA0001988977880000132
其中l*表示对式(31)计算取最大概率值的类别即超像素块最终语义标签,
Figure BDA0001988977880000133
表示0.08阈值超像素包含的阈值0.06超像素集合中第a个超像素语义标签为l的概率,
Figure BDA0001988977880000134
为阈值0.08超像素语义标签为l的概率。Naux表示0.08阈值超像素包含的0.06阈值超像素的数量;waux为阈值0.06超像素语义标注的信任度,本方法取值为0.4;wtar get为阈值0.08超像素语义标注的信任度,本方法取值为0.6。
附图说明
图1基于时空上下文的RGBD室内场景识别方法流程图。
图2超像素分割层次树示意图。
图3基于空间上下文的优化示意图。
具体实施方式
以下本发明结合附图和实施例对本发明进行详细说明。
如图1-3所示,一种基于超像素时空上下文的RGB-D室内场景标注方法,输入为待标注图像Frtar及其时间序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注。
基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文。
构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树(GradientBoost Decision Tree,GBDT)利用超像素的基于时间上下文特征进行分类;利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果,得到Frtar中超像素的语义标注。
S1超像素
在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。
S1.1图像的超像素分割
超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值
Figure BDA0001988977880000141
将gPb/UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算
Figure BDA0001988977880000142
式(1)中,
Figure BDA0001988977880000143
是基于彩色图像计算得到的像素属于边界的概率值,
Figure BDA0001988977880000144
是基于深度图像计算得到的像素属于边界的概率值。
Figure BDA0001988977880000145
依据公式(1)得到的概率值
Figure BDA0001988977880000146
和设定不同的概率阈值tr来得到多层次分割的结果。
在本方法中设定的概率阈值tr为0.06和0.08,按照八连通原则,将概率值小于设定阈值的像素连成一个区域,每个区域即为一个超像素。
S1.2 Patch特征
Patch定义为m×m大小的网格,以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格。本方法在实验中设置Patch的尺寸为16×16,选取Patch时滑动步长n取值为2,以大小为N*M的图像为例,最终得到的Patch数量为
Figure BDA0001988977880000147
针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征。
S1.2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
Figure BDA0001988977880000148
公式(2)中,z∈Zd表示像素z在深度Patch中的相对二维坐标位置;
Figure BDA0001988977880000151
Figure BDA0001988977880000152
分别表示像素z的深度梯度方向和梯度大小;
Figure BDA0001988977880000153
Figure BDA0001988977880000154
分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;
Figure BDA0001988977880000155
是在
Figure BDA0001988977880000156
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA0001988977880000157
表示克罗内克积。
Figure BDA0001988977880000158
Figure BDA0001988977880000159
分别为深度梯度高斯核函数和位置高斯核函数,
Figure BDA00019889778800001510
Figure BDA00019889778800001511
为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d
S1.2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
Figure BDA00019889778800001512
公式(3)中,z∈Zc表示一个像素z在彩色图像Patch中的相对二维坐标位置;
Figure BDA00019889778800001513
Figure BDA00019889778800001514
分别表示像素z的梯度方向和梯度大小;
Figure BDA00019889778800001515
Figure BDA00019889778800001516
分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;
Figure BDA00019889778800001517
是在
Figure BDA00019889778800001518
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA00019889778800001519
表示克罗内克积。
Figure BDA00019889778800001520
Figure BDA00019889778800001521
分别为彩色梯度高斯核函数和位置高斯核函数,
Figure BDA00019889778800001522
Figure BDA00019889778800001523
为对应高斯核函数的参数。最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c
S1.2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
Figure BDA0001988977880000161
公式(4)中,z∈Zc表示像素z在彩色图像Patch中的相对二维坐标位置;r(z)为三维向量,是像素z的RGB值;
Figure BDA0001988977880000162
Figure BDA0001988977880000163
分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;
Figure BDA0001988977880000164
是在
Figure BDA0001988977880000165
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA0001988977880000166
表示克罗内克积。
Figure BDA0001988977880000167
Figure BDA0001988977880000168
分别为彩色高斯核函数和位置高斯核函数,
Figure BDA0001988977880000169
Figure BDA00019889778800001610
为对应高斯核函数的参数。最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol
S1.2.4纹理特征(Texture)
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
Figure BDA00019889778800001611
公式(5)中,z∈Zg表示像素z在彩色图像Patch中的相对二维坐标位置;S(z)表示以像素z为中心的3×3区域内像素灰度值的标准方差;lbp(z)为像素z的局部二值模式特征(Local Binary Pattern,LBP);
Figure BDA00019889778800001612
Figure BDA00019889778800001613
分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;
Figure BDA00019889778800001614
是在
Figure BDA00019889778800001615
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA00019889778800001616
表示克罗内克积。
Figure BDA00019889778800001617
Figure BDA00019889778800001618
分别为局部二值模式高斯核函数和位置高斯核函数,
Figure BDA00019889778800001619
Figure BDA00019889778800001620
为对应高斯核函数的参数。最后,利用EMK算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex
S1.3超像素特征
超像素特征Fseg定义如(6)式:
Figure BDA00019889778800001621
Figure BDA0001988977880000171
分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:
Figure BDA0001988977880000172
式(7)中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量。
超像素几何特征
Figure BDA0001988977880000173
按(8)式定义:
Figure BDA0001988977880000174
式(8)中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如式(9):
Figure BDA0001988977880000175
公式(9)中,M、N分别表示RGB场景图像的横、纵向分辨率;seg、seg表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合。
超像素的面积周长比Rseg定义如式(10):
Figure BDA0001988977880000176
Figure BDA0001988977880000177
是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶(2+0=2或0+2=2)Hu矩,定义如式(11)、(12)、(13)
Figure BDA0001988977880000178
Figure BDA0001988977880000179
Figure BDA00019889778800001710
公式(14)中
Figure BDA00019889778800001711
分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):
Figure BDA0001988977880000181
Width,Height分别表示图像宽度和高度,即
Figure BDA0001988977880000182
基于归一化的像素坐标值进行计算。
Figure BDA0001988977880000183
Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):
Figure BDA0001988977880000184
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Figure BDA0001988977880000185
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。
S2超像素上下文
本方法基于RGB-D图像序列时序关系和超像素分割的树结构,分别构造时间上下文和空间上下文。
S2.1超像素时间上下文
S2.1.1帧间光流计算
在本方法中,定义目标帧到参考帧计算得到的光流为正向光流,参考帧到目标帧计算得到的光流为反向光流。
(2)初始光流估计
帧间初始光流估计采用SimpleFlow方法。对两帧图像Frtar和Frtar+1,(x,y)表示Frtar中像素点,(u(x,y),v(x,y))表示在(x,y)处的光流向量。定义图像Frtar为目标帧,图像Frtar+1为参考帧,则图像Frtar到图像Frtar+1的正向光流是Frtar中所有像素点的光流向量的集合,即{(u(x,y),v(x,y))|(x,y)∈Frtar}。以下过程中u(x,y)和v(x,y)分别简记为u和v,则Frtar中像素(x,y)根据光流计算得到的在Frtar+1中对应像素点为(x+u,y+v)。
首先,计算图像Frtar到图像Frtar+1的正向光流,对Frtar帧像素点(x0,y0),以其为中心取尺寸为a×a的窗口
Figure BDA0001988977880000191
在本方法中取a=10,W1内任意点(p,q)在Frtar+1帧中的对应像素点是(p+u,q+v),对窗口W1中所有点计算能量项e,如式(17)
e(p,q,u,v)=||Inttar(p,q)-Inttar+1(p+u,q+v)||2 (17)
其中,(p,q)∈W1,Inttar(p,q)表示Frtar中像素点(p,q)的像素点颜色信息,Inttar+1(p+u,q+v)表示Frtar+1中像素点(p+u,q+v)的像素点颜色信息,依次对窗口中的每对点计算可得到a2维的向量e。
然后,基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量如式(18)所示:
Figure BDA0001988977880000192
Figure BDA0001988977880000193
Figure BDA0001988977880000194
Figure BDA0001988977880000195
式(18)中E(x0,y0,u,v)是局部区域能量,表示图像Frtar帧中像素点(x0,y0)处正向光流向量(u,v)的能量,是Frtar帧中(x0,y0)为中心的窗口W1内所有像素点能量项e的加权累加;
Figure BDA0001988977880000196
本方法中设O=20,表示光流向量(u,v)变化范围;距离权重Wd和颜色权重wc由像素点(x0,y0)与其依据光流(u,v)计算得到的对应点(x0+u,y0+v)的距离差异和颜色差异决定,设定彩色参数σc=0.08(经验值),距离参数σd=5.5(经验值)。使E能量最小的(u,v)即是像素点(x0,y0)的光流向量估计结果,对Frtar帧图像上所有像素点计算光流向量得到图像Frtar到图像Frtar+1的正向光流。
同样,依据上述的方法计算Frtar+1帧到Frtar帧的反向光流。
(2)遮挡点检测
记图像Frtar帧中到图像Frtar+1帧正向光流为{(uf(x),vf(y))|(x,y)∈Frtar},以及图像Frtar+1帧到图像Frtar的反向光流结果为{(ub(x′),vb(y′))|(x′,y′)∈Frtar+1}。对像素(x,y)计算||(uf(x),vf(v))-(-ub(x+uf(x)),-vb(y+vf(y)))||,若该值不为0则认为像素点(x,y)为遮挡点。
(3)遮挡点光流的重新估算
对被标记为遮挡点的像素(x0,y0),利用式(19)重新估计光流能量,记为Eb(x0,y0,u,v):
Figure BDA0001988977880000201
Figure BDA0001988977880000202
Figure BDA0001988977880000203
式(19)中,
Figure BDA0001988977880000204
表示Frtar帧像素点(x0,y0)处不同光流估计值对应的能量项e的平均值;
Figure BDA0001988977880000205
表示Frtar帧像素点(x0,y0)处不同光流估计值对应能量项e的最小值;wr(x0,y0)为能量项e均值和最小能量项e值的差,对标记为遮挡的像素点(x0,y0)使Eb最小的(u,v)即使像素(x0,y0)处的光流向量。
对标记为遮挡点的像素,其最终光流向量采用步骤(3)重新估计的光流向量。
S2.1.2超像素时间上下文及其特征表示
利用S1.1计算的超像素分割图的方法对Frtar帧图像、Frar-1帧图像和Frtar+1帧图像进行超像素分割。
(1)超像素时间上下文
首先根据Frtar到Frtar+1的正向光流计算Frtar帧超像素Segtar包含的所有像素点{(x,y)|(x,y)∈Segtar}的正向光流{(uf(x),vf(y))|(x,y)∈Segtar}的均值
Figure BDA0001988977880000206
如式(20)所示:
Figure BDA0001988977880000207
式(20)中,Num(Segtar)表示超像素Segtar包含的像素点的数量,依据正向光流均值计算超像素Segtar包含的像素点在Frtar+1的对应像素,得到区域Segtar={(x′,y′)|x′=x+uf(x),y′=y+uf(y),(x,y)∈Segtar,(x′,y′)∈Frtar+1},称为超像素Segtar在Frtar+1的对应区域。计算Seg′tar与Frtar+1帧中第i个超像素
Figure BDA0001988977880000211
的交并比IOU如式(21)所示:
Figure BDA0001988977880000212
式(21)中,Num(·)表示区域包含像素点数量。若
Figure BDA0001988977880000213
τ,则依据Frtar+1到Frtar的反向光流计算超像素
Figure BDA0001988977880000214
在Frtar帧的对应区域Seg′tar,依据式(21)计算区域Seg″tar与超像素Segtar的交并比IOU(Seg′tar,Segtar)。若IOU(Seg″tar,Segtar)τ,则
Figure BDA0001988977880000215
称为超像素Segtar在Frtar+1的对应超像素(超像素Segtar在Frtar+1的对应超像素数量可以是0个、1个或多个)。本方法中设定交并比判定阈值τ=0.3(经验值)。同理,求得超像素Segtar在Frtar-1帧的对应超像素(超像素Segtar在Frtar-1的对应超像素数量可以是0个、1个或多个)。
超像素Segtar的时间上下文记
Figure BDA0001988977880000216
其中
Figure BDA0001988977880000217
Figure BDA0001988977880000218
分别是Frtar帧超像素Segtar在Frtar-1帧和Frtar+1帧的对应超像素集合。
(2)超像素时间上下文语义特征表示
超像素时间上下文Segstar的语义特征记为
Figure BDA0001988977880000219
如式(22):
Figure BDA00019889778800002110
Figure BDA00019889778800002111
为Frtar帧中超像素Segtar的特征,
Figure BDA00019889778800002112
为Frtar-1帧中所有对应超像素
Figure BDA00019889778800002113
特征的均值,
Figure BDA00019889778800002114
为Frtar+1帧中所有对应超像素
Figure BDA00019889778800002115
特征的均值,每个超像素的特征按照式1.3节的方法计算。
Frtar帧中的超像素Segtar在Frtar+1帧或Frtar-1帧的对应超像素数量为0时,使用其自身特征
Figure BDA00019889778800002116
替代
Figure BDA00019889778800002117
Figure BDA00019889778800002118
S2.2超像素空间上下文
利用S1.1节的方法对图像进行超像素分割,图2所示为依据多个边界判断阈值得到的超像素层次分割树。超像素层次分割树的阈值设定为1时可得到最高层次的超像素分割图,即层次分割树的根节点,该节点表示整张图像作为一个超像素;设定阈值为0.06时得到较低层次的超像素分割结果;当阈值为0.08时,边界判定标准比提高,使得原本边界概率值在[0.06,0.08]的像素点被判定为非边界点,而这些点在阈值为0.06时是判定为边界点的。以此可以看出,高层次的超像素会将低层次的超像素包含在其中。本方法定义层次分割树中,子节点超像素是父节点超像素的空间上下文。
S3语义分类
S3.1基于时间上下文的超像素语义分类
本方法输入为超像素的时间上下文特征,利用GBDT(梯度提升决策树)进行超像素语义分类,输出为超像素的预测标签。
在GBDT训练过程中,设训练MR轮,mr∈{1,2,3,...,MR},则第mr轮对每个类别训练一棵回归树(弱分类器),即有L个类别时训练L棵回归树,l∈{1,2,3,...,L}。最终能得到L×MR个弱分类器。在每一轮中对每一个分类器的训练方法是相同的。
(1)GBDT多分类器训练
训练集Featr包含NSegtr个样本:
Figure BDA0001988977880000227
其中,训练样本Feai是第i个超像素的时间上下文特征,其真实标签为labi,labi∈{1,2,3,...,L}。
首先,第0轮进行初始化的操作,设第l类分类器预测函数值hl,0(x)为0;将真实标签labi转换为L维标签向量
Figure BDA0001988977880000221
labi[k]∈{0,1},第i个训练样本的真实标签为l的话,其标签向量的第l维分量labi[l]=1,其他分量值为0。计算第i个样本属于类别l的概率
Figure BDA0001988977880000222
I(labi=l)为指示函数,当样本i的标签为l时指示函数的值为1,否则值为0。
记第i个样本应用第mr-1轮第l个分类器的预测结果为hl,(mr-1)(Feai),第mr-1轮分类器对第i个样本的分类误差为
Figure BDA0001988977880000223
定义如式(23):
Figure BDA0001988977880000224
Figure BDA0001988977880000225
则得到第mr-1轮的分类误差集
Figure BDA0001988977880000226
构建第mr轮第l个分类器时,遍历训练样本数据集Featr中每个样本的每一特征维度,以第i个样本第par维特征值为分类基准值对数据集Featr中全部样本进行分类,特征值大于基准值的样本属于集合{Region1},反之属于集合{Region2},全部样本分类完成后根据式(25)计算回归树的误差
Figure BDA0001988977880000231
Figure BDA0001988977880000232
其中,
Figure BDA0001988977880000233
NRegionm表示落入Regionm的样本总数。最终选择使回归树误差最小的特征值为树的新分类值。重复上述过程构建回归树直到达到树的设定高度,在本方法中设定回归树树高为5。以相同方法构建本轮其它类别的回归树。
第mr轮第l类的回归树叶节点数量记为Regmr,l个,每一个节点是训练样本集合的一个子集,且任意两个叶节点交集为空集。对第mr轮构建好的第l类的回归树计算每一个叶节点的增益值
Figure BDA0001988977880000234
如式(26):
Figure BDA0001988977880000235
通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值hl,mr(Feai):
Figure BDA0001988977880000236
其中,reg∈{1,2,...,Regmr,l}
以上述流程计算,直到训练MR轮结束。第MR轮第l类别的回归树对第i个样本的预测值hl,MR(Feai)表达式如(28):
Figure BDA0001988977880000237
其中,reg∈{1,2,...,RegMR,l}。
式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测预测结果则得到式(29):
Figure BDA0001988977880000238
依次类推,带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测预测结果,得到式(30)
Figure BDA0001988977880000241
(2)GBDT预测
对超像素Seg计算其时间上下文特征Feaseg,利用式(30)计算超像素Seg属于不同类别的预测值hl,MR(FeaSeg),再通过式(24)计算超像素Seg属于不同类别的概率值probl,MR(Feaseg)。概率值最高的类别l即为超像素Seg的预测类别。
S3.2基于空间上下文优化语义分类
本方法在对图像进行超像素分割时,设定0.06和0.08两个边界判断阈值,从而得到高度为2的层次分割树,如图3。
本方法中以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果。
首先根据S3.1的方法,对图3中叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率,通过式(31)计算超像素块的最终语义标签。
Figure BDA0001988977880000242
Figure BDA0001988977880000243
其中l*表示对式(31)计算取最大概率值的类别即超像素块最终语义标签,
Figure BDA0001988977880000244
表示0.08阈值超像素包含的阈值0.06超像素集合中第a个超像素语义标签为l的概率,
Figure BDA0001988977880000245
为阈值0.08超像素语义标签为l的概率。Naux表示0.08阈值超像素包含的0.06阈值超像素的数量;waux为阈值0.06超像素语义标注的信任度,本方法取值为0.4;Wtarget为阈值0.08超像素语义标注的信任度,本方法取值为0.6。
表1 NYUV2数据集上13类语义实验本方法与其他基于定义特征的RGB-D室内场景标注方法的类平均准确率比较。
表1
Figure BDA0001988977880000251
[1]C.Coupire,C.Farabet,L.Najman and Y.LeCun..Indoor scenesegmentation using depth information.In ICLR,2013.
[2]A.Hermans,G.Floros,and B.Leibe.Dense 3d semantic mapping of indoorscenes fron rgb-d images.In ICRA,2014.
[3]A.Wang,J.Lu,J.Cai,G.Wang,and T.-J.Cham.Unsupervised joint feature1eaming and encoding for rgb-d scene labeling(TIP),2015.
[4]J.Wang,Z.Wang,D.Tao,S.See and G.Wang.Learning common and specificfeatures for rgb-d semantic segmentation with deconvolutional networks.InECCV,2016.

Claims (2)

1.一种基于超像素时空上下文的RGB-D室内场景标注方法,其特征在于:输入为待标注图像Frtar及其时序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注;
基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文;
构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树对超像素进行基于时间上下文特征的分类;利用超像素空间上下文加权组合及空间上下文的语义分类结果,得到Frtar中超像素的语义标注;
S1超像素
在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割;超像素是由一系列位置相邻且颜色、亮度、纹理特征相似的像素点组成的区域,此区域保留局部有效信息,且不会破坏图像中物体的边界信息;
S1.1图像的超像素分割
超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值
Figure FDA0003169217590000011
将gPb/UCM算法分别应用于彩色图像和深度图像,按照式(1)计算
Figure FDA0003169217590000012
式(1)中,
Figure FDA0003169217590000013
是基于彩色图像计算得到的像素属于边界的概率值,
Figure FDA0003169217590000014
是基于深度图像计算得到的像素属于边界的概率值;
Figure FDA0003169217590000015
依据公式(1)得到的概率值
Figure FDA0003169217590000016
和设定不同的概率阈值tr来得到多层次分割的结果;
其中,设定的不同概率阈值tr分别为0.06和0.08,按照八连通原则,将概率值小于设定的概率阈值的像素连成一个区域,每个区域即为一个超像素;
S1.2 Patch特征
Patch定义为h×h大小的网格,以hs像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格;其中,Patch的尺寸为16×16,选取Patch时滑动步长hs取值为2,大小为N*M的图像,最终得到的Patch数量为
Figure FDA0003169217590000017
针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征;
S1.3超像素特征
超像素特征Fseg定义如(6)式:
Figure FDA0003169217590000021
Figure FDA0003169217590000022
分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:
Figure FDA0003169217590000023
式(7)中,Fg_d(q1),Fg_c(q1),Fcol(q1),Ftex(q1)表示第q1个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量;
超像素几何特征
Figure FDA0003169217590000024
按(8)式定义:
Figure FDA0003169217590000025
式(8)中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg根据Bseg得到,定义如式(9):
Figure FDA0003169217590000026
公式(9)中,M、N分别表示RGB场景图像的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合;
超像素的面积周长比Rseg定义如式(10):
Figure FDA0003169217590000027
Figure FDA0003169217590000028
是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶Hu矩,定义如式(11)、(12)、(13)
Figure FDA0003169217590000031
Figure FDA0003169217590000032
Figure FDA0003169217590000033
公式(14)中
Figure FDA0003169217590000034
分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):
Figure FDA0003169217590000035
Width,Heiqht分别表示图像宽度和高度,即
Figure FDA0003169217590000036
基于归一化的像素坐标值进行计算;
Figure FDA0003169217590000037
Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):
Figure FDA0003169217590000038
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Figure FDA0003169217590000039
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法PCA估计;
S2超像素上下文
基于RGB-D图像序列时序关系和超像素分割的树结构,分别构造时间上下文和空间上下文;
S2.1超像素时间上下文
S2.1.1帧间光流计算
定义目标帧到参考帧计算得到的光流为正向光流,参考帧到目标帧计算得到的光流为反向光流;
(1)初始光流估计
帧间初始光流估计采用SimpleFlow方法;对两帧图像Frtar和Frtar+1,(x,y)表示Frtar中像素点,(u(x,y),v(x,y))表示在(x,y)处的光流向量;定义图像Frtar为目标帧,图像Frtar+1为参考帧,则图像Frtar到图像Frtar+1的正向光流是Frtar中所有像素点的光流向量的集合,即{(u(x,y),v(x,y))|(x,y)∈Frtar};将u(x,y)和v(x,y)分别简记为u和v,则Frtar中像素(x,y)根据光流计算得到的在Frtar+1中对应像素点为(x+u,y+v);
首先,计算图像Frtar到图像Frtar+1的正向光流,对Frtar像素点(x0,y0),以其为中心取尺寸为b×b的窗口
Figure FDA0003169217590000041
其中,b=10,W1内任意点(p,q)在Frtar+1中的对应像素点是(p+u,q+v),对窗口W1中所有点计算能量项e,如式(17)
e(p,q,u,v)=||Inttar(p,q)-Inttar+1(p+u,q+v)||2 (17)
其中,(p,q)∈W1,Inttar(p,q)表示Frtar中像素点(p,q)的像素点颜色信息,Inttar+1(p+u,q+v)表示Frtar+1中像素点(p+u,q+v)的像素点颜色信息,依次对窗口中的每对点计算可得到b2维的向量e;
然后,基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量,如式(18)所示:
Figure FDA0003169217590000042
Figure FDA0003169217590000043
Figure FDA0003169217590000044
Figure FDA0003169217590000045
式(18)中E(x0,y0,u,v)是局部区域能量,表示图像Frtar中像素点(x0,y0)处正向光流向量(u,v)的能量,是Frtar中(x0,y0)为中心的窗口W1内所有像素点能量项e的加权累加;
Figure FDA0003169217590000046
其中,O=20,表示光流向量(u,v)变化范围;距离权重wd和颜色权重wc由像素点(x0,y0)与其依据光流(u,v)计算得到的对应点(x0+u,y0+v)的距离差异和颜色差异决定,设定彩色参数σc=0.08,距离参数σd=5.5;使E能量最小的(u,v)即是像素点(x0,y0)的光流向量估计结果,对图像Frtar上所有像素点计算光流向量得到图像Frtar到图像Frtar+1的正向光流;
同样,计算Frtar+1到Frtar的反向光流;
(2)遮挡点检测
记图像Frtar到图像Frtar+1正向光流为{(uf(x),vf(y))|(x,y)∈Frtar},以及图像Frtar+1到图像Frtar的反向光流结果为{(ub(x′),vb(y′))|(x′,y′)∈Frtar+1};对像素(x,y)计算||(uf(x),vf(y))-(-ub(x+uf(x)),-vb(y+vf(y)))||,若该值(||(uf(x),vf(y))-(-ub(x+uf(x)),-vb(y+vf(y)))||)不为0则认为像素点(x,y)为遮挡点;
(3)遮挡点光流的重新估算
对被标记为遮挡点的像素(x0,y0),利用式(19)重新估计光流能量,记为Eb(x0,y0,u,v):
Figure FDA0003169217590000051
Figure FDA0003169217590000052
Figure FDA0003169217590000053
式(19)中,
Figure FDA0003169217590000054
表示Frtar像素点(x0,y0)处不同光流估计值对应的能量项e的平均值;
Figure FDA0003169217590000055
表示Frtar像素点(x0,y0)处不同光流估计值对应能量项e的最小值;wr(x0,y0)为能量项e均值和最小能量项e值的差,对标记为遮挡的像素点(x0,y0)使Eb最小的(u,v)即是像素(x0,y0)处的光流向量;
对标记为遮挡点的像素,其最终光流向量采用步骤(3)重新估计的光流向量;
S2.1.2超像素时间上下文及其特征表示
利用S1.1计算的超像素分割图的方法对图像Frtar、图像Frtar-1和图像Frtar+1进行超像素分割;
(1)超像素时间上下文
首先根据Frtar到Frtar+1的正向光流计算Frtar超像素Segtar包含的所有像素点{(x,y)|(x,y)∈Segtar}的正向光流{(uf(x),vf(y))|(x,y)∈Segtar}的均值
Figure FDA0003169217590000056
如式(20)所示:
Figure FDA0003169217590000061
式(20)中,Num(Segtar)表示超像素Segtar包含的像素点的数量,依据正向光流均值计算超像素Segtar包含的像素点在Frtar+1的对应像素,得到区域Seg′tar={(x′,y′)|x′=x+uf(x),y′=y+vf(y),(x,y)∈Segtar,(x′,y′)∈Frtar+1},称为超像素Segtar在Frtar+1的对应区域;计算Seg′tar与Frtar+1中第i个超像素
Figure FDA0003169217590000062
的交并比IOU如式(21)所示:
Figure FDA0003169217590000063
式(21)中,Num(·)表示区域包含像素点数量;若
Figure FDA0003169217590000064
则依据Frtar+1到Frtar的反向光流计算超像素
Figure FDA0003169217590000065
在Frtar的对应区域Seg″tar,依据式(21)计算区域Seg″tar与超像素Segtar的交并比IOU(Seg″tar,Segtar);若IOU(Seg″tar,Segtar)≥τ,则
Figure FDA0003169217590000066
称为超像素Segtar在Frtar+1的对应超像素,超像素Segtar在Frtar+1的对应超像素数量是0个、1个或多个;设定交并比判定阈值τ=0.3;求得超像素Segtar在Frtar-1的对应超像素,超像素Segtar在Frtar-1的对应超像素数量是0个、1个或多个;
超像素Segtar的时间上下文记
Figure FDA0003169217590000067
其中
Figure FDA0003169217590000068
Figure FDA0003169217590000069
分别是Frtar帧超像素Segtar在FFtar-1和Frtar+1的对应超像素集合;
(2)超像素时间上下文语义特征表示
超像素时间上下文Segstar的语义特征记为
Figure FDA00031692175900000610
如式(22):
Figure FDA00031692175900000611
Figure FDA00031692175900000612
为Frtar中超像素Segtar的特征,
Figure FDA00031692175900000613
为Frtar-1中所有对应超像素
Figure FDA00031692175900000614
特征的均值,
Figure FDA00031692175900000615
为Frtar+1中所有对应超像素
Figure FDA00031692175900000616
特征的均值,每个超像素的特征按照S1.3的方法计算;
Frtar中的超像素Segtar在Frtar+1或Frtar-1的对应超像素数量为0时,使用其自身特征
Figure FDA0003169217590000071
替代
Figure FDA0003169217590000072
Figure FDA0003169217590000073
S2.2超像素空间上下文
利用S1.1的方法对图像进行超像素分割,超像素层次分割树的阈值设定为1时得到最高层次的超像素分割图,即层次分割树的根节点,该节点表示整张图像作为一个超像素;设定阈值为0.06时得到较低层次的超像素分割结果;当阈值为0.08时,边界判定标准比提高,使得原本边界概率值在[0.06,0.08]的像素点被判定为非边界点,而这些点在阈值为0.06时是判定为边界点的;高层次的超像素会将低层次的超像素包含在其中;定义层次分割树中,子节点超像素是父节点超像素的空间上下文;
S3语义分类
S3.1基于时间上下文的超像素语义分类
将超像素的时间上下文特征作为输入,利用GBDT进行超像素语义分类,输出为超像素的预测标签;
在GBDT训练过程中,设训练MR轮,mr∈{1,2,3,...,MR},则第mr轮对每个类别训练一棵回归树即弱分类器,即有L个类别时训练L棵回归树,l∈{1,2,3,...,L};最终能得到L×MR个弱分类器;在每一轮中对每一个分类器的训练方法是相同的;
(1)GBDT多分类器训练
训练集Featr包含NSegtr个样本:
Figure FDA0003169217590000074
其中,训练样本Feai是第i个超像素的时间上下文特征,其真实标签为labi,labi∈{1,2,3,...,L};
首先,第0轮进行初始化的操作,设第l类分类器预测函数值hl,0(x)为0;将真实标签labi转换为L维标签向量
Figure FDA0003169217590000075
labi[k]∈{0,1},第i个训练样本的真实标签为l的话,其标签向量的第l维分量labi[l]=1,其他分量值为0;计算第i个样本属于类别l的概率
Figure FDA0003169217590000076
I(labi=l)为指示函数,当样本i的标签为l时指示函数的值为1,否则值为0;
记第i个样本应用第mr-1轮第l个分类器的预测结果为hl,(mr-1)(Feai),第mr-1轮分类器对第i个样本的分类误差为
Figure FDA0003169217590000077
定义如式(23):
Figure FDA0003169217590000078
Figure FDA0003169217590000081
则得到第mr-1轮的分类误差集
Figure FDA0003169217590000082
构建第mr轮第l个分类器时,遍历训练集Featr中每个样本的每一特征维度,以第i个样本第par维特征值为分类基准值对训练集Featr中全部样本进行分类,特征值大于基准值的样本属于集合{Region1},反之属于集合{Region2},全部样本分类完成后根据式(25)计算回归树的误差
Figure FDA0003169217590000083
Figure FDA0003169217590000084
其中,
Figure FDA0003169217590000085
m=1,2,NRegionm表示落入Regionm的样本总数;最终选择使回归树误差最小的特征值为树的新分类值;重复构建回归树直到达到树的设定高度,其中,回归树树高为5;以相同方法构建本轮其它类别的回归树;
第mr轮第l类的回归树叶节点数量记为Regmr,l个,每一个节点是训练样本集合的一个子集,且任意两个叶节点交集为空集;对第mr轮构建好的第l类的回归树计算每一个叶节点的增益值
Figure FDA0003169217590000086
如式(26):
Figure FDA0003169217590000087
通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值hl,mr(Feai):
Figure FDA0003169217590000088
其中,reg∈{1,2,...,Regmr,l}
直到训练MR轮结束;第MR轮第l类别的回归树对第i个样本的预测值hl,MR(Feai)表达式如(28):
Figure FDA0003169217590000089
其中,reg∈{1,2,...,RegMR,l};
式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测结果则得到式(29):
Figure FDA00031692175900000810
依次类推,带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测结果,得到式(30)
Figure FDA0003169217590000091
(2)GBDT预测
对超像素Seg计算其时间上下文特征FeaSeg,利用式(30)计算超像素Seg属于不同类别的预测值hl,MR(FeaSeg),再通过式(24)计算超像素Seg属于不同类别的概率值probl,MR(FeaSeg);概率值最高的类别l即为超像素Seg的预测类别;
S3.2基于空间上下文优化语义分类
在对图像进行超像素分割时,设定0.06和0.08两个边界判断阈值,从而得到高度为2的层次分割树;
以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果;
首先根据S3.1的方法,对叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率,通过式(31)计算超像素块的最终语义标签;
Figure FDA0003169217590000092
Figure FDA0003169217590000093
其中l*表示对式(31)计算取最大概率值的类别即超像素块最终语义标签,
Figure FDA0003169217590000094
表示0.08阈值超像素包含的阈值0.06超像素集合中第a个超像素语义标签为l的概率,
Figure FDA0003169217590000095
为阈值0.08超像素语义标签为l的概率;Naux表示0.08阈值超像素包含的0.06阈值超像素的数量;waux为阈值0.06超像素语义标注的信任度,取值为0.4;wtarget为阈值0.08超像素语义标注的信任度,取值为0.6。
2.根据权利要求1所述的一种基于超像素时空上下文的RGB-D室内场景标注方法,其特征在于:S1.2 Patch特征的实现过程如下,
S1.2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
Figure FDA0003169217590000101
公式(2)中,z∈Zd表示像素z在深度Patch中的相对二维坐标位置;
Figure FDA0003169217590000102
Figure FDA0003169217590000103
分别表示像素z的深度梯度方向和梯度大小;
Figure FDA0003169217590000104
Figure FDA0003169217590000105
分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;
Figure FDA0003169217590000106
是在
Figure FDA0003169217590000107
上应用核主成分分析得到的第t个主成分的映射系数,
Figure FDA0003169217590000108
表示克罗内克积;
Figure FDA0003169217590000109
Figure FDA00031692175900001010
分别为深度梯度高斯核函数和位置高斯核函数,
Figure FDA00031692175900001011
Figure FDA00031692175900001012
为对应高斯核函数的参数;最后,利用EMK算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d
S1.2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
Figure FDA00031692175900001013
公式(3)中,z∈Zc表示一个像素z在彩色图像Patch中的相对二维坐标位置;
Figure FDA00031692175900001014
Figure FDA00031692175900001015
分别表示像素z的梯度方向和梯度大小;
Figure FDA00031692175900001016
Figure FDA00031692175900001017
分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;
Figure FDA00031692175900001018
是在
Figure FDA00031692175900001019
上应用核主成分分析KPCA得到的第t个主成分的映射系数,
Figure FDA00031692175900001020
表示克罗内克积;
Figure FDA00031692175900001021
Figure FDA00031692175900001022
分别为彩色梯度高斯核函数和位置高斯核函数,
Figure FDA00031692175900001023
Figure FDA00031692175900001024
为对应高斯核函数的参数;最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c
S1.2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
Figure FDA0003169217590000111
公式(4)中,z∈Zc表示像素z在彩色图像Patch中的相对二维坐标位置;r(z)为三维向量,是像素z的RGB值;
Figure FDA0003169217590000112
Figure FDA0003169217590000113
分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;
Figure FDA0003169217590000114
是在
Figure FDA0003169217590000115
上应用核主成分分析KPCA得到的第t个主成分的映射系数,
Figure FDA0003169217590000116
表示克罗内克积;
Figure FDA0003169217590000117
Figure FDA0003169217590000118
分别为彩色高斯核函数和位置高斯核函数,
Figure FDA0003169217590000119
Figure FDA00031692175900001110
为对应高斯核函数的参数;最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol
S1.2.4纹理特征
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
Figure FDA00031692175900001111
公式(5)中,z∈Zg表示像素z在彩色图像Patch中的相对二维坐标位置;S(z)表示以像素z为中心的3×3区域内像素灰度值的标准方差;lbp(z)为像素z的局部二值模式特征;
Figure FDA00031692175900001112
Figure FDA00031692175900001113
分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;
Figure FDA00031692175900001114
是在
Figure FDA00031692175900001115
上应用核主成分分析得到的第t个主成分的映射系数,
Figure FDA00031692175900001116
表示克罗内克积;
Figure FDA00031692175900001117
Figure FDA00031692175900001118
分别为局部二值模式高斯核函数和位置高斯核函数,
Figure FDA00031692175900001119
Figure FDA00031692175900001120
为对应高斯核函数的参数;最后,利用EMK算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex
CN201910174110.2A 2019-03-08 2019-03-08 一种基于超像素时空上下文的rgb-d室内场景标注方法 Active CN109829449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910174110.2A CN109829449B (zh) 2019-03-08 2019-03-08 一种基于超像素时空上下文的rgb-d室内场景标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910174110.2A CN109829449B (zh) 2019-03-08 2019-03-08 一种基于超像素时空上下文的rgb-d室内场景标注方法

Publications (2)

Publication Number Publication Date
CN109829449A CN109829449A (zh) 2019-05-31
CN109829449B true CN109829449B (zh) 2021-09-14

Family

ID=66865700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910174110.2A Active CN109829449B (zh) 2019-03-08 2019-03-08 一种基于超像素时空上下文的rgb-d室内场景标注方法

Country Status (1)

Country Link
CN (1) CN109829449B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428504B (zh) * 2019-07-12 2023-06-27 北京旷视科技有限公司 文本图像合成方法、装置、计算机设备和存储介质
CN110517270B (zh) * 2019-07-16 2022-04-12 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法
CN110599517A (zh) * 2019-08-30 2019-12-20 广东工业大学 一种基于局部特征和全局hsv特征组合的目标特征描述方法
CN110751153B (zh) * 2019-09-19 2023-08-01 北京工业大学 一种室内场景rgb-d图像的语义标注方法
CN111104984B (zh) * 2019-12-23 2023-07-25 东软集团股份有限公司 一种电子计算机断层扫描ct图像分类方法、装置及设备
CN111292341B (zh) * 2020-02-03 2023-01-03 北京海天瑞声科技股份有限公司 图像标注方法、图像标注装置及计算机存储介质
CN111611919B (zh) * 2020-05-20 2022-08-16 西安交通大学苏州研究院 一种基于结构化学习的道路场景布局分析方法
CN113034378B (zh) * 2020-12-30 2022-12-27 香港理工大学深圳研究院 一种区分电动汽车与燃油汽车的方法
CN113570530B (zh) * 2021-06-10 2024-04-16 北京旷视科技有限公司 图像融合方法、装置、计算机可读存储介质和电子设备
CN115118948B (zh) * 2022-06-20 2024-04-05 北京华录新媒信息技术有限公司 一种全景视频中无规则遮挡的修复方法及装置
CN115952312B (zh) * 2022-12-02 2024-07-19 北京工业大学 一种图像标签的自动标注与排序方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法
CN107292253A (zh) * 2017-06-09 2017-10-24 西安交通大学 一种道路行驶区域的视觉检测方法
CN107944428A (zh) * 2017-12-15 2018-04-20 北京工业大学 一种基于超像素集的室内场景语义标注方法
CN109389605A (zh) * 2018-09-30 2019-02-26 宁波工程学院 基于前景背景估计和分级区域关联的图像协同分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644429B (zh) * 2017-09-30 2020-05-19 华中科技大学 一种基于强目标约束视频显著性的视频分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法
CN107292253A (zh) * 2017-06-09 2017-10-24 西安交通大学 一种道路行驶区域的视觉检测方法
CN107944428A (zh) * 2017-12-15 2018-04-20 北京工业大学 一种基于超像素集的室内场景语义标注方法
CN109389605A (zh) * 2018-09-30 2019-02-26 宁波工程学院 基于前景背景估计和分级区域关联的图像协同分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE;Jerome H. Friedman;《The Annals of Statistics》;20011231;第29卷(第5期);第1189-1232页 *
STD2P: RGBD Semantic Segmentation using Spatio-Temporal Data-Driven Pooling;Yang He et al;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;第7158-7167页 *
Supervoxel-based segmentation of 3D imagery with optical flow integration for spatiotemporal processing;Xiaohui Huang et al;《IPSJ Transactions on Computer Vision and Applications》;20180619;第1-16页 *
融合时空多特征表示的无监督视频分割算法;李雪君 等;《计算机应用》;20171110;第31卷(第11期);第3134-3138、3151页 *

Also Published As

Publication number Publication date
CN109829449A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829449B (zh) 一种基于超像素时空上下文的rgb-d室内场景标注方法
Von Stumberg et al. Gn-net: The gauss-newton loss for multi-weather relocalization
CN109598268B (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN104182772B (zh) 一种基于深度学习的手势识别方法
Cao et al. Exploiting depth from single monocular images for object detection and semantic segmentation
Zhang et al. Long-range terrain perception using convolutional neural networks
CN107273905B (zh) 一种结合运动信息的目标主动轮廓跟踪方法
CN109859238B (zh) 一种基于多特征最优关联的在线多目标跟踪方法
CN108537239B (zh) 一种图像显著性目标检测的方法
CN110096961B (zh) 一种超像素级别的室内场景语义标注方法
CN105740915B (zh) 一种融合感知信息的协同分割方法
CN106157330B (zh) 一种基于目标联合外观模型的视觉跟踪方法
CN113592894B (zh) 一种基于边界框和同现特征预测的图像分割方法
CN107194929B (zh) 一种对肺部ct图像感兴趣区域的追踪方法
CN108038515A (zh) 无监督多目标检测跟踪方法及其存储装置与摄像装置
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Lin et al. An interactive approach to pose-assisted and appearance-based segmentation of humans
Basavaiah et al. Robust Feature Extraction and Classification Based Automated Human Action Recognition System for Multiple Datasets.
Cho Content-based structural recognition for flower image classification
Schulz et al. Object-class segmentation using deep convolutional neural networks
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法
Liu et al. [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video
Dadgostar et al. Gesture-based human–machine interfaces: a novel approach for robust hand and face tracking
Nourmohammadi-Khiarak et al. Object detection utilizing modified auto encoder and convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant