CN109829449B - 一种基于超像素时空上下文的rgb-d室内场景标注方法 - Google Patents
一种基于超像素时空上下文的rgb-d室内场景标注方法 Download PDFInfo
- Publication number
- CN109829449B CN109829449B CN201910174110.2A CN201910174110A CN109829449B CN 109829449 B CN109829449 B CN 109829449B CN 201910174110 A CN201910174110 A CN 201910174110A CN 109829449 B CN109829449 B CN 109829449B
- Authority
- CN
- China
- Prior art keywords
- tar
- pixel
- super
- seg
- superpixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims abstract description 61
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 121
- 230000003287 optical effect Effects 0.000 claims description 98
- 230000006870 function Effects 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 33
- 230000002123 temporal effect Effects 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000000513 principal component analysis Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000005192 partition Methods 0.000 claims description 7
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 239000011541 reaction mixture Substances 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- MQOMKCIKNDDXEZ-UHFFFAOYSA-N 1-dibutylphosphoryloxy-4-nitrobenzene Chemical compound CCCCP(=O)(CCCC)OC1=CC=C([N+]([O-])=O)C=C1 MQOMKCIKNDDXEZ-UHFFFAOYSA-N 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000003066 decision tree Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于超像素时空上下文的RGB‑D室内场景标注方法,在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。本方法中以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果。对叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率。本发明显著优于现有常规室内场景标注方法。
Description
技术领域
本发明涉及RGB-D室内场景图像标注,属于计算机视觉及模式识别领域。
背景技术
室内场景图像的语义标注是目前基于视觉的场景理解中一项具有挑战性的任务,基本目标是为给定室内场景图像(或拍摄的室内场景视频中的帧)中的每一个像素稠密地提供一个预定义的语义类别标签。
室内场景中存在大量的语义类别、场景对象互相遮挡、底层视觉特征辨识力较弱以及不均匀光照等问题,使得室内场景图像标注面临巨大困难。随着深度传感器的普及,目前已能够便捷且可靠地获得包含颜色、纹理和深度的RGB-D数据。RGB-D室内场景标注通常有两类方法,一是基于定义特征的RGB-D室内场景标注;二是基于学习特征的RGB-D室内场景标注。本发明提出一种基于超像素时空上下文的RGB-D室内场景标注方法,属于基于定义特征的RGB-D室内场景标注方法。
以下针对基于定义特征的RGB-D室内场景标注主要方法给出综合分析。作为利用深度信息进行室内场景语义标注的先驱,Silberman等从彩色图像(RGB)、深度图像(Depth)以及经旋转处理后的RGB中提取SIFT特征描述子,对该特征描述子通过反馈式前向神经网络进行语义分类从而得到图像语义标注结果。在得到语义标注结果后进一步使用简单的CRFs(条件随机场概率图模型)进行优化。Ren等人利用gPb/UCM算法对图像进行超像素分割,基于分割阈值将超像素集合组合为层次化树结构。在RGB-D图像上稠密的计算Patch(图像块)的特征描述,基于Patch特征计算超像素区域的特征描述。在语义分类时,超像素特征做为SVM的输入,给出每个超像素的分类结果。基于SVM分类器得到的标签向量构建新的超像素类别特征,使用新特征构建MRFs(马尔科夫随机场)模型对识别结果进行进一步的优化。
在语义识别中,一个共识是使用更多上下文信息,识别的结果通常更为准确。像素级空间上下文通常基于像素间邻接关系构建MRF或CRF模型,约束邻接像素点语义标签一致。超像素级空间上下文,将存在包含关系的超像素特征串接作为分类特征,或者使用超像素信息CRF模型。超像素信息CRF模型中,像素点的预估计概率作为一元能量,像素点对的特征差异作为二元能量,超像素信息作为高层次能量,通过求解定义的能量函数来确定最优的标签。
在对时间上下文的使用中,Kundu认为在同一场景下的视频序列中相邻帧间像素信息存在重叠,故提出一种新的稠密CRF模型方法,二元项计算时先通过光流追踪相邻帧间具有对应关系的点对,并将有对应关系的点对间特征欧式距离作为二元能量,最终用优化完成的CRF模型预测每个像素点的对应标签。
发明目的
本发明的目的在于充分利用时间和空间上下文,在标注过程中利用连续帧图像计算超像素时间上下文,利用层次超像素分割提供的空间上下文联合完成室内场景标注任务。
为实现上述目的,本发明采用的技术方案为一种基于超像素时空上下文的RGB-D室内场景标注方法,输入为待标注图像Frtar及其时间序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注。
基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文。
构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树(GradientBoost Decision Tree,GBDT)利用超像素的基于时间上下文特征进行分类;利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果,得到Frtar中超像素的语义标注。
S1超像素
在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。
S1.1图像的超像素分割
超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值将gPb/UCM算法分别应用于彩色图像和深度图像,按照式(1)计算。式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值。
在本方法中设定的概率阈值tr为0.06和0.08,按照八连通原则,将概率值小于设定阈值的像素连成一个区域,每个区域即为一个超像素。
S1.2Patch特征
Patch定义为m×m大小的网格,以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格。本方法在实验中设置Patch的尺寸为16×16,选取Patch时滑动步长n取值为2,大小为N*M的图像,最终得到的Patch数量为针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征。
S1.2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
公式(2)中,z∈Zd表示像素z在深度Patch中的相对二维坐标位置;和分别表示像素z的深度梯度方向和梯度大小;和分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为深度梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d。
S1.2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
公式(3)中,z∈Zc表示一个像素z在彩色图像Patch中的相对二维坐标位置;和分别表示像素z的梯度方向和梯度大小;和分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c。
S1.2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
公式(4)中,z∈Zc表示像素z在彩色图像Patch中的相对二维坐标位置;r(z)为三维向量,是像素z的RGB值;和分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析KPCA得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol。
S1.2.4纹理特征(Texture)
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
公式(5)中,z∈Zg表示像素z在彩色图像Patch中的相对二维坐标位置;S(z)表示以像素z为中心的3×3区域内像素灰度值的标准方差;lbp(z)为像素z的局部二值模式特征(Local Binary Pattern,LBP);和分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为局部二值模式高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex。
S1.3超像素特征
超像素特征Fseg定义如(6)式:
式(7)中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量。
式(8)中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如式(9):
公式(9)中,M、N分别表示RGB场景图像的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合。
超像素的面积周长比Rseg定义如式(10):
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。
S2超像素上下文
本方法基于RGB-D图像序列时序关系和超像素分割的树结构,分别构造时间上下文和空间上下文。
S2.1超像素时间上下文
S2.1.1帧间光流计算
在本方法中,定义目标帧到参考帧计算得到的光流为正向光流,参考帧到目标帧计算得到的光流为反向光流。
(1)初始光流估计
帧间初始光流估计采用SimpleFlow方法。对两帧图像Frtar和Frtar+1,(x,y)表示Frtar中像素点,(u(x,y),v(x,y))表示在(x,y)处的光流向量。定义图像Frtar为目标帧,图像Frtar+1为参考帧,则图像Frtar到图像Frtar+1的正向光流是Frtar中所有像素点的光流向量的集合,即{(u(x,y),v(x,y))|(x,y)∈Frtar}。以下过程中u(x,y)和v(x,y)分别简记为u和v,则Frtar中像素(x,y)根据光流计算得到的在Frtar+1中对应像素点为(x+u,y+v)。
首先,计算图像Frtar到图像Frtar+1的正向光流,对Frtar帧像素点(x0,y0),以其为中心取尺寸为a×a的窗口
在本方法中取a=10,W1内任意点(p,q)在Frtar+1帧中的对应像素点是(p+u,q+v),对窗口W1中所有点计算能量项e,如式(17)
e(p,q,u,v)=||Inttar(p,q)-Inttar+1(p+u,q+v)||2 (17)
其中,(p,q)∈W1,Inttar(p,q)表示Frtar中像素点(p,q)的像素点颜色信息,Inttar+1(p+u,q+v)表示Frtar+1中像素点(p+u,q+v)的像素点颜色信息,依次对窗口中的每对点计算可得到a2维的向量e。
然后,基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量如式(18)所示:
式(18)中E(x0,y0,u,v)是局部区域能量,表示图像Frtar帧中像素点(x0,y0)处正向光流向量(u,v)的能量,是Frtar帧中(x0,y0)为中心的窗口W1内所有像素点能量项e的加权累加;本方法中设O=20,表示光流向量(u,v)变化范围;距离权重wd和颜色权重wc由像素点(x0,y0)与其依据光流(u,v)计算得到的对应点(x0+u,y0+v)的距离差异和颜色差异决定,设定彩色参数σc=0.08(经验值),距离参数σd=5.5(经验值)。使E能量最小的(u,v)即是像素点(x0,y0)的光流向量估计结果,对Frtar帧图像上所有像素点计算光流向量得到图像Frtar到图像Frtar+1的正向光流。
同样,计算Frtar+1帧到Frtar帧的反向光流。
(2)遮挡点检测
记图像Frtar帧中到图像Frtar+1帧正向光流为{(uf(x),vf(y))|(x,y)∈Frtar},以及图像Frtar+1帧到图像Frtar的反向光流结果为{(ub(x′),vb(y′))|(x′,y′)∈Frtar+1}。对像素(x,y)计算||(uf(x),vf(v))-(-ub(x+uf(x)),-vb(y+vf(y)))||,若该值不为0则认为像素点(x,y)为遮挡点。
(3)遮挡点光流的重新估算
对被标记为遮挡点的像素(x0,y0),利用式(19)重新估计光流能量,记为Eb(x0,y0,u,v):
式(19)中,表示Frtar帧像素点(x0,y0)处不同光流估计值对应的能量项e的平均值;表示Frtar帧像素点(x0,y0)处不同光流估计值对应能量项e的最小值;wr(x0,y0)为能量项e均值和最小能量项e值的差,对标记为遮挡的像素点(x0,y0)使Eb最小的(u,v)即使像素(x0,y0)处的光流向量。
对标记为遮挡点的像素,其最终光流向量采用步骤(3)重新估计的光流向量。
S2.1.2超像素时间上下文及其特征表示
利用S1.1计算的超像素分割图的方法对Frtar帧图像、Frtar-1帧图像和Frtar+1帧图像进行超像素分割。
(1)超像素时间上下文
首先根据Frtar到Frtar+1的正向光流计算Frtar帧超像素Segtar包含的所有像素点{(x,y)|(x,y)∈Segtar}的正向光流{(uf(x),vf(y))|(x,y)∈Segtar}的均值如式(20)所示:
式(20)中,Num(Segtar)表示超像素Segtar包含的像素点的数量,依据正向光流均值计算超像素Segtar包含的像素点在Frtar+1的对应像素,得到区域Segtar={(x′,y′)|x′=x+uf(x),y=y+uf(y),(x,y)∈Segtar,(x′,y′)∈Frtar+1},称为超像素Segtar在Frtar+1的对应区域。计算Seg′tar与Frtar+1帧中第i个超像素的交并比IOU如式(21)所示:
式(21)中,Num(·)表示区域包含像素点数量。若τ,则依据Frtar+1到Frtar的反向光流计算超像素在Frtar帧的对应区域Seg′tar,依据式(21)计算区域Seg′tar与超像素Segtar的交并比IOU(Seg′tar,Segtar)。若IOU(Seg″tar,Segtar)τ,则称为超像素Segtar在Frtar+1的对应超像素,超像素Segtar在Frtar+1的对应超像素数量可以是0个、1个或多个。本方法中设定交并比判定阈值τ=0.3。同理,求得超像素Segtar在Frtar-1帧的对应超像素,超像素Segtar在Frtar-1的对应超像素数量是0个、1个或多个。
(2)超像素时间上下文语义特征表示
S2.2超像素空间上下文
利用S1.1的方法对图像进行超像素分割,超像素层次分割树的阈值设定为1时可得到最高层次的超像素分割图,即层次分割树的根节点,该节点表示整张图像作为一个超像素;设定阈值为0.06时得到较低层次的超像素分割结果;当阈值为0.08时,边界判定标准比提高,使得原本边界概率值在[0.06,0.08]的像素点被判定为非边界点,而这些点在阈值为0.06时是判定为边界点的。高层次的超像素会将低层次的超像素包含在其中。本方法定义层次分割树中,子节点超像素是父节点超像素的空间上下文。
S3语义分类
S3.1基于时间上下文的超像素语义分类
本方法输入为超像素的时间上下文特征,利用GBDT(梯度提升决策树)进行超像素语义分类,输出为超像素的预测标签。
在GBDT训练过程中,设训练MR轮,mr∈{1,2,3,...,MR},则第mr轮对每个类别训练一棵回归树即弱分类器,即有L个类别时训练L棵回归树,j∈{1,2,3,...,L}。最终能得到L×MR个弱分类器。在每一轮中对每一个分类器的训练方法是相同的。
(1)GBDT多分类器训练
训练集Featr包含NSegtr个样本:
其中,训练样本Feai是第i个超像素的时间上下文特征,其真实标签为labi,labi∈{1,2,3,...,L}。
首先,第0轮进行初始化的操作,设第l类分类器预测函数值hl,0(x)为0;将真实标签labi转换为L维标签向量labi[k]∈{0,1},第i个训练样本的真实标签为j的话,其标签向量的第l维分量labi[l]=1,其他分量值为0。计算第i个样本属于类别l的概率I(labi=j)为指示函数,当样本i的标签为j时指示函数的值为1,否则值为0。
构建第mr轮第l个分类器时,遍历训练样本数据集Featr中每个样本的每一特征维度,以第i个样本第par维特征值为分类基准值对数据集Featr中全部样本进行分类,特征值大于基准值的样本属于集合{Region1},反之属于集合{Region2},全部样本分类完成后根据式(25)计算回归树的误差
其中,NRegionm表示落入Regionm的样本总数。最终选择使回归树误差最小的特征值为树的新分类值。重复构建回归树直到达到树的设定高度,在本方法中设定回归树树高为5。以相同方法构建本轮其它类别的回归树。
通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值hl,mr(Feai):
其中,reg∈{1,2,...,Regmr,l}
直到训练MR轮结束。第MR轮第l类别的回归树对第i个样本的预测值hl,MR(Feai)表达式如(28):
其中,reg∈{1,2,...,RegMR,l}。
式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测预测结果则得到式(29):
依次类推,带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测预测结果,得到式(30)
(2)GBDT预测
对超像素Seg计算其时间上下文特征FeaSeg,利用式(30)计算超像素Seg属于不同类别的预测值hl,MR(FeaSeg),再通过式(24)计算超像素Seg属于不同类别的概率值probl,MR(FeaSeg)。概率值最高的类别l即为超像素Seg的预测类别。
S3.2基于空间上下文优化语义分类
本方法在对图像进行超像素分割时,设定0.06和0.08两个边界判断阈值,从而得到高度为2的层次分割树。
本方法中以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果。
首先根据S3.1的方法,对叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率,通过式(31)计算超像素块的最终语义标签。
附图说明
图1基于时空上下文的RGBD室内场景识别方法流程图。
图2超像素分割层次树示意图。
图3基于空间上下文的优化示意图。
具体实施方式
以下本发明结合附图和实施例对本发明进行详细说明。
如图1-3所示,一种基于超像素时空上下文的RGB-D室内场景标注方法,输入为待标注图像Frtar及其时间序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注。
基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文。
构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树(GradientBoost Decision Tree,GBDT)利用超像素的基于时间上下文特征进行分类;利用超像素空间上下文加权组合超像素及其空间上下文的语义分类结果,得到Frtar中超像素的语义标注。
S1超像素
在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割。超像素通常是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。
S1.1图像的超像素分割
超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值将gPb/UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值。
在本方法中设定的概率阈值tr为0.06和0.08,按照八连通原则,将概率值小于设定阈值的像素连成一个区域,每个区域即为一个超像素。
S1.2 Patch特征
Patch定义为m×m大小的网格,以n个像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格。本方法在实验中设置Patch的尺寸为16×16,选取Patch时滑动步长n取值为2,以大小为N*M的图像为例,最终得到的Patch数量为针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征。
S1.2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
公式(2)中,z∈Zd表示像素z在深度Patch中的相对二维坐标位置;和分别表示像素z的深度梯度方向和梯度大小;和分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为深度梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d。
S1.2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
公式(3)中,z∈Zc表示一个像素z在彩色图像Patch中的相对二维坐标位置;和分别表示像素z的梯度方向和梯度大小;和分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c。
S1.2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
公式(4)中,z∈Zc表示像素z在彩色图像Patch中的相对二维坐标位置;r(z)为三维向量,是像素z的RGB值;和分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol。
S1.2.4纹理特征(Texture)
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
公式(5)中,z∈Zg表示像素z在彩色图像Patch中的相对二维坐标位置;S(z)表示以像素z为中心的3×3区域内像素灰度值的标准方差;lbp(z)为像素z的局部二值模式特征(Local Binary Pattern,LBP);和分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。和分别为局部二值模式高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用EMK算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex。
S1.3超像素特征
超像素特征Fseg定义如(6)式:
式(7)中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量。
式(8)中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如式(9):
公式(9)中,M、N分别表示RGB场景图像的横、纵向分辨率;seg、seg表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合。
超像素的面积周长比Rseg定义如式(10):
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。
S2超像素上下文
本方法基于RGB-D图像序列时序关系和超像素分割的树结构,分别构造时间上下文和空间上下文。
S2.1超像素时间上下文
S2.1.1帧间光流计算
在本方法中,定义目标帧到参考帧计算得到的光流为正向光流,参考帧到目标帧计算得到的光流为反向光流。
(2)初始光流估计
帧间初始光流估计采用SimpleFlow方法。对两帧图像Frtar和Frtar+1,(x,y)表示Frtar中像素点,(u(x,y),v(x,y))表示在(x,y)处的光流向量。定义图像Frtar为目标帧,图像Frtar+1为参考帧,则图像Frtar到图像Frtar+1的正向光流是Frtar中所有像素点的光流向量的集合,即{(u(x,y),v(x,y))|(x,y)∈Frtar}。以下过程中u(x,y)和v(x,y)分别简记为u和v,则Frtar中像素(x,y)根据光流计算得到的在Frtar+1中对应像素点为(x+u,y+v)。
首先,计算图像Frtar到图像Frtar+1的正向光流,对Frtar帧像素点(x0,y0),以其为中心取尺寸为a×a的窗口
在本方法中取a=10,W1内任意点(p,q)在Frtar+1帧中的对应像素点是(p+u,q+v),对窗口W1中所有点计算能量项e,如式(17)
e(p,q,u,v)=||Inttar(p,q)-Inttar+1(p+u,q+v)||2 (17)
其中,(p,q)∈W1,Inttar(p,q)表示Frtar中像素点(p,q)的像素点颜色信息,Inttar+1(p+u,q+v)表示Frtar+1中像素点(p+u,q+v)的像素点颜色信息,依次对窗口中的每对点计算可得到a2维的向量e。
然后,基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量如式(18)所示:
式(18)中E(x0,y0,u,v)是局部区域能量,表示图像Frtar帧中像素点(x0,y0)处正向光流向量(u,v)的能量,是Frtar帧中(x0,y0)为中心的窗口W1内所有像素点能量项e的加权累加;本方法中设O=20,表示光流向量(u,v)变化范围;距离权重Wd和颜色权重wc由像素点(x0,y0)与其依据光流(u,v)计算得到的对应点(x0+u,y0+v)的距离差异和颜色差异决定,设定彩色参数σc=0.08(经验值),距离参数σd=5.5(经验值)。使E能量最小的(u,v)即是像素点(x0,y0)的光流向量估计结果,对Frtar帧图像上所有像素点计算光流向量得到图像Frtar到图像Frtar+1的正向光流。
同样,依据上述的方法计算Frtar+1帧到Frtar帧的反向光流。
(2)遮挡点检测
记图像Frtar帧中到图像Frtar+1帧正向光流为{(uf(x),vf(y))|(x,y)∈Frtar},以及图像Frtar+1帧到图像Frtar的反向光流结果为{(ub(x′),vb(y′))|(x′,y′)∈Frtar+1}。对像素(x,y)计算||(uf(x),vf(v))-(-ub(x+uf(x)),-vb(y+vf(y)))||,若该值不为0则认为像素点(x,y)为遮挡点。
(3)遮挡点光流的重新估算
对被标记为遮挡点的像素(x0,y0),利用式(19)重新估计光流能量,记为Eb(x0,y0,u,v):
式(19)中,表示Frtar帧像素点(x0,y0)处不同光流估计值对应的能量项e的平均值;表示Frtar帧像素点(x0,y0)处不同光流估计值对应能量项e的最小值;wr(x0,y0)为能量项e均值和最小能量项e值的差,对标记为遮挡的像素点(x0,y0)使Eb最小的(u,v)即使像素(x0,y0)处的光流向量。
对标记为遮挡点的像素,其最终光流向量采用步骤(3)重新估计的光流向量。
S2.1.2超像素时间上下文及其特征表示
利用S1.1计算的超像素分割图的方法对Frtar帧图像、Frar-1帧图像和Frtar+1帧图像进行超像素分割。
(1)超像素时间上下文
首先根据Frtar到Frtar+1的正向光流计算Frtar帧超像素Segtar包含的所有像素点{(x,y)|(x,y)∈Segtar}的正向光流{(uf(x),vf(y))|(x,y)∈Segtar}的均值如式(20)所示:
式(20)中,Num(Segtar)表示超像素Segtar包含的像素点的数量,依据正向光流均值计算超像素Segtar包含的像素点在Frtar+1的对应像素,得到区域Segtar={(x′,y′)|x′=x+uf(x),y′=y+uf(y),(x,y)∈Segtar,(x′,y′)∈Frtar+1},称为超像素Segtar在Frtar+1的对应区域。计算Seg′tar与Frtar+1帧中第i个超像素的交并比IOU如式(21)所示:
式(21)中,Num(·)表示区域包含像素点数量。若τ,则依据Frtar+1到Frtar的反向光流计算超像素在Frtar帧的对应区域Seg′tar,依据式(21)计算区域Seg″tar与超像素Segtar的交并比IOU(Seg′tar,Segtar)。若IOU(Seg″tar,Segtar)τ,则称为超像素Segtar在Frtar+1的对应超像素(超像素Segtar在Frtar+1的对应超像素数量可以是0个、1个或多个)。本方法中设定交并比判定阈值τ=0.3(经验值)。同理,求得超像素Segtar在Frtar-1帧的对应超像素(超像素Segtar在Frtar-1的对应超像素数量可以是0个、1个或多个)。
(2)超像素时间上下文语义特征表示
S2.2超像素空间上下文
利用S1.1节的方法对图像进行超像素分割,图2所示为依据多个边界判断阈值得到的超像素层次分割树。超像素层次分割树的阈值设定为1时可得到最高层次的超像素分割图,即层次分割树的根节点,该节点表示整张图像作为一个超像素;设定阈值为0.06时得到较低层次的超像素分割结果;当阈值为0.08时,边界判定标准比提高,使得原本边界概率值在[0.06,0.08]的像素点被判定为非边界点,而这些点在阈值为0.06时是判定为边界点的。以此可以看出,高层次的超像素会将低层次的超像素包含在其中。本方法定义层次分割树中,子节点超像素是父节点超像素的空间上下文。
S3语义分类
S3.1基于时间上下文的超像素语义分类
本方法输入为超像素的时间上下文特征,利用GBDT(梯度提升决策树)进行超像素语义分类,输出为超像素的预测标签。
在GBDT训练过程中,设训练MR轮,mr∈{1,2,3,...,MR},则第mr轮对每个类别训练一棵回归树(弱分类器),即有L个类别时训练L棵回归树,l∈{1,2,3,...,L}。最终能得到L×MR个弱分类器。在每一轮中对每一个分类器的训练方法是相同的。
(1)GBDT多分类器训练
训练集Featr包含NSegtr个样本:
其中,训练样本Feai是第i个超像素的时间上下文特征,其真实标签为labi,labi∈{1,2,3,...,L}。
首先,第0轮进行初始化的操作,设第l类分类器预测函数值hl,0(x)为0;将真实标签labi转换为L维标签向量labi[k]∈{0,1},第i个训练样本的真实标签为l的话,其标签向量的第l维分量labi[l]=1,其他分量值为0。计算第i个样本属于类别l的概率I(labi=l)为指示函数,当样本i的标签为l时指示函数的值为1,否则值为0。
构建第mr轮第l个分类器时,遍历训练样本数据集Featr中每个样本的每一特征维度,以第i个样本第par维特征值为分类基准值对数据集Featr中全部样本进行分类,特征值大于基准值的样本属于集合{Region1},反之属于集合{Region2},全部样本分类完成后根据式(25)计算回归树的误差
其中,NRegionm表示落入Regionm的样本总数。最终选择使回归树误差最小的特征值为树的新分类值。重复上述过程构建回归树直到达到树的设定高度,在本方法中设定回归树树高为5。以相同方法构建本轮其它类别的回归树。
通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值hl,mr(Feai):
其中,reg∈{1,2,...,Regmr,l}
以上述流程计算,直到训练MR轮结束。第MR轮第l类别的回归树对第i个样本的预测值hl,MR(Feai)表达式如(28):
其中,reg∈{1,2,...,RegMR,l}。
式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测预测结果则得到式(29):
依次类推,带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测预测结果,得到式(30)
(2)GBDT预测
对超像素Seg计算其时间上下文特征Feaseg,利用式(30)计算超像素Seg属于不同类别的预测值hl,MR(FeaSeg),再通过式(24)计算超像素Seg属于不同类别的概率值probl,MR(Feaseg)。概率值最高的类别l即为超像素Seg的预测类别。
S3.2基于空间上下文优化语义分类
本方法在对图像进行超像素分割时,设定0.06和0.08两个边界判断阈值,从而得到高度为2的层次分割树,如图3。
本方法中以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果。
首先根据S3.1的方法,对图3中叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率,通过式(31)计算超像素块的最终语义标签。
其中l*表示对式(31)计算取最大概率值的类别即超像素块最终语义标签,表示0.08阈值超像素包含的阈值0.06超像素集合中第a个超像素语义标签为l的概率,为阈值0.08超像素语义标签为l的概率。Naux表示0.08阈值超像素包含的0.06阈值超像素的数量;waux为阈值0.06超像素语义标注的信任度,本方法取值为0.4;Wtarget为阈值0.08超像素语义标注的信任度,本方法取值为0.6。
表1 NYUV2数据集上13类语义实验本方法与其他基于定义特征的RGB-D室内场景标注方法的类平均准确率比较。
表1
[1]C.Coupire,C.Farabet,L.Najman and Y.LeCun..Indoor scenesegmentation using depth information.In ICLR,2013.
[2]A.Hermans,G.Floros,and B.Leibe.Dense 3d semantic mapping of indoorscenes fron rgb-d images.In ICRA,2014.
[3]A.Wang,J.Lu,J.Cai,G.Wang,and T.-J.Cham.Unsupervised joint feature1eaming and encoding for rgb-d scene labeling(TIP),2015.
[4]J.Wang,Z.Wang,D.Tao,S.See and G.Wang.Learning common and specificfeatures for rgb-d semantic segmentation with deconvolutional networks.InECCV,2016.
Claims (2)
1.一种基于超像素时空上下文的RGB-D室内场景标注方法,其特征在于:输入为待标注图像Frtar及其时序上的前后相邻帧Frtar-1、Frtar+1,输出为Frtar的像素级标注;
基于光流算法计算待标注图像Frtar中每个超像素在Frtar时序上的相邻帧Frtar-1和Frtar+1中的对应超像素,对应超像素即是其时间上下文;利用gPb/UCM算法对图像进行超像素分割,且根据阈值将分割结果组织为分割树,Frtar中的每个超像素在分割树中的子结点即是其空间上下文;
构造Frtar中每个超像素基于时间上下文的特征表示,采用梯度提升树对超像素进行基于时间上下文特征的分类;利用超像素空间上下文加权组合及空间上下文的语义分类结果,得到Frtar中超像素的语义标注;
S1超像素
在计算机视觉领域,将数字图像细分为多个图像子区域的过程称为超像素分割;超像素是由一系列位置相邻且颜色、亮度、纹理特征相似的像素点组成的区域,此区域保留局部有效信息,且不会破坏图像中物体的边界信息;
S1.1图像的超像素分割
超像素分割使用gPb/UCM算法,通过图像局部、全局特征计算像素属于边界的概率值将gPb/UCM算法分别应用于彩色图像和深度图像,按照式(1)计算式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值;
其中,设定的不同概率阈值tr分别为0.06和0.08,按照八连通原则,将概率值小于设定的概率阈值的像素连成一个区域,每个区域即为一个超像素;
S1.2 Patch特征
Patch定义为h×h大小的网格,以hs像素为步长从彩色图像和深度图像左上角向右向下进行滑动,最终在彩色图像和深度图像上形成密集的网格;其中,Patch的尺寸为16×16,选取Patch时滑动步长hs取值为2,大小为N*M的图像,最终得到的Patch数量为针对每个Patch计算四类特征:深度梯度特征、彩色梯度特征、彩色特征、纹理特征;
S1.3超像素特征
超像素特征Fseg定义如(6)式:
式(7)中,Fg_d(q1),Fg_c(q1),Fcol(q1),Ftex(q1)表示第q1个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量;
式(8)中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg根据Bseg得到,定义如式(9):
公式(9)中,M、N分别表示RGB场景图像的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合;
超像素的面积周长比Rseg定义如式(10):
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法PCA估计;
S2超像素上下文
基于RGB-D图像序列时序关系和超像素分割的树结构,分别构造时间上下文和空间上下文;
S2.1超像素时间上下文
S2.1.1帧间光流计算
定义目标帧到参考帧计算得到的光流为正向光流,参考帧到目标帧计算得到的光流为反向光流;
(1)初始光流估计
帧间初始光流估计采用SimpleFlow方法;对两帧图像Frtar和Frtar+1,(x,y)表示Frtar中像素点,(u(x,y),v(x,y))表示在(x,y)处的光流向量;定义图像Frtar为目标帧,图像Frtar+1为参考帧,则图像Frtar到图像Frtar+1的正向光流是Frtar中所有像素点的光流向量的集合,即{(u(x,y),v(x,y))|(x,y)∈Frtar};将u(x,y)和v(x,y)分别简记为u和v,则Frtar中像素(x,y)根据光流计算得到的在Frtar+1中对应像素点为(x+u,y+v);
首先,计算图像Frtar到图像Frtar+1的正向光流,对Frtar像素点(x0,y0),以其为中心取尺寸为b×b的窗口
其中,b=10,W1内任意点(p,q)在Frtar+1中的对应像素点是(p+u,q+v),对窗口W1中所有点计算能量项e,如式(17)
e(p,q,u,v)=||Inttar(p,q)-Inttar+1(p+u,q+v)||2 (17)
其中,(p,q)∈W1,Inttar(p,q)表示Frtar中像素点(p,q)的像素点颜色信息,Inttar+1(p+u,q+v)表示Frtar+1中像素点(p+u,q+v)的像素点颜色信息,依次对窗口中的每对点计算可得到b2维的向量e;
然后,基于局部平滑似然模型结合颜色特征和局部距离特征优化光流向量,如式(18)所示:
式(18)中E(x0,y0,u,v)是局部区域能量,表示图像Frtar中像素点(x0,y0)处正向光流向量(u,v)的能量,是Frtar中(x0,y0)为中心的窗口W1内所有像素点能量项e的加权累加;其中,O=20,表示光流向量(u,v)变化范围;距离权重wd和颜色权重wc由像素点(x0,y0)与其依据光流(u,v)计算得到的对应点(x0+u,y0+v)的距离差异和颜色差异决定,设定彩色参数σc=0.08,距离参数σd=5.5;使E能量最小的(u,v)即是像素点(x0,y0)的光流向量估计结果,对图像Frtar上所有像素点计算光流向量得到图像Frtar到图像Frtar+1的正向光流;
同样,计算Frtar+1到Frtar的反向光流;
(2)遮挡点检测
记图像Frtar到图像Frtar+1正向光流为{(uf(x),vf(y))|(x,y)∈Frtar},以及图像Frtar+1到图像Frtar的反向光流结果为{(ub(x′),vb(y′))|(x′,y′)∈Frtar+1};对像素(x,y)计算||(uf(x),vf(y))-(-ub(x+uf(x)),-vb(y+vf(y)))||,若该值(||(uf(x),vf(y))-(-ub(x+uf(x)),-vb(y+vf(y)))||)不为0则认为像素点(x,y)为遮挡点;
(3)遮挡点光流的重新估算
对被标记为遮挡点的像素(x0,y0),利用式(19)重新估计光流能量,记为Eb(x0,y0,u,v):
式(19)中,表示Frtar像素点(x0,y0)处不同光流估计值对应的能量项e的平均值;表示Frtar像素点(x0,y0)处不同光流估计值对应能量项e的最小值;wr(x0,y0)为能量项e均值和最小能量项e值的差,对标记为遮挡的像素点(x0,y0)使Eb最小的(u,v)即是像素(x0,y0)处的光流向量;
对标记为遮挡点的像素,其最终光流向量采用步骤(3)重新估计的光流向量;
S2.1.2超像素时间上下文及其特征表示
利用S1.1计算的超像素分割图的方法对图像Frtar、图像Frtar-1和图像Frtar+1进行超像素分割;
(1)超像素时间上下文
首先根据Frtar到Frtar+1的正向光流计算Frtar超像素Segtar包含的所有像素点{(x,y)|(x,y)∈Segtar}的正向光流{(uf(x),vf(y))|(x,y)∈Segtar}的均值如式(20)所示:
式(20)中,Num(Segtar)表示超像素Segtar包含的像素点的数量,依据正向光流均值计算超像素Segtar包含的像素点在Frtar+1的对应像素,得到区域Seg′tar={(x′,y′)|x′=x+uf(x),y′=y+vf(y),(x,y)∈Segtar,(x′,y′)∈Frtar+1},称为超像素Segtar在Frtar+1的对应区域;计算Seg′tar与Frtar+1中第i个超像素的交并比IOU如式(21)所示:
式(21)中,Num(·)表示区域包含像素点数量;若则依据Frtar+1到Frtar的反向光流计算超像素在Frtar的对应区域Seg″tar,依据式(21)计算区域Seg″tar与超像素Segtar的交并比IOU(Seg″tar,Segtar);若IOU(Seg″tar,Segtar)≥τ,则称为超像素Segtar在Frtar+1的对应超像素,超像素Segtar在Frtar+1的对应超像素数量是0个、1个或多个;设定交并比判定阈值τ=0.3;求得超像素Segtar在Frtar-1的对应超像素,超像素Segtar在Frtar-1的对应超像素数量是0个、1个或多个;
(2)超像素时间上下文语义特征表示
S2.2超像素空间上下文
利用S1.1的方法对图像进行超像素分割,超像素层次分割树的阈值设定为1时得到最高层次的超像素分割图,即层次分割树的根节点,该节点表示整张图像作为一个超像素;设定阈值为0.06时得到较低层次的超像素分割结果;当阈值为0.08时,边界判定标准比提高,使得原本边界概率值在[0.06,0.08]的像素点被判定为非边界点,而这些点在阈值为0.06时是判定为边界点的;高层次的超像素会将低层次的超像素包含在其中;定义层次分割树中,子节点超像素是父节点超像素的空间上下文;
S3语义分类
S3.1基于时间上下文的超像素语义分类
将超像素的时间上下文特征作为输入,利用GBDT进行超像素语义分类,输出为超像素的预测标签;
在GBDT训练过程中,设训练MR轮,mr∈{1,2,3,...,MR},则第mr轮对每个类别训练一棵回归树即弱分类器,即有L个类别时训练L棵回归树,l∈{1,2,3,...,L};最终能得到L×MR个弱分类器;在每一轮中对每一个分类器的训练方法是相同的;
(1)GBDT多分类器训练
训练集Featr包含NSegtr个样本:
其中,训练样本Feai是第i个超像素的时间上下文特征,其真实标签为labi,labi∈{1,2,3,...,L};
首先,第0轮进行初始化的操作,设第l类分类器预测函数值hl,0(x)为0;将真实标签labi转换为L维标签向量labi[k]∈{0,1},第i个训练样本的真实标签为l的话,其标签向量的第l维分量labi[l]=1,其他分量值为0;计算第i个样本属于类别l的概率I(labi=l)为指示函数,当样本i的标签为l时指示函数的值为1,否则值为0;
构建第mr轮第l个分类器时,遍历训练集Featr中每个样本的每一特征维度,以第i个样本第par维特征值为分类基准值对训练集Featr中全部样本进行分类,特征值大于基准值的样本属于集合{Region1},反之属于集合{Region2},全部样本分类完成后根据式(25)计算回归树的误差
其中,m=1,2,NRegionm表示落入Regionm的样本总数;最终选择使回归树误差最小的特征值为树的新分类值;重复构建回归树直到达到树的设定高度,其中,回归树树高为5;以相同方法构建本轮其它类别的回归树;
通过式(27)计算第mr轮第l类的回归树对第i个样本的预测值hl,mr(Feai):
其中,reg∈{1,2,...,Regmr,l}
直到训练MR轮结束;第MR轮第l类别的回归树对第i个样本的预测值hl,MR(Feai)表达式如(28):
其中,reg∈{1,2,...,RegMR,l};
式(28)代入第MR-2轮第l类别的回归树对第i个样本的预测结果则得到式(29):
依次类推,带入第MR-1轮第l类别至第0轮第l类别回归树对第i个样本的预测结果,得到式(30)
(2)GBDT预测
对超像素Seg计算其时间上下文特征FeaSeg,利用式(30)计算超像素Seg属于不同类别的预测值hl,MR(FeaSeg),再通过式(24)计算超像素Seg属于不同类别的概率值probl,MR(FeaSeg);概率值最高的类别l即为超像素Seg的预测类别;
S3.2基于空间上下文优化语义分类
在对图像进行超像素分割时,设定0.06和0.08两个边界判断阈值,从而得到高度为2的层次分割树;
以0.08阈值确定的超像素的语义标注为优化目标,以0.06分割阈值确定的超像素作为空间上下文,用于优化语义标注结果;
首先根据S3.1的方法,对叶节点以及中间节点对应的每一块超像素进行语义分类,得到0.06和0.08阈值下的超像素分割图中每一超像素语义标注概率,通过式(31)计算超像素块的最终语义标签;
2.根据权利要求1所述的一种基于超像素时空上下文的RGB-D室内场景标注方法,其特征在于:S1.2 Patch特征的实现过程如下,
S1.2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
公式(2)中,z∈Zd表示像素z在深度Patch中的相对二维坐标位置;和分别表示像素z的深度梯度方向和梯度大小;和分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析得到的第t个主成分的映射系数,表示克罗内克积;和分别为深度梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数;最后,利用EMK算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d;
S1.2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
公式(3)中,z∈Zc表示一个像素z在彩色图像Patch中的相对二维坐标位置;和分别表示像素z的梯度方向和梯度大小;和分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析KPCA得到的第t个主成分的映射系数,表示克罗内克积;和分别为彩色梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数;最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c;
S1.2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
公式(4)中,z∈Zc表示像素z在彩色图像Patch中的相对二维坐标位置;r(z)为三维向量,是像素z的RGB值;和分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析KPCA得到的第t个主成分的映射系数,表示克罗内克积;和分别为彩色高斯核函数和位置高斯核函数,和为对应高斯核函数的参数;最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol;
S1.2.4纹理特征
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174110.2A CN109829449B (zh) | 2019-03-08 | 2019-03-08 | 一种基于超像素时空上下文的rgb-d室内场景标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174110.2A CN109829449B (zh) | 2019-03-08 | 2019-03-08 | 一种基于超像素时空上下文的rgb-d室内场景标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829449A CN109829449A (zh) | 2019-05-31 |
CN109829449B true CN109829449B (zh) | 2021-09-14 |
Family
ID=66865700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910174110.2A Active CN109829449B (zh) | 2019-03-08 | 2019-03-08 | 一种基于超像素时空上下文的rgb-d室内场景标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829449B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428504B (zh) * | 2019-07-12 | 2023-06-27 | 北京旷视科技有限公司 | 文本图像合成方法、装置、计算机设备和存储介质 |
CN110517270B (zh) * | 2019-07-16 | 2022-04-12 | 北京工业大学 | 一种基于超像素深度网络的室内场景语义分割方法 |
CN110599517A (zh) * | 2019-08-30 | 2019-12-20 | 广东工业大学 | 一种基于局部特征和全局hsv特征组合的目标特征描述方法 |
CN110751153B (zh) * | 2019-09-19 | 2023-08-01 | 北京工业大学 | 一种室内场景rgb-d图像的语义标注方法 |
CN111104984B (zh) * | 2019-12-23 | 2023-07-25 | 东软集团股份有限公司 | 一种电子计算机断层扫描ct图像分类方法、装置及设备 |
CN111292341B (zh) * | 2020-02-03 | 2023-01-03 | 北京海天瑞声科技股份有限公司 | 图像标注方法、图像标注装置及计算机存储介质 |
CN111611919B (zh) * | 2020-05-20 | 2022-08-16 | 西安交通大学苏州研究院 | 一种基于结构化学习的道路场景布局分析方法 |
CN113034378B (zh) * | 2020-12-30 | 2022-12-27 | 香港理工大学深圳研究院 | 一种区分电动汽车与燃油汽车的方法 |
CN113570530B (zh) * | 2021-06-10 | 2024-04-16 | 北京旷视科技有限公司 | 图像融合方法、装置、计算机可读存储介质和电子设备 |
CN115118948B (zh) * | 2022-06-20 | 2024-04-05 | 北京华录新媒信息技术有限公司 | 一种全景视频中无规则遮挡的修复方法及装置 |
CN115952312B (zh) * | 2022-12-02 | 2024-07-19 | 北京工业大学 | 一种图像标签的自动标注与排序方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809187A (zh) * | 2015-04-20 | 2015-07-29 | 南京邮电大学 | 一种基于rgb-d数据的室内场景语义标注方法 |
CN107292253A (zh) * | 2017-06-09 | 2017-10-24 | 西安交通大学 | 一种道路行驶区域的视觉检测方法 |
CN107944428A (zh) * | 2017-12-15 | 2018-04-20 | 北京工业大学 | 一种基于超像素集的室内场景语义标注方法 |
CN109389605A (zh) * | 2018-09-30 | 2019-02-26 | 宁波工程学院 | 基于前景背景估计和分级区域关联的图像协同分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644429B (zh) * | 2017-09-30 | 2020-05-19 | 华中科技大学 | 一种基于强目标约束视频显著性的视频分割方法 |
-
2019
- 2019-03-08 CN CN201910174110.2A patent/CN109829449B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809187A (zh) * | 2015-04-20 | 2015-07-29 | 南京邮电大学 | 一种基于rgb-d数据的室内场景语义标注方法 |
CN107292253A (zh) * | 2017-06-09 | 2017-10-24 | 西安交通大学 | 一种道路行驶区域的视觉检测方法 |
CN107944428A (zh) * | 2017-12-15 | 2018-04-20 | 北京工业大学 | 一种基于超像素集的室内场景语义标注方法 |
CN109389605A (zh) * | 2018-09-30 | 2019-02-26 | 宁波工程学院 | 基于前景背景估计和分级区域关联的图像协同分割方法 |
Non-Patent Citations (4)
Title |
---|
GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE;Jerome H. Friedman;《The Annals of Statistics》;20011231;第29卷(第5期);第1189-1232页 * |
STD2P: RGBD Semantic Segmentation using Spatio-Temporal Data-Driven Pooling;Yang He et al;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;第7158-7167页 * |
Supervoxel-based segmentation of 3D imagery with optical flow integration for spatiotemporal processing;Xiaohui Huang et al;《IPSJ Transactions on Computer Vision and Applications》;20180619;第1-16页 * |
融合时空多特征表示的无监督视频分割算法;李雪君 等;《计算机应用》;20171110;第31卷(第11期);第3134-3138、3151页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109829449A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829449B (zh) | 一种基于超像素时空上下文的rgb-d室内场景标注方法 | |
Von Stumberg et al. | Gn-net: The gauss-newton loss for multi-weather relocalization | |
CN109598268B (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN104182772B (zh) | 一种基于深度学习的手势识别方法 | |
Cao et al. | Exploiting depth from single monocular images for object detection and semantic segmentation | |
Zhang et al. | Long-range terrain perception using convolutional neural networks | |
CN107273905B (zh) | 一种结合运动信息的目标主动轮廓跟踪方法 | |
CN109859238B (zh) | 一种基于多特征最优关联的在线多目标跟踪方法 | |
CN108537239B (zh) | 一种图像显著性目标检测的方法 | |
CN110096961B (zh) | 一种超像素级别的室内场景语义标注方法 | |
CN105740915B (zh) | 一种融合感知信息的协同分割方法 | |
CN106157330B (zh) | 一种基于目标联合外观模型的视觉跟踪方法 | |
CN113592894B (zh) | 一种基于边界框和同现特征预测的图像分割方法 | |
CN107194929B (zh) | 一种对肺部ct图像感兴趣区域的追踪方法 | |
CN108038515A (zh) | 无监督多目标检测跟踪方法及其存储装置与摄像装置 | |
Grigorev et al. | Depth estimation from single monocular images using deep hybrid network | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
Lin et al. | An interactive approach to pose-assisted and appearance-based segmentation of humans | |
Basavaiah et al. | Robust Feature Extraction and Classification Based Automated Human Action Recognition System for Multiple Datasets. | |
Cho | Content-based structural recognition for flower image classification | |
Schulz et al. | Object-class segmentation using deep convolutional neural networks | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 | |
Liu et al. | [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video | |
Dadgostar et al. | Gesture-based human–machine interfaces: a novel approach for robust hand and face tracking | |
Nourmohammadi-Khiarak et al. | Object detection utilizing modified auto encoder and convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |