CN110084136A - 基于超像素crf模型的上下文优化室内场景语义标注方法 - Google Patents
基于超像素crf模型的上下文优化室内场景语义标注方法 Download PDFInfo
- Publication number
- CN110084136A CN110084136A CN201910268242.1A CN201910268242A CN110084136A CN 110084136 A CN110084136 A CN 110084136A CN 201910268242 A CN201910268242 A CN 201910268242A CN 110084136 A CN110084136 A CN 110084136A
- Authority
- CN
- China
- Prior art keywords
- pixel
- super
- semantic
- formula
- crf model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
公开一种基于超像素CRF模型的上下文优化室内场景语义标注方法,其可有效提高语义标注正确率,可以进一步改善标注的情况。该方法包括以下步骤:(1)输入待标注的彩色图像RGB和深度图像D;(2)对图像进行超像素分割;(3)对图像进行超像素特征提取;(4)使用超像素特征进行分类得到基于超像素特征的语义标注结果;(5)根据语义标注结果和多层次超像素分割得到的超像素空间上下文关系构建超像素CRF模型;(6)得到优化的语义标注结果。
Description
技术领域
本发明涉及计算机视觉及模式识别的技术领域,尤其涉及一种基于上下文优化的室内场景语义标注方法。
背景技术
目前的室内场景图像语义标注的方法可以分为两类,一类为上下文无关的室内场景语义标注;另一类为基于上下文优化的室内场景标注。
上下文无关的室内场景语义标注
早期上下文无无关的室内场景语义标注方法,通常对像素或超像素定义特征,然后使用分类器对每个像素或超像素进行分类,从而达到对图像中每个像素点赋予一个预定义的语义标签的目的。
2007年,Shotton等提出使用TextonBoost特征的语义标注方法,文中提出一种新的纹理-布局(Texture-Layout)特征,并对每一个像素计算该特征,将每个像素点的Texture-Layout特征用Boosting分类器进行分类,给予每个像素属于不同类别语义标签,以此完成图像的语义标注。
Ren等提出了一种基于RGB-D数据的室内场景语义标注方法。在其方法中利用gPb-OWT-UCM算法对图像进行超像素分割。对超像素提取了多种类型像素级别的特征描述子,并采用一种核描述子方法将多种类型的像素级别的特征描述子整合到统一的框架,将上述的特征核描述子训练一对多的线性支持向量机(Support Vector Machine,SVM)分类器,使用已训练好的SVM分类器,为输入图像中的每个超像素赋予一个语义类别标签。
近年来,随着DCNNs(深度卷积网络)在图像分类任务中取得了巨大的成功,研究人员将DCNNs应用于图像语义标注中。基于DCNNs的语义标注方法,通常是应用深度网络对图像提取特征,再对每个像素点进行语义分类,最终得到整张图像的语义标注结果。
Long等提出了FCN(全卷积网络),这是首次将深度学习方法引入语义标注。该网络可对任意大小的输入图像实现逐像素分类,奠定了使用深度网络解决图像语义标注问题的基础框架。为了克服卷积网络最后输出层缺少空间位置信息这一不足,Long等人通过双线性插值上采样和组合中间层输出的特征图,将粗糙分割结果转换为密集分割结果。
上下文优化的室内场景标注方法
在基于上下文优化的室内场景语义标注方法中,一种策略是在特征空间进行上下文优化,另一种策略是在标签空间进行上下文优化。
在特征空间进行上下文的优化中,基于定义特征的语义标注方法,通常是将上下文特征组合,再用于语义标注。如Hickson等提出的方法中,通过利用彩色图像和深度图像生成三维点云,对点云进行过分割从而得到多层次超像素分割结果,再提取超像素的颜色直方图特征、3维尺寸特征、形状特征和法向特征,并通过超像素层次分割组合多层次超像素特征,最后使用组合后的特征训练随机森林来对室内场景进行语义标注的方法。
对基于学习特征的语义标注方法中,Hariharan等人借用图像金字塔的思想,通过串接CNN(卷积网络)的多层特征图中与源图像像素同位置的特征值组合成Hypercolumn向量描述像素的统计结构特征,提升了图像分割的精细度。
在标签空间上下文优化的方法中,MRF(马尔科夫随机场)和CRF(条件随机场)是语义标注中应用最为广泛的两种上下文优化模型,它们属于概率模型。其中MRF建模在联合概率分布上,在建模过程中由于随机变量的特征维度较高,且特征间有复杂的依赖关系,所以需要设定一些限制条件或假设,而它们未必能反映数据的真实情况,并且会给求解带来一些困难。CRF建模在后验概率上,相对于MRF来说它减少了概率分布假设,实现更简便,更实用,在应用中也展现出良好的性能。
Shotton等用Boosting分类器对图像中每个像素点进行语义分类,给予每个像素属于不同类别语义标签的概率值,然后在CRF模型中结合之前的语义标注结果来进一步优化标注结果。其中CRF模型中的一元能量项即是Boostin分类器计算得到语义标注概率值,而二元能量项基于位置特征、颜色特征和边缘特征计算邻域内像素点对间能量,最终通过最小化CRF模型的能量得到图像的语义标注优化后结果。
在一些CRF模型中对二元能量项进行改进从而使语义标注优化效果更佳。如在2011年Kohli等人提出用全连接CRFs模型来进行语义标注优化,将CRF模型中二元项定义为图像中任意两个点对间的语义一致性估计。该方法的最大挑战来源于模型的计算量,对一幅低分辨率的图像来说,其中也会含有上万个像素点和数十亿个点对,对此Kohli等人平均场推断方法计算全连接CRF的二元能量项,有效保证估计图像中任意两个点对间的语义一致性的计算效率。
在传统CRF模型中只评估像素能量和像素点对间的语义一致性,因此无法概括图像中像素点间更大范围联系,为此研究人员提出扩展的CRF模型来加强像素点和图像区域间的联系。如Kohli等提出用高阶能量项约束局部区域标签一致性的方法,该方法在CRF模型中加入高阶能量项,约束超像素内的像素语义标签尽可能一致,并同时给出快速有效计算高阶能量项的Potts模型。
基于深度网络的语义标注方法通常也和CRF模型联合使用以进一步提高语义标注正确率。Chen等人利用DCNNs获得初步的语义标注,再利用稠密CRF模型进行上下文优化,两者的结合能够在改善DCNNs语义标注中边缘不平滑情况的同时提高语义标注准确率。Lin等人针对前景/背景分割问题,首先利用由卷积网络构成的FeatMap-Net提取不同尺度patch的特征,并将多尺度patch的特征连接起来作为最终特征表示;将该特征输入到由全连接网络组合成的Unary-Net计算一元能量值;将特定范围内存在surrounding以及above/below邻接关系的patch对的特征输入到由全连接网络组成的Pairwise-Net计算二元能量值,从而获得前景/背景分割结果。Zheng等人将CRF模型用RNN(循环神经网络)建模。该网络可以直接使用BP(反向传播)算法进行端到端的训练,不需要离线分别训练CNN和CRF模型。
综合目前的研究状况,可以看出使用上下文信息有助于提高语义标注的准确率,而有效的语义优化模型可以进一步改善标注结果。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于上下文优化的室内场景语义标注方法,其可有效提高语义标注正确率,可以进一步改善标注的情况。
本发明的技术方案是:这种基于超像素CRF模型的上下文优化室内场景语义标注方法,该方法包括以下步骤:
(1)输入待标注的彩色图像RGB和深度图像D;
(2)对图像进行超像素分割;
(3)对图像进行超像素特征提取;
(4)使用超像素特征进行分类得到基于超像素特征的语义标注结果;
(5)根据语义标注结果和多层次超像素分割得到的超像素空间上下文关系构建超像素CRF模型;
(6)得到优化的语义标注结果。
本发明对图像进行超像素分割和超像素特征提取,首先根据超像素特征进行初步的语义分类,再将初步语义分类结果作为超像素CRF模型的输入,对语义标注结果进行优化,因此可有效提高语义标注正确率,可以进一步改善标注的情况。
附图说明
图1示出了超像素分割层次树。
图2是基于超像素CRF模型的上下文优化示意图。
图3是语义标签矩阵示意图。
图4是根据本发明的基于上下文优化的室内场景语义标注方法的流程图。
具体实施方式
如图4所示,这种基于超像素CRF模型的上下文优化室内场景语义标注方法,该方法包括以下步骤:
(1)输入待标注的彩色图像RGB和深度图像D;
(2)对图像进行超像素分割;
(3)对图像进行超像素特征提取;
(4)使用超像素特征进行分类得到基于超像素特征的语义标注结果;
(5)根据语义标注结果和多层次超像素分割得到的超像素空间上下文关系构建超像素CRF模型;
(6)得到优化的语义标注结果。
本发明对图像进行超像素分割和超像素特征提取,首先根据超像素特征进行初步的语义分类,再将初步语义分类结果作为超像素CRF模型的输入,对语义标注结果进行优化,因此可有效提高语义标注正确率,可以进一步改善标注的情况。
优选地,所述步骤(2)使用gPb-OWT-UCM算法,通过图像局部特征和全局特征计算图像中每个像素属于边界的概率值将gPb-OWT-UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算
其中,是基于彩色图像计算得到的每个像素属于边界的概率值,是基于深度图像计算得到的每个像素属于边界的概率值;在计算得到像素属于边界概率值的基础上,设定不同的概率阈值tr得到多层次超像素分割结果;根据设定的概率阈值tr,按照八连通的原则将概率值小于设定阈值的像素连成一个区域,每个连通的区域为一个超像素。
优选地,所述步骤(3)中,超像素特征使用核描述子方法计算:使用核描述子方法计算超像素Seg的深度梯度特征、彩色梯度特征、彩色特征以及纹理特征,然后针对超像素的几何性质计算超像素周长、面积、面积周长比,最终将上述特征组合起来作为超像素的特征表示FeaSeg。
优选地,所述步骤(4)中使用所述超像素特征利用梯度提升决策树对超像素进行语义分类,得到超像素Seg预测为lab类语义标签的概率值prodlab(FeaSeg),层次分割树中,两个相邻层次中较高层次和较低层次的超像素集合分别标记为和 如果存在两个超像素和 且是的父节点,则称是的空间上下文,记为
优选地,所述步骤(5)中超像素CRF模型为公式(2)
其中,φo(laba)是一元能量项,描述层次分割树中单个节点的语义标注情况,代表对超像素赋予语义标签laba的损失;是二元能量项,度量层次分割树中任一节点与同层剩余其他节点的语义标注差异,代表超像素与的差异;θh(lab1,...,labc)表示高阶能量项,度量层次分割树中有相同父节点的子节点集合的语义标注差异,用来度量具有相同空间上下文的一组超像素间的语义差异。
优选地,所述步骤(5)中一元能量项通过预训练好的分类器对超像素进行语义分类,得到超像素属于语义类别laba的概率值代入式(4)计算得到被赋予语义标签laba的损失:
优选地,所述步骤(5)中二元能量项的计算方法为公式(5),定义超像素和的二元能量
其中,μ(laba,labb)为标签相容性函数,Kab为超像素相容性函数,w(m)是第m个高斯核函数的权重值,表示第m个高斯核函数;高斯核函数形式为公式(6):
其中,和分别表示超像素和的特征向量;
为高斯核的带宽。
优选地,所述步骤(5)中高阶能量项计算的超像素限定为具有相同空间上下文的一组超像素,当具有相同空间上下文Sp的超像素存在语义标签不一致的情况时,加入罚参该罚参反应具有相同空间上下文的超像素颜色变化信息;否则高阶能量值为0;高阶能量项定义为公式(10):
其中,参数Γ和参数η是经验值,表示具有相同空间上下文Sp的一组超像素的颜色变化情况。
优选地,所述步骤(6)中超像素CRF模型的目标函数为公式(16):
其中是高层超像素的颜色变化信息向量。矩阵是向量c的对角矩阵,向量和是单位向量;对语义标签变量ya:i和辅助变量za:i的约束条件进行QP松弛,松弛后的目标函数约束为公式(17):
s.t ya:i≥0,且ya:i∈y,a∈{1,...,N},i∈L
0≤zp:i≤1,且zp:i∈z,i∈L (17)
优选地,所述步骤(6)中超像素CRF模型优化通过Frank-Wolfe算法计算,其中
Frank-Wolfe算法中通过公式(20)对函数f(y,z)进行梯度计算
目标函数f(y,z)的条件梯度通过公式(21)求解:
条件梯度sry的计算为公式(22):
条件梯度srz通过公式(23)求解:
Frank-Wolfe算法的步长是通过线性搜索实现的,通过公式(24)来得到最佳步长δ*
以下更详细地说明本发明。
1超像素
超像素通常是由图像中一系列位置相邻且颜色、亮度、纹理等特征相似的像素组成的小区域,这些小区域保留了局部有效信息,且一般不会破坏图像中物体的边界信息。将图像分割为多个超像素的过程称为超像素分割。
1.1超像素分割
本发明超像素分割使用gPb-OWT-UCM算法,通过图像局部特征和全局特征计算图像中每个像素属于边界的概率值将gPb-OWT-UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算
式(1)中,是基于彩色图像计算得到的每个像素属于边界的概率值,是基于深度图像计算得到的每个像素属于边界的概率值。在计算得到像素属于边界概率值的基础上,设定不同的概率阈值tr可得到多层次超像素分割结果。根据设定的概率阈值tr,按照八连通的原则将概率值小于设定阈值的像素连成一个区域,每个连通的区域即为一个超像素。
2超像素空间上下文
利用1.1节的方法对图像进行超像素分割,图1所示为依据多个边界判断阈值得到的超像素层次分割树。超像素层次分割树的阈值设定为1时可得到最高层次的超像素分割图,即层次分割树的根节点,该节点表示整张图像作为一个超像素;阈值越小,得到的超像素在分割树中的层次越低。比较阈值设定为0.08和0.12的两种情况,当阈值为0.12时,边界判定标准比阈值为0.08时提高,边界概率值在0.08与0.12之间的像素点由边界点改判为非边界点,即分割树中较低层次的超像素位于较高层次超像素边界内。
图1所示层次分割树中,两个相邻层次中较高层次和较低层次的超像素集合分别标记为和 如果存在两个超像素和 且是的父节点,则称是的空间上下文,即
3超像素CRF模型
如图2所示为一棵层次为3的超像素分割树,圆圈表示超像素。本发明提出的超像素CRF模型包含三个能量项,分别定义如下:以图中左侧第一个叶子结点为例,叶子结点(即超像素)具有一阶能量项φo(laba),其与同层任一叶子结点b(即任意超像素对)具有二阶能量项具有相同父节点的一组子节点(即具有相同空间上下文的一组超像素)具有高阶能量项θh(laba,...,labb...,labc)。
3.1超像素CRF模型目标函数
本发明提出的CRF模型定义在由N个随机变量组成的集合 每一个随机变量代表一个超像素,每个随机变量具有一个语义标签laba,且语义标签L={1,...,i,...,L},laba∈L。为了计算方便将N个随机变量的语义标签组成标签向量,向量形式可记为Lab[a]=laba。
本发明提出的超像素CRF模型能量函数包含三个能量项,如式(2)定义。一阶能量项描述层次分割树中单个节点的语义标注情况;二阶能量项度量层次分割树中任一节点与同层剩余其他节点的语义标注差异;高阶能量项度量层次分割树中有相同父节点的子节点集合的语义标注差异:
在式(2)中,φo(laba)是一元能量项,代表对超像素赋予语义标签laba的损失;是二元能量项,代表超像素与的差异;θh(lab1,...,labc)表示高阶能量项,用来度量具有相同空间上下文的一组超像素间的语义差异。
当超像素CRF模型的目标函数E(Lab)最小时,得到最优语义标签Lab*,如式(3)所示:
3.2一元能量项
一元能量表示对超像素赋予语义标签laba的损失。通过预训练好的分类器对超像素进行语义分类,得到超像素属于语义类别laba的概率值代入式(4)计算得到被赋予语义标签laba的损失:
3.3二元能量项
本发明根据Kohli等提出的计算像素级二元能量项的方法定义超像素和的二元能量,如式(5):
在式(5)中,μ(laba,labb)为标签相容性函数,Kab为超像素相容性函数,w(m)是第m个高斯核函数的权重值,表示第m个高斯核函数。高斯核函数形式如式(6):
式(6)中,和分别表示超像素和的特征向量;为高斯核的带宽。
(1)标签相容性
标签相容性函数μ(laba,labb)用于计算超像素的语义标签laba与超像素语义标签labb的相容性,定义如式(7):
μpotts(laba,labb)=I(laba≠labb) (7)
在式(7)中,I(·)是指示函数,当laba、labb为相同语义标签时值为0,而当laba、labb为不同语义标签时值为1。虽然也存在其他形式的标签相容性函数,如度量或半度量函数,但是利用Potts模型推导出的相容性函数在CRF模型最小化计算时能更快速地被求解。
(2)超像素相容性
超像素相容性函数用于度量超像素和超像素的差异程度,计算式展开后如式(8)所示:
式(8)中,spa和spb分别表示超像素和超像素的空间位置;Inta和Intb分别表示超像素和超像素的颜色值;Depa和Depb分别表示超像素和超像素的深度值;HHAa和HHAb分别表示超像素和超像素的HHA特征值(horizontal disparity水平差异,height above ground对地高度,theangle of the pixel’s local surface normal表面法向量的角度)。
超像素深度值、位置、颜色、HHA特征值通过式(9)计算得到:
式(9)中,s为超像素seg中的像素点,其中sx和sy分别表示像素点s在图像中的x坐标和y坐标,sdepth表示像素点s的深度值,sred、sgreen和sblue代表像素点s的r、g和b通道值,shorizen、sheight和sangle分别表示像素点s的水平差异特征(H)、对地高度(H)和表面法向量的角度特征(A)。
式(8)的超像素相容性函数前三项为双边核,第一项度量两个超像素的空间位置特征与深度特征的差异;第二项度量两个超像素的空间位置与彩色特征的差异;第三项度量两个超像素的空间位置与HHA特征的差异。当超像素在不同特征空间差异较小时,则两超像素更有可能具有相同的语义标签。而式(8)中的最后一项为空间核函数,当两超像素空间距离越近时,则越有可能具有相同语义标签。参数是经验值。
二阶能量项中的超像素相容性函数使用Permutohedral Lattice方法进行求解,实现高斯滤波函数的高效计算。
3.4高阶能量项
参与高阶能量项计算的超像素限定为具有相同空间上下文的一组超像素。5当具有相同空间上下文Sp的超像素存在语义标签不一致的情况时,加入罚参该罚参反应具有相同空间上下文的超像素颜色变化信息;否则高阶能量值为0。高阶能量项定义如式(10):
式(10)中,参数Γ和参数η是经验值,表示具有相同空间上下文Sp的一组超像素的颜色变化情况。
由于该高阶能量项要求多个超像素的语义标签一致,所以需要谨慎选择超像素分割层次,尽可能保证较高层次超像素不跨越对象。
4超像素CRF模型求解
式(3)的超像素CRF模型优化计算是一个N-P难问题,所以在计算过程中需要尽量简化计算来达到高效求解的目的。由于每个超像素最终只有一个确定的标签,所以式(3)的优化问题可以转换为是否将特定标签分配给超像素的问题,则超像素CRF模型目标函数可以写成如式(11)的整数规划的形式:
式(11)中,约束项表示每个超像素只能被分配一个语义标签。语义标签指示矩阵Y如图3,表示一张图像中有N个超像素,每个超像素可能的语义标签有L类,将语义标签指示矩阵向量化为ya:i∈{0,1}。ya:i=1表示超像素的语义标签是为i,ya:i=0表示超像素的语义标签不是i。
向量标识具有相同空间上下文Sp的一组超像素的语义标签情况,则高阶能量项式(10)可以改写成式(12)形式:
进一步整理式(12),一元能量项简写为向量与一元能量项向量点积的形式,即φTy。
二元能量项中,依据式(7)计算后得到标签相容性矩阵超像素相容性函数中的高斯核函数用格拉姆矩阵表示为K(m)矩阵中(a,b)位置的值表示核函数值。二元能量项可改写为式(13):
其中,矩阵 为克罗内克积,IN是大小为N×N的单位矩阵,式(13)中的二元能量项可以写成yTψy。
高阶能量项根据标签一致性原则进行改写。引入辅助变量zp:i,用该变量指示任意一个超像素是否有空间上下文Sp并且语义标签为i,且zp:i是向量的一个元素,R表示空间上下文Sp所包含的低层超像素的块数,辅助变量zp:i定义如式(14):
同时,计算中需要再引入一个新的变量Hp(a),该变量用来指示超像素的空间上下文是否是Sp,Hp(a)=1表示超像素的空间上下文是Sp,否则Hp(a)=0,Hp(a)是矩阵中的一个值。高阶能量项表达式可以写成式(15):
式(15)的值fc总为0,参数Cp表示式(10)中罚参,指空间上下文为Sp的一组超像素颜色变化情况。
综合上述一元能量项、二元能量项和高阶能量项的改写形式,超像素CRF模型的目标函数可以改写成如式(16)的形式:
其中是高层超像素的颜色变化信息向量。矩阵是向量c的对角矩阵,向量和是单位向量。
式(16)所示的CRF模型目标函数优化仍是N-P难问题,为了计算简便,对语义标签变量ya:i和辅助变量za:i的约束条件进行QP松弛,松弛后的目标函数约束如式(17):
s.t ya:i≥0,且a∈{1,...,N},i∈L
0≤zp:i≤1,且zp:i∈z,i∈L
式(17)所示的CRF模型优化通过Frank-Wolfe算法计算,如表1:
表1 Frank-Wolfe最小化算法
以上算法中梯度、条件梯度、最优步长计算如下:
f(y,z)的梯度计算:
Frank-Wolfe算法中要对函数f(y,z)进行梯度计算,其梯度可写成(18):
本发明利用梯度上升估算每一轮新y,z值,并依据y,z值来确定每一轮函数f(y,z)的梯度。y,z计算式可以写成(19):
式(19)中sry和srz表示函数f(y,z)的条件梯度,δ为更新的步长。综合式(18)和(19),f(y,z)梯度计算式可以写成(20):
条件梯度计算:
条件梯度的计算是算法1中重要的一步,目标函数f(y,z)的条件梯度可以通过式(21)求解:
条件梯度sry的计算如式(22):
条件梯度srz可通过式(23)求解:
最优步长计算:
一般情况下,Frank-Wolfe算法的步长是通过线性搜索实现的。对于该问题,可以通过优化式(24)来得到最佳步长δ*。
5基于超像素CRF模型的上下文优化语义标注
图4所示是本发明提出的基于超像素CRF模型的上下文优化室内场景语义标注方法流程图。输入为待标注的RGB-D图像,对图像进行超像素分割和超像素特征提取,并使用超像素特征进行分类得到基于超像素特征的语义标注结果,再根据语义标注结果和多层次超像素分割得到的超像素空间上下文关系构建超像素CRF模型,最终得到优化的语义标注结果。
本发明实验中,超像素特征使用Ren提出的核描述子方法计算。首先输入待标注的RGB-D图像和超像素分割,使用核描述子方法计算超像素Seg的深度梯度特征、彩色梯度特征、彩色特征以及纹理特征,然后针对超像素的几何性质计算超像素周长、面积、面积周长比等特征,最终将上述特征组合起来作为超像素的特征表示FeaSeg。使用上述超像素特征利用GBDT(梯度提升决策树)对超像素进行语义分类,得到超像素Seg预测为lab类语义标签的概率值problab(FeaSeg)。以上计算超像素Seg语义标签概率的方法不特定,可以使用任意一种有效预测超像素语义标签的方法。
在计算得到超像素语义标签概率的基础上,利用式(4)计算超像素Seg的一元能量φo(Seg)。依据超像素分割层次树构建超像素CRF模型并对其进行求解,即得到上下文优化的超像素语义标签。
表2所示的是在NYUD v1数据集上基于超像素空间上下文的语义标注方法与其他方法的比较,其中以分割阈值为0.08的超像素作为待优化的层次,以分割阈值为0.12作为空间上下文。根据表中类平均准确率显示出基于超像素空间上下文的语义标注方法的有效性。
表2实验结果比较
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (10)
1.基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:该方法包括以下步骤:
(1)输入待标注的彩色图像RGB和深度图像D;
(2)对图像进行超像素分割;
(3)对图像进行超像素特征提取;
(4)使用超像素特征进行分类得到基于超像素特征的语义标注结果;
(5)根据语义标注结果和多层次超像素分割得到的超像素空间上下文关系构建超像素CRF模型;
(6)得到优化的语义标注结果。
2.根据权利要求1所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(2)使用gPb-OWT-UCM算法,通过图像局部特征和全局特征计算图像中每个像素属于边界的概率值将gPb-OWT-UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算
其中,是基于彩色图像计算得到的每个像素属于边界的概率值,是基于深度图像计算得到的每个像素属于边界的概率值;在计算得到像素属于边界概率值的基础上,设定不同的概率阈值tr得到多层次超像素分割结果;根据设定的概率阈值tr,按照八连通的原则将概率值小于设定阈值的像素连成一个区域,每个连通的区域为一个超像素。
3.根据权利要求2所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(3)中,超像素特征使用核描述子方法计算:使用核描述子方法计算超像素Seg的深度梯度特征、彩色梯度特征、彩色特征以及纹理特征,然后针对超像素的几何性质计算超像素周长、面积、面积周长比,最终将上述特征组合起来作为超像素的特征表示FeaSeg。
4.根据权利要求3所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(4)中,使用所述超像素特征利用梯度提升决策树对超像素进行语义分类,得到超像素Seg预测为lab类语义标签的概率值problab(FeaSeg),层次分割树中,两个相邻层次中较高层次和较低层次的超像素集合分别标记为和如果存在两个超像素和且是的父节点,则称是的空间上下文,记为
5.根据权利要求4所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(5)中超像素CRF模型为公式(2)
其中,φo(laba)是一元能量项,描述层次分割树中单个节点的语义标注情况,代表对超像素赋予语义标签laba的损失;是二元能量项,度量层次分割树中任一节点与同层剩余其他节点的语义标注差异,代表超像素与的差异;θh(lab1,...,labc)表示高阶能量项,度量层次分割树中有相同父节点的子节点集合的语义标注差异,用来度量具有相同空间上下文的一组超像素间的语义差异。
6.根据权利要求5所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(5)中一元能量项通过预训练好的分类器对超像素进行语义分类,得到超像素属于语义类别laba的概率值代入式(4)计算得到被赋予语义标签laba的损失:
7.根据权利要求6所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(5)中二元能量项的计算方法为公式(5),定义超像素和的二元能量
其中,μ(laba,labb)为标签相容性函数,Kab为超像素相容性函数,w(m)是第m个高斯核函数的权重值,表示第m个高斯核函数;高斯核函数形式为公式(6):
其中,和分别表示超像素和的特征向量;为高斯核的带宽。
8.根据权利要求7所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(5)中高阶能量项计算的超像素限定为具有相同空间上下文的一组超像素,当具有相同空间上下文Sp的超像素存在语义标签不一致的情况时,加入罚参该罚参反应具有相同空间上下文的超像素颜色变化信息;否则高阶能量值为0;高阶能量项定义为公式(10):
其中,参数Γ和参数η是经验值,表示具有相同空间上下文Sp的一组超像素的颜色变化情况。
9.根据权利要求8所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(6)中超像素CRF模型的目标函数为公式(16):
其中是高层超像素的颜色变化信息向量。矩阵是向量c的对角矩阵,向量和是单位向量;
对语义标签变量ya:i和辅助变量za:i的约束条件进行QP松弛,松弛后的目标函数约束为公式(17):
s.t ya:i≥0,且ya:i∈y,a∈{1,...,N},i∈L0≤zp:i≤1,且zp:i∈z,i∈L(17)
10.根据权利要求9所述的基于超像素CRF模型的上下文优化室内场景语义标注方法,其特征在于:所述步骤(6)中超像素CRF模型优化通过Frank-Wolfe算法计算,其中Frank-Wolfe算法中通过公式(20)对函数f(y,z)进行梯度计算
目标函数f(y,z)的条件梯度通过公式(21)求解:
条件梯度sry的计算为公式(22):
条件梯度srz通过公式(23)求解:
Frank-Wolfe算法的步长是通过线性搜索实现的,通过公式(24)来得到最佳步长δ*
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910268242.1A CN110084136A (zh) | 2019-04-04 | 2019-04-04 | 基于超像素crf模型的上下文优化室内场景语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910268242.1A CN110084136A (zh) | 2019-04-04 | 2019-04-04 | 基于超像素crf模型的上下文优化室内场景语义标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110084136A true CN110084136A (zh) | 2019-08-02 |
Family
ID=67414219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910268242.1A Pending CN110084136A (zh) | 2019-04-04 | 2019-04-04 | 基于超像素crf模型的上下文优化室内场景语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084136A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259936A (zh) * | 2020-01-09 | 2020-06-09 | 北京科技大学 | 一种基于单一像素标注的图像语义分割方法及*** |
CN111291760A (zh) * | 2020-02-12 | 2020-06-16 | 北京迈格威科技有限公司 | 图像的语义分割方法、装置及电子设备 |
CN111611919A (zh) * | 2020-05-20 | 2020-09-01 | 西安交通大学苏州研究院 | 一种基于结构化学习的道路场景布局分析方法 |
CN114494711A (zh) * | 2022-02-25 | 2022-05-13 | 南京星环智能科技有限公司 | 一种图像特征的提取方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177450A (zh) * | 2013-04-11 | 2013-06-26 | 北京航空航天大学 | 一种基于构件集采样的图像场景分割与分层联合求解方法 |
CN104392228A (zh) * | 2014-12-19 | 2015-03-04 | 中国人民解放军国防科学技术大学 | 基于条件随机场模型的无人机图像目标类检测方法 |
CN104809187A (zh) * | 2015-04-20 | 2015-07-29 | 南京邮电大学 | 一种基于rgb-d数据的室内场景语义标注方法 |
CN105488809A (zh) * | 2016-01-14 | 2016-04-13 | 电子科技大学 | 基于rgbd描述符的室内场景语义分割方法 |
CN105844292A (zh) * | 2016-03-18 | 2016-08-10 | 南京邮电大学 | 一种基于条件随机场和二次字典学习的图像场景标注方法 |
CN106022353A (zh) * | 2016-05-05 | 2016-10-12 | 浙江大学 | 一种基于超像素分割的图像语义标注方法 |
CN107491436A (zh) * | 2017-08-21 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种标题党识别方法和装置、服务器、存储介质 |
CN107944428A (zh) * | 2017-12-15 | 2018-04-20 | 北京工业大学 | 一种基于超像素集的室内场景语义标注方法 |
EP3432263A1 (en) * | 2017-07-17 | 2019-01-23 | Siemens Healthcare GmbH | Semantic segmentation for cancer detection in digital breast tomosynthesis |
-
2019
- 2019-04-04 CN CN201910268242.1A patent/CN110084136A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177450A (zh) * | 2013-04-11 | 2013-06-26 | 北京航空航天大学 | 一种基于构件集采样的图像场景分割与分层联合求解方法 |
CN104392228A (zh) * | 2014-12-19 | 2015-03-04 | 中国人民解放军国防科学技术大学 | 基于条件随机场模型的无人机图像目标类检测方法 |
CN104809187A (zh) * | 2015-04-20 | 2015-07-29 | 南京邮电大学 | 一种基于rgb-d数据的室内场景语义标注方法 |
CN105488809A (zh) * | 2016-01-14 | 2016-04-13 | 电子科技大学 | 基于rgbd描述符的室内场景语义分割方法 |
CN105844292A (zh) * | 2016-03-18 | 2016-08-10 | 南京邮电大学 | 一种基于条件随机场和二次字典学习的图像场景标注方法 |
CN106022353A (zh) * | 2016-05-05 | 2016-10-12 | 浙江大学 | 一种基于超像素分割的图像语义标注方法 |
EP3432263A1 (en) * | 2017-07-17 | 2019-01-23 | Siemens Healthcare GmbH | Semantic segmentation for cancer detection in digital breast tomosynthesis |
CN107491436A (zh) * | 2017-08-21 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种标题党识别方法和装置、服务器、存储介质 |
CN107944428A (zh) * | 2017-12-15 | 2018-04-20 | 北京工业大学 | 一种基于超像素集的室内场景语义标注方法 |
Non-Patent Citations (2)
Title |
---|
THOMAS JOY ET AL.: "Effcient Relaxations for Dense CRFs with Sparse Higher Order Potentials", 《ARXIV:1805.09028V2 [CS.CV] 26 OCT 2018》 * |
冯希龙: "基于RGB-D图像的室内场景语义分割方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259936A (zh) * | 2020-01-09 | 2020-06-09 | 北京科技大学 | 一种基于单一像素标注的图像语义分割方法及*** |
CN111259936B (zh) * | 2020-01-09 | 2021-06-01 | 北京科技大学 | 一种基于单一像素标注的图像语义分割方法及*** |
CN111291760A (zh) * | 2020-02-12 | 2020-06-16 | 北京迈格威科技有限公司 | 图像的语义分割方法、装置及电子设备 |
CN111291760B (zh) * | 2020-02-12 | 2023-10-17 | 北京迈格威科技有限公司 | 图像的语义分割方法、装置及电子设备 |
CN111611919A (zh) * | 2020-05-20 | 2020-09-01 | 西安交通大学苏州研究院 | 一种基于结构化学习的道路场景布局分析方法 |
CN114494711A (zh) * | 2022-02-25 | 2022-05-13 | 南京星环智能科技有限公司 | 一种图像特征的提取方法、装置、设备及存储介质 |
CN114494711B (zh) * | 2022-02-25 | 2023-10-31 | 南京星环智能科技有限公司 | 一种图像特征的提取方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106157319B (zh) | 基于卷积神经网络的区域和像素级融合的显著性检测方法 | |
Yuan et al. | Gated CNN: Integrating multi-scale feature layers for object detection | |
CN110084136A (zh) | 基于超像素crf模型的上下文优化室内场景语义标注方法 | |
CN108345850B (zh) | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 | |
CN103984959B (zh) | 一种基于数据与任务驱动的图像分类方法 | |
CN104992191B (zh) | 基于深度学习的特征和最大置信路径的图像分类方法 | |
CN107862261A (zh) | 基于多尺度卷积神经网络的图像人群计数方法 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN109064522A (zh) | 基于条件生成对抗网络的汉字字体生成方法 | |
CN106650690A (zh) | 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法 | |
CN108241854B (zh) | 一种基于运动和记忆信息的深度视频显著性检测方法 | |
CN106570874B (zh) | 一种结合图像局部约束与对象全局约束的图像标记方法 | |
CN109583483A (zh) | 一种基于卷积神经网络的目标检测方法和*** | |
CN103942571B (zh) | 一种基于遗传规划算法的图形图像分类方法 | |
CN110533024A (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN107330907B (zh) | 一种结合深度学习形状先验的mrf图像分割方法 | |
CN109214298A (zh) | 一种基于深度卷积网络的亚洲女性颜值评分模型方法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN112347970A (zh) | 一种基于图卷积神经网络的遥感影像地物识别方法 | |
CN110807485B (zh) | 基于高分遥感影像二分类语义分割图融合成多分类语义图的方法 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
CN111401380A (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN109872331A (zh) | 一种基于深度学习的遥感图像数据自动识别分类方法 | |
CN110298392A (zh) | 一种标签约束自权重多超图学习的半监督分类方法 | |
CN115482387A (zh) | 基于多尺度类别原型的弱监督图像语义分割方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190802 |