CN107944428A - 一种基于超像素集的室内场景语义标注方法 - Google Patents

一种基于超像素集的室内场景语义标注方法 Download PDF

Info

Publication number
CN107944428A
CN107944428A CN201711345653.3A CN201711345653A CN107944428A CN 107944428 A CN107944428 A CN 107944428A CN 201711345653 A CN201711345653 A CN 201711345653A CN 107944428 A CN107944428 A CN 107944428A
Authority
CN
China
Prior art keywords
mrow
msub
msup
msubsup
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711345653.3A
Other languages
English (en)
Other versions
CN107944428B (zh
Inventor
王立春
段学浩
孔德慧
王玉萍
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711345653.3A priority Critical patent/CN107944428B/zh
Publication of CN107944428A publication Critical patent/CN107944428A/zh
Application granted granted Critical
Publication of CN107944428B publication Critical patent/CN107944428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

一种基于超像素集的室内场景语义标注方法属于多媒体技术与计算机图形学技术领域,针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限。本发明先计算超像素特征,然后利用高斯混合模型基于超像素特征建模超像素集特征,并将其映射到希尔伯特空间,最后降维到欧式空间得到超像素集的特征表示。与以往方法不同,本发明针对与物体对象基本等量的空间(超像素集)提取特征,能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。

Description

一种基于超像素集的室内场景语义标注方法
技术领域
本发明属于多媒体技术与计算机图形学技术领域,具体涉及室内场景语义标注方法。
背景技术
室内场景语义标注作为计算机视觉研究的一项必要工作,一直都是相关领域研究的热点问题。而由于室内场景存在大量语义类别、对象间互相遮挡、低层视觉特征辨识力较弱以及不均匀光照等问题,更使得室内场景语义标注成为图像理解中一个棘手且极富挑战的研究方向。室内场景语义标注是室内场景理解的核心问题,其基本目标是为给定室内场景图像或拍摄于室内场景的视频中的帧中的每一个像素稠密地提供一个预定义的语义类别标签,其在室内智能服务机器人、反恐排爆等多个领域都有很大的应用价值。随着数据获取手段的发展,目前室内场景语义标注使用的源数据大多为RGBD数据,标注过程中的特征表示基本单位为超像素或像素。
基于超像素的室内场景语义标注方法,以超像素为基本单位提取特征表示。Silberman和Fergus等人利用SIFT算子提取超像素特征,以一种反馈式前向神经网络作为判别分类器,通过条件随机场(CRF)概率模型进行上下文优化,在NYU V1数据集上获得了56.6%的语义标注准确率。同样基于NYU V1数据集,Ren等人利用多种类型的核描述子提取超像素特征,以Linear SVM作为分类器,根据超像素分割层次构建树状模型,然后将构建的树状模型与马尔科夫随机场(MRF)概率图模型相结合,在NYU V1数据集上获得了76.1%的语义标注准确率。Anran Wang等人在NYU V1数据集上,以图像Patch数据作为输入,采用了一种分层的联合优化框架进行特征学***面型类别对象上识别效果非常显著,在NYU V1数据集上取得了61.7%的语义标注准确率。
基于像素的室内场景语义标注方法,以像素为基本单位提取特征表示。SaurabhGupta等人在深度图中嵌入了像素点的离地高度、重心角度等信息,然后基于调整后的深度图与彩色图利用CNN进行特征提取完成逐像素标注,在40类的NYU V2数据集上获得了32.5%的语义标注准确率。Ankur Handa等人通过在SUNRGBD数据集上增加虚拟数据,基于RNN在深度图像上提取特征进行逐像素标注,获得了49.01%的语义标注准确率。Heng Fan等人采用多模态RNNs(MM-RNNs)网络结构分别在彩色图(RGB)和深度图(Depth)进行逐像素预测,然后将两者预测结果相结合作为最终的预测结果,在NYU V1数据集上取得了74.6%的语义标注准确率。
以上这些方法都是基于超像素或像素特征进行室内场景语义标注,而超像素和像素所在的空间与待标注物体所占有的空间有较大差异,如图1所示:一个超像素只是沙发所在图像区域的很小一部分,因此超像素或像素特征不能完全刻画物体对象的特征。
发明内容
针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限,本发明提出了一种基于超像素集的室内场景语义标注方法。与以往方法不同,本发明针对与物体对象基本等量的空间(超像素集)提取特征,从而能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。
本发明所提出的室内场景语义标注方法中:首先计算超像素特征,然后利用高斯混合模型基于超像素特征建模超像素集特征,并将其映射到希尔伯特空间,最后降维到欧式空间得到超像素集的特征表示。本发明提出的室内场景语义标注方法主要包括以下几个步骤:
1.超像素分割
室内场景图像语义类别丰富且每种语义对象不能精确地独立出来进行判别分类,需要预先对室内场景图像进行超像素分割。超像素的意义在于把一幅原本是像素级(pixel-level)的图像,根据像素间的某种相似性划分成区域级(district-level)的图像。
本发明使用gPb/UCM算法进行图像的超像素分割,通过图像局部、全局特征计算像素属于边界的概率值本发明将gPb/UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值。
依据公式(1)得到的概率值和设定的概率阈值0.08(经验值),按照八连通原则,将概率值小于0.08的像素连成一个区域,每个区域即为一个超像素。
2.Patch特征计算
Patch定义为16×16大小的网格,网格尺寸可以根据实际数据进行修改,本发明在实验中固定网格尺寸大小为16×16。以k个像素为步长,本发明在实验中固定步长k值为2,从彩色图像(RGB)和深度图像(Depth)左上角向右向下进行滑动,最终在彩色图像(RGB)和深度图像(Depth)上形成密集的网格。以分辨率为N*M的场景图像为例,最终得到的Patch数量为针对每个Patch计算四类特征:深度梯度特征Fg_d、彩色梯度特征Fg_c、彩色特征Fcol、纹理特征Ftex
2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
公式(2)中,zd∈Zd表示像素zd在深度Patch中的相对二维坐标位置;分别表示像素zd的深度梯度方向和梯度大小;分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。分别为深度梯度高斯核函数和位置高斯核函数,为对应高斯核函数的参数。最后,利用EMK(efficient match kernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d
2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
公式(3)中,zc∈Zc表示一个像素zc在彩色图像Patch中的相对二维坐标位置;分别表示像素zc的梯度方向和梯度大小;分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。分别为彩色梯度高斯核函数和位置高斯核函数,为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c
2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
公式(4)中,zc∈Zc表示像素zc在彩色图像Patch中的相对二维坐标位置;r(zc)为三维向量,是像素zc的RGB值;分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。分别为彩色高斯核函数和位置高斯核函数,为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol
2.4纹理特征
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
公式(5)中,zg∈Zg表示像素zg在灰度图像Patch中的相对二维坐标位置;S(zg)表示以像素zg为中心的3×3区域内像素灰度值的标准方差;lbp(zg)为像素zg的局部二值模式特征(Local Binary Pattern,LBP);分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积。分别为局部二值模式高斯核函数和位置高斯核函数,为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex
3超像素特征
超像素特征Fseg定义如(6)式:
分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:
(7)式中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量。
超像素几何特征按(8)式定义:
(8)式中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如(9)式:
公式(9)中,N、M分别表示RGB场景图象的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合。
超像素的面积周长比Rseg定义如(10)式:
是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶Hu矩,定义如式(11)、(12)、(13)
公式(14)中分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):
Width,Height分别表示图像宽度和高度,即基于归一化的像素坐标值进行计算。
Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。
4超像素集特征
4.1基于超像素集建立高斯混合模型
超像素集合对每个超像素依据步骤3计算特征Fseg,利用最大期望算法(EM,Expectation Maximization Algorithm)基于特征向量集合{Fseg|seg∈SP}建立高斯混合模型G(x),模型形式如(17)式:
其中,mg表示高斯分量个数,N(x|μii,∑ii)表示第ii个高斯分量,μii和∑ii分别表示第ii个高斯分量的均值向量和协方差矩阵,wii为第ii个高斯分量在高斯混合模型中的权值。
4.2高斯分量映射到希尔伯特空间
基于训练样本中第r个语义类别对应的超像素集合依据步骤4.1建立对应于第r个语义类别的高斯混合模型,得到高斯分量集合 记所有C个语义类别对应的高斯混合模型所包含高斯分量的集合为
任一高斯分量gl到希尔伯特空间的映射记为kl,kl的计算如公式(18):
其中,tr表示矩阵的迹,即矩阵对角线元素的乘积;det表示行列式;D=|Fseg|是超像素特征的维度;μ和∑分别是高斯分量的均值向量和协方差矩阵,∑-1是协方差矩阵∑的逆。
4.3希尔伯特空间变换到欧式空间
记希尔伯特空间中向量kl映射到低维欧式空间中的向量为Zl,则有
Zl=ATkl (19)
式(19)中A为正交矩阵。A=[α12,…,αC-1]∈RN×(C-1),其中 Nr是第r个语义类别的高斯混合模型中高斯分量的个数,C是语义类别的数量,即N是C个语义类别的高斯混合模型包含的高斯分量总的数量;A是求解(20)式得到的前C-1个特征向量α1,α2,…αC-1
Bα=λWα (20)
式(20)中,α为特征向量,λ为特征值,B和W的计算如公式(21)
其中,mr,wr计算如公式(22)
其中,C是语义类别的数量,Nr是第r个语义类别高斯混合模型中高斯分量的个数,是第r个语义类别的高斯混合模型中第jr个高斯分量的权值,是第r个语义类别的高斯混合模型中第jr个高斯分量映射到希尔伯特空间的高维向量。
4.4语义类别的特征表示
对第r个语义类别的高斯混合模型的每一个高斯分量依据式(18)将其映射到希尔伯特空间得到向量再依据式(19)降维到欧式空间得到向量则第r个语义类别的一组高斯分量变换为即为第r个语义类别的特征表示。
5测试样本识别分类
测试样本Ste为一组超像素,依据步骤4.1构建高斯混合模型得到一组高斯分量再依据式(18)将映射到希尔伯特空间,最后依据式(19)降维到欧式空间得到向量集合即为测试样本的特征表示。
设l(r)表示第r个语义类别的语义标签,L′(zte)、L(zte)分别表示测试样本的候选语义标签及最终语义标签;对测试样本的每个特征向量计算其与所有类别特征向量的夹角,与特征向量夹角最小的类别特征向量的语义标签l(r)是测试样本的候选语义标签,如式(23)所示;
其中
依据式(23)计算得到T个候选语义标签L′(zte),其中T是测试样本的高斯混合模型包含的高斯分量的数量。依据式(24)定义的投票规则计算测试样本与语义类别的距离,包含最多与测试样本特征向量夹角最小的类别特征向量的语义类别的语义标签即是测试样本的最终语义标签;
式(24)中,C为语义类别的数量。
附图说明
图1超像素分割示意图
图2 NYU V1数据集上本发明与其他方法的类别准确率对比
具体实施方式
本发明采用由Silberman和Fergus等人收集并整理的NYU V1数据集进行实验,本数据集总共有13个语义类别(Bed、Blind、Bookshelf、Cabinet、Ceiling、Floor、Picture、Sofa、Table、TV、Wall、Window、Background)和7个场景。整个数据集包含2284帧彩色图像(RGB)和2284帧深度图像(Depth),它们之间一一对应,每张图像均为480×640大小的标准图像。按照传统划分方法,本发明选取数据集的60%用于训练,40%用于测试。
基于NYU V1数据集,进行了本发明所提方法与Silberman,Ren,Salman H.Khan,Anran,Heng等5人所提方法的对照实验,实验结果见表1的类平均准确率和图2的对象准确率,可以看出本发明所提出的方法在室内场景语义标注中取得了有竞争力的标注效果,特别是bookshelf、ceiling、window类别的识别效果比其他人所提方法的识别效果都好。
表1 NYU V1数据集上本发明与其他标注方法的类平均准确率比较

Claims (1)

1.一种基于超像素集的室内场景语义标注方法,其特征在于,包括以下几个步骤:
1)超像素分割
使用gPb/UCM算法进行图像的超像素分割,通过图像局部、全局特征计算像素属于边界的概率值将gPb/UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值;
<mrow> <msubsup> <mi>Map</mi> <mrow> <mi>r</mi> <mi>g</mi> <mi>b</mi> <mo>_</mo> <mi>d</mi> </mrow> <mrow> <mi>p</mi> <mi>r</mi> <mi>o</mi> <mi>b</mi> </mrow> </msubsup> <mo>=</mo> <mn>0.75</mn> <mo>*</mo> <msubsup> <mi>Map</mi> <mrow> <mi>r</mi> <mi>g</mi> <mi>b</mi> </mrow> <mrow> <mi>p</mi> <mi>r</mi> <mi>o</mi> <mi>b</mi> </mrow> </msubsup> <mo>+</mo> <mn>0.25</mn> <mo>*</mo> <msubsup> <mi>Map</mi> <mi>d</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>o</mi> <mi>b</mi> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
依据公式(1)得到的概率值和设定的概率阈值0.08,按照八连通原则,将概率值小于0.08的像素连成一个区域,每个区域即为一个超像素;
2)Patch特征计算
Patch定义为16×16大小的网格,;以k个像素为步长,固定步长k值为2,从彩色图像RGB和深度图像Depth左上角向右向下进行滑动,最终在彩色图像RGB和深度图像Depth上形成密集的网格;以分辨率为N*M的场景图像为例,最终得到的Patch数量为 针对每个Patch计算四类特征:深度梯度特征Fg_d、彩色梯度特征Fg_c、彩色特征Fcol、纹理特征Ftex
2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
公式(2)中,zd∈Zd表示像素zd在深度Patch中的相对二维坐标位置;分别表示像素zd的深度梯度方向和梯度大小;分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;分别为深度梯度高斯核函数和位置高斯核函数,为对应高斯核函数的参数;最后,利用EMK算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d
2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
公式(3)中,zc∈Zc表示一个像素zc在彩色图像Patch中的相对二维坐标位置;分别表示像素zc的梯度方向和梯度大小;分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;分别为彩色梯度高斯核函数和位置高斯核函数,为对应高斯核函数的参数;最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c
2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
公式(4)中,zc∈Zc表示像素zc在彩色图像Patch中的相对二维坐标位置;r(zc)为三维向量,是像素zc的RGB值;分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;分别为彩色高斯核函数和位置高斯核函数,为对应高斯核函数的参数;最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol
2.4纹理特征
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
公式(5)中,zg∈Zg表示像素zg在灰度图像Patch中的相对二维坐标位置;S(zg)表示以像素zg为中心的3×3区域内像素灰度值的标准方差;lbp(zg)为像素zg的局部二值模式特征(Local Binary Pattern,LBP);分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;是在上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,表示克罗内克积;分别为局部二值模式高斯核函数和位置高斯核函数,为对应高斯核函数的参数;最后,利用EMK(Efficient Match Kernel)算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex
3)超像素特征计算
超像素特征Fseg定义如(6)式:
<mrow> <msub> <mi>F</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mo>&amp;lsqb;</mo> <msubsup> <mi>F</mi> <mrow> <mi>g</mi> <mo>_</mo> <mi>d</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>g</mi> <mo>_</mo> <mi>c</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>x</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>g</mi> <mi>e</mi> <mi>o</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>F</mi> <mrow> <mi>g</mi> <mo>_</mo> <mi>d</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>F</mi> <mrow> <mi>g</mi> <mo>_</mo> <mi>d</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>F</mi> <mrow> <mi>g</mi> <mo>_</mo> <mi>c</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>F</mi> <mrow> <mi>g</mi> <mo>_</mo> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>F</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>F</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>F</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>x</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>F</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>x</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
(7)式中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量;
超像素几何特征按(8)式定义:
<mrow> <msubsup> <mi>F</mi> <mrow> <mi>g</mi> <mi>e</mi> <mi>o</mi> </mrow> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msubsup> <mo>=</mo> <mo>&amp;lsqb;</mo> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>,</mo> <msup> <mi>P</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>,</mo> <msup> <mi>R</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>,</mo> <msubsup> <mi>&amp;eta;</mi> <mn>20</mn> <mi>x</mi> </msubsup> <mo>,</mo> <msubsup> <mi>&amp;eta;</mi> <mn>02</mn> <mi>y</mi> </msubsup> <mo>,</mo> <msubsup> <mi>&amp;eta;</mi> <mn>20</mn> <mrow> <mi>x</mi> <mi>y</mi> </mrow> </msubsup> <mo>,</mo> <mover> <mi>X</mi> <mo>&amp;OverBar;</mo> </mover> <mo>,</mo> <mover> <mi>Y</mi> <mo>&amp;OverBar;</mo> </mover> <mo>,</mo> <msup> <mover> <mi>X</mi> <mo>&amp;OverBar;</mo> </mover> <mn>2</mn> </msup> <mo>,</mo> <msup> <mover> <mi>Y</mi> <mo>&amp;OverBar;</mo> </mover> <mn>2</mn> </msup> <mo>,</mo> <mover> <mi>D</mi> <mo>&amp;OverBar;</mo> </mover> <mo>,</mo> <mover> <msub> <mi>D</mi> <mi>s</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>,</mo> <msub> <mi>D</mi> <mi>var</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mo>,</mo> <msup> <mi>N</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>
(8)式中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如(9)式:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>P</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>=</mo> <msub> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <msub> <mi>B</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> </mrow> </msub> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>B</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mo>{</mo> <mi>s</mi> <mo>|</mo> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> <mo>,</mo> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <msub> <mi>N</mi> <mn>4</mn> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>,</mo> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;Element;</mo> <msup> <mi>seg</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> <mo>&amp;NotEqual;</mo> <msup> <mi>seg</mi> <mo>&amp;prime;</mo> </msup> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>N</mi> <mn>4</mn> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>{</mo> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>,</mo> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> <mn>2</mn> <mo>&amp;le;</mo> <mi>x</mi> <mo>&amp;le;</mo> <mi>M</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>&amp;le;</mo> <mi>y</mi> <mo>&amp;le;</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
公式(9)中,N、M分别表示RGB场景图象的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合;
超像素的面积周长比Rseg定义如(10)式:
<mrow> <msup> <mi>R</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>=</mo> <mfrac> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <msup> <mi>P</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>
是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶Hu矩,定义如式(11)、(12)、(13)
<mrow> <msubsup> <mi>&amp;eta;</mi> <mn>20</mn> <mi>x</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msubsup> <mi>s</mi> <mi>x</mi> <mn>2</mn> </msubsup> </mrow> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msub> <mi>s</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msup> <mrow> <mo>(</mo> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>&amp;eta;</mi> <mn>02</mn> <mi>y</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msubsup> <mi>s</mi> <mi>y</mi> <mn>2</mn> </msubsup> </mrow> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msub> <mi>s</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msup> <mrow> <mo>(</mo> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>&amp;eta;</mi> <mn>20</mn> <mrow> <mi>x</mi> <mi>y</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>x</mi> </msub> <msub> <mi>s</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> <mo>-</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msub> <mi>s</mi> <mi>x</mi> </msub> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msub> <mi>s</mi> <mi>y</mi> </msub> </mrow> <msup> <mrow> <mo>(</mo> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>
公式(14)中分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mover> <mi>X</mi> <mo>&amp;OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msub> <mi>s</mi> <mi>x</mi> </msub> </mrow> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> <mo>*</mo> <mfrac> <mn>1</mn> <mrow> <mi>W</mi> <mi>i</mi> <mi>d</mi> <mi>t</mi> <mi>h</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mover> <mi>Y</mi> <mo>&amp;OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <msub> <mi>s</mi> <mi>y</mi> </msub> </mrow> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> <mo>*</mo> <mfrac> <mn>1</mn> <mrow> <mi>H</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mover> <mi>X</mi> <mo>&amp;OverBar;</mo> </mover> <mn>2</mn> </msup> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mover> <mi>X</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mover> <mi>Y</mi> <mo>&amp;OverBar;</mo> </mover> <mn>2</mn> </msup> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mover> <mi>Y</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>
Width,Height分别表示图像宽度和高度,即基于归一化的像素坐标值进行计算;
Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mover> <mi>D</mi> <mo>&amp;OverBar;</mo> </mover> <mo>=</mo> <msub> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mfrac> <msub> <mi>s</mi> <mi>d</mi> </msub> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mover> <msub> <mi>D</mi> <mi>s</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>=</mo> <msub> <mo>&amp;Sigma;</mo> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>D</mi> <mi>var</mi> </msub> <mo>=</mo> <msqrt> <mrow> <mi>max</mi> <mo>&amp;lsqb;</mo> <mrow> <mo>(</mo> <mover> <msub> <mi>D</mi> <mi>s</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mover> <mi>D</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>,</mo> <mn>0</mn> <mo>&amp;rsqb;</mo> </mrow> </msqrt> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>D</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>s</mi> <mo>&amp;Element;</mo> <msup> <mi>S</mi> <mi>D</mi> </msup> </mrow> </msub> <mn>1</mn> </mrow> <msup> <mi>A</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>g</mi> </mrow> </msup> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>S</mi> <mi>D</mi> </msup> <mo>=</mo> <mo>{</mo> <mi>s</mi> <mo>|</mo> <mi>s</mi> <mo>&amp;Element;</mo> <mi>s</mi> <mi>e</mi> <mi>g</mi> <mo>,</mo> <msub> <mi>s</mi> <mi>d</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计;
4)超像素集特征计算
4.1基于超像素集建立高斯混合模型
超像素集合对每个超像素依据步骤3计算特征Fseg,利用最大期望算法基于特征向量集合{Fseg|seg∈SP}建立高斯混合模型G(x),模型形式如(17)式:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>m</mi> <mi>g</mi> </msub> </msubsup> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>g</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>g</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <msub> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>
其中,mg表示高斯分量个数,N(x|μii,∑ii)表示第ii个高斯分量,μii和∑ii分别表示第ii个高斯分量的均值向量和协方差矩阵,wii为第ii个高斯分量在高斯混合模型中的权值;
4.2高斯分量映射到希尔伯特空间
基于训练样本中第r个语义类别对应的超像素集合依据步骤4.1建立对应于第r个语义类别的高斯混合模型,得到高斯分量集合记所有C个语义类别对应的高斯混合模型所包含高斯分量的集合为
任一高斯分量gl到希尔伯特空间的映射记为kl,kl的计算如公式(18):
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>k</mi> <mi>l</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>&amp;lsqb;</mo> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>l</mi> </msub> <mo>,</mo> <msub> <mi>g</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>l</mi> </msub> <mo>,</mo> <msub> <mi>g</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>l</mi> </msub> <mo>,</mo> <msub> <mi>g</mi> <mi>N</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>l</mi> </msub> <mo>,</mo> <msub> <mi>g</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <mi>t</mi> <mi>r</mi> <mo>(</mo> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mi>j</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mo>&amp;Sigma;</mo> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>&amp;mu;</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mi>j</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>(</mo> <mrow> <msub> <mi>&amp;mu;</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mi>ln</mi> <mo>(</mo> <mfrac> <mrow> <mi>det</mi> <mrow> <mo>(</mo> <msub> <mo>&amp;Sigma;</mo> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>det</mi> <mrow> <mo>(</mo> <msub> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> <mo>-</mo> <mi>D</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>18</mn> <mo>)</mo> </mrow> </mrow>
其中,tr表示矩阵的迹,即矩阵对角线元素的乘积;det表示行列式;D=|Fseg|是超像素特征的维度;μ和∑分别是高斯分量的均值向量和协方差矩阵,∑-1是协方差矩阵Σ的逆;
4.3希尔伯特空间变换到欧式空间
记希尔伯特空间中向量kl映射到低维欧式空间中的向量为Zl,则有
Zl=ATkl (19)
式(19)中A为正交矩阵;A=[α12,…,αC-1]∈RN×(C-1),其中Nr是第r个语义类别的高斯混合模型中高斯分量的个数,C是语义类别的数量,即N是C个语义类别的高斯混合模型包含的高斯分量总的数量;A是求解(20)式得到的前C-1个特征向量α1,α2,…αC-1
Bα=λWα (20)
式(20)中,α为特征向量,λ为特征值,B和W的计算如公式(21)
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>B</mi> <mo>=</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </msubsup> <msup> <mi>N</mi> <mi>r</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>r</mi> </msub> <mo>-</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>r</mi> </msub> <mo>-</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>W</mi> <mo>=</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </msubsup> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mi>r</mi> </msub> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>j</mi> <mi>r</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>N</mi> <mi>r</mi> </msup> </msubsup> <mrow> <mo>(</mo> <msubsup> <mi>k</mi> <msub> <mi>j</mi> <mi>r</mi> </msub> <mi>r</mi> </msubsup> <mo>-</mo> <msub> <mi>m</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msubsup> <mi>k</mi> <msub> <mi>j</mi> <mi>r</mi> </msub> <mi>r</mi> </msubsup> <mo>-</mo> <msub> <mi>m</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>21</mn> <mo>)</mo> </mrow> </mrow>
其中,mr,wr计算如公式(22)
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>m</mi> <mi>r</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msup> <mi>N</mi> <mi>r</mi> </msup> <msub> <mi>w</mi> <mi>r</mi> </msub> </mrow> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>j</mi> <mi>r</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>N</mi> <mi>r</mi> </msup> </msubsup> <msubsup> <mi>w</mi> <msub> <mi>j</mi> <mi>r</mi> </msub> <mi>r</mi> </msubsup> <msubsup> <mi>k</mi> <msub> <mi>j</mi> <mi>r</mi> </msub> <mi>r</mi> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>m</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </msubsup> <mfrac> <mn>1</mn> <msub> <mi>w</mi> <mi>r</mi> </msub> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>j</mi> <mi>r</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>N</mi> <mi>r</mi> </msup> </msubsup> <msubsup> <mi>w</mi> <msub> <mi>j</mi> <mi>r</mi> </msub> <mi>r</mi> </msubsup> <msubsup> <mi>k</mi> <msub> <mi>j</mi> <mi>r</mi> </msub> <mi>r</mi> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>w</mi> <mi>r</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>j</mi> <mi>r</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>N</mi> <mi>r</mi> </msup> </msubsup> <msubsup> <mi>w</mi> <msub> <mi>j</mi> <mi>r</mi> </msub> <mi>r</mi> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>22</mn> <mo>)</mo> </mrow> </mrow>
其中,C是语义类别的数量,Nr是第r个语义类别高斯混合模型中高斯分量的个数,是第r个语义类别的高斯混合模型中第jr个高斯分量的权值,是第r个语义类别的高斯混合模型中第jr个高斯分量映射到希尔伯特空间的高维向量;
4.4语义类别的特征表示
对第r个语义类别的高斯混合模型的每一个高斯分量依据式(18)将其映射到希尔伯特空间得到向量再依据式(19)降维到欧式空间得到向量则第r个语义类别的一组高斯分量变换为即为第r个语义类别的特征表示;
5)测试样本识别分类
测试样本Ste为一组超像素,依据步骤4.1构建高斯混合模型得到一组高斯分量再依据式(18)将映射到希尔伯特空间,最后依据式(19)降维到欧式空间得到向量集合 即为测试样本的特征表示;
设l(r)表示第r个语义类别的语义标签,L′(zte)、L(zte)分别表示测试样本的候选语义标签及最终语义标签;对测试样本的每个特征向量计算其与所有类别特征向量的夹角,与特征向量夹角最小的类别特征向量的语义标签l(r)是测试样本的候选语义标签,如式(23)所示;
其中
依据式(23)计算得到T个候选语义标签L′(zte),其中T是测试样本的高斯混合模型包含的高斯分量的数量。依据式(24)定义的投票规则计算测试样本与语义类别的距离,包含最多与测试样本特征向量夹角最小的类别特征向量的语义类别的语义标签即是测试样本的最终语义标签;
式(24)中,C为语义类别的数量。
CN201711345653.3A 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法 Active CN107944428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711345653.3A CN107944428B (zh) 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711345653.3A CN107944428B (zh) 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法

Publications (2)

Publication Number Publication Date
CN107944428A true CN107944428A (zh) 2018-04-20
CN107944428B CN107944428B (zh) 2021-07-30

Family

ID=61943423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711345653.3A Active CN107944428B (zh) 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法

Country Status (1)

Country Link
CN (1) CN107944428B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191554A (zh) * 2018-09-04 2019-01-11 清华-伯克利深圳学院筹备办公室 一种超分辨图像重建方法、装置、终端和存储介质
CN109829449A (zh) * 2019-03-08 2019-05-31 北京工业大学 一种基于超像素时空上下文的rgb-d室内场景标注方法
CN109948445A (zh) * 2019-02-20 2019-06-28 西北大学 一种复杂背景下动作分类方法及分类***
CN110084136A (zh) * 2019-04-04 2019-08-02 北京工业大学 基于超像素crf模型的上下文优化室内场景语义标注方法
CN110096961A (zh) * 2019-04-04 2019-08-06 北京工业大学 一种超像素级别的室内场景语义标注方法
CN110517270A (zh) * 2019-07-16 2019-11-29 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法
CN110570352A (zh) * 2019-08-26 2019-12-13 腾讯科技(深圳)有限公司 图像标注方法、装置、***及细胞标注方法
CN110751153A (zh) * 2019-09-19 2020-02-04 北京工业大学 一种室内场景rgb-d图像的语义标注方法
CN111275077A (zh) * 2020-01-13 2020-06-12 南京林业大学 多视角特征联合学习下的机载激光雷达点云语义标注方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544487A (zh) * 2013-11-01 2014-01-29 扬州瑞控汽车电子有限公司 基于单目视觉的前车识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544487A (zh) * 2013-11-01 2014-01-29 扬州瑞控汽车电子有限公司 基于单目视觉的前车识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JINGHUA LI ET AL: ""Chinese Sign Language animation generation"", 《MULTIMED TOOLS APPL》 *
YUPING WANG ET AL.: ""Capture Surface Light Field for Gesture with Sparse"", 《JOURNAL OF INFORMATION & COMPUTATIONAL SCIENCE》 *
王玉萍: ""基于多视点图像的人脸表面光场重构"", 《北京工业大学学报》 *
王茹等: ""面向中国手语合成的视频语义描述方法"", 《北京工业大学学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191554A (zh) * 2018-09-04 2019-01-11 清华-伯克利深圳学院筹备办公室 一种超分辨图像重建方法、装置、终端和存储介质
CN109948445A (zh) * 2019-02-20 2019-06-28 西北大学 一种复杂背景下动作分类方法及分类***
CN109829449A (zh) * 2019-03-08 2019-05-31 北京工业大学 一种基于超像素时空上下文的rgb-d室内场景标注方法
CN109829449B (zh) * 2019-03-08 2021-09-14 北京工业大学 一种基于超像素时空上下文的rgb-d室内场景标注方法
CN110096961B (zh) * 2019-04-04 2021-03-02 北京工业大学 一种超像素级别的室内场景语义标注方法
CN110096961A (zh) * 2019-04-04 2019-08-06 北京工业大学 一种超像素级别的室内场景语义标注方法
CN110084136A (zh) * 2019-04-04 2019-08-02 北京工业大学 基于超像素crf模型的上下文优化室内场景语义标注方法
CN110517270A (zh) * 2019-07-16 2019-11-29 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法
CN110517270B (zh) * 2019-07-16 2022-04-12 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法
CN110570352A (zh) * 2019-08-26 2019-12-13 腾讯科技(深圳)有限公司 图像标注方法、装置、***及细胞标注方法
CN110751153A (zh) * 2019-09-19 2020-02-04 北京工业大学 一种室内场景rgb-d图像的语义标注方法
CN110751153B (zh) * 2019-09-19 2023-08-01 北京工业大学 一种室内场景rgb-d图像的语义标注方法
CN111275077A (zh) * 2020-01-13 2020-06-12 南京林业大学 多视角特征联合学习下的机载激光雷达点云语义标注方法

Also Published As

Publication number Publication date
CN107944428B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN107944428A (zh) 一种基于超像素集的室内场景语义标注方法
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN110334765B (zh) 基于注意力机制多尺度深度学习的遥感影像分类方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN108108751B (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
Thai et al. Image classification using support vector machine and artificial neural network
CN104268593B (zh) 一种小样本情况下多稀疏表示的人脸识别方法
CN103186775B (zh) 基于混合描述子的人体运动识别方法
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106682569A (zh) 一种基于卷积神经网络的快速交通标识牌识别方法
CN107945153A (zh) 一种基于深度学习的路面裂缝检测方法
CN106529499A (zh) 基于傅里叶描述子和步态能量图融合特征的步态识别方法
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN106778687A (zh) 基于局部评估和全局优化的注视点检测方法
CN111753828A (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN110096961A (zh) 一种超像素级别的室内场景语义标注方法
CN106778852A (zh) 一种修正误判的图像内容识别方法
CN106570874A (zh) 一种结合图像局部约束与对象全局约束的图像标记方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN106897669A (zh) 一种基于一致迭代多视角迁移学习的行人再辨识方法
Veeravasarapu et al. Adversarially tuned scene generation
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN105740915A (zh) 一种融合感知信息的协同分割方法
CN109033978A (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant