CN107622244B - 一种基于深度图的室内场景精细化解析方法 - Google Patents

一种基于深度图的室内场景精细化解析方法 Download PDF

Info

Publication number
CN107622244B
CN107622244B CN201710874793.3A CN201710874793A CN107622244B CN 107622244 B CN107622244 B CN 107622244B CN 201710874793 A CN201710874793 A CN 201710874793A CN 107622244 B CN107622244 B CN 107622244B
Authority
CN
China
Prior art keywords
depth map
indoor scene
analyzed
value
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710874793.3A
Other languages
English (en)
Other versions
CN107622244A (zh
Inventor
曹治国
杭凌霄
肖阳
赵峰
张博深
王立
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201710874793.3A priority Critical patent/CN107622244B/zh
Publication of CN107622244A publication Critical patent/CN107622244A/zh
Application granted granted Critical
Publication of CN107622244B publication Critical patent/CN107622244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度图的室内场景精细化解析方法,应用于数字图像处理和模式识别技术领域,所述方法包括:提取深度图三通道特征,利用已训练的全卷积网络对待解析的室内场景深度图中的目标进行分割;在深度特征图上,利用全连接条件随机场,对分割结果的边界进行完善优化,得到所述待解析的室内场景深度图中所有像素的类别标签向量;将所述待解析的室内场景深度图转换成点云,基于所述类别标签向量解析所述目标的三维结构,得到所述目标的空间姿态。本发明仅采用深度图作为输入,实现对室内场景的语义分割,并给出具体物体在三维坐标下的空间姿态,可以有效克服遮挡,分离前景背景,更有利于保护使用者的隐私。

Description

一种基于深度图的室内场景精细化解析方法
技术领域
本发明属于数字图像处理和模式识别技术领域,更具体地,涉及一种基于深度图的室内场景精细化解析方法。
背景技术
室内场景解析是一项融合了目标检测和图像分割技术的任务,要求计算机对图像有多层次的理解,从底层的物体定位、识别与分割,到上层的场景识别、室内物体布局分析,包含了从2D到3D的全方位多角度的算法设计。
传统的场景解析主要基于彩色图像,所依靠的信息源有限,主要是颜色,纹理等。现有算法采用自底向上的框架,对图像超像素进行分类,然后利用图模型优化分割结果。但现有算法有两方面不足:一是在室内遮挡严重、物体繁杂的情况下,鲁棒性不好,难以区分目标和背景;二是平面彩色图像有先天信息源不足的缺陷,不能给出目标三维空间的位置信息。
近年来,深度相机的普及为解决上述问题提供了一个新的维度,使得室内场景的解析和理解水平有了较大程度的提高。深度图像提供了一个更接近于真实世界的视角,可以通过距离反映出前景与背景的区别,同时在视觉信息的基础上增加了表面几何信息,这些深度图所独有的特点为室内场景的3D解析提供了极大的便利。
而现有基于深度图的室内场景解析技术,思路和传统彩色图像的方法非常类似,只是将深度信息作为了一种新的特征,并没有充分利用深度图独有的特点。值得一提的是,不管是只基于彩色图像的传统方法,还是借助了深度图像同时也必须依赖彩色图像的方法,在实际应用中,不可避免的会在夜晚关灯情形下失效。此外,使用彩色相机,存在泄露用户隐私的风险。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度图的室内场景精细化解析方法,由此解决现有的基于深度图的室内场景解析技术中由于基于彩色图像而存在的在没有光照情形下无法识别室内场景的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度图的室内场景精细化解析方法,包括:
(1)提取待解析的室内场景深度图的三通道特征图,并将提取的三通道特征图作为已训练的全卷积网络的输入,对所述待解析的室内场景深度图中的目标进行分割;
(2)根据提取的三通道特征图,利用全连接条件随机场,对分割结果的边界进行完善优化,得到所述待解析的室内场景深度图中所有像素的类别标签向量;
(3)将所述待解析的室内场景深度图转换成点云,基于所述类别标签向量解析所述目标的三维结构,得到所述目标的空间姿态。
优选地,步骤(1)具体包括:
(1.1)将待解析的室内场景深度图I编码成三通道图IE,每个通道图像的像素与所述待解析的室内场景深度图I中的像素一一对应,三个通道分别表示视差值、距地面高度和法向量与重力方向夹角大小;
(1.2)将三通道图IE作为已训练的全卷积网络的输入,逐层提取多级CNN特征,其中,前一层得到的卷积特征图经过下采样后,送入后一层提取新的卷积特征图;
(1.3)将位于不同层的卷积特征图分别通过反卷积层,上采样至相同尺寸,然后将不同层的特征图互相融合,送入softmax层;
(1.4)通过softmax层对每个像素点的类别进行预测,输出每个像素点属于各个类别的概率,最大概率值对应的类别为该像素点的初始类别标签。
优选地,步骤(1.1)具体包括:
(1.1.1)由
Figure BDA0001417881300000031
得到视差d和像素点对应深度值Z之间的关系;
(1.1.2)由
Figure BDA0001417881300000032
得到每个像素点的法向量,其中,norm[·]表示向量的归一化,符号×代表向量外积,
Figure BDA0001417881300000033
表示待解析的室内场景深度图二维平面的像素位置,
Figure BDA0001417881300000034
表示待解析的室内场景深度图的三维立体空间中的坐标,且二维坐标与三维坐标之间的转换关系式为:
Figure BDA0001417881300000035
为深度相机的内参矩阵;
(1.1.3)由
Figure BDA0001417881300000036
Figure BDA0001417881300000037
Figure BDA0001417881300000038
构造平行集合N∣∣和垂直集合N,其中,
Figure BDA00014178813000000311
代表像素点的法向量,
Figure BDA00014178813000000310
表示重力方向,
Figure BDA0001417881300000039
为法向量和重力方向的夹角,ρ表示角度误差裕量;
(1.1.4)将求解的矩阵NN T-N∣∣N∣∣ T的特征值作为更新后的重力向量,并采用更新后的重力向量继续执行步骤(1.1.3)直至特征值稳定不变,得到目标重力向量,并计算点云中每个像素的法向量和目标重力方向的夹角,其中,点云表示所有像素点对应的三维立体空间中的坐标(x,y,z)组成三维点云;
(1.1.5)以目标重力向量为基准轴,求取每个点沿目标重力向量的投影值,找到最低点,其他点沿目标重力向量的投影值和最低点的差值作为距地面高度。
优选地,步骤(1.4)具体包括:
通过softmax层对每个像素点的类别进行预测,输出每个像素点i属于各个类别的概率
Figure BDA0001417881300000041
其中l={1,2,…,C}表示类别标签,并将最大概率值
Figure BDA0001417881300000042
l=1,2,…,C所对应的类别作为该像素点的初始类别标签,
Figure BDA0001417881300000044
为不考虑softmax层的全卷积网络最后一层的输出。
优选地,步骤(2)具体包括:
(2.1)由条件概率
Figure BDA0001417881300000043
定义条件随机场分布,其中,X是由X1,X2,...,XN组成的随机向量,Xi(i=1,2,…,N)表示第i个像素点所属的初始类别标签,Z(I)=∑Xexp(-E(X|I))表示对所有可能情形的X对应的exp(·)项求和,E(x|I)表示条件随机场的总能量函数;
(2.2)由
Figure BDA0001417881300000047
得到总能量函数,其中,一元项
Figure BDA0001417881300000048
二元项
Figure BDA0001417881300000045
Figure BDA0001417881300000046
其中,pi代表像素点i的位置,pj代表像素点j的位置,超参数σαβ和σγ表示控制高斯核的权重,用于指定对指定像素产生影响的邻近像素范围,w1和w2分别表示两个不同特征空间中高斯核函数分别所占的权重,P(xi)表示像素点i对应的目标类别标签的最大概率值,IE i表示三通道图IE的第i个像素点的值,IE j表示三通道图IE的第j个像素点的值,xi表示像素点i可能取的标签值,xj表示像素点j可能取的标签值;
(2.3)求解使得条件概率P(X=x|I)最大时对应的X的值为优化后的所述待解析的室内场景深度图I的分割结果,得到所述待解析的室内场景深度图I中所有像素的目标类别标签向量。
优选地,所述方法还包括:
Figure BDA0001417881300000049
得到全卷积网络的误差函数,其中,z表示全卷积网络最后一层的输出,N表示深度图中的像素总数,yi∈{1,2,…,C}表示像素点i对应的人工标注的真实类别,C表示类别总数,
Figure BDA0001417881300000051
表示第j张输入的深度图在全卷积网络最后一层对应类别yi的输出,
Figure BDA0001417881300000052
表示第i张输入的深度图在全卷积网络最后一层对应类别yi的输出;
利用神经网络框架Caffe进行训练,首先对全卷积网络参数进行初始化,然后使用反向传播算法,对全卷积网络参数进行更新,并在误差函数值不再变化时,停止训练,得到已训练的全卷积网络,其中,在全卷积网络的训练过程中,将浅层的神经网络层得到的结果进行融合作为输出。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:本发明仅采用深度图作为输入,由于深度图不仅不受光照条件的影响,而且可以反映复杂室内环境的空间几何特征,在此基础上进行场景分割和理解,可以有效克服遮挡,分离前景背景,并给出目标物体在三维坐标下的空间姿态。
附图说明
图1是本发明实施例提供的一种基于深度图的室内场景精细化解析方法的流程示意图;
图2是本发明实施例提供的另一种基于深度图的室内场景精细化解析方法的流程示意图;
图3是本发明基于2D分割结果估计物体空间位置信息的示意图,其中,(1)表示深度图被标记为物体的像素在空间xy平面上的投影,(2)表示通过形态学操作滤除噪声点后的结果,(3)表示找到的4个角点,Vi,i=1,2,3,4,(4)表示估计物体空间高度后画出的三维边界框;
图4是本发明在卧室和医院病房实验的场景解析图,其中,第一行为输入深度图,第二行为对应的精细化解析结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出只使用深度图进行精细化的室内场景解析。借助深度卷积神经网络强大的理解和泛化能力,可以自动学***面中的位置,还能解析出目标在三维空间中的位置和姿态信息。由于该技术鲁棒性好,能保护用户隐私等特点,该技术可以对老年人的行为分析和智能看护提供有力帮助。老人的日常活动与房间中的床、椅子、桌子、沙发等大型家具以及地面,墙面等室内结构息息相关,例如老人的坠床与床面和地面的位置检测有关。而未来用于服务老人的家居机器人的研究实现,也依赖于计算机对室内场景的详尽认知。
为实现以上目的,本发明主要分为三大步骤:第一,场景解析。首先针对室内场景数据库,训练用于深度图像解析的全卷积网络,在测试时,用训练好的全卷积网络,对输入的新场景的深度图进行分割,得到初始的解析结果。第二,优化解析结果。利用全连接条件随机场,计算针对全图的能量函数,得到优化后的分割结果。第三,在解析结果的基础上,将深度图转换成三维点云,估计目标在三维坐标中的位置和姿态。
图1所示是本发明实施例提供的一种基于深度图的室内场景精细化解析方法的流程示意图;在图1所示的方法中,包括以下步骤:
(1)提取待解析的室内场景深度图的三通道特征图,并将提取的三通道特征图作为已训练的全卷积网络的输入,对待解析的室内场景深度图中的目标进行分割;
在一个可选的实施方式中,该方法还包括对全卷积网络进行训练的步骤:
Figure BDA0001417881300000071
得到全卷积网络的误差函数,其中,z表示全卷积网络最后一层的输出,N表示深度图中的像素总数,yi∈{1,2,…,C}表示像素点i对应的人工标注的真实类别,C表示类别总数,
Figure BDA0001417881300000073
表示第j张输入的深度图在全卷积网络最后一层对应类别yi的输出,
Figure BDA0001417881300000072
表示第i张输入的深度图在全卷积网络最后一层对应类别yi的输出;
利用神经网络框架Caffe进行训练,首先对全卷积网络参数进行初始化,然后使用反向传播算法,对全卷积网络参数进行更新,并在误差函数值不再变化时,停止训练,得到已训练的全卷积网络,其中,为了得到更精细化的分割结果,在全卷积网络的训练过程中,将浅层的神经网络层得到的结果进行融合作为输出。
作为一种可选的实施方式,如图2所示为本发明实施例提供的一种面向智能看护的室内场景深度图像解析方法的流程图,在训练室内场景分割任务的全卷积网络时,为了训练泛化能力足够好的全卷积网络,输入的样本图像可以在现有的NYUD2室内场景数据库的基础上,又制作了专门针对病房场景的训练数据集,包含100张深度图片,主要针对床,地面,墙以及其他大型的室内目标进行了标注。
其中,在本发明实施例中,可以使用在ImageNet数据集上训练好的VGG16网络模型,也可根据实际需求,增加或减少网络层数,或者使用其他的网络结构,例如AlexNet、ResNet等,初始化目标检测方法中的神经网络参数。具体采用何种网络模型,本发明实施例不做唯一性限定。
在一个可选的实施方式中,步骤(1)具体包括:
(1.1)将待解析的室内场景深度图I编码成三通道图IE,每个通道图像的像素与所述待解析的室内场景深度图I中的像素一一对应,三个通道分别表示视差值、距地面高度和法向量与重力方向夹角大小;
其中,步骤(1.1)具体包括:
(1.1.1)计算视差值:由
Figure BDA0001417881300000089
得到视差d和像素点对应深度值Z之间的关系;
(1.1.2)计算法向量与重力方向夹角大小:推导出待解析的室内场景深度图二维平面的像素位置
Figure BDA00014178813000000812
和待解析的室内场景深度图的三维立体空间中坐标
Figure BDA00014178813000000813
满足如下等式:
Figure BDA00014178813000000810
其中
Figure BDA00014178813000000811
为深度相机的内参矩阵,整理可得,二维坐标与三维坐标之间的转换关系式为:
Figure BDA0001417881300000088
所有像素点对应的三维立体空间中的坐标(x,y,z)组成三维点云,每个像素点对应的法向量计算公式为
Figure BDA0001417881300000087
其中,norm[·]表示向量的归一化,符号×代表向量外积;
(1.1.3)对点云内所有像素,由
Figure BDA0001417881300000085
Figure BDA0001417881300000086
Figure BDA0001417881300000083
构造平行集合N∣∣和垂直集合N,其中,
Figure BDA00014178813000000814
代表像素点的法向量,
Figure BDA0001417881300000084
表示重力方向,初始值可以为
Figure BDA0001417881300000081
Figure BDA0001417881300000082
为法向量和重力方向的夹角,ρ表示角度误差裕量,优选地,ρ=5°;
(1.1.4)将求解的矩阵NN T-N∣∣N∣∣ T的特征值作为更新后的重力向量,并采用更新后的重力向量继续执行步骤(1.1.3)直至特征值稳定不变,得到目标重力向量,并计算点云中每个像素的法向量和目标重力方向的夹角,其中,点云表示所有像素点对应的三维立体空间中的坐标(x,y,z)组成三维点云;
(1.1.5)计算距地面高度:以目标重力向量为基准轴,求取每个点沿目标重力向量的投影值,找到最低点,其他点沿目标重力向量的投影值和最低点的差值作为距地面高度。
(1.2)将三通道图IE作为已训练的全卷积网络的输入,逐层提取多级卷积神经网络(Convolutional Neural Network,CNN)特征,其中,前一层得到的卷积特征图经过下采样后,送入后一层提取新的卷积特征图;
其中,在具体实现时,本发明实施例中采用的全卷积网络的结构和每一层卷积核的参数如图2所示。
(1.3)将位于不同层的卷积特征图分别通过反卷积层,上采样至相同尺寸,然后将不同层的特征图互相融合,送入softmax层;
具体地,以图2为例说明,反卷积层和卷积层的效果正好相反,二者互为逆操作。pool5层的特征图通过反卷积上采样至原尺寸的2倍,即与pool4层具有相同尺寸,叠加后再通过反卷积上采样至尺寸的2倍,即与pool3层具有相同尺寸,叠加后即可得到最终的上采样结果,作为下一层softmax层的输入。
(1.4)通过softmax层对每个像素点的类别进行预测,输出每个像素点属于各个类别的概率,最大概率值对应的类别为该像素点的初始类别标签。
其中,步骤(1.4)具体包括:
通过softmax层对每个像素点的类别进行预测,输出每个像素点i属于各个类别的概率
Figure BDA0001417881300000101
其中l={1,2,…,C}表示类别标签,并将最大概率值
Figure BDA0001417881300000102
l=1,2,…,C所对应的类别作为该像素点的初始类别标签,
Figure BDA0001417881300000103
Figure BDA0001417881300000104
为不考虑softmax层的全卷积网络最后一层的输出。
(2)根据提取的三通道特征图,利用全连接条件随机场,对分割结果的边界进行完善优化,得到所述待解析的室内场景深度图中所有像素的类别标签向量;
在一个可选的实施方式中,步骤(2)具体包括:
(2.1)由条件概率
Figure BDA0001417881300000105
定义条件随机场分布,其中,X是由X1,X2,...,XN组成的随机向量,Xi(i=1,2,…,N)表示第i个像素点所属的初始类别标签,Z(I)=∑Xexp(-E(X|I))表示对所有可能情形的X对应的exp(·)项求和,E(x|I)表示条件随机场的总能量函数;
(2.2)由
Figure BDA0001417881300000108
得到总能量函数,其中,一元项
Figure BDA0001417881300000109
二元项
Figure BDA0001417881300000106
Figure BDA0001417881300000107
其中,pi代表像素点i的位置,pj代表像素点j的位置,超参数σαβ和σγ表示控制高斯核的权重,用于指定对指定像素产生影响的邻近像素范围,w1和w2分别表示两个不同特征空间中高斯核函数分别所占的权重,P(xi)表示像素点i对应的目标类别标签的最大概率值,IE i表示三通道图IE的第i个像素点的值,IE j表示三通道图IE的第j个像素点的值,xi表示像素点i可能取的标签值,xj表示像素点j可能取的标签值;
其中,在本发明的实施中,可以使用交叉验证的方法,确定以上参数的最优值组合。首先默认设定w2和σγ为3,然后从验证数据集上随机选取100个样本,寻找w1α和σβ的最优值,搜索的范围设定为w1∈(0,20),σα∈(0,100),σβ∈(0,20)。通过上述实验,找到w1α和σβ的最优值。
(2.3)求解使得条件概率P(X=x|I)最大时对应的X的值为优化后的所述待解析的室内场景深度图I的分割结果,得到所述待解析的室内场景深度图I中所有像素的目标类别标签向量。
通过利用目前最高效的高阶滤波算法,对模型的概率分布进行近似推断,可以显著提高优化求解的速率。
(3)将所述待解析的室内场景深度图转换成点云,基于所述类别标签向量解析所述目标的三维结构,得到所述目标的空间姿态。
在本发明实施例中,如图3所示,以床面的空间方位解析为例,其他类型的目标可以根据实际应用做简单的修改,原理不变。其中,在图3中,(1)表示深度图被标记为物体的像素在空间xy平面上的投影,(2)表示通过形态学操作滤除噪声点后的结果,(3)表示找到的4个角点,Vi,i=1,2,3,4,(4)表示估计物体空间高度后画出的三维边界框。步骤3具体包括以下子步骤:
(3.1)将待解析的室内场景深度图的二维图像平面上的分割结果,投影到三维点云的坐标中。投影的计算方法与步骤(1.1.2)完全相同;
(3.2)将带有床面标签的像素点的三维坐标投影到xy平面,进行形态学运算(如开运算,先进行形态学腐蚀操作,再进行形态学膨胀操作),滤除噪声点;
(3.3)找出沿x方向和y方向的坐标最大和最小的点,记为Vi,i=1,2,3,4,表示床面的4个角点,依次连接Vi构成封闭的几何图形,在封闭图形内部所有点的法向量,代表该平面在空间中的朝向,因而可以表示在三维空间中,目标的姿态和结构信息;
(3.4)计算上平面与地面平面之间的距离,作为物体所占空间的高度h,利用Vi和h在三维空间坐标系中画出立体姿态估计立方体框。如图4所示,为本发明在卧室和医院病房实验的场景解析图,其中,第一行为输入深度图,第二行为对应的精细化解析结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度图的室内场景精细化解析方法,其特征在于,包括:
(1)提取待解析的室内场景深度图的三通道特征图,并将提取的三通道特征图作为已训练的全卷积网络的输入,对所述待解析的室内场景深度图中的目标进行分割;
(2)根据提取的三通道特征图,利用全连接条件随机场,对分割结果的边界进行完善优化,得到所述待解析的室内场景深度图中所有像素的类别标签向量;
所述三通道特征图中,每个通道图像的像素与所述待解析的室内场景深度图中的像素一一对应,三个通道分别表示视差值、距地面高度和法向量与重力方向夹角大小;
提取待解析的室内场景深度图的三通道特征图,包括:
(1.1.1)由
Figure FDA0002491962190000011
得到视差d和像素点对应深度值Z之间的关系;
(1.1.2)由
Figure FDA0002491962190000012
得到每个像素点的法向量,其中,norm[·]表示向量的归一化,符号×代表向量外积,
Figure FDA0002491962190000013
表示待解析的室内场景深度图二维平面的像素位置,
Figure FDA0002491962190000014
表示待解析的室内场景深度图的三维立体空间中的坐标,且二维坐标与三维坐标之间的转换关系式为:
Figure FDA0002491962190000015
为深度相机的内参矩阵;
(1.1.3)由
Figure FDA0002491962190000016
Figure FDA0002491962190000017
Figure FDA0002491962190000018
构造平行集合NII和垂直集合N,其中,
Figure FDA0002491962190000019
代表像素点的法向量,
Figure FDA00024919621900000110
表示重力方向,
Figure FDA00024919621900000111
为法向量和重力方向的夹角,ρ表示角度误差裕量;
(1.1.4)将求解的矩阵NN T-NIINII T的特征值作为更新后的重力向量,并采用更新后的重力向量继续执行步骤(1.1.3)直至特征值稳定不变,得到目标重力向量,并计算点云中每个像素的法向量和目标重力方向的夹角,其中,点云表示所有像素点对应的三维立体空间中的坐标(x,y,z)组成三维点云;
(1.1.5)以目标重力向量为基准轴,求取每个点沿目标重力向量的投影值,找到最低点,其他点沿目标重力向量的投影值和最低点的差值作为距地面高度;
(3)将所述待解析的室内场景深度图转换成点云,基于所述类别标签向量解析所述目标的三维结构,得到所述目标的空间姿态。
2.根据权利要求1所述的方法,其特征在于,步骤(1)具体包括:
(1.1)将待解析的室内场景深度图I编码成三通道图IE
(1.2)将三通道图IE作为已训练的全卷积网络的输入,逐层提取多级CNN特征,其中,前一层得到的卷积特征图经过下采样后,送入后一层提取新的卷积特征图;
(1.3)将位于不同层的卷积特征图分别通过反卷积层,上采样至相同尺寸,然后将不同层的特征图互相融合,送入softmax层;
(1.4)通过softmax层对每个像素点的类别进行预测,输出每个像素点属于各个类别的概率,最大概率值对应的类别为该像素点的初始类别标签。
3.根据权利要求2所述的方法,其特征在于,步骤(1.4)具体包括:
通过softmax层对每个像素点的类别进行预测,输出每个像素点i属于各个类别的概率
Figure FDA0002491962190000021
其中l={1,2,...,C}表示类别标签,并将最大概率值
Figure FDA0002491962190000022
所对应的类别作为该像素点的初始类别标签,
Figure FDA0002491962190000023
为不考虑softmax层的全卷积网络最后一层的输出。
4.根据权利要求2或3所述的方法,其特征在于,步骤(2)具体包括:
(2.1)由条件概率
Figure FDA0002491962190000031
定义条件随机场分布,其中,X是由X1,X2,...,XN组成的随机向量,Xi(i=1,2,...,N)表示第i个像素点所属的初始类别标签,Z(I)=∑Xexp(-E(X|I))表示对所有可能情形的X对应的exp(·)项求和,E(x|I)表示条件随机场的总能量函数;
(2.2)由
Figure FDA0002491962190000032
得到总能量函数,其中,一元项
Figure FDA0002491962190000033
二元项
Figure FDA0002491962190000034
Figure FDA0002491962190000035
其中,pi代表像素点i的位置,pj代表像素点j的位置,超参数σα,σβ和σγ表示控制高斯核的权重,用于指定对指定像素产生影响的邻近像素范围,w1和w2分别表示两个不同特征空间中高斯核函数分别所占的权重,P(xi)表示像素点i对应的目标类别标签的最大概率值,IE i表示三通道图IE的第i个像素点的值,IE j表示三通道图IE的第j个像素点的值,xi表示像素点i可能取的标签值,xj 表示像素点j可能取的标签值;
(2.3)求解使得条件概率P(X=x|I)最大时对应的X的值为优化后的所述待解析的室内场景深度图I的分割结果,得到所述待解析的室内场景深度图I中所有像素的目标类别标签向量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
Figure FDA0002491962190000036
得到全卷积网络的误差函数,其中,z表示全卷积网络最后一层的输出,N表示深度图中的像素总数,yi∈{1,2,...,C}表示像素点i对应的人工标注的真实类别,C表示类别总数,
Figure FDA0002491962190000037
表示第j张输入的深度图在全卷积网络最后一层对应类别yi的输出,
Figure FDA0002491962190000038
表示第i张输入的深度图在全卷积网络最后一层对应类别yi的输出;
利用神经网络框架Caffe进行训练,首先对全卷积网络参数进行初始化,然后使用反向传播算法,对全卷积网络参数进行更新,并在误差函数值不再变化时,停止训练,得到已训练的全卷积网络,其中,在全卷积网络的训练过程中,将浅层的神经网络层得到的结果进行融合作为输出。
CN201710874793.3A 2017-09-25 2017-09-25 一种基于深度图的室内场景精细化解析方法 Active CN107622244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710874793.3A CN107622244B (zh) 2017-09-25 2017-09-25 一种基于深度图的室内场景精细化解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710874793.3A CN107622244B (zh) 2017-09-25 2017-09-25 一种基于深度图的室内场景精细化解析方法

Publications (2)

Publication Number Publication Date
CN107622244A CN107622244A (zh) 2018-01-23
CN107622244B true CN107622244B (zh) 2020-08-28

Family

ID=61090539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710874793.3A Active CN107622244B (zh) 2017-09-25 2017-09-25 一种基于深度图的室内场景精细化解析方法

Country Status (1)

Country Link
CN (1) CN107622244B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596102B (zh) * 2018-04-26 2022-04-05 北京航空航天大学青岛研究院 基于rgb-d的室内场景物体分割分类器构造方法
CN109034183B (zh) * 2018-06-07 2021-05-18 苏州飞搜科技有限公司 一种目标检测方法、装置及设备
CN109118490B (zh) * 2018-06-28 2021-02-26 厦门美图之家科技有限公司 一种图像分割网络生成方法及图像分割方法
CN110378359B (zh) * 2018-07-06 2021-11-05 北京京东尚科信息技术有限公司 一种图像识别方法和装置
CN109064455B (zh) * 2018-07-18 2021-06-25 清华大学深圳研究生院 一种基于bi-rads的乳腺超声图像多尺度融合的分类方法
CN110827337B (zh) * 2018-08-08 2023-01-24 深圳地平线机器人科技有限公司 确定车载相机的姿态的方法、装置和电子设备
CN110160502B (zh) 2018-10-12 2022-04-01 腾讯科技(深圳)有限公司 地图要素提取方法、装置及服务器
CN109452914A (zh) * 2018-11-01 2019-03-12 北京石头世纪科技有限公司 智能清洁设备,清洁模式选择方法,计算机存储介质
CN109409376B (zh) * 2018-11-05 2020-10-30 昆山紫东智能科技有限公司 针对固废对象的图像分割方法、计算机终端及存储介质
CN109635685B (zh) * 2018-11-29 2021-02-12 北京市商汤科技开发有限公司 目标对象3d检测方法、装置、介质及设备
CN109658449B (zh) * 2018-12-03 2020-07-10 华中科技大学 一种基于rgb-d图像的室内场景三维重建方法
CN110046747B (zh) * 2019-03-19 2021-07-27 华中科技大学 一种面向图流的社交网络用户间路径规划方法和***
CN109917419B (zh) * 2019-04-12 2021-04-13 中山大学 一种基于激光雷达与图像的深度填充密集***及方法
CN110047047B (zh) * 2019-04-17 2023-02-10 广东工业大学 三维形貌图像信息解译的方法、装置、设备及存储介质
CN110222767B (zh) * 2019-06-08 2021-04-06 西安电子科技大学 基于嵌套神经网络和栅格地图的三维点云分类方法
CN110569709A (zh) * 2019-07-16 2019-12-13 浙江大学 一种基于知识重组的场景解析方法
CN112513929A (zh) * 2019-11-29 2021-03-16 深圳市大疆创新科技有限公司 图像处理方法及装置
CN111325135B (zh) * 2020-02-17 2022-11-29 天津中科智能识别产业技术研究院有限公司 一种基于深度学习特征模板匹配的在线实时行人跟踪新方法
CN111507266A (zh) * 2020-04-17 2020-08-07 四川长虹电器股份有限公司 一种基于深度图像的人体检测方法和装置
CN112818756A (zh) * 2021-01-13 2021-05-18 上海西井信息科技有限公司 目标检测方法、***、设备及存储介质
CN113052971B (zh) * 2021-04-09 2022-06-10 杭州群核信息技术有限公司 一种基于神经网络的室内灯具自动布局设计方法、装置、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及***
CN106296728A (zh) * 2016-07-27 2017-01-04 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106600571A (zh) * 2016-11-07 2017-04-26 中国科学院自动化研究所 融合全卷积神经网络和条件随机场的脑肿瘤自动分割方法
CN106815563A (zh) * 2016-12-27 2017-06-09 浙江大学 一种基于人体表观结构的人群数量预测方法
CN106934765A (zh) * 2017-03-14 2017-07-07 长沙全度影像科技有限公司 基于深度卷积神经网络与深度信息的全景图像融合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及***
CN106296728A (zh) * 2016-07-27 2017-01-04 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106600571A (zh) * 2016-11-07 2017-04-26 中国科学院自动化研究所 融合全卷积神经网络和条件随机场的脑肿瘤自动分割方法
CN106815563A (zh) * 2016-12-27 2017-06-09 浙江大学 一种基于人体表观结构的人群数量预测方法
CN106934765A (zh) * 2017-03-14 2017-07-07 长沙全度影像科技有限公司 基于深度卷积神经网络与深度信息的全景图像融合方法

Also Published As

Publication number Publication date
CN107622244A (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
CN107622244B (zh) 一种基于深度图的室内场景精细化解析方法
US11816907B2 (en) Systems and methods for extracting information about objects from scene information
He et al. Deep learning based 3D segmentation: A survey
CN109544677B (zh) 基于深度图像关键帧的室内场景主结构重建方法及***
CN108269266B (zh) 使用马尔可夫随机场优化来产生分割图像
Silberman et al. Indoor segmentation and support inference from rgbd images
Häne et al. Dense semantic 3d reconstruction
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN111798475A (zh) 一种基于点云深度学习的室内环境3d语义地图构建方法
TW202034215A (zh) 利用視訊資料映射物件實體
CN107798725B (zh) 基于Android的二维住房户型识别和三维呈现方法
JP7439153B2 (ja) 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み
Tang et al. BIM generation from 3D point clouds by combining 3D deep learning and improved morphological approach
Liu et al. 3D Point cloud analysis
Qian et al. Learning pairwise inter-plane relations for piecewise planar reconstruction
Zhao et al. OFM‐SLAM: A Visual Semantic SLAM for Dynamic Indoor Environments
US11734861B2 (en) 2D and 3D floor plan generation
Pahwa et al. Locating 3D object proposals: A depth-based online approach
Wang et al. Understanding of wheelchair ramp scenes for disabled people with visual impairments
CN116385660A (zh) 室内单视图场景语义重建方法及***
Mohan et al. Room layout estimation in indoor environment: a review
Pintore et al. Automatic 3D reconstruction of structured indoor environments
CN116030335A (zh) 基于室内建筑框架约束的视觉定位方法及***
Liu et al. Enhancing Point Features with Spatial Information for Point‐Based 3D Object Detection
Zioulis et al. Monocular spherical depth estimation with explicitly connected weak layout cues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant