CN107622244B

CN107622244B - 一种基于深度图的室内场景精细化解析方法

Info

Publication number: CN107622244B
Application number: CN201710874793.3A
Authority: CN
Inventors: 曹治国; 杭凌霄; 肖阳; 赵峰; 张博深; 王立; 李涛
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2020-08-28
Anticipated expiration: 2037-09-25
Also published as: CN107622244A

Abstract

本发明公开了一种基于深度图的室内场景精细化解析方法，应用于数字图像处理和模式识别技术领域，所述方法包括：提取深度图三通道特征，利用已训练的全卷积网络对待解析的室内场景深度图中的目标进行分割；在深度特征图上，利用全连接条件随机场，对分割结果的边界进行完善优化，得到所述待解析的室内场景深度图中所有像素的类别标签向量；将所述待解析的室内场景深度图转换成点云，基于所述类别标签向量解析所述目标的三维结构，得到所述目标的空间姿态。本发明仅采用深度图作为输入，实现对室内场景的语义分割，并给出具体物体在三维坐标下的空间姿态，可以有效克服遮挡，分离前景背景，更有利于保护使用者的隐私。

Description

一种基于深度图的室内场景精细化解析方法

技术领域

本发明属于数字图像处理和模式识别技术领域，更具体地，涉及一种基于深度图的室内场景精细化解析方法。

背景技术

室内场景解析是一项融合了目标检测和图像分割技术的任务，要求计算机对图像有多层次的理解，从底层的物体定位、识别与分割，到上层的场景识别、室内物体布局分析，包含了从2D到3D的全方位多角度的算法设计。

传统的场景解析主要基于彩色图像，所依靠的信息源有限，主要是颜色，纹理等。现有算法采用自底向上的框架，对图像超像素进行分类，然后利用图模型优化分割结果。但现有算法有两方面不足：一是在室内遮挡严重、物体繁杂的情况下，鲁棒性不好，难以区分目标和背景；二是平面彩色图像有先天信息源不足的缺陷，不能给出目标三维空间的位置信息。

近年来，深度相机的普及为解决上述问题提供了一个新的维度，使得室内场景的解析和理解水平有了较大程度的提高。深度图像提供了一个更接近于真实世界的视角，可以通过距离反映出前景与背景的区别，同时在视觉信息的基础上增加了表面几何信息，这些深度图所独有的特点为室内场景的3D解析提供了极大的便利。

而现有基于深度图的室内场景解析技术，思路和传统彩色图像的方法非常类似，只是将深度信息作为了一种新的特征，并没有充分利用深度图独有的特点。值得一提的是，不管是只基于彩色图像的传统方法，还是借助了深度图像同时也必须依赖彩色图像的方法，在实际应用中，不可避免的会在夜晚关灯情形下失效。此外，使用彩色相机，存在泄露用户隐私的风险。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度图的室内场景精细化解析方法，由此解决现有的基于深度图的室内场景解析技术中由于基于彩色图像而存在的在没有光照情形下无法识别室内场景的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度图的室内场景精细化解析方法，包括：

(1)提取待解析的室内场景深度图的三通道特征图，并将提取的三通道特征图作为已训练的全卷积网络的输入，对所述待解析的室内场景深度图中的目标进行分割；

(2)根据提取的三通道特征图，利用全连接条件随机场，对分割结果的边界进行完善优化，得到所述待解析的室内场景深度图中所有像素的类别标签向量；

(3)将所述待解析的室内场景深度图转换成点云，基于所述类别标签向量解析所述目标的三维结构，得到所述目标的空间姿态。

优选地，步骤(1)具体包括：

(1.1)将待解析的室内场景深度图I编码成三通道图I^E，每个通道图像的像素与所述待解析的室内场景深度图I中的像素一一对应，三个通道分别表示视差值、距地面高度和法向量与重力方向夹角大小；

(1.2)将三通道图I^E作为已训练的全卷积网络的输入，逐层提取多级CNN特征，其中，前一层得到的卷积特征图经过下采样后，送入后一层提取新的卷积特征图；

(1.3)将位于不同层的卷积特征图分别通过反卷积层，上采样至相同尺寸，然后将不同层的特征图互相融合，送入softmax层；

(1.4)通过softmax层对每个像素点的类别进行预测，输出每个像素点属于各个类别的概率，最大概率值对应的类别为该像素点的初始类别标签。

优选地，步骤(1.1)具体包括：

(1.1.1)由

得到视差d和像素点对应深度值Z之间的关系；

(1.1.2)由

得到每个像素点的法向量，其中，norm[·]表示向量的归一化，符号×代表向量外积，

表示待解析的室内场景深度图二维平面的像素位置，

表示待解析的室内场景深度图的三维立体空间中的坐标，且二维坐标与三维坐标之间的转换关系式为：

为深度相机的内参矩阵；

(1.1.3)由

与

构造平行集合N_∣∣和垂直集合N_⊥，其中，

代表像素点的法向量，

表示重力方向，

为法向量和重力方向的夹角，ρ表示角度误差裕量；

(1.1.4)将求解的矩阵N_⊥N_⊥ ^T-N_∣∣N_∣∣ ^T的特征值作为更新后的重力向量，并采用更新后的重力向量继续执行步骤(1.1.3)直至特征值稳定不变，得到目标重力向量，并计算点云中每个像素的法向量和目标重力方向的夹角，其中，点云表示所有像素点对应的三维立体空间中的坐标(x,y,z)组成三维点云；

(1.1.5)以目标重力向量为基准轴，求取每个点沿目标重力向量的投影值，找到最低点，其他点沿目标重力向量的投影值和最低点的差值作为距地面高度。

优选地，步骤(1.4)具体包括：

通过softmax层对每个像素点的类别进行预测，输出每个像素点i属于各个类别的概率

其中l＝{1,2,…,C}表示类别标签，并将最大概率值

l＝1,2,…,C所对应的类别作为该像素点的初始类别标签，

为不考虑softmax层的全卷积网络最后一层的输出。

优选地，步骤(2)具体包括：

(2.1)由条件概率

定义条件随机场分布，其中，X是由X₁,X₂,...,X_N组成的随机向量，X_i(i＝1,2,…,N)表示第i个像素点所属的初始类别标签，Z(I)＝∑_Xexp(-E(X|I))表示对所有可能情形的X对应的exp(·)项求和，E(x|I)表示条件随机场的总能量函数；

(2.2)由

得到总能量函数，其中，一元项

二元项

其中，p_i代表像素点i的位置，p_j代表像素点j的位置，超参数σ_α,σ_β和σ_γ表示控制高斯核的权重，用于指定对指定像素产生影响的邻近像素范围，w₁和w₂分别表示两个不同特征空间中高斯核函数分别所占的权重，P(x_i)表示像素点i对应的目标类别标签的最大概率值，I^E _i表示三通道图I^E的第i个像素点的值，I^E _j表示三通道图I^E的第j个像素点的值，x_i表示像素点i可能取的标签值，x_j表示像素点j可能取的标签值；

(2.3)求解使得条件概率P(X＝x|I)最大时对应的X的值为优化后的所述待解析的室内场景深度图I的分割结果，得到所述待解析的室内场景深度图I中所有像素的目标类别标签向量。

优选地，所述方法还包括：

由

得到全卷积网络的误差函数，其中，z表示全卷积网络最后一层的输出，N表示深度图中的像素总数，y_i∈{1,2,…,C}表示像素点i对应的人工标注的真实类别，C表示类别总数，

表示第j张输入的深度图在全卷积网络最后一层对应类别y_i的输出，

表示第i张输入的深度图在全卷积网络最后一层对应类别y_i的输出；

利用神经网络框架Caffe进行训练，首先对全卷积网络参数进行初始化，然后使用反向传播算法，对全卷积网络参数进行更新，并在误差函数值不再变化时，停止训练，得到已训练的全卷积网络，其中，在全卷积网络的训练过程中，将浅层的神经网络层得到的结果进行融合作为输出。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：本发明仅采用深度图作为输入，由于深度图不仅不受光照条件的影响，而且可以反映复杂室内环境的空间几何特征，在此基础上进行场景分割和理解，可以有效克服遮挡，分离前景背景，并给出目标物体在三维坐标下的空间姿态。

附图说明

图1是本发明实施例提供的一种基于深度图的室内场景精细化解析方法的流程示意图；

图2是本发明实施例提供的另一种基于深度图的室内场景精细化解析方法的流程示意图；

图3是本发明基于2D分割结果估计物体空间位置信息的示意图，其中，(1)表示深度图被标记为物体的像素在空间xy平面上的投影，(2)表示通过形态学操作滤除噪声点后的结果，(3)表示找到的4个角点，V_i,i＝1,2,3,4，(4)表示估计物体空间高度后画出的三维边界框；

图4是本发明在卧室和医院病房实验的场景解析图，其中，第一行为输入深度图，第二行为对应的精细化解析结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出只使用深度图进行精细化的室内场景解析。借助深度卷积神经网络强大的理解和泛化能力，可以自动学***面中的位置，还能解析出目标在三维空间中的位置和姿态信息。由于该技术鲁棒性好，能保护用户隐私等特点，该技术可以对老年人的行为分析和智能看护提供有力帮助。老人的日常活动与房间中的床、椅子、桌子、沙发等大型家具以及地面，墙面等室内结构息息相关，例如老人的坠床与床面和地面的位置检测有关。而未来用于服务老人的家居机器人的研究实现，也依赖于计算机对室内场景的详尽认知。

为实现以上目的，本发明主要分为三大步骤：第一，场景解析。首先针对室内场景数据库，训练用于深度图像解析的全卷积网络，在测试时，用训练好的全卷积网络，对输入的新场景的深度图进行分割，得到初始的解析结果。第二，优化解析结果。利用全连接条件随机场，计算针对全图的能量函数，得到优化后的分割结果。第三，在解析结果的基础上，将深度图转换成三维点云，估计目标在三维坐标中的位置和姿态。

图1所示是本发明实施例提供的一种基于深度图的室内场景精细化解析方法的流程示意图；在图1所示的方法中，包括以下步骤：

(1)提取待解析的室内场景深度图的三通道特征图，并将提取的三通道特征图作为已训练的全卷积网络的输入，对待解析的室内场景深度图中的目标进行分割；

在一个可选的实施方式中，该方法还包括对全卷积网络进行训练的步骤：

由

利用神经网络框架Caffe进行训练，首先对全卷积网络参数进行初始化，然后使用反向传播算法，对全卷积网络参数进行更新，并在误差函数值不再变化时，停止训练，得到已训练的全卷积网络，其中，为了得到更精细化的分割结果，在全卷积网络的训练过程中，将浅层的神经网络层得到的结果进行融合作为输出。

作为一种可选的实施方式，如图2所示为本发明实施例提供的一种面向智能看护的室内场景深度图像解析方法的流程图，在训练室内场景分割任务的全卷积网络时，为了训练泛化能力足够好的全卷积网络，输入的样本图像可以在现有的NYUD2室内场景数据库的基础上，又制作了专门针对病房场景的训练数据集，包含100张深度图片，主要针对床，地面，墙以及其他大型的室内目标进行了标注。

其中，在本发明实施例中，可以使用在ImageNet数据集上训练好的VGG16网络模型，也可根据实际需求，增加或减少网络层数，或者使用其他的网络结构，例如AlexNet、ResNet等，初始化目标检测方法中的神经网络参数。具体采用何种网络模型，本发明实施例不做唯一性限定。

在一个可选的实施方式中，步骤(1)具体包括：

其中，步骤(1.1)具体包括：

(1.1.1)计算视差值：由

得到视差d和像素点对应深度值Z之间的关系；

(1.1.2)计算法向量与重力方向夹角大小：推导出待解析的室内场景深度图二维平面的像素位置

和待解析的室内场景深度图的三维立体空间中坐标

满足如下等式：

其中

为深度相机的内参矩阵，整理可得，二维坐标与三维坐标之间的转换关系式为：

所有像素点对应的三维立体空间中的坐标(x,y,z)组成三维点云，每个像素点对应的法向量计算公式为

其中，norm[·]表示向量的归一化，符号×代表向量外积；

(1.1.3)对点云内所有像素，由

与

构造平行集合N_∣∣和垂直集合N_⊥，其中，

代表像素点的法向量，

表示重力方向，初始值可以为

为法向量和重力方向的夹角，ρ表示角度误差裕量，优选地，ρ＝5°；

(1.1.5)计算距地面高度：以目标重力向量为基准轴，求取每个点沿目标重力向量的投影值，找到最低点，其他点沿目标重力向量的投影值和最低点的差值作为距地面高度。

(1.2)将三通道图I^E作为已训练的全卷积网络的输入，逐层提取多级卷积神经网络(Convolutional Neural Network，CNN)特征，其中，前一层得到的卷积特征图经过下采样后，送入后一层提取新的卷积特征图；

其中，在具体实现时，本发明实施例中采用的全卷积网络的结构和每一层卷积核的参数如图2所示。

具体地，以图2为例说明，反卷积层和卷积层的效果正好相反，二者互为逆操作。pool5层的特征图通过反卷积上采样至原尺寸的2倍，即与pool4层具有相同尺寸，叠加后再通过反卷积上采样至尺寸的2倍，即与pool3层具有相同尺寸，叠加后即可得到最终的上采样结果，作为下一层softmax层的输入。

其中，步骤(1.4)具体包括：

其中l＝{1,2,…,C}表示类别标签，并将最大概率值

l＝1,2,…,C所对应的类别作为该像素点的初始类别标签，

与

为不考虑softmax层的全卷积网络最后一层的输出。

在一个可选的实施方式中，步骤(2)具体包括：

(2.1)由条件概率

(2.2)由

得到总能量函数，其中，一元项

二元项

其中，在本发明的实施中，可以使用交叉验证的方法，确定以上参数的最优值组合。首先默认设定w₂和σ_γ为3，然后从验证数据集上随机选取100个样本，寻找w₁,σ_α和σ_β的最优值，搜索的范围设定为w₁∈(0,20)，σ_α∈(0,100)，σ_β∈(0,20)。通过上述实验，找到w₁,σ_α和σ_β的最优值。

通过利用目前最高效的高阶滤波算法，对模型的概率分布进行近似推断，可以显著提高优化求解的速率。

在本发明实施例中，如图3所示，以床面的空间方位解析为例，其他类型的目标可以根据实际应用做简单的修改，原理不变。其中，在图3中，(1)表示深度图被标记为物体的像素在空间xy平面上的投影，(2)表示通过形态学操作滤除噪声点后的结果，(3)表示找到的4个角点，V_i,i＝1,2,3,4，(4)表示估计物体空间高度后画出的三维边界框。步骤3具体包括以下子步骤：

(3.1)将待解析的室内场景深度图的二维图像平面上的分割结果，投影到三维点云的坐标中。投影的计算方法与步骤(1.1.2)完全相同；

(3.2)将带有床面标签的像素点的三维坐标投影到xy平面，进行形态学运算(如开运算，先进行形态学腐蚀操作，再进行形态学膨胀操作)，滤除噪声点；

(3.3)找出沿x方向和y方向的坐标最大和最小的点，记为V_i,i＝1,2,3,4，表示床面的4个角点，依次连接V_i构成封闭的几何图形，在封闭图形内部所有点的法向量，代表该平面在空间中的朝向，因而可以表示在三维空间中，目标的姿态和结构信息；

(3.4)计算上平面与地面平面之间的距离，作为物体所占空间的高度h，利用V_i和h在三维空间坐标系中画出立体姿态估计立方体框。如图4所示，为本发明在卧室和医院病房实验的场景解析图，其中，第一行为输入深度图，第二行为对应的精细化解析结果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度图的室内场景精细化解析方法，其特征在于，包括：

所述三通道特征图中，每个通道图像的像素与所述待解析的室内场景深度图中的像素一一对应，三个通道分别表示视差值、距地面高度和法向量与重力方向夹角大小；

提取待解析的室内场景深度图的三通道特征图，包括：

(1.1.1)由

得到视差d和像素点对应深度值Z之间的关系；

(1.1.2)由

表示待解析的室内场景深度图二维平面的像素位置，

为深度相机的内参矩阵；

(1.1.3)由

与

构造平行集合N_II和垂直集合N_⊥，其中，

代表像素点的法向量，

表示重力方向，

为法向量和重力方向的夹角，ρ表示角度误差裕量；

(1.1.4)将求解的矩阵N_⊥N_⊥ ^T-N_IIN_II ^T的特征值作为更新后的重力向量，并采用更新后的重力向量继续执行步骤(1.1.3)直至特征值稳定不变，得到目标重力向量，并计算点云中每个像素的法向量和目标重力方向的夹角，其中，点云表示所有像素点对应的三维立体空间中的坐标(x，y，z)组成三维点云；

(1.1.5)以目标重力向量为基准轴，求取每个点沿目标重力向量的投影值，找到最低点，其他点沿目标重力向量的投影值和最低点的差值作为距地面高度；

2.根据权利要求1所述的方法，其特征在于，步骤(1)具体包括：

(1.1)将待解析的室内场景深度图I编码成三通道图I^E；

3.根据权利要求2所述的方法，其特征在于，步骤(1.4)具体包括：

其中l＝{1，2，...，C}表示类别标签，并将最大概率值

所对应的类别作为该像素点的初始类别标签，

为不考虑softmax层的全卷积网络最后一层的输出。

4.根据权利要求2或3所述的方法，其特征在于，步骤(2)具体包括：

(2.1)由条件概率

定义条件随机场分布，其中，X是由X₁，X₂，...，X_N组成的随机向量，X_i(i＝1，2，...，N)表示第i个像素点所属的初始类别标签，Z(I)＝∑_Xexp(-E(X|I))表示对所有可能情形的X对应的exp(·)项求和，E(x|I)表示条件随机场的总能量函数；

(2.2)由

得到总能量函数，其中，一元项

二元项

其中，p_i代表像素点i的位置，p_j代表像素点j的位置，超参数σ_α，σ_β和σ_γ表示控制高斯核的权重，用于指定对指定像素产生影响的邻近像素范围，w₁和w₂分别表示两个不同特征空间中高斯核函数分别所占的权重，P(x_i)表示像素点i对应的目标类别标签的最大概率值，I^E _i表示三通道图I^E的第i个像素点的值，I^E _j表示三通道图I^E的第j个像素点的值，x_i表示像素点i可能取的标签值，x_j表示像素点j可能取的标签值；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

由

得到全卷积网络的误差函数，其中，z表示全卷积网络最后一层的输出，N表示深度图中的像素总数，y_i∈{1，2，...，C}表示像素点i对应的人工标注的真实类别，C表示类别总数，