CN109685842B

CN109685842B - 一种基于多尺度网络的稀疏深度稠密化方法

Info

Publication number: CN109685842B
Application number: CN201811531022.5A
Authority: CN
Inventors: 刘光辉; 朱志鹏; 孙铁成; 李茹; 徐增荣
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-03-21
Anticipated expiration: 2038-12-14
Also published as: CN109685842A

Abstract

本发明公开了一种基于多尺度网络的稀疏深度稠密化方法。属于计算机视觉的深度估计技术领域。本发明使用多尺度卷积神经网络，将RGB图像数据和稀疏点云数据进行有效的融合，最终得出稠密的深度图像。将稀疏点云映射到二维平面生成稀疏深度图，并与RGB图像对齐，然后将稀疏深度图和RGB图像连接在一起生成RGBD图像，将RGBD图像输入到多尺度卷积神经网络进行训练和测试，最终估计出一个稠密的深度图。RGB图像和稀疏点云相结合的方式估计深度，可以让点云包含的距离信息去指导RGB图像转化为深度图；多尺度网络利用了原始数据不同分辨率的信息，一方面扩大了视野域，另一方面小分辨率上的输入深度图更稠密，可以获得更高的准确率。

Description

一种基于多尺度网络的稀疏深度稠密化方法

技术领域

本发明属于计算机视觉的深度估计领域，具体涉及一种基于多尺度卷积神经网络的稀疏深度稠密化方法。

背景技术

无人驾驶中，基于计算机视觉技术的感知***是最基础的部分。目前，无人驾驶感知***中最常使用的是基于可见光的摄像头，摄像头具有成本低，相关技术成熟等优点。但基于可见光的摄像头也存在明显缺点：其一，由摄像头拍摄的RGB图像只有颜色信息，如果目标纹理复杂，感知***容易判断失误。其二，在某些环境，基于可见光的摄像头会失效。例如光照不足的夜晚，摄像头很难正常进行工作。激光雷达也是无人驾驶感知***经常使用的传感器。激光雷达不易受光照条件的影响，其采集的点云数据具有三维特性，由点云数据可以直接得到深度图像，深度图像是将点云映射到二维平面形成的图像，每一个像素点的值表示该点到传感器的距离。相比于RGB图像，深度图像包含的距离信息对物体识别，分割等任务更有帮助。但激光雷达价格昂贵，并且采集的点云过于稀疏，生成的深度图也过于稀疏，一定程度影响了其使用效果。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种利用多尺度网络对稀疏深度进行稠密化的方法。

本发明的基于多尺度网络的稀疏深度稠密化方法，包括下列步骤：

构建多尺度网络模型：

所述多尺度网络模型包括L(L≥2)路输入分支支路，将L路分支支路的输出对应点相加后输入信息融合层，对信息融合层后接一个上采样处理层，作为多尺度网络模型的输出层；

其中，L路输入分支支路中，其中一路支路作为原始图像的输入；剩余L-1路作为原始图像进行不同下采样后得到的下采样图像的输入；且多尺度网络模型的输出层的输出图像与原始图像的尺寸相同；

且L路输入分支支路的输入数据包括：RGB图像和稀疏深度图；其中对于对原始图像的稀疏深度图的下采样方式为：对于稀疏深度图，基于预设的下采样倍数K，将稀疏深度图按照像素划分为网格，每个网格包含K×K个原始输入像素；并基于原始输入像素的深度值设置各原始输入像素的标记值s_i，若当前原始输入像素的深度值为0，则s_i＝0；否则s_i＝1；其中i为每个网格包括的K×K个原始输入像素的区分符；并根据公式

得到每个网格的深度值p_new，其中p_i表示原始输入像素i的深度值；

输入为原始图像的支路的网络结构为第一网络结构；

输入为原始图像的下采样图像的支路的网络结构为：在第一网络结构后增设K/2个16通道的上采样卷积块D，其中K表示对原始图像的下采样倍数；

所述第一网络结构包括十四层，分别为：

第一层为输入层和池化层，输入层的卷积核大小为7*7，通道数为64，卷积步长为2；池化层采用最大值池化，其卷积核大小为3*3，池化常数为2；

第二层和第三层结构相同，均为一个64通道的R¹残差卷积块；

第四层为一个128通道的R²残差卷积块；

第五层为一个128通道的R¹残差卷积块；

第六层为一个256通道的R²残差卷积块；

第七层为一个256通道的R¹残差卷积块；

第八层为一个512通道的R²残差卷积块；

第九层为一个512通道的R¹残差卷积块；

第十层为一个卷积层，其卷积核大小为3*3，通道数为256，卷积步长为1；

第十一层为128通道的上采样卷积块D，并将第十一层的输出与第七层的输出按照通道叠加后再输入第十二层；

第十二层为64通道的上采样卷积块D，并将第十二层的输出与第五层的输出按照通道叠加后再输入第十三层；

第十三层是32通道的上采样卷积块D，并将第十三层的输出与第三层的输出按照通道叠加后再输入第十四层；

第十四层为16通道的上采样卷积块D；

所述R¹残差卷积块包括两层相同结构的卷积层，其卷积核大小为3*3，卷积步长为1，通道数可调节；并将输入R¹残差卷积块的输入数据与第二层的输出对应点相加接入一个ReLU激活函数，作为R¹残差卷积块的输出层；

所述R²残差卷积块包括第一、第二和第三卷积层，输入R²残差卷积块的输入数据分别进入两条支路，再将两条支路的输出对应点相加接入一个ReLU激活函数，作为R²残差卷积块的输出层；其中一条支路为顺次连接的第一和第二卷积层，另一条支路为第三卷积层；

所述第一卷积层和第二卷积层的结构相同，均为卷积核大小为3*3，卷积步长为2，通道数可调节；第三卷积层为卷积核大小为3*3，卷积步长为1，通道数可调节；

所述上采样卷积块D包括两个放大模块和一个卷积层，其中输入上采样卷积块D的输入数据分别进入两条支路，再将两条支路的输出对应点相加接入一个ReLU激活函数，作为上采样卷积块D的输出层；其中一条支路为顺次连接的第一放大模块和卷积层，另一条支路为第二放大模块；

其中，上采样卷积块D的卷积层为：卷积核大小是3*3，卷积步长为1，通道数可调节；

上采样卷积块D的放大模块包括四个并列的卷积层，该四个卷积层的通道数设置为相同，卷积核大小分别为：3*3，3*2，2*3和2*2，且卷积步长均为1，输入放大模块的输入数据通过其四个卷积层后再拼接在一起，作为放大模块的输出；

所述信息融合模块为卷积核大小为3*3，通道数为1，卷积步长为1的卷积层；

对所构建的多尺度网络模型进行深度学习训练，并通过训练好的多尺度网络模型得到待处理图像的稠密化的处理结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明利用稀疏点云和图像相结合的方式估计深度，稀疏深度对RGB图像进行指导，RGB图像对稀疏深度进行补充，结合两种数据形式的优点，结合本发明所设置的多个尺度网络模型进行深度估计，提高了深度估计的准确率。

附图说明

图1是具体实施方式中，本发明的下采样示意图；

图2是具体实施方式中，残差卷积块示意图。其中图2-a是类型一残差卷积块，图2-b是类型二残差卷积块；

图3是具体实施方式中，上采样卷积块示意图。其中图3-a是放大模块示意图，图3-b是整个上采样卷积块示意图；

图4是具体实施方式中，所采用的多尺度网络结构示意图；

图5是具体实施方式中，本发明与现有处理方法的结果与对比结果图。其中图5-a为输入的RGB图像，图5-b为稀疏深度图；图5-c为现有方法对图5-b的深度估计；图5-d为本发明对图5-b的深度估计结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

为了满足特定场景(例如无人驾驶)对对深度图像质量要求较高的需求，本发明提出了一种利用多尺度网络对稀疏深度进行稠密化的方法。而现有的深度估计方法主要利用RGB图像直接得到稠密深度，但是由于二维图像直接估计深度图像存在内在模糊性，为了解决该问题，本发明利用稀疏点云和图像相结合的方式估计深度，稀疏深度对RGB图像进行指导，RGB图像对稀疏深度进行补充，结合两种数据形式的优点，同时在多个尺度下进行深度估计，提高了深度估计的准确率。

本发明使用多尺度卷积神经网络，将RGB图像数据和稀疏点云数据进行有效的融合，最终得出稠密的深度图像。将稀疏点云映射到二维平面生成稀疏深度图，并与RGB图像对齐，然后将稀疏深度图和RGB图像连接在一起生成RGBD(RGB+Depth Map)图像，将RGBD图像输入到多尺度卷积神经网络进行训练和测试，最终估计出一个稠密的深度图。RGB图像和稀疏点云相结合的方式估计深度，可以让点云包含的距离信息去指导RGB图像转化为深度图；多尺度网络利用了原始数据不同分辨率的信息，一方面扩大了视野域，另一方面小分辨率上的输入深度图更稠密，可以获得更高的准确率。

本发明提出的基于多尺度的稀疏深度稠密化方法的具体实现过程如下：

(1)输入数据下采样：

可行的下采样倍数与输入数据的大小有很大的关系。对于一张大小为M*N的输入图像而言，可行的下采样倍数范围为[2，min(M，N)*2^-5]。

采样的方式如下所述：用K表示所选择的下采样倍数，将输入稀疏深度图按照像素划分为网格，每个网格包含K*K个原始输入像素，则输入图像将被划分为

个网格。图1为下采样倍数为2时的示意图。将网格中的K*K个像素表示为像素集合P＝{p₁，p₂，...，p_K*K}。

由于稀疏深度图中存在深度为零的值，这些值被称为无效值。构建一个标记值s用来标记无效值，如果该像素点深度值不等于0则认为有效，令s等于1；否则为无效值，令s等于0。从而可以得到与像素集合P对应的标记值集合为S＝{s₁，s₂，...，s_K*K}。

经过上述下采样后的新的深度值为：

其中p_n表示原始像素点的深度值，s_n表示原始像素点的标记值。

对划分好的每个网格都进行上述操作，从而得到一个新的分辨率更小，更加稠密的深度图(简称小分辨率深度图)。相比于传统的降采样方法，该方式得到的小分辨率深度图更加稠密，由于剔除了无效值的影响，深度值也更加准确。RGB图像降采样则采用传统的双线性内插降采样方法。最终得到小分辨率的图像和稀疏深度图。

(2)构建残差卷积块：

残差卷积块是本发明的多尺度网络的重要组成部分，用于提取输入数据的特征，其分为两种类型。

类型一：残差卷积块R¹构建过程如下：如图2-a所示，残差卷积块的第一层是一个卷积层，其卷积核大小为3*3，通道数为n，卷积步长(stide)为1。第二层与第一层结构相同。然后将输入数据与第二层的输出对应点相加。最后接入一个ReLU激活函数。残差卷积块结构固定，但是卷积层的通道数可变，调整通道数可以得到不同的残差卷积块，据此将类型一残差卷积块命名为n通道R¹。R¹的输入输出大小一致，其中没有下采样的操作。

类型二：残差卷积块R²构建过程如下：如图2-b所示，残差卷积块的第一层是一个卷积层，其卷积核大小为3*3，通道数为n，卷积步长为2。第二层也是是一个卷积层，其卷积核大小为3*3，通道数为n，卷积步长为1。然后将输入数据通过一个卷积层，其卷积核大小为1*1，通道数为n，卷积步长为2，将该输出与第二层的输出对应点相加。最后接入一个ReLU激活函数。与R¹命名方式类似，将类型二残差卷积块命名为n通道R²。R²的输入大小是输出的两倍，该操作的目的是扩大卷积核的感受野，更好的提取全局特征。

(3)构建上采样卷积块：

上采样卷积块也是多尺度网络的重要部分，其作用是将输入放大，每一个上采样卷积块可以将输入放大一倍。其构建过程如下：上采样卷积块的基本模块是放大模块，如图3-a所示，放大模块由四个并列的卷积层构成，这四个卷积层的通道数都是n，卷积核大小分别是3*3，3*2，2*3和2*2，输入通过这四个卷积层后拼接在一起，输出相比于输入扩大了一倍。如图3-b所示，上采样卷积块由两个分支构成。分支一的第一层是一个通道数为n的放大模块，其后接一个ReLU激活函数，第二层是一个卷积层，其卷积核大小是3*3，通道数为n。分支二只有一层，该层是一个通道数为n的放大模块。分支一的输出与分支二的输出对应点相加，最后接入一个ReLU激活函数。与R¹，R²命名方式类似，将上采样卷积块命名为n通道D。

(4)构建多尺度卷积网络：

多尺度网络可以构建多个尺度，即可以构建多条支路，支路构建的数量与下采样倍数一样受到输入图像大小的影响，对于大小为M*N的图像而言，支路数量上限为log₂(min(M，N)*2^-5)+1。构建方法以两条支路为例，其要建立两条支路，一条支路的输入为原分辨率，另一条支路的输入为1/K原始分辨率，K为输入图像的下采样倍数。最后将两条支路进行信息融合。

第一条支路，即输入为原始分辨率的支路构建如下：

第一层为输入层和池化层，输入层的卷积核大小为7*7，通道数为64，卷积步长为2。池化层采用最大值池化，其卷积核大小为3*3，池化常数为2。原始输入的尺寸为M*N*4，通过第一层后尺寸变为

即大小变为原来的1/4，通道数变为64个。

第二层是一个64通道的R¹残差卷积块，记为R¹ ₁。

第三层结构与第二层相同，记为R¹ ₂。

第四层是一个128通道的R²残差卷积块记为R² ₁。

第五层是一个128通道的R¹残差卷积块，记为R¹ ₃。

第六层是一个256通道的R²残差卷积块，记为R² ₂。

第七层是一个256通道的R¹残差卷积块，记为R¹ ₄。

第八层是一个512通道的R²残差卷积块，记为R² ₃。

第九层是一个512通道的R¹残差卷积块，记为R¹ ₅。

第十层是一个卷积层，其卷积核大小为3*3，通道数为256，卷积步长为1。

第十一层为128通道的上采样卷积块D，记为D₁。

然后将D₁的输出与第七层R¹ ₄的输出按照通道叠加在一起，其中R¹ ₄的输出尺寸为

D₁的输出尺寸为

叠加后的尺寸变为

叠加的意义在于可以获取在卷积过程中丢失的一些原始信息，使得结果更准确。

第十二层为64通道的上采样卷积块D，记为D₂，然后将D₂的输出与R¹ ₃的输出按照通道叠加。

第十三层是32通道的上采样卷积块D，记为D₃，然后将D₃的输出与R¹ ₂的输出按照通道叠加。

第十四层为16通道的上采样卷积块D，记为D₄。

至此，输入为原分辨率的支路的网络结构构建完毕。

第二条支路，即输入为1/K原始分辨率的支路构建如下：

前十四层结构与输入为原始分辨率的支路完全相同，其后要根据支路的输入大小添加对应个数的16通道的上采样卷积块D。对于输入为1/K原始分辨率(下采样倍数为K)的支路而言，则要添加K/2个上采样卷积块。如图4为一个两条支路的情形，其中第二条支路输入为1/2原始分辨率(下采样倍数为2)的例子，其第二条支路要添加的上采样卷积块D的个数就是1个。多分辨率的情况与之类似，如果输入是1/4原始分辨率，则添加两个16通道的上采样卷积块，以此类推。

支路构建完成后，需要将这两条支路的信息进行融合，信息融合的结构如下：将第一条支路的输出与第二条支路的输出对应点相加，作为信息融合模块的输入。信息融合模块的网络结构为一个卷积层，其卷积核大小为3*3，通道数为1，最后将该层输出经过线性上采样得到大小和原始输入一样大小的最终结果。

多余多支路(两条以上)情况下的信息融合，则是：

(5)损失函数的设置：

本具体实施方式中，损失函数采用Smooth L1损失函数，即

其中d表示卷积神经网络估计出来的深度值，d^g表示标准的深度值，N表示一张深度图中像素个数的总和。

(6)模型的训练和测试：

本具体实施方式中，采用的训练数据来源于公开数据集NYU-Depth-v2 dataset。该数据集包含了RGB图像和稠密的深度图，其大小为640*480。训练过程选用了48000张RGB图像和其对应的稠密深度图作为训练数据；测试过程选用了654张RGB图像和其对应的稠密深度作为测试数据。网络的输入是一张RGB图像以及一张稀疏深度图，该数据集不存在稀疏深度图，可以通过对稠密深度图随机采样1000个点得到稀疏深度图，与RGB图像组合成RGBD图像作为输入。

训练时，将RGBD图像下采样成320*240大小，再进行中心切割得到304*228大小的RGBD图像(即输入多尺度网络模型的原始图像)，将该图像作为第一条支路的输入，然后将该图像按照步骤(1)所述的方法下采样两倍得到152*114大小的RGBD图像作为第二条支路的输入。一次训练8张图像，则训练完整个数据集需要6000次，将整个数据集训练15遍，则一共要训练90000次。训练时的学习率采用变化的学习率，初始学习率设置为0.01，数据集每训练完5遍，学习率下降10倍，最后学习率为0.0001。训练完毕后将模型的参数保存。

测试时，读取模型的参数，数据处理方式于训练过程相同，将处理后的数据输入到模型中，输出最终的结果。如图5所示，是本发明的输出结果和现有的深度学习方法的一些比较。整体来看，本发明的结果更清晰，从黑框中的结果比较可以看出，本发明的结果细节体现的更好。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于多尺度网络的稀疏深度稠密化方法，其特征在于，包括下列步骤：

构建多尺度网络模型：

所述多尺度网络模型包括L路输入分支支路，将L路分支支路的输出对应点相加后输入信息融合层，对信息融合层后接一个上采样处理层，作为多尺度网络模型的输出层；

输入为原始图像的支路的网络结构为第一网络结构；

所述第一网络结构包括十四层，分别为：

第四层为一个128通道的R²残差卷积块；

第五层为一个128通道的R¹残差卷积块；

第六层为一个256通道的R²残差卷积块；

第七层为一个256通道的R¹残差卷积块；

第八层为一个512通道的R²残差卷积块；

第九层为一个512通道的R¹残差卷积块；

第十四层为16通道的上采样卷积块D；

信息融合模块为卷积核大小为3*3，通道数为1，卷积步长为1的卷积层；

2.如权利要求1所述的方法，其特征在于，对原始图像的RGB图像的下采样方式为：采用双线性内插降采样方法。

3.如权利要求1所述的方法，其特征在于，对多尺度网络模型进行深度学习训练时，采用的损失函数为

其中d_j表示多尺度网络模型输出的各像素点的深度值，即估计值深度值，j为像素点区分符，

表示像素点的标准深度值，即训练样本的对应标签值，N表示一幅稀疏深度图的像素个数的总和。