CN112750155A

CN112750155A - 基于卷积神经网络的全景深度估计方法

Info

Publication number: CN112750155A
Application number: CN202110053166.XA
Authority: CN
Inventors: 何炳蔚; 邓清康; 胡誉生; 张立伟; 陈彦杰; 林立雄
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-04
Anticipated expiration: 2041-01-15
Also published as: CN112750155B

Abstract

本发明涉及一种基于卷积神经网络的全景深度估计方法，包括以下步骤：步骤S1:采集室外环境的RGB图像，深度图像，点云数据，并根据柱面投影原理将RGB图像以及深度图像拼接成为全景图像；步骤S2:构建卷积神经网络模型，并基于的得到全景图像训练，得到训练后的卷积神经网络模型；步骤S3:将待测的全景图像输入训练后的卷积神经网络模型，获得密集的全景深度预测图像。本发明能够调整优化全景图像的局部细节，从而估计出密集而且准确的全景深度图像。

Description

基于卷积神经网络的全景深度估计方法

技术领域

本发明属于图像识别和人工智能领域，具体涉及一种基于卷积神经网络的全景深度估计方法。

背景技术

深度估计是计算机视觉中的基本任务之一。随着计算机技术的发展，深度学习在计算机视觉领域取得了一系列突破性进展。由于其在机器人技术和计算机视觉的众多任务(例如自动驾驶，定位和地图绘制，路径规划和3D重建)中起着至关重要的作用，因此人们一直希望获得精确的3D感知。目前，已经提出了各种技术来获得深度估计，但是各种技术都不可避免的具有一些缺陷。例如，RGB-D相机仅适用于短距离深度采集；3D LIDAR仅提供稀疏的点云深度信息；立体相机无法在外观均匀或照明变化大的区域中产生可靠的深度估计。而且普遍存在的是，无论何种相机其深度估计的视场角度都受相机视场角度大小的限制。

发明内容

有鉴于此，本发明的目的在于提供一种基于卷积神经网络的全景深度估计方法，能够通过级联融合全景图像与LIDAR深度信息，并根据所提出的PDCBN(全景深度条件正则化)网络层，调整优化全景图像的局部细节，从而估计出密集而且准确的全景深度图像。

为实现上述目的，本发明采用如下技术方案：

一种基于卷积神经网络的全景深度估计方法，包括以下步骤：

步骤S1:采集室外环境的RGB图像，深度图像，点云数据，并根据柱面投影原理将RGB图像以及深度图像拼接成为全景图像；

步骤S2:构建卷积神经网络模型，并基于的得到全景图像训练，得到训练后的卷积神经网络模型；

步骤S3:将待测的全景图像输入训练后的卷积神经网络模型，获得密集的全景深度预测图像。

进一步的，所述步骤S1采用开放的城市模拟器Carla采集室外环境的RGB图像，深度图像，点云数据。

进一步的，所述步骤S1具体为：

步骤1-1：在开放的城市模拟器Carla的数据采集车上装载若干个RGB相机，若干个深度相机，一个64线LIDAR，深度相机与RGB相机对应，形成360°全景视野，并在Carla中操控数据采集车，采集室外环境下的RGB图像，深度图像，点云数据；

步骤1-2：基于柱面投影原理，将每张RGB图像，深度图像柱面投影，根据柱面投影后的重合区域，缝合成为全景图像；

步骤1-3:将缝合的图像裁剪成预设比例的全景图像。

进一步的，所述步骤S1-2具体为：设定单张图像为四边形ABCD，表示待处理平面，柱面投影之后，变成曲面EFGE1F1G1；

设原图像宽为w,高为h，相机视场角度为α，则相机焦距f表示为：

f＝w/(2*tan(α/2)) (1)

图像上某像素点位置为(x,y)，则柱面投影后的像素点坐标为(x₁,y₁)：

图像柱面投影后，根据单个相机与左右相邻相机重合视场角度θ，缝合成全景图像。

进一步的，所述步骤S2具体为：

步骤2-1:构建待训练的卷积神经网络模型，以全景RGB图像和从LIDAR投影的稀疏全景深度图像作为输入；

步骤2-2:使用反向传播算法计算损失函数损失值，通过迭代计算减小误差进行参数学习，使预测值逼近真实值，获得训练后的卷积神经网络模型。

进一步的，所述卷积神经网络模型每一层网络依次执行卷积、全景条件正则化、激活、池化操作，使用ReLU激活函数:

设输入的融合特征尺寸大小为C×H×W，最小批次λ＝[F_i]，全景深度条件正则化网络层定义为：

其中，ε是数值稳定性小常数，α_i,c,h,w,β_i,c,h,w是可学习参数。

设定LIDAR深度信息为函数

由于产生的新参数依赖于LIDAR深度信息，因此，网络层命名为PDCBN；

在不同位置具有不同的像素值，在映射的过程中应该按照像素依次映射；设定s_c与y_c函数：

在函数s_c与y_c中，给定全景LIDAR深度图像中的一点

如果该点从LIDAR投影到全景图像中存在，那么认定该点是有效的，通过PDCBN网络层来增强或者抑制

的深度值；反之，该点是无效点，则使用普通的BN网络层处理。

进一步的，所述卷积神经网络模型使用深度真实值d_tru与模型对像素预测值d_pre的绝对误差来训练模型，并根据LIDAR的稀疏深度真实值，对有效像素N上的损失进行平均，损失函数定义为：

本发明与现有技术相比具有以下有益效果：

本发明能够通过级联融合全景图像与LIDAR深度信息，并根据所提出的PDCBN(全景深度条件正则化)网络层，调整优化全景图像的局部细节，从而估计出密集而且准确的全景深度图像。

附图说明

图1是本发明实施例整体流程示意图；

图2是本发明中柱面投影原理示意图；

图3是本发明中柱面投影示意图：(a)是柱面投影的俯视图，(b)是柱面投影的侧视图；

图4是本发明中柱面投影后全景图像缝合效果示例：(a)是全景RGB图像，(b)是真实的全景深度图像；

图5是本发明中卷积神经网络结构示意图；

图6是本发明全景深度估计定性结果示例，从上到下依次为全景RGB图像，从LIDAR投影的稀疏全景深度图像，估计的全景深度图像，真实的全景深度图像，全景深度误差图像。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于卷积神经网络的全景深度估计方法，包括如下步骤：

步骤S1：通过开放的城市模拟器Carla采集室外环境的RGB图像，深度图像，点云数据，根据柱面投影原理将RGB图像以及深度图像拼接成为全景图像，生成的数据集划分为训练集和测试集(90/10％)；

步骤S2：构建待训练的卷积神经网络模型，以全景RGB图像和从LIDAR投影的稀疏全景深度图像作为输入，使用反向传播算法计算损失函数损失值，通过迭代计算减小误差进行参数学习，使预测值逼近真实值，从而获得卷积神经网络的最佳权重模型；

步骤S3：加载步骤S2训练好的权重模型，将划分的全景测试集输入用于全景深度估计的卷积神经网络模型，获得密集的全景深度预测图像。

在本实施例中，步骤S1具体处理过程如下：

1)在开放的城市模拟器Carla的数据采集车上装载5个RGB相机，5个深度相机，一个64线LIDAR，深度相机与RGB相机对应，视场角为90°，每个相机旋转72°安装，形成360°全景视野。然后在Carla中操控数据采集车，采集室外环境下的RGB图像，深度图像，点云数据；

2)如图2所示是图像柱面投影原理的示意图。图像平面为四边形ABCD，并表示待处理平面，柱面投影之后，变成曲面EFGE1F1G1。假设图像上某像素点位置为(x,y)，则柱面投影后的像素点位置为(x₁,y₁)；

图3(a)所示的是柱面投影原理的俯视图，可以推出该像素点x值的投影变化过程：

其中，w表示图像的宽度，即线段AB的长度，θ表示Ox与线段Ow的夹角，f表示相机的焦距，α表示相机视场角度，大小为90°，w₁表示柱面投影变换后图像的宽度，x₁表示x柱面投影后的位置。

将公式(1)(2)带入公式(3)变换可得，点x投影变换后的位置x₁：

图3(b)所示的是柱面投影原理的侧视图，可以推出该像素点y值的投影变化过程，由三角形相似可以推出：

其中，h表示图像的高度，即线段BC的长度，f表示相机的焦距，θ表示Ox与线段Ow的夹角，h₁表示柱面投影变换后图像的高度，高度不变，y₁表示y柱面投影后的位置。并且存在：

因此，将公式(6)带入公式(5)得到，点y投影变换后的位置y₁：

上述就是图像柱面投影具体的计算过程，图像柱面投影后，根据单个相机与左右相邻相机重合视场角度为9°，缝合成全景图像。全景图像缝合示例效果如图4所示。

3)将缝合的图像裁剪成256×3840的全景图像，形成一个室外环境的综合数据集。其中90％划为训练集，10％划为测试集。

如图5所示的是本发明的卷积神经网络结构，上述步骤2是依据所提出的卷积神经网络结构，构建待训练的卷积神经网络模型。

本实施例中，全景深度估计的卷积神经网络是一个端对端的深度学习框架，该框架以全景彩色图像和从LIDAR投影的稀疏全景深度图像作为输入，输出密集的全景深度图像。

整个网络主要由两个路径组成：粗尺度网络路径与PDCBN网络优化路径。粗尺度网络路径，首先融合输入的全景彩色图像和稀疏LIDAR深度图像，实现在全局级别上预测场景的全景深度。然后，PDCBN网络优化路径根据LIDAR深度值自适应的调整优化局部细节。

因此，神经网络模型可以编辑全局预测并合并更精细的细节，从而生成密集而准确地全景深度图像。其网络具体处理过程如以下步骤：

1)网络结构级联融合输入的全景RGB图像和从LIDAR投影的稀疏全景深度图像。

2)每一层网络依次执行卷积、全景条件正则化(PDCBN)、激活、池化操作，使用ReLU激活函数:

设输入的融合特征尺寸大小为C×H×W，最小批次λ＝[F_i]。这时，所提出的全景深度条件正则化网络层定义为：

其中，ε是数值稳定性小常数，α_i,c,h,w,β_i,c,h,w是可学习参数。当模型训练运用到PDCBN时，通过映射LIDAR深度信息产生新的参数α，β。设定LIDAR深度信息为函数

由于产生的新参数依赖于LIDAR深度信息，因此，网络层命名为PDCBN。

在不同位置具有不同的像素值，所以在映射的过程中应该按照像素依次映射；并且LIDAR深度信息是不连续的，因此需要设定一种策略来处理稀疏深度图像中包含的深度信息。通过设定s_c与y_c函数解决上述问题：

在函数s_c与y_c中，给定全景LIDAR深度图像中的一点

的深度值；反之，该点是无效点，则使用普通的BN网络层处理。这样就完成了按像素依次映射全景LIDAR深度，从而自适应的调整优化局部深度值。

3)构建待训练的卷积神经网络模型中，设定损失函数。使用深度真实值d_tru与模型对像素预测值d_pre的绝对误差来训练模型。根据LIDAR的稀疏深度真实值，对有效像素N上的损失进行平均。所以损失函数定义为：

上述步骤3就是将测试数据输入上述步骤2训练好的权重模型，输入的全景图像分辨率为256×3840，输出的密集全景深度图在细节恢复和更深的场景中深度重建质量良好，补全的全景深度图像如图6所示。

优选的，在本实施例中，设置了对预测得到的全景深度图像的评价指标，具体包括：均方根误差(RMSE)，平均绝对误差(MAE)，反深度的均方根误差(iRMSE)和反深度的平均绝对误差(iMAE)，其中RMSE是最重要的指标。

根据四个评价指标对测试的全景深度图像进行误差评估，实验评价误差结果如表1所示。

表1：误差评估

优选的，在本实施例中，神经网络模型训练的操作***为Ubuntu16.04，显卡型号为NVIDIA Tesla M40，使用PyTorch1.0，深度学习框架和Python3.5程序语言。在实际训练过程中进行20次循环训练，选择RMSProp迭代优化器，设置参数alpha＝0.9，学习率设置为0.001。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。