CN110322499A

CN110322499A - 一种基于多层特征的单目图像深度估计方法

Info

Publication number: CN110322499A
Application number: CN201910614788.8A
Authority: CN
Inventors: 周武杰; 段婷; 叶绿; 何成; 雷景生
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-11
Anticipated expiration: 2039-07-09
Also published as: CN110322499B

Abstract

本发明公开了一种基于多层特征的单目图像深度估计方法。选取原始单目深度估计图像以及其对应已知的深度估计标签图并构成训练集，构建神经网络，将训练集输入到神经网络模型中进行训练，计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值；不断迭代训练从而完成神经网络模型的训练；利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理，输出获得对应的深度预测图。本发明实现了低、中、高层的特征图有效组合与不同层信息的有效互补，加快模型的运行速度，提高网络模型的效率，预测精确率提高，同时深度图的质量也进一步提升。

Description

一种基于多层特征的单目图像深度估计方法

技术领域

本发明涉及一种深度学习的深度预测方法，尤其是涉及一种基于多层特征的单目深度估计的方法。

背景技术

深度估计是计算机视觉一个重要的研究问题，深度估计是对图像深度信息的提取，深度信息反映了几何信息，是理解场景几何问题的重要组成部分，对三维场景重建起着重要的作用，目前获取深度信息主要有两种方法，即传统方法与深度学习，传统方法采用硬件设施进行提取，如激光测距仪、激光雷达等可以直接取得深度信息，设备价格较昂贵，且所测得的深度信息存在一定的误差，因此深度学习很大程度上解决了传统方法的问题，2014年，Eigen率先提出了利用卷积网络进行深度估计，其神经网络设计包含两个尺度，首先是对输入图片的全局深度进行粗估计，再经过局部细化部分，得到了精确的深度估计结果。其后，Eigen与Fergus等人又提出了新的网络模型，实现多任务统一，将深度估计、表面法线、语义标注体现在一个神经网络中，效果得到了明显的提升。

深度估计包括多目深度估计、双目深度估计以及单目深度估计，多目深度估计是通过对同一场景采用计算机阵列进行图像采集，利用视点图像之间出现冗余信息来进行深度信息的计算，能够获得较为准确的深度信息；双目深度估计是仿照人的双眼对深度感知，利用左右视差进行三角测距，而单目深度估计是基于单视点图像的深度估计，由于单视点图像在生活中应用广泛，因此单目深度估计更贴近于实际应用的需求，但单目深度估计的深度信息提取具有一定的难度，预测出的深度图，其准确性还需进一步提升。

发明内容

为了解决背景技术中存在的问题，本发明所要解决的技术问题是提供一种基于多层特征的单目图像深度估计方法，其预测出的深度图准确性较好。

本发明解决上述技术问题所采用的技术方案为：

步骤1_1：

选取N幅高度为H、宽度为W的原始单目深度估计图像以及原始单目深度估计图像对应的已知的深度估计标签图；深度估计标签图中的每个像素点代表为原始单目深度估计图像中对应位置相同的像素点的深度。

然后将所有原始单目深度估计图像及其对应的已知的深度估计标签图构成训练集，将训练集中的第n幅原始单目深度估计图像记为将第n幅原始单目图像对应的深度估计标签图记为具体实施中的原始单目深度估计图为生活中道路上拍摄的图像，包括行人、车、树、行驶的车辆、房屋等。其中，N为正整数，N≥100，W和H均能够被2整除，且n为正整数，n的初始值从1开始，1≤n≤N，1≤x≤W，1≤y≤H，表示坐标位置为(i,j)的像素点的像素值，表示坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建神经网络:

步骤1_3：将训练集中的每幅原始单目深度估计图像及其深度估计标签图输入到神经网络模型中进行训练：训练过程中，将每次迭代训练处理中得到的每幅原始单目深度估计图像的深度预测图，记为表示坐标位置为(i,j)的像素点的像素值，计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值，即计算与之间的损失函数值，记为采用Huber损失函数获得；不断迭代训练重复共V次，共得到N×V个损失函数值，然后从N×V个损失函数值中找出值最小的损失函数值作为模型参数，从而完成神经网络模型的训练；

步骤1_4：利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理，待测的单目深度估计图像输入到神经网络模型中，输出获得对应的深度预测图，实现单目图像深度估计。

所述步骤1_2中，所述的卷积神经网络包含输入层、隐层和输出层，隐层包括编码部分和解码部分；

编码部分由一个Resnet50块组成，Resnet50块由ResNet50模型去除全连接层构成，在ResNet50模型中的每个残差块conv_block后面均增加Dropout层，ResNet50模型中的激活层和残差映射块identity_block后的输出五个不同尺寸的特征图，五个特征图按照特征图尺寸从大到小依次为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5)；输出端三(C3)为中层特征图，输出端一(C1)和输出端二(C2)为低层特征图，输出端四(C4)和输出端五(C5)为高层特征图；

解码部分依次由第一个融合层、第二个融合层、第三个融合层、第一个卷积层、第四个融合层、第五个融合层、第六个融合层、第一个反卷积层、第二个反卷积层、第二个卷积层、第一个池化层、第三个卷积层、第一个神经网络块、第三个反卷积层构成；

解码部分有三个分支和后处理总支，三个分支分别为第一金字塔、第二金字塔和中层分支；第一金字塔主要由第一个融合层、第二个融合层、第三个融合层构成，通过第一金字塔将由Resnet50块输出的中层特征图经过不同大小的上采样与两种不同尺寸的低层特征图进行融合；第二金字塔主要由第四个融合层、第五个融合层、第六个融合层构成，通过第二金字塔将由Resnet50块输出的中层特征图经过不同大小的下采样与两种不同尺寸的高层特征图进行融合；中层分支由第一个卷积层构成；

第一个融合层接收输出端一(C1)、输出端二(C2)、输出端三(C3)的特征图，输出端三(C3)和输出端二(C2)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端一(C1)的特征图在第一个融合层进行融合F1、F2、F3，输出为特征图F12；

第二个融合层接收输出端二(C2)、输出端三(C3)的特征图，输出端三(C3)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端二(C2)的特征图在第二个融合层进行融合F32、F22，输出为特征图F13；

第三个融合层接收第一个融合层与第二个融合层输出的特征图，特征图F13经过双线性插值上采样和未经过双线性插值上采样的特征图F12在第三个融合层进行融合F12、F23，输出为特征图AA；

再将第三个融合层输出的特征图AA依次输入到第二个卷积层、第一个池化层，第一个池化层为最大池化层，处理输出获得特征图AAA；

第四个融合层接收输出端三(C3)、输出端四(C4)的特征图，输出端三(C3)的特征图经过最大池化下采样和未经过最大池化下采样的输出端四(C4)的特征图在第四个融合层进行融合F34、F41，输出为特征图F44；

第五个融合层接收输出端三(C3)、输出端四(C4)、输出端五(C5)的特征图，输出端三(C3)和输出端四(C4)的特征图经过最大池化下采样和未经过最大池化下采样的输出端五(C5)的特征图在第五个融合层进行融合F35、F45、F51，输出为特征图F56；

第六个融合层接收第四个融合层和第五个融合层输出的特征图，特征图F44经过最大池化下采样和未经过最大池化下采样的特征图F56在第六个融合层进行融合F46、F56，输出为特征图CC；

再将第六个融合层输出的特征图CC依次输入到第一个反卷积层、第二个反卷积层，第一个池化层为最大池化层，处理输出获得特征图CCC；

第一个卷积层接收输出端三(C3)的特征图进行卷积处理，输出特征图BBB；

后处理总支包括第三个卷积层、第一个神经网络块和第三个反卷积层；

将出特征图AAA、出特征图BBB、出特征图CCC相加输入到第三个卷积层，第三个卷积层输出到第一个神经网络块；

第一个神经网络块主要由依次连接的块反卷积层、四个分支的不同块卷积层、块融合层、sigmoid层、上采样层组成，四个块卷积层均由两个卷积层依次连接构成，块反卷积层的输出分别输入到四个块卷积层中，四个块卷积层的输出一起输入到块融合层进行融合，再经过sigmoid层和一个上采样因子为2的上采样层输出特征图到第三个反卷积层，由第三个反卷积层输出到输出层。

所述的解码部分中，六个融合层的融合方式均为图像拼接Concatenate，且每个Concatente后都通过一个卷积层，卷积核大小均为3×3，激活方式均为线性整流函数(Rectified Linear Unit,ReLU)，补零方式均为‘same’。

所述的输入层为输入一张彩色图像，即原始的单目深度估计图像，输入层的输出端输出单目深度估计图像图像给隐层，其中要求输入层的输入端接收的单目深度估计图像的通道数量为3、宽度为W、高度为H。三个通道对应为RGB颜色通道。

所述的输出层由一个卷积层组成，卷积层的卷积核个数为1，卷积核大小为3×3，步幅大小为1、激活方式为线性整流函数(Rectified Linear Unit,ReLU)；输出层接收隐层的第三个反卷积层中的所有特征图，输出层的输出端输出一幅与原始输入单目深度估计图像尺寸相同的深度预测图。

具体实施中，还进行测试阶段，过程具体步骤为：

步骤2_1：令待测试的单目深度估计图像，其中，1≤i′≤W′，1≤j′≤H′，W′表示的宽度，H′表示的高度，表示中坐标位置为(i′,j′)的像素点的像素值；

步骤2_2：将输入到神经网络模型中，并利用W^best和b^best进行预测，得到对应的单目深度估计预测图像，记为其中，表示中坐标位置为(i′,j′)的像素点的像素值。

本发明提出了一种新的神经网络模型，用于单目深度图像的深度估计。该模型利用金字塔结构的思想将特征信息在不同层进行传递，再将传递的特征信息与中层进行融合，实现了低、中、高层的特征图有效组合与不同层信息的有效互补。同时添加了一个新的神经网络块，不仅可以进行上采样，而且可以加快模型的运行速度，提高网络模型的效率。

并且，本发明处理中保存了loss函数最小时的权重用于测试，预测精确率提高，同时深度图的质量也进一步提升。

与现有技术相比，本发明的优点在于：

1)本发明方法采用金字塔型结构将中层特征信息与不同分辨率的低层特征进行融合，实现了中层与低层的深度信息传递，同时也将中层特征信息与不同分辨率的高层特征进行融合，实现了中层到高层的深度信息传递，避免了特征信息的缺失，实现了特征的传递。

2)本发明方法通过融合不同层次的特征图，将上下文信息结合在一起，保留了全局信息与局部信息，使不同层的特征信息互补。

3)本发明方法提出了一个新的上采样模块，既具备上采样功能，同时用不同卷积核大小将提的取水平、垂直方向特征信息进行组合，由于该模块具有四个分支，能加快模型运行的速度。

附图说明

图1为本发明方法中的神经网络总体结构框图。

图2为第一个神经网络块的结构图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明的具体实施例及其实施过程如下：

具体实施过程包括训练阶段和测试阶段两个过程：

训练阶段过程的具体步骤为：

步骤1_1：选取N幅高度为H，宽度为W的原始单目深度估计图像以及原始单目深度估计对应的深度估计标签图；然后将所有原始单目深度估计图像图像、原始单目深度估计图像对应的深度估计标签图构成训练集，将训练集中的第n幅原始单目深度估计图像记为将训练集中与之对应的深度估计标签图记为其中，N为正整数，N≥100，W和H均能够被2整除，且n为正整数，n的初始值从1开始，1≤n≤N，1≤x≤W，1≤y≤H，表示中坐标位置为(i,j)的像素点的像素值，表示中坐标位置为(i,j)的像素点的像素值。

步骤1_2：构建神经网络：卷积神经网络包含输入层、隐层、输出层，隐层包括编码部分和解码部分，编码部分由第一个Resnet50块组成，解码部分依次由第一个融合层、第二个融合层、第三个融合层、第一个卷积层、第四个融合层、第五个融合层、第六个融合层、第一个反卷积层、第二个反卷积层、第二个卷积层、第一个池化层、第三个卷积层、第一个神经网络块、第三个反卷积层构成；解码的起始部分有三个分支，第一金字塔，第二金字塔、中层分支；第一个融合层、第二个融合层、第三个融合层构成第一金字塔，由中层依次经过不同大小的上采样与低层不同尺寸的特征图进行融合；第三个融合层与第四个融合层、第五个融合层构成第二金字塔，由中层依次经过不同大小的下采样与高层不同尺寸的特征图进行融合；中层分支由第一个卷积层构成；

①对于输入层，输入一张彩色图像，即原始立单目深度估计图像，输入层的输出端输出单目深度估计图像图像给隐层，其中要求输入层的输入端接收的单目深度估计图像的通道数量为3、宽度为W、高度为H。

②对于编码部分，由第一个Resnet50块构成，第一个Resnet50块由官方的ResNet50模型去除全连接层构成，其它参数不变，并且在每个conv_block后面都加入了Dropout层，其更新率设置为0.3，将激活层、identity_block后的输出特征图依次记为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5)，输出端一输出的特征图大小，宽度为高度为输出端二输出的特征图大小，宽度为高度为输出端三输出的特征图大小，宽度为高度为输出端四输出的特征图大小，宽度为高度为输出端五输出的特征图大小，宽度为高度为

③对于解码部分：第一、二、三、四、五、六融合层的融合方式都为‘Concatenate’，且每个Concatente后都通过一个卷积层，卷积核大小均为3×3,激活方式均为‘relu’,补零方式均为‘same’。第一个融合层接收输出端一、二、三的特征图，C3通过双线性插值上采样，上采样因子为4，将其输出记为F3，C2通过双线性插值上采样，上采样因子为2，将其输出记为F2，为了便于统一，将C1记为F1，即第一个融合层融合F1、F2、F3，将其输出记为F12，输出特征图的尺寸大小宽度为高度为通道数为64；第二个融合层接受输出端二、三的特征图，C3通过双线性插值上采样，上采样因子为2，将其输出记为F32，为了便于统一，将C2记为F22，即第二个融合层融合F32、F22，将其输出记为F13，输出特征图的尺寸大小宽度为高度为通道数为128；第三个融合层接受第一个融合层与第二个融合层的输出特征图，第二个融合层的输出通过双线性插值上采样，上采样因子为2，将其输出记为F23，即第三个融合层融合F12、F23，将其输出记为AA，输出特征图的尺寸大小宽度为高度为通道数为64；第四个融合层接受输出端三、四的特征图，C3通过最大池化下采样，池化核的大小为3×3，步长为2，补零方式为‘same’，将其输出记为F34，为了便于统一，将C4记为F41，即第四个融合层融合F34、F41，其输出记为F44，输出特征图的尺寸大小宽度为高度为通道数为256；第五个融合层接受输出端三、四、五的特征图，C3通过最大池化下采样，池化核的大小为3×3，步长为4，补零方式为‘same’，将其输出记为F35，C4通过最大池化下采样，池化核的大小为3×3，步长为2，补零方式为‘same’将其输出记为F45，为了便于统一，将C5记为F51，即第五个融合层融合F35、F45、F51，将其输出记为F56，输出特征图的尺寸大小宽度为高度为通道数为512；第六个融合层接受第四个融合层和第五个融合层的输出，F44通过最大池化下采样，池化核的大小为3×3，步长为2，补零方式为‘same’将其输出记为F46，即第六个融合层融合F46、F56，将其输出记为CC，输出特征图的尺寸大小宽度为高度为通道数为512；再将第三个融合层的输出AA作为第二个卷积层的输入，卷积核大小均为3×3,步长为2，激活方式，为‘relu’,补零方式为‘same’，将其输出通过第一个池化层，第一个池化层为最大池化层，池化核的大小为3×3，步长为2，补零方式为‘same’，将其输出记为AAA，特征图的尺寸宽度为高度为通道数为128；

将第六个融合层的输出CC作为第一个反卷积层的输入，反卷积层的卷积核大小为2×2，步长为2，激活方式为‘relu’，补零方式为‘same’，输出的特征图大小再将其输出通过第二个反卷积层，反卷积层除通道数变为128，其它参数卷不变，输出特征图的尺寸宽度为高度为通道数为128，将其输出记为CCC；将C3通过第一个卷积层，卷积核大小均为3×3,步长为2，激活方式,为‘relu’,补零方式为‘same’，输出特征图的尺寸宽度为高度为通道数为128，将其输出记为BBB；再将AAA、BBB、CCC相加通过第三个卷积层，卷积核大小为1×1，输出特征图的尺寸宽度为高度为通道数为128；将其输出输入第一个神经网络块，第一个神经网络块从左至右有四个分支，且依次由反卷积层一、卷积层一、卷积层二、卷积层三、卷积层四、卷积层五、卷积层六、卷积层七、卷积层八、融合层一、激活层一、上采样层一组成，卷积层一、卷积层二为第一分支；卷积层三、卷积层四为第二分支；卷积层五、卷积层六为第三分支；卷积层七、卷积层八为第四分支；反卷积层一的卷积核大小为3×3，步长为2，补零方式为‘same’，每个分支的卷积层激活方式均为‘relu’，补零方式均为‘same’，且第一个分支2个卷积层的卷积核分别为1×7、7×1；第二个分支2个卷积层的卷积核分别为1×5、5×1；第三个分支2个卷积层的卷积核分别为1×3、3×1；第四个分支2个卷积层的卷积核均1×1；再将4个分支的输出进行融合，经过融合层一，融合的方式为Concatenate拼接，再经过激活层一，激活方式为‘sigmoid’；再通过一个上采样因子为2的上采样层一，输出特征图大小，宽度为高度为通道数为256；第三个反卷积层接收第一个神经网络块的输出，反卷积层的卷积核大小为2×2，步长为2，激活方式为‘relu’，补零方式为‘same’，输出的特征图大小为通道数量为32、宽度为W、高度为H。

④对于输出层，由一个卷积层组成，卷积层的卷积核个数为1，卷积核大小为3×3，步幅大小为1、激活方式为‘relu’。

输出层接收第三个反卷积中的所有特征图，输出层的输出端输出单通道的深度预测图；

步骤1_3：将训练集中的每幅原始的单目深度估计图像输入层的输入图像，将其输入到卷积神经网络中进行训练，得到训练集中的每幅原始的单目深度估计图像对应深度预测图，将对应的深度预测图记为且表示中坐标位置为(i,j)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的单目深度估计图像对应深度预测图与单目深度估计图像对应的真实标签构成的的损失函数值，将与之间的损失函数值记为其采用Huber损失函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，将神经网络模型训练好，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项作为模型的参数，对应记为W^best和b^best；其中，V>1；

测试阶段过程的具体步骤为：

为了验证本发明方法的可行性和有效性，进行实验。

在此，使用基于ubuntu18.04、python编程语言环境下的Keras2.2.4框架搭建神经网络模型结构。采用德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办自动驾驶场景评测的数据集KITTI来分析本发明方法的准确性。这里，使用单目深度估计方法的6个常用客观参量作为评价指标来进行评测，即：即rms(Root Mean Squared Error，均方根误差)、log_rms(Root Mean Squared Log Error，均方根对数误差)、log10(AverageLog₁₀Error，平均对数误差)以及阈值准确性：δ₁，δ₂，δ₃，均方根误差、均方根对数误差、平均对数误差的值越小，表示误差越小，阈值准确性越高越好，表示预测的结果越好。

本发明方法对交通测试场景KITTI测试集中的每一幅图都进行预测，得到每幅KITTI测试集中图片对应的深度估计图像，充分体现本发明方法的深度估计性能指标，即均方根误差rms、均方根对数误差log_rms、平均对数误差log10、阈值准确性δ₁，δ₂，δ₃如下表1所列。

表1利用本发明方法在测试集上的评测结果

rms	2.3900
		Log_rms	0.227
Log10	0.112
		δ<sub>1</sub>	0.702
δ<sub>2</sub>	0.955
		δ<sub>3</sub>	0.979

依据表1可得，按照本发明方法得到得深度图结果是较好的，充分的表明了本发明方法进行单目深度估计预测的深度图精确度较好。

Claims

1.一种基于多层特征的单目图像深度估计方法，其特征在于方法包括以下步骤：

步骤1_1：

选取N幅高度为H、宽度为W的原始单目深度估计图像以及原始单目深度估计图像对应的已知的深度估计标签图；

然后将所有原始单目深度估计图像及其对应的已知的深度估计标签图构成训练集，将训练集中的第n幅原始单目深度估计图像记为将第n幅原始单目图像对应的深度估计标签图记为其中，N为正整数，N≥100，W和H均能够被2整除，且n为正整数，n的初始值从1开始，1≤n≤N，1≤x≤W，1≤y≤H，表示坐标位置为(i,j)的像素点的像素值，表示坐标位置为(i,j)的像素点的像素值；

步骤1_2：构建神经网络:

步骤1_3：将训练集中的每幅原始单目深度估计图像及其深度估计标签图输入到神经网络模型中进行训练：训练过程中，将每次迭代训练处理中得到的每幅原始单目深度估计图像的深度预测图，记为表示坐标位置为(i,j)的像素点的像素值，计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值，记为采用Huber损失函数获得；不断迭代训练重复共V次，共得到N×V个损失函数值，然后从N×V个损失函数值中找出值最小的损失函数值作为模型参数，从而完成神经网络模型的训练；

步骤1_4：利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理，输出获得对应的深度预测图，实现单目图像深度估计。

2.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法，其特征在于：所述步骤1_2中，所述的卷积神经网络包含输入层、隐层和输出层，隐层包括编码部分和解码部分；

编码部分由一个Resnet50块组成，Resnet50块由ResNet50模型去除全连接层构成，在ResNet50模型中的每个残差块conv_block后面均增加Dropout层，ResNet50模型中的激活层和残差映射块identity_block后的输出五个不同尺寸的特征图，五个特征图按照特征图尺寸从大到小依次为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5)；

解码部分有三个分支和后处理总支，三个分支分别为第一金字塔、第二金字塔和中层分支；第一金字塔主要由第一个融合层、第二个融合层、第三个融合层构成，第二金字塔主要由第四个融合层、第五个融合层、第六个融合层构成，中层分支由第一个卷积层构成；

第一个融合层接收输出端一(C1)、输出端二(C2)、输出端三(C3)的特征图，输出端三(C3)和输出端二(C2)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端一(C1)的特征图在第一个融合层进行融合，输出为特征图F12；

第二个融合层接收输出端二(C2)、输出端三(C3)的特征图，输出端三(C3)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端二(C2)的特征图在第二个融合层进行融合，输出为特征图F13；

第三个融合层接收第一个融合层与第二个融合层输出的特征图，特征图F13经过双线性插值上采样和未经过双线性插值上采样的特征图F12在第三个融合层进行融合，输出为特征图AA；

再将第三个融合层输出的特征图AA依次输入到第二个卷积层、第一个池化层，处理输出获得特征图AAA；

第四个融合层接收输出端三(C3)、输出端四(C4)的特征图，输出端三(C3)的特征图经过最大池化下采样和未经过最大池化下采样的输出端四(C4)的特征图在第四个融合层进行融合，输出为特征图F44；

第五个融合层接收输出端三(C3)、输出端四(C4)、输出端五(C5)的特征图，输出端三(C3)和输出端四(C4)的特征图经过最大池化下采样和未经过最大池化下采样的输出端五(C5)的特征图在第五个融合层进行融合，输出为特征图F56；

第六个融合层接收第四个融合层和第五个融合层输出的特征图，特征图F44经过最大池化下采样和未经过最大池化下采样的特征图F56在第六个融合层进行融合，输出为特征图CC；

再将第六个融合层输出的特征图CC依次输入到第一个反卷积层、第二个反卷积层，处理输出获得特征图CCC；

3.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法，其特征在于：所述的解码部分中，六个融合层的融合方式均为图像拼接Concatenate，且每个Concatente后都通过一个卷积层，卷积核大小均为3×3，激活方式均为线性整流函数(Rectified LinearUnit,ReLU)，补零方式均为‘same’。

4.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法，其特征在于：所述的输入层为输入一张彩色图像，即原始的单目深度估计图像。

5.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法，其特征在于：所述的输出层由一个卷积层组成，卷积层的卷积核个数为1，卷积核大小为3×3，步幅大小为1、激活方式为线性整流函数(Rectified Linear Unit,ReLU)；输出层接收隐层的第三个反卷积层中的所有特征图，输出层的输出端输出一幅与原始输入单目深度估计图像尺寸相同的深度预测图。