CN110322499A - 一种基于多层特征的单目图像深度估计方法 - Google Patents

一种基于多层特征的单目图像深度估计方法 Download PDF

Info

Publication number
CN110322499A
CN110322499A CN201910614788.8A CN201910614788A CN110322499A CN 110322499 A CN110322499 A CN 110322499A CN 201910614788 A CN201910614788 A CN 201910614788A CN 110322499 A CN110322499 A CN 110322499A
Authority
CN
China
Prior art keywords
layer
depth
characteristic pattern
output end
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910614788.8A
Other languages
English (en)
Other versions
CN110322499B (zh
Inventor
周武杰
段婷
叶绿
何成
雷景生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN201910614788.8A priority Critical patent/CN110322499B/zh
Publication of CN110322499A publication Critical patent/CN110322499A/zh
Application granted granted Critical
Publication of CN110322499B publication Critical patent/CN110322499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层特征的单目图像深度估计方法。选取原始单目深度估计图像以及其对应已知的深度估计标签图并构成训练集,构建神经网络,将训练集输入到神经网络模型中进行训练,计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值;不断迭代训练从而完成神经网络模型的训练;利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理,输出获得对应的深度预测图。本发明实现了低、中、高层的特征图有效组合与不同层信息的有效互补,加快模型的运行速度,提高网络模型的效率,预测精确率提高,同时深度图的质量也进一步提升。

Description

一种基于多层特征的单目图像深度估计方法
技术领域
本发明涉及一种深度学习的深度预测方法,尤其是涉及一种基于多层特征的单目深度估计的方法。
背景技术
深度估计是计算机视觉一个重要的研究问题,深度估计是对图像深度信息的提取,深度信息反映了几何信息,是理解场景几何问题的重要组成部分,对三维场景重建起着重要的作用,目前获取深度信息主要有两种方法,即传统方法与深度学习,传统方法采用硬件设施进行提取,如激光测距仪、激光雷达等可以直接取得深度信息,设备价格较昂贵,且所测得的深度信息存在一定的误差,因此深度学习很大程度上解决了传统方法的问题,2014年,Eigen率先提出了利用卷积网络进行深度估计,其神经网络设计包含两个尺度,首先是对输入图片的全局深度进行粗估计,再经过局部细化部分,得到了精确的深度估计结果。其后,Eigen与Fergus等人又提出了新的网络模型,实现多任务统一,将深度估计、表面法线、语义标注体现在一个神经网络中,效果得到了明显的提升。
深度估计包括多目深度估计、双目深度估计以及单目深度估计,多目深度估计是通过对同一场景采用计算机阵列进行图像采集,利用视点图像之间出现冗余信息来进行深度信息的计算,能够获得较为准确的深度信息;双目深度估计是仿照人的双眼对深度感知,利用左右视差进行三角测距,而单目深度估计是基于单视点图像的深度估计,由于单视点图像在生活中应用广泛,因此单目深度估计更贴近于实际应用的需求,但单目深度估计的深度信息提取具有一定的难度,预测出的深度图,其准确性还需进一步提升。
发明内容
为了解决背景技术中存在的问题,本发明所要解决的技术问题是提供一种基于多层特征的单目图像深度估计方法,其预测出的深度图准确性较好。
本发明解决上述技术问题所采用的技术方案为:
步骤1_1:
选取N幅高度为H、宽度为W的原始单目深度估计图像以及原始单目深度估计图像对应的已知的深度估计标签图;深度估计标签图中的每个像素点代表为原始单目深度估计图像中对应位置相同的像素点的深度。
然后将所有原始单目深度估计图像及其对应的已知的深度估计标签图构成训练集,将训练集中的第n幅原始单目深度估计图像记为将第n幅原始单目图像对应的深度估计标签图记为具体实施中的原始单目深度估计图为生活中道路上拍摄的图像,包括行人、车、树、行驶的车辆、房屋等。其中,N为正整数,N≥100,W和H均能够被2整除,且n为正整数,n的初始值从1开始,1≤n≤N,1≤x≤W,1≤y≤H,表示坐标位置为(i,j)的像素点的像素值,表示坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络:
步骤1_3:将训练集中的每幅原始单目深度估计图像及其深度估计标签图输入到神经网络模型中进行训练:训练过程中,将每次迭代训练处理中得到的每幅原始单目深度估计图像的深度预测图,记为 表示坐标位置为(i,j)的像素点的像素值,计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值,即计算之间的损失函数值,记为采用Huber损失函数获得;不断迭代训练重复共V次,共得到N×V个损失函数值,然后从N×V个损失函数值中找出值最小的损失函数值作为模型参数,从而完成神经网络模型的训练;
步骤1_4:利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理,待测的单目深度估计图像输入到神经网络模型中,输出获得对应的深度预测图,实现单目图像深度估计。
所述步骤1_2中,所述的卷积神经网络包含输入层、隐层和输出层,隐层包括编码部分和解码部分;
编码部分由一个Resnet50块组成,Resnet50块由ResNet50模型去除全连接层构成,在ResNet50模型中的每个残差块conv_block后面均增加Dropout层,ResNet50模型中的激活层和残差映射块identity_block后的输出五个不同尺寸的特征图,五个特征图按照特征图尺寸从大到小依次为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5);输出端三(C3)为中层特征图,输出端一(C1)和输出端二(C2)为低层特征图,输出端四(C4)和输出端五(C5)为高层特征图;
解码部分依次由第一个融合层、第二个融合层、第三个融合层、第一个卷积层、第四个融合层、第五个融合层、第六个融合层、第一个反卷积层、第二个反卷积层、第二个卷积层、第一个池化层、第三个卷积层、第一个神经网络块、第三个反卷积层构成;
解码部分有三个分支和后处理总支,三个分支分别为第一金字塔、第二金字塔和中层分支;第一金字塔主要由第一个融合层、第二个融合层、第三个融合层构成,通过第一金字塔将由Resnet50块输出的中层特征图经过不同大小的上采样与两种不同尺寸的低层特征图进行融合;第二金字塔主要由第四个融合层、第五个融合层、第六个融合层构成,通过第二金字塔将由Resnet50块输出的中层特征图经过不同大小的下采样与两种不同尺寸的高层特征图进行融合;中层分支由第一个卷积层构成;
第一个融合层接收输出端一(C1)、输出端二(C2)、输出端三(C3)的特征图,输出端三(C3)和输出端二(C2)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端一(C1)的特征图在第一个融合层进行融合F1、F2、F3,输出为特征图F12;
第二个融合层接收输出端二(C2)、输出端三(C3)的特征图,输出端三(C3)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端二(C2)的特征图在第二个融合层进行融合F32、F22,输出为特征图F13;
第三个融合层接收第一个融合层与第二个融合层输出的特征图,特征图F13经过双线性插值上采样和未经过双线性插值上采样的特征图F12在第三个融合层进行融合F12、F23,输出为特征图AA;
再将第三个融合层输出的特征图AA依次输入到第二个卷积层、第一个池化层,第一个池化层为最大池化层,处理输出获得特征图AAA;
第四个融合层接收输出端三(C3)、输出端四(C4)的特征图,输出端三(C3)的特征图经过最大池化下采样和未经过最大池化下采样的输出端四(C4)的特征图在第四个融合层进行融合F34、F41,输出为特征图F44;
第五个融合层接收输出端三(C3)、输出端四(C4)、输出端五(C5)的特征图,输出端三(C3)和输出端四(C4)的特征图经过最大池化下采样和未经过最大池化下采样的输出端五(C5)的特征图在第五个融合层进行融合F35、F45、F51,输出为特征图F56;
第六个融合层接收第四个融合层和第五个融合层输出的特征图,特征图F44经过最大池化下采样和未经过最大池化下采样的特征图F56在第六个融合层进行融合F46、F56,输出为特征图CC;
再将第六个融合层输出的特征图CC依次输入到第一个反卷积层、第二个反卷积层,第一个池化层为最大池化层,处理输出获得特征图CCC;
第一个卷积层接收输出端三(C3)的特征图进行卷积处理,输出特征图BBB;
后处理总支包括第三个卷积层、第一个神经网络块和第三个反卷积层;
将出特征图AAA、出特征图BBB、出特征图CCC相加输入到第三个卷积层,第三个卷积层输出到第一个神经网络块;
第一个神经网络块主要由依次连接的块反卷积层、四个分支的不同块卷积层、块融合层、sigmoid层、上采样层组成,四个块卷积层均由两个卷积层依次连接构成,块反卷积层的输出分别输入到四个块卷积层中,四个块卷积层的输出一起输入到块融合层进行融合,再经过sigmoid层和一个上采样因子为2的上采样层输出特征图到第三个反卷积层,由第三个反卷积层输出到输出层。
所述的解码部分中,六个融合层的融合方式均为图像拼接Concatenate,且每个Concatente后都通过一个卷积层,卷积核大小均为3×3,激活方式均为线性整流函数(Rectified Linear Unit,ReLU),补零方式均为‘same’。
所述的输入层为输入一张彩色图像,即原始的单目深度估计图像,输入层的输出端输出单目深度估计图像图像给隐层,其中要求输入层的输入端接收的单目深度估计图像的通道数量为3、宽度为W、高度为H。三个通道对应为RGB颜色通道。
所述的输出层由一个卷积层组成,卷积层的卷积核个数为1,卷积核大小为3×3,步幅大小为1、激活方式为线性整流函数(Rectified Linear Unit,ReLU);输出层接收隐层的第三个反卷积层中的所有特征图,输出层的输出端输出一幅与原始输入单目深度估计图像尺寸相同的深度预测图。
具体实施中,还进行测试阶段,过程具体步骤为:
步骤2_1:令待测试的单目深度估计图像,其中,1≤i′≤W′,1≤j′≤H′,W′表示的宽度,H′表示的高度,表示中坐标位置为(i′,j′)的像素点的像素值;
步骤2_2:将输入到神经网络模型中,并利用Wbest和bbest进行预测,得到对应的单目深度估计预测图像,记为其中,表示中坐标位置为(i′,j′)的像素点的像素值。
本发明提出了一种新的神经网络模型,用于单目深度图像的深度估计。该模型利用金字塔结构的思想将特征信息在不同层进行传递,再将传递的特征信息与中层进行融合,实现了低、中、高层的特征图有效组合与不同层信息的有效互补。同时添加了一个新的神经网络块,不仅可以进行上采样,而且可以加快模型的运行速度,提高网络模型的效率。
并且,本发明处理中保存了loss函数最小时的权重用于测试,预测精确率提高,同时深度图的质量也进一步提升。
与现有技术相比,本发明的优点在于:
1)本发明方法采用金字塔型结构将中层特征信息与不同分辨率的低层特征进行融合,实现了中层与低层的深度信息传递,同时也将中层特征信息与不同分辨率的高层特征进行融合,实现了中层到高层的深度信息传递,避免了特征信息的缺失,实现了特征的传递。
2)本发明方法通过融合不同层次的特征图,将上下文信息结合在一起,保留了全局信息与局部信息,使不同层的特征信息互补。
3)本发明方法提出了一个新的上采样模块,既具备上采样功能,同时用不同卷积核大小将提的取水平、垂直方向特征信息进行组合,由于该模块具有四个分支,能加快模型运行的速度。
附图说明
图1为本发明方法中的神经网络总体结构框图。
图2为第一个神经网络块的结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明的具体实施例及其实施过程如下:
具体实施过程包括训练阶段和测试阶段两个过程:
训练阶段过程的具体步骤为:
步骤1_1:选取N幅高度为H,宽度为W的原始单目深度估计图像以及原始单目深度估计对应的深度估计标签图;然后将所有原始单目深度估计图像图像、原始单目深度估计图像对应的深度估计标签图构成训练集,将训练集中的第n幅原始单目深度估计图像记为将训练集中与之对应的深度估计标签图记为其中,N为正整数,N≥100,W和H均能够被2整除,且n为正整数,n的初始值从1开始,1≤n≤N,1≤x≤W,1≤y≤H,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值。
步骤1_2:构建神经网络:卷积神经网络包含输入层、隐层、输出层,隐层包括编码部分和解码部分,编码部分由第一个Resnet50块组成,解码部分依次由第一个融合层、第二个融合层、第三个融合层、第一个卷积层、第四个融合层、第五个融合层、第六个融合层、第一个反卷积层、第二个反卷积层、第二个卷积层、第一个池化层、第三个卷积层、第一个神经网络块、第三个反卷积层构成;解码的起始部分有三个分支,第一金字塔,第二金字塔、中层分支;第一个融合层、第二个融合层、第三个融合层构成第一金字塔,由中层依次经过不同大小的上采样与低层不同尺寸的特征图进行融合;第三个融合层与第四个融合层、第五个融合层构成第二金字塔,由中层依次经过不同大小的下采样与高层不同尺寸的特征图进行融合;中层分支由第一个卷积层构成;
①对于输入层,输入一张彩色图像,即原始立单目深度估计图像,输入层的输出端输出单目深度估计图像图像给隐层,其中要求输入层的输入端接收的单目深度估计图像的通道数量为3、宽度为W、高度为H。
②对于编码部分,由第一个Resnet50块构成,第一个Resnet50块由官方的ResNet50模型去除全连接层构成,其它参数不变,并且在每个conv_block后面都加入了Dropout层,其更新率设置为0.3,将激活层、identity_block后的输出特征图依次记为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5),输出端一输出的特征图大小,宽度为高度为输出端二输出的特征图大小,宽度为高度为输出端三输出的特征图大小,宽度为高度为输出端四输出的特征图大小,宽度为高度为输出端五输出的特征图大小,宽度为高度为
③对于解码部分:第一、二、三、四、五、六融合层的融合方式都为‘Concatenate’,且每个Concatente后都通过一个卷积层,卷积核大小均为3×3,激活方式均为‘relu’,补零方式均为‘same’。第一个融合层接收输出端一、二、三的特征图,C3通过双线性插值上采样,上采样因子为4,将其输出记为F3,C2通过双线性插值上采样,上采样因子为2,将其输出记为F2,为了便于统一,将C1记为F1,即第一个融合层融合F1、F2、F3,将其输出记为F12,输出特征图的尺寸大小宽度为高度为通道数为64;第二个融合层接受输出端二、三的特征图,C3通过双线性插值上采样,上采样因子为2,将其输出记为F32,为了便于统一,将C2记为F22,即第二个融合层融合F32、F22,将其输出记为F13,输出特征图的尺寸大小宽度为高度为通道数为128;第三个融合层接受第一个融合层与第二个融合层的输出特征图,第二个融合层的输出通过双线性插值上采样,上采样因子为2,将其输出记为F23,即第三个融合层融合F12、F23,将其输出记为AA,输出特征图的尺寸大小宽度为高度为通道数为64;第四个融合层接受输出端三、四的特征图,C3通过最大池化下采样,池化核的大小为3×3,步长为2,补零方式为‘same’,将其输出记为F34,为了便于统一,将C4记为F41,即第四个融合层融合F34、F41,其输出记为F44,输出特征图的尺寸大小宽度为高度为通道数为256;第五个融合层接受输出端三、四、五的特征图,C3通过最大池化下采样,池化核的大小为3×3,步长为4,补零方式为‘same’,将其输出记为F35,C4通过最大池化下采样,池化核的大小为3×3,步长为2,补零方式为‘same’将其输出记为F45,为了便于统一,将C5记为F51,即第五个融合层融合F35、F45、F51,将其输出记为F56,输出特征图的尺寸大小宽度为高度为通道数为512;第六个融合层接受第四个融合层和第五个融合层的输出,F44通过最大池化下采样,池化核的大小为3×3,步长为2,补零方式为‘same’将其输出记为F46,即第六个融合层融合F46、F56,将其输出记为CC,输出特征图的尺寸大小宽度为高度为通道数为512;再将第三个融合层的输出AA作为第二个卷积层的输入,卷积核大小均为3×3,步长为2,激活方式,为‘relu’,补零方式为‘same’,将其输出通过第一个池化层,第一个池化层为最大池化层,池化核的大小为3×3,步长为2,补零方式为‘same’,将其输出记为AAA,特征图的尺寸宽度为高度为通道数为128;
将第六个融合层的输出CC作为第一个反卷积层的输入,反卷积层的卷积核大小为2×2,步长为2,激活方式为‘relu’,补零方式为‘same’,输出的特征图大小再将其输出通过第二个反卷积层,反卷积层除通道数变为128,其它参数卷不变,输出特征图的尺寸宽度为高度为通道数为128,将其输出记为CCC;将C3通过第一个卷积层,卷积核大小均为3×3,步长为2,激活方式,为‘relu’,补零方式为‘same’,输出特征图的尺寸宽度为高度为通道数为128,将其输出记为BBB;再将AAA、BBB、CCC相加通过第三个卷积层,卷积核大小为1×1,输出特征图的尺寸宽度为高度为通道数为128;将其输出输入第一个神经网络块,第一个神经网络块从左至右有四个分支,且依次由反卷积层一、卷积层一、卷积层二、卷积层三、卷积层四、卷积层五、卷积层六、卷积层七、卷积层八、融合层一、激活层一、上采样层一组成,卷积层一、卷积层二为第一分支;卷积层三、卷积层四为第二分支;卷积层五、卷积层六为第三分支;卷积层七、卷积层八为第四分支;反卷积层一的卷积核大小为3×3,步长为2,补零方式为‘same’,每个分支的卷积层激活方式均为‘relu’,补零方式均为‘same’,且第一个分支2个卷积层的卷积核分别为1×7、7×1;第二个分支2个卷积层的卷积核分别为1×5、5×1;第三个分支2个卷积层的卷积核分别为1×3、3×1;第四个分支2个卷积层的卷积核均1×1;再将4个分支的输出进行融合,经过融合层一,融合的方式为Concatenate拼接,再经过激活层一,激活方式为‘sigmoid’;再通过一个上采样因子为2的上采样层一,输出特征图大小,宽度为高度为通道数为256;第三个反卷积层接收第一个神经网络块的输出,反卷积层的卷积核大小为2×2,步长为2,激活方式为‘relu’,补零方式为‘same’,输出的特征图大小为通道数量为32、宽度为W、高度为H。
④对于输出层,由一个卷积层组成,卷积层的卷积核个数为1,卷积核大小为3×3,步幅大小为1、激活方式为‘relu’。
输出层接收第三个反卷积中的所有特征图,输出层的输出端输出单通道的深度预测图;
步骤1_3:将训练集中的每幅原始的单目深度估计图像输入层的输入图像,将其输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目深度估计图像对应深度预测图,将对应的深度预测图记为表示中坐标位置为(i,j)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的单目深度估计图像对应深度预测图与单目深度估计图像对应的真实标签构成的的损失函数值,将之间的损失函数值记为其采用Huber损失函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,将神经网络模型训练好,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项作为模型的参数,对应记为Wbest和bbest;其中,V>1;
测试阶段过程的具体步骤为:
步骤2_1:令待测试的单目深度估计图像,其中,1≤i′≤W′,1≤j′≤H′,W′表示的宽度,H′表示的高度,表示中坐标位置为(i′,j′)的像素点的像素值;
步骤2_2:将输入到神经网络模型中,并利用Wbest和bbest进行预测,得到对应的单目深度估计预测图像,记为其中,表示中坐标位置为(i′,j′)的像素点的像素值。
为了验证本发明方法的可行性和有效性,进行实验。
在此,使用基于ubuntu18.04、python编程语言环境下的Keras2.2.4框架搭建神经网络模型结构。采用德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办自动驾驶场景评测的数据集KITTI来分析本发明方法的准确性。这里,使用单目深度估计方法的6个常用客观参量作为评价指标来进行评测,即:即rms(Root Mean Squared Error,均方根误差)、log_rms(Root Mean Squared Log Error,均方根对数误差)、log10(AverageLog10Error,平均对数误差)以及阈值准确性:δ1,δ2,δ3,均方根误差、均方根对数误差、平均对数误差的值越小,表示误差越小,阈值准确性越高越好,表示预测的结果越好。
本发明方法对交通测试场景KITTI测试集中的每一幅图都进行预测,得到每幅KITTI测试集中图片对应的深度估计图像,充分体现本发明方法的深度估计性能指标,即均方根误差rms、均方根对数误差log_rms、平均对数误差log10、阈值准确性δ1,δ2,δ3如下表1所列。
表1利用本发明方法在测试集上的评测结果
rms 2.3900
Log_rms 0.227
Log10 0.112
δ<sub>1</sub> 0.702
δ<sub>2</sub> 0.955
δ<sub>3</sub> 0.979
依据表1可得,按照本发明方法得到得深度图结果是较好的,充分的表明了本发明方法进行单目深度估计预测的深度图精确度较好。

Claims (5)

1.一种基于多层特征的单目图像深度估计方法,其特征在于方法包括以下步骤:
步骤1_1:
选取N幅高度为H、宽度为W的原始单目深度估计图像以及原始单目深度估计图像对应的已知的深度估计标签图;
然后将所有原始单目深度估计图像及其对应的已知的深度估计标签图构成训练集,将训练集中的第n幅原始单目深度估计图像记为将第n幅原始单目图像对应的深度估计标签图记为其中,N为正整数,N≥100,W和H均能够被2整除,且n为正整数,n的初始值从1开始,1≤n≤N,1≤x≤W,1≤y≤H,表示坐标位置为(i,j)的像素点的像素值,表示坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建神经网络:
步骤1_3:将训练集中的每幅原始单目深度估计图像及其深度估计标签图输入到神经网络模型中进行训练:训练过程中,将每次迭代训练处理中得到的每幅原始单目深度估计图像的深度预测图,记为 表示坐标位置为(i,j)的像素点的像素值,计算每幅原始单目深度估计图像对应的深度预测图与原始单目深度估计图像对应的深度估计标签图构成的的损失函数值,记为采用Huber损失函数获得;不断迭代训练重复共V次,共得到N×V个损失函数值,然后从N×V个损失函数值中找出值最小的损失函数值作为模型参数,从而完成神经网络模型的训练;
步骤1_4:利用训练后获得的神经网络模型对待测的单目深度估计图像进行预测处理,输出获得对应的深度预测图,实现单目图像深度估计。
2.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法,其特征在于:所述步骤1_2中,所述的卷积神经网络包含输入层、隐层和输出层,隐层包括编码部分和解码部分;
编码部分由一个Resnet50块组成,Resnet50块由ResNet50模型去除全连接层构成,在ResNet50模型中的每个残差块conv_block后面均增加Dropout层,ResNet50模型中的激活层和残差映射块identity_block后的输出五个不同尺寸的特征图,五个特征图按照特征图尺寸从大到小依次为输出端一(C1)、输出端二(C2)、输出端三(C3)、输出端四(C4)、输出端五(C5);
解码部分有三个分支和后处理总支,三个分支分别为第一金字塔、第二金字塔和中层分支;第一金字塔主要由第一个融合层、第二个融合层、第三个融合层构成,第二金字塔主要由第四个融合层、第五个融合层、第六个融合层构成,中层分支由第一个卷积层构成;
第一个融合层接收输出端一(C1)、输出端二(C2)、输出端三(C3)的特征图,输出端三(C3)和输出端二(C2)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端一(C1)的特征图在第一个融合层进行融合,输出为特征图F12;
第二个融合层接收输出端二(C2)、输出端三(C3)的特征图,输出端三(C3)的特征图经过双线性插值上采样和未经过双线性插值上采样的输出端二(C2)的特征图在第二个融合层进行融合,输出为特征图F13;
第三个融合层接收第一个融合层与第二个融合层输出的特征图,特征图F13经过双线性插值上采样和未经过双线性插值上采样的特征图F12在第三个融合层进行融合,输出为特征图AA;
再将第三个融合层输出的特征图AA依次输入到第二个卷积层、第一个池化层,处理输出获得特征图AAA;
第四个融合层接收输出端三(C3)、输出端四(C4)的特征图,输出端三(C3)的特征图经过最大池化下采样和未经过最大池化下采样的输出端四(C4)的特征图在第四个融合层进行融合,输出为特征图F44;
第五个融合层接收输出端三(C3)、输出端四(C4)、输出端五(C5)的特征图,输出端三(C3)和输出端四(C4)的特征图经过最大池化下采样和未经过最大池化下采样的输出端五(C5)的特征图在第五个融合层进行融合,输出为特征图F56;
第六个融合层接收第四个融合层和第五个融合层输出的特征图,特征图F44经过最大池化下采样和未经过最大池化下采样的特征图F56在第六个融合层进行融合,输出为特征图CC;
再将第六个融合层输出的特征图CC依次输入到第一个反卷积层、第二个反卷积层,处理输出获得特征图CCC;
第一个卷积层接收输出端三(C3)的特征图进行卷积处理,输出特征图BBB;
后处理总支包括第三个卷积层、第一个神经网络块和第三个反卷积层;
将出特征图AAA、出特征图BBB、出特征图CCC相加输入到第三个卷积层,第三个卷积层输出到第一个神经网络块;
第一个神经网络块主要由依次连接的块反卷积层、四个分支的不同块卷积层、块融合层、sigmoid层、上采样层组成,四个块卷积层均由两个卷积层依次连接构成,块反卷积层的输出分别输入到四个块卷积层中,四个块卷积层的输出一起输入到块融合层进行融合,再经过sigmoid层和一个上采样因子为2的上采样层输出特征图到第三个反卷积层,由第三个反卷积层输出到输出层。
3.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法,其特征在于:所述的解码部分中,六个融合层的融合方式均为图像拼接Concatenate,且每个Concatente后都通过一个卷积层,卷积核大小均为3×3,激活方式均为线性整流函数(Rectified LinearUnit,ReLU),补零方式均为‘same’。
4.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法,其特征在于:所述的输入层为输入一张彩色图像,即原始的单目深度估计图像。
5.根据权利要求1所述的一种基于多层特征的单目图像深度估计方法,其特征在于:所述的输出层由一个卷积层组成,卷积层的卷积核个数为1,卷积核大小为3×3,步幅大小为1、激活方式为线性整流函数(Rectified Linear Unit,ReLU);输出层接收隐层的第三个反卷积层中的所有特征图,输出层的输出端输出一幅与原始输入单目深度估计图像尺寸相同的深度预测图。
CN201910614788.8A 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法 Active CN110322499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910614788.8A CN110322499B (zh) 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910614788.8A CN110322499B (zh) 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法

Publications (2)

Publication Number Publication Date
CN110322499A true CN110322499A (zh) 2019-10-11
CN110322499B CN110322499B (zh) 2021-04-09

Family

ID=68123216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910614788.8A Active CN110322499B (zh) 2019-07-09 2019-07-09 一种基于多层特征的单目图像深度估计方法

Country Status (1)

Country Link
CN (1) CN110322499B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766732A (zh) * 2019-10-22 2020-02-07 杭州凌像科技有限公司 一种鲁棒的单相机深度图估计方法
CN110942484A (zh) * 2019-11-26 2020-03-31 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN111161166A (zh) * 2019-12-16 2020-05-15 西安交通大学 一种基于深度多分辨率网络的图像摩尔纹消除方法
CN111223113A (zh) * 2020-01-07 2020-06-02 宁波大学 基于双重密集上下文感知网络的核磁共振海马体分割算法
CN111652921A (zh) * 2020-04-21 2020-09-11 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN112257746A (zh) * 2020-09-15 2021-01-22 深圳数联天下智能科技有限公司 痘痘类型识别模型训练方法、识别方法及相关装置
CN112396645A (zh) * 2020-11-06 2021-02-23 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和***
CN112446328A (zh) * 2020-11-27 2021-03-05 汇纳科技股份有限公司 单目深度的估计***、方法、设备及计算机可读存储介质
CN112669343A (zh) * 2021-01-04 2021-04-16 桂林电子科技大学 一种基于深度学习的壮族少数民族服饰分割方法
CN112669270A (zh) * 2020-12-21 2021-04-16 北京金山云网络技术有限公司 视频质量的预测方法、装置及服务器
CN112712017A (zh) * 2020-12-29 2021-04-27 上海智蕙林医疗科技有限公司 一种机器人和一种单目深度估计方法、***及存储介质
CN112837361A (zh) * 2021-03-05 2021-05-25 浙江商汤科技开发有限公司 一种深度估计方法及装置、电子设备和存储介质
CN113158838A (zh) * 2021-03-29 2021-07-23 华南理工大学 基于全尺寸深度图监督的人脸表示攻击检测方法
CN116342675A (zh) * 2023-05-29 2023-06-27 南昌航空大学 一种实时单目深度估计方法、***、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011138472A1 (es) * 2010-05-07 2011-11-10 Telefonica, S.A. Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d
CN106548494A (zh) * 2016-09-26 2017-03-29 浙江工商大学 一种基于场景样本库的影视图像深度提取方法
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011138472A1 (es) * 2010-05-07 2011-11-10 Telefonica, S.A. Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN106548494A (zh) * 2016-09-26 2017-03-29 浙江工商大学 一种基于场景样本库的影视图像深度提取方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M. MOUKARI等: "Deep Multi-Scale Architectures for Monocular Depth Estimation", 《2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
顾婷婷等: "基于金字塔型残差神经网络的红外图像深度估计", 《红外技术》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766732A (zh) * 2019-10-22 2020-02-07 杭州凌像科技有限公司 一种鲁棒的单相机深度图估计方法
CN110942484B (zh) * 2019-11-26 2022-07-12 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN110942484A (zh) * 2019-11-26 2020-03-31 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN111161166A (zh) * 2019-12-16 2020-05-15 西安交通大学 一种基于深度多分辨率网络的图像摩尔纹消除方法
CN111223113A (zh) * 2020-01-07 2020-06-02 宁波大学 基于双重密集上下文感知网络的核磁共振海马体分割算法
CN111223113B (zh) * 2020-01-07 2023-04-18 宁波大学 基于双重密集上下文感知网络的核磁共振海马体分割算法
CN111652921A (zh) * 2020-04-21 2020-09-11 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN111652921B (zh) * 2020-04-21 2023-04-28 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN112257746A (zh) * 2020-09-15 2021-01-22 深圳数联天下智能科技有限公司 痘痘类型识别模型训练方法、识别方法及相关装置
CN112396645B (zh) * 2020-11-06 2022-05-31 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和***
CN112396645A (zh) * 2020-11-06 2021-02-23 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和***
CN112446328A (zh) * 2020-11-27 2021-03-05 汇纳科技股份有限公司 单目深度的估计***、方法、设备及计算机可读存储介质
CN112446328B (zh) * 2020-11-27 2023-11-17 汇纳科技股份有限公司 单目深度的估计***、方法、设备及计算机可读存储介质
CN112669270A (zh) * 2020-12-21 2021-04-16 北京金山云网络技术有限公司 视频质量的预测方法、装置及服务器
CN112712017A (zh) * 2020-12-29 2021-04-27 上海智蕙林医疗科技有限公司 一种机器人和一种单目深度估计方法、***及存储介质
CN112669343A (zh) * 2021-01-04 2021-04-16 桂林电子科技大学 一种基于深度学习的壮族少数民族服饰分割方法
CN112837361A (zh) * 2021-03-05 2021-05-25 浙江商汤科技开发有限公司 一种深度估计方法及装置、电子设备和存储介质
CN113158838A (zh) * 2021-03-29 2021-07-23 华南理工大学 基于全尺寸深度图监督的人脸表示攻击检测方法
CN116342675A (zh) * 2023-05-29 2023-06-27 南昌航空大学 一种实时单目深度估计方法、***、电子设备及存储介质
CN116342675B (zh) * 2023-05-29 2023-08-11 南昌航空大学 一种实时单目深度估计方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
CN110322499B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN110322499A (zh) 一种基于多层特征的单目图像深度估计方法
CN109829891B (zh) 一种基于密集生成对抗神经网络的磁瓦表面缺陷检测方法
CN113936139B (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及***
CN109272493A (zh) 一种基于递归卷积神经网络的单目视觉里程计方法
CN109978786A (zh) 一种基于卷积神经网络的Kinect深度图修复方法
CN113205520B (zh) 一种对图像进行语义分割的方法及***
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN110414674A (zh) 一种基于残差网络及局部细化的单目深度估计方法
CN109523558A (zh) 一种人像分割方法及***
CN109509248A (zh) 一种基于神经网络的光子映射渲染方法和***
CN110889416A (zh) 一种基于级联改良网络的显著性物体检测方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN112116537A (zh) 图像反射光消除方法及图像反射光消除网络构建方法
CN112184731B (zh) 一种基于对抗性训练的多视图立体深度估计方法
CN106682684A (zh) 一种基于k均值聚类的目标识别方法
CN110443155A (zh) 一种基于卷积神经网络的视觉航标识别与分类方法
CN115830575A (zh) 一种基于Transformer与跨维度注意力的交通标志检测方法
CN115238758A (zh) 一种基于点云特征增强的多任务三维目标检测方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及***
CN116485867A (zh) 一种面向自动驾驶的结构化场景深度估计方法
CN113160085B (zh) 一种基于生成对抗网络的水花遮挡图像数据集采集方法
CN114359269A (zh) 基于神经网络的虚拟食品盒缺陷生成方法及***
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN116740211B (zh) 一种面向边缘设备的近红外图像彩色化方法
CN111461772A (zh) 一种基于生成对抗网络的视频广告融入***与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant