CN110766732A - 一种鲁棒的单相机深度图估计方法 - Google Patents
一种鲁棒的单相机深度图估计方法 Download PDFInfo
- Publication number
- CN110766732A CN110766732A CN201911008204.9A CN201911008204A CN110766732A CN 110766732 A CN110766732 A CN 110766732A CN 201911008204 A CN201911008204 A CN 201911008204A CN 110766732 A CN110766732 A CN 110766732A
- Authority
- CN
- China
- Prior art keywords
- monocular
- layer
- neural network
- camera
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/344—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种鲁棒的单相机深度图估计方法,该方法输入双目相机采集的m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图,通过视差disparity与深度depth一一对应关系,最终得到单目深度预测图。该方法只需要单个RGB相机就能实时输出RGB图像对应的深度图信息,具有实时性高、针对不同场景鲁棒性好、不需要额外器件的优点。
Description
技术领域
本发明属于预测深度技术、立体视觉技术、图像处理技术、计算机视觉技术领域,涉及一种使用单目相机的预测深度方法。
背景技术
深度信息作为图像的一个重要而基本的部分,是将二维平面信息转化成三维立体信息,进而重建高质量三维场景的一个重要线索。深度预测技术已经广泛应用于无人驾驶,立体视觉传感器,障碍物检测等领域。
深度信息一般需要双目或者多目相机获取不同视角的彩色图片对,通过匹配算法预测深度。但此方法存在一定缺点,例如需要控制收集彩色图对的所有相机具有相同的参数,也需要进行精确标定。同时,双目或者多目匹配的深度预测结果,还无法满足现有的精度和鲁棒性要求。此外,双目或者多目相机的预测深度装置,不适合集成化和小型化的应用场景。
发明内容
本发明的目的在于针对现有技术的不足,提供一种鲁棒的单目相机深度图估计方法。
本发明的目的是通过以下技术方案实现的:一种鲁棒的单目相机深度图估计方法,该方法为,将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图,通过视差disparity与深度depth一一对应关系:最终得到单目深度预测图。其中,神经网络的训练过程如下:
1、使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像,其中m大于20000,采集图像过程需要在n个不同场景下进行采集,其中n大于30;双目相机的两摄像头连线应始终保持水平,且内部物理参数应完全相同。
2、利用双目相机采集的m对彩色图像进行神经网络模型训练。其中,神经网络模型输入为采集的彩色图像(分辨率为512×256),输出为对应单目视差预测。训练时,输入m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示,其中,最后一层(第18层)为输出的单目视差预测图。
层号 | 类型 | 输出特征图维数 | 输出特征图分辨率 |
1 | 下采样层 | 16 | 256×128 |
2 | 一维分解瓶颈层 | 16 | 256×128 |
3 | 一维分解瓶颈层 | 16 | 256×128 |
4 | 下采样层 | 64 | 128×64 |
5 | 一维分解瓶颈层 | 64 | 128×64 |
6 | 一维分解瓶颈层 | 64 | 128×64 |
7 | 下采样层 | 256 | 64×32 |
8 | 一维分解瓶颈层(扩张卷积率2) | 256 | 64×32 |
9 | 一维分解瓶颈层(扩张卷积率4) | 256 | 64×32 |
10 | 一维分解瓶颈层(扩张卷积率8) | 256 | 64×32 |
11 | 一维分解瓶颈层(扩张卷积率16) | 256 | 64×32 |
12a | 第11层输出的原始特征图下采样 | 64 | 32×16 |
12b | 第11层输出的原始特征图下采样 | 64 | 16×8 |
12c | 第11层输出的原始特征图下采样 | 64 | 8×4 |
12d | 第11层输出的原始特征图全局池化 | 64 | 1×1 |
12e | 第12a-12d层的上采样和级联 | 256 | 64×32 |
13a | 第3层输出的原始特征图全局池化 | 1 | 256×128 |
13b | 第6层输出的原始特征图全局池化 | 1 | 128×64 |
14 | 第12e层上采样 | 64 | 128×64 |
15 | 第14层和第6层按第13b层加权求和 | 64 | 128×64 |
16 | 第15层上采样 | 16 | 256×128 |
17 | 第16层和第3层按第13a层加权求和 | 16 | 256×128 |
18 | 第17层上采样 | 1 | 512×256 |
进一步地,所述一维分解瓶颈层使用3×3卷积核与1×1扩张卷积核进行串联运算,运算结果与输入张量进行残差链接,最后采用线性整流函数ReLU作为激活函数,构成一维分解瓶颈层的整体。
进一步地,网络的8到11层的一维分解瓶颈层采用扩张卷积完成,扩张卷积率分别为2,4,8,16。
进一步地,所述下采样层通过使用3×3卷积和平均池化结果进行拼接,得到最终的下采样特征图。
进一步地,所述上采样层采用双线性插值与3×3卷积级联,得到最终的上采样特征图。
进一步地,网络的13a,13b层为所述全局池化层,通过Sigmoid激活函数归一化为0-1之间,最终作为加权权重来选择性传递原始特征图。
本发明相比以往的深度信息获取方式优势主要在于:
1、输出深度信息精度高、稠密度好。本发明采用了深度学***滑度均表现较好的深度信息图。此外,本发明还可对匹配算法计算有误或较大噪声的区域进行有效的深度信息预测,从而支持高分辨率的深度信息输出。
2、输出深度信息鲁棒性好。本发明在神经网络训练方式中选择了非监督式训练。网络先输出视差信息作为过渡,最后得到预测的深度信息。本发明所使用的训练方式,能够更好地使网络学习到遮挡和透视关系,有效减少了过拟合的现象,在实际场景的RGB图像上也取得了较好的深度预测结果。
3、实时性高。本发明的神经网络模型采用了参数量较小的一维分解瓶颈层进行级联,用于对特征图的提取,节省了普通残差连接层带来的额外计算量,可以支持高实时性的深度信息预测。
4、采集数据成本小。本发明选择了非监督式训练,训练过程的数据集只需要左右RGB图像对,无需真实深度图。本发明对训练数据集的要求,降低了人工标注和额外数据的数量和要求,能够简化网络的训练过程。
5、价格低廉。本发明在实时单目相机深度信息预测时,只需要一个彩色相机和一个小型处理器,相比以往的深度信息获取方法需要多个彩色相机,节省了器件和成本。
附图说明
图1为彩色图;
图2为使用单目相机的预测深度图;
图3为使用双目相机的预测深度图;
图4为一维分解瓶颈层示意图;
图5为注意力机制控制的跳跃连接示意图;
图6为下采样层示意图。
具体实施方式
本发明涉及一种鲁棒的单相机深度图估计方法,该方法的核心在于一个神经网络模型,该神经网络模型训练过程中,根据左、右目的彩色图像和对应的左、右目视差预测,重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数。完成训练后,在预测过程中,只需输入单目彩色图像,网络即可输出对应的单目视差预测。神经网络模型通过以下方法获得:
①使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像,其中m大于20000,采集图像过程需要在n个不同场景下进行采集,其中n大于30;双目相机的两摄像头连线应始终保持水平,且内部物理参数应完全相同。
②利用双目相机采集的m对彩色图像进行神经网络模型训练。其中,神经网络模型输入为采集的彩色图像(分辨率为512×256),输出为对应单目视差预测。训练时,输入m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示,其中,最后一层(第18层)为输出的单目视差预测图。
其中所述一维分解瓶颈层如图4所示,使用3×3卷积核与1×1扩张卷积核进行串联运算,运算结果与输入张量进行残差链接,最后采用线性整流函数ReLU作为激活函数,构成一维分解瓶颈层的整体。这种结构可以保持较强的特征提取能力,同时有效降低参数量,加速网络推理过程。
其中所述网络的13a,13b层如图5所示,为所述全局池化层,通过Sigmoid激活函数归一化为0-1之间,最终作为加权权重来选择性传递原始特征图。这种结构可以促使网络学习有效的特征信息,降低网络过拟合的现象。
其中所述下采样层如图6所示,通过使用3×3卷积和平均池化结果进行拼接,得到最终的下采样特征图。这种结构可以融合原始输入信息和经卷积层学习后的信息,增强网络的学习能力。
其中所述上采样层采用双线性插值与3×3卷积级联,得到最终的上采样特征图。这种结构可以降低输出噪声,同时将预测图恢复至初始输入尺寸。
图1为RGB相机获取的单目彩色图,经本发明方法处理后得到的单目深度预测图如图2所示,对比传统匹配算法所生成的深度预测图(如图3所示),可认为本发明所述的单相机深度图估计方法更加准确、鲁棒。
本发明采用了深度学***滑度均表现较好的深度信息图。此外,本发明所使用的训练方式,能够更好地使网络学习到遮挡和透视关系,有效减少了训练数据集上过拟合的现象,也降低了数据集的采集成本。
Claims (6)
1.一种鲁棒的单相机深度图估计方法,其特征为:将RGB相机获取的单目彩色图输入至预先训练完成的神经网络模型得到单目视差预测图,通过视差disparity与深度depth一一对应关系:最终得到单目深度预测图。其中,神经网络的训练过程如下:
①使用已知焦距f、两摄像头间距d的双目相机在实际场景中采集m对彩色图像,其中m大于20000,采集图像过程需要在n个不同场景下进行采集,其中n大于30;双目相机的两摄像头连线应始终保持水平,且内部物理参数应完全相同。
②利用双目相机采集的m对彩色图像进行神经网络模型训练。其中,神经网络模型输入为采集的彩色图像(分辨率为512×256),输出为对应单目视差预测。训练时,输入m对彩色图像中左、右目的彩色图像,得到对应的左、右目视差预测,再将左、右目的彩色图像和对应的左、右目视差预测通过双线性插值重建右、左目的彩色视图;通过与真实采集的右、左彩色视图比较误差,进而迭代优化网络参数得到训练完成的神经网络模型。各网络层参数的具体设计如下表所示,其中,最后一层(第18层)为输出的单目视差预测图。
2.根据权利要求1所述的方法,其特征为:所述一维分解瓶颈层使用3×3卷积核与1×1扩张卷积核进行串联运算,运算结果与输入张量进行残差链接,最后采用线性整流函数ReLU作为激活函数,构成一维分解瓶颈层的整体。
3.根据权利要求1所述的方法,其特征为:从8到11层的一维分解瓶颈层采用扩张卷积完成,扩张卷积率分别为2,4,8,16。
4.根据权利要求1所述的方法,其特征为:所述下采样层通过使用3×3卷积和平均池化结果进行拼接,得到最终的下采样特征图。
5.根据权利要求1所述的方法,其特征为:所述上采样层采用双线性插值与3×3卷积级联,得到最终的上采样特征图。
6.根据权利要求1所述的防范,其特征为:13a,13b层的全局池化层,通过Sigmoid激活函数归一化为0-1之间,最终作为加权权重来选择性传递原始特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008204.9A CN110766732A (zh) | 2019-10-22 | 2019-10-22 | 一种鲁棒的单相机深度图估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008204.9A CN110766732A (zh) | 2019-10-22 | 2019-10-22 | 一种鲁棒的单相机深度图估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766732A true CN110766732A (zh) | 2020-02-07 |
Family
ID=69332988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911008204.9A Pending CN110766732A (zh) | 2019-10-22 | 2019-10-22 | 一种鲁棒的单相机深度图估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766732A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446328A (zh) * | 2020-11-27 | 2021-03-05 | 汇纳科技股份有限公司 | 单目深度的估计***、方法、设备及计算机可读存储介质 |
CN114677422A (zh) * | 2022-02-14 | 2022-06-28 | 北京极感科技有限公司 | 深度信息生成方法、图像虚化方法和视频虚化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805937A (zh) * | 2018-05-29 | 2018-11-13 | 浙江大学 | 一种单相机偏振信息预测方法 |
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
WO2019070299A1 (en) * | 2017-10-04 | 2019-04-11 | Google Llc | DEPTH ESTIMATION USING A SINGLE CAMERA |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
-
2019
- 2019-10-22 CN CN201911008204.9A patent/CN110766732A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019070299A1 (en) * | 2017-10-04 | 2019-04-11 | Google Llc | DEPTH ESTIMATION USING A SINGLE CAMERA |
CN108805937A (zh) * | 2018-05-29 | 2018-11-13 | 浙江大学 | 一种单相机偏振信息预测方法 |
CN109064507A (zh) * | 2018-08-21 | 2018-12-21 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
Non-Patent Citations (4)
Title |
---|
HAOYU REN,ET AL: "Deep Robust Single Image Depth Estimation Neural Network Using Scene Understanding" * |
TOBIAS KOCH,ET AL * |
TOBIAS KOCH,ET AL: "Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue", 《ARXIV》 * |
李耀宇;王宏民;张一帆;卢汉清;: "基于结构化深度学习的单目图像深度估计" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446328A (zh) * | 2020-11-27 | 2021-03-05 | 汇纳科技股份有限公司 | 单目深度的估计***、方法、设备及计算机可读存储介质 |
CN112446328B (zh) * | 2020-11-27 | 2023-11-17 | 汇纳科技股份有限公司 | 单目深度的估计***、方法、设备及计算机可读存储介质 |
CN114677422A (zh) * | 2022-02-14 | 2022-06-28 | 北京极感科技有限公司 | 深度信息生成方法、图像虚化方法和视频虚化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN110782490B (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
WO2018000752A1 (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
CN112634341B (zh) | 多视觉任务协同的深度估计模型的构建方法 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
CN112308200A (zh) | 神经网络的搜索方法及装置 | |
CN110381268B (zh) | 生成视频的方法,装置,存储介质及电子设备 | |
CN115205489A (zh) | 一种大场景下的三维重建方法、***及装置 | |
CN111508013B (zh) | 立体匹配方法 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN112750201B (zh) | 三维重建方法及相关装置、设备 | |
CN112767467B (zh) | 一种基于自监督深度学习的双图深度估计方法 | |
CN113313732A (zh) | 一种基于自监督学习的前视场景深度估计方法 | |
CN113283525A (zh) | 一种基于深度学习的图像匹配方法 | |
CN113963117B (zh) | 一种基于可变卷积深度网络的多视图三维重建方法及装置 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN115035171A (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN110766732A (zh) | 一种鲁棒的单相机深度图估计方法 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、***及存储介质 | |
CN117635801A (zh) | 基于实时渲染可泛化神经辐射场的新视图合成方法及*** | |
WO2021057091A1 (zh) | 视点图像处理方法及相关设备 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及*** | |
CN116863241A (zh) | 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |