CN113570658A - 基于深度卷积网络的单目视频深度估计方法 - Google Patents
基于深度卷积网络的单目视频深度估计方法 Download PDFInfo
- Publication number
- CN113570658A CN113570658A CN202110648477.0A CN202110648477A CN113570658A CN 113570658 A CN113570658 A CN 113570658A CN 202110648477 A CN202110648477 A CN 202110648477A CN 113570658 A CN113570658 A CN 113570658A
- Authority
- CN
- China
- Prior art keywords
- network
- depth
- error
- sub
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000009499 grossing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于视频处理技术领域,公开了一种基于深度卷积网络的单目视频深度估计方法,包括步骤:获取训练数据和待测试单目视频;构建深度估计网络模型,包含深度预测子网络和相机位姿估计子网络,解码器包含上采样模块和密集空洞金字塔模块;利用训练数据对深度预测子网络和相机位姿估计子网络进行联合训练,采用损失函数对两个子网络的网络参数进行迭代更新;估计待测试单目视频的深度图。本发明利用更多的原图空间信息,有效的提高了深度预测的精度。
Description
技术领域
本发明属于视频处理技术领域,更进一步涉及基于深度卷积网络的单目视频深度估计方法,可用于三维重建、机器人导航和自动驾驶。
背景技术
深度估计在许多任务中有着不可或缺的地位,如在三维重建,自动驾驶,机器人导航等重要领域。双目深度估计算法通过模拟人眼,用立体摄像机或者多个摄像机所拍不同视角的图片之间的视差来进行深度估计,是现在最为常见的深度估计算法。然而,双目深度估计算法存在着大量问题,如计算复杂度高,双目图片获取难度大,低纹理区域匹配较难等等。单视角图片获取难度往往比多视角图片要低。单目深度估计算法从单摄像头所拍的图片或者视频中获取深度,能极大的降低成本和数据获取难度。
此外,在深度估计问题中,深度真值的获取成本非常高,通常通过光传感器(室内)和激光雷达(室外)获取深度信息来给图像做标注。基于视频序列的无监督深度估计方法将视频序列的深度预测问题视为相邻帧之间图像合成过程的中间过程,所以不需要深度真值进行训练。
Zhou.T.H,Brown.M,Snavely.N,Lowe.D等人发表的论文“Unsupervised Learningof Depth and Ego-Motion from Video”(The IEEE Conference on Computer Visionand Pattern Recognition,2017)公开了一种基于深度学习的无监督视频深度估计算法。此算法无需深度真值,基于视频序列之间的多角度匹配关系预测深度,在考虑了前有工作的输出尺度不一致性的问题后,提出了几何一致性约束,并在此基础上提出了一个自发现的掩码模块,解决了输出深度图帧与帧之间尺度不一致的问题,并且在深度预测上有较高的精度。
但是仍然存在的不足之处是:该方法所用的网络没有充分的利用到多尺度的特征融合信息,来提高深度预测的精度。骨干网络的特征重用效果有限,不能充分的提取图像特征。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于深度卷积网络的单目视频深度估计方法及***,利用深层卷积网络结构,提高最终得到的深度图的精确度。
为了达到上述目的,本发明采用以下技术方案予以实现。
基于深度卷积网络的单目视频深度估计方法,包括以下步骤:
步骤1,获取训练数据和待测试单目视频;
其中,训练数据包含RGB光学视频序列I={It,0≤t≤T,t∈Z}和对应的深度真值图序列D={Dt,0≤t≤T,t∈Z},Z表示时间集合,It代表t时刻的RGB图像,Dt代表t时刻的深度真值图像;
步骤2,构建深度估计网络模型,所述深度估计网络模型包含深度预测子网络和相机位姿估计子网络,所述深度预测子网络为自编码网络,包含编码器和解码器,所述编码器为密集连接的深度卷积网络,所述解码器包含上采样模块和密集空洞金字塔模块;所述相机位姿估计子网络为深层卷积神经网络;
步骤3,利用训练数据对深度预测子网络和相机位姿估计子网络进行联合训练,采用损失函数对两个子网络的网络参数进行迭代更新,得到训练好的深度预测子网络;
其中,所述损失函数包含图像重构误差Lp、尺度一致性误差LGC和光滑项误差Ls;
步骤4,将待测试单目视频输入训练好的深度预测子网络,输出归一化后的深度预测图;根据实际物理尺度,对输出的归一化深度图进行校准,得到最终的预测深度图。
与现有技术相比,本发明的有益效果为:
本发明由于构建的深度预测子网络具有密集连接的深层结构和多尺度金字塔特征融合模块,可以提取更多的图像信息,克服了现有技术中仅仅只用跳级连接利用多尺度信息进行深度预测的缺陷,以及特征提取网络无法进行特征重用的不足,使得本发明所利用的原图空间信息更多,有效的提高了深度预测的精度。
附图说明
下面结合附图和具体实施例对本发明做进一步详细说明。
图1是本发明的实现流程图;
图2是本发明的深度卷积网络结构图;
图3是本发明实施例中输入的相邻帧RGB图像;
图4是采用本发明得到的相邻帧图像的输出深度图;
图5是本发明的图像重构过程示意图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域的技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。
参考图1,本发明提供的一种基于深度卷积网络的单目视频深度估计方法,包括以下步骤:
步骤1,获取训练数据和待测试单目视频;
其中,训练数据包含RGB光学视频序列I={It,0≤t≤T,t∈Z}和对应的深度真值图序列D={Dt,0≤t≤T,t∈Z},Z表示时间集合,It代表t时刻的RGB图像,Dt代表t时刻的深度真值图像;
本实施例从KITTI数据集中RGB图像序列和3D激光雷达点云数据随机划分为训练集和测试集。测试集内样本相当于待测试单目视频。
在训练集中随机采样获取相邻两帧t时刻和t-1时刻的RGB图像It,It-1,再利用3D激光雷达点云数据恢复的对应t时刻和t-1时刻的深度真值图Dt,Dt-1。
步骤2,构建深度估计网络模型,所述深度估计网络模型包含深度预测子网络和相机位姿估计子网络,所述深度预测子网络为自编码网络,包含编码器和解码器,所述编码器为密集连接的深度卷积网络,所述解码器包含上采样模块和密集空洞金字塔模块;所述相机位姿估计子网络为深层卷积神经网络;
具体地,深度估计网络模型的结构如图2所示:
所述深度预测子网络为自编码网络,所述编码器为密集连接的深度卷积网络DenseNet;解码器的主体为图像上采样,加上额外引入的密集空洞金字塔模块DenseASPP来进行多尺度特征融合。相邻两帧的RGB图像It,It-1作为深度预测子网路输入,如图3所示,其网络输出为对应的深度预测图如图4所示,其中It和的下标t代表着t时刻,的上标代表这是深度预测网络预测的结果,与传感器所得到的深度真值Dt做区分。
所述相机位姿预测子网络为深层卷积网路,该网络的输入为相邻两帧的RGB图像It,It-1,输出为从t时刻到t-1时刻的相机运动矩阵Tt→t-1。
步骤3,利用训练数据对深度预测子网络和相机位姿估计子网络进行联合训练,采用损失函数对两个子网络的网络参数进行迭代更新,得到训练好的深度预测子网络;
其中,所述损失函数包含图像重构误差Lp、尺度一致性误差LGC和光滑项误差Ls;
(3.1)从均值为0、方差为0.01的高斯分布中随机采样,将随机采样的数组作为深度估计网络模型的初始化参数;
(3.2)将相邻两帧的RGB图像It,It-1分别输入深度预测子网络和相机姿态预测子网络,然后分别计算每个子网络的掩模权重、尺度一致性误差、图像重构误差和光滑正则项误差;
(3.3)通过最小化整体误差联合训练深度预测子网络和相机姿态估计子网络,使得深度预测子网络能够输出高精度的深度图;
(3.4)利用批量随机梯度下降方法,对(3.3)得到的深度预测子网络和相机位姿估计子网络中的所有参数进行迭代更新,直至模型收敛,完成网络模型的优化。
损失函数主要包括图像重构误差Lp,尺度一致性误差LGC,光滑项误差Ls。图像重构过程中,相邻帧之间的运动物体,遮挡区域或者是其他难以解释的复杂的像素点往往会造成图像重构性能差。所以需要先将这些部分的像素点检测出来,然后给予这些像素点较低的权重,这一步将复杂像素点检测出来的步骤称之为掩模(mask)模块,具体实施流程如(3.2a)所示。
(3.2a)t时刻深度预测子网络的输出图和相机位姿估计子网络的输出t时刻到t-1时刻的相机运动矩阵Tt→t-1,可以重构出t-1时刻相机视角下的深度图然后将和t-1时刻深度预测子网络的输出做归一化差值,得到基于像素点p的深度预测误差Ddiff(p)如下:
上式中,p代表着某个像素。Ddiff(p)是属于[0,1]之间的值,其中,运动物体,遮挡区域或者是其他难以解释的像素点Ddiff(p)越大接近于1,而不属于这些像素点的Ddiff(p)越小越接近于0,为了给予Ddiff(p)值大的像素点较低的权重,基于像素点p的掩模权重M(p)计算如下式:
M(p)=1-Ddiff(p)
这个权重将应用到(3.3)中的尺度图像重构误差中去
(3.2b)对整张图的像素深度预测误差Ddiff(p)取均值就得到了尺度一致性误差:
其中V为整张图片的有效像素集合,Num(V)代表着有效像素的个数。
(3.2c)如图5所示,图像重构过程如下所示,结合t时刻的RGB图像It,预测的深度图相机运动矩阵Tt→t-1,可以重构出t-1时刻的RGB图像图像重构误差除了灰度值误差,还引入了结构相似性误差SSIM,在结合(3a)中得到的掩模权重M(p),图像重构误差公式如下:
其中λi=0.15,λs=0.85分别为对应误差的权重参数,上式中加号左边为图像重构的绝对值误差,右边SSIM(p)为t-1时刻两张图的结构相似性误差。
其中,SSIM(Structural Similarity),结构相似性,是一种衡量两幅图像相似度的指标。该指标首先由德州大学奥斯丁分校的图像和视频工程实验室(Laboratory forImage and Video Engineering)提出。
给定两个图像x和y,两张图像的结构相似性可按照以下方式求出:
其中μx是x的平均值,μy是y的平均值,是x的方差,是y的方差,σxy是x和y的协方差。c1=(k1L),c2=(k2L)是用来维持稳定的常数。L是像素值的动态范围。k1=0.01,k2=0.03。两张图片越相似,SSIM值越接近于1。
(3.2d)为了解决噪声和低纹理区域梯度消失的问题,引入了光滑项误差,光滑项误差如下所示:
将图像重构误差Lp,尺度一致性误差LGC,光滑项误差Ls取加权和,整体损失函数如下所示:
L=aLp+βLs+γLGC
其中α=1.0,β=0.1,γ=0.5。α、β、γ分别表示对应误差的权重,其取值在[0,1]之间。
通过最小化损失函数即整体误差L对网络模型进行训练优化。
步骤4,将待测试单目视频输入训练好的深度预测子网络,输出归一化后的深度预测图;根据实际物理尺度,对输出的归一化深度图进行校准,得到最终的预测深度图。
(4.1)将测试样本的单张RGB图片输入深度预测子网络,输出对应归一化后的深度图。
(4.2)根据实际物理尺度对输出的归一化后的深度图进行校准,得到最终的预测深度图。
仿真实验
以下通过仿真实验验证本发明的有效性
1.仿真条件:
本发明的仿真试验是在GPU为Tesla P4的linux操作环境下进行的。图片划分,训练集:5240张图片,验证集:2070张图片,测试集200张图片。
2.仿真内容:
仿真1,用本发明对来自于KITTI图像集的图3所示RGB图像进行深度预测,得到预测深度图,如图4所示。从图4可见本发明能够从单张图片恢复出深度图。
仿真2,用本发明的方法和现有基于视频的无监督单目深度估计算法SC-sfmlearner对KITTI图像集进行深度预测实验,并将预测结果的相对平方误差SqRel,均方根误差RMSE,均方根对数误差RMSE_log作为比较标准,比较两种方法进行单目视频深度估计的精度,其中SqRel,RMSE,RMSE_log的值越低,表明深度预测的精度越高,实验结果如表1:
表1本发明方法和传统SC-sfmlearner的预测精度对比
估计方法 | SqRel | RMSE | RMSE_log |
SC-sfmlearner | 0.1834 | 6.8903 | 0.2630 |
本发明 | 0.1751 | 6.4451 | 0.2496 |
从表1结果可见:与现有的SC-sfmlearner图像深度预测方法相比,本发明预测的相对平方误差SqRel,均方根误差RMSE,均方根对数误差RMSE_log更小,表示本发明提出方法的有效性,本发明能够改进现有方法的不足,提高深度预测的精度。
虽然,本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (6)
1.基于深度卷积网络的单目视频深度估计方法,其特征在于,包括以下步骤:
步骤1,获取训练数据和待测试单目视频;
其中,训练数据包含RGB光学视频序列I={It,0≤t≤T,t∈Z}和对应的深度真值图序列D={Dt,0≤t≤T,t∈Z},Z表示时间集合,It代表t时刻的RGB图像,Dt代表t时刻的深度真值图像;
步骤2,构建深度估计网络模型,所述深度估计网络模型包含深度预测子网络和相机位姿估计子网络,所述深度预测子网络为自编码网络,包含编码器和解码器,所述编码器为密集连接的深度卷积网络,所述解码器包含上采样模块和密集空洞金字塔模块;所述相机位姿估计子网络为深层卷积神经网络;
步骤3,利用训练数据对深度预测子网络和相机位姿估计子网络进行联合训练,采用损失函数对两个子网络的网络参数进行迭代更新,得到训练好的深度预测子网络;
其中,所述损失函数包含图像重构误差Lp、尺度一致性误差LGC和光滑项误差Ls;
步骤4,将待测试单目视频输入训练好的深度预测子网络,输出归一化后的深度预测图;根据实际物理尺度,对输出的归一化深度图进行校准,得到最终的预测深度图。
2.根据权利要求1所述的基于深度卷积网络的单目视频深度估计方法,其特征在于,所述编码器为密集连接的深度卷积网络DenseNet;所述解码器的主体为图像上采样,加上引入的密集空洞金字塔模块DenseASPP进行多尺度特征融合。
3.根据权利要求1所述的基于深度卷积网络的单目视频深度估计方法,其特征在于,所述利用训练数据对深度预测子网络和相机位姿估计子网络进行联合训练,具体过程为:
(3.1)对所述深度估计网络模型的网络参数进行随机初始化;
(3.2)将相邻两帧的RGB图像It,It-1分别输入深度预测子网络和相机姿态预测子网络,然后分别计算每个子网络的掩模权重、尺度一致性误差、图像重构误差和光滑正则项误差;
(3.3)通过最小化整体误差联合训练深度预测子网络和相机姿态估计子网络,使得深度预测子网络能够输出高精度的深度图;
(3.4)利用批量随机梯度下降方法,对步骤(3.3)得到的深度预测子网络和相机位姿估计子网络中的所有网络参数进行迭代更新,直至模型收敛,完成网络模型的优化。
4.根据权利要求3所述的基于深度卷积网络的单目视频深度估计方法,其特征在于,所述从均值为0、方差为0.01的高斯分布中随机采样,将随机采样的数组作为深度估计网络模型的初始化参数。
5.根据权利要求3所述的基于深度卷积网络的单目视频深度估计方法,其特征在于,所述分别计算每个子网络的掩模权重、尺度一致性误差、图像重构误差和光滑正则项误差,具体步骤为:
(3.2a)根据t时刻深度预测子网络的输出图相机位姿估计子网络的输出t时刻到t-1时刻的相机运动矩阵Tt→t-1,重构出t-1时刻相机视角下的深度图然后将和t-1时刻深度预测子网络的输出做归一化差值,得到基于像素点p的深度预测误差Ddiff(p):
式中,Ddiff(p)是像素点p的,其值属于[0,1]之间;
为了给予Ddiff(p)值大的像素点较低的权重,基于像素点p的掩模权重M(p)计算如下式:
M(p)=1-Ddiff(p);
(3.2b)对整张图的像素深度预测误差Ddiff(p)取均值,得到尺度一致性误差:
其中,V为整张图片的有效像素集合,Num(V)代表着有效像素的个数;
(3.2d)所述光滑项误差的计算公式如下:
6.根据权利要求5所述的基于深度卷积网络的单目视频深度估计方法,其特征在于,其特征在于,所述整体误差为将图像重构误差Lp、尺度一致性误差LGC和光滑项误差Ls取加权和:
L=αLp+βLs+γLGC
其中α、β、γ分别表示对应误差的权重,其取值在[0,1]之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648477.0A CN113570658A (zh) | 2021-06-10 | 2021-06-10 | 基于深度卷积网络的单目视频深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648477.0A CN113570658A (zh) | 2021-06-10 | 2021-06-10 | 基于深度卷积网络的单目视频深度估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113570658A true CN113570658A (zh) | 2021-10-29 |
Family
ID=78161933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648477.0A Pending CN113570658A (zh) | 2021-06-10 | 2021-06-10 | 基于深度卷积网络的单目视频深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113570658A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627351A (zh) * | 2022-02-18 | 2022-06-14 | 电子科技大学 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微***与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN115272438A (zh) * | 2022-08-19 | 2022-11-01 | 中国矿业大学 | 一种面向三维场景重建的高精度单目深度估计***及方法 |
WO2023155043A1 (zh) * | 2022-02-15 | 2023-08-24 | 中国科学院深圳先进技术研究院 | 一种基于历史信息的场景深度推理方法、装置及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510535A (zh) * | 2018-03-14 | 2018-09-07 | 大连理工大学 | 一种基于深度预测和增强子网络的高质量深度估计方法 |
CN109741383A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于空洞卷积和半监督学习的图像深度估计***与方法 |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN111311685A (zh) * | 2020-05-12 | 2020-06-19 | 中国人民解放军国防科技大学 | 一种基于imu/单目图像的运动场景重构无监督方法 |
CN111369608A (zh) * | 2020-05-29 | 2020-07-03 | 南京晓庄学院 | 一种基于图像深度估计的视觉里程计方法 |
CN111739078A (zh) * | 2020-06-15 | 2020-10-02 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
CN111860386A (zh) * | 2020-07-27 | 2020-10-30 | 山东大学 | 一种基于ConvLSTM卷积神经网络的视频语义分割方法 |
WO2021013334A1 (en) * | 2019-07-22 | 2021-01-28 | Toyota Motor Europe | Depth maps prediction system and training method for such a system |
-
2021
- 2021-06-10 CN CN202110648477.0A patent/CN113570658A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510535A (zh) * | 2018-03-14 | 2018-09-07 | 大连理工大学 | 一种基于深度预测和增强子网络的高质量深度估计方法 |
WO2019174378A1 (zh) * | 2018-03-14 | 2019-09-19 | 大连理工大学 | 一种基于深度预测和增强子网络的高质量深度估计方法 |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN109741383A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 基于空洞卷积和半监督学习的图像深度估计***与方法 |
WO2021013334A1 (en) * | 2019-07-22 | 2021-01-28 | Toyota Motor Europe | Depth maps prediction system and training method for such a system |
CN111311685A (zh) * | 2020-05-12 | 2020-06-19 | 中国人民解放军国防科技大学 | 一种基于imu/单目图像的运动场景重构无监督方法 |
CN111369608A (zh) * | 2020-05-29 | 2020-07-03 | 南京晓庄学院 | 一种基于图像深度估计的视觉里程计方法 |
CN111739078A (zh) * | 2020-06-15 | 2020-10-02 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
CN111860386A (zh) * | 2020-07-27 | 2020-10-30 | 山东大学 | 一种基于ConvLSTM卷积神经网络的视频语义分割方法 |
Non-Patent Citations (2)
Title |
---|
岑仕杰;何元烈;陈小聪;: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报, no. 04 * |
王欣盛;张桂玲;: "基于卷积神经网络的单目深度估计", 计算机工程与应用, no. 13 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023155043A1 (zh) * | 2022-02-15 | 2023-08-24 | 中国科学院深圳先进技术研究院 | 一种基于历史信息的场景深度推理方法、装置及电子设备 |
CN114627351A (zh) * | 2022-02-18 | 2022-06-14 | 电子科技大学 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
CN114627351B (zh) * | 2022-02-18 | 2023-05-16 | 电子科技大学 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微***与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN114998411B (zh) * | 2022-04-29 | 2024-01-09 | 中国科学院上海微***与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN115272438A (zh) * | 2022-08-19 | 2022-11-01 | 中国矿业大学 | 一种面向三维场景重建的高精度单目深度估计***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN113570658A (zh) | 基于深度卷积网络的单目视频深度估计方法 | |
CN110503680B (zh) | 一种基于非监督的卷积神经网络单目场景深度估计方法 | |
US11715258B2 (en) | Method for reconstructing a 3D object based on dynamic graph network | |
CN107818554B (zh) | 信息处理设备和信息处理方法 | |
CN110084304B (zh) | 一种基于合成数据集的目标检测方法 | |
CN111462206B (zh) | 一种基于卷积神经网络的单目结构光深度成像方法 | |
CN108171249B (zh) | 一种基于rgbd数据的局部描述子学习方法 | |
CN112634149B (zh) | 一种基于图卷积网络的点云去噪方法 | |
CN105513033B (zh) | 一种非局部联合稀疏表示的超分辨率重建方法 | |
CN112819853B (zh) | 一种基于语义先验的视觉里程计方法 | |
CN113177592B (zh) | 一种图像分割方法、装置、计算机设备及存储介质 | |
CN113450396A (zh) | 基于骨骼特征的三维/二维图像配准方法及装置 | |
Eichhardt et al. | Affine correspondences between central cameras for rapid relative pose estimation | |
CN112288788A (zh) | 单目图像深度估计方法 | |
CN117274515A (zh) | 基于ORB和NeRF映射的视觉SLAM方法及*** | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计*** | |
CN107392211B (zh) | 基于视觉稀疏认知的显著目标检测方法 | |
CN114332125A (zh) | 点云重建方法、装置、电子设备和存储介质 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN113838102A (zh) | 一种基于各向异性稠密卷积的光流确定方法和*** | |
CN111160362B (zh) | 一种fast特征均匀化提取与帧间特征误匹配去除方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
Nouduri et al. | Deep realistic novel view generation for city-scale aerial images | |
CN111696167A (zh) | 自范例学习引导的单张影像超分辨率重构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |