CN111402310A - 一种基于深度估计网络的单目图像深度估计方法及*** - Google Patents

一种基于深度估计网络的单目图像深度估计方法及*** Download PDF

Info

Publication number
CN111402310A
CN111402310A CN202010132201.2A CN202010132201A CN111402310A CN 111402310 A CN111402310 A CN 111402310A CN 202010132201 A CN202010132201 A CN 202010132201A CN 111402310 A CN111402310 A CN 111402310A
Authority
CN
China
Prior art keywords
layer
depth
module
image
estimation network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010132201.2A
Other languages
English (en)
Other versions
CN111402310B (zh
Inventor
张皓
扈玲玲
王祝萍
黄超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010132201.2A priority Critical patent/CN111402310B/zh
Publication of CN111402310A publication Critical patent/CN111402310A/zh
Application granted granted Critical
Publication of CN111402310B publication Critical patent/CN111402310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度估计网络的单目图像深度估计方法及***,该方法具体为:构建深度估计网络,将目标图像输入训练好的深度估计网络,获得目标图像深度图;所述的训练过程中采用相机位姿估计步骤;所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,所述的解码器包括5层包含跳跃连接的解码模块。与现有技术相比,本发明具有精度高、鲁棒性强等优点。

Description

一种基于深度估计网络的单目图像深度估计方法及***
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种基于深度估计网络的单目图像深度估计方法及***。
背景技术
在计算机视觉领域,对图像进行深度估计是一项不可或缺的基本任务,在基于视觉的同时定位与建图、三维场景重建、增强现实等领域起着十分重要的作用。传统的深度估计方法通常采用多视图几何的原理,根据场景中的多个视图间的差异,通过几何约束关系建立图像间的对应像素点的关系,从而从二维图像中恢复三维场景的深度及几何形状。由于需要人为的从图像中提取相应特征,建立对应匹配关系,从而得到图像的深度信息,计算量大且复杂。而随着深度学习的迅速发展,并与各个领域相结合后呈现出巨大的潜力和商业价值。深度学习在计算机视觉领域也表现出了强大的解析与表达能力,使得从单张图像中估计深度成为可能,基于深度学习的单目图像深度估计问题也成为近年来研究者们关注的热点之一。
但是,由于图像在成像过程中丢失了部分真实三维场景的信息,导致基于二维平面图像的计算机视觉技术存在固有的缺陷。并且由于现实场景的复杂性,存在动态物体的干扰,所导致的遮挡现象,使得网络不能很好的学习图像的特征,会丢失图像的一些特征信息,使得网络预测的深度存在准确度和清晰度问题。
现有技术也给出了一些解决方案,中国专利CN201810296143.X提出了一种利用深度学习对视频序列中单目视图深度估计优化方法,包括:通过一个深度估计神经网络对单目视图L进行深度估计,得到与L相同分辨率的深度图:将单目视图L与相邻帧的单目视图L作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,位姿变化包括相对位移和旋转;步骤S3:利用L的深度图,以及单目视图L与相邻帧的单目视图L的相对位姿变化对L进行重构,得到单目视图L重构后的视图L';步骤S4:通过特定卷积神经网络VGG-16分别得到L和L'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络,该专利避免了深度信息采集的高昂代价;
但该专利存在以下不足:
一是该专利最终获得的深度图与原视图图像分辨率相同,没有考虑图像的高维特征,使得其深度估计神经网络不能充分学习图像像素的深层特征,从而使得网络对图像上的弱纹理区域学习能力较弱;
二是该专利将特征图欧式距离上的对比以及两视图像素级的误差作为损失函数,但是没有考虑动态物体的干扰所导致的遮挡问题对网络训练的影响,而对于复杂环境来说,动态物体的干扰是不可避免的,由此导致网络训练的精度较低。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度估计网络的单目图像深度估计方法及***。
本发明的目的可以通过以下技术方案来实现:
一种基于深度估计网络的单目图像深度估计方法,具体为:
将目标图像输入训练好的深度估计网络,获得目标图像深度图;
其中,所述的深度估计网络为U-net结构,包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,每层包含32路的残差模块融合组成。所述的解码器包括5层解码模块,每1层解码模块由上采样层和卷积层组成;
第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。
进一步地,所述的训练过程中采用相机位姿估计步骤,具体为:
建立相机位姿估计网络,采集包含若干组图像序列的训练集,每组图像序列包含1张参考图It和多张对照图Is,将图像序列输入深度估计网络获得It的深度图Dt和Is的深度图Ds,将Dt和Ds输入位姿估计网络获取It与Is的相机位姿转换关系Tt→s,根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和参考图像深度图Ds→t,根据It、Is→t、Ds和Ds→t训练深度估计网络,根据It和Ds→t训练深度估计网络,获取深度估计网络的最优的模型权重,最后将任意的目标图像输入训练后的深度估计网络来生成精确性更高的全分辨率的目标图像深度图。
进一步地,所述的相机位姿估计网络包括编码结构,包括7层卷积模块和1层卷积层,其中每层卷积模块包括1层卷积层和1层ReLU激活层。
进一步地,所述的训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
所述的一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
所述的Charbonnier惩罚函数为:
Figure BDA0002396094480000031
其中,∈为超参,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
Figure BDA0002396094480000032
其中,M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
Figure BDA0002396094480000033
基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
Figure BDA0002396094480000034
其中,
Figure BDA0002396094480000035
Figure BDA0002396094480000036
分别表示水平和竖直方向上的深度图梯度;
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
进一步地,所述的Dt的获取过程为:
所述的It具有三通道,将It输入基于ResNeXt50模型构建的编码器,将3通道It分32个分支进行1x1、3x3和1x1的卷积操作,然后进行融合,逐步升维到64、256、512、1024和2048,学习It的不同尺度的深层抽象特征,获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图;在解码阶段,使用上采样-卷积的方式代替直接进行反卷积操作,避免了反卷积操作导致深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt。使用跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题;
所述的Ds的获取过程与Dt相同。
一种基于深度估计网络的单目图像深度估计***,包括:
深度估计模块,用于建立深度估计网络并利用该网络输出目标图像的目标图像深度图、参考图It的深度图Dt和对照图Is的深度图Ds
位姿估计模块,用于建立相机位姿估计网络并利用该网络获取Dt和Ds的相机位姿转换关系Tt→s
视图合成模块,用于根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t
网络训练模块,用于采集包含若干组图像序列的训练集并根据It、Is→t、Ds和Ds→t训练深度估计网络,每组图像序列包含1张It和多张Is
其中,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,由32路残差模块融合组成,所述的解码器包括5层解码模块,第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图;
所述的相机位姿估计网络包括编码结构,包括7层卷积模块和1层卷积层,其中每层卷积模块包括1层卷积层和1层ReLU激活层。
进一步地,所述的训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
所述的一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
所述的Charbonnier惩罚函数为:
Figure BDA0002396094480000051
其中,∈为超参,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
Figure BDA0002396094480000052
其中,M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
Figure BDA0002396094480000053
基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
Figure BDA0002396094480000054
其中,
Figure BDA0002396094480000055
Figure BDA0002396094480000056
分别表示水平和竖直方向上的深度图梯度;
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
进一步地,所述的视图合成步骤具体为:根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得Is→t和Ds→t
进一步地,所述的Dt的获取过程为:
将It输入基于ResNeXt50模型构建的编码器,所述的5层编码模块对应获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图;引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt,所述的Ds的获取过程与Dt相同。
与现有技术相比,本发明具有以如下有益效果:
(1)本发明采用U-net结构的深度估计网络,并结合相机位姿估计步骤对深度估计网络进行训练,不依赖于图像间的特征匹配来估计深度信息,精度高且成本低,深度估计网络为U-net结构,包括编码器和解码器,编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,将输入分别分配到32路个残差模块,分别在每路残差模块进行图像特征学习,最后再把所有支路的结果融合作为输出,充分学习图像特征,网络精度高,解码器包括交叉设置的5层上采样模块和5层卷积模块,所述的解码模块包含跳跃连接,解决了梯度消失问题,能够输出不同分辨率的深度图供网络训练及优化使用,使得训练后的深度估计网络的精度更高;
(2)本发明基于Charbonnier惩罚构建无监督方式的损失函数进行训练,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数,去除图像外点和噪声的干扰,提高模型的鲁棒性,输出的深度图像平滑性好,精度高;
(3)本发明通过位姿估计网络获取参考图和对照图的相机位姿转换关系,根据相机位姿转换关系和参照图深度图像中的像素点深度计算得到在对照图深度图像中相同像素点的对应信息,对对照图以及对照图深度图像进行双线性采样获得合成参考图以及合成参考图像深度图,通过构建图像间的差异作为以无监督方式训练网络的监督信号。从而避免了对场景真实深度值的获取;
(4)本发明将图像输入基于ResNeXt50模型构建的编码器,学习图像的不同尺度的深层抽象特征,获得分辨率分别为该图像分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图。在解码阶段,使用上采样加卷积的方式代替直接进行反卷积操作,避免了反卷积操作导致深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为原图像分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立图像与该图像深度图的映射关系,输出4种不同分辨率的图像深度图,跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题,整体使得深度估计网络输出的深度图像精度高。
附图说明
图1为深度估计网络结构图;
图2为本发明的方法流程图;
图3为单个残差块结构图;
图4为每层编码模块结构图;
图5为目标图像;
图6为目标图像深度图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
一种基于深度估计网络的单目图像深度估计方法,如图2,具体为:
采集公开数据集KITTI并对其进行并对进行预处理和数据增强操作,生成包含多个图像序列<I1,I2,…,IN>的训练集,每组图像序列包含1张参考图It和多张对照图Is(1≤s≤N,s≠t);
构建基于U-net结构的深度估计网络包括编码器和解码器,编码器基于ResNeXt50模型构建,对输入的图像升维以提取图像高维度特征,其网络框架如表1:
表1编码器框架表
Figure BDA0002396094480000071
Figure BDA0002396094480000081
其中,layer为卷积层数,Conv为卷积层,input为输入图像,Kernel代表卷积核,stride代表步长,C代表通道,chns代表输入输出通道数,output代表卷积层输出,max pool为最大池化层,如图3和图4,输入分辨率为192×640×3的单目图像,依次经过5个基于ResNext50模型的编码模块,并得到通道数分别为64、256、512、1024和2048的1/2、1/4、1/8和1/16分辨率的图像特征图。
通过解码器对特征图降维,建立特征图与深度图间的映射关系,获取图像深度图,解码器的结构如表2所示:
表2解码器框架表
Figure BDA0002396094480000082
其中,stage为输入对应的阶段,output为每一阶段输出分辨率,k为卷积核大小,s表示步长,upconv为解码阶段的卷积操作,iconv为每个解码模块的输入,disp为逆深度图,activation代表激活函数,ReLU、Sigmoid为每一阶段对应的激活函数;input为每一层对应的输入;
如图1和表2,所述的解码器包括5层解码模块,第1层解码模块Deconv5由第5层编码模块Enconv5依次连接卷积层和上采样层后与再与第4层编码模块Enconv4跳跃连接构成,第2层解码模块Deconv2由第1层解码模块Deconv1依次连接卷积层和上采样层后与再与第3层编码模块Enconv3跳跃连接构成,并且通过Sigmoid激活函数输出1/8分辨率的深度图disp4,第3层解码模块Deconv3由第2层解码模块Deconv2依次连接卷积层和上采样层后与再与第2层编码模块Enconv2跳跃连接构成,并且通过Sigmoid激活函数输出1/4分辨率的深度图disp3,第4层解码模块Deconv4由第3层解码模块Deconv3依次连接卷积层和上采样层后与再与第1层编码模块Enconv1构成跳跃连接产生,并且通过Sigmoid激活函数输出1/2分辨率的深度图disp2,第5层解码模块Deconv5由第4层解码模块Deconv4依次连接卷积层和上采样层构成,并且通过Sigmoid激活函数输出全分辨率的深度图disp1。
相机位姿估计网络结构如表3:
表3相机位姿估计网络结构表
Figure BDA0002396094480000091
其中,econv为位姿估计网络的每层,Input为每层的输入,位姿估计网络总共包含7层卷积模块和1层卷积层组成,其中每层卷积模块由卷积操作和ReLU激活函数组成,输入分辨率为192×640×3的图像对,最终通过位姿估计网络输出图像对间六自由度的相对位姿变换关系,包括位移关系和旋转关系。
将图像序列<I1,I2,…,IN>输入深度估计网络获得It的深度图Dt和Is的深度图Ds,将Dt和Ds输入位姿估计网络获取It与Is的相机位姿转换关系Tt→s,根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和参考图像深度图Ds→t,根据It、Is→t、Ds和Ds→t训练深度估计网络,根据It和Ds→t训练深度估计网络,获取深度估计网络的最优的模型权重,最后将任意的目标图像输入训练后的深度估计网络来生成精确性更高的全分辨率的目标图像深度图。
Dt的获取过程为:
It具有三通道,将It输入基于ResNeXt50模型构建的编码器,将3通道It分32个分支进行1x1、3x3和1x1的卷积操作,然后进行融合,逐步升维到64、256、512、1024和2048,学习It的不同尺度的深层抽象特征,获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图;利用上采样和卷积的操作代替直接进行反卷积操作避免了反卷积操作所导致的深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt,跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题,Ds的获取过程与Dt相同。
输入的目标图像如图5所示,输出的目标图像深度图如图6所示。
训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
Charbonnier惩罚函数为:
Figure BDA0002396094480000101
其中,∈为超参,设为0.001,当a<0.5时,该函数为非凸函数,当a>0.5时函数为凸函数,根据经验值,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
Figure BDA0002396094480000102
其中M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
Figure BDA0002396094480000103
为了保证深度估计网络预测的目标图像的梯度平滑性,基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
Figure BDA0002396094480000104
其中,
Figure BDA0002396094480000105
Figure BDA0002396094480000106
分别表示水平和竖直方向上的深度图梯度;
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
实施例二
一种基于深度估计网络的单目图像深度估计***,包括:
深度估计模块,用于建立深度估计网络并利用该网络输出目标图像的目标图像深度图、参考图It的深度图Dt和对照图Is的深度图Ds
位姿估计模块,用于建立相机位姿估计网络并利用该网络获取Dt和Ds的相机位姿转换关系Tt→s
视图合成模块,用于根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t
网络训练模块,用于采集包含若干组图像序列的训练集并根据It、Is→t、Ds和Ds→t训练深度估计网络,每组图像序列包含1张It和多张Is
其中,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,所述的解码器包括交叉设置的5层上采样模块和5层与编码模块跳跃连接的反卷积模块。
编码器结构如表4所示:
表4编码器框架表
Figure BDA0002396094480000111
Figure BDA0002396094480000121
其中,layer为卷积层数,Conv为卷积层,input为输入图像,Kernel代表卷积核,stride代表步长,C代表通道,chns代表输入输出通道数,output代表卷积层输出,max pool为最大池化层,如图3和图4。输入分辨率为192×640×3的单目图像,依次经过5个基于ResNext50模型的编码模块,并得到通道数为64,256,512,1024,2048的1/2、1/4、1/8、1/16分辨率的图像特征图。
通过解码器对特征图降维,建立特征图与深度图间的映射关系,获取图像深度图,解码器的结构如表5所示:
表5解码器框架表
Figure BDA0002396094480000122
其中,stage为输入对应的阶段,output为每一阶段输出分辨率,k为卷积核大小,s表示步长,upconv为解码阶段的卷积操作,iconv为每个解码模块的输入(请补充),disp为深度图,activation代表激活函数,ReLU和Sigmoid为每一阶段对应的激活函数,input为每一层对应的输入。
如图1和表5,所述的解码器包括5层解码模块,第1层解码模块Deconv5由第5层编码模块Enconv5依次连接卷积层和上采样层后与再与第4层编码模块Enconv4跳跃连接构成,第2层解码模块Deconv2由第1层解码模块Deconv1依次连接卷积层和上采样层后与再与第3层编码模块Enconv3跳跃连接构成,并且通过Sigmoid激活函数输出1/8分辨率的深度图disp4,第3层解码模块Deconv3由第2层解码模块Deconv2依次连接卷积层和上采样层后与再与第2层编码模块Enconv2跳跃连接构成,并且通过Sigmoid激活函数输出1/4分辨率的深度图disp3,第4层解码模块Deconv4由第3层解码模块Deconv3依次连接卷积层和上采样层后与再与第1层编码模块Enconv1构成跳跃连接产生,并且通过Sigmoid激活函数输出1/2分辨率的深度图disp2,第5层解码模块Deconv5由第4层解码模块Deconv4依次连接卷积层和上采样层构成,并且通过Sigmoid激活函数输出全分辨率的深度图disp1。
相机位姿估计网络结构如表6:
表6相机位姿估计网络结构表
Figure BDA0002396094480000131
其中,econv为位姿估计网络的每层,Input为每层的输入,位姿估计网络包括7层卷积模块和1层卷积层,每层卷积模块由卷积操作和ReLU激活函数组成,输入分辨率为192×640×3的图像对,最终通过位姿估计网络输出图像对间六自由度的相对位姿变换关系。
Dt的获取过程为:
It具有3通道,将It输入编码器,基于ResNeXt50模型构建的编码模块将3通道It分32个分支进行1x1、3x3和1x1的卷积操作,然后进行融合,逐步升维到64、256、512、1024和2048,学习It的不同尺度的深层抽象特征,获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图,利用上采样和卷积的操作代替直接进行反卷积操作避免了反卷积操作所导致的深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt,跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题,Ds的获取过程与Dt相同。
训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
Charbonnier惩罚函数为:
Figure BDA0002396094480000141
其中,∈为超参,当a<0.5时,该函数为非凸函数,当a>0.5时函数为凸函数,根据经验值,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
Figure BDA0002396094480000142
其中M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
Figure BDA0002396094480000143
为了保证深度估计网络预测的目标图像的梯度平滑性,基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
Figure BDA0002396094480000144
其中,
Figure BDA0002396094480000145
Figure BDA0002396094480000146
分别表示水平和竖直方向上的深度图梯度;
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
实施例一和实施例二提出了一种基于深度估计网络的单目图像深度估计方法及***,采用U-net结构的深度估计网络,并结合相机位姿估计步骤对深度估计网络进行训练,不依赖于图像间的特征匹配来估计深度信息,精度高且成本低,解码模块包含跳跃连接,解决了梯度消失问题,能够输出不同分辨率的深度图供网络训练及优化使用,使得训练后的深度估计网络的精度更高,同时基于Charbonnier惩罚构建无监督方式的损失函数进行训练,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数,去除图像外点和噪声的干扰,提高模型的鲁棒性,输出的深度图像平滑性好,精度高。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种基于深度估计网络的单目图像深度估计方法,具体为:构建深度估计网络,将目标图像输入训练好的深度估计网络,获得目标图像深度图;
所述的训练过程中采用相机位姿估计步骤;
其特征在于,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,所述的解码器包括5层包含跳跃连接的解码模块。
2.根据权利要求1所述的一种基于深度估计网络的单目图像深度估计方法,其特征在于,所述的相机位姿估计步骤具体为:
建立相机位姿估计网络,采集包含若干图像序列的训练集,每组图像序列包含1张参考图It和多张对照图Is,将图像序列输入深度估计网络获得It深度图Dt和Is深度图Ds,将Dt和Ds输入位姿估计网络获取It与Is的相机位姿转换关系Tt→s,根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t,根据It、Is→t、Ds和Ds→t训练深度估计网络。
3.根据权利要求2所述的一种基于深度估计网络的单目图像深度估计方法,其特征在于,所述的相机位姿估计网络包括7层卷积模块和1层卷积层,其中每个卷积模块包括1层卷积层和1层ReLU激活函数层。
4.根据权利要求2所述的一种基于深度估计网络的单目图像深度估计方法,其特征在于,所述的训练过程中采用的损失函数πfinal的计算公式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数,pe(It,Is)为重投影损失函数,Ldepth为几何一致性损失函数,Ls为深度图梯度平滑损失函数;
所述的pe(It,Is)的计算公式为:
Figure FDA0002396094470000011
其中,M为像素点总数;
所述的Ldepth的计算公式为:
Figure FDA0002396094470000021
所述的Ls计算公式为:
Figure FDA0002396094470000022
其中,
Figure FDA0002396094470000023
Figure FDA0002396094470000024
分别表示水平和竖直方向上的深度图梯度。
5.根据权利要求1所述的一种基于深度估计网络的单目图像深度估计方法,其特征在于,第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。
6.一种基于深度估计网络的单目图像深度估计***,其特征在于,包括:
深度估计模块,用于建立深度估计网络并利用该网络输出目标图像的目标图像深度图、参考图It的深度图Dt和对照图Is的深度图Ds
位姿估计模块,用于建立相机位姿估计网络并利用该网络获取Dt和Ds的相机位姿转换关系Tt→s
视图合成模块,用于根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t
网络训练模块,用于采集包含若干组图像序列的训练集并根据It、Is→t、Ds和Ds→t训练深度估计网络,每组图像序列包含1张It和多张Is
其中,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建所述的解码器包括5层解码模块,每1层解码模块由上采样层和卷积层组成。
7.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计***,其特征在于,所述的相机位姿估计网络包括7层卷积模块和1层卷积层,其中每层卷积模块包括1层卷积层和1层ReLU激活函数层。
8.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计***,其特征在于,所述的训练过程中采用的损失函数πfinal的计算公式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数,pe(It,Is)为重投影损失函数,Ldepth为几何一致性损失函数,Ls为深度图梯度平滑损失函数;
所述的pe(It,Is)的计算公式为:
Figure FDA0002396094470000031
其中,M为像素点总数;
所述的Ldepth的计算公式为:
Figure FDA0002396094470000032
所述的Ls计算公式为:
Figure FDA0002396094470000033
其中,
Figure FDA0002396094470000034
Figure FDA0002396094470000035
分别表示水平和竖直方向上的深度图梯度。
9.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计***,其特征在于,第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。
CN202010132201.2A 2020-02-29 2020-02-29 一种基于深度估计网络的单目图像深度估计方法及*** Active CN111402310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010132201.2A CN111402310B (zh) 2020-02-29 2020-02-29 一种基于深度估计网络的单目图像深度估计方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010132201.2A CN111402310B (zh) 2020-02-29 2020-02-29 一种基于深度估计网络的单目图像深度估计方法及***

Publications (2)

Publication Number Publication Date
CN111402310A true CN111402310A (zh) 2020-07-10
CN111402310B CN111402310B (zh) 2023-03-28

Family

ID=71436010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010132201.2A Active CN111402310B (zh) 2020-02-29 2020-02-29 一种基于深度估计网络的单目图像深度估计方法及***

Country Status (1)

Country Link
CN (1) CN111402310B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950477A (zh) * 2020-08-17 2020-11-17 南京大学 一种基于视频监督的单图像三维人脸重建方法
CN111986181A (zh) * 2020-08-24 2020-11-24 中国科学院自动化研究所 基于双注意力机制的血管内支架图像分割方法和***
CN112085776A (zh) * 2020-07-31 2020-12-15 山东科技大学 一种直接法无监督单目图像场景深度估计方法
CN112184611A (zh) * 2020-11-03 2021-01-05 支付宝(杭州)信息技术有限公司 图像生成模型训练方法以及装置
CN112862089A (zh) * 2021-01-20 2021-05-28 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113793472A (zh) * 2021-09-15 2021-12-14 应急管理部沈阳消防研究所 基于特征深度聚合网络的图像型火灾探测器位姿估计方法
CN114693759A (zh) * 2022-03-31 2022-07-01 电子科技大学 一种基于编解码网络的轻量级快速图像深度估计方法
CN115294282A (zh) * 2022-08-19 2022-11-04 中国矿业大学 三维场景重建中增强特征融合的单目深度估计***及其方法
CN116129036A (zh) * 2022-12-02 2023-05-16 中国传媒大学 一种深度信息引导的全方向图像三维结构自动恢复方法
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及***
CN116342675A (zh) * 2023-05-29 2023-06-27 南昌航空大学 一种实时单目深度估计方法、***、电子设备及存储介质
CN116758131A (zh) * 2023-08-21 2023-09-15 之江实验室 一种单目图像深度估计方法、装置和计算机设备
CN116797625A (zh) * 2023-07-20 2023-09-22 无锡埃姆维工业控制设备有限公司 一种单目三维工件位姿估计方法
CN117115331A (zh) * 2023-10-25 2023-11-24 苏州元脑智能科技有限公司 一种虚拟形象的合成方法、合成装置、设备及介质
WO2024131377A1 (zh) * 2022-12-20 2024-06-27 维悟光子(北京)科技有限公司 用于光学成像***的图像编解码模型的训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977981A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于双目视觉的场景解析方法、机器人及存储装置
CN110473254A (zh) * 2019-08-20 2019-11-19 北京邮电大学 一种基于深度神经网络的位姿估计方法及装置
CN110738699A (zh) * 2019-10-12 2020-01-31 浙江省北大信息技术高等研究院 一种无监督绝对尺度计算方法及***
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977981A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于双目视觉的场景解析方法、机器人及存储装置
CN110473254A (zh) * 2019-08-20 2019-11-19 北京邮电大学 一种基于深度神经网络的位姿估计方法及装置
CN110782490A (zh) * 2019-09-24 2020-02-11 武汉大学 一种具有时空一致性的视频深度图估计方法及装置
CN110738699A (zh) * 2019-10-12 2020-01-31 浙江省北大信息技术高等研究院 一种无监督绝对尺度计算方法及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JOHN PAUL T ET AL: "AsiANet: Autoencoders in Autoencoder for Unsupervised Monocular Depth Estimation", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 *
LU SHENG ET AL: "Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry Towards Monocular Deep SLAM", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
TINGHUI ZHOU ET AL: "Unsupervised Learning of Depth and Ego-Motion from Video", 《ARXIV:1704.07813V2》 *
WEI YIN ET AL: "Enforcing geometric constraints of virtual normal for depth prediction", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
梁欣凯 等: "基于深度学习的序列图像深度估计技术", 《红外与激光工程》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085776B (zh) * 2020-07-31 2022-07-19 山东科技大学 一种直接法无监督单目图像场景深度估计方法
CN112085776A (zh) * 2020-07-31 2020-12-15 山东科技大学 一种直接法无监督单目图像场景深度估计方法
CN111950477A (zh) * 2020-08-17 2020-11-17 南京大学 一种基于视频监督的单图像三维人脸重建方法
CN111950477B (zh) * 2020-08-17 2024-02-02 南京大学 一种基于视频监督的单图像三维人脸重建方法
CN111986181A (zh) * 2020-08-24 2020-11-24 中国科学院自动化研究所 基于双注意力机制的血管内支架图像分割方法和***
CN112184611A (zh) * 2020-11-03 2021-01-05 支付宝(杭州)信息技术有限公司 图像生成模型训练方法以及装置
CN112862089A (zh) * 2021-01-20 2021-05-28 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112862089B (zh) * 2021-01-20 2023-05-23 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN113077505B (zh) * 2021-04-19 2023-11-17 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113793472A (zh) * 2021-09-15 2021-12-14 应急管理部沈阳消防研究所 基于特征深度聚合网络的图像型火灾探测器位姿估计方法
CN113793472B (zh) * 2021-09-15 2023-01-20 应急管理部沈阳消防研究所 基于特征深度聚合网络的图像型火灾探测器位姿估计方法
CN114693759A (zh) * 2022-03-31 2022-07-01 电子科技大学 一种基于编解码网络的轻量级快速图像深度估计方法
CN115294282A (zh) * 2022-08-19 2022-11-04 中国矿业大学 三维场景重建中增强特征融合的单目深度估计***及其方法
CN116129036A (zh) * 2022-12-02 2023-05-16 中国传媒大学 一种深度信息引导的全方向图像三维结构自动恢复方法
CN116129036B (zh) * 2022-12-02 2023-08-29 中国传媒大学 一种深度信息引导的全方向图像三维结构自动恢复方法
WO2024131377A1 (zh) * 2022-12-20 2024-06-27 维悟光子(北京)科技有限公司 用于光学成像***的图像编解码模型的训练方法
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及***
CN116245927B (zh) * 2023-02-09 2024-01-16 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及***
CN116342675B (zh) * 2023-05-29 2023-08-11 南昌航空大学 一种实时单目深度估计方法、***、电子设备及存储介质
CN116342675A (zh) * 2023-05-29 2023-06-27 南昌航空大学 一种实时单目深度估计方法、***、电子设备及存储介质
CN116797625A (zh) * 2023-07-20 2023-09-22 无锡埃姆维工业控制设备有限公司 一种单目三维工件位姿估计方法
CN116797625B (zh) * 2023-07-20 2024-04-19 无锡埃姆维工业控制设备有限公司 一种单目三维工件位姿估计方法
CN116758131A (zh) * 2023-08-21 2023-09-15 之江实验室 一种单目图像深度估计方法、装置和计算机设备
CN116758131B (zh) * 2023-08-21 2023-11-28 之江实验室 一种单目图像深度估计方法、装置和计算机设备
CN117115331A (zh) * 2023-10-25 2023-11-24 苏州元脑智能科技有限公司 一种虚拟形象的合成方法、合成装置、设备及介质
CN117115331B (zh) * 2023-10-25 2024-02-09 苏州元脑智能科技有限公司 一种虚拟形象的合成方法、合成装置、设备及介质

Also Published As

Publication number Publication date
CN111402310B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN111402310B (zh) 一种基于深度估计网络的单目图像深度估计方法及***
Xiao et al. Satellite video super-resolution via multiscale deformable convolution alignment and temporal grouping projection
CN110443842B (zh) 基于视角融合的深度图预测方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110490919B (zh) 一种基于深度神经网络的单目视觉的深度估计方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
CN111696035A (zh) 一种基于光流运动估计算法的多帧图像超分辨率重建方法
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN113792641B (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN113034563A (zh) 基于特征共享的自监督式单目深度估计方法
CN114037714A (zh) 一种面向******穿刺的3d mr与trus图像分割方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN112906675B (zh) 一种固定场景中的无监督人体关键点检测方法及***
CN113658047A (zh) 一种结晶图像超分辨率重建方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及***
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
Tang et al. HTC-Net: A hybrid CNN-transformer framework for medical image segmentation
CN117635801A (zh) 基于实时渲染可泛化神经辐射场的新视图合成方法及***
CN114565624B (zh) 基于多期立体图元生成器的肝脏病灶分割的图像处理方法
CN116246010A (zh) 一种基于图像的人体三维重建方法
CN116266336A (zh) 视频超分辨率重建方法、装置、计算设备及存储介质
CN115330935A (zh) 一种基于深度学习的三维重建方法及***
Takeda et al. Color guided depth map super-resolution based on a deep self-learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant