CN117635444A - 基于辐射差和空间距离的深度补全方法、装置和设备 - Google Patents
基于辐射差和空间距离的深度补全方法、装置和设备 Download PDFInfo
- Publication number
- CN117635444A CN117635444A CN202311809351.2A CN202311809351A CN117635444A CN 117635444 A CN117635444 A CN 117635444A CN 202311809351 A CN202311809351 A CN 202311809351A CN 117635444 A CN117635444 A CN 117635444A
- Authority
- CN
- China
- Prior art keywords
- depth
- scale
- depth map
- sparse
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 230000005855 radiation Effects 0.000 title claims abstract description 59
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 238000007781 pre-processing Methods 0.000 claims abstract description 41
- 230000002146 bilateral effect Effects 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000001914 filtration Methods 0.000 claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 23
- 230000000644 propagated effect Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
本申请涉及一种基于辐射差和空间距离的深度补全方法、装置和设备,基于多尺度架构构建双边传播网络;其中,在预处理模块中设计超网络,通过滤波权重使双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好;预处理模块对彩色图像及稀疏深度图进行处理,得到各尺度下对应图像编码与深度特征;将相同尺度的图像编码与深度特征输入多模态融合模块进行融合,得到稠密深度图;深度优化模块基于稀疏深度图对多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。本发明解决了多模态融合阶段难以解决稀疏深度图表示的歧义性和卷积操作的空间不变性问题。
Description
技术领域
本申请涉及图像深度补全技术领域,特别是涉及一种基于辐射差和空间距离的深度补全方法、装置和设备。
背景技术
稠密深度感知是一种计算图像各像素点到相机距离的技术,其在计算机视觉领域,尤其是3D视觉任务中发挥着重要的作用。使用激光雷达技术测量深度是目前实际部署中最可靠的解决方案,但由于硬件方面的限制,直接估计稠密稠密深度图仍然非常困难。一种经济有效的方法是利用机器视觉算法进行深度估计,但无论是基于双目、单目还是多视图的方法估计得到的精度都非常有限。然而,获得正确的像素级场景深度是推进自动驾驶、机器人和增强现实等领域应用落地的技术关键。
一般来说,深度补全方法主要关注以下三个问题:即如何处理不规则的稀疏数据、如何融合多模态数据以及如何优化补全结果。早期的方法通常采用多模态融合模块这类单阶段深度补全策略,这些方法在深度边缘处会出现过度平滑,得到的结果缺失细节。目前越来越多的工作已经开始采用一种两阶段的方法,通过额外附加一个网络进行后处理,缓解过度平滑的问题。然而,这些方法通常用0来表示输入稀疏深度图的未知像素,导致在区分有效和无效像素值时存在歧义性。此外,对于不规则采样的稀疏深度点来说,卷积操作隐含的空间不变性会降低多模态融合模块的性能,即使附加后处理阶段也无法有效解决这些问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在区分有效和无效像素值时避免歧义性,提高多模态融合模块的性能的基于辐射差和空间距离的深度补全方法。
一种基于辐射差和空间距离的深度补全方法,所述方法包括:
获取彩色图像以及与所述彩色图像配对的稀疏深度图;
基于多尺度架构构建双边传播网络,所述双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在所述预处理模块中设计超网络,通过所述超网络结合辐射差和空间距离生成滤波权重,通过所述滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好;
所述预处理模块对所述彩色图像及所述稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将所述初始化稠密深度图逆投影到相机空间得到深度特征;
将相同尺度的所述图像编码与所述深度特征输入所述多模态融合模块进行融合,得到稠密深度图;
所述深度优化模块基于稀疏深度图对所述多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
一种基于辐射差和空间距离的深度补全装置,所述装置包括:
数据获取模块,用于获取彩色图像以及与所述彩色图像配对的稀疏深度图;
网络构建模块,用于基于多尺度架构构建双边传播网络,所述双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在所述预处理模块中设计超网络,通过所述超网络结合辐射差和空间距离生成滤波权重,通过所述滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好;
特征提取模块,用于通过所述预处理模块对所述彩色图像及所述稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将所述初始化稠密深度图逆投影到相机空间得到深度特征;
特征融合模块,用于将相同尺度的所述图像编码与所述深度特征输入所述多模态融合模块进行融合,得到稠密深度图;
更新输出模块,用于通过所述深度优化模块基于稀疏深度图对所述多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
上述基于辐射差和空间距离的深度补全方法、装置和设备,所述方法通过获取彩色图像以及与彩色图像配对的稀疏深度图;基于多尺度架构构建双边传播网络,双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在预处理模块中设计超网络,通过超网络结合辐射差和空间距离生成滤波权重,通过滤波权重使双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好;预处理模块对彩色图像及稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将初始化稠密深度图逆投影到相机空间得到深度特征;将相同尺度的图像编码与深度特征输入多模态融合模块进行融合,得到稠密深度图;深度优化模块基于稀疏深度图对多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
本发明在预处理模块中设计超网络,通过超网络结合辐射差和空间距离生成滤波权重,通过滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好,从而很好的保持边缘。通过引入的这种非线性传播模型实现邻域有效深度值的加权组合,在早期阶段对深度进行了传播,避免了多模态融合阶段难以解决稀疏深度图表示的歧义性和卷积操作的空间不变性问题;并且,本发明提供的方法估计稠密深度图的性能优异,为深度估计的实际应用拓宽了思路。
附图说明
图1为一个实施例中基于辐射差和空间距离的深度补全方法的流程示意图;
图2为一个实施例中基于辐射差和空间距离的深度补全的整体框架示意图;
图3为一个实施例中实例效果对比图;
图4为一个实施例中基于辐射差和空间距离的深度补全装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体地限定。
下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。
在一个实施例中,如图1所示,提供了一种基于辐射差和空间距离的深度补全方法,包括以下步骤:
步骤202,获取彩色图像以及与彩色图像配对的稀疏深度图。
可以理解,本发明对模型进行训练的数据集采用室内数据集NYUDepthV2和室外数据集KITTI。其中NYUDepthV2数据集包含由Kinect传感器收集的464个场景,本发明将从249个场景中采样的50K图像帧作为训练数据,并在官方的测试集上进行评估,测试集包括来自215个场景的654个样本。本发明将图像下采样到320×240后中心裁剪到304×228,每一帧对应的稀疏深度图由从真值深度中随机采样500个点产生。最后将图像填充到320×256作为输入,并在大小为304×228的有效区域进行测试。KITTI深度补全数据集由自动驾驶的车辆收集,其真值深度由激光雷达扫描产生,并通过立体图像对进一步验证。该数据集分别提供了86,898帧和1,000帧用于模型的训练和验证。本发明将图像帧裁剪至256×1216进行训练,并直接使用全分辨率帧作为测试输入。
本实施例通过从深度补全数据集中选取彩色图像I,并通过校准参数从3D点云投影到图像平面生成其对应的同分辨率稀疏深度图S。
步骤204,基于多尺度架构构建双边传播网络,双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在预处理模块中设计超网络,通过超网络结合辐射差和空间距离生成滤波权重,通过滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好。
可以理解,如图2所示,提供了基于辐射差和空间距离的深度补全的整体框架示意图,基于多尺度架构构建的双边传播网络,其包含6个尺度的网络,在预处理模块中的图像特征提取单元与稀疏深度提取单元,通过将尺度s设置为0、1、2、3、4、5,从最高分辨率0到低分辨率5对彩色图像以及稀疏深度图进行特征提取;在双边传播网络中,从最低分辨率5到最高分辨率0对稠密深度图进行由粗到精的估计。
另一方面,在预处理模块中设计超网络超网络/>为MLP网络,由四个密集连接的层组成,每层后接一个批量归一化层和一个GeLU激活层,其中跳跃层连接的是第二和最后一层的输出。MLP在任何(i,j)像素对之间共享,但采用不同的编码作为输入,从而生成空间可变和内容相关的参数。通过超网络/>结合辐射差和空间距离生成滤波权重/>αij和βij,使深度传播带有在辐射差和空间邻域中对最近值的偏好,从而很好地保持边缘。
多模态融合模块采用U-Net网络,该网络为编码器-解码器结构,从而在多个尺度上聚合局部和全局特征。编码器部分包括2个ResNet模块,在各尺度进行特征提取,采用步长为2的卷积层降低特征图的分辨率。解码器部分包括步长为2的反卷积层上采样特征图,以及跳跃连接操作融合具有相同分辨率的上采样特征和编码特征。
步骤206,预处理模块对彩色图像及稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将初始化稠密深度图逆投影到相机空间得到深度特征。
可以理解,双边传播网络的预处理模块包括结构相同的图像特征提取单元与稀疏深度提取单元,通过图像特征提取单元和稀疏深度提取单元对彩色图像I和稀疏深度图S进行多尺度编码。其中,图像特征提取单元通过堆叠的ResNet模块分别提取彩色图像I的多尺度特征Is,在图像特征提取单元,上一网络尺度的输出为下一网络尺度的输入。在稀疏深度提取模块,各网络尺度分别接收稀疏深度图作为输入,然后分别输出不同尺度下的稀疏深度图,通过稀疏深度提取单元分别提取稀疏深度图不同深度下的稀疏深度图,将稀疏深度图基于滤波权重进行处理后,作为融合阶段各对应尺度下的初始稠密深度图
对于每个尺度s,都可以得到一张初始的稠密深度图及图像编码/>通过将初始化稠密深度图/>逆投影到相机空间作为深度特征,然后将深度特征与图像编码/>进行连接。
步骤208,将相同尺度的图像编码与深度特征输入多模态融合模块进行融合,得到稠密深度图。
步骤210,深度优化模块基于稀疏深度图对多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
可以理解,在双边传播网络,多模态融合模块遵循早期融合机制,通过简单的连接相同尺度下的图像特征和深度特征,然后将连接的特征作为U-Net网络的输入进行多模态融合。U-Net网络最终输出融合的特征图Fs。通过对Fs应用卷积层来估计残差深度图,得到各尺度下更新后的稠密深度图同时,在多模态融合模块,上一网络尺度下更新的稠密深度图作为下一网络尺度的输入。经过T次迭代更新后,得到的最终稠密深度图为多核多步的加权组合。
值得说明的是,本发明的网络在4台Nvidia RTX 3090GPU工作站上进行训练,采用权重衰减为0.05的AdamW作为优化器,梯度阈值的L2范数大于0.1。设置批量大小为8,最大学习率为0.001,经过300K步左右的迭代完成训练。
上述基于辐射差和空间距离的深度补全方法,所述方法通过获取彩色图像以及与彩色图像配对的稀疏深度图;基于多尺度架构构建双边传播网络,双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在预处理模块中设计超网络,通过超网络结合辐射差和空间距离生成滤波权重,通过滤波权重使双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好;预处理模块对彩色图像及稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将初始化稠密深度图逆投影到相机空间得到深度特征;将相同尺度的图像编码与深度特征输入多模态融合模块进行融合,得到稠密深度图;深度优化模块基于稀疏深度图对多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
本发明在预处理模块中设计超网络,通过超网络结合辐射差和空间距离生成滤波权重,通过滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好,从而很好的保持边缘。通过引入的这种非线性传播模型实现邻域有效深度值的加权组合,在早期阶段对深度进行了传播,避免了多模态融合阶段难以解决稀疏深度图表示的歧义性和卷积操作的空间不变性问题;并且,本发明提供的方法估计稠密深度图的性能优异,为深度估计的实际应用拓宽了思路。
其中一个实施例中,设计多尺度损失函数对双边传播网络进行训练;多尺度损失函数表示为:
式中,Dgt表示真值深度图;Pv表示真值深度图Dgt中的有效像素集;Us表示双线性插值操作;λs表示平滑不同尺度损失的超参数,一般设置为4-s;s表示尺度;Ds表示s尺度下网络预测得到的稠密深度图。
可以理解,通过多尺度损失函数对双边传播网络进行端到端的训练,输出稠密深度图。多尺度损失函数为每个尺度估计的稠密深度图提供足够的监督。
其中一个实施例中,在所述预处理模块中设计超网络,通过所述超网络结合辐射差和空间距离生成滤波权重,表达式为:
式中,表示超网络;/>αij、βij表示滤波权重;/>和/>为目标像素i和源像素j的图像编码;/>为源像素j的深度编码,由对应尺度下的稀疏深度图逆投影到相机空间得到;从i到j的像素坐标空间偏移量编码,辐射差项由/>隐式考虑。
可以理解,α,β直接回归得到,这对于稀疏和不规则的分布是非常有用的。当目标像素与最近邻像素空间距离太远,α很有可能学到0,而传播由β决定。对于任意一个目标像素i,本发明用一个额外的softmax层得到对于目标像素i邻域的N个有效像素,以确保
其中一个实施例中,通过滤波权重使双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好,所述传播过程表示为:
式中,表示初始化的稠密深度图;/>表示候选稠密深度图;Sj为源像素j的稀疏深度值;/>表示在欧式空间下距离像素点i最近的N个点的集合。
可以理解,式中目标像素i处的深度被建模为N个最近邻有效稀疏深度值Sj的组合。
进一步地,还包括以下步骤:
在像平面上采用欧氏距离找到包含的N个最近邻有效像素对应的稀疏深度值Sj。
首先通过系数αij和βij对稀疏深度值Sj进行仿射变换生成候选深度然后用系数/>将候选深度的/>线性组合生成目标深度/>
其中一个实施例中,对彩色图像及稀疏深度图进行特征提取,得到各尺度下对应的图像特征与稀疏深度图,包括:
预处理模块包括结构相同的图像特征提取单元与稀疏深度提取单元;图像特征提取单元与稀疏深度提取单元的网络尺度依次递减。
将彩色图像输入图像特征提取单元,图像特征提取单元对彩色图像进行多尺度编码,得到不同尺度下的图像编码。
将稀疏深度图输入稀疏深度提取单元,稀疏深度提取单元对稀疏深度图进行多尺度编码,得到不同尺度下的稀疏深度图。
其中一个实施例中,将彩色图像输入图像特征提取单元,图像特征提取单元对彩色图像进行多尺度编码,得到不同尺度下的图像特征,包括:
将彩色图像输入图像特征提取单元,计算尺度s下的图像编码,函数表达式为:
式中,表示图像编码;Is表示图像特征;Fs+1表示多模态融合特征;Ds+1表示s+1尺度下初始化的稠密深度图逆投影到相机空间的深度特征。
可以理解,判断尺度s是否为最小尺度,若是,则将该尺度下的图像特征Is作为图像编码若否,则将尺度s+1下模态融合阶段传播深度迭代更新得到的初始化稠密深度图逆投影到相机空间得到深度特征Ds+1,然后连接尺度s+1下多模态融合阶段输出融合的特征图Fs+1,将特征图Fs+1与深度特征Ds+1作为反卷积操作的输入,然后上采样到得到尺度s下的输出后,将输出与图像特征Is连接起来,并采用一个额外的卷积运算生成图像编码
其中一个实施例中,将稀疏深度图输入稀疏深度提取单元,稀疏深度提取单元对稀疏深度图进行多尺度编码,得到不同尺度下的稀疏深度图,包括:
将稀疏深度图输入稀疏深度提取单元,计算尺度s下的稀疏深度图Ss,函数表达式为:
式中,表示深度测量有效性的指标函数;ε是一个接近0的值;/>表示尺度s下目标像素i在原分辨率下对应的像素坐标(x,y);ωs表示权重;Sj表示网络输入的稀疏深度图。
然后,将尺度s下的稀疏深度图Ss进行基于滤波权重进行处理后得到初始稠密深度图将初始稠密深度图/>逆投影到相机空间作为深度特征Ds。
可以理解,判断尺度s是否为最小尺度,若是,则将原稀疏深度图S作为该尺度下的稠密深度图,若否,则将原稀疏深度图S进行加权池化得到尺度s下的稀疏深度图Ss。其中,式中的权重ωs由尺度s下的图像编码生成,即采用周期变换算子将图像编码从H/s×W/s×s2重新排列为形状H×W,并用指数变换保证生成的权值图ωs是正的,且具有与S相同的分辨率。
是集合{(x,y)|six≤x<six+s,siy≤y<siy+s},表示尺度s下目标像素i在原分辨率下对应的像素坐标(x,y)。Ss在低分辨率下可能更密集,但在上式,中,当等式中的时它仍然具有无效像素,因此,将尺度s下的稀疏深度图Ss进行基于滤波权重进行处理后得到初始稠密深度图/>将初始稠密深度图/>逆投影到相机空间作为深度特征Ds。
其中一个实施例中,深度优化模块基于稀疏深度图对多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图,包括:
构建第t次迭代处的更新方程,表示为:
式中,表示网络传播的深度,在t=0时被初始化为融合深度图D‘’;/>是输入融合特征F后卷积层的输出;k为内容相关亲和力图;/>是在一个k×k局部窗口中邻域像素的集合。可以理解,/>的L1-正则化约束保证了传播过程的稳定性。当t=0时,/>初始化为步骤208中的/>式中使用的/>不同于双边传播模块中使用的/>是在一个k×k局部窗口中邻域像素的集合,与稀疏深度值的有效性无关。
通过稀疏深度图更新多模态融合模块传播的深度更新公式表示为:
式中,γ是由卷积层和sigmoid层作用在融合特征F上生成的置信度;Si表示网络输入的稀疏深度图;表示深度测量有效性的指标函数。
根据上述公式执行迭代T次,得到补全后的稠密深度图,表示为:
式中,表示不同核尺寸的集合;/>表示不同迭代步数的集合;τ和σ作为由卷积和softmax层生成的置信图,分别在不同迭代步数和核大小进行归一化。本发明设置T的范围为2到12,增量为2,从低分辨率到高分辨率共6个尺度。
可以理解,本实施例引入了一个类似于CSPN++的简单卷积空间传播模块实现每个尺度下的深度细化。预设传播核的大小为k,构建第t次迭代处的更新方程。
整体上,本发明提出的方法,对多尺度架构中的任意一个尺度s,稠密深度图的估计都包含三个连续的阶段,即预处理阶段、多模态融合阶段和优化阶段。预处理阶段主要通过结构相同的图像特征提取单元与稀疏深度提取单元进行,通过引入一个非线性传播模型从稀疏深度图得到用作多模态融合阶段初始化的稠密深度图,其输出的深度是邻域有效深度值和网络学习到的参数的加权组合。多模态融合阶段则采用U-Net网络融合图像编码和深度特征来生成各网络尺度下的残差深度图,得到各尺度下更新后的稠密深度图然后在优化阶段,通过卷积模块利用稀疏深度图更新稠密深度图/>得到多核多步的加权组合的最终稠密深度图/>
其中一个实施例中,为了验证本发明提供的方法的有效性,选取13个在NYU v2和KITTI数据集上训练的先进方法进行对比,具体结果请参阅表1和图3。
从表1和图3可以看出,在KITTIDC排行榜上,本发明提出的方法排名第一,超过了RMSE指标上的所有其他方法,在其他指标上也有类似的性能。在NYUv2数据集上,方法同样在RMSE和δ指标上达到最佳。图3的第一行是彩色图像、第二行是对应的稀疏深度图、第三至第五行是GuideNet、NLSPN、CFormer方法的深度补全效果,最后一行是本发明提出的BPNet效果。可视化分析表明,本发明提出的方法实现了更清晰的物体边界和更丰富的细节,而其他方法很难在这些具有挑战性的区域中估计出准确的深度。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于辐射差和空间距离的深度补全装置,包括:数据获取模块402、网络构建模块404、特征提取模块406、特征融合模块408和更新输出模块410,其中:
数据获取模块402,用于获取彩色图像以及与彩色图像配对的稀疏深度图。
网络构建模块404,用于用于基于多尺度架构构建双边传播网络,双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在预处理模块中设计超网络,通过超网络结合辐射差和空间距离生成滤波权重,通过滤波权重使双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好。
特征提取模块406,用于通过预处理模块对彩色图像及稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将初始化稠密深度图逆投影到相机空间得到深度特征。
特征融合模块408,用于将相同尺度的所述图像编码与深度特征输入多模态融合模块进行融合,得到稠密深度图;
更新输出模块410,用于通过深度优化模块基于稀疏深度图对多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
关于基于辐射差和空间距离的深度补全装置的具体限定可以参见上文中对于基于辐射差和空间距离的深度补全方法的限定,在此不再赘述。上述基于辐射差和空间距离的深度补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于辐射差和空间距离的深度补全数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于辐射差和空间距离的深度补全方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
步骤202,获取彩色图像以及与彩色图像配对的稀疏深度图。
步骤204,基于多尺度架构构建双边传播网络,双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在预处理模块中设计超网络,通过超网络结合辐射差和空间距离生成滤波权重,通过滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好。
步骤206,预处理模块对彩色图像及稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将初始化稠密深度图逆投影到相机空间得到深度特征。
步骤208,将相同尺度的所述图像编码与深度特征输入多模态融合模块进行融合,得到稠密深度图。
步骤210,深度优化模块基于稀疏深度图对多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于辐射差和空间距离的深度补全方法,其特征在于,所述方法包括:
获取彩色图像以及与所述彩色图像配对的稀疏深度图;
基于多尺度架构构建双边传播网络,所述双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在所述预处理模块中设计超网络,通过所述超网络结合辐射差和空间距离生成滤波权重,通过所述滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好;
所述预处理模块对所述彩色图像及所述稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将所述初始化稠密深度图逆投影到相机空间得到深度特征;
将相同尺度的所述图像编码与所述深度特征输入所述多模态融合模块进行融合,得到稠密深度图;
所述深度优化模块基于稀疏深度图对所述多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
2.根据权利要求1所述的基于辐射差和空间距离的深度补全方法,其特征在于,还包括,设计多尺度损失函数对所述双边传播网络进行训练;
所述多尺度损失函数表示为:
式中,Dgt表示真值深度图;Pv表示真值深度图Dgt中的有效像素集;Us表示双线性插值操作;λs表示平滑不同尺度损失的超参数;s表示尺度;Ds表示s尺度下网络预测得到的稠密深度图。
3.根据权利要求1或2所述的基于辐射差和空间距离的深度补全方法,其特征在于,在所述预处理模块中设计超网络,通过所述超网络结合辐射差和空间距离生成滤波权重,表达式为:
式中,表示超网络;/>αij、βij表示滤波权重;/>和/>为目标像素i和源像素j的图像编码;/>为源像素j的深度编码;/>从i到j的像素坐标空间偏移量编码,辐射差项由/>隐式考虑。
4.根据权利要求3所述的基于辐射差和空间距离的深度补全方法,其特征在于,通过所述滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好,所述传播过程表示为:
式中,表示初始化的稠密深度图;/>表示候选稠密深度图;Sj为源像素j的稀疏深度值;/>表示在欧式空间下距离像素点i最近的N个点的集合。
5.根据权利要求3所述的基于辐射差和空间距离的深度补全方法,其特征在于,所述预处理模块对所述彩色图像及所述稀疏深度图进行特征提取,得到各尺度下对应的图像特征与稀疏深度图,包括:
所述预处理模块包括图像特征提取单元与稀疏深度提取单元;所述图像特征提取单元与所述稀疏深度提取单元的网络尺度依次递减;
将所述彩色图像输入所述图像特征提取单元,所述图像特征提取单元对所述彩色图像进行多尺度编码,得到不同尺度下的图像编码;
将所述稀疏深度图输入所述稀疏深度提取单元,所述稀疏深度提取单元对所述稀疏深度图进行多尺度编码,得到不同尺度下的稀疏深度图。
6.根据权利要求5所述的基于辐射差和空间距离的深度补全方法,其特征在于,将所述彩色图像输入所述图像特征提取单元,所述图像特征提取单元对所述彩色图像进行多尺度编码,得到不同尺度下的图像编码,包括:
将所述彩色图像输入所述图像特征提取单元,计算尺度s下的图像编码,函数表达式为:
式中,表示图像编码;Is表示图像特征;Fs+1表示多模态融合特征;Ds+1表示s+1尺度下初始化的稠密深度图逆投影到相机空间的深度特征。
7.根据权利要求5所述的基于辐射差和空间距离的深度补全方法,其特征在于,将所述稀疏深度图输入所述稀疏深度提取单元,所述稀疏深度提取单元对所述稀疏深度图进行多尺度编码,得到不同尺度下的稀疏深度图,包括:
将所述稀疏深度图输入所述稀疏深度提取单元,计算尺度s下的稀疏深度图Ss,函数表达式为:
式中,表示深度测量有效性的指标函数;ε是一个接近0的值;/>表示尺度s下目标像素i在原分辨率下对应的像素坐标(x,y);ωs表示权重;Sj表示网络输入的稀疏深度图。
8.根据权利要求4至7任一项所述的基于辐射差和空间距离的深度补全方法,其特征在于,所述深度优化模块基于稀疏深度图对所述多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图,包括:
构建第t次迭代处的更新方程,表示为:
式中,表示网络传播的深度,在t=0时被初始化为融合深度图D‘’;/>是输入融合特征F后卷积层的输出;k为内容相关亲和力图;/>是在一个k×k局部窗口中邻域像素的集合;
通过稀疏深度图更新多模态融合模块传播的深度更新公式表示为:
式中,γ是由卷积层和sigmoid层作用在融合特征F上生成的置信度;Si表示网络输入的稀疏深度图;表示深度测量有效性的指标函数;
根据上述公式执行迭代T次,得到补全后的稠密深度图,表示为:
式中,表示不同核尺寸的集合;/>表示不同迭代步数的集合;τ和σ作为由卷积和softmax层生成的置信图。
9.一种基于辐射差和空间距离的深度补全装置,其特征在于,所述装置包括:
数据获取模块,用于获取彩色图像以及与所述彩色图像配对的稀疏深度图;
网络构建模块,用于基于多尺度架构构建双边传播网络,所述双边传播网络通过由粗到精的多个尺度进行稠密深度估计,在每个尺度下,均包括预处理模块、多模态融合模块及深度优化模块;其中,在所述预处理模块中设计超网络,通过所述超网络结合辐射差和空间距离生成滤波权重,通过所述滤波权重使所述双边传播网络在深度传播过程中具有在辐射差和空间邻域中对最近值的偏好;
特征提取模块,用于通过所述预处理模块对所述彩色图像及所述稀疏深度图进行特征提取,得到各尺度下对应的图像编码与稀疏深度图,对各尺度下的稀疏深度图进行处理,得到初始化稠密深度图,将所述初始化稠密深度图逆投影到相机空间得到深度特征;
特征融合模块,用于将相同尺度的所述图像编码与所述深度特征输入所述多模态融合模块进行融合,得到稠密深度图;
更新输出模块,用于通过所述深度优化模块基于稀疏深度图对所述多模态融合模块传播的深度进行迭代更新,通过对各尺度下的稠密深度图加权组合,得到补全后的稠密深度图。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311809351.2A CN117635444A (zh) | 2023-12-26 | 2023-12-26 | 基于辐射差和空间距离的深度补全方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311809351.2A CN117635444A (zh) | 2023-12-26 | 2023-12-26 | 基于辐射差和空间距离的深度补全方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117635444A true CN117635444A (zh) | 2024-03-01 |
Family
ID=90023514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311809351.2A Pending CN117635444A (zh) | 2023-12-26 | 2023-12-26 | 基于辐射差和空间距离的深度补全方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635444A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953029A (zh) * | 2024-03-27 | 2024-04-30 | 北京科技大学 | 一种基于深度信息传播的通用深度图补全方法及装置 |
-
2023
- 2023-12-26 CN CN202311809351.2A patent/CN117635444A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953029A (zh) * | 2024-03-27 | 2024-04-30 | 北京科技大学 | 一种基于深度信息传播的通用深度图补全方法及装置 |
CN117953029B (zh) * | 2024-03-27 | 2024-06-07 | 北京科技大学 | 一种基于深度信息传播的通用深度图补全方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bloesch et al. | Codeslam—learning a compact, optimisable representation for dense visual slam | |
US10839543B2 (en) | Systems and methods for depth estimation using convolutional spatial propagation networks | |
CN111598993B (zh) | 基于多视角成像技术的三维数据重建方法、装置 | |
US20160379375A1 (en) | Camera Tracking Method and Apparatus | |
CN112836618B (zh) | 一种三维人体姿态估计方法及计算机可读存储介质 | |
CN111311685A (zh) | 一种基于imu/单目图像的运动场景重构无监督方法 | |
CN113159143B (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
KR102219561B1 (ko) | 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법 | |
CN111161269B (zh) | 图像分割方法、计算机设备和可读存储介质 | |
CN117635444A (zh) | 基于辐射差和空间距离的深度补全方法、装置和设备 | |
CN111915618B (zh) | 基于峰值响应增强的实例分割算法、计算设备 | |
CN112132770A (zh) | 图像修复的方法、装置、计算机可读介质及电子设备 | |
CN111709984B (zh) | 位姿深度预测方法、视觉里程计方法、装置、设备及介质 | |
CN113570658A (zh) | 基于深度卷积网络的单目视频深度估计方法 | |
CN112288788A (zh) | 单目图像深度估计方法 | |
CN115100185A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114049314A (zh) | 一种基于特征重排和门控轴向注意力的医学图像分割方法 | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
Xian et al. | Fast generation of high-fidelity RGB-D images by deep learning with adaptive convolution | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
CN117095132B (zh) | 基于隐式函数的三维重建方法和*** | |
CN106407932A (zh) | 基于分数阶微积分与广义逆神经网络的手写数字识别方法 | |
CN117274349A (zh) | 基于rgb-d相机一致性深度预测的透明物体重建方法及*** | |
KR20230140530A (ko) | 이미지 간 대응관계를 식별하기 위한 피라미드 및 고유성 매칭 프라이어들을 사용하는 방법 및 시스템 | |
CN116563096A (zh) | 用于图像配准的形变场的确定方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |