CN116823908A

CN116823908A - 一种基于多尺度特征相关性增强的单目图像深度估计方法

Info

Publication number: CN116823908A
Application number: CN202310758435.1A
Authority: CN
Inventors: 明悦; 韦秋吉; 洪开; 吕柏阳; 赵盼孜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-29

Abstract

本发明提供了一种基于多尺度特征相关性增强的单目图像深度估计方法。该方法包括：利用多模态RGB‑Depth融合模块对输入的RGB图像进行数据增强的预处理操作；使用多尺度深度编码模块提取数据增强后的多尺度特征图；在解码阶段使用RFF模块获取细粒度特征图，使用MFCE模块增强多尺度特征中的不同尺度间特征的相关性，通过结合RFF模块和MFCE模块融合和优化特征图，并获得逐像素深度图；通过深度表征目标函数优化整个单目深度估计网络模型的训练，确保泛化能力。本发明方法增强全局特征与局部特征之间的相关性，学习有效的外观结构信息，解决了由纹理偏差导致对外观结构错误估计的问题，重建了清晰稠密的单目深度图。

Description

一种基于多尺度特征相关性增强的单目图像深度估计方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多尺度特征相关性增强的单目图像深度估计方法。

背景技术

深度估计(Depth Estimation)旨在从图像中恢复出场景深度信息，是计算机视觉中的重点研究方向，已经被广泛应用于三维重建、机器人导航和自动驾驶等领域。伴随深度学习技术的进步，以卷积神经网络(Convolutional Neural Network，CNN)为基础的深度估计方法已逐步成为该领域的研究重点。深度估计可以大致分为单目深度估计(MonocularDepth Estimation)、双目深度估计(Stereo Depth Estimation)以及多目深度估计(Multi-view Depth Estimation)。与双目深度估计和多目深度估计相比，单目深度估计只需要一个摄像机即可完成初始的图像采集工作，降低了采集成本和设备复杂度，更满足实际应用的需求。然而由于从单张二维图像中恢复三维场景深度信息的过程存在不确定性和多解释性，使得单目深度估计成为一个不适定问题，从而导致固有的尺度模糊使深度恢复面临挑战。近年来，越来越多的研究人员开始关注基于单目图像的深度估计，该任务也逐渐成为图像深度估计领域的研究热点和研究难点。

单目深度估计在实际场景中有着巨大的应用价值：在自动驾驶***中，单目深度估计可以帮助车辆感知周围环境，包括检测前方障碍物的距离和估计道路的深度信息，确保车辆安全行驶；单目深度估计可用于增强现实应用中，使得虚拟对象能够与真实世界进行准确的交互，通过估计场景中物体的深度信息，可以实现虚拟物体的精确定位、遮挡和遮蔽效果，提供更逼真的增强现实体验；单目深度估计可以用于人机交互界面中，例如手势识别和姿态估计，通过分析人体在空间中的深度位置，***可以识别手势动作或人体姿势，从而实现自然、直观的用户界面操作；单目深度估计可用于视频监控***中，以提供更精确的场景分析和物体跟踪，通过估计物体的深度信息，可以更好地理解场景中的空间关系，并进行行为识别、异常检测和安全监控；单目深度估计对于机器人导航和环境感知也是非常有用的，通过估计物体和障碍物的深度，机器人可以规划路径、避障和导航，以实现精确而安全的移动。

纹理偏差引起外观结构错误估计的问题。由于实际场景中物体纹理复杂度和分布不均匀，纹理丰富的局部区域更容易被网络模型捕获。多数现有的CNN(ConvolutionalNeural Networks，卷积神经网络)方法在进行单目深度估计时，往往更关注局部纹理特征而忽略全局结构信息，这容易导致预测的深度图中存在纹理偏差现象。在实际应用中会影响机器人等设备对物体的实际距离的判断。

近年来深度神经网络的强大图像处理能力提高了深度估计的性能，也为单目深度估计的实现提供了端到端的解决方案。根据单目深度估计的算法流程可以将其分为数据预处理方法、深度特征编码方法和深度特征解码方法三部分。

数据预处理方法：单目深度估计的数据预处理针对输入图像进行优化和调整，以便更好地进行后续的深度估计任务。这些操作包括缩放、归一化和数据增强等，有助于降低噪声、提高模型泛化能力和鲁棒性，同时确保满足深度学习模型的输入要求。近年来有许多预处理工作聚焦在数据增强、超分辨率等方面以提高输入图像的质量和多样性。

深度特征编码方法：深度特征编码是指从输入图像中提取深度相关特征表示的过程，这些特征将被送入后续的深度估计模块，如解码器或回归模块，用于预测深度图。在传统方法中，深度特征编码主要依赖于手工设计的算法。常见的方法包括SIFT(Scale-invariant feature transform，尺度不变特征变换)、SURF(Speeded-Up RobustFeatures，加速鲁棒特征)和ORB(Oriented FAST and Rotated BRIEF，快速特征点提取和描述的算法)等。这些算法检测图像中的关键点并计算相应的特征描述符，随后通过特征匹配来寻找相应的点，并利用这些匹配点来计算物体在三维空间中的深度。然而，由于表征能力有限，使这些传统方法在应对复杂的场景和光照变化时无法提供充足的区分度。深度学习方法通过层次化的方式自动提取图像特征，具有更强的表征能力和更高的准确性。深度特征编码过程大多由CNN和Transformer自动完成，从输入图像中学习抽象和分层的特征表示。可以将深度特征编码方法大致分为两类：

(1)基于卷积神经网络的编码方法；

(2)基于Transformer的编码方法。基于CNN的深度特征编码是将输入图像经过卷积层、激活函数和池化层进行特征提取，然后通过逐渐调整卷积核大小和通道数提取高级语义信息。基于Transformer的编码方法是将输入图像划分为多个不重叠的图像块，然后将每个图像块线性嵌入到一个向量中，通过自注意力机制和位置编码处理这些向量，最后通过多层Transformer进行特征提取和深度估计。

深度特征解码方法：深度特征解码过程是指将编码器提取的高维特征映射到深度空间，以生成深度预测图。解码过程通常涉及到上采样、融合以及重建操作。首先，对特征图执行上采样操作，将其尺寸增加到与输入图像尺寸相同或接近。然后，融合上采样后的特征图，捕捉多尺度信息。

目前，现有技术中的一种单目图像深度估计方法包括：数据预处理方法。针对单目深度估计任务，近年来有许多数据预处理工作聚焦在数据增强、超分辨率等方面以提高输入图像的质量和多样性。有学者利用原始图像与水平翻转图像来增强数据。有学者鼓励模型自适应对图像区域应用超分辨率来减少图像失真，即通过低分辨率图像粘贴到高分辨率图像的同一区域，或者将高分辨率图像的部分区域粘贴到低分辨率图像的相同位置。有学者引入了CutMix增强策略，即在图像中利用“剪切-粘贴”的方式获取局部图像块(patch)，其中地面真实深度标签也按比例混合到patch中增加多样性，利用训练像素保留区域的正则化效果。有学者提出了一种针对实例分割的数据增强方法，以“复制-粘贴增强”(Copy-Paste augmentation)的方式，随机将复制的实例对象粘贴到图像上的任意位置，在不增加训练成本的同时，以此提高鲁棒性。

尽管上述的预处理方法通过数据增强的方式提高了图像的多样性，但是这些方法容易引入图像过度锐化或破坏图像几何结构等问题。有学者提出了自适应超分辨率方法尽管增加了图像的样本数量，但是从图像的外观上看变化不大，同时也增加了图像过度锐化的风险，导致深度估计的误差增加。有学者提出的“剪切-粘贴”式数据增强方法虽然较大的改变了图像的外观，但同时也破坏了图像中的几何结构，降低训练模型的稳定性。

上述现有技术中的一种单目图像深度估计方法的缺点包括：尽管使用曝光校正、特征点匹配或图像旋转剪切等预处理方法已经能够较好地提高输入样本的质量，但这些方法无法解决RGB图像自身的结构限制问题，也不能降低图像中密集区域带来的无关细节干扰，导致深度特征编码不足。

现有技术中的另一种单目图像深度估计方法包括：结合卷积神经网络的深度特征解码方法，有学者提出了基于快速上采样的解码网络，但该网络的卷积核较小，网络感受野受限，而且特征解码时只采用了简单的双线性插值来提高深度图的分辨率，导致网络丢失较多的深度特征。为了减少特征的丢失，还有学者在解码网络层与对应的编码网络层间添加了跳跃连接，将解码网络中粗糙的深度图与编码网络中精细的空间特征图融合，增强了解码过程中深度特征的映射和表达，提高了深度估计的准确率。除了采用跳跃连接来增强特征解码外，还有学者在多尺度特征融合网络架构中使用两个不同的模块，第一个模块利用不同大小的滤波器来卷积，合并所有单独的特征映射。第二个模块使用扩展卷积替代完全连接层，从而减少计算并增加接受域。但是这些特征融合方法没有充分剔除相关性低的特征。因此在预测出的深度图中总是无法充分提高底层特征的利用率。

上述现有技术中的另一种单目图像深度估计方法的缺点包括：基于卷积神经网络的深度特征解码方法虽然大大提高了单目深度估计中像素级别的精度，但是CNN主要依赖局部感知机制，导致全局特征和局部特征相关性不足，在特征学习过程中仍然存在全局外观结构信息丢失的问题。此外，编码器-解码器架构中的下采样操作导致细节信息丢失，使得全局特征和局部特征的整合变得困难。随着网络层数的加深，无关的细节特征会不断地在特征融合过程中传递，从而加剧纹理偏差的情况。

发明内容

本发明的实施例提供了一种基于多尺度特征相关性增强的单目图像深度估计方法，以实现有效地提取单目图像的深度信息。

为了实现上述目的，本发明采取了如下技术方案。

一种基于多尺度特征相关性增强的单目图像深度估计方法，包括：

利用多模态RGB-Depth融合模块对输入的RGB图像进行数据增强的预处理操作；

使用多尺度深度编码模块提取数据增强后的多尺度特征图；

在解码阶段使用RFF模块根据所述多尺度特征图获取细粒度特征图，使用MFCE模块增强多尺度特征中的不同尺度间特征的相关性，通过结合RFF模块和MFCE模块融合和优化特征图，获得所述输入的RGB图像的逐像素深度图。

优选地，所述的利用多模态RGB-Depth融合模块对输入的RGB图像进行数据增强的预处理操作，包括：

所述多模态RGB-Depth融合模块采用切片方式将地面真实深度图融合到RGB图像中，在水平和垂直方向随机选取深度图的一部分区域粘贴到彩色图像的相同位置，用表示RGB图像，形成具有深度信息的RGB-D图像，用/>表示地面真实深度图，W和H分别是图像的宽度和高度，C_s和C_t分别表示RGB图像和地面真实深度图中的通道数，数据增强后的图像x'_s表示为：

x′_s＝M×x_s+(1-M)×x_t (1)

若C_s和C_t数目不同，则将RGB图像和地面真实深度图在通道方向上组合使两者的通道数一致，M矩阵(M∈{0,1})，表示x_s被x_t替换的区域，宽高(w,h)和替换区域的位置表示为：

(w,h)＝(min((W-a×W)×c×p,1),min((H-a×H)×c×p,1)) (2)

image[x:x+w,:,i]＝depth[x:x+w,:] (3)

image[:,y:y+h,i]＝depth[:,y:y+h] (4)

其中x＝a×W，y＝a×H，i表示RGB图像的三个通道数，a和c是范围在(0,1)之间的系数，p表示超参数(p∈(0,1])。

优选地，所述的解码阶段使用RFF模块获取细粒度特征图，使用MFCE模块增强多尺度特征中的不同尺度间特征的相关性，通过结合RFF模块和MFCE模块融合和优化特征图，并获得逐像素深度图，包括：

设所述多尺度特征中包括具有不同分辨率的低分辨率特征图F₁和较高分辨率特征图F₂，RFF模块将所述低分辨率特征图F₁通过双线性插值的上采样将分辨率提高到与较高分辨率特征图F₂相同，将所述低分辨率特征图F₁和所述较高分辨率特征图F₂在同一维度上拼接，获得特征图F₃，将所述特征图F₃由两支路的卷积来获取不同感受野的特征，上支路采用卷积核为3的二维卷积提取特征，并由BatchNorm神经网络层标准化输入数据，最后由ReLU激活函数增加网络各层间的非线性关系；下支路采用5×5的二维卷积提取特征并由BatchNorm进行归一化，将上下两支路获取的特征进行融合，获取融合特征图F_RFF：

F₃＝Cat(Up(F₁,F₂)) (5)

F_RFF＝Cov_5,5(Cov_3,3(F₃))+Cov_5,5(F₃) (6)

其中Up(·)表示为双线性插值的上采样过程，Cov_3,3(·)和Cov_5,5(·)分别表示3×3的卷积和5×5的卷积；

设MFCE模块中输入的多尺度特征图记为W和H分别表示为特征图的宽度和高度，C表示特征图的通道数，F中的低分辨率特征图F₁与较高分辨率的特征图F₂经过第一个RFF模块进行融合，生成增强后的特征图F_E，F_E通过自适应平均池化层提取特征F_E1、F_E2和F_E3，将F_E1、F_E2和F_E3进行通道拼接并通过1×1的卷积处理来形成全局特征F_G，将F_E通过非对称卷积与标准卷积并行处理形成特征F_L，将特征F_G与特征F_L按通道进行拼接，并通过1×1的卷积核处理，得到优化后的特征图F_MFCE，MFCE模块的计算过程为：

F_E＝RFF(F₁,F₂) (7)

F_Ei＝RFF(F₁,AAP_i(F_E))(i＝1,2,3) (8)

F_G＝Cov_1,1(Cat(F_E1,F_E2,F_E3)) (9)

F_L＝Cov_9,1(Cov_1,9(F_E))+Cov_3,3(F_E) (10)

F_MFCE＝Cov_1,1(Cat(F_G,F_L)) (11)

其中，Cov_n,m(·)表示卷积核大小为n×m的二维卷积，Cat(·)表示特征图在通道上的拼接，RFF表示为多尺度特征融合模块；

通过RFF模块和MFCE模块输出所述输入的RGB图像的逐像素深度图。

优选地，所述的方法还包括：

通过深度表征目标函数优化所述多模态RGB-Depth融合模块、所述多尺度深度编码模块、所述RFF模块和所述MFCE模块的参数和训练过程。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提出的多尺度特征相关性增强的单目图像深度估计算法，不仅增强了输入图像的特征，为深度估计模型提供更多的几何信息和语义信息，而且增强全局特征与局部特征之间的相关性，学习有效的外观结构信息，解决了由纹理偏差导致对外观结构错误估计的问题，重建了清晰稠密的单目深度图。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多尺度特征相关性增强的单目图像深度估计方法的处理流程图；

图2为本发明实施例提供的一种多模态RGB-Depth融合模块的处理流程图；

图3为本发明实施例提出的一种多尺度深度解码器的网络结构图；

图4为本发明实施例提供的一种RFF模块的处理流程图；

图5为本发明实施例提供的一种MFCE模块的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

单目深度估计(Monocular Depth Estimation)是指在从单幅二维图像中恢复出场景深度信息的过程。多尺度特征融合(Multi-scale Feature Fusion)是指将不同尺度大小的特征图以某种方式融合的过程。

本发明实施例为了丰富单目图像中的几何信息与语义信息，并增强全局特征与局部特征的相关性，解决纹理偏差引起的外观结构错误估计的问题，本发明实施例提出的一种基于多尺度特征相关性增强的单目图像深度估计方法的处理流程如图1所示，流程包括四个的处理步骤：

步骤S1、利用多模态RGB-Depth融合模块对输入的RGB图像进行数据增强的预处理操作，以增强图像的输入特征并实现图像矫正。

步骤S2、使用多尺度深度编码模块提取预处理后的多尺度特征图。

步骤S3、在解码阶段使用RFF(Relevant Feature Fusion,相关特征融合)模块根据所述多尺度特征图获取细粒度特征图，使用MFCE(Multi-scale Feature CorrelationEnhancement,多尺度特征相关增强)模块增强多尺度特征中的不同尺度间特征的相关性，通过结合RFF模块和MFCE模块融合和优化特征图，并获得逐像素深度图。

步骤S4、通过深度表征目标函数优化整个单目深度估计网络模型的训练，确保泛化能力。

具体，上述步骤S1包括：为了提高单目深度估计算法的全局特征提取能力，缓解由纹理偏差导致对外观结构错误估计的问题，本发明方法首先在图像预处理阶段，设计了多模态RGB-Depth融合模块，将额外的模态depth引入到原始RGB图像中，缓解了直接从RGB图像中获取信息的不确定性，同时减少了输入图像的噪声。然后在深度特征解码阶段，设计了多尺度特征融合模块和多尺度特征相关增强模块，多尺度特征融合模块用于融合不同大小的感受野，增强特征间的相关性；多尺度特征相关增强模块由多级平均池化层和多级卷积层的组合来学习全局特征与局部特征之间的相关性，从而扩大感受野，优化全局信息。

图2为本发明实施例提供的一种多模态RGB-Depth融合模块的处理流程图。上述多模态RGB-Depth融合模块采用了一种“深度图融合”的数据增强方法，即将地面真实深度图融合到RGB图像中，形成具有深度信息的RGB-D图像，并将RGB-D图像作为网络模型的输入，这样既提高了视觉信息的多样性，又能够减少输入图像的噪声。本发明的多模态RGB-Depth融合模块采用了切片的思想，如图2所示，在水平和垂直方向随机选取深度图的一部分区域粘贴到彩色图像的相同位置作为输入图像。用表示RGB图像，形成具有深度信息的RGB-D图像，用/>表示地面真实深度图，W和H分别是图像的宽度和高度，C_s和C_t分别表示输入图像和深度图中的通道数。则数据增强后的图像x'_s可以表示为：

x′_s＝M×x_s+(1-M)×x_t (1)

若C_s和C_t数目不同，则提前将它们在通道方向上组合使其通道数一致。M矩阵(M∈{0,1})，表示x_s被x_t替换的区域。宽高(w,h)和替换区域的位置可以表示为：

(w,h)＝(min((W-a×W)×c×p,1),min((H-a×H)×c×p,1)) (2)

image[x:x+w,:,i]＝depth[x:x+w,:] (3)

image[:,y:y+h,i]＝depth[:,y:y+h] (4)

本发明实施例提出的一种多尺度深度解码器的网络结构如图3所示。针对多尺度深度编码输出的四个不同尺度的特征图，首先通过RFF(Relevant Feature Fusion,相关特征融合)模块融合高分辨率的特征图1和特征图2，获得细粒度的局部特征；并通过MFCE模块融合低分辨率特征图3和特征图4，学习相邻特征间的相关性，优化全局特征表征。

然后将RFF模块和MFCE模块输出的特征送入RFF模块进一步融合全局信息和局部信息，再由特征拼接操作将全局特征和局部特征在通道上拼接，经过上采样操作将特征图恢复至与输入图像相同的像素大小，接着由两层3×3的卷积(Conv模块)优化特征表示，最后通过Sigmoid函数将特征图映射为深度图。

图4为本发明实施例提供的一种RFF模块的处理流程图。RFF模块以特征图作为该网络的输入，用于融合两个特征之间的低分辨率特征表示。RFF模块的网络结构如图4所示。首先，将低分辨率特征F₁通过双线性插值的上采样将分辨率提高到与F₂相同，并在同一维度上拼接获得特征图F₃。接着由两支路的卷积来获取不同感受野的特征，上支路采用卷积核为3的二维卷积提取特征，并由BatchNorm神经网络层标准化输入数据，有助于稳定网络的训练，最后由ReLU激活函数增加网络各层间的非线性关系；下支路采用5×5的二维卷积提取特征并由BatchNorm进行归一化。上下两支路获取的特征的感受野不同，通过将两者融合可以获取到更丰富的细粒度信息。多尺度特征融合模块的计算过程可以表示为：

F₃＝Cat(Up(F₁,F₂)) (5)

F_RFF＝Cov_5,5(Cov_3,3(F₃))+Cov_5,5(F₃) (6)

其中Up(·)表示为双线性插值的上采样过程，Cov_3,3(·)和Cov_5,5(·)分别表示3×3的卷积和5×5的卷积。

图5为本发明实施例提供的一种MFCE(Multi-scale Feature CorrelationEnhancement,多尺度特征相关增强模块)模块的处理流程图。为了增强形状信息的描述，本发明提出的MFCE通过融合相邻特征的上下文信息来增强局部细节信息和全局形状信息的表达。

本节网络的输入特征图记为W和H分别表示为特征图的宽度和高度，C表示特征图的通道数。输入的低分辨率特征图F₁与较高分辨率的特征图F₂经过第一个RFF模块(Relevant Feature Fusion，相关特征融合)进行融合来增强不同分辨率特征间的相关性并生成增强后的特征图F_E，其中特征图F_E的尺寸大小和特征图F₂的尺寸相同。其次，如图5中所示，F_E通过APP层(Adaptive Average Pooling，自适应平均池化)更有效的提取重要特征，并且缩小张量的大小，将图像变换到低维空间，利于捕捉到更大范围内的特征。核大小不同的APP层能自适应实现不同图像尺寸的调整，以获取更多的全局形状信息，并与F₁共同作为RFF模块的输入来形成特征F_E1、F_E2和F_E3。然后将F_E1、F_E2和F_E3进行通道拼接并通过1×1的卷积处理来形成细化后的全局特征F_G，其中自适应平均池化层(AAP)的核大小分别是2×2，4×4，6×6。与此同时，为了降低对称卷积带来的信息冗余，减少参数量和计算量，采用非对称卷积与标准卷积并行处理的策略处理F_E。本发明采用1×9的非对称卷积核和9×1的非对称卷积在不同方向上增强局部关键特征。F_E通过非对称卷积与标准卷积并行处理形成特征F_L，来增加局部特征的多样性并增强特征的表达能力。最后，本发明将F_G与F_L按通道进行拼接增强图像各区域之间的上下文相关性，并通过1×1的卷积核处理以消除网络带来的伪影，更好的恢复出形状信息。多尺度特征相关增强模块的计算过程为：

F_E＝RFF(F₁,F₂) (7)

F_Ei＝RFF(F₁,AAP_i(F_E))(i＝1,2,3) (8)

F_G＝Cov_1,1(Cat(F_E1,F_E2,F_E3)) (9)

F_L＝Cov_9,1(Cov_1,9(F_E))+Cov_3,3(F_E) (10)

F_MFCE＝Cov_1,1(Cat(F_G,F_L)) (11)

其中，Cov_n,m(·)表示卷积核大小为n×m的二维卷积，Cat(·)表示特征图在通道上的拼接，RFF表示为相关特征融合模块。

逐像素深度图“意为对图像每个像素点求深度值，通过RFF模块和MFCE模块输出上述输入的RGB图像的逐像素深度图。

通过深度表征目标函数优化所述多模态RGB-Depth融合模块、所述多尺度深度编码模块、所述RFF模块和所述MFCE模块组成的单目深度估计网络模型的参数和训练过程。

综上所述，本发明实施例提出的多尺度特征相关性增强的单目图像深度估计算法，不仅增强了输入图像的特征，为深度估计模型提供更多的几何信息和语义信息，而且增强全局特征与局部特征之间的相关性，学习有效的外观结构信息，解决了由纹理偏差导致对外观结构错误估计的问题，重建了清晰稠密的单目深度图。

本发明实施例提出了一种基于多尺度特征相关性增强的单目图像深度估计算法。该算法采用多模态RGB-Depth融合模块增强输入图像的特征；采用相关特征融合模块融合不同感受野的信息；采用多尺度特征相关增强模块增强特征间的相关性，促进外观结构信息的表达，可以有效地提取单目图像的深度信息。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多尺度特征相关性增强的单目图像深度估计方法，其特征在于，包括：

使用多尺度深度编码模块提取数据增强后的多尺度特征图；

2.根据权利要求1所述的方法，其特征在于，所述的利用多模态RGB-Depth融合模块对输入的RGB图像进行数据增强的预处理操作，包括：

x′_s＝M×x_s+(1-M)×x_t (1)

(w,h)＝(min((W-a×W)×c×p,1),min((H-a×H)×c×p,1)) (2)

image[x:x+w,:,i]＝depth[x:x+w,:] (3)

image[:,y:y+h,i]＝depth[:,y:y+h] (4)

3.根据权利要求2所述的方法，其特征在于，所述的解码阶段使用RFF模块获取细粒度特征图，使用MFCE模块增强多尺度特征中的不同尺度间特征的相关性，通过结合RFF模块和MFCE模块融合和优化特征图，并获得逐像素深度图，包括：

F₃＝Cat(Up(F₁,F₂)) (5)

F_RFF＝Cov_5,5(Cov_3,3(F₃))+Cov_5,5(F₃) (6)

F_E＝RFF(F₁,F₂) (7)

F_Ei＝RFF(F₁,AAP_i(F_E))(i＝1,2,3) (8)

F_G＝Cov_1,1(Cat(F_E1,F_E2,F_E3)) (9)

F_L＝Cov_9,1(Cov_1,9(F_E))+Cov_3,3(F_E) (10)

F_MFCE＝Cov_1,1(Cat(F_G,F_L)) (11)

4.根据权利要求1所述的方法，其特征在于，所述的方法还包括：