CN112990299A

CN112990299A - 基于多尺度特征的深度图获取方法、电子设备、存储介质

Info

Publication number: CN112990299A
Application number: CN202110265024.XA
Authority: CN
Inventors: 常青玲; 崔岩; 杨鑫; 任飞; 戴成林; 胡昊; 李敏华
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-18
Anticipated expiration: 2041-03-11
Also published as: CN112990299B

Abstract

本发明提供了一种基于多尺度特征的深度图获取方法、设备、存储介质，该方法包括：获取输入图像，根据所述输入图像得到多尺度特征块；根据所述多尺度特征块得到池化特征图，并根据所述池化特征图得到通道注意力块，所述通道注意力块表征多个特征之间的联系；根据所述多尺度特征块得到原始融合特征图，并根据所述原始融合特征图和所述通道注意力块得到目标融合特征图；对所述目标融合特征图与原始特效图进行拼接并进行解码操作，以得到目标深度图。根据本发明实施例提供的方案，能够通过通道注意力块增强多尺度特征之间的联系，使得多尺度的特征更能表达物体信息，有效提高了目标深度图的物体信息的清晰度。

Description

基于多尺度特征的深度图获取方法、电子设备、存储介质

技术领域

本发明涉及但不限于图像处理领域，尤其涉及基于多尺度特征的深度图获取方法、设备、存储介质。

背景技术

随着图像处理技术的发展，深度图的应用越来越广泛。深度图能够基于终端拍摄到的图像进行处理得到，为了提高深度图的清晰度和物体结构的准确度，通常需要多个角度的输入图像。但是多角度的输入图像要求终端配备多个摄像头，硬件的成本较大。而对于单目摄像头而言，虽然有一些深度学习的算法能够基于单目摄像头的输入图像得到深度图，但是由于只有一个摄像头，所得到的输入图像的角度有限，常规的图像处理方法通常会丢失大量的物体信息，导致深度图较为模糊，物体结构不清晰。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于多尺度特征的深度图获取方法、设备、存储介质，能够提高深度图的物体信息的清晰度。

第一方面，本发明实施例提供了一种基于多尺度特征的深度图获取方法，包括：

获取输入图像，根据所述输入图像得到多尺度特征块；

根据所述多尺度特征块得到池化特征图，并根据所述池化特征图得到通道注意力块，所述通道注意力块表征多个特征之间的联系；

根据所述多尺度特征块得到原始融合特征图，并根据所述原始融合特征图和所述通道注意力块得到目标融合特征图；

对所述目标融合特征图进行解码操作，以得到目标深度图。

本发明实施例包括：获取输入图像，根据所述输入图像得到多尺度特征块；根据所述多尺度特征块得到池化特征图，并根据所述池化特征图得到通道注意力块，所述通道注意力块表征多个特征之间的联系；根据所述多尺度特征块得到原始融合特征图，并根据所述原始融合特征图和所述通道注意力块得到目标融合特征图；对所述目标融合特征图进行解码操作，以得到目标深度图。根据本发明实施例提供的方案，能够通过通道注意力块增强多尺度特征之间的联系，使得多尺度的特征更能表达物体信息，有效提高了目标深度图的物体信息的清晰度。

作为本发明的进一步改进，所述根据所述输入图像得到多尺度特征块，包括：

根据所述输入图像得到初始特征；

获取预先设定的多尺度特征融合网络，通过所述多尺度特征融合网络对所述初始特征进行特征聚合，得到不同尺度的多个聚合特征；

将多个所述聚合特征拼接以得到所述多尺度特征块。

作为本发明的进一步改进，在将多个所述聚合特征拼接以得到所述多尺度特征块之前，所述方法还包括：

将多个所述聚合特征压缩至相同的通道数。

作为本发明的进一步改进，所述根据所述多尺度特征块得到池化特征图，并根据所述池化特征图得到通道注意力块，包括：

对所述多尺度特征块进行全局池化，以得到池化特征图；

对所述池化特征图依次执行压缩操作和激活操作，以得到所述通道注意力块。

作为本发明的进一步改进，在所述并根据所述原始融合特征图和所述通道注意力块得到目标融合特征图之前，所述方法还包括：

压缩所述原始融合特征图，以使所述原始融合特征图的通道数与所述池化特征图的通道数相同。

作为本发明的进一步改进，所述对所述目标融合特征图进行解码操作，以得到目标深度图，包括：

根据所述目标融合特征图和所述原始融合特征图进行通道连接，得到参考尺度特征块；

将所述参考尺度特征块进行至少两次压缩，以得到不同尺度的多个初始深度图；

对多个所述初始深度图进行像素求和，得到所述目标深度图。

作为本发明的进一步改进，所述对多个所述初始深度图进行像素求和，包括：

获取预先设定的自适应权重，所述自适应权重与每个尺度相对应；

根据所述自适应权重和多个所述初始深度图进行像素求和，其中，所述像素求和的公式为：D＝∑_k∈lwk*dk；其中，dk为第k尺度的所述初始深度图，wk为第k尺度的所述自适应权重，D为所述目标深度图。

作为本发明的进一步改进，全部的所述自适应权重之和为1。

第二方面，本发明实施例还提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于多尺度特征的深度图获取方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的基于多尺度特征的深度图获取方法的流程图；

图2是本发明另一个实施例提供的得到多尺度特征块的流程图；

图3是本发明另一个实施例提供的多尺度融合特征网络的结构图；

图4是本发明另一个实施例提供的通道注意力块的结构图；

图5是本发明另一个实施例提供的压缩聚合特征的流程图；

图6是本发明另一个实施例提供的得到通道注意力块的流程图；

图7是本发明另一个实施例提供的压缩原始融合特征图的流程图；

图8是本发明另一个实施例提供的得到目标深度图的流程图；

图9是本发明另一个实施例提供的用于解码的网络结构图；

图10是本发明另一个实施例提供的像素求和的流程图；

图11是本发明另一个实施例提供的整体网络结构图；

图12是本发明另一个实施例提供的设备的装置图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的一种基于多尺度特征的深度图获取方法，包括：

步骤S110，获取输入图像，根据输入图像得到多尺度融合特征块；

步骤S120，根据多尺度特征块得到池化特征图，并根据池化特征图得到通道注意力块，通道注意力块表征多个特征之间的联系；

步骤S130，根据多尺度特征块得到原始融合特征图，并根据原始融合特征图和通道注意力块得到目标融合特征图；

步骤S140，对目标融合特征图进行解码操作，以得到目标深度图。

需要说明的是，输入图像可以是包含任意物体信息的照片或者图像，由单目摄像头获取即可，本实施例对图像内的具体内容不多作限定。可以理解的是，根据输入图像得到多尺度特征块可以采用现有技术的方法，本实施例对具体的多尺度特征获取方法不多作限定，能够得到多个尺度的特征所组成的特征块即可。

需要说明的是，通过池化得到池化特征图，能够对特征进行压缩，减少复杂度，减少物体信息以外的特征，从而让得到的通道注意力块表征多个特征之间的联系，从而实现融合时加强特征间联系的效果。例如，可以采用图3所示的稠密特征融合网络(DenseFeature Fusion Network，DFFN)，图3所示的结构仅为示例，并不会对本申请的技术方案造成限定。可

可以理解的是，对于单目摄像头获取到的图像，通过加强特征之间的联系，从而使得解码得到的目标深度图中的物体信息的关联性较强，有效提高深度图的清晰度，得到更加准确的物体信息。

可以理解的是，可以采用原始融合特征图与通道注意力块进行点乘的方式得到目标融合特征图，也可以采用其他能够实现相同效果的方式，在此不多作限定。

需要说明的是，对目标融合特征图进行解码操作可以采用任意类型的网络，本实施例优选采用多尺度的深度图融合模块(Depth Adaptive Fusion Module，DAFM)，其结构如图9所示，需要说明的是，图9所示的结构仅为示例，并不会对本申请的技术方案造成限定，通过多尺度的深度图融合模块，能够同时对多个尺度的特征进行解码并进行自适应融合，在参数较多的情况下能够有效提高解码效率。

另外，参照图2，在一实施例中，图2所示实施例中的步骤S110，还包括但不限于有以下步骤：

步骤S210，根据输入图像得到初始特征；

步骤S220，获取预先设定的多尺度特征融合网络，通过多尺度特征融合网络对初始特征进行特征聚合，得到不同尺度的多个聚合特征；

步骤S230，将多个聚合特征拼接以得到多尺度特征块。

需要说明的是，在图3所示的DFFN的前提下，采用了5个相近似的子模块对输入图像的初始特征进行上采样和下采样，再对初始特征进行特征聚合以得到聚合特征，通过聚合操作，能够有效减小特征提取过程中信息丢失，以确保得到的目标深度图能够反映出更多的物体信息。

值得注意的是，由于经过了多次卷积上采样和下采样，多个特征之间的联系逐渐淡化，因此通过通道注意力块能够进一步加强特征之间的联系，确保目标深度图的清晰度。

另外，参照图5，在一实施例中，在执行图2所示实施例中的步骤S230之前，还包括但不限于有以下步骤：

步骤S510，将多个聚合特征压缩至相同的通道数。

需要说明的是，由于需要将聚合特征进行拼接，因此为了确保拼接的准确性，在拼接之前需要对聚合特征进行压缩，以确保通道数相同。

另外，参照图6，在一实施例中，图1所示实施例中的步骤S120，还包括但不限于有以下步骤：

步骤S610，对多尺度特征块进行全局池化，以得到池化特征图；

步骤S620，对池化特征图依次执行压缩操作和激活操作，以得到通道注意力块。

需要说明的是，在DFFN中向拼接得到多尺度特征块之后，压缩操作和激活操作能够使得具有价值的特征得到加强，排除无用信息，具体的压缩操作和激活操作可以参考如下示例：

参考图4，使用一个全局平均池化层把多尺度特征块池化成一个1×1×C的池化特征图，通过一个1×1的卷积对池化特征图进行压缩，接着使用一个ReLU函数进行激活，完成第一次压缩和激活；再使用一个1×1的卷积对池化特征图进行卷积，在不进行压缩的情况下，使用Sigmoid函数对其进行激活，得到如图4所示的通道注意力块。

另外，参照图7，在一实施例中，图1所示实施例中的步骤S130，还包括但不限于有以下步骤：

步骤S710，压缩原始融合特征图，以使原始融合特征图的通道数与池化特征图的通道数相同。

需要说明的是，通道注意力块是根据池化特征图得到，因此其通道数与池化特征图相同，由于需要通过原始融合特征图和通道注意力块点乘的方式得到目标融合特征图，而因此需要通过压缩的方式确保原始融合特征图的通道数与池化特征图的通道数相同。

另外，参照图8，在一实施例中，图1所示实施例中的步骤S140，还包括但不限于有以下步骤：

步骤S810，根据目标融合特征图和原始融合特征图进行通道连接，得到参考尺度特征块；

步骤S820，将参考尺度特征块进行至少两次压缩，以得到不同尺度的多个初始深度图；

步骤S830，对多个初始深度图进行像素求和，得到目标深度图。

需要说明的是，本实施例的网络结构图可以参考图11所示，根据输入图像分解得到原始融合特征图之后，通过DFFN得到目标融合特征图，二者通道连接之后输入至DAFM进行通道连接，以得到参考尺度特征块。

可以理解的是，为了提升网络的表达能力，可以使用逐步压缩的方法，使用两个3×3的卷积对参考尺度特征块进行压缩，得到多个尺度的初始深度图。

另外，参照图10，在一实施例中，图8所示实施例中的步骤S830，还包括但不限于有以下步骤：

步骤S1010，获取预先设定的自适应权重，自适应权重与每个尺度相对应；

步骤S1020，根据自适应权重和多个初始深度图进行像素求和，其中，像素求和的公式为：D＝∑_k∈lwk*dk；其中，dk为第k尺度的初始深度图，wk为第k尺度的自适应权重，D为目标深度图。

需要说明的是，可以通过一个1×1的卷积为初始深度图设置一个自适应权重，该自适应权重可以通过现有的标准反向传播机制进行学习，能够体现特征的权重即可，本实施例对此不多作限定。最后通过对所有初始深度图进行像素级别的求和得到最终的目标深度图。

需要说明的是，在目标深度图中，第(i，j)个像素的深度值Y_i,j满足下式：

其中

为第k尺度的初始特征在(i，j)处的深度值。α_i，j，β_i，j，γ_i，j,δ_i,j,ε_i,j为各尺度所对应的自适应权重。

另外，在一实施例中，全部的自适应权重之和为1。

需要说明的是，为了避免过拟合，可以对自适应权重进行数学约束，使得所有的自适应权重之和为1，例如上述实施例中的自适应权重满足以下关系式：α_i,j+β_i,j+γ_i,j+δ_i,j+ε_i,j＝1。

另外，参照图12，本发明的一个实施例还提供了一种设备，该设备1200包括：存储器1210、处理器1220及存储在存储器1210上并可在处理器1220上运行的计算机程序。

处理器1220和存储器1210可以通过总线或者其他方式连接。

实现上述实施例的基于多尺度特征的深度图获取方法所需的非暂态软件程序以及指令存储在存储器1210中，当被处理器1220执行时，执行上述实施例中的基于多尺度特征的深度图获取方法，例如，执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S230、图5中的方法步骤S510、图6中的方法步骤S610至步骤S620、图7中的方法步骤S710、图8中的方法步骤S810至步骤S830、图10中的方法步骤S1010至步骤S1020。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的基于多尺度特征的深度图获取方法，例如，执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S230、图5中的方法步骤S510、图6中的方法步骤S610至步骤S620、图7中的方法步骤S710、图8中的方法步骤S810至步骤S830、图10中的方法步骤S1010至步骤S1020。本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于多尺度特征的深度图获取方法，其特征在于，包括：

获取输入图像，根据所述输入图像得到多尺度特征块；

对所述目标融合特征图进行解码操作，以得到目标深度图。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输入图像得到多尺度特征块，包括：

根据所述输入图像得到初始特征；

将多个所述聚合特征拼接以得到所述多尺度特征块。

3.根据权利要求2所述的方法，其特征在于，在将多个所述聚合特征拼接以得到所述多尺度特征块之前，所述方法还包括：

将多个所述聚合特征压缩至相同的通道数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述多尺度特征块得到池化特征图，并根据所述池化特征图得到通道注意力块，包括：

对所述多尺度特征块进行全局池化，以得到池化特征图；

5.根据权利要求1所述的方法，其特征在于，在所述并根据所述原始融合特征图和所述通道注意力块得到目标融合特征图之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述目标融合特征图进行解码操作，以得到目标深度图，包括：

7.根据权利要求6所述的方法，其特征在于，所述对多个所述初始深度图进行像素求和，包括：

8.根据权利要求7所述的方法，其特征在于：全部的所述自适应权重之和为1。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的基于多尺度特征的深度图获取方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至8中任意一项所述的基于多尺度特征的深度图获取方法。