CN111539922B

CN111539922B - 基于多任务网络的单目深度估计与表面法向量估计方法

Info

Publication number: CN111539922B
Application number: CN202010303011.2A
Authority: CN
Inventors: 洪思宇; 郭裕兰; 符智恒; 黄小红
Original assignee: Sun Yat Sen University
Current assignee: National University of Defense Technology; Sun Yat Sen University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2023-03-31
Anticipated expiration: 2040-04-17
Also published as: CN111539922A

Abstract

本发明公开了基于多任务网络的单目深度估计与表面法向量估计方法，所述方法包括以下步骤：采用高分辨率网络作为骨干网络收集多尺度信息；通过高分辨率网络输出了不同分辨率的特征，并对特征分别进行独立上采样后获得与原分辨率相同的特征图；将获得的特征图串接得到一个多尺度表面特征，生成多尺度融合特征；将多尺度融合特征分为2个分支特征，并输入至互相关注意力机制交互模块，获得学习相关性的互相关矩阵；把输入到每个分支特征的1x1连续卷积层，再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征；重复步骤S5获得特定任务的特征信息后，最终得到单目深度估计和表面法向量估计结果。

Description

基于多任务网络的单目深度估计与表面法向量估计方法

技术领域

本发明涉及计算机软件领域，具体涉及基于多任务网络的单目深度估计与表面法向量估计方法。

背景技术

场景深度信息在当下许多研究课题中都起着至关重要的作用，比如三维立体重建、障碍物检测、视觉导航等。Zhenyu Zhang等人在2018年提出了一种基于多任务网络的单目深度估计与语义分割方法TRL。其将从RGB图像中提取的深度特征和语义特征进行加权拼接，通过这种交互方式得到新的深度特征和语义特征，并用于后续的语义分割以及单目深度估计。

TRL网络是在译码器部分(decoder)对多任务特征进行交互融合。在这个过程中仅仅只是对深度特征与加权后的语义特征进行拼接，同时也对语义特征与加权后的深度特征进行拼接。这种简单的特征拼接融合缺乏理论的指导，从此得到的特征图这并不能充分地利用特征信息进行交互。

PAPNet也是一种基于多任务网络的单目深度估计，语义分割和表面法向量估计方法，与网络Ldid不同的是它在交互过程中并不是直接对特征进行交互，而是通过特征得到亲和性矩阵，对每个任务的亲和性矩阵进行加权求和。其性能相较于Ldid高许多。

PAPNet也是在译码器部分(decoder)对多任务特征进行交互融合。每个分支在输出对应任务特征的同时，还输出对应的亲和性矩阵。例如对深度估计任务来说，深度特征的亲和性矩阵与加权后的语义特征和表面法向量特征的亲和性矩阵进行逐像素相加，得到新的亲和性矩阵，深度特征与该亲和性矩阵相乘，融合成新的深度特征，并用于后续的单目深度估计。这种方式的缺点是必须先得到亲和性矩阵，并对亲和性矩阵进行交互，这是一种间接的交互，并没有直接对特征进行交互，不能充分地利用特征信息。

发明内容

本发明的目的在于解决TRL与PAPNet的特征交互问题，构建一个直接利用并筛选特征信息进行交互的模块。相比于TRL，采用互相关作为理论指导进行特征融合；相比于PAPNet，能够直接快速地进行特征交互。

为了实现上述目的，本发明采用如下技术方案：

基于多任务网络的单目深度估计与表面法向量估计方法，所述方法包括以下步骤：

S1采用高分辨率网络作为骨干网络收集多尺度信息；

S2通过高分辨率网络输出了不同分辨率的特征，并对特征分别进行独立上采样后获得与原分辨率相同的特征图；

S3将获得的特征图串接得到一个多尺度表面特征，生成多尺度融合特征；

S4将多尺度融合特征分为2个分支特征，并输入至互相关注意力机制交互模块，获得学习相关性的互相关矩阵；

S5把输入到每个分支特征的1x1连续卷积层，再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征；

S6重复步骤S5获得特定任务的特征信息后，最终得到单目深度估计和表面法向量估计结果。

优选的，所述高分辨率网络输出了不同分辨率的特征为4种，包括：F1、F2、F3、F4。

优选的，所述多尺度表面特征为Fn。

优选的，所述互相关注意力图是权值在0到1之间的概率图。

本发明有益效果在于，构建了一个直接利用并筛选特征信息进行交互的模块。相比于TRL，采用互相关作为理论指导进行特征融合；相比于PAPNet，能够直接快速地进行特征交互。

附图说明

图1为本发明的工作流程示意图；

图2为图1中互相关注意力机制交互模块工作流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，以下实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1、图2所示，本发明为基于多任务网络的单目深度估计与表面法向量估计方法，所述方法包括以下步骤：

S1采用高分辨率网络作为骨干网络集多尺度信息；

优选的，所述多尺度表面特征为：Fn。

优选的，所述互相关注意力图是权值在0到1之间的概率图。

实施例1

为了对本发明的技术方案进行验证，通过NYUv2室内数据集上评估CPNet，该数据集包含12万张RGB图像和深度图。从中计算出表面法向量图，并通过将官方数据集分割为1.2万张图像进行训练和654张图像进行验证来评估本发明的方法。此外，使用统一的评估标准来获得本发明方法的度量。通过使用PyTorch实现了CPNet，并从头开始在RTX2080Ti上进行了训练。

在NYUv2测试集上的深度估计结果如下表：

CPNet在主要评价指标均方误差RMSE为0.431，优于最先进的方法(如PAPNet和TRL)超过0.06。

在NYUv2测试集上的表面法向量估计结果：

CPNet在主要评价指标误差中值RMSE为21.3，与最先进的方法(如PAPNet等)十分接近，仅相差3。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.基于多任务网络的单目深度估计与表面法向量估计方法，其特征在于，所述方法包括以下步骤：

S1采用高分辨率网络作为骨干网络收集多尺度信息；

S5把输入到每个分支特征的连续卷积层，再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征；

2.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法，其特征在于，所述高分辨率网络输出了不同分辨率的特征为4种，包括：F1、F2、F3、F4。

3.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法，其特征在于，所述多尺度表面特征为：Fn 。

4.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法，其特征在于，所述互相关注意力图是权值在0到1之间的概率图。