CN111539922B - 基于多任务网络的单目深度估计与表面法向量估计方法 - Google Patents

基于多任务网络的单目深度估计与表面法向量估计方法 Download PDF

Info

Publication number
CN111539922B
CN111539922B CN202010303011.2A CN202010303011A CN111539922B CN 111539922 B CN111539922 B CN 111539922B CN 202010303011 A CN202010303011 A CN 202010303011A CN 111539922 B CN111539922 B CN 111539922B
Authority
CN
China
Prior art keywords
features
feature
correlation
scale
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010303011.2A
Other languages
English (en)
Other versions
CN111539922A (zh
Inventor
洪思宇
郭裕兰
符智恒
黄小红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010303011.2A priority Critical patent/CN111539922B/zh
Publication of CN111539922A publication Critical patent/CN111539922A/zh
Application granted granted Critical
Publication of CN111539922B publication Critical patent/CN111539922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多任务网络的单目深度估计与表面法向量估计方法,所述方法包括以下步骤:采用高分辨率网络作为骨干网络收集多尺度信息;通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;把输入到每个分支特征的1x1连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。

Description

基于多任务网络的单目深度估计与表面法向量估计方法
技术领域
本发明涉及计算机软件领域,具体涉及基于多任务网络的单目深度估计与表面法向量估计方法。
背景技术
场景深度信息在当下许多研究课题中都起着至关重要的作用,比如三维立体重建、障碍物检测、视觉导航等。Zhenyu Zhang等人在2018年提出了一种基于多任务网络的单目深度估计与语义分割方法TRL。其将从RGB图像中提取的深度特征和语义特征进行加权拼接,通过这种交互方式得到新的深度特征和语义特征,并用于后续的语义分割以及单目深度估计。
TRL网络是在译码器部分(decoder)对多任务特征进行交互融合。在这个过程中仅仅只是对深度特征与加权后的语义特征进行拼接,同时也对语义特征与加权后的深度特征进行拼接。这种简单的特征拼接融合缺乏理论的指导,从此得到的特征图这并不能充分地利用特征信息进行交互。
PAPNet也是一种基于多任务网络的单目深度估计,语义分割和表面法向量估计方法,与网络Ldid不同的是它在交互过程中并不是直接对特征进行交互,而是通过特征得到亲和性矩阵,对每个任务的亲和性矩阵进行加权求和。其性能相较于Ldid高许多。
PAPNet也是在译码器部分(decoder)对多任务特征进行交互融合。每个分支在输出对应任务特征的同时,还输出对应的亲和性矩阵。例如对深度估计任务来说,深度特征的亲和性矩阵与加权后的语义特征和表面法向量特征的亲和性矩阵进行逐像素相加,得到新的亲和性矩阵,深度特征与该亲和性矩阵相乘,融合成新的深度特征,并用于后续的单目深度估计。这种方式的缺点是必须先得到亲和性矩阵,并对亲和性矩阵进行交互,这是一种间接的交互,并没有直接对特征进行交互,不能充分地利用特征信息。
发明内容
本发明的目的在于解决TRL与PAPNet的特征交互问题,构建一个直接利用并筛选特征信息进行交互的模块。相比于TRL,采用互相关作为理论指导进行特征融合;相比于PAPNet,能够直接快速地进行特征交互。
为了实现上述目的,本发明采用如下技术方案:
基于多任务网络的单目深度估计与表面法向量估计方法,所述方法包括以下步骤:
S1采用高分辨率网络作为骨干网络收集多尺度信息;
S2通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;
S3将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;
S4将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;
S5把输入到每个分支特征的1x1连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;
S6重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。
优选的,所述高分辨率网络输出了不同分辨率的特征为4种,包括:F1、F2、F3、F4。
优选的,所述多尺度表面特征为Fn。
优选的,所述互相关注意力图是权值在0到1之间的概率图。
本发明有益效果在于,构建了一个直接利用并筛选特征信息进行交互的模块。相比于TRL,采用互相关作为理论指导进行特征融合;相比于PAPNet,能够直接快速地进行特征交互。
附图说明
图1为本发明的工作流程示意图;
图2为图1中互相关注意力机制交互模块工作流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,以下实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
如图1、图2所示,本发明为基于多任务网络的单目深度估计与表面法向量估计方法,所述方法包括以下步骤:
S1采用高分辨率网络作为骨干网络集多尺度信息;
S2通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;
S3将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;
S4将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;
S5把输入到每个分支特征的1x1连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;
S6重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。
优选的,所述高分辨率网络输出了不同分辨率的特征为4种,包括:F1、F2、F3、F4。
优选的,所述多尺度表面特征为:Fn。
优选的,所述互相关注意力图是权值在0到1之间的概率图。
实施例1
为了对本发明的技术方案进行验证,通过NYUv2室内数据集上评估CPNet,该数据集包含12万张RGB图像和深度图。从中计算出表面法向量图,并通过将官方数据集分割为1.2万张图像进行训练和654张图像进行验证来评估本发明的方法。此外,使用统一的评估标准来获得本发明方法的度量。通过使用PyTorch实现了CPNet,并从头开始在RTX2080Ti上进行了训练。
在NYUv2测试集上的深度估计结果如下表:
Figure BDA0002454721120000051
CPNet在主要评价指标均方误差RMSE为0.431,优于最先进的方法(如PAPNet和TRL)超过0.06。
在NYUv2测试集上的表面法向量估计结果:
Figure BDA0002454721120000052
CPNet在主要评价指标误差中值RMSE为21.3,与最先进的方法(如PAPNet等)十分接近,仅相差3。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (4)

1.基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述方法包括以下步骤:
S1采用高分辨率网络作为骨干网络收集多尺度信息;
S2通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;
S3将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;
S4将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;
S5把输入到每个分支特征的连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;
S6重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。
2.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述高分辨率网络输出了不同分辨率的特征为4种,包括:F1、F2、F3、F4。
3.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述多尺度表面特征为:Fn 。
4.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述互相关注意力图是权值在0到1之间的概率图。
CN202010303011.2A 2020-04-17 2020-04-17 基于多任务网络的单目深度估计与表面法向量估计方法 Active CN111539922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010303011.2A CN111539922B (zh) 2020-04-17 2020-04-17 基于多任务网络的单目深度估计与表面法向量估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010303011.2A CN111539922B (zh) 2020-04-17 2020-04-17 基于多任务网络的单目深度估计与表面法向量估计方法

Publications (2)

Publication Number Publication Date
CN111539922A CN111539922A (zh) 2020-08-14
CN111539922B true CN111539922B (zh) 2023-03-31

Family

ID=71974956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010303011.2A Active CN111539922B (zh) 2020-04-17 2020-04-17 基于多任务网络的单目深度估计与表面法向量估计方法

Country Status (1)

Country Link
CN (1) CN111539922B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819876B (zh) * 2021-02-13 2024-02-27 西北工业大学 一种基于深度学习的单目视觉深度估计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060286A (zh) * 2019-04-25 2019-07-26 东北大学 一种单目深度估计方法
CN110120049A (zh) * 2019-04-15 2019-08-13 天津大学 由单张图像联合估计场景深度与语义的方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及***
CN110197182A (zh) * 2019-06-11 2019-09-03 中国电子科技集团公司第五十四研究所 基于上下文信息和注意力机制的遥感影像语义分割方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120049A (zh) * 2019-04-15 2019-08-13 天津大学 由单张图像联合估计场景深度与语义的方法
CN110060286A (zh) * 2019-04-25 2019-07-26 东北大学 一种单目深度估计方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及***
CN110197182A (zh) * 2019-06-11 2019-09-03 中国电子科技集团公司第五十四研究所 基于上下文信息和注意力机制的遥感影像语义分割方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Also Published As

Publication number Publication date
CN111539922A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
Wang et al. SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN108876792B (zh) 语义分割方法、装置和***及存储介质
CN112348870B (zh) 一种基于残差融合的显著性目标检测方法
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN112287983B (zh) 一种基于深度学习的遥感图像目标提取***和方法
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及***
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
GB2579262A (en) Space-time memory network for locating target object in video content
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN114693952A (zh) 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN116343043A (zh) 一种具有多尺度特征融合功能的遥感影像变化检测方法
CN116091908A (zh) 水下声呐小目标检测的多尺度特征增强与训练方法和装置
CN114898457A (zh) 一种基于手部关键点和transformer的动态手势识别方法和***
CN111539922B (zh) 基于多任务网络的单目深度估计与表面法向量估计方法
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复***及方法
CN115578260B (zh) 针对图像超分辨率的方向解耦的注意力方法和***
CN115393868A (zh) 文本检测方法、装置、电子设备和存储介质
CN115457385A (zh) 一种基于轻量级网络的建筑物变化检测方法
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN113706636A (zh) 一种用于篡改图像识别的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240418

Address after: 510000 No. 135 West Xingang Road, Guangdong, Guangzhou

Patentee after: SUN YAT-SEN University

Country or region after: China

Patentee after: National University of Defense Technology

Address before: 510275 No. 135 West Xingang Road, Guangdong, Guangzhou

Patentee before: SUN YAT-SEN University

Country or region before: China