CN114913215A - 深度估计方法和深度估计装置 - Google Patents
深度估计方法和深度估计装置 Download PDFInfo
- Publication number
- CN114913215A CN114913215A CN202210323890.4A CN202210323890A CN114913215A CN 114913215 A CN114913215 A CN 114913215A CN 202210323890 A CN202210323890 A CN 202210323890A CN 114913215 A CN114913215 A CN 114913215A
- Authority
- CN
- China
- Prior art keywords
- reference image
- global
- image
- module
- source image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
一种深度估计方法和深度估计装置,该方法包括:获取参考图像和源图像,其中所述参考图像和所述源图像是针对同一场景或者同一对象采集的不同视角的图像;对所述参考图像和源图像分别进行特征提取,得到所述参考图像和所述源图像各自的局部特征;对所述参考图像和所述源图像各自的局部特征进行信息交互处理,得到所述参考图像和所述源图像各自的全局特征;获取所述参考图像和所述源图像各自的外参,基于所述参考图像和所述源图像各自的全局特征和各自的外参,得到所述参考图像的深度图。该深度估计方法和装置能够利用内部注意力和外部注意力来聚合图像内和图像间的上下文信息,使得该深度估计方法能够提高深度估计的精度。
Description
技术领域
本申请涉及多视图立体(Multi-view Stereo,简称为MVS)视觉技术领域,更具体地涉及一种深度估计方法和深度估计装置。
背景技术
MVS(Multiple View Stereo,多视角立体视觉)一直是计算机视觉研究的一个热点,它的目的是从多个已知相机姿态的图像中建立密集的对应关系,从而产生稠密的三维点云重建结果。MVS一般采用两个步骤重建场景的稠密三维模型:首先为每幅图像估计其深度图,然后将这些深度图融合得到统一的点云表示,其中,深度图估计是该流程中的关键。
目前,在深度图估计中均是基于局部特征,这对于MVS中具有挑战性的区域,例如纹理差的区域、重复纹理区域和非朗伯表面区域等等,将无法得到较高精度的深度图估计结果。此外。在计算匹配成本时,只是简单地从每幅图像本身分别提取出要比较的特征,也就是说,没有考虑潜在的图像间对应关系,这也将影响深度图估计的精度。
发明内容
根据本申请一方面,提供了一种用于深度估计方法,所述方法包括:获取参考图像和源图像,其中所述参考图像和所述源图像是针对同一场景或者同一对象采集的不同视角的图像;对所述参考图像和源图像分别进行特征提取,得到所述参考图像和所述源图像各自的局部特征;对所述参考图像和所述源图像各自的局部特征进行信息交互处理,得到所述参考图像和所述源图像各自的全局特征;获取所述参考图像和所述源图像各自的外参,基于所述参考图像和所述源图像各自的全局特征和各自的外参,得到所述参考图像的深度图。
在本申请的一个实施例中,所述对所述参考图像和所述源图像各自的局部特征进行信息交互处理,得到所述参考图像和所述源图像各自的全局特征,包括:对所述参考图像和所述源图像各自的局部特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征;或者对所述参考图像和所述源图像各自的局部特征进行半全局信息交互处理,得到所述参考图像和所述源图像各自的半全局特征,并对所述参考图像和所述源图像各自的半全局特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征。
在本申请的一个实施例中,所述全局信息交互处理是由特征匹配变形模块执行的,所述特征匹配变形模块包括用于进行图像内信息交互处理的自注意力模块和用于进行图像间信息交互处理的交叉注意力模块;所述对所述参考图像和所述源图像各自的局部特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征,包括:将所述参考图像的局部特征输入到所述自注意力模块,得到所述参考图像的全局特征;将所述源图像的局部特征输入到所述自注意力模块,得到的结果作为所述交叉注意力模块的第一输入;将所述自注意力模块针对所述参考图像的局部特征的处理结果作为所述交叉注意力模块的第二输入,所述交叉注意力模块的输出为所述源图像的全局特征。
在本申请的一个实施例中,所述特征匹配变形模块包括多个级联模块,每个所述级联模块包括所述自注意力模块和所述交叉注意力模块;所述参考图像的全局特征是通过如下方式得到的:将所述参考图像的局部特征输入到所述多个级联模块中的第一个级联模块中的自注意力模块,得到所述参考图像的局部特征的第一级处理结果;将所述第一级处理结果输入到所述多个级联模块中的第二个级联模块中的自注意力模块,得到所述参考图像的局部特征的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的自注意力模块输出所述参考图像的全局特征;所述源图像的全局特征是通过如下方式得到的:将所述源图像的局部特征输入到所述第一个级联模块中的自注意力模块,得到的结果连同所述参考图像的局部特征的第一级处理结果一并输入到所述第一个级联模块中的交叉注意力模块,得到所述源图像的第一级处理结果;所述源图像的第一级处理结果输入到所述第二个级联模块中的自注意力模块,得到的结果连同所述参考图像的局部特征的第二级处理结果一并输入到所述第二个级联模块中的交叉注意力模块,得到所述源图像的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的交叉注意力模块输出所述源图像的全局特征。
在本申请的一个实施例中,所述方法还包括:将所述参考图像和所述源图像各自的局部特征中的每个像素进行位置编码,得到经位置编码后的局部特征输入到所述特征匹配变形模块,以用于获取所述参考图像和所述源图像各自的全局特征。
在本申请的一个实施例中,所述半全局信息交互处理是由适应性感受野模块执行的,所述全局信息交互处理是由特征匹配变形模块执行的,所述适应性感受野模块包括用于进行可变形卷积处理的可变形卷积块,所述特征匹配变形模块包括用于进行图像内信息交互处理的自注意力模块和用于进行图像间信息交互处理的交叉注意力模块;所述对所述参考图像和所述源图像各自的局部特征进行半全局信息交互处理,得到所述参考图像和所述源图像各自的半全局特征,包括:将所述参考图像和所述源图像各自的局部特征分别输入到所述可变形卷积块,得到所述参考图像和所述源图像各自的半全局特征;所述对所述参考图像和所述源图像各自的半全局特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征,包括:将所述参考图像的半全局特征输入到所述自注意力模块,得到所述参考图像的全局特征;将所述源图像的半全局特征输入到所述自注意力模块,得到所述交叉注意力模块的第一输入;将所述自注意力模块针对所述参考图像的半全局特征的处理结果作为所述交叉注意力模块的第二输入,所述交叉注意力模块的输出为所述源图像的全局特征。
在本申请的一个实施例中,所述特征匹配变形模块包括多个级联模块,每个所述级联模块包括所述自注意力模块和所述交叉注意力模块;所述参考图像的全局特征是通过如下方式得到的:将所述参考图像的半全局特征输入到所述多个级联模块中的第一个级联模块中的自注意力模块,得到所述参考图像的半全局特征的第一级处理结果;所述第一级处理结果输入到所述多个级联模块中的第二个级联模块中的自注意力模块,得到所述参考图像的半全局特征的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的自注意力模块输出所述参考图像的全局特征;所述源图像的全局特征是通过如下方式得到的:将所述源图像的半全局特征输入到所述第一个级联模块中的自注意力模块,得到的结果连同所述参考图像的半全局特征的第一级处理结果一并输入到所述第一个级联模块中的交叉注意力模块,得到所述源图像的第一级处理结果;将所述源图像的第一级处理结果输入到所述第二个级联模块中的自注意力模块,得到的结果连同所述参考图像的半全局特征的第二级处理结果一并输入到所述第二个级联模块中的交叉注意力模块,得到所述源图像的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的交叉注意力模块输出所述源图像的全局特征。
在本申请的一个实施例中,所述方法还包括:将所述参考图像和所述源图像各自的半全局特征中的每个像素进行位置编码,得到经位置编码后的半全局特征输入到所述特征匹配变形模块,以用于获取所述参考图像和所述源图像各自的全局特征。
在本申请的一个实施例中,所述基于所述参考图像和所述源图像各自的全局特征和各自的外参,得到所述参考图像的深度图,包括:基于所述参考图像和所述源图像各自的外参,经由可微弯曲操作将所述参考图像和所述源图像各自的全局特征变换到参考特征平面上,得到所述参考图像和所述源图像各自的特征体;将所述参考图像的特征体和所述源图像的特征体进行相关,得到相关体,将所述相关体进行正则化得到概率体,基于所述概率体得到所述参考图像的深度图。
在本申请的一个实施例中,所述特征提取是由特征金字塔模块执行的,所述特征金字塔模块针对所述参考图像输出不同分辨率的多个局部特征,并针对所述源图像输出不同分辨率的多个局部特征,使得所述特征匹配变形模块针对所述参考图像输出不同分辨率的多个全局特征,并针对所述源图像输出不同分辨率的多个全局特征;所述参考图像和所述源图像各自的最小分辨率的所述全局特征用于生成所述参考图像的最小分辨率的深度图,所述最小分辨率的深度图作为初阶段深度图作用于所述可微弯曲操作以得到所述参考图像的次小分辨率的深度图,以此类推,直到得到所述参考图像的最大分辨率的深度图。
在本申请的一个实施例中,所述不同分辨率的多个局部特征均输入到所述特征匹配变形模块,得到不同分辨率的多个全局特征;或者所述不同分辨率的多个局部特征中仅最小分辨率的局部特征输入到所述特征匹配变形模块,得到最小分辨率的全局特征,其他分辨率的全局特征是基于所述最小分辨率的全局特征和其他分辨率的局部特征这两者的融合而得到。
根据本申请另一方面,还提供了一种深度估计装置,所述深度估计装置包括特征提取模块、特征匹配变形模块和深度估计模块,其中:所述特征提取模块用于获取参考图像和源图像,对所述参考图像和所述源图像分别进行特征提取,得到所述参考图像和所述源图像各自的局部特征,其中所述参考图像和所述源图像是针对同一场景或者同一对象采集的不同视角的图像;所述特征匹配变形模块用于对所述参考图像和所述源图像各自的局部特征进行信息交互处理,得到所述参考图像和所述源图像各自的全局特征;所述深度估计模块用于获取所述参考图像和所述源图像各自的外参,基于所述参考图像和所述源图像各自的全局特征和各自的外参,输出所述参考图像的深度图。
在本申请的一个实施例中,所述装置还包括适应性感受野模块,所述适应性感受野模块用于对所述参考图像和所述源图像各自的局部特征进行半全局信息交互处理,得到所述参考图像和所述源图像各自的半全局特征;所述特征匹配变形模块还用于对所述参考图像和所述源图像各自的半全局特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征。
根据本申请再一方面,提供了一种深度估计装置,所述深度估计装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行上述深度估计方法。
根据本申请又一方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序在被运行时,执行上述深度估计方法。
根据本申请又一方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现上述深度估计方法。
根据本申请实施例的深度估计方法和深度估计装置能够利用内部注意力和外部注意力来聚合图像内和图像间的上下文信息,使得该深度估计方法能够提高深度估计的精度,对于弱纹理、重复纹理和非朗伯面等区域也能获得高精度的深度估计结果。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出用于实现根据本发明实施例的深度估计方法和深度估计装置的示例电子设备的示意性框图。
图2示出根据本申请实施例的深度估计方法的示意性流程图。
图3示出根据本申请实施例的深度估计方法中特征匹配变形模块的示意图及其处理流程图。
图4示出根据本申请实施例的深度估计方法中采用的模型处理流程图。
图5示出根据本申请一个实施例的深度估计装置的示意性框图。
图6示出根据本申请另一个实施例的深度估计装置的示意性框图。
具体实施方式
为了使得本申请的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。
近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用***的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
下面,参照图1来描述用于实现本发明实施例的深度估计方法和深度估计装置的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108,这些组件通过总线***110和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。此外,所述输入装置106也可以是任何接收信息的接口。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。此外,所述输出装置108也可以是任何其他具备输出功能的设备。
示例性地,用于实现根据本发明实施例的用于训练图像处理模型的方法和装置的示例电子设备可以被实现诸如智能手机、平板电脑、摄像头等终端。
下面,将参考图2描述根据本申请实施例的深度估计方法200。如图2所示,深度估计方法200可以包括如下步骤:
在步骤S210,获取参考图像和源图像,其中参考图像和源图像是针对同一场景或者同一对象采集的不同视角的图像。
在步骤S220,对参考图像和源图像分别进行特征提取,得到参考图像和源图像各自的局部特征。
在步骤S230,对参考图像和源图像各自的局部特征进行信息交互处理,得到参考图像和源图像各自的全局特征。
在步骤S240,获取参考图像和源图像各自的外参,基于参考图像和源图像各自的全局特征和各自的外参,得到参考图像的深度图。
在本申请的实施例中,步骤S210中获取的图像是针对同一场景或同一对象采集的多张不同视角的图像。对于这些图像中的任一张图像,可将其作为参考图像,其余图像作为源图像,计算该参考图像的深度图。按此方式,每张图像均可作为参考图像,结合其他源图像计算该参考图像的深度图。然后,各参考图像的深度图进行融合,可得到该场景或者对象的三维模型。其中,在计算每张参考图像的深度图时,获取该参考图像和其他的源图像,首先,通过特征提取得到参考图像和源图像各自的局部特征(或称为局部特征图)。此处,应理解,局部特征(图)仅能反映图像(参考图像或源图像)中一个像素与其相邻像素之间的关系。然后,对参考图像和源图像各自的局部特征进行信息交互处理,得到参考图像和源图像各自的全局特征(或称为全局特征图)。此处,对参考图像和源图像各自的局部特征进行信息交互处理可以是指:对参考图像和源图像各自的局部特征进行基于自注意力机制的处理,同时将它们的处理结果再进行基于交叉注意力机制的处理,以得到参考图像和源图像各自的全局特征。应理解,全局特征(图)能反映图像(参考图像或源图像)中一个像素与任何其他像素之间的关系。最终,基于参考图像和源图像各自的全局特征以及参考图像和源图像各自的外参,计算参考图像的深度图。
因此,根据本申请实施例的深度估计方法能够利用内部注意力(自注意力)和外部注意力(交叉注意力)来聚合图像内(参考图像内)和图像间(参考图像与源图像之间)的上下文信息(全局特征),使得该深度估计方法能够提高深度估计的精度,对于弱纹理、重复纹理和非朗伯面等区域也能获得高精度的深度估计结果。
在本申请的实施例中,步骤S220中采用的特征提取模块可以为特征金字塔模块(Feature Pyramid Networks,简称为FPN),其(例如包括三个卷积块,每个卷积块中包含三层普通卷积)可针对参考图像输出不同分辨率的多个局部特征,并针对源图像输出不同分辨率的多个局部特征,使得步骤S230中针对参考图像输出不同分辨率的多个全局特征,并针对源图像输出不同分辨率的多个全局特征。基于此,步骤S240中参考图像和源图像各自的最小分辨率的全局特征用于生成参考图像的最小分辨率的深度图,最小分辨率的深度图作为初阶段深度图作用于可微弯曲操作以得到参考图像的次小分辨率的深度图,以此类推,直到得到参考图像的最大分辨率的深度图。在该实施例中,上个阶段的特征可以作为参考的先验信息指导下个阶段输出更加精细的深度图。
下面结合不同实施例描述如何生成全局特征。为了简洁,在下文的描述中,没有提及不同分辨率的局部特征(以及稍后将描述的半全局特征)和全局特征,因为针对不同分辨率的特征的处理是类似的。
在本申请的一个实施例中,步骤S230中所述的对参考图像和源图像各自的局部特征进行信息交互处理,得到参考图像和源图像各自的全局特征,可以包括:对参考图像和源图像各自的局部特征进行全局信息交互处理,得到参考图像和源图像各自的全局特征。在该实施例中,对参考图像和源图像各自的局部特征的信息交互处理是全局性的,因此能够直接得到参考图像和源图像各自的全局特征。
在本申请的实施例中,全局信息交互处理可以是由特征匹配变形模块(FeatureMatching Transformer,简称为FMT)执行的,该特征匹配变形模块可以包括用于进行图像内信息交互处理的自注意力模块和用于进行图像间信息交互处理的交叉注意力模块。
基于此,前文所述的对参考图像和源图像各自的局部特征进行全局信息交互处理,得到参考图像和源图像各自的全局特征,可以包括:将参考图像的局部特征输入到自注意力模块,得到参考图像的全局特征;将源图像的局部特征输入到自注意力模块,得到的结果作为交叉注意力模块的第一输入;将自注意力模块针对参考图像的局部特征的处理结果作为交叉注意力模块的第二输入,交叉注意力模块的输出为源图像的全局特征。在该实施例中,根据参考图像的局部特征,通过自注意力模块得到参考图像的全局特征;根据源图像的局部特征以及自注意力模块对参考图像的局部特征的处理结果,通过交叉注意力模块得到源图像的全局特征。
在本申请进一步的实施例中,上述的特征匹配变形模块可以包括多个级联模块,每个所述级联模块包括所述自注意力模块和所述交叉注意力模块。基于此,参考图像的全局特征可以是通过如下方式得到的:将参考图像的局部特征输入到多个级联模块中的第一个级联模块中的自注意力模块,得到参考图像的局部特征的第一级处理结果;第一级处理结果输入到多个级联模块中的第二个级联模块中的自注意力模块,得到参考图像的局部特征的第二级处理结果;以此类推,直到多个级联模块中的最后一个级联模块中的自注意力模块输出参考图像的全局特征。源图像的全局特征可以是通过如下方式得到的:将源图像的局部特征输入到第一个级联模块中的自注意力模块,得到的结果连同参考图像的局部特征的第一级处理结果一并输入到第一个级联模块中的交叉注意力模块,得到源图像的第一级处理结果;源图像的第一级处理结果输入到第二个级联模块中的自注意力模块,得到的结果连同参考图像的局部特征的第二级处理结果一并输入到第二个级联模块中的交叉注意力模块,得到源图像的第二级处理结果;以此类推,直到多个级联模块中的最后一个级联模块中的交叉注意力模块输出源图像的全局特征。在该实施例中,由多个注意力块顺序处理参考图像和源图像的局部特征,从而能够得到参考图像和源图像的高精度的全局特征。
在本申请的进一步的实施例中,方法200还可以包括:将参考图像和源图像各自的局部特征中的每个像素进行位置编码,得到经位置编码后的局部特征输入到特征匹配变形模块,以用于获取参考图像和源图像各自的全局特征。在该实施例中,在获取参考图像和源图像各自的全局特征时,除了基于参考图像和源图像各自的局部特征本身,还基于它们的局部特征中每个像素的位置编码信息,这可以增强位置一致性并使特征匹配变形模块对不同分辨率的局部特征具有鲁棒性。
在本申请的另一个实施例中,步骤S230中所述的对参考图像和源图像各自的局部特征进行信息交互处理,得到参考图像和源图像各自的全局特征,可以包括:对参考图像和源图像各自的局部特征进行半全局信息交互处理,得到参考图像和源图像各自的半全局特征(或称为半全局特征图),并对参考图像和源图像各自的半全局特征进行全局信息交互处理,得到参考图像和源图像各自的全局特征。此处,应理解,局部特征(图)可以是指该特征图中每个像素的信息能反映图像中一个像素与其相邻像素之间的关系以及与更远一点的像素之间的关系。在该实施例中,先通过半全局信息交互处理将参考图像和源图像各自的局部特征处理为半全局特征,再通过全局信息交互处理将参考图像和源图像各自的半全局特征处理为全局特征,这样的从局部到半全局再到全局的处理流程因为增加了过渡阶段(半全局特征)而使得最终获取的全局特征更为精确。
在本申请的实施例中,半全局信息交互处理可以是由适应性感受野模块(Adaptive Receptive Field,简称为ARF)执行的,全局信息交互处理可以是由特征匹配变形模块执行的。适应性感受野模块可以包括用于进行可变形卷积处理的可变形卷积块。特征匹配变形模块可以包括用于进行图像内信息交互处理的自注意力模块和用于进行图像间信息交互处理的交叉注意力模块。在一个示例中,适应性感受野模块可包括两个可变形卷积块,每个可变形卷积块可包括三层可变形卷积。由于适应性感受野模块包括可变形卷积块,使得适应性感受野模块能够学习采样位置的额外偏移,并能够根据局部上下文自适应地放大感受野,从而得到半全局特征。申请人经过实验证明,使用适应性感受野模块处理过的半全局特征对于特征匹配变形模块更加友好,使得特征匹配变形模块能够输出精度更高的全局特征,从而进一步提高参考图像的深度估计精度。
基于此,前文所述的对参考图像和源图像各自的局部特征进行半全局信息交互处理,得到参考图像和源图像各自的半全局特征,可以包括:将参考图像和源图像各自的局部特征分别输入到可变形卷积块,得到参考图像和源图像各自的半全局特征。前文所述的对参考图像和源图像各自的半全局特征进行全局信息交互处理,得到参考图像和源图像各自的全局特征,可以包括:将参考图像的半全局特征输入到自注意力模块,得到参考图像的全局特征;将源图像的半全局特征输入到自注意力模块,得到的结果作为交叉注意力模块的第一输入;将自注意力模块针对参考图像的半全局特征的处理结果作为交叉注意力模块的第二输入,交叉注意力模块的输出为源图像的全局特征。在该实施例中,根据参考图像的半全局特征,通过自注意力模块得到参考图像的全局特征;根据源图像的半全局特征以及自注意力模块对参考图像的半全局特征的处理结果,通过交叉注意力模块得到源图像的全局特征。
在本申请进一步的实施例中,上述的特征匹配变形模块可以包括多个级联模块,每个所述级联模块包括所述自注意力模块和所述交叉注意力模块。基于此,参考图像的全局特征可以是通过如下方式得到的:将参考图像的半全局特征输入到多个级联模块中的第一个级联模块中的自注意力模块,得到参考图像的半全局特征的第一级处理结果;第一级处理结果输入到多个级联模块中的第二个级联模块中的自注意力模块,得到参考图像的半全局特征的第二级处理结果;以此类推,直到多个级联模块中的最后一个级联模块中的自注意力模块输出参考图像的全局特征。源图像的全局特征可以是通过如下方式得到的:将源图像的半全局特征输入到第一个级联模块中的自注意力模块,得到的结果连同参考图像的半全局特征的第一级处理结果一并输入到第一个级联模块中的交叉注意力模块,得到源图像的第一级处理结果;源图像的第一级处理结果输入到第二个级联模块中的自注意力模块,得到的结果连同参考图像的半全局特征的第二级处理结果一并输入到第二个级联模块中的交叉注意力模块,得到源图像的第二级处理结果;以此类推,直到多个级联模块中的最后一个级联模块中的交叉注意力模块输出源图像的全局特征。在该实施例中,由多个注意力块顺序处理参考图像和源图像的半全局特征,从而能够得到参考图像和源图像的高精度的全局特征。
在本申请的进一步的实施例中,方法200还可以包括:将参考图像和源图像各自的半全局特征中的每个像素进行位置编码,得到经位置编码后的半全局特征输入到特征匹配变形模块,以用于获取参考图像和源图像各自的全局特征。在该实施例中,在获取参考图像和源图像各自的全局特征时,除了基于参考图像和源图像各自的半全局特征本身,还基于它们的半全局特征中每个像素的位置编码信息,这可以增强位置一致性并使特征匹配变形模块对不同分辨率的半全局特征具有鲁棒性。
下面结合图3来理解特征匹配变形模块的操作过程。如图3所示,F0为参考图像的局部特征(或者半全局特征),{Fi}源图像的局部特征(或者半全局特征),其中i的取值范围为1到N-1,N为大于1的自然数,在图3中,示出为两个源图像的局部特征(或者半全局特征),即N取值为3。如图3所示,参考图像的局部特征(或者半全局特征)F0和源图像的局部特征(或者半全局特征)Fi经过位置编码(Positional Encoding)得到多个特征向量(如图3所示的长条形状)输入至包括自注意力模块(Intra-Attention)和交叉注意力模块(Inter-Attention)的FMT(也称为注意力块,即Attention Block)。其中,参考图像的特征向量输入到Na个级联模块中的第一个级联模块中的自注意力模块,得到参考图像的特征向量的第一级处理结果;第一级处理结果输入到Na个级联模块中的第二个级联模块中的自注意力模块,得到参考图像的特征向量的第二级处理结果;以此类推,直到Na个级联模块中的最后一个级联模块中的自注意力模块输出参考图像的全局特征。源图像的特征向量输入到第一个级联模块中的自注意力模块,得到的结果连同参考图像的特征向量的第一级处理结果一并输入到第一个级联模块中的交叉注意力模块,得到源图像的第一级处理结果;源图像的第一级处理结果输入到第二个级联模块中的自注意力模块,得到的结果连同参考图像的特征向量的第二级处理结果一并输入到第二个级联模块中的交叉注意力模块,得到源图像的第二级处理结果;以此类推,直到Na个级联模块中的最后一个级联模块中的交叉注意力模块输出源图像的全局特征。
以上从一个分辨率的特征的角度描述了如何生成全局特征。在本申请的一个实施例中,可以将不同分辨率的多个局部特征(或者半全局特征)均输入到特征匹配变形模块,得到不同分辨率的多个全局特征。在该实施例中,特征匹配变形模块对不同分辨率的局部特征(或者半全局特征)均进行处理,可以得到精确的计算结果。在本申请的另一个实施例中,可以将不同分辨率的多个局部特征中仅最小分辨率的局部特征(或者半全局特征)输入到特征匹配变形模块,得到最小分辨率的全局特征,其他分辨率的全局特征基于最小分辨率的全局特征和其他分辨率的局部特征(或者半全局特征)这两者的融合而得到。在该实施例中,特征匹配变形模块仅对最小分辨率的局部特征(或者半全局特征)进行处理,可以减少计算量,从而减少需求的计算资源。
在本申请的实施例中,步骤S240中基于参考图像和源图像各自的全局特征和各自的外参(即拍摄参考图像和源图像的相机的姿态),得到参考图像的深度图,可以包括:基于参考图像和源图像各自的外参,经由可微弯曲(Differentiable Warping)操作将参考图像和源图像各自的全局特征变换到参考特征平面上,得到参考图像和源图像各自的特征体(Feature Volume);将参考图像的特征体和源图像的特征体进行相关,得到相关体(Correlation Volume),将相关体进行正则化得到概率体(Probability Volume),基于概率体得到参考图像的深度图。
在该实施例中,在步骤S230中得到的参考图像和源图像各自的全局特征可以均为三维特征(C×H×W,C为特征通道数,W与H为特征的宽与高);三维特征经过可微弯曲操作变换到参考特征平面上,形成四维特征张量(C×H×W×D,D为深度范围划分的区间数据),即特征体;参考图像的特征体和源图像的特征体进行相关,得到相关体;再使用三维卷积神经网络对相关体进行正则化,得到概率体。其中,概率体是1×H×W的三维特征,该特征的H×W面中每个位置对应一个概率向量,该概率向量即为该位置处对应的各种深度的概率值。最终,基于该概率体得到参考图像的深度图,即针对前述的每个位置进行赢家通吃(winner-take-all)操作,即对每个位置,将对概率向量中具有最大概率值的深度值作为该位置处的预测深度值,从而得到深度图。例如,某位置处的概率向量为[0.2,0.5,0.3],该概率向量对应的深度区间向量为[1-2m,2-3m,3-4m]。因此,该概率向量包含三个元素,分别为0,2、0.5和0.3,每个元素均对应于一个深度区间,选择最大元素即0.5对应的深度区间2-3m即为当前位置处的预测深度值。
以上详细描述了根据本申请实施例的深度估计方法,假定可以由一个模型来实现上述方法,可以将该模型称为TransMVSNet模型,现在结合图4来概述该模型的处理流程,在图4所示的示例中,该流程可以包括上述实施例的结合。如图4所示,获取参考图像I0和源图像{Ii},其中i的取值范围为1到N-1,N为大于1的自然数,在图4中,示出为两个源图像,即N取值为3。在获取参考图像I0和源图像{Ii}后,将它们输入FPN,各自得到三个分辨率(作为示例)的局部特征。每个局部特征均输入到ARF,得到三个分辨率的半全局特征。其中,仅最小分辨率的半全局特征输入到包括自注意力模块(intra-attention)和交叉注意力模块(inter-attention)的FMT,由FMT输出全局特征,其他分辨率的全局特征是通过该最小分辨率的全局特征与该分辨率的半全局特征的融合而得到的(如图4中所示的加号)。接着,对于最小分辨率的全局特征,其经过W操作(即可微弯曲操作)得到特征体,图4中的W右侧的三个小立方体分别为参考图像的特征体(可称为参考特征体)和两个源图像的特征体(可称为源特征体)。然后,参考图像的特征体分别和两个源图像的特征体各自相关,得到两个相关体(三个小立方体右侧的两个小立方体),两个相关体再经融合,得到融合后的相关体(两个小立方体右侧的一个小立方体);该融合后的相关体经正则化后得到概率体(最右侧的小立方体);最终,概率体经过赢家通吃操作得到最小分辨率的深度图(即初阶段的深度图)。其他分辨率的深度图的计算结合了前一阶段的深度图,最终得到了与参考图像尺寸相同(即与参考图像具有相同分辨率)的深度图(Depth Map)。
基于上面的描述,根据本申请实施例的深度估计方法能够利用内部注意力和外部注意力来聚合图像内和图像间的上下文信息,使得该深度估计方法能够提高深度估计的精度,对于弱纹理、重复纹理和非朗伯面等区域也能获得高精度的深度估计结果。经过申请人的实验认证,本申请的方法在DTU数据集、Tanks and Temples在线测试集和BlendedMVS数据集上都实现了最先进的性能,充分证明了TransMVSNet效果好、泛化性能强等优势。
下面结合图5到图6描述根据本申请另一方面提供的深度估计装置,其可以用于执行前文所述的根据本申请实施例的深度估计方法。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的深度估计装置的结构及其具体操作,为了简洁,此处不再赘述具体的细节,仅描述一些主要操作。
图5示出了根据本申请一个实施例的深度估计装置500的示意性框图。如图5所示,深度估计装置500包括特征提取模块510、特征匹配变形模块520和深度估计模块530。其中,特征提取模块510用于获取参考图像和源图像,对参考图像和源图像分别进行特征提取,得到参考图像和源图像各自的局部特征,其中参考图像和源图像是针对同一场景或者同一对象采集的不同视角的图像。特征匹配变形模块520用于对参考图像和源图像各自的局部特征进行信息交互处理,得到参考图像和源图像各自的全局特征。深度估计模块530用于获取参考图像和源图像各自的外参,基于参考图像和源图像各自的全局特征和各自的外参,输出参考图像的深度图。
在本申请的实施例中,深度估计装置500可以包括适应性感受野模块(未示出),适应性感受野模块用于对参考图像和源图像各自的局部特征进行半全局信息交互处理,得到参考图像和源图像各自的半全局特征;特征匹配变形模块520还用于对参考图像和源图像各自的半全局特征进行全局信息交互处理,得到参考图像和源图像各自的全局特征。
图6示出了根据本申请另一个实施例的深度估计装置600的示意性框图。如图6所示,根据本申请实施例的深度估计装置600可以包括存储器610和处理器620,存储器610存储有由处理器620运行的计算机程序,所述计算机程序在被处理器620运行时,使得处理器620执行前文所述的根据本申请实施例的深度估计方法。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的深度估计装置600的具体操作,为了简洁,此处不再赘述具体的细节。
此外,根据本申请实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本申请实施例的深度估计方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
根据本申请实施例,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述深度估计方法。
基于上面的描述,根据本申请实施例的深度估计方法和深度估计装置能够利用内部注意力和外部注意力来聚合图像内和图像间的上下文信息,使得该深度估计方法能够提高深度估计的精度,对于弱纹理、重复纹理和非朗伯面等区域也能获得高精度的深度估计结果。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本申请的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请的具体实施方式或对具体实施方式的说明,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。
Claims (14)
1.一种深度估计方法,其特征在于,所述方法包括:
获取参考图像和源图像,其中所述参考图像和所述源图像是针对同一场景或者同一对象采集的不同视角的图像;
对所述参考图像和源图像分别进行特征提取,得到所述参考图像和所述源图像各自的局部特征;
对所述参考图像和所述源图像各自的局部特征进行信息交互处理,得到所述参考图像和所述源图像各自的全局特征;
获取所述参考图像和所述源图像各自的外参,基于所述参考图像和所述源图像各自的全局特征和各自的外参,得到所述参考图像的深度图。
2.根据权利要求1所述的方法,其特征在于,所述对所述参考图像和所述源图像各自的局部特征进行信息交互处理,得到所述参考图像和所述源图像各自的全局特征,包括:
对所述参考图像和所述源图像各自的局部特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征;或者
对所述参考图像和所述源图像各自的局部特征进行半全局信息交互处理,得到所述参考图像和所述源图像各自的半全局特征,并对所述参考图像和所述源图像各自的半全局特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征。
3.根据权利要求2所述的方法,其特征在于,所述全局信息交互处理是由特征匹配变形模块执行的,所述特征匹配变形模块包括用于进行图像内信息交互处理的自注意力模块和用于进行图像间信息交互处理的交叉注意力模块;
所述对所述参考图像和所述源图像各自的局部特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征,包括:
将所述参考图像的局部特征输入到所述自注意力模块,得到所述参考图像的全局特征;
将所述源图像的局部特征输入到所述自注意力模块,得到的结果作为所述交叉注意力模块的第一输入;
将所述自注意力模块针对所述参考图像的局部特征的处理结果作为所述交叉注意力模块的第二输入,所述交叉注意力模块的输出为所述源图像的全局特征。
4.根据权利要求3所述的方法,其特征在于,所述特征匹配变形模块包括多个级联模块,每个所述级联模块包括所述自注意力模块和所述交叉注意力模块;
所述参考图像的全局特征是通过如下方式得到的:将所述参考图像的局部特征输入到所述多个级联模块中的第一个级联模块中的自注意力模块,得到所述参考图像的局部特征的第一级处理结果;将所述第一级处理结果输入到所述多个级联模块中的第二个级联模块中的自注意力模块,得到所述参考图像的局部特征的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的自注意力模块输出所述参考图像的全局特征;
所述源图像的全局特征是通过如下方式得到的:将所述源图像的局部特征输入到所述第一个级联模块中的自注意力模块,得到的结果连同所述参考图像的局部特征的第一级处理结果一并输入到所述第一个级联模块中的交叉注意力模块,得到所述源图像的第一级处理结果;将所述源图像的第一级处理结果输入到所述第二个级联模块中的自注意力模块,得到的结果连同所述参考图像的局部特征的第二级处理结果一并输入到所述第二个级联模块中的交叉注意力模块,得到所述源图像的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的交叉注意力模块输出所述源图像的全局特征。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
将所述参考图像和所述源图像各自的局部特征中的每个像素进行位置编码,得到经位置编码后的局部特征输入到所述特征匹配变形模块,以用于获取所述参考图像和所述源图像各自的全局特征。
6.根据权利要求2所述的方法,其特征在于,所述半全局信息交互处理是由适应性感受野模块执行的,所述全局信息交互处理是由特征匹配变形模块执行的,所述适应性感受野模块包括用于进行可变形卷积处理的可变形卷积块,所述特征匹配变形模块包括用于进行图像内信息交互处理的自注意力模块和用于进行图像间信息交互处理的交叉注意力模块;
所述对所述参考图像和所述源图像各自的局部特征进行半全局信息交互处理,得到所述参考图像和所述源图像各自的半全局特征,包括:将所述参考图像和所述源图像各自的局部特征分别输入到所述可变形卷积块,得到所述参考图像和所述源图像各自的半全局特征;
所述对所述参考图像和所述源图像各自的半全局特征进行全局信息交互处理,得到所述参考图像和所述源图像各自的全局特征,包括:将所述参考图像的半全局特征输入到所述自注意力模块,得到所述参考图像的全局特征;将所述源图像的半全局特征输入到所述自注意力模块,得到的结果所述交叉注意力模块的第一输入;将所述自注意力模块针对所述参考图像的半全局特征的处理结果作为所述交叉注意力模块的第二输入,所述交叉注意力模块的输出为所述源图像的全局特征。
7.根据权利要求6所述的方法,其特征在于,所述特征匹配变形模块包括多个级联模块,每个所述级联模块包括所述自注意力模块和所述交叉注意力模块;
所述参考图像的全局特征是通过如下方式得到的:将所述参考图像的半全局特征输入到所述多个级联模块中的第一个级联模块中的自注意力模块,得到所述参考图像的半全局特征的第一级处理结果;将所述第一级处理结果输入到所述多个级联模块中的第二个级联模块中的自注意力模块,得到所述参考图像的半全局特征的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的自注意力模块输出所述参考图像的全局特征;
所述源图像的全局特征是通过如下方式得到的:将所述源图像的半全局特征输入到所述第一个级联模块中的自注意力模块,得到的结果连同所述参考图像的半全局特征的第一级处理结果一并输入到所述第一个级联模块中的交叉注意力模块,得到所述源图像的第一级处理结果;将所述源图像的第一级处理结果输入到所述第二个级联模块中的自注意力模块,得到的结果连同所述参考图像的半全局特征的第二级处理结果一并输入到所述第二个级联模块中的交叉注意力模块,得到所述源图像的第二级处理结果;以此类推,直到所述多个级联模块中的最后一个级联模块中的交叉注意力模块输出所述源图像的全局特征。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
将所述参考图像和所述源图像各自的半全局特征中的每个像素进行位置编码,得到经位置编码后的半全局特征输入到所述特征匹配变形模块,以用于获取所述参考图像和所述源图像各自的全局特征。
9.根据权利要求3或6所述的方法,其特征在于,所述基于所述参考图像和所述源图像各自的全局特征和各自的外参,得到所述参考图像的深度图,包括:
基于所述参考图像和所述源图像各自的外参,经由可微弯曲操作将所述参考图像和所述源图像各自的全局特征变换到参考特征平面上,得到所述参考图像和所述源图像各自的特征体;
将所述参考图像的特征体和所述源图像的特征体进行相关,得到相关体,将所述相关体进行正则化得到概率体,基于所述概率体得到所述参考图像的深度图。
10.根据权利要求9所述的方法,其特征在于,所述特征提取是由特征金字塔模块执行的,所述特征金字塔模块针对所述参考图像输出不同分辨率的多个局部特征,并针对所述源图像输出不同分辨率的多个局部特征,使得所述特征匹配变形模块针对所述参考图像输出不同分辨率的多个全局特征,并针对所述源图像输出不同分辨率的多个全局特征;
所述参考图像和所述源图像各自的最小分辨率的所述全局特征用于生成所述参考图像的最小分辨率的深度图,所述最小分辨率的深度图作为初阶段深度图作用于所述可微弯曲操作以得到所述参考图像的次小分辨率的深度图,以此类推,直到得到所述参考图像的最大分辨率的深度图。
11.根据权利要求10所述的方法,其特征在于,所述不同分辨率的多个局部特征均输入到所述特征匹配变形模块,得到不同分辨率的多个全局特征;或者
所述不同分辨率的多个局部特征中仅最小分辨率的局部特征输入到所述特征匹配变形模块,得到最小分辨率的全局特征,其他分辨率的全局特征是基于所述最小分辨率的全局特征和其他分辨率的局部特征这两者的融合而得到。
12.一种深度估计装置,其特征在于,所述深度估计装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如权利要求1-11中的任一项所述的深度估计方法。
13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序在被运行时,执行如权利要求1-11中的任一项所述的深度估计方法。
14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-11中的任一项所述的深度估计方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111415989 | 2021-11-25 | ||
CN2021114159899 | 2021-11-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913215A true CN114913215A (zh) | 2022-08-16 |
Family
ID=82763188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210323890.4A Pending CN114913215A (zh) | 2021-11-25 | 2022-03-29 | 深度估计方法和深度估计装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913215A (zh) |
-
2022
- 2022-03-29 CN CN202210323890.4A patent/CN114913215A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815843B (zh) | 图像处理方法及相关产品 | |
Choi et al. | Depth analogy: Data-driven approach for single image depth estimation using gradient samples | |
Panek et al. | Meshloc: Mesh-based visual localization | |
Xu et al. | SALMNet: A structure-aware lane marking detection network | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN114049512A (zh) | 模型蒸馏方法、目标检测方法、装置及电子设备 | |
WO2021249114A1 (zh) | 目标跟踪方法和目标跟踪装置 | |
US20240242451A1 (en) | Method for 3d reconstruction, apparatus, system, and storage medium | |
CN115829915A (zh) | 图像质量检测方法、电子设备、存储介质及程序产品 | |
CN116597336A (zh) | 视频处理方法、电子设备、存储介质及计算机程序产品 | |
CN116597260A (zh) | 图像处理方法、电子设备、存储介质及计算机程序产品 | |
CN114202454A (zh) | 图优化方法、***、计算机程序产品以及存储介质 | |
CN114842466A (zh) | 目标检测方法、计算机程序产品和电子设备 | |
Kang et al. | Facial depth and normal estimation using single dual-pixel camera | |
Park et al. | Estimating the camera direction of a geotagged image using reference images | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN113762331A (zh) | 关系型自蒸馏方法、装置和***及存储介质 | |
CN113793251A (zh) | 位姿确定方法、装置、电子设备和可读存储介质 | |
CN115984093A (zh) | 基于红外图像的深度估计方法、电子设备以及存储介质 | |
CN115439534A (zh) | 图像的特征点匹配方法、设备、介质及程序产品 | |
CN114913215A (zh) | 深度估计方法和深度估计装置 | |
CN114648604A (zh) | 一种图像渲染方法、电子设备、存储介质及程序产品 | |
CN113962846A (zh) | 图像对齐方法及装置、计算机可读存储介质及电子设备 | |
CN115428020A (zh) | 生成点云编码器的方法和装置和生成点云数据的方法和装置、电子设备及计算机介质 | |
Tang et al. | TransCNNLoc: End-to-end pixel-level learning for 2D-to-3D pose estimation in dynamic indoor scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |