CN112734915A - 一种基于深度学习的多视角立体视觉三维场景重建方法 - Google Patents

一种基于深度学习的多视角立体视觉三维场景重建方法 Download PDF

Info

Publication number
CN112734915A
CN112734915A CN202110072362.1A CN202110072362A CN112734915A CN 112734915 A CN112734915 A CN 112734915A CN 202110072362 A CN202110072362 A CN 202110072362A CN 112734915 A CN112734915 A CN 112734915A
Authority
CN
China
Prior art keywords
feature
depth
depth map
scale
reference image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110072362.1A
Other languages
English (en)
Inventor
孔德慧
林瑞
王少帆
李敬华
王立春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110072362.1A priority Critical patent/CN112734915A/zh
Publication of CN112734915A publication Critical patent/CN112734915A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习的多视角立体视觉三维场景重建方法,现有的基于深度学习的重建方法,通过提取图像最后一层的特征以生成3D代价体,没有很好地利用浅层特征,这将丢失不同尺度的信息。而且,这些方法在深度图细化时,只考虑了参考图像本身对深度细化的效果,忽略了相邻图像的深度对深度图预测的贡献。为了解决上述问题,我们提出了多尺度特征提取与融合网络以及基于帧间相关性的深度图细化网络,来提升场景的预测精度和完整性。与现有的基于深度学习的方法相比,我们的方法能够更好地学习输入图像的上下文特征,重建出目标场景被遮挡和缺失的区域,能够更完整地恢复场景的三维信息,实现高精度的三维场景重建。

Description

一种基于深度学习的多视角立体视觉三维场景重建方法
技术领域
本发明属于计算机视觉和三维重建领域,研究了一种新的三维重建方法。
背景技术
高精度的三维场景重建对于许多应用至关重要,如城市三维地图、古迹复现、自动驾驶和增强现实等。基于多视角立体视觉的三维重建方法也是计算机视觉的核心研究问题之一。传统的多视角立体匹配重建方法使用主观设计的相似性度量和工程化的正则化(例如归一化互相关和半全局匹配)来计算稠密对应并恢复3D点。虽然这些方法在理想的Lambertian(朗伯)情形下显示出了很好的重建效果,但它们也有一些共同的局限性。例如,场景的低纹理、高光和镜面反射区域等问题的存在使密集匹配变得难以处理,从而导致重建结果不完整。这些缺陷导致传统方法的重建结果质量较低,难以满足实践应用需求,因此,基于视觉的高精度三维重建研究仍面临很多具有挑战性的问题。
近年来,深度学***面,从输入图像集合中选取一幅图像作为参考图像,根据平面扫描算法建立一个平面扫描体素,然后计算在每个采样深度假设下,参考图像中的每个像素与其他相邻图像中对应像素的匹配代价来构建3D代价卷,最后通过CNNs来推断参考图像的深度图。其优点是基于代价卷的方法迫使网络通过立体匹配来学习深度估计,而不只是学习单一的视图线索,有利于泛化。然而,现有的基于深度学习的多视角深度估计方法也存在一些问题:首先,从概念上讲,通过提取图像最后一层的特征以生成3D代价卷,没有很好的利用浅层特征,这将丢失不同尺度的信息以供进一步处理。其次,这些方法在深度图细化时,只考虑了参考图像本身对深度细化的效果,忽略了相邻图像的深度对深度图预测的贡献。
发明内容
为了解决上述这些问题,本发明提出了一种基于深度学习的多视角立体视觉三维场景重建方法,实现多视角图像的三维重建。与现有的基于学习的三维重建方法相比,该方法能够学习到不同尺度的特征,增强基于不同区域的不同信息间上下文信息的聚合,有利于神经网络提取更具有表现力的特征,此外,通过使用帧间相关性度量,能够进一步细化网络预测的初始深度图。
为了能够提高三维重建的精度与质量,本发明提通过多尺度特征提取与融合以及帧间相关性,提升场景的预测精度和完整性。为此,需要解决的关键技术问题包括:利用深度神经网络进行高性能多尺度特征的提取与融合、避免人工设计的多环节误差积累;多视点深度信息融合优化,通过多视点获取的同一场景的图像,一般具有相近的深度,利用相邻图像的深度信息来细化预测的初始深度图。
本发明框架如图2,主要分为三大模块:1)多尺度特征提取与融合;2)匹配代价体的构建与正则化;3)基于帧间相关性的深度图细化。本发明将待估计深度图的图像称为参考图像,其他输入的图像称为源图像,参考图像和任意数量的源图像作为输入图像首先通过多尺度特征提取网络进行特征提取,并借助可微单应性变换将源图像的特征图映射到参考图像所在的视锥体中以生成不同尺度的特征体,然后使用多尺度特征体聚合网络将不同尺度的特征体进行聚合生成聚合后的特征体;接着使用基于方差的度量构建匹配代价体,并使用3D-Unet网络对代价体进行正则化,再使用softArgmin操作生成初始的深度图;最后使用帧相关深度图细化网络对初始深度图进行优化,生成细化后的深度图。我们只在网络的训练阶段使用帧间相关性模块进行深度图细化,测试时不使用。
有益效果
实验表明,本发明提出的方法能够很好的学习图像的上下文特征,实现高精度的三维场景重建。
附图说明
图1、本发明整体流程图;
图2、本发明网络算法框架示意图;
图3多尺度特征提取与融合模块结构示意图;
图4特征提取的网络结构图(MSFNet);
图5代价体的构建与正则化模块结构示意图;
图6基于帧间相关性的深度图细化模块结构示意图;
图7(a)DTU数据集scan09场景上点云重建效果;
图7(b)DTU数据集scan77场景上点云重建效果;
图7(c)DTU数据集scan114场景上点云重建效果。
具体实施方式
以下将详细介绍本发明的具体过程:
1.多尺度特征提取和融合
该部分主要是提取图像的多尺度特征以及多尺度特征体的聚合。其创新点是提出了多尺度特征体聚合网络,即MFVA-Net(Multi-scale Feature Volume AggregationNet),该网络能够学习到不同尺度特征体中的上下文信息,增强了神经网络对深度预测的能力,进一步提高三维重建的精度和完整性。
多尺度特征提取和融合部分主要由三个阶段组成:1)多尺度特征提取;2)特征体的构建;3)多尺度特征体的聚合。其框架如图2。
1)多尺度特征提取
网络的输入为N张已知相机参数的RGB图像
Figure BDA0002906111810000031
将I1记做参考图像,
Figure BDA0002906111810000032
记做源图像。多尺度特征提取网络MSFE-Net(Multi-Scale Feature Extractor Net)由12个卷积层组成,每个卷积层后都进行BN批量归一化操作和ReLU操作来加速训练。我们在第6、8、10、12个卷积层处分别提取不同尺度的特征,最终得到通道数都为32的feature_0、feature_1、feature_2、feature_3四个不同尺度的特征图,组成特征金字塔。网络结构图如图3。
2)特征体的构建
相同场景的任何两张图像都可以通过单应性变换来互相映射,相同场景的任何两张图像都可以通过单应性变换来互相映射,我们使用可微单应性变换这一操作将特征提取网路提取的源图像的四个不同尺度的32通道特征图feature_0、feature_1、feature_2、feature_3变换到参考图像的视锥中,得到多尺度下的特征体f0,0、f1,0、f2,0、f3,0。具体地,我们先将参考图像的视锥体进行离散化,等距离采样D(D=192)个深度平面,然后通过可微单应性变换操作将源图像的每个通道的特征图分别变换到参考图像视锥体中每个采样深度平面上,组成大小为W·H·D·Fc特征体,其中,W,H,D,Fc分别为输入图像的宽、高、深度采样的数目和特征图的通道数。
其可微单应性变化的公式为:
Figure BDA0002906111810000041
其中,Hi(d)是从第i个特征图变换到参考图像在深度为d时的单应性变换矩阵,
Figure BDA0002906111810000042
分别为对应特征图的相机内参,旋转和平移,参考图像对应的单应性变换矩阵为单位阵I,n为参考图像光轴的法向量。
3)多尺度特征体的聚合
接下来,为了学习更多的上下文信息,增强神经网络对图像的深度预测能力,本发明提出了多尺度特征体聚合网络MFVA-Net。其主要思想是首先将特征体构建阶段生成的四种不同尺度的特征体f0,0、f1,0、f2,0、f3,0分别经过一次卷积得到尺度从大到小表示的特征体金字塔F3,0、F2,0、F1,0、F0,0;然后我们使用自底向上的方式将四种不同尺度特征体从最小尺度进行卷积和上采样到下一级尺度,然后和同一尺度的相邻特征体进行拼接,直到上采样到与最高尺度的特征体相同尺寸为止,最终得到最大尺度的特征体F3,3
我们将Fi,j表示为第i个尺度下的第j个特征体,则Fi,j用公式可以表示为:
Figure BDA0002906111810000043
其中,H(·)是一个3x3的卷积操作,后面跟一个ReLU激活函数,U(·)表示上采样,Cn表示拼接操作。经过多次卷积、上采样和拼接操作,我们的多尺度特征体聚合网络通过使用多个平行金字塔路径,使网络能够学习到具有强语义信息的精细分辨率特征。
具体地,我们首先对特征体构建中得到的四个不同的特征体f0,0,f1,0,f20f3,0进行一次卷积操作分别得到四个不同的特征体得到F0,0、F1,0、F2,0、F3,0。将最小尺度的特征体F0,0进行3x3的卷积,接着用两倍缩放比例的最近邻插值将特征体上采样至更高一级尺度,然后将上采样后的特征体与构建的特征体F1,0进行拼接得到融合后的特征体F1,1;紧接着将特征体F1,0进行3x3卷积并上采样到更高一级尺度,然后与特征体F2,0进行拼接得到特征体F2,1,同时,我们将融合得到的特征体F1,1也进行3x3卷积并上采样到更高一级尺度,并与融合得到的特征体F2,1进行拼接得到特征体F2,2;接下来使用与上面相同的方式分别得到最高尺度下的特征体F3,1、F3,2、F3,3。则特征体F3,3最终融合了多尺度特征体之间的上下文信息。我们的多尺度特征体聚合网络通过使用多个平行金字塔路径,使网络能够学习到具有强语义信息的精细分辨率特征。
经过多尺度特征体融合后,对于每一幅图像都会得到一个32通道的特征体F(F=F3,3),则N张图像最终得到N个32通道的特征体
Figure BDA0002906111810000051
2.匹配代价体的构建与正则化
为了得到参考图像中每个像素的深度值,我们需要计算参考图像特征与经过单应性变换后的源图像特征的逐像素匹配损失,具体地,我们在D个采样平面下分别计算参考图像特征图和源图像特征图的对应的逐像素差值,在同一个像素点会计算得到D个匹配损失值。我们认为匹配损失最小的平面就是该像素的深度值。
接下来由这N个32通道的特征体构造一个四维的匹配代价体C,其尺寸与一个特征体的尺寸相同,通过基于方差的度量定义四维代价体:
Figure BDA0002906111810000052
其中
Figure BDA0002906111810000061
是所有特征体的像素值的平均值。通过使用方差的度量,可以处理任意数量的输入图像。
由图像特征计算出的原始代价体可能受到噪声污染(例如,存在非朗伯面或物体遮挡),因此应该加入平滑性约束来推断深度图,我们的正则化网络旨在细化构建的代价体C,以生成用于深度估计的概率体P,具体地,我们使用U-Net网络(如图5)进行代价体正则化。它使用编码器-解码器结构以相对较低的内存和计算成本来聚合更大感受野的相邻信息。为了进一步减少计算需求,我们在第一个3D卷积层之后将32通道的代价体减少到8通道,每个尺度下使用两层卷积层,最后的卷积输出一个1通道的代价体,接着,通过softmax操作对采样深度方向上每个深度值计算相应的概率,得到概率体P。最后,我们使用SoftArgmin操作来生成初始深度图,具体地,计算每个像素对应所有深度值的期望,对所有深度假设值进行加权求和:
Figure BDA0002906111810000062
其中,dmin、dmax分别表示最小和最大深度采样值,d表示采样深度值,p(d)表示每个像素在采样深度为d时的概率。
3.基于帧间相关性的深度图细化
通过上述过程已经得到了初始的深度图,但由于代价体正则化涉及到较大的感受野,最终得到的初始深度中对象的边界可能变得过度平滑。因此,我们使用基于帧间相关性的深度图细化模块(如图6)对初始深度图进行细化。对于参考图像和它的相邻(帧间)图像具有相同的场景,我们假设“具有相同场景的图像,其深度也具有相似性”,由于各近邻图像对初始深度图细化的贡献不同,可以通过设置权重的大小,使得相似度高的深度图贡献大,相似度低的深度图贡献小。
首先,通过SIFT特征匹配来度量参考图像和每张源图像的相似性分数,具体地,我们使用经典的SIFT特征提取算法分别从参考图像和源图像上提取各自的SIFT特征;然后对于参考图像中的每个特征点,均在源图像中计算并找到与其距离最近和次最近的两个特征点;当最近距离与次距离的比值小于0.6时,认为具有最近距离的特征点是参考图像中特征点的配对点,则这两个特征点成为一个匹配对。当得到所有匹配对的个数Nm时,即可计算其与参考图像中SIFT特征点总数的比值,该值作为参考图像与源图像的相似性分数wi。公式如下所示:
Figure BDA0002906111810000071
其中,Nm表示SIFT特征匹配对的个数、Nr表示参考图像中SIFT特征的个数。
然后根据相似性分数对源图像的深度图进行加权求和,得到加权后的深度图,相邻图像的深度图加权公式:
Figure BDA0002906111810000072
其中,di(p)表示像素p源图像中的深度,wi表示相邻图像的深度的相似性分数。
而且参考图像包含了边界信息,有助于细化深度图的边界,因此,我们将加权后的源图像的深度图(1通道)、参考图像(3通道)和网络预测的初始深度图(1通道)组成5通道的输入,然后经过六个32通道带有组标准化和ReLU的2D卷积层,卷积核大小为3x 3,最后经过一个不带有组标准化和ReLU的2D卷积层输出1通道的深度残差图,并将其与网络预测的参考图像的初始深度图进行叠加得到优化后的深度图。
整体网络训练的损失函数综合考虑了初始深度图和优化后的深度图,并使用L1损失来衡量预测得到的深度图和ground truth深度图之间的差距。其公式为:
Figure BDA0002906111810000073
其中d(p)表示groundtruth深度图,di(p)表示初始的深度图对应的深度值,dr(p)表示优化后的深度图对应的深度值。
最后,我们将输入的N张图像分别当做参考图像进行深度图预测,得到N张同一场景下的深度图,然后使用传统的表面法向融合算法将多张深度图进行融合得到场景的稠密3D点云表示。
本发明使用公开的DTU数据集进行训练和测试。该数据集包含119个场景,由49个精确的相机位置获得,所有图像都是在7个不同的照明条件下拍摄得到。我们将数据集划分为训练集、验证集和测试集,其中训练集包含79个场景(27097个训练样本),测试集包含22个场景(7546个对象),其余用于验证。
本发明使用了精度、完整性和Overall来评估三维重建的性能。精度用来衡量重建场景点云到groundtruth点云之间的距离,表示重建点云的质量;完整性用来衡量groundtruth点云到重建点云的距离,表示有多少表面被捕捉到。Overall定义为精度和完整性的均值。三个度量值越小重建效果越好。
本发明做了相关实验,将提出的基于学习的多视角立体视觉三维场景重建方法与经典的传统方法Gipuma和colmap,以及基于学习的方法surfaceNet和MVSNet进行了比较,对比结果如表1、图7(a)-(c)所示:
表1在场景scan09上的评估
Figure BDA0002906111810000081
Mean:均值
Acc:重建精度(重建的点云到groundtruth点云的距离,单位:mm)
Comp:重建完整性(groundtruth点云到重建点云的距离,单位:mm)
Overall:(Acc+Comp)/2
综上分析,本发明提出的基于深度学习的多视角立体视觉三维场景重建方法优于传统的重建方法和基于深度学习的重建方法,即它能够更好地学习输入图像的多尺度特征,增强了神经网络对深度预测的能力,重建出目标场景被遮挡和缺失的区域,从而能够更完整地恢复场景的三维信息。

Claims (7)

1.一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于包括以下步骤:
步骤1)通过多尺度特征提取网络提取同一场景不同视角下的N张图像的多尺度特征图,其中,任选一张图像称为参考图像,其他输入的图像称为源图像;
步骤2)借助可微单应性变换将源图像的多尺度特征图映射到参考图像所在的视锥体中以生成不同尺度的特征体;
步骤3)使用多尺度特征体聚合网络将不同尺度的特征体进行聚合生成聚合后的特征体,经过多尺度特征体融合后,对于每一幅图像都会得到一个32通道的特征体F(F=F3,3),则N张图像最终得到N个32通道的特征体
Figure FDA0002906111800000011
步骤4)使用基于方差的度量构建匹配代价体,并使用3D-Unet网络对代价体进行正则化,再使用softArgmin操作生成参考图像的初始深度图;
步骤5)使用帧相关深度图细化网络对初始深度图进行优化,生成细化后的深度图;其中,只在网络的训练阶段使用帧间相关性模块进行深度图细化,实际应用时不使用;
步骤6)将输入的N张图像分别当做参考图像进行深度图预测,得到N张同一场景下的深度图,然后使用传统的表面法向融合算法将多张深度图进行融合得到场景的稠密3D点云表示。
2.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于:步骤1)具体如下:
首先使用相机获取同一场景不同视角下的N张RGB图像,记为
Figure FDA0002906111800000012
并计算每幅图像的相机内外参数;通过多尺度特征提取网络对所有输入图像进行不同尺度的特征提取,并将这些不同尺度的特征组成特征金字塔;其中,所述的多尺度特征提取网络由12个卷积层串联组成,所述的不同尺度特征分别指第6、8、10、12个卷积层处的不同尺度特征,即feature_0、feature_1、feature_2、feature_3。
3.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤2),具体如下:
首先将参考图像的视锥体进行离散化,等距离采样D(D=192)个深度平面,然后通过可微单应性变换将源图像的多尺度特征图分别变换到每个采样深度平面上,组成四种不同尺度的特征体f0,0、f1,0、f2,0、f3,0
4.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤3)中所述特征体的计算过程具体如下:
首先将特征体构建阶段生成的四种不同尺度的特征体f0,0、f1,0、f2,0、f3,0分别经过一次卷积得到尺度从大到小表示的特征体金字塔F3,0、F2,0、F1,0、F0,0;然后使用自底向上的方式将四种不同尺度特征体从最小尺度进行卷积和上采样到下一级尺度,然后和同一尺度的相邻特征体进行拼接,直到上采样到与最高尺度的特征体相同尺寸为止,最终得到最大尺度的特征体F3,3,其中,将Fi,j表示为第i个尺度下的第j个特征体,则Fi,j用公式可以表示为:
Figure FDA0002906111800000021
其中,H(·)是一个3x3的卷积操作,后面跟一个ReLU激活函数,U(·)表示上采样,Cn表示拼接操作,经过多次卷积、上采样和拼接操作,多尺度特征体聚合网络通过使用多个平行金字塔路径,学习到具有强语义信息的精细分辨率特征。
5.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤4)具体如下:
首先在D个采样平面下分别计算参考图像特征图和源图像特征图的对应的逐像素差值,在同一个像素点计算得到D个匹配损失值,匹配损失最小的平面就是该像素的深度值;
接下来由这N个32通道的特征体构造一个四维的匹配代价体C,其尺寸与一个特征体的尺寸相同,通过基于方差的度量定义四维代价体:
Figure FDA0002906111800000022
其中
Figure FDA0002906111800000031
是所有特征体的像素值的平均值,通过使用方差的度量,可以处理任意数量的输入图像;
然后,使用3D-Unet网络进行代价体正则化,用于细化构建的代价体C,以生成用于深度估计的概率体P;所述的概率体P是由3D-Unet网络中softmax操作对采样深度方向上每个深度值计算相应的概率构成的;
最后,计算每个像素对应所有深度值的期望,对所有深度假设值进行加权求和,得到初始的深度图,具体如下:
Figure FDA0002906111800000032
其中,dmin、dmax分别表示最小和最大深度采样值,d表示采样深度值,p(d)表示每个像素在采样深度为d时的概率。
6.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤5)中所述帧间相关性模块工作过程如下:
首先,通过SIFT特征匹配来度量参考图像和每张源图像的相似性分数,具体地,使用经典的SIFT特征提取算法分别从参考图像和源图像上提取各自的SIFT特征;然后对于参考图像中的每个特征点,均在源图像中计算并找到与其距离最近和次最近的两个特征点;当最近距离与次近距离的比值小于阈值时,认为具有最近距离的特征点是参考图像中特征点的配对点,则这两个特征点成为一个匹配对;当得到所有匹配对的个数Nm时,即可计算其与参考图像中SIFT特征点总数Nr的比值,该值作为参考图像与源图像的相似性分数wi,公式如下所示:
Figure FDA0002906111800000033
其中,Nm表示SIFT特征匹配对的个数、Nr表示参考图像中SIFT特征的个数;
然后根据相似性分数对源图像的深度图进行加权求和,得到加权后的深度图,源图像的深度图加权公式:
Figure FDA0002906111800000041
其中,di(p)表示像素p源图像中的深度,wi表示源图像的深度的相似性分数。
而且参考图像包含了边界信息,有助于细化深度图的边界,因此,将加权后的源图像的深度图(1通道)、参考图像(3通道)和网络预测的初始深度图(1通道)组成5通道的输入,然后依次经过六个32通道带有组标准化和ReLU的2D卷积层,卷积核大小为3x3,最后经过一个不带有组标准化和ReLU的2D卷积层输出1通道的深度残差图,并将其与网络预测的参考图像的初始深度图进行叠加得到优化后的深度图。
7.根据权利要求6所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于整体网络训练的损失函数综合考虑了初始深度图和优化后的深度图,并使用L1损失来衡量预测得到的深度图和ground truth深度图之间的差距,其公式为:
Figure FDA0002906111800000042
其中d(p)表示groundtruth深度图,di(p)表示初始的深度图对应的深度值,dr(p)表示优化后的深度图对应的深度值。
CN202110072362.1A 2021-01-19 2021-01-19 一种基于深度学习的多视角立体视觉三维场景重建方法 Pending CN112734915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110072362.1A CN112734915A (zh) 2021-01-19 2021-01-19 一种基于深度学习的多视角立体视觉三维场景重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110072362.1A CN112734915A (zh) 2021-01-19 2021-01-19 一种基于深度学习的多视角立体视觉三维场景重建方法

Publications (1)

Publication Number Publication Date
CN112734915A true CN112734915A (zh) 2021-04-30

Family

ID=75592515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110072362.1A Pending CN112734915A (zh) 2021-01-19 2021-01-19 一种基于深度学习的多视角立体视觉三维场景重建方法

Country Status (1)

Country Link
CN (1) CN112734915A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345082A (zh) * 2021-06-24 2021-09-03 云南大学 一种特征金字塔多视图三维重建方法和***
CN113808063A (zh) * 2021-09-24 2021-12-17 土豆数据科技集团有限公司 用于大规模场景重建的深度图优化方法、装置及存储介质
CN113962858A (zh) * 2021-10-22 2022-01-21 沈阳工业大学 一种多视角深度获取方法
CN113963117A (zh) * 2021-10-29 2022-01-21 温州大学 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN114820755A (zh) * 2022-06-24 2022-07-29 武汉图科智能科技有限公司 一种深度图估计方法及***
CN115170746A (zh) * 2022-09-07 2022-10-11 中南大学 一种基于深度学习的多视图三维重建方法、***及设备
CN116721143A (zh) * 2023-08-04 2023-09-08 南京诺源医疗器械有限公司 3d医学图像的深度信息处理装置及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN110197468A (zh) * 2019-06-06 2019-09-03 天津工业大学 一种基于多尺度残差学习网络的单图像超分辨重建算法
WO2019174377A1 (zh) * 2018-03-14 2019-09-19 大连理工大学 一种基于单目相机的三维场景稠密重建方法
WO2020056791A1 (zh) * 2018-09-21 2020-03-26 五邑大学 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
AU2020100200A4 (en) * 2020-02-08 2020-06-11 Huang, Shuying DR Content-guide Residual Network for Image Super-Resolution
CN111462329A (zh) * 2020-03-24 2020-07-28 南京航空航天大学 一种基于深度学习的无人机航拍影像的三维重建方法
CN111652966A (zh) * 2020-05-11 2020-09-11 北京航空航天大学 一种基于无人机多视角的三维重建方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174377A1 (zh) * 2018-03-14 2019-09-19 大连理工大学 一种基于单目相机的三维场景稠密重建方法
WO2020056791A1 (zh) * 2018-09-21 2020-03-26 五邑大学 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN110197468A (zh) * 2019-06-06 2019-09-03 天津工业大学 一种基于多尺度残差学习网络的单图像超分辨重建算法
AU2020100200A4 (en) * 2020-02-08 2020-06-11 Huang, Shuying DR Content-guide Residual Network for Image Super-Resolution
CN111462329A (zh) * 2020-03-24 2020-07-28 南京航空航天大学 一种基于深度学习的无人机航拍影像的三维重建方法
CN111652966A (zh) * 2020-05-11 2020-09-11 北京航空航天大学 一种基于无人机多视角的三维重建方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABHISHEK KAR 等: "Learning a multi-view stereo machine", NIPS\'17: PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS, pages 1 - 12 *
王刚: "基于多视角立体视觉的三维重建研究", 中国优秀硕士学位论文全文数据库(信息科技辑), pages 138 - 1727 *
袁坤: "基于立体视觉的多视角三维重建***的研究与设计", 中国优秀硕士学位论文全文数据库(信息科技辑), pages 138 - 621 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345082A (zh) * 2021-06-24 2021-09-03 云南大学 一种特征金字塔多视图三维重建方法和***
CN113345082B (zh) * 2021-06-24 2022-11-11 云南大学 一种特征金字塔多视图三维重建方法和***
CN113808063A (zh) * 2021-09-24 2021-12-17 土豆数据科技集团有限公司 用于大规模场景重建的深度图优化方法、装置及存储介质
CN113962858A (zh) * 2021-10-22 2022-01-21 沈阳工业大学 一种多视角深度获取方法
CN113962858B (zh) * 2021-10-22 2024-03-26 沈阳工业大学 一种多视角深度获取方法
CN113963117A (zh) * 2021-10-29 2022-01-21 温州大学 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN113963117B (zh) * 2021-10-29 2024-03-29 温州大学 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN114820755A (zh) * 2022-06-24 2022-07-29 武汉图科智能科技有限公司 一种深度图估计方法及***
CN115170746A (zh) * 2022-09-07 2022-10-11 中南大学 一种基于深度学习的多视图三维重建方法、***及设备
CN116721143A (zh) * 2023-08-04 2023-09-08 南京诺源医疗器械有限公司 3d医学图像的深度信息处理装置及方法
CN116721143B (zh) * 2023-08-04 2023-10-20 南京诺源医疗器械有限公司 3d医学图像的深度信息处理装置及方法

Similar Documents

Publication Publication Date Title
CN112734915A (zh) 一种基于深度学习的多视角立体视觉三维场景重建方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
Engin et al. Cycle-dehaze: Enhanced cyclegan for single image dehazing
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
Huang et al. Indoor depth completion with boundary consistency and self-attention
CN112102182B (zh) 一种基于深度学习的单图像去反射方法
CN108764250B (zh) 一种运用卷积神经网络提取本质图像的方法
CN111626927B (zh) 采用视差约束的双目图像超分辨率方法、***及装置
CN111260775B (zh) 基于遮挡信息多尺度感知的三维重建方法及装置
CN112419185B (zh) 基于光场迭代的精确高反光去除方法
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN113538569A (zh) 一种弱纹理物***姿估计方法和***
CN115439743A (zh) 一种泊车场景下精确提取视觉slam静态特征的方法
CN112634184A (zh) 基于融合性卷积神经网络的rgb图像光谱反射率重建方法
CN114463492A (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN114092540A (zh) 基于注意力机制的光场深度估计方法及计算机可读介质
CN113362307A (zh) 一种rgb-d图像显著性检测方法
Ma et al. STSRNet: Self-texture transfer super-resolution and refocusing network
CN110766609B (zh) 一种针对ToF相机的景深图超分辨率重建方法
CN112348762A (zh) 一种基于多尺度融合生成对抗网络的单幅图像去雨方法
CN116433904A (zh) 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法
CN113052311B (zh) 具有跳层结构的特征提取网络及特征和描述子生成的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination