CN113066168A

CN113066168A - 一种多视图立体网络三维重建方法及***

Info

Publication number: CN113066168A
Application number: CN202110378393.XA
Authority: CN
Inventors: 柏正尧; 程威
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-02
Anticipated expiration: 2041-04-08
Also published as: CN113066168B

Abstract

本发明涉及一种多视图立体网络三维重建方法及***。该方法包括：获取待重建目标物体的参考图像以及多幅实际拍摄图像，并利用多尺度特征提取模块提取多幅实际拍摄图像的图像特征；根据参考图像以及实际拍摄图像之间的特征相似度对图像特征进行分组，构造深度代价体，确定深度图；在粗略阶段采用固定深度间隔对深度图进行划分，确定粗略阶段的深度预测区间，在细化阶段利用深度预测的不确定性确定自适应深度间隔，并对深度图进行划分，确定细化阶段的深度预测区间；根据两个阶段的深度预测区间通过级联深度架构推断出与参考图像分辨率相同的最终深度图；根据最终深度图通过深度过滤融合脚本生成稠密三维点云。本发明能够提高重建精度以及重建效果。

Description

一种多视图立体网络三维重建方法及***

技术领域

本发明涉及多视图立体网络三维重建领域，特别是涉及一种多视图立体网络三维重建方法及***。

背景技术

多视立体几何(Multi-view stereo，MVS)旨在从一组经过标定的二维图像和估计的相机参数中恢复三维场景表面，正广泛应用于自动驾驶、增强现实、文物数字化呈现与保护、城市尺度的测量等领域。该方法相较主动式三维重建方法需要用到昂贵的深度相机或结构光相机，有着成本低廉，方便高效的优点，但需要准确的深度图才能融合生成高质量的稠密点云，因此获取高质量的深度图对于多视图三维重建生成准确的稠密点云起到至关重要的作用。

以往的传统方法一般先引入人为设计的相似性度量用于图像关联，然后迭代优化生成稠密点云，例如，将归一化互相关作为相似性度量，再利用半全局匹配进行优化。这类方法针对理想朗伯表面取得了较好效果，但对于实际场景中的低纹理、高光照和反射区域重建效果很差，导致重建出来的场景不完整，准确性也难以保证。

为了解决这一难题，最近一些基于深度学***面扫描(plane sweep)过程建立3D深度代价体，而深度代价体一般需要多尺度3D CNNs进行正则化，这需要耗费大量显存与算力，部分研究方法利用下采样图像减少GPU内存占用，这种方法能有效降低显存占用，但丢失了部分特征信息，以致估计出的深度图分辨率很低，重建精度和完整性都大打折扣。此外，这些方法在深度预测阶段大多采用固定深度间隔，把深度估计范围划分成固定间隔的多个深度区间，这种划分方式仅能简单确定所有场景的假设深度平面，无法为每个待估计场景设置最佳深度间隔，导致重建后的立体网络与实际待估计场景相差很大，重建效果差。

发明内容

本发明的目的是提供一种多视图立体网络三维重建方法及***，以解决现有的重建方法估计出的深度图分辨率低以及采用固定深度间隔，把深度估计范围划分成固定间隔的多个深度区间，从而导致重建精度以及重建效果差的问题。

为实现上述目的，本发明提供了如下方案：

一种多视图立体网络三维重建方法，包括：

获取待重建目标物体的参考图像以及多幅实际拍摄图像，并利用多尺度特征提取模块提取多幅所述实际拍摄图像的图像特征；多幅所述实际拍摄图像为对所述待重建目标物体进行环绕拍摄得到的自采图像；所述多尺度特征提取模块包括向下采样的编码器以及向上采样的解码器；

引入相似性度量，根据所述参考图像以及所述实际拍摄图像之间的特征相似度对所述图像特征进行分组，并构造深度代价体；

对所述深度代价体进行正则化操作，确定深度图；

基于粗到细的深度推断策略，在粗略阶段采用固定深度间隔对所述深度图进行划分，确定粗略阶段的深度预测区间，在细化阶段利用所述粗略阶段内深度预测的不确定性确定自适应深度间隔，并利用所述自适应深度间隔对所述深度图进行划分，确定细化阶段的深度预测区间；

根据所述粗略阶段的深度预测区间以及所述细化阶段的深度预测区间，通过级联深度架构推断出与所述参考图像分辨率相同的最终深度图；所述级联深度架构包括一个粗略阶段以及两个细化阶段；

根据所述最终深度图通过深度过滤融合脚本生成稠密三维点云；所述稠密三维点云用于展示所述待重建目标物体。

可选的，所述向下采样的编码器包括后接BN层和具有激活函数的卷积层；其中，两个步长为2且卷积核大小为5x5的卷积层对所述实际拍摄图像进行两次下采样；

所述向上采样的解码器包括2个带有跳跃连接的上采样层以及4个用于统一输出通道数的卷积层；

输入所述实际拍摄图像的图像矩阵，通过所述编码器依次进行卷积操作提取包含三个尺度的图像特征图，再经过所述解码器的卷积层，结合跳跃连接的上采样层依次提取出包含三个尺度的最终图像特征图；所述最终图像特征图包括所述实际拍摄图像完整尺寸的图像特征、1/2尺寸的图像特征以及1/4尺寸的图像特征。

可选的，所述引入相似性度量，根据所述参考图像以及所述实际拍摄图像之间的特征相似度对所述图像特征进行分组，并构造深度代价体，具体包括：

将所述最终图像特征图的特征通道划分为多组，计算每组所述特征通道内所述参考图像和所述实际拍摄图像之间的特征图在设定深度平面处的特征相似度；

基于每组所述特征通道内的所述特征相似度，将所述最终图像特征图压缩到多组所述特征通道的相似度张量；多组所述特征通道的相似度张量的集合为深度代价体。

可选的，所述对所述深度代价体进行正则化操作，确定深度图，具体包括：

将所述深度代价体输入至由3D UNet模型中，输出正则化后的深度代价体；所述3DUNet模型包括多个下采样和上采样的3D卷积层；

沿着所述正则化后的深度代价体的深度方向进行Softmax操作，计算所述正则化后的深度代价体内每个像素的深度概率，确定包含深度概率分布信息的深度概率体；

计算每个像素划分的设定深度阈值与所述深度概率体的加权平均值，确定深度图。

可选的，所述在细化阶段利用所述粗略阶段内深度预测的不确定性确定自适应深度间隔，并利用所述自适应深度间隔对所述深度图进行划分，确定细化阶段的深度预测区间，具体包括：

获取所述粗略阶段预测的深度以及设定深度平面数；

根据所述粗略阶段预测的深度以及设定深度平面数计算粗略阶段每个像素处的深度概率分布均方差；

根据所述粗略阶段预测的深度与所述深度概率分布均方差之和以及所述粗略阶段预测的深度与所述深度概率分布均方差之差，计算粗略阶段内深度预测的不确定性；

获取所述粗略阶段内深度预测的不确定性上边界以及下边界；

根据所述上边界以及所述下边界确定自适应深度间隔，并利用所述自适应深度间隔对所述深度图进行划分，确定细化阶段的深度预测区间。

可选的，所述根据所述最终深度图通过深度过滤融合脚本生成稠密三维点云，之后还包括：

利用DTU数据集和Tanks&Temples数据集对所述稠密三维点云进行评估。

一种多视图立体网络三维重建***，包括：

图像特征提取模块，用于获取待重建目标物体的参考图像以及多幅实际拍摄图像，并利用多尺度特征提取模块提取多幅所述实际拍摄图像的图像特征；多幅所述实际拍摄图像为对所述待重建目标物体进行环绕拍摄得到的自采图像；所述多尺度特征提取模块包括向下采样的编码器以及向上采样的解码器；

深度代价体构造模块，用于引入相似性度量，根据所述参考图像以及所述实际拍摄图像之间的特征相似度对所述图像特征进行分组，并构造深度代价体；

深度图确定模块，用于对所述深度代价体进行正则化操作，确定深度图；

粗略阶段的深度预测区间以及细化阶段的深度预测区间确定模块，用于基于粗到细的深度推断策略，在粗略阶段采用固定深度间隔对所述深度图进行划分，确定粗略阶段的深度预测区间，在细化阶段利用所述粗略阶段内深度预测的不确定性确定自适应深度间隔，并利用所述自适应深度间隔对所述深度图进行划分，确定细化阶段的深度预测区间；

最终深度图推断模块，用于根据所述粗略阶段的深度预测区间以及所述细化阶段的深度预测区间，通过级联深度架构推断出与所述参考图像分辨率相同的最终深度图；所述级联深度架构包括一个粗略阶段以及两个细化阶段；

稠密三维点云构建模块，用于根据所述最终深度图通过深度过滤融合脚本生成稠密三维点云；所述稠密三维点云用于展示所述待重建目标物体。

可选的，所述深度代价体构造模块，具体包括：

特征相似度确定单元，用于将所述最终图像特征图的特征通道划分为多组，计算每组所述特征通道内所述参考图像和所述实际拍摄图像之间的特征图在设定深度平面处的特征相似度；

相似度张量确定单元，用于基于每组所述特征通道内的所述特征相似度，将所述最终图像特征图压缩到多组所述特征通道的相似度张量；多组所述特征通道的相似度张量的集合为深度代价体。

可选的，所述深度图确定模块，具体包括：

正则化单元，用于将所述深度代价体输入至由3D UNet模型中，输出正则化后的深度代价体；所述3D UNet模型包括多个下采样和上采样的3D卷积层；

深度概率体确定单元，用于沿着所述正则化后的深度代价体的深度方向进行Softmax操作，计算所述正则化后的深度代价体内每个像素的深度概率，确定包含深度概率分布信息的深度概率体；

深度图确定单元，用于计算每个像素划分的设定深度阈值与所述深度概率体的加权平均值，确定深度图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种多视图立体网络三维重建方法及***，引入基于相似性度量对图像特征进行分组并构造深度深度代价体，相似性度量的平均组相关方式对特征分组替代基于方差的特征代价累加，提高对特征的有效利用，舍去图像中多余的冗余特征信息，相比基于方差的构造方式，减小显存占用的同时也能提高特征利用效率，提升重建质量；同时，设计的自适应深度间隔模块相较固定深度间隔对深度预测区间进行像素级加权，在细化阶段采用不同的自适应深度间隔实现更细分的预测区间，同时，粗到细的深度预测架构有效利用级联的分层特性，较粗略级的深度预测信息能指导细化级划分自适应深度间隔，二者相辅相成使得最终深度估计更精细，提高重建效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的多视图立体网络三维重建方法流程图；

图2为本发明所提供的多视图立体网络三维重建方法的网络结构示意图；

图3为本发明所提供的3D Unet网络结构示意图；

图4为本发明所提供的自适应深度间隔示意图；

图5为本发明所提供的多视图立体网络三维重建***结构图；

图6为本发明所提供的DTU数据集场景9三维重建结果示意图；

图7为本发明所提供的DTU数据集场景77与场景49三维重建结果示意图；

图8为本发明所提供的Tanks&Temples数据集中间集合三维重建结果示意图；

图9为本发明所提供的自采数据集重建结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种多视图立体网络三维重建方法及***，能够提高重建精度以及重建效果。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的多视图立体网络三维重建方法流程图，如图1所示，一种多视图立体网络三维重建方法，包括：

步骤101：获取待重建目标物体的参考图像以及多幅实际拍摄图像，并利用多尺度特征提取模块提取多幅所述实际拍摄图像的图像特征；多幅所述实际拍摄图像为对所述待重建目标物体进行环绕拍摄得到的自采图像；所述多尺度特征提取模块包括向下采样的编码器以及向上采样的解码器。

多尺度特征提取模块包括向下采样的编码器和向上采样的解码器两部分。向下采样部分由8个后接批标准化(Batch Normalization，BN)层和具有激活函数(RectifiedLinear Unit，ReLU)激活层的卷积层组成；其中，有两个步长为2且卷积核大小为5x5的卷积层对原始图像进行两次下采样，向上采样部分包含2个带有跳跃连接的上采样层以及4个用于统一输出通道数的卷积层.输入的图像矩阵通过卷积核的卷积操作，即可提取到该图像对应这个卷积核的特征矩阵(特征图)，图像通过多尺度提取模块的向下采样部分依次进行卷积操作可提取到三个尺度的特征图，再经过向上采样部分的卷积操作结合跳跃连接(小尺度特征图双线性插值后加上较大尺度特征图)依次提取出三个尺度的特征图，最终得到原始图像整个尺寸的特征，1/2尺寸的特征，1/4尺寸的特征。

以往方法对图像构造金字塔结构，即输入多个尺度大小的图像分别通过CNN提取特征来获得多个尺度特征，如图2所示，本发明使用特征金字塔结构替换图像金字塔结构，即输入单一尺度图，在特征提取时通过UNet的下采样部分依次进行卷积操作提取三个尺度特征图，再经过上采样部分卷积操作以及跳跃连接输出三个尺度特征图，此外，通过减小尺度较大特征图的通道数以保证网络参数不会太大。

步骤102：引入相似性度量，根据所述参考图像以及所述实际拍摄图像之间的特征相似度对所述图像特征进行分组，并构造深度代价体。

首先将多尺度特征提取得到的特征图的特征通道分为G组，再计算参考图像和变换后图像之间的特征图在假设深度平面处的相似性，当G个组的特征相似度计算得到后，原始特征图可被压缩到G个通道的相似度张量，源图像的代价体计算为G个通道的相似度张量的集合，最终的总代价体计算为所有视图代价体的平均。

步骤103：对所述深度代价体进行正则化操作，确定深度图。

如图3所示，对深度代价体进行正则化操作得到用于深度推断的深度概率体，正则化操作是通过将代价体输入包含多个下采样和上采样的3D卷积层构成的3D UNet输出正则化后的代价体，再对其沿着深度方向进行Softmax操作计算每个像素的深度概率得到包含深度概率分布信息的概率体，最后计算每个像素划分的假设深度与概率体的加权平均值得到连续的深度估计值，即深度图。

步骤104：基于粗到细的深度推断策略，在粗略阶段采用固定深度间隔对所述深度图进行划分，确定粗略阶段的深度预测区间，在细化阶段利用所述粗略阶段内深度预测的不确定性确定自适应深度间隔，并利用所述自适应深度间隔对所述深度图进行划分，确定细化阶段的深度预测区间。

在粗到细的级联深度架构中，最粗阶段的深度预测区间需要覆盖整个场景，细化阶段基于前一阶段预测的深度推断不确定性深度间隔。

如图4所示，在深度推断的细化阶段，使用自适应深度间隔模块计算上一级深度预测的不确定性，首先，已知上一阶段估计的深度预测和上一阶段确定的假设深度平面数量，第一步先利用以上两个已知条件计算上一阶段每个像素处的深度概率分布均方差，再利用上一阶段预测的深度分别加减均方差来计算上一阶段深度预测的不确定性，最后通过上述步骤计算得到的不确定性的上边界减去下边界划分出该细化阶段的深度预测上下区间。此外，深度间隔自适应调整是利用均方差(即方差开根号)的计算方式可以微分的特性，结合深度学习神经网络可反向传播参数优化均方差计算公式中的权重，即优化划分出的深度预测区间。

利用粗阶段估计深度的不确定性指导细阶段划分更贴合的深度预测区间。

步骤105：根据所述粗略阶段的深度预测区间以及所述细化阶段的深度预测区间，通过级联深度架构推断出与所述参考图像分辨率相同的最终深度图；所述级联深度架构包括一个粗略阶段以及两个细化阶段。

步骤106：根据所述最终深度图通过深度过滤融合脚本生成稠密三维点云；所述稠密三维点云用于展示所述待重建目标物体。

计算参考图像和源图像之间的光度匹配以及几何一致性，过滤掉小于阈值的深度及冗余的像素点，再通过迭代选择重叠区域最多的几幅图配对反投影到三维空间生成三维点云模型，通过该方法得到的点云颜色更均匀，细节丰富完整，并在DTU数据集上取得了最佳指标。

所述步骤106之后还包括：利用DTU数据集和Tanks&Temples数据集对所述稠密三维点云进行评估。

DTU数据集是由丹麦技术大学公开，用于多视图三维重建算法评估，其包括124个不同室内场景，每个场景包含7种不同光照条件下，从49或64个视角拍得的多个视图。通过使用DTU数据集官方提供的MATLAB脚本计算平均精度(简称Acc.)和平均完整度(简称Comp.)的总体精确度(简称OA，OA＝(Acc.+Comp.)/2，值越小代表重建质量越高)来定量评估本发明在DTU数据集上的3D重建性能。

Tanks&Temples数据集由英特尔智能***实验室开源，由真实光照条件下的大规模复杂环境的室外场景组成，与在具有固定相机轨迹精确控制的环境下拍摄的DTU数据集相比更能反映真实世界，以重建难度不同分为中级和高级两个集合，Tanks&Temples数据集重建性能以F-score作为评价指标，数值越大则重建结果越好。这两种数据集为多视角三维重建提供了一套完整的评估流程。

本发明改变传统方法利用几何、光学一致性构造匹配代价，进行匹配代价累积，再估计深度值这一流程，以一张参考图像和多张实际拍摄图像作为输入，将相机几何与深度学习神经网络相结合，通过可微分单应性变换操作将相机几何嵌入深度神经网络中，连接2D图像特征网络与3D空间正则化网络，使得整个多视图三维重建可进行端到端训练。

本发明采用一个改进的多尺度特征提取网络提取图像的多尺度深度特征，粗略级利用低层特征构造代价体正则化后预测参考图像的粗略深度图，细化级使用高层特征并结合上一级估计得到的深度图确定自适应深度区间来估计更高分辨率的深度图，最终通过级联深度推断得到与参考图像分辨率一致的深度图。

本发明设计基于相似性度量的平均组相关方式对特征分组替代基于方差的特征代价累加，提高对特征的有效利用，舍去图像中多余的冗余特征信息；再将分组后的特征基于相似性度量构造3D代价体，相比基于方差的构造方式，减小显存占用的同时也能提高特征利用效率，提升重建质量。

本发明采用分布的变化来估计像素所在的不确定性区间，并用不确定性区间来构造自适应深度间隔，采用可微分的计算方法使得网络能够学习并调整每个阶段的概率预测，实现细化阶段自适应深度间隔的端到端训练过程并优化相应的深度预测区间使得预测深度值更加逼近真实值。

本发明通过多尺度特征提取模块提取多幅图像特征；其次，引入相似性度量对特征分组来构造代价体；最后，基于粗到细的深度推断策略设计自适应深度间隔模块，利用粗阶段估计深度的不确定性指导细阶段划分更贴合的深度预测区间。所有估计得出的深度图通过深度过滤融合脚本生成稠密点云。在DTU数据集、BlendedMVS数据集和Tanks&Temples数据集上进行的大量实验表明，本发明在准确性、实时性、重建质量等方面显著优于以往基于学习的方法和传统MVS方法，在自动驾驶、文物数字化呈现、城市尺度测量等领域有广阔的应用前景。

图5为本发明所提供的多视图立体网络三维重建***结构图，如图5所示，一种多视图立体网络三维重建***，包括：

图像特征提取模块501，用于获取待重建目标物体的参考图像以及多幅实际拍摄图像，并利用多尺度特征提取模块提取多幅所述实际拍摄图像的图像特征；多幅所述实际拍摄图像为对所述待重建目标物体进行环绕拍摄得到的自采图像；所述多尺度特征提取模块包括向下采样的编码器以及向上采样的解码器。

所述向下采样的编码器包括后接BN层和具有激活函数的卷积层；其中，两个步长为2且卷积核大小为5x5的卷积层对所述实际拍摄图像进行两次下采样；所述向上采样的解码器包括2个带有跳跃连接的上采样层以及4个用于统一输出通道数的卷积层；输入所述实际拍摄图像的图像矩阵，通过所述编码器依次进行卷积操作提取包含三个尺度的图像特征图，再经过所述解码器的卷积层，结合跳跃连接的上采样层依次提取出包含三个尺度的最终图像特征图；所述最终图像特征图包括所述实际拍摄图像完整尺寸的图像特征、1/2尺寸的图像特征以及1/4尺寸的图像特征。

深度代价体构造模块502，用于引入相似性度量，根据所述参考图像以及所述实际拍摄图像之间的特征相似度对所述图像特征进行分组，并构造深度代价体。

所述深度代价体构造模块502，具体包括：特征相似度确定单元，用于将所述最终图像特征图的特征通道划分为多组，计算每组所述特征通道内所述参考图像和所述实际拍摄图像之间的特征图在设定深度平面处的特征相似度；相似度张量确定单元，用于基于每组所述特征通道内的所述特征相似度，将所述最终图像特征图压缩到多组所述特征通道的相似度张量；多组所述特征通道的相似度张量的集合为深度代价体。

深度图确定模块503，用于对所述深度代价体进行正则化操作，确定深度图。

所述深度图确定模块503，具体包括：正则化单元，用于将所述深度代价体输入至由3D UNet模型中，输出正则化后的深度代价体；所述3D UNet模型包括多个下采样和上采样的3D卷积层；深度概率体确定单元，用于沿着所述正则化后的深度代价体的深度方向进行Softmax操作，计算所述正则化后的深度代价体内每个像素的深度概率，确定包含深度概率分布信息的深度概率体；深度图确定单元，用于计算每个像素划分的设定深度阈值与所述深度概率体的加权平均值，确定深度图。

粗略阶段的深度预测区间以及细化阶段的深度预测区间确定模块504，用于基于粗到细的深度推断策略，在粗略阶段采用固定深度间隔对所述深度图进行划分，确定粗略阶段的深度预测区间，在细化阶段利用所述粗略阶段内深度预测的不确定性确定自适应深度间隔，并利用所述自适应深度间隔对所述深度图进行划分，确定细化阶段的深度预测区间。

最终深度图推断模块505，用于根据所述粗略阶段的深度预测区间以及所述细化阶段的深度预测区间，通过级联深度架构推断出与所述参考图像分辨率相同的最终深度图；所述级联深度架构包括一个粗略阶段以及两个细化阶段。

稠密三维点云构建模块506，用于根据所述最终深度图通过深度过滤融合脚本生成稠密三维点云；所述稠密三维点云用于展示所述待重建目标物体。

从图6-图9可见，本发明在DTU数据集场景9、77、49上与CasMVNet和R-MVSNet的定性比较，相同输入图像分辨率设置下，本发明重建得到的稠密点云更加完整，同时还能兼顾颜色平均以生成平滑的点云。

如表1-表2所示，在相同实验参数设置下3种传统方法以及8种基于学***均完整度指标(Comp.＝0.298mm)达到了最先进水平，相较之前最高的AttMVS(Comp.＝0.329mm)性能提高了0.031mm，总体平均指标较之前最高的UCSNet(OA＝0.344mm)性能提高了0.023mm。

表1

表2为Tanks&Temples数据集基准定量结果表，如表2所示，本发明在F-score指标上相对其它已发表的基于深度学***均F-score分数从CasMVSNet的56.84提升到58.60，其中Horse场景分数为55.14，是目前登记的所有方法中的最高分数，这证明了本发明网络框架在复杂场景下的有效性和鲁棒性。

综上，本发明所述总体流程为：给定一张参考图像和一组相邻的源图像，算法以粗到细策略逐级回归与参考图像相同分辨率的细粒度深度图。首先所有输入图像送到特征提取模块提取多尺度图像特征，接着深度预测分为粗到细三个阶段，三个不同尺度的图像特征借助平均组相关按不同深度间隔构建三种不同分辨率的代价体，对于最粗略一个阶段，深度间隔固定以保证平面扫描算法能覆盖到整个场景，而后两个细化阶段深度间隔由上一阶段预测深度自适应并受最小深度间隔条件约束，最后通过三个阶段的3D CNNs正则化代价体逐步回归细化得到与参考图像相同分辨率的深度图，得到所有视图的深度图后可利用开源深度融合工具箱过滤深度图并融合生成稠密点云。

本发明用级联深度推断架构替代单阶段深度推断，粗略级利用低层特征构造代价体正则化后预测参考图像的粗略深度图，细化级使用高层特征并结合上一级估计得到的深度图确定自适应深度区间来估计更高分辨率的深度图，最终通过级联深度推断得到与参考图像分辨率一致的深度图。

本发明引入基于相似性度量的平均组相关方法对特征分组并构造深度代价体，设计基于相似性度量的平均组相关方式对特征分组替代基于方差的特征代价累加，提高对特征的有效利用，舍去图像中多余的冗余特征信息；再将分组后的特征基于相似性度量堆叠成3D代价体，最终的总代价体可以计算为所有视图的平均相似度，相比基于方差的构造方式，减小显存占用的同时也能提高特征利用效率，提升重建质量。

本发明设计自适应深度间隔模块以提高深度预测精度，在粗略级根据场景实际深度范围采用固定深度间隔划分深度预测区间，保证最初的阶段深度预测能覆盖到整个场景。本质上确定深度区间就是划分出该阶段在像素处的假设深度平面之间的物理厚度。如图4所示，阶段1的深度预测区间需要覆盖整个场景，细化阶段基于前一阶段预测的深度推断不确定性深度间隔，并自适应划分带有空间变化深度假设的弯曲上下边界。采用分布的变化来估计像素所在的不确定性区间，并用不确定性区间来构造自适应深度间隔，可微分的计算方法使得网络能够学习并调整每个阶段的概率预测，实现细化阶段自适应深度间隔的端到端训练过程并优化相应的深度预测区间使得预测深度值更加逼近真实值。

本发明是基于深度学习框架Pytorch，运行在GPU工作站上，使用显卡NVIDIAGeForce GTX 2080Ti。为了与现有的方法进行定量比较，本发明采用公开的DTU数据集与Tanks&Temples提供的官方评估流程对本发明重建效果进行评估。

本发明采用特征金字塔更有效提取图像不同尺度的特征，在此基础上引入平均组相关以相似性度量构建代价体代替基于方差的代价体构造方式，减小显存占用的同时取得更好的精度和完整性。本发明设计的自适应深度间隔模块相较固定深度间隔对深度预测区间进行像素级加权，实现更细分的预测区间，同时，粗到细的深度预测架构有效利用级联的分层特性，较粗略级的深度预测信息能指导细化级划分自适应深度间隔，二者相辅相成使得最终深度估计更精细。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多视图立体网络三维重建方法，其特征在于，包括：

对所述深度代价体进行正则化操作，确定深度图；

2.根据权利要求1所述的多视图立体网络三维重建方法，其特征在于，所述向下采样的编码器包括后接BN层和具有激活函数的卷积层；其中，两个步长为2且卷积核大小为5x5的卷积层对所述实际拍摄图像进行两次下采样；

3.根据权利要求2所述的多视图立体网络三维重建方法，其特征在于，所述引入相似性度量，根据所述参考图像以及所述实际拍摄图像之间的特征相似度对所述图像特征进行分组，并构造深度代价体，具体包括：

4.根据权利要求1所述的多视图立体网络三维重建方法，其特征在于，所述对所述深度代价体进行正则化操作，确定深度图，具体包括：

5.根据权利要求1所述的多视图立体网络三维重建方法，其特征在于，所述在细化阶段利用所述粗略阶段内深度预测的不确定性确定自适应深度间隔，并利用所述自适应深度间隔对所述深度图进行划分，确定细化阶段的深度预测区间，具体包括：

获取所述粗略阶段预测的深度以及设定深度平面数；

6.根据权利要求1所述的多视图立体网络三维重建方法，其特征在于，所述根据所述最终深度图通过深度过滤融合脚本生成稠密三维点云，之后还包括：

7.一种多视图立体网络三维重建***，其特征在于，包括：

8.根据权利要求7所述的多视图立体网络三维重建***，其特征在于，所述向下采样的编码器包括后接BN层和具有激活函数的卷积层；其中，两个步长为2且卷积核大小为5x5的卷积层对所述实际拍摄图像进行两次下采样；

9.根据权利要求8所述的多视图立体网络三维重建***，其特征在于，所述深度代价体构造模块，具体包括：

10.根据权利要求7所述的多视图立体网络三维重建***，其特征在于，所述深度图确定模块，具体包括：