CN111652966B

CN111652966B - 一种基于无人机多视角的三维重建方法及装置

Info

Publication number: CN111652966B
Application number: CN202010393797.1A
Authority: CN
Inventors: 曹先彬; 罗晓燕; 杜文博; 张旭东
Original assignee: Beihang University
Current assignee: CHECC Data Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2021-06-04
Anticipated expiration: 2040-05-11
Also published as: CN111652966A

Abstract

本发明公开了一种基于无人机多视角的三维重建方法及装置，属于计算机图像处理技术领域。本发明方法包括：无人机航拍场景多视角的二维图像，输入三维重建模型处理，获取相应视角下优化后的深度图，将各视角下优化的深度图融合得到场景的三维点云；三维重建模型提取图像的特征图进行单应性变换和构建代价矩阵，生成深度概率分布图，回归为初始深度图，再与参考图融合，输入深度残差学习网络，优化深度图。本发明装置包括处理器和存储器；存储器中存储实现所述三维重建方法的计算机程序；处理器执行所述计算机程序，进行场景三维重建。本发明降低了三维场景重建时的耗时以及资源占用等问题，实现了速度更快、准确率更高的三维场景重建。

Description

一种基于无人机多视角的三维重建方法及装置

技术领域

本发明涉及计算机图像处理技术领域，尤其涉及一种三维场景重建的方法及装置。

背景技术

随着信息技术的发展和真实世界三维场景构建的需求，三维重建技术已广泛应用于军事探测、城市规划、虚拟现实等领域。目前，考虑到灵活性、成本、方便程度等因素，通过相机等视觉传感器将二维图像恢复成三维场景成为学术界和工业界的主流方法。无人机越来越多地受到关注和应用，无人机航拍具有大尺度、广视角等优点，但其拍摄得到的图像也仅仅是二维图像，无法得到深度信息，所以也很难直接用于还原三维场景。

近年来，卷积神经网络在二维特征提取等计算机视觉领域展现了强大的能力，越来越多的研究者将神经网络也应用在三维重建任务上并取得了一定的成果。2017年ICCV中提出的Surfacenet是基于体素进行三维重建，首先将三维场景分成空间网格，接着估计每个体素是否属于场景的表面部分，从而将整个场景重建出来，但是这种方法的缺陷是高内存占用和离散空间误差。2010年TPAMI中提出了基于点云进行三维重建，这种方法直接作用于三维空间中的点，依赖于更新策略来不断将场景以点的形式致密化重建出来，但是正因为如此，重建过程是前后关联和时序性的，难以并行化处理，导致整个重建过程耗时过长。

发明内容

为了降低目前三维场景重建时的耗时以及降低重建时计算占用高内存等问题，本发明提供了一种基于无人机多视角的三维重建方法及装置，将无人机航拍与基于卷积神经网络的三维重建相结合，实现速度更快、准确率更高的三维场景重建。

本发明的基于无人机多视角的三维重建方法，包括：

由无人机航拍获得待三维重建场景下的多视角的二维图像；选取其中一张为参考图像；

将所述多视角的二维图像作为三维重建模型的输入进行处理；所述的三维重建模型，首先对每个二维图像通过二维卷积神经网络提取二维特征图；再通过单应性变换将二维特征图变换为与参考图像平行的平面，利用所有单应性变换后的特征图构建代价矩阵；其次将代价矩阵利用多尺度结构的三维卷积神经网络生成深度概率分布图，将深度概率分布图利用熵操作回归为初始深度图；然后将初始深度图与参考图像融合，再输入一个深度残差学习网络，输出优化的深度图；

其中，对三维重建模型进行训练，优化其中的神经网络，在训练时，将初始深度图与优化的深度图分别与标定的真实深度图求一阶范数再求和，作为训练时的损失函数；每个训练样本为多视角的二维图像，标签为场景的真实深度图；

在训练好三维重建模型后，依次将不同视角下的二维图像作为参考图像，然后将多视角的二维图像输入三维重建模型，得到参考图像对应视角下的优化的深度图；最后，将各视角下的优化的深度图进行融合，得到最终的场景的三维点云。

其中，三维重建模型利用八层的卷积神经网络结构对输入二维图像进行特征提取，每三层之后滤波器平移步长由1变为2，除了最后一层外，其他层之后都有批量归一化处理和ReLU激活函数。这样经过八层卷积神经网络之后的特征图尺寸变为输入图像尺寸的四分之一，相当于下采样尺度为4。尽管提取特征时进行了下采样，原始输入图像的上下文信息也一样保存在卷积神经网络中。

所述的三维重建模型中，单应性变换是将一个平面映射到另一个平面，该操作是连接二维到三维空间的中间桥梁；将不同视角下的输入图像的特征图经过单应性变换后，再利用方差操作合并成一个代价矩阵。

所述的三维重建模型中，多尺度结构的三维卷积神经网络是指：利用编码解码的类似结构，同时每层将特征图进行尺度变换和融合，最后将代价矩阵变换为深度图的概率分布，即深度概率分布图。

所述的三维重建模型中，回归初始深度图时，由深度概率分布图得到每个像素的深度概率分布，选取其中与峰值最接近的四个深度值进行求熵操作，将深度值与对应的深度值概率相乘并求和，得到初始深度图中像素的深度。

所述的三维重建模型中，由于得到的初始深度图过于平滑，于是引入参考图像，将初始深度图与参考图像融合作为4通道的输入，再连接一个深度残差学习网络，输出优化后的深度图。深度残差学习网络为3层32通道和1层1通道的二维卷积神经网路构成，为了学习到负的残差值，该网络中最后一层不包括批量归一化处理层和ReLU层。

本发明相应的一种基于无人机多视角的三维重建装置，包括处理器和存储器；其中，存储器中存储实现所述的无人机多视角的三维重建方法的计算机程序；处理器执行存储器存储的计算机程序，进行场景三维重建。

本发明的三维重建方法及装置与现有技术相比，具有以下优势和积极效果：

(1)本发明三维重建时的输入图像更灵活，不必局限于双目照相机的双视角，不再像之前三维重建算法强调一定数量的输入图像，而是任意视角任意数量的航拍图都可以作为三维场景重建的输入。

(2)本发明将三维重建任务转化为求无人机每个视角下的深度图，再将其融合成最终的三维点云，计算量减少使整个场景重建过程更加高效。同时，模型训练时参数量大大减少，训练速度更快，能快速获得训练好的三维重建模型。

(3)本发明提供了更加精炼有效的三维重建模型结构，利用多视角拍摄的图像和它对应的相机几何关系，利用稠密匹配和神经网络提取特征，并引入新的编码-解码结构的三维卷积神经网络模型，使得场景重建过，可以引入全局的语义信息，有更强的立体匹配能力，并且提高了三维场景重建的运算速度和准确精度。

附图说明

图1是本发明的三维重建方法的流程图；

图2是本发明的多尺度结构的三维卷积神经网络结构图；

图3是本发明的二维卷积神经网络结构；

图4是本发明的三维重建的***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的基于无人机多视角的三维重建方法，分为如下七个步骤来说明。

步骤1，根据无人机航拍，获得待研究场景下多视角的二维图像。

对于待三维重建的场景，本发明通过无人机航拍，获取该场景下多个视角的二维图形。所拍摄的图像为多个本发明实施例中拍摄7张不同角度的场景图像，并选取其中1张作为参考图片，将以参考图拍摄的角度来重建三维场景。对拍摄的图像进行采样和裁剪，使图像大小变为640*512像素。

步骤2，将所拍摄的二维图片输入二维卷积神经网络提取特征信息。

如图2所示，本发明实施例使用八层卷积神经网络对图像提取特征，每层的通道(channel)值为32，滤波器尺寸设为3*3，除了最后一层，每层之后加一个BN(批量归一化处理)层和ReLU层，每三层之后滤波器滑动步长设由1变为2，将特征映射feature map尺寸缩小一半，这样最后的特征图变为原图的四分之一，相当于下采样尺度为4。同时，每组输入图片在后向传播过程中共享网络参数。尽管提取特征时进行了下采样，但原始输入图像的上下文信息也一样保存在卷积神经网络中。

步骤3，将提取到的二维特征图进行单应性变换，构建代价矩阵。

单应性变换是利用包括相机函数、旋转、翻转等操作，将提取的平面特征进行非线性插值，将一个平面映射到另一个平面。单应性变换操作是连接二维到三维空间的中间桥梁，另外，单应性变换是可微的，便于端到端的训练。

本步骤将不同视角下的输入图像的特征图经过单应性变换，变换为与参考图像平行的平面，同时变换后的图大小为(W/4)·(H/4)·D·C，其中W，H，D，C分别为输入图像的宽度、高度、深度、特征图的channel值。再利用如下方差操作，将不同视角下的各单应性变换后的图合并成一个代价矩阵，相较均值操作，所采用的方差操作能更多的融入不同图像的差异信息，也会使最后的重建结果更加精确。

合并各经单应性变换后的特征图得到代价矩阵E如下：

其中，每张图对应是一个特征矩阵，N表示所合并的特征图的数量，V_i为第i张经过单应性变换后的特征图，

表示N个特征图的平均值矩阵。

本步骤中将不同视角下的输入图像的特征图经过单应性变换后构建为一个代价矩阵，这个过程的实现其实就是稠密匹配的原理。

步骤4，将步骤3得到的代价矩阵利用多尺度结构的三维卷积神经网络生成深度概率分布图。

因为代价矩阵中会有很多噪声，所以需要利用三维卷积神经网络将代价矩阵优化。如图3所示，多尺度结构的三维卷积神经网络利用编码解码的类似结构，每层将特征图进行尺度变换和融合，最后将代价矩阵变换为深度图的概率分布，以便于进一步生成深度图。

本发明采用多尺度结构的三维卷积神经网络的结构如下：编码共4个层级，第一层级为32通道(channel)的三卷积层；第二层级减小为8个channel，同时由三层卷积变为两层卷积；后面第三层级和第四层级都保持8通道的两层卷积；另外，每个层级之间的滤波器滑动步长变为2，这样每经过一个层级后特征图(feature map)大小变为二分之一；同时，解码也有4个层级，可看作编码的逆过程，第一层级到第三层级都为8个channel和两层卷积，最后一层级为32个channel和三层卷积，另外每个层级之间采用空洞卷积操作，这样每经过一个层级后feature map大小变为原来的两倍。这样编码解码对应层级之间的feature map大小就保持了一致，便于后续的层间信息融合。

在解码部分的每层，将上一解码层与对应编码层的输出进行信息融合。多尺度结构的三维卷积神经网络的层间信息融合过程如下：从上往下，最上一层利用卷积操作连接编码与解码；第二层编码层首先经过一个8通道的神经网络再到解码层，同时解码层将上层和左层的输出进行一个信息融合；第三层编码层经过两个8通道的神经网络层再到解码层，类似的，第三层的第二个8通道的神经网络层将第二层的8通道神经网络层与左侧第一个8通道神经网络层的输出进行一个信息融合，第三层解码层的神经网络层将第二层解码层的输出与左侧第二个8通道神经网络层的输出进行一个信息融合；对于第四层，编码层与解码层之间有三个8通道的神经网络层，同理，对于第四层中位于中间的两个8通道神经网络层和解码层，都是需要将上层和左侧的输出进行信息融合。而最后一个卷积层输出为1个channel，接着用softmax操作将输出转换为深度概率分布图。深度概率分布图中记录各像素在不同深度值的概率，概率值越大，表示像素在这个深度值的可能性越大。

步骤5，将深度概率分布图回归为初始深度图。

本发明实施例中，利用熵操作将深度概率分布图恢复成深度图。传统的赢者通吃算法尽管可以更简单的取最大概率处的深度信息，但是此操作并不是可微的，需要做一定的改进，对每个像素，将深度与对应的概率相乘并求和，具体公式如下：

其中，F为从概率图恢复的初始深度图中像素的深度值，d为每个像素可能的深度值，P(d)为深度值d对应的概率值，d_min和d_max分别表示概率图中的最小深度值和最大深度值。

但是如果直接将所有深度信息求熵，会导致那些错误匹配像素处深度的概率分布不能集中于一个峰值，所以，本发明对每个像素，取最近的四个深度值，按照上面公式进行求熵操作，得到初始深度图像素的深度值。最近的四个深度值是选取的与峰值(最大)深度最接近的四个深度值。

步骤6，对步骤5获得的深度图进行优化，输出优化后的深度图。

由于步骤5的操作会导致得到的深度图过于平滑，于是本发明引入参考图片，将之与步骤5得到的结果融合作为4通道的输入，再连接一个深度残差学习网络。该深度残差学习网络为3层32通道和1层1通道的二维卷积神经网路构成，值得注意的是，为了学习到负的残差值最后一层不包括BN层和ReLU层。

本发明的三维重建模型整体由步骤2～6构成，其中涉及的二维卷积神经网络、多尺度结构的三维卷积神经网络和深度残差学习网络需要优化。

步骤7，对三维重建模型进行训练。将初始深度图与优化后的深度图分别与标定的真实深度图求一阶范数再求和，作为训练时的损失函数，具体公式如下：

其中，L为损失函数，P表示图像中的有效像素点集合，p代表P中的像素，d(p)为真实深度图中像素p的深度值，

为初始深度图中像素p的深度值，

为优化后的深度图中像素p的深度值，|·|表示一阶范数。

本发明需要对二维卷积神经网络、三维卷积神经网络和深度残差学习网络进行训练，优化网络参数。模型训练时，将场景的真实深度图d(p)作为标签，但大多数情况下场景的点云数据更容易获得，所以本发明利用Kazhdan等提出的一种转化算法SPSR(screenedPoisson surface reconstruction)，将点云数据先转化为网格图，然后再针对每个视角渲染为场景的真实深度图。模型训练时，将损失函数L作为优化目标进行指导训练，损失函数L的值越小越好。利用梯度下降算法，不断更新模型参数，直到损失函数达到最小值。

在训练优化三维重建模型后，本发明实施例中，无人机航拍7张不同视角下的图像，依次将每张作为参考图，执行上面步骤1～6，获得参考图对应的视角下的深度图，这样得到7个不同角度的深度图，将这7个深度图进行融合，转换为最后所重建的场景的三维点云数据。

如图4所示，为本发明实施例的三维重建装置40，包括：处理器41和存储器42。

存储器42，用于存储计算机程序、计算机指令等；计算机程序包括可以执行图1所示方法的程序，此处不再赘述。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

处理器41，用于执行存储器42存储的计算机程序，以实现上述实施例涉及的三维重建方法中的各个步骤。

处理器41和存储器42可以是独立结构，也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时，存储器42、处理器41可以通过总线43耦合连接。

存储器42中存储的计算机程序实现的用于场景三维重建的功能模块包括：

图像输入模块，输入从无人机航拍得到多视角的二维图像，选取其中一张为参考图像；

三维重建模型，输入多视角的二维图像，并首先由二维卷积神经网络提取各图像的特征图；再对输出的特征图进行单应性变换，根据相机的锥形体等参数将各特征图变换为与参考图像平行的平面，利用单应性变换后的特征图合并得到代价矩阵；接着，利用一个多尺度结构的三维卷积神经网络对代价矩阵生成深度概率分布图，再去回归为初始深度图；再将初始深度图与参考图像融合，输入一个深度残差学习网络，输出优化的深度图；

依次将无人机拍摄的不同视角下的二维图像作为参考图像，由三维重建模型输出相应视角下的优化的深度图；

三维场景输出模块，将各视角下的优化的深度图进行融合，输出最终的重建的场景的三维点云。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于无人机多视角的三维重建方法，其特征在于，该方法包括如下步骤：

步骤1，通过无人机航拍获得待三维重建场景下的多视角的二维图像，选取其中一张为参考图像；

步骤2，对每个二维图像通过二维卷积神经网络提取二维特征图；

步骤3，将提取的特征图进行单应性变换，变换为与参考图像平行的平面，利用单应性变换后的特征图构建代价矩阵；

步骤4，将代价矩阵利用多尺度结构的三维卷积神经网络生成深度概率分布图；

步骤5，将深度概率分布图利用熵操作回归为初始深度图；

所述的步骤5中，由深度概率分布图得到每个像素的深度概率分布，选取其中与峰值最接近的四个深度值进行求熵操作，将深度值与对应的深度值概率相乘并求和，得到初始深度图中像素的深度；

步骤6，将初始深度图与参考图像融合，再输入一个深度残差学习网络，输出优化的深度图；

步骤7，对所述的二维卷积神经网络、三维卷积神经网络和深度残差学习网络进行训练，优化网络参数；其中，将初始深度图与优化的深度图分别与标定的真实深度图求一阶范数再求和，作为训练时的损失函数；每个训练样本为多视角的二维图像，标签为场景的真实深度图；在训练好网络后，依次将步骤1不同视角下的二维图像作为参考图像，执行步骤2～6，得到相应视角下的优化的深度图，最后，将各视角下的优化的深度图进行融合，得到最终的场景的三维点云。

2.根据权利要求1所述的方法，其特征在于，所述的步骤2中，利用八层的卷积神经网络对二维图像进行特征提取，每三层之后滤波器平移步长由1变为2，除了最后一层外，其他层之后都加有批量归一化处理和ReLU激活函数；经过八层卷积神经网络之后的特征图尺寸变为输入的二维图像的四分之一。

3.根据权利要求1所述的方法，其特征在于，所述的步骤3中，对不同视角下的二维图像对应的特征图经过单应性变换后，再利用方差操作合并成一个代价矩阵。

4.根据权利要求1所述的方法，其特征在于，所述的步骤4中，多尺度结构的三维卷积神经网络包括编码和解码的结构，每层将特征图进行尺度变换和融合，将代价矩阵变换为深度概率分布图。

5.根据权利要求1或4所述的方法，其特征在于，所述的步骤4中，多尺度结构的三维卷积神经网络包括：编码部分和解码部分，从底到顶都有4层，第一层级为32通道的三卷积层，第二层级至第四层级都为8通道的两层卷积；每个层级之间采用空洞卷积操作，将特征图的大小每经过一个层级后变为原来的两倍；解码部分看作编码的逆过程，编码部分和解码部分对应层级之间的特征图的大小保持一致；在解码部分的每层，将上一解码层与对应编码层的输出进行信息融合；对最后的解码层的输出用softmax操作转换为深度概率分布图。

6.根据权利要求1所述的方法，其特征在于，所述的步骤6中，所述的深度残差学习网络为3层32通道和1层1通道的二维卷积神经网路构成，深度残差学习网络的最后一层不包括批量归一化处理层和ReLU层。

7.一种基于权利要求1所述的无人机多视角的三维重建方法的装置，其特征在于，包括处理器和存储器；存储器中存储实现所述的无人机多视角的三维重建方法的计算机程序；处理器执行存储器存储的计算机程序，进行场景三维重建。