CN117726747A

CN117726747A - 补全弱纹理场景的三维重建方法、装置、存储介质和设备

Info

Publication number: CN117726747A
Application number: CN202311461325.5A
Authority: CN
Inventors: 郑川江; 贾学富; 杨心宇
Original assignee: South Surveying & Mapping Technology Co ltd
Current assignee: South Surveying & Mapping Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-03-19

Abstract

本发明公开了一种补全弱纹理场景的三维重建方法、装置、存储介质和设备，包括：获取在不同视角下针对目标场景拍摄的若干航测图像及GPS坐标；将每个航测图像输入预设的目标检测网络模型，以标注出航测图像中所包含的弱纹理场景区域；基于弱纹理场景区域生成弱纹理分割掩膜；根据所有航测图像及GPS坐标进行空三位姿解算，获取目标场景的稀疏点云及每个航测图像的位姿；基于稀疏点云和位姿进行多视图立体匹配，估计每个航测图像的深度图；基于弱纹理分割掩膜对深度图进行补全，获得优化后的深度图；基于稀疏点云，以及优化后的深度图进行融合，生成稠密点云；基于稠密点云生成三维模型。可以恢复弱纹理区域的三维信息，提高三维模型质量。

Description

补全弱纹理场景的三维重建方法、装置、存储介质和设备

技术领域

本发明涉及三维重建技术领域，尤其是涉及一种补全弱纹理场景的三维重建方法、装置、存储介质和设备。

背景技术

传统的摄影测量三维重建方法在弱纹理区域(尤其是水域)重建效果极差，容易出现空洞，而后期人工修模则工序复杂且工作量大，因此对于包含弱纹理场景的三维重建任务，现有技术中没有方便快捷又建模质量较高的方法。

发明内容

为克服相关技术中存在的问题，本发明提供一种补全弱纹理场景的三维重建方法、装置、存储介质和设备，用以解决相关技术中的缺陷。

根据本发明的第一方面，提供一种补全弱纹理场景的三维重建方法，所述方法包括：

获取在不同视角下针对目标场景拍摄的若干航测图像及对应的GPS坐标；

将每个所述航测图像输入预设的目标检测网络模型，以标注出所述航测图像中所包含的弱纹理场景区域；

基于所述弱纹理场景区域生成对应所述航测图像的弱纹理分割掩膜；

根据所有所述航测图像及对应的GPS坐标进行空三位姿解算，获取所述目标场景对应的稀疏点云及每个所述航测图像对应的位姿；

基于所述稀疏点云和每个所述航测图像对应的位姿进行多视图立体匹配，估计每个所述航测图像对应的深度图；

基于所述弱纹理分割掩膜对每个所述航测图像对应的深度图进行补全，获得每个所述航测图像对应的优化后的深度图；

基于所述稀疏点云，以及每个所述航测图像对应的所述优化后的深度图进行融合，生成所述目标场景对应的稠密点云；

基于所述稠密点云生成所述目标场景对应的三维模型。

优选地，所述预设的目标检测网络模型包括YOLO v8网络模型，并在所述YOLO v8网络模型的基础上使用具有双水平路由注意的视觉变压器注意力机制，以及使用基于最小点距离的边界框相似度比较度量作为所述YOLO v8网络模型的边界框回归的损失函数，以及使用基于遗传编程自动发现神经网络优化器进行训练。

优选地，所述根据所有所述航测图像及对应的GPS坐标进行空三位姿解算，获取所述目标场景对应的稀疏点云及每个所述航测图像对应的位姿，包括：

对所有所述航测图像基于SIFT_GPU进行特征点提取与匹配；

针对每个所述航测图像通过PnP算法解算获得对应的位姿的初值；

基于BA优化方法最小化所述位姿的重投影误差。

优选地，所述基于BA优化方法最小化所述位姿的重投影误差，具体为：

通过以下公式计算重投影误差最小的位姿：

其中，ξ表示当前位姿；u_i表示当前特征点i的像素坐标，n为特征点总数量；S_i表示当前特征点i关联的所有航测图像范围；K表示当前航测图像；ξ^Λ表示当前位姿的关联位姿；P_i表示当前特征点i的像素坐标对应的三维点坐标；ξ^*表示使重投影误差最小的位姿，即当前位姿ξ观察到的像素坐标u_i与三维点坐标P_i的重投影坐标之间的差最小的位姿。

优选地，所述基于所述稀疏点云和每个所述航测图像对应的位姿进行多视图立体匹配，估计每个所述航测图像对应的深度图，包括：

基于patch-match方法对所述航测图像的每个像素窗口表示的物方面元进行匹配，并通过单应矩阵H引导的匹配图像块，包括参考图像A和邻近图像AB，计算每个所述航测图像间的NCC相关系数，以所述NCC相关系数作为匹配代价；其中，

其中，M_A·AB为所述参考图像A与所述邻近图像AB的乘积的均值，M_A为所述参考图像A的均值，M_AB为所述邻近图像AB的均值，V_A为所述参考图像A的方差，V_AB为所述邻近图像AB的方差；

基于上下左右4个方向扰动和随机优化深度值进行所述匹配代价和深度值的传播优化，生成所述深度图，并将最终的所述匹配代价存储为置信图。

优选地，所述基于所述弱纹理分割掩膜对每个所述航测图像对应的深度图进行补全，获得每个所述航测图像对应的优化后的深度图，包括：

针对每个所述航测图像对应的深度图，获取其对应的参考置信图和其邻居影像的深度图及置信图，并将所述邻居影像的深度图及置信图投影至所述航测图像对应的深度图所在的图像空间，构成深度图和置信图数组；

基于所述弱纹理分割掩膜识别所述深度图中的弱纹理区域，并识别所述弱纹理区域的所有轮廓点；

遍历所有所述轮廓点，对获取每个所述轮廓点在指定范围窗口内的最大邻域深度值，并根据所述最大邻域深度值基于指定采样间隔构造轮廓点深度直方图；

获取所有所述轮廓点中对应深度值在所述轮廓点深度直方图的峰值区间和峰值相邻区间内的轮廓点构成参照点集，并将所述参照点集中的每个轮廓点的坐标从图像坐标系转换为相机坐标系；

采用RANSAC最小二乘法对所述参照点集中的轮廓点进行平面拟合，获得相机坐标系下的弱纹理几何方程；其中，所述弱纹理几何方程为

其中，在解算时令为单位向量，(x_cy_cz_c)为相机坐标系下的轮廓点坐标，m的几何意义为相机原点到该平面的距离；

基于所述弱纹理几何方程，逐像素填补所述深度图中所述弱纹理区域中每个像素点的深度值：

获得所述优化后的深度图。

优选地，所述基于所述稠密点云生成所述目标场景对应的三维模型为Delaunay三维网格模型。

根据本发明的第二方面，提供一种补全弱纹理场景的三维重建装置，所述装置包括：

数据获取模块，用于获取在不同视角下针对目标场景拍摄的若干航测图像及对应的GPS坐标；

弱纹理识别模块，用于将每个所述航测图像输入预设的目标检测网络模型，以标注出所述航测图像中所包含的弱纹理场景区域；

掩膜生成模块，用于基于所述弱纹理场景区域生成对应所述航测图像的弱纹理分割掩膜；

位姿解算模块，用于根据所有所述航测图像及对应的GPS坐标进行空三位姿解算，获取所述目标场景对应的稀疏点云及每个所述航测图像对应的位姿；

深度图生成模块，用于基于所述稀疏点云和每个所述航测图像对应的位姿进行多视图立体匹配，估计每个所述航测图像对应的深度图；

深度图补全模块，用于基于所述弱纹理分割掩膜对每个所述航测图像对应的深度图进行补全，获得每个所述航测图像对应的优化后的深度图；

点云生成模块，用于基于所述稀疏点云，以及每个所述航测图像对应的所述优化后的深度图进行融合，生成所述目标场景对应的稠密点云；

三维重建模块，用于基于所述稠密点云生成所述目标场景对应的三维模型。

根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明任意实施例所述的补全弱纹理场景的三维重建方法。

根据本发明的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明任意实施例所述的补全弱纹理场景的三维重建方法。

本发明公开了一种补全弱纹理场景的三维重建方法、装置、存储介质和设备，首先通过预设的目标检测网络模型提取出航测图像中的弱纹理场景区域并生成弱纹理分割掩膜，以根据弱纹理分割掩膜对航测图像生成的深度图进行补全，再根据补全后的深度图生成稠密点云和三维模型。本发明所述方法可以恢复出极端弱纹理区域的三维场景信息，更好的提高弱纹理区域的三维模型质量。

本发明所述的补全弱纹理场景的三维重建方法可应用于AR/VR、3D游戏、3D影视作品、短视频、自动驾驶、自由视点等应用场景中，能够有效的辅助恢复出更好的3D结构，生成更加美观的结果，提高产品的体验，提高产品的用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

图1是本发明根据一实施例示出的一种基于图像的弱纹理场景识别方法的流程图。

图2是本发明根据一实施例示出的YOLO v8网络模型中添加BiFormer模块后的NECK层的结构示意图。

图3是本发明根据一实施例示出的通过目标检测网络模型标注出航测图像中所包含的弱纹理场景区域的测试结果示意图。

图4是本发明根据一实施例示出的根据航测图像中检测出的弱纹理场景区域生成的弱纹理分割掩膜的示意图。

图5是本发明根据一实施例示出的基于多视图特征点的BA优化方法的示意图。

图6是本发明根据一实施例示出的位姿计算与稀疏点云解算的示意图。

图7是本发明根据一实施例示出的基于多个方向扰动优化深度值的示意图。

图8是本发明根据一实施例示出的单张航测图像、识别出的弱纹理场景区域、生成的弱纹理分割掩膜与估计的深度图的对比示意图。

图9是本发明根据一实施例示出的多张航测图像与估计的深度图的对比示意图。

图10是本发明根据一实施例示出的基于弱纹理分割掩膜对深度图进行补全的流程示意图。

图11是本发明根据一实施例示出的航测图像、原始深度图与优化后的深度图的对比示意图。

图12是本发明根据一实施例示出的目标场景的稀疏点云、原始稠密点云与优化后的稠密点云的对比示意图。

图13是本发明根据一实施例示出的目标场景优化前生成的三维模型和优化后生成的三维模型结果的对比示意图。

图14是本发明根据一实施例示出的一种基于图像的弱纹理场景识别装置的结构示意图。

图15是本发明根据一实施例示出的一种计算设备硬件的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图和具体实施方式对本发明做详细描述。

如图1所示，图1是本发明根据一实施例示出的一种补全弱纹理场景的三维重建方法的流程图，包括如下步骤：

步骤S101，获取在不同视角下针对目标场景拍摄的若干航测图像及对应的GPS坐标；

步骤S102，将每个航测图像输入预设的目标检测网络模型，以标注出航测图像中所包含的弱纹理场景区域；

步骤S103，基于弱纹理场景区域生成对应航测图像的弱纹理分割掩膜；

步骤S104，根据所有航测图像及对应的GPS坐标进行空三位姿解算，获取目标场景对应的稀疏点云及每个航测图像对应的位姿；

步骤S105，基于稀疏点云和每个航测图像对应的位姿进行多视图立体匹配，估计每个航测图像对应的深度图；

步骤S106，基于弱纹理分割掩膜对每个航测图像对应的深度图进行补全，获得每个航测图像对应的优化后的深度图；

步骤S107，基于稀疏点云，以及每个航测图像对应的优化后的深度图进行融合，生成目标场景对应的稠密点云；

步骤S108，基于稠密点云生成目标场景对应的三维模型。

在步骤S101中，可以通过在不同视角下对目标场景进行拍摄获得若干航测图像，组成多视角图像组，同时获取各拍摄点所对应的GPS坐标，从而依据该多视角图像组和对应的GPS坐标进行三维重建，生成对应目标场景的三维模型。

具体地，在步骤S101中，作为拍摄目标的目标场景中包含有弱纹理场景，其中弱纹理场景是指具有颜色单一、纹理重复、相似区域多或点线纹理少等特征的场景，例如水域或沙漠。具体地，针对目标场景拍摄的航测图像所包含的弱纹理场景可以是指特定的一种弱纹理场景，如水域，其具体指代的场景可以根据需求进行确定。

具体地，步骤S101中所获取的航测图像可以是若干在不同视角下单独对目标场景拍摄的独立图像，也可以是从对目标场景进行连续录制获得的特定视频中在不同视角下截取的若干视频帧，即本发明所述方法也可以适用于通过录制视频来获取目标场景的航测图像。具体地，还可以根据视频中的每一视频帧前后帧的相似度适应地减少后续的识别检测和深度图估计等过程中的计算量，本发明对此不作限制。具体地，在对目标场景进行视频录制时可以同时实时的记录各个时刻对应的相机所在GPS坐标，以用于后续的点云和深度图生成。

在步骤S102中，通过将各个航测图像输入预设的目标检测网络模型。可以标注出航测图像中的弱纹理场景区域。其中，本发明所预设的目标检测网络模型是指用于识别和标注弱纹理场景区域的目标检测网络模型。

具体地，在一些实施例中，在步骤S102中所使用的目标检测网络模型可以包括YOLO v8网络模型，即该目标检测网络模型可以是基于YOLO v8网络模型改进后获得的网络模型。具体地，该目标检测网络模型可以在YOLO v8网络模型的基础上使用具有双水平路由注意的视觉变压器注意力机制，以及可以使用基于最小点距离的边界框相似度比较度量作为YOLO v8网络模型的边界框回归的损失函数，以及还可以使用基于遗传编程自动发现神经网络优化器进行训练。具体地，本发明所述的YOLO v8网络模型可以是指YOLO v8的分割检测网络模型，即YOLO v8-seg模型结构。本发明的目标检测网络模型可以包括了YOLO v8网络模型，并在YOLO 8网络模型的基础上还可以采用了具有双水平路由注意的视觉变压器注意力机制(BiFormer，Vision Transformer with Bi-Level Routing Attention)、基于最小点距离的新型边界框相似度比较度量(MPDIoU，Modified Partial Distance IoU)和基于遗传编程自动发现神经网络优化器(Lion，Evolved Sign Momentum)三个方面进行改进，以用于对弱纹理场景(以水域为例)的训练与智能推理。

注意力机制可以对目标检测网络进行改善，但是容易造成计算负担，增加内存资源占用，相对于此，本发明可以采用基于双层路由的动态稀疏注意力，利用稀疏性节省计算和内存，同时应用BiFormer视觉变压器进行查询自适应，使得该目标检测网络模型在弱纹理场景的分割识别上有较大改善。

具体地，在YOLO v8网络模型的基础上使用具有双水平路由注意的视觉变压器注意力机制(BiFormer)的具体方式可以是，基于YOLO v8网络模型的NECK层的每一个C2f层后添加一个BiFormer模块。如图2所示，图2是本发明根据一实施例示出的YOLO v8网络模型中添加BiFormer模块后的NECK层的结构示意图。

具体地，上述在YOLO v8网络模型中添加的BiFormer模块的核心功能可以是：

在收到输入图像X∈R^H×W×C，将其划分为S×S个不同区域，每个区域包含个特征向量，从而将X变为/>并通过线性映射，获得/>

Q＝X^rW^q,K＝X^rW^k,V＝X^rW^u

其中，W^q,W^k,W^u∈R^C×C分别为query，key和value的投影权重，H和W为输入的图像X的高和宽；

计算Q^T,K^T的区域间相关性的邻接矩阵A^T：

A^T＝Q^T(K^T)^T

保留每个区域前k个连接，以修剪相关性图，获得索引矩阵I^T：

I^T＝topkIndex(A^T)

其中，索引矩阵I^T的第i行包含第i个区域的前k个最相关区域的索引；

利用索引矩阵I^T，聚集key和value的张量，即：

K^g＝gather(K,I^T),V^g＝gather(V,I^T)

其中，K^g和V^g为聚集后的key和value的张量；

然后对K-V进行注意力操作：

O＝Attention(Q,K^g,V^g)+LCE(V)

其中，引入局部上下文增强项LCE(V)，用深度可分离卷积进行参数化，卷积核大小为5。

如此完成对YOLO v8网络模型的注意力机制的改进优化。

进一步地，YOLO v8网络模型下默认的损失函数是基于CIoU(Complete-IoU，基于距离和预测框尺寸的交并比)设计的，其虽然考虑了边框的横纵比，但是仍没有反映宽高与置信度的真实差异；而本发明可以采用MPDIoU对YOLO v8网络模型的损失函数进行改进，既考虑中心点距离以及宽高偏差，同时简化计算过程，以提高预测准确度的同时提高效率。

具体地，使用基于最小点距离的边界框相似度比较度量(MPDIoU)作为YOLO v8网络模型的边界框回归的损失函数，具体可以是，使用MPDIoU损失函数取代YOLO v8网络模型的默认的边界框回归的损失函数，对YOLO v8网络模型的默认损失函数进行改进优化。

具体地，上述在YOLO v8网络模型使用的MPDIoU损失函数的具体计算方法可以为：

1)获取两个检测边框，其中，gt为真实值的边框，prd为预测值边框，并获得prd和gt的左上点和右下点的坐标：

(x₁ ^prd,y₁ ^prd),(x₂ ^prd,y₂ ^prd),(x₁ ^gt,y₁ ^gt),(x₂ ^gt,y₂ ^gt)

其中，需要确保预测值边框prd的坐标满足：

x₂ ^prd>x₁ ^prd，y₂ ^prd>y₁ ^prd；

2)根据上述坐标，求解预测值到真实值的点距离：

3)计算真实值边框gt和预测值边框prd的面积：

A^gt＝(x₂ ^gt-x₁ ^gt)*(y₂ ^gt-y₁ ^gt)

A^prd＝(x₂ ^prd-x₁ ^prd)*(y₂ ^prd-y₁ ^prd)；

4)计算真实值边框gt和预测值边框prd的交集I，其左上点和右下点坐标分别取真实值边框gt和预测值边框prd的左上点和右下点坐标的最大值和最小值：

x₁ ^I＝max(x₁ ^prd,x₁ ^gt),x₂ ^I＝min(x₂ ^prd,x₂ ^gt)

y₁ ^I＝max(y₁ ^prd,y₁ ^gt),y₂ ^I＝min(y₂ ^prd,y₂ ^gt)

如果满足x₂ ^I>x₁ ^I,y₂ ^I>y₁ ^I，则可以计算交集I的面积为：

I＝(x₂ ^I-x₁ ^I)*(y₂ ^I-y₁ ^I)

如果不满足上述条件，则取I＝0；

5)计算真实值边框gt和预测值边框prd的并集U：

U＝A^gt+A^prd-I；

6)根据IoU(Intersection over Union)定义，即交并比，计算真实值边框gt和预测值边框prd的原始IoU：

7)在真实值边框gt和预测值边框prd的原始IoU的基础上求解真实值边框gt和预测值边框prd的最小点距离交并比MPDIoU，计算方法为：

8)改进后的MPDIoU损失函数为：

L_MPDIoU＝1-MPDIoU。

使用上面的算法替换YOLO v8的原始损失函数，即可完成损失函数的改进过程。

进一步地，YOLO v8网络模型默认的优化器为SGD(Stochastic GradientDescent，随机梯度下降)优化器，其计算量大，泛化能力较差，容易出现过拟合的情况。本发明可以采用Lion优化器，只追踪动量，通过符号操作计算出的每个参数有相同大小，极大的节省了计算资源，同时能够实现较好的优化迭代效果。

具体地，使用基于遗传编程自动发现神经网络优化器进行训练，具体可以为，使用Lion优化器取代YOLO v8网络模型的默认的SGD优化器；

其中，上述Lion优化器中各参数的更新算法为：

其中，γ_t为权重衰减率，建议取值为0.01；g_t为第t轮的损失函数的梯度；sign为符号函数，即内部计算结果为正数则取1，负数则取-1；u_t为优化器第t轮的更新量update，也是优化器需要的最终更新结果，u_t可以用来更新权重w：

w_t＝w_t-1-u_t

而要获取u_t，还有两个中间参数θ_t与m_t，这两个参数也需要随着训练不断更新，计算方法上述公式中已提供，其中L_t为第t轮的学习率，初始学习率的建议取值为0.0003；β₁与β₂为预设的超参数，β₁建议取值为0.9，β₂建议取值为0.99。具体地，上述基础参数的值可以根据实际实验数据和效果进行改动，以提高准确度，本发明对此不作限制。

将上述Lion优化器替代YOLO v8默认优化器，完成优化器的改进。

在添加BiFormer模块、使用MPDIoU损失函数取代原始的CIoU损失函数和使用Lion优化器取代原始的SGD损失函数后，即完成对于YOLO v8网络模型的整体改进，形成本发明步骤S102中可使用的目标检测网络模型。

具体地，在其他的实施例中，还可以使用其他的目标检测网络模型进行航测图像中弱纹理场景区域的识别和标注，本发明对此不做限制。

具体地，在使用目标检测网络模型进行弱纹理场景的识别之前，还需要对目标检测网络模型进行训练。具体地，首先可以对航拍得到的包含弱纹理场景，如水域的高分辨率航测图像进行标注工作，如标注每张图片的水面区域，并转换为对应的训练格式文件，将其划分为训练集、验证集和测试集。然后设置训练的初始参数，除了上述算法提到的有建议取值的参数外，其他基本参数可以根据实验具体情况进行调整，以达到较好的效果。设置好参数后即可使用训练集和验证集进行训练，使用测试集进行测试评价，当训练评价指标到达预期后，输出训练模型，即可使用模型进行后续的推理检测。

在步骤S103中，可以通过对经过目标检测网络模型的推理结果生成航测图像对应的弱纹理分割掩膜，用于后续的深度图补全操作。

具体地，使用本发明上述实施例所述的改进后的YOLO v8网络模型作为目标检测网络模型对水面数据类型的弱纹理场景进行检测的测试结果和根据检测结果提取弱纹理分割掩膜可以如图3和图4所示，其中，图3是本发明根据一实施例示出的通过目标检测网络模型标注出航测图像中所包含的弱纹理场景区域的测试结果示意图，而图4则是本发明根据一实施例示出的根据使用本发明所述的根据航测图像中检测出的弱纹理场景区域生成的弱纹理分割掩膜的示意图。

在步骤S104中，可以依赖高分辨率的航测图像和对应的高精度GPS坐标进行基于位置约束的空三位姿解算，来生成各航测图像的位姿，并通过空三位姿解算优化各航测图像位姿来生成稀疏点云。具体地，在步骤S104中根据所有航测图像及对应的GPS坐标进行空三位姿解算，获取目标场景对应的稀疏点云及每个所述航测图像对应的位姿，可以包括：首先对所有航测图像基于SIFT_GPU进行特征点提取与匹配；再针对每个航测图像通过PnP(Perspective N-Point)算法解算获得对应的位姿(Pose)的初值；最后再基于BA优化方法最小化所述位姿的重投影误差，从而获得最后的航测图像位姿。其中，SIFT_GPU是指使用GPU(Graphics Processing Unit，图形处理器)实现的SIFT(Scale Invariant FeatureTransform，尺度不变特征转换)算法，可以用于多视角图像间的特征点提取和匹配。PnP算法则是指已知n个三维空间点坐标(相对于某个指定的坐标系A)及其二维投影位置的情况下，估计相机的位姿(即相机在坐标系A下的姿态)的算法，可以用于估计本发明各个航测图像在同一空间坐标系下的位姿。具体地，在本发明步骤S104中所使用的PnP算法可以是直接线性变换法(Direct Linear Transform，DLT)、P3P(Perspective 3-Point)方法、透视相似三角形方法(Perspective Similar Triangle，PST)或其他PnP算法中的任意一种，本发明对此不作限制。BA(Bundle Adjustment，捆绑调整)优化法又可以称为光束平差法，可以用于最小化重投影误差，从而对位姿进行优化。

具体地，上述基于BA优化方法最小化位姿的重投影误差的步骤具体可以为：

通过以下公式计算重投影误差最小的位姿：

具体地，如图5和图6所示，图5是本发明根据一实施例示出的基于多视图特征点的BA优化方法的示意图，图6则是本发明根据一实施例示出的位姿计算与稀疏点云解算的示意图。

在步骤S105中，可以基于步骤S104中空三位姿解算获得的位姿和稀疏点云进行多视图立体匹配进行深度估计，从而生成每个航测图像对应的深度图。具体地，在步骤S105中基于稀疏点云和每个航测图像对应的位姿进行多视图立体匹配，估计每个航测图像对应的深度图，针对每个图像像素的深度值计算，关键核心算法包括：

首先基于patch-match方法对航测图像的每个像素窗口表示的物方面元进行匹配，并通过单应矩阵H引导的匹配图像块，包括参考图像A和邻近图像AB，计算每个航测图像间的NCC相关系数，以NCC相关系数作为匹配代价；其中，

其中，M_A·AB为参考图像A与邻近图像AB的乘积的均值，M_A为参考图像A的均值，M_AB为邻近图像AB的均值，V_A为参考图像A的方差，V_AB为邻近图像AB的方差；然后再基于上下左右4个方向扰动和随机优化深度值、法向量进行匹配代价和深度值的传播优化，直至生成整张深度图，最终的匹配代价被存储为置信图，最终的法向量被存储为法向量图。具体地，如图7所示，图7是本发明根据一实施例示出的基于多个方向扰动优化深度值的示意图。

具体地，本发明通过步骤S105生成的深度图的具体效果可以如图8和图9所示。其中，图8是本发明根据一实施例示出的单张航测图像、识别出的弱纹理场景区域、生成的弱纹理分割掩膜与估计的深度图的对比示意图。其中，图(8-1)为原始的航测图像，图(8-2)则为该航测图像经过步骤S102识别出的弱纹理场景区域，图(8-3)则为根据该弱纹理场景区域生成的对应该航测图像的弱纹理分割掩膜，图(8-4)则为根据该航测图像估计获得的深度图。而图9则是本发明根据一实施例示出的多张航测图像与估计的深度图的对比示意图。其中，图(9-1)为多张原始航测图像，图(9-2)则为图(9-1)中的各个原始航测图像对应估计的各个深度图。

在步骤S106中，可以基于弱纹理分割掩膜形成的轮廓处的深度值对每个航测图像对应的深度图进行补全，从而获得优化后的深度图，例如对于以水域为弱纹理场景区域时，可以基于水体掩膜轮廓点处的深度值对缺失的水体深度进行补全和优化。具体地，如图10所示，图10是本发明根据一实施例示出的基于弱纹理分割掩膜对深度图进行补全的流程示意图，在步骤S106中基于弱纹理分割掩膜对每个航测图像对应的深度图进行补全，获得每个航测图像对应的优化后的深度图，可以包括：

针对每个航测图像对应的深度图(作为参考深度图D_ref，还包括其对应的参考置信图)，获取其邻居影像的深度图、置信图并将邻居影像的深度图、置信图投影至航测图像对应的深度图D_ref所在的图像空间，使相邻深度图及置信图与参考深度图D_ref及其置信图一同构成深度图数组和置信图数组；

基于弱纹理分割掩膜识别深度图中的弱纹理区域，并识别弱纹理区域的所有轮廓点；

遍历所有轮廓点，对获取每个轮廓点在指定范围窗口内的最大邻域深度值，并根据最大邻域深度值基于指定采样间隔b构造轮廓点深度直方图H；其中，该指定范围窗口可以是5×5窗口或其他大小的窗口，具体可以根据实际需求确定，本发明对此不作限制；同样地，指定采样间隔b也可以根据实际需求进行确定，本发明对此不作限制；

获取所有轮廓点中对应深度值在轮廓点深度直方图H的峰值附近(包括峰值区间和峰值相邻区间内)的轮廓点构成参照点集，并将参照点集中的每个轮廓点的坐标从图像坐标系转换为相机坐标系；

采用RANSAC(Random Sample Consensus，随机采样一致)最小二乘法对参照点集中的轮廓点进行平面拟合，获得相机坐标系下的弱纹理几何方程；其中，弱纹理几何方程可以为

基于弱纹理几何方程，逐像素填补深度图中弱纹理区域中每个像素点的深度值：

从而补全深度图和法向图中的弱纹理区域，获得优化后的深度图。由于后续多视深度图融合生成点云时，需要进行法向一致性判断，因此可利用上述平面的法向补全该深度图对应的法向图的相同区域，使弱纹理区域的正确补全结果在融合过程中能够得到良好的保留。

具体地，如图11所示，图11是本发明根据一实施例示出的航测图像、原始深度图与优化后的深度图的对比示意图。其中，图(11-1)为两张原始航测图像，图(11-2)为分别对应图(11-1)中的两种航测图像的根据步骤S105生成的原始深度图，而图(11-3)则为分别对应图(11-1)中的两种航测图像的根据步骤S106进行优化后的深度图。从图11可见，与原始深度图相比，经过优化后的深度图可以很好的补全了弱纹理场景区域的深度值。

在步骤S107中，可以基于步骤S104获得的稀疏点云和步骤S106获得的优化后的深度图进行融合，从而生成目标场景对应的稠密点云。

具体地，如图12所示，图12是本发明根据一实施例示出的目标场景的稀疏点云、原始稠密点云与优化后的稠密点云的对比示意图。其中，图(12-1)为一种视角下观测到的步骤S104获得的稀疏点云，图(12-2)为该视角下观测到的基于步骤S105获得的原始深度图生成的原始稠密点云，图(12-3)则为该视角下观测到的基于步骤S106获得的优化后的深度图生成的优化后的稠密点云，而图(12-4)则为另一种视角下观测到的步骤S104获得的稀疏点云，图(12-5)为该另一视角下观测到的基于步骤S105获得的原始深度图生成的原始稠密点云，图(12-6)则为该另一视角下观测到的基于步骤S106获得的优化后的深度图生成的优化后的稠密点云。

在步骤S108中，可以基于步骤S107获得的稠密点云生成目标场景对应的三维建模。具体地，在一些实施例中，上述基于稠密点云生成的目标场景对应的三维模型可以为Delaunay三维网格模型。

具体地，如图13所示，图13是本发明根据一实施例示出的目标场景优化前生成的三维模型和优化后生成的三维模型结果的对比示意图。其中，图(13-1)为一种视角下观测到的基于优化前的深度图生成的稠密点云构建的三维模型，图(13-2)为该视角下观测到的基于本发明步骤S107获得的基于优化后的深度图生成的稠密点云构建的三维模型，图(13-3)则为另一种视角下观测到的基于优化前的深度图生成的稠密点云构建的三维模型，图(13-4)则为该另一视角下观测到的基于本发明步骤S107获得的基于优化后的深度图生成的稠密点云构建的三维模型。

具体地，在其他的实施例中，本发明生成的三维模型也可以是其他类型的三维网格模型，本发明对此不作限制。

本发明所述的补全弱纹理场景的三维重建方法首先通过预设的目标检测网络模型提取出航测图像中的弱纹理场景区域并生成弱纹理分割掩膜，以根据弱纹理分割掩膜对航测图像生成的深度图进行补全，再根据补全后的深度图生成稠密点云和三维模型。本发明所述方法可以恢复出极端弱纹理区域的三维场景信息，更好的提高弱纹理区域的三维模型质量。

与前文所述的补全弱纹理场景的三维重建方法实施例相对应，本发明还提供一种补全弱纹理场景的三维重建装置。

如图14所示，图14是本发明根据一实施例示出的一种补全弱纹理场景的三维重建装置的结构示意图，包括以下模块：

数据获取模块1401，用于获取在不同视角下针对目标场景拍摄的若干航测图像及对应的GPS坐标；

弱纹理识别模块1402，用于将每个航测图像输入预设的目标检测网络模型，以标注出航测图像中所包含的弱纹理场景区域；

掩膜生成模块1403，用于基于弱纹理场景区域生成对应航测图像的弱纹理分割掩膜；

位姿解算模块1404，用于根据所有航测图像及对应的GPS坐标进行空三位姿解算，获取目标场景对应的稀疏点云及每个航测图像对应的位姿；

深度图生成模块1405，用于基于稀疏点云和每个航测图像对应的位姿进行多视图立体匹配，估计每个航测图像对应的深度图；

深度图补全模块1406，用于基于弱纹理分割掩膜对每个航测图像对应的深度图进行补全，获得每个航测图像对应的优化后的深度图；

点云生成模块1407，用于基于稀疏点云，以及每个航测图像对应的优化后的深度图进行融合，生成目标场景对应的稠密点云；

三维重建模块1408，用于基于稠密点云生成目标场景对应的三维模型。

优选地，弱纹理识别模块1402中所预设的目标检测网络模型可以包括YOLO v8网络模型，并在该YOLO v8网络模型的基础上可以使用具有双水平路由注意的视觉变压器注意力机制，以及还可以使用基于最小点距离的边界框相似度比较度量作为该YOLO v8网络模型的边界框回归的损失函数，以及还可以使用基于遗传编程自动发现神经网络优化器进行训练。

优选地，位姿解算模块1404中根据所有航测图像及对应的GPS坐标进行空三位姿解算，获取目标场景对应的稀疏点云及每个航测图像对应的位姿的步骤，可以包括：

对所有航测图像基于SIFT_GPU进行特征点提取与匹配；

针对每个航测图像通过PnP算法解算获得对应的位姿的初值；

基于BA优化方法最小化位姿的重投影误差。

优选地，上述基于BA优化方法最小化位姿的重投影误差，具体可以为：

通过以下公式计算重投影误差最小的位姿：

优选地，深度图生成模块1405中基于稀疏点云和每个航测图像对应的位姿进行多视图立体匹配，估计每个航测图像对应的深度图的步骤，可以包括：

基于patch-match方法对航测图像的每个像素窗口表示的物方面元进行匹配，并通过单应矩阵H引导的匹配图像块，包括参考图像A和邻近图像AB，计算每个航测图像间的NCC相关系数，以该NCC相关系数作为匹配代价；其中，

/>

其中，M_A·AB为参考图像A与邻近图像AB的乘积的均值，M_A为参考图像A的均值，M_AB为邻近图像AB的均值，V_A为参考图像A的方差，V_AB为邻近图像AB的方差；

基于上下左右4个方向扰动和随机优化深度值进行匹配代价和深度值的传播优化，生成深度图，并将最终的匹配代价存储为置信图。

优选地，深度图补全模块1406中基于弱纹理分割掩膜对每个航测图像对应的深度图进行补全，获得每个航测图像对应的优化后的深度图的步骤，可以包括：

针对每个航测图像对应的深度图，获取其对应的参考置信图和其邻居影像的深度图及置信图，并将邻居影像的深度图及置信图投影至航测图像对应的深度图所在的图像空间，构成深度图和置信图数组；

遍历所有轮廓点，对获取每个轮廓点在指定范围窗口内的最大邻域深度值，并根据最大邻域深度值基于指定采样间隔构造轮廓点深度直方图；

获取所有轮廓点中对应深度值在轮廓点深度直方图的峰值区间和峰值相邻区间内的轮廓点构成参照点集，并将参照点集中的每个轮廓点的坐标从图像坐标系转换为相机坐标系；

采用RANSAC最小二乘法对参照点集中的轮廓点进行平面拟合，获得相机坐标系下的弱纹理几何方程；其中，弱纹理几何方程为

获得优化后的深度图。

优选地，三维重建模块1408中基于稠密点云生成目标场景对应的三维模型可以为Delaunay三维网格模型。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

图15示出了本发明所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1501、存储器1502、输入/输出接口1503、通信接口1504和总线1505。其中处理器1501、存储器1502、输入/输出接口1503和通信接口1504通过总线1505实现彼此之间在设备内部的通信连接。

处理器1501可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明所提供的技术方案。处理器1501还可以包括显卡，所述显卡可以是Nvidia titan X显卡或者1080Ti显卡等。

存储器1502可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1502可以存储操作***和其他应用程序，在通过软件或者固件来实现本发明所提供的技术方案时，相关的程序代码保存在存储器1502中，并由处理器1501来调用执行。

输入/输出接口1503用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1504用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1505包括一通路，在设备的各个组件(例如处理器1501、存储器1502、输入/输出接口1503和通信接口1504)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1501、存储器1502、输入/输出接口1503、通信接口1504以及总线1505，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本发明方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种补全弱纹理场景的三维重建方法，其特征在于，所述方法包括：

基于所述稠密点云生成所述目标场景对应的三维模型。

2.根据权利要求1所述的方法，其特征在于，所述预设的目标检测网络模型包括YOLOv8网络模型，并在所述YOLO v8网络模型的基础上使用具有双水平路由注意的视觉变压器注意力机制，以及使用基于最小点距离的边界框相似度比较度量作为所述YOLO v8网络模型的边界框回归的损失函数，以及使用基于遗传编程自动发现神经网络优化器进行训练。

3.根据权利要求1所述的方法，其特征在于，所述根据所有所述航测图像及对应的GPS坐标进行空三位姿解算，获取所述目标场景对应的稀疏点云及每个所述航测图像对应的位姿，包括：

对所有所述航测图像基于SIFT_GPU进行特征点提取与匹配；

基于BA优化方法最小化所述位姿的重投影误差。

4.根据权利要求3所述的方法，其特征在于，所述基于BA优化方法最小化所述位姿的重投影误差，具体为：

通过以下公式计算重投影误差最小的位姿：

其中，ξ表示当前位姿；u_i表示当前特征点i的像素坐标，n为特征点总数Λ量；S_i表示当前特征点i关联的所有航测图像范围；K表示当前航测图像；ξ表*示当前位姿的关联位姿；P_i表示当前特征点i的像素坐标对应的三维点坐标；ξ表示使重投影误差最小的位姿，即当前位姿ξ观察到的像素坐标u_i与三维点坐标P_i的重投影坐标之间的差最小的位姿。

5.根据权利要求1所述的方法，其特征在于，所述基于所述稀疏点云和每个所述航测图像对应的位姿进行多视图立体匹配，估计每个所述航测图像对应的深度图，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述弱纹理分割掩膜对每个所述航测图像对应的深度图进行补全，获得每个所述航测图像对应的优化后的深度图，包括：

获得所述优化后的深度图。

7.根据权利要求1所述的方法，其特征在于，所述基于所述稠密点云生成所述目标场景对应的三维模型为Delaunay三维网格模型。

8.一种补全弱纹理场景的三维重建装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-7任一所述的补全弱纹理场景的三维重建方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一所述的补全弱纹理场景的三维重建方法。