CN116402942A

CN116402942A - 一种融合多尺度图像特征的大规模建筑物三维重建方法

Info

Publication number: CN116402942A
Application number: CN202310194010.2A
Authority: CN
Inventors: 杨青林; 张展; 张觅; 周桓; 杨炳楠; 李大宇; 刘青瑀
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-07-07

Abstract

本发明公开了一种融合多尺度图像特征的大规模建筑物三维重建方法，包括如下步骤：遥感数据选取和预处理；构建基本网络模块及残差网络模块，用于获得阴影标量、不确定性预测值、反射光颜色以及环境光色彩；向基本网络模块输入最高层次图像对应的光线，逐层向残差网络模块中输入其他尺度图像对应的光线，每一个图像对应的光线输入到一个残差网络模块，然后将所有残差网络模块的结果融合得到一个统一的输出，最后将残差网络模块统一的输出与基本网络模块的输出结果进行融合得到最终输出结果，通过最终输出结果计算得到目标对象对应点的深度和对应像素的颜色，并通过构建的损失函数更新网络权重；利用训练好的网络实现待重建遥感图像的三维重建。

Description

一种融合多尺度图像特征的大规模建筑物三维重建方法

技术领域

本发明属于深度学习技术在使用高分辨率遥感影像的三维重建领域中的应用，涉及一种融合多尺度图像特征的大规模建筑物三维重建方法，具体涉及一种从多视遥感影像中自动生成建筑物三维模型的方法。

背景技术

三维重建是智慧城市、自动驾驶、虚拟现实等领域的核心技术(文献1)。目前比较常用的传统三维重建方法包括倾斜摄影测量、贴近摄影测量等(文献2-3)，这些方法对于场景的精细建模，主要的数据来源为相机、无人机等设备。高分辨率遥感影像具有覆盖范围广、场景特征丰富、多时相等特点，既能借助大范围的遥感场景进行快速的大规模三维重建，又能通过丰富的场景特征信息和多时相影像数据保证三维重建的质量，展现出了巨大的研究和应用价值，受到了广泛关注。然而，由于遥感相机模型的特殊性以及对目标摄影的稀疏性，传统方法使用高分影像进行三维重建时需要较多的人工编辑来确定控制点坐标进而完成影像的定向，工作流程复杂，使其难以快速、低成本、大批量地对遥感场景进行三维重建。

随着人工智能和硬件相关技术的快速发展，以MVS-Net网络为代表的深度学习技术在三维重建领域取得了巨大成功。MVS-Net在双目立体匹配理论的基础上，提出了基于可微分的单应性变换的代价容量(cost volume)函数，通过构建代价体来计算深度预测结果的置信度，以最大化置信度为目标来进行训练，实现了端到端的场景深度图的高质量生成，克服了传统遥感影像三维重建对于大量人工控制点的依赖(文献4)。然而，模型训练需要三维数据采集***生成的深度图作为真值，而大范围遥感场景深度图获取难度和成本较大，使其难以得到广泛应用。

近些年，神经辐射场(Neural Radiance Fields,NeRF)通过开创性地使用多层感知机(MLP)，以图像中像素的颜色信息作为真值来构建损失函数来拟合三维场景的辐射和密度场，消除了模型训练对于深度图的依赖，以简洁的方式实现了高质量的三维场景表达，推动了三维重建领域的巨大发展(文献5)。以Block-NeRF、BungeeNeRF、Mega-NeRF为代表的三维重建研究，使用无人机航拍影像和街景图像实现了城市级的高精度大规模重建，为使用卫星遥感影像进行大规模场景的三维重建开辟了新的技术路线(文献6-8)。然而，该类方法使用的相机模型与卫星传感器模型存在较大差异，使其难以直接应用到遥感影像的三维重建任务中。此外，遥感影像本身的场景复杂性、视图稀疏性以及外部影响因素的多样性，使得模型重建精度难以得到保证。Sat-NeRF通过引入卫星的有理多项式系数(RationalPolynomial Coefficients，RPC)相机模型，成功将基于NeRF的网络应用到遥感影像的三维重建任务中(文献9)。然而，该方法缺乏对于遥感场景细节的捕捉，其重建精度有进一步提升空间。

[文献1]李明阳,陈伟,王珊珊等.视觉深度学习的三维重建方法综述[J/OL].计算机科学与探索:1-26[2023-02-11].http://kns.cnki.net/kcms/detail/11.5602.TP.20221020.1347.002.html.

[文献2]孙宏伟.基于倾斜摄影测量技术的三维数字城市建模[J].现代测绘,2014,37(1):18-21.

[文献3]苗志成,杨永崇,于庆和,等.贴近摄影测量在单体建筑物精细化建模中的应用[J].遥感信息,2021,36(5):107G113.

[文献4]Yao Y,Luo Z,Li S,et al.Mvsnet:Depth inference for unstructuredmulti-view stereo[C]//Proceedings of the European conference on computervision(ECCV).2018:767-783.[文献5]Mildenhall B,Srinivasan P P,Tancik M,etal.Nerf:Representing scenes as neural radiance fields for view synthesis[J].Communications of the ACM,2021,65(1):99-106.

[文献6]Tancik M,Casser V,Yan X,et al.Block-nerf:Scalable large sceneneural view synthesis[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2022:8248-8258.

[文献7]Xiangli Y,Xu L,Pan X,et al.Bungeenerf:Progressive neuralradiance field for extreme multi-scale scene rendering[C]//Computer Vision–ECCV 2022:17th European Conference,Tel Aviv,Israel,October 23–27,2022,Proceedings,Part XXXII.Cham:Springer Nature Switzerland,2022:106-122.

[文献8]Turki H,Ramanan D,Satyanarayanan M.Mega-nerf:Scalableconstruction of large-scale nerfs for virtual fly-throughs[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:12922-12931.

[文献9]Mari R,Facciolo G,Ehret T.Sat-nerf:Learning multi-viewsatellite photogrammetry with transient objects and shadow modeling using rpccameras[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2022:1311-1321.

发明内容

针对现有遥感三维重建方法存在的不足，本发明采用了卫星的RPC模型来构建网络，并针对遥感影像的存在阴影、背景杂乱、内容复杂等问题添加了阴影检测处理和瞬时对象(如车辆、行人等)处理，一定程度上消除了影像成像条件不一致对模型精度的影响。最后在训练过程中渐进式地动态添加残差网络模块来捕捉遥感影像的局部细节和整体特征，以提高结果精度。

本发明所采用得技术方案是：一种融合多尺度图像特征的大规模建筑物三维重建方法，包括如下步骤：

步骤1，遥感数据选取和预处理，按照一定的比例将数据集划分为训练和测试数据集；

从数据集中获取遥感影像的RGB数据、RPC模型参数、太阳方向参数，以及影像的时相数据；通过预处理获取基于RPC模型从卫星传感器射出的光线，每条光线为一个向量，由其射出的原点坐标以及其方向表示；最后将RGB数据、太阳方向参数、光线向量组织为字典类型的数据进行使用；

步骤2，构建基本网络模块及残差网络模块，所述基本网络模块及残差网络模块的主体为多层感知机MLP，MLP包括输入层、多个隐藏层和输出层；MLP的每层宽度为h，其输入层的输入为光线上的任意点的坐标以及其方向，MLP前半部分的输出为预测的像素值以及体素密度；

在输出体素密度σ之后额外添加一层宽度为h的隐含层，将MLP前半部分输出的RGB作为其输入，最终通过额外的宽度为h/2的隐含层与输出层得到阴影标量s、不确定性预测值β、反射光颜色c_a以及环境光色彩a；

步骤3，使用多个卷积层对训练数据集中输入的遥感影像进行上采样，得到多个不同尺度的图像，使用多尺度图像构建影像金字塔，并将影像金字塔中的图像构建为光线；首先向基本网络模块输入最高层次图像对应的光线以学习较抽象宏观的场景整体信息，得到输出结果；然后逐层向残差网络模块中输入其他尺度图像对应的光线，以学习低层次图像中更具体丰富的场景细节信息，每一个图像对应的光线输入到一个残差网络模块，然后将所有残差网络模块的结果融合得到一个统一的输出，最后将残差网络模块统一的输出与基本网络模块的输出结果进行融合得到最终输出结果，通过最终输出结果计算得到目标对象对应点的深度和对应像素的颜色，并通过构建的损失函数更新网络权重；

步骤4，将测试数据集中的遥感影像输入到步骤3中训练好的网络，实现待重建遥感图像的三维重建。

进一步的，步骤2中MLP前半部分的处理过程表示如下：

(RGB,σ)＝F(x,d) (1)

式中，RGB代表MLP预测的像素值，σ为体素密度，x代表光线上点的三维坐标，d为光线的方向。

进一步的，步骤3中计算目标对象对应点的深度和对应像素的颜色的具体实现方式如下；

步骤3.1，首先将σ_i带入公式(2)计算得到空间点的透光度α_i和不透明度因子T_i：

式中σ_i为输入第i个点的坐标及其光线方向到MLP前半部分中输出得到的目标对象体素密度值，δ_i＝t_i+1-t_i-1为邻近两个采样点之间的距离，；

步骤3.2，将α_i、T_i、t_i带入公式(3)计算得到目标对象对应点的深度d(r)；

步骤3.3，将c_a、a_i、s_i带入公式(4)，计算得到相应光线采样点的色彩预测值c_i；

c(x_i,ω,t_j)＝c_a(x_i)·(s(x_i,ω)+(1-s(x_i,ω))·a(ω)) (4)

其中c(x_i，ω，t_j)表示每条光线上i点渲染得到的色彩值，即为c_i，式中的x_i代表光线上i点的三维坐标，式中的ω为太阳方向角，c_a(x_i)指MLP输出的反射光颜色c_a，a(ω)指MLP输出的环境光色彩，t_j为影像的时相数据；s(x_i，ω)为阴影标量，取值在0到1之间；

步骤3.4，将T_i、c_i、α_i带入公式(5)得到光线对应像素的颜色c(r)；

c(r)为光线r渲染得到的色彩值，d(r)为该光线上目标对象对应点的深度值，N为光线的条数，t_i、c_i、α_i和T_i分别为光线r上采样的第i个点的到相机的距离、预测色彩值、透光度和不透明度因子。

进一步的，步骤2中构建的损失函数包括太阳光线方向修正项、MSE损失、深度监督损失，其中太阳光线方向修正项的计算公式如下：

式中，N_SC指在光线上采样点的总数，s_i为光线上第i点的阴影标量，R_SC是次级太阳校正射线。

进一步的，MSE损失的计算公式如下：

此处，R指本次训练输入的光线集合，c_GT(r2)指输入图像中光线r2对应像素的色彩真值，β′(r2)＝β(r2)+β_min，，其中β_min和η为指定的经验值。

光线r2相关的β(r2)是通过对r2的N个采样点的不确定性预测值进行积分得到的，公式如下：

其中，β_i是光线r第i点的不确定性预测值；

进一步的，为了学习场景的深度信息，构建深度监督损失，计算公式如下：

其中R_DS指通过SIFT算法从遥感影像中提取出的关键点构造的光线，X(r3)为光线上采样点的三维坐标，o(r3)为光线原点，ω(r3)是X(r3)对深度监督信息的贡献权重，即该次训练中选取的各条光线X(r3)与o(r3)之间差值绝对值与该次所有光线差值绝对值之和的比值。

进一步的，最终损失函数的计算公式如下：

L＝L_RGB(R)+λ_SCL_SC(R_SC)+λ_DSL_DS(R_DS) (10)

其中λ_SC与λ_DS是对应损失项的权重。

进一步的，网络训练完成后将网络权重保持到ckpt文件中，借助ckpt文件直接通过输入的遥感影像进行端到端的三维重建，使用imageio工具根据输出的c(r)与d(r)重建出整个场景的三维模型，输出相应的DSM或mp4类型可视化结果。

进一步的，MLP的每层宽度为1024。

进一步的，λ_SC与λ_DS分别取0.1/3和1000/3。

进一步的，步骤1中选取IEEE GRSS数据集，数据集中包含以下部分：

(1)WorldView-3卫星图像，全色和八波段可见光和近红外，地面采样距离分别为35厘米和1.3米；

(2)由机载激光雷达生成的点云或数字表面模型DSMs提供的三维数据，分辨率为80厘米；

(3)传感器RPC参数、太阳光线方向、拍摄时相信息数据。

本发明充分利用高分辨率遥感影像的多层次特征来实现大规模建筑物的高效自动三维重建。其优点具体表现为：

(1)将RPC模型引入神经辐射场，以此来构建相机投射光线，使得遥感影像可以应用到NeRF中，同时针对遥感影像中存在的阴影遮挡以及瞬时对象进行了相应的处理，使得最终结果更加精细。

(2)通过卷积的方式提取影像中的多层次特征，充分利用影像的整体和局部信息，改善最终结果。

(3)渐进式地训练整体网络模型，结合基本网络模块和残差网络模块，最终融合两个模块的输出结果得到最终结果，提高重建精度。

附图说明

图1为本发明实施例用于大规模三维重建的神经网络模型示意图；

图2为本发明实施例的整体流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图和具体实施例对本发明做进一步说明，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图2，本发明提供的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于，包括以下步骤：本发明采用了卫星的RPC模型来构建NeRF网络，并针对遥感影像的存在阴影、背景杂乱、内容复杂等问题添加了阴影检测模块和瞬时对象(如车辆、行人等)检测模块，一定程度上消除了影像成像条件不一致对模型精度的影响。最后在训练过程中渐进式地动态添加残差块来捕捉遥感影像的局部细节和整体特征，以提高结果精度，整体模型结构见图1。最终通过训练好的网络实现端到端的大规模建筑物三维重建。

基于该模型的结构，本发明实施例提供一种端到端的渐进式神经辐射场遥感影像大规模三维重建方法。具体实施步骤如下：

步骤1.遥感数据选取和预处理

本实施例中选取了2019年IEEE GRSS数据融合大赛数据集与各种建筑物重建方法进行了对比与测试。该数据集具有多种由不同建筑物密度、空间尺寸大小及其周围环境组成的复杂城市场景，能够很好地验证不同建筑物三维重建方法的提取精度和可靠性。数据集中包含以下部分：

(1)WorldView-3卫星图像(由Maxar提供)，全色和八波段可见光和近红外，地面采样距离分别为35厘米和1.3米。

(2)由机载激光雷达生成的点云或数字表面模型(DSMs)提供的三维数据，分辨率为80厘米。

(3)传感器RPC参数、太阳光线方向、拍摄时相信息等元数据。

本发明实施例从该数据集中选取了从2014年至2016年在美国佛罗里达州杰克逊维尔市收集的26张Maxar WorldView-3图像。从这些数据中，我们将一组不同大小的RGB影像分割结果作为输入，大约800×800像素，最低分辨率为0.3m/像素，每个AOI覆盖256×256m的范围。按照8:2的比例划分训练集与测试集，直接使用卫星图像的RPC相机模型进行光线投射，每个RPC由一个投影函数(将3D点投影到图像像素上)及其逆函数(定位函数)定义。将场景的最小高度和最大高度分别表示为h_min和h_max穿过场景并与第j张图像的像素p相交的光线被建模为初始点和最终3D点之间的直线，即x_start和x_end。利用第j幅图像的RPC定位函数L_j，对像素p在h_min和h_max处进行定位得到这些边界点：

x_start＝L_j(p,h_max)_ECEF；x_end＝L_j(p,h_min)_ECEF

其中，子索引ECEF表明定位函数L_j返回的3D点被转换为地球中心、地球固定坐标系(或地心***)，以在笛卡尔参考***中工作。

给定x_start和x_end，与像素p相交的射线r(t)＝o+td的原点o和方向向量d可以通过各种方式选择高度边界[h_min,h_max]，例如从低分辨率数据中提取的大尺度高程模型。第j个图像表示为：

距离相机最近的最大高度点x_start作为射线的原点o。射线r(t)＝o+td的边界，即[t_min,t_max]，设为t_min＝0,t_max＝‖x_end-x_start‖₂。在实际中无法直接使用ECEF坐标，因为其表示的坐标值较大，本发明使用类似于RPC函数中使用的减去偏移量和缩放的过程，将所有射线点归一化到区间[-1,1]中。将输入图像中的所有像素限制在h_min和h_max范围内得到的3D点集用于计算每个空间维度上的偏移和缩放。最后将构建好的光线与影像RGB信息及其他元数据组织为一个字典以方便使用。

步骤2.构建基本网络模块及残差网络模块

如图1所示，基本网络模型和残差网络模型的结构是一样的，主体由MLP组成。NeRF的关键是相机光线的构建以及渲染，其计算量较大，选择MLP一方面可以简化网络结构以降低计算量，另一方面可以较快的完成梯度的更新加快速度。

由于遥感影像中地物较为复杂，有较多如行人、车辆等一样短暂存在的对象，使得不同时相数据学习得到的结果存在较大误差，并且影像中的建筑物常常存在被阴影覆盖的部分，因此需要在模型中添加针对阴影以及瞬时对象的处理操作来消除这些影响。

因此在构建基本网络模块和残差网络模块，两个网络模块的结构相同，如附图1中的block，主体为多层感知机(MLP)，MLP的每层宽度为h(默认为1024)，MLP前半部分(附图1中block中输出σ前的部分)将拟合到整个场景的NeRF表示(即MLP形式的函数)，其输入为光线的上任意点的坐标(由于光线起点及方向已知，可以计算出光线上任意点的坐标)以及其方向，该函数可表示为

(RGB,σ)＝F(x,d) (1)

式中，RGB代表MLP预测的像素值，x代表光线上点的三维坐标，d为光线的方向。

在最终输出体素密度σ之后额外添加一层宽度为h的隐含层，将MLP前半部分输出的RGB作为其输入，最终通过额外的宽度为h/2的隐含层与输出层得到阴影标量s、不确定性预测值β、反射光颜色c_a以及环境光色彩a(仅与太阳光线角有关)，即通过添加额外的层得到从输入到对应输出的以MLP表示的函数。需要注意的是，如说明书附图1中的block所示，输出β的MLP需要额外的输入时间特征t_j，输出s需要额外的输入太阳方向角ω，而输出a仅为一个单层的MLP表示ω到a的函数；

步骤3.渐进式地对网络进行训练

使用多个卷积层对输入的遥感影像进行特征提取的过程中会得到多个不同尺度的图像，此步骤将会对原始输入影像进行多次上采样构建影像金字塔，并将影像金字塔中的图像构建为光线，更高层次的图像的光线方向根据原始图像构建的光线方向进行缩放获得。

首先向基本网络输入最高层次图像构建的光线以学习较抽象宏观的场景整体信息，按照前面所述的基本网络模块结构利用MLP拟合场景的空间分布，输出整体场景的体素密度σ^base、色彩渲染值c^base、阴影标量s^base、透光度α^base以及不确定性预测值β^base。

然后逐层向残差网络模块中输入各层图像构建的光线直到输入原图像的光线，以学***均的方法)得到一个统一的输出：体素密度σ^res、色彩渲染值c^res、阴影标量s^res、透光度α^res以及不确定性预测值β^res；最后将残差网络模块输出的体素密度σ^res、反射光颜色c_a ^res、阴影标量s^res、环境光色彩a^res以及不确定性预测值β^res与基本网络输出的整体场景的体素密度σ^base、反射光颜色c_a ^base、阴影标量s^base、环境光色彩a^base以及不确定性预测值β^base进行融合得到最终的输出体素密度σ_i、反射光颜色c_a、阴影标量s_i、环境光色彩a_i以及不确定性预测值β_i。

将输出的各参数带入以下公式计算得到空间点的深度以及相应的颜色(即将σ_i带入公式(4)计算得到空间点的透光度α_i和不透明度因子T_i，再将α_i、T_i、t_i带入公式(3)计算得到目标对象对应点的深度d(r)。将c_a、a_i、s_i带入公式(5)，计算得到相应光线采样点的色彩预测值c_i，将T_i、c_i、α_i带入公式(2)得到光线对应像素的颜色c(r))，并通过构建的损失函数更新网络权重(将β_i、T_i、α_i带入公式(8)计算得到光线对应像素属于瞬时对象的可能性预测值β(r)，将c(r)、β(r)与对应层次输入图像对应像素的颜色值c_GT(r)带入公式(7)构建损失项L_RGB；将T_i、α_i、s_i带入公式(6)构建损失项L_SC；将d(r)带入公式(9)构建损失项L_DS；最终将L_RGB、L_SC、L_DS带入公式(10)得到最终损失函数)。

对光线进行渲染的基本公式如下：

式中c(r)为光线r渲染得到的色彩值，d(r)为该光线上目标对象对应点的深度值，N为在光线r上采样的点数，t_i、c_i、α_i和T_i分别为光线r上采样的第i个点的到相机的距离、预测色彩值、透光度和不透明度因子，其中透光度和不透明度因子其定义如下：

式中σ_i为输入第i个点的坐标及其光线方向到MLP前半部分中输出得到的目标对象体素密度值，x_i＝t_i+1-t_i-1为邻近两个采样点之间的距离。

采用S-NeRF中提出的阴影感知辐照度模型来计算每条光线上i点渲染得到的色彩值c，计算公式如下：

c(x_i,ω,t_j)＝c_a(x_i)·(s(x_i,ω)+(1-s(x_i,ω))·a(ω)) (5)

其中c(x_i，ω，t_j)替代渲染公式中的c_i，式中的x_i代表光线上i点的三维坐标，ω为太阳方向角，c_a(x_i)指MLP输出的反射光颜色即附图1中的c_a，a(ω)指MLP输出的环境光色彩，t_j为影像的时相数据；s(x_i，ω)为阴影标量，取值在0到1之间，该参数通过场景的反照率来判断阴影区域。理想情况下，在那些直接被太阳照射的3D点上，s≈1，其颜色完全由反射率c_a(x)来解释。

损失函数包括太阳光线方向修正项、MSE损失、深度监督损失，具体构建方式如下：

在实践中太阳射线ω的方向与采集日期密切相关(特别是卫星在一天的同一时间经过)。因此，由于各种现象的混合，a(ω)最终捕获的环境辐照度不仅与ω有关，也与特定日期的条件如天气或季节变化有关。模型无法从训练数据中修正由于不同时相太阳光线方向改变造成的失真，本发明通过在损失函数中添加一个太阳光线方向修正项来解决，该修正项计算公式如下：

式中，N_SC指在光线r1上采样点的总数，s_i为光线r1上第i点的阴影标量，R_SC是次级太阳校正射线，这些光线遵循太阳光线ω的方向，而其他的主要光线遵循相机的观察方向。太阳光线修正项使用的可学习几何特征由透射率T_i和透明度α_i编码，以进一步监督阴影感知阴影s(x，ω)的学习。公式中的第一部分的含义为，对于R_SC中的每一条射线r1，在第i点预测的s_i应该与T_i相似；而公式的第二部分要求s/r1的积分尽量接近1，因为非遮挡和非阴影区域必须主要由阴影感知辐照度模型中的反射率来解释。以上操作即实现如附图2中添加阴影处理的操作。

MSE损失是借鉴W-NeRF中的任务不确定性学习方法来提高模型的鲁棒性，在本实施例中，不确定性预测值β根据渲染得到的和已知的颜色之间的每条射线对MSE的贡献来进行加权，公式如下：

此处，R指本次训练输入的光线集合，c_GT(r2)指输入图像中光线r2对应像素的色彩真值，β′(r2)＝β(r2)+β_min，其中β_min和η的值为手工指定的经验取值，取β_min＝0.05,η＝3以避免对数中取到负值；对数在L_RGB中的作用是防止β收敛到无穷大。通过这种方式，模型能够在不确定性系数β和颜色差异之间进行权衡得到最终取值。

其中，β_i是光线r第i点的不确定性预测值。以上操作即实现如附图2中的添加瞬时对象处理操作。

同时，为了学习场景的深度信息，可构建深度监督损失函数，计算公式如下：

最终将上述损失函数加权相加构造最终损失函数：

L＝L_RGB(R)+λ_SCL_SC(R_SC)+λ_DSL_DS(R_DS) (10)

其中λ_SC与λ_DS是对应损失项的权重，分别取0.1/3和1000/3。

步骤4，利用步骤3中训练好的网络实现建筑物三维重建。

网络训练完成后将网络权重保持到ckpt文件中，借助ckpt文件可以直接通过输入的遥感影像进行端到端的三维重建，输出最终结果。

具体实施时，本发明可采用计算机软件技术实现自动运行流程，运行本发明流程的装置也应当在保护范围内。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：步骤2中MLP前半部分的处理过程表示如下：

(RGB,σ)＝F(x,d) (1)

3.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：步骤3中计算目标对象对应点的深度和对应像素的颜色的具体实现方式如下；

c(x_i,ω,t_j)＝c_a(x_i)·(s(x_i,ω)+(1-s(x_i,ω))·a(ω)) (4)

4.如权利要求3所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：步骤2中构建的损失函数包括太阳光线方向修正项、MSE损失、深度监督损失，其中太阳光线方向修正项的计算公式如下：

5.如权利要求4所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：MSE损失的计算公式如下：

其中，β_i是光线r第i点的不确定性预测值。

6.如权利要求5所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：为了学习场景的深度信息，构建深度监督损失，计算公式如下：

7.如权利要求6所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：最终损失函数的计算公式如下：

L＝L_RGB(R)+λ_SCL_SC(R_SC)+λ_DSL_DS(R_DS) (10)

其中λ_SC与λ_DS是对应损失项的权重。

8.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：网络训练完成后将网络权重保持到ckpt文件中，借助ckpt文件直接通过输入的遥感影像进行端到端的三维重建，使用imageio工具根据输出的c(r)与d(r)重建出整个场景的三维模型，输出相应的DSM或mp4类型可视化结果。

9.如权利要求7所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：λ_SC与λ_DS分别取0.1/3和1000/3。

10.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法，其特征在于：步骤1中选取IEEE GRSS数据集，数据集中包含以下部分：

(3)传感器RPC参数、太阳光线方向、拍摄时相信息数据。