CN116402942A - 一种融合多尺度图像特征的大规模建筑物三维重建方法 - Google Patents
一种融合多尺度图像特征的大规模建筑物三维重建方法 Download PDFInfo
- Publication number
- CN116402942A CN116402942A CN202310194010.2A CN202310194010A CN116402942A CN 116402942 A CN116402942 A CN 116402942A CN 202310194010 A CN202310194010 A CN 202310194010A CN 116402942 A CN116402942 A CN 116402942A
- Authority
- CN
- China
- Prior art keywords
- ray
- scale
- light
- color
- dimensional reconstruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims description 21
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 16
- 238000009877 rendering Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 11
- 238000002834 transmittance Methods 0.000 claims description 10
- 108010089741 opacity factor Proteins 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- MYVIATVLJGTBFV-UHFFFAOYSA-M thiamine(1+) chloride Chemical compound [Cl-].CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N MYVIATVLJGTBFV-UHFFFAOYSA-M 0.000 claims description 2
- 238000012800 visualization Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 24
- 230000006870 function Effects 0.000 description 23
- 230000001537 neural effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005855 radiation Effects 0.000 description 4
- 241001424688 Enceliopsis Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000486463 Eugraphe sigma Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/06—Ray-tracing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/04—Architectural design, interior design
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合多尺度图像特征的大规模建筑物三维重建方法,包括如下步骤:遥感数据选取和预处理;构建基本网络模块及残差网络模块,用于获得阴影标量、不确定性预测值、反射光颜色以及环境光色彩;向基本网络模块输入最高层次图像对应的光线,逐层向残差网络模块中输入其他尺度图像对应的光线,每一个图像对应的光线输入到一个残差网络模块,然后将所有残差网络模块的结果融合得到一个统一的输出,最后将残差网络模块统一的输出与基本网络模块的输出结果进行融合得到最终输出结果,通过最终输出结果计算得到目标对象对应点的深度和对应像素的颜色,并通过构建的损失函数更新网络权重;利用训练好的网络实现待重建遥感图像的三维重建。
Description
技术领域
本发明属于深度学习技术在使用高分辨率遥感影像的三维重建领域中的应用,涉及一种融合多尺度图像特征的大规模建筑物三维重建方法,具体涉及一种从多视遥感影像中自动生成建筑物三维模型的方法。
背景技术
三维重建是智慧城市、自动驾驶、虚拟现实等领域的核心技术(文献1)。目前比较常用的传统三维重建方法包括倾斜摄影测量、贴近摄影测量等(文献2-3),这些方法对于场景的精细建模,主要的数据来源为相机、无人机等设备。高分辨率遥感影像具有覆盖范围广、场景特征丰富、多时相等特点,既能借助大范围的遥感场景进行快速的大规模三维重建,又能通过丰富的场景特征信息和多时相影像数据保证三维重建的质量,展现出了巨大的研究和应用价值,受到了广泛关注。然而,由于遥感相机模型的特殊性以及对目标摄影的稀疏性,传统方法使用高分影像进行三维重建时需要较多的人工编辑来确定控制点坐标进而完成影像的定向,工作流程复杂,使其难以快速、低成本、大批量地对遥感场景进行三维重建。
随着人工智能和硬件相关技术的快速发展,以MVS-Net网络为代表的深度学习技术在三维重建领域取得了巨大成功。MVS-Net在双目立体匹配理论的基础上,提出了基于可微分的单应性变换的代价容量(cost volume)函数,通过构建代价体来计算深度预测结果的置信度,以最大化置信度为目标来进行训练,实现了端到端的场景深度图的高质量生成,克服了传统遥感影像三维重建对于大量人工控制点的依赖(文献4)。然而,模型训练需要三维数据采集***生成的深度图作为真值,而大范围遥感场景深度图获取难度和成本较大,使其难以得到广泛应用。
近些年,神经辐射场(Neural Radiance Fields,NeRF)通过开创性地使用多层感知机(MLP),以图像中像素的颜色信息作为真值来构建损失函数来拟合三维场景的辐射和密度场,消除了模型训练对于深度图的依赖,以简洁的方式实现了高质量的三维场景表达,推动了三维重建领域的巨大发展(文献5)。以Block-NeRF、BungeeNeRF、Mega-NeRF为代表的三维重建研究,使用无人机航拍影像和街景图像实现了城市级的高精度大规模重建,为使用卫星遥感影像进行大规模场景的三维重建开辟了新的技术路线(文献6-8)。然而,该类方法使用的相机模型与卫星传感器模型存在较大差异,使其难以直接应用到遥感影像的三维重建任务中。此外,遥感影像本身的场景复杂性、视图稀疏性以及外部影响因素的多样性,使得模型重建精度难以得到保证。Sat-NeRF通过引入卫星的有理多项式系数(RationalPolynomial Coefficients,RPC)相机模型,成功将基于NeRF的网络应用到遥感影像的三维重建任务中(文献9)。然而,该方法缺乏对于遥感场景细节的捕捉,其重建精度有进一步提升空间。
[文献1]李明阳,陈伟,王珊珊等.视觉深度学习的三维重建方法综述[J/OL].计算机科学与探索:1-26[2023-02-11].http://kns.cnki.net/kcms/detail/11.5602.TP.20221020.1347.002.html.
[文献2]孙宏伟.基于倾斜摄影测量技术的三维数字城市建模[J].现代测绘,2014,37(1):18-21.
[文献3]苗志成,杨永崇,于庆和,等.贴近摄影测量在单体建筑物精细化建模中的应用[J].遥感信息,2021,36(5):107G113.
[文献4]Yao Y,Luo Z,Li S,et al.Mvsnet:Depth inference for unstructuredmulti-view stereo[C]//Proceedings of the European conference on computervision(ECCV).2018:767-783.[文献5]Mildenhall B,Srinivasan P P,Tancik M,etal.Nerf:Representing scenes as neural radiance fields for view synthesis[J].Communications of the ACM,2021,65(1):99-106.
[文献6]Tancik M,Casser V,Yan X,et al.Block-nerf:Scalable large sceneneural view synthesis[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2022:8248-8258.
[文献7]Xiangli Y,Xu L,Pan X,et al.Bungeenerf:Progressive neuralradiance field for extreme multi-scale scene rendering[C]//Computer Vision–ECCV 2022:17th European Conference,Tel Aviv,Israel,October 23–27,2022,Proceedings,Part XXXII.Cham:Springer Nature Switzerland,2022:106-122.
[文献8]Turki H,Ramanan D,Satyanarayanan M.Mega-nerf:Scalableconstruction of large-scale nerfs for virtual fly-throughs[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:12922-12931.
[文献9]Mari R,Facciolo G,Ehret T.Sat-nerf:Learning multi-viewsatellite photogrammetry with transient objects and shadow modeling using rpccameras[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2022:1311-1321.
发明内容
针对现有遥感三维重建方法存在的不足,本发明采用了卫星的RPC模型来构建网络,并针对遥感影像的存在阴影、背景杂乱、内容复杂等问题添加了阴影检测处理和瞬时对象(如车辆、行人等)处理,一定程度上消除了影像成像条件不一致对模型精度的影响。最后在训练过程中渐进式地动态添加残差网络模块来捕捉遥感影像的局部细节和整体特征,以提高结果精度。
本发明所采用得技术方案是:一种融合多尺度图像特征的大规模建筑物三维重建方法,包括如下步骤:
步骤1,遥感数据选取和预处理,按照一定的比例将数据集划分为训练和测试数据集;
从数据集中获取遥感影像的RGB数据、RPC模型参数、太阳方向参数,以及影像的时相数据;通过预处理获取基于RPC模型从卫星传感器射出的光线,每条光线为一个向量,由其射出的原点坐标以及其方向表示;最后将RGB数据、太阳方向参数、光线向量组织为字典类型的数据进行使用;
步骤2,构建基本网络模块及残差网络模块,所述基本网络模块及残差网络模块的主体为多层感知机MLP,MLP包括输入层、多个隐藏层和输出层;MLP的每层宽度为h,其输入层的输入为光线上的任意点的坐标以及其方向,MLP前半部分的输出为预测的像素值以及体素密度;
在输出体素密度σ之后额外添加一层宽度为h的隐含层,将MLP前半部分输出的RGB作为其输入,最终通过额外的宽度为h/2的隐含层与输出层得到阴影标量s、不确定性预测值β、反射光颜色ca以及环境光色彩a;
步骤3,使用多个卷积层对训练数据集中输入的遥感影像进行上采样,得到多个不同尺度的图像,使用多尺度图像构建影像金字塔,并将影像金字塔中的图像构建为光线;首先向基本网络模块输入最高层次图像对应的光线以学习较抽象宏观的场景整体信息,得到输出结果;然后逐层向残差网络模块中输入其他尺度图像对应的光线,以学习低层次图像中更具体丰富的场景细节信息,每一个图像对应的光线输入到一个残差网络模块,然后将所有残差网络模块的结果融合得到一个统一的输出,最后将残差网络模块统一的输出与基本网络模块的输出结果进行融合得到最终输出结果,通过最终输出结果计算得到目标对象对应点的深度和对应像素的颜色,并通过构建的损失函数更新网络权重;
步骤4,将测试数据集中的遥感影像输入到步骤3中训练好的网络,实现待重建遥感图像的三维重建。
进一步的,步骤2中MLP前半部分的处理过程表示如下:
(RGB,σ)=F(x,d) (1)
式中,RGB代表MLP预测的像素值,σ为体素密度,x代表光线上点的三维坐标,d为光线的方向。
进一步的,步骤3中计算目标对象对应点的深度和对应像素的颜色的具体实现方式如下;
步骤3.1,首先将σi带入公式(2)计算得到空间点的透光度αi和不透明度因子Ti:
式中σi为输入第i个点的坐标及其光线方向到MLP前半部分中输出得到的目标对象体素密度值,δi=ti+1-ti-1为邻近两个采样点之间的距离,;
步骤3.2,将αi、Ti、ti带入公式(3)计算得到目标对象对应点的深度d(r);
步骤3.3,将ca、ai、si带入公式(4),计算得到相应光线采样点的色彩预测值ci;
c(xi,ω,tj)=ca(xi)·(s(xi,ω)+(1-s(xi,ω))·a(ω)) (4)
其中c(xi,ω,tj)表示每条光线上i点渲染得到的色彩值,即为ci,式中的xi代表光线上i点的三维坐标,式中的ω为太阳方向角,ca(xi)指MLP输出的反射光颜色ca,a(ω)指MLP输出的环境光色彩,tj为影像的时相数据;s(xi,ω)为阴影标量,取值在0到1之间;
步骤3.4,将Ti、ci、αi带入公式(5)得到光线对应像素的颜色c(r);
c(r)为光线r渲染得到的色彩值,d(r)为该光线上目标对象对应点的深度值,N为光线的条数,ti、ci、αi和Ti分别为光线r上采样的第i个点的到相机的距离、预测色彩值、透光度和不透明度因子。
进一步的,步骤2中构建的损失函数包括太阳光线方向修正项、MSE损失、深度监督损失,其中太阳光线方向修正项的计算公式如下:
式中,NSC指在光线上采样点的总数,si为光线上第i点的阴影标量,RSC是次级太阳校正射线。
进一步的,MSE损失的计算公式如下:
此处,R指本次训练输入的光线集合,cGT(r2)指输入图像中光线r2对应像素的色彩真值,β′(r2)=β(r2)+βmin,,其中βmin和η为指定的经验值。
光线r2相关的β(r2)是通过对r2的N个采样点的不确定性预测值进行积分得到的,公式如下:
其中,βi是光线r第i点的不确定性预测值;
进一步的,为了学习场景的深度信息,构建深度监督损失,计算公式如下:
其中RDS指通过SIFT算法从遥感影像中提取出的关键点构造的光线,X(r3)为光线上采样点的三维坐标,o(r3)为光线原点,ω(r3)是X(r3)对深度监督信息的贡献权重,即该次训练中选取的各条光线X(r3)与o(r3)之间差值绝对值与该次所有光线差值绝对值之和的比值。
进一步的,最终损失函数的计算公式如下:
L=LRGB(R)+λSCLSC(RSC)+λDSLDS(RDS) (10)
其中λSC与λDS是对应损失项的权重。
进一步的,网络训练完成后将网络权重保持到ckpt文件中,借助ckpt文件直接通过输入的遥感影像进行端到端的三维重建,使用imageio工具根据输出的c(r)与d(r)重建出整个场景的三维模型,输出相应的DSM或mp4类型可视化结果。
进一步的,MLP的每层宽度为1024。
进一步的,λSC与λDS分别取0.1/3和1000/3。
进一步的,步骤1中选取IEEE GRSS数据集,数据集中包含以下部分:
(1)WorldView-3卫星图像,全色和八波段可见光和近红外,地面采样距离分别为35厘米和1.3米;
(2)由机载激光雷达生成的点云或数字表面模型DSMs提供的三维数据,分辨率为80厘米;
(3)传感器RPC参数、太阳光线方向、拍摄时相信息数据。
本发明充分利用高分辨率遥感影像的多层次特征来实现大规模建筑物的高效自动三维重建。其优点具体表现为:
(1)将RPC模型引入神经辐射场,以此来构建相机投射光线,使得遥感影像可以应用到NeRF中,同时针对遥感影像中存在的阴影遮挡以及瞬时对象进行了相应的处理,使得最终结果更加精细。
(2)通过卷积的方式提取影像中的多层次特征,充分利用影像的整体和局部信息,改善最终结果。
(3)渐进式地训练整体网络模型,结合基本网络模块和残差网络模块,最终融合两个模块的输出结果得到最终结果,提高重建精度。
附图说明
图1为本发明实施例用于大规模三维重建的神经网络模型示意图;
图2为本发明实施例的整体流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图和具体实施例对本发明做进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图2,本发明提供的一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于,包括以下步骤:本发明采用了卫星的RPC模型来构建NeRF网络,并针对遥感影像的存在阴影、背景杂乱、内容复杂等问题添加了阴影检测模块和瞬时对象(如车辆、行人等)检测模块,一定程度上消除了影像成像条件不一致对模型精度的影响。最后在训练过程中渐进式地动态添加残差块来捕捉遥感影像的局部细节和整体特征,以提高结果精度,整体模型结构见图1。最终通过训练好的网络实现端到端的大规模建筑物三维重建。
基于该模型的结构,本发明实施例提供一种端到端的渐进式神经辐射场遥感影像大规模三维重建方法。具体实施步骤如下:
步骤1.遥感数据选取和预处理
本实施例中选取了2019年IEEE GRSS数据融合大赛数据集与各种建筑物重建方法进行了对比与测试。该数据集具有多种由不同建筑物密度、空间尺寸大小及其周围环境组成的复杂城市场景,能够很好地验证不同建筑物三维重建方法的提取精度和可靠性。数据集中包含以下部分:
(1)WorldView-3卫星图像(由Maxar提供),全色和八波段可见光和近红外,地面采样距离分别为35厘米和1.3米。
(2)由机载激光雷达生成的点云或数字表面模型(DSMs)提供的三维数据,分辨率为80厘米。
(3)传感器RPC参数、太阳光线方向、拍摄时相信息等元数据。
本发明实施例从该数据集中选取了从2014年至2016年在美国佛罗里达州杰克逊维尔市收集的26张Maxar WorldView-3图像。从这些数据中,我们将一组不同大小的RGB影像分割结果作为输入,大约800×800像素,最低分辨率为0.3m/像素,每个AOI覆盖256×256m的范围。按照8:2的比例划分训练集与测试集,直接使用卫星图像的RPC相机模型进行光线投射,每个RPC由一个投影函数(将3D点投影到图像像素上)及其逆函数(定位函数)定义。将场景的最小高度和最大高度分别表示为hmin和hmax穿过场景并与第j张图像的像素p相交的光线被建模为初始点和最终3D点之间的直线,即xstart和xend。利用第j幅图像的RPC定位函数Lj,对像素p在hmin和hmax处进行定位得到这些边界点:
xstart=Lj(p,hmax)ECEF;xend=Lj(p,hmin)ECEF
其中,子索引ECEF表明定位函数Lj返回的3D点被转换为地球中心、地球固定坐标系(或地心***),以在笛卡尔参考***中工作。
给定xstart和xend,与像素p相交的射线r(t)=o+td的原点o和方向向量d可以通过各种方式选择高度边界[hmin,hmax],例如从低分辨率数据中提取的大尺度高程模型。第j个图像表示为:
距离相机最近的最大高度点xstart作为射线的原点o。射线r(t)=o+td的边界,即[tmin,tmax],设为tmin=0,tmax=‖xend-xstart‖2。在实际中无法直接使用ECEF坐标,因为其表示的坐标值较大,本发明使用类似于RPC函数中使用的减去偏移量和缩放的过程,将所有射线点归一化到区间[-1,1]中。将输入图像中的所有像素限制在hmin和hmax范围内得到的3D点集用于计算每个空间维度上的偏移和缩放。最后将构建好的光线与影像RGB信息及其他元数据组织为一个字典以方便使用。
步骤2.构建基本网络模块及残差网络模块
如图1所示,基本网络模型和残差网络模型的结构是一样的,主体由MLP组成。NeRF的关键是相机光线的构建以及渲染,其计算量较大,选择MLP一方面可以简化网络结构以降低计算量,另一方面可以较快的完成梯度的更新加快速度。
由于遥感影像中地物较为复杂,有较多如行人、车辆等一样短暂存在的对象,使得不同时相数据学习得到的结果存在较大误差,并且影像中的建筑物常常存在被阴影覆盖的部分,因此需要在模型中添加针对阴影以及瞬时对象的处理操作来消除这些影响。
因此在构建基本网络模块和残差网络模块,两个网络模块的结构相同,如附图1中的block,主体为多层感知机(MLP),MLP的每层宽度为h(默认为1024),MLP前半部分(附图1中block中输出σ前的部分)将拟合到整个场景的NeRF表示(即MLP形式的函数),其输入为光线的上任意点的坐标(由于光线起点及方向已知,可以计算出光线上任意点的坐标)以及其方向,该函数可表示为
(RGB,σ)=F(x,d) (1)
式中,RGB代表MLP预测的像素值,x代表光线上点的三维坐标,d为光线的方向。
在最终输出体素密度σ之后额外添加一层宽度为h的隐含层,将MLP前半部分输出的RGB作为其输入,最终通过额外的宽度为h/2的隐含层与输出层得到阴影标量s、不确定性预测值β、反射光颜色ca以及环境光色彩a(仅与太阳光线角有关),即通过添加额外的层得到从输入到对应输出的以MLP表示的函数。需要注意的是,如说明书附图1中的block所示,输出β的MLP需要额外的输入时间特征tj,输出s需要额外的输入太阳方向角ω,而输出a仅为一个单层的MLP表示ω到a的函数;
步骤3.渐进式地对网络进行训练
使用多个卷积层对输入的遥感影像进行特征提取的过程中会得到多个不同尺度的图像,此步骤将会对原始输入影像进行多次上采样构建影像金字塔,并将影像金字塔中的图像构建为光线,更高层次的图像的光线方向根据原始图像构建的光线方向进行缩放获得。
首先向基本网络输入最高层次图像构建的光线以学习较抽象宏观的场景整体信息,按照前面所述的基本网络模块结构利用MLP拟合场景的空间分布,输出整体场景的体素密度σbase、色彩渲染值cbase、阴影标量sbase、透光度αbase以及不确定性预测值βbase。
然后逐层向残差网络模块中输入各层图像构建的光线直到输入原图像的光线,以学***均的方法)得到一个统一的输出:体素密度σres、色彩渲染值cres、阴影标量sres、透光度αres以及不确定性预测值βres;最后将残差网络模块输出的体素密度σres、反射光颜色ca res、阴影标量sres、环境光色彩ares以及不确定性预测值βres与基本网络输出的整体场景的体素密度σbase、反射光颜色ca base、阴影标量sbase、环境光色彩abase以及不确定性预测值βbase进行融合得到最终的输出体素密度σi、反射光颜色ca、阴影标量si、环境光色彩ai以及不确定性预测值βi。
将输出的各参数带入以下公式计算得到空间点的深度以及相应的颜色(即将σi带入公式(4)计算得到空间点的透光度αi和不透明度因子Ti,再将αi、Ti、ti带入公式(3)计算得到目标对象对应点的深度d(r)。将ca、ai、si带入公式(5),计算得到相应光线采样点的色彩预测值ci,将Ti、ci、αi带入公式(2)得到光线对应像素的颜色c(r)),并通过构建的损失函数更新网络权重(将βi、Ti、αi带入公式(8)计算得到光线对应像素属于瞬时对象的可能性预测值β(r),将c(r)、β(r)与对应层次输入图像对应像素的颜色值cGT(r)带入公式(7)构建损失项LRGB;将Ti、αi、si带入公式(6)构建损失项LSC;将d(r)带入公式(9)构建损失项LDS;最终将LRGB、LSC、LDS带入公式(10)得到最终损失函数)。
对光线进行渲染的基本公式如下:
式中c(r)为光线r渲染得到的色彩值,d(r)为该光线上目标对象对应点的深度值,N为在光线r上采样的点数,ti、ci、αi和Ti分别为光线r上采样的第i个点的到相机的距离、预测色彩值、透光度和不透明度因子,其中透光度和不透明度因子其定义如下:
式中σi为输入第i个点的坐标及其光线方向到MLP前半部分中输出得到的目标对象体素密度值,xi=ti+1-ti-1为邻近两个采样点之间的距离。
采用S-NeRF中提出的阴影感知辐照度模型来计算每条光线上i点渲染得到的色彩值c,计算公式如下:
c(xi,ω,tj)=ca(xi)·(s(xi,ω)+(1-s(xi,ω))·a(ω)) (5)
其中c(xi,ω,tj)替代渲染公式中的ci,式中的xi代表光线上i点的三维坐标,ω为太阳方向角,ca(xi)指MLP输出的反射光颜色即附图1中的ca,a(ω)指MLP输出的环境光色彩,tj为影像的时相数据;s(xi,ω)为阴影标量,取值在0到1之间,该参数通过场景的反照率来判断阴影区域。理想情况下,在那些直接被太阳照射的3D点上,s≈1,其颜色完全由反射率ca(x)来解释。
损失函数包括太阳光线方向修正项、MSE损失、深度监督损失,具体构建方式如下:
在实践中太阳射线ω的方向与采集日期密切相关(特别是卫星在一天的同一时间经过)。因此,由于各种现象的混合,a(ω)最终捕获的环境辐照度不仅与ω有关,也与特定日期的条件如天气或季节变化有关。模型无法从训练数据中修正由于不同时相太阳光线方向改变造成的失真,本发明通过在损失函数中添加一个太阳光线方向修正项来解决,该修正项计算公式如下:
式中,NSC指在光线r1上采样点的总数,si为光线r1上第i点的阴影标量,RSC是次级太阳校正射线,这些光线遵循太阳光线ω的方向,而其他的主要光线遵循相机的观察方向。太阳光线修正项使用的可学习几何特征由透射率Ti和透明度αi编码,以进一步监督阴影感知阴影s(x,ω)的学习。公式中的第一部分的含义为,对于RSC中的每一条射线r1,在第i点预测的si应该与Ti相似;而公式的第二部分要求s/r1的积分尽量接近1,因为非遮挡和非阴影区域必须主要由阴影感知辐照度模型中的反射率来解释。以上操作即实现如附图2中添加阴影处理的操作。
MSE损失是借鉴W-NeRF中的任务不确定性学习方法来提高模型的鲁棒性,在本实施例中,不确定性预测值β根据渲染得到的和已知的颜色之间的每条射线对MSE的贡献来进行加权,公式如下:
此处,R指本次训练输入的光线集合,cGT(r2)指输入图像中光线r2对应像素的色彩真值,β′(r2)=β(r2)+βmin,其中βmin和η的值为手工指定的经验取值,取βmin=0.05,η=3以避免对数中取到负值;对数在LRGB中的作用是防止β收敛到无穷大。通过这种方式,模型能够在不确定性系数β和颜色差异之间进行权衡得到最终取值。
光线r2相关的β(r2)是通过对r2的N个采样点的不确定性预测值进行积分得到的,公式如下:
其中,βi是光线r第i点的不确定性预测值。以上操作即实现如附图2中的添加瞬时对象处理操作。
同时,为了学习场景的深度信息,可构建深度监督损失函数,计算公式如下:
其中RDS指通过SIFT算法从遥感影像中提取出的关键点构造的光线,X(r3)为光线上采样点的三维坐标,o(r3)为光线原点,ω(r3)是X(r3)对深度监督信息的贡献权重,即该次训练中选取的各条光线X(r3)与o(r3)之间差值绝对值与该次所有光线差值绝对值之和的比值。
最终将上述损失函数加权相加构造最终损失函数:
L=LRGB(R)+λSCLSC(RSC)+λDSLDS(RDS) (10)
其中λSC与λDS是对应损失项的权重,分别取0.1/3和1000/3。
步骤4,利用步骤3中训练好的网络实现建筑物三维重建。
网络训练完成后将网络权重保持到ckpt文件中,借助ckpt文件可以直接通过输入的遥感影像进行端到端的三维重建,输出最终结果。
具体实施时,本发明可采用计算机软件技术实现自动运行流程,运行本发明流程的装置也应当在保护范围内。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (10)
1.一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于,包括如下步骤:
步骤1,遥感数据选取和预处理,按照一定的比例将数据集划分为训练和测试数据集;
从数据集中获取遥感影像的RGB数据、RPC模型参数、太阳方向参数,以及影像的时相数据;通过预处理获取基于RPC模型从卫星传感器射出的光线,每条光线为一个向量,由其射出的原点坐标以及其方向表示;最后将RGB数据、太阳方向参数、光线向量组织为字典类型的数据进行使用;
步骤2,构建基本网络模块及残差网络模块,所述基本网络模块及残差网络模块的主体为多层感知机MLP,MLP包括输入层、多个隐藏层和输出层;MLP的每层宽度为h,其输入层的输入为光线上的任意点的坐标以及其方向,MLP前半部分的输出为预测的像素值以及体素密度;
在输出体素密度σ之后额外添加一层宽度为h的隐含层,将MLP前半部分输出的RGB作为其输入,最终通过额外的宽度为h/2的隐含层与输出层得到阴影标量s、不确定性预测值β、反射光颜色ca以及环境光色彩a;
步骤3,使用多个卷积层对训练数据集中输入的遥感影像进行上采样,得到多个不同尺度的图像,使用多尺度图像构建影像金字塔,并将影像金字塔中的图像构建为光线;首先向基本网络模块输入最高层次图像对应的光线以学习较抽象宏观的场景整体信息,得到输出结果;然后逐层向残差网络模块中输入其他尺度图像对应的光线,以学习低层次图像中更具体丰富的场景细节信息,每一个图像对应的光线输入到一个残差网络模块,然后将所有残差网络模块的结果融合得到一个统一的输出,最后将残差网络模块统一的输出与基本网络模块的输出结果进行融合得到最终输出结果,通过最终输出结果计算得到目标对象对应点的深度和对应像素的颜色,并通过构建的损失函数更新网络权重;
步骤4,将测试数据集中的遥感影像输入到步骤3中训练好的网络,实现待重建遥感图像的三维重建。
2.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于:步骤2中MLP前半部分的处理过程表示如下:
(RGB,σ)=F(x,d) (1)
式中,RGB代表MLP预测的像素值,σ为体素密度,x代表光线上点的三维坐标,d为光线的方向。
3.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于:步骤3中计算目标对象对应点的深度和对应像素的颜色的具体实现方式如下;
步骤3.1,首先将σi带入公式(2)计算得到空间点的透光度αi和不透明度因子Ti:
式中σi为输入第i个点的坐标及其光线方向到MLP前半部分中输出得到的目标对象体素密度值,δi=ti+1-ti-1为邻近两个采样点之间的距离,;
步骤3.2,将αi、Ti、ti带入公式(3)计算得到目标对象对应点的深度d(r);
步骤3.3,将ca、ai、si带入公式(4),计算得到相应光线采样点的色彩预测值ci;
c(xi,ω,tj)=ca(xi)·(s(xi,ω)+(1-s(xi,ω))·a(ω)) (4)
其中c(xi,ω,tj)表示每条光线上i点渲染得到的色彩值,即为ci,式中的xi代表光线上i点的三维坐标,式中的ω为太阳方向角,ca(xi)指MLP输出的反射光颜色ca,a(ω)指MLP输出的环境光色彩,tj为影像的时相数据;s(xi,ω)为阴影标量,取值在0到1之间;
步骤3.4,将Ti、ci、αi带入公式(5)得到光线对应像素的颜色c(r);
c(r)为光线r渲染得到的色彩值,d(r)为该光线上目标对象对应点的深度值,N为光线的条数,ti、ci、αi和Ti分别为光线r上采样的第i个点的到相机的距离、预测色彩值、透光度和不透明度因子。
7.如权利要求6所述的一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于:最终损失函数的计算公式如下:
L=LRGB(R)+λSCLSC(RSC)+λDSLDS(RDS) (10)
其中λSC与λDS是对应损失项的权重。
8.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于:网络训练完成后将网络权重保持到ckpt文件中,借助ckpt文件直接通过输入的遥感影像进行端到端的三维重建,使用imageio工具根据输出的c(r)与d(r)重建出整个场景的三维模型,输出相应的DSM或mp4类型可视化结果。
9.如权利要求7所述的一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于:λSC与λDS分别取0.1/3和1000/3。
10.如权利要求1所述的一种融合多尺度图像特征的大规模建筑物三维重建方法,其特征在于:步骤1中选取IEEE GRSS数据集,数据集中包含以下部分:
(1)WorldView-3卫星图像,全色和八波段可见光和近红外,地面采样距离分别为35厘米和1.3米;
(2)由机载激光雷达生成的点云或数字表面模型DSMs提供的三维数据,分辨率为80厘米;
(3)传感器RPC参数、太阳光线方向、拍摄时相信息数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310194010.2A CN116402942A (zh) | 2023-03-02 | 2023-03-02 | 一种融合多尺度图像特征的大规模建筑物三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310194010.2A CN116402942A (zh) | 2023-03-02 | 2023-03-02 | 一种融合多尺度图像特征的大规模建筑物三维重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116402942A true CN116402942A (zh) | 2023-07-07 |
Family
ID=87016846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310194010.2A Pending CN116402942A (zh) | 2023-03-02 | 2023-03-02 | 一种融合多尺度图像特征的大规模建筑物三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402942A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580161A (zh) * | 2023-07-13 | 2023-08-11 | 湖南省建筑设计院集团股份有限公司 | 基于图像及NeRF模型的建筑三维模型构建方法及*** |
CN117710583A (zh) * | 2023-12-18 | 2024-03-15 | 中铁第四勘察设计院集团有限公司 | 基于神经辐射场的空地影像三维重建方法、***及设备 |
CN117765165A (zh) * | 2023-12-06 | 2024-03-26 | 之江实验室 | 一种三维重建方法、装置、存储介质及电子设备 |
CN117765172A (zh) * | 2023-12-12 | 2024-03-26 | 之江实验室 | 一种遥感图像三维重建的方法及装置 |
CN117765171A (zh) * | 2023-12-12 | 2024-03-26 | 之江实验室 | 一种三维模型重建的方法、装置、存储介质及电子设备 |
-
2023
- 2023-03-02 CN CN202310194010.2A patent/CN116402942A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580161A (zh) * | 2023-07-13 | 2023-08-11 | 湖南省建筑设计院集团股份有限公司 | 基于图像及NeRF模型的建筑三维模型构建方法及*** |
CN116580161B (zh) * | 2023-07-13 | 2023-09-22 | 湖南省建筑设计院集团股份有限公司 | 基于图像及NeRF模型的建筑三维模型构建方法及*** |
CN117765165A (zh) * | 2023-12-06 | 2024-03-26 | 之江实验室 | 一种三维重建方法、装置、存储介质及电子设备 |
CN117765172A (zh) * | 2023-12-12 | 2024-03-26 | 之江实验室 | 一种遥感图像三维重建的方法及装置 |
CN117765171A (zh) * | 2023-12-12 | 2024-03-26 | 之江实验室 | 一种三维模型重建的方法、装置、存储介质及电子设备 |
CN117765172B (zh) * | 2023-12-12 | 2024-05-28 | 之江实验室 | 一种遥感图像三维重建的方法及装置 |
CN117710583A (zh) * | 2023-12-18 | 2024-03-15 | 中铁第四勘察设计院集团有限公司 | 基于神经辐射场的空地影像三维重建方法、***及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116402942A (zh) | 一种融合多尺度图像特征的大规模建筑物三维重建方法 | |
CN115082639B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
Marí et al. | Sat-nerf: Learning multi-view satellite photogrammetry with transient objects and shadow modeling using rpc cameras | |
Derksen et al. | Shadow neural radiance fields for multi-view satellite photogrammetry | |
Tian et al. | Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
MX2013003853A (es) | Modelado tridimensional rápido. | |
US20230281913A1 (en) | Radiance Fields for Three-Dimensional Reconstruction and Novel View Synthesis in Large-Scale Environments | |
CN116580161B (zh) | 基于图像及NeRF模型的建筑三维模型构建方法及*** | |
CN115937288A (zh) | 一种变电站三维场景模型构建方法 | |
Condorelli et al. | A comparison between 3D reconstruction using nerf neural networks and mvs algorithms on cultural heritage images | |
CN116245757B (zh) | 多模态数据的多场景通用性遥感影像云修复方法和*** | |
CN111683221B (zh) | 嵌入矢量红线数据的自然资源实时视频监测方法及*** | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN117315169A (zh) | 基于深度学习多视密集匹配的实景三维模型重建方法和*** | |
CN115147709A (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN117422753A (zh) | 一种联合光学和sar图像的高精度场景实时三维重建方法 | |
Li et al. | 3D virtual urban scene reconstruction from a single optical remote sensing image | |
CN117115359A (zh) | 一种基于深度图融合的多视图电网三维空间数据重建方法 | |
Zhang et al. | Fast satellite tensorial radiance field for multi-date satellite imagery of large size | |
CN116152442A (zh) | 一种三维点云模型生成方法及装置 | |
CN116310228A (zh) | 一种针对遥感场景的表面重建与新视图合成方法 | |
CN108171731B (zh) | 一种顾及拓扑几何多要素约束的最小影像集自动优选方法 | |
Motayyeb et al. | Enhancing contrast of images to improve geometric accuracy of a UAV photogrammetry project | |
CN117765172B (zh) | 一种遥感图像三维重建的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |