CN116543117B

CN116543117B - 一种无人机影像的高精度大场景三维建模方法

Info

Publication number: CN116543117B
Application number: CN202310252401.5A
Authority: CN
Inventors: 余卓渊; 金鹏飞; 石智杰
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2024-01-09
Anticipated expiration: 2043-03-16
Also published as: CN116543117A

Abstract

本发明公开了一种无人机影像的高精度大场景三维建模方法，共计三个步骤，本方法避开了采用传统倾斜摄影测量三维建模的方法，将无人机航拍影像集按圆形的环绕航迹进行划分，对划分后的影像集，通过特征提取与匹配和几何验证后，使用SFM算法恢复无人机相机的位姿，然后训练子NeRF，最后将目标视角周围的子NeRF合并，完成大场景三维模型的隐式构建；通过实验测试，达到了很好的效果，可以很好地重建光滑表面和横截面小的地物。

Description

一种无人机影像的高精度大场景三维建模方法

技术领域

本发明涉及三维建模技术领域，尤其涉及一种无人机影像的高精度大场景三维建模方法。

背景技术

实景三维能够真实、有序地反映人类生产、生活和生态空间的大规模时空信息，是推动智慧城市和智能数字经济发展的重要新型集成***。三维场景构建将传统的2D数据扩展到3D数据并作为核心数据结构来实现实景环境，代替了传统的点、线、面的纯几何可视化架构。实景三维使计算机能够全面、立体地呈现与感知各种自然资源要素的现状和空间分布，此外，还能够以高清、可视化的方式准确反映地形的空间分布、表面纹理细节以及地物的形态特征等信息。因此，实景三维模型构建是支撑遥感测绘理论和应用问题的新兴技术，具有重要的科研价值和现实意义，对数字孪生、元宇宙的发展提供了技术支撑。此外，实景三维建模在城市规划、CIM、城市交通、地质测绘、无人驾驶和虚拟地理环境等领域也得到了广泛应用。

随着地理信息数据获取手段日益丰富，通过不同数据源来构建三维场景的建模方法也层出不穷。常用三维建模方法有以下几种，例如通过Sketchup、3dMax等软件进行手动建模，以及通过Revit等软件手动构建BIM，该方法得到的模型虽然足够精细，但费时费力，效率低下，难以满足大范围场景建模的需求。或通过拉伸CAD软件中二维矢量面状建筑物到该建筑物高度得到建筑白膜的方法，该方法虽然不需要人工手动建模，但建筑物高度难以获得准确数据，并且模型缺乏纹理和形状。再有就是激光点云建模，多是通过机载激光雷达构建目标物体点云再生成三角面格网，这种方法抗光照、风速干扰能力强，精度高，但成本高，数据噪声问题和数据不一致问题仍是挑战。还有由移动的车辆捕获的街景图片建模、航空摄影测量建模等，但它们均不能重建相对完整的三维场景。至于通过网络众包途径获取的图像来进行三维建模重建效果则严重依赖于网络图片对场景的覆盖程度。

因此，本领域的技术人员致力于开发一种无人机影像的高精度大场景三维建模方法，以解决上述现有技术的不足。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是传统摄影测量三维建模不能很好重建光滑表面、横截面小的地物的缺陷问题。

为实现上述目的，本发明提供了一种无人机影像的高精度大场景三维建模方法，所述方法包括以下步骤：

步骤1、无人机影像的获取与处理；

步骤2、单个NeRF的构建；

步骤3、合并先前构建的NeRF，得到任意视角下的三维场景；

进一步地，对于步骤1，所述无人机影像的获取与处理按照顺序可分为无人机航拍影像、划分影像集、批量导入影像、提取影像特征、匹配影像特征、几何验证、提取相机位姿；

所述划分影像集的划分标准为需覆盖一定的场景，且子集与相邻子集之间有较高的重叠度；所述子集由无人机环绕航线的轨迹划分而成，每一个圆形航线中拍摄的无人机影像为一个子集；

所述提取影响特征使用到SIFT算法(尺度不变特征变换，Scale InvariantFeature Transform)提取无人机航拍影像的影像特征，使用SIFTGPU显卡加速达到实时的计算速度；所述SIFT算法在不同的尺度空间上查找特征点，计算特征点的方向，同时生成描述子；

所述匹配影响特征使用到Brute-force算法用于特征点匹配，Brute-force算法遍历每对特征点，计算每对特征点之间的距离，根据阈值确定每对特征点是否为匹配对；对于无人机航空影像集合中的任意两幅影像，SiftGPU提取出的特征点和描述子经所述Brute-force算法寻找匹配对；

所述几何验证使用到RANSAC算法随机选取匹配对，计算出拟合矩阵，通过计算拟合误差来确定匹配对是否合理；所述几何验证能够有效提高匹配精度，避免匹配错误；

所述提取相机位姿使用到增量式SFM算法用于计算相机位姿；所述增量式SFM算法可逐步进行三维重建，有效处理大规模的图像序列；所述增量式SFM算法可分为初始化、增量重建；所述初始化包括三角化、本质矩阵分解；

进一步地，对于步骤2，所述单个NeRF的构建通过预先构建全连接神经网络(MLP)并设定多分辨率哈希编码、球谐函数编码规则；所述单个NeRF的构建使处于不同位置和朝向的相机拍摄的影像的每个像素发射射线，在射线上进行粗采样；将所述采样点的坐标编码后与外观嵌入向量一起输入全连接神经网络，进行一轮细采样；利用一轮细采样的所述采样点的概率密度函数指导第二轮细采样，将采样点的/>坐标编码后与外观嵌入向量一起输入全连接神经网络，输出每个采样点的颜色与体密度；将第二轮细采样的所述采样点的颜色通过体渲染累积积分得到每条射线对应的像素颜色，并与真实值作比较计算LOSS，不断迭代该过程，直到LOSS降低到较低的值；

进一步地，对于步骤3，所述合并先前构建的NeRF的流程为选取子NeRF、渲染目标视角图像；所述选取子NeRF规则为以给定目标视角为圆心，以预先设定的半径作圆，若子NeRF的原点投影在圆内，那么子NeRF则被选取；所述渲染目标视角图像选用IDW反距离加权算法对渲染目标视角的图像之间进行插值；

进一步地，对于步骤3，将多个所述目标视角的图像连接形成轨迹，即可达到在三维空间中漫游的效果；

采用以上方案，本发明公开的一种无人机影像的高精度大场景三维建模方法，具有以下优点：

(1)本发明的一种无人机影像的高精度大场景三维建模方法，选用无人机航拍影像作为数据源，充分利用无人机影像空间分辨率高、成像范围广和重叠率高的优点进行影像获取。

(2)本发明的一种无人机影像的高精度大场景三维建模方法，避开了采用传统倾斜摄影测量三维建模的方法，而是提出了新的通过构建神经辐射场NeRF来重建大范围的三维模型的方案，对无人机航拍影像集划分后进行特征提取匹配与几何验证，训练子NeRF，最后将子NeRF合并，完成大场景三维模型的隐式构建。

综上所述，本发明公开的一种无人机影像的高精度大场景三维建模方法，避开了采用传统倾斜摄影测量三维建模的方法，将无人机航拍影像集按圆形的环绕航迹进行划分，对划分后的影像集，通过特征提取与匹配和几何验证后，使用SFM算法恢复无人机相机的位姿，然后训练子NeRF，最后将目标视角周围的子NeRF合并，完成大场景三维模型的隐式构建；通过实验测试，达到了很好的效果，可以很好地重建光滑表面和横截面小的地物。

以下将结合具体实施方式对本发明的构思、具体技术方案及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1为本发明一种无人机影像的高精度大场景三维建模方法的流程图；

图2为无人机圆形环绕航迹示意图；

图3为场景边界示意图。

具体实施方式

以下介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，这些实施例为示例性描述，本发明的保护范围并非仅限于文中提到的实施例。

如若有未注明具体条件的实验方法，通常按照常规条件，如相关说明书或者手册进行实施。

如图1～3所示，本发明的无人机影像的高精度大场景三维建模方法，具体实施方式如下：

步骤1、本次采用的航线设计方案为环绕航线(指无人机在飞行过程中按照预先规划的路径绕着一个圆形或椭圆形的航线飞行，如图2所示)，通过自动航线规划软件输入飞行任务要求及地形数据，此时自动生成最优的航线方案；无人机的自动飞行***按照规划的航线执行飞行任务，完成影像采集工作；

收集后按照无人机环绕航线的轨迹来划分影像集，无人机上的相机会在每一个圆形航线上指向同一个兴趣点，圆形航线上相机指向的兴趣点即每个子NeRF的原点，所以将每个圆形航线拍摄的无人机影像作为一个子集；

在配备GPU的异构计算***上使用SIFT算法高效提取无人机航拍影像的影像特征，SiftGPU并行处理像素以构建高斯金字塔并检测高斯差分DoG(Difference ofGaussian)关键点，基于GPU列表生成，SiftGPU使用GPU/CPU混合方法有效地构建紧凑的关键点列表，最后并行处理关键点以获得它们的方向和描述符；Brute-force算法在进行特征点匹配时首先需要定义一个匹配阈值，即距离阈值，然后遍历所有特征点对，并计算它们之间的距离；如果距离小于阈值，则将它们加入匹配对列表中；

先通过RANSAC算法剔除错误匹配点对并计算基础矩阵，具体为随机均匀采样八对匹配点对，基于采样点对，使用归一化八点法估计基础矩阵，计算剩余匹配点对是否满足当前基础矩阵，统计满足当前基础的匹配点对数量作为当前基础矩阵分数，以设定的次数重复上述步骤，得到分数最高的基础矩阵；这八个点对满足公式p'^TFp＝0，p和p'是三维点P在每个成像平面中的投影，F为要求得的基础矩阵；

再用RANSAC算法计算单应矩阵并剔除错误匹配点对，具体为随机均匀采样四对匹配点对，基于采样点对，使用四点法估计单应矩阵，计算剩余匹配点对是否满足当前单应矩阵，统计满足当前基础的匹配点对数量作为当前单应矩阵分数，以设定的次数重复上述步骤，得到分数最高的单应矩阵；四点法公式为p'＝Hp，p和p'是三维点P在每个成像平面中的投影，H为要求得的单应矩阵；将四个点对的坐标代入上面的公式，即可构造出四个方程，将上述4个方程组合起来，构成一个线性方程组，求解线性方程组得到单应矩阵；

利用增量SFM计算相机位姿，首先计算每个特征点的轨迹长度，轨迹长度代表任意特征点出现在所有图片中的数量，然后建立场景连通图，将每张图片作为连通图的结点，如果其中任意两个结点之间的匹配特征点对的数量大于某个阈值，那么就将这两个结点连起来，作为连通图的一条边，选择一条边，选择两张交会角足够大(所有点对应点三角化时射线夹角中位数一般不大于60度不小于3度)、同名点数量足够多且分布均匀的种子图片作为该边的两个结点，鲁棒估计这条边(这两张种子图片)所对应的本质矩阵，分解本质矩阵，得到两张种子图片所属相机的位姿(即相机的外参数)，筛选出两张种子图片上的特征点的轨迹长度大于2的特征点对，进行三角化，得到初始的重建结果，从场景连通图删除这条边，至此，增量SFM的初始化完成；

完成增量式SFM的初始化后，如果场景连通图中还有边，那么从场景连通图中选取一条边，该边满足对应的两张图片上的特征点的轨迹长度大于2的特征点与已重建的3D点的子集最大化，用PnP方法估计相机位姿(相机的外参数)，筛选出新的该边对应的两张图片上的特征点的轨迹长度大于2的特征点对，进行三角化，删除场景连通图中新加进来的这条边，执行BA算法直到场景连通图中没有边后，即完成了增量SFM的场景增量重建和相机位姿恢复；

步骤2、基于NeRF的一个空间场景被表示为一个输入为五维向量的函数，用一个MLP网络隐式表达，来描述空间场景内三维模型的形状和从不同方向观察到的颜色信息；该五维向量函数的输入是一个3D位置向量x＝(x,y,z)和一个2D方向向量x＝(x,y,z)是场景内三维点的坐标，/>代表着球坐标系中观察方向的方向角(从x轴正半轴开始测量，沿着yoz平面的方向旋转)和极视角(从z轴正半轴开始测量，沿着xoy平面的方向旋转)；函数的输出是相机发出的射线沿着方向d到达三维位置x所呈现的颜色c＝(r,g,b)和体密度σ(x)；体密度σ(x)代表着射线终止于x位置的无穷小粒子的微分概率；该五维向量函数可以写作：

F_Θ(x,d)＝(c,σ)

该全连接神经网络的训练过程就是不断地调整网络模型的权重参数Θ，使其最终可以在给定5D坐标输入后，输出对应的颜色和体密度；为了保证网络输出结果的多视图一致性，体密度σ仅为空间位置x的函数σ(x)，而颜色向量c为x和d的函数c(x,d)；

多分辨率哈希编码的具体流程如下：(1)对于给定的输入坐标x，找到其在不同分辨率层级的周围体素，将它们的整数坐标通过哈希映射为体素的每个顶点指定索引；(2)在不同层级的哈希表中找到网格的每个顶点索引对应的特征向量；(3)根据输入坐标x在不同层级的网格中的相对位置，将不同层级的网格的每个顶点的特征向量通过三线性内插插值为一个特征向量；(4)将不同分辨率格网的特征向量拼接，即完成了多分辨率哈希编码；

在图形渲染上的表现就是，当光源发生旋转后，只要同步的计算出变换后的广义傅里叶系数，就能保证画面的光照效果不会抖动跳变；当球坐标中的拉普拉斯方程分离变量后，关于极视角θ的函数为连带勒让德多项式关于方向角/>的函数为/>球谐函数被定义为：

上式中，表示为一个单位向量，指向球坐标中的点/>l表示次数，m表示阶数，它们都为整数，l≥0,-l≤m≤l；A_l,m是归一化系数，使得/>在单位球面上的积分等于1；

球谐函数可以看作是将单位球面上的每一点(或者三维空间中的每个方向)映射到一个复数函数值；对于输入方向d，可以将其编码为球谐函数的基函数与球谐系数的组合，然后输入到颜色MLP网络中；

为了使NeRF能够适应不同光照变化，采用了GLO技术，即对每张图像都会赋给一个对应的实值外观嵌入向量其长度为-^(a)；然后将外观嵌入向量/>作为第二个颜色MLP网络的输入，网络模型的权重参数Θ与/>嵌入一同被优化；

利用在多层级哈希编码中设定的包围模型的大正方体，通过计算相机射线与大正方体的交点来确定near和far的值，如图3所示，至此，场景边界范围得以确定；

对于体渲染，使用离散采样求和的方式拟合连续采样的积分，即将t_-到t_f分为N个均匀区间，然后从每一个区间中随机抽取一个样本点，则第i个样本点可以表示为：

离散采样求和保证了MLP在不断的训练优化的过程中在宏观上连续的位置被估计，从而确保了场景表示的连续性；基于以上的思路，将积分转化为求和的形式为：

上式中，δ_i＝t_i+1-t_i表示相邻样本点之间的距离，σ_i与c_i是样本点i的体密度和颜色，从σ_i与c_i值的集合中计算是可微的，样本点i的透明度即1-exp(-σ_iδ_i)；

对于分层采样，NeRF使用分层采样的方案来沿着空间中的射线对点进行采样，即先进行粗采样，然后用粗采样的结果指导下一步的细采样；粗采样即均匀采样，在距离相机的预定义范围内均匀地采样N个点；将near到far的范围n等分，并在射线上均匀地放置N个采样点；将这N个采样点的位置信息经过多层级哈希编码、将点的方向信息经过球谐函数编码后和外观嵌入向量拼接后送入MLP网络，这个MLP网络被称为粗(coarse)网络，得到这N个采样点的体密度和颜色；在这条射线上，对应的像素颜色可以看做是所以采样点颜色的加权和，即

w_i＝T_i(1-exp(-σ_iδ_i))

采样权重的大小反映了采样点距离三维模型表面的远近程度，第二次采样会对第一次采样结果中权重较大的区域重点采样；即在权重值大的地方采样多一些，在权重值小的地方采样少一些；

将这些权重归一化为

上式中，N_c是粗采样的采样点数目，该可以被视为是沿着射线的物体的概率密度函数，通过这个概率密度函数，可以粗略地得到射线方向上物体的分布情况；接下来根据这个概率密度函数，采用细采样，即逆变换采样(inversetransformsampling)，得到N_f个新的采样点，这些新的采样点在粗采样权重高的位置聚集，在粗采样权重低的位置稀疏，这些新的采样点靠近物体表面；然后，将N_c+N_f个采样点的位置和方向信息经过编码后都输入到MLP网络中，这个网络被称为细(fine)网络，得到新的采样点的体密度和颜色信息，然后根据体渲染公式计算出对应像素颜色，公式如下所示：

损失函数Loss由coarse网络输出的像素颜色和由fine网络输出的像素颜色和真实像素颜色之间的总平方误差计算得到：

上式中，R是每个训练批次中的一组射线集合，和/>分别是相机射线粗采样和细采样后体渲染得到的像素颜色，/>则是图像像素颜色的真实值(GroundTruth，GT)；即使最终渲染结果来自/>也会使/>的损失最小化，以便来自coarse网络的权重分布可以用于在fine网络中分配样本；

当Loss的值达到一个较低的值后，即可视作训练结束，此时停止迭代，对于场景中任意视角，都可以放置一个虚拟相机，这个相机经过发射多条射线，在每个射线上粗采样，送coarse网络后得到每个采样点的权重，然后进行细采样，将两轮采样点送入fine网络，经过体渲染后得到每个像素的颜色，这些像素共同组成一幅图像；即可以得到场景中任意视角观察到的图像；

步骤3、在对无人机影像集合的每个子集训练NeRF模型后，就获得了每个以其圆形航线上相机指向的兴趣点为原点，以其圆形航线内构建的大正方体为边界的子NeRF，为了提高效率，只渲染给定目标视角的相关子NeRF，接着从筛选后的子NeRF中渲染颜色信息，并使用目标相机原点o和经过筛选后的子NeRF中心点x_i之间的反距离加权(InverseDistance Weighted，IDW)在它们之间进行插值，(具体为将各个权重计算为w_i∝d(o,x_i)^-p，其中p影响子NeRF渲染之间的混合速率，d(c,x_i)是目标相机原点o到经过筛选后的子NeRF中心点x_i之间的距离)，最终得到目标视角下的新视图；将多个目标视角下的视图连接形成轨迹，即可达到在三维空间中漫游的效果；

经实施例1分析可知，本发明的一种无人机影像的高精度大场景三维建模方法避开了采用传统倾斜摄影测量三维建模的方法，将无人机航拍影像集按圆形的环绕航迹进行划分，对划分后的影像集，通过特征提取与匹配和几何验证后，使用SFM算法恢复无人机相机的位姿，然后训练子NeRF，最后将目标视角周围的子NeRF合并，完成大场景三维模型的隐式构建；通过实验测试，达到了很好的效果，可以很好地重建光滑表面和横截面小的地物。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种无人机影像的高精度大场景三维建模方法，其特征在于，

所述方法包括以下步骤：

步骤1、无人机影像的获取与处理，所述无人机影像的获取与处理按照顺序可分为无人机航拍影像、划分影像集、批量导入影像、提取影像特征、匹配影像特征、几何验证、提取相机位姿；

步骤2、单个NeRF的构建；

步骤3、合并先前构建的NeRF，得到任意视角下的三维场景；

所述提取影像特征使用到SIFT算法提取无人机航拍影像的影像特征，使用SIFTGPU显卡加速达到实时的计算速度；所述SIFT算法在不同的尺度空间上查找特征点，计算特征点的方向，同时生成描述子；

所述匹配影像特征使用到Brute-force算法用于特征点匹配，Brute-force算法遍历每对特征点，计算每对特征点之间的距离，根据阈值确定每对特征点是否为匹配对；对于无人机航空影像集合中的任意两幅影像，SiftGPU提取出的特征点和描述子经所述Brute-force算法寻找匹配对；

所述单个NeRF的构建通过预先构建全连接神经网络并设定多分辨率哈希编码、球谐函数编码规则；所述单个NeRF的构建使处于不同位置和朝向的相机拍摄的影像的每个像素发射射线，在射线上进行粗采样；将采样点的坐标编码后与外观嵌入向量一起输入全连接神经网络，进行一轮细采样；利用一轮细采样的采样点的概率密度函数指导第二轮细采样，将采样点的坐标编码后与外观嵌入向量一起输入全连接神经网络，输出每个采样点的颜色与体密度；将第二轮细采样的采样点的颜色通过体渲染累积积分得到每条射线对应的像素颜色，并与真实值作比较计算LOSS，不断迭代单个NeRF的构建过程，直到LOSS降低到较低的值；

所述合并先前构建的NeRF的流程为选取子NeRF、渲染目标视角图像；所述选取子NeRF规则为以给定目标视角为圆心，以预先设定的半径作圆，若子NeRF的原点投影在圆内，那么子NeRF则被选取；所述渲染目标视角图像选用IDW反距离加权算法对渲染目标视角的图像之间进行插值。

2.如权利要求1所述一种无人机影像的高精度大场景三维建模方法，其特征在于，

对于步骤3，将多个所述目标视角的图像连接形成轨迹，即可达到在三维空间中漫游的效果。