CN110223380B

CN110223380B - 融合航拍与地面视角图像的场景建模方法、***、装置

Info

Publication number: CN110223380B
Application number: CN201910502762.4A
Authority: CN
Inventors: 申抒含; 高翔; 朱灵杰; 胡占义
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2021-04-23
Anticipated expiration: 2039-06-11
Also published as: CN110223380A

Abstract

本发明属于场景建模领域，具体涉及一种融合航拍与地面视角图像的场景建模方法、***、装置，旨在为了解决针对室内场景结构复杂、纹理缺乏，基于图像的建模结果不完整、不精确融合的问题。本发明方法包括：S100，获取待建模的室内场景的航拍视角图像，并构建航拍地图；S200，基于所述航拍地图，通过由航拍地图合成地面视角参考图像的方法，获取合成图像；S300，通过地面相机采集的地面视角图像，获取地面视角图像集合；S400，基于所述合成图像，将所述航拍视角图像与所述地面视角图像进行融合，获取室内场景模型。本发明可以生成完整、精确的室内场景模型，兼顾采集效率与重建精度，并且具有较强的鲁棒性。

Description

融合航拍与地面视角图像的场景建模方法、***、装置

技术领域

本发明属于场景建模领域，具体涉及一种融合航拍与地面视角图像的场景建模方法、***、装置。

背景技术

室内场景三维重建在许多现实应用中起到了重要作用，例如室内导航、服务机器人、建筑信息模型(BIM，building information modeling)等。现有的室内场景重建方法可大致分为三类：(1)基于激光雷达(LiDAR，light detection and ranging)的方法，(2)基于RGB-D相机的方法，(3)基于图像的方法。

尽管基于LiDAR的方法与基于RGB-D相机的方法均有着较高的精度，在重建较大的室内场景时，扫描视角限制导致场景遮挡难以避免，在进行扫上述两种方法均存在成本较高，拓展性较差等问题。对于基于LiDAR的方法，由于描时往往需要多视角的激光扫描与点云对齐。对于基于RGB-D相机的方法，由于传感器有效工作距离受限，需要采集、处理大量的数据。因此，上述方法在进行大规模室内场景重建时，均存在高成本、低效率的不足。

相对于基于LiDAR的方法与基于RGB-D相机的方法，尽管基于图像的方法成本更低，灵活性更强，这类方法也存在一些不足，如由于复杂场景、重复结构、缺乏纹理等导致的不完整、不精确的重建结果。即使目前最先进的从运动恢复结构(SfM，structure frommotion)与多视图立体技术(MVS，multiple view stereo)技术，在规模较大，结构较复杂的室内场景中的重建效果仍不能令人满意。另外，一些基于图像的方法利用一些先验假设来处理室内场景重建问题，例如曼哈顿世界假设。尽管这些方法在有些时候能够取得较好的结果，但是，在不符合先验假设的情况下这些方法往往会导致错误的重建结果。

发明内容

为了解决现有技术中的上述问题，即为了解决针对室内场景结构复杂、纹理缺乏，基于图像的建模结果不完整、不精确融合的问题，本发明第一方面，提出了一种融合航拍与地面视角图像的场景建模方法，包括以下步骤：

步骤S100，获取待建模的室内场景的航拍视角图像，并构建航拍地图；

步骤S200，基于所述航拍地图，通过由航拍地图合成地面视角参考图像的方法，获取合成图像；

步骤S300，通过地面相机采集的地面视角图像，获取地面视角图像集合；

步骤S400，基于所述合成图像，将所述航拍视角图像与所述地面视角图像进行融合，获取室内场景模型。

在一些优选实施方式中，步骤S100中“获取待建模的室内场景的航拍视角图像，并构建航拍地图”，其方法为：

对室内场景的航拍视角视频，采用基于词袋模型的自适应视频抽帧方法抽取图像帧，得到室内场景的航拍视角图像集合；

基于所述航拍视角图像集合，通过图像建模方法构建航拍地图。

在一些优选实施方式中，步骤S200中“由航拍地图合成地面视角参考图像的方法”，其方法为：

基于航拍地图，计算虚拟相机位姿；

通过图割算法，基于航拍地图获取地面视角参考图像的合成图像；

在一些优选实施方式中，“通过图割算法，基于航拍地图获取地面视角参考图像的合成图像”，其方法为：

其中，E(l)为图割过程中的能量函数；

为虚拟相机可见的三维空间网格投影得到的二维三角形集合，t_i为其中的第i个三角形；

为投影得到的二维三角形集合中三角形的公共边集合；l_i为t_i的航拍图像序号；D_i(l_i)为数据项；V_i(l_i,l_j)为平滑项；

当对应t_i的空间面片在第l_i个航拍图像中可见时，数据项

否则的话D_i(l_i)＝α，其中

为第l_i个航拍图像中局部特征的尺度中值，

为对应t_i的空间面片在第l_i个航拍图像中的投影面积，α为一个较大的常量；

当l_i＝l_j时，平滑项V_i(l_i,l_j)＝0；否则V_i(l_i,l_j)＝1。

在一些优选实施方式中，步骤S300中“通过地面相机采集的地面视角图像，获取地面视角图像集合”，其方法为：

地面机器人基于规划路径，通过其上设置的地面相机连续采集地面视角视频；

对室内场景的地面视角视频，采用基于词袋模型的自适应视频抽帧方法抽取图像帧，得到室内场景的地面视角图像集合。

在一些优选实施方式中，“地面机器人基于规划路径，通过其上设置的地面相机连续采集地面视角视频”过程中，其定位方法包括初始机器人定位、移动机器人定位；

所述初始机器人定位，其方法为：获取地面相机采集视频的第一帧，获取机器人在所述航拍地图中的初始位置，并将该位置作为机器人后续运动的起点；

所述移动机器人定位，其方法为：基于初始位置，以及机器人各时刻行驶数据进行机器人位置粗定位，通过匹配当前时刻所采集视频帧图像与所述合成图像，获取机器人当前时刻在所述航拍地图中的位置，并以该位置修订粗定位的位置信息。

在一些优选实施方式中，步骤S400“基于所述合成图像，将所述航拍视角图像与所述地面视角图像进行融合，获取室内场景模型”，其方法为：

获取地面视角图像集合中每一幅图像对应的地面相机在所述航拍地图中的位置；

将地面视角图像与合成图像匹配点连入原始的航拍与地面特征点轨迹中，生成跨视图的约束；

通过捆绑调整(BA，bundle adjustment)对航拍与地面图像位姿进行优化；

利用航拍与地面视角图像进行稠密重建，获取室内场景的稠密模型。

本发明的第二方面，提出了一种融合航拍与地面视角图像的场景建模***，该***包括航拍地图构建模块、合成图像获取模块、视角图像集合获取模块、室内场景模型获取模块；

所述航拍地图构建模块，配置为获取待建模的室内场景的航拍视角图像，并构建航拍地图；

所述合成图像获取模块，配置为基于所述航拍地图，通过由航拍地图合成地面视角参考图像的方法，获取合成图像；

所述视角图像集合获取模块，配置为通过地面相机采集的地面视角图像，获取地面视角图像集合；

所述室内场景模型获取模块，配置为基于所述合成图像，将所述航拍视角图像与所述地面视角图像进行融合，获取室内场景模型。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的融合航拍与地面视角图像的场景建模方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的融合航拍与地面视角图像的场景建模方法。

本发明的有益效果：

本发明通过构建一个三维航拍地图引导机器人在室内场景中行进并采集地面视角图像，然后对航拍与地面图像进行融合，并通过融合后的图像生成完整、精确的室内场景模型。本发明室内场景重建流程兼顾采集效率与重建精度，并且，具有较强的鲁棒性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的融合航拍与地面视角图像的场景建模方法流程框架示意图；

图2是本发明一种实施例中一个经271幅抽取的视频帧重建得到的航拍地图的示例图；

图3是本发明一种实施例中基于网格的图像合成示意图；

图4是本发明一种实施例中局部特征尺度与图像清晰度之间的关系示例图；

图5是本发明一种实施例中不同配置下基于图割的图像合成结果示例图；

图6是作为对比的另外一些图像合成结果以及类似视角下的地面图像示例图；

图7是本发明一种实施例中图像匹配结果示例图；

图8是本发明一种实施例中机器人运动过程中候选匹配合成图像查找示意图；

图9是本发明一种实施例中批量式相机定位流程示意图；

图10是本发明一种实施例中基于三种特征点轨迹的批量式相机定位结果示例图；

图11是本发明一种实施例中批量式相机定位过程示例图；

图12是本发明一种实施例中针对航拍视图的航拍与地面特征点轨迹生成示意图；

图13是本发明一种实施例的测试中用到的数据采集设备；

图14是本发明一种实施例的测试中Hall数据集中的示例航拍图像与生成的三维航拍地图示例图；

图15是本发明一种实施例的测试中Hall数据集航拍视频上的本发明抽帧方法与等间隔抽帧方法对比实验结果示例图；

图16是本发明一种实施例的测试中地面相机定位的定性对比结果示例图；

图17是本发明一种实施例的测试中室内场景重建定性结果示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

由于室内场景的复杂性，对于基于图像的方法实现场景完整重建需考虑如下两个问题。第一个是图像采集过程，即如何采集图像以完整、高效地覆盖室内场景。第二个是场景重建算法，即如何在SfM与MVS过程中融合不同视角的图像以获取完整、精确的重建结果。针对上述两问题，本发明提出了一种新颖的基于图像的室内场景采集与重建流程。该流程用到了迷你飞行器与地面机器人并包含四个主要步骤(如图1所示)：(1)航拍地图构建：采用一个迷你飞行器在室内采集航拍视角图像，然后由航拍视角图像获取表征室内场景的三角形网格，并将其用于为地面机器人定位导航的地图；(2)参考图像合成：在航拍地图中进行平面检测，获取地平面并用于地面机器人路径规划。然后，基于航拍地图合成若干地面视角图像，用于地面机器人的定位；(3)地面机器人定位：地面机器人进入室内场景进行地面视角图像的采集。在机器人边运动边采集图像的同时，通过匹配采集的图像与合成的地面视角图像，实现机器人的定位；(4)室内场景重建：当地面机器人完成图像采集后，通过在基于图像的建模流程中融合迷你飞行器图像与地面机器人图像，实现室内场景的完整与精确建模。

在本发明的建模流程中，只有航拍图像采集过程中需要人工操作，后续的地面图像采集以及室内场景建模过程均为全自动实现，这意味着本发明的流程拓展性强，适用于大规模室内场景的采集与重建。航拍图像的采集也可以通过自主导航按照获取的导航路径自动采集航拍图像，但其增加了算法的复杂性，因此优先选择人工操作，以保证获取图像的灵活性和完整性，以及可拓展性。

相比于地面机器人采集的地面图像，迷你飞行器采集的航拍图像拥有更好的视角和更大的视场，这意味着相对于地面图像，航拍图像中的遮挡与误匹配问题会更小。因此，通过航拍图像生成的地图能够更为可靠地用于后续的地面机器人定位过程中。

迷你飞行器拍摄的航拍图像与地面机器人拍摄的地面图像相互补充并且能够完整覆盖室内场景。因此，通过融合航拍与地面图像，可以获取更为完整、精确的室内场景模型。

本发明的一种融合航拍与地面视角图像的场景建模方法，包括以下步骤：

为了更清晰地对本发明融合航拍与地面视角图像的场景建模方法进行说明，下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。

本发明一种实施例的本发明的融合航拍与地面视角图像的场景建模方法，包括步骤S100—S400。

步骤S100，获取待建模的室内场景的航拍视角图像，并构建航拍地图。

首先采用迷你飞行器采集室内场景的航拍视频，并从视频中抽取一些图像。然后通过基于图像建模的流程对抽取的图像进行重建得到航拍模型，并用将其作地面机器人定位的三维地图。

步骤S101，对室内场景的航拍视角视频，采用基于词袋模型的自适应视频抽帧方法抽取图像帧，得到室内场景的航拍视角图像集合。

本实施例中通过迷你飞行器在室内场景中采集自顶向下的航拍视角视频，采集的视频分辨率为1080p，帧率为25FPS。由于迷你无人机尺寸小，灵活度高，十分适用于室内场景拍摄。举例说明，本实施例中采用的迷你飞行器为安装了稳定器与4K相机的DJI Spark，其重量仅为300g。另外，相对于地面视角，从航拍视角对室内场景进行拍摄不易受到场景遮挡的影响，因此采用迷你飞行器可以更加高效、完整覆盖场景。

给出采集的航拍视频，可以通过同时定位与构图(SLAM，simultaneouslocalization and mapping)***构建航拍地图。然而，在本实施例中，采用离线的SfM技术进行航拍地图构建。这是因为：(1)在实施例中航拍地图用于地面机器人定位，因此没必要进行在线构建；(2)与容易产生场景漂移现象的SLAM相比，SfM更加适用于大规模场景建模。可是，如果采用SfM进行航拍地图构建时，显然不需要用到航拍视频中的所有帧。因为航拍视频帧中含有大量的冗余信息，这会严重降低SfM地图构建的效率。为解决上述问题，一个直接的办法就是在视频中每间隔固定的帧数抽取一帧，然后用抽取的视频帧进行地图构建。然而，这种做法仍存在一些缺点：(1)很难通过人工操作迷你飞行器在室内场景中实现稳定、恒速的视频采集，而这个问题在航线拐角处会变得更加困难；(2)由于室内场景中的纹理丰富程度是不一致的，因此对场景进行均匀覆盖也是不恰当的。为解决上述在航拍地图构建过程中存在的问题，本实施例中采用了一种基于词袋(BoW，bag of words)模型的自适应视频抽帧方法，其过程详述如下：

在BoW模型中，一幅图像可以表示为一个归一化向量v_i，而一对图像相似度可通过对应向量的点乘

表示。正如本领域技术人员所知，相邻图像之间过高的相似度会引入过多冗余信息，进而降低构图效率；而相邻图像之间过低的相似度则会导致图像之间连接性较差，构图不完整。因此，在本实施例中提出了一个从全体视频帧中自适应抽取子集的方法，在抽帧时该方法限定每个抽取的视频帧与其相邻的抽取的视频帧之间的相似度在一个合适的范围内。具体来说，先通过libvot库生成每一帧的归一化向量v_i，并将第一帧作为起始点。在抽帧过程中，假设当前第i帧已被抽取，获取该帧与其后续帧之间的相似度的得分：{s_i,j|j＝i+1,i+2,…}，其中

然后，将

与预设的相似度阈值t进行比较，本实施例中t＝0.1；假设

为{s_i,j}中的第一个满足如下不等式：s_i,j＜t，则第j^*-1帧(即第一个满足上述不等式的上一帧)为下一个抽取的视频帧。上述过程迭代进行，直至验证完所有视频帧。

步骤S102，基于所述航拍视角图像集合，通过图像建模方法构建航拍地图。

基于步骤S101得到的航拍视角图像集合，通过一套标准的基于图像建模流程构建航拍地图，该流程包括：(1)SfM，(2)MVS，(3)表面重建。另外，由于室内接收不到GPS信号，可以通过地面控制点(GCP，ground control point)将航拍地图缩放至其真实物理尺寸。图2为一个经271幅抽取的视频帧重建得到的航拍地图示例，图中前三列为示例航拍图像及其对应的三维航拍地图区域，第四列为整个三维航拍地图，第五列为在航拍地图上的机器人路径规划与虚拟相机位姿计算结果，其中地平面标为浅灰色，规划路径标为图中线段，虚拟相机位姿由棱锥表示。

步骤S200，基于所述航拍地图，通过由航拍地图合成地面视角参考图像的方法，获取合成图像。

本实施例的步骤S100中构建的航拍地图在后续过程中起到了两个作用：第一个是为地面机器人规划路径并在机器人移动过程中进行定位；第二个是在室内场景重建过程中有助于航拍与地面图像的融合。上述两个过程均需要建立地面图像与航拍地图之间的二维到三维的点的对应关系。为获取上述对应点，一个可能有效的解决方案是直接匹配航拍与地面图像。然而，由于这两种图像在视角上差异巨大，直接对其进行匹配是十分困难的。在此，本实施例通过由航拍地图合成地面视角参考图像的方式解决上述问题。参考图像经如下两步进行合成：虚拟相机位姿计算以及基于图割的图像合成。

步骤S201，基于航拍地图，计算虚拟相机位姿。

用于参考图像合成的虚拟相机位姿基于室内场景的地平面进行计算，本实施例中航拍地图的地平面通过基于随机抽样一致性(RANSAC，random sample consensus)的平面检测方法进行检测(见图2)。虚拟相机位姿分两步进行计算，先计算位置后计算朝向。

步骤S2011，虚拟相机位置计算。

求取地平面的二维包围盒并将其划分成方形栅格，栅格的大小决定了虚拟相机的数量。为在定位精度与效率上达到平衡，本实施例中将栅格边长设为1m。对于每个栅格，当其中的地平面面积占栅格总面积的比例大于50％时，认为该栅格为放置虚拟相机的有效栅格。虚拟相机位置设为有效栅格的中心并有着高度为h的高程偏移量(见图2)。h的值由地面相机的高度决定，在本实施例中其值设为1m。

步骤S2012，虚拟相机朝向设计。

在得到虚拟相机位置以后，为实现对场景的全方向观测，需要在每个虚拟相机位置放置多个光心相同、朝向不同的虚拟相机。本实施例中，由于安装在地面机器人上的相机的光轴近似平行于地平面，在此只生成水平朝向的虚拟相机。另外，为消除地面与合成图像之间的透视投影失真，需要将虚拟相机的视场(内参数)设为与地面相机接近。在本实施例中，每个虚拟相机位置上放置6个虚拟相机，虚拟相机之间的偏航角夹角为60°。

另外，用于地面机器人运动的路径也要通过检查的地平面进行规划。由于本实施例并非聚焦于规划地面机器人的最优路径，在此将检测的地平面的骨架用作机器人路径，该骨架通过中轴变换法进行提取(见图2)。

步骤S202，通过图割算法，基于航拍地图获取地面视角参考图像的合成图像。

本实施例借助于空间连续的网格进行图像合成，如图3所示，图中f为一个三维空间面片，其在航拍相机C_a与虚拟的地面相机C_v相机上的二维投影三角形分别记作t_a与t_v，图像合成的原理是将t_a经过f变至t_v。具体来说，先获取每个航拍与虚拟相机的可见网格。然后，对于每个虚拟相机，将其可见网格投影至该相机上形成二维三角形集合。在进行虚拟图像合成时，对于虚拟图像中的一个特定的二维三角形来说，需要基于如下三个因素确定采用哪一幅航拍图像进行变换以填充此区域：(1)可见性，对于此二维三角形对应的三维空间面片，选取的航拍图像应有较好的视角与较近的视距；(2)清晰度，由于从室内航拍视频抽帧得到的图像中有一部分清晰度较差，需要在其中选取足够清晰的航拍图像；(3)一致性，虚拟图像中相邻的三角形应尽可能由同一幅航拍图像进行合成以保持合成图像的一致性。本实施例中，可见性因素通过空间面片在航拍图像上的投影面积衡量(越大越好)，而清晰度因素通过航拍图像局部特征尺度的中值衡量(越小越好)，具体见图4，左边两列为两幅局部特征尺度中值最大的图像，右边两列为两幅局部特征尺度中值最小的图像，第二行为第一行矩形区域的放大图像。基于上述描述，本实施例中的图像合成问题可归结为多标签优化问题，定义如公式(1)所示：

其中，E(l)为图割过程中的能量函数；

为投影得到的二维三角形集合中三角形的公共边集合；l_i为t_i的标签，即航拍图像序号。当对应t_i的空间面片在第l_i个航拍图像中可见时，数据项

其中

为第l_i个航拍图像中局部特征的尺度中值而

为对应t_i的空间面片在第l_i个航拍图像中的投影面积；否则的话D_i(l_i)＝α，其中α为一个较大的常量(本实施例中α＝10⁴)以惩罚这种情况。当l_i＝l_j时，平滑项V_i(l_i,l_j)＝0；否则V_i(l_i,l_j)＝1。定义于式(1)的优化问题可通过图割算法进行高效求解。

为阐明清晰度因素与一致性因素的影响，本实施例中在四种不同配置下在其中一个虚拟相机上进行了图像合成，结果如图5所示，从左到右分别为：既不考虑清晰度因素，又不考虑一致性因素；只考虑一致性因素；只考虑清晰度因素；既考虑清晰度因素，又考虑一致性因素的图像合成结果。每幅图右上角的大矩形为图中小矩形的方大图。由5图可知，清晰度因素使得合成图像更为清楚而一致性因素使得合成图像中孔洞及锐边更少。另外，图6给出了另外的一些图像合成结果以及类似视角下的地面图像。尽管仍有些难以避免的合成错误情况，合成图像与其对应的地面图像在公共可见区域有着较大的相似性，这验证了本实施例中图像合成方法的有效性。本步骤中的合成图像将用作地面机器人定位的参考数据库。

步骤S300，通过地面相机采集的地面视角图像，获取地面视角图像集合。

将地面机器人放置于室内场景中时，机器人将沿着规划路径运动并自动采集地面视角视频。如果机器人仅通过其内置传感器，例如轮子编码器与惯性测量单元(IMU，inertial measurement unit)进行定位的话，它将不会严格按照规划的路径运动。这是因为机器人内置传感器存在累积误差的问题，这种问题对于安装在消费级机器人上的低成本传感器来说尤为明显。因此，机器人的位姿需要通过视觉定位的方式进行修正，而在本步骤中通过匹配合成与地面图像实现视觉定位。

步骤S301，地面机器人基于规划路径，通过其上设置的地面相机连续采集地面视角视频。

本步骤中，定位方法包括初始机器人定位、移动机器人定位。

(1)初始机器人定位

初始机器人定位，其方法为：获取地面相机采集视频的第一帧，获取机器人在所述航拍地图中的初始位置，并将该位置作为机器人后续运动的起点。

通过对地面相机采集视频的第一帧进行定位，可以获取机器人在航拍地图中的初始位置，并将该位置作为机器人后续运动的起点。上述初始定位可通过匹配第一帧图像与所有合成图像或者通过语义树检索得到的k个最相似的合成图像实现。本步骤中使用的是基于图像检索的方法，且k＝30。需要注意的是，尽管合成了地面视角图像，地面图像与合成图像在光照、视角等方面仍有较大区别，常用的尺度不变特征变换(SIFT，scale-invariantfeature transform)特征不足以应对。本步骤中采用的为ASIFT(affine-SIFT)特征。

为验证本步骤图像合成方法的有效性并对SIFT特征与ASIFT特征的性能进行比较，本实施例分别采用SIFT特征与ASIFT特征进行了合成与地面图像匹配以及航拍与地面图像匹配。其中，地面图像也是通过步骤S100中基于词袋模型的自适应视频抽帧方法从地面机器人采集的视频中抽取获得。在进行图像匹配时，通过检索不同数量的与当前地面图像最近似的合成图像与航拍图像，发现当经过基本矩阵验证后的匹配点数仍大于16时，可以认为这对图像是匹配的。图像匹配结果如图7所示(图中x轴为检索图像数量，y轴为匹配图像对数量的对数)。由图7可知，采用ASIFT进行合成与地面图像匹配得到的匹配对数分别大约是采用ASIFT进行航拍与地面图像匹配，采用SIFT进行合成与地面图像匹配以及采用SIFT进行航拍与地面图像匹配的6倍，8倍与19倍。

给出第一帧地面图像与检索的合成图像之间的二维匹配点，可以通过光线投射的方式在航拍地图上获取对应的三维空间点。这样一来可以采用基于透视n点(PnP，perspective-n-point)的方法实现第一帧地面图像的定位。具体来说，给定二维到三维对应点与地面相机内参数，相机位姿通过RANSAC采用不同的PnP算法进行求解。采用的PnP算法包括P3P，AP3P与EPnP。当上述算法对应的内点数有至少一种超过16个时，可以认为此次位姿估计为一次成功的估计，并将该相机的位姿定为PnP结果中内点数量最多的那一个。在本实施例的RANSAC过程中，一共进行了500次随机抽样，且将距离阈值设为4px。

(2)移动机器人定位

地面机器人在室内场景中运动并采集视频时，可以通过轮子里程计对其粗略定位。在本步骤中，通过匹配地面与合成图像将地面机器人全局式地定位至航拍地图上以修正机器人粗略定位结果。只对抽取的地面视频帧，而非全部视频帧进行位姿修正。这是因为：(1)地面机器人在室内运动相对缓慢，在较短时间内不会严重偏离规划路径；(2)每次进行全局视觉定位需要耗时大约0.5s，且时间主要耗在ASIFT特征提取上。需要注意的是，对于某些抽取的视频帧，由于用于PnP的内点数量不足，视觉定位并不能一直成功。

假设上一次成功定位的地面图像的位置与朝向分别记为c_A与n_A，而当前待定位的地面图像通过轮子里程计得到的粗略位置与朝向分别记为c_B与n_B。在此，基于粗略定位结果，而非基于图像检索的方法查找当前地面图像的候选匹配合成图像。该方法的示意图如图8所示，图中c_A与n_A为上一次成功定位的地面图像的位置与朝向，c_B与n_B为当前的地面图像的粗略位置与朝向，图中的圆表示查找范围，该圆圆心为c_B，半径为r_B，图中三角形表示虚拟相机位姿，浅灰色的三角形表示选中的合成图像而深灰色的三角形表示未选中的合成图像。当合成图像满足如下两个条件时，将对其与当前地面图像进行匹配：(1)合成图像位于圆心为c_B，半径为r_B的圆中，其中r_B＝max(‖c_B-c_A‖,β)且β＝2m；(2)合成图像朝向与n_B的夹角小于90°。在此用到一个可变半径r_B的原因是随着机器人的运动，通过机器人内置传感器获取的相对位姿的漂移会越来越严重。在对当前地面图像与得到的候选匹配合成图像进行匹配之后，当前地面图像采用类似初始机器人定位中的方法，通过基于PnP的RANSAC的方法实现定位。如果定位结果在位置和朝向上与粗略定位结果偏差足够小(本实施例中位置偏差小于5m，朝向偏差小于30°)，则当前地面图像定位成功。确认为机器人的位姿已通过当前定位成功的地面图像全局修正，并将轮子里程计中的位姿重置为当前基于视觉的定位结果。本步骤中未定位成功的地面图像将在后续室内场景重建过程中重新定位。

步骤S302，对室内场景的地面视角视频，采用基于词袋模型的自适应视频抽帧方法抽取图像帧，得到室内场景的地面视角图像集合。

本步骤通过步骤S100中基于词袋模型的自适应视频抽帧方法，对所获取的室内场景的地面视角视频进行图像帧的抽取，得到室内场景的地面视角图像集合，由于方法一致，此处不再赘述。

在机器人定位与视频采集后，并非所有从地面视频抽取的帧均已成功定位至航拍地图。然而，为获取完整的室内场景重建结果，需要定位并融合所有由(航拍与地面)视频中抽取得到的图像。在此，首先提出了一种批量式定位之前未成功定位的地面图像的流程。然后，将地面与合成图像匹配内点连入原始特征点轨迹中，并通过捆绑调整(BA，bundleadjustment)实现航拍与地面点云的融合。最后，通过融合航拍与地面图像以获取完整、稠密的室内场景重建结果。

步骤S401，获取地面视角图像集合中每一幅图像对应的地面相机在所述航拍地图中的位置。

为定位步骤S301中未成功定位的地面图像，本发明提出了一种批量式相机定位流程。在每个相机定位循环中，尽量定位更多的相机。此处用于相机定位的二维到三维对应点中的三维空间点并不仅包括在SfM过程中重建得到的空间点，还包括通过光线投射与航拍地图(三维网格)相交得到的空间点。每个批量式相机定位循环中包括三个步骤：(1)相机定位、(2)场景扩展与捆绑调整(BA，bundle adjustment)、(3)相机过滤，其流程图如图9所示。在进行批量式相机定位之前，先对从地面视频中抽帧得到的图像进行匹配并将匹配点连接成特征点轨迹。对于至少有两幅已成功定位的可见图像的特征点轨迹，通过三角测量的方式求取其空间坐标。

步骤S4011，相机定位。

有两种方式获取二维三维对应点以定位当前未定位成功的地面图像：(1)航拍地图，对于当前未成功定位的地面图像中的二维特征点，可以获取其在成功定位的图像中的匹配点。然后从成功定位的相机光心向这些匹配点投射射线，投射的射线与航拍地图的交点即为当前未成功定位的地面图像中的二维特征点对应的三维空间点。(2)地面特征点轨迹，给出当前通过三角测量得到的地面特征点轨迹，可以通过先前地面图像之间的匹配结果获取当前未成功定位的地面图像中对应的二维特征点。当前未定位成功的地面相机可利用上述两种二维三维对应点通过基于PnP的RANSAC的方法实现定位，而定位结果采用两结果中内点数多的那一个。将此处通过两种二维三维对应点实现相机定位的方法与只用其中任意一种的方法进行了比较，结果如图10所示，图中示出了(1)基于航拍地图与地面特征点轨迹、(2)仅基于航拍地图、(3)仅基于地面特征点轨迹的批量式相机定位结果，图中x轴为批量式相机定位循环次数，y轴为成功定位的相机数量；当x＝0时对应的y值为在步骤S300中成功定位的相机数量。由图10可知，经过若干迭代循环，三种方法均可定位同样数量的相机。然而，本实施例中通过两种二维三维对应点实现相机定位的方法所需的迭代循环次数最少(仅需5次，而其他两种方法分别需要6次与8次)。

步骤S4012，场景扩展与BA。

在相机定位之后，根据新定位的相机对地面特征点轨迹进行三角测量以实现场景扩展。为提高相机位姿与场景点的精度，在三角测量后对已定位的地面相机地位姿与三角测量得到的地面特征点轨迹的空间位置通过BA进行优化。

步骤S4013，相机过滤。

考虑到方法的鲁棒性，在BA后对定位成功的相机加入了一步相机过滤的操作。若在本次迭代循环中新定位成功的相机，经BA优化后的位置或朝向与其粗略定位结果(轮子里程计获取的定位结果)偏差较大(位置偏差大于5m或朝向偏差大于30°)的话，判定此定位结果不可靠并将其滤除。该步骤中需要注意的是，在当前迭代循环中滤除的相机在后续迭代循环中仍可成功定位。

上述三个步骤迭代进行，直至所有相机均成功定位或者不再有相机可以成功定位。批量式相机定位的过程如图11所示，图中棱锥表示定位成功的相机位姿。第0次迭代表示在步骤S300中的相机定位结果。

步骤S402，将地面视角图像与合成图像匹配点连入原始的航拍与地面特征点轨迹中，生成跨视图的约束。

为通过BA融合航拍与地面点云，需要引入航拍与地面图像之间的约束。在此，上述跨视图约束可通过由步骤S300中通过匹配地面与合成图像获取的图像匹配点生成的航拍与地面特征点轨迹提供。匹配的地面图像特征点可通过查询其序号较为便捷地连入原始地面特征点轨迹中。但是，尽管合成图像由航拍图像生成，想要将匹配的合成图像特征点连入原始航拍特征点轨迹中却没那么容易。这是因为用于与地面图像匹配的合成图像特征点是在合成图像上重新提取得到的。在本步骤中，通过光线投射与点投影的方式将地面与合成图像匹配点拓展至航拍视图，该过程的示意图如图12所示，图中C_i(i＝1,2,3)为航拍相机，X_j(j＝1,2,3)为对应于匹配的合成图像特征点的空间点，t_ij为点X_j在相机C_i上的投影，t_1j-t_2j-t_2j(j＝1,2)为第j个跨航拍视图的特征点轨迹。具体来说，先通过光线投射的方式在航拍地图上获取匹配的合成图像特征点对应的空间点，然后将获取的空间点投影至其可见航拍图像上以生产航拍与地面特征点轨迹。

步骤S403，通过BA对航拍地图与地面视角图像点云进行优化。

本步骤中，采用Ceres库，通过最小化反投影误差的方式对连接生成的航拍与地面特征点轨迹，原始的(航拍与地面)特征点轨迹，所有(航拍与地面)相机的内外参数进行全局优化。

步骤S404，利用通过步骤S403优化得到的航拍与地面相机位姿，融合航拍与地面图像进行稠密重建，获取室内场景的稠密模型。

由于在优化过程中引入了跨航拍与地面视图的约束，且稠密重建过程中融合了航拍与地面图像，重建得到的模型比仅用单一来源的图像重建得到的模型更加完整、精确。

为了对本发明实施例的融合航拍与地面视角图像的场景建模方法进行验证，下面基于如图13所示的采集航拍与地面元数据的实验设备，以及采集到的两组室内场景数据集，在这两组数据集上对本实施例方法进行了测试。

1、数据集

由于目前几乎没有针对室内场景的航拍与地面图像公开数据集，在此本测试中自行采集了两组用于方法测评的室内场景数据集。具体来说，采用DJI Spark迷你飞行器进行航拍视角场景采集，采用安装在TurtleBot上的GoPro HERO4进行地面视角场景采集，元数据采集设备如图13所示，从左到右分别为地面上的TurtleBot、空中的DJISpark、桌面上的DJI Spark。采集的航拍与地面元数据的形式均为分辨率为1080p，帧率为25FPS的视频。采集的两个室内场景数据集，分别叫做Room与Hall。一些关于Room与Hall数据集的信息如表1所示。Room与Hall数据集中的示例航拍图像与生成的三维航拍地图分别如图2与图14所示。由图2与图14可知，Hall数据集的航拍地图相对于Room数据集的航拍地图质量更差且规模更大。然而，由后续的方法测评内容可知，本发明方法在上述两个数据集上均可取得预期的结果，这说明本发明方法有着较好的鲁棒性与可拓展性。

表1

数据集	Room	Hall
			航拍视频长度/s	218	494
地面视频长度/s	61	113
			覆盖面积/m<sup>2</sup>	30	130

另外，在Room与Hall数据集上的虚拟相机位姿计算与机器人路径规划结果分别展示于图2与图14的最右侧。如图所示，通过本发明方法，用于虚拟相机位姿计算与机器人路径规划的地平面可以成功检测，且生成的虚拟相机与机器人路径较为均匀地覆盖了室内场景。通过本发明的虚拟相机位姿计算方法在Room与Hall数据集上分别生成了60与384个虚拟相机。图14中前三列为示例航拍图像及其对应的三维航拍地图区域。第四列为整个三维航拍地图。第五列为在航拍地图上的机器人路径规划与虚拟相机位姿计算结果，其中地平面标为浅灰色，规划路径标为线段，虚拟相机位姿由棱锥表示。

2、自适应抽帧结果

通过本发明中的自适应抽帧方法，分别从Room数据集的航拍与地面视频中抽取了271与112帧图像，从Hall数据集的航拍与地面视频中抽取了721与250帧图像。为验证本发明中抽帧方法的有效性，在Hall数据集的航拍视频上对本发明方法与等间隔抽帧方法进行了对比实验。采用本发明的自适应抽帧方法在长度为494s，帧率为25FPS的视频上抽取得到了721帧图像，对于等间隔抽帧方法，每隔17帧抽取1帧图像(494×25/721≈17)，共计抽取730帧图像。然后，将两种不同抽帧方法得到的视频帧通过开源SfM***COLMAP进行相机标定，结果如图15所示，左图：自适应抽取的视频帧的COLMAP结果，其中

的视频帧成功标定；中图和右图：等间隔抽取的视频帧的COLMAP结果，其中

的视频帧成功标定，但断开为两部分。中图与右图分别对应着左图中的两个矩形区域。左图与右图中的圆圈定部分展示了在同一拐角处的对比结果。由图15可知，由于相比等间隔的方法，本发明方法抽取的视频帧连接性更好，因此通过对其进行重建，可获得一致的航拍地图。另外，图15中的黑圆表明，为获取更加完整的航拍地图，需要在拐角处对视频进行更加密集的抽帧操作。

3、地面相机定位结果

为验证本发明的批量式相机定位以及航拍与地面图像融合方法，在此对批量式相机定位与航拍与地面图像融合后的相机定位结果以及COLMAP结果进行了定性与定量比较。需要注意的是，对于COLMAP来说，地面相机位姿并未进行初始化，仅通过图像本身进行标定，即在步骤S300中借助航拍地图的相机定位结果并未提供给COLMAP用作先验。

定性对比结果如图16所示，第一行：Room数据集结果；第二行：Hall数据集结果；从左到右：航拍与地面图像融合后的结果、地面相机批量式定位后的结果、COLMAP标定结果；图中矩形标示出了错误的相机位姿。由图16可知，对于Room数据集，通过三种对比方法获取的相机位姿较为类似，这是由于Room数据集的场景结构较为简单。而对于Hall数据集来说，通过COLMAP计算得到的相机轨迹在场景的左边部分有着明显的错误。这是由于重复纹理与弱纹理导致地面图像之间的匹配结果包含较多的匹配外点，这样的话会导致增量式SfM***产生较为明显的场景漂移现象。相比之下，对于批量式相机定位来说，由于部分地面图像已初步定位至航拍地图，其定位结果仅存在一些较为轻微的场景漂移情况。并且，上述错误的相机姿态均在后续的航拍与地面图像融合阶段修正过来。这是由于，在图像融合时的全局优化中引入了连接生成的航拍与地面特征点轨迹。上述结果表明，通过融合航拍与地面图像对地面相机进行定位相比于仅用地面图像来说更为鲁棒。

4、室内场景重建结果

最后，对本发明中的室内场景重建算法进行了定性与定量测评。本次测试比较了本发明中的室内重建结果与仅采用航拍或地面图像进行重建的结果，定性比较结果如图17所示，第一列：Room数据集结果；第二列：第一列中矩形区域的放大图；第三列：Hall数据集结果；第四列：第三列中矩形区域的放大图。从上到下：仅用地面图像，仅用航拍图像，利用融合的航拍与地面图像的结果。需要注意的是：(1)对于本发明中的室内重建算法，采用的相机位姿为融合航拍与地面图像之后的相机位姿；(2)对于仅采用地面图像的方法，采用的相机位姿为经过批量式相机定位之后的相机位姿；(3)对于仅采用航拍相机的方法，采用的相机位姿为经过SfM估计得到的相机位姿。由图17可知，尽管由于遮挡与弱纹理情况的存在，重建结果中仍不可避免地缺失了部分区域，相对于仅采用单独一种图像进行重建，通过融合航拍与地面图像的室内重建结果更为完整。

本发明第二实施例的一种融合航拍与地面视角图像的场景建模***，该***包括航拍地图构建模块、合成图像获取模块、视角图像集合获取模块、室内场景模型获取模块；

所述室内场景模型获取模块，配置为基于所述合成图像，将所述航拍视角图像与所述地面视角图像进行融合，获取室内场景模型。，包括

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的融合航拍与地面视角图像的场景建模***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的融合航拍与地面视角图像的场景建模方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的融合航拍与地面视角图像的场景建模方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。