CN118247447A

CN118247447A - 指示牌与实景融合重建方法、装置、电子设备及存储介质

Info

Publication number: CN118247447A
Application number: CN202211612636.2A
Authority: CN
Inventors: 伍广明; 罗博卡; 魏杰
Original assignee: Fengtu Technology Shenzhen Co Ltd
Current assignee: Fengtu Technology Shenzhen Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2024-06-25

Abstract

本申请提供一种指示牌与实景融合重建方法、装置、电子设备及存储介质，涉及三维重建技术领域，解决了无人机生产的实景三维模型中涉及到指示牌的细节部分无法有效重建的问题，方法包括获取三维实景视频、三维实景沿途的第一地理位置信息、指示牌视频和目标指示牌的第二地理位置信息，构建三维实景模型，指示牌单体模型；根据第一地理位置信息和第二地理位置信息，将指示牌单体模型融合至三维实景模型中，得到融合有指示牌单体模型的三维实景模型。本申请不仅能够完成大规模的三维实景模型的重建，且能够实现该大规模三维实景模型中目标指示牌的有效重建，重建成本低。

Description

指示牌与实景融合重建方法、装置、电子设备及存储介质

技术领域

本申请涉及三维重建技术领域，具体涉及一种指示牌与实景融合重建方法、装置、电子设备及存储介质。

背景技术

实景三维关系着智慧交通、智能房管、管线规划、环保监测等诸多民生领域，对提高人民生活水平大有助益。推进大规模实景三维重建，不仅需要小区、街道乃至市区等俯视的视野的大场景重建，还需要对道路以及道路两侧的道路指示牌进行精细化三维重建。

目前的技术通常是采用无人机拍摄的方式获取大场景的实景图像，再根据无人机拍摄的实景图像直接进行大场景三维重建，虽然无人机拍摄的实景图像能够完成大场景三维实景模型重建，但由于受限于当前无人机倾斜的分辨率和有限视角，无人机生产的实景三维模型中涉及到指示牌的细节部分无法有效重建。

发明内容

本申请提供一种能够完成大规模三维实景模型的重建，且能够有效重建该大规模三维实景模型中指示牌的地理位置、高度和朝向的指示牌与实景融合重建方法、装置、电子设备及存储介质。

一方面，本申请提供一种指示牌与实景融合重建方法，包括：

获取三维实景的三维实景视频和所述三维实景沿途的第一地理位置信息，所述三维实景视频通过具有定位功能的无人机拍摄设备拍摄得到，所述三维实景中的地标包括目标指示牌；

获取所述目标指示牌的指示牌视频和所述目标指示牌的第二地理位置信息，所述指示牌视频通过具有定位功能的车载视频采集设备拍摄得到；

根据所述第一地理位置信息和所述三维实景视频，构建所述三维实景的三维实景模型；

根据所述指示牌视频，构建所述目标指示牌的指示牌单体模型；

根据所述第一地理位置信息和所述第二地理位置信息，将所述指示牌单体模型融合至所述三维实景模型中，得到融合有所述指示牌单体模型的所述三维实景模型。

在本申请一种可能的实现方式中，所述根据所述第一地理位置信息和所述第二地理位置信息，将所述指示牌单体模型融合至所述三维实景模型中，得到融合有所述指示牌单体模型的所述三维实景模型，包括：

将所述第二地理位置信息与所述第一地理位置信息进行匹配，确定所述目标指示牌在所述三维实景模型中的目标地标点；

将所述指示牌单体模型融合至所述三维实景模型中的所述目标地标点，得到融合有所述指示牌单体模型的所述三维实景模型。

在本申请一种可能的实现方式中，所述根据所述第一地理位置信息和所述三维实景视频，构建所述三维实景的三维实景模型，包括：

根据所述第一地理位置信息和所述三维实景视频，通过预先训练的三维实景模型生成器进行空中三角测量计算，生成所述三维实景的三维实景点云信息；

根据所述三维实景点云信息，构建所述三维实景模型。

在本申请一种可能的实现方式中，所述根据所述指示牌视频，构建所述目标指示牌的指示牌单体模型，包括：

识别所述指示牌视频中所述目标指示牌上的牌面字符，得到字符识别结果；

根据所述指示牌视频，对所述目标指示牌进行三维点云重建，得到所述目标指示牌的三维指示牌点云信息车载视频采集设备；

根据据所述字符识别结果、所述三维指示牌点云信息以及预先构建的三维指示牌模板，构建所述指示牌单体模型。

在本申请一种可能的实现方式中，所述指示牌视频包括由多帧二维指示牌图像构成的图像序列，所述识别所述指示牌视频中所述目标指示牌上的牌面字符，得到字符识别结果，包括：

从所述二维指示牌图像中检测所述目标指示牌，生成指示牌检测框；

截取所述指示牌检测框对应区域的目标指示牌图像；

识别所述目标指示牌图像中的牌面字符，得到所述字符识别结果。

在本申请一种可能的实现方式中，所述根据所述三维指示牌点云信息以及预先构建的三维指示牌模板，构建具有所述第一地理位置信息的指示牌单体模型，包括：

根据所述三维指示牌点云信息所构成的框架，确定目标指示牌的三维指示牌立体框架；

确定所述三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向和指示牌高度，所述xyz三维空间坐标系为由x轴、y轴和z轴构成的三维坐标系；

根据所述三维指示牌立体框架的所述指示牌朝向和所述指示牌高度，对所述三维指示牌模板进行缩放和旋转，并融合至所述三维指示牌立体框架中，得到所述指示牌单体模型。

在本申请一种可能的实现方式中，所述确定所述三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向和指示牌高度，包括：

确定所述三维指示牌立体框架在xy二维水平面中的指示牌最长边；

根据所述指示牌最长边在所述xyz三维空间坐标系中的方位角，确定所述三维指示牌立体框架在所述xyz三维空间坐标系中的所述指示牌朝向；

其中，所述xy二维水平面为所述xyz三维空间坐标系于x轴和y轴构成的二维平面。

根据所述三维指示牌立体框架沿z轴方向的最大z轴值和最小z轴值的差值，确定所述三维指示牌立体框架的所述指示牌高度；

其中，所述z轴方向为所述xyz三维空间坐标系中z轴延伸的方向。

另一方面，本申请提供一种指示牌与实景融合重建装置，所述装置包括：

第一视频获取模块，用于获取三维实景视频和所述三维实景沿途的第一地理位置信息，所述三维实景视频为通过具有定位功能的无人机拍摄设备拍摄三维实景得到的视频，所述三维实景中的所述地标包含目标指示牌；

第二视频获取模块，用于获取指示牌视频和所述目标指示牌的第二地理位置信息，所述指示牌视频为通过具有定位功能的车载视频采集设备拍摄目标指示牌得到的视频，；

第一模型构建模块，用于根据所述第一地理位置信息和所述三维实景视频，构建所述三维实景的三维实景模型；

第二模型构建模块，用于根据所述指示牌视频，构建所述目标指示牌的指示牌单体模型；

模型融合模块，用于根据所述第一地理位置信息和所述第二地理位置信息，将所述指示牌单体模型融合至所述三维实景模型中，得到融合有所述指示牌单体模型的所述三维实景模型。

另一方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的指示牌与实景融合重建方法中的步骤。

本申请通过具有定位功能的无人机拍摄设备拍摄三维实景，得到三维实景视频和三维实景沿途的第一地理位置信息，并根据三维实景视频，完成三维实景模型的构建，本申请另外通过具有定位功能的车载视频采集设备拍摄目标指示牌，得到指示牌视频和目标指示牌的第二地理位置信息，再根据指示牌视频构建指示牌单体模型，通过该方式能够构建得到具有地理位置和指示牌细节的指示牌单体模型，根据第一地理位置信息和第二地理位置信息，将指示牌单体模型融合至三维实景模型中，因此，本申请不仅能够完成大规模的三维实景模型的重建，且能够实现该大规模三维实景模型中目标指示牌的有效重建。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的指示牌与实景融合重建***的场景示意图；

图2是本申请实施例中提供的指示牌与实景融合重建方法的一个实施例流程示意图；

图3是本申请实施例中提供的指示牌与实景融合重建装置的一个实施例结构示意图；

图4是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

为了便于理解，下面对本申请实施例涉及的部分技术术语进行简要介绍。

1、三维模型：三维模型是物体的多边形表示，通常用计算机或者其它视频设备进行显示。显示的物体可以是现实世界的实体，也可以是虚构的物体。任何物理自然界存在的东西都可以用三维模型表示。本申请实施例中，物体的三维模型用于指示物体的三维结构和尺寸信息。三维模型的数据存储形式有多种，例如以三维点云、网格或体元等形式表示，具体此处不做限定。

2、相机外参：即相机的外参数，是世界坐标系与相机坐标系之间的转换关系，包括旋转参数和平移参数。

2.1世界坐标系(World Coordinate)

世界坐标系(x_w，y_w，z_w)，也称为测量坐标系，是一个三维直角坐标系，以其为基准可以描述相机和待测物体的空间位置，世界坐标系的位置可以根据实际情况自由确定。

2.2相机坐标系(Camera Coordinate)

相机坐标系(x_c，y_c，z_c)，也是一个三维直角坐标系，原点位于镜头光心处，x、y轴分别与相面的两边平行，z轴为镜头光轴，与像平面垂直。

世界坐标系转换为相机坐标系

2.3世界坐标系转换为相机坐标系

其中，即为相机的外参矩阵，R为3*3的旋转矩阵，是每个坐标轴的旋转矩阵的乘积，其中每个坐标轴的旋转参数/>t是3*1的平移参数(t_x，t_y，t_z)。

根据相机外参可以确定相机位姿，相机位姿即相机在空间中的位置和相机的姿态，可以分别看作相机从原始参考位置到当前位置的平移变换和旋转变换。类似的，本申请中目标物体的位姿即目标物体在空间中的位置和目标物体的姿态。

3、相机内参：即相机的内参数，是相机坐标系与像素坐标系之间的转换关系，即用于将长度单位转换为以像素为单位的像素坐标，相机出厂后，相机的内参是固定不变的。示例性的，相机的内参包括相机的内参矩阵，内参矩阵具体为：

相机的内参分别为：f为焦距，单位毫米；f_x为使用像素来描述x轴方向焦距的长度；f_y为使用像素来描述y轴方向焦距的长度；u₀和v₀为主点坐标(相对于成像平面)，单位也是像素；γ为坐标轴倾斜参数，理想情况下为0。

4、相机标定：在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数，相机参数包括相机内参、相机外参以及相机的畸变参数，在大多数条件下这些参数必须通过实验与计算才能得到，这个求解参数的过程就称之为相机标定(或摄像机标定)，目前相机标定的方法有：线性标定法、非线性优化标定法、两步标定法。

5、三维模板：本申请提供的指示牌与实景融合重建方法，需要根据应用场景预先构建模板数据库，模板模型库即为用于存储三维模板的数据库，其根据指示牌的不同类型和参数预制了对应的三维模板，三维模板包含目标物体的三维几何信息，具体的，包括几何结构和尺寸信息，可选地，三维模板中还包含目标物体的纹理特征。可选地，模板数据库中的三维模板携带有目标物体类别的标签，例如，目标物体三维模板可以包括三维指示牌模板、三维路灯模板和三维交通信号箱模板等，各个模板均已预设好初始角度，方便后续旋转角度的计算。

本申请实施例提供一种指示牌与实景融合重建方法、装置、电子设备及存储介质，以下分别进行详细说明。

本申请实施例指示牌与实景融合重建方法的执行主体可以为本申请实施例提供的指示牌实景重建装置，或者集成了该指示牌实景重建装置的服务器设备、物理主机或者用户设备(User Equipment，UE)等不同类型的电子设备，其中，指示牌实景重建装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。

该电子设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式。

如图1所示，图1是本申请实施例所提供的指示牌与实景融合重建***的场景示意图。其中，该指示牌与实景融合重建***可以包括用于拍摄三维实景的无人机拍摄设备、用于拍摄指示牌的车载视频采集设备和用于完成指示牌与实景融合重建方法的电子设备100，电子设备100中集成有指示牌实景重建装置。

另外，如图1所示，该指示牌与实景融合重建***还可以包括存储器200，用于存储数据，如存储视频数据、图像数据以及用于拍摄视频的车载视频采集设备的设备数据等。

需要说明的是，图1所示的指示牌与实景融合重建***的场景示意图仅仅是一个示例，本申请实施例描述的指示牌与实景融合重建***以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着指示牌与实景融合重建***的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

下面，开始介绍本申请实施例提供的指示牌与实景融合重建方法，本申请实施例中以电子设备作为执行主体，为了简化与便于描述，后续方法实施例中将省略该执行主体，该指示牌与实景融合重建方法包括：

获取三维实景的三维实景视频和三维实景沿途的第一地理位置信息，三维实景视频通过具有定位功能的无人机拍摄设备拍摄得到，三维实景中的地标包括目标指示牌；

获取目标指示牌的指示牌视频和目标指示牌的第二地理位置信息，指示牌视频通过具有定位功能的车载视频采集设备拍摄得到；

根据第一地理位置信息和三维实景视频，构建三维实景的三维实景模型；

根据指示牌视频，构建目标指示牌的指示牌单体模型；

根据第一地理位置信息和第二地理位置信息，将指示牌单体模型融合至三维实景模型中，得到融合有指示牌单体模型的三维实景模型。

通过上述步骤能够构建得到具有地理位置和指示牌细节的指示牌单体模型，并根据第一地理位置信息和第二地理位置信息，将指示牌单体模型融合至三维实景模型中，本申请不仅能够完成大规模的三维实景模型的重建，且能够实现该大规模三维实景模型中目标指示牌的有效重建。

如图2所示，为本申请实施例中指示牌与实景融合重建方法的一个实施例流程示意图，图2是本申请实施例提供的指示牌与实景融合重建方法的一种流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该指示牌与实景融合重建方法具体包括步骤201～205：

201、获取三维实景的三维实景视频和三维实景沿途的第一地理位置信息，三维实景视频通过具有定位功能的无人机拍摄设备拍摄得到，三维实景中的地标包括目标指示牌。

三维实景可以是任意需要进行三维重建的街景，三维实景中包括多个地标，示例性的，地标可以包括建筑物、指示牌和路灯等，具体的，该三维实景中的地标包括本申请中需要进行三维重建的目标指示牌；

无人机在飞行过程中，利用装载在无人机上的无人机拍摄设备从垂直、倾斜等多个不同视角同时采集街景的二维图像，得到三维实景视频，该三维实景视频是由多帧具有重叠度的二维的三维实景图像序列构成的视频。

采集过程中，同时记录街景沿途的第一地理位置信息，第一地理位置信息包括无人机拍摄设备在成像时的第一位置信息、第一姿态角信息和第一时间戳信息等信息。

其中，第一位置信息包括无人机拍摄设备在成像时于世界坐标系的(X₁，Y₁，Z₁)信息，X₁值和Y₁值分别为无人机拍摄设备在成像时的经度和纬度，Z₁值是无人机拍摄设备在成像时的海拔高度；

第一姿态角信息包括无人机拍摄设备在成像时的俯仰角(pitch angle)信息、侧倾角(roll angle)和横摆角(yaw angle)，在本实施例中，无人机拍摄设备中搭载的角速度传感器，无人机拍摄设备成像时，通过角速度传感器检测无人机拍摄设备分别在世界坐标系的X₁轴、Y₁轴和Z₁轴上的角速度，并通过无人机拍摄设备中内置的处理器对角速度传感器的输出进行时间积分，以实时计算得到无人机拍摄设备的第一姿态角信息；

第一时间戳信息为无人机拍摄设备在成像时的时间信息。

在本实施例中，无人机拍摄设备到街景的三维实景视频后，与用于执行指示牌与实景融合重建方法的电子设备之间通过网络传输模块建立连接通道，将无人机拍摄设备采集的三维实景视频或者图像以消息的形式发送至用于执行指示牌与实景融合重建方法的电子设备，实现三维实景视频的获取，降低三维实景视频的数据传输成本，同时提高了传输效率。

在本实施例中，为了获取所拍摄的三维实景的地理信息和拍摄时间信息，无人机拍摄设备向用于执行指示牌与实景融合重建方法的电子设备传送三维实景视频时，同时传送无人机拍摄设备记录的第一地理位置信息，本实施例对车载视频采集设备传送的数据内容不做具体限定。

202、获取目标指示牌的指示牌视频和目标指示牌的第二地理位置信息，指示牌视频通过具有定位功能的车载视频采集设备拍摄得到。

目标指示牌可以是目标指示牌中的任意需要进行三维重建的指示牌；

通过车载视频采集设备在目标指示牌外部从多个不同视角拍摄，得到指示牌视频，该指示牌视频是由多帧具有重叠度的二维的指示牌图像序列构成的视频，指示牌视频包含目标指示牌的全部可视部分。

拍摄过程中，并记录目标指示牌的第二地理位置信息，第二地理位置信息包括车载视频采集设备在成像时的第二位置信息和第二时间戳信息等信息；其中，第二位置信息包括车载视频采集设备在成像时的于世界坐标系的(X₂，Y₂，Z₂)信息，X₂值和Y₂值分别为无人机拍摄设备在成像时的经度和纬度，Z₂值是车载视频采集设备在成像时的海拔高度；第二时间戳信息为车载视频采集设备在成像时的时间信息。

在本实施例中，车载视频采集设备具备定位功能，车载视频采集设备可以是布置于移动车辆上的雷视一体机或者车载摄像头等，本实施例对此不做具体限定。

因此，本申请能够实时从多个不同视角获取目标指示牌的指示牌视频，获取的目标指示牌图像中的文字和纹理更加清晰，更加接近目标指示牌真实的纹理，同时采用上述的车载视频采集设备采集指示牌视频，时效更高，成本更低。

在本实施例中，车载视频采集设备到目标指示牌视频之后，与用于执行指示牌与实景融合重建方法的电子设备之间通过网络传输模块建立连接通道，将车载视频采集设备采集的目标指示牌视频或者图像以消息的形式发送至用于执行指示牌与实景融合重建方法的电子设备，实现目标指示牌视频的获取，降低目标指示牌视频的数据传输成本，同时提高了传输效率。

在本实施例中，为了获取所拍摄的目标指示牌的地理信息和拍摄时间信息，车载视频采集设备向用于执行指示牌与实景融合重建方法的电子设备传送目标指示牌视频时，同时传送车载视频采集设备记录的第二地理位置信息，本实施例对车载视频采集设备传送的数据内容不做具体限定。

203、根据第一地理位置信息和三维实景视频，构建三维实景的三维实景模型。

无人机拍摄设备的内外参包括无人机拍摄设备的内参和外参，其中，无人机拍摄设备的内参包括无人机拍摄设备的内参矩阵，无人机拍摄设备的外参包括无人机拍摄设备的位置信息和姿态信息。在本实施例之前，通过线性标定法、非线性优化标定法或者两步标定法中的任意一种相机标定方法完成无人机拍摄设备的相机标定，从而得到无人机拍摄设备的初始内参和初始外参。

在本实施例中，根据第一地理位置信息和三维实景视频，构建三维实景的三维实景模型，具体包括：

根据第一地理位置信息和三维实景视频，通过预先训练的三维实景模型生成器进行空中三角测量计算，生成三维实景的三维实景点云信息；根据三维实景点云信息，构建三维实景模型。

具体的，预先在用于执行指示牌与实景融合重建方法的电子设备中搭建训练完成的三维实景模型生成器，将第一地理位置信息和图像具有一定重叠度的三维实景视频输入至预先训练完成的三维实景模型生成器中，通过三维实景模型生成器中的图形处理器(Graphics Processing Unit，GPU)结合第一地理位置信息自动进行空中三角测量计算，生成稀疏的三维实景点云信息，并对稀疏的三维实景点云信息进行加密，最终得到稠密的三维实景点云信息，根据稠密的三维实景点云信息构成三维实景的三角网格模型，最后结合三维实景视频中的像素信息，生成富有纹理的三维实景模型。

其中，结合第一地理位置信息自动进行空中三角测量计算，生成稀疏的三维实景点云信息，具体步骤为：检测多帧三维实景图像中的第一图像特征点，第一图像特征点指的是颜色或纹理变化剧烈的点，一般用像素值本身及其周围像素关系来描述第一图像特征点；将不同帧的三维实景图像中相同的第一图像特征点进行关联，完成第一图像特征点匹配；根据第一图像特征点匹配的匹配结果，以第一图像特征点在三维空间中相交的误差最小为目的，对无人机拍摄设备的初始内参和初始外参进行调整，最终得到调整后的无人机拍摄设备的内参和外参，同时生成稀疏的三维实景点云信息。

在本实施例中，预先训练完成的三维实景模型生成器可以采用ContextCap ture、PhotoScan以及Pix4Dmapper等倾斜摄影建模软件中的任意一种。

204、根据指示牌视频，构建目标指示牌的指示牌单体模型。

在本实施例中，根据指示牌视频，构建目标指示牌的指示牌单体模型，具体包括2041～2043：

2041、识别指示牌视频中目标指示牌上的牌面字符，得到字符识别结果。

指示牌视频包括由多帧二维指示牌图像构成的图像序列。识别指示牌视频中目标指示牌上的牌面字符，得到字符识别结果，具体包括步骤A1～A3：

A1、从二维指示牌图像中检测目标指示牌，生成指示牌检测框。

由于车载视频采集设备采集指示牌视频时，会采集到除目标指示牌之外的其他元素的画面，为了避免指示牌视频中其他元素的画面对目标指示牌的牌面字符识别产生干扰，在识别指示牌视频中目标指示牌上的牌面字符之前，需要从二维指示牌图像中确定目标指示牌的所在区域，即首先需要从二维指示牌图像中检测目标指示牌，生成指示牌检测框。

在本实施例中，从二维指示牌图像中检测目标指示牌，生成指示牌检测框，可以具体包括：

将二维指示牌图像作为输入，通过预设的目标指示牌检测模型进行目标指示牌检测，得到包含目标指示牌和指示牌检测框的二维指示牌图像。

即在本实施例中，预先在用于执行指示牌单体重建方法的电子设备中搭建训练完成的目标指示牌检测模型，将多帧二维指示牌图像构成的图像序列作为输入，通过训练完成的目标指示牌检测模型对二维指示牌图像进行目标指示牌检测，输出每帧均具有目标指示牌和指示牌检测框的图像序列。

A2、截取指示牌检测框对应区域的目标指示牌图像。

由于每帧二维指示牌图像中会包括目标指示牌和其他无关区域，为避免二维指示牌图像中的其他无关区域对目标指示牌的牌面字符识别产生干扰，在本实施例中，基于指示牌检测框所标注出的目标指示牌所在区域，截取该目标指示牌所在区域的图像，得到目标指示牌图像，后文基于目标指示牌图像进行牌面字符识别。在本实施例中，目标指示牌图像的尺寸可以与指示牌检测框的尺寸相同，即截取到的目标指示牌图像的多个顶点分别与指示牌检测框的多个顶点一一对应，目标指示牌图像的尺寸可以与指示牌检测框的尺寸也可以相同，但需要保证目标指示牌图像中具有目标指示牌的牌面字符，本实施例对此不做具体限定。

A3、识别目标指示牌图像中的牌面字符，得到字符识别结果。

在本实施例中，可以通过光学字符识别(Optical Character Recognition,OCR)对目标指示牌图像进行分析识别处理，获取目标指示牌图像中的牌面字符，并以文本的形式返回，从而得到目标指示牌上的牌面字符。

对目标指示牌的牌面字符识别，均是基于图像序列中具有目标指示牌和目标指示牌检测框的其中一帧二维指示牌图像进行，应用过程中，可以是基于图像序列中的任意一帧具有目标指示牌和目标指示牌检测框的二维指示牌图像进行牌面字符识别，以识别得到一张二维指示牌图像中的牌面字符；

为了获取更加全面完整的牌面字符，也可以基于图像序列中的多帧二维指示牌图像或者每一帧二维指示牌图像进行牌面字符识别，以识别得到多个牌面字符结果，再根据多个牌面字符结果确定最终的牌面字符识别结果，本实施例对此不做具体限定。

2042、根据指示牌视频，对目标指示牌进行三维点云重建，得到目标指示牌的三维指示牌点云信息车载视频采集设备。

在本实施例中，根据指示牌视频，对目标指示牌进行三维点云重建，得到目标指示牌的三维指示牌点云信息，具体包括：

根据多帧二维指示牌图像构成的图像序列，对目标指示牌进行稀疏点云重建，得到车载视频采集设备成像时的位姿参数。

在本实施例中，通过运动恢复结构算法(Structure from motion，SfM)对目标指示牌进行稀疏点云重建，具体的，可以采用OpenSfM开源代码进行三维重建，将多帧二维指示牌图像序列作为输入，通过Shi&Tomasi算法、SIFT算法或者SURF算法检测并提取二维指示牌图像中尺度变换和旋转角度的第二图像特征点，其中，图像处理中，第二图像特征点指的是二维指示牌图像中图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点(即两个边缘的交点)，二维指示牌图像中的第二图像特征点能够反映二维指示牌图像本质特征，能够标识二维指示牌图像中目标指示牌，通过第二图像特征点的匹配能够完成多个二维指示牌图像中目标指示牌的匹配；

检测并提取二维指示牌图像中的第二图像特征点后，将多帧二维指示牌图像序列中每两个二维指示牌图像之间的第二图像特征点进行匹配，并计算对应的匹配点；根据计算完成的匹配点计算基础矩阵和本征矩阵，对本征矩阵进行奇异值分解，以计算得到第二图像特征点的深度值，即得到第二图像特征点在三维空间的位置，最终生成目标指示牌的三维稀疏点云，同时计算得到车载视频采集设备成像时的位姿参数和稀疏的三维指示牌点云信息，位姿参数是车载视频采集设备拍摄二维指示牌图像时的位置信息和姿态信息。

根据所述指示牌视频，对所述目标指示牌进行三维点云重建，得到所述目标指示牌的三维指示牌点云信息，还具体包括：

根据多帧二维指示牌图像构成的图像序列和位姿参数，对目标指示牌进行稠密点云重建，得到目标指示牌的三维稠密点云；将目标指示牌的三维稠密点云作为目标指示牌的三维指示牌点云信息。

在本实施例中，在得到车载视频采集设备成像时的位姿参数之后，通过多视角立体视觉算法(Multiple View Stereo，MVS)对目标指示牌进行稠密点云重建，生成稠密的三维点云。具体的，可以采用OpenMVS开源代码进行数据处理，将视频采集设备的位姿参数和多帧二维指示牌图像序列作为输入，根据车载视频采集设备成像时的位姿参数和多个视角的多帧二维指示牌图像序列进行逐像素深度估计，生成稠密的三维点云，即最终得到目标指示牌的三维指示牌点云信息。

根据车载视频采集设备成像时的位姿参数和多个视角的多帧二维指示牌图像序列进行逐像素深度估计，具体为：

对于二维指示牌图像中某个第二图像特征点的像素p，根据相机内参、位姿参数以及第二图像特征点的深度值，计算得到真实空间中的三维点云坐标：

P＝D(p)T^-1K^-1p

其中，P为点云坐标系的三维点云坐标，D(p)为某个第二图像特征点的像素p的深度值，T为车载视频采集设备的相机位姿，包括旋转矩阵R以及平移向量t，K为车载视频采集设备的相机内参。

2043、根据字符识别结果、三维指示牌点云信息以及预先构建的三维指示牌模板，构建指示牌单体模型。

即将预先构建的三维指示牌模板嵌入由三维指示牌点云信息构成的框架中，构建得到指示牌单体模型。

根据现实中指示牌的构造可知，由于目标指示牌通常为一个固定杆固定于地面，固定杆上固定有一个指向马路中心的指示牌牌体，因此，首先需要确定指示牌牌体在固定杆上的具体固定位置以及指示牌牌体的朝向，才能精准地将三维指示牌模板嵌入至三维指示牌点云信息构成的框架中，得到与目标指示牌的指示牌单体模型。

即根据三维指示牌点云信息以及预先构建的三维指示牌模板，构建指示牌单体模型之前，首先需要确定三维指示牌点云信息所构成的框架的高度和最长边在三维空间中的方位角。因此，在本实施例中，根据三维指示牌点云信息以及预先构建的三维指示牌模板，构建具有第一地理位置信息的指示牌单体模型，具体包括以下步骤S1～S3：

S1、根据三维指示牌点云信息所构成的框架，确定目标指示牌的三维指示牌立体框架。

将三维指示牌点云信息进行连接，生成一个虚拟的最小外接立体框架，该虚拟的最小外接立体框架即为目标指示牌的三维指示牌立体框架。

S2、确定三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向和指示牌高度，xyz三维空间坐标系为由x轴、y轴和z轴构成的三维坐标系。

其中，xyz三维空间坐标系是一个虚拟空间中的三维空间坐标系，通过在用于执行指示牌与实景融合重建方法该虚拟空间，当生成三维指示牌点云信息时，在电子设备的显示界面，会显示该虚拟空间以及在该虚拟空间内生成的三维指示牌点云的图像，并且会显示在该虚拟空间内构建的xyz三维空间坐标系，xyz三维空间坐标系为由x轴、y轴和z轴对应于世界坐标系的经度、维度和高度。

确定三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向和指示牌高度，具体包括：

(1)确定三维指示牌立体框架在xy二维水平面中的指示牌最长边；根据指示牌最长边在xyz三维空间坐标系中的方位角，确定三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向；其中，xy二维水平面为xyz三维空间坐标系于x轴和y轴构成的二维平面。

目标指示牌的指示牌牌体在现实地面上的投影相当于目标指示牌在xy二维水平面中的投影，因此，目标指示牌的指示牌牌体的投影长度即为三维指示牌立体框架在xy二维水平面中的指示牌最长边。

在确定三维指示牌立体框架在xy二维水平面中的指示牌最长边之后，根据指示牌最长边在xyz三维空间坐标系中的方位角，即可确定目标指示牌的指示牌牌体的所指向的朝向。

(2)根据三维指示牌立体框架沿z轴方向的最大z轴值和最小z轴值的差值，确定三维指示牌立体框架的指示牌高度；其中，z轴方向为xyz三维空间坐标系中z轴延伸的方向。

由于xyz三维空间坐标系的z轴对应于现实的高度，因此，计算三维指示牌立体框架沿z轴方向的最大z轴值和最小z轴值的差值，即可确定该三维指示牌立体框架的指示牌高度，其中，z轴值即为三维指示牌立体框架在xyz三维空间坐标系中z轴方向的坐标值。

S3、根据三维指示牌立体框架的指示牌朝向和指示牌高度，对三维指示牌模板进行缩放和旋转，并融合至三维指示牌立体框架中，得到指示牌单体模型。

在确定三维指示牌立体框架的指示牌朝向和指示牌高度之后，可以从存放有各种三维指示牌模板的模板数据库中调取相应的三维指示牌模板，在本实施例中，具体可以通过根据三维指示牌立体框架的指示牌朝向和指示牌高度，确定需要调用的三维指示牌模板的文件名；根据三维指示牌模板的文件名在模板数据库中进行检索，获得目标的三维指示牌模板；读取三维指示牌模板，并按照三维指示牌立体框架的指示牌朝向和指示牌高度，对三维指示牌模板进行缩放和旋转，再将调整好的三维指示牌模板嵌入三维指示牌立体框架中，得到具有清晰的指示牌纹理的指示牌单体模型；

在得到初始三维单体指示牌模型之后，将步骤2041中得到牌面字符识别结果按照顺序嵌入至指示牌单体模型用于显示牌面字符的位置，最终得到与目标指示牌对应指示牌单体模型。

205、根据第一地理位置信息和第二地理位置信息，将指示牌单体模型融合至三维实景模型中，得到融合有指示牌单体模型的三维实景模型。

根据第一地理位置信息和第二地理位置信息，将指示牌单体模型融合至三维实景模型中，得到融合有指示牌单体模型的三维实景模型，具体包括：

将第二地理位置信息与第一地理位置信息进行匹配，确定目标指示牌在三维实景模型中的目标地标点；

将指示牌单体模型融合至三维实景模型中的目标地标点，得到融合有指示牌单体模型的三维实景模型。

由于目标指示牌是三维实景中的一个地标，无人机拍摄设备和车载视频采集设备向电子设备传输视频数据时，都同时会传输地理位置信息，且第一地理位置信息包括无人机拍摄设备成像时的第一位置信息(X₁，Y₁，Z₁)，第二地理位置信息包括车载视频采集设备在成像时的第二位置信息(X₂，Y₂，Z₂)。因此，具体的，根据第一位置信息和第二位置信息进行匹配，即可确定目标指示牌在三维实景模型中的目标地标点，再将步骤204中得到的具有清晰的指示牌纹理的指示牌单体模型直接嵌入至三维实景模型中的目标地标点，最终得到融合有指示牌单体模型的三维实景模型。

因此，本申请提出的指示牌与实景融合重建方法，通过无人机拍摄设备获取大范围且全面的三维实景视频，通过车载视频采集设备获取视角更全面、纹理更清晰的目标指示牌视频，采用无人机拍摄设备和车载视频采集设备结合的方式，设备成本和拍摄成本均较低；基于三维实景视频和目标指示牌视频进行三维重建，不仅能够完成大范围实景的三维重建，得到三维实景模型，并且能够通过单独进行目标指示牌的指示牌单体模型的三维重建，更加还原指示牌的真实纹理，将重建的指示牌单体模型融合至三维实景模型中，最终得到具有清晰纹理的目标指示牌的三维实景模型。

即本申请的三维重建方式提升大规模实景三维重建中指示牌元素的重建效果，降低了三维实景模型精细化重建的成本，还解决了目前通过仅无人机倾斜的生成倾斜模型，由于成像距离过远、视角不全、图片不清晰，导致三维实景重建中指示牌纹理和文字缺失严重的问题。

在本申请的另一个实施例中，目标指示牌检测模型可以通过如下步骤训练得到：

采用efficientnet作为主干网络，并采用yolox或者anchor free目标检测模型作为待训练模型进行训练，将外立面完整样本库中存储的指示牌样本视频的样本图像帧合集作为待训练模型的输入、将包含有目标指示牌的图像帧和指示牌检测框作为输出进行模型训练，得到目标指示牌检测模型；

训练过程中，可以采用数据增强方式提高待训练模型的建模能力，数据增强方式具体可以包括以下但不限于以下几种方式：

(1)对样本图像帧合集中的样本图像帧进行随机裁剪(Random Crop)，具体可以是，对样本图像帧进行随机0.6～1.0的比率大小的区域进行裁剪，将裁剪后的样本图像帧作为待训练模型的输入；

(2)在网络中嵌入Dropblock层，即主干网络包括多个内卷层、池化层和Dropblock层，在Dropblock层，丢弃特征图中K×K×R区域大小的邻域空间像素点，丢弃概率为p，示例性的，Dropblock层设置丢弃特征图中的区域大小为3×3×3的邻域空间像素点，丢弃概率设置为0.1；

(3)采用马赛克Mosaic实现数据增强，具体的，将样本图像帧合集中的四张样本图像帧随机拼接在一张马赛克图像中，将拼接得到的新的样本图像作为训练数据作为输入进行模型训练。

在本实施例中，采用多尺度训练(Multi Scale Training,MST)，减少模型过拟合风险，增强目标指示牌检测模型的鲁棒性。

为了更好实施本申请实施例中指示牌与实景融合重建方法，在指示牌与实景融合重建方法基础之上，本申请实施例中还提供一种指示牌实景重建装置，如图3所示，所述指示牌实景重建装置300包括：

第一视频获取模块301，用于获取三维实景视频和三维实景沿途的第一地理位置信息，三维实景视频为通过具有定位功能的无人机拍摄设备拍摄三维实景得到的视频，三维实景中的地标包含目标指示牌；

第二视频获取模块302，用于获取指示牌视频和目标指示牌的第二地理位置信息，指示牌视频为通过具有定位功能的车载视频采集设备拍摄目标指示牌得到的视频；

第一模型构建模块303，用于根据第一地理位置信息和三维实景视频，构建三维实景的三维实景模型；

第二模型构建模块304，用于根据指示牌视频，构建目标指示牌的指示牌单体模型；

模型融合模块305，用于根据第一地理位置信息和第二地理位置信息，将指示牌单体模型融合至三维实景模型中，得到融合有指示牌单体模型的三维实景模型。

模型融合模块305具体为：

用于将第二地理位置信息与第一地理位置信息进行匹配，确定目标指示牌在三维实景模型中的目标地标点；

用于将指示牌单体模型融合至三维实景模型中的目标地标点，得到融合有指示牌单体模型的三维实景模型。

第一模型构建模块303具体为：

用于根据第一地理位置信息和三维实景视频，通过预先训练的三维实景模型生成器进行空中三角测量计算，生成三维实景的三维实景点云信息；

用于根据三维实景点云信息，构建三维实景模型。

第二模型构建模块304具体为：

用于识别指示牌视频中目标指示牌上的牌面字符，得到字符识别结果；

用于根据指示牌视频，对目标指示牌进行三维点云重建，得到目标指示牌的三维指示牌点云信息车载视频采集设备；

用于根据三维指示牌点云信息以及预先构建的三维指示牌模板，构建指示牌单体模型。

第二模型构建模块304具体为：

用于从二维指示牌图像中检测目标指示牌，生成指示牌检测框；

用于截取指示牌检测框对应区域的目标指示牌图像；

用于识别目标指示牌图像中的牌面字符，得到字符识别结果。

第二模型构建模块304具体为：

用于根据三维指示牌点云信息所构成的框架，确定目标指示牌的三维指示牌立体框架；

用于确定三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向和指示牌高度，xyz三维空间坐标系为由x轴、y轴和z轴构成的三维坐标系；

用于根据三维指示牌立体框架的指示牌朝向和指示牌高度，对三维指示牌模板进行缩放和旋转，并融合至三维指示牌立体框架中，得到指示牌单体模型。

第二模型构建模块304具体为：

用于确定三维指示牌立体框架在xy二维水平面中的指示牌最长边；

用于根据指示牌最长边在xyz三维空间坐标系中的方位角，确定三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向；

其中，xy二维水平面为xyz三维空间坐标系于x轴和y轴构成的二维平面。

第二模型构建模块304具体为：

用于根据三维指示牌立体框架沿z轴方向的最大z轴值和最小z轴值的差值，确定三维指示牌立体框架的指示牌高度；

其中，z轴方向为xyz三维空间坐标系中z轴延伸的方向。

在本申请的另一个实施例中，如图4所示，本申请还提供一种电子设备400，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的该电子设备结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个该电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行该电子设备的各种功能和处理数据，从而对该电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据该电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

该电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，该电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

根据指示牌视频，构建目标指示牌的指示牌单体模型；

在本申请一些实施例中，本申请还提供一种计算机可读存储介质，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random AccessMemory)、磁盘或光盘等。其上存储有计算机程序，计算机程序被处理器进行加载，以执行本申请实施例所提供的指示牌与实景融合重建方法中的步骤。例如，计算机程序被处理器进行加载可以执行如下步骤：

根据指示牌视频，构建目标指示牌的指示牌单体模型；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

以上对本申请实施例所提供的一种指示牌与实景融合重建方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种指示牌与实景融合重建方法，其特征在于，包括：

2.如权利要求1所述的指示牌与实景融合重建方法，其特征在于，所述根据所述第一地理位置信息和所述第二地理位置信息，将所述指示牌单体模型融合至所述三维实景模型中，得到融合有所述指示牌单体模型的所述三维实景模型，包括：

3.如权利要求1所述的指示牌与实景融合重建方法，其特征在于，所述根据所述第一地理位置信息和所述三维实景视频，构建所述三维实景的三维实景模型，包括：

根据所述三维实景点云信息，构建所述三维实景模型。

4.如权利要求3所述的指示牌与实景融合重建方法，其特征在于，所述根据所述指示牌视频，构建所述目标指示牌的指示牌单体模型，包括：

根据所述字符识别结果、所述三维指示牌点云信息以及预先构建的三维指示牌模板，构建所述指示牌单体模型。

5.如权利要求4所述的指示牌与实景融合重建方法，其特征在于，所述指示牌视频包括由多帧二维指示牌图像构成的图像序列，所述识别所述指示牌视频中所述目标指示牌上的牌面字符，得到字符识别结果，包括：

截取所述指示牌检测框对应区域的目标指示牌图像；

6.如权利要求5所述的指示牌与实景融合重建方法，其特征在于，所述根据所述三维指示牌点云信息以及预先构建的三维指示牌模板，构建具有所述第一地理位置信息的指示牌单体模型，包括：

7.如权利要求6所述的指示牌与实景融合重建方法，其特征在于，所述确定所述三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向和指示牌高度，包括：

8.如权利要求6所述的指示牌与实景融合重建方法，其特征在于，所述确定所述三维指示牌立体框架在xyz三维空间坐标系中的指示牌朝向和指示牌高度，包括：

9.一种指示牌与实景融合重建装置，其特征在于，所述装置包括：

第二视频获取模块，用于获取指示牌视频和所述目标指示牌的第二地理位置信息，所述指示牌视频为通过具有定位功能的车载视频采集设备拍摄目标指示牌得到的视频；

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至8任一项所述的指示牌与实景融合重建方法中的步骤。