CN113628265A

CN113628265A - 车辆周视点云的生成方法、深度估计模型训练方法及装置

Info

Publication number: CN113628265A
Application number: CN202110904714.5A
Authority: CN
Inventors: 王梦圆; 朱红梅; 孟文明; 张骞; 黄畅
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-08-07
Filing date: 2021-08-07
Publication date: 2021-11-09
Anticipated expiration: 2041-08-07
Also published as: CN113628265B

Abstract

本申请公开了一种车辆周视点云的生成方法、深度估计模型训练方法及装置、计算机可读存储介质、电子设备。其中，一种车辆周视点云的生成方法，该方法包括：确定来自车辆的多个图像采集装置采集的多个视角的多幅同步帧图像；确定所述多幅同步帧图像各自的深度信息；根据所述多个视角各自对应的图像采集装置的采集参数、帧同步图像和深度信息，生成该视角对应的点云数据；基于所述多个视角各自对应的点云数据，确定所述车辆的周视点云。本申请实施例仅依靠图像采集装置(例如，相机)的自监督生成周视点云，无需部署激光雷达，部署成本低，图像采集装置受天气、空气等影响小，采集的图像更清晰，最终确定的点云数据更准确。

Description

车辆周视点云的生成方法、深度估计模型训练方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种车辆周视点云的生成方法、深度估计模型训练方法及装置、计算机可读存储介质、电子设备。

背景技术

在自动驾驶中，智能车辆的周视点云可以表征出其周围环境的几何结构和深度信息。目前，通过周视点云方式实现智能车辆的3D(3-Dimension)感知已成为主流。相关技术中，主要采用激光雷达获取智能车辆的点云信息，由于其能直接提供一个3D的场景而被广泛应用。但是，采用激光雷达获取点云信息，也有较多缺点：例如激光雷达部署成本较高，探测距离有限，且受天气、空气等环境因素影响较大。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种车辆周视点云的生成方法、深度估计模型训练方法及装置、计算机可读存储介质、电子设备。

根据本申请的第一个方面，提供了一种车辆周视点云的生成方法，所述方法包括：

确定来自车辆的多个图像采集装置采集的多个视角的多幅同步帧图像；

确定所述多幅同步帧图像各自的深度信息；

根据所述多个视角各自对应的图像采集装置的采集参数、帧同步图像和深度信息，生成该视角对应的点云数据；

基于所述多个视角各自对应的点云数据，确定所述车辆的周视点云。

根据本申请的第二个方面，提供了一种深度估计模型训练方法，其中，包括：

从第一视频流中确定第一帧图像及与所述第一帧图像相邻的第二帧图像；

确定所述第一帧图像和所述第二帧图像之间的帧间运动信息；

通过深度估计神经网络确定所述第一帧图像的深度信息；

根据所述帧间运动信息、所述第一帧图像的深度信息、采集所述第一视频流的图像采集装置的预设采集参数，确定所述第一帧图像的重构图像；

基于所述第一帧图像及所述重构图像，训练所述深度估计神经网络。

根据本申请的第三个方面，提供了一种车辆周视点云的生成装置，包括：

第一确定模块，用于确定来自车辆的多个图像采集装置采集的多个视角的多幅同步帧图像；

第二确定模块，用于确定所述多幅同步帧图像各自的深度信息；

第一点云模块，用于根据所述多个视角各自对应的图像采集装置的采集参数、帧同步图像和深度信息，生成该视角对应的点云数据；

第二点云模块，用于基于所述多个视角各自对应的点云数据，确定所述车辆的周视点云。

根据本申请的第四个方面，提供了一种深度估计模型训练装置，其中，包括：

图像确定模块，用于从第一视频流中确定第一帧图像及与所述第一帧图像相邻的第二帧图像；

帧间运动信息确定模块，用于确定所述第一帧图像和所述第二帧图像之间的帧间运动信息；

深度信息确定模块，用于通过深度估计神经网络确定所述第一帧图像的深度信息；

图像重构模块，用于根据所述帧间运动信息、所述第一帧图像的深度信息、采集所述第一视频流的图像采集装置的预设采集参数，确定所述第一帧图像的重构图像；

训练模块，用于基于所述第一帧图像及所述重构图像，训练所述深度估计神经网络。

根据本申请的第五个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行前述第一方面所述的车辆周视点云的生成方法或者用于执行前述第二方面所述的深度估计模型训练方法。

根据本申请的第六个方面，电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行前述第一方面所述的车辆周视点云的生成方法或者用于执行前述第二方面所述的深度估计模型训练方法。

通过本申请实施例，通过多个图像采集装置采集的多个视角的同步帧图像、多个视角的同步帧图像的深度信息、图像采集装置的采集参数进而确定出车辆的周视点云，因此，本申请实施例仅依靠图像采集装置(例如，相机)的自监督生成周视点云，并无需部署激光雷达，部署成本低，由于图像采集装置受天气、空气等影响小，采集的图像更清晰，最终确定的点云数据更准确；以及，相对单个图像采集装置而言，利用多个图像采集装置的多个视角的深度信息生成的车辆的周视点云，其周视点云可以具有真实尺度，其精准度更高。

在本申请深度估计模型训练的实施例中，基于相邻两帧图像之间的帧间运动信息，任一帧图像的深度信息和图像采集装置的采集参数得到该帧图像的重构图像，进而基于该帧图像及其重构图像对深度估计神经网络进行训练，从而得到深度估计模型，因此，在深度估计模型训练过程中是利用图像和图像采集装置的几何约束(图像采集装置的采集参数)对神经网络进行耦合训练，而无需对图像进行标注；同时结合了图像、图像采集装置的几何约束和相邻两帧图像之间的帧间运动信息(即里程计)确定重构图像，进而通过最小化重构图像(重投影)误差来优化神经网络参数以得到深度估计模型，使得通过该深度估计模型可以自监督的获取带有真实尺度的深度信息。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请实施例的智能车辆***结构图。

图2是本申请一示例性实施例提供的车辆周视点云的生成方法的流程示意图。

图3是本申请另一示例性实施例提供的车辆周视点云的生成方法的流程示意图。

图4是本申请另一示例性实施例提供的车辆周视点云的生成方法的流程示意图。

图5是本申请另一示例性实施例提供的车辆周视点云的生成方法的流程示意图。

图6是本申请另一示例性实施例提供的车辆周视点云的生成方法的流程示意图。

图7是本申请一示例性实施例提供的深度估计模型训练方法的流程示意图。

图8是本申请另一示例性实施例提供的深度估计模型训练方法的流程示意图。

图9是本申请另一示例性实施例提供的深度估计模型训练方法的流程示意图。

图10是图8-图9所示实施例提供的重构图像的技术方案的实现流程示意图。

图11是本申请另一示例性实施例提供的深度估计模型训练方法的流程示意图。

图12是本申请另一示例性实施例提供的深度估计模型训练方法的流程示意图。

图13是本申请一示例性实施例提供的车辆周视点云的生成装置的结构示意图。

图14是本申请另一示例性实施例提供的车辆周视点云的生成装置的结构示意图。

图15是本申请一示例性实施例提供的深度估计模型训练装置的结构示意图。

图16是本申请另一示例性实施例提供的深度估计模型训练装置的结构示意图。

图17是本申请一示例性实施例提供的电子设备的结构框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

在车辆驾驶领域中，车辆的周视点云具有周围环境的几何结构和深度信息，目前，通过周视点云方式实现车辆的3D(3-Dimension)感知已成为主流。

在相关技术中，可以采用激光雷达的方式获取车辆的周视点云，也可以采用在车辆上部署多个摄像头的方式获取车辆的周视点云。不管是利用激光雷达还是利用摄像头的方式获取车辆的周视点云，其都需要进行深度信息的估计，目前，深度信息估计的技术方案包括三种：1、利用激光雷达进行有监督学习进行深度信息估计；2、利用立体相机进行立体匹配而得到对应的深度信息；3、利用时序信息，参照直接里程得到深度信息。

然而，激光雷达的部署成本较高，且仅能获取稀疏的点云信息，利用这些稀疏的点云信息来有监督训练网络来获取深度信息，其深度信息的准确度很大程度依赖激光雷达投影到图片的稀疏的点云信息的质量，但激光雷达在采集的时候受到运动补偿、遮挡等因素的影响，导致稀疏点云信息误差较大，从而影响深度估计的结果。

利用立体相机来获取深度信息的方法，是利用了立体匹配原理(可参考相关算法原理，在此不进行赘述)，获取两张图的视差，从而获取场景的深度信息。但是该方法对立体相机的安装要求较高，须对立体相机进行双目矫正，此外，若要获取较为准确的周视点云信息，需要较多的立体相机，因此大大增加了部署难度和成本。

利用时序信息，参照直接里程计来获取深度信息的方法，缺点在于仅依靠一个相机无法获取场景的真实深度，而在自动驾驶中，真实深度是不可避免的，因此，该方法获得的周视点云的准确度较差。

综上，相关技术中，车辆周视点云的获取方式包括了准确度差、部署难度大、部署成本高等至少一种缺点。

为解决相关技术中的部分或全部缺点，本申请提出了一种车辆周视点云的生成方法、深度估计模型训练方法及装置、计算机可读存储介质、电子设备。本申请技术方案无需激光雷达的部署，仅依靠相机自监督生成车辆的周视点云。

示例性***

如图1所示，为本申请实施例的智能车辆***结构图。如图所示，智能车辆***可以至少包括图像采集装置和电子设备。在本申请中，智能车辆可以部署多个图像采集装置(如图中的A、B、C、D四个图像采集装置)，通过该多个图像采集装置分别采集智能车辆的不同视角的图像。而电子设备例如可以是部署在智能车辆中的微型计算机***，可以基于图像采集装置采集的不同视角的图像，获取图像的深度信息，进而生成智能车辆的点云信息。其中，电子设备可以包括存储器、处理器等，在此不做赘述，详细内容可以参考图17电子设备的相关描述。

综上，在本申请实施例中，智能车辆利用图像采集装置与电子设备实现其点云信息的获取，进而实现3D感知。

示例性方法

图2是本申请一示例性实施例提供的车辆周视点云的生成方法的流程示意图。本实施例可应用在电子设备上。

如图2所示，本申请实施例的一种车辆周视点云的生成方法包括如下步骤：

步骤201，确定来自车辆的多个图像采集装置采集的多个视角的多幅同步帧图像。

图像采集装置可以部署在车辆上，例如部署在车辆的A柱、B柱、C柱和/或保险杠上等位置上，用于采集车辆的外部周视图像。其中，各图像采集装置之间的采集参数(包括内参、外参)，例如间距、视场角的大小、视角方向、在车辆上的安装位置坐标、图像采集装置的曝光参数、畸变参数、焦距、像素等可以是预先设置的。在本申请中，对图像采集装置不进行限制，只要可以实现对车辆周视图像的采集即可。

在本申请中，可以在车辆上部署两个或者两个以上的图像采集装置，且该两个或两个以上的图像采集装置的视角方向可以不一致，从而实现对车辆的多个视角的图像采集。

在一些实施例中，电子设备可以接收来自多个图像采集装置采集的多个视角的图像，例如，电子设备可以与任一个图像采集装置通信连接，以接收该图像采集装置采集到的其对应视角方向的图像，或者，电子设备与多个图像采集装置之间可以部署图像处理装置，图像处理装置获取图像采集装置的图像，并将图像与图像采集装置进行关联(例如，建立图像采集装置与图像的对应关系)后，电子设备从图像处理装置处获取图像以及获取图像与图像采集装置的对应关系。电子设备通过获取到的图像，确定每个图像采集装置对应的视角方向的同步帧图像。

步骤202，确定多幅同步帧图像各自的深度信息。

本申请实施例中的深度信息可以通过深度图像来获取到。深度图像也可以称为距离影像，是指将从图像采集装置到其对应视角的场景中各点的距离(深度)作为像素值的图像，可以反映景物可见表面的几何形状。深度图像经过处理(例如，坐标转换)可以计算为点云数据。

在本步骤中，确定每幅同步帧图像的深度信息可以利用相关技术实现，例如可以采用计算机立体视觉成像法、坐标测量机法、莫尔条纹法、结构光法等等，对这些实现方法的详细实现过程在此不进行赘述。在一些实施例中，确定任一同步帧图像的深度信息还可以通过深神经网络实现，例如，采用本发明实施例中的深度估计模型实现，其中深度估计模型的训练可以参见图7至图12所示训练深度估计模型的实施例的实现过程，在此不进行详述。

示例性地，车辆上部署有A、B、C、D四个图像采集装置，假设总共包括四幅同步帧图像，该四幅同步帧图像分别对应A、B、C、D的各视角的图像，在本步骤中，则分别确定出四幅同步帧图像各自的深度信息。

步骤203，根据多个视角各自对应的图像采集装置的采集参数、帧同步图像和深度信息，生成该视角对应的点云数据。

图像采集装置的采集参数，例如，图像采集装置相对车辆的位置坐标、图像采集装置与其他相邻图像采集装置之间的距离、图像采集装置的旋转角度、焦距、曝光率、视场角、畸变率、图像中成像中心的位置、像素尺寸等等，这些参数信息可以是固定不变的，也可以是随着图像采集装置的运动而实时变化的，因此，在本申请实施例中，图像采集装置的采集参数可以是通过输入装置输入并存储，也可以是通过数据采集器(例如，传感器)对图像采集装置的数据进行实时采集获取。

在本步骤中，可以根据图像采集装置的采集参数、帧同步图像和深度信息得到对应视角的点云数据。在一些实施例中，针对任一视角，可以对其对应的图像采集装置的内参、帧同步图像和深度信息进行矩阵乘法运算，以生成对应的点云数据。例如，可以通过如下公式实现：

P＝k^-1DI

P为任一视角的点云数据，k为对应的图像采集装置的内参，D为深度信息，以及I为该视角的帧同步图像。

例如，车辆上部署的图像采集装置A、B、C、M，分别对应视角方向w、x、y和z，则通过该步骤，分别确定w、x、y和z视角的点云数据：

表1

点云数据	图像采集装置	视角方向	采集参数	帧同步图像	深度信息
						P1	A	w	k1	I1	D1
P2	B	x	k2	I2	D2
						P3	C	y	k3	I3	D3
P4	M	z	k4	I4	D4

如表1所示，图像采集装置A对应w视角方向的点云数据P1由采集参数k1、帧同步图像a和深度信息D1确定，以此类推，在此不进行详述。

步骤204，基于多个视角各自对应的点云数据，确定车辆的周视点云。

在本申请实施例中，确定每个视角对应的点云数据后，可以基于多个视角中的部分视角或者所有视角各自对应的点云数据来确定出车辆的周视点云，例如，通过相关技术中的融合算法对多个视角对应的点云数据进行融合，从而确定车辆的周视点云。在一示例性实施例中，可以将每个视角对应的点云数据变换至车辆坐标系下后，再对变换后的点云数据进行加和运算，从而得到车辆的周视点云数据。

示例性地，可以通过如下公式对每个视角对应的点云数据进行加和运算：

其中，P_all为车辆的周视点云，P_view为任一视角的点云数据，T_view为任一视角相邻两帧图像的帧间运动信息。

综上，在本申请实施例中，通过多个图像采集装置采集的多个视角的同步帧图像、多个视角的同步帧图像的深度信息、图像采集装置的采集参数进而确定出车辆的周视点云，因此，本申请实施例仅依靠图像采集装置(例如，相机)的自监督生成周视点云，并无需部署激光雷达，部署成本低，图像采集装置受天气、空气等影响小，采集的图像更清晰，最终确定的点云数据更准确；以及，相对单个图像采集装置而言，利用多个图像采集装置的多个视角的深度信息生成的车辆的周视点云，其周视点云可以具有真实尺度，其精准度更高。

如图3所示，在上述图2所示实施例的基础上，步骤204可以实现为：

步骤2041，确定每个视角对应的图像采集装置到车辆的外参。

车辆的外参即图像采集装置在世界坐标系中的位姿，可以包括例如图像采集装置间的间距、视场角的大小、视角方向、在车辆上的安装位置坐标等至少一个。

在一些实施例中，车辆的外参数据可以通过输入设备预先输入，并由存储单元(例如，存储器、数据库、云存储单元等)进行存储，在实施本步骤时，电子设备可以从存储单元调取车辆的外参。

在另一些实施例中，车辆的外参数据也可以是电子设备通过采集器(例如，传感器)与图像采集装置连接，以实时采集图像采集装置的外参。采集器可以安装在图像采集装置上。

步骤2042，基于外参，将每个视角对应的点云数据变换至车辆坐标系下。

点云数据是对图像采集装置采集的图像进行处理得到，因此，本步骤中点云数据仍然是图像采集装置的坐标系下，因此，要对点云数据进行坐标变换，以变换自车辆坐标系下，例如ISO国际标准定义的车辆坐标系：

表2

	ISO定义
		X正方向	前
Y正方向	左
		Z正方向	上
横滚正方向	向右
		俯仰正方向	向下
偏航正方向	逆时针
		中心	车辆重心
右手坐标系	是

如表2所示，为ISO国际标准定义的车辆坐标系，本发明实施例中，车辆坐标系还可以是SAE(Society of Automotive Engineers)汽车工程师协会定义的车辆坐标系或是基于惯性测量单元IMU定义的车辆坐标系，对此不进行限制，只要是将点云数据所处的图像采集装置的坐标系转换为车辆坐标系即可。

在本申请实施例中，坐标转换的方法即将图像采集装置坐标系下的图像的各个点转换至车辆坐标系下的各个点的对应关系，例如，假设图像采集装置与车辆的坐标系之间只存在绕Z轴的旋转，则坐标系之间旋转可以仅在OXY平面内，从而得到图像采集装置的坐标系与车辆坐标系的转换转系，而图像采集装置对于车辆存在相对坐标，因此，可以在基于该相对坐标对图像采集装置采集的图像的各点(点云数据)进行坐标平移，从而得到图像采集装置采集的图像的各点(点云数据)在车辆坐标系下对应的坐标值，以实现每个视角对应的点云数据变换至车辆坐标系下。在另一些实施例中，坐标转换的方法还可以参考相关技术中的实现方法，在此不一一赘述。

步骤2043，对同一车辆坐标系下的所有视角的点云数据进行加和运算，得到车辆的周视点云数据。

通过前述实施例，结合图像采集装置的外参数据将点云数据转换至车辆坐标系下，进而对所有视角的点云数据进行加和运算，以得到车辆的周视点云数据，结合图像采集装置的外参进行坐标转换，可以使图像中的各点一一对应至车辆坐标系下，使得坐标系转换的准确度更高，此外，在车辆坐标系下对所有视角的点云数据进行加和，可以将二维图像信息转换至三维图像信息，提高车辆3D感知的精度。

如图4所示，在上述图2所示实施例的基础上，本申请实施例的一种车辆周视点云的生成方法还可以包括如下步骤：

步骤205，从多个视角中确定出第一视角以及与第一视角相邻的第二视角。

在本申请实施例中，电子设备可以基于图像采集装置的坐标位置、图像与图像采集装置的关联关系等，从多个视角的图像中，确定出第一视角和与其相邻的第二视角。其中，第一视角与第二视角的相邻关系可以是第一视角和第二视角各自对应的图像采集装置的相邻关系，例如，第一视角和第二视角分别由两个相邻位置的图像采集装置采集得到。示例性地，假设在车辆的左侧A柱、右侧A柱、左侧C柱、右侧C柱上分别部署图像采集装置M、N、P和Q，即：

表3

安装位置	图像采集装置名称
		左侧A柱	M
右侧A柱	N
		左侧C柱	P
右侧C柱	Q

如表3所示，示例性地，图像采集装置M与图像采集装置N、图像采集装置M与图像采集装置P可以为相邻位置的图像采集装置，则假设第一视角的图像来自图像采集装置M，第二视角的图像可以来自图像采集装置N和/或图像采集装置P；图像采集装置N与图像采集装置M、图像采集装置N与图像采集装置Q可以为相邻位置的图像采集装置，则假设第一视角的图像来自图像采集装置N，第二视角的图像可以来自图像采集装置M和/或图像采集装置Q；以此类推，在此不再一一赘述。

步骤206，确定第一视角与第二视角之间的重叠深度信息。

在本申请一些实施例中，可以通过相邻位置的两个图像采集装置各自的安装位置坐标、各自对应的视场角来确定其采集到的不同视角的图像的重叠区域，从而确定出重叠深度信息。

在一另些实施例中，还可以基于相邻位置的两个图像采集装置各自采集的图像(第一视角的图像和第二视角的图像)，来确定重叠深度信息，例如，将第一视角与第二视角之间具有相同像素值的图像的深度信息确定为第一视角与第二视角的重叠深度信息。

步骤207，针对重叠深度信息，对重叠深度信息进行去重处理。

在图像采集过程中，相邻的图像采集装置之间的视场(视野)范围可能会出现重叠的情况，因此，来自相邻的图像采集装置的第一视角和第二视角之间的深度信息可能出现重叠(即，重叠深度信息)，而重叠的深度信息可能会影响图像的质量或图像处理的精度，以及图像处理的效率等，通过上述实施例对重叠深度信息进行去重处理，以提高应用深度信息生成点云数据的数据精度，以及后期深度信息处理的重复率和复杂度，提升深度信息数据处理效率。

如图5所示，在图4所示实施例的基础上，步骤207进行重叠深度信息去重处理可以通过如下步骤实现：

步骤2071，基于第一视角对应的深度信息、第一视角对应的图像采集装置与第二视角对应的图像采集装置的外参，对第一视角的图像进行图像重投影，以得到第二视角的变换图像。

以第一视角为前视角、第二视角为左视角为例，确定前视角对应的图像采集装置到左视角对应的图像采集装置的外参，再结合前视角的深度信息来确定左视角的变换图像，示例性地，可以通过如下投影公式实现：

I_l＝kT_f→lk^-1D_fI_f

其中，I_l为左视角的变换图像，k为前视角对应的图像采集装置到左视角对应的图像采集装置的外参，T_f→l为前视角至左视角的帧间运动信息，D_f为前视角的图像深度信息，I_f为前视角的图像。

步骤2072，基于第二视角对应的深度信息、第二视角对应的图像采集装置与第一视角对应的图像采集装置的外参，对第二视角的图像进行图像重投影，以得到第一视角的变换图像。

仍然以第一视角为前视角、第二视角为左视角为例，在步骤2071对应的实施例的基础上，再确定前视角的变换图像，示例性地，可以通过如下投影公式实现：

其中，

为左视角的变换图像，k为左视角对应的图像采集装置到前视角对应的图像采集装置的外参，T_l→f为左视角至前视角的帧间运动信息，D_l为前视角的图像深度信息，I_l为前视角的图像。

步骤2073，确定第一视角的变换图像与第二视角的变换图像的像素距离是否在预设范围内。

在本步骤实施例中，是基于变换图像来对重叠深度图像中的深度信息进行一致性校验，示例性地，可以先第一视角的变换图像与第二视角的变换图像的像素距离，例如可以将第一视角的变换图像的任一像素的像素值与该像素重叠的像素(第二视角的变换图像中的)的像素值进行减法运算，或者进行减法运算后再进行绝对值转换处理。再确定差值或者差值绝对值是否在预设范围内，如果在该预设范围内，则确定重叠深度图像中的深度信息满足一致性，反之，则确定重叠深度图像中的深度信息不满足一致性。其中，预设范围可以通过多次深度信息去重实验确定，或者通过资深专家的经验确定，例如可以为≤1或者≤2或者≤3≤4≤5。

步骤2074，删除重叠深度信息中的、像素距离不在预设范围内的像素。

在确定任一两个像素的像素距离不在预设范围的情况下，删除该两个像素之一或者两个像素同时删除，以实现重叠深度信息去重。

本实施例通过像素距离来进行一致性校验，并基于一致性校验结果实现重叠深度信息去重，可以避免去重过程中像素误删或者少删，因此，通过本实施例提高深度信息去重的准确率，且尽量保留图像的像素信息，以保证去重后的图像的图像质量，进而保证基于深度信息确定出的点云数据的准确、完整。

如图6所示，在图4或图5所示实施例的基础上，步骤207还可以包括如下步骤：

步骤2075，针对重叠深度信息，基于第一视角对应的深度信息的置信度、第二视角对应的深度信息的置信度对该重叠深度信息进行去重处理。

在一些实施例中，步骤2075可以包括如下步骤：

步骤2075a，针对重叠深度信息，将第一视角对应的深度信息的置信度、第二视角对应的深度信息的置信度分别与预设置信度阈值进行比较。

在步骤202中确定的深度信息，还可以包括每个深度信息对应的置信度(例如概率)，在本步骤中，结合深度信息及其置信度，针对重叠深度信息，把每个视角的深度信息的置信度与预设置信度阈值进行比较。例如，A和B为重叠深度信息，将A的置信度和B的置信度分别与预设置信度阈值进行比较。

步骤2075b，删除重叠深度信息中的、任一所述置信度小于预设置信度阈值的像素。

仍以A和B为重叠深度信息为例，假设A和B中，A的置信度小于预设置信度阈值，则将A对应的像素删除，以实现重叠深度信息去重。

需要说明的是，步骤2075可以是在图4所示实施例的步骤207的实现步骤，即步骤207可以基于深度信息的置信度实现；也可以是在图5所示实施例的基础上，进行二次去重，以提升对重叠深度信息的去重准确度，一方面避免“误去重”，即误删除非重叠的深度信息，另一方面，避免重叠深度信息引起的重复计算，以提升计算效率。

通过将深度信息的置信度较低的像素删除，实现重叠深度信息去重，置信度的高低可以表示图像质量的好坏，对于置信度较低的像素其图像质量可能较差，删除置信度较低的像素，保留置信度较高的像素，既对重叠深度信息进行去重，又能够保证图像的质量；而若在图5实施例的基础上进行二次去重，可以以提升对重叠深度信息的去重准确度，一方面避免“误去重”，即误删除非重叠的深度信息，另一方面，避免重叠深度信息引起的重复计算，以提升计算效率。

前述图1至图6详细描述了本申请实施例的一种车辆周视点云的生成方法，而对于点云的生成，深度信息的确定是关键，本申请中除了可以采用相关技术中深度信息的确定方法，本申请还提供了一种深度估计模型训练方法，通过该方法训练得到深度估计模型，进而基于该深度估计模型确定图像深度信息，以实现车辆周视点云的生成。

下面，将结合附图对本申请的一种深度估计模型训练方法的实施例进行详细介绍。图7是本申请一示例性实施例提供的深度估计模型训练方法的流程示意图。

如图7所示，本申请实施例的一种深度估计模型训练方法，可以包括如下步骤：

步骤701，从第一视频流中确定第一帧图像及与第一帧图像相邻的第二帧图像。

任一图像采集装置采集得到视频流数据，例如第一视频流，该视频流可以包括两帧或两帧以上的图像。在本步骤中，从第一视频流中确定出相邻的两帧图像，例如第t帧图像(即对应第一帧图像)和第t-1帧图像(即对应第二帧图像)。

步骤702，确定第一帧图像和第二帧图像之间的帧间运动信息。

帧间运动信息可以为第一帧图像和第二帧图像的任一对应像素的相对位移矢量。确定相邻两帧图像的帧间运动信息的方法可以采用前向运动估计算法或者后向运动估计算法。

在本申请实施例中，确定相邻两帧图像的帧间运动信息的方法可以采用运动估计神经网络模型(例如帧间运动预测网络)，以相邻两帧图像作为运动估计神经网络模型的输入，该相邻两帧图像的帧间运动信息即为输出。其中，运动估计神经网络模型可以是以大量的相邻两帧图像与对应的帧间运动信息作为训练样本训练得到的。

步骤703，通过深度估计神经网络确定第一帧图像的深度信息。

将第一帧图像作为深度估计神经网络，该深度估计神经网络输出该第一帧图像的深度信息，并且该深度信息为稠密深度信息。深度估计神经网络可以是预先设置的，用于对任一帧图像进行深度信息初步估计，以得到该帧图像的稠密深度信息。而稠密深度信息可以更完整、准确地反应图像的信息。

步骤704，根据帧间运动信息、第一帧图像的深度信息、采集第一视频流的图像采集装置的预设采集参数，确定第一帧图像的重构图像。

第一帧图像的重构图像即建立了第一帧图像与其相邻的第二帧图像的对应关系。在一些实施例中，可以通过对相邻帧图像的帧间运动信息、第一帧图像的深度信息、采集第一视频流的图像采集装置的预设采集参数进行逆投影成像运算，以得到第一帧图像的重构图像。

步骤705，基于第一帧图像及重构图像，训练深度估计神经网络。

在本步骤中根据任一帧图像及其对应的重构图像对深度估计神经网络进行训练，使得训练得到的深度估计神经网络为一自监督的深度估计模型，而无需对图像或者其重构图像进行标注。

在本申请实施例中，基于相邻两帧图像之间的帧间运动信息，任一帧图像的深度信息和图像采集装置的采集参数得到该帧图像的重构图像，进而基于该帧图像及其重构图像对深度估计神经网络进行训练，从而得到深度估计模型，因此，在深度估计模型训练过程中是利用图像和图像采集装置的几何约束(图像采集装置的采集参数)对神经网络进行耦合训练，而无需对图像进行标注，从而减少模型训练的成本。

如图8所示，在图7所示实施例的基础上，步骤704还可以包括如下步骤：

步骤7041，确定第一视频流的图像采集装置的内参。

图像采集装置的内参，在此不再进行详述，可以参见前述实施例中关于内参的内容。不同的图像采集装置，其对应的内参可能相同也可能不同，具体根据图像采集装置所部署的场景等进行确定。

步骤7042，基于图像采集装置的内参确定图像采集装置的预设采集参数。

在本步骤中，可以将确定的图像采集装置的内参，确定为图像采集装置的预设采集参数，例如，可以从存储器中获取存储的内参信息，以内参信息作为预设采集参数，以进行后续的处理。

步骤7043，基于帧间运动信息、第一帧图像的深度信息、采集第一视频流的图像采集装置的预设采集参数进行逆投影成像运算，确定第一帧图像的第一重构图像。

在本申请实施例中，可以采用如下公式实现步骤7043：

I_t-1＝kT_t→t-1k^-1D_tI_t

其中，I_t-1为(t-1)帧图像，I_t为t帧图像，T_t→t-1为t帧图像到(t-1)帧图像的帧间运动，D_t为t帧图像的深度信息，k为图像采集装置的内参；通过前述公式确定了(t-1)帧图像与t帧图像的对应关系后，可以进一步对(t-1)帧图像进行逆投影成像运算，进而确定出t帧图像的第一重构图像，其中，逆投影成像算法可以参考相关算法，在此不进行详述。

而基于前述图像采集装置的内参、帧间运动信息、第一帧图像的深度信息，尽管可以实现自监督的训练神经网络，但是此时训练神经网络只用了一个图像采集装置的视角图像，因此，训练出的神经网络并不具有真实尺度。基于此，本申请实施例还提供了如图9所示的实施例，在图8的基础上，本申请还可以包括如下步骤：

步骤706，确定采集所述第一视频流的图像采集装置与采集第二视频流的图像采集装置之间的外参，其中，第一视频流的图像采集装置与第二视频流的图像采集装置之间视角方向为相邻视角方向。

图像采集装置的外参信息在此处不再进行详述，可以参考前述实施例中外参相关的描述。在本步骤中，第一视频流的图像采集装置和第二视频流的图像采集装置可以是分别部署在车辆不同位置、采集不同视角图像的两个图像采集装置，并且该两个图像采集装置的视角方向为相邻视角方向，例如，前视角与左视角，和/或，前视角与右视角。确定了图像采集装置，根据图像采集装置的安装位置，进而确定第一视频流的图像采集装置到第二视频流的图像采集装置的外参，例如第一视频流的图像采集装置到第二视频流的图像采集装置的距离。

在此基础上，步骤704还可以包括有如下步骤：

步骤7044，基于所帧间运动信息、第一帧图像深度信息、及采集第一视频流的图像采集装置与采集第二视频流的图像采集装置之间的外参进行逆投影成像运算，确定第一帧图像的第二重构图像。

本步骤进行逆投影成像运算可以参考前述实施例中的步骤7043，为了简洁，在此不再详细描述。

与步骤7043不同的是，本步骤引入了第二视频流的图像采集装置，以在对第一帧图像进行图像重构中，引入第一视频流的图像采集装置与第二视频流的图像采集装置之间的外参，由于外参带有真实尺度，而将真实尺度引入神经网络中，实现自监督式的具有真实尺度的网络训练，得到具有真实尺度的深度估计模型。

为了更清楚地对前述图8至图9所示的重构图像的技术方案，下面结合图10，对重构图像的技术方案进行详细、完整的描述。

如图10所示，需要说明的是，本实施例中，以第一视频流为的图像采集装置为前视角图像采集装置的为例，重构图像的技术方案的流程可以包括如下步骤：

步骤1001，从第一视频流中确定出第一帧图像和第一帧图像的相邻帧图像，即初始帧F_t和其相邻帧F_t-1；

步骤1002，将F_t和F_t-1输入帧间运动预测网络PoseNet，以使帧间运动预测网络PoseNet对F_t和F_t-1进行帧间运动信息预测；

步骤1003，帧间运动预测网络PoseNet输出帧间运动信息T_t-1->t；

步骤1004，将初始帧F_t输入深度估计神经网络DepthNet；

步骤1005，深度估计神经网络输出初始帧F_t的深度信息D_t；

步骤1006，基于初始帧F_t、初始帧F_t的深度信息、帧间运动信息、第一视频流的图像采集装置的内参，确定出初始帧F_t的重构图像

步骤1007，确定左视角的图像采集装置到前视角的图像采集装置的外参；即第一视频流的图像采集装置与其对应的相邻视角之一的图像采集装置的外参；

步骤1008，基于初始帧F_t、初始帧F_t的深度信息、帧间运动信息和步骤1007确定的外参，确定初始帧F_t的重构图像

步骤1009，确定右视角的图像采集装置到前视角的图像采集装置的外参；即第一视频流的图像采集装置与其对应的相邻视角另一的图像采集装置的外参；

步骤1010，基于初始帧F_t、初始帧F_t的深度信息、帧间运动信息和步骤1009确定的外参，确定初始帧F_t的重构图像

在图9所示实施例的基础上，如图11所示，步骤705可以包括如下步骤：

步骤7051，将第一帧图像及第一重构图像作为第一神经网络的输入，训练得到第二神经网络。

步骤7052，将第一帧图像及第二重构图像作为第二神经网络的输入，训练得到深度估计神经网络。

通过前述实施例的相关技术方案确定第一重构图像(结合内参)、第二重构图像(结合外参)，并基于第一帧图像及其第一重构图像和第二重构图像来训练深度估计神经网络，使得深度估计神经网络不仅可以实现自监督，同时还具有真实尺度，使得输出的深度信息更具真实性、更准确。

在前述图7至图11任一实施例的基础上，如图12所示，本申请还可以包括如下步骤：

步骤707，确定第一帧图像与其对应的重构图像之间的损失参数。

步骤708，基于损失参数优化深度估计神经网络的网络参数。

基于第一帧图像与其对应的重构图像之间的损失参数来优化深度估计神经网络的网络参数，损失参数越小，优化得到的深度估计神经网络的网络参数越精确，因此，提升深度估计神经网络的训练精度，进而提高深度估计神经网络输出的深度信息的准确性。

示例性装置

对应前述图2至图12所示的方法实施例，本申请还提供了与方法实施例对应的相关装置。下面结合附图，对本申请提供的相关装置进行详细描述，需要说明的是，装置实施例的实现技术方案、原理及技术效果与对应的方法实施例一致，为了简洁，本部分将不再对装置实施例的具体技术方案再进行描述。

如图13所示，车辆周视点云的生成装置可以包括：第一确定模块1301、第二确定模块1302、第一点云模块1303和第二点云模块1304。

第一确定模块1301可以用于确定来自车辆的多个图像采集装置采集的多个视角的多幅同步帧图像。

第二确定模块1302可以用于确定所述多幅同步帧图像各自的深度信息。

第一点云模块1303可以用于根据所述多个视角各自对应的图像采集装置的采集参数、帧同步图像和深度信息，生成该视角对应的点云数据。

第二点云模块1304可以用于基于所述多个视角各自对应的点云数据，确定所述车辆的周视点云。

如图14所示，在图13所示装置的基础上，车辆周视点云的生成装置还可以包括：第三确定模块1305、第四确定模块1306和去重模块1307。

第三确定模块1305可以用于从所述多个视角中确定出第一视角以及与所述第一视角相邻的第二视角。

第四确定模块1306可以用于确定所述第一视角与所述第二视角之间的重叠深度信息。

去重模块1307可以用于针对所述重叠深度信息，对所述重叠深度信息进行去重处理。

此外，第四确定模块1306可以包括第一确定单元1306a。第一确定单元1306a可以用于将所述第一视角与第二视角之间具有相同像素值的图像的深度信息确定为所述第一视角与第二视角的重叠深度信息。

在一些实施例中，去重模块1307可以包括第一重投影单元1307a、第二重投影单元1307b、第二确定单元1307c和删除单元1307d。其中，第一重投影单元1307a可以用于基于所述第一视角对应的深度信息、所述第一视角对应的图像采集装置与所述第二视角对应的图像采集装置的外参，对所述第一视角的图像进行图像重投影，以得到所述第二视角的变换图像。第二重投影单元1307b可以用于基于所述第二视角对应的深度信息、所述第二视角对应的图像采集装置与所述第一视角对应的图像采集装置的外参，对所述第二视角的图像进行图像重投影，以得到所述第一视角的变换图像。第二确定单元1307c可以用于确定所述第一视角的变换图像与所述第二视角的变换图像的像素距离是否在预设范围内。删除单元1307d可以用于删除所述重叠深度信息中的、所述像素距离不在预设范围内的像素。

在另一些实施例中，去重模块1307还可以包括第一去重单元1307e。第一去重单元1307e可以用于针对所述重叠深度信息，基于所述第一视角对应的深度信息的置信度、所述第二视角对应的深度信息的置信度对该重叠深度信息进行去重处理。

其中，第一去重单元1307e还可以包括置信度比较子单元(图中未示出)和删除子单元(图中未示出)：置信度比较子单元可以用于针对所述重叠深度信息，将所述第一视角对应的深度信息的置信度、所述第二视角对应的深度信息的置信度分别与预设置信度阈值进行比较；删除子单元可以用于删除所述重叠深度信息中的、任一所述置信度小于所述预设置信度阈值的像素。

在本申请实施例中，第一点云模块1303可以包括运算单元1303a，运算单元1303a可以用于对所述多个视角中任一视角对应的图像采集装置的外参、帧同步图像和深度信息进行矩阵乘法运算，生成该视角对应的点云数据。

在本申请实施例中，第二点云模块1304可以包括第三确定单元1304a、坐标变换单元1304b和加和运算单元1304c：

第三确定单元1304a可以用于确定每个视角对应的图像采集装置到所述车辆的外参。

坐标变换单元1304b可以用于基于所述外参，将每个视角对应的点云数据变换至车辆坐标系下。

加和运算单元1304c可以用于对同一车辆坐标系下的所有视角的点云数据进行加和运算，得到所述车辆的周视点云数据。

通过本申请实施例，通过多个图像采集装置采集的多个视角的同步帧图像、多个视角的同步帧图像的深度信息、图像采集装置的采集参数进而确定出车辆的周视点云，因此，本申请实施例仅依靠图像采集装置(例如，相机)的自监督生成周视点云，并无需部署激光雷达，部署成本低，图像采集装置受天气、空气等影响小，采集的图像更清晰，最终确定的点云数据更准确；以及，相对单个图像采集装置而言，利用多个图像采集装置的多个视角的深度信息生成的车辆的周视点云，其周视点云可以具有真实尺度，其精准度更高。

如图15所示，本申请实施例的一种深度估计模型训练装置可以包括图像确定模块1501、帧间运动信息确定模块1502、深度信息确定模块1503、图像重构模块1504和训练模块1505，其中：

图像确定模块1501可以用于从第一视频流中确定第一帧图像及与所述第一帧图像相邻的第二帧图像；

帧间运动信息确定模块1502可以用于确定所述第一帧图像和所述第二帧图像之间的帧间运动信息；

深度信息确定模块1503可以用于通过深度估计神经网络确定所述第一帧图像的深度信息；

图像重构模块1504可以用于根据所述帧间运动信息、所述第一帧图像的深度信息、采集所述第一视频流的图像采集装置的预设采集参数，确定所述第一帧图像的重构图像；

训练模块1505可以用于基于所述第一帧图像及所述重构图像，训练所述深度估计神经网络。

在图15所示实施例的基础上，图16提供了另一示例性实施例的深度估计模型训练装置。

如图16所示，本申请实施例提供的深度估计模型训练装置还可以包括外参确定模块1506、损失参数确定模块1507和网络参数优化模块1508。其中：

外参确定模块1506可以用于确定采集所述第一视频流的图像采集装置与采集第二视频流的图像采集装置之间的外参，所述第一视频流的图像采集装置与所述第二视频流的图像采集装置之间视角方向相邻视角方向。

损失参数确定模块1507可以用于确定所述第一帧图像与其对应的重构图像之间的损失参数；以及，网络参数优化模块1508可以用于基于所述损失参数优化所述深度估计神经网络的网络参数。

以及，图像重构模块1504可以包括内参确定单元1504a、采集参数确定单元1504b和第一重构图像确定单元1504c，其中：

内参确定单元1504a可以用于确定所述第一视频流的图像采集装置的内参；

采集参数确定单元1504b可以用于基于所述图像采集装置的内参确定所述图像采集装置的预设采集参数；

第一重构图像确定单元1504c可以用于基于所述帧间运动信息、所述第一帧图像的深度信息、采集所述第一视频流的图像采集装置的预设采集参数进行逆投影成像运算，确定所述第一帧图像的第一重构图像。

在另一些实施例中，图像重构模块1504还可以包括第二重构图像确定单元1504d：第二重构图像确定单元1504d可以用于基于所述帧间运动信息、所述第一帧图像深度信息、及采集所述第一视频流的图像采集装置与采集第二视频流的图像采集装置之间的外参进行逆投影成像运算，确定所述第一帧图像的第二重构图像。

训练模块1505可以包括第一训练单元1505a和第二训练单元1505b。其中：

第一训练单元1505a可以用于将所述第一帧图像及所述第一重构图像作为第一神经网络的输入，训练得到第二神经网络；

第二训练单元1505b可以用于将所述第一帧图像及所述第二重构图像作为所述第二神经网络的输入，训练得到所述深度估计神经网络。

在本申请提供的深度估计模型训练装置中，基于相邻两帧图像之间的帧间运动信息，任一帧图像的深度信息和图像采集装置的采集参数得到该帧图像的重构图像，进而基于该帧图像及其重构图像对深度估计神经网络进行训练，从而得到深度估计模型，因此，在深度估计模型训练过程中是利用图像和图像采集装置的几何约束(图像采集装置的采集参数)对神经网络进行耦合训练，而无需对图像进行标注；同时结合了图像、图像采集装置的几何约束和相邻两帧图像之间的帧间运动信息(即里程计)确定重构图像，进而通过最小化重构图像(重投影)误差来优化神经网络参数以得到深度估计模型，使得通过该深度估计模型可以自监督的获取带有真实尺度的深度信息。

示例性电子设备

下面，参考图17来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图17图示了根据本申请实施例的电子设备的结构框图。

如图17所示，电子设备17包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备17中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的声源定位方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备17还可以包括：输入装置13和输出装置14，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图17中仅示出了该电子设备17中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备17还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声源定位方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的声源定位方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种车辆周视点云的生成方法，其中，所述方法包括：

确定所述多幅同步帧图像各自的深度信息；

2.根据权利要求1所述的方法，其中，所述方法还包括：

从所述多个视角中确定出第一视角以及与所述第一视角相邻的第二视角；

确定所述第一视角与所述第二视角之间的重叠深度信息；

针对所述重叠深度信息，对所述重叠深度信息进行去重处理。

3.根据权利要求2所述的方法，其中，所述确定所述第一视角及第二视角之间的重叠深度信息，包括：

将所述第一视角与第二视角之间具有相同像素值的图像的深度信息确定为所述第一视角与第二视角的重叠深度信息。

4.根据权利要求2所述的方法，其中，所述针对所述重叠深度信息，对所述重叠深度信息进行去重处理，包括：

基于所述第一视角对应的深度信息、所述第一视角对应的图像采集装置与所述第二视角对应的图像采集装置的外参，对所述第一视角的图像进行图像重投影，以得到所述第二视角的变换图像；

基于所述第二视角对应的深度信息、所述第二视角对应的图像采集装置与所述第一视角对应的图像采集装置的外参，对所述第二视角的图像进行图像重投影，以得到所述第一视角的变换图像；

确定所述第一视角的变换图像与所述第二视角的变换图像的像素距离是否在预设范围内；

删除所述重叠深度信息中的、所述像素距离不在预设范围内的像素。

5.根据权利要求1所述的方法，其中，所述根据所述多个视角各自对应的图像采集装置的采集参数、帧同步图像和深度信息，生成该视角对应的点云数据，包括：

对所述多个视角中任一视角对应的图像采集装置的内参、帧同步图像和深度信息进行矩阵乘法运算，生成该视角对应的点云数据。

6.一种深度估计模型训练方法，其中，包括：

通过深度估计神经网络确定所述第一帧图像的深度信息；

7.根据权利要求6所述的方法，其中，根据所述帧间运动信息、所述第一帧图像的深度信息、采集所述第一视频流的图像采集装置的预设采集参数，确定所述第一帧图像的重构图像，包括：

确定所述第一视频流的图像采集装置的内参；

基于所述图像采集装置的内参确定所述图像采集装置的预设采集参数；

基于所述帧间运动信息、所述第一帧图像的深度信息、采集所述第一视频流的图像采集装置的预设采集参数进行逆投影成像运算，确定所述第一帧图像的第一重构图像。

8.一种车辆周视点云的生成装置，包括：

9.一种深度估计模型训练装置，其中，包括：

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-7任一所述的方法。