CN114913506A

CN114913506A - 一种基于多视角融合的3d目标检测方法及装置

Info

Publication number: CN114913506A
Application number: CN202210544237.0A
Authority: CN
Inventors: 李翔宇; 朱红梅; 张骞; 任伟强
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-16
Also published as: WO2023221566A1

Abstract

本公开实施例公开了一种基于多视角融合的3D目标检测方法及装置。在该方法中，对多摄相机***采集的多摄相机视角的至少一幅图像进行特征提取，并基于多摄相机***的内部参数和载具参数，将提取到的在多摄相机视角空间下包含目标物体特征的特征数据映射至同一个鸟瞰视角空间，得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据，通过特征融合得到鸟瞰视角融合特征。对鸟瞰视角融合特征中的目标物体进行目标预测，得到目标物体的三维空间信息。通过本公开实施例的方案进行基于多视角融合的3D目标检测时，先进行多视角的特征融合再进行3D目标检测，端到端的完成鸟瞰视角下的场景物体3D检测，提高检测效率。

Description

一种基于多视角融合的3D目标检测方法及装置

技术领域

本公开涉及计算机视觉领域，具体涉及一种基于多视角融合的3D目标检测方法及装置。

背景技术

随着科技的发展，自动驾驶技术在人们生活中的应用越来越广泛。自动驾驶载体可以对周围一定距离内的目标物体(车辆、行人、骑车人等)进行3D检测，以获得目标物体的三维空间信息。基于目标物体的三维空间信息对目标物体进行测距、测速，以实现更好的驾驶控制。

目前，自动驾驶载体可以采集视角不同的多幅图像，然后分别对每一幅图像进行3D检测，最后对各幅图像的3D检测结果进行融合，以生成载体周围环境的目标物体的三维空间信息。

发明内容

现有的技术方案需要对自动驾驶载体采集的每一幅图像分别进行3D检测，然后再对各幅图像的3D检测结果进行融合，以获取载体周围360度环境的他车信息，导致检测效率较低。

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种基于多视角融合的3D目标检测方法及装置。

根据本公开的一个方面，提供了一种基于多视角融合的3D目标检测方法，包括：

获取采集的来自多摄相机视角的至少一幅图像；

对所述至少一幅图像进行特征提取，得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据；

基于多摄相机***的内部参数和载具参数，将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间，得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据；

将所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到的鸟瞰视角融合特征；

对所述鸟瞰视角融合特征中的目标物体进行目标预测，得到所述目标物体的三维空间信息。

根据本公开的另一个方面，提供了一种基于多视角融合的3D目标检测装置，包括：

图像接收模块，用于获取采集的来自多摄相机视角的至少一幅图像；

特征提取模块，用于对所述图像接收模块获取的所述至少一幅图像进行特征提取，得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据；

图像特征映射模块，用于基于多摄相机***的内部参数和载具参数，将所述特征提取模块获得的所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间，得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据；

图像融合模块，用于将所述图像映射模块得到的所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到鸟瞰视角融合特征；

3D检测模块，用于对所述图像融合模块得到的所述鸟瞰视角融合特征中的目标物体进行目标预测，得到目标物体的三维空间信息。

根据本公开的又一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述的基于多视角融合的3D目标检测方法。

根据本公开的再一个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的基于多视角融合的3D目标检测方法。

基于本公开上述实施例提供的一种基于多视角融合的3D目标检测方法及装置，对多摄相机***采集的多摄相机视角的至少一幅图像进行特征提取，并基于多摄相机***的内部参数，将提取到的在多摄相机视角空间下包含目标物体特征的特征数据映射至同一个鸟瞰视角空间，得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据，并将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到鸟瞰视角融合特征。再对鸟瞰视角融合特征中的目标物体进行目标预测，得到目标物体的三维空间信息。通过本公开实施例的方案进行基于多视角融合的3D目标检测时，先进行多视角的特征融合再进行3D目标检测，端到端的完成鸟瞰视角下的场景物体3D目标检测，避免在常规多视角3D检测上的后处理阶段，提高检测效率。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的场景图。

图2是本公开实施例提供的车载自动驾驶***的***框图。

图3是本公开一示例性实施例提供的基于多视角融合的3D目标检测方法的流程图。

图4是本公开一示例性实施例提供的多摄相机***采集图像的示意框图。

图5是本公开一示例性实施例提供的来自多摄相机视角的图像的示意图。

图6是本公开一示例性实施例提供的特征提取的示意框图。

图7是本公开一示例性实施例提供的从多摄相机***采集的图像生成鸟瞰视角图像的示意图。

图8是本公开一示例性实施例提供的目标检测的示意框图。

图9是本公开一示例性实施例提供的确定鸟瞰视角空间下特征数据的流程图。

图10是本公开一示例性实施例提供的执行步骤S303和步骤S304的示意框图。

图11是本公开一示例性实施例提供的目标检测的流程图。

图12是本公开一示例性实施例提供的预测网络的输出结果示意图。

图13是本公开一示例性实施例提供的目标检测的另一流程图。

图14是本公开一示例性实施例提供的高斯核的示意图。

图15是本公开一示例性实施例提供的热力图的示意图。

图16是本公开一示例性实施例提供的目标检测的又一流程图。

图17是本公开一示例性实施例提供的基于多视角融合的3D目标检测装置的结构图。

图18是本公开一示例性实施例提供的基于多视角融合的3D目标检测装置的另一结构图。

图19是本公开一示例性实施例提供的电子设备的结构框图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

申请概述

为保证自动驾驶过程中的安全，自动驾驶载体可以对载体周围一定距离内的目标物体(例如：车辆、行人、骑车人等)进行实时检测，以获得3D目标物体的三维空间信息(例如：位置、尺寸、朝向角和类别等属性)。基于目标物体的三维空间信息对目标物体进行测距、测速，以实现更好的驾驶控制。其中，自动驾驶载体可以为车辆、飞机等。

自动驾驶载体可以利用多摄相机***采集视角不同的多幅图像，然后分别对每一幅图像进行3D目标检测，如对不同视角相机采集的多幅图像分别进行目标物体的过滤、去重等操作。最后对各幅图像的3D检测结果进行融合，以生成载体周围环境的目标物体的三维空间信息。可见，现有的技术方案需要对自动驾驶载体采集的每一幅图像分别进行3D检测，然后再对各幅图像的3D检测结果进行融合，导致检测效率较低。

有鉴于此，本公开实施例提供一种基于多视角融合的3D目标检测方法及装置。通过本公开的方案进行3D目标检测时，自动驾驶载体可以对多摄相机***采集的多摄相机视角的至少一幅图像进行特征提取，得到在多摄相机视角空间下包含目标物体特征的特征数据。并基于多摄相机***的内部参数和载具参数，将在多摄相机视角空间下的特征数据映射至同一个鸟瞰视角空间，得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。再将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到鸟瞰视角融合特征；对鸟瞰视角融合特征中的目标物体进行目标预测，得到载体周围环境的目标物体的三维空间信息。

本公开实施例的方案进行基于多视角融合的3D目标检测时，将至少一幅图像在多摄相机视角下的特征数据同时映射至同一个鸟瞰视角空间，能够进行更合理，效果更好的融合。同时，通过融合的鸟瞰视角融合特征直接在鸟瞰视角空间检测出车载环境周围内各个目标物体的三维空间信息。因此，通过本公开实施例的方案进行基于多视角融合的3D目标检测时，先进行多视角的特征融合再进行3D目标检测，端到端的完成鸟瞰视角下的场景物体3D目标检测，避免在常规多视角3D目标检测上的后处理阶段，提高检测效率。

示例性***

本公开实施例可应用于需要进行3D目标检测的应用场景中，例如自动驾驶应用场景。

例如，在自动驾驶的应用场景中，在自动驾驶载体(下文简称“载体”)上配置多摄相机***，通过多摄相机***采集不同视角的图像，然后通过本公开实施例的方案基于多视角融合的3D目标检测，获得载体周围环境的目标物体的三维空间信息。

图1是本公开所适用的场景图。

如图1所示，本公开实施例应用在辅助驾驶或自动驾驶的应用场景中，辅助驾驶或自动驾驶的载体100上配置车载自动驾驶***200和多摄相机***300，车载自动驾驶***200和多摄相机***300电连接。多摄相机***300用于采集载体周围环境的图像，车载自动驾驶***200用于获取多摄相机***300采集的图像，并进行基于多视角融合的3D目标检测，获得载体周围环境的目标物体的三维空间信息。

图2是本公开实施例提供的车载自动驾驶***的***框图。

如图2所示，车载自动驾驶***200包括图像接收模块201、特征提取模块202、图像特征映射模块203，图像融合模块204和3D检测模块205。图像接收模块201用于获取多摄相机***300采集的至少一幅图像；特征提取模块202用于对图像接收模块201获取的至少一幅图像进行特征提取，获得特征数据；图像特征映射模块203用于将至少一幅图像的特征数据从多摄相机视角空间映射至同一个鸟瞰视角空间；图像融合模块204用于将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到鸟瞰视角融合特征；3D检测模块205用于对图像融合模块204得到的鸟瞰视角融合特征中的目标物体进行目标预测，得到载体周围环境的目标物体在的三维空间信息。

多摄相机***300包括视角不同的多个相机，每个相机用于采集一个视角的环境图像，多个相机覆盖载体周围360度的环境范围。每个相机定义自己的相机视角坐标系，通过各自的相机视角坐标系形成各自的相机视角空间，每个相机采集的环境图像为在对应的相机视角空间下的图像。

示例性方法

本实施例可应用在车载自动驾驶***200，如图3所示，包括如下步骤：

步骤S301，获取采集的来自多摄相机视角的至少一幅图像。

其中，至少一幅图像可以是多摄相机***的至少一个相机采集到的。示例性的，该至少一幅图像可以是多摄相机***实时采集的图像，也可以是多摄相机***预先采集的图像。

如图4所示，在一个实施例中，多摄相机***可以实时采集不同视角的多幅图像，如图像1、2……N，并实时将采集到的图像发送给车载自动驾驶***。这样，车载自动驾驶***获取到的图像能够表征当前时刻载体周围环境的真实情况。

如图5中(1)-(6)所示，在一个实施例中，多摄相机***可以包括6个相机。6个相机分别设置在载体的前端、左前端、右前端、后端、左后端和右后端。这样，在任意时刻，多摄相机***均可以采集到6个不同视角的图像，如前视图像(I_front)、左前视图像(I_frontleft)、右前视图像(I_frontright)、后视图像(I_rear)、左后视图像(I_rearleft)和右后视图像(I_rearright)。

其中，每一幅图像中包括但不限于呈现道路、交通信号灯、路牌、车辆(小型车、大巴、卡车等)、行人、骑车人等各类别的目标物体。随着载体周围环境中的目标物体的类别位置等不同，各个图像中包含的目标物体的类别、位置等也不同。

步骤S302，对至少一幅图像进行特征提取，得到至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据。

在一个实施例中，车载自动驾驶***可以分别从每幅图像中提取出在对应相机视角空间下的特征数据。特征数据中可以包含用于描述图像中目标物体的目标物体特征，目标物体特征包括但不限于图像纹理信息、边缘轮廓信息、语义信息等。

其中，图像纹理信息用于表征目标物体的图像纹理，边缘轮廓信息用于表征目标物体的边缘轮廓，语义信息用于表征目标物体的类别。其中，目标物体的类别包括但不限于：道路、交通信号灯、路牌、车辆(小型车、大巴、卡车等)、行人、骑车人等。

图6是本公开一示例性实施例提供的特征提取的示意框图。

如图6所示，车载自动驾驶***可以采用神经网络对至少一幅图像(图像1-N)进行特征提取，得到每幅图像在多摄相机视角空间下各自对应的特征数据1-N。

例如，车载自动驾驶***对前视图像(I_front)进行特征提取，可以得到前视图像(I_front)在前端相机视角空间下的特征数据f_front；对左前视图像(I_frontleft)进行特征提取，可以得到左前视图像(I_frontleft)在左前端相机视角空间下的特征数据f_frontleft；对右前视图像(I_frontright)进行特征提取，可以得到右前视图像(I_frontright)在右前端相机视角空间下的特征数据f_frontright；对后视图像(I_rear)进行特征提取，可以得到后视图像(I_rear)在后端相机视角空间下的特征数据f_rear；对左后视图像(I_rearleft)进行特征提取，可以得到左后视图像(I_rearleft)在左后端相机视角空间下的特征数据f_rearleft；对右后视图像(I_rearright)进行特征提取，可以得到右后视图像(I_rearright)在右后端相机视角空间下的特征数据f_rearright。

步骤S303，基于多摄相机***的内部参数和载具参数，将至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间，得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。

其中，多摄相机***的内部参数包括每个相机的相机内参数和相机外参数，相机内参数是与相机自身特性相关的参数，比如相机的焦距、像素大小等；相机外参数是在世界坐标系中的参数，比如相机的位置、旋转方向等。载具参数是指载具坐标系(VehicleCoordinate System，VCS)到鸟瞰视角坐标系(BEV)的转换矩阵，载具坐标系是载体所在坐标系。

例如，车载自动驾驶***将前视图像(I_front)在前端相机视角空间下的特征数据f_front映射至同一个鸟瞰视角空间，得到前视图像(I_front)在鸟瞰视角空间下的特征数据F_front；将左前视图像(I_frontleft)在左前端相机视角空间下的特征数据f_frontleft映射至同一个鸟瞰视角空间，得到左前视图像(I_frontleft)在鸟瞰视角空间下的特征数据F_frontleft；将右前视图像(I_frontright)在右前端相机视角空间下的特征数据f_frontright映射至同一个鸟瞰视角空间，得到右前视图像(I_frontright)在鸟瞰视角空间下的特征数据F_frontright；将后视图像(I_rear)在后端相机视角空间下的特征数据f_rear映射至同一个鸟瞰视角空间，得到后视图像(I_rear)在鸟瞰视角空间下的特征数据F_rear；将左后视图像(I_rearleft)在左后端相机视角空间下的特征数据f_rearleft映射至同一个鸟瞰视角空间，得到左后视图像(I_rearleft)在鸟瞰视角空间下的特征数据F_rearleft；将右后视图像(I_rearright)在右后端相机视角空间下的特征数据f_rearright映射至同一个鸟瞰视角空间，得到右后视图像(I_rearright)在鸟瞰视角空间下的特征数据F_rearright。

步骤S304，将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到鸟瞰视角融合特征。

其中，鸟瞰视角融合特征用于表征载体周围的目标物体在鸟瞰视角空间下的特征数据，目标物体在鸟瞰视角空间下的特征数据可以包括但不限定于目标物体的形状、尺寸大小、类别、朝向角、相对位置等属性。

在一个实施例中，车载自动驾驶***可以将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行加法特征融合，得到鸟瞰视角融合特征。具体可以表示为以下公式：

F′＝Add(∑F_{(front、frontleft、frontright、rear、rearleft、rearright)})

其中，F′表示鸟瞰视角融合特征，Add表示对至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行的加法特征融合计算。

需要指出的是，步骤S304的实施方式并不局限于此，例如，也可以采用乘法、叠加等方式对不同相机视角的图像在鸟瞰视角空间下各自对应的特征数据进行特征融合。

如图7所示，示例性的，鸟瞰视角图像的大小可以与多摄相机***采集的至少一幅图像的大小相同。鸟瞰视角图像可以体现目标物体的三维空间信息，三维空间信息包括目标物体的至少一种属性信息，该属性包括但不限于3D位置信息(即X轴、Y轴、Z轴的坐标信息)、尺寸信息(即长、宽、高信息)、朝向角信息等。

其中，X轴、Y轴、Z轴的坐标信息是指目标物体在鸟瞰视角空间的坐标位置(x，y，z)，鸟瞰视角空间的坐标系原点位于载体的底盘或者载体中心等任一位置，X轴方向为从前到后的方向，Y轴方向为从左到右的方向，Z轴方向为垂直上下的方向。朝向角是指目标物体的正面方向或行进方向在鸟瞰视角空间下形成的角度，例如，在目标物体为行进的行人时，朝向角是指行人的行进方向在鸟瞰视角空间下形成的角度。在目标物体为静止的车辆时，朝向角是指车辆的车头方向在鸟瞰视角空间下形成的角度。

需要说明的是，由于多摄相机***采集的至少一幅图像中可能包括不同类别的目标物体，因此，鸟瞰视角图像中可能包括不同类别的目标物体的鸟瞰视角融合特征。

步骤S305，对鸟瞰视角融合特征中的目标物体进行目标预测，得到目标物体的三维空间信息。

其中，三维空间信息可以包括：目标物体在鸟瞰视角坐标系下的位置、尺寸和朝向角等属性中的至少一种。位置是指目标物体在鸟瞰视角空间中相对于载体的坐标位置(x，y，z)，尺寸是指目标物体在鸟瞰视角空间中的长宽高(Height、Width、Length)，朝向角是指目标物体在鸟瞰视角空间中的朝向角度(rotation yaw)。

图8是本公开一示例性实施例提供的目标检测的示意框图。

如图8所示，在一个实施例中，车载自动驾驶***可以利用一个或者多个预测网络对鸟瞰视角融合特征中的目标物体进行3D目标预测，得到载体周围环境的每个目标物体的三维空间信息。

如果车载自动驾驶***利用多个预测网络进行3D目标预测时，每个预测网络可以输出目标物体的一个或者多个属性，不同的预测网络输出的属性也不同。

本公开实施例的方案进行基于多视角融合的3D目标检测时，可以先进行多视角的特征融合再进行3D目标检测，端到端的完成鸟瞰视角下的场景物体3D目标检测，避免在常规多视角3D目标检测上的后处理阶段，提高检测效率。

如图9所示，在上述图3所示实施例的基础上，步骤S303可包括如下步骤：

步骤S3031，基于多摄相机***的内部参数和载具参数，确定多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵。

其中，多摄相机***的内部参数包括每个相机的相机内参数和相机外参数，相机外参数是指多摄相机的相机坐标系到载具坐标系的转换矩阵，载具参数是指载具坐标系(Vehicle Coordinate System，VCS)到鸟瞰视角坐标系(BEV)的转换矩阵，载具坐标系是载体所在坐标系。

在一种具体实施方式中，步骤S3031包括：

分别获取多摄相机***中多摄相机的相机内参数和相机外参数，以及，获取载具坐标系到鸟瞰视角坐标系的转换矩阵；

基于多摄相机的相机外参数、相机内参数与载具坐标系到鸟瞰视角坐标系的转换矩阵，确定多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵。

在一个实施例中，车载自动驾驶***可以通过以下公式确定多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H：

HT_vcs→bev@T_camera→vcs@K^-1；

其中，@表示矩阵乘法；T_camera→vcs表示相机坐标系到载具坐标系的转换矩阵，T_camera→vcs表征相机外参数；T_vcs→bev表示载具坐标系到鸟瞰视角坐标系的转换矩阵；K表示相机内参数。

需要说明的是，相机外参数，即相机坐标系到载具坐标系的转换矩阵可以通过多摄相机***的标定得到，一旦标定完成，通常不会变动。载具坐标系到鸟瞰视角坐标系的转换矩阵可以由人为设定的鸟瞰视角的范围(例如前、后、左、右各100米围成的范围)，以及鸟瞰视角图像的分辨率(例如512×512)计算得到。

这样，多摄相机***中的每个相机均可以确定对应的转换矩阵。例如，车载自动驾驶***基于前端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和前端相机的相机内参数，确定前端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H_front→bev；基于左前端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和左前端相机的相机内参数，确定左前端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H_{frontleft→bev}；基于右前端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和右前端相机的相机内参数，确定右前端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H_{frontright→bev}；基于后端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和后端相机的相机内参数，确定后端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H_rear→bev；基于左后端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和左后端相机的相机内参数，确定左后端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H_{rearleft→bev}；基于右后端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和右后端相机的相机内参数，确定右后端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H_{rearright→bev}。

本实施方式中，由于每个相机都具有从自身的相机视角坐标系到鸟瞰视角坐标系的转换矩阵，所以本申请实施例在进行3D目标检测时所采用的预测网络适用于多摄相机***，无需从头训练预测网络，提高检测效率。

步骤S3032，基于多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵，将至少一幅图像在多摄相机视角空间下各自对应的特征数据从多摄相机视角空间转换至鸟瞰视角空间下，得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。

在一个实施例中，车载自动驾驶***可以将各个相机的转换矩阵与各自相机视角空间下的特征数据通过矩阵乘法得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。具体可以表示为以下公式：

F＝H@f。

其中，F表示至少一幅图像在鸟瞰视角空间下各自对应的特征数据F_front、F_frontleft、F_frontright、F_rear、F_rearleft和F_rearright；H表示多摄相机***中各个相机对应的转换矩阵H_front→bev、H_{frontleft→bev}、H_{frontright→bev}、H_rear→bev、H_{rearleft→bev}和H_{rearright→bev}；f表示至少一幅图像在多摄相机视角空间下的特征数据f_front、f_frontleft、f_frontright、f_rear、f_rearleft和f_rearright。

可见，本公开实施例通过对多摄相机***中的不同相机计算各自的转换矩阵(homography)，进而基于每个相机各自的转换矩阵将各自的特征数据映射至鸟瞰视角空间，得到每幅图像在鸟瞰视角空间下各自对应的特征数据，不仅可以适用于不同型号的多摄相机***，还可进行更加合理的特征融合。

需要说明的是，步骤S302和步骤S3031这两个步骤可同步执行也可异步执行，可基于实际应用情况而定。

如图10所示，在步骤S302和步骤S3031全部执行完成后，基于步骤S3031得到的每个相机的相机坐标系到鸟瞰视角坐标系的转换矩阵和步骤S302得到的对应相机视角空间的特征数据进行步骤S3032所述的特征空间转换，得到鸟瞰视角空间的特征数据。最后，执行步骤S304将多摄相机视角的在鸟瞰视角空间的特征数据进行特征融合，得到鸟瞰视角融合特征。

图11是本公开一示例性实施例提供的目标检测的流程图。

如图11所示，在上述图3所示实施例的基础上，步骤S305可包括如下步骤：

步骤S3051、利用预测网络从鸟瞰视角融合特征中获取用于确定目标物体在鸟瞰视角坐标系下的第一预设坐标值对应的热力图，以及，获取用于确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的其他属性图。

其中，预测网络可以为用于对目标物体进行目标预测的神经网络。由于目标物体需进行不同属性的三维空间信息预测，因此，预测网络也可为多种。不同的预测网络用于预测不同属性的三维空间信息。

例如，在需要预测的属性为目标物体的第一预设坐标值时，可以利用第一预设坐标值对应的预测网络对鸟瞰视角图像中的鸟瞰视角融合特征进行处理，获得热力图，以利用热力图确定目标物体在鸟瞰视角坐标系下的第一预设坐标值。热力图的大小可与鸟瞰视角图像的大小相同。

又例如，在需要预测的属性为目标物体的第二预设坐标值、尺寸和朝向角时，可以利用第二预设坐标值、尺寸和朝向角对应的预测网络对鸟瞰视角图像中的鸟瞰视角融合特征进行处理，获得其他属性图，以利用其他属性图确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角。

其中，第一预设坐标值为鸟瞰视角坐标系下的(x，y)位置，第二预设坐标值为鸟瞰视角坐标系下的z位置，尺寸为长宽高，朝向角为朝向角度。

步骤S3052、根据热力图中的峰值信息确定目标物体在鸟瞰视角坐标系下的第一预设坐标值，并且根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从其他属性图中确定目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角。

其中，峰值信息是指高斯核的中心值，即目标物体的中心点。

在预测出目标物体在鸟瞰视角空间下的第一预设坐标值后，由于其他属性图可利用热力图的属性输出结果来输出各自的属性信息，因此，可根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从其他属性图中预测目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角。

步骤S3053、根据目标物体在鸟瞰视角坐标系下的第一预设坐标值、第二预设坐标值、尺寸和朝向角，确定目标物体的三维空间信息。

在一个实施例中，车载自动驾驶***可以将第一预设坐标值和第二预设坐标值确定为目标物体在鸟瞰视角空间中的(x，y，z)位置，将尺寸确定为目标物体在鸟瞰视角空间中的长宽高，将朝向角确定为目标物体在鸟瞰视角空间中的朝向角度。最后，基于(x，y，z)位置、长宽高和朝向角度确定载体周围环境的目标物体的三维空间信息。

图12是本公开一示例性实施例提供的预测网络的输出结果示意图。在图12中，最小圆圈的中心A为载***置，中心周围的方框位置B为载体周围的目标物体。

另外，车载自动驾驶***还可以将目标物体的三维空间投影显示到多摄相机***采集的来自多摄相机视角的图像上，以便与用户从车载显示屏中直观地了解目标物体的三维空间信息。

可见，本公开实施例可以根据预测网络对鸟瞰视角图像进行处理，以获得热力图和其他属性图。将通过特征融合得到的鸟瞰视角融合特征输入热力图和其他属性图可直接预测出目标物体的三维空间信息，提高3D目标检测效率。

如图13所示，在上述图11所示实施例的基础上，步骤S305还可包括如下步骤：

步骤S3054、在预测网络的训练阶段，构建预测网络输出的热力图与真值热力图之间的第一损失函数，以及，构建预测网络预测的其他属性图与其他真值属性图之间的第二损失函数。

在一个实施例中，车载自动驾驶***可以根据鸟瞰视角融合特征中的每一个目标物体的位置，分别为每一个目标物体构建高斯核。

图14是本公开一示例性实施例提供的高斯核的示意图。如图14所示，在构建高斯核时，可以以目标物体的位置(i,j)为中心，生成1个N×N大小的高斯核。其中，高斯核中心的值为1，四周的值向下衰减至0，颜色由白色到黑色表示值由1衰减到0。

图15是本公开一示例性实施例提供的热力图的示意图。如图15所示，可以将各个目标物体的高斯核置于热力图上，即可得到真值热力图。在图15中，每个白色区域都表示一个高斯核，即一个目标物体，如目标物体1-6。

需要说明的是，其他真值属性图的生成方式可参照真值热力图的生成方式，这里不再赘述。

在确定真值热力图之后，可以基于真值热力图和预测网络输出的热力图构建第一损失函数。其中，第一损失函数可以衡量预测网络的输出预测值与真值之间的差距分布，用于对预测网络的训练过程进行监督。

在一个实施例中，第一损失函数L_cls具体可以通过以下公式构建：

其中，y′_i,j表示(i,j)位置在真值热力图中第一预设坐标值，1表示热力图中的峰值，y_i,j表示(i,j)位置在预测网络预测的热力图中的第一预设坐标值，α和β为可调整的超参数，α和β的范围均在0-1之间，N表示鸟瞰视角融合特征中目标物体的数量和，h,w表示鸟瞰视角融合特征的尺寸。

在一个实施例中，第二损失函数L_reg具体可以通过以下公式构建：

其中，B′为目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的真值，B为预测网络预测的目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的预测值，N表示鸟瞰视角融合特征中目标物体的数量。

步骤S3055、根据第一损失函数和第二损失函数确定预测网络在训练阶段的总损失函数，以监督预测网络的训练过程。

在一个实施例中，预测网络在训练阶段的总损失函数可以通过以下步骤确定：

获取第一损失函数的权重值和第二损失函数的权重值；

基于第一损失函数、第一损失函数的权重值、第二损失函数和第二损失函数的权重值，确定预测网络在训练阶段的总损失函数。

这里，在利用预测网络预测目标物体的三维空间信息时，不同的属性在训练过程的重要程度不同，使得对应的损失函数的重要程度也不同。因此，根据每个属性的训练过程的重要程度，为不同属性对应的损失函数配置不同的权重值。

其中，预测网络在训练阶段的总损失函数L_3d可以通过以下公式确定：

L_3d＝λ₁L_cls+λ₂L_reg；

其中，L_cls为第一损失函数，L_reg为第二损失函数，λ₁为第一损失函数的权重值，λ₂为第二损失函数的权重值。λ₁和λ₂均在0-1之间，λ₁>λ₂，λ₁+λ₂＝1。

可见，本公开实施例在对预测网络进行训练时，构建总损失函数对总训练过程进行监督，以保证预测网络的各种属性的输出愈加准确，进而保证3D目标检测效率更高。

如图16所示，在上述图3所示实施例的基础上，步骤S305还可包括如下步骤：

步骤S3056、利用神经网络对鸟瞰视角融合特征进行特征提取，获得包含目标物体特征的鸟瞰视角融合特征数据。

在一个实施例中，车载自动驾驶***可以利用神经网络对鸟瞰视角融合特征进行卷积等计算，以实现特征提取，获得鸟瞰视角融合特征数据。鸟瞰视角融合特征数据中包括用于表征目标物体的不同维度的目标物体特征，即目标物体在鸟瞰视角空间中来自不同维度的场景信息。

其中，神经网络可以为预先训练好的、用于特征提取的神经网络。可选地，用于特征提取的神经网络不仅限于某一种特定的网络结果，如：resnet、densenet、mobilenet等。

步骤S3057、利用预测网络对包含目标物体特征的鸟瞰视角融合特征数据中的目标物体进行目标预测，得到目标物体的三维空间信息。

可见，本公开实施例通过预测网络对鸟瞰视角融合特征进行训练之前，对鸟瞰视角融合特征进行特征提取，得到鸟瞰视角融合特征数据。再利用预测网络对包含目标物体特征的鸟瞰视角融合特征数据进行预测，使得预测结果更准确，即确定的目标物体的三维空间信息更准确。

在上述图3所示实施例的基础上，步骤S302可包括如下步骤：

利用深度神经网络对各个视角对应的图像进行卷积计算，获得各个视角对应的图像在多摄相机视角空间下各自对应的包含目标物体特征的多个不同分辨率的特征数据。

这里，深度神经网络可以为预先训练好的、用于特征提取的神经网络。可选地，用于特征提取的神经网络不仅限于某一种特定的网络结果，如：resnet、densenet、mobilenet等。利用深度神经网络对目标视角的图像进行卷积、池化等计算，可以获取到目标视角的图像对应的多个不同分辨率(尺度)的特征数据。

例如，某视角的图像A的尺寸为H×W×3，其中，H为图像A的高度，W为图像A的宽度，3表示通道数有3个。例如，如果为RGB图像，则3表示RGB(R红、G绿、B蓝)3个通道；如果为YUV图像，则3表示YUV(Y亮度信号、U蓝分量信号、V红分量信号)3个通道。将图像A输入深度神经网络，通过深度神经网络进行卷积等计算后会输出H1×W1×N维度的特征矩阵，其中，H1,W1为特征的高度和宽度(通常比H和W小，N是通道数，N大于3)。通过神经网络对输入数据的拟合训练，可以获得输入图像的包含目标物体特征的多个不同分辨率的特征数据，例如不同分辨率对应的低级的图像纹理，边缘轮廓信息，以及高级的语义信息等。在获得每个视角的图像的特征数据后，即可进行后续的空间转换、多视角特征融合和目标预测步骤，以获得目标物体的三维空间信息。

可见，本公开实施例通过深度神经网络对各个视角对应的图像进行卷积、池化等计算，以获得每个视角图像的多个不同分辨率的特征数据。通过不同分辨率的特征数据可更好地反应对应视角相机所采集的图像特征，提高后续3D目标检测的效率。

示例性装置

图17是本公开一示例性实施例提供的基于多视角融合的3D目标检测装置的结构图。该基于多视角融合的3D目标检测装置可以设置于终端设备、服务器等电子设备中，或者辅助驾驶或自动驾驶的载体上，示例性的，可设置在车载自动驾驶***中，执行本公开上述任一实施例的基于多视角融合的3D目标检测方法。如图17所示，该实施例的基于多视角融合的3D目标检测装置包括：图像接收模块201、特征提取模块202、图像特征映射模块203，图像融合模块204和3D检测模块205。

其中，图像接收模块201，用于获取采集的来自多摄相机视角的至少一幅图像。

特征提取模块202，用于对所述图像接收模块获取的所述至少一幅图像进行特征提取，得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据。

图像特征映射模块203，用于基于多摄相机***的内部参数和载具参数，将所述特征提取模块获得的所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间，得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据。

图像融合模块204，用于将所述图像映射模块得到的所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到鸟瞰视角融合特征。

3D检测模块205，用于对所述图像融合模块得到的所述鸟瞰视角融合特征中的目标物体进行目标预测，得到目标物体的三维空间信息。

可见，本公开实施例的装置在进行基于多视角融合的3D目标检测时，通过中融合(middle fusion)将至少一幅图像在多摄相机视角下的特征数据同时映射至同一个鸟瞰视角空间，能够进行更合理，效果更好的融合。同时，通过融合的鸟瞰视角融合特征直接在鸟瞰视角空间检测出车载环境周围内各个目标物体的三维空间信息。因此，通过本公开实施例的装置进行基于多视角融合的3D目标检测时，端到端的完成鸟瞰视角下的场景物体3D检测，避免在常规多视角3D目标检测上的后处理阶段，提高检测效率。

进一步的，如图18所示的结构图，该图像特征映射模块203包括：

转换矩阵确定单元2031，用于基于所述多摄相机***的内部参数和载具参数，确定所述多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵；

空间转换单元2032，用于基于转换矩阵确定单元2031确定的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵，将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据从多摄相机视角空间转换至鸟瞰视角空间下，得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据。

在一种可行的实施方式中，该转换矩阵确定单元2031包括：

转换矩阵获取子单元，用于分别获取所述多摄相机***中多摄相机的相机内参数和相机外参数，以及，获取载具坐标系到鸟瞰视角坐标系的转换矩阵；

转换矩阵确定子单元，用于基于所述转换矩阵获取子单元获取的多摄相机的相机外参数、相机内参数与载具坐标系到鸟瞰视角坐标系的转换矩阵，确定多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵。

进一步的，该3D检测模块205包括：

检测网络获取单元2051，用于利用预测网络从所述鸟瞰视角融合特征中获取用于确定目标物体在鸟瞰视角坐标系下的第一预设坐标值对应的热力图，以及，获取用于确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的其他属性图；

信息检测单元2052，用于根据所述检测网络获取单元2051获取的热力图中的峰值信息确定目标物体在鸟瞰视角坐标系下的第一预设坐标值，并且根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从所述其他属性图中确定目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角；

信息确定单元2053，用于根据所述信息检测单元2052检测的目标物体在鸟瞰视角坐标系下的第一预设坐标值、第二预设坐标值、尺寸和朝向角，确定目标物体的三维空间信息。

在一种可行的实施方式中，该3D检测模块205还包括：

损失函数构建单元2054，用于在预测网络的训练阶段，构建预测网络预测的热力图与真值热力图之间的第一损失函数，以及，构建预测网络预测的其他属性图与其他真值属性图之间的第二损失函数；

总损失函数确定单元2055，用于根据所述损失函数构建单元2054构建的第一损失函数和所述第二损失函数确定预测网络在训练阶段的总损失函数，以监督预测网络的训练过程。

在一种可行的实施方式中，总损失函数确定单元2055包括：

权重值获取子单元，用于获取第一损失函数的权重值和第二损失函数的权重值；

总损失函数确定子单元，用于基于所述损失函数构建单元2054构建的第一损失函数、第二损失函数，以及，所述权重值获取子单元获取的第一损失函数的权重值和所述第二损失函数的权重值，确定预测网络在训练阶段的总损失函数。

在一种可行的实施方式中，该3D检测模块205还包括：

融合特征提取单元2056，用于利用神经网络对所述鸟瞰视角融合特征进行特征提取，获得包含目标物体特征的鸟瞰视角融合特征数据；

目标预测单元2057，用于利用预测网络对所述特征提取单元2056得到的包含目标物体特征的鸟瞰视角融合特征数据中的目标物体进行目标预测，得到目标物体的三维空间信息。

进一步的，该特征提取模块202包括：

特征提取单元2021，用于利用深度神经网络对各个视角对应的图像进行卷积计算，获得各个视角对应的图像在多摄相机视角空间下各自对应的包含目标物体特征的多个不同分辨率的特征数据。

示例性电子设备

下面，参考图19来描述根据本公开实施例的电子设备。

图19是本公开一示例性实施例提供的电子设备的结构框图。

如图19所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本公开的各个实施例的基于多视角融合的3D目标检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

此外，该输入装置113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图19中仅示出了该电子设备11中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于多视角融合的3D目标检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于多视角融合的3D目标检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于多视角融合的3D目标检测方法，包括：

获取采集的来自多摄相机视角的至少一幅图像；

将所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合，得到鸟瞰视角融合特征；

2.根据权利要求1所述的方法，其中，所述基于多摄相机***的内部参数和载具参数，将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间，得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据，包括：

基于所述多摄相机***的内部参数和载具参数，确定所述多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵；

基于多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵，将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据从多摄相机视角空间转换至鸟瞰视角空间下，得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据。

3.根据权利要求2所述的方法，其中，所述基于多摄相机***的内部参数和载具参数，确定所述多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵，包括：

分别获取所述多摄相机***中多摄相机的相机内参数和相机外参数，以及，获取载具坐标系到鸟瞰视角坐标系的转换矩阵；

4.根据权利要求1所述的方法，其中，所述对所述鸟瞰视角融合特征中的目标物体进行目标预测，得到目标物体的三维空间信息，包括：

利用预测网络从所述鸟瞰视角融合特征中获取用于确定目标物体在鸟瞰视角坐标系下的第一预设坐标值对应的热力图，以及，获取用于确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的其他属性图；

根据所述热力图中的峰值信息确定目标物体在鸟瞰视角坐标系下的第一预设坐标值，并且根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从所述其他属性图中确定目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角；

根据目标物体在鸟瞰视角坐标系下的第一预设坐标值、第二预设坐标值、尺寸和朝向角，确定目标物体的三维空间信息。

5.根据权利要求4所述的方法，其中，还包括：

在预测网络的训练阶段，构建预测网络预测的热力图与真值热力图之间的第一损失函数，以及，构建预测网络预测的其他属性图与其他真值属性图之间的第二损失函数；

根据所述第一损失函数和所述第二损失函数确定预测网络在训练阶段的总损失函数，以监督预测网络的训练过程。

6.根据权利要求5所述的方法，其中，所述根据所述第一损失函数和所述第二损失函数确定预测网络在训练阶段的总损失函数，包括：

获取第一损失函数的权重值和第二损失函数的权重值；

基于所述第一损失函数、第一损失函数的权重值、所述第二损失函数和所述第二损失函数的权重值，确定预测网络在训练阶段的总损失函数。

7.根据权利要求1或4所述的方法，其中，所述对所述鸟瞰视角融合特征中的目标物体进行目标预测，得到目标物体的三维空间信息，包括：

利用神经网络对所述鸟瞰视角融合特征进行特征提取，获得包含目标物体特征的鸟瞰视角融合特征数据；

利用预测网络对所述包含目标物体特征的鸟瞰视角融合特征数据中的目标物体进行目标预测，得到目标物体的三维空间信息。

8.根据权利要求1所述的方法，其中，所述对所述至少一幅图像进行特征提取，得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据，包括：

9.一种基于多视角融合的3D目标检测装置，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的基于多视角融合的3D目标检测方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的基于多视角融合的3D目标检测方法。