CN115359457A

CN115359457A - 基于鱼眼图像的3d目标检测方法及***

Info

Publication number: CN115359457A
Application number: CN202211019368.3A
Authority: CN
Inventors: 宋京; 吴子章; 王晓权; 吴昀哲; 王凡
Original assignee: Zongmu Technology Shanghai Co Ltd
Current assignee: Zongmu Technology Shanghai Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-18

Abstract

本公开涉及一种基于多个鱼眼图像的3D目标检测方法及***。该方法包括：接收来自设置在车辆周围的多个鱼眼相机的在同一时刻拍摄的多个鱼眼图像；根据所述多个鱼眼图像中的每一者进行3D目标检测，以得到每一鱼眼图像中包括的目标的3D信息和相对应的置信度；将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中，以得到对所述车辆的周围环境的3D感知信息；基于与检测到的目标的3D信息相对应的置信度来对所述3D感知信息执行去重操作，以去除与同一目标相关的重复3D信息；以及使用经去重操作的3D感知信息来用于车辆的自动驾驶和/或辅助驾驶。

Description

基于鱼眼图像的3D目标检测方法及***

技术领域

本公开涉及基于鱼眼图像的3D目标检测方法及***。

背景技术

随着机器人应用和自动驾驶等领域的飞速发展，3D目标检测变得愈发重要。在智能驾驶领域，需要通过各种感知算法来获取路上行人和车辆等的相对位置、尺寸和朝向等信息，以便控制自车规避行人和车辆。

目前，基于单个RGB图像的单目3D目标检测方法需要在传统的2D检测标注的基础上，再额外标注一些其他信息用于3D目标检测，诸如目标的3D尺寸、目标在相机坐标系下的3D坐标、目标关于观察者的偏转角度等。但这些单目3D目标检测技术大都是基于窄角针孔摄像头，它们的缺点是视场范围小、有盲区。对于智能驾驶来说，要感知周围环境，往往需要利用十多个针孔摄像头，大大增加了处理时间，不符合目标检测处理实时性要求。

本公开针对但不限于上述诸多因素进行了改进。

发明内容

为此，本公开提出了一种基于多路鱼眼相机的3D目标检测方法和***。本公开的方法利用卷积神经网络来提取特征，直接使用鱼眼图像的原图(即，未经过畸变校正)进行3D目标检测，充分利用了鱼眼图像的信息(因为畸变校正将损失图像信息，例如一般会损失1/3的信息)，使得检测结果更加准确。本公开的方法对于3D目标检测而言不仅具有较高的准确度，而且还具有较高的实时性。本公开的方法结合同一时刻多路鱼眼图像检测结果的坐标转换与融合策略，实现了对于智能驾驶车辆周围感知环境目标的准确检测，弥补了单路鱼眼3D检测方法在畸变严重区域检测效果不佳的问题，为自动驾驶和/或辅助驾驶***提供了更加可靠的环境感知信息，便于车辆根据该更加可靠的环境感知信息来作出更加可靠的控制、决策规划。

根据本公开的第一方面，提供了一种基于多个鱼眼图像的3D目标检测方法，包括：接收来自设置在车辆周围的多个鱼眼相机的在同一时刻拍摄的多个鱼眼图像；根据所述多个鱼眼图像中的每一者进行3D目标检测，以得到每一鱼眼图像中包括的目标的3D信息和相对应的置信度；将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中，以得到对所述车辆的周围环境的3D感知信息；基于与检测到的目标的3D信息相对应的置信度来对所述3D感知信息执行去重操作，以去除与同一目标相关的重复3D信息；以及使用经去重操作的3D感知信息来用于车辆的自动驾驶和/或辅助驾驶。

根据一实施例，所述多个鱼眼相机被设置成360°覆盖车辆的周围环境。

根据另一实施例，根据所述多个鱼眼图像中的每一者进行3D目标检测包括：通过神经网络对该鱼眼图像进行特征提取以得到特征图；针对所述特征图的每一像素：将像素坐标结合与拍摄该鱼眼图像的鱼眼相机相关联的畸变参数以及深度信息来构建矩阵；将所获得的矩阵通过所述神经网络进行处理以获得与该像素的位置相对应的位置编码；以及通过注意力机制将所述特征图与所获得的位置编码相组合来得到新特征图；以及通过所述神经网络对所述新特征图进行目标检测，以获得目标的3D信息和相对应的置信度。

根据又一实施例，所述神经网络包括四个串接的残差网络。

根据又一实施例，该包括方法在进行3D目标检测之前，对所述多个鱼眼图像中的每一者进行裁剪，以去除目标出现频率较低的图像区域。

根据又一实施例，将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中包括将每一鱼眼图像从像素坐标系转换到相应的相机坐标系，再从相应的相机坐标系转换到所述单个坐标系，由此得到在所述单个坐标系下的、对所述车辆的周围环境的3D感知信息。

根据又一实施例，对所述3D感知信息执行去重操作包括使用非极大值抑制来执行所述去重操作。

根据本公开的第一方面，提供了一种基于多个鱼眼图像的3D目标检测***，包括：设置在车辆上的多个鱼眼相机；以及车载计算机，其中所述多个鱼眼相机被配置成在采集同一时刻的多个鱼眼图像并将这些鱼眼图像传送给所述车载计算机，并且其中所述车载计算机被配置成：根据所述多个鱼眼图像中的每一者进行3D目标检测，以得到每一鱼眼图像中包括的目标的3D信息和相对应的置信度；将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中，以得到对所述车辆的周围环境的3D感知信息；基于与检测到的目标的3D信息相对应的置信度来对所述3D感知信息执行去重操作，以去除与同一目标相关的重复3D信息；以及使用经去重操作的3D感知信息来用于车辆的自动驾驶和/或辅助驾驶。

根据一实施例，所述车载计算机还被配置成在进行3D目标检测之前，对所述多个鱼眼图像中的每一者进行裁剪，以去除目标出现频率较低的图像区域。

根据另一实施例，对所述3D感知信息执行去重操作包括使用非极大值抑制来执行所述去重操作。

根据本公开的第三方面，提供了一种包括根据本公开的第二方面所述的3D目标检测***的机动车。

各方面一般包括如基本上在本文参照附图所描述并且如通过附图所解说的方法、装备、***、计算机程序产品和处理***。

前述内容已较宽泛地勾勒出根据本公开的示例的特征和技术优势以使下面的详细描述可以被更好地理解。附加的特征和优势将在此后描述。所公开的概念和具体示例可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。此类等效构造并不背离所附权利要求书的范围。本文所公开的概念的特性在其组织和操作方法两方面以及相关联的优势将因结合附图来考虑以下描述而被更好地理解。每一附图是出于解说和描述目的来提供的，且并不定义对权利要求的限定。

附图说明

为了能详细理解本公开的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本公开的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。不同附图中的相同附图标记可标识相同或相似的元素。

图1是根据本公开的一实施例的基于多个鱼眼图像的示例3D目标检测方法的流程图；

图2是根据本公开的一实施例的3D感知信息的示意图；

图3是根据本公开的一实施例的基于多个鱼眼图像的示例3D目标检测***的示意图；以及

图4是根据本公开的一实施例的示例机动车的示意图。

具体实施方式

如上所述，现有的基于窄角针孔摄像头的3D目标检测往往需要利用十多个针孔摄像头，大大增加了处理时间，不符合目标检测处理实时性要求。

发明人认识到，环视鱼眼相机的视角范围广，无盲区，还能减少目标间的遮挡，所以使用鱼眼图像进行3D目标检测是有必要的。但是由于鱼眼图像存在严重的目标畸变，图像失真较大，给图像处理带来一定的难度，使得现有的图像目标检测方法不能很好地迁移到鱼眼图像的处理上。目前，对使用环视鱼眼图像进行3D目标检测的研究还尚未成熟，尤其是畸变严重区域的目标检测效果很差，目标识别准确率低。

为此，本公开提出了一种基于多路鱼眼相机的3D目标检测方法和***。本公开的方法利用卷积神经网络来提取特征，直接使用鱼眼图像的原图(即，未经过畸变校正)进行3D目标检测，充分利用了鱼眼图像的信息(因为畸变校正将损失图像信息，例如一般会损失1/3的信息)，使得检测结果更加准确。本公开的方法对于3D目标检测而言不仅具有较高的准确度，而且还具有较高的实时性。本公开的方法结合同一时刻多路鱼眼图像检测结果的坐标转换与融合策略，实现了对于智能驾驶车辆周围感知环境目标的准确检测，弥补了单路鱼眼3D检测在畸变严重区域检测效果不佳的问题，为自动驾驶和/或辅助驾驶***提供了更加可靠的环境感知信息，便于车辆根据该更加可靠的环境感知信息来作出更加可靠的控制、决策规划。

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。

参考图1，其示出了根据本公开的一实施例的基于多个鱼眼图像的示例3D目标检测方法100的流程图。

如图1所示，方法100可包括在框110，接收来自设置在车辆周围的多个鱼眼相机的在同一时刻拍摄的多个鱼眼图像。

在本公开的一实施例中，多个鱼眼相机可被设置成360°覆盖车辆的周围环境，例如车辆车身的前侧、后侧、左侧以及右侧可各自设置有一个鱼眼相机，以便覆盖车辆周围的360°周围环境，由此可以使用少量鱼眼相机，从而使得处理时间足够短，能够满足3D目标检测的实时性要求。在该实施例中，这四个鱼眼相机可被配置成采集在特定时刻车辆的前、后、左、右的环境图像，例如包括3D检测所关注的目标物，诸如车辆、行人、各种障碍物、道路标志等等。例如，安装于车辆前侧的鱼眼相机(诸如单目鱼眼摄像头，其中该单目鱼眼摄像头的朝向与车身航向角度一致，横向位置是车身坐标系横轴中心)在车辆行驶过程中采集鱼眼环视道路图像。将明白，多个鱼眼相机是同时进行拍摄的，以便于后续对各鱼眼图像进行检测、融合等等处理。

在本公开的一实施例中，所采集的鱼眼图像是未经畸变校正的鱼眼图像，并且优选地，在所采集的图像中，道路部分占比应不低于一定值(例如，预定阈值)。本领域技术人员可以明白，该预定阈值是可按需设置的任何合适的值，在此不再赘述。

接着，在框120，方法100可包括根据多个鱼眼图像中的每一者进行3D目标检测，以得到每一鱼眼图像中包括的目标的3D信息和相对应的置信度。

在本公开的一实施例中，根据多个鱼眼图像中的每一者进行3D目标检测可包括首先，通过神经网络对该鱼眼图像进行特征提取以得到特征图。接着，针对特征图的每一像素，将该像素在所述第一维度和所述第二维度上的坐标结合与拍摄该鱼眼图像的鱼眼相机相关联的畸变参数以及深度信息来构建矩阵，将所获得的矩阵通过神经网络进行处理以获得与该像素的位置相对应的位置编码，以及通过注意力机制将特征图与所获得的位置编码相组合来得到新特征图。最后，通过神经网络对新特征图进行目标检测，以获得目标的3D信息和相对应的置信度。在本公开的一实施例中，目标的3D信息可包括目标的类别、尺寸、航向角和位置等等。进一步根据该实施例，不同目标可通过标签相区分，例如车辆可被标记为0，行人可被标记为1，等等。

下面给出本公开的3D目标检测的一个示例。

在该示例中，鱼眼图像可以是具有h×w个像素的二维图像，其中h是第一维度上的像素数目，w是第二维度上的像素数目。通过神经网络对该鱼眼图像进行特征提取，可以得到c个表示目标的大致轮廓的特征图，其中c是通道数(通常是128、256等等)。每一特征图是h’×w’个像素的二维图，其中h’和w’分别是鱼眼图像的h和w的特定百分比。发明人认识到，h’和w’过大会使得搜索面积过大，训练难度增加，检测过程的实时性和准确度降低；而过小则会使得特征过于粗糙，检测准确度降低。因而，在本公开的优选实施例中，h’和w’分别被选择成鱼眼图像的h和w的1/8或1/4，以便优化3D目标检测的准确度和实时性。随后，针对一个特征图的h’×w’个像素中的每一像素，将像素坐标结合与拍摄该鱼眼图像的鱼眼相机相关联的畸变参数以及深度信息来构建矩阵。进一步根据该示例，深度信息一般取0-20米的范围，每0.5米取一个深度点，即总共40个深度点。由此，在该示例中可以得到针对每一深度点的一个矩阵，总共得到40个矩阵。本领域技术人员可以明白，畸变参数是鱼眼相机的固有常数，在此不再赘述；并且深度信息可以选择任何合适的范围，且深度点的步长可以选择成不同于上述示例中的0.5米的任何合适的值。接着，该矩阵经由神经网络来得到与该像素位置相对应的位置编码(其一般与图像特征的维度相同)，由此可以随后通过注意力机制将特征图与所获得的位置编码相组合来得到新特征图。该新特征图随后被用于检测目标的3D信息，并得到与该目标的3D信息相对应的置信度。

在本公开的又一实施例中，方法100所采用的神经网络可以是卷积神经网络，以利用其强大的特征提取能力来直接对鱼眼图像进行3D目标检测。在该实施例中，采用单阶段检测方法，并且神经网络的主要结构与Centernet(中心网)相似，分为骨干(backbone)和检测头(Detection head)，骨干采用四个串接的残差网络(诸如ResNet18)以便于检测速度的取舍。同时，为避免使用锚(anchor)等复杂手段，方法100采用Gaussian分布将目标转换成一个(如中心点)或多个(中心点加若干个顶点)关键点的表示，从而直接建立输入图像与热力图之间的关系。

在本公开的又一实施例中，为提高目标检测的效率，在进行3D目标检测之前，方法100可对多个鱼眼图像中的每一者进行裁剪，以去除目标出现频率较低的图像区域。

例如，对于本公开中的鱼眼图像而言，其上部一般是天空，下部则是距车辆较近的区域，在这些图像区域中，一般不会出现待检测的目标物。因此，可以裁除鱼眼图像的上部和下部的相应比例，而不会丢失目标物信息，同时减少了需要处理的图像内容，提高了目标检测的速度和效率。举例而言，对于1920x 1280像素的鱼眼图像而言，可以裁除鱼眼图像上200像素以及下210像素，使得经裁剪图像成为1920x 870像素的大小。本领域技术人员可以明白，可以采用任何合适的方式来裁减图像，只要其不丢失目标物信息即可，在此不再赘述。

继续参考图1，在框130，方法100可包括将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中。

在本公开的一实施例中，将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中可包括通过坐标转换来将多个鱼眼图像融合在单个坐标系中。例如，方法100可将每一鱼眼图像从像素坐标系转换到相应的相机坐标系，再从相应的相机坐标系转换到与所述单个坐标系，从而得到对所述车辆的周围环境的3D感知信息。

在一示例中，该单个坐标系可以是与车辆的鸟瞰图相关联的世界坐标系(例如以车辆的前保险杠的中心为原点的坐标系)，由此多个鱼眼图像以及在其中检测到的目标的3D信息可被映射到该单个鸟瞰图中。本领域技术人员可以明白，该单个坐标系可以是任何合适的坐标系，在此不再赘述。继续该示例，与单个鸟瞰图相关联的世界坐标系与每一鱼眼相机的相机坐标系间的转换关系可以是：

其中[Xc,Yc,Zc]^T表示相机坐标系，[X,Y,Z]^T表示世界坐标系。R是旋转矩阵，而T表示平移矩阵。R、T是与相机无关的，因而被称为相机的“外参数”。可以理解，两个坐标系的坐标原点之间的距离因受x,y,z三个方向上的分量共同控制，所以具有三个自由度。

按从世界坐标系转换到相机坐标系的过程，先按z轴旋转、之后y轴旋转、之后x轴旋转，最终得到相机坐标系，旋转角度分别是yaw(偏航)、pitch(俯仰)、roll(滚转)，则从相机坐标系到世界坐标系的旋转矩阵如下方式定义：R＝R_x*R_y*R_z

平移矩阵T：cam_X，cam_Y，cam_Z是相机的外参。

像素坐标系与相机坐标系的关系是：

其中c_x、c_y是由于安装过程中的精度，主点往往不在图像平面的正中心位置，所以需要引入的偏移量。f_x、f_y是通过标定获取的相机的像素焦距长度。

所以世界坐标系与像素坐标系之间的关系是：

由此，通过该坐标转换关系，可以将像素坐标转换成世界坐标。

在本公开的一实施例中，考虑到不同鱼眼图像可包括同一目标，例如前侧鱼眼相机所拍摄的图像与左侧鱼眼相机所拍摄的图像可同时拍摄到车辆左前方的目标物。由此，使得针对左侧鱼眼图像和前侧鱼眼图像的3D目标检测将检测到同一目标的3D信息，使得这些3D信息是冗余的。因此，方法100可包括在框140，基于与检测到的目标的3D信息相对应的置信度来对所述3D感知信息执行去重操作，以去除与同一目标相关的重复3D信息。

例如，第一鱼眼图像和第二鱼眼图像可具有交叠区，并且目标(例如，车辆，行人等等)出现在该交叠区中，从而使得方法100在第一鱼眼图像和第二鱼眼图像中都检测到该目标的3D信息，并且在第一鱼眼图像中以0.7的置信度检测到该目标的3D信息，而在第二鱼眼图像中以0.9的置信度检测到该目标的3D信息。在这一情形中，方法100可以在该交叠区中去除在第一鱼眼图像中检测到的目标的3D信息，而保留在第二鱼眼图像中检测到的目标的3D信息，由此解决了单路鱼眼检测中目标检测效果很差(尤其是在畸变严重区域)的问题。

在本公开的优选实施例中，对3D感知信息执行去重操作可包括使用非极大值抑制(NMS)来执行该去重操作，以找出目标的最佳3D信息(包括目标的尺寸、位置、航向等等)。例如，图2示出了根据本公开的一实施例的3D感知信息的示意图。如图所示，图2在左侧示出了在将多个鱼眼图像的3D检测结果映射到单个坐标系后的示意图；可以看到，检测到的目标(车辆右侧的目标)具有“重影”，这表明前侧鱼眼相机和右侧鱼眼相机都检测到该目标。随后，经NMS(非极大值抑制)去重之后，图2在右侧示出了目标的最佳3D信息。

在本公开的一实施例中，3D感知信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。由此，方法100可包括在框150，使用经去重操作的3D感知信息来用于车辆的自动驾驶和/或辅助驾驶。。

参考图3，其示出了根据本公开的一实施例的基于多个鱼眼图像的3D目标检测***300的示意图。如图所示，***300可包括多个鱼眼相机(诸如鱼眼相机301、鱼眼相机303)以及车载计算机307。在本公开的一实施例中，鱼眼相机是设置车辆上的，并且优选地360°覆盖车辆的周围环境。尽管图3中示出了两个鱼眼相机301和303，但将明白，***300可包括任何合适数量的鱼眼相机，如省略号305所示。优选地，***300可包括设置在车辆的前后左右的四个鱼眼相机。

根据本公开的一实施例，多个鱼眼相机可被配置成在采集同一时刻的多个鱼眼图像并将这些鱼眼图像传送给车载计算机307，并且车载计算机307可被配置成根据多个鱼眼图像中的每一者进行3D目标检测，以得到每一鱼眼图像中包括的目标的3D信息以及相对应的置信度；将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中，以得到对所述车辆的周围环境的3D感知信息；基于与检测到的目标的3D信息相对应的置信度来对所述3D感知信息执行去重操作，以去除与同一目标相关的重复3D信息；以及使用经去重操作的3D感知信息来用于车辆的自动驾驶和/或辅助驾驶。

在本公开的又一实施例中，为提高目标检测的效率，车载计算机307可被配置成在进行3D目标检测之前，对多个鱼眼图像中的每一者进行裁剪，以去除目标出现频率较低的图像区域。例如，对于本公开中的鱼眼图像而言，其上部一般是天空，下部则是距车辆较近的区域，在这些图像区域中，一般不会出现待检测的目标物。因此，可以裁除鱼眼图像的上部和下部的相应比例，而不会丢失目标物信息，同时减少了需要处理的图像内容，提高了目标检测的速度和效率，并降低了误检率。举例而言，对于1920x 1280像素的鱼眼图像而言，可以裁除鱼眼图像上200像素以及下210像素，使得经裁剪图像成为1920x 870像素的大小。本领域技术人员可以明白，可以采用任何合适的方式来裁减图像，只要其不丢失目标物信息即可，在此不再赘述。

在本公开的一实施例中，考虑到不同鱼眼图像可包括同一目标，例如前侧鱼眼相机所拍摄的图像与左侧鱼眼相机所拍摄的图像可同时拍摄到车辆左前方的目标物。由此，使得针对左侧鱼眼图像和前侧鱼眼图像的3D目标检测将检测到同一目标的3D信息，使得这些3D信息是冗余的。因此，车载计算机307还可被配置成基于与检测到的目标的3D信息相对应的置信度来对所述3D感知信息执行去重操作，以去除与同一目标相关的重复3D信息。在本公开的优选实施例中，对3D感知信息执行去重操作可包括使用非极大值抑制(NMS)来执行该去重操作，以找出目标的最佳3D信息(包括目标的尺寸、位置、航向等等)。

图4示出了根据本公开的一实施例的示例机动车400的示意图。在该实施例中，机动车400可包括参考图3所示出和描述的3D目标检测***。

从上述描述中可知，多个未经畸变校正的鱼眼图像被输入至神经网络(包括3D目标检测模型)进行检测，该多个鱼眼图像中的目标物的类别和3D属性被输出，并且检测结果被转换成对应的车辆环境的3D感知信息，并进而将该3D感知信息用于车辆的自动驾驶和/或辅助驾驶。

综上所述，本发明所述的多路鱼眼3D目标检测算法、***、设备及计算机可读存储介质通过3D目标检测网络强大的特征提取能力，能够适应提取在不同道路环境目标物的变化，且通过有效得到目标物的具体信息，准确描绘出目标物在车身坐标系中的位置，耗时少且准确性高，具有一定的实时性。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

将明白，尽管本文中针对车辆的自动/辅助驾驶描述了本公开的各实施例，但本公开的方法和***也同样适用于其他交通工具，诸如船舶、飞行器等等。

以上具体实施方式包括对附图的引用，附图形成具体实施方式的部分。附图通过说明来示出可实践的特定实施例。这些实施例在本文中也称为“示例”。此类示例可以包括除所示或所述的那些元件以外的元件。然而，还构想了包括所示或所述元件的示例。此外，还构想出的是使用所示或所述的那些元件的任何组合或排列的示例，或参照本文中示出或描述的特定示例(或其一个或多个方面)，或参照本文中示出或描述的其他示例(或其一个或多个方面)。

在所附权利要求书中，术语“包括”和“包含”是开放式的，也就是说，在权利要求中除此类术语之后列举的那些元件之外的元件的***、设备、制品或过程仍被视为落在那项权利要求的范围内。此外，在所附权利要求书中，术语“第一”、“第二”和“第三”等仅被用作标记，并且不旨在表明对它们的对象的数字顺序。

另外，本说明书中所解说的各操作的次序是示例性的。在替换实施例中，各操作可以按与附图所示的不同次序执行，且各操作可以合并成单个操作或拆分成更多操作。

以上描述旨在是说明性的，而非限制性的。例如，可结合其他实施例来使用以上描述的示例(或者其一个或多个方面)。可诸如由本领域普通技术人员在审阅以上描述之后来使用其他实施例。摘要允许读者快速地确定本技术公开的性质。提交该摘要，并且理解该摘要将不用于解释或限制权利要求的范围或含义。此外，在以上具体实施方式中，各种特征可以共同成组以使本公开流畅。然而，权利要求可以不陈述本文中公开的每一特征，因为实施例可以表征所述特征的子集。此外，实施例可以包括比特定示例中公开的特征更少的特征。因此，所附权利要求书由此被结合到具体实施方式中，一项权利要求作为单独的实施例而独立存在。本文中公开的实施例的范围应当参照所附权利要求书以及此类权利要求所赋予权利的等价方案的完整范围来确定。

Claims

1.一种基于多个鱼眼图像的3D目标检测方法，包括：

接收来自设置在车辆周围的多个鱼眼相机的在同一时刻拍摄的多个鱼眼图像；

根据所述多个鱼眼图像中的每一者进行3D目标检测，以得到每一鱼眼图像中包括的目标的3D信息和相对应的置信度；

将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中，以得到对所述车辆的周围环境的3D感知信息；

基于与检测到的目标的3D信息相对应的置信度来对所述3D感知信息执行去重操作，以去除与同一目标相关的重复3D信息；以及

使用经去重操作的3D感知信息来用于车辆的自动驾驶和/或辅助驾驶。

2.根据权利要求1所述的方法，其特征在于，所述多个鱼眼相机被设置成360°覆盖车辆的周围环境。

3.根据权利要求1所述的方法，其特征在于，根据所述多个鱼眼图像中的每一者进行3D目标检测包括：

通过神经网络对该鱼眼图像进行特征提取以得到特征图；

针对所述特征图的每一像素：

将像素坐标结合与拍摄该鱼眼图像的鱼眼相机相关联的畸变参数以及深度信息来构建矩阵；

将所获得的矩阵通过所述神经网络进行处理以获得与该像素的位置相对应的位置编码；以及

通过注意力机制将所述特征图与所获得的位置编码相组合来得到新特征图；以及

通过所述神经网络对所述新特征图进行目标检测，以获得目标的3D信息以及相对应的置信度。

4.根据权利要求3所述的方法，其特征在于，所述神经网络包括四个串接的残差网络。

5.根据权利要求1所述的方法，其特征在于，在进行3D目标检测之前，对所述多个鱼眼图像中的每一者进行裁剪，以去除目标出现频率较低的图像区域。

6.根据权利要求1所述的方法，其特征在于，将在每一鱼眼图像中检测到的目标的3D信息映射到单个坐标系中包括：

将每一鱼眼图像从像素坐标系转换到相应的相机坐标系，再从相应的相机坐标系转换到所述单个坐标系，由此得到在所述单个坐标系下的、对所述车辆的周围环境的3D感知信息。

7.根据权利要求1所述的方法，其特征在于，对所述3D感知信息执行去重操作包括使用非极大值抑制来执行所述去重操作。

8.一种基于多个鱼眼图像的3D目标检测***，包括：

设置在车辆上的多个鱼眼相机；以及

车载计算机，

其中所述多个鱼眼相机被配置成在采集同一时刻的多个鱼眼图像并将这些鱼眼图像传送给所述车载计算机，

并且其中所述车载计算机被配置成：

根据所述多个鱼眼图像中的每一者进行3D目标检测，以得到每一鱼眼图像中包括的目标的3D信息以及相对应的置信度；

9.根据权利要求8所述的***，其特征在于，所述车载计算机还被配置成在进行3D目标检测之前，对所述多个鱼眼图像中的每一者进行裁剪，以去除目标出现频率较低的图像区域。

10.根据权利要求8所述的***，其特征在于，对所述3D感知信息执行去重操作包括使用非极大值抑制来执行所述去重操作。

11.一种包括根据权利要求8-10中的任一项所述的3D目标检测***的机动车。