CN114913506A - 一种基于多视角融合的3d目标检测方法及装置 - Google Patents
一种基于多视角融合的3d目标检测方法及装置 Download PDFInfo
- Publication number
- CN114913506A CN114913506A CN202210544237.0A CN202210544237A CN114913506A CN 114913506 A CN114913506 A CN 114913506A CN 202210544237 A CN202210544237 A CN 202210544237A CN 114913506 A CN114913506 A CN 114913506A
- Authority
- CN
- China
- Prior art keywords
- camera
- image
- bird
- target object
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 130
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims abstract description 160
- 240000004050 Pentaglottis sempervirens Species 0.000 claims abstract description 120
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000000007 visual effect Effects 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 60
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000006243 chemical reaction Methods 0.000 claims description 48
- 238000013507 mapping Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 241001300198 Caperonia palustris Species 0.000 description 3
- 235000000384 Veronica chamaedrys Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241000905137 Veronica schmidtiana Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开实施例公开了一种基于多视角融合的3D目标检测方法及装置。在该方法中,对多摄相机***采集的多摄相机视角的至少一幅图像进行特征提取,并基于多摄相机***的内部参数和载具参数,将提取到的在多摄相机视角空间下包含目标物体特征的特征数据映射至同一个鸟瞰视角空间,得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据,通过特征融合得到鸟瞰视角融合特征。对鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息。通过本公开实施例的方案进行基于多视角融合的3D目标检测时,先进行多视角的特征融合再进行3D目标检测,端到端的完成鸟瞰视角下的场景物体3D检测,提高检测效率。
Description
技术领域
本公开涉及计算机视觉领域,具体涉及一种基于多视角融合的3D目标检测方法及装置。
背景技术
随着科技的发展,自动驾驶技术在人们生活中的应用越来越广泛。自动驾驶载体可以对周围一定距离内的目标物体(车辆、行人、骑车人等)进行3D检测,以获得目标物体的三维空间信息。基于目标物体的三维空间信息对目标物体进行测距、测速,以实现更好的驾驶控制。
目前,自动驾驶载体可以采集视角不同的多幅图像,然后分别对每一幅图像进行3D检测,最后对各幅图像的3D检测结果进行融合,以生成载体周围环境的目标物体的三维空间信息。
发明内容
现有的技术方案需要对自动驾驶载体采集的每一幅图像分别进行3D检测,然后再对各幅图像的3D检测结果进行融合,以获取载体周围360度环境的他车信息,导致检测效率较低。
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种基于多视角融合的3D目标检测方法及装置。
根据本公开的一个方面,提供了一种基于多视角融合的3D目标检测方法,包括:
获取采集的来自多摄相机视角的至少一幅图像;
对所述至少一幅图像进行特征提取,得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据;
基于多摄相机***的内部参数和载具参数,将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据;
将所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到的鸟瞰视角融合特征;
对所述鸟瞰视角融合特征中的目标物体进行目标预测,得到所述目标物体的三维空间信息。
根据本公开的另一个方面,提供了一种基于多视角融合的3D目标检测装置,包括:
图像接收模块,用于获取采集的来自多摄相机视角的至少一幅图像;
特征提取模块,用于对所述图像接收模块获取的所述至少一幅图像进行特征提取,得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据;
图像特征映射模块,用于基于多摄相机***的内部参数和载具参数,将所述特征提取模块获得的所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据;
图像融合模块,用于将所述图像映射模块得到的所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征;
3D检测模块,用于对所述图像融合模块得到的所述鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息。
根据本公开的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述的基于多视角融合的3D目标检测方法。
根据本公开的再一个方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的基于多视角融合的3D目标检测方法。
基于本公开上述实施例提供的一种基于多视角融合的3D目标检测方法及装置,对多摄相机***采集的多摄相机视角的至少一幅图像进行特征提取,并基于多摄相机***的内部参数,将提取到的在多摄相机视角空间下包含目标物体特征的特征数据映射至同一个鸟瞰视角空间,得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据,并将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征。再对鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息。通过本公开实施例的方案进行基于多视角融合的3D目标检测时,先进行多视角的特征融合再进行3D目标检测,端到端的完成鸟瞰视角下的场景物体3D目标检测,避免在常规多视角3D检测上的后处理阶段,提高检测效率。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的场景图。
图2是本公开实施例提供的车载自动驾驶***的***框图。
图3是本公开一示例性实施例提供的基于多视角融合的3D目标检测方法的流程图。
图4是本公开一示例性实施例提供的多摄相机***采集图像的示意框图。
图5是本公开一示例性实施例提供的来自多摄相机视角的图像的示意图。
图6是本公开一示例性实施例提供的特征提取的示意框图。
图7是本公开一示例性实施例提供的从多摄相机***采集的图像生成鸟瞰视角图像的示意图。
图8是本公开一示例性实施例提供的目标检测的示意框图。
图9是本公开一示例性实施例提供的确定鸟瞰视角空间下特征数据的流程图。
图10是本公开一示例性实施例提供的执行步骤S303和步骤S304的示意框图。
图11是本公开一示例性实施例提供的目标检测的流程图。
图12是本公开一示例性实施例提供的预测网络的输出结果示意图。
图13是本公开一示例性实施例提供的目标检测的另一流程图。
图14是本公开一示例性实施例提供的高斯核的示意图。
图15是本公开一示例性实施例提供的热力图的示意图。
图16是本公开一示例性实施例提供的目标检测的又一流程图。
图17是本公开一示例性实施例提供的基于多视角融合的3D目标检测装置的结构图。
图18是本公开一示例性实施例提供的基于多视角融合的3D目标检测装置的另一结构图。
图19是本公开一示例性实施例提供的电子设备的结构框图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
申请概述
为保证自动驾驶过程中的安全,自动驾驶载体可以对载体周围一定距离内的目标物体(例如:车辆、行人、骑车人等)进行实时检测,以获得3D目标物体的三维空间信息(例如:位置、尺寸、朝向角和类别等属性)。基于目标物体的三维空间信息对目标物体进行测距、测速,以实现更好的驾驶控制。其中,自动驾驶载体可以为车辆、飞机等。
自动驾驶载体可以利用多摄相机***采集视角不同的多幅图像,然后分别对每一幅图像进行3D目标检测,如对不同视角相机采集的多幅图像分别进行目标物体的过滤、去重等操作。最后对各幅图像的3D检测结果进行融合,以生成载体周围环境的目标物体的三维空间信息。可见,现有的技术方案需要对自动驾驶载体采集的每一幅图像分别进行3D检测,然后再对各幅图像的3D检测结果进行融合,导致检测效率较低。
有鉴于此,本公开实施例提供一种基于多视角融合的3D目标检测方法及装置。通过本公开的方案进行3D目标检测时,自动驾驶载体可以对多摄相机***采集的多摄相机视角的至少一幅图像进行特征提取,得到在多摄相机视角空间下包含目标物体特征的特征数据。并基于多摄相机***的内部参数和载具参数,将在多摄相机视角空间下的特征数据映射至同一个鸟瞰视角空间,得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。再将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征;对鸟瞰视角融合特征中的目标物体进行目标预测,得到载体周围环境的目标物体的三维空间信息。
本公开实施例的方案进行基于多视角融合的3D目标检测时,将至少一幅图像在多摄相机视角下的特征数据同时映射至同一个鸟瞰视角空间,能够进行更合理,效果更好的融合。同时,通过融合的鸟瞰视角融合特征直接在鸟瞰视角空间检测出车载环境周围内各个目标物体的三维空间信息。因此,通过本公开实施例的方案进行基于多视角融合的3D目标检测时,先进行多视角的特征融合再进行3D目标检测,端到端的完成鸟瞰视角下的场景物体3D目标检测,避免在常规多视角3D目标检测上的后处理阶段,提高检测效率。
示例性***
本公开实施例可应用于需要进行3D目标检测的应用场景中,例如自动驾驶应用场景。
例如,在自动驾驶的应用场景中,在自动驾驶载体(下文简称“载体”)上配置多摄相机***,通过多摄相机***采集不同视角的图像,然后通过本公开实施例的方案基于多视角融合的3D目标检测,获得载体周围环境的目标物体的三维空间信息。
图1是本公开所适用的场景图。
如图1所示,本公开实施例应用在辅助驾驶或自动驾驶的应用场景中,辅助驾驶或自动驾驶的载体100上配置车载自动驾驶***200和多摄相机***300,车载自动驾驶***200和多摄相机***300电连接。多摄相机***300用于采集载体周围环境的图像,车载自动驾驶***200用于获取多摄相机***300采集的图像,并进行基于多视角融合的3D目标检测,获得载体周围环境的目标物体的三维空间信息。
图2是本公开实施例提供的车载自动驾驶***的***框图。
如图2所示,车载自动驾驶***200包括图像接收模块201、特征提取模块202、图像特征映射模块203,图像融合模块204和3D检测模块205。图像接收模块201用于获取多摄相机***300采集的至少一幅图像;特征提取模块202用于对图像接收模块201获取的至少一幅图像进行特征提取,获得特征数据;图像特征映射模块203用于将至少一幅图像的特征数据从多摄相机视角空间映射至同一个鸟瞰视角空间;图像融合模块204用于将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征;3D检测模块205用于对图像融合模块204得到的鸟瞰视角融合特征中的目标物体进行目标预测,得到载体周围环境的目标物体在的三维空间信息。
多摄相机***300包括视角不同的多个相机,每个相机用于采集一个视角的环境图像,多个相机覆盖载体周围360度的环境范围。每个相机定义自己的相机视角坐标系,通过各自的相机视角坐标系形成各自的相机视角空间,每个相机采集的环境图像为在对应的相机视角空间下的图像。
示例性方法
图3是本公开一示例性实施例提供的基于多视角融合的3D目标检测方法的流程图。
本实施例可应用在车载自动驾驶***200,如图3所示,包括如下步骤:
步骤S301,获取采集的来自多摄相机视角的至少一幅图像。
其中,至少一幅图像可以是多摄相机***的至少一个相机采集到的。示例性的,该至少一幅图像可以是多摄相机***实时采集的图像,也可以是多摄相机***预先采集的图像。
图4是本公开一示例性实施例提供的多摄相机***采集图像的示意框图。
如图4所示,在一个实施例中,多摄相机***可以实时采集不同视角的多幅图像,如图像1、2……N,并实时将采集到的图像发送给车载自动驾驶***。这样,车载自动驾驶***获取到的图像能够表征当前时刻载体周围环境的真实情况。
图5是本公开一示例性实施例提供的来自多摄相机视角的图像的示意图。
如图5中(1)-(6)所示,在一个实施例中,多摄相机***可以包括6个相机。6个相机分别设置在载体的前端、左前端、右前端、后端、左后端和右后端。这样,在任意时刻,多摄相机***均可以采集到6个不同视角的图像,如前视图像(Ifront)、左前视图像(Ifrontleft)、右前视图像(Ifrontright)、后视图像(Irear)、左后视图像(Irearleft)和右后视图像(Irearright)。
其中,每一幅图像中包括但不限于呈现道路、交通信号灯、路牌、车辆(小型车、大巴、卡车等)、行人、骑车人等各类别的目标物体。随着载体周围环境中的目标物体的类别位置等不同,各个图像中包含的目标物体的类别、位置等也不同。
步骤S302,对至少一幅图像进行特征提取,得到至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据。
在一个实施例中,车载自动驾驶***可以分别从每幅图像中提取出在对应相机视角空间下的特征数据。特征数据中可以包含用于描述图像中目标物体的目标物体特征,目标物体特征包括但不限于图像纹理信息、边缘轮廓信息、语义信息等。
其中,图像纹理信息用于表征目标物体的图像纹理,边缘轮廓信息用于表征目标物体的边缘轮廓,语义信息用于表征目标物体的类别。其中,目标物体的类别包括但不限于:道路、交通信号灯、路牌、车辆(小型车、大巴、卡车等)、行人、骑车人等。
图6是本公开一示例性实施例提供的特征提取的示意框图。
如图6所示,车载自动驾驶***可以采用神经网络对至少一幅图像(图像1-N)进行特征提取,得到每幅图像在多摄相机视角空间下各自对应的特征数据1-N。
例如,车载自动驾驶***对前视图像(Ifront)进行特征提取,可以得到前视图像(Ifront)在前端相机视角空间下的特征数据ffront;对左前视图像(Ifrontleft)进行特征提取,可以得到左前视图像(Ifrontleft)在左前端相机视角空间下的特征数据ffrontleft;对右前视图像(Ifrontright)进行特征提取,可以得到右前视图像(Ifrontright)在右前端相机视角空间下的特征数据ffrontright;对后视图像(Irear)进行特征提取,可以得到后视图像(Irear)在后端相机视角空间下的特征数据frear;对左后视图像(Irearleft)进行特征提取,可以得到左后视图像(Irearleft)在左后端相机视角空间下的特征数据frearleft;对右后视图像(Irearright)进行特征提取,可以得到右后视图像(Irearright)在右后端相机视角空间下的特征数据frearright。
步骤S303,基于多摄相机***的内部参数和载具参数,将至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间,得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。
其中,多摄相机***的内部参数包括每个相机的相机内参数和相机外参数,相机内参数是与相机自身特性相关的参数,比如相机的焦距、像素大小等;相机外参数是在世界坐标系中的参数,比如相机的位置、旋转方向等。载具参数是指载具坐标系(VehicleCoordinate System,VCS)到鸟瞰视角坐标系(BEV)的转换矩阵,载具坐标系是载体所在坐标系。
例如,车载自动驾驶***将前视图像(Ifront)在前端相机视角空间下的特征数据ffront映射至同一个鸟瞰视角空间,得到前视图像(Ifront)在鸟瞰视角空间下的特征数据Ffront;将左前视图像(Ifrontleft)在左前端相机视角空间下的特征数据ffrontleft映射至同一个鸟瞰视角空间,得到左前视图像(Ifrontleft)在鸟瞰视角空间下的特征数据Ffrontleft;将右前视图像(Ifrontright)在右前端相机视角空间下的特征数据ffrontright映射至同一个鸟瞰视角空间,得到右前视图像(Ifrontright)在鸟瞰视角空间下的特征数据Ffrontright;将后视图像(Irear)在后端相机视角空间下的特征数据frear映射至同一个鸟瞰视角空间,得到后视图像(Irear)在鸟瞰视角空间下的特征数据Frear;将左后视图像(Irearleft)在左后端相机视角空间下的特征数据frearleft映射至同一个鸟瞰视角空间,得到左后视图像(Irearleft)在鸟瞰视角空间下的特征数据Frearleft;将右后视图像(Irearright)在右后端相机视角空间下的特征数据frearright映射至同一个鸟瞰视角空间,得到右后视图像(Irearright)在鸟瞰视角空间下的特征数据Frearright。
步骤S304,将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征。
其中,鸟瞰视角融合特征用于表征载体周围的目标物体在鸟瞰视角空间下的特征数据,目标物体在鸟瞰视角空间下的特征数据可以包括但不限定于目标物体的形状、尺寸大小、类别、朝向角、相对位置等属性。
在一个实施例中,车载自动驾驶***可以将至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行加法特征融合,得到鸟瞰视角融合特征。具体可以表示为以下公式:
F′=Add(∑F(front、frontleft、frontright、rear、rearleft、rearright))
其中,F′表示鸟瞰视角融合特征,Add表示对至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行的加法特征融合计算。
需要指出的是,步骤S304的实施方式并不局限于此,例如,也可以采用乘法、叠加等方式对不同相机视角的图像在鸟瞰视角空间下各自对应的特征数据进行特征融合。
图7是本公开一示例性实施例提供的从多摄相机***采集的图像生成鸟瞰视角图像的示意图。
如图7所示,示例性的,鸟瞰视角图像的大小可以与多摄相机***采集的至少一幅图像的大小相同。鸟瞰视角图像可以体现目标物体的三维空间信息,三维空间信息包括目标物体的至少一种属性信息,该属性包括但不限于3D位置信息(即X轴、Y轴、Z轴的坐标信息)、尺寸信息(即长、宽、高信息)、朝向角信息等。
其中,X轴、Y轴、Z轴的坐标信息是指目标物体在鸟瞰视角空间的坐标位置(x,y,z),鸟瞰视角空间的坐标系原点位于载体的底盘或者载体中心等任一位置,X轴方向为从前到后的方向,Y轴方向为从左到右的方向,Z轴方向为垂直上下的方向。朝向角是指目标物体的正面方向或行进方向在鸟瞰视角空间下形成的角度,例如,在目标物体为行进的行人时,朝向角是指行人的行进方向在鸟瞰视角空间下形成的角度。在目标物体为静止的车辆时,朝向角是指车辆的车头方向在鸟瞰视角空间下形成的角度。
需要说明的是,由于多摄相机***采集的至少一幅图像中可能包括不同类别的目标物体,因此,鸟瞰视角图像中可能包括不同类别的目标物体的鸟瞰视角融合特征。
步骤S305,对鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息。
其中,三维空间信息可以包括:目标物体在鸟瞰视角坐标系下的位置、尺寸和朝向角等属性中的至少一种。位置是指目标物体在鸟瞰视角空间中相对于载体的坐标位置(x,y,z),尺寸是指目标物体在鸟瞰视角空间中的长宽高(Height、Width、Length),朝向角是指目标物体在鸟瞰视角空间中的朝向角度(rotation yaw)。
图8是本公开一示例性实施例提供的目标检测的示意框图。
如图8所示,在一个实施例中,车载自动驾驶***可以利用一个或者多个预测网络对鸟瞰视角融合特征中的目标物体进行3D目标预测,得到载体周围环境的每个目标物体的三维空间信息。
如果车载自动驾驶***利用多个预测网络进行3D目标预测时,每个预测网络可以输出目标物体的一个或者多个属性,不同的预测网络输出的属性也不同。
本公开实施例的方案进行基于多视角融合的3D目标检测时,可以先进行多视角的特征融合再进行3D目标检测,端到端的完成鸟瞰视角下的场景物体3D目标检测,避免在常规多视角3D目标检测上的后处理阶段,提高检测效率。
图9是本公开一示例性实施例提供的确定鸟瞰视角空间下特征数据的流程图。
如图9所示,在上述图3所示实施例的基础上,步骤S303可包括如下步骤:
步骤S3031,基于多摄相机***的内部参数和载具参数,确定多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵。
其中,多摄相机***的内部参数包括每个相机的相机内参数和相机外参数,相机外参数是指多摄相机的相机坐标系到载具坐标系的转换矩阵,载具参数是指载具坐标系(Vehicle Coordinate System,VCS)到鸟瞰视角坐标系(BEV)的转换矩阵,载具坐标系是载体所在坐标系。
在一种具体实施方式中,步骤S3031包括:
分别获取多摄相机***中多摄相机的相机内参数和相机外参数,以及,获取载具坐标系到鸟瞰视角坐标系的转换矩阵;
基于多摄相机的相机外参数、相机内参数与载具坐标系到鸟瞰视角坐标系的转换矩阵,确定多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵。
在一个实施例中,车载自动驾驶***可以通过以下公式确定多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵H:
HTvcs→bev@Tcamera→vcs@K-1;
其中,@表示矩阵乘法;Tcamera→vcs表示相机坐标系到载具坐标系的转换矩阵,Tcamera→vcs表征相机外参数;Tvcs→bev表示载具坐标系到鸟瞰视角坐标系的转换矩阵;K表示相机内参数。
需要说明的是,相机外参数,即相机坐标系到载具坐标系的转换矩阵可以通过多摄相机***的标定得到,一旦标定完成,通常不会变动。载具坐标系到鸟瞰视角坐标系的转换矩阵可以由人为设定的鸟瞰视角的范围(例如前、后、左、右各100米围成的范围),以及鸟瞰视角图像的分辨率(例如512×512)计算得到。
这样,多摄相机***中的每个相机均可以确定对应的转换矩阵。例如,车载自动驾驶***基于前端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和前端相机的相机内参数,确定前端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵Hfront→bev;基于左前端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和左前端相机的相机内参数,确定左前端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵Hfrontleft→bev;基于右前端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和右前端相机的相机内参数,确定右前端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵Hfrontright→bev;基于后端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和后端相机的相机内参数,确定后端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵Hrear→bev;基于左后端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和左后端相机的相机内参数,确定左后端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵Hrearleft→bev;基于右后端相机的相机坐标系到载具坐标系的转换矩阵、载具坐标系到鸟瞰视角坐标系的转换矩阵和右后端相机的相机内参数,确定右后端相机的相机坐标系到鸟瞰视角坐标系的转换矩阵Hrearright→bev。
本实施方式中,由于每个相机都具有从自身的相机视角坐标系到鸟瞰视角坐标系的转换矩阵,所以本申请实施例在进行3D目标检测时所采用的预测网络适用于多摄相机***,无需从头训练预测网络,提高检测效率。
步骤S3032,基于多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵,将至少一幅图像在多摄相机视角空间下各自对应的特征数据从多摄相机视角空间转换至鸟瞰视角空间下,得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。
在一个实施例中,车载自动驾驶***可以将各个相机的转换矩阵与各自相机视角空间下的特征数据通过矩阵乘法得到至少一幅图像在鸟瞰视角空间下各自对应的特征数据。具体可以表示为以下公式:
F=H@f。
其中,F表示至少一幅图像在鸟瞰视角空间下各自对应的特征数据Ffront、Ffrontleft、Ffrontright、Frear、Frearleft和Frearright;H表示多摄相机***中各个相机对应的转换矩阵Hfront→bev、Hfrontleft→bev、Hfrontright→bev、Hrear→bev、Hrearleft→bev和Hrearright→bev;f表示至少一幅图像在多摄相机视角空间下的特征数据ffront、ffrontleft、ffrontright、frear、frearleft和frearright。
可见,本公开实施例通过对多摄相机***中的不同相机计算各自的转换矩阵(homography),进而基于每个相机各自的转换矩阵将各自的特征数据映射至鸟瞰视角空间,得到每幅图像在鸟瞰视角空间下各自对应的特征数据,不仅可以适用于不同型号的多摄相机***,还可进行更加合理的特征融合。
需要说明的是,步骤S302和步骤S3031这两个步骤可同步执行也可异步执行,可基于实际应用情况而定。
图10是本公开一示例性实施例提供的执行步骤S303和步骤S304的示意框图。
如图10所示,在步骤S302和步骤S3031全部执行完成后,基于步骤S3031得到的每个相机的相机坐标系到鸟瞰视角坐标系的转换矩阵和步骤S302得到的对应相机视角空间的特征数据进行步骤S3032所述的特征空间转换,得到鸟瞰视角空间的特征数据。最后,执行步骤S304将多摄相机视角的在鸟瞰视角空间的特征数据进行特征融合,得到鸟瞰视角融合特征。
图11是本公开一示例性实施例提供的目标检测的流程图。
如图11所示,在上述图3所示实施例的基础上,步骤S305可包括如下步骤:
步骤S3051、利用预测网络从鸟瞰视角融合特征中获取用于确定目标物体在鸟瞰视角坐标系下的第一预设坐标值对应的热力图,以及,获取用于确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的其他属性图。
其中,预测网络可以为用于对目标物体进行目标预测的神经网络。由于目标物体需进行不同属性的三维空间信息预测,因此,预测网络也可为多种。不同的预测网络用于预测不同属性的三维空间信息。
例如,在需要预测的属性为目标物体的第一预设坐标值时,可以利用第一预设坐标值对应的预测网络对鸟瞰视角图像中的鸟瞰视角融合特征进行处理,获得热力图,以利用热力图确定目标物体在鸟瞰视角坐标系下的第一预设坐标值。热力图的大小可与鸟瞰视角图像的大小相同。
又例如,在需要预测的属性为目标物体的第二预设坐标值、尺寸和朝向角时,可以利用第二预设坐标值、尺寸和朝向角对应的预测网络对鸟瞰视角图像中的鸟瞰视角融合特征进行处理,获得其他属性图,以利用其他属性图确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角。
其中,第一预设坐标值为鸟瞰视角坐标系下的(x,y)位置,第二预设坐标值为鸟瞰视角坐标系下的z位置,尺寸为长宽高,朝向角为朝向角度。
步骤S3052、根据热力图中的峰值信息确定目标物体在鸟瞰视角坐标系下的第一预设坐标值,并且根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从其他属性图中确定目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角。
其中,峰值信息是指高斯核的中心值,即目标物体的中心点。
在预测出目标物体在鸟瞰视角空间下的第一预设坐标值后,由于其他属性图可利用热力图的属性输出结果来输出各自的属性信息,因此,可根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从其他属性图中预测目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角。
步骤S3053、根据目标物体在鸟瞰视角坐标系下的第一预设坐标值、第二预设坐标值、尺寸和朝向角,确定目标物体的三维空间信息。
在一个实施例中,车载自动驾驶***可以将第一预设坐标值和第二预设坐标值确定为目标物体在鸟瞰视角空间中的(x,y,z)位置,将尺寸确定为目标物体在鸟瞰视角空间中的长宽高,将朝向角确定为目标物体在鸟瞰视角空间中的朝向角度。最后,基于(x,y,z)位置、长宽高和朝向角度确定载体周围环境的目标物体的三维空间信息。
图12是本公开一示例性实施例提供的预测网络的输出结果示意图。在图12中,最小圆圈的中心A为载***置,中心周围的方框位置B为载体周围的目标物体。
另外,车载自动驾驶***还可以将目标物体的三维空间投影显示到多摄相机***采集的来自多摄相机视角的图像上,以便与用户从车载显示屏中直观地了解目标物体的三维空间信息。
可见,本公开实施例可以根据预测网络对鸟瞰视角图像进行处理,以获得热力图和其他属性图。将通过特征融合得到的鸟瞰视角融合特征输入热力图和其他属性图可直接预测出目标物体的三维空间信息,提高3D目标检测效率。
图13是本公开一示例性实施例提供的目标检测的另一流程图。
如图13所示,在上述图11所示实施例的基础上,步骤S305还可包括如下步骤:
步骤S3054、在预测网络的训练阶段,构建预测网络输出的热力图与真值热力图之间的第一损失函数,以及,构建预测网络预测的其他属性图与其他真值属性图之间的第二损失函数。
在一个实施例中,车载自动驾驶***可以根据鸟瞰视角融合特征中的每一个目标物体的位置,分别为每一个目标物体构建高斯核。
图14是本公开一示例性实施例提供的高斯核的示意图。如图14所示,在构建高斯核时,可以以目标物体的位置(i,j)为中心,生成1个N×N大小的高斯核。其中,高斯核中心的值为1,四周的值向下衰减至0,颜色由白色到黑色表示值由1衰减到0。
图15是本公开一示例性实施例提供的热力图的示意图。如图15所示,可以将各个目标物体的高斯核置于热力图上,即可得到真值热力图。在图15中,每个白色区域都表示一个高斯核,即一个目标物体,如目标物体1-6。
需要说明的是,其他真值属性图的生成方式可参照真值热力图的生成方式,这里不再赘述。
在确定真值热力图之后,可以基于真值热力图和预测网络输出的热力图构建第一损失函数。其中,第一损失函数可以衡量预测网络的输出预测值与真值之间的差距分布,用于对预测网络的训练过程进行监督。
在一个实施例中,第一损失函数Lcls具体可以通过以下公式构建:
其中,y′i,j表示(i,j)位置在真值热力图中第一预设坐标值,1表示热力图中的峰值,yi,j表示(i,j)位置在预测网络预测的热力图中的第一预设坐标值,α和β为可调整的超参数,α和β的范围均在0-1之间,N表示鸟瞰视角融合特征中目标物体的数量和,h,w表示鸟瞰视角融合特征的尺寸。
在一个实施例中,第二损失函数Lreg具体可以通过以下公式构建:
其中,B′为目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的真值,B为预测网络预测的目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的预测值,N表示鸟瞰视角融合特征中目标物体的数量。
步骤S3055、根据第一损失函数和第二损失函数确定预测网络在训练阶段的总损失函数,以监督预测网络的训练过程。
在一个实施例中,预测网络在训练阶段的总损失函数可以通过以下步骤确定:
获取第一损失函数的权重值和第二损失函数的权重值;
基于第一损失函数、第一损失函数的权重值、第二损失函数和第二损失函数的权重值,确定预测网络在训练阶段的总损失函数。
这里,在利用预测网络预测目标物体的三维空间信息时,不同的属性在训练过程的重要程度不同,使得对应的损失函数的重要程度也不同。因此,根据每个属性的训练过程的重要程度,为不同属性对应的损失函数配置不同的权重值。
其中,预测网络在训练阶段的总损失函数L3d可以通过以下公式确定:
L3d=λ1Lcls+λ2Lreg;
其中,Lcls为第一损失函数,Lreg为第二损失函数,λ1为第一损失函数的权重值,λ2为第二损失函数的权重值。λ1和λ2均在0-1之间,λ1>λ2,λ1+λ2=1。
可见,本公开实施例在对预测网络进行训练时,构建总损失函数对总训练过程进行监督,以保证预测网络的各种属性的输出愈加准确,进而保证3D目标检测效率更高。
图16是本公开一示例性实施例提供的目标检测的又一流程图。
如图16所示,在上述图3所示实施例的基础上,步骤S305还可包括如下步骤:
步骤S3056、利用神经网络对鸟瞰视角融合特征进行特征提取,获得包含目标物体特征的鸟瞰视角融合特征数据。
在一个实施例中,车载自动驾驶***可以利用神经网络对鸟瞰视角融合特征进行卷积等计算,以实现特征提取,获得鸟瞰视角融合特征数据。鸟瞰视角融合特征数据中包括用于表征目标物体的不同维度的目标物体特征,即目标物体在鸟瞰视角空间中来自不同维度的场景信息。
其中,神经网络可以为预先训练好的、用于特征提取的神经网络。可选地,用于特征提取的神经网络不仅限于某一种特定的网络结果,如:resnet、densenet、mobilenet等。
步骤S3057、利用预测网络对包含目标物体特征的鸟瞰视角融合特征数据中的目标物体进行目标预测,得到目标物体的三维空间信息。
可见,本公开实施例通过预测网络对鸟瞰视角融合特征进行训练之前,对鸟瞰视角融合特征进行特征提取,得到鸟瞰视角融合特征数据。再利用预测网络对包含目标物体特征的鸟瞰视角融合特征数据进行预测,使得预测结果更准确,即确定的目标物体的三维空间信息更准确。
在上述图3所示实施例的基础上,步骤S302可包括如下步骤:
利用深度神经网络对各个视角对应的图像进行卷积计算,获得各个视角对应的图像在多摄相机视角空间下各自对应的包含目标物体特征的多个不同分辨率的特征数据。
这里,深度神经网络可以为预先训练好的、用于特征提取的神经网络。可选地,用于特征提取的神经网络不仅限于某一种特定的网络结果,如:resnet、densenet、mobilenet等。利用深度神经网络对目标视角的图像进行卷积、池化等计算,可以获取到目标视角的图像对应的多个不同分辨率(尺度)的特征数据。
例如,某视角的图像A的尺寸为H×W×3,其中,H为图像A的高度,W为图像A的宽度,3表示通道数有3个。例如,如果为RGB图像,则3表示RGB(R红、G绿、B蓝)3个通道;如果为YUV图像,则3表示YUV(Y亮度信号、U蓝分量信号、V红分量信号)3个通道。将图像A输入深度神经网络,通过深度神经网络进行卷积等计算后会输出H1×W1×N维度的特征矩阵,其中,H1,W1为特征的高度和宽度(通常比H和W小,N是通道数,N大于3)。通过神经网络对输入数据的拟合训练,可以获得输入图像的包含目标物体特征的多个不同分辨率的特征数据,例如不同分辨率对应的低级的图像纹理,边缘轮廓信息,以及高级的语义信息等。在获得每个视角的图像的特征数据后,即可进行后续的空间转换、多视角特征融合和目标预测步骤,以获得目标物体的三维空间信息。
可见,本公开实施例通过深度神经网络对各个视角对应的图像进行卷积、池化等计算,以获得每个视角图像的多个不同分辨率的特征数据。通过不同分辨率的特征数据可更好地反应对应视角相机所采集的图像特征,提高后续3D目标检测的效率。
示例性装置
图17是本公开一示例性实施例提供的基于多视角融合的3D目标检测装置的结构图。该基于多视角融合的3D目标检测装置可以设置于终端设备、服务器等电子设备中,或者辅助驾驶或自动驾驶的载体上,示例性的,可设置在车载自动驾驶***中,执行本公开上述任一实施例的基于多视角融合的3D目标检测方法。如图17所示,该实施例的基于多视角融合的3D目标检测装置包括:图像接收模块201、特征提取模块202、图像特征映射模块203,图像融合模块204和3D检测模块205。
其中,图像接收模块201,用于获取采集的来自多摄相机视角的至少一幅图像。
特征提取模块202,用于对所述图像接收模块获取的所述至少一幅图像进行特征提取,得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据。
图像特征映射模块203,用于基于多摄相机***的内部参数和载具参数,将所述特征提取模块获得的所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据。
图像融合模块204,用于将所述图像映射模块得到的所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征。
3D检测模块205,用于对所述图像融合模块得到的所述鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息。
可见,本公开实施例的装置在进行基于多视角融合的3D目标检测时,通过中融合(middle fusion)将至少一幅图像在多摄相机视角下的特征数据同时映射至同一个鸟瞰视角空间,能够进行更合理,效果更好的融合。同时,通过融合的鸟瞰视角融合特征直接在鸟瞰视角空间检测出车载环境周围内各个目标物体的三维空间信息。因此,通过本公开实施例的装置进行基于多视角融合的3D目标检测时,端到端的完成鸟瞰视角下的场景物体3D检测,避免在常规多视角3D目标检测上的后处理阶段,提高检测效率。
图18是本公开一示例性实施例提供的基于多视角融合的3D目标检测装置的另一结构图。
进一步的,如图18所示的结构图,该图像特征映射模块203包括:
转换矩阵确定单元2031,用于基于所述多摄相机***的内部参数和载具参数,确定所述多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵;
空间转换单元2032,用于基于转换矩阵确定单元2031确定的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵,将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据从多摄相机视角空间转换至鸟瞰视角空间下,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据。
在一种可行的实施方式中,该转换矩阵确定单元2031包括:
转换矩阵获取子单元,用于分别获取所述多摄相机***中多摄相机的相机内参数和相机外参数,以及,获取载具坐标系到鸟瞰视角坐标系的转换矩阵;
转换矩阵确定子单元,用于基于所述转换矩阵获取子单元获取的多摄相机的相机外参数、相机内参数与载具坐标系到鸟瞰视角坐标系的转换矩阵,确定多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵。
进一步的,该3D检测模块205包括:
检测网络获取单元2051,用于利用预测网络从所述鸟瞰视角融合特征中获取用于确定目标物体在鸟瞰视角坐标系下的第一预设坐标值对应的热力图,以及,获取用于确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的其他属性图;
信息检测单元2052,用于根据所述检测网络获取单元2051获取的热力图中的峰值信息确定目标物体在鸟瞰视角坐标系下的第一预设坐标值,并且根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从所述其他属性图中确定目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角;
信息确定单元2053,用于根据所述信息检测单元2052检测的目标物体在鸟瞰视角坐标系下的第一预设坐标值、第二预设坐标值、尺寸和朝向角,确定目标物体的三维空间信息。
在一种可行的实施方式中,该3D检测模块205还包括:
损失函数构建单元2054,用于在预测网络的训练阶段,构建预测网络预测的热力图与真值热力图之间的第一损失函数,以及,构建预测网络预测的其他属性图与其他真值属性图之间的第二损失函数;
总损失函数确定单元2055,用于根据所述损失函数构建单元2054构建的第一损失函数和所述第二损失函数确定预测网络在训练阶段的总损失函数,以监督预测网络的训练过程。
在一种可行的实施方式中,总损失函数确定单元2055包括:
权重值获取子单元,用于获取第一损失函数的权重值和第二损失函数的权重值;
总损失函数确定子单元,用于基于所述损失函数构建单元2054构建的第一损失函数、第二损失函数,以及,所述权重值获取子单元获取的第一损失函数的权重值和所述第二损失函数的权重值,确定预测网络在训练阶段的总损失函数。
在一种可行的实施方式中,该3D检测模块205还包括:
融合特征提取单元2056,用于利用神经网络对所述鸟瞰视角融合特征进行特征提取,获得包含目标物体特征的鸟瞰视角融合特征数据;
目标预测单元2057,用于利用预测网络对所述特征提取单元2056得到的包含目标物体特征的鸟瞰视角融合特征数据中的目标物体进行目标预测,得到目标物体的三维空间信息。
进一步的,该特征提取模块202包括:
特征提取单元2021,用于利用深度神经网络对各个视角对应的图像进行卷积计算,获得各个视角对应的图像在多摄相机视角空间下各自对应的包含目标物体特征的多个不同分辨率的特征数据。
示例性电子设备
下面,参考图19来描述根据本公开实施例的电子设备。
图19是本公开一示例性实施例提供的电子设备的结构框图。
如图19所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本公开的各个实施例的基于多视角融合的3D目标检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
此外,该输入装置113还可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图19中仅示出了该电子设备11中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于多视角融合的3D目标检测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于多视角融合的3D目标检测方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (11)
1.一种基于多视角融合的3D目标检测方法,包括:
获取采集的来自多摄相机视角的至少一幅图像;
对所述至少一幅图像进行特征提取,得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据;
基于多摄相机***的内部参数和载具参数,将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据;
将所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征;
对所述鸟瞰视角融合特征中的目标物体进行目标预测,得到所述目标物体的三维空间信息。
2.根据权利要求1所述的方法,其中,所述基于多摄相机***的内部参数和载具参数,将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据,包括:
基于所述多摄相机***的内部参数和载具参数,确定所述多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵;
基于多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵,将所述至少一幅图像在多摄相机视角空间下各自对应的特征数据从多摄相机视角空间转换至鸟瞰视角空间下,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据。
3.根据权利要求2所述的方法,其中,所述基于多摄相机***的内部参数和载具参数,确定所述多摄相机***的多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵,包括:
分别获取所述多摄相机***中多摄相机的相机内参数和相机外参数,以及,获取载具坐标系到鸟瞰视角坐标系的转换矩阵;
基于多摄相机的相机外参数、相机内参数与载具坐标系到鸟瞰视角坐标系的转换矩阵,确定多摄相机的相机坐标系到鸟瞰视角坐标系的转换矩阵。
4.根据权利要求1所述的方法,其中,所述对所述鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息,包括:
利用预测网络从所述鸟瞰视角融合特征中获取用于确定目标物体在鸟瞰视角坐标系下的第一预设坐标值对应的热力图,以及,获取用于确定目标物体在鸟瞰视角坐标系下的第二预设坐标值、尺寸和朝向角的其他属性图;
根据所述热力图中的峰值信息确定目标物体在鸟瞰视角坐标系下的第一预设坐标值,并且根据目标物体在鸟瞰视角坐标系下的第一预设坐标值从所述其他属性图中确定目标物体的在鸟瞰视角坐标下的第二预设坐标值、尺寸和朝向角;
根据目标物体在鸟瞰视角坐标系下的第一预设坐标值、第二预设坐标值、尺寸和朝向角,确定目标物体的三维空间信息。
5.根据权利要求4所述的方法,其中,还包括:
在预测网络的训练阶段,构建预测网络预测的热力图与真值热力图之间的第一损失函数,以及,构建预测网络预测的其他属性图与其他真值属性图之间的第二损失函数;
根据所述第一损失函数和所述第二损失函数确定预测网络在训练阶段的总损失函数,以监督预测网络的训练过程。
6.根据权利要求5所述的方法,其中,所述根据所述第一损失函数和所述第二损失函数确定预测网络在训练阶段的总损失函数,包括:
获取第一损失函数的权重值和第二损失函数的权重值;
基于所述第一损失函数、第一损失函数的权重值、所述第二损失函数和所述第二损失函数的权重值,确定预测网络在训练阶段的总损失函数。
7.根据权利要求1或4所述的方法,其中,所述对所述鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息,包括:
利用神经网络对所述鸟瞰视角融合特征进行特征提取,获得包含目标物体特征的鸟瞰视角融合特征数据;
利用预测网络对所述包含目标物体特征的鸟瞰视角融合特征数据中的目标物体进行目标预测,得到目标物体的三维空间信息。
8.根据权利要求1所述的方法,其中,所述对所述至少一幅图像进行特征提取,得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据,包括:
利用深度神经网络对各个视角对应的图像进行卷积计算,获得各个视角对应的图像在多摄相机视角空间下各自对应的包含目标物体特征的多个不同分辨率的特征数据。
9.一种基于多视角融合的3D目标检测装置,包括:
图像接收模块,用于获取采集的来自多摄相机视角的至少一幅图像;
特征提取模块,用于对所述图像接收模块获取的所述至少一幅图像进行特征提取,得到所述至少一幅图像在多摄相机视角空间下各自对应的包含目标物体特征的特征数据;
图像特征映射模块,用于基于多摄相机***的内部参数和载具参数,将所述特征提取模块获得的所述至少一幅图像在多摄相机视角空间下各自对应的特征数据映射至同一个鸟瞰视角空间,得到所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据;
图像融合模块,用于将所述图像映射模块得到的所述至少一幅图像在鸟瞰视角空间下各自对应的特征数据进行特征融合,得到鸟瞰视角融合特征;
3D检测模块,用于对所述图像融合模块得到的所述鸟瞰视角融合特征中的目标物体进行目标预测,得到目标物体的三维空间信息。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的基于多视角融合的3D目标检测方法。
11.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8任一所述的基于多视角融合的3D目标检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210544237.0A CN114913506A (zh) | 2022-05-18 | 2022-05-18 | 一种基于多视角融合的3d目标检测方法及装置 |
PCT/CN2023/074861 WO2023221566A1 (zh) | 2022-05-18 | 2023-02-08 | 一种基于多视角融合的3d目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210544237.0A CN114913506A (zh) | 2022-05-18 | 2022-05-18 | 一种基于多视角融合的3d目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913506A true CN114913506A (zh) | 2022-08-16 |
Family
ID=82768370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210544237.0A Pending CN114913506A (zh) | 2022-05-18 | 2022-05-18 | 一种基于多视角融合的3d目标检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114913506A (zh) |
WO (1) | WO2023221566A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797455A (zh) * | 2023-01-18 | 2023-03-14 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备和存储介质 |
CN116012805A (zh) * | 2023-03-24 | 2023-04-25 | 深圳佑驾创新科技有限公司 | 目标感知方法、装置、计算机设备、存储介质和程序产品 |
WO2023221566A1 (zh) * | 2022-05-18 | 2023-11-23 | 北京地平线机器人技术研发有限公司 | 一种基于多视角融合的3d目标检测方法及装置 |
CN117315152A (zh) * | 2023-09-27 | 2023-12-29 | 杭州一隅千象科技有限公司 | 双目立体成像方法及其*** |
WO2024055966A1 (zh) * | 2022-09-13 | 2024-03-21 | 上海高德威智能交通***有限公司 | 一种多相机目标检测方法、装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118154854A (zh) * | 2024-05-09 | 2024-06-07 | 中国科学技术大学 | 多视角特征聚合的目标检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378605A (zh) * | 2020-03-10 | 2021-09-10 | 北京京东乾石科技有限公司 | 多源信息融合方法及装置、电子设备和存储介质 |
CN113673444A (zh) * | 2021-08-19 | 2021-11-19 | 清华大学 | 一种基于角点池化的路口多视角目标检测方法及*** |
CN113673425A (zh) * | 2021-08-19 | 2021-11-19 | 清华大学 | 一种基于Transformer的多视角目标检测方法及*** |
CN113902897A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 目标检测模型的训练、目标检测方法、装置、设备和介质 |
CN114119748A (zh) * | 2021-11-19 | 2022-03-01 | 上海汽车集团股份有限公司 | 一种车载环视相机的安装位姿确定方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476822B (zh) * | 2020-04-08 | 2023-04-18 | 浙江大学 | 一种基于场景流的激光雷达目标检测与运动跟踪方法 |
CN114419568A (zh) * | 2022-01-18 | 2022-04-29 | 东北大学 | 一种基于特征融合的多视角行人检测方法 |
CN114913506A (zh) * | 2022-05-18 | 2022-08-16 | 北京地平线机器人技术研发有限公司 | 一种基于多视角融合的3d目标检测方法及装置 |
-
2022
- 2022-05-18 CN CN202210544237.0A patent/CN114913506A/zh active Pending
-
2023
- 2023-02-08 WO PCT/CN2023/074861 patent/WO2023221566A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378605A (zh) * | 2020-03-10 | 2021-09-10 | 北京京东乾石科技有限公司 | 多源信息融合方法及装置、电子设备和存储介质 |
CN113673444A (zh) * | 2021-08-19 | 2021-11-19 | 清华大学 | 一种基于角点池化的路口多视角目标检测方法及*** |
CN113673425A (zh) * | 2021-08-19 | 2021-11-19 | 清华大学 | 一种基于Transformer的多视角目标检测方法及*** |
CN113902897A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 目标检测模型的训练、目标检测方法、装置、设备和介质 |
CN114119748A (zh) * | 2021-11-19 | 2022-03-01 | 上海汽车集团股份有限公司 | 一种车载环视相机的安装位姿确定方法和装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023221566A1 (zh) * | 2022-05-18 | 2023-11-23 | 北京地平线机器人技术研发有限公司 | 一种基于多视角融合的3d目标检测方法及装置 |
WO2024055966A1 (zh) * | 2022-09-13 | 2024-03-21 | 上海高德威智能交通***有限公司 | 一种多相机目标检测方法、装置 |
CN115797455A (zh) * | 2023-01-18 | 2023-03-14 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备和存储介质 |
CN116012805A (zh) * | 2023-03-24 | 2023-04-25 | 深圳佑驾创新科技有限公司 | 目标感知方法、装置、计算机设备、存储介质和程序产品 |
CN116012805B (zh) * | 2023-03-24 | 2023-08-29 | 深圳佑驾创新科技有限公司 | 目标感知方法、装置、计算机设备、存储介质 |
CN117315152A (zh) * | 2023-09-27 | 2023-12-29 | 杭州一隅千象科技有限公司 | 双目立体成像方法及其*** |
CN117315152B (zh) * | 2023-09-27 | 2024-03-29 | 杭州一隅千象科技有限公司 | 双目立体成像方法及其*** |
Also Published As
Publication number | Publication date |
---|---|
WO2023221566A1 (zh) | 2023-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114913506A (zh) | 一种基于多视角融合的3d目标检测方法及装置 | |
CN109461211B (zh) | 基于视觉点云的语义矢量地图构建方法、装置和电子设备 | |
CN108647638B (zh) | 一种车辆位置检测方法及装置 | |
CN108638999B (zh) | 一种基于360度环视输入的防碰撞预警***及方法 | |
CN106462996B (zh) | 无失真显示车辆周边环境的方法和装置 | |
CN115082924B (zh) | 一种基于单目视觉和雷达伪图像融合的三维目标检测方法 | |
US11443151B2 (en) | Driving assistant system, electronic device, and operation method thereof | |
WO2022183682A1 (zh) | 一种目标确定方法及装置、电子设备、计算机可读存储介质 | |
CN110636263A (zh) | 全景环视图生成方法、车载设备及车载*** | |
CN112183241A (zh) | 基于单目图像的目标检测方法和装置 | |
CN111627001B (zh) | 图像检测方法及装置 | |
CN112889071A (zh) | 用于确定二维图像中深度信息的***和方法 | |
CN111369617A (zh) | 一种基于卷积神经网络的单目视图的3d目标检测方法 | |
CN114913290A (zh) | 多视角融合的场景重建方法、感知网络训练方法及装置 | |
CN113408324A (zh) | 目标检测方法、装置及***、高级驾驶辅助*** | |
CN112562093A (zh) | 目标检测方法、电子介质和计算机存储介质 | |
CN113537047A (zh) | 障碍物检测方法、装置、交通工具及存储介质 | |
CN112132753B (zh) | 多尺度结构引导图像的红外图像超分辨率方法及*** | |
CN114648743A (zh) | 三维交通标志检测 | |
CN112241963A (zh) | 基于车载视频的车道线识别方法、***和电子设备 | |
CN116486351A (zh) | 行车预警方法、装置、设备及存储介质 | |
CN112668596A (zh) | 三维物体识别方法及装置、识别模型训练方法及装置 | |
CN114913329A (zh) | 一种图像处理方法、语义分割网络的训练方法及装置 | |
CN114648639A (zh) | 一种目标车辆的检测方法、***及装置 | |
Du et al. | Validation of vehicle detection and distance measurement method using virtual vehicle approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |