CN116758517B - 基于多目图像的三维目标检测方法、装置和计算机设备 - Google Patents
基于多目图像的三维目标检测方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN116758517B CN116758517B CN202311029641.5A CN202311029641A CN116758517B CN 116758517 B CN116758517 B CN 116758517B CN 202311029641 A CN202311029641 A CN 202311029641A CN 116758517 B CN116758517 B CN 116758517B
- Authority
- CN
- China
- Prior art keywords
- voxel
- dimensional
- acquiring
- feature
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 34
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims abstract description 22
- 240000004050 Pentaglottis sempervirens Species 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于多目图像的三维目标检测方法、装置和计算机设备。所述方法包括:基于多目相机获取多个待检测图像;基于多个所述待检测图像,获取预设三维空间的第一体素特征;基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。采用本方法能够提高识别的准确度,并大大的降低运算的数据量,从而降低对计算资源的要求,以及降低运算时间,进而大幅度的提高检测的实时性。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种基于多目图像的三维目标检测方法、装置和计算机设备。
背景技术
自动驾驶已成为人类发明汽车以来的一大颠覆性创新。自动驾驶的实现需要多个技术领域的支持,其中感知技术是自动驾驶技术中至关重要的一环。在感知技术中,三维目标检测技术是核心之一,其可以用于检测、识别、跟踪道路上的车辆、行人、交通标志等物体,是实现自动驾驶决策的基础。
目前,智能驾驶领域常用的三维目标检测技术主要包括激光雷达和多目视觉两种,其中激光雷达可以提供准确的深度信息,但是受限于其成本高昂,无法提取颜色及纹理信息等缺陷,难以大规模应用。而多目视觉方案成本低廉,可提取丰富的场景特征和目标特征,因此具有广阔的发展前景。
然而现阶段效果较佳的基于多目的三维目标检测技术仍然存在以下问题:
首先,现有方法在多目图像视野重叠区域未充分利用多目特征。在多目视觉中,每个相机观察到的场景不同,因此多目相机可以提供多样化的特征信息。在视野重叠的区域中,可以利用多目特征进行更准确的物体检测和跟踪。其次,现有方法未充分考虑工程部署问题,实时性较差。自动驾驶***需要在实时性要求较高的情况下进行目标检测,以便快速做出决策。然而,上述方法需要大量计算资源和时间来实现,因此实时性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种精度提高,实时性提升的基于多目图像的三维目标检测方法、装置和计算机设备。
第一个方面,本实施例提供了一种三维目标检测方法,所述方法包括:
基于多目相机获取多个待检测图像;
基于多个所述待检测图像,获取预设三维空间的第一体素特征;
基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;
基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。
在其中一个实施例中,所述基于所述第一体素特征获取所述预设三维空间的注意力特征包括:
基于三维卷积层对所述第一体素特征进行特征提取,并对提取结果进行归一化处理得到所述注意力特征,所述注意力特征中的每个特征值用于标识对应的三维体素的前景概率。
在其中一个实施例中,所述基于所述第一体素特征以及所述注意力特征获取第二体素特征包括:
将所述第一体素特征与所述注意力特征进行相乘操作,得到所述第二体素特征。
在其中一个实施例中,所述基于多个所述待检测图像,获取预设三维空间的第一体素特征包括:
获取多个所述待检测图像对应的多个图像特征;
基于多个所述图像特征与所述预设三维空间的映射关系,将多个所述图像特征投影至所述预设三维空间中,得到采样体素特征;
基于所述采样体素特征,获取所述第一体素特征。
在其中一个实施例中,所述获取多个所述待检测图像对应的多个图像特征包括:
基于图像检测网络获取多个所述待检测图像对应的多个图像特征,所述图像检测网络包括多个分支的图像检测子网络,多个所述图像检测子网络的权重共享。
在其中一个实施例中,所述预设三维空间基于预设三维坐标系确定,所述预设三维坐标系的单位尺寸基于预设体素确定,所述基于多个所述图像特征与所述预设三维空间的映射关系,将多个所述图像特征投影至所述预设三维空间中,得到采样体素特征之前还包括:
基于所述多目相机在所述预设三维坐标系下的外参以及所述多目相机的内参,建立多个所述图像特征与所述预设三维空间的映射关系。
在其中一个实施例中,所述基于所述采样体素特征,获取所述第一体素特征包括:
基于可分离三维卷积核对所述采样体素特征进行特征提取,得到所述第一体素特征。
在其中一个实施例中,所述第二体素特征为多个三维特征组成的高维特征,所述基于所述第二体素特征获取鸟瞰图特征包括:
对所述第二体素特征进行压缩处理,得到三维体素特征;
基于二维卷积层对所述三维体素特征进行特征提取,得到所述鸟瞰图特征。
在其中一个实施例中,所述目标对象的识别结果包括:目标对象的数量、目标对象的位置、目标对象的尺寸、目标对象的类别以及目标对象的置信度。
在其中一个实施例中,基于三维目标检测模型执行所述三维目标检测方法,所述三维目标检测模型的训练方法包括:
获取多个样本图像;
基于多个所述样本图像,获取样本三维空间的样本注意力特征;
基于所述样本三维空间的点云数据,获取体素点云特征;
基于所述样本注意力特征以及所述体素点云特征,确定第一损失函数,并基于所述第一损失函数对所述三维目标检测模型进行训练。
在其中一个实施例中,所述三维目标检测模型的训练方法还包括:
基于多个所述样本图像的识别结果以及对应的标注结果,确定第二损失函数,并基于所述第二损失函数对所述三维目标检测模型进行训练。
第二个方面,本实施例提供了一种基于多目图像的三维目标检测装置,所述装置包括:
图像获取模块,用于基于多目相机获取多个待检测图像;
体素获取模块,用于基于多个所述待检测图像,获取预设三维空间的第一体素特征;
注意力获取模块,用于基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;
识别模块,用于基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。
第三个方面,本实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
上述基于多目图像的三维目标检测方法、装置、计算机设备和存储介质,其中,所述方法包括基于多目相机获取多个待检测图像;基于多个所述待检测图像,获取预设三维空间的第一体素特征;基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。通过多目相机获取多个待检测图像,再基于多个所述待检测图像获取预设三维空间的第一体素特征,如此能够充分利用多目图像视野重叠的区域,获取得到多样化的特征信息,还基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征,如此能够提高识别的准确度,并大大的降低运算的数据量,从而降低对计算资源的要求,以及降低运算时间,进而大幅度的提高检测的实时性,解决了现有技术的检测方法中物体检测精确较低且实时性较差的技术问题。
附图说明
图1为本申请一个实施例中三维目标检测方法的应用环境图;
图2为本申请一个实施例中三维目标检测方法的流程示意图;
图3为本申请一个实施例中步骤S200的流程示意图;
图4为本申请一个实施例中步骤S300的流程示意图;
图5为本申请一个实施例中步骤S400的流程示意图;
图6为本申请一个实施例中三维目标检测模型的训练方法的流程示意图;
图7为本申请一个实施例中三维目标检测装置中各个模块的连接示意图;
图8为本申请一个实施例中的体素获取模块和注意力获取模块的连接示意图;
图9为本申请一个实施例中三维检测装置的结构框图;
图10为本申请一个实施例中提供的计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的基于多目图像的三维目标检测方法,可以应用于如图1所示的应用环境中。其中,终端通过通信网络与服务器进行通信。数据存储***可以存储服务器需要处理的数据。数据存储***可以集成在服务器上,也可以放在云上或其他网络服务器上。其中,终端可以设置为驾驶场景中的车载辅助***,包括相机、雷达等各种传感设备以及车载电子控制单元等各种信息处理设备。终端与服务器之间通过通信网络进行各类行车数据、环境数据、运算数据等数据的交互。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在三维目标检测领域,常用的三维目标检测技术主要包括激光雷达和多目视觉两种,其中激光雷达可以提供准确的深度信息,但是受限于其成本,无法提取颜色及纹理信息等缺陷,难以大规模应用。多目视觉方案成本低廉,可提取丰富的场景特征和目标特征,因此具有广阔的发展前景,因此人们致力于研究多目视觉技术,然而当前基于多目视觉的三维目标检测技术还存在较大的缺陷,首先,当前的三维目标检测方法在多目图像视野重叠区域未充分利用多目特征,其次,未充分考虑到工程部署问题,实时性极差,导致基于三维目标检测方法的自动驾驶***无法根据目标检测结果快速地作出应对方案,这是当前三维目标检测技术中的大难题。
为克服上述难题,本申请提供一种三维目标检测方法。请参阅图2,图2是本申请一实施例的三维目标检测方法的流程示意图。
在一个实施例中,如图2以及图7、图8所示,所述三维目标检测方法包括以下步骤:
S100:基于多目相机获取多个待检测图像。
示例性地,本实施例中的多目相机指的是在车身四周多个方向布设的多个相机。
在其中一个具体的实施例中,设置六目环视相机。具体的,在车身正前方部署两个水平向前的相机,以获得较为准确的深度信息,车身侧前方和侧后方均分别布设两个相机,以检测车身周侧的目标。当然,在其他实施例中,多目相机的目数不局限于以上所述,可根据实际应用场景增减相机个数。
本实施例基于六目相机获取多个待检测图像。其中,本实施例中多目相机水平视场角约为90度,所述待检测图像为多目相机拍摄得到的图像,例如得到多张分辨率为720×1280的RGB彩色图像。
S200:基于多个所述待检测图像,获取预设三维空间的第一体素特征。
S300:基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征。
示例性的,不同相机采集到的待检测图像中存在视野重叠区域,基于视野重叠区域得到的三维空间点更有可能为前景点,因此基于第一体素特征,得到注意力特征,用注意力特征表示三维体素点为前景点的概率,如此有利于提高第二体素特征提取的精度。
S400:基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。
可以理解的是,本方法通过多目相机获取多个待检测图像,再基于多个所述待检测图像获取预设三维空间的第一体素特征,如此能够充分利用多目图像视野重叠的区域,获取得到多样化的特征信息,还基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征,如此能够提高识别的准确度,并大大的降低运算的数据量,从而降低对计算资源的要求,以及降低运算时间,进而大幅度的提高检测的实时性,解决了现有技术的检测方法中物体检测精确较低且实时性较差的技术问题。
在其中一个实施例中,如图3所示,所述步骤S200“基于多个所述待检测图像,获取预设三维空间的第一体素特征”包括:
步骤S201:获取多个所述待检测图像对应的多个图像特征。
示例性的,采用通用的卷积神经网络或者Transformer模型来提取图像特征,通过卷积神经网络提取图像特征,有效减少参数数量和计算量,并提高数据特征分析和处理的准确性;通过Transformer模型来提取图像特征,提取效果更好,并且还能够进行并行训练,速度较快,还能够很好地解决长距离依赖的问题。
示例性的,步骤S201“获取多个所述待检测图像对应的多个图像特征”包括:基于图像检测网络获取多个所述待检测图像对应的多个图像特征,所述图像检测网络包括多个分支的图像检测子网络,多个所述图像检测子网络的权重共享。通过共享权重,能够大大的减少运算的参数量,从而加快训练速度,并且节约运算资源。
在其中一个具体的实施例中,采用ResNet34网络做特征提取,加载了在数据集中充分训练的权重文件,并采用共享权重的方式减少参数量,加快训练速度。输入为一组六目图像数据{图像[i],0<i<=6},经过共享权重的ResNet34网络进行特征提取,得到六目图像的特征张量{图像特征[i],0<i<=6},每一特征张量包含32维特征,尺寸为原图的一半,即为32×360×640。其中,数据集是图像领域中具有多个事先标注好训练数据的数据集合。
步骤S202:基于多个所述图像特征与所述预设三维空间的映射关系,将多个所述图像特征投影至所述预设三维空间中,得到采样体素特征。相比于在二维图像上,对每个像素点估计出深度值或概率分布后,在根据内参与外参投影到三维空间中计算每个像素点属于哪个体素的技术方案相比,本实施例中将二维图像上的每个像素点先投影到预设三维空间中,得到单个像素点对应的多个采样体素特征,再基于注意力特征确定前景点的概率,进而确定真正的前景点,如此明显的降低算力的消耗,同时提升精度。
示例性的,本实施例中基于注意力特征的注意力机制可以获得多目图像的信息,根据平面扫描算法(PLANE-SWEEPING)的原理可以更简单更准确的计算深度信息,并可以通过点云在体素上进行深度监督。
示例性的,所述预设三维空间基于预设三维坐标系确定,所述预设三维坐标系的单位尺寸基于预设体素确定。
在一个具体的实施例中,以自车中心为原点,构造预设的三维空间,具体的,初始化基于预设体素的三维空间,例如,X、Y、Z轴的取值范围分别是[-7米,70.6米],[-30.4米,30.4米],[-3米,1米],体素大小为[0.2米,0.2米,0.2米],则三维空间的大小为20×304×388。
所述步骤S202“基于多个所述图像特征与所述预设三维空间的映射关系,将多个所述图像特征投影至所述预设三维空间中,得到采样体素特征”之前还包括步骤:S204:基于所述多目相机在所述预设三维坐标系下的外参以及所述多目相机的内参,建立多个所述图像特征与所述预设三维空间的映射关系。
在一个具体的实施例中,根据不同相机到自车中心的外参{RT_Camera[i],0<i<=6}、内参{Intrins[i],0<i<=6},将三维空间的每个体素坐标投影到不同目相机的图像坐标,采集{图像特征[i],0<i<=6}的特征,在每一目相机可以得到32维特征,建立多个所述图像特征与预设三维空间的映射关系,将多个所述图像特征投影至所述预设三维空间中,最后得到采样体素特征,其大小为(32×6)×20×304×388,即192×20×304×388。
优选的,采用双线性插值的方法采集图像特征,采用此方法可避免在图像视角做深度估计,有效提高采集的精度,并明显的降低计算量。当然,在其他实施例中也可以采用其他的方法进行图像特征的采集。步骤S203:基于所述采样体素特征,获取所述第一体素特征。
示例性的,所述步骤S203“基于所述采样体素特征,获取所述第一体素特征”包括以下步骤:基于可分离三维卷积核对所述采样体素特征进行特征提取,得到所述第一体素特征。为降低计算量,在对采样体素特征进行特征提取时,采用空间分离的三维卷积进行特征提取,以代替普通三维卷积,从而避免普通三维卷积的高复杂度的运算,大大的减小计算量。
具体的,空间分离的三维卷积是指将一个卷积核拆分成两个更小的卷积核,先通过多个卷积核尺寸为K×1×1的三维卷积层对采样体素特征在高度上进行特征提取,再通过多个卷积核尺寸为1×K×K的三维卷积层在鸟瞰图上进行特征提取,得到第一体素特征。拆分前需要进行K×K×K次运算,拆分为两个更小的卷积核后,只需进行K+K×K次运算,运算的次数明显的减少,因此计算的复杂度大幅度下降,使得运算速度明显加快。
在一个具体的实施例中,采用3个3×1×1的三维卷积核,通过3个3×1×1的三维卷积核对采样体素特征的高度上进行特征提取,再采用1个1×3×3的卷积核对采样体素特征的长宽方向进行特征提取,特征提取的过程中降低通道数以大幅度的减小计算量,最后得到第一体素特征,其大小为8×20×304×388。具体网络参数如下表表1所示:
当然,在其他实施例中,进行空间分离的三维卷积时,卷积核的选取不局限于以上所述的大小。
示例性的,如图4所示,所述步骤S300中“基于所述第一体素特征获取所述预设三维空间的注意力特征”包括以下步骤:
S301:基于三维卷积层对所述第一体素特征进行特征提取,并对提取结果进行归一化处理得到所述注意力特征,所述注意力特征中的每个特征值用于标识对应的三维体素的前景概率,如此有效提高目标识别的精度。
示例性的,所述步骤S300中“基于所述第一体素特征以及所述注意力特征获取第二体素特征”包括以下步骤:
S302:将所述第一体素特征与所述注意力特征进行相乘操作,得到所述第二体素特征。
在一个具体的实施例中,不同相机采集到的图像特征相近的三维空间点更有可能为前景点。因此本模块通过卷积核尺寸为1×1×1的三维卷积层以及归一化层对第一体素特征进行特征提取,得到注意力特征,用其表示三维体素点为前景点的概率,其大小为1×20×304×388,再按位乘上第一体素特征,得到第二体素特征,其大小为8×20×304×388。
示例性的,如图5所示,所述第二体素特征为多个三维特征组成的高维特征,所述步骤S400中“基于所述第二体素特征获取鸟瞰图特征”包括以下步骤:
S401:对所述第二体素特征进行压缩处理,得到三维体素特征;
S402:基于二维卷积层对所述三维体素特征进行特征提取,得到所述鸟瞰图特征。
在一个具体的实施例中,输入第二体素特征,其大小为8×20×304×388,首先将特征和高度维度压成同一维度,进行降维压缩处理,得到三维体素特征,其大小为160×304×388,接着通过二维卷积层对所述三维体素特征进行特征提取,得到所述鸟瞰图特征,大小为64×304×388。具体网络参数如下表表2所示:
示例性的,所述目标对象的识别结果包括:目标对象的数量、目标对象的位置、目标对象的尺寸、目标对象的类别以及目标对象的置信度。
在其中一个具体的实施例中,基于所述鸟瞰图特征,其大小为64×304×388,得到目标对象的识别结果K_detec×9,其中,K_detec为目标对象的检测置信度超过预设阈值0.5的目标对象的个数;9为三维信息的特征的长度,包括3D尺寸信息、目标对象的类别以及目标对象的置信度分数,其中3D尺寸信息包括目标中心点在激光雷达坐标系下的X,Y,Z轴坐标、目标对象的长宽高、目标对象的航向角。目标对象的类别包括车辆、行人、骑车的人等。
在其中一个实施例中,如图6所示,基于三维目标检测模型执行所述三维目标检测方法,所述三维目标检测模型的训练方法包括步骤S500:
S501:获取多个样本图像;
S502:基于多个所述样本图像,获取样本三维空间的样本注意力特征;
S503:基于所述样本三维空间的点云数据,获取体素点云特征;
S504:基于所述样本注意力特征以及所述体素点云特征,确定第一损失函数,并基于所述第一损失函数对所述三维目标检测模型进行训练。可以理解的是,从样本注意力特征以及体素点云特征层面确定第一损失函数,再基于第一损失函数对所述三维目标检测模型进行训练,能够进一步的改良三维目标检测模型,使得三维目标检测模型更加准确,输出的检测结果误差更小。
经过对三维目标检测模型进行训练,并基于三维目标检测模型执行所述三维目标检测方法,使得该三维目标检测方法的计算量大大的降低,并且无需进行额外的标注,可实施性明显提高。
在其中一个具体的实施例中,三维目标检测模型中输入大小为1×20×304×388的样本注意力特征、与样本图像时间同步的点云数据,将点云数据通过点云采集设备的外参转换到和三维空间同一坐标系中,并体素化成体素点云特征,本实例中体素点云特征的大小为1×20×304×388。初始化特征为0并和体素点云特征同一尺寸的体素点云掩膜,遍历体素点云特征中的每个体素,若体素中包含点云特征,体素点云掩膜中同样体素坐标的特征值为1,最后以体素点云掩膜为真值,采用交叉熵损失函数计算损失。
在其中一个实施例中,所述第一损失函数为交叉熵损失函数。
所述三维目标检测模型的训练方法还包括步骤S505:基于多个所述样本图像的识别结果以及对应的标注结果,确定第二损失函数,并基于所述第二损失函数对所述三维目标检测模型进行训练。可以理解的是,从样本图像的识别结果以及对应的标注结果层面确定第二损失函数,再基于第二损失函数对所述三维目标检测模型进行训练,能够进一步的改良三维目标检测模型,使得三维目标检测模型更加准确,输出的检测结果误差更小。结合上述的步骤S504,从多个维度对三维目标检测模型进行训练,有效的提高三维目标检测模型的准确度。
具体的,本实施例中第二损失函数设为Focal loss损失函数,并基于该第二损失函数对初始三维目标检测模型进行训练,以对中心点坐标进行回归。
可以理解的,由于多目视觉方法估计目标深度的难度随着目标远离自车而增大,并且在智能驾驶领域,横向误差和深度误差带来的影响不同,因此本实例对目标中心点坐标的回归采用上述优化的第二损失函数。
可选的,本实施例中还可以建立其他损失函数,进而对初始三维目标检测模型进行训练。例如,目标中心点的运动方向的检测,回归其正弦值与余弦值,建立L1_Loss损失函数;目标中心点的偏移量的回归采用L1_Loss损失函数;目标的长宽高以及目标高度的回归采用SmothL1_loss损失函数,其中不同检测分支的损失分配不同的权重。
本实施例从多个层面对损失函数进行优化,从而保证初始三维目标检测模型能够适应横向信息与深度信息不一致的场景,进而提高了模型的准确性以及三维目标检测的精度。
进一步的,所述三维目标检测方法还包括步骤S600:基于三维目标检测模型和数据集的验证集数据对神经网络进行推理测试。
在其中一个具体的实施例中,采用本发明实施方案中的三维目标检测方法,与现阶段较为流行的基于多目图像的三维目标检测方案BEVDepth、BEVDet、BEVFormer相对比,在同样的训练集以及模型参数优化方法下,各自在验证集的各类别指标的三维地图比较如下表表3所示:
通过上表可以看出,在本实例所采用的数据集中,本发明相对于现有的主流方法,在三维目标检测精度上得到极大的提升,且检测耗时较低,有效保证了三维目标检测的实时性。
综上所述,本申请提供的三维目标检测方法,采用二维到三维的投影方式 与注意力机制、点云深度监督三者相互配合,大幅度的降低对算力的需求,同时有效提高检测精度,进而提高自动驾驶***进行三维目标检测的实时性,解决现有技术中需要大量计算资源和时间来实现三维目标检测且检测实时性差的难点。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的三维目标检测方法的三维目标检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个三维目标检测装置实施例中的具体限定可以参见上文中对于三维目标检测方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种三维目标检测装置,包括:
图像获取模块10,用于基于多目相机获取多个待检测图像;
体素获取模块20,用于基于多个所述待检测图像,获取预设三维空间的第一体素特征;
注意力获取模块30,用于基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;
识别模块40,用于基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述实施例中的三维目标检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
基于多目相机获取多个待检测图像;
基于多个所述待检测图像,获取预设三维空间的第一体素特征;
基于所述第一体素特征获取所述预设三维空间的注意力特征 ,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;
基于所述第二体素特征获取鸟瞰图特征 ,并基于所述鸟瞰图特征获取目标对象的识别结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于多目相机获取多个待检测图像;
基于多个所述待检测图像,获取预设三维空间的第一体素特征 ;
基于所述第一体素特征获取所述预设三维空间的注意力特征 ,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;
基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
基于多目相机获取多个待检测图像;
基于多个所述待检测图像,获取预设三维空间的第一体素特征;
基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;
基于所述第二体素特征获取鸟瞰图特征 ,并基于所述鸟瞰图特征获取目标对象的识别结果。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种基于多目图像的三维目标检测方法,其特征在于,所述方法包括:
基于多目相机获取多个待检测图像;
基于多个所述待检测图像,获取预设三维空间的第一体素特征;所述基于多个所述待检测图像,获取预设三维空间的第一体素特征包括:获取多个所述待检测图像对应的多个图像特征;基于多个所述图像特征与所述预设三维空间的映射关系,将多个所述图像特征投影至所述预设三维空间中,得到采样体素特征;基于所述采样体素特征,获取所述第一体素特征;
基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;所述基于所述第一体素特征以及所述注意力特征获取第二体素特征包括:将所述第一体素特征与所述注意力特征进行相乘操作,得到所述第二体素特征;
基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。
2.根据权利要求1所述的三维目标检测方法,其特征在于,所述基于所述第一体素特征获取所述预设三维空间的注意力特征包括:
基于三维卷积层对所述第一体素特征进行特征提取,并对提取结果进行归一化处理得到所述注意力特征,所述注意力特征中的每个特征值用于标识对应的三维体素的前景概率。
3.根据权利要求1所述的三维目标检测方法,其特征在于,所述获取多个所述待检测图像对应的多个图像特征包括:
基于图像检测网络获取多个所述待检测图像对应的多个图像特征,所述图像检测网络包括多个分支的图像检测子网络,多个所述图像检测子网络的权重共享。
4.根据权利要求1所述的三维目标检测方法,其特征在于,所述预设三维空间基于预设三维坐标系确定,所述预设三维坐标系的单位尺寸基于预设体素确定,所述基于多个所述图像特征与所述预设三维空间的映射关系,将多个所述图像特征投影至所述预设三维空间中,得到采样体素特征之前还包括:
基于所述多目相机在所述预设三维坐标系下的外参以及所述多目相机的内参,建立多个所述图像特征与所述预设三维空间的映射关系。
5.根据权利要求1所述的三维目标检测方法,其特征在于,所述基于所述采样体素特征,获取所述第一体素特征包括:
基于可分离三维卷积核对所述采样体素特征进行特征提取,得到所述第一体素特征。
6.根据权利要求1所述的三维目标检测方法,其特征在于,所述第二体素特征为多个三维特征组成的高维特征,所述基于所述第二体素特征获取鸟瞰图特征包括:
对所述第二体素特征进行压缩处理,得到三维体素特征;
基于二维卷积层对所述三维体素特征进行特征提取,得到所述鸟瞰图特征。
7.根据权利要求1所述的三维目标检测方法,其特征在于,所述目标对象的识别结果包括:目标对象的数量、目标对象的位置、目标对象的尺寸、目标对象的类别以及目标对象的置信度。
8.根据权利要求1所述的三维目标检测方法,其特征在于,基于三维目标检测模型执行所述三维目标检测方法,所述三维目标检测模型的训练方法包括:
获取多个样本图像;
基于多个所述样本图像,获取样本三维空间的样本注意力特征;
基于所述样本三维空间的点云数据,获取体素点云特征;
基于所述样本注意力特征以及所述体素点云特征,确定第一损失函数,并基于所述第一损失函数对所述三维目标检测模型进行训练。
9.根据权利要求8所述的三维目标检测方法,其特征在于,所述三维目标检测模型的训练方法还包括:
基于多个所述样本图像的识别结果以及对应的标注结果,确定第二损失函数,并基于所述第二损失函数对所述三维目标检测模型进行训练。
10.一种基于多目图像的三维目标检测装置,其特征在于,所述装置包括:
图像获取模块,用于基于多目相机获取多个待检测图像;
体素获取模块,用于基于多个所述待检测图像,获取预设三维空间的第一体素特征;
注意力获取模块,用于基于所述第一体素特征获取所述预设三维空间的注意力特征,并基于所述第一体素特征以及所述注意力特征获取第二体素特征;
识别模块,用于基于所述第二体素特征获取鸟瞰图特征,并基于所述鸟瞰图特征获取目标对象的识别结果。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311029641.5A CN116758517B (zh) | 2023-08-16 | 2023-08-16 | 基于多目图像的三维目标检测方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311029641.5A CN116758517B (zh) | 2023-08-16 | 2023-08-16 | 基于多目图像的三维目标检测方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116758517A CN116758517A (zh) | 2023-09-15 |
CN116758517B true CN116758517B (zh) | 2023-11-14 |
Family
ID=87950000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311029641.5A Active CN116758517B (zh) | 2023-08-16 | 2023-08-16 | 基于多目图像的三维目标检测方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758517B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287824A (zh) * | 2020-10-28 | 2021-01-29 | 杭州海康威视数字技术股份有限公司 | 基于双目视觉的三维目标检测方法、装置及*** |
US11100669B1 (en) * | 2018-09-14 | 2021-08-24 | Apple Inc. | Multimodal three-dimensional object detection |
CN113610044A (zh) * | 2021-08-19 | 2021-11-05 | 清华大学 | 基于自注意力机制的4d毫米波三维目标检测方法及*** |
CN114821508A (zh) * | 2022-05-20 | 2022-07-29 | 西安电子科技大学 | 基于隐式上下文学习的道路三维目标检测方法 |
CN115082885A (zh) * | 2022-06-27 | 2022-09-20 | 深圳见得空间科技有限公司 | 点云目标的检测方法、装置、设备及存储介质 |
CN115797454A (zh) * | 2023-02-08 | 2023-03-14 | 深圳佑驾创新科技有限公司 | 一种鸟瞰图视角下多摄像机融合感知方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11462029B2 (en) * | 2020-12-07 | 2022-10-04 | Shenzhen Deeproute.Ai Co., Ltd | Object detection network and method |
-
2023
- 2023-08-16 CN CN202311029641.5A patent/CN116758517B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11100669B1 (en) * | 2018-09-14 | 2021-08-24 | Apple Inc. | Multimodal three-dimensional object detection |
CN112287824A (zh) * | 2020-10-28 | 2021-01-29 | 杭州海康威视数字技术股份有限公司 | 基于双目视觉的三维目标检测方法、装置及*** |
CN113610044A (zh) * | 2021-08-19 | 2021-11-05 | 清华大学 | 基于自注意力机制的4d毫米波三维目标检测方法及*** |
CN114821508A (zh) * | 2022-05-20 | 2022-07-29 | 西安电子科技大学 | 基于隐式上下文学习的道路三维目标检测方法 |
CN115082885A (zh) * | 2022-06-27 | 2022-09-20 | 深圳见得空间科技有限公司 | 点云目标的检测方法、装置、设备及存储介质 |
CN115797454A (zh) * | 2023-02-08 | 2023-03-14 | 深圳佑驾创新科技有限公司 | 一种鸟瞰图视角下多摄像机融合感知方法及装置 |
Non-Patent Citations (4)
Title |
---|
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection;Yinhao Li et al.;《arXiv[cs.CV]》;第1-9页 * |
M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation;Enze Xie et al.;《arXiv[cs.CV]》;第1-21页 * |
Xiaomeng Chu et al..OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for Multi-Camera 3D Object Detection.《arXiv[cs.CV]》.2023,第1-10页. * |
基于双目立体图像的3D目标检测方法研究;苏凯祺;《中国优秀硕士学位论文全文数据库 信息科技辑》(第1期);第I138-1842页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116758517A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685842B (zh) | 一种基于多尺度网络的稀疏深度稠密化方法 | |
CN109683699B (zh) | 基于深度学习实现增强现实的方法、装置及移动终端 | |
CN111160214B (zh) | 一种基于数据融合的3d目标检测方法 | |
CN113052835B (zh) | 一种基于三维点云与图像数据融合的药盒检测方法及其检测*** | |
CN112419374B (zh) | 一种基于图像配准的无人机定位方法 | |
CN112990010B (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
CN116740668B (zh) | 三维目标检测方法、装置、计算机设备和存储介质 | |
CN114627073B (zh) | 地形识别方法、装置、计算机设备和存储介质 | |
CN116740669B (zh) | 多目图像检测方法、装置、计算机设备和存储介质 | |
CN117132737B (zh) | 一种三维建筑模型构建方法、***及设备 | |
CN116012805B (zh) | 目标感知方法、装置、计算机设备、存储介质 | |
EP4293622A1 (en) | Method for training neural network model and method for generating image | |
CN116758517B (zh) | 基于多目图像的三维目标检测方法、装置和计算机设备 | |
CN116704111A (zh) | 图像处理方法和设备 | |
CN115240168A (zh) | 感知结果获取方法、装置、计算机设备、存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN115544189A (zh) | 语义地图更新方法、装置和计算机存储介质 | |
CN115861316B (zh) | 行人检测模型的训练方法及其装置、行人检测方法 | |
CN117036511B (zh) | 多类型传感器的标定方法、装置、计算机设备和存储介质 | |
CN114750147B (zh) | 机器人的空间位姿确定方法、装置和机器人 | |
CN116007637B (zh) | 定位装置、方法、车载设备、车辆、及计算机程序产品 | |
CN114677577B (zh) | 一种光场相机的机动车检测方法及*** | |
CN116012376B (zh) | 目标检测方法、装置以及车辆 | |
CN116778469A (zh) | 图像中目标对象的目标检测方法、装置和存储介质 | |
CN117456493A (zh) | 目标检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |