CN117496312A - 基于多模态融合算法的三维多目标检测方法 - Google Patents

基于多模态融合算法的三维多目标检测方法 Download PDF

Info

Publication number
CN117496312A
CN117496312A CN202311350434.XA CN202311350434A CN117496312A CN 117496312 A CN117496312 A CN 117496312A CN 202311350434 A CN202311350434 A CN 202311350434A CN 117496312 A CN117496312 A CN 117496312A
Authority
CN
China
Prior art keywords
point cloud
image
features
data
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311350434.XA
Other languages
English (en)
Inventor
王晟宇
高凯
付强
才华
马志勇
王伟刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202311350434.XA priority Critical patent/CN117496312A/zh
Publication of CN117496312A publication Critical patent/CN117496312A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态融合算法的三维多目标检测方法属于计算机视觉技术领域。本发明在点云处理器中利用点云类感知和质心感知下采样层(CA)和特征传播层(FP)进行点云特征提取,在图像处理器中提出全维度动态卷积层进行图像特征提取,在点云和图像两种数据流中得到更高质量的特征信息,减少了信息损耗,提高信息量较小的目标的准确率与召回率,对于远处行人或非机动车等信息量较小的目标检测有较高的准确率。

Description

基于多模态融合算法的三维多目标检测方法
技术领域
本发明属于计算机视觉技术领域,特别是涉及到一种基于多模态融合算法的三维多目标检测方法。
背景技术
三维物体检测是预测物体在三维空间中的位置信息(三维矩形物体的位置、距离、大小和角度)的任务。与2D对象检测相比,3D对象检测对于自动驾驶、机器人实物抓取、室内外巡逻机器人导航、目标侦察等许多任务至关重要。而多模态传感器融合技术能够通过采用不同类型的传感器进行数据采集,同时获取激光雷达点云和RGB图像两种形式的信息,丰富目标的特征信息,从而提高对目标的探测和识别能力。在复杂条件下的目标探测、识别和跟踪需要更准确的位置和形状信息,激光雷达点云和RGB图像能够提供不同的物理学和景观信息,融合这两个不同的图像信息可以使得目标的位置特征与纹理特征得到更完整的描绘,从而优化目标检测效果。早期的三维多目标检测方法是基于点云或图像的单一模态数据进行三维检测来获得目标的信息。例如,只采用点云数据的检测方法FCN(FullyConvolutional Network)提出一种表示网格里是否存在点云的二进制体素编码方法实现了三维多目标检测。该方法使用三维卷积进行特征提取,计算代价大且性能有限。而只采用图像数据进行检测的方法,例如Mono3D,通过图像信息预测每个像素的深度估计,进而用于检测物体的位置、姿态、大小等信息。由于基于图像的方法检测效果直接受深度估计算法准确度的影响,在检测精度上仍有待提高。
近年来,由于点云和图像各自的特征对于三维多目标检测任务具有互补性,多模态融合的方法推动了三维多目标检测技术的快速发展。清华大学Xiaozhi Chen等人提出多视图三维检测网络MV3D,该方法在鸟瞰视图、前视图和RGB图像特征上获得对应区域特征。Ming Liang等人提出将图像特征投影到鸟瞰图区域进行融合,再使用鸟瞰图进行检测。Jiarong Wang等人提出了一种多阶段互补融合检测网络,通过多种有针对性的、基于注意力机制和先验知识的融合方法充分发挥多模态数据的优势,提高了网络的检测能力。LihuaWen等人将点云反射强度信息投影到RGB图像增强输入图像的表示能力达到了减少量化信息损失的目的,然后利用全局注意力和局部注意力网络进一步提高了算法的检测能力。中国科学技术大学Yonglin Tian等人也提出了一种更有效的融合检测方法,设计了估计地平面参数和生成原始点云特征的地平面估计网络,并且提出了聚集点云和图像多种局部特征的自适应权重网络和空间融合模块,在三维多目标检测上取得了更好的效果。斯坦福大学Charles R.Qi等人提出了一种融合检测方法F-PointNet,该方法首先在RGB图像上生成目标候选框,然后将这些二维候选框扩展为三维截头椎体,再利用点云网络提取椎体内点云特征,完成实例分割和三维边界框的回归。
但是,现有多模态融合的三维多目标检测网络中仍存在当目标检测时,由于信息的大量损耗,导致远处行人或非机动车等信息量较小的目标,检测准确率较低的问题。
因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种基于多模态融合算法的三维多目标检测方法用于解决现有多模态融合的三维多目标检测网络中由于信息的大量损耗,导致远处行人或非机动车等信息量较小的目标,检测准确率较低的技术问题。
基于多模态融合算法的三维多目标检测方法,包括以下步骤,且以下步骤顺次进行,
步骤一、数据集准备
从已公开的数据集中取多组同一场景下的点云数据、RGB相机图像数据与标签数据作为数据集,对数据集进行数据预处理,所述点云数据为激光点云数据;
步骤二、构建点云处理器
建立点云特征提取网络,该网络包括点云类感知和质心感知下采样层(CA)和特征传播层(FP),通过点云类感知和质心感知下采样层(CA)和特征传播层(FP)逐级得到不同分辨率的点云特征;
步骤三、构建图像处理器
建立图像特征提取网络,该网络通过全维度动态卷积,利用并行策略的多维注意力机制,逐级得到不同分辨率的图像特征;
步骤四、构建点云主导的图像融合器
建立点云处理器与图像处理器之间的信息融合网络,该网络通过图像特征生成逐点对应的语义信息,再与点云特征进行融合,得到更为丰富完善的点云特征描绘信息;
步骤五、构建目标检测网络模型
利用得到的点云处理器、图像处理器和点云主导的图像融合器搭建网络模型,将点云数据和图像数据同时传入点云处理器和图像处理器,将得到的不同分辨率的点云特征和图像特征传入所述步骤四得到的点云主导的图像融合器,丰富相应的点云特征;
步骤六、目标检测网络模型训练
对步骤五构建的目标检测网络模型设置损失函数与初始化参数,利用数据集对目标检测网络模型进行持续迭代训练,直至损失函数的损失值更新至最小值,获取最优网络权重的目标检测网络模型;
步骤七、目标检测网络模型运用
利用相机和激光雷达实时采集图像和点云数据,输入至测试后的目标检测网络模型中,实时输出图像中各目标的位置、姿态、大小信息。
所述步骤一中的数据预处理的方法为:将点云数据对照图像数据的视角进行分割,并进行数据增强操作,所述数据增强操作包括数据随机旋转、数据随机对称。
所述步骤二的点云特征提取网络中包括四个点云类感知和质心感知下采样层(CA)和四个特征传播层(FP);利用四个点云类感知和质心感知下采样层(CA)和四个特征传播层(FP)进行点云特征提取,将点云数据输入至CA层进行逐步下采样,得到代表性更强的不同分辨率的点云特征,再通过FP层进行插值操作,将点云特征恢复至原有的分辨率;
所述点云类感知和质心感知下采样层(CA)利用点云数据中前景点比背景点更重要的特性,采用将分类分数更高和距离质心更近的前景点赋予更高权重的方式,从而保留更多的前景点;
所述特征传播层(FP)利用基于距离插值的分层特征传播,通过对四个CA层的跳跃连接,输入对应分辨率的点云特征,经过逐层插值上采样将特征恢复至原有分辨率。
所述步骤三中的图像特征提取网络包括四个全维度动态卷积层,并利用四个全维度动态卷积层进行图像特征提取,将图片输入至全维度动态卷积层中提取图片特征,全维度动态卷积在卷积核的所有四个维度上学习注意力,得到不同分辨率的图像特征。
所述步骤三中的全维度动态卷积定义如下:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
其中和/>分别表示输入特征和输出特征;h为输入通道cin以及输出通道cout的高;w为输入通道cin以及输出通道cout的宽;Wn表示第n个卷积核,它由cout个滤波器/>组成,m=1……,cout;αwn∈R是加权Wn的注意力标量,其由以输入特征为条件的注意力函数πWn(x)计算;*表示卷积运算,αsn、αcn、αfn为三个注意力标量,αsn∈Rk ×k,/>分别表示沿着卷积核Wn的核空间的空间维度、输入通道维度和输出通道维度计算;表示沿着核空间的不同维度的乘法运算。
所述步骤四的点云主导的图像融合器构建的具体方法为:通过点云数据与图像投影的对应映射矩阵M,将步骤三图像处理器得到的不同分辨率图片特征,利用双线性插值方法生成点云数据对应的逐点语义特征;再将语义特征与所述步骤二点云处理器得到的对应分辨率的点云特征进行带有注意力机制的融合;信息融合网络经过多次融合能充分利用点云数据和图像的多模态信息;
所述融合的具体方法为:首先将点云特征FP和逐点语义特征FI馈送到一个全连接层中,并将其映射到同一通道中;然后将它们拼接在一起,形成一个紧凑的特征表示;再通过另一个全连接层压缩成一个具有单个通道的权重映射;使用sigmoid激活函数将权重映射归一化到[0,1]的范围内,获得权值图ψ:
其中表示LI-Fusion层中可学习的权矩阵;σ表示sigmoid激活函数;FP表示点云特征;FI表示逐点语义特征;
在获得权值图ψ后,将点云特征FP与逐点语义特征FI进行拼接,将其公式化为:
FLI=FP||ψFI,
FLI表示融合了点云信息和图像信息的多模态特征。
所述步骤六的损失函数包括分类损失函数、回归损失函数、一致性强制损失函数和感知下采样损失函数;
所述分类损失函数Lcls为:
Lcls=-α(1-ct)γlog ct,
分类损失函数中采用focal loss作为分类损失,α和γ为平衡正负样本的超参数,ct是所考虑的点属于ground truth的概率;
所述回归损失函数Lreg为:
回归损失函数采用基于bin的损失,首先预测中心点落在哪个bin中,然后回归bin内的剩余偏移量,其中E和S分别表示交叉熵损失和光滑L1损失,bu表示边界框的真值,ru表示残差的真值,表示边界框的预测值,/>表示残差的预测值,hk表示边界框的高,lk表示为边界框的长,θk表示边界框的角度,wk表示边界框的宽;
所述一致性强制损失函数Lce为:
式中D表示预测的边界框,G表示边界框的真实值,cscore表示边界框的分类置信度;
所述感知下采样损失Lctr·aware为:
式中,Nc表示类别的数量,Maski为实例掩码,si是一个one-hot标签,并且表示预测的概率;
所述实例掩码Maski为:
式中,f*、b*、l*、r*、u*、d*分别表示一点到边界框的前、后、左、右、上、下6个曲面的距离。
通过上述设计方案,本发明可以带来如下有益效果:
基于多模态融合算法的三维多目标检测方法,在点云处理器中利用点云类感知和质心感知下采样层(CA)和特征传播层(FP)进行点云特征提取,在图像处理器中提出全维度动态卷积层进行图像特征提取,在点云和图像两种数据流中得到更高质量的特征信息,减少了信息损耗,提高信息量较小的目标的准确率与召回率,对于远处行人或非机动车等信息量较小的目标检测有较高的准确率。
附图说明
以下结合附图和具体实施方式对本发明作进一步的说明:
图1为本发明基于多模态融合算法的三维多目标检测方法的流程框图。
图2为本发明基于多模态融合算法的三维多目标检测方法中的图像融合器示意图。
具体实施方式
基于多模态融合算法的三维多目标检测方法,如图1所示,包括如下步骤:
1、数据集准备:从已公开的数据集中下载数据包,数据包中包括多组同一场景下的点云数据、RGB相机图像数据与标签数据作为数据集,对其进行数据预处理。数据预处理的方法为,将点云对照图像的视角进行分割,并进行随机旋转、随机对称等数据增强操作。经过数据增强后可以进一步增加训练模型的泛化能力。
2、构建点云处理器:设计一种点云特征提取网络,通过点云类感知和质心感知下采样模块与特征传播模块,逐级得到不同分辨率的点云特征;该模块利用四个点云类感知和质心感知下采样层(CA)和四个特征传播层(FP)进行点云特征提取。将点云输入至CA层进行逐步下采样,得到代表性更强的不同分辨率的点云特征,再通过FP层进行插值操作,将点云特征恢复至原有的分辨率。其中点云类感知和质心感知下采样层(CA)利用点云中前景点比背景点更重要的特性,采用将分类分数更高和距离质心更近的前景点赋予更高权重的方式,尽可能的保留更多的前景点。而特征传播层(FP)利用基于距离插值的分层特征传播,通过对四个CA的跳跃连接,输入对应分辨率的点云特征,经过逐层插值上采样将特征恢复至原有分辨率。
3、构建图像处理器:设计一种图像特征提取网络,通过全维度动态卷积,利用并行策略的多维注意力机制,逐级得到不同分辨率的图像特征;该网络利用四个全维度动态卷积层进行图像特征提取。将图片输入至全维度动态卷积层中提取图片特征,全维度动态卷积在卷积核的所有四个维度上学习注意力。相比于普通CNN卷积,全维度动态卷积能够学习到更为丰富和更具代表性的图片特征。
所述步骤3全维度动态卷积定义如下:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
其中和/>分别表示输入特征和输出特征;h为输入通道cin以及输出通道cout的高;w为输入通道cin以及输出通道cout的宽;Wn表示第n个卷积核,它由cout个滤波器/>组成,m=1……,cout;αwn∈R是加权Wn的注意力标量,其由以输入特征为条件的注意力函数πWn(x)计算;*表示卷积运算,αsn、αcn、αfn为三个注意力标量,αsn∈Rk ×k,/>分别表示沿着卷积核Wn的核空间的空间维度、输入通道维度和输出通道维度计算;表示沿着核空间的不同维度的乘法运算。这里,αsn、αcn、αfn和αwn是用多头以输入特征为条件的注意力函数计算获得的。
4、构建点云主导的图像融合器:设计一种点云处理器与图像处理器之间的信息融合网络,通过图像特征生成逐点对应的语义信息,与点云特征进行融合,得到更为丰富完善的点云特征描绘。图像融合器通过点云与图片投影的对应映射矩阵M,将步骤3图像处理器得到的多种分辨率图片特征,利用双线性插值方法生成点云对应的逐点语义特征。再将语义特征与得到的对应分辨率的点云特征进行带有注意力机制的融合。经过多次融合后的网络能充分利用点云和图像的多模态信息。
所述的融合方式如图所示,首先将点云特征和逐点语义特征馈送到一个全连接层中,并将它们映射到同一通道中。然后我们将它们加在一起形成一个紧凑的特征表示,然后通过另一个全连接层压缩成一个具有单个通道的权重映射。我们使用sigmoid激活函数将权重映射归一化到[0,1]的范围内,获得权值图ψ:
其中表示LI-Fusion层中可学习的权矩阵;σ表示sigmoid激活函数;FP表示(点云特征);FI表示(逐点语义特征);
在获得权值图ψ后,将点云特征FP与逐点语义特征FI进行拼接,将其公式化为:
FLI=FP||ψFI,
式中,FLI表示融合了点云信息和图像信息的多模态特征。
5、设计目标检测网络模型:利用得到的点云处理器、图像处理器和点云主导的图像融合器搭建网络模型。将点云数据和图像数据同时传入点云处理器和图像处理器。将得到的不同分辨率的点云特征和图像特征传入所述步骤4得到的点云主导的图像融合器,丰富相应的点云特征。
6、网络训练:根据设计的目标检测网络模型设置损失函数与初始化参数,在训练过程中持续迭代,使得损失值更新至最小值,获取最优的网络权重的训练模型;
损失函数包括分类损失函数、回归损失函数、一致性强制损失函数和感知下采样损失函数。
所诉分类损失函数Lcls为:
Lcls=-α(1-ct)γlog ct,
采用focal loss作为分类损失,α和γ为平衡正负样本的超参数,ct是所考虑的点属于ground truth的概率。
所述回归损失函数Lreg为:
回归损失函数采用基于bin的损失,首先预测中心点落在哪个bin中,然后回归bin内的剩余偏移量,其中E和S分别表示交叉熵损失和光滑L1损失,bu表示边界框的真值,ru表示残差的真值,表示边界框的预测值,/>表示残差的预测值,hk表示边界框的高,lk表示为边界框的长,θk表示边界框的角度,wk表示边界框的宽;
所述一致性强制损失函数Lce为:
式中,D表示预测的边界框,G表示边界框的真实值,cscore表示边界框的分类置信度。为了优化这个损失函数,鼓励分类置信度和定位置信度共同尽可能的高。一致性强制损失旨在保证定位置信度和分类置信度的一致性,以帮助NMS程序保持更精确的边界框。
所述感知下采样损失Lctr·aware为:
式中,Nc表示类别的数量,Maski为实例掩码,si是一个one-hot标签,并且表示预测的概率。在推理过程中,具有前k个前景分数的点被保留,并被视为馈送到下一个编码层的代表点。
所诉实例掩码Maski为,
式中,f*、b*、l*、r*、u*、d*分别表示一点到边界框的前、后、左、右、上、下6个曲面的距离。在这种情况下,更靠近长方体质心的点可能具有更高的遮罩分数(最大值为1),而位于曲面上的点将具有0的掩码分数。
7、目标检测网络模型运用:
利用相机和激光雷达实时采集图像和点云数据信息,输入至最优的网络权重的训练模型中,实时输出图像中各目标的位置、姿态、大小信息。

Claims (7)

1.基于多模态融合算法的三维多目标检测方法,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、数据集准备
从已公开的数据集中取多组同一场景下的点云数据、RGB相机图像数据与标签数据作为数据集,对数据集进行数据预处理,所述点云数据为激光点云数据;
步骤二、构建点云处理器
建立点云特征提取网络,该网络包括点云类感知和质心感知下采样层(CA)和特征传播层(FP),通过点云类感知和质心感知下采样层(CA)和特征传播层(FP)逐级得到不同分辨率的点云特征;
步骤三、构建图像处理器
建立图像特征提取网络,该网络通过全维度动态卷积,利用并行策略的多维注意力机制,逐级得到不同分辨率的图像特征;
步骤四、构建点云主导的图像融合器
建立点云处理器与图像处理器之间的信息融合网络,该网络通过图像特征生成逐点对应的语义信息,再与点云特征进行融合,得到更为丰富完善的点云特征描绘信息;
步骤五、构建目标检测网络模型
利用得到的点云处理器、图像处理器和点云主导的图像融合器搭建网络模型,将点云数据和图像数据同时传入点云处理器和图像处理器,将得到的不同分辨率的点云特征和图像特征传入所述步骤四得到的点云主导的图像融合器,丰富相应的点云特征;
步骤六、目标检测网络模型训练
对步骤五构建的目标检测网络模型设置损失函数与初始化参数,利用数据集对目标检测网络模型进行持续迭代训练,直至损失函数的损失值更新至最小值,获取最优网络权重的目标检测网络模型;
步骤七、目标检测网络模型运用
利用相机和激光雷达实时采集图像和点云数据,输入至测试后的目标检测网络模型中,实时输出图像中各目标的位置、姿态、大小信息。
2.根据权利要求1所述的基于多模态融合算法的三维多目标检测方法,其特征是:所述步骤一中的数据预处理的方法为:将点云数据对照图像数据的视角进行分割,并进行数据增强操作,所述数据增强操作包括数据随机旋转、数据随机对称。
3.根据权利要求1所述的基于多模态融合算法的三维多目标检测方法,其特征是:所述步骤二的点云特征提取网络中包括四个点云类感知和质心感知下采样层(CA)和四个特征传播层(FP);利用四个点云类感知和质心感知下采样层(CA)和四个特征传播层(FP)进行点云特征提取,将点云数据输入至CA层进行逐步下采样,得到代表性更强的不同分辨率的点云特征,再通过FP层进行插值操作,将点云特征恢复至原有的分辨率;
所述点云类感知和质心感知下采样层(CA)利用点云数据中前景点比背景点更重要的特性,采用将分类分数更高和距离质心更近的前景点赋予更高权重的方式,从而保留更多的前景点;
所述特征传播层(FP)利用基于距离插值的分层特征传播,通过对四个CA层的跳跃连接,输入对应分辨率的点云特征,经过逐层插值上采样将特征恢复至原有分辨率。
4.根据权利要求1所述的基于多模态融合算法的三维多目标检测方法,其特征是:所述步骤三中的图像特征提取网络包括四个全维度动态卷积层,并利用四个全维度动态卷积层进行图像特征提取,将图片输入至全维度动态卷积层中提取图片特征,全维度动态卷积在卷积核的所有四个维度上学习注意力,得到不同分辨率的图像特征。
5.根据权利要求1所述的基于多模态融合算法的三维多目标检测方法,其特征是:所述步骤三中的全维度动态卷积定义如下:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+…+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
其中和/>分别表示输入特征和输出特征;h为输入通道cin以及输出通道cout的高;w为输入通道cin以及输出通道cout的宽;Wn表示第n个卷积核,它由cout个滤波器/>组成,m=1……,cout;αwn∈R是加权Wn的注意力标量,其由以输入特征为条件的注意力函数πWn(x)计算;*表示卷积运算,αsn、αcn、αfn为三个注意力标量,αsn∈Rk×k分别表示沿着卷积核Wn的核空间的空间维度、输入通道维度和输出通道维度计算;表示沿着核空间的不同维度的乘法运算。
6.根据权利要求1所述的基于多模态融合算法的三维多目标检测方法,其特征是:所述步骤四的点云主导的图像融合器构建的具体方法为:通过点云数据与图像投影的对应映射矩阵M,将步骤三图像处理器得到的不同分辨率图片特征,利用双线性插值方法生成点云数据对应的逐点语义特征;再将语义特征与所述步骤二点云处理器得到的对应分辨率的点云特征进行带有注意力机制的融合;信息融合网络经过多次融合能充分利用点云数据和图像的多模态信息;
所述融合的具体方法为:首先将点云特征FP和逐点语义特征FI馈送到一个全连接层中,并将其映射到同一通道中;然后将它们拼接在一起,形成一个紧凑的特征表示;再通过另一个全连接层压缩成一个具有单个通道的权重映射;使用sigmoid激活函数将权重映射归一化到[0,1]的范围内,获得权值图ψ:
其中表示LI-Fusion层中可学习的权矩阵;σ表示sigmoid激活函数;FP表示点云特征;FI表示逐点语义特征;
在获得权值图ψ后,将点云特征FP与逐点语义特征FI进行拼接,将其公式化为:
FLI=Fp||ψFI
FLI表示融合了点云信息和图像信息的多模态特征。
7.根据权利要求1所述的基于多模态融合算法的三维多目标检测方法,其特征是:所述步骤六的损失函数包括分类损失函数、回归损失函数、一致性强制损失函数和感知下采样损失函数;
所述分类损失函数Lcls为:
Lcls=-α(1-ct)γlog ct
分类损失函数中采用focal loss作为分类损失,α和γ为平衡正负样本的超参数,ct是所考虑的点属于ground truth的概率;
所述回归损失函数Lreg为:
回归损失函数采用基于bin的损失,首先预测中心点落在哪个bin中,然后回归bin内的剩余偏移量,其中E和S分别表示交叉熵损失和光滑L1损失,bu表示边界框的真值,ru表示残差的真值,表示边界框的预测值,/>表示残差的预测值,hk表示边界框的高,lk表示为边界框的长,θk表示边界框的角度,wk表示边界框的宽;
所述一致性强制损失函数Lce为:
式中D表示预测的边界框,G表示边界框的真实值,cscore表示边界框的分类置信度;
所述感知下采样损失Lctr·aware为:
式中,Nc表示类别的数量,Maski为实例掩码,si是一个one-hot标签,并且表示预测的概率;
所述实例掩码Maski为:
式中,f*、b*、l*、r*、u*、d*分别表示一点到边界框的前、后、左、右、上、下6个曲面的距离。
CN202311350434.XA 2023-10-18 2023-10-18 基于多模态融合算法的三维多目标检测方法 Pending CN117496312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311350434.XA CN117496312A (zh) 2023-10-18 2023-10-18 基于多模态融合算法的三维多目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311350434.XA CN117496312A (zh) 2023-10-18 2023-10-18 基于多模态融合算法的三维多目标检测方法

Publications (1)

Publication Number Publication Date
CN117496312A true CN117496312A (zh) 2024-02-02

Family

ID=89683819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311350434.XA Pending CN117496312A (zh) 2023-10-18 2023-10-18 基于多模态融合算法的三维多目标检测方法

Country Status (1)

Country Link
CN (1) CN117496312A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118155202A (zh) * 2024-05-09 2024-06-07 杭州像素元科技有限公司 基于LiDAR点云数据的3D目标检测模型的构建方法及装置
CN118247290A (zh) * 2024-05-30 2024-06-25 杭州像素元科技有限公司 语义-空间融合Transformer的3D全景分割模型的构建方法及应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118155202A (zh) * 2024-05-09 2024-06-07 杭州像素元科技有限公司 基于LiDAR点云数据的3D目标检测模型的构建方法及装置
CN118247290A (zh) * 2024-05-30 2024-06-25 杭州像素元科技有限公司 语义-空间融合Transformer的3D全景分割模型的构建方法及应用

Similar Documents

Publication Publication Date Title
US20220165045A1 (en) Object recognition method and apparatus
CN111462237B (zh) 利用多源信息构建四通道虚拟图像的目标距离检测方法
CN110675418A (zh) 一种基于ds证据理论的目标轨迹优化方法
CN117496312A (zh) 基于多模态融合算法的三维多目标检测方法
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
WO2024021194A1 (zh) 激光雷达点云分割方法、装置、设备及存储介质
US11810311B2 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
CN116258817B (zh) 一种基于多视图三维重建的自动驾驶数字孪生场景构建方法和***
CN114419568A (zh) 一种基于特征融合的多视角行人检测方法
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
Liu et al. Deep learning based multi-view stereo matching and 3D scene reconstruction from oblique aerial images
CN115761393B (zh) 一种基于模板在线学习的无锚目标跟踪方法
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
CN113505634A (zh) 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法
CN116310673A (zh) 一种基于点云与图像特征融合的三维目标检测方法
CN116958434A (zh) 多视图三维重建方法、测量方法及***
EP3992909A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
Li et al. Vehicle object detection based on rgb-camera and radar sensor fusion
Li et al. Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems
CN116519106A (zh) 一种用于测定生猪体重的方法、装置、存储介质和设备
Ji et al. RDRF-Net: A pyramid architecture network with residual-based dynamic receptive fields for unsupervised depth estimation
US20230105331A1 (en) Methods and systems for semantic scene completion for sparse 3d data
CN115205530A (zh) 一种面向低空无人机的实时图像语义分割方法
CN115249269A (zh) 目标检测方法、计算机程序产品、存储介质及电子设备
CN115272450A (zh) 一种基于全景分割的目标定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination