CN113128348A - 一种融合语义信息的激光雷达目标检测方法及*** - Google Patents

一种融合语义信息的激光雷达目标检测方法及*** Download PDF

Info

Publication number
CN113128348A
CN113128348A CN202110317542.1A CN202110317542A CN113128348A CN 113128348 A CN113128348 A CN 113128348A CN 202110317542 A CN202110317542 A CN 202110317542A CN 113128348 A CN113128348 A CN 113128348A
Authority
CN
China
Prior art keywords
point cloud
image
cloud data
frame
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110317542.1A
Other languages
English (en)
Other versions
CN113128348B (zh
Inventor
李燕
陈超
齐飞
王晓甜
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110317542.1A priority Critical patent/CN113128348B/zh
Publication of CN113128348A publication Critical patent/CN113128348A/zh
Application granted granted Critical
Publication of CN113128348B publication Critical patent/CN113128348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合语义信息的激光雷达目标检测方法及***,所述方法包括:对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。解决了现有技术中存在对目标的特征的检测效果不够准确,进而导致对车辆、行人的目标检测不够准确和高效的技术问题。

Description

一种融合语义信息的激光雷达目标检测方法及***
技术领域
本发明涉及计算机视觉领域相关领域,尤其涉及一种融合语义信息的激光雷达目标检测方法及***。
背景技术
环境感知技术于智能交通、智能穿戴设备、智慧城市等领域有着重要的意义。其中,传感器获取并处理信息是实现环境感知的基础和技术前提,相机获取的图像数据具有固有的深度模糊性,受光线及天气影响较大,但是可以提供细粒度的纹理以及颜色信息;另一方面,激光雷达获取的点云数据提供了非常精确的目标空间位置信息,但是分辨率和纹理信息较弱。为了改善单一传感器造成的检测效果不佳,目前多采用多传感器融合的研究方法从而能够提供丰富且准确的环境信息。
现有的多传感器融合方法主要分为三类:特征级别融合、决策级别融合以及2D目标框投影点云的two-stage融合。特征级别融合例如Xiaozhi Chen等人提出的MV3D、JasonKu等人提出的AVOD等网络结构,主要是将图像特征与点云特征分流提取,再在特征级别上进行直接级联或者进行特征的多尺度融合。但是这种融合方式最大的缺点在于“特征模糊”,一方面点云的一个点对应图像视图上的多个像素点,另一方面提取的图像特征图与点云特征图中,特征的数量级相差较大,也就造成了实际起作用的特征图中并未很好地利用到小量级的信息;决策级别融合是相对简单的融合方式,例如SuPang等人提出的CLOCs网络,即两种模态的特征不在特征层或者最开始就融合,而是分别进行各自网络的训练推理,分别得到2D和3D检测器下的proposals,再将两种模态的proposals编码成稀疏张量,对于非空的元素采用二维卷积做对应的特征融合。决策层融合的好处在于两种模态的网络结构之间互不干扰,可以独自训练和组合,但是存在一定的缺点就是在决策层做融合实际上是对原始传感器数据信息利用最少的,不能很好地利用多传感器数据之间互补的特性;以Charles R.Qi等人所提出的F-Pointnet结构为代表的two-stage方法首先依据2D检测器得到图像目标检测结果,再将其投影到3D激光雷达数据上。但是这种融合方式过度依赖2D检测器的性能,并且二维框投影到点云数据后,存在小目标物体由于点云的稀疏性,在投影的视锥框中无法进行点集特征提取与识别的问题。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中存在对目标的特征的检测效果不够准确,进而导致对车辆、行人的目标检测不够准确和高效的技术问题。
发明内容
本申请实施例通过提供一种融合语义信息的激光雷达目标检测方法及***,解决了现有技术中存在对目标的特征的检测效果不够准确,进而导致对车辆、行人的目标检测不够准确和高效的技术问题,进而达到基于图像语义分割和图卷积特征提取视觉激光融合目标检测方法,显著提高对道路车辆、行人目标检测的准确性、高效性的技术效果。
鉴于上述问题,提出了本申请实施例提供一种融合语义信息的激光雷达目标检测方法及***。
第一方面,本申请还提供了一种融合语义信息的激光雷达目标检测方法,所述方法包括:对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。
另一方面,本申请还提供了一种融合语义信息的激光雷达目标检测***,所述***包括:第一获得单元,所述第一获得单元用于对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;第一添加单元,所述第一添加单元用于在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;第一投影单元,所述第一投影单元用于将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;第二获得单元,所述第二获得单元用于对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。
第三方面,本发明提供了一种融合语义信息的激光雷达目标检测***,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现第一方面所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了通过采用语义分割处理图像和图卷积处理点云数据,语义分割采用编解码器结构,保留轮廓信息的同时来获取高层语义信息,通过图卷积结构提取点云数据特征,根据近邻点的相对坐标编码以及中心点特征更新点的状态,很好地表征了空间点的结构特征,提高了检测的准确性,进而达到基于图像语义分割和图卷积特征提取视觉激光融合目标检测方法,显著提高对道路车辆、行人目标检测的准确性、高效性的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例一种融合语义信息的激光雷达目标检测方法的流程示意图;
图2为本申请实施例一种融合语义信息的激光雷达目标检测方法的结构示意图;
图3为本申请实施例示例性电子设备的结构示意图。
附图标记说明:第一获得单元11,第一添加单元12,第一投影单元13,第二获得单元14,总线300,接收器301,处理器302,发送器303,存储器304,总线接口305。
具体实施方式
本申请实施例通过提供一种融合语义信息的激光雷达目标检测方法及***,解决了现有技术中存在对目标的特征的检测效果不够准确,进而导致对车辆、行人的目标检测不够准确和高效的技术问题,进而达到基于图像语义分割和图卷积特征提取视觉激光融合目标检测方法,显著提高对道路车辆、行人目标检测的准确性、高效性的技术效果。下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
环境感知技术于智能交通、智能穿戴设备、智慧城市等领域有着重要的意义。其中,传感器获取并处理信息是实现环境感知的基础和技术前提,相机获取的图像数据具有固有的深度模糊性,受光线及天气影响较大,但是可以提供细粒度的纹理以及颜色信息;另一方面,激光雷达获取的点云数据提供了非常精确的目标空间位置信息,但是分辨率和纹理信息较弱。为了改善单一传感器造成的检测效果不佳,目前多采用多传感器融合的研究方法从而能够提供丰富且准确的环境信息。但现有技术中存在对目标的特征的检测效果不够准确,进而导致对车辆、行人的目标检测不够准确和高效的技术问题。
针对上述技术问题,本申请提供的技术方案总体思路如下:
本申请实施例提供了一种融合语义信息的激光雷达目标检测方法,其中,所述方法包括:对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种融合语义信息的激光雷达目标检测方法,其中,所述方法包括:
步骤S100:对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;
具体而言,所述语义分割是指将图像的像素按照图像中表达语义含义的不同进行分组/分割的过程,它是将实际捕获的图像进行语义分割算法处理后得到的图像,针对每一帧图像进行基于编解码器的语义分割处理。进一步来说,所述图像处理的过程是针对捕获到的每一帧进行图像处理的。首先使用编码器对图像进行采样特征提取,然后对特征图采用解码器进行上采样的恢复分辨率处理,得到最终预测特征图,基于所述分割预测图,获得所述预测图中代表不同类别的图像的类分数,即所述语义分割分数。
步骤S200:在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;
具体而言,所述点云数据是指在一个三维坐标***中的一组向量的集合,扫描资料以点的形式记录,每一个点包含有三维坐标,有些可能含有颜色信息(RGB)或反射强度信息(Intensity),将所述通过分割后的语义分割分数附加到点云点中,获得每一帧的点云数据,进一步来说,将每一帧的点云数据中添加对应图像的RGB特征,将附加了RGB的点云数据投影到语义分割网络输出,将语义分割分数附加到每一点上,再根据点云坐标系与相机坐标系的转换矩阵,将所述空间点云位置转换到照相机坐标的坐标点位置,加载点云对应帧的图像,获取每个坐标值下的RGB通道数据后,将RGB数据级联至点云特征维度。
步骤S300:将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;
具体而言,对于每一帧图像,索引语义分割网络输出的带有类别分数的各点图像坐标后,将对应类别叠加至相应帧中已经过投影到图像的点云各点中。
步骤S400:对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。
具体而言,将所述附加所述语义分割分数和所述图像RGB特征的所述点云数据进行处理,基于图卷积网络的目标分类与3D回归处理,即利用基于图卷积网络进行点状态更新来获得目标位置框和目标类别信息。通过采用语义分割处理图像和图卷积处理点云数据,且所述语义分割采用编解码器结构,保留轮廓信息的同时来获取高层语义信息,通过图卷积结构提取点云数据特征,根据近邻点的相对坐标编码以及中心点特征更新点的状态,可以很好地表征空间点的结构特征,提高了检测的准确性,进而达到基于图像语义分割和图卷积特征提取视觉激光融合目标检测方法,显著提高对道路车辆、行人目标检测的准确性、高效性的技术效果。
进一步而言,所述对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数,本申请实施例步骤S100还包括:
步骤S110:将ResNet101作为主网络,通过编码器对所述每一时间戳下的图像帧进行下采样特征提取;
步骤S120:对所述每一时间戳下的图像帧通过解码器进行上采样的恢复分辨率处理,获得预测特征图;
步骤S130:根据所述预测特征图,获得所述语义分割分数。
具体而言,首先使用编码器对图像进行采样特征提取,使用ResNet101作为主网络进行提取,其步骤如下:
1)对于所述图像进行4次下采样提取特征,采用3*3大小的卷积核,设置步长stride=2,得到原图像1/16大小的特征图;
2)对所述特征图分别采用1*1卷积层,以及三个3*3的空洞卷积,空洞卷积的rate分别为(6,12,18),输出的通道数均为256,并且添加BN层;
3)进行全局平均池化层得到image-level特征;
4)输入到一个1*1卷积层,输出通道仍设为256,并双线性插值到原始大小;
5)将以上得到的4个不同尺度的特征在通道维度concat在一起,采用1*1的卷积核分类层进行融合并得到256-channel的新特征;
基于所述新特征获得相应特征图,然后对特征图采用解码器进行上采样的恢复分辨率处理,得到最终预测特征图,其步骤如下:
1)将编码器得到的特征图双线性插值得到4*的特征图;
2)将编码器中对应大小的低级特征采用1*1卷积层进行通道数降维;
3)将前两步得到的分辨率相同的特征图进行级联,并采用3*3的卷积层进一步融合特征;
4)进行双线性插值得到与原始图片相同大小的分割预测图;基于所述分割预测图,获得所述分割预测图中代表不同类别的图像的类分数,即所述语义分割分数。
进一步而言,所述在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征,本申请实施例步骤S200还包括:
步骤S210:对于每一帧点云数据,根据点云坐标系到相机坐标系的转换矩阵,将空间点云位置转换到照相机坐标系下的坐标点位置;
步骤S220:筛选各相机坐标点中Z轴坐标值大于0.1的点,获得第一索引位置集合;
步骤S230:根据所述第一索引位置集合通过照相机坐标系到图像坐标系的转换矩阵,获得到图像坐标系下的坐标值;
步骤S240:加载所述点云数据对应的图像帧,获得每个坐标值下的RGB通道数据;
步骤S250:将所述RGB通道数据级联至点云特征维度。
进一步的,所述将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中,本申请实施例步骤S300还包括:
步骤S310:对所述每一时间戳下的图像帧,索引所述分割网络输出的带有所述语义分割分数的各点图像坐标;
步骤S320:将对应类别叠加至相应帧中已经过投影到图像坐标系的所述点云数据中。
具体而言,对于每一帧图像,索引语义分割网络输出的带有类别分数的各点图像坐标,即对每一时间戳下的每一图像帧都通过语义分割网络处理,获得可快速检索到各点图像的索引坐标;对所述每一帧的点云数据进行坐标的转化,即通过所述点云坐标系和相机坐标系,获得对应的坐标转换矩阵,基于所述坐标转换矩阵,将空间点云位置转化为相机坐标系下的坐标点位置,再筛选各相机坐标点中Z轴坐标值大于0.1的点,获得第一索引位置集合,根据所述第一索引位置集合,通过照相机坐标系到图像坐标系的转换矩阵,获得到图像坐标系下的坐标值,加载点云对应帧的图像,获取每个坐标值下的RGB通道数据;将RGB数据级联至点云特征维度,即在强度维度concat三列颜色信息,将对应类别叠加至相应帧中已经过投影到图像的点云各点中。
进一步的,所述对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别,本申请实施例步骤S400还包括:
步骤S410:对所述点云数据进行基于下采样的图构建;
步骤S420:构建图神经网络更新迭代每一个中心点的特征,通过相邻点的状态来改善中心点的状态;
步骤S430:定位分支预测每个类别的边界框,如果一个顶点在一个边界框中,计算预测值与groundtruth的Huber损失;如果一个顶点不在所述边界框中或者是非感兴趣类,将其定位损失置为0。
具体而言,所述图构建的过程主要包括:
1)使用下采样降低点云的密度,采用最远距离法选定中心点;
2)针对每一中心点,通过使用单元列表查找给定截止距离内的点对;
3)采用多层感知机对于每一个图像中的点及点对边提取特征,并通过Max函数聚合特征,作为中心点的初始状态值。
通过构建图神经网络来更新迭代每一个中心点的特征,使用邻居点的状态来改善中心点的状态,其中,所述改善公式如下:
Figure BDA0002991784150000101
Figure BDA0002991784150000102
定义一个含有N个点的点云图为P={p1,...,pN},其中pi=(xi,si)。xi∈R3表示原始点云的空间坐标(X,Y,Z),si∈Rk代表原始点属性状态的k维向量;ft(·)、gt(·)和ht(·)函数都采用多层感知机(MLP)进行建模;ρ(·)函数采用基于注意力机制的边特征聚合方法。分类分支为每个顶点计算多类概率分布值
Figure BDA0002991784150000111
M是目标类总数,包括背景类;
Figure BDA0002991784150000112
Figure BDA0002991784150000113
分别为第i个顶点的预测概率和类标签独热编码;xj为j点的点云三维坐标,
Figure BDA0002991784150000114
为t层的j点特征。
再通过损失函数,计算预测值与groundtruth的Huber损失。分类损失采用平均交叉熵损失;定位分支预测每个类的边界框,如果一个顶点在一个边界框中,计算预测值与groundtruth的Huber损失;如果一个顶点不在框中或者是非感兴趣类,将其定位损失置为0,具体公式如下:
Figure BDA0002991784150000115
Figure BDA0002991784150000116
对于目标边界框,我们以7个自由度格式b=(x,y,z,l,h,w,θ),其中(x,y,z)表示边界框的中心位置,(l,h,w)分别表示框的长度、高度和宽度,θ为偏航角。
Figure BDA0002991784150000117
为i点的真实类标签独热编码,
Figure BDA0002991784150000118
为i点的类别预测概率编码,我们使用顶点坐标(xv,yv,zv)对边界框进行编码:
Figure BDA0002991784150000119
Figure BDA00029917841500001110
Figure BDA00029917841500001111
其中lm,hm,wm,θ0,θm是恒定比例因子,vi为预测得到的顶点i的三维坐标,binterest为需要定位的类别真实框区域,
Figure BDA00029917841500001112
为预测得到的顶点i的7维度边界框编码,lhuber为Huber损失函数,δgt为真实的类别标签的7维度边界框编码。本实施例中将(lm,hm,wm)设置为待训练类别的边界框中位数,设置θ∈[π/4,3π/4],θ0=π/2,θm=π/2,来确保检测视线前方的目标物处在检测范围内。定位框分支网络采用MLP来预测每一类别的边界框编码δb=(δx,δy,δz,δl,δh,δw,δθ)。
综上所述,本申请实施例所提供的一种融合语义信息的激光雷达目标检测方法及***具有如下技术效果:
由于采用了通过采用语义分割处理图像和图卷积处理点云数据,语义分割采用编解码器结构,保留轮廓信息的同时来获取高层语义信息,通过图卷积结构提取点云数据特征,根据近邻点的相对坐标编码以及中心点特征更新点的状态,很好地表征了空间点的结构特征,提高了检测的准确性,进而达到基于图像语义分割和图卷积特征提取视觉激光融合目标检测方法,显著提高对道路车辆、行人目标检测的准确性、高效性的技术效果。
实施例二
基于与前述实施例中一种融合语义信息的激光雷达目标检测方法同样发明构思,本发明还提供了一种融合语义信息的激光雷达目标检测***,如图2所示,所述***包括:
第一获得单元11,所述第一获得单元11用于对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;
第一添加单元12,所述第一添加单元12用于在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;
第一投影单元13,所述第一投影单元13用于将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;
第二获得单元14,所述第二获得单元14用于对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。
进一步的,所述***还包括:
第一提取单元,所述第一提取单元用于将ResNet101作为主网络,通过编码器对所述每一时间戳下的图像帧进行下采样特征提取;
第三获得单元,所述第三获得单元用于对所述每一时间戳下的图像帧通过解码器进行上采样的恢复分辨率处理,获得预测特征图;
第四获得单元,所述第四获得单元用于根据所述预测特征图,获得所述语义分割分数。
进一步的,所述***还包括:
第一转换单元,所述第一转换单元用于对于每一帧点云数据,根据点云坐标系到相机坐标系的转换矩阵,将空间点云位置转换到照相机坐标系下的坐标点位置;
第五获得单元,所述第五获得单元用于筛选各相机坐标点中Z轴坐标值大于0.1的点,获得第一索引位置集合;
第六获得单元,所述第六获得单元用于根据所述第一索引位置集合通过照相机坐标系到图像坐标系的转换矩阵,获得到图像坐标系下的坐标值;
第七获得单元,所述第七获得单元用于加载所述点云数据对应的图像帧,获得每个坐标值下的RGB通道数据;
第一级联单元,所述第一级联单元用于将所述RGB通道数据级联至点云特征维度。
进一步的,所述***还包括:
第一索引单元,所述第一索引单元用于对所述每一时间戳下的图像帧,索引所述分割网络输出的带有所述语义分割分数的各点图像坐标;
第一叠加单元,所述第一叠加单元用于将对应类别叠加至相应帧中已经过投影到图像坐标系的所述点云数据中。
进一步的,所述***还包括:
第一构建单元,所述第一构建单元用于对所述点云数据进行基于下采样的图构建;
第一改善单元,所述第一改善单元用于构建图神经网络更新迭代每一个中心点的特征,通过相邻点的状态来改善中心点的状态;
第一预测单元,所述第一预测单元用于定位分支预测每个类别的边界框,如果一个顶点在一个边界框中,计算预测值与groundtruth的Huber损失;如果一个顶点不在所述边界框中或者是非感兴趣类,将其定位损失置为0。
前述图1实施例一中的一种融合语义信息的激光雷达目标检测方法的各种变化方式和具体实例同样适用于本实施例的一种融合语义信息的激光雷达目标检测***,通过前述对一种融合语义信息的激光雷达目标检测方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种融合语义信息的激光雷达目标检测***的实施方法,所以为了说明书的简洁,在此不再详述。
示例性电子设备
下面参考图3来描述本申请实施例的电子设备。
图3图示了根据本申请实施例的电子设备的结构示意图。
基于与前述实施例中一种融合语义信息的激光雷达目标检测方法的发明构思,本发明还提供一种融合语义信息的激光雷达目标检测***,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种融合语义信息的激光雷达目标检测方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他***通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本发明实施例提供的一种融合语义信息的激光雷达目标检测方法,所述方法包括:对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。解决了现有技术中存在对目标的特征的检测效果不够准确,进而导致对车辆、行人的目标检测不够准确和高效的技术问题,进而达到基于图像语义分割和图卷积特征提取视觉激光融合目标检测方法,显著提高对道路车辆、行人目标检测的准确性、高效性的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的***。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令***的制造品,该指令***实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种融合语义信息的激光雷达目标检测方法,其中,所述方法包括:
对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;
在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;
将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;
对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。
2.如权利要求1所述的方法,其中,所述对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数,包括;
将ResNet101作为主网络,通过编码器对所述每一时间戳下的图像帧进行下采样特征提取;
对所述每一时间戳下的图像帧通过解码器进行上采样的恢复分辨率处理,获得预测特征图;
根据所述预测特征图,获得所述语义分割分数。
3.如权利要求1所述的方法,其中,所述在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征,所述方法包括:
对于每一帧点云数据,根据点云坐标系到相机坐标系的转换矩阵,将空间点云位置转换到照相机坐标系下的坐标点位置;
筛选各相机坐标点中Z轴坐标值大于0.1的点,获得第一索引位置集合;
根据所述第一索引位置集合通过照相机坐标系到图像坐标系的转换矩阵,获得到图像坐标系下的坐标值;
加载所述点云数据对应的图像帧,获得每个坐标值下的RGB通道数据;
将所述RGB通道数据级联至点云特征维度。
4.如权利要求3所述的方法,其中,所述将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中,包括:
对所述每一时间戳下的图像帧,索引所述分割网络输出的带有所述语义分割分数的各点图像坐标;
将对应类别叠加至相应帧中已经过投影到图像坐标系的所述点云数据中。
5.如权利要求1所述的方法,其中,所述对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别,包括:
对所述点云数据进行基于下采样的图构建;
构建图神经网络更新迭代每一个中心点的特征,通过相邻点的状态来改善中心点的状态;
定位分支预测每个类别的边界框,如果一个顶点在一个边界框中,计算预测值与groundtruth的Huber损失;如果一个顶点不在所述边界框中或者是非感兴趣类,将其定位损失置为0。
6.如权利要求5所述的方法,其中,所述构建图神经网络更新迭代每一个中心点的特征,通过相邻点的状态来改善中心点的状态,公式如下:
Figure FDA0002991784140000031
Figure FDA0002991784140000032
其中,定义一个含有N个点的点云图为P={p1,...,pN},其中pi=(xi,si),xi∈R3表示原始点云的空间坐标(X,Y,Z),si∈Rk代表原始点属性状态的k维向量,ft(·)、gt(·)和ht(·)函数都采用多层感知机(MLP)进行建模,M代表目标类总数,xj为j点的点云三维坐标,
Figure FDA00029917841400000310
为t层的j点特征。
7.如权利要求5所述的方法,其中,所述定位分支预测每个类别的边界框,如果一个顶点在一个边界框中,计算预测值与groundtruth的Huber损失;如果一个顶点不在所述边界框中或者是非感兴趣类,将其定位损失置为0,具体公式如下:
Figure FDA0002991784140000033
Figure FDA0002991784140000034
Figure FDA0002991784140000035
Figure FDA0002991784140000036
分别为第i个顶点的预测概率和类标签独热编码,b为自由度格式,
Figure FDA0002991784140000037
为i点的真实类标签独热编码,
Figure FDA0002991784140000038
为i点的类别预测概率编码,vi为预测得到的顶点i的三维坐标,binterest为需要定位的类别真实框区域,
Figure FDA0002991784140000039
为预测得到的顶点i的7维度边界框编码,lhuber为Huber损失函数,δgt为真实的类别标签的7维度边界框编码。
8.一种融合语义信息的激光雷达目标检测***,其中,所述***包括:
第一获得单元,所述第一获得单元用于对每一时间戳下的图像帧进行语义分割处理,获得语义分割分数;
第一添加单元,所述第一添加单元用于在每一帧点云数据中添加相应摄像机坐标下的图像RGB特征;
第一投影单元,所述第一投影单元用于将添加所述图像RGB特征的所述点云数据投影到分割网络的输出中,并将所述语义分割分数附加到所述点云数据中;
第二获得单元,所述第二获得单元用于对附加所述语义分割分数和所述图像RGB特征的所述点云数据进行基于图卷积的目标分类与3D框回归,获得目标位置框和目标类别。
9.一种融合语义信息的激光雷达目标检测***,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
CN202110317542.1A 2021-03-25 2021-03-25 一种融合语义信息的激光雷达目标检测方法及*** Active CN113128348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110317542.1A CN113128348B (zh) 2021-03-25 2021-03-25 一种融合语义信息的激光雷达目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110317542.1A CN113128348B (zh) 2021-03-25 2021-03-25 一种融合语义信息的激光雷达目标检测方法及***

Publications (2)

Publication Number Publication Date
CN113128348A true CN113128348A (zh) 2021-07-16
CN113128348B CN113128348B (zh) 2023-11-24

Family

ID=76773893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110317542.1A Active CN113128348B (zh) 2021-03-25 2021-03-25 一种融合语义信息的激光雷达目标检测方法及***

Country Status (1)

Country Link
CN (1) CN113128348B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658257A (zh) * 2021-08-17 2021-11-16 广州文远知行科技有限公司 一种无人设备定位方法、装置、设备及存储介质
CN113705631A (zh) * 2021-08-10 2021-11-26 重庆邮电大学 一种基于图卷积的3d点云目标检测方法
CN113963044A (zh) * 2021-09-30 2022-01-21 北京工业大学 一种基于rgbd相机的货物箱智能装载方法及***
CN113984037A (zh) * 2021-09-30 2022-01-28 电子科技大学长三角研究院(湖州) 一种基于任意方向目标候选框的语义地图构建方法
CN114140765A (zh) * 2021-11-12 2022-03-04 北京航空航天大学 一种障碍物感知方法、装置及存储介质
CN114359902A (zh) * 2021-12-03 2022-04-15 武汉大学 基于多尺度特征融合的三维点云语义分割方法
CN114429631A (zh) * 2022-01-27 2022-05-03 北京百度网讯科技有限公司 三维对象检测方法、装置、设备以及存储介质
CN114445802A (zh) * 2022-01-29 2022-05-06 北京百度网讯科技有限公司 点云处理方法、装置及车辆
CN114998890A (zh) * 2022-05-27 2022-09-02 长春大学 一种基于图神经网络的三维点云目标检测算法
CN115272493A (zh) * 2022-09-20 2022-11-01 之江实验室 一种基于连续时序点云叠加的异常目标检测方法及装置
CN116265862A (zh) * 2021-12-16 2023-06-20 动态Ad有限责任公司 运载工具、用于运载工具的***和方法以及存储介质
CN117058380A (zh) * 2023-08-15 2023-11-14 北京学图灵教育科技有限公司 基于自注意力的多尺度轻量化三维点云分割方法及装置
CN117333676A (zh) * 2023-12-01 2024-01-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表达的点云特征提取方法、点云视觉检测方法
CN117994504A (zh) * 2024-04-03 2024-05-07 国网江苏省电力有限公司常州供电分公司 目标检测方法、目标检测装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948661A (zh) * 2019-02-27 2019-06-28 江苏大学 一种基于多传感器融合的3d车辆检测方法
CN111027401A (zh) * 2019-11-15 2020-04-17 电子科技大学 一种摄像头和激光雷达融合的端到端目标检测方法
CN111583337A (zh) * 2020-04-25 2020-08-25 华南理工大学 一种基于多传感器融合的全方位障碍物检测方法
CN111709343A (zh) * 2020-06-09 2020-09-25 广州文远知行科技有限公司 一种点云检测方法、装置、计算机设备和存储介质
US10929694B1 (en) * 2020-01-22 2021-02-23 Tsinghua University Lane detection method and system based on vision and lidar multi-level fusion

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948661A (zh) * 2019-02-27 2019-06-28 江苏大学 一种基于多传感器融合的3d车辆检测方法
CN111027401A (zh) * 2019-11-15 2020-04-17 电子科技大学 一种摄像头和激光雷达融合的端到端目标检测方法
US10929694B1 (en) * 2020-01-22 2021-02-23 Tsinghua University Lane detection method and system based on vision and lidar multi-level fusion
CN111583337A (zh) * 2020-04-25 2020-08-25 华南理工大学 一种基于多传感器融合的全方位障碍物检测方法
CN111709343A (zh) * 2020-06-09 2020-09-25 广州文远知行科技有限公司 一种点云检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢波;赵亚男;高利;高峰;: "基于激光雷达点云的小目标语义分割增强方法", 激光杂志, no. 04 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705631B (zh) * 2021-08-10 2024-01-23 大庆瑞昂环保科技有限公司 一种基于图卷积的3d点云目标检测方法
CN113705631A (zh) * 2021-08-10 2021-11-26 重庆邮电大学 一种基于图卷积的3d点云目标检测方法
CN113658257A (zh) * 2021-08-17 2021-11-16 广州文远知行科技有限公司 一种无人设备定位方法、装置、设备及存储介质
CN113658257B (zh) * 2021-08-17 2022-05-27 广州文远知行科技有限公司 一种无人设备定位方法、装置、设备及存储介质
CN113984037B (zh) * 2021-09-30 2023-09-12 电子科技大学长三角研究院(湖州) 一种基于任意方向目标候选框的语义地图构建方法
CN113963044A (zh) * 2021-09-30 2022-01-21 北京工业大学 一种基于rgbd相机的货物箱智能装载方法及***
CN113963044B (zh) * 2021-09-30 2024-04-30 北京工业大学 一种基于rgbd相机的货物箱智能装载方法及***
CN113984037A (zh) * 2021-09-30 2022-01-28 电子科技大学长三角研究院(湖州) 一种基于任意方向目标候选框的语义地图构建方法
CN114140765B (zh) * 2021-11-12 2022-06-24 北京航空航天大学 一种障碍物感知方法、装置及存储介质
CN114140765A (zh) * 2021-11-12 2022-03-04 北京航空航天大学 一种障碍物感知方法、装置及存储介质
CN114359902A (zh) * 2021-12-03 2022-04-15 武汉大学 基于多尺度特征融合的三维点云语义分割方法
CN114359902B (zh) * 2021-12-03 2024-04-26 武汉大学 基于多尺度特征融合的三维点云语义分割方法
CN116265862A (zh) * 2021-12-16 2023-06-20 动态Ad有限责任公司 运载工具、用于运载工具的***和方法以及存储介质
CN114429631A (zh) * 2022-01-27 2022-05-03 北京百度网讯科技有限公司 三维对象检测方法、装置、设备以及存储介质
CN114429631B (zh) * 2022-01-27 2023-11-14 北京百度网讯科技有限公司 三维对象检测方法、装置、设备以及存储介质
CN114445802A (zh) * 2022-01-29 2022-05-06 北京百度网讯科技有限公司 点云处理方法、装置及车辆
CN114998890A (zh) * 2022-05-27 2022-09-02 长春大学 一种基于图神经网络的三维点云目标检测算法
CN114998890B (zh) * 2022-05-27 2023-03-10 长春大学 一种基于图神经网络的三维点云目标检测算法
CN115272493B (zh) * 2022-09-20 2022-12-27 之江实验室 一种基于连续时序点云叠加的异常目标检测方法及装置
CN115272493A (zh) * 2022-09-20 2022-11-01 之江实验室 一种基于连续时序点云叠加的异常目标检测方法及装置
CN117058380B (zh) * 2023-08-15 2024-03-26 北京学图灵教育科技有限公司 基于自注意力的多尺度轻量化三维点云分割方法及装置
CN117058380A (zh) * 2023-08-15 2023-11-14 北京学图灵教育科技有限公司 基于自注意力的多尺度轻量化三维点云分割方法及装置
CN117333676A (zh) * 2023-12-01 2024-01-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表达的点云特征提取方法、点云视觉检测方法
CN117333676B (zh) * 2023-12-01 2024-04-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表达的点云特征提取方法、点云视觉检测方法
CN117994504A (zh) * 2024-04-03 2024-05-07 国网江苏省电力有限公司常州供电分公司 目标检测方法、目标检测装置

Also Published As

Publication number Publication date
CN113128348B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN113128348B (zh) 一种融合语义信息的激光雷达目标检测方法及***
Zamanakos et al. A comprehensive survey of LIDAR-based 3D object detection methods with deep learning for autonomous driving
US10078790B2 (en) Systems for generating parking maps and methods thereof
Wen et al. Deep learning-based perception systems for autonomous driving: A comprehensive survey
US8620026B2 (en) Video-based detection of multiple object types under varying poses
Liang et al. A survey of 3D object detection
CN114821507A (zh) 一种用于自动驾驶的多传感器融合车路协同感知方法
Ngo et al. Cooperative perception with V2V communication for autonomous vehicles
Xu et al. HA U-Net: Improved model for building extraction from high resolution remote sensing imagery
CN112270694B (zh) 基于激光雷达扫描图进行城市环境动态目标检测的方法
Park et al. Drivable dirt road region identification using image and point cloud semantic segmentation fusion
CN115100741B (zh) 一种点云行人距离风险检测方法、***、设备和介质
CN112613392A (zh) 基于语义分割的车道线检测方法、装置、***及存储介质
CN116486368A (zh) 基于自动驾驶场景下的多模态融合三维目标鲁棒检测方法
CN115965970A (zh) 基于隐式的集合预测实现鸟瞰图语义分割的方法及***
Chen et al. Multitarget vehicle tracking and motion state estimation using a novel driving environment perception system of intelligent vehicles
Huang et al. Overview of LiDAR point cloud target detection methods based on deep learning
CN114118247A (zh) 一种基于多传感器融合的无锚框3d目标检测方法
Gomez-Donoso et al. Three-dimensional reconstruction using SFM for actual pedestrian classification
CN116883767A (zh) 一种基于多源信息多尺度融合的目标检测方法
AU2023203583A1 (en) Method for training neural network model and method for generating image
CN116664851A (zh) 一种基于人工智能的自动驾驶数据提取方法
CN114820931B (zh) 基于虚拟现实的智慧城市cim可视化实时成像方法
CN116453205A (zh) 一种营运车辆滞站揽客行为识别方法、装置及***
Gao et al. Research on multitask model of object detection and road segmentation in unstructured road scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant