CN115393680B

CN115393680B - 雾天场景下多模态信息时空融合的3d目标检测方法及***

Info

Publication number: CN115393680B
Application number: CN202210945302.0A
Authority: CN
Inventors: 尹智帅; 焦钰军; 刘峻恺
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2023-06-06
Anticipated expiration: 2042-08-08
Also published as: CN115393680A

Abstract

本发明公开了一种雾天场景下多模态信息时空融合的3D目标检测方法，包括以下步骤：获取雾天场景下的激光雷达点云和毫米波雷达点云数据并进行预处理，再进行时空特征匹配，借助毫米波点云特征对激光雷达点云特征进行重采样，并将重采样后的点云在时序上进行融合，得到初步的鸟瞰视角下时空融合特征，输入到基于自注意力的Transformer编码器，采用自注意力的方式进行特征编码，得到更高维的时空语义特征；输入至目标分类检测头和边框回归检测头两个分支，输出最后的目标检测结果，包括物体类别和在空间中的位置。本发明有效融合了激光雷达点云和毫米波雷达点云，互补其数据表征优势，从而实现了雾天场景下鲁棒高效的3D目标检测。

Description

雾天场景下多模态信息时空融合的3D目标检测方法及***

技术领域

本发明涉及自动驾驶中的环境感知领域，尤其涉及一种雾天场景下多模态信息时空融合的3D目标检测方法及***。

背景技术

近些年，高级别自动驾驶的落地成为自动驾驶领域需要攻克的重难点。3D目标检测作为自动驾驶领域的关键研究方向，其关键挑战在于实现全天候多场景的目标检测，即在任何天气条件下，都能准确地识别周围的物体。如今，自动驾驶汽车多采用多传感器融合的配置方案来完成目标检测，如相机、激光雷达和毫米波雷达等。融合多个传感器的方式能够克服单个传感器的偶尔故障导致***失灵的问题，并比只使用单一传感器产生更准确的目标检测结果。

现有的多传感器融合目标检测方法主要为基于激光雷达和相机等来完成感知任务，其通常能在良好的天气条件下生成细粒度的点云或高分辨率的图像，提供丰富和冗余的视觉信息。然而，这些视觉传感器对天气条件很敏感，在恶劣的天气（如雾）中，不透明的粒子会扭曲光线，显著降低激光雷达和相机的感知范围，从而导致检测的结果变得不再可靠。

而对于毫米波雷达来说，相比于激光雷达和相机，除其成本低廉且被广泛应用外，毫米波雷达使用的毫米波信号的波长比雾、雨和雪等的微粒要大得多，因此很容易穿透或衍射在它们周围。因此，毫米波雷达数据受雨雾天气影响较小，采用毫米波雷达和其他传感器融合的方式能够完成在雾天场景下鲁棒的3D目标检测任务。

发明内容

本发明主要目的在于缓解天气条件和目标运动带来的干扰，实现雾天场景下鲁棒高效的3D目标检测。

本发明所采用的技术方案是：

提供一种雾天场景下多模态信息时空融合的3D目标检测方法，包括以下步骤：

S1、获取雾天场景下的激光雷达点云数据和毫米波雷达点云数据并分别进行预处理；

S2、将经过预处理的多帧激光雷达点云和毫米波雷达点云进行时空特征匹配，借助毫米波点云特征对激光雷达点云特征进行重采样，再进一步在时序上进行融合，得到初步的鸟瞰视角下时空融合特征；

S3、将鸟瞰视角下时空融合特征输入到基于自注意力的Transformer编码器，采用自注意力的方式进行特征编码，得到与原特征图尺寸相同但更高维的时空语义特征；

S4、将更高维的时空语义特征分别输入至目标分类检测头和边框回归检测头两个分支，输出最后的目标检测结果，包括物体类别和在空间中的位置。

接上述技术方案，将激光雷达点云数据提取为体素voxel，对毫米波雷达点云采用PointNet形式进行预处理。

接上述技术方案，步骤S2中具体将毫米波雷达点云转换至激光雷达坐标系下与其体素进行匹配，然后将所有的体素和点云特征转换空间位置投影至鸟瞰图上。

接上述技术方案，步骤S2中具体将毫米波雷达点云作为中心，采用KNN搜索一定范围内的激光雷达生成的体素，并进行随机采样；最后将经过筛选的激光雷达点云体素和毫米波雷达点云进行关联和特征拼接，得到增强后的融合特征。

接上述技术方案，步骤S3具体包括以下步骤：

将2.5m×2.5m作为时空窗口的尺寸，并将不同时刻但同一位置的所有体素特征作为该时空窗口内的所有元素；

将划分后的40×40个时空窗口统一作为一个批次输入到基于自注意力的Transformer编码器中进行特征编码输出高维语义时空特征；

借助体素的坐标将高维语义特征重新映射表达为鸟瞰视角下规则栅格化的特征图。

接上述技术方案，步骤S4具体包括以下步骤：

在高维的时空语义特征图的每个位置上布置朝向分别为0°和90°的基准框；

将布置了基准框后的时空语义特征图分别输入目标分类检测头和边框回归检测头两个分支的全连接层，得到网络物体类别评分和预测边框，基于评分将输入阈值低的检测框进行过滤，以得到高质量的检测框。

接上述技术方案，基准框的尺寸根据数据集中某个类别标注数据的平均值获得，以减小网络学习的难度。

本发明还提供一种雾天场景下多模态信息时空融合的3D目标检测***，包括：

预处理模块，用于获取雾天场景下的激光雷达点云数据和毫米波雷达点云数据并分别进行预处理；

时空特征匹配模块，用于将经过预处理的多帧激光雷达点云和毫米波雷达点云进行时空特征匹配，借助毫米波点云特征对激光雷达点云特征进行重采样，再进一步在时序上进行融合，得到初步的鸟瞰视角下时空融合特征；

特征编码模块，用于将鸟瞰视角下时空融合特征输入到基于自注意力的Transformer编码器，采用自注意力的方式进行特征编码，得到与原特征图尺寸相同但更高维的时空语义特征；

分类模块，用于将更高维的时空语义特征分别输入至目标分类检测头和边框回归检测头两个分支，输出最后的目标检测结果，包括物体类别和在空间中的位置。

本发明还提供一种计算机存储介质，其内存储有可被处理器执行的计算机程序，该计算机程序执行上述技术方案所述的雾天场景下多模态信息时空融合的3D目标检测方法。

本发明还提供一种车载雾天场景目标检测***，包括数据采集器、车载存储计算平台和车辆执行器，其中数据采集器包括激光雷达、相机、毫米波雷达、车辆数据传感器，车载存储计算平台内设有所述的计算机存储介质，车辆执行器根据车载存储计算平台输出的控制指令执行相应的动作。

本发明产生的有益效果是：本发明利用毫米波雷达在雾天下的感知鲁棒性来增强激光雷达点云特征，同时仍基于激光雷达点云进行目标的定位和检测也克服了毫米波雷达对高度信息感知误差大、数据分辨率低的不足，充分结合两种传感器在雾天场景下的优势。同时采用多帧数据进行多时空融合能够进一步增强数据表征，同时一定程度上缓解天气条件和目标运动带来的干扰，从而实现了雾天场景下鲁棒高效的3D目标检测。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例雾天场景下多模态信息时空融合的3D目标检测方法流程图一；

图2是本发明实施例雾天场景下多模态信息时空融合的3D目标检测方法流程图二；

图3是本发明实施例雾天场景下多模态信息时空融合的3D目标检测***结构示意图；

图4是本发明实施车载雾天场景目标检测***架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明主要用于在雾天等恶劣的天气条件下提高目标检测性能，提高3D目标检测***应对极端天气的可靠性。

如图1所示，本发明实施例雾天场景下多模态信息时空融合的3D目标检测方法主要利用激光雷达和毫米波雷达点云时空特征融合检测机制，其主要包括以下步骤：

S1、获取空间点云数据并分别进行预处理，包括激光雷达点云数据和毫米波雷达点云。其中，激光雷达点云数据量较大，可将其提取为voxel，毫米波雷达点云过于稀疏，采用pointNet形式来进行预处理。

S2、时空特征匹配及自适应采样：将经过预处理的多帧激光雷达点云和毫米波雷达点云进行时空特征匹配。在雾天场景下，由于毫米波雷达点云受干扰较小，因此借助毫米波点云特征对激光雷达点云特征进行重采样，然后再进一步在时序上进行融合，得到初步的鸟瞰视角下时空融合特征。

S3、时空特征编码及提取：将匹配及重采样后的融合特征输入到Transformer编码器，采用自注意力的方式进行特征编码，提高特征的全局依赖性，最后输出得到与原特征图尺寸相同但更高维的时空语义特征。

S4、目标分类及边框回归：得到鸟瞰视角下的高维语义特征之后，将其分别输入至目标分类检测头和边框回归检测头两个分支，输出最后的目标检测结果，即物体类别及在空间中的位置。

本发明另一实施例的雾天场景目标检测方法具体实施流程如图2所示，可具体包括以下步骤：

S100、获取空间点云数据并分别进行预处理，包括如下步骤：

S110、网格划分：检测范围需要根据具体场景及传感器安装位置进行设定，在本发明实施例中，在激光雷达坐标系下分别将[-50m, 50m]、[-40m，40m]、[-3m, 5m]作为X、Y、Z方向的感知范围。将此范围内的点云按照0.25m×0.25m×8m分辨率划分为大小尺寸相等的网络；毫米波雷达获取的点云则采用PointNet方式进行初步特征提取。

S120、点云分组及特征聚合：根据S110划分的网络对激光雷达点云进行分组；将分组后的点云，按网格进行特征聚合以得到体素特征。本发明为平衡计算量和特征的鲁棒性，采用平均池化和最大池化结合的方式生成体素特征。

S200、时空特征匹配及自适应采样：将经过处理的多帧激光雷达点云体素特征和毫米波雷达点云进行时空特征匹配。在雾天场景下，由于毫米波雷达点云受干扰较小，因此借助毫米波点云特征对激光雷达点云特征进行重采样，然后再进一步在时序上进行融合，得到初步的鸟瞰视角下时空融合特征。该步骤S200具体包括：

S210、统一坐标系及鸟瞰图转换：将毫米波雷达点云转换至激光雷达坐标系下与其体素进行匹配。然后将所有的体素和点云特征转换空间位置投影至鸟瞰图上。

S220、特征重采样及增强：将毫米波雷达点云作为中心，采用KNN搜索一定范围内的激光雷达生成的体素，并根据激光雷达有效体素和毫米波雷达点云数据之间的统计关系进行多尺度随机采样；最后将经过筛选的激光雷达点云体素和毫米波雷达点云进行关联和特征拼接，得到增强后的融合特征。统计关系指的是，在一定雾气浓度下，激光雷达数据和毫米波雷达数据量存在一定比例关系。多尺度指的是knn可以根据多个范围进行搜索，在不同范围采样不同数量的数据。

S230、将多帧点云及体素均按照以上方式处理，并以时间戳顺序进行排列便得到时空融合特征。

S300、时空特征编码：将匹配及重采样后的时空融合特征输入到Transformer编码器，采用自注意力的方式进行特征编码，提高特征的全局依赖性，最后输出得到与原特征图尺寸相同但更高维的时空语义特征。其中包括：

S310、时空窗口划分及特征编码：具体将2.5m×2.5m作为时空窗口的尺寸，并将S230中不同时刻但同一位置的所有体素特征作为该时空窗口内的所有元素。然后将同一时空窗口内的元素输入到基于自注意力的Transformer编码器，通过自注意力机制的全局依赖性，一方面可以学习当前空间位置所有的环境和目标几何特征和位置特征，另一方面，可以建模同一目标在一段时间内的时序依赖，充分利用历史帧信息来增强特征表达，从而对抗雾天干扰。

S320、时空特征批处理：将划分后的40×40个时空窗口统一作为一个批次输入到基于自注意力的Transformer编码器中采用同上的特征编码方式输出高维语义时空特征，这样可以减少计算量同时提高特征提取过程中的全局依赖性。

S330、特征重栅格化：S320输出的高维语义特征是一系列乱序的元素特征，但其和体素表征形式相差不大，因此借助于体素的坐标可将其重新映射表达为鸟瞰视角下规则栅格化的特征图。

S400、目标分类及边框回归：得到鸟瞰视角下的高维语义特征之后，将其分别输入至目标分类检测头和边框回归检测头两个分支，输出最后的目标检测结果，即物体类别及在空间中的位置。其中包括：

S410、回归基准框设置：在S330得到的特征图的每个位置上布置朝向分别为0°和90°的基准框，基准框的尺寸根据数据集中某个类别标注数据的平均值获得，以减小网络学习的难度。

S420、目标分类及边框回归：将S330得到的特征图分别输分类分支和边框回归的全连接层，得到网络物体类别评分和预测边框。基于评分将输入阈值低的检测框进行过滤，以得到高质量的检测框。

本发明实施例的雾天场景下多模态信息时空融合的3D目标检测***，主要用于实现上述实施例的方法，该***包括：

本申请还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质被处理器执行时实现方法实施例的雾天场景下多模态信息时空融合的3D目标检测方法。

基于上述实施例的雾天场景时空特征融合的目标检测方法，本发明进一步构建了车载雾天场景目标检测***，***架构图如图3所示，包括传感器（用于数据采集，包括激光雷达、相机、毫米波雷达、车辆数据传感器等）和车载存储计算平台（存储器、定位感知计算平台）等。其中传感器通过数据传输接口（以太网、USB、CAN）与车载存储计算平台通讯，本***的执行流程为：

（1）将本发明提出的雾天场景时空特征融合目标检测算法转换为指令代码部署于车载计算平台存储器内。

（2）配置激光雷达和毫米波雷达传感器的驱动，实现传感器数据的解析与转发，转发后的数据形式与（1）中的指令代码相匹配。

（3）基于（1）中的指令代码对解析转发后的数据在感知定位计算平台进行计算处理，并得到检测结果并送入到存储器，规划控制平台从存储器读取实时检测结果，并根据有其他算法得到的定位感知结果在规划控制计算平台完成下游任务。

（4）车辆执行器根据下游任务相应的控制指令进行动作执行。

综上，本发明利用毫米波雷达在雾天下的感知鲁棒性来增强激光雷达点云特征，同时仍基于激光雷达点云进行目标的定位和检测也克服了毫米波雷达对高度信息感知误差大、数据分辨率低的不足，充分结合两种传感器在雾天场景下的优势。同时采用多帧数据进行多时空融合能够进一步增强数据表征，一定程度上缓解天气条件和目标运动带来的干扰，从而实现了雾天场景下鲁棒高效的3D目标检测。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种雾天场景下多模态信息时空融合的3D目标检测方法，其特征在于，包括以下步骤：

S4、将更高维的时空语义特征分别输入至目标分类检测头和边框回归检测头两个分支，输出最后的目标检测结果，包括物体类别和在空间中的位置；

其中步骤S2具体包括：

统一坐标系及鸟瞰图转换：将毫米波雷达点云转换至激光雷达坐标系下与其体素进行匹配，然后将所有的体素和点云特征转换空间位置投影至鸟瞰图上；

特征重采样及增强：将毫米波雷达点云作为中心，采用KNN搜索一定范围内的激光雷达生成的体素，并根据激光雷达有效体素和毫米波雷达点云数据之间的统计关系进行多尺度随机采样；最后将经过筛选的激光雷达点云体素和毫米波雷达点云进行关联和特征拼接，得到增强后的融合特征；统计关系指的是，在一定雾气浓度下，激光雷达数据和毫米波雷达数据量存在一定比例关系；多尺度指的是KNN根据多个范围进行搜索，在不同范围采样不同数量的数据；

将多帧点云及体素均按照以上方式处理，并以时间戳顺序进行排列便得到时空融合特征。

2.根据权利要求1所述的雾天场景下多模态信息时空融合的3D目标检测方法，其特征在于，将激光雷达点云数据提取为体素voxel，对毫米波雷达点云采用PointNet形式进行预处理。

3.根据权利要求1所述的雾天场景下多模态信息时空融合的3D目标检测方法，其特征在于，步骤S3具体包括以下步骤：

4.根据权利要求1所述的雾天场景下多模态信息时空融合的3D目标检测方法，其特征在于，步骤S4具体包括以下步骤：

5.根据权利要求4所述的雾天场景下多模态信息时空融合的3D目标检测方法，其特征在于，基准框的尺寸根据数据集中某个类别标注数据的平均值获得，以减小网络学习的难度。

6.一种雾天场景下多模态信息时空融合的3D目标检测***，其特征在于，包括：

分类模块，用于将更高维的时空语义特征分别输入至目标分类检测头和边框回归检测头两个分支，输出最后的目标检测结果，包括物体类别和在空间中的位置；

其中时空特征匹配模块具体用于：统一坐标系及鸟瞰图转换：将毫米波雷达点云转换至激光雷达坐标系下与其体素进行匹配，然后将所有的体素和点云特征转换空间位置投影至鸟瞰图上；

7.一种计算机存储介质，其特征在于，其内存储有可被处理器执行的计算机程序，该计算机程序执行权利要求1-5中任一项所述的雾天场景下多模态信息时空融合的3D目标检测方法。

8.一种车载雾天场景目标检测***，其特征在于，包括数据采集器、车载存储计算平台和车辆执行器，其中数据采集器包括激光雷达、相机、毫米波雷达、车辆数据传感器，车载存储计算平台内设有权利要求7所述的计算机存储介质，车辆执行器根据车载存储计算平台输出的控制指令执行相应的动作。