CN115631483B

CN115631483B - 一种基于深度学习的毫米波雷达和相机融合方法

Info

Publication number: CN115631483B
Application number: CN202211568243.6A
Authority: CN
Inventors: 靳泽宇; 杜垚琼; 张雅妮
Original assignee: Autobrain Tianjin Technology Co ltd
Current assignee: Autobrain Tianjin Technology Co ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-05-05
Anticipated expiration: 2042-12-08
Also published as: CN115631483A

Abstract

本发明提供了一种基于深度学习的毫米波雷达和相机融合方法，包括：根据毫米波雷达实时检测计算先验位置集合，它对应可能存在物体的区域，并且进一步实时动态地根据先验位置集合筛选相机深度学习神经网络head部分的有效计算单元，进行推理计算；先验位置集合的计算方法，包括对毫米波雷达检测的坐标信息，建立基于3d柱坐标系和正态分布的数据模型；将此数据模型投影映射至相机像素检测空间；基于置信椭圆和坐标系归一化，得到先验位置集合。本发明所述的融合方法，全面地考虑了毫米波雷达的检测信息和概率特点；相机神经网络在运行时，只对可能存在目标的激活像素位置推理，提升了相机神经网络的运算效率。

Description

一种基于深度学习的毫米波雷达和相机融合方法

技术领域

本发明属于无人驾驶感知，以及多传感器融合技术领域，尤其是涉及一种基于深度学习的毫米波雷达和相机融合方法。

背景技术

现有技术缺点：

a.深度学习神经网络占用运算资源大，实时性差。

b.毫米波雷达在相机检测空间的投影缺乏对障碍物高度和不确定度的信息。

c.缺乏通用性，融合方法往往针对某种特定的神经网络。

为了综合解决上述缺点，本方案的基本思路是：观察到当前常用的基于视觉的目标检测神经网络，如Faster-RCNN，YOLO，SSD等的head部分可以拆解为围绕不同先验位置进行计算的单位，先验位置即障碍物可能出现的位置信息。所以，本专利提出的方案基于这个共性对神经网络进行优化，即基于毫米波雷达提供的检测信息计算有效先验位置，head部分只对对应这些有效位置的部分进行计算。特别地，在计算先验位置时，将毫米波雷达的“距离-角度”检测信息和场景障碍物经验高度这个信息以及它们的不确定度融合，然后将融合后的信息投影到相机像素空间，这样一个物体将对应一个椭圆形的先验位置集合。

值得注意的是，区别于常提到的网络裁剪，本专利对于网络的“裁剪”发生在运行时，是计算范围的动态选择。

另外，基于深度学习的毫米波信息和相机信息融合的大量现有方案都需要对神经网络的重新训练，而本专利毫米波雷达信息被用作网络动态裁剪信息参与神经网络推理，也就是说，本专利不关注已经训练好的网络中的具体参数，所以，本专利给出了一种免除重新训练的信息融合方式。

发明内容

有鉴于此，本发明旨在提出一种基于深度学习的毫米波雷达和相机融合方法，以解决背景技术中所存在问题之一。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于深度学习的毫米波雷达和相机融合方法，包括：

根据毫米波雷达实时检测计算物体先验位置集合，所述先验位置对应物体在像素检测空间可能存在的区域；

根据所述先验位置集合，实时动态地筛选神经网络head部分的有效计算单元；

根据相机实时检测，神经网络进行网络推理，其中head部分只有有效计算单元参与运算。

进一步的，先验位置集合的计算的方法，包括如下步骤：

S11、对毫米波雷达检测的“角度-距离”极坐标信息，增加高度信息，并估计“角度-距离-高度”的正态分布，得到增强检测信息；

S12、将所述增强检测信息投影映射至相机像素检测空间；

S13、将投影映射后的所述增强检测信息基于置信椭圆限定范围并归一化，得到先验位置集合。

进一步的，筛选相机深度学习神经网络head部分的有效计算单元；神经网络根据相机检测进行网络推理，其中head部分只有有效计算单元参与运算，包括如下步骤：

S21、计算每一个计算单元对应的归一化先验位置；

S22、根据所述每一个计算单元对应的归一化先验位置，筛选head部分的有效计算单元。

S23、神经网络根据相机检测进行网络推理，其中head部分只有有效计算单元参与运算。

进一步的，步骤S11中，对毫米波雷达检测的物体的“角度-距离”极坐标信息，增加高度信息，其过程如下：基于毫米雷达检测的2d极坐标检测信息，为物体几何中心的距离和角度，加入物体几何中心高度信息，得到3d柱坐标系信息；高度信息根据目标类别的高度的统计均值确定。

比如，目标类别是乘用车，货车，其高度基本是类似的，并且这些物体在地面上运动，可以根据统计获得这类物体的平均高度。值得注意的是，本专利的适用场景是无人驾驶常见的检测物体，尤其是对于路面车辆，行人等障碍物适用，对于其他场景或者物体需要另外的考虑或者转化。

步骤S11中，估计“角度-距离-高度”的正态分布，得到增强检测信息，包括：在3d柱坐标系信息“角度-距离-高度”的基础上，拓展协方差，建立正态分布模型，具体过程如下：

增强检测信息服从正态分布，记其均值，协方差为。

其中：，，将所述3d柱坐标系信息角度、距离、高度，作为增强检测信息的均值，对应符号。

取角度、距离的标准差；取高度信息的标准差。

进一步的，步骤S12中将所述增强检测信息投影映射至相机像素检测空间过程如下：

增强检测信息在相机像素平面投影服从正态分布，其均值和协方差是，其中：，，其中:为增强检测信息服从的正态分布的均值，协方差；为所述毫米波雷达检测从柱坐标系向直角坐标系转化函数；，为毫米波雷达相对于相机坐标系的外参的旋转和平移对应矩阵；为相机内参；为第一截取函数，其中第一截取函数的输入是大于等于二的向量，输出向量是基于输入向量的前两个元素组成的新向量；为函数在位置的梯度；为第二截取函数，其中，第二截取函数的输入是维度大于等于二的方阵，输出是基于方阵的左上角二维子方阵组成的新矩阵；

进一步的，步骤S13中将投影映射后的所述增强检测信息基于置信椭圆限定范围并归一化，得到先验位置集合，其过程如下：

基于所述增强检测信息投影映射至相机像素检测空间内的信息，取投影后的增强检测信息设定概率的置信椭圆；将置信椭圆归一化，所述置信椭圆归一化包括：所述椭圆上的每一个点的位置都进行归一化；归一化后置信椭圆内的范围即为先验位置集合；所述椭圆上的每一个点的位置坐标(u,v)的归一化坐标是(u/U,v/V)，其中U，V分别对应了u，v所在维度的取值范围；U，V为相机像素平面的长宽尺寸。

每一个障碍物的增强检测信息在相机像素平面的投影都是一个是正态分布，取其一定概率的置信椭圆。置信椭圆常用的概率要根据实际场景确定，常用的取值在95%附近。进一步，将置信椭圆归一化，即椭圆上的每一个点的位置都进行归一化。归一化后置信椭圆内的范围即为先验位置集合。

进一步的，步骤S21中计算每一个计算单元对应的归一化先验位置，包括：每一个计算单元包含输入矩阵和输出向量，所述计算单元的先验位置采用输入矩阵或输出向量中任意一种，对先验位置采用坐标归一化方式得到归一化先验位置。具体地，位置坐标(u,v)的归一化坐标是(u/U,v/V)，其中U，V分别对应了u，v所在维度的取值范围。

进一步的，步骤S22根据每一个计算单元对应的归一化先验位置，筛选head部分的有效计算单元，其过程如下：

遍历head部分的所有计算单元，如果某一个计算单元对应的归一化先验位置属于所述先验位置集合，那么，它是有效计算单元，否则不是。神经网络推理时只对有效计算单元计算。

进一步的，步骤S23神经网络根据相机检测进行网络推理，其中head部分只有有效计算单元参与运算。

相对于现有技术，本发明所述的一种基于深度学习的毫米波雷达和相机融合方法具有以下优势：

（1）本发明所述的一种基于深度学习的毫米波雷达和相机融合方法；

相机深度学习神经网络在运行时，只有部分网络进行推理，这部分网络对应物体可能存在的像素位置，提升了相机深度学习神经网络的运算效率。

（2）本发明所述的一种基于深度学习的毫米波雷达和相机融合方法；本发明基于常用目标检测网络的某种通用特性进行优化，即head部分可以拆分为围绕先验位置计算的计算单元；基于此本专利提供了筛选有效计算单元的方法。对于各种神经网络通用性好。

（3）本发明所述的一种基于深度学习的毫米波雷达和相机融合方法；

对各种信息的考虑充分完备，融合了毫米波雷达“距离-角度”这种常规检测，场景物体经验高度这个知识，以及这些信息中的不确定度；这些信息体现在先验位置集合中；每一个障碍物的对应一个椭圆形的先验位置集合。

（4）本发明所述的一种基于深度学习的毫米波雷达和相机融合方法；

区别于常提到的网络裁剪，本方法对于网络的“裁剪”发生在运行时，是计算范围的动态选择。

（5）本发明所述的一种基于深度学习的毫米波雷达和相机融合方法；基于深度学习的毫米波信息和相机信息融合的大量现有方案都需要对神经网络的重新训练，而本专利毫米波雷达信息被用作网络动态裁剪信息参与神经网络推理，也就是说，本专利不关注已经训练好的网络中的具体参数，所以，本专利给出了一种免除重新训练的信息融合方式。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的深度学习模型head部分示意图；

图2为本发明实施例所述的一种基于深度学习的毫米波雷达和相机融合方法的流程图；

图3为本发明实施例所述的3d柱坐标系示意图。

实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

图1所示为本专利主要关注的深度学习模型head模型，它也是当前常用的基于视觉的目标检测网络，如Faster-RCNN，YOLO，SSD等中广泛使用的head模型形式。其核型特征是它可以拆解为围绕不同先验位置进行计算的单位，先验位置即障碍物可能出现的位置信息。所以，本专利提出的方案基于这个通用特性对网络进行优化。下面，为了方便本专利阐述，结合图1，对其基本特性给出一些提法，这些提法包括计算单元，有效计算单元，输入矩阵，输出向量，归一化先验位置等。

用于目标检测的深度学习模型一般包含backbone和head部分。backbone作用是特征提取。head的作用是基于前者计算目标的类型，位置，大小等信息。

这里描述的head部分包含一个特征层，和一个输出层。特征层包含多个通道。输出层也包含多个通道，分别对应目标的类型，位置，大小等信息。head的核心特征是：

1.从特征层到输出层的计算可以拆分成独立的计算单元。如图1所示，高维矩阵A，B，C分别通过卷积等计算得到向量a，b，c。其中的每一个对应计算关系被称为一个计算单元。每一个计算单元包含一个输入矩阵，输出向量。

2.每一个计算单元输入矩阵的中心的归一化像素位置和输出向量的归一化像素位置能够和物体在相机检测图像中的像素归一化位置对应。其含义是这三个位置对应了物体可能存在的位置。常见的提法是“先验位置”。归一化先验位置即像素二维位置和像素所在空间的长宽的比例。常见的对应关系是这三个归一化位置相同。本专利按照这种对应关系处理，实际中存在的其他可能的对应关系往往可以转化成这种对应关系处理。可能存在物体的位置对应的计算单元是有效计算单元。本专利旨在剔除无效冗余的计算。

本申请重点保护内容：

1.基于毫米波检测计算先验位置信息的流程是：对毫米波雷达检测进行3d柱坐标概率建模，然后将概率分布投射到相机坐标系，圈定投影概率分布的一定范围并归一化，得到先验位置集合或范围，即可能存在物体的位置。步骤的详细描述是：第一、一般毫米波提供2d检测，但是对于很多实用场景，物体的高度存在一个范围，并且毫米波雷达检测还有概率信息可用，因此，本专利考虑将这些信息在柱坐标系建模并基于正态分布考虑其概率特性。其效益是这种建模更加全面准确，最终提供的先验位置集合可信度更高。第二、提供了基于这种柱坐标概率分布形式的信息从毫米波雷达检测空间到相机像素检测空间的投影方法。第三、提供了基于投影的正态分布确定物体可能存在的像素位置的方法。

2.基于毫米波雷达提供的先验信息，对相机深度学习神经网络head部分的动态裁剪或者筛选。head部分的特征是：可以拆解为独立的计算单元，每一个计算单元围绕物体可能存在的先验位置进行计算。具体的筛选原则是：对于每一个计算单元，如果其对应先验位置在毫米波雷达提供的先验位置集合内，那么，它是有效计算单元，也就是不会被裁剪，会发生推理计算。否则，不会参与推理计算。

其效益是：第一、提高了相机深度学习神经网络的计算效率，不需要对网络重新训练即可在深度学习神经网络中融合毫米波雷达信息。第二、这个方案对于常见针对目标检测的深度学习神经网络有通用性。比如，FasterRCNN，YOLO，SSD等。

具体内容如下：

如图2所示，一种基于深度学习的毫米波雷达和相机融合方法，包括：

基于***输入的毫米波雷达对物***置的极坐标实时检测，包括距离、角度两个信息，以及相机对于物体的实时图像检测。

先验位置集合的计算方法，包括如下步骤：

S12、将所述增强检测信息投影映射至相机像素检测空间；

S13、将投影映射后的增强检测信息基于置信椭圆限定范围并归一化，得到先验位置集合。

步骤S11中，建立3d柱坐标系过程如下：

对毫米波雷达检测建立3d柱坐标系模型，其过程如下：

基于毫米雷达检测的2d极坐标检测信息为物体的距离和角度，加入物体几何中心高度信息，建立3d柱坐标系；高度信息根据物体高度的经验值确定；高度信息根据物体高度的经验值确定。比如取物体平均高度的一半。柱坐标信息对应物体几何中心。步骤S11中，建立基于3d柱坐标系和正态分布的数据模型，得到增强检测信息，包括：在3d柱坐标系模型基础上，拓展协方差，建立正态分布模型，即增强检测信息，细节如下：

增强检测信息服从正态分布，其均值，协方差为。

其中：，。

分别表示检测目标的距离，角度，高度的均值；，分别表示对应方向的不确定度。

确定参数具体值的方法：

即上述3d柱坐标系模型信息。

从毫米波雷达器件手册或者实际使用中测量或者估计得到；如果不能直接得到，可以取障碍物高度的一半，比如，对于乘用车，认为其高度是2m，那么，=1。

步骤S12中将增强检测信息投影映射至相机像素检测空间过程如下：

增强检测信息在相机像素平面投影服从正态分布：；

其中：，，其中:为增强检测信息服从的正态分布的均值，协方差；为所述毫米波雷达检测从柱坐标系向直角坐标系转化函数；，为毫米波雷达相对于相机坐标系的外参的旋转和平移对应矩阵；为相机内参；为第一截取函数，其中第一截取函数的输入是大于等于二的向量，输出向量是基于输入向量的前两个元素组成的新向量；为函数在位置的梯度；为第二截取函数，其中，第二截取函数的输入是维度大于等于二的方阵，输出是基于方阵的左上角二维子方阵组成的新矩阵；

如图3所示，本专利给出了一种常用的毫米波雷达检测柱坐标和直角坐标转化关系，即的一种实现：，具体为：其中，为毫米波雷达检测点直角坐标系下坐标，为毫米波雷达检测点的柱坐标系下坐标。

可选的，步骤S13中将投影映射后的增强检测信息基于置信椭圆限定范围并归一化，得到先验位置集合，其过程如下：

每一个障碍物的增强检测信息在相机像素平面的投影都是一个是正态分布，取其一定概率的置信椭圆。置信椭圆常用的概率要根据实际场景确定，常用的取值在95%附近。进一步，将置信椭圆归一化，即椭圆上的每一个点的位置都进行归一化。坐标(u,v)的归一化坐标是(u/U,v/V)，其中U，V分别对应了u，v所在维度的取值范围；U，V为相机像素平面的长宽尺寸。归一化后置信椭圆内的范围即为先验位置集合。

可选的，步骤S21中计算head部的每一个计算单元对应的归一化先验位置，其过程如下：

找到head的每一个计算单元的先验位置，并采用坐标归一化方式对先验位置进行归一化，得到每一个计算单元对应的归一化先验位置。详细地，每一个计算单元包含输入矩阵和输出向量，计算单元的先验位置可以采用两者任何一个的先验位置。坐标归一化方式：坐标(u,v)的归一化坐标是(u/U,v/V)。其中U，V分别对应了u，v所在维度的取值范围，也就是说，要根据计算单元的尺度确定。

可选的，步骤S22根据每一个计算单元对应的归一化先验位置，筛选head部分的有效计算单元，其过程如下：

遍历计算单元，如果某一个计算单元对应的归一化先验位置属于步骤S13先验位置集合，那么，它是有效计算单元，否则不是。神经网络推理时只对有效计算单元计算。

图2中，作为例子给出了两个筛选出来的有效计算单元。但是，实际上，每一个毫米波检测物体对应的投影区域是一个椭圆，那么，有效计算单元组成的形状也是一个椭圆。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的毫米波雷达和相机融合方法，其特征在于，包括：

根据毫米波雷达实时检测计算物体先验位置集合，所述先验位置对应物体在像素检测空间可能存在的区域；其中，所述先验位置集合的计算的方法，包括如下步骤：

S11、对毫米波雷达检测的物体的角度、距离极坐标信息，增加高度信息，并估计角度、距离、高度的联合正态分布，得到增强检测信息；

S12、将所述增强检测信息投影映射至相机像素检测空间；

S13、将投影映射后的所述增强检测信息基于置信椭圆限定范围归一化，得到先验位置集合；

2.根据权利要求1所述的一种基于深度学习的毫米波雷达和相机融合方法，其特征在于：筛选神经网络head部分的有效计算单元，包括如下步骤：

S21、计算每一个计算单元对应的归一化先验位置；

3.根据权利要求1所述的一种基于深度学习的毫米波雷达和相机融合方法，其特征在于：步骤S11中，对毫米波雷达检测的物体的角度、距离极坐标信息，增加高度信息，其过程如下：

基于毫米雷达检测的2d极坐标检测信息，为物体几何中心的距离和角度，加入物体几何中心高度信息，得到3d柱坐标系信息；高度信息根据目标类别的高度的统计均值确定。

4.根据权利要求1所述的一种基于深度学习的毫米波雷达和相机融合方法，其特征在于：步骤S11中估计角度、距离、高度的联合正态分布，得到增强检测信息，包括：在3d柱坐标系信息的角度、距离以及高度的基础上，拓展协方差，建立正态分布模型，具体过程如下：增强检测信息服从正态分布，记其均值，协方差为；

其中：；

；

将所述3d柱坐标系信息角度、距离、高度，作为增强检测信息的均值，对应符号，取角度、距离的标准差；取高度信息的标准差。

5.根据权利要求1所述的一种基于深度学***面投影服从正态分布，其均值和协方差是；

其中：；

；

其中:

为增强检测信息服从的正态分布的均值，协方差；

为所述毫米波雷达检测从柱坐标系向直角坐标系转化函数；

，为毫米波雷达相对于相机坐标系的外参的旋转和平移对应矩阵；

为相机内参；

为第一截取函数；

为函数在位置的梯度；

为第二截取函数。

6.根据权利要求1所述的一种基于深度学习的毫米波雷达和相机融合方法，其特征在于：步骤S13中将投影映射后的所述增强检测信息基于置信椭圆限定范围并归一化，得到先验位置集合，其过程如下：

基于所述增强检测信息在相机像素检测空间内投影对应的正态概率分布，取正态概率分布设定概率的置信椭圆，将置信椭圆归一化；所述设定概率根据实际场景确定；所述置信椭圆归一化包括：所述椭圆上的每一个点的位置都进行归一化；归一化后置信椭圆内的范围即为先验位置集合；所述椭圆上的每一个点的位置坐标(u,v)的归一化坐标是(u/U,v/V)，其中U，V分别对应了u，v所在维度的取值范围；即，U，V为相机像素平面的长宽尺寸。

7.根据权利要求2所述的一种基于深度学习的毫米波雷达和相机融合方法，其特征在于：步骤S21中计算每一个计算单元对应的归一化先验位置，包括：每一个计算单元包含输入矩阵和输出向量，所述计算单元的先验位置采用输入矩阵或输出向量中任意一种，对先验位置采用坐标归一化方式得到归一化先验位置；坐标归一化方式包括：位置坐标(u,v)的归一化坐标是(u/U,v/V)，其中U，V分别对应了u，v所在维度的取值范围。

8.根据权利要求2所述的一种基于深度学习的毫米波雷达和相机融合方法，其特征在于：步骤S22根据每一个计算单元对应的归一化先验位置，筛选head部分的有效计算单元，其过程如下：

遍历head部分的所有计算单元，如果某一个计算单元对应的归一化先验位置属于所述先验位置集合，那么，它是有效计算单元，否则不是。