WO2022156175A1

WO2022156175A1 - 融合图像和点云信息的检测方法、***、设备及存储介质

Info

Publication number: WO2022156175A1
Application number: PCT/CN2021/108585
Authority: WO
Inventors: 章嵘; 赵钊
Original assignee: 上海西井信息科技有限公司
Priority date: 2021-01-20
Filing date: 2021-07-27
Publication date: 2022-07-28
Also published as: CN112861653A; EP4283515A4; EP4283515A1; CN112861653B

Abstract

本发明提供了融合图像和点云信息的检测方法、***、设备及存储介质，该方法包括以下步骤：使用激光雷达传感器和图像传感器同步获得点云信息和图像信息；将图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，多重特征信息至少包括每个像素点的色彩信息以及物体标识信息；将激光雷达传感器的激光点云投影到图像上，将点云信息中每个激光点通过匹配到对应的像素点，然后像素点的多重特征信息添加到对应的点云信息中；将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。本发明能够实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升。

Description

融合图像和点云信息的检测方法、***、设备及存储介质

技术领域

本发明属于3D目标检测技术领域，尤其涉及一种利用激光雷达传感器和图像传感器融合进行3D目标检测的算法。

背景技术

目前在无人驾驶领域的3D目标检测算法主要分为三类。第一类是基于双目立体视觉的原理进行图像的深度估计，然后将2D的图像检测结果转换到3D空间；第二类是只使用纯激光雷达传感器的3D点云，通过卷积神经网络或其他机器学习等方法直接通过点云进行3D目标检测；第三类是融合相机图像和激光雷达传感器的点云信息然后通过卷积神经网络以及其他互验证策略来进行3D目标检测。

但是现有的以上三种检测方法都存在一定的缺陷和不足：

第一类方法由于双目立体视觉原理的限制，其对深度的测量精度会比激光雷达传感器低很多，尤其是当物体离相机较远时这类方法的检测精度和可靠性会严重下降。

第二类方法虽然相比于第一类方法在距离的测量精度上较高，但是由于现有激光雷达传感器原理的限制，其所获得的点云数据都是非常稀疏而且信息比较单一，缺少类似于图像中的颜色信息这类的辅助信息。

第三类方法原则上应是结合了以上两种传感器的优点，但是现有的融合激光雷达传感器和图像数据的方法都没有很好地充分利用两个传感器的特点以至于其检测精度还略低于纯激光方法的检测精度，而且其检测速度比较慢难以实现实时性。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本实用新型的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题，本发明的目的在于提供融合图像和点云信息的检测方法、***、设备及存储介质，克服了现有技术的困难，能够更充分地利用雷达的点云信息与相机的图像信息，实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升，本发明兼具了3D目标识别的速度和识别的准确性，该技术有助于为无人驾驶汽车提供更为安全可靠的环境感知信息。

本发明的实施例提供一种融合图像和点云信息的检测方法，包括以下步骤：

S110、使用激光雷达传感器和图像传感器同步获得点云信息和图像信息；

S120、将所述图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，所述多重特征信息至少包括每个像素点的色彩信息以及物体标识信息；

S130、将激光雷达传感器的激光点云投影到图像上，将所述点云信息中每个激光点通过匹配到对应的所述像素点，然后像素点的多重特征信息添加到对应的所述点云信息中；

S140、将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。

在一些实施例中，所述步骤S110之前包括以下步骤：

S100、联合标定激光雷达传感器和图像传感器以获得激光雷达传感器坐标系相对于视觉图像坐标系的转换矩阵；

所述步骤S130中，将所述激光雷达传感器的激光点云的位置通过所述转换矩阵转换到所述视觉图像坐标系中，获得对应位置的所述像素点。

在一些实施例中，所述步骤S130中，遍历所述图像的像素点，将与所述激光点云投影到视觉图像坐标系中的位置的距离最小的像素点作为匹配所述激光点云的所述像素点。

在一些实施例中，所述步骤S120中，包括以下步骤：

S121、将图像信息输入经过训练的机器视觉模型进行基于所述图像的图像分割；

S122、通过机器视觉模型获得所述图像中每个分割后图像区域对应的物体标识信息D；

S123、每个所述像素点的多重特征信息包括该像素点的RGB信息以及所述像素点所处的图像区域中的物体标识信息D。

在一些实施例中，在所述步骤S110之前还包括：采用大量具有多重特征信息的点云信息训练所述第二卷积神经网络，所述第二卷积神经网络输出3D目标的类别。

在一些实施例中，所述第二卷积神经网络还输出每个所述3D目标的3D轮廓以及3D轮廓的长宽高尺寸。

在一些实施例中，在所述步骤S140之后还包括以下步骤：

将所述3D目标所对应的点云中的最小距离、所对应的所有点云的平均距离或者到所对应的所有点云的中心点的距离中的一种作为与所述3D目标的距离。

在一些实施例中，在所述步骤S140之后还包括以下步骤：

根据所述3D目标所对应的点云建立所述3D目标的3D轮廓，获得所述3D轮廓尺寸作为所述3D目标的轮廓的尺寸。

在一些实施例中，在所述步骤S100中，以激光雷达传感器的原点作为雷达坐标系原点，以车辆的前进方向作为雷达坐标系的X _L轴，以垂直车体向上的方向作为Z _L轴，以车辆的前进方向的左侧方向作为Y _L轴，则雷达坐标系的坐标为(X _L，Y _L，Z _L)；

以视觉传感器的镜头的光心作为相机坐标系原点O _C，以光轴方向作为Z _C轴，垂直向下的方向作为Y _C轴，以车辆的前进方向的正右侧方向作为X _C轴，则相机坐标系的坐标为(X _C，Y _C，Z _C)；

图像坐标系(v _x,v _y)的坐标原点在图像的左上角，使用棋盘格标定板对激光雷达传感器和视觉传感器进行联合标定，获得激光雷达传感器到相机坐标系的转换矩阵：

其中T为联合标定得到的激光雷达传感器到相机坐标系的3行4列的转换矩阵；

点云投影到相机成像平面后的像素坐标可由以下公式得到：

其中，f _x、f _y为镜头在X轴和Y轴上的焦距，u0、v0为光心在相机坐标系中的坐标，则激光雷达传感器到图像坐标系的转换关系可用下面的公式表示：

本发明的实施例还提供一种融合图像和点云信息的检测***，用于实现上述的融合图像和点云信息的检测方法，融合图像和点云信息的检测***包括：

同步采集模块，使用激光雷达传感器和图像传感器同步获得点云信息和图像信息；

第一网络模块，将所述图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，所述多重特征信息至少包括每个像素点的色彩信息以及物体标识信息；

点云投影模块，将激光雷达传感器的激光点云投影到图像上，将所述点云信息中每个激光点通过匹配到对应的所述像素点，然后像素点的多重特征信息添加到对应的所述点云信息中；

第二网络模块，将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。

本发明的实施例还提供一种融合图像和点云信息的检测设备，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述融合图像和点云信息的检测方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述融合图像和点云信息的检测方法的步骤。

本发明的融合图像和点云信息的检测方法、***、设备及存储介质，能够更充分地利用雷达的点云信息与相机的图像信息，克服了现有技术中识别速度和识别准确性无法兼得的缺陷，实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升，本发明兼具了3D目标识别的速度和识别的准确性，该技术有助于为无人驾驶汽车提供更为安全可靠的环境感知信息。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本揭露的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的融合图像和点云信息的检测方法的流程图。

图2至5是本发明一实施例的融合图像和点云信息的检测方法的实施过程示意图。

图6是本发明一实施例的融合图像和点云信息的检测***的结构示意图。

图7是本发明一实施例的融合图像和点云信息的检测设备的结构示意图。以及

图8是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

图1是本发明一实施例的融合图像和点云信息的检测方法的流程图。如图1所示，本发明融合图像和点云信息的检测方法，包括以下步骤：

S110、使用激光雷达传感器和图像传感器同步获得点云信息和图像信息。

S120、将图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，多重特征信息至少包括每个像素点的色彩信息以及物体标识信息。由于机器视觉模型仅仅根据图像信息(RGB)进行卷积，既要切割图像又要进行辨识，相对而言，此处的物体标识信息D容易存在不准确的可能性。

S130、将激光雷达传感器的激光点云投影到图像上，将点云信息中每个激光点通过匹配到对应的像素点，然后像素点的多重特征信息添加到对应的点云信息中。

S140、将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。在第二卷积神经网络中由于充分使用了图像信息(RGB)、点云信息以及之前的物体标识信息D，能够更准确地对3D目标进行识别，保证了识别3D目标的准确性。

在一个优选实施例中，步骤S110之前包括以下步骤：

S100、联合标定激光雷达传感器和图像传感器以获得激光雷达传感器坐标系相对于视觉图像坐标系的转换矩阵。

步骤S130中，将激光雷达传感器的激光点云的位置通过转换矩阵转换到视觉图像坐标系中，获得对应位置的像素点。

在一个优选实施例中，步骤S130中，遍历图像的像素点，将与激光点云投影到视觉图像坐标系中的位置的距离最小的像素点作为匹配激光点云的像素点，以便提高对应的准确定。

在一个优选实施例中，步骤S120中，包括以下步骤：

S121、将图像信息输入经过训练的机器视觉模型进行基于图像的图像分割。

S122、通过机器视觉模型获得图像中每个分割后图像区域对应的物体标识信息D。

S123、每个像素点的多重特征信息包括该像素点的RGB信息以及像素点所处的图像区域中的物体标识信息D，从而能够对图像进行区域化，并得到初步的物体标识信息D。在一个优选实施例中，在步骤S110之前还包括：采用大量具有多重特征信息的点云信息训练第二卷积神经网络，第二卷积神经网络输出3D目标的类别。

在一个优选实施例中，第二卷积神经网络还输出每个3D目标的3D轮廓以及3D轮廓的长宽高尺寸。

在一个优选实施例中，在步骤S140之后还包括以下步骤：

将3D目标所对应的点云中的最小距离、所对应的所有点云的平均距离或者到所对应的所有点云的中心点的距离中的一种作为与3D目标的距离。

在一个优选实施例中，在步骤S140之后还包括以下步骤：

根据3D目标所对应的点云建立3D目标的3D轮廓，获得3D轮廓尺寸作为3D目标的轮廓的尺寸。

在一个优选实施例中，在步骤S100中，以激光雷达传感器的原点作为雷达坐标系原点，以车辆的前进方向作为雷达坐标系的X _L轴，以垂直车体向上的方向作为Z _L轴，以车辆的前进方向的左侧方向作为Y _L轴。

以视觉传感器镜头的光心作为相机坐标系原点O _C，以光轴方向作为Z _C轴，垂直向下的方向作为Y _C轴，以车辆的前进方向的正右侧方向作为X _C轴。

其中T为联合标定得到的激光雷达传感器到相机坐标系的3行4列的转换矩阵，其中包含了旋转和平移，这样就得到了雷达点云在相机坐标系下的3D坐标，由相机的小孔成像原理，点云投影到相机成像平面后的像素坐标可由以下公式得到：

其中，f _x、f _y为焦距，u0、v0为光心的图像坐标，综合上述公式，激光雷达传感器到图像坐标系的转换关系可用下面的公式表示：

利用该公式，可以将雷达点云投影到相机图像上，由此便可将之前提取的图像多重特征对应并融合到激光雷达传感器点云上，最终得到融合多重图像特征的激光雷达传感器点云。

本发明的融合图像和点云信息的检测方法，能够更充分地利用雷达的点云信息与相机的图像信息，克服了现有技术中识别速度和识别准确性无法兼得的缺陷，实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升，本发明兼具了3D目标识别的速度和识别的准确性，该技术有助于为无人驾驶汽车提供更为安全可靠的环境感知信息。

图2至5是该实施例的融合图像和点云信息的检测方法的实施过程示意图。如图2至5所示，该实施例的融合图像和点云信息的检测方法的实施过程包括：首先，安装与无人卡车1的激光雷达传感器22和图像传感器21可以是相互平行的，也可以有一定的夹角，将安装在无人卡车1的激光雷达传感器22和图像传感器21进行联合标定，以获得激光雷达传感器坐标系相对于视觉图像坐标系的转换矩阵。

以激光雷达传感器的原点作为雷达坐标系原点，以车辆的前进方向作为雷达坐标系的X _L轴，以垂直车体向上的方向作为Z _L轴，以车辆的前进方向的左侧方向作为Y _L轴，则雷达坐标系的坐标为(X _L，Y _L，Z _L)。

以视觉传感器的镜头的光心作为相机坐标系原点O _C，以光轴方向作为Z _C轴，垂直向下的方向作为Y _C轴，以车辆的前进方向的正右侧方向作为X _C轴，则相机坐标系的坐标为(X _C，Y _C，Z _C)。

其中T为联合标定得到的激光雷达传感器到相机坐标系的3行4列的转换矩阵。

点云投影到相机成像平面后的像素坐标可由以下公式得到：

也可以通过其他标定方法激光雷达传感器坐标系相对于视觉图像坐标系的转换矩阵，不以此为限。

并且，采用大量具有分区域以及物体标识的照片学习训练第一卷积神经网络，使得第一卷积神经网络能够自动对输入的照片进行区域分化，并单独对每个区域进行图像识别，输出每个区域的物体标识。采用大量具有多重特征信息的点云信息训练第二卷积神经网络，使得第二卷积神经网络能够准确输出3D目标的类别。本发明中，训练第一卷积神经网络与第二卷积神经网络的区别在于：第一卷积神经网络具备区域分化和初级图像识别的功能，而第二卷积神经网络与第一卷积神经网络相比，不具备区域分化的功能，只具备针对区域进行精确识别的功能。

参考图2，使用标定后的在无人卡车1的激光雷达传感器22和图像传感器21同步获得点云信息和图像信息，此时无人卡车1的前方的路面43上包括了第一障碍物41和第二障碍物42。

然后，参考图3，将图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，多重特征信息至少包括每个像素点的色彩信息以及物体标识信息。本实施例中，通过将图像信息输入经过训练的机器视觉模型进行基于图像的图像分割。通过机器视觉模型获得图像中每个分割后图像区域对应的物体标识信息D。每个像素点的多重特征信息包括该像素点的RGB信息以及像素点所处的图像区域中的物体标识信息D。则每个像素点的多重特征信息为(R，G，B，D)。图像传感器21获得了图像信息示意图21A，图像信息示意图21A中包括了第一障碍物41的区域、第二障碍物42的区域、路面43的区域。第一障碍物41的区域中的每个像素点的物体标识信息D都是行人，该区域的每个像素点的多重特征信息为(R，G，B，行人)；第二障碍物42的区域中的每个像素点的物体标识信息D都是围墙，该区域的每个像素点的多重特征信息为(R，G，B，围墙)；路面43的区域中的每个像素点的物体标识信息D都是地面，该区域的每个像素点的多重特征信息为(R，G，B，地面)。

参考图4，激光雷达传感器22获得了点云信息示意图22A，图4中的每个圆形图案都是一个激光点，同样地，点云信息示意图22A中也包含了第一障碍物、第二障碍物、路面。

参考图5，随后，利用激光雷达传感器坐标系相对于视觉图像坐标系的转换矩阵将激光雷达传感器的激光点云投影到图像上，将点云信息中每个激光点通过匹配到对应的像素点，然后像素点的多重特征信息添加到对应的点云信息中。将激光雷达传感器的激光点云的位置通过转换矩阵转换到视觉图像坐标系中，获得对应位置的像素点。例如：遍历图像的像素点，将与激光点云投影到视觉图像坐标系中的位置的距离最小的像素点作为匹配激光点云的像素点。本实施例中，点云中第一障碍物的区域41A中所有的激光点的多重特征信息为(R，G，B，行人)；点云中第二障碍物的区域42A中所有的激光点的多重特征信息为(R，G，B，围墙)；点云中路面的区域43A中所有的激光点的多重特征信息为(R，G，B，地面)。

然后。将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。由于的第二卷积神经网络经过大量具有多重特征信息的点云信息训练，不同于具备功能复杂的第一卷积神经网络，第二卷积神经网络具有更高的标签分类准确性。并且，第二卷积神经网络中会加权使用多重特征信息中的物体标识信息D，在一些情况下，第二卷积神经网络会得出不同于物体标识信息D的3D目标的类别，进步一提高3D目标识别的准确性。

最后，将每个3D目标所对应的点云中的最小距离、所对应的所有点云的平均距离或者到所对应的所有点云的中心点的距离中的一种作为与该3D目标的距离，从而就能得到行人与无人卡车1的当前距离为2米，围墙与无人卡车1的当前距离为4米。并且，根据3D目标所对应的点云建立3D目标的3D轮廓，获得3D轮廓的尺寸作为3D目标的轮廓的尺寸。例如，通过三角函数的计算等现有技术，通过对应行人的点云的立体范围获得行人身高1.8米，通过对应围墙的点云的立体范围获得围墙宽度为4米，高度为3米，但不以此为限。

在一个优选实施例中，第二卷积神经网能够还能直接输出每个3D目标的3D轮廓以及3D轮廓的尺寸，但不以此为限。

图6是本发明一实施例的融合图像和点云信息的检测***的结构示意图。如图6所示，本发明的实施例还提供一种融合图像和点云信息的检测***5，用于实现上述的融合图像和点云信息的检测方法，融合图像和点云信息的检测***包括：

同步采集模块51，使用激光雷达传感器和图像传感器同步获得点云信息和图像信息；

第一网络模块52，将图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，多重特征信息至少包括每个像素点的色彩信息以及物体标识信息；

点云投影模块53，将激光雷达传感器的激光点云投影到图像上，将点云信息中每个激光点通过匹配到对应的像素点，然后像素点的多重特征信息添加到对应的点云信息中；

第二网络模块54，将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。

本发明的融合图像和点云信息的检测***，能够更充分地利用雷达的点云信息与相机的图像信息，克服了现有技术中识别速度和识别准确性无法兼得的缺陷，实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升，本发明兼具了3D目标识别的速度和识别的准确性，该技术有助于为无人驾驶汽车提供更为安全可靠的环境感知信息。

本发明实施例还提供一种融合图像和点云信息的检测设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的融合图像和点云信息的检测方法的步骤。

如上，本发明的融合图像和点云信息的检测设备能够更充分地利用雷达的点云信息与相机的图像信息，克服了现有技术中识别速度和识别准确性无法兼得的缺陷，实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升，本发明兼具了3D目标识别的速度和识别的准确性，该技术有助于为无人驾驶汽车提供更为安全可靠的环境感知信息。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图7是本发明一实施例的融合图像和点云信息的检测设备的结构示意图。下面参照图7来描述根据本发明的这种实施方式的电子设备600。图7显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述融合图像和点云信息的检测处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的融合图像和点云信息的检测方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述融合图像和点云信息的检测处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，能够更充分地利用雷达的点云信息与相机的图像信息，克服了现有技术中识别速度和识别准确性无法兼得的缺陷，实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升，本发明兼具了3D目标识别的速度和识别的准确性，该技术有助于为无人驾驶汽车提供更为安全可靠的环境感知信息。

图8是本发明一实施例的计算机可读存储介质的结构示意图。参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的融合图像和点云信息的检测方法、***、设备及存储介质，能够更充分地利用雷达的点云信息与相机的图像信息，克服了现有技术中识别速度和识别准确性无法兼得的缺陷，实现更高精度的实时3D目标检测，对于小物体的检测精度会有比较明显的提升，本发明兼具了3D目标识别的速度和识别的准确性，该技术有助于为无人驾驶汽车提供更为安全可靠的环境感知信息。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

一种融合图像和点云信息的检测方法，其特征在于，包括以下步骤：

S110、使用激光雷达传感器和图像传感器同步获得点云信息和图像信息；

S120、将所述图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，所述多重特征信息至少包括每个像素点的色彩信息以及物体标识信息；

S130、将激光雷达传感器的激光点云投影到图像上，将所述点云信息中每个激光点通过匹配到对应的所述像素点，然后像素点的多重特征信息添加到对应的所述点云信息中；

S140、将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。
根据权利要求1所述的融合图像和点云信息的检测方法，其特征在于，所述步骤S110之前包括以下步骤：

S100、联合标定激光雷达传感器和图像传感器以获得激光雷达传感器坐标系相对于视觉图像坐标系的转换矩阵；

所述步骤S130中，将所述激光雷达传感器的激光点云的位置通过所述转换矩阵转换到所述视觉图像坐标系中，获得对应位置的所述像素点。
根据权利要求1所述的融合图像和点云信息的检测方法，其特征在于，所述步骤S130中，遍历所述图像的像素点，将与所述激光点云投影到视觉图像坐标系中的位置的距离最小的像素点作为匹配所述激光点云的所述像素点。
根据权利要求1所述的融合图像和点云信息的检测方法，其特征在于，所述步骤S120中，包括以下步骤：

S121、将图像信息输入经过训练的机器视觉模型进行基于所述图像的图像分割；

S122、通过机器视觉模型获得所述图像中每个分割后图像区域对应的物体标识信息D；

S123、每个所述像素点的多重特征信息包括该像素点的RGB信息以及所述像素点所处的图像区域中的物体标识信息D。
根据权利要求4所述的融合图像和点云信息的检测方法，其特征在于，在所述步骤S110之前还包括：采用大量具有多重特征信息的点云信息训练所述第二卷积神经网络，所述第二卷积神经网络输出3D目标的类别。
根据权利要求5所述的融合图像和点云信息的检测方法，其特征在于，所述第二卷积神经网络还输出每个所述3D目标的3D轮廓以及3D轮廓的长宽高尺寸。
根据权利要求1所述的融合图像和点云信息的检测方法，其特征在于，在所述步骤S140之后还包括以下步骤：

将所述3D目标所对应的点云中的最小距离、所对应的所有点云的平均距离或者到所对应的所有点云的中心点的距离中的一种作为与所述3D目标的距离。
根据权利要求1所述的融合图像和点云信息的检测方法，其特征在于，在所述步骤S140之后还包括以下步骤：

根据所述3D目标所对应的点云建立所述3D目标的3D轮廓，获得所述3D轮廓的尺寸作为所述3D目标的轮廓的尺寸。
根据权利要求2所述的融合图像和点云信息的检测方法，其特征在于，在所述步骤S100中，

以激光雷达传感器的原点作为雷达坐标系原点，以车辆的前进方向作为雷达坐标系的X _L轴，以垂直车体向上的方向作为Z _L轴，以车辆的前进方向的左侧方向作为Y _L轴，则雷达坐标系的坐标为(X _L，Y _L，Z _L)；

以视觉传感器的镜头的光心作为相机坐标系原点O _C，以光轴方向作为Z _C轴，垂直向下的方向作为Y _C轴，以车辆的前进方向的正右侧方向作为X _C轴，则相机坐标系的坐标为(X _C，Y _C，Z _C)；

图像坐标系(v _x,v _y)的坐标原点在图像的左上角，使用棋盘格标定板对激光雷达传感器和视觉传感器进行联合标定，获得激光雷达传感器到相机坐标系的转换矩阵：

其中T为联合标定得到的激光雷达传感器到相机坐标系的3行4列的转换矩阵；

点云投影到相机成像平面后的像素坐标可由以下公式得到：

其中，f _x、f _y为镜头在X轴和Y轴上的焦距，u0、v0为光心在相机坐标系中的坐标，则激光雷达传感器到图像坐标系的转换关系可用下面的公式表示：
一种融合图像和点云信息的检测***，其特征在于，用于实现如权利要求1所述的融合图像和点云信息的检测方法，包括：

同步采集模块，使用激光雷达传感器和图像传感器同步获得点云信息和图像信息；

第一网络模块，将所述图像信息输入经过训练的第一卷积神经网络提取图像信息中每个像素点的多重特征信息，所述多重特征信息至少包括每个像素点的色彩信息以及物体标识信息；

点云投影模块，将激光雷达传感器的激光点云投影到图像上，将所述点云信息中每个激光点通过匹配到对应的所述像素点，然后像素点的多重特征信息添加到对应的所述点云信息中；

第二网络模块，将具有多重特征信息的点云信息输入经过训练的第二卷积神经网络输出每个3D目标的类别。
一种融合图像和点云信息的检测设备，其特征在于，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行权利要求1至9中任意一项所述融合图像和点云信息的检测方法的步骤。
一种计算机可读存储介质，用于存储程序，其特征在于，程序被执行时实现权利要求1至9中任意一项所述融合图像和点云信息的检测方法的步骤。