CN113052066A

CN113052066A - 三维目标检测中基于多视图和图像分割的多模态融合方法

Info

Publication number: CN113052066A
Application number: CN202110312813.4A
Authority: CN
Inventors: 张燕咏; 毛秋宇; 张昱; 吉建民
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-06-29
Anticipated expiration: 2041-03-24
Also published as: CN113052066B

Abstract

本发明公开了一种三维目标检测中基于多视图和图像分割的多模态融合方法，包括：对于图像数据，使用图像分割网络进行特征提取与分割，获得二维的分割特征图；对于三维点云数据，使用多视角进行感知，捕获多个视角的特征信息后进行拼接，得到多视角特征，再将三维点云数据投影至二维的分割特征图上，得到每一个三维点对应的二维图像特征信息；将每一个三维点的多视角特征与相应的二维图像特征信息进行拼接，实现多模态融合。该方法使用激光雷达和相机之间的标定信息进行显式对齐，并使用多视角来增加感知精度；融合后的多模态数据能够提高自动驾驶中目标检测的精确度。

Description

三维目标检测中基于多视图和图像分割的多模态融合方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种三维目标检测中基于多视图和图像分割的多模态融合方法。

背景技术

目前的多模态融合技术主要有点云处理网络，图像处理网络，以及融合方法三个要点。

在点云处理网络方面，发表于CVPR 2017的PointNet是一种点云分类/分割的深度学习框架。该框架使用原始点云的输入方法来最大化点云的空间特征，而无需对点云进行有损处理。该深度学习框架借用对称函数的思想解决了点云数据的无序性问题，使用空间变换网络(STN)解决了点云数据旋转性的问题，它在点云分类和分割任务方面具有优越的性能，并广泛应用于点云数据的处理。之后发表于NIPS2017的PointNet++在PointNet的基础上进行了改进，成为目前广泛使用的点云处理网络。这些模型最初被用来进行点云分类，在之后被运用到目标检测任务中，作为提取点云特征的主干网络。

除此之外，还有对点云进行体素化或者转化为俯视图的方法。这些方法将点云转化为规则表示，从而对其进行3D卷积操作或者使用2D处理网络来进行目标检测。但是由于对点云进行了维度压缩，损失了一定的点云信息。

在图像处理网络方面，发表于CVPR2016的ResNet网络是广泛使用的模型。在2D的目标检测任务中，作为提取图像特征的主干网络。

在融合算法方面，CVPR 2018提出的PointFusion是最早的多模态融合框架之一。该传感器融合框架以点云和RGB图像作为输入，通过PointNet和ResNet提取特征，之后将两种模态的特征拼接到一起，生成三维的边框；但是，该模型缺少对于两种模态信息的数据对齐，损害了多模态融合的效果。发表于CVPR2018的Frustum PointNet采用级联的方式融合相机数据与点云，将RGB图像输入到2D目标检测网络进行识别，然后利用2D边框在点云中进行截取操作，并使用截取之后的点云生成3D的边框。这种融合方案产生的融合特征将作为一个整体做后续检测，一方面，融合过程丢失较多有用的信息，损害了融合效果；另一方面，模型是高度依赖2D检测器的检测效果的，若有物体在2D检测器中没有检测出，则不会在3D检测器中被检测出来。发表于CVPR2020的PointPainting通过图像获得语义分割信息，然后利用数据集提供的投影矩阵将点云投影到图像上，并将语义信息和点云位置信息进行融合，用语义分割信息增强小物体的检测精度。由于点云在稀疏或者不规则的情况下的信息不够完善，该方案产生的融合特征依然存在信息缺失的情况，因此，融合方案也有待改善；此外，该方案采用的是串行方式，两种网络模型(图像分割网络模型与点云检测网络)难以联合优化。

发明内容

本发明的目的是提供一种三维目标检测中基于多视图和图像分割的多模态融合方法，能够实现多模态数据的对齐，确保多模态数据的融合效果。

本发明的目的是通过以下技术方案实现的：

一种三维目标检测中基于多视图和图像分割的多模态融合方法，包括：

对于图像数据，使用图像分割网络进行特征提取与分割，获得二维的分割特征图；

对于三维点云数据，使用多视角进行感知，捕获多个视角的特征信息后进行拼接，得到多视角特征，再将三维点云数据投影至二维的分割特征图上，得到每一个三维点对应的二维图像特征信息；

将每一个三维点的多视角特征与相应的二维图像特征信息进行拼接，实现多模态融合。

由上述本发明提供的技术方案可以看出，使用激光雷达和相机之间的标定信息进行显式对齐，并使用多视角来增加感知精度；融合后的多模态数据能够提高自动驾驶中目标检测的精确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种三维目标检测中基于多视图和图像分割的多模态融合方法的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

在自动驾驶场景中，由于单一传感器有其固有的缺点，基于单一传感器的模型往往不能达到高识别精度的目的；此外，由于多传感器融合采用多个传感器进行数据获取，感知数据之间存在互补效果，当某一个或者某几个传感器不能正常工作时，另外的冗余传感器仍然能够正常进行感知，提供感知数据，因此传感器融合的方法能够提升感知模型的稳定性。

当前传感器融合的研究热点集中在相机，激光雷达，毫米波雷达，惯性测量单元等传感器的融合。其中，相机和激光雷达的融合是传感器融合中较为常见的组合。

激光雷达采集的点云数据提供了深度信息，且不受光线条件的影响，但是点云是稀疏的、不规则的，在识别自行车或者行人这样的小物体的任务中通常不能获得很高的精度。而相机采集的图像数据是规则的、密集的，而且存在成熟的图像处理网络可以获得很高的感知精度，但图像信息通常存在遮挡、光线上的问题。使用多模态融合技术将这两种模态融合起来，就能够充分利用两者的优点，从而提高感知精度。

由于多个传感器的模态信息难以在空间上进行对齐，多模态融合过程中的数据对齐技术是融合的关键点。本发明实施例提供的多模态融合方法中，使用激光雷达和相机之间的标定信息进行显式对齐，并使用多视角，包括点云前视图、俯视图和相机视角，以增加模型的感知精度。如图1所示，该该方法主要包括：

1、对于图像数据，使用图像分割网络进行特征提取与分割，获得二维的分割特征图。

所述图像分割网络通过FCN网络(全卷积神经网络)实现。在训练阶段，使用一个独立的损失函数作为监督，使得所述FCN网络能够学习图像的分割特征(可参照常规技术实现)，这是一个端到端的网络模型，有利于图像分割网络和三维目标检测网络的联合优化；学习之后的所述FCN网络对输入的图像数据进行特征提取与分割，输出像素级别的分割特征图，以此作为点云数据的辅助信息。

本发明实施例中，分割特征图中包含了各个物体的边界信息与语义信息等。

本发明实施例中，分割特征图包含了图像中的物体边缘信息，能够作为点云物体分割的辅助信息。

2、对于三维点云数据，使用多视角进行感知，捕获多个视角的特征信息后进行拼接，得到多视角特征；再将三维点云数据投影至二维的分割特征图上，得到每一个三维点对应的二维图像特征信息。

本发明实施例中，选取前视图和俯视图两个视角，分别捕获前视图和俯视图中的各个三维点的特征信息，并将获得的各个三维点的前视图和俯视图中的特征信息拼接，获得每一个三维点的多视角特征；之后，通过数据集提供的投影矩阵将三维点云数据投影至二维的分割特征图上，获得每个三维点在二维的分割特征图上的位置，再提取每一个三维点对应的二维图像特征信息。

本发明实施例中，多视角感知能够提取相应视角的特征数据，如图1所示，通过全连接层提取相应视角的特征信息，特征信息中包含了空间信息，具体来说，特征信息中主要包含物体边界、物体高度、物体形状和一些语义信息等；后续的拼接操作，是将不同视角的特征信息拼接在一起，例如，每一视觉下的特征数据包含了N个点，每个点对应C个特征，则特征数据为N*C矩阵，拼接后变为N*2C的矩阵。此处所提及的N个点也即三维点云数据的数目，通过上述操作，三维点云数据中的每一个三维点都对应多视角特征。

3、将每一个三维点的多视角特征与相应的二维图像特征信息进行拼接，实现多模态融合。

多模态融合时，可以通过权重将三维点的多视角特征与相应的二维图像特征信息进行拼接，具体的可以使用注意力机制来为每一个三维点计算相应的权重。引入注意力机制进行权重计算，可以有效的提取有用的信息，屏蔽无用信息，从而增强多模态信息的互补作用，降低多模态信息相互之间的干扰。此处所提及的有用的信息与无用信息是在训练过程中自动地、隐式地学习出来的，准确来说，三维点云数据与图像数据中的物体遮挡、图像过曝属于无用的信息，物体的边缘信息、尺寸信息、语义信息都属于有用信息。

本发明实施例中，步骤2中的三维点云投影至二维的分割特征图、提取三维点对应的二维图像特征信息、以及步骤3的拼接过程都可以通过图1的点云、图像融合模块实现。

此后，可以将融合后的多模态特征输入三维目标检测网络中，进一步提取多模态特征，最后输出的检测结果。由于之前的融合过程，是将分割特征与点云的多视角特征拼接，而分割特征是包含点云的分割信息的，因此，三维目标检测网络中，可以将分割特征作为点云中物体分割的辅助信息。如图1所示，三维目标检测网络可通过RPN网络实现，RPN网络训练时的损失函数包含边框损失，具体可通过常规技术实现。

需要说明的是，本发明实施例上述方案，采用了并行输入两种模态的方法，因此，物体只需要在任何一种模态中检测出，即可最终产生正确的检测结果，从而提升检测效果。

此外，基于图1所示的模型架构，可以引入常规的模型训练方式进行训练，故不再赘述。

本发明实施例提供的上述融合方法，有利于小物体类别(例如，行人、自行车等)的识别，相比较于只使用单一模态的感知方法，本发明提供的融合后的多模态数据能够有效地提高感知精度。同时，考虑到图像中存在过暗或者过曝的场景，多模态融合时引入的注意力机制能够选择有用的信息，屏蔽无用信息，从而增强多模态信息的互补作用，降低多模态信息相互之间的干扰。此外，来自图像的分割信息可以为点云提供物体的高度和边界信息，可以弥补点云在稀疏或者不规则的情况下的较差表现。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种三维目标检测中基于多视图和图像分割的多模态融合方法，其特征在于，包括：

2.根据权利要求1所述的一种三维目标检测中基于多视图和图像分割的多模态融合方法，其特征在于，所述图像分割网络通过FCN网络实现；在训练阶段，使用一个独立的损失函数作为监督，使得所述FCN网络能够学习图像的分割特征；学习之后的所述FCN网络对输入的图像数据进行特征提取与分割，输出像素级别的分割特征图。

3.根据权利要求1所述的一种三维目标检测中基于多视图和图像分割的多模态融合方法，其特征在于，所述对于三维点云数据，使用多视角进行感知，捕获多个视角的特征信息后进行拼接包括：

对于三维点云数据，分别捕获前视图和俯视图中各个三维点的特征信息，并将获得的各个三维点的前视图和俯视图中的特征信息拼接，获得每一个三维点的多视角特征；

其中，特征信息包括：物体边界和语义信息。

4.根据权利要求1所述的一种三维目标检测中基于多视图和图像分割的多模态融合方法，其特征在于，所述将三维点云数据投影至二维的分割特征图上，得到每一个三维点对应的二维图像特征信息包括：

通过投影矩阵将三维点云数据投影至二维的分割特征图上，获得每个三维点在二维的分割特征图上的位置，再提取每一个三维点对应的二维图像特征信息。

5.根据权利要求1所述的一种三维目标检测中基于多视图和图像分割的多模态融合方法，其特征在于，所述将每一个三维点的多视角特征与相应的二维图像特征信息进行拼接包括：

通过注意力机制计算每一个三维点的权重，通过权重将三维点的多视角特征与相应的二维图像特征信息进行拼接。

6.根据权利要求1所述的一种三维目标检测中基于多视图和图像分割的多模态融合方法，其特征在于，该方法还包括：将融合后的多模态特征输入至三维目标检测网络得到最终的检测结果。