CN111507222B

CN111507222B - 一种基于多源数据知识迁移的三维物体检测框架

Info

Publication number: CN111507222B
Application number: CN202010272335.4A
Authority: CN
Inventors: 谭晓军; 冯大鹏; 梁小丹; 王焕宇; 杨陈如诗; 杨梦雨
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2023-07-07
Anticipated expiration: 2040-04-09
Also published as: WO2021203807A1; CN111507222A; US20230260255A1

Abstract

本发明提供了一种基于多源数据知识迁移的三维物体检测框架，通过将图像特征提取单元所提取处的图像特征输出，使感兴趣目标选择单元根据图像特征，输出感兴趣目标的点云数据至点云特征提取单元，由点云特征所从点云数据中提取点云特征，然后，在知识迁移单元中，使图像特征学习点云特征并更新图像特征提取单元的参数，而三维目标参数预测单元根据所述图像特征和点云特征更新所述图像特征提取单元和点云特征提取单元的参数，最后，由更新后的图像特征提取单元重新提取图像特征至三维目标参数预测单元，由三维目标参数预测单元根据所述图像特征，推算并输入三维参数，由此，提供了基于二维图像的三维物体检测的检测精度。

Description

一种基于多源数据知识迁移的三维物体检测框架

技术领域

本发明涉及机器学习及计算机视觉领域，特别是一种基于多源数据知识迁移的三维物体检测框架。

背景技术

三维物体检测是计算机视觉的一个重要研究领域，在工业生产以及日常生活中存在广泛的应用场景，如无人驾驶汽车、智能机器人、以及智能机器人等。

相对于二维物体检测，三维物体检测任务更具有挑战且更富有实际应用价值。三维物体检测主要完成对物体的识别和定位任务，得到物体的三维信息，包括物体的中心点坐标C_x，C_y，C_z、物体尺寸即物体的长度l、宽度w和高度h、以及方向角α，β，γ。近年来，深度学习的发展使得二维物体检测的速度和精度等方面与较大的提升，然而，由于二维RGB图像缺失深度信息，使得现有的基于图像的三维物体检测的方法的检测精度，相对于基于点云数据的三维物体检测的方法落后许多，因此，如何利用点云数据来提高基于图像的三维物体检测的精度，成为一个业界研究方向。

发明内容

针对上述现有技术的不足，提出一种基于多源数据知识迁移的三维物体检测框架，在训练阶段，利用神经网络提取图像特征和点云特征，然后在特征空间中，使图像特征学习点云特征，最后在推理阶段，仅利用图像特征进行物体三维参数的预测。

本发明是这样来实现上述目的：

本发明提供一种基于多源数据知识迁移的三维物体检测框架，其特征在于，包括以下步骤：

S1、图像特征提取单元从图像中提取第一图像特征，并将所述第一图像特征输出至感兴趣目标选择单元、知识迁移单元和三维目标参数预测单元；

S2、所述感兴趣目标选择单元根据所述第一图像特征，生成一系列的感兴趣目标的二维包围盒，以从点数空间中提取相应区域的点云数据以输出至点云特征单元；

S3、所述点云特征提取单元从所述点云数据中提取点云特征，并将所述点云特征输出至所述知识迁移单元和三维目标参数预测单元；

S4、所述知识迁移单元计算所述图像特征与所述点云特征两者之间的余弦相似度，并对所述余弦相似度进行处理，以更新所述图像特征提取单元的参数；

S5、所述三维目标参数预测单元根据所述图像特征、所述点云特征生成三维包围盒，并输出所述三维包围盒的九个自由度参数，之后还通过反向传播更新所述图像特征提取单元、所述点云特征提取单元的参数；

S6、二维检测器从所述图像中提取目标的候选边界框，并将所述候选边界框发送至所述图像特征提取单元；

S7、所述图像特征提取单元从所述候选边界框中提取第二图像特征，并将所述第二图像特征输出至所述感兴趣目标选择单元、以及所述三维目标参数预测单元：

S8、所述感兴趣目标选择单元根据所述第二图像特征，生成相应的二维包围盒，并输出所述相应的二维包围盒的中心坐标至所述三维目标参数预测单元。

S9、所述三维目标参数预测单元根据所述第二图像特征，生成相应的三维包围盒，并根据所述相应的三维包围盒、以及所述相应的二维包围盒的中心点坐标，计算并输出所述相应的三维包围盒的九个自由度参数。

进一步地，在所述步骤S1之前，还包括，利用二维检测器从所述图像中提取目标的候选边界框，以根据所述目标的候选边界框获取点云空间中相应区域的点云数据。

进一步地，在所述步骤S1之前，还包括计算机***接收测试人员针对所述图像所输入的标注标签。

进一步地，所述步骤S2包括：

S2-1、所述感兴趣目标选择单元从所述第一图像特征中检测出感兴趣目标，并利用RPN网络输出与所述感兴趣目标相应的一系列二维包围盒；

S2-2、计算与所述感兴趣目标对应的所述二维包围盒、所述标注标签在所述二维图像上的IoU值，选取具有最大IoU值的标注标签作为所述感兴趣目标的真实标签，并在点数空间中，将与所述真实标签具有对应关系的区域的点云数据，提取并输出至所述点云特征提取单元，还输出所述二维包围盒的中心点坐标至所述三维目标参数预测单元。

进一步地，所述步骤S3具体包括：

S3-1、将所述点云数据输入至一维卷积神经网络模型；

S3-2、通过残差连接提高所述一维卷积神经网络模型的训练性能，并通过注意力机制来增强所述一维卷积神经网络模型对点云空间全局信息的建模能力；

S3-3、执行最大池化操作，以获取与所述感兴趣目标相对应的点云特征。

进一步地，所述步骤S4包括：

S4-1、根据所接收的所述图像特征和所述点云特征，计算两者之间的余弦相似度；

S4-2、将所述余弦相似度最小化；

S4-3、计算并反向传播所述图像特征的梯度，以更新所述图像特征单元的二维卷积神经网络模型参数。

进一步地，所述步骤S5包括：

S5-1、所述三维目标参数预测单元的线性层将接收的所述图像特征、所述点云特征进行映射，以生成三维包围盒；

S5-2、预测深度坐标z，然后通过以下式(1)预测所述三维包围盒坐标x和y，所述式(1)为：

(1)

其中，[f_u，0，c_u；0，f_v，c_v；0，0，1]为相机的内参数，(u，v)是所述感兴趣目标选择单元得到的二维包围盒的中心点像素坐标；

S5-3、根据所述三维包围盒的中心点坐标，通过以下式(2)预测四元数，然后通过以下式(3)将所述四元数转换成欧拉角，以消除欧拉角的万向锁问题，所述式(2)、式(3)的表达式如下：

(2)

(3)

其中，四元数表示为

欧拉角表示为；roll，pitch，yaw＝(α，β，γ)；

S5-4、根据所述三维包围盒的中心点坐标、欧拉角、以及所述图像特征、所述点云特征在线性层上的映射，计算所述三维包围盒的长、宽、高参数，并输出所述三维包围盒的中心点坐标(x，y，z)、欧拉角参数(α，β，γ)，以及所述三维包围盒的长、宽、高参数。

S5-5、计算所述图像特征、所述点云特征的梯度，并通过所述梯度进行反向传播，以更新所述图像特征提取单元、所述点云特征提取单元相应的参数

本发明的有益效果：本发明提供了一种基于多源数据知识迁移的三维物体检测框架，实施本发明所提供的技术方案，由图像特征提取单元将提取的图像特征输出至感兴趣目标选择单元、知识迁移单元和三维目标参数预测单元，由感兴趣目标选择单元根据图像特征输出感兴趣目标的二维包围盒，并根据所述二维包围盒，从点云空间中提取对应的点云数据输出至点云特征提取单元，再由点云特征提取单元提取相应的点云特征至知识迁移单元；然后，由知识单元通过计算图像特征与点云特征之间余弦相似度，并根据所述余弦相似度更新所述图像特征提取单元的参数，以使得所述图像特征逐渐相似于所述点云特征，由此实现使所述图像特征学习所述点云特征，然后，由三维目标参数预测单元根据图像特征和点云特征输出三维包围盒的九个自由度参数，并在反向传播时同时更新图像特征提取单元和点云特征提取单元的参数，最后，由二维检测器从图像中检测并提取目标的候选边界框，以及利用已更新的图像特征提取单元对所述候选边界框提取图像特征，并由感兴趣目标选择单元和三维目标参数预测单元对所述图像特征进行处理，以对目标进行三维参数预测，相比于现有技术，由于通过学习点云特征的图像特征已具有表达三维空间信息的能力，因此能有效提高基于图像的三维物体参数预测的准确率。

附图说明

下面结合附图和实施例对本发明进一步说明：

图1为本发明一实施例中一种基于多源数据知识迁移的三维物体检测框架的总流程示意图；

图2为本发明一实施例中神经网络训练阶段的训练流程示意图，图中，proposalfeature为图像检测器，conv2D和fc构成图像特征提取单元，shared MLP、global context、conv 1X1和max pool构成点云特征提取单元，mimic为知识迁移单元，2D Bounding Box为感兴趣目前选择单元，6DoF Module为三维目标参数预测单元；

图3为本发明一实施例中获取点云空间中相应区域点云数据的流程示意图；

图4为本发明一实施例中点云特征提取单元增强一维卷积神经网络模型对点云空间全局信息的建模能力的流程示意图；

图5为本发明一实施例中神经网络训练阶段的三维包围盒的生成流程示意图，图中，1为图像特征，2为点云特征，3为第一特征向量，4为第二特征向量，5为三维包围盒。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明做进一步的详细说明，本发明的示意性实施方案及其说明仅用于解析本发明，并不作为对本发明的限定。

可以理解的，以上实施例仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围小限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，可以对上述技术特点进行自由组合，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，凡跟本发明权利要求和范围所做的等同变换与修饰，均应属于本发明权利要求的涵盖范围。

本发明提供的一种基于多源数据知识迁移的三维物体检测框架，所述三维物体检测框架应用在设置有图像特征提取单元、感兴趣目标选择单元、点云特征提取单元、知识迁移单元、以及三维目标参数预测单元的计算机***中，所述三维物体检测框架实现对图像中物体的三维预测需要经历神经网络训练阶段和神经网络推理阶段，具体的操作流程如图1所示，其中，神经网络训练阶段中的运作流程如图2所示。

所述三维物体检测框架实现预测图像中物体的三维参数具体包括以下步骤：

S1、图像特征提取单元从图像中提取第一图像特征，并将所述第一图像特征输出至感兴趣目标选择单元、知识迁移单元和三维目标参数预测单元；具体地，计算机***将各相机所采集的图像输入至所述图像特征提取单元，由所述图像特征提取单元利用其单元中的二维卷积神经网络模型，对获取的图像进行图像特征提取，并将提取所得的图像特征作为第一图像特征，之后则将所述第一图像特征发送至感兴趣目标选择单元、知识迁移单元和三维目标参数预测单元。

进一步地，执行所述步骤S1之前，所述计算机***还执行以下操作：在接收到各相机所采集的图像后，利用***中的三维点云处理单元对所述图像进行处理，以得到与所述图像对应的实例点云数据，并将该实例点云数据存储至点云空间；然后，如图3所示，计算机***中的二维检测器对所述图像进行检测，以从所述图像上检测出目标，并生成针对所述目标的候选边界框以及多个二维标注框，通过将所述候选边界框与相应的多个二维标注框进行匹配，以计算所述候选边界框与每一个与其相应的二维标注框之间的IoU值，选择IoU值最大的二维标注框作为所述候选边界框的真实值，接着，将所述具有最大IoU值的二维标注框映射到存储有实施点云数据的点云空间中以得到三维标注框，所述三维标注框在所述点云空间中所框中的点云数据，就是与所述候选边界框对应的点云数据，之后，则将被框中的点云数据提取并输出至点云特征提取单元，后面，则由所述图像特征提取单元、点云特征提取单元分别将其提取的图像特征、点云输入至三维参数预测单元，由所述三维参数预测单元根据这些特征对目标物体的三维参数进行预测。

进一步地，在将所采集的图像发送至所述图像特征提取单元之前，所述计算机***还接收测试人员针对所述图像所手动输入的至少一个标注标签，之后，所述计算机***则将所述图像、以及与所述图像对应的所述标注标签输入至图像特征提取单元。

S2、所述感兴趣目标选择单元根据所述第一图像特征，生成一系列的感兴趣目标的二维包围盒，；具体地，所述感兴趣目标选择单元提取和输出点云数据的流程如下：

S2-2、计算与所述感兴趣目标对应所述二维包围盒、以及所述标注标签其在所述二维图像上的IoU值，以选取具有最大IoU值的标注标签作为所述感兴趣目标的真实标签，接着，在点数空间中，将与所述真实标签具有对应关系的区域的点云数据，提取并输出至点云特征提取单元，还计算所述二维包围盒的中心点坐标，并将所述二维包围盒的中心点坐标输出至三维目标参数预测单元，其中，所述标注标签是指在执行步骤1之前有测试人员在图像上所人工标注的标签。

S3、所述点云特征提取单元从所述点云数据中提取点云特征，并将所述点云特征输出至所述知识迁移单元、以及所述三维目标参数预测单元；具体地，所述点云特征提取单元是通过以下流程实现提取点云特征的：

S3-1、将所述点云数据输入至一维卷积神经网络模型；

S3-2、通过残差链接提高所述一维卷积神经网络模型的训练性能，并通过注意力机制来增强所述一维卷积神经网络模型对点云空间全局信息的建模能力；

S3-3、执行最大池化操作，以获取与所述感兴趣目标相对应的点云特征，通过对经残差连接、注意力机制训练的神经网络其卷积层输出的结果，执行最大池化操作，以获取和获悉局部接收域中值最大的点，并将该点提取为点云特征。

可以理解地，在网络层数较多的网络中，随着网络深度增加，网络的训练难度增加，容易出现神经网络退化、梯度消散、梯度***等的问题，导致输出的结果与样本误差大，模型的准确性降低；而在所述一维卷积神经网络模型中，通过在每两层卷积层之间增加一个连接捷径即残差块，由所述残差模块向下一个卷积层输入残差项f(x)以激活该卷积层，并将上一个卷积层的输出结果x直接传输至所述下一个卷积层的输出，以作为下一个卷积层的初始输出结果，使下一个卷积层的输出结果F(x)为F(x)＝x+f(x)，之后，直接利用链式法则对F(x)求导以得出梯度时，就能避免梯度接近于0，从而保证网络在更新参数时不会发生梯度消失或梯度***，而且，当f(x)＝0时，F(x)＝x即实现了恒等映射，而网络出现退化问题，是因为网络中冗余的层的学习了不是实现恒等映射的参数而造成的，通过使冗余的层学习f(x)＝0，冗余的层实现恒等映射，从而加快网络收敛，避免网络退化。

而关于通过注意力机制来增强所述一维卷积神经网络模型对点云空间全局信息的建模能力，其原理具体如图4所示，先通过对每个输入向量进行卷积操作，以对所述输入向量进行降维，然后，通过softmax得到与每个输入向量对应的的权重，然后对输入向量加权求和得到相应的global feature全局特征，最后把全局特征加到每个输入向量上，以增大所述输入向量对全局的响应，从而增强所述一维卷积神经网络模型对点云空间全局信息的建模能力。

S4、所述知识迁移单元根据所述图像特征与所述点云特征，计算两者之间的余弦相似度，并在将所述余弦相似度最小化后，计算反向传播图像特征的梯度，以更新所述图像特征提取单元的参数，其中，更新所述图像特征提取单元的参数的，是为了使得更新后的图像特征提取单元其所提取的图像特征具有表达三维空间的能力。

所述知识迁移单元实现上述目的的具体过程如下：

S4-1、根据接收的所述图像特征和所述点云特征，计算两者之间的余弦相似度；所述知识迁移单元在接收到所述图像特征、所述点云特征后，利用特征编码法将所述图像特征、所述点云特征分别编码成第一特征向量、第二特征向量，以将所述第一特征向量和第二特征向量映射到高维空间，获取其在高维空间对应的数组，然后，根据余弦相似度的计算方法计算所述图像特征于所述点云特征之间的余弦相似度；通过计算所述图像特征与所述点云特征之间的余弦相似度，可以判断两个向量是否相似，若计算结果越接近于1，说明两个特征越相似，即所述图像特征越接近于所述点云特征，由于所述点云特征具有表达三维空间的能力，假若所述图像特征与对应的所述点云特征非常相似，则意味着该图像特征可以表达出更多三维空间的信息。

S4-2、将所述余弦相似度最小化；将余弦相似度进行最小化，是为了克服余弦相似度对特征向量的数组不敏感的缺陷，从而使个体之即特征之间的差异明显，从而使所述知识迁移单元。

S4-3、计算并反向传播所述图像特征的梯度，以更新所述图像特征单元的二维卷积神经网络模型的参数；具体地，根据最小化后的余弦相似度，可以得到所述图像特征与所述点云特征之间的误差，根据该误差计算并反向传播所述图像特征的梯度，进而对所述图像特征单元的二维卷积神经网络的各参数例如权重和偏置值进行更新和调整，目的是为了寻找所述二维卷积神经网络中损失函数的最小值。

通过重复上述步骤S4-1至S4-3，使二维卷积神经网络的损失函数的值逐渐逼近甚至到达最小值，这样，就可以使所述图像特征提取单元所提取的图像特征与所述点云特征越来越相似，由此实现所述图像特征学习所述点云特征，由于点云特征具有表达三维空间信息的能力，因此，当所述图像特征越接近于所述点云特征时，所述图像特征其所表达的三维空间信息越多，越有利于提高三维物体参数预测的准确性。

S5、所述三维目标参数预测单元根据所述图像特征、所述点云特征生成三维包围盒，并输出所述三维包围盒的九个自由度参数，之后还通过反向传播更新所述图像特征提取单元、所述点云特征提取单元的参数，其中，所述三维包围盒的九个自由度参数，是指所述三维包围盒的中心点坐标(x，y，z，),欧拉角参数(α，β，γ)，以及所述三维包围盒的长、宽、高参数。

具体地，所述三维目标参数预测单元其工作流程如下：

S5-1、所述三维目标参数预测单元的线性层将所述图像特征、所述点云特征进行映射，以输出相应的三维包围盒；所述图像特征在学习所述点云特征后，如图5所示，由所述知识迁移单元将所述图像特征对应的第一特征向量，所述点云特征对应的第二特征向量输入至所述三维目标参数预测单元的全连接层即线性层，由所述线性层对所述第一特征向量、所述第二特征向量进行映射，以输出与检测目标对应的三维包围盒。

S5-2、计算、预测所述三维包围盒的中心点坐标，具体地，先预测深度坐标z，然后通过以下式(1)预测坐标x和y(x，y)；其中，所述深度坐标z的预测方式是——根据所述框架中所预先设立的训练数据集的定义，设置一个最短预测距离和一个最长预测距离，所述最短预测距离与所述最长预测距离之间的差值作为深度距离，把所述深度距离按等份划分N个距离区间，然后预测目标物体出现在不同距离区间的可能概率，最后根据所述可能概率求解出期望z；所述式(1)为：

(1)

其中，[f_u，0，c_u；0，f_v，c_v；0，0，1]是相机内参数，(u，v)是所述感兴趣目标选择单元得到的二维包围盒的中心点像素坐标，由此，得到所述三维包围盒的中心点坐标(x，y，z)；

S5-3、根据所述三维包围盒的中心点坐标，通过以下式(2)预测四元数，然后通过式(3)将所述四元数转换成欧拉角，以消除欧拉角的万向锁问题，所述式(2)、式(3)的表达式如下：

(2)

(3)

其中，四元数表示为

欧拉角表示为roll，pitch，yaw＝(α，β，γ)。

S5-4、根据所述三维包围盒的中心点坐标、欧拉角、以及所述图像特征、所述点云特征在线性层上的映射，计算所述三维包围盒的长、宽、高参数，并输出所述三维包围盒的中心点坐标(x，y，z)、欧拉角参数(α，β，γ)，以及所述三维包围盒的长、宽、高。

S5-5、计算所述图像特征、所述点云特征的梯度，并通过所述梯度进行反向传播，以更新所述图像特征提取单元其二维卷积神经网络、所述点云特征提取单元其一维卷积神经网络的相应参数，同时，还更新所述三维目标参数预测单元其线性层即全连接层的相应参数。

进一步地，所述知识迁移单元和所述三维目标参数预测单元，两者可以同时更新所述图像特征提取单元的相关参数。

上述步骤S1-S5均是在神经网络训练阶段执行，执行上述步骤的目的是为了使图像特征学习所述点云特征的表达，从而使得图像特征具有表达三维空间的能力；当神经网络训练阶段结束，所述框架进入神经网络推理阶段，并通过执行以下步骤，以输出基于二维图像所述预测的三维目标的物体参数：

S9、所述三维目标参数预测单元根据所述第二图像特征，生成相应的三维包围盒，并根据所述相应的三维包围盒、以及所述相应的二维包围盒的中心点坐标，计算并输出所述相应的三维包围盒的九个自由度参数；所述三维目标参数预测单元的线性层对所述第二图像特征进行映射，以生成所述相应的三维包围盒，然后，通过执行上述步骤S5-2到S5-4所描述的操作，从而计算所述相应的三维包围盒的九个自由度参数即中心点坐标坐标(x，y，z)、欧拉角参数（α，β，γ)，以及所述相应的三维包围盒的长、宽、高，并将所得的九个自由度参数作为检测目标物体的三维参数的最终结果而输出。

Claims

1.一种基于多源数据知识迁移的三维物体检测框架，其特征在于，包括以下步骤：

S7、所述图像特征提取单元从所述候选边界框中提取第二图像特征，并将所述第二图像特征输出至所述感兴趣目标选择单元、以及所述三维目标参数预测单元；

S8、所述感兴趣目标选择单元根据所述第二图像特征，生成相应的二维包围盒，并输出所述相应的二维包围盒的中心坐标至所述三维目标参数预测单元；

S9、所述三维目标参数预测单元根据所述第二图像特征、以及所述相应的二维包围盒的中心点坐标，生成相应的三维包围盒，并输出所述相应的三维包围盒的九个自由度参数。

2.根据权利要求1所述一种基于多源数据知识迁移的三维物体检测框架，其特征在于：在所述步骤S1之前，还包括，利用二维检测器从所述图像中提取目标的候选边界框，以根据所述目标的候选边界框获取点云空间中相应区域的点云数据。

3.根据权利要求1所述一种基于多源数据知识迁移的三维物体检测框架，其特征在于：在所述步骤S1之前，还包括计算机***接收测试人员针对所述图像所输入的标注标签。

4.根据权利要求3所述一种基于多源数据知识迁移的三维物体检测框架，其特征在于，所述步骤S2包括：

S2-2、计算与所述感兴趣目标对应的所述二维包围盒、所述标注标签在二维图像上的IoU值，选取具有最大IoU值的标注标签作为所述感兴趣目标的真实标签，并在点数空间中，将与所述真实标签具有对应关系的区域的点云数据，提取并输出至所述点云特征提取单元，还输出所述二维包围盒的中心点坐标至所述三维目标参数预测单元。

5.根据权利要求4所述一种基于多源数据知识迁移的三维物体检测框架，其特征在于，所述步骤S3具体包括：

S3-1、将所述点云数据输入至一维卷积神经网络模型；

6.根据权利要求1所述一种基于多源数据知识迁移的三维物体检测框架，其特征在于，所述步骤S4包括：

S4-2、将所述余弦相似度最小化；

7.根据权利要求1所述一种基于多源数据知识迁移的三维物体检测框架，其特征在于，所述步骤S5包括：

(1)

(2)

(3)

其中，四元数表示为

欧拉角表示为；roll，pitch，yaw＝(α，β，γ)；

S5-4、根据所述三维包围盒的中心点坐标、欧拉角、以及所述图像特征、所述点云特征在线性层上的映射，计算所述三维包围盒的长、宽、高参数，并输出所述三维包围盒的中心点坐标(x，y，z)、欧拉角参数(α，β，γ)，以及所述三维包围盒的长、宽、高参数；

S5-5、所述三维目标参数预测单元根据所述第二图像特征，生成相应的三维包围盒，并根据所述相应的三维包围盒、以及所述相应的二维包围盒的中心点坐标，计算并输出所述相应的三维包围盒的九个自由度参数。