CN112767486B

CN112767486B - 基于深度卷积神经网络的单目6d姿态估计方法及装置

Info

Publication number: CN112767486B
Application number: CN202110111487.0A
Authority: CN
Inventors: 季向阳; 王谷
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-11-29
Anticipated expiration: 2041-01-27
Also published as: CN112767486A

Abstract

本发明公开了一种基于深度卷积神经网络的单目6D姿态估计方法及装置，该方法包括：对RGB图像进行检测得到目标物体区域，将包含目标物体的区域缩放到固定尺度；将缩放后的RGB图像输入卷积神经网络，得到物体的分割掩码、物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图，将物体的三维模型坐标投影与2D坐标图拼接得到2D‑3D密集对应关系图；将2D‑3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。该方法充分利用几何信息，使得直接回归6D物体姿态的方法的性能优于几何间接法，且能够满足高精度、实时性以及可微分的要求。

Description

基于深度卷积神经网络的单目6D姿态估计方法及装置

技术领域

本发明涉及计算机视觉，自动驾驶，机器人学技术领域，特别涉及一种基于深度卷积神经网络的单目6D姿态估计方法及装置。

背景技术

从单张RGB图像中获取物体在三维空间中的6D姿态(即3自由度的旋转和3自由度的平移)在很多现实应用中非常关键，例如，在机器人领域中，可为抓取或者运动规划提供关键的信息；在无人驾驶中，车辆和行人的6D姿态可提供驾驶的决策信息；在增强现实/虚拟现实中，准确地获得物体6D姿态可以实现更好的人机交互。

近年来，深度卷积神经网络在单目6D物体姿态估计上取得了比较大的进展，大致有三大类方法。第一类是直接回归的方法，即直接从神经网络预测6D姿态，不同的方法预测不同的姿态表示。第二类是基于几何的间接法，即预测稀疏的三维模型关键点在图像平面上的投影或者预测密集的三维模型坐标投影图，然后通过建立2D-3D的对应关系，利用RANSAC/PnP求解6D姿态。第三种方法是利用度量学习或者自编码器建立旋转对应的特征码本，然后通过码本索引得到姿态。这些方法中，基于几何的间接法目前能达到的精度最高，而直接回归法相对效果较差。虽然几何间接法精度较高，但是该类方法存在一些缺点，例如该方法优化的是坐标误差，无法直接基于6D姿态进行优化，而同样的坐标误差可能对应完全不同的6D姿态；测试时不能获得可微分的姿态预测，无法应用于其他需要可微分姿态的下游任务；此外，RANSAC过程比较耗时，在实时性要求高的场景也不适用。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度卷积神经网络的单目6D姿态估计方法，该方法充分利用几何信息，使得直接回归6D物体姿态的方法的性能优于几何间接法，且能够满足高精度、实时性以及可微分的要求。

本发明的另一个目的在于提出一种基于深度卷积神经网络的单目6D姿态估计装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度卷积神经网络的单目6D姿态估计方法，包括：

对RGB图像进行检测得到目标物体区域，将包含目标物体的区域缩放到固定尺度；

将缩放后的RGB图像输入卷积神经网络，得到物体的分割掩码、物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图，将所述物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图；

将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。

本发明实施例的基于深度卷积神经网络的单目6D姿态估计方法，根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放，输入到深度卷积神经网络中，输出三种几何中间特征，包括物体的分割掩码，物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块：Patch-PnP，直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络，且充分利用了几何的中间特征，可以端到端地训练，在准确率高的同时有很快的推理速度。在多个数据基准的测试下，准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。

另外，根据本发明上述实施例的基于深度卷积神经网络的单目6D姿态估计方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，对所述卷积神经网络进行训练时，物体的三维模型坐标投影图的真实标注采用渲染的方法得到，将物体的三维模型的每个顶点的颜色用顶点的坐标代替，在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。

进一步地，在本发明的一个实施例中，对所述卷积神经网络进行训练时，物体的三维模型表面区域注意力图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到，在二维图像上的每个物体前景像素上，其三维表面区域标签为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号。

进一步地，在本发明的一个实施例中，所述卷积神经网络由卷积层，残差卷积模块，反卷积层，和上采样层构成，输入的目标图像块的空间尺度先被缩小到1/32，然后放大到输入尺度的1/4，物体分割掩码的通道数为1，物体的三维模型坐标投影图的通道数为3，物体三维模型表面区域注意力图的通道数为S+1，其中，S是三维模型的表面区域数。

进一步地，在本发明的一个实施例中，所述神经网络模块的Patch-PnP网络由卷积层和全连接层构成，采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32，再将卷积层输出的特征拉平，通过全连接层分别回归旋转和平移。

进一步地，在本发明的一个实施例中，旋转R的回归采用6维的向量R_6d，取自3×3旋转矩阵R的前两列，对于任意网络输出的6维旋转向量R_6d＝[r₁|r₂]，根据旋转矩阵的正交性，解出3×3的旋转矩阵R＝[R_·1|R_·2|R_·3]：

其中，φ表示向量归一化操作，×表示向量的叉乘。

进一步地，在本发明的一个实施例中，平移t的回归采用尺度不变的平移量t_SITE＝[δ_x,δ_y,δ_z]^T，即预测原始图像中目标物体的矩形包围框的中心(c_x,c_y)和物体在图像上的投影中心(o_x,o_y)之间的相对距离(δ_x,δ_y)，以及物体与相机之间的相对距离δ_z：

其中，w和h为原始图像中目标物体的矩形包围框的宽和高，r为原始图像中目标物体的尺度与网络输入图像块的尺度s_zoom之间的缩放系数r＝s_zoom/max(w,h)，根据网络的预测平移量，通过逆投影得到3D的平移量t＝K^-1t_z[o_x,o_y,1]^T，其中，K为相机的内部参数。

进一步地，在本发明的一个实施例中，网络损失函数为L＝L_Geom+L_Pose，其中，L_Geom为几何损失，L_Pose为6D姿态回归损失；几何损失函数L_Geom为：

其中，CE表示交叉熵损失函数，

和

分别表示真实标注和预测量，⊙为逐点乘法，表示只计算M_XYZ和M_Region的前景部分的损失函数；

6D姿态回归损失为：

其中，M为物体的3D模型，x∈M为3D模型上的点。

为达到上述目的，本发明另一方面实施例提出了一种基于深度卷积神经网络的单目6D姿态估计装置，包括：

缩放模块，用于对RGB图像进行检测得到目标物体区域，将包含目标物体的区域缩放到固定尺度；

处理模块，用于将缩放后的RGB图像输入卷积神经网络，得到物体的分割掩码、物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图，将所述物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图；

生成模块，用于将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。

本发明实施例的基于深度卷积神经网络的单目6D姿态估计装置，根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放，输入到深度卷积神经网络中，输出三种几何中间特征，包括物体的分割掩码，物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块：Patch-PnP，直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络，且充分利用了几何的中间特征，可以端到端地训练，在准确率高的同时有很快的推理速度。在多个数据基准的测试下，准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。

另外，根据本发明上述实施例的基于深度卷积神经网络的单目6D姿态估计装置还可以具有以下附加的技术特征：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程图；

图2为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程框图；

图3为根据本发明一个实施例的基于几何指导的单目6D物体姿态直接回归网络结构图；

图4为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计方法及装置。

首先将参照附图描述根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计方法。

图1为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程图。

图2为根据本发明一个实施例的基于深度卷积神经网络的单目6D姿态估计方法流程框图。

如图1和图2所示，该基于深度卷积神经网络的单目6D姿态估计方法包括以下步骤：

步骤S1，对RGB图像进行检测得到目标物体区域，将包含目标物体的区域缩放到固定尺度。

具体地，训练时的物体的区域由真实标注加上噪声获得，测试时的物体区域由任意一个2D目标检测器得到。

步骤S2，将缩放后的RGB图像输入卷积神经网络，得到物体的分割掩码、物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图，将物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图。

将RGB图像中包含目标物体的区域缩放到固定尺度后，输入一个卷积神经网络，输出三种几何中间特征，包含：物体的分割掩码M_mask、物体的三维模型坐标投影图M_XYZ，以及物体的三维模型表面区域注意力图M_Region。其中，物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图M_2D-3D。

进一步地，训练时物体的三维模型坐标投影图的真实标注采用渲染的方法得到。具体地，将物体的三维模型的每个顶点的颜色用顶点的坐标代替，然后在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。

进一步地，训练时的三维模型表面区域图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到。具体地，在二维图像上的每个物体前景像素上，其三维表面区域标签为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号。

步骤S3，将2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。

将2D-3D密集对应关系图M_2D-3D和表面区域注意力图M_Region这两种几何特征同时输入第二个较小的神经网络模块：Patch-PnP，直接回归得到物体的6D姿态。

可以理解的是，如图2所示，单目6D姿态估计的深度卷积神经网络一共包含两个模块，第一个模块的深度卷积神经网络由卷积层，残差卷积模块，反卷积层和上采样层构成。输入的目标图像块的空间尺度先被缩小到1/32，这一部分可以是任意已有的深度卷积神经网络例如ResNet-34，然后放大到输入尺度的1/4，即三种中间几何特征的空间尺度均为输入尺度的1/4。物体分割掩码的通道数为1，物体的三维模型坐标投影图的通道数为3，物体三维模型表面区域注意力图的通道数为S+1，其中S是三维模型的表面区域数，也是三维模型最远采样的关键点数目，增加的一个通道用来表示不在物体表面上的背景区域。

第二个模块的Patch-PnP网络由卷积层和全连接层构成。首先采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32，然后将卷积层输出的特征拉平，然后通过全连接层分别回归旋转和平移。

旋转R的回归采用6维的向量R_6d，取自3×3旋转矩阵R的前两列。对于任意网络输出的6维旋转向量R_6d＝[r₁|₂]，根据旋转矩阵的正交性，可以解出3×3的旋转矩阵R＝[R_·1|R_·2|R_·3]：

其中φ表示向量归一化操作，×表示向量的叉乘。

平移t的回归采用尺度不变的平移量t_sITE＝[δ_x,δ_y,δ_z]^T。即预测原始图像中目标物体的矩形包围框的中心(c_x,c_y)和物体在图像上的投影中心(o_x,o_y)之间的相对距离(δ_x,δ_y)，以及物体与相机之间的相对距离δ_z。

其中w和h为原始图像中目标物体的矩形包围框的宽和高，r为原始图像中目标物体的尺度与网络输入图像块的尺度s_zoom之间的缩放系数r＝s_zoom/max(w,h)。根据网络的预测平移量，可以通过逆投影得到3D的平移量t＝K^-1t_z[o_x,o_y,1]^T，其中K为相机的内部参数。

网络的损失函数为L＝L_Geom+L_Pose，包含几何损失L_Geom和6D姿态回归损失L_Pose两部分。几何损失函数为：

其中，CE表示交叉熵损失函数，

和

分别表示真实标注和预测量，⊙为逐点乘法，表示只计算M_XYZ和M_Region的前景部分的损失函数。

6D姿态回归损失为：

其中，M为物体的3D模型，x∈M为3D模型上的点。

根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计方法，根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放，输入到深度卷积神经网络中，输出三种几何中间特征，包括物体的分割掩码，物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块：Patch-PnP，直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络，且充分利用了几何的中间特征，可以端到端地训练，在准确率高的同时有很快的推理速度。在多个数据基准的测试下，准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。

其次参照附图描述根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计装置。

如图4所示，该基于深度卷积神经网络的单目6D姿态估计装置包括：缩放模块401、处理模块402和生成模块403。

缩放模块401，用于对RGB图像进行检测得到目标物体区域，将包含目标物体的区域缩放到固定尺度。

处理模块402，用于将缩放后的RGB图像输入卷积神经网络，得到物体的分割掩码、物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图，将物体的三维模型坐标投影与2D坐标图拼接得到2D-3D密集对应关系图。

生成模块403，用于将2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态。

进一步地，在本发明的一个实施例中，对卷积神经网络进行训练时，物体的三维模型坐标投影图的真实标注采用渲染的方法得到，将物体的三维模型的每个顶点的颜色用顶点的坐标代替，在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。

需要说明的是，前述对基于深度卷积神经网络的单目6D姿态估计装置方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于深度卷积神经网络的单目6D姿态估计装置，根据2D目标检测器从RGB图片中得到的目标物体区域进行裁剪缩放，输入到深度卷积神经网络中，输出三种几何中间特征，包括物体的分割掩码，物体的三维模型坐标投影图，以及物体的三维模型表面区域注意力图。物体的三维模型坐标投影图和2D坐标图拼接可得到2D-3D密集对应关系图。将2D-3D密集对应关系图和表面区域注意力图这两种几何特征同时输入第二个较小的神经网络模块：Patch-PnP，直接回归得到物体的6D姿态。网络的两个模块均为可微分的神经网络，且充分利用了几何的中间特征，可以端到端地训练，在准确率高的同时有很快的推理速度。在多个数据基准的测试下，准确率、速度和鲁棒性均优于传统的几何间接方法和直接回归方法。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度卷积神经网络的单目6D姿态估计方法，其特征在于，包括以下步骤：

将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态；

对所述卷积神经网络进行训练时，物体的三维模型表面区域注意力图的真实标注采用三维模型坐标投影图和三维模型上的最远采样关键点计算得到，在二维图像上的每个物体前景像素上，其三维模型表面区域注意力图为与该像素对应的三维模型坐标投影值距离最小的三维模型最远采样关键点的序号；

所述卷积神经网络由卷积层，残差卷积模块，反卷积层，和上采样层构成，输入的目标图像块的空间尺度先被缩小到1/32，然后放大到输入尺度的1/4，物体分割掩码的通道数为1，物体的三维模型坐标投影图的通道数为3，物体三维模型表面区域注意力图的通道数为S+1，其中，S是三维模型的表面区域数；

所述神经网络模块的Patch-PnP网络由卷积层和全连接层构成，采用三层步幅为2的卷积层将输入的几何特征的空间尺度降为输入图像尺度的1/32，再将卷积层输出的特征拉平，通过全连接层分别回归旋转和平移。

2.根据权利要求1所述的方法，其特征在于，对所述卷积神经网络进行训练时，物体的三维模型坐标投影图的真实标注采用渲染的方法得到，将物体的三维模型的每个顶点的颜色用顶点的坐标代替，在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。

3.根据权利要求1所述的方法，其特征在于，旋转R的回归采用6维的向量R_6d，取自3×3旋转矩阵R的前两列，对于任意网络输出的6维旋转向量R_6d＝[r₁|r₂]，根据旋转矩阵的正交性，解出3×3的旋转矩阵R＝[R.₁|R.₂|R.₃]：

其中，φ表示向量归一化操作，×表示向量的叉乘。

4.根据权利要求1所述的方法，其特征在于，平移t的回归采用尺度不变的平移量t_SITE＝[δ_x，δ_y，δ_z]^T，即预测原始图像中目标物体的矩形包围框的中心(c_x，c_y)和物体在图像上的投影中心(o_x，o_y)之间的相对距离(δ_x，δ_y)，以及物体与相机之间的相对距离δ_z：

其中，w和h为原始图像中目标物体的矩形包围框的宽和高，r为原始图像中目标物体的尺度与网络输入图像块的尺度s_zoom之间的缩放系数r＝s_zoom/max(w，h)，根据网络的预测平移量，通过逆投影得到3D的平移量t＝K^-1t_z[o_x，o_y，1]^T，其中，K为相机的内部参数。

5.根据权利要求1所述的方法，其特征在于，网络损失函数为L＝L_Geom+L_Pose，其中，L_Geom为几何损失，L_Pose为6D姿态回归损失；几何损失函数L_Geom为：

其中，CE表示交叉熵损失函数，

和

6D姿态回归损失为：

其中，M为物体的3D模型，x∈M为3D模型上的点。

6.一种基于深度卷积神经网络的单目6D姿态估计装置，其特征在于，包括：

生成模块，用于将所述2D-3D密集对应关系图和表面区域注意力图同时输入到神经网络模块中进行直接回归得到目标物体的6D姿态；

7.根据权利要求6所述的装置，其特征在于，对所述卷积神经网络进行训练时，物体的三维模型坐标投影图的真实标注采用渲染的方法得到，将物体的三维模型的每个顶点的颜色用顶点的坐标代替，在给定的6D姿态下通过OpenGL渲染得到三维模型坐标投影图。