CN109214980B

CN109214980B - 一种三维姿态估计方法、装置、设备和计算机存储介质

Info

Publication number: CN109214980B
Application number: CN201710538045.8A
Authority: CN
Inventors: 孙迅; 王睿; 翟玉强; 夏添
Original assignee: Apollo Intelligent Technology Beijing Co Ltd
Current assignee: Apollo Intelligent Technology Beijing Co Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2023-06-23
Anticipated expiration: 2037-07-04
Also published as: US20190012807A1; US10614592B2; CN109214980A

Abstract

本发明提供了一种三维姿态估计方法、装置、设备和计算机存储介质，其中方法包括：获取图像中对象的二维姿态信息以及所述对象的三维尺寸信息；依据所述对象的三维尺寸信息，确定所述对象的关键点在对象坐标系中的坐标；依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系。通过将该方式应用于无人驾驶领域，即可实现将二维障碍物检测结果映射到三维空间以得到其姿态。

Description

一种三维姿态估计方法、装置、设备和计算机存储介质

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种三维姿态估计方法、装置、设备和计算机存储介质。

【背景技术】

为了保障无人车在道路上形式的安全，需要实时检测出周围环境中的障碍物三维位置信息，并将其反馈给规划控制***从而进行避障操作。当前基于深度学习技术在图像上进行障碍物检测的技术迅速发展，然而由于三维信息的缺失，单纯图像上的二维检测结果无法被运用到所有的无人车驾驶场景。目前亟需一种将二维障碍物检测结果映射到三维空间并得到其姿态的方式，从而为基于计算机视觉技术的障碍物检测运用到无人驾驶项目奠定基础。

【发明内容】

有鉴于此，本发明提供了一种三维姿态估计方法、装置、设备和计算机存储介质，以便于实现即将二维障碍物检测结果映射到三维空间以得到其姿态。

具体技术方案如下：

本发明提供了一种三维姿态估计方法，该方法包括：

获取图像中对象的二维姿态信息以及所述对象的三维尺寸信息；

依据所述对象的三维尺寸信息，确定所述对象的关键点在对象坐标系中的坐标；

依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系。

根据本发明一具体实施方式，该方法还包括：

依据所述对象的关键点在对象坐标系中的坐标以及所述转换关系，确定所述对象的关键点在相机坐标系中的坐标。

根据本发明一具体实施方式，所述图像中对象的二维姿态信息以及所述对象的三维尺寸信息基于深度学习方法获取。

根据本发明一具体实施方式，所述图像中对象的二维姿态信息包括：所述对象的关键点在所述图像上的投影坐标。

根据本发明一具体实施方式，依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系包括：

所述对象的各关键点在对象坐标系中的坐标以及在所述图像上的投影坐标分别构成各关键点的三维-二维坐标对；

利用至少部分关键点的三维-二维坐标对在几何上的对应关系，确定所述对象坐标系到相机坐标系的旋转矩阵R和位置平移向量t。

根据本发明一具体实施方式，所述利用至少部分关键点的三维-二维坐标对在几何上的对应关系，确定所述对象坐标系到相机坐标系的旋转矩阵R和位置平移向量t，包括：

利用m个关键点的三维-二维坐标对在几何上的对应关系，构成m组方程，m为正整数；

利用PnP算法，求解所述m组方程，得到所述对象坐标系到相机坐标系的旋转矩阵R和位置平移向量t，所述m≥n。

根据本发明一具体实施方式，利用PnP算法，求解所述m组方程的过程中，采用RANSAC算法选取内点率最高的解。

根据本发明一具体实施方式，所述图像中对象的二维姿态信息包括：所述图像中能够包围所述对象的最小二维矩形框；

该方法进一步包括：基于深度学习方法获取所述对象绕相机坐标系旋转的角度yaw。

根据本发明一具体实施方式，依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系，包括：

依据所述yaw，确定所述对象坐标系到相机坐标系的旋转矩阵R；

依据所述最小二维矩形框与落在所述最小二维矩形框的所述对象的关键点之间的坐标关系以及所述R，确定所述对象坐标系到相机坐标系的位置平移向量t。

根据本发明一具体实施方式，依据所述最小二维矩形框与落在所述最小二维矩形框的所述对象的关键点之间的坐标关系以及所述R，确定所述对象坐标系到相机坐标系的位置平移向量t，包括：

针对所述最小二维矩形框的各边，利用所述R和相机内部参数构建4组方程，每组方程反映落在所述最小二维矩形框的关键点与二维矩形框的位置关系；

利用最小二乘法求解所述4组方程，确定所述t。

根据本发明一具体实施方式，所述关键点包括：包围所述对象的最小三维矩形框的顶点。

根据本发明一具体实施方式，所述对象包括：障碍物。

本发明还提供了一种三维姿态估计装置，该装置包括：

获取单元，用于获取图像中对象的二维姿态信息以及所述对象的三维尺寸信息；

第一确定单元，用于依据所述对象的三维尺寸信息，确定所述对象的关键点在对象坐标系中的坐标；

第二确定单元，用于依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系。

根据本发明一具体实施方式，该装置还包括：

第三确定单元，用于依据所述对象的关键点在对象坐标系中的坐标以及所述转换关系，确定所述对象的关键点在相机坐标系中的坐标。

根据本发明一具体实施方式，所述获取单元获取的图像中对象的二维姿态信息包括：所述对象的关键点在所述图像上的投影坐标。

根据本发明一具体实施方式，所述第二确定单元，具体执行：

根据本发明一具体实施方式，所述获取单元获取的图像中对象的二维姿态信息包括：所述图像中能够包围所述对象的最小二维矩形框；

所述获取单元，进一步获取基于深度学习方法得到的所述对象绕相机坐标系旋转的角度yaw。

本发明提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

本发明还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述的方法。

由以上技术方案可以看出，本发明在基于图像中对象的二维姿态信息以及所述对象的三维尺寸信息，依据对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与对象坐标系之间的转换关系。通过将该方式应用于无人驾驶领域，即可实现将二维障碍物检测结果映射到三维空间以得到其姿态。

【附图说明】

图1为本发明实施例提供的主要方法流程图；

图2为本发明实施例提供的对象的关键点在对象坐标系中坐标的示意图；

图3为本发明实施例一提供的方法流程图；

图4为本发明实施例二提供的方法流程图；

图5为本发明实施例提供的最小二维矩形框的示意图；

图6为本发明实施例提供的障碍物的各顶点在相机坐标系中的示意图；

图7为本发明实施例提供的装置结构图；

图8为用来实现本发明实施例实施方式的示意性计算机***/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明基于已经获知图像中对象的二维姿态信息以及对象的三维尺寸信息的假设，其核心思想在于，依据图像中对象的关键点在对象坐标系中的坐标与对象的二维姿态信息的几何关系，确定出相机坐标系与对象坐标系之间的转换关系。依据该转换关系就能够将二维对象信息映射到三维空间，从而得到其三维姿态。

图1为本发明实施例提供的主要方法流程图，如图1所示，该方法可以包括：

在101中，获取图像中对象的二维姿态信息以及对象的三维尺寸信息。

在本发明实施例中，假设图像中对象的二维姿态信息以及对象的三维尺寸信息已知，本发明直接利用这些信息进行图像中对象的三维姿态估计。因此，本发明对于图像中对象的二维姿态信息以及对象的三维尺寸信息的获取方式并不加以限制，可以基于深度学习方法或其他任意可实现的方式获取。

上述对象的三维尺寸信息可以体现为对象的长宽高。图像中对象的二维姿态信息可以采用多种体现方式，例如体现为对象的关键点在图像上的投影坐标，再例如图像中能够包围该对象的最小二维矩形框，等等。对于不同的体现方式，可以采用不同的方式来确定相机坐标系与对象坐标系之间的转换关系，后续将会结合不同实施例进行详述。

在102中，依据对象的三维尺寸信息，确定对象的关键点在对象坐标系中的坐标。

通常一个对象在三维空间中可以采用n个点来表示，可以采用包围该对象的最小三维矩形框的各个顶点，还可以采用诸如对象的中心、质心等点。另外，根据对象类型的不同，可以针对具体类型的对象选择具体的表示方式。考虑到通用性要求，在本发明实施例中可以采用8个点的3D bounding box(即包围对象的最小三维矩形框)来表示对象。如图2所示，在对象上，以其底面中心为原点建立一个对象坐标系，其中长、宽和高分别对应X、Y和Z轴方向，并按照图中所示对8个顶点进行编号。则对象的前、左、后和右四个侧面依次对应于顶点集合{1,2,6,5}，{1,4,8,5}，{3,4,8,7}和{2,3,7,6}。

若3D bounding box的长、宽、高分别为L、H和W，那么1～8个顶点在对象坐标系中的坐标可以分别表示为：

在103中，依据对象的关键点在对象坐标系中的坐标与对象的二维姿态信息的几何关系，确定相机坐标系与对象坐标系之间的转换关系。

在本发明实施例中，是基于几何关系来确定相机坐标系与对象坐标系之间的转换关系。如果对象绕相机坐标系旋转的角度yaw未知，则本步骤中得出的转换关系可以包括对象坐标系到相机坐标系的旋转矩阵R和位置平移向量t。如果对象绕相机坐标系旋转的角度yaw已知，则本步骤中得出的转换关系可以包括对象坐标系到相机坐标系的位置平移向量t。

对象坐标系到相机坐标系的转换关系可以如下所示：

R*X_object+t＝X_camera (1)

其中，旋转矩阵R为一个3×3的矩阵，t是一个3×1的向量，X_object和X_camera分别是同一点分别在对象坐标系和相机坐标系的坐标。

在104中，依据对象的关键点在对象坐标系中的坐标以及上述确定出的转换关系，确定对象的关键点在相机坐标系中的坐标。

在确定出了上述转换关系后，由对象的关键点在对象坐标系的坐标就可以采用公式(1)确定出对象的关键点在相机坐标系中的坐标。

需要说明的是，上述图像中的对象可以是任意具有特定形状的物体。在本发明后续实施例中，以运用于无人车领域为例，图像中对象主要指障碍物，具体主要指无人车周围环境中潜在可移动的“完整”物体。例如汽车、行人、自行车，等等。

下面结合两个具体实施例，对上述方法进行详述。

实施例一、

图3为本发明实施例一提供的方法流程图，如图3所示，该方法可以包括以下步骤：

在301中，获取图像中障碍物的关键点在图像上的投影坐标以及障碍物的三维尺寸信息。

对于障碍物而言，以其3D bounding box的8个顶点作为关键点为例，8个顶点在图像上存在8个投影坐标，可以分别表示为q_i，其中i＝1,2,…,8。障碍物的三维尺寸信息体现为长、宽、高。除此之外，也可以采用诸如3D bounding box的每个平面的中点、质心等作为关键点。

在302中，利用障碍物的三维尺寸信息，确定对象的关键点在障碍物坐标系中的坐标。

本步骤不再赘述，参见图1所示步骤102中的相关描述。

在303中，障碍物的各关键点在障碍物坐标系中的坐标以及在图像上的投影坐标分别构成各关键点的三维-二维坐标对。

障碍物的8个顶点在障碍物坐标系中的坐标假设表示为Q_i，其中i＝1,2,…,8。那么针对每个i，Q_i-q_i就构成了一对三维-二维坐标对。

在304中，利用至少部分关键点的三维-二维坐标对在集合上的对应关系，确定障碍物坐标系到相机坐标系的旋转矩阵R和位置平移向量t。

本步骤中，可以利用m个关键点的三维-二维坐标对在集合上的对应关系，构成m组方程，m为正整数；然后利用PnP算法，求解m组方程，得到障碍物坐标到相机坐标系的R和t，其中m≥n。

例如，令P＝K[R t] (2)

其中P为一个3×4矩阵，将确定R和t的问题就转化为求解P的问题：

PQ_i＝s·q_i (3)

其中，s为Q_i中Z轴坐标构成的向量。

依据公式(3)，每个顶点可以构成一组方程，8个三维-二维坐标对就可以构成8组方程。

对于上述方程的求解，可以采用计算机视觉中的经典算法—PnP算法。例如，在相机内部参数已知的情况下，采用P3P算法求解4个顶点构成的4组方程。再例如，在相机内部参数未知的情况下，可以采用诸如P4P、P6P等算法。

在求解过程中，可以采用RANSAC(Random Sample Consensus，随机采样一致)算法选取内点率最高的解。举个例子：

假设相机内部参数已知，采用P3P算法求解4个三维-二维坐标对构成的4组方程。大致流程如下：

S1、首先随机采样4个Q_i-q_i对；

S2、调用P3P算法得到一个解；

S3、判断S2得到的解的内点率，若该内点率大于最大内点率，则利用该内点率更新最大内点率，利用S2得到的解更新当前解；

S4、判断是否满足停止条件，如果是，执行S5；否则转至执行S1。其中停止条件可以采用但不限于：内点个数满足预设要求，或者，迭代次数满足预设要求。

S5、采用所有内点重新拟合(例如采用最小二乘法)，得到最优解。

鉴于RANSAC算法为已知算法，因此仅对上述流程概述至此。

经过上述求解后，就可以得到最优解P，即得到R和t。

实施例二、

图4为本发明实施例二提供的方法流程图，如图4所示，该方法可以包括以下步骤：

在401中，获取图像中能够包围障碍物的最小二维矩形框、障碍物的三维尺寸信息以及障碍物绕相机坐标系旋转的角度yaw。

举个例子，如图5中所示，图像中能够包围汽车的最小二维矩形框如图中黑线框所示。

本实施例中基于障碍物绕相机坐标系旋转的角度yaw也已知的假设，其中yaw的获取方式也可以采用基于深度学习方法，或者其他方式获取。本发明对此不加以限制。

在402中，利用障碍物的三维尺寸信息，确定对象的关键点在障碍物坐标系中的坐标。

本步骤不再赘述，参见图1所示步骤102中的相关描述。

在403中，依据yaw确定障碍物坐标系到相机坐标系的旋转矩阵R。

对于给定yaw的情况下，可以得到旋转矩阵R如下：

在404中，依据上述最小二维矩形框与落在该最小二维矩形框的障碍物的关键点之间的坐标关系，以及上述R，确定障碍物坐标系到相机坐标系的位置平移向量t。

从几何关系上看，图像中能够包围障碍物的最小二维矩形框，每一条边必然会存在至少一个顶点在图像上的投影正好落在其上面。基于该假设，对于最小二维矩形框的4个边，就可以列出4组方程。

假设顶点1，其在障碍物坐标系中的坐标为

其落在最小二维矩形框的左边上，则可以写入方程如下：

其中，右下标x表示取在图像上投影的x坐标，x_left表示最小二维矩形框左边在X轴上的坐标。

如公式(5)所示的方程，最小二维矩形框的4个边就可以列举出4组方程，然后利用最小二乘法求解这4组方程，从而确定出t。

另外，由于可能不止4个关键点落在4条边上，因此可以采用其他关键点的组合来形成4组方程，从而得到多个t。这种情况可以从得到的这些t中，选择最优的一个t。例如可以选择一个t使得该t对应的包含障碍物各顶点的最小二维矩形框与步骤401中获取的最小二维矩形框的Jarcard系数最大。其中，Jarcard系数表示为两个最小二维矩形框的面积交集与面积并集的比值。

另外，除了上述实施例一和实施例二所示的方式之外，还可以结合实施例一和实施例二中的方式，然后对实施例一和实施例二中的结果进行评价，从中选出最优结果。

通过上述方式，得到R和t后，就可以依据障碍物的各顶点在障碍物坐标系中的坐标，确定出障碍物的各顶点在相机坐标系中的坐标，如图6中所示。一方面该坐标可以为无人车的障碍物定位和车辆控制提供基础，另一方面，障碍物的各顶点在相机坐标系中的坐标可以在图像中标出。

以上是对本发明提供的方法进行的详细描述，下面对本发明提供的装置进行详细描述。

图7为本发明实施例提供的装置结构图，如图7所示，该装置可以包括：获取单元01、第一确定单元02和第二确定单元03，还可以包括第三确定单元04。其中各组成单元的主要功能如下：

获取单元01负责获取图像中对象的二维姿态信息以及对象的三维尺寸信息。

在本发明实施例中，假设图像中对象的二维姿态信息以及对象的三维尺寸信息已知，本发明直接利用这些信息进行图像中对象的三维姿态估计。因此，本发明对于图像中对象的二维姿态信息以及对象的三维尺寸信息的获取方式并不加以限制，可以基于深度学习方法或其他任意可实现的方式获取。上述对象的三维尺寸信息可以体现为对象的长宽高。

第一确定单元02负责依据对象的三维尺寸信息，确定对象的关键点在对象坐标系中的坐标。

第二确定单元03负责依据对象的关键点在对象坐标系中的坐标与对象的二维姿态信息的几何关系，确定相机坐标系与对象坐标系之间的转换关系。

作为一种实施方式，获取单元01获取的图像中对象的二维姿态信息可以包括：对象的关键点在图像上的投影坐标。对应地，第二确定单元03将对象的各关键点在对象坐标系中的坐标以及在图像上的投影坐标分别构成各关键点的三维-二维坐标对；然后利用至少部分关键点的三维-二维坐标对在几何上的对应关系，确定对象坐标系到相机坐标系的旋转矩阵R和位置平移向量t。

具体地，可以利用m个关键点的三维-二维坐标对在几何上的对应关系，构成m组方程，m为正整数；利用PnP算法，求解所述m组方程，得到所述对象坐标系到相机坐标系的旋转矩阵R和位置平移向量t，所述m≥n。

其中，在利用PnP算法，求解所述m组方程的过程中，可以采用RANSAC算法选取内点率最高的解。

作为另一种优选的实施方式，获取单元01获取的图像中对象的二维姿态信息可以包括：图像中能够包围对象的最小二维矩形框；另外，获取单元01还可以获取基于深度学习方法得到的对象绕相机坐标系旋转的角度yaw。

相应地，第二确定单元03可以依据yaw，确定对象坐标系到相机坐标系的旋转矩阵R；依据最小二维矩形框与落在最小二维矩形框的对象的关键点之间的坐标关系以及R，确定对象坐标系到相机坐标系的位置平移向量t。

具体地，可以针对所述最小二维矩形框的各边，利用所述R和相机内部参数构建4组方程，每组方程反映落在所述最小二维矩形框的关键点与二维矩形框的位置关系；利用最小二乘法求解所述4组方程，确定所述t。

上述的关键点可以包括包围对象的最小三维矩形框的8个顶点，还可以包括诸如对象的中心、质心等。

第三确定单元04负责依据对象的关键点在对象坐标系中的坐标以及转换关系，确定对象的关键点在相机坐标系中的坐标。

图8示出了适于用来实现本发明实施方式的示例性计算机***/服务器012的框图。图8显示的计算机***/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机***/服务器012以通用计算设备的形式表现。计算机***/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，***存储器028，连接不同***组件(包括***存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机***/服务器012典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器028可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***034可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机***/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机***/服务器012交互的设备通信，和/或与使得该计算机***/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机***/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机***/服务器012的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机***/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元016通过运行存储在***存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现一种三维姿态估计方法，可以包括：

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

由以上描述可以看出，本发明提供的上述方法、装置、设备和计算机存储介质可以具备以下优点：

1)本发明在基于图像中对象的二维姿态信息以及所述对象的三维尺寸信息，依据对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与对象坐标系之间的转换关系。通过将该方式应用于无人驾驶领域，即可实现将二维障碍物检测结果映射到三维空间以得到其姿态。

2)本发明利用深度学习得到的三维语义信息(即三维尺寸信息)以及基于几何约束的推理，大大提升了针对特定障碍物重建的效率和精度。

3)经过在实际运用中的验证，采用本发明提供的方式预测的三维姿态的平均相对距离误差在5～7％左右，处于业内先进水平，同时效率非常高，求解每个障碍物三维姿态的平均时间约为0.2ms。

4)在本方法所提供方式的基础上，可以大大缓解采用高线数激光雷达的成本压力。典型地，可以采用低线数激光雷达(例如16线或更少)+Camera的方式进行环境感知。未来甚至可能考虑用camera取代激光雷达，进一步大大降低成本，将无人驾驶技术进一步推向商用化市场。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种三维姿态估计方法，其特征在于，该方法包括：

依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系；其中，

所述图像中对象的二维姿态信息包括：所述图像中能够包围所述对象的最小二维矩形框；

该方法进一步包括：获取所述对象绕相机坐标系旋转的角度yaw；

所述转换关系包括所述对象坐标系到相机坐标系的位置平移向量t，所述依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系，包括：

依据所述最小二维矩形框与落在所述最小二维矩形框的所述对象的关键点之间的坐标关系以及所述R，确定所述对象坐标系到相机坐标系的位置平移向量t；

获取至少一个所述t；根据所述最小二维矩形框和每个所述t对应的包含对象各顶点的最小二维矩形框之间的Jarcard系数，确定最终的t；

依据所述最小二维矩形框与落在所述最小二维矩形框的所述对象的关键点之间的坐标关系以及所述R，确定所述对象坐标系到相机坐标系的位置平移向量t，包括：

利用最小二乘法求解所述4组方程，确定所述t。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述图像中对象的二维姿态信息以及所述对象的三维尺寸信息基于深度学习方法获取。

4.根据权利要求1所述的方法，其特征在于，所述图像中对象的二维姿态信息包括：所述对象的关键点在所述图像上的投影坐标。

5.根据权利要求1所述的方法，其特征在于，

6.根据权利要求1、2、或4所述的方法，其特征在于，所述关键点包括：包围所述对象的最小三维矩形框的顶点。

7.根据权利要求1所述的方法，其特征在于，所述对象包括：障碍物。

8.一种三维姿态估计装置，其特征在于，该装置包括：

第二确定单元，用于依据所述对象的关键点在对象坐标系中的坐标与所述对象的二维姿态信息的几何关系，确定相机坐标系与所述对象坐标系之间的转换关系；

所述获取单元获取的图像中对象的二维姿态信息包括：所述图像中能够包围所述对象的最小二维矩形框；所述获取单元，进一步获取所述对象绕相机坐标系旋转的角度yaw；

所述转换关系包括所述对象坐标系到相机坐标系的位置平移向量t，所述第二确定单元，具体执行：

所述第二确定单元，还具体执行：针对所述最小二维矩形框的各边，利用所述R和相机内部参数构建4组方程，每组方程反映落在所述最小二维矩形框的关键点与二维矩形框的位置关系；

利用最小二乘法求解所述4组方程，确定所述t。

9.根据权利要求8所述的装置，其特征在于，该装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述获取单元获取的图像中对象的二维姿态信息包括：所述对象的关键点在所述图像上的投影坐标。

11.根据权利要求8所述的装置，其特征在于，

12.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5和7中任一所述的方法。

13.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5和7中任一所述的方法。