CN115147490A

CN115147490A - 一种6d位姿估计数据集制作方法、装置及***

Info

Publication number: CN115147490A
Application number: CN202210873181.3A
Authority: CN
Inventors: 王飞; 芦明磊; 郭宇; 党政; 张雪涛; 邱钧宁; 冯新健
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-10-04

Abstract

本发明公开了一种6D位姿估计数据集制作方法、装置及***，属于人工智能领域，包括获取制作目标物体的信息；将制作目标物体的信息构建为转换矩阵，结合若干个物体在n个场景下拍摄的数据，生成目标物体的三维模型；采集若干个物体在目标物体的三维模型场景下的图像信息，并通过机械视觉联合定位算法进行自动化6D位姿标注。优化了现有的数据集进行建模的方法，大大降低了重建模型的误差。通过将制作目标物体的信息构建为转换矩阵，可提升三维模型精度和纹理染色质量，机械视觉联合定位算法进行自动化6D位姿标注，在实现自动标注的同时提高标注精度，获得更高质量的数据集。

Description

一种6D位姿估计数据集制作方法、装置及***

技术领域

本发明属于人工智能领域，具体涉及一种6D位姿估计数据集制作方法、装置及***。

背景技术

6D位姿估计是计算机视觉中的一个重要的研究领域，作为一个基础性问题，求解出物体的三维位置信息和三维姿态信息，可以广泛应用于诸多现实任务，如机器人控制、增强现实、自动驾驶。由于RGB相机作为被动式传感器，相比采用RGBD作为输入的6D位姿估计方法，在成本控制、应用场景广泛性上具有巨大的优势，得到了越来越多的关注。

随着深度学习技术的发展，特别是卷积神经网络的兴起，利用RGB、depth、RGB-D等输入进行位姿估计的算法精度得到了不断提升，如Segmentation-Driven、PVNet等，它们在计算速度和精度上都超越了传统的位姿估计方法。

但是深度学习算法依赖于数据集的训练，数据集的质量通常决定了算法可以达到的精度上限。使用更精确的注释数据集，可以进一步提高算法精度。但是制作一个高精度的6D位姿数据集不是一项简单的任务，需要先对物体进行三维重建，再在各个场景中获取每帧的深度图，再利用模型和每帧深度图进行位姿真值计算，整个过程的精度受到标定误差、深度相机误差等多方面因素影响。无论是目前主流使用的数据集YCB、LineMod，还是5-10年前制作的数据集，其所用的深度传感器还是Kinect、PrimeSense这类过时的传感器，这些传感器的分辨率低、精度差，采集的深度值不稳定且存在频繁的跳变，这就造成了制作的数据集的三维模型质量差、6D位姿真值标注不准。算法精度较差时，此类数据集对算法的影响不明显，但随着这几年6D位姿估计算法的发展、精度的提升，制作一个更高精度的数据集的需求越来越急迫。而近些年来，结构光、TOF等技术飞速发展，大量研发新型深度传感器的公司纷纷出现，新型深度相机在分辨率、精度上都得到了明显的提高，也为制作一个更高精度的数据集提供了设备支持。

然而，现有的数据集存在着各种不足。Bigbird应用了KinectV1传感器，通过多个深度相机和多个RGB相机进行联合标定组成多相机***，将多视点拍摄到的点云数据进行融合、染色，通过转台旋转物体进行多视点拍摄，可以获得稠密的物体点云，再通过泊松重建获得物体的mesh信息，这种方法重建的物体表面纹理、模型拐角处细节很差。YCB数据集沿用了Bigbird制作模型的方法，但利用高分率拍摄的RGB图片和PS技术对3D模型表面的贴图进行了优化，使得纹理细节完整丰富。但这种方法标注的人力成本较高，需要专业人员进行手动逐个模型优化，无法自动化完成。LineMod数据集利用了ArUco标定板得到帧之间的相对位姿关系，使得位姿真值标注相对准确，但其三维重建的物体模型精度较差，表面纹理丢失严重。YCB-M数据集在采集数据集时应用了多种传感器进行了数据采集，然而这个数据集应用的模型均为YCB中旧有的模型。T-LESS数据集主要针对无纹理的物体，由于采用的物体都为工业零件，可以获取CAD模型，通过对比重建模型和CAD模型之间的精度，T-LESS数据成为6D位姿数据集中第一个量化了重建精度的数据集。但这个数据集模型的重建精度较差，特别是在模型的细节边缘处，重建精度差、细节丢失严重。HomebrewedDB数据集采用Artec Eva手持式三维扫描仪进行了33个物体的重建，但是这种三维扫描器的价格昂贵，同时其并未量化重建误差。同时采用Carmine深度相机和Kinect V2深度相机进行数据集采集，并给出一种优化深度相机存在的***误差的方法，使得数据标注更为精确。但是由于其帧间的位姿值的精度依赖于ArUco标定板位姿估计的精度，在相机与标定板平面有较大夹角时存在明显的误差，因此采用了基于二维图像边缘的ICP算法进行了位姿优化。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种6D位姿估计数据集制作***设计方法、装置及***，以解决现有技术中数据集模型重建的物体模型精度差、表面纹理、模型拐角处细节差；标注的人力成本较高，无法自动化完成；价格昂贵，存在明显误差的问题。

为了达到上述目的，本发明采用以下技术方案予以实现：

本发明公开了一种6D位姿估计数据集制作方法，包括：

获取制作目标物体的信息；

将制作目标物体的信息构建为转换矩阵，结合若干个物体在n个场景下拍摄的数据，生成目标物体的三维模型；

采集若干个物体在目标物体的三维模型场景下的图像信息，并通过机械视觉联合定位算法进行自动化6D位姿标注。

优选地，获取制作目标物体的信息为***性标定包括深度相机与RGB相机的标定、场景各个位置标定以及深度相机***误差标定。

优选地，深度相机与RGB相机的标定过程为：

S1：利用深度相机专门配备的标定软件进行深度相机的标定，得到深度相机的内参；

S2：深度相机和RGB相机同时拍摄n张标定板不同位姿的图片，利用OpenCV对RGB相机内参和外参进行计算，并利用PNP算法计算每张图下深度相机的外参值；

S3：采用深度相机外参集合/RGB相机外参集合，得到两个相机间的转换矩阵集合：

其中，Γ_rgb为RGB相机外参集合，Γ_depth为深度相机外参集合，Γ_tran为两个相机间的转换矩阵集合，

为各场景中RGB相机的外参，

为各场景中深度相机的外参，

为各场景中RGB相机和深度相机之间的转换矩阵。

优选地，场景各个位置的标定过程为：

S4:拍摄对应的棋盘格标定板图片，采用PNP的方法计算出此时相机坐标系和基准坐标系之间的转换矩阵；

S5：将各个场景下采集的点云从相机坐标系转换到基准坐标系，实现多视点点云融合。

优选地，深度相机***误差的标定过程为：

S6：将标定板中心点设置为基准坐标系原点，通过PNP算法将场景点云转换到基准点云；

S7：矫正转换到基准点云的场景点云。

优选地，将制作目标物体的信息构建为转换矩阵，结合若干个物体在n个场景下拍摄的数据，依次通过点云预处理、多视点点云融合、完整点云拼接、三维模型生成、纹理信息优化实现模型生成目标物体的三维模型。

优选地，点云预处理过程为：

1)采用粗糙的矩形包围框进行基于空间坐标的滤波，可以显示减少无效点数量；

2)利用基于k近邻平均距离方差的原理进行滤波；

完整点云拼接过程为：

3)对物体在正放和倒放状态下的点云进行分别融合；

4)将两个点云进行拼接获取完整的点云模型；

纹理信息优化拼接过程为：

5)通过制作目标物体的信息构建的转换矩阵计算出物体模型从基准坐标系到各场景下的RGB相机坐标系的转换矩阵；

6)通过RGB相机坐标系的转换矩阵计算得到该场景下属于物体三维模型的可见点在高分辨率RGB图像上投影的2D坐标点；

7)利用双线性插值的方式求解出三维点对应的RGB值，通过多个可见视点融合，优化物体表面纹理信息并且采用二次染色、光照补偿的方法进行纹理增强。

优选地，所述通过机械视觉联合定位算法进行自动化6D位姿标注为采用机械臂进行拍摄，实现自动化位点生成；且机械视觉联合定位为：在拍摄任务前，通过对机械臂进行手眼标定，得到相机坐标系到机械臂末端的转换矩阵

通过读取机械臂工具包得到机械臂末端到机械臂基坐标系的转换矩阵

得到机械臂不同位置

相机坐标系之间的转换关系，根据相机和末端的相对位置固定，

则有下列公式：

通过该公式计算得到帧与帧之间的转换矩阵

利用标定板进行视觉定位，实现帧与帧之间的位姿转换，从而进行自动化6D位姿标注。

一种6D位姿估计数据集制作方法的装置，包括：深度相机、机械臂、RGB相机和转台；机械臂设置在用于承载目标物体的转台一侧，RGB相机和深度相机均设置在机械臂上。

一种6D位姿估计数据集制作***，包括：

信息获取模块，用于获取制作目标物体的信息；

模型构建模块，用于将制作目标物体的信息构建为转换矩阵，结合若干个物体在n个场景下拍摄的数据，生成目标物体的三维模型；

位姿标注模块，用于采集若干个物体在目标物体的三维模型场景下的图像信息，并通过机械视觉联合定位算法进行自动化6D位姿标注。

与现有技术相比，本发明具有以下有益效果

本发明公开了一种6D位姿估计数据集制作方法，优化了现有的数据集进行建模的方法，大大降低了重建模型的误差。通过将制作目标物体的信息构建为转换矩阵，可提升三维模型精度和纹理染色质量，机械视觉联合定位算法进行自动化6D位姿标注，在实现自动标注的同时提高标注精度，获得更高质量的数据集。

进一步地，用***性标定、深度相机参数矫正优化，保证对各部分点云的高匹配度融合，保证后续三维重建步骤误差远小于现有的方法，可以得到高精度的模型；

进一步地，通过基于双线性插值的二次染色手段使得重建后的模型保留了相当丰富的纹理信息，同时采用的光照一致性补偿保证了表面纹理的亮暗一致，该方法相比其他方法可以保证对物体的高保真还原，并且全部数据由程序处理，无需人工优化；

本发明使用深度相机，机械臂，RGB相机，转台搭建了一种高精度的自动化6D位姿估计数据集制作装置。优化了现有的数据集进行建模的方法，大大降低了重建模型的误差。首次采用机械臂定位与视觉定位融合的方法进行标注，有利于获得精确的6D位姿真值标注。自动化程度高，全流程快速高效，并且避免了人工操作造成的数据分布不均衡、产生大量冗余信息的弊端。

附图说明

图1为本发明的实施流程图；

图2为本发明的6D位姿估计数据集制作装置结构示意图。

其中，1-相机；2-机械臂；3-目标物体；4-转台。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明公开的一种6D位姿估计数据集制作方法，包括：

获取制作目标物体的信息；

参见图1，为本发明的实施流程图，本发明所公开的一种6D位姿估计数据集制作方法，包括以下步骤：

步骤一：***性标定，包括深度相机与RGB相机的标定、场景各个位置标定以及深度相机***误差标定：由于结构光相机的镜头是低分辨率、颜色失真明显的工业相机，为了对物体进行不失真重建，采用了高分辨RGB相机进行染色，制作了一个钢制接连接件来固定这两个相机，以确保在数据采集过程中这两个相机的相对位置不会改变，两个相机之间的坐标转换矩阵

只需一次校准即可。在***投入使用前，需要对每个拍摄位置的位姿进行计算，并对相机内参等***参数进行测量计算；

步骤二：模型生成：对于每个物体，获取其在n个场景下(物体正放倒放各n/2个场景)拍摄的数据，其中每个场景包括深度相机的RGB图像、深度相机的深度图像、高分辨RGB相机的RGB图像，另外通过***性标定得到的相机内参K_rgb和K_depth、两个相机间转换矩阵

各场景相对基准坐标系转换矩阵集合Γ_depth，接着通过点云预处理、完整点云拼接、三维模型生成、纹理信息优化等流程实现模型生成；

步骤三：图像采集与真值标注***：在获得物体的三维模型后，通过将一个或者多个物体摆放到拍摄场景中，采集该场景下的图像信息，并通过机械视觉联合定位算法进行自动化6D位姿标注；

步骤一中深度相机与RGB相机的标定过程为：

首先利用深度相机专门配备的标定软件进行深度相机的标定，得到其内参。再让深度相机和RGB相机同时拍摄n张标定板不同位姿的图片，首先利用OpenCV对RGB相机内外参进行计算，在利用PNP算法计算每张图下深度相机求解出的外参值，这里定义Γ_rgb为RGB相机外参集合，

Γ_depth为深度相机外参集合，

由于两个相机之间的相对位置关系是确定的，理论上计算所得的每个

应该相等，但由于噪声的影响，不同场景下的计算结果距离真值有一个极小的偏差。为此构造了一个优化问题来计算得到最终的

这里定义两个相机间的转换矩阵集合

转换矩阵可以看成是旋转矩阵r∈R^3×3和平移矩阵t∈R^3×1组合而成，平移矩阵具有可加性，可以直接通过将求解出的多个平移矩阵取平均得到，即：

而对于旋转矩阵r∈SO(3)，其存在内部约束为单位正交矩阵，不具备可加性，直接用类似计算平移矩阵的方法求平均虽然从数值上具有合理性，但是得到的值不属于SO(3)，这个问题目前不存在解析解，可以通过数值求解的方式计算。由于最优解是在黎曼度量下到其他值距离之和最小，可以通过优化下面公式得到最优解：

可以通过将用四元数表示旋转，然后直接用四元数的四个参数相加后平均的方法求出一个较好的初值，利用以下公式迭代求解出最优解，公式如下：

重复迭代上述两步即可求解得到最优解，在实际问题中，在迭代步长小于10^-6后停止迭代，得到最终的

进而得到优化后的

步骤一中场景各个位置的标定过程为：

通过拍摄对应的棋盘格标定板图片，采用PNP的方法计算出此时相机坐标系和基准坐标系之间的转换矩阵。为了方便后续计算，将基准坐标系的原点定义在棋盘格标定板的中心。

通过将各个场景下采集的点云从相机坐标系转换到基准坐标系，可以实现多视点点云融合，由于采集设备问题，会存在大量噪点，为了加速点云处理过程，定义了一个粗糙的包围盒来滤波越界部分点云。利用棋盘格的角点可以粗略估计出包围盒的长和宽，并用尺子给出一个粗略的高度估计。

步骤一中深度相机***误差的标定过程为：

将标定板中心点设置为基准坐标系原点，通过PNP算法将场景点云转换到基准点云后，坐标系XOY平面应该和棋盘点云重合，考虑到***的噪声，各个场景的点云转换到基准坐标系后，应该以近似高斯分布的形式分布在XOY平面的附近，而实际情况为均匀分布在XOY平面上方。在实践中证实了，采用一阶多项式的形式作为深度值的校正因子具有更好的效果。

设校正方程为d_c＝α·d+β，单位为米。利用在深度相机与RGB相机的标定部分深度相机拍摄的n组图像、场景各个位置的标定部分深度相机拍摄的m组图像，每组图像包括RGB图像和深度图像，修正系数的计算如下所示：

a)通过每个相机标定位置下的深度图，可以得到棋盘格标定板的点云，利用RANSAC的方式拟合得到棋盘格平面ax+by+cz+d＝0，注意此时是在相机坐标系下，再利用棋盘格标定过程中得到的角点(x_c,y_c)和内参fx,fy,cx,cy，可得棋盘格角点的三维坐标(x,y,z)满足：

ax+by+cz+d＝0

联立方程即可解出三维坐标，通过得到棋盘格矩形四个角点的三维坐标，可以求解出标定板***四条边的长度l₁,l₂,l₃,l₄，再利用已知的棋盘格边长

可以得到在该场景下的

再利用n个α_i取平均得到α；

b)通过场景位姿标定，可以得到每个场景的转换矩阵，可以求解出基准坐标系原点从基准坐标系转换到该场景下的相机坐标系下的坐标(x′,y′,z′)，利用RANSAC的方式拟合得到棋盘格平面a′x+b′y+c′z+d′＝0，此时相机坐标原点到棋盘格平面距离

基准坐标系原点到棋盘格平面距离

利用上一步已经求解出α，可以列出下列公式：

d₁+d₂＝α·d₁+β_i

将每个场景下求解出的β_i取平均，得到最终的β。

步骤二中点云预处理过程为：

先采用粗糙的矩形包围框进行基于空间坐标的滤波，可以显示减少无效点数量。再利用基于k近邻平均距离方差的原理进行滤波，这种方法被证实相比基于空间相对距离的方法具有更好的适用性，大量异常值被滤除。

步骤二中完整点云拼接过程为：

在对物体在正放和倒放状态下的点云进行分别融合后，需要将两个点云进行拼接以获取完整的点云模型。在拍摄完正放状态后，操作尽量让物体以绕x轴旋转180度的方式改为倒放，因此在此步骤匹配的时候可以获得较为良好的初值，并且保证物体在深度相机中成像点不会发生太大的变化，使得两部分点云的重合度高。由于存在一部分具有形状对称性、但不具备纹理对称性的物体，仅依靠三维坐标信息无法得到精准的匹配，基于颜色的点云匹配算法细化的方式得到的结果最精准、鲁棒。同时，因为顶部和底部的部分在两个点云中不是同时存在，仅将中间部分用于拼接，匹配可以得到完整、清晰的点云。

步骤二中纹理信息优化拼接过程为：

拼接后的点云和其对应重建的三维模型都定义在物体正放状态下的基准坐标系中，通过标定得到的场景到基准坐标系转换矩阵、RGB相机和深度相机转换矩阵和物体正反点云的融合中得到的物体正反匹配之间的转换矩阵，可以计算出物体模型从基准坐标系到各场景下的RGB相机坐标系的转换矩阵，计算得到该场景下属于物体三维模型的可见点在高分辨率RGB图像上投影的2D坐标点，利用双线性插值的方式求解出三维点对应的RGB值，通过多个可见视点融合，可以显著改善物体表面纹理信息。

多视点融合过程中，对于同一像素点，可以得到其在不同相机视点下的相对位置不同，造成表面法向量和到点到相机光心法向量的夹角不同，造成了同一点在不同图像中对应位置的RGB值不同，通过光照均衡处理的方式，由于采样点离散、数量少，会造成颜色变暗并且物体表面出现明显的波纹，为了改善这一点用拟合函数的方式进行光照补偿处理，保证整体亮度更贴近真实物体并且表面的颜色更均衡。

对应于不同材质的物体，共有两种种光照模型，为Lambert模型和Phong模型：

Lambert漫反射模型，指光从一定角度入射后从该点向四面八方反射且各方向反射光强相同，入射角度越倾斜损失的能量越大，反射光强度公式为：

L_d＝k_d(I/r²)max(0,θ)

k_d为漫反射系数，I为入射光强度，θ为入射角。

Phong镜面反射模型，镜面反射模型需要考虑反射角度与观察者角度夹角，反射光强度公式为：L_s＝k_s(I/r²)max(0,cosα)^p，k_s为镜面反射系数，I为入射光强度，α为反射角与观察角的夹角，p为衰减系数。

现实中的物体不可能为理想的镜面反射或者漫反射，是集中模型的叠加，反射光强度公式为：L＝k_d(I/r²)max(0,θ)+k_s(I/r²)max(0,cosα)^p

但是在现实中，受到设备的限制，无法测量物体表面每个点的反射系数，同时由于光照环境复杂，无法精准的计算出公式中的值，但这个公式可以给后续拟合函数部分提供一个数学模型。为了简化问题，将拟合公式定义为：k(α)＝a+q·(cosα)^p，其中k表示衰减比例，范围0到1之间，α表示该点法线与到相机方向向量所成夹角。利用边界条件，α＝0时k＝1，即正对物体时没有衰减，可得：

a+q＝1 k(α)＝1-q+q·(cosα)^p

虽然存在边界条件α＝π/2时k＝0，但由于真实光照模型过于复杂，当夹角过大时曲线无法很好拟合，因此在实际运算中也将夹角在n度以上的部分去除，不参与该点颜色的计算。对于n个点，每个点i有m_i个有效可见视点，通过优化下列损失函数：

可以显著消除光照不均衡的问题。

步骤三中机械视觉联合定位为：

在***投入拍摄任务前，通过对机械臂进行手眼标定，可以得到相机坐标系到机械臂末端的转换矩阵

通过读取机械臂工具包可以得到机械臂末端到机械臂基坐标系的转换矩阵

可以得到机械臂不同位置T^csm1、T^cam2相机坐标系之间的转换关系，根据相机和末端的相对位置固定，

则有下列公式：

通过该公式可以计算得到帧与帧之间的转换矩阵

同时，利用标定板可以进行视觉定位，实现帧与帧之间的位姿转换，设两帧图像中标定板在相机坐标系下相对于基准标定板坐标系的位姿分别为T₁、T₂，则：

同样可得到帧与帧之间的转换矩阵

为了量化对比机械定位误差和视觉定位误差，定义误差为每次定位中的棋盘格角点中四个顶点的平均位置误差，设在标定板基坐标系下，四个顶点的齐次坐标为

设对每个夹角θ下的第i张图片，棋盘格基坐标系和相机坐标系转换矩阵的真值和估计值分别为

和

通过手眼标定可以得到

和

在第i个随机位置，利用棋盘格定位可以得到相机坐标系到棋盘格坐标系的转换矩阵

利用机械臂工具箱得到

则计算得到误差为：

对于每一个位置下棋盘格的位姿估计值，若标定板无法给出估计则采用机械定位的估计值，若视觉、机械定位均有效，设估计位姿为

和

这里采用带有权重的位姿进行优化，利用R₂可以计算得到像平面和标定板平面的夹角θ，则：

公式没有数值解，利用类似3.1.2中的位姿联合优化的步骤进行求解：

r←r·exp(ω)

重复迭代上述两步求解得到最优解，在迭代步长小于x后停止迭代得到R。

通过优化，可以使得真值标注精度更高，在像平面和标定板平面夹角较小时，视觉定位更精准，在位姿优化中视觉估计值所占权重更大；在像平面和标定板平面夹角较大时，视觉定位误差大甚至失效，此时机械定位更精准，在位姿优化中视觉估计值所占权重更大。

步骤三中的自动化位点生成过程为：

采用机械臂在随机位置进行拍摄，这样一方面提高自动化程度，虽然整体拍摄时间较长但无需人实时操作，节约大量时间；一方面可以避免人主观因素对采集数据的分布产生影响，保证不同数据间差异大、覆盖范围广，让训练数据的效果更好。

参见图2，为本发明的6D位姿估计数据集制作装置结构示意图，包括：深度相机、机械臂2、RGB相机和转台4；机械臂2设置在用于承载目标物体的转台4一侧，RGB相机和深度相机均设置在机械臂上，相机1也可为RGB-D相机,设置在机械臂上，采用机械臂定位与视觉定位融合的方法进行标注，有利于获得精确的6D位姿真值标注。自动化程度高，全流程快速高效，并且避免了人工操作造成的数据分布不均衡、产生大量冗余信息的弊端。优化了现有的数据集进行建模的方法，大大降低了重建模型的误差。

本发明可通过多种编程语言来实现，例如C++、python、matlab等。本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种6D位姿估计数据集制作方法，其特征在于，包括：

获取制作目标物体的信息；

2.根据权利要求1所述的一种6D位姿估计数据集制作方法，其特征在于，获取制作目标物体的信息为***性标定包括深度相机与RGB相机的标定、场景各个位置标定以及深度相机***误差标定。

3.根据权利要求2所述的一种6D位姿估计数据集制作方法，其特征在于，深度相机与RGB相机的标定过程为：

为各场景中RGB相机的外参，

为各场景中深度相机的外参，

为各场景中RGB相机和深度相机之间的转换矩阵。

4.根据权利要求2所述的一种6D位姿估计数据集制作方法，其特征在于，场景各个位置的标定过程为：

5.根据权利要求2所述的一种6D位姿估计数据集制作方法，其特征在于，深度相机***误差的标定过程为：

S7：矫正转换到基准点云的场景点云。

6.根据权利要求1所述的一种6D位姿估计数据集制作方法，其特征在于，将制作目标物体的信息构建为转换矩阵，结合若干个物体在n个场景下拍摄的数据，依次通过点云预处理、多视点点云融合、完整点云拼接、三维模型生成、纹理信息优化实现模型生成目标物体的三维模型。

7.根据权利要求6所述的一种6D位姿估计数据集制作方法，其特征在于，点云预处理过程为：

2)利用基于k近邻平均距离方差的原理进行滤波；

完整点云拼接过程为：

3)对物体在正放和倒放状态下的点云进行分别融合；

4)将两个点云进行拼接获取完整的点云模型；

纹理信息优化拼接过程为：

8.根据权利要求1所述的一种6D位姿估计数据集制作方法，其特征在于，所述通过机械视觉联合定位算法进行自动化6D位姿标注为采用机械臂进行拍摄，实现自动化位点生成；且机械视觉联合定位为：在拍摄任务前，通过对机械臂进行手眼标定，得到相机坐标系到机械臂末端的转换矩阵

得到机械臂不同位置T^cam1、T^cam2相机坐标系之间的转换关系，根据相机和末端的相对位置固定，

则有下列公式：

通过该公式计算得到帧与帧之间的转换矩阵

9.根据权利要求1～8任意一项所述的一种6D位姿估计数据集制作方法的装置，其特征在于，包括：深度相机、机械臂(2)、RGB相机和转台(4)；机械臂(2)设置在用于承载目标物体的转台(4)一侧，RGB相机和深度相机均设置在机械臂上。

10.一种6D位姿估计数据集制作***，其特征在于，包括：

信息获取模块，用于获取制作目标物体的信息；