CN112857215B

CN112857215B - 一种基于正二十面体的单目6d位姿估计方法

Info

Publication number: CN112857215B
Application number: CN202110023412.7A
Authority: CN
Inventors: 孙昊; 段伦辉; 崔睿; 吴梦坤; 谭英伦
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2022-02-08
Anticipated expiration: 2041-01-08
Also published as: CN112857215A

Abstract

本发明公开了一种基于正二十面体的单目6D位姿估计方法。本方法将ArUco码与正二十面体相结合，再使用单目相机采集被ArUco码标记的正二十面体图像，计算ArUco码的中心点的空间三维坐标，获得其内切球的稀疏点云，进而利用多元非线性拟合以及迭代最近点算法比对相机坐标处的虚拟正二十面体，进而计算出当前正二十面体的空间位移量以及旋转角度，间接计算出被测物体的位姿。本方法克服了现有方法对光照、环境及设备的高要求，检测迅速，提升了稳定性；不需要在前期投入大量的精力进行模板采集或模型训练，显著降低了位姿估计成本，保证了位姿估计精度并加强通用性，并且能够进行物体大幅度运动的位姿估计。

Description

一种基于正二十面体的单目6D位姿估计方法

技术领域

本发明属于图像识别位姿检测领域，具体是一种基于正二十面体的单目6D位姿估计方法。

背景技术

目标的位姿估计无论是在生产还是生活方面都扮演者重要的角色，是实现机器人运动灵活有效的前提。目前工业自动化行业发展迅猛，对机器人的状态进行实时检测并反馈的要求也不断提高，而基于视觉的目标位姿估计对机器人性能的提高有重要意义。单目视觉***仅使用一台相机，结构简单成本低廉，应用比较广泛。目前目标的位姿估计的主要方法有：

文献《LEPETIT V,PILET J,FUA P.Point matching as a classificationproblem for fast and robust object pose estimation[C]//Proceedings of the2004IEEE Computer Society Conference on Computer Vision and PatternRecognition,2004.CVPR 2004.:volume 2.IEEE,2004:II-II.》中采用基于特征点的位姿估计方法，该方法通过使用单目或多目相机进行图像内特征点的挖掘，并匹配不同图像间相似的特征点，根据特征点的运动估计目标的姿态变化。但是基于特征点的位姿估计方法极易受到光照与环境的影响，进而导致特征点跟踪丢失的情况，造成目标位姿估计质量下降。

文献《PAVLAKOS G,ZHOU X,CHAN A,et al.6-dof object pose from semantickeypoints[C]//2017IEEE international conference on robotics and automation(ICRA).IEEE,2017:2011-2018.》中采用基于模板的方法，通过构建待检测目标的二维或者三维模板，通过比对当前目标的实际位姿图像与模板的关系，寻找与实际位姿最接近的模板，估计出目标当前的位姿。但是这种方法需要在前期构建大量的二维、三维映射的模板匹配库，工作量庞大，结果精度依赖于模板匹配库的大小，并且一个模板库只适用于单一物体的位姿估计，无法满足通用性。

使用基于深度学习的方法，近年来深度学习的应用非常广泛，通过训练深度神经网络并构建损失函数以达到对图像中的物体进行位姿识别的效果。文献《REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time objectdetection[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:779-788.》中采用YOLO网络，通过图像中目标二维边框恢复其位姿，但是基于深度学习的方法需要大量的样本资源来构建大量的样本数据并进行真实位姿的标注，并需要大量计算资源进行网络的训练，难以控制成本，且大多为针对性的开发，无法满足通用性。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于正二十面体的单目6D位姿估计方法。

本发明解决所述技术问题的技术方案是，提供一种基于正二十面体的单目6D位姿估计方法，其特征在于，该方法包括以下步骤：

第一步、使用ArUco码对正二十面体进行标记，得到ArUco码标记的正二十面体；标定单目相机，再通过标定后的单目相机观测ArUco码标记的正二十面体；

第二步，分别对当前帧和初始帧中所有观测到的若干个ArUco码进行定位，再分别获得当前帧和初始帧中所有观测到的ArUco码的编码id_i,i＝1,2,3,...,n和ArUco码中心点的空间坐标A_i(x_i,y_i,z_i),i＝1,2,3,...,n，n表示某一帧观测到的ArUco码的数量；

第三步、对第二步得到的当前帧ArUco码中心点的空间坐标进行多元非线性拟合计算出当前帧正二十面体内切球球心坐标作为当前帧正二十面体体心的空间坐标t₀，对初始帧ArUco码中心点的空间坐标进行多元非线性拟合计算出初始帧正二十面体内切球球心坐标作为初始帧正二十面体体心的空间坐标t_O；再通过公式t_rel＝t₀-t_O求得当前帧正二十面体体心相对于初始帧的相对空间坐标t_rel；

在相机坐标系原点处构建一个虚拟正二十面体，虚拟正二十面体体心与相机坐标系原点重合，再使用ArUco码对虚拟正二十面体进行标记并得到虚拟正二十面体所有ArUco码的编码及其中心点的空间坐标A_Wi(x_Wi,y_Wi,z_Wi,id_Wi),i＝1,2,3,...,20；再将第二步得到的当前帧ArUco码中心点的空间坐标及其编码与A_Wi(x_Wi,y_Wi,z_Wi,id_Wi),i＝1,2,3,...,20通过迭代最近点方法计算出当前帧正二十面体的旋转矩阵R，将初始帧ArUco码中心点的空间坐标及其编码与A_Wi(x_Wi,y_Wi,z_Wi,id_Wi),i＝1,2,3,...,20通过迭代最近点方法计算出初始帧正二十面体的旋转矩阵R_O，再通过公式

计算得到当前帧正二十面体相对于初始帧的相对旋转矩阵R_rel；

再根据相对旋转矩阵R_rel和相对空间坐标t_rel，得到当前帧正二十面体相对于初始帧正二十面体的位姿矩阵T_rel：

式(2)中，SE(3)表示矩阵的属性；

第四步、首先构建被测物体坐标系，将正二十面体固定于被测物体上，并计算正二十面体相对于被测物体的相对空间坐标t_ref和相对旋转矩阵R_ref，得到正二十面体相对于被测物体的位姿矩阵T_ref：

则被测物体的相对位姿矩阵T：

得到当前帧被测物体相对于初始帧的空间姿态变化。

与现有技术相比，本发明有益效果在于：

(1)本方法创造性地将ArUco码与正二十面体相结合，将位姿识别从二维标签识别扩展为对三维空间体进行识别，大幅度提升了位姿识别的性能，再使用单目相机采集被ArUco码标记的正二十面体图像，利用PnP算法计算ArUco码的中心点的空间三维坐标，获得其内切球的稀疏点云，进而利用多元非线性拟合以及迭代最近点算法比对相机坐标处的虚拟正二十面体，将位置求解和旋转矩阵求解问题转化为优化问题，进而计算出当前正二十面体的空间位移量以及旋转角度，间接计算出被测物体的位姿。

(2)本方法克服了现有方法对光照、环境及设备的高要求，检测迅速，提升了稳定性，平均每帧图像识别时间约为10ms左右；不需要在前期投入大量的精力进行模板采集或模型训练，显著降低了位姿估计成本，保证了位姿估计精度并加强通用；使用了三维物体作为标志，能够进行空间内物体大幅度运动的位姿估计。

(3)本发明采用的正二十面体是空间面数最多的正多面体，它是本发明能够实现空间任意角度以及大幅度运动位姿识别的重要因素，与其他正多面体相比具有更高的精度。

(4)相较于基于特征点的方法，本发明采用单目相机识别ArUco码的方法，克服了其对光照、环境等因素的敏感程度，可以在多数环境下稳定运行。

(5)相较于基于模板的方法，本发明使用正二十面体间接测量目标位姿，通用性较强，并且不需要构建大量的模板库，节省内存空间与工作量。

(6)相较于基于深度学习的方法，本发明算法不需要相对较强的硬件性能，节省成本，满足通用性。

附图说明

图1为本发明的ArUco码标记的正二十面体的示意图；

图2为本发明的正二十面体及其内切球的示意图；

图3为本发明的虚拟正二十面体与ArUco码标记的实际正二十面体的位置关系示意图。

具体实施方式

下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明，不限制本申请权利要求的保护范围。

本发明提供了一种基于正二十面体的单目6D位姿估计方法(简称方法)，其特征在于，该方法包括以下步骤：

第一步、使用ArUco码对正二十面体进行标记，得到ArUco码标记的正二十面体(如图1所示)；标定单目相机，再通过标定后的单目相机观测ArUco码标记的正二十面体；

优选地，第一步中，使用ArUco码对正二十面体进行标记的过程为：使用OpenCV图像处理库生成20个ArUco码，将20个ArUco码按编码顺序分别贴附于正二十面体的20个面上，且ArUco码的几何中心与其贴附的面的几何中点重合。

优选地，第一步中，单目相机的标定使用棋盘网格标准标定板，并使用OpenCV图像处理库进行相机内部参数标定，生成相机内参矩阵K；

所述相机内参矩阵K为将空间内坐标转化为平面坐标的矩阵，标准化公式为：

式(1)中，f_x、f_y为相机的焦距参数；c_x、c_y为像素的平移量。

第二步，使用图像处理算法分别对当前帧和初始帧中所有可观测到的若干个ArUco码进行定位，再使用图像处理算法分别获得当前帧和初始帧中所有观测到的ArUco码的编码id_i,i＝1,2,3,...,n以及使用位姿计算方法获得当前帧和初始帧中所有观测到的ArUco码中心点的空间坐标A_i(x_i,y_i,z_i),i＝1,2,3,...,n，n表示某一帧观测到的ArUco码的数量；

当前帧是正二十面体当前所在位置的图像，初始帧是单目相机拍摄的正二十面体初始位置的图像；

优选的，第二步中，ArUco码的定位过程是：对单目相机采集到的图像依次进行灰度处理、中值滤波及自适应阈值分割，从分割后的图像中提取符合要求的候选区域。

优选的，第二步中，ArUco码的编码的获得：首先对候选区域应用透视变换获得规范正方形标记，分离黑白色位，并根据标记大小分为不同的单元格；再根据每一个单元格上数量最多的像素所对应的颜色来确定该单元格的颜色，最后根据颜色转化为二进制数值以确定该标记的编码。

优选的，第二步中，ArUco码中心点的空间坐标的获得：根据候选区域的四个角点信息求出ArUco码中心点的空间坐标，使用OpenCV框架中的ArUco库函数的位姿计算函数，将四个角点信息作为输入，使用PnP方式(即2D-3D匹配算法)即可得到ArUco码中心点在相机坐标系下的空间坐标。

第三步、对第二步得到的当前帧所有ArUco码中心点的空间坐标进行多元非线性拟合计算出当前帧正二十面体内切球球心坐标作为当前帧正二十面体体心的空间坐标t₀＝(x₀,y₀,z₀)，对初始帧ArUco码中心点的空间坐标进行多元非线性拟合计算出初始帧正二十面体内切球球心坐标作为初始帧正二十面体体心的空间坐标t_O＝(x_O,y_O,z_O)；再用当前帧正二十面体体心的空间坐标t₀＝(x₀,y₀,z₀)减去初始帧正二十面体体心的空间坐标t_O＝(x_O,y_O,z_O)，通过公式t_rel(x,y,z)＝t₀(x₀,y₀,z₀)-t_O(x_O,y_O,z_O)求得当前帧正二十面体体心相对于初始帧的相对空间坐标t_rel；

在相机坐标系原点处构建一个虚拟状态的正二十面体，其与实际的正二十面体的位置关系如图3所示，虚拟正二十面体体心与相机坐标系原点Oc重合，再使用ArUco码对虚拟正二十面体进行标记并得到虚拟正二十面体所有ArUco码的编码及其中心点的空间坐标A_Wi(x_Wi,y_Wi,z_Wi,id_Wi),i＝1,2,3,...,20；再将第二步得到的当前帧ArUco码中心点的空间坐标及其编码A_i(x_i,y_i,z_i,id_i),i＝1,2,3,...,n与A_Wi(x_Wi,y_Wi,z_Wi,id_Wi),i＝1,2,3,...,20通过迭代最近点方法计算出当前帧正二十面体的旋转矩阵R，将初始帧ArUco码中心点的空间坐标及其编码与A_Wi(x_Wi,y_Wi,z_Wi,id_Wi),i＝1,2,3,...,20通过迭代最近点方法计算出初始帧正二十面体的旋转矩阵R_O，再通过公式

式(2)中，SE(3)表示李群，是一种数学符号表达，表示矩阵的属性；

优选地，第三步中，当前帧正二十面体体心的空间坐标的获得：由于ArUco码的几何中心与其贴附的面的几何中点重合，而正二十面体的内切球与正二十面体的交点正好位于正二十面体每个面的几何中心处(如图2所示)，所以能够将第二步得到的单目相机在当前帧观测到的正二十面体部分面上的每个ArUco码中心点的空间坐标A_i(x_i,y_i,z_i),i＝1,2,3,...,n视为当前帧正二十面体内切球球面点(x_i,y_i,z_i)的稀疏点云坐标；当单目相机获得了大于三个ArUco码中心点的空间坐标后即满足多元非线性拟合的数据条件(一般情况下，单目相机每次观测可以获得6-8个ArUco码中心点坐标，即每次观测均能够满足条件)，将当前帧正二十面体内切球球面点(x_i,y_i,z_i)与内切球半径视为参数，则内切球的标准方程为：

(x_i-x₀)²+(y_i-y₀)²+(z_i-z₀)²-R_内 ²＝0 (3)

式(3)中，R_内为正二十面体内切球半径，

a为正二十面体的棱长；

利用非线性最小二乘，对式(3)进行该球面多元非线性函数的球心拟合，构建损失函数如下：

由于多元非线性拟合对初始点要求较高，极容易陷入局部极小值中，因此利用已知球面点坐标(x_i,y_i,z_i)对内切球球心坐标生成一组多元非线性拟合的初始值R_初：

再将R_初代入式(4)中获得损失函数J的一个值，随后不断更改R_初的值使得式(4)中损失函数J的值不断减小，经过多次迭代求解后可以获得一组使得损失函数J最小的(x₀,y₀,z₀)即为当前帧内切球球心坐标(即当前帧正二十面体体心在相机坐标系下的空间坐标t₀＝(x₀,y₀,z₀))。

优选地，第三步中，初始帧正二十面体体心的空间坐标的获得：将第二步得到的单目相机在初始帧观测到的正二十面体部分面上的每个ArUco码中心点的空间坐标视为初始帧正二十面体内切球球面点的稀疏点云坐标，与当前帧正二十面体体心的空间坐标的获得同理，即可得到初始帧正二十面体体心在相机坐标系下的空间坐标t_O＝(x_O,y_O,z_O)。

优选地，第三步中，当前帧正二十面体的旋转矩阵的获得：

搜索A_Wi中与第二步得到的当前帧实际正二十面体的ArUco码的编码对应的虚拟正二十面体的ArUco码的编码，将编码相同的进行匹配，进而获得空间中的一组匹配点：

(A_Wi,A_i),i＝1,2,3,...,n (6)

该组匹配点由实际正二十面体上观测到的ArUco码中心点的空间坐标与虚拟正二十面体上与之对应的ArUco码中心点的空间坐标组成，通过式(7)分别将其去质心化(即将实际正二十面体上观测到的ArUco码中心点的空间坐标与虚拟正二十面体上与之对应的ArUco码中心点的空间坐标的质心均平移至原点处)：

得到的q_i为实际正二十面体ArUco码中心点的空间坐标的去质心点，q_i'为虚拟正二十面体ArUco码中心点的空间坐标的去质心点，进而得到q_i和q_i'的关系如下：

定义误差项：

根据式(9)求取使得误差项E最小的当前帧正二十面体的旋转矩阵R，式(9)中第一项

与优化目标无关，第二项中R^TR＝I亦与优化目标无关，则误差项变为：

式(10)中，tr表示矩阵的迹；

为求解式(10)中的优化目标R，定义矩阵：

对式(11)中的W进行奇异值分解，得到：

W＝UΣV^T (12)

式(12)中，Σ为W的特征值矩阵，U与V为对角矩阵，则当前帧正二十面体的旋转矩阵R为：

R＝UV^T (13)。

优选地，第三步中，初始帧正二十面体的旋转矩阵的获得：搜索A_Wi中与第二步得到的初始帧实际正二十面体的ArUco码的编码对应的虚拟正二十面体的ArUco码的编码，将编码相同的进行匹配，与当前帧正二十面体的旋转矩阵的获得同理，即可获得初始帧正二十面体的旋转矩阵R_O。

第四步、根据正二十面体与被测物体的空间相对位置关系间接计算出被测物体的6D位姿。

优选地，第四步具体是：首先构建被测物体坐标系，将正二十面体固定于被测物体上，并计算正二十面体与被测物体之间的相对位姿关系(即计算正二十面体相对于被测物体的相对空间坐标t_ref和相对旋转矩阵R_ref)，得到正二十面体相对于被测物体的位姿矩阵T_ref：

则被测物体的相对位姿矩阵T：

即得到当前帧被测物体相对于初始帧的空间姿态变化。

所述相机标定方法、ArUco码的生成方法、图像处理算法、位姿计算方法是本领域公知方法。

本发明未述及之处适用于现有技术。

Claims

1.一种基于正二十面体的单目6D位姿估计方法，其特征在于，该方法包括以下步骤：

式(2)中，SE(3)表示矩阵的属性；

第三步中，当前帧正二十面体的旋转矩阵的获得：

(A_Wi,A_i),i＝1,2,3,...,n (6)

该组匹配点由实际正二十面体上观测到的ArUco码中心点的空间坐标与虚拟正二十面体上与之对应的ArUco码中心点的空间坐标组成，通过式(7)分别将其去质心化：

定义误差项：

式(10)中，tr表示矩阵的迹；

为求解式(10)中的优化目标R，定义矩阵：

对式(11)中的W进行奇异值分解，得到：

W＝UΣV^T (12)

R＝UV^T (13)

则被测物体的相对位姿矩阵T：

得到当前帧被测物体相对于初始帧的空间姿态变化。

2.根据权利要求1所述的基于正二十面体的单目6D位姿估计方法，其特征在于，第一步中，使用ArUco码对正二十面体进行标记的过程为：使用OpenCV图像处理库生成20个ArUco码，将20个ArUco码按编码顺序分别贴附于正二十面体的20个面上，且ArUco码的几何中心与其贴附的面的几何中心重合。

3.根据权利要求1所述的基于正二十面体的单目6D位姿估计方法，其特征在于，第一步中，单目相机的标定使用棋盘网格标准标定板，并使用OpenCV图像处理库进行相机内部参数标定，生成相机内参矩阵K；

4.根据权利要求1所述的基于正二十面体的单目6D位姿估计方法，其特征在于，第二步中，ArUco码的定位过程是：对单目相机采集到的图像依次进行灰度处理、中值滤波及自适应阈值分割，从分割后的图像中提取符合要求的候选区域。

5.根据权利要求4所述的基于正二十面体的单目6D位姿估计方法，其特征在于，第二步中，ArUco码的编码的获得：首先对候选区域应用透视变换获得规范正方形标记，分离黑白色位，并根据标记大小分为不同的单元格；再根据每一个单元格上数量最多的像素所对应的颜色来确定该单元格的颜色，最后根据颜色转化为二进制数值以确定该标记的编码。

6.根据权利要求4所述的基于正二十面体的单目6D位姿估计方法，其特征在于，第二步中，ArUco码中心点的空间坐标的获得：根据候选区域的四个角点信息求出ArUco码中心点的空间坐标，使用OpenCV框架中的ArUco库函数的位姿计算函数，将四个角点信息作为输入，使用PnP方式即可得到ArUco码中心点在相机坐标系下的空间坐标。

7.根据权利要求1所述的基于正二十面体的单目6D位姿估计方法，其特征在于，第三步中，当前帧正二十面体体心的空间坐标的获得：将第二步得到的当前帧观测到的正二十面体部分面上的ArUco码中心点的空间坐标视为当前帧正二十面体内切球球面点(x_i,y_i,z_i)的稀疏点云坐标；当单目相机获得了大于三个ArUco码中心点的空间坐标后，将当前帧正二十面体内切球球面点(x_i,y_i,z_i)与内切球半径视为参数，则内切球的标准方程为：

(x_i-x₀)²+(y_i-y₀)²+(z_i-z₀)²-R_内 ²＝0 (3)

式(3)中，R_内为正二十面体内切球半径，

a为正二十面体的棱长；

再将R_初代入式(4)中获得损失函数J的一个值，随后不断更改R_初的值使得式(4)中损失函数J的值不断减小，经过多次迭代求解后可以获得一组使得损失函数J最小的(x₀,y₀,z₀)即为当前帧内切球球心坐标。