CN111354043A

CN111354043A - 一种基于多传感器融合的三维姿态估计方法及装置

Info

Publication number: CN111354043A
Application number: CN202010108437.2A
Authority: CN
Inventors: 蔡国榕; 吴则彪; 陈桂锟; 沈启金; 王宗跃; 吴云东; 徐焕
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-30

Abstract

本发明提出了一种基于多传感器融合的三维姿态估计方法及装置，该方法包括：获取被测对象的RGB图像，并提取FAST特征点以及进行特征点的跟踪；采集被测对象的IMU测量值，并积分得到当前时刻的被测对象的位置、速度和旋转；获取被测对象的深度图像，对所述深度图像进行处理得到迭代最近点；基于先验信息、迭代最近点、IMU测量值和视觉重投影构建目标函数；使用迭代法对所述目标函数求解最小值得到所述对象最优的位姿。本方法基于多种传感器进行姿态估计，并构建了用于姿态估计的目标函数，该目标函数使用最小二乘法进行求解，该函数的输入值通过滑动窗口进行输入，设置了滑动窗口的具体数目，降低求解时间，提高了位姿的估计精度。

Description

一种基于多传感器融合的三维姿态估计方法及装置

技术领域

本发明涉及三维重建技术领域，具体涉及一种基于多传感器融合的三维姿态估计方法及装置。

背景技术

姿态估计问题就是确定某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。在不同领域用于姿态估计的传感器是不一样的。

基于模型的方法通常利用物体的几何关系或者物体的特征点来估计。其基本思想是利用某种几何模型或结构来表示物体的结构和形状，并通过提取某些物体特征，在模型和图像之间建立起对应关系，然后通过几何或者其它方法实现物体空间姿态的估计。这里所使用的模型既可能是简单的几何形体，如平面、圆柱，也可能是某种几何结构，也可能是通过激光扫描或其它方法获得的三维模型。基于模型的姿态估计方法是通过比对真实图像和合成图像，进行相似度计算更新物体姿态。目前基于模型的方法为了避免在全局状态空间中进行优化搜索，一般都将优化问题先降解成多个局部特征的匹配问题，非常依赖于局部特征的准确检测。当噪声较大无法提取准确的局部特征的时候，该方法的鲁棒性受到很大影响。

基于学习的方法借助于机器学习(machine learning)方法，从事先获取的不同姿态下的训练样本中学习二维观测与三维姿态之间的对应关系，并将学习得到的决策规则或回归函数应用于样本，所得结果作为对样本的姿态估计。基于学习的方法一般采用全局观测特征，不需检测或识别物体的局部特征，具有较好的鲁棒性。其缺点是由于无法获取在高维空间中进行连续估计所需要的密集采样，因此无法保证姿态估计的精度与连续性。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种基于多传感器融合的三维姿态估计方法，该方法包括：

RGB图像获取步骤，使用图像传感器获取被测对象的RGB图像，并提取所述RGB图像的FAST特征点以及使用KLT稀疏光流法进行特征点的跟踪；

IMU测量值获取步骤，使用IMU传感器采集被测对象的IMU测量值，并对所述IMU测量值进行积分得到当前时刻的被测对象的位置、速度和旋转；

深度图像获取步骤，使用深度图像传感器获取被测对象的深度图像，使用迭代最近点(ICP)算法对所述深度图像进行处理得到迭代最近点；

目标函数构建步骤，基于先验信息、迭代最近点、IMU测量值和视觉重投影构建目标函数；

位姿估计步骤，使用迭代法对所述目标函数求解最小值得到所述对象最优的位姿。

更进一步地，所述方法还包括：回环检测步骤，检测当前帧是否发生回环，如果是，则执行全局的位姿图优化来矫正所述对象的定位轨迹，以消除累积误差。

更进一步地，所述目标函数为：

min_(R,t){PP+∑||D||²+∑||I||²+∑||V||²}；

通过最小二乘法求得一个最合适的运动参数：旋转参数

和位移参数

使四个残差项PP、∑||D||²、∑||I||²与∑||V||²的和的值最低，其中，PP表示先验信息的先验分布、D表示迭代最近点残差项、I表示所述对象的两帧之间位置、速度、旋转、陀螺仪偏差和加速度偏差的变化量的差、V表示重投影误差。

更进一步地，基于滑动窗口求解该最小二乘，滑动窗口内包含最小二乘法计算所需要的输入参数，每次最小二乘的除先验信息之外的误差项都由滑动窗口内的值提供。

更进一步地，基于以下条件确定RGB图像中的关键帧：

该帧的平均视差与上一帧关键帧的平均视差相比差值超过第一阈值；

或者，该帧跟踪的特征点数量小于第二阈值。

更进一步地，通过深度图像得到空间的几何结构，从而估计两帧之间的变换矩阵，迭代最近点(ICP)残差项D使用点到面的距离为：

D＝(T·P_j-P_i)·n_i

其中，P_j和P_i是上述深度图像中已匹配的三维点，n_i是上一帧对应的法向量，旋转参数

和位移参数

是两帧之间的运动参数；

重投影误差V作为视觉约束，并将其定义在单位球面的正切平面上：

其中，

是特征点经过刚体变换后三维点的单位向量的预测值，P是特征点由像素坐标经针孔相机模型反投影得到的三维点，

和

是P对应的切平面的任意两个正交基。

本发明还提出了一种基于多传感器融合的三维姿态估计装置，该装置包括：

RGB图像获取单元，用于使用图像传感器获取被测对象的RGB图像，并提取所述RGB图像的FAST特征点以及使用KLT稀疏光流法进行特征点的跟踪；

IMU测量值获取单元，用于使用IMU传感器采集被测对象的IMU测量值，并对所述IMU测量值进行积分得到当前时刻的被测对象的位置、速度和旋转；

深度图像获取单元，用于使用深度图像传感器获取被测对象的深度图像，使用迭代最近点(ICP)算法对所述深度图像进行处理得到迭代最近点；

目标函数构建单元，用于基于先验信息、迭代最近点、IMU测量值和视觉重投影构建目标函数；

位姿估计单元，用于使用迭代法对所述目标函数求解最小值得到所述对象最优的位姿。

更进一步地，回环检测单元，用于检测当前帧是否发生回环，如果是，则执行全局的位姿图优化来矫正所述对象的定位轨迹，以消除累积误差。

更进一步地，所述目标函数为：

min_(R,t){PP+∑||D||²+∑||I||²+∑||V||²}；

通过最小二乘法求得一个最合适的运动参数：旋转参数

和位移参数

更进一步地，基于以下条件确定RGB图像中的关键帧：

或者，该帧跟踪的特征点数量小于第二阈值。

D＝(T·P_j-P_i)·n_i

和位移参数

是两帧之间的运动参数；

其中，

和

是P对应的切平面的任意两个正交基。

本发明的技术效果在于：本发明的一种基于多传感器融合的三维姿态估计方法，该方法包括：使用图像传感器获取被测对象的RGB图像，并提取所述RGB图像的FAST特征点以及使用KLT稀疏光流法进行特征点的跟踪；使用IMU传感器采集被测对象的IMU测量值，并对所述IMU测量值进行积分得到当前时刻的被测对象的位置、速度和旋转；使用深度图像传感器获取被测对象的深度图像，使用迭代最近点(ICP)算法对所述深度图像进行处理得到迭代最近点；基于先验信息、迭代最近点、IMU测量值和视觉重投影构建目标函数；使用迭代法对所述目标函数求解最小值得到所述对象最优的位姿。本方法基于多种传感器采集运动对象的RGB图像、IMU测量值及深度图像进行姿态估计，并构建了用于姿态估计的目标函数，该目标函数使用最小二乘法进行求解，该函数的输入值通过滑动窗口进行输入，设置了滑动窗口的具体数目，降低求解时间，提高了位姿的估计精度，还设计了回环检测过程，在发生回环时执行全局的位姿图优化来矫正所述对象的定位轨迹，以消除累积误差，并具体设计相应的残差函数。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于多传感器融合的三维姿态估计方法的流程图。

图2是根据本发明的实施例的一种基于多传感器融合的三维姿态估计装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于多传感器融合的三维姿态估计方法，该方法包括：

RGB图像获取步骤S101，使用图像传感器获取被测对象的RGB图像，并提取所述RGB图像的FAST特征点以及使用KLT稀疏光流法进行特征点的跟踪；所述图像传感器可以是摄像头、摄像机等等，其可以采集被测对象的多帧图像。

每当一帧新的RGB图像到来时，***将自动提取FAST特征点，然后使用KLT稀疏光流法进行特征点的跟踪。为了保证跟踪的准确性又能保持比较小的计算代价，可以设置特征点跟踪的数量范围在100到300之间，在进行特征点跟踪的同时会检测新的特征点以维持跟踪特征点数量始终保持在一个阈值内。

IMU测量值获取步骤S102，使用IMU传感器采集被测对象的IMU测量值，并对所述IMU测量值进行积分得到当前时刻的被测对象的位置、速度和旋转；IMU传感器又称为惯性传感器，通过对离散的IMU测量值进行积分就可以得到当前时刻的位置、速度和旋转，可以给出当前搭载传感器的对象进行运动估计。

深度图像获取步骤S103，使用深度图像传感器获取被测对象的深度图像，使用迭代最近点(ICP)算法对所述深度图像进行处理得到迭代最近点；所述深度图像传感器可以是深度摄像机、深度摄像头，通过深度图像可以得到被测对象空间的几何结构，从而估计两帧之间的变换矩阵。

此外，***对于场景真实尺度的估计也通过深度图像完成。深度图像可以提供像素点相对于相机光心(Pinhole)的真实距离，由此便可通过针孔相机模型进行像素坐标和空间坐标的转化，从而恢复场景的真实尺度。

在S102中IMU测量值的获取频率虽高于S103中深度图像的获取频率，而通常情况下，由于IMU数据和图像数据需要对齐，在相邻两帧深度图像间隔的时间差内累计的IMU测量值不足以积分要求。本发明在连续四帧的图像采集间隔内积累IMU测量值，以避免由于IMU测量数据不够而导致的积分结果波动。而相隔四帧的深度图像处理得到迭代最近点具有更大的误差，本发明保留了相邻帧的迭代最近点计算结果，将连续四帧的迭代最近点计算结果进行合并作为相邻4帧的迭代最近点结果。

目标函数构建步骤S104，基于先验信息、迭代最近点、IMU测量值和视觉重投影构建目标函数。由于每种传感器都有其不适用的环境，但运动过程中的环境是无法人为控制的。为了提高在多场景下的鲁棒性，得到更精确的定位，本发明采用多传感器的进行数据的融合，提高位姿估计的精确度及鲁棒性。

本发明以紧耦合(Tightly-coupled)的方式综合利用RGB图像、深度图像、IMU测量值等三种传感器信息估计两帧之间最优的姿态估计，通过迭代的方式解决这个最小二乘问题。

具体地，所述目标函数为：

min_(R,t){PP+∑||D||²+∑||I||²+∑||V||²}；

通过最小二乘法求得一个最合适的运动参数：旋转参数

和位移参数

使四个残差项PP、∑||D||²、∑||I||²与∑||V||²的和的值最低，其中，PP表示先验信息的先验分布、D表示迭代最近点残差项、I表示所述对象的两帧之间位置、速度、旋转、陀螺仪偏差和加速度偏差的变化量的差、V表示重投影误差，即PP、D、I、V也可以称为目标函数的四个约束，也就是四个残差项。

滑动窗口外的状态也能提供一定的约束信息，为了能够得到更真实的约束关系，所以滑动窗口外的状态也被考虑进来(但它不被优化)，***使用边缘化的技巧，将它的约束信息转化为待优化变量的先验分布，即最小二乘问题中的PP。

对于通过深度图像得到空间的几何结构，从而估计两帧之间的变换矩阵，迭代最近点(ICP)残差项D使用点到面的距离为：

D＝(T·P_j-P_i)·n_i

和位移参数

是两帧之间的运动参数。

根据迭代最近点的计算特征，***采用了GPU来提高迭代最近点的计算效率。因为两帧之间的深度图像相似度较高，为了避免不必要的迭代，所以限制迭代次数最高为5次。

对于IMU约束I，给定两帧的IMU测量值(加速度和角速度)，IMU预积分可以计算出位置、速度和旋转。所以***将IMU误差项定义为两帧之间位置、速度、旋转、陀螺仪偏差和加速度偏差的变化量的差。

对于重投影误差V，作为视觉约束，并将其定义在单位球面的正切平面上：

其中，

和

是P对应的切平面的任意两个正交基。对于投影与反投影

是根据针孔相机模型推导的从三维空间点投影到二维空间点的投影函数，定义为：

其中，(f_x,f_y)和(c_x,c_y)是相机内参，可以通过棋盘格标定法等相机内参标定方法得到。投影的逆操作就是反投影。

位姿估计步骤S105，使用迭代法对所述目标函数求解最小值得到所述对象最优的位姿。

将所有残差项加在一起便构成了目标函数，使用迭代法最小化目标函数就可以得到最优的位姿。迭代方向由目标函数的一阶导决定。为了保证***的实时性，求解位姿所用的最大迭代次数设置为8次。

在一个实施例中，在实施本方法前，通过基于滑动窗口的运动恢复结构(SfM)和视觉惯性矫正模块来粗略估计***所依赖的状态(重力向量、陀螺仪偏差和速度等)，为本方法提供初始值。

在一个实施例中，所述方法还包括：回环检测步骤S106，检测当前帧是否发生回环，如果是，则执行全局的位姿图优化来矫正所述对象的定位轨迹，以消除累积误差。本方法采用基于词袋模型的回环检测，如果当前帧被认定为是一个关键帧，那么***会根据字典把RGB图像转换成一个向量。接着把这个向量提交给回环检测，回环检测判断当前帧是否发生回环并返回结果。如果检测到发生了回环，那么将会执行全局的位姿图(Pose-Graph)优化来矫正定位轨迹，消除累积误差。

在一个实施例中，基于滑动窗口求解该最小二乘，滑动窗口内包含最小二乘法计算所需要的输入参数，每次最小二乘的除先验信息之外的误差项都由滑动窗口内的值提供。即本发明采用了基于滑动窗口的形式实现该最小二乘问题。滑动窗口内包含最小二乘所需要的所有输入(像素点、三维空间点、状态等)，每次最小二乘的误差项都由滑动窗口内的值提供(除了先验信息)。为了限制该最小二乘问题的求解时间，将滑动窗口的数量设置为10个，已足够得出精确的两帧之间的位姿(也可以称为姿势)估计。

在一个实施例中，基于以下条件确定RGB图像中的关键帧：该帧的平均视差与上一帧关键帧的平均视差相比差值超过第一阈值(比如，第一阈值设置为1.0，在大部分场景下定位性能良好)；或者，该帧跟踪的特征点数量小于第二阈值，比如，第二阈值设置为10，既保证***的高鲁棒性又不至于产生过多的关键帧。

本方法基于多种传感器采集运动对象的RGB图像、IMU测量值及深度图像进行姿态估计，并构建了用于姿态估计的目标函数，该目标函数使用最小二乘法进行求解，该函数的输入值通过滑动窗口进行输入，设置了滑动窗口的具体数目，降低求解时间，提高了位姿的估计精度，还设计了回环检测过程，在发生回环时执行全局的位姿图优化来矫正所述对象的定位轨迹，以消除累积误差，并具体设计相应的残差函数。

图2示出了本发明的本发明的一种基于多传感器融合的三维姿态估计装置，该装置包括：

RGB图像获取单元201，用于使用图像传感器获取被测对象的RGB图像，并提取所述RGB图像的FAST特征点以及使用KLT稀疏光流法进行特征点的跟踪；所述图像传感器可以是摄像头、摄像机等等，其可以采集被测对象的多帧图像。

IMU测量值获取单元202，用于使用IMU传感器采集被测对象的IMU测量值，并对所述IMU测量值进行积分得到当前时刻的被测对象的位置、速度和旋转；IMU传感器又称为惯性传感器，通过对离散的IMU测量值进行积分就可以得到当前时刻的位置、速度和旋转，可以给出当前搭载传感器的对象进行运动估计。

深度图像获取单元203，用于使用深度图像传感器获取被测对象的深度图像，使用迭代最近点(ICP)算法对所述深度图像进行处理得到迭代最近点；所述深度图像传感器可以是深度摄像机、深度摄像头，通过深度图像可以得到被测对象空间的几何结构，从而估计两帧之间的变换矩阵。

目标函数构建单元204，用于基于先验信息、迭代最近点、IMU测量值和视觉重投影构建目标函数。由于每种传感器都有其不适用的环境，但运动过程中的环境是无法人为控制的。为了提高在多场景下的鲁棒性，得到更精确的定位，本发明采用多传感器的进行数据的融合，提高位姿估计的精确度及鲁棒性。

具体地，所述目标函数为：

min_(R,t){PP+∑||D||²+∑||I||²+∑||V||²}；

通过最小二乘法求得一个最合适的运动参数：旋转参数

和位移参数

D＝(T·P_j-P_i)·n_i

和位移参数

是两帧之间的运动参数。

其中，

和

是P对应的切平面的任意两个正交基。对于投影与反投影

位姿估计单元205，用于使用迭代法对所述目标函数求解最小值得到所述对象最优的位姿。

在一个实施例中，在实施本装置前，通过基于滑动窗口的运动恢复结构(SfM)和视觉惯性矫正模块来粗略估计***所依赖的状态(重力向量、陀螺仪偏差和速度等)，为本装置提供初始值。

在一个实施例中，所述装置还包括：回环检测单元206，用于检测当前帧是否发生回环，如果是，则执行全局的位姿图优化来矫正所述对象的定位轨迹，以消除累积误差。本装置采用基于词袋模型的回环检测，如果当前帧被认定为是一个关键帧，那么***会根据字典把RGB图像转换成一个向量。接着把这个向量提交给回环检测，回环检测判断当前帧是否发生回环并返回结果。如果检测到发生了回环，那么将会执行全局的位姿图(Pose-Graph)优化来矫正定位轨迹，消除累积误差。

本装置基于多种传感器采集运动对象的RGB图像、IMU测量值及深度图像进行姿态估计，并构建了用于姿态估计的目标函数，该目标函数使用最小二乘法进行求解，该函数的输入值通过滑动窗口进行输入，设置了滑动窗口的具体数目，降低求解时间，提高了位姿的估计精度，还设计了回环检测过程，在发生回环时执行全局的位姿图优化来矫正所述对象的定位轨迹，以消除累积误差，并具体设计相应的残差函数。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。