CN110047108B

CN110047108B - 无人机位姿确定方法、装置、计算机设备及存储介质

Info

Publication number: CN110047108B
Application number: CN201910172148.6A
Authority: CN
Inventors: 周翊民; 陈鹏; 吴庆甜
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2021-05-25
Anticipated expiration: 2039-03-07
Also published as: CN110047108A

Abstract

本申请涉及一种无人机位姿确定方法，该方法包括：获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像；根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵；获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵；根据所述目标位姿变换矩阵确定所述无人机的位姿。该无人机位姿确定方法不仅提高了无人机位姿估计的准确度，而且提高了无人机位姿估计的实时性。此外，还提出了一种无人机位姿确定装置、计算机设备及存储介质。

Description

无人机位姿确定方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其是涉及一种无人机位姿确定方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的发展，无人机日趋小型化、智能化，其飞行空间已扩展至丛林、城市甚至建筑物内。基于无人机飞行空间复杂多变，在室内或无GPS信号的未知环境中，主流的GPS组合导航***无法正常使用。其中，实现自主导航最重要的环节是对无人机的位姿进行估计，传统的无人机的位姿估计方法要么准确度低，要么运算量大，导致实时性低。

发明内容

基于此，有必要针对上述问题，提供了一种准确度高且运算量小的无人机位姿确定方法、装置、计算机设备及存储介质。

第一方面，本发明实施例提供一种无人机位姿确定方法，所述方法包括：

获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像；

根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵；

获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵；

根据所述目标位姿变换矩阵确定所述无人机的位姿。

第二方面，本发明实施例提供一种无人机位姿确定装置，所述装置包括：

获取模块，用于获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像；

矩阵确定模块，用于根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵；

优化模块，用于获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵；

位置确定模块，用于根据所述目标位姿变换矩阵确定无人机的位置。

第三方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

根据所述目标位姿变换矩阵确定所述无人机的位姿。

第四方面，本发明实施例提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

根据所述目标位姿变换矩阵确定所述无人机的位姿。

上述无人机位姿确定方法、装置、计算机设备及存储介质，首先通过将惯性测量数据和视觉数据(视频帧图像)进行融合得到视频帧图像之间的位姿变换矩阵，然后通过位姿优化模型对位姿变换矩阵进行进一步优化，得到目标位姿变换矩阵，之后根据优化后的目标位姿变换矩阵确定无人机的位姿，大大提高了无人机位姿估计的准确度，且在这个过程中，只需要少量的计算即可实现，大大减少了运算量，提高了无人机位姿估计的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为一个实施例中无人机位姿确定方法的流程图；

图2为一个实施例中无人机位姿确定方法的示意图；

图3为一个实施例中无人机位姿确定装置的结构框图；

图4为另一个实施例中无人机位姿确定装置的结构框图；

图5为又一个实施例中无人机位姿确定装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，提出了一种无人机位姿确定方法，该无人机位姿确定方法应用于无人机或者与无人机连接的终端或服务器，本实施例中以应用于无人机为例说明，具体包括以下步骤：

步骤102，获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像。

其中，惯性测量单元(Inertial measurement unit，IMU)是测量物体三轴姿态角(或角速率)以及加速度的装置。将惯性测量单元作为无人机的惯性参数测量装置，该装置包含了三轴陀螺仪、三轴加速度和三轴磁力计。无人机可以直接读取惯性测量单元测量的测量数据，测量数据包括：角速度、加速度和磁力计数据等。视频帧图像是指无人机通过摄像头实时拍摄到的图像。在一个实施例中，相机采用双目视觉摄像机，比如，采用RGB-D相机。

步骤104，根据惯性测量数据和视频帧图像确定两两视频帧图像之间的位姿变换矩阵。

其中，将惯性测量单元测量得到的惯性测量数据和相机采集到的视觉数据进行融合计算得到两两视频帧图像之间的位姿变换矩阵。在获取到视频帧图像后，需要提取每个视频帧图像中的特征点，然后通过对特征点进行特征匹配得到视频帧图像之间的特征点匹配对。根据匹配得到的特征点匹配对和惯性测量数据就可以计算得到两两视频帧图像之间的位姿变换矩阵。位姿变换矩阵包括旋转矩阵R和平移向量t。

步骤106，获取两个视频帧图像，将两个视频帧图像和两个视频帧图像之间的位姿变换矩阵作为位姿优化模型的输入，获取位姿优化模型输出的优化后的目标位姿变换矩阵。

其中，为了提高位姿估计的准确性，对根据惯性测量数据和视频帧图像确定的视频帧图像之间的位姿变换矩阵进行进一步优化。通过将两个视频帧图像以及两个视频帧图像对应的位姿变换矩阵作为位姿优化模型的输入，获取位姿优化模型对位姿变换矩阵优化后的目标位姿变换矩阵。

步骤108，根据目标位姿变换矩阵确定无人机的位姿。

其中，位姿是指无人机的位置和姿态，一般采用6个量来表示，位置可以采用三维空间坐标(x，y，z)来表示，姿态可以采用与三个坐标轴的夹角(φ，θ，ψ)来表示，φ为滚转角，为围绕X轴旋转的角；θ为俯仰角，是围绕Y轴旋转的角；ψ为偏航角，是围绕Z轴旋转的角。在计算得到了视频帧图像之间的目标位姿变换矩阵后，就可以根据无人机的初始位置和视频帧图像之间的目标位姿变换矩阵计算得到无人机的位置。目标位姿变换矩阵是指两两视频帧之间的位姿相对关系。

上述无人机位姿确定方法，首先通过将惯性测量数据和视觉数据(视频帧图像)进行融合得到视频帧图像之间的位姿变换矩阵，然后通过位姿优化模型对位姿变换矩阵进行进一步优化，得到目标位姿变换矩阵，之后根据优化后的目标位姿变换矩阵确定无人机的位姿，大大提高了无人机位姿估计的准确度，且在这个过程中，只需要少量的计算即可实现，大大减少了运算量，提高了无人机位姿估计的实时性。

在一个实施例中，如图2所示，为无人机位姿确定方法的示意图。首先包括了两部分，分别获取惯性测量单元测量得到的惯性测量数据，然后获取相机拍摄得到的视频帧图像，将两者融合计算得到位姿变换矩阵，然后，将两个视频帧图像以及两个视频帧图像对应的位姿变换矩阵输入到位姿优化模型，之后输出目标位姿变换矩阵，根据目标位姿变换矩阵确定无人机的位姿。

在一个实施例中，所述位姿优化模型是基于卷积神经网络模型训练得到的；在所述将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入之前，还包括：获取训练视频帧图像对样本集合，所述训练视频帧图像对样本集合中包括：多个训练视频帧图像对样本，所述训练视频帧图像对样本包括：两个训练视频帧图像和所述两个训练视频帧图像之间的位姿变换矩阵，所述位姿变换矩阵是通过惯性测量数据和训练视频帧图像确定的；获取训练视频帧图对样本对应的期望位姿变换矩阵；将所述训练视频帧图像对样本作为所述位姿优化模型的输入，将所述期望位姿变换矩阵作为期望的输出对所述位姿优化模型进行训练，得到训练好的位姿优化模型。

其中，训练视频帧图像样本对集合中包括多个训练视频帧图像对样本，训练视频帧图像对样本包括两个训练视频帧图像以及两个训练视频帧图像之间的位姿变换矩阵。位姿变换矩阵是根据惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像计算得到的。位姿优化模型是基于卷积神经网络模型训练得到的，卷积神经网络包括卷积层、池化层、非线性映射层、全连接层和softmax层。通过卷积神经网络进行两个图像特征的提取及比对，然后结合输入的位姿变换矩阵以及期望的位姿变换矩阵学习得到如何根据图像特征对位姿变换矩阵进行优化得到目标位姿变换矩阵。

在一个实施例中，在获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像之后，还包括：将所述视频帧图像作为控制类别模型的输入，获取所述控制类别模型输出的控制类型，所述控制类型分为左转控制、右转控制和直行控制；根据所述控制类型对所述无人机的飞行方向进行调整。

其中，为了控制视频帧图像实现自主导航，将相机拍摄得到的视频帧图像作为控制类别模型的输入，然后获取控制类别模型输出的控制类型。控制类型分为左转控制、右转控制以及直行控制。继而根据该控制类型对无人机的飞行方向实时进行调整。控制类别模型用于识别当前无人机对应的控制类型，便于根据控制类型对无人机的方向进行调整。控制类别模型是基于卷积神经网络模型进行训练得到的，通过获取不同角度类型的训练图像，比如，获取无人机向左偏离正确方向的图像，那么相应地标注图像为向右控制，同样获取无人机向右偏离正确方向的图像，相应地标注图像为向左控制，如果在正确方向的范围的图像，则标注为直行控制。通过将各个训练图像作为控制类别模型的输入，将相应的标注作为期望的输出对模型进行训练，得到训练好的控制类别模型。

在一个实施例中，所述根据所述根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵，包括：根据所述测量数据计算得到视频帧图像之间的初始位姿变换矩阵；提取每个视频帧图像中的特征点，通过对特征点进行特征匹配得到视频帧图像之间的特征点匹配对；根据所述初始位姿变换矩阵和所述视频帧图像之间的特征点匹配对计算得到视频帧图像之间的位姿变换矩阵。

其中，在获取到惯性测量单元测量得到的测量数据后，直接可以根据测量数据计算得到无人机的位姿变换矩阵，由于惯性测量单元会存在累计误差，所以得到的无人机的位姿变换矩阵不够准确。为了与后续优化后的位姿变换矩阵进行区分，将根据测量数据直接计算得到的位姿变换矩阵称为“初始位姿变换矩阵”。在一个实施例中，通过采用互补滤波算法计算得到测量数据对应的初始位姿变换矩阵。在一个实施例中，视频帧图像之间的初始位姿变换矩阵是指相邻视频帧之间的初始位姿变换矩阵，即分别计算相邻的两两视频帧之间的位姿变换矩阵。

提取彩色图像中的特征点，特征点可以简单理解为图像中比较显著的点，如轮廓点、较暗区域中的亮点，较亮区域中的暗点等。特征的提取可以采用ORB特征，ORB采用FAST(features from accelerated segment test)算法来检测特征点。FAST核心思想就是找出那些卓尔不群的点，即拿一个点跟它周围的点比较，如果它和其中大部分的点都不一样就可以认为它是一个特征点。当然也可以采用其他特征，比如，HOG特征、LBP特征等。其中，HOG(Histogram of Oriented Gradient，方向梯度直方图)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，通过计算和统计图像局部区域的梯度方向直方图来构成特征。LBP(Local Binary Pattern，局部二值模式)是一种用来描述图像局部纹理特征的算子。在提取到每个视频帧图像中的特征点后，根据特征点的特征进行特征匹配，得到视频帧图像之间的特征点匹配对。由于无人机是在不断地飞行中，所以真实空间中的同一点在不同视频帧图像中的位置不同，通过获取前后视频帧中特征点的特征，然后根据特征进行匹配，得到真实空间中的同一点在不同视频帧中的位置。

在一个实施例中，获取相邻的两个视频帧图像，在前一视频帧图像和后一视频帧图像中提取到多个特征点的特征，然后对特征点的特征进行匹配，得到前一视频帧图像与后一视频帧图像中的匹配的特征点，构成特征点匹配对。比如，前一视频帧图像中的特征点分别为P1，P2，P3……，Pn，后一视频帧图像中的相应匹配的特征点分别为Q1，Q2，Q3……，Qn。其中，P1和Q1为特征点匹配对，P2和Q2为特征点匹配对，P3和Q3为特征点匹配对等。特征点的匹配可以采用暴力匹配(Brute Force)或快速近似最近邻(FLANN)算法进行特征匹配，其中，快速近似最近邻算法是通过判断最近匹配距离和次近匹配距离比值是否超过设定阈值，若超过预设阈值，则判定匹配成功，以此减少误匹配点对。

将初始位姿变换矩阵作为初始估计矩阵，通过特征点匹配对之间的转换关系来计算得到位姿变换矩阵。通过将初始位姿变换矩阵作为初始估计矩阵大大减少了计算的复杂度，提高了定位的速度和准确度。

在一个实施例中，所述通过对特征点进行特征匹配得到视频帧图像之间的特征点匹配对，包括：采用颜色直方图特征匹配算法对视频帧图像之间的特征点进行匹配，得到第一匹配对集合；采用尺度不变特征变换匹配算法对所述第一匹配对集合中的匹配点进行进一步匹配得到目标特征点匹配对。

其中，颜色直方图匹配算法侧重于对颜色特征的匹配，尺度不变特征变换(scaleinvariant feature transform，SIFT)侧重于对形状特征的匹配。所以将颜色直方图匹配算法和尺度变换特征变换进行混合，即将颜色直方图的“色”与SIFT算法的“形”进行了结合，从而提高了特征识别的准确度，提高了特征点匹配的准确度，同时也有利于提高识别的实时性，从而提高了后续三维点云地图生成的实时性和准确度。具体地，先采用颜色直方图进行初步的特征点匹配，得到第一匹配对集合，然后采用尺度不变特征变换匹配算法对第一匹配对集合中的匹配点进行进一步匹配，得到目标特征点匹配对。

在一个实施例中，所述根据所述初始位姿变换矩阵和所述视频帧图像之间的特征点匹配对计算得到视频帧图像之间的位姿变换矩阵，包括：获取所述特征点匹配对中每个特征点的三维坐标；以所述视频帧图像之间的初始位姿变换矩阵为初始值，计算将一个视频帧图像中特征点的三维坐标转换到另一视频帧图像得到的转换三维坐标；获取所述另一视频帧图像中相应匹配的特征点对应的目标三维坐标；根据所述转换三维坐标和所述目标三维坐标计算得到位姿变换矩阵。

其中，在确定了特征点匹配对后，获取每个特征点的三维坐标，三维坐标是可以根据RGB-D相机拍摄得到的彩色图像和深度图像得到的，彩色图像用于识别得到特征点的x和y值，深度图像用于获取相应的z值。对于两个视频帧图像，将特征点匹配对分别作为两个集合，第一视频帧图像中的特征点的集合为{P|P_i∈R³,i＝1,2…N}，第二视频帧图像中的特征点的集合为{Q|Q_i∈R³,i＝1,2…N}，将两个点集之间的误差作为代价函数，通过代价函数的最小化求得对应的旋转矩阵R和平移向量t。可以采用如下公式表示：

其中，R和t分别为旋转矩阵和平移向量。迭代最近点算法的步骤为：

1)对P_i中每一个点在Q中对应的最近点，记为Q_i；

2)按照以上公式求取使最小的变换矩阵R和t；

3)利用R和t对点集P进行刚体变换操作得到新点集

计算新点集与点集Q之间的误差距离：

在实际操作中，可以将有约束条件的旋转矩阵和平移向量用无约束的李代数表示，并且记录误差距离小于设定阈值的特征点数量，即内点数量。如果步骤3)中计算的误差距离E_d小于阈值且内点大于设定阈值，或者迭代次数是否到达设定阈值，则迭代结束；如果不满足则转到步骤1)进行下一轮迭代。上述方法，通过将计算得到的初始位姿矩阵作为迭代的初始值，有利于提高迭代的速度，提高了计算的速度，且鲁棒性高。

如图3所示，在一个实施例中，提出了一种无人机位姿确定装置，该装置包括：

获取模块302，用于获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像；

矩阵确定模块304，用于根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵；

优化模块306，用于获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵；

位置确定模块308，用于根据所述目标位姿变换矩阵确定无人机的位置。

如图4所示，在一个实施例中，所述位姿优化模型是基于卷积神经网络模型训练得到的；上述装置还包括：

训练样本获取模块310，用于获取训练视频帧图像对样本集合，所述训练视频帧图像对样本集合中包括：多个训练视频帧图像对样本，所述训练视频帧图像对样本包括：两个训练视频帧图像和所述两个训练视频帧图像之间的位姿变换矩阵，所述位姿变换矩阵是通过惯性测量数据和训练视频帧图像确定的；

期望获取模块312，用于获取训练视频帧图对样本对应的期望位姿变换矩阵；

训练模块314，用于将所述训练视频帧图像对样本作为所述位姿优化模型的输入，将所述期望位姿变换矩阵作为期望的输出对所述位姿优化模型进行训练，得到训练好的位姿优化模型。

如图5所示，在一个实施例中，上述无人机位姿确定装置还包括：

类型确定模块316，用于将所述视频帧图像作为控制类别模型的输入，获取所述控制类别模型输出的控制类型，所述控制类型分为左转控制、右转控制和直行控制；

调整模块318，用于根据所述控制类型对所述无人机的飞行方向进行调整。

在一个实施例中，矩阵确定模块还用于根据所述测量数据计算得到视频帧图像之间的初始位姿变换矩阵；获取相机拍摄得到的视频帧图像，提取每个视频帧图像中的特征点，通过对特征点进行特征匹配得到视频帧图像之间的特征点匹配对；根据所述初始位姿变换矩阵和所述视频帧图像之间的特征点匹配对计算得到视频帧图像之间的位姿变换矩阵。

在一个实施例中，矩阵确定模块还用于采用颜色直方图特征匹配算法对视频帧图像之间的特征点进行匹配，得到第一匹配对集合；采用尺度不变特征变换匹配算法对所述第一匹配对集合中的匹配点进行进一步匹配得到目标特征点匹配对。

在一个实施例中，矩阵确定模块还用于获取所述特征点匹配对中每个特征点的三维坐标；以所述视频帧图像之间的初始位姿变换矩阵为初始值，计算将一个视频帧图像中特征点的三维坐标转换到另一视频帧图像得到的转换三维坐标；获取所述另一视频帧图像中相应匹配的特征点对应的目标三维坐标；根据所述转换三维坐标和所述目标三维坐标计算得到位姿变换矩阵。

图6示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是无人机、或与无人机连接的终端或服务器。如图6所示，该计算机设备包括通过***总线连接的处理器、存储器、和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现无人机位姿确定方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行无人机位姿确定方法。网络接口用于与外接进行通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的无人机位姿确定方法可以实现为一种计算机程序的形式，计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该无人机位姿确定装置的各个程序模板。比如，获取模块302，矩阵确定模块304，优化模块306，位置确定模块308。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像；根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵；获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵；根据所述目标位姿变换矩阵确定所述无人机的位姿。

在一个实施例中，所述位姿优化模型是基于卷积神经网络模型训练得到的；在所述将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入之前，所述计算机程序被所述处理器执行时，还用于执行以下步骤：获取训练视频帧图像对样本集合，所述训练视频帧图像对样本集合中包括：多个训练视频帧图像对样本，所述训练视频帧图像对样本包括：两个训练视频帧图像和所述两个训练视频帧图像之间的位姿变换矩阵，所述位姿变换矩阵是通过惯性测量数据和训练视频帧图像确定的；获取训练视频帧图对样本对应的期望位姿变换矩阵；将所述训练视频帧图像对样本作为所述位姿优化模型的输入，将所述期望位姿变换矩阵作为期望的输出对所述位姿优化模型进行训练，得到训练好的位姿优化模型。

在一个实施例中，在获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像之后，所述计算机程序被所述处理器执行时，还用于执行以下步骤：将所述视频帧图像作为控制类别模型的输入，获取所述控制类别模型输出的控制类型，所述控制类型分为左转控制、右转控制和直行控制；根据所述控制类型对所述无人机的飞行方向进行调整。

在一个实施例中，所述根据所述根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵，包括：根据所述测量数据计算得到视频帧图像之间的初始位姿变换矩阵；获取相机拍摄得到的视频帧图像，提取每个视频帧图像中的特征点，通过对特征点进行特征匹配得到视频帧图像之间的特征点匹配对；根据所述初始位姿变换矩阵和所述视频帧图像之间的特征点匹配对计算得到视频帧图像之间的位姿变换矩阵。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像；根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵；获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵；根据所述目标位姿变换矩阵确定所述无人机的位姿。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种无人机位姿确定方法，其特征在于，所述方法包括：

获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像，所述相机采用双目视觉摄像机；

获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵，包括：获取训练视频帧图像对样本集合，所述训练视频帧图像对样本集合中包括：多个训练视频帧图像对样本，所述训练视频帧图像对样本包括：两个训练视频帧图像和所述两个训练视频帧图像之间的位姿变换矩阵，所述位姿变换矩阵是通过惯性测量数据和训练视频帧图像确定的；获取训练视频帧图对样本对应的期望位姿变换矩阵；将所述训练视频帧图像对样本作为所述位姿优化模型的输入，将所述期望位姿变换矩阵作为期望的输出对所述位姿优化模型进行训练，得到训练好的位姿优化模型；所述位姿优化模型是基于卷积神经网络模型训练得到的，通过卷积神经网络进行两个图像特征的提取及比对，然后结合输入的位姿变换矩阵以及期望的位姿变换矩阵学习得到如何根据图像特征对位姿变换矩阵进行优化得到目标位姿变换矩阵；

根据所述目标位姿变换矩阵确定所述无人机的位姿。

2.根据权利要求1所述的方法，其特征在于，在获取无人机中惯性测量单元测量得到的惯性测量数据和相机拍摄得到的视频帧图像之后，还包括：

将所述视频帧图像作为控制类别模型的输入，获取所述控制类别模型输出的控制类型，所述控制类型分为左转控制、右转控制和直行控制；

根据所述控制类型对所述无人机的飞行方向进行调整。

3.根据权利要求1所述的方法，其特征在于，所述根据所述根据所述惯性测量数据和所述视频帧图像确定两两视频帧图像之间的位姿变换矩阵，包括：

根据所述测量数据计算得到视频帧图像之间的初始位姿变换矩阵；

获取相机拍摄得到的视频帧图像，提取每个视频帧图像中的特征点，通过对特征点进行特征匹配得到视频帧图像之间的特征点匹配对；

根据所述初始位姿变换矩阵和所述视频帧图像之间的特征点匹配对计算得到视频帧图像之间的位姿变换矩阵。

4.根据权利要求3所述的方法，其特征在于，所述通过对特征点进行特征匹配得到视频帧图像之间的特征点匹配对，包括：

采用颜色直方图特征匹配算法对视频帧图像之间的特征点进行匹配，得到第一匹配对集合；

采用尺度不变特征变换匹配算法对所述第一匹配对集合中的匹配点进行进一步匹配得到目标特征点匹配对。

5.根据权利要求3所述的方法，其特征在于，所述根据所述初始位姿变换矩阵和所述视频帧图像之间的特征点匹配对计算得到视频帧图像之间的位姿变换矩阵，包括：

获取所述特征点匹配对中每个特征点的三维坐标；

以所述视频帧图像之间的初始位姿变换矩阵为初始值，计算将一个视频帧图像中特征点的三维坐标转换到另一视频帧图像得到的转换三维坐标；

获取所述另一视频帧图像中相应匹配的特征点对应的目标三维坐标；

根据所述转换三维坐标和所述目标三维坐标计算得到位姿变换矩阵。

6.一种无人机位姿确定装置，其特征在于，所述装置包括：

优化模块，用于获取两个视频帧图像，将所述两个视频帧图像和所述两个视频帧图像之间的所述位姿变换矩阵作为位姿优化模型的输入，获取所述位姿优化模型输出的优化后的目标位姿变换矩阵，包括：获取训练视频帧图像对样本集合，所述训练视频帧图像对样本集合中包括：多个训练视频帧图像对样本，所述训练视频帧图像对样本包括：两个训练视频帧图像和所述两个训练视频帧图像之间的位姿变换矩阵，所述位姿变换矩阵是通过惯性测量数据和训练视频帧图像确定的；获取训练视频帧图对样本对应的期望位姿变换矩阵；将所述训练视频帧图像对样本作为所述位姿优化模型的输入，将所述期望位姿变换矩阵作为期望的输出对所述位姿优化模型进行训练，得到训练好的位姿优化模型；所述位姿优化模型是基于卷积神经网络模型训练得到的，通过卷积神经网络进行两个图像特征的提取及比对，然后结合输入的位姿变换矩阵以及期望的位姿变换矩阵学习得到如何根据图像特征对位姿变换矩阵进行优化得到目标位姿变换矩阵；

7.根据权利要求6所述的装置，其特征在于，所述位姿优化模型是基于卷积神经网络模型训练得到的；所述装置还包括：

训练样本获取模块，用于获取训练视频帧图像对样本集合，所述训练视频帧图像对样本集合中包括：多个训练视频帧图像对样本，所述训练视频帧图像对样本包括：两个训练视频帧图像和所述两个训练视频帧图像之间的位姿变换矩阵，所述位姿变换矩阵是通过惯性测量数据和训练视频帧图像确定的；

期望获取模块，用于获取训练视频帧图对样本对应的期望位姿变换矩阵；

训练模块，用于将所述训练视频帧图像对样本作为所述位姿优化模型的输入，将所述期望位姿变换矩阵作为期望的输出对所述位姿优化模型进行训练，得到训练好的位姿优化模型。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。