CN113379803B

CN113379803B - 一种基于视觉图像的定位方法

Info

Publication number: CN113379803B
Application number: CN202110767673.XA
Authority: CN
Inventors: 陈星翰; 朱然; 叶葛旺
Original assignee: Shanghai Qzs Networking Technology Co ltd
Current assignee: Shanghai Qzs Networking Technology Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2024-02-02
Anticipated expiration: 2041-07-07
Also published as: CN113379803A

Abstract

本发明公开了一种基于视觉图像的定位方法，通过将原始图像数据中每两个帧图像之间进行几何运动特征提取得到特征表达集，将所述特征表达集中非相邻帧图像之间的非相邻特征表达作为指导图集，然后通过该指导图集对特征表达集中相邻帧图像之间的相邻特征表达进行约束修正得到修正相邻特征表达，以及通过序列学习单元对修正相邻特征表达进行序列学习然后得到序列相邻特征表达，最后通过预设网络将该序列相邻特征表达进行降维拟合确定出帧间位姿，从而完成待定位物体的定位，实现了在进行视觉定位中在不同场景下以及在与训练集差异较大的情况下仍能进行准确的视觉定位。

Description

一种基于视觉图像的定位方法

技术领域

本发明属于定位技术领域，具体涉及一种基于视觉图像的定位方法。

背景技术

自主定位技术作为执行建图、导航等服务的基础，已经成为目前的研究热点，完全自主的高精度定位***在赋能空间位置感知方面有着重要的价值，可广泛地应用在国防领域、航空航天领域、工业领域和日常生活等场景，而全球导航卫星***作为最重要的定位技术之一，能够在全球坐标系下确定传感器的位置信息，但是单纯的依靠该方法不能进行高精度的定位，尤其是在室内场景和室外具有遮挡的场景。

目前对于高精度的定位通常采用的是视觉定位技术，该技术只依靠运动目标所携带的相机就可实现完全自主的高精度定位，可广泛地应用于室内外场景，而传统的视觉定位技术通常采用的是特征点法、直接法和深度学习方法。

其中，特征点法缺乏对不同场景的自适应特点，直接法对光照变化过于敏感，深度学习方法是仅从单幅图像估计相机位姿，无法对连续图像间的时序约束关系进行考量，从而无法在与训练集差异较大的情况下继续准确的定位。

因此，如何在不同场景以及与训练集差异较大的情况下准确地进行视觉定位，是本领域技术人员有待解决的技术问题。

发明内容

本发明的目的是为了解决现有技术无法在不同场景以及与训练集差异较大的情况下进行准确的视觉定位的技术问题，因此，本发明提出了一种基于视觉图像的定位方法。

本发明的技术方案为：一种基于视觉图像的定位方法，所述方法具体包括以下步骤：

S1、将原始图像数据中每两个帧图像之间进行几何运动特征提取得到特征表达集，所述原始图像数据为待定位物体的视觉图像数据；

S2、将所述特征表达集中非相邻帧图像之间的非相邻特征表达作为指导图集，通过所述指导图集对所述特征表达集中相邻帧图像之间的相邻特征表达进行约束修正得到修正相邻特征表达；

S3、通过序列学习单元将所述修正相邻特征表达进行序列学习得到序列相邻特征表达；

S4、通过预设网络将所述序列相邻特征表达进行降维拟合确定出帧间位姿，从而完成待定位物体的定位。

进一步地，所述步骤S2具体包括以下分步骤：

S21、确定出所述相邻特征表达在所述指导图集中对应的多个关联指导图；

S22、确定出每一个所述关联指导图对应的指导约束；

S23、基于所有所述指导约束对所述相邻特征表达进行约束修正。

进一步地，所述S22中的指导约束具体由如下公式进行确定：

其中，mask_t+i,t+i+1为指导约束，t为获取所述原始图像数据的t时刻，i和j为区分不同时刻的系数，且为正整数，为关联指导图中高维宏观位姿信息在c通道的指导二维特征图，/>为相邻特征表达的高维特征在c通道的相邻二维特征图，/>表示/>在c通道的约束，Vec为将二维特征特征图映射为一维向量，‖·‖₂表示二范数，σ(·)为Sigmoid函数，/>为堆积操作。

进一步地，所述S3具体为通过所述序列学习单元中的预设神经网络对修正相邻特征表达进行序列学习得到序列相邻特征表达。

进一步地，所述S4具体包括以下分步骤：

S41、通过所述预设网络将所述序列相邻特征表达进行降维拟合确定出相邻帧图像之间的相对位移变化和相对欧拉角变化；

S42、基于所述相对位移变化和所述相对欧拉角变化对所述待定位物体进行定位。

与现有技术相比，本发明的有益效果是：

(1)通过将原始图像数据中每两个帧图像之间进行几何运动特征提取得到特征表达集，经所述特征表达集中非相邻帧图像之间的非相邻特征表达作为指导图集，然后通过该指导图集对特征表达集中相邻帧图像之间的相邻特征表达进行约束修正得到修正相邻特征表达，以及通过序列学习单元对修正相邻特征表达进行序列学习然后得到序列相邻特征表达，最后通过预设网络将该序列相邻特征表达进行降维拟合确定出帧间位姿，从而完成待定位物体的定位，实现了在进行视觉定位中在不同场景下以及在与训练集差异较大的情况下仍能进行准确的视觉定位。

(2)本发明通过确定出特征表达集中的指导图集，并通过该指导图集对特征表达集中相邻特征表达进行约束修正，保证了图像序列间的运动一致性。

(3)本发明通过序列学习单元对修正相邻特征表达进行序列学习，充分挖掘时序信号特征，能够起到连续指导当前位姿估计的效果。

附图说明

图1所示为本发明实施例提供的一种基于视觉图像的定位方法的流程示意图；

图2所示为本发明实施例中进行几何运动特征提取时原始图像数据的维度变化。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术中所述，现有技术中特征点法缺乏对不同场景的自适应特点，直接法对光照变化过于敏感，深度学习方法是仅从单幅图像估计相机位姿，无法对连续图像间的时序约束关系进行考量，从而无法在与训练集差异较大的情况下进行准确的定位。

为解决现有技术中的不足，本申请提出一种基于视觉图像的定位方法，如图1所示，所述方法包括以下步骤：

步骤S1、将原始图像数据中每两个帧图像之间进行几何运动特征提取得到特征表达集，所述原始图像数据为待定位物体的视觉图像数据。

具体的，原始图像数据也即待定位物体的视觉图像数据可由待定位物体上携带的相机进行获取，且该原始图像数据是连续的多个原始RGB帧图像。

在具体应用场景中，原始图像数据是连续4帧的原始RGB帧图像，其尺寸为3×370×1226，其中3表示图像的RGB三通道，370和1226分别表示原始图像的高和宽，本领域技术人员可根据实际情况选择原始RGB帧图像的帧数。

通过卷积神经网络对原始图像数据中每两个帧图像之间进行几何运动特征提取，在具体场景中，卷积神经网络的参数配置可如下表1所示：

表1

其中，网络感知域的尺寸从7×7到5×5，再到3×3，逐渐减小，以捕捉高维特征中更细微的变化，Zero-padding(零填充)被引入来适应卷积核尺寸以及博阿吃卷积后的空间维度，网络各层通道数即每层中进行特征提取的卷积核的个数越来越多，以提取更加多样和复杂的运动特征，该卷积神经网络在进行几何运动特征提取时原始图像数据的维度变化如图2所示。

卷积神经网络一共包含10个卷积层，且除了Conv6_1层，每层的输出都经过非线性激活函数(RectifiedLinearUnit，ReLU)，该非线性激活函数的具体公式可以表示为：

式中，cⁱ为卷积层第i个卷积核的输出，wⁱ为卷积核i中的权值，b_i为卷积后特征图的偏置，x_a为在第a次卷积操作时处于感受野中的输入数据，k为卷积操作的总运算次数，·表示点乘运算，Relu(·)为激活函数。

上述步骤中，卷积神经网络将原始图像数据进行几何运动特征提取，而不是将经过预处理的图像如光流作为输入，是因为卷积神经网络经过训练，可以学习一种有效的降维的视觉运动特征表达，这种学习到的特征不仅可以将原始的高维图像压缩成一种紧凑的描述，而且提高了连续序列的训练过程。

需要指出并说明的是，以上通过卷积神经网络对每两个帧图像之间进行几何运动特征提取的方式仅为本申请中一种具体实现方式，本领域技术人员可根据实际情况灵活选择任意一种神经网络或者其他方式来对每两个帧图像之间进行几何运动特征提取，同时还可根据选择的原始图像数据中帧图像的帧数，灵活对卷积神经网络或其他方式进行调整，这并不影响本申请的保护范围，同时也不对本申请后续步骤具有影响。

步骤S2、将所述特征表达集中非相邻帧图像之间的非相邻特征表达作为指导图集，通过所述指导图集对所述特征表达集中相邻帧图像之间的相邻特征表达进行约束修正得到修正相邻特征表达。

其中，所述步骤S2具体包括以下分步骤：

S22、确定出每一个所述关联指导图对应的指导约束；

具体的，首先将特征表达集中非相邻帧图像之间的非相邻特征表达作为指导图集，用于对特征表达集中相邻帧图像之间的相邻特征表达进行约束修正，其中，指导图集实质上是跨帧的非相邻特征表达，而每两个非相邻特征表达之间涵盖了哪些相邻特征表达，则该非相邻特征表达是其所涵盖的相邻特征表达的关联指导图。

在具体应用场景中，假设t时刻输入卷积神经网络的4帧连续的帧图像分别为I_t，I_t+1，I_t+2，I_t+3，那么卷积神经网络分别对(I_t,I_t+1)，(I_t,I_t+2)，(I_t,I_t+3)，(I_t+1,I_t+2)，(I_t+1,I_t+3)，(I_t+2,I_t+3)间的几何运动特征进行提取，由此提取到6对对应的特征表达，特征表达集表示为

然后将特征表达集中的非相邻特征表达作为指导图集，指导图集中的指导图分别为：X_t,t+2，X_t,t+3，X_t+1,t+3，通过该指导图集对相邻特征表达进行约束修正。

对相邻特征表达进行约束修正的步骤，首先确定出相邻特征表达在所述指导图集中的多个关联指导图，如本申请具体应用场景中，X_t,t+1的关联指导图为X_t,t+2和X_t,t+3，X_t+1,t+2的关联指导图为X_t,t+2、X_t,t+3和X_t+1,t+3，X_t+2,t+3的关联指导图为X_t,t+3和X_t+1,t+3。

对于指导图集∪X_t+i,t+j,i≥0,j-i≥2，以及满足图像序列间的运动一致性，可通过指导图集对相邻特征特征表达进行通道级别的指导约束，该指导约束可由如下公式进行确定：

其中，mask_t+i,t+i+1为指导约束，t为获取所述原始图像数据的t时刻，i和j为区分不同时刻的系数，且为正整数，为关联指导图中高维宏观位姿信息在c通道的指导二维特征图，c为正整数，例如，当c为1时，/>为关联知道图中高维宏观位姿信息在1通道的指导二维特征图，/>为相邻特征表达的高维特征在c通道的相邻二维特征图，表示/>在c通道的约束，Vec为将二维特征特征图映射为一维向量，‖·‖₂表示二范数，σ(·)为Sigmoid函数，/>为堆积操作。

通过上述步骤，可确定出每一个相邻特征表达所有对应的指导约束，以上述具体应用场景中为例，可得出如表2的约束修正关系：

表2

然后可基于所有所述指导约束对相邻特征表达进行约束修正，也即是将相邻特征表达对应的多个指导约束进行求均值操作，将进行求均值操作后的指导约束对相邻特征表达进行约束修正得到修正相邻特征表达，在上述具体应用场景中，可由如下公式进行表示：

式中，X′_t,t+1、X′_t+1,t+2和X′_t+2,t+3为修正相邻特征表达。

步骤S3、通过序列学习单元将所述修正相邻特征表达进行序列学习得到序列相邻特征表达。

具体的，首先将修正相邻特征表达映射为一维向量，然后将该一维向量输入到序列学习单元中，该序列学习单元为两层堆叠的长短期记忆神经网络，每层长短期记忆神经网络中都有1024个隐藏状态，在具体应用场景中，假设t时刻由输入修正后的运动特征X′_t-1,t，每层长短期记忆神经网络前一时刻传递来的隐藏状态和记忆单元分别为h_t-1和c_t-1，那么长短期记忆神经网络在t时刻的操作过程如下：

i_t＝σ(W_XiX′_t-1,t+W_hih_t-1+b_i)

f_t＝σ(W_XfX′_t-1,t+W_hfh_t-1+b_f)

g_t＝tanh(W_XgX′_t-1,t+W_hgh_t-1+b_g)

o_t＝σ(W_XoX′_t-1,t+W_hoh_t-1+b_o)

其中，为两向量间的相乘操作(元素级别)。tanh(·)是双曲正切非线性函数，σ(·)是非线性的Sigmoid函数。W项和b项分别指代相应的权值矩阵和偏置向量。i_t，f，g_t，c_t和o_t分别是t时刻的输入门、遗忘门、输入调制门、记忆单元和输出门。展开LSTM之后，每个LSTM单元对应一个输入数据的时间步数据，在视觉定位任务中，对应相邻图片帧间的几何运动特征，经过序列学习后，相邻特征表达将会包含输入的序列数据间的序列约束关系，也即局部图像序列中存在的空间点的共视关系。

步骤S4、通过预设网络将所述序列相邻特征表达进行降维拟合确定出帧间位姿，从而完成待定位物体的定位。

所述S4具体包括以下分步骤：

具体的，序列相邻特征表达为高维度的抽象帧间运动特征，需要通过预设网络例如全连接网络对该序列相邻特征表达进行降维，通过该全连接网络将运动特征映射到6维空间，确定出相邻帧间的相对位移变化和相对欧拉角变化，从而确定出帧间位姿完成待定位物体的定位，降维的过程可以描述为：

其中，x_1×1024为预设网络的输入特征，F_1×128为全连接层隐藏层的输出，输入特征x_1×1024的维度为1×1024，W_128×1024为全连接层待训练的隐藏层权重矩阵，维度为128×1024，b_1×128为全连接层中隐藏层的偏置矩阵，维度为1×128，F_1×6为全连接网络输出层的输出，其维度对应估计的6维相对位姿，W_6×128为输出层的待训练权重矩阵，b_1×6为该层的偏置矩阵，T为矩阵的转置操作。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于视觉图像的定位方法，其特征在于，具体包括以下步骤：

2.如权利要求1所述的基于视觉图像的定位方法，其特征在于，所述步骤S2具体包括以下分步骤：

S22、确定出每一个所述关联指导图对应的指导约束；

3.如权利要求2所述的基于视觉图像的定位方法，其特征在于，所述S22中的指导约束具体由如下公式进行确定：

其中，mask_t+i，t+i+1为指导约束，t为获取所述原始图像数据的t时刻，i和j为区分不同时刻的系数，且为正整数，为关联指导图中高维宏观位姿信息在c通道的指导二维特征图，/>为相邻特征表达的高维特征在c通道的相邻二维特征图，/>表示/>在c通道的约束，Vec为将二维特征图映射为一维向量，||·||₂表示二范数，σ(·)为Sigmoid函数，/>为堆积操作。

4.如权利要求1所述的基于视觉图像的定位方法，其特征在于，所述S3具体为通过所述序列学习单元中的预设神经网络对修正相邻特征表达进行序列学习得到序列相邻特征表达。

5.如权利要求1所述的基于视觉图像的定位方法，其特征在于，所述S4具体包括以下分步骤：