CN112270357A

CN112270357A - Vio视觉***及方法

Info

Publication number: CN112270357A
Application number: CN202011177789.XA
Authority: CN
Inventors: 李学生; 龚迪琛; 李清胜
Original assignee: Delu Power Technology Hainan Co ltd
Current assignee: Chengdu Xinsheng Power Technology Co ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-26

Abstract

本发明公开了一种VIO视觉方法，包括以下步骤：S1.采集实时图像数据，并对实时图像数据进行位图像数据位姿估计处理，生成第一位姿估计数据；S2.采集图像数据采集单元的姿态数据，并对姿态数据进行姿态数据位姿估计处理，生成第二位姿估计数据；S3.将第一位姿估计数据与第二位姿估计数据进行位姿融合处理，生成第三位姿估计数据；S4.对S1步骤中的实时图像数据进行回环检测处理；以及S5.根据回环检测处理的结果对第三位姿估计数据进行位姿优化并生成第四位姿估计数据；其中，S4步骤利用深度学习神经网络模型中的自动编码器产生特征响应进行回环判断。通过采用上次技术方案，可有效提高视觉处理中的位姿估计精度以及运行速度。

Description

VIO视觉***及方法

技术领域

本发明涉及机器人的自主定位与地图构建领域，具体涉及一种VIO视觉***及方法。

背景技术

随着计算机技术和人工智能的发展，智能自主移动机器人成为机器人领域的一个重要研究方向和研究热点。在机器人的实际应用场景中，有些情况下无法事先获取机器人的应用环境地图，机器人需要在自身位置不确定的条件下在完全未知的环境中创建地图，同时进行自主定位与导航。在机器人的自主定位与地图构建中，位姿估计是重要环节，传统的位姿估计通过VO(视觉里程计)进行三角化算法来实现，但这一方法无法有效克服单目相机的尺度问题，同时三角化算法在采集图像设备进行旋转运动时易退化导致丢失特征点的问题，无法准确跟踪环境图像数据的特征信息。在位姿估计中，为了减少甚至消除层层估计产生的累积误差，通常需要对采集的实时图像数据进行回环检测，通过回环检测判定相似场景，对属于相似场景的实时图像数据进一步进行位姿估计的优化处理。现有的回环检测广泛采用的是基于词袋模型的回环检测，基于词袋模型的回环检测将每一次采集的实时图像数据的特征信息抽象为特征单词，并将最新采集的实时图像数据的特征单词与已采集到的所有的实时图像数据的特征单词进行一致性匹配，判断前后实时图像数据是否属于相似场景。这一回环检测的方法运算量大，计算耗时多，对实时应用终端友好性低，同时这一方法易受光照、视角等条件影响，位姿估计的准确度不高。

因此，通过现有的方法机器人无法在未知环境中进行准确的位姿估计，同时无法高效实时地实现自主定位与地图构建。

发明内容

本发明的目的是提供一种VIO视觉方法，其能够有效解决现有机器的自主定位与地图构建应用中的缺陷，具体地，一种VIO视觉方法，包括以下步骤：S1.通过图像数据采集单元采集实时图像数据，并对实时图像数据进行图像数据位姿估计处理，生成第一位姿估计数据；S2.通过姿态数据采集单元采集图像数据采集单元的姿态数据，并对姿态数据进行姿态数据位姿估计处理，生成第二位姿估计数据；S3.将第一位姿估计数据与第二位姿估计数据进行位姿融合处理，生成第三位姿估计数据；S4.对S1步骤中的实时图像数据进行回环检测处理；以及S5.根据回环检测处理的结果对第三位姿估计数据进行位姿优化并生成第四位姿估计数据；其中，S4步骤利用深度学习神经网络模型进行回环判断，深度学习神经网络模型采用自动编码器得到实时图像数据的特征响应。

根据本发明的实施例，所述S4步骤包括：S401.对实时图像数据进行分割，得到实时图像数据的多个图像分块；S402.对多个图像分块进行关键点检测，并根据关键点检测得到多个初选关键点，从多个初选关键点中筛选多个有效关键点，对多个有效关键点进行向量化操作，得到多个关键点向量化数据；S403.将多个图像分块以及多个关键点向量化数据输入深度学习神经网络模型中，深度学习神经网络模型采用自动编码器进行处理，得到实时图像数据的特征响应；以及S404.通过特征响应计算实时图像数据与实时图像数据的前一帧图像数据之间的相似度，并根据相似度进行回环判断。

根据本发明的实施例，S1步骤中图像数据位姿估计处理包括提取实时图像数据的特征信息。

根据本发明的实施例，S2步骤中姿态数据位姿估计处理包括通过姿态数据位姿估计单元对姿态数据进行预积分处理以获取第二位姿估计数据。

根据本发明的实施例，S3步骤中位姿融合处理为通过对实时图像数据与姿态数据之间进行紧耦合来实现第一位姿估计数据与第二位姿估计数据的位姿融合估计。

本发明还公开了一种VIO视觉***，其包括：图像数据模块，图像数据模块包括图像数据采集单元以及图像数据位姿估计单元，图像数据模块用于实时图像数据的采集以及进行图像数据位姿估计处理操作，并生成第一位姿估计数据；姿态数据模块，姿态数据模块与图像数据模块数据联通，姿态数据模块包括姿态数据采集单元以及姿态数据位姿估计单元，姿态数据模块用于对图像数据采集单元的姿态进行测量以及进行姿态数据位姿估计处理操作，并生成第二位姿估计数据；位姿融合模块，位姿融合模块分别与图像数据模块以及姿态数据模块数据联通，位姿融合模块将第一位姿估计数据以及第二位姿估计数据进行位姿融合处理，并生成第三位姿估计数据；以及回环检测模块，回环检测模块与图像数据模块数据联通，其包括深度学习神经网络单元，回环检测模块对实时图像数据进行回环检测，并根据回环检测的操作结果在位姿融合模块中对第三位姿估计数据进行位姿优化并生成第四位姿估计数据。

根据本发明的实施例，深度学习神经网络单元包括：图像分割单元，图像分割单元将实时图像数据分割为多个图像分块；关键点处理单元，关键点处理单元从多个图像分块中检测出多个初选关键点，并从多个初选关键点中筛选出多个有效关键点，再对多个有效关键点进行向量化操作，得到多个关键点向量化数据；模型训练单元，模型训练单元采用自动编码器对多个图像分块以及多个关键点向量化数据进行训练处理，最终得到实时图像数据的特征响应；相似度计算单元，相似度计算单元根据特征响应计算实时图像数据与实时图像数据的前一帧图像数据的相似度；以及回环判断单元，回环判断单元根据相似度进行回环判断。

根据本发明的实施例，图像数据位姿估计单元包括特征提取单元，特征提取单元用于提取图实时像数据的特征信息。

根据本发明的实施例，姿态数据位姿估计单元包括预积分单元，预积分单元对姿态数据进行预积分处理。

根据本发明的实施例，位姿融合模块包括紧耦合单元以及位姿优化单元，紧耦合单元用于实现实时图像数据与姿态数据的紧耦合处理，位姿优化单元根据回环判断单元的判断结果对第三位姿估计数据进行位姿优化处理。

通过采用上述技术方案，本发明主要有如下几点技术效果：

1.通过将图像数据采集单元的运动姿态数据与实时图像数据的特征进行融合，综合分析实现位姿估计，有效提高机器位姿估计的准确度，同时增强了位姿估计方法应用于多旋转运动场景中的适配性；

2.通过对采集的实时图像数据进行回环检测，对属于相似场景的图像数据的位姿估计进行位姿优化，有效降低了位姿估计中的误差影响，从而提高了机器自主定位的精准度以及地图构建的完整性；

3.通过在回环检测中通过在深度学习神经网络中采用自动编码器提取实时图像数据的特征信息，提高了对实时图像数据的特征信息分析能力，从而确保了回环检测中对近似场景判断的准确度。

附图说明

图1为根据本发明的实施例的VIO视觉方法的第一示意图；

图2为根据本发明的实施例的VIO视觉方法的第二示意图；

图3为根据本发明的实施例的VIO视觉***的第一示意图。

图中：1、图像数据模块；11、图像数据采集单元；12、图像数据位姿估计单元；2、姿态数据模块；21、姿态数据采集单元；22、姿态数据位姿估计单元；3、位姿融合模块；31、紧耦合单元；32、位姿优化单元；4、回环检测模块；41、深度学习神经网络单元；5、输出模块。

具体实施方式

下面结合说明书附图来说明本发明的具体实施方式。

请参照图1及图2，本发明的实施例公开了一种VIO视觉方法，通过采用本实施例中的VIO视觉方法，可更准确地获取机器的位姿估计数据，同时提高了位姿估计方法的实时性，从而确保了机器自主定位与地图构建的精准度和完整性。

本发明公开的VIO视觉方法主要包括以下5个步骤：

S1.通过图像数据采集单元11采集实时图像数据，并对实时图像数据进行图像数据位姿估计处理，生成第一位姿估计数据；

S2.通过姿态数据采集单元21采集图像数据采集单元11的姿态数据，并对姿态数据进行姿态数据位姿估计处理，生成第二位姿估计数据；

S3.将第一位姿估计数据与第二位姿估计数据进行位姿融合处理，生成第三位姿估计数据；

S4.对S1步骤中的实时图像数据进行回环检测处理；以及

S5.根据回环检测处理的结果对第三位姿估计数据进行位姿优化并生成第四位姿估计数据。

为了使得本实施例中的VIO视觉方法可准确识别到已采集过的相似场景的图像数据，从而使得机器最终绘制的地图能够闭环，本实施例S4步骤中对图像数据采集单元11采集到的实时图像数据进行了回环检测处理。回环检测处理通过将采集到的实时图像数据与已采集处理过的图像数据进行对比，其中，S4步骤利用深度学习神经网络模型进行回环判断，深度学习神经网络模型采用自动编码器得到实时图像数据的特征响应。为了减少相邻时间上的实时图像数据之间累积的误差，提高位姿估计数据的准确度，针对通过回环检测处理被判定为与已采集过的图像数据为相似场景的实时图像数据，本实施例中在S5步骤中添加了位姿优化的步骤来生成第四位姿估计数据。

请参照图1及图2，具体地，上述S4步骤中回环检测处理的步骤如下：

S401.对实时图像数据进行分割，得到实时图像数据的多个图像分块；

S402.对多个图像分块进行关键点检测，并根据关键点检测得到多个初选关键点，从多个初选关键点中筛选多个有效关键点，对多个有效关键点进行向量化操作，得到多个关键点向量化数据；

S403.将多个图像分块以及多个关键点向量化数据输入深度学习神经网络模型中，深度学习神经网络模型采用自动编码器进行处理，得到实时图像数据的特征响应；以及

S404.根据实时图像数据的特征响应计算实时图像数据与实时图像数据的前一帧图像数据之间的相似度，并根据相似度进行回环判断。

为了降低处理实时图像数据对硬件资源配置的要求，提高位姿估计方法的实时性，本实施例在S401步骤中对通过图像数据采集单元11采集的实时图像数据进行图像分割处理以降低单张图像的大小从而降低S4步骤中对硬件资源的配置要求。本实施例根据步骤S403中深度学习神经网络模型的训练要求，将实时图像数据分割为相同尺寸的多个图像分块。

为了更为准确地提取实时图像数据的特征信息，本实施例中对由实时图像数据分割得到的多个图像分块进行了关键点检测处理，具体地，本实施例在S402步骤中首先采用稀疏关键点检测方法对多个图像分块进行关键点检测，得到多个初选关键点。

为了减少深度学习神经网络模型的处理参数数量，提高位姿估计方法的运行速率，本实施例对多个初选关键点进行了筛选，根据多个图像分块在关键点检测中的特征响应数据的高低，选取出数量为分割得到的多个图像分块的分块数量的特征响应数据较高的多个有效关键点。

为了使得检测到的多个有效关键点能够符合深度学习神经网络模型的数据格式要求，本实施例中对多个有效关键点进行了向量化操作，得到多个关键点向量化数据。

为了深度提取实时图像数据的特征信息，本实施例在S403步骤中采用深度学习神经网络模型进行特征信息提取操作，得到实时图像数据的特征响应，具体地，在S403步骤中将图像分割处理得到的多个图像分块与关键点检测处理得到的多个关键点向量化数据输入至深度学习神经网络模型中，深度学习神经网络模型采用自动编码器对输入的数据进行训练重构，得到实时图像数据的特征响应，为了对多个图像分块进行降噪处理，更为准确地提取多个图像分块中的特征信息，从而提高位姿估计方法的鲁棒性，本实施例中采用的自动编码器为SDA(堆叠降噪自动编码器)。

为了分析当前的实时图像数据是否为当前的实时图像数据的前一帧图像数据的相似场景，本实施例S404步骤中，将S403步骤中得到的当前的实时图像数据的特征响应与当前的实时图像数据的前一帧图像数据的特征信息进行相似度计算，根据相似度计算结果做出回环判定。本实施例中在深度学习神经网络模型内设定了相似度阈值，若计算得出的相似度达到相似度阈值，则将当前的实时图像数据判定为当前的实时图像数据的前一帧图像数据的相似场景，若计算得出的相似度未达到相似度阈值，则判定当前的实时图像数据与当前的实时图像数据的前一帧图像数据的分属为不同场景。

请参照图1及图2，为了根据图像数据采集单元11采集的实时图像数据进行图像数据位姿估计处理，本实施例S1步骤中，对实时图像数据进行了特征信息的提取，提取的特征信息包括但不限于实时图像数据中的多个对象目标之间的空间位置关系、相对方向关系等，经过图像数据位姿估计处理生成第一位姿估计数据。

请参照图1及图2，为了获取图像数据采集单元11的姿态数据，S2步骤中通过姿态数据采集单元21进行姿态数据的采集，本实施例中姿态数据采集单元21采用IMU(惯性测量单元)采集姿态数据。为了对采集到的姿态数据进行姿态数据位姿估计处理，本实施例S2步骤中对采集到的姿态数据进行了预积分处理，通过预积分处理计算出姿态数据位姿估计处理中的所需要的测量项数据，并最终生成第二位姿估计数据。

请参照图1及图2，为了提高位姿估计方法的准确度，本实施例在S3步骤中通过将图像数据位姿估计处理生成的第一位姿估计数据与姿态数据位姿估计处理生成的第二位姿估计数据进行位姿融合处理，从而生成第三位姿估计数据，具体地，本实施例中通过将第一位姿估计数据与第二位姿估计数据紧耦合在一起，通过位姿融合模块3构建运动方程和观测方程，进行综合的位姿估计，从而生成第三位姿估计数据。

请参照图1及图2，为了增强相似场景的位姿估计精度，提高地图绘建的全局性，本实施例S5步骤中综合回环检测的检测结果对第三位姿估计数据进行位姿优化，具体地，本实施例中对S4步骤中回环检测中判断为相似场景的实时图像数据的第三位姿估计数据进行位姿优化，本实施例中进行的位姿优化为非线性优化，最终生成第四位姿估计数据。

请参照图1及图2，为了输出最终生成的第四位姿估计数据，本发明公开的VIO视觉方法还包括以下步骤：S6.输出第四位姿估计数据。

所述步骤S1中为了获取机器所处环境的实时图像数据，本实施例中设置了图像数据采集单元11，且对图像数据采集单元11所采用的设备不做具体的限定，可通过相机、摄像头等图像数据采集设备采集实时图像数据。

请参照图3，本发明的实施例还公开了一种VIO视觉***，其包括图像数据模块1、姿态数据模块2、位姿融合模块3以及回环检测模块4。

本实施例中图像数据模块1包括图像数据采集单元11以及图像数据位姿估计单元12，本实施例中通过图像数据采集单元11采集实时图像数据，再通过图像数据位姿估计单元12中的特征提取单元提取实时图像数据的特征信息，图像数据位姿图像数据位姿估计处理后并生成第一位姿估计数据。

本实施例中姿态数据模块2与图像数据模块1数据联通，姿态数据模块2包括姿态数据采集单元21以及姿态数据位姿估计单元22，姿态数据采集单元21对图像数据采集单元11的姿态进行采集，再通过姿态数据位姿估计单元22总的预积分单元对姿态数据进行预积分处理并生成第二位姿估计数据。

本实施例中位姿融合模块3与图像数据模块1以及姿态数据模块2均数据联通，位姿融合模块3包括紧耦合单元31以及位姿优化单元32。本实施例中实时图像数据与姿态数据通过紧耦合单元31实现数据的紧耦合从而将第一位姿数据与第二位姿数据进行位姿融合处理，生成第三位姿数据。位姿优化单元32对第三位姿数据进行位姿优化处理，并生成第四位姿数据。

本实施例中回环检测模块4与图像数据模块1数据联通，其包括深度学习神经网络单元41，通过回环检测模块4的深度学习神经网络单元41对图像数据采集单元11采集的实时图像数据进行回环检测。其中，深度学习神经网络单元41包括图像分割单元、关键点处理单元、模型训练单元、相似度计算单元以及回环判断单元。图像分割单元将实时图像数据分割为多个图像分块。关键点处理单元检测筛选出多个图像分块的多个有效关键点并将多个有效关键点向量化。模型训练单元采用自动编码器对多个图像分块以及多个有效关键点训练重构，得到实时图像数据的特征响应。相似度计算单元根据模型训练单元得到的实时图像数据的特征响应计算实时图像数据与实时图像数据的前一帧图像数据的相似度。回环判断单元将相似度计算单元计算的相似度与VIO视觉方法预设的相似度阈值进行对比，判断是否发生回环，并将判断结果传递至位姿融合模块3中的位姿优化单元32。

为了将位姿融合模块生成的第四位姿估计数据输出，本发明的实施例公开的一种VIO视觉***还包括输出模块5。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种VIO视觉方法，其特征在于，包括以下步骤：

S1.通过图像数据采集单元采集实时图像数据，并对所述实时图像数据进行图像数据位姿估计处理，生成第一位姿估计数据；

S2.通过姿态数据采集单元采集图像数据采集单元的姿态数据，并对所述姿态数据进行姿态数据位姿估计处理，生成第二位姿估计数据；

S3.将所述第一位姿估计数据与所述第二位姿估计数据进行位姿融合处理，生成第三位姿估计数据；

S4.对所述S1步骤中的所述实时图像数据进行回环检测处理；以及

S5.根据所述回环检测处理的结果对所述第三位姿估计数据进行位姿优化并生成第四位姿估计数据；

其中，所述S4步骤利用深度学习神经网络模型进行回环判断，所述深度学习神经网络模型采用自动编码器得到所述实时图像数据的特征响应。

2.根据权利要求1所述的VIO视觉方法，其特征在于：

所述S4步骤包括：

S401.对所述实时图像数据进行分割，得到所述实时图像数据的多个图像分块；

S402.对所述多个图像分块进行关键点检测，并根据所述关键点检测得到多个初选关键点，从所述多个初选关键点中筛选多个有效关键点，对所述多个有效关键点进行向量化操作，得到多个关键点向量化数据；

S403.将所述多个图像分块以及所述多个关键点向量化数据输入所述深度学习神经网络模型中，所述深度学习神经网络模型采用所述自动编码器进行处理，得到所述实时图像数据的特征响应；以及

S404.根据所述特征响应计算所述实时图像数据与所述实时图像数据的前一帧图像数据之间的相似度，并根据所述相似度进行回环判断。

3.根据权利要求1所述的VIO视觉方法，其特征在于：

所述S1步骤中所述图像数据位姿估计处理包括提取所述实时图像数据的特征信息。

4.根据权利要求1所述的VIO视觉方法，其特征在于：

所述S2步骤中所述姿态数据位姿估计处理包括通过所述姿态数据位姿估计单元对所述姿态数据进行预积分处理以获取所述第二位姿估计数据。

5.根据权利要求1所述的VIO视觉方法，其特征在于：

所述S3步骤中所述位姿融合处理为通过对所述实时图像数据与所述姿态数据之间进行紧耦合来实现所述第一位姿估计数据与所述第二位姿估计数据的位姿融合估计。

6.一种VIO视觉***，其特征在于，包括：

图像数据模块，所述图像数据模块包括图像数据采集单元以及图像数据位姿估计单元，所述图像数据模块用于实时图像数据的采集以及进行图像数据位姿估计处理操作，并生成第一位姿估计数据；

姿态数据模块，所述姿态数据模块与所述图像数据模块数据联通，所述姿态数据模块包括姿态数据采集单元以及姿态数据位姿估计单元，所述姿态数据模块用于对所述图像数据采集单元的姿态进行测量以及进行姿态数据位姿估计处理操作，并生成第二位姿估计数据；

位姿融合模块，所述位姿融合模块分别与所述图像数据模块以及所述姿态数据模块均数据联通，所述位姿融合模块将所述第一位姿估计数据以及第二位姿估计数据进行位姿融合处理，并生成第三位姿估计数据；以及

回环检测模块，所述回环检测模块与所述图像数据模块数据联通，其包括深度学习神经网络单元，所述回环检测模块对所述实时图像数据进行回环检测，并根据所述回环检测的操作结果在所述位姿融合模块中对所述第三位姿估计数据进行位姿优化并生成第四位姿估计数据。

7.根据权利要求6所述的VIO视觉***，其特征在于：

所述深度学习神经网络单元包括：

图像分割单元，所述图像分割单元将所述实时图像数据分割为多个图像分块；

关键点处理单元，所述关键点处理单元从所述多个图像分块中检测出多个初选关键点，并从所述多个初选关键点中筛选出多个有效关键点，再对所述多个有效关键点进行向量化操作，得到多个关键点向量化数据；

模型训练单元，所述模型训练单元采用自动编码器对所述多个图像分块以及所述多个关键点向量化数据进行训练处理，最终得到所述实时图像数据的特征响应；

相似度计算单元，所述相似度计算单元根据所述特征响应计算所述实时图像数据与所述实时图像数据的前一帧图像数据的相似度；以及

回环判断单元，所述回环判断单元根据所述相似度进行回环判断。

8.根据权利要求6所述的VIO视觉***，其特征在于：

所述图像数据位姿估计单元包括特征提取单元，所述特征提取单元用于提取所述图实时像数据的特征信息。

9.根据权利要求6所述的VIO视觉***，其特征在于：

所述姿态数据位姿估计单元包括预积分单元，所述预积分单元对所述姿态数据进行预积分处理。

10.根据权利要求6所述的VIO视觉***，其特征在于：

所述位姿融合模块包括紧耦合单元以及位姿优化单元，所述紧耦合单元用于实现所述实时图像数据与所述姿态数据的紧耦合处理，所述位姿优化单元根据所述回环判断单元的判断结果对所述第三位姿估计数据进行位姿优化处理。