CN115578416A - 一种无人机目标跟踪方法、***、介质及电子设备 - Google Patents

一种无人机目标跟踪方法、***、介质及电子设备 Download PDF

Info

Publication number
CN115578416A
CN115578416A CN202211246719.4A CN202211246719A CN115578416A CN 115578416 A CN115578416 A CN 115578416A CN 202211246719 A CN202211246719 A CN 202211246719A CN 115578416 A CN115578416 A CN 115578416A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
target
feature
target tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211246719.4A
Other languages
English (en)
Inventor
刘允刚
尹宇肖
满永超
陈琳
李峰忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202211246719.4A priority Critical patent/CN115578416A/zh
Publication of CN115578416A publication Critical patent/CN115578416A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本公开针对无人机实时并精准跟踪地面目标的应用场景,提供了一种无人机目标跟踪方法、***、介质及电子设备。以SiamRPN网络为基础,以AlexNet为特征提取网络,引入改进的FPN特征金字塔结构,增强特征表达能力,提高目标跟踪精度。同时,考虑无人机路径规划算法的精度和时效性要求,使用ego‑planner轨迹优化策略,在满足轨迹优化精确度的前提下,进行后端无约束优化,得到符合动力学约束的最优轨迹,最终实现无人机跟踪目标。

Description

一种无人机目标跟踪方法、***、介质及电子设备
技术领域
本公开属于目标跟踪技术领域,尤其涉及一种无人机目标跟踪方法、***、介质及电子设备。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
无人机视觉目标跟踪场景的复杂性和多变性,对实现无人机精准跟踪目标及快速避障带来了巨大挑战。传统的基于相关滤波算法的目标检测速度较快,但其提取的颜色、灰度等手工特征较为粗糙,跟踪精度往往不高。随着深度学***衡。目前大部分特征提取网络采用ResNet深度残差网络,其在NVIDIA TitanXpGPU上运行只能达到30fps左右,增大了设备的运算负担,无法应用于算力资源有限的板载无人机目标实时跟踪之中。除此之外,由于无人机检测图像的多样性,无法用单阶段的特征图有效地表征不同尺度的目标,致使无人机在检测图像时对于尺寸变化幅度较大的目标无法做到精确检测和跟踪。
特征金字塔网络FPN(Feature Pyramid Networks)是解决物体检测多尺度问题有效方法之一。当前对该网络的研究多集中在以下几个方面:(1)特征提取网络backbone对输入图像提取不同层次的语义特征,浅层网络生成较多细节特征,深层网络生成更多语义特征;(2)分辨率低的特征图进行上采样处理;(3)上采样操作结果与backbone网络生成对应尺度的特征图进行融合。绝大多数研究方法对于(2)的处理采用上采样操作,对特征图进行边缘填充处理,使得卷积神经网络的平移不变性受到影响,导致无人机跟踪精度降低。同时,对于(3)的处理,多数方法采用分层特征预测目标,或将多个预测特征层在维度上进行拼接处理。此类FPN网络结构以降低检测速度为代价,换取了检测精度的提升,大大增加了无人机的运算负担。
执行目标跟踪任务时,无人机针对复杂空域中的威胁干扰以及障碍物的快速规避是完成飞行任务的关键。传统的基于梯度的路径规划算法需要构建出全局的欧几里得符号距离场地图ESDF Map(Luclidean Signed Distance Functions Map)。由于轨迹仅仅覆盖小范围的ESDF Map,导致传统算法在构建地图上花费了大量时间,限制了在有限资源情况下运动规划算法的使用。
发明内容
为克服上述现有技术的不足,本公开提供了一种无人机目标跟踪方法、***、介质及电子设备,实现无人机快速且精准规避障碍物;通过有效结合目标跟踪及动态避障技术,实现无人机复杂环境下高效跟踪目标的应用场景。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
第一方面,公开了一种无人机目标跟踪方法,包括:
无人机接收解锁指令与跟踪指令,初始化模型超参数,加载预训练的无人机目标跟踪模型;
利用无人机目标跟踪模型提取模板区域图像特征和搜索区域图像特征,并进行多特征融合,得到搜索区域图像中的目标边界框;
利用无人机单目相机仿真模型,将得到的目标边界框位置坐标转换为世界坐标系下的坐标,作为路径规划的目标值;
利用获得的路径规划目标值实时规划最优路径。
具体的,所述无人机目标跟踪模型采用AlexNet作为特征提取网络。
作为可选择的实施方式,引入空间感知采样策略,通过均匀分布的采样方式让目标位置在训练样本中心点附近进行偏移。
进一步的技术方案,基于AlexNet特征提取网络,建立基于多头注意力机制的FPN特征金字塔结构,实现多特征融合;
具体为:
特征提取网络输出第三、四、五层的预测特征图C3、C4、C5;
分别对输出的第三、四层预测特征图C3、C4进行1x1卷积运算与下采样操作;
以中心为基准裁剪下采样后的特征图,实现与第五层输出的预测特征图尺寸一致,得到裁剪后的特征图M3、M4;
利用多头注意力机制,将裁剪后的特征图M3、M4与第五层输出的预测特征图C5进行叠加,实现不同尺度的特征融合。
进一步的技术方案,所述利用多头注意力机制,将裁剪后的特征图M3、M4与第五层输出的预测特征图C5进行叠加,具体为:
将裁剪后的特征图M3、M4与第五层输出的预测特征图C5分别进行展平处理并进行线性映射,获得每层对应的查询值;
将裁剪后的特征图M4进行卷积、归一化、非线性变换,并通过全连接层增大通道维度,获得键值和评估值;
分别对M3、M4、C5层进行多头注意力操作,其中查询值使用每层对应的查询值,键值和评估值使用对特征图M4处理后获得的键值和评估值;
引入超参数向量,将多头注意力机制输出结果进行空间维度的线性插值。
进一步的技术方案,将融合后的特征图输入RPN网络模型进行up-channel CrossCorrelation互相关操作,输出预测的特征图置信度和目标边界框位置;
采用余弦窗和尺度变化惩罚对预测结果进行排序,得出最终的目标边界框。
进一步的技术方案,所述利用获得的路径规划目标值实时规划最优路径,具体为:
使用ego-planner规划器在不考虑障碍物的条件下生成轨迹;
基于局部障碍物信息,采用B样条曲线进行轨迹优化;
规划器判断动力学不可行的轨迹,激活细化过程。
进一步的技术方案,所述基于局部障碍物信息,采用B样条曲线进行轨迹优化,具体为:
提取当前轨迹撞到的障碍物的信息,获取穿过障碍物的B样条曲线的控制点Qi,发生碰撞的线段的每个控制点Qi都会生成一个在障碍物表面的定位点pij,并对应一个指向障碍物***方向的梯度向量
Figure BDA0003886961650000041
其中i为控制点的索引,j为{p,v}对的索引;依据Qi到第j个障碍物的距离
Figure BDA0003886961650000042
使轨迹不断迭代远离障碍物。
本公开的第二方面,提供了一种无人机目标跟踪***,包括:
初始化模块,用于无人机接收解锁指令与跟踪指令,初始化模型超参数,加载预训练的无人机目标跟踪模型;
特征提取融合模块,用于提取模板区域图像特征和搜索区域图像特征,利用无人机目标跟踪模型进行多特征融合,得到搜索区域图像中的目标边界框;
坐标变换模块,用于利用无人机单目相机仿真模型,将得到的目标边界框位置坐标转换为世界坐标系下的坐标,作为路径规划的目标值;
路径规划模块,用于利用获得的路径规划目标值实施规划最优路径。
本公开的第三方面,提供了一种介质,其上存储有程序,该程序被处理器执行时实现上述一种无人机目标跟踪方法中的步骤。
本公开的第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现上述一种无人机目标跟踪方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
本公开采用孪生网络框架研发了基于改进SiamRPN网络多层特征融合的无人机目标跟踪算法,相比于现有的SiamRPN网络模型,本算法在OTB100数据集上测试,其精度提升3.6%,且在NVIDIA Jetson Xavier板载上达到30fps左右,可以满足无人机实时追踪目标的要求。考虑快速避障要求,本公开采用ego-planner规划器,实现基于梯度的无人机局部规划路径,实时有效地估计和计算梯度信息,最终生成符合动力学约束的光滑轨迹。本公开最终将自主研发的基于改进SiamRPN网络多层特征融合的无人机目标跟踪算法与ego-planner轨迹优化策略有效结合,解决了无人机避障实时性差且目标追踪精度低的问题。在后续无人机进行跟踪监视、城市追逃、战场近距离侦察等应用领域具有重要意义。
本公开采用AlexNet模型替代残差结构的ResNet50模型,大大降低模型的参数量,提高了无人机设备的运算速率;基于浅层特征下采样的FPN多特征融合策略替代深层特征上采样的原始FPN特征融合方法,保障了卷积神经网络的平移不变性,提高了无人机目标检测精度;引入多头注意力机制(Multi-Head--Attenton)增强不同预测特征图的相关性,使得模型更加关注不同目标尺寸的信息并提取出来,较大增加训练效率;引入余弦窗惩罚机制来降低背景干扰,提高目标检测的鲁棒性;构建单目相机仿真模型,实现预测目标框坐标变换。在实现精准目标跟踪基础上,采用ego-planner路径规划算法,实时估计最优路径和计算地图梯度信息,生成更加光滑的轨迹,最终实现了无人机实时追踪目标且跟踪精度的提高。
在rviz和gazebo仿真环境下,手动框选第一帧无人机目标位置,提取目标边界框左上角像素坐标、目标框宽和高,以此截取目标图像作为模板图像,并根据自主研发的目标跟踪算法提取此特征。无人机实时采集相机图像,并预测下一帧的目标边界框和置信度,将预测后的目标坐标信息进行坐标变换,作为ego-planner轨迹优化器的终点值。最终无人机实时规划最优路径,达到快速避障的需求。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本发明无人机目标跟踪方法实施流程示意图;
图2为本发明无人机目标跟踪算法流程图;
图3为本发明中叠加处理流程图;
图4为本发明基于rviz仿真平台上跟踪目标效果图;
图5为本发明基于gazebo仿真平台上跟踪目标效果图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
本公开以SiamRPN网络为基础,采用AlexNet模型替代残差结构的ResNet50模型,提高无人机设备的运算速率;基于浅层特征下采样的FPN多特征融合策略替代深层特征上采样的原始FPN方法,降低了设备的运算量,同时保障了卷积神经网络的平移不变性,提高了目标检测精度;引入多头注意力机制(Multi-Head--Attenton)增强不同预测层的相关性,使得模型更加关注不同目标尺寸的信息并提取出来,较大增加训练效率;引入余弦窗惩罚机制来降低背景干扰,提高目标检测的鲁棒性;构建单目相机仿真模型,实现预测目标框坐标变换。在实现精准目标跟踪基础上,采用ego-planner路径规划算法,实时估计最优路径和计算地图梯度信息,生成更加光滑的轨迹,最终实现无人机跟踪目标。
实施例一
本实施例公开了一种无人机目标跟踪方法,采用如下技术方案:
无人机接收解锁指令与跟踪指令,初始化模型超参数,加载预训练的无人机目标跟踪模型;
利用无人机目标跟踪模型提取模板区域图像特征和搜索区域图像特征,并进行多特征融合,得到搜索区域图像中的目标边界框;
利用无人机单目相机仿真模型,将得到的目标边界框位置坐标转换为世界坐标系下的坐标,作为路径规划的目标值;
利用获得的路径规划目标值实时规划最优路径。
如图1所示,首先无人机等待解锁并初始化无人机***的相关参数,包括:初始化单目相机和激光雷达的相关参数;加载目标跟踪预训练模型;加载rviz和gazebo仿真环境、无人机单目相机仿真模型。其中,初始化预训练模型参数时,同时输入像素为0的初始化图像。最终等待无人机解锁指令。
解锁后,无人机进行目标跟踪任务。具体算法流程图见图2,包括:①判断是否手动选定目标框;②模型提取模板区域图像特征;③单目相机实时采集图像数据;④模型提取搜索区域图像特征;⑤FPN网络进行多特征融合;⑥RPN网络预测特征图置信度和目标框位置;⑦用余弦窗和尺度变化惩罚来对proposal进行排序,选择一个置信度最高的anchor框,得出最终的目标边界框。
在SiamRPN研究基础上,本实施例采用AlexNet网络作为特征提取网络。
通过分析影响目标检测精度和速度的约束条件,发现深层网络会降低网络预测的准确度,并且较大程度上降低无人机***目标跟踪的实时性,因此本实施例以AlexNet作为特征提取网络N1,并将搜索区域图像(Detection Region Frame)和模板区域图像(Template Region Frame)分别进行特征提取,作为多特征融合的信息来源。
在本实施例中,为提高网络模型的泛化能力,引入了空间感知采样策略,实现数据增强。
本实施例采用GOT-10k数据集作为训练集,并引入空间感知采样策略,即通过均匀分布的采样方式让目标位置在训练样本中心点附近进行偏移。基于SiamRPN网络结构,该采样策略获得的训练样本能够保障卷积神经网络的平移不变性,从而提高目标检测精度。
本实施例通过分析影响目标检测精度的约束条件,引入自主研发的FPN特征金字塔网络结构。考虑到高效提升目标检测精度的方法,建立改进FPN特征金字塔结构。该结构输出含有较强语义信息的特征图,同时计算量未较大增加,进而提升检测精度以及满足无人机实时跟踪目标的要求。具体如下:
①特征提取网络N1输出第三、四、五层的预测特征图;
②多特征图分别进行1x1卷积运算;
③第三、四卷积层输出的特征图进行下采样操作;
④以中心为基准裁剪不同尺度特征图,实现与末层输出的特征图尺寸一致;
⑤多特征图进行叠加处理,实现不同尺度的特征融合。
特征图叠加处理过程中,为了增强特征图之间的相关性,本发明设计了一个基于多头注意的特征金字塔融合网络,如图3所示。大部分“注意力机制+特征金字塔”融合算法采用维度层次的concatenate操作并引用SE-Net模块进行通道间的特征融合,大大增加了设备的运算量。本方法采用3个基于transformer模型的编码器结构,降低了运算成本并增大了特征层之间相关性的范围。此外,基于编码器结构的特征融合算法,多数算法只是针对某个特定的特征层与其他特征层的相关性,忽略了各个特征层之间的相关性,不利于检测细粒度特征的目标。基于此,本方法分别将M3、M5与M4进行相关操作,大大增强了低层细粒度特征与高层语义层的融合。具体实施为:
①对不同预测特征图进行展平处理并进行线性映射,获得对应的查询值Q(query);
②对特征图M4进行卷积、归一化、非线性变换,并通过全连接层增大通道维度,最终获得键值K(key)、评估值V(value);
③分别对M3、M4、C5层进行多头注意力操作,其中查询值使用每层对应的查询值,键值和评估值使用对特征图M4处理后获得的键值和评估值;
使用注意力函数MultiHead()对Q、K、V进行操作,操作可以表示为MultiHead(Q,K,V)=Concat(H1,H2...,HN)WO
Figure BDA0003886961650000091
其中,C是规范化参数,
Figure BDA0003886961650000092
Figure BDA0003886961650000093
Wo∈RC×C表示线性变换参数,N为注意头(attention head)数量,dhead表示每个注意头的维数等于
Figure BDA0003886961650000094
④考虑各层之间的相关性,引入超参数向量
Figure BDA0003886961650000095
将输出结果
Figure BDA0003886961650000096
进行空间维度的线性插值,具体公式为:
Figure BDA0003886961650000097
优选的,当
Figure BDA0003886961650000098
时,最终精度测算(precision plot)在OTB100数据集上达到最好。
该网络结构最终将融合后的特征图输入RPN网络模型进行up-channel CrossCorrelation互相关操作。在训练数据集过程中,合理选择了迭代次数、学习率、损失函数等超参数训练验证模型并保存。
作为一种优选的实施例,在训练数据集过程中,由于训练初期模型权重进行随机初始化,可能会使损失严重震荡,选择StepScheduler预热学习率调整策略,具体实施为:在1-10个epoch,学习率实现step梯度策略逐步增加,在11-100个epoch,引用LogScheduler学习策略以log曲线逐渐降低。
由于通过设置先验眶进行标定正负样本,很可能出现样本分类不均衡的情况,导致训练过程中模型偏向于对负样本的优化,因此,在损失函数中对正负样本引入惩罚权重,致使损失函数主导优化正样本,提高模型训练效率。此外,分类回归采用交叉熵损失函数F.NLLloss实现逻辑回归,位置分支采用smooth_L1_loss实现位置回归。
在训练过程中,使用up-channel比DW更容易收敛,且最后的评估结果采用UP与DW运行速度相当,并且精度有了提升,因此本实施例采用的网络结构更具有处理速度优势和先进性。
本实施例采用HonglinChu发布的预训练模型,并引入改进的FPN特征金字塔网络,最终在OTB100数据集和VOT2016数据集进行了评估,评估结果如表1所示。
表1预训练模型在OTB100和VOT2016数据集上的评估
Figure BDA0003886961650000101
通过上述实验数据可以看到,本实施例采用升维互相关卷积层Up-Channel CrossCorrelation Layer,其每秒传输帧数FPS达到120fps以上,相比于深度可分离卷积层Depth-wise Cross Correlation Layer,本实施例在各指标中均比SiamRPNpp模型高。具体表现为:
(1)在OTB100数据集上评估,成功率提高0.016,精度提升0.022;
(2)在VOT2016数据集上评估,准确率提高0.046,鲁棒性提高0.065。
与相同backbone网络模型相比较,本实施例引入改进FPN网络结构后,使其FPS指标并无明显下降且精度指标达到最高。具体表现为:
(1)在OTB100数据集上评估,成功率比最低指标提高0.036,比最高指标提升0.02;精度比最低指标提升0.043,比最高指标提升0.036;
(2)在VOT2016数据集上评估,准确率比最低指标提高0.02,比最高指标提升0.016。
此外,由于本实施例应用于无人机,只能用于NVIDIA Jetson Xavier板载运行算法,基于目前的yolov3/yolov5以及backbone为ResNet-50或ResNet-101的SiamRPN模型,由于板载算力的限制,均无法实现正常运行,而本实施例采用的网络结构则可以在NVIDIAJetson Xavier板载上实现正常运行。
综上所述,引入自主研发的FPN网络结构,不仅目标跟踪速度满足实时跟踪的需求,而且目标检测精度均达到最优,所以比起已有模型,更具先进性。
为获取路径规划的目标值,本实施例基于rviz和gazebo仿真环境,建立了无人机单目相机仿真模型。具体如下:
①获取图像目标框的位置信息,包括目标边界框左上角X、Y坐标、高度和宽度,此处坐标为像素坐标系下的坐标;
②基于ros机器人操作***和prometheus无人机开源项目,实现不同坐标系的坐标转换,坐标系包括世界坐标系、相机坐标系、图像坐标系、像素坐标系;
像素坐标系(u,v)到图像坐标系(x,y)的转换关系如下公式所示:
Figure BDA0003886961650000121
其中,像素宽度dx,像素高度dy分别表示每个像素在水平u和竖直v方向上的实际物理尺寸(单位:毫米),即每个感光芯片的实际大小;图像坐标系中心在像素坐标系的表达为(uo,vo),图像坐标系上的投影点p(x,y)在像素坐标系下的表示为:
Figure BDA0003886961650000122
转换为矩阵如公式(1)。
图像坐标系(x,y)与相机坐标系(Xc,Yc,Zc)的转换关系如下公式所示:
Figure BDA0003886961650000123
其中,
Figure BDA0003886961650000124
f为有效焦距(光心到图像平面的距离),系数Zc表示比例因子,其值越小,相同XC、YC下的相应x、y越大。
相机坐标系(Xc,Yc,Zc)到世界坐标系(Xw,Yw,Zw)的转换如下公式所示:
Figure BDA0003886961650000125
其中,
Figure BDA0003886961650000126
表示0向量,T为3X1的平移向量,R为3X3的旋转矩阵。由公式(1)-(3)可得像素坐标系(u,v)到世界坐标系(Xw,Yw,Zw)的变换关系为公式(4):
Figure BDA0003886961650000127
③根据公式(4),应用OpenCV提供的solvePnP以及solvePnPRansac函数求解相机相对于已知物体的三维空间坐标系的旋转矩阵R和平移向量T。
获得相机模型外参后,无人机可实时订阅图像消息的话题并将特征提取网络预测后的目标边界框位置坐标转换为世界坐标系下的坐标。并将其作为路径规划的目标值,从而实现无人机目标跟踪和动态避障的有效结合。
为了快速寻求最优轨迹,本实施例使用ego-planner规划器,建立局部ESDF地图,缩短建图时间。
ego-planner轨迹优化策略:本实施例选用ros机器人操作***,siamrpn_tracker节点接收相机图像消息的话题,根据得到预测目标框坐标,应用公式(4)进行坐标变换,最终输出目标点坐标消息的话题给规划器节点。uav1_ego_planner_node节点订阅坐标的话题后,将其作为无人机路径规划的终点值,并在不考虑障碍物的条件下生成一条无优化的B样条曲线。之后,该节点实时订阅局部障碍物消息,进行基于梯度的B样条曲线优化。最终uav1_traj_server节点将优化后的轨迹坐标消息的话题作为控制指令发送给ego_traj_to_cmd_uav_1节点,实现无人机精准规划路径到达目标位置。最终仿真实例见图4、图5。
基于ego-planner路径规划策略,本实施例采用梯度的后端无约束局部优化思想,并采用B样条曲线进行轨迹优化,平衡了动力学可行性与拟合之前动力学不可行轨迹的准确性。具体如下:
①规划器在不考虑障碍物的条件下生成轨迹;
②基于局部障碍物信息进行轨迹优化;
具体操作为:提取当前轨迹撞到的障碍物的信息,获取穿过障碍物的b-spline曲线的控制点Qi,发生碰撞的线段的每个控制点Qi都会生成一个在障碍物表面的定位点(anchor point)pij,并对应一个指向障碍物***方向的梯度向量
Figure BDA0003886961650000131
其中i为控制点的索引,j为{p,v}对的索引;Qi到第j个障碍物的距离为:
Figure BDA0003886961650000132
最终,规划器就是依据公式(5)来使轨迹不断迭代远离障碍物;
③为获取符合动力学约束的曲线,规划器判断动力学不可行的轨迹,激活细化过程;其中,轨迹在轴向和径向上拟合的准确性惩罚也不一样,以提高规划器模型的鲁棒性。
本实施例的特点在于:采用深度学习算法研发了基于改进SiamRPN网络多层特征融合的无人机目标跟踪算法,实现无人机更精准且快速地预测目标边界框。考虑高精度且快速避障要求,采用ego-planner规划器,实现基于梯度的无人机局部规划路径,实时有效地估计和计算梯度信息,最终生成符合动力学约束的光滑轨迹。本实施例将自主研发的基于改进SiamRPN网络多层特征融合的无人机目标跟踪算法与ego-planner轨迹优化策略有效结合,解决了物体跟踪实时性差且避障精确度低的问题。在后续无人机进行跟踪监视、城市追逃、战场近距离侦察等应用领域具有重要意义。
实施例二
本实施例公开了一种无人机目标跟踪***,包括:
初始化模块,用于无人机接收解锁指令与跟踪指令,初始化模型超参数,加载预训练的无人机目标跟踪模型;
特征提取融合模块,用于提取模板区域图像特征和搜索区域图像特征,利用无人机目标跟踪模型进行多特征融合,得到搜索区域图像中的目标边界框;
坐标变换模块,用于利用无人机单目相机仿真模型,将得到的目标边界框位置坐标转换为世界坐标系下的坐标,作为路径规划的目标值;
路径规划模块,用于利用获得的路径规划目标值实施规划最优路径。
此处需要说明的是,上述初始化模块、特征提取融合模块、坐标变换模块、路径规划模块对应于实施例一中的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种介质,其上存储有程序,该程序被处理器执行时实现上述一种无人机目标跟踪方法中的步骤。
实施例四
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现上述一种无人机目标跟踪方法中的步骤。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种无人机目标跟踪方法,其特征是,包括:
无人机接收解锁指令与跟踪指令,初始化模型超参数,加载预训练的无人机目标跟踪模型;
利用无人机目标跟踪模型提取模板区域图像特征和搜索区域图像特征,并进行多特征融合,得到搜索区域图像中的目标边界框;
利用无人机单目相机仿真模型,将得到的目标边界框位置坐标转换为世界坐标系下的坐标,作为路径规划的目标值;
利用获得的路径规划目标值实时规划最优路径。
2.如权利要求1所述的一种无人机目标跟踪方法,其特征是,所述无人机目标跟踪模型采用AlexNet作为特征提取网络;
作为可选择的实施方式,引入空间感知采样策略,通过均匀分布的采样方式让目标位置在训练样本中心点附近进行偏移。
3.如权利要求2所述的一种无人机目标跟踪方法,其特征是,基于AlexNet特征提取网络,建立基于多头注意力机制的FPN特征金字塔结构,实现多特征融合;
具体为:
特征提取网络输出第三、四、五层的预测特征图C3、C4、C5;
分别对输出的第三、四层预测特征图C3、C4进行1x1卷积运算与下采样操作;
以中心为基准裁剪下采样后的特征图,实现与第五层输出的预测特征图尺寸一致,得到裁剪后的特征图M3、M4;
利用多头注意力机制,将裁剪后的特征图M3、M4与第五层输出的预测特征图C5进行叠加,实现不同尺度的特征融合。
4.如权利要求3所述的一种无人机目标跟踪方法,其特征是,所述利用多头注意力机制,将裁剪后的特征图M3、M4与第五层输出的预测特征图C5进行叠加,具体为:
将裁剪后的特征图M3、M4与第五层输出的预测特征图C5分别进行展平处理并进行线性映射,获得每层对应的查询值;
将裁剪后的特征图M4进行卷积、归一化、非线性变换,并通过全连接层增大通道维度,获得键值和评估值;
分别对M3、M4、C5层进行多头注意力操作,其中查询值使用每层对应的查询值,键值和评估值使用对特征图M4处理后获得的键值和评估值;
引入超参数向量,将多头注意力机制输出结果进行空间维度的线性插值。
5.如权利要求3所述的一种无人机目标跟踪方法,其特征是,将融合后的特征图输入RPN网络进行up-channel Cross Correlation互相关操作,输出预测的特征图置信度和目标边界框位置;
采用余弦窗和尺度变化惩罚对预测结果进行排序,得出最终的目标边界框。
6.如权利要求1所述的一种无人机目标跟踪方法,其特征是,所述利用获得的路径规划目标值实时规划最优路径,具体为:
使用ego-planner规划器在不考虑障碍物的条件下生成轨迹;
基于局部障碍物信息,采用B样条曲线进行轨迹优化;
规划器判断动力学不可行的轨迹,激活细化过程。
7.如权利要求6所述的一种无人机目标跟踪方法,其特征是,所述基于局部障碍物信息,采用B样条曲线进行轨迹优化,具体为:
提取当前轨迹撞到的障碍物的信息,获取穿过障碍物的B样条曲线的控制点Qi,发生碰撞的线段的每个控制点Qi都会生成一个在障碍物表面的定位点pij,并对应一个指向障碍物***方向的梯度向量
Figure FDA0003886961640000031
其中i为控制点的索引,j为{p,v}对的索引;依据Qi到第j个障碍物的距离
Figure FDA0003886961640000032
使轨迹不断迭代远离障碍物。
8.一种无人机目标跟踪***,其特征是,包括:
初始化模块,用于无人机接收解锁指令与跟踪指令,初始化模型超参数,加载预训练的无人机目标跟踪模型;
特征提取融合模块,用于提取模板区域图像特征和搜索区域图像特征,利用无人机目标跟踪模型进行多特征融合,得到搜索区域图像中的目标边界框;
坐标转换模块,用于利用无人机单目相机仿真模型,将得到的目标边界框位置坐标转换为世界坐标系下的坐标,作为路径规划的目标值;
路径规划模块,用于利用获得的路径规划目标值实施规划最优路径。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种无人机目标跟踪方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种无人机目标跟踪方法中的步骤。
CN202211246719.4A 2022-10-12 2022-10-12 一种无人机目标跟踪方法、***、介质及电子设备 Pending CN115578416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211246719.4A CN115578416A (zh) 2022-10-12 2022-10-12 一种无人机目标跟踪方法、***、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211246719.4A CN115578416A (zh) 2022-10-12 2022-10-12 一种无人机目标跟踪方法、***、介质及电子设备

Publications (1)

Publication Number Publication Date
CN115578416A true CN115578416A (zh) 2023-01-06

Family

ID=84585879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211246719.4A Pending CN115578416A (zh) 2022-10-12 2022-10-12 一种无人机目标跟踪方法、***、介质及电子设备

Country Status (1)

Country Link
CN (1) CN115578416A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309727A (zh) * 2023-05-26 2023-06-23 中南大学 基于深度学习算法的无人机目标追踪方法及仿真***
CN117079196A (zh) * 2023-10-16 2023-11-17 长沙北斗产业安全技术研究院股份有限公司 基于深度学习以及目标运动轨迹的无人机识别方法
CN118210321A (zh) * 2024-05-21 2024-06-18 鹰驾科技(深圳)有限公司 一种基于360环视摄像头的无人机行人跟踪***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309727A (zh) * 2023-05-26 2023-06-23 中南大学 基于深度学习算法的无人机目标追踪方法及仿真***
CN117079196A (zh) * 2023-10-16 2023-11-17 长沙北斗产业安全技术研究院股份有限公司 基于深度学习以及目标运动轨迹的无人机识别方法
CN117079196B (zh) * 2023-10-16 2023-12-29 长沙北斗产业安全技术研究院股份有限公司 基于深度学习以及目标运动轨迹的无人机识别方法
CN118210321A (zh) * 2024-05-21 2024-06-18 鹰驾科技(深圳)有限公司 一种基于360环视摄像头的无人机行人跟踪***
CN118210321B (zh) * 2024-05-21 2024-07-26 鹰驾科技(深圳)有限公司 一种基于360环视摄像头的无人机行人跟踪***

Similar Documents

Publication Publication Date Title
CN111201451B (zh) 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置
CN115578416A (zh) 一种无人机目标跟踪方法、***、介质及电子设备
EP3690744B1 (en) Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same
US20220198813A1 (en) System and method for efficient visual navigation
CN116385761A (zh) 一种融合rgb与红外信息的3d目标检测方法
CN116210030A (zh) 基于半监督关键点的模型
Xian et al. Location-guided lidar-based panoptic segmentation for autonomous driving
Saleem et al. Neural network-based recent research developments in SLAM for autonomous ground vehicles: A review
Liu et al. Autonomous lane keeping system: Lane detection, tracking and control on embedded system
Sun et al. RobNet: real-time road-object 3D point cloud segmentation based on SqueezeNet and cyclic CRF
CN117237884A (zh) 一种基于泊位定位的互动式巡检机器人
Li et al. Multi-modal neural feature fusion for automatic driving through perception-aware path planning
Zuo et al. LGADet: Light-weight anchor-free multispectral pedestrian detection with mixed local and global attention
Sun et al. Transformer-based moving target tracking method for Unmanned Aerial Vehicle
Wang et al. Sparse u-pdp: A unified multi-task framework for panoptic driving perception
CN118096819A (zh) 一种基于时空联合的无人机图像目标跟踪方法
Li et al. Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
Luo et al. IDS-MODEL: An efficient multi-task model of road scene instance and drivable area segmentation for autonomous driving
CN117058641A (zh) 一种基于深度学习的全景驾驶感知方法
Ai et al. MVTr: multi-feature voxel transformer for 3D object detection
Liu et al. Moving vehicle tracking and scene understanding: A hybrid approach
Liu et al. Real-time monocular depth estimation for low-power embedded systems using deep learning
Afif et al. Indoor objects detection system implementation using multi-graphic processing units
Li et al. Enhancing Real-time Target Detection in Smart Cities: YOLOv8-DSAF Insights

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination