CN111310631B

CN111310631B - 一种旋翼作业飞行机器人目标跟踪方法及***

Info

Publication number: CN111310631B
Application number: CN202010084629.4A
Authority: CN
Inventors: 王耀南; 周士琪; 谭建豪; 钟杭; 冯明涛; 刘力铭
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2021-05-07
Anticipated expiration: 2040-02-10
Also published as: CN111310631A

Abstract

本发明属于视觉目标跟踪技术领域，公开了一种旋翼作业飞行机器人目标跟踪方法及***，以Siamfc框架为基础，通过偏移量学习，引入Resnet50作为特征提取网络，使网络学习到更多语义信息，应对目标外观变化；跟踪网络在分类判别器的基础上新增一个目标尺度估计模块，可预测目标边界框与目标真实框的IOU，准确的对目标边界框进行预测，并通过反向梯度对边界框进行迭代修正，使网络能准确的对目标的尺度变化进行预测；利用Resnet50多层特征输出，采用残差融合的策略，对网络不同层的输出进行融合，进一步提升算法的鲁棒性，提高网络性能，并保障了网络对小目标的判别能力，最终实现对目标的准确跟踪。

Description

一种旋翼作业飞行机器人目标跟踪方法及***

技术领域

本发明属于视觉目标跟踪技术领域，尤其涉及一种旋翼作业飞行机器人目标跟踪方法及***。

背景技术

目前，视觉目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用，例如：视频监控，人机交互，无人驾驶等。过去二三十年视觉目标跟踪技术取得了长足的进步，特别是最近两年利用深度学习的目标跟踪方法取得了令人满意的效果，使目标跟踪技术获得了突破性的进展。

目标跟踪技术在无人机领域有非常丰富的应用，战场目标自动检测与跟踪技术***已成为无人机对战战场实现态势感知与精准打击的基段。机载计算机通过对图像进行一定的预处理、感兴趣区域分析和目标特征提取，进一步实现对敌方目标的自动检测和跟踪。在民用方面，飞行器通过目标跟踪可实现对特定目标的实时跟拍，在体育赛事和航拍等任务中都有非常多的应用。一个对光照变化、目标遮挡、快速运动、物体模糊等具有较强鲁棒性的实时跟踪算法是当前研究的重点。

但是，跟踪过程中，由于目标遮挡、形变、光照变化等问题极易造成跟踪目标的丢失，旋翼作业飞行机器人的控制算法有待完善，因此旋翼作业飞行机器人的目标跟踪技术还存在诸多技术挑战。采用传统的基于Siamese网络的目标跟踪算法，由于其特征提取层太浅，对目标的特征表达能力不足，直接引入深度网络反而会使算法的性能下降，不能充分应对实际跟踪时的复杂变化。因此，亟需一种新的旋翼作业飞行机器人目标跟踪方法，以解决现有技术中存在的问题。

通过上述分析，现有技术存在的问题及缺陷为：采用传统的基于Siamese 网络的目标跟踪算法，由于其特征提取层太浅，对目标的特征表达能力不足。跟踪算法需要在第一帧中就充分学习到目标的特征，以对目标进行跟踪。而第一帧中只包含了少量的目标信息，旋翼飞行作业机器人在后续跟踪过程中，可能会遇到目标形变、目标遮挡、光照变化、相机抖动等各种情况，这使得***难以完成复杂情况下的跟踪任务。并且当前的目标跟踪算法大多缺少对目标的尺度估计模块，很多采用多尺度搜索的方法确定目标的尺度变化，这导致算法的精度降低，多次搜索还降低了算法的实时性能。采用本发明的技术方案可以使跟踪网络更多的学习到目标的语义信息，解决在目标外观发生形变、模糊、光照变化等情况下对目标的识别能力，通过引入一个尺度估计模块，使网络能准确的对目标的尺度进行预测，保证了跟踪算法的高精度，并且满足实时性能的需求。

解决以上问题及缺陷的难度为：通过引入深度网络如ResNet50，在理论上可以使特征提取网络学***移不变性的限制，直接引入深度网络后破坏了这种性能，反而会使跟踪算法的性能下降。另外目标尺度模块的预测是一个复杂的任务，需要网络学习到更多的语义信息，而不是一些浅层的特征信息，因此同样需要一个更深的特征提取网络，设计一个有效的目标尺度估计模块还需考虑诸多因素，如以何种方式嵌入到跟踪网络、网络的感受野设计、通过何种方式对特征进行融合，一个与目标判别分类模块不匹配的尺度估计模块反而导致性能的下降。

解决以上问题及缺陷的意义为：本发明通过学习目标运动偏移量的方式成功引入了ResNet50作为特征提取网络，在目标得分置信度模块的基础上新增一个目标尺度估计模块，可预测目标边界框与目标真实框的IOU，并通过反向梯度对边界框进行迭代修正，应对目标的尺度变化，利用ResNet50多层特征输出，采用残差融合的策略，进一步提高网络性能。通过上述方法，大大提升了跟踪算法在各种条件的鲁棒性能，尤其是应对目标遮挡、快速运动、尺度变化、视角变化等情况，使旋翼作业飞行机器人能在各种复杂环境下对目标进行准确的跟踪作业，减少目标跟丢、跟错，是进一步实现旋翼作业飞行机器人自主功能的基础。

发明内容

针对现有技术存在的问题，本发明提供了一种旋翼作业飞行机器人目标跟踪方法及***。

本发明是这样实现的，一种旋翼作业飞行机器人目标跟踪方法，所述旋翼作业飞行机器人目标跟踪方法包括以下步骤：

步骤一，使用pytorch框架在ILSVRC2015、Lasot、Coco、GOT-10k数据集上对跟踪网络进行训练。

步骤二，通过旋翼作业飞行机器人搭载的深度相机实时获取图像信息，首先选取旋翼作业飞行机器人待跟踪的目标作为跟踪算法的初始化目标，得到初始目标框的位置信息。

步骤三，Siamiou网络在第一帧中对初始目标框区域通过Resnet50提取目标的特征信息，对模板网络的参数进行初始化。

步骤四，在后续帧中，对目标的搜索区域提取深度特征，并与模板网络进行卷积匹配，得到两条分支，目标判别分类分支与目标尺度估计分支。将目标判别分类分支的输出作为目标尺度估计分支的输入，最后得到目标的最优位置与尺度估计。

步骤五，通过跟踪算法获取的目标在图像中的二维坐标，并根据相应的深度信息，解算出目标的三维坐标，将其发送给旋翼作业飞行机器人，通过PID 控制调节旋翼作业飞行机器人的速度，实现对目标的跟踪。

进一步，步骤一中，所述跟踪网络的训练方法如下：

(1)数据集的预处理：将每个数据集视频序列中的图像以目标为中心，以一定的比例裁剪成511×511的大小，如果裁剪区域超出了原图，则用像素的平均值进行填充；对网络进行训练时，在ILSVRC2015、Lasot、Coco、GOT-10k数据集中每次以相同的概率随机选取一个数据集，并在数据集中随机选取一个视频帧中相隔一定距离的图像对，Coco数据集选取一对相同的图片作为数据扩充，采用平移、缩放、翻转、模糊等数据增强手段对图像对进行处理，最后将图像对输入到网络进行训练；

(2)构建网络的损失函数：网络的输出包含两条分支，其中目标判别分类分支得到一个h×w(17×17)的特征图表示目标在相应位置的得分置信度，目标尺度估计分支输出得到目标预测边界框框与目标真实边界框的IOU。

进一步，所述网络的输出具体包括：

1)对于目标判别分类分支，引入一个偏移量t＝(t_x，t_y)，表示目标相对于输出特征图中心点

的偏移量，其值等于(T_x/s，T_y/s)，其中T_x，T_y表示数据增强时目标的平移量，s表示网络的总步长8；将以目标偏移点为中心，半径为16区域的点视为正样本，其余的点都为负样本，则目标判别分类分支的标签y_score表示为：

其中，u∈R^h×w表示标签y_score相应点的坐标；

目标判别分类分支的输出score，表示为score＝g(c_res(S₁，S₂，S₃))；其中，S表示Resnet50分别在layer2、layer3、layer4层所提取的特征，c_res表示残差融合模块， g表示得分预测模块；采用logistics loss作为目标判别分类分支的损失函数，在输出特征图的每个坐标位置求损失并取平均值作为该分支的总损失，表达式为：

l(y_score，score)＝log(1+exp(-y_scorescore))；

2)对于目标尺度估计分支，将目标边界框的groundtruth加入一个高斯噪声，生成16个不同的边界框，并保证每个边界框与groundtruth的IOU大于0.1，将这16 个边界框映射到Resnet50在目标尺度估计分支所提取到的特征I＝(I₁，I₂，I₃)上，采用Prpool对这些区域提取特征。

进一步，步骤2)中，所述区域提取特征的方法如下：

将特征提取区域分为5×5个bin，令w_i，j表示特征图I上的离散特征点，对每个 in进行双线性插值：

将一个bin表示为bin＝{(x₁，y₁)，(x₂，y₂)}，其中(x₁，y₁)，(x₂，y₂)分别表示一个bin的左上角与右下角坐标，则Prpool表示为：

最后通过尺度估计模块b，计算得到16个目标边界框与groundtruth的预测 IOU：

iou＝b(concat(prpool(bin，I₁，I₂，I₃)))；

concat表示将Resnet50三个特征层的输出堆叠成一个；最后将这16个边界框与groundtruth之间的IOU归一化到[-1，1]，作为IOU的真实标签y_iou，采用MSEloss 作为目标尺度估计分支的损失函数，则该分支的损失表示为：

因为采用多任务学习对网络进行训练，网络的总损失可表示为L＝ L_iou+λL_score，其中λ＝2；采用随机梯度下降法来训练网络参数，总共训练20代，前 5代学习率从10^-3线性的增加到5×10^-3，后15代学习率对数减小到5×10^-4，特征提取网络Resnet50使用预训练模型，前10代不进行训练。

进一步，在完成网络训练后，实际的跟踪流程如下：

用矩形框选取要跟踪的目标，使用目标矩形框(x，y，h，w)对***进行初始化；

在第一帧中将图像以(x，y)为中心，base_sz为宽高的区域截取图像，并resize到127×127，将其作为输入到模板分支对模板网络进行初始化，得到目标的模板特征，其中：

base_z＝(h，z)+(h+z)×0.5；

在后续帧中，以上一帧检测到的目标(x′，y′，h′，w)为中心，以base_sx′为宽高截取图像区域，并resize到255×255，将其输入到网络的检测分支与目标的模板特征进行卷积匹配，得到目标的得分置信度score，其中：

base_z′＝(h′，w′)+(h′+W′)×0.5；

选取目标得分置信度最高的点，相应的坐标表示目标在当前帧对于上一帧的偏移量(Δx，Δy),计算可得到目标在当前帧的边界框(x，y，h′，w′)，目标的宽高与上一帧相同；对该边界框加入均匀随机噪声产生额外9个初始框，将这10个框输入到目标尺度估计分支；

目标尺度估计分支，在这10个边界框处通过Prpool提取特征，最后通过尺度估计模块b预测得到目标的iou，令(x_1，j，y_1，j),(x_2，j，y_2，j)表示边界框的左上角和右下角坐标，j＝{1，2…，10}，由于Prpool(bin，I)相对于边界框坐标是连续可导的，如Prpool(bin，I) 相对于边界框相左上角横坐标的倒数为：

因此通过梯度上升法对目标边界框进行迭代修正，目标iou最大：

迭代5轮，最后选取iou最大的3个边界框，取平均值作为最后目标边界框的预测，实现对目标的跟踪。

进一步，步骤二中，根据深度相机实时获取的RGB图像，通过矩形框选取待跟踪的目标，将矩形框的中心点坐标以及矩形框的宽高作为跟踪算法的初始化参数。

进一步，步骤二中，采用训练好的resnet50网络，对初始化矩形框区域提取目标的深度特征。该网络利用了一个7×7卷积层、一个3×3的池化层、3个卷积组conv2_x、conv3_x、conv4_x，每组分别包含了3、4、6个残差模块。在进行多层特征融合时，将同时利用到conv2_3、conv3_4、conv4_6层的输出作为所提取的模板特征。

进一步，步骤三中，所述Siamiou跟踪网络，是通过在pytorch上搭建网络结构，在ILSVRC2015、Lasot、Coco、GOT-10k数据集上随机选取图像对，并对图像对进行数据增强处理来对网络进行训练，最后得到一个具有高精度的网络参数。

进一步，步骤四中，所述Siamiou网络在后续帧中的跟踪步骤为：

(1)对目标搜索区域提取特征，得到三个在不同网络层的深度特征。

(2)将提取的特征与相应层的模板网络卷积匹配，得到判别分类分支与目标尺度估计分支，每条分支包含了3个输出。通过判别分类分支得到目标置信度得分，其最大值位置对应目标的偏移量，计算得到当前帧目标在图像中的坐标。

(3)将当前帧目标坐标与上一帧目标边界框作为目标尺度估计分支的输入，在相应的区域，通过Prpool提取特征，最后通过全连接层计算得到目标预测边界框相对于目标真实边界框的IOU。

(4)计算IOU相对于预测目标框顶点坐标(x₁，y₁)，(x₂，y₂)的梯度，利用梯度上升法对目标边界框进行迭代修正，使IOU最大，最后得到目标最佳的位置与尺度估计。

进一步，步骤五中，通过获取目标在图像中的坐标(x，y)来确定在相应深度图中目标点的深度信息，并转化为世界坐标系下的三维标，根据旋翼作业飞行机器人当前位置，与目标位置的误差作为PID控制的输入来调节旋翼作业飞行机器人的线速度与角速度，实现对目标的跟踪。

本发明的另一目的在于提供一种实施旋翼作业飞行机器人目标跟踪***包括：

初始目标框位置信息获取模块，用于使用pytorch框架在ILSVRC2015、Lasot、Coco、GOT-10k数据集上对跟踪网络进行训练；通过旋翼作业飞行机器人搭载的深度相机实时获取图像信息，首先选取旋翼作业飞行机器人待跟踪的目标作为跟踪算法的初始化目标，得到初始目标框的位置信息；

参数初始化模块，用于Siamiou网络在第一帧中对初始目标框区域通过 Resnet50提取目标的特征信息，对模板网络的参数进行初始化；

目标最优位置与尺度估计模块，用于在后续帧中，对目标的搜索区域提取深度特征，并与模板网络进行卷积匹配，得到两条分支，目标判别分类分支与目标尺度估计分支；将目标判别分类分支的输出作为目标尺度估计分支的输入，最后得到目标的最优位置与尺度估计；

目标跟踪模块，通过跟踪算法获取的目标在图像中的二维坐标，并根据相应的深度信息，解算出目标的三维坐标，将其发送给旋翼作业飞行机器人，通过PID控制调节旋翼作业飞行机器人的速度，实现对目标的跟踪。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述旋翼作业飞行机器人目标跟踪方法。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述旋翼作业飞行机器人目标跟踪方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：通过采用更深的特征提取网络，提高了网络的语义表达能力，使目标出现形变、模糊等外观变化时，能准确识别出目标；通过目标尺度估器，能准确的对目标边界框进行预测，并对其进行迭代修正，使网络能准确的对目标的尺度变化进行预测。最后对网络不同层的输出进行融合，进一步提升算法的鲁棒性，使得旋翼作业飞行机器人能准确的对目标进行跟踪。

本发明在VOT2016数据集上进行测试，该数据集包含了60个不同条件下的 (遮挡、旋转、光照变化、目标形变等)视频帧，并通过更精准的旋转框对目标边界框进行标注。通过该数据集专用的测试工具箱(vot-toolkit)对本文算法的A(精度)、R(鲁棒性)、EAO(期望平均覆盖率)进行测试，与当前最好的一些算法进行对比，结果如下VOT性能指标测试结果对比表所示。本发明在精度上达到了最高，同时鲁棒性与期望平均覆盖率也超过了大部分算法。相对于基线算法SiamFC的EAO提升了17.1个点，相对于V0T2016竞赛的冠军C-COT 的EAO提升了7.5个点。相对DiSiamRPN在精度上提升了1个点，在V0T2016 上取得了领先水平。本发明与其他主流算法在VOT2016上的跟踪结果可视化效果如图9所示，本发明的算法在发生目标遮挡、尺度变化、相似目标等情况时都可以对目标框进行准确的预测跟踪。综上，可以看到本发明算法的优越性，在精度与鲁棒性上都达到了较高的性能，使旋翼飞行作业机器人在复杂环境下的工作得到了保障。

VOT性能指标测试结果对比表

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的旋翼作业飞行机器人目标跟踪方法流程图。

图2是本发明实施例提供的旋翼作业飞行机器人实物图。

图3是本发明实施例提供的跟踪算法整体结构网络图。

图4是本发明实施例提供的多特征输出融合网络结构图。

图5是本发明实施例提供的算法各模块性能分析实验图。

图6是本发明实施例提供的LaSOT数据集测试结果示意图。

图7是本发明实施例提供的UAV123数据集在光照变化、快速运动、目标遮挡、目标形变等情况下的测试结果示意图。

图8是本发明实施例提供的UAV123数据集视频帧跟踪可视化效果示意图。

图9是本发明实施例提供的VOT2016跟踪结果可视化效果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种旋翼作业飞行机器人目标跟踪方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的旋翼作业飞行机器人目标跟踪方法包括以下步骤：

S101，使用pytorch框架在ILSVRC2015、Lasot、Coco、GOT-10k数据集上对跟踪网络进行训练。

S102，通过旋翼作业飞行机器人搭载的深度相机实时获取图像信息，首先选取旋翼作业飞行机器人待跟踪的目标作为跟踪算法的初始化目标，得到初始目标框的位置信息。

S103，Siamiou网络在第一帧中对初始目标框区域通过Resnet50提取目标的特征信息，对模板网络的参数进行初始化。

S104，在后续帧中，对目标的搜索区域提取深度特征，并与模板网络进行卷积匹配，得到两条分支，目标判别分类分支与目标尺度估计分支。将目标判别分类分支的输出作为目标尺度估计分支的输入，最后得到目标的最优位置与尺度估计。

S105，通过跟踪算法获取的目标在图像中的二维坐标，并根据相应的深度信息，解算出目标的三维坐标，将其发送给旋翼作业飞行机器人，通过PID控制调节旋翼作业飞行机器人的速度，实现对目标的跟踪。

本发明提供一种实施旋翼作业飞行机器人目标跟踪***包括：

初始目标框位置信息获取模块，用于使用pytorch框架在ILSVRC2015、 Lasot、Coco、GOT-10k数据集上对跟踪网络进行训练；通过旋翼作业飞行机器人搭载的深度相机实时获取图像信息，首先选取旋翼作业飞行机器人待跟踪的目标作为跟踪算法的初始化目标，得到初始目标框的位置信息。

参数初始化模块，用于Siamiou网络在第一帧中对初始目标框区域通过 Resnet50提取目标的特征信息，对模板网络的参数进行初始化。

目标最优位置与尺度估计模块，用于在后续帧中，对目标的搜索区域提取深度特征，并与模板网络进行卷积匹配，得到两条分支，目标判别分类分支与目标尺度估计分支；将目标判别分类分支的输出作为目标尺度估计分支的输入，最后得到目标的最优位置与尺度估计。

下面结合实施例对本发明作进一步描述。

本发明中，旋翼作业飞行机器人通过其搭载的深度相机，实时的获取跟踪目标的图像序列以及目标的深度信息，利用跟踪算法获得目标在图像中的二维坐标，并将其转为为相应的三维坐标，将旋翼作业飞行机器人当前坐标与目标坐标之间的距离作为PID控制的输入，对旋翼作业飞行机器人的速度进行调节，实现对目标的跟踪。但是，跟踪过程中，由于目标遮挡、形变、光照变化等问题极易造成跟踪目标的丢失，旋翼作业飞行机器人的控制算法也有待完善，因此旋翼作业飞行机器人的目标跟踪技术还存在诸多技术挑战。采用传统的基于 Siamese网络的目标跟踪算法，由于其特征提取层太浅，对目标的特征表达能力不足，直接引入深度网络反而会使算法的性能下降，不能充分应对实际跟踪时的复杂变化。

本发明提出了一种高精度的目标跟踪算法Siamiou，该算法通过对目标偏移量的学习，成功引入Resnet50作为特征提取网络，使网络学习到更多语义信息，以应对目标外观变化。通过引入一个尺度估计模块，来对目标的边界框进行预测，并通过梯度上升法对边界框进行迭代修正，得到目标最优边界框，以应对目标的尺度变化。最后利用多层特征，采用残差融合的策略，进一步提升网络的性能。通过以上设计，该算法能准确的实现对目标的跟踪。

由于本方法采用的是基于深度学习的目标跟踪算法，所以需要先对跟踪网络进行训练，本发明使用pytorch框架在ILSVRC2015、Lasot、Coco、GOT-10k 数据集上对网络进行训练，跟踪网络的具体结构见图一，网络的具体训练流程如下：

数据集的预处理，为了减少在训练过程中对数据进行处理，将每个数据集视频序列中的图像以目标为中心，以一定的比例裁剪成511×511的大小，如果裁剪区域超出了原图，则用像素的平均值进行填充。对网络进行训练时，在 ILSVRC2015、Lasot、Coco、GOT-10k数据集中每次以相同的概率随机选取一个数据集，并在数据集中随机选取一个视频帧中相隔一定距离的图像对(Coco数据集选取一对相同的图片作为数据扩充)，采用平移、缩放、翻转、模糊等数据增强手段对图像对进行处理，最后将图像对输入到网络进行训练。

构建网络的损失函数，网络的输出包含两条分支，其中目标判别分类分支得到一个h×w(17×17)的特征图表示目标在相应位置的得分置信度，目标尺度估计分支输出得到目标预测边界框框与目标真实边界框的IOU。

对于目标判别分类分支，引入一个偏移量t＝(t_x，t_y)，表示目标相对于输出特征图中心点

的偏移量，其值等于(T_x/s，T_y/s)，其中T_x，T_y表示数据增强时目标的平移量，s表示网络的总步长8；将以目标偏移点为中心，半径为16区域的点视为正样本，其余的点都为负样本，则目标判别分类分支的标签 y_score表示为：

其中，u∈R^h×w表示标签y_score相应点的坐标。

目标判别分类分支的输出score，表示为score＝g(c_res(S₁，S₂，S₃))；其中，S表示Resnet50分别在layer2、layer3、layer4层所提取的特征，c_res表示残差融合模块，g表示得分预测模块；采用logistics loss作为目标判别分类分支的损失函数，在输出特征图的每个坐标位置求损失并取平均值作为该分支的总损失，表达式为：

l(y_score，score)＝log(1+exp(-y_scorescore))；

对于目标尺度估计分支，将目标边界框的groundtruth加入一个高斯噪声，生成16个不同的边界框，并保证每个边界框与groundtruth的IOU大于0.1，将这16 个边界框映射到Resnet50在目标尺度估计分支所提取到的特征I＝(I₁，I₂，I₃)上，采用 Prpool对这些区域提取特征。

对于目标尺度估计分支，将目标边界框的groundtruth加入一个高斯噪声，生成16个不同的边界框，并保证每个边界框与groundtruth的IOU大于0.1，将这16 个边界框映射到Resnet50在目标尺度估计分支所提取到的特征I＝(I₁，I₂，I₃)上，采用 Prpool对这些区域提取特征，其过程如下：

将一个bin表示为bin＝{(x₁，y₁)，(x₂，y₂)}，其中(x₁，y₁)，(x₂，y₂)分别表示一个bin的左上角与右下角坐标，则Prpool可表示为：

iou＝b(concat(Prpool(bin，I₁，I₂，I₃)))；

concat表示将Resnet50三个特征层的输出堆叠成一个。最后将这16个边界框与groundtruth之间的IOU归一化到[-1，1]，作为IOU的真实标签y_iou，采用MSEloss 作为目标尺度估计分支的损失函数，则该分支的损失可表示为：

因为采用多任务学习对网络进行训练，网络的总损失可表示为L＝ L_iou+λL_score，其中λ＝2。采用随机梯度下降法来训练网络参数，总共训练20代，前 5代学习率从10^-3线性的增加到5×10^-3，后15代学习率对数减小到5×10^-4，特征提取网络Resnet50使用预训练模型，前10代不进行训练。

在完成网络训练后，实际的跟踪流程如下：

用矩形框选取要跟踪的目标，使用目标矩形框(x，y，h，w)对***进行初始化。

在第一帧中将图像以(x，y)为中心，base_ss为宽高的区域截取图像，并resize到127×127，将其作为输入到模板分支对模板网络进行初始化，得到目标的模板特征，其中：

base_z＝(h，z)+(h+z)×0.5。

在后续帧中，以上一帧检测到的目标(x′，y′，h′，w′)为中心，以base_sx′为宽高截取图像区域，并resize到255×255，将其输入到网络的检测分支与目标的模板特征进行卷积匹配，得到目标的得分置信度score，其中：

base_z′＝(h＇，w＇)+(h＇+w′)×0.5。

选取目标得分置信度最高的点，其相应的坐标表示目标在当前帧对于上一帧的偏移量(Δx，Δy),计算可得到目标在当前帧的边界框(x，y，h′，w′)，目标的宽高与上一帧相同。对该边界框加入均匀随机噪声产生额外9个初始框，将这10个框输入到目标尺度估计分支。

目标尺度估计分支，在这10个边界框处通过Prpool提取特征，最后通过尺度估计模块b预测得到目标的iou，令(x_1，j，y_1，j),(x_2，j，y_2，j)表示边界框的左上角和右下角坐标，j＝{1，2…，10}，由于Prpool(bin，I)相对于边界框坐标是连续可导的,如Prpool(bin，I) 相对于边界框相左上角横坐标的倒数为：

因此可通过梯度上升法对目标边界框进行迭代修正，来时目标iou最大：

一共迭代5轮，最后选取iou最大的3个边界框，对它们取平均值作为最后目标边界框的预测，实现对目标的跟踪。

综上，随着无人机技术的发展，及其自动化水平的不断提高，基于计算机视觉的目标跟踪技术与无人机技术的结合成为了当下研究的热点。本发明针对旋翼作业飞行机器人在目标跟踪过程中可能出现的光照变化，快速运动、目标模糊、尺度变化等问题，提出了一种高精度的目标跟踪算法(Siamiou)。该算法以Siamfc框架为基础，通过偏移量学习，引入Resnet50作为特征提取网络，使网络学习到更多语义信息，应对目标外观变化；跟踪网络在分类判别器的基础上新增一个目标尺度估计模块，可预测目标边界框与目标真实框的IOU，并通过反向梯度对边界框进行迭代修正，应对目标的尺度变化；利用Resnet50多层特征输出，采用残差融合的策略，提高网络性能，并提高对小目标的判别能力。通过上述改进，可实现对目标的准确跟踪。

下面结合具体实验/仿真对本发明作进一步描述。

本发明实施例提供的旋翼作业飞行机器人实物图如图2所示。

本发明实施例提供的跟踪算法整体结构网络图如图3所示。

本发明实施例提供的多特征输出融合网络结构图如图4所示。

本发明的算法主要由三个模块组成，分别是特征提取网络ResNet50、目标判别分类模块、与模板尺度估计模块、多层特征融合模块。

下面对各模块对算法的性能影响进行分析，方法1将SiamFC算法作为基线算法进行对比，在VOT2016上进行测试，结果如图5所示。方法一表示SiamFC 算法，其在ILSVRC2015(VID)数据集上进行训练，采用AlexNet作为特征提取网络。

方法2通过偏移量学习引入ResNet50，并进行数据扩增后，算法的性能明显提升，可见更深的网络，更丰富的数据集对跟踪算法的重要性。

方法3中利用直接堆叠的方式对判别分类模块的特征进行融合，但是算法性能几乎没有提升。

方法4中采用残差融合的策略成功提升了算法的性能，这主要是因为判别分类模块的特征具有不同的感受野，直接融合无法充分利用不同层的特征输入，而通过一个残差模块可对不同层的特征进行处理，可以得到一个更好的特征输出。

方法5和方法6都引入了目标尺度估计模块，但分支采用普通融合的方式和残差融合的方式，采用普通融合方式时，算法性能略微提升，个别指标甚至下降。采用残差融合时，算法性能明显提升，达到最优。这主要是因为，目标尺度估计模块将目标判别分类模块的输出作为输入，在其得到目标初步位置的基础上，对目标的IOU进行预测，因此当得分置信度模块可靠度高时，目标尺度估计模块会进一步提升算法的性能，而当得分置信度模块效果较差时，尺度估计模块甚至可能损害网络性能，可见设计一个更好的得分置信度模块，还能使算法性能提升。

在UAV123上对本发明进行测试，该数据集由低空无人机捕获的视频组成，包含了123个视频序列，每个视频序列平均有900帧，在视角变化、相机运动、快速运动、目标形变等12钟不同情况下对本发明的算法的性能进评估并与 UAV123上公开的算法测试结果进行对比，在各种情况下均取得了领先水平，其中在目标遮挡、快速运动、尺度变化、视角变化等情况取得了明显的提升，其结果如图7所示，在UAV123数据集视频帧上的跟踪可视化效果图如图8所示，对飞行器拍摄的微小目标、相似目标以及目标发生遮挡和尺度变化时都能进行准确的跟踪。

LaSOT数据集是2019年发布的最新的大型目标跟踪数据集，包含了1400个视频，涵盖了70个类别，每个类别包含了20个序列，每个视频序列平均2512 帧，是目前为止单目标跟踪最大的拥有密集标注数据集。其中，200个视频用于测试，其余用于训练。为了进一步验证本发明的算法性能，在LaSOT测试集上进行评估，并与当前面一些主流算法对比，结果如图6所示。其归一化精度与精度分别比MDNet提升了9.1％和12.3％。

本发明实施例提供的UAV123数据集在光照变化、快速运动、目标遮挡、目标形变等情况下的测试结果示意图如图7所示。

本发明实施例提供的UAV123数据集视频帧跟踪可视化效果示意图如图8所示。

本发明与其他主流算法在VOT2016上的跟踪结果可视化效果如图9所示，本发明的算法在发生目标遮挡、尺度变化、相似目标等情况时都可以对目标框进行准确的预测跟踪。综上，可以看到本发明算法的优越性，在精度与鲁棒性上都达到了较高的性能，使旋翼飞行作业机器人在复杂环境下的工作得到了保障。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种旋翼作业飞行机器人目标跟踪方法，其特征在于，所述旋翼作业飞行机器人目标跟踪方法包括：

步骤一，使用pytorch框架在ILSVRC2015、Lasot、Coco、GOT-10k数据集上对跟踪网络进行训练；

步骤二，通过旋翼作业飞行机器人搭载的深度相机实时获取图像信息，首先选取旋翼作业飞行机器人待跟踪的目标作为跟踪算法的初始化目标，得到初始目标框的位置信息；

步骤三，Siamiou网络在第一帧中对初始目标框区域通过Resnet50提取目标的特征信息，对模板网络的参数进行初始化；所述Siamiou网络为目标跟踪算法网络；

步骤四，在后续帧中，对目标的搜索区域提取深度特征，并与模板网络进行卷积匹配，得到两条分支，目标判别分类分支与目标尺度估计分支；将目标判别分类分支的输出作为目标尺度估计分支的输入，最后得到目标的最优位置与尺度估计；

步骤五，通过跟踪算法获取的目标在图像中的二维坐标，并根据相应的深度信息，解算出目标的三维坐标，将其发送给旋翼作业飞行机器人，通过PID控制调节旋翼作业飞行机器人的速度，实现对目标的跟踪。

2.如权利要求1所述的旋翼作业飞行机器人目标跟踪方法，其特征在于，步骤一中，所述跟踪网络的训练方法如下：

(1)数据集的预处理：将每个数据集视频序列中的图像以目标为中心，以一定的比例裁剪成511×511的大小，如果裁剪区域超出了原图，则用像素的平均值进行填充；对网络进行训练时，在ILSVRC2015、Lasot、Coco、GOT-10k数据集中每次以相同的概率随机选取一个数据集，并在数据集中随机选取一个视频帧中相隔一定距离的图像对，Coco数据集选取一对相同的图片作为数据扩充，采用平移、缩放、翻转、模糊数据增强手段对图像对进行处理，最后将图像对输入到网络进行训练；

(2)构建网络的损失函数：网络的输出包含两条分支，其中目标判别分类分支得到一个h×w的特征图表示目标在相应位置的得分置信度，目标尺度估计分支输出得到目标预测边界框框与目标真实边界框的IOU，所述h×w为17×17。

3.如权利要求2所述的旋翼作业飞行机器人目标跟踪方法，其特征在于，所述网络的输出具体包括：

的偏移量，其值等于(T_x/s，T_y/s)，其中T_x，T_y表示数据增强时目标的平移量，s表示网络的总步长，总步长为8；将以目标偏移点为中心，半径为16区域的点视为正样本，其余的点都为负样本，则目标判别分类分支的标签y_score表示为：

其中，u∈R^h×w表示标签y_score相应点的坐标；

目标判别分类分支的输出score，表示为score＝g(c_res(S₁，S₂，S₃))；其中，S1，S2，S3表示Resnet50分别在layer2、layer3、layer4层所提取的特征，c_res表示残差融合模块，g表示得分预测模块；采用logistics loss作为目标判别分类分支的损失函数，在输出特征图的每个坐标位置求损失并取平均值作为该分支的总损失，表达式为：

l(y_score，score)＝log(1+exp(-y_scorescore))；

2)对于目标尺度估计分支，将目标边界框的groundtruth加入一个高斯噪声，生成16个不同的边界框，并保证每个边界框与groundtruth的IOU大于0.1，将这16个边界框映射到Resnet50在目标尺度估计分支所提取到的特征I＝(I₁，I₂，I₃)上，采用Prpool对这些区域提取特征。

4.如权利要求3所述的旋翼作业飞行机器人目标跟踪方法，其特征在于，步骤2)中，所述区域提取特征的方法如下：

将特征提取区域分为5×5个bin，令w_i，j表示特征图I上的离散特征点，对每个bin进行双线性插值：

f(x，y)＝∑_i，jmax(0，1-|x-i|)×max(0，1-|y-i|)×w_i，j；

最后通过尺度估计模块b，计算得到16个目标边界框与groundtruth的预测IOU：

IOU＝b(concat(Prpool(bin，I₁，I₂，I₃)))IOU＝b(concat(Prpool(bin，I₁，I₂，I₃)))；

concat表示将Resnet50三个特征层的输出堆叠成一个；最后将这16个边界框与groundtruth之间的IOU归一化到[-1，1]，作为IOU的真实标签y_IOU，采用MSEloss作为目标尺度估计分支的损失函数，则该分支的损失表示为：

因为采用多任务学习对网络进行训练，网络的总损失可表示为L＝L_IOU+λL_score，其中λ＝2；采用随机梯度下降法来训练网络参数，总共训练20代，前5代学习率从10^-3线性的增加到5×10^-3，后15代学习率对数减小到5×10^-4，特征提取网络Resnet50使用预训练模型，前10代不进行训练。

5.如权利要求1所述的旋翼作业飞行机器人目标跟踪方法，其特征在于，在完成网络训练后，实际的跟踪流程如下：

base_z＝(h，w)+(h+w)×0.5；

base_z′＝(h′，w′)+(h′+w′)×0.5；

选取目标得分置信度最高的点，相应的坐标表示目标在当前帧对于上一帧的偏移量(Δx，Δy)，计算可得到目标在当前帧的边界框(x，y，h′，w′)，目标的宽高与上一帧相同；对该边界框加入均匀随机噪声产生额外9个初始框，将这10个框输入到目标尺度估计分支；

目标尺度估计分支，在这10个边界框处通过Prpool提取特征，最后通过尺度估计模块b预测得到目标的IOU，令(x_1，p，y_1，p)，(x_2，p，y_2，p)表示边界框的左上角和右下角坐标，p＝{1，2…，10}，由于Prpool(bin，I)相对于边界框坐标是连续可导的，如Prpool(bin，I)相对于边界框左上角横坐标的导数为：

6.如权利要求1所述的旋翼作业飞行机器人目标跟踪方法，其特征在于，步骤二中，根据深度相机实时获取的RGB图像，通过矩形框选取待跟踪的目标，将矩形框的中心点坐标以及矩形框的宽高作为跟踪算法的初始化参数；

采用训练好的resnet50网络，对初始化矩形框区域提取目标的深度特征；该网络利用了一个7×7卷积层、一个3×3的池化层、3个卷积组conv2_x、conv3_x、conv4_x，每组分别包含了3、4、6个残差模块；在进行多层特征融合时，将同时利用到conv2_3、conv3_4、conv4_6层的输出作为所提取的模板特征；

步骤三中，所述Siamiou跟踪网络，是通过在pytorch上搭建网络结构，在ILSVRC2015、Lasot、Coco、GOT-10k数据集上随机选取图像对，并对图像对进行数据增强处理来对网络进行训练，最后得到一个具有高精度的网络参数。

7.如权利要求1所述的旋翼作业飞行机器人目标跟踪方法，其特征在于，步骤四中，所述Siamiou网络在后续帧中的跟踪步骤为：

(1)对目标搜索区域提取特征，得到三个在不同网络层的深度特征；

(2)将提取的特征与相应层的模板网络卷积匹配，得到判别分类分支与目标尺度估计分支，每条分支包含了3个输出；通过判别分类分支得到目标置信度得分，其最大值位置对应目标的偏移量，计算得到当前帧目标在图像中的坐标；

(3)将当前帧目标坐标与上一帧目标边界框作为目标尺度估计分支的输入，在相应的区域，通过Prpool提取特征，最后通过全连接层计算得到目标预测边界框相对于目标真实边界框的IOU；

(4)计算IOU相对于预测目标框顶点坐标(x₁，y₁)，(x₂，y₂)的梯度，利用梯度上升法对目标边界框进行迭代修正，使IOU最大，最后得到目标最佳的位置与尺度估计；

步骤五中，通过获取目标在图像中的坐标(x，y)来确定在相应深度图中目标点的深度信息，并转化为世界坐标系下的三维标，根据旋翼作业飞行机器人当前位置，与目标位置的误差作为PID控制的输入来调节旋翼作业飞行机器人的线速度与角速度，实现对目标的跟踪。

8.一种实施权利要求1～7任意一项所述旋翼作业飞行机器人目标跟踪方法的旋翼作业飞行机器人目标跟踪***，其特征在于，所述旋翼作业飞行机器人目标跟踪***包括：

参数初始化模块，用于Siamiou网络在第一帧中对初始目标框区域通过Resnet50提取目标的特征信息，对模板网络的参数进行初始化；

9.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求1～7任意一项所述旋翼作业飞行机器人目标跟踪方法。

10.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1～7任意一项所述旋翼作业飞行机器人目标跟踪方法。