CN115439510B

CN115439510B - 一种基于专家策略指导的主动目标跟踪方法及***

Info

Publication number: CN115439510B
Application number: CN202211388347.9A
Authority: CN
Inventors: 宋然; 栾迎新; 张钰荻; 张伟; 李晓磊; 张倩
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-02-28
Anticipated expiration: 2042-11-08
Also published as: CN115439510A

Abstract

本发明公开的一种基于专家策略指导的主动目标跟踪方法及***，属于主动目标追踪技术领域，包括：获取场景观测图像、场景地图和智能***姿；根据场景地图和智能***姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家***和专家目标对象中，由专家目标对象和专家***进行对抗强化学习，通过专家***输出建议动作；将场景观测图像输入学生***中，将建议动作作为场景观测图像的标签对学生***进行训练，获得训练好的学生***；利用训练好的学生***对获取的场景实时图像进行识别，获得智能体决策动作。实现了对目标的准确追踪。

Description

一种基于专家策略指导的主动目标跟踪方法及***

技术领域

本发明涉及主动目标跟踪技术领域，尤其涉及一种基于专家策略指导的主动目标跟踪方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

主动目标跟踪是指在动态三维场景中，配备摄像机的智能体通过自主地调整动作，使得目标对象能始终以相对稳定的大小和姿态处于智能体视野中央。目前最先进的主动目标跟踪方法为依赖深度强化学习进行完全端到端的优化方法。整个端到端优化过程由数据驱动，神经网络需要足够多和好的样本来优化参数，强化学习优化也需要探索更多的状态和动作。但是，传统的主动目标跟踪方法采用直接对抗的学习策略，训练出的目标对象还没有利用障碍物的能力，所以无法给***带来足够多的挑战，比如环绕障碍物运动，使自身消失在***视野中。也就无法训练出可以处理复杂场景的***。因此，现有方法在复杂环境中不能保证能够进行准确的目标跟踪。

发明内容

本发明为了解决上述问题，提出了一种基于专家策略指导的主动目标跟踪方法及***，能够实现复杂场景中的主动目标跟踪。

为实现上述目的，本发明采用如下技术方案：

第一方面，公开了一种基于专家策略指导的主动目标跟踪方法，包括：

获取场景观测图像、场景地图和智能***姿；

根据场景地图和智能***姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；

将第一训练数据分别输入专家***和专家目标对象中，由专家目标对象和专家***进行对抗强化学习，通过专家***输出建议动作；

将场景观测图像输入学生***中，将建议动作作为场景观测图像的标签对学生***进行训练，获得训练好的学生***；

利用训练好的学生***对获取的场景实时图像进行识别，获得智能体决策动作。

第二方面，公开了一种基于专家策略指导的主动目标跟踪***，包括：

训练数据获取模块，用于获取场景观测图像、场景地图和智能***姿；

第一阶段训练模块，用于根据场景地图和智能***姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家***和专家目标对象中，由专家目标对象和专家***进行对抗强化学习，通过专家***输出建议动作；

学生***训练模块，用于将场景观测图像输入学生***中，将建议动作作为场景观测图像的标签对学生***进行训练，获得训练好的学生***；

实例跟踪模块，用于利用训练好的学生***对获取的场景实时图像进行识别，获得智能体决策动作。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于专家策略指导的主动目标跟踪方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于专家策略指导的主动目标跟踪方法所述的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明通过获得场景的智能体局部地图和地图中的智能体运动轨迹，对专家模型进行训练，通过专家***输出建议动作，通过专家目标对象输出逃脱策略，之后，利用专家***输出的建议动作作为场景观测图像的标签，将场景观测图像输入到学生***中，对学生***进行训练，获得训练好的学生***，将专家***的强大场景理解能力和决策能力迁移到学生***中，使得学生***具备了避障功能，且在提高学生***性能的同时，省去了在推理过程中在线建图的额外开销，提高了计算速率，保证目标跟踪的实时性能。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例1公开方法的整体结构框图；

图2为实施例1为训练场景构建的全局地图；

图3为实施例1公开的训练专家智能体时所用地图和智能体轨迹的可视化图；

图4为实施例1公开的奖励机制的对比示意图，其中（a）为障碍物分布情况，（b）为专家***训练所用的奖励机制；

图5为验证实施例1公开***跟踪效果时手写的目标对象轨迹；

图6为实施例1公开***的仿真演示结果，其中（a）为专家***演示结果，（b）为学生***演示结果。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

为了提高主动目标跟踪的准确性和实时性，在该实施例中，公开了一种基于专家策略指导的主动目标跟踪方法，如图1所示，包括：

S1：获取场景观测图像、场景地图和智能***姿。

其中，获取的场景观测图像为每时刻***视角下的场景观测RGB图像或RGB-D图像。

确定场景中各障碍物的位置、尺度，根据障碍物的尺度和位置信息，构建场景全局地图，记作

，其中，被障碍物占据的网格点值设为非零，值为0到1之间，在图2中表示为浅色，不被占据的网格点设为0，在图2中表示为深色。

S2：根据场景地图和智能***姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据。

本实施例采用以智能体为中心的栅格地图来表示环境结构信息。为了获取智能体周围的环境结构，

时刻时，获取场景中智能体的位姿

，其中，

为全局地图下***位姿，

为全局地图下目标对象位姿，并依据此将全局地图

进行旋转和平移，即计算从场景地图的全局地图坐标系到以智能体为中心坐标系的变换，以获取以智能体为中心的局部地图

，其中，下标1和2分别代表***和目标对象，

为以***为中心的局部地图，

为以目标对象为中心的局部地图。该过程可被表示为：

（1）

其中，

为以智能体i为中心的局部地图，

表示将全局地图

转换到以智能***姿

为中心的坐标系下。

坐标变换通常用来建立两个不同坐标系的一一对应关系，假设坐标系

绕自身Z轴逆时针转

角度之后再平移

与坐标系

重合，则坐标系

中的点

与坐标系

中的点

有一一对应关系：

（2）

采用公式（2）将全局地图

转换到以智能***姿

为中心的坐标系下。

为了让所有智能体都能知道自身和其他智能体的运动形态，将所有智能体的运动轨迹表示在某一智能体的局部地图上。智能体的轨迹通过收集历史帧中智能体的位姿进行构建，并利用坐标系变换转换历史位姿到当前智能体为中心的坐标系下。此外，为了表示轨迹中的时序信息，所有智能体的轨迹被表示为一个与位姿时刻有关的等差数列。

t时刻时，智能体j收集到所有智能体的相对于全局地图的运动轨迹T为：

，以及自身的位姿

，其中轨迹

由

个智能体i的历史位姿构成。智能体对每个智能体的每个历史位姿进行计算，并为其赋予一个与时间相关的值。

时刻时，智能体i在t时刻智能体坐标系下的历史位姿

可以被表示为：

（3）

（4）

其中，

表示将智能体绝对位姿

转换到以

为中心的坐标系中，

表示时间远近的值。因此，智能体j的局部地图中各智能体的运动轨迹可以被表示为：

（5）

构建的一些局部地图和地图中智能体的运动轨迹的可视化结果如图3所示，图中，黑色部分为可通行区域，白色线条为***和目标对象轨迹，其余白色或灰色部分为不可通行部分，颜色越浅表示障碍物高度越高。

S3：将第一训练数据分别输入专家***和专家目标对象中，由专家目标对象和专家***进行对抗强化学习，通过专家***输出建议动作，通过专家目标对象输出目标对应的逃脱策略。

其中，专家***包括卷积神经网络和序列模型，通过卷积神经网络对局部地图和智能体运动轨迹进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得决策动作。

每个专家智能体都需要具有足够表达能力的模型将输入映射到简单动作。专家***首先用卷积神经网络对环境结构信息、智能体运动信息进行编码，获得编码信息，环境结构信息为智能体的局部地图，智能体运动信息为地图中的智能体运动轨迹，然后用序列模型对序列观测间的动态特性进行建模，估计环境状态，输出相应的动作分布。此外，还需要同时估计当前状态的价值函数，用于对策略进行迭代的估计和提升。

因此，专家***的结构如表1所示，其中，C5x5-32S1P2表示卷积神经网络，其采用了32个大小为5x5的卷积核，每个卷积核的步幅为1，填充区域大小为2；LSTM256表示序列模型采用长短期记忆网络，其输入输出维度为256；FC6表示全连接层，输出维度为6。

每个专家***都将自身的局部地图

和局部地图中所有智能体的运动轨迹

作为输入，其中，

，输出预测动作

，其预测动作的计算过程可被表示为式（6）：

(6)

表1专家模型所用模型结构

专家***和专家目标对象采用遮挡可知的奖励机制，当专家***未处于遮挡状态时，专家***的奖励值的取值范围被限制到0到1之间，当专家***处于遮挡状态时，专家***的奖励值设置为-1。

是否遮挡可通过地图和智能体的相对朝向和位置进行判断：当智能体之间的连线上任意一点在地图上被标示为占用，即为遮挡发生。专家***的奖励可以表示为：

(7)

其中，

是专家***的奖励，

、

分别是专家***距离目标对象的实际距离和期望距离，

、

分别是专家***与目标对象的实际角度和期望角度，

、

分别是专家***能看到的最大距离和角度，表示时刻的下标被省略。

专家目标对象除了自身的观测值外，也有能力获取到专家跟踪者的观测值并预测其获得到的奖励值，专家目标对象的奖励为专家***奖励的相反数，保持专家***和专家目标对象两个智能体的零和竞争关系。因此，当遮挡发生时，专家***跟踪不利受到惩罚，专家目标对象却因为处于有利于逃出***视线的状态而受到奖励。图4中绘制了当专家***固定位置在（0,0）时，专家目标对象所处位置与专家***应当所获的奖励的关系，其中，（a）为障碍物分布情况，图4中（b）为专家***训练所用的奖励机制。

可以看出，本实施例提出的奖励机制能在遮挡发生时及时地反馈给专家***或专家目标对象。

获得专家***输出建议动作的具体过程为：

将第一训练数据分别输入专家***和专家目标对象中，通过专家目标对象对专家***进行对抗学习，对专家***进行预训练，在预训练过程中，由专家***输出决策动作，由专家目标对象输出目标对应的逃脱策略，并通过专家目标对象模型的策略，构建专家策略池；

从专家策略池中选取微调用专家目标对象模型；

通过微调用专家目标对象模型与预训练后的专家***进行对抗学习，对预训练后的专家***进行微调，通过微调后的专家***输出建议动作。

在具体实施时，专家***的训练过程分为对抗专家策略学习和专家***的微调。

首先，将第一训练数据分别输入专家***和专家目标对象模型中，将专家***和专家目标对象模型通过对抗强化学习进行优化，以产生多样化策略，该过程为对专家跟踪模型的预训练过程。随着优化的进行，专家目标对象模型产生不同的策略来逃脱专家***的跟踪，专家***也随之学习到多样的策略来应对专家目标对象的逃脱策略。在这个过程中，不但学习到一个比较强大的专家***模型，也在交互次数为200、250、300、350、400、450、550、650、700、800、950万次时存下专家目标对象模型的策略来构建专家策略池。

其次，微调***专家模型。随着对抗强化学习的进行，专家***会渐渐遗忘过去处理逃脱策略的方法，因此，还需要对专家***进行进一步调整。在这一过程中，预训练后的专家***与专家策略池中的专家目标对象模型进行对抗训练，专家***尝试学习一个更强大的策略，以能较为完美地应对专家目标对象策略池中所有的策略模型，在训练环境中评估100次，其回合长度能稳定在495以上。

S4：将场景观测图像输入学生***中，将建议动作作为场景观测图像的标签对学生***进行训练，获得训练好的学生***。

本实施例在专家策略的指导下训练一个简单的轻量化学生***。在此阶段中，学生***的输入被设置为每时刻***视角下的场景观测图像。学生***的优化过程是一个监督学习过程，采用特征空间和输出空间双约束来训练学生***，使专家***的强大场景理解能力和决策能力迁移到学生***中。在对学生***进行训练时，通过学生目标对象对学生***进行引导，为了生成多样化的目标对象策略，在训练过程中，学生目标对象的模型参数从第一阶段中构建的专家目标对象策略池中随机抽样。

表2 学生***模型结构

学生***的模型结构如表2所示，包括卷积神经网络和序列模型，通过卷积神经网络对输入的观测图像进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得决策动作。

其中，C5x5-32S1P2表示卷积神经网络，其采用了32个大小为5x5的卷积核，每个卷积核的步幅为1，填充区域大小为2；LSTM256表示序列模型采用长短期记忆网络单元，其输入输出维度为256；FC6表示全连接层，输出维度为6。

学生***训练时所用的监督信号为两部分：特征空间约束和动作空间约束，这是因为学生***被要求同时迁移专家***的场景感知能力与决策能力。因此，学生***的损失函数

被定义为两部分：

(8)

其中，

、

分别为特征空间上损失函数和动作空间上的损失函数，

为超参数，被设置为0.1。

采用专家***输出的建议动作作为学生***训练的密集监督信号，使用KL散度迫使学生***的输出逼近专家***的输出。在每一时间步时，专家***都会根据当前的特权信息观测给出一个建议动作，以作为学生***模型训练的数据标签；在训练中，使用KL散度迫使学生***的输出逼近专家***的输出，此部分损失函数的计算过程可表示为：

(9)

式中，

为学生***在t时刻的输出，

为专家***在t时刻的输出。

为了使学生***具有更强大的场景理解能力，迫使学生***能学到与专家***相似的特征。因此，本实施例通过衡量专家、学生***中卷积神经网络输出的相似性来计算损失函数，以作为特征空间约束，其计算可表示为：

(10)

其中，MSE表示均方损失函数，

、

分别为学生***和专家***最后一层卷积层的输出。

此外，为了帮助挖掘困难样本用于学生***的训练，在训练过程中，学生目标对象模型采用在第一阶段中构建的目标对象专家策略池中随机抽样的策略来选择动作。

S5：利用训练好的学生***对获取的场景实时图像进行识别，获得智能体决策动作。

本实施例构建的主动目标跟踪模型（EG-AOT）如图1所示，包括专家模型和学生模型，专家模型包括相互对抗学习的专家***和专家目标对象，学生模型包括学生***和学生目标对象，且学习学生目标对象引导学生***。

本实施例采用基于点到点导航的目标对象（Nav）以及基于轨迹规划的目标对象（PathPlanning）检验主动目标跟踪模型（EG-AOT）的性能。

基于轨迹规划的目标对象可以直接获取到场景地图，并分两步进行轨迹规划：首先，在每个回合开始时，目标对象从地图中选取

个障碍物，并随机选取每个障碍物两侧的两点，共

个点作为路径一级子目标点，将其连成一条闭环路径，再利用

算法计算出一条可以躲避障碍物的最终路径。其次，从路径中重新筛选出二级子目标点，二级子目标点比一级子目标点多，保证目标对象可避障，在每一时刻都会根据自身当前的朝向、距二级子目标点位置的距离和角度来确定自身的期望行进速度和旋转角度，并且通过向期望行进速度加上一定的噪声来确定实际的行进速度。在实验中所用

。

由于PathPlanning利用环境地图提前进行了路径规划，因此目标对象有躲避障碍物的能力，也能有更多的概率给***造成挑战：如目标被障碍物遮挡时。一些目标对象的路径规划示意图如图5所示。

在主动目标跟踪模型第一阶段训练中，局部地图大小被设置为80x80，其中每格的边长与仿真环境中10 cm距离对应，其中心是智能体所在的位置。模型在电脑上训练，采用了6个线程进行模型优化。在对抗学习和微调专家***时，智能体与环境的总交互次数各为1000M次。在第二阶段中，学生模型的观测数据都被调整为80x80的大小后输入模型，采用了4个线程进行模型优化，更新次数为2000M次。其他训练、评估所用的超参数见表3，***、目标对象动作空间设置见表4和表5。

表3 本实施例提出EG-AOT在训练和评估中所用的超参数

表4 主动***的动作空间

动作	速度（厘米/秒）	角度（度）
			前进	200	0
后退	-200	0
			向右前进	150	45
向左前进	150	-45
			向右转	0	45
向左转	0	-45
			停止	0	0

表5 可学习目标对象的动作空间

动作	速度（厘米/秒）	角度（度）
			前进	150	0
后退	-150	0
			向右前进	100	45
向左前进	100	-45
			向右转	0	45
向左转	0	-45
			停止	0	0

期望位置差、回合长度、成功率、遮挡率被用来评价模型性能的好坏。关于各指标的具体描述如下：

期望位置差是每一时刻期望位置差的累积值，每步期望位置差计算公式为

，该数值越大越好。

回合长度中可视区域被定义为追踪器前方半径为750厘米、范围为90度的扇形区域。只要目标处于这个区域外5秒或回合长度达到500时，当前回合停止。

成功率，当回合长度达到500，就被标记为一次成功的跟踪，而成功率表示所有试验中跟踪成功的次数比率。

将本实施例公开的学生***与基准方法进行比较，基准方法包括最新的AD-VAT和AD-VAT+算法。为了公平起见，本实施例中的学生***采用了和基准方法一致的输入，即RGB图像，和同样的网络模型结构，并构建了AD-VAT和AD-VAT+算法的变体AD-VAT和AD-VAT+与学生***以RGDB图像为输入做对比。

表6 与RGB输入的基准方法的对比实验结果

以RGB为输入时，模型实验结果对比。实验结果如表6所示，目标对象采用Nav策略。从实验结果可以看出，本实施例提出的学生***相比于基准方法，在大部分场景中能取得更长的回合长度和更好的成功率，并且在平均结果上获得了提升。这是因为，虽然采用了同样的模型结构和观测输入，但本实施例公开的学生***迁移了专家策略***的场景理解能力和决策能力，有一定的处理障碍物能力，因此能获得性能的提升。

以RGBD图像为输入时的模型实验结果对比。实验结果如表7所示，目标对象采用Nav策略。总的来说，RGBD数据做输入的实验结论与RGB数据做输入的实验结论相似：虽然本实施例中所提出的学生***在期望位置差指标方面不如基准方法，但在平均回合长度和成功率上取得了更好的结果。此外，可以看出本实施例提出的学生***相比于各自的基准方法提升更大，这是因为对于RGB数据而言，空间线索缺失更多，因此模型学习场景理解更为困难。

表7与RGBD输入的基准方法的对比实验结果

注：结果为重复100次实验的平均值以及方差，表示为“平均值±方差”。最好的结果用加粗字体表示。最后一栏为所有场景中的平均结果。

运行时间对比。本实施例提出模型与基准方法运行时间一致，其中以RGB为输入时模型的运行时间为每帧0.002260s，以RGBD为输入模型的运行时间为每帧0.002943s。

为了验证本实施例公开的专家策略的合理性和优越性，另外构建了其他不同的专家策略Depth和MaskDepth，并进行了实验对比。

Depth：目标***将其第一视角的真实深度图像作为***模型输入，可学习目标者将其第一视角的真实深度图、***第一视角的深度图和***所采取的动作作为输入。

MaskDepth：目标***将其第一视角的语义分割图和真实的深度图像沿通道维度拼接作为输入，可学习目标者将其第一视角的语义分割图和真实深度图、***第一视角的语义分割图和深度图以及***所采取的动作作为输入。模型结构如表8***模型结构所示。

实验结果如表9所示，对比相同***策略在各个评估指标上的表现，特别是遮挡率指标，可以看出在利用障碍物给***制造困难挑战的能力上：Nav < PathPlaning <本实施例提出的专家目标对象。事实上，Nav几乎不能处理障碍物情况，PathPlaning通过利用障碍物位置信息，手动选取一些靠近障碍物的路径子目标点，并利用A* 算法规划可避障的路径，具有一定的利用障碍物能力，而本实施例所提出的专家***与专家目标对象的对抗强化学习能获取到较为完整障碍物位置信息和目标者运动信息，因此能综合考虑***周围环境结构和***的运动来选取动作，比PathPlaning利用障碍物来制造困难的跟踪场景的能力更强。

表8***模型结构

表9专家策略性能对比

此外，随着目标策略变化，本实施例提出的专家***在所有评估指标上均展示出最好的性能。更具体地，随着目标策略利用障碍物能力的上升，Depth***、MaskDepth***的跟踪性能均有较为明显的下降：Depth***成功率从0.86下降到0.41，MaskDepth***成功率从0.77下降到0.33。但本实施例提出专家***均实现了鲁棒的跟踪：在100次测试的平均回合长度始终稳定在495以上，成功率稳定在0.9以上。此外，本实施例提出的专家***始终具有更低的遮挡率，即其处理遮挡能力比其他专家***更强。

为了更直观的展示本实施例提出方法的性能，将本实施例提出的专家***和学生***分别在虚拟环境中进行运行演示，结果如图6所示，图中人物为虚拟人物，图中（a）为专家***演示结果，（b）为学生***演示结果，均以***的第一视角表示，每帧图像左上角数字为当前帧数，图中最左列为***、目标对象、障碍物相对位置关系示意图，其中颜色较深的两个圆圈代表了目标者开始与结束运动的位置；颜色较浅的两个圆圈代表***开始与结束运动的位置，虚线和箭头分别代表运动轨迹和运动方向，中间的矩形或椭圆代表障碍物。

本实施例公开方法，通过获得场景的智能体局部地图和地图中的智能体运动轨迹，对专家模型进行训练，通过专家***输出建议动作，通过专家目标对象输出逃脱策略，之后，利用专家***输出的建议动作作为场景观测图像的标签，将场景观测图像输入到学生***中，对学生***进行训练，获得训练好的学生***，将专家***的强大场景理解能力和决策能力迁移到学生***中，在提高学生***性能的同时，省去了在推理过程中在线建图的额外开销，提高了计算速率，保证目标跟踪的实时性能。

实施例2

在该实施例中，提出了一种基于专家策略指导的主动目标跟踪***，包括：

第一阶段训练模块，用于根据场景地图和智能***姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家***和专家目标对象中，由专家目标对象和专家***进行对抗强化学习，通过专家***输出建议动作，通过专家目标对象输出目标对应的逃脱策略；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于专家策略指导的主动目标跟踪方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于专家策略指导的主动目标跟踪方法所述的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于专家策略指导的主动目标跟踪方法，其特征在于，包括：

获取场景观测图像、场景地图和智能***姿；

根据场景地图和智能***姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据，获取局部地图的过程为：获取场景中智能体的位姿

，其中，

为全局地图下***位姿，

为全局地图下目标对象位姿，并依据此将全局地图

，其中，下标1和2分别代表***和目标对象，

为以***为中心的局部地图，

为以目标对象为中心的局部地图；

将第一训练数据分别输入专家***和专家目标对象中，由专家目标对象和专家***进行对抗强化学习，通过专家***输出建议动作，获得专家***输出建议动作的具体过程为：

从专家策略池中选取微调用专家目标对象模型；

通过微调用专家目标对象模型与预训练后的专家***进行对抗学习，对预训练后的专家***进行微调，通过微调后的专家***输出建议动作；

2.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，专家***和专家目标对象采用遮挡可知的奖励机制，当专家***未处于遮挡状态时，专家***的奖励值的取值范围被限制到0到1之间，当专家***处于遮挡状态时，专家***的奖励值设置为-1。

3.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，在对学生***进行训练时，采用学生目标对象对学生***进行引导，其中，学生目标对象模型选用专家策略池中的专家目标对象模型。

4.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，专家***和学生***均包括卷积神经网络和序列模型，专家***中的卷积神经网络对局部地图和智能体相对运动轨迹进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得建议动作；学生***中的卷积神经网络对场景观测图像进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得决策动作。

5.如权利要求4所述的一种基于专家策略指导的主动目标跟踪方法，其特征在于，学生***的损失函数包括特征空间上损失和动作空间上损失，动作空间上损失采用KL散度计算，特征空间上损失通过专家***与学生***中卷积神经网络输出的相似性计算获得。

6.一种基于专家策略指导的主动目标跟踪***，其特征在于，包括：

第一阶段训练模块，用于根据场景地图和智能***姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家***和专家目标对象中，由专家目标对象和专家***进行对抗强化学***移，即计算从场景地图的全局地图坐标系到以智能体为中心坐标系的变换，以获取以智能体为中心的局部地图

，其中，下标1和2分别代表***和目标对象，

为以***为中心的局部地图，

为以目标对象为中心的局部地图；获得专家***输出建议动作的具体过程为：将第一训练数据分别输入专家***和专家目标对象中，通过专家目标对象对专家***进行对抗学习，对专家***进行预训练，在预训练过程中，由专家***输出决策动作，由专家目标对象输出目标对应的逃脱策略，并通过专家目标对象模型的策略，构建专家策略池；从专家策略池中选取微调用专家目标对象模型；通过微调用专家目标对象模型与预训练后的专家***进行对抗学习，对预训练后的专家***进行微调，通过微调后的专家***输出建议动作；

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项所述的一种基于专家策略指导的主动目标跟踪方法的步骤。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的一种基于专家策略指导的主动目标跟踪方法的步骤。