CN114423044A

CN114423044A - 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法

Info

Publication number: CN114423044A
Application number: CN202210047204.5A
Authority: CN
Inventors: 黄洋; 王绍宇; 董苗苗; 董超; 吴启晖; 邵翔; 李汉艺
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-04-29

Abstract

本发明公开了无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，在每个时隙开始时，所述无人机向某一方向飞行一段固定距离，在无人机到达新的位置后，基站为小区内的用户分配卸载调度方式；采用基于深度神经网络或核函数的强化学习方法，对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模，通过与环境的信息交互，实现无人机在线轨迹规划并得到用户任务卸载调度的最优策略，进行无人机和基站辅助地面用户设备卸载任务数据的空地协同。可用于无人机和基站辅助地面用户设备卸载的网络场景模型下的无人机在线轨迹规划和用户任务卸载调度。

Description

无人机和基站辅助地面用户设备卸载任务数据的空地协同方法

技术领域

本发明属于无线通信技术领域，具体涉及无人机和基站辅助地面用户设备卸载任务数据的空地协同方法。

背景技术

随着物联网设备的广泛部署，将有大量设备产生的任务数据需要卸载到算力更多的边缘计算节点(如基站)进行处理。然而地面信道受小尺度衰落的影响，传输速率受限。无人机与地面用户设备之间往往存在视距信道，从而为通信以及多用户调度和资源分配提供了更可靠的连接。并且无人机的灵活性可以有效应对时间/空间变化的通信/计算需求。

在空地一体化网络中的多接入边缘计算(Multi-Access Edge Computing，MEC)背景下，关于卸载策略优化的最新研究主要集中在地面用户设备可以决定在本地执行计算任务或将它们卸载到无人机的场景。事实上，如果不与地面网络合作执行MEC，这些研究无法释放无人机在改善地面网络服务质量方面的全部潜力。并且考虑到实际环境的高度动态，存在时变且不可预测的计算需求和信道传播的情况下，确定性优化无法求解此类问题。

公开号为CN113286314A、名称为“一种基于Q学习算法的无人机基站部署及用户关联方法”的发明专利，其运用Q学习的方法对动态环境中蜂窝网络联合无人机基站部署及用户关联问题进行优化，以最大化***内用户的传输速率之和。但未考虑用户的任务模型以及时变的计算需求。

公开号为CN110381445A、名称为“一种基于无人机基站***的资源分配与飞行轨迹优化方法”的发明专利，通过给定一个有限的回程链路，以及按照地面用户的敏感程度将地面用户区分为时延容忍用户和时延敏感用户，无人机作为空中基站接收并转发信源发送的信息给地面的时延容忍和时延敏感用户，通过联合优化带宽、功率及轨迹来最大化时延容忍用户的最小吞吐量，使得***的优化更具有针对性。利用凸松弛方法，将原本的非凸问题变为凸的，以交替优化带宽功率及轨迹的形式，增加了***的吞吐量。但该方法不适用于解决高度动态场景中的问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，在每个时隙开始时，无人机向某一方向飞行一段固定距离；在无人机到达新的位置后，基站为小区内的用户分配卸载调度方式；通过与环境的信息交互，无人机和基站学习联合无人机在线轨迹规划和用户任务卸载调度的最优策略，以求解高度动态的空地一体化网络中存在的时/空变化的通信/计算需求与分布式资源匹配问题。可用于无人机和基站辅助地面用户设备卸载的网络场景模型下的无人机在线轨迹规划和用户任务卸载调度。

为实现上述技术目的，本发明采取的技术方案为：

无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，包括：

在每个时隙开始时，所述无人机向某一方向飞行一段固定距离，在无人机到达新的位置后，基站为小区内的用户分配卸载调度方式；

采用基于深度神经网络或核函数的强化学习方法，对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模，通过与环境的信息交互，实现无人机在线轨迹规划并得到用户任务卸载调度的最优策略，进行无人机和基站辅助地面用户设备卸载任务数据的空地协同。

为优化上述技术方案，采取的具体措施还包括：

采用基于深度神经网络的强化学习方法时，上述的方法包括：

步骤1：获取当前无人机的状态，包括当前时隙t的位置，以及上个时隙t-1各个小区用户的平均任务数据生成量；

步骤2：无人机进行动作选择，从预设的方向集合中选择某一方向并飞行一段固定的距离；

步骤3：无人机到达新的位置后，收集基站的状态，包括无人机的位置，时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量；

步骤4：基站进行动作选择，为小区内的每个用户分配卸载调度方式，该卸载调度方式将在下个时隙t+1中执行；

步骤5：当下一个时隙t+1卸载调度执行完成后，无人机和基站获取相应的回报值，将本次经验存入经验池中，并抽取一定数量的经验训练深度神经网络；

步骤6：在每个时隙重复步骤1-步骤5直至收敛，此时动作选择决策即为用户任务卸载调度的最优策略。

上述的步骤2中，采用∈贪心算法进行动作选择，在状态s_0，t下各个动作

对应的Q 值表示为Q(s_0，t，a₀；w₀)，其中w₀为无人机的神经网络参数。

上述的步骤4中，采用改进的贪心算法进行动作选择，具体为：

先对获得的状态进行量化，建立一个矩阵T来记录是否访问了量化状态-动作对；

若量化状态-动作对在之前的时隙被访问过，则矩阵中的对应位置置为1；否则为0；

在任一时隙，基站设备以概率1-∈根据深度Q网络，选取当前状态下Q值最大的动作作为本时隙小区用户的卸载调度方式；

在任一时隙，基站设备以概率∈随机选取一个未探索的动作，即T矩阵中当前量化状态下，对应矩阵中数值为0的动作集合；

步骤4中，对获得的状态进行量化时，初始量化状态集合为空，对于t时隙的状态，若其与集合中的所有量化状态的各个元素间的距离均小于对应阈值，则用已存在的量化状态代替当前时隙的状态；

若其与集合中的所有量化状态的某个元素间的距离均大于阈值，则代表集合中不包含该状态，因此将该状态加入量化状态集合，并更新T矩阵，增加新的一行零元素。

上述的步骤5中，神经网络的训练包含以下步骤：

步骤5.1：在训练开始时，初始化神经网络；

步骤5.2：在每个时隙各个代理获得奖励后，将上个时隙t-1的状态和动作，当前时隙t 获得的奖励，以及状态作为经验存入经验池中；

步骤5.3：选取一定批量的经验，利用Adam算法以最小化样本均方误差为目标训练神经网络。

上述的采用基于核函数的强化学习方法时，所述方法包括：

步骤(1)：无人机获取当前时隙t的位置，以及上个时隙t-1各个小区用户的平均任务数据生成量作为当前无人机的状态；

步骤(2)：无人机进行动作选择，从预设的方向集合中选择某一方向并飞行一段固定的距离；

步骤(3)：无人机到达新的位置后，基站收集无人机的位置，时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量作为基站的状态；

步骤(4)：基站进行动作选择，为小区内的每个用户分配卸载调度方式，该卸载调度方式将在下个时隙t+1中执行；

步骤(5)：当下一个时隙t+1该卸载调度执行完成后，无人机和基站获取相应的回报值，训练核函数，无人机和基站更新对应的字典和权重矢量；

步骤(6)：在每个时隙重复步骤(1)-步骤(5)直至收敛，此时动作选择决策即为用户任务卸载调度的最优策略。

对应的Q 值可以表示为Q(s_0，t，a₀；w₀)，其中w₀为无人机的核函数权重矢量，使用了高斯核函数。

先对状态进行量化，建立一个矩阵T来记录是否访问了量化状态-动作对。若量化状态- 动作对在之前的时隙被访问过，则矩阵中的对应位置置为1；否则为0；

在任一时隙，基站设备以概率1-∈根据核函数近似的Q函数选取当前状态下，Q值最大的动作作为本时隙小区用户的卸载调度方式；

在任一时隙，基站设备以概率∈随机选取一个未探索的动作，即T矩阵中当前量化状态下，对应矩阵中数值为0的动作集合。

上述的步骤(5)中，核函数的训练包含以下步骤：

步骤(5.1)：创建字典集合用以存放获取的特征信息，即状态-动作对；

步骤(5.2)：求解当前时隙的数据样本特征关于字典中每一个特征的核函数；

步骤(5.3)：根据当前时隙的状态、动作和瞬时回报更新字典中每一个特征的权重系数；

步骤(5.4)：将步骤(5.2)所求得的核函数和步骤(5.3)所求得的对应特征的权重系数相乘并求和得到当前时隙核函数近似的Q函数；

步骤(5.5)：使用基于ALD(Approximate Linear Dependence，近似线性相关性分析) 的在线内核稀疏方法对字典进行更新。

上述的步骤(5.2)中，使用高斯核函数求解当前时隙的数据样本特征关于字典中每一个特征的核函数；

在所述步骤(5.5)中，基于ALD的在线内核稀疏方法，通过定义一个差值函数来判断当前数据样本与字典内元素的相似程度，当该相似函数的值超过一定阈值时，说明当前样本包含了字典内特征元素所没有的特征，需要将该样本加入字典集合中，步骤(5.5)具体包含以下步骤：

步骤(5.5.1)：定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值；

对当前时隙的数据样本，计算所述差值；

步骤(5.5.2)：定义当前数据样本与字典内元素的差值函数阈值μ；

步骤(5.5.3)：判断步骤(5.5.1)中计算所得差值与步骤(5.5.2)中所定义的阈值的大小关系，如果差值大于阈值，则将当前的样本加入到字典集合中；若差值小于阈值，则维持当前的字典集合不变。

本发明具有以下有益效果：

本发明面向无人机辅助的多接入边缘计算场景，可有效解决高度动态的空地一体化网络中存在的时/空变化的通信/计算需求与分布式资源匹配问题，具体的：

本发明提出了一种无人机和基站协同为地面用户设备提供卸载服务的方法，每个时隙开始时，无人机向某一方向飞行一段固定距离。在无人机到达新的位置后，基站为小区内的用户分配卸载调度方式。

为了获得无人机和基站学习联合无人机在线轨迹规划和用户任务卸载调度的最优策略，将其建模为相互耦合的马尔可夫决策过程。并提供了一种基于深度神经网络的联合轨迹规划和卸载调度方法，该方法使用了基于深度神经网络的强化学习方法，对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模。

附图说明

图1为本发明方法流程图；

图2为卸载数据时存在的两种情况；

图3为耦合马尔可夫决策过程的示意图；

图4为无人机在实际部署时存在的数据交互和执行模块；

图5为基站在实际部署时存在的数据交互和执行模块；

图6为本发明基于深度神经网络进行联合轨迹规划和卸载调度的流程图；

图7为本发明基于核函数进行联合轨迹规划和卸载调度的流程图；

图8为本发明提基于ALD的在线内核稀疏方法对字典进行更新的流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

参见图1，无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，包括：

具体实施时，采用基于深度神经网络的强化学习方法时，如图6所示，所述方法包括：

对应的Q 值可以表示为Q(s_0，t，a₀；w₀)，其中w₀为无人机的神经网络参数。

在任一时隙，基站设备以概率∈随机选取一个未探索的动作，即T矩阵中当前量化状态下(行)，对应矩阵中数值为0的动作(列)集合；

步骤4中，对获得的状态进行量化时，初始量化状态集合为空，对于t时隙的状态，若其与集合中的所有量化状态的各个元素间的距离均小于对应阈值，则可以用已存在的量化状态代替当前时隙的状态；

若其与集合中的所有量化状态的某个元素间的距离均大于阈值，则代表集合中不包含该状态，因此将该状态加入量化状态集合，并更新T矩阵，增加新的一行零元素(代表动作均未探索过)。

上述的步骤5中，神经网络的训练包含以下步骤：

步骤5.1：在训练开始时，初始化神经网络；

具体实施时，采用基于核函数的强化学习方法时，如图7所示，所述方法包括：

在任一时隙，基站设备以概率∈随机选取一个未探索的动作，即T矩阵中当前量化状态下(行)，对应矩阵中数值为0的动作(列)集合。

上述的步骤(5)中，核函数的训练包含以下步骤：

步骤(5.5)：使用基于ALD的在线内核稀疏方法对字典进行更新。

上述的步骤(5.5)中，基于ALD的在线内核稀疏方法，通过定义一个差值函数来判断当前数据样本与字典内元素的相似程度，当该相似函数的值超过一定阈值时，说明当前样本包含了字典内特征元素所没有的特征，需要将该样本加入字典集合中，如图8所示，步骤(5.5) 具体包含以下步骤：

对当前时隙的数据样本，计算该差值；

具体分析与实施例如下：

在所研究的多小区网络中，无人机以恒定高度H飞行并作为边缘计算节点。地面网络由J 个小区组成，其中每个基站j(满足j∈{1，…，J})仅与M_j个固定的地面用户设备相关联，这样的一组用户设备集合表示为

(满足

)，并且各个小区的用户设备集合不存在交集

基站j和与其关联的用户设备集合

共同构成小区j，该多小区网络的用户集合可以表示为

由于地面非视距信道的小尺度衰落，信道增益是时变的。这里考虑使用块衰落信道模型。即，地面信道增益在一个时隙内保持不变，但在不同时隙之间是变化。

在时隙t内，某个基站j和用户设备m(其中

)之间的小尺度衰落可以表示为h_0,j,m,t。

相应的信道功率增益

其中β和d_j,m分别代表路径损耗指数和基站j 与用户设备m之间的距离。

在时隙t中，给定设备m(其中

)的位置q_m(为列向量)和无人机位置 q_UAV,t＝[x_t,y_t,H]，无人机与用户设备之间的距离d_0,m,t＝|q_UAV,t-q_m|。并且无人机与用户设备之间具有视距信道，可以得到无人机与用户设备m(其中

)之间的信道功率增益为

其中|h₀|²表示参考距离为1m时的信道功率增益。

在每个时隙t内，无人机向方向

飞行固定距离v₀，其中

表示飞行方向集合；

每个用户设备的卸载调度选项，包括在设备本地执行计算和卸载任务数据到无人机或相关联的基站。

卸载或(和)计算任务数据的持续时间指定为τ。

假设频域信道数量充足，用户设备的卸载传输不会相互干扰，计算结果可以通过专用的频域信道返回给用户。

因此，基站j或无人机在时隙t内的可实现卸载速率为：

其中B、P_m和

分别代表上行信道带宽、用户设备m处的发射功率和平均噪声功率。

下标X＝0时，代表无人机的卸载速率；X＝j∈{1,…,J}代表基站的卸载速率。

假设每个用户设备在时隙内不断地产生计算任务，并且任务产生的统计特征对于网络来说是未知的。

用户设备

在时隙t-1期间产生的任务比特数可以表示为L_j，m，t-1。

由于信令和数据准备带来的开销，这些任务数据只能在时隙t中进行本地计算或卸载处理，该决策是在时隙t-1中做出的。

然而，由于整个时隙内连续的任务数据产生，时隙t-1中的卸载调度决策无法获得L_j，m，t-1的知识。

每个用户设备的中央处理器周期频率和部署在基站/无人机上的多接入边缘计算服务器的中央处理器周期频率分别定义为f_local和f_MEC。

定义处理密度c，其代表处理1比特任务数据所需的中央处理器周期数。

此外，用户设备、基站和无人机都配备了本地任务队列来缓存未处理完的任务数据，其遵循先进先出规则。

若时隙t-1生成的数据L_j，m，t-1无法在时隙t中计算完，剩余未处理完的数据L_{BL，j，m，t-1}将存入该处的任务队列，并在下一时隙优先计算。

下面分别在本地计算和卸载场景中分析在时隙t中观察到的L_BL,j,m，t-1和任务队列长度的变化：

在用户设备m处本地计算的情况下，定义D_j，m，t-1为在时隙t-1的末尾观察到的任务队列，其包含在时隙t-1之前产生但未处理完的数据量。

在时隙t中，由于先入先出规则，这些数据D_j，m，t-1将被优先处理，然后再处理任务数据 L_j，m，t-1。

总处理时间Δt_j，m，t＝c(L_j，m，t-1+D_j，m，t-1)/f_local。

如果Δt_j，m，t＜τ，则时隙结束前所有任务数据都能处理完，D_j，m，t＝0且L_{BL，j，m，t-1}＝0。

反过来，当Δt_j，m，t≥τ，部分任务数据无法被处理完，任务队列长度变为 D_j，m，t＝D_j，m，t-1+L_j，m，t-1-τf_local/c。

在这种情况下，若D_j，m，t-1＜τf_local/c，L_{BL，j，m，t-1}＝D_j，m，t；

否则，没有时间用于处理L_j，m，t-1，因此L_{BL，j，m，t-1}＝L_j，m，t-1。

在时隙t中存在卸载操作时，L_j，m，t-1比特的任务数据可以传输到无人机或与该用户设备关联的基站处的多接入边缘计算服务器，其中传输时间为t_trans＝L_j，m，t-1/R_X，m，t。

若t_trans＞τ，多接入边缘计算服务器将忽略接收到的数据，并存入用户本地的任务队列进行处理。

在接收数据的同时，多接入边缘计算服务器可以处理缓存在其任务队列中的数据D_X，t-1。

处理该部分任务数据的时间定义为t_pre。根据t_trans和t_pre的关系，分析L_{BL，j，m，t-1}的两种情况，如图2所示。

在t_trans＞t_pre的场景下，所有D_X，t-1中任务数据都可以在卸载传输结束前处理。

因此，总处理时间Δt_MEC，m，t＝t_trans+L_j，m，t-1·c/f_MEC。

如果Δt_MEC，m，t＜τ，D_X，t＝L_{BL，j，m，t-1}＝0；

否则，任务数据Lj_，m，t-1无法被处理完，D_X，t＝L_{BL，j，m，t-1}＝L_j，m，t-1-f_MEc(τ-t_trans)/c。

但是，在t_trans≤t_pre的场景下，由于当卸载传输结束时，队列中的数据D_X，t-1还未处理完。

因此，需要等待D_X，t-1数据处理完之后再处理L_j，m，t-1。

总时间可以表示为Δt′_MEC，m，t＝t_pre+L_j，m，t-1·c/f_MEC。

如果Δt′_MEC，m，t＜τ，D_X，t＝L_{BL，j，m，t-1}＝0。

相反，对于Δt′_MEC，m，t≥τ，D_X，t＝L_j，m，t-1+D_X，t-1-τf_MEC/c。如果D_X，t-1＜τf_local/c，L_{BL，j，m，t-1}＝D_X，t；否则，L_{BL，j，m，t-1}＝L_j，m，t。

计算任务的产生、缓存和执行模型部分表明联合轨迹规划和用户卸载调度是一个顺序决策问题。然而，将这样的问题表述为单个代理的马尔可夫决策过程会受到维数诅咒的影响，其中联合状态/动作空间随着基站、用户设备和无人机的总数呈指数增长。

而将轨迹规划和各个小区用户设备的卸载调度分别用一个马尔可夫决策过程表示时，制定的MDP-UAV和MDP-cell j是相互耦合的。

也就是说，在时隙t-1中，MDP-cell j的状态s_j，t-1包含无人机的位置，因此会部分地受到MDP-UAV执行动作a_0，t(即无人机的运动)的影响。由于MDP-UAV的奖励r_0，t+1包含各个小区的L_BL,j,m,t-1数据信息，而该信息由各小区的卸载调度决定，因此MDP-UAV也受到 MDP-cell j决策的影响。

下面给出耦合马尔可夫决策过程的具体建模方法：

如图3-5所示，在MDP-UAV中，给定状态空间

无人机代理在时隙t中观察到的状态可以定义为

其中u_t-1＝[U_1,t-1,...,U_J,t-1]^T并且每个元素表示为

代表时隙t-1内小区j中产生的平均任务比特数。

时隙t中决定的方向选择动作可以定义为

该动作a_0,t立即在时隙t中执行，产生一个新位置，该位置保持不变，直到a_0,t+1在时隙t+1 中被执行，因此被指定为q_UAV,t+1。即时奖励定义为

它会受到时间段t+1 内任务卸载/执行的影响。

在MDP-cell j中，状态空间和动作空间分别指定为

和

代理j观察到的状态定义为

其中q_UAV,t+1结果来自 a_0,t；

下标m_i表示用户设备的索引，满足

这里将u_t-1引入状态s_j,t是为了避免贪婪策略中总是调度无人机只为一个小区提供服务。

为每个用户设备确定的卸载调度动作

可以写成α_j,m,t＝{α_L,α_D,α_B},其中α_L,α_D和α_B分别表示在本地执行计算、将任务数据卸载到UAV和卸载到基站j。

则时隙t内决定的MDP-cellj的卸载调度动作可得

a_j,t在时间段t+1内执行。

时间段t+1内的即时奖励表示为

因此对于MDP-UAV和

优化问题可以分别表示为：

和

其中策略分别定义

和

折扣因子为γ∈(0,1)。

为了求解上述的联合轨迹规划和卸载调度问题，分别提出了基于深度神经网络的方法和基于核函数的方法。

基于深度神经网络的联合轨迹规划和卸载调度方法：

首先，初始化各个代理的神经网络参数w₀、

和各代理的经验池。

在时隙t中，为了选择动作a_0,t，无人机代理利用∈-greedy策略：

以∈的概率随机选择一个动作，满足

否则，采用贪婪的方式选择Q值最大的动作，即

随后，无人机立即向指定的方向a_0,t飞行并到达新的位置q_UAV,t+1。

同时，各小区代理j∈{1,…,J}观察状态

并获取对应的量化状态

这里定义一个矩阵T_j来记录是否访问了状态-动作对。

如果第m个量化状态和第n个动作对被访问，[T_j]_m,n＝1；否则，它等于0。给定阈值μ_q，μ_d和μ_u，对于所有属于

的量化状态

如果以下不等式中的任何一个被满足：‖q_UAV,t+1-q_UAV‖＞μ_q,‖d_j,t-d_j‖＞μ_d，‖u_t-1-u‖＞μ_u，则被识别为新的量化状态，即

在这种情况下，

并且

然后，给定

(确定状态对应的行索引m)，以∈的概率，从[T_j]_m,n等于0的动作集(未探索)中随机选择；

除此以外，a_j,t＝argmax_aj Q(s_j,t,a_j；w_j)。

小区的卸载调度动作选定后将在t+1时隙执行。

当时隙t+1结束时，无人机代理收到奖励r_0,t+1并将经验(s_0,t,a_0,t,r_0,t+1,s_0,t+1)加入经验池中；

小区代理j收到奖励r_j,t+1并将经验(s_j,t,a_j,t,r_j,t+1,s_j,t+1)加入经验池中。随后每个代理从经验池中抽取N组经验训练神经网络以最小化均方误差如下：

其中，

和

分别代表对应Q(s₀,a₀；w₀)和Q(s_j,a_j；w_j)的时间差分目标值，并且采用Adam算法下随着时隙迭代地进行。

基于核函数的联合轨迹规划和卸载调度方法：

首先初始化3个空字典和权重矢量w₀、

在时隙t中，为了选择动作a_0,t，无人机代理利用∈-greedy策略：以∈的概率随机选择一个动作，满足

否则，采用贪婪的方式选择Q值最大的动作，即

同时，各小区代理j∈{1,…,J}观察状态

并获取对应的量化状态

这里定义一个矩阵T_j来记录是否访问了状态-动作对。

如果第m个量化状态和第n个动作对被访问，[T_j]_m,n＝1；

否则，它等于0。给定阈值μ_q，μ_d和μ_u，对于所有属于

的量化状态

如果以下不等式中的任何一个被满足：‖q_UAV,t+1-q_UAV‖＞μ_q, ‖d_j,t-d_j‖＞μ_d，‖u_t-1-u‖＞μ_u，则被识别为新的量化状态，即

在这种情况下，

并且

然后，给定

除此以外，

小区的卸载调度动作选定后将在t+1时隙执行。

当时隙t+1结束时，无人机代理收到奖励r_0,t+1，并按下式更新权重矢量：

小区代理j收到奖励r_j,t+1，并按下式更新权重矢量：

在基于核函数的算法中，Q值通过

和

来近似。

f_0,t和f_j,t分别是包含N_0,t和N_j,t个特征的核矢量。

本专利中采用高斯核。

通过将特征空间映射指定为φ(·)，则f(x,x′)＝φ(x)^Tφ(x′)。f_0,t可以表示为：

n＝1,...,N_0,t

其中

和

分别代表无人机代理决策样本和特征。

类似的，f_j,t可以表示为：

n＝1,...,N_j,t,

其中

和

分别代表小区j代理决策样本和特征。无人机代理和基站代理的所有特征x_0,n和x_j,n，分别收集在字典

和

中。

除了更新w₀和w_j之外，在

和

的字典中增加更多的特征可以进一步提高动作值估计的准确性。

通过执行ALD测试是否将时隙t的样本

识别成新特征。即

给定一个阈值μ，如果δ_0,t≤μ这意味着

可以近似线性地由字典中的特征表示

此时不需要向字典中添加特征

反之，则

类似的，

也通过这种方式进行更新。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，包括：

2.根据权利要求1所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，采用基于深度神经网络的强化学习方法时，所述方法包括：

3.根据权利要求2所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，步骤2中，采用∈贪心算法进行动作选择，在状态s_0,t下各个动作

对应的Q值表示为Q(s_0,t,a₀；w₀)，其中w₀为无人机的神经网络参数。

4.根据权利要求2所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，步骤4中，采用改进的贪心算法进行动作选择，具体为：

5.根据权利要求2所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，步骤5中，神经网络的训练包含以下步骤：

步骤5.1：在训练开始时，初始化神经网络；

步骤5.2：在每个时隙各个代理获得奖励后，将上个时隙t-1的状态和动作，当前时隙t获得的奖励，以及状态作为经验存入经验池中；

6.根据权利要求1所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，采用基于核函数的强化学习方法时，所述方法包括：

7.根据权利要求6所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，步骤2中，采用∈贪心算法进行动作选择，在状态s_0,t下各个动作

对应的Q值可以表示为Q(s_0,t,a₀；w₀)，其中w₀为无人机的核函数权重矢量，使用了高斯核函数。

8.根据权利要求6所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，步骤4中，采用改进的贪心算法进行动作选择，具体为：

先对状态进行量化，建立一个矩阵T来记录是否访问了量化状态-动作对。若量化状态-动作对在之前的时隙被访问过，则矩阵中的对应位置置为1；否则为0；

9.根据权利要求6所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，所述步骤(5)中，核函数的训练包含以下步骤：

10.根据权利要求9所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法，其特征在于，在所述步骤(5.2)中，使用高斯核函数求解当前时隙的数据样本特征关于字典中每一个特征的核函数；

对当前时隙的数据样本，计算所述差值；