CN114169234A

CN114169234A - 一种无人机辅助移动边缘计算的调度优化方法及***

Info

Publication number: CN114169234A
Application number: CN202111449863.3A
Authority: CN
Inventors: 张广驰; 何梓楠; 崔苗; 刘圣海; 王日明; 王昆
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-11

Abstract

本发明公开了一种无人机辅助移动边缘计算的调度优化方法及***，涉及无人机移动边缘计算的技术领域，所述方法包括构建当无人机和若干个用户设备额移动边缘计算***的卸载模型，并计算完成每个计算任务的能耗；以用户设备的平均能耗最小化为目标，建立联合无人机轨迹和用户设备调度的优化问题，将其转化为马尔科夫决策过程，定义移动边缘计算***卸载模型的状态空间、动作空间和回报函，用于训练基于SAC算法构建的深度神经网络，利用训练好的深度神经网络可以进行调度优化，获得最优调度策略，可以规划出无人机的连续动作，获得合理、准确的飞行轨迹和用户设备的选择策略，复杂程度低，收敛性强，减少了用户设备的平均计算能耗。

Description

一种无人机辅助移动边缘计算的调度优化方法及***

技术领域

本发明涉及无人机移动边缘计算的技术领域，更具体地，涉及一种无人机辅助移动边缘计算的调度优化方法及***。

背景技术

物联网计算的飞速发展，推动着计算任务密集型智能设备的普及，如自动驾驶、虚拟现实等，使生活更加便捷。在现阶段虽然移动设备配备了强大的硬件，但是在满足低时延的要求下完成移动应用程序的计算任务仍需要巨大的能耗。近些年提出了移动边缘计算(MEC)来克服这一缺点，即将用户设备的计算任务转移到网络边缘进行计算，极大降低设备的能耗。最近，无人机搭载MEC在工业界和学术界也被广泛讨论，利用无人机的覆盖能力和机动性，实现更低时延要求、提供更灵活的计算服务以及降低成本。无人机搭载MEC存在以下问题：(1)如何选择适当的设备关联，即用户设备选择卸载计算任务或是本地处理计算任务，以尽量减少所有用户设备的长期能量消耗；(2)考虑用户设备计算任务不同，如何实时控制无人机的飞行轨迹，即飞行方向和距离，特别是无人机需要到达特定终点的情况。对于MEC和无人机的结合使用方法，已经有很多学者做了相关研究。由于无人机的策略空间，即最优轨迹，是连续的空间，传统的穷举搜索方法很难解决。有些学者提出了一种量化的动态规划算法来解决MEC的资源分配问题，由于无人机的飞行选择几乎是无限的，该算法的复杂性非常高；或者是将无人机轨迹离散化为无人机位置序列，将连续空间转化成离散的有限空间，使得问题可处理化，也有通过离散变量近似无人机轨迹，通过传统的凸优化方法进行优化，但上述方法会降低无人机的控制精度，无法获得最优控制策略。

现有技术公开了一种物联网的移动边缘计算方法、装置及***，包括：基于各个无人机的当前模拟位置和目标物联网区域内的各个物联网设备的实际位置，为各个物联网设备分配无人机；模拟将物联网设备的任务卸载至分配的无人机，及模拟各个无人机基于深度增强学习算法对接收的任务进行调度；利用差分进化算法对各个无人机的当前模拟位置进行迭代更新，继续执行上述操作，直至迭代更新次数达到预设阈值时停止操作；基于每次操作中物联网设备分配的无人机、无人机进行任务调度的结果和无人机的当前模拟位置，确定各个无人机的最优坐标位置；触发各个无人机移动至其最优坐标位置下调度对应物联网设备上的任务。该方法是将物联网设备的任务均选择卸载分配至无人机，在无人机负载均衡的情况系对任务进行调度；仅考虑了无人机的负载均衡，没有联合考虑无人机轨迹和用户设备调度策略，轨迹规划不合理，计算能耗高。

发明内容

本发明为克服上述现有技术无法规划无人机的连续动作，获得准确调度策略的缺陷，提供一种无人机辅助移动边缘计算的调度优化方法及***，通过联合优化无人机轨迹和用户设备调度，获得最优调度策略，可以规划出无人机的连续动作，获得合理、准确的飞行轨迹和用户设备的选择策略，复杂程度低，收敛性强，减少了用户设备的平均计算能耗。

为解决上述技术问题，本发明的技术方案如下：

本发明提供一种无人机辅助移动边缘计算的调度优化方法，包括：

S1：构建移动边缘计算***的卸载模型，所述模型包括一个无人机和若干个用户设备；

S2：根据移动边缘计算***的卸载模型，获得计算任务的能耗；

S3：以用户设备的平均能耗最小化为目标，建立联合无人机轨迹和用户设备调度的优化问题；

S4：将所述优化问题转化为马尔科夫决策过程，定义移动边缘计算***卸载模型的状态空间、动作空间和回报函数；

S5：基于SAC算法构建深度神经网络，利用状态空间、动作空间和回报函数对深度神经网络进行训练，获得训练好的深度神经网络；

S6：利用训练好的深度神经网络进行调度优化，获得最优调度策略，即无人机飞行轨迹和用户设备的选择策略。

SAC算法是一种基于最大熵的强化学习框架和Actor-Critic网络的离线随机策略算法，最主要特征是熵正则化，熵是策略随机性的一种衡量，增加熵可以带来更多的策略探索，通过训练策略权衡期望回报和熵值，可以加快网络学习速度，同时避免策略收敛至局部最优解；Actor网络的目的是获得最大回报期望和最大熵，即在成功完成任务的同时探索策略空间中的其他策略；离线方式的网络更新与Actor-Critic网络相结合在连续控制基准任务上达到很好的性能，更加稳定且收敛性更好。

优选地，所述步骤S1中，构建的移动边缘计算***的卸载模型具体为：

移动边缘计算***的卸载模型包括单个无人机和N个用户设备，无人机最多同时服务K个用户设备，每个用户设备选择将计算任务由本地计算或者卸载至无人机计算；设定无人机的飞行区域的长度和宽度分别为X_max和Y_max，无人机在固定高度h以v(t)恒定速度飞行，天线发射角度为θ，飞行最大速度为v_max；无人机的飞行时间为T个时隙，每个时隙长度为τ，在任意时刻完成计算任务的时间不能超过最大时延T_max；

设无人机的坐标为[X(t)，Y(t)，h]，用户设备的坐标为[x_i(t)，y_i(t)，0]，i∈{1，2，…，N}；设定无人机在t时刻的飞行距离和水平方向角度分别为d(t)和θ^h(t)，则X(t)＝X(t-1)+d(t)cos(θ^h(t))，Y(t)＝Y(t-1)+d(t)sin(θ^h(t))；无人机的最大覆盖范围为R_max＝h·tan(θ)，飞行速度为

定义t时刻的计算任务为：

I_i(t)＝{D_i(t)，F_i(t)}

式中，D_i(t)表示选择卸载计算t时刻的计算任务时的数据传输量，F_i(t)表示完成t时刻的计算任务所需的计算能力；

定义α_i(t)∈{0，1}表示用户设备的选择策略，α_i(t)＝0时表示t时刻的计算任务本地计算，α_i(t)＝1时表示t时刻的计算任务卸载计算。

优选地，所述步骤S2中，根据移动边缘计算***的卸载模型，获得计算任务所消耗的能量包括：

用户设备选择卸载计算，即α_i(t)＝1；此时该用户设备与无人机的水平面上的距离为：

用户设备配备单根天线，为了避免用户设备之间的干扰，采用频分多址协议卸载方式；由于无人机飞行高度一定，采用自由空间信道模型，则卸载计算时上行链路速率为：

式中，B表示通信信道的平均带宽，P^Tr表示用户设备数据卸载的传输功率，ρ表示传输功率系数；

用户设备传输计算任务的时间开销为：

无人机处理计算任务的时间开销为：

式中，f^U(t)表示无人机的计算能力；

则用户设备选择卸载计算的总时间开销为：

用户设备选择卸载计算的能耗为：

式中，

表示第i个用户设备选择卸载计算的能耗。

优选地，所述步骤S2中，根据移动边缘计算***的卸载模型，获得计算任务所消耗的能量还包括：

用户设备选择本地计算，即α_i(t)＝0；

用户设备处理计算任务的时间开销为：

式中，

表示用户设备的计算能力；

将用户设备的功耗设定为

则用户设备选择本地计算的能耗为：

式中，k_i为第一常数，v_i为第二常数。

优选地，所述步骤S3中，以用户设备的平均能耗最小化为目标，建立联合无人机轨迹和用户设备调度的优化问题，具体为：

定义飞行动作集合

用户设备调度策略集合

则优化问题P表示为：

其中，E_i(t)表示用户设备的能耗，当α_i(t)＝1时，

当α_i(t)＝0时，

表示约束无人机最多同时服务K个用户设备，α_i(t)S_i(t)≤R_max表示约束选择卸载计算的用户设备在无人机的最大覆盖范围中。

优选地，所述步骤S4中，设计的移动边缘计算***卸载模型的状态空间和动作空间具体为：

在移动边缘计算***的卸载模型中，无人机与用户设备相当于一个智能体，在每个时隙，智能体从环境中观测获得当前状态s(t)，当前状态s(t)对应当前动作a(t)，无人机执行动作空间中的当前动作a(t)，与环境进行交互，环境返还当前回报r(t)和新状态s(t+1)；

对于状态空间，在每个时隙中，用户设备的位置是固定的，只需考虑无人机的位置信息；以及每个飞行周期结束，无人机都需到达特定目的地，设定无人机与特定目的地的距离为d′(t)，则状态空间中，当前状态表达式为s(t)＝{X(t)，Y(t)，h，d′(t)}；

对于动作空间，根据无人机飞行距离d(t)和水平方向角度θ^h(t)，计算无人机下一时刻的位置坐标[X(t+1)，Y(t+1)，h]，以及用户设备的选择策略，则动作空间中，当前动作表达式为a(t)＝{θ^h(t)，d(t)，α_i(t)}。

优选地，所述步骤S4中，设计的移动边缘计算***的卸载模型的回报函数具体为：

回报函数用于评估智能体在当前状态下采取的动作的好坏，具体为：

r(t)＝R_erengy+R_des+P_out+P_speed

式中，r(t)表示当前回报，R_erengy表示优化问题的回报，R_des表示无人机飞回特定目的地的回报，R_des＝k/d′(t)，k为奖励因子；P_out表示无人机飞出飞行区域的惩罚，P_speed表示无人机飞行超速的惩罚。

优选地，所述步骤S5中，构建的深度神经网络包括经验缓冲区、Actor网络、第一Critic网络、第二Critic网络、第一Critic目标网络和第二Critic目标网络；

在每个时隙中，Actor网络的输入为当前状态s(t)，输出相应的当前动作a(t)，得到当前调度策略π_φ；第一Critic网络和第二Critic网络的输入均为当前状态s(t)和当前动作a(t)，分别输出Q值；无人机执行当前动作a(t)后，生成新状态s(t+1)，并获得当前回报r(t)，将[s(t)，a(t)，r(t)，s(t+1)]储存在经验缓冲区中；第一Critic目标网络和第二Critic目标网络分别作为第一Critic网络、第二Critic网络的副本，设置目标函数，选择两个Q值中较小的Q值来计算目标值，用于更新第一Critic网络、第二Critic网络的网络参数；该时隙结束时根据当前调度策略对Actor网络和Critic网络的网络参数进行实时更新，从经验缓冲区中随机采样对Critic目标网络的网络参数进行更新；

Actor网络的损失函数为：

第一Critic网络和第二Critic网络的损失函数为：

第一Critic目标网络和第二Critic目标网络的目标函数为：

式中，φ表示Actor网络的网络参数，θ_i表示第i个Critic网络的网络参数，

表示第i个Critic网络的Q值；i＝1时，θ₁表示第一Critic网络的网络参数，

表示第一Critic网络的Q值；i＝2时，θ₂表示第二Critic网络的网络参数，

表示第二Critic网络的Q值；

表示根据当前调度策略π_φ计算获得的新动作；

表示目标值，α表示熵正则化系；

表示第i个Critic目标网络的Q值，i＝1时，

表示第一Critic目标网络的Q值，

表示第二Critic目标网络的Q值。

优选地，构建的深度神经网络的最优调度策略表达式为：

式中，π*表示最优调度策略，α表示熵正则化系数，π_φ表示调度策略，γ表示折扣因子；H表示熵，计算方法为：H(π_φ(·|s(t)))＝E[-logπ_φ(·|s(t))]。

本发明还提供一种无人机辅助移动边缘计算的调度优化***，包括：

模型构建模块，用于构建移动边缘计算***的卸载模型，所述模型包括一个无人机和若干个用户设备；

能耗计算模块，根据移动边缘计算***的卸载模型，获得计算任务的能耗；

优化问题建立模块，用于以用户设备的平均能耗最小化为目标，建立联合无人机轨迹和用户设备调度的优化问题；

优化问题转化模块，用于将所述优化问题转化为马尔科夫决策过程，定义移动边缘计算***卸载模型的状态空间、动作空间和回报函数；

网络构建训练模块，基于深度强化学习算法构建深度神经网络，利用状态空间、动作空间和回报函数对深度神经网络进行训练，获得训练好的深度神经网络；

调度优化模块，利用训练好的深度神经网络进行调度优化，获得最优调度策略，即无人机飞行轨迹和用户设备的选择策略。

与现有技术相比，本发明技术方案的有益效果是：

本发明构建的移动边缘计算***卸载模型包括一个无人机和若干个用户设备，基于完成计算任务的能耗，以用户设备的平均能耗最小化为目标，建立联合无人机轨迹和用户设备调度的优化问题；该优化问题是非凸的，传统方法很难解决，将其转化为马尔科夫决策过程，定义移动边缘计算***卸载模型的状态空间、动作空间和回报函数；利用状态空间、动作空间和回报函数训练基于SAC算法构建的深度神经网络，利用训练好的深度神经网络可以进行调度优化，获得最优调度策略，可以规划出无人机的连续动作，获得合理、准确的飞行轨迹和用户设备的选择策略，复杂程度低，收敛性强，减少了用户设备的平均计算能耗。

附图说明

图1为实施例1所述的一种无人机辅助移动边缘计算的调度优化方法的流程图；

图2为实施例2所述的移动边缘计算***的卸载模型的示意图；

图3为实施例2所述的构建的深度神经网络的结构示意图；

图4为实施例2所述的不同优化调度优化方法下的无人机轨迹对比示意图；

图5为实施例2所述的不同优化调度优化方法下的用户设备平均能耗对比示意图；

图6为实施例3所述的一种无人机辅助移动边缘计算的调度优化***的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种无人机辅助移动边缘计算的调度优化方法，如图1所示，包括：

在具体实施过程中，构建一个移动边缘计算***的卸载模型，单个无人机搭载MEC在规定区域内飞行，为用户设备提供边缘计算；根据移动边缘计算***的卸载模型，计算完成每个计算任务的能耗；以用户设备的平均能耗最小化为目标，建立联合无人机轨迹和用户设备调度的优化问题；将无人机飞行轨迹和用户设备选择卸载计算或本地计算的问题转化为马尔科夫决策过程，定义移动边缘计算***卸载模型的状态空间、动作空间和回报函数；基于SAC算法构建深度神经网络，利用状态空间、动作空间和回报函数对深度神经网络进行训练，利用训练好的深度神经网络进行调度优化，获得最优调度策略，即无人机飞行轨迹和用户设备的选择策略，实现了非凸的优化问题的求解，能够对无人机连续动作的进行规划，获得合理、准确的飞行轨迹和用户设备的选择策略，复杂程度低，收敛性强，减少了用户设备的平均计算能耗。

实施例2

本实施例提供一种无人机辅助移动边缘计算的调度优化方法，包括：

如图2所示，移动边缘计算***的卸载模型包括单个无人机和N个用户设备，无人机最多同时服务K个用户设备，每个用户设备选择将计算任务由本地计算或者卸载至无人机计算；设定无人机的飞行区域的长度和宽度分别为X_max和Y_max，无人机在固定高度h以v(t)恒定速度飞行，天线发射角度为θ，飞行最大速度为v_max；无人机的飞行时间为T个时隙，每个时隙长度为τ，在任意时刻完成计算任务的时间不能超过最大时延T_max；

定义t时刻的计算任务为：

I_i(t)＝{D_i(t)，F_i(t)}

用户设备传输计算任务的时间开销为：

无人机处理计算任务的时间开销为：

式中，f^U(t)表示无人机的计算能力；

则用户设备选择卸载计算的总时间开销为：

用户设备选择卸载计算的能耗为：

式中，

表示第i个用户设备选择卸载计算的能耗。

用户设备选择本地计算，即α_i(t)＝0；

用户设备处理计算任务的时间开销为：

式中，

表示用户设备的计算能力；

将用户设备的功耗设定为

则用户设备选择本地计算的能耗为：

式中，k_i为第一常数，v_i为第二常数。本实施例中，v_i的取值为3。

定义飞行动作集合

用户设备调度策略集合

则优化问题P表示为：

其中，E_i(t)表示用户设备的能耗，当α_i(t)＝1时，

当α_i(t)＝0时，

对于状态空间，在每个时隙中，用户设备的位置是固定的，只需考虑无人机的位置信息；以及每个飞行周期结束，无人机都需到达特定目的地，设定无人机与特定目的地的距离为d′(t)，则状态空间中，当前状态表达式为s(t)＝{X(t)，Y(t)，h，d′(t)}，本实施例的状态空间为4维；

对于动作空间，根据无人机飞行距离d(t)和水平方向角度θ^h(t)，计算无人机下一时刻的位置坐标[X(t+1)，Y(t+1)，h]，以及用户设备的选择策略，则动作空间中，当前动作表达式为a(t)＝{θ^h(t)，d(t)，α_i(t)}，本实施例的动作空间为(N+2)维。

r(t)＝R_erengy+R_des+P_out+P_speed

构建的深度神经网络包括经验缓冲区、Actor网络、第一Critic网络、第二Critic网络、第一Critic目标网络和第二Critic目标网络；

Actor网络的损失函数为：

第一Critic网络和第二Critic网络的损失函数为：

第一Critic目标网络和第二Critic目标网络的目标函数为：

表示第二Critic网络的Q值；

表示根据当前调度策略π_φ计算获得的新动作；

表示目标值，α表示熵正则化系；

表示第i个Critic目标网络的Q值，i＝1时，

表示第一Critic目标网络的Q值，

表示第二Critic目标网络的Q值；

最优调度策略表达式为：

在具体实施过程中，基于SAC算法构建的深度神经网络的每一幕为无人机从起点出发，到达目的地或最大时间T结束；每一幕开始之前，初始化无人机的起点位置和终点位置，并随机初始化用户设备的数量，即N的值；在开始阶段，调度策略与最优调度策略相距甚远，将熵正则化系数α置为1，使智能体在初始阶段探索更多动作，以防陷入局部最优解，在网络参数更新的同时，α也随之更新，随着迭代次数的增加，算法逐渐收敛至最优解。如图3所示，在每个时隙，智能体根据观测的状态信息s(t)输出动作a(t)，即无人机的飞行方向和距离，以及用户设备选择本地计算或者卸载计算；若无人机飞行距离大于最大距离d_max，令d(t)＝d_max；若无人机的下一个位置超出规定区域则取消该飞行动作。根据当前动作得到相应的当前回报r(t)和下一时刻的状态s(t+1)，将[s(t)，a(t)，r(t)，s(t+1)]储存在经验缓冲区，在每一时刻结束时从经验缓冲区中随机采样K组经验进行网络参数的更新。SAC算法包含一个参数化的Actor网络，由该网络输出策略π_φ(·|s(t))，即输入状态信息s(t)到Actor网络，输出相应的动作a(t)～π_φ(·|s(t))；另外由两个参数化的Critic网络，也称作Q网络，将输入Actor网络的状态信息s(t)和相应得到的动作a(t)共同输入到第一Critic网络和第二Critic网络中，分别输出得到的Q值

选择较小

作为评判Actor网络表现的好坏，防止过高估计。其中，φ和θ_i分别表示Actor网络和Critic网络的参数。与其他DRL算法类似，SAC算法也设置了经验缓冲区，用于深度神经网络参数的训练，同样也设置了目标网络和软更新。其目标函数分别是第一Critic网络和第二Critic网络的副本，

表示目标Q值，θ′_i表示第一Critic目标网络和第二Critic目标网络的参数。“软”更新表示通过缓慢跟踪训练的网络参数以更新目标网络的参数，即φ←τφ+(1-τ)φ′，θ_i←τθ_i+(1-τ)θ′_i，其中，τ≤1。不同之处在于，用于更新Actor网络和Critic网络的动作是来自当前策略，并非从经验缓冲区中采样。

如图4所示，以单个无人机服务和40个用户设备为例进行调度优化，图中为不同调度优化方法下的无人机轨迹；轨迹1为实施例提供的联合优化无人机轨迹和用户设备调度的无人机飞行轨迹，轨迹2、3为以用户设备中心点为折点，无人机从起点出发经过中心点后飞向终点的固定轨迹，不同之处在于，轨迹2为仅优化用户设备调度的无人机飞行轨迹，轨迹3为随机用户设备调度下的无人机飞行轨迹；其中三角表示轨迹1，菱形表示轨迹2，正方形表示轨迹3，并且轨迹2与轨迹3重合；如图5所示，展示出三种调度方法的用户设备平均能耗的对比图，其中三角表示实施例提供的联合优化无人机轨迹和用户设备调度的用户设备平均能耗，圆形表示仅优化用户设备调度的用户设备平均能耗，正方形表示随机用户设备调度的用户设备平均能耗；基于现实中不同用户设备的功能不同，在本实施例中计算任务大小随机生成，无人机最大服务数量K为3；从图中可以看出，联合优化无人机轨迹和用户设备调度的调度优化方法的用户设备平均能耗最小，远小于仅优化用户设备调度的方法和随机用户设备调度的方法，本实施提供的调度优化方法复杂程度低，收敛性强，可以有效减少用户设备的平均计算能耗。

实施例3

本实施例提供一种无人机辅助移动边缘计算的调度优化***，如图6所示，包括：

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种无人机辅助移动边缘计算的调度优化方法，其特征在于，包括：

2.根据权利要求1所述的无人机辅助移动边缘计算的调度优化方法，其特征在于，所述步骤S1中，构建的移动边缘计算***的卸载模型具体为：

将无人机的坐标表示为[X(t)，Y(t)，h]，用户设备的坐标表示为[x_i(t)，y_i(t)，0]，i∈{1，2，…，N}；设定无人机在t时刻的飞行距离和水平方向角度分别为d(t)和θh(t)，则X(t)＝X(t-1)+d(t)cos(θh(t))，Y(t)＝Y(t-1)+d(t)sin(θ^h(t))；无人机的最大覆盖范围为R_max＝h·tan(θ)，飞行速度为