CN113342529B

CN113342529B - 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法

Info

Publication number: CN113342529B
Application number: CN202110679260.6A
Authority: CN
Inventors: 吴少川; 章王舜; 李壮
Original assignee: Beijing Mechanical And Electrical Engineering General Design Department; Harbin Institute of Technology
Current assignee: Beijing Mechanical And Electrical Engineering General Design Department; Harbin Institute of Technology
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2024-03-29
Anticipated expiration: 2041-06-18
Also published as: CN113342529A

Abstract

本发明提出了基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法，方法包括：设置网络中CF‑MEC环境参数，确定用户设备UE与AP之间的数量关系；计算密集型任务的生成，使整个网络的时延t_all最小化；定义动作、状态和奖励，训练深度Q网络，并保存网络模型；本发明的方法运行在和所有AP都相连的CPU上；并且在无小区大规模多天线架构中，每个AP都会将关于某个特定接收信号的局部软判决传输至CPU进行最终的综合判决，因此在CPU处可以获得全部的上行信号，同时在CPU处运行的本方法能够获得所有的卸载任务信息，并为它们一一选择合适的服务器来最优化整个网络所经历的卸载时延。

Description

基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法

技术领域

本发明属于网络时延最小化领域，具体地，涉及基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法。

背景技术

无小区大规模多天线架构指的是这样一种架构：整个覆盖区域內的若干用户全部使用相同带宽且同时被区域內分散在各处的接入点(Access Point,AP)服务。而这些接入点之间通过前传回路和一个CPU相连。通过给每个AP配备一个计算能力稍强的服务器，每个用户都能够将计算密集型任务卸载到接入网一侧，从而减少传统云计算的传输时延并且增强了用户设备的计算能力和续航能力。这就是无小区大规模多天线架构下的移动边缘计算。

计算卸载指的是用户将计算密集型任务传输给一个指定的服务器进行计算并返回结果的过程。在移动边缘计算中，计算卸载方法始终都是重点关注对象。在CF-MEC场景中也不例外。现有文献在这一场景中，提及了一种被称为最小负载计算模型(Minimum LoadComputation Model)的分布式计算卸载方法。该方法出于网络可扩展性的考虑假设用户仅由一个以用户自身为原点，半径为一个固定值的圆內的AP所服务。用户产生的计算密集型任务也仅能卸载到由这个圆所圈定的AP所配备的服务器中。而负载指的是每个服务器维护的计算队列的长度。因此，在最小负载计算模型中，用户的卸载策略就是将任务卸载到这些限定AP对应的服务器中计算队列长度最短的一个服务器中。

但这种方法的问题在于用户设备的计算任务只能卸载到特定范围内的服务器中。在这个特定圆形区域之外的服务器没有得到利用。如果用户设备的卸载任务请求过于频繁的话，就会导致圆形区域內的服务器计算队列过长，而圆形区域外的服务器的计算队列长度却可能很短的情况。在这种情况下，如果能将计算任务转移到圆形区域外的闲置服务器中计算就能显著提高空闲资源的利用率，同时降低了计算任务不必要的等待时延，进而降低了用户进行计算卸载总共需要忍受的时延。而低时延一直都是计算卸载追求的目标之一，因此需要一种方法能够利用那些圆形区域外的等待时延更小的服务器。

发明内容

本发明在基于强化学习的计算卸载方法的基础上，利用最优序列决策的方式为网络中的每一个计算任务选择从全局的角度选择一个合适的AP服务器进行计算，进而提出了基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法。

本发明是通过以下方案实现的：

基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法:

所述方法具体包括以下步骤：

步骤一：设置网络中CF-MEC环境参数，确定用户设备UE与AP之间的数量关系；

步骤二：通过用户设备UE与AP之间的数量关系，计算密集型任务的生成，使整个网络的时延t_all最小化；

步骤三：定义动作、状态和奖励，训练深度Q网络，并保存得到网络模型。

进一步地，在步骤一中：

所述CF-MEC环境参数包括：

将网络设置为一个D×D的正方形，所述网络的尺寸参数D，单位为m，***带宽B，单位为Hz，网络中AP的数量为L个，网络中用户设备UE的数量为K个，用户设备UE限定的圆形服务区域的半径R，单位为m，AP的高度H和与AP连接的服务器的计算能力W，单位为GHz；

其中，L>>K且L/K>3。

进一步地，在步骤一中：

使用两个均匀随机数生成器分别生成L个随机数对作为AP的随机位置坐标，生成K个随机数对作为用户设备UE的随机位置坐标，计算各个用户设备UE到AP的平面距离，结合所述圆形服务区域的半径R，通过迭代方法和距离判断来确定实际服务每个用户设备UE的AP簇。

进一步地，在步骤二中：

任务参数包括任务的大小b，单位为Mb，任务的到达时刻t_arrive，单位为s，产生该任务的用户设备UE编号I和CF-MEC网络的比特传输速率C，单位为bps；

所述密集型任务的平均间隔时间服从指数分布，每个用户设备UE产生的任务相互独立且参数的指数间隔相同；

所述密集型任务的生成过程中涉及到的参数包括：任务之间的平均间隔时间λ和总仿真时长T，单位为s。

进一步地，在步骤二中：

计算密集型任务的生成包括以下步骤：

步骤二一：生成和用户数量L个数相同的用户列表，所述用户列表分别对应不同编号I的用户设备UE；每个用户列表的计时器独立，且初始时刻均为0；

对任意一个用户列表，通过任务之间的平均时间间隔λ，任务的大小b，得到了下一个任务到达时刻t_arrive，即：

t_arrive＝t_temp+λ

其中t_temp是当前时刻；

将t_temp和t_arrive信息添加进原用户列表中，重复这个过程直到计时器超过总仿真时长T为止；

在对任意一个用户列表完成步骤二一的操作后，对剩下的所有用户列表都执行相同的操作来完成用户计算任务的生成，得到所有用户的任务生成模型；

步骤二二：通过模拟网络负载的演化计算每个任务遭受的时延，通过计算使整个网络的时延t_all最小化；

所述时延t_all的计算由两部分组成：比特传输时延t_transmission和处理时延t_process，即：

t_all＝t_transmission+t_process

所述比特传输时延t_transmission的计算公式为：

所述处理时延t_process由用户的计算任务在服务器计算队列中的等待时延t_waiting和任务被计算所需的时间t_computation构成，即：

t_process＝t_waiting+t_computation

所述等待时延t_waiting通过计算任务的到达时刻之前，处理当前未被处理完的任务所需要的计算时间来确定；

所述计算时延t_computation的计算公式为：

其中，ρ是计算每Mb数据需要的时钟频率，单位为Mb/GHz。

进一步地，在步骤三中：

所述深度Q网络需要控制的参数包括：动作空间的维度N_action，状态空间的维度N_state，奖励折扣因子β，学习速率α，采取贪婪策略的概率P_ε-greedy，更新目标网络的频率N_update，经验缓存的大小N_buffer，采取贪婪策略概率的增长步进长度N_increment，训练的幕数E以及整个网络中隐藏层的数量N_layer；

其中，奖励折扣因子β、学习速率α以及贪婪策略概率的增长步进长度N_increment的取值都在0-1之间。

进一步地，在步骤三中：

所述动作为L的one-hot向量；

所述状态由所有AP服务器计算队列的队列长度，当前任务的大小b和到达时刻t_arrive构成；

所述奖励为当前任务遭受的总时延t_all的相反数，即-t_all；

开启深度Q网络的训练并保存得到网络模型。

本发明有益效果

(1)本发明决策的方式为网络中的每一个计算任务选择从全局的角度选择一个合适的AP服务器进行计算；通过强化学习方法为每一个卸载任务选择合适的卸载服务器对卸载任务进行计算，从而使整个网络中的时延最小化，提高网络的移动边缘计算的服务质量；

(2)本发明为了获取全局信息，方法本身运行在和所有AP都相连的CPU上；并且在在无小区大规模多天线架构中，每个AP都会将关于某个特定接收信号的局部软判决传输至CPU进行最终的综合判决，因此在CPU处可以获得全部的上行信号，同时在CPU处运行的本方法能够获得所有的卸载任务信息，并为它们一一选择合适的服务器来最优化整个网络所经历的卸载时延。

附图说明

图1为本发明的cost曲线图；

图2为本发明的平均时延性能比较图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1和图2；

基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法，将网络设置为一个D×D的正方形；

所述方法具体包括以下步骤：

在步骤一中：所述CF-MEC环境参数包括：

将网络设置为一个D×D的正方形，其中D为网络的尺寸参数，单位为m，***带宽B，单位为Hz，网络中AP的数量为L个，网络中用户设备UE的数量为K个，用户设备UE限定的圆形服务区域的半径R，单位为m，AP的高度H和与AP连接的服务器的计算能力W，单位为GHz；

其中，为了符合Massive MIMO的范式,需要满足AP数量远大于用户数量，即L>>K且L/K>3；其余参数可按需求设置。

在步骤二中：同时由于计算任务需要通过无线信道进行传输，

任务参数包括任务的大小b(包括需要运行的程序和必要的数据)，单位为Mb，任务的到达时刻t_arrive，单位为s，产生该任务的用户设备UE编号I和CF-MEC网络的比特传输速率C，单位为bps；

这些参数一般都可以按照需求自行设置。不过需要注意网络的比特传输速率受制于***带宽和整个网络的上行传输频谱效率。上行传输的频谱效率需要根据现有的研究结果合理取值。

鉴于排队论在网络容量分析中被广泛接受与使用，本发明使用了排队论中的常用的任务生成模型，即任务之间的平均间隔时间服从指数分布，网络中的每个用户都以相同参数的指数间隔时间独立产生各自的计算任务。

每个用户设备UE产生的任务相互独立且参数的指数间隔相同；

计算密集型任务的生成包括以下步骤：

以第一个用户列表为例，通过指数分布随机数生成器产生距离下一个任务生成时刻的时间间隔λ，并使用一个均匀分布随机数生成器产生到达任务的大小b。同时将第一个用户列表的计时器加上这个指数时间间隔就得到了下一个任务到达时刻t_arrive，即：

t_arrive＝t_temp+λ

其中t_temp是当前时刻；

t_all＝t_transmission+t_process

每个用户产生的任务经过无线传输的耗时就是比特传输时延t_transmission的计算公式为：

t_process＝t_waiting+t_computation

所述计算时延t_computation的计算公式为：

其中，ρ是计算每Mb数据需要的时钟频率，单位为Mb/GHz。

在步骤二中为每一个服务器维护了一个任务列表用于存储所有到达该服务器的任务信息。将任务信息中的产生时刻加上传输时延就得到了任务到达服务器的时刻t_{server_arrive}。然后通过将该计算服务器中第一个到达任务的到达时刻和当前任务的到达时刻之间的差值乘上就能得到这段时间內被计算的任务数据大小。将这些已被计算的任务扣除，计算剩下的任务到当前任务之间需要的计算时间就能得出当前任务的等待时延。再将其加上计算当前任务所需的时间就能得到当前任务将要经历的处理时延。

在步骤三中：

其中，奖励折扣因子β、学习速率α以及贪婪策略概率的增长步进长度N_increment的取值都在0-1之间。其它数值可根据需要自行设置。

由于本方法运行在CPU处，它对每个任务都执行一个动作来决定任务的去向，因此所述动作为L的one-hot向量；其中为1的元素的索引就是方法为该任务选择的AP服务器的编号。

所述奖励为当前任务遭受的总时延t_all的相反数，即-t_all；这是由于强化学习的原则就是寻找最大化长期奖励和的策略，而本方法的目标是最小化时延和，于是在时延面前加上负号就能将最小化问题转化为符合强化学习框架的最大化问题。

在这之后，通过设定相关参数，开启深度Q网络的训练并保存得到网络模型即能够产生本方法。

在选定参数B＝20MHz，D＝2km，L＝100，K＝20，H＝10m，W＝5GHz，C＝40Mbps，R从600m到1200m之间取值，步长为200m，λ从0.02s到0.18s之间取值，步长为0.04s，T＝20s，b在2-5Mb之间均匀随机取值，N_action＝100，N_state＝102，β＝0.99，α＝0.01，P_ε-greedy＝0.99，N_update＝200，N_buffer＝500，N_increment＝0.00025，N_layer＝2，E＝10以及ρ＝0.297GHz/Mb之后。可以得到如图1和图2的cost曲线和平均时延性能比较图。

由图2可以看出，最下方采用了深度Q网络(DQN)方法的计算卸载方法能够显著降低整个网络中的平均时延，尤其对于平均任务到达间隔为0.02s这种计算任务频发的情况都能获得十分低的时延。

本方法在具体实施时需要先让模型在特定环境下训练至能够获得较理想性能，由此保存下来的神经网络模型参数就能获得类似上述比较图的效果。

以上对本发明所提出的基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法，进行了详细介绍，本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法，其特征在于：

所述方法具体包括以下步骤：

所述CF-MEC环境参数包括：

其中，L>>K且L/K>3；

使用两个均匀随机数生成器分别生成L个随机数对作为AP的随机位置坐标，生成K个随机数对作为用户设备UE的随机位置坐标，计算各个用户设备UE到AP的平面距离，结合所述圆形服务区域的半径R，通过迭代算法和距离判断来确定实际服务每个用户设备UE的AP簇；

计算密集型任务的生成包括以下步骤：

t_arrive＝t_temp+λ

其中t_temp是当前时刻；

t_all＝t_transmission+t_process

所述比特传输时延t_transmission的计算公式为：

t_process＝t_waiting+t_computation

所述计算时延t_computation的计算公式为：

其中，ρ是计算每Mb数据需要的时钟频率，单位为Mb/GHz；

2.根据权利要求1所述方法，其特征在于：在步骤二中：

3.根据权利要求2所述方法，其特征在于，在步骤三中：

4.根据权利要求3所述方法，其特征在于：在步骤三中：

所述动作为L的one-hot向量；

所述奖励为当前任务遭受的总时延t_all的相反数，即-t_all；

开启深度Q网络的训练并保存得到网络模型。