CN114641076A

CN114641076A - 一种超密集网络中基于动态用户满意度的边缘计算卸载方法

Info

Publication number: CN114641076A
Application number: CN202210299217.1A
Authority: CN
Inventors: 鲜永菊; 刘闯
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-17

Abstract

本发明属于移动通信技术领域，具体涉及一种超密集网络中基于动态用户满意度的边缘计算卸载方法，该方法包括：构建多用户超密集网络，对网络初始化；网络中的用户设备产生计算任务，并向宏基站发送任务卸载请求；宏基站获取用户设备信息以及网络环境信息，并构建任务模型；将任务模型和网络环境信息输入到训练好的任务决策模型中，得到任务卸载决策；宏基站将任务卸载决策分别发送给用户设备和微基站；用户设备根据任务卸载决策执行任务卸载，微基站根据任务卸载决策分配计算资源进行任务计算；本发明对传统任务的模型进行了改进，对任务执行所消耗的能量进行了度量，使其能满足不同条件下用户的能耗需求。

Description

一种超密集网络中基于动态用户满意度的边缘计算卸载方法

技术领域

本发明属于移动通信技术领域，具体涉及一种超密集网络中基于动态用户满意度的边缘计算卸载方法。

背景技术

随着无线通信技术的快速发展和智能设备的广泛普及，近年来移动应用迎来***式增长，比如人脸识别，在线移动游戏，虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)；其中大部分都是计算密集型或者延迟敏感型应用，然而移动设备(如智能手机，可穿戴设备)的计算能力和电池电量通常都是有限的。上述应用和资源受限设备之间的关系对提高移动用户体验质量(Quality of Experience,QoE)提出了巨大的挑战。

移动边缘计算(Mobile Edge Computing,MEC)将计算服务器从云中心下沉到网络边缘，用户设备和服务器之间的距离大大缩短，用户可以利用计算卸载技术将任务卸载到边缘服务器进行计算来满足密集计算的需求。另外5G架构下的超密集网络(Ultra-DenseNetwork,UDN)是一种多基站协作服务的异构网络方案，通过在热点地区部署大量微基站和宏基站，来提高无线网络的覆盖率并解决网络覆盖盲点问题，还能提升网络容量，从而改善网络的整体性能。然而，由于密集部署的微基站和MEC服务器导致多个用户会处在多个微基站的覆盖范围内，并且不同的基站具有不同的计算能力，如何为用户进行卸载决策以及资源分配是一项挑战。

目前在超密集网络中的联合无线源管理和任务卸载场景下中提出了一种启发式任务卸载算法HTOA，该算法在每次迭代中交替更新无线资源管理，目的是最大化用户卸载收益的总和；用户卸载的收益是通过任务执行的延迟和能耗来衡量的。5G超密集网络中基于移动边缘计算的任务卸载和资源分配场景下提出了一个基于差分进化算法的信道资源分配算法CRADE，利用该算法获得了多用户的任务卸载和资源分配最优方案。

然而上述现有技术都是在静态环境中进行的，每次优化都是截取当前网络状态快照，依据快照进行优化，但是实际的MEC网络是动态的。而且这些工作的优化目标都是在满足时延的需求下最小化能耗，没有充分考虑用户在自身不同条件下对于需求的变化；此外，这些工作对于用户QoE的提升都是通过最大化能效或者最小化能耗这种间接的方式；因此，如何在动态的超密集网络中开发充分考虑用户需求，并有效提升用户体验质量的计算卸载方法具有重要研究价值。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种超密集网络中基于动态用户满意度的边缘计算卸载方法，该方法包括：构建多用户超密集网络，并对网络初始化；网络中的用户设备产生计算任务，并向宏基站发送任务卸载请求；宏基站接收请求后获取用户设备信息以及网络环境信息，并根据获取的用户设备信息构建任务模型，所述环境信息包括用户设备与微基站的信道状态以及MEC服务器的计算资源信息；将任务模型和网络环境信息输入到训练好的任务决策模型中，得到任务卸载决策，所述任务决策模型包括策略网络和动作价值网络；宏基站将任务卸载决策分别发送给用户设备和微基站；用户设备根据任务卸载决策执行任务卸载，微基站根据任务卸载决策分配计算资源进行任务计算。

优选的，多用户超密集网络包括一个宏基站和N个微基站，每个微基站中配置有MEC服务器执行计算任务；每个微基站采用正交频分多址接入用户设备。

优选的，构建任务模型包括：获取用户设备信息，该信息包括用户设备产生的任务输入数据大小、任务单位CPU循环数、用户对该任务执行时时延需求、用户对任务的能耗需求、用户所能接受的执行任务时的最大能耗以及当前时隙用户设备的剩余电量；根据用户设备信息构建的任务模型为：

其中，d_u(t)表示该任务的输入数据大小，c_u(t)表示执行该任务的单位CPU循环数，τ_u(t)表示用户对于该任务的执行时延需求即最大容忍时延，

表示用户对于任务的能耗需求即理想执行能耗，

表示用户所能接受最大执行能耗，

表示在当前时隙用户设备的剩余电量。

进一步的，确定用户设备所能接受最大执行能耗和理想执行能耗的公式为：

其中，g表示理想能耗计算函数，

为用户设备的最大存储电量，ε为超参数。

优选的，对任务决策模型进行训练的过程包括：

S1：对任务决策模型的参数进行初始化；

S2：每个时隙将宏基站作为智能体获取当前环境状态信息以及用户设备的任务信息，根据用户任务设备的任务信息构建任务模型；

S3：将当前环境状态信息和任务模型输入到策略网络中，得到任务动作，该任务动作包括当前任务的卸载决策、功率控制以及计算资源分配动作；

S4：根据任务动作计算当前用户的满意度，得到当前宏基站的即时奖励；

S5：宏基站获取下一时刻环境状态信息，并将当前环境状态信息、任务动作、即时奖励以及下一时刻环境状态信息作为四元组存入优先经验重放数组；

S6：采用优先级机制对优先经验重放数组进行采样，将采集的四元组分别输入到策略网络和动作价值网络中进行训练，当宏基站的即时奖励函数收敛时，完成模型的训练。

进一步的，即时奖励函数为：

其中，

变送奖励函数，s_t表示当前环境状态，a_t表示动作，u表示某个用户，U表示用户总数，O_u(t)表示用户对宏基站执行当前任务的满意度，€_u(t)表示惩罚函数。

优选的，采用优先级机制对优先经验重放数组进行采样的过程包括：采用优先级分数公式计算优先经验重放数组中每个数据的优先级分数；根据计算出的优先级分数将数据按照从大到小的顺序进行排序，对排序后的数据进行标号，根据标号对每个数据定义一个抽样值；根据抽样值计算每个数据的抽样概率；根据抽样概率设置任务决策模型训练的学习率。

进一步的，设置任务决策模型训练学习率的公式为：

其中，ψ表示退火变量，

表示所有经验组的数量，α表示初始学习率，

表示抽样概率。

优选的，对策略网络进行训练的过程包括：给定当前状态s_t，策略网络输出动作a_t＝μ(s_t；θ^μ)，价值网络根据当前状态给该动作一个分数：q_t＝Q(s_t,μ(s_t；θ^μ)；θ^Q)；根据动作分数计算动作价值关于状态的期望J(θ^μ)；固定住价值网络参数θ^Q，使用梯度上升算法更新参数θ^μ，当J(θ^μ)收敛时完成策略网络的训练。

优选的，对动作价值网络进行训练的过程包括：

步骤1：从经验重放数组中抽取一组经验组(s_t,a_t,r_t,s_t+1)；

步骤2：将经验组输入到动作价值网络中，得到q_t＝Q(s_t,a_t；θ^Q)和q_t+1＝Q(s_t+1,μ(s_t+1；θ^μ)；θ^Q)；其中，Q表示价值网络，s_t表示当前环境状态，a_t表示动作，θ^Q表示价值网络参数，q_t+1表示下一时刻价值网络预测输出，μ表示策略网络参数；

步骤3：根据q_t+1计算TD目标，计算公式为：

其中，r_t表示即时奖励，γ表示折扣因子；

步骤4：根据TD目标、q_t以及q_t+1计算网络的损失函数；

步骤5：采用梯度下降算法对θ^Q进行更新，当网络的损失函数收敛时完成动作价值网络的训练。

本发明的有益效果：

本发明考虑了超密集网络中一种基于动态用户满意度的边缘计算卸载方法，在传统任务的模型进行了改进，对任务执行所消耗的能量进行了度量，使其能满足不同条件下用户的能耗需求。在改进的任务模型的基础上提出了一个相关的动态满意度函数的计算卸载问题，通过优化该满意度函数可以直接提升用户体验质量。用户在合作的情况下，设备电量较高的用户设置较为宽松的能耗需求，可以为设备电量较低的用户让出较多的计算资源以此来达到比较严格的能耗需求，这样所有用户总的满意度可以得到有效提升。最后利用基于深度强化学习的算法获得最佳的卸载策略。通过仿真实验，该算法有效的提高了用户的体验质量，并且与现有算法相比具有更好的收敛性和稳定性。

附图说明

图1为本发明的多用户超密集网络场景图；

图2为本发明的不同灵敏度参数对满意度函数的影响图；

图3为本发明所提算法的框架图；

图4为本发明所提算法流程图；

图5为本发明所提算法与现有算法的效果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种超密集网络中基于动态用户满意度的边缘计算卸载方法，该方法包括：构建多用户超密集网络，并对网络初始化；网络中的用户设备产生计算任务，并向宏基站发送任务卸载请求；宏基站接收请求后获取用户设备信息以及网络环境信息，并根据获取的用户设备信息构建任务模型，所述环境信息包括用户设备与微基站的信道状态以及MEC服务器的计算资源信息；将任务模型和网络环境信息输入到训练好的任务决策模型中，得到任务卸载决策，所述任务决策模型包括策略网络和动作价值网络；宏基站将任务卸载决策分别发送给用户设备和微基站；用户设备根据任务卸载决策执行任务卸载，微基站根据任务卸载决策分配计算资源进行任务计算。

多用户超密集网络包括一个宏基站和N个微基站，每个微基站中配置有MEC服务器执行计算任务；每个微基站采用正交频分多址接入用户设备。具体的，如图1所示，该网络包括1个宏基站，宏基站覆盖下随机分布着N个微基站，基站集合由

表示，其中n＝j表示第j个基站。多个微基站存在部分重复覆盖的区域，每个基站都配备了MEC服务器来执行计算任务，不同基站服务器具有不同的计算能力，每个基站都采用正交频分多址(OFDMA)接入用户设备，信道被分为K个正交的子信道，信道集合为

所以用户设备在卸载任务时需要选择合适的基站以及合适的信道。基站为U个用户设备服务，用户设备集合为

其中u＝i表示第i个用户设备。由于该工作是在动态MEC***中进行，本发明采用离散时间模型，时间被等分成长度为l的时隙集合

构建任务模型包括：获取用户设备信息，该信息包括用户设备产生的任务输入数据大小、任务单位CPU循环数、用户对该任务执行时时延需求、用户对任务的能耗需求、用户所能接受的执行任务时的最大能耗以及当前时隙用户设备的剩余电量。

本发明在传统的任务模型中加入关于能耗的度量，以为了满足在特定条件下用户对于任务执行能耗的不同需求。用户设备u在t时隙达到的任务由

表示，其中d_u(t)表示该任务的输入数据大小(bit)，c_u(t)表示执行该任务的单位CPU循环数(cycles/bit)，τ_u(t)表示用户对于该任务的执行时延需求即最大容忍时延，而与之前模型不同的能耗度量

表示用户对于任务的能耗需求即理想执行能耗，

表示用户所能接受最大执行能耗，同时在用户设备状态中引入

表示在当前时隙用户设备的剩余电量。理想能耗的设置与用户的需求、用户设备当前剩余电量以及当前任务的最大执行能耗阈值有关，引入公式表示，如下：

其中，g表示理想能耗计算函数，

为用户设备的最大存储电量，ε∈[5,10]为超参数，用户可以通过调整ε来满足自己对能耗的需求。

从用户设备所能接受最大执行能耗公式可以看出，当用户设备当前剩余电量较少时，对于理想能耗的要求比较高，当电量逐渐增加，此时用户还有比较充足的电量，所以对于理想能耗的要求会相应放缓。关于参数ε，当参数ε逐渐增大时，用户在电量较低时的需求会更高，对理想能耗的设置更低，所以不同ε值可以满足不同用户的需求。用户设备理想执行能耗公式主要起到合作机制的限制，用户不能过分贪婪的将理想能耗设置过低，这样可能所有的用户都会受到影响，又考虑到合理性，将理想能耗的最小值设置成该任务最大能耗的一半。

本发明使用

表示用户设备u的卸载决策，定义

时，表示用户u将任务卸载到基站n进行计算，并使用该基站的k信道进行传输。由于任务回传的结果相较于原任务数据量过小，所以本文重点关注任务发送和计算两个阶段。

本发明构建的多用户超密集网络中的通信模型包括：当用户设备选择合适的基站以及信道进行传输时，根据香农公式可以得到该用户的上传速率为：

其中B_n表示基站n的固定带宽，p_u,n(t)为用户设备u的发射功率，σ²表示加性高斯白噪声(AWGN)，h_u,n(t)是用户与基站之间的信道增益。在超密集网络中，由于多个基站复用频谱，所以设备之间的干扰不能忽略。I_u,n(t)为当前设备在当前信道受到的干扰，I_u,n(t)的计算表达式为：

其中，p_u′,n′(t)为使用当前信道的其他用户的发射功率，h_u′,n(t)表示当前信道用户u′与基站n的信道增益。

根据用户的上传速率可知用户设备u的可用上行链路速率不仅取决于分配的信道及自身的发射功率，还会受到来自于其他蜂窝用户设备的干扰。为了提高用户设备的传输速率，不仅需要适当的卸载策略，分配合适的发射功率，不同蜂窝之间的干扰控制也至关重要。

本发明的计算模型包括本地计算、服务器计算。

本地计算包括为了方便起见，本发明将本地计算的能耗作为执行任务的最大能耗准则，所以需要给出计算公式：

其中

为用户设备u的CPU计算能力，ρ＝10^-28为CPU系数，c_u(t)表示计算任务所需的CPU循环数。将本地计算的能耗设置为任务的最大能耗阈值即：

其中，

表示任务的最大能耗阈值，

表示本地计算能耗。

服务器计算包括：用户设备收到卸载决策，选择合适的基站及信道进行任务的处理。任务的处理包括任务传输和服务器计算两个阶段，所以这之中产生的时延也包括这两阶段，而能耗方面，由于本发明只注重用户的体验，而且MEC服务器一般都是有电网供电，所以服务器的计算能耗在本发明忽略，只计算任务传输时用户设备的能耗。

根据用户的上传速率得到传输时延为：

其中d_u(t)为用户任务的输入数据大小。当任务传输到基站后，服务器开始进行任务的计算，计算时延为：

其中，c_u(t)为计算该任务所需的CPU循环数，f_u,n(t)为基站n分配给用户u的计算资源，满足

F_n为基站n的最大计算能力，基站分配给所有用户的总计算资源不能超过该值。

根据用户设备的传输时延和计算时延可得用户设备u的总时延，其计算公式为：

其中，

表示传输时延，

表示服务器计算时延。

用户的传输能耗为：

其中，p_u,n(t)表示发射功率。

由于用户只选择卸载到基站计算，用户的能耗只有传输能耗，即有：

对任务决策模型进行训练的过程包括：

S1：对任务决策模型的参数进行初始化；

S4：根据任务动作计算当前宏基站的满意度，并将计算出的满意度和任务动作输入到动作价值网络中，得到当前宏基站的即时奖励；

一种用户体验的满意度模型，该模型为：

其中，E_u(t)表示任务执行能耗，ω表示满意度模型灵敏度参数，

和

分别表示用户u对执行此任务的理想能耗和最大能耗阈值。

为用户u对执行此任务的理想能耗和最大能耗阈值的中值，其表达式为：

在动态***中，随着用户设备的待机消耗以及任务执行消耗，用户设备的电量会不断的降低，此时再到来的任务其满意度函数会因为电量的改变会发生改变，则满意度模型为动态满意度函数。ω∈[5,10]为灵敏度参数，通过改变ω的大小可以控制函数的曲线，使其具有独特性并适应用户的需求。从函数中可以看出，随着用户能耗的增加，用户的满意度缓慢下降，当能耗大于最大能耗阈值时，用户的满意度为0。

满意度函数分析；在对满意度曲线进行分析之前，首先引入斜率变点的概念。***的输出序列在某未知时刻起了突然变化，该时刻即称为变点，斜率变点是指曲线斜率加(减)速变化最大的点。图2假设最大执行能耗与理想能耗的比例为8:5，满足用户对于任务的能耗需求即理想执行能耗公式。图2为取值区间内不同的灵敏度参数对于用户满意度的影响。从单个曲线走势来看，一条曲线一共有两个斜率变点，本发明定义图中左边变点为第一变点，右边变点为第二变点。当能耗从理想能耗缓慢增加时，用户的满意度在缓慢下降，但是从曲线的斜率可以看出，在到达第一个变点之前，下降的幅度是比较缓慢的，这也是该满意度函数更加贴近用户感受的体现。当能耗不断增加到达变点之后，此时离理想能耗已经较远，满意度相比之前开始急剧下降，直到遇到第二个变点，此时的满意度已经下降到了一个较低的水平，再次变化的幅度相较之前已经不大。

从单个曲线关注到多个曲线，从图中可以看出，随着灵敏度参数ω的增加，用户满意度曲线的第一个变点会升高，这表示用户在能耗较低时的满意度较高，一旦能耗开始增加，满意度的下降程度会随之提升，这种设置可以满足不同情况下的不同需求。例如用户当前对于能耗的需求比较苛刻，可以通过调高参数来获得更多的资源。但是考虑到其他用户的计算需求，不能无限制增加参数值，所以给该参数限制了一个设置范围。

该曲线除了能更加符合用户的需求外，还有另一个优点。在处理优化问题例如最大化所有用户满意度时，假设所有的用户都是合作的，为了更大化所有用户的满意度，可以尽量让用户的满意度达到第一个变点附近而非最理想的状态，这样可以给那些拥有资源较少的用户更多的让步，以此达到用更少的资源获得更好的满意度的效果。

优化问题描述；根据以上描述本发明提出一个最大化所有用户满意度的长效优化问题：

其中，C1和C2为卸载变量约束，C1限制卸载决策取值只能在K个信道之中，C2表示一个基站的一个信道只能分配一个用户设备，G_{#}＝1说明函数中的#为真。C3为用户的发射功率约束，每个用户的发射功率不能大于该用户设备所支持的最大功率。C4表示每个基站分配给用户的计算资源限制，即不能超过该基站的最大计算资源。约束C5是为了保证该任务能在最大容忍时延内完成。U表示用户总数，N表示基站总数，u表示用户u，n表示基站n，λ_u,n(t)表示卸载决策变量，

表示卸载决策表示函数，p_u,n(t)表示发射功率，

表示最大发射功率，f_u,n(t)表示计算资源分配变量，F_n表示基站n最大计算资源，T_u(t)表示执行时延，τ_u(t)表示时延阈值。

上述优化问题P是非凸的混合整数非线性规划问题，涉及到三个变量的优化，λ是U×N维的决策矩阵，其中数值是单个不大于K的离散整数，而p和f是关系到所有用户的连续实数向量。问题P在静态条件下的最佳解决方案需要有关数学模型的完整信息，例如信道条件的统计分布，而在实际***中无法获取这些信息。此外，本发明的工作是应用在动态的MEC***中，在时变条件下问题P使用传统优化算法解决的难度比较大。强化学习(Reinforcement Learning,RL)是一种比较先进的决策方法，它通过在目标环境中不断地进行试错学习，反馈结果并修改策略，以获得最大的回报。尽管它有许多优点，但它也缺乏可伸缩性，并且本质上局限于相当低的维度问题，这主要是因为强化学习算法与其他算法具有相同的内存复杂度、计算复杂度和样本复杂度。因此，为了解决强化学习难以处理的高维决策问题，深度强化学习将深度学习的感知能力与强化学习的决策能力相结合，通过增强函数近似和深层神经网络，解决了高维状态空间和行为空间的问题。

本发明基于RL框架提出了一个深度强化学习算法，并将该算法结合上述优化问题解决了多用户计算卸载问题。RL框架主要由智能体，环境和三要素组成，三要素包括：状态空间、动作空间以及奖励。

为了在强化学习框架下解决问题P，本发明根据***模型定义如下元素：

(1)状态空间：所有可能存在状态的集合

在每个时隙开始，宏基站观察无线网络的***状态，包括所有设备请求的任务详情，各个基站MEC服务器的可用计算资源，各个用户设备的计算能力，用户设备的剩余电量以及各个基站与设备之间的信道增益。***状态

可以定义为：

其中，V(t)为所有用户的任务请求特征矩阵，包含所有用户设备达到任务的数据特征。H(t)为每个基站与每个用户之间的信道增益矩阵。F(t)为所有基站服务器的计算资源向量，表示当前服务器可用的计算资源，而

为用户设备当前剩余电量向量。

(2)动作空间：智能体所有可能动作的集合

基于当前观测到的***状态s_t，智能体基于问题P的决策变量选择不同的动作，动作a_t可以定义为：

其中，λ(t)为基站选择和信道选择策略动作，p(t)为用户设备的发射功率分配动作，f(t)为基站分配给用户的计算资源动作。

(3)奖励：奖励函数

指智能体执行一个动作之后，环境返还给智能体的一个奖励:

其中，

表示状态空间，

表示动作空间，

表示奖励函数。本文提出的联合计算卸载和资源分配问题P的目标是最大化所有用户的满意度，可以直接将其结果作为即时奖励。定义即时奖励函数为：

其中€_u(t)为惩罚函数，其定义如下：

其中υ¹和υ²为两个正实数，并且满足υ¹≤O_u(t)≤υ²，O_u(t)表示用户满意度。

在每个时隙t，智能体观察环境

并采取动作

智能体的动作由策略函数μ确定输出。执行动作后，环境返还给给智能体一个标量的奖励r_t，并转换为下一个状态s_t+1。

回报指的是从当前时刻开始到回合结束所有奖励的总和，可以表示为：

其中γ∈[0,1]为折扣因子，表示对于奖励的重视程度，离当前时刻越久远的奖励折扣越大。ε＝(s₀,a₀,s₁,a₁,…)是一系列的状态和动作带来的奖励

其中，s₁表示该时刻状态，a₁表示该时刻动作。

强化学习中的策略函数μ是指智能体根据当前状态依据怎样的策略做出动作。动作价值函数Q^μ(s,a)是智能体根据当前状态做出当前动作的回报的期望。智能体的学习目标即为学习最佳的策略，在当前状态下做出最佳动作得到最大的价值。最优动作价值函数可以写成：

其中，Q^*(s_t,a_t)表示t时刻的动作价值函数。

对于具有高维状态空间和状态空间的RL问题，直接使价值函数最大化很难得到精确解。解决RL问题的一种可行方法是众所周知的Q学习(Q-learning)算法，Q学习是时间差分算法(Temporal Difference,TD)算法的一类。Q学习用表格来保存最佳动作价值，每种状态对应的不同动作都有一个预测的动作价值，每次选择动作都选择价值最大的动作即

随着状态空间和动作空间的增加，求解优先级分数的复杂性呈指数增长，Q学习已经无法满足需求，为了解决这个问题，利用深度神经网络(Deep Neural Network,DNN)来近似函数的深度强化学习(Reinforcement Learning,DRL)算法是一种有效的替代方法。DQN(Deep Q-network)算法利用DNN网络近似动作价值函数的来求解最优动作价值函数。虽然DQN可以成功的解决高维状态空间中的问题，但是它只能处理离散和低维的动作空间，当存在有限数量的离散动作时，DQN可以优先解决，但是对于连续变量，例如问题P的功率分配和计算资源分配变量，使用该方式之前必须对动作空间进行离散化，离散化将会造成精度的损失，而且随着离散化层数的增长，其计算复杂度呈指数增长。所以需要寻找一个更加适合本发明所提问题的深度强化学习算法。

深度确定性策略梯度。深度确定性策略梯度是最常用的连续控制方法，它是一种基于Actor-Critic的算法，由一个策略网络(演员)μ(s；θ^μ)来近似策略函数，一个价值网络(评委)Q(s,a；θ^Q)来近似动作价值函数，θ^μ和θ^Q分别是对应的神经网络参数。策略网络主要负责根据当前状态输出动作，该策略网络的输出是确定的动作，而价值网络的输出是当前状态以及策略网络输出动作的价值，即根据当前的状态来给该动作打分，用于指导演员做出更好的动作。

经验重放(Experience Replay)是强化学习中一个重要的技巧，可以大幅度提升强化学习的表现。把智能体与环境交互的记录(经验)存储到一个数组里，利用这些经验来训练智能体，这个数组称为经验重放数组(Replay Buffer)。利用策略网络控制智能体与环境进行交互，收集四元组(s_t,a_t,r_t,s_t+1)放入经验重放数组，然后从该数组抽取一定数量的经验对策略网络和价值网络进行训练。

对策略网络进行训练的过程包括：给定当前状态s_t，策略网络输出动作a_t＝μ(s_t；θ^μ)，价值网络根据当前状态给该动作一个分数：q_t＝Q(s_t,a_t；θ^Q)。训练策略网络的目的就是改进参数θ^μ，使q_t变得尽可能大。动作价值可以写成：q_t＝Q(s_t,μ(s_t；θ^μ)；θ^Q)。动作价值关于状态的期望为：

训练策略网络参数，其目的就是最大化J(θ^μ)。训练时固定住价值网络参数θ^Q，使用梯度上升来增大J(θ^μ)，更新公式如下：

其中β是学习率，

是从经验重返数组中抽出的经验组数量。梯度上升可以逐渐让J(θ^μ)增大，让评委给演员的打分更高；r_B表示经验组r_B，

表示对策略网络参数求梯度，▽_a表示对动作求梯度，

表示策略网络，

表示动作价值网络。

对动作价值网络进行训练的过程包括：训练价值网络的目的是让它的预测更加接近真实价值函数Q(s,a)。价值网络相当于评委，为了使它对于演员的打分越来越准确，需要根据实际观测的奖励来校准它的打分。训练价值网络主要用到前面提到的TD算法，让价值网络拟合TD目标。从经验重放数组中抽取一组经验组(s_t,a_t,r_t,s_t+1)，首先让价值网络做评估得到q_t＝Q(s_t,a_t；θ^Q)和q_t+1＝Q(s_t+1,μ(s_t+1；θ^μ)；θ^Q)，计算TD目标

定义损失函数为：

使用梯度下降法更新参数如下：

其中

为TD误差，α为学习率，

表示对动作价值网络参数求梯度。使用梯度下降法可以使损失函数更小，也就是让价值网络的评估更接近TD目标。

使用目标网络的方式缓解高估问题。目标价值网络Q(s_t,a_t；θ^Q′)和目标策略网络μ(s_t,θ^μ′)被用来计算TD目标。

本发明所提算法是基于DDPG的框架进行的，关键部分与上文介绍都大致相同，算法框架如图3，所以主体部分不再赘述。本发明在原有算法的基础上进行了改动，提高了算法效率，而且更加适应本发明提出的问题。

在传统的DDPG中，广泛采用均匀采样，从经验重放数组中随机抽取一小批经验样本用于网络参数训练。这种做法忽略了经验组的重要性，不同的经验组应该有不同的重要性，可以快速感知成功或者失败的经验以此来加快收敛。因此，部分研究人员引入了基于PER的经验重放方法来解决上述问题，其中更有价值的经验以更高的概率重放。每个经验组与优先级相关联，而重放概率是根据重返数组中所有经验组的优先级值计算的。在PER中，那些较为成功的或者失败的经验组更有可能被加入训练批次，有助于缩短学习时间和提高训练的稳定性。

在研究PER技术时，如何定义优先级是一个关键问题，通常绝对TD误差会作为评估经验优先级的重要指标。TD误差绝对值较高的经验组给予较高的优先级，此时说明神经网络对于动作的真实价值估计并不准确，给予较高的权重有助于神经网络减少错误预测的概率。

受到以上优先级分析的启发，本发明提出一个更加适合本文问题的优先级机制。在资源有限的情况下，MEC网络不能满足所有用户的任务计算都能达到最理想的能耗，此时会出现不同用户分配到的资源不同的情况。由曲线分析可知，在能耗从大到小的变化过程中，当能耗度过第二个变点之后，满意度的上升几乎与能耗呈线性关系，此时的上升速度是比较快的。但是当度过第一个变点之后，满意度的上升就开始减缓。可以看出，付出相同的代价第一变点前后满意度的变化幅度是不同的。假设所有用户是合作的，由于本发明的优化目标是最大化所有用户的满意度，所以如果那些满意度在第一变点之上的用户将满意度控制在变点附近，就可以为资源较少的用户即满意度在第一变点之下的用户，释放出更多的资源来为他们提供更多的满意度提升空间，这样满意度总值会比之前有所提升。基于上述分析本发明提出基于最大化用户满意度的优先级机制，将那些较多用户满意度停留在第一变点附近的经验组赋予较高的优先级，有助于智能体的快速学习。

首先提出一个关于经验组

的优先级分数公式：

其中，

是分数控制参数，可以调整该参数来控制分数对于不同指标的重视程度，

是TD误差的绝对值，

是一个与该经验组

的用户满意度有关的函数。

在将经验组放入经验重放数组之前，首先根据当前环境即用户的需求可以得出满意度的曲线公式，然后利用回归系数二阶差分法计算出曲线的第一斜率变点。根据策略网络的动作输出，可以计算出每个用户的具体满意度O_u(t)和具体能耗E_u(t)。假设已获得当前用户计算出的第一斜率变点的值为

以及该点对应的满意度。收集那些满意度大于第一变点的用户能耗，计算两者的差值

根据这些差值可以计算出用户能耗距离第一变点差值分布，公式如下：

由差值的概率分布可以得出函数

上述公式分子表示用户能耗差值分布的熵，该值越大说明用户能耗差值之间的差距越小。分母位置为所有用户能耗距离变点的差值，该值越小说明用户的能耗离变点越近。在特殊情况下，网络及计算资源都比较充裕，所有用户的能耗都停留在理想能耗附近，此时的经验对于神经网络的学习帮助不大，虽然函数

其分子比较大，但是分母也会比较大，总体优先级不高，所以函数

也考虑了特殊情况。

得到优先级分数后，按照从小到大的顺序给所有经验组排序，给每个经验组一个序号

根据序号定义一个抽样值：

优先分数越高的经验组抽样值越大，最后得出各个经验组的抽样概率：

其中参数l可以控制该优先级对于抽样概率的影响程度。但是优先经验重放的非均匀抽样会影响神经网络，为了修正优先经验重放的影响，需要重新设置学习率，如下：

其中，参数ψ是一个退火变量，

为所有经验组的数量。

经过上述优化的强化学习算法，其大致框架如图3所示。该算法首先初始化各个神经网络的参数，让智能体根据当前环境利用策略主网络输出动作，环境根据该动作返还给智能体一个奖励，环境进入下一状态。将收集到的四元组加入经验重放数组，根据提出的优先经验重放策略进行计算抽样概率，抽取部分数量经验组后进行神经网络的训练。算法流程如图4所示。

图5为本发明所提算法与现有算法的对比图。主要仿真参数设置如下。网络中微基站数量为10，用户数为30。任务参数中c∈[300,500]kbits，所有任务单位比特所需CPU数d为1000cycles/bit，最大容忍时延τ∈[20,50]ms。用户设备的最大发射功率p^max＝2W，待机功率为1×10^-5W。用户设备的计算能力为f_l＝1GHz，不同的基站具有不同的计算能力，F∈[15,25]GHz。每个基站的带宽设为B＝10MHz，信道被分为K＝5个子信道。加性高斯白噪声设为-174dBm/Hz。用户与基站间的信道增益遵循自由空间路径损耗模型，表示为：

其中天线增益A_d＝4.11，载波频率为f_c＝900MHz，d_u,n(t)为用户设备与基站间的距离。用户设备的最大电量

而用户当前的电量随机分布。

所提算法中含有四个神经网络，其中包含一个价值网络，一个策略网络以及两个对应的目标网络。价值网络和策略网络都是有四层全连接层构成，其中包括两个隐藏层一个输入层和一个输出层，每个隐藏层包含256个神经元，策略网络的输入层神经元数为状态空间大小，输出层大小为动作空间，价值网络的输入层大小为动作空间大小，输出层神经元数为1。神经网络的隐藏层都使用线性校正单元(Rectified Linear Unit，ReLU)作为激活函数，输出层使用sigmod作为激活函数，使用Adam优化器更新神经网络参数。经验组抽样数

神经网络学习率为0.01，优先经验重放数组大小为512。

从图5可以看出，所提算法经过一定的迭代次数达到了收敛并取得了比较高的满意度效果，并且在收敛性上要优于现有强化学习算法。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，包括：构建多用户超密集网络，并对网络初始化；网络中的用户设备产生计算任务，并向宏基站发送任务卸载请求；宏基站接收请求后获取用户设备信息以及网络环境信息，并根据获取的用户设备信息构建任务模型，所述环境信息包括用户设备与微基站的信道状态以及MEC服务器的计算资源信息；将任务模型和网络环境信息输入到训练好的任务决策模型中，得到任务卸载决策，所述任务决策模型包括策略网络和动作价值网络；宏基站将任务卸载决策分别发送给用户设备和微基站；用户设备根据任务卸载决策执行任务卸载，微基站根据任务卸载决策分配计算资源进行任务计算。

2.根据权利要求1所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，多用户超密集网络包括一个宏基站和N个微基站，每个微基站中配置有MEC服务器执行计算任务；每个微基站采用正交频分多址接入用户设备。

3.根据权利要求1所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，构建任务模型包括：获取用户设备信息，该信息包括用户设备产生的任务输入数据大小、任务单位CPU循环数、用户对该任务执行时时延需求、用户对任务的能耗需求、用户所能接受的执行任务时的最大能耗以及当前时隙用户设备的剩余电量；根据用户设备信息构建的任务模型为：

表示用户对于任务的能耗需求即理想执行能耗，

表示用户所能接受最大执行能耗，

表示在当前时隙用户设备的剩余电量。

4.根据权利要求3所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，确定用户设备所能接受最大执行能耗和理想执行能耗的公式为：

其中，g表示理想能耗计算函数，

表示最大执行能耗，

表示设备剩余电量，

为用户设备的最大存储电量，ε为超参数。

5.根据权利要求1所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，对任务决策模型进行训练的过程包括：

S1：对任务决策模型的参数进行初始化；

6.根据权利要求5所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，即时奖励函数为：

其中，

表示奖励函数，s_t表示当前环境状态，a_t表示动作，u表示某个用户，U表示用户总数，O_u(t)表示用户对宏基站执行当前任务的满意度，€_u(t)表示惩罚函数。

7.根据权利要求5所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，采用优先级机制对优先经验重放数组进行采样的过程包括：采用优先级分数公式计算优先经验重放数组中每个数据的优先级分数；根据计算出的优先级分数将数据按照从大到小的顺序进行排序，对排序后的数据进行标号，根据标号对每个数据定义一个抽样值；根据抽样值计算每个数据的抽样概率；根据抽样概率设置任务决策模型训练的学习率。

8.根据权利要求7所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，设置任务决策模型训练学习率的公式为：

其中，ψ表示退火变量，

表示所有经验组的数量，α表示初始学习率，

表示抽样概率。

9.根据权利要求5所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，对策略网络进行训练的过程包括：给定当前状态s_t，策略网络输出动作a_t＝μ(s_t；θ^μ)，价值网络根据当前状态给该动作一个分数：q_t＝Q(s_t,μ(s_t；θ^μ)；θ^Q)；根据动作分数计算动作价值关于状态的期望J(θ^μ)；固定住价值网络参数θ^Q，使用梯度上升算法更新参数θ^μ，当J(θ^μ)收敛时完成策略网络的训练。

10.根据权利要求5所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法，其特征在于，对动作价值网络进行训练的过程包括：

步骤1：从经验重放数组中抽取一组经验组(s_t,a_t,r_t,s_t+1)；

步骤3：根据q_t+1计算TD目标，计算公式为：

其中，r_t表示即时奖励，γ表示折扣因子；

步骤4：根据TD目标、q_t以及q_t+1计算网络的损失函数；