CN114641076A - 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 - Google Patents
一种超密集网络中基于动态用户满意度的边缘计算卸载方法 Download PDFInfo
- Publication number
- CN114641076A CN114641076A CN202210299217.1A CN202210299217A CN114641076A CN 114641076 A CN114641076 A CN 114641076A CN 202210299217 A CN202210299217 A CN 202210299217A CN 114641076 A CN114641076 A CN 114641076A
- Authority
- CN
- China
- Prior art keywords
- task
- network
- user
- base station
- user equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005265 energy consumption Methods 0.000 claims abstract description 92
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 230000009471 action Effects 0.000 claims description 77
- 230000006870 function Effects 0.000 claims description 50
- 238000004422 calculation algorithm Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 21
- 230000007613 environmental effect Effects 0.000 claims description 13
- 230000033001 locomotion Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000013468 resource allocation Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000000137 annealing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 30
- 239000003795 chemical substances by application Substances 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 16
- 230000002787 reinforcement Effects 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000005457 optimization Methods 0.000 description 12
- 230000001965 increasing effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/51—Allocation or scheduling criteria for wireless resources based on terminal or device properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明属于移动通信技术领域,具体涉及一种超密集网络中基于动态用户满意度的边缘计算卸载方法,该方法包括:构建多用户超密集网络,对网络初始化;网络中的用户设备产生计算任务,并向宏基站发送任务卸载请求;宏基站获取用户设备信息以及网络环境信息,并构建任务模型;将任务模型和网络环境信息输入到训练好的任务决策模型中,得到任务卸载决策;宏基站将任务卸载决策分别发送给用户设备和微基站;用户设备根据任务卸载决策执行任务卸载,微基站根据任务卸载决策分配计算资源进行任务计算;本发明对传统任务的模型进行了改进,对任务执行所消耗的能量进行了度量,使其能满足不同条件下用户的能耗需求。
Description
技术领域
本发明属于移动通信技术领域,具体涉及一种超密集网络中基于动态用户满意度的边缘计算卸载方法。
背景技术
随着无线通信技术的快速发展和智能设备的广泛普及,近年来移动应用迎来***式增长,比如人脸识别,在线移动游戏,虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR);其中大部分都是计算密集型或者延迟敏感型应用,然而移动设备(如智能手机,可穿戴设备)的计算能力和电池电量通常都是有限的。上述应用和资源受限设备之间的关系对提高移动用户体验质量(Quality of Experience,QoE)提出了巨大的挑战。
移动边缘计算(Mobile Edge Computing,MEC)将计算服务器从云中心下沉到网络边缘,用户设备和服务器之间的距离大大缩短,用户可以利用计算卸载技术将任务卸载到边缘服务器进行计算来满足密集计算的需求。另外5G架构下的超密集网络(Ultra-DenseNetwork,UDN)是一种多基站协作服务的异构网络方案,通过在热点地区部署大量微基站和宏基站,来提高无线网络的覆盖率并解决网络覆盖盲点问题,还能提升网络容量,从而改善网络的整体性能。然而,由于密集部署的微基站和MEC服务器导致多个用户会处在多个微基站的覆盖范围内,并且不同的基站具有不同的计算能力,如何为用户进行卸载决策以及资源分配是一项挑战。
目前在超密集网络中的联合无线源管理和任务卸载场景下中提出了一种启发式任务卸载算法HTOA,该算法在每次迭代中交替更新无线资源管理,目的是最大化用户卸载收益的总和;用户卸载的收益是通过任务执行的延迟和能耗来衡量的。5G超密集网络中基于移动边缘计算的任务卸载和资源分配场景下提出了一个基于差分进化算法的信道资源分配算法CRADE,利用该算法获得了多用户的任务卸载和资源分配最优方案。
然而上述现有技术都是在静态环境中进行的,每次优化都是截取当前网络状态快照,依据快照进行优化,但是实际的MEC网络是动态的。而且这些工作的优化目标都是在满足时延的需求下最小化能耗,没有充分考虑用户在自身不同条件下对于需求的变化;此外,这些工作对于用户QoE的提升都是通过最大化能效或者最小化能耗这种间接的方式;因此,如何在动态的超密集网络中开发充分考虑用户需求,并有效提升用户体验质量的计算卸载方法具有重要研究价值。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种超密集网络中基于动态用户满意度的边缘计算卸载方法,该方法包括:构建多用户超密集网络,并对网络初始化;网络中的用户设备产生计算任务,并向宏基站发送任务卸载请求;宏基站接收请求后获取用户设备信息以及网络环境信息,并根据获取的用户设备信息构建任务模型,所述环境信息包括用户设备与微基站的信道状态以及MEC服务器的计算资源信息;将任务模型和网络环境信息输入到训练好的任务决策模型中,得到任务卸载决策,所述任务决策模型包括策略网络和动作价值网络;宏基站将任务卸载决策分别发送给用户设备和微基站;用户设备根据任务卸载决策执行任务卸载,微基站根据任务卸载决策分配计算资源进行任务计算。
优选的,多用户超密集网络包括一个宏基站和N个微基站,每个微基站中配置有MEC服务器执行计算任务;每个微基站采用正交频分多址接入用户设备。
优选的,构建任务模型包括:获取用户设备信息,该信息包括用户设备产生的任务输入数据大小、任务单位CPU循环数、用户对该任务执行时时延需求、用户对任务的能耗需求、用户所能接受的执行任务时的最大能耗以及当前时隙用户设备的剩余电量;根据用户设备信息构建的任务模型为:
其中,du(t)表示该任务的输入数据大小,cu(t)表示执行该任务的单位CPU循环数,τu(t)表示用户对于该任务的执行时延需求即最大容忍时延,表示用户对于任务的能耗需求即理想执行能耗,表示用户所能接受最大执行能耗,表示在当前时隙用户设备的剩余电量。
进一步的,确定用户设备所能接受最大执行能耗和理想执行能耗的公式为:
优选的,对任务决策模型进行训练的过程包括:
S1:对任务决策模型的参数进行初始化;
S2:每个时隙将宏基站作为智能体获取当前环境状态信息以及用户设备的任务信息,根据用户任务设备的任务信息构建任务模型;
S3:将当前环境状态信息和任务模型输入到策略网络中,得到任务动作,该任务动作包括当前任务的卸载决策、功率控制以及计算资源分配动作;
S4:根据任务动作计算当前用户的满意度,得到当前宏基站的即时奖励;
S5:宏基站获取下一时刻环境状态信息,并将当前环境状态信息、任务动作、即时奖励以及下一时刻环境状态信息作为四元组存入优先经验重放数组;
S6:采用优先级机制对优先经验重放数组进行采样,将采集的四元组分别输入到策略网络和动作价值网络中进行训练,当宏基站的即时奖励函数收敛时,完成模型的训练。
进一步的,即时奖励函数为:
优选的,采用优先级机制对优先经验重放数组进行采样的过程包括:采用优先级分数公式计算优先经验重放数组中每个数据的优先级分数;根据计算出的优先级分数将数据按照从大到小的顺序进行排序,对排序后的数据进行标号,根据标号对每个数据定义一个抽样值;根据抽样值计算每个数据的抽样概率;根据抽样概率设置任务决策模型训练的学习率。
进一步的,设置任务决策模型训练学习率的公式为:
优选的,对策略网络进行训练的过程包括:给定当前状态st,策略网络输出动作at=μ(st;θμ),价值网络根据当前状态给该动作一个分数:qt=Q(st,μ(st;θμ);θQ);根据动作分数计算动作价值关于状态的期望J(θμ);固定住价值网络参数θQ,使用梯度上升算法更新参数θμ,当J(θμ)收敛时完成策略网络的训练。
优选的,对动作价值网络进行训练的过程包括:
步骤1:从经验重放数组中抽取一组经验组(st,at,rt,st+1);
步骤2:将经验组输入到动作价值网络中,得到qt=Q(st,at;θQ)和qt+1=Q(st+1,μ(st+1;θμ);θQ);其中,Q表示价值网络,st表示当前环境状态,at表示动作,θQ表示价值网络参数,qt+1表示下一时刻价值网络预测输出,μ表示策略网络参数;
步骤3:根据qt+1计算TD目标,计算公式为:
其中,rt表示即时奖励,γ表示折扣因子;
步骤4:根据TD目标、qt以及qt+1计算网络的损失函数;
步骤5:采用梯度下降算法对θQ进行更新,当网络的损失函数收敛时完成动作价值网络的训练。
本发明的有益效果:
本发明考虑了超密集网络中一种基于动态用户满意度的边缘计算卸载方法,在传统任务的模型进行了改进,对任务执行所消耗的能量进行了度量,使其能满足不同条件下用户的能耗需求。在改进的任务模型的基础上提出了一个相关的动态满意度函数的计算卸载问题,通过优化该满意度函数可以直接提升用户体验质量。用户在合作的情况下,设备电量较高的用户设置较为宽松的能耗需求,可以为设备电量较低的用户让出较多的计算资源以此来达到比较严格的能耗需求,这样所有用户总的满意度可以得到有效提升。最后利用基于深度强化学习的算法获得最佳的卸载策略。通过仿真实验,该算法有效的提高了用户的体验质量,并且与现有算法相比具有更好的收敛性和稳定性。
附图说明
图1为本发明的多用户超密集网络场景图;
图2为本发明的不同灵敏度参数对满意度函数的影响图;
图3为本发明所提算法的框架图;
图4为本发明所提算法流程图;
图5为本发明所提算法与现有算法的效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种超密集网络中基于动态用户满意度的边缘计算卸载方法,该方法包括:构建多用户超密集网络,并对网络初始化;网络中的用户设备产生计算任务,并向宏基站发送任务卸载请求;宏基站接收请求后获取用户设备信息以及网络环境信息,并根据获取的用户设备信息构建任务模型,所述环境信息包括用户设备与微基站的信道状态以及MEC服务器的计算资源信息;将任务模型和网络环境信息输入到训练好的任务决策模型中,得到任务卸载决策,所述任务决策模型包括策略网络和动作价值网络;宏基站将任务卸载决策分别发送给用户设备和微基站;用户设备根据任务卸载决策执行任务卸载,微基站根据任务卸载决策分配计算资源进行任务计算。
多用户超密集网络包括一个宏基站和N个微基站,每个微基站中配置有MEC服务器执行计算任务;每个微基站采用正交频分多址接入用户设备。具体的,如图1所示,该网络包括1个宏基站,宏基站覆盖下随机分布着N个微基站,基站集合由表示,其中n=j表示第j个基站。多个微基站存在部分重复覆盖的区域,每个基站都配备了MEC服务器来执行计算任务,不同基站服务器具有不同的计算能力,每个基站都采用正交频分多址(OFDMA)接入用户设备,信道被分为K个正交的子信道,信道集合为所以用户设备在卸载任务时需要选择合适的基站以及合适的信道。基站为U个用户设备服务,用户设备集合为其中u=i表示第i个用户设备。由于该工作是在动态MEC***中进行,本发明采用离散时间模型,时间被等分成长度为l的时隙集合
构建任务模型包括:获取用户设备信息,该信息包括用户设备产生的任务输入数据大小、任务单位CPU循环数、用户对该任务执行时时延需求、用户对任务的能耗需求、用户所能接受的执行任务时的最大能耗以及当前时隙用户设备的剩余电量。
本发明在传统的任务模型中加入关于能耗的度量,以为了满足在特定条件下用户对于任务执行能耗的不同需求。用户设备u在t时隙达到的任务由表示,其中du(t)表示该任务的输入数据大小(bit),cu(t)表示执行该任务的单位CPU循环数(cycles/bit),τu(t)表示用户对于该任务的执行时延需求即最大容忍时延,而与之前模型不同的能耗度量表示用户对于任务的能耗需求即理想执行能耗,表示用户所能接受最大执行能耗,同时在用户设备状态中引入表示在当前时隙用户设备的剩余电量。理想能耗的设置与用户的需求、用户设备当前剩余电量以及当前任务的最大执行能耗阈值有关,引入公式表示,如下:
从用户设备所能接受最大执行能耗公式可以看出,当用户设备当前剩余电量较少时,对于理想能耗的要求比较高,当电量逐渐增加,此时用户还有比较充足的电量,所以对于理想能耗的要求会相应放缓。关于参数ε,当参数ε逐渐增大时,用户在电量较低时的需求会更高,对理想能耗的设置更低,所以不同ε值可以满足不同用户的需求。用户设备理想执行能耗公式主要起到合作机制的限制,用户不能过分贪婪的将理想能耗设置过低,这样可能所有的用户都会受到影响,又考虑到合理性,将理想能耗的最小值设置成该任务最大能耗的一半。
本发明构建的多用户超密集网络中的通信模型包括:当用户设备选择合适的基站以及信道进行传输时,根据香农公式可以得到该用户的上传速率为:
其中Bn表示基站n的固定带宽,pu,n(t)为用户设备u的发射功率,σ2表示加性高斯白噪声(AWGN),hu,n(t)是用户与基站之间的信道增益。在超密集网络中,由于多个基站复用频谱,所以设备之间的干扰不能忽略。Iu,n(t)为当前设备在当前信道受到的干扰,Iu,n(t)的计算表达式为:
其中,pu′,n′(t)为使用当前信道的其他用户的发射功率,hu′,n(t)表示当前信道用户u′与基站n的信道增益。
根据用户的上传速率可知用户设备u的可用上行链路速率不仅取决于分配的信道及自身的发射功率,还会受到来自于其他蜂窝用户设备的干扰。为了提高用户设备的传输速率,不仅需要适当的卸载策略,分配合适的发射功率,不同蜂窝之间的干扰控制也至关重要。
本发明的计算模型包括本地计算、服务器计算。
本地计算包括为了方便起见,本发明将本地计算的能耗作为执行任务的最大能耗准则,所以需要给出计算公式:
服务器计算包括:用户设备收到卸载决策,选择合适的基站及信道进行任务的处理。任务的处理包括任务传输和服务器计算两个阶段,所以这之中产生的时延也包括这两阶段,而能耗方面,由于本发明只注重用户的体验,而且MEC服务器一般都是有电网供电,所以服务器的计算能耗在本发明忽略,只计算任务传输时用户设备的能耗。
根据用户的上传速率得到传输时延为:
其中du(t)为用户任务的输入数据大小。当任务传输到基站后,服务器开始进行任务的计算,计算时延为:
根据用户设备的传输时延和计算时延可得用户设备u的总时延,其计算公式为:
用户的传输能耗为:
其中,pu,n(t)表示发射功率。
由于用户只选择卸载到基站计算,用户的能耗只有传输能耗,即有:
对任务决策模型进行训练的过程包括:
S1:对任务决策模型的参数进行初始化;
S2:每个时隙将宏基站作为智能体获取当前环境状态信息以及用户设备的任务信息,根据用户任务设备的任务信息构建任务模型;
S3:将当前环境状态信息和任务模型输入到策略网络中,得到任务动作,该任务动作包括当前任务的卸载决策、功率控制以及计算资源分配动作;
S4:根据任务动作计算当前宏基站的满意度,并将计算出的满意度和任务动作输入到动作价值网络中,得到当前宏基站的即时奖励;
S5:宏基站获取下一时刻环境状态信息,并将当前环境状态信息、任务动作、即时奖励以及下一时刻环境状态信息作为四元组存入优先经验重放数组;
S6:采用优先级机制对优先经验重放数组进行采样,将采集的四元组分别输入到策略网络和动作价值网络中进行训练,当宏基站的即时奖励函数收敛时,完成模型的训练。
一种用户体验的满意度模型,该模型为:
在动态***中,随着用户设备的待机消耗以及任务执行消耗,用户设备的电量会不断的降低,此时再到来的任务其满意度函数会因为电量的改变会发生改变,则满意度模型为动态满意度函数。ω∈[5,10]为灵敏度参数,通过改变ω的大小可以控制函数的曲线,使其具有独特性并适应用户的需求。从函数中可以看出,随着用户能耗的增加,用户的满意度缓慢下降,当能耗大于最大能耗阈值时,用户的满意度为0。
满意度函数分析;在对满意度曲线进行分析之前,首先引入斜率变点的概念。***的输出序列在某未知时刻起了突然变化,该时刻即称为变点,斜率变点是指曲线斜率加(减)速变化最大的点。图2假设最大执行能耗与理想能耗的比例为8:5,满足用户对于任务的能耗需求即理想执行能耗公式。图2为取值区间内不同的灵敏度参数对于用户满意度的影响。从单个曲线走势来看,一条曲线一共有两个斜率变点,本发明定义图中左边变点为第一变点,右边变点为第二变点。当能耗从理想能耗缓慢增加时,用户的满意度在缓慢下降,但是从曲线的斜率可以看出,在到达第一个变点之前,下降的幅度是比较缓慢的,这也是该满意度函数更加贴近用户感受的体现。当能耗不断增加到达变点之后,此时离理想能耗已经较远,满意度相比之前开始急剧下降,直到遇到第二个变点,此时的满意度已经下降到了一个较低的水平,再次变化的幅度相较之前已经不大。
从单个曲线关注到多个曲线,从图中可以看出,随着灵敏度参数ω的增加,用户满意度曲线的第一个变点会升高,这表示用户在能耗较低时的满意度较高,一旦能耗开始增加,满意度的下降程度会随之提升,这种设置可以满足不同情况下的不同需求。例如用户当前对于能耗的需求比较苛刻,可以通过调高参数来获得更多的资源。但是考虑到其他用户的计算需求,不能无限制增加参数值,所以给该参数限制了一个设置范围。
该曲线除了能更加符合用户的需求外,还有另一个优点。在处理优化问题例如最大化所有用户满意度时,假设所有的用户都是合作的,为了更大化所有用户的满意度,可以尽量让用户的满意度达到第一个变点附近而非最理想的状态,这样可以给那些拥有资源较少的用户更多的让步,以此达到用更少的资源获得更好的满意度的效果。
优化问题描述;根据以上描述本发明提出一个最大化所有用户满意度的长效优化问题:
其中,C1和C2为卸载变量约束,C1限制卸载决策取值只能在K个信道之中,C2表示一个基站的一个信道只能分配一个用户设备,G{#}=1说明函数中的#为真。C3为用户的发射功率约束,每个用户的发射功率不能大于该用户设备所支持的最大功率。C4表示每个基站分配给用户的计算资源限制,即不能超过该基站的最大计算资源。约束C5是为了保证该任务能在最大容忍时延内完成。U表示用户总数,N表示基站总数,u表示用户u,n表示基站n,λu,n(t)表示卸载决策变量,表示卸载决策表示函数,pu,n(t)表示发射功率,表示最大发射功率,fu,n(t)表示计算资源分配变量,Fn表示基站n最大计算资源,Tu(t)表示执行时延,τu(t)表示时延阈值。
上述优化问题P是非凸的混合整数非线性规划问题,涉及到三个变量的优化,λ是U×N维的决策矩阵,其中数值是单个不大于K的离散整数,而p和f是关系到所有用户的连续实数向量。问题P在静态条件下的最佳解决方案需要有关数学模型的完整信息,例如信道条件的统计分布,而在实际***中无法获取这些信息。此外,本发明的工作是应用在动态的MEC***中,在时变条件下问题P使用传统优化算法解决的难度比较大。强化学习(Reinforcement Learning,RL)是一种比较先进的决策方法,它通过在目标环境中不断地进行试错学习,反馈结果并修改策略,以获得最大的回报。尽管它有许多优点,但它也缺乏可伸缩性,并且本质上局限于相当低的维度问题,这主要是因为强化学习算法与其他算法具有相同的内存复杂度、计算复杂度和样本复杂度。因此,为了解决强化学习难以处理的高维决策问题,深度强化学习将深度学习的感知能力与强化学习的决策能力相结合,通过增强函数近似和深层神经网络,解决了高维状态空间和行为空间的问题。
本发明基于RL框架提出了一个深度强化学习算法,并将该算法结合上述优化问题解决了多用户计算卸载问题。RL框架主要由智能体,环境和三要素组成,三要素包括:状态空间、动作空间以及奖励。
为了在强化学习框架下解决问题P,本发明根据***模型定义如下元素:
(1)状态空间:所有可能存在状态的集合在每个时隙开始,宏基站观察无线网络的***状态,包括所有设备请求的任务详情,各个基站MEC服务器的可用计算资源,各个用户设备的计算能力,用户设备的剩余电量以及各个基站与设备之间的信道增益。***状态可以定义为:
其中,V(t)为所有用户的任务请求特征矩阵,包含所有用户设备达到任务的数据特征。H(t)为每个基站与每个用户之间的信道增益矩阵。F(t)为所有基站服务器的计算资源向量,表示当前服务器可用的计算资源,而为用户设备当前剩余电量向量。
其中,λ(t)为基站选择和信道选择策略动作,p(t)为用户设备的发射功率分配动作,f(t)为基站分配给用户的计算资源动作。
(3)奖励:奖励函数指智能体执行一个动作之后,环境返还给智能体的一个奖励:其中,表示状态空间,表示动作空间,表示奖励函数。本文提出的联合计算卸载和资源分配问题P的目标是最大化所有用户的满意度,可以直接将其结果作为即时奖励。定义即时奖励函数为:
其中€u(t)为惩罚函数,其定义如下:
其中υ1和υ2为两个正实数,并且满足υ1≤Ou(t)≤υ2,Ou(t)表示用户满意度。
回报指的是从当前时刻开始到回合结束所有奖励的总和,可以表示为:
强化学习中的策略函数μ是指智能体根据当前状态依据怎样的策略做出动作。动作价值函数Qμ(s,a)是智能体根据当前状态做出当前动作的回报的期望。智能体的学习目标即为学习最佳的策略,在当前状态下做出最佳动作得到最大的价值。最优动作价值函数可以写成:
其中,Q*(st,at)表示t时刻的动作价值函数。
对于具有高维状态空间和状态空间的RL问题,直接使价值函数最大化很难得到精确解。解决RL问题的一种可行方法是众所周知的Q学习(Q-learning)算法,Q学习是时间差分算法(Temporal Difference,TD)算法的一类。Q学习用表格来保存最佳动作价值,每种状态对应的不同动作都有一个预测的动作价值,每次选择动作都选择价值最大的动作即
随着状态空间和动作空间的增加,求解优先级分数的复杂性呈指数增长,Q学习已经无法满足需求,为了解决这个问题,利用深度神经网络(Deep Neural Network,DNN)来近似函数的深度强化学习(Reinforcement Learning,DRL)算法是一种有效的替代方法。DQN(Deep Q-network)算法利用DNN网络近似动作价值函数的来求解最优动作价值函数。虽然DQN可以成功的解决高维状态空间中的问题,但是它只能处理离散和低维的动作空间,当存在有限数量的离散动作时,DQN可以优先解决,但是对于连续变量,例如问题P的功率分配和计算资源分配变量,使用该方式之前必须对动作空间进行离散化,离散化将会造成精度的损失,而且随着离散化层数的增长,其计算复杂度呈指数增长。所以需要寻找一个更加适合本发明所提问题的深度强化学习算法。
深度确定性策略梯度。深度确定性策略梯度是最常用的连续控制方法,它是一种基于Actor-Critic的算法,由一个策略网络(演员)μ(s;θμ)来近似策略函数,一个价值网络(评委)Q(s,a;θQ)来近似动作价值函数,θμ和θQ分别是对应的神经网络参数。策略网络主要负责根据当前状态输出动作,该策略网络的输出是确定的动作,而价值网络的输出是当前状态以及策略网络输出动作的价值,即根据当前的状态来给该动作打分,用于指导演员做出更好的动作。
经验重放(Experience Replay)是强化学习中一个重要的技巧,可以大幅度提升强化学习的表现。把智能体与环境交互的记录(经验)存储到一个数组里,利用这些经验来训练智能体,这个数组称为经验重放数组(Replay Buffer)。利用策略网络控制智能体与环境进行交互,收集四元组(st,at,rt,st+1)放入经验重放数组,然后从该数组抽取一定数量的经验对策略网络和价值网络进行训练。
对策略网络进行训练的过程包括:给定当前状态st,策略网络输出动作at=μ(st;θμ),价值网络根据当前状态给该动作一个分数:qt=Q(st,at;θQ)。训练策略网络的目的就是改进参数θμ,使qt变得尽可能大。动作价值可以写成:qt=Q(st,μ(st;θμ);θQ)。动作价值关于状态的期望为:
训练策略网络参数,其目的就是最大化J(θμ)。训练时固定住价值网络参数θQ,使用梯度上升来增大J(θμ),更新公式如下:
其中β是学习率,是从经验重返数组中抽出的经验组数量。梯度上升可以逐渐让J(θμ)增大,让评委给演员的打分更高;rB表示经验组rB,表示对策略网络参数求梯度,▽a表示对动作求梯度,表示策略网络,表示动作价值网络。
对动作价值网络进行训练的过程包括:训练价值网络的目的是让它的预测更加接近真实价值函数Q(s,a)。价值网络相当于评委,为了使它对于演员的打分越来越准确,需要根据实际观测的奖励来校准它的打分。训练价值网络主要用到前面提到的TD算法,让价值网络拟合TD目标。从经验重放数组中抽取一组经验组(st,at,rt,st+1),首先让价值网络做评估得到qt=Q(st,at;θQ)和qt+1=Q(st+1,μ(st+1;θμ);θQ),计算TD目标定义损失函数为:
使用梯度下降法更新参数如下:
使用目标网络的方式缓解高估问题。目标价值网络Q(st,at;θQ′)和目标策略网络μ(st,θμ′)被用来计算TD目标。
本发明所提算法是基于DDPG的框架进行的,关键部分与上文介绍都大致相同,算法框架如图3,所以主体部分不再赘述。本发明在原有算法的基础上进行了改动,提高了算法效率,而且更加适应本发明提出的问题。
在传统的DDPG中,广泛采用均匀采样,从经验重放数组中随机抽取一小批经验样本用于网络参数训练。这种做法忽略了经验组的重要性,不同的经验组应该有不同的重要性,可以快速感知成功或者失败的经验以此来加快收敛。因此,部分研究人员引入了基于PER的经验重放方法来解决上述问题,其中更有价值的经验以更高的概率重放。每个经验组与优先级相关联,而重放概率是根据重返数组中所有经验组的优先级值计算的。在PER中,那些较为成功的或者失败的经验组更有可能被加入训练批次,有助于缩短学习时间和提高训练的稳定性。
在研究PER技术时,如何定义优先级是一个关键问题,通常绝对TD误差会作为评估经验优先级的重要指标。TD误差绝对值较高的经验组给予较高的优先级,此时说明神经网络对于动作的真实价值估计并不准确,给予较高的权重有助于神经网络减少错误预测的概率。
受到以上优先级分析的启发,本发明提出一个更加适合本文问题的优先级机制。在资源有限的情况下,MEC网络不能满足所有用户的任务计算都能达到最理想的能耗,此时会出现不同用户分配到的资源不同的情况。由曲线分析可知,在能耗从大到小的变化过程中,当能耗度过第二个变点之后,满意度的上升几乎与能耗呈线性关系,此时的上升速度是比较快的。但是当度过第一个变点之后,满意度的上升就开始减缓。可以看出,付出相同的代价第一变点前后满意度的变化幅度是不同的。假设所有用户是合作的,由于本发明的优化目标是最大化所有用户的满意度,所以如果那些满意度在第一变点之上的用户将满意度控制在变点附近,就可以为资源较少的用户即满意度在第一变点之下的用户,释放出更多的资源来为他们提供更多的满意度提升空间,这样满意度总值会比之前有所提升。基于上述分析本发明提出基于最大化用户满意度的优先级机制,将那些较多用户满意度停留在第一变点附近的经验组赋予较高的优先级,有助于智能体的快速学习。
在将经验组放入经验重放数组之前,首先根据当前环境即用户的需求可以得出满意度的曲线公式,然后利用回归系数二阶差分法计算出曲线的第一斜率变点。根据策略网络的动作输出,可以计算出每个用户的具体满意度Ou(t)和具体能耗Eu(t)。假设已获得当前用户计算出的第一斜率变点的值为以及该点对应的满意度。收集那些满意度大于第一变点的用户能耗,计算两者的差值根据这些差值可以计算出用户能耗距离第一变点差值分布,公式如下:
上述公式分子表示用户能耗差值分布的熵,该值越大说明用户能耗差值之间的差距越小。分母位置为所有用户能耗距离变点的差值,该值越小说明用户的能耗离变点越近。在特殊情况下,网络及计算资源都比较充裕,所有用户的能耗都停留在理想能耗附近,此时的经验对于神经网络的学习帮助不大,虽然函数其分子比较大,但是分母也会比较大,总体优先级不高,所以函数也考虑了特殊情况。
优先分数越高的经验组抽样值越大,最后得出各个经验组的抽样概率:
其中参数l可以控制该优先级对于抽样概率的影响程度。但是优先经验重放的非均匀抽样会影响神经网络,为了修正优先经验重放的影响,需要重新设置学习率,如下:
经过上述优化的强化学习算法,其大致框架如图3所示。该算法首先初始化各个神经网络的参数,让智能体根据当前环境利用策略主网络输出动作,环境根据该动作返还给智能体一个奖励,环境进入下一状态。将收集到的四元组加入经验重放数组,根据提出的优先经验重放策略进行计算抽样概率,抽取部分数量经验组后进行神经网络的训练。算法流程如图4所示。
图5为本发明所提算法与现有算法的对比图。主要仿真参数设置如下。网络中微基站数量为10,用户数为30。任务参数中c∈[300,500]kbits,所有任务单位比特所需CPU数d为1000cycles/bit,最大容忍时延τ∈[20,50]ms。用户设备的最大发射功率pmax=2W,待机功率为1×10-5W。用户设备的计算能力为fl=1GHz,不同的基站具有不同的计算能力,F∈[15,25]GHz。每个基站的带宽设为B=10MHz,信道被分为K=5个子信道。加性高斯白噪声设为-174dBm/Hz。用户与基站间的信道增益遵循自由空间路径损耗模型,表示为:
所提算法中含有四个神经网络,其中包含一个价值网络,一个策略网络以及两个对应的目标网络。价值网络和策略网络都是有四层全连接层构成,其中包括两个隐藏层一个输入层和一个输出层,每个隐藏层包含256个神经元,策略网络的输入层神经元数为状态空间大小,输出层大小为动作空间,价值网络的输入层大小为动作空间大小,输出层神经元数为1。神经网络的隐藏层都使用线性校正单元(Rectified Linear Unit,ReLU)作为激活函数,输出层使用sigmod作为激活函数,使用Adam优化器更新神经网络参数。经验组抽样数神经网络学习率为0.01,优先经验重放数组大小为512。
从图5可以看出,所提算法经过一定的迭代次数达到了收敛并取得了比较高的满意度效果,并且在收敛性上要优于现有强化学习算法。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种超密集网络中基于动态用户满意度的边缘计算卸载方法,其特征在于,包括:构建多用户超密集网络,并对网络初始化;网络中的用户设备产生计算任务,并向宏基站发送任务卸载请求;宏基站接收请求后获取用户设备信息以及网络环境信息,并根据获取的用户设备信息构建任务模型,所述环境信息包括用户设备与微基站的信道状态以及MEC服务器的计算资源信息;将任务模型和网络环境信息输入到训练好的任务决策模型中,得到任务卸载决策,所述任务决策模型包括策略网络和动作价值网络;宏基站将任务卸载决策分别发送给用户设备和微基站;用户设备根据任务卸载决策执行任务卸载,微基站根据任务卸载决策分配计算资源进行任务计算。
2.根据权利要求1所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法,其特征在于,多用户超密集网络包括一个宏基站和N个微基站,每个微基站中配置有MEC服务器执行计算任务;每个微基站采用正交频分多址接入用户设备。
5.根据权利要求1所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法,其特征在于,对任务决策模型进行训练的过程包括:
S1:对任务决策模型的参数进行初始化;
S2:每个时隙将宏基站作为智能体获取当前环境状态信息以及用户设备的任务信息,根据用户任务设备的任务信息构建任务模型;
S3:将当前环境状态信息和任务模型输入到策略网络中,得到任务动作,该任务动作包括当前任务的卸载决策、功率控制以及计算资源分配动作;
S4:根据任务动作计算当前用户的满意度,得到当前宏基站的即时奖励;
S5:宏基站获取下一时刻环境状态信息,并将当前环境状态信息、任务动作、即时奖励以及下一时刻环境状态信息作为四元组存入优先经验重放数组;
S6:采用优先级机制对优先经验重放数组进行采样,将采集的四元组分别输入到策略网络和动作价值网络中进行训练,当宏基站的即时奖励函数收敛时,完成模型的训练。
7.根据权利要求5所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法,其特征在于,采用优先级机制对优先经验重放数组进行采样的过程包括:采用优先级分数公式计算优先经验重放数组中每个数据的优先级分数;根据计算出的优先级分数将数据按照从大到小的顺序进行排序,对排序后的数据进行标号,根据标号对每个数据定义一个抽样值;根据抽样值计算每个数据的抽样概率;根据抽样概率设置任务决策模型训练的学习率。
9.根据权利要求5所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法,其特征在于,对策略网络进行训练的过程包括:给定当前状态st,策略网络输出动作at=μ(st;θμ),价值网络根据当前状态给该动作一个分数:qt=Q(st,μ(st;θμ);θQ);根据动作分数计算动作价值关于状态的期望J(θμ);固定住价值网络参数θQ,使用梯度上升算法更新参数θμ,当J(θμ)收敛时完成策略网络的训练。
10.根据权利要求5所述的一种超密集网络中基于动态用户满意度的边缘计算卸载方法,其特征在于,对动作价值网络进行训练的过程包括:
步骤1:从经验重放数组中抽取一组经验组(st,at,rt,st+1);
步骤2:将经验组输入到动作价值网络中,得到qt=Q(st,at;θQ)和qt+1=Q(st+1,μ(st+1;θμ);θQ);其中,Q表示价值网络,st表示当前环境状态,at表示动作,θQ表示价值网络参数,qt+1表示下一时刻价值网络预测输出,μ表示策略网络参数;
步骤3:根据qt+1计算TD目标,计算公式为:
其中,rt表示即时奖励,γ表示折扣因子;
步骤4:根据TD目标、qt以及qt+1计算网络的损失函数;
步骤5:采用梯度下降算法对θQ进行更新,当网络的损失函数收敛时完成动作价值网络的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299217.1A CN114641076A (zh) | 2022-03-25 | 2022-03-25 | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299217.1A CN114641076A (zh) | 2022-03-25 | 2022-03-25 | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114641076A true CN114641076A (zh) | 2022-06-17 |
Family
ID=81948936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210299217.1A Pending CN114641076A (zh) | 2022-03-25 | 2022-03-25 | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114641076A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499441A (zh) * | 2022-09-15 | 2022-12-20 | 中原工学院 | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 |
CN115529335A (zh) * | 2022-10-14 | 2022-12-27 | 宁波大学 | 工业物联网任务卸载方法、***、设备及存储介质 |
CN116367223A (zh) * | 2023-03-30 | 2023-06-30 | 广州爱浦路网络技术有限公司 | 基于强化学习的xr服务优化方法、装置、电子设备和存储介质 |
CN116723527A (zh) * | 2023-08-09 | 2023-09-08 | 香港中文大学(深圳) | 一种基于数字孪生的基站功耗优化方法 |
WO2024065903A1 (zh) * | 2022-09-29 | 2024-04-04 | 福州大学 | 多约束边环境下计算卸载与资源分配联合优化***及方法 |
-
2022
- 2022-03-25 CN CN202210299217.1A patent/CN114641076A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499441A (zh) * | 2022-09-15 | 2022-12-20 | 中原工学院 | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 |
WO2024065903A1 (zh) * | 2022-09-29 | 2024-04-04 | 福州大学 | 多约束边环境下计算卸载与资源分配联合优化***及方法 |
CN115529335A (zh) * | 2022-10-14 | 2022-12-27 | 宁波大学 | 工业物联网任务卸载方法、***、设备及存储介质 |
CN116367223A (zh) * | 2023-03-30 | 2023-06-30 | 广州爱浦路网络技术有限公司 | 基于强化学习的xr服务优化方法、装置、电子设备和存储介质 |
CN116367223B (zh) * | 2023-03-30 | 2024-01-02 | 广州爱浦路网络技术有限公司 | 基于强化学习的xr服务优化方法、装置、电子设备和存储介质 |
CN116723527A (zh) * | 2023-08-09 | 2023-09-08 | 香港中文大学(深圳) | 一种基于数字孪生的基站功耗优化方法 |
CN116723527B (zh) * | 2023-08-09 | 2023-11-14 | 香港中文大学(深圳) | 一种基于数字孪生的基站功耗优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nath et al. | Deep reinforcement learning for dynamic computation offloading and resource allocation in cache-assisted mobile edge computing systems | |
Wang et al. | Machine learning for 5G and beyond: From model-based to data-driven mobile wireless networks | |
CN114641076A (zh) | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 | |
Wang et al. | Dependent task offloading for edge computing based on deep reinforcement learning | |
CN112860350B (zh) | 一种边缘计算中基于任务缓存的计算卸载方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN113873022A (zh) | 一种可划分任务的移动边缘网络智能资源分配方法 | |
Wei et al. | Deep Q-Learning Based Computation Offloading Strategy for Mobile Edge Computing. | |
CN109151864B (zh) | 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法 | |
CN110167176B (zh) | 一种基于分布式机器学习的无线网络资源分配方法 | |
Zhang et al. | Joint optimization of cooperative edge caching and radio resource allocation in 5G-enabled massive IoT networks | |
Nath et al. | Dynamic computation offloading and resource allocation for multi-user mobile edge computing | |
CN113590279B (zh) | 一种面向多核边缘计算服务器的任务调度和资源分配方法 | |
CN114585006B (zh) | 基于深度学习的边缘计算任务卸载和资源分配方法 | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
CN113783593A (zh) | 一种基于深度强化学习的波束选择方法和*** | |
Hua et al. | GAN-based deep distributional reinforcement learning for resource management in network slicing | |
Shang et al. | Computation offloading and resource allocation in NOMA–MEC: A deep reinforcement learning approach | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
Giri et al. | Deep Q-learning based optimal resource allocation method for energy harvested cognitive radio networks | |
CN116209084A (zh) | 一种能量收集mec***中任务卸载和资源分配方法 | |
CN114025359B (zh) | 基于深度强化学习的资源分配与计算卸载方法、***、设备及介质 | |
Gong et al. | Hierarchical deep reinforcement learning for age-of-information minimization in irs-aided and wireless-powered wireless networks | |
Gao et al. | Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users | |
Xie et al. | Backscatter-aided hybrid data offloading for mobile edge computing via deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |