CN110519849B - 一种针对移动边缘计算的通信和计算资源联合分配方法 - Google Patents

一种针对移动边缘计算的通信和计算资源联合分配方法 Download PDF

Info

Publication number
CN110519849B
CN110519849B CN201910675614.2A CN201910675614A CN110519849B CN 110519849 B CN110519849 B CN 110519849B CN 201910675614 A CN201910675614 A CN 201910675614A CN 110519849 B CN110519849 B CN 110519849B
Authority
CN
China
Prior art keywords
user terminal
state
mobile edge
computing
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910675614.2A
Other languages
English (en)
Other versions
CN110519849A (zh
Inventor
张国鹏
周世斌
程德强
孙炜策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201910675614.2A priority Critical patent/CN110519849B/zh
Publication of CN110519849A publication Critical patent/CN110519849A/zh
Application granted granted Critical
Publication of CN110519849B publication Critical patent/CN110519849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种针对移动边缘计算的通信和计算资源联合分配方法,适用于移动通信领域中使用。在移动边缘计算***中确定用户终端所产生计算任务的执行地点,通过控制用户终端的数据传输功率减小整个***的能耗和计算时延等综合开销;移动边缘计算服务器对接收到的用户终端的计算任务请求后进行决策,若移动边缘计算服务器接受用户终端的计算任务请求,则计算任务的输入数据先从用户终端传输至边缘计算服务器执行计算任务,此时用户终端卸等待反馈;若决策为本地执行,则移动边缘计算服务器拒绝用户终端发送的计算任务请求,用户终端本地执行计算。其智能化高,能够保证***性能达到最优状态,同时有效降低在资源分配过程中整个***的负载开销,使用效果好。

Description

一种针对移动边缘计算的通信和计算资源联合分配方法
技术领域
本发明涉及一种通信和计算资源联合分配方法,尤其适用于移动通信领域中使用的一种针对移动边缘计算的通信和计算资源联合分配方法。
背景技术
随着移动用户终端、物联网终端的快速增长,未来移动网络中的数据流量以及计算量将成指数式增长。然而用户终端的计算能力有限,为解决这一***瓶颈,移动边缘计算(MEC) 技术应运而生。移动边缘计算侧重在移动网络边缘提供云计算功能,将移动边缘计算服务器部署在更加靠近用户终端的位置,减少网络数据传输和完成计算任务的时延。移动边缘计算具有邻近性、低时延、高带宽等特点。然而当***中存在多个计算服务接入点(即射频拉远单元(RRU))以及多个用户终端时,如何将用户终端与不同的射频拉远单元进行关联,从而有效的将用户终端产生的计算任务卸载至移动边缘计算服务器执行,实现***资源利用效率的最大化,一直没有得到很好的解决。强化学习是一种智能化、无模型和低复杂度的机器学习方法,其主要工作过程为:智能体通过不断和环境进行交互并学习,最终达到最优的收敛状态。在智能体和环境的交互过程中,智能体在不同的状态下根据一定的策略选择并执行某些动作,环境响应后给出相应的奖励值,同时智能体进入下一个状态,智能体根据每一步的奖励值更新其状态,经过多次交互后最终到达收敛状态。
现有文献:J.Liu,Y.Mao,J.Zhang,and K.B.Letaief,“Delay-optimalcomputation task scheduling for mobile-edge computing systems,”in Proc.IEEEISIT,July 2016,pp.1451–1455提出了一种资源分配模型用于解决移动边缘计算中计算和通信资源联合分配的问题,但是文献[4] 只考虑了单个射频拉远单元。
文献Chen X,Jiao L,Li W,et al.Efficient Multi-User ComputationOffloading for Mobile-Edge Cloud Computing[J].IEEE/ACM Transactions onNetworking,2015,24(5):2795-2808.将上述文献的工作扩展到了多个射频拉远单元的场景中,使用了博弈论的方法,在具体执行的过程中算法复杂度较高,可能会产生较高的时延和***综合开销,同时没有考虑最优的功率控制问题。
文献N.Li,J.Martinezortega,V.Diaz,et al,“Distributed power control forinterference-aware multi-user mobile edge computing:a game theory approach,”IEEE Access,vol.6,36105-36114, 2018指出:高效的功率控制能够极大地减缓共享信道中出现的干扰,使所有终端设备的性能有了实质性的提升,但其同样使用了博弈论方法,在面对大量终端设备的服务请求下,算法复杂度较高会使***性能的提升出现瓶颈。
发明内容
针对现有技术的不足之处,提供一种步骤简单,使用效果好,通过在大量用户终端的场景中部署多个射频拉远单元,使用强化学习算法进行高效的计算和通信资源联合分配,同时控制用户终端的数据传输功率,降低整个***的能耗和计算时延等综合开销的针对移动边缘计算的通信和计算资源联合分配方法。
为实现上述技术目的,本发明的针对移动边缘计算的通信和计算资源联合分配方法,在移动边缘计算***中确定用户终端所产生计算任务的执行地点,通过控制用户终端的数据传输功率减小整个***的能耗和计算时延等综合开销;
其中移动边缘计算***包含一个移动边缘计算服务器、K个射频拉远单元和N个用户终端,N个用户终端产生计算任务以及执行该计算任务所需的输入数据,K个射频拉远单元作为小型基站,用于从用户终端接收计算任务请求并转发至移动边缘计算服务器;
移动边缘计算服务器对接收到的用户终端的计算任务请求后进行决策,若移动边缘计算服务器接受用户终端的计算任务请求,则计算任务的输入数据先从用户终端传输至射频拉远单元,再由射频拉远单元传输至移动边缘计算服务器,由移动边缘计算服务器执行计算任务,此时用户终端卸载本地计算等待移动边缘计算服务器的反馈,最终移动边缘计算服务器将计算结果返回给用户终端;若决策为本地执行,则移动边缘计算服务器拒绝用户终端发送的计算任务请求,用户终端本地执行计算。
每个用户终端计算任务卸载策略的决策过程如下:
1.初始化用于表示每个用户终端的Q函数,即令Q=0;
2.初始化所有用户终端的状态,即s=0,
Figure BDA0002143166200000021
3.设置最大迭代次数Tmax并在T≤Tmax时,对T中的每个时间步t执行下面的循环操作:
1)从状态st中选择动作at
2)执行动作at并观察奖励rt和下一状态st+1
3)根据公式:
Figure BDA0002143166200000022
更新函数值Q,令st=st+1
4)判断状态st+1是否为最终的状态并且T>Tmax,如果不是则转向步骤1);否则,算法终止。
所述步骤3和4中,当***中所有用户终端的状态都不再发生改变时,算法结束,此时用户终端的状态为当前环境设置下的最优状态。
移动边缘计算服务器的决策过程具体如下:
a1初始化用于表示每个用户终端的累积奖励函数表Q,即令Q=0;
a2初始化所有用户终端,有用户终端都处于本地执行状态,这里用s表示,即s=0,
Figure BDA0002143166200000031
a3使用T表示整个一轮循环迭代的执行周期,利用移动边缘计算服务器将所有终端用户的一轮决策作为一个时间步t,设置最大迭代次数Tmax并在T≤Tmax时,对执行周期T中的每个时间步t执行最终的状态st+1;T表示算法循环的周期,t表示一个循环周期中的一次动作选择步骤,T和t为使用时提前进行预设置;
用户终端在每个离散时间步t(t=1,2,…)都有一个对应的状态st,用户终端在状态st时,能够根据预设的多种不同的策略选择动作a,即选择本地计算或者通过哪一个基站卸载至移动边缘计算服务器计算,执行动作a后移动边缘计算服务器做出响应并反馈给具体用户终端奖励r,并且用户终端进入下一个状态st+1
a4当计算中所有用户终端经过数轮迭代后,算法收敛,所有用户终端的状态都不再发生改变时,即所有用户终端都有了一个最合适的选择时结束算法,此时用户终端的状态为当前环境设置下的最优状态,即最优的资源分配,算力和时延的综合最优状态。
所述执行最终的状态st+1的循环操作包括:
b1从用户终端的状态st中选择动作at
b2首先用户终端在初始状态下进行全部随机选择,之后都根据贪婪算法∈-greedy策略进行选择,即每次选择动作时先生成一个大于0小于1的随机数,当该随机数小于∈时进行随机选择动作,即随机选择用户端本地执行或者通过RRU卸载执行;当该随机数大于∈时利用公式maxa Q(st+1,a)进行选择;
b3用户终端执行动作at并获得对应的具体奖励值rt,同时使用户终端进入下一状态st+1
b4利用公式:Q(st,at)=Q(st,at)+α[rt+1+γmaxa Q(st+1,a)-Q(st,at)]更新累积奖励函数表Q内数值,用户执行某个动作a后就获得当前用户具体奖励值rt+1,令st=st+1该用户会进入下一状态;式中α为学习率,γ为奖励折扣因子;
判断是否满足T>Tmax条件,或者累积奖励函数表Q中的值都不再发生改变或改变前后值之差小于预设的一个阈值,两个条件满足其一,则st+1就为最终状态,如果不是则循环步骤 b1;否则,结束循环操作,此时用户终端的状态为当前环境设置下的最优状态。
所述状态st为在任一时间步t,如果用户终端选择通过第k个射频拉远单元来卸载用户终端计算任务,则该用户终端处于状态
Figure BDA0002143166200000032
若移动边缘计算服务器拒绝计算,则该用户终端选择本地执行计算任务,则定义其处于状态
Figure BDA0002143166200000033
任意用户可能存在的所有状态构成的状态集表示为
Figure BDA0002143166200000041
所述动作为:对于每个时间步t,用户终端根据其策略在当前状态st选择并执行一个动作 a,则会从当前状态st转移到了下一状态st+1,用
Figure BDA0002143166200000042
来表示用户终端的动作空间,a=φ0,表示其选择在本地执行计算任务,a=φk,y表示其使用传输功率py并选择第 k个射频拉远单元来将其计算任务卸载至移动边缘计算服务器进行数据处理;
使用R对奖励函数进行统称,奖励函数R为:在每一个时间步t,具体用户的奖励函数
Figure BDA0002143166200000043
其中λ1和λ2为标准化变量,其中λ1和λ2为标准化变量。
有益效果:所提出的方案针在由移动边缘计算服务器、射频拉远单元和多用户终端之间最大效果的分配算力,同时其分配过程相比传统方法简单计算量小,可以有效地缓解传统方法所面临的高复杂度较导致的效率低下以及算力长期占用的问题,且服务器与用户终端之间的运算资源无法智能化分配的问题;能够保证服务器与用户终端组成的***性能达到现有优化方法的最优状态的同时由于加入了功率控制,有效降低在资源分配过程中整个***的负载开销,其步骤简单,使用效果好。
附图说明
图1是本发明针对移动边缘计算的通信和计算资源联合分配方法使用的网络结构示意图;
图2是本发明方法获取移动边缘计算受益的终端设备数量与穷举方法比较的示意图;
图3是本发明方法获取终端设备移动边缘计算受益率与其它方法比较的示意图;
图4是本发明方法终端设备平均开销与其它方法比较的示意图;
图5是本发明针对移动边缘计算的通信和计算资源联合分配方法的流程图。
具体实施方式
下面结合附图对本发明的实施例做进一步说明:
本发明的针对移动边缘计算的通信和计算资源联合分配方法,
在移动边缘计算***中确定用户终端所产生计算任务的执行地点,通过控制用户终端的数据传输功率减小整个***的能耗和计算时延等综合开销,
如图1所示,其中移动边缘计算***包含一个移动边缘计算(Mobile EdgeComputing, MEC)服务器,K个射频拉远单元(Radio Remote Unit,RRU),N个用户终端(UserEquipment, UE),N个用户终端产生计算任务以及执行该计算任务所需的输入数据,K个射频拉远单元作为小型基站,用于从用户终端接收计算任务请求并转发至移动边缘计算服务器;
移动边缘计算服务器对接收到的用户终端的计算任务请求后进行决策,若移动边缘计算服务器接受用户终端的计算任务请求,则计算任务的输入数据先从用户终端传输至射频拉远单元,再由射频拉远单元传输至移动边缘计算服务器,由移动边缘计算服务器执行计算任务,此时用户终端卸载本地计算等待移动边缘计算服务器的反馈,最终移动边缘计算服务器将计算结果返回给用户终端;若决策为本地执行,则移动边缘计算服务器拒绝用户终端发送的计算任务请求,用户终端本地执行计算;
用n表示第n个用户终端,用k表示第k个射频拉远单元,用
Figure BDA0002143166200000051
表示第n个用户终端发起的计算任务请求,
Figure BDA0002143166200000052
是一个二维数组(bn,cn),其中bn表示执行该任务的所需输入的数据量,单位比特,cn表示计算每比特输入数据所需的CPU转数,单位以CPU转数/比特,bn和cn的值取决于具体任务的性质,可以通过离线测量得到,用dn=k表示第n个用户终端选择通过第k个射频拉远单元将任务卸载至边缘计算服务器,用dn=0表示用户终端n选择在本地执行其计算任务,用pn表示第n个用户终端将计算任务的输入数据通过射频拉远单元传输至边缘计算服务器时所使用的数据传输功率,将用户终端的传输功率设置为Y个等级,P1和PY分别表示所允许的最小和最大传输功率,对于
Figure BDA0002143166200000053
有pn∈{P1,…,Py,…PY}。用Zn=(dn,pn)表示第n个用户终端的任务卸载策略,即第n个用户终端选择通过第k个射频拉远单元将任务卸载至边缘计算服务器且所使用的数据传输功率为pn
用gn,k表示第n个用户终端与第k个射频拉远单元之间的信道增益,用σ2表示射频拉远单元的信号接收机噪声功率,用w表示信道的频谱带宽,则
Figure BDA0002143166200000054
表示第n个用户终端与第k个射频拉远单元之间的数据传输速率,
Figure BDA0002143166200000055
表示第n个用户终端通过第k个射频拉远单元向移动边缘计算服务器卸载计算任务所需要的数据传输时延,
Figure BDA0002143166200000056
表示第n个用户终端通过第k个射频拉远单元向移动边缘计算服务器卸载计算任务所需要的数据传输能量,用un表示第n个用户终端的开销可调因子,则
Figure BDA0002143166200000057
表示用户终端n选择通过第k个射频拉远单元将计算任务卸载至移动边缘计算服务器执行的总开销。用
Figure BDA0002143166200000058
表示第n个用户终端在本地执行计算任务所使用的CPU频率,
Figure 1
表示第n个用户终端在本地执行计算任务所需要的时延,
Figure 2
表示第n个用户终端在本地执行计算任务所需要的能量,则
Figure BDA00021431662000000511
Figure BDA00021431662000000512
表示用户终端n选择本地执行计算任务的总开销。
具体的:
使用T表示计算和通信资源联合分配算法的执行周期,每个周期T由多个离散时间步组成;用户终端在每个时间步t(t=1,2,…)都有一个状态st,用户终端在状态st时,能够根据不同的策略选择动作a,执行动作a后移动边缘计算服务器做出响应并反馈给用户终端奖励r,并且用户终端进入下一个状态st+1,经过数轮迭代后可收敛。
上述用户终端状态、用户终端动作以及奖励函数做如下定义:
(1)状态:在任一时间步t,如果用户终端选择通过第k个射频拉远单元来卸载其计算任务,则该用户终端处于状态
Figure BDA0002143166200000061
若该用户终端选择本地执行计算任务,则定义其处于状态
Figure BDA0002143166200000062
用户终端的状态集可以表示为
Figure BDA0002143166200000063
(2)动作:对于每个时间步t,用户终端根据其策略在当前状态st选择并执行一个动作a,则会从当前状态st转移到了下一状态st+1。用
Figure BDA0002143166200000064
来表示用户终端的动作空间,a=φ0,0表示其选择在本地执行计算任务,a=φk,y表示其使用传输功率py并选择第k个射频拉远单元来将其计算任务卸载至移动边缘计算服务器进行数据处理;
(3)具体用户端的奖励函数r:在每一个时间步t,奖励函数定义为:
Figure BDA0002143166200000065
其中λ1和λ2为标准化变量。本发明每个用户终端计算任务卸载策略的决策过程如下:
如图5所示,每个用户终端计算任务卸载策略的决策过程如下:
1.初始化用于表示每个用户终端的Q函数,即令Q=0;
2.初始化所有用户终端的状态,即s=0,
Figure BDA0002143166200000066
3.设置最大迭代次数Tmax并在T≤Tmax时,对T中的每个时间步t执行下面的循环操作:
1)从状态st中选择动作at
2)执行动作at并观察奖励rt和下一状态st+1
3)根据公式:
Figure BDA0002143166200000067
更新函数值Q,令st=st+1
4)判断状态st+1是否为最终的状态并且T>Tmax,如果不是则转向步骤1);否则,算法终止。
所述步骤3和4中,当***中所有用户终端的状态都不再发生改变时,算法结束,此时用户终端的状态为当前环境设置下的最优状态。
移动边缘计算服务器的决策过程具体如下:
a1初始化用于表示每个用户终端的累积奖励函数表Q,即令Q=0;
a2初始化所有用户终端,有用户终端都处于本地执行状态,这里用s表示,即s=0,
Figure BDA0002143166200000071
a3使用T表示整个一轮循环迭代的执行周期,利用移动边缘计算服务器将所有终端用户的一轮决策作为一个时间步t,设置最大迭代次数Tmax并在T≤Tmax时,对执行周期T中的每个时间步t执行最终的状态st+1;T表示算法循环的周期,t表示一个循环周期中的一次动作选择步骤,T和t为使用时提前进行预设置;
用户终端在每个离散时间步t(t=1,2,…)都有一个对应的状态st,用户终端在状态st时,能够根据预设的多种不同的策略选择动作a,即选择本地计算或者通过哪一个基站卸载至移动边缘计算服务器计算,执行动作a后移动边缘计算服务器做出响应并反馈给具体用户终端奖励r,并且用户终端进入下一个状态st+1
a4当计算中所有用户终端经过数轮迭代后,算法收敛,所有用户终端的状态都不再发生改变时,即所有用户终端都有了一个最合适的选择时结束算法,此时用户终端的状态为当前环境设置下的最优状态,即最优的资源分配,算力和时延的综合最优状态。
所述执行最终的状态st+1的循环操作包括:
b1从用户终端的状态st中选择动作at
b2首先用户终端在初始状态下进行全部随机选择,之后都根据贪婪算法∈-greedy策略进行选择,即每次选择动作时先生成一个大于0小于1的随机数,当该随机数小于∈时进行随机选择动作,即随机选择用户端本地执行或者通过RRU卸载执行;当该随机数大于∈时利用公式maxa Q(st+1,a)进行选择,此时累积奖励函数表Q为一个a列为状态s行为动作的表,数据就表示某个状态-动作对下的Q值;
b3用户终端执行动作at并获得对应的具体奖励值rt,同时使用户终端进入下一状态st+1
b4利用公式:Q(st,at)=Q(st,at)+α[rt+1+γmaxa Q(st+1,a)-Q(st,at)]更新累积奖励函数表Q内数值,用户执行某个动作a后就获得当前用户具体奖励值rt+1,令st=st+1该用户会进入下一状态;式中α为学习率,γ为奖励折扣因子;
判断是否满足T>Tmax条件,或者累积奖励函数表Q中的值都不再发生改变或改变前后值之差小于预设的一个阈值,两个条件满足其一,则st+1就为最终状态,如果不是则循环步骤 b1;否则,结束循环操作,此时用户终端的状态为当前环境设置下的最优状态。
实施例一,
作如下参数设置:整个***被放置在一片半径为1千米的圆形区域内,而所有UE都随机分布在该区域,射频拉远单元被均匀分布在该区域内。UE的数量设置在100到500个,射频拉远单元的数量为9个;每个射频拉远单元的可用带宽w为1MHz,背景噪声方差σ2为 10- 14W,UE的本地计算能力为0.1~0.2GHz,数据传输功率为0.1~0.5W,QoS权重因子un为 0.5,最大卸载周期Tmax为60。强化学习中的学习率α为0.2,奖励折扣因子γ为0.9。为了说明本发明提出方法的优势,本发明将强化学习算法与传统优化算法进行仿真和比较。
如图2所示,介绍采用2个射频拉远单元和5~15个UE的场景下,采用本方法以及传统的穷举算法,各种方法获得的移动边缘计算受益终端设备数量的比较示意图(移动边缘计算受益终端设备即选择卸载至移动边缘计算服务器执行任务的综合开销小于本地执行的综合开销的UE);可以看出强化学习方法可以达到几乎和穷举算法的最优状态相同的移动边缘计算受益终端设备数量。穷举算法总是能够找出问题的最优解,但由于其复杂度较高,并且呈指数式增长,因此在现实场景中的应用具有较大的局限性。而强化学习算法恰恰克服了穷举算法复杂度高的问题,在保证能够获得最优解的同时,其算法复杂度低且收敛速度快,因此,在把***规模扩大到一定程度后,本发明所提出的强化学习方法在终端设备移动边缘计算受益率方面仍然能有较好的表现。
如图3所示,介绍采用9个射频拉远单元和100~500个UE场景下,采用本发明提出的计算和通信资源联合分配的强化学习方法,以及传统的基于接收信号强度的方法(RSS),各种方法获得的终端设备的移动边缘计算受益率的比较示意图(终端设备的移动边缘计算受益率即移动边缘计算受益终端设备数量与终端设备总数的比值)。
如图4所示,介绍采用9个射频拉远单元和100~500个UE场景下,采用本发明提出的计算和通信资源联合分配的强化学***均开销的比较示意图。
如图3和图4所示,本方法具体使用了强化学***均开销都明显低于RSS方法,由于加入了功率控制,强化学习方法智能化的优势被进一步突显出来,因此在综合开销性能上比RSS方法表现更好,这说明本发明提出的计算和通信资源联合分配的强化学习方法在大规模网络场景下既能获得较高的移动边缘计算受益率,又能显著降低***的综合开销。

Claims (3)

1.一种针对移动边缘计算的通信和计算资源联合分配方法,其特征在于:在移动边缘计算***中确定用户终端所产生计算任务的执行地点,通过控制用户终端的数据传输功率减小整个***的能耗和计算包含时延的综合开销;
其中移动边缘计算***包含一个移动边缘计算服务器、K个射频拉远单元和N个用户终端,N个用户终端产生计算任务以及执行该计算任务所需的输入数据,K个射频拉远单元作为小型基站,用于从用户终端接收计算任务请求并转发至移动边缘计算服务器;
移动边缘计算服务器对接收到的用户终端的计算任务请求后进行决策,若移动边缘计算服务器接受用户终端的计算任务请求,则计算任务的输入数据先从用户终端传输至射频拉远单元,再由射频拉远单元传输至移动边缘计算服务器,由移动边缘计算服务器执行计算任务,此时用户终端卸载本地计算等待移动边缘计算服务器的反馈,最终移动边缘计算服务器将计算结果返回给用户终端;若决策为本地执行,则移动边缘计算服务器拒绝用户终端发送的计算任务请求,用户终端本地执行计算;
每个用户终端计算任务卸载策略的决策过程如下:
S1.初始化用于表示每个用户终端的累积奖励函数表Q,即令Q=0;
S2.初始化所有用户终端的状态s,即s=0,
Figure FDA0003323028790000011
S3.设置最大迭代次数Tmax并在T≤Tmax时,对执行周期T中的每个时间步t执行下面的循环步骤操作:
1)从状态st中选择动作at
2)执行动作at并观察奖励rt和下一状态st+1
3)根据公式:
Figure FDA0003323028790000012
更新累积奖励函数表Q,令st=st+1;α为学习率,γ为奖励折扣因子;
4)判断状态st+1是否为最终的状态并且T>Tmax,如果不是则转向步骤1);否则,算法终止;
所述步骤3)和4)中,当***中所有用户终端的状态都不再发生改变时,算法结束,此时用户终端的状态为当前环境设置下的最优状态;
所述状态st为在任一时间步t,如果用户终端选择通过第k个射频拉远单元来卸载用户终端计算任务,则该用户终端处于状态
Figure FDA0003323028790000013
若移动边缘计算服务器拒绝计算,则该用户终端选择本地执行计算任务,则定义其处于状态
Figure FDA0003323028790000014
任意用户可能存在的所有状态构成的状态集表示为
Figure FDA0003323028790000021
所述动作at为:对于每个时间步t,用户终端根据其策略在当前状态st选择并执行一个动作a,则会从当前状态st转移到了下一状态st+1,用
Figure FDA0003323028790000022
来表示用户终端的动作空间,a=φ0,0表示其选择在本地执行计算任务,a=φk,y表示其使用传输功率py并选择第k个射频拉远单元来将其计算任务卸载至移动边缘计算服务器进行数据处理;将用户终端的传输功率设置为Y个等级,
Figure FDA0003323028790000023
使用r对奖励函数进行统称,奖励函数r为:在每一个时间步t,具体用户的奖励函数
Figure FDA0003323028790000024
Figure FDA0003323028790000025
其中λ1和λ2为标准化变量;UM n,k表示用户终端n选择通过第k个射频拉远单元将计算任务卸载至移动边缘计算服务器执行的总开销;UL n示用户终端n选择本地执行计算任务的总开销。
2.根据权利要求1所述的针对移动边缘计算的通信和计算资源联合分配方法,其特征在于移动边缘计算服务器的决策过程具体如下:
a1初始化用于表示每个用户终端的累积奖励函数表Q,即令Q=0;
a2初始化所有用户终端,所有用户终端都处于本地执行状态,这里用s表示,即s=0,
Figure FDA0003323028790000026
Figure FDA0003323028790000027
a3使用T表示整个一轮循环迭代的执行周期,利用移动边缘计算服务器将所有终端用户的一轮决策作为一个时间步t,设置最大迭代次数Tmax并在T≤Tmax时,对执行周期T中的每个时间步t执行最终的状态st+1
用户终端在每个离散时间步t(t=1,2,…)都有一个对应的状态st,用户终端在状态st时,能够根据预设的多种不同的策略选择动作a,即选择本地计算或者通过哪一个基站卸载至移动边缘计算服务器计算,执行动作a后移动边缘计算服务器做出响应并反馈给具体用户终端奖励值rt,并且用户终端进入下一个状态st+1
a4当计算中所有用户终端经过数轮迭代后,算法收敛,所有用户终端的状态都不再发生改变时,即所有用户终端都有了一个最合适的选择时结束算法,此时用户终端的状态为当前环境设置下的最优状态,即最优的资源分配,算力和时延的综合最优状态。
3.根据权利要求2所述的针对移动边缘计算的通信和计算资源联合分配方法,其特征在于所述执行最终的状态st+1的循环操作包括以下步骤:
b1从用户终端的状态st中选择动作at
b2首先用户终端在初始状态下进行全部随机选择,之后都根据贪婪算法∈-greedy策略进行选择,即每次选择动作时先生成一个大于0小于1的随机数,当该随机数小于∈时进行随机选择动作,即随机选择用户端本地执行或者通过RRU卸载执行;当该随机数大于∈时利用公式
Figure FDA0003323028790000031
进行选择;
b3用户终端执行动作at并获得对应的具体奖励值rt,同时使用户终端进入下一状态st+1
b4利用公式:
Figure FDA0003323028790000032
更新累积奖励函数表Q内数值,用户执行某个动作a后就获得当前用户具体奖励值rt+1,令st=st+1该用户会进入下一状态;式中α为学习率,γ为奖励折扣因子;
判断是否满足T>Tmax条件,或者累积奖励函数表Q中的值都不再发生改变或改变前后值之差小于预设的一个阈值,两个条件满足其一,则st+1就为最终状态,如果不是则循环步骤b1;否则,结束循环操作,此时用户终端的状态为当前环境设置下的最优状态。
CN201910675614.2A 2019-07-25 2019-07-25 一种针对移动边缘计算的通信和计算资源联合分配方法 Active CN110519849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910675614.2A CN110519849B (zh) 2019-07-25 2019-07-25 一种针对移动边缘计算的通信和计算资源联合分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910675614.2A CN110519849B (zh) 2019-07-25 2019-07-25 一种针对移动边缘计算的通信和计算资源联合分配方法

Publications (2)

Publication Number Publication Date
CN110519849A CN110519849A (zh) 2019-11-29
CN110519849B true CN110519849B (zh) 2022-02-18

Family

ID=68623175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910675614.2A Active CN110519849B (zh) 2019-07-25 2019-07-25 一种针对移动边缘计算的通信和计算资源联合分配方法

Country Status (1)

Country Link
CN (1) CN110519849B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586696B (zh) * 2020-04-29 2022-04-01 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN113055482A (zh) * 2021-03-17 2021-06-29 山东通维信息工程有限公司 一种基于边缘计算的智能云盒设备
CN113840334A (zh) * 2021-08-20 2021-12-24 济南浪潮数据技术有限公司 一种网络资源协同方法和装置
CN115766030A (zh) * 2022-11-16 2023-03-07 国家工业信息安全发展研究中心 基于可信交换共享综合服务平台的数据共享方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108632861A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算分流决策方法
CN109588059A (zh) * 2016-05-13 2019-04-05 瑞典爱立信有限公司 用于无线通信网络的网络架构、方法和设备
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法
WO2019133048A1 (en) * 2017-12-30 2019-07-04 Intel Corporation Methods and devices for wireless communications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109588059A (zh) * 2016-05-13 2019-04-05 瑞典爱立信有限公司 用于无线通信网络的网络架构、方法和设备
WO2019133048A1 (en) * 2017-12-30 2019-07-04 Intel Corporation Methods and devices for wireless communications
CN108632861A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算分流决策方法
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Boutheina Dab ; Nadjib Aitsaadi ; Rami Langar.Q-Learning Algorithm for Joint Computation Offloading and Resource Allocation in Edge Cloud.《2019 IFIP/IEEE Symposium on Integrated Network and Service Management (IM)》.2019, *

Also Published As

Publication number Publication date
CN110519849A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN108809695B (zh) 一种面向移动边缘计算的分布上行链路卸载策略
Xu et al. A deep reinforcement learning based framework for power-efficient resource allocation in cloud RANs
CN111093203B (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
Yoshida et al. MAB-based client selection for federated learning with uncertain resources in mobile networks
CN108112082B (zh) 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN109600178B (zh) 一种边缘计算中能耗与时延和最小化的优化方法
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN107766135A (zh) 移动朵云中基于粒子群和模拟退火优化的任务分配方法
CN107949025B (zh) 一种基于非合作博弈的网络选择方法
CN110191489B (zh) 一种超密集网络中基于强化学习的资源分配方法及装置
Zhu et al. Computing offloading strategy using improved genetic algorithm in mobile edge computing system
CN114828018A (zh) 一种基于深度确定性策略梯度的多用户移动边缘计算卸载方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Azizi et al. MIX-MAB: Reinforcement learning-based resource allocation algorithm for LoRaWAN
Xu et al. Collaborative multi-agent reinforcement learning of caching optimization in small-cell networks
CN111930435B (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Zhou et al. Context-aware learning-based resource allocation for ubiquitous power IoT
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant