CN116193546A - 一种动态广义用户noma分组cchn-mec网络卸载决策优化方法 - Google Patents

一种动态广义用户noma分组cchn-mec网络卸载决策优化方法 Download PDF

Info

Publication number
CN116193546A
CN116193546A CN202211440680.XA CN202211440680A CN116193546A CN 116193546 A CN116193546 A CN 116193546A CN 202211440680 A CN202211440680 A CN 202211440680A CN 116193546 A CN116193546 A CN 116193546A
Authority
CN
China
Prior art keywords
time slot
router
noma
energy consumption
cchn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211440680.XA
Other languages
English (en)
Inventor
林世俊
卢宝山
石江宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202211440680.XA priority Critical patent/CN116193546A/zh
Publication of CN116193546A publication Critical patent/CN116193546A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0225Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
    • H04W52/0248Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal dependent on the time of the day, e.g. according to expected transmission activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • H04W52/42TPC being performed in particular situations in systems with time, space, frequency or polarisation diversity
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种动态广义用户NOMA分组CCHN‑MEC网络卸载决策优化方法,其首先在给定计算卸载比率下,推导得到本地能耗最小化问题的最优解,即次级用户(SecondaryUser,SU)本地的最优CPU频率分配
Figure DDA0003948088610000011
其次通过凸优化工具求解卸载能耗最小化问题,获得每个NOMA组
Figure DDA0003948088610000012
内为每个SU任务计算分配的CPU频率
Figure DDA0003948088610000013
SU的发射功率与传输时间
Figure DDA0003948088610000014
最后根据基于SAC的深度强化学习算法来学习每个时隙的用户计算卸载比率分配,得到最优的卸载决策。本发明可以大幅节省***能耗,且具有较低的复杂度。

Description

一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法
技术领域
本发明涉及CCHN-MEC网络资源分配技术领域,具体涉及一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法。
背景技术
物联网(Internet of Things,IoT)已经成为我们日常生活的一部分,由此产生了多种计算密集型和延迟敏感型应用,比如人脸识别、自然语言处理等。为了满足低复杂度设备的延迟敏感型计算需求,学界提出了移动边缘计算(Mobile Edge Computing,MEC)。此外,由于无线频谱有限,研究人员开发支持MEC的新技术,如NOMA(Non-OrthogonalMultiple Access,非正交多址接入)和认知无线电(Cognitive Radio,CR)。然后,MEC和CR的组合,以及MEC和NOMA的组合成为热门的研究课题。
最近,有学者提出了一种新的CR基础设施,即认知容量收割网络(CCHN,Cognitivecapacity harvesting network),以允许无管理/感知能力的手持轻型设备享受CR网络(CRN)的好处。在CCHN中,引入了次级服务提供商(Secondary Server Provider,SSP),它部署了一组CR路由器来监视/检测CR频谱,并购买一小块许可频谱来构建可靠的公共控制信道。通过公共控制信道,SSP收集CR路由器的管理/感知结果,引导CR路由器形成CRN,并分配CR频谱。无管理/感知能力的次等用户(Secondary User,SU)可以通过分配的CR频谱访问附近的CR路由器。事实上,CCHN引入一个新的网络运营商,该运营商负责构建基础设施,从拥有频谱的主要网络运营商那里获取频谱,并在没有管理/感知能力的情况下为SU提供服务。
假设CR路由器已经配备了计算资源,因此CCHN可以提供MEC服务。在CCHN中,为了减少对主网络的干扰,考虑到SU的传输功率的有限性,为了满足SU任务的延迟限制,有必要引入“广义用户分组”提升网络性能,即允许一个SU加入多个NOMA组,并通过不同的传输信道将其不同部分的数据卸载到不同的CR路由器。
然而,现有的研究NOMA-MEC并没有采用广义用户分组传输方式,大大的降低了网络性能。同时,由于传统的优化方案本身无法避免的高复杂度性,无法满足MEC***的实时性决策需求。因此,在基于广义用户分组NOMA的CCHN-MEC***中,设计一种支持动态计算卸载决策的优化方案非常重要。目前,可用于广义用户分组NOMA的CCHN-MEC***的动态卸载决策优化方案主要有TD3算法、纯本地计算(LO)和随机分配(RA)算法。由于TD3算法旨在寻找一个确定性的策略,难以适用于随机变化的NOMA-CCHN-MEC场景,因此能耗可能会大大提高;LO算法没有考虑充分利用MEC服务器的计算资源,在时延要求很高的情况下,能耗上升幅度显著;RA算法并没有考虑***的变量之间的耦合性,性能较差。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其能够获得更合理的卸载决策,大幅降低***能耗。
为实现上述目的,本发明采用的技术方案是:
一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,CCHN包含一组SU、一组CR路由器和一个SSP;SSP通过已经建立的公共控制信道集中管理SU和CR路由器;CR路由器配备计算资源并充当MEC服务器;相邻小区的上行蜂窝频谱被划分为一系列蜂窝资源块CRB;CRB的分配已经完成,且每个CR路由器都已经分配一个CRB,用于与其相连的SU的数据卸载;
所述决策优化方法采用SAC算法进行求解,SAC智能体包括一个Actor和两个Critic,Actor是一个含有若干层全连接DNN,记为
Figure SMS_5
其中/>
Figure SMS_2
表示DNN的权重参数;通过观察输入状态/>
Figure SMS_11
Actor输出策略分布的均值/>
Figure SMS_7
和标准差/>
Figure SMS_9
由于策略分布被拟合成一个高斯分布,因而从/>
Figure SMS_8
中采样即可得到可行动作/>
Figure SMS_13
每个Critic包含两个网络架构一样的全连接DNN,即主DNN和目标DNN;每个DNN用于评估/>
Figure SMS_14
和/>
Figure SMS_16
的Q值,即
Figure SMS_1
其中θ是DNN的权重;使用/>
Figure SMS_15
和/>
Figure SMS_4
来表示分别Critic 1的主DNN和目标DNN的Q值,权重为θ1和/>
Figure SMS_10
使用/>
Figure SMS_6
和/>
Figure SMS_12
来分别表示Critic2的主和目标DNN的Q值,权重分别为θ2
Figure SMS_3
所述决策优化方法具体如下:
步骤1、设置折扣因子λ,软拷贝因子ι,最大时隙数T,最大轮次Γ;
步骤2、随机初始化Actor的神经网络参数
Figure SMS_17
Critic的主神经网络参数θi(i=1,2),将Critic的目标神经网络参数初始化/>
Figure SMS_18
将重放经验池清空,即/>
Figure SMS_19
当前时隙序号为t=1,当前轮次序号为e=1;
步骤3、随机生成一个卸载比率动作,以获取一个CCHN-MEC环境中的状态
Figure SMS_20
步骤4、根据状态
Figure SMS_21
SAC智能体输出一个计算卸载比率决策动作/>
Figure SMS_22
步骤5、根据卸载比率决策动作
Figure SMS_23
对于每个SU ml,求解本地能耗最小化问题,获得其本地的最优CPU频率分配/>
Figure SMS_24
步骤6、根据卸载比率决策动作
Figure SMS_25
对于每个NOMA组/>
Figure SMS_26
获得/>
Figure SMS_27
内每个SU的CPU频率/>
Figure SMS_28
步骤7、根据卸载比率决策动作
Figure SMS_29
对于每个NOMA组/>
Figure SMS_30
求解卸载能耗优化问题,获得组/>
Figure SMS_31
内每个SU的发射功率与传输时间/>
Figure SMS_32
步骤8、根据步骤5、6和7,计算***总能耗Etotal(t);
步骤9、根据步骤8,计算当前***的奖励rt,并获得下一个状态的状态
Figure SMS_33
步骤10、将当前时隙的经验
Figure SMS_34
存入重放经验池/>
Figure SMS_35
中;
步骤11、如果在重放经验池
Figure SMS_36
中的经验数大于最小批数据大小/>
Figure SMS_37
则从重放经验池/>
Figure SMS_38
中随机抽取数据/>
Figure SMS_39
进行网络训练,以更新网络参数θi(i=1,2),/>
Figure SMS_40
以及温度系数∈;/>
步骤12、t=t+1;如果当前时隙数t>T,则t=1,e=e+1,若e>Γ则进入步骤13;否则,返回步骤3;
步骤13、输出Actor的神经网络最优参数
Figure SMS_41
通过该参数,Actor可以输出每个状态下的最优决策动作。
所述步骤5中,本地能耗最小化问题为:
Figure SMS_42
其中,
Figure SMS_43
表示SU的最大CPU频率;约束C1表示本地的计算时间不能超过一个时隙长度,约束C2表示SU的本地计算CPU频率不能超过最大的CPU频率。
所述步骤6中,通过以下公式(7)获得
Figure SMS_44
内每个SU的CPU频率
Figure SMS_45
Figure SMS_46
所述步骤7中,卸载能耗优化问题为:
Figure SMS_47
其中,
Figure SMS_48
Figure SMS_49
表示在时隙t中从发送器u1到接收器u2的信道增益,/>
Figure SMS_50
表示在时隙t中从发送器ml到接收器hk的归一化信道增益,Pk INT(t)表示在时隙t中CR路由器hk处的最大干扰和噪声功率水平,/>
Figure SMS_51
表示CR路由器hk的最大CPU频率,/>
Figure SMS_52
表示SU ml在时隙t中加入的NOMA组的总数,/>
Figure SMS_53
表示SU ml的最大发射功率,/>
Figure SMS_54
表示与CRBck关联的第q个BS处的最大容忍干扰,Nk表示与CRBck关联的所有BS的个数;
约束C1表示NOMA组的传输时间不能超过每个时隙长度,约束C2表示分配给NOMA组内的SU的计算CPU频率不能超过CR路由器的最大CPU频率,约束C3表示每个SU卸载数据的速率要求,约束C4表示每个SU的发射功率的限制,约束C5表示NOMA组内的SU的干扰功率不能超过各个BS的最大容忍干扰值。
所述步骤8中***总能耗Etotal(t)为:
Figure SMS_55
其中,
Figure SMS_56
表示SU ml的能耗权重,/>
Figure SMS_57
表示CR路由器为计算SU ml的任务所消耗的能量权重,/>
Figure SMS_58
表示SU ml本地的能耗,κ0表示SU的计算能耗因子,βl,k(t)表示在时隙tSU ml卸载到CR路由器ck的任务卸载比率,wl(t)表示在时隙t SU ml计算1-nat任务数据所需要的CPU周期数,Rl(t)表示在时隙t SU ml总的任务数据量,fl loc(t)表示在时隙t SU ml本地的CPU频率;/>
Figure SMS_59
表示SU ml卸载到CR路由器ck时的能耗,pl,k(t)表示在时隙t SU ml卸载到CR路由器ck时的发射功率,dk(t)表示在时隙t卸载到CR路由器hk的SU的NOMA传输时间,/>
Figure SMS_60
表示SUml卸载到CR路由器ck时到CR路由器ck的计算能耗,κ1表示CR路由器的计算能耗因子,fl,k(t)在时隙t SU ml卸载到CR路由器hk时CR路由器hk分配的CPU频率。
所述步骤9中,利用公式(10)计算当前***的奖励rt
Figure SMS_61
其中,其中
Figure SMS_64
和/>
Figure SMS_68
分别表示是否违反时隙t中的约束(1)(2)(4)以及是否存在问题P1和P2在时隙t有解;若满足约束(1),则/>
Figure SMS_73
否则,/>
Figure SMS_65
若满足约束(2),则有/>
Figure SMS_67
否则/>
Figure SMS_71
若满足约束(4),则/>
Figure SMS_72
否则,/>
Figure SMS_62
如果问题P1有解,则/>
Figure SMS_66
否则,/>
Figure SMS_69
如果问题P1有解,则/>
Figure SMS_70
否则,/>
Figure SMS_63
如果在时隙t中问题P1/P2无解,则Etotal(t)设置为+∞。
所述步骤11中,依据公式(12)-(15)更新网络参数θi(i=1,2),
Figure SMS_74
Figure SMS_75
以及温度系数∈:
最小化Bellman残差值通过下式计算:
Figure SMS_76
其中,
Figure SMS_77
这里,/>
Figure SMS_78
是从
Figure SMS_79
重新抽样得来的动作;
Actor的DNN通过最小化KL散度来训练,即最小化
Figure SMS_80
其中
Figure SMS_81
是参数/>
Figure SMS_82
的表达式,εt是输入的高斯噪声向量;
温度参数∈通过最小化如下式子来动态调整
Figure SMS_83
其中
Figure SMS_84
是目标熵常数;
每个Critic中目标DNN的权重参数通过软拷贝法进行更新,即
Figure SMS_85
采用上述方案后,本发明首先在给定计算卸载比率下,推导得到本地能耗最小化问题的最优解,即次级用户(Secondary User,SU)本地的最优CPU频率分配
Figure SMS_86
其次通过凸优化工具求解卸载能耗最小化问题,获得每个NOMA组/>
Figure SMS_87
内为每个SU任务计算分配的CPU频率/>
Figure SMS_88
SU的发射功率与传输时间
Figure SMS_89
最后根据基于SAC的深度强化学习算法来学习每个时隙的用户计算卸载比率分配,得到最优的卸载决策。本发明可以大幅节省***能耗,且具有较低的复杂度。
附图说明
图1为本发明(SAC)与TD3算法、LO算法和随机分配RA算法在SU数目变化下的能耗对比;
图2为本发明(SAC)与TD3算法、LO算法和RA算法在每个SU的卸载数据总量变化下的能耗对比;
图3为本发明(SAC)与TD3算法、LO算法和RA算法在每个时隙的长度变化下的能耗对比。
具体实施方式
本发明揭示了一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其所应用的所考虑的CCHN包含一组SU、一组CR路由器和一个SSP。SSP通过已经建立的公共控制信道集中管理SU和CR路由器。CR路由器配备计算资源并充当MEC服务器。考虑CCHN通过在相邻小区中共享上行链路蜂窝频谱为SU提供服务。相邻小区的上行蜂窝频谱被划分为一系列蜂窝资源块(Cellular Resource Block,CRB)。由于采用空间重用技术,根据空间重用因子,每个CRB可在几个相邻小区中供蜂窝用户(Cellular User,CU)使用。为了简化分析,假设CRB的分配已经完成,且每个CR路由器都已经分配一个CRB,用于与其相连的SU的数据卸载。
***时间时隙化τ={1,2,...,T},其中τ是每个时隙的长度。在每个时隙中,每个SU都有一个计算任务需要完成。假设SU是轻量级的,因此需要将其部分任务卸载到CR路由器。考虑采用NOMA技术,选择同一个CR路由器进行数据卸载的SU形成一个NOMA组。考虑广义用户分组,即每个SU可加入多个NOMA组,并将其不同部分的任务同时卸载到多个CR路由器,以减少对主网络的干扰,同时降低卸载延迟。
为了降低串行干扰消除(Successive Interference Cancellation,SIC)解码的复杂度,设置了一个***参数来限制与一个CR路由器连接的最大SU数目。此外,与许多现有的MEC工作一样,假设任务计算结果的大小足够小,因此从CR路由器下载任务计算结果到SU的过程所涉及的能耗忽略不计。
Figure SMS_90
和/>
Figure SMS_91
分别表示SU集和可用CRB集。CRB的分配已经完成,并且每个CRB已经分配给一个CR路由器。因此,CR路由器的数量等于CRB的数量。不失一般性,假设CRBck被分配给CR路由器hk
令βl,k(t)表示时隙t中SU ml卸载到CR路由器hk的任务数据量比率。由于在每个时隙,每个SU的卸载数据总量不能超过整个任务,因此我们有
Figure SMS_92
令L表示与CR路由器hk连接的最大SU数。那么,我们有
Figure SMS_93
其中I(y)是y的函数,定义为
Figure SMS_94
为了降低优化复杂度,我们设置了一个参数来限制每个SU允许使用的CRB的数量。也就是,
Figure SMS_95
其中Y是每个SU允许使用的CRB的最大数量。注意Y=1代表没有广义用户分组的情况。
***中每个时隙t的总能耗Etotal可以被计算为
Figure SMS_96
其中,
Figure SMS_97
表示SU ml的能耗权重,/>
Figure SMS_98
表示CR路由器为计算SU ml的任务所消耗的能量权重,/>
Figure SMS_99
表示SU ml本地的能耗,κ0表示SU的计算能耗因子,βl,k(t)表示在时隙t SU ml卸载到CR路由器ck的任务卸载比率,wl(t)表示在时隙t SU ml计算1-nat任务数据所需要的CPU周期数,Rl(t)表示在时隙t SU ml总的任务数据量,fl loc(t)表示在时隙t SU ml本地的CPU频率,/>
Figure SMS_100
表示SU ml卸载到CR路由器ck时的能耗,pl,k(t)表示在时隙t SU ml卸载到CR路由器ck时的发射功率,dk(t)表示在时隙t卸载到CR路由器hk的SU的NOMA传输时间,/>
Figure SMS_101
表示SU ml卸载到CR路由器ck时到CR路由器ck的计算能耗,κ1表示CR路由器的计算能耗因子,fl,k(t)在时隙t SU ml卸载到CR路由器hk时CR路由器hk分配的CPU频率。
(1)当给定SU的卸载比率
Figure SMS_102
时,对于时隙t,所有SU的本地计算能耗最小化是相互独立的。令/>
Figure SMS_103
表示ml在时隙t的本地计算的任务数据总量。那么,在时隙t内SU ml的本地计算能耗最小化问题可表示为
Figure SMS_104
其中,
Figure SMS_105
表示SU的最大CPU频率。约束C1表示本地的计算时间不能超过一个时隙长度,约束C2表示SU的本地计算CPU频率不能超过最大的CPU频率。由于目标函数的值随着
Figure SMS_106
的减少而单调减少,因此问题P1的最优解fl loc_opt(t)等于/>
Figure SMS_107
在/>
Figure SMS_108
的情况下,问题P1无解。
(2)当给定SU的卸载比率
Figure SMS_109
时,可以通过下式获得CR路由器hk为每个NOMA组/>
Figure SMS_110
内所有SU的任务计算所分配的最优CPU频率
Figure SMS_111
(3)当给定SU的卸载比率
Figure SMS_112
时,可以利用现有的凸优化工具箱求解以下的卸载能耗优化问题P2,获得每个NOMA组/>
Figure SMS_113
内所有SU的最优功率
Figure SMS_114
和时间分配dk(t);/>
Figure SMS_115
其中,
Figure SMS_116
Figure SMS_117
表示在时隙t中从发送器u1到接收器u2的信道增益,/>
Figure SMS_118
表示在时隙t中从发送器ml到接收器hk的归一化信道增益,Pk INT(t)表示在时隙t中CR路由器hk处的最大干扰和噪声功率水平,/>
Figure SMS_119
表示CR路由器hk的最大CPU频率,/>
Figure SMS_120
表示SU ml在时隙t中加入的NOMA组的总数,/>
Figure SMS_121
表示SU ml的最大发射功率,/>
Figure SMS_122
表示与CRB ck关联的第q个BS处的最大容忍干扰,Nk表示与CRB ck关联的所有BS的个数。约束C1表示NOMA组的传输时间不能超过每个时隙长度,约束C2表示分配给NOMA组内的SU的计算CPU频率不能超过CR路由器的最大CPU频率,约束C3表示每个SU卸载数据的速率要求,约束C4表示每个SU的发射功率的限制,约束C5表示NOMA组内的SU的干扰功率不能超过各个BS的最大容忍干扰值。
很显然地,当给定计算卸载比率
Figure SMS_123
下,可以根据(6)(7)(8),利用公式(5)计算每个时隙的***能耗。但是,在动态的环境中,卸载比率
Figure SMS_124
的优化是一个关键性问题。为此,使用SAC的DRL算法解决该问题。首先定义***状态、动作和奖励,如下所示:
1)状态:为了节省状态空间大小,时隙t中的状态,
Figure SMS_125
被定义为前一时隙的奖励rt-1
2)动作:时隙t中智能体的动作通过SU的扩展计算卸载比率定义,
Figure SMS_126
其中,ν是扩展的正参数。/>
Figure SMS_127
和βl,k(t)之间的关系定义为:/>
Figure SMS_128
3)奖励:时隙t中DRL智能体的即时奖励定义rt
Figure SMS_129
其中,其中
Figure SMS_132
和/>
Figure SMS_135
分别表示是否违反时隙t中的约束(1)(2)(4)以及是否存在问题P1和P2在时隙t有解。若满足约束(1),则/>
Figure SMS_137
否则,/>
Figure SMS_133
若满足约束(2),则有/>
Figure SMS_134
否则/>
Figure SMS_136
若满足约束(4),则/>
Figure SMS_139
否则,/>
Figure SMS_130
如果问题P1有解,则/>
Figure SMS_138
否则,/>
Figure SMS_140
如果问题P1有解,则/>
Figure SMS_141
否则,/>
Figure SMS_131
如果在时隙t中问题P1/P2无解,则Etotal(t)设置为+∞。由式(10)可知,如果当前时隙内的计算卸载决策违反约束(1)/(2)/(4),或者使问题P1/P2无解,则获得的即时奖励将更小,这促使DRL智能体在下一个时隙选择更合理的策略。其目标是获得一个最优策略π*可以最大化长期期望奖励,同时最大化每个状态的动作熵,即
Figure SMS_142
其中,
Figure SMS_143
表示在策略π下状态/>
Figure SMS_144
的动作熵。
ρπ表示在所考虑的CCHN-MEC环境中卸载策略π引起的动作-状态对的轨迹分布。λ∈(0,1)是折扣因子,用于反映未来奖励的重要性。∈是温度参数,可平衡熵对***奖励的重要性。通过引入熵正则化,SAC智能体选择的动作变得更加随机,这使得该算法具有较强的动作探索能力,从而以较高概率获取最优策略π*
考虑到该***的状态与动作空间都是连续的,为了获得接近最优的卸载比率决策,采用SAC算法来求解。为了处理高维连续状态和动作空间,SAC智能体的Actor和Critic利用深度神经网络(Deep Neural Network,DNN)近似。Actor是一个含有若干层全连接DNN,记为
Figure SMS_150
其中/>
Figure SMS_147
表示DNN的权重参数。通过观察输入状态/>
Figure SMS_153
Actor可输出策略分布的均值
Figure SMS_148
和标准差/>
Figure SMS_156
由于策略分布被拟合成一个高斯分布,因而从/>
Figure SMS_151
中采样即可得到可行动作/>
Figure SMS_154
每个Critic包含两个网络架构一样的全连接DNN,即主DNN和目标DNN。每个DNN用于评估/>
Figure SMS_152
和/>
Figure SMS_159
的Q值,即/>
Figure SMS_145
其中θ是DNN的权重。为了区分,使用
Figure SMS_155
和/>
Figure SMS_149
来表示分别Critic 1的主和目标DNN的Q值,权重为θ1和/>
Figure SMS_158
使用/>
Figure SMS_157
和/>
Figure SMS_160
来分别表示Critic 2的主和目标DNN的Q值,权重分别为θ2和/>
Figure SMS_146
为了训练每个Critic的主DNN,需要最小化Bellman残差,其值可通过下式计算
Figure SMS_161
/>
其中
Figure SMS_162
这里,/>
Figure SMS_163
是从/>
Figure SMS_164
重新抽样得来的动作。
Actor的DNN通过最小化KL散度来训练,即最小化
Figure SMS_165
其中
Figure SMS_166
是参数/>
Figure SMS_167
的表达式,εt是输入的高斯噪声向量。
温度参数∈通过最小化如下式子来动态调整
Figure SMS_168
其中,
Figure SMS_169
是目标熵常数。
每个Critic中目标DNN的权重参数通过软拷贝法进行更新,即
Figure SMS_170
本发明的计算卸载比率优化方法具体包括以下步骤:
步骤1、折扣因子λ,软拷贝因子ι,最大时隙数T,最大轮次Γ;
步骤2、随机初始化Actor的神经网络参数
Figure SMS_171
Critic的主神经网络参数θi(i=1,2),将Critic的目标神经网络参数初始化/>
Figure SMS_172
将重放经验池/>
Figure SMS_173
清空,即/>
Figure SMS_174
当前时隙序号为t=1,当前轮次序号为e=1;
步骤3、随机生成一个动作,以获取一个CCHN-MEC环境中的状态
Figure SMS_175
步骤4、根据状态
Figure SMS_176
SAC智能体输出一个计算卸载比率决策动作/>
Figure SMS_177
步骤5、根据卸载比率决策动作
Figure SMS_178
对于每个SU ml,求解问题P1获得其本地的最优CPU频率分配/>
Figure SMS_179
步骤6、根据卸载比率决策动作
Figure SMS_180
对于每个NOMA组/>
Figure SMS_181
通过式(7)获得/>
Figure SMS_182
内每个SU的CPU频率/>
Figure SMS_183
步骤7、根据卸载比率决策动作
Figure SMS_184
对于每个NOMA组/>
Figure SMS_185
通过求解P2获得组/>
Figure SMS_186
内每个SU的发射功率与传输时间/>
Figure SMS_187
步骤8、根据步骤5、6和7,利用式(5)计算***总能耗Etotal(t);
步骤9、根据步骤8,利用式(10)计算当前***的奖励rt,并获得下一个状态的状态
Figure SMS_188
步骤10、将当前时隙的经验
Figure SMS_189
存入重放经验池/>
Figure SMS_190
中;
步骤11、如果在重放经验池
Figure SMS_191
中的经验数大于最小批数据大小/>
Figure SMS_192
则从重放经验池/>
Figure SMS_193
中随机抽取数据/>
Figure SMS_194
进行网络训练,利用式(12)、(13)、(14)、(15)更新网络参数θi(i=1,2),/>
Figure SMS_195
温度系数∈,以及/>
Figure SMS_196
步骤12、t=t+1;如果当前时隙数t>T,则t=1,e=e+1,若e>Γ则进入步骤13;否则,返回步骤3;
步骤13、输出Actor的神经网络最优参数
Figure SMS_197
通过该参数,Actor可以输出每个状态下的最优决策动作。
为了评估本发明性能,进行以下仿真,仿真参数设置为:包含一个中心小区,周围有六个相邻小区,频率重用因子为7。每个小区的半径设置为500m。所考虑的CCHN位于中心小区,并使用六个相邻小区的蜂窝频谱进行数据卸载。在每个相邻小区中,BS位于中心,CU均匀分布。在中心小区中,SU和CR路由器均匀分布。相邻小区的每个CRB随机分配一个活动CU。每个CU的发射功率和速率要求分别设置为23dBm和200knats/s,用于计算每个CR路由器的最大干扰和噪声功率水平以及每个CRB中的最大允许干扰功率。SU和CR路由器的硬件相关计算能量常数κ0和κ1分别设置为10-26和10-28。计算1-nat卸载数据所需的CPU周期数在[100,1500]范围内随机选择。每个SU的能耗权重
Figure SMS_198
和/>
Figure SMS_199
设置为0.5。一个CR路由器连接的最大SU数设置为10。每个SU允许使用的最大CRB数目设置为5。在SAC算法中,Actor和Critic主、目标的DNN由一个输入层、一个输出层和两个隐藏的全连接层组成,两个隐藏层分别有128个和64个神经元。其他参数如表1所示。
参数 参数
CRB数目 5 SU的最大CPU频率 1GHz
每CRB的信道带宽 1MHz CR路由器的最大CPU频率 20GHz
SU的最大发射功率 20dBm 软拷贝系数 0.001
噪声功率谱密度 -174dBm/Hz 折扣因子 0.99
路径损耗系数 4 Actor的学习率 0.0001
信道相关因子 0.6 回放经验池大小 106
每轮的时隙数 100 最大轮数 1000
表1
图1到图3分别对比了所提的SAC算法与TD3算法、LO算法和RA算法在SU数目,每个SU的卸载数据总量以及每个时隙的长度变化下的能耗。在LO算法中,每个SU的整个计算任务都是在本地计算的。在RA算法中,每个CRB中每个SU的计算卸载比率是随机分配的。在每个点中,计算每个算法在30个实验轮次每个轮次包含100个时隙上的平均能耗。每个SU的卸载数据总量和每个时隙的长度分别设置为160knats和500ms。SU个数和每个时隙长度分别设置为16和500ms。SU的数目和卸载数据总量分别为16和160knats。从图1-3,可得到两个观察结果。首先,所有算法的能耗都随着SU数目和每个SU卸载数据总量的增加,或者每个时隙长度的减小而增加。原因是当SU的总计算需求变大,或者延迟约束越为严格时,需要为每个SU分配更大的计算频率,导致能耗增加。其次,与TD3、LO和RA算法相比,SAC算法平均可分别节省56.3%、88.9%和73.2%的能耗。原因SAC算法采用熵正则化来增加动作选择的随机性,使得SAC算法有更大的概率找到最优动作,获得更为合理的卸载决策,从而大幅降低***能耗。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (7)

1.一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,CCHN包含一组SU、一组CR路由器和一个SSP;SSP通过已经建立的公共控制信道集中管理SU和CR路由器;CR路由器配备计算资源并充当MEC服务器;相邻小区的上行蜂窝频谱被划分为一系列蜂窝资源块CRB;CRB的分配已经完成,且每个CR路由器都已经分配一个CRB,用于与其相连的SU的数据卸载;其特征在于:
所述决策优化方法采用SAC算法进行求解,SAC智能体包括一个Actor和两个Critic,Actor是一个含有若干层全连接DNN,记为
Figure QLYQS_4
其中/>
Figure QLYQS_3
表示DNN的权重参数;通过观察输入状态/>
Figure QLYQS_12
Actor输出策略分布的均值/>
Figure QLYQS_5
和标准差/>
Figure QLYQS_16
由于策略分布被拟合成一个高斯分布,因而从/>
Figure QLYQS_7
中采样即可得到可行动作/>
Figure QLYQS_11
每个Critic包含两个网络架构一样的全连接DNN,即主DNN和目标DNN;每个DNN用于评估/>
Figure QLYQS_8
和/>
Figure QLYQS_13
的Q值,即/>
Figure QLYQS_1
其中θ是DNN的权重;使用/>
Figure QLYQS_15
和/>
Figure QLYQS_6
来表示分别Critic1的主DNN和目标DNN的Q值,权重为θ1和/>
Figure QLYQS_10
使用/>
Figure QLYQS_9
和/>
Figure QLYQS_14
来分别表示Critic2的主和目标DNN的Q值,权重分别为θ2和/>
Figure QLYQS_2
所述决策优化方法具体如下:
步骤1、设置折扣因子λ,软拷贝因子ι,最大时隙数T,最大轮次Γ;
步骤2、随机初始化Actor的神经网络参数
Figure QLYQS_17
Critic的主神经网络参数θi(i=1,2),将Critic的目标神经网络参数初始化/>
Figure QLYQS_18
将重放经验池清空,即/>
Figure QLYQS_19
当前时隙序号为t=1,当前轮次序号为e=1;
步骤3、随机生成一个卸载比率动作,以获取一个CCHN-MEC环境中的状态
Figure QLYQS_20
步骤4、根据状态
Figure QLYQS_21
SAC智能体输出一个计算卸载比率决策动作/>
Figure QLYQS_22
步骤5、根据卸载比率决策动作
Figure QLYQS_23
对于每个SUml,求解本地能耗最小化问题,获得其本地的最优CPU频率分配/>
Figure QLYQS_24
步骤6、根据卸载比率决策动作
Figure QLYQS_25
对于每个NOMA组/>
Figure QLYQS_26
获得/>
Figure QLYQS_27
内每个SU的CPU频率
Figure QLYQS_28
步骤7、根据卸载比率决策动作
Figure QLYQS_29
对于每个NOMA组/>
Figure QLYQS_30
求解卸载能耗优化问题,获得组/>
Figure QLYQS_31
内每个SU的发射功率与传输时间/>
Figure QLYQS_32
步骤8、根据步骤5、6和7,计算***总能耗Etotal(t);
步骤9、根据步骤8,计算当前***的奖励rt,并获得下一个状态的状态
Figure QLYQS_33
步骤10、将当前时隙的经验
Figure QLYQS_34
存入重放经验池/>
Figure QLYQS_35
中;
步骤11、如果在重放经验池
Figure QLYQS_36
中的经验数大于最小批数据大小/>
Figure QLYQS_37
则从重放经验池/>
Figure QLYQS_38
中随机抽取数据/>
Figure QLYQS_39
进行网络训练,以更新网络参数θi(i=1,2),/>
Figure QLYQS_40
以及温度系数∈;
步骤12、t=t+1;如果当前时隙数t>T,则t=1,e=e+1,若e>Γ则进入步骤13;否则,返回步骤3;
步骤13、输出Actor的神经网络最优参数
Figure QLYQS_41
通过该参数/>
Figure QLYQS_42
Actor可以输出每个状态下的最优决策动作。
2.根据权利要求1所述的一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其特征在于:所述步骤5中,本地能耗最小化问题为:
Figure QLYQS_43
其中,
Figure QLYQS_44
表示SU的最大CPU频率;约束C1表示本地的计算时间不能超过一个时隙长度,约束C2表示SU的本地计算CPU频率不能超过最大的CPU频率。
3.根据权利要求1所述的一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其特征在于:所述步骤6中,通过以下公式(7)获得
Figure QLYQS_45
内每个SU的CPU频率
Figure QLYQS_46
Figure QLYQS_47
4.根据权利要求1所述的一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其特征在于:所述步骤7中,卸载能耗优化问题为:
Figure QLYQS_48
其中,
Figure QLYQS_49
Figure QLYQS_50
表示在时隙t中从发送器u1到接收器u2的信道增益,/>
Figure QLYQS_51
表示在时隙t中从发送器ml到接收器hk的归一化信道增益,Pk INT(t)表示在时隙t中CR路由器hk处的最大干扰和噪声功率水平,/>
Figure QLYQS_52
表示CR路由器hk的最大CPU频率,/>
Figure QLYQS_53
表示SUml在时隙t中加入的NOMA组的总数,/>
Figure QLYQS_54
表示SUml的最大发射功率,/>
Figure QLYQS_55
表示与CRBck关联的第q个BS处的最大容忍干扰,Nk表示与CRBck关联的所有BS的个数;
约束C1表示NOMA组的传输时间不能超过每个时隙长度,约束C2表示分配给NOMA组内的SU的计算CPU频率不能超过CR路由器的最大CPU频率,约束C3表示每个SU卸载数据的速率要求,约束C4表示每个SU的发射功率的限制,约束C5表示NOMA组内的SU的干扰功率不能超过各个BS的最大容忍干扰值。
5.根据权利要求1所述的一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其特征在于:所述步骤8中***总能耗Etotal(t)为:
Figure QLYQS_56
其中,
Figure QLYQS_57
表示SUml的能耗权重,/>
Figure QLYQS_58
表示CR路由器为计算SUml的任务所消耗的能量权重,/>
Figure QLYQS_59
表示SUml本地的能耗,κ0表示SU的计算能耗因子,βl,k(t)表示在时隙tSUml卸载到CR路由器ck的任务卸载比率,wl(t)表示在时隙tSUml计算1-nat任务数据所需要的CPU周期数,Rl(t)表示在时隙tSUml总的任务数据量,fl loc(t)表示在时隙tSUml本地的CPU频率;/>
Figure QLYQS_60
表示SUml卸载到CR路由器ck时的能耗,pl,k(t)表示在时隙tSUml卸载到CR路由器ck时的发射功率,dk(t)表示在时隙t卸载到CR路由器hk的SU的NOMA传输时间,/>
Figure QLYQS_61
表示SUml卸载到CR路由器ck时到CR路由器ck的计算能耗,κ1表示CR路由器的计算能耗因子,fl,k(t)在时隙tSUml卸载到CR路由器hk时CR路由器hk分配的CPU频率。
6.根据权利要求1所述的一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其特征在于:所述步骤9中,利用公式(10)计算当前***的奖励rt
Figure QLYQS_62
其中,其中
Figure QLYQS_66
和/>
Figure QLYQS_68
分别表示是否违反时隙t中的约束(1)(2)(4)以及是否存在问题P1和P2在时隙t有解;若满足约束(1),则/>
Figure QLYQS_74
否则,/>
Figure QLYQS_65
若满足约束(2),则有/>
Figure QLYQS_67
否则/>
Figure QLYQS_70
若满足约束(4),则/>
Figure QLYQS_72
否则,/>
Figure QLYQS_63
如果问题P1有解,则/>
Figure QLYQS_69
否则,/>
Figure QLYQS_71
如果问题P1有解,则/>
Figure QLYQS_73
否则,/>
Figure QLYQS_64
如果在时隙t中问题P1/P2无解,则Etotal(t)设置为+∞。
7.根据权利要求1所述的一种动态广义用户NOMA分组CCHN-MEC网络卸载决策优化方法,其特征在于:所述步骤11中,依据公式(12)-(15)更新网络参数θi(i=1,2),
Figure QLYQS_75
以及温度系数∈:
最小化Bellman残差值通过下式计算:
Figure QLYQS_76
其中,
Figure QLYQS_77
这里,/>
Figure QLYQS_78
是从
Figure QLYQS_79
重新抽样得来的动作;
Actor的DNN通过最小化KL散度来训练,即最小化
Figure QLYQS_80
其中
Figure QLYQS_81
是参数/>
Figure QLYQS_82
的表达式,εt是输入的高斯噪声向量;
温度参数∈通过最小化如下式子来动态调整
Figure QLYQS_83
其中
Figure QLYQS_84
是目标熵常数;
每个Critic中目标DNN的权重参数通过软拷贝法进行更新,即
Figure QLYQS_85
/>
CN202211440680.XA 2022-11-17 2022-11-17 一种动态广义用户noma分组cchn-mec网络卸载决策优化方法 Pending CN116193546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211440680.XA CN116193546A (zh) 2022-11-17 2022-11-17 一种动态广义用户noma分组cchn-mec网络卸载决策优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211440680.XA CN116193546A (zh) 2022-11-17 2022-11-17 一种动态广义用户noma分组cchn-mec网络卸载决策优化方法

Publications (1)

Publication Number Publication Date
CN116193546A true CN116193546A (zh) 2023-05-30

Family

ID=86431465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211440680.XA Pending CN116193546A (zh) 2022-11-17 2022-11-17 一种动态广义用户noma分组cchn-mec网络卸载决策优化方法

Country Status (1)

Country Link
CN (1) CN116193546A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117729571A (zh) * 2024-02-08 2024-03-19 厦门大学 一种动态mec网络中迁移决策与资源分配的联合优化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117729571A (zh) * 2024-02-08 2024-03-19 厦门大学 一种动态mec网络中迁移决策与资源分配的联合优化方法
CN117729571B (zh) * 2024-02-08 2024-05-31 厦门大学 一种动态mec网络中迁移决策与资源分配的联合优化方法

Similar Documents

Publication Publication Date Title
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN111726826A (zh) 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111093203A (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN110856259A (zh) 移动边缘计算环境中自适应数据块大小的资源分配和卸载方法
CN113590279B (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN116634500A (zh) 基于超图匹配计算与通信容量增强的d2d计算卸载方法
CN116193546A (zh) 一种动态广义用户noma分组cchn-mec网络卸载决策优化方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
Gan et al. Trajectory optimization and computing offloading strategy in UAV-assisted MEC system
CN115696452A (zh) 云边协同计算中的卸载决策与资源配置联合优化的博弈方法
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
He et al. Computation offloading and resource allocation based on DT-MEC-assisted federated learning framework
CN114599115A (zh) 一种无人机自组织网络信道接入方法
Azoulay et al. Transmission power control using deep neural networks in TDMA-based ad-hoc network clusters
Al-Kashoash et al. Energy and RSSI based fuzzy inference system for cluster head selection in wireless sensor networks
Li et al. Game theory based joint task offloading and resource allocation algorithm for mobile edge computing
Kim Heterogeneous Network Spectrum Allocation Scheme for Network‐Assisted D2D Communications
CN115811788A (zh) 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
Moussa et al. Access point association in uplink two-hop cellular IoT networks with data aggregators
Zhang et al. Deep Learning Based Resource Allocation for Full-duplex Device-to-Device Communication
Zhang et al. A convolutional neural network based resource management algorithm for NOMA enhanced D2D and cellular hybrid networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination