发明内容
有鉴于此,本发明的目的在于提供一种基于MADDPG算法的低轨卫星物联网任务卸载方法。
为达到上述目的,本发明提供如下技术方案:
基于MADDPG算法的低轨卫星物联网任务卸载方法,该方法包括以下步骤:
S1:建模***模型;
S2:建模物联网设备任务模型;
S3:建模任务卸载模型;
S4:建模任务队列模型;
S5:建模任务成本模型;
S6:建模***效用模型;
S7:建模***效用优化限制条件;
S8:建模马尔可夫决策过程;
S9:基于MADDPG算法确定任务卸载及功率分配策略。
可选的,所述S1中,建立***模型具体为:网络中有M个卫星,定义S
m表示第m个卫星,S
m部署有移动边缘计算MEC服务器,服务器缓存区大小为
计算能力为
网络中有N个物联网设备,定义D
n表示第n个物联网设备,设备的任务缓存区大小为
计算能力为
D
n采用正交频分多址模式将任务卸载至卫星的MEC服务器,令B
m表示S
m的可用带宽,关联S
m的物联网设备可获得的带宽为
其中K表示单个卫星所能关联的最大用户数量;***时间划分为T个时隙,每个时隙长度为τ。
可选的,所述S2中,建立物联网设备任务模型具体为:每个时隙D
n至多产生一个计算任务;令o
n,j表示D
n在时隙j产生的任务,建模o
n,j为
其中w
n,j表示任务权值,I
n,j表示o
n,j所携带的数据量大小,数据量I
n,j与完成任务所需的计算资源量θ
n,j之间的关系满足θ
n,j=ξI
n,j,其中ξ为常数;
表示任务最大容忍时延。
可选的,所述S3中,建模任务卸载模型具体为:定义任务卸载变量xn,m,i,j∈{0,1},若Dn在时隙i将时隙j到达的任务卸载到Sm,则xn,m,i,j=1,否则xn,m,i,j=0,1≤m≤M;令xn,0,i,j表示任务本地执行变量,xn,0,i,j=1表示Dn在时隙i本地执行时隙j到达的任务,否则xn,0,i,j=0;定义任务拆分变量ηn,m,i,j∈[0,1]表示Dn在时隙i将时隙j到达的任务卸载至Sm时,所卸载任务量占原数据量的比例,1≤m≤M;令ηn,0,i,j∈[0,1]表示Dn在时隙i本地执行时隙j到达任务的数据量比例。
可选的,所述S4中,建模任务队列模型具体为:物联网设备和卫星均设置任务缓冲队列,物联网设备将各时隙到达的任务缓存在任务队列中,在相应的任务调度时隙将任务传输至卫星执行或进行本地执行;定义
表示D
n在时隙i的任务队列长度,队列更新公式建模为:
定义
表示S
m在时隙i的任务队列长度,队列更新公式建模为:
其中,yn,m,i,j∈{0,1}为星上任务执行变量,若yn,m,i,j=1表示Sm在时隙i开始执行时隙j到达的Dn的任务,否则yn,m,i,j=0。
可选的,所述S5中,建模任务执行成本模型具体为:Cn,j表示执行任务on,j对应的任务成本函数,建模为:
Cn,j=αTn,j+βEn,j,
其中α,β是常数,T
n,j及E
n,j分别表示执行任务o
n,j所需时延及能耗,建模T
n,j为
其中
表示任务o
n,j在本地执行前的排队时延,
表示任务o
n,j本地执行时延,表示为:
表示任务o
n,j卸载至卫星执行前的本地排队时延,
表示D
n将任务o
n,j卸载至卫星所需总时延,包括任务传输、星上排队及执行时延,具体为:
其中
表示D
n将任务o
n,j卸载至S
m所需传输时延,建模为:
其中Rn,m,i,j表示时隙i,Dn与Sm之间的星地链路传输速率,建模为:
其中σ
2是噪声功率,
是D
n的最大传输功率,z
n,m,i,j∈[0,1]表示D
n在时隙i传输任务o
n,j至S
m时的功率分配比例,h
n,m,i是时隙i,D
n与S
m之间信道增益,表示为
其中
和
分别是D
n的发射天线增益和S
m的接收天线增益,L
pt表示星地链路的雨衰,L
n,m,i表示D
n在时隙i传输任务至S
m的链路自由空间损耗,表示为:
其中c表示光速,d
n,m,i表示D
n在时隙i与S
m之间的距离;f
0表示载波频率;
表示任务o
n,j在S
m缓存队列中的排队时延;
表示S
m在时隙i开始执行任务o
n,j所需执行时延,表示为:
E
n,j建模为
其中
表示本地执行任务o
n,j的能耗,表示为:
其中
表示D
n的能耗系数;
表示D
n传输任务o
n,j至卫星所需传输能耗,表示为:
可选的,所述S6中,建模***效用模型具体为:
其中Un,j表示***执行任务on,j获得的效用,建模为:
Un,j=δn,j(wn,j-γCn,j)
其中γ为权值,δ
n,j表示任务收益变量,若
则δ
n,j=1,否则,δ
n,j=0,也即:
可选的,所述S7中,建模***效用优化限制条件具体为:
建模任务卸载变量约束条件为:
若x
n,m,i,j=1,满足1≤m≤M,则
其中
为任务o
n,j传输速率阈值;若x
n,0,i,j=1,则:
建模任务拆分变量约束条件为:0≤η
n,m,i,j≤1;若
则
当m>0时,
当m=0时,
建模功率分配变量约束条件为:0≤zn,m,i,j≤1;
可选的,所述S8中,建模马尔可夫决策过程具体为:将优化问题转化为马尔可夫决策过程,该过程包含状态空间、动作空间以及奖励三部分,具体如下:
建模D
n在时隙i的状态空间
其中
表示D
n在时隙i任务队列长度,h
n,i={h
n,1,i,h
n,2,i,…,h
n,M,i}为D
n与卫星之间的信道增益集合,
为队列中的任务需求集合,
为卫星的任务队列长度,则***在时隙i联合状态空间表示为
建模D
n在时隙i的动作空间
其中x
n,i={x
n,0,i,…,x
n,M,i}表示D
n任务卸载策略集合,x
n,m,i={x
n,m,i,1,…x
n,m,i,i};y
n,i={y
n,1,i…y
n,M,i}表示卫星执行D
n的任务调度策略的集合,y
n,m,i={y
n,m,i,1…y
n,m,i,i};z
n,i={z
n,1,i,…,z
n,M,i}表示传输功率分配策略集合,z
n,m,i={z
n,m,i,1…z
n,m,i,i};η
n,i={η
n,0,i…η
n,M,i}表示任务拆分策略集合,η
n,m,i={η
n,m,i,1…η
n,m,i,i};***在时隙i联合动作空间表示为
可选的,所述S9中,采用MADDPG算法确定任务卸载策略和功率分配策略具体为:将N个物联网设备视为N个智能体,每个智能体包括四个神经网络,分别为演员网络、评论家网络、目标演员网络、目标评论家网络;对于D
n,D
n的演员网络表示为
其中,θ
n是D
n的演员网络的参数;D
n的评论家网络表示为
其中
为所有物联网设备的联合状态观测值集合,ω
n为评论家网络的参数;D
n的目标演员网络表示为
θ′
n为目标演员网络的参数;D
n的目标评论家网络表示为
ω′
n为目标评论家网络的参数;D
n从初始状态到终止状态的期望回报写为:
其中,p
μ是状态的分布,γ∈[0,1]是折扣因子;建模策略梯度计算公式用于演员网络的更新,对θ
n求梯度,得到:
其中,
表示经验回放池,将转移样本
存放在其中,在更新演员网络参数时进行采样更新;
表示所有物联网设备在状态
采取动作A到达的新状态
的观测值集合;建模损失函数用于评论家网络的更新:
其中,yn是目标网络的估计值,表示如下:
在每个回合,Dn的目标演员网络参数θ′n更新公式为:θ′n←εθn+(1-ε)θ′n;Dn的目标评论家网络参数ω′n更新公式为:ω′n←εωn+(1-ε)ω′n;给定***初始状态,运行MADDPG算法,迭代更新演员网络和评论家网络参数,直至算法收敛,训练完成的演员网络可确定低轨卫星物联网任务卸载及功率分配策略。
本发明的有益效果在于:本发明综合考虑地面物联网设备任务的特性、地面物联网设备与低轨卫星的关联选择及任务调度及卸载的资源限制,同时引入深度强化学习中的MADDPG算法确定最优任务卸载及功率分配策略,有效实现了卫星***的效用最大化,提升了***的性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
基于MADDPG算法的低轨卫星物联网任务卸载方法,该方法包括以下步骤:
S1:建模***模型;
S2:建模物联网设备任务模型;
S3:建模任务卸载模型;
S4:建模任务队列模型;
S5:建模任务成本模型;
S6:建模***效用模型;
S7:建模***效用优化限制条件;
S8:建模马尔可夫决策过程;
S9:基于MADDPG算法确定任务卸载及功率分配策略。
可选的,所述S1中,建立***模型具体为:网络中有M个卫星,定义S
m表示第m个卫星,S
m部署有移动边缘计算MEC服务器,服务器缓存区大小为
计算能力为
网络中有N个物联网设备,定义D
n表示第n个物联网设备,设备的任务缓存区大小为
计算能力为
D
n采用正交频分多址模式将任务卸载至卫星的MEC服务器,令B
m表示S
m的可用带宽,关联S
m的物联网设备可获得的带宽为
其中K表示单个卫星所能关联的最大用户数量;***时间划分为T个时隙,每个时隙长度为τ。
可选的,所述S2中,建立物联网设备任务模型具体为:每个时隙D
n至多产生一个计算任务;令o
n,j表示D
n在时隙j产生的任务,建模o
n,j为
其中w
n,j表示任务权值,I
n,j表示o
n,j所携带的数据量大小,数据量I
n,j与完成任务所需的计算资源量θ
n,j之间的关系满足θ
n,j=ξI
n,j,其中ξ为常数;
表示任务最大容忍时延。
可选的,所述S3中,建模任务卸载模型具体为:定义任务卸载变量xn,m,i,j∈{0,1},若Dn在时隙i将时隙j到达的任务卸载到Sm,则xn,m,i,j=1,否则xn,m,i,j=0,1≤m≤M;令xn,0,i,j表示任务本地执行变量,xn,0,i,j=1表示Dn在时隙i本地执行时隙j到达的任务,否则xn,0,i,j=0;定义任务拆分变量ηn,m,i,j∈[0,1]表示Dn在时隙i将时隙j到达的任务卸载至Sm时,所卸载任务量占原数据量的比例,1≤m≤M;令ηn,0,i,j∈[0,1]表示Dn在时隙i本地执行时隙j到达任务的数据量比例。
可选的,所述S4中,建模任务队列模型具体为:物联网设备和卫星均设置任务缓冲队列,物联网设备将各时隙到达的任务缓存在任务队列中,在相应的任务调度时隙将任务传输至卫星执行或进行本地执行;定义
表示D
n在时隙i的任务队列长度,队列更新公式建模为:
定义
表示S
m在时隙i的任务队列长度,队列更新公式建模为:
其中,yn,m,i,j∈{0,1}为星上任务执行变量,若yn,m,i,j=1表示Sm在时隙i开始执行时隙j到达的Dn的任务,否则yn,m,i,j=0。
可选的,所述S5中,建模任务执行成本模型具体为:Cn,j表示执行任务on,j对应的任务成本函数,建模为:
Cn,j=αTn,j+βEn,j,
其中α,β是常数,T
n,j及E
n,j分别表示执行任务o
n,j所需时延及能耗,建模T
n,j为
其中
表示任务o
n,j在本地执行前的排队时延,
表示任务o
n,j本地执行时延,表示为:
表示任务o
n,j卸载至卫星执行前的本地排队时延,
表示D
n将任务o
n,j卸载至卫星所需总时延,包括任务传输、星上排队及执行时延,具体为:
其中
表示D
n将任务o
n,j卸载至S
m所需传输时延,建模为:
其中Rn,m,i,j表示时隙i,Dn与Sm之间的星地链路传输速率,建模为:
其中σ
2是噪声功率,
是D
n的最大传输功率,z
n,m,i,j∈[0,1]表示D
n在时隙i传输任务o
n,j至S
m时的功率分配比例,h
n,m,i是时隙i,D
n与S
m之间信道增益,表示为
其中
和
分别是D
n的发射天线增益和S
m的接收天线增益,L
pt表示星地链路的雨衰,L
n,m,i表示D
n在时隙i传输任务至S
m的链路自由空间损耗,表示为:
其中c表示光速,d
n,m,i表示D
n在时隙i与S
m之间的距离;f
0表示载波频率;
表示任务o
n,j在S
m缓存队列中的排队时延;
表示S
m在时隙i开始执行任务o
n,j所需执行时延,表示为:
E
n,j建模为
其中
表示本地执行任务o
n,j的能耗,表示为:
其中
表示D
n的能耗系数;
表示D
n传输任务o
n,j至卫星所需传输能耗,表示为:
可选的,所述S6中,建模***效用模型具体为:
其中Un,j表示***执行任务on,j获得的效用,建模为:
Un,j=δn,j(wn,j-γCn,j)
其中γ为权值,δ
n,j表示任务收益变量,若
则δ
n,j=1,否则,δ
n,j=0,也即:
可选的,所述S7中,建模***效用优化限制条件具体为:
建模任务卸载变量约束条件为:
若x
n,m,i,j=1,满足1≤m≤M,则
其中
为任务o
n,j传输速率阈值;若x
n,0,i,j=1,则:
建模任务拆分变量约束条件为:0≤η
n,m,i,j≤1;若
则
当m>0时,
当m=0时,
建模功率分配变量约束条件为:0≤zn,m,i,j≤1;
可选的,所述S8中,建模马尔可夫决策过程具体为:将优化问题转化为马尔可夫决策过程,该过程包含状态空间、动作空间以及奖励三部分,具体如下:
建模D
n在时隙i的状态空间
其中
表示D
n在时隙i任务队列长度,h
n,i={h
n,1,i,h
n,2,i,…,h
n,M,i}为D
n与卫星之间的信道增益集合,
为队列中的任务需求集合,
为卫星的任务队列长度,则***在时隙i联合状态空间表示为
建模D
n在时隙i的动作空间
其中x
n,i={x
n,0,i,…,x
n,M,i}表示D
n任务卸载策略集合,x
n,m,i={x
n,m,i,1,…x
n,m,i,i};y
n,i={y
n,1,i…y
n,M,i}表示卫星执行D
n的任务调度策略的集合,y
n,m,i={y
n,m,i,1…y
n,m,i,i};z
n,i={z
n,1,i,…,z
n,M,i}表示传输功率分配策略集合,z
n,m,i={z
n,m,i,1…z
n,m,i,i};η
n,i={η
n,0,i…η
n,M,i}表示任务拆分策略集合,η
n,m,i={η
n,m,i,1…η
n,m,i,i};***在时隙i联合动作空间表示为
可选的,所述S9中,采用MADDPG算法确定任务卸载策略和功率分配策略具体为:将N个物联网设备视为N个智能体,每个智能体包括四个神经网络,分别为演员网络、评论家网络、目标演员网络、目标评论家网络;对于D
n,D
n的演员网络表示为
其中,θ
n是D
n的演员网络的参数;D
n的评论家网络表示为
其中
为所有物联网设备的联合状态观测值集合,ω
n为评论家网络的参数;D
n的目标演员网络表示为
θ′
n为目标演员网络的参数;D
n的目标评论家网络表示为
ω′
n为目标评论家网络的参数;D
n从初始状态到终止状态的期望回报写为:
其中,p
μ是状态的分布,γ∈[0,1]是折扣因子;建模策略梯度计算公式用于演员网络的更新,对θ
n求梯度,得到:
其中,
表示经验回放池,将转移样本
存放在其中,在更新演员网络参数时进行采样更新;
表示所有物联网设备在状态
采取动作
到达的新状态
的观测值集合;建模损失函数用于评论家网络的更新:
其中,yn是目标网络的估计值,表示如下:
在每个回合,Dn的目标演员网络参数θ′n更新公式为:θ′n←εθn+(1-ε)θ′n;Dn的目标评论家网络参数ω′n更新公式为:ω′n←εωn+(1-ε)ω′n;给定***初始状态,运行MADDPG算法,迭代更新演员网络和评论家网络参数,直至算法收敛,训练完成的演员网络可确定低轨卫星物联网任务卸载及功率分配策略。
图1为低轨卫星物联网任务卸载场景示意图,本发明提供了一种基于MADDPG算法的低轨卫星物联网任务卸载方法。由多个地面物联网设备和多颗低轨卫星组成的通信***,考虑地面物联网设备的任务特性、设备及卫星可用计算资源对任务传输和处理性能的影响。在本发明中,地面物联网设备能够关联不同的低轨卫星,将任务卸载至卫星,降低***执行任务的成本,从而提高***效用。
图2为本发明基于MADDPG算法的低轨卫星物联网任务卸载方法流程图,具体包括以下步骤:
1、建模***模型;
2、建模物联网设备任务模型;
3、建模任务卸载模型;
4、建模任务队列模型;
5、建模任务成本模型;
6、建模***效用模型;
7、建模***效用优化限制条件;
8、建模马尔可夫决策过程;
9、基于MADDPG算法确定任务卸载及功率分配策略;
图3为本发明MADDPG算法示意图,在MADDPG算法中采样和执行是分别进行的,而对智能体的训练学习是统一进行的。本发明中将多个地面物联网设备视为多个智能体,首先每个设备收集转移样本存入经验回放池中;然后每个设备的演员网络根据当前的状态动作对分别更新演员网络参数,每个设备的评论家网络考虑所有演员网络生成的数据,分别更新评论家网络参数;重复上述步骤直至算法收敛。训练完成的演员网络可确定低轨卫星物联网任务卸载及功率分配策略。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。