CN108712755B - 基于深度强化学习的非正交接入上行传输时间优化方法 - Google Patents

基于深度强化学习的非正交接入上行传输时间优化方法 Download PDF

Info

Publication number
CN108712755B
CN108712755B CN201810477062.XA CN201810477062A CN108712755B CN 108712755 B CN108712755 B CN 108712755B CN 201810477062 A CN201810477062 A CN 201810477062A CN 108712755 B CN108712755 B CN 108712755B
Authority
CN
China
Prior art keywords
uplink transmission
transmission time
mobile user
reinforcement learning
orrcm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810477062.XA
Other languages
English (en)
Other versions
CN108712755A (zh
Inventor
吴远
倪克杰
张�成
冯旭
陈佳
钱丽萍
黄亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810477062.XA priority Critical patent/CN108712755B/zh
Publication of CN108712755A publication Critical patent/CN108712755A/zh
Application granted granted Critical
Publication of CN108712755B publication Critical patent/CN108712755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于深度强化学习的非正交接入上行传输时间优化方法,包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,提出了一种满足移动用户的服务质量同时,在移动用户的上传量
Figure RE-DDA0001722031840000011
给定的情况下最小化移动用户的上行传输时间和所有用户总能量消耗;(2)ORRCM问题是在给定移动用户上传量
Figure RE-DDA0001722031840000012
的情况下找到最优的整体无线资源消耗,观察ORRCM问题知道它的目标函数只有一个变量t;(3)通过强化学习算法来找到一个最优的上行传输时间t*,使得有最优的整体无线资源消耗;(4)不断重复迭代过程直到得到最优的上行传输时间t*,使得有最优的整体无线资源消耗。

Description

基于深度强化学习的非正交接入上行传输时间优化方法
技术领域
本发明属于通信领域,一种基于深度强化学习的非正交接入上行传输时间优化方法。
背景技术
移动互联网业务的快速发展,对蜂窝无线接入网造成了巨大的流量压力。由于有限的无线资源,利用非正交接入技术使移动用户同时共用同一信道为无线接入提供一种有效的方法,实现在未来的5G网中超高吞吐量和大规模连接的目标。
发明内容
为了克服现有技术的上行传输时间较长、所有移动用户总能量消耗较大的不足,本发明提供一种最小化上行传输时间与所有移动用户总能量消耗的基于深度强化学习的非正交接入上行传输时间优化方法,本发明针对上行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度强化学习的非正交接入上行传输时间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度强化学习的非正交接入上行传输时间优化方法,包括以下步骤:
(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合
Figure BDA0001664747850000011
表示,移动用户使用非正交接入技术同时向基站发送数据,其中移动用户i需要发送的数据量用
Figure BDA0001664747850000012
表示;
在保证发送完成所有移动用户数据量的条件下,最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题 ORRCM(Overall Radio ResourceConsumption Minimization)问题, ORRCM指的是整体无线资源消耗最小化:
ORRCM:
Figure BDA0001664747850000021
Figure BDA0001664747850000022
Figure BDA0001664747850000023
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
t:移动用户发送数据到基站的上行传输时间,单位是秒;
Figure BDA0001664747850000024
是关于t的函数,表示移动用户i为了在给定上行传输时间t 内完成发送数据量
Figure BDA0001664747850000025
所需要的最小发射功率,单位是瓦特;
W:移动用户到基站的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giB:移动用户i到基站的信道功率增益;
Figure BDA0001664747850000026
移动用户i需要发送到基站的数据量,单位是兆比特;
Figure BDA0001664747850000027
移动用户i最大上传能量消耗,单位是焦耳;
Tmax:移动用户发送数据到基站的最大上行传输时间,单位是秒;
(2)ORRCM问题表示如下:
ORRCM:
Figure BDA0001664747850000028
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
ORRCM问题是在给定移动用户上传量
Figure BDA0001664747850000031
的情况下找到最优的整体无线资源消耗(上行传输时间和所有移动用户总能量消耗),观察ORRCM问题知道它的目标函数只有一个变量t;
(3)通过强化学习算法来寻找一个最优的上行传输时间记为t*,该强化学习***由智能体和环境所组成;所有移动用户的上行传输时间 t和每个移动用户的最小发射功率
Figure BDA0001664747850000032
都被编进了***当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间t 将不断被优化直到找到整体无线资源消耗(即上行传输时间与所有用户总能量消耗)的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,***所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率
Figure BDA0001664747850000033
作为深度强化学习的***状态xT,动作a则是对***状态xT的更改,如果改后的***的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时***进入下一状态xT+1
强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前***状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率 p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标
y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令 k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,使得有最优的整体无线资源消耗(包括上行传输时间与所有移动用户总能量消耗)。
本发明的技术构思为:首先,考虑在蜂窝无线网络中,移动用户通过非正交接入技术传输数据实现最小化上行传输时间与所有移动用户总能量消耗来获得一定的经济效益和服务质量。在此处,考虑的前提是移动用户的上传能量消耗及上行传输时间的限制。在保证发送完成所有移动用户数据量的条件下,实现最小化整体无线资源消耗。
本发明的有益效果主要表现在:1、对于上行整体而言,利用非正交接入技术大大提高了***传输效率;2、对于移动用户而言,通过非正交接入技术获得更优质的无线网络体验质量;3、通过深度强化学习得到最优的上行传输时间t*,使得有最优的整体无线资源消耗 (包括上行传输时间与所有移动用户总能量消耗)。
附图说明
图1是无线网络中多个移动用户和基站的上行场景示意图。
图2是找到最优的上行传输时间t*的方法流程图。
具体实施方式
下面结合附图对于本发明作进一步详细描述。
参照图1和图2,一种基于深度强化学习的非正交接入上行传输时间优化方法,实行该方法能在同时保证发送完成所有移动用户数据量的条件下,使得上行传输时间与所有移动用户总能量消耗最小化,提高整个***的无线网络体验质量。本发明可以应用于无线网络,如图1所示场景中。针对该目标设计对问题的优化方法主要包括如下步骤:
(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合
Figure BDA0001664747850000051
表示,移动用户使用非正交接入技术同时向基站发送数据,其中移动用户i需要发送的数据量用
Figure BDA0001664747850000052
表示;
在保证发送完成所有移动用户数据量的条件下,最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题 ORRCM(Overall Radio ResourceConsumption Minimization)问题, ORRCM指的是整体无线资源消耗最小化:
ORRCM:
Figure BDA0001664747850000061
Figure BDA0001664747850000062
Figure BDA0001664747850000063
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
t:移动用户发送数据到基站的上行传输时间,单位是秒;
Figure BDA0001664747850000064
是关于t的函数,表示移动用户i为了在给定上行传输时间t 内完成发送数据量
Figure BDA0001664747850000065
所需要的最小发射功率,单位是瓦特;
W:移动用户到基站的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giB:移动用户i到基站的信道功率增益;
Figure BDA0001664747850000066
移动用户i需要发送到基站的数据量,单位是兆比特;
Figure BDA0001664747850000067
移动用户i最大上传能量消耗,单位是焦耳;
Tmax:移动用户发送数据到基站的最大上行传输时间,单位是秒;
(2)ORRCM问题表示如下:
ORRCM:
Figure BDA0001664747850000068
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
ORRCM问题是在给定移动用户上传量
Figure BDA0001664747850000071
的情况下找到最优的整体无线资源消耗(上行传输时间和所有移动用户总能量消耗),可以观察ORRCM问题知道它的目标函数只有一个变量t;
(3)通过强化学习算法来寻找一个最优的上行传输时间记为t*,该强化学习***由智能体和环境所组成;所有移动用户的上行传输时间 t和每个移动用户的最小发射功率
Figure BDA0001664747850000072
都被编进了***当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间t 将不断被优化直到找到整体无线资源消耗(即上行传输时间与所有用户总能量消耗)的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,***所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率
Figure BDA0001664747850000073
作为深度强化学习的***状态xT,动作a则是对***状态xT的更改,如果改后的***的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时***进入下一状态xT+1
强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前***状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率 p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标
y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令 k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,使得有最优的整体无线资源消耗(包括上行传输时间与所有移动用户总能量消耗)。

Claims (1)

1.一种基于深度强化学习的非正交接入上行传输时间优化方法,其特征在于,所述方法包括以下步骤:
(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合
Figure FDA0002822996960000011
表示,移动用户使用非正交接入技术同时向基站发送数据,其中移动用户i需要发送的数据量用
Figure FDA0002822996960000012
表示;
在保证发送完成所有移动用户数据量的条件下,最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题ORRCM问题,ORRCM指的是整体无线资源消耗最小化:
Figure FDA0002822996960000013
Figure FDA0002822996960000014
Figure FDA0002822996960000015
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
t:移动用户发送数据到基站的上行传输时间,单位是秒;
Figure FDA0002822996960000016
是关于t的函数,表示移动用户i为了在给定上行传输时间t内完成发送数据量
Figure FDA0002822996960000017
所需要的最小发射功率,单位是瓦特;
W:移动用户到基站的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giB:移动用户i到基站的信道功率增益;
Figure FDA0002822996960000018
移动用户i需要发送到基站的数据量,单位是兆比特;
Figure FDA0002822996960000021
移动用户i最大上传能量消耗,单位是焦耳;
Tmax:移动用户发送数据到基站的最大上行传输时间,单位是秒;
(2)ORRCM问题表示如下:
Figure FDA0002822996960000022
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
ORRCM问题是在给定移动用户上传量
Figure FDA0002822996960000023
的情况下找到最优的整体无线资源消耗,观察ORRCM问题知道它的目标函数只有一个变量t;
(3)通过强化学习算法来寻找一个最优的上行传输时间记为t*,该强化学习***由智能体和环境所组成;所有移动用户的上行传输时间t和每个移动用户的最小发射功率
Figure FDA0002822996960000024
都被编进了***当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间t将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,***所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率
Figure FDA0002822996960000031
作为深度强化学习的***状态xT,动作a则是对***状态xT的更改,如果改后的***的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时***进入下一状态xT+1
强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前***状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,使得有最优的整体无线资源消耗。
CN201810477062.XA 2018-05-18 2018-05-18 基于深度强化学习的非正交接入上行传输时间优化方法 Active CN108712755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810477062.XA CN108712755B (zh) 2018-05-18 2018-05-18 基于深度强化学习的非正交接入上行传输时间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810477062.XA CN108712755B (zh) 2018-05-18 2018-05-18 基于深度强化学习的非正交接入上行传输时间优化方法

Publications (2)

Publication Number Publication Date
CN108712755A CN108712755A (zh) 2018-10-26
CN108712755B true CN108712755B (zh) 2021-02-26

Family

ID=63869299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810477062.XA Active CN108712755B (zh) 2018-05-18 2018-05-18 基于深度强化学习的非正交接入上行传输时间优化方法

Country Status (1)

Country Link
CN (1) CN108712755B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109561504B (zh) * 2018-11-20 2020-09-01 北京邮电大学 一种基于深度强化学习的URLLC和eMBB的资源复用方法
CN109413623B (zh) * 2018-12-25 2022-02-08 中国人民解放军军事科学院国防科技创新研究院 一种能量匮乏终端与流量匮乏终端间的协作计算迁移方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208140A1 (ja) * 2013-06-28 2014-12-31 株式会社Nttドコモ 無線基地局、ユーザ端末及び無線通信方法
CN105722016A (zh) * 2016-02-05 2016-06-29 中国矿业大学 分层m2m网络中网关和终端发射功率的协同控制方法
CN107708135A (zh) * 2017-07-21 2018-02-16 上海交通大学 一种适用于移动边缘计算场景的资源分配方法
CN107819840A (zh) * 2017-10-31 2018-03-20 北京邮电大学 超密集网络架构中分布式移动边缘计算卸载方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102372190B1 (ko) * 2015-12-18 2022-03-08 삼성전자주식회사 무선 통신 시스템에서 스트리밍 데이터 전달을 위한 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208140A1 (ja) * 2013-06-28 2014-12-31 株式会社Nttドコモ 無線基地局、ユーザ端末及び無線通信方法
CN105722016A (zh) * 2016-02-05 2016-06-29 中国矿业大学 分层m2m网络中网关和终端发射功率的协同控制方法
CN107708135A (zh) * 2017-07-21 2018-02-16 上海交通大学 一种适用于移动边缘计算场景的资源分配方法
CN107819840A (zh) * 2017-10-31 2018-03-20 北京邮电大学 超密集网络架构中分布式移动边缘计算卸载方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《非正交多址接入***用户选择及功率分配算法研究》;高亚龙;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415;全文 *
Yuan Wu;Jianchao Zheng;Kuanyang Guo;Liping Qian;Xuemin Sherm.《Secrecy guaranteed optimal traffic offloading via dual-connectivity in small cell networks》.《2016 8th International Conference on Wireless Communications & Signal Processing (WCSP)》.2016, *

Also Published As

Publication number Publication date
CN108712755A (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
CN1141802C (zh) 在无线通信***中用于对诸如速率和功率之类的资源进行分布式最佳反向链路调度的方法和装置
CN108834080B (zh) 异构网络中基于多播技术的分布式缓存和用户关联方法
CN114051748B (zh) 使用机器学习优化蜂窝网络
CN103249157B (zh) 不完美csi条件下的基于跨层调度机制的资源分配方法
CN111586646B (zh) 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法
CN109195207B (zh) 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法
CN110602722B (zh) 一种基于noma的联合内容推送和传输的设计方法
CN110784882A (zh) 一种基于强化学习的能量采集d2d通信资源分配方法
CN114051222A (zh) 一种车联网环境下基于联邦学习的无线资源分配和通信优化方法
CN108712755B (zh) 基于深度强化学习的非正交接入上行传输时间优化方法
CN115173922B (zh) 基于cmaddqn网络的多波束卫星通信***资源分配方法
Chen et al. A deep learning based resource allocation scheme in vehicular communication systems
CN108668304B (zh) 一种基于深度强化学习的非正交接入下行传输时间优化方法
CN112788764A (zh) 针对noma超密集网络任务卸载和资源分配方法及***
Lehong et al. A survey of LoRaWAN adaptive data rate algorithms for possible optimization
Zheng et al. Joint optimization of link scheduling and resource allocation in cooperative vehicular networks
CN110677176A (zh) 一种基于能量效率与频谱效率的联合折中优化方法
CN105900494A (zh) 无线网络中移动终端的节能方法
CN108271266B (zh) 一种用于noma-d2d混合***的下行用户资源分配方法
CN111465108A (zh) 一种能量获取d2d异构网络中频效能效优化方法
CN108810986B (zh) 一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法
CN108282762B (zh) Lte-a网络大规模m2m通信上行数据传输方法
CN108770072B (zh) 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法
CN112887937B (zh) 一种基于路侧设备辅助的终端设备视频信息协作上传方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant