CN112260746B - 站点布置、缓存放置和资源分配方法及装置 - Google Patents

站点布置、缓存放置和资源分配方法及装置 Download PDF

Info

Publication number
CN112260746B
CN112260746B CN202011110983.6A CN202011110983A CN112260746B CN 112260746 B CN112260746 B CN 112260746B CN 202011110983 A CN202011110983 A CN 202011110983A CN 112260746 B CN112260746 B CN 112260746B
Authority
CN
China
Prior art keywords
user
unmanned aerial
aerial vehicle
placement
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011110983.6A
Other languages
English (en)
Other versions
CN112260746A (zh
Inventor
张天魁
王子端
刘元玮
许文俊
杨鼎成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011110983.6A priority Critical patent/CN112260746B/zh
Publication of CN112260746A publication Critical patent/CN112260746A/zh
Application granted granted Critical
Publication of CN112260746B publication Critical patent/CN112260746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法和装置,其包括如下的具体步骤:基于修正开销的DDPG算法输出用户接入策略;基于多代理DDPG算法输出无人机缓存放置、站点布置和NOMA功率分配策略;判断经历时隙是否达到训练次数阈值;当判断步骤为经历时隙未达到训练次数阈值时,对时隙变化,将训练次数加1,继续执行输出用户接入策略步骤。本发明能有效增强接入链路的传输能力,且无需向距离较远的核心网关进行请求,可有效降低用户获取内容的时延,同时减少了对无人机无线回程链路传输带来的资源占用,从而有效降低需要经过无线回程链路传输的内容的传输时延。

Description

站点布置、缓存放置和资源分配方法及装置
技术领域
本发明涉及无人机通信技术的技术领域,尤其涉及一种无人机非正交多址(NOMA)通信网络的站点布置、缓存放置和资源分配方法及装置。
背景技术
随着支持无线通信的小型无人机的快速发展,无人机已逐步成为应用于灾害恢复、热点覆盖、中继通信、信息传播和数据收集等实际场景中的有效技术之一。无人机由于成本低、部署方便和具有可直视路径的接入链路等特点,可以被部署在用户密集的蜂窝小区中,其中用户接入速率同时受无线接入链路和无线回程链路的限制。对于无线接入链路,NOMA技术可以基于相同的时频资源为多用户提供服务,从而增强无线接入链路的接入能力并提高频谱资源的利用率。但是无人机只有通过无线回程链路连接到基站才能为用户提供内容传输服务。由于无线回程链路的传输能力有限,无人机的传输速率受到限制。对于无线回程链路,在无人机上缓存流行的内容被认为是减小无线回程链路负载的一种有效的方法。
在存在增强现实应用和普通多媒体应用的混合场景中,所请求的内容被发送给请求普通多媒体应用的用户;对于请求增强现实应用的用户,将发送计算结果包和所请求的内容。在该网络中,对于请求普通多媒体内容的用户和请求增强现实应用的用户,内容传输时延均是决定用户体验的重要因素。从基站至用户的总内传输时延包括基站至无人机的无线回程时延以及从无人机至用户的无线接入时延。使用NOMA可以基于相同的时频资源为用户组中请求增强现实应用的用户和请求普通多媒体应用的用户提供服务,从而减小无线接入链路的传输时延。对于无人机NOMA通信网络,之前的工作并没有考虑在增强现实应用和普通多媒体应用的混合场景中,基于NOMA技术向用户组中的不同用户分别提供增强现实应用和普通多媒体应用。当前研究的控制场景大多是静态的,而实际应用场景中,无人机位置可以移动,且小区内密集用户的位置及用户请求的数据内容具有时变性。此外,当前技术大多聚焦无线回程链路传输时延或无线接入链路的传输时延,而实际的场景中两段链路的内容传输时延均会对用户体验产生影响。因此,本发明同时考虑无线回程链路和无线接入链路的总内容传输时延,联合控制无人机的站点部署、用户组接入和NOMA功率分配对于提供高效无线接入传输具有很大的作用。同时,面对网络中相对大的数据量,如何缓存最为合适的内容以降低无线回程链路传输时延是需要解决的重要问题。因此需要设计有效的站点布置、缓存放置和资源分配方法,以此联合控制站点布置、缓存放置和资源分配以降低总的内容传输时延。
发明内容
本申请的目的在于提供一种无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法及装置,用于解决现有技术未在动态的场景中联合控制站点布置、缓存放置和资源分配技术问题,进一步通过联合控制无人机站点布置、缓存放置和资源分配以降低总的内容传输时延。
本申请提供的一种无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其包括如下的具体步骤:
基于开销修正的DDPG算法输出用户接入策略;
基于多代理DDPG算法输出无人机缓存放置、站点布置和NOMA功率分配策略;
判断经历时隙是否达到训练次数阈值;
当判断步骤为经历时隙未达到训练次数阈值时,对时隙变化,将训练次数加1,继续执行输出用户接入策略步骤。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,通过如下公式得到用户接入策略:
Figure BDA0002728596620000031
Figure BDA0002728596620000032
Figure BDA0002728596620000033
其中Dn(t)表示用户n在时隙t的内容传输总时延,qkn(t)=1表示用户n在时隙t接入无人机k,T表示考虑的长期时隙周期。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,Dn(t)=DBn(t)+DAn(t)+DCn(t),其中,DBn(t)表示用户n在无线回程链路的传输时延,DAn(t)表示用户n在从无人机至用户的无线接入链路中的传输时延,DCn(t)表示用户n的计算时延。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,
Figure BDA0002728596620000034
其中RBk(t)表示无线回程链路的传输速率,wkm(t)=1表示由于用户的请求或主动缓存内容m通过无线回程链路传送至无人机k;C1表示网络中内容的大小,单位为比特;M为网络中的内容数量。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,
Figure BDA0002728596620000035
其中fng1(t)=1表示用户n对应用户组g中请求增强现实应用的用户,fng2(t)=1表示用户n对应用户组g中请求普通多媒体应用的用户,
Figure BDA0002728596620000036
Figure BDA0002728596620000037
Figure BDA0002728596620000038
分别表示增强现实应用用户处被请求内容,增强现实应用用户处计算结果包和普通多媒体应用用户处被请求内容在时隙t的传输速率,C2为计算机结果包,单位为bit。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,
Figure BDA0002728596620000041
其中表H(bits)表示生成计算结果包时需要处理数据的大小,
Figure BDA0002728596620000042
表示每个无人机的计算资源,其中ω表示处理每比特数据各处理器的CPU需要圈数,ψ表示CPU时钟频率,enm(t)=1表示用户n请求内容m的增强现实应用。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,通过如下公式,得到无人机缓存放置、站点布置和NOMA功率分配策略:
Figure BDA0002728596620000043
Figure BDA0002728596620000044
Figure BDA0002728596620000045
Figure BDA0002728596620000046
其中ckm(t)=1表示内容m在时隙t处于无人机k的缓存中,Z1表示无人机的缓存能力,
Figure BDA0002728596620000047
表示t时隙对请求内容的NOMA分配功率,Luavk表示无人机k的站点布置,qkn(t)=1表示用户n在时隙t接入无人机k,T表示考虑的长期时隙周期,g表示用户组。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,在基于开销修正的DDPG算法输出用户接入策略步骤之前,还包括:基于无人机与用户之间的信干噪比矩阵和用户请求被无人机满足的情况确定当前时隙用户接入处理器所处的环境状态SL(t)。
如上所述的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,其中,优选的是,在基于多代理DDPG算法输出无人机缓存放置、站点布置和NOMA功率分配策略步骤之前,还包括:基于用户接入处理器的用户接入信息、各无人机对内容的缓存情况和无人机与用户的距离确定每个无人机代理所处的环境状态SFk(t)。
本发明还提供了一种基于如上所述方法的无人机非正交多址通信网络的站点布置、缓存放置和资源分配装置,其中,优选的是,该装置具体包括:优化控制处理器,用户接入处理器,无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器;其中,用户接入处理器与无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器,优化控制处理器相连接;在用户接入处理器中,执行基于开销修正的DDPG算法输出用户接入策略步骤,在无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器,执行基于多代理DDPG算法输出无人机缓存放置、站点布置和NOMA功率分配策略步骤。
本发明提供的无人机非正交多址通信网络的站点布置、缓存放置和资源分配方法,使用基于NOMA的无线接入链路,将请求内容和计算结果包的叠加信号发送至用户组,以相同的时频资源同时服务增强现实应用的请求和普通多媒体内容的请求,因此有效增强接入链路的传输能力;无人机具有灵活的优点,通过策略性的部署无人机可以为NOMA传输提供更好的信道环境;本发明的无人机上部署缓存,用户所需内容可以由无人机缓存提供,无需向距离较远的核心网关进行请求,因此可有效降低用户获取内容的时延,同时减少了对无人机无线回程链路传输带来的资源占用,从而有效降低需要经过无线回程链路传输的内容的传输时延。同时考虑基于无人机NOMA通信网络中增强现实应用的无线接入链路和部署缓存的无人机通信网络的无线回程链路,共同降低用户的内容传输时延。
本发明联合控制用户接入、无人机缓存放置、无人机站点布置和NOMA功率分配,通过动态场景中基于纠正的DDPG算法和多代理DDPG算法联合控制缓存放置和资源分配,在无人机缓存放置、站点布置和NOMA功率分配信息的基础上控制用户接入,在用户接入策略的基础上控制缓存放置、站点布置和连接到各无人机用户组NOMA功率分配。相对于单独控制的方法来说,联合控制能够获得整体的性能增益,进一步降低***的传输时延。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例的无人机NOMA通信网络的站点布置、缓存放置和资源分配装置的结构图;
图2为本发明实施例的无人机NOMA通信网络的站点布置、缓存放置和资源分配方法的流程图;
图3为本发明实施例的用户接入处理器的处理方法的流程图;
图4为本发明实施例的无人机缓存放置、站点布置和NOMA功率分配联合控制处理器的处理方法的流程图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸地连接,或者一体地连接;可以是机械连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
针对无人机通信网络中增强现实应用的大量接入需求,无线接入链路基于非正交多址(Non Orthogonal Multiple Access,NOMA)以相同的时频资源为增强现实应用和普通多媒体应用提供服务,从而有效增强接入网络的传输能力。以及,针对网络中大量内容重复传输问题,在无人机处部署缓存可以通过对流行内容的缓存使用户以更低的时延获取内容,并减轻对回程链路资源的占用从而减小该链路的传输时延。本发明的目的在于为有效降低全网用户内容获取时延而提供一种无人机NOMA网络的缓存放置和资源分配方法和装置。对于由无人机、用户以及地面基站组成的通信网络,无人机具备缓存能力,通过联合控制用户接入、无人机缓存放置、无人机站点布置和NOMA功率分配,利用无人机缓存放置、站点布置和NOMA功率分配信息指导用户接入。同时针对用户接入策略控制无人机缓存放置、站点布置和NOMA功率分配,得到基于整体网络环境的缓存放置与资源分配。该方法实现了无人机NOMA网络的缓存放置与资源分配联合控制,能够提升无人机NOMA通信网络的传输性能,降低长期内容传输时延。
在无人机通信网络中,有一个地面基站、K个无人机以及N个用户。N个用户由请求增强现实应用的用户和请求普通多媒体内容的用户组成。分别对相同内容请求增强现实应用的用户和请求普通多媒体应用的用户组成NOMA用户组g,其中rnm(t)=1表示用户n请求内容m的普通多媒体应用,t表示时隙,enm(t)=1表示用户n请求内容m的增强现实应用。网络中有M个内容,假设所有内容大小相同,为C1(bits)。内容可以作为普通多媒体应用,也可以与计算结果包共同实现增强现实应用,假设计算结果包大小为C2(bits)。计算结果包的生成需要消耗无人机计算资源,用户n的计算时延为
Figure BDA0002728596620000071
其中表H(bits)表示生成计算结果包时需要处理数据的大小,
Figure BDA0002728596620000072
表示每个无人机的计算资源,其中ω表示处理每比特数据各处理器的中央处理器(CPU)需要圈数,ψ表示CPU时钟频率,qkn(t)表示用户n在t时隙与无人机k建立通信链路。无人机具备缓存能力,可以同时缓存Z1个内容,则定义ckm(t)=1表示t时隙无人机k对内容m进行主动缓存。当用户进行内容请求时,用户接入无人机获取内容,此时,若接入的无人机已缓存该内容,则直接由无人机存储的内容副本满足该内容请求;若无人机未缓存该内容,则需通过回程链路向核心网网关请求该内容,再由该无人机将被请求内容传输给用户。用户n在无线回程链路的传输时延为
Figure BDA0002728596620000081
其中RBk(t)表示无线回程链路的传输速率,wkm(t)=1表示由于用户的请求或主动缓存内容m通过无线回程链路传送至无人机k。对于每个用户组,无人机同时将被请求内容和计算结果包的叠加信号传输给组内用户,并通过策略性的无人机站点布置调整请求增强现实应用的用户和请求普通多媒体内容的用户距无人机的位置,从而达到基于NOMA对增强现实用户的计算结果包和被请求内容,以及对普通多媒体用户被请求内容的低时延传输。本发明将用户n在从无人机至用户的无线接入链路中的传输时延表示为
Figure BDA0002728596620000082
其中fng1(t)=1表示用户n对应用户组g中请求增强现实应用的用户,fng2(t)=1表示用户n对应用户组g中请求普通多媒体应用的用户。
Figure BDA0002728596620000083
Figure BDA0002728596620000084
Figure BDA0002728596620000085
分别表示增强现实应用用户处被请求内容,增强现实应用用户处计算结果包和普通多媒体应用用户处被请求内容在时隙t的传输速率。假设基站通过高容量有线光纤线路接入核心网,忽略基站与核心网之间的传输时延,关注基站至无人机的无线回程时延、无人机至用户的无线接入时延及无人机处的计算时延,则用户n在时隙t获取内容的时延为Dn(t)=DBn(t)+DAn(t)+DCn(t)。因此,全网用户长期内容传输时延为
Figure BDA0002728596620000086
其中T为考虑的长期时隙周期。
下面,参照附图,对本发明的无人机NOMA通信网络的缓存放置与资源分配方法和装置进行详细的说明。
图1为本发明实施例的无人机NOMA通信网络的站点布置、缓存放置与资源分配的装置的结构图,结合图1,对该装置中各处理器之间的通信进行详细描述。本发明的装置部署在宏基站上,控制网络中用户接入、无人机缓存放置、无人机站点布置和NOMA功率分配。用户接入适合集中控制以避免参与者之间的冲突。无人机缓存放置、站点布置和NOMA功率分配采用分布式控制,从而降低管理控制开销。在分布式控制中,该装置虚拟出K个代理,每个代理对应一个无人机的缓存放置、站点布置和接入该无人机用户组的NOMA功率分配。该装置具体包括:优化控制处理器,用户接入处理器,无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器。
用户接入处理器与无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器,优化控制处理器相连接。为了区分信息的输入输出关系,将输入表述为信息,将输出表述为策略。根据优化控制处理器输入的用户与无人机之间的信干噪比(SINR)矩阵和用户请求被无人机缓存满足的情况,利用公式(1),用户接入处理器得到用户接入策略:
Figure BDA0002728596620000091
Figure BDA0002728596620000092
Figure BDA0002728596620000093
其中Dn(t)表示用户n在时隙t的内容传输总时延,qkn(t)=1表示用户n在时隙t接入无人机k。具体的,用户接入处理器利用基于开销修正的深度确定策略梯度(DDPG)算法获得此时隙的用户接入策略,此信息输入无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器。
根据用户接入处理器的用户接入信息、对内容的缓存情况以及无人机与用户的距离,利用公式(2),获得此时的无人机的缓存放置、站点布置和NOMA功率分配联合控制策略:
Figure BDA0002728596620000094
Figure BDA0002728596620000095
Figure BDA0002728596620000096
Figure BDA0002728596620000097
其中ckm(t)=1表示内容m在时隙t处于无人机k的缓存中,Z1表示无人机的缓存能力,Luavk表示无人机k的站点布置,
Figure BDA0002728596620000101
表示t时隙对请求内容的NOMA分配功率。具体的,无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中利用多代理DDPG算法获得此时的无人机的缓存放置、站点布置和NOMA功率分配联合控制策略,并将此信息输入到优化控制处理器中。
优化控制处理器得到当前时隙中用户接入策略,并判断动态过程的已经历时隙是否小于最大时隙,若小于则将无人机的缓存放置、站点布置和NOMA功率分配联合控制信息输入到用户接入处理器,同时根据无人机缓存放置信息更新无人机缓存,然后进行下一时隙的控制;否则结束处理过程。
下面具体介绍本发明实施例的无人机NOMA通信网络的站点布置、缓存放置与资源分配装置的运行过程,包括:
在由多个无人机组成的通信网络中,任意无人机用k表示;任意用户用n表示;网络中任意的内容用m表示;网络中请求增强现实应用和请求普通多媒体应用的用户所组成的用户组用g表示。无人机总飞行时间为Tv,被划分为一定数量等长时隙以方便描述无人机移动,时隙表示为t。***中每个无人机携带缓存容量为Z1的高速缓存设备,无人机k对网络中内容m的缓存情况表示为ckm(t),其中ckm(t)=1表示在t时隙无人机k缓存内容m,反之ckm(t)=0。用户的位置和用户对网络中内容的偏好被根据有限的马尔科夫链建模。无人机k的水平位置信息表示为[ixuk(t),iyuk(t)],高度为h。qkn(t)表示用户n在t时隙与无人机k建立通信链路。无人机使用基于NOMA的无线接入链路为用户提供服务,在每个用户组收到的叠加信号中,每个用户组的总功率分配给被请求内容信号以及计算结果包信号,
Figure BDA0002728596620000102
表示t时隙无人机k对接入用户组的功率分配向量,其中每个元素表示对应用户组g内被请求内容信号的功率分配比例。
在用户接入处理器中,根据优化控制处理器输入的用户与无人机之间的信干噪比(SINR)矩阵和用户请求被无人机缓存满足的情况,用户接入处理器利用基于开销修正的DDPG算法获得此时的用户接入策略AL(t)=[aL1(t),…,aLG(t)];在无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中,根据输入的用户接入信息、对内容的缓存情况和无人机与用户的距离,利用多代理DDPG算法使K个无人机分别获得无人机缓存放置Ck(t)=[ck1(t),…,ckM(t)]、站点布置[ixuk(t),iyuk(t)]和NOMA功率分配
Figure BDA0002728596620000111
策略;其中ckm(t)表示t时隙无人机代理k对内容m进行缓存,当ckm(t)=1时,t时隙无人机代理k对内容m进行缓存,反之,当ckm(t)=0时,t时隙无人机代理k对内容m不进行缓存,m∈{1……M};
Figure BDA0002728596620000114
表示时隙t时无人机代理k对用户组g的功率分配系数,g∈{1……G};在优化控制处理器中,更新环境状态并将得到的无人机的缓存放置、站点布置和NOMA功率分配信息作为下一时隙用户接入处理器的输入,重复直到达到预设的最大时隙数。
在用户接入处理器中,根据输入的用户与无人机之间的信干噪比(SINR)矩阵和用户请求被无人机缓存满足的情况定义处理器当前所处的环境状态SL(t),其中在t时隙用户n的请求可以被无人机k的缓存满足表示为wskn(t)=1。该处理器的输出策略根据基于开销修正DDPG算法的动作选择AL(t)决定。利用基于开销修正的DDPG算法控制每个用户的接入无人机选择,得到用户接入策略,进一步为:首先随机初始化用户组的接入变量,然后通过基于开销修正的DDPG算法的动作选择决定每个用户组g的接入变量aLg(t),并且根据AL(t)的定义计算出用户接入策略的qkn(t)表示。即对用户n,aLg(t)在1至K之间去松弛的近似整数为qkn(t)=1中k变量的取值。具体地,基于开销修正的DDPG算法结构主要包括行动者网络、裁判网络、目标行动者网络、目标裁判网络和纠正网络。首先行动者网络的参数矩阵通过策略梯度进行训练;然后采用基于开销修正的时序差分训练裁判网络,表示为最小化
Figure BDA0002728596620000112
其中,
Figure BDA0002728596620000113
表示关于用户接入处理器的小批量样本MBL求期望,RL(t)的物理含义为t时隙通信网络中所有用户传输时之和,QT表示目标裁判网络输出的Q值,用户接入处理器损失定义为
Figure BDA0002728596620000121
表示无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器损失和用户接入处理器损失之间的偏差,其中RG(t)为K个代理无人机缓存放置、站点布置及NOMA功率分配联合控制处理器总损失,γ1为纠正系数,Dn(t)表示用户n在t时隙的内容传输时延。对于较大的纠正系数,虽然减小了无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器损失和用户接入处理器损失之间的偏差引起的不稳定,但是不同的用户接入处理器损失对修正的时序差分的影响也减小了,这影响了算法的性能。基于较小修正系数的DDPG算法结构虽然稳定性相对差,但是更有利于得到高性能的控制策略。Q(s,a|θQ)表示动作a的长期损失,其中s表示用户接入处理器的状态,θQ表示裁判网络的参数矩阵,
Figure BDA0002728596620000122
表示目标裁判网络的参数矩阵,s′为t+1时隙的状态,πT′为t+1时隙目标行动者网络的输出,γ表示折扣系数。对于较大的折扣系数,Q(s,a|θQ)中长期动作选择所对应传输时延对当前时隙动作价值的影响较大,对于较小的折扣系数,Q(s,a|θQ)更倾向描述当前时隙动作选择a或短期内多时隙动作选择所对应内容传输时延对动作价值的影响;然后基于监督训练更新开销修正网络的参数矩阵,该网络的输出为偏差期望值re(t)。在每个时隙训练完成后根据当前时隙优化控制处理器的输入信息,通过行动者网络的输出控制用户接入。
在无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中,根据用户接入处理器的用户接入信息、对内容的缓存情况以及无人机与用户的距离确定该处理器中代理k的状态SFk(t),根据多代理DDPG算法的动作选择AFk(t)控制此时的无人机缓存放置、无人机站点布置及NOMA功率分配,进一步为:基于多代理DDPG的算法中每个无人机对应一个代理,每个代理处算法结构主要包括行动者网络、裁判网络、目标行动者网络和目标裁判网络。以代理k为例,其中基于复合确定策略梯度训练代理k的行动者网络,所有代理的裁判网络同时向代理k的行动者网络传递梯度,则复合梯度为
Figure BDA0002728596620000131
表示代理k2的裁判网络输出的Q值对代理k1的行动者网络参数矩阵的梯度,其中,MBF表示无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器记忆矩阵的小批样本。
Figure BDA0002728596620000132
则表示关于小批样本求期望。
Figure BDA0002728596620000133
表示代理k1的行动者网络所输出的动作与状态s作为输入时,代理k2的裁判网络输出的Q值;
Figure BDA0002728596620000134
表示所有代理的裁判网络对代理k1的行动者网络的权重矩阵求梯度,所有梯度求和得到的复合梯度,其中
Figure BDA0002728596620000135
表示代理k1的行动者网络的权重矩阵,
Figure BDA0002728596620000136
表示代理k2裁判网络的权重矩阵。
Figure BDA0002728596620000139
表示裁判网络输出对行动者网络输出的梯度,
Figure BDA0002728596620000137
表示代理k1在状态S下输出的动作选择策略分布。在每个时隙根据当前时隙用户接入处理器的输入信息,代理k通过对应行动者网络得到无人机k的缓存放置、站点布置和接入无人机k用户组的NOMA功率分配策略。无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中每个代理上均运行具有相同网络结构的DDPG算法。该处理器中代理k的瞬时损失表示为RFk(t),无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中所有代理的总损失可以表示为
Figure BDA0002728596620000138
处理器经历一定时隙的与环境的交互以及对神经网络的训练,可以在每次时隙与环境进行交互时控制用户接入,无人机缓存放置,无人机站点布置和NOMA功率分配。优化控制处理器判断当前时隙数目是否小于最大时隙数目,若小于,则将无人机的缓存放置、站点布置和NOMA功率分配信息作为输入进行下一时隙的控制过程,否则迭代结束。图2为本发明实施例的无人机NOMA通信网络的站点布置、缓存放置和资源分配方法的流程图,下面参照该流程图,对其中步骤进行详细说明。
步骤101:流程开始;
步骤102:基于无人机与用户之间的信干噪比矩阵和用户请求被无人机满足的情况确定当前时隙用户接入处理器所处的环境状态SL(t)。
步骤103:在用户接入处理器中,基于开销修正深度确定策略梯度(DeepDeterministic Policy Gradient,DDPG)算法输出用户接入策略AL(t)=[aL1(t),…,aLG(t)];其中,aLg(t)表示时隙t用户组g接入无人机序号,G表示网络中总的用户组数目。
步骤104:基于用户接入处理器的用户接入信息、各无人机对内容的缓存情况和无人机与用户的距离确定每个无人机代理所处的环境状态SFk(t)。
步骤105:在无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中,通过基于多代理DDPG算法对网络内K个无人机分别获得缓存放置Ck(t)=[ck1(t),…,ckM(t)]、站点布置[ixuk(t),iyuk(t)]和NOMA功率分配策略
Figure BDA0002728596620000141
其中ckm(t)表示t时隙无人机代理k对内容m(m∈{1……M})的缓存状态,当ckm(t)=1时,t时隙无人机代理k对内容m进行缓存,反之,当ckm(t)=0时,t时隙无人机代理k对内容m不进行缓存;
Figure BDA0002728596620000142
表示时隙t时无人机代理k对用户组g(g∈{1……G})的功率分配系数;ixuk(t)表示无人机k在时隙t时横向的位置,iyuk(t)表示无人机k在时隙t时纵向的位置。
步骤106:判断经历时隙是否达到训练次数阈值;
步骤107:时隙变化,训练次数加1,并返回步骤102;
当时隙t未达到训练次数的阈值,对时隙变化,将训练次数加1。
步骤108:流程结束。
结合图2给出的流程图,无人机NOMA通信网络的站点布置、缓存放置和资源分配的方法使用原理总流程为:根据无人机缓存放置、站点布置和NOMA功率分配信息,用户接入处理器利用基于开销修正的DDPG算法输出用户接入策略AL(t)=[aL1(t),…,aLG(t)];通过输入用户接入信息、对内容的缓存情况以及无人机与用户的距离,在无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中利用多代理DDPG算法输出此时隙K个无人机各自的缓存放置、站点布置和NOMA功率分配策略。在每个时隙的训练过程中均进行以上两个环节直到达到最大训练时隙。得到训练完成后表现收敛的用户接入,无人机缓存放置、站点布置和NOMA功率分配方法。
图3为本发明实施例的用户接入处理器的处理方法的流程图,即步骤103的具体实现步骤,下面结合附图进行详细说明。
步骤201:初始化用户接入处理器对应网络的参数矩阵;其中,利用随机的方式初始化用户接入处理器中所有的网络的参数矩阵。
步骤202:确定策略梯度训练行动者网络;
基于开销修正的DDPG算法结构主要包括行动者网络、裁判网络、目标行动者网络、目标裁判网络和纠正网络,行动者网络的参数矩阵通过策略梯度进行训练。
步骤203:修正时序差分法训练裁判网络;
采用基于开销修正的时序差分训练裁判网络,表示为最小化
Figure BDA0002728596620000151
Figure BDA0002728596620000152
其中,
Figure BDA0002728596620000153
表示关于用户接入处理器的小批量样本MBL求期望,RL(t)的物理含义为t时隙通信网络中所有用户传输时之和,QT表示目标裁判网络输出的Q值,用户接入处理器损失定义为
Figure BDA0002728596620000154
表示无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器损失和用户接入处理器损失之间的偏差,其中RG(t)为K个代理无人机缓存放置、站点布置和NOMA功率分配联合处理器总损失,γ1为纠正系数,Dn(t)表示用户n在t时隙的内容传输时延。对于较大的纠正系数,虽然减小了无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器损失和用户接入处理器损失之间的偏差引起的不稳定,但是不同的用户接入处理器损失对修正的时序差分的影响也减小了,这影响了算法的性能。基于较小修正系数的DDPG算法结构虽然稳定性相对差,但是更有利于得到高性能的控制策略。Q(s,a|θQ)表示动作a的长期损失,其中s表示用户接入处理器的状态,θQ表示裁判网络的参数矩阵,
Figure BDA0002728596620000161
表示目标裁判网络的参数矩阵,s′为t+1时隙的状态,πT′为t+1时隙目标行动者网络的输出,γ表示折扣系数。对于较大的折扣系数,Q(s,a|θQ)中长期动作选择所对应传输时延对当前时隙动作价值的影响较大,对于较小的折扣系数,Q(s,a|θQ)更倾向描述当前时隙动作选择a或短期内多时隙动作选择所对应内容传输时延对动作价值的影响;然后基于监督训练更新开销修正网络的参数矩阵,该网络的输出为偏差期望值re(t)。在每个时隙训练完成后根据当前时隙优化控制处理器的输入信息,通过行动者网络的输出控制用户接入。
步骤204:软替换更新目标网络参数矩阵;
通过软替换分别基于用户接入处理器的行动者网络和裁判网络的参数矩阵更新该处理器目标行动者网络和目标裁判网络的参数矩阵。
步骤205:监督训练开销修正网络;
通过基于记忆回放的监督学习训练开销修正网络,同时通过将状态和动作输入开销修正网络,该网络的输出为偏差期望值re(t),该值可用于修正时序差分值。
步骤206:确定本时隙用户接入策略;
将本时隙用户接入处理器的状态输入行动者网络,输出为本时隙用户接入策略AL(t)。并且根据AL(t)的定义计算出用户接入策略的qkn(t)表示,即对用户n,AL(t)中的元素在1至K之间去松弛的整数近似为qkn(t)=1中k变量取值。
步骤207:将策略向量存入记忆存储矩阵;
在神经网络的训练及通过行动者网络获得用户接入策略后,将时隙t的状态、AL(t)形式的用户接入策略、时隙t+1的状态及时隙t的瞬时网络总内容传输时延
Figure BDA0002728596620000162
组成向量,并存入记忆存储矩阵。如果记忆存储矩阵已满,则替换存在于记忆存储矩阵中最久的向量。
输出用户接入策略后,进一步介绍步骤105,无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器输出无人机缓存放置、站点布置和NOMA功率分配策略。
图4为本发明实施例的无人机缓存放置、站点布置和NOMA功率分配联合控制处理器的处理方法的流程图,即步骤105的具体实现步骤,下面结合附图进行详细说明。
步骤301:初始化无人机缓存放置、站点布置和NOMA功率分配联合控制处理器对应网络参数矩阵;
初始化无人机缓存放置、站点布置和NOMA功率分配联合控制处理器处所有神经网络的参数矩阵。
步骤302:多代理裁判网络计算复合梯度;
基于多代理DDPG的算法中每个无人机对应一个代理,每个代理处算法结构主要包括行动者网络、裁判网络、目标行动者网络和目标裁判网络。多代理裁判网络同时向代理k的行动者网络传递策略梯度并计算复合确定策略梯度,其中复合确定策略梯度为
Figure BDA0002728596620000171
代理k2裁判网络输出的Q值对代理k1的行动者网络参数矩阵求梯度,表示为
Figure BDA0002728596620000172
其中,MBF表示无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器记忆矩阵的小批样本;
Figure BDA0002728596620000173
则表示关于小批样本求期望;
Figure BDA0002728596620000174
表示代理k1的行动者网络所输出的动作与状态s作为输入时,代理k2的裁判网络输出的Q值;
Figure BDA0002728596620000175
表示所有代理的裁判网络对代理k1的行动者网络的权重矩阵求梯度,所有梯度求和得到的复合梯度,其中
Figure BDA0002728596620000176
表示代理k1的行动者网络的权重矩阵,
Figure BDA0002728596620000177
表示代理k2裁判网络的权重矩阵,
Figure BDA0002728596620000178
表示裁判网络输出对行动者网络输出的梯度,
Figure BDA0002728596620000179
表示代理k1在状态S下输出的动作选择策略分布。
步骤303:复合确定策略梯度训练行动者网络;
根据步骤302中计算得到的复合确定策略梯度更新无人机缓存放置、站点布置和NOMA功率分配联合控制处理器中行动者网络的参数矩阵。
步骤304:时序差分法训练裁判网络;
通过最小化时序差分值训练无人机缓存放置、站点布置和NOMA功率分配联合控制处理器中裁判网络的参数矩阵。
步骤305:软替换更新目标网络参数矩阵;
通过软替换分别基于无人机缓存放置、站点布置和NOMA功率分配联合控制处理器的行动者网络和裁判网络的参数矩阵更新该处理器目标行动者网络和目标裁判网络的参数矩阵。
步骤306:确定当前时隙无人机缓存放置、站点布置和NOMA功率分配策略;
将当前时隙t联合处理器中代理k的状态输入对应行动者网络,并根据缓存空间的限制和功率分配比的限制对网络的输出去松弛。其中具体为:将网络中的M内容根据ckm(t)大小进行排序,在t时隙对较大的Z1种内容进行主动缓存,
Figure BDA0002728596620000181
如果超出限制条件
Figure BDA0002728596620000182
则取边界值。
步骤307:将策略向量存入记忆库存储矩阵。
通过使无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器中所有代理均运行上述过程,控制此时隙的无人机缓存放置、站点布置和NOMA功率分配。
本发明的无人机NOMA通信网络中的缓存放置与资源分配方法及装置,使用基于NOMA的无线接入链路,将请求内容和计算结果包的叠加信号发送至用户组,以相同的时频资源同时服务增强现实应用的请求和普通多媒体内容的请求,因此有效增强接入链路的传输能力;无人机具有灵活的优点,通过策略性的部署无人机可以为NOMA传输提供更好的信道环境;本发明的无人机上部署缓存,用户所需内容可以由无人机缓存提供,无需向距离较远的核心网关进行请求,因此可有效降低用户获取内容的时延,同时减少了对无人机无线回程链路传输带来的资源占用,从而有效降低需要经过无线回程链路传输的内容的传输时延。同时考虑基于无人机NOMA通信网络中增强现实应用的无线接入链路和部署缓存的无人机通信网络的无线回程链路,共同降低用户的内容传输时延。
本发明联合控制用户接入、无人机缓存放置、无人机站点布置和NOMA功率分配,通过动态场景中基于开销修正的DDPG算法和多代理DDPG算法联合控制缓存放置和资源分配,在无人机缓存放置、站点布置和NOMA功率分配信息的基础上控制用户接入,在用户接入信息的基础上控制缓存放置、站点布置和连接到各无人机用户组NOMA功率分配。相对于单独控制的方法来说,联合控制能够获得整体的性能增益,进一步降低***的传输时延。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种站点布置、缓存放置和资源分配方法,其包括如下的具体步骤:
基于开销修正的DDPG算法输出用户接入策略;
基于多代理DDPG算法输出无人机缓存放置、站点布置和NOMA功率分配策略;
判断已经经历的时隙是否达到训练次数阈值;
当判断步骤为经历时隙未达到训练次数阈值时,对时隙变化,将训练次数加1,继续执行输出用户接入策略步骤;
其中,通过如下公式得到用户接入策略:
Figure FDA0003290396230000011
Figure FDA0003290396230000012
Figure FDA0003290396230000013
其中Dn(t)表示用户n在时隙t的内容传输总时延,qkn(t)=1表示用户n在时隙t接入无人机k,T表示考虑的长期时隙周期。
2.如权利要求1所述的站点布置、缓存放置和资源分配方法,其中,采用如下公式计算用户n在时隙t的内容传输总时延
Dn(t)=DBn(t)+DAn(t)+DCn(t)
其中,DBn(t)表示用户n在无线回程链路的传输时延,DAn(t)表示用户n在从无人机至用户的无线接入链路中的传输时延,DCn(t)表示用户n的计算时延。
3.如权利要求2所述的站点布置、缓存放置和资源分配方法,其中,采用如下公式计算用户n在无线回程链路的传输时延
Figure FDA0003290396230000014
其中RBk(t)表示无线回程链路的传输速率,wkm(t)=1表示由于用户的请求或主动缓存内容m通过无线回程链路传送至无人机k;C1表示网络中内容的大小,单位为比特;M为网络中的内容数量。
4.如权利要求3所述的站点布置、缓存放置和资源分配方法,其中,采用如下公式计算用户n在从无人机至用户的无线接入链路中的传输时延
Figure FDA0003290396230000021
其中fng1(t)=1表示用户n对应用户组g中请求增强现实应用的用户,fng2(t)=1表示用户n对应用户组g中请求普通多媒体应用的用户,
Figure FDA0003290396230000022
Figure FDA0003290396230000023
分别表示增强现实应用用户处被请求内容,增强现实应用用户处计算结果包和普通多媒体应用用户处被请求内容在时隙t的传输速率,C2为计算机结果包,单位为bit。
5.如权利要求4所述的站点布置、缓存放置和资源分配方法,其中,采用如下公式计算用户n的计算时延
Figure FDA0003290396230000024
其中表H(bits)表示生成计算结果包时需要处理数据的大小,
Figure FDA0003290396230000025
表示每个无人机的计算资源,其中ω表示处理每比特数据各处理器的CPU需要圈数,ψ表示CPU时钟频率,enm(t)=1表示用户n请求内容m的增强现实应用。
6.如权利要求1所述的站点布置、缓存放置和资源分配方法,其中,通过如下公式得到无人机缓存放置、站点布置和NOMA功率分配策略:
Figure FDA0003290396230000026
Figure FDA0003290396230000027
Figure FDA0003290396230000028
Figure FDA0003290396230000029
其中ckm(t)=1表示内容m在时隙t处于无人机k的缓存中,Z1表示无人机的缓存能力,
Figure FDA00032903962300000210
表示t时隙对请求内容的NOMA分配功率,Luavk表示无人机k的站点布置,qkn(t)=1表示用户n在时隙t接入无人机k,T表示考虑的长期时隙周期,g表示用户组。
7.如权利要求1所述的站点布置、缓存放置和资源分配方法,其中,在基于开销修正的DDPG算法输出用户接入策略步骤之前,还包括:基于无人机与用户之间的信干噪比矩阵和用户请求被无人机满足的情况确定当前时隙用户接入处理器所处的环境状态SL(t)。
8.如权利要求7所述的站点布置、缓存放置和资源分配方法,其中,在基于多代理DDPG算法输出无人机缓存放置、站点布置和NOMA功率分配策略步骤之前,还包括:基于用户接入处理器的用户接入信息、各无人机对内容的缓存情况和无人机与用户的距离确定每个无人机代理所处的环境状态SFk(t)。
9.一种基于如权利要求1-7任一项所述的站点布置、缓存放置和资源分配方法的站点布置、缓存放置和资源分配装置,该装置具体包括:优化控制处理器,用户接入处理器,无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器;其中,用户接入处理器与无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器,优化控制处理器相连接;在用户接入处理器中,执行基于开销修正的DDPG算法输出用户接入策略步骤,在无人机的缓存放置、站点布置和NOMA功率分配联合控制处理器,执行基于多代理DDPG算法输出无人机缓存放置、站点布置和NOMA功率分配策略步骤。
CN202011110983.6A 2020-10-16 2020-10-16 站点布置、缓存放置和资源分配方法及装置 Active CN112260746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011110983.6A CN112260746B (zh) 2020-10-16 2020-10-16 站点布置、缓存放置和资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011110983.6A CN112260746B (zh) 2020-10-16 2020-10-16 站点布置、缓存放置和资源分配方法及装置

Publications (2)

Publication Number Publication Date
CN112260746A CN112260746A (zh) 2021-01-22
CN112260746B true CN112260746B (zh) 2022-01-07

Family

ID=74244599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011110983.6A Active CN112260746B (zh) 2020-10-16 2020-10-16 站点布置、缓存放置和资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN112260746B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105188151A (zh) * 2015-06-12 2015-12-23 北京邮电大学 一种非正交多址随机接入方法、装置及***
CN110417847A (zh) * 2019-01-09 2019-11-05 北京邮电大学 无人机通信网络用户接入和内容缓存的方法及装置
CN111464231A (zh) * 2020-04-02 2020-07-28 北京邮电大学 一种无人机与用户协同缓存放置方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999848B2 (en) * 2018-10-01 2021-05-04 Research & Business Foundation Sungkyunkwan University Sparse-coded ambient backscatter communication method and system
KR102143757B1 (ko) * 2019-05-07 2020-08-12 오토시맨틱스 주식회사 딥러닝을 포함한 인공지능을 적용시킨 풍력 발전장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105188151A (zh) * 2015-06-12 2015-12-23 北京邮电大学 一种非正交多址随机接入方法、装置及***
CN110417847A (zh) * 2019-01-09 2019-11-05 北京邮电大学 无人机通信网络用户接入和内容缓存的方法及装置
CN111464231A (zh) * 2020-04-02 2020-07-28 北京邮电大学 一种无人机与用户协同缓存放置方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DRL-Based Energy-Efficient Resource Allocation Frameworks for Uplink NOMA Systems;Xiaoming Wang等;《IEEE INTERNET OF THINGS JOURNAL》;20200831;第7279-7294页 *

Also Published As

Publication number Publication date
CN112260746A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
Zhang et al. Caching placement and resource allocation for cache-enabling UAV NOMA networks
WO2023168824A1 (zh) 一种基于联邦学习的移动边缘缓存优化方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN112601197A (zh) 一种基于非正交多址的车联网络中资源优化方法
CN107071852B (zh) 面向移动机会社会网络的社会感知和概率预测的路由方法
Zhang et al. Joint resource, deployment, and caching optimization for AR applications in dynamic UAV NOMA networks
CN111556572A (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN112995950A (zh) 一种车联网中基于深度强化学习的资源联合分配方法
CN113255004B (zh) 一种安全且高效的联邦学习内容缓存方法
CN116156455A (zh) 一种基于联邦强化学习的车联网边缘内容缓存决策方法
CN113411826B (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN114205791A (zh) 一种基于深度q学习的社交感知d2d协同缓存方法
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
Ma et al. Deep reinforcement learning for pre-caching and task allocation in internet of vehicles
Li et al. Intelligent resource optimization for blockchain-enabled IoT in 6G via collective reinforcement learning
Liu et al. Rendered tile reuse scheme based on FoV prediction for MEC-assisted wireless VR service
Liu et al. Mobility-aware video prefetch caching and replacement strategies in mobile-edge computing networks
Wang et al. Caching placement and resource allocation for AR application in UAV NOMA networks
CN112260746B (zh) 站点布置、缓存放置和资源分配方法及装置
Shi et al. Content caching policy for 5g network based on asynchronous advantage actor-critic method
CN113992770B (zh) 雾无线接入网中基于策略的联邦强化学习的协作缓存方法
CN114980205A (zh) 多天线无人机视频传输***QoE最大化方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant