CN117676896A - 基于强化学习的6G支持mIoT资源分配方法及*** - Google Patents

基于强化学习的6G支持mIoT资源分配方法及*** Download PDF

Info

Publication number
CN117676896A
CN117676896A CN202311654032.9A CN202311654032A CN117676896A CN 117676896 A CN117676896 A CN 117676896A CN 202311654032 A CN202311654032 A CN 202311654032A CN 117676896 A CN117676896 A CN 117676896A
Authority
CN
China
Prior art keywords
network
resource allocation
hypergraph
interference
miot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311654032.9A
Other languages
English (en)
Inventor
黄杰
杨成
杨凡
张仕龙
喻涛
孙一丹
姚凤航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202311654032.9A priority Critical patent/CN117676896A/zh
Publication of CN117676896A publication Critical patent/CN117676896A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/40Resource management for direct mode communication, e.g. D2D or sidelink
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/535Allocation or scheduling criteria for wireless resources based on resource usage policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及大规模物联网(mIoT)技术领域,具体公开了一种基于强化学习的6G支持mIoT资源分配方法及***,其首先考虑大规模密集部署需求和相关的重叠干扰,构建了一种新的mIoT超图干扰模型,该模型通过将复杂干扰协调转换为超图强着色问题,可以计算mIoT的干扰度。由于该模型难以求解,本发明提出了一种新的间接解决方案,将干扰协调问题建模为一个马尔可夫决策过程(MDP)。为了避免对MDP的价值过高估计,本发明提出了一种新的基于价值和基于策略的资源管理算法(异步多线程架构)。仿真结果表明,与现有的解决方案相比,本发明提出的方案可以在mIoT场景中获得更好的性能。

Description

基于强化学习的6G支持mIoT资源分配方法及***
技术领域
本发明涉及大规模物联网(mIoT)技术领域,尤其涉及基于强化学习的6G支持mIoT资源分配方法及***。
背景技术
物联网(IoT)***,通常指通过连接到互联网的智能终端设备形成的大规模异构网络,旨在在不同环境中的广泛部署互联物联网设备(ID)。它能够实现各种创新的应用,包括自动驾驶、远程医疗***、智能城市和智能工厂。虽然5G网络比前几代提高了服务质量(QoS),但在未来大规模物联网场景中,充分满足新兴需求将是一项挑战。更具体地说,2030年及以后移动流量的指数级增长将超过5G网络的容量。因此,有必要开发具有6G功能的大型物联网(mIoT)技术来应对这一挑战。
虽然mIoT技术可以通过增加接入点的密度,在提高网络吞吐量和频谱效率方面发挥重要作用。然而,这种方案往往会产生密集和随机部署的基站,可能导致严重的基站间干扰(ICI)和共通道干扰(CCI)问题。因此,这将不可避免地导致网络管理的复杂性增加,并严重限制无线网络的容量。由于网络的频繁拓扑变化和设备的高异构性,使用现有的单基站干扰缓解方法,如ICI协调(ICIC)和增强ICIC(eICIC)来解决干扰问题是无效的。此外,ICIC通过相邻基站之间的信号交换来实现干扰缓解,但这也导致了协调干扰的额外消耗。此外,随着单元数量的增加,同频重用系数也在增加,随着ICIC也使用频率重用,总体上同频干扰大幅增加,最终导致网络容量有限。综上所述,由于基于单小区调度的干扰缓解方法不足以满足日益增长的无线网络密度,且不能有效地处理多小区,考虑到大量的基站,资源管理将成为提高6G支持的mIoT性能的一个关键研究领域。
在密集的无线网络中,可以通过凸优化、离散优化辅助或其他启发式方法等资源管理方案来提高网络吞吐量和消除干扰。基于凸优化的方法通常将非凸混合整数问题转换为近似凸次优问题,可以在有限的迭代次数内进行局部处理。在这方面,为了解决物联网***中ICI带来的挑战,开发了一种协作无线电资源调度器方案,大大降低了ICI的影响。通过考虑到网络区域间用户的均匀分布,开发了软频重用技术来处理ICI。并进一步通过考虑路径损耗和方向性增益来分析物联网中的小小区覆盖面积和链路距离。还有文献提出了一种用于蜂窝通信的资源管理方案,有效地避免了由于基站密度增加而导致的小小区和宏小区层之间的ICI。为了解决相邻接入点间密集频率重用造成的严重簇间干扰,有文献提出了一种正交码域多址方案。由于超密集网络(UDN)中的资源管理问题是非凸的和不坚固的,凸优化方法不能有效地解决这个问题。此外,凸优化通常需要完整的信道状态信息(CSI),获取这些信息将会带来巨大的开销。因此,基于凸优化的方法不能直接适用于6G支持的mIoT场景。
离散优化辅助方法在无线网络的资源分配设计中也得到了广泛的研究,其中大多数研究利用图模型来有效地处理复杂度有限的联合优化问题。在采用设备到设备(D2D)技术的物联网网络领域,有文献提出了一种增强的基于图着色的资源分配方案来解决干扰管理问题。针对动态拓扑特征和有限的频率资源,又文献提出了有效分配频率点的图着色方法,在物联网***中引入了一种具有固定和移动控制层的分层结构,用于物联网***的分配控制。然而,基于图的干扰管理方案不能充分捕获无线网络中的累积干扰。
目前缺乏建议有效的资源管理方案,和大规模的资源分配和累积干扰协调的问题细胞和D2D通信大规模网络仍没有解决。
发明内容
本发明提供基于强化学习的6G支持mIoT资源分配方法及***,解决的技术问题在于:如何解决6g支持的大规模物联网(mIoT)的重叠干扰问题,以提高物联网设备的整体传输速率。
为解决以上技术问题,本发明提供基于强化学习的6G支持mIoT资源分配方法,包括步骤:
S1、构建支持6G功能的mIoT通信网络架构,mIoT指海量物联网;
所述mIoT通信网络架构包括NES个ES、NID个ID和一个云处理器,ES指边缘服务器,ID指IOT设备即物联网设备;ES作为6G基站,具有计算和存储功能,以满足其通信范围内的多个ID的需求;部分ID之间直接进行D2D通信;云处理器负责基带信号处理和通信资源管理;由ID生成的数据存储在云处理器的虚拟资源管理池中,然后通过前端链路将数据分配到ES的一个子集;
S2、建立所述mIoT通信网络架构在资源分配时的超图网络模型;
S3、针对所述超图网络模型中的干扰关系建立超图干扰模型;
S4、基于所述超图干扰模型建立所述mIoT通信网络架构的无冲突资源分配问题;
S5、基于所述无冲突资源分配问题构建为以马尔科夫决策过程为指导的资源分配网络;
S6、采用异步多线程架构训练所述资源分配网络;
S7、训练完成的所述资源分配网络根据当前mIoT通信网络架构的状态进行无干扰资源分配。
进一步地,在所述步骤S4中,所述无冲突资源分配问题构建为:
s.t.(C1):Φ=0
其中,C[m]表示ID m的传输速率,M表示NID个ID的集合,Φ表示mIoT通信网络架构的整体干扰度,Cmin[m]表示最小传输速率;约束C1表示对资源分配没有干扰;约束C2表示每个ID的传输速率都大于最小传输速率Cmin[m];
Φ由下式计算:
其中,表示超图干扰矩阵T中所分配的资源κ的总体干扰程度,超图干扰矩阵T是表征所述超图干扰模型中通信链路关系的一个矩阵,K表示可使用的所有通信资源的集合;
由下式计算:
其中,表示在向量/>中分配的资源κ的重复次数,表示在向量/>中分配的资源κ的重复次数,向量/>表示超图干扰矩阵T的第n行的行向量,/>表示超图干扰矩阵T的第m列的列向量,N表示NES个ES的集合。
进一步地,在所述步骤S2中,所述超图网络模型用初始超图关联矩阵HT表征,HT的行表示顶点,顶点包括NES个ES和NID个ID;HT的列表示建立的超边,建立超边的方法如下:建立以ES或ID为中心的超边,超边内的ID在通信范围内,会造成相互干扰;
HT的第i行第j列的元素(xi,dj)取值如下:
(xi,dj)=1表示顶点xi在超边dj的范围内,(xi,di)=0表示顶点xi不在超边dj的范围内。
进一步地,在所述步骤S3中,超图干扰矩阵T采用如下步骤获得:
S31、通过删除子超边对所述初始进行简化,得到简化超图关联矩阵Hs;
S32、去除简化超图关联矩阵Hs中非重叠的信息,得到重叠超图关联矩阵Ho;
S33、重叠超图关联矩阵Ho中的通信链路关系用超图干扰矩阵T表示,其中重叠超图关联矩阵Ho中为1的元素全用资源表示。
进一步地,在所述步骤S5中,以马尔科夫决策过程为指导,具体是指:
定义在时隙t的状态st为:
其中,表示时隙t时所有ID容量γ的集合,Φ(t)表示时隙t时的Φ,表示时隙t时的Cmin[m],T(t)表示时隙t时的T;st∈S,S表示状态空间;
定义在时隙t时的资源分配动作at为:
其中,κi,j表示at中第i行第j列的元素,κi,j表示第i个ES和第j个ID之间所分配的资源,i=1,2,…,NES,j=1,2,…,NID
定义执行动作at获得的即时奖励rt为:
其中,O(t)=(1-nk(t)/nlink(t))×100%是在时隙t中使用的资源的数量,nlink(t)表示时隙t中的mIoT通信链路数,nk(t)表示在时隙t中使用的资源的数量;
通过计算训练过程中获得的累积奖励U来学习和评估动作空间和状态空间,累积奖励U为:
其中,TL为mIoT的总工作时间。
进一步地,在所述步骤S5中,所述资源分配网络包括超图干扰估计网络和资源配置策略网络;超图干扰估计网络提供状态值函数Vπ(s)和动作值函数Qπ(s,a)来评估由资源配置策略网络生成的资源分配方案;所述资源分配策略网络是一个策略网络,它以状态作为输入,输出近似于策略模型,目的是通过基于超图干扰估计网络提供的值函数更新其参数来最大化预期的累积奖励;
在所述资源分配网络中,定义超图干扰估计函数中的状态值函数Vπ(s)和动作值函数Qπ(s,a)为:
其中,表示期望,s表示时隙t处的当前***状态,a表示时隙t处的当前***动作,λ表示折扣因子,s′表示时隙t处的下一个***状态。
所述超图干扰估计网络的Q值由参数为w的深度神经网络估计,深度神经网络估计的输出被定义为
参数w由下式更新:
η表示学习速率,JQ(ω)为损失函数,为损失函数JQ(ω)的梯度;
JQ(ω)定义为:
其中,π(a∣st+1;θ)表示所述资源分配策略网络为下一状态st+1分配动作a的输出,表示所述超图干扰估计网络在当前状态st下执行动作at的输出,/>表示与/>对应的真实值。
进一步地,所述资源配置策略网络的目的是最大化以下预期的长期折扣奖励:
Jπ(θ)=E[r(τ)]
其中,τ为抽样轨迹,θ为所述资源配置策略网络的参数,为有限步长折扣期望奖励。
参数θ由下式更新:
参数θ的梯度近似为:
其中,π(at∣st,θ)表示所述资源分配策略网络在当前状态st和动作at的输出,表示所述资源分配策略网络在当前状态st所有动作的输出,/>表示所述超图干扰估计网络在当前状态st下所有动作的输出。
进一步地,所述步骤S6具体包括步骤:
S61、创建多个并行的特定于线程的网络,每个特定于线程的网络都有一个具有所述资源分配网络的结构副本的代理;所有代理都共享一个全局的资源分配网络参数,并根据环境状态选择一个动作,从而获得一个奖励和下一个状态;
S62、初始化共享的超图干扰估计网络参数w和共享的资源配置策略网络参数θ,初始化特定于线程的超图干扰估计网络参数ω′和资源配置策略网络参数θ′;
S63、同步特定于线程的网络θ′=θ和ω′=ω;
S64、在每个线程中,执行动作,获取奖励,计算累积梯度;
S65、通过每个线程中计算的累积梯度异步更新共享的网络参数,然后将更新后的共享参数传递给每个特定于线程的网络,然后返回至步骤S64进入下一次循环,直至收敛结束循环。
本发明还提供一种基于强化学习的6G支持mIoT资源分配***,其关键在于:设有智能体,所述智能体上搭载有上述方法中的训练完成的所述资源分配网络。
本发明提供的基于强化学习的6G支持mIoT资源分配方法及***,首先考虑大规模密集部署需求和相关的重叠干扰,构建了一种新的mIoT超图干扰模型,该模型通过将复杂干扰协调转换为超图强着色问题,可以计算mIoT的干扰度。由于该模型难以求解,本发明提出了一种新的间接解决方案,将干扰协调问题建模为一个马尔可夫决策过程(MDP)。为了避免对MDP的价值过高估计,本发明提出了一种新的基于价值和基于策略的资源管理算法(异步多线程架构)。仿真结果表明,与现有的解决方案相比,本发明提出的方案可以在mIoT场景中获得更好的性能。
附图说明
图1是本发明实施例提供的基于强化学习的6G支持mIoT资源分配方法的步骤流程图;
图2是本发明实施例提供的支持6G功能的海量物联网架构图;
图3是本发明实施例提供的通信网络架构示例图;
图4是本发明实施例提供的超图模型示例图;
图5是本发明实施例提供的mIoT中的两种干扰示例图;
图6是本发明实施例提供的采用深度RL框架对mIoT进行无干扰资源管理的流程图;
图7是本发明实施例提供的HIEN-RASN算法的原理图;
图8是本发明实施例提供的异步HIEN-RASN算法的原理图;
图9是本发明实施例提供的不同的学习率下异步HIEN-RASN算法的总奖励折线图;
图10是本发明实施例提供的不同的算法的总奖励折线图;
图11是本发明实施例提供的不同ID数量下的资源利用率折线图;
图12是本发明实施例提供的不同ES数量下的资源利用率折线图;
图13是本发明实施例提供的不同链接数下的资源利用率折线图;
图14是本发明实施例提供的不同ID数量下的吞吐量折线图;
图15是本发明实施例提供的不同ES数量下的吞吐量折线图;
图16是本发明实施例提供的不同链接数量下的吞吐量折线图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
本发明实施例提供的基于强化学习的6G支持mIoT资源分配方法,如图1所示,在本实施例中,包括步骤:
S1、构建支持6G功能的mIoT通信网络架构,mIoT指海量物联网;
S2、建立mIoT通信网络架构在资源分配时的超图网络模型;
S3、针对超图网络模型中的干扰关系建立超图干扰模型;
S4、基于超图干扰模型建立mIoT通信网络架构的无冲突资源分配问题;
S5、基于无冲突资源分配问题构建为以马尔科夫决策过程为指导的资源分配网络;
S6、采用异步多线程架构训练资源分配网络;
S7、训练完成的资源分配网络根据当前mIoT通信网络架构的状态进行无干扰资源分配。
(1)步骤S1
如图1的架构图所示,mIoT通信网络架构包括NES个ES(用集合N表示)、NID个ID(用集合M表示)和一个云处理器(C-RAN或云RAN),ES指边缘服务器,ID指IOT设备即物联网设备。ES作为6G基站,具有计算和存储功能,以满足其通信范围内的多个ID的需求,被战略性地部署。部分ID之间直接进行D2D通信,这些D2D的ID用集合表示。云处理器负责基带信号处理和通信资源管理。由ID生成的数据存储在云处理器的虚拟资源管理池中,然后通过前端链路将数据分配到ES的一个子集。此外,发射器和接收器所经历的信道衰落符合准静态瑞利衰落模型。
因此,接收器m的信噪比(SINR)可以表示为:
其中,Pn,m和Pn,k分别代表了接收器m和其他接收器k的传输能力;hn,m是对应于接收器m的信道功率增益,σ2是噪声能量,是接收器k的干扰功率增益;ρn[m]是资源分配指示符,如果发射器n分配给接收器m的资源是无干扰使用,则ρn[m]=1,反之则ρn[m]=0;/>是资源分配指示符,如果接收器k由发射器n分配资源并让接收器m不受干扰,则否则/>
因此,接收器m的最大接收量为:
C[m]=W.log(1+γ[m])
其中,W是带宽。
(2)步骤S2:建立超图网络模型
当ES将同一资源分配给多个ID时,ID会相互干扰,导致通信中断。在这种情况下,传统的图只能描述两个ID之间的关系,而不能建立多个ID之间的关系。因此,在mIoT中,ID之间的关系是使用超图来建模的。
基于顶点与超边之间的关系,建立超边的方法如下:建立以设备为中心的超边,每个超边包含许多被覆盖的设备。超边缘内的ID在通信范围内,会造成相互干扰。以图3所示的通信网络架构为例,根据建立超边缘的方法,将通信网络架构建模为初始超图模型如图4(a)所示,图4(a)可以用矩阵HT表示。
其中,行表示超图的顶点,列表示超边。表示以ES i(第i个ES)为中心建立的超边缘,/>表示用以第j个ID为中心建立的超边。HT的第i行第j列的元素(xi,dj)取值如下:
(xi,dj)=1表示顶点xi在超边dj的范围内,(xi,di)=0表示顶点xi不在超边dj的范围内。
(3)步骤S3:建立超图干扰模型
由于设备的通信范围不同,在初始超图模型中,一个超边包含另一个超边,即一个子超边。因此,可以通过删除子超边来简化初始超图,而不会改变顶点之间的关系。子超边可以通过列的交集来判断。例如:
显示该超边缘是/>的一个子超边缘。因此,通过删除表示子超边的列,HT被简化为/>图4(a)可以简化为图4(b)。
由于本例关注于重叠的超边,所以可以去除非重叠的信息来得到重叠超图关联矩阵Ho:
因为资源不能在重叠的超边缘中重复使用。因此,将资源分配问题转化为一个顶点着色问题。在mIoT中存在一种情况,大量ID通过相同的ES重用相同的资源,导致mIoT碰撞。因此,ID的SINR存在严重的干扰级别,这可能会导致ID无法接收到数据而发生数据中断。
为了测量ID的干扰,本例定义了一个超图干扰矩阵T来表示mIoT中的通信链路关系。具体的定义为:
其中kn,m表示ES n与ID m通信所用的通信资源,并且K表示mIoT可使用的所有通信资源的集合。
mIoT有两种通信干扰,如图5所示。第一种类型是由ES使用相同的资源与多个ID进行通信而生成的,比如k1,1=k1,3。第二种类型是由ID使用相同的资源与多个ES进行通信而生成的,比如k1,1=k4,1。因此,可以根据超图干扰矩阵T计算mIoT的总体干扰,具体是使用超图干扰矩阵T的行列关系来量化mIoT的整体干扰度。本例定义了一个函数f(κ,TX),来计算在向量TX中分配的资源κ的重复次数,如下所示:
其中,nκ表示向量TX中已分配的资源κ的重复次数。比如,在图5中,ES1和ES 4与ID1通信通过使用相同的资源1,k1,1=k4,1=1,它会引起干扰,因此,干扰度为ID 1和ID 3通过使用相同的资源1,k1,3=k1,1=1与ES1通信,它会引起干扰,因此,干扰度为/>
而所分配的资源κ的总体干扰程度可以定义为:
其中,表示在向量/>中分配的资源κ的重复次数,表示在向量/>中分配的资源κ的重复次数,向量/>表示超图干扰矩阵T的第n行的行向量,/>表示超图干扰矩阵T的第m列的列向量。此外,通过对所有通信资源的干扰度相加,可以得到mIoT的总体干扰度Φ:
其中,Φ=0表示对mIoT的资源分配没有干扰。
(4)步骤S4:构建优化问题
智能资源管理的任务是在超图干扰模型的指导下,无干扰地将通信资源分配给ID。考虑到用户服务的最低速率要求,有必要考虑每个ID传输速率都大于最小传输速率Cmin[m],如下所示:
此外,将mIoT***的资源分配问题表述为一个优化问题如下:
s.t.(C1):Φ=0
优化的目标是使每个ID的传输速率最大化。对于约束部分,约束C1表示mIoT的总干扰度必须为零,为了解决mIoT大规模密集部署的重叠干扰问题。约束C2确保了mthID通过设置最小传输速率Cmin[m]来满足传输速率的要求。
(5)步骤S5:马尔科夫的决策过程框架
为了求解超图干扰模型的计算复杂度问题,本例将干扰协调问题建模为具有密集部署的mIoT中的一个MDP(马尔科夫决策过程)。MDP由状态空间、动作空间、即时奖励、价值函数等组成,这些都需要针对密集部署的mIoT进行具体定义。图6所示为一个深度RL框架支持对mIoT进行无干扰的资源管理流程图。
A、状态空间
***状态由虚拟资源管理池(VRMP)在时隙t时从mIoT信息中观察到的以下参数形成:
(1)时隙t时所有ID容量γ的集合;
(2)Φ(t):时隙t时mIoT的整体干扰;
(3)表示时隙t时的Cmin[m],最低传输速率要求的设定;
(4)T(t):时隙t时的超图干扰矩阵T。
在时隙t时,***状态为st,st∈S,S表示状态空间,st定义如下:
通过在深度RL中采取行动,mIoT密集部署环境从状态st转换至状态st+1
B、动作空间
在mIoT资源管理过程中,VRMP(虚拟资源管理池)对来自ES的通信请求做出决策,该决策包括ES和ID之间的通信资源矩阵。在t时刻,所执行的动作at矩阵被定义为其中A表示动作空间,而at定义如下:
κi,j表示at中第i行第j列的元素,κi,j表示第i个ES和第j个ID之间所分配的资源,i=1,2,…,NES,j=1,2,…,NID,NES表示ES数量,NID表示ID数量。
C、即时奖励
奖励函数rt对于无干扰资源分配至关重要,因为它影响学习算法的收敛性和性能。此外奖励函数将用于评价状态空间和动作空间。即时奖励的目的是在本例的网络的C1和C2约束下,最大化资源利用率。因此,即时奖励可以表示为:
O(t)=(1-nk(t)/nlink(t))×100%是在时隙t中使用的资源的数量,nlink(t)表示时隙t中的mIoT通信链路数,nk(t)表示时隙t中使用的资源的数量。
为了评估VRMP学习过程中的干扰协调表现,通过计算训练过程中获得的累积奖励U来学习和评估动作状态空间,累积奖励U为:
其中,TL为mIoT的总工作时间。
D、状态转换概率
利用超图模型得到的mIoT的干扰状态是离散的。在采取后,旧状态向新状态的转移概率写成:
p(s′|s,a)=Pr(St+1=s′|St=s,At=a)
E、资源分配策略
在mIoT干扰协调中,资源分配策略π(a∣s)是为每个状态指定最佳操作的指南,以提高资源利用率。在时隙t时的采取动作a的状态s下的资源分配策略被定义为:
π(a|s)=Pr(At=a|St=s)
F、超图干扰估计函数
超图干扰估计函数包括状态值函数和动作值函数。状态值函数Vπ(s)表示来自状态s的预期返回,而动作值函数Qπ(s,a)状态值函数表示来自状态s的预期返回,而动作值函数表示执行动作a后的预期返回。Vπ(s)、Qπ(s,a)定义如下:
其中,表示期望,为简单起见,s表示时隙t处的当前***状态,a表示时隙t处的当前***动作,λ表示折扣因子,s′表示时隙t处的下一个***状态。
(6)步骤S6:基于价值和策略的人机交互资源管理算法
A、超图干扰估计网络
超图干扰估计网络(HIEN)可以提供一个值函数来评估由策略网络生成的资源分配方案。Q值由深度神经网络(DNN)估计,即使用参数w来近似动作值函数Qπ(s,a),它可以被定义为该参数的更新依照下式:
η表示学习速率,JQ(ω)为超图干扰估计网络的损失函数,为损失函数JQ(ω)的梯度。
损失函数JQ(ω)被定义为:
其中,π(a∣st+1;θ)表示资源网络(资源分配策略网络)为下一状态st+1分配动作a的输出,表示所述超图干扰估计网络在当前状态st下执行动作at的输出,表示与/>对应的真实值。
为了推导最大化目标的梯度,本例利用行动值函数为了训练本文利用梯度下降法,其公式为:
为了解决mIoT的巨大数据量问题,使用了一种异步HIEN-RASN方法,该方法使用了Adam优化算法来更新DNN参数,会在下文中单独介绍。
B、资源配置策略网络
在通信过程中,每个ID只与一个ES进行通信,即该ID从多个分配的资源中选择一个高度重用的资源。未使用的资源被放置在一个资源池中,供ES和非重叠的ID使用。在将资源分配到重叠区域后,ESs和非重叠的ID通过贪婪算法从剩余的资源中选择资源。
资源分配策略网络(RASN)是一个策略网络,它以状态作为输入,输出近似于策略模型π(a|s;θ),目的是通过基于HIEN提供的值函数更新其参数来最大化预期的累积奖励。RASN试图优化策略π(a|s;θ),该策略给出了每个状态的动作概率分布,以在无干扰约束下获得最高的吞吐量。为了更新策略π(a|s;θ),本例采用了DRL的策略梯度法,目的是最大化以下预期的长期折扣奖励。基于策略的优化范围是从期望的角度最大化累积折扣奖励,这可以写成:
Jπ(θ)=E[r(τ)]
其中,τ为抽样轨迹,为有限步长折扣期望奖励。
假设梯度策略π(a|s;θ)在参数θ中是可微的。HIEN-RASN方法的目的是找到一个最优的策略πθ最大化期望Jπ(θ)。参数θ梯度经推导可以表示为:
在时间隙t本例可以衡量采取行动的优势at为形态st,通过比较平均值和估计值,优势函数是:
优势函数可以指导VRMP代理了解如何更新DNN。具体来说,优势函数评估来自RASN的策略操作的优点或缺点。
通过最小化Jπ(θ),策略参数θ以梯度下降方向更新:
因此,参数θ梯度可以近似为:
其中,π(at∣st,θ)表示所述资源分配策略网络在当前状态st和动作at的输出,表示所述资源分配策略网络在当前状态st所有动作的输出,/>表示所述超图干扰估计网络在当前状态st下所有动作的输出。
C、HIEN-RASN资源管理算法
本发明提出了超图干扰估计网络和资源分配策略网络资源管理(HR-RM)算法。RASN和HIEN是两种参数不同的DNN模型。它结合了HIEN进程和RASN进程的优点。HIEN参数和RASN参数由VRMP依次更新。HIEN-RASN方法可以学习参数随机性。
所提出的HIEN-RASN资源管理算法有以下主要步骤:
(1)参数化的随机策略π(a|s;θ)和动作值函数近似分别由HIEN和RASN初始化,同时,还设置了重放缓存器D;
(2)在t时刻,HIEN基于当前的RASNπ(a|s;θ)和环境状态st产生动作at
(3)VRMP执行资源分配,以获得即时奖励rt,并观察下一个状态st+1的mIoT
(4)元组{st,at,rt,st+1}由VRMP代理在观察到mIoT环境的下一个状态st+1后存储在体验重放缓冲区D中;
(5)从经验重放缓冲区D中,随机抽取一个小批I元组;
(6)HIEN估计任何样本i∈I的动作状态函数近似并计算参数ω的梯度。然后通过用梯度JQ(ω)更新其参数ω,使损失函数最小化;
(7)RASN使用输出(损失函数和估计的动作状态函数)计算任何样本i∈I的θ梯度,并通过使用梯度JQ(θ)更新其参数θ来调整动作概率。
D、异步HIEN-RASN资源管理算法
HR-RM算法不能有效地处理大动作状态空间,针对于此,本文提出了异步超图干扰估计网络和资源分配策略网络资源管理(AHR-RM)算法,其使用异步多线程架构来提高资源管理性能,如图8所示。在AHR-RM算法中,本例创建了多个并行环境,每个环境都有一个具有结构副本的代理。所有代理都共享一个全局的HIEN-RASN参数,并根据环境状态选择一个动作,从而获得一个奖励和下一个状态。由于计算资源需求较低,异步方法可以可靠地训练DNN策略。
AHR-RM算法的主要步骤如下:
(1)VRMP初始化所有的变量;
(2)VRMP初始化参数化的随机策略π(a|s;θ,),并定义了参数化的动作值函数近似
(3)VRMP创建多个特定于线程的代理,在初始化参与者网络θ′和评论家网络ω′在所有特定于线程的代理中;
(4)使用其RASN与策略π(at|st;θ′),一个特定于线程的代理在一个给定的时间段t估计动作at
(5)执行动作at环境将变为下一个状态st+1,然后得到相应的奖励rt,并将其反馈给代理;
(6)特定于线程的代理将生成样本{st,at,rt,st+1},并将其存储到重放缓存器D中;
(7)由线程特定代理重复TL时隙后从批评网络中得到动作值函数,然后得到TL时隙内每个状态的值估计
(8)特定于线程的代理使用Adam方法计算并累积梯度;
(9)共享mIoT网络的网络参数通过线程特定网络中每个代理积累的梯度异步更新。然后,将更新后的参数传递给每个特定于线程的网络。
E、复杂性分析
本部分分析AHR-RM了的复杂性。AHR-RM算法的时间复杂度主要依赖于RASN复杂度ο(TRASN),HIEN复杂度ο(THIEN),使用的代理的数量为NAgent,智能体而训练迭代的次数为NIte,因此,算法2的复杂性可以表示为:
/>
与HR-RM算法O(NIteTRASN+NIteTHIEN)的时间复杂度相比,AHR-RM算法通过并行异步学习架构降低了时间复杂度。因此,代理的数量越多,AHR-RM算法的训练速度就越快。
基于上述方法,本发明实施例还提供一种基于强化学习的6G支持mIoT资源分配***,其设有智能体,智能体上搭载有训练完成的资源分配网络。
下面进行实验模拟。
A、模拟详细信息
本例使用Pytorch在一个基于python的模拟器上运行模拟,并在一个使用Gold 6242R CPU@3。10GHz(20个cpu),64GB内存和英伟达GeForce RTX3080Ti GPU的通用服务器上测试本例提出的算法。
表1显示了本例用于实验的参数。
表1
实验参数
参数 定义
W 带宽 20MHZ
η 学习率 10-3
NID ID数量 6,20,25,…,60
NES ES数量 4,10,15,…50
NLINK 链路数量 13,100,110,…,180
λ 折扣因子 0.95
B、算法的性能
图9说明了训练迭代中不同学习率η的瞬时奖励图和总奖励图,其中横轴和纵轴分别为训练迭代的次数和代理获得的奖励量。如图9所示,本发明所提出的HR-RM算法随着学习速率η越大,收敛速度越快。
图10说明了在所提出的基于异步学习的方案中,考虑到对学习次数的限制,不同的学习速率设置所获得的总奖励。在这个场景中,有4个ES、6个ID和13个链接。结果表明,所提出的AHR-RM方案获得的总奖励约为2.4×104,经过3000次训练迭代,其性能优于基于HR-RM和PPO的方案,后者仅实现了约1.5×104。相比之下,随机分配(RA)资源管理算法在不使用并行结构的情况下,其总奖励约为0.6×104。HR-RM算法在探索一个巨大的行动和状态空间方面面临着挑战,这使得它更难逃避局部最优。这些结果突出表明,所提出的AHR-RM算法在处理大型动作空间时,同时利用了基于价值和基于策略的方法的优点,从而获得了优越的收敛性能。
C、与网络结构复杂性的性能比较
1)资源利用率:用于评价在无干扰资源分配条件下的资源使用网络的性能。
图11中比较了四种算法的资源利用率与ID数量的关系。四种算法分别为:本例提出的AHR-RM,提出的HR-RM,PPO(近端策略优化)和RA(随机资源分配)。
从图11中可以看出HR-RM和PPO的资源利用率随着ID数量的增加而降低,说明这些算法无法处理来自大量ID的干扰。然而,HR-RM在NID=20到NID=60范围内的资源利用率高于PPO,图11中还显示,所提出的AHR-RM在所有具有不同ID数量的场景中都实现了最高的资源利用率。该方案提出的AHR-RM的平均资源利用率在NID=20到NID=60范围内为49.726%,比HR-RM高7.343%,比PPO高8.665%,比RA高15.040%。
图12显示了资源利用率如何随着不同数量的ES而变化。当ES较多时,所提出的AHR-RM方案的资源利用率较低。这是因为当其他参数固定时,网络结构的复杂性降低了频谱重用率。
但在不同数量的ESs条件下,该方案的平均资源利用率仍然最高,为50.751%。它比HR-RM方案高3.465%,比PPO方案高7.148%,比RA计划高15.606%。
图13说明了当其他参数被固定时资源利用率随ES数量的变化。当链接数越多时,所提出的AHR-RM方案的资源利用率较低。在给定的NID和NES下,更多的通信链接导致较低的性能。但该方案在不同数量的链接下的平均资源利用率仍然最高,为47.997%。
2)网络吞吐量
图14显示了当其他参数保持不变时四种不同方案下ID数量NID变化时的网络吞吐量比较。可以看出,所提出的AHR-RM方案的网络吞吐量随着ID数量的增加而增加。从图14中可以看出,AHR-RM方案比PPO方法具有更高的性能,且优于RA方案。此外,本例还发现,当NID达到60时,该方案可以获得最高的网络吞吐量5.27GB/s,而其他网络吞吐量方案达到瓶颈时,当ID的数量超过45。原因很直观:所提出的AHR-RM方案可以有效地实现无干扰的资源分配,确保所有用户的正常通信,因此,随着正常通信ID数的增加,网络吞吐量的增加是合理的。
图15显示了当其他参数保持不变时不同方案随ES数量NES变化时的网络吞吐量比较。可以观察到,增加ES数量只影响RA算法的性能,这是因为mIoT的性能主要受网络的干扰协调能力当ID号码是固定的,而信息的最大网络吞吐量几乎是恒定的。
图16显示了当其他参数不变时不同链路数Nlink的网络吞吐量在AHRRM、HR-RM、PPO和RA算法之间的差异。可以观察到,增加链路数并不影响所提出的AHR-RM的性能方案。这是因为当mIoT使用所提出的AHR-RM方案时,mIoT有效地处理了通信链路增加所导致的复杂网络结构的增加。因此,当ID数量不变时,所提出的AHR-RM方案可以随着通信链路的变化而始终保持最大的网络吞吐量。
综上所述,本实施例提供的基于强化学习的6G支持mIoT资源分配方法及***,首先考虑大规模密集部署需求和相关的重叠干扰,构建了一种新的mIoT超图干扰模型,该模型通过将复杂干扰协调转换为超图强着色问题,可以计算mIoT的干扰度。由于该模型难以求解,本发明提出了一种新的间接解决方案,将干扰协调问题建模为一个马尔可夫决策过程(MDP)。为了避免对MDP的价值过高估计,本发明提出了一种新的基于价值和基于策略的资源管理算法(异步多线程架构),以解决mIoT中大规模无线设备的大规模密集部署所带来的重叠干扰问题。考虑到大量设备接入引起的重叠干扰特性,分析了网络拓扑与重叠干扰的关系,并基于超图模型导出了总体干扰计算公式(超图干扰模型)。然后,提出了一种基于超图干扰模型的新型资源管理方法。仿真结果验证了理论结果的正确性,并表明该方案优于其他方案。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.基于强化学习的6G支持mIoT资源分配方法,其特征在于,包括步骤:
S1、构建支持6G功能的mIoT通信网络架构,mIoT指海量物联网;
所述mIoT通信网络架构包括NES个ES、NID个ID和一个云处理器,ES指边缘服务器,ID指IOT设备即物联网设备;ES作为6G基站,具有计算和存储功能,以满足其通信范围内的多个ID的需求;部分ID之间直接进行D2D通信;云处理器负责基带信号处理和通信资源管理;由ID生成的数据存储在云处理器的虚拟资源管理池中,然后通过前端链路将数据分配到ES的一个子集;
S2、建立所述mIoT通信网络架构在资源分配时的超图网络模型;
S3、针对所述超图网络模型中的干扰关系建立超图干扰模型;
S4、基于所述超图干扰模型建立所述mIoT通信网络架构的无冲突资源分配问题;
S5、基于所述无冲突资源分配问题构建为以马尔科夫决策过程为指导的资源分配网络;
S6、采用异步多线程架构训练所述资源分配网络;
S7、训练完成的所述资源分配网络根据当前mIoT通信网络架构的状态进行无干扰资源分配。
2.根据权利要求1所述的基于强化学习的6G支持mIoT资源分配方法,其特征在于,在所述步骤S4中,所述无冲突资源分配问题构建为:
s.t.(C1):Φ=0
(C2):
其中,C[m]表示ID m的传输速率,M表示NID个ID的集合,Φ表示mIoT通信网络架构的整体干扰度,Cmin[m]表示最小传输速率;约束C1表示对资源分配没有干扰;约束C2表示每个ID的传输速率都大于最小传输速率Cmin[m];
Φ由下式计算:
其中,表示超图干扰矩阵T中所分配的资源κ的总体干扰程度,超图干扰矩阵T是表征所述超图干扰模型中通信链路关系的一个矩阵,K表示可使用的所有通信资源的集合;
由下式计算:
其中,表示在向量/>中分配的资源κ的重复次数,/>表示在向量/>中分配的资源κ的重复次数,向量/>表示超图干扰矩阵T的第n行的行向量,/>表示超图干扰矩阵T的第m列的列向量,N表示NES个ES的集合。
3.根据权利要求2所述的基于强化学习的6G支持mIoT资源分配方法,其特征在于:在所述步骤S2中,所述超图网络模型用初始超图关联矩阵HT表征,HT的行表示顶点,顶点包括NES个ES和NID个ID;HT的列表示建立的超边,建立超边的方法如下:建立以ES或ID为中心的超边,超边内的ID在通信范围内,会造成相互干扰;
HT的第i行第j列的元素(xi,dj)取值如下:
(xi,dj)=1表示顶点xi在超边dj的范围内,(xi,di)=0表示顶点xi不在超边dj的范围内。
4.根据权利要求3所述的基于强化学习的6G支持mIoT资源分配方法,其特征在于,在所述步骤S3中,超图干扰矩阵T采用如下步骤获得:
S31、通过删除子超边对所述初始进行简化,得到简化超图关联矩阵Hs;
S32、去除简化超图关联矩阵Hs中非重叠的信息,得到重叠超图关联矩阵Ho;
S33、重叠超图关联矩阵Ho中的通信链路关系用超图干扰矩阵T表示,其中重叠超图关联矩阵Ho中为1的元素全用资源表示。
5.根据权利要求4所述的基于强化学习的6G支持mIoT资源分配方法,其特征在于,在所述步骤S5中,以马尔科夫决策过程为指导,具体是指:
定义在时隙t的状态st为:
其中,表示时隙t时所有ID容量γ的集合,Φ(t)表示时隙t时的Φ,/>表示时隙t时的Cmin[m],T(t)表示时隙t时的T;st∈S,S表示状态空间;
定义在时隙t时的资源分配动作at为:
其中,κi,j表示at中第i行第j列的元素,κi,j表示第i个ES和第j个ID之间所分配的资源,i=1,2,…,NES,j=1,2,…,NID
定义执行动作at获得的即时奖励rt为:
其中,O(t)=(1-nk(t)/nlink(t))×100%是在时隙t中使用的资源的数量,nlink(t)表示时隙t中的mIoT通信链路数,nk(t)表示在时隙t中使用的资源的数量;
通过计算训练过程中获得的累积奖励U来学习和评估动作空间和状态空间,累积奖励U为:
其中,TL为mIoT的总工作时间。
6.根据权利要求5所述的基于强化学习的6G支持mIoT资源分配方法,其特征在于,在所述步骤S5中,所述资源分配网络包括超图干扰估计网络和资源配置策略网络;超图干扰估计网络提供状态值函数Vπ(s)和动作值函数Qπ(s,a)来评估由资源配置策略网络生成的资源分配方案;所述资源分配策略网络是一个策略网络,它以状态作为输入,输出近似于策略模型,目的是通过基于超图干扰估计网络提供的值函数更新其参数来最大化预期的累积奖励;
在所述资源分配网络中,定义超图干扰估计函数中的状态值函数Vπ(s)和动作值函数Qπ(s,a)为:
其中,表示期望,s表示时隙t处的当前***状态,a表示时隙t处的当前***动作,λ表示折扣因子,s′表示时隙t处的下一个***状态;
所述超图干扰估计网络的Q值由参数为w的深度神经网络估计,深度神经网络估计的输出被定义为
参数w由下式更新:
η表示学习速率,JQ(ω)为损失函数,为损失函数JQ(ω)的梯度;
JQ(ω)定义为:
其中,π(a∣st+1;θ)表示所述资源分配策略网络为下一状态st+1分配动作a的输出,表示所述超图干扰估计网络在当前状态st下执行动作at的输出,/>表示与/>对应的真实值。
7.根据权利要求6所述的基于强化学习的6G支持mIoT资源分配方法,其特征在于,所述资源配置策略网络的目的是最大化以下预期的长期折扣奖励:
Jπ(θ)=E[r(τ)]
其中,τ为抽样轨迹,为有限步长折扣期望奖励;
参数θ由下式更新:
参数θ的梯度近似为:
其中,π(at∣st,θ)表示所述资源分配策略网络在当前状态st和动作at的输出,表示所述资源分配策略网络在当前状态st所有动作的输出,/>表示所述超图干扰估计网络在当前状态st下所有动作的输出。
8.根据权利要求7所述的基于强化学习的6G支持mIoT资源分配方法,其特征在于,所述步骤S6具体包括步骤:
S61、创建多个并行的特定于线程的网络,每个特定于线程的网络都有一个具有所述资源分配网络的结构副本的代理;所有代理都共享一个全局的资源分配网络参数,并根据环境状态选择一个动作,从而获得一个奖励和下一个状态;
S62、初始化共享的超图干扰估计网络参数w和共享的资源配置策略网络参数θ,初始化特定于线程的超图干扰估计网络参数ω′和资源配置策略网络参数θ′;
S63、同步特定于线程的网络θ′=θ和ω′=ω;
S64、在每个线程中,执行动作,获取奖励,计算累积梯度;
S65、通过每个线程中计算的累积梯度异步更新共享的网络参数,然后将更新后的共享参数传递给每个特定于线程的网络,然后返回至步骤S64进入下一次循环,直至收敛结束循环。
9.基于强化学习的6G支持mIoT资源分配***,其特征在于:设有智能体,所述智能体上搭载有权利要求1~8任意一项所述的训练完成的所述资源分配网络。
CN202311654032.9A 2023-12-05 2023-12-05 基于强化学习的6G支持mIoT资源分配方法及*** Pending CN117676896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311654032.9A CN117676896A (zh) 2023-12-05 2023-12-05 基于强化学习的6G支持mIoT资源分配方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311654032.9A CN117676896A (zh) 2023-12-05 2023-12-05 基于强化学习的6G支持mIoT资源分配方法及***

Publications (1)

Publication Number Publication Date
CN117676896A true CN117676896A (zh) 2024-03-08

Family

ID=90074631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311654032.9A Pending CN117676896A (zh) 2023-12-05 2023-12-05 基于强化学习的6G支持mIoT资源分配方法及***

Country Status (1)

Country Link
CN (1) CN117676896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118139014A (zh) * 2024-04-08 2024-06-04 重庆理工大学 基于鲁棒学习的mIoV联合干扰资源分配方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116193608A (zh) * 2023-02-22 2023-05-30 重庆理工大学 基于深度强化学习的6g密集组网无交叠干扰资源分配方法
WO2023179010A1 (zh) * 2022-03-22 2023-09-28 南京邮电大学 一种noma-mec***中的用户分组和资源分配方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023179010A1 (zh) * 2022-03-22 2023-09-28 南京邮电大学 一种noma-mec***中的用户分组和资源分配方法及装置
CN116193608A (zh) * 2023-02-22 2023-05-30 重庆理工大学 基于深度强化学习的6g密集组网无交叠干扰资源分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FAN YANG等: "Hypergraph-Based Resource-Efficient Collaborative Reinforcement Learning for B5G Massive IoT", IEEE COMMUNICATIONS SOCIETY, 25 October 2023 (2023-10-25) *
JIE HUANG等: "Reinforcement Learning based Resource Management for 6G-Enabled mIoT with Hypergraph Interference Model", IEEE TRANSACTIONS ON COMMUNICATION(EARLY ACESS), 4 March 2024 (2024-03-04) *
黄杰等: "超密集网络导频复用干扰避免策略", 通信学报, vol. 41, no. 7, 31 July 2020 (2020-07-31) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118139014A (zh) * 2024-04-08 2024-06-04 重庆理工大学 基于鲁棒学习的mIoV联合干扰资源分配方法及***

Similar Documents

Publication Publication Date Title
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
CN111586720A (zh) 一种多小区场景下的任务卸载和资源分配的联合优化方法
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和***
CN111669775B (zh) 一种异构网络下基于支持向量机的资源分配方法
Balakrishnan et al. Deep reinforcement learning based traffic-and channel-aware OFDMA resource allocation
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
EP4024212A1 (en) Method for scheduling interference workloads on edge network resources
Zabaleta et al. Quantum game application to spectrum scarcity problems
CN113641504A (zh) 用于提升多智能体强化学习边缘计算效果的信息交互方法
Li et al. User-oriented edge node grouping in mobile edge computing
Mafuta et al. Decentralized resource allocation-based multiagent deep learning in vehicular network
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
CN117440442B (zh) 基于图强化学习的物联网资源无冲突分配方法及***
Wang et al. Practical computation of optimal schedules in multihop wireless networks
Zou et al. Multi-agent reinforcement learning enabled link scheduling for next generation Internet of Things
CN108260193B (zh) 一种异构网络中基于信道聚合的联合资源分配方法及装置
CN117376355B (zh) 基于超图的b5g海量物联网资源分配方法及***
CN118042633A (zh) 基于联合强化学习的联合干扰和AoI感知资源分配方法及***
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Sun et al. Joint ddpg and unsupervised learning for channel allocation and power control in centralized wireless cellular networks
Peng et al. Ultra-dense heterogeneous relay networks: A non-uniform traffic hotspot case
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
CN116634450A (zh) 一种基于强化学习的动态空地异构网络用户关联增强方法
CN117676896A (zh) 基于强化学习的6G支持mIoT资源分配方法及***
Dubey et al. Computation offloading techniques in mobile edge computing environment: A review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination