CN112954814B - 一种认知无线电中信道质量性接入方法 - Google Patents

一种认知无线电中信道质量性接入方法 Download PDF

Info

Publication number
CN112954814B
CN112954814B CN202110107271.7A CN202110107271A CN112954814B CN 112954814 B CN112954814 B CN 112954814B CN 202110107271 A CN202110107271 A CN 202110107271A CN 112954814 B CN112954814 B CN 112954814B
Authority
CN
China
Prior art keywords
network
channel
actor
secondary user
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110107271.7A
Other languages
English (en)
Other versions
CN112954814A (zh
Inventor
叶方
张音捷
李一兵
孙骞
田园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110107271.7A priority Critical patent/CN112954814B/zh
Publication of CN112954814A publication Critical patent/CN112954814A/zh
Application granted granted Critical
Publication of CN112954814B publication Critical patent/CN112954814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种认知无线电中信道质量性接入方法,具体步骤为:本地网络有自己的演员网络与评论家网络,演员网络负责信道选择,与环境进行互动收集交互信息,评论家网络评价演员网络信道选择策略的优劣,但是本地网络不更新梯度,而是将梯度收集起来传递给全局网络,全局网络自身不与环境进行交互,其将各个本地网络收集到的梯度汇总起来,在自身上进行梯度更新,并且将更新后的网络参数再次传给本地网络。本发明综合考虑了信道质量和空闲概率,次用户能够有效避免接入劣质信道,大幅提高接入符合服务质量要求的接入成功率。

Description

一种认知无线电中信道质量性接入方法
(一)技术领域
本发明属于通信技术领域,特别是认知无线电通信技术,具体涉及认知无线电中信道质量性接入方法。
(二)背景技术
随着4G/5G网络的普及,移动设备不断增多,以及云计算、物联网、人工智能等多元学科的产生,新兴通信业务层出不穷。然而,无线频谱作为各类通信业务的运行基础在现有的频谱规划管理下已经变得日益稀缺。现有频谱分配方式具有独占性和排他性,即使授权用户并未使用其被分配到的频段,其他用户也无法使用。认知无线电通过动态频谱接入的方式使用授权频段,在不对授权用户/主用户造成有害干扰的前提下,为提高频谱利用率提供了全新的方案。而次用户感知接入的信道将直接影响次用户的感知延迟,传输性能等方面,其研究迫在眉睫,将成为提高认知无线电***性能的关键因素之一。
现有的信道接入算法采用序贯检测接入,在感知前确定感知顺序,按照定义好的感知顺序进行感知。序贯检测接入在已知某些信道环境先验信息的条件下,如信道空闲概率、主用户占用规律和信道信噪比等信息,设计信道感知接入顺序。虽然序贯检测接入设计简单,但是其需要知道大部分的环境先验信息,其在实际环境中很难实现。并且序贯检测算法性能很容易受到环境中“劣质信道”的影响,信道虽然空闲程度较高,但是信噪比较小;或者信道虽然较大,但是主用户占用频繁。如基于信噪比序贯检测算法很容易选择信噪比较高但是主用户占用频繁的信道,造成感知接入成功率低;或者基于信道空闲概率的序贯检测算法容易选择空闲程度高但是信噪比较低的信道,造成不符合次用户服务质量要求,次用户获得的吞吐量较低的结果。
深度强化学习在电子游戏、机器人、围棋等领域取得了优秀成功,其可以在缺失大部分环境先验信息的前提下,与环境互动进行学习,从而进行智能决策。本发明将深度强化学习中的异步优势演员评论家网络引入认知无线电中,使次用户可以在未知大部分信道环境先验信息的条件下智能选择符合自身服务质量需求的信道进行感知接入。
(三)发明内容
本发明的目的在于提出一种可以克服序贯检测算法容易受到环境中劣质信道的干扰的缺点与不足;并且在未知大部分信道环境先验信息方法智能选择符合自身服务质量需求的信道进行感知接入的方法。
本发明的目的是这样实现的:
1.1初始化全局网络中的演员网络与评论家网络参数,将全局网络参数赋予本地网络;
1.2本地网络下,次用户根据观测信息组成的观测矩阵以及当前策略选择信道进行接入,次用户感知接入所选择的信道,根据信道状态获得即时回报;
1.3每经过若干轮迭代,本地演员网络与本地评论家网络分别计算梯度,传递至全局网络,并重置本地演员网络梯度和评论家网络梯度;
1.4根据演员网络更新函数更新全局演员网络,根据评论家网络更新函数更新全局评论家网络,将更新后的全局网络参数赋予本地网络;
1.5循环执行步骤1.2至步骤1.4,直至完成所有循环次数后,获得完整神经网络模型。
本发明包括的异步优势演员评论家网络其主要内容为:异步优势演员评论家网络分为两大部分,全局网络和本地网络。全局网络和本地网络的神经网络结构相同,其中演员网络为一层隐藏层,神经元个数为200,激活函数为线性整流函数。评论家网络也为一层隐藏层,神经元个数为200,激活函数为线性整流函数。
本发明包括的本地网络其主要内容为:每个本地网络独立与环境进行交互,因此也有各自独立的演员网络与评论家网络,本地演员网络分别独立与信道环境进行交互,评论家网络评估演员网络的动作策略,并且各个本地网络的网络结构都完全相同。
本发明包括的观测矩阵其主要内容为:其特征是:次用户只能观测到其选择感知信道的状态,其在第t个时隙的观测信息为:
Ot=[o1,t,o2,t,...,oN,t]
引入暂时记忆机制后,次用户可以存储前M步的观测信息。M步观测信息组成一个观测矩阵,第t个时刻的观测矩阵可表示为:
St=[Ot-1,Ot-2,Ot-3,...,Ot-M]
本发明包括的互动回报函数其主要内容为:次用户选择感知接入的信道为空闲并且符合自身的服务质量需求,则说明这次的决策正确,获得正反馈回报;若次用户选择感知的信道被主用户占用,则说明这次的决策错误,收到负反馈惩罚。考虑到可能存在某个时段内符合次用户服务质量需求的信道都处于忙状态,设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道,其依然能获得一个较小的正反馈。
Figure BDA0002918007300000021
Di表示第i个信道的所获得的吞吐量,η为次用户的吞吐量门限。(Di-η)/η为第i个信道所获得的吞吐量与门限η差值的比值,主要是引导次用户选择更优秀的信道。
本发明包括的全局网络其主要内容为:全局网络不与环境进行互动,其主要工作为收集各个网络的梯度数据,通过这些梯度数据更新网络,再将更新后的网络参数传递给各个本地网络。
全局演员网络的更新函数为:
Figure BDA0002918007300000031
其中θ表示全局演员网络的参数;A(s,a)表示优势函数,表示该环境状态下动作的优劣程度;H(πθ'(s))为策略熵,用于增加前期次用户的探索性;;β表示策略熵权重,用于控制探索程度。
全局评论家网络的更新函数为:
Figure BDA0002918007300000032
其中μ表示全局评论家网络的参数;r表示次用户获得的即时回报;γ为折扣因子;λ为评论家网络的学习率。
与现有技术相比,本发明的有益效果是:
1.本发明综合考虑信道的信噪比和空闲概率,可以有效避免环境中的劣质信道,有效提高次用户接入优质信道的成功率;
2.本发明的回报函数设置鼓励次用户在满足QoS的前提下接入更优秀的信道,可以引导次用户做出更好的决策;
3.本发明在缺失大部分环境先验信息的条件下接近已知先验信息算法的接入成功率,并且在感知次数较少时高于部分已知先验信息算法的接入成功率。
(四)附图说明
图1本发明算法流程图;
图2每次循环内不同信道的选择次数;
图3本发明与不同已知先验信息的序列感知接入成功率对比。
(五)具体实施方式
下面结合附图和具体实施例对本文作进一步具体说明:
本发明算法的最终目标是次用户可以根据所学到的信道接入策略,智能选择符合自身服务质量的空闲信道进行感知接入,抽象至强化学习中,即智能体所采用的策略能最大化累计回报。单次循环次用户的通信也可以随着时间无限进行,累计回报趋于无限,无法有效评价策略优劣。因此限定单次迭代内的时隙数量为T。上述问题可表示为下式:
Figure BDA0002918007300000033
其中ri,t表示在t时刻选择第i条信道获得的即时回报。
本发明设定环境中存在N条信道和一个次用户,N条信道状态都是时变的,信道状态只与主用户占用有关;设定次用户可以在一个时隙内感知n(n<<N)条信道,在第t个时隙,次用户所能观测到的环境信息为:
Ot=[o1,t,o2,t,...,oN,t] (2)
其中oi,t表示在次用户在t时刻对第i条信道的观测信息:
Figure BDA0002918007300000041
其中xi,t在t时刻第i条信道的信道状态。引入暂时记忆机制后,次用户可以存储前M步的观测信息。M步观测信息组成一个观测矩阵,第t个时刻的观测矩阵可表示为:
St=[Ot-1,Ot-2,Ot-3,...,Ot-M] (4)
次用户在感知n条信道之后选择最符合自己QoS需求的进行感知接入。在选择n条信道感知时其动作集合的元素数量为:
Figure BDA0002918007300000042
如在环境中存在5条信道时单个时隙内选择两条信道进行感知,其动作集合为A={(1,2),(1,3),(1,4),...,(4,5)}。若单个时隙只能感知一个信道,动作集合即为环境中存在的信道数量:
A={1,2,3,...,N} (6)
若次用户选择感知接入的信道为空闲并且符合自身的服务质量需求,则说明这次的决策正确,获得正反馈回报;若次用户选择感知的信道被主用户占用,则说明这次的决策错误,收到负反馈惩罚。考虑到可能存在某个时段内符合次用户服务质量需求的信道都处于忙状态,设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道,其依然能获得一个较小的正反馈。回报函数可由下式表示:
Figure BDA0002918007300000043
次用户的服务质量需求由吞吐量判定,只有接入信道的获得的吞吐量高于门限要求才判定服务质量合格。Di表示第i个信道的所获得的吞吐量,η为次用户的吞吐量门限。(Di-η)/η为第i个信道所获得的吞吐量与门限η差值的比值,主要是引导次用户选择更优秀的信道。
异步优势演员评论家网络中分为本地网络与全局网络。每个本地网络独立与环境进行交互,因此也有各自独立的演员网络与评论家网络,本地演员网络分别独立与信道环境进行交互,评论家网络评估演员网络的动作策略,并且各个本地网络的网络结构都完全相同。全局网络不与环境进行互动,其主要工作为收集各个网络的梯度数据,通过这些梯度数据更新网络,再将更新后的网络参数传递给各个本地网络。
本地网络中的演员网络进行与环境交互和动作选择,其主要任务为策略学习,其直接对策略进行梯度计算:
Figure BDA0002918007300000044
其中J(θ)表示策略网络的目标函数;πθ(s,a)表示在网络参数为θ时,状态s下选择动作a的概率;d(s)表示此次互动所采集到的状态数;
Figure BDA0002918007300000055
表示状态s下选择动作a所获得的即时回报。
本地评论家网络主要用于估计状态价值,评价演员网络动作策略的优劣程度,通过优势函数指导演员网络更新。优势函数为在状态s下,某动作a相对于平均而言的优势。异步优势演员评论家网络中采用多步采样以加速收敛:
Figure BDA0002918007300000051
其中V(s)表示状态s的价值,可由评论家网络估计得出。结合式(9),式(8)的策略梯度计算变为:
Figure BDA0002918007300000052
全局网络不与环境进行互动,其主要工作为收集各个网络的梯度数据,通过这些梯度数据更新网络,再将更新后的网络参数传递给各个本地网络。由于参数和梯度的相互传递,因此全局网络的结构也与本地网络保持一致。全局网络中的演员网络也是负责更新动作策略,其梯度更新可表示为:
Figure BDA0002918007300000053
其中θ表示全局演员网络的参数;A(s,a)表示优势函数,表示该环境状态下动作的优劣程度;H(πθ'(s))为策略熵,用于增加前期次用户的探索性;β表示策略熵权重,用于控制探索程度。引入优势函数后,全局网络评论家网络通过最小化优势函数的平方,来提高对于值函数的拟合精度,其梯度更新可表示为:
Figure BDA0002918007300000054
其中μ表示全局评论家网络的参数;r表示次用户获得的即时回报;γ为折扣因子;λ为评论家网络的学习率。
本发明仿真实例的仿真参数设定:仿真参数分为***环境参数和神经网络参数两个部分。其中***环境参数为:环境中存在N=10条独立信道,每条信道都可能被主用户占用,其占用概率Pbusy为(0,1)之间,信道的信噪比范围为[-10,10]dB。仿真实验中设定10条信道的信噪比为SNR=[-10,-8,-9,-5,-3,0,4,5,7,10],其对应的占用概率为Pbusy=[0.1,0.3,0.4,0.3,0.2,0.5,0.3,0.4,0.4,0.9]。神经网络参数为:本地网络和全局网络的演员与评论家网络结构相同,演员网络为一层隐藏层,神经元个数为200,激活函数为线性整流函数;输出层直接输出动作选择概率分布。评论家网络也为一层隐藏层,神经元个数为200,激活函数为线性整流函数;输出层为输出对于状态动作价值的估计。评论家网络的学习率需大于等于演员网络,本发明设定评论家网络的学习率Lrc=0.001,演员网络的学习率Lra=0.0001。本发明设定接入成功率为次用户成功接入符合服务质量的空闲信道的概率。
如图2所示,环境中存在3条符合QoS需求的信道,每个时隙感知一次时这三条信道被次用户选择感知接入的次数。从图中可以看出,迭代初始由于探索性,三条信道被选择的次数几乎相同。但是随着迭代的进行,第10条信道虽然信噪比较高,但是主用户占用频率也高,因此被选择次数也不断降低。说明经过学习次用户从更长远的角度考虑信道接入,能够有效避免劣质信道。另外两条符合QoS需求的信道由于其主用户占用频率较小,因此其被选择次数慢慢增加。同时由于本发明的回报函数设置,在主用户占用概率相差不大的情况下,次用户就偏向于接入第9条信道,这说明本发明的回报函数设置可以引导次用户做出更好的决策。
如图3所示,环境中存在3条信道符合QoS需求时,本发明与不同已知先验信息的序列感知在不同感知次数下的接入成功率对比。全知感知为该算法假设次用户已知所有信道的信噪比与各信道对应的主用户占用概率,按照信噪比与主用户空闲概率的乘积(SNR(1-Pbusy))进行序列感知。从图中可以看出全知感知由于其序列感知的特点,总是感知固定信道,造成其在感知1次的情况下其接入成功率十分依赖第一次的感知信道,而本发明提出的感知接入算法能够智能选择合适的信道进行接入,而不局限于序列性感知接入。
本发明提供了一种认知无线电中信道质量性接入方法,具体步骤为:本地网络有自己的演员网络与评论家网络,演员网络负责信道选择,与环境进行互动收集交互信息,评论家网络评价演员网络信道选择策略的优劣,但是本地网络不更新梯度,而是将梯度收集起来传递给全局网络,全局网络自身不与环境进行交互,其将各个本地网络收集到的梯度汇总起来,在自身上进行梯度更新,并且将更新后的网络参数再次传给本地网络。本发明综合考虑了信道质量和空闲概率,次用户能够有效避免接入劣质信道,大幅提高接入符合服务质量要求的接入成功率。
本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (5)

1.一种认知无线电中信道质量性接入方法,其特征是:包括如下步骤:
1.1初始化全局网络中的演员网络与评论家网络参数,将全局网络参数赋予本地网络;
1.2本地网络下,次用户根据观测信息组成的观测矩阵以及当前策略选择信道进行接入,次用户感知接入所选择的信道,根据信道状态获得即时回报;
1.3每经过若干轮迭代,本地演员网络与本地评论家网络分别计算梯度,传递至全局网络,并重置本地演员网络梯度和评论家网络梯度;
本地网络中的演员网络进行与环境交互和动作选择,其主要任务为策略学习,其直接对策略进行梯度计算:
Figure FDA0003504713860000011
其中J(θ)表示策略网络的目标函数;πθ(s,a)表示在网络参数为θ时,状态s下选择动作a的概率;d(s)表示此次互动所采集到的状态数;
Figure FDA0003504713860000015
表示状态s下选择动作a所获得的即时回报;
本地评论家网络主要用于估计状态价值,评价演员网络动作策略的优劣程度,通过优势函数指导演员网络更新,优势函数为在状态s下,某动作a相对于平均而言的优势,异步优势演员评论家网络中采用多步采样以加速收敛:
A(s,a)=Q(s,a)-V(s)
=rt+1+γrt+2+...+γn-1rt+nnV(s')-V(s)
其中V(s)表示状态s的价值,可由评论家网络估计得出,对策略进行梯度计算变为:
Figure FDA0003504713860000012
1.4根据演员网络更新函数更新全局演员网络,根据评论家网络更新函数更新全局评论家网络,将更新后的全局网络参数赋予本地网络;
全局演员网络的更新函数为:
Figure FDA0003504713860000013
其中θ表示全局演员网络的参数,A(s,a)表示优势函数,表示该环境状态下动作的优劣程度,H(πθ'(s))为策略熵,用于增加前期次用户的探索性;
全局评论家网络的更新函数为:
Figure FDA0003504713860000014
其中μ表示全局评论家网络的参数,r表示次用户获得的即时回报,γ为折扣因子,λ为评论家网络的学习率;
1.5循环执行步骤1.2至步骤1.4,直至完成所有循环次数后,获得完整神经网络模型。
2.根据权利要求1所述的认知无线电中信道质量性接入方法,其特征是:环境中存在多个信道可接入,次用户快速找到并接入符合自身服务质量要求的信道。
3.根据权利要求1所述的认知无线电中信道质量性接入方法,其特征是:所述步骤1.1全局网络和本地网络的神经网络结构相同,其中演员网络为一层隐藏层,神经元个数为200,激活函数为线性整流函数,评论家网络为一层隐藏层,神经元个数为200,激活函数为线性整流函数。
4.根据权利要求1所述的认知无线电中信道质量性接入方法,其特征是:所述步骤1.2每个本地网络独立与环境进行交互,演员网络与评论家网络各自独立,本地演员网络分别独立与信道环境进行交互,评论家网络评估演员网络的动作策略,并且各个本地网络的网络结构都完全相同。
5.根据权利要求1所述的一种认知无线电中信道质量性接入方法,其特征是:所述步骤1.2中的观测矩阵,次用户只能观测到其选择感知信道的状态,其在第t个时隙的观测信息为:
Ot=[o1,t,o2,t,...,oN,t]
引入暂时记忆机制后,次用户存储前M步的观测信息,M步观测信息组成一个观测矩阵,第t个时刻的观测矩阵可表示为:
St=[Ot-1,Ot-2,Ot-3,...,Ot-M]
与环境互动后获得回报,其回报函数为:
Figure FDA0003504713860000021
次用户选择感知接入的信道为空闲并且符合自身的服务质量需求,则说明这次的决策正确,获得正反馈回报;若次用户选择感知的信道被主用户占用,则说明这次的决策错误,收到负反馈惩罚;考虑到可能存在某个时段内符合次用户服务质量需求的信道都处于忙状态,设定次用户选择感知接入的信道虽然不符合服务质量需求但为空闲信道,其依然能获得一个较小的正反馈,Di表示第i个信道的所获得的吞吐量,η为次用户的吞吐量门限,(Di-η)/η为第i个信道所获得的吞吐量与门限η差值的比值,主要是引导次用户选择更优秀的信道。
CN202110107271.7A 2021-01-27 2021-01-27 一种认知无线电中信道质量性接入方法 Active CN112954814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110107271.7A CN112954814B (zh) 2021-01-27 2021-01-27 一种认知无线电中信道质量性接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110107271.7A CN112954814B (zh) 2021-01-27 2021-01-27 一种认知无线电中信道质量性接入方法

Publications (2)

Publication Number Publication Date
CN112954814A CN112954814A (zh) 2021-06-11
CN112954814B true CN112954814B (zh) 2022-05-20

Family

ID=76237380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110107271.7A Active CN112954814B (zh) 2021-01-27 2021-01-27 一种认知无线电中信道质量性接入方法

Country Status (1)

Country Link
CN (1) CN112954814B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108471619B (zh) * 2018-03-22 2021-02-02 中南大学 认知无线传感器网络的信道选择方法
CN109089307B (zh) * 2018-07-19 2021-05-18 浙江工业大学 一种基于异步优势行动者评论家算法的集能型无线中继网络吞吐量最大化方法
CN109379752B (zh) * 2018-09-10 2021-09-24 ***通信集团江苏有限公司 Massive MIMO的优化方法、装置、设备及介质
WO2020152389A1 (en) * 2019-01-22 2020-07-30 Nokia Solutions And Networks Oy Machine learning for a communication network
CN110190918B (zh) * 2019-04-25 2021-04-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
CN110492955B (zh) * 2019-08-19 2021-11-23 上海应用技术大学 基于迁移学习策略的频谱预测切换方法
CN110691422B (zh) * 2019-10-06 2021-07-13 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN111262638B (zh) * 2020-01-17 2021-09-24 合肥工业大学 基于高效样本学习的动态频谱接入方法
CN112188503B (zh) * 2020-09-30 2021-06-22 南京爱而赢科技有限公司 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法

Also Published As

Publication number Publication date
CN112954814A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112134916B (zh) 一种基于深度强化学习的云边协同计算迁移方法
Wang et al. A survey on applications of model-free strategy learning in cognitive wireless networks
CN107690176B (zh) 一种基于q学习算法的网络选择方法
CN112367132B (zh) 基于强化学习解决认知无线电中的功率分配算法
CN109474980A (zh) 一种基于深度增强学习的无线网络资源分配方法
CN112188503B (zh) 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN111262638B (zh) 基于高效样本学习的动态频谱接入方法
CN113038616B (zh) 一种基于联邦学习的频谱资源管理分配方法
CN113596785B (zh) 基于深度q网络的d2d-noma通信***资源分配方法
Wang et al. Decentralized learning based indoor interference mitigation for 5G-and-beyond systems
CN112492691A (zh) 一种深度确定性策略梯度的下行noma功率分配方法
CN108833227A (zh) 一种基于边缘计算的智能家居通信优化调度***及方法
Giri et al. Deep Q-learning based optimal resource allocation method for energy harvested cognitive radio networks
Rao et al. Network selection in heterogeneous environment: A step toward always best connected and served
CN103249050B (zh) 基于业务需求的多尺度频谱接入方法
Tang et al. Nonconvex dynamic spectrum allocation for cognitive radio networks via particle swarm optimization and simulated annealing
CN112954814B (zh) 一种认知无线电中信道质量性接入方法
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Mishra et al. Raddpg: Resource allocation in cognitive radio with deep reinforcement learning
CN116155991B (zh) 一种基于深度强化学习的边缘内容缓存与推荐方法及***
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
Do et al. Actor-critic deep learning for efficient user association and bandwidth allocation in dense mobile networks with green base stations
Koursioumpas et al. A Safe Deep Reinforcement Learning Approach for Energy Efficient Federated Learning in Wireless Communication Networks
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN115250156A (zh) 一种基于联邦学习的无线网络多信道频谱接入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant