CN108712748A - 一种基于强化学习的认知无线电抗干扰智能决策的方法 - Google Patents

一种基于强化学习的认知无线电抗干扰智能决策的方法 Download PDF

Info

Publication number
CN108712748A
CN108712748A CN201810325152.7A CN201810325152A CN108712748A CN 108712748 A CN108712748 A CN 108712748A CN 201810325152 A CN201810325152 A CN 201810325152A CN 108712748 A CN108712748 A CN 108712748A
Authority
CN
China
Prior art keywords
action
cognitive user
channel
cognitive
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810325152.7A
Other languages
English (en)
Other versions
CN108712748B (zh
Inventor
马永涛
朱芮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810325152.7A priority Critical patent/CN108712748B/zh
Publication of CN108712748A publication Critical patent/CN108712748A/zh
Application granted granted Critical
Publication of CN108712748B publication Critical patent/CN108712748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于强化学习的认知无线电抗干扰智能决策的方法,包括:在多信道认知场景下,认知用户以感知到的信道信息和***发射功率、信道选择信息为状态信息S,自主的选择发射功率和信道选择信息为动作信息a;定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R,作为认知用户动作选择性能衡量标准;在认知决策模型中,状态信息作为已知条件,以认知用户为主体决策动作选择,将效用函数作为强化学习中的瞬时回报函数,构建Q‑learning强化学习模型;得到认知用户优化动作决策。

Description

一种基于强化学习的认知无线电抗干扰智能决策的方法
技术领域
本发明属于智能认知无线电领域,尤其针对认知用户与***之间交互,利用机器学习算法中强化学习算法来实现认知无线电抗干扰决策问题。
背景技术
随着认知无线电通信技术的发展,可用的频谱资源缺乏问题日益严峻,认知用户的数量激增,找到有效的策略对空闲频谱的分配至关重要。认知无线电在技术方面的逐渐成熟,也使得军事通信在现代战争中的作用和地位不断提升,军事通信抗干扰问题日益突出。传统的决策技术一般是在考虑了次用户对授权用户的干扰约束下最优次用户的性能,存在着动态调整策略的不足,必须要发展新的智能化的抗干扰通信技术来应对各种干扰手段。针对干扰问题通信中的解决方法主要为频域的扩频技术和空间域的自适应天线、分集接收技术以及时域的猝发通信技术等,应用较广泛的当属扩频技术和自适应天线技术。扩频抗干扰主要由直接序列扩频和跳频两种方式,本专利仅考虑到认知无线电场中的跳频选择,即通过选择不同的载波来规避地方的干扰。
人工智能以其解决复杂问题的高效性被广泛应用于认知学习。智能学习一般分为在线学习和离线学习两种方法,在线学习主要是通过与无线电环境的交互,获取环境信息,依靠自身来进行学习,通常用于认知无线电***的初始工作状态,如隐马尔科夫模型和强化学习算法。BkassinyM等人***的阐述了马尔可夫决策(Markov decisionprocess,MDP)框架,以及强化学习模型可以应用于在马尔可夫状态下的中心策略决策,和非马尔可夫状态下用梯度策略搜索的方法来提高认知***的性能。本专利用到的强化学习算法是一种模型无关的学习算法,其模型构建于环境与agent的交互,最优行动值估计的更新依赖于各种“假设”的动作,而不是根据学习策略所选择的实际行动,是对状态动作对的值函数进行估计来求得的最优策略。
将强化学习与认知无线电有机的结合起来,面对智能***能产生不同的干扰问题,嵌入强化学习算法的认知引擎能够通过对策略选择的试错和环境反馈信息,动态的调整认知***的参数和策略选择情况,进而能够在环境信息不充分的条件下,相比于随机的选择策略有效的改善通信质量。
发明内容
本发明提供一种基于强化学习算法的认知无线电抗干扰决策方法,该方法面向认知无线电中认知用户易受到干扰的情况,即认知用户不能获得全部的无线电环境信息且可能存在智能干扰的场景,充分利用强化学习算法的信息依赖度低和自适应改变策略的优势,能够更好的结合到认知用户的信道选择和发射功率分配问题上,提高认知用户的抗干扰性能。采用的技术方案如下:
一种基于强化学习的认知无线电抗干扰智能决策的方法,包括下列步骤:
(1)在多信道认知场景下,认知用户以感知到的信道信息和***发射功率、信道选择信息为状态信息S,自主的选择发射功率和信道选择信息为动作信息a;定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R,作为认知用户动作选择性能衡量标准:
其中,
E(S,a)=pse+c·(1-I(ht s,ht-1 s))
ε表示高斯白噪声功率,ps和hs为认知用户的发射功率和信道增益,pj和hj为***的发射功率和信道增益,is和ij分别表示认知用户和***选择的信道标号,表示认知用户前后两次选择信道的信道增益,t代表其顺序性,I(·)表示指示函数,用来判断干扰是否与认知用户选择了同一信道,以及认知用户是否在相邻的时间内产生了跳频进而有能量输出;c为跳频能量损耗,e为单位发射功率能量损耗,参数β∈B={0,1}表示授权用户的存在情况
(2)在认知决策模型中,状态信息作为已知条件,以认知用户为主体决策动作选择,将效用函数作为强化学习中的瞬时回报函数,利用三者{S,a,R}构建Q-learning强化学习模型;初始状态动作值函数Q(S,a)为0,随机初始化当前状态信息S=S0,以等概率策略选择初始动作a=a0,并执行该动作;
(3)利用认知用户对信道的实时监测性能观察到下一环境状态St+1,通过遍历该状态下所有可能动作的Q(S,a)值,选择值最大的对应的动作作为下一动作选择策略,记下一动作为at+1
(4)计算当前状态动作对的效用函数R,对当前的动作决策做出评价,并以强化学习思想更新状态动作值函数Q(S,a),以下一环境状态和动作信息更新为当前的状态和动作信息S=St+1,a=at+1,循环执行上一步骤,动态的给出认知用户优化动作决策,直到本次认知交互阶段结束。
本发明基于强化学习算法,根据认知场景的特点,综合信道选择和发射功率分配问题,定义能效函数为强化学习中的回报函数,评价算法选择动作的性能。算法能有效解决未知干扰类型情况下的发射功率和信道选择问题,最终实验结果表明对比于传统选择策略能有效提高能效性能。
附图说明
图1本发明认知干扰信道场景图
图2本发明结合场景的决策算法流程
具体实施方式
下面结合附图和实施例对本发明进行说明。
1.模型构建
将决策学习问题可以描述成马尔可夫决策过程的基础是,假设学习过程是具有马尔可夫性质的问题,即下一时刻环境状态的转移和接收到的回报函数R只取决于上一时刻的状态S和采取的动作a有关。考虑单认知用户和单个***存在的条件下,对于用户和干扰的信道选择和功率选择问题进行建模。假设认知用户的发射功率等级有E级,***的发射功率等级有F级。考虑对多信道的划分上,将信道按照不同信道增益划分为M个,明确指出某时隙内,无论是认知用户还是***都只能接入一个空闲信道。
2.效用函数设计
在发射功率的选择上,发射功率越大,接收端将会得到更高的信干噪比,但会消耗更多的能量。结合认知用户与***的交互过程中,考虑认知用户为了规避***带来的干扰进行下一时刻跳频策略选择的情况,如下分别给出信干噪比SINR和能量消耗E的定义形式:
E(S,a)=pse+c·(1-I(ht s,ht-1 s))
其中ε表示高斯白噪声功率。ps和hs为认知用户的发射功率和信道增益,pj和hj为***的发射功率和信道增益,is和ij分别表示认知用户和***选择的信道标号,表示认知用户前后两次选择信道的信道增益,t代表其顺序性。I(·)表示指示函数,用来判断干扰是否与认知用户选择了同一信道,以及认知用户是否在相邻的时间内产生了跳频进而有能量输出。信道的增益集合表示为H,hs/j∈H={h1,···,hM}。设定跳频能量损耗为c,单位发射功率能量损耗为e。将认知用户选择自己的发射功率和占用信道表示动作为a=[ps,is],其中ps∈Ps,is∈Φ,a∈Α(Α:Ps×Φ),Ps={ps1,···,psE}为认知用户的发射功率集合,Φ={1,···,M}为空闲信道标号集合,A为动作集合;智能***同样可以选择自己的发射功率和占用信道来对认知用户的传输造成干扰,记录为d=[pj,ij],其中pj∈Pj,ij∈Φ,d∈Λ(Λ:Pj×Φ),Pj={pj1,···,pjF}为***的发射功率集合,Λ为***的选择集合。考虑到授权用户对信道的占用时,需要进行规避,设置参数β∈B={0,1}表示授权用户的存在情况。S=[β,d]表示认知环境信息,其中β∈B,d∈Λ,S∈Ω(Ω:B×Λ),Ω为状态集合。
如上所示,从均衡的角度出发,将能效函数定义为SINR和E的比值形式,将其作为强化学习模型中的瞬时回报函数,代表不同状态下动作选择的性能评价。通过认知阶段动态的交互,认知用户能得出不同状态下最恰当的动作决策,提高抗干扰能力。
3.结合算法决策
基于马尔可夫模型的强化学习算法用于认知无线电决策中主要由{S,a,R,γ}4个部分构成,分别表示为当前所处于的状态、针对当前状态给出的动作选择、状态动作选择所对应的回报、以及折损参数,γ表示的是随着时间的增加,越往后的时间策略对当前状态造成的影响衰减情况。
本发明研究一种基于时间差的方法,将设计的效用函数作为强化学习算法中的回报函数,采用Q-learning强化学习算法融入场景。算法以Q(S,a)值函数的更新为核心,逐步逼近策略选择最优:
Qt+1(St,at)=(1-α)·Qt(St,at)+α(R(St,at)+γ·Vt(St+1))
式中α表示学习速率,其中表示在当前状态下选择使得Q(S,a)值函数最大作为其状态值函数值。强化学习目的是找到最优的行为策略,即要求每一次的转移都是使得回报最大的。给出策略的选择标准:以该策略对不同的状态下的动作进行选择,在有限次数的算法迭代之后,评价算法性能的Q(S,a)值函数会收敛到较稳定的值。
以认知用户为中心,将认知用户的动作表示为强化学习中的动作a=[ps,is],强化学习中的状态表示为信道状态和***的前一动作组合S=[β,d]。初始时随机假定一个干扰动作,在认知用户与***的交互过程中,认知用户感知当前信道信息并以干扰的前一动作信息为当前状态信息,利用强化学习思想策略地选择自己的通信动作,并结合瞬时无线电环境与认知用户动作计算策略的能效函数表示的回报值R,对Q(S,a)值函数内容更新并开始下一次迭代。当授权用户存在时,认知用户和***都不进行动作选择,记此时的R=0。算法能够面对变化的干扰环境实时给出较好的信道和发射功率选择策略。结合图2给出算法的基本执行步骤:
(1)初始化:
初始化认知***中一系列的参数和变量来构建认知模型;给定某个初始状态S=S0,默认以均匀概率选取初始状态的动作a=a0,并执行该动作。
(2)执行循环:
判断当前的执行次数是否为本阶段设定的最大循环次数N,是则退出循环结束算法,否则继续执行。在当前的状态S和动作执行a之后,观察下一状态St+1情况,以策略选择下一可能动作at+1。计算以认知用户的发射功率和所选信道的情况设计的能效函数值R,实时地作为当前动作的选择评价。并根据强化学习算法更新状态动作值函数Q(S,a),对不同的状态的动作选择情况更新。将下一状态和动作的选择更新为当前状态和动作S=St+1,a=at+1,开始新一轮的循环操作。

Claims (1)

1.一种基于强化学习的认知无线电抗干扰智能决策的方法,包括下列步骤:
(1)在多信道认知场景下,认知用户以感知到的信道信息和***发射功率、信道选择信息为状态信息S,自主的选择发射功率和信道选择信息为动作信息a;定义认知用户的信干噪比SINR和能量消耗E的比值为效用函数R,作为认知用户动作选择性能衡量标准:
其中,
E(S,a)=pse+c·(1-I(ht s,ht-1 s)),
ε表示高斯白噪声功率,ps和hs为认知用户的发射功率和信道增益,pj和hj为***的发射功率和信道增益,is和ij分别表示认知用户和***选择的信道标号,表示认知用户前后两次选择信道的信道增益,t代表其顺序性,I(·)表示指示函数,用来判断干扰是否与认知用户选择了同一信道,以及认知用户是否在相邻的时间内产生了跳频进而有能量输出;c为跳频能量损耗,e为单位发射功率能量损耗,参数β∈B={0,1}表示授权用户的存在情况
(2)在认知决策模型中,状态信息作为已知条件,以认知用户为主体决策动作选择,将效用函数作为强化学习中的瞬时回报函数,利用三者{S,a,R}构建Q-learning强化学习模型;初始状态动作值函数Q(S,a)为0,随机初始化当前状态信息S=S0,以等概率策略选择初始动作a=a0,并执行该动作;
(3)利用认知用户对信道的实时监测性能观察到下一环境状态St+1,通过遍历该状态下所有可能动作的Q(S,a)值,选择值最大的对应的动作作为下一动作选择策略,记下一动作为at+1
(4)计算当前状态动作对的效用函数R,对当前的动作决策做出评价,并以强化学习思想更新状态动作值函数Q(S,a),以下一环境状态和动作信息更新为当前的状态和动作信息S=St+1,a=at+1,循环执行上一步骤,动态的给出认知用户优化动作决策,直到本次认知交互阶段结束。
CN201810325152.7A 2018-04-12 2018-04-12 一种基于强化学习的认知无线电抗干扰智能决策的方法 Active CN108712748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810325152.7A CN108712748B (zh) 2018-04-12 2018-04-12 一种基于强化学习的认知无线电抗干扰智能决策的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810325152.7A CN108712748B (zh) 2018-04-12 2018-04-12 一种基于强化学习的认知无线电抗干扰智能决策的方法

Publications (2)

Publication Number Publication Date
CN108712748A true CN108712748A (zh) 2018-10-26
CN108712748B CN108712748B (zh) 2021-04-27

Family

ID=63866708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810325152.7A Active CN108712748B (zh) 2018-04-12 2018-04-12 一种基于强化学习的认知无线电抗干扰智能决策的方法

Country Status (1)

Country Link
CN (1) CN108712748B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110031807A (zh) * 2019-04-19 2019-07-19 电子科技大学 一种基于无模型强化学习的多阶段灵巧噪声干扰方法
CN111314015A (zh) * 2020-01-07 2020-06-19 中国人民解放军国防科技大学 一种基于强化学习的脉冲干扰决策方法
CN112512062A (zh) * 2020-11-25 2021-03-16 中国工程物理研究院电子工程研究所 一种智能决策模型及一种通信***智能抗干扰方法
CN112867087A (zh) * 2021-01-20 2021-05-28 中国人民解放军陆军工程大学 一种基于多用户随机森林强化学习的抗干扰方法
WO2021106508A1 (ja) * 2019-11-27 2021-06-03 株式会社京三製作所 学習モデル生成方法、推定装置および無線列車制御システム
CN113131970A (zh) * 2021-05-19 2021-07-16 西南交通大学 基于强化学习与光载无线技术的高铁电磁干扰规避***
WO2022172849A1 (ja) * 2021-02-12 2022-08-18 株式会社京三製作所 周波数決定方法及び周波数決定装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238555A (zh) * 2011-07-18 2011-11-09 南京邮电大学 认知无线电中基于协作学习的多用户动态频谱接入方法
CN106358300A (zh) * 2015-07-16 2017-01-25 中国人民解放军理工大学 一种微蜂窝网络中的分布式资源分配方法
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238555A (zh) * 2011-07-18 2011-11-09 南京邮电大学 认知无线电中基于协作学习的多用户动态频谱接入方法
CN106358300A (zh) * 2015-07-16 2017-01-25 中国人民解放军理工大学 一种微蜂窝网络中的分布式资源分配方法
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张二青: "认知无线网络中资源管理与分配关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109474980B (zh) * 2018-12-14 2020-04-28 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110031807A (zh) * 2019-04-19 2019-07-19 电子科技大学 一种基于无模型强化学习的多阶段灵巧噪声干扰方法
CN114762375A (zh) * 2019-11-27 2022-07-15 株式会社京三制作所 学习模型生成方法、估计装置以及无线列车控制***
WO2021106508A1 (ja) * 2019-11-27 2021-06-03 株式会社京三製作所 学習モデル生成方法、推定装置および無線列車制御システム
JP7360309B2 (ja) 2019-11-27 2023-10-12 株式会社京三製作所 学習モデル生成方法、推定装置および無線列車制御システム
CN111314015A (zh) * 2020-01-07 2020-06-19 中国人民解放军国防科技大学 一种基于强化学习的脉冲干扰决策方法
CN111314015B (zh) * 2020-01-07 2022-08-05 中国人民解放军国防科技大学 一种基于强化学习的脉冲干扰决策方法
CN112512062A (zh) * 2020-11-25 2021-03-16 中国工程物理研究院电子工程研究所 一种智能决策模型及一种通信***智能抗干扰方法
CN112512062B (zh) * 2020-11-25 2022-09-06 中国工程物理研究院电子工程研究所 一种通信***智能抗干扰方法
CN112867087A (zh) * 2021-01-20 2021-05-28 中国人民解放军陆军工程大学 一种基于多用户随机森林强化学习的抗干扰方法
CN112867087B (zh) * 2021-01-20 2023-08-04 中国人民解放军陆军工程大学 一种基于多用户随机森林强化学习的抗干扰方法
WO2022172849A1 (ja) * 2021-02-12 2022-08-18 株式会社京三製作所 周波数決定方法及び周波数決定装置
CN113131970A (zh) * 2021-05-19 2021-07-16 西南交通大学 基于强化学习与光载无线技术的高铁电磁干扰规避***

Also Published As

Publication number Publication date
CN108712748B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN108712748A (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
Wang et al. Dynamic spectrum anti-jamming communications: Challenges and opportunities
CN111970072B (zh) 基于深度强化学习的宽带抗干扰***及抗干扰方法
CN109274456B (zh) 一种基于强化学习的不完全信息智能抗干扰方法
Liu et al. A heterogeneous information fusion deep reinforcement learning for intelligent frequency selection of HF communication
Haykin Fundamental issues in cognitive radio
CN105680920B (zh) 一种多用户多天线数能一体化通信网络吞吐量优化方法
CN103384174B (zh) 多用户多天线协作频谱感知检测概率优化方法
Li et al. Deep sensing for next-generation dynamic spectrum sharing: More than detecting the occupancy state of primary spectrum
CN107332855B (zh) 基于增强学习算法的主用户仿真攻击检测方法
Wang et al. Adoption of hybrid time series neural network in the underwater acoustic signal modulation identification
CN108401254A (zh) 一种基于强化学习的无线网络资源分配方法
CN103338082A (zh) 一种基于“k秩”准则的双门限协作频谱感知方法
Han et al. Primary-user-friendly dynamic spectrum anti-jamming access: A GAN-enhanced deep reinforcement learning approach
CN102075943B (zh) 认知无线电超宽带通信***
Li et al. Intelligent dynamic spectrum anti-jamming communications: A deep reinforcement learning perspective
CN105101383B (zh) 基于频谱共享能效最大的功率分配方法
CN109787696A (zh) 基于案例推理与合作q学习的认知无线电资源分配方法
Thien et al. A transfer games actor–critic learning framework for anti-jamming in multi-channel cognitive radio networks
Pei et al. Joint time-frequency anti-jamming communications: A reinforcement learning approach
CN102291713B (zh) 一种缓减主用户仿真攻击影响的方法
CN111741520B (zh) 一种基于粒子群的认知水声通信***功率分配方法
CN105007585B (zh) 基于中断概率能效最大的功率分配方法
CN104253638A (zh) 基于Stiefel流形上共轭梯度法的MIMO干扰对齐算法
Chen et al. Adaptive repetition scheme with machine learning for 3GPP NB-IoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant