CN108616916B

CN108616916B - 一种基于合作抗干扰分层博弈模型的抗干扰学习方法

Info

Publication number: CN108616916B
Application number: CN201810396863.3A
Authority: CN
Inventors: 王金龙; 陈瑾; 张玉立; 任国春; 徐煜华; 孔利君; 李文
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-07-13
Anticipated expiration: 2038-04-28
Also published as: CN108616916A

Abstract

本发明公开了一种合作抗干扰分层博弈模型及抗干扰学习算法。该模型为：将用户建模为领导者，干扰建模为跟随者，干扰始终以最大化降低***的吞吐量为优化目标，用户利用抗干扰学习算法，不断调整抗干扰策略，最大化***整体吞吐量。算法为：首先构建Stackelberg博弈模型，参与者是所有用户和干扰；所有用户随机生成初始的抗干扰策略，干扰根据用户的抗干扰策略进行干扰策略选择；然后用户随机选择一个抗干扰策略，计算相应的效用函数并比较，干扰随用户动作改变而更新干扰策略；循环迭代，直至所有用户抗干扰策略实现收敛或者达到设定的迭代次数；最后计算全网吞吐量和干扰效用函数。本发明利用用户间的合作关系，提升了***抗干扰能力。

Description

一种基于合作抗干扰分层博弈模型的抗干扰学习方法

技术领域

本发明属于无线通信技术领域，特别是一种基于合作抗干扰分层博弈模型的抗干扰学习方法。

背景技术

随者无线技术的发展，用户通信需求呈现出指数型的爆发趋势，这使得如何减少恶意干扰对用户通信质量影响的研究越来越重要。针对这个问题，有人提出了一种通过跳频方式避免干扰的抗干扰策略(Liang Xiao,Tianhua Chen,Jinliang Liu,Huaiyu Dai,``Anti-Jamming Transmission Stackelberg Game With Observation Errors”,IEEECommunications Letters,vol.19,no.6,pp.949-952,2015.)；有人提出了通过调整发射功率从而增大信噪比的抗干扰策略(Luliang Jia,Fuqiang Yao,Youming Sun,YingtaoNiu,Yonggang Zhu,``Bayesian Stackelberg Game for Antijamming Transmission WithIncomplete Information”,IEEE Communications Letters,vol.20,no.10,pp.1991-1994,2016.)。然而，大部分研究都只是假设了一种简单的干扰样式，并没有考虑智能干扰对抗干扰策略的影响，而且研究集中于单用户单干扰的场景，对更为常见的多用户场景较少涉及。

Stackelberg博弈主要刻画的是分层决策的相互影响关系；抗干扰博弈模型(Luliang Jia,Fuqiang Yao,Youming Sun,Yuhua Xu,Shuo Feng,AlaganAnpalagan,``AHierarchical Learning Solution for Anti-jamming Stackelberg Game withDiscrete Power Strategies”IEEE Wireless Communications Letters,vol.6,no.6,pp.818-821,2017.)中，构建了一个单领导者单跟随者的Stackelberg博弈模型，将干扰定位为领导者，用户通信对定位为跟随者，研究了一种带有观测误差的抗干扰模型，通过构建贝叶斯-Stackelberg博弈进行了求解，但是它仅考虑了单用户的场景，而且抗干扰策略为调整发射功率，并没有考虑多用户多信道***模型。

发明内容

本发明的目的在于提供一种能够提高***吞吐量、降低干扰影响的基于合作抗干扰分层博弈模型的抗干扰学习方法。

实现本发明目的的技术解决方案为：

一种基于合作抗干扰分层博弈模型的抗干扰学习方法，包括以下步骤：

步骤1，将多用户单干扰场景下的合作抗干扰问题，建模为多领导者单跟随者的Stackelberg博弈模型，博弈的参与者是***内的所有用户和干扰；

步骤2，所有用户随机生成初始的抗干扰策略，包括信道选择与功率配置，干扰则根据用户的抗干扰策略进行干扰信道选择，定义干扰的效用函数为***通信用户策略保持不变时干扰存在与否对***整体吞吐量的影响，定义用户的效用函数为干扰条件下的全网吞吐量与自身的功率消耗开销，引入势能博弈模型；

步骤3，随机选择一个用户，根据此时其余用户的抗干扰策略和干扰效用函数的特性，通过调整自身的抗干扰策略，在干扰跟随变化的情况下，比较新旧两种策略下自身效用函数的高低，选择自身效用函数高的抗干扰策略；

步骤4，循环步骤3，用户通过探索学习进行策略选择，直至所有用户的抗干扰策略实现收敛，或者达到设定的迭代次数。

进一步地，步骤1所述的将多用户单干扰场景下的合作抗干扰问题，建模为多领导者单跟随者的Stackelberg博弈模型，该博弈模型定义为：

G＝[{N,J},{A,a_j},{u_n,u_j}]

该博弈模型G中包含三个组成部分，其中，{N,J}为参与博弈的用户和干扰集合，{A,a_j}为用户的策略空间和干扰的策略空间，{u_n,u_j}为用户n的效用函数和干扰j的效用函数。

进一步地，，步骤2所述的引入势能博弈模型，具体如下：

定义用户间势能函数为：

在干扰存在条件下，领导者的博弈模型构成一个势能博弈，至少存在一个纯策略纳什均衡解；由于干扰始终存在且优化其干扰效用，所以Stackelberg博弈模型也存在相应的Stackelberg均衡解；证明过程如下：

其中a_n为用户n的信道接入和功率配置策略，a_-n为其余用户的策略，a_j为干扰的干扰策略；r_n为用户n的吞吐量，β_i是用户i的功率消耗单位代价，c_n1,2为用户n的信道策略，

为对应信道的功率配置。

进一步地，步骤3所述的随机选择一个用户，根据此时其余用户的抗干扰策略和干扰效用函数的特性，通过调整自身的抗干扰策略，在干扰跟随变化的情况下，比较新旧两种策略下自身效用函数的高低，选择自身效用函数高的抗干扰策略，具体如下：

设定***中共有M信道和N个用户，所有用户随机分布于某个区域内，用户n的发送端到用户m的接收端距离为d_nm，用户n的策略为

其中c_n1,2为用户的信道选择，

为对应信道配置的功率，则用户n在信道c_n1上受到的干扰为：

其中α为信道衰落系数，若c_xk＝c_ni，则δ(c_xk,c_ni)＝1，表明用户该信道被干扰，反之δ(c_xk,c_ni)＝0，即用户没有收到干扰；

根据Shannon公式进行计算，得用户n在信道c_n1上的吞吐量为：

其中，N₀为噪声功率，α为信道衰落系数，1-δ(c_ni,a_j)来表明该信道有没有收到干扰；

其中干扰的策略为a_j，干扰的效用函数为：

其中，a_N为全体用户的策略集合，a_j＝0表明干扰不对任何信道进行干扰；上式物理意义为施加干扰时，全***吞吐量降低的性能即为干扰的效用；

在干扰条件下，用户的效用函数u_n为：

其中，β_n为功率消耗代价；

博弈的优化目标：用户和干扰分别以自身效用函数为优化目标，即用户通过调整抗干扰策略，综合优化***吞吐量和自身功率开销，干扰则通过选择信道进行干扰策略更新，使得干扰效用函数最大化：

即用户和干扰通过分别调整策略，使得自己的效用函数最大化。

进一步地，步骤4所述的循环步骤3，用户通过探索学习进行合作抗干扰，直至所有用户的抗干扰策略实现收敛，或者达到设定的迭代次数，具体如下：

(4.1)所有的用户进行信息交互；

(4.2)每次迭代都随机选择一个用户n进行操作；

(4.3)其他所有的用户重复之前的抗干扰策略选择，即a_-n(k+1)＝a_-n(k)；

对于选中的次级用户n，首先计算它选择不同抗干扰策略的效用函数值，用户n根据如下抗干扰策略更新准则进行抗干扰策略更新，即当新生成的策略能够带来更高的效用函数收益时，采用新生成的策略，a_n(k)表示用户n在第k时刻的策略；

干扰的策略更新规则为：

本发明与现有技术相比，其显著优点在于：(1)充分考虑了多用户合作抗干扰的问题，提出了多领导者单跟随者的Stackelberg博弈模型，同时将抗干扰策略由单一的调整功率扩展到信道选择与功率配置相结合，考虑了功率压制机制下的智能干扰模型；(2)通过引入势能博弈模型，利用势能博弈证明了该Stackelberg博弈模型存在Stackelberg均衡，并且是可以求解的，为算法的设计提供了理论支持；(3)提出的合作抗干扰学习算法，通过信息交互，探测并达到全局最优，避免了在计算全局最优中存在的不收敛问题。

附图说明

图1是本发明合作抗干扰的Stackelberg博弈模型中的多用户单干扰网络示意图。

图2是本发明方法与随机抗干扰、非合作抗干扰算法性能对比图。

图3是本发明方法在信道数目改变时全局吞吐量和干扰效果对比图。

具体实施方式

结合图1，本发明合作抗干扰的Stackelberg博弈模型，5个用户对随机分布，共有3个信道可供选择，例如，用户对1选择了信道1和信道2进行通信，而用户对2选择了信道1进行通信。干扰通过对用户策略进行感知，最终选择了对信道1进行干扰。对于用户而言，当干扰选择信道1进行干扰时，其余使用信道2和信道3的用户性能得到了保证。而用户的优化目标为全网吞吐量与自身功率消耗，若此时被干扰的用户效用函数也达到了最大，那么图中所示策略即为均衡解。

本发明合作抗干扰Stackelber博弈模型，将用户建模为领导者，干扰建模为跟随者，干扰始终以最大化降低多用户***的吞吐量为优化目标，用户利用抗干扰学习算法，不断调整信道选择与功率配置，在干扰跟随用户的决策始终以最大化其干扰效用为目标的前提下，最大化***整体吞吐量。

本发明基于和网络全局效用的关系，通过势能博弈证明纳什均衡的存在性，证明Stackelberg均衡的存在性，通过将势能博弈的有限递进提醒，利用势能函数达到最大化全局性能的目的。

本发明基于合作抗干扰分层博弈模型的抗干扰学习方法，包括以下步骤：

本发明的具体实施如下：

一、步骤1将用户合作抗干扰问题建模为Stackelberg博弈模型，该博弈模型定义为：

G＝[{N,J},{A,a_j},{u_n,u_j}]

二、步骤2所述的引入势能博弈模型，具体如下：

定义用户间势能函数为：

为对应信道的功率配置。

三、步骤3所述的随机选择一个用户，根据此时其余用户的抗干扰策略和干扰效用函数的特性，通过调整自身的抗干扰策略，在干扰跟随变化的情况下，比较新旧两种策略下自身效用函数的高低，选择自身效用函数高的抗干扰策略，具体如下：

其中c_n1,2为用户的信道选择，

根据Shannon公式进行计算，得用户n在信道c_n1上的吞吐量为：

其中干扰的策略为a_j，考虑干扰对所选择的信道具有功率压制的效用，即该信道上其他的用户无法继续正常通信，干扰的效用函数为：

在干扰条件下，用户的效用函数u_n为：

其中，β_n为功率消耗代价。

四、博弈的优化目标：用户和干扰分别以自身效用函数为优化目标，即用户通过调整抗干扰策略，综合优化***吞吐量和自身功率开销，干扰则通过选择信道进行干扰策略更新，使得干扰效用函数最大化：

五、步骤4所述循环步骤3，用户通过探索学习进行合作抗干扰，直至所有用户的抗干扰策略实现收敛，或者达到设定的迭代次数，具体如下：

(4.1)所有的用户进行信息交互；

(4.2)每次迭代都随机选择一个用户n进行操作；

对于选中的次级用户n，首先利用公式(3)计算它选择不同抗干扰策略的效用函数值，用户n根据如下抗干扰策略更新准则进行抗干扰策略更新，即当新生成的策略能够带来更高的效用函数收益时，采用新生成的策略，a_n(k)表示用户n在第k时刻的策略；

干扰的策略更新规则为：

实施例1

本发明的一个实施例如下描述：***仿真采用Matlab软件，参数设定不影响一般性；N个用户对随机布设在一个200m×200m的网络场景中，考虑M＝5个信道，设用户可以将2个连续的信道进行绑定后发送数据，每个用户有一个发送功率上限0.1W，用户在信道选择之后，对发送功率进行合理配置，假设用户对的发送端和接收端距离范围为[35-50]，路径衰落为-3，单位功率消耗代价为20。

本发明基于合作抗干扰的Stackelberg博弈模型的抗干扰学习方法，具体过程如下：

步骤1：初始化，设置迭代次数j＝0，每个用户n∈N随机生成信道选择和功率配置，干扰根据用户的策略生成干扰策略：

步骤2：用户策略和干扰策略更新(循环)：

①所有的用户进行信息交互。

②每次迭代都随机选择一个次级用户n进行操作。

③其他所有的用户保持之前策略不变，即a_-n(k+1)＝a_-n(k)。对于选中的用户n，随机生成一个抗干扰策略a'_n，计算相应效用值，然后用户依据下式更新它的选择抗干扰策略：

干扰的策略更新规则为：

步骤3：当所有用户的抗干扰策略选择实现收敛，或者达到一定的迭代次数时，循环结束。

步骤4：根据收敛后的抗干扰策略和干扰策略，计算全网吞吐量和干扰效用函数。

结合图2，为随着用户数目的变化，全网吞吐量和干扰效用函数变化情况，对比算法为随机抗干扰方法和非合作的抗干扰方法。由图可知，采用本发明所提的合作抗干扰方法取得的全网吞吐量性能远高于随机和非合作的抗干扰方法。随用户数目增加，全网吞吐量性能也呈逐步增加趋势。

结合图3，当信道数目为4和6个两种情况时，用户不同的信道绑定策略下，全网吞吐量性能和干扰效用函数的比较。由图3可知，信道数越大，吞吐量性能越高，干扰损失越小，信道绑定数目增加也会使得吞吐量性能增加。

综上，本发明提出的基于合作抗干扰的Stackelberg博弈模型的抗干扰学***。通过与随机抗干扰方法和非合作抗干扰方法的对比，证明所提合作抗干扰策略能够在降低干扰影响的情况下，提高全网吞吐量。算法仿真结果也表明了所提模型及方法的有效性，验证了理论的正确性。

Claims

1.一种基于合作抗干扰分层博弈模型的抗干扰学习方法，其特征在于，包括以下步骤：

步骤4，循环步骤3，用户通过探索学习进行策略选择，直至所有用户的抗干扰策略实现收敛，或者达到设定的迭代次数；

步骤1所述的将多用户单干扰场景下的合作抗干扰问题，建模为多领导者单跟随者的Stackelberg博弈模型，该博弈模型定义为：

G＝[{N,J},{A,a_j},{u_n,u_j}]

该博弈模型G中包含三个组成部分，其中，{N,J}为参与博弈的用户和干扰集合，{A,a_j}为用户的策略空间和干扰的策略空间，{u_n,u_j}为用户n的效用函数和干扰j的效用函数；

步骤2所述的引入势能博弈模型，具体如下：

定义用户间势能函数为：

在干扰存在条件下，领导者的博弈模型构成一个势能博弈，至少存在一个纯策略纳什均衡解；由于干扰始终存在且优化其干扰效用，所以Stackelberg博弈模型也存在相应的Stackelberg均衡解；β_i是用户i的功率消耗单位代价，c_n1、c_n2为用户n的信道策略，

为对应信道的功率配置；

步骤3所述的随机选择一个用户，根据此时其余用户的抗干扰策略和干扰效用函数的特性，通过调整自身的抗干扰策略，在干扰跟随变化的情况下，比较新旧两种策略下自身效用函数的高低，选择自身效用函数高的抗干扰策略，具体如下：

其中c_n1、c_n2为用户的信道选择，

根据Shannon公式进行计算，得用户n在信道c_n1上的吞吐量为：

其中，a_n为用户n的信道接入和功率配置策略，a_-n为其余用户的策略，a_j为干扰的干扰策略；r_n为用户n的吞吐量，N₀为噪声功率，α为信道衰落系数，1-δ(c_ni,a_j)来表明该信道有没有收到干扰；

其中干扰的策略为a_j，干扰的效用函数为：

在干扰条件下，用户的效用函数u_n为：

其中，β_n为功率消耗代价；

2.根据权利要求1所述的基于合作抗干扰分层博弈模型的抗干扰学习方法，其特征在于，步骤4所述的循环步骤3，用户通过探索学习进行合作抗干扰，直至所有用户的抗干扰策略实现收敛，或者达到设定的迭代次数，具体如下：

(4.1)所有的用户进行信息交互；

(4.2)每次迭代都随机选择一个用户n进行操作；

干扰的策略更新规则为：