CN113613337B

CN113613337B - 一种面向波束成形通信的用户协作抗干扰方法

Info

Publication number: CN113613337B
Application number: CN202110896542.1A
Authority: CN
Inventors: 任国春; 徐煜华; 张云鹏; 徐逸凡; 方贵
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-06-20
Anticipated expiration: 2041-08-05
Also published as: CN113613337A

Abstract

本发明公开了一种面向波束成形通信的用户协作抗干扰方法，将多用户与干扰的对抗关系建模；干扰为领导者，用户为追随者；不断调整干扰策略以保证其干扰效用最大；将用户间的协作抗干扰行为建模为势能博弈。首先初始化用户与干扰的策略，即随机选择通信/干扰信道，并将每个用户标志位设为0；然后所有用户同时执行信道探测或信道更新操作，尔后计算相应的效用并在领居间交互用户体验质量满意度,根据所选策略更新标志位；循环迭代，直至所有用户抗干扰策略收敛；更新Q表，调整策略；直至干扰的策略收敛。本发明通过为不同用户设置不同的学习参数提高了收敛速度，通过用户间信息层面的协作，提高了网络的抗干扰效能。

Description

一种面向波束成形通信的用户协作抗干扰方法

技术领域

本发明属于无线通信技术领域，特别是一种面向波束成形通信的用户协作抗干扰方法。

背景技术

随者无线技术的发展，全球通信业务呈现出指数型爆发增长，在热点地区，用户通常呈现超密集分布，给用户协调用频和抗恶意干扰攻击带来了较大困难。针对此问题，前人提出采用跳频方式躲避干扰攻击(F.Yao and L.Jia,A Collaborative Multi-AgentReinforcement Learning Anti-Jamming Algorithm in Wireless Networks,IEEEWireless Communications Letters,vol.8,no.4,pp.1024-1027,Aug.2019.)；但是，之前的大部分研究都只是单纯的将最大化全网吞吐量作为优化目标，没有考虑用户实际的业务需求，没有将用户需求考虑进决策闭环之中。此类方法往往会遇到优化目标与用户需求不能够完全匹配的情况，从而造成资源的浪费。

此外，现有的抗干扰算法还普遍存在以下两点问题：(1)缺乏用户间协作机制，抗干扰方法还偏向于独立对抗，没有发挥出群智效能。(2)异步更新算法居多，即每次迭代只有一个用户更新策略，导致算法收敛速度较慢。

发明内容

本发明的目的在于提供一种能够提高用户体验质量(QoE)、降低干扰影响的协作抗干扰模型及相应的抗干扰学习算法。

实现本发明目的的技术解决方案为：考虑恶意用户能够根据通信用户的用频状况自适应地调整干扰策略，使其干扰效用最大化。首先，将用户和干扰之间的对抗关系建模为一个Stackelberg博弈。此外，在用户关系建模方面，考虑空分多址条件下用户间互扰非对称这一特点，提出了一种具有局部利他特性的非合作博弈模型。其次，为了克服盲目地提升吞吐量所造成资源的浪费，提出了基于平均评估分值MOS(Mean Opinion Score)的用户体验质量模型，用QoE等级来量化用户效用。接着，证明了用户间局部利他博弈是一个精确势能博弈，进而证明了用户的全网最优策略是该博弈的一个纯策略纳什均衡。最后，设计了一种只需要局部信息即可实现全网最优的用户协作抗干扰算法。

一种抗干扰算法，包括以下步骤：

步骤1，将多用户单干扰场景下的合作抗干扰问题，建模为单领导者多跟随者的Stackelberg博弈模型，博弈的参与者是***内的所有用户和干扰；

步骤2，干扰随机选择一个信道进行干扰，定义干扰的效用函数为干扰机给共信道的所有用户施加的干扰功率之和。用户根据干扰策略进行抗干扰信道选择，为了能够在此过程中降低用户间互扰，我们考虑了局部合作模型，并利用势能博弈框架对用户间协作进行分析，每个用户需要考虑邻居用户的收益。因此，用户的效用函数被定义为用户自身与邻居用户的QoE满意度总和。

步骤3，所有用户同时进行抗干扰策略调整，用户根据当前标志位以及前两个时隙的策略与回报进行信道选择。根据用户对网络的不同影响程度，本发明为每个用户设置了不同的学习参数，以此来提高算法收敛速度。

步骤4，循环至步骤3，用户通过探索学习进行策略选择，直至干扰策略和所有用户的抗干扰策略实现收敛，或者达到设定的迭代次数。

步骤5，干扰评估其效用u_j(k)并更新Q表。

步骤6，干扰更新策略，并循环至步骤3，直至到达最大循环次数。

进一步地，步骤1所述的多用户单干扰场景下的合作抗干扰问题，被建模为单领导者多追随者的Stackelberg博弈，表示为：

其中，

为用户集，j为恶意干扰机，/>

和/>

分别表示用户和干扰的策略集，u_n和u_j分别表示用户n和干扰的效用函数。

进一步地，步骤2所述的用户间局部合作模型被建模为精确势能博弈，具体如下：定义用户间势能函数为:

其中a_n为用户n的信道接入策略，c_j为干扰的信道选择；

为受用户n干扰的用户集，/>

为对用户n造成干扰的用户集；该式表示全网所有用户的QoE满意度之和。

该势能博弈证明过程如下：

若任意用户n单方面将其策略从a_n转变为

则该用户效用函数的变化量如下：

此外，用户n单方面改变其策略选择造成势能函数的变化为：

其中

为受用户n干扰的用户集，/>

为对用户n造成干扰的用户集，/>

表示在集合/>

中删除集合/>

进一步将得到以下结论：

因此用户间局部合作模型是一个势能博弈。

进一步地，步骤3所述的所有用户同时进行抗干扰策略调整，用户根据当前标志位以及前两个时隙的策略与回报进行信道选择。具体操作如下：

若标志位Y_n(t-1)＝0，用户n根据以下规则更新信道:

其中，M表示用户的可用信道数，

是用户n的学习参数。若a_n(t)＝a_n(t-1)，则将标志位Y_n(t)置0，否则置1。

若标志位Y_n(t-1)＝1，用户n根据以下规则更新信道:

其中，β为学习速率；u_n(t-1)和u_n(t-2)分别为用户n在t-1和t-2时隙的效用。更新完成后设置标志位Y_n(t)＝0。

进一步地，将用户的学习参数设置为

当x_n足够大时，用户协作抗干扰算法可以渐进收敛到全网最优，为不同用户设置不同的学习参数主要是为了加快收敛速度，具体操作为：

x_n(t)＝Γ_n·ε(t)

其中，ε(t)＝ε(0)+tΔε为时间的变化量，且ε(0)为初始值，Δε为步长，t为迭代次数。

表示用户n对网络的影响程度。

进一步地，步骤5所述的干扰评估其效用u_j(k)并更新Q表。具体如下：

干扰评估当前效用u_j：

其中，p_j为干扰功率；

为干扰频率；d_jn为干扰机与用户n之间的距离；/>

为信道增益，与干扰频率以及干扰距离有关；

更新Q表：

Q^k+1(c_j(k))＝(1-λ)Q^k(c_j(k))+λu_j(k)，

其中，Q^k+1为干扰机k+1时期的Q值；c_j(k)为干扰机在k时期所选的干扰信道；Q^k为干扰机k时期的Q值；u_j(k)为干扰机在k时期的效用；λ∈(0,1)表示学习速率，用于控制Q学习收敛速度。

进一步地，步骤6所述的干扰策略更新方式为：

采用玻尔兹曼函数更新自身的信道选择策略：

其中，τ为温度系数，体现探索与利用的折中。

为干扰机在k时期选择信道c_j(k)的概率。

本发明与现有技术相比，其显著优点在于：(1)为多用户抗干扰问题提供了一种建模用户与干扰强对抗关系以及用户间协作关系的架构。(2)考虑了用户的多样化业务需求，同时为了克服用户盲目的提升吞吐量而造成的资源浪费，提出了基于MOS的QoE模型和以用户需求为中心的优化机制，用QoE等级来量化用户效用，利用用户需求分集提升***性能。(3)通过势能博弈的有限改进性，设计了多用户同步抗干扰算法，并利用各用户对网络整体的影响程度不同的特点，通过为不同的用户设置不同的学习参数来提升算法的收敛速度。

附图说明

图1是本发明面向异构业务需求的分层抗干扰模型中的多用户单干扰网络示意图。

图2是本发明算法与现有的异步学习算法的收敛情况对比图。

图3是本发明算法在干扰功率变化时的抗干扰效果示意图。

具体实施方式

结合图1，本发明面向多用户业务需求的分层抗干扰模型，***中共有两个毫米波微微蜂窝基站，两基站间的距离为50m，用户随机分布在以基站为中心的半径为100m的圆内。同时，干扰分布在距离两基站大约100-200m的范围内。此外，可用信道数设置为M＝4，信道带宽B＝1MHz,噪声功率谱密度N₀＝-130dB/Hz。

本发明面向多用户业务需求的分层抗干扰模型，将干扰建模为领导者，将用户建模为跟随者。将干扰与用户的对抗关系建模为Stackelberg博弈，寻求能够躲避干扰的方法。将用户间协作关系建模为势能博弈，寻求能够消除同信道互扰的方法。此外，本发明所提的用户间协作，是信息层面的协作，指相邻用户间交互QoE满意度。

本发明基于全网QoE满意度与用户策略的关系，通过证明纳什均衡与Stackelberg均衡的存在性，准确地将用户行为映射到了***性能上，为进一步提出相应的抗干扰算法提供了理论指导。

本发明面向异构业务需求的分层抗干扰模型的用户协作抗干扰算法，包括以下步骤：

步骤2，干扰随机选择一个信道进行干扰，定义干扰的效用函数为干扰机给同信道的所有用户施加的干扰功率之和。用户根据干扰策略进行抗干扰信道选择，为了能够在此过程中降低用户间互扰，我们考虑了局部合作模型，并利用势能博弈框架对用户间协作进行分析，每个用户需要考虑邻居用户的收益。因此，用户的效用函数被定义为用户自身与邻居用户的QoE满意度总和。

步骤3，所有用户同时进行抗干扰策略调整，用户根据当前标志位以及前两个时隙的策略与回报进行信道选择。根据用户对网络整体的影响程度不同，为每个用户设置了不同的学习参数，以此来提高算法收敛速度。

步骤5，干扰评估其效用u_j(k)并更新Q表。

本发明的具体实施方案如下：

1、将多用户与干扰间的对抗关系建模为Stackelberg博弈，表示为

其中，/>

为用户集，j为恶意干扰机，/>

和/>

2、考虑用户存在多种业务，因此对吞吐量要求也不同。换句话说，同一吞吐量在不同业务下可能会对应到不同的QoE满意度。具体的QoE满意度计算过程为：

用户n每次只能接入一个基站，我们将用户n所接入的基站表示为S_n。基站S_n和用户n之间的距离表示为

基站S_n到用户n的方向角表示为/>

我们可以得到基站S_n利用波束成形技术服务用户n时在用户m所在方向上的方向增益为：

其中,θ_n为基站S_n服务用户n时波束的主瓣宽度。

利用通信链路方向角，定义服务用户n的波束覆盖区域为：

其中，θ_n为基站S_n服务用户n时波束的主瓣宽度。

进一步，定义受到用户n干扰的***集为：

为服务用户n的波束覆盖区域；

定义对用户n造成干扰的***集为：

其中，

为服务用户m的波束覆盖区域；g_mn为S_m利用波束成形技术服务用户m

时在用户n所在方向上的方向增益；g₀是波束增益阈值，取0.01。

表示除用户n之外的其余所有用户的集合。

因此，用户n所受的外部恶意干扰和用户间互扰之和表示为：

其中，

为干扰频率；/>

为信道a_m所在频率；a_m,a_n和c_j分别为用户m、用户n和干扰机所选信道；g_mn为S_m利用波束成形技术服务用户m时在用户n所在方向上的方向增益；

为用户m所在信道的信道增益；/>

为干扰机所在信道的信道增益。p_m为用户m的发射功率，d_jn为干扰机到用户n的距离。p_j为干扰功率。δ(x,y)为指示函数，定义为

所以，用户n的通信速率表示为：

其中，B为信道带宽；p_n表示用户n的发射功率；

为基站S_n到用户n的距离；N₀为噪声的功率谱密度；D_n为用户n所受的外部恶意干扰和互扰之和。/>

为用户n所在信道的信道增益；

将MOS函数定义为：

MOS＝εlog₁₀(R/γ)，

其中R为用户的吞吐量；ε和γ为常数，其大小根据用户的最大和最小吞吐量需求确定，由于用户的业务需求不同，该常数值大小也不尽相同。MOS值与五个级别的映射关系如表1所示。

表1：平均意见得分(MOS)

进一步，用函数

对用户的不同体验等级进行量化，表示用户n在不同QoE等级下的满意度：

基于上述分析，优化目标被表示为全网的QoE回报(即用户满意度之和)最大，即：

基于以上分析，用户n的效用函数表示为：

用户n的优化问题可表示为：

进一步，所有用户构成一个下层子博弈，表示为：

对干扰来说，其目标是给所有用户造成最大程度的累计干扰，其效用函数定义为：

我们将干扰的决策优化问题表示为：

故上层子博弈表示为：

3、每个用户的信道选择过程如下：

(1)初始化：每个用户

从它的可用信道集/>

中等概率随机选择一个信道a_n(0)，并设置标志位Y_n(0)＝0。

(2)信道探测：若Y_n(t-1)＝0，用户n根据以下规则更新信道:

其中，M表示用户的可用信道数，

可认为是用户n的学习速率。若a_n(t)＝a_n(t-1)，则将标志位Y_n(t)置0，否则置1。

(3)更新信道：若Y_n(t-1)＝1，用户n根据以下规则更新信道:

其中，β为学习参数；u_n(t-1)和u_n(t-2)分别为用户n在t-1和t-2时隙的用户效用。更新完成后设置标志位Y_n(t)＝0。

4、循环步骤1至步骤3，所有用户同时进行探索学习与信道接入，直至所有用户的信道接入选择实现收敛，或者达到设定的迭代次数。

对于局部合作模型，可以证明其为势能博弈，至少存在一个纳什均衡解。且利用势能博弈的有限改进性质，可以设计相应的抗干扰算法。

5、干扰评估其效用u_j(k)；干扰按照下式更新Q值

Q^k+1(c_j(k))＝(1-λ)Q^k(c_j(k))+λu_j(k)， (6-25)

其中，λ∈(0，1)表示学习速率，用于控制Q学习收敛速度。

与用户类似，干扰也采用玻尔兹曼函数更新自身的信道选择策略：

其中，τ为温度系数，体现探索与利用的折中。

6、循环至步骤3，直至到达最大循环次数。

实施例1

本发明的一个实施例如下描述：***仿真采用Matlab软件，参数设定不影响一般性；***共有两个毫米波微微蜂窝基站，两基站间的距离为50m，用户随机分布在以基站为中心的半径为100m的圆内。同时，干扰分布在距离两基站大约100-200m的范围内。此外，可用信道数设置为M＝4，信道带宽B＝1MHz,噪声功率谱密度N₀＝-130dB/Hz，学习参数β＝t/2500。干扰的学习速率λ＝0.1，温度系数

其中K为总的仿真时期，k为当前仿真时期。

本发明用户协作抗干扰算法，具体过程如下：

步骤1：t＝0，k＝0，初始化干扰的混合策略

步骤2：在第k个时期，干扰依概率

选择一个信道c_j(k)；每个用户/>

从它的可用信道集/>

中等概率随机选择一个信道a_n(0)，并设置标志位Y_n(0)＝0。

在该时期内，所有用户同时执行以下过程：

循环t＝1，2，…：

信道探测：

若Y_n(t-1)＝0，用户n根据以下规则更新信道:

其中，M表示用户的可用信道数，

更新信道：

若Y_n(t-1)＝1，用户n根据以下规则更新信道:

其中，β为学习参数；u_n(t-1)和u_n(t-2)分别为用户n在t-1和t-2时隙的效用。更新完成后设置标志位Y_n(t)＝0

步骤3：干扰获得效用u_j(k)；

步骤4：干扰按照下式更新Q值：

Q^k+1(c_j(k))＝(1-λ)Q^k(c_j(k))+λu_j(k)，

其中，λ∈(0,1)表示学习速率，用于控制Q学习收敛速度。

其中，τ为温度系数，体现探索与利用的折中。

步骤5：更新k＝k+1，转到步骤2。直至到达最大循环次数

结合图2，为协作抗干扰算法收敛情况，对比算法为异步学习算法，即，每次迭代只有一个用户进行策略更新。由图可知，采用本发明所提的同步学习算法，能够明显提高学习速度。

结合图3，在不同用户数下干扰功率对网络满意率的影响。由图可知，网络满意率基本不随用户功率的增加而变化，说明本发明所提方法能够帮助用户成功避开干扰信道，有较好的抗干扰效果。

综上，本发明提出的面向多用户业务需求的分层抗干扰模型及用户协作抗干扰算法，考虑恶意用户能够根据通信用户的用频状况自适应地调整干扰策略，使其干扰效用最大化。提出了将用户和干扰之间的对抗关系建模为一个Stackelberg博弈的思路。此外，考虑空分多址条件下用户间互扰非对称这一特点，提出了一种用户协作抗干扰算法，有效地提高了网络满意率。通过与异步学习算法进行对比，证明了所提算法对收敛速度的显著改善。并通过不同干扰功率下的性能对比证明了本发明所提抗干扰算法的有效性。