CN113406579B

CN113406579B - 一种基于深度强化学习的伪装干扰波形生成方法

Info

Publication number: CN113406579B
Application number: CN202110632548.8A
Authority: CN
Inventors: 高敬鹏; 王国轩; 马静; 綦俊炜; 王廷飞; 高路; 江志烨; 郑沛
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-09-27
Anticipated expiration: 2041-06-07
Also published as: CN113406579A

Abstract

本发明属于电子干扰技术领域，具体涉及一种基于深度强化学习的伪装干扰波形生成方法。本发明通过构建深度强化学习探索模型，设计状态空间、动作空间、奖励函数，实现了基于深度强化学习的干扰波形生成，该模型中模拟了较为复杂的动态对抗过程，只需当前雷达状态就可以输出对应的干扰波形，在复杂或未知对抗场景下依然能够做出较为有效的干扰波形决策；通过构建伪装生成网络输出伪装信号，并与深度强化学习的生成的干扰信号叠加，得到带有伪装的干扰波形，使得已经训练完成的雷达智能识别网络误判，避免了干扰波形易被雷达方识别的问题，具有较好的干扰和伪装效果。

Description

一种基于深度强化学习的伪装干扰波形生成方法

技术领域

本发明属于电子干扰技术领域，具体涉及一种基于深度强化学习的伪装干扰波形生成方法。

背景技术

干扰波形生成是电子干扰领域内的重要内容。为了提升己方目标突防的成功率，需要对敌方雷达进行有效的干扰，不同干扰波形在不同场景下对雷达的干扰效果是不同的，如何在不同场景下生成合适的干扰波形就变得至关重要。

传统的干扰波形生成方法是在通过侦察手段获取详细雷达参数先验信息的基础上，从固定的干扰策略库中选取或者凭借用户经验制定干扰策略，并从已有的波形库中选取干扰波形，对雷达施加有效的干扰。随着雷达方抗干扰措施的不断完善，人工寻找最佳干扰波形的方法逐渐被淘汰。为此，在获取雷达参数先验信息的基础上，智能算法被用来代替人工寻找最佳干扰波形，如遗传算法、蜂群算法、粒子群算法等，这些方法具有较快的决策速度。但上述方法无法处理或适应未知和复杂对抗场景中的干扰波形决策问题，尤其在面对智能化的雷达对抗***所产生的参数动态变化时，这些方法就会失效。

西安电子科技大学在其申请的专利“基于深度强化学习的雷达干扰决策方法”(专利申请号：202010029684.3，申请公布号：CN111199127A)中提出了一种基于深度强化学习的雷达干扰决策方法。该方法虽然将深度强化学习应用到干扰决策中，但其构建的动态对抗过程较为简单，仅包含有限数量的雷达工作模式，在未知和复杂对抗场景中显得力不从心，而且生成的干扰波形没有伪装能力，易被雷达方识别，无法欺骗雷达方识别网络。

发明内容

本发明的目的在于针对现有干扰波形生成方法无法处理或适应未知和复杂对抗场景中的干扰波形决策以及易被雷达方识别等问题，提供一种基于深度强化学习的伪装干扰波形生成方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：获取干扰设备的干扰样式编号集合K、干扰信号功率取值区间P、干扰信号带宽取值区间B；

步骤2：构造训练数据集；

步骤2.1：在雷达对目标进行探测时，干扰设备通过截获雷达信号，获取当前雷达状态s；

s＝{T₁,T₂,f}

其中，T₁为雷达的发射信号脉宽，T₂为雷达的发射信号周期，f为雷达的发射信号中心频率；

步骤2.2：干扰设备随机选择动作a＝{k,p,b}，产生干扰信号g对雷达进行干扰；其中，k为干扰信号g所属的干扰样式的编号，k∈K；p为干扰信号g的功率，p∈P；b为干扰信号g的带宽，b∈B；

步骤2.3：干扰设备获取雷达在受到干扰后的状态s′

s′＝{T′₁,T′₂,f′}；

步骤2.4：计算动作a的奖励值r，生成训练样本(s,a,r,s′)；

P_d＝x_t ^-1[10lg(VG_rσR_t ^-4)]

其中，

为雷达接收机处的信噪比反函数；

为雷达接收机处的信干比反函数；V是雷达的性能参数；G_r为雷达天线接收增益；R_t为雷达与目标的径向距离；σ为目标RCS；V_m是干扰机的性能参数；G_m为干扰机天线发射增益；R_m为雷达与干扰机的径向距离；E_m为时域、空域、频域与增益域影响因素之和；η为干扰信号对雷达接受机带宽的覆盖率，与干扰信号带宽b和干扰样式k有关；

步骤2.5：重复步骤2.1至步骤2.4，直至获取预设数量的训练样本；

步骤3：使用训练数据集训练EMDQN网络；训练完成的EMDQN可根据输入的雷达状态s输出对应奖励值r最大的动作a；

步骤4：获取雷达可识别的干扰类型，构建干扰类型编号集合C；训练雷达智能识别网络，标注训练数据集中各训练样本(s,a,r,s′)的动作a对应的干扰信号g对应的雷达可识别的干扰类型的编号m，得到标注后的训练样本(s,a,r,s′,m)，m∈C；

步骤4.1：取训练数据集中的部分训练样本构建集合X₁，其余样本组成集合X₂；

步骤4.2：对于集合X₁中的各训练样本(s,a,r,s′)进行人工标注，根据动作a＝{k,p,b}对应的干扰信号g所属的雷达可识别的干扰类型，标注干扰信号g对应的雷达可识别的干扰类型编号m；

步骤4.3：使用标注后的集合X₁训练雷达智能识别网络；训练完成的雷达智能识别网络可根据输入的干扰信号g输出对应的干扰类型编号m；

所述的雷达智能识别网络以分类交叉熵作为损失函数，其表示为：

L₁＝-p(x)log(q(x))

其中，p(x)为真实概率分布，q(x)为预测概率分布；

步骤4.4：将集合X₂输入训练好的雷达智能识别网络中进行标注；

步骤5：使用标注后的训练数据集训练伪装生成网络；

步骤5.1：对于标注后的训练样本(s,a,r,s′,m)，取动作a＝{k,p,b}对应的干扰信号g的干扰样式编号k与随机噪声z拼接，作为伪装生成网络的输入y＝[z,k]；伪装生成网络输出伪装信号h；

步骤5.2：将伪装信号h与干扰信号g叠加为信号f＝g+h，将信号f输入雷达智能识别网络中，雷达智能识别网络输出识别到的干扰类型编号n；

步骤5.3：若不满足训练截止条件，则计算伪装生成网络的损失函数L₂，并采用梯度下降法更新网络参数后返回步骤5.1；若满足训练截止条件，则输出完成训练的伪装生成网络；

L₂＝-||m-n||₂

步骤6：干扰设备通过截获雷达信号，获取当前雷达状态s；将雷达状态s输入训练完成的EMDQN中，得到动作a＝{k,p,b}；根据动作a中k、p、b参数值得到干扰信号g；将干扰信号g的干扰样式编号k和随机噪声z进行拼接，作为伪装生成网络的输入，得到伪装信号h；将伪装信号h与干扰信号g叠加，得到伪装干扰波形。

本发明的有益效果在于：

本发明通过构建深度强化学习探索模型，设计状态空间、动作空间、奖励函数，实现了基于深度强化学习的干扰波形生成，该模型中模拟了较为复杂的动态对抗过程，只需当前雷达状态就可以输出对应的干扰波形，在复杂或未知对抗场景下依然能够做出较为有效的干扰波形决策；通过构建伪装生成网络输出伪装信号，并与深度强化学习的生成的干扰信号叠加，得到带有伪装的干扰波形，使得已经训练完成的雷达智能识别网络误判，避免了干扰波形易被雷达方识别的问题，具有较好的干扰和伪装效果。

附图说明

图1为本发明的流程图。

图2是本发明的实施例中环境探索与经验数据收集流程图。

图3是本发明的实施例中EMDQN生成干扰波形的训练流程图。

图4是本发明的实施例中智能识别网络的训练流程图。

图5是本发明的实施例中伪装生成网络的训练流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明的目的在于针对现有干扰波形生成方法无法处理或适应未知和复杂对抗场景中的干扰波形决策以及易被雷达方识别等问题，提出一种基于深度强化学习的伪装干扰波形生成方法。本发明包括以下步骤：

步骤2：构造训练数据集；

s＝{T₁,T₂,f}

步骤2.3：干扰设备获取雷达在受到干扰后的状态s′

s′＝{T′₁,T′₂,f′}；

步骤2.4：计算动作a的奖励值r，生成训练样本(s,a,r,s′)；

P_d＝x_t ^-1[10lg(VG_rσR_t ^-4)]

其中，

为雷达接收机处的信噪比反函数；

L₁＝-p(x)log(q(x))

其中，p(x)为真实概率分布，q(x)为预测概率分布；

步骤5：使用标注后的训练数据集训练伪装生成网络；

L₂＝-||m-n||₂

本发明的有益效果在于：

实施例1：

如图1所示是本发明实施例提供的一种方法流程示意图，在图1所示的方法中包括以下步骤：

步骤1：构建生成干扰波形的深度强化学习探索模型，实现对未知环境的探索与经验数据收集。

步骤2：训练卷积神经网络，实现针对雷达不同工作参数下的最优干扰信号生成。

步骤3：设计并训练雷达智能识别网络，得到在本地能够有效识别干扰样式的网络。

步骤4：设计并训练伪装网络，得到能够针对不同干扰样式生成对应伪装信号的网络。

步骤5：生成带有伪装的干扰波形，得到能够欺骗雷达智能识别网络伪装干扰波形。

步骤1包括：

选择情景记忆深度Q网络(Episodic Memory Deep Q-Networks，EMDQN)作为深度强化学习模型中的卷积神经网络。

干扰设备通过截获雷达信号，获得当前雷达状态s；EMDQN根据s选择对应的动作a生成相应干扰波形对雷达进行干扰；雷达在受到干扰后，改变发射脉宽T₁和周期T₂，获得下一状态s'，计算雷达检测概率P_d，获得当前动作a的奖励值r。把每一步智能体与环境交互的经验样本数据(s,a,r,s')存入记忆池中，直至存满记忆池。

考虑了雷达的工作状态主要以发射信号脉宽和周期区分，将s＝{T₁,T₂}设计为状态空间。其中，T₁为发射信号脉宽，T₂为发射信号周期。

考虑了干扰波形主要由干扰样式、干扰功率和干扰带宽确定，将a＝{K,P_J,B_J}设计为动作空间。其中，K为干扰样式编号；P_J为干扰信号功率；B_J为干扰信号带宽。

考虑了压制型干扰的主要目的是使雷达无法正常工作，将

设计为奖励函数，最大化压制型干扰的干扰效果。其中，

为实施动作a前的雷达检测概率，P_d'为实施动作a后的雷达检测概率。

步骤3包括：

雷达智能识别网络由两个全连接层组成。输入层维度为10000，大小为128，激活函数为Relu；输出层维度为4，激活函数为Softmax。输入为干扰信号g，输出为识别结果N。

考虑了干扰样式训练集制作困难，从记忆池随机抽取批量数据，根据数据中动作a＝{K,P_J,B_J}得到干扰信号g和干扰样式编号K，由干扰样式编号K得到干扰样式标签M。根据干扰信号g和干扰样式标签M构建干扰样式训练集C。

步骤4包括：

伪装网络由两个全连接层组成，激活函数均为Relu。其中，第一层输入维度为100，输出维度为1000；第二层输入维度为1000，输出维度为10000。

考虑了伪装信号应针对性的掩护不同干扰样式，将干扰样式编号K和随机噪声z拼接得到x＝[z,K]，作为伪装生成网络的输入，得到伪装信号h。

伪装信号h与干扰信号g叠加得到f＝g+h，送入步骤3训练完成的智能识别网络，得到输出的判断结果N。

设计伪装生成网络的损失函数L₂＝-||M-N||₂，反向传递损失函数L₂，采用梯度下降法更新伪装生成网络参数。

步骤5包括：

干扰设备通过截获雷达信号，获得雷达信号脉宽T₁和周期T₂，即当前状态s。训练完成的EMDQN根据当前雷达状态s输出动作a，根据动作a中的K、P_J、B_J参数值得到干扰样式编号K和干扰信号g。

伪装生成网络根据干扰样式编号K，得到与当前干扰样式编号K对应的伪装信号h，将其与干扰信号g叠加，得到伪装干扰波形。

图2是本发明实施例提供的一种环境探索与经验数据收集流程图，包括以下步骤：

步骤1.1：在本发明的实施例中，选择EMDQN作为深度强化学习模型中的卷积神经网络，包括三层。其中，输入层是维度3、大小为64的全连接层，激活函数为Relu；中间层是大小为64的全连接层，激活函数为Relu；输出层是维度3的全连接层。

步骤1.2：在本发明的实施例中，干扰设备通过截获雷达信号，获得当前雷达状态s，状态空间s设计为：

s＝{T₁,T₂,f} (1)

其中，T₁为发射信号脉宽，T₂为发射信号周期，f为雷达发射信号中心频率。

步骤1.3：在本发明的实施例中，EMDQN根据s选择对应的动作a，干扰设备依据干扰样式、干扰功率及干扰带宽区分不同干扰波形，动作空间a设计为：

a＝{K,P_J,B_J} (2)

其中，K为干扰样式编号，K∈{1,2,3,4}，1代表噪声调幅干扰，2代表噪声调频干扰，3代表噪声调相干扰，4代表灵巧噪声干扰；P_J为干扰信号功率；B_J为干扰信号带宽。

步骤1.4：在本发明的实施例中，雷达在受到干扰后，改变发射信号脉宽T₁和周期T₂，获得下一状态s'，其表示为：

s'＝{T₁',T₂',f'} (3)

其中，T₁'、T₂'、f'分别为实施干扰后雷达的发射信号脉宽、周期和中心频率。

步骤1.5：计算雷达检测概率P_d，表示为：

其中，arc[]表示取反函数；

是雷达的基本参数集合，对于特定型号雷达可以认为是固定值；G_r为雷达天线接收增益；R_t为雷达与目标的径向距离；σ为目标RCS；

是干扰机的参数集合，通常也是固定值；G_m为干扰机天线发射增益；R_m为雷达与干扰机的径向距离；E_m＝e_mt+e_ms+e_mf+e_mq为时域、空域、频域与增益域影响因素之和。

步骤1.6：获得当前动作a的奖励值r。在本发明的实施例中，为体现不同干扰波形的干扰效果，奖励函数r设计为：

步骤1.7：把每一步智能体与环境交互的经验样本数据(s,a,r,s')存入记忆池中。在本发明的实施例中，记忆库容量为1.5×10⁴，若记忆池存满执行步骤2，否则执行步骤1.2。

图3是本发明实施例提供的一种EMDQN生成干扰波形的训练流程图，包括以下步骤：

步骤2.1：初始化参数。在本发明的实施例中，设定衰减因子γ为0.98，学习率为2.5×10^-4，批尺寸为256，α、β为权重系数，均为0.5。

步骤2.2：在本发明的实施例中，从经验池中随机选取批量数据，每批包括256组数据。

步骤2.3：EMDQN给出每组数据对应预测值Q_θ(s,a)，选择最大Q_θ(s,a)对应的动作a。

步骤2.4：计算每组数据对应的目标值S(s,a)，其表示为：

其中，Q_θ(s',a')为下一状态s'下实施动作a'对应的预测值。

步骤2.5：计算每组数据对应的最佳记忆目标值H(s,a)，其表示为：

其中，E为最大训练回合数，R_i(s,a)为第i回合在状态s下采取动作a得到的未来奖励值

步骤2.6：计算损失函数L₁,按照采用梯度下降法更新卷积神经网络。L₁表示为：

L₁＝α(Q_θ(s,a)-S(s,a))²+β(Q_θ(s,a)-H(s,a))² (8)

步骤2.7：按照梯度下降法更新网络参数。判断累计奖励值是否达到10或训练回合达到500，若满足该条件执行步骤3，否则执行步骤2.2。

步骤3：设计并训练雷达智能识别网络，最终得到在本地能够有效识别干扰样式的网络。

图4是本发明实施例提供的一种智能识别网络的训练流程图，包括以下步骤：

步骤3.1：设计雷达智能识别网络。雷达智能识别网络由两个全连接层组成。输入层维度为10000，大小为128，激活函数为Relu；输出层维度为4，激活函数为Softmax。输入为干扰信号g，输出为识别结果N。干扰信号g长度为10000；当N＝[1,0,0,0]时，代表噪声调幅干扰；[0,1,0,0]代表噪声调频干扰；[0,0,1,0]代表噪声调相干扰；[0,0,0,1]代表灵巧噪声干扰。

步骤3.2：在本发明的实施例中，从经验池中随机选取批量的数据，每批包括256组数据。根据数据中动作a＝{K,P_J,B_J}得到干扰信号g和干扰样式编号K，根据干扰样式编号K得到干扰样式标签M，构建干扰样式训练集C。干扰样式标签M为[1,0,0,0]时代表噪声调幅干扰；[0,1,0,0]代表噪声调频干扰；[0,0,1,0]代表噪声调相干扰；[0,0,0,1]代表灵巧噪声干扰。

步骤3.3：计算损失函数L₂。以分类交叉熵作为损失函数，其表示为：

L₂＝-p(x)log(q(x)) (9)

其中，p(x)真实概率分布，q(x)为预测概率分布。

步骤3.4：采用梯度下降法更新网络参数，判断训练回合数是否达到500，若满足条件执行步骤4，否则执行步骤3.2。

步骤4：设计并训练伪装网络，最终得到能够针对不同干扰样式生成对应伪装信号的网络。

图5是本发明实施例提供的一种伪装生成网络的训练流程图，包括以下步骤：

步骤4.1：设计伪装网络。其由两个全连接层组成，第一层输入维度为100，输出维度为1000，激活函数为Relu；第二层输入维度为1000，输出维度为10000。

步骤4.2：在本发明的实施例中，从经验池中随机选取批量的数据，每批包括256组数据。

步骤4.3：获取干扰信号g和对应的干扰样式标签M。每组数据中都包含动作a＝{K,P_J,B_J}，根据K、P_J、B_J三个参数得到当前干扰信号g，并取出与其对应的干扰样式编号K，根据干扰样式编号K得到干扰样式标签M。

步骤4.4：干扰样式编号K和随机噪声z拼接。其作为伪装生成网络的输入，得到伪装信号h。其中，随机噪声z长度为99，与干扰样式编号K拼接成长度为100的信号x。具体拼接方式如下：

x＝[z,K] (10)

其中，x为随机噪声z与干扰样式编号K拼接后的信号。

步骤4.5：伪装信号h与干扰信号g叠加为信号f。其为步骤3中训练完成的智能识别网络的输入。伪装信号h与干扰信号g叠加的方式如下：

f＝g+h (11)

其中，f为伪装信号h与干扰信号g叠加生成的信号。

步骤4.6：计算损失函数L₃。设计伪装生成网络的损失函数L₂，其表示为：

L₂＝-||M-N||₂ (12)

其中，M为干扰样式标签，N为智能识别网络的判断结果。

步骤4.7：采用梯度下降法更新网络参数，判断训练回合数是否达到1000，若满足条件执行步骤5，否则执行步骤4.2。

步骤5.1：通过步骤1、2建立了生成干扰波形的深度强化学习探索模型并完成了对EMDQN的训练；步骤3完成了对雷达智能识别网络的训练；步骤4完成了对伪装生成网络的训练。

步骤5.2：干扰设备通过截获雷达信号，获得雷达信号脉宽T₁和周期T₂，即当前状态s。训练完成的EMDQN根据当前雷达状态s输出动作a，根据动作a中的K、P_J、B_J参数值得到干扰样式编号K和干扰信号g。

步骤5.3：将干扰样式编号K和随机噪声z进行拼接，作为伪装生成网络的输入，得到与当前干扰样式编号K对应的伪装信号h。将其与干扰信号g叠加，即可得到伪装干扰波形。该伪装干扰波形不仅能够有效地干扰雷达的正常工作，还具有一定的伪装能力，能够欺骗雷达智能识别网络，影响雷达方抗干扰措施的正确选择。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的伪装干扰波形生成方法，其特征在于，包括以下步骤：

步骤2：构造训练数据集；

s＝{T₁,T₂,f}

步骤2.3：干扰设备获取雷达在受到干扰后的状态s′

s′＝{T′₁,T′₂,f′}；

步骤2.4：计算动作a的奖励值r，生成训练样本(s,a,r,s′)；

P_d＝x_t ^-1[10lg(VG_rσR_t ^-4)]

其中，

为雷达接收机处的信噪比反函数；

L₁＝-p(x)log(q(x))

其中，p(x)为真实概率分布，q(x)为预测概率分布；

步骤5：使用标注后的训练数据集训练伪装生成网络；

L₂＝-||m-n||₂