CN105388461A

CN105388461A - 一种雷达自适应行为q学习方法

Info

Publication number: CN105388461A
Application number: CN201510729398.7A
Authority: CN
Inventors: 彭晓燕; 杨金金; 袁晓垒; 张花国
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-10-31
Filing date: 2015-10-31
Publication date: 2016-03-09
Anticipated expiration: 2035-10-31
Also published as: CN105388461B

Abstract

本发明属于雷达信号处理领域，尤其涉及基于贝叶斯表更新的Q学习方法对雷达自适应行为的学习、辨识问题。本发明提供一种雷达自适应行为Q学习方法，用改进的Q学习算法针对时域波形选择行为(最小互信息量准则)进行学习，在传统只根据接收端得到的直接信息进行干扰的基础上跃进一大步，利用所提出的机器学习算法对雷达时域自适应行为进行辩识，并给出一定的学习结果。本发明的方法首次将基于贝叶斯表更新的Q学习算法应用到雷达行为学习与辨识问题中，相对于现有技术在时域波形选择(最小互信息量准则)下的学习效果更优。

Description

一种雷达自适应行为Q学习方法

技术领域

本发明属于雷达信号处理领域，尤其涉及基于贝叶斯表更新的Q学习方法对雷达自适应行为的学习、辨识问题。

背景技术

随着上个世纪60年代自适应***和自适应信号处理的问世，诞生了自适应雷达***，其自适应能力日益发展，并逐步由雷达接收机自适应处理发展到接收机—发射机同步处理。目前雷达自适应行为主要表现在时/频/空域工作参数、信号处理及工作模式方面的行为特征，如时域波形选择自适应行为。雷达波形选择是雷达波形自适应的一种重要手段，目标雷达会建立一个波形库，按照一定准则在波形库内选取发射波形以提高雷达性能。波形选择准则与雷达所处的工作模式(或雷达任务)紧密相关，根据现有的文献资料，雷达任务为目标识别时波形选择准则包括最大互信息量准则(目标为下次发送信号和目标最佳匹配)；最小互信息量(目标为下次发送的信号能获取更多的新信息量，共同的信息量最小)；最大Kullback-Leibler信息准则等，本发明将以最小互信息量为对象。

目前的雷达信号处理领域，作为干扰的一方，一般是针对固定的雷达目标进行识别，然而智能化是未来发展的一个趋势，双方都将逐渐往具有认知能力的方向发展，针对上具有自适应行为的目标，需要更智能的算法对自适应行为进行学习，之后才能利用学习的结果进行高效、实时地攻击。

Q学习算法是强化学习算法的一种，由C.Watkins于1989年在其博士学位论文“Learningfromdelayedrewards”中首次提出，该算法是动态规划的有关理论及动物学习心理学的有力相互结合，以求解具有延迟回报的序贯化决策问题为目标。在Q学习算法中根据时间差分对Markov决策过程的行为值函数进行迭代计算，其迭代计算公式为：

Q (s_{t}, a_{t}) &LeftArrow; Q (s_{t}, a_{t}) + α [r_{t + 1} + γ \underset{a &Element; A_{s}}{m a x} Q (s_{t + 1}, a_{t}) - Q (s_{t}, a_{t})],

其中，参数α称为学习率(或学习步长)，γ为折扣率。Q(s_t,a_t)是状态—动作对的值函数，表示在状态s_t下，执行动作a_t，以后再按策略π映射动作所得的报酬，Q学习的目标是它的每一步都是贪心的。

贝叶斯网络通过提供图形化的方法来表示知识，是一个有向无环图，其中结点代表论域中的变量，有向弧代表变量的关系，条件概率表示变量之间影响的程度，通过贝叶斯网络可以清楚地反映实际应用中变量之间的依赖关系。贝叶斯网络又称为信度网，是一种图形化的模型，表示一组变量间的联合概率分布函数。一个贝叶斯网络包括一个结构模型和与之相关的一组条件概率分布函数。

当贝叶斯网络中的数据特征个数为K时，那么这K个变量的联合分布p(x₁,...,x_K)则可写为下面的形式，并通过贝叶斯网络的条件独立特征进行简化：

\begin{matrix} p (x_{1}, ..., x_{K}) = p (x_{K} | x_{1}, ..., x_{K - 1}) ... p (x_{2} | x_{1}) p (x_{1}) \\ = Π_{k = 1}^{K} p (x_{k} | {pa}_{k}) \end{matrix},

其中，pa_k是指节点x_k的父节点集合。可以得知，当贝叶斯网络较为稀疏时，联合概率密度形式将大大简化。

Q学习是无监督的机器学习算法，通过学习可以使得学习方逐渐适应要学习的环境，在这里指适应目标雷达的自适应行为，而贝叶斯学习从概率(置信度)的角度将未知的信息作为随机变量，具有很好的适应性和可扩展性，将贝叶斯学习理论应用到Q学习中，加入启发式策略，针对目标雷达的自适应行为的学习具有更好的效果。

发明内容

本发明的目的在于针对现有技术的不足，提供一种雷达自适应行为Q学习方法，用改进的Q学习算法针对时域波形选择行为(最小互信息量准则)进行学习，在传统只根据接收端得到的直接信息进行干扰的基础上跃进一大步，利用所提出的机器学习算法对雷达时域自适应行为进行辩识，并给出一定的学习结果。

本发明的技术方案是：在Q学习算法的基础上，以时域最小互信息量准则下的波形选择为学习对象，首先，在对目标雷达波形自适应行为学习之前还需要获得其波形库信息；其次，对自适应行为对象进行建模，并利用建模的对象与学习方进行交互，得到不同干扰下的波形转变情况即实验室训练数据；然后，利用训练数据进行贝叶斯网络参数学习，得到贝叶斯后验概率表和贝叶斯记录表；最后，以贝叶斯后验概率表为先验知识，利用所提出的算法进行迭代学习，并给出学习结果

一种雷达自适应行为Q学习方法，具体步骤如下：

S1、学习方通过不断发射探测干扰信号，迫使目标雷达改变发射信号，学习方接收端获得目标雷达下次的发射信号，用于健全学习方的动态波形库，所述健全学习方的动态波形库的具体方法为：将学习方接收端得到的波形信息和已知波形进行对比，若动态波形库中没有该波形，则存入动态波形库，然后继续发射探测干扰信号，直到m次交互中得到的目标雷达发射波形均可在动态波形库中找到为止，其中，m为经验值；

S2、以时域最小互信息量准则下的波形选择为学习对象，对其进行建模，并利用建模的对象与学习方进行交互，得到不同干扰下的波形转变情况即实验室训练数据；

S3、利用S2所述训练数据进行贝叶斯网络参数学习，利用Matlab环境下的贝叶斯工具箱，加入狄利克雷先验分布，得到新的雷达波形的最大后验概率表即贝叶斯记录表，其中，贝叶斯记录表是指现波形、现干扰信号下具有最大后验概率的新波形编号；

S4、在原来Q学习算法的基础上，以S3所述贝叶斯记录表为先验知识，根据贝叶斯表更新算法进行迭代学习，并给出学习结果。

进一步地，S2所述建模的具体方法为：

S21、当目标雷达波形选择准则为最小互信息量准则，雷达回波信号建模为b＝a+w＝Sα+w，其中，S为包含波形参数的波形卷积矩阵，α为散射系数向量，w为接收机噪声向量；

S22、进行波形选择，具体为：保证下一次发送的波形能获得更多的新信息量，即前后两次雷达回波信号的互信息量最小，即

\begin{matrix} M I = {M I (b_{1}, b_{i})}_{s_{i} (m)}^{\min} \\ M I (b_{1}, b_{i}) = H (b_{1}) - H (b_{1} | b_{i}) \\ = H (b_{i}) - H (b_{i} | b_{1}) \end{matrix},

在w高斯白噪声分布的假设下，波形1和波形i之间的互信息量为，其中，{d_k|k＝1,2,...,K}是互相关矩阵R_xz的奇异值，矩阵R_xz定义为奇异值满足：1≥d₁≥d₂...≥d_K≥0，互相关矩阵R₁₁、R_i1，R_ii定义为

\begin{matrix} E (b_{1} b_{1}^{H}) = R_{11} = S_{1} R_{α α} S_{1}^{H} + R_{w w} \\ E (b_{i} b_{1}^{H}) = R_{i 1} = S_{i} R_{α α} S_{1}^{H} \\ E (b_{i} b_{i}^{H}) = R_{i i} = S_{i} R_{α α} S_{i}^{H} + R_{w w} \end{matrix},

得到不同波形间的互信息量；

S23、对S22所述的波形选择对象进行建模，以信号波形雷达、带宽等参数来表征不同的雷达波形状态，选择波形库中与上一发射波形互信息量最小的波形作为新的雷达波形状态；

S24、设置不同的干扰信号，影响目标雷达的波形选择，以此不断进行交互，则得到不同干扰下的波形转变情况即实验室训练数据。

进一步地，S3所述贝叶斯网络参数学习具体为：

S31、利用S2所述训练数据得到贝叶斯网络中的条件概率和贝叶斯定理；

S32、根据S31所述条件概率和贝叶斯定理得到输出节点即根节点的后验概率其中，s_k指雷达k时刻的状态，r_k指学习方在k时刻采取的攻击，s_k+1指雷达k+1时刻的新状态，公式左边表示在k时刻雷达处于状态s_k、学习方采取攻击r_k时，雷达在k+1时刻转变为新状态s_k+1的概率，为雷达新状态的后验概率估计。公式右边分母中，P(s_k+1|s_k)表示雷达的状态转移概率，也是k+1时刻状态的先验概率，P(r_k|s_k+1,s_k)是雷达状态的条件概率，表示雷达在k时刻是状态s_k，k+1时刻是状态s_k+1的条件下，学习方采取动作r_k的概率，也即是在状态s_k时，设置一期望状态s_k+1，学习方为使得雷达从状态s_k转到状态s_k+1选择各个攻击的概率，分母P(r_k|s_k)是分子对新状态s_k+1的积分或求和，仍以当前状态s_k为条件，学习方选择攻击r_k的概率。

进一步地，S4所述贝叶斯表更新算法，具体如下：

S41、进行最小互信息量下的波形选择对象建模、雷达波形库波形参数设置、干扰信号参数设置以后，通过向目标雷达发射不同的干扰信号得到波形转换情况，即得到了实验室训练数据，具体实现过程为：从波形1开始进行波形选择，攻击从4个干扰编号中随机选择，得到新波形，进行更新、循环，得到100个训练数据；

S42、构造贝叶斯网络，加入先验分布，求解最大后验解，利用Matlab中的贝叶斯工具箱对贝叶斯网络中的条件概率进行求解，最后得到根节点的后验概率，其中，先验概率设为Dirichlet分布，概率均等，贝叶斯记录表是在已求解的最大后验概率解的基础上统计的不同干扰下的波形转移情况，针对现波形、某一干扰下，选取具有最大后验概率的新波形作为输出，记录在表内，即

S_{t + 1}^{\max} = \underset{S_{t + 1}}{\arg \max} {P (S_{t}, r_{t}, S_{t + 1})};

S43、得到了贝叶斯后验概率表之后，根据贝叶斯表更新算法流程图，与最小互信息量准则下的波形选择对象之间进行交互，然后算法迭代、学习。

本发明的有益效果是：

本发明的方法首次将基于贝叶斯表更新的Q学习算法应用到雷达行为学习与辨识问题中，相对于现有技术在时域波形选择(最小互信息量准则)下的学习效果更优。

附图说明

图1是获取目标雷达波形库方法示意图。

图2是波形自适应行为建模示意图。

图3是波形选择对象下的贝叶斯网络结构。

图4是Q学习算法流程图。

图5是贝叶斯表更新算法流程图。

图6是Q学习算法收敛性曲线。

图7是贝叶斯表更新算法收敛性曲线。

图8是学习后干扰策略验证下的状态转移图。

图9是初始波形不同时算法学习效果验证。

具体实施方式

下面结合实施例和附图，详细说明本发明的技术方案。

S1、学习方通过不断的发射探测干扰信号，迫使目标雷达改变发射信号，学习方接收端获得目标雷达下次的发射信号，不断健全学习方的动态波形库。首先学习方接收端得到的波形信息和已知波形比对，若动态波形库中没有该波形，则存入该动态波形库，然后继续发射探测干扰，直到m次交互中得到的目标雷达发射波形均可在我方波形库内找到为止，m的值可以调节。

如图1所示，以波形选择下的最小互信息量准则为对象，不断发射干扰以遍历目标雷达波形库，得到学习方波形库，以后的学习及仿真均在完全并正确遍历了目标雷达波形库的条件下开展的。

S2、以时域最小互信息量准则下的波形选择为学习对象，对其进行建模，并利用建模的对象与学习方进行交互，得到不同干扰下的波形转变情况即实验室训练数据，具体如下：

S21、对波形自适应行为进行特征分析及建模。

当目标雷达波形选择准则为最小互信息量准则，雷达回波信号建模为：b＝a+w＝Sα+w，其中，S为包含波形参数的波形卷积矩阵，α为散射系数向量，w为接收机噪声向量，一般假定为高斯白噪声。

雷达为精确描述感兴趣的区域，采用更有效的方法收集信息。因此，波形选择准则为保证下一次发送的波形能获得更多的新信息量，即前后两次雷达回波信号的互信息量最小，表达式为：

\begin{matrix} M I = {M I (b_{1}, b_{i})}_{s_{i} (m)}^{\min} \\ M I (b_{1}, b_{i}) = H (b_{1}) - H (b_{1} | b_{i}) \\ = H (b_{i}) - H (b_{i} | b_{1}) \end{matrix} .

在w高斯白噪声分布的假设下，波形1和波形i之间的互信息量为：其中，{d_k|k＝1,2,...,K}是互相关矩阵R_xz的奇异值，矩阵R_xz定义如下：奇异值满足：1≥d₁≥d₂...≥d_K≥0，互相关矩阵R₁₁、R_i1，R_ii定义为：

\begin{matrix} E (b_{1} b_{1}^{H}) = R_{11} = S_{1} R_{α α} S_{1}^{H} + R_{w w} \\ E (b_{i} b_{1}^{H}) = R_{i 1} = S_{i} R_{α α} S_{1}^{H} \\ E (b_{i} b_{i}^{H}) = R_{i i} = S_{i} R_{α α} S_{i}^{H} + R_{w w} \end{matrix},

从上式则可得到不同波形间的互信息量。

然后，对最小互信息量准则下的波形选择对象进行建模，以信号波形雷达、带宽等参数来表征不同的雷达波形状态，根据此准则选择波形库中与上一发射波形互信息量最小的波形作为新的雷达波形状态，因此，在一定准则下的状态的转换即是雷达波形自适应行为。

具体建模如图2，以信号波形类型、信号带宽、信号脉宽等参数表征一个雷达波形状态。本发明仿真中目标雷达波形参数设置如下：波形库内设置32个波形，8类波形，分别为线性调频正斜率、线性调频负斜率、二次调频上凹正斜率、二次调频上凹负斜率、二次调频下凸正斜率、二次调频下凸负斜率、对数调频正斜率、对数调频负斜率；每类波形设置4种带宽，为10MHz、15MHz、20MHz、25MHz。

在对最小互信息量准则下的波形选择对象建模以后，还需要设置学习方干扰信号参数，干扰信号为4种，分别是干信比为30dB和50dB的单频信号，干信比为30dB和55dB、带宽为30MHz的线性调频信号。

在有了学习对象以及干扰信号后，则需要在仿真过程中求解不同干扰下的波形间的互信息量以便得到新选择的波形。其中，在w高斯白噪声分布的假设下，波形1和波形i之间的互信息量为：其中，{d_k|k＝1,2,...,K}是互相关矩阵R_xz的奇异值，矩阵R_xz定义如下：奇异值满足：1≥d₁≥d₂...≥d_K≥0，互相关矩阵R₁₁、R_i1，R_ii定义为：

\begin{matrix} E (b_{1} b_{1}^{H}) = R_{11} = S_{1} R_{α α} S_{1}^{H} + R_{w w} \\ E (b_{i} b_{1}^{H}) = R_{i 1} = S_{i} R_{α α} S_{1}^{H} \\ E (b_{i} b_{i}^{H}) = R_{i i} = S_{i} R_{α α} S_{i}^{H} + R_{w w} \end{matrix},

从上式则可得到不同波形间的互信息量。

S22、在对最小互信息量波形选择对象进行建模之后，设置不同的干扰信号，影响目标雷达的波形选择，以此不断进行交互，则得到不同干扰下的波形转变情况即实验室训练数据，交互过程中的雷达波形参数以及干扰信号参数在下面有详细说明。

S3、利用训练数据进行贝叶斯网络参数学习，利用Matlab环境下的贝叶斯工具箱，加入狄利克雷先验分布，得到新的雷达波形的最大后验概率表，而贝叶斯记录表则是指现波形、现干扰信号下具有最大后验概率的新波形编号。

贝叶斯网络的结构如图3所示，利用训练数据得到贝叶斯网络中的各种条件概率以及贝叶斯定理，进而可得到输出节点即根节点的后验概率其中，s_k指雷达k时刻的状态，r_k指学习方在k时刻采取的攻击，s_k+1指雷达k+1时刻的新状态，公式左边表示在k时刻雷达处于状态s_k、学习方采取攻击r_k时，雷达在k+1时刻转变为新状态s_k+1的概率，为雷达新状态的后验概率估计。公式右边分母中，P(s_k+1|s_k)表示雷达的状态转移概率，也是k+1时刻状态的先验概率，P(r_k|s_k+1,s_k)是雷达状态的条件概率，表示雷达在k时刻是状态s_k，k+1时刻是状态s_k+1的条件下，学习方采取动作r_k的概率，也即是在状态s_k时，设置一期望状态s_k+1，学习方为使得雷达从状态s_k转到状态s_k+1选择各个攻击的概率，分母P(r_k|s_k)是分子对新状态s_k+1的积分或求和，仍以当前状态s_k为条件，学习方选择攻击r_k的概率。

S4、在原来Q学习算法的基础上，以贝叶斯后验概率表为先验知识，根据图5的贝叶斯表更新算法流程图进行迭代学习，并给出学习结果。

图4和图5分别是Q学习算法和基于贝叶斯表更新的Q学习算法的流程图，两种算法的主要区别是贝叶斯表更新算法利用了实验室训练数据得到贝叶斯后验概率表，并以此表为先验知识以及对目标波形的引导知识，然后才在与对象的交互过程中学习、迭代。

Q学习算法具体实现过程包括以下步骤：

步骤1、在上述对最小互信息量下的波形选择对象建模、雷达波形库波形参数设置、干扰信号参数设置以后，则可以使得Q学习算法与目标对象之间利用干扰信号进行交互。

步骤2、根据图4中的Q学习算法流程图，在与目标对象之间不同交互的过程中，Q学习算法进行迭代、学习，图6则是Q学习算法的收敛性曲线。其中，横坐标的幕次表示达到目标状态的次数，而纵坐标的每幕次的迭代次数表示每次达到目标状态所需要的攻击次数，也即学习方与目标雷达进行交互时，牵引目标雷达到达目标状态时所需要的交互次数。从图中可以看出，在仿真幕次的开始阶段，所需要的迭代次数很多，甚至会达到迭代次数上限，随着仿真幕次的加深，在之前幕次迭代过程中获得的知识的基础上，算法达到目标波形所需要的迭代次数逐渐减少，最后达到稳定。

贝叶斯表更新算法具体实现过程包括以下步骤：

步骤一、在上述对最小互信息量下的波形选择对象建模、雷达波形库波形参数设置、干扰信号参数设置以后，则可以通过向目标雷达发射不同的干扰信号得到波形转换情况，也即得到了实验室训练数据，具体实现过程为：从波形1开始进行波形选择，攻击从4个干扰编号中随机选择，得到新波形，进行更新、循环，得到100个训练数据。

步骤二、构造贝叶斯网络，如图3所示，加入先验分布，求解最大后验解。先验概率设为Dirichlet分布，概率均等。利用Matlab中的贝叶斯工具箱对贝叶斯网络中的条件概率根据下式进行求解，最后得到根节点的后验概率。

而贝叶斯记录表则是在已求解的最大后验概率解的基础上统计的不同干扰下的波形转移情况，其中，针对现波形、某一干扰下，选取具有最大后验概率的新波形作为输出，也即记录在表内，即

S_{t + 1}^{\max} = \underset{S_{t + 1}}{\arg \max} {P (S_{t}, r_{t}, S_{t + 1})} .

步骤三、得到了贝叶斯后验概率表之后，则根据图5中的贝叶斯表更新算法流程图，与最小互信息量准则下的波形选择对象之间进行交互，然后算法迭代、学习，而图7是算法收敛性曲线、图8、图9则是贝叶斯表更新算法的学习结果。

Q学***均迭代次数，如图9，横坐标表示每次迭代初始化的初始波形编号，纵坐标为对应初始波形下达到目标波形时算法迭代的次数。可以看出，经过迭代学习后，各初始波形下想要达到目标波形所需的攻击次数大大减少，均在10次以内。

Claims

1.一种雷达自适应行为Q学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种雷达自适应行为Q学习方法，其特征在于：S2所述建模的具体方法为：

\begin{matrix} M I = \min_{s_{i} (n)} {M I (b_{1}, b_{i})} \\ M I (b_{1}, b_{i}) = H (b_{1}) - H (b_{1} | b_{i}) \\ = H (b_{i}) - H (b_{i} | b_{1}) \end{matrix},

\begin{matrix} E [b_{1} b_{1}^{H}] = R_{11} = S_{1} R_{α α} S_{1}^{H} + R_{w w} \\ E [b_{i} b_{1}^{H}] = R_{i 1} = S_{i} R_{α α} S_{1}^{H} \\ E [b_{i} b_{i}^{H}] = R_{i i} = S_{i} R_{α α} S_{i}^{H} + R_{w w} \end{matrix},

得到不同波形间的互信息量；

3.根据权利要求1所述的一种雷达自适应行为Q学习方法，其特征在于：S3所述贝叶斯网络参数学习具体为：

4.根据权利要求1所述的一种雷达自适应行为Q学习方法，其特征在于：S4所述贝叶斯表更新算法，具体如下：

S_{t + 1}^{\max} = \underset{S_{t + 1}}{\arg \max} {P (S_{t}, r_{t}, S_{t + 1})};