CN111144462A

CN111144462A - 一种雷达信号的未知个体识别方法及装置

Info

Publication number: CN111144462A
Application number: CN201911296607.8A
Authority: CN
Inventors: 黄双双; 李臻; 单志林; 李立; 苏志杰; 胡佳
Original assignee: CETC 38 Research Institute
Current assignee: CETC 38 Research Institute
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-12
Anticipated expiration: 2039-12-16
Also published as: CN111144462B

Abstract

本发明公开了一种雷达信号的未知个体识别方法及装置，所述方法包括：构建已知类别样本集N和未知类别样本集UN并存储；将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络，提取待识别样本的特征向量并对待识别样本进行分类；利用DDPG算法，根据待识别样本的特征向量，生成注意力概率分布向量；根据待识别样本的特征向量和注意力概率分布向量，生成条件特征向量并输入到解码网络判定待识别样本的类别；进行编码网络、解码网络以及DDPG算法中的网络训练；本发明的优点在于：避免了未知类别信号被错误识别为已知的某一类信号，实现已知类信号和未知类信号准确分开。

Description

一种雷达信号的未知个体识别方法及装置

技术领域

本发明涉及电子侦察领域，更具体涉及一种雷达信号的未知个体识别方法及装置。

背景技术

基于深度学习的分类网络，模型的输出类型通常是固定的，所以在进行模型训练时，测试数据的类别也都是已知的。而在真实的应用场景中，通常会出现训练时不存在的未知类别，而传统的分类网络对训练过程中不存在的未知类别不能正确的进行分类。这一缺陷会导致分类模型在真实应用环境下的识别精度大大下降，所以解决未知类别的识别问题是提高分类网络识别精度的关键因素。现有的针对深度学习的未知类识别问题的解决方法主要有两种，方法一是在训练集中加入未知样本类，通过待检测数据和已知样本的相似度进行未知类别的区分。方法二是通过提取分类网络的中间层特征，再结合常用的机器学习方法(KNN，PCA，TSNE等聚类方法)进行聚类分析，将未知类区分开。

上面两种方法在一些应用场景中对未知类别的识别都取得了较好的效果，但是也存在一定的缺陷。方法一是通过在训练集中加入未知样本类实现已知类别和未知类别的区分，对未知样本依赖性很大，样本集较难收集，未知类中很难囊括所有潜在的未知类型，当模型遇到训练集中不存在的类型时，还是无法进行正确的分类。方法二通过提取分类网络的中间层特征，再结合常用的机器学习方法进行聚类分析，将未知类区分开，只能在未知类别和已知类别相似度不大的情况下有较好的效果，而雷达信号的个体识别，是通过雷达硬件差异性而产生的信号的细微变化来进行区分，不同雷达个体信号相似度很大，通过对分类网络的中间特征进行聚类分析，很难将不同的个体完全区分开。所以综上，现有的针对深度学习的未知类识别问题的解决方法存在无法进行正确分类的问题，深入研究深度学习领域前沿技术，探索更好的未知类别识别方法对雷达信号个体识别精度的提高具有重要的意义。

发明内容

本发明所要解决的技术问题在于如何提供一种雷达信号的未知个体识别方法及装置，以使已知类信号和未知类信号准确分开。

本发明通过以下技术手段实现解决上述技术问题的：一种雷达信号的未知个体识别方法，所述方法包括：

步骤一：构建已知类别样本集N和未知类别样本集UN并存储；

步骤二：将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络，提取待识别样本的特征向量并对待识别样本进行分类；

步骤三：利用DDPG算法，根据待识别样本的特征向量，生成注意力概率分布向量；

步骤四：根据待识别样本的特征向量和注意力概率分布向量，生成条件特征向量并输入到解码网络判定待识别样本的类别；

步骤五：进行编码网络、解码网络以及DDPG算法中的网络训练。

传统的编码网络和解码网络就是完成对输入信号的正确恢复，本发明中通过引入了注意力机制，使得编码网络和解码网络能够对输入信号进行有选择的恢复。通过DDPG算法，生成注意力概率分布向量，根据待识别样本的特征向量和注意力概率分布向量，生成条件特征向量并输入到解码网络进行信号的恢复，对于解码网络的输出结果，计算其与输入信号的相似度，相似度高则表明输入信号为已知信号，其所属类别为分类器输出的类别，如果相似度低则表明输入信号为未知类别信号。通过注意力机制给编码网络输出的特征向量分配不同的注意力，对于已知类别的信号，特征向量的主要特征会被加强，次要特征会被减弱，使得已知类别的信号能够正确的被恢复。而对于未知类别的信号，其主要特征被减弱，使得未知类别信号不能被恢复。最终实现了对输入的未知类别信号进行了有效识别，避免了未知类别信号被错误识别为已知的某一类信号，实现已知类信号和未知类信号准确分开。

优选的，所述构建已知类别样本集N和未知类别样本集UN包括：收集n部雷达的信号，将其中K部雷达的信号作为已知类别，构成已知类别样本集N，将其中n-K部雷达的信号作为未知类别，构成未知类别样本集UN。

优选的，所述步骤二包括：所述编码网络包括输入层、中间层以及输出层，输入层输入待识别样本，中间层由一维的卷积层和池化层组成，卷积层对待识别样本进行特征提取，池化层对待识别样本进行降维，输出层输出待识别样本的特征向量h且h＝f(wx+b)，其中，w为编码网络的权重，b为编码网络的偏置，x为输入的一维序列的待识别样本，得到特征向量h后，将特征向量h输入到分类器，得到待识别样本的类别，其中，分类器由一个全连接层和softmax分类器组成。

优选的，所述步骤三包括：利用DDPG算法，基于卷积神经网络搭建actor网络u(s；θ^u)，critic网络Q(s，a；θ^Q)，其中，s为actor网络及critic网络的输入，等于编码网络提取的特征向量h，θ^u为actor网络的权重参数，θ^Q为critic网络的权重参数；通过actor网络生成的动作和随机噪声采样得到一个动作a，动作a即为注意力概率分布向量。

优选的，所述步骤四包括：根据公式c＝h*a获取条件特征向量，其中c为条件特征向量，将得到的条件特征向量c输入到解码网络，解码网络结构与编码网络对称，解码网络输出结果为x’＝g(w’c+b’)，其中，w’为解码网络的权重，b’为解码网络的偏置，x’为解码网络的输出，根据解码网络的输出判定待识别样本的类别。

优选的，所述步骤五包括：使用已知类别样本集N，对编码网络以及解码网络进行训练，损失函数公式为

其中，y_i

为输入的第i个待识别样本的真实类别，y_i'为编码网络输出的第i个待识别样本的类别，x_i为第i个待识别样本，m为待识别样本的个数，x_i'为第i个待识别样本在解码网络的输出；训练过程中，每次计算输入的m个样本的损失值L₁，然后通过反向传播算法进行网络参数的更新，直到网络的损失值L₁不再下降，则完成编码网络以及解码网络的训练；

actor网络和critic网络的训练，首先分别给actor网络和critic网络定义一个目标网络，即u(s'；θ^u')和Q(s'，a'；θ^Q')，s'为目标actor网络和目标critic网络的输入，a'为目标actor网络输出的动作，θ^u'为目标actor网络的权重参数，θ^Q'为目标critic网络的权重参数，训练过程中，保持编码网络的参数固定，训练的样本集包括N样本集及UN样本集，actor网络根据编码网络和解码网络提供的输入状态s，生成动作a，编码网络和解码网络根据a计算奖赏r，并提供下一个输入状态s'，将转换状态(s，a，r，s')存储到缓存中，从缓冲区中采集m个样本(s_i，a_i，r_i，s_i')，m＝1，2….m，critic网络根据转换状态中的s_i和actor网络的输出a_i计算Q值，actor网络根据Q值计算策略梯度并完成actor网络的权重参数的更新，公式如下：

其中，M是从缓冲区中采集的样本数目，

为策略梯度，

为梯度符号；目标actor网络根据转换状态中的s_i'得到动作a_i'，目标critic网络根据s_i'和a_i'得到目标critic网络输出Q'，根据critic网络得到Q和目标critic网络得到的Q'，计算二者的时间差分误差L，根据L计算梯度并进行critic网络权值的更新，差分误差表达式如下：

其中的y_i根据下式计算：

y_i＝r_i+γQ′(s_i+1，u′(s_i+1|Θ^u′)|Θ^Q′)

其中，r_i为第i个待识别样本的奖赏值，Υ为预设的权重系数，Q为critic网络输出值，Q'为目标critic网络输出值。

通过soft update算法更新目标actor网络和目标critic网络的权重参数，更新方式如下：Θ^Q′＝τΘ^Q+(1-τ)Θ^Q′

Θ^u′＝τΘ^u+(1-τ)Θ^u′

τ为权重系数，取值为0.001；

直到差分误差小于预设的值并稳定，完成DDPG算法中的网络的训练。

本发明还提供一种雷达信号的未知个体识别装置，所述装置包括：

样本集构建模块，用于构建已知类别样本集N和未知类别样本集UN并存储；

提取分类模块，用于将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络，提取待识别样本的特征向量并对待识别样本进行分类；

向量生成模块，用于利用DDPG算法，根据待识别样本的特征向量，生成注意力概率分布向量；

类别判定模块，用于根据待识别样本的特征向量和注意力概率分布向量，生成条件特征向量并输入到解码网络判定待识别样本的类别；

训练模块，用于进行编码网络、解码网络以及DDPG算法中的网络训练。

优选的，所述提取分类模块还用于：所述编码网络包括输入层、中间层以及输出层，输入层输入待识别样本，中间层由一维的卷积层和池化层组成，卷积层对待识别样本进行特征提取，池化层对待识别样本进行降维，输出层输出待识别样本的特征向量h且h＝f(wx+b)，其中，w为编码网络的权重，b为编码网络的偏置，x为输入的一维序列的待识别样本，得到特征向量h后，将特征向量h输入到分类器，得到待识别样本的类别，其中，分类器由一个全连接层和softmax分类器组成。

优选的，所述向量生成模块还用于：利用DDPG算法，基于卷积神经网络搭建actor网络u(s；θ^u)，critic网络Q(s，a；θ^Q)，其中，s为actor网络及critic网络的输入，等于编码网络提取的特征向量h，θ^u为actor网络的权重参数，θ^Q为critic网络的权重参数；通过actor网络生成的动作和随机噪声采样得到一个动作a，动作a即为注意力概率分布向量。

优选的，所述类别判定模块还包括：根据公式c＝h*a获取条件特征向量，其中c为条件特征向量，将得到的条件特征向量c输入到解码网络，解码网络结构与编码网络对称，解码网络输出结果为x’＝g(w’c+b’)，其中，w’为解码网络的权重，b’为解码网络的偏置，x’为解码网络的输出，根据解码网络的输出判定待识别样本的类别。

优选的，所述训练模块还用于：使用已知类别样本集N，对编码网络以及解码网络进行训练，损失函数公式为

其中，y_i为输入的第i个待识别样本的真实类别，y_i'为编码网络输出的第i个待识别样本的类别，x_i为第i个待识别样本，m为待识别样本的个数，x_i'为第i个待识别样本在解码网络的输出；训练过程中，每次计算输入的m个样本的损失值L₁，然后通过反向传播算法进行网络参数的更新，直到网络的损失值L₁不再下降，则完成编码网络以及解码网络的训练；

其中，M是从缓冲区中采集的样本数目，

为策略梯度，

其中的y_i根据下式计算：

y_i＝r_i+γQ′(s_i+1，u′(s_i+1|Θ^u′)|Θ^Q′)

其中，r_i为第i个待识别样本的奖赏值，Υ为预设的权重系数，Q为critic网络输出值，Q'为目标critic网络输出值；

Θ^u′＝τΘ^u+(1-τ)Θ^u′

τ为权重系数，取值为0.001；

本发明的优点在于：传统的编码网络和解码网络就是完成对输入信号的正确恢复，本发明中通过引入了注意力机制，使得编码网络和解码网络能够对输入信号进行有选择的恢复。通过DDPG算法，生成注意力概率分布向量，根据待识别样本的特征向量和注意力概率分布向量，生成条件特征向量并输入到解码网络进行信号的恢复，对于解码网络的输出结果，计算其与输入信号的相似度，相似度高则表明输入信号为已知信号，其所属类别为分类器输出的类别，如果相似度低则表明输入信号为未知类别信号。通过注意力机制给编码网络输出的特征向量分配不同的注意力，对于已知类别的信号，特征向量的主要特征会被加强，次要特征会被减弱，使得已知类别的信号能够被正确的被恢复。而对于未知类别的信号，其主要特征被减弱，使得未知类别信号不能被恢复。最终实现了对输入的未知类别信号进行了有效识别，避免了未知类别信号被错误识别为已知的某一类信号，实现已知类信号和未知类信号准确分开。

附图说明

图1为本发明实施例所公开的一种雷达信号的未知个体识别方法的流程图；

图2为本发明实施例所公开的一种雷达信号的未知个体识别方法的原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1和图2所示，一种雷达信号的未知个体识别方法，所述方法包括：步骤S1：构建已知类别样本集N和未知类别样本集UN并存储，具体为：收集n部雷达的信号，将其中K部雷达的信号作为已知类别，构成已知类别样本集N，将其中n-K部雷达的信号作为未知类别，构成未知类别样本集UN。

步骤S2：将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络，提取待识别样本的特征向量并对待识别样本进行分类；编码网络进行特征向量的提取及分类属于现有技术，编码网络包括输入层、中间层以及输出层，输入层输入待识别样本，中间层由一维的卷积层和池化层组成，卷积层对待识别样本进行特征提取，池化层对待识别样本进行降维，输出层输出待识别样本的特征向量h且h＝f(wx+b)，其中，f()是一种函数表达方式，h＝f(wx+b)表示h是关于x的函数，w为编码网络的权重，b为编码网络的偏置，x为输入的一维序列的待识别样本，得到特征向量h后，将特征向量h输入到分类器，得到待识别样本的类别，其中，分类器由一个全连接层和softmax分类器组成。

步骤S3：利用深度强化学习(Deep Reinforcement Learning)的DDPG(DeepDeterministic Policy Gradient)算法，根据待识别样本的特征向量，生成注意力概率分布向量；其主要过程为：利用DDPG算法，基于卷积神经网络搭建actor网络u(s；θ^u)，critic网络Q(s，a；θ^Q)，其中，s为actor网络及critic网络的输入，等于编码网络提取的特征向量h，θ^u为actor网络的权重参数，θ^Q为critic网络的权重参数；通过actor网络生成的动作和随机噪声采样得到一个动作a，动作a即为注意力概率分布向量。编码网络根据a，计算相应的奖励r并反馈给critic网络，并转移到下一个输入状态s'，并将转换状态(s，a，r，s')存储到缓存中，用于网络训练。

步骤S4：根据待识别样本的特征向量和注意力概率分布向量，生成条件特征向量并输入到解码网络判定待识别样本的类别；具体过程为：根据公式c＝h*a获取条件特征向量，其中c为条件特征向量，将得到的条件特征向量c输入到解码网络，解码网络结构与编码网络对称，解码网络输出结果为x’＝g(w’c+b’)，其中，g()是一种函数表达方式，x’＝g(w’c+b’)表示x’是关于c的函数，w’为解码网络的权重，b’为解码网络的偏置，x’为解码网络的输出，根据解码网络的输出判定待识别样本的类别。需要说明的是，选择步骤S3中得到的最大的Q值对应的注意力概率分布向量a与特征向量h相乘得到条件特征向量。

步骤S5：进行编码网络、解码网络以及DDPG算法中的网络训练。训练过程属于现有比较常见的训练方式，下面简单介绍其训练过程：使用已知类别样本集N，对编码网络以及解码网络进行训练，损失函数公式为

其中，i表示第i个样本，si为第i个样本的输入状态，a_i表示第i个样本中actor网络的输出，M是从缓冲区中采集的样本数目，

为策略梯度，

为梯度符号；目标actor网络根据转换状态中的s_i'得到动作a_i'，目标critic网络根据s_i'和a_i'得到目标critic网络输出Q'，根据critic网络得到的Q和目标critic网络得到的Q'，计算二者的时间差分误差L，根据L计算梯度并进行critic网络权值的更新，差分误差表达式如下：

其中的y_i根据下式计算：

y_i＝r_i+γQ′(s_i+1，u′(s_i+1|Θ^u′)|Θ^Q′)

通过soft update算法更新目标actor网络和目标critic网络的权重参数，更新方式如下：

Θ^Q′＝τΘ^Q+(1-τ)Θ^Q′

Θ^u′＝τΘ^u+(1-τ)Θ^u′

τ为权重系数，一般取值为0.001；

本发明的工作原理为：如图2所示，待识别样本的信号首先通过编码网络，自动提取信号的隐含特征，得到的输入信号的特征向量一方面输入到分类器，对信号进行分类，这一过程与传统的分类网络流程一致。另一方面将其与强化学习生成的注意力概率分布向量相乘得到条件特征向量，生成的条件特征向量输入到解码网络进行输入信号的恢复。对于解码网络的输出结果，计算其与原始输入信号的相似度，相似度高则表明输入信号为已知信号，其所属类别为分类器输出的类别，如果相似度低则表明输入信号为未知类别信号。强化学习的智能体根据输入信号的特征向量生成注意力概率分布向量，并根据解码网络的输出对输入信号的类别进行判定，判断正确则反馈给强化学习的奖赏为+1，否则为-1，强化学习的智能体根据获得的奖赏动态调整参数，以达到生成的注意力概率分布向量最优。

通过以上技术方案，本发明提供的一种雷达信号的未知个体识别方法及装置，通过对传统的编码网络和解码网络中间隐含层特征向量进行加权输出，从而有效控制解码网络的输出，当输入样本是训练样本集中已存在的已知类别时，解码网络对输入样本能正确进行解码，而当输入样本是训练样本集中不存在的未知类别时，解码网络不能对输入样本进行正确解码。所以通过编码网络对输入样本进行分类，通过解码网络的输出结果判断输入样本是否是训练样本集中不存在的未知类别。待分类信号首先通过编码网络，自动提取信号的隐含特征，得到的输入样本的特征向量一方面输入到分类器，对样本进行分类，这一过程与传统的分类网络流程一致。另一方面将其与强化学习生成的注意力概率分布向量相乘得到条件特征向量，生成的条件特征向量输入到解码网络进行输入样本的恢复。对于解码网络的输出结果，计算其与原始输入样本的相似度，相似度高则表明输入样本为已知信号，其所属类别为分类器输出的类别，如果相似度低则表明输入样本为未知类别信号。强化学习的智能体根据输入信号的特征向量生成注意力概率分布向量，并根据解码网络的输出对输入样本的类别进行判定，判断正确则反馈给强化学习的奖赏为+1，否则为-1，强化学习的智能体根据获得的奖赏动态调整参数，以达到生成的注意力概率分布向量最优。

实施例2

与本发明实施例1相对应的，本发明实施例2还提供一种雷达信号的未知个体识别装置，所述装置包括：

具体的，所述构建已知类别样本集N和未知类别样本集UN包括：收集n部雷达的信号，将其中K部雷达的信号作为已知类别，构成已知类别样本集N，将其中n-K部雷达的信号作为未知类别，构成未知类别样本集UN。

具体的，所述提取分类模块还用于：所述编码网络包括输入层、中间层以及输出层，输入层输入待识别样本，中间层由一维的卷积层和池化层组成，卷积层对待识别样本进行特征提取，池化层对待识别样本进行降维，输出层输出待识别样本的特征向量h且h＝f(wx+b)，其中，w为编码网络的权重，b为编码网络的偏置，x为输入的一维序列的待识别样本，得到特征向量h后，将特征向量h输入到分类器，得到待识别样本的类别，其中，分类器由一个全连接层和softmax分类器组成。

具体的，所述向量生成模块还用于：利用DDPG算法，基于卷积神经网络搭建actor网络u(s；θ^u)，critic网络Q(s，a；θ^Q)，其中，s为actor网络及critic网络的输入，等于编码网络提取的特征向量h，θ^u为actor网络的权重参数，θ^Q为critic网络的权重参数；通过actor网络生成的动作和随机噪声采样得到一个动作a，动作a即为注意力概率分布向量。

具体的，所述类别判定模块还包括：根据公式c＝h*a获取条件特征向量，其中c为条件特征向量，将得到的条件特征向量c输入到解码网络，解码网络结构与编码网络对称，解码网络输出结果为x’＝g(w’c+b’)，其中，w’为解码网络的权重，b’为解码网络的偏置，x’为解码网络的输出，根据解码网络的输出判定待识别样本的类别。

具体的，所述训练模块还用于：使用已知类别样本集N，对编码网络以及解码网络进行训练，损失函数公式为

其中，M是从缓冲区中采集的样本数目，

为策略梯度，

其中的y_i根据下式计算：

y_i＝r_i+γQ′(s_i+1，u′(s_i+1|Θ^u′)|Θ^Q′)

Θ^u′＝τΘ^u+(1-τ)Θ^u′

τ为权重系数，取值为0.001；

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种雷达信号的未知个体识别方法，其特征在于，所述方法包括：

步骤一：构建已知类别样本集N和未知类别样本集UN并存储；

2.根据权利要求1所述的一种雷达信号的未知个体识别方法，其特征在于，所述构建已知类别样本集N和未知类别样本集UN包括：收集n部雷达的信号，将其中K部雷达的信号作为已知类别，构成已知类别样本集N，将其中n-K部雷达的信号作为未知类别，构成未知类别样本集UN。

3.根据权利要求1所述的一种雷达信号的未知个体识别方法，其特征在于，所述步骤二包括：所述编码网络包括输入层、中间层以及输出层，输入层输入待识别样本，中间层由一维的卷积层和池化层组成，卷积层对待识别样本进行特征提取，池化层对待识别样本进行降维，输出层输出待识别样本的特征向量h且h＝f(wx+b)，其中，w为编码网络的权重，b为编码网络的偏置，x为输入的一维序列的待识别样本，得到特征向量h后，将特征向量h输入到分类器，得到待识别样本的类别，其中，分类器由一个全连接层和softmax分类器组成。

4.根据权利要求3所述的一种雷达信号的未知个体识别方法，其特征在于，所述步骤三包括：利用DDPG算法，基于卷积神经网络搭建actor网络u(s；θ^u)，critic网络Q(s，a；θ^Q)，其中，s为actor网络及critic网络的输入，等于编码网络提取的特征向量h，θ^u为actor网络的权重参数，θ^Q为critic网络的权重参数；通过actor网络生成的动作和随机噪声采样得到一个动作a，动作a即为注意力概率分布向量。

5.根据权利要求4所述的一种雷达信号的未知个体识别方法，其特征在于，所述步骤四包括：根据公式c＝h*a获取条件特征向量，其中c为条件特征向量，将得到的条件特征向量c输入到解码网络，解码网络结构与编码网络对称，解码网络输出结果为x’＝g(w’c+b’)，其中，w’为解码网络的权重，b’为解码网络的偏置，x’为解码网络的输出，根据解码网络的输出判定待识别样本的类别。

6.根据权利要求5所述的一种雷达信号的未知个体识别方法，其特征在于，所述步骤五包括：使用已知类别样本集N，对编码网络以及解码网络进行训练，损失函数公式为

actor网络和critic网络的训练，首先分别给actor网络和critic网络定义一个目标网络，即u(s′；θ^u′)和Q(s′，a′；θ^Q′)，s′为目标actor网络和目标critic网络的输入，a′为目标actor网络输出的动作，θ^u'为目标actor网络的权重参数，θ^Q'为目标critic网络的权重参数，训练过程中，保持编码网络的参数固定，训练的样本集包括N样本集及UN样本集，actor网络根据编码网络和解码网络提供的输入状态s，生成动作a，编码网络和解码网络根据a计算奖赏r，并提供下一个输入状态s'，将转换状态(s，a，r，s')存储到缓存中，从缓冲区中采集m个样本(s_i，a_i，r_i，s_i')，m＝1，2….m，critic网络根据转换状态中的s_i和actor网络的输出a_i计算Q值，actor网络根据Q值计算策略梯度并完成actor网络的权重参数的更新，公式如下：

其中，M是从缓冲区中采集的样本数目，

为策略梯度，

其中的y_i根据下式计算：

y_i＝r_i+γ^Q′(s_i+1，u′(s_i+1|Θ^u′)|Θ^Q′)

Θ^Q′＝τΘ^Q+(1-τ)Θ^Q′

Θ^u′＝τΘ^u+(1-τ)Θ^u′

τ为权重系数，取值为0.001；

7.一种雷达信号的未知个体识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的一种雷达信号的未知个体识别装置，其特征在于，所述构建已知类别样本集N和未知类别样本集UN包括：收集n部雷达的信号，将其中K部雷达的信号作为已知类别，构成已知类别样本集N，将其中n-K部雷达的信号作为未知类别，构成未知类别样本集UN。

9.根据权利要求7所述的一种雷达信号的未知个体识别装置，其特征在于，所述提取分类模块还用于：所述编码网络包括输入层、中间层以及输出层，输入层输入待识别样本，中间层由一维的卷积层和池化层组成，卷积层对待识别样本进行特征提取，池化层对待识别样本进行降维，输出层输出待识别样本的特征向量h且h＝f(wx+b)，其中，w为编码网络的权重，b为编码网络的偏置，x为输入的一维序列的待识别样本，得到特征向量h后，将特征向量h输入到分类器，得到待识别样本的类别，其中，分类器由一个全连接层和softmax分类器组成。

10.根据权利要求9所述的一种雷达信号的未知个体识别装置，其特征在于，所述向量生成模块还用于：利用DDPG算法，基于卷积神经网络搭建actor网络u(s；θ^u)，critic网络Q(s，a；θ^Q)，其中，s为actor网络及critic网络的输入，等于编码网络提取的特征向量h，θ^u为actor网络的权重参数，θ^Q为critic网络的权重参数；通过actor网络生成的动作和随机噪声采样得到一个动作a，动作a即为注意力概率分布向量。