CN111144462A - 一种雷达信号的未知个体识别方法及装置 - Google Patents

一种雷达信号的未知个体识别方法及装置 Download PDF

Info

Publication number
CN111144462A
CN111144462A CN201911296607.8A CN201911296607A CN111144462A CN 111144462 A CN111144462 A CN 111144462A CN 201911296607 A CN201911296607 A CN 201911296607A CN 111144462 A CN111144462 A CN 111144462A
Authority
CN
China
Prior art keywords
network
sample
identified
input
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911296607.8A
Other languages
English (en)
Other versions
CN111144462B (zh
Inventor
黄双双
李臻
单志林
李立
苏志杰
胡佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 38 Research Institute
Original Assignee
CETC 38 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 38 Research Institute filed Critical CETC 38 Research Institute
Priority to CN201911296607.8A priority Critical patent/CN111144462B/zh
Publication of CN111144462A publication Critical patent/CN111144462A/zh
Application granted granted Critical
Publication of CN111144462B publication Critical patent/CN111144462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种雷达信号的未知个体识别方法及装置,所述方法包括:构建已知类别样本集N和未知类别样本集UN并存储;将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络,提取待识别样本的特征向量并对待识别样本进行分类;利用DDPG算法,根据待识别样本的特征向量,生成注意力概率分布向量;根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络判定待识别样本的类别;进行编码网络、解码网络以及DDPG算法中的网络训练;本发明的优点在于:避免了未知类别信号被错误识别为已知的某一类信号,实现已知类信号和未知类信号准确分开。

Description

一种雷达信号的未知个体识别方法及装置
技术领域
本发明涉及电子侦察领域,更具体涉及一种雷达信号的未知个体识别方法及装置。
背景技术
基于深度学习的分类网络,模型的输出类型通常是固定的,所以在进行模型训练时,测试数据的类别也都是已知的。而在真实的应用场景中,通常会出现训练时不存在的未知类别,而传统的分类网络对训练过程中不存在的未知类别不能正确的进行分类。这一缺陷会导致分类模型在真实应用环境下的识别精度大大下降,所以解决未知类别的识别问题是提高分类网络识别精度的关键因素。现有的针对深度学习的未知类识别问题的解决方法主要有两种,方法一是在训练集中加入未知样本类,通过待检测数据和已知样本的相似度进行未知类别的区分。方法二是通过提取分类网络的中间层特征,再结合常用的机器学习方法(KNN,PCA,TSNE等聚类方法)进行聚类分析,将未知类区分开。
上面两种方法在一些应用场景中对未知类别的识别都取得了较好的效果,但是也存在一定的缺陷。方法一是通过在训练集中加入未知样本类实现已知类别和未知类别的区分,对未知样本依赖性很大,样本集较难收集,未知类中很难囊括所有潜在的未知类型,当模型遇到训练集中不存在的类型时,还是无法进行正确的分类。方法二通过提取分类网络的中间层特征,再结合常用的机器学习方法进行聚类分析,将未知类区分开,只能在未知类别和已知类别相似度不大的情况下有较好的效果,而雷达信号的个体识别,是通过雷达硬件差异性而产生的信号的细微变化来进行区分,不同雷达个体信号相似度很大,通过对分类网络的中间特征进行聚类分析,很难将不同的个体完全区分开。所以综上,现有的针对深度学习的未知类识别问题的解决方法存在无法进行正确分类的问题,深入研究深度学习领域前沿技术,探索更好的未知类别识别方法对雷达信号个体识别精度的提高具有重要的意义。
发明内容
本发明所要解决的技术问题在于如何提供一种雷达信号的未知个体识别方法及装置,以使已知类信号和未知类信号准确分开。
本发明通过以下技术手段实现解决上述技术问题的:一种雷达信号的未知个体识别方法,所述方法包括:
步骤一:构建已知类别样本集N和未知类别样本集UN并存储;
步骤二:将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络,提取待识别样本的特征向量并对待识别样本进行分类;
步骤三:利用DDPG算法,根据待识别样本的特征向量,生成注意力概率分布向量;
步骤四:根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络判定待识别样本的类别;
步骤五:进行编码网络、解码网络以及DDPG算法中的网络训练。
传统的编码网络和解码网络就是完成对输入信号的正确恢复,本发明中通过引入了注意力机制,使得编码网络和解码网络能够对输入信号进行有选择的恢复。通过DDPG算法,生成注意力概率分布向量,根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络进行信号的恢复,对于解码网络的输出结果,计算其与输入信号的相似度,相似度高则表明输入信号为已知信号,其所属类别为分类器输出的类别,如果相似度低则表明输入信号为未知类别信号。通过注意力机制给编码网络输出的特征向量分配不同的注意力,对于已知类别的信号,特征向量的主要特征会被加强,次要特征会被减弱,使得已知类别的信号能够正确的被恢复。而对于未知类别的信号,其主要特征被减弱,使得未知类别信号不能被恢复。最终实现了对输入的未知类别信号进行了有效识别,避免了未知类别信号被错误识别为已知的某一类信号,实现已知类信号和未知类信号准确分开。
优选的,所述构建已知类别样本集N和未知类别样本集UN包括:收集n部雷达的信号,将其中K部雷达的信号作为已知类别,构成已知类别样本集N,将其中n-K部雷达的信号作为未知类别,构成未知类别样本集UN。
优选的,所述步骤二包括:所述编码网络包括输入层、中间层以及输出层,输入层输入待识别样本,中间层由一维的卷积层和池化层组成,卷积层对待识别样本进行特征提取,池化层对待识别样本进行降维,输出层输出待识别样本的特征向量h且h=f(wx+b),其中,w为编码网络的权重,b为编码网络的偏置,x为输入的一维序列的待识别样本,得到特征向量h后,将特征向量h输入到分类器,得到待识别样本的类别,其中,分类器由一个全连接层和softmax分类器组成。
优选的,所述步骤三包括:利用DDPG算法,基于卷积神经网络搭建actor网络u(s;θu),critic网络Q(s,a;θQ),其中,s为actor网络及critic网络的输入,等于编码网络提取的特征向量h,θu为actor网络的权重参数,θQ为critic网络的权重参数;通过actor网络生成的动作和随机噪声采样得到一个动作a,动作a即为注意力概率分布向量。
优选的,所述步骤四包括:根据公式c=h*a获取条件特征向量,其中c为条件特征向量,将得到的条件特征向量c输入到解码网络,解码网络结构与编码网络对称,解码网络输出结果为x’=g(w’c+b’),其中,w’为解码网络的权重,b’为解码网络的偏置,x’为解码网络的输出,根据解码网络的输出判定待识别样本的类别。
优选的,所述步骤五包括:使用已知类别样本集N,对编码网络以及解码网络进行训练,损失函数公式为
Figure BDA0002320720800000041
其中,yi
为输入的第i个待识别样本的真实类别,yi'为编码网络输出的第i个待识别样本的类别,xi为第i个待识别样本,m为待识别样本的个数,xi'为第i个待识别样本在解码网络的输出;训练过程中,每次计算输入的m个样本的损失值L1,然后通过反向传播算法进行网络参数的更新,直到网络的损失值L1不再下降,则完成编码网络以及解码网络的训练;
actor网络和critic网络的训练,首先分别给actor网络和critic网络定义一个目标网络,即u(s';θu')和Q(s',a';θQ'),s'为目标actor网络和目标critic网络的输入,a'为目标actor网络输出的动作,θu'为目标actor网络的权重参数,θQ'为目标critic网络的权重参数,训练过程中,保持编码网络的参数固定,训练的样本集包括N样本集及UN样本集,actor网络根据编码网络和解码网络提供的输入状态s,生成动作a,编码网络和解码网络根据a计算奖赏r,并提供下一个输入状态s',将转换状态(s,a,r,s')存储到缓存中,从缓冲区中采集m个样本(si,ai,ri,si'),m=1,2….m,critic网络根据转换状态中的si和actor网络的输出ai计算Q值,actor网络根据Q值计算策略梯度并完成actor网络的权重参数的更新,公式如下:
Figure BDA0002320720800000051
其中,M是从缓冲区中采集的样本数目,
Figure BDA0002320720800000052
为策略梯度,
Figure BDA0002320720800000053
为梯度符号;目标actor网络根据转换状态中的si'得到动作ai',目标critic网络根据si'和ai'得到目标critic网络输出Q',根据critic网络得到Q和目标critic网络得到的Q',计算二者的时间差分误差L,根据L计算梯度并进行critic网络权值的更新,差分误差表达式如下:
Figure BDA0002320720800000054
其中的yi根据下式计算:
yi=ri+γQ′(si+1,u′(si+1u′)|ΘQ′)
其中,ri为第i个待识别样本的奖赏值,Υ为预设的权重系数,Q为critic网络输出值,Q'为目标critic网络输出值。
通过soft update算法更新目标actor网络和目标critic网络的权重参数,更新方式如下:ΘQ′=τΘQ+(1-τ)ΘQ′
Θu′=τΘu+(1-τ)Θu′
τ为权重系数,取值为0.001;
直到差分误差小于预设的值并稳定,完成DDPG算法中的网络的训练。
本发明还提供一种雷达信号的未知个体识别装置,所述装置包括:
样本集构建模块,用于构建已知类别样本集N和未知类别样本集UN并存储;
提取分类模块,用于将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络,提取待识别样本的特征向量并对待识别样本进行分类;
向量生成模块,用于利用DDPG算法,根据待识别样本的特征向量,生成注意力概率分布向量;
类别判定模块,用于根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络判定待识别样本的类别;
训练模块,用于进行编码网络、解码网络以及DDPG算法中的网络训练。
优选的,所述构建已知类别样本集N和未知类别样本集UN包括:收集n部雷达的信号,将其中K部雷达的信号作为已知类别,构成已知类别样本集N,将其中n-K部雷达的信号作为未知类别,构成未知类别样本集UN。
优选的,所述提取分类模块还用于:所述编码网络包括输入层、中间层以及输出层,输入层输入待识别样本,中间层由一维的卷积层和池化层组成,卷积层对待识别样本进行特征提取,池化层对待识别样本进行降维,输出层输出待识别样本的特征向量h且h=f(wx+b),其中,w为编码网络的权重,b为编码网络的偏置,x为输入的一维序列的待识别样本,得到特征向量h后,将特征向量h输入到分类器,得到待识别样本的类别,其中,分类器由一个全连接层和softmax分类器组成。
优选的,所述向量生成模块还用于:利用DDPG算法,基于卷积神经网络搭建actor网络u(s;θu),critic网络Q(s,a;θQ),其中,s为actor网络及critic网络的输入,等于编码网络提取的特征向量h,θu为actor网络的权重参数,θQ为critic网络的权重参数;通过actor网络生成的动作和随机噪声采样得到一个动作a,动作a即为注意力概率分布向量。
优选的,所述类别判定模块还包括:根据公式c=h*a获取条件特征向量,其中c为条件特征向量,将得到的条件特征向量c输入到解码网络,解码网络结构与编码网络对称,解码网络输出结果为x’=g(w’c+b’),其中,w’为解码网络的权重,b’为解码网络的偏置,x’为解码网络的输出,根据解码网络的输出判定待识别样本的类别。
优选的,所述训练模块还用于:使用已知类别样本集N,对编码网络以及解码网络进行训练,损失函数公式为
Figure BDA0002320720800000071
其中,yi为输入的第i个待识别样本的真实类别,yi'为编码网络输出的第i个待识别样本的类别,xi为第i个待识别样本,m为待识别样本的个数,xi'为第i个待识别样本在解码网络的输出;训练过程中,每次计算输入的m个样本的损失值L1,然后通过反向传播算法进行网络参数的更新,直到网络的损失值L1不再下降,则完成编码网络以及解码网络的训练;
actor网络和critic网络的训练,首先分别给actor网络和critic网络定义一个目标网络,即u(s';θu')和Q(s',a';θQ'),s'为目标actor网络和目标critic网络的输入,a'为目标actor网络输出的动作,θu'为目标actor网络的权重参数,θQ'为目标critic网络的权重参数,训练过程中,保持编码网络的参数固定,训练的样本集包括N样本集及UN样本集,actor网络根据编码网络和解码网络提供的输入状态s,生成动作a,编码网络和解码网络根据a计算奖赏r,并提供下一个输入状态s',将转换状态(s,a,r,s')存储到缓存中,从缓冲区中采集m个样本(si,ai,ri,si'),m=1,2….m,critic网络根据转换状态中的si和actor网络的输出ai计算Q值,actor网络根据Q值计算策略梯度并完成actor网络的权重参数的更新,公式如下:
Figure BDA0002320720800000081
其中,M是从缓冲区中采集的样本数目,
Figure BDA0002320720800000082
为策略梯度,
Figure BDA0002320720800000083
为梯度符号;目标actor网络根据转换状态中的si'得到动作ai',目标critic网络根据si'和ai'得到目标critic网络输出Q',根据critic网络得到Q和目标critic网络得到的Q',计算二者的时间差分误差L,根据L计算梯度并进行critic网络权值的更新,差分误差表达式如下:
Figure BDA0002320720800000084
其中的yi根据下式计算:
yi=ri+γQ′(si+1,u′(si+1u′)|ΘQ′)
其中,ri为第i个待识别样本的奖赏值,Υ为预设的权重系数,Q为critic网络输出值,Q'为目标critic网络输出值;
通过soft update算法更新目标actor网络和目标critic网络的权重参数,更新方式如下:ΘQ′=τΘQ+(1-τ)ΘQ′
Θu′=τΘu+(1-τ)Θu′
τ为权重系数,取值为0.001;
直到差分误差小于预设的值并稳定,完成DDPG算法中的网络的训练。
本发明的优点在于:传统的编码网络和解码网络就是完成对输入信号的正确恢复,本发明中通过引入了注意力机制,使得编码网络和解码网络能够对输入信号进行有选择的恢复。通过DDPG算法,生成注意力概率分布向量,根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络进行信号的恢复,对于解码网络的输出结果,计算其与输入信号的相似度,相似度高则表明输入信号为已知信号,其所属类别为分类器输出的类别,如果相似度低则表明输入信号为未知类别信号。通过注意力机制给编码网络输出的特征向量分配不同的注意力,对于已知类别的信号,特征向量的主要特征会被加强,次要特征会被减弱,使得已知类别的信号能够被正确的被恢复。而对于未知类别的信号,其主要特征被减弱,使得未知类别信号不能被恢复。最终实现了对输入的未知类别信号进行了有效识别,避免了未知类别信号被错误识别为已知的某一类信号,实现已知类信号和未知类信号准确分开。
附图说明
图1为本发明实施例所公开的一种雷达信号的未知个体识别方法的流程图;
图2为本发明实施例所公开的一种雷达信号的未知个体识别方法的原理框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1和图2所示,一种雷达信号的未知个体识别方法,所述方法包括:步骤S1:构建已知类别样本集N和未知类别样本集UN并存储,具体为:收集n部雷达的信号,将其中K部雷达的信号作为已知类别,构成已知类别样本集N,将其中n-K部雷达的信号作为未知类别,构成未知类别样本集UN。
步骤S2:将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络,提取待识别样本的特征向量并对待识别样本进行分类;编码网络进行特征向量的提取及分类属于现有技术,编码网络包括输入层、中间层以及输出层,输入层输入待识别样本,中间层由一维的卷积层和池化层组成,卷积层对待识别样本进行特征提取,池化层对待识别样本进行降维,输出层输出待识别样本的特征向量h且h=f(wx+b),其中,f()是一种函数表达方式,h=f(wx+b)表示h是关于x的函数,w为编码网络的权重,b为编码网络的偏置,x为输入的一维序列的待识别样本,得到特征向量h后,将特征向量h输入到分类器,得到待识别样本的类别,其中,分类器由一个全连接层和softmax分类器组成。
步骤S3:利用深度强化学习(Deep Reinforcement Learning)的DDPG(DeepDeterministic Policy Gradient)算法,根据待识别样本的特征向量,生成注意力概率分布向量;其主要过程为:利用DDPG算法,基于卷积神经网络搭建actor网络u(s;θu),critic网络Q(s,a;θQ),其中,s为actor网络及critic网络的输入,等于编码网络提取的特征向量h,θu为actor网络的权重参数,θQ为critic网络的权重参数;通过actor网络生成的动作和随机噪声采样得到一个动作a,动作a即为注意力概率分布向量。编码网络根据a,计算相应的奖励r并反馈给critic网络,并转移到下一个输入状态s',并将转换状态(s,a,r,s')存储到缓存中,用于网络训练。
步骤S4:根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络判定待识别样本的类别;具体过程为:根据公式c=h*a获取条件特征向量,其中c为条件特征向量,将得到的条件特征向量c输入到解码网络,解码网络结构与编码网络对称,解码网络输出结果为x’=g(w’c+b’),其中,g()是一种函数表达方式,x’=g(w’c+b’)表示x’是关于c的函数,w’为解码网络的权重,b’为解码网络的偏置,x’为解码网络的输出,根据解码网络的输出判定待识别样本的类别。需要说明的是,选择步骤S3中得到的最大的Q值对应的注意力概率分布向量a与特征向量h相乘得到条件特征向量。
步骤S5:进行编码网络、解码网络以及DDPG算法中的网络训练。训练过程属于现有比较常见的训练方式,下面简单介绍其训练过程:使用已知类别样本集N,对编码网络以及解码网络进行训练,损失函数公式为
Figure BDA0002320720800000111
其中,yi为输入的第i个待识别样本的真实类别,yi'为编码网络输出的第i个待识别样本的类别,xi为第i个待识别样本,m为待识别样本的个数,xi'为第i个待识别样本在解码网络的输出;训练过程中,每次计算输入的m个样本的损失值L1,然后通过反向传播算法进行网络参数的更新,直到网络的损失值L1不再下降,则完成编码网络以及解码网络的训练;
actor网络和critic网络的训练,首先分别给actor网络和critic网络定义一个目标网络,即u(s';θu')和Q(s',a';θQ'),s'为目标actor网络和目标critic网络的输入,a'为目标actor网络输出的动作,θu'为目标actor网络的权重参数,θQ'为目标critic网络的权重参数,训练过程中,保持编码网络的参数固定,训练的样本集包括N样本集及UN样本集,actor网络根据编码网络和解码网络提供的输入状态s,生成动作a,编码网络和解码网络根据a计算奖赏r,并提供下一个输入状态s',将转换状态(s,a,r,s')存储到缓存中,从缓冲区中采集m个样本(si,ai,ri,si'),m=1,2….m,critic网络根据转换状态中的si和actor网络的输出ai计算Q值,actor网络根据Q值计算策略梯度并完成actor网络的权重参数的更新,公式如下:
Figure BDA0002320720800000121
其中,i表示第i个样本,si为第i个样本的输入状态,ai表示第i个样本中actor网络的输出,M是从缓冲区中采集的样本数目,
Figure BDA0002320720800000122
为策略梯度,
Figure BDA0002320720800000123
为梯度符号;目标actor网络根据转换状态中的si'得到动作ai',目标critic网络根据si'和ai'得到目标critic网络输出Q',根据critic网络得到的Q和目标critic网络得到的Q',计算二者的时间差分误差L,根据L计算梯度并进行critic网络权值的更新,差分误差表达式如下:
Figure BDA0002320720800000124
其中的yi根据下式计算:
yi=ri+γQ′(si+1,u′(si+1u′)|ΘQ′)
其中,ri为第i个待识别样本的奖赏值,Υ为预设的权重系数,Q为critic网络输出值,Q'为目标critic网络输出值。
通过soft update算法更新目标actor网络和目标critic网络的权重参数,更新方式如下:
ΘQ′=τΘQ+(1-τ)ΘQ′
Θu′=τΘu+(1-τ)Θu′
τ为权重系数,一般取值为0.001;
直到差分误差小于预设的值并稳定,完成DDPG算法中的网络的训练。
本发明的工作原理为:如图2所示,待识别样本的信号首先通过编码网络,自动提取信号的隐含特征,得到的输入信号的特征向量一方面输入到分类器,对信号进行分类,这一过程与传统的分类网络流程一致。另一方面将其与强化学习生成的注意力概率分布向量相乘得到条件特征向量,生成的条件特征向量输入到解码网络进行输入信号的恢复。对于解码网络的输出结果,计算其与原始输入信号的相似度,相似度高则表明输入信号为已知信号,其所属类别为分类器输出的类别,如果相似度低则表明输入信号为未知类别信号。强化学习的智能体根据输入信号的特征向量生成注意力概率分布向量,并根据解码网络的输出对输入信号的类别进行判定,判断正确则反馈给强化学习的奖赏为+1,否则为-1,强化学习的智能体根据获得的奖赏动态调整参数,以达到生成的注意力概率分布向量最优。
通过以上技术方案,本发明提供的一种雷达信号的未知个体识别方法及装置,通过对传统的编码网络和解码网络中间隐含层特征向量进行加权输出,从而有效控制解码网络的输出,当输入样本是训练样本集中已存在的已知类别时,解码网络对输入样本能正确进行解码,而当输入样本是训练样本集中不存在的未知类别时,解码网络不能对输入样本进行正确解码。所以通过编码网络对输入样本进行分类,通过解码网络的输出结果判断输入样本是否是训练样本集中不存在的未知类别。待分类信号首先通过编码网络,自动提取信号的隐含特征,得到的输入样本的特征向量一方面输入到分类器,对样本进行分类,这一过程与传统的分类网络流程一致。另一方面将其与强化学习生成的注意力概率分布向量相乘得到条件特征向量,生成的条件特征向量输入到解码网络进行输入样本的恢复。对于解码网络的输出结果,计算其与原始输入样本的相似度,相似度高则表明输入样本为已知信号,其所属类别为分类器输出的类别,如果相似度低则表明输入样本为未知类别信号。强化学习的智能体根据输入信号的特征向量生成注意力概率分布向量,并根据解码网络的输出对输入样本的类别进行判定,判断正确则反馈给强化学习的奖赏为+1,否则为-1,强化学习的智能体根据获得的奖赏动态调整参数,以达到生成的注意力概率分布向量最优。
实施例2
与本发明实施例1相对应的,本发明实施例2还提供一种雷达信号的未知个体识别装置,所述装置包括:
样本集构建模块,用于构建已知类别样本集N和未知类别样本集UN并存储;
提取分类模块,用于将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络,提取待识别样本的特征向量并对待识别样本进行分类;
向量生成模块,用于利用DDPG算法,根据待识别样本的特征向量,生成注意力概率分布向量;
类别判定模块,用于根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络判定待识别样本的类别;
训练模块,用于进行编码网络、解码网络以及DDPG算法中的网络训练。
具体的,所述构建已知类别样本集N和未知类别样本集UN包括:收集n部雷达的信号,将其中K部雷达的信号作为已知类别,构成已知类别样本集N,将其中n-K部雷达的信号作为未知类别,构成未知类别样本集UN。
具体的,所述提取分类模块还用于:所述编码网络包括输入层、中间层以及输出层,输入层输入待识别样本,中间层由一维的卷积层和池化层组成,卷积层对待识别样本进行特征提取,池化层对待识别样本进行降维,输出层输出待识别样本的特征向量h且h=f(wx+b),其中,w为编码网络的权重,b为编码网络的偏置,x为输入的一维序列的待识别样本,得到特征向量h后,将特征向量h输入到分类器,得到待识别样本的类别,其中,分类器由一个全连接层和softmax分类器组成。
具体的,所述向量生成模块还用于:利用DDPG算法,基于卷积神经网络搭建actor网络u(s;θu),critic网络Q(s,a;θQ),其中,s为actor网络及critic网络的输入,等于编码网络提取的特征向量h,θu为actor网络的权重参数,θQ为critic网络的权重参数;通过actor网络生成的动作和随机噪声采样得到一个动作a,动作a即为注意力概率分布向量。
具体的,所述类别判定模块还包括:根据公式c=h*a获取条件特征向量,其中c为条件特征向量,将得到的条件特征向量c输入到解码网络,解码网络结构与编码网络对称,解码网络输出结果为x’=g(w’c+b’),其中,w’为解码网络的权重,b’为解码网络的偏置,x’为解码网络的输出,根据解码网络的输出判定待识别样本的类别。
具体的,所述训练模块还用于:使用已知类别样本集N,对编码网络以及解码网络进行训练,损失函数公式为
Figure BDA0002320720800000161
其中,yi为输入的第i个待识别样本的真实类别,yi'为编码网络输出的第i个待识别样本的类别,xi为第i个待识别样本,m为待识别样本的个数,xi'为第i个待识别样本在解码网络的输出;训练过程中,每次计算输入的m个样本的损失值L1,然后通过反向传播算法进行网络参数的更新,直到网络的损失值L1不再下降,则完成编码网络以及解码网络的训练;
actor网络和critic网络的训练,首先分别给actor网络和critic网络定义一个目标网络,即u(s';θu')和Q(s',a';θQ'),s'为目标actor网络和目标critic网络的输入,a'为目标actor网络输出的动作,θu'为目标actor网络的权重参数,θQ'为目标critic网络的权重参数,训练过程中,保持编码网络的参数固定,训练的样本集包括N样本集及UN样本集,actor网络根据编码网络和解码网络提供的输入状态s,生成动作a,编码网络和解码网络根据a计算奖赏r,并提供下一个输入状态s',将转换状态(s,a,r,s')存储到缓存中,从缓冲区中采集m个样本(si,ai,ri,si'),m=1,2….m,critic网络根据转换状态中的si和actor网络的输出ai计算Q值,actor网络根据Q值计算策略梯度并完成actor网络的权重参数的更新,公式如下:
Figure BDA0002320720800000162
其中,M是从缓冲区中采集的样本数目,
Figure BDA0002320720800000163
为策略梯度,
Figure BDA0002320720800000164
为梯度符号;目标actor网络根据转换状态中的si'得到动作ai',目标critic网络根据si'和ai'得到目标critic网络输出Q',根据critic网络得到Q和目标critic网络得到的Q',计算二者的时间差分误差L,根据L计算梯度并进行critic网络权值的更新,差分误差表达式如下:
Figure BDA0002320720800000171
其中的yi根据下式计算:
yi=ri+γQ′(si+1,u′(si+1u′)|ΘQ′)
其中,ri为第i个待识别样本的奖赏值,Υ为预设的权重系数,Q为critic网络输出值,Q'为目标critic网络输出值;
通过soft update算法更新目标actor网络和目标critic网络的权重参数,更新方式如下:ΘQ′=τΘQ+(1-τ)ΘQ′
Θu′=τΘu+(1-τ)Θu′
τ为权重系数,取值为0.001;
直到差分误差小于预设的值并稳定,完成DDPG算法中的网络的训练。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种雷达信号的未知个体识别方法,其特征在于,所述方法包括:
步骤一:构建已知类别样本集N和未知类别样本集UN并存储;
步骤二:将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络,提取待识别样本的特征向量并对待识别样本进行分类;
步骤三:利用DDPG算法,根据待识别样本的特征向量,生成注意力概率分布向量;
步骤四:根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络判定待识别样本的类别;
步骤五:进行编码网络、解码网络以及DDPG算法中的网络训练。
2.根据权利要求1所述的一种雷达信号的未知个体识别方法,其特征在于,所述构建已知类别样本集N和未知类别样本集UN包括:收集n部雷达的信号,将其中K部雷达的信号作为已知类别,构成已知类别样本集N,将其中n-K部雷达的信号作为未知类别,构成未知类别样本集UN。
3.根据权利要求1所述的一种雷达信号的未知个体识别方法,其特征在于,所述步骤二包括:所述编码网络包括输入层、中间层以及输出层,输入层输入待识别样本,中间层由一维的卷积层和池化层组成,卷积层对待识别样本进行特征提取,池化层对待识别样本进行降维,输出层输出待识别样本的特征向量h且h=f(wx+b),其中,w为编码网络的权重,b为编码网络的偏置,x为输入的一维序列的待识别样本,得到特征向量h后,将特征向量h输入到分类器,得到待识别样本的类别,其中,分类器由一个全连接层和softmax分类器组成。
4.根据权利要求3所述的一种雷达信号的未知个体识别方法,其特征在于,所述步骤三包括:利用DDPG算法,基于卷积神经网络搭建actor网络u(s;θu),critic网络Q(s,a;θQ),其中,s为actor网络及critic网络的输入,等于编码网络提取的特征向量h,θu为actor网络的权重参数,θQ为critic网络的权重参数;通过actor网络生成的动作和随机噪声采样得到一个动作a,动作a即为注意力概率分布向量。
5.根据权利要求4所述的一种雷达信号的未知个体识别方法,其特征在于,所述步骤四包括:根据公式c=h*a获取条件特征向量,其中c为条件特征向量,将得到的条件特征向量c输入到解码网络,解码网络结构与编码网络对称,解码网络输出结果为x’=g(w’c+b’),其中,w’为解码网络的权重,b’为解码网络的偏置,x’为解码网络的输出,根据解码网络的输出判定待识别样本的类别。
6.根据权利要求5所述的一种雷达信号的未知个体识别方法,其特征在于,所述步骤五包括:使用已知类别样本集N,对编码网络以及解码网络进行训练,损失函数公式为
Figure FDA0002320720790000021
其中,yi为输入的第i个待识别样本的真实类别,yi'为编码网络输出的第i个待识别样本的类别,xi为第i个待识别样本,m为待识别样本的个数,xi'为第i个待识别样本在解码网络的输出;训练过程中,每次计算输入的m个样本的损失值L1,然后通过反向传播算法进行网络参数的更新,直到网络的损失值L1不再下降,则完成编码网络以及解码网络的训练;
actor网络和critic网络的训练,首先分别给actor网络和critic网络定义一个目标网络,即u(s′;θu′)和Q(s′,a′;θQ′),s′为目标actor网络和目标critic网络的输入,a′为目标actor网络输出的动作,θu'为目标actor网络的权重参数,θQ'为目标critic网络的权重参数,训练过程中,保持编码网络的参数固定,训练的样本集包括N样本集及UN样本集,actor网络根据编码网络和解码网络提供的输入状态s,生成动作a,编码网络和解码网络根据a计算奖赏r,并提供下一个输入状态s',将转换状态(s,a,r,s')存储到缓存中,从缓冲区中采集m个样本(si,ai,ri,si'),m=1,2….m,critic网络根据转换状态中的si和actor网络的输出ai计算Q值,actor网络根据Q值计算策略梯度并完成actor网络的权重参数的更新,公式如下:
Figure FDA0002320720790000031
其中,M是从缓冲区中采集的样本数目,
Figure FDA0002320720790000032
为策略梯度,
Figure FDA0002320720790000033
为梯度符号;目标actor网络根据转换状态中的si'得到动作ai',目标critic网络根据si'和ai'得到目标critic网络输出Q',根据critic网络得到Q和目标critic网络得到的Q',计算二者的时间差分误差L,根据L计算梯度并进行critic网络权值的更新,差分误差表达式如下:
Figure FDA0002320720790000034
其中的yi根据下式计算:
yi=riQ′(si+1,u′(si+1u′)|ΘQ′)
其中,ri为第i个待识别样本的奖赏值,Υ为预设的权重系数,Q为critic网络输出值,Q'为目标critic网络输出值;
通过soft update算法更新目标actor网络和目标critic网络的权重参数,更新方式如下:
ΘQ′=τΘQ+(1-τ)ΘQ′
Θu′=τΘu+(1-τ)Θu′
τ为权重系数,取值为0.001;
直到差分误差小于预设的值并稳定,完成DDPG算法中的网络的训练。
7.一种雷达信号的未知个体识别装置,其特征在于,所述装置包括:
样本集构建模块,用于构建已知类别样本集N和未知类别样本集UN并存储;
提取分类模块,用于将已知类别样本集N中各待识别样本以及未知类别样本集UN中各待识别样本输入编码网络,提取待识别样本的特征向量并对待识别样本进行分类;
向量生成模块,用于利用DDPG算法,根据待识别样本的特征向量,生成注意力概率分布向量;
类别判定模块,用于根据待识别样本的特征向量和注意力概率分布向量,生成条件特征向量并输入到解码网络判定待识别样本的类别;
训练模块,用于进行编码网络、解码网络以及DDPG算法中的网络训练。
8.根据权利要求7所述的一种雷达信号的未知个体识别装置,其特征在于,所述构建已知类别样本集N和未知类别样本集UN包括:收集n部雷达的信号,将其中K部雷达的信号作为已知类别,构成已知类别样本集N,将其中n-K部雷达的信号作为未知类别,构成未知类别样本集UN。
9.根据权利要求7所述的一种雷达信号的未知个体识别装置,其特征在于,所述提取分类模块还用于:所述编码网络包括输入层、中间层以及输出层,输入层输入待识别样本,中间层由一维的卷积层和池化层组成,卷积层对待识别样本进行特征提取,池化层对待识别样本进行降维,输出层输出待识别样本的特征向量h且h=f(wx+b),其中,w为编码网络的权重,b为编码网络的偏置,x为输入的一维序列的待识别样本,得到特征向量h后,将特征向量h输入到分类器,得到待识别样本的类别,其中,分类器由一个全连接层和softmax分类器组成。
10.根据权利要求9所述的一种雷达信号的未知个体识别装置,其特征在于,所述向量生成模块还用于:利用DDPG算法,基于卷积神经网络搭建actor网络u(s;θu),critic网络Q(s,a;θQ),其中,s为actor网络及critic网络的输入,等于编码网络提取的特征向量h,θu为actor网络的权重参数,θQ为critic网络的权重参数;通过actor网络生成的动作和随机噪声采样得到一个动作a,动作a即为注意力概率分布向量。
CN201911296607.8A 2019-12-16 2019-12-16 一种雷达信号的未知个体识别方法及装置 Active CN111144462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911296607.8A CN111144462B (zh) 2019-12-16 2019-12-16 一种雷达信号的未知个体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911296607.8A CN111144462B (zh) 2019-12-16 2019-12-16 一种雷达信号的未知个体识别方法及装置

Publications (2)

Publication Number Publication Date
CN111144462A true CN111144462A (zh) 2020-05-12
CN111144462B CN111144462B (zh) 2023-10-20

Family

ID=70518457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911296607.8A Active CN111144462B (zh) 2019-12-16 2019-12-16 一种雷达信号的未知个体识别方法及装置

Country Status (1)

Country Link
CN (1) CN111144462B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112014821A (zh) * 2020-08-27 2020-12-01 电子科技大学 一种基于雷达宽带特征的未知车辆目标识别方法
CN113792733A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 车辆部件检测方法、***、电子设备及存储介质
CN113807243A (zh) * 2021-09-16 2021-12-17 上海交通大学 一种基于对未知目标注意力的水上障碍物检测***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357542A1 (en) * 2018-06-08 2018-12-13 University Of Electronic Science And Technology Of China 1D-CNN-Based Distributed Optical Fiber Sensing Signal Feature Learning and Classification Method
CN109934269A (zh) * 2019-02-25 2019-06-25 中国电子科技集团公司第三十六研究所 一种电磁信号的开集识别方法和装置
CN110109109A (zh) * 2019-04-26 2019-08-09 西安电子科技大学 基于多分辨率注意力卷积网络的hrrp目标识别方法
US20190331768A1 (en) * 2018-04-26 2019-10-31 Metawave Corporation Reinforcement learning engine for a radar system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190331768A1 (en) * 2018-04-26 2019-10-31 Metawave Corporation Reinforcement learning engine for a radar system
US20180357542A1 (en) * 2018-06-08 2018-12-13 University Of Electronic Science And Technology Of China 1D-CNN-Based Distributed Optical Fiber Sensing Signal Feature Learning and Classification Method
CN109934269A (zh) * 2019-02-25 2019-06-25 中国电子科技集团公司第三十六研究所 一种电磁信号的开集识别方法和装置
CN110109109A (zh) * 2019-04-26 2019-08-09 西安电子科技大学 基于多分辨率注意力卷积网络的hrrp目标识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾亚飞;朱永利;高佳程;袁博;: "基于样本加权FCM聚类的未知类别局部放电信号识别" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112014821A (zh) * 2020-08-27 2020-12-01 电子科技大学 一种基于雷达宽带特征的未知车辆目标识别方法
CN112014821B (zh) * 2020-08-27 2022-05-17 电子科技大学 一种基于雷达宽带特征的未知车辆目标识别方法
CN113807243A (zh) * 2021-09-16 2021-12-17 上海交通大学 一种基于对未知目标注意力的水上障碍物检测***及方法
CN113807243B (zh) * 2021-09-16 2023-12-05 上海交通大学 一种基于对未知目标注意力的水上障碍物检测***及方法
CN113792733A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 车辆部件检测方法、***、电子设备及存储介质
CN113792733B (zh) * 2021-09-17 2023-07-21 平安科技(深圳)有限公司 车辆部件检测方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
CN111144462B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN108985334B (zh) 基于自监督过程改进主动学习的通用物体检测***及方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN112507996B (zh) 一种主样本注意力机制的人脸检测方法
CN110796168A (zh) 一种基于改进YOLOv3的车辆检测方法
CN111079836B (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN108898131A (zh) 一种复杂自然场景下的数字仪表识别方法
CN109697469A (zh) 一种基于一致性约束的自学习小样本遥感图像分类方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN111144462B (zh) 一种雷达信号的未知个体识别方法及装置
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及***
CN110716792B (zh) 一种目标检测器及其构建方法和应用
CN115511012B (zh) 一种最大熵约束的类别软标签识别训练方法
CN113096169A (zh) 一种非刚性多模医学图像的配准模型建立方法及其应用
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN115471712A (zh) 一种基于视觉语义约束的生成零样本学习方法
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN116704585A (zh) 一种基于质量感知的人脸识别方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN113283467B (zh) 一种基于平均损失和逐类选择的弱监督图片分类方法
CN111652264A (zh) 基于最大均值差异的负迁移样本筛选方法
CN113420833B (zh) 一种基于问题语义映射的视觉问答方法及装置
CN117636183A (zh) 一种基于自监督预训练的小样本遥感图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant