CN107528824B - 一种基于二维度稀疏化的深度信念网络入侵检测方法 - Google Patents

一种基于二维度稀疏化的深度信念网络入侵检测方法 Download PDF

Info

Publication number
CN107528824B
CN107528824B CN201710534587.8A CN201710534587A CN107528824B CN 107528824 B CN107528824 B CN 107528824B CN 201710534587 A CN201710534587 A CN 201710534587A CN 107528824 B CN107528824 B CN 107528824B
Authority
CN
China
Prior art keywords
layer
rbm
training
data set
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710534587.8A
Other languages
English (en)
Other versions
CN107528824A (zh
Inventor
周杰英
杨诗珺
邱荣发
刘映淋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201710534587.8A priority Critical patent/CN107528824B/zh
Publication of CN107528824A publication Critical patent/CN107528824A/zh
Application granted granted Critical
Publication of CN107528824B publication Critical patent/CN107528824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • External Artificial Organs (AREA)

Abstract

本发明涉及一种基于二维度稀疏化的深度信念网络入侵检测方法,包括:稀疏化数据集的第一维度稀疏化方法和稀疏化隐层单元的第二维度稀疏化方法。第一维度稀疏化是指对输入训练数据进行稀疏判断并将数据集转换为稀疏数据集;第二维度稀疏化是指通过对RBM隐层单元进行余弦相似度分组并且在训练RBM的目标函数中引入分组稀疏惩罚项来迫使隐层单元从数据中学习到不同的特征。将训练好的RBM堆叠成DBN形成一种新的二维稀疏化深度信念网路,并将其用于入侵检测***。本方法同时考虑到数据集稀疏化程度和特征同质化对RBM训练的影响,使优化后的DBN用于入侵检测***具有更高的准确率和更低的误检率,且能够提高检测的效率。

Description

一种基于二维度稀疏化的深度信念网络入侵检测方法
技术领域
本发明涉及入侵检测网络安全领域,特别涉及一种基于二维度稀疏化的深度信念网络入侵检测方法
背景技术
入侵检测技术是对企图入侵,正在进行入侵或是已经发生的入侵行为进行识别,其本质是对大量的攻击数据进行威胁分析,以往的研究有在入侵检测中引入机器学习的方法并取得了突破性的进展。但是由于传统的机器学习方法大都是浅层学习,并不适用于海量数据的分析。因此设计出一个面向海量数据的高效入侵检测***是一个亟待解决的问题。
深度信念网络(DBN)是由多个受限玻尔兹曼机(RBM)堆叠而成,以模拟人脑的多层结构为原理的深度学习网络模型。它可以从具体的高维,非线性数据抽取维数较低的特征,是一个强大的生成模型,通过逐层训练的RBM可以发现数据的深层结构信息,所以是解决入侵检测速度慢和分类性能低的一种极有前景的方法。
传统的RBM训练并没有充分考虑到算法的性能受到数据集稀疏性的影响,导致稀疏化层度不同的数据在算法的性能上存在较大的差异。并且RBM在训练过程中由于学习到的特征过于相似,表现在模型连接权值的相似度过高,导致训练后的隐层单元并不是完全独立的,进而出现特征同质化的现象。目前常用的方法是在训练过程中添加惩罚因子来调节隐层单元的稀疏性,但是却没有提出有效的惩罚方案来降低隐层单元学习到相同特征的概率。
发明内容
本发明为克服上述现有技术的至少一种缺陷(不足),提出了一种基于二维度稀疏化的深度信念网络入侵检测方法,此方法从输入数据集稀疏化和隐层单元稀疏化两个维度来改进现有的RBM算法,构成改进的深度信念网络;将其应用到入侵检测***中相比以往的入侵检测技术具有更高的准确率和更低的误检率,且能够提高检测的效率。
为达到上述目的,本发明的技术方案具体为:
一种基于二维度稀疏化的深度信念网络入侵检测方法,包括以下步骤:
第一步,对训练数据集进行第一维度稀疏化,根据定义的稀疏系数对输入数据集进行判定,若为稠密数据集则将其数值反转为稀疏数据集,否则保留原训练数据集不变,将经过第一维度稀疏化后数据集称为稀疏化数据集;
将训练数据集的稀疏系数定义为s:
Figure GDA0002422389150000021
其中,
Figure GDA0002422389150000022
表示第n个训练样本的第m维数值,其中训练样本数据值
Figure GDA0002422389150000023
N表示训练样本的数目,V表示训练样本的维度。定义一个稀疏性阈值
Figure GDA0002422389150000024
对于归一化到[0,1]之间的数据通常选取
Figure GDA0002422389150000025
Figure GDA0002422389150000026
时将训练数据集定义为稠密数据集,并可通过数值反转实现训练数据集的稀疏化;当
Figure GDA0002422389150000027
时定义为稀疏数据集,并保持不变。定义训练样本数据值xi的第一维度稀疏化表达zi为:
Figure GDA0002422389150000028
其中
Figure GDA0002422389150000029
为预设的稀疏度阈值;
令常数
Figure GDA00024223891500000210
Figure GDA00024223891500000211
此时记
Figure GDA00024223891500000212
为稀疏化数据集中的一个样本数据,其中V为样本的维度,也即是第一层RBM可视层的节点个数,用
Figure GDA00024223891500000213
初始化第一层RBM的可视层
Figure GDA00024223891500000214
第二步,将稀疏化数据集里的第一个样本作为DBN第一层RBM可视层的输入特征变量,进行RBM训练后根据该层RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
第一次训练用正态分布初始化权值矩阵,可视层和隐层的偏置均初始化为0,本方法训练RBM时采用基于对比散度的快速学习算法(CD算法),当初始化RBM可视层的节点后仅需要K(一般K=1)步吉布斯采样就可以很好地重构可视层数据。即首先由原始可视单元
Figure GDA0002422389150000031
映射到隐层单元
Figure GDA0002422389150000032
其次由隐层单元
Figure GDA0002422389150000033
重构为新的可视单元
Figure GDA0002422389150000034
再次由新的可视单元
Figure GDA0002422389150000035
映射为新的隐层单元
Figure GDA0002422389150000036
为调节隐层单元的稀疏性,利用此时RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
第二维度稀疏化方法为:RBM连接权值的列向量对应于隐层单元,而隐层单元状态即是学习到的特征,进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度,根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组,分组步骤为:
1)任意选取连接权值的一列j,如果对应的隐层单元没有参与分组,则计算j列与连接权值矩阵其他i列的相似度,记为Sj-i
2)比较分组参数β与Sj-i的大小,如果Sj-i≥β则在连接权值矩阵中的i列和j列就合并为一组,否则不合并;
3)重复上述两个过程,直到连接权值矩阵中的所有列向量分组完毕。
定义余弦相似度Sj-i
Figure GDA0002422389150000037
其中m表示可视层单元个数,即权值矩阵的行数,n表示隐层单元个数,即权值矩阵的列数,W.j、W.i分别表示权值矩阵中的第j列和第i列,ωkj表示第j列的第k个元素,ωki表示第i列的第k个元素。
分组参数定义为权值矩阵的列平均相关系数,n为权值矩阵列向量数,有下式:
Figure GDA0002422389150000041
对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度,是组内隐单元的学习过程不再条件独立,保证组内隐单元的相关性,迫使隐单元从训练数据中学习到不同的特征。引入分组稀疏惩罚项为:
Figure GDA0002422389150000042
其中T为隐层单元分组的个数,Gt为第t个隐层单元组的单元个数,
Figure GDA0002422389150000043
为对可视层单元状态
Figure GDA0002422389150000044
的第t个隐层单元组激活概率的二范数,而
Figure GDA0002422389150000045
则为T个隐层单元组激活概率的一范数。
第三步,在该层RBM的隐层,利用带惩罚项的似然函数作为RBM的训练目标函数,先用CD快速学习方法计算极大似然假设梯度,再对分组稀疏惩罚项进行梯度下降直到参数收敛,并更新该层RBM模型参数θ;
Figure GDA0002422389150000046
更新为:
Figure GDA0002422389150000047
Figure GDA0002422389150000048
Figure GDA0002422389150000049
其中λ为分组稀疏惩罚系数,μ表示学习率;以上
Figure GDA00024223891500000410
是用来初始化第一层RBM的可视层
Figure GDA0002422389150000051
的稀疏化数据集中的样本。zi (0)表示初始化时第一层RBM可视层单元状态,zi (1)为经过CD快速学习算法后重构的可视层单元状态。
第四步,再按顺序依次输入稀疏化数据集中的其他样本,按照第二步、第三步的步骤训练RBM,直到训练完所有的样本,并且达到最大训练周期,此时第一层RBM训练结束。当充分训练完第一层RBM后需要将隐层偏置更新为:
Figure GDA0002422389150000052
其中
Figure GDA0002422389150000053
是第一维度稀疏化数据集后的常数项。
第五步,充分训练第一层RBM后,固定第一层RBM的权重和偏移量,然后将其隐层节点的状态作为第二层RBM可视层的节点向量,训练该层RBM,训练完成后根据该层RBM连接权值的列对隐层单元进行相似度分组,再根据第三步的方法更新该层RBM模型参数,直到充分训练第二层RBM后将其堆叠在第一层RBM的上方。
更新除第一层RBM以外的模型参数为:
Figure GDA0002422389150000054
Figure GDA0002422389150000055
Figure GDA0002422389150000056
同样的,μ表示学习率,λ为分组稀疏惩罚系数。此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量,所以与更新第一层RBM相比,差别在于只需进行第二维度稀疏化,并将RBM可视层单元状态重新用
Figure GDA0002422389150000057
来表示。
第六步,固定第二层RBM的权重和偏移量,采用与第五步相同的方式训练第三层RBM,并堆叠在第二层的上方,采用同样的方式对其它层RBM进行处理,直至训练到第L-1层RBM;初始化第L层RBM的模型参数,用数据的标签值作为输出层,利用softmax多分类器对学习到的特征多分类,使用BP算法对模型参数进行微调,最终形成一个训练好的二维度稀疏化DBN深度学习训练模型。
第七步,将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中,进行快速学习并得到每条测试数据的入侵类别。
通过从输入数据稀疏化和隐层单元稀疏化两个维度同时对RBM算法进行改进,更大规模并且更全面的更新RBM模型参数,使得RBM学习到更有效的特征,有效降低了特征值同化的现象,提高分类质量。将其应用到入侵检测***更能准确地识别出入侵类别。
相对于现有技术,本发明具有如下优点和有益效果:
该二维度稀疏化算法充分考虑到算法的性能受到数据集稀疏性的影响并且克服RBM在训练过程中由于学习到的特征过于相似的缺点,考虑到先进行第一维度稀疏化处理即对输入数据集进行稀疏化处理,再在每一层RBM算法加入分组稀疏化惩罚项来进行第二维度稀疏化。经过对RBM算法稀疏化优化能够有效降低特征质同化的影响,学习到更有效的特征。这既能考虑到了数据集稀疏性的影响,又能够实现对RBM内部结构单元的稀疏化。降低了数据间的相关性从而抑制模型的过拟合现象,提高***的鲁棒性,为提高入侵检测准确率提供一种有效途径。用优化后的算法来训练RBM并构成DBN模型,将训练好的DBN模型用于入侵检测,具有更高的准确率和更低的误检率,且能够提高检测的效率。
附图说明
图1为二维度稀疏化训练第一层RBM的流程图。
图2为堆叠稀疏化RBM训练整个DBN的流程图。
具体实现方式
附图仅用于示例性说明,不能理解为对本专利的限制,为了更好说明本实施例,附图某些分会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域的技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实例对本发明的技术方案做进一步说明。
第一步,将预处理后的NSL-KDD数据集分为训练数据集和测试数据集,将训练数据集进行第一维度稀疏化,根据定义的稀疏系数对输入数据集进行判定,若为稠密数据集则将其数值反转为稀疏数据集,否则保留原训练数据集不变,将经过第一维度稀疏化后数据集称为稀疏化数据集;
将训练数据集的稀疏系数定义为s:
Figure GDA0002422389150000071
其中,
Figure GDA0002422389150000072
表示第n个训练样本的第m维数值,NSL-KDD数据集经过符号特征数值化和归一化的预处理操作后分出训练数据集,其中训练样本数据值
Figure GDA0002422389150000073
N表示训练样本的数目,V表示训练样本的维度。定义一个稀疏性阈值
Figure GDA0002422389150000074
对于归一化到[0,1]之间的数据通常选取
Figure GDA0002422389150000075
Figure GDA0002422389150000076
时将训练数据集定义为稠密数据集,并可通过数值反转实现训练数据集的稀疏化;当
Figure GDA0002422389150000077
时定义为稀疏数据集,并保持不变。定义训练样本数据值xi的第一维度稀疏化表达zi为:
Figure GDA0002422389150000078
其中
Figure GDA0002422389150000079
是预设的稀疏度阈值;
令常数
Figure GDA00024223891500000710
Figure GDA00024223891500000711
此时记
Figure GDA00024223891500000712
为稀疏化数据集中的一个样本数据,其中V为样本的维度,也即是第一层RBM可视层的节点个数,用
Figure GDA00024223891500000713
初始化第一层RBM的可视层
Figure GDA00024223891500000714
第二步,将稀疏化数据集里的第一个样本作为DBN第一层RBM可视层的输入特征变量,进行RBM训练后根据该层RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
根据经过第一维度稀疏化后的样本数据,RBM的能量函数变为:
Figure GDA0002422389150000081
其中
Figure GDA0002422389150000082
为需要训练模型参数,V是可视层单元个数,H是隐层单元个数,W是RBM的权值矩阵,
Figure GDA0002422389150000083
是RBM可视层偏置,
Figure GDA0002422389150000084
为RBM隐层偏置。
采用sigmoid函数作为激活函数,在给定可视层节点状态的情况下,第j个隐层节点的激活的概率为:
Figure GDA0002422389150000085
同样地,第j个可视层节点的激活概率为:
Figure GDA0002422389150000086
将式(3)带入式(4)得到经过第一维度稀疏化后RBM的能量函数变为:
Figure GDA0002422389150000087
第一次训练用正态分布初始化权值矩阵,可视层和隐层的偏置均初始化为0,本方法训练RBM时采用基于对比散度的快速学习算法(CD算法),当初始化RBM可视层的节点后仅需要K(一般K=1)步吉布斯采样就可以很好地重构可视层数据。即首先由原始可视单元
Figure GDA0002422389150000088
映射到隐层单元
Figure GDA0002422389150000089
其次由隐层单元
Figure GDA00024223891500000810
重构为新的可视单元
Figure GDA0002422389150000091
再次由新的可视单元
Figure GDA0002422389150000092
映射为新的隐层单元
Figure GDA0002422389150000093
为调节隐层单元的稀疏性,利用此时RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化。
第二维度稀疏化方法为:RBM连接权值的列向量对应于隐层单元,而隐层单元状态即是学习到的特征,进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度,根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组,分组步骤为:
1)任意选取连接权值的一列j,如果对应的隐层单元没有参与分组,则计算j列与连接权值矩阵其他i列的相似度,记为Sj-i
2)比较分组参数β与Sj-i的大小,如果Sj-i≥β则在连接权值矩阵中的i列和j列就合并为一组,否则不合并;
3)重复上述两个过程,直到连接权值矩阵中的所有列向量分组完毕。
相似度Sj-i用欧式距离来定义:
Figure GDA0002422389150000094
其中m表示可视层单元个数,即权值矩阵的行数,n表示隐层单元个数,即权值矩阵的列数,W.j、W.i分别表示权值矩阵中的第j列和第i列,ωkj表示第j列的第k个元素,ωki表示第i列的第k个元素。
分组参数定义为权值矩阵的列平均相关系数即:
Figure GDA0002422389150000095
对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度,是组内隐单元的学习过程不再条件独立,保证组内隐单元的相关性,迫使隐单元从训练数据中学习到不同的特征。引入分组稀疏惩罚项为:
Figure GDA0002422389150000096
其中T为隐层单元分组的个数,Gt为第t个隐层单元组的单元个数,
Figure GDA0002422389150000101
为对可视层单元状态
Figure GDA0002422389150000102
的第t个隐层单元组激活概率的二范数,而
Figure GDA0002422389150000103
则为T个隐层单元组激活概率的一范数。
第三步,在该层RBM的隐层,利用带惩罚项的似然函数作为RBM的训练目标函数,先用CD快速学习方法计算极大似然假设梯度,再对分组稀疏惩罚项进行梯度下降直到参数收敛,并更新该层RBM模型参数θ;
Figure GDA0002422389150000104
更新为:
ωij=ωij1ωij2ωij (11)
ai=ai1ai2ai (12)
bj=bj1bj2bj (13)
其中:
Figure GDA0002422389150000105
Figure GDA0002422389150000106
Figure GDA0002422389150000107
以上为为根据CD算法得到的更新参数,其中μ为学习率。接下来用经过CD快速训练得到的隐层单元状态进行第二维度稀疏化,并利用分组稀疏惩罚项进行梯度下降直到收敛来再一次更新模型参数,如下:
Figure GDA0002422389150000108
Δ2ai=0 (18)
Figure GDA0002422389150000111
其中,
Figure GDA0002422389150000112
表示的是第一次输入RBM可视层单元状态,
Figure GDA0002422389150000113
是经过CD快速学习算法重构后的可视层单元的状态。
综上,每一个样本经过二维度稀疏化RBM后参数更新为:
Figure GDA0002422389150000114
Figure GDA0002422389150000115
Figure GDA0002422389150000116
其中λ为分组稀疏惩罚系数;以上
Figure GDA0002422389150000117
是用来初始化第一层RBM的可视层
Figure GDA0002422389150000118
的稀疏化数据集中的样本。
第四步,再按顺序依次输入稀疏化数据集中的其他样本,按照第二步、第三步的步骤训练RBM,直到训练完所有的样本,并且达到最大训练周期,此时第一层RBM训练结束。当充分训练完第一层RBM后需要将隐层偏置更新为:
Figure GDA0002422389150000119
其中
Figure GDA00024223891500001110
是第一维度稀疏化数据集后的常数项;设置每一层RBM都有相同最大训练周期,可设为30,并且每一层RBM都有相同的学习率μ=0.05,整个过程如图1所示。
第五步,充分训练第一层RBM后,固定第一层RBM的权重和偏移量,然后将其隐层节点的状态作为第二层RBM可视层的节点向量,训练该层RBM,训练完成后根据该层RBM连接权值的列对隐层单元进行相似度分组,再根据第三步的方法更新该层RBM模型参数,直到充分训练第二层RBM后将其堆叠在第一层RBM的上方。
更新除第一层RBM以外的模型参数为:
Figure GDA0002422389150000121
Figure GDA0002422389150000122
Figure GDA0002422389150000123
同样的,μ表示学习率,λ为分组稀疏惩罚系数;此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量,所以与更新第一层RBM相比,差别在于只需进行第二维度稀疏化,并将RBM可视层单元状态重新用
Figure GDA0002422389150000124
来表示。
第六步,固定第二层RBM的权重和偏移量,采用与第五步相同的方式训练第三层RBM,并堆叠在第二层的上方,采用同样的方式对其它层RBM进行处理,直至训练到第L-1层RBM;初始化第L层RBM的模型参数,用数据的标签值作为输出层,利用softmax多分类器对学习到的特征多分类,使用BP算法对模型参数进行微调,最终形成一个训练好的二维度稀疏化DBN深度学习训练模型。
用BP算法对模型参数进行微调时可令训练周期为300,并且微调算法的学习率设为0.05。以上整个过程如图2所示。
第七步,将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中,进行快速学习并得到每条测试数据的入侵类别。
本发明提出了一种基于二维度稀疏化的深度信念网络入侵检测方法,通过从输入数据稀疏化和隐层单元稀疏化两个维度同时对RBM算法进行改进,更大规模并且更全面的更新RBM参数模型,使得RBM学习到更有效的特征,有效克服了特征同质化的现象,提高分类质量,将其应用到入侵检测***更能准确地识别出入侵类别。显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于二维度稀疏化的深度信念网络入侵检测方法,其特征在于,主要包括以下几个步骤:
步骤一,对训练数据集进行第一维度稀疏化,根据定义的稀疏系数对输入数据集进行判定,若为稠密数据集则将其数值反转为稀疏数据集,否则保留原训练数据集不变,将经过第一维度稀疏化后的数据集称为稀疏化数据集;
步骤二,将稀疏化数据集里的第一个样本作为深度信念网络DBN的第一层受限玻尔兹曼机RBM的可视层的输入特征变量,进行RBM训练后根据第一层RBM连接权值的列对隐层单元进行相似度分组,完成第二维度稀疏化;
步骤三,在第一层RBM的隐层,利用带惩罚项的似然函数作为RBM的训练目标函数,先用CD快速学习方法计算极大似然假设梯度,再对分组稀疏惩罚项进行梯度下降直到参数收敛,并更新第一层RBM模型参数θ;
步骤四,再按顺序依次输入稀疏化数据集中的其他样本,按照第二步、第三步的步骤训练RBM,直到训练完所有的样本,并且达到最大训练周期,此时第一层RBM训练结束;
步骤五,充分训练第一层RBM后,固定第一层RBM的权重和偏移量,然后将其隐层节点的状态作为第二层RBM可视层的节点向量,训练第二层RBM,训练完成后根据第二层RBM连接权值的列对隐层单元进行相似度分组,再根据步骤三的方法更新第二层RBM模型参数,直到充分训练第二层RBM后将其堆叠在第一层RBM的上方;
步骤六,固定第二层RBM的权重和偏移量,采用与第五步相同的方式训练第三层RBM,并堆叠在第二层的上方,采用同样的方式对其它层RBM进行处理,直至训练到第L-1层RBM;初始化第L层RBM的模型参数,用数据的标签值作为输出层,利用softmax多分类器对学习到的特征多分类,使用BP算法对模型参数进行微调,最终形成一个训练好的二维度稀疏化DBN深度学习训练模型;
步骤七,将测试数据输入到已建立好的二维度稀疏化DBN深度学习训练模型中,进行快速学习并得到每条测试数据的入侵类别。
2.根据权利要求1所述方法,其特征在于,步骤一的第一维度稀疏化过程为:将训练数据集的稀疏系数定义为s:
Figure FDA0002437561000000021
其中,
Figure FDA0002437561000000022
表示第n个训练样本的第m维数值,定义训练样本数据值xi的第一维度稀疏化表达zi为:
Figure FDA0002437561000000023
其中
Figure FDA0002437561000000024
为预设的稀疏性阈值;
令常数
Figure FDA0002437561000000025
Figure FDA0002437561000000026
此时记
Figure FDA0002437561000000027
为稀疏化数据集中的一个样本数据,其中V为样本的维度,也即第一层RBM可视层的节点个数,用
Figure FDA0002437561000000028
初始化第一层RBM的可视层
Figure FDA0002437561000000029
3.根据权利要求1所述方法,其特征在于,步骤二的相似度分组及第二维度稀疏化方法为:RBM连接权值的列向量对应于隐层单元,而隐层单元状态是学习到的特征,进而将不同特征之间的相似度转化为连接权值矩阵的列向量之间的相似度,根据相似度对隐层单元进行分组即是对连接权值矩阵列向量进行相似度分组,分组步骤为:
1)任意选取连接权值的一列j,如果对应的隐层单元没有参与分组,则计算j列与连接权值矩阵其他i列的相似度,记为Sj-i
2)比较分组参数β与Sj-i的大小,如果Sj-i≥β则连接权值矩阵中的i列和j列就合并为一组,否则不合并;
3)重复上述两个过程,直到连接权值矩阵中的所有列向量分组完毕;
对隐层单元的相似度分组实际上是通过正则化的方法惩罚组内隐单元的总体激活层度,使组内隐单元的学习过程不再条件独立,保证组内隐单元的相关性,迫使隐单元从训练数据中学习到不同的特征;引入分组稀疏惩罚项为:
Figure FDA0002437561000000031
其中T为隐层单元分组的个数,Gt为第t个隐层单元组的单元个数,
Figure FDA0002437561000000032
为对可视层单元状态
Figure FDA0002437561000000033
的第t个隐层单元组激活概率的二范数,而
Figure FDA0002437561000000034
则为T个隐层单元组激活概率的一范数。
4.根据权利要求3所述方法,其特征在于,相似度及分组参数定义为:
余弦相似度Sj-i
Figure FDA0002437561000000035
其中m表示可视层单元个数,即权值矩阵的行数,n表示隐层单元个数,即权值矩阵的列数,W.j、W.i分别表示权值矩阵中的第j列和第i列,ωkj表示第j列的第k个元素,ωki表示第i列的第k个元素;
分组参数定义为权值矩阵的列平均相关系数,n为权值矩阵列向量数,有下式:
Figure FDA0002437561000000036
5.根据权利要求1所述方法,其特征在于,所述步骤三的RBM模型参数
Figure FDA0002437561000000037
更新为:
Figure FDA0002437561000000041
Figure FDA0002437561000000042
Figure FDA0002437561000000043
其中λ为分组稀疏惩罚系数,μ为学习率;以上
Figure FDA0002437561000000044
是用来初始化第一层RBM的可视层
Figure FDA0002437561000000045
的稀疏化数据集中的样本,zi (0)表示初始化时第一层RBM可视层单元状态,zi (1)为经过CD快速学习算法后重构的可视层单元状态。
6.根据权利要求1所述方法,其特征在于,步骤四中当充分训练完第一层RBM后需要将隐层偏置更新为:
Figure FDA0002437561000000046
其中
Figure FDA0002437561000000047
是对数据集进行第一维度稀疏化后得到的常数项。
7.根据权利要求1所述方法,其特征在于,步骤五中更新除第一层RBM以外的模型参数为:
Figure FDA0002437561000000048
Figure FDA0002437561000000049
Figure FDA00024375610000000410
同样的,μ表示学习率,λ为分组稀疏惩罚系数;此时是将上一层RBM隐层节点的状态作为下一层RBM可视层的节点向量,所以与更新第一层RBM相比,差别在于只需进行第二维度稀疏化,并将RBM可视层单元状态重新用
Figure FDA0002437561000000051
来表示。
CN201710534587.8A 2017-07-03 2017-07-03 一种基于二维度稀疏化的深度信念网络入侵检测方法 Active CN107528824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710534587.8A CN107528824B (zh) 2017-07-03 2017-07-03 一种基于二维度稀疏化的深度信念网络入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710534587.8A CN107528824B (zh) 2017-07-03 2017-07-03 一种基于二维度稀疏化的深度信念网络入侵检测方法

Publications (2)

Publication Number Publication Date
CN107528824A CN107528824A (zh) 2017-12-29
CN107528824B true CN107528824B (zh) 2020-08-04

Family

ID=60748786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710534587.8A Active CN107528824B (zh) 2017-07-03 2017-07-03 一种基于二维度稀疏化的深度信念网络入侵检测方法

Country Status (1)

Country Link
CN (1) CN107528824B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805167B (zh) * 2018-05-04 2022-05-13 江南大学 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
CN108958217A (zh) * 2018-06-20 2018-12-07 长春工业大学 一种基于深度学习的can总线报文异常检测方法
CN109506942B (zh) * 2018-12-04 2020-08-04 重庆大学 一种大数据分析发动机冷试检测数据与工位相关性的方法
CN110061961B (zh) * 2019-03-05 2020-08-25 中国科学院信息工程研究所 一种基于受限波尔兹曼机的抗追踪网络拓扑智能构建方法和***
CN111083151B (zh) * 2019-12-23 2021-05-25 深圳供电局有限公司 基于深度信念网络的攻击识别方法及风电管理***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077595A (zh) * 2014-06-15 2014-10-01 北京工业大学 基于贝叶斯正则化的深度学习网络图像识别方法
CN104091181A (zh) * 2014-07-15 2014-10-08 中国科学院合肥物质科学研究院 基于深度受限玻尔兹曼机的害虫图像自动识别方法及***
CN104331706A (zh) * 2014-10-29 2015-02-04 西安电子科技大学 基于rbm和svm的极化sar图像分类
CN106503654A (zh) * 2016-10-24 2017-03-15 中国地质大学(武汉) 一种基于深度稀疏自编码网络的人脸情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077595A (zh) * 2014-06-15 2014-10-01 北京工业大学 基于贝叶斯正则化的深度学习网络图像识别方法
CN104091181A (zh) * 2014-07-15 2014-10-08 中国科学院合肥物质科学研究院 基于深度受限玻尔兹曼机的害虫图像自动识别方法及***
CN104331706A (zh) * 2014-10-29 2015-02-04 西安电子科技大学 基于rbm和svm的极化sar图像分类
CN106503654A (zh) * 2016-10-24 2017-03-15 中国地质大学(武汉) 一种基于深度稀疏自编码网络的人脸情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Sparse Image Reconstruction by Two Phase RBM Learning:";Yanyan Mu et al;《2015 14th IAPR International Conference on Machine Vision Applications(MVA)》;20150713;第316-320页 *
"受限玻尔兹曼机的稀疏化特征学习";康丽萍等;《计算机科学》;20161215;第43卷(第12期);第91-96页 *

Also Published As

Publication number Publication date
CN107528824A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
CN107528824B (zh) 一种基于二维度稀疏化的深度信念网络入侵检测方法
CN109508655B (zh) 基于孪生网络的不完备训练集的sar目标识别方法
CN109063724B (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN107886123B (zh) 一种基于辅助判决更新学习的合成孔径雷达目标识别方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN104866810A (zh) 一种深度卷积神经网络的人脸识别方法
CN110197205A (zh) 一种多特征来源残差网络的图像识别方法
CN110232341A (zh) 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法
CN109740655B (zh) 基于矩阵分解及神经协同过滤的物品评分预测方法
CN103942749B (zh) 一种基于修正聚类假设和半监督极速学习机的高光谱地物分类方法
CN109492075B (zh) 一种基于循环生成对抗网络的迁移学习排序方法
CN109741341A (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN113221852B (zh) 一种目标识别方法及装置
CN111259917B (zh) 一种基于局部近邻成分分析的图像特征提取方法
CN114387473A (zh) 一种基于基类样本特征合成的小样本图像分类方法
CN111832580B (zh) 结合少样本学习与目标属性特征的sar目标识别方法
CN111723874A (zh) 一种基于宽度和深度神经网络的声场景分类方法
CN107563430A (zh) 一种基于稀疏自动编码器和灰度关联分析法的卷积神经网络算法优化方法
CN109472733A (zh) 基于卷积神经网络的图像隐写分析方法
CN112766400A (zh) 高维数据基于多个数据变换空间的半监督分类集成方法
CN109063750B (zh) 基于cnn和svm决策融合的sar目标分类方法
CN112232395A (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN110263808B (zh) 一种基于lstm网络和注意力机制的图像情感分类方法
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant