CN112714130A - 一种基于大数据自适应网络安全态势感知方法 - Google Patents

一种基于大数据自适应网络安全态势感知方法 Download PDF

Info

Publication number
CN112714130A
CN112714130A CN202011620905.0A CN202011620905A CN112714130A CN 112714130 A CN112714130 A CN 112714130A CN 202011620905 A CN202011620905 A CN 202011620905A CN 112714130 A CN112714130 A CN 112714130A
Authority
CN
China
Prior art keywords
data
network
time
model
security situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011620905.0A
Other languages
English (en)
Inventor
王彭辉
钱承山
宗文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202011620905.0A priority Critical patent/CN112714130A/zh
Publication of CN112714130A publication Critical patent/CN112714130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据自适应网络安全态势感知方法,属于网络信息系安全技术领域,本发明对网络安全态势的智能化实时监控,对潜在、恶意的网络行为变得无法控制之前进行安全态势的评估、防御、响应以及预警,供管理者及时给出响应的应对策略。本发明有助于对网络的全局安全性做出评估,方便网络管理者对安全策略的及时调整,并对后续的安全态势预测及态势可视化提供了技术支持。该模型能够利用自学习的误差逆反馈策略进行适应性的学习,从而检测网络大数据中动态变化的安全态势状况。本发明不但能够有效的处理实时网络数据流,而且能够发现高维数据流中隐藏的网络特征,从而弥补了网络安全态势感知模型在处理实时性问题方面的不足。

Description

一种基于大数据自适应网络安全态势感知方法
技术领域
本发明属于网络信息安全技术领域,具体涉及一种基于大数据自适应网络安全态势感知方法。
背景技术
随着社会的进步,互联网的出现带动了物联网、云计算等技术的产生,网络在人们的生活中的比重不断攀升,由于使用网络的人数和设备的激增,也导致了大数据的产生。
大量的数据中包含着许多重要信息,如银行账户信息、家庭住址信息、个人信息、国家安全信息等,这就会引发一些网络攻击,盗取信息或者恶意攻击等违法行为。
随着网络技术的发展,网络中的漏洞也越来越多,网络的攻击技术不断革新,新型的攻击工具大量涌现,传统的网络安全只是运用在单一的领域,并不能应对多方面的攻击,所以现在的网络安全问题越发严峻。
为了保证网络正常运行,需要实时监控网络当前运行状况以及预测网络未来的变化趋势,这也是现代网络管理和网络运维管理急需解决的问题。
发明内容
发明目的:本发明的目的在于提供一种基于大数据自适应网络安全态势感知方法,实现了在大规模网络环境下,对网络安全态势的智能化实时监控。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种基于大数据自适应网络安全态势感知方法,包括如下步骤:
1)第一阶段是网络安全态势觉察,通过采用降低数据维度和数据关联的方法对数据进行预处理和分析,找出其特征和规律;
2)第二阶段是网络安全态势理解,根据识别出的攻击活动和它们的特征,定性、定量分析网络当前的安全状态和薄弱环节,进而判断异常网络状况之间的联系;
3)第三阶段是网络安全态势投射,根据基于长短记忆型循环神经网络算法训练的模型识别威胁数据,判断其态势状况和潜在的危险,并呈现预测曲线。
进一步地,所述的步骤1)中,首先通过数据采集模块完成数据采集,数据采集模块主要采集网络设备信息、网络日志及流量信息获取;使用采集到的数据库,并通过基于长短记忆型循环神经网络的算法训练基础模型;利用长短记忆型循环神经网络算法训练的基础模型检测互联网中的实时数据流,首先要对数据进行预处理,采用极大值规则化的方法使数据长度处于稳定范围,便于下一步分析;
所述的步骤2)中,在对数据进行预处理后,要将他们进行归并、关联,采动态时间规整算法使数据之间产生关联,便于基础模型检测;
所述的步骤3)中,经过处理后的数据,在通过长短记忆型循环神经网络模型收集实际在线数据时,利用建立的预测模型得到预测值;使用下一个采样时间的新观测数据作为上一个采样时间的真实值;将预测值与实际之间的误差加到总体样本误差中;最后利用误差最小化对模型参数进行迭代更新,随着在线数据的使用越来越多,模型得到的预测值越来越精确;
进一步地,所述的利用误差最小化对模型参数进行迭代更新是基于长短记忆型循环神经网络的更新公式,遗忘门ft
Figure BDA0002874008200000021
输入门it,输出门Ot,长记忆Ct,短记忆ht,遗忘门的权重矩阵Wf,遗忘门的偏置项bf,输入门的权重矩阵Wi,输入门的偏置项bi,输出门的权重矩阵Wc,输出门的偏置项bc,计算单元状态的权重矩阵Wo,计算单元的偏置项bo
Figure BDA0002874008200000022
在线上学习时,要对实时数据进行预处理,使得数据单位相同,数据范围在同一个值域,数据变化趋势在同一个状态幅度下。
进一步地,所述的极大值规则化的方法具体为:
设原始时间序列为X,规则化数据表示为X’,其中i、j代表数字角标,xij代表数据中的值,xjmax表示数据中最大值:
Figure BDA0002874008200000031
xjmax=max{x1j,x2j,....xij}
极大值归一化方法变换后的数据范围落在[0,1]区间内,使数据更适合于分析。
进一步地,经过预处理的数据因结构属性发生了变化,为了使处理后的数据及其结构能够和检测模型适配,在模型匹配的过程中采用动态时间规整算法;规整路径的形式为w=w1,w2,w3....wk,其中wK=(i,j)认为时间序列1的第i个点和时间序列2的第j个点是相似的,所有相似点的距离之和作为规整路径距离,用规整路径距离来衡量两个时间序列的相似性;规整路径距离越小,相似度越高;假设原始时间序列为X,Y它们的时间长度分别为|X|和|Y|,对于规整路径w=w1,w2,w3....wk,有
Max(|x|,|y|)<k<|x|+|y|;
K表示两个序列最终被拉伸的长度;规整路径必须从wK=(|x|,|y|)开始,到wk=(|x|,|y|)结束,以保证原始时间序列X,Y的每个坐标点都出现一次;另外,规整路径wK=(i,j)中的i和j必须是单调递增的,所谓单调递增指的是:wK=(i,j),wk+1=(i',j'),其中i<i'<i+1,j<j'<j+1;最后得到一个最短的规整路径:
D(i,j)=Dist(i,j)+min{(i-1,k),D(i,j-1),D(i-1,j-1)};
其中,Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离;D(i,j)衡量的是X序列前i个点与Y序列前j个点的相似性;通过动态时间算法解决了数据结构变化的问题,简化数据结构的同时也加快了检测速度。
进一步地,态势预测的算法步骤如下:
3.1)表示实际时间序列是X=(x1,x2,...xn),将时间序列X扩展成矩阵
Figure BDA0002874008200000041
其中n为时间序列的长度,k为样本数量;训练样本被表示为y=(xk,xk+1,...,xn);利用公式
Figure BDA0002874008200000042
对时间序列X进行标准化;
3.2)初始化网络参数并且设置超参数,
Figure BDA0002874008200000043
其中,M1、M2分别代表最大迭代次数Max_iter和误差阈值Error_Cost,L为LSTM细胞单元数,N为神经元层数,Wfbf分别为忘记门权重和偏置;类似的,有输入门和输出门等等;
3.3)计算出需要忘记的细胞单元状态信息,
Figure BDA0002874008200000044
计算出遗忘门的输出
Figure BDA0002874008200000045
然后将遗忘门的输出乘以前一时刻的单元状态Ct-1
3.4)计算t时刻哪些信息保存在细胞单元状态中,
Figure BDA0002874008200000046
此公式包括两个部分,第一部分是输入门it的输出,它决定了细胞单元需要更新值;第二部分是利用tanh函数来创建的新的候选向量Ct;然后用候选向量乘以输入门的输出;
3.5)计算出细胞单元状态
Figure BDA0002874008200000047
细胞单元状态是输入门和遗忘门状态结合的结果;
3.6)计算t时刻的网络输出
ht=σ(Wo·[ht-1,xt]+bo)*tanh(Ct);
首先计算输出门Ot,再将Ot乘以当前时刻的单元状态得到当前时刻的网络的输出;ht为当前时刻的预测值;重复3到6步骤,计算出所有训练样本的预测值;
3.7)计算所有预测值y和真实值y的误差
Figure BDA0002874008200000051
使用BPTT算法进行自适应误差逆传播更新网络参数,迭代次数也加1,然后转到Step3,直到达到误差阈值或最大迭代次数,error>Error_Cost或者此时的迭代次数iter>Max_iter,则退出训练循环;
3.8)输入待更新的权重矩阵θo=[Wf,Wi,Wc,Wo],并利用NAWL算法对ILSTM网络模型参数进行训练;
θt=θt-1-η[(1+γ)Zt-γZt-1];
由于参数初始化是添加新样本时历史样本的全局最优解,因此只需执行几个循环步骤就实现新样本下的全局最优解;
3.9)根据在观测数据实时更新参数方法,再添加新样本Xn+1(Xn-k+2,...,Xn+1)和θo进行3到6的前向传播,并且得到新样本的预测值hn+1
Figure BDA0002874008200000052
3.10)当下一采样时刻的预测值达到网络被攻击点,网络安全管理员会发出网络被攻击的警告并迅速做出反应,以防止网络进一步被攻击。
进一步地,所述的步骤3)中,将经过长短记忆型循环神经网络模型检测到的异常数据筛选出来存储到异常库中;在异常库中通过自适应误差逆传播神经网络算法更新模型的权值,然后利用更新后的基础模型与网络中的实时数据进行匹配,从而提高模型的检测率并降低误检率;最后根据本发明的的态势评估模型对网络中的大数据进行实时感知,对网安全态势做出预判。
有益效果:与现有技术相比,本发明的一种基于大数据自适应网络安全态势感知方法,实现了在大规模网络环境下,对网络安全态势的智能化实时监控,对潜在、恶意的网络行为变得无法控制之前进行安全态势的评估、防御、响应以及预警,供管理者及时给出响应的应对策略。本发明有助于对网络的全局安全性做出评估,方便网络管理者对安全策略的及时调整,并对后续的安全态势预测及态势可视化提供了技术支持。该模型能够利用自学习的误差逆反馈策略进行适应性的学习,从而检测网络大数据中动态变化的安全态势状况。本发明不但能够有效的处理实时网络数据流,而且能够发现高维数据流中隐藏的网络特征,从而弥补了网络安全态势感知模型在处理实时性问题方面的不足。自适应的学习能力和基于动态规划的模板匹配策略有效的减少了误检的可能同时将检测率提高了很多。
附图说明
图1网络安全态势感知模型;
图2基于长短记忆型循环神经网络态势序列预测算法流程图;
图3自适应网络安全态势感知模型。
具体实施方式
以下结合具体实施方式对本发明做进一步的说明。
如图1所示,一种基于大数据自适应网络安全态势感知方法,网络安全态势感知可分为3个阶段:第一阶段是网络安全态势觉察;第二阶段是网络安全态势理解;第三阶段是网络安全态势投射。
网络安全态势觉察过程,通过采用降低数据维度和数据关联的方法对数据进行预处理和分析,找出其特征和规律。网络安全态势理解过程,根据识别出的攻击活动和它们的特征,定性、定量分析网络当前的安全状态和薄弱环节,进而判断异常网络状况之间的联系,这一步是态势感知的核心。网络安全态势过程,根据基于ILSTM算法训练的模型识别威胁数据,判断其态势状况和潜在的危险,并呈现预测曲线。
线下学习。首先通过数据采集模块完成数据采集,数据采集模块主要采集网络设备信息、网络日志及流量信息获取。使用采集到的数据库,并通过基于长短记忆型循环神经网络的算法训练基础模型。
利用长短记忆型循环神经网络算法训练的基础模型检测互联网中的实时数据流,首先要对数据进行预处理,本发明采用极大值规则化的方法使数据长度处于稳定范围,便于下一步分析。在对数据进行预处理后,要将他们进行归并、关联,采动态时间规整算法使数据之间产生关联,便于基础模型检测。经过处理后的数据,在通过长短记忆型循环神经网络模型收集实际在线数据时,利用建立的预测模型可以得到预测值。使用下一个采样时间的新观测数据作为上一个采样时间的真实值。将预测值与实际之间的误差加到总体样本误差中。最后利用误差最小化对模型参数进行迭代更新,随着在线数据的使用越来越多,模型得到的预测值可以越来越精确。
基于长短记忆型循环神经网络的更新公式,遗忘门ft
Figure BDA0002874008200000071
输入门it,输出门Ot,长记忆Ct,短记忆ht,遗忘门的权重矩阵Wf,遗忘门的偏置项bf,输入门的权重矩阵Wi,输入门的偏置项bi,输出门的权重矩阵Wc,输出门的偏置项bc,计算单元状态的权重矩阵Wo,计算单元的偏置项bo
Figure BDA0002874008200000072
在线上学习时,要对实时数据进行预处理,使得数据单位相同,数据范围在同一个值域,数据变化趋势在同一个状态幅度下。本发明采用极大值规则化的方法对数据进行预处理,设原始时间序列为X,规则化数据表示为X’,其中i、j代表数字角标,xij代表数据中的值,xjmax表示数据中最大值:
Figure BDA0002874008200000073
xjmax=max{x1j,x2j,....xij}
极大值归一化方法变换后的数据范围落在[0,1]区间内,使数据更适合于分析。
经过预处理的数据因结构属性发生了变化,为了使处理后的数据及其结构能够和检测模型适配,在模型匹配的过程中采用动态时间规整算法。规整路径的形式为w=w1,w2,w3....wk,其中wK=(i,j)认为时间序列1的第i个点和时间序列2的第j个点是相似的,所有相似点的距离之和作为规整路径距离,用规整路径距离来衡量两个时间序列的相似性。规整路径距离越小,相似度越高。假设原始时间序列为X,Y它们的时间长度分别为|X|和|Y|,对于规整路径w=w1,w2,w3....wk,有
Max(|x|,|y|)<k<|x|+|y|;
K表示两个序列最终被拉伸的长度。规整路径必须从wK=(|x|,|y|)开始,到wk=(|x|,|y|)结束,以保证X,Y序列的每个坐标点都出现一次。另外,规整路径wK=(i,j)中的i和j必须是单调递增的,所谓单调递增指的是:wK=(i,j),wk+1=(i',j'),其中i<i'<i+1,j<j'<j+1。最后得到一个最短的规整路径:
D(i,j)=Dist(i,j)+min{(i-1,k),D(i,j-1),D(i-1,j-1)};
其中,Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离。D(i,j)衡量的是X序列前i个点与Y序列前j个点的相似性。通过动态时间算法解决了数据结构变化的问题,简化数据结构的同时也加快了检测速度。
态势预测的算法步骤如下:
1)表示实际时间序列是X=(x1,x2,...xn),将时间序列X扩展成矩阵
Figure BDA0002874008200000081
其中n为时间序列的长度,k为样本数量。训练样本被表示为y=(xk,xk+1,...,xn)。利用公式
Figure BDA0002874008200000082
对时间序列X进行标准化。
2)初始化网络参数并且设置超参数,
Figure BDA0002874008200000091
其中,M1、M2分别代表最大迭代次数Max_iter和误差阈值Error_Cost,L为LSTM细胞单元数,N为神经元层数,Wfbf分别为忘记门权重和偏置。类似的,有输入门和输出门等等。
3)计算出需要忘记的细胞单元状态信息,
Figure BDA0002874008200000092
计算出遗忘门的输出
Figure BDA0002874008200000093
然后将遗忘门的输出乘以前一时刻的单元状态Ct-1
4)计算t时刻哪些信息可以保存在细胞单元状态中,
Figure BDA0002874008200000094
此公式包括两个部分,第一部分是输入门it的输出,它决定了细胞单元需要更新值;第二部分是利用tanh函数来创建的新的候选向量Ct。然后用候选向量乘以输入门的输出。
5)计算出细胞单元状态
Figure BDA0002874008200000095
细胞单元状态是输入门和遗忘门状态结合的结果。
6)计算t时刻的网络输出
ht=σ(Wo·[ht-1,xt]+bo)*tanh(Ct);
首先计算输出门Ot,再将Ot乘以当前时刻的单元状态得到当前时刻的网络的输出。ht为当前时刻的预测值。重复3到6步骤,计算出所有训练样本的预测值。
7)计算所有预测值y和真实值y的误差
Figure BDA0002874008200000101
使用BPTT算法进行自适应误差逆传播更新网络参数,迭代次数也加1,然后转到Step3,直到达到误差阈值或最大迭代次数,error>Error_Cost或者此时的迭代次数iter>Max_iter,则退出训练循环。
8)输入待更新的权重矩阵θo=[Wf,Wi,Wc,Wo],并利用NAWL算法对ILSTM网络模型参数进行训练。
θt=θt-1-η[(1+γ)Zt-γZt-1];
由于参数初始化是添加新样本时历史样本的全局最优解,因此只需执行几个循环步骤就可以实现新样本下的全局最优解。
9)根据在观测数据实时更新参数方法,再添加新样本Xn+1(Xn-k+2,...,Xn+1)和θo进行3到6的前向传播,并且得到新样本的预测值hn+1
Figure BDA0002874008200000102
10)当下一采样时刻的预测值达到网络被攻击点,网络安全管理员会发出网络被攻击的警告并迅速做出反应,以防止网络进一步被攻击。
将经过长短记忆型循环神经网络模型检测到的异常数据筛选出来存储到异常库中。在异常库中通过自适应误差逆传播神经网络算法更新模型的权值,然后利用更新后的基础模型与网络中的实时数据进行匹配,从而提高模型的检测率并降低误检率。最后根据本发明的的态势评估模型对网络中的大数据进行实时感知,对网安全态势做出预判。
实施例
参阅图1-3所示,本发明实施例中的一种基于大数据自适应网络安全态势感知方法,包括以下步骤:
第一步,训练生成基础模型。在训练数据集中,正常网络数据相对比较少,而异常网络数据的比例很高,这和正常的网络环境有很大的差异,因此需要对采集到的数据进行一些预处理,把经过处理的数据集,通过线下学习生成基础模型。
第二步预处理网络实时数据流。通过极大值归一化方法对实时数据进行降维处理,去除类似的警报信息,提取数据的特征属性,并对警报数据进行分析、去噪、分类等操作,使得数据有利于后续的分析;
第三步进行态势察觉。数据预处理完成后,数据维度降低包含的特征属性较少,而且所包含的属性数目也不同,因此数据之间存在异同,故采用基于动态时间规整的方法进行数据处理,处理后的数据单位相同,数据范围在同一个值域,数据变化趋势在同一个状态幅度下。利用这种方法在把数据记录进行匹配时,不论是原始模型还是动态更新后的模型都是有效的。当数据处理结束后,就利用模板进行数据的匹配完成数据特征的识别,对每一条数据记录按照属性特征进行归类;
第四步异常库更新。在利用基础模型进行检测网络中的实时数据,因为模型匹配的检测率无法完全覆盖,因此必然会存在误检和漏检的情况。利用一种新颖的无监督方法将特征不明显或者不属于已知类型的数据记录进行模糊聚类分析,从而找到漏检或误检的数据,生成一个异常库,将新的异常数据存储到异常库中;
第五步一旦新的异常库生成就进行在线学习。利用新异常更新基础模型库,并为每一个模板分配权重,通过误差逆传播算法更新每一个权值,在基础模型库中按照每一个模板的权重进行排序,这样源源不断到达的网络数据记录优先和权重高的模板进行匹配,不但提高模型的处理效率,同时降低模型的误检率。
经过以上五步,本模型可以自动适应不但能够有效的处理实时网络数据流,而且能够发现高维数据流中隐藏的网络特征,从而弥补了网络安全态势感知模型在处理实时性问题方面的不足。自适应的学习能力和基于动态规划的模型匹配策略有效的减少了误检的可能,同时将检测率提高了很多。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,上述实施例的技术特征可进行任意组合,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于大数据自适应网络安全态势感知方法,其特征在于:包括如下步骤:
1)第一阶段是网络安全态势觉察,通过采用降低数据维度和数据关联的方法对数据进行预处理和分析,找出其特征和规律;
2)第二阶段是网络安全态势理解,根据识别出的攻击活动和它们的特征,定性、定量分析网络当前的安全状态和薄弱环节,进而判断异常网络状况之间的联系;
3)第三阶段是网络安全态势投射,根据基于长短记忆型循环神经网络算法训练的模型识别威胁数据,判断其态势状况和潜在的危险,并呈现预测曲线。
2.根据权利要求1所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤1)中,首先通过数据采集模块完成数据采集,数据采集模块采集网络设备信息、网络日志及流量信息获取;使用采集到的数据库,并通过基于长短记忆型循环神经网络的算法训练基础模型;利用长短记忆型循环神经网络算法训练的基础模型检测互联网中的实时数据流,首先要对数据进行预处理,采用极大值规则化的方法使数据长度处于稳定范围,便于下一步分析;
所述的步骤2)中,在对数据进行预处理后,要将他们进行归并、关联,采动态时间规整算法使数据之间产生关联,便于基础模型检测;
所述的步骤3)中,经过处理后的数据,在通过长短记忆型循环神经网络模型收集实际在线数据时,利用建立的预测模型得到预测值;使用下一个采样时间的新观测数据作为上一个采样时间的真实值;将预测值与实际之间的误差加到总体样本误差中;最后利用误差最小化对模型参数进行迭代更新。
3.根据权利要求2所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的利用误差最小化对模型参数进行迭代更新是基于长短记忆型循环神经网络的更新公式,遗忘门ft
Figure FDA0002874008190000011
输入门it,输出门Ot,长记忆Ct,短记忆ht,遗忘门的权重矩阵Wf,遗忘门的偏置项bf,输入门的权重矩阵Wi,输入门的偏置项bi,输出门的权重矩阵Wc,输出门的偏置项bc,计算单元状态的权重矩阵Wo,计算单元的偏置项bo
Figure FDA0002874008190000021
在线上学习时,要对实时数据进行预处理,使得数据单位相同,数据范围在同一个值域,数据变化趋势在同一个状态幅度下。
4.根据权利要求3所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的极大值规则化的方法具体为:
设原始时间序列为X,规则化数据表示为X’,其中i、j代表数字角标,xij代表数据中的值,xjmax表示数据中最大值,则:
Figure FDA0002874008190000022
xjmax=max{x1j,x2j,....xij}
极大值归一化方法变换后的数据范围落在[0,1]区间内,使数据更适合于分析。
5.根据权利要求4所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤2中,在对数据进行预处理后,为了使处理后的数据及其结构能够和检测模型适配,在模型匹配的过程中采用动态时间规整算法;规整路径的形式为w=w1,w2,w3....wk,其中wK=(i,j)认为时间序列1的第i个点和时间序列2的第j个点是相似的,所有相似点的距离之和作为规整路径距离,用规整路径距离来衡量两个时间序列的相似性;;假设原始时间序列为X,Y它们的时间长度分别为|X|和|Y|,对于规整路径w=w1,w2,w3....wk,有
Max(|x|,|y|)<k<|x|+|y|;
K表示两个序列最终被拉伸的长度;规整路径必须从wK=(|x|,|y|)开始,到wk=(|x|,|y|)结束,以保证原始时间序列X,Y的每个坐标点都出现一次;另外,规整路径wK=(i,j)中的i和j必须是单调递增的,所谓单调递增指的是:wK=(i,j),wk+1=(i',j'),其中i<i'<i+1,j<j'<j+1;最后得到一个最短的规整路径:
D(i,j)=Dist(i,j)+min{(i-1,k),D(i,j-1),D(i-1,j-1)};
其中,Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离;D(i,j)衡量的是X序列前i个点与Y序列前j个点的相似性。
6.根据权利要求5所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤3)中,判断其态势状况中,态势预测的算法步骤如下:
3.1)表示实际时间序列是X=(x1,x2,...xn),将时间序列X扩展成矩阵
Figure FDA0002874008190000031
其中n为时间序列的长度,k为样本数量;训练样本被表示为y=(xk,xk+1,...,xn);利用公式
Figure FDA0002874008190000032
对时间序列X进行标准化;
3.2)初始化网络参数并且设置超参数,
Figure FDA0002874008190000033
其中,M1、M2分别代表最大迭代次数Max_iter和误差阈值Error_Cost,L为LSTM细胞单元数,N为神经元层数,Wfbf分别为忘记门权重和偏置;类似的,有输入门和输出门等等;
3.3)计算出需要忘记的细胞单元状态信息,
Figure FDA0002874008190000041
计算出遗忘门的输出
Figure FDA0002874008190000042
然后将遗忘门的输出乘以前一时刻的单元状态Ct-1
3.4)计算t时刻哪些信息保存在细胞单元状态中,
Figure FDA0002874008190000043
此公式包括两个部分,第一部分是输入门it的输出,它决定了细胞单元需要更新值;第二部分是利用tanh函数来创建的新的候选向量Ct;然后用候选向量乘以输入门的输出;
3.5)计算出细胞单元状态
Ct
Figure FDA0002874008190000044
细胞单元状态是输入门和遗忘门状态结合的结果;
3.6)计算t时刻的网络输出
ht=σ(Wo·[ht-1,xt]+bo)*tanh(Ct);
首先计算输出门Ot,再将Ot乘以当前时刻的单元状态得到当前时刻的网络的输出;ht为当前时刻的预测值;重复3到6步骤,计算出所有训练样本的预测值;
3.7)计算所有预测值y和真实值y的误差
Figure FDA0002874008190000045
使用BPTT算法进行自适应误差逆传播更新网络参数,迭代次数也加1,然后转到Step3,直到达到误差阈值或最大迭代次数,error>Error_Cost或者此时的迭代次数iter>Max_iter,则退出训练循环;
3.8)输入待更新的权重矩阵θo=[Wf,Wi,Wc,Wo],并利用NAWL算法对ILSTM网络模型参数进行训练;
θt=θt-1-η[(1+γ)Zt-γZt-1];
由于参数初始化是添加新样本时历史样本的全局最优解,因此只需执行几个循环步骤就实现新样本下的全局最优解;
3.9)根据在观测数据实时更新参数方法,再添加新样本Xn+1(Xn-k+2,...,Xn+1)和θo进行3到6的前向传播,并且得到新样本的预测值hn+1
Figure FDA0002874008190000051
3.10)当下一采样时刻的预测值达到网络被攻击点,网络安全管理员会发出网络被攻击的警告并迅速做出反应,以防止网络进一步被攻击。
7.根据权利要求6所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤3)中,将经过长短记忆型循环神经网络模型检测到的异常数据筛选出来存储到异常库中;在异常库中通过自适应误差逆传播神经网络算法更新模型的权值,然后利用更新后的基础模型与网络中的实时数据进行匹配,从而提高模型的检测率并降低误检率;最后根据本发明的的态势评估模型对网络中的大数据进行实时感知,对网安全态势做出预判。
CN202011620905.0A 2020-12-30 2020-12-30 一种基于大数据自适应网络安全态势感知方法 Pending CN112714130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011620905.0A CN112714130A (zh) 2020-12-30 2020-12-30 一种基于大数据自适应网络安全态势感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011620905.0A CN112714130A (zh) 2020-12-30 2020-12-30 一种基于大数据自适应网络安全态势感知方法

Publications (1)

Publication Number Publication Date
CN112714130A true CN112714130A (zh) 2021-04-27

Family

ID=75547516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011620905.0A Pending CN112714130A (zh) 2020-12-30 2020-12-30 一种基于大数据自适应网络安全态势感知方法

Country Status (1)

Country Link
CN (1) CN112714130A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006744A (zh) * 2021-10-28 2022-02-01 中能电力科技开发有限公司 一种基于lstm的电力监控***网络安全态势预测方法及***
CN115051827A (zh) * 2022-04-17 2022-09-13 昆明理工大学 一种结合孪生架构和多源信息融合的网络安全态势预测方法
CN116389148A (zh) * 2023-04-14 2023-07-04 深圳市众云网有限公司 一种基于人工智能的网络安全态势预测***
CN117421718A (zh) * 2023-12-18 2024-01-19 南京创能百泰自动化科技有限公司 一种数据平台信息安全监控管理***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098180A (zh) * 2011-02-17 2011-06-15 华北电力大学 一种网络安全态势感知方法
WO2016101688A1 (zh) * 2014-12-25 2016-06-30 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN107786369A (zh) * 2017-09-26 2018-03-09 广东电网有限责任公司电力调度控制中心 基于irt层次分析和lstm的电力通信网络安全态势感知和预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098180A (zh) * 2011-02-17 2011-06-15 华北电力大学 一种网络安全态势感知方法
WO2016101688A1 (zh) * 2014-12-25 2016-06-30 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN107786369A (zh) * 2017-09-26 2018-03-09 广东电网有限责任公司电力调度控制中心 基于irt层次分析和lstm的电力通信网络安全态势感知和预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱博文: "基于大数据的网络安全态势感知模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
朱江等: "基于NAWL-ILSTM的网络安全态势预测方法", 《计算机科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006744A (zh) * 2021-10-28 2022-02-01 中能电力科技开发有限公司 一种基于lstm的电力监控***网络安全态势预测方法及***
CN114006744B (zh) * 2021-10-28 2024-05-28 中能电力科技开发有限公司 一种基于lstm的电力监控***网络安全态势预测方法及***
CN115051827A (zh) * 2022-04-17 2022-09-13 昆明理工大学 一种结合孪生架构和多源信息融合的网络安全态势预测方法
CN115051827B (zh) * 2022-04-17 2024-03-05 昆明理工大学 一种结合孪生架构和多源信息融合的网络安全态势预测方法
CN116389148A (zh) * 2023-04-14 2023-07-04 深圳市众云网有限公司 一种基于人工智能的网络安全态势预测***
CN116389148B (zh) * 2023-04-14 2023-12-29 深圳市众云网有限公司 一种基于人工智能的网络安全态势预测***
CN117421718A (zh) * 2023-12-18 2024-01-19 南京创能百泰自动化科技有限公司 一种数据平台信息安全监控管理***
CN117421718B (zh) * 2023-12-18 2024-02-20 南京创能百泰自动化科技有限公司 一种数据平台信息安全监控管理***

Similar Documents

Publication Publication Date Title
CN110691100B (zh) 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN112714130A (zh) 一种基于大数据自适应网络安全态势感知方法
CN110070141B (zh) 一种网络入侵检测方法
CN111832647A (zh) 异常流量检测***及方法
CN111709028B (zh) 一种网络安全状态评估和攻击预测方法
CN113255848B (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN109145516B (zh) 一种基于改进型极限学习机的模拟电路故障识别方法
CN111598179B (zh) 电力监控***用户异常行为分析方法、存储介质和设备
CN115348074B (zh) 深度时空混合的云数据中心网络流量实时检测方法
CN112734000A (zh) 一种入侵检测方法、***、设备及可读存储介质
CN112560596B (zh) 一种雷达干扰类别识别方法及***
JP7331369B2 (ja) 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム
Ulapane et al. Hyper-parameter initialization for squared exponential kernel-based gaussian process regression
Hong et al. The entropy and PCA based anomaly prediction in data streams
CN112329974B (zh) 基于lstm-rnn的民航安保事件行为主体识别与预测方法及***
CN112504682A (zh) 基于粒子群优化算法的底盘发动机故障诊断方法及***
CN113343587A (zh) 用于电力工控网络的流量异常检测方法
CN114331731A (zh) 基于pca与rf的区块链异常检测方法及相关装置
Disha et al. A Comparative study of machine learning models for Network Intrusion Detection System using UNSW-NB 15 dataset
Sheng et al. Network traffic anomaly detection method based on chaotic neural network
CN113126489A (zh) 一种基于cnn-gru-binn的重型燃气轮机控制***智能bit设计方法
Gao et al. The prediction role of hidden markov model in intrusion detection
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
Cui et al. Using EBGAN for anomaly intrusion detection
CN116680639A (zh) 一种基于深度学习的深海潜水器传感器数据的异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210427