CN112714130A - 一种基于大数据自适应网络安全态势感知方法 - Google Patents
一种基于大数据自适应网络安全态势感知方法 Download PDFInfo
- Publication number
- CN112714130A CN112714130A CN202011620905.0A CN202011620905A CN112714130A CN 112714130 A CN112714130 A CN 112714130A CN 202011620905 A CN202011620905 A CN 202011620905A CN 112714130 A CN112714130 A CN 112714130A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- time
- model
- security situation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000008447 perception Effects 0.000 claims abstract description 7
- 210000004027 cell Anatomy 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 24
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000012800 visualization Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据自适应网络安全态势感知方法,属于网络信息系安全技术领域,本发明对网络安全态势的智能化实时监控,对潜在、恶意的网络行为变得无法控制之前进行安全态势的评估、防御、响应以及预警,供管理者及时给出响应的应对策略。本发明有助于对网络的全局安全性做出评估,方便网络管理者对安全策略的及时调整,并对后续的安全态势预测及态势可视化提供了技术支持。该模型能够利用自学习的误差逆反馈策略进行适应性的学习,从而检测网络大数据中动态变化的安全态势状况。本发明不但能够有效的处理实时网络数据流,而且能够发现高维数据流中隐藏的网络特征,从而弥补了网络安全态势感知模型在处理实时性问题方面的不足。
Description
技术领域
本发明属于网络信息安全技术领域,具体涉及一种基于大数据自适应网络安全态势感知方法。
背景技术
随着社会的进步,互联网的出现带动了物联网、云计算等技术的产生,网络在人们的生活中的比重不断攀升,由于使用网络的人数和设备的激增,也导致了大数据的产生。
大量的数据中包含着许多重要信息,如银行账户信息、家庭住址信息、个人信息、国家安全信息等,这就会引发一些网络攻击,盗取信息或者恶意攻击等违法行为。
随着网络技术的发展,网络中的漏洞也越来越多,网络的攻击技术不断革新,新型的攻击工具大量涌现,传统的网络安全只是运用在单一的领域,并不能应对多方面的攻击,所以现在的网络安全问题越发严峻。
为了保证网络正常运行,需要实时监控网络当前运行状况以及预测网络未来的变化趋势,这也是现代网络管理和网络运维管理急需解决的问题。
发明内容
发明目的:本发明的目的在于提供一种基于大数据自适应网络安全态势感知方法,实现了在大规模网络环境下,对网络安全态势的智能化实时监控。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种基于大数据自适应网络安全态势感知方法,包括如下步骤:
1)第一阶段是网络安全态势觉察,通过采用降低数据维度和数据关联的方法对数据进行预处理和分析,找出其特征和规律;
2)第二阶段是网络安全态势理解,根据识别出的攻击活动和它们的特征,定性、定量分析网络当前的安全状态和薄弱环节,进而判断异常网络状况之间的联系;
3)第三阶段是网络安全态势投射,根据基于长短记忆型循环神经网络算法训练的模型识别威胁数据,判断其态势状况和潜在的危险,并呈现预测曲线。
进一步地,所述的步骤1)中,首先通过数据采集模块完成数据采集,数据采集模块主要采集网络设备信息、网络日志及流量信息获取;使用采集到的数据库,并通过基于长短记忆型循环神经网络的算法训练基础模型;利用长短记忆型循环神经网络算法训练的基础模型检测互联网中的实时数据流,首先要对数据进行预处理,采用极大值规则化的方法使数据长度处于稳定范围,便于下一步分析;
所述的步骤2)中,在对数据进行预处理后,要将他们进行归并、关联,采动态时间规整算法使数据之间产生关联,便于基础模型检测;
所述的步骤3)中,经过处理后的数据,在通过长短记忆型循环神经网络模型收集实际在线数据时,利用建立的预测模型得到预测值;使用下一个采样时间的新观测数据作为上一个采样时间的真实值;将预测值与实际之间的误差加到总体样本误差中;最后利用误差最小化对模型参数进行迭代更新,随着在线数据的使用越来越多,模型得到的预测值越来越精确;
进一步地,所述的利用误差最小化对模型参数进行迭代更新是基于长短记忆型循环神经网络的更新公式,遗忘门ft、输入门it,输出门Ot,长记忆Ct,短记忆ht,遗忘门的权重矩阵Wf,遗忘门的偏置项bf,输入门的权重矩阵Wi,输入门的偏置项bi,输出门的权重矩阵Wc,输出门的偏置项bc,计算单元状态的权重矩阵Wo,计算单元的偏置项bo:
在线上学习时,要对实时数据进行预处理,使得数据单位相同,数据范围在同一个值域,数据变化趋势在同一个状态幅度下。
进一步地,所述的极大值规则化的方法具体为:
设原始时间序列为X,规则化数据表示为X’,其中i、j代表数字角标,xij代表数据中的值,xjmax表示数据中最大值:
xjmax=max{x1j,x2j,....xij}
极大值归一化方法变换后的数据范围落在[0,1]区间内,使数据更适合于分析。
进一步地,经过预处理的数据因结构属性发生了变化,为了使处理后的数据及其结构能够和检测模型适配,在模型匹配的过程中采用动态时间规整算法;规整路径的形式为w=w1,w2,w3....wk,其中wK=(i,j)认为时间序列1的第i个点和时间序列2的第j个点是相似的,所有相似点的距离之和作为规整路径距离,用规整路径距离来衡量两个时间序列的相似性;规整路径距离越小,相似度越高;假设原始时间序列为X,Y它们的时间长度分别为|X|和|Y|,对于规整路径w=w1,w2,w3....wk,有
Max(|x|,|y|)<k<|x|+|y|;
K表示两个序列最终被拉伸的长度;规整路径必须从wK=(|x|,|y|)开始,到wk=(|x|,|y|)结束,以保证原始时间序列X,Y的每个坐标点都出现一次;另外,规整路径wK=(i,j)中的i和j必须是单调递增的,所谓单调递增指的是:wK=(i,j),wk+1=(i',j'),其中i<i'<i+1,j<j'<j+1;最后得到一个最短的规整路径:
D(i,j)=Dist(i,j)+min{(i-1,k),D(i,j-1),D(i-1,j-1)};
其中,Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离;D(i,j)衡量的是X序列前i个点与Y序列前j个点的相似性;通过动态时间算法解决了数据结构变化的问题,简化数据结构的同时也加快了检测速度。
进一步地,态势预测的算法步骤如下:
3.1)表示实际时间序列是X=(x1,x2,...xn),将时间序列X扩展成矩阵
3.2)初始化网络参数并且设置超参数,
其中,M1、M2分别代表最大迭代次数Max_iter和误差阈值Error_Cost,L为LSTM细胞单元数,N为神经元层数,Wfbf分别为忘记门权重和偏置;类似的,有输入门和输出门等等;
3.3)计算出需要忘记的细胞单元状态信息,
3.4)计算t时刻哪些信息保存在细胞单元状态中,
此公式包括两个部分,第一部分是输入门it的输出,它决定了细胞单元需要更新值;第二部分是利用tanh函数来创建的新的候选向量Ct;然后用候选向量乘以输入门的输出;
3.5)计算出细胞单元状态
细胞单元状态是输入门和遗忘门状态结合的结果;
3.6)计算t时刻的网络输出
ht=σ(Wo·[ht-1,xt]+bo)*tanh(Ct);
首先计算输出门Ot,再将Ot乘以当前时刻的单元状态得到当前时刻的网络的输出;ht为当前时刻的预测值;重复3到6步骤,计算出所有训练样本的预测值;
3.7)计算所有预测值y和真实值y的误差
使用BPTT算法进行自适应误差逆传播更新网络参数,迭代次数也加1,然后转到Step3,直到达到误差阈值或最大迭代次数,error>Error_Cost或者此时的迭代次数iter>Max_iter,则退出训练循环;
3.8)输入待更新的权重矩阵θo=[Wf,Wi,Wc,Wo],并利用NAWL算法对ILSTM网络模型参数进行训练;
θt=θt-1-η[(1+γ)Zt-γZt-1];
由于参数初始化是添加新样本时历史样本的全局最优解,因此只需执行几个循环步骤就实现新样本下的全局最优解;
3.10)当下一采样时刻的预测值达到网络被攻击点,网络安全管理员会发出网络被攻击的警告并迅速做出反应,以防止网络进一步被攻击。
进一步地,所述的步骤3)中,将经过长短记忆型循环神经网络模型检测到的异常数据筛选出来存储到异常库中;在异常库中通过自适应误差逆传播神经网络算法更新模型的权值,然后利用更新后的基础模型与网络中的实时数据进行匹配,从而提高模型的检测率并降低误检率;最后根据本发明的的态势评估模型对网络中的大数据进行实时感知,对网安全态势做出预判。
有益效果:与现有技术相比,本发明的一种基于大数据自适应网络安全态势感知方法,实现了在大规模网络环境下,对网络安全态势的智能化实时监控,对潜在、恶意的网络行为变得无法控制之前进行安全态势的评估、防御、响应以及预警,供管理者及时给出响应的应对策略。本发明有助于对网络的全局安全性做出评估,方便网络管理者对安全策略的及时调整,并对后续的安全态势预测及态势可视化提供了技术支持。该模型能够利用自学习的误差逆反馈策略进行适应性的学习,从而检测网络大数据中动态变化的安全态势状况。本发明不但能够有效的处理实时网络数据流,而且能够发现高维数据流中隐藏的网络特征,从而弥补了网络安全态势感知模型在处理实时性问题方面的不足。自适应的学习能力和基于动态规划的模板匹配策略有效的减少了误检的可能同时将检测率提高了很多。
附图说明
图1网络安全态势感知模型;
图2基于长短记忆型循环神经网络态势序列预测算法流程图;
图3自适应网络安全态势感知模型。
具体实施方式
以下结合具体实施方式对本发明做进一步的说明。
如图1所示,一种基于大数据自适应网络安全态势感知方法,网络安全态势感知可分为3个阶段:第一阶段是网络安全态势觉察;第二阶段是网络安全态势理解;第三阶段是网络安全态势投射。
网络安全态势觉察过程,通过采用降低数据维度和数据关联的方法对数据进行预处理和分析,找出其特征和规律。网络安全态势理解过程,根据识别出的攻击活动和它们的特征,定性、定量分析网络当前的安全状态和薄弱环节,进而判断异常网络状况之间的联系,这一步是态势感知的核心。网络安全态势过程,根据基于ILSTM算法训练的模型识别威胁数据,判断其态势状况和潜在的危险,并呈现预测曲线。
线下学习。首先通过数据采集模块完成数据采集,数据采集模块主要采集网络设备信息、网络日志及流量信息获取。使用采集到的数据库,并通过基于长短记忆型循环神经网络的算法训练基础模型。
利用长短记忆型循环神经网络算法训练的基础模型检测互联网中的实时数据流,首先要对数据进行预处理,本发明采用极大值规则化的方法使数据长度处于稳定范围,便于下一步分析。在对数据进行预处理后,要将他们进行归并、关联,采动态时间规整算法使数据之间产生关联,便于基础模型检测。经过处理后的数据,在通过长短记忆型循环神经网络模型收集实际在线数据时,利用建立的预测模型可以得到预测值。使用下一个采样时间的新观测数据作为上一个采样时间的真实值。将预测值与实际之间的误差加到总体样本误差中。最后利用误差最小化对模型参数进行迭代更新,随着在线数据的使用越来越多,模型得到的预测值可以越来越精确。
基于长短记忆型循环神经网络的更新公式,遗忘门ft、输入门it,输出门Ot,长记忆Ct,短记忆ht,遗忘门的权重矩阵Wf,遗忘门的偏置项bf,输入门的权重矩阵Wi,输入门的偏置项bi,输出门的权重矩阵Wc,输出门的偏置项bc,计算单元状态的权重矩阵Wo,计算单元的偏置项bo:
在线上学习时,要对实时数据进行预处理,使得数据单位相同,数据范围在同一个值域,数据变化趋势在同一个状态幅度下。本发明采用极大值规则化的方法对数据进行预处理,设原始时间序列为X,规则化数据表示为X’,其中i、j代表数字角标,xij代表数据中的值,xjmax表示数据中最大值:
xjmax=max{x1j,x2j,....xij}
极大值归一化方法变换后的数据范围落在[0,1]区间内,使数据更适合于分析。
经过预处理的数据因结构属性发生了变化,为了使处理后的数据及其结构能够和检测模型适配,在模型匹配的过程中采用动态时间规整算法。规整路径的形式为w=w1,w2,w3....wk,其中wK=(i,j)认为时间序列1的第i个点和时间序列2的第j个点是相似的,所有相似点的距离之和作为规整路径距离,用规整路径距离来衡量两个时间序列的相似性。规整路径距离越小,相似度越高。假设原始时间序列为X,Y它们的时间长度分别为|X|和|Y|,对于规整路径w=w1,w2,w3....wk,有
Max(|x|,|y|)<k<|x|+|y|;
K表示两个序列最终被拉伸的长度。规整路径必须从wK=(|x|,|y|)开始,到wk=(|x|,|y|)结束,以保证X,Y序列的每个坐标点都出现一次。另外,规整路径wK=(i,j)中的i和j必须是单调递增的,所谓单调递增指的是:wK=(i,j),wk+1=(i',j'),其中i<i'<i+1,j<j'<j+1。最后得到一个最短的规整路径:
D(i,j)=Dist(i,j)+min{(i-1,k),D(i,j-1),D(i-1,j-1)};
其中,Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离。D(i,j)衡量的是X序列前i个点与Y序列前j个点的相似性。通过动态时间算法解决了数据结构变化的问题,简化数据结构的同时也加快了检测速度。
态势预测的算法步骤如下:
1)表示实际时间序列是X=(x1,x2,...xn),将时间序列X扩展成矩阵
2)初始化网络参数并且设置超参数,
其中,M1、M2分别代表最大迭代次数Max_iter和误差阈值Error_Cost,L为LSTM细胞单元数,N为神经元层数,Wfbf分别为忘记门权重和偏置。类似的,有输入门和输出门等等。
3)计算出需要忘记的细胞单元状态信息,
4)计算t时刻哪些信息可以保存在细胞单元状态中,
此公式包括两个部分,第一部分是输入门it的输出,它决定了细胞单元需要更新值;第二部分是利用tanh函数来创建的新的候选向量Ct。然后用候选向量乘以输入门的输出。
5)计算出细胞单元状态
细胞单元状态是输入门和遗忘门状态结合的结果。
6)计算t时刻的网络输出
ht=σ(Wo·[ht-1,xt]+bo)*tanh(Ct);
首先计算输出门Ot,再将Ot乘以当前时刻的单元状态得到当前时刻的网络的输出。ht为当前时刻的预测值。重复3到6步骤,计算出所有训练样本的预测值。
7)计算所有预测值y和真实值y的误差
使用BPTT算法进行自适应误差逆传播更新网络参数,迭代次数也加1,然后转到Step3,直到达到误差阈值或最大迭代次数,error>Error_Cost或者此时的迭代次数iter>Max_iter,则退出训练循环。
8)输入待更新的权重矩阵θo=[Wf,Wi,Wc,Wo],并利用NAWL算法对ILSTM网络模型参数进行训练。
θt=θt-1-η[(1+γ)Zt-γZt-1];
由于参数初始化是添加新样本时历史样本的全局最优解,因此只需执行几个循环步骤就可以实现新样本下的全局最优解。
10)当下一采样时刻的预测值达到网络被攻击点,网络安全管理员会发出网络被攻击的警告并迅速做出反应,以防止网络进一步被攻击。
将经过长短记忆型循环神经网络模型检测到的异常数据筛选出来存储到异常库中。在异常库中通过自适应误差逆传播神经网络算法更新模型的权值,然后利用更新后的基础模型与网络中的实时数据进行匹配,从而提高模型的检测率并降低误检率。最后根据本发明的的态势评估模型对网络中的大数据进行实时感知,对网安全态势做出预判。
实施例
参阅图1-3所示,本发明实施例中的一种基于大数据自适应网络安全态势感知方法,包括以下步骤:
第一步,训练生成基础模型。在训练数据集中,正常网络数据相对比较少,而异常网络数据的比例很高,这和正常的网络环境有很大的差异,因此需要对采集到的数据进行一些预处理,把经过处理的数据集,通过线下学习生成基础模型。
第二步预处理网络实时数据流。通过极大值归一化方法对实时数据进行降维处理,去除类似的警报信息,提取数据的特征属性,并对警报数据进行分析、去噪、分类等操作,使得数据有利于后续的分析;
第三步进行态势察觉。数据预处理完成后,数据维度降低包含的特征属性较少,而且所包含的属性数目也不同,因此数据之间存在异同,故采用基于动态时间规整的方法进行数据处理,处理后的数据单位相同,数据范围在同一个值域,数据变化趋势在同一个状态幅度下。利用这种方法在把数据记录进行匹配时,不论是原始模型还是动态更新后的模型都是有效的。当数据处理结束后,就利用模板进行数据的匹配完成数据特征的识别,对每一条数据记录按照属性特征进行归类;
第四步异常库更新。在利用基础模型进行检测网络中的实时数据,因为模型匹配的检测率无法完全覆盖,因此必然会存在误检和漏检的情况。利用一种新颖的无监督方法将特征不明显或者不属于已知类型的数据记录进行模糊聚类分析,从而找到漏检或误检的数据,生成一个异常库,将新的异常数据存储到异常库中;
第五步一旦新的异常库生成就进行在线学习。利用新异常更新基础模型库,并为每一个模板分配权重,通过误差逆传播算法更新每一个权值,在基础模型库中按照每一个模板的权重进行排序,这样源源不断到达的网络数据记录优先和权重高的模板进行匹配,不但提高模型的处理效率,同时降低模型的误检率。
经过以上五步,本模型可以自动适应不但能够有效的处理实时网络数据流,而且能够发现高维数据流中隐藏的网络特征,从而弥补了网络安全态势感知模型在处理实时性问题方面的不足。自适应的学习能力和基于动态规划的模型匹配策略有效的减少了误检的可能,同时将检测率提高了很多。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,上述实施例的技术特征可进行任意组合,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于大数据自适应网络安全态势感知方法,其特征在于:包括如下步骤:
1)第一阶段是网络安全态势觉察,通过采用降低数据维度和数据关联的方法对数据进行预处理和分析,找出其特征和规律;
2)第二阶段是网络安全态势理解,根据识别出的攻击活动和它们的特征,定性、定量分析网络当前的安全状态和薄弱环节,进而判断异常网络状况之间的联系;
3)第三阶段是网络安全态势投射,根据基于长短记忆型循环神经网络算法训练的模型识别威胁数据,判断其态势状况和潜在的危险,并呈现预测曲线。
2.根据权利要求1所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤1)中,首先通过数据采集模块完成数据采集,数据采集模块采集网络设备信息、网络日志及流量信息获取;使用采集到的数据库,并通过基于长短记忆型循环神经网络的算法训练基础模型;利用长短记忆型循环神经网络算法训练的基础模型检测互联网中的实时数据流,首先要对数据进行预处理,采用极大值规则化的方法使数据长度处于稳定范围,便于下一步分析;
所述的步骤2)中,在对数据进行预处理后,要将他们进行归并、关联,采动态时间规整算法使数据之间产生关联,便于基础模型检测;
所述的步骤3)中,经过处理后的数据,在通过长短记忆型循环神经网络模型收集实际在线数据时,利用建立的预测模型得到预测值;使用下一个采样时间的新观测数据作为上一个采样时间的真实值;将预测值与实际之间的误差加到总体样本误差中;最后利用误差最小化对模型参数进行迭代更新。
5.根据权利要求4所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤2中,在对数据进行预处理后,为了使处理后的数据及其结构能够和检测模型适配,在模型匹配的过程中采用动态时间规整算法;规整路径的形式为w=w1,w2,w3....wk,其中wK=(i,j)认为时间序列1的第i个点和时间序列2的第j个点是相似的,所有相似点的距离之和作为规整路径距离,用规整路径距离来衡量两个时间序列的相似性;;假设原始时间序列为X,Y它们的时间长度分别为|X|和|Y|,对于规整路径w=w1,w2,w3....wk,有
Max(|x|,|y|)<k<|x|+|y|;
K表示两个序列最终被拉伸的长度;规整路径必须从wK=(|x|,|y|)开始,到wk=(|x|,|y|)结束,以保证原始时间序列X,Y的每个坐标点都出现一次;另外,规整路径wK=(i,j)中的i和j必须是单调递增的,所谓单调递增指的是:wK=(i,j),wk+1=(i',j'),其中i<i'<i+1,j<j'<j+1;最后得到一个最短的规整路径:
D(i,j)=Dist(i,j)+min{(i-1,k),D(i,j-1),D(i-1,j-1)};
其中,Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离;D(i,j)衡量的是X序列前i个点与Y序列前j个点的相似性。
6.根据权利要求5所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤3)中,判断其态势状况中,态势预测的算法步骤如下:
3.1)表示实际时间序列是X=(x1,x2,...xn),将时间序列X扩展成矩阵
3.2)初始化网络参数并且设置超参数,
其中,M1、M2分别代表最大迭代次数Max_iter和误差阈值Error_Cost,L为LSTM细胞单元数,N为神经元层数,Wfbf分别为忘记门权重和偏置;类似的,有输入门和输出门等等;
3.3)计算出需要忘记的细胞单元状态信息,
3.4)计算t时刻哪些信息保存在细胞单元状态中,
此公式包括两个部分,第一部分是输入门it的输出,它决定了细胞单元需要更新值;第二部分是利用tanh函数来创建的新的候选向量Ct;然后用候选向量乘以输入门的输出;
3.5)计算出细胞单元状态
细胞单元状态是输入门和遗忘门状态结合的结果;
3.6)计算t时刻的网络输出
ht=σ(Wo·[ht-1,xt]+bo)*tanh(Ct);
首先计算输出门Ot,再将Ot乘以当前时刻的单元状态得到当前时刻的网络的输出;ht为当前时刻的预测值;重复3到6步骤,计算出所有训练样本的预测值;
3.7)计算所有预测值y和真实值y的误差
使用BPTT算法进行自适应误差逆传播更新网络参数,迭代次数也加1,然后转到Step3,直到达到误差阈值或最大迭代次数,error>Error_Cost或者此时的迭代次数iter>Max_iter,则退出训练循环;
3.8)输入待更新的权重矩阵θo=[Wf,Wi,Wc,Wo],并利用NAWL算法对ILSTM网络模型参数进行训练;
θt=θt-1-η[(1+γ)Zt-γZt-1];
由于参数初始化是添加新样本时历史样本的全局最优解,因此只需执行几个循环步骤就实现新样本下的全局最优解;
3.10)当下一采样时刻的预测值达到网络被攻击点,网络安全管理员会发出网络被攻击的警告并迅速做出反应,以防止网络进一步被攻击。
7.根据权利要求6所述的一种基于大数据自适应网络安全态势感知方法,其特征在于:所述的步骤3)中,将经过长短记忆型循环神经网络模型检测到的异常数据筛选出来存储到异常库中;在异常库中通过自适应误差逆传播神经网络算法更新模型的权值,然后利用更新后的基础模型与网络中的实时数据进行匹配,从而提高模型的检测率并降低误检率;最后根据本发明的的态势评估模型对网络中的大数据进行实时感知,对网安全态势做出预判。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011620905.0A CN112714130A (zh) | 2020-12-30 | 2020-12-30 | 一种基于大数据自适应网络安全态势感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011620905.0A CN112714130A (zh) | 2020-12-30 | 2020-12-30 | 一种基于大数据自适应网络安全态势感知方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112714130A true CN112714130A (zh) | 2021-04-27 |
Family
ID=75547516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011620905.0A Pending CN112714130A (zh) | 2020-12-30 | 2020-12-30 | 一种基于大数据自适应网络安全态势感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112714130A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114006744A (zh) * | 2021-10-28 | 2022-02-01 | 中能电力科技开发有限公司 | 一种基于lstm的电力监控***网络安全态势预测方法及*** |
CN115051827A (zh) * | 2022-04-17 | 2022-09-13 | 昆明理工大学 | 一种结合孪生架构和多源信息融合的网络安全态势预测方法 |
CN116389148A (zh) * | 2023-04-14 | 2023-07-04 | 深圳市众云网有限公司 | 一种基于人工智能的网络安全态势预测*** |
CN117421718A (zh) * | 2023-12-18 | 2024-01-19 | 南京创能百泰自动化科技有限公司 | 一种数据平台信息安全监控管理*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102098180A (zh) * | 2011-02-17 | 2011-06-15 | 华北电力大学 | 一种网络安全态势感知方法 |
WO2016101688A1 (zh) * | 2014-12-25 | 2016-06-30 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN107786369A (zh) * | 2017-09-26 | 2018-03-09 | 广东电网有限责任公司电力调度控制中心 | 基于irt层次分析和lstm的电力通信网络安全态势感知和预测方法 |
-
2020
- 2020-12-30 CN CN202011620905.0A patent/CN112714130A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102098180A (zh) * | 2011-02-17 | 2011-06-15 | 华北电力大学 | 一种网络安全态势感知方法 |
WO2016101688A1 (zh) * | 2014-12-25 | 2016-06-30 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN107786369A (zh) * | 2017-09-26 | 2018-03-09 | 广东电网有限责任公司电力调度控制中心 | 基于irt层次分析和lstm的电力通信网络安全态势感知和预测方法 |
Non-Patent Citations (2)
Title |
---|
朱博文: "基于大数据的网络安全态势感知模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
朱江等: "基于NAWL-ILSTM的网络安全态势预测方法", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114006744A (zh) * | 2021-10-28 | 2022-02-01 | 中能电力科技开发有限公司 | 一种基于lstm的电力监控***网络安全态势预测方法及*** |
CN114006744B (zh) * | 2021-10-28 | 2024-05-28 | 中能电力科技开发有限公司 | 一种基于lstm的电力监控***网络安全态势预测方法及*** |
CN115051827A (zh) * | 2022-04-17 | 2022-09-13 | 昆明理工大学 | 一种结合孪生架构和多源信息融合的网络安全态势预测方法 |
CN115051827B (zh) * | 2022-04-17 | 2024-03-05 | 昆明理工大学 | 一种结合孪生架构和多源信息融合的网络安全态势预测方法 |
CN116389148A (zh) * | 2023-04-14 | 2023-07-04 | 深圳市众云网有限公司 | 一种基于人工智能的网络安全态势预测*** |
CN116389148B (zh) * | 2023-04-14 | 2023-12-29 | 深圳市众云网有限公司 | 一种基于人工智能的网络安全态势预测*** |
CN117421718A (zh) * | 2023-12-18 | 2024-01-19 | 南京创能百泰自动化科技有限公司 | 一种数据平台信息安全监控管理*** |
CN117421718B (zh) * | 2023-12-18 | 2024-02-20 | 南京创能百泰自动化科技有限公司 | 一种数据平台信息安全监控管理*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110691100B (zh) | 基于深度学习的分层网络攻击识别与未知攻击检测方法 | |
CN112714130A (zh) | 一种基于大数据自适应网络安全态势感知方法 | |
CN110070141B (zh) | 一种网络入侵检测方法 | |
CN111832647A (zh) | 异常流量检测***及方法 | |
CN111709028B (zh) | 一种网络安全状态评估和攻击预测方法 | |
CN113255848B (zh) | 基于大数据学习的水轮机空化声信号辨识方法 | |
CN109145516B (zh) | 一种基于改进型极限学习机的模拟电路故障识别方法 | |
CN111598179B (zh) | 电力监控***用户异常行为分析方法、存储介质和设备 | |
CN115348074B (zh) | 深度时空混合的云数据中心网络流量实时检测方法 | |
CN112734000A (zh) | 一种入侵检测方法、***、设备及可读存储介质 | |
CN112560596B (zh) | 一种雷达干扰类别识别方法及*** | |
JP7331369B2 (ja) | 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム | |
Ulapane et al. | Hyper-parameter initialization for squared exponential kernel-based gaussian process regression | |
Hong et al. | The entropy and PCA based anomaly prediction in data streams | |
CN112329974B (zh) | 基于lstm-rnn的民航安保事件行为主体识别与预测方法及*** | |
CN112504682A (zh) | 基于粒子群优化算法的底盘发动机故障诊断方法及*** | |
CN113343587A (zh) | 用于电力工控网络的流量异常检测方法 | |
CN114331731A (zh) | 基于pca与rf的区块链异常检测方法及相关装置 | |
Disha et al. | A Comparative study of machine learning models for Network Intrusion Detection System using UNSW-NB 15 dataset | |
Sheng et al. | Network traffic anomaly detection method based on chaotic neural network | |
CN113126489A (zh) | 一种基于cnn-gru-binn的重型燃气轮机控制***智能bit设计方法 | |
Gao et al. | The prediction role of hidden markov model in intrusion detection | |
CN112422546A (zh) | 一种基于变邻域算法和模糊聚类的网络异常检测方法 | |
Cui et al. | Using EBGAN for anomaly intrusion detection | |
CN116680639A (zh) | 一种基于深度学习的深海潜水器传感器数据的异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210427 |