CN116886448A - 一种基于半监督学习的DDoS攻击告警研判方法以及装置 - Google Patents
一种基于半监督学习的DDoS攻击告警研判方法以及装置 Download PDFInfo
- Publication number
- CN116886448A CN116886448A CN202311148079.8A CN202311148079A CN116886448A CN 116886448 A CN116886448 A CN 116886448A CN 202311148079 A CN202311148079 A CN 202311148079A CN 116886448 A CN116886448 A CN 116886448A
- Authority
- CN
- China
- Prior art keywords
- alarm
- alarm data
- candidate feature
- semi
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000004931 aggregating effect Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 29
- 238000003860 storage Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011161 development Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 abstract description 8
- 239000011159 matrix material Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012097 association analysis method Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1458—Denial of Service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种基于半监督学习的DDoS攻击告警研判方法,包括:对各个原始告警数据进行特征提取,以获取候选特征集合,候选特征集合包括多个候选特征子集;分别对候选特征子集进行特征选择,以获取最优候选特征子集;获取待分析告警数据,并根据最优候选子集中的告警特征,对待分析告警数据进行聚合,以得到多个告警数据集;对告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将目标告警数据集中的告警作为高危告警。基于聚类假设、高斯核函数、图半监督等方法进行协同训练,将半监督学习与安全告警领域联系起来,可以有效的研判出高危告警,提升了告警评估的准确率,有效解决了海量安全告警研判的性能。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于半监督学习的DDoS攻击告警研判方法、装置、计算机设备及存储介质。
背景技术
海量DDoS告警的排查问题一直困扰着安全运营人员,在这些海量告警中,真正有威胁的告警所占比非常小。因此,为了减轻安全运营人员排查告警的难度和压力,提高对真正DDoS威胁的发现能力,需要对产生的DDoS攻击告警日志进行进一步的分析,研判出关键的具有高威胁度的告警。
目前,通常的做法是通过告警策略关联分析的方法筛选告警日志,但针对分布式动态DDoS攻击,没有更好地方法对告警特征进行关联评估,导致无法有效的排查出高威胁度的告警。
发明内容
基于此,有必要针对上述技术问题,提供一种基于半监督学习的DDoS攻击告警研判方法、装置、计算机设备及存储介质,以解决现有技术中针对分布式动态DDoS攻击,没有更好地方法对告警特征进行关联评估,导致无法有效的排查出高威胁度的告警的问题。
本申请实施例是这样实现的,第一方面,提供了一种基于半监督学习的DDoS攻击告警研判方法,包括如下步骤:
对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;
分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;
获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;
对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。
在一实施例中,所述分别对所述候选特征子集进行特征选择,以获取最优候选特征子集,包括:
按照预设寻优顺序,依次对每个所述候选特征子集进行评价,以获取所述最优候选特征子集。
在一实施例中,所述对每个所述候选特征子集进行评价,包括:
选取第一目标候选特征子集作为选定集;
将所述候选特征集合中的第二目标候选特征子集加入至所述选定集中,以作为第一特定集,所述第一特定集优于所述选定集;
将所述候选特征集合中的第三目标候选特征子集加入至所述第一特定集中,以作为第二特定集,当所述第二特定集不如所述第一特定集时,将所述第一特定集作为第一最优候选特征子集。
在一实施例中,所述将所述第一特定集作为第一最优候选特征子集,包括:
计算所述第一最优候选特征子集的信息增益;
通过所述信息增益对所述第一最优候选特征子集进行评价。
在一实施例中,所述根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集,包括:
按照预设关键信息,对所述待分析告警数据进行筛选;
根据所述最优候选子集中的告警特征,对筛选后的待分析告警数据进行聚合,以得到多个告警数据集。
在一实施例中,所述对筛选后的待分析告警数据进行聚合,以得到多个告警数据集,包括:
确定初始均值向量;
计算所述筛选后的待分析告警数据中的每个告警数据与所述初始均值向量之间的距离,以得到距离所述告警数据最近的簇;
通过迭代计算,对所述初始均值向量进行更新,以得到更新的均值向量;
当所述更新的均值向量不在发生变化或者迭代次数达到最大值时,输出所述多个告警数据集。
在一实施例中,所述对所述告警数据集两两之间进行相似度分析,包括:
获取训练样本集,所述训练样本集包括正例样本数据以及未标记样本数据,
根据所述标记数据样本集以及未标记数据样本集,构建图一致性模型;
根据所述图一致性模型,计算所述告警数据集两两之间的相似度。
第二方面,提供了一种基于半监督学习的DDoS攻击告警研判装置,包括:
特征提取单元,用于对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;
特征选择单元,用于分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;
告警聚合单元,用于获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;
研判分析单元,用于对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述所述的基于半监督学习的DDoS攻击告警研判方法的步骤。
第四方面,提供了一种可读存储介质,所述可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述基于半监督学习的DDoS攻击告警研判方法的步骤。
上述基于半监督学习的DDoS攻击告警研判方法、装置、计算机设备及存储介质,其方法实现,包括:对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。本申请实施例中,基于聚类假设、高斯核函数、图半监督等方法进行协同训练,将半监督学习与安全告警领域联系起来,能更容易地用于多视图数据,可以有效的研判出高危告警,提升告警评估的准确率,有效解决了海量安全告警研判的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于半监督学习的DDoS攻击告警研判方法的一流程示意图;
图2是本发明一实施例中半监督聚类方法的一场景示意图;
图3是本发明一实施例中图一致性模型的图结构示意图;
图4是本发明一实施例中基于半监督学习的DDoS攻击告警研判装置的一结构示意图;
图5是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,如图1所示,提供一种基于半监督学习的DDoS攻击告警研判方法,包括如下步骤:
在步骤S110中,对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;
其中,原始告警数据是指海量的在预设时间范围内采集到的所有的告警数据。
在本申请实施例中,获取原始告警数据后,可对该原始告警数据进行数据增强,例如,可通过一致性正则化对每个原始告警数据进行增强,并将数据增强后的新的数据输入至分类器中进行特征提取。可以理解的,同一告警数据通过数据增强产生的数据样本,其模型预测结果应保持一致。
其中,该分类器可为SVM(支持向量机),贝叶斯,k临近法等。
在本申请实施例中,可通过正则式匹配方法提取每一条告警的有效(payload)特征。具体地,该正则表达式可包括数据长度、数据信息熵、正常请求数据的匹配位置、是否有响应数据包、与该数据包序列号相同的数据包数量等特征,将每一条告警数据均与该正则表达式进行匹配,以获得对应的特征向量。
表一:特征向量对应表:
如上表一所示,其中,表示数据长度,该/>表示数据信息熵,该/>表示正常请求数据的匹配位置,该/>表示是否有响应数据包,该/>表示与该数据包序列号相同的数据包数量。
可将特征集合{,/>,/>,/>,...,/>}看作一个为候选特征集合,则{/>},{/>},{/>},{/>},......,{/>}则表示候选特征集合的候选特征子集。
在步骤S120中,分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;
在本申请实施例中,通过对每个候选特征子集进行特征选择,分别获取到最优候选特征子集,该最优候选特征子集可包括多个,可以理解为每个候选特征子集均可通过特征选择,得到一个最优候选特征子集,然后可通过信息增益对得到的最后候选特征子集进行评价,以确定其是否最优。
在本申请一实施例中,所述分别对所述候选特征子集进行特征选择,以获取最优候选特征子集,包括:
按照预设寻优顺序,依次对每个所述候选特征子集进行评价,以获取所述最优候选特征子集。
其中,该预设寻优顺序可为随机在该候选特征集合中选择的一个候选特征子集,也可按照该候选特征集合中,该候选特征子集的排列顺序确定,或者,还可以按照该候选特征子集的优先级顺序确定。
其中,候选特征集合中每一个候选特征子集均需进行按照该预设的寻优顺序,依次进行特征选择,从而获取到最优候选特征子集。
进一步,所述对每个所述候选特征子集进行评价,包括:
选取第一目标候选特征子集作为选定集;
将所述候选特征集合中的第二目标候选特征子集加入至所述选定集中,以作为第一特定集,所述第一特定集优于所述选定集;
将所述候选特征集合中的第三目标候选特征子集加入至所述第一特定集中,以作为第二特定集,当所述第二特定集不如所述第一特定集时,将所述第一特定集作为第一最优候选特征子集。
可以理解,对于候选特征集合中的每一个单特征候选特征子集均通过上述循环方式进行特征选择,即,按照预设寻优顺序,依次将每一个将候选特征子集作为该选定集,然后将其他的候选特征子集随机或者按照预设的顺序依次单独放入该选定集中,以形成本轮的特定集,如果本轮的特定集优于上一轮的特定集,则继续在本轮的特定集中放入一个候选特征子集,如果本轮的特定集不如上一轮形成的特定集,则可将上一轮的特定集作为特征选择的结果。
以下通过具体场景对此进行说明,假设,第一目标候选特征子集为{},则将{/>}作为第一轮的选定集,在该选定集中加入一个特征/>,则构成包含两个特征的候选子集,如{/>},若两个特征的候选子集优于一个特征的候选子集,于是将两个特征的候选子集{}定义为本轮的特定集,重复上述步骤,直到在第m轮时,生成的特定集不如上一轮的特定集,此时停止生成特定集,并将上一轮选定的特定集作为特征选择结果。
在一实施例中,所述将所述第一特定集作为第一最优候选特征子集,包括:
计算所述第一最优候选特征子集的信息增益;
通过所述信息增益对所述第一最优候选特征子集进行评价。
在本申请实施例中,对于每一个候选特征子集进行特征选择后形成的最优候选特征子集,均需进行评价,具体可通过计算每一个最优候选特征子集的信息增益,基于该信息增益值的大小,对该最优候选特征子集进行评价。
其中,该信息增益可通过如下方式计算获取:
根据数据集D中第i类样本所占的比为(i=1,2,...,|y|)。
对于选定的最优候选特征子集A,根据其取值将数据集D分成了V个子集{Dl,D2,...,Dv],每个子集中的样本在最优候选特征子集A上取值相同,因此该最优候选特征子集A信息增益的计算方式如下所示:
其中,信息熵定义如下:
其中,信息增益越大,最优候选特征子集A包含的信息越多。
其中,该数据集D可包括预先采集的告警数据,具体可以包括训练样本集、测试集以及验证集。
在本申请实施例中,对于生成的每一个最优候选子集均可计算出其对应的信息增益,通过对该信息增益进行比较,可以获取信息增益最大的最优候选子集,并可将其作为后续对告警数据进行聚合的目标最优候选特征子集。
在步骤S130中,获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;
其中,该待分析告警数据可为当前实时获取到的告警数据。
在本申请一实施例中,所述根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集,包括:
按照预设关键信息,对所述待分析告警数据进行筛选;
根据所述最优候选子集中的告警特征,对筛选后的待分析告警数据进行聚合,以得到多个告警数据集。
其中,预设关键信息包括但不限于源IP、目的IP、目的端口。
将待分析告警数据按照源IP、目的IP、目的端口进行聚合等关键信息进行初步筛选,然后基于该最优候选子集中的告警特征,对筛选后的待分析告警数据进行聚合,以得到多个告警序列,从而将看似不同的告警,根据业务属性、应用场景等关联起来,使运维人员快速聚焦问题、快速排除故障。
其中,每个告警序列中的告警代表着从一个源IP到一个目标IP的攻击行为,攻击行为由一系列的特征向量所描述。可以理解的,该告警序列即为该告警数据集。
在一实施例中,所述对筛选后的待分析告警数据进行聚合,以得到多个告警数据集,包括:
确定初始均值向量;
计算所述筛选后的待分析告警数据中的每个告警数据与所述初始均值向量之间的距离,以得到距离所述告警数据最近的簇;
通过迭代计算,对所述初始均值向量进行更新,以得到更新的均值向量;
当所述更新的均值向量不在发生变化或者迭代次数达到最大值时,输出所述多个告警数据集。
其中,可采用半监督聚类方式对待分析告警数据进行聚合,以利用监督信息获得了更好的聚类告警特征聚类效果。
具体地,可从上述数据集D中获取到训练样本集以及/>,/>为有标记样本数据集,/>为无标记样本数据集,具体如下所示:
={(/>,/>),(/>,/>),...,(/>,/>)},/>个样本的类别标记为已知。
将={/>,/>,...,/>},/><=k,将k个样本标记为未知,弥补可能会遇到的/>训练样本不足的问题。
如图2所示,基于半监督学习的“流行假设”利用未标记样本进行聚类训练,由于待判别样本与正例样本通过未标记样本聚在一起,数据分布在一个流形结构上,邻近的样本拥有相似的输出值。
基于该训练样本集对聚类进行半监督的训练过程如下所示:
从上述训练样本集中随机选取w个样本作为初始均值向量{μ1,μ2,...,μw},计算样本与各均值向量的距离,找出与样本距离最近的簇。
迭代上述过程,在不同迭代轮数后的聚类结果经X轮选代后,均值向量不再发生变化(与第X-1轮选代相同),或者该X轮达到预设次数时,可得到最终聚类结果,具体如下所示:
={/>,/>,/>,/>,/>,/>}
={/>,/>,/>,/>,/>,/>}
={/>,/>,/>,/>,/>,/>,/>,/>}
其中,该为聚类后生成的告警数据集,该告警数据集可作为该告警序列。
在本申请实施例中,经过上述半监督学习的聚类算法,可以得到更好的聚类效果,然后可基于该聚类算法对实时获取到的待分析告警数据进行聚类,可提高对告警数据的聚类精度以及聚类效果。
在步骤S140中,对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。
在本申请实施例中,在获取到告警数据集后,可以对任意两两告警数据集之间进行相似度分析,找出与其他序列相似度较低的告警数据集,将这些告警数据集中的告警被设定为高危告警。
在本申请一实施例中,对所述告警数据集两两之间进行相似度分析,包括:
获取训练样本集,所述训练样本集包括正例样本数据以及未标记样本数据,
根据所述标记数据样本集以及未标记数据样本集,构建图一致性模型;
根据所述图一致性模型,计算所述告警数据集两两之间的相似度。
以上述训练样本集以及/>,构建图一致性模型,具体如图3所示,告警数据样本集中的每个样本对应图中一个结点,如果两个样本之间的相似度很高,则对应的结点之间存在一条边,边的“强度”与样本之间的相似度成正比。其中,图3中各结点对应的数字表示各样本的IP地址,例如为源IP地址以及目的IP地址。
其中,={(/>,/>),(/>,/>),...,(/>,/>)},/>个样本的类别标记为已知。
={/>,/>,...,/>},将k个样本标记为未知。
即,通过标记的样本数据以及未标记的样本数据,作为训练样本数据,对图一致性模型进行训练,实现了图的半监督学习,从而更易于通过矩阵运算进行告警相似度分析,可快速判断新样本在图中的位置,提升告警评估的准确率。
具体地,根据该以及/>,构建G=(V,E),结点集V={/>,...,/>,/>,...,/>}。
边集E基于高斯核函数定义如下:
其中,i,j∈{1,2,...,m},б>0为高斯核函数的宽度参数。
设定对角矩阵D=diag(,/>,...,/>),矩阵的对角元素定义如下:
设定非负矩阵,第i行元素为标记向量。则该矩阵F初始化如下:
其中,非负矩阵Y的前l行则是有标记样本的标记向量。
基于边集W构造标记传播矩阵A=,其中/>=diag(/>),迭代计算公式如下:
;
其中,α∈(0,1)为设定的告警相似度阈值。
基于如上进行迭代计算,迭代直至收敛可得出未标记样本的预测结果,公式如下所示:
=/>
输入数据为:
有标记样本集={(/>,/>),(/>,/>),...,(/>,/>)}
未标记样本集={/>,/>,...,/>}
构图参数б
折中参数α
计算过程:
基于高斯核函数和参数б得到边集W
基于W构造标记传播矩阵A
根据边集W初始非负矩阵F(0);
t=0;
Repeat
t=t+1
until 选代收敛至F*
for i=+1,/>+2,...,/>+u do
end for
输出:未标记样本的预测结果。
通过上述过程进行相似度分析,可分析得出每个顶点的度不相同,且存在度为0的顶点,度为0的顶点和度比较低的顶点,对应的告警数据集与其他的序列的相似度非常低,因此研判这些序列中包含的告警具有更高的威胁程度。
通过标记的样本数据以及未标记的样本数据构建该图一致性模型,并通过该图一致性模型对聚合后的告警数据集进行相似性判断,可以更好的帮助安全运营人员更准确地定位到具有高威胁的安全告警,提升告警评估的准确率。
在本申请中,还可以通过余弦相似度等方式确定不同告警数据集之间的相似度,以得到该高危告警。
在本申请实施例中,当确定高危告警后,可以对该高危告警进行可视化展示,以便安全运营人员可以更加直观的、且准确地定位到具有高威胁的安全告警,并及时对高危告警进行处理。
进一步,该高危告警可实时根据最新确定的高危告警进行更新并展示,或者可以根据高危告警的紧急程度进行展示,当存在多条高危告警时,可采用滚动方式,在告警显示屏中循环展示,以便及时对高危告警进行处理。
在本申请一实施例中,获取研判分析得到的高危告警后,可以对该高危告警的准确性进行检测,并根据检测结果,对特征提取算法进行调整,例如提取的特征向量的类型和数量、分类器参数等,以提高特征提取的准确度,进一步提升研判分析的准确率。
上述基于半监督学习的DDoS攻击告警研判方法,包括:对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。本申请实施例中,基于聚类假设、高斯核函数、图半监督等方法进行协同训练,将半监督学习与安全告警领域联系起来,能更容易地用于多视图数据,可以有效的研判出高危告警,提升告警评估的准确率,有效解决了海量安全告警研判的性能。且通过特征选择与半监督聚类的方法,利用监督信息获得了更好的聚类告警特征聚类效果。通过图半监督学习的方式,更易于通过矩阵运算进行告警相似度分析,可快速判断新样本在图中的位置,提升告警评估的准确率。同时实现了对海量DDoS攻击告警的快速聚类和研判,根据最终的训练结果可帮助安全运营人员更准确地定位到具有高威胁的安全告警。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于半监督学习的DDoS攻击告警研判装置,该基于半监督学习的DDoS攻击告警研判装置与上述实施例中基于半监督学习的DDoS攻击告警研判方法一一对应。如图4所示,该基于半监督学习的DDoS攻击告警研判装置包括特征提取单元10、特征选择单元20、告警聚合单元30和研判分析单元40。各功能模块详细说明如下:
特征提取单元10,用于对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;
特征选择单元20,用于分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;
告警聚合单元30,用于获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;
研判分析单元40,用于对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。
在一实施例中,特征选择单元20,还用于:
按照预设寻优顺序,依次对每个所述候选特征子集进行评价,以获取所述最优候选特征子集。
在一实施例中,特征选择单元20,还用于:
选取第一目标候选特征子集作为选定集;
将所述候选特征集合中的第二目标候选特征子集加入至所述选定集中,以作为第一特定集,所述第一特定集优于所述选定集;
将所述候选特征集合中的第三目标候选特征子集加入至所述第一特定集中,以作为第二特定集,当所述第二特定集不如所述第一特定集时,将所述第一特定集作为第一最优候选特征子集。
在一实施例中,特征选择单元20,还用于:
计算所述第一最优候选特征子集的信息增益;
通过所述信息增益对所述第一最优候选特征子集进行评价。
在一实施例中,告警聚合单元30还用于:
按照预设关键信息,对所述待分析告警数据进行筛选;
根据所述最优候选子集中的告警特征,对筛选后的待分析告警数据进行聚合,以得到多个告警数据集。
在一实施例中,告警聚合单元30还用于:
确定初始均值向量;
计算所述筛选后的待分析告警数据中的每个告警数据与所述初始均值向量之间的距离,以得到距离所述告警数据最近的簇;
通过迭代计算,对所述初始均值向量进行更新,以得到更新的均值向量;
当所述更新的均值向量不在发生变化或者迭代次数达到最大值时,输出所述多个告警数据集。
在一实施例中,研判分析单元40还用于:
获取训练样本集,所述训练样本集包括正例样本数据以及未标记样本数据,
根据所述标记数据样本集以及未标记数据样本集,构建图一致性模型;
根据所述图一致性模型,计算所述告警数据集两两之间的相似度。
本申请实施例中,基于聚类假设、高斯核函数、图半监督等方法进行协同训练,将半监督学习与安全告警领域联系起来,能更容易地用于多视图数据,可以有效的研判出高危告警,提升告警评估的准确率,有效解决了海量安全告警研判的性能。且通过特征选择与半监督聚类的方法,利用监督信息获得了更好的聚类告警特征聚类效果。通过图半监督学习的方式,更易于通过矩阵运算进行告警相似度分析,可快速判断新样本在图中的位置,提升告警评估的准确率。同时实现了对海量DDoS攻击告警的快速聚类和研判,根据最终的训练结果可帮助安全运营人员更准确地定位到具有高威胁的安全告警。
关于基于半监督学习的DDoS攻击告警研判装置的具体限定可以参见上文中对于基于半监督学习的DDoS攻击告警研判方法的限定,在此不再赘述。上述基于半监督学习的DDoS攻击告警研判装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端设备,其内部结构图可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质。该可读存储介质存储有计算机可读指令。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于半监督学习的DDoS攻击告警研判方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现如上述基于半监督学习的DDoS攻击告警研判的步骤。
一种可读存储介质,可读存储介质存储有计算机可读指令,计算机可读指令被处理器执行时实现如上述基于半监督学习的DDoS攻击告警研判的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于半监督学习的DDoS攻击告警研判方法,其特征在于,所述方法,包括:
对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;
分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;
获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;
对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。
2.如权利要求1所述的基于半监督学习的DDoS攻击告警研判方法,其特征在于,所述分别对所述候选特征子集进行特征选择,以获取最优候选特征子集,包括:
按照预设寻优顺序,依次对每个所述候选特征子集进行评价,以获取所述最优候选特征子集。
3.如权利要求2所述的基于半监督学习的DDoS攻击告警研判方法,其特征在于,所述对每个所述候选特征子集进行评价,包括:
选取第一目标候选特征子集作为选定集;
将所述候选特征集合中的第二目标候选特征子集加入至所述选定集中,以作为第一特定集,所述第一特定集优于所述选定集;
将所述候选特征集合中的第三目标候选特征子集加入至所述第一特定集中,以作为第二特定集,当所述第二特定集不如所述第一特定集时,将所述第一特定集作为第一最优候选特征子集。
4.如权利要求3所述的基于半监督学习的DDoS攻击告警研判方法,其特征在于,所述将所述第一特定集作为第一最优候选特征子集,包括:
计算所述第一最优候选特征子集的信息增益;
通过所述信息增益对所述第一最优候选特征子集进行评价。
5.如权利要求1所述的基于半监督学习的DDoS攻击告警研判方法,其特征在于,所述根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集,包括:
按照预设关键信息,对所述待分析告警数据进行筛选;
根据所述最优候选子集中的告警特征,对筛选后的待分析告警数据进行聚合,以得到多个告警数据集。
6.如权利要求5所述的基于半监督学习的DDoS攻击告警研判方法,其特征在于,所述对筛选后的待分析告警数据进行聚合,以得到多个告警数据集,包括:
确定初始均值向量;
计算所述筛选后的待分析告警数据中的每个告警数据与所述初始均值向量之间的距离,以得到距离所述告警数据最近的簇;
通过迭代计算,对所述初始均值向量进行更新,以得到更新的均值向量;
当所述更新的均值向量不在发生变化或者迭代次数达到最大值时,输出所述多个告警数据集。
7.如权利要求1所述的基于半监督学习的DDoS攻击告警研判方法,其特征在于,所述对所述告警数据集两两之间进行相似度分析,包括:
获取训练样本集,所述训练样本集包括正例样本数据以及未标记样本数据,
根据所述标记数据样本集以及未标记数据样本集,构建图一致性模型;
根据所述图一致性模型,计算所述告警数据集两两之间的相似度。
8.一种基于半监督学习的DDoS攻击告警研判装置,其特征在于,所述装置,包括:
特征提取单元,用于对各个原始告警数据进行特征提取,以获取候选特征集合,所述候选特征集合包括多个候选特征子集;
特征选择单元,用于分别对所述候选特征子集进行特征选择,以获取最优候选特征子集;
告警聚合单元,用于获取待分析告警数据,并根据所述最优候选子集中的告警特征,对所述待分析告警数据进行聚合,以得到多个告警数据集;
研判分析单元,用于对所述告警数据集两两之间进行相似度分析,确定相似度低于预设相似度阈值的目标告警数据集,将所述目标告警数据集中的告警作为高危告警。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1-7任一项所述的基于半监督学习的DDoS攻击告警研判方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7任意一项所述基于半监督学习的DDoS攻击告警研判方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311148079.8A CN116886448B (zh) | 2023-09-07 | 2023-09-07 | 一种基于半监督学习的DDoS攻击告警研判方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311148079.8A CN116886448B (zh) | 2023-09-07 | 2023-09-07 | 一种基于半监督学习的DDoS攻击告警研判方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116886448A true CN116886448A (zh) | 2023-10-13 |
CN116886448B CN116886448B (zh) | 2023-12-01 |
Family
ID=88272084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311148079.8A Active CN116886448B (zh) | 2023-09-07 | 2023-09-07 | 一种基于半监督学习的DDoS攻击告警研判方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116886448B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107231258A (zh) * | 2017-06-01 | 2017-10-03 | 国网电子商务有限公司 | 一种网络告警数据处理方法及装置 |
US20180219887A1 (en) * | 2017-01-30 | 2018-08-02 | Microsoft Technology Licensing, Llc | Continuous learning for intrusion detection |
US20200118036A1 (en) * | 2018-10-15 | 2020-04-16 | Oracle International Corporation | Automatic feature subset selection using feature ranking and scalable automatic search |
CN113434859A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 入侵检测方法、装置、设备及存储介质 |
CN114185744A (zh) * | 2021-12-14 | 2022-03-15 | 平安付科技服务有限公司 | 告警信息聚合方法、装置、监控***及存储介质 |
CN114461792A (zh) * | 2021-12-24 | 2022-05-10 | 阿里巴巴(中国)有限公司 | 告警事件关联方法、装置、电子设备、介质及程序产品 |
CN115600195A (zh) * | 2021-06-28 | 2023-01-13 | 深信服科技股份有限公司(Cn) | 一种web攻击检测方法、装置、设备及可读存储介质 |
CN116010221A (zh) * | 2023-02-14 | 2023-04-25 | 支付宝实验室(新加坡)有限公司 | 告警处理方法及装置 |
CN116136897A (zh) * | 2023-02-21 | 2023-05-19 | 支付宝实验室(新加坡)有限公司 | 信息处理方法以及装置 |
-
2023
- 2023-09-07 CN CN202311148079.8A patent/CN116886448B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180219887A1 (en) * | 2017-01-30 | 2018-08-02 | Microsoft Technology Licensing, Llc | Continuous learning for intrusion detection |
CN107231258A (zh) * | 2017-06-01 | 2017-10-03 | 国网电子商务有限公司 | 一种网络告警数据处理方法及装置 |
US20200118036A1 (en) * | 2018-10-15 | 2020-04-16 | Oracle International Corporation | Automatic feature subset selection using feature ranking and scalable automatic search |
CN115600195A (zh) * | 2021-06-28 | 2023-01-13 | 深信服科技股份有限公司(Cn) | 一种web攻击检测方法、装置、设备及可读存储介质 |
CN113434859A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 入侵检测方法、装置、设备及存储介质 |
CN114185744A (zh) * | 2021-12-14 | 2022-03-15 | 平安付科技服务有限公司 | 告警信息聚合方法、装置、监控***及存储介质 |
CN114461792A (zh) * | 2021-12-24 | 2022-05-10 | 阿里巴巴(中国)有限公司 | 告警事件关联方法、装置、电子设备、介质及程序产品 |
CN116010221A (zh) * | 2023-02-14 | 2023-04-25 | 支付宝实验室(新加坡)有限公司 | 告警处理方法及装置 |
CN116136897A (zh) * | 2023-02-21 | 2023-05-19 | 支付宝实验室(新加坡)有限公司 | 信息处理方法以及装置 |
Non-Patent Citations (1)
Title |
---|
陈红;郭躬德;: "一种新的双重融合的半监督特征选择算法", 小型微型计算机***, no. 08, pages 134 - 138 * |
Also Published As
Publication number | Publication date |
---|---|
CN116886448B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914256B (zh) | 一种机器学习训练数据受投毒攻击的防御方法 | |
CN110505241B (zh) | 一种网络攻击面检测方法及*** | |
CN111783442A (zh) | 入侵检测方法、设备和服务器、存储介质 | |
Shukla et al. | On-device malware detection using performance-aware and robust collaborative learning | |
CN112491796A (zh) | 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法 | |
Zhang et al. | Flip: A provable defense framework for backdoor mitigation in federated learning | |
Chaganti et al. | Image-based malware representation approach with EfficientNet convolutional neural networks for effective malware classification | |
CN110445766B (zh) | DDoS攻击态势评估方法及装置 | |
CN113904795B (zh) | 一种基于网络安全探针的流量快速精确检测方法 | |
Haas et al. | Efficient attack correlation and identification of attack scenarios based on network-motifs | |
Hegazy | Tag Eldien, AS; Tantawy, MM; Fouda, MM; TagElDien, HA Real-time locational detection of stealthy false data injection attack in smart grid: Using multivariate-based multi-label classification approach | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN117061254B (zh) | 异常流量检测方法、装置和计算机设备 | |
Ibrahim et al. | Modeling an intrusion detection using recurrent neural networks | |
CN116886448B (zh) | 一种基于半监督学习的DDoS攻击告警研判方法以及装置 | |
CN116737850A (zh) | Apt实体关系预测的图神经网络模型训练方法 | |
Yao et al. | A two-layer soft-voting ensemble learning model for network intrusion detection | |
Firmansyah et al. | Evaluation of naive bayes, random forest and stochastic gradient boosting algorithm on ddos attack detection | |
CN111431909B (zh) | 用户实体行为分析中分组异常检测方法及装置、终端 | |
Dhingra et al. | Detection of denial of service using a cascaded multi-classifier | |
Zhu et al. | Mandera: Malicious node detection in federated learning via ranking | |
Saikam et al. | EESNN: hybrid deep learning empowered spatial-temporal features for network intrusion detection system | |
CN114679327B (zh) | 网络攻击等级确定方法、装置、计算机设备和存储介质 | |
Alagrash et al. | Malware Detection via Machine Learning and Recognition of Non Stationary Tasks | |
CN114615056B (zh) | 一种基于对抗鲁棒性学习的Tor恶意流量检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |