CN114726589A

CN114726589A - 一种报警数据融合方法

Info

Publication number: CN114726589A
Application number: CN202210267375.9A
Authority: CN
Inventors: 陶星宇; 黄义杰; 高翔; 肖华
Original assignee: Jiangsu Paienjie Network Security Co ltd; Nanjing Polytechnic Institute
Current assignee: Jiangsu Paienjie Network Security Co ltd; Nanjing Polytechnic Institute
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-07-08

Abstract

本发明公开了一种报警数据融合方法，将获得的报警数据预处理为预设的格式即所有报警序列根据预设的时间差合并为报警时间窗集合；将子时间窗集合进行多种属性相似度计算；将计算出的多种属性相似度，带入预设的判断矩阵，计算出判断矩阵的特征值以及对应的特征向量，将达到预设的相似度阈值的子时间窗集合的报警数据进行融合，然后输入到融合数据集；若未达到预设的相似度阈值的子时间窗集合则直接输入到融合数据集；将所有子时间窗集合的融合数据集组成精简警报数据集输出。本发明能够对报警数据中普遍存在大量冗余或者误报的报警，找出关键的安全事件的问题。

Description

一种报警数据融合方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种报警数据融合方法。

背景技术

随着网络安全威肋、不断增加，对入侵检测领域的研究己经成为整个计算机科学领域的研究热点。入侵检测从最早提出发展到现在，各类检测技术在不断发展及成熟，例如有基于检测机制的、基于检测数据源的检测技术等。相关产品种类也日益丰富，有基于主机的、网络的IDS以及分布式IDS等。除此之外，国内外研究学者也对入侵检测方法进行了大量的研究。传统安全防护体系对在大量报警的处理上效率低下、错误率高且容易忽略关键报警信息。报警融合技术的提出是为了减少IDS产生的报警数据中的冗余报警和误报警，为下一阶段的报警关联分析提供有价值的报警数据。报警融合技术主要是通过将高相

似度的报警数据进行合并，以减少冗余和误报的报警数据。

发明内容

1.所要解决的技术问题：

针对上述技术问题，本发明提供一种报警数据融合方法，对攻击事件产生大量报警数据中重复、低级别的数据的属性进行相似度计算，采

2.技术方案：

一种报警数据融合方法，其特征在于：将获得的报警数据预处理为预设的格式即所有报警序列；将所有报警序列根据报警时间进行划分，将时间差小于预设的间隔阈值的前一个报警划分到前一个时间窗口i-1内；如果时间差大于等于预设的间隔阈值，则将该警报划分至下一个报警时间的始点得到现在的子时间窗口i；基于此，将所有报警序列划分为n个子时间窗集合，n个子时间窗集合合并为报警时间窗集合；

将子时间窗集合进行多种属性相似度计算；所述属性相似度包括IP地址、端口号、检测发生时间以及攻击类型相似度的计算；将计算出的多种属性相似度，带入预设的判断矩阵，计算出判断矩阵的特征值以及对应的特征向量，并求出其最大特征值及其对应的特征向量；将达到预设的相似度阈值的子时间窗集合的报警数据进行融合，然后输入到融合数据集；若未达到预设的相似度阈值的子时间窗集合则直接输入到融合数据集；

将所有子时间窗集合的融合数据集组成精简警报数据集输出。

进一步地，所述预处理为具体包括对原始数据集提取报警数据的关键属性；根据入侵检测消息交换格式将原始数据的格式转换成统一序列得到所有报警序列；所述关键属性包括特征字符串、报警类别、报警日期、报警时间戳、源IP、源端口、目的IP和目的端口。

进一步地，所述属性相似度计算中对IP地址相似度计算为：

(1)式中，l为存在多个连续相同的位数，ε为预设的IP相似度阈值；l为多个连续相同的位数的数目，l∈[1，32]；

端口相似度计算为：

(2)式中，alert port表示端口号，alert1.Port为端口号为1的端口号；

检测发生时间相似度为：

(3)式中，Tmin为预设报警时间最小阈值，Tmax为预设报警时间最大阈值，其中TimeInterval＝alert1.t ime-alert2.time，即为两个连续报警时间差；

攻击类型相似度计算为：

(4)式中，alert.type表示报警的类型。

进一步地，所述预设的判断矩阵为A＝(a_ij)_n*n，其中a_ij为预设的关键属性i对相似度j的重要性，具体为[1，9]区间的整数，其中数字1，3，5，7，9分别表示权重为一样重要、较重要、重要、很重要和绝对重要，2，4，6，8是介于上述两个相邻判断的中间。

3.有益效果：

本发明的一种报警数据融合方法，针对报警数据中普遍存在大量冗余或者误报的报警，难以从中找出关键的安全事件的问题，借助结合权重分析和时间划分的数据融合技术，提出一种报警数据融合方法。针对报警数据的属性之间存在一定的联系，每个属性字段的相对重要性也不一样，即利用属性相似度计算方法代替谱聚类中传统的相似度度量方法来构造报警数据间的相似度矩阵，可以维持报警数据间的联系下实现更好地的聚类。该方法可以在不破坏报警之间的联系的情况下实现更好地聚类融合，减少信息缺失，又能在提高融合率的同时，降低了报警数据的误报率。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明进行具体的说明。

如附图1所示，一种报警数据融合方法，其特征在于：将获得的报警数据预处理为预设的格式即所有报警序列；将所有报警序列根据报警时间进行划分，将时间差小于预设的间隔阈值的前一个报警划分到前一个时间窗口i-1内；如果时间差大于等于预设的间隔阈值，则将该警报划分至下一个报警时间的始点得到现在的子时间窗口i；基于此，将所有报警序列划分为n个子时间窗集合，n个子时间窗集合合并为报警时间窗集合。

当端口遭到DoS攻击，会在短时间内产生大量相同或者类似的报警，一般来说，同一完整持续攻击下引发报警时间间隔较短，分布集中，通过上述方法能够将同一攻击事件与不同攻击事件引发的报警进行有效划分。

计算属性相似度时，由于数值类型的属性不同导致其表达的含义存在较大差异性，所以需要采用多种相似度计算方法来对不同的属性进行计算，被计算相似度的属性有四种，分别为IP地址、端口号、检测发生时间以及攻击类型。

进一步地，所述属性相似度计算中对IP地址相似度计算为：

(1)式中，l为存在多个连续相同的位数，ε为预设的IP相似度阈值；l为多个连续相同的位数的数目，l∈[1，32]。

l作用是为了权衡两个IP地址是否属于同一子网的概率，若两个IP地址在同一子网，具有较大相似度，则l的值越大，证明受到的攻击来自同一攻击源或者同一攻击目标，同一攻击源源IP地址相似，同一攻击目标IP相似。

端口相似度计算为：

(2)式中，alert port表示端口号，alert1.Port为端口号为1的端口号。如果端口号相同，相似度为1，反之则为0。

检测发生时间相似度为：

(3)式中，Tmin为预设报警时间最小阈值，Tmax为预设报警时间最大阈值，其中TimeInterval＝alert1.t ime-alert2.time，即为两个连续报警时间差。通过两条报警时间差来进行时间属性相似度的计算。

攻击类型相似度计算为：

(4)式中，alert.type表示报警的类型。如果攻击类型相同，相似度为1，反之则为0。

进一步地，所述预设的判断矩阵为A＝(a_ij)_n*n，其中a_ij为预设的关键属性i对相似度j的重要性，具体包括[1，9]区间的整数，其中数字1，3，5，7，9分别表示权重为一样重要、较重要、重要、很重要和绝对重要，2，4，6，8是介于上述两个相邻判断的中间。

虽然本发明已以较佳实施例公开如上，但它们并不是用来限定本发明的，任何熟习此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

Claims

1.一种报警数据融合方法，其特征在于：将获得的报警数据预处理为预设的格式即所有报警序列；将所有报警序列根据报警时间进行划分，将时间差小于预设的间隔阈值的前一个报警划分到前一个时间窗口i-1内；如果时间差大于等于预设的间隔阈值，则将该警报划分至下一个报警时间的始点得到现在的子时间窗口i；基于此，将所有报警序列划分为n个子时间窗集合，n个子时间窗集合合并为报警时间窗集合；

2.根据权利要求1所述的一种报警数据融合方法，其特征在于：所述预处理为具体包括对原始数据集提取报警数据的关键属性；根据入侵检测消息交换格式将原始数据的格式转换成统一序列得到所有报警序列；所述关键属性包括特征字符串、报警类别、报警日期、报警时间戳、源IP、源端口、目的IP和目的端口。

3.根据权利要求1所述的一种报警数据融合方法，其特征在于：所述属性相似度计算中对IP地址相似度计算为：

(1)式中，l为存在多个连续相同的位数，ε为预设的IP相似度阈值；l为多个连续相同的位数的数目，l∈[1,32]；

端口相似度计算为：

检测发生时间相似度为：

攻击类型相似度计算为：

(4)式中，alert.type表示报警的类型。

4.根据权利要求1所述的一种报警数据融合方法，其特征在于：所述预设的判断矩阵为A＝(a_ij)_n*n，其中a_ij为预设的关键属性i对相似度j的重要性，具体为[1，9]区间的整数，其中数字1，3，5，7，9分别表示权重为一样重要、较重要、重要、很重要和绝对重要，2，4，6，8是介于上述两个相邻判断的中间。