CN113010884B

CN113010884B - 一种入侵检测***中的实时特征过滤方法

Info

Publication number: CN113010884B
Application number: CN202110200444.XA
Authority: CN
Inventors: 张清华; 李新太; 高满; 庞国弘; 赵凡
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2022-08-26
Anticipated expiration: 2041-02-23
Also published as: CN113010884A

Abstract

本发明属于数据挖掘领域，具体涉及一种入侵检测***中的实时特征过滤方法，该方法包括：周期性获取入侵检测数据，对获取的数据进行预处理；提取预处理后入侵检测数据的特征，计算t时刻流入***特征与目标决策类的相关性数值；将计算出的相关性数值与设定的阈值进行比较，根据比较结果对入侵检测数据执行不同的策略；本发明针对不同特征采取不同的特征执行策略，进一步对不满足“高相关”特征准则的，采用特征互补检测策略，可以使得模型选择更多有价值的特征，提升模型的分类精度。

Description

一种入侵检测***中的实时特征过滤方法

技术领域

本发明属于数据挖掘领域，具体涉及一种入侵检测***中的实时特征过滤方法。

背景技术

随着信息技术、网络技术和生物科学等领域的发展，出现了越来越多的入侵检测***数据，而如何在庞大、复杂、繁多的入侵检测***数据中获取有价值的信息是当前研究的重点与难点。一方面，海量数据可以让用户更好地理解事物，为数据分析与判断提供了基础；另一方面，高维数据中包含了许多重要的信息，但是该信息存在冗余、无关以及干扰信息，使得在进行数据挖掘时，会出现很多问题。当数据的特征维度超过一定值后，分类器性能会随着数据维度的增加而降低，当数据的特征维度高达一定值时，就会引发“维数灾难”，如下图1所示。

为了避免维数灾难，挖掘出入侵检测***数据中的有效信息，需要降低数据维度，而特征选择便是维数约简中一种常用且有效的方法。特征选择是通过去除数据集中不相关和冗余的信息来获得最优特征子集的过程。而对于传统的特征选择方法中，需要提前收集入侵检测的特征数据进行离线处理，然后进行数据挖掘与知识获取。而在现实实际应用场景下，入侵检测***中的特征数据随着时间的不断推移，以流的形式到达，特征数量不断增加，特征空间持续变化。因此，如何在入侵检测***中实现实时特征过滤，即在线流特征选择，具有重要作用。

目前，在进行线流特征选择过程中，采用粗糙集理论对数据的相关性进行处理；通过关系数据库分类归纳形成概念和规则，通过不分明关系的分类以及分类对于目标的近似实现知识发现。在目前基于粗糙集理论的在线流特征选择研究方法中，方法的主要框架主分为两个阶段：(1)在线相关性分析阶段：主要分析当前时刻新流入的特征与目标决策类之间的相关性，从而达到去除不相关特征的目的；(2)在线冗余性分析阶段：主要分析当前时刻新特征流入以后，目前选择的特征集合中是否存在冗余特征，利用属性约简策略对当前集合中进行冗余特征的剔除；以上的步骤，使得在实时动态特征流的过程中得到一个高相关、低冗余的特征子集。

目前的研究方法中，在线相关性分析阶段为满足“高相关”特征准则，对于新流入的特征不符合该准则的采取剔除策略，即不再使用该新特征。“高相关”特征准则是利用当前时刻选择的特征集合，通过计算每一个特征与目标决策类之间的相关性，对所有计算得到的相关性数值进行求和取平均，然后将该平均值作为下一轮新流入的特征是否可以进入第二阶段的基线。虽然在一定程度上，“高相关”特征准则可以每次选择与目标决策类高度相关的特征，但却忽略了特征互补的优势。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种入侵检测***中的实时特征过滤方法，该方法包括：周期性获取入侵检测数据，对获取的数据进行预处理；提取预处理后入侵检测数据的特征，计算t时刻流入***特征与目标决策类的相关性数值；将计算出的相关性数值与设定的阈值进行比较，根据比较结果对入侵检测特征数据执行不同的策略；所述不同的策略包括：对高于设定阈值的入侵特征数据进行属性约简策略；对低于设定阈值的入侵检测特征数据进行特征互补检测策略；所述设定的阈值为t-1时刻流入***特征集合中每个特征数据与目标决策类的相关性数值的均值。

优选的，获取的入侵检测数据包括：访问***敏感文件和目录的次数、用户访问次数以及访问控制文件的次数。

优选的，对数据进行预处理的过程包括剔除特殊值数据值、对数据进行标准化处理、对数据进行归一化处理以及数据拆分处理，将归一化后的入侵检测数据转换为决策信息表。

优选的，提取预处理后入侵检测数据特征的过程包括：对于获取的入侵检测数据进行初步特征选择，去掉取值变化较小的特征；即在样本数据下所有实例对象中一个特征对应唯一一个数值，当样本数据中的一个离散型特征下所有实例对象的取值均为0时，则不能对该特征进行分类，则认为该特征无效，直接剔除该特征，重新等待新数据特征的流入；否则为有效特征数据，进入特征分流的过程。

优选的，设定阈值的过程包括：

S1：获取入侵检测数据集，对该数据集进行预处理，得到训练集；

S2：周期性提取训练集中数据的特征信息，并将每一周期保留的特征信息进行集合，得到当前时刻的特征集；

S3：计算特征集中每个特征与目标决策类的相关性数值，然后对所有的相关性数值进行求和取平均值，将该平均值作为初始阈值。

进一步的，计算每个特征与目标决策类的相关性数值的过程包括：

步骤1：采用欧氏距离公式计算样本数据中实例对象x_i与其余对象在特征子集S下的距离，对得到的距离进行由近到远的排序，得到实例对象x_i下排序后的距离集合N_B(x_i)＝<x_(i，1)，x_(i，2)，...，x_(i，j),...,x_(i,n-1)>；

步骤2：根据排序后的距离集合N_B(x_i)确定实例对象x_i的拐点x_(i,k)，将对象x_i到对象x_(i,k)之间的样本作为x_i的邻域；

步骤3：根据对象x_i的邻域对x_i进行划分，若对象x_i与邻域内对象的目标决策类标签一致，则对象x_i划分到正域，否则划分为边界域；

步骤4：重复上述步骤1-3，直到样本数据中的所有实例对象都分别被划分到正域或边界域为止；

步骤5：根据上述得到的正域实例对象集合POS_S(D)，计算在特征集合S下，特征集合S与决策目标类D的相关性数值：；即

其中|·|表示一个集合的基数，|POS_S(D)|表示在特征集合S下划分到正域的实例对象个数，|U|表示所有对象实例的总个数。

进一步的，确定对象x_i的拐点过程包括：在排序后的距离集合N_B(x_i)中计算实例对象x_i与其他实例对象之间的密度值，由于距离集合N_B(x_i)的对象之间满足Δ(x_i,x_(i,1))≤Δ(x_i,x_(i,2))≤...≤Δ(x_i,x_(i,j))≤...≤Δ(x_i,x_(i,n-1))，则密度值计算公式为Density(x_i,x_(i,k))＝Δ(x_i,x_(i,k))/k，寻找第一次出现密度值呈下降趋势的实例对象x_(i，k)，该对象x_(i,k)为对象x_i的拐点。

优选的，执行属性简约策略的过程包括：

步骤1：将新流入的特征f添加到特征集合S中，同时计算此时在特征集合S∪f下与目标决策类D之间的相关性数值

步骤2：根据特征集合中的每个特征与目标决策类之间的相关性数值进行降序排序，并从前往后依次删除每个特征，计算删除该特征后，剩余特征与目标决策类之间的相关性数值，得到与γ_{S∪f}(D)之间的差值，记为θ；

步骤3：判断θ值的大小，如果满足θ等于0，则删除该特征，否则保留该特征。

优选的，执行特征互补检测策略的过程包括：

步骤1：计算特征集合S与目标决策类D之间的相关性数值γ_before，计算公式为：

步骤2：将新流入的特征f添加到特征集合S中，计算此时特征集合S∪f与目标决策类之间的相关性数值γ_after，计算公式为

步骤3：如果满足γ_after大于γ_before的条件，则保留该新流入的特征，否则删除该特征。

本发明的优点：

1、采用本发明的方法可以在入侵检测***实时环境下进行特征过滤，从而可以帮助用户对实时过滤的特征进行更好地评估与考察。

2、本发明针对不同特征采取不同的特征执行策略，进一步对不满足“高相关”特征准则的，采用特征互补检测策略，可以使得模型选择更多有价值的特征，提升模型的分类精度。

附图说明

图1为本发明的特征维数与分类器性能的关系图；

图2为本发明的实时特征过滤方法流程图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种入侵检测***中的实时特征过滤方法，该方法包括：周期性获取入侵检测数据，对获取的数据进行预处理；提取预处理后入侵检测数据的特征，计算t时刻流入***特征与目标决策类的相关性数值；将计算出的相关性数值与设定的阈值进行比较，根据比较结果对入侵检测特征数据执行不同的策略；所述不同的策略包括：对高于设定阈值的入侵特征数据进行属性约简策略；对低于设定阈值的入侵检测特征数据进行特征互补检测策略；所述设定的阈值为t-1时刻流入***特征集合中每个特征数据与目标决策类的相关性数值的均值。

一种入侵检测***中的实时特征过滤方法的具体实施例，如图2所示，该方法为：实时获取入侵检测数据，对获取的数据进行预处理；提取预处理后入侵检测数据的特征，计算t时刻新流入特征与目标决策类之间的相关性数值，将该值记为A；计算t-1时刻的特征集合中每个特征与目标决策类之间的相关性数值的均值，将该值记为B；判断A与B的大小，当A大于等于B时，则采用后向搜索属性约简技术剔除冗余特征，并移除t时刻内特征集合中冗余的特征，输出t时刻符合要求的特征集合；当A小于B时，则采用特征互补检测策略进行特征筛选，若筛选后的总体特征集合的相关性指标提升，则输出t时刻符合要求的特征集合，否则移除新流入的特征；当没有新特征流入***时，结束***。

从企业的数据库中周期性采集入侵检测***的数据，所述入侵检测***的数据包括：访问***敏感文件和目录的次数、用户访问次数以及访问控制文件的次数等等。

对数据进行预处理的过程包括对特殊值进行数据剔除处理、对数据进行标准化处理、对数据进行归一化处理、和数据拆分处理等，将归一化后的入侵检测数据转换为决策信息表＜U,C，D＞，其中，U＝{x₁，x₂，...,x_n}表示样本集合，C＝{f₁,f₂,...,f_m}表示条件特征集合，D表示目标决策类集合。

可选的，本发明选取四列数据进行分析，其中生成的决策信息表如下表所示：

表1决策信息表

其中U＝{x₁,x₂，...x₈}，C＝{f₁,f₂,f₃,f₄}，D＝{d}＝{-1,1}，且“1”代表正常，“-1”代表异常。

计算每个时间戳的决策信息，计算的表达式为：

S_t＝(U,{C_t|t＝1，2，...，m}∪D,V,f)

其中，t表示每个时间戳，

表示领域问题中所有对象的集合，称为论域，N_t表示对象的个数；

表示在每个t时间戳下的特征集合，M_t表示特征的个数，D表示目标决策类集合，V表示每一特征的值域，f：U×A→V是一个信息函数，对每一个对象的每一个属性赋予一个信息值，且A＝C∪D。

在实时特征过滤过程中，每个新特征随着每个时间戳依次流入，但论域中的对象个数不变，即t′＞t，M_t′＞M_t，而N_t＝N_t′。为满足入侵检测***特征实时产生的过程，在每个t时刻依次读取信息***的每个特征数据。

计算每个新流入特征与目标决策类之间的相关性。为了计算相关性数值，引入一种通过密度获得邻域的方法。假定N_B(x_i)表示对象x_i所有的邻域在特征子集B由距离从近到远的排序N_B(x_i)＝<x_(i,1),x_(i，2)，...，x_(i,j),...,x_(i,n-1)>，定义对象x_i到邻域x_(i,k)的密度为Density(x_i,x_(i，k))，假定密度值第一次下降趋势则为拐点x_(i，k)，那么使用对象x_i到拐点x_(i，k)之间的样本作为x_i的邻域，即IP_B(x_i)＝{x_(i,1),x_(i,2),...,x_(i,k-1)}。其中计算密度的公式为：

其中，Δ(x_i,x_(i,k))表示对象x_i到其余对象之间的距离。

得到每个对象的邻域样本后，对其计算得到属于下近似集的样本集合。给定一个邻域近似空间

对于

X有关于邻域关系R的上下近似集分别定义为：

和

下近似集也称为正域，表示为POS(x)。

然后每个新流入特征与目标决策类之间的相关性。给定

B对D的相关程度定义为相关性，即γ_B(D)＝|POS_B(D)|/|U|。

在t₁时刻，流入特征为f₁；首先在特征f₁下计算x₁的邻域，分别计算x₁到x_i(i≠1)之间的所有距离，计算该距离公式为：

根据对象之间的距离对对象进行由近到远的排序，得到

对

进行密度计算，即Density(x₁,x₂)＝2/1＝2，Density(x₁,x₃)＝1，那么x₃为第一个拐点，则x₁的密度邻域为IP_B(x₁)＝{x₂}。以上述相同的方法分别计算出每个对象x_i(i＝1,...,8)的邻域关系，从而得到在特征f₁下与目标决策类D之间的相关性为

对于第一次新流入的特征，因为当前时刻选择的集合为空集，所以直接保留，即在t₁时刻，特征集合为C₁＝{f₁}。

执行特征互补检测策略的具体过程包括：在t₂时刻，流入特征f₂，计算特征f₂的相关性数值为

对于前一时刻的选择的特征集合C，计算特征集合C下的每一个特征的相关性数值，然后进行求和取平均，将该平均值作为特征分流的基线。此时，计算特征集合的平均相关性，其公式为：

由于

则表示特征f₂不满足“高相关”特征准则，所以特征f₂采取特征互补检测策略，即加入该特征f₂以后，相关性数值是否是增加的趋势。加入特征f₂，此时C₂＝{f₁,f₂}，计算此时C₂特征集合下与目标决策类D的之间的相关性数值为

与原始的特征集合C₁相比，没有提升，即

所以特征f₂剔除。即在t₂时刻，特征集合为C₂＝{f₁}。在t₃时刻，流入特征f₃，计算特征f₃的相关性数值为

因满足“高相关”特征准则，即

则对于特征f₃采取属性约简策略。

执行属性简约策略的具体过程包括：给定一个信息***S_t＝(U,C∪D,V,f)，子集C和D分别表示条件属性集和决策属性集，对于

如果A是C的一个约简，则需要满足以下条件：

γ(A，D)＝γ(C，D)

其中，γ(.)表示属性集合与目标决策类之间的相关性数值，A表示条件属性集的约简集合，C表示条件属性集，D表示决策属性集，A′表示任意属性。

在此阶段，利用后向搜索的策略进行约简，先将此时特征集合的按照相关性进行降序排序，得到C₃＝{f₃，f₁}；计算在C₃集合下的相关性，得到

删除特征f₁，整体的相关性变为0.5，并保留特征f₁；利用相同方法对f₃进行删除，得到的相关性有变化，为0.3958，保留特征f₃。即在t₃时刻，特征集合为C₃＝{f₃,f₁}。

在t₄时刻，流入特征f₄，计算特征f₄的相关性数值为

当前特征集合C₃下的平均相关性值为

因f₄满足“高相关”特征准则，所以采取属性约简策略。以相同的方式按照每一特征与目标决策类之间的相关性进行降序排序，得到C₄＝{f₄,f₃,f₁}，

通过后向约简策略得到删除C₄集合中的任一特征，相关性都有所变化，分别为

和

此时所有的特征均不删除。在t₄时刻，得到的特征集合为C₄＝{f₁,f₃,f₄}。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种入侵检测***中的实时特征过滤方法，其特征在于，包括：周期性获取入侵检测数据，对获取的数据进行预处理；提取预处理后入侵检测数据的特征，计算t时刻流入***特征与目标决策类的相关性数值；将计算出的相关性数值与设定的阈值进行比较，根据比较结果对入侵检测特征数据执行不同的策略；所述不同的策略包括：对高于设定阈值的入侵特征数据进行属性约简策略；对低于设定阈值的入侵检测特征数据进行特征互补检测策略；所述设定的阈值为t-1时刻流入***特征集合中每个特征数据与目标决策类的相关性数值的均值；

计算每个特征与目标决策类的相关性数值的过程包括：

步骤1：采用欧氏距离公式计算样本数据中实例对象x_i与其余对象在特征子集S下的距离，对得到的距离进行由近到远的排序，得到实例对象x_i下排序后的距离集合N_B(x_i)＝＜x_(i,1),x_(i,2),...,x_(i,j),...,x_(i,n-1)＞；

确定对象的拐点的过程包括：在排序后的距离集合N_B(x_i)中计算实例对象x_i与其他实例对象之间的密度值，由于距离集合N_B(x_i)的对象之间满足Δ(x_i,x_(i,1))≤Δ(x_i,x_(i,2))≤...≤Δ(x_i,x_(i,j))≤...≤Δ(x_i,x_(i,n-1))，则密度值计算公式为Density(x_i,x_(i,k))＝Δ(x_i,x_(i,k))/k，寻找第一次出现密度值呈下降趋势的实例对象x_(i,k)，该对象x_(i,k)为对象x_i的拐点；

步骤5：根据上述得到的正域实例对象集合POS_S(D)，计算在特征集合S下，特征集合S与决策目标类D的相关性数值；即

其中|·|表示一个集合的基数，|POS_S(D)|表示在特征集合S下划分到正域的实例对象个数，|U|表示所有对象实例的总个数；

执行属性约简策略的过程包括：

步骤3：判断θ值的大小，如果满足θ等于0，则删除该特征，否则保留该特征；

执行特征互补检测策略的过程包括：

其中，|POS_S(D)|表示在特征集合S下划分到正域的实例对象个数，|U|表示所有对象实例的总个数；

2.根据权利要求1所述的一种入侵检测***中的实时特征过滤方法，其特征在于，获取的入侵检测数据包括：访问***敏感文件和目录的次数、用户访问次数以及访问控制文件的次数。

3.根据权利要求1所述的一种入侵检测***中的实时特征过滤方法，其特征在于，对数据进行预处理的过程包括剔除特殊值数据值、对数据进行标准化处理、对数据进行归一化处理以及数据拆分处理，将归一化后的入侵检测数据转换为决策信息表。

4.根据权利要求1所述的一种入侵检测***中的实时特征过滤方法，其特征在于，提取预处理后入侵检测数据特征的过程包括：对于获取的入侵检测数据进行初步特征选择，去掉取值变化较小的特征；即在样本数据下所有实例对象中一个特征对应唯一一个数值，当样本数据中的一个离散型特征下所有实例对象的取值均为0时，则不能对该特征进行分类，则认为该特征无效，直接剔除该特征，重新等待新数据特征的流入；否则为有效特征数据，进入特征分流的过程。

5.根据权利要求1所述的一种入侵检测***中的实时特征过滤方法，其特征在于，设定阈值的过程包括：

S3：计算特征集中每个特征与目标决策类的相关性数值，对所有的相关性数值进行求和取平均值，将该平均值作为初始阈值。