CN107454084B

CN107454084B - 基于杂交带的最近邻入侵检测算法

Info

Publication number: CN107454084B
Application number: CN201710678826.7A
Authority: CN
Inventors: 江泽涛; 韩立尧
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2020-06-02
Anticipated expiration: 2037-08-10
Also published as: CN107454084A

Abstract

本发明公开了一种基于杂交带的最近邻入侵检测算法，包括如下步骤：步骤1 数据预处理，对收集到的原始数据去掉其中重复的，不完整的数据来降低训练检测模型的时间；步骤2 生成检测对象的感知哈希摘要，将预处理后的数据进行数值化和归一化成为标准数据，将每一条数据的不同属性值相加，生成一段感知哈希摘要；步骤3 生成检测子集合，将感知哈希摘要做向下取整，然后将所有具有相同感知哈希摘要的训练样本构建一个检测集合；步骤4 在相同感知哈希的入侵检测对象构建的集合上构建杂交带；步骤5 对检测对象做投票分类，加快入侵检测速度。采用本发明的技术方案可以提高入侵检测速度，并且随着测试数据的增大，速度的提高的效果会越发显著。

Description

基于杂交带的最近邻入侵检测算法

技术领域

本发明涉入侵检测领域中的网络入侵检测算法，具体涉及一种基于杂交带的最近邻入侵检测算法。

背景技术

入侵检测是保证计算机***安全的重要防线，当前的入侵检测中存在误报率高，漏报率高，检测速度低等问题。使得当前的入侵检测***很难适应高速网络环境的要求。因此，为了提高入侵检测的速度，降低入侵检测***的漏报率和误报率等问题，需要选择合适的入侵检测算法在提高检测率的同时降低入侵检测带来的***开销。近年来，入侵检测领域也取得了不错的研究成果，主要是将模式识别的相关算法引入到了入侵检测中。常用来做入侵检测的算法包括决策树算法，贝叶斯分类算法，支持向量机算法，神经网络算法，粗糙集和理论和模糊集合理论。上述这些方法主要是在训练集合上建立适当的模型，然后在测试集合上做相应的测试。虽然在测试集合上取得了很好的效果，但是检测的过程需要耗费大量的时间，使得入侵检测***很难达到当前实时性的要求。因此如何提高入侵检测***的检测率，降低漏报率和误报率同时提高入侵检测***的检测效率一直是学术界和工业界研究的热点和重点。

现有技术的不足：

1)为了提高入侵检测***的检测率，需要建立复杂的属性模型。同时需要对模型的参数做相应的调整。但是建立复杂的模型需要大量的相关专家知识，同时建模的时间长，***开销大。在入侵检测***建立的初期需要耗费大量的时间来建立模型，这无疑为***的安全造成了隐患。

2)唐成华提出了采用特征选择的方法来降低入侵检测计算的开销。但是由于检测对象在训练集合和测试集合上的分布不均匀，很容易对***的检测率造成影响。

3)采用粗糙集来描述检测对象能很好的表达对象与不同集合之间的隶属度关系。通过加权可以动态调整入侵检测***的漏报率和误报率，从而来满足当前入侵检测的需要。然而要为不同的集合赋予不同的权重需要大量的相关知识，从而增加了***的复杂度。

发明内容

针对现有技术的不足，本发明所解决的问题是如何解决网络入侵检测过程中，由于建模数据和测试数据分布不完全相同造成的概念漂移，同时建模需要大量的专家知识问题。

为解决上述技术问题，本发明采用的技术方案是一种基于杂交带的最近邻入侵检测算法，包括如下步骤：

步骤1数据预处理，对收集到的原始数据去掉其中重复的，不完整的数据来降低训练检测模型的时间。

步骤2生成检测对象的感知哈希摘要，将预处理后的数据进行数值化和归一化成为标准数据，将每一条数据的不同属性值相加，生成一段感知哈希摘要；

所述感知哈希摘要根据公式

hash(x)＝(h_i,j·W)/N (1)

将入侵检测对象转换而成，其中：

h_i,j代表在检测对象组成的集合x中的第i个样本的第j个分量；

W是该分量在转换成为感知哈希摘要的时候的每一维度上分量的权重；

N为确定感知哈希摘要生成子集的大小的影响因子；

所述W权重的确定采用逻辑回归算法，计算训练集合中每一个维度对最终分类的影响因子。

步骤3生成检测子集合，将感知哈希摘要做向下取整，然后将所有具有相同感知哈希摘要的训练样本构建一个检测集合；

步骤4在相同感知哈希摘要的入侵检测对象组成的集合上构建杂交带，对生成的若干个检测集合，根据公式

计算子集合内的样本间的相似度；

如果两个样本的感知哈希值相同并且它们的相似度大于阈值θ，但是这两个样本属于不同的攻击类型，则将它们加入到杂交带集合中；

阈值测评值是指在选取某一个阈值θ下的检测率与误报率的比值，以T_DS表示阈值测评值，则

T_DS_θ＝DR_θ/FR_θ (3)其中：

θ表示建立杂交带时选定的阈值；

DR_θ表示选定阈值θ的检测率；

FR_θ表示选定阈值θ下的误报率。若在某一个阈值下检测率越高，误报率越低，其阈值测评值越大，则分类能力越好；

步骤5对检测对象做投票分类，加快入侵检测速度；入侵检测阶段，计算检测对象感知哈希值，使用该感知哈希值对应的集合中的杂交带中的样本对检测对象做投票分类；如果杂交带中的对象无法完成投票分类，则使用该集合中的非杂交带中的样本做投票分类来加快入侵检测速度。

采用本发明的技术方案可以提高入侵检测速度，并且随着测试数据的增大，速度的改进效果会越发显著。

附图说明

图1为本发明的流程图；

图2为训练集合去重前后的结果；

图3为对不同类型攻击的检测；

图4为不同小样本分类器的比较；

图5为本发明对不同类型的攻击的检测时间。

具体实施方式

下面结合附图和实施例对本发明的具体实施方式作进一步的说明，但不是对本发明的限定。

图1示出了本发明的流程，一种基于杂交带的最近邻入侵检测算法，包括如下步骤：

所述感知哈希摘要根据公式

hash(x)＝(h_i,j·W)/N (1)

将入侵检测对象转换而成，其中：

N为确定感知哈希摘要生成子集的大小的影响因子；

计算子集合内的样本间的相似度；

T_DS_θ＝DR_θ/FR_θ (3)其中：

θ表示建立杂交带时选定的阈值；

DR_θ表示选定阈值θ的检测率；

图2展示出了对训练样本做数据预处理后的相关结果，训练样本中存在大量的DOS攻击，但是U2R类型的攻击只有52条样本。在样本数量严重失衡的情况下，本发明对于U2R类型的攻击的检测率仍然可以维持在60％。对于R2L类型的攻击的数量为999，本发明的检测率可以达到98.05％。

图3示出了本方法对不同类型的攻击的检测结果。其中本方法对于DOS攻击，PROBE攻击和R2L类型的攻击具有很好的检测效果。

图4示出了不同类型小样本分类器的比较结果，清楚显示了本发明在做小样本分类的时候优势明显。其原因在于：

NB算法的准确率依赖于在训练集样本上先验概率的获取，同时需要保证训练样本与测试样本中入侵检测对象在特征空间中分布的一致性。

SVM方法则侧重通过核方法将原始空间线性不可分的样本投影到高维空间变得线性可分，当训练的样本数量少且样本特征维度高的时候很容易造成梯度***的问题从而严重影响了分类器的性能。

DT算法在训练集上建立决策规则，在训练样本少的前提下建立的决策规则很难刻画测试集合中的检测对象。然而杂交带上的分类则避免了上述分类器中存在的问题，并且杂交带近邻分类器的建模时间只与比较样本个数有关。从而在测试时间和分类准确率上明显优于其他分类器。

图5示了选择了10w，30w，50w，100w四种规模的数据对算法进行了性能测试。其中曲线1为对正常连接的检测情况，曲线2为对整个网络连接的检测情况，曲线3为对DOS攻击的检测情况，曲线4为对U2R类型的攻击的检测情况。从图中可以看出检测的时间随着检测样本的规模的增大而增大。本发明在异常入侵检测所需要的时间为1e-6s，正常检测需要的时间为1e-3，同时可以看出检测到***入侵所需要的时间仅仅是检测到正常状态的1/100。主要原因在于正常对象在特征空间中的分布比较集中，需要在杂交带上做近似度计算，从而保证较高的检测率和较低的误报率。因此可以看出本发明可以满足当前实时性的要求。且对于异常行为具有较高的敏感性。

以上结合附图对本发明的实施方式做出了详细说明，但本发明不局限于所描述的实施方式。对于本领域技术人员而言，在不脱离本发明的原理和精神的情况下，对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

Claims

1.一种基于杂交带的最近邻入侵检测算法，其特征在于：包括如下步骤：

步骤1数据预处理，对收集到的原始数据去掉其中重复的，不完整的数据来降低训练检测模型的时间；

计算子集合内的样本间的相似度；

2.根据权利要求1所述的基于杂交带的最近邻入侵检测算法，其特征在于：步骤2中，所述感知哈希摘要根据公式

hash(x)＝(h_i,j·W)/N (1)

将入侵检测对象转换而成，其中：

N为确定感知哈希摘要生成子集的大小的尺度因子。

3.根据权利要求2所述的基于杂交带的最近邻入侵检测算法，其特征在于：所述W权重的确定采用逻辑回归算法，计算训练集合中每一个维度对最终分类的影响因子。

4.根据权利要求1或2所述的基于杂交带的最近邻入侵检测算法，其特征在于：步骤4中，阈值测评值是指在选取某一个阈值θ下的检测率与误报率的比值，以T_DS表示阈值测评值，则

T_DS_θ＝DR_θ/FR_θ (3)

其中：

θ表示建立杂交带时选定的阈值；

DR_θ表示选定阈值θ的检测率；

FR_θ表示选定阈值θ下的误报率；若在某一个阈值下检测率越高，误报率越低，其阈值测评值越大，则分类能力越好。