CN101866402B

CN101866402B - 基于免疫多目标约束的否定选择入侵检测方法

Info

Publication number: CN101866402B
Application number: CN2010101880829A
Authority: CN
Inventors: 公茂果; 刘芳; 焦李成; 张伟; 王爽; 马文萍; 刘若辰; 李阳阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2010-05-31
Filing date: 2010-05-31
Publication date: 2012-02-08
Anticipated expiration: 2030-05-31
Also published as: CN101866402A

Abstract

本发明公开了一种基于免疫多目标约束的否定选择入侵检测方法，主要用于解决现有技术中检测器耗费大和分布不合理的问题。其实现步骤为：(1)产生初始检测器集合，设置运行参数和终止条件；(2)对检测器集合进行克隆繁殖操作；(3)对检测器集合进行克隆变异操作；(4)合并父代和子代检测器集合；(5)计算个体检测器覆盖率；(6)计算个体检测器交叠区域；(7)保留精英检测器；(8)构造非支配检测器集合；(9)对检测器集合进行修剪操作；(10)判断终止条件；(11)测试待测数据，统计检测率和虚警率。本发明能够用更少的检测器覆盖更大面积的异常区域，有效提高了入侵检测检测率，可用于网络环境中对数据的检测。

Description

基于免疫多目标约束的否定选择入侵检测方法

技术领域

本发明属于网络技术领域，涉及网络安全，也是人工免疫***在网络安全领域中的应用，具体的说是一种基于免疫多目标约束的否定选择入侵检测方法，可用于网络环境中对数据的检测。

背景技术

伴随着信息时代的到来，电子商务，电子政务以及网络广泛应用于人们的日常生活中，人类进入了信息化社会。然而在各领域得益于网络间急剧膨胀的信息量、开放的资源、共享的信息时，***数据的安全性也必然受到严重的威胁。如今我们常用的安全技术主要有防火墙、防病毒软件、用户认证、加密技术以及入侵检测***。其中，入侵检测***是一套实时监控计算机***中发生的事件，并能按照一定规则进行安全审计的软件或硬件***。而这些事件主要包括内部攻击、外部攻击和误用操作。

根据检测数据，入侵检测可以分成主机型和网络型。主机型的入侵检测***主要是通过审计分析主机数据来检测攻击，而网络型入侵检测***则担负着保护一个网段的任务，其检测数据来源于网络上的原始数据包。根据检测技术，入侵检测***可以分为误用检测和异常检测。其中，误用检测是通过对已知的入侵行为的建模来检测新的用户行为。这种方法产生的误检率很小，但是需要不断的更新攻击特征库，***适应性较差。而异常检测是对正常行为建模，所有不符合这个模型的行为都被怀疑为攻击行为。其操作方法是先在一定时期内收集计算机***中的正常操作数据，建立正常行为的模型库。然后在收集实时数据，并通过一定的规则检验当前行为是否偏离了正常行为的模式。这种方法的误检率较高，但是可以在没有特定先验知识的情况下检测出未知攻击行为，***适应性较高。目前异常检测的方法主要有：统计方法神经网络、阈值检测和人工免疫等。

随着对入侵检测技术研究的深入，学者们发现生物免疫***与入侵检测***具有相似性：免疫***保护生物体免受外来病原体的侵害，正如入侵检测***保护计算机免受外来入侵行为的侵害；它们都需要在不断变化的环境中维持***的稳定性。生物免疫***中分布的、灵活的、自适应的和鲁棒的解决方式正是计算机安全领域所期望得到的。

1994年，美国University of New Mexico的Forrest等人首次提出基于免疫耐受机的模型，即否定选择算法，并首次应用于入侵检测***中。否定选择算法只需要用正常样本作为先验知识，类似于异常检测的方法。否定选择算法主要基于生物免疫***中自己非己的识别机制，根据免疫***中胸腺T细胞成熟过程建模。若任一胸腺T细胞检测到自己样本，则停止分化，失去最终成为成熟T细胞的资格。同样，在否定选择算法中只有从未检测到正常样本的检测器才有可能发展成为一个成熟的检测器，并用来检测外来样本。免疫机制使未出现过的入侵行为仍然可以被检测到，且敏感性更高，反应更快。就其发展而言，否定选择算法从二进制表现型发展到实数表现型，匹配准则也相应的从rcb匹配准则发展到欧氏距离匹配准则，检测器的表示形式也从固定大小模式发展到可变大小的模式。

在工程应用中，为了更有效的检测异常行为，对否定选择算法的期望主要有：1、生成的检测器集合能够尽可能多的覆盖异常区域，以便提高检测的准确性；2、尽可能减少所需要的检测器个数，减少资源的消耗。然而这两个期望是相互矛盾的，增加异常区域的覆盖率必然引起检测器个数的增加。在2003年，Fabia Gonzalez用单目标优化模拟退火的方法实现了固定大小检测器的分布优化，可使固定数目的检测器获得较优的分布，尽可能的满足工程应用中的期望，提高了算法效率。然而对于可变大小的检测器，每一个检测都由中心和半径两个要素组成，且每个要素都影响着检测器的分布情况，因此单目标优化算法已经难以满足优化分布的需要，造成可变大小检测器在数目一定的情况下分布不均，覆盖不全面，继而造成检测率无法有效的提高。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于免疫多目标约束的否定选择入侵检测方法，以实现在保证检测数目一定的前提下，优化检测器分布情况，使其均匀分布，满足工程应用中的期望，从而提高检测率。

实现本发明目的的技术思路是：提取计算机主机或网络***中的正常操作进程数据作为训练样本，建立正常样本模型库并以此来生成初始检测器集合，通过多目标约束优化的方法，合理规划检测器的分布状况，提高检测效率。其技术方案包括以下步骤：

(1)用原始实值否定选择方法产生初始检测器集合，作为父代检测器集合，并设置运行参数以及终止条件，其中运行参数主要包括：正常样本的半径r_s∈[0，0.1]、最高迭代次数time∈[0，50]、控制基因

和期望覆盖率c₀≥90％；

(2)对父代检测器集合进行克隆繁殖操作；

(3)对克隆繁殖后的检测器集合进行克隆变异操作，形成子代检测器集合；

(4)对父代检测器集合和子代检测器集合进行合并；

(5)计算合并后检测器集合中所有个体检测器d的覆盖率：f₁(d)＝Cov(d)；

(6)计算合并后检测器集合中所有个体检测器d与检测器集合中其它个体检测器的最大交叠区域：f₂＝Φ-Lap(d)，其中Φ为一个极大值；

(7)在合并后的检测器集合中寻找个体检测器中心向量未被其它任一检测器所覆盖的个体检测器，称为精英检测器

并保留；

(8)根据pareto支配关系判断检测器集合中除精英检测器

以外的个体检测器之间的支配关系，找出所有pareto支配关系中非支配的个体检测器组成非支配检测器集合，更新检测器集合；

(9)根据初始化中设定的控制基因对检测器集合进行修剪操作，当迭代次数小于控制基因时，修剪掉拥有最大交叠程度的个体检测器；当迭代次数大于控制基因时，修剪掉拥有最小体积的个体检测，当检测器种群的规模满足规定大小n时停止修剪，得到新一轮的父代检测器集合；

(10)根据初始化中设定的终止条件判断当前检测器集合是否满足终止条件，若满足则停止迭代循环执行步骤(11)，否则返回步骤(2)，直到满足终止条件为止；

(11)利用已生成的检测器集合测试输入的待测数据，根据欧式距离匹配准则判断输入数据是否异常，并统计检测率和虚警率。

本发明与现有技术相比具有如下优点：

(1)检测器覆盖率更高交叠区域更小，其分布更能满足工程应用的期望。

在否定选择入侵检测中，每一个检测器都有两个元素构成：中心和半径。这两个元素共同影响着检测器的分布情况，从而也权衡着入侵检测的检测率和效率之间的关系。现有原始实值否定选择入侵检测方法中，检测率越高对应着检测器数目的增加，导致效率低下。本发明将检测器集合的覆盖率和检测器之间的交叠区域看做两个目标函数，它们分别影响着入侵检测的检测率和效率，并通过约束多目标的方法对其进行优化组合，从而可以在两个矛盾的目标函数中选择一个平衡点，即覆盖率更高且交叠区域更小的检测器集合。因此当检测器数目固定在一个较小的值时，本发明同样可以通过约束多目标优化的思想找到一个合理的分布使检测器集合的覆盖率近似最大化，以此提高入侵检测的检测率，从而满足检测率和效率之间的不平衡关系。

(2)对实际高维数据集在大幅度减少检测器资源的耗费的同时，也能使检测率稳定提高。

由于实际高维数据的复杂性，现有原始实值否定选择入侵检测方法为了提高对实际高维数据的检测率，只能通过增加检测器数目这一种途径，这样就导致了对于高维复杂数据，为了达到期望的覆盖率，检测器数目将会急剧增多，资源耗费急剧增大。然而，此时大部分检测器只提供了很少的一部分有效的覆盖面积，即检测器的大部分区域与已有检测器交叠，因此严重降低了入侵检测方法的效率，浪费了***资源。

本发明通过对有限个数检测器位置及大小的优化，得到期望的覆盖率，而非单纯的增加检测器个数。根据多目标优化的方法，检测器之间的交叠程度明显减少，每一个检测器的有效覆盖区域可以近似最大化。因此不论是高维实际数据还是低维人工数据，本发明在可以在有效的节省资源消耗的情况下，稳定提高入侵检测的检测率。

附图说明

图1是本发明的流程图；

图2是本发明关于二维五角星数据集的检测器优化前后分布对比图；

图3是本发明关于二维梳型数据集的检测器优化前后分布对比图；

图4是本发明关于二维五角星数据的检测率统计图；

图5是本发明关于二维梳型数据的检测率统计图；

图6是本发明关于KDD数据30组测试数据的检测率统计对比图。

具体实施方式

参照图1，本发明针对实际应用中的网络数据，在一定的时间内统计网络中的正常行为数据。每一个正常的行为都由一组特征向量表示，并且组成距常样本的中心向量c_s，正常样本的半径r_s则根据正常样本复杂度和操作者的经验来人为确定，且始终保持恒定，与正常样本类似，每一个检测器d都由一个中心向量c和半径r表示。其具体检测步骤包括如下：

步骤1、设置检测终止条件和运行参数，产生初始检测器集合。

首先，采用限定迭代次数和规定检测器集合的期望覆盖率二者的混合形式作为终止条件；

接着，设定检测运行参数，主要包括正常样本的半径r_s∈[0，0.1]、最高迭代次数time∈[0，50]、初始检测器集合规模n、控制基因

和期望覆盖率c₀≥90％；

然后，根据实值否定选择算法中欧氏距离匹配规则，产生初始的检测器集合，作为父代检测器集合，其产生方法是：随机生成一个检测器的中心向量c，根据欧氏距离匹配规则来判断是否被正常样本所覆盖，即判断检测器中心向量c到任一正常样本中心向量c_s的距离是否小于该正常样本的半径r_s，若小于则判断为覆盖，否则判断为未覆盖；若被覆盖则舍弃该检测器，并重新生成新的检测器中心向量，否则计算该检测器中心向量到离其最近的一个正常样本中心向量的欧氏距离dis，则该检测器的半径可定义为r＝dis-r_s，直到候选检测器数目达到初始检测器集合规模n，初始化过程结束，此时父代检测器集合可表示为：

D_t(c，r)＝{d₁(c，r)，d₂(c，r)，…，d_n(c，r)}，t＝0，

其中n为检测器集合规模，d_k为第k个检测器。

步骤2、对父代检测器集合进行克隆繁殖操作。

在父代检测器集合D_t(c，r)的基础上，对其中的每一个检测器进行等比例的克隆繁殖操作，定义克隆检测器集合规模为n_c，则每一个检测器的复制个数为n_c/n，此时克隆检测器集合可以表示为：

D_{L} (c, r) = {d_{L 1} (c, r), d_{L 2} (c, r), . . ., d_{{Ln}_{c}} (c, r)},

其中d_Lk代表D_L(c，r)中第k个检测器。

步骤3、对克隆繁殖后的检测器集合进行克隆变异操作，形成子代检测器集合。

由于在检测器分布优化的问题中，检测器之间的交叠要尽可能的小，所以克隆变异操作是增加这种可能性的有效方法之一，针对问题的特殊性，对克隆繁殖后检测器集合D_L(c，r)的所有个体检测器的中心或半径在0～1范围内进行高斯扰动使其变异，该变异概率为100％，最终形成子代检测器集合，表示为：

D_{L}^{*} (c, r) = {d_{L 1}^{*} (c, r), d_{L 2}^{*} (c, r), . . ., d_{L n_{c}}^{*} (c, r)}

其中

代表

中第k个检测器。

步骤4、合并父代检测器集合和子代检测器集合。

为了保留父代检测集合的竞争力，将父代检测器集合与克隆变异后子代检测器集合进行合并，组成新的检测器集合，其规模为：N＝n+n_c，合并后的检测器集合可以表示为：

D_{T} (c, r) = {d_{1} (c, r), d_{2} (c, r), . . ., d_{N} (c, r)} = D_{t} (c, r) \cup D_{L}^{*} (c, r) .

步骤5、计算合并后检测器集合所有个体检测器d的覆盖率。

根据工程应用的需要和检测器分布优化问题的具体特性，本步骤将个体检测器d的覆盖率定义为第一个目标函数：f₁(d)＝Cov(d)，其中f₁是一个最大化问题，即希望得到最大的个体检测器覆盖率；

由于检测器生成的不确定性以及数据的复杂性，很难精确计算出检测器集合的覆盖面积，因此只能用统计采样的方法来估计，具体步骤为：

5a)根据假设检验的原理，假设初始检测器个数的上限为d_num，得到检测器集合所能达到的理论最大覆盖率p_max＝1-5/d_num；

5b)在规定区域内进行随机采样，并记录随机采样被已有检测器所覆盖的次数，采样次数m可由m＝{5/P，5/(1-p)}来确定；

5c)在进行m次采样试验中，若有次采样被已有检测器集合连续覆盖，则判定其满足期望覆盖率，其中α为置信区间，z_α可由正态分布表查得；

5d)若在当前采样试验中，仅有

次采样被连续覆盖，则当前的覆盖率为：

Cov (d) = \frac{\overset{&OverBar;}{y} - p_{\max}}{y} .

步骤6、计算合并后检测器集合中所有个体检测器d与检测器集合中其它个体检测器的最大交叠区域。

根据工程应用的需要和检测器分布优化问题的具体特性，本步骤将个体检测器d与检测器集合中其它个体检测器的最大交叠区域定义为第二个目标函数：f₂(d)＝Φ-Lap(d)，其中Φ为一个极大值，Lap(d)是一个最小化问题，即希望检测器之间的交叠区域最小，则此时f₂被转化成为一个最大化问题；

由于检测器生成的不确定性以及数据的复杂性，很难精确计算出检测器间的交叠区域，因此本发明用下述公式来近似第i个检测器和第j个检测器之间的交叠程度：

其中dim为中心向量的维数，f₂中的Lap(d)则表示检测器d与其余检测器交叠的最大值为：

Lap (d) = \max {Lap (d, d^{1}), Lap (d, d^{2}), . . ., Lap (d, d^{d_{num}})} .

步骤7、寻找并保留精英检测器。

为了防止检测器集合退化，则需要在每一次进化迭代中保留一部分“精英”检测器，所谓“精英”检测器是指拥有最大体积和最小交叠部分的检测器，但在每一代进化中严格符合这一要求的检测器只有一个，因此为了使精英保留策略更加合理，判断精英的限制条件被放宽，定义为：当检测器中心c未被其他任意检测器所覆盖时，则称该检测器为精英检测器，获得保留资格。

步骤8、找出所有pareto支配关系中非支配的个体检测器组成非支配检测器集合。

根据D_T(c，r)中个体检测器的目标函数值，pareto支配关系可以定义为：当且仅当d_A和d_B满足

&ForAll; i &Element; {1, . . ., k}, f_{i} (d_{A}) &GreaterEqual; f_{i} (d_{B})

时，称d_A支配d_B，记为d_A＞d_B，若不存在其他d＞d^*，则d^*即为非支配个体检测器；

对于pareto支配关系的判断独立存在于每一父代检测器及与其对应的克隆后子代检测器所组成的检测器集合中，这样的集合被称为当前检测器集合的一个子集，子集的个数与父代检测器集合中检测器的个数相等；

在每一个上述的子集中分别找到对应的非支配个体检测器，并最终将所有子集中的非支配个体检测器记录保存，得到非支配检测器集合：

D_{N} (c, r) = {d_{N 1} (c, r), d_{N 2} (c, r), . . ., d_{N N^{*}} (c, r)}

其中，N^*表示当前检测器集合的规模，且满足关系：n≤N^*≤N，其中d_Nk代表D_N(c，r)中第k个检测器。

步骤9、对检测器集合进行修剪操作。

非支配检测器集合D_N(c，r)的规模在通常情况下大于初始检测器种群的规模n，因此为了保持种群规模的不变性，需要修剪该非支配检测器集合；本方法中主要采用两个修剪策略，并根据控制基因的大小，在进化过程中选择不同的修剪策略，两种修剪策略的主要目的均是删除效用最小的检测器，即提供有效覆盖面积最小的检测器，控制基因为一个经验值，通常为

决定了对修剪策略的选择；

第一个修剪策略是：删除拥有最大交叠程度的检测器，检测器的交叠程度可以通过目标函数值中计算交叠的公式得到，当迭代次数小于控制基因时，则利用此修剪策略对检测器集合进行修剪，减少检测器集合中检测器的个数，通过此修剪策略，可以加快整个检测优化过程的收敛速度，但同样容易使检测器分布陷入局部最优；

第二个修检策略是：删除拥有最小体积的检测器，当迭代次数大于控制基因时，则利用此修剪策略对检测器集合进行修剪，减少检测器集合中检测器的个数，通过此修剪策略，检测器分布将会得到一个局部的扰动，增加了集合的多样性，可以防止检测器分布陷入局部最优，但同样也给整个检测器优化过程的收敛增加了难度；

因此为了平衡两种修剪策略的优势和劣势，控制基因起到关键作用，通常在检测器种群进化初期采用第一个修剪策略，加速种群收敛；在进化后期采用第二种修剪策略，给种群一个扰动，防止种群陷入局部最优，直到检测器种群的规模满足规定大小n时，修剪停止，修剪后的检测器集合可记为：

D_t+1(c，r)＝{d_(t+1)1(c，r)，d_(t+1)2(c，r)，…，d_(t+1)n(c，r)}，

此时检测器集合D_t+1(c，r)为新一轮迭代的父代检测器集合，其中d_(t+1)k代表D_t+1(c，r)中第k个检测器。

步骤10、判断当前检测器集合是否满足终止条件。

根据步骤1中所描述的终止条件对当前检测器集合进行判断，若满足则停止迭代循环执行步骤11，否则重复步骤2到步骤9，直到满足终止条件为止。

步骤11、用最终生成的检测器集合测试输入的待测数据，并统计本发明的检测率和虚警率。

通过步骤1到步骤10对检测器分布的优化，可得到成熟的检测器集合D_time(c，r)，其中time为最高迭代次数，此时根据步骤1中所用到的欧氏距离匹配规则对新输入的测试样本进匹配判断，若测试样本被任意检测器所覆盖，则认为其为“危险”样本，对应的行为则为疑似入侵行为，否则认为安全；

通过对一组测试样本的匹配判断，可以得到检测率和虚警率，对每一个测试样本将会有4种不同的检测结果：1)、样本是异常的，检测的结果也是异常的，称为正确肯定(tp)；2)、样本是异常的，检测器却未能检测出该样本，称为漏检(fh)；3)、样本是正常的，检测器也没有检测到该样本，称为正确否定(tn)；4)、样本是正常的，但却被检测为异常，称为虚检(fp)，通过对这4种情况的统计可以得到本发明对此次入侵检测的检测率和虚警率，表示为：

本发明的效果可以通过以下仿真实验说明：

在本部分实验中分别采用了人造二维数据以及来自KDD CUP 1999中的实际网络数据。

仿真一：对人造二维数据进行仿真试验，分别选取较简单的二维五角星数据集和较复杂的二维梳型数据集为例。仿真试验中具体的运行参数为：正常样本半径r_s＝0.04，最高迭代次数time＝20，期望检测器集合覆盖率c₀＝0.99，控制基因gene＝time/2＝10，覆盖率估计的置信区间α＝0.1。

图2和图3分别展示了上述两个数据集的检测器集合分布优化前后的对比结果，其中点域代表了正常样本，圆圈代表了检测器。从图2和图3可看出，本发明可以有效改善检测器集合分布情况，圆圈区域所展示的检测器通过优化其分布明显能够覆盖更大范围的正常样本以外的区域，且检测器交叠区域明显减少。

图4和图5则展示了本发明的方法(CMIA)与现有原始实值否定选择入侵检测方法(V-Detector)在同一检测器数目时，检测率随正常样本半径r_s变化的情况，检测器数目分别固定为20和70。从图4和图5统计情况可以看出本发明在最终的检测率上能取得稳定的提高。

实验二：KDD CUP 1999中的数据包含有大量的网络入侵数据和正常的网络通信数据。这些数据是由基于连接的网络通信数据构成的，每个记录都对应着一种网络连接。KDD数据包含有3935650个异常的链接向量，约占总数据的80.14％；以及972780个正常的链接向量，约占总数据的19.86％。

KDD数据中主要包含了4类异常数据：

a)DOS：服务终止，例如syn flood。约占异常连接的98.92％。

b)R2L：远程机器未经授权的访问，例如guessing password。约占异常连接的0.0286％。

c)U2R：未经授权的本地高级用户访问特权，例如缓冲期溢出攻击。约占异常连接的0.0013％。

d)Probing：监视和其它窥视，例如端口扫描。约占异常连接的1.05％。

具体仿真步骤如下：

(1)、KDD数据的预处理。

每个网络连接向量都是两个IP地址在某个时段网络信息包传递的一个序列。一个完整的记录包括38个连续的数字、3个符号和一个结束标记。结束标记记录了该行为属于攻击类型还是正常行为。例：

a)102，tcp，http，SF，181，5450，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，8，8，0，0，0，0，1，0，0，9，9，1，0，0.11，0，0，0，0，0，normal

表示一个HTTP服务的正常访问的链接向量。

b)0，icmp，ecr_i，SF，1032，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，511，511，0，0，0，0，1，0，0，255，255，1，0，1，0，0，0，0，0，smurf

表示一个服务终止攻击的链接向量。

为了使这些连接向量可以适用于本方法，必须预处理这些数据。首先，将可识别的符号字符映射称为对应的自然数，例如：icmp→0、tcp→1、udp→2、SF→7、http→19等。其次用最小最大化的方法将数据集进行归一化，规范到超立方体[0，1]⁴¹中。因此上述a)、b)可转化为：

a)0.001748701，0.5，0.275362319，0.7，2.61042E-07，4.1605E-06，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，0.015655577，0.015655577，0，0，0，0，1，0，0，0.035294118，0，0.035294118，1，0，0.11，0，0，0，0，0，0。

b)0，0，0.144927536，0.7，1.48837E-06，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，1，1，0，0，0，0，1，0，0，1，1，1，0，1，0，0，0，0，0，1。

(2)、试验参数设置及试验结果。

将预处理后的KDD向量数据任取10000组正常数据做训练数据，完成检测器的生成优化过程。然后将KDD数据随机分成30组测试数据，每一组测试数据中含有39256个异常数据，9727个正常数据。最后对30组测试数据分别进行检测，得出检测率和虚警率。

运行参数设置为：检测器最大规模n＝50；期望检测器集合覆盖率c₀＝0.99；正常样本半径r_s＝0.05；覆盖率估计的置信区间α＝0.1；最大进化代数为time＝50；控制基因为gene＝time/3＝10。

下面以第4组、第14组和第24组测试数据为代表，表1展示了第4组测试数据的检测率、虚警率和检测器个数，表2展示了第14组测试数据的检测率、虚警率和检测器个数，表3展示了第24组测试数据的检测率、虚警率和检测器个数。表中CMIA为本发明的方法，V-Detector为现有原始实值否定选择入侵检测的方法。为了保证对比测试条件公平，在这里固定检测器个数为50。

表1：第4组测试数据KDDtest_4

表2：第14组测试数据KDDtest_14

表3：第24组测试数据KDDtest_24

对于全部30组测试数据运行50次后的平均检测率如图5所示，图中两条曲线分别代表了本发明的方法CMIA和现有原始实值否定选择入侵检测方法V-Detector的检测率统计曲线。

(3)试验仿真结果分析。

根据表1、表2和表3可以看出，本发明可以对测试数据的检测率取得稳定的提高，但在虚警率方面没有现有原始实值否定选择入侵检测的方法优秀。然而在实际应用中，网络里高的安全系数是更为被关注的，是否能检测到异常行为是入侵检测的根本，因此检测率的提高更被看重。

从图5可见，本发明对30组测试数据的检测率均能有较稳定的提高，但同时可见，不同的测试数据之间检测率仍有较大的差异。原因是在训练过程中仅利用972780组正常数据中的10000组数据进行训练，所以当测试数据与训练数据特性偏离较大时很难得到最满意的检测率。在实际应用中通过对训练数据的增加，将会有效改善测试效果。

Claims

1.一种基于免疫多目标约束的否定选择入侵检测方法，包括如下步骤：

(1)用原始实值否定选择方法产生初始检测器集合，作为父代检测器集合，并设置运行参数以及终止条件：

1a)采用限定迭代次数和规定检测器集合的期望覆盖率二者的混合形式作为终止条件；

1b)设定检测运行参数，主要包括正常样本的半径r_s∈[0，0.1]、最高迭代次数time∈[0，50]、初始检测器集合规模n、控制基因和期望覆盖率

c₀≥90％；

1c)根据实值否定选择算法中欧氏距离匹配规则，产生初始的检测器集合，作为父代检测器集合，其产生方法是：随机生成一个检测器的中心向量c，根据欧氏距离匹配规则来判断是否被正常样本所覆盖，即判断检测器中心向量c到任一正常样本中心向量c_s的距离是否小于该正常样本的半径r_s，若小于则判断为覆盖，否则判断为未覆盖；若被覆盖则舍弃该检测器，并重新生成新的检测器中心向量，否则计算该检测器中心向量到离其最近的一个正常样本中心向量的欧氏距离dis，则该检测器的半径可定义为r＝dis-r_s，直到候选检测器数目达到初始检测器集合规模n，初始化过程结束，此时父代检测器集合表示为：

D_t(c，r)＝{d₁(c，r)，d₂(c，r)，…，d_n(c，r)}，t＝0，其中n为检测器集合规模，

d_k为第k个检测器；

(2)对父代检测器集合进行克隆繁殖操作，即在父代检测器集合D_t(c，r)的基础上，对其中的每一个检测器进行等比例的克隆繁殖操作，定义克隆检测器集合规模为n_c，则每一个检测器的复制个数为n_c/n，此时克隆检测器集合可以表示为：

D_{L} (c, r) = {d_{L 1} (c, r), d_{L 2} (c, r), . . ., d_{{Ln}_{c}} (c, r)},

其中d_Lk代表D_L(c，r)中第k个检测器；

(3)对克隆繁殖后的检测器集合进行克隆变异操作，形成子代检测器集合，即对克隆繁殖后检测器集合D_L(c，r)的所有个体检测器的中心或半径在0～1范围内进行高斯扰动使其变异，该变异概率为100％，最终形成子代检测器集合，表示为：

D_{L}^{*} (c, r) = {d_{L 1}^{*} (c, r), d_{L 2}^{*} (c, r), . . ., d_{L n_{c}}^{*} (c, r)},

其中

代表

中第k个检测器；

(4)对父代检测器集合和子代检测器集合进行合并，即将父代检测器集合与克隆变异后子代检测器集合进行合并，组成新的检测器集合，其规模为：N＝n+n_c，合并后的检测器集合可以表示为：

D_{T} (c, r) = {d_{1} (c, r), d_{2} (c, r), . . ., d_{N} (c, r)} = D_{t} (c, r) \cup D_{L}^{*} (c, r);

(5)计算合并后检测器集合所有个体检测器d的覆盖率，将个体检测器d的覆盖率定义为第一个目标函数：f₁(d)＝Cov(d)，其中f₁是一个最大化问题，即希望得到最大的个体检测器覆盖率，具体步骤为：

5c)在进行m次采样试验中，若有

y = \sqrt{{mp}_{\max} (1 - p_{\max})} (z_{α} + \sqrt{\frac{{mp}_{\max}}{1 - p_{\max}}})

次采样被已有检测器集合连续覆盖，则判定其满足期望覆盖率，其中α为置信区间，z_α可由正态分布表查得；

5d)若在当前采样试验中，仅有

次采样被连续覆盖，则当前的覆盖率为：

Cov (d) = \frac{\overset{&OverBar;}{y} - p_{\max}}{y};

(6)计算合并后检测器集合中所有个体检测器d与检测器集合中其它个体检测器的最大交叠区域，将个体检测器d与检测器集合中其它个体检测器的最大交叠区域定义为第二个目标函数：f₂(d)＝Φ-Lap(d)，其中Φ为一个极大值，Lap(d)是一个最小化问题，即希望检测器之间的交叠区域最小，则此时f₂被转化成为一个最大化问题，用下述公式来近似第i个检测器和第j个检测器之间的交叠程度：

Lap (d) = \max {Lap (d, d^{1}), Lap (d, d^{2}), . . ., Lap (d, d^{d_{num}})};

(7)在合并后的检测器集合中寻找个体检测器中心向量未被其它任一检测器所覆盖的个体检测器，称为精英检测器并保留；

(8)找出所有pareto支配关系中非支配的个体检测器组成非支配检测器集合，根据D_T(c，r)中个体检测器的目标函数值，pareto支配关系可以定义为：当且仅当d_A和d_B满足

时，称d_A支配d_B，记为d_A＞d_B，若不存在其他d＞d^*，则d^*即为非支配个体检测器；对于pareto支配关系的判断独立存在于每一父代检测器及与其对应的克隆后子代检测器所组成的检测器集合中，这样的集合被称为当前检测器集合的一个子集，子集的个数与父代检测器集合中检测器的个数相等；在每一个上述的子集中分别找到对应的非支配个体检测器，并最终将所有子集中的非支配个体检测器记录保存，得到非支配检测器集合：

D_{N} (c, r) = {d_{N 1} (c, r), d_{N 2} (c, r), . . ., d_{{NN}^{*}} (c, r)},

其中，N^*表示当前检测器集合的规模，且满足关系：n≤N^*≤N，其中d_Nk代表D_N(c，r)中第k个检测器；

(9)对检测器集合进行如下两个策略的修剪操作：

第一个修剪策略是：删除拥有最大交叠程度的检测器，检测器的交叠程度可以通过目标函数值中计算交叠的公式得到，当迭代次数小于控制基因时，则利用此修剪策略对检测器集合进行修剪，减少检测器集合中检测器的个数，通过此修剪策略，可以加快整个检测优化过程的收敛速度；

第二个修剪策略是：删除拥有最小体积的检测器，当迭代次数大于控制基因时，则利用此修剪策略对检测器集合进行修剪，直到检测器种群的规模满足规定大小n时，修剪停止，修剪后的检测器集合可记为：

D_t+1(c，r)＝{d_(t+1)1(c，r)，d_(t+1)2(c，r)，…，d_(t+1)n(c，r)}，此时检测器集合D_t+1(c，r)为新一轮迭代的父代检测器集合，其中d_(t+1)k代表D_t+1(c，r)中第k个检测器；

(10)根据步骤(1)中设定的终止条件判断当前检测器集合是否满足终止条件，若满足则停止迭代循环执行步骤(11)，否则步骤(2)，直到满足终止条件为止；

(11)用最终生成的检测器集合测试输入的待测数据，并统计检测率和虚警率，通过步骤1到步骤10对检测器分布的优化，得到成熟的检测器集合D_time(c，r)，其中time为最高迭代次数，此时根据步骤1中所用到的欧氏距离匹配规则对新输入的测试样本进匹配判断，若测试样本被任意检测器所覆盖，则认为其为“危险”样本，对应的行为则为疑似入侵行为，否则认为安全；通过对一组测试样本的匹配判断，得到检测率和虚警率，对每一个测试样本将会有4种不同的检测结果：

1)样本是异常的，检测的结果也是异常的，称为正确肯定(tp)；

2)样本是异常的，检测器却未能检测出该样本，称为漏检(fn)；

3)样本是正常的，检测器也没有检测到该样本，称为正确否定(tn)；

4)样本是正常的，但却被检测为异常，称为虚检(fp)，通过对这4种情况的统计得到对此次入侵检测的检测率和虚警率，表示为：