CN117892102B

CN117892102B - 基于主动学习的入侵行为检测方法、***、设备及介质

Info

Publication number: CN117892102B
Application number: CN202410290511.5A
Authority: CN
Inventors: 徐丽娟; 娄国庆; 杨淑棉; 赵大伟; 陈川; 宋维钊
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-05-24
Anticipated expiration: 2044-03-14
Also published as: CN117892102A

Abstract

本发明涉及基于主动学***衡操作，保证了更新后检测模型对恶意流量的敏感性，保持高效的恶意流量检测性能。

Description

基于主动学习的入侵行为检测方法、***、设备及介质

技术领域

本发明属于网络流量的入侵检测研究技术领域，具体涉及基于主动学习的入侵行为检测方法、***、设备及介质。

背景技术

网络安全的重要性日益突出。***对计算资产的依赖使得它们很容易受到攻击。现有对入侵检测***的研究大多是基于平稳的网络环境中进行的，也就是假设随着时间的动态变化，网络流量数据自身的统计特征和分布是具有平稳性的，同时训练的入侵检测分类器是静态的，不会考虑随着时间变化到达的连续数据流的特征和分布变化，即没有考虑到在真实网络环境中存在的概念漂移问题。此外，非常准确的入侵检测模型通常使用监督学习来进行模型训练，这需要处理大量带标记的网络流量样本。然而，手动标注网络流量代价高昂，而且由于概念漂移，模型需要经常使用新标注的样本进行迭代更新，以保持持续的高准确度。更重要的是，随着新的安全漏洞和网络攻击的出现，这种入侵检测分类器的检测效果将会不断下降，换句话说，入侵检测分类器一旦过时，就必须对其进行再训练或者重新构建一个新的入侵检测模型，导致了大量的成本和资源消耗，同时也造成了对新攻击类型的响应变慢。另一个问题是更新入侵检测模型时引起的延迟。理想状态下，新的模型应该在接近实时的情况下可用，也就是说，在后续的流量样本到达进行分类之前。在实践中，新模型只有在延迟一段时间后才可用，而在此期间出现的流量样本将使用该模型的前一次迭代。因此，需要一种理想的分类器来快速适应新出现的入侵方法，同时要求尽可能降低模型更新所需时间成本以及对网络流量进行类别标注的人工成本。

发明内容

针对现有入侵检测技术的不足，本发明提供了基于主动学习的入侵行为检测方法。

本发明旨在解决入侵检测***部署在真实网络环境下对网络流量数据进行入侵检测分析判断时，需要大量带标记的网络流量样本以有监督方式训练检测模型，且没有考虑随着时间变化到达的连续数据流的特征和分布变化，即没有考虑到在真实网络环境中存在的概念漂移问题；本发明目的在于提高入侵检测***模型对真实网络环境中存在的概念漂移问题的鲁棒性，进一步提高模型的检测效率，降低更新入侵检测模型时引起的延迟问题。

本发明中，首先，监听被检测设备网卡，获取流经该网卡的全部网络流量，使用流量特征提取工具对其提取数据特征，得到网络流量数据集。使用数据集训练深度神经网络模型和最近质心分类器，深度神经网络模型作为检测模型，最近质心分类器作为标签估计器。对流量数据进行入侵检测，考虑到在真实网络环境下因概念漂移问题导致的流量特征变化快的特点，在检测模型工作的同时，使用检测模型置信度指标对待测样本进行概念漂移样本和高可信样本的筛选，再通过最近质心分类器作为标签估计器对概念漂移样本进行类别标注，使用SMOTE过采样方法对漂移样本和高可信样本组成的样本集完成类别平衡操作，最后，检测模型对平衡后的样本集进行增量学习，实现入侵检测模型的快速迭代更新，更新后的检测模型代替原模型进行入侵检测工作。

本发明还提供了基于主动学习的入侵行为检测***。

术语解释：

1、深度神经网络模型(DNN)：是一种多层神经网络，并且将上一层的输出特征作为下一层的输入进行特征学习，通过逐层特征映射后，将现有空间样本的特征映射到另一个特征空间，以此来学习对现有输入具有更好的特征表达。深度神经网络（DNN）的最后一层使用Softmax函数通常是为了将网络输出映射到概率分布上，以便进行分类任务的预测。

2、概念漂移：是指在模型训练学习中，模型训练的数据分布与模型部署时的数据分布之间的变化。这种变化可能导致模型性能下降，因为模型在不同分布下可能不再适用。为了处理概念漂移，需要及时更新和重新训练模型，或者使用适应性学习方法来适应新的数据分布。

3、置信度：模型置信度是指机器学习模型对其预测的信心程度。当模型对某个预测非常自信时，它的置信度较高；当模型对预测不太自信时，它的置信度较低。模型置信度通常表示为概率值，本方法的用到的置信度由检测模型的输出计算得来，后面会详细介绍。

4、主动学习：主动学习是一种模型学习策略，其中模型通过选择性地请求标记数据来改进性能。与传统的被动学习不同，主动学习的模型可以自主选择最具信息价值的样本，以便更有效地学习。

5、增量学习：增量学习是一种机器学习方法，它允许模型在不重新训练的情况下逐步学习和适应新的数据。在增量学习中，模型可以接收新的数据样本，并使用这些样本来更新模型的参数，以便模型能够适应新的数据分布并进行预测。这种方法对于大规模数据集或实时数据流非常有用，因为它可以减少重新训练的时间和计算资源的消耗。

6、最近质心分类器：最近质心分类器是一种基于质心的分类方法。在最近质心分类器中，每个类别都有一个质心向量，用于表示该类别的特征。当要对一个新的样本进行分类时，最近质心分类器计算该样本与每个类别质心的距离，并将其分配给距离最近的类别。

7、SMOTE过采样方法：SMOTE（Synthetic Minority Over-sampling Technique）是一种常用的过采样方法，用于处理不平衡数据集。在不平衡数据集中，某些类别的样本数量明显少于其他类别，这可能导致机器学***衡数据集，从而提高模型对少数类的识别能力。其基本思想是通过在特征空间中寻找相邻样本，并在这些样本之间进行插值来生成新的合成样本。通过使用SMOTE算法，可以有效地增加少数类样本的数量，从而使得数据集更加平衡，提高了模型对于少数类别的学习能力和泛化能力。

本发明的技术方案为：

基于主动学习的入侵行为检测方法，包括：

（1）获取网络流量数据，进行特征提取，获得网络流量数据集，划分为训练集、测试集；

（2）使用训练集对深度神经网络模型(DNN)和标签分类器进行训练学习；

（3）检测模型使用主动学习进行样本筛选及检测模型更新，检测模型即训练好的深度神经网络模型；包括：

使用检测模型对测试集进行检测，检测的同时利用置信度得到待测样本中的概念漂移样本以及高可信样本；

使用标签分类器对概念漂移样本进行类别标注工作，高可信样本直接使用检测模型的预测值作为其类别属性；将完成类别标注的概念漂移样本与高可信样本共同组成主动学习样本集；

对主动学***衡操作，得到类别平衡的样本集；

检测模型对类别平衡的样本集进行增量学习，使检测模型快速完成对新样本的学习，实现检测模型迭代更新；

（4）使用迭代更新后的检测模型代替旧模型进行入侵行为检测，输出检测结果，检测结果包括正常良性流量、恶意入侵（攻击）流量。

根据本发明优选的，在进行入侵检测的同时，获取所有检测模型对流量样本正确分类的置信度；包括：

检测模型是一个二分类模型，位于检测模型最后一层的Softmax函数即Softmax层输出两个表示概率分布的数值，这两个数值之和为1，分别表示待测样本分别为两类样本的可能性；

对每个流量样本，Softmax函数输出两个数值，计算这两个数值的方差，即代表检测模型对流量样本正确分类的置信度。

进一步优选的，Softmax函数的数学表达式如下所示：

;

其中，是Softmax函数的输出中第/>个类别的概率，/>是检测模型原始输出的第/>个元素，/>是检测模型原始输出的第/>个元素，/>为总的类别的个数。

根据本发明优选的，利用置信度得到待测样本中的概念漂移样本以及高可信样本；包括：

以置信度作为评估指标，对所有流量样本进行排序；假设检测模型在一个周期内检测流量样本的数量为K，则在所有流量样本中挑选出置信度最低的K/2个流量样本为低置信样本即概念漂移样本，在所有流量样本中挑选出置信度最高的K/10个流量样本为高可信样本。

根据本发明优选的，使用SMOTEE过采样方法对主动学***衡操作，得到类别平衡的样本集。

根据本发明优选的，标签分类器为最近质心分类器（NC）。

根据本发明优选的，网络流量数据是指以流量形式为载体的网络传输数据；网络流量数据的获取途径为：通过对设备网卡进行流量监听，得到流经此设备网卡的全部网络流量数据，获取的网络流量数据以pcap或pcapng格式存储。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于主动学习的入侵行为检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于主动学习的入侵行为检测方法的步骤。

一种基于主动学习的入侵***,包括：

***启动模块，被配置为：启动入侵检测程序，监听网卡流量，获取网络流量数据；

特征获取模块，被配置为：对网络流量数据进行特征提取。具体实现方式可以采用cicflowmeter工具提取网络流级统计特征；也可针对不同的网络环境，专门定制流量特征提取算法，如：加密流量首字节特征提取算法、负载特征提取算法等；

数据预处理模块，被配置为：划分网络流量数据集为训练集和测试集，使用训练集对检测模型和标签分类器进行训练；

入侵检测模块，被配置为：使用提前训练好的检测模型，对传送的特征数据进行检测，判断是否有入侵行为的发生；同时筛选出每批次数据的概念漂移样本与高可信样本，共同构成主动学习样本集；此外，使用迭代更新后的检测模型进行入侵行为检测，输出检测结果，检测结果包括正常良性流量、恶意入侵（攻击）流量；

样本推断模块，被配置为：使用标签分类器对概念漂移样本进行类别标注工作，高可信样本直接使用检测模型的预测值作为其类别属性；

模型迭代更新模块，被配置为：对主动学***衡操作，得到类别平衡的样本集；检测模型对类别平衡的样本集进行增量学习，使检测模型快速完成对新样本的学习，实现检测模型迭代更新。

本发明的有益效果为：

现有的入侵检测***部署在真实网络环境下对网络流量数据进行入侵检测分析判断时，需要大量带标记的网络流量样本以有监督方式训练检测模型，且没有考虑到真实网络环境中存在的概念漂移问题；与现有的检测模型相比，本发明的有益效果有以下几点：

1、本发明提出的基于主动学习的入侵行为检测方法，以半监督的方式对检测模型进行训练，大大降低了前期数据收集以及预处理的工作量。

2、本发明提出的基于主动学习的入侵行为检测方法，通过检测模型的置信度作为评估指标筛选出发生概念漂移的低置信样本，能够及时有效的发现发生概念漂移的样本。对于低置信样本使用与深度神经网络模型运作机理不同标签估计器对其进行类别标注，也能有效防止由深度神经网络模型进行类别标注可能带来的自我投毒现象发生。

3、本发明提出的基于主动学***衡操作，保证了更新后检测模型对恶意流量的敏感性。

4、本发明提出的基于主动学习的入侵行为检测方法，使用增量学习的方法对由高置信度和低置信度样本组成的样本集完成检测模型的快速迭代更新，保证了检测模型能够快速完成对概念漂移样本的训练学习。有助于检测模型更好地捕捉新的特征和模式，还能够弥补概念漂移带来的数据分布变化。检测模型通过对新样本的学习，保持了对最新恶意流量行为的感知和敏感性，确保检测模型在不断变化的网络环境中保持高效的恶意流量检测性能。

附图说明

图1为本发明基于主动学习的入侵行为检测方法的示意图；

图2为本发明基于主动学习的入侵行为检测***的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例1

基于主动学习的入侵行为检测方法，包括：

网络流量数据是指以流量形式为载体的网络传输数据。网络流量数据的获取途径为：通过对设备网卡进行流量监听，得到流经此设备网卡的全部网络流量数据，获取的网络流量数据是以pcap或pcapng格式存在的网络流量文件。

对获取的网络流量数据进行特征提取在入侵检测领域是非常常见的操作。常用的特征提取方法有使用cicflowmater工具获取流级统计信息；对pcap、pcapng流量包进行会话分组，再提取字节特征；将pcap或pcapng格式的流量数据转化为各种图片形式再使用图片处理方法进行特征提取。本发明重点突出使用各个组成部分以主动学习的方式实现不断适应环境变化的入侵检测方法。在特征提取环节使用的具体方法不做要求。本方法适用一切特征处理方法，任何特征处理方法都可在本方法中进行套用。

使用检测模型对测试集进行检测，检测的同时利用置信度得到待测样本中的概念漂移样本以及高可信样本；概念漂移样本与高可信样本一起组成后续阶段的增量学习样本集；

对主动学***衡操作，得到类别平衡的样本集；

检测模型对类别平衡的样本集进行增量学习，使检测模型快速完成对新样本的学习，实现检测模型迭代更新；增量学习是指使用之前训练好的模型在新的数据集上进行训练学习。之前训练好的模型不是空白模型，带有对在数据集上进行学习训练得到的参数权重。使用含有这些参数权重的模型在新的数据集上训练学习可以更快的进行拟合，达到了模型的快速更新迭代的目的。

实施例2

根据实施例1所述的基于主动学习的入侵行为检测方法，其区别在于：

在进行入侵检测的同时，获取所有检测模型对流量样本正确分类的置信度；包括：

对每个流量样本，Softmax函数输出两个数值，计算这两个数值的方差，即代表检测模型对流量样本正确分类的置信度。方差越大即表示置信度越大，反之则越小。

Softmax函数的数学表达式如下所示：

;

利用置信度得到待测样本中的概念漂移样本以及高可信样本；包括：

使用训练好的检测模型对测试集进行检测，检测的同时利用置信度得到待测样本中的概念漂移样本以及高可信样本；包括：

使用经过训练好的检测模型来判断新到达的未标注流量数据（检测***在要监测的网络环境中新产生的网络流量）是否存在异常行为；为了细致识别和处理概念漂移问题，本发明对新到达的数据以相同大小的流量窗口进行检测分析；

在每个检测批次中，对流量数据集合进行分析，并使用检测模型通过Softmax层输出两个表示概率分布的数值；

置信度是指恶意流量检测模型对于某个样本属于特定类别的自信程度；通常情况下，恶意流量检测模型会选择具有最高置信度的类别作为预测结果。在分类问题中，Softmax层将恶意流量检测模型的原始输出转换为表示概率分布的值。对于每个类别，Softmax层将计算出一个概率值，表示该样本属于该类别的概率。这些概率值的总和为1，因此，可以解释为对应类别的概率。通过Softmax层，恶意流量检测模型将原始输出转换为概率分布，其中每个元素表示对应类别的概率。然后，本发明可以从这个概率分布中选择具有最高概率的类别作为恶意流量检测模型的预测结果。这个最高概率对应的类别通常是恶意流量检测模型最自信的预测结果。

在异常检测中，本发明可以使用置信度来评估恶意流量检测模型对于异常样本的判断自信度。如果一个样本被恶意流量检测模型判断为异常，并且恶意流量检测模型对于这个判断具有高置信度，那么可以相对确信地认为这个样本是异常的。相反，如果一个样本被判断为异常，但恶意流量检测模型对于这个判断的置信度较低，那么可能需要进一步审查这个样本，因为恶意流量检测模型对于这个检测结果不够自信。因此，通过Softmax层将恶意流量检测模型的输出转换为概率分布，并使用置信度作为评估标准，可以在分类问题中获得恶意流量检测模型预测的概率和自信度信息，从而更好地理解和解释模型的行为。

对每个检测批次中所有待检测的未标注的流量数据的Softmax层输出两个表示概率分布的数值计算方差即置信度，并排序；方差大，表明置信度越高；反之，越低；

选出方差最大的前10%的样本即高可信样本，方差最小的50%的样本即低置信的概念漂移样本。

使用SMOTEE过采样方法对主动学***衡操作，得到类别平衡的样本集。

标签分类器为最近质心分类器（NC）。

实施例3

根据实施例2所述的基于主动学习的入侵行为检测方法，其区别在于：

本实施例选用改进后的CICIDS2017数据集进行验证。

本实施例的实验条件如下：

配备2.40 GHz的Intel(R) Xeon(R) Silver 4210R CPU、250GB RAM和10GBNVIDIA GeForce RTX 3080显卡的Linux服务器。Python 3.7，1.13.1版本的PyTorch和12.0版本的CUDA。

实施的详细过程如下：

选用数据集前两天共693,650条数据作为训练数据集，对入侵检测模型（检测模型）以及标签估计器进行训练。使用剩余三天数据作为测试数据集，在后续增量学习阶段作为新到达待检测的未标记流量数据。其中，流量窗口大小设置为window size=50,000。使用测试数据集逐窗口对检测模型进行测试，得到每个窗口的测试数据，取均值得到最终的检测性能。

同样的，使用前两天共693,650条数据作为训练数据集，对其它现有的入侵检测模型SwiftIDS、INSOMNIA、ADTCD以及决策树进行训练。使用剩余三天数据作为测试数据，流量窗口大小设置为window size=50,000。使用测试集逐窗口对检测模型进行测试，得到每个窗口的测试数据，取均值得到最终的检测性能。

从以下四个方面对检测模型的检测效果进行评估。

将实验结果分为以下四种样本集合：

TP：实际为正常样本且被模型检测为正常的实例数。

FP：实际为异常样本但被模型检测为正常的实例数。

FN：实际为正常样本但被模型检测为异常的实例数。

TN：实际为异常样本且被模型检测为异常的实例数。

对结果进行分类后，可通过计算准确率(Accuracy)，精确率(Precision)，召回率(Recall)和F-Measure来评价模型的性能。具体定义如下：

准确率：；

精确率：；

召回率：；

F-Measure：；

表1 改进后CICIDS2017数据集所包含的流量类型信息表

流量类型	数量
		良性	1657069
FTP-Patator	3973
		SSH-Patator	2980
DoS GoldenEye	7567
		DoS Hulk	158469
DoS SlowHttpTest	1742
		DoS Slowloris	4001
Heartbleed	11
		Web Attack-Brute Force	151
Web Attack - XSS	27
		Web Attack - SQL Injection	12
Infiltration	32
		Bot	738
Portscan	159023
		DDoS	95123

表1中，FTP-Patator - FTP-Patator 攻击: 一种针对FTP服务的***工具，用于尝试破解用户名和密码；

SSH-Patator - SSH-Patator 攻击: 类似于FTP-Patator，这是一种针对SSH服务的***攻击，用于尝试破解SSH登录凭证；

DoS GoldenEye - DoS GoldenEye 攻击: 一种拒绝服务攻击，通过发送大量请求使目标***或网络服务不可用。

DoS Hulk - DoS Hulk 攻击: 又一种拒绝服务攻击，旨在通过生成巨量伪造的HTTP请求来耗尽目标的资源。

DoS SlowHttpTest - DoS SlowHttpTest 攻击: 一种利用HTTP协议漏洞的拒绝服务攻击，通过慢速发送请求片段来尝试使服务器超时或崩溃。

DoS Slowloris - DoS Slowloris 攻击: 类似于SlowHttpTest，这种攻击通过保持HTTP连接在打开状态来消耗服务器资源，导致服务不可用。

Heartbleed - 心脏出血漏洞: 一种严重的安全漏洞，存在于某些版本的OpenSSL软件库中，允许攻击者读取受保护的内存信息。

Web Attack-Brute Force - 网络攻击-暴力破解: 尝试通过连续尝试可能的用户名和密码组合来破解网站或网络服务的登录凭证。

Web Attack - XSS - 网络攻击-跨站脚本（XSS）: 通过在目标网站***恶意脚本，来攻击网站的用户。

Web Attack - SQL Injection - 网络攻击-SQL注入: 通过在Web应用程序的输入中注入恶意SQL代码，攻击者可以执行未授权的数据库操作。

Infiltration - 渗透: 指通过各种手段悄悄进入或穿透信息***的防御，以获取访问权限或敏感数据。

Bot - 机器人网络: 由感染恶意软件的计算机组成的网络，可以被远程控制执行恶意活动，如发送垃圾邮件、进行DDoS攻击等。

Portscan - 端口扫描: 通过扫描服务器的端口来发现开放的服务和漏洞，通常是信息收集和网络侦查的第一步。

DDoS - 分布式拒绝服务攻击: 通过利用许多被感染的计算机（僵尸网络）发起的，目的是使目标服务不可用的攻击。

表2 CICIDS2017数据集上的分类比较结果表

方法	准确率	F1分数	精确度
				SwiftIDS	69.40%	73.90%	69.41%
INSOMNIA	85.04%	86.07%	89.96%
				ADTCD	86.70%	77.60%	76.30%
决策树	69.38%	73.89%	69.42%
				本发明提出的	94.16%	94.50%	94.32%

表2中，SwiftIDS、INSOMNIA、ADTCD及决策树都是前人提出的入侵检测方法；SwiftIDS是2018年发表在Computers&Security期刊上使用lightGBM算法进行入侵检测的方法；INSOMNIA是2021年发表在CCS会议上的恶意流量入侵检测方法；ADTCT是2023年发表在IEEE Internet of Things Journa期刊上使用自动编码器做出子模型构建出的适应概念飘移的恶意流量入侵检测方法。

实施例4

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-3任一所述的基于主动学习的入侵行为检测方法的步骤。

实施例5

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1-3任一所述的基于主动学习的入侵行为检测方法的步骤。

实施例6

一种基于主动学习的入侵***,如图2所示，包括：

Claims

1.基于主动学习的入侵行为检测方法，其特征在于，包括：

（2）使用训练集对深度神经网络模型和标签分类器进行训练学习；

对主动学***衡操作，得到类别平衡的样本集；

（4）使用迭代更新后的检测模型进行入侵行为检测，输出检测结果，检测结果包括正常良性流量、恶意入侵流量。

2.根据权利要求1所述的基于主动学习的入侵行为检测方法，其特征在于，在进行入侵检测的同时，获取所有检测模型对流量样本正确分类的置信度；包括：

3.根据权利要求2所述的基于主动学习的入侵行为检测方法，其特征在于，Softmax函数的数学表达式如下所示：

;

4.根据权利要求1所述的基于主动学习的入侵行为检测方法，其特征在于，利用置信度得到待测样本中的概念漂移样本以及高可信样本；包括：

5.根据权利要求1所述的基于主动学***衡操作，得到类别平衡的样本集。

6.根据权利要求1所述的基于主动学习的入侵行为检测方法，其特征在于，标签分类器为最近质心分类器。

7.根据权利要求1所述的基于主动学习的入侵行为检测方法，其特征在于，网络流量数据是指以流量形式为载体的网络传输数据；网络流量数据的获取途径为：通过对设备网卡进行流量监听，得到流经此设备网卡的全部网络流量数据，获取的网络流量数据以pcap或pcapng格式存储。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于主动学习的入侵行为检测方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于主动学习的入侵行为检测方法的步骤。

10.一种基于主动学习的入侵***,包括：

特征获取模块，被配置为：对网络流量数据进行特征提取；

入侵检测模块，被配置为：使用提前训练好的检测模型，对传送的特征数据进行检测，判断是否有入侵行为的发生；同时筛选出每批次数据的概念漂移样本与高可信样本，共同构成主动学习样本集；此外，使用迭代更新后的检测模型进行入侵行为检测，输出检测结果，检测结果包括正常良性流量、恶意入侵流量；