CN116614313A

CN116614313A - 一种基于数据识别的网络入侵防护***及方法

Info

Publication number: CN116614313A
Application number: CN202310882684.1A
Authority: CN
Inventors: 谭腊梅
Original assignee: Yiyang Tianjin Intelligent Technology Co ltd
Current assignee: Yiyang Tianjin Intelligent Technology Co ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-08-18

Abstract

本发明涉及网络防护技术领域，具体为一种基于数据识别的网络入侵防护***及方法，包括数据收集和整理模块、特征工程模块、建模模块和实时监测和响应模块。本发明中，数据收集和整理模块对已有的数据进行收集整理，并将数据集发送给特征工程模块进行数据特征化处理，建模模块利用机器学习算法根据处理好的数据集进行模型训练，实时监测和响应模块利用训练好的模型进行实际的网络流量监测，并对判定为正常流量数据却依然使得***被入侵的数据进行再次的数据收集、特征处理和模型训练，持续更新和改进模型，使其能够自适应地识别新型的入侵行为。

Description

一种基于数据识别的网络入侵防护***及方法

技术领域

本发明涉及网络防护技术领域，具体为一种基于数据识别的网络入侵防护***及方法。

背景技术

网络入侵防护***使用防火墙网络安全设备来过滤进出网络的数据包，阻止未经授权的访问和恶意活动，然而，传统的网络入侵防护***存在识别准确率低、缺少自动化修复等问题。因此亟需一种基于数据识别的网络入侵防护***及方法。

发明内容

本发明的目的在于提供一种基于数据识别的网络入侵防护***及方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于数据识别的网络入侵防护***及方法，其包括数据收集和整理模块、特征工程模块、建模模块和实时监测和响应模块，其中：

所述数据收集和整理模块用于收集正常流量数据和入侵行为数据，将正常流量数据和入侵行为数据发送给特征工程模块，所述特征工程模块对正常流量数据和入侵行为数据进行数据特征处理，将处理好的数据特征发送给建模模块，所述建模模块根据处理好的数据特征通过机器学习算法来训练模型，训练好的模型由实时监测和响应模块接收，所述实时监测和响应模块根据模型对进入***的流量数据进行分析，分析的结果用来区分正常流量数据和入侵行为数据，将未成功识别的入侵行为数据发送给数据收集和整理模块重新进行数据分析建模，并根据入侵位置自动化的修复入侵位置的损坏环境。

作为本技术方案的进一步改进，所述数据收集和整理模块包括网络流量收集单元和数据库单元，所述网络流量收集单元用于将流量分为已知的正常流量数据和已知的入侵行为数据；所述数据库单元用于设计流量数据的特征并将网络流量收集单元收集到的流量数据保存在数据库中形成数据集。

作为本技术方案的进一步改进，所述特征工程模块包括数据清洗单元、特征转换单元和特征标准化单元，所述数据清洗单元接收数据库单元中数据集，用于处理数据集的缺失值和重复值；所述特征转换单元用于将数据清洗单元清洗过后的数据集特征转换为数值形式；所述特征标准化单元用于将数据集特征进行标准化处理。

作为本技术方案的进一步改进，所述控制单元包括模数转换器、计算单元和控制电路，所述建模模块包括数据拆分单元、模型训练单元、模型评估单元和模型调优单元，所述数据拆分单元接收特征标准化单元标准化过的数据集，用于将数据集的特征和标签分割开来，并将特征数据和标签数据的百分之八十作为训练集，百分之二十作为测试集，将训练集发送给模型训练单元，将测试集发送给模型评估单元；所述模型训练单元使用机器学习算法中的支持向量机算法根据训练集进行模型训练，并将训练好的模型发送给模型评估单元；所述模型评估单元接收数据拆分单元和模型训练单元分别发送的测试集和模型，用于计算模型在测试集上的准确率，其中：

准确率大于百分之90时，将模型发送给实时监测和响应模块中的监测单元；

准确率小于等于百分之90时，将模型发送给模型调优单元进行调优，所述模型调优单元接收模型评估单元发送的模型，用于调整模型中的参数。

作为本技术方案的进一步改进，所述实时监测和响应模块包括监测单元、响应单元和***状态单元，所述监测单元接收模型评估单元发送的模型，用于将进入***的网络流量通过模型来判定该网络流量为正常流量数据还是入侵行为数据；所述响应单元用于拦截入侵行为数据进入***；所述***状态单元用于检测***是否被攻击。

本发明目的之二在于，提供了一种基于数据识别的网络入侵防护方法包括上述中任意一项所述的基于数据识别的网络入侵防护***，包括如下方法步骤：

S1、收集日志记录中已知的正常网络流量数据和已知的入侵行为数据；

S2、对正常网络流量数据和已知的入侵行为数据形成的数据集进行特征化处理；

S3、采用支持向量机算法根据特征化处理过后的数据集进行模型训练；

S4、将训练好的模型集成到***中，***利用模型来预测网络流量的类型；

S5、对判定为入侵行为流量的数据进行拦截，判定正常流量数据进入***；

S6、对判定为正常流量数据却引起***被入侵的流量数据进行分析处理，让***自动化修复被入侵位置。

作为本技术方案的进一步改进，所述对正常网络流量数据和已知的入侵行为数据形成的数据集进行特征化处理，具体包括：

将IP地址转换为数值形式：即将IP地址拆分为四个字节，并将每个字节转换为整数形式；

将时间戳转换为数值形式：即将时间戳转换为秒数；

将端口号转换为数值形式：即按顺序找出数据中出现的所有不重复的端口号，为每个不重复的端口号分配一个唯一的整数标签。

作为本技术方案的进一步改进，所述对判定为入侵行为流量的数据进行拦截，判定正常流量数据进入***，具体包括：

当模型的输出结果为1时，判定此时的网络流量数据为入侵行为数据，拦截该入侵行为数据并将该入侵行为数据发送给日志记录；

当模型的输出结果为0时，判定此时的网络流量数据为正常流量数据，并在日志记录中记录相关流量数据且继续监测网络数据。

作为本技术方案的进一步改进，所述对判定为正常流量数据却引起***被入侵的流量数据进行分析处理，让***自动化修复被入侵位置，具体包括：

当***检测到被攻击时，首先根据入侵位置提取出日志记录中的入侵行为数据发送给防护***进行再次的数据处理和模型训练；

将入侵位置与其他文件隔离开来，通过临时断开网络连接和切断访问权限将受侵害位置移出生产环境；

然后使用***的备份数据来恢复受侵害位置并调用反病毒软件识别和删除受侵害位置上的恶意文件和恶意访问点。

与现有技术相比，本发明的有益效果是：

一种基于数据识别的网络入侵防护***及方法的原理是通过使用机器学习技术来识别和阻止网络入侵行为，能够实时监测进入***的网络数据，并根据正常网络数据和入侵行为数据的特征进行分析判断，首先数据收集和整理模块收集已知的正常流量数据和已知的入侵行为数据，将数据发送给特征工程模块进行数据特征化处理，将处理好的数据集发送给建模模块，建模模块利用机器学习算法根据数据集进行模型训练，将训练好的模型发送给实时监测和响应模块进行实际的网络流量监测，并对判定为入侵行为的数据进行拦截，对判定为正常流量数据却依然使得***被入侵的数据进行再次的收集，并将该数据发送给数据收集和整理模块进行再次的数据特征处理和模型训练，持续更新和改进模型，使其能够自适应地识别新型的入侵行为；

为了减少人工干预的需求，加快对入侵行为处理的响应和入侵位置的恢复速度，***根据入侵行为数据中的入侵位置定受侵害的位置，将受侵害位置与其他文件隔离开来，通过临时断开网络连接和切断访问权限将受侵害位置移出生产环境，使用***的备份数据来恢复受侵害位置并调用反病毒软件识别和删除受侵害位置上的恶意文件和恶意访问点，并且为了发现可能存在的安全漏洞，安装和应用最新的安全补丁和更新，以修复已公开的漏洞，实现对受侵害的位置的自动化修复。

附图说明

图1为本发明的整体模块示意图；

图2为本发明中各个模块单元示意图；

图3为本发明中整体方法流程示意图；

图中：100、数据收集和整理模块；101、网络流量收集单元；102、数据库单元；200、特征工程模块；201、数据清洗单元；202、特征转换单元；203、特征标准化单元；300、建模模块；301、数据拆分单元；302、模型训练单元；303、模型评估单元；304、模型调优单元；400、实时监测和响应模块；401、监测单元；402、响应单元；403、***状态单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3，本发明提供一种技术方案：一种基于数据识别的网络入侵防护***及方法，包括数据收集和整理模块100、特征工程模块200、建模模块300和实时监测和响应模块400。

S1、首先利用数据收集和整理模块100中的网络流量收集单元101收集流量，根据日志记录把流量分为已知的正常流量数据和已知的入侵行为数据，其中：

正常流量数据：选择一个正常运行且没有发生入侵事件的时间段，以获取代表正常网络流量数据；

入侵行为数据：根据已有的安全威胁情报或历史入侵事件数据，以获取已知的入侵行为数据。

使用网络抓包工具在流量监控设备上捕获数据包并将数据存储到数据库单元102中的一个表中，数据库单元102中的表包含IP源地址、目标IP地址、端口号、时间戳、通信频率和标签列，并将正常流量数据的标签设为0，入侵行为数据的标签设为1。

S2、特征工程模块200中的数据清洗单元201接收数据库单元102中正常流量数据和入侵行为数据的数据集，对数据集进行清洗，处理数据集中的缺失值和重复值，其中：

处理缺失值：当缺失值的数量小于总数量的百分之2，则直接删除包含缺失值所在的行；否则，使用出现频率最高的值来填补缺失值；

处理重复值：直接删除包含缺失值所在的行。

特征转换单元202接收数据清洗单元201清洗完的数据集，为了数据更适合于机器学习算法的使用，需要对数据集中的特征进行特征转换，其转换如下：

IP地址转换：将IP地址转换为数值形式，即将IP地址拆分为四个字节，并将每个字节转换为整数形式；

时间戳转换：将时间戳转换为数值形式，即将时间戳转换为秒数；

端口号转换：将端口号转换为数值形式，即按顺序找出数据中出现的所有不重复的端口号，为每个不重复的端口号分配一个唯一的整数标签，例如端口号数据为[80, 443,22, 80, 22, 8080]，转换后的整数标签为[0, 1, 2, 0, 2, 3]。

特征转换单元202将转换后的数据发送给特征标准化单元203，特征标准化单元203对每个特征进行标准化处理，以确保它们具有相似的尺度并避免某些特征对模型的影响过大，其中，标准化处理的方法使用均值归一化方法：计算每列的均值和标准差，将特征值减去均值并除以标准差。

特征标准化单元203将处理过的数据发送给建模模块300中的数据拆分单元301，数据拆分单元301将数据的特征和标签分割开来，并将特征数据和标签数据的百分之八十作为训练集，百分之二十作为测试集。数据拆分单元301将训练集发送给模型训练单元302进行训练，将测试集发送给模型评估单元303进行检测评估。

S3、模型训练单元302使用支持向量机算法根据训练集进行模型训练，将训练好的模型发送给模型评估单元303，其中，使用支持向量机算法对训练集进行训练的过程如下：

核函数的选择：选择多项式核函数，由于网络数据的特征复杂，单纯的线性核函数无法体现非线性的关系，使用高斯径向基函数够处理非线性关系；

超参数的设置：对支持向量计算法中的C参数设置为0.01，gamma参数设置为1/（特征维度*特征方差），其中：C参数控制着对误分类样本的惩罚程度，较小的C会导致容忍更多的误分类，会导致模型过于简单；gamma参数控制了单个训练样本的影响范围，较大的gamma值会导致决策边界更加曲折、对训练集适应性强，但容易过拟合；

构建目标函数：由于支持向量机算法的目标是找到一个决策边界（超平面），能够最大程度地将不同类别的样本分开，并且具有较小的泛化误差。为了达到这个目标，需要定义目标函数：minimize 1/2 ||w||^2 + C * Σ max(0, 1 - y_i (w^T b(x_i) + b))，其中：minimize是一个关键词，代表着最小化的意思，||w||^2表示权重向量w的范数的平方，用来控制模型的复杂度，C是正则化参数，用来平衡正则化项和误分类样本带来的惩罚，Σ表示对所有样本求和，y_i是第i个样本的真实类别标签，w是权重向量，b(x_i)表示特征向量x_i经过一个映射函数b得到的新特征向量，b是偏置项；

训练模型和支持向量选择：使用梯度下降算法对目标函数进行求解，找到最优解，选择训练数据集中起决定作用的样本，即支持向量，支持向量是离超平面最近的样本点，决定了超平面的位置和形状；

结果的分类输出：超平面的一边为正常流量数据，输出结果为0，超平面的另一边为入侵行为数据，输出结果为1。

模型评估单元303利用训练好的模型对测试集进行检测评估，其具体如下：

计算出模型预测的标签数组与测试集标签数组之间准确预测的样本数目，将准确预测的样本数目除以测试集的样本数目乘以百分比得到准确率，当准确率大于百分之90，则该模型训练成功，将该模型发送给实时监测和入侵检测模块进行应用，否则，将模型发送给模型调优单元304进行调优。

模型调优单元304调整该模型的算法超参数C和gamma，利用交叉验证和网格搜索方法来寻找最佳的超参数组合，其步骤如下：

首先，定义C和gamma的取值范围为10的幂的连续取值范围；

接下来，创建一个超参数的组合空间，将C和gamma的所有可能组合列出，这个组合空间通过网格搜索方法生成，对于每个C值和gamma值的组合，生成一个参数组合；

对于每个参数组合，使用交叉验证来评估模型的性能。交叉验证将数据集分成k个子集，然后进行迭代循环：每次使用k-1个子集作为训练集，剩下的一个子集作为测试集。对于每个参数组合，计算模型在测试集上的准确率，根据交叉验证的结果，选择性能最好的参数组合；

最后将该模型发送给模型训练单元302进行再次的训练直到评估合格，即准确率大于百分之90时，将训练好模型发送给实时监测和响应模块400中的监测单元401。

S4、实时监测和响应模块400中的监测单元401接收训练好的模型，利用训练好的模型对进入***的网络数据进行判定，监测单元401利用流量监控设备监控进入***的网络流量，根据网络流量进入模型的输出结果来判定网络流量的类别，其中：

S5、当模型的输出结果为1时，判定此时的网络流量数据为入侵行为数据，并发送警告指令给响应单元402，响应单元402根据警告指令拦截该入侵行为数据并将该入侵行为数据发送给日志记录；

S6、实时监测和响应模块400中的***状态单元403用来检测***是否被攻击，当***状态单元403检测出***被攻击时，发送报警指令和入侵位置给响应单元402，响应单元402根据入侵位置提取出日志记录中的这段入侵行为数据发送给数据收集和整理模块100中的网络流量收集单元101，再次进行数据处理和模型建立，能够根据实时流量数据和入侵检测结果，持续更新和改进模型，使其能够自适应地识别新型的入侵行为。为了对受侵害的位置进行自动化的修复，响应单元402对入侵行为数据进行分析处理，其步骤如下：

首先根据***状态单元403发送的入侵位置确定受侵害的位置，为了防止进一步的损害和传播并提供修复的安全环境，将受侵害位置与其他文件隔离开来，通过临时断开网络连接和切断访问权限将受侵害位置移出生产环境；

然后使用***的备份数据来恢复受侵害位置并调用反病毒软件识别和删除受侵害位置上的恶意文件和恶意访问点，并且为了发现可能存在的漏洞，安装和应用最新的安全补丁和更新，以修复漏洞。

实时监测和响应模块400通过对入侵行为数据的及时自动化处理，减少了人工干预的需求，加快对入侵行为处理的响应和入侵位置的恢复速度。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于数据识别的网络入侵防护***，其特征在于：数据收集和整理模块（100）、特征工程模块（200）、建模模块（300）和实时监测和响应模块（400），其中：

所述数据收集和整理模块（100）用于收集正常流量数据和入侵行为数据，将正常流量数据和入侵行为数据发送给特征工程模块（200），所述特征工程模块（200）对正常流量数据和入侵行为数据进行数据特征处理，将处理好的数据特征发送给建模模块（300），所述建模模块（300）根据处理好的数据特征通过机器学习算法来训练模型，训练好的模型由实时监测和响应模块（400）接收，所述实时监测和响应模块（400）根据模型对进入***的流量数据进行分析，分析的结果用来区分正常流量数据和入侵行为数据，将未成功识别的入侵行为数据发送给数据收集和整理模块（100）重新进行数据分析建模，并根据入侵位置自动化的修复入侵位置的损坏环境。

2.根据权利要求1所述的基于数据识别的网络入侵防护***，其特征在于：所述数据收集和整理模块（100）包括网络流量收集单元（101）和数据库单元（102），所述网络流量收集单元（101）用于将流量分为已知的正常流量数据和已知的入侵行为数据；所述数据库单元（102）用于设计流量数据的特征并将网络流量收集单元（101）收集到的流量数据保存在数据库中形成数据集。

3.根据权利要求2所述的基于数据识别的网络入侵防护***，其特征在于：所述特征工程模块（200）包括数据清洗单元（201）、特征转换单元（202）和特征标准化单元（203），所述数据清洗单元（201）接收数据库单元（102）中数据集，用于处理数据集的缺失值和重复值；所述特征转换单元（202）用于将数据清洗单元（201）清洗过后的数据集特征转换为数值形式；所述特征标准化单元（203）用于将数据集特征进行标准化处理。

4.根据权利要求3所述的基于数据识别的网络入侵防护***，其特征在于：所述建模模块（300）包括数据拆分单元（301）、模型训练单元（302）、模型评估单元（303）和模型调优单元（304），所述数据拆分单元（301）接收特征标准化单元（203）标准化过的数据集，用于将数据集的特征和标签分割开来，并将特征数据和标签数据的百分之八十作为训练集，百分之二十作为测试集，将训练集发送给模型训练单元（302），将测试集发送给模型评估单元（303）；所述模型训练单元（302）使用机器学习算法中的支持向量机算法根据训练集进行模型训练，并将训练好的模型发送给模型评估单元（303）；所述模型评估单元（303）接收数据拆分单元（301）和模型训练单元（302）分别发送的测试集和模型，用于计算模型在测试集上的准确率，其中：

准确率大于百分之90时，将模型发送给实时监测和响应模块（400）中的监测单元（401）；

准确率小于等于百分之90时，将模型发送给模型调优单元（304）进行调优，所述模型调优单元（304）接收模型评估单元（303）发送的模型，用于调整模型中的参数。

5.根据权利要求4所述的基于数据识别的网络入侵防护***，其特征在于：所述实时监测和响应模块（400）包括监测单元（401）、响应单元（402）和***状态单元（403），所述监测单元（401）接收模型评估单元（303）发送的模型，用于将进入***的网络流量通过模型来判定该网络流量为正常流量数据还是入侵行为数据；所述响应单元（402）用于拦截入侵行为数据进入***；所述***状态单元（403）用于检测***是否被攻击。

6.一种使用如权利要求5所述的基于数据识别的网络入侵防护***的方法，其特征在于，其方法步骤如下：

7.根据权利要求6所述的基于数据识别的网络入侵防护***的使用方法，其特征在于：所述对正常网络流量数据和已知的入侵行为数据形成的数据集进行特征化处理，具体包括：

将IP地址转换为数值形式：将IP地址拆分为四个字节，并将每个字节转换为整数形式；

将时间戳转换为数值形式：将时间戳转换为秒数；

将端口号转换为数值形式：按顺序找出数据中出现的所有不重复的端口号，为每个不重复的端口号分配一个唯一的整数标签。

8.根据权利要求6所述的基于数据识别的网络入侵防护***的使用方法，其特征在于：所述对判定为入侵行为流量的数据进行拦截，判定正常流量数据进入***，具体包括：

9.根据权利要求6所述的基于数据识别的网络入侵防护***的使用方法，其特征在于：所述对判定为正常流量数据却引起***被入侵的流量数据进行分析处理，让***自动化修复被入侵位置，具体包括：