CN115086070A

CN115086070A - 工业互联网入侵检测方法及***

Info

Publication number: CN115086070A
Application number: CN202210849921.XA
Authority: CN
Inventors: 吴晓明; 张锋; 刘祥志; 张建强; 汪付强; 张鹏; 郝秋赟; 马晓凤
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-20
Anticipated expiration: 2042-07-20
Also published as: CN115086070B

Abstract

本发明涉及基于特定计算模型的计算机***技术领域，本发明公开了工业互联网入侵检测方法及***，包括：获取工业互联网中各个设备之间传输的网络数据；将获取的网络数据，输入到训练后的入侵检测模型中，模型输出入侵检测结果；其中，所述训练后的入侵检测模型，将网络数据映射到高维特征空间中，判断网络数据样本是否落入最小超球体内部，如果落入最小超球体内部，则表示当前网络数据非入侵数据；如果落入最小超球体外部，则表示当前网络数据为入侵数据。提高了工业互联网入侵检测的准确率。

Description

工业互联网入侵检测方法及***

技术领域

本发明涉及基于特定计算模型的计算机***技术领域，特别是涉及工业互联网入侵检测方法及***。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

工业互联网推动了全球企业加速数字化转型，同时也为工业网络带来了更高的网络安全风险，针对政府、企业、医疗产业等“底层支柱”行业的攻击更加频繁。工业互联网相关***被成功攻击的概率为12%，远高于电子政务***的1%和通信行业的5%。

工业控制***安全事件频繁发生，为有效应对来自外部的网络攻击，工业互联网需要不断提升技术能力来进行防御。目前工业互联网中入侵检测分为两类，分别是误用入侵检测和异常入侵检测。

误用入侵检测又称基于特征的入侵检测，这种检测的前提是假设入侵者的活动可以被某一模式表示，检测的目标就是检测主体活动是否符合这种模式。误用入侵检测的关键是准确描述攻击行为的特征，不需要训练。误用入侵检测检测主体活动不符合攻击行为的特征，则认为该行为为正常行为，因此，它只能检测已知的可描述的攻击行为，不能处理未知攻击。

异常入侵检测技术能够建立用户或***的正常行为轮廓，在早期的异常检测***中通常用统计模型，通过统计模型计算出随机变量的观察值落在一定区间内的概率，并且根据经验规定一个阈值，超过阈值则认为发生了入侵。

目前研究均采用传统的入侵检测方法，由于从工控***提取的网络数据大部分都是正常数据，异常数据较少，样本数据不平衡，导致入侵检测准确率低。

1999年，Tax等首次提出SVDD。2004年，Tax等又对SVDD进行了拓展和更完整的研究。SVDD旨在高维特征空间中确定一个最小超球体，使得该超球体尽可能的包含目标样本，位于超球体外的点为离群点。Cha等提出DW-SVDD，该方法引入了密度权重的概念，即基于目标数据的密度分布，利用k-最近邻(k-NN)方法得到每个数据点的相对密度。该方法在SVDD算法的基础上加入新的权值，对高密度区域的数据点进行优先排序，最终得到最优描述。

尽管 SVDD 提供了适合数据集的灵活描述边界，DW-SVDD加入密度权重，使密度分布对寻找最优SVDD时产生作用，但在特征空间中搜索描述边界存在一些固有的缺陷。例如，样本的各个特征存在差异，对寻找最优SVDD的重要性不同。换句话说，样本的各个特征对寻找最优SVDD的影响默认相同，但是一些特征对寻找最优SVDD更有效，也有一部分效果较低。因此，如果不考虑样本各个特征的重要性的情况下设置描述边界，解决方案会忽略样本特征间的重要性，从而无法对数据集进行最佳描述。

发明内容

为了解决现有技术的不足，本发明提供了工业互联网入侵检测方法及***；提高了工业互联网入侵检测的准确率。

第一方面，本发明提供了工业互联网入侵检测方法；

工业互联网入侵检测方法，包括：

获取工业互联网中各个设备之间传输的网络数据；

将获取的网络数据，输入到训练后的入侵检测模型中，模型输出入侵检测结果；

其中，所述训练后的入侵检测模型，将网络数据映射到高维特征空间中，判断网络数据样本是否落入最小超球体内部，如果落入最小超球体内部，则表示当前网络数据非入侵数据；如果落入最小超球体外部，则表示当前网络数据为入侵数据。

第二方面，本发明提供了工业互联网入侵检测***；

工业互联网入侵检测***，包括：

获取模块，其被配置为：获取工业互联网中各个设备之间传输的网络数据；

入侵检测模块，其被配置为：将获取的网络数据，输入到训练后的入侵检测模型中，模型输出入侵检测结果；

与现有技术相比，本发明的有益效果是：

与现有SVDD相比，提高了该模型在网络入侵检测方面的准确率，性能提高，通过准确率表和ROC曲线对比；在未知入侵数据方面，性能提高，通过缺少两类攻击样本的第二训练集训练模型，通过测试集比较，准确率明显提高。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的方法流程图。

具体实施方式

实施例一

本实施例提供了工业互联网入侵检测方法；

如图1所示，工业互联网入侵检测方法，包括：

S101：获取工业互联网中各个设备之间传输的网络数据；

S102：将获取的网络数据，输入到训练后的入侵检测模型中，模型输出入侵检测结果；

进一步地，所述S101：获取工业互联网中各个设备之间传输的网络数据；其中网络数据，具体包括：针对Modbus TCP协议的网络数据，除了Modbus协议之外，还有CommonIndustrial Protocol（CIP）、EtherNet/IP（Open DeviceNet Vendor Association）、Controller Area Network（CAN）等。

进一步地，所述训练后的入侵检测模型，其网络结构包括：最小超球体，其中最小超球体的球心和半径通过训练得到。

进一步地，所述训练后的入侵检测模型，其训练过程包括：

构建第一训练集、第二训练集、第一测试集和第二测试集；第二训练集是在第一训练集的基础上删除了两类攻击数据；

将第一训练集输入到入侵检测模型中，对模型进行训练，得到初步训练模型；

采用第一测试集和第二测试集对初步训练模型进行测试，如果测试的模型性能指数超过设定阈值，则表示通过训练；

再将第二训练集输入到初步训练模型中，对模型进行训练，得到二次训练模型；

再采用第一测试集和第二测试集对二次训练模型进行测试，如果测试的模型性能指数超过设定阈值，则表示通过训练；将二次训练模型作为最终的入侵检测模型。

进一步地，所述构建第一训练集、第二训练集、第一测试集和第二测试集，具体包括：

捕获工业互联网中各设备之间流经的网络数据，并进行数据化处理；数据集记为

，其中

代表数据化处理后的网络数据，

代表网络数据对应的类别标签，0代表正常数据，1代表攻击数据，攻击数据包含七个攻击组数据。

数据集划分，将数据集划分成两组训练集和两组测试集进行实验。

首先从数据集中随机抽取10%数据作为第一训练集,剔除第一训练集中的两个攻击组数据，将剔除后剩余的第一训练集作为第二训练集，从数据集中随机抽取3%的数据作为第一测试集，从数据集中随机抽取20%的数据作为第二测试集。

利用第一训练集训练模型，通过第一测试集和第二测试集验证模型的性能。利用缺少两个攻击组的第二训练集训练模型；将缺少的两个攻击组数据模拟为未知攻击类型数据，通过第一测试集和第二测试集验证其应对未知攻击类型的性能。通过两个训练集，训练模型，优化模型

、

参数，寻找最优可行点。

进一步地，所述最小超球体的球心和半径通过训练得到，具体包括：

通过对主观赋权和客观赋权进行线性加权求和，得到特征权重；

基于特征权重，构建加权的高斯核函数；

构建最小超球体的优化问题；

基于拉格朗日乘子法和加权的高斯核函数，将优化问题改为对偶问题；

求解对偶问题后，获取所有样本对应的拉格朗日系数；

根据拉格朗日系数，确定支持向量；

根据支持向量样本集合，确定最小超球体的球心和半径。

进一步地，所述主观赋权，将训练集输入到粒子群优化算法中，得到若干组样本特征；将所有的样本特征输入到K最邻近（KNN，K-NearestNeighbor）分类算法中，选择出分类准确率最高的样本特征；设置被选择的样本特征对应的权重为第一权重值，未被选择的样本特征对应的权重为第二权重值。

示例性地，所述第一权重值为1，第二权重值为0.5。

进一步地，所述客观赋权通过标准差描述数据之间的波动大小，数据的标准差越大则权重越高。

客观赋权法，包括：CRITIC分析法、熵权法和标准差法等，这里用的是标准差法，每个特征的权重是每个特征的标准差占所有特征的标准差之和的比例。

。

进一步地，所述通过对主观赋权和客观赋权进行线性加权求和，得到特征权重，具体包括：

构建特征权重

，采用组合赋权法，通过主观赋权

和客观赋权

线性加权合成：

；

其中，

、

为主观赋权和客观赋权的权重。

主观赋权

利用粒子群优化算法多次选择特征，得到多个特征组，通过KNN算法确定选择的特征组，然后设置选择的样本特征对应的权重为1，未被选择的样本特征对应的权重为0.5。

客观赋权

通过标准差方法，描述数据之间的波动性大小，数据的标准差越大说明波动越大，权重应该越高。

进一步地，所述基于特征权重，构建加权的高斯核函数，具体包括：

；

其中，

是两个样本，

表示向量

到向量

的距离，

表示通过向量乘以权重

来计算向量

到向量

的距离，e是常数，

控制核函数的作用范围，是一个提前给定的数。

基于高斯核函数的改进，具体改进是样本向量在求与核函数中心距离时乘以

。

进一步地，所述构建最小超球体的优化问题，具体包括：

构建基于特征权重的支持向量描述（FW-SVDD，Feature Weight Support VectorData Description）：

首先，构建一个最小超球体，SVDD要解决以下优化问题：

；

；

；

其中，

是超球体半径，

是超球体的球心，

是松弛因子，

是一个权衡超球体体积和误分率的惩罚参数，N是样本数量，非线性映射函数

，

是样本，

代表约束条件。

进一步地，所述基于拉格朗日乘子法和加权的高斯核函数，将优化问题改为对偶问题，具体包括：

结合拉格朗日乘子法，并引入加权的高斯核函数

，在正常数据训练集中加入少数的攻击数据来防止过拟合情况；

假设训练集中正常数据和攻击数据的标签分别为

和

，原优化问题的对偶问题为：

；

；

；

；

其中，

是样本

对应的拉格朗日系数，

是对应样本的标签，

是加权的高斯核函数，

是样本对应的拉格朗日系数，n是样本数量。

进一步地，所述求解对偶问题后，获取所有样本对应的拉格朗日系数，具体包括：

求解该对偶问题后，获取所有样本对应的拉格朗日系数。

进一步地，所述根据拉格朗日系数，确定支持向量；根据支持向量样本集合，确定最小超球体的球心和半径，具体包括：

在所有训练样本中，把拉格朗日系数满足

的样本称为支持向量，假设训练数据集中属于支持向量的样本集合为

，那么超球体的球心和半径的计算公式分别为：

；

其中，

，

是对应样本的标签，

是加权的高斯核函数，

是样本对应的拉格朗日系数，n是样本数量，

是球心，

是超球体半径，非线性映射函数

。

测试样本

到超球体球心的距离为：

若

，说明测试样本在超球体上或者内部，属于正常数据；反之则属于攻击数据。

本发明构建了FW-SVDD，有效解决网络数据不平衡这一问题；并且考虑了不同特征对算法的影响，提高了异常检测准确率。

相较于现有的SVDD，FW-SVDD性能更好，准确率更高，且在应对未知攻击数据方面表现更为突出。

如表1和表2，比较了四种算法在两个测试集上的准确率。

表1

表2

根据现有机器学习算法在该方面研究结果表明，支持向量机(SVM) 达到了94.20%的准确率，朴素贝叶斯达到了94.15%的准确率。DW-SVDD和FW-SVDD两个算法准确率均高于前两种机器学习算法；通过第一训练集训练，FW-SVDD的准确率比DW-SVDD有所提升，通过第二训练集训练，准确率有明显提升，因此FW-SVDD的性能较现有的SVDD算法有所提升，在应对未知攻击类型方面有显著效果。

比较三个算法在两个训练集的ROC曲线，FW-SVDD的AUC值都明显高于前两种，FW-SVDD的检测正确率更高，因此FW-SVDD的性能更好。

实施例二

本实施例提供了工业互联网入侵检测***；

工业互联网入侵检测***，包括：