CN114124517B

CN114124517B - 一种基于高斯过程的工业互联网入侵检测方法

Info

Publication number: CN114124517B
Application number: CN202111381750.4A
Authority: CN
Inventors: 白宏钢; 赵欣
Original assignee: Mako Workshop Industrial Technology Beijing Co ltd
Current assignee: Mako Workshop Industrial Technology Beijing Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2024-05-28
Anticipated expiration: 2041-11-22
Also published as: CN114124517A

Abstract

本发明公开了一种基于高斯过程的工业互联网入侵检测方法，包括：利用拉普拉斯特征映射算法对选取的特征进行降维，采用融合柯西变异算子的灰狼优化算法选取最优超参数，通过高斯过程检测异常流量，工控流量包含三类重要特征：基于时间序列、数据包头和数据内容信息。本发明提出了一种新的工业互联网入侵检测方法，可以提前发现工业互联网中的入侵行为，进行防御以阻止设备被攻击破坏。

Description

一种基于高斯过程的工业互联网入侵检测方法

技术领域

本发明属于工业互联网入侵检测技术领域，涉及高斯过程方法，具体为一种基于CGWO优化的可以识别出异常流量的方法。

背景技术

目前，入侵检测模型可分为误用检测模型和异常检测模型(Zhu B,SastryS.SCADA-specific intrusion detection/prevention systems；a survey andtaxonomy,Proc of the 1st Workshop on Secure Control Systems.2010)。误用检测模型通过与已知的异常行为间的匹配程度实现入侵检测。该检测模型误报率低，但漏报率高。对于已知的攻击，该方法能详细、准确地报告出攻击类型，但对未知攻击却效果有限，而且特征库需不断更新。异常检测模型通过与正常行为间的匹配程度实现入侵检测。由于无须对每种入侵行为进行预定义，能有效检测未知的入侵行为。工业控制***的异常检测技术可以分为三类(Garcia-Teodoro P,Diaz-Verdejo J,Macia-Fernandez G,et al.Anomaly-based network intrusion detection:techniques,systems andchallenges.Computers&Security,2009)：基于统计的方法、基于知识的方法和基于机器学习的方法。基于统计的方法包括单变量或多变量模型和时间序列模型等。基于知识的方法包括有限状态机、状态描述语言方法和规则推理等。基于机器学习的方法又可以分为贝叶斯网络、人工神经网络、模糊逻辑、遗传算法、支持向量机等方法。

MIKPSO-SVM(陈冬青,张普含,王华忠.基于MIKPSO-SVM方法的工业控制***入侵检测[J].清华大学学报:自然科学版,2018)算法是陈冬青等人融合了多新息理论，着眼于KPSO算法对粒子位置信息进行预测时仅使用单个新息的局限性，提出了改进的MIKPSO算法，提升了算法的优化精度和全局优化性能。ALO-SVM(陈卓,单欣欣.一种基于ALO-SVM算法的入侵检测方法[J].现代电子技术,2020)算法是陈卓等人提出一种在PCA降维的基础上，基于蚁狮优化算法(The Ant Lion Optimizer，ALO)和支持向量机(Support VectorMachine，SVM)相结合的入侵检测方法，该算法的检测速度有显著提高。

发明内容

本发明目的在于克服现有技术中存在的问题，提出一种基于CGWO的能够优化高斯过程的工业互联网入侵检测方法，该方法特别适用于Modbus/TCP协议。

概括地说，本发明方法通过引入拉普拉斯特征映射的方法，利用微分几何中的Laplacian-Beltrami算子获得相应的空间嵌入函数表示，以完成高维数据到低维空间的投影，实现数据降维；然后，通过引入基于柯西变异算子的灰狼优化算法不断优化超参数的取值；最后通过高斯过程实现工业互联网入侵***的检测，从而提前发现入侵行为，并进行防御以阻止设备被攻击破坏。

为了实现本发明的目的，采用的技术方案如下：

一种基于高斯过程的工业互联网入侵检测方法，包括以下步骤：

(1)、在工业互联网中部署监控流量的节点，不间断获取工控流量数据；

(2)、将流量的特征分为三类：基于时间序列、数据报头、数据内容；按照类别分别选出具有代表性的特征；

(3)、采用拉普拉斯特征映射算法对步骤(2)选取的特征进行降维处理；

(4)、采用灰狼优化算法选取最优参数；

(5)、采用柯西变异算子以提高灰狼算法的全局搜索能力，加大寻优范围，获取最优超参数；

(6)、根据步骤(5)获取的最优超参数，采用高斯过程进行预测，根据检测结果，指导工业互联网安全防护升级，尤其对于入侵严重的节点进行加固和改造。

本发明方法根据无法通过流量直接准确识别出设备是否被攻击，同时普通机器学习易陷入局部最优，分析效果较差，而且难以准确识别实际情况，引入了灰狼优化算法，通过借鉴灰狼种群的捕食机制和等级制度，不断优化选择的参数，最后通过高斯过程分步骤识别出工业互联网是否被入侵。

其中步骤(3)，工控***数据特征经过选择后依然是高维数据集，采用拉普拉斯特征映射进行降维(Laplacian Eigenmaps，LE)，利用微分几何中的Laplacian-Beltrami算子获得相应的空间嵌入函数表示，以完成高维数据到低维空间的投影。降维过程如下：

首先是构建加权无向图G：给定高维数据集合X＝{x₁,x₂,...,x_n}，采用K近邻方法构造无向图G，令N_k(x_i)表示样本x_i的K近邻集，则K近邻公式如式(1)：

N_k(x_i)＝{x_j∈X|||x_i-x_j||²≤d_k(x_i)} (1)

其中，N_k(x_i)表示样本x_i的k近邻集，d_k(x_i)表示样本x_i的第k距离。

其次是确定边的权重w：对于权重的确定采用0-1权值方法，如式(2)所示：

其中，N_k(x_j)表示样本x_j的k近邻集，N_k(x_i)表示样本x_i的k近邻集。

最后是计算样本点的低维嵌入坐标：计算拉普拉斯矩阵的特征值及特征向量，设高维数据集合X的低维嵌入映射为Y＝{y₁,y₂,…,y_n}，LE目标是使得构造过程中损失函数最小，如式(3)所示：

损失函数最小保证了高维中的邻近数据点在低维中也邻近，对拉普拉斯无向图进行广义特征值分解，如果高维数据集降至m维空间，则降维后的映射结果Y由最小的m个非零特征值对应的向量组成，则任一样本x_i∈X对应的低维坐标表示为y_i＝{y₁,y₂,…,y_m}。

其中步骤(4)，灰狼优化算法借鉴了灰狼种群的捕食机制和等级制度，第一层是头狼，称为α，负责领导整个群体，对捕猎行为、栖息地具有决定权；第二层被称为β，协助头狼做出决策，是头狼最好的接替者；第三层称为δ，负责放哨、侦察任务；最后一层为ω，主要负责种群内部的平衡。

在狩猎过程中首先需要对猎物进行包围，则灰狼与猎物之间的距离如式(4)：

D_p＝μ·X_p(t)-X(t) (4)

其中，t为迭代次数；X_p(t)为第t代猎物的位置，即全局最优解；X(t)为第t代灰狼个体的位置，常数μ为摆动因子，如式(5)：

μ＝2·r₁,r₁∈(0,1) (5)

其中，r₁为随机变量；

根据式(6)更新灰狼个体的位置：

X(t+1)＝X_p(t)-A·D (6)

其中，X(t+1)为灰狼个体的新位置，D为灰狼与猎物之间的距离，A为收敛因子，如式(7)：

A＝2·b·r₂-b,r₂∈(0,1) (7)

其中，r₂为随机变量，b为随迭代次数增加值从2线性降到0。

当灰狼包围猎物后，α带领β和δ指导狼群追捕猎物；由于对猎物的位置(最优解)并不清楚，因此，模拟灰狼的狩猎行为，利用α、β和δ三者的位置不断逼近猎物的位置；α、β和δ位置的更新公式如下：

其中，D_α、D_β、D_δ分别表示α、β、δ狼与其它狼群个体间的距离，X_p(t+1)表示猎物的位置(最优解)。X₁、X₂和X₃分别表示α、β和δ三者的位置。X_α(t)、X_β(t)和X_δ(t)分别表示t时刻α、β和δ三者的位置，A₁、A₂和A₃分别表示t时刻α、β和δ三者的收敛因子，μ₁、μ₂和μ₃分别表示t时刻α、β和δ三者的摆动因子。

其中步骤(5)中，基于柯西变异的灰狼优化算法的步骤为：

首先，执行原基本灰狼优化算法；

其次，进入循环迭代后，当灰狼群体中相邻五次迭代的没有差别的最优值都作为历史最优值被记录下来时，认为算法停滞，则进行柯西变异；

最后，变异操作：先将最优灰狼个体的个数复制到原先种群规模，然后进行柯西变异，更新群体的位置，进行二次寻优，如式(11)：

其中，x₀、y₀表示个体的初始位置；x′₀,y′₀表示添加柯西扰动后的位置。

其中步骤(6)，高斯过程，X＝[x₁,x₂,...,x_n]^T为训练数据的输入变量，而Y＝[y₁,y₂,...,y_n]^T为训练数据的输出变量，f(x)函数服从高斯分布，对数据进行预处理，使其均值为零，则高斯先验分布的输出观测值可以表示为：

其中y为噪声污染后的观测值，噪声K为满足对称正定要求的n阶协方差矩阵，I_n为单位矩阵；

采用平方指数协方差函数，其公式如下：

其中，l²为方差尺度，为信号方差，/>为噪音方差，δ_xx'为符号函数。

与现有技术相比，本发明的优势在于：

1、本发明引入了灰狼优化算法模型，与柯西变异算子相结合，避免了参数陷入局部最优的情况。

2、本发明将高斯过程应用到了工业互联网流量检测，该方法与神经网络、支持向量机相比，具有易实现、超参数自适应获取、非参数推断灵活以及输出具有概率意义等优势。

3、本发明提高了工业互联网入侵检测的检测准确率以及降低了其漏报率与误报率。

本发明设计合理，提出的一种新的工业互联网入侵检测方法，可以提前发现工业互联网中的入侵行为，进行防御以阻止设备被攻击破坏。

附图说明

图1表示本发明方法的CGWO-GP模型框架图。

图2表示Modbus/TCP报文格式。

图3表示狼群等级结构。

图4表示高斯过程。

具体实施方式

以下结合附图通过具体实施例详细说明本发明，但不构成对本发明的限制。

一种基于高斯过程的工业互联网入侵检测方法，在本实施例中，包括：流量数据预处理和构建CGWO-GP模型。其中，CGWO-GP模型分为两个部分：结合柯西变异算子的灰狼优化算法、高斯过程。CGWO-GP模型框架图如图1所示。

具体包括以下步骤：

步骤(1)、在工业互联网中部署监控流量的节点，不间断获取工控流量数据。

本实施例中，获取流量数据：模拟多种攻击模式攻击采用了Modbus/TCP协议的工业控制***获取流量数据。Modbus/TCP是Modbus系列通信协议的派生协议，在TCP/IP上进行Modbus报文传输，协议的用途是为PLC模块、I/O模块提供通信服务，广泛应用于工控领域。Modbus/TCP采用典型的主从通信结构。每次通信都是客户端先发送指令，可以是广播，或是向特定服务端的单播，服务端响应指令，并按要求应答，或者报告异常。当客户端不发送请求时，服务端不会发出数据，服务端和服务端之间不能直接通信。Modbus/TCP报文格式如图2所示。

把“数据采集探针”(数据来集探针是专门用于获取网络链路流量数据的硬件设备，属现有技术)部署在站控层的汇聚交换机旁，通过端口镜像方式复制该工业以太网中的通讯报文。通过Wireshark工具对获取的数据进行综合分析。

步骤(2)、在对特征进行选择时，需要先进行数据的清理，选择出合适的特征值；将流量的特征分为三类：基于时间序列、数据报头、数据内容；按照类别选出具有代表性的特征。

步骤(3)、采用拉普拉斯特征映射算法对步骤(2)选取的特征进行降维处理。

本实施例中，数据预处理：工控***数据特征经过选择后依然是高维数据集，在高维数据情形下会出现数据样本稀疏，距离计算困难的问题。因此，需要对其进行降维，采用拉普拉斯特征映射进行降维(Laplacian Eigenmaps，LE)，利用微分几何中的Laplacian-Beltrami算子获得相应的空间嵌入函数表示，以完成高维数据到低维空间的投影。相比于流形学习的其他几种典型算法，LE含有更多的结构信息，更能发现数据内在规律，尤其对于不均匀的数据也能找出其中在低维的流形结构，具有良好的鲁棒性。根据工控***数据的特点，在特征选择的基础上，采用拉普拉斯特征映射算法对数据特征进行提取实现数据的降维。具体降维过程如下：

N_k(x_i)＝{x_j∈X|||x_i-x_j||²≤d_k(x_i)} (1)

然后根据降维后的流量特征，利用CGWO-GP算法对工控流量数据进行异常检测，识别出异常数据。

构建CGWO-GP模型：GWO算法具有全局搜索能力强、收敛速度快而且参数少易实现的特点，此外，它简单、易用、灵活、可扩展，并且具有在搜索过程中在探索与开发之间达到适当平衡的特殊功能，从而带来了良好的融合。GWO算法借鉴了灰狼种群的捕食机制和等级制度。灰狼属于群居性动物，一般种群数量为5至12只。严格的等级制度使得灰狼个体有着明确的分工。如图3所示狼群的等级结构。尽管灰狼优化算法的性能优于其他算法，但也存在着后期易陷入局部最优的问题。在具体实例中采用柯西变异算子以提高灰狼算法的全局搜索能力，加大寻优范围。超参数的取值是直接影响预测结果的。高斯过程是将多元高斯分布扩展为无限数量的随机变量。它可以看作是随机函数的分布，具体高斯过程如图4所示。是一种非参数非线性的贝叶斯预测模型，适用于处理具有高维度、小样本、非线性特征的数据集。而且该模型无需指定输入数据集的大小和参数数量，对输入数据集具有良好的适应性。

步骤(4)、采用灰狼优化算法选取最优参数。

灰狼优化算法借鉴了灰狼种群的捕食机制和等级制度，一般种群数量为5至12只，第一层是头狼，称为α，负责领导整个群体，对捕猎行为、栖息地等具有决定权；第二层被称为β，协助头狼做出决策，是头狼最好的接替者；第三层称为δ，负责放哨、侦察等任务；最后一层为ω，主要负责种群内部的平衡。

灰狼优化算法模型为模拟灰狼群的狩猎行为。在狩猎过程中首先需要对猎物进行包围，则灰狼与猎物之间的距离如式(4)所示：

D_p＝μ·X_p(t)-X(t) (4)

其中，t为迭代次数；X_p(t)为第t代猎物的位置(全局最优解)；X(t)为第t代灰狼个体的位置，常数μ为摆动因子，如式(5)：

μ＝2·r₁,r₁∈(0,1) (5)

其中，r₁为随机变量。

根据式(6)更新灰狼个体的位置：

X(t+1)＝X_p(t)-A·D (6)

A＝2·b·r₂-b,r₂∈(0,1) (7)

其中，r₂为随机变量，b为随迭代次数增加值从2线性降到0。

步骤(5)、采用柯西变异算子以提高灰狼算法的全局搜索能力，加大寻优范围，获取最优超参数。

如式(14)所示为柯西分布的概率密度函数：

基于柯西变异的灰狼优化算法的步骤为：

首先，执行原基本灰狼优化算法；

步骤(6)、根据步骤(5)获取的最优超参数，采用高斯过程进行预测(其性质由协方差函数来确定，协方差函数如式(13))。

其中，高斯过程，X＝[x₁,x₂,...,x_n]^T为训练数据的输入变量，而Y＝[y₁,y₂,...,y_n]^T为训练数据的输出变量，f(x)服从高斯分布，为了方便计算，通常会对数据进行预处理，使其均值为零，则高斯先验分布的输出观测值可以表示为：

一般采用平方指数协方差函数，其公式如下：

最后根据检测结果，指导工业互联网安全防护升级，尤其对于入侵严重的节点进行加固和改造。

总之，本发明所述的基于高斯过程的工业互联网入侵检测方法，利用拉普拉斯特征映射算法对选取的特征进行降维，采用融合柯西变异算子的灰狼优化算法选取最优超参数，通过高斯过程检测异常流量。工控流量包含三类重要特征：基于时间序列、数据包头和数据内容信息。特征选择后采用拉普拉斯特征映射利用微分几何中的Laplacian-Beltrami算子获得相应的空间嵌入函数表示，以完成高维数据到低维空间的投影。灰狼优化算法借鉴了灰狼种群的捕食机制和等级制度。严格的等级制度使得灰狼个体有着明确的分工，融合柯西变异算子不断优化超参数。高斯过程是将多元高斯分布扩展为无限数量的随机变量。它可以看作是随机函数的分布，而且该模型无需指定输入数据集的大小和参数数量，对输入数据集具有良好的适应性。最终通过高斯过程以识别出是否为异常流量。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照本发明实施例进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明的技术方案的精神和范围，其均应涵盖本发明的权利要求保护范围中。

Claims

1.一种基于高斯过程的工业互联网入侵检测方法，其特征在于：包括以下步骤：

(2)、将流量的特征分为三类：基于时间序列、数据包头、数据内容；按照类别选出具有代表性的特征；

具体降维过程如下：

N_k(x_i)＝{x_j∈X|||x_i-x_j||²≤d_k(x_i)} (1)

其中，N_k(x_i)表示样本x_i的k近邻集，d_k(x_i)表示样本x_i的第k距离；

其中，N_k(x_j)表示样本x_j的k近邻集，N_k(x_i)表示样本x_i的k近邻集；

最后是计算样本点的低维嵌入坐标：计算拉普拉斯矩阵的特征值及特征向量，设高维数据集合X的低维嵌入映射为Y＝{y₁,y2,…,y_n}，LE目标是使得构造过程中损失函数最小，如式(3)所示：

损失函数最小保证了高维中的邻近数据点在低维中也邻近，对拉普拉斯无向图进行广义特征值分解，如果高维数据集降至m维空间，则降维后的映射结果Y由最小的m个非零特征值对应的向量组成，则任一样本x_i∈X对应的低维坐标表示为y_i＝{y1,y2,…,y_m}；

(4)、采用灰狼优化算法选取最优参数；

灰狼优化算法借鉴了灰狼种群的捕食机制和等级制度，第一层是头狼，称为α，负责领导整个群体，对捕猎行为、栖息地具有决定权；第二层被称为β，协助头狼做出决策，是头狼最好的接替者；第三层称为δ，负责放哨、侦察任务；最后一层为ω，主要负责种群内部的平衡；

在狩猎过程中首先需要对猎物进行包围，则灰狼与猎物之间的距离如式(4)所示：

D_p＝μ·X_p(t)-X(t) (4)

μ＝2·r₁,r₁∈(0,1) (5)

其中，r₁为随机变量；

根据式(6)更新灰狼个体的位置：

X(t+1)＝X_p(t)-A·D (6)

A＝2·b·r₂-b,r₂∈(0,1) (7)

其中，r₂为随机变量，b为随迭代次数增加值从2线性降到0；

当灰狼包围猎物后，α带领β和δ指导狼群追捕猎物；由于对猎物的位置并不清楚，因此，模拟灰狼的狩猎行为，利用α、β和δ三者的位置不断逼近猎物的位置；α、β和δ位置的更新公式如下：

其中，D_α、D_β、D_δ分别表示α、β、δ狼与其它狼群个体间的距离；X_p(t+1)表示猎物的位置，即最优解；X₁、X₂和X₃分别表示α、β和δ三者的位置；X_α(t)、X_β(t)和X_δ(t)分别表示t时刻α、β和δ三者的位置；A₁、A₂和A₃分别表示t时刻α、β和δ三者的收敛因子；μ₁、μ₂和μ₃分别表示t时刻α、β和δ三者的摆动因子；

基于柯西变异的灰狼优化算法的步骤为：

首先，执行原基本灰狼优化算法；

其中，x₀、y₀表示个体的初始位置；x'₀,y'₀表示添加柯西扰动后的位置；

(6)、根据步骤(5)获取的最优超参数，采用高斯过程进行预测，根据检测结果，指导工业互联网安全防护升级，尤其对于入侵严重的节点进行加固和改造；

其中，高斯过程，X＝[x₁,x₂,...,x_n]^T为训练数据的输入变量，而Y＝[y₁,y₂,...,y_n]^T为训练数据的输出变量，f(x)服从高斯分布，对数据进行预处理，使其均值为零，则高斯先验分布的输出观测值可以表示为：

采用平方指数协方差函数，其公式如下：