CN112395168A

CN112395168A - 一种基于Stacking的边缘侧业务行为识别方法

Info

Publication number: CN112395168A
Application number: CN202011373177.8A
Authority: CN
Inventors: 刘贤达; 王昆昆; 赵剑明; 陈春雨; 张厦千; 王天宇; 张博文
Original assignee: Shenyang Institute of Automation of CAS; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Shenyang Institute of Automation of CAS; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-23

Abstract

本发明提出的是一种基于Stacking集成的边缘侧业务行为识别方法。该方法包含：获取边缘侧行为特征，根据边缘侧行为特征对边缘侧行为进行标签化定义，获取边缘侧行为特征数据库，构建基于PCA以及Stacking集成框架的边缘侧行为识别模型。PCA算法能够将高维的边缘侧行为特征数据库进行特征工程处理，获得模型算法所需要的优良数据。Stacking集成算法通过基模型对数据库的进一步处理，得到新的数据集供次级学习器进行训练，能够大幅度提高识别准确率，并且避免过拟合的问题。该发明方法能够对边缘侧数据行为进行建模，能对边缘侧行为动作高效识别。

Description

一种基于Stacking的边缘侧业务行为识别方法

技术领域

本发明属于工业控制网络信息安全领域，具体说是一种基于Stacking集成的边缘侧业务行为识别方法。

背景技术

目前国内外关于基于行业特征知识库的边缘侧行为检测技术的研究比较空白，现在边缘侧设备行为检测及建模方法都是基于机器学习算法的。现在用于边缘侧设备行为检测的方法有基于支持向量机的检测，它的数据空间与时间代价比较大，需要大量的存储空间对多种动作状态识别效果不太好；基于朴素贝叶斯方法的行为状态检测，在特征个数较多以及特征之间相关性较大时，设备动作识别准确度较低；基于决策树算法的检测预测结果不稳定，方差较大，会导致设备动作识别错误。

发明内容

本发明目的是提供一种面向边缘侧业务行为识别方法。通过追踪检测边缘侧设备的输出数据，判断云范围内设备是否发生故障，以及故障报警机制。

本发明为实现上述目的所采用的技术方案是：

一种基于Stacking的边缘业务行为识别方法，包括以下步骤：

获取边缘侧设备行为数据，并对边缘侧设备行为数据进行预处理；

使用集成规则树模型对预处理后的边缘侧设备行为数据进行特征选择；

使用Stacking框架构建集成学习边缘侧行为识别模型，并将特征选择后的边缘侧设备行为数据作为模型输入，通过模型训练，根据模型预测结果，得到当前时刻边缘侧设备的动作行为状态。

所述边缘侧设备行为数据包括：时间，设备状态，动作状态的特征维度

所述边缘侧设备行为数据进行预处理为使用PCA降维的方法对边缘侧设备行为数据进行降维，具体为：

对边缘侧设备行为数据进行归一化处理；

计算归一化后的边缘侧设备行为数据中特征间的协方差矩阵；

计算归一化后的边缘侧设备行为数据中特征的特征值和特征向量；

将特征值从大到小排列，从最大特征值开始，选取k个特征值，得到k维的边缘侧设备行为数据，根据特征值计算得到的k个特征向量的集合即为降维后的边缘侧设备行为数据。

所述使用Stacking框架构建集成学习边缘侧设备行为识别模型具体为：

将边缘侧设备行为数据分为训练集与测试集，对训练集采取K折交叉验证的方式对基模型进行训练；

使用训练集对基学习器进行训练，输出的预测值作为新的样本的一个特征，K折交叉验证得到K个特征，将得到的所有特征作为次级学习器的输入继续训练；测试集通过基学习器训练产生新的测试集供次级学习器预测；

选取随机森林算法，Adaboost算法以及K-近邻算法即KNN算法用作基学习器；使用线性回归算法用作次级学习器，通过Stacking方法将基学习器模型与次级学习器模型进行集成；训练集经过三个基学习器训练，输出新的数据特征作为次级学习器的输入，新的训练集通过次级学习验证得到最终的预测结果。

所述随机森林算法具体为：

从训练集或测试集中通过bootstrap方法进行自采样，得到新的训练集或测试集，根据新的训练集或测试集构建决策树；

建立特征随机子集合：在决策树进行节点***时，从全部特征中随机抽取若干个特征构成特征随机子集合，在该子集合中寻找满足设定要求的特征建立决策树；

对构建的多棵决策树的预测结果进行多数投票，少数服从多数，得到最终预测结果即工控设备的此刻动作状态。

所述Adaboost算法具体为：

初始化训练集中的样本权重，设有m个样本，则每个样本权重为1/m；

循环训练基学习器，若样本已经满足设定的分类条件，则在构造下一个训练集时，降低该样本权重；若某个样本不满足设定的分类条件，则提高该样本权重，更新过权重的训练集被用于训练下一个基学习器；

判断基学习器的准确率是否达到50％，若准确率低于50％，则该基学习器被抛弃，否则，保留该基学习器；

循环训练过程，直到基学习的数量达到事先的指定值；

将训练得到的若干基学习器组合成强学习器。

一种基于Stacking的边缘业务行为识别***，包括：

数据获取模块，用于获取边缘侧设备行为数据；

特征选择模块，用于使用集成规则树模型对所述边缘侧设备行为数据进行特征选择；

模型训练模块，用于使用Stacking框架构建集成学习边缘侧行为识别模型，并将特征选择后的边缘侧设备行为数据作为模型输入，通过模型训练，根据模型预测结果，得到当前时刻边缘侧设备的动作行为状态。

所述模型训练模块包括基学习器和次级学习器，其中，随机森林算法，Adaboost算法以及K-近邻算法即KNN算法用作基学习器，线性回归算法用作次级学习器，通过Stacking方法将基学习器模型与次级学习器模型进行集成；训练集经过三个基学习器训练，输出新的数据特征作为次级学习器的输入，新的训练集通过次级学习验证得到最终的预测结果。

所述数据获取模块中的边缘侧设备行为数据包括：时间，设备状态，动作状态的特征维度。

所述特征选择模块用于：

对边缘侧设备行为数据进行归一化处理；

所述模型训练模块用于：

本发明具有以下有益效果及优点：

1.本发明针对边缘侧设备业务的行为识别问题，提出的一种基于集成学习学习方法框架的边缘侧设备业务行为识别方法，使用PCA与集成规则树和随机森林Adaboost,KNN,逻辑回归等学习算法，对边缘侧设备正常行为进行建模，采集实时监测的边缘侧设备数据来预测***状态偏离正常的程度作为***态势要素，能够正确预测***的安全态势，对边缘侧设备行为能够快速识别，工控网络安全人员可以根据边缘侧设备的行为状态更好地实施安全防护手段。为***管理人员提供可靠的决策信息，及时的做出判断预防危险事件的发生。。

附图说明

图1为本发明中采用PCA对边缘侧设备数据进行降维原理示意图；

图2为本发明中采用随机森林分类中心过程示意图；

图3为本发明中采取的Stacking集成框架原理图；

图4为本发明中基于Stacking集成的边缘侧设备行为识别方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

本发明的目的提供一种面向边缘侧设备行为识别方法。通过追踪检测边缘侧设备的输出数据，判断边缘侧设备是否发生故障，以及故障报警机制。本文提出基于有监督学习的集成学习算法，通过PCA和Stacking集成框架有监督学习算法对边缘侧设备的正常行为进行建模，并以此作为基准来得到每个时刻边缘侧设备状态与正常工况的偏离程度来作为安全态势要素，在时间维度上对其进行融合计算，得到***当前态势，将检测的数据行为特征与行为特征库进行对比，识别当前边缘侧设备的行为状态，动作行为状态包含不仅限于初始状态，正常运行，出现故障等情况。

本发明的研究成果通过stacking集成学习框架，把几种算法融合起来，新生成的学习算法准确率更高，泛化性能更好，使边缘侧设备业务行为识别准确率更高。能够对设备的多种动作状态识别具有很好的效果。

本发明主要针对边缘侧设备业务行为识别开展基于行为特征知识库的检测方法研究，通过主成分描述以及专家经验知识建立生产控制行为模型，通过基于设备行为特征提取算法的研究，结合建立的行为特征知识库实现一种高效的边缘侧设备行为建模及识别模型。对边缘侧设备特征数据进行特征工程处理，采用PCA方法对数据进行清洗降维，采用规则树模型进行特征选择，将进行过特征工程选择后的数据采用Stacking集成的框架建立边缘侧设备业务行为识别模型，采用网格搜索交叉验证的方式逐步调优模型参数，建立的一种基于Stacking集成的边缘侧设备业务行为识别方法。

本发明解决其技术问题所采用的技术方案是：

1.边缘侧设备数据具有冗余性、互补性、以及关联性，维度高会增加算法运行时间，需要采用降维的方法从多维度感知数据中抽取主要特征对边缘侧设备数据进行进行数据预处理，对数据缺失值进行可视化，并对数据进行降噪处理，采用PCA方法对数据进行降维，相似的特征被合并掉，减少特征的个数，降低数据维度。使投射误差最小，转换后的数据维度都是新生的，有利于防止过拟合的出现。如图1所示，PCA降维步骤如下：

1a)对连续型的原始数据进行均值归一化，保证每一个维度的数据量级是一样的。

1b)求特征的协方差矩阵：

其中，X为特征值，Y为预测值，i为第i个维度，n为维度总数。

1c)根据SVD求取特征值和特征向量:

(A^TA)ν_i＝λ_iν_i

其中，A为特征值，ν为特征向量，λ为特征值，δ为奇异值，μ为左奇异向量。

1d)按特征值从大到小排列。

1e)选择k个高方差特征。

2.使用集成规则树模型对已压缩后的边缘侧设备数据进行特征选择，规则树模型是用过寻找适当的***点，把目标数据划分为更多、更小规模的同质化更强的组。***点的选择包括数据全体特征的选择和单特征中***点的划分，度量纯度的方法有Gini(基尼系数)和交叉熵，规则树模型就是通过不断的利用不同特征以及随机抽样的不用样本生成各种不同的树模型，从而保证了结果的泛化性，然后根据每个特征作为***点在不同规则树模型中平均基尼系数改变量，作为特征重要性依据，生成特征重要性指标。这种基于规则树的方法在生成较多树模型后，对工艺数据中的噪声有很强的鲁棒性。

3.使用Stacking框架进行构建集成学习边缘侧设备行为识别模型。Stacking算法思想是先用初始训练集训练基学习器，由基学习器生成一个新的样本集去训练次级学习器的一个组合。Stacking集成基学习器选用不同类别的算法，算法之间关联度低。对训练样本一般选用交叉验证法与留一法进行训练。将数据集首先分为训练集与测试集。一般选取样本的1/5做测试集，剩余的4/5做训练集。对训练集采取交叉验证的方式对基模型进行训练预测，每个基模型的预测结果当作次级学习器的训练数据的一个特征，新的样本的标签仍然是原样本的标签。所有的基模型训练以后，产生一个新的数据集来供次级学习器训练。同理测试集对每个基模型进行训练，预测的结果求取均值作为新的样本的一个特征，再对次级学习器进行预测。一般选用多响应线性回归算法(MLR)用作次级学习器。

如图3所示，Stacking算法步骤如下：

3a)将数据集分为训练集与测试集，一般选取样本的1/5做测试集，剩余的4/5做训练集。对训练集采取K折交叉验证的方式对基模型进行训练。一般采取5折交叉验证的方式。四份用作训练集，一份用作测试集。

3b)训练集对基模型进行训练，预测值作为新的样本的一个特征，5折交叉验证可以得到5个特征。将样本原来的标签仍当作样本标签。训练集经过基模型训练生成一个新的训练集。测试集也通过基模型训练产生新的测试集供次级学习器预测。

3c)选取随机森林算法，Adaboost算法，KNN算法用作基学习器。线性回归算法用作次级学习器。

3d)将集成的学习框架对数据进行预测。

AdaBoost算法步骤：

1)给定训练集，初始化数据样本权重。设有m个样本，每个样本权重为1/m；

2)循环训练基学习器，若样本已经被准确地分类，那么在构造下一个训练集中，它的权重就被降低；若某个样本点被分类错误，那么它的权重就得到提高。权重更新过权重的训练集被用于训练下一个基学习器；

3)判断基学习器的准确率是否达到50％，准确率低于50％，基学习器被抛弃；

4)循环训练过程，直到基学习的数量达到事先指定的T值；

5)将各个训练得到的基学习器组合成强学习器。基学习器的训练结束后，增加分类准确率大的基学习器的权重，使其在最终的分类函数中起决定作用，而降低分类准确率小的基学习器的权重，使其在最终的分类函数中起着较小的决定作用。

其中基学习器的线性组合为：

H(x)为基模型线性组合，α_t为权重，h_t(x)为基分类器。

迭代的最终结果是使损失函数最小化:

l_exp(H|D)＝E_X～D[e^-f(x)H(x)] (2)

l_exp为数学期望，D是分布，e是泰勒展开

H(x)使损失函数最小化，即损失函数对H(x)求偏导，使偏导值为0可得到

P为错误率。

Sign(H(x))为贝叶斯最优错误率，P为错误率。

此时损失函数最小，分类错误率也达到最小，集成模型效果达到最优。

如图2所示，随机森林算法过程步骤如下：

1)从样本集D中通过bootstrap方法进行自采样，得到新的样本集D`，根据新的样本集构建决策树。

2)建立特征随机子集合，在决策树进行节点***时，从全部特征中随机抽取K个特征构成特征随机子集合，在这个子集合中寻找最优特征建立树。

3)对构建的多棵树的预测结果进行多数投票，得到预测结果。

随机森林算法简单，对于处理多分类任务效果更佳，它是基于决策树并行的集成算法，算法的时效性更高。方差比较小，泛化性能与拓展性比较好。随机森林可以对每个特征重要程度进行排序，对部分特征值缺少不敏感。在噪音比较大特征上，容易陷入过拟合。

4.对每个实时检测到的设备数据做同样的数据预处理，经过特征降维与特征选择，用交叉验证方法不断调优。主要参数有max_features(最大特征数)，max_depth(决策树最大深度)，min_weight_fraction_leaf(叶子结点最小权重)。通过不断调节参数，使模型效果达到最优，用模型预测Y值，Y值为0，代表设备正常运行，Y值为1，设备发生异常行为，会导致故障发生，对***发出报警提示。

1.PCA降维

边缘侧设备数据具有冗余性、互补性、以及关联性，有些特征含有大量缺失值，不适合直接进行数据分析。因此采用PCA对数据进行降维。PCA是统计学中一种数据集简化技术，它可以去除数据中大量的冗余特征。对边缘侧设备行为特征数据特征进行压缩，由原始的n维压缩成m维，提高模型的泛化能力。主要是计算特征间的协方差矩阵，求取特征的特征值与特征向量，将特征值从大到小排序。根据需要选择特征的维度去选择各个特征。

先对连续性数据进行均值归一化处理，求取特征的协方差矩阵，根据SVD求取特征值与特征向量，将特征值从大道小排序，选取特征值最大的M个特征向量作为样本映射矩阵。

2.集成树规则特征选择

使用集成规则树模型对已压缩后的数据进行特征选择，规则树模型是用过寻找适当的***点，把目标数据划分为更多、更小规模的同质化更强的组。***点的选择包括数据全体特征的选择和单特征中***点的划分，度量纯度的方法有Gini(基尼系数)和交叉熵，规则树模型就是通过不断的利用不同特征以及随机抽样的不用样本生成各种不同的树模型，从而保证了结果的泛化性，然后根据每个特征作为***点在不同规则树模型中平均基尼系数改变量，作为特征重要性依据，生成特征重要性指标。这种基于规则树的方法在生成较多树模型后，对数据中的噪声有很强的鲁棒性。

3.Stacking集成框架构建

Stacking算法思想是先用初始训练集训练基学习器，由基学习器生成一个新的样本集去训练次级学习器的一个组合。Stacking集成基学习器选用不同类别的算法，算法之间关联度低。对训练样本一般选用交叉验证法与留一法进行训练。将数据集首先分为训练集与测试集。一般选取样本的1/5做测试集，剩余的4/5做训练集。对训练集采取交叉验证的方式对基模型进行训练预测，每个基模型的预测结果当作次级学习器的训练数据的一个特征，新的样本的标签仍然是原样本的标签。所有的基模型训练以后，产生一个新的数据集来供次级学习器训练。同理测试集对每个基模型进行训练，预测的结果求取均值作为新的样本的一个特征，再对次级学习器进行预测。一般选用多响应线性回归算法(MLR)用作次级学习器。

Stacking算法步骤如下：

1)将数据集分为训练集与测试集，一般选取样本的1/5做测试集，剩余的4/5做训练集。对训练集采取K折交叉验证的方式对基模型进行训练。一般采取5折交叉验证的方式。四份用作训练集，一份用作测试集。

2)训练集对基模型进行训练，预测值作为新的样本的一个特征，5折交叉验证可以得到5个特征。将样本原来的标签仍当作样本标签。训练集经过基模型训练生成一个新的训练集。测试集也通过基模型训练产生新的测试集供次级学习器预测。

3)选取随机森林算法，Adaboost算法，KNN算法用作基学习器。线性回归算法用作次级学习器。

4)将集成的学习框架对数据进行预测。

4.工控设备行为建模及识别方法，如图4所示，

具体步骤如下：

4a)从历史数据库中取出***正常运行时段的工控设备数据集，根据设备特征行为知识对数据进行标签化处理；

4b)利用PCA方法对数据进行压缩降维，过滤掉冗余信息，保留主要信息的数据；

4c)对经过特征变换之后的数据用随机森林方法进行预测，每个规则树代表着一种工况，整合模型中每类票数比例就是预测概率向量，每次迭代，算法都会基于当前样本权重发现最佳的分类器，在第k轮迭代中被错分的样本将在k+1轮迭代中被分配更高的权重，被正确分类的样本在下一轮的迭代中权重会降低，通过一次次的迭代不断调整各分类器的权重，直至得到最优模型。

4d)对每个实时检测的数据进行降维处理，经过Stacking集成设备行为识别模型预测得到一个预测值，定义设备行为状态有0，1，2，3，4种行为状态，根据预测值可以判断工控设备此刻的行为状态。

边缘侧设备数据集属于高维数据，有许多维度之间存在信息冗余与特征值缺失的现象，不能直接用于分类分析，先对数据进行常量维度删减并对其进行数值归一化处理，再用PCA方法进行数据降维，调整基学习器模型参数，使集成学习框架达到最优。

根据本发明所提集成学习框架算法边缘侧行为识别方法，根据预测的结果，可以有效地判别设备此时的状态行为，能够帮助网络安全人员可更好地实施安全防护手段。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于Stacking的边缘业务行为识别方法，其特征在于，包括以下步骤：

获取边缘侧设备行为数据；

使用集成规则树模型对所述边缘侧设备行为数据进行特征选择；

2.根据权利要求1所述的一种基于Stacking的边缘业务行为识别方法，其特征在于，所述边缘侧设备行为数据包括：时间，设备状态，动作状态的特征维度。

3.根据权利要求1所述的一种基于Stacking的边缘业务行为识别方法，其特征在于，在获取边缘侧设备行为数据之后，还包括：

对边缘侧设备行为数据进行归一化处理；

4.根据权利要求1所述的一种基于Stacking的边缘业务行为识别方法，其特征在于，所述使用Stacking框架构建集成学习边缘侧设备行为识别模型具体为：

5.根据权利要求4所述的一种基于Stacking的边缘业务行为识别方法，其特征在于，所述随机森林算法具体为：

6.根据权利要求4所述的一种基于Stacking的边缘业务行为识别方法，其特征在于，所述Adaboost算法具体为：

循环训练过程，直到基学习的数量达到事先的指定值；

将训练得到的若干基学习器组合成强学习器。

7.根据权利要求1所述的一种基于Stacking的边缘业务行为识别***，其特征在于，包括：

数据获取模块，用于获取边缘侧设备行为数据；

8.根据权利要求7所述的一种基于Stacking的边缘业务行为识别***，其特征在于，所述数据获取模块中的边缘侧设备行为数据包括：时间，设备状态，动作状态的特征维度。

9.根据权利要求7所述的一种基于Stacking的边缘业务行为识别***，其特征在于，所述特征选择模块用于：

对边缘侧设备行为数据进行归一化处理；

10.根据权利要求7所述的一种基于Stacking的边缘业务行为识别***，其特征在于，所述模型训练模块用于：