CN115708091A

CN115708091A - 一种冶金信息***数据异常检测方法

Info

Publication number: CN115708091A
Application number: CN202210691502.8A
Authority: CN
Inventors: 朱道飞; 熊章明; 何姝静
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-02-21

Abstract

本发明公开了一种冶金信息采集***数据异常检测方法，针对冶金信息采集***数据维度高、数据量大，实际数据集中异常样本相较于正常样本偏少且获取成本高等问题；首先对冶金冶金信息采集***数据进行缺失数据的填补和数据归一化，接着用孤立森林算法计算冶金信息采集***数据的异常得分，选取分数中正常得分最高的样本作为自编码器的输入来训练自编码器，测试集数据经过由正常数据训练的自编码器后，异常样本将会有较大的重构误差，当重构误差大于设定的阈值时，该样本即为异常数据；该算法的提出解决了孤立森林算法精确率低问题，也解决了自编码器算法因训练样本含有异常数据导致的异常样本与正常样本重构误差相差不大，难以区分的问题。

Description

一种冶金信息***数据异常检测方法

技术领域

本发明属于冶金工业技术领域，具体涉及一种基于iForest-AE的冶金信息***数据异常检测方法。

背景技术

冶金工业是我国制造业的重要组成部分，也是维持我国经济持续稳定增长的重要支撑。异常数据的存在会影响到数据的建模与分析，进而会对冶金企业的现场生产调度人员产生错误的指导，造成重大安全事故和不可挽回经济损失。

近年来，异常检测在冶金信息***数据管理中扮演着举足轻重的角色，对关键的冶金信息***数据进行检测与诊断，已成为现代冶金行业的发展需求，因此根据冶金工业数据具有多样性与海量性的特点，开发一套针对于冶金工业数据采集、传输中出现异常数据的检测算法，对保障冶金企业的安全生产和提高企业的经济效益具有重要意义。

孤立森林算法(iForest)通过构建孤立二叉树来划分数据，根据异常数据稀少的特点，异常数据的划分次数应小于正常数据的平均划分次数。孤立森林的异常检测算法,该算法能够准确识别渐变和突变引起的异常,并对设备的动作进行控制和调整,以满足控制要求。研究表明，孤立森林算法在异常检测方面优于基于距离的K均值聚类算法。

自编码器(Auto-Encoder,AE)是一种无监督学习的神经网络,其训练目标是使得输出值与原始值的重构误差达到最小。

采用单一的孤立森林算法、自编码器和其他数据异常检测算法进行冶金信息***数据异常检测，往往检测准确率和精确率不高。

发明内容

为了解决上述技术问题，本发明提供了一种基于iForest-AE的冶金信息***数据异常检测方法，实现了对海量冶金信息***数据的异常检测，不仅解决了孤立森林算法和其他数据异常检测算法检测精确率低的问题，也解决了自编码器算法因训练样本含有异常数据导致的异常样本与正常样本重构误差相差不大，难以区分的问题；

为了达到上述技术目的，本发明是通过以下技术方案实现的：

一种基于iForest-AE的冶金信息***数据异常检测方法，包括以下步骤：

S1：对采集的冶金信息***数据缺失部分进行缺失值填补，采用拉格朗日插值法对这些缺失值进行填补，具体为：从原始数据中提取缺失值前后5个数据，将取出的10个数据组成一组，利用下式进行插补：

上式中，n为数据点的个数，x_i对应着自变量的位置，y_i为函数在这个位置的取值，L_n(x)为拉格朗日插值法计算出的在x位置的缺失值；

S2：将插补后的数据进行归一化处理，具体处理采用下式进行：

式中，x′为归一化后的数据，x为原始数据，x_max、x_min为原始数据的最大值和最小值；

S3：利用经过预处理的数据构建孤立树；

S4：构建随机森林，对于大规模的冶金信息***数据集D，随机选取一部分数据得到样本集D′，样本集中含有N个样本，用样本集D′作为孤立二叉树构建算法的输入，随机取M个样本集，即可得到由M个孤立二叉树组成的孤立森林；

S5：计算样本的异常得分，对于冶金信息***数据集D构建孤立森林，计算每一时刻各采集点冶金生产数据的异常得分来进行异常检测，对于生产数据中的异常数据，由于其量少，很快就会被分到叶子节点中去，因此可以用根节点到达样本点所属的叶子节点的距离h(x)来判断数据是否为异常点；

每个样本点x的异常得分为：

式中：s(x,n)为样本点x的异常得分，n为构建孤立二叉树的样本数；h(x)为样本点x从孤立二叉树的根节点到达样本点所属的叶子节点的路径长度；E(h(x))为样本点x经过所有孤立二叉树的平均路径长度；c(n)为给定样本数n的情况下路径h(x)的平均值

H(i)为调和函数，一般可由下式估计：

H(i)＝In(i)+0.5772156649

S6：将正常得分较高的数据送入到自编码器中，数据经过编码和解码后得到与原始正常数据接近的的重构数据，计算原始正常数据与重构数据的差值，将误差进行反向传播来更新获取最好的自编码器参数，使得自编码器重构的正常数据误差达到最小；

S7：基于自编码器对冶金信息***数据进行异常检测，接着用训练得到的自编码器计算测试数据的重建误差；若重建误差大于某一个阈值，则判定为异常样本点，否则判定为正常样本点；

优选的，所述S3中孤立树的构建方法如下：

S3.1：从冶金信息***数据集D中随机选取若干个样本组成样本集D′，作为构建孤立二叉树的输入，并设置孤立二叉树的限定高度l_height，当前iTree高度为c_height，属性集用F表示；

S3.2：随机选择属性集F中的任一属性f，在该属性最大值和最小值之间随机产生一个***值p；

S3.3：把属性f中小于p的样本点放在当前节点的左子树leftT中，把大于等于p的样本点放在当前节点的右子树rightT中；

S3.4：递归执行S3.2和S3.3，不断地产生新的叶子结点，直到子树已经达到限定高度l_height或叶子结点中只有一个数据；

优选的，所述S5中样本异常得分s(x,n)越趋于1，说明该样本越异常；样本异常得分s(x,n)越趋于0.5，说明该样本无明显异常；样本异常得分s(x,n)越趋于0时，说明该该样本越正常；

优选的，所述自编码器由编码器和解码器两部分组成，其基本结构有3层，即输入层、隐藏层和输出层；其中输入层到隐藏层的部分为编码器，隐藏层到输出层的部分为解码器；

对于数据集X＝(X_1，,X₂,X₃,...,X_mn)，m为采集点个数，n为采集时间点个数；每个数据X经过编码后到达隐含层，输入层到隐含层编码过程为：

Z＝σ_e(WX+b)

其中，W和b为编码权值和偏置，σ_e为编码层激活函数

隐含层到输出层解码过程可描述为：

X′＝σ_d(W′Z_i+b′)

其中，W′和b′为解码权值和偏置，σ_d为解码层激活函数。

本发明的有益效果是：该算法的提出不仅解决了孤立森林算法精确率低问题，也解决了自编码器算法因训练样本含有异常数据导致的异常样本与正常样本重构误差相差不大，难以区分的问题,从而大幅提升冶金生产数据的异常检测的准确率。将异常数据剔除，极大程度上降低了异常数据对建模与分析的影响，使得冶金企业现场能源***调度人员能做出正确的指令。

附图说明

图1是本发明的基于孤立森林和自编码器的异常检测流程框图；

图2是本发明的自编码器结构图；

图3是本发明的基于自编码器的异常检测原理图；

图4是本发明的训练集和验证集训练误差结果图；

图5a是本发明的冶金企业的A设备用电数据异检测结果；

图5b是本发明的冶金企业的B设备用电数据异检测结果。

图6是不同算法与本发明算法运算时间对比结果示意图。

具体实施方式

为了对本发明的技术方案及技术效果做出清楚完整的说明，通过以下实施例进行详细说明；

实施例1

实施环境

本实施环境为CPU Intel Core i7-6700HQ，3.5GHz，12GB，Windows10操作***，算法采用Python3.6实现；

数据准备

本文采集云南省某冶金企业2021年6月1日到2021年7月31日的冶金信息***数据，采集频率为每5分钟采集1次，共包含了8643个采集数据，选取了4000个数据异常得分最接近于0的数据，即最正常得分最高的数据，作为自编码器的输入来训练自编码器模型；选取6663条数据作为测试数据；

数据预处理

实施过程

S3：利用经过预处理的数据构建孤立树；

S5：计算样本的异常得分，对于冶金信息***数据集D构建孤立森林，计算每一时刻各采集点生产数据的异常得分来进行异常检测，对于生产数据中的异常数据，由于其量少，很快地就会被分到叶子节点中去，因此可以用根节点到达样本点所属的叶子节点的距离h(x)来判断数据是否为异常点；

每个样本点x的异常得分为：

H(i)为调和函数，一般可由下式估计：

H(i)＝In(i)+0.5772156649

样本异常得分s(x,n)越趋于1，说明该样本越异常；样本异常得分s(x,n)越趋于0.5，说明该样本无明显异常；样本异常得分s(x,n)越趋于0时，说明该该样本越正常；

选用孤立森林算法对2021年6月1日到2021年7月31日的8643个冶金信息***数据进行异常得分计算，选取了4000个样本异常得分最接近于0，即正常得分最高的4000数据。进行多次实验，构建孤立森林的最佳参数如表1所示：

表1孤立森林的最佳参数表

通过孤立森林算法选取出的部分数据如表2所示

表2孤立森林选取出的部分数据

1056.0	416.0	200.0	162.0	83.5	80.0	48.0	49.0	38.5	96.0
										832.0	416.0	192.0	88.0	86.5	73.5	27.5	48.5	24.0	96.0
848.0	416.0	339.0	144.0	144.0	158.0	24.0	57.0	24.0	96.0
										848.0	416.0	323.5	144.0	83.5	162.0	48.0	59.5	41.0	96.0
734.0	416.0	356.5	169.5	83.5	108.0	48.0	27.5	39.0	96.0
										624.0	416.0	288.5	178.0	144.0	128.5	48.0	49.0	36.0	234.0
848.0	432.0	331.0	72.5	89.0	144.0	48.0	50.0	14.5	96.0
										832.0	432.0	474.0	216.0	83.5	88.0	58.5	26.5	38.5	96.0
735.5	416.0	305.0	216.0	220.5	72.0	48.0	48.0	24.0	96.0
										953.0	416.0	288.0	165.5	173.5	108.0	51.0	23.0	39.0	96.0
685.5	432.0	480.0	155.0	169.5	72.0	28.0	48.0	13.5	96.0
										953.0	416.0	422.0	216.0	216.0	72.0	48.0	57.0	36.0	110.5
780.5	432.0	323.5	144.0	175.5	144.0	48.0	25.0	24.5	96.0
										678.5	416.0	226.0	169.5	163.5	120.0	48.0	24.0	24.0	109.0
990.5	416.0	96.0	169.5	83.0	80.0	48.0	50.0	37.5	96.0
										921.5	432.0	316.5	156.5	242.5	125.5	48.0	48.0	14.5	96.0
480.0	416.0	198.0	216.0	144.0	108.0	48.0	25.0	14.5	106.5
										1209.5	416.0	115.5	144.0	235.0	108.0	48.0	56.5	24.0	96.0
1034.0	416.0	228.5	160.0	251.0	125.5	48.0	25.0	24.0	96.0
										653.0	432.0	500.0	144.0	171.5	76.5	48.0	48.0	42.0	104.5
832.0	416.0	228.5	240.0	80.0	108.0	48.0	24.0	28.0	96.0
										848.0	438.0	384.0	169.5	260.0	110.0	48.0	24.0	13.5	96.0
904.5	432.0	452.0	84.5	155.0	88.0	56.0	48.0	24.0	192.0
										1009.5	416.0	351.0	144.0	85.5	108.0	25.5	24.0	24.0	96.0
743.0	848.0	288.0	144.0	78.5	127.0	24.0	26.5	24.0	192.0
										1009.5	416.0	384.0	230.0	144.0	43.0	48.0	48.0	36.0	96.0
633.5	416.0	288.0	83.5	245.5	131.5	48.0	54.5	38.5	96.0
										848.0	416.0	468.5	144.0	144.0	122.5	48.0	56.5	37.5	96.0

自编码器算法

S6：使用正常数据集训练一个自编码器，得到默认参数；

S7：基于自编码器对冶金信息***数据进行异常检测，接着用训练得到的自编码器计算测试数据的重建误差；若重建误差大于某一个阈值，则判定为异常样本点，否则判定为正常样本点。

使用自编码器进行冶金信息***数据异常检测过程中，先将孤立森林算法选取的训练数据对自编码器进行训练，将每次训练的误差反向传播，不断优化自编码器网络中的权值和阈值，直到达到设置训练次数，使得通过获取训练数据的最小重构误差的方式得到自编码器中的最佳权值和阈值。进行多次实验，获取自编码器最佳的参数如表3所示。

表3自编码器的最佳参数表

将训练集和验证集输入自编码器网络，经过80次迭代训练，训练集损失函数Training loss在0.000247处趋于平缓，验证集损失函数Validation loss在0.000436处趋于平缓，如图4所示，表明训练的自编码器能有效地重构正常数据；

在测试过程中，控制阈值其值从0.1变化到0.5，步长为0.05，使用综合评价指标F1来评价异常值检测效果。最终我们发现当阈值取0.3的时候效果最好。图5为测试集的检测结果，以其中外购电力点4和风机用电量两个采集点的一个单位采集时间用电量为例，正常用电数据在一定范围内波动，然而由于传感器故障、现场通信传输中断或异常等原因，采集到的异常数据将不符合正常数据分布规律，异常数据经过由正常数据训练的自编码器后会有较大的误差，误差超过阈值的样本点用蓝色圆点标注，代表其为异常的能源数据。

为了进一步验证基于孤立森林和自编码器相结合的异常检测效果，将本文算法与三种主流的异常检测算法进行对比：孤立森林(iforest)算法，支持向量积(SVM)算法，局部异常因子算法(LOF)进行比较。孤立森林算法参数设置为：n_estimators＝180，verbose＝6，n_jobs＝2，max_samples＝6663，max_features＝10；支持向量积算法参数设置为：C＝2，kernel＝'linear'decision_function_shape＝'ovo'；LOF算法参数设置为：n_neighbors＝10,contamination＝0.5，novelty＝False。实验结果如下表4所示：

表4四种异常检测算法实验结果对比

实验结果表明，除LOF算法以外的三种算法的准确率都比较高，本方法相较于孤立森林算法、SVM算法和LOF算法准确率分别提高了7.5％、3.7％和39.4％，说明该算法对于异常样本点和正常样本点具有很好的识别效果；同时本方法的精确率也最高达到了96％,相较于孤立森林算法、SVM算法和LOF算法的异常值检测算法分别提高了30％、12％和34％,说明检测得到的异常样本几乎全部为真实异常样本,因此本方法的异常检测结果具有很高的可信度；F1值相较于三种方法分别提高了26％、5％和37％，说明本方法相较于其他三种方法异常检测的综合效果更好；但召回率相较于支持向量积算法低了1％，说明对所有异常点并不能全部检测出来，对于一些异常样本点会将其认定为正常样本点。

Claims

1.一种基于iForest-AE冶金信息采集***数据异常检测方法，其特征在于，包括以下步骤：

S1：对冶金信息采集***缺失的数据进行缺失值填补，采用拉格朗日插值法对这些缺失值进行填补，具体为：从原始数据中提取缺失值前后5个数据，将取出的10个数据组成一组，利用下式进行插补：

式中，x′为归一化后的数据，x为原始数据，x_max、x_min为原始数据归一化前最大值和最小值；

S3：利用经过预处理的数据构建孤立树；

S4：构建随机森林，对于大规模的冶金信息采集***数据集D，随机选取一部分数据得到样本集D′，样本集中含有N个样本，用样本集D′作为孤立二叉树构建算法的输入，随机取M个样本集，即可得到由M个孤立二叉树组成的孤立森林；

S5：计算样本的异常得分，对于冶金信息采集***数据集D构建孤立森林，计算每一时刻各采集点能源数据的异常得分来进行异常检测，对于生产数据中的异常数据，由于其量少，很快地就会被分到叶子节点中去，因此可以用根节点到达样本点所属的叶子节点的距离h(x)来判断数据是否为异常点；

每个样本点x的异常得分为：

H(i)为调和函数，一般可由下式估计：

H(i)＝In(i)+0.5772156649

S7：基于自编码器对冶金信息采集***数据进行异常检测，接着用训练得到的自编码器计算测试数据的重建误差；若重建误差大于某一个阈值，则判定为异常样本点，否则判定为正常样本点。

2.根据权利要求1所述一种基于iForest-AE冶金信息采集***数据异常检测方法，其特征在于，所述S3中孤立树的构建方法如下：

S3.1：从冶金信息采集***数据集D中随机选取若干个样本组成样本集D′，作为构建孤立二叉树的输入，并设置孤立二叉树的限定高度l_height，当前iTree高度为c_height，属性集用F表示；

S3.4：递归执行S3.2和S3.3，不断地产生新的叶子结点，直到子树已经达到限定高度l_height或叶子结点中只有一个数据。

3.根据权利要求1所述一种基于iForest-AE冶金信息采集***数据异常检测方法，其特征在于，所述S5中样本异常得分s(x,n)越趋于1，说明该样本越异常；样本异常得分s(x,n)越趋于0.5，说明该样本无明显异常；样本异常得分s(x,n)越趋于0时，说明该该样本越正常。

4.根据权利要求1所述一种基于iForest-AE冶金信息采集***数据异常检测方法，其特征在于，所述自编码器由编码器和解码器两部分组成，其基本结构有3层，即输入层、隐藏层和输出层；其中输入层到隐藏层的部分为编码器，隐藏层到输出层的部分为解码器；

对于数据集X＝(X₁，,X₂,X₃,...,X_mn)，m为采集点个数，n为采集时间点个数；每个数据X经过编码后到达隐含层，输入层到隐含层编码过程为：

Z＝σ_e(WX+b)

其中，W和b为编码权值和偏置，σ_e为编码层激活函数

隐含层到输出层解码过程可描述为：

X′＝σ_d(W′Z_i+b′)

其中，W′和b′为解码权值和偏置，σ_d为解码层激活函数。