CN112257917A

CN112257917A - 一种基于熵特征和神经网络的时间序列异常模式检测方法

Info

Publication number: CN112257917A
Application number: CN202011116876.4A
Authority: CN
Inventors: 苏维均; 牛雨晴; 于重重; 赵霞; 韩璐
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-22
Anticipated expiration: 2040-10-19
Also published as: CN112257917B

Abstract

本发明提出一种基于熵特征和神经网络的时间序列异常模式检测方法，该方法的步骤为：1)对训练数据集中的时间序列提取二阶差分率样本熵特征序列；2)训练生成对抗网络模型得到生成器和对应的判别器；3)计算特征序列的异常分数并构建阈值；4)根据阈值对输入的待检测数据进行异常判断。本发明的优点是利用差分率样本熵对时间序列数据进行特征提取，使异常模式更加显著；建立了新的异常分数计算方法，提高了模型识别的准确性和泛化性，使其具有更高的实用性和应用价值。

Description

一种基于熵特征和神经网络的时间序列异常模式检测方法

技术领域

本发明涉及煤矿热动力复合灾害的预测，具体涉及一种基于熵特征和神经网络的时间序列异常模式检测方法,属于应急安全领域。

背景技术

煤炭作为主体能源在我国能源结构中占有不可替代的重要地位，煤矿开采完后遗留的区域为采空区，采空区内通风不良且遗煤较多，不断氧化产生可燃性气体从而容易引发煤自燃、瓦斯***等煤矿热动力灾害。释放出的可燃性气体的浓度变化随着时间的发展呈现一定的规律，有效地检测出不同阶段监测数据发生的拐点，当气体浓度发生较大变化时，可以认为进入了异常模式，表明有煤自燃等灾害发生的可能。不同煤矿气体产生含量不同，如果只以气体含量值的大小作为灾害发生的判定标准，应用于其他煤矿时可能会造成很大的误差，因此，异常模式的检测可以提高灾害的判定的泛化性，为煤炭复合灾害的检测提供一种新思路。

随着人们对人工智能理论研究与深入，应用时间序列预测方法对煤与瓦斯进行预测成为一种新的趋势，人们将其引入到煤与瓦斯灾害定量评价与分析中，并融合了计算机技术、支持向量机、人工神经网络等理论进行研究，但这些预测方法难以运用在复杂数据中，存在易陷入局部最小值的问题，出现过拟合现象，准确率低，局限性大。

随着信息化技术的提高，时间序列中的异常检测问题成为近年来的研究热点。时间序列异常通常是指在一系列数据中有着明显不同于其他数据，这种异常并不是指随机偏差产生的，而是因为不同的机制所产生的差异。对气体时序数据的异常模式进行检测，可以为煤矿热动力灾害提供理论基础。若时序数据中存在异常模式，则说明数据的变化趋势发生了较大的改变，可作为灾害发生的判断依据。

现有方法(CN201910809956.9)利用GAN对时间序列进行异常检测，主要是用优化的GAN生成器和判别器搭建异常检测的模型，用模型输出的生成残差和鉴别损失作为判断异常数据的判断依据。但是大部分时间序列的变化不显著，直接用时间序列作为GAN的输入数据，其特征不够显著；同时用模型输出的生成残差和鉴别损失获取更为有效的评判准则，如何提高异常判断的准确性和普适性都还有待研究。

发明内容

本发明的目的在于实现一种基于熵特征和神经网络的时间序列异常模式检测方法。本发明的方法分为4个阶段：对训练数据集中的时间序列提取二阶差分率样本熵特征序列；训练生成对抗网络模型得到生成器和对应的判别器；计算特征序列的异常分数并构建阈值；根据阈值对输入的待检测数据进行异常判断。具体来说，本发明的方法包括下列步骤：

A.对训练数据集中的时间序列提取二阶差分率样本熵特征序列，具体实现如下：

A1.将训练数据集分成两个集合，分别记为训练数据集1和训练数据集2；

所述的训练数据集1中全部为正常数据，训练数据集2中包括正常数据和异常数据；

A2.对训练数据集1时间序列

通过式1以窗口大小w和步长d滑动进行分段，得到长度为L的序列段集合W，其中第i个时间序列片段记为s_i；

s_i＝[x_1+(i-1)d,x_2+(i-1)d,…,x_1+(i-1)d+w] (式1)

所述的T_train表示训练数据集时间序列个数，1×T_train表示训练数据集时间序列维度；

A3.对序列段集合W中的每个序列段进行差分率运算，得到所有序列段的二阶差分率序列，具体实现如下：

A3.1.对序列段s_i利用式2计算其二阶差分率序列G＝{g₁,g₂,…,g_w′}，并求其标准差std；

所述的

为u时间点的e阶差分值，

为u-1时间点的e阶差分值；

A3.2.以m个时序数据点为一个子片段划分具有w′个数据点的二阶差分率序列，共计w′-m+1个子序列片段，记为K2_i＝{q₁,q₂,…,q_w′-m+1}；

A4.对所有序列段的二阶差分率序列进行样本熵特征提取，得到所有序列段的二阶差分率样本熵特征序列，具体实现如下：

A4.1.计算任意两个子序列片段q_a和q_b之间的距离D[q_a,q_b]，该距离由两个子序列片段中对应位置元素的最大差值决定；

A4.2.计算子序列片段q_a与其余子序列片段的相似概率，通过式3得到子序列段间距离小于阈值的子序列段的占比，通过式4得到该二阶差分率序列的平均相似概率；

所述的r为相似度阈值；

A4.3.按照步骤A4.1-A4.2，以m+1为子序列长度重新计算其平均相似概率B^m+1(r)，通过式5得到二阶差分率样本熵特征SE；

A5.对差分率样本熵序列进行分段平均预处理，得到差分率样本熵序列，具体实现如下：

A5.1.从X_t(t＝1,2...t-w),取出长度为w的序列段S_t＝{X_t,X_t+1,...,X_w+t-1}^1×t，先根据式6求和，再根据式7求平均值；

sum_t＝X_t+X_t+1...X_w+t-1 (式6)

sum_t＝sum_t/w； (式7)

A5.2.重复步骤A4.1，共取出t-w个序列段，并将sum_t组成新的差分率样本熵序列S_t'＝{sum₁,sum₂,…,sum_t-w}^1×t；

B.训练生成对抗网络模型得到生成器和对应的判别器，具体实现如下：

B1.随机采样噪声数据Z＝{z_i,i＝1,2,…,n}，其中n与样本数对应。生成器模型G为多个LSTM记忆单元，并且设置记忆单元的个数，将Z输入到生成器模型G中，生成重构的样本序列数据G(Z)；

B2.将新的差分率样本熵序列S_t'和生成的重构样本序列数据G(Z)输入搭建好的判别器模型D中；

B3.根据损失函数的值利用随机梯度下降算法更新模型参数，并且先更新判别器的参数，然后通过Adam优化算法并根据噪声数据更新生成器的参数；

B4.保存模型参数，再重复步骤B1-B3进行循环迭代，最后得到训练好的能够产生正常时间序列的生成器模型G*和对应的判别器模型D*；

C.计算特征序列的异常分数并构建阈值，具体实现如下：

C1.利用训练数据集2中的时间序列

重复步骤A2-A5，提取特征得到新特征序列

C2.将随机采样噪声数据Z_val输入到训练完成的生成器G*中，生成重构样本G*(Z_val)，再利用生成误差计算输入样本的生成异常分数R_score，具体实现如下：

C2.1.对长度为n的重构样本G*(Z_val)与训练数据集2的新特征序列

的绝对误差e中元素从小到大进行排序，得到排序后的绝对误差E_i′＝{e′₁,e′₂,…,e′_n}，求排序后绝对误差E_i′＝{e′₁,e′₂,…,e′_n}的平均值M；

C2.2.将E′_i提中元素与平均值M比较，取出E′_i中{e′_k,e′_k+1,…,e′_n}为大于平均值M的数据元素，个数为n-k+1；初始化权值序列W_i′＝{w′₁,w′₂,…,w′_n}^T,w′_1～n-2＝0，设置x′_n对应的权重w′_n为λ，x′_n-1对应的权重w′_n-1为1-λ，更新权值序列W_i′中元素的大小，通过式8将W_i′进行更新；

C2.3.利用更新后的权值序列W_i′和排序后样本E′_i，通过式9计算训练样本集2的生成异常分数R_score；

R_score＝E_i′·W_i′ (式9)

C3.利用步骤B训练完成的判别器D*输出生成样本与新特征序列

的相似概率P，计算判别异常分数D_score为1-P；

C4.利用判别异常分数D_score和生成异常分数R_score，通过式10计算异常分数O，并根据训练数据集2建立阈值，具体实现如下：

O＝W_D×D_score+W_G×R_score (式10)

所述的W_D和W_G分别为判别异常分数和样本生成异常分数的权重；

C4.1.将训练数据集

结果中的最大异常分数与最小异常分数作为最大、最小边界，对其进行平均划分，通过式11计算出第q段训练数据集2的异常分数；

C4.2.最大F1分数对应的异常分数作为阈值，F1的计算方式如式12；

所述的Pre为预测为正的正样本在所有预测为正的样本中所占比例，Rec为预测为正的正样本在所有正样本中所占比例；TP为被模型预测为正的正样本；FP为被模型预测为正的负样本；FN为被模型预测为负的正样本；

D.根据阈值对输入的待检测数据进行异常判断，具体实现如下：

D1.输入待检测数据集时间序列

重复步骤A1-A5，进行差分率样本熵特征提取得到新的时间序列

D2.重复步骤C1-C4，将

输入到已经训练好的生成对抗网络中，利用公式10计算出待检测数据的异常分数O_real；

D3.通过计算得到的异常分数O_real与步骤C中计算得到的阈值进行比较，若异常分数大于阈值，则判定该待检测数据含有异常模式，否则不含有异常模式。

本发明的优点是利用差分率样本熵对时间序列数据进行特征提取，使异常模式更加显著；建立了新的异常分数计算方法，提高了时间序列异常模式检测的准确性和泛化性，使其具有更高的实用性和应用价值。

附图说明

图1：异常模式检测总体流程图

具体实施方式

下面结合附图，通过对实验数据进行CO时间序列预测，并根据时间序列数据量、输入输出维度等进行基于差分率熵特征和生成对抗网络的时间系列异常模式检测方法的说明，作为实施例对本发明作进一步描述。

方法总体流程图如图1所示。本发明方法包括：1)对训练数据集中的时间序列提取二阶差分率样本熵特征序列；2)训练生成对抗网络模型得到生成器和对应的判别器；3)计算特征序列的异常分数并构建阈值；4)根据阈值对输入的待检测数据进行异常判断。下面按照步骤，结合实例对本发明作进一步描述：

A1.选取实验数据，研究对象为CO气体浓度一维时间序列，选取训练数据集，并将训练数据集分成两个集合，分别记为训练数据集1和训练数据集2；

A2.对全为正常数据的训练数据集1设置序列段的滑动窗口大小为10，步长为1滑动进行分段；

A3.对序列段集合中的每个序列段进行差分率运算，得到所有序列段的二阶差分率序列，具体实现如下：

A3.1.对CO气体浓度序列共计348条数据，利用公式

得到其二阶差分率序列共345条部分数据如表2所示G＝{g₁,g₂,…,g_w′}，并求其标准差std为0.11，部分数据如下：

A3.2.以6个时序数据点为一个子片段划分具有345个数据点的二阶差分率序列，共计340个子序列片段，记为K2_i＝{q₁,q₂,…,q_w′-m+1}，部分数据如下：

A4.对所有序列段的二阶差分率序列进行样本熵特征提取，得到所有序列段的二阶差分率样本熵特征序列，具体实现如下；

A4.1.计算每一个序列段的二阶差分率样本熵特征，最终得到完整的二阶差分率样本熵序列，部分数据如下：

A5.1.从X_t(t＝1,2...t-w),取出长度为w的序列段S_t＝{X_t,X_t+1,...,X_w+t-1}^1×t，先求和，再求平均值；

A5.2.重复步骤A4.1，共取出t-w个序列段，并将sum_t组成新的序列S_t'＝{sum₁,sum₂,…,sum_t-w}^1×t，部分数据如下：

B1.随机采样噪声数据Z＝{z_i,i＝1,2,…,n}，其中n为330。生成器模型为多个LSTM记忆单元，并且设置记忆单元的个数，将Z输入搭建好的生成器模型，生成重构的样本序列数据G(Z)；

B2.将新的差分率样本熵S_t'和生成的重构样本序列数据G(Z)输入搭建好的判别器模型D*中，部分参数数据如下：

B4.保存模型参数，返回B2进行循环迭代1000次，学习率设为0.1，最后得到训练好的生成器模型G*和判别器模型D*；

C.计算特征序列的异常分数并构建阈值，具体实现如下：

C1.首先重复步骤A2-A5，对包含正常数据和异常数据的训练数据集2的时间序列

进行特征提取得到新特征序列

部分数据如下：

C2.利用判别异常分数D_score和样本生成异常分数R_score计算异常分数O；

C2.1.将训练数据集

结果中的最大异常分数与最小异常分数作为最大最小边界，对其进行平均划分，得出第q段的训练数据集2的异常分数

C2.2.最大F1分数为0.8916，其对应的异常分数O作为阈值，得到阈值为0.375；

D1.输入待检测数据集时间序列样本

先重复步骤A2-A5，进行差分率样本熵特征提取得到新的时间序列

部分数据如下：

D2.重复步骤C1-C4，将

输入到已经训练好的生成对抗网络中，计算出实际数据样本的异常分数O_real为0.572；

D3.通过计算得到的异常分数O_real与步骤C中计算得到的阈值进行比较，发现异常分数大于阈值，则判定该样本为异常样本，整个样本实际处理的结果如下：

本发明的方法实现了基于差分率熵特征和生成对抗网络的时间序列异常模式检测方法，能够检测序列段中是否包含异常模式，从而达到为煤矿热动力灾害的发生提供判断依据的目的，本发明能够突出异常与正常样本的差异，使异常模式更加显著，进而提高模型的检测精度；建立了新的异常分数计算方法，提高了模型识别的准确性和泛化性，使其更具有应用价值。

最后需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于熵特征和神经网络的时间序列异常模式检测方法，其步骤包括：

A2.对训练数据集1时间序列

以窗口大小w和步长d滑动进行分段，得到长度为L的序列段集合W，其中第i个时间序列片段记为s_i，计算公式为：

s_i＝[x_1+(i-1)d,x_2+(i-1)d,…,x_1+(i-1)d+w]

A3.对序列段集合W中的每个序列段进行差分率运算，得到所有序列段的二阶差分率序列；

A4.对所有序列段的二阶差分率序列进行样本熵特征提取，得到所有序列段的二阶差分率样本熵特征序列；

A5.对差分率样本熵序列进行分段平均预处理，得到差分率样本熵序列；

C.计算特征序列的异常分数并构建阈值，具体实现如下：

C1.利用训练数据集2中的时间序列

重复步骤A2-A5，提取特征得到新特征序列

C2.将随机采样噪声数据Z_val输入到训练完成的生成器G*中，生成重构样本G*(Z_val)，再利用生成误差计算输入样本的生成异常分数R_score；

C3.利用步骤B训练完成的判别器D*输出生成样本与新特征序列

的相似概率P，计算判别异常分数D_score为1-P；

C4.利用判别异常分数D_score和生成异常分数R_score，计算异常分数O，并根据训练数据集2建立阈值，计算公式为：

O＝W_D×D_score+W_G×R_score

D1.输入待检测数据集时间序列

D2.重复步骤C1-C4，将

2.如权利要求1所述的基于熵特征和神经网络的时间序列异常模式检测方法，其特征在于，对序列段集合W中的每个序列段进行差分率运算，得到所有序列段的二阶差分率序列，具体实现如下：

A3.1.对序列段s_i计算其二阶差分率序列G＝{g₁,g₂,…,g_w′}，并求其标准差std，计算公式为：

所述的

为u时间点的e阶差分值，

为u-1时间点的e阶差分值；

A3.2.以m个时序数据点为一个子片段划分具有w′个数据点的二阶差分率序列，共计w′-m+1个子序列片段，记为K2_i＝{q₁,q₂,…,q_w′-m+1}。

3.如权利要求1所述的基于熵特征和神经网络的时间序列异常模式检测方法，其特征在于，对所有序列段的二阶差分率序列进行样本熵特征提取，得到所有序列段的二阶差分率样本熵特征序列，具体实现步骤如下：

A4.2.计算子序列片段q_a与其余子序列片段的相似概率。用子序列段间距离小于阈值的子序列段的占比，该二阶差分率序列的平均相似概率，作为二阶差分率样本熵，计算公式为：

所述的r为相似度阈值；

A4.3.按照步骤A4.1-A4.2，以m+1为子序列长度重新计算其平均相似概率B^m+1(r)，二阶差分率样本熵特征SE，计算方式为：

4.如权利要求1所述的基于熵特征和神经网络的时间序列异常模式检测方法，其特征在于，对差分率样本熵序列进行分段平均预处理，得到差分率样本熵序列，具体实现如下：

A5.1.从X_t(t＝1,2...t-w),取出长度为w的序列段S_t＝{X_t,X_t+1,...,X_w+t-1}^1×t，先求和再求平均值，计算公式为：

sum_t＝X_t+X_t+1...X_w+t-1

sum_t＝sum_t/w；

A5.2.重复步骤A4.1，共取出t-w个序列段，并将sum_t组成新的差分率样本熵序列S_t'＝{sum₁,sum₂,…,sum_t-w}^1×t。

5.如权利要求1所述的基于熵特征和神经网络的时间序列异常模式检测方法，其特征在于，将随机采样噪声数据Z_val输入到训练完成的生成器G*中，生成重构样本G*(Z_val)，再利用生成误差计算输入样本的生成异常分数R_score，具体实现如下：

C2.1.对长度为n的重构样本G*(Z_val)与训练数据集2的新特征序列

的绝对误差e中元素从小到大进行排序，得到排序后的绝对误差E_i′＝{e′₁,e′₂,…,e′_n}，求排序后绝对误差E′_i＝{e′₁,e′₂,…,e′_n}的平均值M；

C2.2.将E′_i提中元素与平均值M比较，取出E′_i中{e′_k,e′_k+1,…,e′_n}为大于平均值M的数据元素，个数为n-k+1；初始化权值序列W_i′＝{w′₁,w′₂,…,w′_n}^T,w′_1～n-2＝0，设置x′_n对应的权重w′_n为λ，x′_n-1对应的权重w′_n-1为1-λ，更新权值序列W_i′中元素的大小，计算公式为：

C2.3.利用更新后的权值序列W_i′和排序后样本E′_i，计算训练样本集2的生成异常分数R_score，计算公式为：

R_score＝E_i′·W_i′。

6.如权利要求1所述的基于熵特征和神经网络的时间序列异常模式检测方法，其特征在于，利用判别异常分数D_score和生成异常分数R_score，通过式10计算异常分数O，并根据训练数据集2建立阈值，具体实现如下：

C4.1.将训练数据集

结果中的最大异常分数与最小异常分数作为最大、最小边界，对其进行平均划分，计算出第q段训练数据集2的异常分数，计算公式为：

C4.2.最大F1分数对应的异常分数作为阈值，F1的计算公式为：

所述的Pre为预测为正的正样本在所有预测为正的样本中所占比例；Rec为预测为正的正样本在所有正样本中所占比例。TP为被模型预测为正的正样本；FP为被模型预测为正的负样本；FN为被模型预测为负的正样本。