CN111967508A

CN111967508A - 基于显著图的时间序列异常点检测方法

Info

Publication number: CN111967508A
Application number: CN202010759034.4A
Authority: CN
Inventors: 吴渊; 袁梓; 金城
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-20

Abstract

本发明属于时间序列异常检测技术领域，具体为一种基于显著图的时间序列异常点检测方法。本发明分为序列谱残差变换阶段和序列显著图重构阶段。序列谱残差变换阶段将原始序列转化为显著图形式；序列显著图重构阶段将上一阶段得到的显著图序列作为输入，经过编码解码重构显著图序列，编码阶段利用长短期记忆模型来将输入序列压缩到向量，解码阶段利用对称的长短期记忆模型将向量重构得到的重构显著图序列，计算重构显著图序列和原始显著图序列的残差得到异常评分，通过与阈值比较检测出异常点。该方法能够很好的检测一维时间序列的异常，在时间序列异常检测通用数据集上取得了较好的结果。

Description

基于显著图的时间序列异常点检测方法

技术领域

本发明属于时间序列异常检测技术领域，具体涉及一种基于显著图的时间序列异常点检测方法。

背景技术

谱残差算法是一种图像显著性检测算法，图像显著性是图像中重要的视觉特征，体现出人眼对图像各区域的重视程度。显著图是显示每个像素独特性的图像，其目标在于将一般图像的表示简化或是改变为更容易分析的样式。深度学习是机器学习领域中一个新的研究方向，越来越多的研究人员在这一领域做出了贡献。特别是在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术都取得了很多成果。

时间序列的异常检测作为数据挖掘领域的重要子问题，近年来也得到了广泛地发展。目前一些主流的时间序列的异常检测方法都是基于深度学习技术，但是应用跨领域技术的时间序列异常点检测的研究却不多。有学者和研究人员采用统计方法，该类方法针对时间序列建立统计学模型，如果某个时间点的数据不能很好的和该模型拟合，则该时间点可能是一个异常点，但是这种方法对原始数据的假设依赖较强，对于一些变化情况复杂的序列的异常检测效果不佳。

发明内容

针对现有技术的不足，本发明的目的在于提供一种基于显著图的时间序列异常点检测方法。该方法通过谱残差模型将原有时间序列转化为更容易分析的显著图形式，接着利用基于长短期记忆模型的自编码器进行序列到序列间的映射以检测时间序列中的异常点。该方法能够很好的重构出时间序列的显著图，提升了时间序列异常检测的性能。

本发明的技术方案具体介绍如下。

一种基于显著图的时间序列异常点检测方法，分为两个处理阶段：序列谱残差变换阶段和序列显著图重构阶段；其中：

序列谱残差变换阶段，首先采用傅里叶变换得到原始序列的对数幅度谱，然后进行频谱残差的计算，最后通过傅里叶逆变换将序列转换回时域得到显著图序列；

序列显著图重构阶段，将上一阶段得到的显著图序列作为输入，经过编码解码两个子阶段来重构显著图序列，编码阶段利用长短期记忆模型来将输入序列压缩到向量，解码阶段利用对称的长短期记忆模型将向量重构得到重构的显著图序列，最后通过计算重构序列和显著图序列的残差检测出异常点。

上述序列显著图重构阶段中，对序列谱残差变换阶段得到的显著图序列

通过公式(7)进行标准化后作为基于长短时记忆的循环自编码器的输入进行编码和解码：

其中α＝3，β＝10^-5，

代表显著图序列的最小值，

代表显著图序列的最大值，

代表标准化后的显著图序列。

上述序列显著图重构阶段中，编码阶段由n个LSTM单元组成，n代表了显著图序列的长度，解码阶段的结构和编码阶段对称；在编码阶段，显著图序列中每一个时间点的数据s_t和前一个LSTM单元的隐藏状态

输入进一个LSTM单元，通过公式(8)计算隐藏状态

符号E代表了编码阶段，经过一系列的LSTM单元的计算最后将原始显著图序列压缩到一个重构向量

中；在解码阶段，将编码阶段得到的重构向量

作为输入来重构反向的显著图序列，通过公式(9)(10)来计算重构显著图序列的每个时间点的数据

和隐藏状态

符号D代表了解码阶段，最后得到重构的显著图序列

上述序列显著图重构阶段中，计算重构序列和显著图序列的残差检测出异常点的方法如下：

首先通过公式(11)中的损失函数

的计算方法计算出残差

其中n是序列的长度，s_t是训练集中经过序列谱残差变换阶段重构的显著图序列中的数据点，

是经过序列显著图重构阶段得到的重构显著图序列中的数据点；

接着通过公式(12)计算出异常评分score，是一个与序列等长的向量，mean代表平均函数；

然后利用公式(13)通过与阈值

比较从而确定异常点，score(t)代表序列中时间点t的异常评分，阈值

是一个超参数；

最后输出预测标签O(t)，O(t)是和显著图序列等长的序列，其中每一个值为0或1，当该值为1时表示该点为异常点异常值，值为0时表示该点为正常点。

和现有技术相比，本发明的有益效果在于：

本发明采用谱残差模型处理原始时间序列以获得显著图序列，相比原始时间序列，显著图序列具有更突出的显著性。用于重构显著图序列的编码器-解码器网络可以有效去除序列中的噪声，捕捉序列数据的正常模式。本发明采用的方法属于无监督方法，即不需要数据标签即可训练，很好的解决了在实际生产中有标签数据稀缺的问题。本发明方法在时间序列异常检测通用数据集上取得了较好的结果。

附图说明

图1是本发明的基于显著图的时间序列异常点检测方法的流程图。

图2是本发明的***框图。

图3是基于LSTM的循环自编码器网络结构。

具体实施方式

本发明整体流程图如图1所示，整体框架结构如图2所示。

一、序列谱残差变换阶段，具体步骤为：

(1)对给定的一维时间序列

通过公式(1)和公式(2)对该序列进行傅里叶变换得到序列的频率f所对应的振幅谱A(f)和相应的相位谱P(f)，其中

代表一维傅里叶变换，Amplitude和Phrase分别代表取振幅部分和相位部分。

(2)通过公式(3)，对步骤(1)中得到的振幅谱A(f)进行对数变换得到对数幅度谱L(f)；

L(f)＝log(A(f)) (3)

接着通过公式(4)，用h_q(f)对对数幅度谱L(f)进行卷积得到平均对数幅度谱AL(f)，其中·表示卷积运算；

AL(f)＝h_q(f)·L(f) (4)

然后通过公式(5)计算L(f)和AL(f)的频谱残差R(f)；

R(f)＝L(f)-AL(f) (5)

最后通过公式(6)进行一维傅里叶逆变换

将序列逆变换到时域中，其中i为虚数单位，最后得到结果

即为显著图序列。

其中，h_q(f)是一个q×q的矩阵，用于对对数幅度谱L(f)进行均值滤波，q是一个经验值，一般设定为3，矩阵定义如下：

二、序列显著图重构阶段，具体步骤为：

(1)首先对序列谱残差变换阶段得到的显著图序列

通过公式(7)进行标准化。

其中α＝3，β＝10^-5，

代表显著图序列的最小值，

代表显著图序列的最大值，

代表标准化后的显著图序列。

(2)将标准化后的显著图序列

输入基于长短时记忆(LSTM)的循环自编码器中，通过该网络重构显著图序列。该网络由编码阶段和解码阶段组成，如图3所示，编码阶段由n个LSTM单元组成，n代表了显著图序列的长度，解码阶段的结构和编码阶段对称。在编码阶段，显著图序列中每一个时间点的数据s_t和前一个LSTM单元的隐藏状态

输入进一个LSTM单元，通过公式(8)计算隐藏状态

符号E代表了编码阶段。经过一系列的LSTM单元的计算最后将原始显著图序列压缩到一个重构向量

中。在解码阶段，将编码阶段得到的重构向量

作为输入来重构反向的显著图序列。通过公式(9)(10)来计算重构显著图序列的每个时间点的数据

和隐藏状态

符号D代表了解码阶段。最后得到重构的显著图序列

基于LSTM的循环自编码器网络的损失函数

定义如公式(11)所示。其中n是序列的长度，s_t是训练集中经过序列谱残差变换阶段重构的显著图序列中的数据点，

是经过序列显著图重构阶段得到的重构显著图序列中的数据点。

(3)训练阶段经过尽可能的最小化损失函数使得循环自编码器网络能够尽可能的捕捉原始显著图序列的正常模式。

在测试阶段，输入的一维时间序列经过序列谱残差变换阶段和序列显著图重构阶段得到了重构显著图序列。首先通过公式(11)中的计算方法计算出残差

接着通过公式(12)计算出异常评分score，是一个与序列等长的向量，mean代表平均函数。最后利用公式(13)通过与阈值

是一个认为设定的超参数，一般取3；最后输出预测标签O(t)，O(t)是和显著图序列等长的序列，其中每一个值为0或1,当该值为1时表示该点为异常点异常值，值为0时表示该点为正常点。

下面通过具体的实施例以说明本发明技术方案。

一、实验数据集

使用了近年来时间序列异常检测领域最为流行的数据集Webscope S5中的一维时间序列数据集Benchmark 1。Benchmark 1是Webscope S5数据集中唯一的在实际生产条件中产生的时间序列数据集。一共具有67个时间序列，平均长度为1400，异常率平均为1％。

二、模型训练与测试

将Benchmark 1数据集的前30条序列作为训练集，后37条序列作为测试集。学习率设置为0.001，LSTM隐藏层数量设置为8，该参数即为网络结构部分中提及的隐藏层h_t的维度，训练过程共进行50次迭代。

三、实验结果

选取CNN-seq2seq^[2]和LSTM-seq2seq^[2]这两种主流的时间序列异常检测方法作为对比方法，并在Benchmark 1数据集上进行训练与测试，在37条序列的测试集上最后的平均精确率，平均召回率和平均f1评分结果如表1所示。

表1本发明方法和两个基于重建的时间序列异常检测方法对比实验结果

	平均精确率	平均召回率	平均f1评分
				CNN-seq2seq	0.357	0.322	0.313
LSTM-seq2seq	0.352	0.314	0.285
				本发明方法	0.422	0.456	0.370

从表中可以看出，本发明提出的方法在Benchmark1测试集上的表现均优于主流的单阶段基于重构的时间序列异常检测方法，充分证明了本发明利用谱残差变换的方法能够更容易和准确地捕捉序列中的正常模式，从而能够更有效地检测出时间序列中的异常点。

参考文献：

[1]Tung Kieu,Bin Yang,and Christian S.Jensen.Outlier detection formultidimensional time series using deep neural networks.In MDM,pages 125–134,2018.

[2]Pankaj Malhotra,Anusha Ramakrishnan,Gaurangi Anand,Lovekesh Vig,Puneet Agarwal,and Gautam Shroff.LSTM-based encoder-decoder formultisensoranomaly detection.CoRR,abs/1607.00148,2016.