CN115062686A - 基于多角度特征的多元kpi时序异常检测方法和*** - Google Patents

基于多角度特征的多元kpi时序异常检测方法和*** Download PDF

Info

Publication number
CN115062686A
CN115062686A CN202210490264.4A CN202210490264A CN115062686A CN 115062686 A CN115062686 A CN 115062686A CN 202210490264 A CN202210490264 A CN 202210490264A CN 115062686 A CN115062686 A CN 115062686A
Authority
CN
China
Prior art keywords
time sequence
kpi
kpi time
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210490264.4A
Other languages
English (en)
Inventor
林友芳
王晶
白云飞
邵世宽
万怀宇
韩升
张硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202210490264.4A priority Critical patent/CN115062686A/zh
Publication of CN115062686A publication Critical patent/CN115062686A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于多角度特征的多元KPI时序异常检测方法和***,属于KPI异常检测领域。所述方法从嵌入图、时域、频域三个角度提取KPI时序的特征,再分别使用图卷积神经网络、时域卷积神经网络和谱网络对三种特征进行数据特征学习表示,再利用全连接神经网络和Softmax函数得到各特征的注意力分数,根据注意力分数对不同特征表示进行融合,然后输入到解码器中得到原始数据的重构表示,构成完整的多元KPI时序异常检测模型;基于历史数据对模型训练完成后,将待检测的多元KPI时序输入到成熟的检测模型中,检测数据中是否存在异常。本发明提不需要人工对异常进行标注,减少了检测过程中的人力需求,提高了运维管理***异常检测的准确度和效率。

Description

基于多角度特征的多元KPI时序异常检测方法和***
技术领域
本发明属于KPI时序数据挖掘领域,具体涉及一种基于多角度特征的多元KPI时序的异常检测方法和***。
背景技术
随着互联网,特别是移动互联网的高速发展,互联网服务已经深入到社会的各个领域,人们使用互联网进行搜索、购物、娱乐等活动,因此保障互联网服务的稳定越来越重要。互联网服务的稳定主要靠运维来保障,运维人员通过监控各种各样的关键性能指标(KPI)来判断互联网服务是否稳定,对KPI进行连续监测,则得到KPI时序数据。当对所监测的KPI时序数据进行检测发现存在异常时,可得出与其相关的应用发生了异常。
在某些复杂的网元中,KPI可能高达数千个,这些KPI时序通常有不同的类型,有表现为周期型的,还有表现为平稳型、非平稳型、持续波动型的,相对应的数据异常类型众多;而且KPI时序中常常伴有不确定性的噪声,异常与正常数据的识别难度增加,尤其当需要进行实时的异常检测时,人工难以快速准确地识别异常,从而使得多元KPI异常检测成为一个挑战性的工作。
现有技术中,一般采用构建KPI异常检测模型的方式识别异常,包括统计学方法、机器学习方法和深度学习方式。其中,统计学方法会学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常,比如基于多元正态分布的参数估计方法,基于直方图的异常值得分的非参数估计方法等;这类方法的局限性在于对前提假设依赖比较严重,难以处理多元KPI时序数据。机器学习方法通常需要提取大量的特征,然后将这些特征输入到强大的分类器中,比如基于树的随机森林,基于聚类的支持向量数据描述,基于距离的K近邻算法等;但机器学习方法由于过于简单的模型难以提取到高维复杂的特征,无法处理高维数据。而深度学习的方法是通过学习数据的正常模式来区分异常,但是,目前基于深度神经网络的多元KPI时序异常检测方法虽然不需要对数据进行前提假设,而且用于特征工程和异常识别的深度监督模型也可以处理高维数据,但由于数据样本不均衡,很容易导致模型收敛到次优的问题;同时,深度监督模型需要人工从大量样本中找到少量异常样本进行标注,这将导致大量人力资源的损耗。
发明内容
鉴于上述问题,本发明实施例提供了一种基于多角度特征的多元KPI时序异常检测方法和***,以提高运维管理***异常检测的准确度和效率,同时不需要人工对异常进行标注以减少检测过程中的人力资源消耗。
本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种基于多角度特征的多元KPI时序的异常检测方法,设定KPI时序的元数为M,包括如下步骤:
步骤S1,分析M元KPI时序数据的结构,提取嵌入图特征,基于嵌入图特征构建用于多元KPI时序异常检测的图卷积神经网络GCN,对多元KPI时序不同变量之间的信息表示进行表征;
步骤S2,以M元KPI时序数据本身作为时域特征,并基于时域特征构建用于多元KPI时序异常检测的时域卷积神经网络TCN,以得到多元KPI时序数据在时间域上的历史信息表示;
步骤S3,基于傅立叶变换分别确定M元KPI时序数据频域特征的实部和虚部,并基于频域特征构建用于多元KPI时序数据异常检测的谱网络,以得到多元KPI时序周期上的信息表示;
步骤S4,对所构建的多元KPI时序异常检测的GCN、TCN和谱网络输出的特征表示进行融合,构建基于多角度特征的多元KPI时序异常检测模型;
步骤S5,采集预定时间段内的M元KPI时序历史数据,经数据预处理后,将数据分训练集和验证集,通过训练集对异常检测模型进行训练,训练完成并经验证集验证,得到成熟的多元KPI时序异常检测模型;
步骤S6,设定阈值,对待检测的M元KPI时序进行数据预处理后,输入所述成熟的多元KPI时序异常检测模型中,并输出多元KPI时序异常检测结果。
作为本发明的一个优选实施例,步骤S4中所述融合,包括如下步骤:
步骤S41,分别将GCN、TCN和谱网络的输出结果经过一个全连接神经网络FCN映射为一维特征向量;
步骤S42,在三个FCN间设置一个连接层,通过连接层将嵌入图特征、时域特征和频域特征经过FCN的输出映射到(0,1)区间,将映射结果作为类别概率分布,将得到的概率映射作为每个特征的注意力分数;
步骤S43,根据注意力分数及三个异常检测网络输出的特征表示进行融合,并将融合结果输入到解码器中重构多元KPI时序数据,并设定多元KPI时序与重构数据的均方误差MSE为异常分数结果;
步骤S44,在所构建的基于多角度特征的多元KPI时序异常检测模型中,再设定阈值,根据阈值与异常分数结果的比较,判定当前多元KPI时序是否存在异常。
作为本发明的一个优选实施例,所述注意力分数采用公式(6)求解:
Figure BDA0003630811210000031
式(6)中,zk表示当前k特征经过FCN的输出,zi表示K个特征中任一i特征经过FCN的输出,K表示特征数量。
作为本发明的一个优选实施例,所述步骤S43中:
注意力分数及三个异常检测网络输出的特征表示进行融合采用公式(7):
Figure BDA0003630811210000032
式(7)中,
Figure BDA0003630811210000033
表示乘积符号,zi′分别表示从GCN、TCN、谱网络中得到的特征表示,zi则是公式(6)中所指三个特征经过FCN的输出;
再将Z输入到解码器中得到原始数据的重构表示,设输入的多元KPI时序为
Figure BDA0003630811210000035
其中xi∈Rm(i=1,…,n),即有m条KPI时序,每条KPI时序长度为n;那么重构多元KPI时序表示为
Figure BDA0003630811210000036
x′i∈Rm(i=1,…,n);均方误差MSE作为时刻t多元KPI时序xt的异常分数,采用公式(8)求解:
Figure BDA0003630811210000034
式(8)中,xti表示时刻t的多元KPI时序中第i条变量的观测值。
作为本发明的一个优选实施例,所述步骤S1中提取嵌入图特征,具体过程如下:以滑动时间窗口的窗口大小l作为M元KPI时序数据中的基本结构单元长度,在一个基本结构单元内的数据大小为m×l,以窗口内每个变量作为图的节点向量,构成m×l维的矩阵X作为图的节点特征;让每对节点向量的内积作为每对节点间边的权重,使用Top-K稀疏图结构,得到m×m维的邻接矩阵A作为图的边特征。
作为本发明的一个优选实施例,所述构建用于多元KPI时序异常检测的GCN,对GCN中每层节点的嵌入图特征根据公式(1)进行更新:
Figure BDA0003630811210000041
式(1)中,
Figure BDA0003630811210000042
表示节点j在第Q层的特征表示,cij是归一化因子,Ni表示包含节点i自身以及节点i邻居节点的集合,w是网络中可学习的参数,σ是可选择的激活函数;
根据邻接矩阵A将公式(1)简化为公式(2):
H(Q+1)=σ(AH(Q)W(Q)) (2)
其中,A是邻接矩阵;矩阵W∈Rl×l,是网络中的可学习参数,最后第N层的输出结果H(N)作为最终学习到的特征表示。
作为本发明的一个优选实施例,所述FCN的结构包括一个输入层、一个输出层和多个隐藏层,输入层和输出层之间的都是隐藏层,每一层神经网络有若干神经元,层与层之间神经元相互连接,层内神经元互不连接,而且下一层神经元连接上一层所有的神经元;对于第l个隐藏层中第i个神经元
Figure BDA0003630811210000043
的输入为
Figure BDA0003630811210000044
Figure BDA0003630811210000045
神经元的输出弟
Figure BDA0003630811210000046
其中N是上一层神经元的个数,
Figure BDA0003630811210000047
是第l-1层第n个神经元的输出,w是可学习的参数,σ是神经元的激活函数。
作为本发明的一个优选实施例,步骤S5在模型验证时,选取F1分数作为模型评价指标,F1是模型准确率和召回率的加权平均,最大值是1,最小值是0,计算公式为F1=2*PR/(P+R);其中P表示准确率,计算公式为P=TP/(TP+FP),R=TP/(TP+FN)表示召回率,TP表示将异常值标记为异常的数量,FP为将正常值标记为异常的数量,FN则是将异常值标记为正常的数量;取F1分数最大时的模型作为成熟的模型,此时验证集上异常分数的最大值作为步骤S6检测阶段的阈值。
作为本发明的一个优选实施例,所述步骤S6中输出多元KPI时序异常检测结果,具体包括:将经过数据预处理的待检测多元KPI时序输入到成熟的检测模型中,将得到的异常分数与所述阈值进行比较,超过阈值的则为异常点,进行标记。
第二方面,本发明实施例还提供了一种基于多角度特征的多元KPI时序的异常检测***,所述***包括:嵌入图特征提取模块、GCN构建模块、时域特征提取模块、TCN构建模块、频域特征提取模块、谱网络构建模块、网络融合和模型构建模块、KPI时序存储模块以及检测结果输出模块;其中,
所述嵌入图特征提取模块用于基于M元KPI时序数据的结构提取嵌入图特征,并将嵌入图特征发送给GCN构建模块;
所述GCN构建模块用于基于嵌入图特征构建用于多元KPI时序异常检测的图卷积神经网络GCN,对多元KPI时序不同变量之间的信息表示进行表征;
所述时域特征提取模块用于依据M元KPI时序数据本身获取时域特征,并发送TCN构建模块;
所述TCN构建模块用于基于时域特征构建用于多元KPI时序异常检测的时域卷积神经网络TCN,以得到多元KPI时序数据在时间域上的历史信息表示;
所述频域特征提取模块用于基于傅立叶变换分别确定M元KPI时序数据频域特征的实部和虚部,并发送给谱网络构建模块;
所述谱网络构建模块用于基于频域特征构建用于多元KPI时序数据异常检测的谱网络,以得到多元KPI时序周期上的信息表示;
所述网络融合和模型构建模块用于对所构建的多元KPI时序异常检测的GCN、TCN和谱网络输出的特征表示进行融合,并构建基于多角度特征的多元KPI时序异常检测模型,并完成模型的训练和验证得到成熟的多元KPI时序异常检测模型;
所述KPI时序存储模块用于采集多元KPI时序异常检测模型的训练集和验证集数据,还用于采集待检测的M元KPI时序,并对所采集的数据进行预处理后存储;
所述检测结果输出模块用于对成熟的多元KPI时序异常检测模型输入待检测的M元KPI时序后,输出模型的检测结果。
本发明具有如下有益效果:
本发明实施例所提供的基于多角度特征的多元KPI时序的异常检测方法和***,可以有效的针对具有多种类型的KPI时序数据进行高效准确的异常检测,综合多个角度的信息,提高检测结果的可靠性。该方法是无监督学习方法,不需要人工对异常样本打标签,也不需要进行大量的特征提取,适用多种类型的KPI时序数据和样本不均衡的场景。该方法还有效的解决了维度灾难的问题,对高维KPI时序数据仍然可以高效准确的进行异常检测。本发明提供可视化***,向***运维人员展示原始时序、提取的不同特征数据以及标注的异常,方便运维人员辨别异常类型和定位异常。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提出的基于多角度特征的多元KPI时序异常检测方法流程图;
图2为本发明实施例中嵌入图特征表示过程;
图3为本发明实施例中图卷积神经网络(GCN)信息传播过程;
图4为本发明实施例中时间卷积神经网络(TCN)信息传播过程;
图5为本发明实施例中时域转换频域表示过程;
图6为本发明实施例中全连接神经网络(FCN)信息传播过程;
图7为本发明实施例中多元KPI时序输入异常检测模型数据传递原理图;
图8为本发明实施例基于多角度特征的多元KPI时序输入异常检测***的结构示意图。
具体实施方式
下面通过参考示范性实施例,并结合附图,对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非在这里进行定义,否则不会用理想化或过于正式的含义来解释。
本申请发明人经过详细研究发现,目前还没有专门针对不同类型的多元KPI时序数据的异常检测方法,KPI时序数据中存在多种类型而表现为多元时,无法进行有效的检测。基于此,本申请实施例提出了一种基于多角度特征的多元KPI时序异常检测的方法和***,不需要人工对异常样本打标签,也不需要进行大量的特征提取,对高维KPI时序数据从时域信息、变量间信息和频域信息多个角度进行并行化处理,提取KPI时序数据上的复杂特征以提高检测的可靠性,适用于高维KPI时序数据和样本不均衡时的KPI异常检测,提高检测精度。
参见图1,本发明实施例提供了一种基于多角度特征的多元KPI时序异常检测方法,设定KPI时序的元数为M,包括如下步骤:
步骤S1,分析M元KPI时序数据的结构,提取嵌入图特征,基于嵌入图特征构建用于多元KPI时序异常检测的图卷积神经网络(GCN),对多元KPI时序不同变量之间的信息表示进行表征。
本步骤中,所述提取嵌入图特征,如图2所示,具体过程如下:以滑动时间窗口的窗口大小l作为M元KPI时序数据中的基本结构单元长度,在一个基本结构单元内的数据大小为m×l,以窗口内每个变量作为图的节点向量,构成m×l维的矩阵X作为图的节点特征;以每对节点间的连线作为边,以每对节点向量的内积作为节点间边的权重,使用Top-K稀疏图结构,得到m×m维的邻接矩阵A作为图的边特征;将矩阵X和A存储在数据库中。
以上所提取的嵌入图特征,具有两个基本特性:(1)每个节点都有自己的特征信息;(2)嵌入图中的每个节点还具有结构信息。基于此,构建用于多元KPI时序异常检测的GCN。GCN具有如下特征:(1)发射每一个节点,将自身的特征信息经过变换后发送给邻居节点,对节点的特征信息进行抽取变换;(2)接受每个节点,将邻居节点的特征信息聚集起来,对节点的局部结构信息进行融合;(3)把前面的信息聚合之后做非线性变换,增加模型的表达能力。基于此,本实施例中构建用于多元KPI时序异常检测的GCN,如图3所示,对每层GCN中节点的嵌入图特征根据公式(1)进行更新:
Figure BDA0003630811210000071
其中,
Figure BDA0003630811210000072
表示节点j在第Q层的特征表示,cij是归一化因子,Ni表示包含节点i自身以及节点i邻居节点的集合,w是网络中可学习的参数,σ是可选择的激活函数。
根据邻接矩阵A将式(1)简化为式(2):
H(Q+1)=σ(AH(Q)W(Q)) (2)
其中,A是邻接矩阵;矩阵W∈Rl×l,是网络中的可学习参数,当Q=0时,H(0)=X,最后第N层的输出结果H(N)作为最终学习到的特征表示。
步骤S2,以M元KPI时序数据本身作为时域特征,并基于时域特征构建用于多元KPI时序异常检测的时域卷积网络(TCN)以得到多元KPI时序数据在时间域上的历史信息表示。
本步骤中,TCN用于处理时域信息,融合了时域上的建模能力和卷积的低参数量下的特征提取能力,能够捕捉时序上的依赖关系,同时通过使用卷积,可以捕获到局部信息。设定扩张率d和滤波器F={f1,f2,…,fk},=3对于第i条KPI时序
Figure BDA0003630811210000084
如图4所示,k=3时,按照公式(3)进行信息传播:
Figure BDA0003630811210000081
最终得到时域特征表示
Figure BDA0003630811210000082
步骤S3,基于傅立叶变换分别确定M元KPI时序数据频域特征的实部和虚部,并基于频域特征构建用于多元KPI时序数据异常检测的谱网络,以得到多元KPI时序周期上的信息表示。
本步骤中,如图5所示,所述基于傅立叶变换分别确定M元KPI时序数据频域特征的实部和虚部,傅立叶变换过程中,一个信号包含多个频率分量,任意信号都可以通过多个周期函数(基函数)相加而合成,所述傅立叶变换采用公式(4):
Figure BDA0003630811210000083
式(4)中,s代表频率,t代表时间,e-ist为复变函数。
通过傅立叶变换,将时域上的信号转变为频域上的信号,随着域的不同,可以获取多元KPI时序中包含的周期信息,提高后续异常检测的可靠性。
所述基于频域特征构建用于多元KPI时序数据异常检测的谱网络,为了考虑KPI时序上的周期信息,将频域特征的实部和虚部都作为谱网络的输入。谱网络包含一个FCN,即线性层和一个Sigmoid激活层。线性层为了学习频域信息的特征,但其输出结果可能为负数,所以使用Sigmoid函数对输出结果进行矫正。Sigmoid函数公式(5)为:
Sigmoid(z)=1/(1+e-z) (5)
式(5)中,z表示线性层的输出。
步骤S4,对所构建的多元KPI时序异常检测的GCN、TCN和谱网络输出的特征表示进行融合,构建基于多角度特征的多元KPI时序异常检测模型。
本步骤中,所述融合,包括如下步骤:
步骤S41,分别将GCN、TCN和谱网络的输出结果经过一个FCN的输出映射成一维特征向量。
本步骤中,如图6所示,所述FCN的结构包括一个输入层、一个输出层和多个隐藏层,输入层和输出层之间的都是隐藏层。每一层神经网络有若干神经元,层与层之间神经元相互连接,层内神经元互不连接,而且下一层神经元连接上一层所有的神经元。例如,对于第l个隐藏层中第i个神经元
Figure BDA0003630811210000091
的输入为
Figure BDA0003630811210000092
Figure BDA0003630811210000093
神经元的输出弟
Figure BDA0003630811210000094
其中N是上一层神经元的个数,
Figure BDA0003630811210000095
是第l-1层第n个神经元的输出,w是可学习的参数,σ是神经元的激活函数。通过FCN的非线性拟合,更好的学习特征表示,模型的输出也方便后续激活函数Softmax的处理。
步骤S42,在三个FCN间设置一个连接层,通过连接层将嵌入图特征、时域特征和频域特征经过FCN的输出映射到(0,1)区间,将映射结果作为类别概率分布,将得到的概率映射作为每个特征的重要性即注意力分数。注意力分数公式(6)为:
Figure BDA0003630811210000096
式(6)中,zk表示当前k特征经过FCN的输出,zi表示K个特征中任一i特征经过FCN的输出,K表示特征数量。本实施例中K=3。
步骤S43,根据注意力分数及三个异常检测网络输出的特征表示进行融合,并将融合结果输入到解码器中重构多元KPI时序数据,并设定多元KPI时序与重构数据的均方误差MSE为异常分数结果。
本步骤中,注意力分数及三个异常检测网络输出的特征表示进行融合采用公式(7):
Figure BDA0003630811210000097
式(7)中,
Figure BDA0003630811210000098
表示乘积符号,zi′分别表示从GCN、TCN、谱网络中得到的特征表示,zi则是公式(6)中所指三个特征经过FCN网络的输出。
再将Z输入到解码器中得到原始数据的重构表示,设输入的多元KPI时序为
Figure BDA0003630811210000099
其中xi∈Rm(i=1,…,n),即有m条KPI时序,每条KPI时序长度为n。那么重构多元KPI时序表示为
Figure BDA00036308112100000910
x′i∈Rm(i=1,…,n);均方误差(MSE)作为时刻t多元KPI时序xt的异常分数,求解公式(8)如下:
Figure BDA0003630811210000101
式(8)中,xti表示时刻t的多元KPI时序中第i条变量的观测值。
步骤S44,在所构建的基于多角度特征的多元KPI时序异常检测模型中,再设定阈值,根据阈值与异常分数结果的比较,判定当前多元KPI时序是否存在异常。
步骤S5,采集预定时间段内的M元KPI时序历史数据,经数据预处理后,将数据分训练集和验证集,通过训练集对异常检测模型进行训练,训练完成并经验证集验证,得到成熟的多元KPI时序异常检测模型。
本步骤中,如图7所示,在采用训练集训练时,分别将当前M元KPI数据输入用于异常检测的GCN、TCN和谱网络中,三个输出经果经FCN输出后,再经Softmax连接层归一化,得到三个角度特征的不同注意力分数;再进行M元KPI时序的重构,并计算MSE,根据MSE的结果对GCN、TCN、谱网络、FCN、连接层及解码器的各自参数进行调整,如网络内各层之间的权重等;调整完成后,在采用验证集进行验证时,选取F1分数最大时的异常分数作为S6步骤的阈值。
例如,以数据预处理后得到多元KPI时序
Figure BDA0003630811210000104
为例。将其输入GCN中,如图3所示,假设滑动窗口的大小为l,a=[a1,a2…,al],b=[b1,b2…,bl]为图中任意两个节点,则连接a,b节点的边eab权重为:
Figure BDA0003630811210000102
Figure BDA0003630811210000103
计算完所有节点对的内积将得到一个全连接图,为了降低计算的开销,防止后续模型训练时过拟合,采用ToP-K方法保证嵌入图的稀疏行,即对于一个节点,将其邻接边上的权重进行从大到小排序,仅仅保留权重最大的前K条边。在实际应用中可以根据业务场景来确定K的值。如图5所示,将上述得到的节点向量组成的矩阵X作为GCN的第0层特征表示,然后以公式(1)在图卷积层中进行信息传播。
在模型验证时,选取F1分数作为模型评价指标,F1可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0,值越大意味着模型越好,其计算公式为F1=2*PR/(P+R)。其中P表示准确率,计算公式为P=TP/(TP+FP),R=TP/(TP+FN)表示召回率,TP表示将异常值标记为异常的数量,FP为将正常值标记为异常的数量,FN则是将异常值标记为正常的数量。取F1分数最大时的模型作为成熟的模型,此时验证集上异常分数的最大值作为步骤S6检测阶段的阈值。
所述数据预处理,目的是将数据处理成方便输入神经网络的形式,包括:数据提取、缺失值处理、数据归一化。预处理后得到多元KPI时序
Figure BDA0003630811210000111
Figure BDA0003630811210000112
其中,数据提取是将原始多元KPI时序数据的格式调整为统一的格式,调整数据时间戳和去除重复数据,解决数据时间戳顺序不规整问题,使其按时间戳从小到大排序,数据提取后的多元KPI时序包含如下属性字段:时间戳,时序的值。
缺失值处理是使用线性插值的方式补充缺失的数据点;具体处理过程如下:首先根据原始多元KPI时序获取数据的采样间隔,之后基于该采样间隔判断并得出多元KPI时序的时间区间内应有的数据点个数、实际的数据点个数以及缺失的数据点个数;在已有数据点的基础上,将对应时间点缺失的数据点进行缺失值处理,使用线性插值的方式补充缺失的数据点。
数据归一化是对多元KPI时序进行min-max归一化处理,具体处理公式为:
xij′=(xij-min(x.j))/(max(x.j)-min(x.j)) (8)
式(8)中,i=1,2,…,n,j=1,2,…,m。
步骤S6,设定阈值,对待检测的M元KPI时序进行数据预处理后,输入所述成熟的多元KPI时序异常检测模型中,并输出多元KPI时序异常检测结果。
本步骤,将经过数据预处理的待检测多元KPI时序输入到成熟的检测模型中,得到的异常分数与所述阈值进行比较,超过阈值的则为异常点,进行标记。在实际情况中,新的多元KPI时序数据中往往会出现一些历史数据中没有出现过的特征或异常,这时需要***运维人员在所提的***中对阈值进行微调。从三个特征角度分析多元KPI时序,并提取数据中隐含的信息来提高异常检测的准确率和精度。
由以上技术方案可以看出,本发明实施例所述的一种基于多角度特征的多元KPI时序的异常检测方法,从时域信息、变量间信息、频域信息出发,可以有效的对平稳型、非平稳型、周期型等多种类型的多元KPI时序进行异常检测,并能够提高检测的可靠性。该方法是无监督学习方法,本方法使用无监督方法,不需要人工对异常样本打标签,也不需要进行大量的特征提取,适用多种类型的多元KPI时序数据和样本不均衡的场景。该方法还有效的解决了维度灾难的问题,对高维KPI时序数据仍然可以高效准确的进行异常检测。本发明提供可视化***,向***运维人员展示原始时序、提取的不同特征数据以及标注的异常,方便运维人员辨别异常类型和定位异常。
基于同样的思想,本发明实施例还提供了一种基于多角度特征的多元KPI时序的异常检测***,参见图8,所述***包括:嵌入图特征提取模块、GCN构建模块、时域特征提取模块、TCN构建模块、频域特征提取模块、谱网络构建模块、网络融合和模型构建模块、KPI时序存储模块以及检测结果输出模块。
其中,所述嵌入图特征提取模块用于基于M元KPI时序数据的结构提取嵌入图特征,并将嵌入图特征发送给GCN构建模块;
所述GCN构建模块用于基于嵌入图特征构建用于多元KPI时序异常检测的图卷积神经网络GCN,对多元KPI时序不同变量之间的信息表示进行表征;
所述时域特征提取模块用于基于M元KPI时序数据本身获取时域特征,并发送给TCN构建模块;
所述TCN构建模块用于基于时域特征构建用于多元KPI时序异常检测的时域卷积神经网络TCN,以得到多元KPI时序数据在时间域上的历史信息表示;
所述频域特征提取模块用于基于傅立叶变换分别确定M元KPI时序数据频域特征的实部和虚部,并发送给谱网络构建模块;
所述谱网络构建模块用于基于频域特征构建用于多元KPI时序数据异常检测的谱网络,以得到多元KPI时序周期上的信息表示;
所述网络融合和模型构建模块用于对所构建的多元KPI时序异常检测的GCN、TCN和谱网络输出的特征表示进行融合,并构建基于多角度特征的多元KPI时序异常检测模型,并完成模型的训练和验证得到成熟的多元KPI时序异常检测模型;
所述KPI时序存储模块用于采集多元KPI时序异常检测模型的训练集和验证集数据,还用于采集待检测的M元KPI时序,并对所采集的数据进行预处理后存储;
所述检测结果输出模块用于对成熟的多元KPI时序异常检测模型输入待检测的M元KPI时序后,输出模型的检测结果。
优选地,如图8所示,本实施例中所述检测***还可以包括KPI时间序列可视化模块,所述可视化模块可以将原始数据、正常的KPI时序数据以及检测出的异常的KPI数据进行可视化展示,从而更加清晰的显示KPI时序的状态。
本实施例中各模块通过处理器实现,当需要存储时适当增加存储器。其中,所述处理器可以是但不限于微处理器MPU、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件等。所述存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
需要说明的是,本实施例所述基于多角度特征的多元KPI时序的异常检测***与基于多角度特征的多元KPI时序的异常检测方法是相对应的,对所述基于多角度特征的多元KPI时序的异常检测方法的描述同样适用于基于多角度特征的多元KPI时序的异常检测***,在此不再赘述。以上所述是本发明的优选实施方式,应当指出,本发明并不受限于以上所公开的示范性实施例,说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于多角度特征的多元KPI时序异常检测方法,其特征在于,设定KPI时序的元数为M,包括如下步骤:
步骤S1,分析M元KPI时序数据的结构,提取嵌入图特征,基于嵌入图特征构建用于多元KPI时序异常检测的图卷积神经网络GCN,对多元KPI时序不同变量之间的信息表示进行表征;
步骤S2,以M元KPI时序数据本身作为时域特征,并基于时域特征构建用于多元KPI时序异常检测的时域卷积神经网络TCN,以得到多元KPI时序数据在时间域上的历史信息表示;
步骤S3,基于傅立叶变换分别确定M元KPI时序数据频域特征的实部和虚部,并基于频域特征构建用于多元KPI时序数据异常检测的谱网络,以得到多元KPI时序周期上的信息表示;
步骤S4,对所构建的多元KPI时序异常检测的GCN、TCN和谱网络输出的特征表示进行融合,构建基于多角度特征的多元KPI时序异常检测模型;
步骤S5,采集预定时间段内的M元KPI时序历史数据,经数据预处理后,将数据分训练集和验证集,通过训练集对异常检测模型进行训练,训练完成并经验证集验证,得到成熟的多元KPI时序异常检测模型;
步骤S6,设定阈值,对待检测的M元KPI时序进行数据预处理后,输入所述成熟的多元KPI时序异常检测模型中,并输出多元KPI时序异常检测结果。
2.根据权利要求1所述的基于多角度特征的多元KPI时序异常检测方法,其特征在于,步骤S4中所述融合,包括如下步骤:
步骤S41,分别将GCN、TCN和谱网络的输出结果经过一个全连接神经网络FCN映射为一维特征向量;
步骤S42,在三个FCN间设置一个连接层,通过连接层将嵌入图特征、时域特征和频域特征经过FCN的输出映射到(0,1)区间,将映射结果作为类别概率分布,将得到的概率映射作为每个特征的注意力分数;
步骤S43,根据注意力分数及三个异常检测网络输出的特征表示进行融合,并将融合结果输入到解码器中重构多元KPI时序数据,并设定多元KPI时序与重构数据的均方误差MSE为异常分数结果;
步骤S44,在所构建的基于多角度特征的多元KPI时序异常检测模型中,再设定阈值,根据阈值与异常分数结果的比较,判定当前多元KPI时序是否存在异常。
3.根据权利要求2所述的基于多角度特征的多元KPI时序的异常检测方法,其特征在于,所述注意力分数采用公式(6)求解:
Figure FDA0003630811200000021
式(6)中,zk表示当前k特征经过FCN的输出,zi表示K个特征中任一i特征经过FCN的输出,K表示特征数量。
4.根据权利要求3所述的基于多角度特征的多元KPI时序的异常检测方法,其特征在于,所述步骤S43中:
注意力分数及三个异常检测网络输出的特征表示进行融合采用公式(7):
Figure FDA0003630811200000022
式(7)中,
Figure FDA0003630811200000023
表示乘积符号,zi′分别表示从GCN、TCN、谱网络中得到的特征表示,zi则是公式(6)中所指三个特征经过FCN的输出;
再将Z输入到解码器中得到原始数据的重构表示,设输入的多元KPI时序为
Figure FDA0003630811200000027
其中xi∈Rm(i=1,...,n),即有m条KPI时序,每条KPI时序长度为n;那么重构多元KPI时序表示为
Figure FDA0003630811200000028
x′i∈Rm(i=1,...,n);均方误差MSE作为时刻t多元KPI时序xt的异常分数,采用公式(8)求解:
Figure FDA0003630811200000024
式(8)中,xti表示时刻t的多元KPI时序中第i条变量的观测值。
5.根据权利要求1-4任一项所述的基于多角度特征的多元KPI时序的异常检测方法,其特征在于,所述步骤S1中提取嵌入图特征,具体过程如下:以滑动时间窗口的窗口大小l作为M元KPI时序数据中的基本结构单元长度,在一个基本结构单元内的数据大小为m×l,以窗口内每个变量作为图的节点向量,构成m×l维的矩阵X作为图的节点特征;让每对节点向量的内积作为每对节点间边的权重,使用Top-K稀疏图结构,得到m×m维的邻接矩阵A作为图的边特征。
6.根据权利要求5所述的基于多角度特征的多元KPI时序的异常检测方法,其特征在于,所述构建用于多元KPI时序异常检测的GCN,对GCN中每层节点的嵌入图特征根据公式(1)进行更新:
Figure FDA0003630811200000025
式(1)中,
Figure FDA0003630811200000026
表示节点j在第Q层的特征表示,cij是归一化因子,Ni表示包含节点i自身以及节点i邻居节点的集合,w是网络中可学习的参数,σ是可选择的激活函数;
根据邻接矩阵A将公式(1)简化为公式(2):
H(Q+1)=σ(AH(Q)W(Q)) (2)
式(2)中,A是邻接矩阵;矩阵W∈Rl×l,是网络中的可学习参数,最后第N层的输出结果H(N)作为最终学习到的特征表示。
7.根据权利要求1-4任一项所述的基于多角度特征的多元KPI时序的异常检测方法,其特征在于,所述FCN的结构包括一个输入层、一个输出层和多个隐藏层,输入层和输出层之间的都是隐藏层,每一层神经网络有若干神经元,层与层之间神经元相互连接,层内神经元互不连接,而且下一层神经元连接上一层所有的神经元;对于第l个隐藏层中第i个神经元
Figure FDA0003630811200000031
的输入为
Figure FDA0003630811200000032
Figure FDA0003630811200000033
神经元的输出为
Figure FDA0003630811200000034
其中N是上一层神经元的个数,
Figure FDA0003630811200000035
是第l-1层第n个神经元的输出,w是可学习的参数,σ是神经元的激活函数。
8.根据权利要求1-4任一项所述的基于多角度特征的多元KPI时序的异常检测方法,其特征在于,步骤S5在模型验证时,选取F1分数作为模型评价指标,F1是模型准确率和召回率的加权平均,最大值是1,最小值是0,计算公式为F1=2*PR/(P+R);其中P表示准确率,计算公式为P=TP/(TP+FP),R=TP/(TP+FN)表示召回率,TP表示将异常值标记为异常的数量,FP为将正常值标记为异常的数量,FN则是将异常值标记为正常的数量;取F1分数最大时的模型作为成熟的模型,此时验证集上异常分数的最大值作为步骤S6检测阶段的阈值。
9.根据权利要求1-4任一项所述的基于多角度特征的多元KPI时序的异常检测方法,其特征在于,所述步骤S6中输出多元KPI时序异常检测结果,具体包括:将经过数据预处理的待检测多元KPI时序输入到成熟的检测模型中,将得到的异常分数与所述阈值进行比较,超过阈值的则为异常点,进行标记。
10.一种基于多角度特征的多元KPI时序的异常检测***,其特征在于,所述***包括:嵌入图特征提取模块、GCN构建模块、时域特征提取模块、TCN构建模块、频域特征提取模块、谱网络构建模块、网络融合和模型构建模块、KPI时序存储模块以及检测结果输出模块;其中,
所述嵌入图特征提取模块用于基于M元KPI时序数据的结构提取嵌入图特征,并将嵌入图特征发送给GCN构建模块;
所述GCN构建模块用于基于嵌入图特征构建用于多元KPI时序异常检测的图卷积神经网络GCN,对多元KPI时序不同变量之间的信息表示进行表征;
所述时域特征提取模块用于基于M元KPI时序数据本身获取时域特征,并发送给TCN构建模块;
所述TCN构建模块用于基于时域特征构建用于多元KPI时序异常检测的时域卷积神经网络TCN,以得到多元KPI时序数据在时间域上的历史信息表示;
所述频域特征提取模块用于基于傅立叶变换分别确定M元KPI时序数据频域特征的实部和虚部,并发送给谱网络构建模块;
所述谱网络构建模块用于基于频域特征构建用于多元KPI时序数据异常检测的谱网络,以得到多元KPI时序周期上的信息表示;
所述网络融合和模型构建模块用于对所构建的多元KPI时序异常检测的GCN、TCN和谱网络输出的特征表示进行融合,并构建基于多角度特征的多元KPI时序异常检测模型,并完成模型的训练和验证得到成熟的多元KPI时序异常检测模型;
所述KPI时序存储模块用于采集多元KPI时序异常检测模型的训练集和验证集数据,还用于采集待检测的M元KPI时序,并对所采集的数据进行预处理后存储;
所述检测结果输出模块用于对成熟的多元KPI时序异常检测模型输入待检测的M元KPI时序后,输出模型的检测结果。
CN202210490264.4A 2022-05-07 2022-05-07 基于多角度特征的多元kpi时序异常检测方法和*** Pending CN115062686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210490264.4A CN115062686A (zh) 2022-05-07 2022-05-07 基于多角度特征的多元kpi时序异常检测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210490264.4A CN115062686A (zh) 2022-05-07 2022-05-07 基于多角度特征的多元kpi时序异常检测方法和***

Publications (1)

Publication Number Publication Date
CN115062686A true CN115062686A (zh) 2022-09-16

Family

ID=83196840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210490264.4A Pending CN115062686A (zh) 2022-05-07 2022-05-07 基于多角度特征的多元kpi时序异常检测方法和***

Country Status (1)

Country Link
CN (1) CN115062686A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880102A (zh) * 2023-03-08 2023-03-31 国网福建省电力有限公司 一种电能计量方法、***、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880102A (zh) * 2023-03-08 2023-03-31 国网福建省电力有限公司 一种电能计量方法、***、设备及存储介质
CN115880102B (zh) * 2023-03-08 2023-06-09 国网福建省电力有限公司 一种电能计量方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN112101480A (zh) 一种多变量聚类与融合的时间序列组合预测方法
CN111260249A (zh) 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置
Rivera et al. Forecasting monthly precipitation in Central Chile: a self-organizing map approach using filtered sea surface temperature
CN116842459A (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN117272196A (zh) 一种基于时空图注意力网络的工业时序数据异常检测方法
Cai et al. Exploratory analysis of massive data for distribution fault diagnosis in smart grids
CN112163020A (zh) 一种多维时间序列异常检测方法及检测***
CN115062686A (zh) 基于多角度特征的多元kpi时序异常检测方法和***
CN111209968A (zh) 基于深度学习的多气象因子模式预报温度订正方法及***
CN117421994A (zh) 一种边缘应用健康度的监测方法和监测***
Prabowo et al. Traffic forecasting on new roads unseen in the training data using spatial contrastive pre-training
Dang et al. seq2graph: Discovering dynamic non-linear dependencies from multivariate time series
Huang et al. Robust spatial temporal imputation based on spatio-temporal generative adversarial nets
Dang et al. seq2graph: discovering dynamic dependencies from multivariate time series with multi-level attention
CN113837481B (zh) 一种基于区块链的金融大数据管理***
CN115293249A (zh) 一种基于动态时序预测的电力***典型场景概率预测方法
CN113469228A (zh) 一种基于数据流时空特征的电力负荷异常值辨识方法
CN111653087A (zh) 一种城市交通异常探测模型的构建方法
Liu et al. A GCN-based adaptive generative adversarial network model for short-term wind speed scenario prediction
CN113435915B (zh) 用户窃电行为检测方法、装置、设备及存储介质
Sharma et al. Deep Semi-supervised Anomaly Detection Using VQ-VAE
CN118036667B (zh) 一种多源异构流数据预测方法
CN117667495B (zh) 一种关联规则与深度学习集成的应用***故障预测方法
Sumalatha et al. Real Time Big Data Analytics for Agricultural Land Hotspot Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination