CN113296990A - 时序数据的异常识别方法及装置 - Google Patents

时序数据的异常识别方法及装置 Download PDF

Info

Publication number
CN113296990A
CN113296990A CN202011059551.7A CN202011059551A CN113296990A CN 113296990 A CN113296990 A CN 113296990A CN 202011059551 A CN202011059551 A CN 202011059551A CN 113296990 A CN113296990 A CN 113296990A
Authority
CN
China
Prior art keywords
time sequence
history
value
transfer
sequence point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011059551.7A
Other languages
English (en)
Other versions
CN113296990B (zh
Inventor
胡文杰
刘贵阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202011059551.7A priority Critical patent/CN113296990B/zh
Publication of CN113296990A publication Critical patent/CN113296990A/zh
Application granted granted Critical
Publication of CN113296990B publication Critical patent/CN113296990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书一个或多个实施例提供一种时序数据的异常识别方法及装置;该方法可以包括:在针对目标对象的目标参数进行周期性检测得到的检测值中,分别获取第一时序点在目标周期对应的第一检测值、相邻于第一时序点的第二时序点在目标周期对应的第二检测值;在第一时序点位于第二时序点之前且第一检测值处于第一值域区间、第二检测值处于第二值域区间的情况下,确定第一时序点和第二时序点在目标周期对应的待识别转移关系为由第一值域区间转移至第二值域区间;确定第一时序点和第二时序点在历史周期对应的历史转移关系的分布统计数据;根据待识别转移关系对应的历史转移关系在分布统计数据中的历史出现概率,确定待识别转移关系是否存在异常。

Description

时序数据的异常识别方法及装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种时序数据的异常识别方法及装置。
背景技术
各种各样的智能运维***在运行过程中会源源不断的产生对应于不同时序指标的时序数据,时序数据通常是指每隔一段时间进行一次采集且采集的数据值可以和采集时间一一对应的数据列。而通过对这些时序数据进行异常识别,往往可以及时发现和处理智能运维***在运行过程中存在的故障,因而对时序数据的异常识别是智能运维***能够正常运转的重要环节。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种时序数据的异常识别方法及装置。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种时序数据的异常识别方法,包括:
在针对目标对象的目标参数进行周期性检测得到的检测值中,分别获取第一时序点在目标周期对应的第一检测值、相邻于所述第一时序点的第二时序点在所述目标周期对应的第二检测值;
在所述第一时序点位于所述第二时序点之前且所述第一检测值处于第一值域区间、所述第二检测值处于第二值域区间的情况下,确定所述第一时序点和所述第二时序点在所述目标周期对应的待识别转移关系为由所述第一值域区间转移至所述第二值域区间;
确定所述第一时序点和所述第二时序点在各个历史周期对应的历史转移关系的分布统计数据;其中,任一历史周期对应的历史转移关系为由所述第一时序点在所述任一历史周期对应的第一历史检测值所处的值域区间转移至所述第二时序点在所述任一历史周期对应的第二历史检测值所处的值域区间;
根据所述待识别转移关系对应的历史转移关系在所述分布统计数据中的历史出现概率,确定所述待识别转移关系是否存在异常。
根据本说明书一个或多个实施例的第二方面,提出了一种时序数据的异常识别装置,包括:
获取单元,用于在针对目标对象的目标参数进行周期性检测得到的检测值中,分别获取第一时序点在目标周期对应的第一检测值、相邻于所述第一时序点的第二时序点在所述目标周期对应的第二检测值;
关系确定单元,用于在所述第一时序点位于所述第二时序点之前且所述第一检测值处于第一值域区间、所述第二检测值处于第二值域区间的情况下,确定所述第一时序点和所述第二时序点在所述目标周期对应的待识别转移关系为由所述第一值域区间转移至所述第二值域区间;
数据确定单元,用于确定所述第一时序点和所述第二时序点在各个历史周期对应的历史转移关系的分布统计数据;其中,任一历史周期对应的历史转移关系为由所述第一时序点在所述任一历史周期对应的第一历史检测值所处的值域区间转移至所述第二时序点在所述任一历史周期对应的第二历史检测值所处的值域区间;
异常确定单元,用于根据所述待识别转移关系对应的历史转移关系在所述分布统计数据中的历史出现概率,确定所述待识别转移关系是否存在异常。
根据本说明书一个或多个实施例的第三方面,提供一种电子设备。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第一方面或第二方面所述的方法。
根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面或第二方面所述方法的步骤。
附图说明
图1是本说明书一示例性实施例提供的一种时序数据的异常识别方法的架构示意图。
图2是本说明书一示例性实施例提供的一种时序数据的异常识别方法的流程图。
图3是本说明书一示例性实施例提供的一种时序数据的异常识别方法的流程图。
图4是本说明书一示例性实施例提供的一种检测值对应的值域区间的示意图。
图5是本说明书一示例性实施例提供的一种转移演化图和转移矩阵的转换关系的示意图。
图6是本说明书一示例性实施例提供的一种电子设备的结构示意图。
图7是本说明书一示例性实施例提供的一种时序数据的异常识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
各种各样的智能运维***在运行过程中会源源不断的产生对应于不同时序指标的时序数据,而通过对这些时序数据进行异常识别,往往可以及时发现和处理智能运维***在运行过程中存在的故障,因而对时序数据的异常识别是智能运维***能够正常运转的重要环节。
在相关技术中,通常采用预先设定某一时序指标的正常取值范围,那么当采集到的时序数据的数值处于该正常取值范围内时,则判定为正常数据,而当采集到的时序数据的数值处于该正常取值范围外时,则判定为异常数据,但是这种方式只能检测到时序数据中异常的时序点,而不能判断不同时序点对应的数值转移的异常情况,并且采用这种方式获得的检测结果的准确性低,容易造成对时序数据的误判。
另外,随着智能运维***对应的时序指标数量的增多且时序数据的形态越来越多样,准确识别出时序数据中的异常情况的难度越来越大。特别是部署在云平台中的各个智能运维***对应的时序指标数量繁多、时序数据的形态丰富且异常类型多,此时采用相关技术中的方式对时序数据进行异常识别,往往需要需要消耗较多的计算资源且难以准确识别时序数据中的异常情况。
因此,本说明书通过改进时序数据的异常识别方法以解决相关技术中存在的上述技术问题。下面结合实施例进行详细说明。
图1是本说明书一示例性实施例提供的一种时序数据的异常识别方法的架构示意图。如图1所示,可以包括服务器11、网络12和目标对象13。
服务器11可以为包含一独立主机的物理服务器,或者该服务器11可以为主机集群承载的虚拟服务器。在运行过程中,服务器11可以配置有异常识别装置,该装置可以采用软件和/或硬件的方式实现,以用于识别从目标对象13处获取到的时序数据中的异常。
目标对象13可以与服务器11部署在同一物理设备上,或者目标对象13可以与服务器11部署在不同的物理设备上。在运行过程中,目标对象13可以对目标参数的取值进行周期性采集,获得相应的目标参数的检测值。其中,该检测值按照时间顺序排列,因而该检测值也可以被称之为“时序数据”,服务器11可以从目标对象13处获取到目标参数的时序数据并识别该时序数据中的异常。
在一实施例中,可以采用服务化流式智能巡检的方式对目标对象13中目标参数的检测值进行智能巡检。此时,服务器11在接收到针对目标对象13中目标参数的智能巡检的请求后,服务器11可以实时从目标对象13处获取相应的检测值,并对这些检测值进行异常识别,也就是可以实现服务器11每获取到一个从目标对象13处采集到的目标参数的检测值,服务器11都可以实时对该检测值进行异常识别。同时服务器11可以对目标对象13中不同的目标参数的检测值单独分析,可以满足对目标对象13中大量的目标参数的监控需求。
而对于服务器11与目标对象13之间进行交互的网络12,可以包括多种类型的有线或无线网络。
当然,目标对象13可以针对目标参数的取值进行周期性检测,获得相应的目标参数的检测值,目标对象13还可以直接在本地对检测值进行异常识别,而无需传输至服务器11进行处理,本说明书中并不对此进行限制。
图2是本说明书示出的一种时序数据的异常识别方法的流程图。如图2所示,该方法可以应用于服务器(例如图1所示的服务器11等);该方法可以包括以下步骤:
步骤202,在针对目标对象的目标参数进行周期性检测得到的检测值中,分别获取第一时序点在目标周期对应的第一检测值、相邻于所述第一时序点的第二时序点在所述目标周期对应的第二检测值。
在一实施例中,目标对象可以是各种各样的智能运维***或者是部署有智能运维***的电子设备,例如,智能运维***可以包括物联网设备监控***、企业管理***、生产安全监控***或者电力检测***等,目标参数可以是智能运维***运行过程中数值随着时间不断发生变化的参数,目标参数也可以被称之为时序指标,例如,该目标参数可以包括***CPU使用百分比、内存使用情况、存储空间的使用情况、***负载和使用的文件描述符的个数等。时序点可以指每一检测周期中的时间节点,例如第一检测周期中的第1分钟和第2分钟、第二检测周期中的第1分钟和第2分钟等,那么时序点可以为第1分钟或者第2分钟等。
在一实施例中,服务器可以获取到针对目标对象的目标参数进行周期性检测得到的检测值,其中,目标参数对应的检测值是按照时间顺序记录的,因而获得的检测值为时序数据。服务器可以从获取到的检测值中选取第一时序点在目标周期对应的第一检测值,以及第二时序点在该目标周期对应的第二检测值,其中,第一时序点与第二时序点相邻并且第一时序点可以位于第二时序点之前。
步骤204,在所述第一时序点位于所述第二时序点之前且所述第一检测值处于第一值域区间、所述第二检测值处于第二值域区间的情况下,确定所述第一时序点和所述第二时序点在所述目标周期对应的待识别转移关系为由所述第一值域区间转移至所述第二值域区间。
在一实施例中,服务器可以根据获取到的第一检测值的大小,确定第一检测值处于第一值域区间,以及服务器可以根据获取到的第二检测值的大小,确定第二检测值处于第二值域区间。服务器可以将检测到的每一检测值都划分至相应的值域区间中去,从而可以将检测值离散化至不同的值域区间,而值域区间的数量是可以预先设定,从而可以降低后续异常识别过程中的运算复杂度,可以减少相应的计算开销。其中,检测值对应的各个值域区间的取值范围可以是预先定义的;或者,服务器可以根据获取到的检测值中的最大检测值、最小检测值、最大检测值和最小检测值之间的差值以及预设的值域区间的数量,划分各个值域区间以及每一值域区间的取值范围,也就是,服务器可以通过对获取到的检测值中的最大检测值和最小检测值之间的值域进行均等划分,而获得各个值域区间,本说明书中并不对此进行限制。
服务器可以确定第一时序点和第二时序点在目标周期对应的待识别转移关系为由第一值域区间转移至第二值域区间,该待识别转移关系表明了在目标周期内,从第一时序点对应的第一检测值所处的值域区间至第二时序点对应的第二检测值所处的值域区间的转移过程。
步骤206,确定所述第一时序点和所述第二时序点在各个历史周期对应的历史转移关系的分布统计数据;其中,任一历史周期对应的历史转移关系为由所述第一时序点在所述任一历史周期对应的第一历史检测值所处的值域区间转移至所述第二时序点在所述任一历史周期对应的第二历史检测值所处的值域区间。
在一实施例中,服务器可以确定第一时序点和第二时序点在各个历史周期对应的历史转移关系的分布统计数据。任一历史周期对应的历史转移关系为由第一时序点在任一历史周期对应的第一历史检测值所处的值域区间转移至第二时序点在任一历史周期对应的第二历史检测值所处的值域区间,也就是,历史转移关系表明了在任一历史周期内,从第一时序点对应的第一历史检测值所处的值域区间至第二时序点对应的第二历史检测值所处的值域区间的转移过程。而分布统计数据可以表明各个历史转移关系在各个历史周期中的出现频率。其中,分布统计数据的表现形式可以为表格、矩阵或者图像等,本说明书中并不对此进行限制。分布统计数据可以不断累积第一时序点和第二时序点在各个历史周期对应的历史转移关系,那么根据分布统计数据可以确定出各个历史转移关系在所有历史转移关系中的出现概率,或者可以确定出各个历史转移关系在部分历史转移关系中的出现概率。
在一实施例中,分布统计数据可以被表征为转移矩阵,该转移矩阵中可以包含多个矩阵元素,并且每一矩阵元素都可以用于表征第一时序点和第二时序点对应的一种历史转移关系,而矩阵元素的取值可以为相应的历史转移关系的累计出现次数。例如,该转移矩阵的第1行第1列的矩阵元素可以用于表中从第一值域区间转移至第一值域区间的历史转移关系,该转移矩阵的第1行第2列的矩阵元素可以用于表中从第一值域区间转移至第二值域区间的历史转移关系等,当然每一矩阵元素对应的历史转移关系可以根据实际需求进行设定,本说明书中并不对此进行限制。
在一实施例中,在每一历史转移关系被统计至相应的矩阵元素中,从而更新相应的矩阵元素的取值后,服务器可以为转移矩阵中所有矩阵元素的取值分别减小预设数值,使得转移矩阵中所有矩阵元素进行遗忘,可以减小时间较早的历史周期中的历史转移关系对待识别转移关系的异常判断的影响,可以提升异常识别的准确性和效率。
在一实施例中,服务器可以确定待识别转移关系对应的历史转移关系,从而可以更新历史转移矩阵中对应于该确定出的历史转移关系的矩阵元素的取值,那么矩阵元素的取值可以用于表征相应的历史转移关系的累计出现次数。例如,假定待识别转移关系为从第一值域区间转移至第一值域区间,该转移矩阵的第1行第1列的矩阵元素可以用于表征从第一值域区间转移至第一值域区间的历史转移关系,那么服务器可以为该转移矩阵中第1行第1列的矩阵元素的取值加1,以将该待统计转移关系当前的出现次数1次被统计至相应的矩阵元素中。
在一实施例中,转移矩阵可以为邻接矩阵,该邻接矩阵的顶点可以与检测值的值域区间一一对应,而该邻接矩阵的每条边可以用于表征第一时序点和第二时序点对应的一种历史转移关系,并且每条边在邻接矩阵中对应的矩阵元素的取值可以为相应的历史转移关系在各个历史周期中出现次数的累计值。当然,该邻接矩阵可以是数组,也可以是有向图邻接矩阵,本说明书中并不对此进行限制。
步骤208,根据所述待识别转移关系对应的历史转移关系在所述分布统计数据中的历史出现概率,确定所述待识别转移关系是否存在异常。
在一实施例中,服务器可以确定待识别转移关系对应的历史转移关系,从而可以根据该历史转移关系确定待识别转移关系在分布统计数据中的历史出现概率,那么服务器可以根据该历史出现概率确定该待识别转移关系是否存在异常。根据分布统计数据可以准确地确定出待识别转移关系在历史上的出现情况,从而可以准确地确定待识别转移关系是否为异常,可以提升异常识别的准确性,同时显著降低了运算的复杂度,可以减少计算开销。
在一实施例中,服务器可以根据确定出的第一时序点在目标周期对应的第一检测值处于第一值域区间,从分布统计数据中选取从第一值域区间转移至其他值域区间的所有特定历史转移关系。此时,服务器可以计算出各个历史转移关系在所有特定历史转移关系中的出现概率,服务器可以将匹配于待识别转移关系的历史转移关系对应的出现概率作为待识别转移关系的历史出现概率,可以快速确定出待识别转移关系对应的历史出现概率,从而可以显著减少计算开销,可以确定出待识别转移关系相对于所有从第一值域区间出发的历史转移关系而言是否属于异常。例如,假定值域区间包括第一值域区间、第二值域区间、第三值域区间和第四值域区间,待识别转移关系为从第一值域区间转移至第二值域区间,服务器可以先选取出从第一值域区间转移至第一值域区间、从第一值域区间转移至第二值域区间、从第一值域区间转移至第三值域区间和从第一值域区间转移至第四值域区间的特定历史转移关系,那么服务器可以计算出从第一值域区间转移至第二值域区间的历史转移关系在所有特定历史转移关系中的出现概率,并将该出现概率作为待识别转移关系的历史出现概率。
在一实施例中,服务器可以根据确定出的第一时序点在目标周期对应的第一检测值处于第一值域区间,而在第一时序点对应的检测值所处的值域区间存在限制的情况下,服务器从相应的分布统计数据中选取从第一值域区间转移至其他值域区间的所有特定历史转移关系,并且服务器可以确定特定历史转移关系被预先配置的权重值,服务器可以结合该权重值计算各个历史转移关系在所有特定历史转移关系中的出现概率,服务器可以将匹配于待识别转移关系的历史转移关系对应的出现概率作为待识别转移关系的历史出现概率。例如,在第一时序点对应的检测值所处的值域区间只能为第二值域区间和第三值域区间,而不可能为第一值域区间的情况下,可以为相应的分布统计数据中从第一值域区间转移至其他值域区间的所有历史转移关系配置相应的权重值为0,可以为相应的分布统计数据中从第二值域区间转移至其他值域区间的所有历史转移关系配置相应的权重值为1等,本说明书中并不对此进行限制。此时确定出的历史出现概率还综合考虑了从第一值域区间出发的所有历史转移关系的异常可能性,可以进一步提升确定待识别转移关系是否异常的准确性,可以减小从第一值域区间出发的所有历史转移关系本身就属于异常的影响。
在一实施例中,服务器可以将历史出现概率与预设异常阈值进行比较,在历史出现概率不高于预设异常阈值的情况下,确定该待识别转移关系存在异常;在历史出现概率高于预设异常阈值的情况下,确定该待识别转移关系为正常。当然,该预设异常阈值可以根据实际需求进行设定,本说明书中并不对此进行限制。其中,待识别转移关系存在异常的概率可以与历史出现概率呈负相关。
如图3是本说明书一示例性实施例提供的一种时序数据的异常识别方法的流程图。以针对目标对象1的目标参数X进行周期性检测得到的检测值为例进行说明,并且假定每隔60秒对目标参数X的数据进行一次采集,每一周期包含4个时序点。如图3所示,可以包括以下步骤:
步骤301,获得目标参数X的检测值数据列。
在本实施例中,服务器可以从目标对象1处获取针对目标参数X进行周期性检测而获得的检测值数据列,获得的检测值数据列为如下:
{x1,x2,x3,x4,x5,x6,x7,x8,x9……xt} (1-1)
其中,x1对应时序点t1,x2对应时序点t2,x3对应时序点t3,x4对应时序点t4,x5对应时序点t1等,以此类推,此处不再赘述。
步骤302,确定检测值对应的值域区间的取值范围。
步骤303,确定获取到的各个检测值所处的值域区间。
在本实施例中,服务器可以不断从目标对象1处获取到针对目标参数X的检测值,服务器总是可以根据已获取到的所有检测值中的最大检测值和最小检测值,确定各个值域区间的取值范围,假定设置目标参数X的检测值对应的值域区间的数量为n,并且每一值域区间的编号即为1至n,而每一值域区间的大小为step,已获取到的检测值数据列中的最大检测值为xmax,最小检测值为xmin,即可以将已获取到的检测值中的最大检测值和最小检测值之间的值域划分为n段,n的取值为正整数即可,n一般被设置为4至10之间,本说明书中并不对此进行限制。
其中,每一值域区间的大小step的计算方式如下:
Figure BDA0002711864530000111
在本实施例中,服务器每获取到一个检测值xt,都将该检测值xt划分至相应的值域区间,服务器确定每一检测值对应的值域区间的编号vt的方式如下:
vt=(xt-xmin)//step (1-3)
其中,vt为由检测值xt减去最小检测值xmin获得的计算值整除每一值域区间的大小step。
在本实施例中,服务器可以将获取到的每一检测值xt离散化至不同的值域区间中,如图4所示,从而可以降低后续运算的复杂度,可以减少相应的计算开销,服务器不断根据已获取到的最大检测值和最小检测值调整每一值域区间的取值,可以适应目标参数X各种不同的取值大小,可以为不同大小的检测值确定合适的值域区间,提升了灵活性。
步骤304,确定指定时序点在目标周期对应的检测值。
在本实施例中,服务器可以获取指定时序点t1在目标周期对应的检测值为x1,而指定时序点t2在目标周期对应的检测值为x2。并且服务器还可以确定检测值x1处于值域区间v1,检测值x2处于值域区间v2
步骤305,确定待识别转移关系。
在本实施例中服务器可以确定时序点t1和时序点t2在目标周期对应的待识别转移关系为由值域区间v1转移至值域区间v2
步骤306,确定指定时序点在各个历史周期对应的历史转移关系的邻接矩阵M。
在本实施例中,服务器针对指定时序点t1和指定时序点t2创建有一个n*n的邻接矩阵M,初始创建的邻接矩阵M中每一矩阵元素的取值都为0。假定指定时序点t1和指定时序点t2在任一历史周期对应的历史转移关系为由值域区间vt-1转移至值域区间vt,那么服务器可以将邻接矩阵M中的相应的矩阵元素的取值更新为
Figure BDA0002711864530000121
也就是为邻接矩阵M中对应于由值域区间vt-1转移至值域区间vt的历史转移关系的矩阵元素的取值加1,以此类推,此处不再赘述。那么邻接矩阵M中每一元素的取值可以用于表征相应的历史转移关系的累计出现次数。
在本实施例中,假定一个周期的长度为k,其中,k可以为一个周期的时长或者是一个周期包含的时序点的数量等,本说明书中并不对此进行限制。每一历史转移关系被统计至相应的矩阵元素并更新该矩阵元素的取值后,服务器可以为邻接矩阵M中的每一矩阵元素的取值都减小预设数值,该预设数值可以为1/k,当然该预设数据可以根据实际需求进行设定,本说明书中并不对此进行限制。换言之,邻接矩阵M每完成一次
Figure BDA0002711864530000122
都可以为邻接矩阵M中的每一矩阵元素的取值减小预设设置1/k。邻接矩阵M中的每一矩阵元素的取值都减小预设数值之后的取值为max{Mi,j-1/k,0},其中,0≤i≤n,0≤j≤n,并且可以保证每一矩阵元素的取值不为负数。
在本实施例中,可以采用转移演化图对指定时序点在各个历史周期对应的历史转移关系进行描述,其中,转移演化图中的每一顶点可以与检测值的值域区间一一对象,而该转移演化图中每一顶点之间的有向线段可以用于表征指定时序点t1和指定时序点t2对应的一种历史转移关系。图5左侧为上述转移演化图的一种可视化展示的实施例,假定检测值的值域区间分别为1、2、3和4,那么有向线段501可以用于表征由值域区间1转移至值域区间2的历史转移关系,而有向线段501的粗细可以表征该历史转移关系的出现次数,假定该有向线段501的出现次数为5次。有向线段502可以用于表征由值域区间2转移至值域区间2的历史转移关系,并且该有向线段502的出现次数为1次。有向线段503可以用于表征由值域区间1转移至值域区间3的历史转移关系,并且该有向线段503的出现次数为2次。有向线段504可以用于表征由值域区间2转移至值域区间4的历史转移关系,并且该有向线段504的出现次数为3次。有向线段505可以用于表征由值域区间3转移至值域区间3的历史转移关系,并且该有向线段505的出现次数为8次。有向线段506可以用于表征由值域区间3转移至值域区间2的历史转移关系,并且该有向线段506的出现次数为1次。
而该转移演化图对应的转移矩阵可以如图5右侧所示,其中,该转移矩阵中的第1行第2列的矩阵元素对应于有向线段501,该矩阵元素对应的取值为5;该转移矩阵中的第1行第3列的矩阵元素对应于有向线段503,该矩阵元素对应的取值为2;该转移矩阵中的第2行第2列的矩阵元素对应于有向线段502,该矩阵元素对应的取值为1;该转移矩阵中的第2行第4列的矩阵元素对应于有向线段504,该矩阵元素对应的取值为3;该转移矩阵中的第3行第2列的矩阵元素对应于有向线段506,该矩阵元素对应的取值为1;该转移矩阵中的第3行第3列的矩阵元素对应于有向线段505,该矩阵元素对应的取值为8。
实际上,转移演化图是对应于转移矩阵的一种可视化的展示形式,可以便于相关用户理解相应的历史转移关系,而服务器实际处理和识别的都是如图5右边所示对应于转移矩阵的数据。
步骤307,确定待识别转移关系的异常分数。
在本实施例中,服务器可以根据上述邻接矩阵M确定待识别转移关系的历史出现概率,从而确定该待识别转移关系的异常分数,并确定出该待识别转移关系是否存在异常。
在本实施例中,可以采用softmax逻辑回归模型对待识别转移关系的异常分数进行运算,还可以采用其他方式进行运算,本说明书中并不对此进行限制。指定时序点t1处于值域区间v1,而指定时序点t2处于值域区间v2。服务器可以从邻接矩阵M中选取所有从值域区间v1转移至其他值域区间的历史转移关系对应的矩阵元素,并且将这些矩阵元素的取值转换为0至1之间的取值,获得转换后的包含所有对应于从值域区间v1转移至其他值域区间的历史转移关系的矩阵元素的矩阵
Figure BDA0002711864530000141
该矩阵
Figure BDA0002711864530000142
的获取方式如下:
Figure BDA0002711864530000143
其中,0≤j≤n。此处计算过程中使用log函数,使得该矩阵
Figure BDA0002711864530000144
可以感知数量较少的出现次数的增加,可以提升运算的准确性。
待识别转移关系的异常分数score的获取方式如下:
Figure BDA0002711864530000145
其中,待识别转移关系的异常分数由该待识别转移关系在矩阵
Figure BDA0002711864530000146
中的取值减去各个值域区间均分时的异常分数而获得,可以用于表征该待识别转移关系的异常分数相比于各个值域区间均分时的上涨程度,从而可以将待识别转移关系的异常分数也转换至0至1之间。当然,也可以不将该待识别转移关系的异常分数转换至0至1之间,本说明书中并不对此进行限制。
步骤308,确定待识别转移关系是否异常。
在本实施例中,可以将上述确定出的待识别转移关系的异常分数score与预设异常阈值进行比较,假定待识别转移关系的异常分数score不高于预设异常阈值时,可以判定待识别转移关系为异常转移,而在待识别转移关系的异常分数score高于预设异常阈值时,可以判定该待识别转移关系为正常转移。
此外,通过实验验证的方式对本说明书中记载的时序数据的异常识别方法与相关技术中RRCF(Robust Random Cut Forest)方式、Adflow方式和ADVec方式等异常检测算法进行比较。其中,下文将本说明书中记载的时序数据的异常识别方法称为“Time2Graph”,RRCF方式为相关技术中的一种异常检测算法,Adflow方式为采用核密度估计方法的流式统计算法异常检测的算法,ADVec方式为相关技术中的一种异常检测算法。
分别采用Time2Graph方式、RRCF方式、Adflow方式和ADVec方式对NAB数据集中的数据进行实验测试,NAB数据集为开源的用于无监督时序异常检测的公开数据集,NAB数据集包含有常见的如变点、折点和周期异常等常见的异常类型以及包含有120个真实异常。对上述算法的算法效果评估结果,如下表1所示。
表1
算法名称 TP TN FP
Time2Graph 52 69 35
RRCF 17 103 13
Adflow 56 64 95
ADVec 61 59 529
其中,TP(True Positive,真正类)表示被判定为正样本,事实上也是正样本。TN(True Negative,真负类)表示被判定为负样本,事实上也是负样本。FP(False Positive,假正类)表示被判定为正样本,但事实上是负样本。
而查准率precesion用于表示在检索后返回的结果中,真正正确的个数占整个结果的比例,查准率precesion的计算方式如下:
Figure BDA0002711864530000151
那么可以分别获得Time2Graph方式对应的查准率为0.671,RRCF方式对应的查准率为0.567,Adflow方式对应的查准率为0.371,ADVec方式对应的查准率为0.103。显然,本说明书中记载的Time2Graph方式在时序异常检测过程中的查准率较高。
另外,还可以对上述不同算法在同时对大量不同的目标参数的时序数据进行异常检测时整体资源消耗情况进行测试,如下表2所示:
表2
Figure BDA0002711864530000152
Figure BDA0002711864530000161
可见,相比与其他方式,本说明书中记载的Time2Graph方式可以在较高的查准率的情况下,维持在较小的计算资源开销。
图6是一示例性实施例提供的一种设备的结构示意图。请参考图6,在硬件层面,该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610,当然还可能包括其他业务所需要的硬件。处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行,在逻辑层面上形成异常识别装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图7,在软件实施方式中,该异常识别装置可以包括获取单元701、关系确定单元702、数据确定单元703和异常确定单元704。其中:
获取单元701,用于在针对目标对象的目标参数进行周期性检测得到的检测值中,分别获取第一时序点在目标周期对应的第一检测值、相邻于所述第一时序点的第二时序点在所述目标周期对应的第二检测值;
关系确定单元702,用于在所述第一时序点位于所述第二时序点之前且所述第一检测值处于第一值域区间、所述第二检测值处于第二值域区间的情况下,确定所述第一时序点和所述第二时序点在所述目标周期对应的待识别转移关系为由所述第一值域区间转移至所述第二值域区间;
数据确定单元703,用于确定所述第一时序点和所述第二时序点在各个历史周期对应的历史转移关系的分布统计数据;其中,任一历史周期对应的历史转移关系为由所述第一时序点在所述任一历史周期对应的第一历史检测值所处的值域区间转移至所述第二时序点在所述任一历史周期对应的第二历史检测值所处的值域区间;
异常确定单元704,用于根据所述待识别转移关系对应的历史转移关系在所述分布统计数据中的历史出现概率,确定所述待识别转移关系是否存在异常。
可选的,所述分布统计数据被表征为转移矩阵,所述转移矩阵中包含多个矩阵元素且每一矩阵元素用于表征所述第一时序点和所述第二时序点对应的一种历史转移关系,所述矩阵元素的取值为相应的历史转移关系的累计出现次数。
可选的,所述转移矩阵为邻接矩阵;所述邻接矩阵的顶点与所述检测值的值域区间一一对应,所述邻接矩阵的每条边用于表征所述第一时序点和所述第二时序点对应的一种历史转移关系,并且每条边在所述邻接矩阵中对应的矩阵元素的取值为相应的历史转移关系在各个历史周期中出现次数的累计值。
可选的,每一历史转移关系被统计以更新相应的矩阵元素的取值后,所述转移矩阵中的所有矩阵元素的取值分别减小预设数值。
可选的,还包括:
元素确定单元705,用于确定所述转移矩阵中对应的历史转移关系匹配于所述待识别转移关系的矩阵元素;
更新单元706,用于根据所述待识别转移关系更新所述矩阵元素的取值,以使所述矩阵元素的取值用于表征相应的历史转移关系的累计出现次数。
可选的,所述异常确定单元704具体用于:
选取从所述第一值域区间转移至其他值域区间的所有历史转移关系,并分别计算选取出的各个历史转移关系的出现概率;
将匹配于所述待识别转移关系的历史转移关系对应的出现概率作为所述待识别转移关系的历史出现概率。
可选的,所述异常确定单元704具体用于:
将所述历史出现概率与预设异常阈值进行比较;
在所述历史出现概率不高于所述预设异常阈值的情况下,确定所述待识别转移关系存在异常。
可选的,所述待识别转移关系存在异常的概率与所述历史出现概率呈负相关。
可选的,所述检测值对应的值域区间为针对检测到的最大检测值和最小检测值之间的值域进行均等划分而得到。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (12)

1.一种时序数据的异常识别方法,包括:
在针对目标对象的目标参数进行周期性检测得到的检测值中,分别获取第一时序点在目标周期对应的第一检测值、相邻于所述第一时序点的第二时序点在所述目标周期对应的第二检测值;
在所述第一时序点位于所述第二时序点之前且所述第一检测值处于第一值域区间、所述第二检测值处于第二值域区间的情况下,确定所述第一时序点和所述第二时序点在所述目标周期对应的待识别转移关系为由所述第一值域区间转移至所述第二值域区间;
确定所述第一时序点和所述第二时序点在各个历史周期对应的历史转移关系的分布统计数据;其中,任一历史周期对应的历史转移关系为由所述第一时序点在所述任一历史周期对应的第一历史检测值所处的值域区间转移至所述第二时序点在所述任一历史周期对应的第二历史检测值所处的值域区间;
根据所述待识别转移关系对应的历史转移关系在所述分布统计数据中的历史出现概率,确定所述待识别转移关系是否存在异常。
2.根据权利要求1所述的方法,
所述分布统计数据被表征为转移矩阵,所述转移矩阵中包含多个矩阵元素且每一矩阵元素用于表征所述第一时序点和所述第二时序点对应的一种历史转移关系,所述矩阵元素的取值为相应的历史转移关系的累计出现次数。
3.根据权利要求2所述的方法,
所述转移矩阵为邻接矩阵;所述邻接矩阵的顶点与所述检测值的值域区间一一对应,所述邻接矩阵的每条边用于表征所述第一时序点和所述第二时序点对应的一种历史转移关系,并且每条边在所述邻接矩阵中对应的矩阵元素的取值为相应的历史转移关系在各个历史周期中出现次数的累计值。
4.根据权利要求2所述的方法,
每一历史转移关系被统计以更新相应的矩阵元素的取值后,所述转移矩阵中的所有矩阵元素的取值分别减小预设数值。
5.根据权利要求2所述的方法,还包括:
确定所述转移矩阵中对应的历史转移关系匹配于所述待识别转移关系的矩阵元素;
根据所述待识别转移关系更新所述矩阵元素的取值,以使所述矩阵元素的取值用于表征相应的历史转移关系的累计出现次数。
6.根据权利要求1所述的方法,获取所述待识别转移关系对应的历史转移关系在所述分布统计数据中的历史出现概率,包括:
选取从所述第一值域区间转移至其他值域区间的所有历史转移关系,并分别计算选取出的各个历史转移关系的出现概率;
将匹配于所述待识别转移关系的历史转移关系对应的出现概率作为所述待识别转移关系的历史出现概率。
7.根据权利要求1所述的方法,确定所述待识别转移关系是否存在异常,包括:
将所述历史出现概率与预设异常阈值进行比较;
在所述历史出现概率不高于所述预设异常阈值的情况下,确定所述待识别转移关系存在异常。
8.根据权利要求1所述的方法,所述待识别转移关系存在异常的概率与所述历史出现概率呈负相关。
9.根据权利要求1所述的方法,所述检测值对应的值域区间为针对检测到的最大检测值和最小检测值之间的值域进行均等划分而得到。
10.一种时序数据的异常识别装置,包括:
获取单元,用于在针对目标对象的目标参数进行周期性检测得到的检测值中,分别获取第一时序点在目标周期对应的第一检测值、相邻于所述第一时序点的第二时序点在所述目标周期对应的第二检测值;
关系确定单元,用于在所述第一时序点位于所述第二时序点之前且所述第一检测值处于第一值域区间、所述第二检测值处于第二值域区间的情况下,确定所述第一时序点和所述第二时序点在所述目标周期对应的待识别转移关系为由所述第一值域区间转移至所述第二值域区间;
数据确定单元,用于确定所述第一时序点和所述第二时序点在各个历史周期对应的历史转移关系的分布统计数据;其中,任一历史周期对应的历史转移关系为由所述第一时序点在所述任一历史周期对应的第一历史检测值所处的值域区间转移至所述第二时序点在所述任一历史周期对应的第二历史检测值所处的值域区间;
异常确定单元,用于根据所述待识别转移关系对应的历史转移关系在所述分布统计数据中的历史出现概率,确定所述待识别转移关系是否存在异常。
11.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。
CN202011059551.7A 2020-09-30 2020-09-30 时序数据的异常识别方法及装置 Active CN113296990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011059551.7A CN113296990B (zh) 2020-09-30 2020-09-30 时序数据的异常识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011059551.7A CN113296990B (zh) 2020-09-30 2020-09-30 时序数据的异常识别方法及装置

Publications (2)

Publication Number Publication Date
CN113296990A true CN113296990A (zh) 2021-08-24
CN113296990B CN113296990B (zh) 2022-06-24

Family

ID=77318268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011059551.7A Active CN113296990B (zh) 2020-09-30 2020-09-30 时序数据的异常识别方法及装置

Country Status (1)

Country Link
CN (1) CN113296990B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115964670A (zh) * 2022-12-17 2023-04-14 中国人民解放军32802部队 一种频谱异常检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141909A (ja) * 2011-01-06 2012-07-26 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
CN106095655A (zh) * 2016-05-31 2016-11-09 北京蓝海讯通科技股份有限公司 一种异常检测方法、应用和监控设备
CN106933691A (zh) * 2017-03-09 2017-07-07 深圳市彬讯科技有限公司 一种针对季节性时序数据序列中异常点的识别方法及***
CN107402921A (zh) * 2016-05-18 2017-11-28 阿里巴巴集团控股有限公司 识别用户行为的事件时序数据处理方法、装置及***
CN108632097A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 异常行为对象的识别方法、终端设备及介质
JP2020149208A (ja) * 2019-03-12 2020-09-17 株式会社日立製作所 異常検出装置および異常検出方法
WO2020188696A1 (ja) * 2019-03-18 2020-09-24 三菱電機株式会社 異常検知装置および異常検知方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141909A (ja) * 2011-01-06 2012-07-26 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
CN107402921A (zh) * 2016-05-18 2017-11-28 阿里巴巴集团控股有限公司 识别用户行为的事件时序数据处理方法、装置及***
CN106095655A (zh) * 2016-05-31 2016-11-09 北京蓝海讯通科技股份有限公司 一种异常检测方法、应用和监控设备
CN106933691A (zh) * 2017-03-09 2017-07-07 深圳市彬讯科技有限公司 一种针对季节性时序数据序列中异常点的识别方法及***
CN108632097A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 异常行为对象的识别方法、终端设备及介质
JP2020149208A (ja) * 2019-03-12 2020-09-17 株式会社日立製作所 異常検出装置および異常検出方法
WO2020188696A1 (ja) * 2019-03-18 2020-09-24 三菱電機株式会社 異常検知装置および異常検知方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115964670A (zh) * 2022-12-17 2023-04-14 中国人民解放军32802部队 一种频谱异常检测方法

Also Published As

Publication number Publication date
CN113296990B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN109542740B (zh) 异常检测方法及装置
CN110956224B (zh) 评估模型生成、评估数据处理方法、装置、设备及介质
CN112800116B (zh) 一种业务数据的异常检测方法及装置
US20190087737A1 (en) Anomaly detection and automated analysis in systems based on fully masked weighted directed
JP2019521422A (ja) 異常なユーザ行動関連アプリケーションデータを検出するための方法、装置、およびコンピュータ読み取り可能な媒体
JP6456580B1 (ja) 異常検知装置、異常検知方法及び異常検知プログラム
CN112380044B (zh) 数据异常检测方法、装置、计算机设备和存储介质
US10789146B2 (en) Forecasting resource utilization
US20220245405A1 (en) Deterioration suppression program, deterioration suppression method, and non-transitory computer-readable storage medium
JP2012226511A (ja) 歩留まり予測システムおよび歩留まり予測プログラム
CN110858072B (zh) 设备运行状态的确定方法及装置
TW202044110A (zh) 無監督模型評估方法、裝置、伺服器及可讀儲存媒體
CN113296990B (zh) 时序数据的异常识别方法及装置
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
CN110520702A (zh) 监视电子设备的热健康
CN105488193B (zh) 文章热度的预测方法和装置
CN110874601B (zh) 识别设备运行状态的方法、状态识别模型训练方法及装置
CN110928636A (zh) 虚拟机热迁移方法、装置和设备
CN117196322A (zh) 智能风控方法、装置、计算机设备及存储介质
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
JP2015184818A (ja) サーバ、モデル適用可否判定方法およびコンピュータプログラム
CN115238779B (zh) 一种云盘的异常检测方法、装置、设备及介质
JP6981428B2 (ja) 情報処理装置および情報処理方法
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40057910

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant