CN109753526A

CN109753526A - 一种基于时序相似度对告警信息分析查询的装置及方法

Info

Publication number: CN109753526A
Application number: CN201811631308.0A
Authority: CN
Inventors: 李开宇
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-14

Abstract

本发明公开了一种基于时序相似度对告警信息进行分析查询的装置及方法，属于告警信息分析查询技术领域，解决现有技术中告警信息关联挖掘本质是基于告警信息共现的历史数据，在真实数据中告警信息共现的数据并不多，且对于真实有关联的告警信息覆盖比例很小，从面造成查询告警信息的结果对于运维人员进行后续告警信息定位的误差率非常的大的问题。本发明包括告警信息源、告警信息时间分片模块、指标时序数据模块、告警信息关联扩展模块、告警信息关联挖掘模块和根因分析查询服务模块；以及对应的告警信息分析查询方法。本发明用于扩展告警信息后实现告警信息分析查询。

Description

一种基于时序相似度对告警信息分析查询的装置及方法

技术领域

一种基于时序相似度对告警信息进行分析查询的装置及方法，用于扩展告警信息后实现告警信息分析查询，属于告警信息分析查询技术领域。

背景技术

当运维工程师每天面对来自不同监控***中数量庞大、类型复杂的故障告警信息时，需要运维工程师对***、应用、业务都有一定了解，且完成建立在个人经验之上，才能完成告警信息的定位问题。

随着我国企业信息化建设逐步完善，越来越多的监控告警信息，应用与***信息都被存储与管理。通过对这些***信息，应用信息进行分析，可以使得运维工作(如：告警信息的定位)越来越自动化、智能化。

为了实现上述自动化、智能化的告警信息定位问题，现有技术中在如下技术方案：

时间分片：按照特定的时间区间，将时序数据或按时间排列的数据，划分到区间中。

FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法，它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree)，但仍保留项集关联信息。

在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。

算法描述如下：

1、对于每个频繁项，构造它的条件投影数据库和投影FP-tree。

2、对每个新构建的FP-tree重复第一步，直到构造的新FP-tree为空，或者只包含一条路径。

3、当构造的FP-tree为空时，其前缀即为频繁模式；当只包含一条路径时，通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。现有技术方案主要分为四步，如图1所示，告警信息记录、告警信息时间分片、告警信息关联挖掘和构建根因查询服务。

告警信息源：该部是由***将告警信息，记录到存储设备中，进行存储。存储设备一般使用MySQL/Oracle；告警信息主要包括：告警信息内容描述、对应异常指标、时间点。

告警信息时间分片：对于记录下来的告警信息需要累积，一般是半年以上的告警信息，时间太短，数据比较稀疏。时间分片具体分为2个步骤：1.将告警信息按照记录的时间，优先到后排序，形成队列；2.设置时间滑动窗口(5分钟)与滑动步长(1分钟)，并将窗口放置于第一步生成的告警信息有序队列中，滑动窗口；每次滑动都将落于窗口中的告警信息子集合记录下。

告警信息关联挖掘：将上一步采集的同一个时间窗口的告警信息，进行关联规则挖掘，可以通过FP-growth算法或Apriori算法，这里用的FP-growth；将同时间滑动窗口的告警信息子集作为输入，输入到FP-growth算法，算法输出就是挖掘的告警信息所有的频繁项组合，即所有告警信息的频繁项。

构建根因分析查询：基于某一个告警信息查询，得到包含该告警信息的所有告警信息频繁组合项。告警信息组合项的推荐得分等于count(A，B)/(count(A)+count(B))＊100％；其中count(A)表示告警信息A出现次数，告count(B)表示告警信息B出现次数，count(A，B)表示告警信息A、告警信息B共现次数。

运维人员可以根据查询得到的所有告警信息组合项，然后结合所有告警信息组合项的信息来实现运维人员的准确、快速定位告警信息。

上述方案中的告警信息关联挖掘本质是基于告警信息共现的历史数据，在真实数据中告警信息共现的数据并不多，且对于真实有关联的告警信息覆盖比例很小。运维人员排查与当前告警信息相关的告警信息，确认相关告警信息是否是当前告警信息的原因，从而起到故障定位的目的。如果有关联的告警信息覆盖量小就会造成很多告警信息都是独立的，没有相关告警信息，运维人员也就无法依据相关告警信息定位故障、分析原因。

发明内容

针对上述研究的问题，本发明的目的在于提供一种基于时序相似度对告警信息进行分析查询的装置及方法，解决现有技术中告警信息关联挖掘本质是基于告警信息共现的历史数据，在真实数据中告警信息共现的数据并不多，且对于真实有关联的告警信息覆盖比例很小，没有相关告警信息，运维人员也就无法依据相关告警信息定位故障、分析原因。

为了达到上述目的，本发明采用如下技术方案：

一种基于时序相似度对告警信息进行分析查询的装置，其特征在于：包括；

告警信息源：用于将告警信息进行存储，得到告警信息序列数据；

告警信息时间分片模块：用于将告警信息序列数据进行时间分片，得到告警信息子集合；

指标时序数据模块：用于对应告警信息进行时间分片的时间窗口，将获取的指标时序数据进行时间分片得到时序数据片段，根据时序数据片段计算各时序数据片段中两两指标之间的相似度，其中，指标时序数据与告警信息序列数据的序列长度相等；

告警信息关联扩展模块：用于根据相似度构建告警信息相似度矩阵，告警信息子集合通过告警信息相似度矩阵得到扩展的告警信息；

告警信息关联挖掘模块：用于根据同时间窗口的告警信息和扩展的告警信息来进行关联挖掘，得到挖掘的所有告警信息的频繁项；

根因分析查询服务模块：用于将待查询的告警信息在所有告警信息的频繁项进行查询，得到包含待查询的告警信息的所有告警信息组合项。

进一步，所述指标时序数据模块包括；

指标时序数据源：用于记录某一段时间连续采集的指标的具体数据，得到指标时序数据，具体数据包括指标id、指标名称、相关告警信息、当前值、当前时间；

指标时序数据分片模块：用于将指标时序数据进行时间分片，每个指标时序数据得到多个相同的时序数据片段；

指标相似度计算模块：用于根据指标中的时序数据片段计算两两指标之间的相似度，得到两两指标的相似度。

进一步，所述指标相似度计算模块的具体实现过程为：

首先取出两个指标对应的多个时序数据片段；

时间分片的时间窗口大小相同，两两指标的时序数据片段也是一一对应的，通过两两指标中相应的时序数据片段计算两两指标的相似度。

进一步，所述告警信息关联扩展模块的具体实现过程为：

采用与告警信息子集合的时间窗口相对应时间窗口内的相似度构建告警信息相似度矩阵；

同一个时间窗口的告警信息子集中的每个告警信息，通过告警信息相似矩阵，查询处最相似的告警信息，统计所有查询出的相似告警信息，取计数最多的前几个，作为扩展的告警信息。

一种基于时序相似度对告警信息进行分析查询的方法，其特征在于：包括；

S1、用于将告警信息进行存储，得到告警信息序列数据；

告警信息时间分片模块：用于将告警信息序列数据存储的告警信息进行时间分片，得到告警信息子集合；

S2、用于将告警信息序列数据存储的告警信息进行时间分片，得到告警信息子集合；

S3、用于对应告警信息进行时间分片的时间窗口，将获取的指标时序数据进行时间分片得到时序数据片段，根据时序数据片段计算各时序数据片段中两两指标之间的相似度，其中，指标时序数据与告警信息序列数据的序列长度相等；

S4、用于根据相似度构建告警信息相似度矩阵，告警信息子集合通过告警信息相似度矩阵得到扩展的告警信息；

S5、用于根据同时间窗口的告警信息和扩展的告警信息来进行关联挖掘，得到挖掘的所有告警信息的频繁项；

S6、用于将待查询的告警信息在所有告警信息的频繁项进行查询，得到包含待查询的告警信息的所有告警信息组合项。

进一步，所述S3的具体步骤为：

S3.1、指标时序数据源：用于记录某一段时间连续采集的指标的具体数据，得到指标时序数据，具体数据包括指标id、指标名称、相关告警信息、当前值、当前时间；

S3.2、用于将指标时序数据进行时间分片，每个指标时序数据得到多个相同的时序数据片段；

S3.3、用于根据指标中的时序数据片段计算两两指标之间的相似度，得到两两指标的相似度。

进一步，所述S3.3的具体步骤为：

S3.3.1、首先取出两个指标对应的多个时序数据片段；

S3.3.2、时间分片的时间窗口大小相同，两两指标的时序数据片段也是一一对应的，通过两两指标中相应的时序数据片段计算两两指标的相似度。

进一步，所述S4的具体步骤为：

S4.1、采用对应与告警信息子集合中的时间窗口相对应内的时间窗口内的相似度构建告警信息相似度矩阵；

S4.2、同一个时间窗口的告警信息子集中的每个告警信息，通过告警信息相似矩阵，查询处最相似的告警信息，统计所有查询出的相似告警信息，取计数最多的前几个，作为扩展的告警信息。

本发明同现有技术相比，其有益效果表现在：

一、本发明克服了告警信息关联挖掘时，由于告警信息共现数据的稀疏，导致了FP-growth算法输出关联规则较少，覆盖不够的情况，使用本发明后，相同告警信息数据的情况下，关联规则产出数量提升了32.8％，对后续运维根因分析查询覆盖率提升起到非常重要的作用；

二、本发明中的运维根因分析查询覆盖率也得到提升，使用本发明之前只有43％的告警信息可以查询相关根因，使用本发明后，67.8％的告警信息能够查询出根因分析，根因分析分析准确率提高后，对于后续运维人员对告警信息的定位也更加准确，更加快速。

三、使用本发明中提出的方法后，时序数据的累计时间可以不用半年，累计2～3个月的数据，即可进行挖掘，同样可以定位故障，且比现有技术中的方式优。

附图说明

图1为现有技术中的告警信息分析查询方法流程框架图；

图2为本发明中的告警信息分析查询方法流程框架图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

本发明涉及的告警信息分析查询通过对每天庞大、复杂的告警信息进行挖掘、关联组合，得到更有用的信息，帮助运维人员快速定位告警信息问题。

具体方式如下：

一种基于时序相似度对告警信息进行分析查询的装置，包括；

告警信息源：用于将告警信息进行存储，得到告警信息序列数据；即是由***将告警信息，记录到存储设备中，存储设备一般使用MySQL/Oracle；告警信息主要包括：告警信息内容描述、对应异常指标、时间点；记录下来的告警信息是需要累积的，一般是半年以上的告警信息，但采用本方案中的扩展方法，数据累计时间可以缩短，2～3个月即可。

告警信息时间分片模块：用于将告警信息序列数据进行时间分片，得到告警信息子集合；时间分片具体分为2个步骤，1.将告警信息按照记录的时间，优先到后排序，形成队列；2.设置时间滑动窗口(即设置时间窗口大小，如5分)与滑动步长(1分钟)，并将时间窗口放置于第一步生成的告警信息有序队列中，滑动时间窗口；每次滑动都将落于时间窗口中的告警信息子集合记录下。

所述指标时序数据模块包括；

指标时序数据源：用于记录指标每某一段时间的具体数值，得到指标时序数据，具体数据包括指标id、指标名称、相关告警信息、当前值(如：每分钟注册数5，5就是当前值)、当前时间；记录的是指标每某一段时间的具体数值，一般时间间隔是1分钟/5分钟/15分钟等。记录于数据库中，数据库一般采用MySQL或Oracle，记录具体数据包括：指标id、指标名称、相关告警信息、当前值、当前时间。

指标时序数据分片模块：用于将指标时序数据进行时间分片，每个指标时序数据得到多个相同的时序数据片段；将上一步中的指标时序数据，按照一天为一个时间窗口，或者一周为一个时间窗口进行分片(此处的时间窗口大小与告警信息时间分片模块进行时间分片中的时间窗口大小一样)。每个指标分片后都好得到N个长度相同的时序数据片段。

具体实现过程为：

首先取出两个指标对应的多个时序数据片段；

时间分片的时间窗口大小相同，两两指标的时序数据片段也是一一对应的，通过两两指标中相应的时序数据片段计算两两指标的相似度。相似度计算方式为：对两两指标中所有相对应的时序数据片段上的差值，求差值的方差的倒数，即为时序数据片段的相似度；而两个指标的相似度等于指标中多个时序数据片段相似度的平均值。

具体实现过程为：

采用与告警信息子集合的时间窗口相对应时间窗口内的相似度构建告警信息相似度矩阵；即按照告警信息子集合的队列与指标时序数据的队列从头到尾相对应(是根据长度进行从头到尾对应，并不一定是要所采集的时间点都相同)，各时间窗口内的相似度构建告警信息相似度矩阵，如指标A与指标C的相似度为0.8、指标A与指标D的相似度为0.7，指标B与指标C的相似度为0.4，指标B与指标D的相似度为0.9构成的相似度，即可用这些相似度构建告警信息相似度矩阵；

同一个时间窗口的告警信息子集中的每个告警信息，通过告警信息相似矩阵，查询出最相似的告警信息，统计所有查询出的相似告警信息，取计数最多的前几个(如前三个)，作为扩展的告警信息。

或告警信息关联扩展还可在有运维知识图谱的情况下，即知晓指标与指标的关系，如每分钟注册人数与每分钟A接口调用数相关，记为：指标A-指标B相关；借由运维知识图谱扩展关联告警信息：告警信息X属于指标A，指标A与指标B相关，告警信息Y属于指标B，告警信息Y是告警信息X的扩展。通过构建运维知识图谱，来扩展告警信息，不过运维知识图谱基本靠人来构建，扩展效果取决于扩展知识图谱的人的经验，所以扩展效果不如通过相似度的方式。

告警信息关联挖掘模块：用于根据同时间窗口的告警信息和扩展的告警信息来进行关联挖掘，得到挖掘的告警信息组合的繁项；即将上述同一个时间窗口的告警信息+加上扩展的告警信息，来进行关联规则挖掘，可以通过FP-growth或Apriori算法，这里用的FP-growth；同一个时间窗口的告警信息加上扩展的告警信息作为输入，输入到FP-growth算法，算法输出就是挖掘的告警信息所有的频繁项组合。

根因分析查询服务模块：用于将待查询的告警信息在告警信息所有的频繁项组合进行查询，得到包含待查询的告警信息的所有告警信息组合项。包含待查询的告警信息的所有告警信息组合项的推荐得分等于count(A，B)/(count(A)+count(B))＊100％；其中count(A)表示告警信息A出现次数，告count(B)表示告警信息B出现次数，count(A，B)表示告警信息A、告警信息B共现次数。

一种基于时序相似度对告警信息进行分析查询的方法，包括；

S1、用于将告警信息进行存储，得到告警信息序列数据；即是由***将告警信息，记录到存储设备中，进行存储，存储设备一般使用MySQL/Oracle；告警信息主要包括：告警信息内容描述、对应异常指标、时间点；记录下来的告警信息是需要累积的，一般是半年以上的告警信息，但采用本方案中的扩展方法，数据累计时间可以缩短，2～3个月即可。

S2、用于将告警信息序列数据进行时间分片，得到告警信息子集合；时间分片的具体分为器2个步骤，1.将告警信息按照记录的时间，优先到后排序，形成队列；2.设置时间滑动窗口(即设置时间窗口大小，如5分)(5分钟)与滑动步长(1分钟)，并将时间窗口放置于第一步生成的告警信息有序队列中，滑动时间窗口；每次滑动都将落于时间窗口中的告警信息子集合记录下。

具体步骤为；

S3.1、用于记录指标每某一段时间的具体数值，得到指标时序数据，具体数据包括指标id、指标名称、相关告警信息、当前值、当前时间；记录的是指标每某一段时间的具体数值，一般时间间隔是1分钟/5分钟/15分钟等。记录于数据库中，数据库一般采用MySQL或Oracle，记录具体数据包括：指标id、指标名称、相关告警信息、当前值(如：每分钟注册数5，5就是当前值)、当前时间。

S3.2、用于将指标时序数据进行时间分片，每个指标时序数据得到多个相同的时序数据片段；将上一步中的指标时序数据，按照一天为一个时间窗口，或者一周为一个时间窗口进行分片(此处的时间窗口大小与告警信息时间分片模块进行时间分片中的时间窗口大小一样)。每个指标分片后都好得到N个长度相同的时序数据片段。

具体步骤为：

S3.3.1、首先取出两个指标对应的多个时序数据片段；

S3.3.2、时间分片的时间窗口大小相同，两两指标的时序数据片段也是一一对应的，通过两两指标中相应的时序数据片段计算两两指标的相似度。相似度计算方式为：对两两指标中所有相对应的时序数据片段上的差值，求差值的方差的倒数，即为时序数据片段的相似度；；而两个指标的相似度等于其多个分片时序数据相似度的平均值。

具体步骤为：

S4.1、采用与告警信息子集合的时间窗口相对应时间窗口内的相似度构建告警信息相似度矩阵；即按照告警信息子集合的队列与指标时序数据的队列从头到尾相对应(是根据长度进行从头到尾对应，并不一定是要所采集的时间点都相同)，各时间窗口内的相似度构建告警信息相似度矩阵；

S4.2、同一个时间窗口的告警信息子集中的每个告警信息，通过告警信息相似矩阵，查询处最相似的告警信息，统计所有查询出的相似告警信息，取计数最多的前几个(如前三个)，作为扩展的告警信息。

或不利用相似度的情况下，还可在有运维知识图谱的情况下，即知晓指标与指标的关系，如每分钟注册人数与每分钟A接口调用数相关，记为：指标A-指标B相关；借由运维知识图谱扩展关联告警信息：告警信息X属于指标A，指标A与指标B相关，告警信息Y属于指标B，告警信息Y是告警信息X的扩展。通过构建运维知识图谱，来扩展告警信息，不过运维知识图谱基本靠人来构建，扩展效果取决于扩展知识图谱的人的经验，所以扩展效果不如通过相似度的方式。

S5、用于根据同时间窗口的告警信息和扩展的告警信息来进行关联挖掘，得到挖掘的告警信息组合的繁项；即将上述同一个时间窗口的告警信息+加上扩展的告警信息，来进行关联规则挖掘，可以通过FP-growth或Apriori算法，这里用的FP-growth；同一个时间窗口的告警信息加上扩展的告警信息作为输入，输入到FP-growth算法，算法输出就是挖掘的告警信息所有的频繁项组合。

S6、用于将待查询的告警信息在告警信息所有的频繁项组合进行查询，得到包含待查询的告警信息的所有告警信息组合项。包含待查询的告警信息的所有告警信息组合项告警信息组合信息的推荐得分等于count(A，B)/(count(A)+count(B))＊100％；其中count(A)表示告警信息A出现次数，count(B)表示告警信息B出现次数，count(A，B)表示告警信息A、告警信息B共现次数。若包含待查询的告警信息的所有告警信息组合项有多种，根据所有组合项的推荐得分综合用于运维监控人员进行告警信息排查，或先排列在前的推荐得分综合用于运维监控人员进行告警信息排查。

如：注册人数为0告警信息与注册接口调用超时告警信息相关，而注册接口调用超时告警信息与10.12.0.11服务器内存占用过高告警信息相似；经过2-3轮相似查询，可以得到一组相似告警信息集合，即包含待查询的告警信息的所有告警信息组合项(如：10.12.0.11服务器内存占用过高、10.12.0.80磁盘已满告警信息、mysql10.12.4.23写入数据超时告警信息)，这些告警信息是注册人数为0告警信息可能的原因，通过上述推荐公式进行计算得到推荐得分；运维监控人员根据推荐得分排查这些告警信息原因。有了相似告警信息的筛选，提高了运维监控人员排查的效率。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于时序相似度对告警信息进行分析查询的装置，其特征在于：包括；

2.根据权利要求1所述的一种基于时序相似度对告警信息进行分析查询的装置，其特征在于，所述指标时序数据模块包括；

3.根据权利要求2所述的一种基于时序相似度对告警信息进行分析查询的装置，其特征在于，所述指标相似度计算模块的具体实现过程为：

首先取出两个指标对应的多个时序数据片段；

4.根据权利要求1-3任一项所述的一种基于时序相似度对告警信息进行分析查询的装置，其特征在于，所述告警信息关联扩展模块的具体实现过程为：

5.一种基于时序相似度对告警信息进行分析查询的方法，其特征在于：包括；

S1、用于将告警信息进行存储，得到告警信息序列数据；

6.根据权利要求1所述的一种基于时序相似度对告警信息进行分析查询的方法，其特征在于，所述S3的具体步骤为：

7.根据权利要求6所述的一种基于时序相似度对告警信息进行分析查询的方法，其特征在于，所述S3.3的具体步骤为：

S3.3.1、首先取出两个指标对应的多个时序数据片段；

8.根据权利要求5-7任意一项所述的一种基于时序相似度对告警信息进行分析查询的方法，其特征在于，所述S4的具体步骤为：