CN115756919A - 一种面向多维数据的根因定位方法及*** - Google Patents

一种面向多维数据的根因定位方法及*** Download PDF

Info

Publication number
CN115756919A
CN115756919A CN202211409881.3A CN202211409881A CN115756919A CN 115756919 A CN115756919 A CN 115756919A CN 202211409881 A CN202211409881 A CN 202211409881A CN 115756919 A CN115756919 A CN 115756919A
Authority
CN
China
Prior art keywords
root cause
algorithm
data
combination
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211409881.3A
Other languages
English (en)
Other versions
CN115756919B (zh
Inventor
田富龙
薛佩姣
何诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dingmao Information Technology Co ltd
Original Assignee
Shanghai Dingmao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dingmao Information Technology Co ltd filed Critical Shanghai Dingmao Information Technology Co ltd
Priority to CN202211409881.3A priority Critical patent/CN115756919B/zh
Publication of CN115756919A publication Critical patent/CN115756919A/zh
Application granted granted Critical
Publication of CN115756919B publication Critical patent/CN115756919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向多维数据的根因定位方法,在发生异常前后的一段窗口内获取数据及预处理,判断数据是否符合涟漪效应,选择根因定位算法进行根因定位;所述根因定位算法包括偏离度计算、过滤正常组合、组合聚类、类内根因定位以及根因合并等模块,将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合作为最终根因。本发明提出判断根因节点与其叶子节点之间是否符合涟漪效应的方法,从而自动选择根因定位算法,能够使其适用于多种使用场景;并提出一种符合根因能够最大程度解释异常的根因定位算法,从而构成完整的根因定位框架,实现快速定位出组合维度根因的目的,具有明显的优势。

Description

一种面向多维数据的根因定位方法及***
技术领域
本发明涉及人工智能技术领域,特别是涉及一种面向多维数据的根因定位方法及***。
背景技术
由于互联网发展,多数企业已进行数字化转型。随着企业的服务规模不断扩大、用户数量不断攀升以及业务场景的不断更迭,服务异常事件会频繁出现,严重影响用户体验,甚至造成恶劣影响与巨大经济损失。为了保障服务质量,企业将通过对服务、***及设备的各项指标进行实时监控,来实现异常检测和根因定位。但当服务规模越来越大时,企业的实时监控数据呈指数级增长,面对突发异常,需在海量监控数据中快速定位根因来进行修复,是一项极具挑战的工作。
目前,针对多维根因定位已有几种代表性算法,如基于关联规则挖掘的Apriori方法,基于启发式搜索的Adtributor、iDice、HotSpot、Squeeze等方法。其中,关联规则挖掘方法的效果不够稳定,且由于故障点较稀疏,与异常关联的属性组合不在频繁项集里,较难准确定位根因,主要对几种启发式搜索的方法进行对比。
Adtributor算法来自论文《Adtributor:Revenue debugging inadvertisingsystems》,其认为根因应能够解释异常,提出了解释力和惊奇性的概念来量化根因的定义,但Adtributor算法假设所有根因是一维的,并不符合实际场景。
iDice算法来自论文《idice:problem identi cation for emerging issues》,其不同于Adtributor算法仅针对某一个具体的时间点,而是分析一段时间序列下的数据,并提出一种更符合实际情况的根因评估指标Isolation Power。但iDice算法需对大量的节点进行异常检测,在维度和取值较多时,从上至下的搜索以及自下而上的聚合的复杂度极大。
HotSpot算法来自论文《HotSpot:Anomaly Localization for Additive KPIswith Multi-Dimensional Attributes》,其提出了基于Ripple Effect的根因判断方法,并提出了Potential Score来量化一个节点与其所有叶子节点之间满足Ripple Effect的程度,其创新地将MCTS算法应用于搜索的剪枝中,降低了搜索的复杂度。但HotSpot算法假设所有的根因在一个cuboid(即维度完全相同的属性组合的集合)内,不适用于非可加性的指标,且Potential Score的计算容易受指标波动的影响,对异常程度不明显的组合较难识别;
Squeeze算法来自论文《Generic and Robust Localization of Multi-Dimensional Root Causes》,其在HotSpot算法的基础上提出广义的涟漪反应(RippleEffect)和潜在得分(Potential Score),使其也适用于非可加性类型的派生指标,并且改进后的潜在得分(Potential Score)计算时,不会累积正常组合的误差,异常程度不明显的组合也能识别。但无论是Squeeze算法还是HotSpot算法,均需满足根因节点与其所有叶子节点之间符合涟漪反应(Ripple Effect)这一条件,对于不符合涟漪反应(Ripple Effect)的场景无法适用。
因此,对于多维时序数据的根因定位问题,目前尚无一套完整的根因定位框架,可快速定位出组合维度根因,并同时适用于根因可最大程度解释异常或根因及其子节点符合涟漪反应(Ripple Effect)两种场景。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种面向多维数据的根因定位方法,用于解决现有技术中根因定位速度较低、使用场景受限的问题。
为实现上述目的及其他相关目的,本发明提供一种面向多维数据的根因定位方法,在发生异常前后的一段窗口内获取数据及预处理,预测数据每个属性组合的期望值,根据真实值和预测的期望值计算每个属性组合的偏离度得分并聚类,判断数据是否符合涟漪效应,选择根因定位算法进行根因定位;
所述根因定位包括如下步骤:
S1、偏离度计算,根据真实值和预测的期望值,计算每个属性组合的偏离度得分;
S2、过滤正常组合,根据步骤S1中的偏离度得分,去除偏离度得分较低的属性组合;
S3、组合聚类,将步骤S2中剩余的属性组合采用直方图等方式进行聚类;
S4、类内根因定位,分别对每一类组合进行维度下钻,得到最可能导致异常的根因组合;
S5、根因合并,将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合作为最终根因;
所述根因定位算法包括Squeeze算法和Abflux算法,当数据符合涟漪效应选用Squeeze算法进行根因组合定位,否则选用Abflux算法进行根因组合定位;采用DBSCAN聚类方法,对故障时刻的每个属性组合的偏离度得分进行聚类,若聚类仅为一类,则不符合涟漪效应;若聚类超过一类,则符合涟漪效应;所述DBSCAN聚类所用偏离度得分采用Squeeze算法的偏离度计算公式,具体为:
Figure BDA0003937435000000021
其中,f(e)为属性组合e的期望值,v(e)为属性组合e的真实值。
于本发明的一实施例中,所述Abflux算法偏离度得分采用计算公式为:
Figure BDA0003937435000000031
计算当前属性组合的偏差占所有组合的总偏差的比例,其中,f为所有组合的总期望值,v为所有组合的总真实值。
于本发明的一实施例中,所述Abflux算法过滤正常组合采用拐点和阈值的串联过滤方式进行过滤。
于本发明的一实施例中,所述类内根因定位按照Layer-cuboid进行遍历,将属性组合分为潜在根因组合和正常组合两个部分,计算根因组合与正常组合之间的根因潜在得分,遍历完成后取根因潜在得分最高的属性组合作为该类的根因。
于本发明的一实施例中,根据公式计算根因组合和正常组合之间的潜在得分,依据潜在得分和简洁度的加权值进行排序,取加权值最高的属性组合作为该类的根因,所述Abflux算法潜在得分具体公式
公式为:
Figure BDA0003937435000000032
其中
Figure BDA0003937435000000033
为实现上述目的及其他相关目的,本发明还提供一种面向多维数据的根因定位的***,基于上述的面向多维数据的根因定位方法,包括用于在发生异常前后的一段窗口内获取数据及预处理的数据预处理模块、用于预测数据每个属性组合的期望值的数据预测模块、用于根据真实值和预测的期望值计算每个属性组合的偏离度得分并聚类,判断数据是否符合涟漪效应的数据分析模块、用于选择根因定位算法的算法选择模块和用于根因定位的根因定位模块;
所述根因定位模块包括用于根据真实值和预测的期望值,计算每个属性组合的偏离度得分的偏离度计算模块、用于根据偏离度得分,去除偏离度得分较低的属性组合的过滤正常组合模块、用于将剩余的属性组合采用直方图等方式进行聚类的组合聚类模块、用于分别对每一类组合进行维度下钻,得到最可能导致异常的根因组合的类内根因定位模块和用于将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合作为最终根因的根因合并模块。
于本发明的一实施例中,所述根因定位算法包括Squeeze算法和Abflux算法,当数据符合涟漪效应选用Squeeze算法进行根因定位,否则选用Abflux算法进行根因定位。
如上所述,本发明的面向多维数据的根因定位方法及***,具有以下有益效果:本发明提出判断根因节点与其叶子节点之间是否符合涟漪效应的方法,从而自动选择根因定位算法,能够使其适用于多种使用场景;并提出一种符合根因能够最大程度解释异常的根因定位算法,从而构成完整的根因定位框架,实现快速定位出组合维度根因的目的,具有明显的优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的面向多维数据的根因定位方法的流程示意图;
图2为本发明的面向多维数据的根因定位方法的根因组合流程示意图;
图3为全部属性组合和符合涟漪效应的两个根因组合的GRE_Score分布示意图;
图4为全部属性组合和符合涟漪效应的两个根因组合的JS_Score分布示意图;
图5为符合涟漪效应的根因组合偏离度得分(GRE_Score)的分布直方图;
图6为不符合涟漪效应的根因组合偏离度得分(GRE_Score)的分布直方图;
图7为全部属性组合和不符合涟漪效应的一个根因组合的偏离度得分(GRE_Score)分布示意图;
图8为全部属性组合和不符合涟漪效应的一个根因组合的偏离度得分(JS_Score)分布示意图;
图9为某故障场景下的偏离度得分(JS_Score)分布示意图;
图10为数据集A的偏离度得分DBSCAN算法聚类结果示意图;
图11为数据集B的偏离度得分DBSCAN算法聚类结果示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
术语解释
●GRE:Generalized Ripple Effect广义涟漪效应
●GPS:Generalized Potential Score广义潜在得分
●KDE:Kernel Density Estimation核密度估计
实施例一
请参阅图1至图11,本发明提供一种面向多维数据的根因定位方法,在发生异常前后的一段窗口内获取数据及预处理,预测数据每个属性组合的期望值,根据真实值和预测的期望值计算每个属性组合的偏离度得分并聚类,判断数据是否符合涟漪效应,选择根因定位算法进行根因定位;所述根因定位算法包括如下步骤:
S1、偏离度计算,根据真实值和预测的期望值,计算每个属性组合的偏离度得分;
S2、过滤正常组合,根据步骤S1中的偏离度得分,去除偏离度得分较低的属性组合;
S3、组合聚类,将步骤S2中剩余的属性组合采用直方图等方式进行聚类;
S4、类内根因定位,分别对每一类组合进行维度下钻,得到最可能导致异常的根因组合;
S5、根因合并,将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合作为最终根因。
在本实施例中,获取数据及预处理完整过程包括:对某项业务指标进行实时监控时,若某时刻发生异常,则触发面向多维数据的根因定位算法,即获取该时刻前后一段窗口内的数据,所述数据包括时间以及该指标在不同维度组合下的数值,必要时,并对缺失值进行填充。
所述数据预测包括:根据指定窗口数内的各个属性组合在不同时刻的数据,选用Holt计算方式或取窗口内中位数的方式,预测出各个属性组合的期望值。
请参阅图3,数据分析具体为:根据真实值和预测的期望值,基于公式计算每个属性组合的偏离度得分,具体公式为:
Figure BDA0003937435000000051
其中,f(e)为属性组合e的期望值,v(e)为属性组合e的真实值。如图3所示,其中纵轴表示偏离度得分(GRE_Score),横轴表示包含根因的组合个数,如数据集中包含[“a4”,”d5”]的维度组合大约有250个。可以根据这一特性对数据集进行分析,判断其是否符合涟漪效应。
请参阅图1,所述根因定位算法包括Squeeze算法和Abflux算法,当数据符合涟漪效应选用Squeeze算法进行根因定位,否则选用Abflux算法进行根因定位。
如图5和图6所示,采用DBSCAN聚类方法,对故障时刻的每个属性组合的偏离度得分进行聚类,若聚类仅为一类,则不符合涟漪效应;若聚类超过一类,则符合涟漪效应。具体表现为:可根据涟漪效应的特性进行判断。将两种故障时刻的维度组合绘制直方分布图如图5和图6所示,横轴表示偏离度得分(GRE_Score),纵轴表示维度组合个数,图5中偏离度得分(GRE_Score)分布聚集为几类,每一类的分值较接近,与图3吻合;图6中偏离度得分(GRE_Score)分布较为均匀,可聚为一个大类。
请参阅图4、图7和图8,当数据不符合涟漪效应时,通常需要满足根因能解释异常的规则,因此Abflux算法参考Adtributor算法基于解释力提出偏离度得分(JS_Score),所述Abflux算法采用计算公式为:
Figure BDA0003937435000000061
计算当前属性组合的偏差占所有组合的总偏差的比例,其中,f为所有组合的总期望值,v为所有组合的总真实值。
可以理解的是,当根因符合涟漪效应时,如图4所示,所有维度组合的偏离度得分(JS_Score)均接近0,无法刻画根因的影响,而偏离度得分(GRE_Score)可明显反映出根因特性,如图7所示;当根因不符合涟漪效应时,如图7所示,所有维度组合的偏离度得分(GRE_Score)均分布在(-1,1)之间,无明显规律,而偏离度得分(JS_Score)则明显地刻画了异常根因,如图8所示,即根因组合的偏离度得分(JS_Score)比其他属性组合高得多。
请参阅图9,当根因不符合涟漪效应而是满足根因的异常程度最高时,本发明所述过滤正常组合采用拐点和阈值的串联过滤方式进行过滤。若仅使用拐点过滤,过滤后的剩余组合中仍包含部分正常组合,影响下一步的定位效果和效率;若仅使用阈值过滤,阈值设置较为关键,若设置过低,则过滤不完全,影响下一步的定位效果和效率;若设置过高,则遗漏部分异常组合。
表1Layer-cuboid含义及关系
Layer cuboids
Layer 1 a,b,c,d
Layer 2 ab,ac,ad,bc,bd,cd
Layer 3 abc,abd,acd,bcd
Layer 4 abcd
请参阅表1,所述类内根因定位按照Layer-cuboid进行遍历,将属性组合分为潜在根因组合和正常组合两个部分,根据公式计算根因组合与正常组合之间的根因潜在得分,依据潜在得分和简洁度的加权值进行排序,取加权值最高的属性组合作为该类的根因,
当符合涟漪效应时,Squeeze算法广义潜在得分GPS的计算方式为
Figure BDA0003937435000000071
其中期望值
Figure BDA0003937435000000072
S1为根因组合,S2为正常组合,该得分越高,根因组合与正常组合则区分得越明显;
当不符合涟漪效应时,所述Abflux算法参考Adtributor算法基于惊奇度改进广义潜在得分GPS的计算方式,
Figure BDA0003937435000000073
其中
Figure BDA0003937435000000074
即一个在其分布上有很大变化的维度比没有表现出这种变化的维度更有可能是根因。
本实施例在判断涟漪效应时,采用DBSCAN算法分别对样本点偏离度进行聚类测试,请参阅图10和图11,数据集A符合涟漪效应,共9个子集;数据集B不符合涟漪效应,共10个子集,判断为数据集A均聚为多类,数据集B样本85%以上聚为一类,因此可明显区分数据集是否符合涟漪效应。
表2结果类别说明
Figure BDA0003937435000000075
数据集A和数据集B效果对比如表2所示。
数据集A测试:数据集A符合涟漪效应,共4个维度,[‘a’,‘b’,‘c’,‘d],采用不同的算法及参数组合(如表3所示)进行测试,结果如图表4所示。
表3数据集A参数配置
参数组合 rca_method threshold theta attributes mode
Para1 "Squeeze" 0.1 0.9 ['a','b','c','d'] None(阈值)
Para3 "Squeeze" 0.1 0.9 ['a','b','c','d'] 'auto'(拐点)
Para5 "Abflux" 0.5 0.9 ['a','b','c','d'] --(拐点)
表4数据集A测试结果
方法+参数 类别1 类别2 类别3 类别4 类别5 类别6
Squeeze+Para1 0.688 0.023 0.001 0.226 0.062 0
Squeeze+Para3 0.729 0.028 0.05 0.174 0.019 0
Abflux+Para5 0.279 0.287 0.244 0.179 0.011 0
可见,对于数据集A,使用Squeeze算法效果更好。
数据集B测试:数据集B不符合涟漪效应,共5个维度,[‘i’,‘e’,‘c’,‘p’,‘l‘],采用不同的算法及参数组合(如表5所示)进行测试,结果如表6所示。
表5数据集B参数配置
参数组合 rca_method threshold theta attributes mode
Para1 "Squeeze" 0.1 0.9 ['i','e','c','p','l'] 拐点
Para2 "Abflux" 0.1 0.9 ['i','e','c','p','l'] 拐点+阈值
Para3 "Abflux" 0.1 0.9 ['i','e','c','p','l'] 仅拐点
表6数据集B测试结果
方法+参数 类别1 类别2 类别3 类别4 类别5 类别6
Squeeze+Para1 0.065 0.007 0.058 0.11 0.655 0.105
Abflux+Para2 0.55 0.11 0.015 0.165 0.16 0
Abflux+Para3 0.477 0.028 0.13 0.237 0.128 0
可见,对于数据集B,使用Abflux算法效果更好,且“拐点+阈值”组合过滤方式优于“仅拐点”的过滤方式。
举例说明如下:假设对某业务指标进行监控,与该指标相关的维度有['i','e','c','p','l']5个维度,各维度下分别有100/14/8/35/4个元素,即i01~i100、e01~e14、c01~c08、p01~p35和l01~l04,实际共28630个组合。
(1)数据获取及预处理:现监测到2022-08-01 10:10:00时刻该指标异常,触发多维根因定位算法,查找该时刻和前6个时刻各维度组合的数据,形式如下:
Figure BDA0003937435000000091
Figure BDA0003937435000000101
分析各维度组合的数据缺失情况并进行缺失值填充。
(2)数据预测:根据2022-08-01 09:40:00~2022-08-01 10:05:00窗口内的各个属性组合的短时时间序列,选用Holt或取窗口内中位数的方式,预测出各个属性组合在故障时刻2022-08-01 10:10:00的期望值f。结合故障时刻真实值v形成如下数据集:
维度组合 f v
"i01&e01&c1&p01&l3" 1.03 1.05
"i01&e01&c1&p02&l3" 0 0.065
"i01&e01&c1&p03&l3" 1.43 0.705
...... ...... ......
去除f和v均为0的属性组合,剩余4565个组合。
(3)偏离度计算及算法选择:对剩余的属性组合根据公式
Figure BDA0003937435000000102
计算各维度组合的偏离度得分,其中v(e)和f(e)分别为属性组合e的真实值和预测的期望值,得到偏离度得分数组。采用DBSCAN算法核密度聚类方法对偏离度得分数组进行聚类,输出类别种类仅一个,判断原数据不符合涟漪效应,因此采用Abflux根因定位算法。
(4)采用Abflux算法根因定位:根据上述数据分析结果,采用Abflux根因定位算法。
①偏离度计算:根据步骤(2)得到的真实值和预测的期望值,基于公式
Figure BDA0003937435000000111
重新计算每个属性组合的偏离度得分;
②过滤正常组合:设置过滤阈值为0.1,首先进行拐点过滤,再对过滤后的剩余组合进行阈值过滤,去除偏离度得分低于0.1的属性组合,最终剩余6个维度组合。
Figure BDA0003937435000000112
③组合聚类:根据偏离度得分分布,将剩余的属性组合采用直方图分布进行聚类,共聚为4类。
Figure BDA0003937435000000113
④类内根因定位:依次对每一类组合进行维度下钻:按Layer-cuboid进行遍历,提取潜在根因组合和正常组合,根据公式
Figure BDA0003937435000000114
计算二者之间的广义潜在得分GPS,依据广义潜在得分GPS得分和简洁度的加权值(最终得分)进行排序,取最终得分最高的cuboid下的根因作为当前类的根因。计算得到4个类的根因分别为'e08&c1&p30','i46&e08&c1&l2','e10&l3','e08&c1'。
⑤根因合并:将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合['e=e10&l=l3','e=e08&c=c1'],即最终根因。
实施例二
本发明提供一种面向多维数据的根因定位的***,基于上述的面向多维数据的根因定位方法,包括用于在发生异常前后的一段窗口内获取数据及预处理的数据预处理模块、用于预测数据每个属性组合的期望值的数据预测模块、用于根据真实值和预测的期望值计算每个属性组合的偏离度得分并聚类,判断数据是否符合涟漪效应的数据分析模块、用于选择根因定位算法的算法选择模块和用于根因定位的根因定位模块;
所述根因定位模块包括用于根据真实值和预测的期望值,计算每个属性组合的偏离度得分的偏离度计算模块、用于根据偏离度得分,去除偏离度得分较低的属性组合的过滤正常组合模块、用于将剩余的属性组合采用直方图等方式进行聚类的组合聚类模块、用于分别对每一类组合进行维度下钻,得到最可能导致异常的根因组合的类内根因定位模块和用于将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合作为最终根因的根因合并模块。
在本实施例中,所述根因定位算法包括Squeeze算法和Abflux算法,当数据符合涟漪效应选用Squeeze算法进行根因定位,否则选用Abflux算法进行根因定位。
综上所述,本发明的面向多维数据的根因定位方法及***,本发明提出判断根因节点与其叶子节点之间是否符合涟漪效应的方法,从而自动选择根因定位算法,能够使其适用于多种使用场景;并提出一种符合根因能够最大程度解释异常的根因定位算法,从而构成完整的根因定位框架,实现快速定位出组合维度根因的目的,具有明显的优势。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种面向多维数据的根因定位方法,其特征在于,在发生异常前后的一段窗口内获取数据及预处理,预测数据每个属性组合的期望值,根据真实值和预测的期望值计算每个属性组合的偏离度得分并聚类,判断数据是否符合涟漪效应,选择根因定位算法进行根因定位;
所述根因定位算法包括如下步骤:
S1、偏离度计算,根据真实值和预测的期望值,计算每个属性组合的偏离度得分;
S2、过滤正常组合,根据步骤S1中的偏离度得分,去除偏离度得分较低的属性组合;
S3、组合聚类,将步骤S2中剩余的属性组合采用直方图等方式进行聚类;
S4、类内根因定位,分别对每一类组合进行维度下钻,得到最可能导致异常的根因组合;
S5、根因合并,将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合作为最终根因;
所述根因定位算法包括Squeeze算法和Abflux算法,当数据符合涟漪效应选用Squeeze算法进行根因组合定位,否则选用Abflux算法进行根因组合定位;采用DBSCAN聚类方法,对故障时刻的每个属性组合的偏离度得分进行聚类,若聚类仅为一类,则不符合涟漪效应;若聚类超过一类,则符合涟漪效应;所述DBSCAN聚类所用偏离度得分采用Squeeze算法的偏离度计算公式,具体为:
Figure FDA0003937434990000011
其中,f(e)为属性组合e的期望值,v(e)为属性组合e的真实值;
Figure FDA0003937434990000012
所述Abflux算法的偏离度得分采用计算公式为:
Figure FDA0003937434990000013
计算当前属性组合的偏差占所有组合的总偏差的比例,其中,f为所有组合的总期望值,v为所有组合的总真实值。
2.根据权利要求1所述的面向多维数据的根因定位方法,其特征在于:所述Abflux算法过滤正常组合采用拐点和阈值的串联过滤方式进行过滤。
3.根据权利要求1所述的面向多维数据的根因定位方法,其特征在于:所述类内根因定位按照Layer-cuboid进行遍历,将属性组合分为潜在根因组合和正常组合两个部分,计算根因组合与正常组合之间的根因潜在得分,遍历完成后取根因潜在得分最高的属性组合作为该类的根因。
4.根据权利要求1所述的面向多维数据的根因定位方法,其特征在于:根据公式计算根因组合和正常组合之间的潜在得分,依据潜在得分和简洁度的加权值进行排序,取加权值最高的属性组合作为该类的根因,所述Abflux算法潜在得分具体公式为:
Figure FDA0003937434990000021
其中
Figure FDA0003937434990000022
5.一种面向多维数据的根因定位的***,基于权利要求1-4任一项所述的面向多维数据的根因定位方法,其特征在于:包括用于在发生异常前后的一段窗口内获取数据及预处理的数据预处理模块、用于预测数据每个属性组合的期望值的数据预测模块、用于根据真实值和预测的期望值计算每个属性组合的偏离度得分并聚类,判断数据是否符合涟漪效应的数据分析模块、用于选择根因定位算法的算法选择模块和用于根因定位的根因定位模块;
所述根因定位模块包括用于根据真实值和预测的期望值,计算每个属性组合的偏离度得分的偏离度计算模块、用于根据偏离度得分,去除偏离度得分较低的属性组合的过滤正常组合模块、用于将剩余的属性组合采用直方图等方式进行聚类的组合聚类模块、用于分别对每一类组合进行维度下钻,得到最可能导致异常的根因组合的类内根因定位模块和用于将各类下钻得到的根因组合进行合并,得到最简洁的属性组合集合作为最终根因的根因合并模块。
6.根据权利要求5所述的面向多维数据的根因定位***,其特征在于:所述根因定位算法包括Squeeze算法和Abflux算法,当数据符合涟漪效应选用Squeeze算法进行根因定位,否则选用Abflux算法进行根因定位。
CN202211409881.3A 2022-11-10 2022-11-10 一种面向多维数据的根因定位方法及*** Active CN115756919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211409881.3A CN115756919B (zh) 2022-11-10 2022-11-10 一种面向多维数据的根因定位方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211409881.3A CN115756919B (zh) 2022-11-10 2022-11-10 一种面向多维数据的根因定位方法及***

Publications (2)

Publication Number Publication Date
CN115756919A true CN115756919A (zh) 2023-03-07
CN115756919B CN115756919B (zh) 2023-10-31

Family

ID=85369343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211409881.3A Active CN115756919B (zh) 2022-11-10 2022-11-10 一种面向多维数据的根因定位方法及***

Country Status (1)

Country Link
CN (1) CN115756919B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117555716A (zh) * 2023-12-08 2024-02-13 杭州象维矩阵智能科技有限公司 一种异常模式自适应的多维根因定位框架及根因定位方法
CN117827512A (zh) * 2023-12-27 2024-04-05 哈尔滨工业大学 一种快速可溯源的多维异常事件根因分析算法
CN117827512B (zh) * 2023-12-27 2024-07-26 哈尔滨工业大学 一种快速可溯源的多维异常事件根因分析算法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015187001A2 (en) * 2014-06-04 2015-12-10 Mimos Berhad System and method for managing resources failure using fast cause and effect analysis in a cloud computing system
CN111444247A (zh) * 2020-06-17 2020-07-24 北京必示科技有限公司 一种基于kpi指标的根因定位方法、装置及存储介质
CN112187554A (zh) * 2020-12-01 2021-01-05 北京蒙帕信创科技有限公司 一种基于蒙特卡洛树搜索的运维***故障定位方法和***
CN113128875A (zh) * 2021-04-22 2021-07-16 阳光保险集团股份有限公司 一种面向多维数据集的指标异常的根因定位方法及装置
CN113157473A (zh) * 2021-03-25 2021-07-23 清华大学 一种对多维日志的故障根因定位方法和装置
CN113448761A (zh) * 2021-06-17 2021-09-28 新浪网技术(中国)有限公司 一种根因定位方法及装置
WO2021217865A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 告警根因的定位方法、装置、计算机设备和存储介质
CN113765698A (zh) * 2021-07-14 2021-12-07 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及***
CN114168374A (zh) * 2021-11-30 2022-03-11 中国电子科技集团公司第二十八研究所 基于集成异常检测器与根因分析结合的异常数据定位方法
CN114371950A (zh) * 2020-10-15 2022-04-19 ***通信集团浙江有限公司 应用业务异常的根因定位方法及装置
WO2022160675A1 (zh) * 2021-01-29 2022-08-04 北京达佳互联信息技术有限公司 根因确定方法及装置
CN115239152A (zh) * 2022-07-27 2022-10-25 数预智能科技(上海)有限公司杭州分公司 一种面向多维度数据集的指标异常归因方法
CN115277245A (zh) * 2022-08-10 2022-11-01 清华大学 基于属性的多维异常根因定位方法、***及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015187001A2 (en) * 2014-06-04 2015-12-10 Mimos Berhad System and method for managing resources failure using fast cause and effect analysis in a cloud computing system
WO2021217865A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 告警根因的定位方法、装置、计算机设备和存储介质
CN111444247A (zh) * 2020-06-17 2020-07-24 北京必示科技有限公司 一种基于kpi指标的根因定位方法、装置及存储介质
CN114371950A (zh) * 2020-10-15 2022-04-19 ***通信集团浙江有限公司 应用业务异常的根因定位方法及装置
CN112187554A (zh) * 2020-12-01 2021-01-05 北京蒙帕信创科技有限公司 一种基于蒙特卡洛树搜索的运维***故障定位方法和***
WO2022160675A1 (zh) * 2021-01-29 2022-08-04 北京达佳互联信息技术有限公司 根因确定方法及装置
CN113157473A (zh) * 2021-03-25 2021-07-23 清华大学 一种对多维日志的故障根因定位方法和装置
CN113128875A (zh) * 2021-04-22 2021-07-16 阳光保险集团股份有限公司 一种面向多维数据集的指标异常的根因定位方法及装置
CN113448761A (zh) * 2021-06-17 2021-09-28 新浪网技术(中国)有限公司 一种根因定位方法及装置
CN113765698A (zh) * 2021-07-14 2021-12-07 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及***
CN114168374A (zh) * 2021-11-30 2022-03-11 中国电子科技集团公司第二十八研究所 基于集成异常检测器与根因分析结合的异常数据定位方法
CN115239152A (zh) * 2022-07-27 2022-10-25 数预智能科技(上海)有限公司杭州分公司 一种面向多维度数据集的指标异常归因方法
CN115277245A (zh) * 2022-08-10 2022-11-01 清华大学 基于属性的多维异常根因定位方法、***及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117555716A (zh) * 2023-12-08 2024-02-13 杭州象维矩阵智能科技有限公司 一种异常模式自适应的多维根因定位框架及根因定位方法
CN117827512A (zh) * 2023-12-27 2024-04-05 哈尔滨工业大学 一种快速可溯源的多维异常事件根因分析算法
CN117827512B (zh) * 2023-12-27 2024-07-26 哈尔滨工业大学 一种快速可溯源的多维异常事件根因分析算法

Also Published As

Publication number Publication date
CN115756919B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN111833172A (zh) 一种基于孤立森林的消费信贷欺诈行为检测方法及其***
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
CN108333468B (zh) 一种有源配电网下不良数据的识别方法及装置
CN108304567B (zh) 高压变压器工况模式识别与数据分类方法及***
CN114722746B (zh) 一种芯片辅助设计方法、装置、设备及可读介质
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及***
CN115563477B (zh) 谐波数据识别方法、装置、计算机设备和存储介质
CN114978877B (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
CN115756919A (zh) 一种面向多维数据的根因定位方法及***
CN106846170B (zh) 一种发电机组跳闸监测方法及其监测装置
CN117221087A (zh) 告警根因定位方法、装置及介质
CN115098740A (zh) 一种基于多源异构数据源的数据质量检测方法及装置
CN113726558A (zh) 基于随机森林算法的网络设备流量预测***
CN117272180A (zh) 一种基于残差网络模型的分拣机故障检测方法及***
CN114397306B (zh) 一种电网均压环超复杂类别缺陷多阶段模型联合检测方法
Pan et al. Study on intelligent anti–electricity stealing early-warning technology based on convolutional neural networks
CN114528906A (zh) 一种旋转机械的故障诊断方法、装置、设备和介质
CN113869423A (zh) 一种营销响应模型构建方法、设备及介质
JP2020101900A (ja) 画像検査装置、画像検査のための学習方法および画像検査プログラム
CN112035338B (zh) 一种有状态深度神经网络的覆盖率计算方法
CN118035507B (zh) 基于数据挖掘技术的数据查询***及方法
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用***
Galvão et al. Dealing with Repeated Objects in SNNagg.
Maki et al. Applying data mining to data analysis in manufacturing
CN109474445B (zh) 一种分布式***根源故障定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant