CN113656287B - 软件实例故障的预测方法、装置、电子设备及存储介质 - Google Patents
软件实例故障的预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113656287B CN113656287B CN202110860029.7A CN202110860029A CN113656287B CN 113656287 B CN113656287 B CN 113656287B CN 202110860029 A CN202110860029 A CN 202110860029A CN 113656287 B CN113656287 B CN 113656287B
- Authority
- CN
- China
- Prior art keywords
- index
- fault
- alarm
- software instance
- alarm index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 230000002159 abnormal effect Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 101150026833 cntM gene Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 101150105292 cntA gene Proteins 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3604—Software analysis for verifying properties of programs
- G06F11/3608—Software analysis for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供的软件实例故障的预测方法、装置、电子设备及存储介质,通过获取软件实例的告警指标的实时数据;根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;实现了通过故障预测模型,提前对软件实例是否会发生故障进行预测,同时对故障的可能的故障点进行预测,能够为故障的修复提供有效依据,节省了人工排查故障原因的时间,提高了故障修复效率。
Description
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种软件实例故障的预测方法、装置、电子设备及存储介质。
背景技术
随着计算机软件行业环境的变化,以及各业务***的调用部署关系越发的复杂,各组件之间调用关系也越发复杂,各业务***发生故障和异常的频率相应的增高,因此,对业务***中关联的实例故障的及时修复和预测变得尤为重要。
目前,现有的软件实例故障修复方法,主要是在软件实例发生故障之后对机器设备进行检查,或者通过人工定期对机器设备进行检查;在***宕机之后,通过人工经验来预测可能出现的原因,再对预测的故障原因进行检查和修复。
由此可见,现有的软件实例故障的解决方法,只能在故障发生之后,再对故障进行修复,无法在故障发生之前预测到故障发生的位置及时间点;对故障原因进行排查时,只能通过人工经验判断故障原因,导致解决软件实例故障花费的时间长、效率低下的问题。
发明内容
本发明提供一种软件实例故障的预测方法、装置、电子设备及存储介质,用以解决现有的软件实例故障的解决方法,只能在故障发生之后,再对故障进行修复,无法在故障发生之前预测到故障发生的位置及时间点;对故障原因进行排查时,只能通过人工经验判断故障原因,导致解决软件实例故障花费的时间长、效率低下的问题;通过故障预测模型,提前对软件实例是否会发生故障进行预测,同时对故障的可能的故障点进行预测,能够为故障的修复提供有效依据,节省了人工排查故障原因的时间,提高了故障修复效率。
本发明提供一种软件实例故障的预测方法,包括:
获取软件实例的告警指标的实时数据;
根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;
其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的。
根据本发明提供的软件实例故障的预测方法,所述根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测,包括:
比对所述实时数据与关键词集,确定所述告警指标是否为异常告警指标;其中,所述关键词集包括从所述软件实例的异常历史告警指标中提取出的关键词;
若所述告警指标为异常告警指标,将所述告警指标的实时数据输入所述故障预测模型,对所述软件实例的故障进行预测。
根据本发明提供的软件实例故障的预测方法,所述将所述告警指标的实时数据输入所述故障预测模型,对所述软件实例的故障进行预测之前,包括:
确定所述软件实例的历史数据中任一故障指标的发生时刻;
获取所述发生时刻前的第一预设时间段内的前序告警指标,获取所述发生时刻前的第二预设时间段内的历史告警指标;其中,第二预设时间段大于第一预设时间段;
通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,生成所述故障指标与任一前序告警指标的关联规则;
根据所述关联规则,建立故障预测模型。
根据本发明提供的软件实例故障的预测方法,所述通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,生成所述故障指标与任一前序告警指标的关联规则,包括:
通过所述第一预设时间段内的前序告警指标,获取与所述故障指标相关联的目标告警指标;
通过时间切片操作,对所述第二预设时间段内的历史告警指标进行分桶,生成历史告警指标桶;
根据历史告警指标桶,基于Apriori算法,计算所述故障指标与任一目标告警指标的关联度;其中,所述关联度包括支持度、置信度、提升度;
根据所述关联度,生成所述故障指标与任一目标告警指标的关联规则。
根据本发明提供的软件实例故障的预测方法,所述获取与所述故障指标具有相关性的目标告警指标,包括:
对所述前序告警指标进行去重,生成前序告警指标集合;
将所述前序告警指标集合中的任一前序告警指标,作为与所述故障指标相关联的目标告警指标。
根据本发明提供的软件实例故障的预测方法,所述生成所述故障指标与任一前序告警指标的关联规则,还包括:
获取任一目标告警指标的发生时刻与所述故障指标发生时刻的时间间隔;其中,所述时间间隔包括:最大时间间隔、最小时间间隔、中位数时间间隔;
将所述时间间隔加入所述关联规则中,以对所述软件实例的故障的发生时刻进行预测。
根据本发明提供的软件实例故障的预测方法,所述对所述软件实例的故障进行预测之后,包括:
若预测到所述软件实例将发生故障,确定所述软件实例故障的故障类型;
根据所述故障类型,对所述软件实例的告警指标的实时数据进行标记;
根据所述标记,将所述告警指标的实时数据与所述预测结果存储至关系型数据库,以作为展示所述软件实例故障的预测结果的数据来源。
本发明还提供一种软件实例故障的预测装置,包括:
获取单元,用于获取软件实例的告警指标的实时数据;
预测单元,用于根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;
其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述软件实例故障的预测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述软件实例故障的预测方法的步骤。
本发明提供的软件实例故障的预测方法、装置、电子设备及存储介质,通过获取软件实例的告警指标的实时数据;根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;实现了通过故障预测模型,提前对软件实例是否会发生故障进行预测,同时对故障的可能的故障点进行预测,能够为故障的修复提供有效依据,节省了人工排查故障原因的时间,提高了故障修复效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的软件实例故障的预测方法的流程示意图;
图2是本发明另一实施例提供的一种基于Apriori算法实现软件实例指标的故障预测方法的流程示意图;
图3是本发明另一实施例提供的软件实例故障的预测装置的结构示意图;
图4是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对传统的判定软件实例指标故障的方法进行说明。
随着软件行业的业务变化,以及各业务***的调用部署关系越发的复杂,各组件之间调用关系复杂。对业务***的关联的实例的故障预测则变得尤为重要。引进人工智能***出软件实例在将来可能会发生什么故障。如jvm内存溢出、实例宕机等故障。将人工智能推广到运维领域,给运维人员留出充足的时间提前解决,提高工作效率,降低生产环境故障发生几率,减少损失。
现有的软件实例故障预测方法主要分为两种。第一种是通过软件实例发生异常之后,对机器做检查,如磁盘使用率过高,导致业务***宕机,这种情况一般是在***宕机之后,去定位具体原因,才能解决问题;通过人工经验来预测可能出现的原因。效率低下,解决时间长,对生产环境造成损失。第二种是通过采集大量历史告警数据以及故障事件数据,对故障事件基于人工运维经验进行分别细分,然后通过使用机器学习算法训练出分类模型,从而当发生新的***告警时,调用已经训练好的分类模型对该新告警样本进行预测,预测出将来的故障类别,其中无故障发生为单独一个类别;该方案相比于第一种有较大的改进,但其中对历史样本数据的标注需要投入较大量的人工精力,并且人工标注的样本数据质量也会对模型的准确性产生较大的影响。
现有的技术方案没有一套完整的故障预测方案,只能通过人为经验,发生故障之后,根据错误信息,快速定位问题原因,从而解决问题。此方式存在几个缺点:
传统方式一般是通过运维人员定期检查服务器状态,各个应用实例指标状态,当可能超出阈值的时候,则处理故障解决问题,这种方式处理时间慢,定位不准确,人工因素影响太大;在故障发生但是故障级别不高时,不能及时处理问题、解决故障;
基于机器学习有监督分类算法的故障预测模型也存在不足之处,即历史样本数据的标注需要投入较大量的人工精力,并且人工标注的样本数据质量也会对模型的准确性产生较大的影响。
针对以上缺点,本发明实施例提供的软件实例故障的预测方法,可以对软件业务中的基于静态阈值的指标和基于动态阈值的指标的故障进行预测,并对告警指标的数据进行标注,有利于后续运行过程中对告警数据的分类。
下面结合图1-图2描述本发明提供的软件实例故障的预测方法。
图1为本发明实施例提供的软件实例故障的预测方法的流程示意图。参见图1,该软件实例故障的预测方法包括:
步骤101:获取软件实例的告警指标的实时数据。
随着计算机软件行业环境的变化,以及各业务***的调用部署关系越发的复杂,各组件之间调用关系也越发复杂,对业务***中关联的实例故障的及时修复和预测变得尤为重要;其中,软件实例即为业务***中的软件程序或进程,每个软件实例中会包含着一个或多个指标。
具体的,软件实例在运行过程中会产生大量的数据,其中数据可以为软件实例生成的实时运行数据,也可以是软件实例中的告警指标的实时数据。具体的,软件实例的告警指标的实时数据中,包括软件实例正常运行时产生的告警数据,还包括当软件实例实际发生异常时产生的告警数据。
步骤102:根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;
其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的历史告警指标训练得到的。
软件实例在运行过程中,会对产生的数据进行存储,并作为历史数据;其中,存储的内容包括历史数据的内容以及历史数据是否为异常数据。本实施例中,通过采集一定时间段内的历史数据,通过Apriori算法,建立故障预测模型,根据故障指标与告警指标的关联关系,可以训练该故障预测模型,使得将软件实例的告警指标的实时数据输入故障预测模型后,故障预测模型可以根据历史数据的经验,确定出该软件实例在一定时间段后是否会发生故障。
本发明提供的软件实例故障的预测方法,通过获取软件实例的告警指标的实时数据;根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;实现了通过故障预测模型,提前对软件实例是否会发生故障进行预测,同时对故障的可能的故障点进行预测,能够为故障的修复提供有效依据,节省了人工排查故障原因的时间,提高了故障修复效率。
进一步地,在上述实施例的基础上,根据本发明提供的软件实例故障的预测方法,所述根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测,包括:
比对所述实时数据与关键词集,确定所述告警指标是否为异常告警指标;其中,所述关键词集包括从所述软件实例的异常历史告警指标中提取出的关键词;
若所述告警指标为异常告警指标,将所述告警指标的实时数据输入所述故障预测模型,对所述软件实例的故障进行预测。
具体的,本实施例中根据软件实例的告警指标生成的实时数据对是否发生故障进行预测,即根据告警指标的数据,对可能导致软件实例故障的原因进行预测;获取软件实例的告警指标的数据,其中告警指标的数据包括正常运行时产生的告警数据,还包括当软件实例实际发生异常时产生的告警数据。
在根据软件实例的告警指标的实时数据进行预测之前,可以先生成关键词集。获取历史数据中的异常历史告警指标的数据,确定历史告警指标的数据中实际发生异常时生成的异常历史告警指标数据,并从异常历史告警指标数据中提取出能够表示该软件实例的告警指标实际发生异常的关键词,生成关键词集。
当新生成的告警指标的实时数据中存在与关键词集中的关键词相匹配时,确定该新生成的告警指标的实时数据存在异常,即该告警指标为异常告警指标,将该异常告警指标的实时数据输入到故障预测模型中,就可以对该软件实例可能发生的故障进行预测,预测出故障可能发生的位置及发生概率。
本实施例中,通过获取软件实例中告警指标的实时数据,基于关键词集,可以对软件实例业务出现故障时,对故障的可能的故障点进行预测,能够为故障的修复提供有效依据,节省了人工排查故障原因的时间,提高了故障修复效率。
进一步地,在上述实施例的基础上,根据本发明提供的软件实例故障的预测方法,所述将所述告警指标的实时数据输入所述故障预测模型,对所述软件实例的故障进行预测之前,包括:
确定所述软件实例的历史数据中任一故障指标的发生时刻;
获取所述发生时刻前的第一预设时间段内的前序告警指标,获取所述发生时刻前的第二预设时间段内的历史告警指标;其中,第二预设时间段大于第一预设时间段;
通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,生成所述故障指标与任一前序告警指标的关联规则;
根据所述关联规则,建立故障预测模型。
在软件实例运行过程中,在故障指标发生之前,会首先产生不同的告警指标,即不同的告警指标的发生可能预示着不同的故障指标的发生,因此通过确定故障指标与告警指标的关联关系,可以对故障指标的发生进行预测,从而通过故障指标与告警指标的关联关系,建立故障预测模型。
获取软件实例的历史数据,在历史数据中选取出任一个故障指标,确定该故障指标的发生时刻。获取该发生时刻前的第一预设时间段内的告警指标,这些告警指标的发生可能会导致该故障指标的发生,将第一预设时间段内的告警指标作为该故障指标的前序告警指标,即确定出与该故障指标具有相关性的至少一个告警指标。再获取该发生时刻前第二预设时间段内的历史告警指标,第二预设时间段大于第一预设时间段,在第二预设时间段内的历史告警指标中包含了更多的前序告警指标的信息。其中,第二预设时间段与第一预设时间段均可由人员设定。
通过前序告警指标与历史告警指标,可以确定出前序告警指标与故障指标的关联性强弱,从而生成故障指标与任一前序告警指标的关联规则,实现故障预测模型的建立。
例如,设置第一预设时间段为一小时,第二预设时间段为一个月,基于历史告警数据集以及时间分片单位,统计唯一的故障告警集合,针对每一个故障G,截取该故障发生时刻前一个月的历史告警数据表A以及前1小时的唯一告警指标集合B,通过分析集合B与故障告警G之间的关联关系得到导致故障G发生的前序告警指标以及相应的前序告警指标导致结果故障指标发生的时间间隔、发生的概率等数据的结果规则集合C。通过遍历所有故障指标从而得到所有故障指标的结果规则集合C。
具体的,首先接收基于restful API传送的字符串数据,将字符串json反序列化得到数据字典dict,再将dict中的历史告警列表转化为python的dataframe的格式,历史告警列表中每一项为Python的dict字典,每个dict中包含有告警时间eventtime、告警指标名item、告警实例id、告警类型关键字、是否为故障等字段。
采集***最近N年(例如1年)的历史告警,依据dict中的时间切片单位maxInternalMs对历史告警数据表dataframe进行按照时间顺序的分桶,统计整个历史告警数据表dataframe中的全部故障指标,进行去重后得到唯一的故障指标集合GuZhangList。
获取故障指标集合GuZhangList中任一个故障指标G发生前一个小时内的告警指标,例如包括告警指标M,即确定告警指标M与故障指标G存在关联关系。在故障指标G发生前一个月内的历史告警指标的数据中,根据告警指标M发生的时间、频率等信息,确定告警指标M与故障指标G的关联度。由此,建立起软件实例的所有故障指标与告警指标的关联关系,并建立故障预测模型,从而实现对故障的预测。
本实施例中,通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,生成所述故障指标与任一前序告警指标的关联规则,建立故障预测模型;生成了对软件实例中所有故障指标的关联规则,提高了对故障指标的预测精度与效率。
进一步地,在上述实施例的基础上,根据本发明提供的软件实例故障的预测方法,所述通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,生成所述故障指标与任一前序告警指标的关联规则,包括:
通过所述第一预设时间段内的前序告警指标,获取与所述故障指标相关联的目标告警指标;
通过时间切片操作,对所述第二预设时间段内的历史告警指标进行分桶,生成历史告警指标桶;
根据历史告警指标桶,基于Apriori算法,计算所述故障指标与任一目标告警指标的关联度;其中,所述关联度包括支持度、置信度、提升度;
根据所述关联度,生成所述故障指标与任一目标告警指标的关联规则。
在第一预设时间段内的前序告警指标,可能存在同一个告警指标存在了多次,需要对前序告警指标进行去重处理,生成目标告警指标,确定目标告警指标与故障指标存在关联。
通过时间切片操作,对历史告警指标进行分桶,其中,具体的时间切片单位可以与数据字典dict的时间切片单位相同。遍历得到的历史告警指标桶,获取到所有桶的总个数,根据目标告警指标在历史告警指标桶中出现的次数、故障指标出现的次数,计算故障指标与目标告警指标的支持度、置信度、提升度。
具体的,遍历故障指标集合GuZhangList每个故障指标A的情况下,基于时间得到整个告警数据表中第一次发生该故障A的时刻Atime,基于Atime往前截取1小时的历史告警数据表dataframe中的全部的告警指标,去重后得到唯一的告警指标集合useFaultList,进行去重后得到唯一的告警指标集合useFaultList,该操作的基本原理是认为当前时刻故障A的发生所定位的时间范围为一小时;基于Atime往前截取30天的历史告警数据表dataframe中的告警数据df-30,并按照原始dict中的时间切片单位maxInternalMs对该历史告警df-30按照时间顺序分桶buketList,紧接着遍历每个分桶buket,统计该buketList桶的总个数D,唯一告警指标M在桶buketList中出现的桶的个数cntM,以及唯一告警指标M与故障告警A同时出现在同一个桶bucket的出现桶的个数cntMA,以及A在该buketList出现的桶的个数cntA。
Apriori算法的核心思想为:
支持度:关联规则A→B的支持度support=P(AB),指的是事件A和事件B同时发生的概率,即Support(A→B)=P(AB);
置信度:confidence=P(B|A)=P(AB)/P(A),指的是发生事件A的基础上发生事件B的概率;
提升度:lift=confidence(A→B)/P(B)=P(AB)/P(A)P(B),指的是事件A导致事件B发生的概率是否真正意义上对事件B的发生起到促进作用,只要lift大于1,都可以认为该规则A→B是强有效规则。
根据上述Apriori算法,对于告警指标M→故障指标A,记为规则M→A,套入公式可得:
P(M)=cntM/D,P(A)=cntA/D,P(MA)=cntMA/D;
可以计算得到告警指标M相对于故障指标A的支持度、置信度、提升度等数据,将上述数据作为故障指标A与告警指标M的关联规则。
本实施例中,通过Apriori算法,计算得到故障指标与告警指标的关联规则,实现了通过告警指标的实时数据对故障告警进行预测,为故障的修复提供有效依据,节省了人工排查故障原因的时间,提高了故障修复效率。
进一步地,在上述实施例的基础上,根据本发明提供的软件实例故障的预测方法,所述获取与所述故障指标具有相关性的目标告警指标,包括:
对所述前序告警指标进行去重,生成前序告警指标集合;
将所述前序告警指标集合中的任一前序告警指标,作为与所述故障指标相关联的目标告警指标。
具体的,在获取到故障指标发生时刻前的第一预设时间段之后,得到第一预设时间段内的前序告警指标,其中可能存在同一个告警指标存在了多次,需要对前序告警指标进行去重处理。去重后得到的前序告警指标,即为与故障指标相关联的目标告警指标。
本实施例中,通过对前序告警指标去重,得到目标告警指标,精准的确定了与故障指标相关联的告警指标,再通过确定目标告警指标与故障指标的关联关系,完成故障预测模型的建立,实现对软件实例故障的预测。
进一步地,在上述实施例的基础上,根据本发明提供的软件实例故障的预测方法,所述生成所述故障指标与任一前序告警指标的关联规则,还包括:
获取任一目标告警指标的发生时刻与所述故障指标发生时刻的时间间隔;其中,所述时间间隔包括:最大时间间隔、最小时间间隔、中位数时间间隔;
将所述时间间隔加入所述关联规则中,以对所述软件实例的故障的发生时刻进行预测。
在确定了与故障指标具有关联性的目标告警指标后,在第二预设时间段内,确定任一目标告警指标与故障指标发生时的时间间隔。在历史数据中存在着同一个故障指标发生多次的情况,在每次发生时,确定出目标告警指标发生的时刻与故障指标发生时刻的时间间隔,计算时间间隔的最大值、最小值、中位数值,并将计算得到的最大时间间隔、最小时间间隔、中位数时间间隔加入到故障指标与目标告警指标的关联规则中。当对软件指标的故障进行预测时,在预测结果中还可以显示出所述故障指标将要发生的预计时间。
具体的,计算规则M→A的平均时间间隔meanElaps,实现思路为统计每个桶中告警指标发生时刻与故障指标A发生时刻的时间间隔,遍历所有分桶后组成一个时间间隔列表,从而可求出M→A的平均时间间隔meanElaps,类似的可求以下目标:
计算规则M→A总时间间隔toalElaps;
计算规则M→A最大时间间隔maxElaps;
计算规则M→A最小时间间隔minElaps;
计算规则M→A中位数时间间隔medianElaps;
将告警指标M与故障指标A的关联关系中的支持度、置信度、提升度,以及总时间间隔、最大时间间隔、最小时间间隔、中位数时间间隔进行组装,组成规则列表,以使得后台依据故障预测算法服务给出的规则列表,应用于***故障预测,预测可能发生的故障以及对应的时间间隔和可信度,有效性等。
本实施例中,通过计算目标告警指标与故障指标的发生时间的间隔,并将时间间隔加入到关联规则中,可以实现对故障指标发生时刻的预测,使得技术人员更清楚了解故障指标的发生情况,及时对故障进行修复,提高了故障修复效率。
进一步地,在上述实施例的基础上,根据本发明提供的软件实例故障的预测方法,所述对所述软件实例的故障进行预测之后,包括:
若预测到所述软件实例将发生故障,确定所述软件实例故障的故障类型;
根据所述故障类型,对所述软件实例的告警指标的实时数据进行标记;
根据所述标记,将所述告警指标的实时数据与所述预测结果存储至关系型数据库,以作为展示所述软件实例故障的预测结果的数据来源。
通过故障预测模型,预测到软件实例的故障之后,得到预测结果,其中预测结果中包含了故障的类型;不同的故障具有不同的类型,为不同类型的故障所对应的实时数据进行标记,根据标记将实时数据和针对该实时数据进行预测得到的预测结果存储至关系型数据库中,从而建立实时数据与预测结果的关联关系。当通过展示界面向技术人员展示预测结果时,通过数据库获取到实时数据及其预测结果,可以向技术人员完整的展示预测结果的来源。
本实施例中,通过对实时数据进行标记,并将实时数据和预测结果存储至关系型数据库中,可以为预测结果的展示提供数据来源,向技术人员完整的展示预测结果,使得技术人员获取到更充分的预测内容,更快的对故障进行处理。
进一步地,在通过Apriori算法,生成故障预测模型时,还包括:
基于restapi服务,将历史数据以字符串形式传输至Apriori算法中;对历史数据的格式进行转化,以使得历史数据的格式适用于Apriori算法。
在获取到大量的历史数据之后,需要将历史数据输入到Apriori算法后台,以对历史数据进行处理。
本发明实施例中,开发基于sanic框架的restapi服务,可以标准化历史指标数据输入和结果输出流程,将实例指标的历史样本数据以字符串的方式传递给算法服务后台,以降低传输成本和提升性能,后台对历史数据进行解析和预处理以及转换等基础操作后,送入标准算法方法进行模型训练得到相应算法的模型。其中,对历史数据进行解析、预处理以及转换等操作后,可以将以字符串传输到算法后台的历史数据,转换为Apriori算法能够识别的数据格式,从而完成对历史数据的处理。
通过restapi服务,将所述历史数据以字符串形式传输至Apriori算法中,并对历史数据的格式进行转化,可以降低数据的传输成本,并提升算法的性能,加快故障预测模型的生成。
进一步地,在对所述软件实例的故障进行预测之后,还需要展示软件实例故障的预测结果;其中,所述预测结果包括故障类型及所述故障的发生概率(即置信度)。
通过故障预测模型预测出软件实例将发生故障之后,需要将预测结果向技术人员进行展示。具体的,在对软件实例的预测结果中,可以包括将要发生的故障的类型以及预测的故障发生的时间,以及故障发生时可能存在的故障点等。通过将预测数据展示出来,可以提醒技术人员提前对软件实例的故障进行应对,从而保证软件实例的正常运行。
图2为本发明另一实施例提供的一种基于Apriori算法实现软件实例指标的故障预测方法的流程示意图。参见图2,具体的,该基于Apriori算法实现软件实例指标的故障预测方法包括:
步骤201:通过监控设备,监控指标最近一个月的数据,即通过用户已有的监控设备或者是其他的监控类的产品,采集指标进一个月的监控数据;
步骤202:根据用户需要检查的范围,通过定时任务实时从监控数据库中查询软件实例调用链关系,查询实例及其调用实例之间的实例指标数据,供算法调用;
步骤203:开发基于sanic框架的restapi服务,标准化历史指标数据输入和结果输出流程,将实例指标的历史告警样本数据以字符串的方式传递给算法服务后台,以降低传输成本和提升性能,后台对历史数据进行解析和预处理以及转换等基础操作后,传递给基于Apriori算法思路的故障预测方法,该方案选择的技术栈是python,它能够快速统计告警指标与故障指标之间的关联关系指标以及原因告警导致结果故障的各个维度的时间长度等;
步骤204:该方案的基本实现思路是基于历史告警数据集以及时间分片单位,统计唯一的故障告警集合,针对每一个故障G,截取该故障发生时刻前一个月的历史告警数据表A以及前1小时的唯一告警指标集合B,通过分析集合B与故障告警G之间的关联关系得到导致故障G发生的前序告警指标以及相应的前序告警指标导致结果故障指标发生的时间间隔、发生的概率等数据的结果规则集合C,通过遍历所有故障指标从而得到所有故障指标的结果规则集合C;
步骤205:根据预测范围下的业务***,采集对应的历史业务告警数据;
步骤206:根据步骤205的告警数据,根据检测范围关键字,匹配历史中为异常的告警数据,如果检测结果为异常,将数据发送给AI(即故障预测模型)进行检测;
步骤207:根据AI预测的故障结果,对当前数据进行打标处理,然后将计算指标和计算结果存储到关系型数据库,用以作为展示界面的数据来源。
具体的,步骤204包括:
步骤2041:接收基于restful API传送的字符串数据,将字符串json反序列化得到数据字典dict,再将dict中的历史告警列表转化为python的dataframe的格式,历史告警列表中每一项为Python的dict字典,每个dict中包含有告警时间eventtime、告警指标名item、告警实例id、告警类型关键字、是否为故障等字段。
步骤2042:采集***最近N年的历史告警,依据dict中的时间切片单位maxInternalMs对历史告警dataframe进行按照时间顺序的分桶,统计整个历史告警数据表dataframe中的全部故障指标,进行去重后得到唯一的故障指标集合GuZhangList。
步骤2043:遍历故障指标集合GuZhangList每个故障指标A的情况下,基于时间得到整个告警数据表中第一次发生该故障A的时刻Atime,基于Atime往前截取1小时的历史告警数据表dataframe中的全部的告警指标,去重后得到唯一的告警指标集合useFaultList,进行去重后得到唯一的告警指标集合useFaultList,该操作的基本原理是认为当前时刻故障A的发生所定位的时间范围为一小时;基于Atime往前截取30天的历史告警数据表dataframe中的告警数据df-30,并按照原始dict中的时间切片单位maxInternalMs对该历史告警df-30按照时间顺序分桶buketList,紧接着遍历每个分桶buket,统计该buketList桶的总个数D,唯一告警指标M在桶buketList中出现的桶的个数cntM,以及唯一告警指标M与故障告警A同时出现在同一个桶bucket的出现桶的个数cntMA,以及A在该buketList出现的桶的个数cntA。
步骤2044:依据Apriori算法的核心思想:
支持度:关联规则A→B的支持度support=P(AB),指的是事件A和事件B同时发生的概率,即Support(A→B)=P(AB);
置信度:confidence=P(B|A)=P(AB)/P(A),指的是发生事件A的基础上发生事件B的概率;
提升度:lift=confidence(A→B)/P(B)=P(AB)/P(A)P(B),指的是事件A导致事件B发生的概率是否真正意义上对事件B的发生起到促进作用,只要lift大于1,都可以认为该规则A→B是强有效规则。
可以得到告警指标M→故障指标A,此处记为规则M→A,
套入公式可得P(M)=cntM/D,P(A)=cntA/D,P(MA)=cntMA/D;
计算规则M→A平均时间间隔meanElaps,实现思路为统计每个桶中告警指标发生时刻与故障指标A发生时刻的时间间隔,遍历所有分桶后组成一个时间间隔列表,从而可求出M→A的平均时间间隔meanElaps,类似的可求以下目标:
计算规则M→A总时间间隔toalElaps;
计算规则M→A最大时间间隔maxElaps;
计算规则M→A最小时间间隔minElaps;
计算规则M→A中位数时间间隔medianElaps;
将上述步骤中的衡量规则M→A的各个属性值进行组装,最终返回给后台的data结果为:{
}组成的规则列表。
步骤2045:后台依据故障预测算法服务给出的规则列表,应用于***故障预测,预测可能发生的故障以及对应的时间间隔和可信度,有效性等。
本方案采用统计学概率模型Apriori算法的思想进行故障预测,先采集历史告警指标数据,加入故障识别关键字定位出故障告警,然后基于Apriori算法思想计算告警指标与故障告警之间的时间关联度,即基于时间分段的关联分析,从而得出告警指标与故障告警之间的关联关系指标,如告警指标引起故障发生的置信度、提升度、支持度,以及影响时间范围;告警指标引起故障发生的平均最小时间间隔、平均最大时间间隔、平均时间间隔等。该方案不仅能够省去大量人工标注成本,还能较为准确的预测将来可能发生的故障类型,并给出‘将来’具体的时间范围,即上述提到的告警指标引起故障发生的平均最小时间间隔、平均最大时间间隔、平均时间间隔等。
因此,本发明实施例用以解决以下问题:
通过基于Apriori算法思想,分析历史告警与故障的关联关系,构建故障预测模型服务,统计出告警指标与故障告警之间的关联度各项指标,依据各项的过滤阈值过滤去可靠的指标因果规则,从而实现故障预测。
支持累积性指标故障预测如cpu使用率、jvm内存溢出、磁盘使用率等累积性指标的故障,通过基于Apriori算法思想的故障预测模型服务,预测出未来某一个时间段可能发生的故障类型。给出预警信息。
用户可以按照不同业务视图的不同维度创建检测范围。通过采集检测范围下的所有实例的业务告警数据。通过业务***发出来的业务告警,预测出可能存在的其他故障。
无需人工进行标注,全自动化处理不需要人工干预,定期训练迭代更新故障预测模型,即更新指标的因果规则以及其对应的关联关系指标(如置信度、提升度、支持度)和与影响时长相关的指标(如告警指标引起故障发生的平均最小时间间隔、平均最大时间间隔、平均时间间隔等),实时预测检测范围下的故障。
下面对本发明提供的软件实例故障的预测装置进行描述,下文描述的软件实例故障的预测装置与上文描述的软件实例故障的预测方法可相互对应参照。
图3为本发明提供的软件实例故障的预测装置的结构示意图,参见图3,该软件实例故障的预测装置包括:
获取单元301,用于获取软件实例的告警指标的实时数据;
预测单元302,用于根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;
其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的。
本实施例提供的软件实例故障的预测装置适用于上述各实施例提供的软件实例故障的预测方法,在此不再赘述。
具体的,根据本发明提供的软件实例故障的预测装置,所述根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测,包括:
比对所述实时数据与关键词集,确定所述告警指标是否为异常告警指标;其中,所述关键词集包括从所述软件实例的异常历史告警指标中提取出的关键词;
若所述告警指标为异常告警指标,将所述告警指标的实时数据输入所述故障预测模型,对所述软件实例的故障进行预测。
根据本发明提供的软件实例故障的预测装置,所述将所述告警指标的实时数据输入所述故障预测模型,对所述软件实例的故障进行预测之前,包括:
确定所述软件实例的历史数据中任一故障指标的发生时刻;
获取所述发生时刻前的第一预设时间段内的前序告警指标,获取所述发生时刻前的第二预设时间段内的历史告警指标;其中,第二预设时间段大于第一预设时间段;
通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,生成所述故障指标与任一前序告警指标的关联规则;
根据所述关联规则,建立故障预测模型。
根据本发明提供的软件实例故障的预测装置,所述通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,生成所述故障指标与任一前序告警指标的关联规则,包括:
通过所述第一预设时间段内的前序告警指标,获取与所述故障指标相关联的目标告警指标;
通过时间切片操作,对所述第二预设时间段内的历史告警指标进行分桶,生成历史告警指标桶;
根据历史告警指标桶,基于Apriori算法,计算所述故障指标与任一目标告警指标的关联度;其中,所述关联度包括支持度、置信度、提升度;
根据所述关联度,生成所述故障指标与任一目标告警指标的关联规则。
根据本发明提供的软件实例故障的预测装置,所述获取与所述故障指标具有相关性的目标告警指标,包括:
对所述前序告警指标进行去重,生成前序告警指标集合;
将所述前序告警指标集合中的任一前序告警指标,作为与所述故障指标相关联的目标告警指标。
根据本发明提供的软件实例故障的预测装置,所述生成所述故障指标与任一前序告警指标的关联规则,还包括:
获取任一目标告警指标的发生时刻与所述故障指标发生时刻的时间间隔;其中,所述时间间隔包括:最大时间间隔、最小时间间隔、中位数时间间隔;
将所述时间间隔加入所述关联规则中,以对所述软件实例的故障的发生时刻进行预测。
根据本发明提供的软件实例故障的预测装置,所述对所述软件实例的故障进行预测之后,包括:
若预测到所述软件实例将发生故障,确定所述软件实例故障的故障类型;
根据所述故障类型,对所述软件实例的告警指标的实时数据进行标记;
根据所述标记,将所述告警指标的实时数据与所述预测结果存储至关系型数据库,以作为展示所述软件实例故障的预测结果的数据来源。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行软件实例故障的预测方法,该方法包括:获取软件实例的告警指标的实时数据;根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的软件实例故障的预测方法,该方法包括:获取软件实例的告警指标的实时数据;根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的软件实例故障的预测方法,该方法包括:获取软件实例的告警指标的实时数据;根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种软件实例故障的预测方法,其特征在于,包括:
获取软件实例的告警指标的实时数据;
根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;
其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的;
将所述告警指标的实时数据输入所述故障预测模型,所述对所述软件实例的故障进行预测之前,包括:
确定所述软件实例的历史数据中任一故障指标的发生时刻;
获取所述发生时刻前的第一预设时间段内的前序告警指标,获取所述发生时刻前的第二预设时间段内的历史告警指标;其中,第二预设时间段大于第一预设时间段;
通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,确定所述前序告警指标与所述故障指标的关联度,并根据所述关联度生成所述故障指标与任一前序告警指标的关联规则;
根据所述关联规则,建立故障预测模型;
所述通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,确定所述前序告警指标与所述故障指标的关联度,并根据所述关联度生成所述故障指标与任一前序告警指标的关联规则,包括:
通过所述第一预设时间段内的前序告警指标,获取与所述故障指标相关联的目标告警指标;
通过时间切片操作,对所述第二预设时间段内的历史告警指标进行分桶,生成历史告警指标桶;
根据历史告警指标桶,基于Apriori算法,计算所述故障指标与任一目标告警指标的关联度;其中,所述关联度包括支持度、置信度、提升度;
根据所述关联度,生成所述故障指标与任一目标告警指标的关联规则;
所述获取与所述故障指标相关联的目标告警指标,包括:
对所述前序告警指标进行去重,生成前序告警指标集合;
将所述前序告警指标集合中的任一前序告警指标,作为与所述故障指标相关联的目标告警指标。
2.根据权利要求1所述的软件实例故障的预测方法,其特征在于,所述根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测,包括:
比对所述实时数据与关键词集,确定所述告警指标是否为异常告警指标;其中,所述关键词集包括从所述软件实例的异常历史告警指标中提取出的关键词;
若所述告警指标为异常告警指标,将所述告警指标的实时数据输入所述故障预测模型,对所述软件实例的故障进行预测。
3.根据权利要求1所述的软件实例故障的预测方法,其特征在于,所述生成所述故障指标与任一前序告警指标的关联规则,还包括:
获取任一目标告警指标的发生时刻与所述故障指标的发生时刻的时间间隔;其中,所述时间间隔包括:最大时间间隔、最小时间间隔、中位数时间间隔;
将所述时间间隔加入所述关联规则中,以对所述软件实例的故障的发生时刻进行预测。
4.根据权利要求1所述的软件实例故障的预测方法,其特征在于,所述对所述软件实例的故障进行预测之后,包括:
若预测到所述软件实例将发生故障,确定所述软件实例故障的故障类型;
根据所述故障类型,对所述软件实例的告警指标的实时数据进行标记;
根据所述标记,将所述告警指标的实时数据与预测结果存储至关系型数据库,以作为展示所述软件实例故障的所述预测结果的数据来源。
5.一种软件实例故障的预测装置,其特征在于,包括:
获取单元,用于获取软件实例的告警指标的实时数据;
预测单元,用于根据所述告警指标的实时数据,通过故障预测模型,对所述软件实例的故障进行预测;
其中,所述故障预测模型是基于软件实例的故障指标以及与所述故障指标相关联的告警指标训练得到的;
将所述告警指标的实时数据输入所述故障预测模型,所述对所述软件实例的故障进行预测之前,包括:
确定所述软件实例的历史数据中任一故障指标的发生时刻;
获取所述发生时刻前的第一预设时间段内的前序告警指标,获取所述发生时刻前的第二预设时间段内的历史告警指标;其中,第二预设时间段大于第一预设时间段;
通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,确定所述前序告警指标与所述故障指标的关联度,并根据所述关联度生成所述故障指标与任一前序告警指标的关联规则;
根据所述关联规则,建立故障预测模型;
所述通过所述第一预设时间段内的前序告警指标与所述第二预设时间段内的历史告警指标,确定所述前序告警指标与所述故障指标的关联度,并根据所述关联度生成所述故障指标与任一前序告警指标的关联规则,包括:
通过所述第一预设时间段内的前序告警指标,获取与所述故障指标相关联的目标告警指标;
通过时间切片操作,对所述第二预设时间段内的历史告警指标进行分桶,生成历史告警指标桶;
根据历史告警指标桶,基于Apriori算法,计算所述故障指标与任一目标告警指标的关联度;其中,所述关联度包括支持度、置信度、提升度;
根据所述关联度,生成所述故障指标与任一目标告警指标的关联规则;
所述获取与所述故障指标相关联的目标告警指标,包括:
对所述前序告警指标进行去重,生成前序告警指标集合;
将所述前序告警指标集合中的任一前序告警指标,作为与所述故障指标相关联的目标告警指标。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述软件实例故障的预测方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述软件实例故障的预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860029.7A CN113656287B (zh) | 2021-07-28 | 2021-07-28 | 软件实例故障的预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860029.7A CN113656287B (zh) | 2021-07-28 | 2021-07-28 | 软件实例故障的预测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656287A CN113656287A (zh) | 2021-11-16 |
CN113656287B true CN113656287B (zh) | 2024-06-04 |
Family
ID=78490830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860029.7A Active CN113656287B (zh) | 2021-07-28 | 2021-07-28 | 软件实例故障的预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656287B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114637656B (zh) * | 2022-05-13 | 2022-09-20 | 飞狐信息技术(天津)有限公司 | 基于Redis的监控方法、装置、存储介质和设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918629A (zh) * | 2016-10-11 | 2018-04-17 | 北京神州泰岳软件股份有限公司 | 一种告警故障的关联方法和装置 |
CN108304941A (zh) * | 2017-12-18 | 2018-07-20 | 中国软件与技术服务股份有限公司 | 一种基于机器学习的故障预测方法 |
CN109358602A (zh) * | 2018-10-23 | 2019-02-19 | 山东中创软件商用中间件股份有限公司 | 一种故障分析方法、装置及相关设备 |
CN110166297A (zh) * | 2019-05-22 | 2019-08-23 | 平安信托有限责任公司 | 运维方法、***、设备及计算机可读存储介质 |
CN110300011A (zh) * | 2018-03-23 | 2019-10-01 | ***通信集团有限公司 | 一种告警根因定位方法、装置和计算机可读存储介质 |
CN110474799A (zh) * | 2019-07-31 | 2019-11-19 | 中国联合网络通信集团有限公司 | 故障定位方法及装置 |
CN110503247A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 电信网络告警预测方法及*** |
CN110851342A (zh) * | 2019-11-08 | 2020-02-28 | 中国工商银行股份有限公司 | 故障预测方法、装置、计算设备以及计算机可读存储介质 |
CN112446511A (zh) * | 2020-11-20 | 2021-03-05 | 中国建设银行股份有限公司 | 一种故障处置方法、装置、介质及设备 |
CN112637132A (zh) * | 2020-12-01 | 2021-04-09 | 北京邮电大学 | 一种网络异常检测方法、装置、电子设备和存储介质 |
-
2021
- 2021-07-28 CN CN202110860029.7A patent/CN113656287B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918629A (zh) * | 2016-10-11 | 2018-04-17 | 北京神州泰岳软件股份有限公司 | 一种告警故障的关联方法和装置 |
CN108304941A (zh) * | 2017-12-18 | 2018-07-20 | 中国软件与技术服务股份有限公司 | 一种基于机器学习的故障预测方法 |
CN110300011A (zh) * | 2018-03-23 | 2019-10-01 | ***通信集团有限公司 | 一种告警根因定位方法、装置和计算机可读存储介质 |
CN109358602A (zh) * | 2018-10-23 | 2019-02-19 | 山东中创软件商用中间件股份有限公司 | 一种故障分析方法、装置及相关设备 |
CN110166297A (zh) * | 2019-05-22 | 2019-08-23 | 平安信托有限责任公司 | 运维方法、***、设备及计算机可读存储介质 |
CN110474799A (zh) * | 2019-07-31 | 2019-11-19 | 中国联合网络通信集团有限公司 | 故障定位方法及装置 |
CN110503247A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 电信网络告警预测方法及*** |
CN110851342A (zh) * | 2019-11-08 | 2020-02-28 | 中国工商银行股份有限公司 | 故障预测方法、装置、计算设备以及计算机可读存储介质 |
CN112446511A (zh) * | 2020-11-20 | 2021-03-05 | 中国建设银行股份有限公司 | 一种故障处置方法、装置、介质及设备 |
CN112637132A (zh) * | 2020-12-01 | 2021-04-09 | 北京邮电大学 | 一种网络异常检测方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113656287A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113282461B (zh) | 传输网的告警识别方法和装置 | |
EP3105644B1 (en) | Method of identifying anomalies | |
CN116450399B (zh) | 微服务***故障诊断及根因定位方法 | |
CN114465874B (zh) | 故障预测方法、装置、电子设备与存储介质 | |
CN109992484B (zh) | 一种网络告警相关性分析方法、装置和介质 | |
CN112491611A (zh) | 故障定位***、方法、装置、电子设备和计算机可读介质 | |
CN113037575B (zh) | 网元异常的根因定位方法、装置、电子设备及存储介质 | |
CN116680113B (zh) | 一种设备检测实施控制*** | |
CN115858794B (zh) | 用于网络运行安全监测的异常日志数据识别方法 | |
CN115392812B (zh) | 一种异常根因定位方法、装置、设备及介质 | |
CN113656287B (zh) | 软件实例故障的预测方法、装置、电子设备及存储介质 | |
Fullen et al. | Semi-supervised case-based reasoning approach to alarm flood analysis | |
CN113535458B (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN115600695A (zh) | 一种计量设备的故障诊断方法 | |
CN113825162B (zh) | 电信网络故障原因定位方法及装置 | |
CN114416417A (zh) | ***异常监测方法、装置、设备及存储介质 | |
CN114881112A (zh) | 一种***异常检测方法、装置、设备及介质 | |
US11243937B2 (en) | Log analysis apparatus, log analysis method, and log analysis program | |
CN114896096A (zh) | 基于图像识别算法的数据中心设备故障预测***及方法 | |
CN114564391A (zh) | 确定测试用例的方法、装置、存储介质及电子设备 | |
CN113778875A (zh) | 一种***测试缺陷分类方法、装置、设备及存储介质 | |
RU2777950C1 (ru) | Обнаружение нештатных ситуаций для прогнозного технического обслуживания и определения конечных результатов и технологических процессов на основании качества данных | |
Hu et al. | Research on application of equipment fault diagnosis technology based on FTA | |
CN113037550B (zh) | 一种服务故障监控方法、***及计算机可读存储介质 | |
CN115640543A (zh) | 一种基于机器学习算法的故障发生时间精准定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |