CN113010389B - 一种训练方法、故障预测方法、相关装置及设备 - Google Patents

一种训练方法、故障预测方法、相关装置及设备 Download PDF

Info

Publication number
CN113010389B
CN113010389B CN201911325501.6A CN201911325501A CN113010389B CN 113010389 B CN113010389 B CN 113010389B CN 201911325501 A CN201911325501 A CN 201911325501A CN 113010389 B CN113010389 B CN 113010389B
Authority
CN
China
Prior art keywords
fault
service
index
target
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911325501.6A
Other languages
English (en)
Other versions
CN113010389A (zh
Inventor
殷征
谭宇
邱能俊
张纪宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911325501.6A priority Critical patent/CN113010389B/zh
Publication of CN113010389A publication Critical patent/CN113010389A/zh
Application granted granted Critical
Publication of CN113010389B publication Critical patent/CN113010389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种训练方法、故障预测方法、相关装置及设备,其中训练方法包括:选择待模拟的目标业务及目标故障;调用所述目标业务对应的业务模板,模拟所述目标业务,以及调用所述目标故障对应的故障模板,模拟所述目标故障;在模拟所述目标故障的过程中,对目标业务的指标数据进行标注,所述指标数据用于反映所述目标业务的目标故障开始发生;根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。本发明实施例能够训练预测业务故障的模型,为实现业务的故障预测提供了可能。

Description

一种训练方法、故障预测方法、相关装置及设备
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种训练方法、故障预测方法、相关装置及设备。
背景技术
目前线上服务所具有的业务越来越多,例如一个线上的购物服务往往具有购物车业务,用户购买业务,商家售卖业务,付款业务等众多业务,这些业务一般由业务***管控,面对业务***管控的众多业务,保障业务的顺利运行,从而提升服务稳定性(即持续、稳定提供服务的能力)尤为必要。
保障业务顺利运行的基础之一是实现业务的故障预测,然而,目前的技术性方案主要是在业务发生故障之时,进行业务的故障检测,并没有可用的技术性方案能够在业务可能发生故障之前,实现故障预测;因此,如何训练能够预测业务故障的模型,成为了本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供一种训练方法、故障预测方法、相关装置及设备,以训练能够预测业务故障的模型,并基于所训练的模型,实现业务的故障预测。
为实现上述目的,本发明实施例提供如下技术方案:
一种训练方法,包括:
选择待模拟的目标业务及目标故障;
调用所述目标业务对应的业务模板,模拟所述目标业务,以及调用所述目标故障对应的故障模板,模拟所述目标故障;
在模拟所述目标故障的过程中,对目标业务的指标数据进行标注,所述指标数据用于反映所述目标业务的目标故障开始发生;
根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。
本发明实施例还提供一种故障预测方法,包括:
获取业务的实时指标数据;
根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合;所述指标基线为反映指标异常的数据限值;
调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型;所述故障预测模型基于模拟所述业务的故障的过程中,所标注的指标数据训练得到,所标注的指标数据用于反映所述业务的故障开始发生。
本发明实施例还提供一种训练装置,包括:
选择器,用于选择待模拟的目标业务及目标故障;
模拟器,用于调用所述目标业务对应的业务模板,模拟所述目标业务,以及调用所述目标故障对应的故障模板,模拟所述目标故障;
标注器,用于在模拟所述目标故障的过程中,对目标业务的指标数据进行标注,所述指标数据用于反映所述目标业务的目标故障开始发生;
训练器,用于根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。
本发明实施例还提供一种故障预测装置,包括:
实时数据获取模块,用于获取业务的实时指标数据;
异常指标确定模块,用于根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合;所述指标基线为反映指标异常的数据限值;
故障类型预测模块,用于调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型;所述故障预测模型基于模拟所述业务的故障的过程中,所标注的指标数据训练得到,所标注的指标数据用于反映所述业务的故障开始发生。
本发明实施例还提供一种第一服务器平台,包括:至少一个存储器和至少一个处理器,所述存储器存储程序,所述处理器调用所述程序,以执行上述所述的训练方法。
本发明实施例还提供一种第二服务器平台,包括:至少一个存储器和至少一个处理器,所述存储器存储程序,所述处理器调用所述程序,以执行上述所述的故障预测方法。
本发明实施例还提供一种存储介质,所述存储介质存储执行上述所述的训练方法的程序,或者,所述存储介质存储执行上述所述的故障预测方法的程序。
本发明实施例所提供的训练方法可通过目标业务的业务模板和目标故障的故障模板,在目标业务下模拟目标故障;从而在模拟所述目标故障的过程中,本发明实施例可对目标业务的指标数据进行标注,所标注的指标数据用于反映所述目标业务的目标故障开始发生;进而,本发明实施例可根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。
模拟所述目标故障的过程可以认为是目标故障开始模拟至目标故障发生的过程,由于在目标业务的目标故障开始模拟时,目标故障并没有真正发生,但目标故障朝着发生的方向发展,因此在模拟所述目标故障的过程中,本发明实施例对目标业务的指标数据进行标注,则所标注的指标数据可以反映所述目标业务的目标故障开始发生,从而基于所标注的指标数据,训练目标业务在目标故障相应的故障预测模型,可使得训练后的故障预测模型能够在目标业务的目标故障发生之前,基于目标业务的指标数据情况,实现目标故障的***。也就是说,本发明实施例提供的训练方法,能够训练出预测业务故障的模型,为实现业务的故障预测提供了可能。
进一步,本发明实施例在模拟目标业务的目标故障的过程中,对用于反映目标业务的目标故障开始发生的指标数据进行标注,可以实现所述指标数据的自动化标注,提升反映目标业务的目标故障开始发生的正样本的数量,减少模型训练的正、负样本的比例悬殊情况;进一步,基于模拟目标业务的目标故障,得到反映目标业务的目标故障开始发生的指标数据,则所得到指标数据是建立在目标业务的目标故障开始发生的情况下,可以使得所得到指标数据具有较高的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的训练方法的阶段示例图;
图2为本发明实施例提供的训练方法的流程图;
图3为本发明实施例提供的预测指标基线的流程图;
图4为本发明实施例提供的故障预测方法的流程图;
图5为本发明实施例提供的确定异常指标的传播关系的流程图;
图6为传播图的示例图;
图7为本发明实施例的方案示例图;
图8为本发明实施例提供的训练装置的框图;
图9为本发明实施例提供的训练装置的另一框图;
图10为本发明实施例提供的训练装置的再一框图;
图11为本发明实施例提供的训练装置的又一框图;
图12为本发明实施例提供的训练装置的又另一框图;
图13为第一服务器平台的硬件框图;
图14为本发明实施例提供的故障预测装置的框图;
图15为本发明实施例提供的故障预测装置的另一框图。
具体实施方式
随着业务***越来越庞大,故障检测已经无法满足业务的运维要求,即故障检测并无法在业务可能发生故障之前,及时的预测业务的故障类型,而如果不进行故障的***,只是在故障发生之时进行故障检测,那么运维极有可能由于不能及时处理故障,导致业务损失;同时,目前业务的故障检测是基于数据库中记录的业务的指标数据,在业务发生故障之时,检测业务的故障类型,而随着业务***越来越庞大,业务的指标类型越来越多,目前已很难通过一个或若干个指标来实现准确的故障检测。
基于此,本发明实施例提供一种故障预测模型的训练方法,以提供能够对业务进行故障预测的模型,为实现业务的故障预测提供基础。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的训练方法的阶段示例图,如图1所示,本发明示例提供的训练方法可以由用户和第一服务器平台协同进行;第一服务器平台可以是由多个服务器组成的服务器群组平台,也可以是由单个服务器和数据库联合的服务器平台;在一种可选实现中,第一服务器平台可以是离线平台,即本发明实施例可基于离线方式,训练故障预测模型;
如图1所示,训练故障预测模型的过程分为四个阶段:选择业务及故障,加载业务模板及故障模板,故障模拟,和,训练模型导入模型引擎。
基于图1所示训练方法的阶段示例,图2示出了本发明实施例提供的训练方法的一种可选流程,参照图2,该流程可以包括:
步骤S10、选择待模拟的目标业务及目标故障。
本发明实施例可提供多种可模拟的业务以及可模拟的故障,用户可根据需要从多种可模拟的业务中选择待模拟的目标业务,以及从多种可模拟的故障中选择待模拟的目标故障;
示例的,本发明实施例可提供购物车业务,用户购买业务,商家售卖业务,付款业务等多种可模拟的业务,以及磁盘IO(输入输出)满负荷,CPU满负荷,网络故障等多种可模拟的故障;用户可根据需要从这些可模拟的业务中选择待模拟的目标业务,以及从这些可模拟的故障中选择待模拟的目标故障。
目标业务可以是指任一业务,目标故障可以是指任一故障,具体可由用户根据需要选定。
步骤S11、调用所述目标业务对应的业务模板,模拟所述目标业务,以及调用所述目标故障对应的故障模板,模拟所述目标故障。
本发明实施例可为各种可模拟的业务定义业务模板,以用于模拟相应的业务,业务模板可记录业务运行的各种信息,从而通过业务模板记录的业务运行的信息,实现相应业务的模拟;以购买业务为例,本发明实施例可定义购买业务对应的业务模板,从而通过该业务模板记录的购买业务的过程信息,模拟购买业务的过程;
相应的,在用户选择待模拟的目标业务后,本发明实施例可从预先设定的各可模拟的业务对应的业务模板中,调用目标业务对应的业务模板,从而基于所调用的业务模板记录的目标业务运行的信息,模拟目标业务。
同时,本发明实施例可为各种可模拟的故障定义故障模板,以用于模拟相应的故障,故障模板可记录故障运行的各种信息,从而通过故障模板记录的故障运行的信息,实现相应故障的模拟;可选的,基于用户所关注的指标类型,用户也可以自定义故障模板;
以CPU满负荷故障为例,本发明实施例可定义CPU满负荷对应的故障模板,从而通过该故障模板记录CPU满负荷的运行信息(如运行密集型的程序,以占满CPU负荷等),模拟CPU满负荷故障;
相应的,在用户选择待模拟的目标故障后,本发明实施例可从预先设定的各可模拟的故障对应的故障模板中,调用目标故障对应的故障模板,从而基于所调用的故障模板记录的目标故障运行的信息,模拟目标故障;模拟故障可以认为是模拟故障的发生过程,即从故障发生之前开始模拟,直至发生故障的过程。
可选的,本发明实施例可利用压测***,基于目标故障对应的故障模板,来模拟故障;压测***是进行压力测试的***,其可提供基本的服务质量保证测试,是软件测试工作的一部分,通常要进行软件压力测试的资源包括内部内存、CPU可用性、磁盘空间和网络带宽等。
基于步骤S11,本发明实施例可在模拟目标业务的场景下,进行目标故障的模拟,即在目标业务的环境下,模拟目标故障。
可选的,进一步的,模拟目标业务的目标故障除基于目标业务对应的业务模板,以及目标故障对应的故障模板实现外,本发明实施例还可基于目标业务实际运行时出现的目标故障的数据,进行目标故障的模拟;示例的,本发明实施例可自动采集目标业务出现目标故障的数据,并反馈给压测***,从而由压测***进行相应的故障模拟。
步骤S12、在模拟所述目标故障的过程中,对目标业务的指标数据进行标注,所述指标数据用于反映所述目标业务的目标故障开始发生。
模拟所述目标故障的过程可以认为是模拟所述目标故障发生的过程,即所述目标故障开始模拟至所述目标故障发生的过程;在目标业务的目标故障开始模拟至目标故障发生的过程中,本发明实施例可对目标业务的指标数据进行标注,例如对目标业务的CPU利用率、内存利用率、RT(响应实际时间)、QPS(Query Per Second,每秒查询率)、TPS(Transaction per Second,每秒事务处理量)等指标的数据进行标注,当然指标的类型可根据实际情况设定,本发明实施例并不局限。
在模拟所述目标故障的过程中,目标业务的指标数据将朝着反映目标故障发生的方向变化,即在目标业务的目标故障开始模拟至目标故障发生的过程中,目标业务的指标数据将朝着反映目标故障发生的方向变化;这个过程中,本发明实施例可监控目标业务的指标数据的变化,并对这些指标数据进行标注,从而将所标注的指标数据作为是反映目标业务的目标故障开始发生的指标数据,即所标注的指标数据可以认为是目标业务的目标故障正式发生之前的指标数据。
也就是说,在目标业务的目标故障开始模拟时,目标故障并没有真正发生,但目标故障朝着发生的方向发展,在目标故障开始模拟至目标故障发生的过程中,对目标业务的指标数据进行标注,则后续可基于所标注的指标数据,训练目标业务在目标故障相应的故障预测模型,从而使得训练后的故障预测模型能在目标业务的目标故障发生之前,基于目标业务的指标数据情况,实现目标故障的***。简单来说,就是将目标故障开始模拟,但目标故障发生之前的目标业务的指标数据进行标注,并进行相应故障预测模型的训练,则在目标业务的目标故障发生之前,训练的故障预测模型即可根据目标业务的指标数据情况,***出后续是否会发生目标故障。
可选的,指标数据可以是时序序列数据,如指标数据可以是按时间顺序记录的各指标的指标值。
步骤S13、根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。
标注的指标数据可以用于反映目标业务的目标故障开始发生,则所述指标数据可作为训练相应故障预测模型的训练数据,从而对目标业务在目标故障相应的故障预测模型进行训练,使得训练后的故障预测模型,能够基于所述目标业务发生目标故障之前的指标数据,实现预测目标故障是否发生。
可选的,本发明实施例所标注的指标数据,和目标业务未发生目标故障情况下的指标数据可以相结合,以作为训练目标业务在目标故障相应的故障预测模型的训练数据;可选的,标注的指标数据可以作为训练所述故障预测模型的正样本,目标业务未发生目标故障情况下的指标数据可以作为训练所述故障预测模型的负样本,从而利用正、负样本实现训练所述故障预测模型。
可选的,本发明实施例所标注的指标数据可以经过预处理后,再作为训练所述故障预测模型的训练数据;以指标数据为时序序列数据为例,预处理过程例如:对时序序列数据进行数据清洗,对缺失数值的数据补齐中值,数据标准化处理,数据归一化处理等。
可选的,在训练目标业务在目标故障相应的故障预测模型时,本发明实施例可以使用多种训练方法,例如可以使用随机森林,GDBT(梯度下降树,Gradient BoostingDecision Tree,),XGBoost(eXtreme Gradient Boosting,极端梯度提升),GRU(门控循环单元)等训练方法,当然,也可以利用类似深度学习的训练方法,例如CNN(卷积神经网络),DNN(深度神经网络),LSTM(长短期记忆)等训练方法;
本发明实施例可将多种训练方法进行编排,例如使用grid search(网格搜索)的方式进行编排,从而本发明实施例可根据所标注的指标数据(指标数据可以经过预处理后再用于模型训练),分别使用所编排的各种训练方法,训练故障预测模型,从而得到各种训练方法相应的故障预测模型,进而基于各种训练方法相应的故障预测模型的训练结果,选择最优的故障预测模型,从而得到训练出的目标业务在目标故障相应的故障预测模型;
示例的,以目标故障为CPU满负荷故障为例,本发明实施例可在模拟目标业务的CPU满负载故障的发生过程中,对目标业务的指标数据进行标注,并自动化的使用gridsearch所编排的各种训练方法,基于标注的指标数据,以各种训练方法分别训练故障预测模型;基于训练的各故障预测模型,本发明实施例可确定各故障预测模型的准确率和召回率,最后自动化的选出准确率和召回率最优的故障预测模型,作为训练的目标业务在CPU满负载故障相应的故障预测模型。
基于图1和图2所示训练过程,在用户选择不同的待模拟的业务和待模拟的故障的情况下,本发明实施例可以训练出不同的业务在不同的故障下相应的故障预测模型,从而为实现不同业务的不同故障的***提供基础。
针对各业务的各故障,本发明实施例可基于图2所示流程,得到各业务在各故障下相应的故障预测模型,这些故障预测模型可以导入到模型引擎中进行持久化,模型引擎可以认为是不同业务的不同故障相应的故障预测模型的集合,一个业务的一个故障可对应一个故障预测模型,例如,一个业务的CPU满负载故障在模型引擎中对应有相应的故障预测模型,一个业务的磁盘IO满负荷故障在模型引擎中也对应有相应的故障预测模型。
下面比对现有的故障检测方式,以及本发明实施例提供的训练方案,对本发明实施例提供的训练方案的优势进行说明。
需要说明的是,目前进行的故障检测方式,无法在业务的故障发生之前进行故障预测,同时,故障检测所依赖的学习数据主要通过人工标注,这使得学习数据的标注存在一定的误差,而且由于故障发生的次数远低于正常次数(即例如在多个业务实例中,可能一段时间仅发生少数次数的故障),因此故障发生和故障未发生相应的数据存在极大的比例悬殊(即正、负样本的比例悬殊严重);
基于此,利用本发明实施例提供的方案,可以解决上述提及的问题,具体的,本发明实施例是在故障开始模拟至故障发生的过程中,标注业务的指标数据,因此基于所标注的指标数据训练的故障预测模型,能够在业务的故障发生之前,实现预测故障,而不只是在故障发生之时检测故障;同时,本发明实施例通过模拟故障,从而在模拟故障的发生过程中,对用于反映故障开始发生的指标数据进行标注,可以实现反映故障开始发生的指标数据的自动化标注,提升反映故障开始发生的正样本的数量,减少正、负样本的比例悬殊情况;进一步,基于故障模拟,得到反映故障开始发生的指标数据,则所得到指标数据是建立在故障开始发生的情况下,可以使得所得到指标数据具有较高的准确性。
本发明实施例提供的方案可以在不同的业务场景下,反复模拟各种故障,以得到各业务场景在各种故障下的指标数据,从而训练各业务场景在各种故障下对应的故障预测模型;本发明实施例提供的方案可以至少具有如下优点:正、负样本比例均衡,可以训练出更有鲁棒性的故障预测模型;通过在故障模拟开始时,进行指标数据的自动化标注,而故障模拟开始时实际上并不会马上引起故障,但是自动化标注的指标数据作为训练故障预测模型的训练数据,可以使得故障预测模型具有预测故障的能力,因为在故障真正出现前,故障开始模拟到故障发生过程中的指标数据,可以认为是故障发生前的快照。
基于训练得到的故障预测模型,本发明实施例可以实现业务的故障预测;本发明实施例预测故障的主要思路是:基于业务的实时指标数据,发现其中的异常指标,从而利用业务相应的故障预测模型,预测异常指标相应的故障类型,实现在业务发生故障之前的故障预测。
基于此思路,本发明实施例还可提供预测指标基线的指标预测器,以基于业务的指标基线,从业务的实时指标数据中,预测业务的异常指标;指标基线可以认为是反映指标异常的数据限值。可选的,本发明实施例可通过设置指标预测器,实现对各业务的指标基线的预测,指标预测器可以是程序形式的程序模块,也可以是硬件模块;作为一种可选实现,图3示出了本发明实施例提供的预测指标基线的可选流程,该流程可以由指标预测器实现,指标预测器具体可以在离线的第一服务器平台实现,参照图3,该流程可以包括:
步骤S20、对业务的历史指标数据进行分类,得到周期性历史指标数据和非周期性历史指标数据。
可选的,所述业务可以是任一业务,本发明实施例可基于图3所示流程,对各业务的指标基线进行预测。
本发明实施例可对业务的历史指标数据的数据特征进行分类,从而得到周期性历史指标数据和非周期性历史指标数据;示例的,业务的历史指标数据可以是业务的历史指标时序序列数据,本发明实施例可对历史指标时序序列数据进行特征分类,得到数据特征周期性的历史指标时序序列数据,以及数据特征非周期性的历史指标时序序列数据。
可选的,业务的历史指标数据可以由流处理平台采集后,存储到数据库中,本发明实施例可从数据库中获取业务的历史指标数据。
步骤S21、采用FFT确定所述周期性历史指标数据对应的周期。
FFT(fast fourier transform,快速傅里叶变换)是利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,本发明实施例可对周期性历史指标数据进行FFT变换,确定周期性历史指标数据对应的周期。
步骤S22、基于所述周期,使用STL方法预测所述周期性历史指标数据的指标基线。
STL(Seasonal-Trend decomposition procedure based on Loess,时序序列分解)是以鲁棒局部加权回归作为平滑方法的时间序列分解方法,本发明实施例可使用STL方法,预测周期性历史指标数据的指标基线,从而得到周期性历史指标数据中反映指标异常的数据限值(即周期性历史指标数据的指标基线)。
步骤S23、对于第一部分非周期性历史指标数据,通过孤立森林方法预测第一部分非周期性历史指标数据的指标基线。
非周期性历史指标数据可以分为两部分,包括第一部分非周期性历史指标数据,和第二部分非周期性历史指标数据;第一部分可大于第二部分,例如第一部分为80%,第二部分为20%,当然,此处的具体数值均是一种可选示例。
对于第一部分非周期性历史指标数据,本发明实施例可使用孤立森林方法,预测第一部分非周期性历史指标数据的指标基线。需要说明的是,孤立森林是一种适用于连续数据的无监督异常检测方法,本发明实施例对于第一部分非周期性历史指标数据,可使用孤立森林方法,预测指标基线,从而得到第一部分非周期性历史指标数据中反映指标异常的数据限值(即第一部分非周期性历史指标数据的指标基线)。
可选的,本发明实施例也可对第一部分非周期性历史指标数据进行去噪后,通过孤立森林方法,预测去噪后的第一部分非周期性历史指标数据的指标基线。
步骤S24、对于第二部分非周期性历史指标数据,通过时序序列分解,确定第二部分非周期性历史指标数据中数据变化率与业务或任务的关系,基于所述关系,预测第二部分非周期性历史指标数据的指标基线。
对于第二部分非周期性历史指标数据,本发明实施例可通过时序序列分解,判定数据变化率与业务或任务的关系,从而实现预测第二部分非周期性历史指标数据的指标基线。示例的,例如,第二部分非周期性历史指标数据为第二部分非周期性历史时序序列数据,本发明实施例可分析第二部分非周期性历史时序序列数据中,数据与时间的变化关系,从而得到数据与时间对应的增长下降斜率(所述数据变化率的一种可选表示),从而判定增长下降斜率与第二部分非周期性历史指标数据中业务或任务的关系,基于该关系,实现预测第二部分非周期性历史指标数据的指标基线,从而得到第二部分非周期性历史指标数据中反映指标异常的数据限值(即第二部分非周期性历史指标数据的指标基线)。
可选的,本发明实施例可对第二部分非周期性历史指标数据进行业务数据和任务数据的分离,例如,采用模拟的方式模拟相同业务的不同任务场景,再模拟不同业务的相同任务场景,进而将任务和业务区分出来,由于正常业务变化的大多都是业务指标,而运维任务或者模拟的故障任务变化的指标往往和业务指标不完全相同,因此通过分类方法,可以将业务和任务区分出来。
基于图3所示流程,本发明实施例可将业务的历史指标数据划分为周期性历史指标数据,和非周期性历史指标数据,从而预测出业务的周期性历史指标数据的指标基线,和非周期性历史指标数据的指标基线,实现确定业务的指标基线。
基于本发明实施例提供的预测故障的主要思路,本发明实施例可以对业务的实时数据进行故障预测,从而在故障发生之前,实现故障的提早预测;可选的,图4示出了本发明实施例提供的故障预测方法的一种可选流程,该流程可以在线执行,具体可由在线的第二服务器平台实现,第二服务器平台可以是与第一服务器平台不同的在线服务器平台;参照图4,该流程可以包括:
步骤S30、获取业务的实时指标数据。
业务的实时指标数据可以是业务运行过程中实时的指标数据,包含业务运行实时对应的CPU利用率、内存利用率、RT(响应实际时间)、QPS(Query Per Second,每秒查询率)、TPS(Transaction per Second,每秒事务处理量)等指标数据;当然,指标的类型还可根据实际情况设定,本发明实施例并不局限。可选的,所述业务可以是指任一业务。
可选的,业务的实时指标数据可以通过开源流处理平台(如kakfa)实时采集。
步骤S31、根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合。
可选的,本发明实施例可通过无监督学习方法,预先学习得到所述业务的指标基线,从而由所述业务的指标基线反映指标异常的数据限值。对于所述实时指标数据中,指标值不符合业务的指标基线的指标,本发明实施例可认为是异常指标,从而得到异常指标的集合(即异常指标集合)。
在一种示例中,所述指标基线可以包括指标基线上边界值,和指标基线下边界值,实时指标数据中存在指标值大于基线上边界值,或者小于基线下边界值的指标,可以认为是异常指标,从而本发明实施例可从实时指标数据中得到指标值大于基线上边界值,或者小于基线下边界值的异常指标集合。
可选的,所述业务的指标基线可以由离线情况下的指标预测器,基于所述业务的历史指标数据学习得到,并存储到离线的规则引擎中,从而本发明实施例可调用规则引擎中存储的所述业务的指标基线,以实现步骤S31。
可选的,步骤S31可以由实时流计算引擎(例如blink)执行,对于开源流处理平台采集的所述业务的实时指标数据,实时流计算引擎可调用规则引擎中存储的所述业务的指标基线,以确定所述实时指标数据中的异常指标集合。
步骤S32、调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型。
本发明实施例可通过预设的所述业务的故障模板,模拟所述业务的故障,从而基于所述业务的所述故障开始模拟至所述故障发生的过程中,所标注的指标数据,训练得到所述业务的故障预测模型,所标注的指标数据用于反映所述业务的故障开始发生。基于训练得到的所述业务对应的故障预测模型,本发明实施例可对所述异常指标集合进行故障分类,从而预测出所述异常指标集合对应的故障类型(即目标故障类型)。
可选的,所述业务的各故障具有对应的故障预测模型,例如所述业务的一个故障类型可对应一个故障预测模型,即所述业务的不同类型的故障可具有不同的故障预测模型,本发明实施例可预训练出所述业务在不同故障下对应的故障预测模型,从而得到所述业务对应的多个故障预测模型;进而,本发明实施例可使用所述业务对应的多个故障预测模型,分别预测所述异常指标集合的故障类型,从而将预测结果中可信度最高的故障类型,作为目标故障类型。
可选的,步骤S32可以由实时流计算引擎调用所述业务对应的故障预测模型实现,并输出预测的目标故障类型。
在一种可选实现中,步骤S31和步骤S32可以由实时流计算引擎中设置的预测器实现,可选的所述预测器可以是实时流计算引擎中设置的程序模块或者硬件模块,该预测器一方面调用规则引擎中存储的所述业务的指标基线,预测所述业务的实时数据中的异常指标集合;另一方面,调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型,从而基于业务的实时指标数据,实现对业务的故障预测。
可选的,进一步,基于预测的目标故障类型,本发明实施例可发起相应的故障决策行为,以实现故障处理,针对预测得到的不同故障类型,本发明实施例发起的故障决策行为也可能不同;例如,在业务出现磁盘IO满负荷故障,导致其他业务实例的qps下跌时,本发明实施例可在识别业务的IO满负荷故障后,给出相应的故障决策行为,例如,推荐磁盘的IO限流操作,以限制磁盘的IO操作,而在不能发起磁盘的IO限流操作的情况下,本发明实施例可输出告警,并产出异常指标的传播图,以帮助定位故障的根因,从而帮助运维人员手动执行运维行为。
在进一步的实现中,本发明实施例可分析业务故障的根因,以便在检测到业务的异常指标后,分析确定业务故障的根因;该根因可以基于异常指标的传播关系分析得到,可选的,图5示出了本发明实施例提供的确定异常指标的传播关系的可选流程,该流程可以由根因分析引擎实现,根因分析引擎可以是程序形式的程序模块,也可以是硬件模块,根因分析引擎具体可以在离线的第一服务器平台实现,参照图5,该流程可以包括:
步骤S40、对业务故障相应的异常指标进行扫描,确定异常指标对应的波动情况。
针对业务故障,本发明实施例可基于业务故障的异常指标,确定异常指标的波动情况。
步骤S41、通过关联分析算法,分析所述波动情况,得到所述异常指标对应的传播图数据。
由于业务故障相应的异常指标可能为多个,这些异常指标存在传播的先后顺序,本发明实施例通过得到的传播图数据,可以体现异常指标的传播关系,例如传播的先后顺序。
示例的,以超时故障(time out)为例,如图6所示传播图为例,超时故障可以是由图中左边的mysql.innodb_rows_delete引起,这表示用户发起了一个批量删除的sql操作,导致了后续的docker io和mysql io的数据库逻辑读和物理读异常,这种异常指标的传播先后顺序可以通过传播图数据得到,从而比较容易定位到异常指标的根因。
可选的,对波动情况进行分析的关联分析方法可是pearson,spearsman,cross等;需要说明的是,pearson是用来计算等距及等比数据或者说连续数据之间的相关关系,这类数据的取值不限于整数;spearman是用于计算等级数据之间的关系,这类数据的特点是数据有先后等级之分但连续两个等级之间的具体分数差异却未必都是相等的。
可选的,本发明实施例可进一步根据所述传播图数据挖掘异常检测规则,以表示传播图数据体现的异常指标的传播关系之间的规则;可以理解的是,本发明实施例可通过模拟业务的同一类故障,总结出众多的异常指标列表,而这些异常指标列表的传播关系大多相似,在得到业务的相同故障的异常指标的多个传播关系后,可对该多个传播关系进行聚类,从而挖掘出业务在同一故障的异常检测规则,以由该异常检测规则体现业务在同一故障的根因分析规则。
基于上述流程,本发明实施例可基于指标预测器,寻找到异常的数据特征,得到反映指标异常的指标基线,基于指标基线确定出业务的指标数据中的异常指标后,本发明实施例可通过根因分析引擎,确定异常指标的传播关系,从而挖掘出定位异常根因的异常检测规则,即根因分析引擎可基于异常指标的传播关系,使用聚类方式挖掘出异常检测规则,以检测异常指标的根因。可选的,本发明实施例提供的故障预测流程可以进一步包括:调用规则引擎中记录的所述业务在所述目标故障类型对应的异常检测规则,根据所述异常检测规则,分析所述异常指标集合对应的根因,从而确定异常指标的根因,以便于运维人员根据异常根因选择故障处理行为。
可选的,本发明实施例提供方案的示例可以如图7所示,包括:由第一服务器平台执行的离线部分,和第二服务器平台执行的在线部分;离线部分可为在线部分的执行提供支持;
如图7所示,离线部分可以分为模型引擎部分和规则引擎部分,模型引擎部分主要汇集本发明实施例训练的各业务在各故障下相应的故障预测模型,规则引擎部分主要汇集指标预测器预测的业务的指标基线,根因分析引擎产出的异常检测规则;
可选的,在模型引擎部分,用户可选择待模拟的业务以及故障,从而加载相应业务模板和故障模板,实现业务的故障模拟;在故障开始模拟至故障发生的过程中,本发明实施例可对业务的指标数据进行标注,从而基于标注的指标数据训练所选择业务在所选择故障下的故障预测模型;以此方式,可训练得到各业务在各故障下相应的故障预测模型,并汇总到模型引擎中;
在规则引擎部分,指标预测器可基于业务的历史指标数据,对反映各业务的异常指标的指标基线进行预测,所预测的各业务的异常指标的指标基线可汇总到规则引擎;
另一方面,基于业务的指标基线,确定业务的异常指标后,根因分析引擎可基于业务异常指标的波动情况,通过关联分析算法,分析异常指标的传播关系,并挖掘其中的异常检测规则;异常检测规则可汇总到规则引擎。
可选的,上述过程中,故障预测模型可使用有监督的训练方法,训练得到;而指标基线,传播关系和异常规则可通过无监督学习方法得到。
对于在线部分,开源流处理平台可采集业务的实时指标数据,从而实时流计算引擎的预测器可调用规则引擎中业务的指标基线,确定所述实时指标数据中的异常指标集合;进而,实时流计算引擎的预测器可调用规则引擎中业务相应的故障预测模型,预测异常指标集合对应的故障类型,实现预测业务的故障类型;
可选的,进一步,实时流计算引擎的预测器可调用规则引擎中记录的所述业务在所预测的故障类型对应的异常检测规则,从而根据所述异常检测规则,分析所述异常指标集合对应的根因;
可选的,进一步,在预测业务的故障类型后,所预测的故障类型可输出到决策执行器,以由决策执行器基于预测的故障类型,发起相应的故障决策行为。
在线部分的数据库实例可以记录业务故障的数据,从而进一步反馈给离线部分的故障模拟阶段,以丰富故障模拟的数据。
本发明实施例提供的方案,可提供能够对业务进行故障预测的模型,实现对业务的故障预测,并且能够挖掘出业务故障的根因,为运维决策提供决策依据。
上文描述了本发明实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本发明实施例披露、公开的实施例方案。
下面对本发明实施例提供的训练装置进行介绍,下文描述的训练装置可以认为是,为实现本发明实施例提供的训练方法所需设置的功能模块。下文描述的训练装置的内容,可与上文描述的训练方法的内容,相互对应参照。
可选的,图8示出了本发明实施例提供的训练装置的可选框图,参照图8,该训练装置可以包括:
选择器100,用于选择待模拟的目标业务及目标故障;
模拟器110,用于调用所述目标业务对应的业务模板,模拟所述目标业务,以及调用所述目标故障对应的故障模板,模拟所述目标故障;
标注器120,用于在模拟所述目标故障的过程中,对目标业务的指标数据进行标注,所述指标数据用于反映所述目标业务的目标故障开始发生;
训练器130,用于根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。
可选的,模拟器110,用于调用所述目标业务对应的业务模板,模拟所述目标业务,可以具体包括:
从预先设定的各可模拟的业务对应的业务模板中,调用所述目标业务对应的业务模板,所述业务模板记录目标业务运行的信息;
根据所述业务模板记录的目标业务运行的信息,模拟所述目标业务;
可选的,模拟器110,用于调用所述目标故障对应的故障模板,模拟所述目标故障,可以具体包括:
从预先设定的各可模拟的故障对应的故障模板中,调用目标故障对应的故障模板,所述故障模板记录目标故障运行的信息;
根据所述故障模板记录的目标故障运行的信息,模拟所述目标故障。
可选的,训练器130,用于根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型,可以具体包括:
根据所标注的指标数据,分别使用预设的各种训练方法,训练故障预测模型;
基于训练得到的各故障预测模型的训练结果,选择最优的故障预测模型,以得到所述目标业务在目标故障相应的故障预测模型。
可选的,本发明实施例提供的训练装置,还可以用于:在根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型之前,对所标注的指标数据进行预处理。
可选的,图9示出了本发明实施例提供的训练装置的另一框图,结合图8和图9所示,该训练装置还可以包括:
模型引擎140,用于汇总各业务在各故障下对应的故障预测模型。
可选的,图10示出了本发明实施例提供的训练装置的再一框图,结合图9和图10所示,该训练装置还可以包括:
指标预测器150,用于根据业务的历史指标数据,确定所述业务的指标基线,所述指标基线为反映指标异常的数据限值。
可选的,指标预测器150,用于根据业务的历史指标数据,确定所述业务的指标基线,可以具体包括:
对业务的历史指标数据进行分类,得到周期性历史指标数据和非周期性历史指标数据;
对于周期性历史指标数据,采用快速傅里叶变换确定所述周期性历史指标数据对应的周期,基于所述周期,使用时序序列分解方法预测所述周期性历史指标数据的指标基线;
对于非周期性历史指标数据,将所述非周期性历史指标数据划分为第一部分非周期性历史指标数据和第二部分非周期性历史指标数据,所述第一部分非周期性历史指标数据的数据量,大于第二部分非周期性历史指标数据;针对第一部分非周期性历史指标数据,通过孤立森林方法预测指标基线;对于第二部分非周期性历史指标数据,通过时序序列分解,确定数据变化率与业务或任务的关系,基于所述关系,预测第二部分非周期性历史指标数据的指标基线。
进一步,图11示出了本发明实施例提供的训练装置的又一框图,结合图10和图11所示,该训练装置还可以包括:
规则引擎160,用于汇总业务的指标基线。
可选的,图12示出了本发明实施例提供的训练装置的又另一框图,结合图11和图12所示,该训练装置还可以包括:
根因分析引擎170,用于对业务故障相应的异常指标进行扫描,确定异常指标对应的波动情况,所述异常指标为指标值不符合业务的指标基线的指标;通过关联分析算法,分析所述波动情况,得到所述异常指标对应的传播图数据,所述传播图数据用于表示所述异常指标的传播关系。
可选的,根因分析引擎170还可用于:对业务的相同故障的异常指标的多个传播关系进行聚类,挖掘出业务的故障根因的异常检测规则。
可选的,进一步,本发明实施例中,规则引擎160还可用于汇总所述异常检测规则。
本发明实施例提供的训练装置中的各模块可以由硬件实现,也可以由程序实现;在一种可选实现中,本发明实施例可由程序模块实现本发明实施例提供的训练装置,本发明实施例还可提供第一服务器平台,该第一服务器平台可以通过装载程序形式的上述训练装置,以实现本发明实施例提供的训练方法。
可选的,第一服务器平台的硬件结构可如图13所示,包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,处理器1可能是CPU(中央处理器),GPU(Graphics Processing Unit,图形处理器),NPU(嵌入式神经网络处理器),FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列),TPU(张量处理单元),AI芯片,特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器3存储有程序,处理器1调用存储器3所存储的程序,以实现本发明实施例提供的训练方法。
本发明实施例还提供一种存储介质,该存储介质可以存储执行本发明实施例提供的训练方法的程序。
下面对本发明实施例提供的故障预测装置进行介绍,下文描述的故障预测装置可以认为是,为实现本发明实施例提供的故障预测方法所需设置的功能模块。下文描述的故障预测装置的内容,可与上文描述的方法内容,相互对应参照。
可选的,图14示出了本发明实施例提供的故障预测装置的框图,参照图14,该故障预测装置可以包括:
实时数据获取模块200,用于获取业务的实时指标数据;
异常指标确定模块210,用于根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合;所述指标基线为反映指标异常的数据限值;
故障类型预测模块220,用于调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型;所述故障预测模型基于模拟所述业务的故障的过程中,所标注的指标数据训练得到,所标注的指标数据用于反映所述业务的故障开始发生。
可选的,实时数据获取模块200,异常指标确定模块210和故障类型预测模块220可以集成于实时流计算引擎;本发明实施例可在实时流计算引擎中设置预测器,以集成实时数据获取模块200,异常指标确定模块210和故障类型预测模块220。
可选的,故障类型预测模块220,用于调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型,可以具体包括:
调用所述业务对应的多个故障预测模型,分别预测所述异常指标集合的故障类型,将预测结果中可信度最高的故障类型,作为目标故障类型;其中,所述业务的一个故障对应一个故障预测模型。
可选的,图15示出了本发明实施例提供的故障预测装置的另一框图,结合图14和图15所示,该故障预测装置还可以包括:
决策器230,用于基于预测的目标故障类型,发起相应的故障决策行为。
可选的,异常指标确定模块210,用于根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合,可以具体包括:
调用规则引擎中记录的所述业务的指标基线;
根据所调用的指标基线,确定所述实时指标数据中指标值不符合所述指标基线的异常指标集合。
可选的,在本发明实施例中,实时流计算引擎中的预测器还可用于:调用规则引擎中记录的所述业务在所述目标故障类型对应的异常检测规则,根据所述异常检测规则,分析所述异常指标集合对应的根因。
本发明实施例提供的故障预测装置中的各模型可以由硬件实现,也可以由程序实现;在一种可选实现中,本发明实施例可由程序模块实现本发明实施例提供的故障预测装置,本发明实施例还可提供第二服务器平台,该第二服务器平台可以通过装载程序形式的上述故障预测装置,以实现本发明实施例提供的故障预测方法。
可选的,第二服务器平台的结构可结合图13所示,包括:至少一个存储器和至少一个处理器,所述存储器存储程序,所述处理器调用所述程序,以执行本发明实施例提供的故障预测方法。
本发明实施例还提供一种存储介质,该存储介质可以存储执行本发明实施例提供的故障预测方法的程序。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (21)

1.一种训练方法,其特征在于,包括:
选择待模拟的目标业务及目标故障;
调用所述目标业务对应的业务模板,模拟所述目标业务,以及调用所述目标故障对应的故障模板,模拟所述目标故障;
在模拟所述目标故障的过程中,对目标业务的指标数据进行标注,所述指标数据用于反映所述目标业务的目标故障开始发生;
根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。
2.根据权利要求1所述的训练方法,其特征在于,所述调用所述目标业务对应的业务模板,模拟所述目标业务包括:
从预先设定的各可模拟的业务对应的业务模板中,调用所述目标业务对应的业务模板,所述业务模板记录目标业务运行的信息;
根据所述业务模板记录的目标业务运行的信息,模拟所述目标业务;
所述调用所述目标故障对应的故障模板,模拟所述目标故障包括:
从预先设定的各可模拟的故障对应的故障模板中,调用目标故障对应的故障模板,所述故障模板记录目标故障运行的信息;
根据所述故障模板记录的目标故障运行的信息,模拟所述目标故障。
3.根据权利要求1或2所述的训练方法,其特征在于,所述根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型包括:
根据所标注的指标数据,分别使用预设的各种训练方法,训练故障预测模型;
基于训练得到的各故障预测模型的训练结果,选择最优的故障预测模型,以得到所述目标业务在目标故障相应的故障预测模型。
4.根据权利要求1所述的训练方法,其特征在于,在根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型之前,所述方法还包括:
对所标注的指标数据进行预处理。
5.根据权利要求1所述的训练方法,其特征在于,还包括:
在模型引擎中,汇总各业务在各故障下对应的故障预测模型。
6.根据权利要求1所述的训练方法,其特征在于,还包括:
根据业务的历史指标数据,确定所述业务的指标基线,所述指标基线为反映指标异常的数据限值。
7.根据权利要求6所述的训练方法,其特征在于,所述根据业务的历史指标数据,确定业务的指标基线包括:
对业务的历史指标数据进行分类,得到周期性历史指标数据和非周期性历史指标数据;
对于周期性历史指标数据,采用快速傅里叶变换确定所述周期性历史指标数据对应的周期,基于所述周期,使用时序序列分解方法预测所述周期性历史指标数据的指标基线;
对于非周期性历史指标数据,将所述非周期性历史指标数据划分为第一部分非周期性历史指标数据和第二部分非周期性历史指标数据,所述第一部分非周期性历史指标数据的数据量,大于第二部分非周期性历史指标数据;针对第一部分非周期性历史指标数据,通过孤立森林方法预测指标基线;对于第二部分非周期性历史指标数据,通过时序序列分解,确定数据变化率与业务或任务的关系,基于所述关系,预测第二部分非周期性历史指标数据的指标基线。
8.根据权利要求6或7所述的训练方法,其特征在于,还包括:
在规则引擎中汇总业务的指标基线。
9.根据权利要求6所述的训练方法,其特征在于,还包括:
对业务故障相应的异常指标进行扫描,确定异常指标对应的波动情况;所述异常指标为指标值不符合业务的指标基线的指标;
通过关联分析算法,分析所述波动情况,得到所述异常指标对应的传播图数据,所述传播图数据用于表示所述异常指标的传播关系。
10.根据权利要求9所述的训练方法,其特征在于,还包括:
对业务的相同故障的异常指标的多个传播关系进行聚类,挖掘出业务的故障根因的异常检测规则。
11.根据权利要求10所述的训练方法,其特征在于,还包括:
在规则引擎中汇总所述异常检测规则。
12.一种故障预测方法,其特征在于,包括:
获取业务的实时指标数据;
根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合;所述指标基线为反映指标异常的数据限值;
调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型;所述故障预测模型基于模拟所述业务的故障的过程中,所标注的指标数据训练得到,所标注的指标数据用于反映所述业务的故障开始发生;其中,所述故障预测模型是根据权利要求1-11任一项训练方法训练得到的。
13.根据权利要求12所述的故障预测方法,其特征在于,所述调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型包括:
调用所述业务对应的多个故障预测模型,分别预测所述异常指标集合的故障类型,将预测结果中可信度最高的故障类型,作为目标故障类型;其中,所述业务的各故障具有对应的故障预测模型。
14.根据权利要求12或13所述的故障预测方法,其特征在于,还包括:
基于预测的目标故障类型,发起相应的故障决策行为。
15.根据权利要求12所述的故障预测方法,其特征在于,所述根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合包括:
调用规则引擎中记录的所述业务的指标基线;
根据所调用的指标基线,确定所述实时指标数据中指标值不符合所述指标基线的异常指标集合。
16.根据权利要求12所述的故障预测方法,其特征在于,还包括:
调用规则引擎中记录的所述业务在所述目标故障类型对应的异常检测规则,根据所述异常检测规则,分析所述异常指标集合对应的根因。
17.一种训练装置,其特征在于,包括:
选择器,用于选择待模拟的目标业务及目标故障;
模拟器,用于调用所述目标业务对应的业务模板,模拟所述目标业务,以及调用所述目标故障对应的故障模板,模拟所述目标故障;
标注器,用于在模拟所述目标故障的过程中,对目标业务的指标数据进行标注,所述指标数据用于反映所述目标业务的目标故障开始发生;
训练器,用于根据所标注的指标数据,训练得到所述目标业务在目标故障相应的故障预测模型。
18.一种故障预测装置,其特征在于,包括:
实时数据获取模块,用于获取业务的实时指标数据;
异常指标确定模块,用于根据预先预测的所述业务的指标基线,确定所述实时指标数据中的异常指标集合;所述指标基线为反映指标异常的数据限值;
故障类型预测模块,用于调用预训练的所述业务对应的故障预测模型,预测所述异常指标集合对应的目标故障类型;所述故障预测模型基于模拟所述业务的故障的过程中,所标注的指标数据训练得到,所标注的指标数据用于反映所述业务的故障开始发生;其中,所述故障预测模型是根据权利要求1-11任一项训练方法训练得到的。
19.一种第一服务器平台,其特征在于,包括:至少一个存储器和至少一个处理器,所述存储器存储程序,所述处理器调用所述程序,以执行权利要求1-11任一项所述的训练方法。
20.一种第二服务器平台,其特征在于,包括:至少一个存储器和至少一个处理器,所述存储器存储程序,所述处理器调用所述程序,以执行权利要求12-16任一项所述的故障预测方法。
21.一种存储介质,其特征在于,所述存储介质存储执行权利要求1-11任一项所述的训练方法的程序,或者,所述存储介质存储执行权利要求12-16任一项所述的故障预测方法的程序。
CN201911325501.6A 2019-12-20 2019-12-20 一种训练方法、故障预测方法、相关装置及设备 Active CN113010389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911325501.6A CN113010389B (zh) 2019-12-20 2019-12-20 一种训练方法、故障预测方法、相关装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911325501.6A CN113010389B (zh) 2019-12-20 2019-12-20 一种训练方法、故障预测方法、相关装置及设备

Publications (2)

Publication Number Publication Date
CN113010389A CN113010389A (zh) 2021-06-22
CN113010389B true CN113010389B (zh) 2024-03-01

Family

ID=76382041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911325501.6A Active CN113010389B (zh) 2019-12-20 2019-12-20 一种训练方法、故障预测方法、相关装置及设备

Country Status (1)

Country Link
CN (1) CN113010389B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928009B2 (en) 2021-08-06 2024-03-12 International Business Machines Corporation Predicting a root cause of an alert using a recurrent neural network
CN113822344B (zh) * 2021-08-30 2024-05-31 龙源(北京)新能源工程技术有限公司 基于数据驱动的风电机组发电机前轴承状态监测方法
CN114172784B (zh) * 2021-11-16 2023-11-03 武汉烽火技术服务有限公司 一种网络故障风险分析方法及装置
CN114362229B (zh) * 2022-03-21 2022-06-14 广州菲利斯太阳能科技有限公司 一种储能逆变器离网并联的控制***
CN116821141A (zh) * 2022-03-21 2023-09-29 中兴通讯股份有限公司 数据更新方法、故障诊断方法、电子设备和存储介质
CN115100907B (zh) * 2022-06-17 2023-07-25 南京航空航天大学 面向气象场景分类的终端区空域飞行流量预测方法
CN115225460B (zh) * 2022-07-15 2023-11-28 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质
CN116842238B (zh) * 2023-07-24 2024-03-22 右来了(北京)科技有限公司 基于大数据分析的企业数据可视化实现方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169465A (zh) * 2006-10-25 2008-04-30 国际商业机器公司 基于模型化和非模型化错误的重复测试生成和诊断方法
CN103400516A (zh) * 2013-08-23 2013-11-20 国家电网公司 调度自动化仿真培训***和方法
CN104808109A (zh) * 2015-04-23 2015-07-29 广东电网有限责任公司电力科学研究院 基于录波数据的高压输电线路故障识别方法和***
CN107086944A (zh) * 2017-06-22 2017-08-22 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN108170994A (zh) * 2018-01-29 2018-06-15 河海大学 一种基于双向深度网络的油浸式电抗器故障诊断方法
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN109543894A (zh) * 2018-11-15 2019-03-29 深圳中广核工程设计有限公司 一种核电站松脱部件事前预测***及预测方法
CN109921414A (zh) * 2019-03-13 2019-06-21 华北电力大学 一种基于深度学习融合模型的电力***暂态稳定评估方法
CN110245795A (zh) * 2019-06-10 2019-09-17 北京千尧新能源科技开发有限公司 一种用于海上风电运维决策仿真模拟的方法及***
CN110324168A (zh) * 2018-03-30 2019-10-11 阿里巴巴集团控股有限公司 异常事件监控方法和装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130197854A1 (en) * 2012-01-30 2013-08-01 Siemens Corporation System and method for diagnosing machine tool component faults

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169465A (zh) * 2006-10-25 2008-04-30 国际商业机器公司 基于模型化和非模型化错误的重复测试生成和诊断方法
CN103400516A (zh) * 2013-08-23 2013-11-20 国家电网公司 调度自动化仿真培训***和方法
CN104808109A (zh) * 2015-04-23 2015-07-29 广东电网有限责任公司电力科学研究院 基于录波数据的高压输电线路故障识别方法和***
CN107086944A (zh) * 2017-06-22 2017-08-22 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN108170994A (zh) * 2018-01-29 2018-06-15 河海大学 一种基于双向深度网络的油浸式电抗器故障诊断方法
CN110324168A (zh) * 2018-03-30 2019-10-11 阿里巴巴集团控股有限公司 异常事件监控方法和装置及电子设备
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN109543894A (zh) * 2018-11-15 2019-03-29 深圳中广核工程设计有限公司 一种核电站松脱部件事前预测***及预测方法
CN109921414A (zh) * 2019-03-13 2019-06-21 华北电力大学 一种基于深度学习融合模型的电力***暂态稳定评估方法
CN110245795A (zh) * 2019-06-10 2019-09-17 北京千尧新能源科技开发有限公司 一种用于海上风电运维决策仿真模拟的方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Highly Accurate Machine Fault Diagnosis Using Deep Transfer Learning;Siyu Shao等;《IEEE Transactions on Industrial Informatics》;2446 - 2455 *
故障预测中基于模糊神经网络的规则发现方法;郑维维;王智立;邱雪松;王兴斌;;北京邮电大学学报(06);全文 *

Also Published As

Publication number Publication date
CN113010389A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN113010389B (zh) 一种训练方法、故障预测方法、相关装置及设备
FR3082963A1 (fr) Systeme et procede d'evaluation et de deploiement de modeles d'apprentissage automatique non supervises ou semi-supervises
CN113792825B (zh) 一种用电信息采集设备故障分类模型训练方法及装置
US10599506B2 (en) Methods and systems for identifying action for responding to anomaly in cloud computing system
CN108985279A (zh) 多功能车辆总线mvb波形的故障诊断方法及装置
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
CN116450399B (zh) 微服务***故障诊断及根因定位方法
CN111045894A (zh) 数据库异常检测方法、装置、计算机设备和存储介质
CN108268373A (zh) 自动化测试用例管理方法、装置、设备及存储介质
CN113946499A (zh) 一种微服务链路跟踪及性能分析方法、***、设备及应用
CN112632179A (zh) 模型构建方法、装置、存储介质及设备
CN111984442A (zh) 计算机集群***的异常检测方法及装置、存储介质
CN115952081A (zh) 一种软件测试方法、装置、存储介质及设备
CN114139589A (zh) 故障诊断方法、装置、设备与计算机可读存储介质
CN107480703B (zh) 交易故障检测方法及装置
CN112199295A (zh) 一种基于频谱的深度神经网络缺陷定位方法及***
CN113760689A (zh) 接口故障的报警方法、装置、设备及存储介质
CN110716778A (zh) 应用兼容性测试方法、装置及***
Bezerra et al. Predicting software defects: A cost-sensitive approach
JP2023531301A (ja) イベントチェーン応答システム
CN113590484A (zh) 算法模型服务测试方法、***、设备及存储介质
CN111367781A (zh) 一种实例处理方法及其装置
Siddique et al. Hybrid Framework To Exclude Similar and Faulty Test Cases In Regression Testing
CN111160454B (zh) 一种速变信号检测方法和装置
CN116910274B (zh) 基于知识图谱和预测模型的试题生成方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant