CN109861857A - 故障检测方法及装置 - Google Patents

故障检测方法及装置 Download PDF

Info

Publication number
CN109861857A
CN109861857A CN201910079290.6A CN201910079290A CN109861857A CN 109861857 A CN109861857 A CN 109861857A CN 201910079290 A CN201910079290 A CN 201910079290A CN 109861857 A CN109861857 A CN 109861857A
Authority
CN
China
Prior art keywords
set level
calculator
time
comparator
calculated value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910079290.6A
Other languages
English (en)
Inventor
贾艳成
李仲夷
时旭
张驰
黄梦岚
白云鹏
黄凯鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NetsUnion Clearing Corp
Original Assignee
NetsUnion Clearing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NetsUnion Clearing Corp filed Critical NetsUnion Clearing Corp
Priority to CN201910079290.6A priority Critical patent/CN109861857A/zh
Publication of CN109861857A publication Critical patent/CN109861857A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提出一种故障检测方法及装置,其中方法包括:获取待检测***的指标数据,指标数据中包括:至少一个预设指标的时间序列,时间序列中包括:预设指标在当前时间点以及之前各个时间点的指标数值;获取待检测***对应的故障检测模型,故障检测模型包括:至少一个计算器和异常检测器;针对每个预设指标,将预设指标的时间序列输入对应的计算器,获取预设指标在当前时间点的计算值;将各个预设指标在当前时间点的计算值输入异常检测器,确定待检测***是否存在故障,从而能够基于一段时间内的指标数值,结合异常检测器来确定待检测***是否存在故障,故障检测准确率高,且在指标增加时,相应增加计算器即可,扩展性好。

Description

故障检测方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种故障检测方法及装置。
背景技术
目前,互联网数据中心(Internet Data Center,IDC)用于为互联网内容提供商、企业、媒体和各类网站等提供服务器托管等业务。当IDC出现***问题、硬件故障等问题时,可能导致IDC不可用,进而导致托管的服务器等不可用,例如网联平台不可用,导致机构发往网联平台的交易失败。
目前的IDC故障检测方法主要为,将IDC故障相关的指标组装成一些简单预警规则,收到预警后,再人工止损;或者是人工每天24小时监控IDC***,人工发现异常后,再人工止损。上述方案中,人工发现IDC异常或者人工止损处理时间都比较长,对业务影响较大;并且指标和组装规则过于简单,导致故障检测准确率低,可扩展性差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种故障检测方法,用于解决现有技术中故障检测准确率差,且扩展性差的问题。
本发明的第二个目的在于提出一种故障检测装置。
本发明的第三个目的在于提出另一种故障检测装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种故障检测方法,包括:
获取待检测***的指标数据,所述指标数据中包括:至少一个预设指标的时间序列,所述时间序列中包括:所述预设指标在当前时间点以及之前各个时间点的指标数值;
获取所述待检测***对应的故障检测模型,所述故障检测模型包括:至少一个计算器和异常检测器;
针对每个预设指标,将所述预设指标的时间序列输入对应的计算器,获取所述预设指标在当前时间点的计算值;
将各个预设指标在当前时间点的计算值输入异常检测器,确定所述待检测***是否存在故障。
进一步的,所述获取所述待检测***对应的故障检测模型,包括:
获取所述待检测***的检测类型,所述检测类型包括:预警、预警加止损;
获取与所述检测类型对应的故障检测模型。
进一步的,所述计算器包括:累积窗口均值计算器、基于趋势性的计算器、基于周期性的计算器;
所述累积窗口均值计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值均值;
所述基于趋势性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值和,与前一个窗口长度内的指标数值和的比值;
所述基于周期性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数之和,与至少一个周期之前窗口长度内的指标数值和的比值。
进一步的,所述异常检测器中包括:至少一个比较器以及一个决策器;
每个预设指标加一个计算器,与比较器之间具有一一对应关系;
所述将各个预设指标在当前时间点的计算值输入异常检测器,确定所述待检测***是否存在故障,包括:
针对每个预设指标的每个计算值,获取与输出所述计算值的计算器以及所述预设指标对应的比较器;
将所述计算值输入所述比较器,获取比较结果;
将各个预设指标对应的比较结果输入决策器,确定所述待检测***是否存在故障。
进一步的,所述比较器包括:相对值比较器和绝对值比较器;
当所述比较器对应的计算器为累积窗口均值计算器时,所述相对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值,获取所述差值与所述计算值的比值;将所述比值与预设的阈值参数进行比较,得到比较结果;
所述绝对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值;将所述差值与预设的阈值参数进行比较,得到比较结果。
进一步的,所述比较器的阈值参数的确定方式为,
获取与所述比较器对应的预设指标以及计算器,获取待检测***未出现故障时所述预设指标的第一时间序列,以及出现故障时所述预设指标的第二时间序列;
根据所述第一时间序列、第二时间序列和所述计算器确定所述比较器的阈值参数;或者,根据所述第一时间序列、第二时间序列、所述计算器以及3σ准则确定所述比较器的参数。
进一步的,所述预设指标包括:***成功率和流量。
本发明实施例的故障检测方法,通过获取待检测***的指标数据,指标数据中包括:至少一个预设指标的时间序列,时间序列中包括:预设指标在当前时间点以及之前各个时间点的指标数值;获取待检测***对应的故障检测模型,故障检测模型包括:至少一个计算器和异常检测器;针对每个预设指标,将预设指标的时间序列输入对应的计算器,获取预设指标在当前时间点的计算值;将各个预设指标在当前时间点的计算值输入异常检测器,确定待检测***是否存在故障并进行处理,从而能够基于一段时间内的指标数值,结合异常检测器来确定待检测***是否存在故障,故障检测准确率高,且在指标增加时,相应增加计算器即可,扩展性好。
为达上述目的,本发明第二方面实施例提出了一种故障检测装置,包括:
获取模块,用于获取待检测***的指标数据,所述指标数据中包括:至少一个预设指标的时间序列,所述时间序列中包括:所述预设指标在当前时间点以及之前各个时间点的指标数值;
所述获取模块,还用于获取所述待检测***对应的故障检测模型,所述故障检测模型包括:至少一个计算器和异常检测器;
输入模块,用于针对每个预设指标,将所述预设指标的时间序列输入对应的计算器,获取所述预设指标在当前时间点的计算值;
所述输入模块,还用于将各个预设指标在当前时间点的计算值输入异常检测器,确定所述待检测***是否存在故障。
进一步的,所述获取模块具体用于,
获取所述待检测***的检测类型,所述检测类型包括:预警、预警加止损;
获取与所述检测类型对应的故障检测模型。
进一步的,所述计算器包括:累积窗口均值计算器、基于趋势性的计算器、基于周期性的计算器;
所述累积窗口均值计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值均值;
所述基于趋势性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值和,与前一个窗口长度内的指标数值和的比值;
所述基于周期性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数之和,与至少一个周期之前窗口长度内的指标数值和的比值。
进一步的,所述异常检测器中包括:至少一个比较器以及一个决策器;
每个预设指标加一个计算器,与比较器之间具有一一对应关系;
所述输入模块具体用于,
针对每个预设指标的每个计算值,获取与输出所述计算值的计算器以及所述预设指标对应的比较器;
将所述计算值输入所述比较器,获取比较结果;
将各个预设指标对应的比较结果输入决策器,确定所述待检测***是否存在故障。
进一步的,所述比较器包括:相对值比较器和绝对值比较器;
当所述比较器对应的计算器为累积窗口均值计算器时,所述相对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值,获取所述差值与所述计算值的比值;将所述比值与预设的阈值参数进行比较,得到比较结果;
所述绝对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值;将所述差值与预设的阈值参数进行比较,得到比较结果。
进一步的,所述比较器的阈值参数的确定方式为,
获取与所述比较器对应的预设指标以及计算器,获取待检测***未出现故障时所述预设指标的第一时间序列,以及出现故障时所述预设指标的第二时间序列;
根据所述第一时间序列、第二时间序列和所述计算器确定所述比较器的阈值参数;或者,根据所述第一时间序列、第二时间序列、所述计算器以及3σ准则确定所述比较器的参数。
进一步的,所述预设指标包括:***故障率和***流量。
本发明实施例的故障检测装置,通过获取待检测***的指标数据,指标数据中包括:至少一个预设指标的时间序列,时间序列中包括:预设指标在当前时间点以及之前各个时间点的指标数值;获取待检测***对应的故障检测模型,故障检测模型包括:至少一个计算器和异常检测器;针对每个预设指标,将预设指标的时间序列输入对应的计算器,获取预设指标在当前时间点的计算值;将各个预设指标在当前时间点的计算值输入异常检测器,确定待检测***是否存在故障并进行处理,从而能够基于一段时间内的指标数值,结合异常检测器来确定待检测***是否存在故障,故障检测准确率高,且在指标增加时,相应增加计算器即可,扩展性好。
为达上述目的,本发明第三方面实施例提出了另一种故障检测装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的故障检测方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的故障检测方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的故障检测方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种故障检测方法的流程示意图;
图2为预警检测类型对应的故障检测模型的示意图;
图3为预警加止损检测类型对应的故障检测模型的示意图;
图4为本发明实施例提供的一种故障检测装置的结构示意图;
图5为本发明实施例提供的另一种故障检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的故障检测方法及装置。
图1为本发明实施例提供的一种故障检测方法的流程示意图。如图1所示,该故障检测方法包括以下步骤:
S101、获取待检测***的指标数据,指标数据中包括:至少一个预设指标的时间序列,时间序列中包括:预设指标在当前时间点以及之前各个时间点的指标数值。
本发明提供的故障检测方法的执行主体为故障检测装置,故障检测装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,待检测***例如可以为互联网数据中心IDC。预设指标例如可以为***成功率、流量、耗时等。其中,流量指的是预设时间段内的交易笔数。***成功率指的是预设时间段内的交易成功率。耗时可以指预设数量的交易笔数的耗时长度。
本实施例中,指标数据的展现形式例如可以为二维矩阵。其中,二维矩阵可以为其中,为t时间点第m个指标的指标数值。
S102、获取待检测***对应的故障检测模型,故障检测模型包括:至少一个计算器和异常检测器。
本实施例中,故障检测装置执行步骤102的过程具体可以为,获取待检测***的检测类型,检测类型包括:预警、预警加止损;获取与检测类型对应的故障检测模型。其中,预警检测类型是为了检测出流量发生突变、***成功率降低幅度较小的情况。预警加止损检测类型是为了检测出***成功率降低幅度较大的情况。本实施例中,导致***成功率幅度降低的原因例如可以为数据库-DNS未绑定到VIP等。导致流量突降的原因例如可以为深圳两机房缓存不可用等。
本实施例中,计算器可以包括:累积窗口均值计算器、基于趋势性的计算器、基于周期性的计算器。其中,在预警检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器、基于周期性的计算器。在预警加止损检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器。
本实施例中,异常检测器中可以包括:至少一个比较器以及一个决策器。其中,比较器与计算器连接,用于将计算器输出的计算值与预设的阈值参数进行比较,得到比较结果;决策器,用于根据各个比较结果,确定待检测***是否存在故障。
S103、针对每个预设指标,将预设指标的时间序列输入对应的计算器,获取预设指标在当前时间点的计算值。
本实施例中,累积窗口均值计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值均值;基于趋势性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值和,与前一个窗口长度内的指标数值和的比值;基于周期性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数之和,与至少一个周期之前窗口长度内的指标数值和的比值。
本实施例中,累积窗口均值计算器通过计算指标数值均值,基于指标数值均值进行故障检测,可以去除噪声等对指标数值的干扰。其中,噪声例如:大促、割接、压测、演练等。其中,累积窗口均值计算器获取计算值的公式可以如以下公式(1)所示。
其中,u(t)为预设指标xt在当前时间点的计算值;w为累积窗口的长度。此处为了方便省略指标参数m。
本实施例中,预设指标一般具有趋势性、周期性等特征,因此,可以通过计算预设指标的环比来确定预设指标的趋势性是否存在异常。其中,基于趋势性的计算器输出的计算值为预设指标的环比。其中,基于趋势性的计算器获取计算值的公式可以如以下公式(2)所示。
本实施例中,基于周期性的计算器输出的计算值为预设指标的同比。其中,基于周期性的计算器获取计算值的公式可以如以下公式(3)所示。
S104、将各个预设指标在当前时间点的计算值输入异常检测器,确定待检测***是否存在故障。
本实施例中,每个预设指标加一个计算器,与比较器之间具有一一对应关系。因此,故障检测装置执行步骤104的过程具体可以为,针对每个预设指标的每个计算值,获取与输出计算值的计算器以及预设指标对应的比较器;将计算值输入比较器,获取比较结果;将各个预设指标对应的比较结果输入决策器,确定待检测***是否存在故障。
其中,比较器可以包括:相对值比较器和绝对值比较器;当比较器对应的计算器为累积窗口均值计算器时,相对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值,获取差值与计算值的比值;将比值与预设的阈值参数进行比较,得到比较结果。绝对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值;将差值与预设的阈值参数进行比较,得到比较结果。其中,比较结果例如可以为真或者假。
在预警检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器、基于周期性的计算器。对应的,异常检测器的输入可以为***成功率的指标数值均值、流量的指标数值均值、流量的昨日同比计算值、流量的上周同比计算值。异常检测器输出为待检测***存在故障的条件为:***成功率的指标数值均值小于h1或者(流量的指标数值均值小于h5,且流量的昨日同比计算值小于h6,且流量上周同比计算值小于h7)。对应的,预警检测类型对应的故障检测模型的示意图可以如图2所示。
其中,h1为***成功率阈值参数(预警);h5为流量阈值参数;h6为流量昨日同比阈值参数;h7为流量上周同比阈值参数。其中,h1例如可以为80%;h5例如可以为100;h6例如可以为0.5%;h7例如可以为0.5%。
在预警加止损检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器。对应的,异常检测器的输入可以为***成功率的指标数值均值、流量的指标数值均值。异常检测器输出为待检测***存在故障的条件为:流量的指标数值均值大于h3且***成功率的指标数值均值小于h2。对应的,预警加止损检测类型对应的故障检测模型的示意图可以如图3所示。
其中,h2为***成功率阈值参数(预警加止损);h3为最小流量阈值参数。其中,h2例如可以为30%;h3例如可以为100。
进一步的,在上述实施例的基础上,比较器的阈值参数的确定方式可以为,获取与比较器对应的预设指标以及计算器,获取待检测***未出现故障时预设指标的第一时间序列,以及出现故障时预设指标的第二时间序列;根据第一时间序列、第二时间序列和计算器确定比较器的阈值参数;或者,根据第一时间序列、第二时间序列、计算器以及3σ准则确定比较器的参数。
其中,例如,***成功率阈值参数、***成功率同比阈值参数和***成功率环比阈值参数可以根据第一时间序列、第二时间序列和计算器确定;而流量服从正太分布,因此,流量阈值参数、流量同比阈值参数和流量环比阈值参数可以根据第一时间序列、第二时间序列、计算器以及3σ准则确定。
本发明实施例的故障检测方法,通过获取待检测***的指标数据,指标数据中包括:至少一个预设指标的时间序列,时间序列中包括:预设指标在当前时间点以及之前各个时间点的指标数值;获取待检测***对应的故障检测模型,故障检测模型包括:至少一个计算器和异常检测器;针对每个预设指标,将预设指标的时间序列输入对应的计算器,获取预设指标在当前时间点的计算值;将各个预设指标在当前时间点的计算值输入异常检测器,确定待检测***是否存在故障并进行处理,从而能够基于一段时间内的指标数值,结合异常检测器来确定待检测***是否存在故障,故障检测准确率高,且在指标增加时,相应增加计算器即可,扩展性好。
图4为本发明实施例提供的一种故障检测装置的结构示意图。如图4所示,包括:获取模块41和输入模块42。
其中,获取模块41,用于获取待检测***的指标数据,所述指标数据中包括:至少一个预设指标的时间序列,所述时间序列中包括:所述预设指标在当前时间点以及之前各个时间点的指标数值;
所述获取模块41,还用于获取所述待检测***对应的故障检测模型,所述故障检测模型包括:至少一个计算器和异常检测器;
输入模块42,用于针对每个预设指标,将所述预设指标的时间序列输入对应的计算器,获取所述预设指标在当前时间点的计算值;
所述输入模块42,还用于将各个预设指标在当前时间点的计算值输入异常检测器,确定所述待检测***是否存在故障。
本发明提供的故障检测装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,待检测***例如可以为互联网数据中心IDC。预设指标例如可以为***成功率、流量、耗时等。其中,流量指的是预设时间段内的交易笔数。***成功率指的是预设时间段内的交易成功率。耗时可以指预设数量的交易笔数的耗时长度。
本实施例中,指标数据的展现形式例如可以为二维矩阵。其中,二维矩阵可以为其中,为t时间点第m个指标的指标数值。
本实施例中,获取模块41具体可以用于,获取待检测***的检测类型,检测类型包括:预警、预警加止损;获取与检测类型对应的故障检测模型。其中,预警检测类型是为了检测出流量发生突变、***成功率降低幅度较小的情况。预警加止损检测类型是为了检测出***成功率降低幅度较大的情况。本实施例中,导致***成功率幅度降低的原因例如可以为数据库-DNS未绑定到VIP等。导致流量突降的原因例如可以为深圳两机房缓存不可用等。
本实施例中,计算器可以包括:累积窗口均值计算器、基于趋势性的计算器、基于周期性的计算器。其中,在预警检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器、基于周期性的计算器。在预警加止损检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器。
本实施例中,异常检测器中可以包括:至少一个比较器以及一个决策器。其中,比较器与计算器连接,用于将计算器输出的计算值与预设的阈值参数进行比较,得到比较结果;决策器,用于根据各个比较结果,确定待检测***是否存在故障。
本实施例中,累积窗口均值计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值均值;基于趋势性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值和,与前一个窗口长度内的指标数值和的比值;基于周期性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数之和,与至少一个周期之前窗口长度内的指标数值和的比值。
本实施例中,每个预设指标加一个计算器,与比较器之间具有一一对应关系。因此,在上述实施例的基础上,所述输入模块42具体可以用于,针对每个预设指标的每个计算值,获取与输出计算值的计算器以及预设指标对应的比较器;将计算值输入比较器,获取比较结果;将各个预设指标对应的比较结果输入决策器,确定待检测***是否存在故障。
其中,比较器可以包括:相对值比较器和绝对值比较器;当比较器对应的计算器为累积窗口均值计算器时,相对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值,获取差值与计算值的比值;将比值与预设的阈值参数进行比较,得到比较结果。绝对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值;将差值与预设的阈值参数进行比较,得到比较结果。
在预警检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器、基于周期性的计算器。对应的,异常检测器的输入可以为***成功率的指标数值均值、流量的指标数值均值、流量的昨日同比计算值、流量的上周同比计算值。异常检测器输出为待检测***存在故障的条件为:***成功率的指标数值均值小于h1或者(流量的指标数值均值小于h5,且流量的昨日同比计算值小于h6,且流量上周同比计算值小于h7)。对应的,预警检测类型对应的故障检测模型的示意图可以如图2所示。
其中,h1为***成功率阈值参数(预警);h5为流量阈值参数;h6为流量昨日同比阈值参数;h7为流量上周同比阈值参数。其中,h1例如可以为80%;h5例如可以为100;h6例如可以为0.5%;h7例如可以为0.5%。
在预警加止损检测类型对应的故障检测模型中,计算器例如可以包括:累积窗口均值计算器。对应的,异常检测器的输入可以为***成功率的指标数值均值、流量的指标数值均值。异常检测器输出为待检测***存在故障的条件为:流量的指标数值均值大于h3且***成功率的指标数值均值小于h2。对应的,预警加止损检测类型对应的故障检测模型的示意图可以如图3所示。
其中,h2为***成功率阈值参数(预警加止损);h3为最小流量阈值参数。其中,h2例如可以为30%;h3例如可以为100。
进一步的,在上述实施例的基础上,比较器的阈值参数的确定方式可以为,获取与比较器对应的预设指标以及计算器,获取待检测***未出现故障时预设指标的第一时间序列,以及出现故障时预设指标的第二时间序列;根据第一时间序列、第二时间序列和计算器确定比较器的阈值参数;或者,根据第一时间序列、第二时间序列、计算器以及3σ准则确定比较器的参数。
其中,例如,***成功率阈值参数、***成功率同比阈值参数和***成功率环比阈值参数可以根据第一时间序列、第二时间序列和计算器确定;而流量服从正太分布,因此,流量阈值参数、流量同比阈值参数和流量环比阈值参数可以根据第一时间序列、第二时间序列、计算器以及3σ准则确定。
本发明实施例的故障检测装置,通过获取待检测***的指标数据,指标数据中包括:至少一个预设指标的时间序列,时间序列中包括:预设指标在当前时间点以及之前各个时间点的指标数值;获取待检测***对应的故障检测模型,故障检测模型包括:至少一个计算器和异常检测器;针对每个预设指标,将预设指标的时间序列输入对应的计算器,获取预设指标在当前时间点的计算值;将各个预设指标在当前时间点的计算值输入异常检测器,确定待检测***是否存在故障并进行处理,从而能够基于一段时间内的指标数值,结合异常检测器来确定待检测***是否存在故障,故障检测准确率高,且在指标增加时,相应增加计算器即可,扩展性好。
图5为本发明实施例提供的另一种故障检测装置的结构示意图。该故障检测装置包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的故障检测方法。
进一步地,故障检测装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的故障检测方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的故障检测方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的故障检测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种故障检测方法,其特征在于,包括:
获取待检测***的指标数据,所述指标数据中包括:至少一个预设指标的时间序列,所述时间序列中包括:所述预设指标在当前时间点以及之前各个时间点的指标数值;
获取所述待检测***对应的故障检测模型,所述故障检测模型包括:至少一个计算器和异常检测器;
针对每个预设指标,将所述预设指标的时间序列输入对应的计算器,获取所述预设指标在当前时间点的计算值;
将各个预设指标在当前时间点的计算值输入异常检测器,确定所述待检测***是否存在故障。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待检测***对应的故障检测模型,包括:
获取所述待检测***的检测类型,所述检测类型包括:预警、预警加止损;
获取与所述检测类型对应的故障检测模型。
3.根据权利要求1所述的方法,其特征在于,所述计算器包括:累积窗口均值计算器、基于趋势性的计算器、基于周期性的计算器;
所述累积窗口均值计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值均值;
所述基于趋势性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值和,与前一个窗口长度内的指标数值和的比值;
所述基于周期性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数之和,与至少一个周期之前窗口长度内的指标数值和的比值。
4.根据权利要求1或3所述的方法,其特征在于,所述异常检测器中包括:至少一个比较器以及一个决策器;
每个预设指标加一个计算器,与比较器之间具有一一对应关系;
所述将各个预设指标在当前时间点的计算值输入异常检测器,确定所述待检测***是否存在故障,包括:
针对每个预设指标的每个计算值,获取与输出所述计算值的计算器以及所述预设指标对应的比较器;
将所述计算值输入所述比较器,获取比较结果;
将各个预设指标对应的比较结果输入决策器,确定所述待检测***是否存在故障。
5.根据权利要求4所述的方法,其特征在于,所述比较器包括:相对值比较器和绝对值比较器;
当所述比较器对应的计算器为累积窗口均值计算器时,所述相对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值,获取所述差值与所述计算值的比值;将所述比值与预设的阈值参数进行比较,得到比较结果;
所述绝对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值;将所述差值与预设的阈值参数进行比较,得到比较结果。
6.根据权利要求5所述的方法,其特征在于,所述比较器的阈值参数的确定方式为,
获取与所述比较器对应的预设指标以及计算器,获取待检测***未出现故障时所述预设指标的第一时间序列,以及出现故障时所述预设指标的第二时间序列;
根据所述第一时间序列、第二时间序列和所述计算器确定所述比较器的阈值参数;或者,根据所述第一时间序列、第二时间序列、所述计算器以及3σ准则确定所述比较器的参数。
7.根据权利要求1所述的方法,其特征在于,所述预设指标包括:***成功率和流量。
8.一种故障检测装置,其特征在于,包括:
获取模块,用于获取待检测***的指标数据,所述指标数据中包括:至少一个预设指标的时间序列,所述时间序列中包括:所述预设指标在当前时间点以及之前各个时间点的指标数值;
所述获取模块,还用于获取所述待检测***对应的故障检测模型,所述故障检测模型包括:至少一个计算器和异常检测器;
输入模块,用于针对每个预设指标,将所述预设指标的时间序列输入对应的计算器,获取所述预设指标在当前时间点的计算值;
所述输入模块,还用于将各个预设指标在当前时间点的计算值输入异常检测器,确定所述待检测***是否存在故障。
9.根据权利要求8所述的装置,其特征在于,所述获取模块具体用于,
获取所述待检测***的检测类型,所述检测类型包括:预警、预警加止损;
获取与所述检测类型对应的故障检测模型。
10.根据权利要求8所述的装置,其特征在于,所述计算器包括:累积窗口均值计算器、基于趋势性的计算器、基于周期性的计算器;
所述累积窗口均值计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值均值;
所述基于趋势性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数值和,与前一个窗口长度内的指标数值和的比值;
所述基于周期性的计算器输出的计算值为,预设指标在当前时间点之前窗口长度内的指标数之和,与至少一个周期之前窗口长度内的指标数值和的比值。
11.根据权利要求8或10所述的装置,其特征在于,所述异常检测器中包括:至少一个比较器以及一个决策器;
每个预设指标加一个计算器,与比较器之间具有一一对应关系;
所述输入模块具体用于,
针对每个预设指标的每个计算值,获取与输出所述计算值的计算器以及所述预设指标对应的比较器;
将所述计算值输入所述比较器,获取比较结果;
将各个预设指标对应的比较结果输入决策器,确定所述待检测***是否存在故障。
12.根据权利要求11所述的装置,其特征在于,所述比较器包括:相对值比较器和绝对值比较器;
当所述比较器对应的计算器为累积窗口均值计算器时,所述相对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值,获取所述差值与所述计算值的比值;将所述比值与预设的阈值参数进行比较,得到比较结果;
所述绝对值比较器获取比较结果的方式为,获取预设指标在当前时间点的指标数值与计算值的差值;将所述差值与预设的阈值参数进行比较,得到比较结果。
13.根据权利要求12所述的装置,其特征在于,所述比较器的阈值参数的确定方式为,
获取与所述比较器对应的预设指标以及计算器,获取待检测***未出现故障时所述预设指标的第一时间序列,以及出现故障时所述预设指标的第二时间序列;
根据所述第一时间序列、第二时间序列和所述计算器确定所述比较器的阈值参数;或者,根据所述第一时间序列、第二时间序列、所述计算器以及3σ准则确定所述比较器的参数。
14.根据权利要求8所述的装置,其特征在于,所述预设指标包括:***故障率和***流量。
15.一种故障检测装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的故障检测方法。
16.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的故障检测方法。
17.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如权利要求1-7中任一所述的故障检测方法。
CN201910079290.6A 2019-01-28 2019-01-28 故障检测方法及装置 Pending CN109861857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910079290.6A CN109861857A (zh) 2019-01-28 2019-01-28 故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910079290.6A CN109861857A (zh) 2019-01-28 2019-01-28 故障检测方法及装置

Publications (1)

Publication Number Publication Date
CN109861857A true CN109861857A (zh) 2019-06-07

Family

ID=66896478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910079290.6A Pending CN109861857A (zh) 2019-01-28 2019-01-28 故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN109861857A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796361A (zh) * 2019-10-24 2020-02-14 吉林吉大通信设计院股份有限公司 一种基于人工智能的idc设备故障风险评估方法
CN111314110A (zh) * 2020-01-17 2020-06-19 南京大学 一种用于分布式***的故障预警方法
CN111522678A (zh) * 2020-04-14 2020-08-11 聚好看科技股份有限公司 故障检测方法和装置
CN113391983A (zh) * 2021-06-07 2021-09-14 北京达佳互联信息技术有限公司 报警信息的生成方法、装置、服务器及存储介质
CN113487362A (zh) * 2021-07-14 2021-10-08 神策网络科技(北京)有限公司 异常用户的检测方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1213429A (zh) * 1996-02-16 1999-04-07 住友金属工业株式会社 异常检测方法及异常检测***
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置
US20140136694A1 (en) * 2012-11-15 2014-05-15 Hitachi, Ltd. Network abnormality detection system, measurement apparatus, and analysis apparatus
CN104317681A (zh) * 2014-09-02 2015-01-28 上海交通大学 针对计算机***的行为异常自动检测方法及检测***
CN104915846A (zh) * 2015-06-18 2015-09-16 北京京东尚科信息技术有限公司 一种电子商务时间序列数据的异常检测方法及***
US20170242076A1 (en) * 2016-02-23 2017-08-24 Kabushiki Kaisha Yaskawa Denki Abnormality determining apparatus, abnormality determining method, and abnormality determining system
CN107703920A (zh) * 2017-10-25 2018-02-16 北京交通大学 基于多元时间序列的列车制动***的故障检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1213429A (zh) * 1996-02-16 1999-04-07 住友金属工业株式会社 异常检测方法及异常检测***
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置
US20140136694A1 (en) * 2012-11-15 2014-05-15 Hitachi, Ltd. Network abnormality detection system, measurement apparatus, and analysis apparatus
CN104317681A (zh) * 2014-09-02 2015-01-28 上海交通大学 针对计算机***的行为异常自动检测方法及检测***
CN104915846A (zh) * 2015-06-18 2015-09-16 北京京东尚科信息技术有限公司 一种电子商务时间序列数据的异常检测方法及***
US20170242076A1 (en) * 2016-02-23 2017-08-24 Kabushiki Kaisha Yaskawa Denki Abnormality determining apparatus, abnormality determining method, and abnormality determining system
CN107703920A (zh) * 2017-10-25 2018-02-16 北京交通大学 基于多元时间序列的列车制动***的故障检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796361A (zh) * 2019-10-24 2020-02-14 吉林吉大通信设计院股份有限公司 一种基于人工智能的idc设备故障风险评估方法
CN111314110A (zh) * 2020-01-17 2020-06-19 南京大学 一种用于分布式***的故障预警方法
CN111522678A (zh) * 2020-04-14 2020-08-11 聚好看科技股份有限公司 故障检测方法和装置
CN111522678B (zh) * 2020-04-14 2023-10-24 聚好看科技股份有限公司 故障检测方法和装置
CN113391983A (zh) * 2021-06-07 2021-09-14 北京达佳互联信息技术有限公司 报警信息的生成方法、装置、服务器及存储介质
CN113487362A (zh) * 2021-07-14 2021-10-08 神策网络科技(北京)有限公司 异常用户的检测方法、装置及设备

Similar Documents

Publication Publication Date Title
CN109861857A (zh) 故障检测方法及装置
CN109239265A (zh) 监测设备故障检测方法及装置
US8248228B2 (en) Method and device for optimizing the alarm configuration
US8238263B2 (en) Network status detection
CN110471821B (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN106656536A (zh) 一种用于处理服务调用信息的方法与设备
US20140244006A1 (en) Apparatus and method for monitoring the operating statuses of facilities on the basis of graphical sector representation
JP7251924B2 (ja) 故障診断装置、故障診断方法並びに故障診断装置が適用された機械
CN105549508B (zh) 一种基于信息合并的报警方法及装置
US20220028570A1 (en) Method for integrated online monitoring and system for integrated online monitoring from remote location for nuclear powerplant
CN103123602A (zh) 基于java的异常报警监控方法及其装置
CN109728956A (zh) 链路切换方法、装置、计算机设备和存储介质
CN108170581A (zh) 一种故障预警方法、装置及电子设备
CN110207784A (zh) 变压器油位告警方法、装置及终端设备
CN109992473A (zh) 应用***的监控方法、装置、设备及存储介质
CN109088775A (zh) 异常监控方法、装置以及服务器
CN107255526A (zh) 一种温度检测方法、检测模块及检测***
JP2020071845A (ja) 異常検知装置、異常検知方法および異常検知プログラム
CN109446024A (zh) 应用监控方法及装置
CN108955951A (zh) 一种温度传感器故障判断方法及装置
CN106845881A (zh) 一种库存异常数据的检测方法、装置及电子设备
CN109085811A (zh) 设备点检方法及装置
CN110878983B (zh) 空调故障的确定方法和装置
CN111221775A (zh) 处理器、缓存处理方法及电子设备
CN115499302A (zh) 业务***的监测方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607