CN107391335B - 一种用于检查集群健康状态的方法和设备 - Google Patents

一种用于检查集群健康状态的方法和设备 Download PDF

Info

Publication number
CN107391335B
CN107391335B CN201710205541.1A CN201710205541A CN107391335B CN 107391335 B CN107391335 B CN 107391335B CN 201710205541 A CN201710205541 A CN 201710205541A CN 107391335 B CN107391335 B CN 107391335B
Authority
CN
China
Prior art keywords
check
cluster
updated
rule
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710205541.1A
Other languages
English (en)
Other versions
CN107391335A (zh
Inventor
曹锋
林江彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN107391335A publication Critical patent/CN107391335A/zh
Application granted granted Critical
Publication of CN107391335B publication Critical patent/CN107391335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请的目的是提供一种用于检查集群健康状态的方法和设备,通过获取待检查的集群的相关信息;获取至少一个待检查的问题及其对应的检查规则;基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息,实现了对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度,同时也提高了对线上的分布式文件***进行多检查点监控的实时性,并达到提前进行多个检查点进行报警的目的。

Description

一种用于检查集群健康状态的方法和设备
技术领域
本申请涉及计算机领域,尤其涉及一种用于检查集群健康状态的技术。
背景技术
在分布式集群报警***中,随着用户设备的海量数据的暴增,分布式文件***(Distributed File System)的规模也在不断增长;但随着分布式文件***所在集群的老化和业务的不断增长,各种问题层出不穷,且往往一个集群节点中的单个服务器出现的单点问题都有可能积累而导致很大的故障;然而当问题突发时依靠报警***所在的平台进行报警,以唤醒维护人员进行调查并执行解决问题的方法可能会因为错过解决问题的最佳时间而引发故障。
现有技术中,分布式集群报警***分别对各个集群节点下的单个服务设备的硬件(例如,内存,硬盘或软件实体中的局部模块)和操作***进行单点报警,在单点出现问题时进行报警,并将大量的报警由服务设备进行简单的异常报警信息的获取后统一报警给维护人员。由于现有技术中的分布式集群报警***只在单点出现问题时进行报警,故在报警前若报警阈值设置过松有可能导致引发故障,而报警阈值设置过严会造成大量的误报;又由于现有技术中的分布式集群报警***主要针对服务设备的硬件和操作***的单点进行报警,并没有对分布式文件***的可用性、性能及服务质量等做出判断,造成片面性地对整个分布式文件***进行报警,导致报警准确度低;又由于现有技术中的分布式集群报警***仅是简单地将大量的异常报警信息获取并统一报警给维护人员,以待维护人员进行调查并解决问题,导致报警准确度低且实时性差。
因此,现有技术中采用分布式集群报警***对分布式文件***中的各集群节点下的单个服务设备的硬件和操作***出现的问题进行单点报警,导致报警准确度低且实时性差。
发明内容
本申请的目的是提供一种用于检查集群健康状态的方法与设备,以解决现有技术中采用分布式集群报警***对分布式文件***中的各集群节点下的单个服务设备的硬件和操作***出现的问题进行单点报警,导致报警准确度低且实时性差的问题。
根据本申请的一个方面,提供了一种用于检查集群健康状态的方法,包括:
获取待检查的集群的相关信息;
获取至少一个待检查的问题及其对应的检查规则;
基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。
进一步地,对所述监控数据进行聚合处理以获得处理结果包括:
基于所述待检查的问题对应的检查规则,对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。
根据本申请的一个方面,提供了一种用于检查集群健康状态的方法,还包括:
创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;
对所述问题规则库中的问题及其所对应的检查规则进行更新。
进一步地,对所述问题规则库中的问题及其所对应的检查规则进行更新包括:
获取待检查的集群的相关信息、待更新问题及其初始监控阈值;
基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;
在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;
基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
根据本申请的另一方面,还提供了一种用于检查集群健康状态的设备,包括:
信息获取装置,用于获取待检查的集群的相关信息;
规则获取装置,用于获取至少一个待检查的问题及其对应的检查规则;
监控处理装置,用于基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
预警反馈装置,用于基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。
进一步地,所述监控处理装置包括:
数据处理单元,用于基于所述待检查的问题对应的检查规则对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。
根据本申请的一个方面,提供了一种用于检查集群健康状态的设备,还包括:
创建规则装置,用于创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;
规则更新装置,用于对所述问题规则库中的问题及其所对应的检查规则进行更新。
进一步地,所述规则更新装置包括:
第一信息获取单元,用于获取待检查的集群的相关信息、待更新问题及其初始监控阈值;
第一记录单元,用于基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;
第一概率更新单元,用于在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;
第一规则更新单元,用于基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
此外,本申请还提供了一种用于检查集群健康状态的设备,包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待检查的集群的相关信息;
获取至少一个待检查的问题及其对应的检查规则;
基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。
与现有技术相比,本申请的实施例提供的一种用于检查集群健康状态的方法和设备,通过获取待检查的集群的相关信息;获取至少一个待检查的问题及其对应的检查规则;基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。由于在对线上的分布式文件***进行健康状况预判之前,将分布式文件***的线上尽可能出现异常的待检查的问题进行对应的规则化以获取所述待检查的问题对应的检查规则,使得在对线上的分布式文件***进行健康状况预判时,能够直接获取各检查点对应的监控数据,并利用所述检查规则对所述检查点的监控数据进行聚合处理以得到处理的结果,提高了对各集群节点下的多个检查点进行健康状况监控的准确度,并基于处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息,以待维护人员基于反馈的所述健康预警信息对各集群节点下发现问题的各个检查点提前预警并处理相关健康预警信息,从而提高了对线上的分布式文件***进行多检查点监控的实时性,并达到提前多点报警的目的;进一步地,对所述监控数据进行聚合处理以获得处理结果包括:基于所述待检查的问题对应的检查规则,对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果,实现了对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度。
进一步地,本申请的实施例提供的一种用于检查集群健康状态的方法和设备,还通过创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;对所述问题规则库中的问题及其所对应的检查规则进行更新,保证了对线上的分布式文件***中尽可能出现问题的各个检查点进行检查规则的创建,并基于各检查点的监控数据对所述问题规则库中的问题及其所对应的检查规则进行更新,以保证创建的问题规则库中能够更全面更精确的反应分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
进一步地,对所述问题规则库中的问题及其所对应的检查规则进行更新包括:获取待检查的集群的相关信息、待更新问题及其初始监控阈值;基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,使得通过对所述待更新问题的出现时间点前的设定时间段内的所有所述检查点的监控数据,基于所述初始监控阈值进行预判,并在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率,从而将更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,从而通过更新所述待更新问题的检查规则来更新所述问题规则库,使得所述问题规则库能够更全面更精确的反映分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于检查集群健康状态的方法流程示意图;
图2示出根据本申请又一个方面的一种用于检查集群健康状态的方法中对应的创建问题规则库的方法流程示意图;
图3示出根据本申请一实施例中提供的一种用于检查集群健康状态的方法中对应的创建问题库规则对应的步骤S16的方法流程示意图;
图4示出根据本申请再一实施例中提供的一种用于检查集群健康状态的方法中对应的创建问题库规则对应的步骤S16的方法流程示意图;
图5示出根据本申请一个方面的一种用于检查集群健康状态的设备结构示意图;
图6示出根据本申请又一个方面的一种用于检查集群健康状态的设备中对应的创建问题规则库的设备结构示意图;
图7示出根据本申请一实施例中提供的一种用于检查集群健康状态的设备中的规则更新装置16的结构示意图;
图8示出根据本申请再一实施例中提供的一种用于检查集群健康状态的设备中的规则更新装置16的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
图1示出根据本申请一个方面的一种用于检查集群健康状态的方法流程示意图。该方法包括步骤S11、步骤S12、步骤S13和步骤S14。
其中,所述步骤S11:获取待检查的集群的相关信息;所述步骤S12:获取至少一个待检查的问题及其对应的检查规则;所述步骤S13:基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;所述步骤S14:基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。
在本申请的实施例中,所述步骤S11中的所述待检查的集群是位于分布式文件***中的一个或多个集群节点上,其中,所述分布式文件***是指文件***管理的物理存储资源不一定直接连接在本地节点,而是通过计算机网络与节点相连。下面以分布式文件***为例对本申请进行具体实施例的详细解释。当然,此处采用分布式文件***为例对本申请进行具体实施例的详细解释,仅仅出于示例的目的,本申请的实施例不限于此,在其它的分布式集群***中同样可以实现下述实施例。
进一步地,所述检查点包括以下至少任一项:所述集群中的硬件设备、所述集群中的软件设备的局部模块。
需要说明的是,所述步骤S13中的所述检查点可以是包括但不限于包括分布式文件***中的各集群节点下的单个服务器的硬件设备和分布式文件***中的软件设备的局部模块。其中,所述服务器的硬件设备包括但不限于包括中央处理器、内存、硬盘、芯片组、输入输出总线、输入输出设备、电源及机箱等,所述软件设备的局部模块包括但不限于***设置程序模块、故障诊断程序模块及故障处理程序模块等。当然,其他现有的或今后可能出现的所述检查点如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
进一步地,所述步骤S11包括:获取待检查的集群的相关信息;具体地,所述步骤S11包括:基于用户提交的请求,获取待检查的集群的相关信息,其中,所述相关信息包括:集群位置信息和检查时间段。
在本申请的实施例中,当需要对线上的分布式文件***的健康状况进行监控时获取用户提交的请求,基于用户提交的请求获取待检查的集群的所述集群位置信息和监控所述待检查的集群的检查时间段,其中所述集群位置信息和所述检查时间段都属于所述待检查的集群的相关信息。
例如,当需要对线上的分布式文件***的健康状况进行监控时获取用户提交的对集群中的各个检查点进行监控的请求,基于用户提交的请求获取对应的待检查的集群所在的集群位置信息和获取的多个检查点的监控数据对应的一个或多个检查时间段,其中,所述集群位置信息可以是分布于不同区域的集群节点所在的实际地理位置范围,亦可以是同一地域的集群节点所在的实际地理位置范围。
进一步地,所述步骤S12包括:获取至少一个待检查的问题及其对应的检查规则;具体地,所述步骤S12包括:从问题规则库中获取至少一个待检查的问题及其对应的检查规则。
需要说明的是,所述步骤S12中的所述问题规则库主要包括已经建立好的问题及其对应的多个检查规则。其中,所述问题包括但不限于包括内存泄露、读写长尾、数据丢失、与***性能问题、与***可用性问题及服务质量问题等;所述检查规则包括检查点及其对应的监控数据的异常阈值。当然,其他现有的或今后可能出现的所述问题规则库如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
例如,所述问题规则库存在的问题为内存泄漏,则其对应的检查规则包括:所述检查点为近一周业务压力的变化率及其对应的异常阈值、所述检查点为创建文件总量及其对应的异常阈值和所述检查点为内存使用增长斜率及其对应的异常阈值;所述问题规则库存在的问题为读写长尾,则其对应的检查规则包括:所述检查点为近一周的读写调用频率及其对应的异常阈值、所述检查点为集群中网络的重传率及其对应的异常阈值和所述检查点为集群中的磁盘健康状态分值信息及其对应的异常阈值。
进一步地,所述步骤S13中的从所述集群中获取与所述检查规则相关的检查点的监控数据包括:基于所述集群位置信息查找所述集群,并获取所述集群中与所述检查规则相关的检查点;从所述集群的监控模块中获取所述检查时间段内相关所述检查点的监控数据。
需要说明的是,所述集群的监控模块主要负责从所述集群中的监控***获取各个硬件设备以及软件设备相关的各检查点的监控数据。当然,其他现有的或今后可能出现的所述集群的监控模块如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的上述实施例中,在所述步骤S13中若所述集群位置信息为上海地理位置信息,则基于所述上海地理位置信息查找到所述上海集群,并从所述上海集群中获取与所述检查规则相关的各检查点;接着从所述上海集群的监控模块中获取所述检查时间段内相关各所述检查点的监控数据,则有获取到的所述检查点为创建文件总量的监控数据为34、所述检查点为内存使用增长斜率的监控数据为48%、所述检查点为近一周业务压力的变化率的监控数据为1%,所述检查点为近一周的读写调用频率的监控数据为75.6%,所述检查点为集群中网络的重传率的监控数据为5.3%,所述检查点为集群中的磁盘健康状态分值信息的监控数据为15。
进一步地,所述步骤S13中的对所述监控数据进行聚合处理以获得处理结果包括:基于所述待检查的问题对应的检查规则,对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。
在本申请的上述实施例中,在所述步骤S133中可以通过基于所述待检查的问题对应的检查规则,分别比较多个检查点的监控数据来判断是否存在所述待检查的问题。若预判线上的分布式文件***是否存在内存泄露的问题,则可以通过分别对近一周业务压力的变化率,创建文件总量,内存使用增长斜率这三个检查点对应的监控数据进行相应的所述检查规则的匹配,以获得处理结果来进行预判;若预判线上的分布式文件***是否存在读写长尾的问题,则可以通过分别对近一周的读写调用频率,集群中网络的重传率,集群中的磁盘健康状态分值信息这三个检查点对应的监控数据进行相应的所述检查规则的匹配以获得处理结果来进行预判。
例如,若在所述待检查的问题为内存泄露的检查规则中,所述检查点为创建文件总量的异常阈值为30,由于所述检查点为创建文件总量的监控数据为34超过了所述异常阈值30,则所述检查点为创建文件总量出现异常;所述检查点为内存使用增长斜率的异常阈值为20%,由于所述检查点为内存使用增长斜率的监控数据为48%超出所述异常阈值20%,则所述检查点为内存使用增长斜率出现异常,所述检查点为近一周业务压力的变化率的异常阈值为14%,由于所述检查点为近一周业务压力的变化率的监控数据为1%小于所述异常阈值14%,则所述检查点为近一周业务压力的变化率正常;若在所述待检查的问题为读写长尾的检查规则中,所述检查点为近一周的读写调用频率的异常阈值为30%,由于所述检查点为近一周的读写调用频率的监控数据为75.6%超过所述异常阈值30%,则所述检查点为近一周的读写调用频率出现异常,所述检查点为集群中网络的重传率的异常阈值为10%,由于所述检查点为集群中网络的重传率的监控数据为5.3%小于所述异常阈值10%,则所述检查点为集群中网络的重传率正常,所述检查点为集群中的磁盘健康状态分值信息的异常阈值为60,由于所述检查点为集群中的磁盘健康状态分值信息的监控数据为15小于所述异常阈值60,则所述检查点为集群中的磁盘健康状态分值信息正常,因此获得的处理结果为所述待检查的问题为内存泄露对应的检查规则中的所述检查点为创建文件总量出现异常、所述检查点为内存使用增长斜率出现异常,所述待检查的问题为读写长尾对应的检查规则中的所述检查点为近一周的读写调用频率出现异常。
在本申请的上述实施例中,在所述步骤S13中基于所述待检查的问题对应的检查规则分别对各所述检查点的监控数据进行处理后,得到相应的处理结果;接着,在所述步骤S14中,基于所述处理结果调取对应所述问题,由于所述处理结果为:所述待检查的问题为内存泄露对应的检查规则中的所述检查点为创建文件总量出现异常、所述检查点为内存使用增长斜率出现异常,所述待检查的问题为读写长尾对应的检查规则中的所述检查点为近一周的读写调用频率出现异常,则调取对应所述问题为内存泄露和读写长尾,在所述步骤S14中,基于所述问题的相关信息生成并反馈健康预警信息。
进一步地,所述问题的相关信息包括至少以下任一项:所述问题的出现时间、每一相关所述检查点的监控数据、出现所述问题时发生监控数据异常的所述检查点。
接着上述实施例,基于所述问题的相关信息生成健康预警信息,则有所述健康预警信息包括所述问题及其对应的出现时间和出现所述问题时发生监控数据异常的各所述检查点及其监控数据。
例如,基于所述处理结果为:所述待检查的问题为内存泄露对应的检查规则中的所述检查点为创建文件总量出现异常、所述检查点为内存使用增长斜率出现异常,所述待检查的问题为读写长尾对应的检查规则中的所述检查点为近一周的读写调用频率出现异常,则调取对应所述问题为内存泄露和读写长尾;并基于所述问题的相关信息根据所述分布式文件***中的预警报告模板生成并反馈所述健康预警信息,其中生成的所述健康预警信息为{{内存泄露:在t1时创建文件总量为34出现异常,在t2时内存使用增长斜率48%出现异常};{读写长尾:在t3时近一周的读写调用频率75.6%出现异常}},以反馈给***维护人员,以待***维护人员基于反馈的所述健康预警信息对所述集群下发现问题的各个检查点提前预警并处理相关健康预警信息,从而提高了对线上的分布式文件***进行多检查点监控的实时性,并达到提前对所述集群中的多个检查点的预警并处理健康预警信息的目的,也提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度。
在所述步骤S14中,若所有所述处理结果中各个所述检查点的监控数据都没有超过所述异常阈值,则生成健康状态信息,以待所述分布式文件***维护人员了解整个分布式文件***处于健康状态,无需进行健康预警处理。
在本申请的实施例中,在利用所述问题规则库对分布式分拣***中的各所述集群的检查点的监控数据进行聚合计算的过程中,还需要对所述问题规则库进行创建和不断地更新如图2所示。
图2示出根据本申请又一个方面的一种用于检查集群健康状态的方法中对应的创建问题规则库的方法流程示意图。该方法包括步骤S15和步骤S16。
其中,所述步骤S15包括:创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;所述步骤S16包括:对所述问题规则库中的问题及其所对应的检查规则进行更新。
在本申请的实施例中,在对所述分布式文件***中的各个检查点的监控数据进行聚合计算之前,需创建所述问题规则库,其中所述问题规则库包括至少一个问题及每个所述问题对应的检查规则,在所述检查规则中包括至少一个检查点及每一所述检查点的异常阈值,即当一个问题发生之前会有多个检查点出现异常,并基于出现异常的多个检查点来预判出现异常的对应的所述问题。
例如,所述问题规则库中包括问题1、问题2以及问题3,其中,所述问题1对应的检查规则为{问题1:检查点A的异常阈值为A1、检查点B的异常阈值为B1和检查点C的异常阈值为C1};所述问题2对应的检查规则为{问题2:检查点D的异常阈值为D1、检查点E的异常阈值为E1和检查点F的异常阈值为F1};所述问题3对应的检查规则为{问题3:检查点G的异常阈值为G1和检查点H的异常阈值为G1}。
随着用户海量数据的暴增,所述分布式文件***的规模也在不断增长,由于对规模在不断增长的线上的分布式文件***的健康状况的预判过程中,当一个问题发生前实际会有多个检查点已经提前出现异常,则需要根据所述问题发生前的固定时间段内的各检查点的异常的监控数据进行迭代计算,以找到最能反应所述问题出现异常时对应的检查规则,如图3所示。
图3示出根据本申请一实施例中提供的一种用于检查集群健康状态的方法中对应的创建问题库规则对应的步骤S16的方法流程示意图。该方法包括:步骤S161、步骤S162、步骤S163和步骤S164。
其中,所述步骤S161获取待检查的集群的相关信息、待更新问题及其初始监控阈值;所述步骤S162基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;所述步骤S163在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;所述步骤S164基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
在本申请的实施例中,在需要对所述问题规则库中的问题进行更新时,首先,步骤S161获取待检查的集群的所述集群位置信息和检查时间段以及要进行训练的待更新问题及其对应的初始监控阈值;接着,所述步骤S162基于所述初始监控阈值从所述集群位置信息下对应的集群获取所述检查时间段内的所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,并将监控数据出现异常的所述检查点记录下来;然后,所述步骤S163在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;最后,所述步骤S164基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,从而通过更新所述待更新问题的检查规则来更新所述问题规则库,使得所述问题规则库能够更全面更精确的反映分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
进一步地,所述初始监控阈值包括:所有所述检查点的监控数据的异常阈值和出现异常的所述检查点的权重阈值;所述步骤162包括:基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;具体地,所述步骤162包括:基于所有所述检查点的监控数据的异常阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,并记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点,其中,所述检查点的权重基于异常的所述检查点的出现概率确定。
需要说明的是,当所述待更新问题发生时,所述检查点的出现概率与所述检查点的权重的计算方法如下。若所述待更新问题1在所述设定时间段内出现1000次,所述检查点A出现654次,所述检查点B出现252次,所述检查点C出现94次,则有所述检查点A的出现概率为65.4%,所述检查点B的出现概率为25.2%,所述检查点C的出现概率为9.4%,其中,所述检查点A的权重为:65.4%/(65.4%+25.2%+9.4%)=65.4%,所述检查点B的权重为:25.2%/(65.4%+25.2%+9.4%)=25.2%,所述检查点C的权重为:9.4%/(65.4%+25.2%+9.4%)=9.4%。当然,其他现有的或今后可能出现的所述检查点的出现概率与所述检查点的权重的计算方法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
优选地,所述步骤S162中的基于所述监控数据确定并记录异常的所述检查点包括:判断所述检查点的监控数据是否超出异常阈值;若超出则确定并记录相应异常的所述检查点。
例如,获取所述问题数据库中的待更新问题1对应的检查规则为{问题1:检查点A的异常阈值为A1、检查点B的异常阈值为B1和检查点C的异常阈值为C1}以及所述检查点的权重阈值为10%,基于需要进行检查的所述集群位置信息和所述检查时间段获取所述待更新问题1的出现时间点t时刻、及所述出现时间点t时刻前的设定时间段(t+△t)和(t+2△t)内分别对应的所有所述检查点的监控数据,并基于所述检查点的监控数据是否超出异常阈值来记录相应异常的所述检查点。若在所述出现时间点t时刻前的设定时间段(t+△t)内,获取的所述检查点的监控数据超出其对应的异常阈值的分别有:检查点A、检查点B以及检查点C,其中,在所述设定时间段(t+△t)内所述检查点A的出现概率为65.4%,所述检查点B的出现概率为25.2%,所述检查点C的出现概率为9.4%,基于所述出现概率进行权重计算,则所述检查点的权重为每一所述检查点的出现概率与所有所述检查点的出现概率之和的比值信息,得到在所述设定时间段(t+△t)内所述检查点A的权重为65.4%,所述检查点B的权重为25.2%,所述检查点C的权重为9.4%,基于所述检查点的权重阈值为10%,所以在所述设定时间段(t+△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其权重65.4%和所述检查点B及其权重25.2%。若在所述出现时间点t时刻前的设定时间段(t+2△t)内,获取的所述检查点的监控数据超出其对应的异常阈值的分别有:检查点A、检查点B以及检查点D,其中,在所述设定时间段(t+2△t)内所述检查点A的出现概率为50.5%,所述检查点B的出现概率为1.4%,所述检查点D的出现概率为48.1%,基于所述出现概率进行权重计算,得到在所述设定时间段(t+2△t)内所述检查点A的权重为50.5%,所述检查点B的权重为1.4%,所述检查点D的权重为48.1%,基于所述检查点的权重阈值为10%,所以在所述设定时间段(t+2△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其权重50.5%和所述检查点D及其权重48.1%。
进一步地,所述步骤S163包括:在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;具体地,所述步骤S163包括:在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段所记录的异常的所述检查点的出现概率确定当前所述设定时间段内的所述检查点的当前权重;基于所述检查点的当前权重和历史记录的异常的所述检查点的历史权重,更新每一所述检查点在所述待更新问题出现时的出现概率。
接着本申请的上述实施例,若所述待更新问题1在时刻t出现异常前的当前设定时间段(t+△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其当前权重65.4%和所述检查点B及其当前权重25.2%,其中,所述检查点的当前权重基于所述检查点的出现概率确定;若所述待更新问题1在时刻t出现异常前的历史所述设定时间段(t+2△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其历史权重50.5%和所述检查点D及其历史权重48.1%;则基于所述待更新问题1的每一所述检查点的当前权重和历史权重,更新每一所述检查点在所述待更新问题出现时的出现概率,即更新每一所述检查点在所述待更新问题出现时的综合权重,其中,所述检查点的综合权重为所述检查点的当前权重和历史权重的均值,则有所述待更新问题对应的检查点A的综合权重为(65.4%+50.5%)/2=57.95%,所述检查点B的综合权重为(25.2%+1.4%)/2=13.3%,所述检查点D的综合权重为(0+48.1%)/2=24.05%,则基于所述检查点的档期内权重和历史记录的所述检查点的历史权重,更新每一所述检查点在所述待更新问题1出现时的出现概率,即更新后的所述检查点A的出现概率为57.95%,更新后的所述检查点B的出现概率为13.3%,更新后的所述检查点D的出现概率为24.05%。
接着本申请的上述实施例,所述步骤S164中的所述设定概率与所述检查点的权重阈值的数值一致,即所述设定概率为10%,由于所述待更新问题1对应的检查点A及其更新后的出现概率57.95%高于所述设定概率10%,检查点B及其更新后的出现概率13.3%高于所述设定概率10%,检查点D及其更新后的出现概率24.05%高于所述设定概率10%,则将所述检查点C从所述问题规则库中的所述待更新问题1的检查规则中丢弃,将所述检查点及其对应的异常阈值加入所述问题规则库中的所述待更新问题的检查规则中,并基于所述更新后的所述出现概率高于所述设定概率的所述检查点A、所述检查点B和所述检查点D及其相关信息,更新所述待更新问题的检查规则。
进一步地,所述检查点的相关信息包括以下至少任一项:所述检查点的监控数据的异常阈值、所述检查点的权重,其中,所述检查点的权重基于所述检查点的出现概率确定。
接着本申请的上述实施例,将所述检查点A及其对应的监控数据的异常阈值A1和权重57.95%,所述检查点B及其对应的监控数据的异常阈值B1和权重13.3%,及所述检查点D及其对应的监控数据的异常阈值D1和权重24.05%作为所述待更新问题1的检查规则进行更新。
随着对所述分布式文件***进行不断地健康检查并获取康健预警信息,并基于所述健康预警信息进行提前处理的过程中,用户会获取到不只一个的对所述分布式文件***进行处理后的检查结果信息,当一个问题发生前实际会有多个检查点已经提前出现异常,则需要基于获取的所述检查结果信息,根据所述问题发生前的固定时间段内的各检查点的异常的监控数据进行迭代计算,以找到最能反应所述问题出现异常时对应的检查规则,如图4所示。
图4示出根据本申请再一实施例中提供的一种用于检查集群健康状态的方法中对应的创建问题库规则对应的步骤S16的方法流程示意图。该方法包括:步骤S165、步骤S166、步骤S167和步骤S168。
其中,所述步骤S165获取待更新问题,并从至少一个所述检查结果信息中获取所述待更新问题的出现时间点;所述步骤S166获取所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;所述步骤S167基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;所述步骤S168基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
需要说明的是,所述检查结果信息是在对所述分布式文件***进行检查的过程中获取的与健康预警信息相关的结果信息。所述检查结果信息包括至少以下任一项:出现异常的所述问题、出现所述问题的出现时间点、出现所述问题时对应出现异常的检查点及其异常阈值。当然,其他现有的或今后可能出现的所述检查结果信息如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的实施例中,在需要对所述问题规则库中的问题进行更新时,首先,所述步骤S165获取待更新问题,并从至少一个所述检查结果信息中获取所述待更新问题的出现时间点;接着,所述步骤S166获取所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述检查点的监控数据及其异常阈值确定并记录异常的所述检查点;然后,所述步骤S167基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;最后,所述步骤S168基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,从而通过获取的至少一个所述检查结果信息来更新所述待更新问题的检查规则来更新所述问题规则库,使得所述问题规则库能够更全面更精确的反映分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
图5示出根据本申请一个方面的一种用于检查集群健康状态的设备结构示意图。该方法包括信息获取装置11、规则获取装置12、监控处理装置13和预警反馈装置14。
其中,所述信息获取装置11获取待检查的集群的相关信息;所述规则获取装置12获取至少一个待检查的问题及其对应的检查规则;监控处理装置13基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;预警反馈装置14基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。
在此,所述设备1包括但不限于用户设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、PDA等,所述移动电子产品可以采用任意操作***,如android操作***、iOS操作***等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,所述中央调度设备还可以是运行于所述用户设备与网络设备通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述中央调度设备仅为举例,其他现有的或今后可能出现的所述中央调度设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求。
在本申请的实施例中,所述信息获取装置11中的所述待检查的集群是位于分布式文件***中的一个或多个集群节点上,其中,所述分布式文件***是指文件***管理的物理存储资源不一定直接连接在本地节点,而是通过计算机网络与节点相连。下面以分布式文件***为例对本申请进行具体实施例的详细解释。当然,此处采用分布式文件***为例对本申请进行具体实施例的详细解释,仅仅出于示例的目的,本申请的实施例不限于此,在其它的分布式集群***中同样可以实现下述实施例。
进一步地,所述检查点包括以下至少任一项:所述集群中的硬件设备、所述集群中的软件设备的局部模块。
需要说明的是,所述监控处理装置13中的所述检查点可以是包括但不限于包括分布式文件***中的各集群节点下的单个服务器的硬件设备和分布式文件***中的软件设备的局部模块。其中,所述服务器的硬件设备包括但不限于包括中央处理器、内存、硬盘、芯片组、输入输出总线、输入输出设备、电源及机箱等,所述软件设备的局部模块包括但不限于***设置程序模块、故障诊断程序模块及故障处理程序模块等。当然,其他现有的或今后可能出现的所述检查点如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
进一步地,所述信息获取装置11基于用户提交的请求,获取待检查的集群的相关信息,其中,所述相关信息包括:集群位置信息和检查时间段。
在本申请的实施例中,当需要对线上的分布式文件***的健康状况进行监控时获取用户提交的请求,基于用户提交的请求获取待检查的集群的所述集群位置信息和监控所述待检查的集群的检查时间段,其中所述集群位置信息和所述检查时间段都属于所述待检查的集群的相关信息。
例如,当需要对线上的分布式文件***的健康状况进行监控时获取用户提交的对集群中的各个检查点进行监控的请求,基于用户提交的请求获取对应的待检查的集群所在的集群位置信息和获取的多个检查点的监控数据对应的一个或多个检查时间段,其中,所述集群位置信息可以是分布于不同区域的集群节点所在的实际地理位置范围,亦可以是同一地域的集群节点所在的实际地理位置范围。
进一步地,所述规则获取装置12从问题规则库中获取至少一个待检查的问题及其对应的检查规则。
需要说明的是,所述规则获取装置12中的所述问题规则库主要包括已经建立好的问题及其对应的多个检查规则。其中,所述问题包括但不限于包括内存泄露、读写长尾、数据丢失、与***性能问题、与***可用性问题及服务质量问题等;所述检查规则包括检查点及其对应的监控数据的异常阈值。当然,其他现有的或今后可能出现的所述问题规则库如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
例如,所述问题规则库存在的问题为内存泄漏,则其对应的检查规则包括:所述检查点为近一周业务压力的变化率及其对应的异常阈值、所述检查点为创建文件总量及其对应的异常阈值和所述检查点为内存使用增长斜率及其对应的异常阈值;所述问题规则库存在的问题为读写长尾,则其对应的检查规则包括:所述检查点为近一周的读写调用频率及其对应的异常阈值、所述检查点为集群中网络的重传率及其对应的异常阈值和所述检查点为集群中的磁盘健康状态分值信息及其对应的异常阈值。
进一步地,所述监控处理装置13包括:查找单元(未示出)和数据获取单元(未示出),其中,所述查找单元(未示出),用于基于所述集群位置信息查找所述集群,并获取所述集群中与所述检查规则相关的检查点;所述数据获取单元(未示出),用于从所述集群的监控模块中获取所述检查时间段内相关所述检查点的监控数据。
需要说明的是,所述集群的监控模块主要负责从所述集群中的监控***获取各个硬件设备以及软件设备相关的各检查点的监控数据。当然,其他现有的或今后可能出现的所述集群的监控模块如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的上述实施例中,在所述查找单元(未示出)中若所述集群位置信息为上海地理位置信息,则基于所述上海地理位置信息查找到所述上海集群,并从所述上海集群中获取与所述检查规则相关的各检查点;所述数据获取单元(未示出)从所述上海集群的监控模块中获取所述检查时间段内相关各所述检查点的监控数据,则有获取到的所述检查点为创建文件总量的监控数据为34、所述检查点为内存使用增长斜率的监控数据为48%、所述检查点为近一周业务压力的变化率的监控数据为1%,所述检查点为近一周的读写调用频率的监控数据为75.6%,所述检查点为集群中网络的重传率的监控数据为5.3%,所述检查点为集群中的磁盘健康状态分值信息的监控数据为100。
所述监控处理装置13包括:数据处理单元(未示出),其中,所述数据处理单元(未示出),用于基于所述待检查的问题对应的检查规则,对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。
在本申请的上述实施例中,在所述数据处理单元中可以通过基于所述待检查的问题对应的检查规则,分别比较多个检查点的监控数据来判断是否存在所述待检查的问题。若预判线上的分布式文件***是否存在内存泄露的问题,则可以通过分别对近一周业务压力的变化率,创建文件总量,内存使用增长斜率这三个检查点对应的监控数据进行相应的所述检查规则的匹配,以获得处理结果来进行预判;若预判线上的分布式文件***是否存在读写长尾的问题,则可以通过分别对近一周的读写调用频率,集群中网络的重传率,集群中的磁盘健康状态分值信息这三个检查点对应的监控数据进行相应的所述检查规则的匹配以获得处理结果来进行预判。
例如,若在所述待检查的问题为内存泄露的检查规则中,所述检查点为创建文件总量的异常阈值为30,由于所述检查点为创建文件总量的监控数据为34超过了所述异常阈值30,则所述检查点为创建文件总量出现异常;所述检查点为内存使用增长斜率的异常阈值为20%,由于所述检查点为内存使用增长斜率的监控数据为48%超出所述异常阈值20%,则所述检查点为内存使用增长斜率出现异常,所述检查点为近一周业务压力的变化率的异常阈值为14%,由于所述检查点为近一周业务压力的变化率的监控数据为1%小于所述异常阈值14%,则所述检查点为近一周业务压力的变化率正常;若在所述待检查的问题为读写长尾的检查规则中,所述检查点为近一周的读写调用频率的异常阈值为30%,由于所述检查点为近一周的读写调用频率的监控数据为75.6%超过所述异常阈值30%,则所述检查点为近一周的读写调用频率出现异常,所述检查点为集群中网络的重传率的异常阈值为10%,由于所述检查点为集群中网络的重传率的监控数据为5.3%小于所述异常阈值10%,则所述检查点为集群中网络的重传率正常,所述检查点为集群中的磁盘健康状态分值信息的异常阈值为60,由于所述检查点为集群中的磁盘健康状态分值信息的监控数据为15小于所述异常阈值60,则所述检查点为集群中的磁盘健康状态分值信息正常,因此获得的处理结果为所述待检查的问题为内存泄露对应的检查规则中的所述检查点为创建文件总量出现异常、所述检查点为内存使用增长斜率出现异常,所述待检查的问题为读写长尾对应的检查规则中的所述检查点为近一周的读写调用频率出现异常。
在本申请的上述实施例中,在所述监控处理装置13中基于所述待检查的问题对应的检查规则分别对各所述检查点的监控数据进行处理后,得到相应的处理结果;接着,在所述预警反馈装置14中,基于所述处理结果调取对应所述问题,由于所述处理结果为:所述待检查的问题为内存泄露对应的检查规则中的所述检查点为创建文件总量出现异常、所述检查点为内存使用增长斜率出现异常,所述待检查的问题为读写长尾对应的检查规则中的所述检查点为近一周的读写调用频率出现异常,则调取对应所述问题为内存泄露和读写长尾,在所述预警反馈装置14中,基于所述问题的相关信息生成并反馈健康预警信息。
进一步地,所述问题的相关信息包括至少以下任一项:所述问题的出现时间、每一相关所述检查点的监控数据、出现所述问题时发生监控数据异常的所述检查点。
接着上述实施例,基于所述问题的相关信息生成健康预警信息,则有所述健康预警信息包括所述问题及其对应的出现时间和出现所述问题时发生监控数据异常的各所述检查点及其监控数据。
例如,基于所述处理结果为:所述待检查的问题为内存泄露对应的检查规则中的所述检查点为创建文件总量出现异常、所述检查点为内存使用增长斜率出现异常,所述待检查的问题为读写长尾对应的检查规则中的所述检查点为近一周的读写调用频率出现异常,则调取对应所述问题为内存泄露和读写长尾;并基于所述问题的相关信息根据所述分布式文件***中的预警报告模板生成并反馈所述健康预警信息,其中生成的所述健康预警信息为{{内存泄露:在t1时创建文件总量为34出现异常,在t2时内存使用增长斜率48%出现异常};{读写长尾:在t3时近一周的读写调用频率75.6%出现异常}},以反馈给***维护人员,以待***维护人员基于反馈的所述健康预警信息对所述集群下发现问题的各个检查点提前预警并处理相关健康预警信息,从而提高了对线上的分布式文件***进行多检查点监控的实时性,并达到提前对所述集群中的多个检查点的预警并处理健康预警信息的目的,也提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度。
在所述预警反馈装置14中,若所有所述处理结果中各个所述检查点的监控数据都没有超过所述异常阈值,则生成健康状态信息,以待所述分布式文件***维护人员了解整个分布式文件***处于健康状态,无需进行健康预警处理。
在本申请的实施例中,在利用所述问题规则库对分布式分拣***中的各所述集群的检查点的监控数据进行聚合计算的过程中,还需要对所述问题规则库进行创建和不断地更新如图6所示。
图6示出根据本申请又一个方面的一种用于检查集群健康状态的设备中对应的创建问题规则库的设备结构示意图。该设备1还包括创建规则装置15和规则更新装置16。
其中,所述创建规则装置15创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;所述规则更新装置16对所述问题规则库中的问题及其所对应的检查规则进行更新。
在本申请的实施例中,在对所述分布式文件***中的各个检查点的监控数据进行聚合计算之前,需创建所述问题规则库,其中所述问题规则库包括至少一个问题及每个所述问题对应的检查规则,在所述检查规则中包括至少一个检查点及每一所述检查点的异常阈值,即当一个问题发生之前会有多个检查点出现异常,并基于出现异常的多个检查点来预判出现异常的对应的所述问题。
例如,所述问题规则库中包括问题1、问题2以及问题3,其中,所述问题1对应的检查规则为{问题1:检查点A的异常阈值为A1、检查点B的异常阈值为B1和检查点C的异常阈值为C1};所述问题2对应的检查规则为{问题2:检查点D的异常阈值为D1、检查点E的异常阈值为E1和检查点F的异常阈值为F1};所述问题3对应的检查规则为{问题3:检查点G的异常阈值为G1和检查点H的异常阈值为G1}。
随着用户海量数据的暴增,所述分布式文件***的规模也在不断增长,由于对规模在不断增长的线上的分布式文件***的健康状况的预判过程中,当一个问题发生前实际会有多个检查点已经提前出现异常,则需要根据所述问题发生前的固定时间段内的各检查点的异常的监控数据进行迭代计算,以找到最能反应所述问题出现异常时对应的检查规则,如图3所示。
图7示出根据本申请一实施例中提供的一种用于检查集群健康状态的设备中的规则更新装置16的结构示意图。该规则更新装置16包括:第一信息获取单元161、第一记录单元162、第一概率更新单元163和第一规则更新单元164。
其中,所述第一信息获取单元161获取待检查的集群的相关信息、待更新问题及其初始监控阈值;所述第一记录单元162基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;所述第一概率更新单元163在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;所述第一规则更新单元164基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
在本申请的实施例中,在需要对所述问题规则库中的问题进行更新时,首先,所述第一信息获取单元161获取待检查的集群的所述集群位置信息和检查时间段以及要进行训练的待更新问题及其对应的初始监控阈值;接着,所述第一记录单元162基于所述初始监控阈值从所述集群位置信息下对应的集群获取所述检查时间段内的所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,并将监控数据出现异常的所述检查点记录下来;然后,所述第一概率更新单元163在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;最后,所述第一规则更新单元164基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,从而通过更新所述待更新问题的检查规则来更新所述问题规则库,使得所述问题规则库能够更全面更精确的反映分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
进一步地,所述初始监控阈值包括:所有所述检查点的监控数据的异常阈值和出现异常的所述检查点的权重阈值;所述第一记录单元162用于:基于所有所述检查点的监控数据的异常阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,并记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点,其中,所述检查点的权重基于异常的所述检查点的出现概率确定。
需要说明的是,当所述待更新问题发生时,所述检查点的出现概率与所述检查点的权重的计算方法如下。若所述待更新问题1在所述设定时间段内出现1000次,所述检查点A出现654次,所述检查点B出现252次,所述检查点C出现94次,则有所述检查点A的出现概率为65.4%,所述检查点B的出现概率为25.2%,所述检查点C的出现概率为9.4%,其中,所述检查点A的权重为:65.4%/(65.4%+25.2%+9.4%)=65.4%,所述检查点B的权重为:25.2%/(65.4%+25.2%+9.4%)=25.2%,所述检查点C的权重为:9.4%/(65.4%+25.2%+9.4%)=9.4%。当然,其他现有的或今后可能出现的所述检查点的出现概率与所述检查点的权重的计算方法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
优选地,所述第一记录单元162包括:判断子单元(未示出)和记录子单元(未示出),其中,所述判断子单元(未示出),用于判断所述检查点的监控数据是否超出异常阈值;所述记录子单元(未示出),用于若超出则确定并记录相应异常的所述检查点。
例如,获取所述问题数据库中的待更新问题1对应的检查规则为{问题1:检查点A的异常阈值为A1、检查点B的异常阈值为B1和检查点C的异常阈值为C1}以及所述检查点的权重阈值为10%,基于需要进行检查的所述集群位置信息和所述检查时间段获取所述待更新问题1的出现时间点t时刻、及所述出现时间点t时刻前的设定时间段(t+△t)和(t+2△t)内分别对应的所有所述检查点的监控数据,并基于所述检查点的监控数据是否超出异常阈值来记录相应异常的所述检查点。若在所述出现时间点t时刻前的设定时间段(t+△t)内,获取的所述检查点的监控数据超出其对应的异常阈值的分别有:检查点A、检查点B以及检查点C,其中,在所述设定时间段(t+△t)内所述检查点A的出现概率为65.4%,所述检查点B的出现概率为25.2%,所述检查点C的出现概率为9.4%,基于所述出现概率进行权重计算,则所述检查点的权重为每一所述检查点的出现概率与所有所述检查点的出现概率之和的比值信息,得到在所述设定时间段(t+△t)内所述检查点A的权重为65.4%,所述检查点B的权重为25.2%,所述检查点C的权重为9.4%,基于所述检查点的权重阈值为10%,所以在所述设定时间段(t+△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其权重65.4%和所述检查点B及其权重25.2%。若在所述出现时间点t时刻前的设定时间段(t+2△t)内,获取的所述检查点的监控数据超出其对应的异常阈值的分别有:检查点A、检查点B以及检查点D,其中,在所述设定时间段(t+2△t)内所述检查点A的出现概率为50.5%,所述检查点B的出现概率为1.4%,所述检查点D的出现概率为48.1%,基于所述出现概率进行权重计算,得到在所述设定时间段(t+2△t)内所述检查点A的权重为50.5%,所述检查点B的权重为1.4%,所述检查点D的权重为48.1%,基于所述检查点的权重阈值为10%,所以在所述设定时间段(t+2△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其权重50.5%和所述检查点D及其权重48.1%。
进一步地,所述第一概率更新单元163包括:权重确定子单元(未示出)和概率更新子单元(未示出),其中,所述权重确定子单元(未示出),用于在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段所记录的异常的所述检查点的出现概率确定当前所述设定时间段内的所述检查点的当前权重;所述概率更新子单元(未示出),用于基于所述检查点的当前权重和历史记录的异常的所述检查点的历史权重,更新每一所述检查点在所述待更新问题出现时的出现概率。
接着本申请的上述实施例,若所述待更新问题1在时刻t出现异常前的当前设定时间段(t+△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其当前权重65.4%和所述检查点B及其当前权重25.2%,其中,所述检查点的当前权重基于所述检查点的出现概率确定;若所述待更新问题1在时刻t出现异常前的历史所述设定时间段(t+2△t)内,记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点为所述检查点A及其历史权重50.5%和所述检查点D及其历史权重48.1%;则基于所述待更新问题1的每一所述检查点的当前权重和历史权重,更新每一所述检查点在所述待更新问题出现时的出现概率,即更新每一所述检查点在所述待更新问题出现时的综合权重,其中,所述检查点的综合权重为所述检查点的当前权重和历史权重的均值,则有所述待更新问题对应的检查点A的综合权重为(65.4%+50.5%)/2=57.95%,所述检查点B的综合权重为(25.2%+1.4%)/2=13.3%,所述检查点D的综合权重为(0+48.1%)/2=24.05%,则基于所述检查点的档期内权重和历史记录的所述检查点的历史权重,更新每一所述检查点在所述待更新问题1出现时的出现概率,即更新后的所述检查点A的出现概率为57.95%,更新后的所述检查点B的出现概率为13.3%,更新后的所述检查点D的出现概率为24.05%。
接着本申请的上述实施例,所述步骤S164中的所述设定概率与所述检查点的权重阈值的数值一致,即所述设定概率为10%,由于所述待更新问题1对应的检查点A及其更新后的出现概率57.95%高于所述设定概率10%,检查点B及其更新后的出现概率13.3%高于所述设定概率10%,检查点D及其更新后的出现概率24.05%高于所述设定概率10%,则将所述检查点C从所述问题规则库中的所述待更新问题1的检查规则中丢弃,将所述检查点及其对应的异常阈值加入所述问题规则库中的所述待更新问题的检查规则中,并基于所述更新后的所述出现概率高于所述设定概率的所述检查点A、所述检查点B和所述检查点D及其相关信息,更新所述待更新问题的检查规则。
进一步地,所述检查点的相关信息包括以下至少任一项:所述检查点的监控数据的异常阈值、所述检查点的权重,其中,所述检查点的权重基于所述检查点的出现概率确定。
接着本申请的上述实施例,将所述检查点A及其对应的监控数据的异常阈值A1和权重57.95%,所述检查点B及其对应的监控数据的异常阈值B1和权重13.3%,及所述检查点D及其对应的监控数据的异常阈值D1和权重24.05%作为所述待更新问题1的检查规则进行更新。
随着对所述分布式文件***进行不断地健康检查并获取康健预警信息,并基于所述健康预警信息进行提前处理的过程中,用户会获取到不只一个的对所述分布式文件***进行处理后的检查结果信息,当一个问题发生前实际会有多个检查点已经提前出现异常,则需要基于获取的所述检查结果信息,根据所述问题发生前的固定时间段内的各检查点的异常的监控数据进行迭代计算,以找到最能反应所述问题出现异常时对应的检查规则,如图8所示。
图8示出根据本申请再一实施例中提供的一种用于检查集群健康状态的设备中的规则更新装置16的结构示意图。该规则更新装置16包括:第二信息获取单元165、第二记录单元166、第二概率更新单元167和第二规则更新单元168。
其中,所述第二信息获取单元165获取待更新问题,并从至少一个所述检查结果信息中获取所述待更新问题的出现时间点;所述第二记录单元166获取所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;所述第二概率更新单元167基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;所述第二规则更新单元168基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
需要说明的是,所述检查结果信息包括至少以下任一项:出现异常的所述问题、出现所述问题的出现时间点、出现所述问题时对应出现异常的检查点及其异常阈值。当然,其他现有的或今后可能出现的所述检查结果信息如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的实施例中,在需要对所述问题规则库中的问题进行更新时,首先,所述第二信息获取单元165获取待更新问题,并从至少一个所述检查结果信息中获取所述待更新问题的出现时间点;接着,所述第二记录单元166获取所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述检查点的监控数据及其异常阈值确定并记录异常的所述检查点;然后,所述第二概率更新单元167基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;最后,所述第二规则更新单元168基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,从而通过获取的至少一个所述检查结果信息来更新所述待更新问题的检查规则来更新所述问题规则库,使得所述问题规则库能够更全面更精确的反映分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
此外,本申请还提供了一种用于检查集群健康状态的设备,包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待检查的集群的相关信息;
获取至少一个待检查的问题及其对应的检查规则;
基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。
与现有技术相比,本申请的实施例提供的一种用于检查集群健康状态的方法和设备,通过获取待检查的集群的相关信息;获取至少一个待检查的问题及其对应的检查规则;基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。由于在对线上的分布式文件***进行健康状况预判之前,将分布式文件***的线上尽可能出现异常的待检查的问题进行对应的规则化以获取所述待检查的问题对应的检查规则,使得在对线上的分布式文件***进行健康状况预判时,能够直接获取各检查点对应的监控数据,并利用所述检查规则对所述检查点的监控数据进行聚合处理以得到处理的结果,提高了对各集群节点下的多个检查点进行健康状况监控的准确度,并基于处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息,以待维护人员基于反馈的所述健康预警信息对各集群节点下发现问题的各个检查点提前预警并处理相关健康预警信息,从而提高了对线上的分布式文件***进行多检查点监控的实时性,并达到提前多点报警的目的;进一步地,对所述监控数据进行聚合处理以获得处理结果包括:基于所述待检查的问题对应的检查规则,对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果,实现了对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度。
进一步地,本申请的实施例提供的一种用于检查集群健康状态的方法和设备,还通过创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;对所述问题规则库中的问题及其所对应的检查规则进行更新,保证了对线上的分布式文件***中尽可能出现问题的各个检查点进行检查规则的创建,并基于各检查点的监控数据对所述问题规则库中的问题及其所对应的检查规则进行更新,以保证创建的问题规则库中能够更全面更精确的反应分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
进一步地,对所述问题规则库中的问题及其所对应的检查规则进行更新包括:获取待检查的集群的相关信息、待更新问题及其初始监控阈值;基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,使得通过对所述待更新问题的出现时间点前的设定时间段内的所有所述检查点的监控数据,基于所述初始监控阈值进行预判,并在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率,从而将更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则,从而通过更新所述待更新问题的检查规则来更新所述问题规则库,使得所述问题规则库能够更全面更精确的反映分布式文件***中的异常检查点,并实现对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度和实时性。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (27)

1.一种用于检查集群健康状态的方法,其中,所述方法包括:
获取待检查的集群的相关信息;
从问题规则库获取至少一个待检查的问题及其对应的检查规则;
基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息;
对所述问题规则库中的问题及其所对应的检查规则进行更新,该过程包括:
获取待更新问题;
基于监控数据确定异常的检查点;
更新异常的检查点在所述待更新问题出现时的出现概率;
基于所述出现概率,更新所述待更新问题的检查规则。
2.根据权利要求1所述的方法,其中,所述获取待检查的集群的相关信息包括:
基于用户提交的请求,获取待检查的集群的相关信息,其中,所述相关信息包括:集群位置信息和检查时间段。
3.根据权利要求2所述的方法,其中,所述从所述集群中获取与所述检查规则相关的检查点的监控数据包括:
基于所述集群位置信息查找所述集群,并获取所述集群中与所述检查规则相关的检查点;
从所述集群的监控模块中获取所述检查时间段内相关所述检查点的监控数据。
4.根据权利要求1所述的方法,其中,所述对所述监控数据进行聚合处理以获得处理结果包括:
基于所述待检查的问题对应的检查规则对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。
5.根据权利要求1所述的方法,其中,所述问题的相关信息包括至少以下任一项:
所述问题的出现时间、每一相关所述检查点的监控数据、出现所述问题时发生监控数据异常的所述检查点。
6.根据权利要求1所述的方法,其中,所述方法还包括:
创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;
对所述问题规则库中的问题及其所对应的检查规则进行更新。
7.根据权利要求6所述的方法,其中,所述对所述问题规则库中的问题及其所对应的检查规则进行更新包括:
获取待检查的集群的相关信息、待更新问题及其初始监控阈值;
基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;
在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;
基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
8.根据权利要求7所述的方法,其中,所述初始监控阈值包括:所有所述检查点的监控数据的异常阈值和出现异常的所述检查点的权重阈值;
所述基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点包括:
基于所有所述检查点的监控数据的异常阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,并记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点,其中,所述检查点的权重基于异常的所述检查点的出现概率确定。
9.根据权利要求7所述的方法,其中,所述基于所述监控数据确定并记录异常的所述检查点包括:
判断所述检查点的监控数据是否超出异常阈值;
若超出则确定并记录相应异常的所述检查点。
10.根据权利要求6所述的方法,其中,所述对所述问题规则库中的问题及其所对应的检查规则进行更新包括:
获取待更新问题,并从至少一个所述检查结果信息中获取所述待更新问题的出现时间点;
获取所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;
基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;
基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
11.根据权利要求7至10中任一项所述的方法,其中,所述检查点的相关信息包括以下至少任一项:
所述检查点的监控数据的异常阈值、所述检查点的权重,其中,所述检查点的权重基于所述检查点的出现概率确定。
12.根据权利要求7至9中任一项所述的方法,其中,所述在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率包括:
在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段所记录的异常的所述检查点的出现概率确定当前所述设定时间段内的所述检查点的当前权重;
基于所述检查点的当前权重和历史记录的异常的所述检查点的历史权重,更新每一所述检查点在所述待更新问题出现时的出现概率。
13.根据权利要求1至10中任一项所述的方法,其中,所述检查点包括以下至少任一项:
所述集群中的硬件设备、所述集群中的软件设备的局部模块。
14.一种用于检查集群健康状态的设备,其中,所述设备包括:
信息获取装置,用于获取待检查的集群的相关信息;
规则获取装置,用于从问题规则库获取至少一个待检查的问题及其对应的检查规则;
监控处理装置,用于基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
预警反馈装置,用于基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息;
规则更新装置,用于对所述问题规则库中的问题及其所对应的检查规则进行更新,该过程包括:
获取待更新问题;
基于监控数据确定异常的检查点;
更新异常的检查点在所述待更新问题出现时的出现概率;
基于所述出现概率,更新所述待更新问题的检查规则。
15.根据权利要求14所述的设备,其中,所述信息获取装置用于:
基于用户提交的请求,获取待检查的集群的相关信息,其中,所述相关信息包括:集群位置信息和检查时间段。
16.根据权利要求15所述的设备,其中,所述监控处理装置包括:
查找单元,用于基于所述集群位置信息查找所述集群,并获取所述集群中与所述检查规则相关的检查点;
数据获取单元,用于从所述集群的监控模块中获取所述检查时间段内相关所述检查点的监控数据。
17.根据权利要求14所述的设备,其中,所述监控处理装置包括:
数据处理单元,用于基于所述待检查的问题对应的检查规则对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。
18.根据权利要求14所述的设备,其中,所述问题的相关信息包括至少以下任一项:
所述问题的出现时间、每一相关所述检查点的监控数据、出现所述问题时发生监控数据异常的所述检查点。
19.根据权利要求14所述的设备,其中,所述设备还包括:
创建规则装置,用于创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;
规则更新装置,用于对所述问题规则库中的问题及其所对应的检查规则进行更新。
20.根据权利要求19所述的设备,其中,所述规则更新装置包括:
第一信息获取单元,用于获取待检查的集群的相关信息、待更新问题及其初始监控阈值;
第一记录单元,用于基于所述初始监控阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;
第一概率更新单元,用于在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;
第一规则更新单元,用于基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
21.根据权利要求20所述的设备,其中,所述初始监控阈值包括:所有所述检查点的监控数据的异常阈值和出现异常的所述检查点的权重阈值;
所述第一记录单元用于:
基于所有所述检查点的监控数据的异常阈值,从所述集群的相关信息中获取所述待更新问题的出现时间点、及所述出现时间点前的设定时间段内所有所述检查点的监控数据,并记录异常的所述检查点的权重超过所述权重阈值时对应的所述检查点,其中,所述检查点的权重基于异常的所述检查点的出现概率确定。
22.根据权利要求20所述的设备,其中,所述第一记录单元包括:
判断子单元,用于判断所述检查点的监控数据是否超出异常阈值;
记录子单元,用于若超出则确定并记录相应异常的所述检查点。
23.根据权利要求19所述的设备,其中,所述规则更新装置包括:
第二信息获取单元,用于获取待更新问题,并从至少一个所述检查结果信息中获取所述待更新问题的出现时间点;
第二记录单元,用于获取所述出现时间点前的设定时间段内所有所述检查点的监控数据,基于所述监控数据确定并记录异常的所述检查点;
第二概率更新单元,用于基于当前所述设定时间段内所记录的异常的所述检查点与历史记录的异常的所述检查点,更新每一所述检查点在所述待更新问题出现时的出现概率;
第二规则更新单元,用于基于更新后的所述出现概率高于设定概率的所述检查点及其相关信息,更新所述待更新问题的检查规则。
24.根据权利要求20至23中任一项所述的设备,其中,所述检查点的相关信息包括以下至少任一项:
所述检查点的监控数据的异常阈值、所述检查点的权重,其中,所述检查点的权重基于所述检查点的出现概率确定。
25.根据权利要求20至22中任一项所述的设备,其中,所述第一概率更新单元包括:
权重确定子单元,用于在每个所述设定时间段内发生所述待更新问题时,基于当前所述设定时间段所记录的异常的所述检查点的出现概率确定当前所述设定时间段内的所述检查点的当前权重;
概率更新子单元,用于基于所述检查点的当前权重和历史记录的异常的所述检查点的历史权重,更新每一所述检查点在所述待更新问题出现时的出现概率。
26.根据权利要求14至23中任一项所述的设备,其中,所述检查点包括以下至少任一项:
所述集群中的硬件设备、所述集群中的软件设备的局部模块。
27.一种用于检查集群健康状态的设备,其中,包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待检查的集群的相关信息;
从问题规则库获取至少一个待检查的问题及其对应的检查规则;
基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息;
对所述问题规则库中的问题及其所对应的检查规则进行更新,该过程包括:
获取待更新问题;
基于监控数据确定异常的检查点;
更新异常的检查点在所述待更新问题出现时的出现概率;
基于所述出现概率,更新所述待更新问题的检查规则。
CN201710205541.1A 2016-03-31 2017-03-31 一种用于检查集群健康状态的方法和设备 Active CN107391335B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016101944993 2016-03-31
CN201610194499 2016-03-31

Publications (2)

Publication Number Publication Date
CN107391335A CN107391335A (zh) 2017-11-24
CN107391335B true CN107391335B (zh) 2021-09-03

Family

ID=60338371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710205541.1A Active CN107391335B (zh) 2016-03-31 2017-03-31 一种用于检查集群健康状态的方法和设备

Country Status (1)

Country Link
CN (1) CN107391335B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255676A (zh) * 2018-01-15 2018-07-06 南京市城市规划编制研究中心 一种软件***客户端健康度的监控方法
CN108874640B (zh) * 2018-05-07 2022-09-30 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN109376043A (zh) * 2018-10-18 2019-02-22 郑州云海信息技术有限公司 一种设备监测的方法和装置
CN110069393A (zh) * 2019-03-11 2019-07-30 北京互金新融科技有限公司 软件环境的检测方法、装置、存储介质和处理器
CN110278133B (zh) * 2019-07-31 2021-08-13 中国工商银行股份有限公司 由服务器执行的检查方法、装置、计算设备以及介质
CN113645525B (zh) * 2021-08-09 2023-06-02 中国工商银行股份有限公司 光纤交换机运行状态的检查方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123521A (zh) * 2006-08-07 2008-02-13 华为技术有限公司 一种集群内检查点的管理方法
CN102957563A (zh) * 2011-08-16 2013-03-06 中国石油化工股份有限公司 Linux集群故障自动恢复方法和Linux集群故障自动恢复***
CN104917627A (zh) * 2015-01-20 2015-09-16 杭州安恒信息技术有限公司 一种用于大型服务器集群的日志集群扫描与分析方法
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7484132B2 (en) * 2005-10-28 2009-01-27 International Business Machines Corporation Clustering process for software server failure prediction
US8887006B2 (en) * 2011-04-04 2014-11-11 Microsoft Corporation Proactive failure handling in database services

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123521A (zh) * 2006-08-07 2008-02-13 华为技术有限公司 一种集群内检查点的管理方法
CN102957563A (zh) * 2011-08-16 2013-03-06 中国石油化工股份有限公司 Linux集群故障自动恢复方法和Linux集群故障自动恢复***
CN104917627A (zh) * 2015-01-20 2015-09-16 杭州安恒信息技术有限公司 一种用于大型服务器集群的日志集群扫描与分析方法
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法

Also Published As

Publication number Publication date
CN107391335A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107391335B (zh) 一种用于检查集群健康状态的方法和设备
WO2020052147A1 (zh) 监测设备故障检测方法及装置
WO2021179574A1 (zh) 根因定位方法、装置、计算机设备和存储介质
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US10373065B2 (en) Generating database cluster health alerts using machine learning
US11209811B2 (en) Diagnostic device, diagnostic method, and program
US10354197B2 (en) Pattern analytics for real-time detection of known significant pattern signatures
US20150269120A1 (en) Model parameter calculation device, model parameter calculating method and non-transitory computer readable medium
Jiang et al. Efficient fault detection and diagnosis in complex software systems with information-theoretic monitoring
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
CN107025224B (zh) 一种监控任务运行的方法和设备
US20200166921A1 (en) System and method for proactive repair of suboptimal operation of a machine
CN111722952A (zh) 业务***的故障分析方法、***、设备和存储介质
US20150046757A1 (en) Performance Metrics of a Computer System
CN110008247B (zh) 异常来源确定方法、装置、设备及计算机可读存储介质
US11196613B2 (en) Techniques for correlating service events in computer network diagnostics
CA3051483C (en) System and method for automated and intelligent quantitative risk assessment of infrastructure systems
Atzmueller et al. Anomaly detection and structural analysis in industrial production environments
US20230038164A1 (en) Monitoring and alerting system backed by a machine learning engine
CN111666171A (zh) 故障识别方法及装置、电子设备和可读存储介质
US9397921B2 (en) Method and system for signal categorization for monitoring and detecting health changes in a database system
CN112882898B (zh) 基于大数据日志分析的异常检测方法、***、设备及介质
CN103713990A (zh) 一种用于软件缺陷预测的方法和装置
CN107784148B (zh) 一种集输管道失效率评估方法及装置
US20230216728A1 (en) Method and system for evaluating peer groups for comparative anomaly

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant