CN111049705A - 一种监控分布式存储***的方法及装置 - Google Patents

一种监控分布式存储***的方法及装置 Download PDF

Info

Publication number
CN111049705A
CN111049705A CN201911336662.5A CN201911336662A CN111049705A CN 111049705 A CN111049705 A CN 111049705A CN 201911336662 A CN201911336662 A CN 201911336662A CN 111049705 A CN111049705 A CN 111049705A
Authority
CN
China
Prior art keywords
cluster
alarm
monitoring
monitoring server
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911336662.5A
Other languages
English (en)
Other versions
CN111049705B (zh
Inventor
龚治文
饶俊明
卢道和
郑晓腾
龚洵峰
刘生庆
吴立
吴传民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911336662.5A priority Critical patent/CN111049705B/zh
Publication of CN111049705A publication Critical patent/CN111049705A/zh
Priority to PCT/CN2020/134339 priority patent/WO2021129367A1/zh
Application granted granted Critical
Publication of CN111049705B publication Critical patent/CN111049705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种监控分布式存储***的方法及装置,监控服务器向分布式存储***中的各集群发送采集指令;监控服务器获取各集群基于采集指令反馈的监控数据,监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据;针对至少一个集群,监控服务器根据预设的告警规则,从集群的监控数据中确定告警信息并将告警信息上报至告警平台。该方案,监控服务器将采集指令下发至分布式存储***中的各集群,使得监控服务器可同时监控多个集群;此外,各集群所反馈的监控数据中包括与集群相连的客户端的状态数据,有利于监控服务器通过对与集群相连的客户端的状态数据的分析来确定告警信息,实现了监控服务器对与集群相连的客户端进行监控的目的。

Description

一种监控分布式存储***的方法及装置
技术领域
本发明涉及金融科技(Fintech)领域,尤其涉及一种监控分布式存储***的方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术(例如:区块链、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外。但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出了更高的要求。
出于对海量数据所要求的可扩展性以及高可用性等因素的考虑,银行业一般选择将CephFS(Ceph File System,Ceph文件***)这样一种分布式存储***作为共享存储的技术方案,其中,CephFS下连接有Ceph Fuse客户端;与此同时,本领域的技术人员通常采用开源的Prometheus这样一种监控***对CephFS进行监控。其中,Prometheus主要由Exporters和Prometheus Sever等部分组成;CephFS主要由监视器(Monitor,简写成MON)、目标存储设备(Object Storage Device,简写成OSD)以及元数据服务器(MetaData Sever,简写成MDS)等各类组件组成,此外,CephFS OSD组件上还分布有归置小组(Placement Groups,简写成PG)。
针对现有技术中的Prometheus对于CephFS进行监控的技术方案,存在以下两方面问题:
第一,Prometheus对于CephFS的监控主要表现为Prometheus对CephFS OSD组件状态以及CephFS PG状态的数据采集,但Prometheus并没有实现对Ceph Fuse客户端的监控。
第二,Prometheus对于CephFS的监控架构非常臃肿,表现为需要给每个CephFS部署一套Prometheus;此外,由于CephFS版本的不同,还需要为不同版本的CephFS部署不同的Expoter。如图1所示,为现有技术的Prometheus对于CephFS的监控架构图。参考图1,Exporter_M采集CephFS_M的监控数据,若所采集到的监控数据满足生成告警信息的规则,则将生成的告警信息上报至Prometheus Sever_M,同理,Exporter_N采集CephFS_N的监控数据,若所采集到的监控数据满足生成告警信息的规则,则将生成的告警信息上报至Prometheus Sever_N;但由于Exporter_M与CephFS_N版本的不匹配,从而不能将Exporter_M用于采集CephFS_N的监控数据,以实现对CephFS_N的告警信息的上报。也即,PrometheusSever、Exporter和CephFS这三者之间没有实现高可用,导致在异常情况下无法及时上报监控信息。
综上,现有技术存在Prometheus无法监控Ceph Fuse客户端以及Prometheus对于CephFS的监控效率低下的问题。
发明内容
本发明提供一种监控分布式存储***的方法及装置,用以解决Prometheus无法监控Ceph Fuse客户端以及Prometheus对于CephFS的监控效率低下的问题。
第一方面,本发明实施例提供一种监控分布式存储***的方法,该方法包括:监控服务器向所述分布式存储***中的各集群发送采集指令;所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据,所述监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据;针对至少一个集群,所述监控服务器根据预设的告警规则,从所述集群的监控数据中确定告警信息并将所述告警信息上报至告警平台。
基于该方案,监控服务器通过将采集指令下发至分布式存储***中的各集群的方式,使得监控服务器可以同时监控多个集群,从而避免了由于集群与Exporter版本不匹配时、监控服务器无法有效地监控各集群;此外,各集群反馈给监控服务器的监控数据中还包括与集群相连的客户端的状态数据,有利于监控服务器通过对与集群相连的客户端的状态数据的分析来确定告警信息,从而实现了监控服务器对与集群相连的客户端进行监控的目的。
作为一种可能实现的方法,所述监控服务器为多台;任一集群中包括多台节点服务器,且连接有客户端的各节点服务器所连接的客户端均相同;所述监控服务器向所述分布式存储***中的各集群发送采集指令,包括:针对任一台监控服务器,所述监控服务器向任一集群中的至少两台节点服务器下发采集指令。
基于该方案,通过为分布式存储***设置多台监控服务器,一方面,通过频繁地从分布式存储***中的各集群中获取各集群的监控数据,可以实现对于该分布式存储***的全方位、甚至实时监控的目标;另一方面,通过设置多台监控服务器的方式,还可以确保在其中一台或几台监控服务器宕机的情况下,还有其他可用的监控服务器来对该分布式存储***进行监控。对于多台监控服务器中的任一台监控服务器,该监控服务器通过向各集群中的至少两台节点服务器下发采集指令,有利于确保在其中一台节点服务器宕机的情况下,该监控服务器还可以从其他可用的节点服务器上来获取该节点服务器所在集群的监控数据,从而实现监控服务器对各集群的有效监控。
作为一种可能实现的方法,所述告警规则包括告警生成规则;所述监控服务器根据预设的告警规则,从所述监控数据中确定告警信息,包括:所述监控服务器从所述监控数据中确定出与所述集群的连接状态发生变化的第一客户端;所述监控服务器根据所述集群的业务变化确定与所述集群的连接状态发生变化的第二客户端;根据包含在所述第一客户端中却不包含在所述第二客户端中的客户端及所述告警生成规则,生成客户端的告警信息。
基于该方案,通过对监控数据的分析,确定出与所述集群的连接状态发生变化的第一客户端,以及通过对已知业务变化的分析,确定出与所述集群的连接状态发生变化的第二客户端,通过将第一客户端与第二客户端进行对比,即可生成由于客户端的异常而产生的告警信息。
作为一种可能实现的方法,所述告警规则还包括告警抑制规则;所述监控服务器确定所述集群的业务变化的变化时长;所述监控服务器设置所述客户端的告警信息的告警抑制规则,所述客户端的告警抑制规则用于将在所述变化时长内产生的所述客户端的告警信息不进行上报。
基于该方案,在确定出集群出于业务需要的目的而要求的必要的时长后,监控服务器并不会在这段必要的时长的过程中、将客户端的告警信息上报至告警平台,从而可以有效地避免产生已知而无用的告警。
作为一种可能实现的方法,所述监控服务器根据所述集群自身的健康数据生成所述集群的MDS组件的告警信息;所述监控服务器根据预设的告警规则,将所述告警信息上报至告警平台,包括:所述监控服务器确定所述MDS组件的告警信息的告警级别高于所述客户端的告警信息,则将所述MDS组件的告警信息上报至告警平台。
基于该方案,当监控服务器同时获取到集群的MDS组件的告警信息和与集群相连的客户端的告警信息时,考虑到可能是集群的MDS组件的异常造成了与集群相连的客户端的异常事件,因此监控服务器确定MDS组件的告警信息的告警级别高于客户端的告警信息,并将MDS组件的告警信息上报至告警平台,自动屏蔽低级别的客户端的告警信息。
作为一种可能实现的方法,所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据之后,还包括:所述监控服务器设置各监控数据对应的集群标识。
基于该方案,监控服务器通过为获取到的各监控数据打上与其对应的集群的标识,有助于监控服务器后期对于接收到同一集群的相同监控数据时、迅速地做出相应的告警操作。
作为一种可能实现的方法,所述告警规则还包括告警收敛规则;所述监控服务器根据预设的告警规则,将所述告警信息上报至告警平台,包括:所述监控服务器确定所述告警信息为所述集群中非首次出现的同一告警信息,则根据所述告警收敛规则中的告警级别与告警时延的对照关系,在设定时延后将所述告警信息上报至所述告警平台;其中,告警级别的级别越低,相应的告警时延的时延越长。
基于该方案,在监控服务器确定告警信息为某集群非首次出现的相同告警信息后,根据告警收敛规则、在设定时延后将非首次出现的相同告警上报至所述告警平台,可以有效防止该集群持续重复发出相同告警,而造成的资源浪费现象。
第二方面,本发明实施例提供一种监控分布式存储***的装置,该装置包括:发送单元,用于向所述分布式存储***中的各集群发送采集指令;获取单元,用于获取所述各集群基于所述采集指令反馈的监控数据,所述监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据;确定单元,针对至少一个集群,用于根据预设的告警规则,从所述集群的监控数据中确定告警信息并将所述告警信息上报至告警平台。
基于该方案,监控服务器通过将采集指令下发至分布式存储***中的各集群的方式,使得监控服务器可以同时监控多个集群,从而避免了由于集群与Exporter版本不匹配时、监控服务器无法有效地监控各集群;此外,各集群反馈给监控服务器的监控数据中还包括与集群相连的客户端的状态数据,有利于监控服务器通过对与集群相连的客户端的状态数据的分析来确定告警信息,从而实现了监控服务器对与集群相连的客户端进行监控的目的。
作为一种可能实现的方法,所述监控服务器为多台;任一集群中包括多台节点服务器,且连接有客户端的各节点服务器所连接的客户端均相同;针对任一台监控服务器,所述发送单元,具体用于向任一集群中的至少两台节点服务器下发采集指令。
基于该方案,通过为分布式存储***设置多台监控服务器,一方面,通过频繁地从分布式存储***中的各集群中获取各集群的监控数据,可以实现对于该分布式存储***的全方位、甚至实时监控的目标;另一方面,通过设置多台监控服务器的方式,还可以确保在其中一台或几台监控服务器宕机的情况下,还有其他可用的监控服务器来对该分布式存储***进行监控。对于多台监控服务器中的任一台监控服务器,该监控服务器通过向各集群中的至少两台节点服务器下发采集指令,有利于确保在其中一台节点服务器宕机的情况下,该监控服务器还可以从其他可用的节点服务器上来获取该节点服务器所在集群的监控数据,从而实现监控服务器对各集群的有效监控。
作为一种可能实现的方法,所述告警规则包括告警生成规则;所述确定单元,具体用于从所述监控数据中确定出与所述集群的连接状态发生变化的第一客户端;根据所述集群的业务变化确定与所述集群的连接状态发生变化的第二客户端;根据包含在所述第一客户端中却不包含在所述第二客户端中的客户端及所述告警生成规则,生成客户端的告警信息。
基于该方案,通过对监控数据的分析,确定出与所述集群的连接状态发生变化的第一客户端,以及通过对已知业务变化的分析,确定出与所述集群的连接状态发生变化的第二客户端,通过将第一客户端与第二客户端进行对比,即可生成由于客户端的异常而产生的告警信息。
作为一种可能实现的方法,所述告警规则还包括告警抑制规则;所述确定单元,具体用于确定所述集群的业务变化的变化时长;设置所述客户端的告警信息的告警抑制规则,所述客户端的告警抑制规则用于将在所述变化时长内产生的所述客户端的告警信息不进行上报。
基于该方案,在确定出集群出于业务需要的目的而要求的必要的时长后,监控服务器并不会在这段必要的时长的过程中、将客户端的告警信息上报至告警平台,从而可以有效地避免产生已知而无用的告警。
作为一种可能实现的方法,所述监控服务器根据所述集群自身的健康数据生成所述集群的MDS组件的告警信息;所述确定单元,具体用于确定所述MDS组件的告警信息的告警级别高于所述客户端的告警信息,则将所述MDS组件的告警信息上报至告警平台。
基于该方案,当监控服务器同时获取到集群的MDS组件的告警信息和与集群相连的客户端的告警信息时,考虑到可能是集群的MDS组件的异常造成了与集群相连的客户端的异常事件,因此监控服务器确定MDS组件的告警信息的告警级别高于客户端的告警信息,并将MDS组件的告警信息上报至告警平台,自动屏蔽低级别的客户端的告警信息。
作为一种可能实现的方法,所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据之后,所述确定单元,还用于设置各监控数据对应的集群标识。
基于该方案,监控服务器通过为获取到的各监控数据打上与其对应的集群的标识,有助于监控服务器后期对于接收到同一集群的相同监控数据时、迅速地做出相应的告警操作。
作为一种可能实现的方法,所述告警规则还包括告警收敛规则;所述确定单元,具体用于确定所述告警信息为所述集群中非首次出现的同一告警信息,则根据所述告警收敛规则中的告警级别与告警时延的对照关系,在设定时延后将所述告警信息上报至所述告警平台;其中,告警级别的级别越低,相应的告警时延的时延越长。
基于该方案,在监控服务器确定告警信息为某集群非首次出现的相同告警信息后,根据告警收敛规则、在设定时延后将非首次出现的相同告警上报至所述告警平台,可以有效防止该集群持续重复发出相同告警,而造成的资源浪费现象。
第三方面,本发明实施例提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如第一方面任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面任一所述的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的Prometheus对于CephFS的监控架构图;
图2为本发明提供的一种监控分布式存储***的方法;
图3为本发明提供的一种Prometheus对于CephFS的监控架构图;
图4为本发明提供的一种监控分布式存储***的装置。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图2所示,为本发明实施例提供的一种监控分布式存储***的方法,该方法包括:
步骤201,监控服务器向所述分布式存储***中的各集群发送采集指令。
步骤202,所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据,所述监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据。
步骤203,针对至少一个集群,所述监控服务器根据预设的告警规则,从所述集群的监控数据中确定告警信息并将所述告警信息上报至告警平台。
基于该方案,监控服务器通过将采集指令下发至分布式存储***中的各集群的方式,使得监控服务器可以同时监控多个集群,从而避免了由于集群与Exporter版本不匹配时、监控服务器无法有效地监控各集群;此外,各集群反馈给监控服务器的监控数据中还包括与集群相连的客户端的状态数据,有利于监控服务器通过对与集群相连的客户端的状态数据的分析来确定告警信息,从而实现了监控服务器对与集群相连的客户端进行监控的目的。
在上述步骤201中,监控服务器向所述分布式存储***中的各集群发送采集指令。
设CephFS这样一种分布式存储***中设置有多个集群,如3个,分别令为CephFS_A集群,CephFS_B集群,CephFS_C集群;作为监控CephFS的一种监控服务器Prometheus,通过其内部的Prometheus Sever向CephFS下发采集指令,具体表现为Prometheus Sever向CephFS_A集群下发采集指令I,Prometheus Sever向CephFS_B集群下发采集指令I,Prometheus Sever向CephFS_C集群下发采集指令I。
在上述步骤202中,所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据,所述监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据。
当Prometheus Sever向CephFS_A集群下发采集指令I后,CephFS_A集群会对该采集指令I作出相应的响应,得到关于CephFS_A集群的监控数据,由此Prometheus Sever获取到关于CephFS_A集群的监控数据;同理,Prometheus Sever可以获取到关于CephFS_B集群的监控数据以及获取到关于CephFS_C集群的监控数据。
关于CephFS_A集群的监控数据,具体可以表现为CephFS_A集群自身的健康数据(如OSD组件的运行状态、PG的状态数据),以及与CephFS_A集群相连的Ceph Fuse_A客户端的状态数据(如Ceph Fuse_A客户端是否接入CephFS_A集群)。比如与CephFS_A集群相连的Ceph Fuse_A客户端有100个,则关于CephFS_A集群的监控数据部件包括CephFS_A集群自身的健康数据,还包括与CephFS_A集群相连的100个Ceph Fuse_A客户端的状态数据;关于CephFS_B集群的监控数据、关于CephFS_C集群的监控数据可以参考关于CephFS_A集群的监控数据的情形,在此不赘述。
在上述步骤203中,针对至少一个集群,所述监控服务器根据预设的告警规则,从所述集群的监控数据中确定告警信息并将所述告警信息上报至告警平台。
设对于CephFS_A集群,Prometheus通过对获取的来自于CephFS_A集群的监控数据的分析,分析的依据是预设的告警规则,从而确定出关于CephFS_A集群的告警信息;进一步地,Prometheus将得到的关于CephFS_A集群的告警信息后上报至告警平台,上报的依据仍然是预设的告警规则。其中,告警平台可以为IMS***,还可以是其他告警平台,对此,本发明不做限定。同理,Prometheus对于CephFS_B集群、CephFS_C集群的告警过程可以参考CephFS_A集群的告警过程,在此不赘述。
作为一种可能实现的方法,所述监控服务器为多台;任一集群中包括多台节点服务器,且连接有客户端的各节点服务器所连接的客户端均相同;所述监控服务器向所述分布式存储***中的各集群发送采集指令,包括:针对任一台监控服务器,所述监控服务器向任一集群中的至少两台节点服务器下发采集指令。
如图3所示,为本发明实施例提供的一种Prometheus对于CephFS的监控架构图。参考图3,部署了两台监控服务器,分别令为Prometheus Sever_X和Prometheus Sever_Y,Prometheus Sever_X和Prometheus Sever_Y均用于监控分布式存储***,该***中部署有CephFS_A集群、CephFS_B集群和CephFS_C集群;对于CephFS_A集群,该集群中包括了多台节点服务器,为了叙述的方便,设CephFS_A集群包括了4台节点服务器,分别令为A1、A2、A3和A4;同样的,对于CephFS_B集群,该集群中包括了多台节点服务器,为了叙述的方便,设CephFS_B集群包括了4台节点服务器,分别令为B1、B2、B3和B4;同样的,对于CephFS_C集群,该集群中包括了多台节点服务器,为了叙述的方便,设CephFS_C集群包括了4台节点服务器,分别令为C1、C2、C3和C4。
对于CephFS_A集群,设有100台Ceph Fuse_A客户端连接于该集群中的被配置有MDS组件的节点服务器,设CephFS_A集群中有3台节点服务器被配置有MDS组件,则这100台Ceph Fuse_A客户端均连接于这3台被配置有MDS组件的节点服务器(图中未示出);同理,对于CephFS_B集群,设有200台Ceph Fuse_B客户端连接于该集群中的被配置有MDS组件的节点服务器,设CephFS_B集群中有3台节点服务器被配置有MDS组件,则这200台Ceph Fuse_B客户端均连接于这3台被配置有MDS组件的节点服务器(图中未示出);同理,对于CephFS_C集群,设有300台Ceph Fuse_C客户端连接于该集群中的被配置有MDS组件的节点服务器,设CephFS_C集群中有3台节点服务器被配置有MDS组件,则这300台Ceph Fuse_C客户端均连接于这3台被配置有MDS组件的节点服务器(图中未示出)。
设对于Prometheus Sever_X,该监控服务器向上述CephFS_A集群、CephFS_B集群和CephFS_C集群中的任一集群中的至少两台节点服务器下发采集指令,具体表现为:
设在8:00am这一时刻,Prometheus Sever_X向CephFS_A集群中的A1、A2和A4这3台节点服务器下发采集指令I;同时,Prometheus Sever_X向CephFS_B集群中的B1、B3和B4这3台节点服务器下发采集指令I;同时,Prometheus Sever_X向CephFS_C集群中的C1、C2和C4这3台节点服务器下发采集指令I。
需要说明的是,Prometheus Sever_X向CephFS_A集群中的至少两台节点服务器下发采集指令时,是通过随机的方式向CephFS_A集群中的任意至少两台节点服务器下发采集指令。举个例子,上述Prometheus Sever_X可以是向CephFS_A集群中的A1、A2和A4这3台节点服务器下发采集指令I,也可以是向CephFS_A集群中的A2、A3和A4这3台节点服务器下发采集指令I,也可以是向CephFS_A集群中的A1、A2和A3这3台节点服务器下发采集指令I,对此本发明不做限定。同样的,Prometheus Sever_X向CephFS_B集群中的至少两台节点服务器下发采集指令时,是通过随机的方式向CephFS_B集群中的任意至少两台节点服务器下发采集指令;同样的,Prometheus Sever_X向CephFS_C集群中的至少两台节点服务器下发采集指令时,是通过随机的方式向CephFS_C集群中的任意至少两台节点服务器下发采集指令。
作为一种可能实现的方式,所述告警规则包括告警生成规则;所述监控服务器根据预设的告警规则,从所述监控数据中确定告警信息,包括:所述监控服务器从所述监控数据中确定出与所述集群的连接状态发生变化的第一客户端;所述监控服务器根据所述集群的业务变化确定与所述集群的连接状态发生变化的第二客户端;根据包含在所述第一客户端中却不包含在所述第二客户端中的客户端及所述告警生成规则,生成客户端的告警信息。
举个例子,对于CephFS_A集群,为了叙述的方便,设有W1、W2、W3、W4、W5、W6、W7、W8、W9和W10这10台Ceph Fuse_A客户端连接于该集群中的被配置有MDS组件的节点服务器;Prometheus Sever_X向CephFS_A集群中的A1、A2和A4这3台节点服务器下发了采集指令I,设Prometheus Sever_X首先获取到A1节点服务器上的监控数据,通过对A1节点服务器上的监控数据的分析,确定出其中的W1、W2、W3、W4、W5、W6、W7、W8、W9和W10这10台Ceph Fuse_A客户端均连接于该CephFS_A集群;随后,Prometheus Sever_X接着获取到A2节点服务器上的监控数据,通过对A2节点服务器上的监控数据的分析,确定出其中仅有W8、W9和W10这3台Ceph Fuse_A客户端仍然连接于CephFS_A集群,而W1、W2、W3、W4、W5、W6和W7这7台CephFuse_A客户端已经从CephFS_A集群上离线。也即,与所述集群的连接状态发生变化的第一客户端分别为W1、W2、W3、W4、W5、W6和W7这7台Ceph Fuse_A客户端。
对于Ceph Fuse_A客户端出现的这种异常事件,则需要进一步判断W1、W2、W3、W4、W5、W6和W7这7台Ceph Fuse_A客户端从CephFS_A集群上离线的原因,即在于Ceph Fuse_A客户端是正常地从CephFS_A集群中卸载,还是由于CephFS_A集群自身的原因而导致的CephFuse_A客户端被动卸载。
运行于CephFS_A集群上的业务,出于业务需要的目的,会对连接于CephFS_A集群上的部分客户端进行日常的卸载工作。比如,出于业务需要的目的,业务人员会对CephFS_A集群中的W5、W6和W7这3台Ceph Fuse_A客户端进行卸载。也即与所述集群的连接状态发生变化的第二客户端分别为W5、W6和W7这3台Ceph Fuse_A客户端。
通过对第一客户端(分别有W1、W2、W3、W4、W5、W6和W7这7台Ceph Fuse_A客户端)和第二客户端(W5、W6和W7这3台Ceph Fuse_A客户端)的比较,可以发现W5、W6和W7这3台CephFuse_A客户端的卸载是属于Ceph Fuse_A客户端的正常卸载事件,从而对于监控数据中的W5、W6和W7这3台Ceph Fuse_A客户端的离线不需要上报至IMS***;而对于W1、W2、W3和W4这4台Ceph Fuse_A客户端的卸载属于Ceph Fuse_A客户端的异常卸载事件,则根据告警生成规则,生成客户端的告警信息。
作为一种可能实现的方式,所述告警规则还包括告警抑制规则;所述监控服务器确定所述集群的业务变化的变化时长;所述监控服务器设置所述客户端的告警信息的告警抑制规则,所述客户端的告警抑制规则用于将在所述变化时长内产生的所述客户端的告警信息不进行上报。
如前述的例子,设出于业务需要的目的,对连接于CephFS_A集群上的W5、W6和W7这3台Ceph Fuse_A客户端进行正常的卸载操作,设卸载W5、W6和W7这3台Ceph Fuse_A客户端所要求的时长为3h,则Prometheus Sever_X在获取到A2节点服务器上的监控数据后的未来3h的整个时间段内,Prometheus Sever_X并不会将连接于CephFS_A集群上的W5、W6和W7这3台Ceph Fuse_A客户端的离线事件上报至IMS***。也即,Prometheus Sever_X将W5、W6和W7这3台Ceph Fuse_A客户端从CephFS_A集群上离线的事件写入了告警抑制规则中。
作为一种可能实现的方法,所述监控服务器根据所述集群自身的健康数据生成所述集群的MDS组件的告警信息;所述监控服务器根据预设的告警规则,将所述告警信息上报至告警平台,包括:所述监控服务器确定所述MDS组件的告警信息的告警级别高于所述客户端的告警信息,则将所述MDS组件的告警信息上报至告警平台。
如前述的例子中,Prometheus Sever_X对于CephFS_A集群的监控数据,包括CephFS_A集群自身的健康数据(如OSD组件的运行状态、PG的状态数据),以及与CephFS_A集群相连的Ceph Fuse_A客户端的状态数据(如Ceph Fuse_A客户端是否接入CephFS_A集群)。设在T时刻,Prometheus Sever_X获取到的有关于CephFS_A集群的监控数据,该条监控数据显示CephFS_A集群中的MDS组件在运行时出现异常,同时与CephFS_A集群相连的W1这1台Ceph Fuse_A客户端也出现异常卸载事件,则Prometheus Sever_X将CephFS_A集群中的MDS组件在运行时出现的异常事件的告警级别定义为高级别,将W1这1台Ceph Fuse_A客户端出现的异常卸载事件的告警界别定义为低级别;随后Prometheus Sever_X将高级别的告警事件上报至IMS***,也即Prometheus Sever_X会将CephFS_A集群中的MDS组件在运行时出现的异常事件上报至IMS***,而不会将W1这1台Ceph Fuse_A客户端出现的异常卸载事件上报至IMS***。
需要说明的是,监控服务器之所以可以将集群中的MDS组件的告警信息的告警级别设置的比所述客户端的告警信息的告警级别高,原因在于由于集群中的MDS组件的异常会造成与集群相连的客户端的异常事件,因而在将集群中的MDS组件的告警信息上报至IMS***、在运维人员进行运维排查后,不仅可以将MDS组件恢复至正常的运行状态,同时可以让与集群相连的客户端也恢复至正常状态。
作为一种可能实现的方法,所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据之后,还包括:所述监控服务器设置各监控数据对应的集群标识。
如前述的例子,参考图3,Prometheus Sever_X向CephFS_A集群中的A1、A2和A4这三台节点服务器发送采集指令I,同时向CephFS_B集群中的B1、B3和B4这三台节点服务器发送采集指令I,以及同时向CephFS_C集群中的C1、C2和C4这三台节点服务器发送采集指令I;当采集指令I在上述CephFS_A集群、CephFS_B集群和CephFS_C集群这三个集群中被响应后,Prometheus Sever_X会将获取上述各个集群的监控数据。其中,监控数据可以表现为集群的标识,比如Prometheus Sever_X获取到的第一条是CephFS_A集群的A1节点服务器上的监控数据,第二条是CephFS_B集群的B3节点服务器上的监控数据,第三条是CephFS_C集群的C4节点服务器上的监控数据,等等。
作为一种可能实现的方法,所述告警规则还包括告警收敛规则;所述监控服务器根据预设的告警规则,将所述告警信息上报至告警平台,包括:所述监控服务器确定所述告警信息为所述集群中非首次出现的同一告警信息,则根据所述告警收敛规则中的告警级别与告警时延的对照关系,在设定时延后将所述告警信息上报至所述告警平台;其中,告警级别的级别越低,相应的告警时延的时延越长。
如前述的例子,设Prometheus Sever_X获取到的第一条监控数据是来自于CephFS_A集群,根据预设的告警规则、对第一条监控数据进行分析后,确定第一条监控数据可以作为告警信息上报至IMS***,将根据第一条监控数据所生成的告警信息令为Info_1,且将Infro_1的告警级别为令为级别1;设Prometheus Sever_X获取到的第六条监控数据仍然是有关于CephFS_A集群的,根据预设的告警规则、对第六条监控数据进行分析后,发现根据这第六条监控数据所生成的告警信息符合Info_1,则Prometheus Sever_X需要进一步的根据Infro_1的告警级别来确定何时将这第六条监控数据上报至IMS***;设告警级别为级别1的告警信息所对应的告警时延为1h,则Prometheus Sever_X在接下来的1h内并不会将第六条监控数据对应的Infro_1上报至IMS***。
设Prometheus Sever_X获取到的第二条监控数据是来自于CephFS_B集群,根据预设的告警规则、对第二条监控数据进行分析后,确定第二条监控数据可以作为告警信息上报至IMS***,将根据第二条监控数据所生成的告警信息令为Info_2,且将Infro_2的告警级别为令为级别2;设Prometheus Sever_X获取到的第九条监控数据仍然是有关于CephFS_B集群的,根据预设的告警规则、对第九条监控数据进行分析后,发现根据这第九条监控数据所生成的告警信息符合Info_2,则Prometheus Sever_X需要进一步的根据Infro_2的告警级别来确定何时将这第九条监控数据上报至IMS***;设告警级别为级别2的告警信息所对应的告警时延为2h,则Prometheus Sever_X在接下来的2h内并不会将第九条监控数据对应的Infro_2上报至IMS***。
设Prometheus Sever_X获取到的第三条监控数据是来自于CephFS_C集群,根据预设的告警规则、对第三条监控数据进行分析后,确定第三条监控数据可以作为告警信息上报至IMS***,将根据第三条监控数据所生成的告警信息令为Info_3,且将Infro_3的告警级别为令为级别3;设Prometheus Sever_X获取到的第十条监控数据仍然是有关于CephFS_C集群的,根据预设的告警规则、对第十条监控数据进行分析后,发现根据这第十条监控数据所生成的告警信息符合Info_3,则Prometheus Sever_X需要进一步的根据Infro_3的告警级别来确定何时将这第十条监控数据上报至IMS***;设告警级别为级别3的告警信息所对应的告警时延为3h,则Prometheus Sever_X在接下来的3h内并不会将第十条监控数据对应的Infro_3上报至IMS***。
需要说明的是,上述例子中,随着级别1、级别2、级别3的告警级别的降低,相应的告警时延的时延越长,分别对应1h、2h、3h。
基于该方案,在监控服务器确定告警信息为某集群非首次出现的相同告警信息后,根据告警收敛规则、在设定时延后将非首次出现的相同告警上报至所述告警平台,可以有效防止该集群持续重复发出相同告警,而造成的资源浪费现象。
基于同样的构思,本发明实施例还提供一种监控分布式存储***的装置,如图4所示,该装置包括:
发送单元401,用于向所述分布式存储***中的各集群发送采集指令;
获取单元402,用于获取所述各集群基于所述采集指令反馈的监控数据,所述监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据;
确定单元403,针对至少一个集群,用于根据预设的告警规则,从所述集群的监控数据中确定告警信息并将所述告警信息上报至告警平台。
进一步地,对于所述装置,所述监控服务器为多台;任一集群中包括多台节点服务器,且连接有客户端的各节点服务器所连接的客户端均相同;针对任一台监控服务器,所述发送单元401,具体用于向任一集群中的至少两台节点服务器下发采集指令。
进一步地,对于所述装置,所述告警规则包括告警生成规则;所述确定单元403,具体用于从所述监控数据中确定出与所述集群的连接状态发生变化的第一客户端;根据所述集群的业务变化确定与所述集群的连接状态发生变化的第二客户端;根据包含在所述第一客户端中却不包含在所述第二客户端中的客户端及所述告警生成规则,生成客户端的告警信息。
进一步地,对于所述装置,所述告警规则还包括告警抑制规则;所述确定单元403,具体用于确定所述集群的业务变化的变化时长;设置所述客户端的告警信息的告警抑制规则,所述客户端的告警抑制规则用于将在所述变化时长内产生的所述客户端的告警信息不进行上报。
进一步地,对于所述装置,所述监控服务器根据所述集群自身的健康数据生成所述集群的MDS组件的告警信息;所述确定单元403,具体用于确定所述MDS组件的告警信息的告警级别高于所述客户端的告警信息,则将所述MDS组件的告警信息上报至告警平台。
进一步地,对于所述装置,所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据之后,所述确定单元403,还用于设置各监控数据对应的集群标识。
进一步地,对于所述装置,所述告警规则还包括告警收敛规则;所述确定单元403,具体用于确定所述告警信息为所述集群中非首次出现的同一告警信息,则根据所述告警收敛规则中的告警级别与告警时延的对照关系,在设定时延后将所述告警信息上报至所述告警平台;其中,告警级别的级别越低,相应的告警时延的时延越长。
本发明实施例提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。该计算设备可以包括中央处理器(Center Processing Unit,CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器,可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储监控分布式存储***的方法的程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行监控分布式存储***的方法。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行监控分布式存储***的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种监控分布式存储***的方法,其特征在于,包括:
监控服务器向所述分布式存储***中的各集群发送采集指令;
所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据,所述监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据;
针对至少一个集群,所述监控服务器根据预设的告警规则,从所述集群的监控数据中确定告警信息并将所述告警信息上报至告警平台。
2.如权利要求1所述的方法,其特征在于,所述监控服务器为多台;任一集群中包括多台节点服务器,且连接有客户端的各节点服务器所连接的客户端均相同;
所述监控服务器向所述分布式存储***中的各集群发送采集指令,包括:
针对任一台监控服务器,所述监控服务器向任一集群中的至少两台节点服务器下发采集指令。
3.如权利要求1所述的方法,其特征在于,所述告警规则包括告警生成规则;
所述监控服务器根据预设的告警规则,从所述监控数据中确定告警信息,包括:
所述监控服务器从所述监控数据中确定出与所述集群的连接状态发生变化的第一客户端;
所述监控服务器根据所述集群的业务变化确定与所述集群的连接状态发生变化的第二客户端;
根据包含在所述第一客户端中却不包含在所述第二客户端中的客户端及所述告警生成规则,生成客户端的告警信息。
4.如权利要求3所述的方法,其特征在于,所述告警规则还包括告警抑制规则;
所述监控服务器确定所述集群的业务变化的变化时长;
所述监控服务器设置所述客户端的告警信息的告警抑制规则,所述客户端的告警抑制规则用于将在所述变化时长内产生的所述客户端的告警信息不进行上报。
5.如权利要求3所述的方法,其特征在于,所述监控服务器根据所述集群自身的健康数据生成所述集群的MDS组件的告警信息;
所述监控服务器根据预设的告警规则,将所述告警信息上报至告警平台,包括:
所述监控服务器确定所述MDS组件的告警信息的告警级别高于所述客户端的告警信息,则将所述MDS组件的告警信息上报至告警平台。
6.如权利要求1所述的方法,其特征在于,所述监控服务器获取所述各集群基于所述采集指令反馈的监控数据之后,还包括:
所述监控服务器设置各监控数据对应的集群标识。
7.如权利要求1-6任一项所述的方法,其特征在于,所述告警规则还包括告警收敛规则;
所述监控服务器根据预设的告警规则,将所述告警信息上报至告警平台,包括:
所述监控服务器确定所述告警信息为所述集群中非首次出现的同一告警信息,则根据所述告警收敛规则中的告警级别与告警时延的对照关系,在设定时延后将所述告警信息上报至所述告警平台;其中,告警级别的级别越低,相应的告警时延的时延越长。
8.一种监控分布式存储***的装置,其特征在于,包括:
发送单元,用于向所述分布式存储***中的各集群发送采集指令;
获取单元,用于获取所述各集群基于所述采集指令反馈的监控数据,所述监控数据包括集群自身的健康数据以及与集群相连的客户端的状态数据;
确定单元,针对至少一个集群,用于根据预设的告警规则,从所述集群的监控数据中确定告警信息并将所述告警信息上报至告警平台。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-7任一项所述的方法。
CN201911336662.5A 2019-12-23 2019-12-23 一种监控分布式存储***的方法及装置 Active CN111049705B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911336662.5A CN111049705B (zh) 2019-12-23 2019-12-23 一种监控分布式存储***的方法及装置
PCT/CN2020/134339 WO2021129367A1 (zh) 2019-12-23 2020-12-07 一种监控分布式存储***的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911336662.5A CN111049705B (zh) 2019-12-23 2019-12-23 一种监控分布式存储***的方法及装置

Publications (2)

Publication Number Publication Date
CN111049705A true CN111049705A (zh) 2020-04-21
CN111049705B CN111049705B (zh) 2023-09-12

Family

ID=70238567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911336662.5A Active CN111049705B (zh) 2019-12-23 2019-12-23 一种监控分布式存储***的方法及装置

Country Status (2)

Country Link
CN (1) CN111049705B (zh)
WO (1) WO2021129367A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597091A (zh) * 2020-05-20 2020-08-28 北京金山云网络技术有限公司 数据监控方法及***、电子设备、计算机存储介质
CN111625421A (zh) * 2020-05-26 2020-09-04 云和恩墨(北京)信息技术有限公司 监控分布式存储***的方法及装置、存储介质和处理器
CN111988165A (zh) * 2020-07-09 2020-11-24 云知声智能科技股份有限公司 一种分布式存储***使用情况的监控方法及***
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控***及工作方法
CN112650642A (zh) * 2020-12-07 2021-04-13 深圳前海微众银行股份有限公司 一种告警处理方法及装置、设备、存储介质
CN112751726A (zh) * 2020-12-17 2021-05-04 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN112783745A (zh) * 2021-02-02 2021-05-11 无锡车联天下信息技术有限公司 一种集群数据的监控方法、装置、***及存储介质
WO2021129367A1 (zh) * 2019-12-23 2021-07-01 深圳前海微众银行股份有限公司 一种监控分布式存储***的方法及装置
CN113641558A (zh) * 2021-08-31 2021-11-12 合众人寿保险股份有限公司 一种健康检查方法、装置及电子设备
CN113688149A (zh) * 2021-07-20 2021-11-23 青岛海尔科技有限公司 监控方法和装置
CN114090644A (zh) * 2022-01-20 2022-02-25 飞狐信息技术(天津)有限公司 一种数据处理方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114115718B (zh) * 2021-08-31 2024-03-29 济南浪潮数据技术有限公司 分布式块存储***服务质量控制方法、装置、设备及介质
US20230108213A1 (en) * 2021-10-05 2023-04-06 Softiron Limited Ceph Failure and Verification
CN114760221B (zh) * 2022-03-31 2024-02-23 深信服科技股份有限公司 一种业务监控方法、***和存储介质
CN115567526B (zh) * 2022-09-21 2024-05-14 中国平安人寿保险股份有限公司 数据监控方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104202212A (zh) * 2014-08-28 2014-12-10 浪潮(北京)电子信息产业有限公司 一种获取分布式集群***告警的***和方法
CN107864063A (zh) * 2017-12-12 2018-03-30 北京奇艺世纪科技有限公司 一种异常监控方法、装置及电子设备
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、***、设备及介质
US20190199688A1 (en) * 2017-12-26 2019-06-27 Qadium, Inc. Autonomous alerting based on defined categorizations for network space and network boundary changes

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341682A1 (en) * 2017-05-26 2018-11-29 Nutanix, Inc. System and method for generating rules from search queries
CN107291594A (zh) * 2017-06-30 2017-10-24 上海白虹软件科技股份有限公司 openstack平台对ceph进行监控和管理的装置及方法
CN109298945A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理方法
CN111049705B (zh) * 2019-12-23 2023-09-12 深圳前海微众银行股份有限公司 一种监控分布式存储***的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104202212A (zh) * 2014-08-28 2014-12-10 浪潮(北京)电子信息产业有限公司 一种获取分布式集群***告警的***和方法
CN107864063A (zh) * 2017-12-12 2018-03-30 北京奇艺世纪科技有限公司 一种异常监控方法、装置及电子设备
US20190199688A1 (en) * 2017-12-26 2019-06-27 Qadium, Inc. Autonomous alerting based on defined categorizations for network space and network boundary changes
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、***、设备及介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021129367A1 (zh) * 2019-12-23 2021-07-01 深圳前海微众银行股份有限公司 一种监控分布式存储***的方法及装置
CN111597091A (zh) * 2020-05-20 2020-08-28 北京金山云网络技术有限公司 数据监控方法及***、电子设备、计算机存储介质
CN111625421A (zh) * 2020-05-26 2020-09-04 云和恩墨(北京)信息技术有限公司 监控分布式存储***的方法及装置、存储介质和处理器
CN111625421B (zh) * 2020-05-26 2021-07-16 云和恩墨(北京)信息技术有限公司 监控分布式存储***的方法及装置、存储介质和处理器
CN111988165A (zh) * 2020-07-09 2020-11-24 云知声智能科技股份有限公司 一种分布式存储***使用情况的监控方法及***
CN111988165B (zh) * 2020-07-09 2023-01-24 云知声智能科技股份有限公司 一种分布式存储***使用情况的监控方法及***
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控***及工作方法
CN112650642A (zh) * 2020-12-07 2021-04-13 深圳前海微众银行股份有限公司 一种告警处理方法及装置、设备、存储介质
CN112751726B (zh) * 2020-12-17 2022-09-09 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN112751726A (zh) * 2020-12-17 2021-05-04 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN112783745A (zh) * 2021-02-02 2021-05-11 无锡车联天下信息技术有限公司 一种集群数据的监控方法、装置、***及存储介质
CN113688149A (zh) * 2021-07-20 2021-11-23 青岛海尔科技有限公司 监控方法和装置
CN113641558A (zh) * 2021-08-31 2021-11-12 合众人寿保险股份有限公司 一种健康检查方法、装置及电子设备
CN114090644A (zh) * 2022-01-20 2022-02-25 飞狐信息技术(天津)有限公司 一种数据处理方法及装置
CN114090644B (zh) * 2022-01-20 2022-04-26 飞狐信息技术(天津)有限公司 一种数据处理方法及装置

Also Published As

Publication number Publication date
CN111049705B (zh) 2023-09-12
WO2021129367A1 (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
CN111049705B (zh) 一种监控分布式存储***的方法及装置
US10652119B2 (en) Automatic recovery engine with continuous recovery state machine and remote workflows
US10152382B2 (en) Method and system for monitoring virtual machine cluster
CN107092522B (zh) 实时数据的计算方法及装置
US20200319935A1 (en) System and method for automatically scaling a cluster based on metrics being monitored
US20190370107A1 (en) Data processing platform monitoring
US20080155560A1 (en) Multiple-application transaction monitoring facility for debugging and performance tuning
CN110708212B (zh) 分布式***中调用链路的追踪方法及装置
CN112527848B (zh) 基于多数据源的报表数据查询方法、装置、***及存储介质
CN113312153B (zh) 一种集群部署方法、装置、电子设备及存储介质
CN105871581A (zh) 云计算中报警信息的处理方法及装置
US20190258725A1 (en) Service regression detection using real-time anomaly detection of log data
CN111625418A (zh) 一种进程监控方法及装置
CN112181942A (zh) 时序数据库***和数据处理方法及装置
CN110737655A (zh) 用于上报数据的方法和装置
US10191844B2 (en) Automatic garbage collection thrashing monitoring
CN111274032A (zh) 任务处理***及方法、存储介质
CN112817687A (zh) 一种数据同步方法和装置
CN111917812B (zh) 数据的传输控制方法、装置、设备以及存储介质
CN109766238B (zh) 基于session数的运维平台性能监控方法、装置及相关设备
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
CN112965791A (zh) 定时任务检测方法、装置、设备及存储介质
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群***
CN113590424B (zh) 一种故障监控方法、装置、设备及存储介质
CN112463514A (zh) 分布式缓存集群的监测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant