CN104954181A - 一种分布式集群设备故障预警方法 - Google Patents

一种分布式集群设备故障预警方法 Download PDF

Info

Publication number
CN104954181A
CN104954181A CN201510307233.0A CN201510307233A CN104954181A CN 104954181 A CN104954181 A CN 104954181A CN 201510307233 A CN201510307233 A CN 201510307233A CN 104954181 A CN104954181 A CN 104954181A
Authority
CN
China
Prior art keywords
data
node
instant messages
probe
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510307233.0A
Other languages
English (en)
Inventor
葛祺
于勇新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING GEO POLYMERIZATION NETWORK TECHNOLOGY Co Ltd
Original Assignee
BEIJING GEO POLYMERIZATION NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GEO POLYMERIZATION NETWORK TECHNOLOGY Co Ltd filed Critical BEIJING GEO POLYMERIZATION NETWORK TECHNOLOGY Co Ltd
Priority to CN201510307233.0A priority Critical patent/CN104954181A/zh
Publication of CN104954181A publication Critical patent/CN104954181A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种分布式集群设备故障预警方法,包括:获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。本发明通过集群和节点的即时信息,结合历史数据、运维结论等多维度数据,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。

Description

一种分布式集群设备故障预警方法
技术领域
本发明属于分布式数据处理领域,尤其涉及一种分布式集群设备故障预警方法。
背景技术
近几年来,随着廉价集群集成理论完善,实施技术的实践经验逐步提高。但由于其理论基础就是采用廉价、通用服务器进行水平扩充,廉价的通用单个服务器的故障出现频率较商用服务器高。为了应对数据及服务的稳定的需求,需要进行节点冗余。因为此类集群构建容易、成本相对较低,因此云平台的使用范围不断扩大,集群内服务器数量动辄几十、几百个。大型局点甚至达到千台以上规模。
根据概率学的研究成果,即使是小概率事件,在相应数量级上事件发生的次数就会显著增加,为此基本可以得出结论:一定时间的范围内大规模集群必定会出现单点服务器故障。随着故障机的数量不停增长,会造成剩余机器的负载不断加大,又促使剩余机器的故障出现频率增加。
为应对以上问题,可以设定专门的运维人员进行定期巡检处理、或者在此基础上添加自动监控脚本做实时通知,但这种方案都属于事后补救,不能预先判断哪些机器可能会需要重点运维。
其次,一般运维过程都是处理故障、发布处理故障。没有将集群状态与节点状态之间建立时间、空间上的联系。
另外,集群规划时,其硬件配置、节点数量、流量拓扑、运算负载均衡、存储负载均衡都和其集群承载的业务性质、规模有直接关系。但一般集群规划时基本上依赖于方案提出人的经验。不能做定性分析、定量结论。
发明内容
本发明所要解决的技术问题是提供一种分布式集群设备故障预警方法,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。
为了解决上述技术问题,本发明提供了一种分布式集群设备故障预警方法,包括:
获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;
根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;
实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
优选的,所述获得集群和节点的即时信息数据,包括:
在网络节点部署网络探针,采集即时的网络相关数据;在各个节点***上部署***探针,采集***信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
优选的,所述***信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
优选的,所述方法还包括:
将所述故障预警信息反馈到***数据库,补充为故障样本数据。
本发明通过集群和节点的即时信息,结合历史数据、运维结论等多维度数据,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。本发明并通过历史数据建立集群与硬件配置、节点数量、流量拓扑、运算负载均衡、存储负载均衡等相关业务拓展的关联,为集群的规划提供方案设计依据。在集群规划时,可以查找历史数据,看看每个节点的故障情况,或者负载能力等,根据历史数据进行规划。
附图说明
图1为本发明实施例中一种分布式集群设备故障预警***构建方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的主要思想是:首先部署相关的数据探针程序采集相关的数据,其中1)在相关的网络节点部署网络探针,采集即时的网络相关数据,2)在各个节点***上部署***探针,采集cpu、内存、温度、磁盘等信息数据,3)各业务节点上部署业务探针,通过业务层软件接口采集业务数据。通过实时收集模块将上述数据存储到***数据库中。
参照图1所示,为本发明实施例中一种分布式集群设备故障预警方法流程图。所示方法包括:
101,获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;
102,根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;
103,实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
在本发明的一个优选实施例中,所述获得集群和节点的即时信息数据,包括:
在网络节点部署网络探针,采集即时的网络相关数据;在各个节点***上部署***探针,采集***信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
在本发明的一个优选实施例中,所述***信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
在本发明的一个优选实施例中,所述方法还包括:
将所述故障预警信息反馈到***数据库,补充为故障样本数据。
本发明由数据挖掘模块根据评估模型、根据历史数据挖掘相关的知识库,定期输入到实施评估***。同时实施评估***根据采集的实时信息、评估模型,结合挖掘出的知识库,输出相关的故障预警。最后预警***处理的结果进行反馈,补充为故障样本数据。整个***由此自我迭代,逐步形成稳定的评估网络。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种分布式集群设备故障预警方法,其特征在于,包括:
获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;
根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;
实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
2.如权利要求1所述的方法,其特征在于,所述获得集群和节点的即时信息数据,包括:
在网络节点部署网络探针,采集即时的网络相关数据;在各个节点***上部署***探针,采集***信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
3.如权利要求1所述的方法,其特征在于,所述***信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述故障预警信息反馈到***数据库,补充为故障样本数据。
CN201510307233.0A 2015-06-08 2015-06-08 一种分布式集群设备故障预警方法 Pending CN104954181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510307233.0A CN104954181A (zh) 2015-06-08 2015-06-08 一种分布式集群设备故障预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510307233.0A CN104954181A (zh) 2015-06-08 2015-06-08 一种分布式集群设备故障预警方法

Publications (1)

Publication Number Publication Date
CN104954181A true CN104954181A (zh) 2015-09-30

Family

ID=54168556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510307233.0A Pending CN104954181A (zh) 2015-06-08 2015-06-08 一种分布式集群设备故障预警方法

Country Status (1)

Country Link
CN (1) CN104954181A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515667A (zh) * 2015-12-11 2016-04-20 浪潮(北京)电子信息产业有限公司 一种高可用性计算机***
CN107391335A (zh) * 2016-03-31 2017-11-24 阿里巴巴集团控股有限公司 一种用于检查集群健康状态的方法和设备
CN108092794A (zh) * 2017-11-08 2018-05-29 北京百悟科技有限公司 网络故障处理方法和装置
CN108875207A (zh) * 2018-06-15 2018-11-23 岭东核电有限公司 一种核反应堆优化设计方法及***
CN108965049A (zh) * 2018-06-28 2018-12-07 深信服科技股份有限公司 提供集群异常解决方案的方法、设备、***及存储介质
CN110955550A (zh) * 2019-11-24 2020-04-03 济南浪潮数据技术有限公司 一种云平台故障定位方法、装置、设备及存储介质
CN112650660A (zh) * 2020-12-28 2021-04-13 北京中大科慧科技发展有限公司 一种数据中心动力***预警方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122374A (zh) * 2011-03-03 2011-07-13 江苏方天电力技术有限公司 电力自动化***流量异常智能分析***
CN102663530A (zh) * 2012-05-25 2012-09-12 中国南方电网有限责任公司超高压输电公司 高压直流输电***安全预警与评估***
CN104184819A (zh) * 2014-08-29 2014-12-03 城云科技(杭州)有限公司 多层级负载均衡云资源监控方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122374A (zh) * 2011-03-03 2011-07-13 江苏方天电力技术有限公司 电力自动化***流量异常智能分析***
CN102663530A (zh) * 2012-05-25 2012-09-12 中国南方电网有限责任公司超高压输电公司 高压直流输电***安全预警与评估***
CN104184819A (zh) * 2014-08-29 2014-12-03 城云科技(杭州)有限公司 多层级负载均衡云资源监控方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515667A (zh) * 2015-12-11 2016-04-20 浪潮(北京)电子信息产业有限公司 一种高可用性计算机***
CN107391335A (zh) * 2016-03-31 2017-11-24 阿里巴巴集团控股有限公司 一种用于检查集群健康状态的方法和设备
CN107391335B (zh) * 2016-03-31 2021-09-03 阿里巴巴集团控股有限公司 一种用于检查集群健康状态的方法和设备
CN108092794A (zh) * 2017-11-08 2018-05-29 北京百悟科技有限公司 网络故障处理方法和装置
CN108875207A (zh) * 2018-06-15 2018-11-23 岭东核电有限公司 一种核反应堆优化设计方法及***
CN108875207B (zh) * 2018-06-15 2022-11-11 岭东核电有限公司 一种核反应堆优化设计方法及***
CN108965049A (zh) * 2018-06-28 2018-12-07 深信服科技股份有限公司 提供集群异常解决方案的方法、设备、***及存储介质
CN108965049B (zh) * 2018-06-28 2021-04-09 深信服科技股份有限公司 提供集群异常解决方案的方法、设备、***及存储介质
CN110955550A (zh) * 2019-11-24 2020-04-03 济南浪潮数据技术有限公司 一种云平台故障定位方法、装置、设备及存储介质
CN110955550B (zh) * 2019-11-24 2022-07-08 济南浪潮数据技术有限公司 一种云平台故障定位方法、装置、设备及存储介质
CN112650660A (zh) * 2020-12-28 2021-04-13 北京中大科慧科技发展有限公司 一种数据中心动力***预警方法及装置
CN112650660B (zh) * 2020-12-28 2024-05-03 北京中大科慧科技发展有限公司 一种数据中心动力***预警方法及装置

Similar Documents

Publication Publication Date Title
CN104954181A (zh) 一种分布式集群设备故障预警方法
CN105095056A (zh) 一种数据仓库数据监控的方法
CN103337012B (zh) 面向电网设备监控的多主题智能综合告警分析方法
DE102016119100A1 (de) Datenanalysedienste für eine verteilte Leistungsüberwachung industrieller Anlagen
DE102016119084A9 (de) Verteilte Leistungsüberwachung und Analyse industrieller Anlagen
CN105183609A (zh) 一种应用于软件***的实时监控***及方法
CN102857371B (zh) 一种面向集群***的动态配置管理方法
CN110990391A (zh) 多源异构数据的整合方法、***、计算机设备及存储介质
CN102428447A (zh) 故障的根本原因解析结果显示方法、装置以及***
US20140097952A1 (en) Systems and methods for comprehensive alarm management
CN105653322B (zh) 运维服务器和服务器事件的处理方法
JP2013088828A (ja) リスク評価を用いた設備定期点検支援システム
JP6530252B2 (ja) リソース管理システム、及びリソース管理方法
CN104777827A (zh) 高速铁路信号***车载设备故障诊断方法
CN106817253A (zh) 日志文件的实时监控及报警的方法和***
CN103325019A (zh) 基于事件驱动的电网故障信息判断方法
CN110956282A (zh) 一种配电自动化缺陷管理***及方法
CN107658980A (zh) 一种用于复核电网监控告警信息的分析方法和***
CN110018993B (zh) 一种数据分析***、方法及监控分析***
CN116094174A (zh) 基于知识图谱的电网运维监控方法、***、设备及介质
CN103048054A (zh) 一种基于高密度温度采集的数据中心温度处理方法
CN106201835A (zh) 一种预警自动管理的实现方法置的方法
CN104036358A (zh) 一种银行的作业自动化调度***
CN112737124B (zh) 一种电力设备监测终端构建方法和装置
CN112117756A (zh) 一种调度控制***一体化运维方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150930