CN104954181A - 一种分布式集群设备故障预警方法 - Google Patents
一种分布式集群设备故障预警方法 Download PDFInfo
- Publication number
- CN104954181A CN104954181A CN201510307233.0A CN201510307233A CN104954181A CN 104954181 A CN104954181 A CN 104954181A CN 201510307233 A CN201510307233 A CN 201510307233A CN 104954181 A CN104954181 A CN 104954181A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- instant messages
- probe
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种分布式集群设备故障预警方法,包括:获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。本发明通过集群和节点的即时信息,结合历史数据、运维结论等多维度数据,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。
Description
技术领域
本发明属于分布式数据处理领域,尤其涉及一种分布式集群设备故障预警方法。
背景技术
近几年来,随着廉价集群集成理论完善,实施技术的实践经验逐步提高。但由于其理论基础就是采用廉价、通用服务器进行水平扩充,廉价的通用单个服务器的故障出现频率较商用服务器高。为了应对数据及服务的稳定的需求,需要进行节点冗余。因为此类集群构建容易、成本相对较低,因此云平台的使用范围不断扩大,集群内服务器数量动辄几十、几百个。大型局点甚至达到千台以上规模。
根据概率学的研究成果,即使是小概率事件,在相应数量级上事件发生的次数就会显著增加,为此基本可以得出结论:一定时间的范围内大规模集群必定会出现单点服务器故障。随着故障机的数量不停增长,会造成剩余机器的负载不断加大,又促使剩余机器的故障出现频率增加。
为应对以上问题,可以设定专门的运维人员进行定期巡检处理、或者在此基础上添加自动监控脚本做实时通知,但这种方案都属于事后补救,不能预先判断哪些机器可能会需要重点运维。
其次,一般运维过程都是处理故障、发布处理故障。没有将集群状态与节点状态之间建立时间、空间上的联系。
另外,集群规划时,其硬件配置、节点数量、流量拓扑、运算负载均衡、存储负载均衡都和其集群承载的业务性质、规模有直接关系。但一般集群规划时基本上依赖于方案提出人的经验。不能做定性分析、定量结论。
发明内容
本发明所要解决的技术问题是提供一种分布式集群设备故障预警方法,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。
为了解决上述技术问题,本发明提供了一种分布式集群设备故障预警方法,包括:
获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;
根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;
实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
优选的,所述获得集群和节点的即时信息数据,包括:
在网络节点部署网络探针,采集即时的网络相关数据;在各个节点***上部署***探针,采集***信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
优选的,所述***信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
优选的,所述方法还包括:
将所述故障预警信息反馈到***数据库,补充为故障样本数据。
本发明通过集群和节点的即时信息,结合历史数据、运维结论等多维度数据,进行现网故障预警,为设备的运行维护提供依据,从而可以查找出需要重点维护的设备,防止设备出现故障。本发明并通过历史数据建立集群与硬件配置、节点数量、流量拓扑、运算负载均衡、存储负载均衡等相关业务拓展的关联,为集群的规划提供方案设计依据。在集群规划时,可以查找历史数据,看看每个节点的故障情况,或者负载能力等,根据历史数据进行规划。
附图说明
图1为本发明实施例中一种分布式集群设备故障预警***构建方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的主要思想是:首先部署相关的数据探针程序采集相关的数据,其中1)在相关的网络节点部署网络探针,采集即时的网络相关数据,2)在各个节点***上部署***探针,采集cpu、内存、温度、磁盘等信息数据,3)各业务节点上部署业务探针,通过业务层软件接口采集业务数据。通过实时收集模块将上述数据存储到***数据库中。
参照图1所示,为本发明实施例中一种分布式集群设备故障预警方法流程图。所示方法包括:
101,获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;
102,根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;
103,实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
在本发明的一个优选实施例中,所述获得集群和节点的即时信息数据,包括:
在网络节点部署网络探针,采集即时的网络相关数据;在各个节点***上部署***探针,采集***信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
在本发明的一个优选实施例中,所述***信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
在本发明的一个优选实施例中,所述方法还包括:
将所述故障预警信息反馈到***数据库,补充为故障样本数据。
本发明由数据挖掘模块根据评估模型、根据历史数据挖掘相关的知识库,定期输入到实施评估***。同时实施评估***根据采集的实时信息、评估模型,结合挖掘出的知识库,输出相关的故障预警。最后预警***处理的结果进行反馈,补充为故障样本数据。整个***由此自我迭代,逐步形成稳定的评估网络。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种分布式集群设备故障预警方法,其特征在于,包括:
获得集群和节点的即时信息数据,将所述即时信息数据存储到***数据库,补充为历史数据;
根据评估模型的需要,到***数据库中获得需要的数据,形成知识库,将所述知识库定期输入到实施评估***;
实施评估***根据所述即时信息数据、评估模型,知识库,输出故障预警信息。
2.如权利要求1所述的方法,其特征在于,所述获得集群和节点的即时信息数据,包括:
在网络节点部署网络探针,采集即时的网络相关数据;在各个节点***上部署***探针,采集***信息数据;在各业务节点上部署业务探针,通过业务层软件接口采集业务数据。
3.如权利要求1所述的方法,其特征在于,所述***信息数据包括以下中的一种或者一种以上的组合:cpu、内存、温度、磁盘数据。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述故障预警信息反馈到***数据库,补充为故障样本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510307233.0A CN104954181A (zh) | 2015-06-08 | 2015-06-08 | 一种分布式集群设备故障预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510307233.0A CN104954181A (zh) | 2015-06-08 | 2015-06-08 | 一种分布式集群设备故障预警方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104954181A true CN104954181A (zh) | 2015-09-30 |
Family
ID=54168556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510307233.0A Pending CN104954181A (zh) | 2015-06-08 | 2015-06-08 | 一种分布式集群设备故障预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104954181A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105515667A (zh) * | 2015-12-11 | 2016-04-20 | 浪潮(北京)电子信息产业有限公司 | 一种高可用性计算机*** |
CN107391335A (zh) * | 2016-03-31 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 一种用于检查集群健康状态的方法和设备 |
CN108092794A (zh) * | 2017-11-08 | 2018-05-29 | 北京百悟科技有限公司 | 网络故障处理方法和装置 |
CN108875207A (zh) * | 2018-06-15 | 2018-11-23 | 岭东核电有限公司 | 一种核反应堆优化设计方法及*** |
CN108965049A (zh) * | 2018-06-28 | 2018-12-07 | 深信服科技股份有限公司 | 提供集群异常解决方案的方法、设备、***及存储介质 |
CN110955550A (zh) * | 2019-11-24 | 2020-04-03 | 济南浪潮数据技术有限公司 | 一种云平台故障定位方法、装置、设备及存储介质 |
CN112650660A (zh) * | 2020-12-28 | 2021-04-13 | 北京中大科慧科技发展有限公司 | 一种数据中心动力***预警方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122374A (zh) * | 2011-03-03 | 2011-07-13 | 江苏方天电力技术有限公司 | 电力自动化***流量异常智能分析*** |
CN102663530A (zh) * | 2012-05-25 | 2012-09-12 | 中国南方电网有限责任公司超高压输电公司 | 高压直流输电***安全预警与评估*** |
CN104184819A (zh) * | 2014-08-29 | 2014-12-03 | 城云科技(杭州)有限公司 | 多层级负载均衡云资源监控方法 |
-
2015
- 2015-06-08 CN CN201510307233.0A patent/CN104954181A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122374A (zh) * | 2011-03-03 | 2011-07-13 | 江苏方天电力技术有限公司 | 电力自动化***流量异常智能分析*** |
CN102663530A (zh) * | 2012-05-25 | 2012-09-12 | 中国南方电网有限责任公司超高压输电公司 | 高压直流输电***安全预警与评估*** |
CN104184819A (zh) * | 2014-08-29 | 2014-12-03 | 城云科技(杭州)有限公司 | 多层级负载均衡云资源监控方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105515667A (zh) * | 2015-12-11 | 2016-04-20 | 浪潮(北京)电子信息产业有限公司 | 一种高可用性计算机*** |
CN107391335A (zh) * | 2016-03-31 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 一种用于检查集群健康状态的方法和设备 |
CN107391335B (zh) * | 2016-03-31 | 2021-09-03 | 阿里巴巴集团控股有限公司 | 一种用于检查集群健康状态的方法和设备 |
CN108092794A (zh) * | 2017-11-08 | 2018-05-29 | 北京百悟科技有限公司 | 网络故障处理方法和装置 |
CN108875207A (zh) * | 2018-06-15 | 2018-11-23 | 岭东核电有限公司 | 一种核反应堆优化设计方法及*** |
CN108875207B (zh) * | 2018-06-15 | 2022-11-11 | 岭东核电有限公司 | 一种核反应堆优化设计方法及*** |
CN108965049A (zh) * | 2018-06-28 | 2018-12-07 | 深信服科技股份有限公司 | 提供集群异常解决方案的方法、设备、***及存储介质 |
CN108965049B (zh) * | 2018-06-28 | 2021-04-09 | 深信服科技股份有限公司 | 提供集群异常解决方案的方法、设备、***及存储介质 |
CN110955550A (zh) * | 2019-11-24 | 2020-04-03 | 济南浪潮数据技术有限公司 | 一种云平台故障定位方法、装置、设备及存储介质 |
CN110955550B (zh) * | 2019-11-24 | 2022-07-08 | 济南浪潮数据技术有限公司 | 一种云平台故障定位方法、装置、设备及存储介质 |
CN112650660A (zh) * | 2020-12-28 | 2021-04-13 | 北京中大科慧科技发展有限公司 | 一种数据中心动力***预警方法及装置 |
CN112650660B (zh) * | 2020-12-28 | 2024-05-03 | 北京中大科慧科技发展有限公司 | 一种数据中心动力***预警方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104954181A (zh) | 一种分布式集群设备故障预警方法 | |
CN105095056A (zh) | 一种数据仓库数据监控的方法 | |
CN103337012B (zh) | 面向电网设备监控的多主题智能综合告警分析方法 | |
DE102016119100A1 (de) | Datenanalysedienste für eine verteilte Leistungsüberwachung industrieller Anlagen | |
DE102016119084A9 (de) | Verteilte Leistungsüberwachung und Analyse industrieller Anlagen | |
CN105183609A (zh) | 一种应用于软件***的实时监控***及方法 | |
CN102857371B (zh) | 一种面向集群***的动态配置管理方法 | |
CN110990391A (zh) | 多源异构数据的整合方法、***、计算机设备及存储介质 | |
CN102428447A (zh) | 故障的根本原因解析结果显示方法、装置以及*** | |
US20140097952A1 (en) | Systems and methods for comprehensive alarm management | |
CN105653322B (zh) | 运维服务器和服务器事件的处理方法 | |
JP2013088828A (ja) | リスク評価を用いた設備定期点検支援システム | |
JP6530252B2 (ja) | リソース管理システム、及びリソース管理方法 | |
CN104777827A (zh) | 高速铁路信号***车载设备故障诊断方法 | |
CN106817253A (zh) | 日志文件的实时监控及报警的方法和*** | |
CN103325019A (zh) | 基于事件驱动的电网故障信息判断方法 | |
CN110956282A (zh) | 一种配电自动化缺陷管理***及方法 | |
CN107658980A (zh) | 一种用于复核电网监控告警信息的分析方法和*** | |
CN110018993B (zh) | 一种数据分析***、方法及监控分析*** | |
CN116094174A (zh) | 基于知识图谱的电网运维监控方法、***、设备及介质 | |
CN103048054A (zh) | 一种基于高密度温度采集的数据中心温度处理方法 | |
CN106201835A (zh) | 一种预警自动管理的实现方法置的方法 | |
CN104036358A (zh) | 一种银行的作业自动化调度*** | |
CN112737124B (zh) | 一种电力设备监测终端构建方法和装置 | |
CN112117756A (zh) | 一种调度控制***一体化运维方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150930 |