CN106549831B - 一种信息***的健康分析方法和*** - Google Patents

一种信息***的健康分析方法和*** Download PDF

Info

Publication number
CN106549831B
CN106549831B CN201611052509.6A CN201611052509A CN106549831B CN 106549831 B CN106549831 B CN 106549831B CN 201611052509 A CN201611052509 A CN 201611052509A CN 106549831 B CN106549831 B CN 106549831B
Authority
CN
China
Prior art keywords
subsystem
health
availability
information system
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611052509.6A
Other languages
English (en)
Other versions
CN106549831A (zh
Inventor
肖克江
付暾
童一维
罗伟
邓鹏程
吴佼
毛苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201611052509.6A priority Critical patent/CN106549831B/zh
Publication of CN106549831A publication Critical patent/CN106549831A/zh
Application granted granted Critical
Publication of CN106549831B publication Critical patent/CN106549831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供信息***的健康分析方法和***,所述信息***包括若干个子***,每一个所述子***包括若干个存在关联关系的服务组件,所述方法包括以下步骤:S1、基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得该子***的健康度;以及S2、基于所有子***的健康度获得信息***的健康度。本方法可以准确、快速地发现***的异常情况。

Description

一种信息***的健康分析方法和***
技术领域
本发明涉及计算机技术领域,更具体地,涉及信息***的健康分析方法和***。
背景技术
对于电力公司的信息***监控平台,通常有针对网络和业务***进行检测的需求。而现有的检测程序一般以设备监控为主,这种方式只能监控支撑业务***运行的设备状态,并以此判断***是否可用。但是这种方式存在一个问题,实际情况中会经常出现监控***中各项监控指标都正常,但是业务***出了问题或故障。此外,由于业务层层嵌套、相互关联,运维人员很难量化信息***是否健康,更难发现信息***的潜在威胁。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的信息***的健康分析方法。
根据本发明的一个方面,提供一种信息***的健康分析方法,所述信息***包括若干个子***,每一个所述子***包括若干个存在关联关系的服务组件,包括以下步骤:
S1、基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得该子***的健康度;以及
S2、基于所有子***的健康度获得信息***的健康度。
根据本发明的另一个方面,提供一种信息***的健康分析***,所述信息***包括若干个子***,每一个所述子***包括若干个存在关联关系的服务组件,包括:
若干个子***健康度装置,与每个子***一一对应地连接,基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得该子***的健康度;以及
信息***健康度装置,与所有所述子***健康度装置连接,基于所有子***的健康度获得信息***的健康度。
本申请提出一种基于告警风险值以及可用性值获得每个服务组件的健康度、再根据所有服务组件的健康度获得信息***的健康度。本方法可以准确、快速地发现***的异常情况。
附图说明
图1为本发明实施例的信息***健康分析方法的流程示意图;
图2为根据本发明实施例的营销***的组成示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本发明实施例的信息***健康分析方法的流程示意图。本实施例中的信息***健康分析方法包括:
一种信息***的健康分析方法,所述信息***包括若干个子***,每一个所述子***包括若干个存在关联关系的服务组件,每一个服务组件包括若干个监控组件,每一个监控组件对应一个监控指标,所述方法包括:
计算每个服务组件的告警风险值和可用性值;
基于服务组件的串联关系和并联关系计算子***的可用性值;
基于每个服务组件的告警风险值和子***的可用性值计算子***的健康度;以及
基于所有子***的健康度计算信息***的健康度。
在一个实施例中,所述服务组件的告警风险值的计算公式为:
且∑lγl=1;
其中,为第j个子***中第i个服务组件的告警风险值、Nl表示第l个告警等级的告警次数、γl为告警严重系数、m为监控指标的数量。所述告警风险值是指监控组件出现故障的程度,在信息***中,每个服务组件根据监控组件故障程度的不同具有不同的告警严重系数,故障程度越高则告警严重系数越高,∑lγl=1,即为所有告警严重系数的和为1,m表示监控组件的数量,一个监控组件需要监控一个监控指标。由上述公式可知,告警风险值能够很好地反应出监控指标的告警风险,告警风险值越大,说明告警风险越大,越有可能出现故障并告警。
在一个实施例中,基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,计算公式为其中,表示第i个服务组件中第k个监控组件的可用性值、Nfailure表示一定时间的故障次数、Ntotal表示一定时间总的检测次数。由本公式可知,在检测次数一定的条件下,故障次数越多,则可用性值越低。
在一个实施例中,基于所有监控组件的可用性值获得服务组件的可用性,技术公式为:其中Hj(i)为第i个服务组件的可用性值。
在一个实施例中,基于所有服务组件的可用性以及关联关系获得所述子***的可用性值。
所述关联关系包括并联和串联,并联指通过F5或RAC等技术构成集群,串联指多个组件共同提供某个服务。
当各个服务组件之间是串联关系时,各个服务组件共同提供某个服务,必须各个组件都可用时,该种类型的服务组件才可用,是“且”的关系,因此子***的可用性值Hj的计算方法如下:Hj=ΠiHj(i);
当各个服务组件之间是并联关系时,通过F5或RAC等技术构成集群,当集群中的一个***发生故障时,集群软件迅速做出反应,将该***的任务分配到集群中其它正在工作的***上执行,或者每个节点都可以承担一定的处理负载,并且可以实现处理负载在节点之间的动态分配,以实现负载均衡,因此Hj计算如下:Hj=1-Πi(1-Hj(i));
其中,Hj为所述子***的可用性值。
在一个实施例中,通过上述方法得到子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得子***的健康度,所述子***的健康度的计算如下:其中,为第j个子***的健康度、为第j个子***中第i个服务组件的告警风险值、C为该子***中服务组件的总个数。
在一个具体实施例中,所述信息***的健康度的计算方法为:
其中,所述为信息***的健康度,βj为每个子***的权重,是第j个子***的健康度。
在一个实施例中,本方法还包括:基于所述信息***的健康度与经验得到的健康阈值的大小判断所述信息***是否健康,当所述信息***的健康度大于监控阈值时,则认定信息***为健康状态,反之则认定信息***为非健康状态。
图2给出了一个基于本发明的信息***健康分析方法的营销***,本营销***包括存在4个子***,分别为主机子***,网络子***、数据库服务器子***以及工作站子***,所述主机子***由3个为并联关系的主机组成,3台主机分别为主机1、主机2以及主机3。
在这个实例中,在这个实例中,主机1的运行状态每1.5分钟检测一次,在一个小时内出现8次该主机状态不可用情况,主机2的运行状态每1.5分钟检测一次,在一个小时内出现4次该主机状态不可用情况,主机3的运行状态每1.5分钟一次,在一个小时内出现5次该主机状态不可用情况,计算一小时主机1、主机2和主机3的可用性分别为:
由于主机之间是并联关系,因此主机子***的可用性为:
H1=1-Πi(1-Hj(i))
=1-(1-H1(1))×(1-H1(2))×(1-H1(3))
=1-(1-0.8)×(1-0.9)×(1-0.875)
=0.9975
3台主机均采集8个监控指标,告警分为3个等级,计算一小时内的主机健康度,针对告警等级设定一定的严重度,critical告警严重度系数0.5,major告警严重度系数0.3,warning级告警严重度系数0.2,主机1出现critical告警2次,major告警1次,minor告警5次;主机2出现critical告警1次,major告警1次,minor告警7次;主机3出现critical告警3次,major告警1次,minor告警3次。那么主机1、主机2和主机3的告警风险值分别计算如下:
因此,主机子***的健康度为:
在一个实施例中,网络子***、数据库服务器子***和工作站子***的健康度分别为0.51、0.63、0.56,而网络子***、数据库服务器子***和工作站子***的权重分别为主机子***的权重β1=0.3,网络子***的权重β2=0.2,数据库服务器子***的权重β3=0.3,工作站子***的权重β4=0.2,那么营销***的健康度为:
本发明还提供一种信息***的健康分析***,所述信息***包括若干个子***,每一个所述子***包括若干个存在关联关系的服务组件,包括:
若干个子***健康度装置,与每个子***一一对应地连接,基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得该子***的健康度;以及
信息***健康度装置,与所有所述子***健康度装置连接,基于所有子***的健康度获得信息***的健康度。
在一个实施例中,所述子***健康度装置包括:
告警风险模块,与子***中的所有服务组件连接,基于所述服务组件的不同告警等级的告警次数、告警严重系数以及监控组件的数量获得所述服务组件的告警风险值;
组件可用性模块,与每个服务组件中的所有监控组件连接,基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,对所有监控组件的可用性值进行连乘获得所述服务组件的可用性值;
子***可用性模块,与所述组件可用性模块连接,基于所有监控组件的可用性值以及关联关系获得所述子***的可用性值;以及
子***健康度模块,与所述告警风险模块以及子***可用性模块连接,基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得子***的健康度。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种信息***的健康分析方法,所述信息***包括若干个子***,每一个所述子***包括若干个存在关联关系的服务组件,任意一个所述服务组件包括若干个监控组件,其特征在于,包括以下步骤:
S1、基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得该子***的健康度;以及
S2、基于所有子***的健康度获得信息***的健康度;
其中,所述步骤S1包括:
S1.1、基于所述服务组件的不同告警等级的告警次数、告警严重系数以及监控组件的数量获得所述服务组件的告警风险值;
S1.2、基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,对所有监控组件的可用性值进行连乘获得所述服务组件的可用性值;
S1.3、基于所有服务组件的可用性值以及关联关系获得所述子***的可用性值;以及
S1.4、基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得子***的健康度;
其中,子***的健康度的计算公式如下: 为第j个子***的健康度、Hj为所述子***的可用性值、为第j个子***中第i个服务组件的告警风险值、C为该子***中服务组件的总个数。
2.如权利要求1所述的信息***的健康分析方法,其特征在于,所述步骤S1.3包括:
当子***内的服务组件的关联关系为串联时,所述子***的可用性值的计算方法为:Hj=∏iHj(i);或
当子***内的服务组件的关联关系为并联时,所述子***的可用性值的计算方法为:Hj=1-∏i(1-Hj(i));
其中,Hj(i)为第i个服务组件的可用性值。
3.如权利要求1所述的信息***的健康分析方法,其特征在于,所述步骤S2的计算方法为:
其中,所述为信息***的健康度,βj为每个子***的权重。
4.如权利要求1-3任意一项所述的信息***的健康分析方法,其特征在于,还包括:
步骤S3,基于所述信息***的健康度与健康阈值的大小判断所述信息***是否健康。
5.一种信息***的健康分析***,所述信息***包括若干个子***,每一个所述子***包括若干个存在关联关系的服务组件,其特征在于,包括:
若干个子***健康度装置,与每个子***一一对应地连接,基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得该子***的健康度;以及
信息***健康度装置,与所有所述子***健康度装置连接,基于所有子***的健康度获得信息***的健康度;
所述子***健康度装置包括:
告警风险模块,与子***中的所有服务组件连接,基于所述服务组件的不同告警等级的告警次数、告警严重系数以及监控组件的数量获得所述服务组件的告警风险值;
组件可用性模块,与每个服务组件中的所有监控组件连接,基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,对所有监控组件的可用性值进行连乘获得所述服务组件的可用性值;
子***可用性模块,与所述组件可用性模块连接,基于所有服务组件的可用性值以及关联关系获得所述子***的可用性值;以及
子***健康度模块,与所述告警风险模块以及子***可用性模块连接,基于子***的可用性值以及该子***中所有服务组件的告警风险值和个数获得子***的健康度;
其中,子***的健康度的计算公式如下: 为第j个子***的健康度、Hj为所述子***的可用性值、为第j个子***中第i个服务组件的告警风险值、C为该子***中服务组件的总个数。
CN201611052509.6A 2016-11-24 2016-11-24 一种信息***的健康分析方法和*** Active CN106549831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611052509.6A CN106549831B (zh) 2016-11-24 2016-11-24 一种信息***的健康分析方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611052509.6A CN106549831B (zh) 2016-11-24 2016-11-24 一种信息***的健康分析方法和***

Publications (2)

Publication Number Publication Date
CN106549831A CN106549831A (zh) 2017-03-29
CN106549831B true CN106549831B (zh) 2019-12-24

Family

ID=58395849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611052509.6A Active CN106549831B (zh) 2016-11-24 2016-11-24 一种信息***的健康分析方法和***

Country Status (1)

Country Link
CN (1) CN106549831B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309575A (zh) * 2017-07-26 2019-02-05 贵州白山云科技股份有限公司 一种确定监控***健康度的方法和装置
CN110890972B (zh) * 2018-09-07 2022-06-28 ***通信集团浙江有限公司 一种业务***的健康度评估方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159581A (zh) * 2006-10-08 2008-04-09 中兴通讯股份有限公司 网管多等级告警的告警气泡表示方法
CN101277218A (zh) * 2008-05-04 2008-10-01 中兴通讯股份有限公司 一种网络告警的动态分析***和方法
US8209702B1 (en) * 2007-09-27 2012-06-26 Emc Corporation Task execution using multiple pools of processing threads, each pool dedicated to execute different types of sub-tasks
CN103490925A (zh) * 2013-09-16 2014-01-01 国家电网公司 电力通信网性能状态实时评估方法与***
CN103580934A (zh) * 2012-07-18 2014-02-12 深圳市腾讯计算机***有限公司 一种云业务监测方法和装置
CN105635112A (zh) * 2015-12-18 2016-06-01 国家电网公司 信息***安全性能的评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159581A (zh) * 2006-10-08 2008-04-09 中兴通讯股份有限公司 网管多等级告警的告警气泡表示方法
US8209702B1 (en) * 2007-09-27 2012-06-26 Emc Corporation Task execution using multiple pools of processing threads, each pool dedicated to execute different types of sub-tasks
CN101277218A (zh) * 2008-05-04 2008-10-01 中兴通讯股份有限公司 一种网络告警的动态分析***和方法
CN103580934A (zh) * 2012-07-18 2014-02-12 深圳市腾讯计算机***有限公司 一种云业务监测方法和装置
CN103490925A (zh) * 2013-09-16 2014-01-01 国家电网公司 电力通信网性能状态实时评估方法与***
CN105635112A (zh) * 2015-12-18 2016-06-01 国家电网公司 信息***安全性能的评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
概率评价法;张乃禄;《安全评价技术》;20160831;正文第157-161页 *

Also Published As

Publication number Publication date
CN106549831A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
JP6828096B2 (ja) サーバハードウェア障害の分析及びリカバリ
KR101856543B1 (ko) 인공지능 기반의 장애 예측 시스템
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US8880946B2 (en) Fault detection apparatus, a fault detection method and a program recording medium
EP2759938B1 (en) Operations management device, operations management method, and program
US9331897B2 (en) Recovery from multiple faults in a communications network
KR20190006032A (ko) 이상 데이터의 중요도 판정 장치 및 이상 데이터의 중요도 판정 방법
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
CN103797468A (zh) ***异常的自动化检测
WO2016185596A1 (ja) 遠隔監視装置、遠隔監視保守システム、遠隔監視方法、及び遠隔監視プログラム
US8713377B2 (en) System and method to assess serviceability of device
US20090063906A1 (en) Method, Apparatus and Program Storage Device for Extending Dispersion Frame Technique Behavior Using Dynamic Rule Sets
CN111857555B (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
JP6812312B2 (ja) プラント支援評価システム及びプラント支援評価方法
KR20140038265A (ko) 고장관리장치 및 이의 고장관리방법
CN106549831B (zh) 一种信息***的健康分析方法和***
CN115409283A (zh) 设备故障预测方法、设备故障预测装置、设备及存储介质
CN117391675B (zh) 一种数据中心基础设施运维管理方法
CN109309575A (zh) 一种确定监控***健康度的方法和装置
CN116484056A (zh) 一种基于知识图谱的轨道交通事故的预防方法
CN111062604B (zh) 基于气象灾害的电网业务风险评估方法、装置及设备
CN106685694B (zh) 一种信息***告警相关性分析方法及***
CN115372752A (zh) 故障检测方法、装置、电子设备以及存储介质
US20130096979A1 (en) System for monitoring safety protocols
CN202261335U (zh) 用于监控***的服务水平管理***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant