CN104486115A - 定位故障的方法及*** - Google Patents

定位故障的方法及*** Download PDF

Info

Publication number
CN104486115A
CN104486115A CN201410765586.0A CN201410765586A CN104486115A CN 104486115 A CN104486115 A CN 104486115A CN 201410765586 A CN201410765586 A CN 201410765586A CN 104486115 A CN104486115 A CN 104486115A
Authority
CN
China
Prior art keywords
fault
reasoning
tree
pond
warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410765586.0A
Other languages
English (en)
Other versions
CN104486115B (zh
Inventor
谷伟波
方军
田津津
熊亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410765586.0A priority Critical patent/CN104486115B/zh
Publication of CN104486115A publication Critical patent/CN104486115A/zh
Application granted granted Critical
Publication of CN104486115B publication Critical patent/CN104486115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种定位故障的方法及***,所述方法包括:接收报警信息;确定所述接收的报警信息所归属的推理树,其中所述推理树存储了***可识别并用于进行故障推理的规则集;通过所述确定的推理树定位出故障。通过采用本发明可以对报警快速进行收敛,从而有效地提高故障定位的效率。

Description

定位故障的方法及***
技术领域
本发明涉及通信领域,更为具体而言,涉及定位故障的方法及***。
背景技术
目前在各个领域都存在基础的监控***,当发生故障时,会产生大量有关联性的故障告警。为了能够更快的发现故障根因,提高整个定位效率,目前在各个领域也存在不少故障定位***的实现方案。例如,当监控到网络或设备发生故障症状时,根据化简后的故障集与症状集的关联关系矩阵,确定与监控到的故障症状具有关联关系的故障。然而只能根据一定的规则矩阵对一定量相关联的故障报警进行推理,在大型数据中心中,多个***混合嵌套,故障报警关联杂乱、存在层级,现有技术无法很好解决此问题,或者在推理定位中存在较大的延时性。
发明内容
为有效地解决上述技术问题,本发明提供了一种定位故障的方法及***。
一方面,本发明的实施方式提供了一种定位故障的方法,所述方法包括:
接收报警信息;
确定所述接收的报警信息所归属的推理树,其中所述推理树存储了***可识别并用于进行故障推理的规则集;
通过所述确定的推理树定位出故障。
另一方面,本发明的实施方式提供了一种定位故障的***,所述***包括:
接收模块,用于接收报警信息;
确定模块,用于确定所述接收模块所接收的报警信息所归属的推理树,其中所述推理树存储了***可识别并用于进行故障推理的规则集;
定位模块,用于通过所述确定模块所确定出的推理树定位出故障。
实施本发明提供的定位故障的方法及***可以对报警快速进行收敛,从而有效地提高故障定位的效率。
附图说明
图1是根据本发明实施方式的定位故障的方法的流程图;
图2示出了图1所示的步骤S130的一种实施方式;
图3是根据本发明实施方式的定位故障的方法的另一种实施方式;
图4是示出本发明实施方式的推理树的示意图;
图5是示出本发明实施方式的混合二次推理机制的示意图;
图6是根据本发明实施方式的定位故障的***的结构示意图;
图7是根据本发明实施方式的定位故障的***的另一种实施方式。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
图1是根据本发明实施方式的定位故障的方法的流程图。参见图1,所述方法包括:
S110:接收报警信息;
S120:确定所述接收的报警信息所归属的推理树,其中所述推理树存储了***可识别并用于进行故障推理的规则集,并且,在本发明的实施方式中,在执行该步骤S120前,该方法还可以预先以二叉树的数据结构存储所述规则集以构建所述推理树;
S130:通过所述确定的推理树定位出故障。
如图2所示,在本发明的实施方式中,该步骤S130可以通过以下方式实现:
S131:根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池;
S132:根据所述推理树的拆分原则,将所述报警池拆分成推理报警池,其中不同的推理树的拆分原则不同,可以预先根据经验设定,例如可以包括但不限于:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则;
S133:将所述推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
如图3所示,在本发明的一种优选的实施方式中,该方法包括:
S110’至S130’:同上所述的S110至S130,在此不再赘述;
S140’:判断是否定位所述故障的原因(导致所述故障的深度故障),若是,则执行S150’,否则,结束定位;
S150’:确定所述故障所归属的深度推理树,并通过所述确定的深度推理树定位出所述故障的原因,并返回执行步骤S140’。
其中,在本发明的实施方式中,该步骤S150’可以通过以下方式实现:
根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
根据所述深度推理树的拆分原则,将所述故障池拆分成推理故障池;
将所述推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
以下结合具体例子对本发明的实施方式进行具体说明。在本发明的实施方式中将人推理故障的过程程序化,或者说将人的故障推理经验配置化,利用人类专家的知识和经验,模拟人类专家的决策过程,来解决大型数据中心的故障定位问题。即将人类专家的经验抽象化、配置化,形成***可识别的且可用于故障推理的规则集并进行存储,供故障定位使用,例如可以采用二叉树(推理树)的形式存储专家经验,同时每个二叉树的输出叶子节点都可以作为另外一棵二叉树的输入。根据收集到的条件和已知信息匹配推理树中存储的规则集中的规则,从而定位出故障。
图4是本发明实施方式的推理树的示意图。参见图4,从根节点到叶子节点的唯一路径为推导过程,即一条推导链,对应一种类型的故障;每个推理树中的叶子节点为一种推导链对应的故障类型,对应一类故障根因case;通过使用推导链编号作为其故障类型的编号;在推导的中间环节,判断某些报警信息是否同时呈现出某种特征,根据判定结果进入后续的推导流程。由于目前大型数据中心的监控现状,一般会有如下特点:1)报警信息是分层次的,如整机房级别报警、房间级别报警、集群级别报警、交换机级别报警、板卡级别报警、端口级别报警等;2)每一层的报警又可分为原子报警和衍生性报警。如以端口级别的报警为例,软件/协议层面的报警即为衍生性报警,物理UP/DOWN的报警即为原子报警。原子报警会产生衍生性报警,反之则不然。因此,根据上述特点在本发明的实施方式中,构建推理树的原则包括:1)从高层报警到底层报警;2)从原子报警到衍生性报警;3)推理树的数量取决于可组合在一起的有关联的报警的数量。
以下对定位故障的过程进行说明,在本发明的实施方式中,首先进行初始化,包括读取报警种类信息、推理树信息、报警归属的推理树信息、推理树节点信息,同时构建推理树、注册推理树节点函数、开启相关工作线程等;其次,接收底层***的报警信息,对报警信息进行解析(解析报警信息的内容,例如是网络报警还是整机房报警、报警归属的机房和设备、报警发生的时间等),统一存储结构,生成原始报警链表;再根据预先载入的报警归属的推理树信息对原始报警进行整合,生成原始报警推理池(由归属于同一个推理树的原始报警构成);最后对原始报警推理池进行拆分(不同的推理树的拆分原则不同,可以根据经验预先设定,例如根据设备进行拆分),并根据预先载入的推理树信息、推理树节点信息进行推理,生成故障队列。同时,在本发明中提出混合二次推理机制,可将不同层次推理树推理出来的多个结论重新进行关联,并进行深度推理,从而得出更高层次的根因,解决复杂关系***根因定位困难的问题。具体地如图5所示,混合推理的整体过程为:
1、原始报警按所归属的推理树进行整合,生成原始报警推理池;
2、原始报警推理池进行拆分、推理、生成初级故障;
3、初级故障按归属的推理树进行整合,生成初级故障推理池;
4、初级故障推理池进行拆分、推理,生成中级故障;
5、以此类推,重复步骤3、4,进行更高级的混合推理,可以根据配置的专家经验,决定是否要进行更深层次的推理,若不需要,则无相关配置,混合推理结束。
图6是根据本发明实施方式的定位故障的***100的结构示意图。参见图6,该***100包括:
接收模块110,用于接收报警信息。
确定模块120,用于确定所述接收模块所接收的报警信息所归属的推理树,其中所述推理树存储了***可识别并用于进行故障推理的规则集,并且,在本发明的实施方式中,该***100还可以包括构建模块,用于以二叉树的数据结构存储所述规则集以构建所述推理树。
定位模块130,用于通过所述确定模块所确定出的推理树定位出故障。
其中,在本发明的实施方式中,该定位模块130可以包括:
整合单元,用于根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池;
拆分单元,用于根据所述推理树的拆分原则,将所述整合单元所整合出的报警池拆分成推理报警池,其中,所述拆分原则包括:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则;
匹配定位单元,用于将所述拆分单元所拆分出的推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
图7是根据本发明实施方式的定位故障的***的另一种实施方式。参见图7,该***100’包括:
接收模块110’、确定模块120’、定位模块130’:分别同上述的接收模块110、确定模块120、定位模块130,在此不再赘述;
判断模块140’,用于判断是否定位所述定位模块130’所定出的故障的原因;
深度推理模块150’,包括:用于当所述判断模块判定为定位所述故障的原因时,确定所述故障所归属的深度推理树的确定单元,以及用于通过所述确定单元所确定的深度推理树定位出所述故障的原因的深度定位单元。
其中,在本发明的实施方式中,该深度定位单元可以包括:
整合子单元,用于根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
拆分子单元,用于根据所述深度推理树的拆分原则,将所述整合子单元所整合出的故障池拆分成推理故障池;
匹配定位子单元,用于将所述拆分子单元所拆分出的推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
实施本发明提供的定位故障的方法及***可以将数据中心瞬间产生的有多面性、冗余性、耦合性的报警进行快速收敛,定位故障,提高发现事件、解决事件、通告事件的整体能力,同时为后续事件的自动化处理奠定基础,从而提高整个故障处理效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (12)

1.一种定位故障的方法,其特征在于,所述方法包括:
接收报警信息;
确定所述接收的报警信息所归属的推理树,其中所述推理树存储了***可识别并用于进行故障推理的规则集;
通过所述确定的推理树定位出故障。
2.如权利要求1所述的方法,其特征在于,通过所述确定的推理树定位出故障包括:
根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池;
根据所述推理树的拆分原则,将所述报警池拆分成推理报警池;
将所述推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
3.如权利要求2所述的方法,其特征在于,
所述拆分原则包括:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则。
4.如权利要求1~3中任意一项所述的方法,其特征在于,所述方法还包括:
在执行所述通过所述确定的推理树定位出故障后,判断是否定位所述故障的原因;
若是,则确定所述故障所归属的深度推理树,并通过所述确定的深度推理树定位出所述故障的原因。
5.如权利要求4所述的方法,其特征在于,通过所述确定的深度推理树定位出所述故障的原因包括:
根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
根据所述深度推理树的拆分原则,将所述故障池拆分成推理故障池;
将所述推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
6.如权利要求1~3中任意一项所述的方法,其特征在于,所述方法还包括:
在执行所述确定所述接收的报警信息所归属的推理树前,以二叉树的数据结构存储所述规则集以构建所述推理树。
7.一种定位故障的***,其特征在于,所述***包括:
接收模块,用于接收报警信息;
确定模块,用于确定所述接收模块所接收的报警信息所归属的推理树,其中所述推理树存储了***可识别并用于进行故障推理的规则集;
定位模块,用于通过所述确定模块所确定出的推理树定位出故障。
8.如权利要求7所述的***,其特征在于,所述定位模块包括:
整合单元,用于根据所述确定的推理树对所述报警信息进行整合以生成所述推理树的报警池;
拆分单元,用于根据所述推理树的拆分原则,将所述整合单元所整合出的报警池拆分成推理报警池;
匹配定位单元,用于将所述拆分单元所拆分出的推理报警池中的报警信息与所述推理树的节点信息进行匹配以定位出故障。
9.如权利要求8所述的***,其特征在于,
所述拆分原则包括:按照报警信息归属的机房进行拆分的原则以及按照报警信息归属的设备进行拆分的原则。
10.如权利要求7~9中任意一项所述的***,其特征在于,所述***还包括:
判断模块,用于判断是否定位所述故障的原因;
深度推理模块,包括:用于当所述判断模块判定为定位所述故障的原因时,确定所述故障所归属的深度推理树的确定单元,以及用于通过所述确定单元所确定的深度推理树定位出所述故障的原因的深度定位单元。
11.如权利要求10所述的***,其特征在于,所述深度定位单元包括:
整合子单元,用于根据所述确定的深度推理树对所述故障进行整合以生成所述深度推理树的故障池;
拆分子单元,用于根据所述深度推理树的拆分原则,将所述整合子单元所整合出的故障池拆分成推理故障池;
匹配定位子单元,用于将所述拆分子单元所拆分出的推理故障池中的故障与所述深度推理树的节点信息进行匹配以定位出原因。
12.如权利要求7~9中任意一项所述的***,其特征在于,所述***还包括:
构建模块,用于以二叉树的数据结构存储所述规则集以构建所述推理树。
CN201410765586.0A 2014-12-11 2014-12-11 定位故障的方法及*** Active CN104486115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410765586.0A CN104486115B (zh) 2014-12-11 2014-12-11 定位故障的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410765586.0A CN104486115B (zh) 2014-12-11 2014-12-11 定位故障的方法及***

Publications (2)

Publication Number Publication Date
CN104486115A true CN104486115A (zh) 2015-04-01
CN104486115B CN104486115B (zh) 2018-09-28

Family

ID=52760623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410765586.0A Active CN104486115B (zh) 2014-12-11 2014-12-11 定位故障的方法及***

Country Status (1)

Country Link
CN (1) CN104486115B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526431A (zh) * 2016-12-30 2017-03-22 北京鼎科远图科技有限公司 接地和/或短路故障报警反演方法及装置
CN108632103A (zh) * 2017-03-17 2018-10-09 中兴通讯股份有限公司 ***异常诊断的方法和装置
CN110855480A (zh) * 2019-11-01 2020-02-28 中盈优创资讯科技有限公司 一种网络故障定因分析方法及装置
CN111106953A (zh) * 2019-12-16 2020-05-05 深圳前海微众银行股份有限公司 一种异常根因分析的方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553328A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 基于故障树分析的***故障定位方法及装置
CN101355451A (zh) * 2008-09-09 2009-01-28 中兴通讯股份有限公司 一种告警相关性分析方法及***
CN101916499A (zh) * 2010-08-12 2010-12-15 深圳市共济科技有限公司 一种智能报警装置及智能报警方法
CN101945009A (zh) * 2010-09-14 2011-01-12 国网电力科学研究院 基于案例和模式匹配的电力通信网故障定位方法及装置
US20110099428A1 (en) * 2008-04-08 2011-04-28 Tieto Oyj Dynamic fault analysis for a centrally managed network element in a telecommunications system
CN102325036A (zh) * 2011-05-17 2012-01-18 中兴通讯股份有限公司 一种网络***的故障诊断方法、***及装置
CN102457390A (zh) * 2010-10-15 2012-05-16 中兴通讯股份有限公司 一种基于qoe的故障定位方法和***
CN102938708A (zh) * 2012-11-05 2013-02-20 国网电力科学研究院 基于告警传播模式的告警相关性分析***及其分析方法
CN103580924A (zh) * 2013-11-12 2014-02-12 武汉钢铁(集团)公司 一种故障定位方法、装置及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553328A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 基于故障树分析的***故障定位方法及装置
US20110099428A1 (en) * 2008-04-08 2011-04-28 Tieto Oyj Dynamic fault analysis for a centrally managed network element in a telecommunications system
CN101355451A (zh) * 2008-09-09 2009-01-28 中兴通讯股份有限公司 一种告警相关性分析方法及***
CN101916499A (zh) * 2010-08-12 2010-12-15 深圳市共济科技有限公司 一种智能报警装置及智能报警方法
CN101945009A (zh) * 2010-09-14 2011-01-12 国网电力科学研究院 基于案例和模式匹配的电力通信网故障定位方法及装置
CN102457390A (zh) * 2010-10-15 2012-05-16 中兴通讯股份有限公司 一种基于qoe的故障定位方法和***
CN102325036A (zh) * 2011-05-17 2012-01-18 中兴通讯股份有限公司 一种网络***的故障诊断方法、***及装置
CN102938708A (zh) * 2012-11-05 2013-02-20 国网电力科学研究院 基于告警传播模式的告警相关性分析***及其分析方法
CN103580924A (zh) * 2013-11-12 2014-02-12 武汉钢铁(集团)公司 一种故障定位方法、装置及***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526431A (zh) * 2016-12-30 2017-03-22 北京鼎科远图科技有限公司 接地和/或短路故障报警反演方法及装置
CN106526431B (zh) * 2016-12-30 2019-07-19 北京鼎科远图科技有限公司 接地和/或短路故障报警反演方法及装置
CN108632103A (zh) * 2017-03-17 2018-10-09 中兴通讯股份有限公司 ***异常诊断的方法和装置
CN108632103B (zh) * 2017-03-17 2021-04-06 中兴通讯股份有限公司 ***异常诊断的方法和装置
CN110855480A (zh) * 2019-11-01 2020-02-28 中盈优创资讯科技有限公司 一种网络故障定因分析方法及装置
CN110855480B (zh) * 2019-11-01 2023-01-13 中盈优创资讯科技有限公司 一种网络故障定因分析方法及装置
CN111106953A (zh) * 2019-12-16 2020-05-05 深圳前海微众银行股份有限公司 一种异常根因分析的方法及装置
CN111106953B (zh) * 2019-12-16 2024-04-16 深圳前海微众银行股份有限公司 一种异常根因分析的方法及装置

Also Published As

Publication number Publication date
CN104486115B (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN105159964B (zh) 一种日志监控方法及***
CN105165054B (zh) 网络服务故障处理方法,服务管理***和***管理模块
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
Liu et al. A fault diagnosis method for power transmission networks based on spiking neural p systems with self‐updating rules considering biological apoptosis mechanism
CN104486115A (zh) 定位故障的方法及***
US20100110904A1 (en) Identifying improper cabling of devices
CN103986604A (zh) 网络故障定位方法和装置
WO2017080161A1 (zh) 云计算中报警信息的处理方法及装置
CN109086182A (zh) 数据库自动告警的方法及终端设备
CN104091622A (zh) 一种核电站数字化控制***可用率评估方法及***
WO2022143025A1 (zh) 基于联邦学习的告警关联检测方法、***、网络及介质
CN103490917A (zh) 故障处理情况的检测方法及装置
CN105183619A (zh) 一种***故障预警方法和***
CN101820359A (zh) 一种网络设备的故障处理方法和设备
CN103905219A (zh) 一种业务平台中通信信息的监控存储***及方法
CN106326736A (zh) 数据处理方法及***
CN110113392A (zh) 一种监控app客户端埋点采集完整性的方法及设备
Dozier et al. Vulnerability analysis of AIS-based intrusion detection systems via genetic and particle swarm red teams
CN106161058B (zh) 一种告警分级方法及装置
CN114039838B (zh) 基于最大不相交双路由的电力通信网故障分析方法及相关设备
CN103197981B (zh) 存储空间预警方法和***
CN106849354B (zh) 一种配电***中配电网的故障诊断方法
CN106970817B (zh) 故障确定方法及装置
CN106850283B (zh) 一种基于事件驱动的云ac告警处理***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant