CN107357730B - 一种***故障诊断修复方法及装置 - Google Patents
一种***故障诊断修复方法及装置 Download PDFInfo
- Publication number
- CN107357730B CN107357730B CN201710580322.1A CN201710580322A CN107357730B CN 107357730 B CN107357730 B CN 107357730B CN 201710580322 A CN201710580322 A CN 201710580322A CN 107357730 B CN107357730 B CN 107357730B
- Authority
- CN
- China
- Prior art keywords
- fault
- data
- type
- diagnosis model
- establishing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 53
- 230000008439 repair process Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012423 maintenance Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/362—Software debugging
- G06F11/366—Software debugging using diagnostics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本文提供一种***故障诊断修复方法及装置,涉及云计算数据中心技术。本文公开的一种***故障诊断修复方法,包括:通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型;当***发生故障时,将当前故障的数据输入所述故障诊断模型,分析确定当前故障的故障类型;调用当前故障的故障类型对应的故障处理策略,进行故障修复。本文还提供一种***故障诊断修复装置。
Description
技术领域
本发明涉及云计算数据中心技术,具体涉及一种运维自动化平台***故障自动化诊断和修复的方案。
背景技术
随着公司信息化进程的推进,业务模块数量激增,运维难度也随之增大。而业务模块的复杂性,同时也使得***故障处理变的更加困难。如何自动化诊断并修复***故障,降低运维成本,减少***故障给公司带来的损失变得尤为重要。
发明内容
本发明所要解决的技术问题是,提供一种***故障诊断修复方法及装置,可以提高***故障诊断效率。
为了解决上述技术问题,本发明公开了一种***故障诊断修复方法,包括:
通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型;
当***发生故障时,将当前故障的数据输入所述故障诊断模型,分析确定当前故障的故障类型;
调用当前故障的故障类型对应的故障处理策略,进行故障修复。
可选地、上述方法中,所述通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型包括:
利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征,由提取出的特征建立故障诊断模型。
可选地、上述方法中,所述利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征包括:
采用如下公式计算对比模式P的支持度sup(P,Di),对比模式P=I1I2I3…I|P|,为在一种故障类型的数据集中频繁出现,在其他故障类型的数据集中非频繁的模式,表示为该种故障类型的故障数据的特征:
sup(P,Di)=|{S|S∈Di且P在S中出现}|/|Di|;i∈[1,k]
式中,D i表示第i种故障类型的故障数据集,k为故障数据的类型的总数目;
且sup(P,Di)大于支持度第一门限值α小于支持度第二门限值β。
可选地、上述方法中,所述建立故障诊断模型包括:
按照如下公式建立故障诊断模型Φ:
Φ={F1,F2,...Fk};
Fi={f(P)|P∈Ti};
wi为函数f(Pi)的权值;
Ti={P1,P2…Pn}为第i类故障数据集Di(i∈[1,k])的模式集合,n=k。
可选地、上述方法还包括:
调用当前故障的故障类型对应的故障处理策略,进行故障修复后,若未能有效的解决该故障,则将故障数据发送给运维人员进行人工干预处理。
本文还提供一种***故障诊断修复装置,包括:
第一单元,通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型;
第二单元,当***发生故障时,将当前故障的数据输入所述故障诊断模型,分析确定当前故障的故障类型;
第三单元,调用当前故障的故障类型对应的故障处理策略,进行故障修复。
可选地、上述装置中,所述第一单元通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型包括:
利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征,由提取出的特征建立故障诊断模型。
可选地、上述装置中,所述利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征包括:
采用如下公式计算对比模式P的支持度sup(P,Di),对比模式P=I1I2I3…I|P|,为在一种故障类型的数据集中频繁出现,在其他故障类型的数据集中非频繁的模式,表示为该种故障类型的故障数据的特征:
sup(P,Di)=|{S|S∈Di且P在S中出现}|/|Di|;i∈[1,k]
式中,D i表示第i种故障类型的故障数据集,k为故障数据的类型的总数目;
且sup(P,Di)大于支持度第一门限值α小于支持度第二门限值β。
可选地、上述装置中,所述由提取出的特征建立故障诊断模型指:
按照如下公式建立故障诊断模型Φ:
Φ={F1,F2,...Fk};
Fi={f(P)|P∈Ti};
wi为函数f(Pi)的权值;
Ti={P1,P2…Pn}为第i类故障数据集Di(i∈[1,k])的模式集合,n=k。
可选地、上述装置中,所述第三单元,调用当前故障的故障类型对应的故障处理策略,进行故障修复后,若未能有效的解决该故障,则将故障数据发送给运维人员进行人工干预处理。
本申请技术方案一方面通过建立多级索引实现故障数据高效存取的效果,另一方面通过机器学习中半监督学习解决人工的故障数据分类困难的问题,从而实现针对故障数据进行高效的存取和自动分类,减少人为故障排查和处理花费的时间,降低公司的损失。
附图说明
图1为本发明实施例中***故障诊断修复方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
本实施例提供一种***故障诊断修复方法,如图1所示,主要包括如下操作:
步骤100:通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型;
该步骤中,提取故障数据的特征的目的是为了进行故障分类。本文中涉及的故障类型可以包括磁盘类故障(例如磁盘空间不足等故障),CPU类故障(例如CPU满载等故障),业务类故障(例如业务类型异常等故障)。
本实施例中,考虑到对比模式在描述各类样本特征时有着先天的优势,因此建立故障诊断模型及进行故障修复时可以选取各种故障类型的对比模式作为不同故障类型的故障数据的特征。
具体地提取方式如下,为方便描述,我们用D={D1,D2,…,Dk}表示故障数据的集合,D k表示第k类故障类型的故障数据集。对比模式P=I1I2I3…I|P|描述在一类故障数据中频繁出现,在其它类中非频繁的模式。用模式的支持度(sup(P,Di))来衡量模式P在数据集Di中出现的频繁程度,计算方法可以采用如下所示的公式1。
sup(P,Di)=|{S|S∈Di且P在S中出现}|/|Di| 公式1
其中,i∈[1,k]),且对比模式P支持度sup(P,Di)要满足如下要求:
sup(P,Di)>α;sup(P,Dj)<β(j∈[1,k]∧j!=i);
即sup(P,Di)大于支持度第一门限值α且小于支持度第二门限值β,其中,支持度第一门限值α为各种故障类型的故障数据集中支持度最小值,支持度第二门限值β为各种故障类型的故障数据集中支持度最大值。建立故障诊断模型的依据是故障数据仓库,按照上述方式得到故障数据仓库中故障数据的特征。
给定某类故障数据Di(i∈[1,k])的模式集合Ti={P1,P2…Pn},故障诊断模型Φ={F1,F2,...Fk},其中Fi={f(P)|P∈T}表示第i类故障数据的数学模型,其中通过数据挖掘算法,如DPMiner算法,MDSP-CGC算法等,就可以得到模式集合T。函数f(Pi)中的权值wi可以通过相应的权值学习算法求得。综上,可以得到故障诊断的数学模型Φ。
步骤200:当***发生故障时,将当前故障的数据输入故障诊断模型,分析确认当前故障的故障类型;
该步骤是在***出现故障时,采集故障信息(即通过故障日志获取当前故障的数据),输入故障诊断模型Φ,判断得到故障类型。
步骤300:调用与当前故障的故障类型对应的故障处理策略,进行故障修复。
该步骤中,得到故障类型后,可以调用***中内置的解决某种故障的方法,即与该故障类型对应的故障处理策略进行相应的修复操作。如果内置的故障处理方法(即与该故障类型对应的故障处理策略)未能有效的解决该故障,则可以将故障信息发送给相关运维人员,人工干预解决。其中,针对不同故障类型对应的故障处理策略可以采用现有任意方式,本实施例对此不再特殊限制。
本实施例还提供一种***故障诊断修复装置,至少包括如下各单元。
第一单元,通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型;
可选地,第一单元,可利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征,由提取出的特征建立故障诊断模型。
具体地,采用如下公式计算对比模式P的支持度sup(P,Di),对比模式P=I1I2I3…I|P|,为在一种故障类型的数据集中频繁出现,在其他故障类型的数据集中非频繁的模式,表示为该种故障类型的故障数据的特征:
sup(P,Di)=|{S|S∈Di且P在S中出现}|/|Di|;i∈[1,k]
式中,D i表示第i种故障类型的故障数据集,k为故障数据的类型的总数目;
且sup(P,Di)大于支持度第一门限值α小于支持度第二门限值β。
之后,由提取出的各故障类型的故障数据的特征建立故障诊断模型包括:
按照如下公式建立故障诊断模型Φ:
Φ={F1,F2,...Fk};
Fi={f(P)|P∈Ti};
wi为函数f(Pi)的权值;
Ti={P1,P2…Pn}为第i类故障数据集Di(i∈[1,k])的模式集合,n=k。
第二单元,当***发生故障时,将当前故障的数据输入所述故障诊断模型,分析确定当前故障的故障类型;
第三单元,调用当前故障的故障类型对应的故障处理策略,进行故障修复。
要说明的是,调用当前故障的故障类型对应的故障处理策略,进行故障修复后,若未能有效的解决该故障,则将故障数据发送给运维人员进行人工干预处理。而本文中涉及的不同故障类型对应的故障处理策略可以采用现有任意方式,本实施例对此不再特殊限制。
另外,上述装置可实现上述实施例所述的***故障诊断修复方法,因此,对本装置的一些具体操作细节可参见上述方法实施例的相应内容,在此不再赘述。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种***故障诊断修复方法,其特征在于,包括:
通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型;
当***发生故障时,将当前故障的数据输入所述故障诊断模型,分析确定当前故障的故障类型;
调用当前故障的故障类型对应的故障处理策略,进行故障修复,
所述通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型包括:
利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征,由提取出的特征建立故障诊断模型,
所述利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征包括:
采用如下公式计算对比模式P的支持度sup(P,Di),对比模式P=I1I2I3…I|P|,为在一种故障类型的数据集中频繁出现,在其他故障类型的数据集中非频繁的模式,表示为该种故障类型的故障数据的特征:
sup(P,Di)=|{S|S∈Di且P在S中出现}|/|Di|;i∈[1,k]
式中,Di表示第i种故障类型的故障数据集,k为故障数据的类型的总数目;
且sup(P,Di)大于支持度第一门限值α小于支持度第二门限值β,
所述建立故障诊断模型包括:
按照如下公式建立故障诊断模型Φ:
Φ={F1,F2,...Fk};
Fi={f(P)|P∈Ti};
wi为函数f(Pi)的权值;
Ti={P1,P2…Pn}为第i类故障数据集Di(i∈[1,k])的模式集合,n=k。
2.如权利要求1所述的方法,其特征在于,该方法还包括:
调用当前故障的故障类型对应的故障处理策略,进行故障修复后,若未能有效的解决该故障,则将故障数据发送给运维人员进行人工干预处理。
3.一种***故障诊断修复装置,其特征在于,包括:
第一单元,通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型;
第二单元,当***发生故障时,将当前故障的数据输入所述故障诊断模型,分析确定当前故障的故障类型;
第三单元,调用当前故障的故障类型对应的故障处理策略,进行故障修复,
所述第一单元通过历史故障数据分别提取各故障类型的故障数据的特征,建立故障诊断模型包括:
利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征,由提取出的特征建立故障诊断模型,
所述利用对比模式从历史故障数据中提取不同故障类型的故障数据的特征包括:
采用如下公式计算对比模式P的支持度sup(P,Di),对比模式P=I1I2I3…I|P|,为在一种故障类型的数据集中频繁出现,在其他故障类型的数据集中非频繁的模式,表示为该种故障类型的故障数据的特征:
sup(P,Di)=|{S|S∈Di且P在S中出现}|/|Di|;i∈[1,k]
式中,Di表示第i种故障类型的故障数据集,k为故障数据的类型的总数目;
且sup(P,Di)大于支持度第一门限值α小于支持度第二门限值β,
所述由提取出的特征建立故障诊断模型指:
按照如下公式建立故障诊断模型Φ:
Φ={F1,F2,...Fk};
Fi={f(P)|P∈Ti};
wi为函数f(Pi)的权值;
Ti={P1,P2…Pn}为第i类故障数据集Di(i∈[1,k])的模式集合,n=k。
4.如权利要求3所述的装置,其特征在于,
所述第三单元,调用当前故障的故障类型对应的故障处理策略,进行故障修复后,若未能有效的解决该故障,则将故障数据发送给运维人员进行人工干预处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580322.1A CN107357730B (zh) | 2017-07-17 | 2017-07-17 | 一种***故障诊断修复方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710580322.1A CN107357730B (zh) | 2017-07-17 | 2017-07-17 | 一种***故障诊断修复方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107357730A CN107357730A (zh) | 2017-11-17 |
CN107357730B true CN107357730B (zh) | 2021-03-19 |
Family
ID=60293294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710580322.1A Active CN107357730B (zh) | 2017-07-17 | 2017-07-17 | 一种***故障诊断修复方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357730B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108054734B (zh) * | 2017-11-22 | 2019-10-22 | 深圳供电局有限公司 | 一种基于故障特征匹配的配网保护方法及*** |
CN108322345B (zh) * | 2018-02-07 | 2020-08-21 | 平安科技(深圳)有限公司 | 一种故障修复数据包的发布方法及服务器 |
CN108334427B (zh) * | 2018-02-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 存储***中的故障诊断方法及装置 |
CN109088773B (zh) * | 2018-08-24 | 2022-03-11 | 广州视源电子科技股份有限公司 | 故障自愈方法、装置、服务器及存储介质 |
CN110011825A (zh) * | 2019-02-26 | 2019-07-12 | 贵阳忆联网络有限公司 | 一种网络故障自动化智能处理方法及*** |
CN110191003A (zh) * | 2019-06-18 | 2019-08-30 | 北京达佳互联信息技术有限公司 | 故障修复方法、装置、计算机设备及存储介质 |
CN112630657B (zh) * | 2019-09-24 | 2024-06-21 | 上海汽车集团股份有限公司 | 一种确定动力电池故障的方法及装置 |
CN111752963A (zh) * | 2020-06-28 | 2020-10-09 | 中国银行股份有限公司 | 一种***问题处理方法及装置 |
CN112084100B (zh) * | 2020-09-11 | 2023-02-28 | 山东英信计算机技术有限公司 | 服务器运维方法、装置、设备及可读存储介质 |
CN115616423B (zh) * | 2022-12-20 | 2023-05-23 | 广东采日能源科技有限公司 | 液冷储能***以及状态检测方法、装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819411B (zh) * | 2010-03-17 | 2011-06-15 | 燕山大学 | 一种基于gpu的改进加权关联规则的设备故障预警与诊断方法 |
US8301333B2 (en) * | 2010-03-24 | 2012-10-30 | GM Global Technology Operations LLC | Event-driven fault diagnosis framework for automotive systems |
CN103760901B (zh) * | 2013-12-31 | 2016-06-29 | 北京泰乐德信息技术有限公司 | 一种基于关联规则分类器的轨道交通故障识别方法 |
CN103901298A (zh) * | 2014-03-13 | 2014-07-02 | 广东电网公司电力科学研究院 | 变电站设备运行状态的检测方法与*** |
US10180867B2 (en) * | 2014-06-11 | 2019-01-15 | Leviathan Security Group, Inc. | System and method for bruteforce intrusion detection |
CN105372557A (zh) * | 2015-12-03 | 2016-03-02 | 国家电网公司 | 基于关联规则的电网资源故障诊断方法 |
CN106201828A (zh) * | 2016-07-18 | 2016-12-07 | 云南电网有限责任公司信息中心 | 一种基于数据挖掘的虚拟机故障检测方法和*** |
CN106326426A (zh) * | 2016-08-24 | 2017-01-11 | 四川大学 | 一种以项集为序列元素的对比序列模式挖掘方法 |
-
2017
- 2017-07-17 CN CN201710580322.1A patent/CN107357730B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107357730A (zh) | 2017-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107357730B (zh) | 一种***故障诊断修复方法及装置 | |
CN112087334B (zh) | 告警根因分析方法、电子设备和存储介质 | |
CN110221145B (zh) | 电力设备故障诊断方法、装置及终端设备 | |
CN111435366A (zh) | 设备故障诊断方法、装置和电子设备 | |
US20150178170A1 (en) | Method and Apparatus for Recovering Data | |
CN113191509A (zh) | 基于维修人员画像的智能派单方法、设备、介质及产品 | |
CN112468339B (zh) | 告警处理方法、***、装置和存储介质 | |
CN113657715A (zh) | 一种基于核密度估计调用链的根因定位方法及*** | |
CN107527134A (zh) | 一种基于大数据的配电变压器状态评估方法及装置 | |
US20230216294A1 (en) | Hybridized transmission switching for contingency management in electric power systems | |
CN111274084A (zh) | 故障诊断方法、装置、设备及计算机可读存储介质 | |
CN115686910A (zh) | 一种故障分析方法、装置、电子设备及介质 | |
CN110389840B (zh) | 负载消耗预警方法、装置、计算机设备和存储介质 | |
CN113656252B (zh) | 故障定位方法、装置、电子设备以及存储介质 | |
CN117729576A (zh) | 告警监控方法、装置、设备及存储介质 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、***及电子设备 | |
CN113986618B (zh) | 集群脑裂自动修复方法、***、装置及存储介质 | |
CN115983836A (zh) | 一种数据处理方法及相关设备 | |
CN113076217B (zh) | 基于国产平台的磁盘故障预测方法 | |
CN114091699A (zh) | 一种电力通信设备故障诊断方法及*** | |
CN108540308A (zh) | 一种基于SCOM的windows应用平台故障自愈***及方法 | |
CN113342518A (zh) | 任务处理方法和装置 | |
CN114116288A (zh) | 故障处理方法、装置及计算机程序产品 | |
CN113222778A (zh) | 用于电力网络适配分析的方法、电子设备及存储介质 | |
CN115372752A (zh) | 故障检测方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210204 Address after: Building 9, No.1, guanpu Road, Guoxiang street, Wuzhong Economic Development Zone, Wuzhong District, Suzhou City, Jiangsu Province Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd. Address before: Room 1601, floor 16, 278 Xinyi Road, Zhengdong New District, Zhengzhou City, Henan Province Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |