CN107644256A - 一种基于机器学习方式形成故障规则库的方法 - Google Patents

一种基于机器学习方式形成故障规则库的方法 Download PDF

Info

Publication number
CN107644256A
CN107644256A CN201710828211.8A CN201710828211A CN107644256A CN 107644256 A CN107644256 A CN 107644256A CN 201710828211 A CN201710828211 A CN 201710828211A CN 107644256 A CN107644256 A CN 107644256A
Authority
CN
China
Prior art keywords
failure
diagnosis rule
rule storehouse
machine learning
learning mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710828211.8A
Other languages
English (en)
Inventor
郭美思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710828211.8A priority Critical patent/CN107644256A/zh
Publication of CN107644256A publication Critical patent/CN107644256A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种基于机器学习方式形成故障规则库的方法。该基于机器学习方式形成故障规则库的方法,首先获取故障信息及解决方案,提炼出故障规则库字段;然后采用随机森林算法,自动识别故障并挖掘故障现象与故障规则的关系;最后对自动识别出的故障进行专家评审,将有效的故障现象及处理方案生成故障规则,存放到故障规则库中即可。该基于机器学习方式形成故障规则库的方法,根据日常故障的规律及处理办法形成一个故障规则库,当故障再次发生时,查看故障规则库中的信息即可找到相应的解决办法,大大提高了故障排查的效率。

Description

一种基于机器学习方式形成故障规则库的方法
技术领域
本发明涉及计算机应用技术领域,特别涉及一种基于机器学习方式形成故障规则库的方法。
背景技术
随着时代的发展,人们生活水平的提高,人们的生活方式及工作方式都发生了变化,计算机已经成为人们日常生活中不可替代的设备。
当计算机出现故障时,技术人员只能通过查看日志信息进行排查,非常耗时。而且由于计算机操作***组件相对比较复杂,产生的故障的原因有很多,日志信息数量巨大。当计算机出现故障时,需要技术人员手动查看日志信息进行分析,找到相应的故障信息,解决出现的故障问题,因此技术人员想要迅速确定故障原因是非常困难的。
现有技术没有使用通用的故障规则库,计算机发生故障时只能费时费力的人工排查。针对这种情况,本发明设计了一种基于机器学习方式形成故障规则库的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于机器学习方式形成故障规则库的方法。
本发明是通过如下技术方案实现的:
一种基于机器学习方式形成故障规则库的方法,其特征在于,包括以下步骤:
(1)故障训练集选取,获取故障信息及解决方案,提炼出故障规则库字段;
(2)机器学习算法训练,采用随机森林算法,自动识别故障并挖掘故障现象与故障规则的关系;
(3)专家评判录入故障规则,对自动识别出的故障进行专家评审,将有效的故障现象及处理方案生成故障规则,存放到故障规则库中。
所述步骤(1)中,故障训练集选取是通过客户现场,研发部门,测试部门和运维人员获取的故障信息及解决方案,提炼出故障规则库字段;同时,训练集中的数据准确定位到具体设备,深入分析故障原因。
所述故障规则库字段包括故障名称,机器型号,操作***,故障部位,故障模型,故障类型,日志级别,日志详细信息,关键字,日志路径,问题描述和解决办法。
训练集中的数据准确定位到CPU和内存故障时,读取CPU事件及内存事件,解析mcelog,定位故障CPU及内存位置;定位PCIE故障,读取PCIE事件,根据机器丝印对照表,匹配出对应的插槽信息;定位CallTrace故障报错程序段,分析CallTrace事件日志,挖掘函数调用栈,深入分析故障原因。
所述步骤(2)中,机器学习算法训练,采用随机森林算法,生成由决策树组成的森林,对故障信息进行归并处理,通过多棵决策树对故障现象进行投票,判断故障,并采取相应的解决办法。
本发明的有益效果:该基于机器学习方式形成故障规则库的方法,根据日常故障的规律及处理办法形成一个故障规则库,当故障再次发生时,查看故障规则库中的信息即可找到相应的解决办法,大大提高了故障排查的效率。
附图说明
附图1为本发明基于机器学习方式形成故障规则库的方法示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于机器学习方式形成故障规则库的方法,包括:故障训练集选取,机器学习算法训练和专家评判录入故障规则三部分。
所述故障训练集选取是指通过客户现场、研发部门、测试部门、运维人员获取的故障信息及解决方案,提炼出故障规则库字段,保证故障诊断的完备性和精确性;训练集中的数据准确定位到具体设备,例如定位CPU和内存故障时,读取CPU事件及内存事件,解析mcelog,定位故障CPU及内存位置;定位PCIE故障,读取PCIE事件,根据机器丝印对照表,匹配出对应的插槽信息;定位CallTrace故障报错程序段,分析CallTrace事件日志,挖掘函数调用栈,深入分析故障原因。
故障规则库字段包括故障名称、机器型号、操作***、故障部位、故障模型、故障类型、日志级别、日志详细信息、关键字、日志路径、问题描述、解决办法。
所述机器学习算法训练是指采用随机森林算法,实现故障的自动识别,挖掘故障现象与故障规则的关系。基于随机森林算法规则,生成由决策树组成的森林,对故障信息进行归并处理,通过多棵决策树对故障现象进行投票,判断故障,采取相应的措施。采用机器学习算法训练的方法自动识别故障,将人工完成的事情交给***自动完成,能够节省运维成本,提高工作效率。
所述专家评判录入故障规则是指对自动识别出的故障进行专家评审,将有效的故障现象及处理方案生成故障规则,存放到故障规则库中。当故障再次发生的时候,查看故障规则库中的信息即可找到相应的解决方案,大大提高了故障排查的效率。

Claims (5)

1.一种基于机器学习方式形成故障规则库的方法,其特征在于,包括以下步骤:
(1)故障训练集选取,获取故障信息及解决方案,提炼出故障规则库字段;
(2)机器学习算法训练,采用随机森林算法,自动识别故障并挖掘故障现象与故障规则的关系;
(3)专家评判录入故障规则,对自动识别出的故障进行专家评审,将有效的故障现象及处理方案生成故障规则,存放到故障规则库中。
2.根据权利要求1所述的基于机器学习方式形成故障规则库的方法,其特征在于:所述步骤(1)中,故障训练集选取是通过客户现场,研发部门,测试部门和运维人员获取的故障信息及解决方案,提炼出故障规则库字段;同时,训练集中的数据准确定位到具体设备,深入分析故障原因。
3.根据权利要求1或2所述的基于机器学习方式形成故障规则库的方法,其特征在于:所述故障规则库字段包括故障名称,机器型号,操作***,故障部位,故障模型,故障类型,日志级别,日志详细信息,关键字,日志路径,问题描述和解决办法。
4.根据权利要求2所述的基于机器学习方式形成故障规则库的方法,其特征在于:训练集中的数据准确定位到CPU和内存故障时,读取CPU事件及内存事件,解析mcelog,定位故障CPU及内存位置;定位PCIE故障,读取PCIE事件,根据机器丝印对照表,匹配出对应的插槽信息;定位CallTrace故障报错程序段,分析CallTrace事件日志,挖掘函数调用栈,深入分析故障原因。
5.根据权利要求1所述的基于机器学习方式形成故障规则库的方法,其特征在于:所述步骤(2)中,机器学习算法训练,采用随机森林算法,生成由决策树组成的森林,对故障信息进行归并处理,通过多棵决策树对故障现象进行投票,判断故障,并采取相应的解决办法。
CN201710828211.8A 2017-09-14 2017-09-14 一种基于机器学习方式形成故障规则库的方法 Pending CN107644256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710828211.8A CN107644256A (zh) 2017-09-14 2017-09-14 一种基于机器学习方式形成故障规则库的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710828211.8A CN107644256A (zh) 2017-09-14 2017-09-14 一种基于机器学习方式形成故障规则库的方法

Publications (1)

Publication Number Publication Date
CN107644256A true CN107644256A (zh) 2018-01-30

Family

ID=61111745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710828211.8A Pending CN107644256A (zh) 2017-09-14 2017-09-14 一种基于机器学习方式形成故障规则库的方法

Country Status (1)

Country Link
CN (1) CN107644256A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的***故障诊断智能化运维方法及***
CN110321243A (zh) * 2018-03-29 2019-10-11 国际商业机器公司 使用用于多个领域的统一认知根本原因分析的***维护的方法、***和存储介质
CN111274056A (zh) * 2018-11-20 2020-06-12 河南许继仪表有限公司 智能电能表故障库的自学习方法与装置
CN112307076A (zh) * 2019-08-02 2021-02-02 深圳中集智能科技有限公司 基于云与端融合的生产设备运维***及生产设备运维方法
CN115543665A (zh) * 2022-09-23 2022-12-30 超聚变数字技术有限公司 一种内存可靠性评估方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080208487A1 (en) * 2007-02-23 2008-08-28 General Electric Company System and method for equipment remaining life estimation
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家***方法的计算机故障管理***
CN102081562A (zh) * 2009-11-30 2011-06-01 华为技术有限公司 一种设备诊断方法及***
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux***下的故障内存位置定位方法
CN103699489A (zh) * 2014-01-03 2014-04-02 中国人民解放军装甲兵工程学院 一种基于知识库的软件远程故障诊断与修复方法
CN104155596A (zh) * 2014-08-12 2014-11-19 北京航空航天大学 一种基于随机森林的模拟电路故障诊断***
CN106383760A (zh) * 2016-09-19 2017-02-08 郑州云海信息技术有限公司 一种计算机故障管理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080208487A1 (en) * 2007-02-23 2008-08-28 General Electric Company System and method for equipment remaining life estimation
CN102081562A (zh) * 2009-11-30 2011-06-01 华为技术有限公司 一种设备诊断方法及***
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家***方法的计算机故障管理***
CN103198000A (zh) * 2013-04-02 2013-07-10 浪潮电子信息产业股份有限公司 一种linux***下的故障内存位置定位方法
CN103699489A (zh) * 2014-01-03 2014-04-02 中国人民解放军装甲兵工程学院 一种基于知识库的软件远程故障诊断与修复方法
CN104155596A (zh) * 2014-08-12 2014-11-19 北京航空航天大学 一种基于随机森林的模拟电路故障诊断***
CN106383760A (zh) * 2016-09-19 2017-02-08 郑州云海信息技术有限公司 一种计算机故障管理方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321243A (zh) * 2018-03-29 2019-10-11 国际商业机器公司 使用用于多个领域的统一认知根本原因分析的***维护的方法、***和存储介质
CN110321243B (zh) * 2018-03-29 2023-02-10 勤达睿公司 使用用于多个领域的统一认知根本原因分析的***维护的方法、***和存储介质
CN111274056A (zh) * 2018-11-20 2020-06-12 河南许继仪表有限公司 智能电能表故障库的自学习方法与装置
CN111274056B (zh) * 2018-11-20 2023-10-03 河南许继仪表有限公司 智能电能表故障库的自学习方法与装置
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的***故障诊断智能化运维方法及***
CN112307076A (zh) * 2019-08-02 2021-02-02 深圳中集智能科技有限公司 基于云与端融合的生产设备运维***及生产设备运维方法
CN115543665A (zh) * 2022-09-23 2022-12-30 超聚变数字技术有限公司 一种内存可靠性评估方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN107644256A (zh) 一种基于机器学习方式形成故障规则库的方法
CN102804147B (zh) 执行abap源代码的代码检查的代码检查执行***
CN111930903A (zh) 基于深度日志序列分析的***异常检测方法及***
CN107608813A (zh) 一种基于linux操作***信息自动分析故障的方法
CN112579437B (zh) 一种程序运行过程符合性验证方法
Farmahinifarahani et al. On precision of code clone detection tools
KR101696694B1 (ko) 역추적을 이용한 소스 코드 취약점 분석 방법 및 장치
CN117331730A (zh) 故障诊断方法、装置、电子设备及存储介质
Wang et al. Smart contract vulnerability detection using code representation fusion
CN107679159B (zh) 故障诊断类问题答复的生成方法、装置、服务器及存储介质
CN101373506B (zh) 一种基于漏洞模型的软件漏洞模型检测方法
CN113486179A (zh) 基于维修工单的产品数据分析方法及***
Rai et al. Method level text summarization for java code using nano-patterns
CN113064811A (zh) 基于工作流的自动化测试方法、装置以及电子设备
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN111324718A (zh) 一种对话流测试方法、装置、电子设备及可读存储介质
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
Chen et al. Fault diagnosis for open source software based on dynamic tracking
CN109902012A (zh) 一种自动化生成服务器测试报告的方法及装置
CN112905493B (zh) 一种基于转换测试的结构化模糊测试方法
JP2021176091A5 (zh)
CN114465875A (zh) 故障处理方法及装置
Kof Translation of textual specifications to automata by means of discourse context modeling
Li et al. Software misconfiguration troubleshooting based on state analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180130

RJ01 Rejection of invention patent application after publication