CN105630620A - 一种机器故障自动化处理方法 - Google Patents

一种机器故障自动化处理方法 Download PDF

Info

Publication number
CN105630620A
CN105630620A CN201510973293.6A CN201510973293A CN105630620A CN 105630620 A CN105630620 A CN 105630620A CN 201510973293 A CN201510973293 A CN 201510973293A CN 105630620 A CN105630620 A CN 105630620A
Authority
CN
China
Prior art keywords
fault
kernel
module
user space
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510973293.6A
Other languages
English (en)
Other versions
CN105630620B (zh
Inventor
常现超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Lesilie Science & Technology Development Co ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510973293.6A priority Critical patent/CN105630620B/zh
Publication of CN105630620A publication Critical patent/CN105630620A/zh
Application granted granted Critical
Publication of CN105630620B publication Critical patent/CN105630620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种机器故障自动化处理方法,所述方法通过在操作***的内核中打入故障补丁模块,用于收集机器故障信息,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理。本发明方法使用内核热补丁的方式,将内核产生的故障信息传输得到用户态,并将这些信息集中管理、统计、分析,以及自动化处理,大大减少了故障管理的工作,实现故障管理的自动化,能及时有效的发现并解决故障,保证***及关键服务的安全、可靠的运行,均具有很高的技术价值。

Description

一种机器故障自动化处理方法
技术领域
本发明涉及计算机故障处理技术领域,具体涉及一种机器故障自动化处理方法。
背景技术
随着计算机技术以及集成电路技术的飞速发展,不论从软件还是硬件,计算机都得到了飞速提升。由于计算机硬件的增加,同时也提高了计算机硬件的故障率,给管理员带来很大的挑战,需要经常的关注机器的健康状态,即便如此也很难做到及时发现故障。机器产生故障时,需要管理员查看大量的***日志并分析,花费很长时间去修复故障的设备,而且现在有些服务数据量巨大,服务器的集群也是相当大,维护起来相当的费时费力,而且可能严重影响服务的质量。
发明内容
本发明要解决的技术问题是:本发明提供一种机器故障自动化处理方法,能够解决上述问题。
本发明所采用的技术方案为:
一种机器故障自动化处理方法,所述方法通过在操作***的内核中打入故障补丁模块,用于收集机器故障信息,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理。
所述故障补丁模块,负责收集内核中产生的机器故障信息,以故障补丁模块的方式向内核中添加代码,不用修改已安装的内核(如使用kpatch工具就可以实现该功能),很方便在各个机器上使用该方法处理故障。
所述内核态和用户态传输通道模块,通过创建一个用户态和内核态通信的通道,将故障信息安全高效的传输到用户态。
所述故障处理模块,根据故障分析的结果,对该故障自动做合理的处理,如自动修复故障,若修复不成功,还可以隔离该故障,以免该故障对***或者关键服务造成严重的影响,产生严重的后果,同时把故障的处理结果及详细的信息发送给管理员,以确保故障处理是否合理。
所述方法当前使用的机器及Linux操作***支持kpatch,kpatch是内核热补丁(kernelpatch)工具,热补丁就是操作***在运行过程中打入内核补丁。
所述方法操作过程如下:
首先将收集故障的补丁模块加载到内核中;
然后利用kpatch工具产生补丁模块并加载到***中;
当机器产生故障后补丁模块就会收集到相关故障信息,然后将该信息放入到netlink的通道中,发送到用户态;Netlink是Linux***中内核态和用户态通信的方式;
当故障信息被传送到用户态,对这些信息做统计,制作图表或曲线更直观的观察故障,根据故障的类型及原因做相应的故障处理,如内存错误,可以将故障的内存做离线,避免了故障内存再次被使用,使***不稳定。
本发明的有益效果为:
本发明方法弥补了人为监控机器健康状态、手动管理故障及分析故障产生原因效率低下、不能及时有效处理而导致机器不能稳定运行的不足,使用内核热补丁的方式,将内核产生的故障信息传输得到用户态,并将这些信息集中管理、统计、分析,以及自动化处理,大大减少了故障管理的工作,实现故障管理的自动化,能及时有效的发现并解决故障,保证***及关键服务的安全、可靠的运行,均具有很高的技术价值。当机器故障时,无需手动分析大量的内核日志或其他故障日志,而且产生故障时会及时得到通知,或者通过故障统计分析结果自动修复故障,大大缩短了机器故障的修复时间,在机器的维护和故障管理上有很高的技术价值。
附图说明
图1为机器故障自动化处理流程图。
具体实施方式
下面通过说明书附图,结合具体实施方式对本发明进一步说明:
实施例1:
如图1所示,一种机器故障自动化处理方法,所述方法通过在操作***的内核中打入故障补丁模块,用于收集机器故障信息,如故障的硬件、故障的位置、故障的原因等,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理,如故障修复、故障隔离、故障详细日志、故障通告等操作。
实施例2:
在实施例1的基础上,本实施例所述故障补丁模块,负责收集内核中产生的机器故障信息,以故障补丁模块的方式向内核中添加代码,不用修改已安装的内核(如使用kpatch工具就可以实现该功能),很方便在各个机器上使用该方法处理故障。
实施例3:
在实施例1的基础上,本实施例所述内核态和用户态传输通道模块,通过创建一个用户态和内核态通信的通道,将故障信息安全高效的传输到用户态。
实施例4:
在实施例1的基础上,本实施例所述故障处理模块,根据故障分析的结果,对该故障自动做合理的处理,如自动修复故障,若修复不成功,还可以隔离该故障,以免该故障对***或者关键服务造成严重的影响,产生严重的后果,同时把故障的处理结果及详细的信息发送给管理员,以确保故障处理是否合理。
实施例5:
在1-4任一实施例的基础上,本实施例所述方法当前使用的机器及Linux操作***支持kpatch,kpatch是内核热补丁(kernelpatch)工具,热补丁就是操作***在运行过程中打入内核补丁。
实施例5:
在实施例5的基础上,本实施例所述方法操作过程如下:
首先将收集故障的补丁模块加载到内核中,该补丁模块可以根据需求开发;
然后利用kpatch工具产生补丁模块并加载到***中;
当机器产生故障后补丁模块就会收集到相关故障信息,然后将该信息放入到netlink的通道中,发送到用户态;Netlink是Linux***中内核态和用户态通信的方式;
当故障信息被传送到用户态,对这些信息做统计,制作图表或曲线更直观的观察故障,根据故障的类型及原因做相应的故障处理,如内存错误,可以将故障的内存做离线,避免了故障内存再次被使用,使***不稳定。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (6)

1.一种机器故障自动化处理方法,其特征在于:所述方法通过在操作***的内核中打入故障补丁模块,用于收集机器故障信息,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理。
2.根据权利要求1所述的一种机器故障自动化处理方法,其特征在于:所述故障补丁模块,负责收集内核中产生的机器故障信息,以故障补丁模块的方式向内核中添加代码,不用修改已安装的内核。
3.根据权利要求1所述的一种机器故障自动化处理方法,其特征在于:所述内核态和用户态传输通道模块,通过创建一个用户态和内核态通信的通道,将故障信息安全高效的传输到用户态。
4.根据权利要求1所述的一种机器故障自动化处理方法,其特征在于:所述故障处理模块,根据故障分析的结果,对该故障自动做合理的处理,还可以隔离该故障,以免该故障对***或者关键服务造成严重的影响,产生严重的后果,同时把故障的处理结果及详细的信息发送给管理员,以确保故障处理是否合理。
5.根据权利要求1-4任一所述的一种机器故障自动化处理方法,其特征在于:当前使用的机器及Linux操作***支持kpatch。
6.根据权利要求5所述的一种机器故障自动化处理方法,其特征在于,所述方法操作过程如下:
首先将收集故障的补丁模块加载到内核中;
然后利用kpatch工具产生补丁模块并加载到***中;
当机器产生故障后补丁模块就会收集到相关故障信息,然后将该信息放入到netlink的通道中,发送到用户态;
当故障信息被传送到用户态,对这些信息做统计,观察故障,根据故障的类型及原因做相应的故障处理。
CN201510973293.6A 2015-12-23 2015-12-23 一种机器故障自动化处理方法 Active CN105630620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510973293.6A CN105630620B (zh) 2015-12-23 2015-12-23 一种机器故障自动化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510973293.6A CN105630620B (zh) 2015-12-23 2015-12-23 一种机器故障自动化处理方法

Publications (2)

Publication Number Publication Date
CN105630620A true CN105630620A (zh) 2016-06-01
CN105630620B CN105630620B (zh) 2019-04-16

Family

ID=56045597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510973293.6A Active CN105630620B (zh) 2015-12-23 2015-12-23 一种机器故障自动化处理方法

Country Status (1)

Country Link
CN (1) CN105630620B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775487A (zh) * 2016-12-27 2017-05-31 郑州云海信息技术有限公司 一种多路径存储故障的处理方法和装置
CN106775732A (zh) * 2016-12-23 2017-05-31 上海优刻得信息科技有限公司 一种热补丁加载方法以及装置
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
CN107229550A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 一种linux内核自旋锁死锁检测报告***和方法
CN107608717A (zh) * 2016-07-12 2018-01-19 迈普通信技术股份有限公司 用户态信息收集方法、装置和***
CN108205479A (zh) * 2017-10-25 2018-06-26 珠海市魅族科技有限公司 一种故障信息处理的方法、装置及存储介质
CN111145405A (zh) * 2019-12-31 2020-05-12 上海申铁信息工程有限公司 一种高铁车站闸机管理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046765A (zh) * 2006-03-29 2007-10-03 华为技术有限公司 一种定位软件故障的方法
CN101620658A (zh) * 2009-07-14 2010-01-06 北京大学 一种Windows操作***下钩子的检测方法
CN101799763A (zh) * 2009-02-10 2010-08-11 华为技术有限公司 内核在线补丁的方法、装置和***
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置
US8756461B1 (en) * 2011-07-22 2014-06-17 Juniper Networks, Inc. Dynamic tracing of thread execution within an operating system kernel

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046765A (zh) * 2006-03-29 2007-10-03 华为技术有限公司 一种定位软件故障的方法
CN101799763A (zh) * 2009-02-10 2010-08-11 华为技术有限公司 内核在线补丁的方法、装置和***
CN101620658A (zh) * 2009-07-14 2010-01-06 北京大学 一种Windows操作***下钩子的检测方法
US8756461B1 (en) * 2011-07-22 2014-06-17 Juniper Networks, Inc. Dynamic tracing of thread execution within an operating system kernel
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608717A (zh) * 2016-07-12 2018-01-19 迈普通信技术股份有限公司 用户态信息收集方法、装置和***
CN107608717B (zh) * 2016-07-12 2021-02-12 迈普通信技术股份有限公司 用户态信息收集方法、装置和***
CN106775732A (zh) * 2016-12-23 2017-05-31 上海优刻得信息科技有限公司 一种热补丁加载方法以及装置
CN106775732B (zh) * 2016-12-23 2019-02-12 优刻得科技股份有限公司 一种热补丁加载方法以及装置
CN106775487A (zh) * 2016-12-27 2017-05-31 郑州云海信息技术有限公司 一种多路径存储故障的处理方法和装置
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
CN107229550A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 一种linux内核自旋锁死锁检测报告***和方法
CN108205479A (zh) * 2017-10-25 2018-06-26 珠海市魅族科技有限公司 一种故障信息处理的方法、装置及存储介质
CN111145405A (zh) * 2019-12-31 2020-05-12 上海申铁信息工程有限公司 一种高铁车站闸机管理***

Also Published As

Publication number Publication date
CN105630620B (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN105630620A (zh) 一种机器故障自动化处理方法
CN110224894B (zh) 一种智能变电站过程层网络监测管理***
CN104155970B (zh) 一种智能变电站监控主机闭环测试***及其测试方法
CN105808394B (zh) 一种服务器自愈的方法和装置
CN101227329B (zh) 网络设备管理的方法、装置及***
CN106789323A (zh) 一种通信网络管理方法及其装置
CN103812699A (zh) 基于云计算的监控管理***
CN102355368B (zh) 一种网络设备的故障处理方法及***
CN103926917A (zh) 一种变电站总控装置智能测试***及其测试方法
CN104483842A (zh) 一种调控一体自动化主站比对方法
CN104038373A (zh) 信息预警与自修复***及方法
CN110768845A (zh) 一种智能变电站过程层虚拟连接故障定位***
CN103227662A (zh) 一种基于状态控制的电力通信设备安全检测方法及***
CN110784352B (zh) 一种基于Oracle Goldengate的数据同步监控告警方法及装置
CN106534262B (zh) 一种网络信息***故障的切换方法
CN106844078A (zh) 一种pcie故障的处理方法和装置
CN109685682A (zh) 基于关系数据库智能生成调控***检修操作票的方法
CN101409637B (zh) 一种通信网管***中的告警交互式自动处理方法
CN114301948A (zh) 一种用于高炉生产的工业控制网络架构
CN109189644B (zh) 整机柜rmc、自动配置整机柜新增节点数量的方法及***
CN113110350A (zh) 水泥生产设备停机分析管理***
CN108011749B (zh) 一种变电站调试管控装置调试配置信息的审计方法
CN112085339A (zh) 一种基于soa架构的主备***实时数据校核装置及方法
Cao et al. IT Operation and Maintenance Process improvement and design under virtualization environment
CN113015198B (zh) 一种故障基站的定位方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200529

Address after: 266107 No.1 Yuhui Road, pengjiatai community, Xiazhuang street, Chengyang District, Qingdao City, Shandong Province

Patentee after: QINGDAO LESILIE SCIENCE & TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 250100 Ji'nan high tech Zone, Shandong, No. 1036 wave road

Patentee before: INSPUR GROUP Co.,Ltd.

TR01 Transfer of patent right