CN103368771A - 一种多节点服务器***的故障现场信息的收集方法及装置 - Google Patents

一种多节点服务器***的故障现场信息的收集方法及装置 Download PDF

Info

Publication number
CN103368771A
CN103368771A CN2013102528953A CN201310252895A CN103368771A CN 103368771 A CN103368771 A CN 103368771A CN 2013102528953 A CN2013102528953 A CN 2013102528953A CN 201310252895 A CN201310252895 A CN 201310252895A CN 103368771 A CN103368771 A CN 103368771A
Authority
CN
China
Prior art keywords
fault
information
type
subregion
situ
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102528953A
Other languages
English (en)
Inventor
雷舒莹
吴登奔
廖义祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2013102528953A priority Critical patent/CN103368771A/zh
Publication of CN103368771A publication Critical patent/CN103368771A/zh
Priority to PCT/CN2014/072262 priority patent/WO2014206099A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及计算机技术领域,公开了一种多节点服务器***的故障现场信息的收集方法及装置,该多节点服务器***的故障现场信息的收集方法包括:接收分区节点上报的故障信息;根据所述故障信息,查询与所述故障信息相匹配的故障类型;根据所述故障类型,决策需要收集的故障现场信息的类型;根据所述需要收集的故障现场信息的类型,收集相应的故障现场信息。实施本发明实施例,可以提供一种有效的故障现场信息的收集机制,能够有效的收集故障现场信息。

Description

一种多节点服务器***的故障现场信息的收集方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种多节点服务器***的故障现场信息的收集方法及装置。
背景技术
在多节点服务器***中,当分区节点发生故障时,对其故障现场信息的收集能为故障分析提供非常重要的支持。由于多节点服务器***比较复杂,以及分区节点之间的关联性较强,因此引发某个分区节点发生故障的原因会有多种可能(可能是由用户的不良操作引起,也可能是由周围异常的环境引起,还有可能是由其他分区节点引起等等)。为了能够方便维护人员准确定位故障发生的根本原因,提高故障处理的效率,在故障发生时不仅要收集节点的故障信息,还要收集故障现场信息(如用户操作日志、SEL日志、***环境温度、风扇速率等等),并将这些信息提供给故障分析模块,或者直接提供给维护人员。
然而实践中发现,由于缺乏有效的故障现场信息的收集机制,因此,当分区节点发生故障的时候,如何有效的收集故障现场信息,是本领域技术人员亟需解决的技术难题。
发明内容
本发明实施例公开了一种多节点服务器***的故障现场信息的收集方法及装置,提供了一种有效的故障现场信息的收集机制,能够有效的收集故障现场信息。
本发明实施例第一方面公开一种多节点服务器***的故障现场信息的收集方法,包括:
接收分区节点上报的故障信息;
根据所述故障信息,获取与所述故障信息相匹配的故障类型;
根据所述故障类型,提取需要收集的故障现场信息类型;
根据所述需要收集的故障现场信息类型,收集相应的故障现场信息。
在本发明实施例第一方面的第一种可能的实现方式中,所述根据所述故障信息,获取与所述故障信息相匹配的故障类型包括:
根据所述故障信息,从故障类型模块存储的故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例第一方面的第二种可能的实现方式中,所述根据所述故障类型,提取需要收集的故障现场信息类型包括:
根据所述故障类型,从信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
结合本发明实施例第一方面或本发明实施例第一方面的第一种或第二种可能的实现方式,在本发明实施例第一方面的第三种可能的实现方式中,若所述分区节点为分区从节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
发送信息收集请求给日志模块,以触发所述日志模块收集所述分区从节点的用户操作日志和SEL日志;
以及,发送信息收集请求给环境监测模块,以触发所述环境监测模块收集所述分区从节点的***环境温度、风扇速率以及电源功率。
结合本发明实施例第一方面或本发明实施例第一方面的第一种或第二种可能的实现方式,在本发明实施例第一方面的第四种可能的实现方式中,若所述分区节点为分区主节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
发送信息收集请求给日志模块,以触发所述日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和SEL日志;
以及,发送信息收集请求给环境监测模块,以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的***环境温度、风扇速率以及电源功率。
本发明实施例第二方面公开一种多节点服务器***的故障现场信息的收集装置,包括故障管理模块,所述故障管理模块包括:
故障处理模块,用于接收分区节点上报的故障信息,以及根据所述故障信息,获取与所述故障信息相匹配的故障类型;
信息收集模块,用于根据所述故障处理模块获取的所述故障类型,提取需要收集的故障现场信息类型,以及根据所述需要收集的故障现场信息类型,收集相应的故障现场信息。
在本发明实施例第二方面的第一种可能的实现方式中,所述收集装置还包括:
故障类型模块,用于存储的故障信息与故障类型的匹配关系;
其中,所述故障处理模块根据所述故障信息,获取与所述故障信息相匹配的故障类型包括:
所述故障处理模块用于根据所述故障信息,从所述故障类型模块存储的故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例第一方面的第二种可能的实现方式中,所述收集装置还包括:
信息类型模块,用于存储公有信息类型库以及故障类型匹配的私有信息类型库;
所述信息收集模块根据所述故障处理模块获取的所述故障类型,提取需要收集的故障现场信息类型包括:
所述信息收集模块根据所述故障处理模块获取的所述故障类型,从所述信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
结合本发明实施例第二方面或本发明实施例第二方面的第一种或第二种可能的实现方式,在本发明实施例第二方面的第三种可能的实现方式中,若所述分区节点为分区从节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述收集装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块,以触发所述日志模块收集所述分区从节点的用户操作日志和SEL日志;
以及,所述信息收集模块用于发送信息收集请求给所述环境监测模块,以触发所述环境监测模块收集所述分区从节点的***环境温度、风扇速率以及电源功率。
结合本发明实施例第二方面或本发明实施例第二方面的第一种或第二种可能的实现方式,在本发明实施例第二方面的第四种可能的实现方式中,若所述分区节点为分区主节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述收集装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块,以触发所述日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和SEL日志;
以及,所述信息收集模块用于发送信息收集请求给所述环境监测模块,以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的***环境温度、风扇速率以及电源功率。
本发明实施例中,在接收到分区节点上报的故障信息后,可以根据该故障信息,获取与该故障信息相匹配的故障类型,并根据该故障类型,提取需要收集的故障现场信息类型,以及根据需要收集的故障现场信息类型,收集相应的故障现场信息。通过实施本发明实施例,不仅提供了一种有效的故障现场信息的收集机制,而且还能够有效的收集故障现场信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种多节点服务器***的故障现场信息的收集方法的流程图;
图2是本发明实施例公开的另一种多节点服务器***的故障现场信息的收集方法的流程图;
图3是发明实施例公开的一种信息类型模块存储的公有信息类型库以及故障类型匹配的私有信息类型库的示意图;
图4是本发明实施例公开的另一种多节点服务器***的故障现场信息的收集方法的流程图;
图5是本发明实施例公开的一种多节点服务器***的故障现场信息的收集装置的结构图;
图6本发明实施例公开的另一种多节点服务器***的故障现场信息的收集装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种多节点服务器***的故障现场信息的收集方法及装置,提供了一种有效的故障现场信息的收集机制,能够有效的收集故障现场信息。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种多节点服务器***的故障现场信息的收集方法的流程图。如图1所示,该多节点服务器***的故障现场信息的收集方法可以包括以下步骤。
101、接收分区节点上报的故障信息。
在一个实施例中,可以接收分区节点的单板管理控制器(BaseboardManagement Controller,BMC)上报的故障信息,其中,故障信息可以是一个故障编号或者是简单的字符串。
102、根据该故障信息,获取与该故障信息相匹配的故障类型。
在一个实施例中,根据该故障信息,获取与该故障信息相匹配的故障类型可以包括:
根据该故障信息,从故障类型模块存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。
更近一步地,本发明实施例中,还可以从故障类型模块中获取该故障信息的详细的故障描述信息。
103、根据该故障类型,提取需要收集的故障现场信息类型。
本发明实施例中,不同的故障类型需要收集的故障现场信息类型不同,因此,需要根据该故障类型,提取需要收集的故障现场信息类型。
在一个实施例中,根据该故障类型,提取需要收集的故障现场信息类型可以包括:
根据该故障类型,从信息类型模块存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
104、根据需要收集的故障现场信息类型,收集相应的故障现场信息。
本发明实施例中,需要收集的故障现场信息类型可以包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率等。
在图1所示的方法中,在接收到分区节点上报的故障信息后,可以根据该故障信息,获取与该故障信息相匹配的故障类型,并根据该故障类型,提取需要收集的故障现场信息类型,以及根据需要收集的故障现场信息类型,收集相应的故障现场信息。通过实施图1所示的方法,不仅提供了一种有效的故障现场信息的收集机制,而且还能够有效的收集故障现场信息。
请参阅图2,图2是本发明实施例公开的一种多节点服务器***的故障现场信息的收集方法的流程图。如图2所示,该多节点服务器***的故障现场信息的收集方法可以包括以下步骤。
201、接收分区节点上报的故障信息。
在一个实施例中,可以接收分区节点的BMC上报的故障信息,其中,故障信息可以是一个故障编号或者是简单的字符串。
202、根据该故障信息,获取与该故障信息相匹配的故障类型。
在一个实施例中,根据该故障信息,获取与该故障信息相匹配的故障类型可以包括:
根据该故障信息,从故障类型模块存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。
更近一步地,本发明实施例中,还可以从故障类型模块中获取该故障信息的详细的故障描述信息。
203、根据该故障类型,提取需要收集的故障现场信息类型,其中,需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率。
本发明实施例中,不同的故障类型需要收集的故障现场信息类型不同,因此,需要根据该故障类型,提取需要收集的故障现场信息类型。本发明实施例中,需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率。
在一个实施例中,根据该故障类型,提取需要收集的故障现场信息类型可以包括:
根据该故障类型,从信息类型模块存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
本发明实施例中,如图3所示,信息类型模块可以存储公有信息类型库以及故障类型匹配的私有信息类型库,例如,信息类型模块可以存储公有信息类型库(包括需要收集的故障现场信息类型1~3)、以及存储有故障类型1~3分别匹配的私有信息类型库1(包括需要收集的故障现场信息类型4、5、7)、私有信息类型库2(包括需要收集的故障现场信息类型4、6)以及私有信息类型库3(包括需要收集的故障现场信息类型5、7、11),其中,公有信息类型库包括的需要收集的故障现场信息类型1~3是所有故障类型均要收集的故障现场信息类型。举例来说,当故障类型为故障类型1时,根据该故障类型1,需要从信息类型模块存储的公有信息类型库中提取需要收集的故障现场信息类型1~3,以及需要从该故障类型1匹配的私有信息类型库1中提取需要收集的故障现场信息类型4、5、7。
204、若分区节点为分区从节点,发送信息收集请求给日志模块,以触发日志模块收集该分区从节点的用户操作日志和SEL日志;以及,发送信息收集请求给环境监测模块,以触发环境监测模块收集该分区从节点的***环境温度、风扇速率以及电源功率。
205、存储收集到的该分区从节点的用户操作日志、SEL日志、***环境温度、风扇速率以及电源功率。
其中,通过实施图2所示的方法,不仅提供了一种有效的故障现场信息的收集机制,而且还能够有效的收集故障现场信息。
请参阅图4,图4是本发明实施例公开的一种多节点服务器***的故障现场信息的收集方法的流程图。如图4所示,该多节点服务器***的故障现场信息的收集方法可以包括以下步骤。
401、接收分区节点上报的故障信息。
在一个实施例中,可以接收分区节点的BMC上报的故障信息,其中,故障信息可以是一个故障编号或者是简单的字符串。
402、根据该故障信息,获取与该故障信息相匹配的故障类型。
在一个实施例中,根据该故障信息,获取与该故障信息相匹配的故障类型可以包括:
根据该故障信息,从故障类型模块存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。
更近一步地,本发明实施例中,还可以从故障类型模块中获取该故障信息的详细的故障描述信息。
403、根据该故障类型,提取需要收集的故障现场信息类型,其中,需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率。
本发明实施例中,不同的故障类型需要收集的故障现场信息类型不同,因此,需要根据该故障类型,提取需要收集的故障现场信息类型。本发明实施例中,需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率。
在一个实施例中,根据该故障类型,提取需要收集的故障现场信息类型可以包括:
根据该故障类型,从信息类型模块存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
本发明实施例中,如图3所示,信息类型模块可以存储公有信息类型库以及故障类型匹配的私有信息类型库,例如,信息类型模块可以存储公有信息类型库(包括需要收集的故障现场信息类型1~3)、以及存储有故障类型1~3分别匹配的私有信息类型库1(包括需要收集的故障现场信息类型4、5、7)、私有信息类型库2(包括需要收集的故障现场信息类型4、6)以及私有信息类型库3(包括需要收集的故障现场信息类型5、7、11),其中,公有信息类型库包括的需要收集的故障现场信息类型1~3是所有故障类型均要收集的故障现场信息类型。举例来说,当故障类型为故障类型2时,根据该故障类型2,需要从信息类型模块存储的公有信息类型库中提取需要收集的故障现场信息类型1~3,以及需要从该故障类型2匹配的私有信息类型库2中提取需要收集的故障现场信息类型4、6。
404、若分区节点为分区主节点,发送信息收集请求给日志模块,以触发日志模块收集该分区主节点所属分区的所有分区节点的用户操作日志和SEL日志;以及,发送信息收集请求给环境监测模块,以触发环境监测模块收集该分区主节点所属分区的所有分区节点的***环境温度、风扇速率以及电源功率。
405、存储收集到的该分区主节点所属分区的所有分区节点的用户操作日志、SEL日志、***环境温度、风扇速率以及电源功率。
其中,通过实施图4所示的方法,不仅提供了一种有效的故障现场信息的收集机制,而且还能够有效的收集故障现场信息。
请参阅图5,图5是本发明实施例公开的一种多节点服务器***的故障现场信息的收集装置的结构图。本发明实施例中,多节点服务器***可以包括m个分区,每个分区由n个分区节点构成,其中,分区节点1为分区主节点,其他分区节点为分区从节点。当某个分区节点发生故障时,该分区节点可以向图5所示的多节点服务器***的故障现场信息的收集装置上报故障信号,由该收集装置来执行本发明实施例公开的多节点服务器***的故障现场信息的收集操作。如图5所示,该多节点服务器***的故障现场信息的收集装置包括故障管理模块500,故障管理模块500包括:
故障处理模块501,用于接收分区节点上报的故障信息,以及根据该故障信息,获取与该故障信息相匹配的故障类型;
信息收集模块502,用于根据故障处理模块501获取的故障类型,提取需要收集的故障现场信息类型,以及根据需要收集的故障现场信息类型,收集相应的故障现场信息。
本发明实施例中,图5所示的多节点服务器***的故障现场信息的收集装置还包括:
故障类型模块503,用于存储的故障信息与故障类型的匹配关系;
其中,故障处理模块501根据该故障信息,获取与该故障信息相匹配的故障类型包括:
故障处理模块501用于根据该故障信息,从故障类型模块503存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。
本发明实施例中,图5所示的多节点服务器***的故障现场信息的收集装置还包括:
信息类型模块504,用于存储公有信息类型库以及故障类型匹配的私有信息类型库;
其中,信息收集模块502根据故障处理模块504获取的故障类型,提取需要收集的故障现场信息类型包括:
信息收集模块502根据故障处理模块501获取的故障类型,从信息类型模块504存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
本发明实施例中,图5所示的多节点服务器***的故障现场信息的收集装置中,若该分区节点为分区从节点,且需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率时,该收集装置还包括日志模块505和环境监测模块506:
其中,信息收集模块502根据需要收集的故障现场信息类型,收集相应的故障现场信息包括:
信息收集模块502用于发送信息收集请求给日志模块505,以触发日志模块505收集该分区从节点的用户操作日志和SEL日志;
以及,信息收集模块502用于发送信息收集请求给环境监测模块506,以触发环境监测模块506收集该分区从节点的***环境温度、风扇速率以及电源功率。
本发明实施例中,图5所示的多节点服务器***的故障现场信息的收集装置中,若该分区节点为分区主节点,且需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率时,信息收集模块502根据需要收集的故障现场信息类型,收集相应的故障现场信息包括:
信息收集模块502用于发送信息收集请求给日志模块505,以触发日志模块505收集该分区主节点所属分区的所有分区节点的用户操作日志和SEL日志;
以及,信息收集模块502用于发送信息收集请求给环境监测模块506,以触发环境监测模块506收集该分区主节点所属分区的所有分区节点的***环境温度、风扇速率以及电源功率。
本发明实施例中,图5所示的多节点服务器***的故障现场信息的收集装置的工作描述如下:
1)故障类型匹配:
故障处理模块501收到分区节点上报的故障信号是一个故障编号或者简单字符串,分区节点上报故障信息后,故障处理模块501首先去访问故障类型模块503匹配故障类型,即收集装置输入故障信号给故障类型模块503,故障类型模块503返回故障类型和详细的故障描述信息给。
2)故障现场信息类型决策:
其中,不同的故障类型对应的故障现场信息类型不同,信息收集模块502要根据故障处理模块501获得的故障类型,从信息类型模块504中决策出收集的故障现场信息类型。
其中,在信息类型模块504中,可以存储每一种故障类型需要收集的故障现场信息类型,并且将故障现场信息类型添加到公有信息类型库和该故障类型匹配的信息类型库(每一种故障类型都匹配了一个私有信息类型)中。其中,公有信息类型库用public来标识,私有信息类库用于private来标识。公有信息类型库存储的是所有故障类型都需要收集的故障现场信息类型,而私有信息类型库是每一种故障类型特别要收集的故障现场信息类型。信息收集模块502可以访问信息类型模块504,并输入故障类型给信息类型模块504,由信息类型模块504返回要收集的故障现场信息类型(即集合)给信息收集模块502。其中,信息收集模块502可以遍历该故障现场信息类型(即集合)包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,信息收集模块502可以分别向日志模块505和环境监测模块506发送信息收集请求,以触发日志模块505收集用户操作日志和SEL日志,以及触发环境监测模块506收集该***环境温度、风扇速率以及电源功率。
3)故障现场信息收集:
本发明实施例中,一个多节点服务器***可以根据用户的需求分成多个分区,收集装置可以保存每个分区节点和它所在的分区的对应关系。当分区节点上报故障信息后,收集装置先根据分区节点号来确定该分区节点所属的分区。其中,该分区节点可能是分区主节点,也可能是分区从节点,当上报故障信息的分区节点为分区从节点时,收集装置可以收集该分区从节点的故障现在信息(如用户操作日志、SEL日志、***环境温度、风扇速率、电源功率等),当上报故障信息的分区节点为分区主节点时,由于无法确认是该分区主节点自身原因导致故障,还是因为其他分区节点引起该分区主节点故障,因此,收集装置可以收集该分区主节点所属分区的所有分区节点的故障现在信息(如用户操作日志、SEL日志、***环境温度、风扇速率、电源功率等)。
4)信息保存
本发明实施例中,收集装置可以将收集到的故障现场信息保存到数据库,可以设定保持一周或者一个月的故障现场信息,也可以设定故障现场信息的数量上限值,超过设定的时间或是超过数量上限值,则覆盖时间最早的故障现场信息或者备份数据库。
其中,通过实施图5所示的装置,不仅提供了一种有效的故障现场信息的收集机制,而且还能够有效的收集故障现场信息。
请参阅图6,图6是本发明实施例公开的另一种多节点服务器***的故障现场信息的收集装置的结构图,用于执行本发明实施例公开的多节点服务器***的故障现场信息的收集方法。如图6所示,该多节点服务器***的故障现场信息的收集装置600包括:至少一个处理器601,例如CPU,至少一个网络接口604或者其他用户接口603,存储器605,至少一个通信总线602。通信总线602用于实现这些组件之间的连接通信。其中,用户接口603可选的可以包括USB接口以及其他标准接口、有线接口。网络接口604可选的可以包括Wi-Fi接口以及其他无线接口。存储器605可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器605可选的可以包含至少一个位于远离前述处理器601的存储装置。
在一些实施方式中,存储器605存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作***6051,包含各种管理程序,用于实现故障现场信息的收集;
应用模块6052,包含存储数据、匹配关系。
具体地,处理器601用于调用存储器605中存储的程序,执行以下操作:
接收分区节点上报的故障信息;
根据该故障信息,获取与该故障信息相匹配的故障类型;
根据该故障类型,提取需要收集的故障现场信息类型;
根据需要收集的故障现场信息类型,收集相应的故障现场信息。
本发明实施例中,处理器601根据该故障信息,获取与该故障信息相匹配的故障类型包括:
处理器601用于根据该故障信息,从故障类型模块存储的故障信息与故障类型的匹配关系中获取与该故障信息相匹配的故障类型。
本发明实施例中,处理器601根据该故障类型,提取需要收集的故障现场信息类型包括:
处理器601用于根据该故障类型,从信息类型模块存储的公有信息类型库以及该故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
本发明实施例中,若该分区节点为分区从节点,且需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则处理器601根据需要收集的故障现场信息类型,收集相应的故障现场信息包括:
处理器601发送信息收集请求给日志模块,以触发日志模块收集分区从节点的用户操作日志和SEL日志;
以及,发送信息收集请求给环境监测模块,以触发环境监测模块收集分区从节点的***环境温度、风扇速率以及电源功率。
本发明实施例中,若该分区节点为分区主节点,且需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则处理器601根据需要收集的故障现场信息类型,收集相应的故障现场信息包括:
处理器601发送信息收集请求给日志模块,以触发日志模块收集分区主节点所属分区的所有分区节点的用户操作日志和SEL日志;
以及,发送信息收集请求给环境监测模块,以触发环境监测模块收集所述分区主节点所属分区的所有分区节点的***环境温度、风扇速率以及电源功率。
其中,通过实施图6所示的装置,不仅提供了一种有效的故障现场信息的收集机制,而且还能够有效的收集故障现场信息。
本发明实施例中,故障现场信息除了包括用户操作日志、SEL日志、***环境温度、风扇速率以及电源功率之外,还可以包括其他的信息。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
以上对本发明实施例公开的多节点服务器***的故障现场信息的收集方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种多节点服务器***的故障现场信息的收集方法,其特征在于,包括:
接收分区节点上报的故障信息;
根据所述故障信息,获取与所述故障信息相匹配的故障类型;
根据所述故障类型,提取需要收集的故障现场信息类型;
根据所述需要收集的故障现场信息类型,收集相应的故障现场信息。
2.根据权利要求1所述的多节点服务器***的故障现场信息的收集方法,其特征在于,所述根据所述故障信息,获取与所述故障信息相匹配的故障类型包括:
根据所述故障信息,从故障类型模块存储的故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。
3.根据权利要求2所述的多节点服务器***的故障现场信息的收集方法,其特征在于,所述根据所述故障类型,提取需要收集的故障现场信息类型包括:
根据所述故障类型,从信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
4.根据权利要求1~3任一项所述的多节点服务器***的故障现场信息的收集方法,其特征在于,若所述分区节点为分区从节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
发送信息收集请求给日志模块,以触发所述日志模块收集所述分区从节点的用户操作日志和SEL日志;
以及,发送信息收集请求给环境监测模块,以触发所述环境监测模块收集所述分区从节点的***环境温度、风扇速率以及电源功率。
5.根据权利要求1~3任一项所述的多节点服务器***的故障现场信息的收集方法,其特征在于,若所述分区节点为分区主节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
发送信息收集请求给日志模块,以触发所述日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和SEL日志;
以及,发送信息收集请求给环境监测模块,以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的***环境温度、风扇速率以及电源功率。
6.一种多节点服务器***的故障现场信息的收集装置,其特征在于,包括故障管理模块,所述故障管理模块包括:
故障处理模块,用于接收分区节点上报的故障信息,以及根据所述故障信息,获取与所述故障信息相匹配的故障类型;
信息收集模块,用于根据所述故障处理模块获取的所述故障类型,提取需要收集的故障现场信息类型,以及根据所述需要收集的故障现场信息类型,收集相应的故障现场信息。
7.根据权利要求6所述的多节点服务器***的故障现场信息的收集装置,其特征在于,所述收集装置还包括:
故障类型模块,用于存储的故障信息与故障类型的匹配关系;
其中,所述故障处理模块根据所述故障信息,获取与所述故障信息相匹配的故障类型包括:
所述故障处理模块用于根据所述故障信息,从所述故障类型模块存储的故障信息与故障类型的匹配关系中获取与所述故障信息相匹配的故障类型。
8.根据权利要求7所述的多节点服务器***的故障现场信息的收集装置,其特征在于,所述收集装置还包括:
信息类型模块,用于存储公有信息类型库以及故障类型匹配的私有信息类型库;
所述信息收集模块根据所述故障处理模块获取的所述故障类型,提取需要收集的故障现场信息类型包括:
所述信息收集模块根据所述故障处理模块获取的所述故障类型,从所述信息类型模块存储的公有信息类型库以及所述故障类型匹配的私有信息类型库中提取需要收集的故障现场信息类型。
9.根据权利要求6~8任一项所述的多节点服务器***的故障现场信息的收集装置,其特征在于,若所述分区节点为分区从节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述收集装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块,以触发所述日志模块收集所述分区从节点的用户操作日志和SEL日志;
以及,所述信息收集模块用于发送信息收集请求给所述环境监测模块,以触发所述环境监测模块收集所述分区从节点的***环境温度、风扇速率以及电源功率。
10.根据权利要求6~8任一项所述的多节点服务器***的故障现场信息的收集装置,其特征在于,若所述分区节点为分区主节点,且所述需要收集的故障现场信息类型包括用户操作日志、SEL日志、***环境温度、风扇速率、电源功率,则所述收集装置还包括日志模块和环境监测模块:
所述信息收集模块根据所述需要收集的故障现场信息类型,收集相应的故障现场信息包括:
所述信息收集模块用于发送信息收集请求给所述日志模块,以触发所述日志模块收集所述分区主节点所属分区的所有分区节点的用户操作日志和SEL日志;
以及,所述信息收集模块用于发送信息收集请求给所述环境监测模块,以触发所述环境监测模块收集所述分区主节点所属分区的所有分区节点的***环境温度、风扇速率以及电源功率。
CN2013102528953A 2013-06-24 2013-06-24 一种多节点服务器***的故障现场信息的收集方法及装置 Pending CN103368771A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2013102528953A CN103368771A (zh) 2013-06-24 2013-06-24 一种多节点服务器***的故障现场信息的收集方法及装置
PCT/CN2014/072262 WO2014206099A1 (zh) 2013-06-24 2014-02-19 一种多节点服务器***的故障现场信息的收集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102528953A CN103368771A (zh) 2013-06-24 2013-06-24 一种多节点服务器***的故障现场信息的收集方法及装置

Publications (1)

Publication Number Publication Date
CN103368771A true CN103368771A (zh) 2013-10-23

Family

ID=49369360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102528953A Pending CN103368771A (zh) 2013-06-24 2013-06-24 一种多节点服务器***的故障现场信息的收集方法及装置

Country Status (2)

Country Link
CN (1) CN103368771A (zh)
WO (1) WO2014206099A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014206099A1 (zh) * 2013-06-24 2014-12-31 华为技术有限公司 一种多节点服务器***的故障现场信息的收集方法及装置
CN105245600A (zh) * 2015-10-15 2016-01-13 珠海格力电器股份有限公司 一种空调***的机组数据上传方法和***
CN105306272A (zh) * 2015-11-10 2016-02-03 中国建设银行股份有限公司 信息***故障场景信息收集方法及***
CN106100879A (zh) * 2016-06-07 2016-11-09 青岛海信移动通信技术股份有限公司 移动终端日志获取方法及装置
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN109062758A (zh) * 2018-07-19 2018-12-21 郑州云海信息技术有限公司 一种服务器***宕机处理方法、***、介质及设备
CN111931011A (zh) * 2020-07-04 2020-11-13 华电联合(北京)电力工程有限公司 一种事故信息收集方法、收集装置、收集***及计算机可读存储介质
US11269717B2 (en) * 2019-09-24 2022-03-08 Sap Se Issue-resolution automation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000115168A (ja) * 1998-09-30 2000-04-21 Toshiba Corp ネットワークに適用する障害管理システム及びネットワーク管理システム
CN101227324A (zh) * 2008-01-10 2008-07-23 华为技术有限公司 通信设备的故障信息收集方法以及通信设备和***
CN102571452A (zh) * 2012-02-20 2012-07-11 华为技术有限公司 多节点管理的方法和***
CN102855369A (zh) * 2011-06-30 2013-01-02 上海西门子医疗器械有限公司 一种故障信息的收集方法、***及医疗设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368771A (zh) * 2013-06-24 2013-10-23 华为技术有限公司 一种多节点服务器***的故障现场信息的收集方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000115168A (ja) * 1998-09-30 2000-04-21 Toshiba Corp ネットワークに適用する障害管理システム及びネットワーク管理システム
CN101227324A (zh) * 2008-01-10 2008-07-23 华为技术有限公司 通信设备的故障信息收集方法以及通信设备和***
CN102855369A (zh) * 2011-06-30 2013-01-02 上海西门子医疗器械有限公司 一种故障信息的收集方法、***及医疗设备
CN102571452A (zh) * 2012-02-20 2012-07-11 华为技术有限公司 多节点管理的方法和***

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014206099A1 (zh) * 2013-06-24 2014-12-31 华为技术有限公司 一种多节点服务器***的故障现场信息的收集方法及装置
CN105245600A (zh) * 2015-10-15 2016-01-13 珠海格力电器股份有限公司 一种空调***的机组数据上传方法和***
CN105245600B (zh) * 2015-10-15 2019-10-22 珠海格力电器股份有限公司 一种空调***的机组数据上传方法和***
CN105306272B (zh) * 2015-11-10 2019-01-25 中国建设银行股份有限公司 信息***故障场景信息收集方法及***
CN105306272A (zh) * 2015-11-10 2016-02-03 中国建设银行股份有限公司 信息***故障场景信息收集方法及***
WO2016188100A1 (zh) * 2015-11-10 2016-12-01 中国建设银行股份有限公司 信息***故障场景信息收集方法及***
US10545807B2 (en) 2015-11-10 2020-01-28 China Construction Bank Corporation Method and system for acquiring parameter sets at a preset time interval and matching parameters to obtain a fault scenario type
CN106100879A (zh) * 2016-06-07 2016-11-09 青岛海信移动通信技术股份有限公司 移动终端日志获取方法及装置
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN109062758A (zh) * 2018-07-19 2018-12-21 郑州云海信息技术有限公司 一种服务器***宕机处理方法、***、介质及设备
US11269717B2 (en) * 2019-09-24 2022-03-08 Sap Se Issue-resolution automation
CN111931011A (zh) * 2020-07-04 2020-11-13 华电联合(北京)电力工程有限公司 一种事故信息收集方法、收集装置、收集***及计算机可读存储介质
CN111931011B (zh) * 2020-07-04 2023-12-08 华电联合(北京)电力工程有限公司 一种事故信息收集方法、收集装置、收集***及计算机可读存储介质

Also Published As

Publication number Publication date
WO2014206099A1 (zh) 2014-12-31

Similar Documents

Publication Publication Date Title
CN103368771A (zh) 一种多节点服务器***的故障现场信息的收集方法及装置
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
US9262260B2 (en) Information processing apparatus, information processing method, and recording medium
CN102567185B (zh) 一种应用服务器的监控方法
CN108289034B (zh) 一种故障发现方法和装置
CN106469103B (zh) 硬盘的维护方法和装置
CN107544832B (zh) 一种虚拟机进程的监控方法、装置和***
CN105589782A (zh) 基于浏览器的用户行为采集方法
CN106294222A (zh) 一种确定pcie设备与插槽对应关系的方法及装置
CN103778513A (zh) 一种基于二维码的it设备运维监控方法
CN111046011A (zh) 日志收集方法、***、节点、电子设备及可读存储介质
CN103973470A (zh) 用于无共享集群的集群管理方法和设备
CN104683147A (zh) 一种对大规模数据中心硬件管理方法及***
CN112230847B (zh) 一种监控K8s存储卷的方法、***、终端及存储介质
CN113625945A (zh) 分布式存储的慢盘处理方法、***、终端及存储介质
CN103109293A (zh) 一种用户行为处理***及方法
CN105573872A (zh) 数据存储***的硬盘维护方法和装置
CN110209550A (zh) 存储介质的故障处理方法、装置、电子设备及存储介质
CN103778024A (zh) 服务器***及其讯息处理方法
CN103186435A (zh) ***错误处理方法与使用该方法的服务器***
CN103226501A (zh) 一种数据库的逻辑备份方法以及逻辑备份***
CN108604231A (zh) 镜像处理方法以及计算设备
CN110928492A (zh) 分布式文件***的硬盘更换方法、***、终端及存储介质
CN110764949A (zh) 硬盘更换方法、硬盘更换装置、硬盘更换设备及存储介质
CN111104301B (zh) 一种在网页中判断障碍用户的方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131023