WO2014010021A1 - 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム - Google Patents

情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム Download PDF

Info

Publication number
WO2014010021A1
WO2014010021A1 PCT/JP2012/067502 JP2012067502W WO2014010021A1 WO 2014010021 A1 WO2014010021 A1 WO 2014010021A1 JP 2012067502 W JP2012067502 W JP 2012067502W WO 2014010021 A1 WO2014010021 A1 WO 2014010021A1
Authority
WO
WIPO (PCT)
Prior art keywords
event
information processing
information
abnormal
adjacent
Prior art date
Application number
PCT/JP2012/067502
Other languages
English (en)
French (fr)
Inventor
裕之 渡邉
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2012/067502 priority Critical patent/WO2014010021A1/ja
Publication of WO2014010021A1 publication Critical patent/WO2014010021A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Definitions

  • the present invention relates to an information processing apparatus, an information processing system, an information processing apparatus control method, and an information processing apparatus control program.
  • HPC High Performance Computing
  • next-generation supercomputers have a configuration in which a large number of computing devices are interconnected by interconnects.
  • a failure event is notified by the following method. Fault monitoring of each computing device is performed by a service processor provided in each computing device.
  • a service processor of each computing device and a control server that is a monitoring device for the entire system are connected by a communication path called a management network.
  • the service processor collects abnormal event notifications in the control server by sending notifications of abnormal events such as detected failures to the control server.
  • the control server centrally manages abnormal events in the HPC system.
  • the monitoring apparatus that collectively monitors the abnormality of the entire system is notified of not only the actual failure but also the connection abnormality induced by the failure at the same time.
  • the communication processing load of the monitoring device increases, and processing delay of the monitoring device may occur. As a result, the monitoring device may lose a packet on the communication protocol.
  • processing delay of the monitoring device further occurs due to occurrence of congestion.
  • the monitoring device may fail to receive notification of an abnormal event due to the failure.
  • the identification of the maintenance target may be delayed.
  • the disclosed technology has been made in view of the above, and provides an information processing device, an information processing system, an information processing device control method, and an information processing device control program that reduce failure report failure from a plurality of computing devices. For the purpose.
  • the abnormality detection unit detects the occurrence of an abnormal event in the own apparatus.
  • the abnormality information transmission unit is adjacent to the own device in a logical connection relationship between a plurality of information processing devices determined in advance based on the first predetermined condition.
  • Abnormal information related to the abnormal event is transmitted to the information processing apparatus.
  • the abnormality notification unit notifies an external device of the occurrence of the abnormal event based on a response result from the adjacent information processing apparatus with respect to the transmission of the abnormality information.
  • the information processing device the information processing system, the information processing device control method, and the information processing device control program disclosed in the present application, it is possible to reduce the failure report failure from a plurality of computing devices. .
  • FIG. 1 is a diagram illustrating an overall configuration of an HPC system according to an embodiment.
  • FIG. 2 is a block diagram of the service processor.
  • FIG. 3A is a diagram illustrating a physical connection relationship.
  • FIG. 3B is a diagram illustrating a logical connection relationship.
  • FIG. 4 is a diagram illustrating an example of the adjacent SP list.
  • FIG. 5 is a diagram illustrating an example of the level relationship table.
  • FIG. 6 is a diagram illustrating a determination condition of a transmission destination of abnormal event information when an abnormal event occurs in the own device.
  • FIG. 7 is a diagram illustrating an example of the acquired event list.
  • FIG. 8 is a diagram illustrating an example of a transmitted event list.
  • FIG. 1 is a diagram illustrating an overall configuration of an HPC system according to an embodiment.
  • FIG. 2 is a block diagram of the service processor.
  • FIG. 3A is a diagram illustrating a physical connection relationship.
  • FIG. 3B is a diagram illustrating
  • FIG. 9 is a diagram illustrating a determination condition of a transmission destination of abnormal event information when an abnormal event notification is received from another SP.
  • FIG. 10 is a diagram illustrating a logical connection relationship between SPs before occurrence of an abnormal event.
  • FIG. 11 is a diagram illustrating the operation of each SP when an abnormal event occurs.
  • FIG. 12 is a diagram illustrating the operation of each SP after FIG.
  • FIG. 13 is a diagram illustrating the operation of each SP after FIG.
  • FIG. 14 is a diagram illustrating the operation of each SP at the time when the occurrence of an abnormal event is notified to the control server.
  • FIG. 15 is a flowchart of the abnormal event notification process when an abnormal event occurs in the own apparatus.
  • FIG. 16 is a flowchart of abnormal event notification processing when an abnormal event notification is received from an adjacent SP.
  • FIG. 17 is a flowchart of response processing when a report response is received.
  • FIG. 18 is a hardware configuration diagram of the computing device according to the embodiment.
  • an information processing device an information processing system, an information processing device control method, and an information processing device control program disclosed in the present application will be described in detail with reference to the drawings.
  • the information processing apparatus, the information processing system, the information processing apparatus control method, and the information processing apparatus control program disclosed in the present application are not limited by the following embodiments.
  • an HPC system will be described as an example of the information processing system, but the present invention is not limited to this, and any system that has a plurality of information processing devices connected thereto may be used.
  • a calculation apparatus included in the HPC system will be described as an example of the information processing apparatus.
  • FIG. 1 is a diagram illustrating an overall configuration of an HPC system according to an embodiment.
  • the HPC system according to this embodiment includes computing devices 1 to 6 and a control server 7.
  • the six computing devices 1 to 6 illustrate the computing device, but the number of computing devices is not particularly limited as long as it is plural.
  • the computing devices 1 to 6 are connected by an interconnect 8 respectively.
  • the computing devices 1 to 6 can transmit and receive data via the interconnect 8.
  • the interconnect 8 is illustrated as being connected to an adjacent computing device, but the interconnect 8 may be connected to a computing device other than the adjacent computing device.
  • the interconnect 8 may interconnect all the computing devices, or may have other connection forms.
  • the computing devices 1 to 6 have service processors (SP) 10 to 60, respectively.
  • SP service processors
  • the service processors 10 to 60 are represented as SP10 to 60.
  • the SPs 10 to 60 and the control server 7 are connected by a control network 9.
  • the abnormal event information output from the SPs 10 to 60 and the notification of the occurrence of the abnormal event are transmitted using the control network 9. That is, even if the computing devices cannot communicate with each other in the interconnect 8, the information on the abnormal event can be transmitted / received via the control network 9.
  • FIG. 2 is a block diagram of the service processor.
  • the SPs 10 to 60 all have the same function, so the SP 10 will be described as an example.
  • the SPs 20 to 60 have the same functions as described below.
  • the connections are represented using the calculation devices 1 to 3.
  • FIG. 2 shows an example in which SP10 is connected to SP20 and SP30.
  • the SP 10 includes an abnormality detection unit 11, a reception unit 12, a determination unit 13, an abnormality notification unit 14, an abnormality information transmission unit 15, a response unit 16, and a storage unit 17. Yes.
  • the storage unit 17 is a storage device such as a memory.
  • the storage unit 17 includes an adjacent SP list 171, an acquired event list 172, a transmitted event list 173, and a level relationship table 174.
  • the acquired event list 172 and the transmitted event list 173 normally have only a format, and when an abnormality occurs in the system, the contents are registered by the determination unit 13 as described later.
  • the acquired event list 172 and the transmitted event list 173 will be described in detail later.
  • FIG. 3A is a diagram illustrating a physical connection relationship.
  • FIG. 3B shows a logical connection relationship. 3A and 3B are cases where there are six SPs SP10-60.
  • a physical connection 201 in FIG. 3A represents a physical connection relationship of SP10 to SP60.
  • the logical connection 202 in FIG. 3B represents a predetermined logical connection relationship of the SPs 10 to 60.
  • the logical connection relationship is a tree-type connection relationship generated under the condition that there is no loop and a plurality of connections between the same SPs (no overlap).
  • the logical connection relationship when the connection is concentrated on one SP, the tree becomes short, but the load of the computing device on which the connection is concentrated increases due to the transmission of an abnormal event and its response described later. Further, when the number of SPs connected to one column is increased due to a logical connection relationship, the tree becomes longer, and a response to transmission of an abnormal event described later is delayed. Therefore, it is preferable that the logical connection relationship is set to a connection relationship suitable for the operation conditions in consideration of the load and response speed of the computing device.
  • FIG. 3A as indicated by the physical connection 201, the SPs 10 to 60 are interconnected as physical connections.
  • the logical connection 202 of FIG. 3B SP10 is connected to SP20-40.
  • SP30 is connected with SP50 and SP60.
  • an SP that is directly connected to a certain SP in a logical connection relationship that is, an SP that is connected without passing through another SP is called an SP adjacent to a certain SP.
  • an SP adjacent to a certain SP is referred to as an adjacent SP of the certain SP.
  • SPs adjacent to SP10 are SP20 to SP40.
  • the SP adjacent to SP20 is only SP10.
  • SPs adjacent to SP30 are SP10, SP50, and SP60.
  • FIG. 4 is a diagram illustrating an example of the adjacent SP list.
  • the adjacent SP list 301 is an adjacent SP list of the SP 10 when the logical connection 202 in FIG. 3B is in a logical connection relationship.
  • adjacent SP lists 302 to 306 are adjacent SP lists of SP20 to SP60, respectively. That is, when the logical connection 202 in FIG. 3B has a logical connection relationship, the storage unit 17 stores the adjacent SP list 301 in FIG. 4 as the adjacent SP list 171. In this way, each SP stores adjacent SPs, thereby storing the entire logical connection relationship in the entire system.
  • the level relationship table 174 is a table in which the correlation of each abnormal event, in other words, the causal relationship is described. Specifically, the level relation table 174 describes, for each abnormal event that occurs, a suppression target event that is an abnormal event that each abnormal event induces and a higher-level event that is an abnormal event that induces the abnormal event.
  • the suppression target event is an abnormal event that is induced because a corresponding abnormal event occurs, and can be said to be an abnormal event that does not require notification when a higher-level event is reported.
  • the level relationship table 174 has a retention period, which is an effective period of suppression of the suppression target event by the higher level event, for each abnormal event. In other words, the retention period is a period in which when a higher-level event and a suppression target event of the higher-level event occur, the suppression target event is considered to be induced by the higher-level event.
  • FIG. 5 is a diagram showing an example of the level relation table.
  • the level relationship table 400 is an example of the level relationship table 174.
  • a higher level event, a suppression target event, and a holding time are registered in correspondence with the abnormal event.
  • the upper events for the “link down event” are the “power failure event” and the “water leakage abnormal event”. That is, there is a correlation that when a “power failure event” or “water leakage abnormal event” occurs, a “link down event” is induced.
  • the “power failure event” and the “water leakage abnormal event” have a retention period of 5 minutes. That is, in a certain SP, when the occurrence of a “link down event” is recognized within 5 minutes after the occurrence of a “power failure event” is recognized, the link down event is suppressed. The suppression of abnormal events will be described in detail later.
  • the storage unit 17 stores a level relation table as shown in FIG. 5 as the level relation table 174.
  • the SP 20 to 60 also store the same level relationship table.
  • the anomaly detection unit 11 detects the occurrence of an abnormal event by the computing device 1.
  • the abnormal event may be any object as long as it can be determined as abnormal, for example, an error such as a power failure or a link error.
  • the abnormality detection unit 11 transmits information regarding the abnormal event that has occurred to the determination unit 13.
  • the information related to the abnormal event is a predetermined identifier or the like.
  • the information related to the abnormal event may be other information as long as it can be understood what the abnormal event is.
  • the abnormality detection unit 11 transmits the name of the abnormal event to the determination unit 13 as information regarding the abnormal event.
  • the receiving unit 12 receives input of abnormal event information from adjacent SPs such as SP20 and SP30.
  • the receiving unit 12 transmits information on the received abnormal event to the determining unit 13.
  • the receiving unit 12 receives a response (hereinafter referred to as “report response”) that prompts notification for transmission of abnormal event information to adjacent SPs from adjacent SPs such as SP20 and SP30. Then, the reception unit 12 transmits the received notification response to the determination unit 13.
  • the determination unit 13 has a clock.
  • the case where the occurrence of an abnormal event is detected in the computing device 1 by the abnormality detection unit 11 and the case where the reception unit 12 receives an input of the abnormal event from the SP 20 or SP 30 will be described separately.
  • an abnormal event occurring in the computing device 1 is referred to as an “occurrence event”.
  • An abnormal event received from the SP 20 or SP 30 is referred to as a “notification event”.
  • the determination unit 13 receives an input of occurrence event information from the abnormality detection unit 11.
  • the determination unit 13 acquires an abnormal event having a correlation with the occurrence event from the level relationship table 174 stored in the storage unit 17. Then, the determination unit 13 determines whether the generated event has a higher level event and a suppression target event. When there is a higher event of the generated event, that is, when the generated event is a suppression target event, the determination unit 13 determines whether the higher event of the generated event is registered in the acquired event list 172. When the higher event of the generated event is registered in the acquired event list 172, the determination unit 13 acquires the registration time of the registered higher event from the acquired event list 172. And the determination part 13 calculates the elapsed time from the acquired registration time to the present using the clock which self has.
  • the determination unit 13 acquires from the level relationship table 174 the retention time of the higher event of the occurrence event registered in the acquisition event list 172. Then, the determination unit 13 determines whether or not the calculated elapsed time exceeds the acquired retention time, that is, whether or not the retention time has already elapsed since the upper event of the occurrence event is registered in the acquired event list 172. judge.
  • the determination unit 13 confirms whether the event to be suppressed of the generated event is described in the acquired event list 172.
  • the determination unit 13 determines that the elapsed time since the event to be suppressed for the generated event is registered in the acquired event list 172 exceeds the retention time for the generated event. It is determined whether or not. If the elapsed time does not exceed the holding time, the item of suppression target event of the generated event in the acquired event list 172 and the transmitted event list 173 is deleted.
  • FIG. 6 is a diagram illustrating a determination condition of a transmission destination of abnormal event information when an abnormal event occurs in the own device.
  • the suppression target event of the item 501 in the determination condition table 500 represents whether or not the generated event is a suppression target event, that is, whether or not there is an abnormal event that induces the generated event.
  • the upper event in the item 502 indicates whether the generated event is a higher event, that is, whether there is an abnormal event induced by the generated event.
  • An item 503 indicates whether or not an upper event of the occurrence event is registered in the acquired event list 172.
  • An item 504 indicates whether or not the retention time of the higher event has already elapsed since the higher event of the occurrence event is registered in the acquired event list 172.
  • the determination unit 13 determines whether or not to transmit abnormal event information and a transmission destination in the case of transmission according to the determination condition table 500 shown in FIG.
  • the condition described in the determination condition table 500 corresponds to an example of “first predetermined condition”.
  • the determination unit 13 transmits the occurrence event. And it is not registered in the acquisition event list 172. That is, the determination unit 13 suppresses the occurrence event. This is because if the acquired event list 172 includes an upper event of an occurrence event for which the retention time has not elapsed, it is considered that an abnormal event that has caused the occurrence event has occurred. This is because the occurrence event need not be notified if notified.
  • the determination unit 13 sends the occurrence event information to all the SPs in the adjacent SP list 171. Decide to send. This is because, when the holding time has elapsed, it is considered that there is no causal relationship between the upper event registered in the acquired event list 172 and the occurring event. In this case, the determination unit 13 transmits information on the occurrence event to the abnormality information transmission unit 15 and instructs transmission to all SPs in the adjacent SP list 171.
  • the determination unit 13 transmits the information on the generated event to all the SPs in the adjacent SP list 171. decide. This is because if the acquired event list 172 does not have an upper event of the occurrence event, the occurrence event is considered not to be induced by another abnormal event. In this case, the determination unit 13 transmits information on the occurrence event to the abnormality information transmission unit 15 and instructs transmission to all SPs in the adjacent SP list 171.
  • the determination unit 13 determines to transmit the information of the generated event to all the SPs in the adjacent SP list 171. This is because if the generated event is not a suppression target event, there is no higher-level event that triggers the generated event, and it is considered that the generated event is not triggered by anything. In this case, the determination unit 13 transmits information on the occurrence event to the abnormality information transmission unit 15 and instructs transmission to all SPs in the adjacent SP list 171. However, in this case, the occurrence event is not suppressed by other abnormal events and is ultimately notified to the control server 7, so the determination unit 13 notifies the occurrence of the occurrence event to the control server 7. You may decide to do. Even in that case, the determination unit 13 transmits the information on the occurrence event to the abnormality information transmission unit 15 in order to suppress other abnormal events induced by the occurrence event. Instructs transmission to SP.
  • the determination unit 13 determines to notify the control server 7 of the occurrence of the generated event. This is because there is no possibility that an extra event information notification is transmitted to the control server 7 because there is no abnormal event that induces the occurrence event and no abnormal event that induces the occurrence event. In this case, the determination unit 13 transmits information on the occurrence event to the abnormality notification unit 14 and instructs the control server 7 to notify the occurrence of the occurrence event.
  • FIG. 7 is a diagram illustrating an example of the acquired event list. As shown in FIG. 7, the acquired event list 172 registers the acquired abnormal event and the time when the abnormal event is registered in the acquired event list 172.
  • the acquisition of the abnormal event may be an abnormal event received from another SP described below, in addition to the occurrence event described here. Further, FIG. 7 shows a case where one abnormal event is registered in the acquired event list 172, but a plurality of abnormal events may be registered in the acquired event list 172.
  • the determination unit 13 determines to transmit the information on the occurrence event to the adjacent SP, the information on the transmission source SP that has notified the transmitted abnormal event, the information on the transmitted abnormal event, and the transmission are transmitted to the transmitted event list 173.
  • the information of the destination SP is registered.
  • the determination unit 13 registers the SP information of the own device as the transmission source SP.
  • FIG. 8 is a diagram illustrating an example of a transmitted event list. For example, when a power failure occurs in SP10, the determination unit 13 of SP10 registers SP10 as a transmission source SP as shown in list 601, and SP10 that is the SP of the computing device that has occurred as a transmitted event and its abnormal event The power failure and registration time, which are the contents of, are registered.
  • the determination unit 13 registers SP20 to SP40 as transmission destination SPs, and registers response reception flags corresponding to the respective transmission destination SPs in an unreceived state.
  • the description of “not yet” in the response reception flag of the list 601 represents a state of not receiving.
  • the determination unit 13 receives a report response from the SP that has transmitted the information on the occurrence event from the reception unit 12. Then, the determination unit 13 determines whether or not the information on the generated event corresponding to the received notification response is registered in the transmitted event list 173. If the event is not registered in the transmitted event list 173, the determination unit 13 ends the notification process of the event that has occurred to the control server 7.
  • the determination unit 13 receives a response corresponding to the column in the transmitted event list 173 where the transmission source SP is the adjacent SP that has transmitted the notification response. Set the flag to the state where the report response has been received. “Yes” in the response reception flag in the list 601 indicates reception completion. Then, when all the response reception flags in the transmitted event list 173 are received within the predetermined time limit, the determination unit 13 notifies the control server 7 of the occurrence of the abnormal event. 14 is instructed. On the other hand, if all the response reception flags in the transmitted event list 173 are not received within the time limit, the determination unit 13 ends the event notification process to the control server 7.
  • the time limit is preferably set according to the size of the tree representing the logical connection relationship, the allowable time until the abnormal event occurrence notification, and the like. For example, if the allowable time until an abnormal event occurrence notification is 5 minutes and the tree size is not so large and a response can be received within the allowable time, the time limit may be set to 5 minutes.
  • the receiving unit 12 receives an input of an abnormal event from an adjacent SP such as SP20 or SP30.
  • the determination unit 13 receives input of notification event information from other adjacent SPs such as SP20 or SP30 from the reception unit 12.
  • the determination part 13 acquires the abnormal event which has a correlation with a notification event from the level relationship table 174 which the memory
  • the determination unit 13 determines whether or not the event subject to suppression of the notification event is registered in the acquired event list 172. When registered in the acquired event list 172, the determination unit 13 determines whether or not the elapsed time since the notification event suppression target event is registered exceeds the notification event holding time. When the retention time has not elapsed, the determination unit 13 deletes the event to be notified of the notification event from the acquired event list 172 and the transmitted event list 173.
  • the determination unit 13 determines whether or not an upper event of the notification event is registered in the acquired event list 172.
  • the determination unit 13 acquires the registration time of the registered higher event from the acquired event list 172.
  • the determination part 13 calculates the elapsed time from the acquired registration time to the present using the clock which self has.
  • the determination unit 13 acquires the retention time of the higher-order event of the notification event registered in the acquisition event list 172 from the level relationship table 174. Then, the determination unit 13 determines whether or not the calculated elapsed time exceeds the acquired retention time, that is, whether or not the retention time has already elapsed since the upper event of the notification event is registered in the acquisition event list 172. judge.
  • FIG. 9 is a diagram illustrating a determination condition of a transmission destination of abnormal event information when an abnormal event notification is received from another SP.
  • the contents of each item in the determination condition table 700 are the same as the contents of the determination condition table 500 of FIG.
  • the determination unit 13 determines whether or not to transmit abnormal event information and a transmission destination in the case of transmission according to the determination condition table 700 shown in FIG.
  • the condition described in the determination condition table 700 corresponds to an example of “second predetermined condition”.
  • the determination unit 13 transmits the notification event. And it is not registered in the acquisition event list 172. That is, the determination unit 13 suppresses the notification event. This is because, if there is a higher level event of the notification event whose retention time has not elapsed in the acquisition event list 172, it is considered that an abnormal event that has triggered the notification event has occurred. This is because the notification event may not be notified if notified.
  • the determination unit 13 transmits the abnormal event information to the adjacent SP list 171. It is determined whether there is an SP other than (hereinafter referred to as “transmission source SP”). If there is an SP other than the transmission source SP, the determination unit 13 determines to transmit the notification event information to the SP other than the transmission source SP. In this case, the determination unit 13 transmits the notification event information to the abnormality information transmission unit 15 and instructs transmission to an SP other than the transmission source SP in the adjacent SP list 171. If there is no SP other than the transmission source SP, the determination unit 13 determines transmission of a report response to the transmission source SP.
  • transmission source SP an SP other than
  • the determination unit 13 instructs the response unit 16 to transmit the report response to the transmission source SP. This is because, when the holding time has elapsed, it is considered that there is no causal relationship between the upper event registered in the acquired event list 172 and the notification event.
  • the determination unit 13 determines whether there is an SP other than the transmission source SP in the adjacent SP list 171. Determine. If there is an SP other than the transmission source SP, it is determined that the notification event information is transmitted to the SP other than the transmission source SP in the adjacent SP list 171. In this case, the determination unit 13 transmits the notification event information to the abnormality information transmission unit 15 and instructs transmission to an SP other than the transmission source SP in the adjacent SP list 171. If there is no SP other than the transmission source SP, the determination unit 13 determines transmission of a report response to the transmission source SP. In this case, the determination unit 13 instructs the response unit 16 to transmit the report response to the transmission source SP. This is because if there is no higher event of the notification event in the acquisition event list 172, it is considered that the notification event is not triggered by another abnormal event.
  • the determination unit 13 determines whether there is an SP other than the transmission source SP in the adjacent SP list 171. If there is an SP other than the transmission source SP, it is determined that the notification event information is transmitted to the SP other than the transmission source SP in the adjacent SP list 171. In this case, the determination unit 13 transmits the notification event information to the abnormality information transmission unit 15 and instructs transmission to an SP other than the transmission source SP in the adjacent SP list 171. If there is no SP other than the transmission source SP, the determination unit 13 determines transmission of a report response to the transmission source SP. In this case, the determination unit 13 instructs the response unit 16 to transmit the report response to the transmission source SP. This is because if the generated event is not a suppression target event, there is no higher-level event that triggers the generated event, and it is considered that the generated event is not triggered by anything.
  • the SP of the computing device does not notify other SPs of the abnormal event unless the abnormal event is a suppression target event or a higher-level event. Therefore, there is no possibility that the notification event is neither a suppression target event nor a higher-level event.
  • the determination unit 13 when transmitting a notification response to the transmission source SP or transmitting notification event information to an adjacent SP other than the transmission source SP, the determination unit 13 registers the notification event in the acquisition event list 172. Further, the determination unit 13 acquires the time when the notification event information is registered in the acquisition event list 172 from the clock that the self has, and registers the acquired time in the acquisition event list 172.
  • the transmission unit SP 173 has notified the transmitted event list 173 of the transmitted event information and the transmitted notification. Register event information and destination SP information. Further, the determination unit 13 registers a response reception flag corresponding to each transmission destination SP in an unreceived state.
  • the determination unit 13 receives a notification response from the SP that has transmitted the notification event information from the reception unit 12. Then, the determination unit 13 determines whether or not notification event information corresponding to the received notification response is registered in the transmitted event list 173. If not registered in the transmitted event list 173, the determination unit 13 ends the process for the notification event.
  • the determination unit 13 instructs the response unit 16 to notify the transmission source SP of a notification response. To do. On the other hand, if all the response reception flags in the transmitted event list 173 are not received within the time limit, the determination unit 13 ends the process for the notification event.
  • the abnormal information transmission unit 15 receives information on abnormal events that have occurred in the computing device 1 and transmission instructions to all SPs in the adjacent SP list 171 from the determination unit 13. Then, the abnormal information transmitting unit 15 transmits information on the abnormal event to all the SPs in the adjacent SP list 171. For example, in the case of a logical connection relationship as shown in FIG. 3B, the abnormality information transmission unit 15 of the SP 10 transmits abnormality information to the SPs 20 to 40.
  • the abnormality information transmission unit 15 receives from the determination unit 13 the information on the abnormal event received from the adjacent SP and the transmission instruction of the abnormality information to the adjacent SP other than the transmission source SP. Then, the abnormal information transmission unit 15 transmits information on the abnormal event to the adjacent SP other than the transmission source SP. For example, when the abnormal connection information is received from the SP 20 in a logical connection relationship such as the logical connection 202 in FIG. 3B, the abnormal information transmission unit 15 is an adjacent SP other than the SP 20 together with the abnormal event information. An instruction to send information on abnormal events to SP30 and SP40 is received. And the abnormal information transmission part 15 transmits the information of an abnormal event to SP30 and SP40.
  • the response unit 16 receives from the determination unit 13 a notification response notification instruction to the transmission source SP of the abnormal event. And the response part 16 transmits a report response to the transmission source SP of the abnormality information corresponding to the report response.
  • the abnormality notification unit 14 receives an instruction to notify the control server 7 of an abnormal event that has occurred in the computing device 1 from the determination unit 13. Then, the abnormality notification unit 14 notifies the control server 7 of an abnormal event that has occurred in the computing device 1.
  • the control server 7 has a reception unit 71 and a management unit 72.
  • the control server 7 is an example of a “monitoring device”.
  • the receiving unit 71 receives notification of occurrence of an abnormal event from SP10-60. Then, the reception unit 71 transmits the received information on the abnormal event to the management unit 72.
  • the management unit 72 notifies the system administrator of information on the computing device in which the abnormal event has occurred and the content of the abnormal event that has occurred. In addition, the management unit 71 accumulates the received abnormal events as a log.
  • FIG. 10 is a diagram illustrating a logical connection relationship between SPs before occurrence of an abnormal event.
  • FIG. 11 is a diagram illustrating the operation of each SP when an abnormal event occurs.
  • FIG. 12 is a diagram illustrating the operation of each SP after FIG.
  • FIG. 13 is a diagram illustrating the operation of each SP after FIG.
  • FIG. 14 is a diagram illustrating the operation of each SP at the time when the occurrence of an abnormal event is notified to the control server.
  • the logical connection relationship shown in FIG. 10 is a rewrite of the logical connection 202 of FIG. Similar to the logical connection 202, the SP 10 has a logical connection relationship with the SPs 20 to 40. SP30 has a logical connection relationship with SP50 and SP60. In this case, SPs 10 to 60 have adjacent SP lists 301 to 306 shown in FIG. Further, it is assumed that the SPs 10 to 60 have the level relationship table 400 shown in FIG.
  • the SP 10 detects a power failure.
  • the SP 10 has not yet received notification of other abnormal event information.
  • the SP 10 refers to the level relationship table 400 of FIG. 5 and confirms that the power failure is a higher-level event of the link down event and is not a suppression target event of other abnormal events. Therefore, the SP 10 transmits information on the power failure event to the adjacent SPs 20 to 30 described in the adjacent SP list 301 in FIG. 4 as the abnormal event notifications 801 to 803 in FIG. Further, the SP 10 registers the power failure event in the acquired event list 172. Further, the SP 10 registers the information on the power failure event and the information on the transmission destination SP for which the SP 10 is a transmission source in the transmitted event list 173.
  • the SP 60 detects a link down. In this case, the SP 60 has not yet received notification of other abnormal event information. Further, the SP 60 refers to the level relation table 400 in FIG. 5 and confirms that the upper events of the link down event are the power failure event and the water leakage abnormal event, and that there is no link down suppression target event. Therefore, the SP 60 transmits link down event information to the SP 30 that is the adjacent SP described in the adjacent SP list 306 in FIG. 4 as in the abnormal event notification 804 in FIG. Furthermore, the SP 60 registers the link down event in the acquired event list 172. Further, the SP 60 registers the information of the link down event and the information of the transmission destination SP for which the SP 60 is a transmission source in the transmitted event list 173.
  • SP20 and SP40 receive the information on the power failure event from SP10, and confirm that there are no upper event of power failure event and suppression target event in the acquired event list 172. Further, the SPs 20 and 40 confirm that there is no adjacent SP other than the SP 10 that is the transmission source of the power failure event with reference to the adjacent SP list 302 and the adjacent SP list 304 in FIG. Therefore, the SPs 20 and 40 return a report response to the SP 10 that is the source SP of the power failure event, as in the report response 805 and the report response 806 in FIG.
  • the SP 30 receives information on the power failure event from the SP 10. Furthermore, the SP 30 receives information on the link down event from the SP 60. In this case, it is assumed that the SP 30 receives the power failure event information earlier than the link down event information.
  • the SP 30 receives the information on the power failure event, and confirms that the acquired event list 172 has no upper event of power failure event and no suppression target event. Furthermore, the SP 30 refers to the adjacent SP list 303 in FIG. 4 and confirms that there are SP 50 and SP 60 that are adjacent SPs other than the SP 10. Therefore, the SP 30 transmits power failure event information to the SP 50 and SP 60 as in the abnormal event notification 807 and the abnormal event notification 808 of FIG. Furthermore, the SP 30 registers the power failure event in the acquired event list 172. Further, the SP 30 registers the information on the power failure event and the information on the transmission destination SP for which the SP 10 is a transmission source in the transmitted event list 173.
  • the transmitted event list 173 included in the SPs 10 to 60 is like the lists 601 to 606 shown in FIG.
  • the SP 30 receives the information of the link down event, and confirms that the power failure event that is a higher event of the link down event is registered in the acquisition event list 172. Furthermore, the SP 30 acquires the registration time of the power failure event from the acquisition event list 172, and confirms that the elapsed time from the registration time of the power registration event has not passed the holding time. Therefore, the SP 30 determines that the link down event notified from the SP 60 is triggered by the power failure event notified from the SP 10. Then, as indicated by suppression 809, the SP 30 suppresses the link down event notified from the SP 60 without registering the link down event notified from the SP 60 in the acquisition event list 172 and transmitting to the adjacent SP. .
  • SP50 receives the information of the power supply failure event from SP30, and confirms that there are no upper event of power supply failure event and suppression target event in the acquired event list 172. Furthermore, the SP 50 confirms that there is no adjacent SP other than the SP 30 that has transmitted the power failure event with reference to the adjacent SP list 305 in FIG. Therefore, the SP 50 returns a notification response to the SP 30 that is the source SP of the power failure event, as in the notification response 810 of FIG.
  • the link down event notified by SP60 is suppressed by SP30. Therefore, the SP 60 does not receive the notification response 812 from the SP 30 shown in FIG. For this reason, the response reception flag of the link down event in the transmitted event list 173 of SP 60 remains in a state indicating non-reception. That is, the SP 60 does not notify the control server 7 of the occurrence of a link down event.
  • the SP 60 receives the information on the power failure event from the SP 30 and confirms that the link down event that is the suppression target event of the power failure event is registered in the acquired event list 172. Therefore, the SP 60 deletes the item of the link down event from the acquired event list 172 and the transmitted event list 173. Furthermore, the SP 60 confirms that there is no adjacent SP other than the SP 30 that has transmitted the power failure event with reference to the adjacent SP list 306 in FIG. Therefore, the SP 60 returns a notification response to the SP 30 that is the transmission source SP of the power failure event, as in the notification response 811 of FIG.
  • SP30 receives the notification response from both SP50 and SP60, which are transmission destination SPs of the power failure event information. Therefore, all the response reception flags for the power failure event in the transmitted event list 173 of the SP 30 are changed to the received state. Therefore, the SP 30 confirms from the transmitted event list 173 that the source SP of the power failure event is SP10. And SP30 transmits the report response 813 with respect to the power failure event shown in FIG. 14 to SP10. Further, the SP 30 deletes the power failure event from the transmitted event list 173.
  • SP10 receives a report response to the power failure event from SP30.
  • the SP 10 updates the response reception flag corresponding to the transmission destination SP of the power failure event in the transmitted event list 173 to the received state.
  • all the response reception flags for the power failure event in the transmitted event list 173 of the SP 10 are changed to the received state. Therefore, the SP 10 confirms from the transmitted event list 173 that the transmission source SP of the power failure event is its own device. And SP10 notifies generation
  • the SP 60 does not receive a report response to the link down event from the SP 30, and further deletes the item of the link down event from the transmitted event list 173. Therefore, the SP 60 does not notify the control server 7 represented by the notification 815 of the occurrence of the link down event.
  • FIG. 15 is a flowchart of the abnormal event notification process when an abnormal event occurs in the own apparatus.
  • the abnormality detection unit 11 detects an abnormal event that has occurred in the computing device 1 (step S101). Then, the abnormality detection unit 11 outputs information on the abnormal event that has occurred to the determination unit 13.
  • the determination unit 13 receives an input of abnormal event information from the abnormality detection unit 11. And the determination part 13 extracts the correlation event of the notified abnormal event from the level relationship table 174 (step S102).
  • the determination unit 13 determines from the level relationship table 174 whether the abnormal event that has occurred is a suppression target event (step S103). In the case of the suppression target event (step S103: affirmative), the determination unit 13 determines whether or not the upper event of the abnormal event that has occurred is in the acquired event list 172 (step S104).
  • step S104 If it is in the acquired event list 172 (step S104: affirmative), the determination unit 13 determines whether or not the retention time has elapsed since the upper event of the abnormal event that occurred is registered in the acquired event list 172 (step S105). ). If the holding time has not elapsed (No at Step S105), the determination unit 13 terminates the abnormal event notification process without transmitting the information of the generated abnormal event to the adjacent SP or notifying the control server. To do.
  • step S105 affirmative
  • step S104 negative
  • step S106 the determination unit 13 generates the abnormality that has occurred.
  • the event is registered in the acquired event list 172 (step S106).
  • the determination unit 13 instructs the abnormal information transmission unit 15 to transmit information on the abnormal event that has occurred to all the SPs registered in the adjacent SP list 171.
  • the abnormal information transmitting unit 15 transmits information on the abnormal event that has occurred to all the SPs registered in the adjacent SP list 171 (step S107).
  • the determination unit 13 registers the information on the abnormal event that has occurred, the transmission source SP, and the transmission destination SP in the transmitted event list 173, and sets all response reception flags to the unreceived state (step S108).
  • the transmission source SP is the SP of the own device.
  • the determination unit 13 determines whether or not the abnormal event that has occurred is a higher-order event from the level relation table 174 (Step S109). When the abnormal event that has occurred is a higher-level event (step S109: affirmative), the determination unit 13 proceeds to step S106.
  • the determination unit 13 instructs the abnormality notification unit 14 to notify the control server 7 of the occurrence of the abnormal event.
  • the abnormality notification unit 14 notifies the control server 7 of the occurrence of an abnormal event (step S110).
  • FIG. 16 is a flowchart of abnormal event notification processing when an abnormal event notification is received from an adjacent SP.
  • the receiving unit 12 receives information on the abnormal event from the adjacent SP (step S201).
  • the receiving unit 12 transmits the notified abnormal event information to the determining unit 13.
  • the determination unit 13 receives an input of abnormal event information from the abnormality detection unit 11. Then, the determination unit 13 extracts the correlation event of the notified abnormal event from the level relationship table 174 (step S202).
  • the determination unit 13 determines whether there is an abnormal event suppression target event notified to the acquired event list 172 (step S203). When there is no suppression target event (No at Step S203), the determination unit 13 proceeds to Step S206.
  • step S203 determines whether the retention time of the abnormal event notified since the suppression target event is registered in the acquired event list 172 has elapsed. Is determined (step S204).
  • step S204 determines whether the notified abnormal event holding time has elapsed.
  • the determination unit 13 selects an item corresponding to the event to be suppressed of the notified abnormal event as the acquired event list 172. And deleted from the transmitted event list 173 (step S205).
  • the determination part 13 determines whether the high-order event of the notified abnormal event exists in the acquisition event list
  • step S206 determines whether or not the retention time has elapsed since the upper event of the notified abnormal event is registered in the acquired event list 172. Determination is made (step S207). If the retention time has not elapsed (No at Step S207), the determination unit 13 terminates the abnormal event notification process without transmitting the notified abnormal event information to the adjacent SP or performing a report response.
  • step S207 affirmative
  • the determination unit 13 registers the notified abnormal event in the acquired event list 172 (step S208).
  • the determination unit 13 uses the adjacent SP list 171 to determine whether there is an adjacent SP other than the source SP of the notified abnormal event (step S209).
  • the determination unit 13 transmits information on the abnormal event to the adjacent SP other than the transmission source SP (step S210). Thereafter, the determination unit 13 registers the notified abnormal event information, the transmission source SP, and the transmission destination SP in the transmitted event list 173, and sets all response reception flags to an unreceived state (step S211). .
  • the determination unit 13 instructs the response unit 16 to transmit the report response to the transmission source SP.
  • the response unit 16 returns a report response to the transmission source SP (step S212).
  • FIG. 17 is a flowchart of response processing when a report response is received.
  • the receiving unit 12 receives a report response from the adjacent SP (step S301).
  • the reception unit 12 transmits the received notification response to the determination unit 13.
  • the determination unit 13 receives a report response from the reception unit 12. Then, the determination unit 13 determines whether or not the item of the abnormal event corresponding to the notification response is in the transmitted event list 173 (step S302). When it is not in the transmitted event list 173 (No at Step S302), the determination unit 13 ends the response process based on the received notification response.
  • step S302 when there is an item of an abnormal event corresponding to the notification response in the transmitted event list 173 (step S302: affirmative), a response reception flag indicating that the notification response has been received is displayed in the transmitted event list 173. It sets to the item corresponding to adjacent SP which transmitted the report response (step S303).
  • the determination unit 13 determines whether or not the response reception flags corresponding to all transmission destination SPs have been transmitted (step S304). When the response reception flags corresponding to all the transmission destination SPs have not been transmitted (No at Step S304), the determination unit 13 ends the response process based on the received notification response.
  • step S304 when the response reception flags corresponding to all the transmission destination SPs have been transmitted (step S304: Yes), the determination unit 13 determines whether or not the transmission source SP described in the transmitted event list 173 is the own device. Is determined (step S305).
  • the determination unit 13 instructs the abnormality notification unit 14 to notify the control server 7 of the occurrence of the abnormal event. Then, the abnormality notification unit 14 notifies the control server 7 that an abnormal event has occurred (step S306).
  • step S305 when the transmission source SP is not its own device (step S305: No), the determination unit 13 instructs the response unit 16 to transmit the notification response to the transmission source SP.
  • the response unit 16 returns a report response to the transmission source SP (step S307).
  • the determination unit 13 deletes the item of the abnormal event corresponding to the received notification response from the transmitted event list (step S308).
  • the information processing apparatus and the information processing system determine whether or not an abnormal event that triggers an abnormal event has occurred, and generate an abnormal event. If there is, only the abnormal event to be triggered is notified to the control server.
  • the abnormal event that is induced is considered to be less severe than the abnormal event that triggers the abnormal event. Therefore, it is possible to suppress notification of the occurrence of another abnormal event induced by the occurrence of a certain abnormal event to the control server, and it is possible to notify only the severe abnormal event to the control server. Thereby, the load of the control server that receives the notification of the abnormal event can be reduced.
  • the lost packet in the control server can be reduced, and a severe abnormal event is reliably notified to the control server.
  • the administrator can grasp
  • the local concentration of communication and the load on the control server can be reduced, the cost for the communication equipment and the control server can be reduced.
  • the determination processing can be distributed and local concentration of the load can be avoided.
  • Each information processing apparatus only needs to exchange information with logically adjacent information processing apparatuses, and each information processing apparatus does not have to manage the entire system configuration by each information processing apparatus. Data volume and processing load can be reduced.
  • FIG. 18 is a hardware configuration diagram of the computing device according to the embodiment.
  • the calculation apparatus 1 will be described as an example, but the other calculation apparatuses 2 to 6 have the same configuration.
  • the computing device 1 includes a CPU (Central Processing Unit) 901, a memory 902, a hard disk 903, and an interconnect communication interface 904.
  • CPU Central Processing Unit
  • memory 902 a hard disk 903
  • the computing device 1 performs various calculations using the CPU 901, the memory 902, and the hard disk 903.
  • the interconnect communication interface 904 is connected to the interconnect communication interface 904 of another computing device via the interconnect 8, and transmits / receives data used in calculation processing.
  • the SP 10 includes a CPU 911, a memory 912, and a control communication interface 913.
  • the control communication interface 913 is connected to the control communication interface 913 of another SP via the control network 9, and performs transmission / reception of information on abnormal events, transmission / reception of notification responses, and the like.
  • the CPU 911 and the memory 912 implement functions such as the abnormality detection unit 11, the reception unit 12, the determination unit 13, the abnormality notification unit 14, the abnormality information transmission unit 15, the response unit 16, and the storage unit 17 illustrated in FIG.
  • the memory 912 includes a program that realizes processing by the abnormality detection unit 11, the reception unit 12, the determination unit 13, the abnormality notification unit 14, the abnormality information transmission unit 15, the response unit 16, and the like illustrated in FIG. Various programs are stored.
  • the CPU 911 implements functions such as the abnormality detection unit 11, the reception unit 12, the determination unit 13, the abnormality notification unit 14, and the abnormality information transmission unit 15 by reading and executing various programs stored in the memory 912.
  • the memory 912 also realizes the function of the storage unit 17.
  • the memory 912 stores an adjacent SP list 171, an acquired event list 172, a transmitted event list 173, a level relationship table 174, and the like.
  • various programs for realizing the functions of the respective units in FIG. 1 are stored in the memory 912, but this may be stored in the hard disk 903. Further, the function of the storage unit 17 may be realized by the hard disk 903.
  • Control server 8 Interconnect 9 Control network 10 to 60 Service processor (SP) DESCRIPTION OF SYMBOLS 11 Abnormality detection part 12 Reception part 13 Judgment part 14 Abnormality notification part 15 Abnormality information transmission part 16 Response part 17 Storage part 171 Neighboring SP list 172 Acquisition event list 173 Transmitted event list 174 Level relation table

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 異常検出部(11)は、自装置における異常事象の発生を検出する。異常情報送信部(15)は、異常検出部(11)により異常事象が検出された場合に、第1所定条件に基づいて、予め決められた複数の情報処理装置の論理的な接続関係において自装置に隣接する隣接情報処理装置に異常事象に関する異常情報を送信する。異常通知部(14)は、異常情報の送信に対する隣接情報処理装置からの応答結果に基づいて、異常事象の発生を外部の装置へ通知する。

Description

情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
 本発明は、情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラムに関する。
 次世代スーパーコンピュータなどのHigh Performance Computing(HPC)システムのような高機能のシステムでは、多数の計算装置をインターコネクトにより相互接続した構成をとるものがある。このようなシステムでは、例えば、以下のような方法により故障事象の通知を行う。各計算装置の故障監視は、それぞれの計算装置に備わっているサービスプロセッサが行う。各計算装置のサービスプロセッサとシステム全体の監視装置である制御サーバとは管理ネットワークと呼ばれる通信経路で接続されている。サービスプロセッサは、検出した故障などの異常事象の通知を制御サーバに送信することで、制御サーバに異常事象の通知を集約する。これにより、制御サーバが、HPCシステムにおける異常事象を一元的に管理する。
 故障監視の技術として、1つの障害に起因して発生した複数のノードにおけるエラーのログを、1つのログとして統合的に管理する従来技術がある(例えば、特許文献1参照)。また、端末装置で障害が発生した場合に、発生障害のレベルに応じて監視装置への障害の通知を行うか否かを決定する従来技術がある(例えば、特許文献2参照)。さらに、障害の内容とその障害が発生したジョブの情報から障害を通知するか否かを決定する従来技術がある(例えば、特許文献3参照)。
特開2009-252006号公報 特開2009-134395号公報 特開2001-125808号公報 特許第3097058号公報 特開2000-353154号公報
 しかしながら、多数の計算装置を相互接続しているシステムでは、1台の計算装置が故障により停止手続きを踏まずに突然停止してしまった場合、停止した計算装置に接続されている計算装置が接続異常を検出してしまう。そのため、システム全体の異常を集約監視している監視装置には、実際の故障だけでなく、その故障により誘発された接続異常も同時に通知されてしまう。このように、多数の異常事象が同時に通知された場合、監視装置の通信処理負荷が高くなり、監視装置の処理遅延が発生する場合がある。これにより、監視装置は、通信プロトコル上のパケットをロストするおそれがある。また、パケットのロストを軽減するため送達確認のあるプロトコルを用いた場合、輻輳発生による更なる監視装置の処理遅延の発生が考えられる。その結果として、例えば、別の故障が続いて発生した場合、監視装置は、その故障による異常事象の通知の受信に失敗するおそれがある。これにより、保守対象の特定が遅れてしまう場合がある。
 1つの障害に起因して発生したエラーのログを1つのログとして管理する従来技術の場合、全ての異常事象の通知を一箇所に集約してから異常事象を絞込むため、多数の異常事象が同時に通知されてしまい、異常事象の通知のロストを回避することは困難である。また、発生障害のレベルに応じて監視装置への障害の通知を決定する従来技術では、単一装置内での障害には対応できるが、複数装置での異常事象の同時検出の場合の異常事象の通知のロストを回避することは困難である。これは、障害及びジョブの内容から障害の通知を決定する従来技術でも同様である。
 開示の技術は、上記に鑑みてなされたものであって、複数の計算装置からの故障報告漏れを軽減する情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラムを提供することを目的とする。
 本願の開示する情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラムは、一つの態様において、異常検出部は、自装置における異常事象の発生を検出する。異常情報送信部は、前記異常検出部により異常事象が検出された場合に、第1所定条件に基づいて、予め決められた複数の情報処理装置の論理的な接続関係において自装置に隣接する隣接情報処理装置に前記異常事象に関する異常情報を送信する。異常通知部は、前記異常情報の送信に対する前記隣接情報処理装置からの応答結果に基づいて、前記異常事象の発生を外部の装置へ通知する。
 本願の開示する情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラムの一つの態様によれば、複数の計算装置からの故障報告漏れを軽減することができるという効果を奏する。
図1は、実施例に係るHPCシステムの全体構成を示す図である。 図2は、サービスプロセッサのブロック図である。 図3Aは、物理的な接続関係を表す図である。 図3Bは、論理的な接続関係を表す図である。 図4は、隣接SPリストの一例を示す図である。 図5は、レベル関係テーブルの一例を示す図である。 図6は、自装置において異常事象が発生した場合の異常事象の情報の送信先の判定条件を示す図である。 図7は、取得事象リストの一例を示す図である。 図8は、送信済み事象リストの一例を示す図である。 図9は、他SPから異常事象の通知を受けた場合の異常事象の情報の送信先の判定条件を示す図である。 図10は、異常事象発生前のSP間の論理的な接続関係を表す図である。 図11は、異常事象発生時の各SPの動作を表す図である。 図12は、図11の後の各SPの動作を表す図である。 図13は、図12の後の各SPの動作を表す図である。 図14は、異常事象の発生を制御サーバに通知する時点での各SPの動作を表す図である。 図15は、自装置での異常事象発生時における異常事象の通知処理のフローチャートである。 図16は、隣接SPから異常事象の通知を受けた場合の異常事象の通知処理のフローチャートである。 図17は、通報応答を受信した場合の応答処理のフローチャートである。 図18は、実施例に係る計算装置のハードウェア構成図である。
 以下に、本願の開示する情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラムが限定されるものではない。特に、以下では、情報処理システムとしてHPCシステムを例に説明するが、これに限らず、複数の情報処理装置が接続されているシステムであればよい。また、情報処理装置としてHPCシステムに含まれる計算装置を例に説明するが、情報処理装置であれば特にこれに限らない。
 図1は、実施例に係るHPCシステムの全体構成を示す図である。図1に示すように、本実施例に係るHPCシステムは、計算装置1~6及び制御サーバ7を備えている。ここで、図1では、6台の計算装置1~6で計算装置を例示しているが、複数であれば計算装置の台数に特に制限は無い。
 そして、計算装置1~6はそれぞれインターコネクト8で接続されている。計算装置1~6は、インターコネクト8を介してデータの送受信を行うことができる。ここで、図1では、インターコネクト8は、隣の計算装置と接続されているように表されているが、インターコネクト8は、隣の計算装置以外の計算装置に接続されていてもよい。さらに、インターコネクト8は、全ての計算装置を相互接続してもよいし、それ以外の接続形態でもよい。
 さらに、計算装置1~6は、それぞれサービスプロセッサ(SP:Service Processor)10~60を有している。以下では、サービスプロセッサ10~60を、SP10~60と表す。
 SP10~60及び制御サーバ7は、制御用ネットワーク9で接続されている。例えば、SP10~60から出力される異常事象の情報及び異常事象の発生の通知は、制御用ネットワーク9を用いて送信される。すなわち、インターコネクト8での通信ができなくなった計算装置同士であっても、制御用ネットワーク9を介して異常事象の情報を送受信することができる。
 次に、図2を参照して、SP10~60の詳細な構成について説明する。図2は、サービスプロセッサのブロック図である。ここで、本実施例では、SP10~60は、いずれも同様の機能を有するので、SP10を例に説明する。SP20~60も以下の説明と同様の機能を有する。さらに図2では、説明の便宜上、計算装置1~3を用いて接続を表している。図2では、SP10が、SP20及びSP30と接続されている状態を例として表している。
 図2に示すように、本実施例に係るSP10は、異常検出部11、受信部12、判定部13、異常通知部14、異常情報送信部15、応答部16及び記憶部17を有している。
 記憶部17は、メモリなどの記憶装置である。そして、記憶部17は、隣接SPリスト171、取得事象リスト172、送信済み事象リスト173及びレベル関係テーブル174を有している。ただし、取得事象リスト172及び送信済み事象リスト173は、通常時にはフォーマットのみを有しており、システムで異常が発生した場合に、後述するように、判定部13によって内容の登録が行われる。取得事象リスト172及び送信済み事象リスト173については、後で詳細に説明する。
 隣接SPリスト171について説明する。本実施例に係るHPCシステムでは、SP10~40の論理的な接続関係が予め決められている。図3Aは、物理的な接続関係を表す図である。また、図3Bは、論理的な接続関係を表す図である。図3A及び図3Bはいずれも、SP10~60という6個のSPがある場合である。図3Aにおける物理接続201は、SP10~60の物理的な接続関係を表している。また、図3Bにおける論理接続202は、予め決められたSP10~60の論理的な接続関係を表している。論理的な接続関係は、ループを有さない及び同じSP同士間に複数の接続を有さない(重なりがない)という条件の下に生成されたツリー型の接続関係である。さらに、論理的な接続関係では、1つのSPに接続が集中すると、ツリーは短くなるが、後述する異常事象の送信及びその応答により、接続が集中する計算装置の負荷が高くなってしまう。また、論理的な接続関係で1列に繋がるSPの数を増やすと、ツリーが長くなり、後述する異常事象の送信に対する応答が遅くなってしまう。そこで、論理的な接続関係は、計算装置の負荷及び応答速度などを考慮して運用の条件に適した接続関係が設定されることが好ましい。
 図3Aでは、物理接続201で示すように、SP10~60は物理的な接続として、それぞれ相互接続されている。これに対して、図3Bの論理接続202では、SP10はSP20~40と接続されている。そして、SP30がSP50及びSP60と接続されている。
 そして、論理的な接続関係においてあるSPに直接接続されている、すなわち間に他のSPを介さずに接続されているSPを、あるSPに隣接しているSPという。ここでは、あるSPに隣接しているSPを、あるSPの隣接SPという。例えば、論理接続202では、SP10の隣接SPは、SP20~SP40である。また、SP20の隣接SPは、SP10のみである。さらに、SP30の隣接SPは、SP10、SP50及びSP60である。
 そして、隣接SPリスト171には、論理的な接続関係における隣接SPが登録されている。図4は、隣接SPリストの一例を示す図である。隣接SPリスト301は、図3Bの論理接続202を論理的な接続関係とした場合のSP10の隣接SPリストである。同様に、隣接SPリスト302~306は、それぞれSP20~60の隣接SPリストである。すなわち、図3Bの論理接続202を論理的な接続関係とした場合、記憶部17は、隣接SPリスト171として、図4の隣接SPリスト301を記憶している。このように、各SPが隣接SPを記憶しておくことで、システム全体で、論理的な接続関係の全体を記憶する。
 次に、レベル関係テーブル174について説明する。レベル関係テーブル174は、各異常事象の相関関係、言い換えれば因果関係が記載されたテーブルである。具体的には、レベル関係テーブル174は、発生する異常事象毎に、各異常事象が誘発する異常事象である抑止対象事象及びその異常事象を誘発する異常事象である上位事象が記載されている。抑止対象事象は、対応する異常事象が発生したために誘発された異常事象であり、上位事象が通報された場合には通報が不要な異常事象とも言える。さらに、レベル関係テーブル174は、上位事象による抑止対象事象の抑止の有効期間である保持期間を異常事象毎に有している。言い換えれば、保持期間は、上位事象とその上位事象の抑止対象事象が発生した場合には、その抑止対象事象はその上位事象によって誘発されたものと考えられる期間である。
 図5は、レベル関係テーブルの一例を示す図である。レベル関係テーブル400は、レベル関係テーブル174の一例である。レベル関係テーブル400には、異常事象に対応させて上位事象、抑止対象事象及び保持時間が登録されている。例えば、「リンクダウン事象」に対する上位事象は、「電源故障事象」及び「漏水異常事象」である。すなわち、「電源故障事象」又は「漏水異常事象」が発生すると、「リンクダウン事象」が誘発されるという相関関係がある。また、「リンクダウン事象」には、抑止対象事象はない。すなわち、「リンクダウン事象」が発生しても、それによって誘発される異常事象はない。また、例えば、「電源故障事象」及び「漏水異常事象」は、保持期間が5分である。すなわち、あるSPにおいて、「電源故障事象」の発生が認識されてから5分の間に「リンクダウン事象」の発生が認識された場合、リンクダウン事象は抑止される。異常事象の抑止については後で詳細に説明する。
 記憶部17は、レベル関係テーブル174として、図5に示すようなレベル関係テーブルを記憶している。SP20~60も同じレベル関係テーブルを記憶している。
 異常検出部11は、計算装置1で異常事象の発生を検出する。異常事象とは、異常と判定できるものであればどのようなものを対象にしてもよく、例えば、電源故障やリンクエラーといったエラーなどである。そして、異常検出部11は、発生した異常事象に関する情報を判定部13へ送信する。異常事象に関する情報とは、予め決められた識別子などである。ここで、異常事象に関する情報とは、異常事象が何であるかが把握できるものであれば他のものでもよい。本実施例では、異常検出部11は、異常事象に関する情報として異常事象の名前を判定部13へ送信する。
 受信部12は、SP20及びSP30などの隣接SPから異常事象の情報の入力を受ける。受信部12は、受信した異常事象の情報を判定部13へ送信する。また受信部12は、隣接SPへの異常事象の情報の送信に対する通報を促す応答(以下では、「通報応答」という。)をSP20及びSP30などの隣接SPから受信する。そして、受信部12は、受信した通報応答を判定部13へ送信する。
 次に、判定部13について説明する。判定部13は、時計を有している。以下では、異常検出部11により計算装置1で異常事象の発生が検出された場合と受信部12がSP20又はSP30から異常事象の入力を受けた場合に分けて説明する。以下では、計算装置1で発生した異常事象を「発生事象」という。また、SP20又はSP30から受信した異常事象を「通知事象」という。
 異常検出部11により異常事象が検出された場合について説明する。判定部13は、発生事象の情報の入力を異常検出部11から受ける。
 次に、判定部13は、発生事象と相関関係を有する異常事象を記憶部17が記憶するレベル関係テーブル174から取得する。そして、判定部13は、発生事象が上位事象を有するか及び抑止対象事象を有するかを判定する。発生事象の上位事象がある場合、すなわち、発生事象が抑止対象事象となっている場合、判定部13は、発生事象の上位事象が取得事象リスト172に登録されているか否かを判定する。発生事象の上位事象が取得事象リスト172に登録されている場合、判定部13は、その登録されている上位事象の登録時刻を取得事象リスト172から取得する。そして、判定部13は、取得した登録時刻から現在までの経過時間を自己が有する時計を用いて算出する。さらに、判定部13は、取得事象リスト172に登録されている発生事象の上位事象の保持時間をレベル関係テーブル174から取得する。そして、判定部13は、算出した経過時間が取得した保持時間を超えているか否か、すなわち発生事象の上位事象を取得事象リスト172に登録してから保持時間が既に経過しているか否かを判定する。
 判定部13は、発生事象の抑止対象事象が取得事象リスト172に記載されているか否かを確認する。発生事象の抑止対象事象が取得事象リスト172に記載されている場合、判定部13は、発生事象の抑止対象事象が取得事象リスト172に登録されてからの経過時間が発生事象の保持時間を超えているか否かを判定する。経過時間が保持時間を超えていない場合、取得事象リスト172及び送信済み事象リスト173における発生事象の抑止対象事象の項目を削除する。
 また、判定部13は、以上で取得した各情報を用いて、発生事象の情報を送信するか否か及び送信する場合の送信先を決定する。図6は、自装置において異常事象が発生した場合の異常事象の情報の送信先の判定条件を示す図である。判定条件テーブル500における項目501の、抑止対象事象とは、発生事象が抑止対象事象であるか否か、すなわち、発生事象を誘発する異常事象があるか否かを表している。また、項目502の上位事象とは、発生事象が上位事象であるか、すなわち、発生事象によって誘発される異常事象があるか否かを表している。また、項目503は、発生事象の上位事象が取得事象リスト172に登録されているか否かを表している。そして、項目504は、取得事象リスト172に発生事象の上位事象が登録されてから、その上位事象の保持時間が既に経過しているか否かを表している。
 判定部13は、図6に示す判定条件テーブル500にしたがって、異常事象の情報を送信するか否か及び送信する場合の送信先を決定する。この判定条件テーブル500に記載されている条件が、「第1所定条件」の一例にあたる。
 具体的には、発生事象が抑止対象事象であり、取得事象リスト172に発生事象の上位事象があり、且つその上位事象の保持時間が経過していなければ、判定部13は、発生事象を送信せず、且つ取得事象リスト172にも登録しない。すなわち、判定部13は、発生事象を抑止する。これは、取得事象リスト172に保持時間が経過していない発生事象の上位事象がある場合、発生事象を誘発した異常事象が発生していると考えられるので、誘発した異常事象が制御サーバ7に通知されれば、発生事象は通知されなくてもよいからである。これに対して、取得事象リスト172に登録されている発生事象の上位事象の保持時間が経過してしまっている場合、判定部13は、隣接SPリスト171の全てのSPへ発生事象の情報を送信すると決定する。これは、保持時間が経過してしまっている場合、取得事象リスト172に登録されている上位事象と発生事象との間に因果関係がないと考えられるからである。この場合、判定部13は、異常情報送信部15に対して、発生事象の情報を送信するとともに、隣接SPリスト171の全てのSPへの送信を指示する。
 また、発生事象が抑止対象事象であり、且つ取得事象リスト172に発生事象の上位事象が登録されていない場合、判定部13は、隣接SPリスト171の全てのSPへ発生事象の情報を送信すると決定する。これは、取得事象リスト172に発生事象の上位事象がなければ発生事象は他の異常事象によって誘発されたものではないと考えられるからである。この場合、判定部13は、異常情報送信部15に対して、発生事象の情報を送信するとともに、隣接SPリスト171の全てのSPへの送信を指示する。
 また、発生事象が抑止対象事象でなく、且つ上位事象の場合、判定部13は、隣接SPリスト171の全てのSPへ発生事象の情報を送信すると決定する。これは、発生事象が抑止対象事象でなければ、発生事象を誘発する上位事象は無いので、何かによって誘発されることがないと考えられるからである。この場合、判定部13は、異常情報送信部15に対して、発生事象の情報を送信するとともに、隣接SPリスト171の全てのSPへの送信を指示する。ただし、この場合発生事象は他の異常事象によって抑止されることは無く、最終的には制御サーバ7へ通知されるものであるので、判定部13は、発生事象の発生を制御サーバ7へ通知することを決定してもよい。その場合も、判定部13は、当該発生事象により誘発される他の異常事象を抑止するため、異常情報送信部15に対して、発生事象の情報を送信するとともに、隣接SPリスト171の全てのSPへの送信を指示する。
 また、発生事象が抑止対象事象でも上位事象でもない場合、判定部13は、発生事象の発生を制御サーバ7へ通知すると決定する。これは、発生事象が誘発する異常事象も発生事象を誘発する異常事象もないため、余分な異常情報の通知が制御サーバ7に送信される恐れが無いからである。この場合、判定部13は、異常通知部14に対して、発生事象の情報を送信するとともに、発生事象の発生の制御サーバ7への通知を指示する。
 そして、判定部13は、隣接SPに発生事象の情報を送信すると決定した場合、発生事象の情報を取得事象リスト172に登録する。さらに、判定部13は、発生事象の情報を取得事象リスト172に登録した時刻を自己が有する時計から取得し、取得した時刻を取得事象リスト172に登録する。図7は、取得事象リストの一例を示す図である。図7に示すように、取得事象リスト172には、取得した異常事象とその異常事象を取得事象リスト172に登録した時刻が登録されている。異常事象の取得は、ここで説明した発生事象の取得の他、次に説明する他のSPから受信した異常事象の場合もある。また、図7では、取得事象リスト172に1つの異常事象が登録されている場合を表しているが、取得事象リスト172には、複数の異常事象が登録される場合もある。
 さらに、判定部13は、隣接SPに発生事象の情報を送信すると決定した場合、送信済み事象リスト173に、送信した異常事象を通知してきた送信元SPの情報、送信した異常事象の情報及び送信先SPの情報を登録する。ここで、自装置で異常事象が発生した場合は、判定部13は、送信元SPとして自装置のSPの情報を登録する。図8は、送信済み事象リストの一例を示す図である。例えば、SP10で電源故障が発生した場合、SP10の判定部13は、リスト601のように、送信元SPとしてSP10を登録し、送信済み事象として発生した計算装置のSPであるSP10とその異常事象の内容である電源故障及び登録時刻を登録する。さらに、判定部13は、送信先SPとしてSP20~40を登録し、各送信先SPに対応する応答受信フラグを未受信の状態に登録する。リスト601の応答受信フラグにおける「未」の記載が、未受信の状態を表している。
 その後、判定部13は、発生事象の情報を送信したSPからの通報応答を受信部12から受信する。そして、判定部13は、受信した通報応答に対応する発生事象の情報が送信済み事象リスト173に登録されているか否かを判定する。送信済み事象リスト173に登録されていない場合、判定部13は、制御サーバ7への発生事象の通知処理を終了する。
 これに対して、送信済み事象リスト173に登録されている場合、判定部13は、送信済み事象リスト173における送信元SPが通報応答を送信してきた隣接SPとなっている欄に対応する応答受信フラグを、通報応答の受信済みの状態にする。リスト601の応答受信フラグにおける「有」の記載が、受信済みを表している。そして、判定部13は、予め決められた制限時間内に、送信済み事象リスト173の全ての応答受信フラグが受信済みの状態になると、制御サーバ7への異常事象の発生の通知を異常通知部14へ指示する。これに対して、制限時間内に送信済み事象リスト173の全ての応答受信フラグが受信済みの状態にならなければ、判定部13は、制御サーバ7への発生事象の通知処理を終了する。ここで、制限時間は、論理的な接続関係を表すツリーのサイズや異常事象発生通知までの許容時間などに応じて設定されることが好ましい。例えば、異常事象発生通知までの許容時間が5分であり、ツリーのサイズがそれほど大きくなく許容時間内に応答を受信できるのであれば、制限時間を5分と設定することが考えられる。
 次に、受信部12がSP20又はSP30などの隣接SPから異常事象の入力を受けた場合について説明する。判定部13は、SP20又はSP30などの他の隣接SPから通知事象の情報の入力を受信部12から受ける。
 そして、判定部13は、通知事象と相関関係を有する異常事象を記憶部17が記憶するレベル関係テーブル174から取得する。さらに、判定部13は、通知事象が上位事象を有するか及び抑止対象事象を有するかを判定する。
 次に、判定部13は、通知事象の抑止対象事象が取得事象リスト172に登録されているか否かを判定する。取得事象リスト172に登録されている場合、判定部13は、通知事象の抑止対象事象が登録されてからの経過時間が通知事象の保持時間を超えているか否かを判定する。保持時間を経過していない場合、判定部13は、通知事象の抑止対象事象を取得事象リスト172及び送信済み事象リスト173から削除する。
 次に、判定部13は、通知事象の上位事象が取得事象リスト172に登録されているか否かを判定する。通知事象の上位事象が取得事象リスト172に登録されている場合、判定部13は、その登録されている上位事象の登録時刻を取得事象リスト172から取得する。そして、判定部13は、取得した登録時刻から現在までの経過時間を自己が有する時計を用いて算出する。さらに、判定部13は、取得事象リスト172に登録されている通知事象の上位事象の保持時間をレベル関係テーブル174から取得する。そして、判定部13は、算出した経過時間が取得した保持時間を超えているか否か、すなわち通知事象の上位事象を取得事象リスト172に登録してから保持時間が既に経過しているか否かを判定する。
 判定部13は、以上で取得した各情報を用いて、通知事象の情報を送信するか応答を返すか何もしないかを決定する。図9は、他SPから異常事象の通知を受けた場合の異常事象の情報の送信先の判定条件を示す図である。判定条件テーブル700における各項目の内容は、図6の判定条件テーブル500の内容と同様である。
 判定部13は、図9に示す判定条件テーブル700にしたがって、異常事象の情報を送信するか否か及び送信する場合の送信先を決定する。この判定条件テーブル700に記載されている条件が、「第2所定条件」の一例にあたる。
 具体的には、通知事象が抑止対象事象であり、取得事象リスト172に通知事象の上位事象があり、且つその通知事象の保持時間が経過していなければ、判定部13は、通知事象を送信せず、且つ取得事象リスト172にも登録しない。すなわち、判定部13は、通知事象を抑止する。これは、取得事象リスト172に保持時間が経過していない通知事象の上位事象がある場合、通知事象を誘発した異常事象が発生していると考えられるので、誘発した異常事象が制御サーバ7に通知されれば、通知事象は通知されなくてもよいからである。これに対して、取得事象リスト172に登録されている発生事象の上位事象の保持時間が経過してしまっている場合、判定部13は、隣接SPリスト171に異常事象の情報を送信してきたSP(以下では、「送信元SP」という。)以外のSPがあるか否かを判定する。送信元SP以外のSPがあれば、判定部13は、送信元SP以外のSPへ通知事象の情報を送信すると決定する。この場合、判定部13は、異常情報送信部15に対して、通知事象の情報を送信するとともに、隣接SPリスト171の送信元SP以外のSPへの送信を指示する。また、送信元SP以外のSPが無ければ、判定部13は、送信元SPへの通報応答の送信を決定する。この場合、判定部13は、通報応答の送信元SPへの送信を応答部16に指示する。これは、保持時間が経過してしまっている場合、取得事象リスト172に登録されている上位事象と通知事象との間に因果関係がないと考えられるからである。
 また、通知事象が抑止対象事象であり、且つ取得事象リスト172に発生事象の上位事象が登録されていない場合、判定部13は、隣接SPリスト171に送信元SP以外のSPがあるか否かを判定する。送信元SP以外のSPがあれば、隣接SPリスト171の送信元SP以外のSPへ通知事象の情報を送信すると決定する。この場合、判定部13は、異常情報送信部15に対して、通知事象の情報を送信するとともに、隣接SPリスト171の送信元SP以外のSPへの送信を指示する。また、送信元SP以外のSPが無ければ、判定部13は、送信元SPへの通報応答の送信を決定する。この場合、判定部13は、通報応答の送信元SPへの送信を応答部16に指示する。これは、取得事象リスト172に通知事象の上位事象がなければ通知事象は他の異常事象によって誘発されたものではないと考えられるからである。
 また、発生事象が抑止対象事象でなく、且つ上位事象の場合、判定部13は、隣接SPリスト171に送信元SP以外のSPがあるか否かを判定する。送信元SP以外のSPがあれば、隣接SPリスト171の送信元SP以外のSPへ通知事象の情報を送信すると決定する。この場合、判定部13は、異常情報送信部15に対して、通知事象の情報を送信するとともに、隣接SPリスト171の送信元SP以外のSPへの送信を指示する。また、送信元SP以外のSPが無ければ、判定部13は、送信元SPへの通報応答の送信を決定する。この場合、判定部13は、通報応答の送信元SPへの送信を応答部16に指示する。これは、発生事象が抑止対象事象でなければ、発生事象を誘発する上位事象は無いので、何かによって誘発されることがないと考えられるからである。
 また、いずれかの計算装置で異常事象が発生した場合、その異常事象が抑止対象事象でも上位事象でもなければ、その計算装置のSPは異常事象の他のSPへの通知を行わない。そのため、通知事象が抑止対象事象でも上位事象でもない場合はありえない。
 さらに、送信元SPへの通報応答の送信又は送信元SP以外の隣接SPへの通知事象の情報の送信を行う場合、判定部13は、通知事象を取得事象リスト172に登録する。さらに、判定部13は、通知事象の情報を取得事象リスト172に登録した時刻を自己が有する時計から取得し、取得した時刻を取得事象リスト172に登録する。
 さらに、判定部13は、送信元SP以外の隣接SPに通知事象の情報を送信すると決定した場合、送信済み事象リスト173に、送信した通知事象を通知してきた送信元SPの情報、送信した通知事象の情報及び送信先SPの情報を登録する。さらに、判定部13は、各送信先SPに対応する応答受信フラグを未受信の状態に登録する。
 その後、判定部13は、通知事象の情報を送信したSPからの通報応答を受信部12から受信する。そして、判定部13は、受信した通報応答に対応する通知事象の情報が送信済み事象リスト173に登録されているか否かを判定する。送信済み事象リスト173に登録されていない場合、判定部13は、通知事象に対する処理を終了する。
 これに対して、送信済み事象リスト173に登録されている場合、送信済み事象リスト173における通報応答を送信してきたSPが送信元SPとなっている欄に対応する応答受信フラグを受信済みの状態にする。そして、判定部13は、予め決められた制限時間内に、送信済み事象リスト173の全ての応答受信フラグが受信済みの状態になると、送信元SPへの通報応答の通知を応答部16へ指示する。これに対して、制限時間内に送信済み事象リスト173の全ての応答受信フラグが受信済みの状態にならなければ、判定部13は、通知事象に対する処理を終了する。
 異常情報送信部15は、計算装置1で発生した異常事象の情報及び隣接SPリスト171の全てのSPへの送信指示を判定部13から受信する。そして、異常情報送信部15は、異常事象の情報を隣接SPリスト171の全てのSPへ送信する。例えば、図3Bのような論理的な接続関係の場合、SP10の異常情報送信部15は、SP20~40に異常情報を送信する。
 また、異常情報送信部15は、隣接SPから受信した異常事象の情報及びその異常情報の送信元SP以外の隣接SPへの送信指示を判定部13から受信する。そして、異常情報送信部15は、異常事象の情報を送信元SP以外の隣接SPへ送信する。例えば、図3Bの論理接続202のような論理的な接続関係であってSP20から異常事象の情報を受信した場合、異常情報送信部15は、異常事象の情報とともに、SP20以外の隣接SPであるSP30及びSP40への異常事象の情報の送信の指示を受信する。そして、異常情報送信部15は、SP30及びSP40に異常事象の情報を送信する。
 応答部16は、異常事象の送信元SPへの通報応答の通知の指示を判定部13から受信する。そして、応答部16は、通報応答をその通報応答に対応する異常情報の送信元SPへ送信する。
 異常通知部14は、計算装置1で発生した異常事象の制御サーバ7への通知指示を判定部13から受信する。そして、異常通知部14は、計算装置1で発生した異常事象を制御サーバ7へ通知する。
 制御サーバ7は、受信部71及び管理部72を有している。この制御サーバ7が、「監視装置」の一例にあたる。
 受信部71は、異常事象の発生の通知をSP10~60から受信する。そして、受信部71は、受信した異常事象の情報を管理部72へ送信する。
 管理部72は、異常事象が発生した計算装置の情報及び発生した異常事象の内容などをシステムの管理者に通知する。また、管理部71は、受信した異常事象をログとして蓄積していく。
 さらに、図10~14で表される全体的な模式図を参照して、異常事象発生時における制御サーバ7への異常事象の発生の通知のシステム全体の動作について説明する。図10は、異常事象発生前のSP間の論理的な接続関係を表す図である。図11は、異常事象発生時の各SPの動作を表す図である。図12は、図11の後の各SPの動作を表す図である。図13は、図12の後の各SPの動作を表す図である。図14は、異常事象の発生を制御サーバに通知する時点での各SPの動作を表す図である。
 図10に示す論理的な接続関係は、図3Bの論理接続202を見やすく書き直したものである。論理接続202と同様に、SP10は、SP20~40と論理的な接続関係を有している。SP30は、SP50及びSP60と論理的な接続関係を有している。この場合、SP10~60は、図4に示す隣接SPリスト301~306を有している。さらに、SP10~60は、図5に示すレベル関係テーブル400を有しているものとする。
 この状態で、SP10を備える計算装置で電源故障が発生し、それによりSP60を備える計算装置でリンクダウンが誘発された場合で説明する。この状態が図11である。
 図11に示すように、SP10は、電源故障を検出する。この場合、SP10は、未だ他の異常事象の情報の通知を受けていない。また、SP10は、図5のレベル関係テーブル400を参照し、電源故障が、リンクダウン事象の上位事象であり、他の異常事象の抑止対象事象となっていないことを確認する。そこで、SP10は、図11の異常事象通知801~803のように、電源故障事象の情報を図4の隣接SPリスト301に記載されている隣接SPであるSP20~30へ送信する。さらに、SP10は、電源故障事象を取得事象リスト172に登録する。また、SP10は、SP10が送信元となる電源故障事象の情報及び送信先SPの情報を送信済み事象リスト173に登録する。
 また、SP60は、リンクダウンを検出する。この場合、SP60は、未だ他の異常事象の情報の通知を受けていない。また、SP60は、図5のレベル関係テーブル400を参照して、リンクダウン事象の上位事象が電源故障事象及び漏水異常事象であり、リンクダウンの抑止対象事象がないことを確認する。そこで、SP60は、図11の異常事象通知804のように、リンクダウン事象の情報を図4の隣接SPリスト306に記載されている隣接SPであるSP30へ送信する。さらに、SP60は、リンクダウン事象を取得事象リスト172に登録する。また、SP60は、SP60が送信元となるリンクダウン事象の情報及び送信先SPの情報を送信済み事象リスト173に登録する。
 SP20及びSP40は、SP10から電源故障事象の情報を受信して、取得事象リスト172に電源故障事象の上位事象及び抑止対象事象がないことを確認する。さらに、SP20及び40は、図4の隣接SPリスト302及び隣接SPリスト304を参照して電源故障事象の送信元のSP10以外に隣接SPが無いことを確認する。そこで、SP20及び40は、図12の通報応答805及び通報応答806のように、電源故障事象の送信元SPであるSP10に通報応答を返す。
 また、SP30は、電源故障事象の情報をSP10から受信する。さらに、SP30は、リンクダウン事象の情報をSP60から受信する。この場合、SP30は、電源故障事象の情報をリンクダウン事象の情報よりも早く受信したものとする。
 SP30は、電源故障事象の情報を受信して、取得事象リスト172に電源故障事象の上位事象及び抑止対象事象がないことを確認する。さらに、SP30は、図4の隣接SPリスト303を参照して、SP10以外の隣接SPであるSP50及びSP60があることを確認する。そこで、SP30は、図12の異常事象通知807及び異常事象通知808のように、電源故障事象の情報をSP50及びSP60へ送信する。さらに、SP30は、電源故障事象を取得事象リスト172に登録する。また、SP30は、SP10が送信元となる電源故障事象の情報及び送信先SPの情報を送信済み事象リスト173に登録する。
 この状態でSP10~60が有する送信済み事象リスト173は、図8に示すリスト601~606のようになる。
 その後、SP30は、リンクダウン事象の情報を受信して、リンクダウン事象の上位事象である電源故障事象が取得事象リスト172に登録されていることを確認する。さらに、SP30は、取得事象リスト172から電源故障事象の登録時刻を取得し、電源登録事象の登録時刻からの経過時間が保持時間を経過していないことを確認する。そこで、SP30は、SP60から通知されたリンクダウン事象がSP10から通知された電源故障事象により誘発されたものと判定する。そして、SP30は、抑止809で示すように、SP60から通知されたリンクダウン事象の取得事象リスト172への登録及び隣接SPへの送信を行わずに、SP60から通知されたリンクダウン事象を抑止する。
 SP50は、SP30から電源故障事象の情報を受信して、取得事象リスト172に電源故障事象の上位事象及び抑止対象事象がないことを確認する。さらに、SP50は、図4の隣接SPリスト305を参照して電源故障事象を送信してきたSP30以外に隣接SPが無いことを確認する。そこで、SP50は、図13の通報応答810のように、電源故障事象の送信元SPであるSP30に通報応答を返す。
 SP60が通知したリンクダウン事象はSP30により抑止されている。そこで、SP60は、図13に示すSP30からの報知応答812を受信しない。そのため、SP60の送信済み事象リスト173におけるリンクダウン事象の応答受信フラグは、未受信を表す状態のままである。すなわち、SP60は、リンクダウン事象の発生を制御サーバ7に通知しない。
 さらに、SP60は、SP30から電源故障事象の情報を受信して、取得事象リスト172に電源故障事象の抑止対象事象であるリンクダウン事象が登録されていることを確認する。そこで、SP60は、取得事象リスト172及び送信済み事象リスト173からリンクダウン事象の項目を削除する。さらに、SP60は、図4の隣接SPリスト306を参照して電源故障事象を送信してきたSP30以外に隣接SPが無いことを確認する。そこで、SP60は、図13の通報応答811のように、電源故障事象の送信元SPであるSP30に通報応答を返す。
 SP30は、電源故障事象の情報の送信先SPであるSP50及びSP60の双方から通報応答を受信する。そこで、SP30の送信済み事象リスト173における電源故障事象の応答受信フラグが全て、受信済み状態に変わる。そこで、SP30は、電源故障事象の送信元SPがSP10であることを送信済み事象リスト173から確認する。そして、SP30は、図14に示す電源故障事象に対する通報応答813をSP10へ送信する。さらに、SP30は、送信済み事象リスト173から電源故障事象を削除する。
 SP10は、電源故障事象に対する通報応答をSP30から受信する。SP10は、送信済み事象リスト173における電源故障事象の送信先SPがSP30に対応する応答受信フラグを受信済みの状態に更新する。これにより、SP10の送信済み事象リスト173における電源故障事象の応答受信フラグが全て、受信済みの状態に変わる。そこで、SP10は、電源故障事象の送信元SPが自装置であることを送信済み事象リスト173から確認する。そして、SP10は、通知814のように電源故障事象の発生を制御サーバ7へ通知する。さらに、SP10は、送信済み事象リスト173から電源故障事象を削除する。
 この場合、SP60は、SP30からリンクダウン事象に対する通報応答を受信せず、さらに、送信済み事象リスト173からもリンクダウン事象の項目を削除している。そのため、SP60は、通知815で表される制御サーバ7に対するリンクダウン事象の発生の通知は行わない。
 次に、図15を参照して、自装置での異常事象発生時における異常事象の通知処理の流れについて説明する。図15は、自装置での異常事象発生時における異常事象の通知処理のフローチャートである。
 異常検出部11は、計算装置1で発生した異常事象を検出する(ステップS101)。そして、異常検出部11は、発生した異常事象の情報を判定部13へ出力する。
 判定部13は、異常事象の情報の入力を異常検出部11から受ける。そして、判定部13は、通知された異常事象の相関関係事象をレベル関係テーブル174から抽出する(ステップS102)。
 判定部13は、発生した異常事象が抑止対象事象か否かをレベル関係テーブル174から判定する(ステップS103)。抑止対象事象の場合(ステップS103:肯定)、判定部13は、発生した異常事象の上位事象が取得事象リスト172にあるか否かを判定する(ステップS104)。
 取得事象リスト172にある場合(ステップS104:肯定)、判定部13は、発生した異常事象の上位事象が取得事象リスト172に登録されてから保持時間が経過したか否かを判定する(ステップS105)。保持時間が経過していない場合(ステップS105:否定)、判定部13は、発生した異常事象の情報の隣接SPへの送信や制御サーバへの通知を行わずに、異常事象の通知処理を終了する。
 これに対して、保持時間が経過している場合(ステップS105:肯定)及び取得事象リスト172に発生した異常事象の上位事象が無い場合(ステップS104:否定)、判定部13は、発生した異常事象を取得事象リスト172に登録する(ステップS106)。
 さらに、判定部13は、隣接SPリスト171に登録されている全てのSPへの発生した異常事象の情報の送信を異常情報送信部15へ指示する。異常情報送信部15は、発生した異常事象の情報を、隣接SPリスト171に登録されている全てのSPへ送信する(ステップS107)。
 その後、判定部13は、送信済み事象リスト173に、発生した異常事象の情報、送信元SP及び送信先SPを登録し、さらに全ての応答受信フラグを未受信の状態にする(ステップS108)。この場合の送信元SPは、自装置のSPとなる。
 一方、発生した異常事象が抑止対象事象でない場合(ステップS103:否定)、判定部13は、発生した異常事象が上位事象か否かをレベル関係テーブル174から判定する(ステップS109)。発生した異常事象が上位事象の場合(ステップS109:肯定)、判定部13は、ステップS106へ進む。
 これに対して、発生した異常事象が上位事象でない場合(ステップS109:否定)、判定部13は、異常事象の発生の制御サーバ7への通知を異常通知部14に指示する。異常通知部14は、異常事象の発生を制御サーバ7へ通知する(ステップS110)。
 次に、図16を参照して、隣接SPから異常事象の通知を受けた場合の異常事象の通知処理の流れについて説明する。図16は、隣接SPから異常事象の通知を受けた場合の異常事象の通知処理のフローチャートである。
 受信部12は、隣接SPから異常事象の情報を受信する(ステップS201)。受信部12は、通知された異常事象の情報を判定部13へ送信する。
 判定部13は、異常事象の情報の入力を異常検出部11から受ける。そして、判定部13は、通知された異常事象の相関関係事象をレベル関係テーブル174から抽出する(ステップS202)。
 次に、判定部13は、取得事象リスト172に通知された異常事象の抑止対象事象があるか否かを判定する(ステップS203)。抑止対象事象がない場合(ステップS203:否定)、判定部13は、ステップS206へ進む。
 これに対して、抑止対象事象がある場合(ステップS203:肯定)、判定部13は、取得事象リスト172に抑止対象事象が登録されてから通知された異常事象の保持時間が経過しているか否かを判定する(ステップS204)。通知された異常事象の保持時間が経過している場合(ステップS204:肯定)、ステップS206へ進む。
 これに対して、通知された異常事象の保持時間が経過していない場合(ステップS204:否定)、判定部13は、通知された異常事象の抑止対象事象に対応する項目を、取得事象リスト172及び送信済み事象リスト173から削除する(ステップS205)。
 そして、判定部13は、通知された異常事象の上位事象が取得事象リスト172にあるか否かを判定する(ステップS206)。上位事象がない場合(ステップS206:否定)、判定部13は、ステップS208へ進む。
 これに対して、上位事象がある場合(ステップS206:肯定)、判定部13は、通知された異常事象の上位事象が取得事象リスト172に登録されてから保持時間が経過しているか否かを判定する(ステップS207)。保持時間が経過していない場合(ステップS207:否定)、判定部13は、通知された異常事象の情報の隣接SPへの送信や通報応答を行わずに、異常事象の通知処理を終了する。
 一方、保持時間が経過している場合(ステップS207:肯定)、判定部13は、通知された異常事象を取得事象リスト172に登録する(ステップS208)。
 次に、判定部13は、隣接SPリスト171を用いて、通知を受けた異常事象の送信元SP以外に隣接SPがあるか否かを判定する(ステップS209)。
 送信元SP以外に隣接SPがある場合(ステップS209:肯定)、判定部13は、送信元SP以外の隣接SPに異常事象の情報を送信する(ステップS210)。その後、判定部13は、送信済み事象リスト173に、通知された異常事象の情報、送信元SP及び送信先SPを登録し、さらに全ての応答受信フラグを未受信の状態にする(ステップS211)。
 これに対して、送信元SP以外の隣接SPがない場合(ステップS209:否定)、判定部13は、通報応答の送信元SPへの送信を応答部16に指示する。応答部16は、通報応答を送信元SPへ返す(ステップS212)。
 次に、図17を参照して、通報応答を受信した場合の応答処理の流れについて説明する。図17は、通報応答を受信した場合の応答処理のフローチャートである。
 受信部12は、通報応答を隣接SPから受信する(ステップS301)。受信部12は、受信した通報応答を判定部13へ送信する。
 判定部13は、通報応答を受信部12から受信する。そして、判定部13は、通報応答に対応する異常事象の項目が送信済み事象リスト173にあるか否かを判定する(ステップS302)。送信済み事象リスト173にない場合(ステップS302:否定)、判定部13は、受信した通報応答に基づく応答処理を終了する。
 これに対して、送信済み事象リスト173に通報応答に対応する異常事象の項目がある場合(ステップS302:肯定)、通報応答が受信済みであることを表す応答受信フラグを送信済み事象リスト173の通報応答を送信してきた隣接SPに対応する項目に設定する(ステップS303)。
 次に、判定部13は、全ての送信先SPに対応する応答受信フラグが送信済みになっているか否かを判定する(ステップS304)。全ての送信先SPに対応する応答受信フラグが送信済みになっていない場合(ステップS304:否定)、判定部13は、受信した通報応答に基づく応答処理を終了する。
 これに対して、全ての送信先SPに対応する応答受信フラグが送信済みの場合(ステップS304:肯定)、判定部13は、送信済み事象リスト173に記載された送信元SPが自装置か否かを判定する(ステップS305)。
 送信元SPが自装置の場合(ステップS305:肯定)、判定部13は、異常事象の発生を制御サーバ7へ通知することを異常通知部14に指示する。そして、異常通知部14は、異常事象の発生を制御サーバ7へ通知する(ステップS306)。
 これに対して、送信元SPが自装置でない場合(ステップS305:否定)、判定部13は、通報応答の送信元SPへの送信を応答部16に指示する。応答部16は、通報応答を送信元SPへ返す(ステップS307)。
 次に、判定部13は、送信済み事象リストから、受信した通報応答に対応する異常事象の項目を削除する(ステップS308)。
 以上に説明したように、本実施例に係る情報処理装置及び情報処理システムは、ある異常事象が発生した場合に、それを誘発する異常事象が発生しているか否かを判定し、発生している場合には、誘発する異常事象のみを制御サーバに通知する。ある異常事象とその異常事象により誘発される異常事象を比較すると、誘発される異常事象はその異常事象を誘発する異常事象よりも重度が低いと考えられる。そのため、ある異常事象が発生したことにより誘発される他の異常事象の発生の制御サーバへの通知を抑止することができ、重度の高い異常事象のみを制御サーバに通知することができる。これにより、異常事象の通知を受ける制御サーバの負荷を軽減することができる。この結果、制御サーバにおけるパケットのロストを軽減でき、制御サーバに対して重度の高い異常事象が確実に通知される。そして、管理者は重度の高い異常事象の発生を確実に把握でき、故障復旧までの時間を短縮することができる。
 さらに、通信の局所集中や制御サーバの負荷が軽減できるので、通信設備及び制御サーバにかけるコストを軽減することができる。
 また、異常事象の発生の通知を行うか否かの判定を複数の情報処理装置で行う分散協調処理を用いることで、判定処理を分散させることができ、負荷の局所集中を回避できる。また、各情報処理装置は、論理的に隣接する情報処理装置との情報交換を行えばよく、システム全体の構成を個々の情報処理装置で管理しなくてもよいので、各情報処理装置が持つデータ量や処理負荷を軽減することができる。
(ハードウェア構成)
 次に、図18を参照して、SP10のハードウェア構成について説明する。図18は、実施例に係る計算装置のハードウェア構成図である。ここでは、計算装置1を例に説明するが、他の計算装置2~6なども同様の構成を有する。
 計算装置1は、CPU(Central Processing Unit)901、メモリ902、ハードディスク903及びインターコネクト用通信インタフェース904を有する。
 計算装置1は、CPU901、メモリ902及びハードディスク903を用いて各種計算などの処理を行う。また、インターコネクト用通信インタフェース904は、他の計算装置のインターコネクト用通信インタフェース904とインターコネクト8を介して接続され、計算処理で用いられるデータなどの送受信を行う。
 SP10は、CPU911、メモリ912及び制御用通信インタフェース913を有する。制御用通信インタフェース913は、他のSPの制御用通信インタフェース913と制御用ネットワーク9を介して接続され、異常事象の情報の送受信や通報応答の送受信などを行う。
 CPU911及びメモリ912は、図2に示した異常検出部11、受信部12、判定部13、異常通知部14、異常情報送信部15、応答部16及び記憶部17などの機能を実現する。具体的には、メモリ912は、図2に例示した異常検出部11、受信部12、判定部13、異常通知部14、異常情報送信部15及び応答部16などによる処理を実現するプログラム等の各種プログラムを記憶している。そして、CPU911は、メモリ912に記憶された各種プログラムを読出し実行することで、異常検出部11、受信部12、判定部13、異常通知部14及び異常情報送信部15などの機能を実現する。また、メモリ912は、記憶部17の機能も実現する。すなわち、メモリ912は、隣接SPリスト171、取得事象リスト172、送信済み事象リスト173及びレベル関係テーブル174などが格納される。ここで、本実施例では、メモリ912に図1の各部の機能を実現する各種プログラムを記憶させているが、これはハードディスク903に記憶させてもよい。また、記憶部17の機能をハードディスク903で実現してもよい。
 1~6 計算装置
 7 制御サーバ
 8 インターコネクト
 9 制御用ネットワーク
 10~60 サービスプロセッサ(SP)
 11 異常検出部
 12 受信部
 13 判定部
 14 異常通知部
 15 異常情報送信部
 16 応答部
 17 記憶部
 171 隣接SPリスト
 172 取得事象リスト
 173 送信済み事象リスト
 174 レベル関係テーブル

Claims (10)

  1.  自装置における異常事象の発生を検出する異常検出部と、
     前記異常検出部により異常事象が検出された場合に、第1所定条件に基づいて、予め決められた複数の情報処理装置の論理的な接続関係において自装置に隣接する隣接情報処理装置に前記異常事象に関する異常情報を送信する異常情報送信部と、
     前記異常情報の送信に対する前記隣接情報処理装置からの応答結果に基づいて、前記異常事象の発生を外部の装置へ通知する異常通知部と
     を備えたことを特徴とする情報処理装置。
  2.  前記異常情報送信部は、前記隣接情報処理装置のいずれかから前記異常情報を受信した場合に、第2所定条件に基づいて、受信した前記異常情報を、当該異常情報を送信した情報処理装置以外の前記隣接情報処理装置に送信することを特徴とする請求項1に記載の情報処理装置。
  3.  前記異常情報を隣接情報処理装置のいずれかから受信した場合、受信した異常情報の送信元である送信元装置以外の隣接情報処理装置がなければ、前記送信元装置に応答を送信し、前記送信元装置以外の隣接情報処理装置があり、且つ前記送信元装置以外の隣接情報処理装置全てから応答が返ってくると、前記送信元装置へ応答を送信する応答部をさらに備えたことを特徴とする請求項1に記載の情報処理装置。
  4.  各異常事象の相関関係に基づき、異常情報の送信条件が前記第1所定条件又は前記第2所定条件を満たすか否かを判定する判定部をさらに備え
     前記異常情報送信部は、前記判定部により前記第1所定条件又は前記第2所定条件を満たすと判定された場合、前記異常事象に関する情報を前記隣接情報処理装置に送信することを特徴とする請求項2に記載の情報処理装置。
  5.  前記判定部は、前記相関関係として、異常事象毎に、当該異常事象を誘発する上位異常事象の有無及び当該異常事象により誘発される下位異常事象の有無を有し、前記異常事象に対する上位異常事象及び下位異常事象の有無を基に、前記第1所定条件又は前記第2所定条件を満たすか否かを判定することを特徴とする請求項4に記載の情報処理装置。
  6.  前記判定部は、各異常事象の保持期間を有し、自装置で発生した異常事象及び隣接情報処理装置から受信した異常事象を記憶し、前記相関関係とともに各異常事象を記憶してから前記保持期間が経過しているか否かの判定に基づいて前記第1所定条件又は前記第2所定条件を満たすか否かを判定することを特徴とする請求項4に記載の情報処理装置。
  7.  前記接続関係は、同じ情報処理装置同士を結ぶ接続を複数有さず、且つループを有さないことを特徴とする請求項1に記載の情報処理装置。
  8.  監視装置及び複数の計算装置を有する情報処理システムであって、
     前記計算装置は、
     自装置における異常事象の発生を検出する異常検出部と、
     前記異常検出部により異常事象が検出された場合に、第1所定条件に基づいて、予め決められた複数の情報処理装置の論理的な接続関係において自装置に隣接する隣接情報処理装置に前記異常事象に関する異常情報を送信し、前記隣接情報処理装置のいずれかから前記異常情報を受信した場合に、第2所定条件に基づいて、受信した前記異常情報を、当該異常情報を送信した情報処理装置以外の前記隣接情報処理装置に送信する異常情報送信部と、
     前記異常情報の送信に対する前記隣接情報処理装置からの応答結果に基づいて、前記異常事象の発生を前記監視装置へ通知する異常通知部と、
     前記異常情報を隣接情報処理装置のいずれかから受信した場合、受信した異常情報の送信元である送信元装置以外の隣接情報処理装置がなければ、前記送信元装置に応答を送信し、前記送信元装置以外の隣接情報処理装置があり、且つ前記送信元装置以外の隣接情報処理装置全てから応答が返ってくると、前記送信元装置へ応答を送信する応答部とを備え、
     前記監視装置は、
     前記異常事象の発生の通知を前記異常通知部から受信する受信部と、
     前記受信部が受信した前記異常事象の発生の情報を管理する管理部とを備えた、
     ことを特徴とする情報処理システム。
  9.  自装置における異常事象の発生を検出し、
     異常事象が検出された場合に、第1所定条件に基づいて、予め決められた複数の情報処理装置の論理的な接続関係において自装置に隣接する隣接情報処理装置に前記異常事象に関する異常情報を送信し、
     前記異常情報の送信に対する前記隣接情報処理装置からの応答結果に基づいて、前記異常事象の発生を外部の装置へ通知する
     ことを特徴とする情報処理装置制御方法。
  10.  自装置における異常事象の発生を検出し、
     異常事象が検出された場合に、第1所定条件に基づいて、予め決められた複数の情報処理装置の論理的な接続関係において自装置に隣接する隣接情報処理装置に前記異常事象に関する異常情報を送信し、
     前記異常情報の送信に対する前記隣接情報処理装置からの応答結果に基づいて、前記異常事象の発生を外部の装置へ通知する
     処理をコンピュータに実行させることを特徴とする情報処理装置制御プログラム。
PCT/JP2012/067502 2012-07-09 2012-07-09 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム WO2014010021A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/067502 WO2014010021A1 (ja) 2012-07-09 2012-07-09 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/067502 WO2014010021A1 (ja) 2012-07-09 2012-07-09 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム

Publications (1)

Publication Number Publication Date
WO2014010021A1 true WO2014010021A1 (ja) 2014-01-16

Family

ID=49915524

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/067502 WO2014010021A1 (ja) 2012-07-09 2012-07-09 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム

Country Status (1)

Country Link
WO (1) WO2014010021A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015198402A1 (ja) * 2014-06-24 2015-12-30 富士通株式会社 情報処理システム、接続支援方法及びプログラム
JP2016062340A (ja) * 2014-09-18 2016-04-25 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び、プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09321868A (ja) * 1996-05-30 1997-12-12 Nec Corp 障害通知方式
JPH11250026A (ja) * 1998-02-26 1999-09-17 Nec Corp 並列マルチプロセッサシステムの障害リカバリ方法及び方式
JP2003162430A (ja) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp 障害情報管理装置および障害情報管理方法
JP2009252006A (ja) * 2008-04-08 2009-10-29 Nec Computertechno Ltd コンピュータシステムにおけるログ管理システム、ログ管理方法
JP2010282521A (ja) * 2009-06-08 2010-12-16 Hitachi Electronics Service Co Ltd 障害監視装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09321868A (ja) * 1996-05-30 1997-12-12 Nec Corp 障害通知方式
JPH11250026A (ja) * 1998-02-26 1999-09-17 Nec Corp 並列マルチプロセッサシステムの障害リカバリ方法及び方式
JP2003162430A (ja) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp 障害情報管理装置および障害情報管理方法
JP2009252006A (ja) * 2008-04-08 2009-10-29 Nec Computertechno Ltd コンピュータシステムにおけるログ管理システム、ログ管理方法
JP2010282521A (ja) * 2009-06-08 2010-12-16 Hitachi Electronics Service Co Ltd 障害監視装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015198402A1 (ja) * 2014-06-24 2015-12-30 富士通株式会社 情報処理システム、接続支援方法及びプログラム
JPWO2015198402A1 (ja) * 2014-06-24 2017-04-20 富士通株式会社 情報処理システム、接続支援方法及びプログラム
JP2016062340A (ja) * 2014-09-18 2016-04-25 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び、プログラム

Similar Documents

Publication Publication Date Title
WO2015131548A1 (zh) 保护bfd的方法和设备
US20150019671A1 (en) Information processing system, trouble detecting method, and information processing apparatus
JP2005301436A (ja) クラスタシステムおよびクラスタシステムにおける障害回復方法
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
CN100359865C (zh) 一种检测方法
US20170322832A1 (en) Enhanced availability for message services
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
JP4968568B2 (ja) 障害監視方法、障害監視システムおよびプログラム
JP5548160B2 (ja) 障害監視用ノード装置および障害検知回復方法
US10237122B2 (en) Methods, systems, and computer readable media for providing high availability support at a bypass switch
JP2009199213A (ja) プロセス監視方法、情報処理装置、及びプログラム
JP2008172575A (ja) 監視装置及び監視方法
JP6670877B2 (ja) 故障判定装置、故障判定システム、故障判定方法、及びプログラム
US20140297724A1 (en) Network element monitoring system and server
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
JP2008003731A (ja) 情報処理システム
JP6540309B2 (ja) 共有メモリシステム、演算処理装置、及び方法
JP2013121095A (ja) 通信装置
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JP5884547B2 (ja) 通信装置
JP2012104869A (ja) ネットワークシステム
JP5459094B2 (ja) リンクアグリゲーション通信装置
JP2013003956A (ja) 故障復旧管理装置、故障復旧管理方法及び故障復旧管理プログラム
JP2011049835A (ja) ネットワーク故障検出装置、ネットワーク故障検出プログラム
JP5790420B2 (ja) 通信装置、障害検出方法および障害検出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12880796

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12880796

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP