JP2011175513A - Fault management system and method - Google Patents

Fault management system and method Download PDF

Info

Publication number
JP2011175513A
JP2011175513A JP2010039899A JP2010039899A JP2011175513A JP 2011175513 A JP2011175513 A JP 2011175513A JP 2010039899 A JP2010039899 A JP 2010039899A JP 2010039899 A JP2010039899 A JP 2010039899A JP 2011175513 A JP2011175513 A JP 2011175513A
Authority
JP
Japan
Prior art keywords
failure
fault
history
information
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010039899A
Other languages
Japanese (ja)
Other versions
JP5505966B2 (en
Inventor
Hisashi Shindo
久 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2010039899A priority Critical patent/JP5505966B2/en
Publication of JP2011175513A publication Critical patent/JP2011175513A/en
Application granted granted Critical
Publication of JP5505966B2 publication Critical patent/JP5505966B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To reduce working loads such as an input operation and to provide information including an accurate suspicion rate by using an FRU table set at first. <P>SOLUTION: When a fault phenomenon is detected by a service processor 3, fault history information is retrieved by using information for specifying the fault phenomenon as a key, and when the fault phenomenon coincides with a fault phenomenon caused in the past, a fault factor part 2 having inducement history causing the fault phenomenon is extracted from the fault history information. When the fault factor part 2 having the inducement history is extracted, a corrected suspicion rate is calculated by correcting the suspicion rate set at first which corresponds to the fault factor part 2 in the FRU table according to the inducement frequency of the fault factor part 2. When relation between the fault phenomenon and the fault factor part 2 coincides between the FRU table and the fault history information, the inducement frequency corresponding to the fault history information is incremented. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、情報処理システムの障害を管理するシステム及び方法に関する。   The present invention relates to a system and method for managing failures in an information processing system.

情報処理システムの障害に対処するための技術として、FRU(Field Replaceable Unit)テーブルを利用するものがある。このFRUテーブルは、情報処理システムに発生する複数種の障害事象と、各障害事象の要因となる可能性がある障害要因部位(プロセッサ、メモリ、ノードコントローラ、入出力装置、配線、端子等)と、各障害要因部位の被疑割合とが対応付けられて構成された情報である。障害発生時には、前記FRUテーブルから発生した障害事象に対応する障害要因部位が抽出され、それらに関する情報が前記被疑割合と共に保守者等に提供される。   As a technique for coping with a failure in an information processing system, there is a technique that uses an FRU (Field Replaceable Unit) table. This FRU table includes a plurality of types of failure events that occur in the information processing system, and failure factor sites (processors, memories, node controllers, input / output devices, wiring, terminals, etc.) that may cause each failure event. The information is configured by associating the suspicious ratio of each failure factor part. When a failure occurs, a failure factor site corresponding to the failure event that has occurred is extracted from the FRU table, and information related to the failure factor is provided to a maintenance person or the like together with the suspect ratio.

特許文献1において、障害発生を検知する複数の障害チェックレジスタの各コードと各障害チェックレジスタに対応する障害要因部位の各コード(FRUコード)を対応付け、且つ各FRUコードの部品交換優先順位情報を含む障害チェックレジスタ情報−FRU情報対応テーブルを1つのファイルに登録する構成が開示されている。   In Patent Document 1, each code of a plurality of fault check registers for detecting occurrence of a fault is associated with each code (FRU code) of a fault factor corresponding to each fault check register, and component replacement priority information of each FRU code A configuration for registering a failure check register information-FRU information correspondence table including a single file is disclosed.

特許文献2において、情報処理システムのハードウェア資源のパーティション構造を、各ハードウェア資源の障害履歴に基づいて最適化する構成が開示されている。   Patent Document 2 discloses a configuration that optimizes a hardware resource partition structure of an information processing system based on a failure history of each hardware resource.

特許文献3において、サービスプロセッサ、及び障害率データ(被疑割合)を含む故障辞書(FRUテーブル)を用いて情報処理システムの障害管理を行うシステムであって、部品の交換履歴等に基づいて障害率データを更新する構成が開示されている。   In Patent Literature 3, a failure management (FRU table) including a service processor and failure rate data (probability rate) is used to manage a failure of an information processing system, and a failure rate based on a component replacement history or the like A configuration for updating data is disclosed.

特開平11−249926号公報Japanese Patent Laid-Open No. 11-249926 特開2009−163646号公報JP 2009-163646 A 特開平10−320241号公報(段落0017等参照)JP-A-10-320241 (see paragraph 0017 etc.)

通常、前記被疑割合を含むFRUテーブルは、システム設計者等により一意的に設定登録されるものであるが、上記特許文献3に開示されるように、実際の部品交換履歴等に応じて補正していくことにより、信頼性を向上させることができるものである。   Usually, the FRU table including the suspected ratio is uniquely set and registered by a system designer or the like, but as disclosed in Patent Document 3, it is corrected according to the actual component replacement history or the like. By doing so, the reliability can be improved.

しかしながら、上記特許文献3に係る構成は、保守者が入出力装置を操作して入力した実際の部品交換作業に関する情報に基づいて、前記故障辞書(FRUテーブル)自体を更新するものである。そのため、FRUテーブルを信頼性の高い状態に維持するためには、保守者の入力操作が不可欠となり、保守者に入力作業の負担を強いることとなる。また、FRUテーブル自体が更新されるため、設定当初のFRUテーブルが必要となった時に、初期化処理等を行う必要がある。   However, the configuration according to Patent Document 3 updates the failure dictionary (FRU table) itself on the basis of information related to an actual part replacement operation input by a maintenance person operating an input / output device. Therefore, in order to maintain the FRU table in a highly reliable state, an input operation by the maintenance person becomes indispensable, and the maintenance person is forced to bear an input work. Further, since the FRU table itself is updated, it is necessary to perform initialization processing when the initial FRU table is required.

そこで、本発明は、入力操作等の作業負担を軽減し、設定当初のFRUテーブルを用いて正確な被疑割合を含む情報を提供することを目的とする。   Therefore, an object of the present invention is to reduce the work load such as an input operation, and to provide information including an accurate suspicion rate using an FRU table at the time of setting.

本発明の一態様は、情報処理システムを構成する各部位の動作を監視するサービスプロセッサと、少なくとも、複数種類の障害事象、前記各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が前記障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルを格納するFRU格納部と、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報を格納する障害履歴格納部と、前記サービスプロセッサにより障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出する障害履歴抽出部と、前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出する補正部と、当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントする障害履歴更新部と、前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するコンソール部とを備える障害管理システムである。   One aspect of the present invention is a service processor that monitors the operation of each part constituting an information processing system, at least a plurality of types of fault events, identification information of fault factor parts that may cause the fault events, and A FRU storage unit that stores a FRU table configured by associating a suspicious ratio indicating the possibility that each failure factor site causes the failure event, at least a failure event that occurred in the past, and a factor of each failure event; The failure event is detected by the failure history storage unit for storing failure history information configured to associate the failure factor site and the trigger frequency that caused the failure event corresponding to the failure factor site, and the service processor. The failure history information is searched using the information for identifying the failure event as a key, and the failure event has occurred in the past. A failure history extraction unit that extracts the failure factor part having an incentive history that caused the failure event from the failure history information, and a failure factor part having the cause history is extracted when the failure event matches A correction unit that calculates a corrected suspicion rate obtained by correcting the initial suspicion rate corresponding to the failure factor part of the FRU table according to the incentive frequency of the failure factor part, the failure event, and the failure event When the relationship with the failure factor part matches between the FRU table and the failure history information, a failure history update unit that increments the incentive frequency corresponding to the failure history information, the corrected suspect ratio or the FRU table It is a fault management system provided with the console part which displays the suspicion ratio at the time of the setting of this.

また、本発明の他の態様は、少なくとも、複数種類の障害事象、各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が対応する障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルと、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報とを参照し、前記情報処理システムの障害を管理する障害管理方法であって、ある障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出するステップと、前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出するステップと、当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントするステップと、前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するステップとを備えるものである。   Another aspect of the present invention provides at least a plurality of types of fault events, identification information of fault factor parts that may cause each fault event, and the possibility that each fault factor part causes a corresponding fault event. The FRU table configured by associating the suspicious ratios indicated, at least the fault event that occurred in the past, the fault factor site that caused each fault event, and the fault event corresponding to the fault factor site A failure management method for managing a failure in the information processing system with reference to failure history information configured in association with an incentive frequency, and when a failure event is detected, the failure event is identified The failure history information is searched using the information as a key, and if the failure event matches a failure event that has occurred in the past, the failure event is subtracted from the failure history information. The step of extracting the failure factor part having the incentive history and the failure factor part having the cause history are extracted, and the failure factor of the FRU table is determined according to the incentive frequency of the failure factor part. The step of calculating the corrected suspicion ratio obtained by correcting the initial suspicion ratio setting corresponding to the part, and the relationship between the fault event and the fault factor part match in the FRU table and the fault history information And the step of incrementing the incentive frequency corresponding to the failure history information and the step of displaying the corrected suspect ratio or the initial suspect ratio of the FRU table.

上記構成により、被疑割合は、検知された障害事象と過去の障害事象との比較結果に応じて適正に補正される。また、障害履歴情報の誘因履歴は、検知された障害事象が過去の障害事象と一致する場合に自動的にインクリメントされるため、手動による入力作業を軽減することができる。また、FRUテーブルを、初期化等の処理を必要とせずに設定当初の状態で維持することができる。   With the above configuration, the suspect ratio is appropriately corrected according to the comparison result between the detected failure event and the past failure event. Further, the trigger history of the fault history information is automatically incremented when the detected fault event matches a past fault event, so that manual input work can be reduced. Further, the FRU table can be maintained in the initial setting state without requiring processing such as initialization.

本実施の形態に係る障害管理システムの機能的な構成を示す図である。It is a figure which shows the functional structure of the failure management system which concerns on this Embodiment. 本実施の形態に係る障害管理システムの具体的構成を例示する図である。It is a figure which illustrates the specific structure of the failure management system which concerns on this Embodiment. 本実施の形態に係る障害管理システムにおける処理を例示するフローチャートである。It is a flowchart which illustrates the process in the failure management system which concerns on this Embodiment. 2つのノードコントローラ間で障害が発生した状況を示す図である。It is a figure which shows the condition where the failure generate | occur | produced between two node controllers. FRUテーブルを例示する図表である。It is a chart which illustrates a FRU table. 当初の被疑割合から補正被疑割合を算出する例を示す図である。It is a figure which shows the example which calculates a correction | amendment suspicion ratio from the initial suspicion ratio. 情報処理システムのパーティション構成を変更する状況を例示する図である。It is a figure which illustrates the condition which changes the partition structure of an information processing system. 各部位でのエラー発生回数(誘因頻度)を例示する図表である。It is a graph which illustrates the frequency | count of error occurrence (incentive frequency) in each site | part.

実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態に係る障害管理システム1の機能的な構成を示している。前記障害管理システム1は、プロセッサ、メモリ、ノードコントローラ、入出力装置等の各種部位を含んで構成される情報処理システムの障害を管理するものであって、障害要因部位2、サービスプロセッサ3、FRU格納部4、障害履歴格納部5、障害履歴抽出部6、補正部7、障害履歴更新部8、及びコンソール部9を含んで構成される。
Embodiment 1
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a functional configuration of a failure management system 1 according to the present embodiment. The fault management system 1 manages faults in an information processing system including various parts such as a processor, a memory, a node controller, and an input / output device, and includes a fault factor part 2, a service processor 3, and an FRU. The storage unit 4 includes a failure history storage unit 5, a failure history extraction unit 6, a correction unit 7, a failure history update unit 8, and a console unit 9.

前記障害要因部位2は、前記情報処理システムを構成するハードウェア資源であって、各種障害事象の要因となる可能性を有する部位である。   The failure factor part 2 is a hardware resource that constitutes the information processing system, and is a part that may cause various failure events.

前記サービスプロセッサ3は、複数の前記障害要因部位2の動作を監視するものである。前記サービスプロセッサ3は、前記情報処理システムとは独立して動作可能であることが好ましい。   The service processor 3 monitors the operations of the plurality of failure factor sites 2. The service processor 3 is preferably operable independently of the information processing system.

前記FRU格納部4は、少なくとも、複数種類の障害事象、各障害事象を引き起こす可能性のある前記障害要因部位2の識別情報、及び前記各障害要因部位2が前記障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルを格納する。   The FRU storage unit 4 indicates at least a plurality of types of failure events, identification information of the failure factor site 2 that may cause each failure event, and the possibility that each failure factor site 2 causes the failure event. Stores the FRU table configured in association with the suspect ratio.

前記障害履歴格納部5は、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位2、及び前記障害要因部位2が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報を格納する。   The failure history storage unit 5 associates at least a failure event that occurred in the past, the failure factor part 2 that has caused each failure event, and an incentive frequency that caused the failure event corresponding to the failure factor part 2 The failure history information configured is stored.

前記障害履歴抽出部6は、前記サービスプロセッサ3により障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位2を抽出する。   When a failure event is detected by the service processor 3, the failure history extraction unit 6 searches the failure history information using information for specifying the failure event as a key, and the failure event in which the failure event has occurred in the past If it matches, the failure factor part 2 having the trigger history that caused the failure event is extracted from the failure history information.

前記補正部7は、前記誘因履歴のある前記障害要因部位2が抽出された場合に、当該障害要因部位2の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位2に対応する設定当所の被疑割合を補正して得られる補正被疑割合を算出する。   When the failure factor part 2 having the incentive history is extracted, the correction unit 7 sets corresponding to the failure factor part 2 of the FRU table according to the cause frequency of the failure factor part 2 The corrected suspicion rate obtained by correcting the suspicious rate is calculated.

前記障害履歴更新部8は、当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記要因頻度をインクリメントする。   The failure history update unit 8 increments the factor frequency corresponding to the failure history information when the relationship between the failure event and the failure factor site matches between the FRU table and the failure history information.

前記コンソール部9は、前記補正被疑割合又は前記FRUテーブルの設定当所の被疑割合を表示する。   The console unit 9 displays the corrected suspicious ratio or the suspicious ratio set in the FRU table.

上記構成により、前記コンソール部9に表示される被疑割合は、今回検知された障害事象と過去の障害事象との比較結果に応じて適正に補正されたものとなる。この補正処理は、前記FRUテーブル自体を変更することなく行われる。また、今回検知された障害事象が過去の障害事象と一致する場合、前記障害履歴情報が自動的にインクリメントされるため、前記障害履歴情報の手動による更新作業を軽減することができる。   With the above configuration, the suspicious ratio displayed on the console unit 9 is appropriately corrected according to the comparison result between the fault event detected this time and the past fault event. This correction process is performed without changing the FRU table itself. In addition, when the failure event detected this time coincides with a past failure event, the failure history information is automatically incremented, so that manual updating of the failure history information can be reduced.

図2は、本実施の形態に係る障害管理システムの具体的な構成を例示している。同図において、情報処理システム11及び障害情報管理サーバ12が示されている。   FIG. 2 illustrates a specific configuration of the failure management system according to the present embodiment. In the figure, an information processing system 11 and a failure information management server 12 are shown.

前記情報処理システム11は、主記憶(MEM)21と複数のプロセッサ(PROC)22と複数のノードコントローラ(NC)23と複数の入出力装置(IO)24より構成され、上記いずれか1つあるいは複数の部位で障害が検出された場合、信号線e001を介してエラーがサービスプロセッサ(SVP)25に報告される。SVP25は、エラー報告により上記MEM21、PROC22、NC23、IO24の障害情報を採取する機構を有する。   The information processing system 11 includes a main memory (MEM) 21, a plurality of processors (PROC) 22, a plurality of node controllers (NC) 23, and a plurality of input / output devices (IO) 24. When a failure is detected in a plurality of parts, an error is reported to the service processor (SVP) 25 via the signal line e001. The SVP 25 has a mechanism for collecting failure information of the MEM 21, PROC 22, NC 23, and IO 24 based on an error report.

FRUテーブル30には、予めエラー信号を保持するエラーインディケータフラグと各エラーインディケータフラグが対象とする障害要因部位(MEM21、PROC22、NC23、IO24、配線等)、被疑割合、エラー補助情報、製造ロット番号等が登録されている。   The FRU table 30 includes an error indicator flag that holds an error signal in advance, a failure factor part (MEM21, PROC22, NC23, IO24, wiring, etc.) targeted by each error indicator flag, a suspect ratio, error auxiliary information, and a production lot number. Etc. are registered.

第1の障害履歴格納データベース(DB)31は、該情報処理システム11で検出された障害を格納し保持し続け、同一部位でエラーを検出した場合は、エラーカウントフィールドのみが更新される。   The first failure history storage database (DB) 31 continues to store and hold failures detected by the information processing system 11, and when an error is detected in the same part, only the error count field is updated.

第2の障害履歴格納DB32は、前記第1の障害履歴格納DB31と同様に障害に関する情報を格納するものであるが、前記障害情報管理サーバ12が保有する他装置障害DB35や電圧・クロックを振ったマージン評価における検査障害DB36に格納された情報が、信号線n001,n002を介して受信され反映される。   The second failure history storage DB 32 stores information relating to failures in the same way as the first failure history storage DB 31, but the other failure failure DB 35 owned by the failure information management server 12 and the voltage / clock are changed. Information stored in the inspection failure DB 36 in the margin evaluation is received and reflected via the signal lines n001 and n002.

データ収集部40は、受信したエラー通報をトリガとして前記FRUテーブル30、前記第1の障害履歴DB31、前記第2の障害処理格納DB32のデータを収集する機能を有する。   The data collection unit 40 has a function of collecting data in the FRU table 30, the first failure history DB 31, and the second failure processing storage DB 32 using the received error notification as a trigger.

障害要因解析部41は、前記データ収集部40のデータに基づいて、報告されたエラーに関する情報と、過去の障害履歴、他の情報処理システムの障害履歴、製造ロット等とを比較し分析する。   The failure factor analysis unit 41 compares and analyzes information on the reported error with a past failure history, a failure history of another information processing system, a manufacturing lot, and the like based on the data of the data collection unit 40.

障害要因部位被疑割合算出部42は、前記障害要因解析部41で障害履歴の中に今回報告されたエラーと一致するものがあると判定された場合には、前記障害要因部位やその被疑割合を補正する。一方、一致するものがなかった場合には、前記FRUテーブル30からのデータを選択し、上記補正処理を実施しない。   If the failure factor analysis unit 41 determines that there is a failure history that matches the currently reported error, the failure factor part suspicious rate calculation unit 42 calculates the failure factor part and the suspicious rate thereof. to correct. On the other hand, if there is no match, the data from the FRU table 30 is selected and the correction process is not performed.

コンソール43は、前記障害要因部位被疑割合算出部42を経た情報を表示する。   The console 43 displays the information that has passed through the failure factor part suspicious ratio calculation unit 42.

図2に例示する構成においては、構成情報解析部44が備えられている。この構成情報解析部44は、SVP25より情報処理システムの増設あるいは縮退に伴う使用する部位(例えば、複数あるノード間インタフェース)が変更するケースにおいて、その対象部位の障害履歴を参照し、より障害が少ない部位をシステムに組み込む情報を抽出してSVP25に通知する機能を有する。即ち、本例に係る情報処理システム11は、自らの各部位21,22,23,24の論理的又は物理的なパーティション構成を調整する機能を備えている。   In the configuration illustrated in FIG. 2, a configuration information analysis unit 44 is provided. The configuration information analysis unit 44 refers to the failure history of the target part in the case where the part to be used (for example, a plurality of inter-node interfaces) is changed from the SVP 25 due to the addition or reduction of the information processing system. It has a function of extracting information for incorporating a small number of parts into the system and notifying the SVP 25 of the information. That is, the information processing system 11 according to the present example has a function of adjusting the logical or physical partition configuration of the respective parts 21, 22, 23, and 24 thereof.

前記障害情報管理サーバ12は、複数の情報処理システム11とネットワークn001,n002,n003,n004を介して障害情報を送受信する機能を有する。上記ネットワークを介して受信したデータは、他装置障害DB35に格納され、複数の情報処理システム11に配信され情報共有される。また、電圧・クロックを振ったマージン評価における障害情報は、検査障害DB36に格納され、他装置障害DB35と同様に複数の情報処理システムと情報を共有する。   The failure information management server 12 has a function of transmitting / receiving failure information to / from a plurality of information processing systems 11 via networks n001, n002, n003, and n004. Data received via the network is stored in the other device failure DB 35, and is distributed to a plurality of information processing systems 11 to share information. Further, failure information in margin evaluation using a voltage / clock is stored in the inspection failure DB 36 and shares information with a plurality of information processing systems in the same manner as the other device failure DB 35.

図3は、本実施の形態に係る障害管理システム1により行われる処理を例示している。この処理は、MEM21、複数のPROC22、複数のNC23、複数のIO24でエラーを検出した場合の障害要因部位やその被疑割合を決定するものである。各ステップの処理は、後述する。   FIG. 3 illustrates processing performed by the failure management system 1 according to this embodiment. This process determines the failure factor site and the suspicious ratio when an error is detected by the MEM 21, the plurality of PROCs 22, the plurality of NCs 23, and the plurality of IOs 24. The process of each step will be described later.

図4は、2つのノードコントローラNC0,NC1で障害を発生したケースを例示している。各ノード0,1は、プロセッサ(PROC0,1)、ノードコントローラ(NC0)、入出力装置(IO 0,1)により構成される。ノード0とノード1は、それぞれNC0,NC1のポート(P1)にCABLE_Aを接続して信号を送受信している。本例では、ノード0から送信したデータにおいて、受信したノード1のNC1がエラーを検出したことを示している。   FIG. 4 illustrates a case where a failure has occurred in the two node controllers NC0 and NC1. Each node 0, 1 is composed of a processor (PROC0, 1), a node controller (NC0), and an input / output device (IO 0, 1). Node 0 and node 1 transmit and receive signals by connecting CABLE_A to the ports (P1) of NC0 and NC1, respectively. In this example, in the data transmitted from the node 0, the received NC1 of the node 1 indicates that an error has been detected.

図5は、FRUテーブル30を例示の一例であり、MEM21、PROC22、NC23、IO24、SVP25のエラー通報を格納するエラーインディケータとそのエラーインディケータが点灯した場合の障害要因部位の名称(NAME)、被疑割合(RATE)、製造ロットあるいはパッケージコンプ(REV)、ベンダー(ID)が登録されている。このフォーマットで障害が検出された事項のみが、前記第1及び第2の障害履歴DB31,32、検査障害DB35、他装置障害DB36に蓄積されており、障害通報時にすでに障害履歴が存在した場合は、エラーカウンタ部がインクリメント"+1"される。尚、本例では、4つのFRUを格納した状態が示されているが、本発明はこれに限定されるものではない。   FIG. 5 shows an example of the FRU table 30. An error indicator for storing an error report of MEM21, PROC22, NC23, IO24, and SVP25, the name of the cause of failure when the error indicator is lit (NAME), suspected A ratio (RATE), a production lot or package comp (REV), and a vendor (ID) are registered. Only the items in which a failure is detected in this format are accumulated in the first and second failure history DBs 31 and 32, the inspection failure DB 35, and the other device failure DB 36, and when a failure history already exists at the time of failure notification The error counter section is incremented by “+1”. In this example, a state in which four FRUs are stored is shown, but the present invention is not limited to this.

図6は、障害通報時に同一箇所の障害履歴にヒットし、被疑割合を補正した場合の計算例である。被疑対象はNC0、NC1、CABLE_A(図4参照)であり、障害履歴がない場合には、障害要因部位と被疑割合は、前記FRUテーブル30の設定当所の値、NC0=50%、NC1=49%、CABLE=1%がコンソールに表示される。一方、障害履歴がある場合には、その回数にも依存するが、例えばNC0の交換により復旧した実績がある場合、設定当所の被疑割合を補正して、NC0=67%、NC1=32%、CABLE=1%としてコンソールに表示する。   FIG. 6 is a calculation example in the case where the failure history at the same location is hit at the time of failure notification and the suspicion rate is corrected. The suspected objects are NC0, NC1, and CABLE_A (see FIG. 4), and when there is no failure history, the failure factor site and the suspected ratio are the values set in the FRU table 30, where NC0 = 50%, NC1 = 49 %, CABLE = 1% is displayed on the console. On the other hand, if there is a failure history, depending on the number of times, for example, if there is a record of recovery by replacement of NC0, the set suspicious ratio is corrected, NC0 = 67%, NC1 = 32%, Display on the console as CABLE = 1%.

図7は、情報処理システム11の構成の増設や縮退に伴う新規リソースを組み込むケース、即ちパーティション構成を変更する状況を例示している。ノード0,1の2ノード構成から更にノード2を情報処理システムに組み込む際に、前記SVP25は、ノード0(NC0)のポート2(P2)、ノード2(NC2)のポート2(P2)、ノード0(NC0)のポート3(P3)、ノード2(NC2)のポート3(P3)における障害履歴の頻度を前記第1の障害履歴DB31および第2の障害履歴DB32から索引し、より障害頻度の低い経路を選択して情報処理システムに組み込むことを指示する。   FIG. 7 exemplifies a case where a new resource is incorporated as the configuration of the information processing system 11 is increased or reduced, that is, a partition configuration is changed. When the node 2 is further incorporated into the information processing system from the two-node configuration of the nodes 0 and 1, the SVP 25 includes the port 2 (P2) of the node 0 (NC0), the port 2 (P2) of the node 2 (NC2), the node The failure frequency in the port 3 (P3) of 0 (NC0) and the port 3 (P3) of the node 2 (NC2) is indexed from the first failure history DB 31 and the second failure history DB 32, and the failure frequency Instructs to select a low route and incorporate it into the information processing system.

以下に、上記構成の障害管理システムにおける動作を説明する。ここでは、情報処理システム1内の複数のノード間を接続し各ノードを制御するNC23間で障害が発生した場合の動作説明を行う。尚、本例では、NC23間を対象としているが、MEM21−PROC22間、PROC22−NC23間、IO24−NC23間、SVP25−MEM21,PROC22,NC23,IO24間において、またMEM21,PROC22,NC23,IO24,SVP25において単体障害が発生した場合でも、同様の処理がなされるものとする。   The operation in the fault management system having the above configuration will be described below. Here, an operation will be described when a failure occurs between the NCs 23 that connect a plurality of nodes in the information processing system 1 and control each node. In this example, the target is between NC23, but between MEM21 and PROC22, between PROC22 and NC23, between IO24 and NC23, between SVP25 and MEM21, PROC22, NC23, and IO24, and also between MEM21, PROC22, NC23, IO24, Even when a single failure occurs in the SVP 25, the same processing is assumed to be performed.

障害通報から障害要因部位およびその被疑割合をコンソールに表示するまでのフローを、図3〜6を参照して説明する。以下、図3のフローについて説明する。   A flow from the failure notification to displaying the failure factor site and the suspicious ratio thereof on the console will be described with reference to FIGS. Hereinafter, the flow of FIG. 3 will be described.

S001:障害検出であり情報処理システムのいずれかの部位(MEM21、PROC22、NC23、IO24、SVP25)でエラーを検出する。   S001: Fault detection, and an error is detected in any part of the information processing system (MEM21, PROC22, NC23, IO24, SVP25).

S002:SVP25へエラーを報告する。   S002: Report an error to SVP25.

S003:サービスプロセッサログを回収する。情報処理システム内のエラーインディケータ(EIF)や各種ステート情報、エラー補助情報を採取する。   S003: Collect the service processor log. An error indicator (EIF), various state information, and error auxiliary information in the information processing system are collected.

S004:S003で回収したログのエラーインディケータ(EIF)をキーとしてFRUテーブル30を索引する。FRUテーブル30には、図5に示す様に各エラーインディケータフラグに応じた複数の障害要因部位名(NAME)、被疑割合(RATE)、レビジョン(REV)、ベンダーID(VID)が登録されている。例えば、NO_EIF_3が"1"となった場合、ノード0とノード1間の障害であることを示し、ノード0のポート1(NCO_P1)とノード1のポート1(NC1_P1)およびポート間を接続するケーブル(CABLE_A)が障害要因部位の対象となり、それぞれ被疑割合が49%、50%、1%として読み出される。また、各障害要因部位に付随する情報(NAME,RATE,REV,VID)も同様に読み出される。   S004: The FRU table 30 is indexed using the error indicator (EIF) of the log collected in S003 as a key. In the FRU table 30, a plurality of failure factor site names (NAME), suspect ratios (RATE), revisions (REV), and vendor IDs (VID) corresponding to each error indicator flag are registered as shown in FIG. . For example, when NO_EIF_3 becomes “1”, this indicates a failure between node 0 and node 1, and port 1 (NCO_P1) of node 0 and port 1 (NC1_P1) of node 1 and a cable connecting the ports (CABLE_A) is the target of the failure factor, and the suspicious ratios are read as 49%, 50%, and 1%, respectively. Further, information (NAME, RATE, REV, VID) associated with each failure factor site is also read out in the same manner.

S005:SVP25からのエラー通報をトリガとしてS004で索引された情報を第1の障害履歴DB31に格納すると同時に、過去に障害履歴があったかを判定し、判定の有無にしたがってS007〜S010の分岐先にデータを送信する。更に、過去に同一の障害履歴があった場合は、N0_EIF_3に対応するエラーカウンタのフィールドが"+1"される。   S005: The information indexed in S004 is stored in the first failure history DB 31 with an error notification from the SVP 25 as a trigger, and at the same time, it is determined whether there has been a failure history in the past, and the branch destinations of S007 to S010 are determined according to the presence / absence of the determination. Send data. Further, when there is the same failure history in the past, the error counter field corresponding to N0_EIF_3 is incremented by "+1".

S006:S005と同様に、SVP25からのエラー通報をトリガとして、他装置障害DB35および検査障害DB36の中に今回発生した障害と一致するものが無いかを判定する。   S006: As in S005, using the error notification from the SVP 25 as a trigger, it is determined whether there is any other device failure DB 35 or inspection failure DB 36 that matches the failure that occurred this time.

S007〜S010は、S005とS006の判定結果により4つの処理に分岐し、いずれか1つの処理が実行される。   S007 to S010 are branched into four processes according to the determination results of S005 and S006, and any one process is executed.

S007:FRU索引データ、S005およびS006から読み出した障害履歴情報をもとに、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位およびその被疑割合の補正の必要性を判定する。   S007: Based on the failure history information read from the FRU index data and S005 and S006, the conditions such as the production lot and the vendor ID are compared and analyzed to determine the necessity of correction of the failure factor site and its suspicious rate.

S008:FRU索引データ、S005から読み出した障害履歴情報をもとに、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位およびその被疑割合の補正の必要性を判定する。   S008: Based on the FRU index data and the failure history information read from S005, the conditions such as the manufacturing lot and the vendor ID are compared and analyzed to determine the necessity of correcting the failure factor site and its suspicious rate.

S009:FRU索引データ、S006から読み出した障害履歴情報をもとに、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位およびその被疑割合の補正の必要性を判定する。   S009: Based on the FRU index data and the failure history information read from S006, the conditions such as the production lot and the vendor ID are compared and analyzed to determine the necessity of correction of the failure factor site and its suspicious rate.

S010:S005およびS006で共にヒットする障害履歴情報がなかったためFRUテーブルの情報をそのまま送信する。   S010: Since there is no failure history information hit in both S005 and S006, the information in the FRU table is transmitted as it is.

S011:S007〜S009で被疑割合の補正が必要と判定された場合、被疑割合を補正する。S010の場合は、何もしない。補正方法は、後述する。   S011: If it is determined in S007 to S009 that the suspicious ratio needs to be corrected, the suspicious ratio is corrected. In the case of S010, nothing is done. The correction method will be described later.

S012:S011の情報をコンソール表示し、保守員へ障害要因部位に関する情報を通知する。   S012: The information of S011 is displayed on the console, and the maintenance staff is notified of information relating to the cause of failure.

次に、情報処理システム11のシステム構成の拡張あるいは縮退に伴う新規部品やパスを組み込む場合、即ち情報処理システム11の論理的又は物理的なパーティション構成の調整に係る動作を説明する。   Next, an operation related to adjustment of a logical or physical partition configuration of the information processing system 11 when a new part or path associated with expansion or contraction of the system configuration of the information processing system 11 is incorporated will be described.

ここでは、図2、図7、図8を参照する。SVP25により第1及び第2の障害履歴DB31,32の情報をデータ収集部40に読み出し、その情報に新規部品の組み込みロケーションや組み込むパスの障害履歴の有無を構成情報解析部44で解析する。例えば、空きスロットルや空きポートが存在する場合に、障害履歴が少ない部位が情報処理システム11に組み込まれる。図7に示すように、ノード0,1の2ノード構成から更にノード2を情報処理システム11に組み込む際に、ノード0(NC0)のポート2(P2)、ノード2(NC2)のポート2(P2)、ノード0(NC0)のポート3(P3)、ノード2(NC2)のポート3(P3)における障害履歴の頻度を、第1及び第2の障害履歴DB31,32からデータ収集部40を介して収集し、構成情報解析部80において、より障害頻度の低い経路が選択される。図8は、エラー発生頻度を例示している。本例では、NCO_P2−NC2_P2間でのエラー頻度が17であるのに対し、NCO_P3−NC2_P3間でのエラー頻度が3であるため、NCO_P3−NC2_P3の経路が障害頻度の低いものとして選択される。SVP25は、この選択結果に基づいて、その経路を情報処理システム11に組み込むことを指示する。SVP25は、信号線c0001(図2参照)を介して各MEM21、PROC22、NC23、IO24へ構成指示を配信し、より安定した情報処理システム11の構成を行う。   Here, reference is made to FIGS. The information of the first and second failure history DBs 31 and 32 is read by the SVP 25 to the data collection unit 40, and the configuration information analysis unit 44 analyzes the location where new parts are incorporated and the presence / absence of failure history of the paths to be incorporated in the information. For example, when there are vacant throttles and vacant ports, a part with a small failure history is incorporated into the information processing system 11. As shown in FIG. 7, when the node 2 is further incorporated into the information processing system 11 from the two-node configuration of the nodes 0 and 1, the port 2 (P2) of the node 0 (NC0) and the port 2 ( P2), the frequency of failure histories in port 3 (P3) of node 0 (NC0) and port 3 (P3) of node 2 (NC2), the data collection unit 40 from the first and second failure history DBs 31 and 32. The configuration information analysis unit 80 selects a path with a lower failure frequency. FIG. 8 illustrates the error occurrence frequency. In this example, the error frequency between NCO_P2-NC2_P2 is 17, whereas the error frequency between NCO_P3-NC2_P3 is 3, so the route of NCO_P3-NC2_P3 is selected as having a low failure frequency. The SVP 25 instructs to incorporate the route into the information processing system 11 based on the selection result. The SVP 25 distributes the configuration instruction to each MEM 21, PROC 22, NC 23, and IO 24 via the signal line c0001 (see FIG. 2), and configures the information processing system 11 more stably.

上記構成により、前記被疑割合は、検知された障害事象と過去の障害事象との比較結果に応じて適正に補正される。また、前記障害履歴情報の誘因履歴は、検知された障害事象が過去の障害事象と一致する場合に自動的にインクリメントされるため、手動による入力作業を軽減することができる。また、前記FRUテーブルを、初期化等の処理を必要とせずに設定当初の状態で維持することができる。   With the above configuration, the suspect ratio is appropriately corrected according to the comparison result between the detected failure event and the past failure event. Further, the trigger history of the fault history information is automatically incremented when the detected fault event matches a past fault event, so that manual input work can be reduced. Further, the FRU table can be maintained in the initial setting state without requiring processing such as initialization.

尚、本発明は上記実施の形態に限られるものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。   Note that the present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention.

1 障害管理システム
2 障害要因部位
3,25 サービスプロセッサ
4 FRU格納部
5 障害履歴格納部
6 障害履歴抽出部
7 補正部
8 障害履歴更新部
9 コンソール部
11 情報処理システム
12 障害情報管理サーバ
21 主記憶(MEM)
22 プロセッサ(PROC)
23 ノードコントローラ(NC)
24 入出力装置(IO)
30 FRUテーブル
31 第1の障害履歴データベース
32 第2の障害履歴データベース
35 他装置障害データベース
36 検査障害データベース
40 データ収集部
41 障害要因解析部
42 障害要因部位被疑割合算出部
43 コンソール
44 構成情報解析部
DESCRIPTION OF SYMBOLS 1 Failure management system 2 Failure factor part 3,25 Service processor 4 FRU storage part 5 Failure history storage part 6 Failure history extraction part 7 Correction part 8 Failure history update part 9 Console part 11 Information processing system 12 Failure information management server 21 Main memory (MEM)
22 Processor (PROC)
23 Node controller (NC)
24 Input / output unit (IO)
30 FRU table 31 1st failure history database 32 2nd failure history database 35 other device failure database 36 inspection failure database 40 data collection unit 41 failure factor analysis unit 42 failure factor part suspect ratio calculation unit 43 console 44 configuration information analysis unit

Claims (6)

情報処理システムを構成する各部位の動作を監視するサービスプロセッサと、
少なくとも、複数種類の障害事象、前記各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が前記障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルを格納するFRU格納部と、
少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報を格納する障害履歴格納部と、
前記サービスプロセッサにより障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出する障害履歴抽出部と、
前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出する補正部と、
当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントする障害履歴更新部と、
前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するコンソール部と、
を備える障害管理システム。
A service processor for monitoring the operation of each part constituting the information processing system;
At least a plurality of types of failure events, identification information of failure factor parts that may cause each of the failure events, and a suspicion ratio indicating that each failure factor part may cause the failure event are associated with each other. A FRU storage unit for storing the FRU table;
Stores fault history information that is configured by associating at least fault events that occurred in the past, the fault factor site that caused each fault event, and the trigger frequency that caused the fault event corresponding to the fault factor site. A failure history storage unit,
When a failure event is detected by the service processor, the failure history information is searched using information for identifying the failure event as a key, and the failure history matches the failure event that has occurred in the past. A failure history extraction unit that extracts the failure factor site having the incentive history that caused the failure event from the information;
Correction obtained by correcting the initial suspicion rate corresponding to the failure factor part of the FRU table according to the cause frequency of the failure factor part when the failure factor part having the cause history is extracted A correction unit for calculating the suspicion rate;
A fault history update unit that increments the incentive frequency corresponding to the fault history information when the relationship between the fault event and the fault factor part matches between the FRU table and the fault history information;
A console unit for displaying the corrected suspicious ratio or the initial suspicious ratio of the FRU table;
Fault management system comprising
前記障害履歴格納部は、自機の前記情報処理システムに関する前記障害履歴情報を格納する第1の障害履歴格納部と、他機の情報処理システムに関する前記障害履歴情報を格納する第2の障害履歴格納部とを備え、
前記障害履歴抽出部及び前記補正部は、前記第1及び第2の障害履歴格納部に格納された情報に基づいて、前記補正被疑割合を算出する、
請求項1に記載の障害管理システム。
The failure history storage unit includes a first failure history storage unit that stores the failure history information related to the information processing system of the own device, and a second failure history that stores the failure history information related to the information processing system of another device. A storage unit,
The failure history extraction unit and the correction unit calculate the corrected suspicion rate based on information stored in the first and second failure history storage units,
The failure management system according to claim 1.
前記情報処理システムの論理的又は物理的なパーティション構成を調整するものであって、前記被疑割合が低い前記部位の使用頻度が増加するように当該調整を行うパーティション調整部、
を更に備える請求項1又は2に記載の障害管理システム。
A partition adjustment unit that adjusts the logical or physical partition configuration of the information processing system, and performs the adjustment so that the use frequency of the part with the low suspicion rate is increased,
The failure management system according to claim 1, further comprising:
少なくとも、複数種類の障害事象、各障害事象を引き起こす可能性のある障害要因部位の識別情報、及び前記各障害要因部位が対応する障害事象を引き起こす可能性を示す被疑割合が対応付けられて構成されるFRUテーブルと、少なくとも、過去に発生した障害事象、各障害事象の要因となった前記障害要因部位、及び前記障害要因部位が対応する障害事象を引き起こした誘因頻度が対応付けられて構成される障害履歴情報とを参照し、前記情報処理システムの障害を管理する障害管理方法であって、
ある障害事象が検知された場合に、当該障害事象を特定する情報をキーとして前記障害履歴情報を検索し、当該障害事象が過去に発生した障害事象と一致する場合に、前記障害履歴情報から当該障害事象を引き起こした誘因履歴のある前記障害要因部位を抽出するステップと、
前記誘因履歴のある障害要因部位が抽出された場合に、当該障害要因部位の前記誘因頻度に応じて、前記FRUテーブルの当該障害要因部位に対応する設定当初の被疑割合を補正して得られる補正被疑割合を算出するステップと、
当該障害事象と当該障害要因部位との関係が、前記FRUテーブルと前記障害履歴情報とで一致する場合に、当該障害履歴情報の相当する前記誘因頻度をインクリメントするステップと、
前記補正被疑割合又は前記FRUテーブルの設定当初の被疑割合を表示するステップと、
を備える障害管理方法。
At least a plurality of types of fault events, identification information of fault factor parts that may cause each fault event, and a suspicious ratio indicating the possibility that each fault factor part causes a corresponding fault event are configured to be associated with each other. The FRU table is associated with at least a failure event that has occurred in the past, the failure factor site that caused each failure event, and the trigger frequency that caused the failure event corresponding to the failure factor site. A failure management method that refers to failure history information and manages failures in the information processing system,
When a failure event is detected, the failure history information is searched using information for identifying the failure event as a key. When the failure event matches a failure event that has occurred in the past, the failure history information Extracting the failure factor site with the incentive history that caused the failure event;
Correction obtained by correcting the initial suspicion rate corresponding to the failure factor part of the FRU table according to the cause frequency of the failure factor part when the failure factor part having the cause history is extracted Calculating a suspicion rate;
When the relationship between the failure event and the failure factor site matches between the FRU table and the failure history information, incrementing the incentive frequency corresponding to the failure history information; and
Displaying the corrected suspect ratio or the initial suspect ratio of the FRU table;
A fault management method comprising:
自機の前記情報処理システムに関する前記障害履歴情報を格納する第1の障害履歴格納部と、他機の情報処理システムに関する前記障害履歴情報を格納する第2の障害履歴格納部とを参照し、前記補正被疑割合を算出する、
請求項4に記載の障害管理方法。
With reference to a first failure history storage unit that stores the failure history information related to the information processing system of the own device, and a second failure history storage unit that stores the failure history information related to the information processing system of another device, Calculating the corrected suspicion rate;
The failure management method according to claim 4.
前記情報処理システムの論理的又は物理的なパーティション構成を調整するものであって、前記補正被疑割合又は前記被疑割合が低い前記部位の使用頻度が増加するように当該調整を行うステップ、
を更に備える請求項4又は5に記載の障害管理方法。
Adjusting the logical or physical partition configuration of the information processing system, and performing the adjustment so that the correction suspect ratio or the use frequency of the part with the low suspect ratio is increased;
The failure management method according to claim 4 or 5, further comprising:
JP2010039899A 2010-02-25 2010-02-25 Fault management system and method Expired - Fee Related JP5505966B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010039899A JP5505966B2 (en) 2010-02-25 2010-02-25 Fault management system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010039899A JP5505966B2 (en) 2010-02-25 2010-02-25 Fault management system and method

Publications (2)

Publication Number Publication Date
JP2011175513A true JP2011175513A (en) 2011-09-08
JP5505966B2 JP5505966B2 (en) 2014-05-28

Family

ID=44688303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010039899A Expired - Fee Related JP5505966B2 (en) 2010-02-25 2010-02-25 Fault management system and method

Country Status (1)

Country Link
JP (1) JP5505966B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182387A (en) * 2012-03-01 2013-09-12 Nec Computertechno Ltd Fault management device, service processor, and fault management method
JP2013186524A (en) * 2012-03-06 2013-09-19 Nec Computertechno Ltd Data processing system, data processing method, data processing program, and transaction measuring circuit
JP2013206105A (en) * 2012-03-28 2013-10-07 Nec Computertechno Ltd Information processing system, maintenance method and program
JP2018010445A (en) * 2016-07-13 2018-01-18 富士通株式会社 Monitoring device, monitoring method, monitoring program and information processing system
WO2024057452A1 (en) * 2022-09-14 2024-03-21 三菱電機ビルソリューションズ株式会社 Estimating device and estimating system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355424A (en) * 2003-05-30 2004-12-16 Hitachi Ltd Fault management system of information processor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355424A (en) * 2003-05-30 2004-12-16 Hitachi Ltd Fault management system of information processor

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182387A (en) * 2012-03-01 2013-09-12 Nec Computertechno Ltd Fault management device, service processor, and fault management method
JP2013186524A (en) * 2012-03-06 2013-09-19 Nec Computertechno Ltd Data processing system, data processing method, data processing program, and transaction measuring circuit
JP2013206105A (en) * 2012-03-28 2013-10-07 Nec Computertechno Ltd Information processing system, maintenance method and program
JP2018010445A (en) * 2016-07-13 2018-01-18 富士通株式会社 Monitoring device, monitoring method, monitoring program and information processing system
WO2024057452A1 (en) * 2022-09-14 2024-03-21 三菱電機ビルソリューションズ株式会社 Estimating device and estimating system

Also Published As

Publication number Publication date
JP5505966B2 (en) 2014-05-28

Similar Documents

Publication Publication Date Title
US7725774B2 (en) Methods, systems, and media to correlate errors associated with a cluster
TW202009705A (en) Method and system for automatically managing a fault event occurring in a datacenter system
CN113328872B (en) Fault repairing method, device and storage medium
WO2011039826A1 (en) Method for designing failure cause analysis rule in accordance with available device information and computer
US8347143B2 (en) Facilitating event management and analysis within a communications environment
JP5505966B2 (en) Fault management system and method
KR101418229B1 (en) Fault diagnosis device and fault diagnosis system for servo control device
JP5423677B2 (en) Failure analysis apparatus, computer program, and failure analysis method
WO2011155023A1 (en) Maintenance operation instance collection apparatus, maintenance operation instance collection method, and maintenance operation instance collection program
US20110060826A1 (en) Detecting and determining availability of a network structure with active connection nodes
JP6880560B2 (en) Failure prediction device, failure prediction method and failure prediction program
EP3598258B1 (en) Risk assessment device, risk assessment system, risk assessment method, and risk assessment program
CN104598341A (en) Approach and system for determining a location of failure between interconnects/controller
CN112966056A (en) Information processing method, device, equipment, system and readable storage medium
US20130179600A1 (en) Device manager and device managing method
JP2012080181A (en) Method and program for fault information management
JP2009230700A (en) Device maintenance system and method
JP5995265B2 (en) Information processing system, maintenance method and program
US20140068338A1 (en) Diagnostic systems for distributed network
JP2009151456A (en) Monitoring system, network monitoring apparatus and service execution environment monitoring method
JP2007257581A (en) Failure analysis device
JP2017167578A (en) Incident management system
JP5964777B2 (en) Priority recovery facility determination device, priority recovery facility determination method, program, and priority recovery facility determination system
JP2010224829A (en) Operation management system
JP7077644B2 (en) Control systems, diagnostic equipment, diagnostic methods, and diagnostic programs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140313

R150 Certificate of patent or registration of utility model

Ref document number: 5505966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees