JP2014048782A - 情報処理装置、及び情報処理装置の障害処理方法 - Google Patents

情報処理装置、及び情報処理装置の障害処理方法 Download PDF

Info

Publication number
JP2014048782A
JP2014048782A JP2012189684A JP2012189684A JP2014048782A JP 2014048782 A JP2014048782 A JP 2014048782A JP 2012189684 A JP2012189684 A JP 2012189684A JP 2012189684 A JP2012189684 A JP 2012189684A JP 2014048782 A JP2014048782 A JP 2014048782A
Authority
JP
Japan
Prior art keywords
failure
bus
notification unit
information
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012189684A
Other languages
English (en)
Inventor
Tsutomu Matsuura
努 松浦
Toshihiro Horiuchi
俊宏 堀内
Shuntaro Fujioka
俊太郎 藤岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012189684A priority Critical patent/JP2014048782A/ja
Priority to US13/971,899 priority patent/US20140068352A1/en
Priority to EP13181153.1A priority patent/EP2713273A2/en
Publication of JP2014048782A publication Critical patent/JP2014048782A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】周辺装置やバスブリッジの障害情報を確実に取得する。
【解決手段】処理装置10と、同処理装置10に第1のバス50を介して接続されるとともに周辺装置30,31と接続するバスブリッジ21と、周辺装置30,31またはバスブリッジ21で発生した障害に係る情報を記憶する不揮発性記憶装置233と、同不揮発性記憶装置233に、第1のバス50とは異なる第2のバス60を介して接続され処理装置10を含むシステムの監視を行なう監視装置40と、周辺装置30,31またはバスブリッジ21で障害が発生した場合に発生した障害に係る情報を不揮発性記憶装置233に記憶するとともに第2のバス60を介して監視装置40にエラーを通知する障害通知部231と、を有する。
【選択図】図2

Description

本発明は、情報処理装置、及び情報処理装置の障害処理方法に関する。
サーバで稼動しているOS(Operating System)は、I/O(Input/Output)デバイス等の周辺装置に対するI/O命令をシリアルまたはパラレルの内部バス経由で発行する。当該I/O命令による内部バス経由でのポーリング時に当該I/O命令に対する応答がなくタイムアウトが検出されると、I/Oデバイスや、当該I/Oデバイスに接続されるバスブリッジ等で障害が発生しているものと認識される。この場合、被疑箇所を特定できないため、保守作業として、障害の生じていないI/Oデバイスやバスブリッジ等を含む部分全体の交換が行なわれる。
保守作業で交換すべき部分である被疑箇所を特定するためには、I/Oデバイスやバスブリッジ等における詳細な障害情報(エラー情報)等を取得する必要がある。そのため、サーバは、内部バス経由でI/Oデバイスやバスブリッジ等から詳細な障害情報等を吸い上げることが考えられる。しかし、例えば、内部バスの経路に障害が発生すると、障害情報等を読み出せなくなるおそれがある。そこで、バスブリッジに接続されている装置の障害情報等を、内部バスとは異なる別経路(診断バス等)経由で保守診断装置に通知することなどが行なわれている。
特開2009−223584号公報 特開2009−217435号公報 特開平11−259383号公報 特開平10−254736号公報
しかしながら、内部バスとは異なる別経路で障害情報等を保守診断装置に通知する場合でも、その別経路を、例えばI2C(Inter-Integrated Circuit)バス等の低速バスで構成すると、複数の障害が発生した場合等に、障害情報を送信しきれずに、障害情報が消失してしまうおそれがある。このように障害情報が消失すると、被疑箇所を特定できず、保守作業に際し、障害の生じていないI/Oデバイスやバスブリッジ等を含む部分全体を交換しなければならなくなる。
一つの側面で、本発明は、周辺装置やバスブリッジの障害情報を確実に取得することを目的とする。
一つの案において、情報処理装置は、処理装置と、前記処理装置に第1のバスを介して接続されるとともに周辺装置と接続するバスブリッジと、前記周辺装置または前記バスブリッジで発生した障害に係る情報を記憶する不揮発性記憶装置と、前記不揮発性記憶装置に前記第1のバスとは異なる第2のバスを介して接続され前記処理装置を含むシステムの監視を行なう監視装置と、前記周辺装置または前記バスブリッジで障害が発生した場合に発生した前記障害に係る情報を前記不揮発性記憶装置に記憶するとともに前記第2のバスを介して前記監視装置にエラーを通知する障害通知部と、を有する。
一実施形態によれば、周辺装置やバスブリッジの障害情報が確実に取得される。
本実施形態の情報処理装置の全体構成を示すブロック図である。 図1に示す情報処理装置におけるPCIボックスの詳細構成を示すブロック図である。 図1に示す情報処理装置におけるサーバの動作を説明するフローチャートである。 図2に示すPCIボックスにおけるI2Cコントローラ(障害通知部)の動作を説明するフローチャートである。 図1に示す情報処理装置におけるシステム制御装置(監視装置)の動作を説明するフローチャートである。 本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。 本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。 本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。 本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。 本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。 本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。 本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。
以下、図面を参照して実施の形態を説明する。
〔1〕本実施形態の情報処理装置の構成
まず、図1および図2を参照しながら、本実施形態の情報処理装置1の構成について説明する。ここで、図1は、本実施形態の情報処理装置1の全体構成を示すブロック図、図2は、図1に示す情報処理装置1におけるPCI(Peripheral Components Interconnect)ボックス20の詳細構成を示すブロック図である。図1に示すように、本実施形態の情報処理装置1は、サーバ10,PCIボックス20,デバイス30およびシステム制御装置40を有している。
〔1−1〕サーバ(処理装置)の構成
サーバ(処理装置)10は、CPU(Central Processing Unit)11,メモリ12,PCI-ex(PCI-express)コントローラ13,I2Cコントローラ14およびLAN(Local Area Network)インタフェース部15を、バス16を介し相互に通信可能に接続して構成される、普遍的な計算機である。
CPU11は、メモリ12に保存されるプログラムを読み出して実行することにより、後述する各種機能を果たす。
メモリ12は、例えば、サーバ10の装置本体内に備えられたRAM(Random Access Memory),ROM(Read Only Memory),HDD(Hard Disk Drive),SSD(Solid State Drive)などである。
PCI-exコントローラ13は、PCI-exバス(内部バス;第1のバス)50のインタフェースとして機能するもので、PCI-exバス50を介して、サーバ10の筐体とは別筐体をもつ後述のPCIボックス20と通信可能に接続されている。
I2Cコントローラ14は、I2Cバス(システム制御バス;第2のバス)70のインタフェースとして機能するもので、I2Cバス70を介して、後述のシステム制御装置40と通信可能に接続されている。
LANインタフェース部15は、LAN80のインタフェースとして機能するもので、LAN80を介して、後述のシステム制御装置40と通信可能に接続されている。
CPU11(サーバ10)で稼動するOSは、I/Oデバイス等の周辺装置(後述のデバイス30)に対するI/O命令を、PCI-exコントローラ13およびPCI-exバス50経由で発行する機能を有している。
CPU11(OS)は、周辺装置(後述のデバイス30)に対するI/Oアクセスを行なった際にPCI-exバス50を介して後述のPCIボックス20側で障害が発生したことを示すエラー応答(第2応答)または割込み(第2割込み)を受けると、以下のような機能を果たす。つまり、CPU11(OS)は、当該エラー応答または当該割込みに含まれる情報(障害情報,エラー情報)に基づき障害解析(第2障害解析;障害の発生した被疑箇所の特定)を行なう機能を果たす。そして、CPU11は、第2障害解析の結果を、LANインタフェース部15およびLAN80経由で後述のシステム制御装置40に通知するとともにロギングする機能を果たす。ロギングは、サーバ10内のメモリ12に対し行なわれるとともに、後述のシステム制御装置40におけるメモリ42(後述)に対しても行なわれる。
また、CPU11(OS)は、周辺装置(後述のデバイス30)に対するI/Oアクセスを行なった際にPCI-exバス50からの応答がなくタイムアウトした場合、以下のような機能を果たす。つまり、CPU11(OS)は、後述のPCIボックス20(当該PCIボックス20に含まれる全要素)のエラーと認識する機能を果たす。そして、CPU11は、その認識結果を、LANインタフェース部15およびLAN80経由で後述のシステム制御装置40に通知するとともにロギングする機能を果たす。ロギングは、サーバ10内のメモリ12に対し行なわれるとともに、後述のシステム制御装置40におけるメモリ42(後述)に対しても行なわれる。
〔1−2〕PCIボックスの構成
PCIボックス20は、サーバ10の筐体とは別の筐体を有し、サーバ10にPCI-exバス50を介して接続され、PCI-exブリッジ21,PCI-exカードスロット22およびI2Cコントローラ23を有している。
PCI-exブリッジ(バスブリッジ)21は、サーバ10にPCI-exバス50を介して接続されるとともに、PCI-exカードスロット22によりPCI-exカード31と結合される。PCIボックス20は、複数のPCI-exカードスロット22を有し、複数のPCI-exカードスロット22のそれぞれにPCI-exカード31を挿入可能に構成される。各PCI-exカードスロット22にPCI-exカード31を挿入することで、PCI-exカード31は、PCIボックス20内に格納される。各PCI-exカード31は、ケーブル32を介して、HDD,LANスイッチ,ハブ等のデバイス(周辺装置)30と接続されている。これにより、サーバ10は、PCI-exバス50,PCI-exブリッジ21,PCI-exカードスロット22,PCI-exカード31およびケーブル32を介し、各デバイス30に対しI/Oアクセスを発行することが可能になっている。
PCI-exブリッジ21およびPCI-exカード31(デバイス30)は、それぞれ、障害が発生すると、障害が発生したことを示すエラー応答(第1応答)または割込み(第1割込み)を、I2Cバス24,25経由で、I2Cコントローラ23に通知する機能を有している。
I2Cコントローラ(障害通知部)23は、後述のシステム制御装置40とPCIボックス20との間のシステム制御関連の情報のやり取り(エラー通知,エラー情報(障害情報)の収集,電源関連制御等)を行なう。このため、I2Cコントローラ23は、PCI-exバス(第1のバス)50とは異なるI2Cバス(第2のバス)60を介して後述のシステム制御装置40に接続される。また、I2Cコントローラ23は、I2Cバス24を介してPCI-exブリッジ21に接続されるとともに、I2Cバス25を介してPCI-exカードスロット22経由で、PCI-exカードスロット22に挿入されたPCI-exカード31(デバイス30)に接続される。ここで、I2Cは、PCIに比べ低速であるが低コストな通信手段である。
また、I2Cコントローラ23は、図2に示すように、処理部231,メモリ232および不揮発性メモリ233を有している。
処理部231は、メモリ232に保存されるプログラムを読み出して実行することにより、後述する障害通知部としての機能を果たす。メモリ232は、例えば、RAM,ROM,HDD,SSDなどである。
不揮発性メモリ(不揮発性記憶装置;フラッシュメモリ)233は、処理部231によって制御され、PCIボックス20の構成部品で発生した障害に係る情報(以下「障害情報」もしくは「エラー情報」という)を記憶する。ここで、PCIボックス20の構成部品は、上述したPCI-exブリッジ21,PCI-exカード31,デバイス30を含む。また、障害情報(エラー情報)は、PCI-exブリッジ21,PCI-exカード31,デバイス30のレジスタにレジスタ情報として保持されるもので、部品識別子,エラー状態等の情報を含み、システム制御装置40によるエラー解析に活用される。
なお、不揮発性メモリ233は、PCIボックス20(I2Cコントローラ23)に対して挿抜可能に装着されている。従って、必要に応じて不揮発性メモリ233をPCIボックス20から取り外し他の処理装置に接続することで、他の処理装置において不揮発性メモリ233に蓄積された障害情報を障害解析に用いることが可能になっている。
処理部(障害通知部)231は、障害が発生し障害の発生した構成部品からI2Cバス24,25経由でエラー応答(第1応答)または割込み(第1割込み)を受けると、障害の発生した構成部品からI2Cバス24,25経由でレジスタ情報(障害情報)を読み出して不揮発性メモリ233に蓄積する機能を果たす。また、処理部231は、障害情報を不揮発性メモリ233に蓄積するとともに、I2Cバス(第2のバス)60を介してシステム制御装置40にエラーを通知する機能を果たす。
また、処理部(障害通知部)231は、システム制御装置40からI2Cバス60経由で不揮発性メモリ233の障害情報の読出要求を受けると、不揮発性メモリ233に記憶された障害情報をI2Cバス60経由でシステム制御装置40に送信する機能を果たす。
さらに、処理部(障害通知部)231は、システム制御装置40からのアライブチェックのアクセス(後述)を受けると、I2Cコントローラ23の状態等を示すレジスタ情報(障害が生じている場合にはエラー情報)をI2Cバス60経由でシステム制御装置40に送信する機能を果たす。
〔1−3〕システム制御装置(監視装置)の構成
システム制御装置(監視装置)40は、サーバ10およびPCIボックス20を含むシステムの監視を行なうSVP(SerVice Processor)であり、システム制御バスとしてのI2Cバス70,60を介して、それぞれサーバ10およびPCIボックス20に接続されている。
また、システム制御装置40は、図1に示すように、CPU41,メモリ42,I2Cコントローラ43およびLANインタフェース部44を、バス45を介し相互に通信可能に接続して構成される。
CPU41は、メモリ42に保存されるプログラムを読み出して実行することにより、後述する各種機能を果たす。メモリ42は、例えば、RAM,ROM,HDD,SSDなどである。
I2Cコントローラ43は、I2Cバス70,60のインタフェースとして機能するもので、I2Cバス70,60を介して、それぞれサーバ10(I2Cコントローラ14)およびPCIボックス20(I2Cコントローラ23)と通信可能に接続されている。
LANインタフェース部44は、LAN80のインタフェースとして機能するもので、LAN80を介して、サーバ10(LANインタフェース部15)と通信可能に接続されている。
そして、CPU41(システム制御装置40)は、以下のような各種機能を果たす。
CPU41は、PCIボックス20のI2Cコントローラ23からエラーの通知を受けると、I2Cバス60を介して不揮発性メモリ233に記憶された障害情報を読み出し、読み出した障害情報に基づき障害解析(第1障害解析;障害の発生した被疑箇所の特定)を行なう。そして、CPU41は、第1障害解析の結果をオペレータに通知するとともにメモリ42にロギングする機能を果たす。
なお、障害解析の結果の通知は、システム制御装置40におけるモニタ等を用い、オペレータに対して行なわれ、当該通知を参照したオペレータは、後述するごとく、被疑対象の部品交換等の保守作業を行なう。
このとき、CPU41は、PCIボックス20の不揮発性メモリ233の障害情報に基づいて得られた第1障害解析の結果と、LAN80経由でサーバ10から通知される第2障害解析の結果との両方を得た場合、第1障害解析の結果を優先的にオペレータに通知する。
サーバ10がデバイス30に対するI/Oアクセスを行なった際にPCI-exバス50からの応答がない場合、CPU41は、I2Cバス60を介して不揮発性メモリ233に記憶された障害情報を読み出し、読み出した障害情報に基づき障害解析(第1障害解析;障害の発生した被疑箇所の特定)を行なう。そして、CPU41は、第1障害解析の結果をオペレータに通知するとともにメモリ42にロギングする機能を果たす。
CPU41は、PCIボックス20を監視すべく、PCIボックス20のI2Cコントローラ23に対し、アライブチェックのアクセスを、定期的または不定期的に行なう機能を有している。アライブチェックとは、I2Cコントローラ23が正常に動作しているか否かのチェックである。なお、CPU41は、サーバ10を監視すべく、サーバ10のI2Cコントローラ14に対してもアライブチェックのアクセスを行なうが、ここではその詳細な説明は省略する。
CPU41は、PCIボックス20のI2Cコントローラ23に対するアクセスを行なった際にI2Cコントローラ23から障害が発生したことを示すエラー情報を受けると、そのエラー情報に基づき障害解析(第3障害解析)を行なう。そして、CPU41は、第3障害解析の結果をオペレータに通知するとともにメモリ42にロギングする機能を果たす。
CPU41は、PCIボックス20のI2Cコントローラ23に対するアクセスを行なった際にI2Cコントローラ23からの応答がなくタイムアウトした場合、I2Cコントローラ23で障害が発生したものと認識する。つまり、CPU41は、I2Cコントローラ23に含まれる全要素を被疑箇所として認識し、その旨をオペレータに通知するとともにメモリ42にロギングする機能を果たす。
CPU41は、I2Cコントローラ23で障害が発生した旨の通知後のI2Cコントローラ23の交換に伴い障害が復旧した場合、I2Cコントローラ23を被疑箇所として断定し、その旨をオペレータに通知するとともにメモリ42にロギングする機能を果たす。
一方、CPU41は、I2Cコントローラ23で障害が発生した旨の通知後にI2Cコントローラ23の交換を行なっても障害が復旧しない場合、I2Cコントローラ23に接続される構成部品を被疑箇所として認識する。つまり、CPU41は、PCIボックス20側の、I2Cコントローラ23を除く構成部品全体を被疑箇所として認識し、その旨をオペレータに通知するとともにメモリ42にロギングする機能を果たす。
〔2〕本実施形態の情報処理装置の動作
次に、図3〜図5を参照しながら、上述のごとく構成された本実施形態の情報処理装置1における、サーバ10(CPU11)の動作、PCIボックス20のI2Cコントローラ23(障害通知部231)の動作、および、システム制御装置40(CPU41)の動作について説明する。
〔2−1〕サーバの動作
図3に示すフローチャート(ステップS11〜S18)に従って、図1に示す情報処理装置1におけるサーバ10(CPU11)の動作について説明する。
CPU11は、デバイス30に対するI/Oアクセスを発行すると(ステップS11のYESルート)、当該I/Oアクセスに対する正常応答を受信したか否かを判定する(ステップS12)。CPU11は、当該I/Oアクセスに対する正常応答を受信すると(ステップS12のYESルート)、ステップS11の処理に戻り、I/Oアクセスの発行を待機する。
一方、CPU11は、当該I/Oアクセスに対する正常応答がない場合(ステップS12のNOルート)、PCI-exバス50を介してPCIボックス20側で障害が発生したことを示すエラー応答または割込みを受信したか否かを判定する(ステップS13)。CPU11は、エラー応答または割込みを受信すると(ステップS13のYESルート)、当該エラー応答または当該割込みに含まれる障害情報に基づき障害解析(第2障害解析)を行ない、障害の発生した被疑箇所を特定する(ステップS14)。そして、CPU11は、その障害解析の結果を、LANインタフェース部15およびLAN80経由でシステム制御装置40に通知するとともにロギングし(ステップS15)、ステップS11の処理に戻る。
また、CPU11は、I/Oアクセスに対する正常応答やエラー応答/割込みがないまま(ステップS13のNOルート)、タイムアウト(所定時間経過)したか否かを判定する(ステップS16)。タイムアウトしていない場合(ステップS16のNOルート)、CPU11は、ステップS12の処理に戻る。一方、タイムアウトした場合(ステップS16のYESルート)、CPU11は、PCIボックス20に含まれる全要素を被疑箇所として認識する(ステップS17)。そして、CPU11は、その認識結果を、LANインタフェース部15およびLAN80経由でシステム制御装置40に通知するとともにロギングし(ステップS18)、ステップS11の処理に戻る。
〔2−2〕障害通知部の動作
図4に示すフローチャート(ステップS21〜S29)に従って、図2に示すPCIボックス20におけるI2Cコントローラ23(障害通知部231)の動作について説明する。
障害通知部231は、PCIボックス20の構成部品であるPCI-exブリッジ21やPCI-exカード31(デバイス30)から、I2Cバス24,25経由で、障害が発生したことを示すエラー応答または割込みを受信したか否かを判定する(ステップS21)。障害通知部231は、エラー応答または割込みを受信すると(ステップS21のYESルート)、障害の発生した構成部品からI2Cバス24,25経由でレジスタ情報(障害情報)を読み出して不揮発性メモリ233に蓄積する(ステップS22,S23)。そして、障害通知部231は、I2Cバス60を介してシステム制御装置40にエラーを通知し(ステップS24)、ステップS21の処理に戻る。
一方、障害通知部231は、エラー応答または割込みを受信していない場合(ステップS21のNOルート)、システム制御装置40から、I2Cバス60経由で、障害情報の読出要求を受信したか否かを判定する(ステップS25)。ここで、障害情報の読出要求は、障害通知部231が通知したエラーに応じてシステム制御装置40(CPU41)によって発行されるものである。障害通知部231は、システム制御装置40からI2Cバス60経由で不揮発性メモリ233の障害情報の読出要求を受けると(ステップS25のYESルート)、不揮発性メモリ233に記憶された障害情報を読み出しI2Cバス60経由でシステム制御装置40に送信し(ステップS26,S27)、ステップS21の処理に戻る。
障害通知部231は、不揮発性メモリ233の障害情報の読出要求を受信していない場合(ステップS25のNOルート)、システム制御装置40からのアライブチェックのアクセスを受信したか否かを判定する(ステップS28)。障害通知部231は、システム制御装置40からのアライブチェックのアクセスを受けると(ステップS28のYESルート)、I2Cコントローラ23の状態等を示すレジスタ情報(エラー情報)をI2Cバス60経由でシステム制御装置40に送信し(ステップS29)、ステップS21の処理に戻る。なお、障害通知部231は、システム制御装置40からのアライブチェックのアクセスを受信していない場合(ステップS28のNOルート)、ステップS21の処理に戻る。
〔2−3〕システム制御装置(監視装置)の動作
図5に示すフローチャート(ステップS31〜S52)に従って、図1に示す情報処理装置1におけるシステム制御装置40(CPU41)の動作について説明する。
CPU41は、PCIボックス20のI2Cコントローラ23からI2Cバス60経由でエラーの通知を受けたか否かを判定する(ステップS31)。CPU41は、PCIボックス20のI2Cコントローラ23からエラーの通知を受けると(ステップS31のYESルート)、I2Cバス60を介し不揮発性メモリ233に記憶された障害情報の読出要求を発行する(ステップS32)。CPU41は、読出要求発行後、不揮発性メモリ233からの障害情報を受信すると(ステップS33)、読み出した障害情報に基づき障害解析(第1障害解析)を行ない、障害の発生した被疑箇所を特定する(ステップS34)。そして、CPU41は、第1障害解析の結果をオペレータに通知するとともにメモリ42にロギングし(ステップS35)、ステップS31の処理に戻る。
CPU41は、PCIボックス20のI2Cコントローラ23からエラーの通知を受けていない場合(ステップS31のNOルート)、サーバ10からLAN80経由で第2障害解析の結果を受信したか否かを判定する(ステップS36)。CPU41は、サーバ10から第2障害解析の結果を受信した場合(ステップS36のYESルート)、当該第2障害解析に対応する第1障害解析の結果がCPU41で取得されているか否かを判定する(ステップS37)。CPU41は、当該第2障害解析に対応する第1障害解析の結果が取得されている場合(ステップS37のYESルート)、第1障害解析の結果を優先的にオペレータに通知しメモリ42にロギングし(ステップS38)、ステップS31の処理に戻る。そして、CPU41は、当該第2障害解析に対応する第1障害解析の結果が取得されていない場合(ステップS37のNOルート)、第2障害解析の結果をオペレータに通知しメモリ42にロギングし(ステップS39)、ステップS31の処理に戻る。なお、第1障害解析の結果は、上述したように、CPU41において、PCIボックス20の不揮発性メモリ233の障害情報に基づいて行なわれた障害解析の結果である。また、第2障害解析の結果は、上述したように、LAN80経由でサーバ10から通知される、サーバ10で行なわれた障害解析の結果である。
CPU41は、サーバ10から第2障害解析の結果を受信していない場合(ステップS36のNOルート)、アライブチェックのアクセスをPCIボックス20のI2Cコントローラ23に対して発行したか否かを判定する(ステップS40)。CPU41は、アライブチェックのアクセスを発行していない場合(ステップS40のNOルート)、ステップS31の処理に戻る。
CPU41は、アライブチェックのアクセスをPCIボックス20に対して発行した場合(ステップS40のYESルート)、当該アクセスに応じ、I2Cコントローラ23からI2Cバス60経由でレジスタ情報を受信したか否かを判定する(ステップS41)。CPU41は、レジスタ情報を受信すると(ステップS41のYESルート)、受信したレジスタ情報がエラー情報か否かを判定し(ステップS42)、エラー情報でなければ(ステップS42のNOルート)、ステップS31の処理に戻る。一方、CPU41は、レジスタ情報がエラー情報であれば(ステップS42のYESルート)、当該エラー情報に基づき障害解析(第3障害解析)を行ない、障害の発生した被疑箇所を特定する(ステップS43)。そして、CPU41は、第3障害解析の結果をオペレータに通知するとともにメモリ42にロギングし(ステップS44)、ステップS31の処理に戻る。
CPU41は、レジスタ情報を受信していない場合(ステップS41のNOルート)、I2Cコントローラ23からの応答がないままタイムアウト(所定時間経過)したか否かを判定する(ステップS45)。タイムアウトしていない場合(ステップS45のNOルート)、CPU41は、ステップS41の処理に戻る。一方、タイムアウトした場合(ステップS45のYESルート)、CPU41は、PCIボックス20のI2Cコントローラ23に含まれる全要素を被疑箇所として認識する(ステップS46)。そして、CPU41は、その認識結果をオペレータに通知するとともにメモリ42にロギングする(ステップS47)。
この後、CPU41は、I2Cコントローラ23で障害が発生した旨の通知後のI2Cコントローラ23の交換に伴い障害が復旧したか否かを判定する(ステップS48)。CPU41は、障害が復旧した場合(ステップS48のYESルート)、I2Cコントローラ23を被疑箇所として断定し(ステップS49)、その旨をオペレータに通知するとともにメモリ42にロギングし(ステップS50)、ステップS31の処理に戻る。一方、CPU41は、障害が復旧しない場合(ステップS48のNOルート)、PCIボックス20側の、I2Cコントローラ23を除く構成部品全体を被疑箇所として認識する(ステップS51)。そして、CPU41は、その認識結果をオペレータに通知するとともにメモリ42にロギングし(ステップS52)、ステップS31の処理に戻る。
〔3〕本実施形態の情報処理装置を用いた具体的な保守作業手順
次に、図6〜図12を参照しながら、本実施形態の情報処理装置1を用いた具体的な保守作業手順について説明する。なお、図6〜図12は、それぞれ、本実施形態の情報処理装置1を用いた具体的な保守作業手順を示すフローチャートである。
〔3−1〕まず、サーバ10がI/Oアクセスを行なった際にPCIボックス20側からエラー応答または割込みが返され、且つ、障害発生箇所(被疑箇所)がPCI-exカード31(または当該カード31に接続されたデバイス30)である場合の、具体的な保守作業手順について、図6および図7を参照しながら説明する。
図6は、サーバ10に係る動作/手順(ステップA11〜A16)を示すフローチャートで、システム制御装置40側において、不揮発性メモリ233の障害情報に基づいて行なわれる障害解析の結果が取得されず、サーバ10での障害解析の結果が取得された場合の動作/手順を示す。
ステップA11: サーバ10(CPU11)で稼働しているOSがI/Oアクセスを発行すると、これに伴い、PCI-exバス50を経由してI/Oアクセスコマンドが発行される。
ステップA12: PCI-exカード31で障害が発生しているため、I/Oアクセスコマンドが到達したPCI-exカード31からPCI-exブリッジ21にエラー応答が到達する。
ステップA13: PCI-exブリッジ21からPCI-exバス50を経由しサーバ10へエラー応答または割込みが返信される。
ステップA14: サーバ10のOSにおいて、障害解析(エラー解析)が行なわれ、障害解析結果がLAN80経由でシステム制御装置40に通知される。[図3のステップS14,S15に対応]
ステップA15: サーバ10から通知された、PCI-exカード31で障害が発生したことを示す障害解析結果が、システム制御装置40により、オペレータに通知されるとともに、メモリ42にロギングされる。[図3のステップS15に対応]
ステップA16: 保守担当者(オペレータ)は、システム制御装置40によって通知された障害解析結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたPCI-exカード31(またはデバイス30)を判別し交換する。
このように、PCI-exカード31で障害が発生している場合、システム制御装置40側でも障害を検出する可能性がある。本実施形態では、システム制御装置40側で障害が検出された場合、サーバ10側で得られた障害解析結果よりも、システム制御装置40側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。図7は、このような場合における、I2Cコントローラ23およびシステム制御装置40に係る動作/手順(ステップA21〜A26)を示すフローチャートである。
ステップA21: PCI-exカード31での障害発生に伴い、PCI-exカード31からI2Cコントローラ23に対する割込みが発生する。障害通知部231は、当該割込みに応じ、PCI-exカード31のレジスタ情報(エラー情報)をI2Cバス25経由で吸い上げ、不揮発性メモリ233に蓄積する。[図4のステップS22,S23に対応]
ステップA22: 障害通知部231は、I2Cバス(システム制御バス)60を経由して、システム制御装置40にエラーを通知する。[図4のステップS24に対応]
ステップA23: システム制御装置40(CPU41)は、エラー通知に応じ、I2Cバス60経由で、不揮発性メモリ233に格納されたエラー情報を吸い上げる。[図5のステップS33に対応]
ステップA24: システム制御装置40は、吸い上げたエラー情報に基づき障害解析(エラー解析)を行なう。[図5のステップS34に対応]
ステップA25: システム制御装置40は、障害解析結果をオペレータに通知するとともに、メモリ42にロギングする。[図5のステップS35に対応]
ステップA26: 保守担当者(オペレータ)は、システム制御装置40によって通知された障害解析結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたPCI-exカード31(またはデバイス30)を判別し交換する。
〔3−2〕次に、サーバ10がI/Oアクセスを行なった際にPCIボックス20側からエラー応答または割込みが返され、且つ、障害発生箇所(被疑箇所)がPCI-exブリッジ21である場合の、具体的な保守作業手順について、図8および図9を参照しながら説明する。
図8は、サーバ10に係る動作/手順(ステップA31〜A35)を示すフローチャートで、システム制御装置40側において、不揮発性メモリ233の障害情報に基づいて行なわれる障害解析の結果が取得されず、サーバ10での障害解析の結果が取得された場合の動作/手順を示す。
ステップA31: サーバ10で稼働しているOSがI/Oアクセスを発行すると、これに伴い、PCI-exバス50を経由してI/Oアクセスコマンドが発行される。
ステップA32: PCI-exブリッジ21で障害が発生しているため、I/Oアクセスコマンドが到達したPCI-exブリッジ21でエラーが認識される。これに伴い、PCI-exブリッジ21からPCI-exバス50を経由しサーバ10へエラー応答または割込みが返信される。
ステップA33: サーバ10のOSにおいて、障害解析(エラー解析)が行なわれ、障害解析結果がLAN80経由でシステム制御装置40に通知される。[図3のステップS14,S15に対応]
ステップA34: サーバ10から通知された、PCI-exブリッジ21で障害が発生したことを示す障害解析結果が、システム制御装置40により、オペレータに通知されるとともに、メモリ42にロギングされる[図3のステップS15に対応]。
ステップA35: 保守担当者(オペレータ)は、システム制御装置40によって通知された障害解析結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたPCI-exブリッジ21を判別し交換する。
このように、PCI-exブリッジ21で障害が発生している場合、システム制御装置40側でも障害を検出する可能性がある。本実施形態では、システム制御装置40側で障害が検出された場合、サーバ10側で得られた障害解析結果よりも、システム制御装置40側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。図9は、このような場合における、I2Cコントローラ23およびシステム制御装置40に係る動作/手順(ステップA41〜A46)を示すフローチャートである。
ステップA41: PCI-exブリッジ21での障害発生に伴いPCI-exブリッジ21からI2Cコントローラ23に対する割込みが発生する。障害通知部231は、当該割込みに応じ、PCI-exカード31のレジスタ情報(エラー情報)をI2Cバス24経由で吸い上げ、不揮発性メモリ233に蓄積する。[図4のステップS22,S23に対応]
ステップA42: 障害通知部231は、I2Cバス(システム制御バス)60を経由して、システム制御装置40にエラーを通知する。[図4のステップS24に対応]
ステップA43: システム制御装置40(CPU41)は、エラー通知に応じ、I2Cバス60経由で、不揮発性メモリ233に格納されたエラー情報を吸い上げる。[図5のステップS33に対応]
ステップA44: システム制御装置40は、吸い上げたエラー情報に基づき障害解析を行なう。[図5のステップS34に対応]
ステップA45: システム制御装置40は、障害解析結果をオペレータに通知するとともに、メモリ42にロギングする。[図5のステップS35に対応]
ステップA46: 保守担当者(オペレータ)は、システム制御装置40によって通知された障害解析結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたPCI-exブリッジ21を判別し交換する。
〔3−3〕次に、サーバ10がI/Oアクセスを行なった際にPCIボックス20側から応答がなくタイムアウトになり、且つ、障害発生箇所(被疑箇所)がPCI-exカード31である場合の、具体的な保守作業手順について、図10および図7を参照しながら説明する。図10は、上述した場合の、サーバ10に係る動作/手順(ステップA51〜A54)を示すフローチャートである。
ステップA51: サーバ10で稼働しているOSがI/Oアクセスを発行すると、これに伴い、PCI-exバス50を経由してI/Oアクセスコマンドが発行される。
ステップA52: PCIボックス20側から応答がなくタイムアウト。
ステップA53: サーバ10のOSにおいて、PCIボックス20に含まれる全要素が被疑箇所として認識され、認識結果がLAN80経由でシステム制御装置40に通知される。[図3のステップS17に対応]
ステップA54: サーバ10から通知された認識結果が、システム制御装置40により、オペレータに通知されるとともに、メモリ42にロギングされる。[図3のステップS18に対応]
このような認識結果を参照した保守担当者(オペレータ)は、実際にはPCIボックス20内のPCI-exカード31で障害が発生し障害PCI-exカード31のみの交換を行なえばよいにも係わらず、PCIボックス20の全体を交換することになってしまう。
被疑箇所を特定するためには詳細な障害情報(エラー情報)が必要になる。そこで、本実施形態では、システム制御装置40側で障害が検出された場合、サーバ10側で得られた障害解析結果よりも、システム制御装置40側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。このとき、図7と同様の動作/手順(ステップA21〜A26)が実行される。
ステップA21: PCI-exカード31での障害発生に伴い、PCI-exカード31からI2Cコントローラ23に対する割込みが発生する。障害通知部231は、当該割込みに応じ、PCI-exカード31のレジスタ情報(エラー情報)をI2Cバス25経由で吸い上げ、不揮発性メモリ233に蓄積する。[図4のステップS22,S23に対応]
ステップA22: 障害通知部231は、I2Cバス(システム制御バス)60を経由して、システム制御装置40にエラーを通知する。[図4のステップS24に対応]
ステップA23: システム制御装置40(CPU41)は、エラー通知に応じ、I2Cバス60経由で、不揮発性メモリ233に格納されたエラー情報を吸い上げる。[図5のステップS33に対応]
ステップA24: システム制御装置40は、吸い上げたエラー情報に基づき障害解析を行なう。[図5のステップS34に対応]
ステップA25: システム制御装置40は、障害解析結果をオペレータに通知するとともに、メモリ42にロギングする。[図5のステップS35に対応]
ステップA26: 保守担当者(オペレータ)は、システム制御装置40によって通知された障害解析結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたPCI-exカード31を判別し交換する。
〔3−4〕次に、サーバ10がI/Oアクセスを行なった際にPCIボックス20側から応答がなくタイムアウトになり、且つ、障害発生箇所(被疑箇所)がPCI-exブリッジ21である場合の、具体的な保守作業手順について、図10および図9を参照しながら説明する。この場合も、サーバ10では、図10と同様の動作/手順(ステップA51〜A54)が実行される。
ステップA51: サーバ10で稼働しているOSがI/Oアクセスを発行すると、これに伴い、PCI-exバス50を経由してI/Oアクセスコマンドが発行される。
ステップA52: PCIボックス20側から応答がなくタイムアウト。
ステップA53: サーバ10のOSにおいて、PCIボックス20に含まれる全要素が被疑箇所として認識され、認識結果がLAN80経由でシステム制御装置40に通知される。[図3のステップS17に対応]
ステップA54: サーバ10から通知された認識結果が、システム制御装置40により、オペレータに通知されるとともに、メモリ42にロギングされる。[図3のステップS18に対応]
このような認識結果を参照した保守担当者(オペレータ)は、実際にはPCIボックス20内のPCI-exブリッジ21で障害が発生し障害PCI-exブリッジ21のみの交換を行なえばよいにも係わらず、PCIボックス20の全体を交換することになってしまう。
被疑箇所を特定するために、詳細な障害情報(エラー情報)が必要になる。そこで、本実施形態では、システム制御装置40側で障害が検出された場合、サーバ10側で得られた障害解析結果よりも、システム制御装置40側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。このとき、図9と同様の動作/手順(ステップA41〜A46)が実行される。
ステップA41: PCI-exブリッジ21での障害発生に伴いPCI-exブリッジ21からI2Cコントローラ23に対する割込みが発生する。障害通知部231は、当該割込みに応じ、PCI-exカード31のレジスタ情報(エラー情報)をI2Cバス24経由で吸い上げ、不揮発性メモリ233に蓄積する。[図4のステップS22,A23に対応]
ステップA42: 障害通知部231は、I2Cバス(システム制御バス)60を経由して、システム制御装置40にエラーを通知する。[図4のステップS24に対応]
ステップA43: システム制御装置40(CPU41)は、エラー通知に応じ、I2Cバス60経由で、不揮発性メモリ233に格納されたエラー情報を吸い上げる。[図5のステップS33に対応]
ステップA44: システム制御装置40は、吸い上げたエラー情報に基づき障害解析を行なう。[図5のステップS34に対応]
ステップA45: システム制御装置40は、障害解析結果をオペレータに通知するとともに、メモリ42にロギングする。[図5のステップS35に対応]
ステップA46: 保守担当者(オペレータ)は、システム制御装置40によって通知された障害解析結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたPCI-exブリッジ21を判別し交換する。
〔3−5〕次に、システム制御装置40がアライブチェックのアクセスをPCIボックス20のI2Cコントローラ23に対し行なった際にI2Cコントローラ23からエラー応答または割込みが返信された場合の、具体的な保守作業手順について、図11を参照しながら説明する。図11は、上述した場合の、システム制御装置40およびI2Cコントローラ23に係る動作/手順(ステップA61〜A65)を示すフローチャートである。
ステップA61: システム制御装置40(CPU41)が、アライブチェックのアクセスをI2Cバス60経由でPCIボックス20のI2Cコントローラ23に対し発行する。
ステップA62: I2Cコントローラ23は、アライブチェックのアクセスに応じ、レジスタ情報(エラー情報)を含むエラー応答または割込みを、I2Cバス60経由でシステム制御装置40に送信する。[図4のステップS29に対応]
ステップA63: システム制御装置40は、エラー情報を受信すると、当該エラー情報に基づき障害解析を行なう。[図5のステップS43に対応]
ステップA64: システム制御装置40は、障害解析結果をオペレータに通知するとともに、メモリ42にロギングする。[図5のステップS44に対応]
ステップA65: 保守担当者(オペレータ)は、システム制御装置40によって通知された障害解析結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたI2Cコントローラ23を判別し交換する。
〔3−6〕次に、システム制御装置40がアライブチェックのアクセスをPCIボックス20のI2Cコントローラ23に対し行なった際にI2Cコントローラ23側から応答がなくタイムアウトした場合の、具体的な保守作業手順について、図12を参照しながら説明する。図12は、上述した場合の、システム制御装置40に係る動作/手順(ステップA71〜A82)を示すフローチャートである。
ステップA71: システム制御装置40(CPU41)が、アライブチェックのアクセスをI2Cバス60経由でPCIボックス20のI2Cコントローラ23に対し発行する。
ステップA72: PCIボックス20のI2Cコントローラ23側から応答がなくタイムアウト。
ステップA73: システム制御装置40は、PCIボックス20のI2Cコントローラ23に含まれる全要素を被疑箇所として認識する。[図5のステップS46に対応]
ステップA74: システム制御装置40は、認識結果をオペレータに通知するとともに、メモリ42にロギングする。[図5のステップS47に対応]
ステップA75: 保守担当者(オペレータ)は、システム制御装置40によって通知された認識結果、あるいは、メモリ42に保存されたログを参照して、障害の生じたI2Cコントローラ23を判別し交換する。
ステップA76: システム制御装置40もしくは保守担当者は、ステップA75での交換に伴い障害が復旧したか否かを判定する。[図5のステップS48に対応]
ステップA77: 障害が復旧した場合(ステップS76のYESルート)、システム制御装置40は、I2Cコントローラ23を被疑箇所として断定し、その旨を保守担当者に通知するとともにメモリ42にロギングして処理を終了する。これに伴い、保守担当者による保守作業も完了する。[図5のステップS49,S50に対応]
ステップA78: 障害が復旧しない場合(ステップS76のNOルート)、システム制御装置40は、PCIボックス20側の、I2Cコントローラ23を除く構成部品全体を被疑箇所として認識し、その認識結果を保守担当者に通知するとともにメモリ42にロギングする。[図5のステップS51,S52に対応]
ステップA79: 通知内容やログを参照した保守担当者は、PCIボックス20をシステム(サーバ10)に接続したままPCIボックス20を成す各要素の切り分け作業が許されるか否かを確認する。
ステップA80: 切り分け作業が許される場合(ステップA79のYESルート)、保守担当者は、PCIボックス20を成す要素を一つずつ交換し交換に伴い障害が復旧したか否かを確認することにより、被疑箇所を特定する。このような作業により被疑箇所が特定され、被疑箇所の要素の交換によって障害が復旧すれば、保守担当者による保守作業は完了する。
ステップA81: 顧客の都合等により、切り分け作業が許されないこともある。その際には(ステップA79のNOルート)、保守担当者は、I2Cコントローラ23を除くPCIボックス20の構成部品全体を新たなPCIボックス20に交換する。
ステップA82: PCIボックス20の交換後、保守担当者は、被疑箇所を特定できていないPCIボックス20を工場に送付し、被疑箇所を特定できていないPCIボックス20の障害の再現試験を行なう。その際に、I2Cコントローラ23に含まれる不揮発性メモリ233に蓄積された障害情報が読み出され、読み出された障害情報に基づき、PCIボックス20における被疑箇所が特定される。そして、特定された被疑箇所に係る部品(要素)が、新たな部品に交換される。この交換作業によって障害が復旧すれば、保守担当者による保守作業は完了する。
〔4〕本実施形態の情報処理装置の効果
既存の技術では、PCI-exバス50とは異なる別経路で障害情報等を、保守診断装置に相当するシステム制御装置40に通知する場合、その別経路を例えばI2Cバス等の低速バスで構成すると、複数の障害が発生した場合等に、障害情報を送信しきれずに、障害情報が消失してしまうおそれがあった。
これに対し、本実施形態の情報処理装置1によれば、障害が発生した場合に障害情報の詳細は不揮発性メモリ233に蓄積されるため、消失することなく、また電源のオン/オフに関係なく、確実に不揮発性メモリ233に保存される。そして、I2Cバス(第2のバス)60経由でシステム制御装置40に対しエラー通知が行なわれると、システム制御装置40が不揮発性メモリ233から障害情報を順次読み出すように構成される。
したがって、PCIボックス20におけるPCI-exブリッジ21やPCI-exカード31(デバイス30)の障害情報が確実に取得され、被疑箇所を精度高く特定して新たな部品と交換して障害を復旧することができる。これにより、保守作業に際し、PCIボックス20全体を交換することを可能な限り避けることができ、被疑箇所(被疑部品)の特定による的確な保守を行なえ、効率的な保守作業および保守部品コストの低減を実現することができる。
また、I2Cバス60は低速であるため、システム制御装置40がI2Cバス60経由でPCI-exカード31にエラー情報の収集に行くと、現実的な実行時間での保守作業を行なえなくなる可能性がある。これに対し、本実施形態では、現実的な実行時間での保守作業を行なえない状況にあってもエラー情報が不揮発性メモリ233に蓄積保存されるので、確実に障害解析を行なって被疑箇所を特定して通知することが可能になる。
さらに、障害情報を不揮発性メモリ233に蓄積することで、障害情報の収集処理とシステム制御装置40への障害情報の通知処理とを分離して行なうことができ、処理の高速化を実現することも可能になる。
一方、本実施形態では、PCI-exバス50とは別系統のアクセス経路であるI2Cバス(第2のバス)60を設け、このI2Cバス60を、PCIボックス20からシステム制御装置40への障害情報収集用経路として用いている。このような場合、I2Cバス60やI2Cコントローラ23が故障すると、障害情報がI2Cコントローラ23からシステム制御装置40へ伝達されず、被疑箇所の特定ができなくなるおそれがある。これに対し、本実施形態では、図11や図12を参照しながら上述した保守作業手順により、I2Cコントローラ23での障害発生を特定して保守することも可能である。
また、本実施形態では、システム制御装置40側で障害が検出された場合、サーバ10側で得られた障害解析結果よりも、システム制御装置40側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。これにより、オペレータは、詳細な障害情報に基づき被疑箇所を特定した、システム制御装置40側で得られた障害解析結果を参照し、保守作業を行なうことができる。つまり、PCIボックス20の全体を交換することなく、被疑箇所に係る部品のみの交換を行なうこができ、効率的な保守作業および保守部品コストの低減を実現することができる。
〔5〕その他
以上、本発明の好ましい実施形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
上述した実施形態では、第1のバスとしてPCI-exバスを用い、第2のバス(システム制御バス)としてI2Cバスを用いた場合について説明したが、本発明は、これに限定されるものではなく、他のバスを用いてもよい。例えば、第2のバスとしては、SM(System Management)バスを用いてもよい。
1 情報処理装置
10 サーバ(処理装置)
11 CPU
12 メモリ
13 PCI-exコントローラ
14 I2Cコントローラ
15 LANインタフェース部
16 バス
20 PCIボックス(構成部品)
21 PCI-exブリッジ(バスブリッジ)
22 PCI-exカードスロット
23 I2Cコントローラ(障害通知部)
231 処理部(障害通知部)
232 メモリ
233 不揮発性メモリ(不揮発性記憶装置)
24,25 I2Cバス
30 デバイス(周辺装置)
31 PCI-exカード(周辺装置)
32 ケーブル
40 システム制御装置(SVP,監視装置)
41 CPU
42 メモリ
43 I2Cコントローラ
44 LANインタフェース部
45 バス
50 PCI-exバス(第1のバス;内部バス)
60,70 I2Cバス(第2のバス;システム制御バス)

Claims (20)

  1. 処理装置と、
    前記処理装置に第1のバスを介して接続されるとともに、周辺装置と接続するバスブリッジと、
    前記周辺装置または前記バスブリッジで発生した障害に係る情報を記憶する不揮発性記憶装置と、
    前記不揮発性記憶装置に、前記第1のバスとは異なる第2のバスを介して接続され、前記処理装置を含むシステムの監視を行なう監視装置と、
    前記周辺装置または前記バスブリッジで障害が発生した場合に、発生した前記障害に係る情報を前記不揮発性記憶装置に記憶するとともに、前記第2のバスを介して前記監視装置にエラーを通知する障害通知部と、
    を有することを特徴とする情報処理装置。
  2. 前記障害通知部は、前記周辺装置または前記バスブリッジから前記障害が発生したことを示す第1応答または第1割込みを受けると、前記周辺装置または前記バスブリッジから前記障害に係る情報を読み出して前記不揮発性記憶装置に記憶することを特徴とする、請求項1記載の情報処理装置。
  3. 前記監視装置は、前記障害通知部から前記エラーの通知を受けると、前記第2のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき第1障害解析を行ない、前記第1障害解析の結果を通知することを特徴とする、請求項1または請求項2記載の情報処理装置。
  4. 前記処理装置は、前記周辺装置に対するアクセスを行なった際に前記第1のバスを介して前記周辺装置または前記バスブリッジで前記障害が発生したことを示す第2応答または第2割込みを受けると、前記第2応答または前記第2割込みに含まれる情報に基づき第2障害解析を行ない、前記第2障害解析の結果を前記監視装置に通知し、
    前記監視装置は、前記第1障害解析の結果と前記第2障害解析の結果との両方を得た場合、前記第1障害解析の結果を優先的に通知することを特徴とする、請求項3記載の情報処理装置。
  5. 前記処理装置が前記周辺装置に対するアクセスを行なった際に前記第1のバスからの応答がない場合、前記監視装置は、前記第2のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき前記第1障害解析を行ない、前記第1障害解析の結果を通知することを特徴とする、請求項3記載の情報処理装置。
  6. 前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部から障害が発生したことを示すエラー情報を受けると、前記エラー情報に基づき第3障害解析を行ない、前記第3障害解析の結果を通知することを特徴とする、請求項1〜請求項5のいずれか一項に記載の情報処理装置。
  7. 前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部からの応答がない場合、前記障害通知部で障害が発生したものと認識し、その旨を通知することを特徴とする、請求項1〜請求項5のいずれか一項に記載の情報処理装置。
  8. 前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換に伴い障害が復旧した場合、前記障害通知部を被疑箇所として断定することを特徴とする、請求項7記載の情報処理装置。
  9. 前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換を行なっても障害が復旧しない場合、前記障害通知部に接続される、前記周辺装置および前記バスブリッジを含む構成部品を被疑箇所として認識しその旨を通知することを特徴とする、請求項7記載の情報処理装置。
  10. 処理装置と、前記処理装置に第1のバスを介して接続されるとともに周辺装置と接続するバスブリッジと、前記周辺装置または前記バスブリッジで発生した障害に係る情報を記憶する不揮発性記憶装置と、前記不揮発性記憶装置に、前記第1のバスとは異なる第2のバスを介して接続され、前記処理装置を含むシステムの監視を行なう監視装置と、障害通知部とを有する情報処理装置の障害処理方法であって、
    前記障害通知部は、
    前記周辺装置または前記バスブリッジで障害が発生した場合に、
    発生した前記障害に係る情報を前記不揮発性記憶装置に記憶するとともに、
    前記第2のバスを介して前記監視装置にエラーを通知する、
    ことを特徴とする情報処理装置の障害処理方法。
  11. 前記障害通知部は、前記周辺装置または前記バスブリッジから前記障害が発生したことを示す第1応答または第1割込みを受けると、前記周辺装置または前記バスブリッジから前記障害に係る情報を読み出して前記不揮発性記憶装置に記憶することを特徴とする、請求項10記載の情報処理装置の障害処理方法。
  12. 前記監視装置は、前記障害通知部から前記エラーの通知を受けると、前記第2のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき第1障害解析を行ない、前記第1障害解析の結果を通知することを特徴とする、請求項10または請求項11記載の情報処理装置の障害処理方法。
  13. 前記処理装置は、前記周辺装置に対するアクセスを行なった際に前記第1のバスを介して前記周辺装置または前記バスブリッジで前記障害が発生したことを示す第2応答または第2割込みを受けると、前記第2応答または前記第2割込みに含まれる情報に基づき第2障害解析を行ない、前記第2障害解析の結果を前記監視装置に通知し、
    前記監視装置は、前記第1障害解析の結果と前記第2障害解析の結果との両方を得た場合、前記第1障害解析の結果を優先的に通知することを特徴とする、請求項12記載の情報処理装置の障害処理方法。
  14. 前記処理装置が前記周辺装置に対するアクセスを行なった際に前記第1のバスからの応答がない場合、前記監視装置は、前記第2のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき前記第1障害解析を行ない、前記第1障害解析の結果を通知することを特徴とする、請求項12記載の情報処理装置の障害処理方法。
  15. 前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部から障害が発生したことを示すエラー情報を受けると、前記エラー情報に基づき第3障害解析を行ない、前記第3障害解析の結果を通知することを特徴とする、請求項10〜請求項14のいずれか一項に記載の情報処理装置の障害処理方法。
  16. 前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部からの応答がない場合、前記障害通知部で障害が発生したものと認識し、その旨を通知することを特徴とする、請求項10〜請求項14のいずれか一項に記載の情報処理装置の障害処理方法。
  17. 前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換に伴い障害が復旧した場合、前記障害通知部を被疑箇所として断定することを特徴とする、請求項16記載の情報処理装置の障害処理方法。
  18. 前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換を行なっても障害が復旧しない場合、前記障害通知部に接続される、前記周辺装置および前記バスブリッジを含む構成部品を被疑箇所として認識しその旨を通知することを特徴とする、請求項16記載の情報処理装置の障害処理方法。
  19. 前記構成部品が被疑箇所である旨の通知に応じて、前記構成部品を新たな構成部品に交換することを特徴とする、請求項18記載の情報処理装置の障害処理方法。
  20. 前記不揮発性記憶装置に記憶された前記障害に係る情報に基づき、前記構成部品における被疑箇所を特定し、前記構成部品における、特定された前記被疑箇所に係る部品を、新たな部品に交換することを特徴とする、請求項18または請求項19記載の情報処理装置の障害処理方法。
JP2012189684A 2012-08-30 2012-08-30 情報処理装置、及び情報処理装置の障害処理方法 Pending JP2014048782A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012189684A JP2014048782A (ja) 2012-08-30 2012-08-30 情報処理装置、及び情報処理装置の障害処理方法
US13/971,899 US20140068352A1 (en) 2012-08-30 2013-08-21 Information processing apparatus and fault processing method for information processing apparatus
EP13181153.1A EP2713273A2 (en) 2012-08-30 2013-08-21 Information processing apparatus and fault processing method for information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012189684A JP2014048782A (ja) 2012-08-30 2012-08-30 情報処理装置、及び情報処理装置の障害処理方法

Publications (1)

Publication Number Publication Date
JP2014048782A true JP2014048782A (ja) 2014-03-17

Family

ID=49035351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012189684A Pending JP2014048782A (ja) 2012-08-30 2012-08-30 情報処理装置、及び情報処理装置の障害処理方法

Country Status (3)

Country Link
US (1) US20140068352A1 (ja)
EP (1) EP2713273A2 (ja)
JP (1) JP2014048782A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004510A (ja) * 2014-06-19 2016-01-12 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
JP2017215732A (ja) * 2016-05-31 2017-12-07 富士通株式会社 メモリおよび情報処理装置
US11461157B2 (en) 2016-12-13 2022-10-04 Nec Platforms, Ltd. Peripheral device, method, and recording medium

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360121B2 (en) * 2015-06-09 2019-07-23 Quanta Computer Inc. Universal debug design
CN109062184B (zh) * 2018-08-10 2021-05-14 中国船舶重工集团公司第七一九研究所 双机应急救援设备、故障切换方法和救援***
US11204821B1 (en) * 2020-05-07 2021-12-21 Xilinx, Inc. Error re-logging in electronic systems

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793273A (ja) * 1993-09-20 1995-04-07 Fujitsu Ltd 障害監視機構を具備したマルチcpuシステム
JPH10254736A (ja) 1997-03-13 1998-09-25 Nec Eng Ltd 障害情報収集システム
US6718482B2 (en) * 1997-09-12 2004-04-06 Hitachi, Ltd. Fault monitoring system
JPH11259383A (ja) 1998-03-12 1999-09-24 Hitachi Ltd Ras情報取得回路及びそれを備えた情報処理システム
US7050390B2 (en) * 2001-10-25 2006-05-23 Raytheon Company System and method for real-time fault reporting in switched networks
JP2006107080A (ja) * 2004-10-05 2006-04-20 Hitachi Ltd ストレージ装置システム
JP4389215B2 (ja) * 2004-10-29 2009-12-24 日本電気株式会社 構成装置監視システム及び構成装置監視方法
JP4266957B2 (ja) * 2005-06-03 2009-05-27 キヤノン株式会社 集中監視システム及びその制御方法、並びに、ホスト装置及びその制御方法
JP4939102B2 (ja) * 2006-04-21 2012-05-23 株式会社日立製作所 ネットワークブート計算機システムの高信頼化方法
CN101227076B (zh) * 2008-01-14 2010-06-23 通领科技集团有限公司 接地故障断路器的故障自检电路
JP4644720B2 (ja) 2008-03-10 2011-03-02 富士通株式会社 制御方法、情報処理装置及びストレージシステム
JP5151580B2 (ja) 2008-03-14 2013-02-27 日本電気株式会社 コンピュータシステムおよびバス制御装置
JP2011043957A (ja) * 2009-08-20 2011-03-03 Renesas Electronics Corp 障害監視回路、半導体集積回路及び故障個所特定方法
JP2012080181A (ja) * 2010-09-30 2012-04-19 Nec Corp 障害情報管理方法および障害情報管理プログラム
JP5579650B2 (ja) * 2011-04-28 2014-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 監視対象プロセスを実行する装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004510A (ja) * 2014-06-19 2016-01-12 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
JP2017215732A (ja) * 2016-05-31 2017-12-07 富士通株式会社 メモリおよび情報処理装置
US11461157B2 (en) 2016-12-13 2022-10-04 Nec Platforms, Ltd. Peripheral device, method, and recording medium

Also Published As

Publication number Publication date
EP2713273A2 (en) 2014-04-02
US20140068352A1 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
CN105468484B (zh) 用于在存储***中确定故障位置的方法和装置
JP2014048782A (ja) 情報処理装置、及び情報処理装置の障害処理方法
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和***
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
US8832501B2 (en) System and method of processing failure
JP2007323193A (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2013120494A (ja) Sr−iov対応デバイスを搭載した仮想計算機及び障害検出方法
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JPWO2012046293A1 (ja) 障害監視装置、障害監視方法及びプログラム
JP7125602B2 (ja) データ処理装置および診断方法
CN117389790B (zh) 可恢复故障的固件检测***、方法、存储介质及服务器
CN105468482A (zh) 一种硬盘盘位识别和故障诊断方法及其服务器设备
WO2023226380A1 (zh) 一种磁盘处理方法、***及电子设备
JP2014021577A (ja) 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム
US8977892B2 (en) Disk control apparatus, method of detecting failure of disk apparatus, and recording medium for disk diagnosis program
CN108304290A (zh) 服务器上电状态监测***及方法、计算机存储器及设备
US8918438B2 (en) Management system, management apparatus, and management method for electronic device
JP6897145B2 (ja) 情報処理装置、情報処理システム及び情報処理装置制御方法
JP6358389B2 (ja) 情報処理装置
US20200264946A1 (en) Failure sign detection device, failure sign detection method, and recording medium in which failure sign detection program is stored
JP2006178803A (ja) 診断システムおよび診断方法
JP2011108006A (ja) ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置
WO2021170048A1 (zh) 一种数据存储方法、装置及存储介质