JP2014048782A

JP2014048782A - 情報処理装置、及び情報処理装置の障害処理方法

Info

Publication number: JP2014048782A
Application number: JP2012189684A
Authority: JP
Inventors: Tsutomu Matsuura; 努松浦; Toshihiro Horiuchi; 俊宏堀内; Shuntaro Fujioka; 俊太郎藤岡
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-08-30
Filing date: 2012-08-30
Publication date: 2014-03-17
Also published as: EP2713273A2; US20140068352A1

Abstract

【課題】周辺装置やバスブリッジの障害情報を確実に取得する。
【解決手段】処理装置１０と、同処理装置１０に第１のバス５０を介して接続されるとともに周辺装置３０，３１と接続するバスブリッジ２１と、周辺装置３０，３１またはバスブリッジ２１で発生した障害に係る情報を記憶する不揮発性記憶装置２３３と、同不揮発性記憶装置２３３に、第１のバス５０とは異なる第２のバス６０を介して接続され処理装置１０を含むシステムの監視を行なう監視装置４０と、周辺装置３０，３１またはバスブリッジ２１で障害が発生した場合に発生した障害に係る情報を不揮発性記憶装置２３３に記憶するとともに第２のバス６０を介して監視装置４０にエラーを通知する障害通知部２３１と、を有する。
【選択図】図２

Description

本発明は、情報処理装置、及び情報処理装置の障害処理方法に関する。

サーバで稼動しているＯＳ（Operating System）は、Ｉ／Ｏ（Input/Output）デバイス等の周辺装置に対するＩ／Ｏ命令をシリアルまたはパラレルの内部バス経由で発行する。当該Ｉ／Ｏ命令による内部バス経由でのポーリング時に当該Ｉ／Ｏ命令に対する応答がなくタイムアウトが検出されると、Ｉ／Ｏデバイスや、当該Ｉ／Ｏデバイスに接続されるバスブリッジ等で障害が発生しているものと認識される。この場合、被疑箇所を特定できないため、保守作業として、障害の生じていないＩ／Ｏデバイスやバスブリッジ等を含む部分全体の交換が行なわれる。

保守作業で交換すべき部分である被疑箇所を特定するためには、Ｉ／Ｏデバイスやバスブリッジ等における詳細な障害情報（エラー情報）等を取得する必要がある。そのため、サーバは、内部バス経由でＩ／Ｏデバイスやバスブリッジ等から詳細な障害情報等を吸い上げることが考えられる。しかし、例えば、内部バスの経路に障害が発生すると、障害情報等を読み出せなくなるおそれがある。そこで、バスブリッジに接続されている装置の障害情報等を、内部バスとは異なる別経路（診断バス等）経由で保守診断装置に通知することなどが行なわれている。

特開２００９−２２３５８４号公報特開２００９−２１７４３５号公報特開平１１−２５９３８３号公報特開平１０−２５４７３６号公報

しかしながら、内部バスとは異なる別経路で障害情報等を保守診断装置に通知する場合でも、その別経路を、例えばＩ２Ｃ（Inter-Integrated Circuit）バス等の低速バスで構成すると、複数の障害が発生した場合等に、障害情報を送信しきれずに、障害情報が消失してしまうおそれがある。このように障害情報が消失すると、被疑箇所を特定できず、保守作業に際し、障害の生じていないＩ／Ｏデバイスやバスブリッジ等を含む部分全体を交換しなければならなくなる。

一つの側面で、本発明は、周辺装置やバスブリッジの障害情報を確実に取得することを目的とする。

一つの案において、情報処理装置は、処理装置と、前記処理装置に第１のバスを介して接続されるとともに周辺装置と接続するバスブリッジと、前記周辺装置または前記バスブリッジで発生した障害に係る情報を記憶する不揮発性記憶装置と、前記不揮発性記憶装置に前記第１のバスとは異なる第２のバスを介して接続され前記処理装置を含むシステムの監視を行なう監視装置と、前記周辺装置または前記バスブリッジで障害が発生した場合に発生した前記障害に係る情報を前記不揮発性記憶装置に記憶するとともに前記第２のバスを介して前記監視装置にエラーを通知する障害通知部と、を有する。

一実施形態によれば、周辺装置やバスブリッジの障害情報が確実に取得される。

本実施形態の情報処理装置の全体構成を示すブロック図である。図１に示す情報処理装置におけるＰＣＩボックスの詳細構成を示すブロック図である。図１に示す情報処理装置におけるサーバの動作を説明するフローチャートである。図２に示すＰＣＩボックスにおけるＩ２Ｃコントローラ（障害通知部）の動作を説明するフローチャートである。図１に示す情報処理装置におけるシステム制御装置（監視装置）の動作を説明するフローチャートである。本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。本実施形態の情報処理装置を用いた具体的な保守作業手順を示すフローチャートである。

以下、図面を参照して実施の形態を説明する。
〔１〕本実施形態の情報処理装置の構成
まず、図１および図２を参照しながら、本実施形態の情報処理装置１の構成について説明する。ここで、図１は、本実施形態の情報処理装置１の全体構成を示すブロック図、図２は、図１に示す情報処理装置１におけるＰＣＩ（Peripheral Components Interconnect）ボックス２０の詳細構成を示すブロック図である。図１に示すように、本実施形態の情報処理装置１は、サーバ１０，ＰＣＩボックス２０，デバイス３０およびシステム制御装置４０を有している。

〔１−１〕サーバ（処理装置）の構成
サーバ（処理装置）１０は、ＣＰＵ（Central Processing Unit）１１，メモリ１２，ＰＣＩ-ex（ＰＣＩ-express）コントローラ１３，Ｉ２Ｃコントローラ１４およびＬＡＮ（Local Area Network）インタフェース部１５を、バス１６を介し相互に通信可能に接続して構成される、普遍的な計算機である。

ＣＰＵ１１は、メモリ１２に保存されるプログラムを読み出して実行することにより、後述する各種機能を果たす。
メモリ１２は、例えば、サーバ１０の装置本体内に備えられたＲＡＭ（Random Access Memory），ＲＯＭ（Read Only Memory），ＨＤＤ（Hard Disk Drive），ＳＳＤ（Solid State Drive）などである。

ＰＣＩ-exコントローラ１３は、ＰＣＩ-exバス（内部バス；第１のバス）５０のインタフェースとして機能するもので、ＰＣＩ-exバス５０を介して、サーバ１０の筐体とは別筐体をもつ後述のＰＣＩボックス２０と通信可能に接続されている。
Ｉ２Ｃコントローラ１４は、Ｉ２Ｃバス（システム制御バス；第２のバス）７０のインタフェースとして機能するもので、Ｉ２Ｃバス７０を介して、後述のシステム制御装置４０と通信可能に接続されている。

ＬＡＮインタフェース部１５は、ＬＡＮ８０のインタフェースとして機能するもので、ＬＡＮ８０を介して、後述のシステム制御装置４０と通信可能に接続されている。
ＣＰＵ１１（サーバ１０）で稼動するＯＳは、Ｉ／Ｏデバイス等の周辺装置（後述のデバイス３０）に対するＩ／Ｏ命令を、ＰＣＩ-exコントローラ１３およびＰＣＩ-exバス５０経由で発行する機能を有している。

ＣＰＵ１１（ＯＳ）は、周辺装置（後述のデバイス３０）に対するＩ／Ｏアクセスを行なった際にＰＣＩ-exバス５０を介して後述のＰＣＩボックス２０側で障害が発生したことを示すエラー応答（第２応答）または割込み（第２割込み）を受けると、以下のような機能を果たす。つまり、ＣＰＵ１１（ＯＳ）は、当該エラー応答または当該割込みに含まれる情報（障害情報，エラー情報）に基づき障害解析（第２障害解析；障害の発生した被疑箇所の特定）を行なう機能を果たす。そして、ＣＰＵ１１は、第２障害解析の結果を、ＬＡＮインタフェース部１５およびＬＡＮ８０経由で後述のシステム制御装置４０に通知するとともにロギングする機能を果たす。ロギングは、サーバ１０内のメモリ１２に対し行なわれるとともに、後述のシステム制御装置４０におけるメモリ４２（後述）に対しても行なわれる。

また、ＣＰＵ１１（ＯＳ）は、周辺装置（後述のデバイス３０）に対するＩ／Ｏアクセスを行なった際にＰＣＩ-exバス５０からの応答がなくタイムアウトした場合、以下のような機能を果たす。つまり、ＣＰＵ１１（ＯＳ）は、後述のＰＣＩボックス２０（当該ＰＣＩボックス２０に含まれる全要素）のエラーと認識する機能を果たす。そして、ＣＰＵ１１は、その認識結果を、ＬＡＮインタフェース部１５およびＬＡＮ８０経由で後述のシステム制御装置４０に通知するとともにロギングする機能を果たす。ロギングは、サーバ１０内のメモリ１２に対し行なわれるとともに、後述のシステム制御装置４０におけるメモリ４２（後述）に対しても行なわれる。

〔１−２〕ＰＣＩボックスの構成
ＰＣＩボックス２０は、サーバ１０の筐体とは別の筐体を有し、サーバ１０にＰＣＩ-exバス５０を介して接続され、ＰＣＩ-exブリッジ２１，ＰＣＩ-exカードスロット２２およびＩ２Ｃコントローラ２３を有している。

ＰＣＩ-exブリッジ（バスブリッジ）２１は、サーバ１０にＰＣＩ-exバス５０を介して接続されるとともに、ＰＣＩ-exカードスロット２２によりＰＣＩ-exカード３１と結合される。ＰＣＩボックス２０は、複数のＰＣＩ-exカードスロット２２を有し、複数のＰＣＩ-exカードスロット２２のそれぞれにＰＣＩ-exカード３１を挿入可能に構成される。各ＰＣＩ-exカードスロット２２にＰＣＩ-exカード３１を挿入することで、ＰＣＩ-exカード３１は、ＰＣＩボックス２０内に格納される。各ＰＣＩ-exカード３１は、ケーブル３２を介して、ＨＤＤ，ＬＡＮスイッチ，ハブ等のデバイス（周辺装置）３０と接続されている。これにより、サーバ１０は、ＰＣＩ-exバス５０，ＰＣＩ-exブリッジ２１，ＰＣＩ-exカードスロット２２，ＰＣＩ-exカード３１およびケーブル３２を介し、各デバイス３０に対しＩ／Ｏアクセスを発行することが可能になっている。

ＰＣＩ-exブリッジ２１およびＰＣＩ-exカード３１（デバイス３０）は、それぞれ、障害が発生すると、障害が発生したことを示すエラー応答（第１応答）または割込み（第１割込み）を、Ｉ２Ｃバス２４，２５経由で、Ｉ２Ｃコントローラ２３に通知する機能を有している。

Ｉ２Ｃコントローラ（障害通知部）２３は、後述のシステム制御装置４０とＰＣＩボックス２０との間のシステム制御関連の情報のやり取り（エラー通知，エラー情報（障害情報）の収集，電源関連制御等）を行なう。このため、Ｉ２Ｃコントローラ２３は、ＰＣＩ-exバス（第１のバス）５０とは異なるＩ２Ｃバス（第２のバス）６０を介して後述のシステム制御装置４０に接続される。また、Ｉ２Ｃコントローラ２３は、Ｉ２Ｃバス２４を介してＰＣＩ-exブリッジ２１に接続されるとともに、Ｉ２Ｃバス２５を介してＰＣＩ-exカードスロット２２経由で、ＰＣＩ-exカードスロット２２に挿入されたＰＣＩ-exカード３１（デバイス３０）に接続される。ここで、Ｉ２Ｃは、ＰＣＩに比べ低速であるが低コストな通信手段である。

また、Ｉ２Ｃコントローラ２３は、図２に示すように、処理部２３１，メモリ２３２および不揮発性メモリ２３３を有している。
処理部２３１は、メモリ２３２に保存されるプログラムを読み出して実行することにより、後述する障害通知部としての機能を果たす。メモリ２３２は、例えば、ＲＡＭ，ＲＯＭ，ＨＤＤ，ＳＳＤなどである。

不揮発性メモリ（不揮発性記憶装置；フラッシュメモリ）２３３は、処理部２３１によって制御され、ＰＣＩボックス２０の構成部品で発生した障害に係る情報（以下「障害情報」もしくは「エラー情報」という）を記憶する。ここで、ＰＣＩボックス２０の構成部品は、上述したＰＣＩ-exブリッジ２１，ＰＣＩ-exカード３１，デバイス３０を含む。また、障害情報（エラー情報）は、ＰＣＩ-exブリッジ２１，ＰＣＩ-exカード３１，デバイス３０のレジスタにレジスタ情報として保持されるもので、部品識別子，エラー状態等の情報を含み、システム制御装置４０によるエラー解析に活用される。

なお、不揮発性メモリ２３３は、ＰＣＩボックス２０（Ｉ２Ｃコントローラ２３）に対して挿抜可能に装着されている。従って、必要に応じて不揮発性メモリ２３３をＰＣＩボックス２０から取り外し他の処理装置に接続することで、他の処理装置において不揮発性メモリ２３３に蓄積された障害情報を障害解析に用いることが可能になっている。

処理部（障害通知部）２３１は、障害が発生し障害の発生した構成部品からＩ２Ｃバス２４，２５経由でエラー応答（第１応答）または割込み（第１割込み）を受けると、障害の発生した構成部品からＩ２Ｃバス２４，２５経由でレジスタ情報（障害情報）を読み出して不揮発性メモリ２３３に蓄積する機能を果たす。また、処理部２３１は、障害情報を不揮発性メモリ２３３に蓄積するとともに、Ｉ２Ｃバス（第２のバス）６０を介してシステム制御装置４０にエラーを通知する機能を果たす。

また、処理部（障害通知部）２３１は、システム制御装置４０からＩ２Ｃバス６０経由で不揮発性メモリ２３３の障害情報の読出要求を受けると、不揮発性メモリ２３３に記憶された障害情報をＩ２Ｃバス６０経由でシステム制御装置４０に送信する機能を果たす。
さらに、処理部（障害通知部）２３１は、システム制御装置４０からのアライブチェックのアクセス（後述）を受けると、Ｉ２Ｃコントローラ２３の状態等を示すレジスタ情報（障害が生じている場合にはエラー情報）をＩ２Ｃバス６０経由でシステム制御装置４０に送信する機能を果たす。

〔１−３〕システム制御装置（監視装置）の構成
システム制御装置（監視装置）４０は、サーバ１０およびＰＣＩボックス２０を含むシステムの監視を行なうＳＶＰ（SerVice Processor）であり、システム制御バスとしてのＩ２Ｃバス７０，６０を介して、それぞれサーバ１０およびＰＣＩボックス２０に接続されている。

また、システム制御装置４０は、図１に示すように、ＣＰＵ４１，メモリ４２，Ｉ２Ｃコントローラ４３およびＬＡＮインタフェース部４４を、バス４５を介し相互に通信可能に接続して構成される。
ＣＰＵ４１は、メモリ４２に保存されるプログラムを読み出して実行することにより、後述する各種機能を果たす。メモリ４２は、例えば、ＲＡＭ，ＲＯＭ，ＨＤＤ，ＳＳＤなどである。

Ｉ２Ｃコントローラ４３は、Ｉ２Ｃバス７０，６０のインタフェースとして機能するもので、Ｉ２Ｃバス７０，６０を介して、それぞれサーバ１０（Ｉ２Ｃコントローラ１４）およびＰＣＩボックス２０（Ｉ２Ｃコントローラ２３）と通信可能に接続されている。
ＬＡＮインタフェース部４４は、ＬＡＮ８０のインタフェースとして機能するもので、ＬＡＮ８０を介して、サーバ１０（ＬＡＮインタフェース部１５）と通信可能に接続されている。

そして、ＣＰＵ４１（システム制御装置４０）は、以下のような各種機能を果たす。
ＣＰＵ４１は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３からエラーの通知を受けると、Ｉ２Ｃバス６０を介して不揮発性メモリ２３３に記憶された障害情報を読み出し、読み出した障害情報に基づき障害解析（第１障害解析；障害の発生した被疑箇所の特定）を行なう。そして、ＣＰＵ４１は、第１障害解析の結果をオペレータに通知するとともにメモリ４２にロギングする機能を果たす。

なお、障害解析の結果の通知は、システム制御装置４０におけるモニタ等を用い、オペレータに対して行なわれ、当該通知を参照したオペレータは、後述するごとく、被疑対象の部品交換等の保守作業を行なう。
このとき、ＣＰＵ４１は、ＰＣＩボックス２０の不揮発性メモリ２３３の障害情報に基づいて得られた第１障害解析の結果と、ＬＡＮ８０経由でサーバ１０から通知される第２障害解析の結果との両方を得た場合、第１障害解析の結果を優先的にオペレータに通知する。

サーバ１０がデバイス３０に対するＩ／Ｏアクセスを行なった際にＰＣＩ-exバス５０からの応答がない場合、ＣＰＵ４１は、Ｉ２Ｃバス６０を介して不揮発性メモリ２３３に記憶された障害情報を読み出し、読み出した障害情報に基づき障害解析（第１障害解析；障害の発生した被疑箇所の特定）を行なう。そして、ＣＰＵ４１は、第１障害解析の結果をオペレータに通知するとともにメモリ４２にロギングする機能を果たす。

ＣＰＵ４１は、ＰＣＩボックス２０を監視すべく、ＰＣＩボックス２０のＩ２Ｃコントローラ２３に対し、アライブチェックのアクセスを、定期的または不定期的に行なう機能を有している。アライブチェックとは、Ｉ２Ｃコントローラ２３が正常に動作しているか否かのチェックである。なお、ＣＰＵ４１は、サーバ１０を監視すべく、サーバ１０のＩ２Ｃコントローラ１４に対してもアライブチェックのアクセスを行なうが、ここではその詳細な説明は省略する。

ＣＰＵ４１は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３に対するアクセスを行なった際にＩ２Ｃコントローラ２３から障害が発生したことを示すエラー情報を受けると、そのエラー情報に基づき障害解析（第３障害解析）を行なう。そして、ＣＰＵ４１は、第３障害解析の結果をオペレータに通知するとともにメモリ４２にロギングする機能を果たす。

ＣＰＵ４１は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３に対するアクセスを行なった際にＩ２Ｃコントローラ２３からの応答がなくタイムアウトした場合、Ｉ２Ｃコントローラ２３で障害が発生したものと認識する。つまり、ＣＰＵ４１は、Ｉ２Ｃコントローラ２３に含まれる全要素を被疑箇所として認識し、その旨をオペレータに通知するとともにメモリ４２にロギングする機能を果たす。

ＣＰＵ４１は、Ｉ２Ｃコントローラ２３で障害が発生した旨の通知後のＩ２Ｃコントローラ２３の交換に伴い障害が復旧した場合、Ｉ２Ｃコントローラ２３を被疑箇所として断定し、その旨をオペレータに通知するとともにメモリ４２にロギングする機能を果たす。
一方、ＣＰＵ４１は、Ｉ２Ｃコントローラ２３で障害が発生した旨の通知後にＩ２Ｃコントローラ２３の交換を行なっても障害が復旧しない場合、Ｉ２Ｃコントローラ２３に接続される構成部品を被疑箇所として認識する。つまり、ＣＰＵ４１は、ＰＣＩボックス２０側の、Ｉ２Ｃコントローラ２３を除く構成部品全体を被疑箇所として認識し、その旨をオペレータに通知するとともにメモリ４２にロギングする機能を果たす。

〔２〕本実施形態の情報処理装置の動作
次に、図３〜図５を参照しながら、上述のごとく構成された本実施形態の情報処理装置１における、サーバ１０（ＣＰＵ１１）の動作、ＰＣＩボックス２０のＩ２Ｃコントローラ２３（障害通知部２３１）の動作、および、システム制御装置４０（ＣＰＵ４１）の動作について説明する。

〔２−１〕サーバの動作
図３に示すフローチャート（ステップＳ１１〜Ｓ１８）に従って、図１に示す情報処理装置１におけるサーバ１０（ＣＰＵ１１）の動作について説明する。
ＣＰＵ１１は、デバイス３０に対するＩ／Ｏアクセスを発行すると（ステップＳ１１のＹＥＳルート）、当該Ｉ／Ｏアクセスに対する正常応答を受信したか否かを判定する（ステップＳ１２）。ＣＰＵ１１は、当該Ｉ／Ｏアクセスに対する正常応答を受信すると（ステップＳ１２のＹＥＳルート）、ステップＳ１１の処理に戻り、Ｉ／Ｏアクセスの発行を待機する。

一方、ＣＰＵ１１は、当該Ｉ／Ｏアクセスに対する正常応答がない場合（ステップＳ１２のＮＯルート）、ＰＣＩ-exバス５０を介してＰＣＩボックス２０側で障害が発生したことを示すエラー応答または割込みを受信したか否かを判定する（ステップＳ１３）。ＣＰＵ１１は、エラー応答または割込みを受信すると（ステップＳ１３のＹＥＳルート）、当該エラー応答または当該割込みに含まれる障害情報に基づき障害解析（第２障害解析）を行ない、障害の発生した被疑箇所を特定する（ステップＳ１４）。そして、ＣＰＵ１１は、その障害解析の結果を、ＬＡＮインタフェース部１５およびＬＡＮ８０経由でシステム制御装置４０に通知するとともにロギングし（ステップＳ１５）、ステップＳ１１の処理に戻る。

また、ＣＰＵ１１は、Ｉ／Ｏアクセスに対する正常応答やエラー応答／割込みがないまま（ステップＳ１３のＮＯルート）、タイムアウト（所定時間経過）したか否かを判定する（ステップＳ１６）。タイムアウトしていない場合（ステップＳ１６のＮＯルート）、ＣＰＵ１１は、ステップＳ１２の処理に戻る。一方、タイムアウトした場合（ステップＳ１６のＹＥＳルート）、ＣＰＵ１１は、ＰＣＩボックス２０に含まれる全要素を被疑箇所として認識する（ステップＳ１７）。そして、ＣＰＵ１１は、その認識結果を、ＬＡＮインタフェース部１５およびＬＡＮ８０経由でシステム制御装置４０に通知するとともにロギングし（ステップＳ１８）、ステップＳ１１の処理に戻る。

〔２−２〕障害通知部の動作
図４に示すフローチャート（ステップＳ２１〜Ｓ２９）に従って、図２に示すＰＣＩボックス２０におけるＩ２Ｃコントローラ２３（障害通知部２３１）の動作について説明する。

障害通知部２３１は、ＰＣＩボックス２０の構成部品であるＰＣＩ-exブリッジ２１やＰＣＩ-exカード３１（デバイス３０）から、Ｉ２Ｃバス２４，２５経由で、障害が発生したことを示すエラー応答または割込みを受信したか否かを判定する（ステップＳ２１）。障害通知部２３１は、エラー応答または割込みを受信すると（ステップＳ２１のＹＥＳルート）、障害の発生した構成部品からＩ２Ｃバス２４，２５経由でレジスタ情報（障害情報）を読み出して不揮発性メモリ２３３に蓄積する（ステップＳ２２，Ｓ２３）。そして、障害通知部２３１は、Ｉ２Ｃバス６０を介してシステム制御装置４０にエラーを通知し（ステップＳ２４）、ステップＳ２１の処理に戻る。

一方、障害通知部２３１は、エラー応答または割込みを受信していない場合（ステップＳ２１のＮＯルート）、システム制御装置４０から、Ｉ２Ｃバス６０経由で、障害情報の読出要求を受信したか否かを判定する（ステップＳ２５）。ここで、障害情報の読出要求は、障害通知部２３１が通知したエラーに応じてシステム制御装置４０（ＣＰＵ４１）によって発行されるものである。障害通知部２３１は、システム制御装置４０からＩ２Ｃバス６０経由で不揮発性メモリ２３３の障害情報の読出要求を受けると（ステップＳ２５のＹＥＳルート）、不揮発性メモリ２３３に記憶された障害情報を読み出しＩ２Ｃバス６０経由でシステム制御装置４０に送信し（ステップＳ２６，Ｓ２７）、ステップＳ２１の処理に戻る。

障害通知部２３１は、不揮発性メモリ２３３の障害情報の読出要求を受信していない場合（ステップＳ２５のＮＯルート）、システム制御装置４０からのアライブチェックのアクセスを受信したか否かを判定する（ステップＳ２８）。障害通知部２３１は、システム制御装置４０からのアライブチェックのアクセスを受けると（ステップＳ２８のＹＥＳルート）、Ｉ２Ｃコントローラ２３の状態等を示すレジスタ情報（エラー情報）をＩ２Ｃバス６０経由でシステム制御装置４０に送信し（ステップＳ２９）、ステップＳ２１の処理に戻る。なお、障害通知部２３１は、システム制御装置４０からのアライブチェックのアクセスを受信していない場合（ステップＳ２８のＮＯルート）、ステップＳ２１の処理に戻る。

〔２−３〕システム制御装置（監視装置）の動作
図５に示すフローチャート（ステップＳ３１〜Ｓ５２）に従って、図１に示す情報処理装置１におけるシステム制御装置４０（ＣＰＵ４１）の動作について説明する。
ＣＰＵ４１は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３からＩ２Ｃバス６０経由でエラーの通知を受けたか否かを判定する（ステップＳ３１）。ＣＰＵ４１は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３からエラーの通知を受けると（ステップＳ３１のＹＥＳルート）、Ｉ２Ｃバス６０を介し不揮発性メモリ２３３に記憶された障害情報の読出要求を発行する（ステップＳ３２）。ＣＰＵ４１は、読出要求発行後、不揮発性メモリ２３３からの障害情報を受信すると（ステップＳ３３）、読み出した障害情報に基づき障害解析（第１障害解析）を行ない、障害の発生した被疑箇所を特定する（ステップＳ３４）。そして、ＣＰＵ４１は、第１障害解析の結果をオペレータに通知するとともにメモリ４２にロギングし（ステップＳ３５）、ステップＳ３１の処理に戻る。

ＣＰＵ４１は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３からエラーの通知を受けていない場合（ステップＳ３１のＮＯルート）、サーバ１０からＬＡＮ８０経由で第２障害解析の結果を受信したか否かを判定する（ステップＳ３６）。ＣＰＵ４１は、サーバ１０から第２障害解析の結果を受信した場合（ステップＳ３６のＹＥＳルート）、当該第２障害解析に対応する第１障害解析の結果がＣＰＵ４１で取得されているか否かを判定する（ステップＳ３７）。ＣＰＵ４１は、当該第２障害解析に対応する第１障害解析の結果が取得されている場合（ステップＳ３７のＹＥＳルート）、第１障害解析の結果を優先的にオペレータに通知しメモリ４２にロギングし（ステップＳ３８）、ステップＳ３１の処理に戻る。そして、ＣＰＵ４１は、当該第２障害解析に対応する第１障害解析の結果が取得されていない場合（ステップＳ３７のＮＯルート）、第２障害解析の結果をオペレータに通知しメモリ４２にロギングし（ステップＳ３９）、ステップＳ３１の処理に戻る。なお、第１障害解析の結果は、上述したように、ＣＰＵ４１において、ＰＣＩボックス２０の不揮発性メモリ２３３の障害情報に基づいて行なわれた障害解析の結果である。また、第２障害解析の結果は、上述したように、ＬＡＮ８０経由でサーバ１０から通知される、サーバ１０で行なわれた障害解析の結果である。

ＣＰＵ４１は、サーバ１０から第２障害解析の結果を受信していない場合（ステップＳ３６のＮＯルート）、アライブチェックのアクセスをＰＣＩボックス２０のＩ２Ｃコントローラ２３に対して発行したか否かを判定する（ステップＳ４０）。ＣＰＵ４１は、アライブチェックのアクセスを発行していない場合（ステップＳ４０のＮＯルート）、ステップＳ３１の処理に戻る。

ＣＰＵ４１は、アライブチェックのアクセスをＰＣＩボックス２０に対して発行した場合（ステップＳ４０のＹＥＳルート）、当該アクセスに応じ、Ｉ２Ｃコントローラ２３からＩ２Ｃバス６０経由でレジスタ情報を受信したか否かを判定する（ステップＳ４１）。ＣＰＵ４１は、レジスタ情報を受信すると（ステップＳ４１のＹＥＳルート）、受信したレジスタ情報がエラー情報か否かを判定し（ステップＳ４２）、エラー情報でなければ（ステップＳ４２のＮＯルート）、ステップＳ３１の処理に戻る。一方、ＣＰＵ４１は、レジスタ情報がエラー情報であれば（ステップＳ４２のＹＥＳルート）、当該エラー情報に基づき障害解析（第３障害解析）を行ない、障害の発生した被疑箇所を特定する（ステップＳ４３）。そして、ＣＰＵ４１は、第３障害解析の結果をオペレータに通知するとともにメモリ４２にロギングし（ステップＳ４４）、ステップＳ３１の処理に戻る。

ＣＰＵ４１は、レジスタ情報を受信していない場合（ステップＳ４１のＮＯルート）、Ｉ２Ｃコントローラ２３からの応答がないままタイムアウト（所定時間経過）したか否かを判定する（ステップＳ４５）。タイムアウトしていない場合（ステップＳ４５のＮＯルート）、ＣＰＵ４１は、ステップＳ４１の処理に戻る。一方、タイムアウトした場合（ステップＳ４５のＹＥＳルート）、ＣＰＵ４１は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３に含まれる全要素を被疑箇所として認識する（ステップＳ４６）。そして、ＣＰＵ４１は、その認識結果をオペレータに通知するとともにメモリ４２にロギングする（ステップＳ４７）。

この後、ＣＰＵ４１は、Ｉ２Ｃコントローラ２３で障害が発生した旨の通知後のＩ２Ｃコントローラ２３の交換に伴い障害が復旧したか否かを判定する（ステップＳ４８）。ＣＰＵ４１は、障害が復旧した場合（ステップＳ４８のＹＥＳルート）、Ｉ２Ｃコントローラ２３を被疑箇所として断定し（ステップＳ４９）、その旨をオペレータに通知するとともにメモリ４２にロギングし（ステップＳ５０）、ステップＳ３１の処理に戻る。一方、ＣＰＵ４１は、障害が復旧しない場合（ステップＳ４８のＮＯルート）、ＰＣＩボックス２０側の、Ｉ２Ｃコントローラ２３を除く構成部品全体を被疑箇所として認識する（ステップＳ５１）。そして、ＣＰＵ４１は、その認識結果をオペレータに通知するとともにメモリ４２にロギングし（ステップＳ５２）、ステップＳ３１の処理に戻る。

〔３〕本実施形態の情報処理装置を用いた具体的な保守作業手順
次に、図６〜図１２を参照しながら、本実施形態の情報処理装置１を用いた具体的な保守作業手順について説明する。なお、図６〜図１２は、それぞれ、本実施形態の情報処理装置１を用いた具体的な保守作業手順を示すフローチャートである。

〔３−１〕まず、サーバ１０がＩ／Ｏアクセスを行なった際にＰＣＩボックス２０側からエラー応答または割込みが返され、且つ、障害発生箇所（被疑箇所）がＰＣＩ-exカード３１（または当該カード３１に接続されたデバイス３０）である場合の、具体的な保守作業手順について、図６および図７を参照しながら説明する。

図６は、サーバ１０に係る動作／手順（ステップＡ１１〜Ａ１６）を示すフローチャートで、システム制御装置４０側において、不揮発性メモリ２３３の障害情報に基づいて行なわれる障害解析の結果が取得されず、サーバ１０での障害解析の結果が取得された場合の動作／手順を示す。

ステップＡ１１：サーバ１０（ＣＰＵ１１）で稼働しているＯＳがＩ／Ｏアクセスを発行すると、これに伴い、ＰＣＩ-exバス５０を経由してＩ／Ｏアクセスコマンドが発行される。
ステップＡ１２：ＰＣＩ-exカード３１で障害が発生しているため、Ｉ／Ｏアクセスコマンドが到達したＰＣＩ-exカード３１からＰＣＩ-exブリッジ２１にエラー応答が到達する。

ステップＡ１３：ＰＣＩ-exブリッジ２１からＰＣＩ-exバス５０を経由しサーバ１０へエラー応答または割込みが返信される。
ステップＡ１４：サーバ１０のＯＳにおいて、障害解析（エラー解析）が行なわれ、障害解析結果がＬＡＮ８０経由でシステム制御装置４０に通知される。［図３のステップＳ１４，Ｓ１５に対応］

ステップＡ１５：サーバ１０から通知された、ＰＣＩ-exカード３１で障害が発生したことを示す障害解析結果が、システム制御装置４０により、オペレータに通知されるとともに、メモリ４２にロギングされる。［図３のステップＳ１５に対応］
ステップＡ１６：保守担当者（オペレータ）は、システム制御装置４０によって通知された障害解析結果、あるいは、メモリ４２に保存されたログを参照して、障害の生じたＰＣＩ-exカード３１（またはデバイス３０）を判別し交換する。

このように、ＰＣＩ-exカード３１で障害が発生している場合、システム制御装置４０側でも障害を検出する可能性がある。本実施形態では、システム制御装置４０側で障害が検出された場合、サーバ１０側で得られた障害解析結果よりも、システム制御装置４０側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。図７は、このような場合における、Ｉ２Ｃコントローラ２３およびシステム制御装置４０に係る動作／手順（ステップＡ２１〜Ａ２６）を示すフローチャートである。

ステップＡ２１：ＰＣＩ-exカード３１での障害発生に伴い、ＰＣＩ-exカード３１からＩ２Ｃコントローラ２３に対する割込みが発生する。障害通知部２３１は、当該割込みに応じ、ＰＣＩ-exカード３１のレジスタ情報（エラー情報）をＩ２Ｃバス２５経由で吸い上げ、不揮発性メモリ２３３に蓄積する。［図４のステップＳ２２，Ｓ２３に対応］
ステップＡ２２：障害通知部２３１は、Ｉ２Ｃバス（システム制御バス）６０を経由して、システム制御装置４０にエラーを通知する。［図４のステップＳ２４に対応］

ステップＡ２３：システム制御装置４０（ＣＰＵ４１）は、エラー通知に応じ、Ｉ２Ｃバス６０経由で、不揮発性メモリ２３３に格納されたエラー情報を吸い上げる。［図５のステップＳ３３に対応］
ステップＡ２４：システム制御装置４０は、吸い上げたエラー情報に基づき障害解析（エラー解析）を行なう。［図５のステップＳ３４に対応］

ステップＡ２５：システム制御装置４０は、障害解析結果をオペレータに通知するとともに、メモリ４２にロギングする。［図５のステップＳ３５に対応］
ステップＡ２６：保守担当者（オペレータ）は、システム制御装置４０によって通知された障害解析結果、あるいは、メモリ４２に保存されたログを参照して、障害の生じたＰＣＩ-exカード３１（またはデバイス３０）を判別し交換する。

〔３−２〕次に、サーバ１０がＩ／Ｏアクセスを行なった際にＰＣＩボックス２０側からエラー応答または割込みが返され、且つ、障害発生箇所（被疑箇所）がＰＣＩ-exブリッジ２１である場合の、具体的な保守作業手順について、図８および図９を参照しながら説明する。

図８は、サーバ１０に係る動作／手順（ステップＡ３１〜Ａ３５）を示すフローチャートで、システム制御装置４０側において、不揮発性メモリ２３３の障害情報に基づいて行なわれる障害解析の結果が取得されず、サーバ１０での障害解析の結果が取得された場合の動作／手順を示す。

ステップＡ３１：サーバ１０で稼働しているＯＳがＩ／Ｏアクセスを発行すると、これに伴い、ＰＣＩ-exバス５０を経由してＩ／Ｏアクセスコマンドが発行される。
ステップＡ３２：ＰＣＩ-exブリッジ２１で障害が発生しているため、Ｉ／Ｏアクセスコマンドが到達したＰＣＩ-exブリッジ２１でエラーが認識される。これに伴い、ＰＣＩ-exブリッジ２１からＰＣＩ-exバス５０を経由しサーバ１０へエラー応答または割込みが返信される。

ステップＡ３３：サーバ１０のＯＳにおいて、障害解析（エラー解析）が行なわれ、障害解析結果がＬＡＮ８０経由でシステム制御装置４０に通知される。［図３のステップＳ１４，Ｓ１５に対応］
ステップＡ３４：サーバ１０から通知された、ＰＣＩ-exブリッジ２１で障害が発生したことを示す障害解析結果が、システム制御装置４０により、オペレータに通知されるとともに、メモリ４２にロギングされる［図３のステップＳ１５に対応］。
ステップＡ３５：保守担当者（オペレータ）は、システム制御装置４０によって通知された障害解析結果、あるいは、メモリ４２に保存されたログを参照して、障害の生じたＰＣＩ-exブリッジ２１を判別し交換する。

このように、ＰＣＩ-exブリッジ２１で障害が発生している場合、システム制御装置４０側でも障害を検出する可能性がある。本実施形態では、システム制御装置４０側で障害が検出された場合、サーバ１０側で得られた障害解析結果よりも、システム制御装置４０側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。図９は、このような場合における、Ｉ２Ｃコントローラ２３およびシステム制御装置４０に係る動作／手順（ステップＡ４１〜Ａ４６）を示すフローチャートである。

ステップＡ４１：ＰＣＩ-exブリッジ２１での障害発生に伴いＰＣＩ-exブリッジ２１からＩ２Ｃコントローラ２３に対する割込みが発生する。障害通知部２３１は、当該割込みに応じ、ＰＣＩ-exカード３１のレジスタ情報（エラー情報）をＩ２Ｃバス２４経由で吸い上げ、不揮発性メモリ２３３に蓄積する。［図４のステップＳ２２，Ｓ２３に対応］
ステップＡ４２：障害通知部２３１は、Ｉ２Ｃバス（システム制御バス）６０を経由して、システム制御装置４０にエラーを通知する。［図４のステップＳ２４に対応］

ステップＡ４３：システム制御装置４０（ＣＰＵ４１）は、エラー通知に応じ、Ｉ２Ｃバス６０経由で、不揮発性メモリ２３３に格納されたエラー情報を吸い上げる。［図５のステップＳ３３に対応］
ステップＡ４４：システム制御装置４０は、吸い上げたエラー情報に基づき障害解析を行なう。［図５のステップＳ３４に対応］

ステップＡ４５：システム制御装置４０は、障害解析結果をオペレータに通知するとともに、メモリ４２にロギングする。［図５のステップＳ３５に対応］
ステップＡ４６：保守担当者（オペレータ）は、システム制御装置４０によって通知された障害解析結果、あるいは、メモリ４２に保存されたログを参照して、障害の生じたＰＣＩ-exブリッジ２１を判別し交換する。

〔３−３〕次に、サーバ１０がＩ／Ｏアクセスを行なった際にＰＣＩボックス２０側から応答がなくタイムアウトになり、且つ、障害発生箇所（被疑箇所）がＰＣＩ-exカード３１である場合の、具体的な保守作業手順について、図１０および図７を参照しながら説明する。図１０は、上述した場合の、サーバ１０に係る動作／手順（ステップＡ５１〜Ａ５４）を示すフローチャートである。

ステップＡ５１：サーバ１０で稼働しているＯＳがＩ／Ｏアクセスを発行すると、これに伴い、ＰＣＩ-exバス５０を経由してＩ／Ｏアクセスコマンドが発行される。
ステップＡ５２：ＰＣＩボックス２０側から応答がなくタイムアウト。
ステップＡ５３：サーバ１０のＯＳにおいて、ＰＣＩボックス２０に含まれる全要素が被疑箇所として認識され、認識結果がＬＡＮ８０経由でシステム制御装置４０に通知される。［図３のステップＳ１７に対応］
ステップＡ５４：サーバ１０から通知された認識結果が、システム制御装置４０により、オペレータに通知されるとともに、メモリ４２にロギングされる。［図３のステップＳ１８に対応］

このような認識結果を参照した保守担当者（オペレータ）は、実際にはＰＣＩボックス２０内のＰＣＩ-exカード３１で障害が発生し障害ＰＣＩ-exカード３１のみの交換を行なえばよいにも係わらず、ＰＣＩボックス２０の全体を交換することになってしまう。
被疑箇所を特定するためには詳細な障害情報（エラー情報）が必要になる。そこで、本実施形態では、システム制御装置４０側で障害が検出された場合、サーバ１０側で得られた障害解析結果よりも、システム制御装置４０側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。このとき、図７と同様の動作／手順（ステップＡ２１〜Ａ２６）が実行される。

ステップＡ２３：システム制御装置４０（ＣＰＵ４１）は、エラー通知に応じ、Ｉ２Ｃバス６０経由で、不揮発性メモリ２３３に格納されたエラー情報を吸い上げる。［図５のステップＳ３３に対応］
ステップＡ２４：システム制御装置４０は、吸い上げたエラー情報に基づき障害解析を行なう。［図５のステップＳ３４に対応］

ステップＡ２５：システム制御装置４０は、障害解析結果をオペレータに通知するとともに、メモリ４２にロギングする。［図５のステップＳ３５に対応］
ステップＡ２６：保守担当者（オペレータ）は、システム制御装置４０によって通知された障害解析結果、あるいは、メモリ４２に保存されたログを参照して、障害の生じたＰＣＩ-exカード３１を判別し交換する。

〔３−４〕次に、サーバ１０がＩ／Ｏアクセスを行なった際にＰＣＩボックス２０側から応答がなくタイムアウトになり、且つ、障害発生箇所（被疑箇所）がＰＣＩ-exブリッジ２１である場合の、具体的な保守作業手順について、図１０および図９を参照しながら説明する。この場合も、サーバ１０では、図１０と同様の動作／手順（ステップＡ５１〜Ａ５４）が実行される。

このような認識結果を参照した保守担当者（オペレータ）は、実際にはＰＣＩボックス２０内のＰＣＩ-exブリッジ２１で障害が発生し障害ＰＣＩ-exブリッジ２１のみの交換を行なえばよいにも係わらず、ＰＣＩボックス２０の全体を交換することになってしまう。
被疑箇所を特定するために、詳細な障害情報（エラー情報）が必要になる。そこで、本実施形態では、システム制御装置４０側で障害が検出された場合、サーバ１０側で得られた障害解析結果よりも、システム制御装置４０側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。このとき、図９と同様の動作／手順（ステップＡ４１〜Ａ４６）が実行される。

ステップＡ４１：ＰＣＩ-exブリッジ２１での障害発生に伴いＰＣＩ-exブリッジ２１からＩ２Ｃコントローラ２３に対する割込みが発生する。障害通知部２３１は、当該割込みに応じ、ＰＣＩ-exカード３１のレジスタ情報（エラー情報）をＩ２Ｃバス２４経由で吸い上げ、不揮発性メモリ２３３に蓄積する。［図４のステップＳ２２，Ａ２３に対応］
ステップＡ４２：障害通知部２３１は、Ｉ２Ｃバス（システム制御バス）６０を経由して、システム制御装置４０にエラーを通知する。［図４のステップＳ２４に対応］

〔３−５〕次に、システム制御装置４０がアライブチェックのアクセスをＰＣＩボックス２０のＩ２Ｃコントローラ２３に対し行なった際にＩ２Ｃコントローラ２３からエラー応答または割込みが返信された場合の、具体的な保守作業手順について、図１１を参照しながら説明する。図１１は、上述した場合の、システム制御装置４０およびＩ２Ｃコントローラ２３に係る動作／手順（ステップＡ６１〜Ａ６５）を示すフローチャートである。

ステップＡ６１：システム制御装置４０（ＣＰＵ４１）が、アライブチェックのアクセスをＩ２Ｃバス６０経由でＰＣＩボックス２０のＩ２Ｃコントローラ２３に対し発行する。
ステップＡ６２：Ｉ２Ｃコントローラ２３は、アライブチェックのアクセスに応じ、レジスタ情報（エラー情報）を含むエラー応答または割込みを、Ｉ２Ｃバス６０経由でシステム制御装置４０に送信する。［図４のステップＳ２９に対応］

ステップＡ６３：システム制御装置４０は、エラー情報を受信すると、当該エラー情報に基づき障害解析を行なう。［図５のステップＳ４３に対応］
ステップＡ６４：システム制御装置４０は、障害解析結果をオペレータに通知するとともに、メモリ４２にロギングする。［図５のステップＳ４４に対応］
ステップＡ６５：保守担当者（オペレータ）は、システム制御装置４０によって通知された障害解析結果、あるいは、メモリ４２に保存されたログを参照して、障害の生じたＩ２Ｃコントローラ２３を判別し交換する。

〔３−６〕次に、システム制御装置４０がアライブチェックのアクセスをＰＣＩボックス２０のＩ２Ｃコントローラ２３に対し行なった際にＩ２Ｃコントローラ２３側から応答がなくタイムアウトした場合の、具体的な保守作業手順について、図１２を参照しながら説明する。図１２は、上述した場合の、システム制御装置４０に係る動作／手順（ステップＡ７１〜Ａ８２）を示すフローチャートである。

ステップＡ７１：システム制御装置４０（ＣＰＵ４１）が、アライブチェックのアクセスをＩ２Ｃバス６０経由でＰＣＩボックス２０のＩ２Ｃコントローラ２３に対し発行する。
ステップＡ７２：ＰＣＩボックス２０のＩ２Ｃコントローラ２３側から応答がなくタイムアウト。

ステップＡ７３：システム制御装置４０は、ＰＣＩボックス２０のＩ２Ｃコントローラ２３に含まれる全要素を被疑箇所として認識する。［図５のステップＳ４６に対応］
ステップＡ７４：システム制御装置４０は、認識結果をオペレータに通知するとともに、メモリ４２にロギングする。［図５のステップＳ４７に対応］
ステップＡ７５：保守担当者（オペレータ）は、システム制御装置４０によって通知された認識結果、あるいは、メモリ４２に保存されたログを参照して、障害の生じたＩ２Ｃコントローラ２３を判別し交換する。

ステップＡ７６：システム制御装置４０もしくは保守担当者は、ステップＡ７５での交換に伴い障害が復旧したか否かを判定する。［図５のステップＳ４８に対応］
ステップＡ７７：障害が復旧した場合（ステップＳ７６のＹＥＳルート）、システム制御装置４０は、Ｉ２Ｃコントローラ２３を被疑箇所として断定し、その旨を保守担当者に通知するとともにメモリ４２にロギングして処理を終了する。これに伴い、保守担当者による保守作業も完了する。［図５のステップＳ４９，Ｓ５０に対応］

ステップＡ７８：障害が復旧しない場合（ステップＳ７６のＮＯルート）、システム制御装置４０は、ＰＣＩボックス２０側の、Ｉ２Ｃコントローラ２３を除く構成部品全体を被疑箇所として認識し、その認識結果を保守担当者に通知するとともにメモリ４２にロギングする。［図５のステップＳ５１，Ｓ５２に対応］
ステップＡ７９：通知内容やログを参照した保守担当者は、ＰＣＩボックス２０をシステム（サーバ１０）に接続したままＰＣＩボックス２０を成す各要素の切り分け作業が許されるか否かを確認する。

ステップＡ８０：切り分け作業が許される場合（ステップＡ７９のＹＥＳルート）、保守担当者は、ＰＣＩボックス２０を成す要素を一つずつ交換し交換に伴い障害が復旧したか否かを確認することにより、被疑箇所を特定する。このような作業により被疑箇所が特定され、被疑箇所の要素の交換によって障害が復旧すれば、保守担当者による保守作業は完了する。

ステップＡ８１：顧客の都合等により、切り分け作業が許されないこともある。その際には（ステップＡ７９のＮＯルート）、保守担当者は、Ｉ２Ｃコントローラ２３を除くＰＣＩボックス２０の構成部品全体を新たなＰＣＩボックス２０に交換する。
ステップＡ８２：ＰＣＩボックス２０の交換後、保守担当者は、被疑箇所を特定できていないＰＣＩボックス２０を工場に送付し、被疑箇所を特定できていないＰＣＩボックス２０の障害の再現試験を行なう。その際に、Ｉ２Ｃコントローラ２３に含まれる不揮発性メモリ２３３に蓄積された障害情報が読み出され、読み出された障害情報に基づき、ＰＣＩボックス２０における被疑箇所が特定される。そして、特定された被疑箇所に係る部品（要素）が、新たな部品に交換される。この交換作業によって障害が復旧すれば、保守担当者による保守作業は完了する。

〔４〕本実施形態の情報処理装置の効果
既存の技術では、ＰＣＩ-exバス５０とは異なる別経路で障害情報等を、保守診断装置に相当するシステム制御装置４０に通知する場合、その別経路を例えばＩ２Ｃバス等の低速バスで構成すると、複数の障害が発生した場合等に、障害情報を送信しきれずに、障害情報が消失してしまうおそれがあった。

これに対し、本実施形態の情報処理装置１によれば、障害が発生した場合に障害情報の詳細は不揮発性メモリ２３３に蓄積されるため、消失することなく、また電源のオン／オフに関係なく、確実に不揮発性メモリ２３３に保存される。そして、Ｉ２Ｃバス（第２のバス）６０経由でシステム制御装置４０に対しエラー通知が行なわれると、システム制御装置４０が不揮発性メモリ２３３から障害情報を順次読み出すように構成される。

したがって、ＰＣＩボックス２０におけるＰＣＩ-exブリッジ２１やＰＣＩ-exカード３１（デバイス３０）の障害情報が確実に取得され、被疑箇所を精度高く特定して新たな部品と交換して障害を復旧することができる。これにより、保守作業に際し、ＰＣＩボックス２０全体を交換することを可能な限り避けることができ、被疑箇所（被疑部品）の特定による的確な保守を行なえ、効率的な保守作業および保守部品コストの低減を実現することができる。

また、Ｉ２Ｃバス６０は低速であるため、システム制御装置４０がＩ２Ｃバス６０経由でＰＣＩ-exカード３１にエラー情報の収集に行くと、現実的な実行時間での保守作業を行なえなくなる可能性がある。これに対し、本実施形態では、現実的な実行時間での保守作業を行なえない状況にあってもエラー情報が不揮発性メモリ２３３に蓄積保存されるので、確実に障害解析を行なって被疑箇所を特定して通知することが可能になる。

さらに、障害情報を不揮発性メモリ２３３に蓄積することで、障害情報の収集処理とシステム制御装置４０への障害情報の通知処理とを分離して行なうことができ、処理の高速化を実現することも可能になる。

一方、本実施形態では、ＰＣＩ-exバス５０とは別系統のアクセス経路であるＩ２Ｃバス（第２のバス）６０を設け、このＩ２Ｃバス６０を、ＰＣＩボックス２０からシステム制御装置４０への障害情報収集用経路として用いている。このような場合、Ｉ２Ｃバス６０やＩ２Ｃコントローラ２３が故障すると、障害情報がＩ２Ｃコントローラ２３からシステム制御装置４０へ伝達されず、被疑箇所の特定ができなくなるおそれがある。これに対し、本実施形態では、図１１や図１２を参照しながら上述した保守作業手順により、Ｉ２Ｃコントローラ２３での障害発生を特定して保守することも可能である。

また、本実施形態では、システム制御装置４０側で障害が検出された場合、サーバ１０側で得られた障害解析結果よりも、システム制御装置４０側で得られた障害解析結果の方を優先して、オペレータに対するエラー報告が行なわれる。これにより、オペレータは、詳細な障害情報に基づき被疑箇所を特定した、システム制御装置４０側で得られた障害解析結果を参照し、保守作業を行なうことができる。つまり、ＰＣＩボックス２０の全体を交換することなく、被疑箇所に係る部品のみの交換を行なうこができ、効率的な保守作業および保守部品コストの低減を実現することができる。

〔５〕その他
以上、本発明の好ましい実施形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。

上述した実施形態では、第１のバスとしてＰＣＩ-exバスを用い、第２のバス（システム制御バス）としてＩ２Ｃバスを用いた場合について説明したが、本発明は、これに限定されるものではなく、他のバスを用いてもよい。例えば、第２のバスとしては、ＳＭ（System Management）バスを用いてもよい。

１情報処理装置
１０サーバ（処理装置）
１１ＣＰＵ
１２メモリ
１３ＰＣＩ-exコントローラ
１４Ｉ２Ｃコントローラ
１５ＬＡＮインタフェース部
１６バス
２０ＰＣＩボックス（構成部品）
２１ＰＣＩ-exブリッジ（バスブリッジ）
２２ＰＣＩ-exカードスロット
２３Ｉ２Ｃコントローラ（障害通知部）
２３１処理部（障害通知部）
２３２メモリ
２３３不揮発性メモリ（不揮発性記憶装置）
２４，２５Ｉ２Ｃバス
３０デバイス（周辺装置）
３１ＰＣＩ-exカード（周辺装置）
３２ケーブル
４０システム制御装置（ＳＶＰ，監視装置）
４１ＣＰＵ
４２メモリ
４３Ｉ２Ｃコントローラ
４４ＬＡＮインタフェース部
４５バス
５０ＰＣＩ-exバス（第１のバス；内部バス）
６０，７０Ｉ２Ｃバス（第２のバス；システム制御バス）

Claims

処理装置と、
前記処理装置に第１のバスを介して接続されるとともに、周辺装置と接続するバスブリッジと、
前記周辺装置または前記バスブリッジで発生した障害に係る情報を記憶する不揮発性記憶装置と、
前記不揮発性記憶装置に、前記第１のバスとは異なる第２のバスを介して接続され、前記処理装置を含むシステムの監視を行なう監視装置と、
前記周辺装置または前記バスブリッジで障害が発生した場合に、発生した前記障害に係る情報を前記不揮発性記憶装置に記憶するとともに、前記第２のバスを介して前記監視装置にエラーを通知する障害通知部と、
を有することを特徴とする情報処理装置。
前記障害通知部は、前記周辺装置または前記バスブリッジから前記障害が発生したことを示す第１応答または第１割込みを受けると、前記周辺装置または前記バスブリッジから前記障害に係る情報を読み出して前記不揮発性記憶装置に記憶することを特徴とする、請求項１記載の情報処理装置。
前記監視装置は、前記障害通知部から前記エラーの通知を受けると、前記第２のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき第１障害解析を行ない、前記第１障害解析の結果を通知することを特徴とする、請求項１または請求項２記載の情報処理装置。
前記処理装置は、前記周辺装置に対するアクセスを行なった際に前記第１のバスを介して前記周辺装置または前記バスブリッジで前記障害が発生したことを示す第２応答または第２割込みを受けると、前記第２応答または前記第２割込みに含まれる情報に基づき第２障害解析を行ない、前記第２障害解析の結果を前記監視装置に通知し、
前記監視装置は、前記第１障害解析の結果と前記第２障害解析の結果との両方を得た場合、前記第１障害解析の結果を優先的に通知することを特徴とする、請求項３記載の情報処理装置。
前記処理装置が前記周辺装置に対するアクセスを行なった際に前記第１のバスからの応答がない場合、前記監視装置は、前記第２のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき前記第１障害解析を行ない、前記第１障害解析の結果を通知することを特徴とする、請求項３記載の情報処理装置。
前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部から障害が発生したことを示すエラー情報を受けると、前記エラー情報に基づき第３障害解析を行ない、前記第３障害解析の結果を通知することを特徴とする、請求項１〜請求項５のいずれか一項に記載の情報処理装置。
前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部からの応答がない場合、前記障害通知部で障害が発生したものと認識し、その旨を通知することを特徴とする、請求項１〜請求項５のいずれか一項に記載の情報処理装置。
前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換に伴い障害が復旧した場合、前記障害通知部を被疑箇所として断定することを特徴とする、請求項７記載の情報処理装置。
前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換を行なっても障害が復旧しない場合、前記障害通知部に接続される、前記周辺装置および前記バスブリッジを含む構成部品を被疑箇所として認識しその旨を通知することを特徴とする、請求項７記載の情報処理装置。
処理装置と、前記処理装置に第１のバスを介して接続されるとともに周辺装置と接続するバスブリッジと、前記周辺装置または前記バスブリッジで発生した障害に係る情報を記憶する不揮発性記憶装置と、前記不揮発性記憶装置に、前記第１のバスとは異なる第２のバスを介して接続され、前記処理装置を含むシステムの監視を行なう監視装置と、障害通知部とを有する情報処理装置の障害処理方法であって、
前記障害通知部は、
前記周辺装置または前記バスブリッジで障害が発生した場合に、
発生した前記障害に係る情報を前記不揮発性記憶装置に記憶するとともに、
前記第２のバスを介して前記監視装置にエラーを通知する、
ことを特徴とする情報処理装置の障害処理方法。
前記障害通知部は、前記周辺装置または前記バスブリッジから前記障害が発生したことを示す第１応答または第１割込みを受けると、前記周辺装置または前記バスブリッジから前記障害に係る情報を読み出して前記不揮発性記憶装置に記憶することを特徴とする、請求項１０記載の情報処理装置の障害処理方法。
前記監視装置は、前記障害通知部から前記エラーの通知を受けると、前記第２のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき第１障害解析を行ない、前記第１障害解析の結果を通知することを特徴とする、請求項１０または請求項１１記載の情報処理装置の障害処理方法。
前記処理装置は、前記周辺装置に対するアクセスを行なった際に前記第１のバスを介して前記周辺装置または前記バスブリッジで前記障害が発生したことを示す第２応答または第２割込みを受けると、前記第２応答または前記第２割込みに含まれる情報に基づき第２障害解析を行ない、前記第２障害解析の結果を前記監視装置に通知し、
前記監視装置は、前記第１障害解析の結果と前記第２障害解析の結果との両方を得た場合、前記第１障害解析の結果を優先的に通知することを特徴とする、請求項１２記載の情報処理装置の障害処理方法。
前記処理装置が前記周辺装置に対するアクセスを行なった際に前記第１のバスからの応答がない場合、前記監視装置は、前記第２のバスを介して前記不揮発性記憶装置に記憶された前記障害に係る情報を読み出し、読み出した前記障害に係る情報に基づき前記第１障害解析を行ない、前記第１障害解析の結果を通知することを特徴とする、請求項１２記載の情報処理装置の障害処理方法。
前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部から障害が発生したことを示すエラー情報を受けると、前記エラー情報に基づき第３障害解析を行ない、前記第３障害解析の結果を通知することを特徴とする、請求項１０〜請求項１４のいずれか一項に記載の情報処理装置の障害処理方法。
前記監視装置は、前記障害通知部に対するアクセスを行なった際に前記障害通知部からの応答がない場合、前記障害通知部で障害が発生したものと認識し、その旨を通知することを特徴とする、請求項１０〜請求項１４のいずれか一項に記載の情報処理装置の障害処理方法。
前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換に伴い障害が復旧した場合、前記障害通知部を被疑箇所として断定することを特徴とする、請求項１６記載の情報処理装置の障害処理方法。
前記監視装置は、前記障害通知部で障害が発生した旨の通知後の前記障害通知部の交換を行なっても障害が復旧しない場合、前記障害通知部に接続される、前記周辺装置および前記バスブリッジを含む構成部品を被疑箇所として認識しその旨を通知することを特徴とする、請求項１６記載の情報処理装置の障害処理方法。
前記構成部品が被疑箇所である旨の通知に応じて、前記構成部品を新たな構成部品に交換することを特徴とする、請求項１８記載の情報処理装置の障害処理方法。
前記不揮発性記憶装置に記憶された前記障害に係る情報に基づき、前記構成部品における被疑箇所を特定し、前記構成部品における、特定された前記被疑箇所に係る部品を、新たな部品に交換することを特徴とする、請求項１８または請求項１９記載の情報処理装置の障害処理方法。