JPH08329024A - 計算機システム - Google Patents

計算機システム

Info

Publication number
JPH08329024A
JPH08329024A JP7130626A JP13062695A JPH08329024A JP H08329024 A JPH08329024 A JP H08329024A JP 7130626 A JP7130626 A JP 7130626A JP 13062695 A JP13062695 A JP 13062695A JP H08329024 A JPH08329024 A JP H08329024A
Authority
JP
Japan
Prior art keywords
computer
failure
scc
self
integrated management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7130626A
Other languages
English (en)
Inventor
Hirokazu Kawabata
宏和 川端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP7130626A priority Critical patent/JPH08329024A/ja
Publication of JPH08329024A publication Critical patent/JPH08329024A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】 【目的】 制御実行計算機の故障情報を管理するサービ
ス制御実行計算機に障害が発生した場合でも、システム
全体を安定に稼動させることができる計算機システムを
得ることを目的とする。 【構成】 SCC21-1がシステムSCCとすると、各
SCC21-1〜21-nは立ち上げ時に、SCC管理部2
9のシステムSCC登録テーブル36を参照し、自計算
機がシステムSCCか否かを判断し自計算機がシステム
SCCであるため、診断インターフェイス32はシステ
ム構成テーブル31を参照し、送信処理部33等を用い
て各計算機に対して自己診断を要求する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、複数の制御実行計算
機を有する計算機システムにおいて、制御実行計算機の
故障情報を管理する統括管理計算機に障害が発生した場
合でも、システム全体を安定に稼動させることができる
計算機システムに関するものである。
【0002】
【従来の技術】図13は例えば特開昭64−88677
号公報に示された従来の計算機システムの構成を示すブ
ロック図であり、図において、1はこのマルチ制御実行
計算機構成の計算機システムの故障情報を管理するため
のサービス制御実行計算機、2はシステムバス、3は診
断用バス、4はサービス制御実行計算機1が管理する故
障情報やシステムの構成情報などを記憶するためのメモ
リである。
【0003】5-1〜5-nはシステムバス2を介してマル
チ制御実行計算機構成となっているn個の制御実行計算
機(以下、CPTと記す)、11はCPT5-1〜5-nの
各々において自己診断を実行する自己診断制御部、12
は自己診断制御部11で実行した自己診断の結果がエラ
ー発生である場合、診断用バス3を介してサービス制御
実行計算機1に通知するための診断インターフェイスで
ある。
【0004】次に動作について説明する。ここでは、C
PT5-1に障害が発生するものとして説明する。まず、
各CPT5-1〜5-nは、システム中に実行すべきレディ
タスクがないと判断した場合、システムのアイドルルー
チンに入る。そして、自己診断制御部11では自己診断
処理を起動するためのマクロ命令を実行し、このマクロ
命令によって、自己診断制御部11の制御の下で自己診
断を行い、正常に動作しているか否かを診断する。ここ
で、例えば自己診断によりCPT5-2〜5-nが正常であ
れば、そのままアイドルルーチンにとどまる。そして、
障害が発生したCPT5-1はエラーと診断され、動作が
停止される。当該CPT5-1からのエラー発生通知は診
断インターフェイス12、および診断用バス3を介して
サービス制御実行計算機1に出力される。そして、サー
ビス制御実行計算機1ではCPT5-1からのエラー発生
通知を受け取ると、エラー発生の原因に応じて各々の処
理を行う。
【0005】次に、上記サービス制御実行計算機1の動
作をフローチャートを参照して説明する。図14は従来
の計算機システムのサービス制御実行計算機の動作手順
を示すフローチャートである。まず、障害発生CPT5
-1からの割り込み発生に伴い(ステップST1)、割り
込み原因がCPT5-1〜5-nまたは他の機器のいずれに
あるかが判断される(ステップST2)。そして、CP
T5-1〜5-nにおいては障害が発生していない(NO)
と判断した場合は、他の処理を行う(ステップST
3)。一方、ステップST2において、割込みによる通
知内容を解析した結果、CPT5-1〜5-nにおいて障害
が発生した(YES)と判断した場合は、割り込みの通
知内容の種別を判断し、この通知内容に応じた処理に分
岐され(ステップST4)、各通知内容に応じた処理が
行われる(ステップST5〜ST7)。
【0006】ここで、例えば、分岐の種別としては電源
投入時の自己診断エラー、トラップ処理の続行不能など
があるが、こうした中で、サービス制御実行計算機1へ
の割り込み原因が、その通知内容の解析結果からCPT
5-1であり、しかもシステム稼動中の自己診断エラーで
あることがわかると、サービス制御実行計算機1は、例
えば、障害発生CPT5-1の切り離しのための処理を行
う。そして、障害発生を割込みにより通知したCPT5
-1はタスク実行中でないので、例えばメモリ4上の構成
表からこのCPT5-1を切り離すなどの故障処理を行う
(ステップST8)。その後、障害の発生していない他
のCPT5-1〜5-nに対してCPT5-1の障害発生を診
断用バス3を介して通知し、システムソフトウェア上で
のCPT5-1の切り離し処理が完了する(ステップST
9)。
【0007】
【発明が解決しようとする課題】従来の計算機システム
は以上のように構成されているので、複数のCPT5-1
〜5-nの障害発生に対してサービス制御実行計算機1を
設けて、障害管理や障害発生したCPT5-1〜5-nの切
り離し処理などを行い、稼動中の計算機システムに与え
る悪影響を最小限に押さえる点では有効な効果が期待で
きるが、サービス制御実行計算機1そのものに障害が発
生した場合の対策はなされておらず、サービス制御実行
計算機1での障害発生が稼動中の計算機システムに多大
なる悪影響を与えるなどの問題点があった。
【0008】この発明は上記のような問題点を解消する
ためになされたもので、サービス制御実行計算機で障害
が発生した場合でも、他のサービス制御実行計算機にて
障害の発生したサービス制御実行計算機の機能を代替
し、より安定した環境のもとで稼動できる計算機システ
ムを得ることを目的とする。
【0009】また、この発明は、機能代替が確実に行う
ことができる他のサービス制御実行計算機を選択するこ
とができる計算機システムを得ることを目的とする。
【0010】さらに、この発明は、メンテナンス性とフ
レキシブル性を向上させることができる計算機システム
を得ることを目的とする。
【0011】
【課題を解決するための手段】請求項1の発明に係る計
算機システムは、代替手段により統括管理計算機を複数
台接続し、制御実行計算機に対して障害対応処理を行う
ときに自己の障害状態を診断し、自己に障害が検出され
た場合には、その代替とする他の統括管理計算機を選別
し、その選別された統括管理計算機に対して代替依頼を
行うようにしたものである。
【0012】請求項2の発明に係る計算機システムは、
統括管理計算機により、自己の障害状態の診断および他
の統括管理計算機の自己診断結果を取り込み、自己に障
害が発生したときに代替とする統括管理計算機を指定す
るとともに、制御実行計算機により、自己診断結果が障
害発生である場合、稼動テーブルを参照して現在稼動し
ている統括管理計算機を識別し、統括管理計算機に対し
て障害通知を出力するようにしたものである。
【0013】請求項3の発明に係る計算機システムの統
括管理計算機は、負荷率測定部自己が管理している制御
実行計算機の台数及び処理能力から負荷率を検出し、こ
の負荷率が閾値を越えた場合には自己診断制御部に対し
て障害通知を出力するようにしたものである。
【0014】請求項4の発明に係る計算機システムは、
システムメンテナンスツールにより共有メモリに登録さ
れている障害状態および稼動情報を読み込み、障害が発
生している統括管理計算機を検知しながら、あるいは各
統括管理計算機の負荷を予測しながら、現在の統括管理
計算機の機能を代替する統括管理計算機をダイナミック
に決定し、共有メモリ内の統括管理計算機管理部や稼動
テーブルをメンテナンスするようにしたものである。
【0015】
【作用】請求項1の発明における計算機システムは、制
御実行計算機に対して障害対応処理を行うときに自己の
障害状態を診断し、自己に障害が検出された場合には、
その代替とする他の統括管理計算機を選別し、その選別
された統括管理計算機に対して代替依頼を行う代替手段
を設けたことにより、統括管理計算機で障害が発生した
場合でも、他の統括管理計算機にて上記障害が発生した
統括管理計算機の機能を代替させることができるように
なる。
【0016】請求項2の発明における計算機システム
は、統括管理計算機に自己の診断結果と他の統括管理計
算機の自己診断結果を取り込み、自己に障害が発生した
場合にその代替とする統括管理計算機を設定する統括管
理計算機管理部と、自己に障害が発生したときに代替と
する統括管理計算機を指定する第1の診断インターフェ
イスとを設け、制御実行計算機に自己診断結果が障害発
生である場合、稼動テーブルを参照して現在稼動してい
る統括管理計算機を識別し、統括管理計算機に対して障
害通知を出力する第2の診断インターフェイスを設けた
ことにより、統括管理計算機で障害が発生した場合で
も、他の統括管理計算機にて障害の発生した上記障害が
発生した統括管理計算機の機能を代替させることができ
るようになる。
【0017】請求項3の発明における計算機システム
は、負荷率が閾値を越えた場合には自己診断制御部に対
して障害通知を出力する負荷率測定部を設けたことによ
り、機能代替が確実に行うことができる他の統括管理計
算機を選択することができるようになる。
【0018】請求項4の発明における計算機システム
は、統括管理計算機または制御実行計算機とオンライン
により接続され、共有メモリに登録されている障害状態
および稼動情報を読み込み、障害が発生している統括管
理計算機を検知しながら、あるいは各統括管理計算機の
負荷を予測しながら、次システム統括管理計算機の選定
がシステム全体の状況に応じて行なうことができるよう
になる。
【0019】
【実施例】
実施例1.以下、この発明の一実施例を図について説明
する。図1はこの発明の一実施例による計算機システム
を示す構成図であり、従来のものと同一の符号は同一ま
たは相当部分を示すので説明を省略する。図において、
21は本発明の一実施例によるSCC(統括管理計算
機)、61は本発明の一実施例によるCPT(制御実行
計算機)であり、各SCC21-1〜21-n及び各CPT
61-1〜61-nともにシステムバス2と診断用バス3と
を介して接続されている。
【0020】図2はこの発明の一実施例による計算機シ
ステムのSCCの構成を示すブロック図であり、22は
システムバス2とのインターフェイスとなるシステムバ
スインターフェイス、23は診断用バス3とのインタフ
ェースとなる診断用バスインターフェイス、24は診断
用バス3および診断用バスインターフェイス23を介し
て他のSCC21-1〜21-nまたはCPT61-1〜61
-nから各種の通知を受け取る受信処理部、25は受信し
た情報を解析して、例えば受信した情報が障害情報であ
れば、障害発生したSCC21-1〜21-nまたはCPT
61-1〜61-nを割り出す受信情報解析部、26は受信
情報解析部25の解析結果と下記に示す故障処理テーブ
ル27に登録された故障処理情報をもとに故障処理を実
行する故障処理実行部である。
【0021】27は各SCC21-1〜21-nまたはCP
T61-1〜61-nの障害発生時に、例えば切り離し処理
を行うなどの故障処理情報を予め登録された故障処理テ
ーブル、28は受信情報解析部25があるCPT61-1
〜61-nにおいて障害が発生したと解析した場合に、故
障処理実行部26によってその解析結果が登録される故
障CPT管理部、29は受信情報解析部25があるSC
C21-1〜21-nにおいて障害が発生したと解析した場
合に、故障処理実行部26によってその解析結果が登録
されるSCC管理部(統括管理計算機管理部(代替手
段))、30は受信情報解析部25の解析結果が自己診
断要求である場合、自計算機の自己診断を実行する自己
診断制御部、31はこの計算機システム内に存在するS
CC21-1〜21-nおよびCPT61-1〜61-nの構成
情報を記載したシステム構成テーブル(代替テーブル)
である。なお、システムSCCと表記している場合はC
PT61-1〜61-nを管理制御している稼動SCCのこ
とであり、単にSCCと表記している場合には稼動SC
Cの裏で待機している待機SCCのことである。
【0022】32は他のSCC21-1〜21-nの自己診
断結果が登録されたSCC管理部29をもとに、自計算
機が障害発生した場合に自計算機の機能を代替する次シ
ステムSCC21-1〜21-nを選定したり、自己診断制
御部30の診断結果が障害発生である場合、SCC管理
部29を参照して自計算機の機能を代替する次システム
SCC21-1〜21-nに機能代替依頼を発行する診断イ
ンターフェイス(第1の診断インターフェイス(代替手
段))、33は診断インターフェイス32から受け取っ
た次システムSCC21-1〜21-nに機能代替依頼を診
断用バスインターフェイス23を介して診断用バス3に
ハンドリングしたり、管理すべきCPT61-1〜61-n
に障害が発生した場合、故障処理テーブル27を参照し
た故障処理実行部26の故障処理命令を該当する障害発
生CPT61-1〜61-nに通知するため、診断用バスイ
ンターフェイス23を介して診断用バス3にハンドリン
グする送信処理部である。
【0023】図3はこの発明の一実施例による計算機シ
ステムの故障CPT管理テーブルの構成を示すブロック
図である。41-1〜42-nはCPT61-1〜61-nの各
々に対してそれぞれが障害発生したことを障害種類毎に
示す障害発生フラグであり、CPT61-1〜61-nに障
害発生すれば該当する障害発生フラグがセットされる。
【0024】図4はこの発明の一実施例による計算機シ
ステムのSCC管理部の構成を示すブロック図である。
34は故障CPT管理テーブル28と同様の構成を持つ
故障SCC管理テーブル(診断結果テーブル)、35は
診断インターフェイス32により、自計算機に障害発生
した場合にシステムSCCの機能を代替する次システム
SCCを登録する次システムSCC登録テーブル、36
は次システムSCC登録テーブルと同様の構成を持ち、
現在のシステムSCCが登録されるシステムSCC登録
テーブル、42-1〜42-nは故障SCC管理テーブル3
4において、SCC21-1〜21-nの各々に対しての障
害発生状態を示す障害発生フラグ、43-1〜43-nは次
システムSCC登録テーブル35において、現在のシス
テムSCCの機能を代替させるシステムSCCを示すフ
ラグ、44-1〜44-nはシステムSCC登録テーブル3
6において、現在のシステムSCCを示すフラグであ
る。
【0025】図5はこの発明の一実施例による計算機シ
ステムのCPTの構成を示すブロック図であり、62は
システムバス2とのインターフェイスとなるシステムバ
スインターフェイス、63は診断用バス3とのインタフ
ェースとなる診断用バスインターフェイス、64は診断
用バス3および診断用バスインターフェイス63を介し
て自計算機のCPT61-1〜61-nを管理するシステム
SCC21-1〜21-nから障害発生したSCC21-1〜
21-nまたはCPT61-1〜61-nの情報を受け取る受
信処理部、65は受信処理部64が受信した情報を解析
する受信情報解析部、66は受信情報解析部65の解析
結果を登録する故障CPT管理部、67は前述の次シス
テムSCC登録テーブル35と同一の構成を持ち、受信
処理部64が受け取った情報がシステムSCC21-1〜
21-nの変更依頼に関するものであれば、その情報を登
録するシステムSCC登録テーブル(稼動テーブル)で
ある。
【0026】68は受信情報解析部65が、システムS
CC21-1〜21-nからの自己診断要求であると解析し
た場合、自己診断を実行するとともに、例えば、システ
ムがアイドルルーチン状態にある場合、自計算機CPT
61-1〜61-nの自己診断処理を実行する自己診断制御
部、69は例えば、自己診断制御部68の診断結果が障
害発生である場合、システムSCC登録テーブル67を
参照して自計算機のCPT61-1〜61-nを管理するシ
ステムSCC21-1〜21-nに障害通知を発行する診断
インターフェイス(第2の診断インターフェイス)、7
0は診断インターフェイス69から受け取った障害通知
を診断用バスインターフェイス63を介して診断用バス
3にハンドリングする送信処理部である。
【0027】次に動作について説明する。ここでは、シ
ステムの初期設定段階で、各SCC21-1〜21-nおよ
びCPT61-1〜61-nの各故障CPT管理部28-1〜
28-nおよび66-1〜66-nは初期化されており、また
SCC21-1〜21-nのSCC管理部29-1〜29-nに
ついても初期化状態にあり、例えば、システムSCCが
SCC-1であるとしてシステムSCC登録テーブル36
のシステムSCC登録フラグ44-1がフラグオンの状態
にあるとする。さらに、各SCC21-1〜21-nの各故
障処理テーブル27-1〜27-nやシステム構成テーブル
31-1〜31-nに、各SCC21-1〜21-n、各CPT
61-1〜61-nの故障処理情報やシステム構成情報が登
録されているものとする。
【0028】図6はこの発明の一実施例による計算機シ
ステムのSCCの立ち上げ時の動作手順を示すフローチ
ャートである。なお、ここでSCC21-1がシステムS
CCとする。まず、各SCC21-1〜21-nは立ち上げ
時に、SCC管理部29のシステムSCC登録テーブル
36を参照し(ステップST11)、自計算機がシステ
ムSCCか否かを判断する(ステップST12)。
【0029】ここで、SCC21-1は自計算機がシステ
ムSCCであるため、診断インターフェイス32はシス
テム構成テーブル31を参照し、送信処理部33および
診断用バスインターフェイス23、診断用バス3を用い
て各計算機に対して自己診断を要求する(ステップST
13)。なお、自計算機がシステムSCCでないSCC
21-2〜21-nでは、後述の図7に示した動作を実行す
る。
【0030】次に、システム構成テーブル31に登録さ
れている他の全てのSCC21-2〜21-nおよびCPT
61-1〜61-nが正常か否かを判断する(ステップST
14)。すなわち、システムSCC21-1の受信情報解
析部25は各計算機の自己診断結果が診断用バス3、受
信処理部24を介して一定時間内に送信されてくるか否
かを判断する。そして、一定時間内に他の全てのSCC
21-2〜21-nおよびCPT61-1〜61-nから応答が
返信されてきた(YES)場合、他の全てのSCC21
-2〜21-nおよびCPT61-1〜61-nは正常に稼動し
ていると判断し、後述のステップST18に進む。
【0031】一方、何れかのSCC21-2〜21-nまた
はCPT61-1〜61-nから自己診断結果が送信されて
こなかった(NO)場合、故障処理実行部26は自己診
断結果を送信してこなかったSCC21-2〜21-nまた
はCPT61-1〜61-nを識別し、CPT61-1〜61
-nの何れかの場合、故障CPT管理部28内の該当する
CPT障害発生フラグ41-1〜41-nをオンする。ま
た、SCC21-2〜21-nの何れかの場合、SCC管理
部29内の故障SCC管理テーブル34の該当するSC
C障害発生フラグ42-1〜42-nをオンする(ステップ
ST15)。
【0032】続いて、システムSCC21-1の故障処理
実行部26は、システム構成テーブル31から障害の発
生したSCC21-1〜21-nまたはCPT61-1〜61
-nの登録を抹消するなどのシステム構成テーブル31の
更新を行い(ステップST16)、さらに故障処理テー
ブル27を参照し、障害の発生したSCC21-1〜21
-nまたはCPT61-1〜61-nに対して故障処理を実行
するよう診断インターフェイス32に通知する。診断イ
ンターフェイス32はこの通知に従い、送信処理部3
3、診断用バスインターフェイス23を通じて障害の発
生したSCC21-1〜21-nまたはCPT61-1〜61
-nに対して故障処理を実行し、さらに他の正常なSCC
21-1〜21-nまたはCPT61-1〜61-nに対して障
害発生したことを通知する(ステップST17)。
【0033】次に、診断インターフェイス32は、現在
のシステムSSCに障害が発生した場合に代替えを行わ
すための次システムSCCを他のSCC21-2〜21-n
の中から選定する(ステップST18)。詳しくは、診
断インターフェイス32は、SCC管理部29内の故障
SCC管理テーブル34の中から、ある規定、例えば診
断インターフェイス32の動作プログラム内に、各SC
C21-1〜21-nに対する次システムSCC候補の優先
順位が定義されており、これに従い、次システムSCC
を選定する。ここで例えば、次システムSCCがSCC
21-2であるという選定結果が得られた場合、次システ
ムSCCがSCC21-2であるという結果を得た診断イ
ンターフェス32は、SCC管理部29内の次システム
SCC登録テーブル35の次システムSCC登録フラグ
43-2をオンする(ステップST19)。
【0034】さらにSCC-1の診断インターフェイス3
2は、自己診断制御部30により自計算機の自己診断を
実行し(ステップST20)、自計算機に障害が発生し
ているか否かを判断する(ステップST21)。判断の
結果、自計算機に障害がまったく発生していない(N
O)場合には、ステップST13に戻り、上記一連の処
理を継続するが、もし自計算機において軽度の障害でも
発生している(YES)場合には、SCC管理部29内
の次システムSCC登録テーブル35を参照し、次シス
テムSCCがSCC21-2であることを認識して、SC
C21-2に対してシステムSCC機能の代替依頼を送信
処理部33および診断用バスインターフェイス23を介
して実行する(ステップST22)。
【0035】図7はこの発明の一実施例による計算機シ
ステムの立ち上げ時において、自計算機がシステムSC
Cでないと判断した時の動作手順を示すフローチャート
である。なお、当初各SCC21-1〜21-nは障害が発
生しておらず、また、説明の都合上、正常なSCC21
-1〜21-nとしてSCC21-2、ステップST39にお
いて障害の発生するSCC21-1〜21-nとしてSCC
21-1を用いる。
【0036】まず、SCC21-1〜21-nの各診断用バ
スインターフェイス23は、診断用バス3からの割り込
み信号の受信待機状態にあり(ステップST31)、割
り込み信号を受信した時には、受信情報解析部25は受
信処理部24を介してこの割り込み信号を取り込み、受
信した割込み信号の解析を行う。そして、受信した割込
み信号がシステムSCC21-1からでない(NO)場合
には、割り込み信号に応じた処理を行い(ステップST
47)、処理を終了する。一方、受信した割込み信号が
システムSCC21-1からである(YES)場合には、
受信情報解析部25はシステムSCC21-1の故障CP
T管理部28からの通知か否かを判断する(ステップS
T33)。
【0037】そして、システムSCC21-1の故障CP
T管理部28からの故障CPT通知である(YES)場
合は、SCC21-2の受信情報解析部25は故障処理実
行部26を介してSCC21-2の故障CPT管理部28
内の該当するCPT障害発生フラグ41-1〜41-nをオ
ンすることにより、該当する障害発生CPT61-1〜6
1-nをシステム構成テーブル31から除外する(ステッ
プST34)。その後、このシステム構成テーブル31
を更新し(ステップST35)、この処理を終了する。
【0038】ステップST33の判断の結果、システム
SCC21-1の故障CPT管理部28からの故障CPT
通知でない(NO)場合は、システムSCC21-1のS
CC管理部29からの故障SCC通知か否かを判断する
(ステップST36)。そして、故障SCC通知である
(YES)場合には、SCC21-2の受信情報解析部2
5は故障処理実行部26を介してSCC管理部29内の
該当する故障SCC管理テーブル34のSCC障害発生
フラグ42-1をオンすることにより、該当する障害発生
SCC-1をシステム構成テーブル31から除外する(ス
テップST37)。その後、システム構成テーブル31
を更新し(ステップST35)、この処理を終了する。
【0039】ステップST36の判断の結果、システム
SCC21-1のSCC管理部29からの故障SCC通知
でない(NO)場合には、システムSCC-1からのシス
テムSCC更新通知か否かを判断する(ステップST3
8)。そして、システムSCC更新通知である(YE
S)場合には、SCC21-2の故障処理実行部26は、
SCC管理部29内の次システムSCC登録テーブル3
5の次システムSCC登録フラグ43-2をオンにし(ス
テップST39)、この処理を終了する。
【0040】ステップST38の判断の結果、システム
SCC-1からのシステムSCC更新通知でない(NO)
場合には、システムSCC-1からのシステムSCC機能
代替通知か否かを判断する(ステップST40)。そし
て、システムSCC機能代替通知である(YES)であ
る場合には、SCC21-2の故障処理実行部26は、診
断インターフェイス32に通知する。そして、通知を受
けた診断インターフェイス32はSCC管理部29内の
システムSCC登録テーブル36を参照し、現在オンに
なっているシステムSCC登録フラグ44-2に基づい
て、SCC21-2が新しいシステムSCCかを認識し
(ステップST41)、SCC21-2が新しいシステム
SCCである場合には、図6のステップST12に戻
り、処理を引き続き実行する。
【0041】ステップST40の判断の結果、システム
SCC-1からのシステムSCC機能代替通知でない(N
O)場合には、システムSCC21-1からの自己診断実
施要求通知か否かを判断する(ステップST42)。そ
して、システムSCC21-1からの自己診断実施要求通
知である(YES)場合には、診断インターフェイス3
2に通知し、通知を受けた診断インターフェイス32
は、各自己診断制御部30により自己診断を実施する
(ステップST43)。そして、自己診断を行った結果
(ステップST44)、自計算機において軽度の障害が
発生したと判断した診断インターフェイス32は、送信
処理部33および診断用バスインターフェイス23を介
してシステムSCC21-1へ故障発生を通知する(ステ
ップST45)。ステップST44の判断の結果、自計
算機において正常に稼動していると判断された場合、シ
ステムSCC21-1へ正常応答信号を通知する(ステッ
プST46)。
【0042】ステップST42の判断の結果、システム
SCC21-1からの自己診断実施要求通知でない(N
O)場合には、その他の割込みに応じた処理を行い(ス
テップST47)、処理を終了する。
【0043】図8はこの発明の一実施例による計算機シ
ステムのCPTの立ち上げ時の動作手順を示すフローチ
ャートである。なお、説明のためにCPT61-2が正常
に稼動し、CPT61-nに障害が発生しているものとす
る。まず、CPT61-1〜61-nの診断用バスインター
フェイス63は、診断用バス3からの割り込み信号の受
信待機状態にあり(ステップST51)、割り込み信号
を受信した時には、CPT61-2の受信情報解析部65
は受信処理部64を介してこの割り込み信号を取り込
み、受信した割込み信号の解析を行う。そして、受信し
た割込み信号がシステムSCC21-1からの自己診断実
施要求通知か否かを判断する(ステップST52)。
【0044】そして、システムSCC21-1からの自己
診断実施要求通知である(YES)場合には、CPT6
1-2の診断インターフェイス69に通知し、通知を受け
た診断インターフェイス69は、各自己診断制御部68
により自己診断を実施する(ステップST53)。そし
て、自計算機において軽度の障害が発生したか否かを判
断し(ステップST54)、軽度の障害が発生したと判
断した(YES)場合、CPT61-2の診断インターフ
ェイス69は、故障CPT管理部66内の該当するCP
T障害発生フラグ41-nをオンし(ステップST5
5)、送信処理部70および診断用バスインターフェイ
ス63を介してシステムSCC21-1へ「CPT61-n
の障害あり」とする故障発生通知し(ステップST5
6)、この処理を終了する。一方、ステップST54の
判断の結果、自計算機が正常に稼動していると判断した
(NO)場合、システムSCC21-1へ「全てのCPT
61-1〜61-nが正常に稼動している」とする正常応答
通知し(ステップST56)、この処理を終了する。
【0045】ステップST52の判断の結果、システム
SCC21-1からの自己診断実施要求通知でない(N
O)場合には、受信情報解析部65はシステムSCC2
1-1の故障CPT管理部28からの通知か否かを判断す
る(ステップST57)。そして、システムSCC21
-1の故障CPT管理部28からの故障CPT通知である
(YES)場合は、CPT61-2の受信情報解析部65
は故障CPT管理部66内の該当するCPT障害発生フ
ラグ41-nをオンし(ステップST58)、この処理を
終了する。
【0046】一方、ステップST57の判断の結果、シ
ステムSCC21-1の故障CPT管理部28からの故障
CPT通知でない(NO)場合は、システムSCC-1か
らのシステムSCC更新通知か否かを判断する(ステッ
プST59)。そして、システムSCC更新通知である
(YES)場合には、CPT61-2のシステムSCC登
録テーブル67のシステムSCC登録フラグをオンにし
(ステップST60)、この処理を終了する。そして、
ステップST59の判断の結果、システムSCC更新通
知でない(NO)場合には、その他の割込みに応じた処
理を行い(ステップST61)、処理を終了する。
【0047】以上の説明で明らかなように、この実施例
1によれば、この計算機システムはCPT61-1〜61
-nの障害発生時はもとより、システムSCCに障害が発
生したときにも、その機能を待機しているSCCに速や
かに切り替えが行われるので、システムSCCの障害発
生によって計算機システム全体に悪影響がもたらされる
ことなく、安定したシステムの稼動が可能となる。
【0048】実施例2.図9はこの発明のその他の実施
例による計算機システムのSCCの構成を示すブロック
図である。上記実施例1では各SCC21-1〜21-nは
自己診断制御部30のみを設けているが、実施例2では
さらに図9に示すように、例えば、各SCC21-1〜2
1-nは、自己が管理しているCPT61-1〜61-nの台
数及び処理能力から負荷率を検出し、この負荷率が閾値
を越えた場合には、各SCC21-2〜21-nはシステム
SCC21-1のシステムSCC機能代替ができないと判
断し、図6のステップST21あるいは図7のステップ
ST44において、自己診断制御部30に対して障害通
知を出力する負荷率測定部72を設けたものである。
【0049】以上の説明で明らかなように、この実施例
2によれば、各SCC21-1〜21-nの負荷状況も考慮
に入れ、システムSCCの機能代替ができる各SCC2
1-2〜21-nを選択するため、確実に動作する次SCC
21-1〜21-nを選択することができる効果がある。
【0050】実施例3.図10はこの発明のその他の実
施例による計算機システムを示す構成図、図11はこの
発明のその他の実施例による計算機システムのSCCの
構成を示すブロック図、図12はこの発明のその他の実
施例による計算機システムのCPTの構成を示すブロッ
ク図であり、従来のものと同一の符号は同一または相当
部分を示すので説明を省略する。上記実施例1および2
では各SCC21-1〜21-nに対して、故障処理テーブ
ル27、故障CPT管理部28、SCC管理部29、シ
ステム構成テーブル31を配置し、さらに各CPT61
-1〜61-nに対して、故障CPT管理部66、システム
SCC登録テーブル67を配置した。
【0051】しかし、この実施例ではこれら各テーブル
および各管理部を、図10、図11、図12に示すよう
に、例えばバッテリバックアップメモリなどで構成され
る記憶媒体を共有メモリ100として構成し、情報の一
元的な管理を図ることができる。また、この共有メモリ
100に対して、例えば、システムの稼動状態などに応
じて、オンラインでこれら故障処理テーブル27、SC
C管理部29をメンテナンスをすることができるシステ
ムメンテナンスツール101を接続することにより、よ
りメンテナンス性とフレキシブル性が向上するという効
果がある。
【0052】
【発明の効果】以上のように、請求項1の発明によれ
ば、代替手段により統括管理計算機を複数台接続し、制
御実行計算機に対して障害対応処理を行うときに自己の
障害状態を診断し、自己に障害が検出された場合には、
その代替とする他の統括管理計算機を選別し、その選別
された統括管理計算機に対して代替依頼を行うように構
成したので、システムの稼動そのものにまったく影響を
与えず、安定したシステムの稼動を可能とすることがで
きる効果がある。
【0053】請求項2の発明によれば、統括管理計算機
により、自己の障害状態の診断および他の統括管理計算
機の自己診断結果を取り込み、自己に障害が発生したと
きに代替とする統括管理計算機を指定するとともに、制
御実行計算機により、自己診断結果が障害発生である場
合、稼動テーブルを参照して現在稼動している統括管理
計算機を識別し、統括管理計算機に対して障害通知を出
力するように構成したので、システムの稼動そのものに
まったく影響を与えず、安定したシステムの稼動を可能
とすることができる効果がある。
【0054】請求項3の発明によれば、負荷率測定部自
己が管理している制御実行計算機の台数及び処理能力か
ら負荷率を検出し、この負荷率が閾値を越えた場合には
自己診断制御部に対して障害通知を出力するように構成
したので、機能代替を確実に行うことができる他の統括
管理計算機を選択することができる効果がある。
【0055】請求項4の発明によれば、システムメンテ
ナンスツールにより共有メモリに登録されている障害状
態および稼動情報を読み込み、障害が発生している統括
管理計算機を検知しながら、あるいは各統括管理計算機
の負荷予測を行ないながら、次システムSCCの選定が
行なえ、システム全体の状況に応じた最適なシステムS
CCの選定を素早く行なうことができる効果がある。
【図面の簡単な説明】
【図1】 この発明の一実施例による計算機システムを
示す構成図である。
【図2】 この発明の一実施例による計算機システムの
SCCの構成を示すブロック図である。
【図3】 この発明の一実施例による計算機システムの
故障CPT管理テーブルの構成を示すブロック図であ
る。
【図4】 この発明の一実施例による計算機システムの
SCC管理部の構成を示すブロック図である。
【図5】 この発明の一実施例による計算機システムの
CPTの構成を示すブロック図である。
【図6】 この発明の一実施例による計算機システムの
SCCの立ち上げ時の動作手順を示すフローチャートで
ある。
【図7】 この発明の一実施例による計算機システムの
立ち上げ時において、自計算機がシステムSCCでない
と判断した時の動作手順を示すフローチャートである。
【図8】 この発明の一実施例による計算機システムの
CPTの立ち上げ時の動作手順を示すフローチャートで
ある。
【図9】 この発明のその他の実施例による計算機シス
テムのSCCの構成を示すブロック図である。
【図10】 この発明のその他の実施例による計算機シ
ステムを示す構成図である。
【図11】 この発明のその他の実施例による計算機シ
ステムのSCCの構成を示すブロック図である。
【図12】 この発明のその他の実施例による計算機シ
ステムのCPTの構成を示すブロック図である。
【図13】 従来の計算機システムの構成を示すブロッ
ク図である。
【図14】 従来の計算機システムのSCCの動作手順
を示すフローチャートである。
【符号の説明】
21 SCC(統括管理計算機)、29 SCC管理部
(統括管理計算機管理部(代替手段))、30 自己診
断制御部、31 システム構成テーブル(代替テーブ
ル)、32 診断インターフェイス(第1の診断インタ
ーフェイス(代替手段))、34 故障SCC管理テー
ブル(診断結果テーブル)、61 CPT(制御実行計
算機)、67 システムSCC登録テーブル(稼動テー
ブル)、69 診断インターフェイス(第2の診断イン
ターフェイス)、72 負荷率測定部、100 共有メ
モリ、101 システムメンテナンスツール。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 自己の障害状態を診断し、障害が発生し
    た場合には障害発生通知を出力する複数の制御実行計算
    機と、この制御実行計算機からの障害発生通知を管理
    し、障害の発生した上記制御実行計算機を確認した場合
    には、その障害の発生した上記制御実行計算機に対して
    上記障害に応じた障害対応処理を行う統括管理計算機と
    を備えた計算機システムにおいて、上記統括管理計算機
    を複数台接続するとともに、これらの統括管理計算機は
    上記制御実行計算機に対して上記障害対応処理を行うと
    きに自己の障害状態を診断し、自己に障害が検出された
    場合には、その代替とする他の上記統括管理計算機を選
    別し、その選別された上記統括管理計算機に対して代替
    依頼を行う代替手段を備えたことを特徴とする計算機シ
    ステム。
  2. 【請求項2】 上記代替手段は、自己の障害状態を診断
    する自己診断制御部と、他の上記統括管理計算機の自己
    診断結果を取り込み、登録する診断結果テーブル、およ
    び自己に障害が発生した場合にその代替とする上記統括
    管理計算機の識別を示すフラグが設定された代替テーブ
    ルを有する統括管理計算機管理部と、上記診断結果テー
    ブルに登録された各統括管理計算機の自己診断結果に基
    づいて、自己に障害が発生した場合にその代替とする上
    記統括管理計算機のフラグを上記代替テーブルに設定す
    るとともに、自己に障害が発生したときに上記代替テー
    ブルを参照し、代替とする上記統括管理計算機を指定す
    る第1の診断インターフェイスとを備えるとともに、上
    記制御実行計算機は、上記統括管理計算機の中で現在稼
    動していることを示すフラグが設定された稼動テーブル
    と、自己診断結果が障害発生である場合、上記稼動テー
    ブルを参照して現在稼動している上記統括管理計算機を
    識別し、上記統括管理計算機に対して障害通知を出力す
    る第2の診断インターフェイスとを備えたことを特徴と
    する請求項1記載の計算機システム。
  3. 【請求項3】 上記統括管理計算機は、自己が管理して
    いる上記制御実行計算機の台数及び処理能力から負荷率
    を検出し、この負荷率が閾値を越えた場合には上記自己
    診断制御部に対して障害通知を出力する負荷率測定部を
    備えたことを特徴とする請求項2記載の計算機システ
    ム。
  4. 【請求項4】 上記各統括管理計算機の統括管理計算機
    管理部に登録されている障害状態および上記各制御実行
    計算機の稼動テーブルに登録されている稼動情報を一元
    的に管理する共有メモリと、上記統括管理計算機または
    上記制御実行計算機とオンラインにより接続され、上記
    共有メモリに登録されている障害状態および稼動情報を
    読み込み、障害が発生している統括管理計算機を検知し
    ながら、あるいは各計算機の負荷を予測しながら共有メ
    モリ内の稼動テーブルや統括管理計算機管理部をダイナ
    ミックにメンテナンスするシステムメンテナンスツール
    とを備えたことを特徴とする請求項2記載の計算機シス
    テム。
JP7130626A 1995-05-29 1995-05-29 計算機システム Pending JPH08329024A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7130626A JPH08329024A (ja) 1995-05-29 1995-05-29 計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7130626A JPH08329024A (ja) 1995-05-29 1995-05-29 計算機システム

Publications (1)

Publication Number Publication Date
JPH08329024A true JPH08329024A (ja) 1996-12-13

Family

ID=15038748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7130626A Pending JPH08329024A (ja) 1995-05-29 1995-05-29 計算機システム

Country Status (1)

Country Link
JP (1) JPH08329024A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218277A (ja) * 2009-03-17 2010-09-30 Toyota Motor Corp 故障診断システム、電子制御ユニット、故障診断方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218277A (ja) * 2009-03-17 2010-09-30 Toyota Motor Corp 故障診断システム、電子制御ユニット、故障診断方法

Similar Documents

Publication Publication Date Title
US6862688B2 (en) Fault handling system and fault handling method
US8010836B2 (en) Storage configuration recovery method and storage management system
US8010830B2 (en) Failover method, program, failover apparatus and failover system
EP2409230B1 (en) Failure diagnostic system, electronic control unit for vehicle, failure diagnostic method
US7953831B2 (en) Method for setting up failure recovery environment
US8245077B2 (en) Failover method and computer system
US20080022148A1 (en) Method and an Apparatus for Controlling Executables Running on Blade Servers
JP2000181890A (ja) マルチプロセッサ交換機及びその主プロセッサ切替方法
US20080065928A1 (en) Technique for supporting finding of location of cause of failure occurrence
US7243266B2 (en) Computer system and detecting method for detecting a sign of failure of the computer system
US8006133B2 (en) Non-disruptive I/O adapter diagnostic testing
EP1943593A1 (en) Methods and apparatus for automatically multi-booting a computer system
JPH08329024A (ja) 計算機システム
US20030115382A1 (en) Peripheral device testing system and a peripheral device testing method which can generally test whether or not a peripheral device is normally operated
JPH0962626A (ja) 分散処理システムのオンラインテスト方法
CN112749045B (zh) 数据库集群切换方法、设备、存储介质及装置
EP0372411A2 (en) Floating console control system
JP2006252429A (ja) コンピュータシステム、コンピュータシステムの診断方法およびコンピュータシステムの制御プログラム
JPH02216542A (ja) 診断実行制御方式
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JPH0756761A (ja) 計算機装置
JP7269508B2 (ja) サーバ、システム、および方法
JP2011179996A (ja) システム診断装置、システム診断方法
JPH1196046A (ja) ジャーナル取得装置
JPH04362755A (ja) 共用型拡張記憶試験方式