JPH0667909A - 障害回復方式 - Google Patents

障害回復方式

Info

Publication number
JPH0667909A
JPH0667909A JP4219039A JP21903992A JPH0667909A JP H0667909 A JPH0667909 A JP H0667909A JP 4219039 A JP4219039 A JP 4219039A JP 21903992 A JP21903992 A JP 21903992A JP H0667909 A JPH0667909 A JP H0667909A
Authority
JP
Japan
Prior art keywords
fddi
failure
control device
driver
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4219039A
Other languages
English (en)
Inventor
Masahiro Momomoto
征弘 百本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP4219039A priority Critical patent/JPH0667909A/ja
Publication of JPH0667909A publication Critical patent/JPH0667909A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【目的】 FDDI制御装置上で重障害が発生した際、
障害情報の保存、障害状態の回復を自動的に行う。 【構成】 ハードウェアとしてFDDI制御装置11が
あり、その中でファームウェア14が動作する。FDD
I制御装置11内には、ローカル・メモリ12と、共通
メモリ13がある。FDDI制御装置の動作を制御する
ソフトウェアがFDDIドライバ15である。このFD
DIドライバに情報保存、障害状態回復等を行うプロセ
スとして管理プロセス16がある。管理プロセス16は
障害発生により、メモリ12と13からログ情報を採取
した後、FDDI制御装置に対して初期化要求を出す。 【効果】 FDDI使用時のマシン管理を容易に行える
とともに、ユーザ・プロセスは障害発生の有無にかかわ
らず同一動作が保証される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、例えば、FDDI
(Fiber Distributed Data I
nterface) 制御装置上で重障害が発生した
際、障害情報の収集、状態回復を自動的に行うものであ
る。
【0002】
【従来の技術】図4は、従来の障害状態からの回復処理
を示すシーケンス図である。図において、1はデータの
送信/受信を要求するデータプロセスである。2はユー
ザ・プロセス1からのデータの送信/受信要求を受け付
けるドライバである。3はドライバ2からのデータ送信
/受信要求を受け付け、実際にデータを送信し、あるい
は非同期にデータを受信するためのFDDI制御装置等
のハードウェアである。また、図5は従来のログ情報の
保存を示すためのシーケンス図である。図において、6
はログ情報を保存するディスクである。4はメモリ等に
常駐し、ログ情報を収集するための管理プロセスであ
る。5は前述したドライバ2の部分に相当するようなカ
ーネル・ドライバである。
【0003】次に従来技術の動作について、図4、図5
をもとに説明する。図4に示すように、従来のFDDI
システムでは、データ送信及び(非同期の)データ受信
処理機能を持つハードウェア3、及び、その動作を制御
するドライバ2がある。このドライバ2は、STREA
MS機構により実現されており、データ送信/(非同
期)受信機能を持っており、ユーザ・プロセス1からの
データ送信/受信要求に対するインターフェースでもあ
る。ユーザ・プロセス1からのデータ送信要求は矢印A
のように行われ、データ受信の通知は矢印Bのように行
われる。ここでハードウェア3で重障害が発生した際そ
の通知は矢印Cのように行われ、それを検知したドライ
バ2は、ハードウェア3に対し再初期化要求を矢印Dの
ように発行する。以上のように、従来のFDDIシステ
ムでは、重障害発生時、ドライバ2の処理によりFDD
I制御装置を実現したハードウェア3の再初期化を行
う。一方、図5に示すように、管理プロセス4は、カー
ネル・ドライバ5のログ情報を収集する機能がある。す
なわち、カーネル・ドライバ5がログ情報をメッセージ
としてユーザへ通知する際、ログ情報を専用に収集する
管理プロセス4を経由して、矢印Eに示すようにメッセ
ージをディスク6に保存する。
【0004】
【発明が解決しようとする課題】図4に示した従来の構
成では、ハードウェアからの重障害通知をうけた際、障
害状態からの回復を行うことはできるが、障害状態をフ
ァイルへ保存することができなかった。また、図5に示
したように、従来の構成では、管理プロセスにより、カ
ーネル・ドライバのログ情報をファイルに保存すること
はできるが、管理プロセスから状態回復を行うことがで
きなかった。
【0005】この発明は上記のような問題点を解消する
ためになされたもので、ハードウェアからの障害通知を
受けた際に障害状態をファイルに保存できるとともに、
自動的にハードウェアの状態を回復することのできる障
害回復方式を提供することを目的とする。
【0006】
【課題を解決するための手段】この発明に係る障害回復
方式は以下の要素を有するものである。 (a)以下の要素を有する制御装置、(a1)所定の処
理を行なう制御手段、(a2)上記制御手段が動作する
ために用いるデータを記憶する記憶手段、(a3)障害
を検出して報告するとともに、要求により上記記憶部の
内容をログとして出力するとともに、要求により障害回
復処理を行なう障害処理手段、 (b)以下の要素を有する管理プロセス、(b1)上記
制御装置からの障害の報告により、上記障害処理手段に
対してログの出力要求を発行し上記記憶手段からログを
採取するログ手段、(b2)上記制御装置の障害処理手
段に対して障害回復処理の要求を発行する回復要求手
段、 (c)以下の要素を有するドライバ、(c1)ユーザ・
プロセスからの処理要求を受けつけ、上記制御装置の制
御手段を用いてその処理を実行させる実行手段、(c
2)上記制御装置と管理プロセスの動作を監視して、上
記制御装置の障害処理手段の動作中、上記実行手段の動
作を中断する実行中断手段。
【0007】
【作用】この発明における障害回復方式は、FDDI制
御装置などの制御装置と、制御装置からログを採取する
管理プロセスとともに制御装置と管理プロセスの更新を
監視するドライバを設け、障害発生から制御装置と管理
プロセスによる障害回復までの故障期間は、ユーザ・プ
ロセスからの処理要求を一時中断させるドライバを備え
たものである。この発明においては、まず障害処理手段
が障害を検出して報告をすると、その報告は管理プロセ
スに報告される。管理プロセスは、障害の報告に基づき
ログ手段により制御手段に対しログを出力する要求を発
行する。制御装置の障害処理手段は、メモリ等の記憶手
段からその内容をログとして出力する。管理プロセス
は、ログ手段によるログの採取が終了すると回復要求手
段により制御装置に対して初期化処理、即ち障害回復を
行う要求を発行する。制御手段の障害処理手段は、障害
回復処理の要求に基づき制御装置の初期化処理等の回復
処理を行う。ドライバはこれら制御装置と管理プロセス
の間の要求及びその要求に対する応答を監視し、障害が
起こっている間はユーザ・プロセスからの処理要求を中
断させ、障害処理手段による障害回復がなされてから、
再びユーザ・プロセスからの処理要求を受け付けて処理
を再開する。以上のように、この発明は障害の発生後ま
ずログを採取し、そのログの採取後に初期化処理等の回
復処理を行うようにするので、障害が発生した場合に障
害状態を保存できると共に、自動的にハードウェアの状
態を回復する。なお、管理プロセスにより採取されたロ
グは、その後、オペレータ等によりダンプされ解析され
る事により障害の発生した原因が分析される事になる。
【0008】
【実施例】
実施例1.以下、この発明の一実施例を図に基づいて説
明する。図1は本発明に係る障害回復方式の一実施例で
あるFDDIシステムの構成図である。図1において、
11はFDDI制御装置、12〜14はFDDI制御装
置内部に存在するもので、12はローカル・メモリ、1
3は共通メモリ、14はファームウェア、15はFDD
Iドライバ、16はFDDI専用の管理プロセス、17
は固定ディスク、18はFDDIファイバー、19はユ
ーザ・プロセスである。ローカル・メモリ12はファー
ムウェア14のみが直接扱うことのできる領域で、この
中にはファームウェアの動作環境、送受信データ等を含
む領域である。一方共通メモリ13は、FDDIドライ
バ15、ファームウェア14双方が直接扱うことのでき
る領域で、FDDI制御装置(ハードウェア)、FDD
Iドライバ(ソフトウェア)のインターフェースとなる
部分である。管理プロセス16はFDDIドライバから
の通知を待っている。このとき待っている通知は重障害
発生通知、制御装置内自己診断結果通知の2つがあり、
これらはいずれも非同期に発生する。
【0009】次に動作について説明する。まず、通常の
データ送受信であるが、データ送信の際は、ユーザ・プ
ロセス19からの要求は、FDDIドライバ15に対し
送られ、FDDIドライバは共通メモリ13を介してF
DDI制御装置11へ要求を通知し、その中で動作する
ファームウェアが、通信媒体であるFDDIファイバー
18へデータを送出する。この全体の流れが図1中の矢
印Aである。一方、データ受信に関しては、データ送信
の際の全く逆であり、その全体の流れは図1中の矢印B
である。
【0010】次に、この実施例の特徴である障害からの
回復方法について述べる。FDDI制御装置11の中で
動作するファームウェア14は、その装置内で回復可能
な状態になったときに、重障害発生をイベントとしてF
DDIドライバ15へ通知する(図1中の矢印C)。通
知を受けたFDDIドライバ15は管理プロセス16に
対し、重障害発生通知を発行(矢印D)し、管理プロセ
ス16は重障害通知を受けた際、共通メモリ情報を読む
要求をFDDIドライバ15に対し発行(矢印E)す
る。FDDIドライバ15は共通メモリ領域の状態を保
存するために、共通メモリ領域の情報を読み(矢印
F)、管理プロセス16に渡す。管理プロセス16は、
それをディスク17に保存する(矢印G)。
【0011】次に管理プロセス16は、FDDI制御装
置11内のローカル・メモリ12の情報を保存するた
め、FDDIドライバ15に対しその保存要求を発行
(矢印H)し、FDDIドライバ15は、FDDI制御
装置11に対し、ローカル・メモリ12の情報を獲得す
るための要求を発行する(矢印I)。ここでFDDIド
ライバ15からは直接ローカル・メモリ12を参照する
ことができないため、ファームウェア14は、ローカル
・メモリ12の内容を故障直後にあらかじめ共通メモリ
13の領域へコピーしておき(矢印J)、FDDIドラ
イバ15は、共通メモリ13の領域からこの情報を獲得
する(矢印K)。FDDIドライバ15は、管理プロセ
ス16により発行された保存要求に対して、獲得した情
報を返す(矢印L)。そして管理プロセス16は、その
情報をディスク17に保存する(矢印M)。ここで、ロ
ーカル・メモリ12の容量は、共通メモリ13の容量に
くらべて大きい場合がある。その場合は管理プロセス1
6からのローカル・メモリ12の情報保存要求(矢印
H)は何度も発行され、またファームウェア14も、ロ
ーカル・メモリ12の情報を分割して共通メモリ13の
領域へコピーする。
【0012】このようにしてすべてのローカル・メモリ
12の保存が完了した時点で、管理プロセス16は、F
DDI制御装置11内の状態を回復させるために、リセ
ット要求が発行される(矢印N)。リセット要求はFD
DIドライバ経由でFDDI制御装置11へ伝えられる
(矢印O)。このときFDDI制御装置11内では、リ
セットによる自己診断機能が働き、その結果をFDDI
ドライバ15へイベントとして通知する(矢印P)。通
知を受けたFDDIドライバ15は、管理プロセス16
に対し、自己診断完了通知を発行する(矢印Q)。続い
て管理プロセス16は、ファームウェアの再ダウンロー
ド要求、ボード初期化要求を、FDDIドライバ15経
由でFDDI制御装置11に対し発行する(矢印R)。
すべての初期化が正常に終了した時点で、FDDI制御
装置11は、初期化が正常に完了したことをFDDIド
ライバ15に対しイベントとして通知する。
【0013】重障害発生通知の発生(矢印C)から、初
期化完了通知の発生(矢印K)までの間、障害発生時の
状態の保存、及び障害からの回復処理は以上のようにし
て行われる。この間ユーザ・プロセスによるデータの送
受信はFDDIドライバにより中断される。そして、こ
の間、ユーザ・プロセスによるオペレーションは全く関
与しないで、自動的に障害発生時の状態の保存、及び障
害からの回復処理を行う。また、回復処理後はFDDI
ドライバによりユーザ・プロセスの動作が再開される
が、その動作は障害発生前と同じである。
【0014】次に、この実施例の特徴である管理プロセ
スの処理について図2のフローチャートを用いて説明す
る。まず、電源が投入されて図1に示したシステムが起
動されると、管理プロセス16は図2に示したS1から
S3までの処理を行う。即ち、電源が投入されたことに
より管理プロセス16はS1においてFDDI制御装置
11のファームウェア14をFDDI制御装置11にダ
ウンロードする。そして、ダウンロードしたファームウ
ェア14に対してS2において起動をかける。更に、F
DDI制御装置が実装されているハードウェアボードに
対して初期化の要求を行う。このS1〜S3の実行によ
りFDDI制御装置は動作可能な状態となる。通常の処
理においては、FDDI制御装置からは障害のイベント
は発生する事はなく、管理プロセス16はS4において
FDDI制御装置等のハードウェアボードからのイベン
トが到着するのを待っている。イベントが到着した場合
には、S5においてそのインベントがFDDI制御装置
からの障害通知であるかをチェックし、障害通知である
場合には以下に述べるS6〜S11までの処理を行い、
FDDI制御装置のメモリ等の記憶手段からログを採取
する。
【0015】この実施例における管理プロセスは、FD
DI制御装置上で発生するイベントを常に待っており、
イベント発生時にその判別を行い、各イベント発生時に
FDDIドライバに対し適切な要求を発行する。また、
この実施例は管理プロセス16が従来のように単にログ
を採取する機能を有するばかりでなく、FDDI制御装
置に対してログを採取した後にリセット処理を行い、初
期化処理を行うという特徴を有している。したがって、
マシン動作中のいかなる状態のときであっても、FDD
I制御装置内での重障害発生時の障害情報の保存、状態
の回復を正しく行える。
【0016】以上のようにこの実施例ではエンジニアリ
ング・ワークステーション(EWS)等の計算機システ
ムにおいて、FDDI(Fiber Distribu
ted Data Interface)を実装するに
あたり、FDDI制御装置(専用ボード)上で動作する
ファームウェア、STREAM機構により実現されたF
DDIドライバ、FDDI専用管理プロセスが協調し
て、FDDI制御装置からの重障害通知、障害情報のフ
ァイルへの保存、障害発生状態からの回復処理を自動的
に行うシステムを説明した。
【0017】以上のように、この実施例によれば、FD
DI制御装置で重障害が発生した際に障害情報の収集、
状態回復を自動的に行うようにしたので、マシンの管理
者はFDDIに関する詳細な知識がなくても容易に管理
を行うことができる。また、ユーザ・プロセスは、障害
発生の有無にかかわりなく、同じ動作が保証される。
【0018】実施例2.上記実施例1においては、管理
プロセス16がログを採取する場合には、共通メモリ1
3と12の両方の記憶手段に有る情報を採取する場合を
示したが、後の解析時に必要と思われる情報が採取され
れば良く、どちらか一方の情報を採取する場合でも構わ
ない。或いは共通メモリ13とローカル・メモリ12の
情報の中から必要な情報のみを選択して、採取する場合
でも構わない。また、ローカル・メモリのサイズは共通
メモリのサイズよりも小さい場合でも構わず、このよう
な場合にはローカル・メモリの情報を共通メモリの使用
していない領域に予めコピーしておき、共通メモリの情
報を一度だけ管理プロセスに渡す事により共通メモリと
ローカル・メモリの両方のメモリを一度のログ採取によ
り採取するようにしても構わない。
【0019】実施例3.上記実施例においては、管理プ
ロセス16がFDDI制御装置11に対してファームウ
ェアをダウンロードし、そのファームウェアを起動する
と共にFDDI制御装置の初期化を行う場合を示した
が、管理プロセス16がファームウェア14をダウンす
るのではなく、他のものが、或いは他の方法によりファ
ームウェアをダウンロードしても構わない。あるいはF
DDI制御装置11が予め不揮発性メモリ等によりファ
ームウェアを保持しているような場合でも構わない。必
要なことは、管理プロセス16は障害報告によりログを
採取する要求を出してログを採取すると共にその後ファ
ームウェアに対して障害回復の要求を出せることであ
り、管理プロセス自身がファームウェアをダウンロード
する必要は無い。
【0020】実施例4.上記実施例1においては、FD
DIドライバ15が管理プロセス16とFDDI制御装
置11の間にあって両者間の更新を全て仲介する場合を
説明したが、図3に示すようにFDDIドライバ15は
ユーザ・プロセス19とFDDI制御装置11の間にあ
って、管理プロセス16はFDDIドライバ15と並列
的な位置に置かれている場合でも構わない。FDDIド
ライバ15はFDDI制御装置11に障害が発生してい
る間は、ユーザ・プロセス19の実行を中断させるため
に、少なくともFDDI制御装置11の障害発生報告と
FDDI制御装置の障害回復報告を受け、その間ユーザ
・プロセス19の実行を中断させる必要がある。しかし
ながら、その他の管理プロセス16とFDDI制御装置
間の更新は直接行われても構わない。例えば、管理プロ
セス16からFDDI制御装置に対するログの採取要求
や、FDDI制御装置12から管理プロセス16へのメ
モリ情報の転送等は、直接管理プロセス16とFDDI
制御装置11の間で行われても構わない。
【0021】実施例5.上記実施例においては、FDD
I制御装置を例にして説明したがFDDI制御装置に限
らず所定の目的を持って構成された制御装置に対してド
ライバが存在し、このドライバを介してユーザ・プロセ
スが制御装置にアクセスするような構成に対して、実施
例1で述べたような管理プロセスを付加することによ
り、その制御装置に障害が発生した場合には実施例1で
も述べたような動作を行うことができ、同様の効果を奏
することが可能である。
【0022】
【発明の効果】以上のようにこの発明によれば、制御装
置上で障害が発生した場合に障害情報を保存するととも
に障害状態の回復を自動的に行う障害回復方式を得るこ
とが出来る。
【図面の簡単な説明】
【図1】この発明の一実施例を示す構成図である。
【図2】この発明の管理プロセスの処理を示すフローチ
ャート図である。
【図3】この発明の他の実施例を示す構成図である。
【図4】従来の障害状態からの回復処理を示すシーケン
ス図である。
【図5】従来のログ情報の保存を示すシーケンス図であ
る。
【符号の説明】
11 FDDI制御装置 12 ローカル・メモリ 13 共通メモリ 14 ファームウェア 15 FDDIドライバ 16 管理プロセス 17 固定ディスク 18 FDDIファイバー 19 ユーザ・プロセス

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 以下の要素を有する障害回復方式 (a)以下の要素を有する制御装置、(a1)所定の処
    理を行なう制御手段、(a2)上記制御手段が動作する
    ために用いるデータを記憶する記憶手段、(a3)障害
    を検出して報告するとともに、要求により上記記憶部の
    内容をログとして出力するとともに、要求により障害回
    復処理を行なう障害処理手段、 (b)以下の要素を有する管理プロセス、(b1)上記
    制御装置からの障害の報告により、上記障害処理手段に
    対してログの出力要求を発行し上記記憶手段からログを
    採取するログ手段、(b2)上記制御装置の障害処理手
    段に対して障害回復処理の要求を発行する回復要求手
    段、 (c)以下の要素を有するドライバ、(c1)ユーザ・
    プロセスからの処理要求を受けつけ、上記制御装置の制
    御手段を用いてその処理を実行させる実行手段、(c
    2)上記制御装置と管理プロセスの動作を監視して、上
    記制御装置の障害処理手段の動作中、上記実行手段の動
    作を中断する実行中断手段。
JP4219039A 1992-08-18 1992-08-18 障害回復方式 Pending JPH0667909A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4219039A JPH0667909A (ja) 1992-08-18 1992-08-18 障害回復方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4219039A JPH0667909A (ja) 1992-08-18 1992-08-18 障害回復方式

Publications (1)

Publication Number Publication Date
JPH0667909A true JPH0667909A (ja) 1994-03-11

Family

ID=16729303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4219039A Pending JPH0667909A (ja) 1992-08-18 1992-08-18 障害回復方式

Country Status (1)

Country Link
JP (1) JPH0667909A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4900117A (en) * 1989-02-21 1990-02-13 Chen Linus T Rotary optical coupler utilizing cylindrical ringshaped mirrors and method of making same
JPH1021059A (ja) * 1996-07-02 1998-01-23 Mitsubishi Electric Corp ネットワークシステムのソフトウェア・バージョン管理方式
JP2005235214A (ja) * 2004-02-19 2005-09-02 Marconi Intellectual Property (Ringfence) Inc 不具合が存在するときにスイッチ障害を防止する方法、装置及びソフトウエア

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4900117A (en) * 1989-02-21 1990-02-13 Chen Linus T Rotary optical coupler utilizing cylindrical ringshaped mirrors and method of making same
JPH1021059A (ja) * 1996-07-02 1998-01-23 Mitsubishi Electric Corp ネットワークシステムのソフトウェア・バージョン管理方式
JP2005235214A (ja) * 2004-02-19 2005-09-02 Marconi Intellectual Property (Ringfence) Inc 不具合が存在するときにスイッチ障害を防止する方法、装置及びソフトウエア

Similar Documents

Publication Publication Date Title
US5590277A (en) Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
EP0691610B1 (en) Progressive retry method and apparatus having reusable software modules for software failure recovery in multiprocess message-passing applications
US7093086B1 (en) Disaster recovery and backup using virtual machines
US6622263B1 (en) Method and apparatus for achieving system-directed checkpointing without specialized hardware assistance
US4628508A (en) Computer of processor control systems
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPH04213736A (ja) フォールト・トレラント・システムのためのチェックポイント機構
CA2339783A1 (en) Fault tolerant computer system
JPH08287021A (ja) 共用メモリに結合される複数の計算機システム及び共用メモリに結合される複数の計算機システムの制御方法
KR20040047209A (ko) 네트워크 상의 컴퓨터 시스템의 자동 복구 방법 및 이를구현하기 위한 컴퓨터 시스템의 자동 복구 시스템
US7634625B2 (en) Storage system and method for copying volumes by inspection of data security
JP2009080705A (ja) 仮想計算機システム及び同システムにおける仮想計算機復元方法
JPH07234808A (ja) システムダンプ採取方式
JP2010067115A (ja) データ記憶システム、データ記憶方法
JP2008003691A (ja) 計算機のプロセス回復方法、チェックポイントリスタートシステム
JP2006285384A (ja) プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
JPH0667909A (ja) 障害回復方式
JP2001331330A (ja) プロセス異常検知及び復旧システム
JP4572138B2 (ja) サーバ装置、サーバシステム、及びサーバシステムでの系切り換え方法
JPH05181824A (ja) データ管理方式
JPH0962626A (ja) 分散処理システムのオンラインテスト方法
JP2002182951A (ja) 情報処理装置のメンテナンス方法および情報処理装置
JP4507875B2 (ja) 多重化装置及びレガシーデバイス多重化方法
EP1566733B1 (en) Apparatus for preventing switch failures in the presence of faults
JP2018022402A (ja) 情報処理装置、情報処理システム、情報処理装置の制御方法および情報処理装置の制御プログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000425