JPH09198334A - データ伝送システムの障害管理方法 - Google Patents

データ伝送システムの障害管理方法

Info

Publication number
JPH09198334A
JPH09198334A JP8023156A JP2315696A JPH09198334A JP H09198334 A JPH09198334 A JP H09198334A JP 8023156 A JP8023156 A JP 8023156A JP 2315696 A JP2315696 A JP 2315696A JP H09198334 A JPH09198334 A JP H09198334A
Authority
JP
Japan
Prior art keywords
terminal
abnormality
data
terminal device
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8023156A
Other languages
English (en)
Inventor
Matao Okada
又雄 岡田
Toshihisa Ishii
利久 石井
Kenichi Tsunoda
健一 角田
Hitoshi Tsuge
仁 柘植
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Technology Co Ltd
Original Assignee
Hitachi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Technology Co Ltd filed Critical Hitachi Information Technology Co Ltd
Priority to JP8023156A priority Critical patent/JPH09198334A/ja
Publication of JPH09198334A publication Critical patent/JPH09198334A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Power Sources (AREA)

Abstract

(57)【要約】 【課題】人手介入することなく、異常発生の端末のみ電
源断から自動立上げることにより一時的な障害に対して
システム全体を停止させないようにすることができるデ
ータ伝送システムの障害管理方法を提供することにあ
る。 【解決手段】異常が発生した端末については、リセット
コマンドでパワーオンリセットを行い、電源立上げ状態
の初期状態に設定する。そして、制御装置においては、
異常が発生した端末についての通信回路系等を初期値に
設定し、かつ、初期値のデータを設定する。このことに
より、異常が発生したデータ伝送ルートと異常が発生し
た端末をすべて立上げ状態にしてあらためてデータ伝送
を開始するようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、データ伝送シス
テムの障害管理方法に関し、詳しくは、ホストコンピュ
ータ(以下ホスト)と多数の端末装置(以下端末)とが
端末のマスタとなる端末制御装置を介して接続されてホ
ストと端末との間のデータの授受を行うデータ伝送シス
テムにおいて、人手介入することなく、異常発生の端末
のみ電源断から自動立上げすることにより一時的な障害
に対してシステム全体を停止させないような障害回復管
理方法に関する。
【0002】
【従来の技術】ホストとマスタ(端末制御装置)が接続
され、マスタの下位に複数の端末(スレーブ)を接続し
た形態で端末とホストとがデータの授受を行うデータ伝
送システムにおいては、あるスレーブ(端末)がデータ
処理障害を起こした場合(データ処理に異常が発生した
場合も含む)には、通常、まず、同じデータの再送を行
うリトライ処理がなされる。そして、このリトライ処理
でも回復不可能であれば、障害発生端末としてマスタが
ホストに報告する。このような報告を受けたホストは、
その端末に対して論理的な切り離し処理を行い、システ
ムから切り離し、他の端末との間でのデータ処理は続行
する。また、このような場合に、異常端末の故障内容に
よっては、システム全体がダウンすることもある。
【0003】コンピュータによるこの種のデータ伝送シ
ステムは、昼夜を問わず、常時稼働し、使用されること
が多いので、この種のシステムに障害が発生したときに
は、できるだけ早急に復旧させることが必要になる。そ
のためのシステムとして各種の障害通報システムが提案
されている。例えば、システムを制御するコンソールや
端末の表示装置に対して障害情報を表示し、音声等によ
りオペレータに対して異常を伝えるメッセージを流すこ
とがその1つである。さらに、ホストを介して保守員の
手当をする処理等も障害対策として行われる。しかし、
後者の場合には、端末側あるいはホスト側に保守員ある
いは保守可能な人材がいないと、早期の対応は不可能で
ある。しかも、障害は、予期せぬ時に発生する。そこ
で、保守員を常時待機させることも従来行われている
が、経費と勤務環境等の問題からホストから専門の保守
会社に依頼してサポートするケースが少なくない。
【0004】
【発明が解決しようとする課題】複数台の端末のうちあ
るものがリトライしても回復しないような種類の障害の
場合には、通常、マスタに接続されているその障害端末
はダウンする。1台でもダウンすると、保守における障
害回復のために、マスタと正常にデータのやり取りが行
える他の端末までも電源が遮断され停止されてしまうこ
とは比較的多い。そのような場合にはシステム全体が停
止する。しかし、障害内容のうちには、データ処理障害
がハードウエアのバーストエラーなどに起因する場合な
どのように、ある程度時間が経過すれば障害がおさまる
ものもある。また、特定の通信プロトコルのバグに起因
するような障害であれば、マイクロプログラムの初期設
定を行うことによりデータ処理に支障をきたさないこと
もある。このような場合には、障害端末の電源を切り、
再投入しただけで障害が回復し、システムを運用するこ
とができることが多いが、システム全体をすでに停止さ
せてしまったような場合には、他の端末を含めて再起動
までの処理が必要になる。しかも、再起動の判断とその
処理は、保守員等の技能と作業とに頼らざるを得ないの
が現状であり、この種の障害に対する早期の対応は難し
い。この発明の目的は、このような従来技術の問題点を
解決するものであって、人手介入することなく、異常発
生の端末のみ電源断から自動立上げることにより一時的
な障害に対してシステム全体を停止させないようにする
ことができるデータ伝送システムの障害管理方法を提供
することにある。
【0005】
【課題を解決するための手段】このような目的を達成す
るためのこの発明のデータ伝送システムの障害管理方法
の特徴は、コンピュータに制御装置を介して複数の端末
装置が接続され、コンピュータと端末装置とが制御装置
を介してデータの授受を行うデータ伝送システムにおい
て、端末が、リセットコマンドを受けてパワーオンリセ
ットにより電源立上げとプログラム処理についての初期
値データを設定し、これらの完了に応じて制御装置に電
源立上げ完了として応答する電源立上げ手段を有し、制
御装置が、端末に異常が発生したときには、所定のプロ
トコルに従ってリトライを行うものであって、このリト
ライにより異常が回復しないときにリセットコマンドを
異常が発生した端末に送出するリセットコマンド発生手
段と、リトライにより異常が回復しないときに異常が発
生した端末に関係する回路系を初期値設定し、かつ、通
信制御のためにプログラム処理についての初期値データ
を設定する初期設定手段と、端末から電源立上げの完了
の応答を受けて通常の処理に戻る障害処理手段とを有す
るものである。
【0006】
【発明の実施の形態】このように、異常が発生した端末
については、リセットコマンドでパワーオンリセットを
行い、電源立上げ状態の初期状態に設定する。そして、
制御装置においては、異常が発生した端末についての通
信回路系等を初期値に設定し、かつ、初期値のデータを
設定する。このことにより、異常が発生したデータ伝送
ルートと異常が発生した端末をすべて立上げ状態にして
あらためてデータ伝送を開始する。これにより、マスタ
とスレーブ間で通信障害発生後、人手介入することなく
データ処理障害となったスレーブだけに自動的に電源投
入時のリセット動作を行わせて通常処理に戻ることがで
き、異常発生端末は、異常が回復しない限り、リセット
され続ける。このような場合に、特に、前記の障害処理
手段として、複数の端末のそれぞれが正常か、異常かを
示すテーブルを設けて、リトライにより異常が回復しな
いときに異常が回復しない端末についてテーブルに異常
を示す情報を記録するようにし、リセットコマンド発生
手段を定期的に起動されようにして、前記のテーブルを
参照して異常を示す情報が記録された端末に対してリセ
ットコマンドを発生するようにすれば、ある程度時間経
過すれば障害がおさまるものに対して有効である。その
結果、障害内容としてデータ処理障害がハードウエアの
バーストエラーなどに起因する場合やある程度時間経過
すれば障害がおさまる場合には、このようなこと、ある
いはこれの繰り返しにより、人手介入することなく、ま
た、システムをダウンさせずに回復することができる。
なお、前記以外の障害が発生した場合には、障害発生端
末が所定の条件でリセットされ続けるだけであるので、
接続された他の端末についての影響はない。この場合、
さらに異常端末についてホスト側に連絡するようにすれ
ば、ホスト側で異常発生の回数などに応じて従来からあ
る、保守員等を呼ぶなどの所定の障害対策を採ることが
できる。
【0007】ところで、前記の構成のうち端末の電源立
上げ手段は、実施例では、MPUとメモリとこれに記憶
されたリセット処理プログラムとパワーオンリセット回
路により構成される。また、制御装置のリセットコマン
ド発生手段と初期設定手段と障害処理手段は、実施例で
は、MPUとメモリとこれに記憶された障害回復処理プ
ログラムとにより所定の周期で定期的に実行され、実現
される。
【0008】
【実施例】図1は、この発明のデータ伝送システムの障
害管理方法を適用した一実施例の端末制御装置を中心と
したブロック図であり、図2は、伝送システムにおける
起動処理のフローチャート、図3は、端末制御装置と端
末とのデータ送受信処理のフローチャート、図4は、障
害回復処理のフローチャート、図5は、接続管理テーブ
ルの説明図である。図1において、1はホスト、2は端
末制御装置、3a,3b,3c,…3i…,3nは、そ
れぞれホスト1に端末制御装置2を介して接続される端
末である。端末制御装置2は、マイクロプロセッサ(M
PU)21と、メモリ22、時計機構23、ホスト1と
の通信インタフェース(通信IF)24、各端末との通
信インタフェース(通信IF)25a,25b,25
c,…25i…,25nとからなり、これらが相互にバ
ス26を介して相互に接続され、さらに、電源投入時に
MPU21を始めとして内部の回路をリセットするパワ
ーオンリセット回路27が設けられている。また、メモ
リ22には、起動処理プログラム(起動処理PRG)2
2aと、送受信処理プログラム(送受信処理PRG)2
2b、障害登録処理プログラム(障害登録処理PRG)
22c、障害回復処理プログラム(障害回復処理PR
G)22d等が格納され、さらに接続管理テーブル28
と各種プログラムが参照するデータについて初期値設定
データを一括して記憶している初期設定データ領域29
とが設けられている。なお、通信インタフェース24お
よび通信インタフェース25a〜25nは、ここでは、
それぞれRS−232C回線でホスト1あるいは各端末
に接続されている。
【0009】端末3a〜3nは、端末3aを代表として
図示すように、それぞれMPU31と、メモリ32、通
信インタフェース(通信IF)33、CRTディスプレ
イ(CRT)34、キーボード(図示せず)等とからな
り、これらが相互にバスを介して接続され、さらに、電
源投入時にMPU31を始めとして内部の回路をリセッ
トするパワーオンリセット回路35が設けられている。
このパワーオンリセット回路35は、電源投入時のほか
に、プログラム処理によりバスから所定の制御信号を受
けてパワーオンリセット動作をする。メモリ32には、
起動処理プログラム(起動処理PRG)32aと、送受
信処理プログラム(送受信処理PRG)32b、そし
て、初期化処理プログラム(初期化処理PRG)32c
とが設けられ、各種プログラムが参照するデータについ
て初期値設定データを一括して記憶している初期設定デ
ータ領域36が設けられている。なお、通信インタフェ
ース33は、RS−232C回線で端末制御装置2に接
続されている。ところで、以下の説明では、必要に応じ
て端末3a〜3nを代表して端末3として説明する。
【0010】起動処理PRG22aは、MPU21によ
り実行され、電源投入から所定期間が経過してパワーオ
ンリセット回路27によりリセットが解除された時点で
初期設定データ領域29から初期設定データを読出して
パワーオンリセット以外で初期状態に設定されない回路
(ハードウエア)を初期状態に設定し、さらに、ソフト
ウエア初期化として、プログラムが動作する動作環境を
形成する初期値をメモリ22の初期設定データ領域29
から読出して所定のプログラムのデータ領域と各種回路
の内部レジスタ等に設定する。具体的には、まず、初期
設定データ領域29から通信関係の初期設定データを読
出して通信インタフェース24および通信インタフェー
ス25a〜25nのレジスタ等に初期値データを設定
し、メモリ22に記憶された各種プログラムの動作環境
データを初期設定データ領域29から読出した初期値デ
ータに書き換えて初期状態に設定する。さらに、このプ
ログラムは、各端末から電源投入完了の受信データを受
けて接続管理テーブル28のパワーオン完了テキスト受
信欄28a(図5参照)に各端末の起動状態を記憶す
る。これは、電源投入時において、各端末からパワーオ
ン完了のメッセージを受信して正常フラグ“00H”を
後述する接続管理テーブル28のデータ処理障害発生欄
28bに記憶し、さらに、それが受信されていない端末
に対してはパワーオン完了のテキストの再送要求(リト
ライ)をする。この再送要求においても「パワーオン完
了のテキスト」が受信されずに、再送要求の所定分の繰
り返しによってもエラーとなったときに接続管理テーブ
ル28のデータ処理障害発生欄28bに異常を示すフラ
グ“FFH”を記録する。なお、前記のフラグのうち最
後に付加したHは16進のデータであることを示す。す
なわち、異常フラグ“FFH”は、16ビットオール
“1”のデータであり、正常フラグ“00H”は、16
ビットオール“0”のデータである。
【0011】送受信処理PRG22bは、MPU21に
より実行され、ホスト1からの送信データを受信して電
文中のコマンドをデコードして指定された送信先の端末
3の正常/異常判定を接続管理テーブル28を参照して
行い、正常のときに送信データを生成して指定された端
末3へと送出して送信先の端末3からのレスポンスを受
ける。一定期間レスポンスがないときには、同一電文を
再送するリトライを行う。数回のリトライを行ってもレ
スポンスがないときには、異常として障害登録処理PR
G22cをコールする。また、前記の接続管理テーブル
28の参照において、送信先端末3が異常であるときに
は、ホスト1に対して送信先が異常である電文を作成し
てこれをレスポンスとしてホスト1に返す。一方、端末
3側からの送信データを受信したときには、その電文中
のコマンドをデコードして指定されたコマンド処理をし
て送信データを生成してホスト1へ送出する。そして、
ホスト1からのレスポンスを受ける。
【0012】さらに、このプログラムは、ホスト1ある
いは端末3からの受信データに対しては、所定のプロト
コルに従って、例えば、CRCチェック等を行い、エラ
ーチェックをし、エラーが発生すると、再送要求のレス
ポンスを返す。この再送要求(リトライ)の数をカウン
トして所定数以上の再送要求が発生したときに異常と判
定し、送信元の端末3あるいはホスト1を異常と判定し
て、端末3が異常のときには、障害登録処理PRG22
cをコールする。なお、適用されるプロトコルの内容に
よっては、前記の電文中のコマンドに指定端末に対する
ホスト1からの再送要求もあるし、逆に、端末側からホ
スト1に対しての再送要求もある。
【0013】障害登録処理PRG22cは、ホスト1あ
るいは端末3に障害(異常)が発生した時にコールされ
てMPU21により実行される。これらのうちホスト1
に障害(異常)が発生したときには、各端末にその旨の
電文を作成し、ホスト障害対策のための所定の処理に入
るが、これについては、ここでの発明に直接関係してい
ないため、その詳細は割愛する。このプログラムは、特
に、端末3に異常が発生したときには、接続管理テーブ
ル28の異常が発生した端末の位置に異常フラグ“FF
H”を登録してホスト1に対して異常端末(そのアドレ
ス等)を連絡する異常発生の電文を作成してホスト1に
送出する。
【0014】障害回復処理PRG22dは、障害登録処
理PRG22cや送受信処理PRG22bとは独立に動
作し、所定の周期で定期的に起動されてMPU21によ
り実行される割込処理のプログラムである。ここでは、
これは、5分ごとに接続管理テーブル28を参照して異
常端末についての監視を行う。この5分経過ごとの監視
は、バーストエラー等の異常発生で自然に回復する時間
に対応している。これは、図5に示す接続管理テーブル
28のパトロール実行時刻欄28cに記録された時刻を
時計機構23が示す現在時刻と比較することで行う。現
在時刻が前回のパトロール実行時刻5分以上経過したと
きには、前記のパトロール実行時刻を現在時刻に更新し
て、パワーオンリセットと初期化による障害回復処理に
入る。このプログラムで実行されるパワーオンリセット
と初期化による障害回復処理としては、まず、接続管理
テーブル28を参照して異常フラグが記録された障害発
生端末に対して順次リセットコマンドを送出する。次
に、通信回路系のハードウエア初期化として、初期設定
データ領域29から初期設定データを読出してホスト1
側の通信インタフェース24のレジスタや特定のメモリ
領域に初期設定データを送出し、通信インタフェース2
5a〜25nのうち異常発生端末に関係するインタフェ
ースのレジスタや特定のメモリ領域に初期設定データを
送出して初期設定をする。さらに、異常発生端末に関係
する送受信処理PRG22bが使用する動作環境データ
についても初期設定データを設定する。そして、障害発
生端末からのパワーオン完了のテキストを受信割込待ち
をする。このプログラムは、このような処理を5分ごと
に割込処理により繰り返す。
【0015】なお、障害発生端末からパワーオン完了の
テキストを受信したときには、接続管理テーブル28の
その端末についてのデータ処理障害発生欄28bの異常
フラグ“FFH”を正常のフラグ“00H”に書き換え
て通常の処理に復帰させる。障害発生端末からパワーオ
ン完了のテキストを受信しないときには、再送要求のリ
トライを所定回数行い、それでも受信しないときには、
このまま処理を終了するか、障害の報告をホスト1に行
う。後述する例では、この後者の例とするが、前者の場
合には、先に説明したように端末に対してリセットが繰
り返されるだけである。ところで、前記の復帰の場合
に、ホスト1に対してリセットによる異常回復の電文を
送出して通常処理に入ったことを知らせてもよい。ま
た、これ以前に、送受信処理PRG22bをコールして
前記所定の電文を送出して異常端末が正常に動作するか
否か、判定してもよい。このような例について後に説明
する。なお、この判定の結果、異常であれば、接続管理
テーブル28の異常フラグを書き換えないし、前記の異
常回復電文の送出も行わない。
【0016】端末3側のメモリ32に格納された起動処
理PRG32aは、MPU31により実行され、端末3
側において、電源投入から所定期間が経過してパワーオ
ンリセット回路35によりリセットが解除された時点で
初期設定データ領域36から初期設定データを読出して
パワーオンリセット以外で初期状態に設定されない回路
(ハードウエア)を初期状態に設定し、さらに、ソフト
ウエア初期化として、プログラムが動作する動作環境を
形成する初期値をメモリ32の所定のプログラムのデー
タ領域と各種回路の内部レジスタ等に設定する。具体的
には、まず、初期設定データ領域36から通信回路係の
レジスタ等の初期設定データを読出して通信インタフェ
ース33のレジスタ等に初期値データを設定し、メモリ
32に記憶された各種プログラムの動作環境データを初
期設定データ領域36から読出したデータに書き換えて
初期状態に設定する。
【0017】メモリ32に格納された送受信処理PRG
32bは、MPU31により実行され、端末制御装置2
からの送信データを受信して、所定のプロトコルに従っ
て、例えば、CRCチェック等を行い、エラーチェック
をし、エラーが発生すると、再送要求のレスポンスを返
す。この再送要求の数をカウントして所定数以上の再送
要求が発生したときに異常と判定し、送信元の端末制御
装置2あるいはホスト1を異常と判定する。そして、所
定の異常処理に入る。なお、この異常処理についても前
記と同様にこの発明に直接関係していないため、その説
明を割愛する。なお、端末3が完全なスレーブとして動
作するものではない場合で、ホスト1に対して送信デー
タがあるときには、送信電文を作成して端末制御装置2
へと送出し、端末制御装置2からのレスポンスを受け
る。一定期間レスポンスがないときには、同一電文を再
送するリトライを行う。数回のリトライを行ってもレス
ポンスがないときには、前記と同様に異常として障害登
録処理を行う。なお、レスポンスが再送要求であるとき
には、再送要求の数をカウントして所定数以上の再送要
求が発生したときに異常と判定し、送信元の端末制御装
置2あるいはホスト1を異常と判定する。
【0018】初期化処理PRG32cは、端末制御装置
2からの送信データをデコードしたときにそれがリセッ
トコマンドであるときに起動され、所定の制御コードを
バス36上に送出してパワーオンリセット回路35を起
動し、パワーオンリセット動作をさせる。これにより、
ハードウエアが初期化される。さらに、起動処理PRG
32aをコールしてMPU31にこのプログラムを実行
させ、通信回路系のハードウエア初期化とソフトウエア
としてのプログラム関係のデータを初期値に設定する初
期化を行う。
【0019】以下、図2を参照して、まず、伝送システ
ムの起動処理の動作から説明する。端末制御装置2の起
動処理は、電源投入によりパワーオンリセット回路27
が動作してスタートする。これにより内部回路がリセッ
トされ、この時点で、各種回路の初期化が完了し、次に
起動処理PRG32aがMPU31により実行される。
これにより、通信回路系のハードウエアとして、初期設
定データ領域29等のデータが読出されてレジズタやメ
モリの特定の領域のデータが初期値に設定される(ステ
ップ101)。その結果、通信インタフェース24の内
部データが初期値に設定されて初期化され、通信インタ
フェース25a〜25nの内部データが順次初期値に設
定されて初期化される(ステップ102)。さらに、ソ
フトウエア初期化として、送受信処理PRG22bのデ
ータが初期値に設定され初期化される(ステップ10
3)。
【0020】次に、端末3からの受信割込の処理に入
り、パワーオン完了を記述したテキスト受信か、否かの
判定をする(ステップ104)。ここで、パワーオン完
了のテキストを受信したときには、YESとなり、接続
管理テーブル28に接続状態を示すものとして、パワー
オン完了テキスト受信欄28aの受信した端末の位置に
対応させて、図5に示すように、順次フラグ“FFH”
を書込み、さらにデータ処理障害発生欄28bには“0
0H”を書込む(ステップ105)。そして、パワーオ
ン完了のテキストを受信した端末に対してそのインタフ
ェースを介してパワーオン完了のメッセージを受信した
旨のレスポンスを返す(ステップ106)。また、前記
のステップ104において、パワーオン完了のメッセー
ジを受信していない端末に対してはパワーオン完了のテ
キストを送出するよう指示するコマンドを出し、この再
送要求においても受信されずにエラーとなったときに
は、前記の判定結果においてNOとなり、接続管理テー
ブル28のパワーオン完了テキスト受信欄28aに異常
を示すフラグとしてパワーオン完了のテキストを受信し
ていない端末の位置に対応させて、図5に示すように、
パワーオン完了テキスト受信欄28aは、フラグ“00
H”のままとして、データ処理障害発生欄28bには
“FFH”を書込(ステップ105a)。
【0021】次に、全端末からパワーオン完了のメッセ
ージを受信したか否か(全端末起動完了か?)の判定を
行い(ステップ107)、メッセージ受信していない端
末があるときには、ステップ104へと戻り、同様な処
理を繰り返す。ただし、異常判定のフラグを立てた端末
については、メッセージ受信したものとして扱い、除外
される。ここで、全端末からパワーオン完了のメッセー
ジを受信した場合(異常判定も済みも含む)には、YE
Sとなり、送受信処理PRG22bがMPU21により
実行され、オンラインコマンド処理に入り、オンライン
でコマンドに応じた送受信を実行する(ステップ10
8)。そして、障害回復処理PRG22dによる定期割
込(ここでは5分ごと)が入ったときには、これが実行
され、経過時間判定が行われる(ステップ109)。こ
れは、図5に示す接続管理テーブル28に現在時間をパ
トロール実行時刻欄28cに書込まれた時間と比較して
5分以上経過したかの判定による。その結果、YESと
なると、障害回復処理に入り(ステップ120,後
述)、その後、ステップ108へと戻る。
【0022】一方、端末3側の処理としては、電源投入
によりパワーオンリセット回路35が動作してスタート
する(ステップ200)。これにより内部回路がリセッ
トされ、この時点で、各種回路の初期化が完了し、次に
起動処理PRG32aがMPU31により実行される。
これにより、通信回路系のハードウエア初期化として、
初期設定データ領域36等のデータが読出されてレジズ
タやメモリの特定の領域のデータが初期値に設定される
(ステップ201)。その結果、通信インタフェース3
3の内部データが初期値に設定さて初期化される(ステ
ップ202)。さらに、ソフトウエア初期化として、送
受信処理PRG32bの所定のデータが初期値に設定さ
れて初期化される(ステップ203)。次に、MPU3
1は、起動処理PRG32aに従ってパワーオン完了の
テキスト電文を作成して端末制御装置2に送出する(ス
テップ204)。そして、パワーオン完了に対するレス
ポンス待ちループに入り(ステップ205)、正常受信
の応答を受けて、通常の送受信処理であるオンラインコ
マンド処理に入る(ステップ206)。なお、端末制御
装置2からのレスポンスがないときには、再送要求を出
し、所定回数再送要求を出してもレスポンスがないとき
には、端末制御装置の異常について所定の処理になる。
【0023】次に、端末制御装置2のステップ108の
オンラインコマンド処理と、端末についてのステップ2
06のオンラインコマンド処理の詳細について図3に従
って説明する。なお、この処理では、オンラインコマン
ド処理状態(送受信処理状態)において、障害回復のた
めの定期割込を受付ける。端末制御装置2として、ま
ず、受信割込が入ると、ホスト1からの受信か否かの判
定をし(ステップ111)、YESであるならば、電文
から相手先コードを抽出して接続管理テーブル28を参
照する。そして、正常端末か、否かの判定をする(ステ
ップ112)。正常であるときには、YESとなり、ホ
スト1からの受信データのうちコマンドをデコードし、
コマンドに従って電文で指定された相手先の通信インタ
フェースを介して対応する端末に送信する(ステップ1
13)。そして、端末からのレスポンス待ちに入り、正
常レスポンスか、否かの判定を行う(ステップ11
4)。
【0024】正常受信のときには、正常なレスポンス電
文を作成してホスト1に送出する(ステップ115)。
そして、ステップ111へと戻る。ステップ114にお
いてレスポンスがなくあるいは異常レスポンスであり、
リトライしても同様であるときには、エラーとなる。こ
のようなエラーが発生したときには、障害登録処理PR
G22cがコールされて、MPU21により実行され、
次の障害登録処理のステップ116に入る。ステップ1
16で、まず、接続管理テーブル28の障害発生に対応
する端末の欄に障害フラグ“FFH”を書込、登録す
る。そして、ホスト1に対して異常端末のアドレスを連
絡する異常発生の電文を作成してホスト1に送出する
(ステップ117)。この後、ステップ111へと戻
る。一方、前記のステップ112の判定において、接続
管理テーブル28を参照した結果、相手先指定端末が異
常であるときには、ホスト1に対して異常発生の端末ア
ドレスと異常のメッセージをレスポンス電文を作成しし
てホスト1に送出し(ステップ118)、そしてステッ
プ108へと戻る。また、前記のステップ111におい
てホストからの受信割込でなく、NOとなったときに
は、障害監視割込か否かの判定に入り(ステップ11
9)、それが障害監視割込であるときに(YESのと
き)には、図2のステップ109へと移行して異常監視
についての経過時間判定が行われる。そうでないときに
(NOのとき)には、ステップ114に入り、レスポン
ス待ちに入る。なお、端末3からの受信割込については
後述する。ステップ119からステップ109へと移行
してときには、後述するように、ステップ120におい
てリセットコマンドにより異常端末の異常回復が行われ
る。
【0025】端末3のオンラインコマンド処理として
は、受信割込が入ると、まず、それがオンラインコマン
ドのテキスト受信か否か判定をする(ステップ20
7)。この判定においてNOであるなら、この処理を終
了して、入力に応じた他の処理に移るが、YESである
ならば、受信電文のうちのコマンドをデコードしてコマ
ンドに応じた処理を行う(ステップ208)。そして、
その結果に応じてレスポンスを作成して端末制御装置2
へと送信する(ステップ209)。前記のステップ20
8のコマンドをデコードしたときに、そのコマンドがリ
セットコマンドであるときには、起動処理として、初期
化処理PRG32cがコールされて、MPU31により
実行されて、バスからの制御信号により端末の電源スイ
ッチに並列に挿入されたスイッチ回路をONさせる。こ
の電源投入により前記の図2のステップ200の処理が
行われ、パワーオンリセット回路35が動作してスター
トする。そして、前記と同様に内部回路がリセットさ
れ、この時点で、各種回路の初期化が完了し、次に起動
処理PRG32aがMPU31により実行され、図2の
端末3の処理フローであるステップステップ201から
ステップ206の処理が行われる。 また、前記のステ
ップ208のコマンドをデコードして実行する際に、C
RCチェック等によりエラーがある場合には、ステップ
209で再送要求を行うことになる。
【0026】以上は、ホスト1からの受信データを端末
3が受信する場合であるが、端末3が完全なスレーブで
はなく、端末3からの送信を端末制御装置2が受ける場
合には、その送信データについては、ホスト1をアドレ
ス指定して送信電文を作成して送出して、レスポンス待
ちに入ることになる。この場合の端末制御装置3の処理
としては、対象が端末3とホスト1が入れ替わる処理と
なるだけで、その処理に実質的な相違はない。これにつ
いて簡単に説明すると、まず、ステップ111の受信判
定に端末からの受信が加わる。そして、ステップ114
のレスポンス判定がホストからの受信か否かの判定にな
り、ステップ114でホスト1のレスポンスが正常か否
かの判定をして、正常のときにはステップ115で端末
3に対するコマンド作成に入る。一方、異常のときに
は、リトライをし、それでも同様であるときには、エラ
ーとなり、このようなエラーが発生したときには、障害
登録処理PRG22cがMPU21により実行され、次
のステップ116で、まず、接続管理テーブル28の障
害発生に対応するホストの欄に障害フラグ“FFH”を
書込み、登録する。そして、ステップ117において、
端末3に対してホスト異常の異常発生の電文を作成して
端末3に送出する。この後、ステップ111へと戻る。
端末制御装置2では、ホスト1が異常のときには、ステ
ップ114〜ステップ117と同様な処理を端末3を対
象として行う。すなわち、端末側からの受信電文に対し
てステップ118で接続管理テーブル28を参照してホ
ストの欄に障害フラグ“FFH”が記録されているとき
にホスト1が異常である電文を作成して端末にレスポン
スすることができる。
【0027】次に、図2における端末制御装置3による
ステップ120の障害回復処理について図4に従って説
明する。障害回復処理PRG22dをMPU21が定期
的に実行してステップ108のオンライン処理において
割込を行う。そして、ステップ109の判定で5分以上
経過したときには、図4のステップ121で、まず、接
続管理テーブル28のパトロール実行時刻欄28cに現
在時刻を書込んで更新する。次に、接続管理テーブル2
8を参照して異常フラグ“FFH”を検出してデータ処
理障害があるか否かの判定を行う(ステップ122)。
そして、異常フラグが検出された端末があるとき(YE
Sのとき)には、異常が検出された端末に対してのハー
ドウエア初期化処理として、通信インタフェース24と
通信インタフェース25a〜25nのうち異常端末につ
いてのレジスタやメモリ32等に初期値にデータ設定し
て初期化する(ステップ123)。さらに、ソフトウエ
ア初期化として、初期設定データ領域29等のデータを
読出して異常端末についてのプログラム関係について初
期値のデータ設定を行い、同様に送受信処理PRG22
bのデータを異常端末(ステップ124)。
【0028】その後に、検出された異常発生端末に対し
て順次異常回復のためにリセットコマンド電文を作成し
て異常発生端末に対して送信する(ステップ125)。
前記したステップ104と同様にパワーオン完了受信処
理に入り(ステップ126)、パワーオン完了のテキス
トを受信したときには、異常が発生した端末に対して所
定のテスト電文を作成して送出する(ステップ12
7)。そして、レスポンス待ちに入り(ステップ12
7)、レスポンスを受けたときにそのレスポンスが正常
か、否かの判定を行い(ステップ128)、異常が発生
した端末が正常な応答を返してきたときには、接続管理
テーブル28のフラグ欄28bのフラグを“00F”に
設定して正常にし(ステップ129)、ホスト1には、
異常が発生した端末についてリセットコマンドで異常が
回復した電文を作成して送出する(ステップ130)。
そして、ステップ108のオンラインコマンド処理に戻
る。
【0029】また、前記のステップ126あるいはステ
ップ128において、リトライ後にもレスポンス判定で
異常の場合には、この端末の異常回数カウンタをインク
リメントし(ステップ131)、それが所定値M以上で
あるか否かを判定して(ステップ132)、所定値Mに
達していないときに(NOのとき)には、ステップ10
8のオンラインコマンド処理に戻る。この判定で、所定
値M以上であるときには、異常発生端末について前記と
相違するレベルでの障害発生の電文を作成してホスト1
に送出して(ステップ133)、ステップ108のオン
ラインコマンド処理に戻る。また、前記ステップ122
の判定において、NOとなり異常フラグが検出されない
ときには、この処理を終了して、ステップ108へと戻
る。このような処理により、前回の監視時点から5分以
上経過したときには、接続管理テーブル28を参照し
て、異常フラグがある端末に対して順次リセットコマン
ドを発生して、通信系の内部回路に初期値を設定し、異
常端末から応答を受けて、パワーオンリセットと初期化
による障害回復処理を自動的にかつ5分ごとに行う。
【0030】以上説明してきたが、このような伝送シス
テムにおいては、異常発生端末に対してリセット動作に
よる異常回復を行う関係で、端末の異常端末発生につい
ての電文を受けたホスト1が端末についての異常状態を
管理する。そして、その発生数回の程度に応じて従来か
らある保守員を手配するなどの所定の障害対策処理を実
行する。なお、このようなシステムでは、ステップ13
3の障害発生の電文を異常端末についての最終的な障害
発生として扱ってもよい。また、ステップ133の障害
発生電文についてはホスト1側でそれぞれの端末につい
て管理し、さらに、これの発生回数をカウントしてそれ
が所定数になったときにホスト1において最終的な障害
発生としてもよい。また、端末3に異常が発生した場合
に、異常発生レスポンスをホスト1に送出することな
く、ホスト1に対しては、ホスト1からリトライ等の電
文を受信したときにのみ接続管理テーブル28に従って
その都度異常応答を採るだけでもよい。このような場合
には、異常発生端末は、異常回数が所定値Mに達するま
では、5分おきにリセットされ続けるだけであり、他の
端末に影響を与えることはない。
【0031】
【発明の効果】この発明にあっては、異常が発生した端
末については、リセットコマンドでパワーオンリセット
を行い、電源立上げ状態の初期状態に設定する。そし
て、制御装置においては、異常が発生した端末について
の通信回路系等を初期値に設定し、かつ、初期値のデー
タを設定する。このことにより、異常が発生したデータ
伝送ルートと異常が発生した端末をすべて立上げ状態に
してあらためてデータ伝送を開始する。これにより、マ
スタとスレーブ間で通信障害発生後、人手介入すること
なくデータ処理障害となったスレーブだけに自動的に電
源投入時のリセット動作を行わせて通常処理に戻ること
ができ、異常発生端末は、異常が回復しない限り、リセ
ットされ続ける。その結果、データ処理障害がハードウ
エアのバーストエラーなどに起因する場合や特定の通信
プロトコルのバグに起因するような障害であれば、人手
介入することなく、また、システムをダウンさせずに回
復することができる。したがって、障害回復が迅速にな
され、システムダウンの回数が低減する。また、人手介
入することなく、正常にデータのやり取りが行える端末
は、そのまま運転可能とし、ダウンしたと判断した端末
のみ電源断から自動立上げることにより一時的な障害に
対してシステム全体を停止させないようにすることがで
きる。
【図面の簡単な説明】
【図1】図1は、この発明のデータ伝送システムの障害
管理方法を適用した一実施例の端末制御装置を中心とし
たブロック図である。
【図2】図2は、伝送システムにおける起動処理のフロ
ーチャートである。
【図3】図3は、端末制御装置と端末とのデータ送受信
処理のフローチャートである。
【図4】図4は、障害回復処理のフローチャートであ
る。
【図5】図5は、接続管理テーブルの説明図である。
【符号の説明】
1…ホスト、2…端末制御装置、3,3a,3b,3n
…端末装置(端末)、21…マイクロプロセッサ(MP
U)、22,32…メモリ、22a,32a…起動処理
プログラム(起動処理PRG)、22b,32b…送受
信処理プログラム(送受信処理PRG)、22c…障害
登録処理プログラム(障害登録処理PRG)、22d…
障害回復処理プログラム(障害回復処理PRG)、23
…時計機構、24…通信インタフェース、25a,25
b,25c,25n…通信インタフェース、26…バ
ス、27,35…パワーオンリセット回路、28…接続
管理テーブル、29,36…初期設定データ領域、31
…MPU、32c…初期化処理プログラム(初期化処理
PRG)、33…通信インタフェース、34…CRTデ
ィスプレイ、35…キーボード、36…バス。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 角田 健一 神奈川県秦野市堀山下1番地 株式会社日 立コンピュータエレクトロニクス内 (72)発明者 柘植 仁 神奈川県秦野市堀山下1番地 株式会社日 立コンピュータエレクトロニクス内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】コンピュータに制御装置を介して複数の端
    末装置が接続され、前記コンピュータと前記端末装置と
    が前記制御装置を介してデータの授受を行うデータ伝送
    システムにおいて、 前記端末装置は、リセットコマンドを受けてパワーオン
    リセットにより電源立上げとプログラム処理についての
    初期値データを設定し、これらの完了に応じて前記制御
    装置に電源立上げ完了として応答する電源立上げ手段を
    有し、 前記制御装置は、前記端末装置に異常が発生したときに
    は、所定のプロトコルに従ってリトライを行うものであ
    って、このリトライにより異常が回復しないときに前記
    リセットコマンドを異常が発生した前記端末装置に送出
    するリセットコマンド発生手段と、前記リトライにより
    異常が回復しないときに前記異常が発生した端末装置に
    関係する回路系を初期値設定し、かつ、通信制御のため
    にプログラム処理についての初期値データを設定する初
    期設定手段と、前記端末装置から前記電源立上げの完了
    の応答を受けて通常の処理に戻る障害処理手段とを有す
    ることを特徴とするデータ伝送システムの障害管理方
    法。
  2. 【請求項2】前記制御装置は、前記端末装置に対してマ
    スタとなる端末制御装置であり、前記端末装置は、前記
    端末制御装置に対してスレーブとして動作するものであ
    って前記障害処理手段は、前記複数の端末装置のそれぞ
    れが正常か、異常かを示すテーブルを有し、前記リトラ
    イにより異常が回復しないときに異常が回復しない前記
    端末装置について前記テーブルに異常を示す情報を記録
    し、前記コンピュータから受信データを受けたときに前
    記テーブルを参照して受信データの送信先端末装置が異
    常であるときには、前記コンピュータに異常である端末
    装置についての電文を送出し、前記リセットコマンド発
    生手段は、定期的に起動されて前記テーブルを参照して
    前記異常を示す情報が記録された前記端末装置に対して
    前記リセットコマンドを発生するものである請求項1記
    載のデータ伝送システムの障害管理方法。
  3. 【請求項3】前記障害処理手段は、前記リトライにより
    異常が回復しないときに異常が回復しない前記端末装置
    について前記テーブルに異常を示す情報を記録するとと
    もに前記コンピュータに異常である端末装置についての
    電文を送出し、前記端末装置から前記電源立上げの完了
    の応答を受けて前記テーブルのうち応答を受けた端末装
    置について記録されている前記異常を示す情報を消去す
    る請求項2記載のデータ伝送システムの障害管理方法。
  4. 【請求項4】前記障害処理手段は、前記端末装置から前
    記電源立上げの完了の応答を受けて所定の電文を前記応
    答した端末装置に送出して前記所定の電文に対する応答
    を受けて異常が回復したか否か判定し、異常が回復した
    ときには、前記テーブルのうち応答を受けた端末装置に
    ついて記録されている前記異常を示す情報を消去した後
    に前記通常の処理に戻り、前記リトライによっても前記
    異常が回復しないときにはあるいは前記電源立上げの完
    了の応答を受けないときに、前記コンピュータに異常で
    ある端末装置についての電文を送出する請求項2記載の
    データ伝送システムの障害管理方法。
JP8023156A 1996-01-16 1996-01-16 データ伝送システムの障害管理方法 Pending JPH09198334A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8023156A JPH09198334A (ja) 1996-01-16 1996-01-16 データ伝送システムの障害管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8023156A JPH09198334A (ja) 1996-01-16 1996-01-16 データ伝送システムの障害管理方法

Publications (1)

Publication Number Publication Date
JPH09198334A true JPH09198334A (ja) 1997-07-31

Family

ID=12102743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8023156A Pending JPH09198334A (ja) 1996-01-16 1996-01-16 データ伝送システムの障害管理方法

Country Status (1)

Country Link
JP (1) JPH09198334A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100367699B1 (ko) * 1999-12-23 2003-01-10 엘지전자 주식회사 병렬 버스 시스템의 에러 제어 장치
JP2006020318A (ja) * 2004-06-30 2006-01-19 Zarlink Semiconductor Inc パケット交換通信網における迅速な端末間フェイルオーバーを提供する方法及び装置
US7760719B2 (en) 2004-06-30 2010-07-20 Conexant Systems, Inc. Combined pipelined classification and address search method and apparatus for switching environments

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100367699B1 (ko) * 1999-12-23 2003-01-10 엘지전자 주식회사 병렬 버스 시스템의 에러 제어 장치
JP2006020318A (ja) * 2004-06-30 2006-01-19 Zarlink Semiconductor Inc パケット交換通信網における迅速な端末間フェイルオーバーを提供する方法及び装置
JP2010057190A (ja) * 2004-06-30 2010-03-11 Conexant Systems Inc パケット交換通信網における迅速な端末間フェイルオーバーを提供する方法及び装置
US7760719B2 (en) 2004-06-30 2010-07-20 Conexant Systems, Inc. Combined pipelined classification and address search method and apparatus for switching environments
US7813263B2 (en) 2004-06-30 2010-10-12 Conexant Systems, Inc. Method and apparatus providing rapid end-to-end failover in a packet switched communications network

Similar Documents

Publication Publication Date Title
US6425093B1 (en) Methods and apparatuses for controlling the execution of software on a digital processing system
US6633538B1 (en) Node representation system, node monitor system, the methods and storage medium
JP2812189B2 (ja) プログラムダウンロード方法
US6505298B1 (en) System using an OS inaccessible interrupt handler to reset the OS when a device driver failed to set a register bit indicating OS hang condition
TW200426571A (en) Policy-based response to system errors occurring during os runtime
CN113064757A (zh) 一种服务器固件自恢复***及服务器
US7499987B2 (en) Deterministically electing an active node
EP0477385B1 (en) Method of resetting adapter module at failing time and computer system executing said method
JPH0950386A (ja) コンピュータ管理システム
JPH09198334A (ja) データ伝送システムの障害管理方法
JP2962387B2 (ja) プログラマブルコントローラおよびそれを用いた分散制御システムにおける特定他局のリセット方法、他局のリセット要因検出方法、異常局監視方法、同期起動方法および同期停止方法
JP3589830B2 (ja) 電子計算機システム
JPH08329006A (ja) 障害通知方式
JP2977705B2 (ja) ネットワーク接続された多重化コンピュータシステムの制御方式
JP3480881B2 (ja) 遠隔監視装置
JP3001818B2 (ja) マルチプロセッサ立ち上げ管理装置
JP7001236B2 (ja) 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
JPH07129425A (ja) リブート処理方法
JPH1196033A (ja) 情報処理装置
JP2699291B2 (ja) 電源異常処理装置
JP2000163274A (ja) 電子機器およびromデータ監視プログラムを記録した記録媒体
JPH05265812A (ja) マイクロ診断装置付情報処理装置
JP3961418B2 (ja) ネットワークシステム
KR100286222B1 (ko) 망관리부 자동 재부팅 방법
JP2954040B2 (ja) 割込監視装置