JP3399996B2 - Information processing system - Google Patents

Information processing system

Info

Publication number
JP3399996B2
JP3399996B2 JP32668892A JP32668892A JP3399996B2 JP 3399996 B2 JP3399996 B2 JP 3399996B2 JP 32668892 A JP32668892 A JP 32668892A JP 32668892 A JP32668892 A JP 32668892A JP 3399996 B2 JP3399996 B2 JP 3399996B2
Authority
JP
Japan
Prior art keywords
error
input
information
magnetic tape
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP32668892A
Other languages
Japanese (ja)
Other versions
JPH06175939A (en
Inventor
満弘 溝口
寿男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Electronics Services Co Ltd filed Critical Hitachi Ltd
Priority to JP32668892A priority Critical patent/JP3399996B2/en
Publication of JPH06175939A publication Critical patent/JPH06175939A/en
Application granted granted Critical
Publication of JP3399996B2 publication Critical patent/JP3399996B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、情報処理システムに関
し、特に、大型計算機システムの外部記憶サブシステム
などにおける機器および可搬性記憶媒体を含めた予防保
守などに適用して有効な技術に関する。 【0002】 【従来の技術】たとえば、大型計算機システムや、当該
システムの配下で稼動する磁気テープサブシステムなど
においては、システムにおける障害の発生を通信回線を
介して遠隔地の保守センタなどにおいて集中的に監視お
よび管理することにより、保守管理要員の削減や、障害
復旧の迅速化を図ることが知られている。 【0003】ところで、このようなシステムの保守管理
では、たとえば、障害情報の収集および編集出力を定期
的(1回/月)に行う障害支援プログラムを起動するこ
とにより、予防保守を行うことが考えられる。 【0004】また、他の技術としては、たとえば、特開
昭62−210549号公報に開示される情報処理シス
テムの診断方式が知られている。当該技術では、システ
ムを構成する各装置の支配関係を示すテーブルを設け、
より上位の装置から下位側へと順に診断を開始して、当
該装置に異常がない場合に、さらに下位の装置の診断を
継続することにより、目的の装置までの診断を可能にし
ようとするものである。 【0005】 【発明が解決しようとする課題】ところが、上記の前者
の従来技術の場合には、個々の機器に関する出力結果か
ら、さらに熟練した技術者が保守作業の要/不要などを
判断する必要があり、タイムリーな障害の予防保守が困
難であった。 【0006】また、後者の従来技術の場合には、機器レ
ベルでの診断にはそれなりの効果が得られるものの、磁
気テープなどの可搬性記憶媒体を含めたサブシステム全
体の予防保守については配慮されていなかった。 【0007】本発明の目的は、装置のみならず可搬性記
憶媒体を含めたシステム全体のタイムリーな予防保守を
実現することが可能な情報処理システムを提供すること
にある。 【0008】本発明の他の目的は、不良な可搬性記憶媒
体の指摘や入出力装置の故障箇所の指摘などの詳細な障
害解析および予防保守を短時間に的確に行うことが可能
な情報処理システムを提供することにある。 【0009】本発明の前記ならびにその他の目的と新規
な特徴は、本明細書の記述および添付図面から明らかに
なるであろう。 【0010】 【課題を解決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
以下の通りである。 【0011】本発明は、サービスプロセッサを内蔵した
入出力制御装置と、この入出力制御装置に接続され、前
記入出力制御装置を介して上位装置との間で授受される
情報の可搬性記憶媒体に対する記録/再生動作を行う入
出力装置と、前記サービスプロセッサと保守センタとを
接続する通信手段とからなる情報処理システムであっ
て、前記入出力装置における前記記録/再生動作のエラ
ー情報を監視し、個々の前記入出力装置の識別情報およ
び個々の前記可搬性記憶媒体の識別情報およびある時刻
を基準に所定時間、各種エラー毎に閾値管理を行ってい
る情報である経時変化情報を含む形式で蓄積するエラー
情報管理手段と、このエラー情報管理手段に蓄積された
前記エラー情報に基づいて、情報処理システムの運用中
に前記入出力装置の1つにおいて一定の閾値を超えるエ
ラーが発生したことを契機として、当該一定の閾値を超
えるエラーが前記1つの入出力装置以外の入出力装置の
運用下においても生じているかどうかを判定することに
よって、個々の前記入出力装置および前記可搬性記憶媒
体のいずれがエラー要因かを判別し、かつ不良の前記
出力装置または前記可搬性記憶媒体を特定する制御論理
とを備えるようにしたものである。 【0012】 【作用】上記した本発明の情報処理システムによれば、
エラー情報管理手段において、個々の入出力装置の識別
情報および個々の可搬性記憶媒体の識別情報およびある
時刻を基準に所定時間、各種エラー毎に閾値管理を行っ
ている情報である経時変化情報を含む形式でエラー情報
が蓄積されているので、たとえば、経時変化情報とし
て、個々の入出力装置および個々の可搬性記憶媒体毎の
記録/再生の各々の動作毎にエラーバイト数の累積値を
採ることにより、磁気テープサブシステムなどにおいて
は、任意の磁気テープデッキにおける任意の磁気テープ
媒体の処理中にデータチェック系のエラーが発生した
時、たとえば、当該磁気テープデッキにおいて、異なる
磁気テープ媒体で連続してエラーが発生したか、あるい
は、当該磁気テープ媒体が異なる磁気テープデッキにお
いてエラーとなったかを調べる、という判定アルゴリズ
ムを制御論理が実行することにより、ヘッド汚れを含む
磁気テープデッキ起因の障害と磁気テープ媒体起因の障
害の弁別、さらには障害となった磁気テープデッキや磁
気テープ媒体の特定などを迅速かつ的確に行うことが可
能となり、装置のみならず可搬性記憶媒体を含めたシス
テム全体のタイムリーな予防保守を実現することができ
る。 【0013】 【実施例】以下、本発明の一実施例である情報処理シス
テムを図面を参照しながら詳細に説明する。 【0014】図1は本実施例の情報処理システムを含む
遠隔保守支援システムの構成の一例を示す概念図であ
る。 【0015】なお、本実施例では、情報処理システムの
一例として磁気テープサブシステムの場合を例に採って
説明する。 【0016】磁気テープ制御装置1は、複数のメインプ
ロセッサ4(MP0,MP1)、サービスプロセッサ2
(SVP)、当該サービスプロセッサ2の制御プログラ
ムおよび後述のような各種テーブルからなる障害情報を
格納するフロッピィディスクドライブ3などを含んでい
る。 【0017】磁気テープ制御装置1の配下には、可搬性
の磁気テープ(VOL)を記憶媒体とする複数台の磁気
テープデッキ5(MTU)が接続され、上位側にはホス
トコンピュータ9が接続されている。そして、磁気テー
プ制御装置1は、ホストコンピュータ9からのコマンド
に基づいて、磁気テープデッキ5の動作を制御すること
により、当該ホストコンピュータ9との間で授受される
データの磁気テープに対する記録(WR)および再生
(RD)動作を行う。 【0018】サービスプロセッサ2は、通信回線6を介
して保守センタ8に接続されている。また、本実施例の
ように、複数の磁気テープ制御装置1および配下の磁気
テープデッキ5の組み合わせを備えた構成の場合には、
各磁気テープ制御装置1は、たとえばRS422インタ
ーフェイス7を介して相互に接続されている。 【0019】そして、磁気テープデッキ5や磁気テープ
制御装置1などで発生した障害情報をサービスプロセッ
サ2でロギング(監視および記録)し、さらに後述のよ
うな制御論理によって解析および閾値管理し、障害部位
や障害媒体などの情報を保守センタ8に自動通報するこ
とにより、予防保守を実現する。 【0020】以下、本実施例の磁気テープサブシステム
における作用の一例を詳細に説明する。 【0021】図2および図3は本実施例における障害判
定の制御論理の作用の一例を示すフローチャートであ
り、図4,図5,図6,図7および図8は、各種障害情
報を管理蓄積および判別するためのテーブルの一例を示
している。 【0022】図4は、推定VOL不良切り分けテーブル
51であり、個々の磁気テープデッキ5毎に一つずつ設
けられている。パーマネントデータチェック(回復不能
のエラー)またはリカバリデータチェック(回復可能な
エラー)カウントオーバが発生した後、次のVOLでエ
ラー無しであったVOLをロギングし、ある期間中VO
Lの不良判定をペンディング(保留)しておき、その間
の事象によつて磁気テープデッキ5の不良によるもの
か、VOL不良によるものかを弁別するために用いられ
る。 【0023】図5は、判定ペンディングテーブル52で
あり、個々の磁気テープデッキ5毎に一つずつ設けられ
ている。エラー判定を保留しているVOLをロギングす
る。 【0024】図6は、エラー来歴テーブル53であり、
磁気テープ制御装置1の配下の全磁気テープデッキ5に
共通に設けられている。主に、VOLの不良判定に用い
られる。 【0025】図7は、NGVOLテーブル54であり、
磁気テープ制御装置1の配下の全磁気テープデッキ5に
共通に設けられている。VOL不良判定により不良と判
定したVOLをロギングする。 【0026】図8は、2VOLNGテーブル55であ
り、個々の磁気テープデッキ5毎に一つずつ設けられて
いる。特定の磁気テープデッキ5において二つのVOL
で連続してエラーが発生し、当該磁気テープデッキ5を
不良と判定した場合に、当該二つのVOLをロギングす
る。 【0027】任意の磁気テープデッキ5におけるVOL
のアンロード時、サービスプロセッサ2は、たとえば、
WRバイト数、WRブロックカウント、RDバイト数、
RDブロックカウント、RD/WRにおけるリカバリデ
ータチェックの発生回数、などの統計情報を受領し(ス
テップ10)、リカバリデータチェックが1VOL単位
の閾値オーバか否かを判定し(ステップ11)、オーバ
と判明した場合には、後述の図3のステップ24に移行
する。 【0028】一方、閾値オーバでない場合には、処理1
2を実行する。すなわち、まず、当該磁気テープデッキ
5において一つ前のVOL処理でエラーがあったか否か
を判定し(ステップ12a)、あった場合には、一つ前
のVOL自体がエラーと推定されるため、判定ペンディ
ングテーブル52から推定VOL不良切り分けテーブル
51への当該VOLの登録を行う(ステップ12b)。
さらに推定VOL不良切り分けテーブル51の登録VO
L件数が閾値をオーバしたか否かを判定し(ステップ1
2c)、オーバした時は当該磁気テープデッキ5の不良
として、保守センタ8に通報する(ステップ12e)。 【0029】オーバしていない場合には、判定ペンディ
ングテーブル52の削除を行い(ステップ12d)、そ
の後、エラーカウント、処理バイト数の積算を行い、エ
ラー発生率を解析する(ステップ13)。 【0030】本実施例の場合、各エラーカウントは、1
日単位で1ヵ月(30日)分蓄積しており、当該蓄積値
に対して、1日の閾値をオーバしたか(ステップ1
4)、7日の閾値をオーバしたか(ステップ19)、3
0日の閾値をオーバしたか(ステップ21)、を監視
し、それぞれの免責条件判定であるステップ15、ステ
ップ16、ステップ20、ステップ22を満たしていれ
ば、当該磁気テープデッキ5の不良と判定し、当該磁気
テープデッキ5に対するヘッドクリーニング指示の表示
を行い(ステップ17)、障害対策要の為の自動通報を
保守センタ8に行って(ステップ18)、一回のVOL
のアンロード時における処理を終了する(ステップ2
3)。 【0031】図3は、前記ステップ11において、当該
磁気テープデッキ5におけるパーマネントデータチェッ
ク発生時、またはリカバリデータチェックが発生した時
のVOL不良またはMTU不良の弁別処理の一例を示し
ている。 【0032】まず、パーマネントデータチェックまたは
リカバリデータチェックの閾値オーバが発生したと判明
した時(ステップ24)、当該VOLと同じVOLが磁
気テープ制御装置1の配下の全磁気テープデッキ5に関
して、以前にステップ24のエラーが発生したVOLを
登録しているエラー来歴テーブル53にあるか否かを調
べ(ステップ28)、あった場合には、同一VOLで2
回連続してエラーが発生したことにより、当該VOLを
不良と判定してNGVOLテーブル54に登録する(ス
テップ29)。 【0033】ステップ28においてエラー来歴テーブル
53に同一VOLがなかった場合には、当該磁気テープ
デッキ5の判定ペンディングテーブル52のVOLの有
無を調べ(ステップ30)、あった場合には、同一の磁
気テープデッキ5において異なるVOLで連続してエラ
ーが発生していることになり、当該磁気テープデッキ5
の不良と判定して、保守センタ8に通報する(ステップ
31)。なお、連続してVOL自体の不良に起因するエ
ラーが発生したとも推定されるので、2VOLNGテー
ブル55にも登録して(ステップ32)、VOL不良の
判定の参考にする。 【0034】判定ペンディングテーブル52にVOL無
しの時は、本エラーは当該磁気テープデッキ5において
最初に発生したエラーであるため、当該VOLのエラー
来歴テーブル53への登録(ステップ33)、判定ペン
ディングテーブル52への登録(ステップ34)、を実
行し、次回以降のエラー発生時のVOL/MTU不良の
弁別判定に使用する。 【0035】なお、本実施例の場合には、VOL不良お
よびMTU不良の判定結果に関係無く、エラーの発生の
都度、保守センタ8に連絡すべきか否か(ONの時には
エラーの都度、保守センタ8に通報する)を指定する即
通報フラグが設けられており、当該即通報フラグがON
に設定されているか否かを調べ(ステップ25)、ON
の場合には、保守センタ8に通報する(ステップ2
7)。 【0036】なお、推定VOL不良切り分けテーブル5
1,判定ペンディングテーブル52,エラー来歴テーブ
ル53,NGVOLテーブル54,2VOLNGテーブ
ル55の各々は、随時、保守センタ8やサービスプロセ
ッサ2において参照可能であり、不良VOLの早期摘出
などの処置が可能となる。 【0037】以上本発明者によってなされた発明を実施
例に基づき具体的に説明したが、本発明は前記実施例に
限定されるものではなく、その要旨を逸脱しない範囲で
種々変更可能であることはいうまでもない。 【0038】たとえば、可搬性記憶媒体としては、磁気
テープに限らず、光ディスクなどの一般の可搬性記憶媒
体を用いる情報処理システムに広く適用できる。 【0039】 【発明の効果】本願において開示される発明のうち、代
表的なものによって得られる効果を簡単に説明すれば、
以下のとおりである。 【0040】すなわち、本発明の情報処理システムによ
れば、エラー情報管理手段に掌握されているエラー情報
に基づいて、たとえばヘッド汚れなどの経時変化要因を
含む入出力装置エラーと、媒体不良によるエラーとを弁
別できる制御論理を備えているので、常時、システムの
障害状況を監視することで、タイムリーな予防保守を実
現でき、情報処理システムの信頼性および保守性が向上
する、という効果が得られる。 【0041】また、各入出力装置毎に回復不能/可能エ
ラーの発生を監視・掌握し、エラー発生率を閾値管理す
るので、どの入出力装置のどの部位(たとえば、RD系
回路ユニット/WR系回路ユニット単位)で障害が発生
したかを特定できるため、障害解析および予防保守の所
要時間を短縮することができる。 【0042】また、個々の可搬性記憶媒体毎に障害傾向
の監視・掌握を行うことにより、不良の可搬性記憶媒体
が即判明し、障害解析および予防保守の所要時間を短縮
することができる。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information processing system, and more particularly, to preventive maintenance including devices and portable storage media in an external storage subsystem of a large-scale computer system. To apply to effective technology. 2. Description of the Related Art For example, in a large-scale computer system or a magnetic tape subsystem operating under the system, the occurrence of a failure in the system is centralized in a remote maintenance center or the like via a communication line. It is known that by monitoring and managing the data, the number of maintenance management personnel can be reduced and the speed of recovery from a failure can be increased. In the maintenance management of such a system, for example, it is conceivable to perform preventive maintenance by activating a failure support program for periodically (once / month) collecting and editing failure information. Can be [0004] As another technique, for example, a diagnostic method of an information processing system disclosed in Japanese Patent Application Laid-Open No. 62-210549 is known. In this technology, a table indicating the dominant relationship of each device constituting the system is provided,
Diagnosis is started in order from a higher-level device to a lower-level device, and when there is no abnormality in the relevant device, diagnosis of the target device is enabled by continuing diagnosis of a lower-level device. It is. [0005] However, in the case of the former prior art, it is necessary for a more skilled technician to judge the necessity / unnecessity of maintenance work from the output results of individual devices. It was difficult to perform preventive maintenance for timely failures. Further, in the case of the latter conventional technique, although a certain effect can be obtained in the diagnosis at the equipment level, the preventive maintenance of the entire subsystem including the portable storage medium such as the magnetic tape is considered. I didn't. An object of the present invention is to provide an information processing system capable of realizing timely preventive maintenance of the entire system including not only the apparatus but also a portable storage medium. Another object of the present invention is to provide an information processing apparatus capable of performing detailed failure analysis and preventive maintenance in a short time and accurately, such as indicating a defective portable storage medium and indicating a failure point of an input / output device. It is to provide a system. The above and other objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings. Means for Solving the Problems Of the inventions disclosed in the present application, the outline of a representative one will be briefly described.
It is as follows. The present invention relates to an input / output control device having a built-in service processor, and a portable storage medium for information connected to the input / output control device and exchanged with a higher-level device via the input / output control device. the information processing system comprising a communication means for connecting the input and output apparatus for recording / reproducing operation and maintenance center to the service processor for met
Te, the recording / monitors error information reproducing operation, a predetermined time to the identification information and the reference to a certain time of the identification information and individual said portability storage medium of each of the input-output device in the output device, various errors and error information management means for storing in a form including a temporal change information is information doing threshold management for each, stored in the error information managing means
Based on the error information, during operation of the information processing system
In one of the input / output devices, an error exceeding a certain threshold
Exceeds a certain threshold value due to the occurrence of an error
Error of an I / O device other than the one I / O device
Determining whether this has occurred even during operation
Accordingly, and as provided either it is determined whether an error factor, and said input-output device or control logic the portability storage that identifies the media system of failure of individual said output device and the portability storage medium Things. According to the information processing system of the present invention described above,
In the error information management unit, aging information is information that is performed by the predetermined time based on the identification information and the certain time of the identification information and individual portable storage medium of the individual input and output devices, a threshold management for each various errors The error information is stored in a format that includes the following. For example, the accumulated value of the number of error bytes for each recording / reproducing operation for each input / output device and each portable storage medium is stored as time-dependent change information. By adopting this method, in a magnetic tape subsystem or the like, when an error occurs in a data check system during processing of an arbitrary magnetic tape medium in an arbitrary magnetic tape deck, for example, when a different magnetic tape medium is used in the magnetic tape deck, Whether an error has occurred consecutively or whether the magnetic tape medium has caused an error in a different magnetic tape deck The control logic executes a judgment algorithm to check for discrimination between failures caused by the magnetic tape deck, including head contamination, and failures caused by the magnetic tape medium, and further identifies the failed magnetic tape deck or magnetic tape medium. Can be performed quickly and accurately, and timely preventive maintenance of the entire system including not only the devices but also the portable storage medium can be realized. An information processing system according to an embodiment of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a conceptual diagram showing an example of the configuration of a remote maintenance support system including the information processing system of the present embodiment. In this embodiment, a magnetic tape subsystem will be described as an example of an information processing system. The magnetic tape controller 1 includes a plurality of main processors 4 (MP0, MP1), a service processor 2
(SVP), a floppy disk drive 3 for storing a control program of the service processor 2 and fault information composed of various tables as described later. Under the control of the magnetic tape controller 1, a plurality of magnetic tape decks 5 (MTU) using a portable magnetic tape (VOL) as a storage medium are connected, and a host computer 9 is connected to the upper side. ing. Then, the magnetic tape controller 1 controls the operation of the magnetic tape deck 5 based on a command from the host computer 9 to record data (WR) transferred to and from the host computer 9 on the magnetic tape. ) And playback (RD) operation. The service processor 2 is connected to a maintenance center 8 via a communication line 6. Further, in the case of a configuration including a combination of a plurality of magnetic tape control devices 1 and a subordinate magnetic tape deck 5 as in the present embodiment,
The respective magnetic tape control devices 1 are mutually connected via, for example, an RS422 interface 7. The service processor 2 logs (monitors and records) fault information generated in the magnetic tape deck 5 and the magnetic tape control device 1 and the like, and further analyzes and manages thresholds by control logic as described later, and The preventive maintenance is realized by automatically notifying the maintenance center 8 of the information such as the information and the failure medium. Hereinafter, an example of the operation of the magnetic tape subsystem of this embodiment will be described in detail. FIGS. 2 and 3 are flow charts showing an example of the operation of the control logic for fault determination in this embodiment. FIGS. 4, 5, 6, 7 and 8 show various types of fault information managed and stored. And an example of a table for discriminating. FIG. 4 shows an estimated VOL failure isolation table 51, one for each magnetic tape deck 5. After a permanent data check (unrecoverable error) or recovery data check (recoverable error) count-over has occurred, the next VOL is logged for the VOL that was error-free, and the VOL for a certain period of time is logged.
The determination of L is pending (pending), and is used for discriminating whether an event during this time is due to a failure of the magnetic tape deck 5 or a VOL failure. FIG. 5 shows a judgment pending table 52, one for each magnetic tape deck 5. The VOL for which error determination is suspended is logged. FIG. 6 is an error history table 53,
It is provided commonly to all the magnetic tape decks 5 under the control of the magnetic tape controller 1. It is mainly used for VOL failure determination. FIG. 7 shows an NGVOL table 54.
It is provided commonly to all the magnetic tape decks 5 under the control of the magnetic tape controller 1. The VOL determined to be defective by the VOL defect determination is logged. FIG. 8 shows a 2 VOLNG table 55, one for each magnetic tape deck 5. Two VOLs in a specific magnetic tape deck 5
In the case where an error has occurred consecutively and the magnetic tape deck 5 is determined to be defective, the two VOLs are logged. VOL in an optional magnetic tape deck 5
At the time of unloading, for example, the service processor 2
WR byte count, WR block count, RD byte count,
Statistical information such as the RD block count and the number of occurrences of the recovery data check in the RD / WR is received (step 10), and it is determined whether the recovery data check exceeds a threshold of 1 VOL unit (step 11), and it is determined that the data is over. If so, the process proceeds to step 24 in FIG. 3 described below. On the other hand, if the threshold is not exceeded, processing 1
Execute Step 2. That is, first, it is determined whether or not there was an error in the previous VOL processing in the magnetic tape deck 5 (step 12a). If there was, the previous VOL itself is estimated to be an error. The VOL is registered from the determination pending table 52 to the estimated VOL failure isolation table 51 (step 12b).
Further, the registered VOs in the estimated VOL failure isolation table 51
It is determined whether or not the number of L exceeds the threshold (step 1).
2c) If it is over, the maintenance center 8 is notified that the magnetic tape deck 5 is defective (step 12e). If it is not over, the judgment pending table 52 is deleted (step 12d), and thereafter, the error count and the number of processing bytes are integrated, and the error occurrence rate is analyzed (step 13). In this embodiment, each error count is 1
Accumulated for one month (30 days) in day units, and whether the accumulated value exceeds the daily threshold (step 1)
4) Whether the 7th day threshold was exceeded (step 19), 3
It is monitored whether the threshold value on day 0 has been exceeded (step 21). If the respective exemption condition determinations of step 15, step 16, step 20, and step 22 are satisfied, it is determined that the magnetic tape deck 5 is defective. Then, a head cleaning instruction is displayed on the magnetic tape deck 5 (step 17), and an automatic notification for troubleshooting is sent to the maintenance center 8 (step 18).
Ends the processing when unloading (step 2
3). FIG. 3 shows an example of a discrimination process of a VOL defect or an MTU defect when a permanent data check or a recovery data check occurs in the magnetic tape deck 5 in the step 11. First, when it is determined that the threshold of the permanent data check or the recovery data check has been exceeded (step 24), the same VOL as the relevant VOL has previously been assigned to all the magnetic tape decks 5 under the control of the magnetic tape controller 1. It is checked whether or not the VOL in which the error occurred in step 24 is registered in the error history table 53 (step 28).
Since the error has occurred consecutively, the VOL is determined to be defective and registered in the NGVOL table 54 (step 29). If there is no identical VOL in the error history table 53 in step 28, it is checked whether or not there is a VOL in the determination pending table 52 of the magnetic tape deck 5 (step 30). This means that an error has occurred continuously in different VOLs in the tape deck 5, and
Is determined to be defective, and the maintenance center 8 is notified (step 31). In addition, since it is also estimated that an error caused by the defect of the VOL itself has occurred continuously, it is also registered in the 2VOLNG table 55 (step 32), which is used as a reference for the judgment of the VOL defect. When there is no VOL in the judgment pending table 52, this error is the first error that occurred in the magnetic tape deck 5, so that the VOL is registered in the error history table 53 (step 33), and the judgment pending table 52 (step 34), and is used for discrimination determination of a VOL / MTU failure at the time of the next and subsequent errors. In the case of this embodiment, whether or not to contact the maintenance center 8 every time an error occurs (irrespective of the determination result of the VOL failure and the MTU failure) 8) is provided, and the immediate report flag is ON.
Is checked (step 25) and ON
In the case of, the maintenance center 8 is notified (step 2
7). The estimated VOL failure isolation table 5
1, the determination pending table 52, the error history table 53, the NGVOL table 54, and the 2VOLNG table 55 can be referred to at any time in the maintenance center 8 and the service processor 2, and measures such as early extraction of a defective VOL can be performed. . Although the invention made by the inventor has been specifically described based on the embodiments, the present invention is not limited to the above-described embodiments, and can be variously modified without departing from the gist thereof. Needless to say. For example, the portable storage medium is not limited to a magnetic tape but can be widely applied to an information processing system using a general portable storage medium such as an optical disk. The effects obtained by the representative inventions among the inventions disclosed in the present application will be briefly described.
It is as follows. That is, according to the information processing system of the present invention, based on the error information controlled by the error information management means, an input / output device error including a temporal change factor such as head contamination, and an error due to a medium defect are detected. The control logic is capable of discriminating between the system and the system. By monitoring the system failure status at all times, timely preventive maintenance can be realized and the reliability and maintainability of the information processing system can be improved. Can be Further, since the occurrence of an unrecoverable / possible error is monitored and controlled for each input / output device and the error occurrence rate is managed as a threshold value, which part of which input / output device (for example, RD system circuit unit / WR system) Since it is possible to specify whether a failure has occurred in each circuit unit), the time required for failure analysis and preventive maintenance can be reduced. Further, by monitoring and controlling the tendency of failure for each portable storage medium, a defective portable storage medium can be immediately identified, and the time required for failure analysis and preventive maintenance can be reduced.

【図面の簡単な説明】 【図1】本発明の一実施例である情報処理システムを含
む遠隔保守支援システムの構成の一例を示す概念図であ
る。 【図2】本発明の一実施例である情報処理システムにお
ける障害判定の制御論理の作用の一例を示すフローチャ
ートである。 【図3】本発明の一実施例である情報処理システムにお
ける障害判定の制御論理の作用の一例を示すフローチャ
ートである。 【図4】エラー情報管理手段の一例である推定VOL不
良切り分けテーブルの構成の一例を示す概念図である。 【図5】エラー情報管理手段の一例である判定ペンディ
ングテーブルの構成の一例を示す概念図である。 【図6】エラー情報管理手段の一例であるエラー来歴テ
ーブルの構成の一例を示す概念図である。 【図7】エラー情報管理手段の一例であるNGVOLテ
ーブルの構成の一例を示す概念図である。 【図8】エラー情報管理手段の一例である2VOLNG
テーブルの構成の一例を示す概念図である。 【符号の説明】 1 磁気テープ制御装置(入出力制御装置) 2 サービスプロセッサ 3 フロッピィディスクドライブ(エラー情報管理手
段) 4 メインプロセッサ 5 磁気テープデッキ(入出力装置) 6 通信回線(通信手段) 7 RS422インターフェイス 8 保守センタ 9 ホストコンピュータ(上位装置) 51 推定VOL不良切り分けテーブル(エラー情報管
理手段) 52 判定ペンディングテーブル(エラー情報管理手
段) 53 エラー来歴テーブル(エラー情報管理手段) 54 NGVOLテーブル(エラー情報管理手段) 55 2VOLNGテーブル(エラー情報管理手段)
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a conceptual diagram showing an example of a configuration of a remote maintenance support system including an information processing system according to an embodiment of the present invention. FIG. 2 is a flowchart illustrating an example of an operation of a control logic for failure determination in the information processing system according to the embodiment of the present invention. FIG. 3 is a flowchart illustrating an example of an operation of a control logic for failure determination in the information processing system according to the embodiment of the present invention. FIG. 4 is a conceptual diagram illustrating an example of a configuration of an estimated VOL failure isolation table, which is an example of an error information management unit. FIG. 5 is a conceptual diagram illustrating an example of a configuration of a determination pending table which is an example of an error information management unit. FIG. 6 is a conceptual diagram showing an example of a configuration of an error history table which is an example of an error information management unit. FIG. 7 is a conceptual diagram illustrating an example of a configuration of an NGVOL table which is an example of an error information management unit. FIG. 8 shows 2VOLNG which is an example of an error information management unit.
FIG. 3 is a conceptual diagram illustrating an example of a table configuration. [Description of Signs] 1 Magnetic tape control device (input / output control device) 2 Service processor 3 Floppy disk drive (error information management means) 4 Main processor 5 Magnetic tape deck (input / output device) 6 Communication line (communication means) 7 RS422 Interface 8 Maintenance center 9 Host computer (upper device) 51 Estimated VOL failure isolation table (error information management means) 52 Judgment pending table (error information management means) 53 Error history table (error information management means) 54 NGVOL table (error information management) Means) 55 2VOLNG table (Error information management means)

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭52−80754(JP,A) 特開 昭61−166637(JP,A) 特開 昭58−115560(JP,A) 特開 昭60−147848(JP,A) 特開 昭61−60156(JP,A)   ────────────────────────────────────────────────── ─── Continuation of front page       (56) References JP-A-52-80754 (JP, A)                 JP-A-61-166637 (JP, A)                 JP-A-58-115560 (JP, A)                 JP-A-60-147848 (JP, A)                 JP-A-61-60156 (JP, A)

Claims (1)

(57)【特許請求の範囲】 【請求項1】 サービスプロセッサを内蔵した入出力制
御装置と、この入出力制御装置に接続され、前記入出力
制御装置を介して上位装置との間で授受される情報の可
搬性記憶媒体に対する記録/再生動作を行う入出力装置
と、前記サービスプロセッサと保守センタとを接続する
通信手段とからなる情報処理システムであって、前記入
出力装置における前記記録/再生動作のエラー情報を監
視し、個々の前記入出力装置の識別情報および個々の前
記可搬性記憶媒体の識別情報およびある時刻を基準に所
定時間、各種エラー毎に閾値管理を行っている情報であ
る経時変化情報を含む形式で蓄積するエラー情報管理手
段と、このエラー情報管理手段に蓄積された前記エラー
情報に基づいて、情報処理システムの運用中に前記入出
力装置の1つにおいて一定の閾値を超えるエラーが発生
したことを契機として、当該一定の閾値を超えるエラー
が前記1つの入出力装置以外の入出力装置の運用下にお
いても生じているかどうかを判定することによって、
々の前記入出力装置および前記可搬性記憶媒体のいずれ
がエラー要因かを判別し、かつ不良の前記入出力装置ま
たは前記可搬性記憶媒体を特定する制御論理とを備えた
ことを特徴とする情報処理システム。
(57) [Claim 1] An input / output control device having a built-in service processor, connected to the input / output control device, and exchanged with a host device via the input / output control device. An information processing system comprising: an input / output device for performing a recording / reproducing operation on a portable storage medium for storing information; and a communication means for connecting the service processor to a maintenance center. This is information for monitoring operation error information, performing threshold management for each error for a predetermined time based on identification information of each of the input / output devices, identification information of each of the portable storage media, and a certain time. and error information management means for storing in a form including a temporal change information, on the basis of the accumulated error information to the error information management unit, wherein during the operation of the information processing system Out
One of the force devices has an error that exceeds a certain threshold
As an error, the error exceeding the certain threshold
Is operated by an input / output device other than the one input / output device.
By determining whether the error occurs, it is possible to determine which of the individual input / output devices and the portable storage medium is the cause of the error , and to specify the defective input / output device or the portable storage medium. an information processing system which is characterized in that a that control logic.
JP32668892A 1992-12-07 1992-12-07 Information processing system Expired - Lifetime JP3399996B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32668892A JP3399996B2 (en) 1992-12-07 1992-12-07 Information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32668892A JP3399996B2 (en) 1992-12-07 1992-12-07 Information processing system

Publications (2)

Publication Number Publication Date
JPH06175939A JPH06175939A (en) 1994-06-24
JP3399996B2 true JP3399996B2 (en) 2003-04-28

Family

ID=18190552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32668892A Expired - Lifetime JP3399996B2 (en) 1992-12-07 1992-12-07 Information processing system

Country Status (1)

Country Link
JP (1) JP3399996B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001026112A1 (en) 1999-09-30 2001-04-12 Fujitsu Limited Method for administrating life of storage medium, storage, storage system, and storage medium
JP4792047B2 (en) * 2005-03-03 2011-10-12 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. How system availability is calculated
JP5785455B2 (en) * 2011-07-29 2015-09-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Apparatus and method for processing related to removable media

Also Published As

Publication number Publication date
JPH06175939A (en) 1994-06-24

Similar Documents

Publication Publication Date Title
EP0502207B1 (en) Input/output controller
US7321477B2 (en) Disk control apparatus, disk control method, and computer product
US7412351B2 (en) Correlating power signatures with automated equipment
WO2021047234A1 (en) Hard disk management method and apparatus
JP3399996B2 (en) Information processing system
JPH06250795A (en) Disk array system
CN110413463A (en) A kind of SMART information inspection method of hard disk
JP2001154929A (en) Management method and system for substituting path system
JP3684199B2 (en) Computer system
JP2691142B2 (en) Array type storage system
JP2644205B2 (en) I / O controller
JP3269817B2 (en) I / O control unit
JP2735801B2 (en) I / O control unit
JP2713250B2 (en) CPU maintenance system
JPH08147112A (en) Error recovery device for disk array device
JPH04273337A (en) Maintenance diagnostic system
JP2590777B2 (en) Magnetic disk drive failure reporting method and magnetic disk drive using this method
JP3095061B2 (en) I / O controller
JPH05274093A (en) Volume fault prevention control system
JP2910847B2 (en) Array type disk controller
JPS62151052A (en) Supervisory system for data line
JPS6010328A (en) Input and output error demarcating and processing system
JPH0222741A (en) Fault foreseeing and automatic reporting system
KR100260084B1 (en) Method for recording call charge rate in a switching system
JP2570927B2 (en) Suppression method for fault monitoring of specific equipment of centralized monitoring equipment for transmission equipment

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090221

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090221

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100221

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100221

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110221

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120221

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120221

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130221

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130221

Year of fee payment: 10