JPH01316839A - 障害解析診断方式 - Google Patents

障害解析診断方式

Info

Publication number
JPH01316839A
JPH01316839A JP63149842A JP14984288A JPH01316839A JP H01316839 A JPH01316839 A JP H01316839A JP 63149842 A JP63149842 A JP 63149842A JP 14984288 A JP14984288 A JP 14984288A JP H01316839 A JPH01316839 A JP H01316839A
Authority
JP
Japan
Prior art keywords
analysis
information
error
fault
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63149842A
Other languages
English (en)
Inventor
Takeshi Hayashida
健 林田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63149842A priority Critical patent/JPH01316839A/ja
Publication of JPH01316839A publication Critical patent/JPH01316839A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 計算機システムの障害を解析して診断する障害解析診断
方式に関し、 収集した過去の障害情報の統計分析結果に対してルール
(専門家の知識)を適用して解析し、計算機システムの
障害解析を容易かつ信頼性高く行うことを目的とし、 計算機システムに発生した過去のエラー情報をエラー発
生装置に対応づけて収集した障害情報と、この障害情報
を検索して各ユーザ毎、月毎、エラー発生装置毎などの
エラー発生額度の統計・分析を行う統計・分析部と、こ
の統計・分析部によって統計・分析した結果に対して、
適用して解析結果を生成するルール群とを備え、このル
ール群を上記統計・分析した結果に対して適用し、解析
結果を生成して表示などするように構成する。
〔産業上の利用分野〕
本発明は、計算機システムの障害を解析して診断する障
害解析診断方式に関するものである。
近年の計算機システムの遠隔保守体制の高度化に伴い、
センタ技術者や各地の保守者などの専門家の経験則を有
効利用して、障害の兆候を事前に見つけ出し、重大事故
に至る前に対処することが要望されている。
〔従来の技術と発明が解決しようとする課題〕従来、各
地のユーザと遠隔保守センタとを回線で結び、発生した
障害情報をマニュアルあるいは障害が発生した毎などに
自動的に当該遠隔保守センタに収集するようにしている
。そして、遠隔保守センタの技術者が必要に応じてこれ
ら収集した障害情報をデイスプレィ上に表示あるいはプ
リントアウトして眺め、経験則を活かして障害の兆候を
見つけ出し、これに対処すべ(ある部品例えばメモリア
レイカードの交換などを指示するようにしていた。この
ため、障害情報を分析する遠隔保守センタの技術者の専
門的知識の度合に対応してその分析結果が左右されてし
まい、必ずしも信頼性高く診断し得ないという問題があ
った。
本発明は、収集した過去の障害情報の統計分析結果に対
してルール(専門家の知識)を適用して解析し、計算機
システムの障害解析を容易かつ信頼性高く行うことを目
的としている。
〔課題を解決する手段〕
第1図を参照して課題を解決する手段を説明する。
第1図において、障害情報3は、計算機システムのエラ
ー情報などを収集したものである。
統計・分析部5は、収集された過去の障害情報3を検索
して、ユーザ毎、月毎、エラー発生装置毎などのエラー
発生頻度の統計・分析を行うものである。
解析部7は、統計・分析した結果に対してルール群9を
適用し、障害を解析するものである。
ルール群9は、専門家の知識をルール化したものである
〔作用〕
本発明は、第1図に示すように、統計分析部5が障害情
報3を検索してユーザ毎、月毎、エラー発生装置毎など
にエラー発生頻度の統計・分析を行い、解析部7がこの
統計・分析結果に対してルール群9を適用して障害の解
析結果を出力するようにしている。
従って、障害情報3を検索して過去に発生したエラー情
報の頻度を求め、これに対して全ての専門家の知識を集
約したルール群9を適用して障害解析することにより、
信頼性の高い診断結果を容易に得ることが可能となる。
〔実施例〕
次に、第1図から第6図を用いて本発明の1実施例の構
成および動作を順次詳細に説明する。
第1図において、各地ユーザ1は、電子計算機システム
を持つユーザである。
遠隔保守センタ2は、各地ユーザ1と回線を介して接続
され、当該各地ユーザ1の計算機システムを保守・管理
するためのセンタである。
障害情if!3は、回線を介して各地ユーザ1の計算機
システムのエラー情報などを収集したものである。この
障害情報3は、各地ユーザ1の計算機システムをV理す
るSVP (サービスプロセッサ)が収集したログ情報
などを、マニュアルで回線を介して収集、あるいは当該
ログ情報が収集されたことを契機に自動的に回線を介し
て収集したものである。
エキスパートシステム4は、統計・分析部5、追加・更
新部6、解析部7、および保存部8などから構成されて
いる。更に、ルール群9を図示外の主記憶装置に取り込
み、障害情報3を統計・分析した結果に対して適用し、
障害を解析するようにしている。
統計・分析部5は、収集した過去の障害情報3のユーザ
毎、月毎、エラー発生装置毎などのエラー発生頻度の統
計・分析を行うものである。
追加・更新部6は、ルール(第5図参照)を新たにルー
ル群9に追加したり、ルール群9中のあるルールの一部
を修正して更新したりなどするものである。これにより
、センタ技術者、各地保守員などの専門家の知識を蓄積
するH様で集約し、信頼性の高い障害診断を行うことが
可能となる。
解析部7は、障害情報3を統計・分析した結果に対して
、ルール群9を適用して障害診断結果(第6図参照)を
生成するものである。
保存部8は、統計・分析部5によって統計・分析された
結果および障害解析結果などを保存ファイル9−1に格
納するものである。これにより、次回の診断時に、前回
の結果を利用して迅速に障害解析を行うことが可能とな
る。
ルール群9は、センタ技術者、各地保守員などの専門家
が経験的に見つけた障害診断手法をIF〜THEN形弐
などで記述したルールを収集したものである(第5図参
照)、このように、専門家の知識をルール化して収集す
ることにより、それ程専門的知識を持たない技術者であ
っても、容易に高度の専門家の知識であるルール群9を
適用して、例えば重大障害に至る恐れのある兆候を見つ
け出して該当部品を事前に交換したり、交換を指示した
りすることが可能となる。
第2図は、遠隔保守センタの説明図を示す、この遠隔保
守センタは、ユーザa、ユーザb、ユーザCなどが持つ
計算機システムについて、回線を介して保守・管理する
ものである。ローカル遠隔保守センタは、各地区ごとに
数箇所設置されていて技術支援を行うセンタである。こ
のような保守・管理支援体制のもとで、遠隔保守センタ
には、ユーザa1ユーザb、ユーザCなどで発生してS
VPに収集されているログ情報などが回線を介して転送
され、第1図障害情報3として収集されている。従って
、遠隔保守センタは、この障害情報3に基づいて、後述
するように、ルールを適用して信鯨性の高い障害診断を
行い、該当部品の交換などを指示するようにしている。
次に、第3図フローチャートに示す順序に従い、第1図
構成の動作について第4図ないし第6図を用いて具体的
に説明する。
第3図において、■は、プログラム/ルールのロードを
行う。これは、第1図エキスパートシステム4を構成す
るプログラムおよび適用するためのルール群9をファイ
ルから取り出して主記憶装置にロードすることを意味し
ている。
■は、ユーザの指定を行う。これは、障害解析しようと
するユーザIDを、第1図センタ技術者が端末から入力
することを意味している。
■は、過去の解析結果のロードを行う。これは、第1図
保存ファイル9−1から過去に統計・分析した結果、お
よびこの統計・分析結果にルール群9を適用した解析結
果を取り出し、主記憶装置にロードすることを意味して
いる。
■は、障害情報の統計・分析を行う。これは、障害情報
3を検索し、第4図に示すように、■で指定したユーザ
毎、月毎、エラー発生装置(エラーコード毎)のように
時系列に統計・分析することを意味している。この統計
・分析により、第4図に示すように、月毎に、エラーコ
ード(エラー発生装置)におけるエラー発生頻度が算出
される。
■は、ルールの適用を行う、これは、■で統計・分析結
果(例えば第4図結果)に対して、専門家の知識を集約
したルール群(例えば第5図ルールAないしDなど)9
を適用し、その解析結果を第6図に示すように生成する
ことを意味している。
例えばルールDに対して1力月前および当月の2力月間
に、第4図から判明するようにフラグコード“5400
0001″が11件発生しているので、適用条件が成立
し、その結果が第6図に示す障害診断結果として求めら
れる。
■は、障害解析結果の出力を行う。これは、第1図端末
に対して■の障害診断結果を表示、あるいはプリントア
ウトし、センタ技術者に知らせることを意味している。
■は、保存する。これは、■で統計・分析した結果、お
よび■でルール群9を適用して求めた障害診断結果を保
存ファイル9−1に格納し、次回の診断時に使用し得る
ようにしておく。
以上のように、各ユーザの計算機システムから回線を介
して収集などした障害情報3をもとに、指定した各計算
機システムに対して、例えば月毎にエラーコードの発生
頻度を統計・分析し、これに対してルール群9を適用し
て障害解析を行い、障害の兆候を見つけ出して事前に部
品の交換の指示などを行うことにより、多数の専門家の
高度な知識を有効に利用した信頼性の高い保守・管理を
容易に行うことが可能となる。
第4図は、障害情報の統計・分析結果例を示す。
これは、障害情報3を検索し、あるユーザが持つ計算機
システムに対して月単位に同じフラグコードを持つエラ
ーの発生頻度を集計したものである。
フラグコードは、上位から図示のように装置、区分、小
分類・・・などように実際の箇所に1対1に関係づけら
れたコードである。従って、このフラグコードが同一の
ものは、同じ箇所で同じエラーが発生していることを意
味しているので、同一フラグコードのものが月単位に何
回発生していたかを集計することにより、図示件数が求
められる。
第5図はルール例(その1)ないしルール例(その4)
を示す、これらは、それぞれ図示のように第2図ユーザ
a1ユーザbおよび遠隔保守センタの技術者の専門的知
識をルールの形式で表現したものである0例えば第5図
ルール例(その4)に記載するルールDは、センタ技術
者の専門的知識をルール化したものであって、上段の矩
形の中に記載する“フラグコード=54000001が
2ケ月以内に10回以上発生したら(条件、IF)、そ
のときには(THEN)、メモリアレイカードを交換す
る9というIF−THEN形式で記載したものである。
これを計算機システムにおける内部形式で表すと、下段
のようになる。ここで、フラグコードが5400000
1”、期間が“2ケ月”、月頻度が“10回以上”、原
因が“リカバシ障害が10回以上発生しているメモリア
レイカードの交換を行う゛という内部形式表現を第4図
統計分析結果に適用する場合について説明する。まず、
フラグコードコード“54000001″に対応する頻
度が2ケ月前、1ケ月前、当月について、1件、6件、
5件とそれぞれ検索される0次に、これら検索された件
数に対して、期間°2ケ月”および月頻度“10回以上
”を適用し、この条件が成立するのは、下式(1)から
1ケ月前および当月の場合である。
6件+5件−11件〉10件・・・・・・・(1)従っ
て、第6図解析結果例としてルールDの解析結果に示す
ように端末に表示あるいは印字する。
第6図は解析結果例を示す、これは、第4図統計分析結
果例に対して第5図ルール例を適用した時に得られた解
析結果例である。上段のユーザ“78000001″は
、ユーザIDである。下段のルールDの解析結果は、既
述したように、第4図統計分析結果例に対して第5図ル
ールDを適用した時の解析結果例を表す、また、ルール
Bの解析結果例は、第4図統計分析結果例に対して第5
図ルールBを適用した時の解析結果例を表す。
以上のように、障害情報3を検索して統計分析した結果
に対して、専門家の知識である第5図ルール例を適用す
ることにより、第6図解析結果例が得られ、信頼性の高
い障害診断を容易に行うことが可能となる。
〔発明の効果〕
以上説明したように、本発明によれば、障害情報3を検
索して過去に発生したエラー情報の頻度を求め、これに
対して全ての専門家の高度の知識を集約したルール群9
を適用して障害解析する構成を採用しているため、信頼
性の高い診断結果を容易に得ることができる。
【図面の簡単な説明】
第1図は本発明の1実施例構成図、第2図は遠隔保守セ
ンタの説明図、第3図は本発明の動作説明フローチャー
ト、第4図は障害情報の統計分析結果例、第5図はルー
ル例、第6図は解析結果例を示す。 図中、1は各地ユーザ、2は遠隔保守センタ、3は障害
情報、4はエキスパートシステム、5は統計・分析部、
6は追加・更新部、7は解析部、8は保存部、9はルー
ル群、9−1は保存ファイルを表す。 障害情報の統計分析結果例 第   4   図 (イ) ルール例(その1) 第   6  図 (ロ) ルール例(その2) 第   6   図 (ハ) ルール例(その3) 第   5   図

Claims (1)

  1. 【特許請求の範囲】 計算機システムの障害を解析して診断する障害解析診断
    方式において、 計算機システムに発生した過去のエラー情報をエラー発
    生装置に対応づけて収集した障害情報(3)と、 この障害情報(3)を検索して各ユーザ毎、月毎、エラ
    ー発生装置毎などのエラー発生頻度の統計・分析を行う
    統計・分析部(5)と、 この統計・分析部(5)によって統計・分析した結果に
    対して、適用して解析結果を生成するルール群(9)と
    を備え、 このルール群(9)を上記統計・分析した結果に対して
    適用し、解析結果を生成して表示などするように構成し
    たことを特徴とする障害解析診断方式。
JP63149842A 1988-06-17 1988-06-17 障害解析診断方式 Pending JPH01316839A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63149842A JPH01316839A (ja) 1988-06-17 1988-06-17 障害解析診断方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63149842A JPH01316839A (ja) 1988-06-17 1988-06-17 障害解析診断方式

Publications (1)

Publication Number Publication Date
JPH01316839A true JPH01316839A (ja) 1989-12-21

Family

ID=15483847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63149842A Pending JPH01316839A (ja) 1988-06-17 1988-06-17 障害解析診断方式

Country Status (1)

Country Link
JP (1) JPH01316839A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム
WO2014068659A1 (ja) * 2012-10-30 2014-05-08 株式会社日立製作所 管理計算機およびルール生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856158A (ja) * 1981-09-30 1983-04-02 Fujitsu Ltd 遠隔保守方式
JPS62133850A (ja) * 1985-12-05 1987-06-17 Nec Corp 電子装置診断保守装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856158A (ja) * 1981-09-30 1983-04-02 Fujitsu Ltd 遠隔保守方式
JPS62133850A (ja) * 1985-12-05 1987-06-17 Nec Corp 電子装置診断保守装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム
WO2014068659A1 (ja) * 2012-10-30 2014-05-08 株式会社日立製作所 管理計算機およびルール生成方法
JPWO2014068659A1 (ja) * 2012-10-30 2016-09-08 株式会社日立製作所 管理計算機およびルール生成方法

Similar Documents

Publication Publication Date Title
JP6828096B2 (ja) サーバハードウェア障害の分析及びリカバリ
US6795935B1 (en) Diagnosis of faults in a complex system
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
US8352867B2 (en) Predictive monitoring dashboard
US5287505A (en) On-line problem management of remote data processing systems, using local problem determination procedures and a centralized database
CN107810500A (zh) 数据质量分析
CN107220178A (zh) 一种服务器诊断测试结果准实时展现的方法
DE10249644A1 (de) Softwareabsturzereignisanalyseverfahren und -system
US20050188269A1 (en) System and method for providing a health model for software
US7162390B2 (en) Framework for collecting, storing, and analyzing system metrics
CN113190415A (zh) 互联网医院***监控方法、设备、存储介质及程序产品
CN114416826A (zh) 一种设备点检数据统计方法、分析方法及计算机存储介质
Li et al. Detecting user-visible failures in AJAX web applications by analyzing users' interaction behaviors
JP2002092256A (ja) 医療スタッフのトレーニングのニーズの自動識別
JP2017016507A (ja) テスト管理システムおよびプログラム
JP5746565B2 (ja) 保守管理システム、作業優先順位算出方法およびプログラム
Bodık et al. Advanced tools for operators at Amazon. com
CN116560893B (zh) 一种计算机应用程序运行数据故障处理***
JP4502535B2 (ja) ソフトウエア品質検査支援システム及び方法
CN117114412A (zh) 一种用于危险化学品生产企业的安全预控方法及装置
JPH01316839A (ja) 障害解析診断方式
DE112016004038T5 (de) Referenzstundenüberwachung für maschinenwartung
CN110764909A (zh) 一种用于云计算平台的存储设备的负载均衡的方法和***
CN111143304A (zh) 一种基于请求链路的微服务***异常日志分析方法
JP3867868B2 (ja) 障害統合管理装置