JP4648961B2 - 装置メンテナンスシステム、方法および情報処理装置 - Google Patents

装置メンテナンスシステム、方法および情報処理装置 Download PDF

Info

Publication number
JP4648961B2
JP4648961B2 JP2008078576A JP2008078576A JP4648961B2 JP 4648961 B2 JP4648961 B2 JP 4648961B2 JP 2008078576 A JP2008078576 A JP 2008078576A JP 2008078576 A JP2008078576 A JP 2008078576A JP 4648961 B2 JP4648961 B2 JP 4648961B2
Authority
JP
Japan
Prior art keywords
maintenance
control unit
failure
maintenance data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008078576A
Other languages
English (en)
Other versions
JP2009230700A (ja
Inventor
恵太 堀越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008078576A priority Critical patent/JP4648961B2/ja
Priority to US12/407,936 priority patent/US8032789B2/en
Publication of JP2009230700A publication Critical patent/JP2009230700A/ja
Application granted granted Critical
Publication of JP4648961B2 publication Critical patent/JP4648961B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、装置で発生する障害をメンテナンスする装置メンテナンスのためのシステム方法および情報処理装置に関し、特に装置のメンテナンスデータを集中管理する装置メンテナンスのためのシステム方法および情報処理装置に関する。
一般に、製品あるいは装置の企画開発時、製造時、顧客先での稼動時のいずれにおいても、さまざまな不具合、故障、エラーなどの障害が発生し、その都度解決されている。障害には、例えば製品の開発部門での設計不良、製造工場での初期不良あるいはロット不良、顧客フィールドでの顧客環境特有の不良あるいは経年不良などがある。障害はそれぞれ、発生した場所でそれぞれ解決されるが、障害の解決策、解決のためのノウハウは共有されることはなかった。したがって、発生した障害が、工場では既知の障害であっても、顧客先で発生した場合、顧客先の担当者は、適切な保守手順を見つけることができず、復旧に時間を要してしまう場合があった。また、問合せを受けたサポート担当者が誤った解決策を指示してしまうこともあった。
さらにファームウェアで制御される装置では、ネットワークを介してリモートメンテナンスセンタに接続して、装置を監視することが行われているが、装置に最新のメンテナンスデータが集約されていないので、装置で発生した障害の対策を装置の担当者で解決できないということもあった。
なお、従来においては、複写機のデータを自動的に収集してセンターで管理するシステムであって、センターで作業指針を自動的に出力するシステムが提案されている(特許文献1参照)。また、ネットワークに接続された電気製品について故障した回路を特定する故障診断情報を各戸から送信し、顧客情報や製品情報を管理する保守修理サービスセンターで電気製品の故障診断を行うシステムに用いられる、保守サービス要員が携帯する電気製品故障分析用の情報取得ツールであって、電気製品の故障の分析に有用な詳細情報を取得するものが提案されている(特許文献2参照)。さらに、製品の開発・設計、製品の生産・出荷および市場における製品の流通に至る一連のライフプロセスにおいて発生する品質不良を一元管理することが提案されている(特許文献3参照)。さらに、複数の部門間を結合する情報通信ネットワークにおける知識情報ネットワークにおける知識情報管理方法であって、対照データベースを構築し、該対照データベースを参照して登録されている知識や情報を利用可能にする窓口を、情報通信ネットワーク上に設けることが提案されている(特許文献4参照)。
特開平5−61283号公報 特開2002−83118公報 特開2002−109138号公報 特開2004−21942
上述の問題に鑑み、最新のメンテナンスデータを集約して保持し、装置に最新のメンテナンスデータを反映させることができる装置メンテナンスシステム装置メンテナンス方法、情報処理装置が提供される。
本システムによれば、第1の制御部と該第1の制御部とは独立した第2の制御部を備える装置と、前記装置のメンテナンスデータを管理するメンテナンスデータ管理サーバと、を備え、前記第1の制御部は前記装置を制御し、エラー発生時には、前記メンテナンスデータに基づくエラー処理論理により処理結果を得て、メンテナンスの手順を生成し、前記第2の制御部は、前記メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、前記第1の制御部から転送されるメンテナンス結果を前記メンテナンスデータ管理サーバに送信し、かつ正常時にはメンテナンスデータに含まれるログ解析論理に従って装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出して部品の障害発生を予測するとともに、エラー発生時には前記第2の制御部はログ解析を行い前記第1の制御部による処理結果の妥当性をチェックする装置メンテナンスシステムが提供される。
本方法によれば、第1の制御部と該第1の制御部とは独立した第2の制御部を備える装置と、前記装置のメンテナンスデータを管理するメンテナンスデータ管理サーバと、
を備える装置メンテナンスシステムの装置メンテナンス方法であって、前記第2の制御部は、前記メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、前記第1の制御部は前記装置を制御し、エラー発生時には、前記メンテナンスデータに基づくエラー処理論理により処理結果を得て、メンテナンス手順を生成し、前記第1の制御部は、メンテナンス終了後、メンテナンス結果を前記第2の制御部に転送し、前記第2の制御部は、転送された前記メンテナンス結果を前記メンテナンスデータ管理サーバに送信し、前記第2の制御部は、正常時には、装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出し、部品の障害発生を予測するとともに、エラー発生時には前記第2の制御部はログ解析を行い前記第1の制御部による処理結果の妥当性をチェックする装置メンテナンス方法が提供される。
本装置によれば、情報処理装置であって、前記情報処理装置を制御する第1の制御部と、前記第1の制御部とは独立した第2の制御部を備え、前記第1の制御部は、エラー発生時には、前記メンテナンスデータに基づくエラー処理論理により処理結果を得て、メンテナンスの手順を生成し、前記第2の制御部は、メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、前記第1の制御部から転送されるメンテナンス結果を前記メンテナンスデータ管理サーバに送信し、かつ正常時にはメンテナンスデータに含まれるログ解析論理に従って装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出して部品の障害発生を予測するとともに、エラー発生時には前記第2の制御部はログ解析を行い前記第1の制御部による処理結果の妥当性をチェックする情報処理装置が提供される。
本システム方法あるいは情報処理装置では、最新のメンテナンスデータを集約して保持することができ、装置に最新のメンテナンスデータを反映させることができる。
以下、図面を参照して、実施の形態を説明する。
図1は、本実施形態の装置メンテナンスシステム10の全体構成を示す図である。
装置メンテナンスシステム10において、監視および保守の対象はRAID(Redundant Arrays of independent or inexpensive drives)装置1である。RAID装置1は、複数のハードディスクを並べたディスクアレイ装置であって、装置構成に冗長性をもたせて、信頼性を高めて動作させるものである。RAID装置1は、RAID装置本体を制御するRAIDコントローラ11と、RAID装置1とは独立して動作するサービスプロセッサ(SVP)12を有している。サービスプロセッサ12は、インターネットのような通信ネットワークを介して装置メンテナンスシステム10に接続している。
装置メンテナンスシステム10には、通常は複数のRAID装置が接続されていて、それぞれが装置メンテナンスシステム10の監視および保守の対象となっている。図1では、複数のRAID装置のうちの1台をRAID装置1として示している。メンテナンス対象であるRAID装置は単なる一例であり、CPUあるいはMPUなどで制御される装置であれば、サーバあるいは家電製品などどのような装置にも適用できる。
サーバで構成されるメンテナンスデータ管理センタ2は、装置の研究開発段階、製造段階、稼動段階などで発生した障害について、障害とその対策とを一括して集中的に管理するセンタであり、被疑個所、保守手順、各種レポートなどを格納し、オンタイムで登録あるいは更新されるメンテナンスデータベース21を備えている。メンテナンスデータ管理センタ2は、インターネットを介して、さらに装置1の開発に関わる開発評価部門3、装置1を製造する製造工場4、装置のサポートに関わる事業部/サポート部門5と接続されている。
開発評価部門3および製造工場4は、それぞれ自部門で発生した障害データを蓄積する障害データベース31、41を有している。開発評価部門3あるいは製造工場4で障害が発生すると、障害データベース31または41に障害データが格納されるともに、事業部/サポート部門5に通知され集約される。
事業部/サポート部門5は、メンテナンスデータ管理センタ2のメンテナンスデータベース21に、集約された障害データを登録する。障害が解決されると、事業部/サポート部門5は、メンテナンスデータベース21に障害原因、部品交換手順などの解決手順さらには関連情報、参考資料などを登録する。
サーバで構成されるリモートメンテナンスセンタ7は、インターネットを介して、RAID装置1に接続され、RAID装置1を常時監視している。リモートメンテナンスセンタ7は、メンテナンスデータ管理センタ2とインターネットを介して接続され、メンテナンスデータ管理センタ2から既知障害データを受信して更新する既知障害データベース71を備えている。また、リモートメンテナンスセンタ7は、メンテナンスデータ管理センタ2に対して装置メンテナンスシステム10に接続されているすべてのRAID装置の機種、設置場所等の接続情報を送信することができる。
図1では、リモートメンテナンスセンタ7はメンテナンスデータ管理センタ2と独立して構成されているが、リモートメンテナンスセンタ7とメンテナンスデータ管理センタ2と一体に構成することもできる。
図2は、メンテナンスデータ管理センタの登録監視機能を説明する図である。
メンテナンスデータ管理センタ2は、発生した障害や保守作業の結果の登録漏れをなくすための登録監視機能22を備えることもできる。前述のように、発生した障害は、発生した個所でデータベース化されるとともに、メンテナンスデータ管理センタ2に通知される。しかしながら、この登録監視機能22は、各所の障害データベースに蓄積されている障害履歴の変更を監視して、変更があるとメンテナンスデータベース21に追加してゆくものである。さらに、発生した障害に対して、障害原因、保守手順などが未登録である場合、事業部/サポート部門5に登録を督促することができる。なお、後述するが、RAID装置1のような装置では、既知障害は、サービスプロセッサ12により障害原因、保守手順などが登録される。未知障害の場合は、参照データがないので、事業部/サポート部を介して障害原因、保守手順などが登録される。
図2の障害履歴Aは、RAID装置1のような装置あるいはフィールドにおいて、保守員が障害を登録する障害履歴である。障害履歴Aは、保守員の作業履歴データベースに格納される。障害履歴Bは、開発/評価部門の障害データベース31に格納される障害履歴である。障害履歴C、製造工場4では障害データベース41をに格納される障害履歴である。
障害履歴A〜Cには、それぞれのキー番号、障害が発生した日時、ユーザ名、障害の事象などが記録されている。メンテナンスデータ管理センタ2では、障害履歴A〜Cを監視し、キー番号が追加されると、メンテナンスデータベース21に追加されたキー番号のデータを登録する。
事業部/サポート部門5は、各所で発生した未知障害に対して、障害原因を特定できるログ情報、障害原因、障害を復旧した手順などのメンテナンスデータをメンテナンスデータベース21にEメールあるいはWebフォームにより登録する。
登録監視機能は、事業部/サポート部門5に対して、定期的に例えば毎日、未知障害に対する未登録のメンテナンス作業結果に関するデータについて登録の催促を行う。登録を催促することにより発生した障害に対するメンテナンス作業結果の未登録を解消することができる。
メンテナンスデータ管理センタ2は、事業部/サポート部門5からの作業結果に基づいて、例えば1週間ごとに発生した障害とその対策についての統計あるいは分析などを関係各所に配信することもできる。
図3は、メンテナンスデータベースに格納される各種資料を登録するサブテーブルを説明する図である。
故障した部品の品質情報、故障解析結果、および顧客への報告などの技術資料は、保守作業やサポート作業に有用である。メンテナンスデータベース21のサブテーブル211により、これらの技術資料をメンテナンスデータ管理センタに登録しておくことができる。
資料ごとに資料番号が与えられ、当該資料の検索のための分類、キーワード、資料が作成された対象であるメンテナンスデータベースの番号、格納場所を示すアドレスが格納される。サブテーブルの対象メンテナンスデータベースの番号によって、メンテナンスデータベースの当該番号にリンクされる。
RAID装置1の保守作業に際して、保守手順や被疑個所の提示のほか、障害事象や故障部品が既知のものであれば、関連する資料のリンクも合わせて表示する。したがって、保守員は、キーワード等を用いて資料を検索する必要がない。RAID装置1の保守員は現場で、メンテナンス管理センタ2から必要資料を入手できるので、早期に顧客報告を行うことができる。また、事業部における報告に際しても、メンテナンスデータベースの番号やキーワードから必要資料を入手することができる。さらに、品質資料も入手することができるので、保守員は、装置の全体品質と保守員が担当する装置との間に品質のずれがないかを監視でき、現場から事業部に的確に問題提起することもできる。
図4、5は、図1に示す装置メンテナンスシステムの動作のフローを示す図である。
RAID装置1で障害が発生する(S1)と、まずリモートメンテナンスセンタ7に障害の発生が通知される(S2)。リモートメンテナンスセンタ7に通知された障害は、既知障害データベース71に蓄積されているデータと比較される(S3)。発生した障害と同一事例が既知障害データベース71に見つかれば既知障害と判断して、リモートメンテナンスセンタ7は事業部/サポート部門5に既知障害の発生を通知する(S4)。発生した障害が既知障害であると、後に詳しく説明するようにRAID装置1側の保守員が適正に処理することができるので、事業部/サポート部門5ではサポート要員の派遣などの特別の対応はしない。事業部/サポート部門5は、メンテナンスデータ管理センタ2に今回の既知障害の発生を登録する(S5)。
RAID装置1で発生した障害が、既知障害データベース21に格納されている既知障害と一致しない場合未知の障害と判断されるので、リモートメンテナンスセンタ7は未知の障害の発生を事業部/サポート部門5に報告する(S6)。発生した障害が未知の障害であるので、事業部/サポート部門5は、事業部員あるいはサポート部員を現場に急行させ、現場の保守員とともに復旧にあたることを含む特別なバックアップ体制をとる(S7)。また、事業部/サポート部門5は、メンテナンスデータ管理センタに未知障害の発生を登録する(図5:S8)。なお、事業部とサポート部門は一体となって障害に対応してもよいし、まずサポート部門が対応し、サポート部門で解決が付かない場合に事業部が対応するということでもよい。
未知の障害に対して保守作業が行われると、RAID装置1から、保守作業の実施とその結果すなわち成功か否かがメンテナンスデータ管理センタ2へ通知される(S9)。
メンテナンスデータ管理センタ2では、障害が発生するたびに保守作業の成否がカウントされ、統計情報として蓄積されている。したがって、得られた通知された保守作業の実施とその結果を、登録されている他のデータとともに分析することができる。分析結果は、同様な障害が発生した場合の保守作業を選択する場合などに活用する。例えば多くの保守作業のうち成功した回数の多い保守作業の優先順位を上げてゆき、第1の優先順位の手順を最適手順とすることができる。分析の結果、保守手順あるいは被疑個所に変更があれば、メンテナンスデータベースを更新する(S10)。
メンテナンスデータベース21が更新されると、メンテナンスデータ管理センタ2からリモートメンテナンスセンタ7へ更新データがアップロードされ、リモートメンテナンスセンタ7の既知障害データベース71は更新される(S11)。この結果、既知障害データベース71は常に最新の状態を維持する。
RAID装置1は、定期的にメンテナンスデータ管理センタ2より最新のメンテナンスデータをダウンロードして、保持するメンテナンス情報を常に最新のものとする(S12)。
未知の障害が解決し新規にメンテナンスデータが作成された場合は、緊急性が高いので、メンテナンスデータ管理センタ2は、リモートメンテナンスセンタ7から取得する接続装置データを基に、システムに接続されているすべての装置に対してメンテナンスデータを一斉配信することもできる。
図6は、RAID装置1のRAIDコントローラ11とサービスプロセッサ12を説明する図である。サービスプロセッサ12は、RAID装置1とは独立して動作する。サービスプロセッサ12は、インターネットを介してメンテナンスデータ管理センタ2およびリモートメンテナンスセンタ7(図1参照)に接続するともに、RAID・CPUインタフェース127を介してRAIDコントローラ11に接続している。さらに、サービスプロセッサ12は、ログを格納するハードディスク129を備える。
RAID装置を制御するRAIDコントローラ11は、ボード上に搭載されたRAID−CPU13、メインメモリ15と、サービスプロセッサ12に対する通信のためのSVPインタフェース17を有している。メインメモリ15は、RAID装置を制御するためのファームウェアと、RAID装置1の保守のためのメンテナンスデータと、アプリケーションなどに用いられるユーザデータが格納される。RAIDコントローラ11は、SVPインタフェース17を介して、サービスプロセッサ12に接続される。
RAIDコントローラ11は、データおよびログを記録するハードディスク19に接続され、RAID・CPU13によってハードディスク19に格納されたデータおよびログにアクセスすることができる。ログは、RAID装置1の処理の記録であり、障害の原因を究明するときなどに参照される。ログはハードディスク19に記録されているので、ログを格納する容量に心配はなく、長期にわたってすべてのログを残しておくことができる。図6では、データを格納するハードディスクとログを格納するハードディスクを別個に示すが、単一のハードディスクであってもよい。
さらに、RAID装置1は表示部18を備え、表示部18にはRAIDコントローラ11あるいはサービスプロセッサ12による障害原因および保守手順あるいはログ解析結果を表示することができる。表示部18は、RAID装置1のコンソールや保守端末でもよく、さらに保守員の携帯電話等の携帯端末の表示画面でもよい。
図7は、サービスプロセッサの機能を説明する図である。サービスプロセッサ12の制御素子であるマイクロプロセッサ(MPU)121が、サービスプロセッサ12を構成する素子間のデータ管理を行うチップセット124を介して、フラッシュROM(Read Only Memory)122およびメモリ123と接続されている。チップセット124は、一方ではインターネットインタフェース125に接続され、他方ではバスブリッジ126を介して、RAID・CPUインタフェース127に接続される。チップセット124はさらに、ハードディスクドライブ・インタフェース128を介して、ログ保存用のハードディスク129に接続される。
サービスプロセッサ12は、インターネットインターフェース25を介してインターネットに接続し、メンテナンスデータ管理センタ2やリモートメンテナンスセンタ7に対してデータの送受信が可能である。また、サービスプロセッサは、RAID・CPUインタフェース127を介してRAIDコントローラ11に対してデータの送受信が可能である。
サービスプロセッサ12のフラッシュROM122には、サービスプロセッサ12用のファームウェアが格納されている。メモリ123は、サービスプロセッサ用ファームウェアの動作を行うためのデータを格納している。また、メモリ123は、サービスプロセッサとRAID・CPUとの間で送受信されるデータのキャッシュとして動作し、さらにメンテナンスデータ管理センタ2からの受信データのバッファとしても動作する。RAIDコントローラ11のログは、RAID・CPUインタフェース127、ハードディスクドライブ・インタフェース128を経由してハードディスク129に転送され、蓄積される。したがって、RAIDコントローラ11がダウンしたときも、直前までのログはハードディスク129に格納される。したがって、サービスプロセッサ12がRAID装置とは独立して動作することにより、ダウンしたRAID装置のログを解析することができる。
図8、9は、装置に発生した障害を当該装置により保守する際の処理を示すフローである。
サービスプロセッサ12は定期的に、メンテナンスデータ管理センタ2にアクセスして、メンテナンスデータに追加あるいは変更があるか否かを判定する。メンテナンスデータに追加あるいは変更があれば、追加あるいは変更分すなわちメンテナンスデータの差分データをメモリ123にダウンロードする(S21)。
ダウンロードされるメンテナンスデータには、事業部や工場で障害の起きた製品を診断して判明した故障モードと故障素子データ、さらにRAID装置1および装置メンテナンスシステム10に接続される他のRAID装置で発生した障害に関する故障モードと故障素子データが含まれている。また、障害検出論理に関係する障害の重みあるいは障害判定の閾値などの変更があった場合も、メンテナンスデータとしてダウンロードされる。
ダウンロードした後、サービスプロセッサの制御データなどサービスプロセッサ12専用のメンテナンスデータがあれば、フラッシュROM122へ書き込む。
サービスプロセッサでの処理が終了すれば、サービスプロセッサは、RAID・CPUインタフェース127を介して、ダウンロードされたデータをRAIDコントローラ11に転送する(S22)。
転送されたデータは、RAID処理に影響を与えるデータではないので、RAIDコントローラ11が活性の状態で、RAIDコントローラ11のメインメモリ15のメンテナンスデータ領域に展開される。なお、エラー判定論理に変更が合った場合も、メンテナンスデータ領域に展開されて機能する。この結果、RAID装置1が稼働中にエラー処理論理を更新することができるので、常に最新のエラー処理論理を使用することができる。なお、旧データが不要になった場合は、その領域をユーザデータ領域として開放する。
ービスプロセッサ12側では、メンテナンスデータとしてダウンロードされているログ解析論理に従って、ハードディスク129に転送されているRAIDコントローラのログについて解析を行う(S23)。次いで、サービスプロセッサ12は、ログ解析で得られた統計、保守履歴、ログ解析結果を、ハードディスク129に格納する(S24)。
エラーイベントが発生する(S25)と、RAIDコントローラ11では、メインメモリ15のメンテナンスデータ領域にあるイベント処理関数がファームウェアからコールされて、新しいエラー処理論理によりエラーが判定され、一次処理結果を得る(S26)。
ダウンロードされるメンテナンスデータには、これまでのすべての障害について故障モードデータと故障素子データが含まれている。したがって、RAID装置1で発生した障害が既知障害であれば、RAIDコントローラ11は、得られた一次処理結果により故障部品を判定することができる(S27)。ここで、故障素子とは、部品に含まれる電子素子をいい、故障部品とは、素子を含む故障モジュールをいう。
他方、サービスプロセッサ12は、エラーの発生に伴い追加されたログを解析する(S28)。ログ解析の結果およびメンテナンススデータにより、サービスプロセッサ12は、RAID・CPU13の一次処理結果の妥当性をチェックする(S29)。これにより、RAID・CPU13の判定結果を補完することができ、精度を上げることができる。
故障部品が特定されると、RAID・CPU13は、メンテナンスデータに基づいて交換手順を出力し、表示部18に提示する(S30)。RAID装置の保守員は、表示部18に表示された手順に従って最適なメンテナンスを実行することができる(S31)。
RAID・CPU13は、特定された故障モードと故障素子について、システム構成情報や障害のクリティカル度を考慮して、装置の冗長度・信頼度が充分高いと判断すると、RAID装置1が活性の期間に保守する必要がないとして、RAID装置を停止した後の保守手順も選択肢として表示装置18に提示する。この場合、保守員は、装置に影響を与えるリスクが少ない装置停止後の保守を選択することができる。
メンテナンスが終了すると、エラーの重大度を示すエラー重度、あるいはエラーに応じた重みを加算して作られる統計加点などのエラー処理判定結果がファームウェアへコールバックされる。さらに、RAIDコントローラ11は、作業が成功したか、失敗したかを含む保守作業結果をサービスプロセッサ12に送信し、サービスプロセッサ12は、メンテナンスデータ管理センタへフィードバック情報として保守作業結果を通知する(S32)。
最後に、本システムでは、最新のメンテナンスデータで故障素子を特定することができ、関連資料も参照できるので、後日の検討を待つ必要がない。したがって、保守員は、その場でユーザへの初期報告を作成することができる(S33)。
図10は、サービスプロセッサ12の平常時のログ解析のフローを示す図である。
RAID装置1から独立しているサービスプロセッサ12は、RAID装置1が稼動中に、ダウンロードされた最新のメンテナンスデータを参照して、RAID装置1の内部ログを解析することができる。
まず、サービスプロセッサ12は、RAID装置1が正常に稼働中に、ハードディスク129が保持している今までのログを解析し、障害履歴や部品交換履歴を抽出する(S41)。
次に、抽出された障害履歴や部品交換履歴のある部品と現在稼動中の部品とを照らしあわせる(S42)。その結果、障害履歴のある部品あるいは所定期間以上交換されていない部品が発見されると、障害予防のための交換対象としてRAIDコントローラ11に通知する(S43)。
さらに、複数の部品に関係する故障が発生していた場合で複数の部品のうちに未交換部品がある場合も、未交換部品を予防交換対象としてRAIDコントローラ11に通知する(S44)。
本実施形態によれば、顧客の装置にとっては新規な障害でも、開発部門や製造工場で既知の障害であれば、ダウンロードされるメンテナンスデータを用いて故障モードと故障素子を容易に特定することができる。また、マニュアル化しにくい保守手順であってもマニュアル化されている保守手順と同様、故障部品の交換手順を装置のコンソールや保守端末あるいは保守員の携帯端末へ出力し、保守員は最適な手順に従って作業ができる。
装置から独立しているサービスプロセッサにより最新のメンテナンスデータを参照して装置の内部ログを解析するので、平常時の正確な障害予兆解析が可能である。さらに、RAID装置がダウンしてRAID−CPUによるエラー処理が行われない場合でも、サービスプロセッサがログ解析を行うことにより障害部品を特定することができる。ログもハードディスクに格納されるので、長期間のログを蓄積することができる。
また、インターネットあるいは他の通信回線を介してセンタに問合せをして故障部品を特定するのでなく、装置側にデータをダウンロードして装置側で判断するので、迅速な対応が可能である。
本システムにおいては、装置は保守イベント毎にメンテナンスデータ管理センタへ保守成功あるいは失敗の結果を送信することで、成功事例と失敗事例を同時に集約し、即時にメンテナンスデータへ反映することができる。
本システムでは、すべての既知障害データが集中管理され、個々の装置に配信されるので、障害の実績データからの統計情報、および技術的分析による推測、さらには保守作業のノウハウが短期間で反映される。したがって、故障部品の特定が困難な複数の部品間の障害であっても、故障発生時において最適な保守作業を提示することができる。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1の制御部と該第1の制御部とは独立した第2の制御部を備える装置と、
前記装置のメンテナンスデータを管理するメンテナンスデータ管理サーバと、
を備え、
前記第2の制御部は、前記メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、前記第1の制御部から転送されるメンテナンス結果を前記メンテナンスデータ管理サーバに送信する装置メンテナンスシステム。
(付記2)
前記第1の制御部は、前記転送されたメンテナンスデータに基づいて、メンテナンスの手順を生成する付記1に記載の装置メンテナンスシステム。
(付記3)
前記第2の制御部は、装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出し、部品の障害発生を予測する付記2に記載の装置メンテナンスシステム。
(付記4)
前記メンテナンスデータ管理サーバから既知障害データを受信する既知障害データベースを有するリモートメンテナンス・サーバを備え、前記装置で障害が発生すると、前記リモートメンテナンス・サーバに通知され、リモートメンテナンス・サーバで既知障害データとの比較が行われ、既知の障害か未知の障害かが判定される付記1〜3のいずれか1項に記載の装置メンテナンスシステム。
(付記5)
前記メンテナンスデータ管理サーバは、ネットワークを介して接続された障害データベースにアクセスして障害データを収集する付記1〜4のいずれか1項に記載の装置メンテナンスシステム。
(付記6)
第1の制御部と該第1の制御部とは独立した第2の制御部を備える装置と、
前記装置のメンテナンスデータを管理するメンテナンスデータ管理サーバと、
を備える装置メンテナンスシステムの装置メンテナンス方法であって、
前記第2の制御部は、前記メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、
前記第1の制御部は、前記メンテナンスデータに基づいてメンテナンス手順を生成し、 前記第1の制御部は、メンテナンス終了後、メンテナンス結果を前記第2の制御部に転送し、
前記第2の制御部は、転送された前記メンテナンス結果を前記メンテナンスデータ管理サーバに送信する装置メンテナンス方法。
(付記7)
前記第2の制御部は、装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出し、部品の障害発生を予測する付記6に記載の装置メンテナンス方法。
実施形態である装置メンテナンスシステムを示す図である。 メンテナンスデータ管理センタの登録監視機能を説明する図である。 メンテナンスデータベースに格納される各種資料を登録するサブテーブルを説明する図である。 装置メンテナンスシステムの処理(その1)を説明する図である。 装置メンテナンスシステムの処理(その2)を説明する図である。 RAID装置のRAIDコントローラとサービスプロセッサとの関係を説明する図である。 サービスプロセッサの構成の概要を説明する図である。 サービスプロセッサとRAIDコントローラの動作のフロー(その1)を示す図である。 サービスプロセッサとRAIDコントローラの動作のフロー(その2)を示す図である。 サービスプロセッサの平常時のログ解析の処理フローを示す図である。
符号の説明
10 装置メンテナンスシステム
1 RAID装置
11 RAIDコントローラ
12 サービスプロセッサ
18 表示部
19 ハードディスク
2 メンテナンスデータ管理センタ
3 開発評価部門
4 製造工場
5 事業部/サポート部門
7 リモートメンテナンスセンタ

Claims (6)

  1. 第1の制御部と該第1の制御部とは独立した第2の制御部を備える装置と、
    前記装置のメンテナンスデータを管理するメンテナンスデータ管理サーバと、
    を備え、
    前記第1の制御部は前記装置を制御し、エラー発生時には、前記メンテナンスデータに基づくエラー処理論理により処理結果を得て、メンテナンスの手順を生成し、
    前記第2の制御部は、前記メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、前記第1の制御部から転送されるメンテナンス結果を前記メンテナンスデータ管理サーバに送信し、かつ正常時にはメンテナンスデータに含まれるログ解析論理に従って装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出して部品の障害発生を予測するとともに、エラー発生時には前記第2の制御部はログ解析を行い前記第1の制御部による処理結果の妥当性をチェックする装置メンテナンスシステム。
  2. 前記第1の制御部はメモリを備え、前記転送されたメンテナンスデータは、第1の制御部が活性の状態で前記第1の制御部の前記メモリのメンテナンスデータ領域に展開される請求項1に記載の装置メンテナンスシステム。
  3. 前記メンテナンスデータ管理サーバから既知障害データを受信する既知障害データベースを有するリモートメンテナンス・サーバを備え、前記装置で障害が発生すると、前記リモートメンテナンス・サーバに通知され、リモートメンテナンス・サーバで既知障害データとの比較が行われ、既知の障害か未知の障害かが判定される請求項1または請求項2に記載の装置メンテナンスシステム。
  4. 第1の制御部と該第1の制御部とは独立した第2の制御部を備える装置と、
    前記装置のメンテナンスデータを管理するメンテナンスデータ管理サーバと、
    を備える装置メンテナンスシステムの装置メンテナンス方法であって、
    前記第2の制御部は、前記メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、
    前記第1の制御部は前記装置を制御し、エラー発生時には、前記メンテナンスデータに基づくエラー処理論理により処理結果を得て、メンテナンス手順を生成し、
    前記第1の制御部は、メンテナンス終了後、メンテナンス結果を前記第2の制御部に転送し、
    前記第2の制御部は、転送された前記メンテナンス結果を前記メンテナンスデータ管理サーバに送信し、
    前記第2の制御部は、正常時には、装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出し、部品の障害発生を予測するとともに、エラー発生時には前記第2の制御部はログ解析を行い前記第1の制御部による処理結果の妥当性をチェックする装置メンテナンス方法。
  5. 情報処理装置であって、
    前記情報処理装置を制御する第1の制御部と、
    前記第1の制御部とは独立した第2の制御部を備え、
    前記第1の制御部は、エラー発生時には、前記メンテナンスデータに基づくエラー処理論理により処理結果を得て、メンテナンスの手順を生成し、
    前記第2の制御部は、メンテナンスデータ管理サーバから前記メンテナンスデータをダウンロードして前記第1の制御部に転送し、前記第1の制御部から転送されるメンテナンス結果を前記メンテナンスデータ管理サーバに送信し、かつ正常時にはメンテナンスデータに含まれるログ解析論理に従って装置の障害の過去ログを解析し、装置の部品の障害履歴を抽出して部品の障害発生を予測するとともに、エラー発生時には前記第2の制御部はログ解析を行い前記第1の制御部による処理結果の妥当性をチェックする情報処理装置。
  6. 前記第1の制御部はメモリを備え、前記転送されたメンテナンスデータは、第1の制御部が活性の状態で前記第1の制御部の前記メモリのメンテナンスデータ領域に展開される請求項5に記載の情報処理装置。
JP2008078576A 2008-03-25 2008-03-25 装置メンテナンスシステム、方法および情報処理装置 Expired - Fee Related JP4648961B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008078576A JP4648961B2 (ja) 2008-03-25 2008-03-25 装置メンテナンスシステム、方法および情報処理装置
US12/407,936 US8032789B2 (en) 2008-03-25 2009-03-20 Apparatus maintenance system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008078576A JP4648961B2 (ja) 2008-03-25 2008-03-25 装置メンテナンスシステム、方法および情報処理装置

Publications (2)

Publication Number Publication Date
JP2009230700A JP2009230700A (ja) 2009-10-08
JP4648961B2 true JP4648961B2 (ja) 2011-03-09

Family

ID=41118969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008078576A Expired - Fee Related JP4648961B2 (ja) 2008-03-25 2008-03-25 装置メンテナンスシステム、方法および情報処理装置

Country Status (2)

Country Link
US (1) US8032789B2 (ja)
JP (1) JP4648961B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010165098A (ja) * 2009-01-14 2010-07-29 Seiko Epson Corp メンテナンス作業支援装置、メンテナンス作業支援方法、及びプログラム
JP5507683B2 (ja) * 2010-06-08 2014-05-28 株式会社日立製作所 保守作業事例収集装置、保守作業事例収集方法及び保守作業事例収集プログラム
US9086970B2 (en) * 2010-10-07 2015-07-21 International Business Machines Corporation Diagnosing entities associated with software components
JP5849491B2 (ja) * 2011-07-22 2016-01-27 富士通株式会社 ディスク制御装置、ディスク装置異常検出方法、及びプログラム
US20160179411A1 (en) * 2014-12-23 2016-06-23 Intel Corporation Techniques to Provide Redundant Array of Independent Disks (RAID) Services Using a Shared Pool of Configurable Computing Resources
JP6809185B2 (ja) * 2016-12-09 2021-01-06 株式会社リコー 情報処理システム、情報処理装置及びプログラム
JP7368713B2 (ja) * 2019-10-25 2023-10-25 株式会社バッファロー サービス提供システム、サーバ、サービス提供方法、及びサービス提供プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047905A (ja) * 1998-07-29 2000-02-18 Fujitsu Ltd 予防保守システム及び予防保守システムに接続された端末装置
JP2000137627A (ja) * 1998-10-27 2000-05-16 Hewlett Packard Co <Hp> 製品の使用中に生じる偶発的出来事の解決方法
JP2001338025A (ja) * 2000-05-30 2001-12-07 Nec Corp 評価管理を行う方法及び記録媒体
JP2003256367A (ja) * 2002-03-06 2003-09-12 Seiko Epson Corp 電子機器のエラーに関する情報提供システムおよび電気機器のエラー実績を管理するサーバ
JP2003271422A (ja) * 2002-03-18 2003-09-26 Fujitsu Ltd 予防保守判定処理方法、予防保守判定処理プログラム、および保守管理方法
JP2004038535A (ja) * 2002-07-03 2004-02-05 Sumisho Computer Systems Corp 障害対応システムおよびこれに用いるサーバ装置、障害対応プログラム
JP2004086719A (ja) * 2002-08-28 2004-03-18 Nec Fielding Ltd ネットワーク機器の保守システムおよび保守サービス提供方法
JP2007141007A (ja) * 2005-11-21 2007-06-07 Hitachi Ltd システム運用監視での障害時のサポートシステム化
JP2007156599A (ja) * 2005-12-01 2007-06-21 Fujitsu Ltd 補助記憶装置のデータ消去管理方法,補助記憶装置及び遠隔保守装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN155448B (ja) * 1980-03-19 1985-02-02 Int Computers Ltd
JPH0561283A (ja) 1991-08-30 1993-03-12 Minolta Camera Co Ltd 複写機管理方式
JPH0887423A (ja) * 1994-09-14 1996-04-02 Toshiba Corp ソフトウエアツールのトラブル対応支援システム
US5964891A (en) * 1997-08-27 1999-10-12 Hewlett-Packard Company Diagnostic system for a distributed data access networked system
JP3571515B2 (ja) 1997-12-19 2004-09-29 富士通株式会社 知識収集・格納・検索プログラムを記憶したコンピュータ読み取り可能な記憶媒体
US6216051B1 (en) * 1998-05-04 2001-04-10 Nec Electronics, Inc. Manufacturing backup system
US6145096A (en) * 1998-05-06 2000-11-07 Motive Communications, Inc. Method, system and computer program product for iterative distributed problem solving
JP2000057226A (ja) 1998-08-10 2000-02-25 Chubu Techno Express Kk 技術サービス用ネットワークシステム及び保守方法
US6477667B1 (en) * 1999-10-07 2002-11-05 Critical Devices, Inc. Method and system for remote device monitoring
JP3796645B2 (ja) 1999-10-08 2006-07-12 横河電機株式会社 入出力モジュールのオンラインメンテナンス方法
US6892317B1 (en) * 1999-12-16 2005-05-10 Xerox Corporation Systems and methods for failure prediction, diagnosis and remediation using data acquisition and feedback for a distributed electronic system
US6738811B1 (en) * 2000-03-31 2004-05-18 Supermicro Computer, Inc. Method and architecture for monitoring the health of servers across data networks
JP2002083118A (ja) 2000-09-06 2002-03-22 Toshiba Corp 電気製品故障分析用の情報取得ツール
JP2002109138A (ja) 2000-10-03 2002-04-12 Sharp Corp 品質改善システム、および品質改善方法
US6725405B2 (en) * 2001-03-15 2004-04-20 International Business Machines Corporation Apparatus and method for providing a diagnostic problem determination methodology for complex systems
US7065566B2 (en) * 2001-03-30 2006-06-20 Tonic Software, Inc. System and method for business systems transactions and infrastructure management
US7225245B2 (en) * 2001-08-09 2007-05-29 Intel Corporation Remote diagnostics system
US7111206B1 (en) * 2001-09-19 2006-09-19 Juniper Networks, Inc. Diagnosis of network fault conditions
EP1316886A1 (en) * 2001-11-28 2003-06-04 Sony International (Europe) GmbH Method for remotely diagnosing devices
JP2004021942A (ja) 2002-06-20 2004-01-22 Fujitsu Ten Ltd 知識情報管理方法
US7308492B2 (en) * 2002-10-02 2007-12-11 Sony Corporation Method and apparatus for use in remote diagnostics
US7444546B2 (en) * 2003-04-17 2008-10-28 Arm Limited On-board diagnostic circuit for an integrated circuit
US7313573B2 (en) * 2003-09-17 2007-12-25 International Business Machines Corporation Diagnosis of equipment failures using an integrated approach of case based reasoning and reliability analysis
US7290172B2 (en) * 2003-12-16 2007-10-30 Intel Corporation Computer system maintenance and diagnostics techniques
US7386761B2 (en) * 2004-04-16 2008-06-10 International Business Machines Corporation Diagnostic repair system and method for computing systems
US7395458B2 (en) * 2004-05-21 2008-07-01 Bea Systems, Inc. Diagnostic instrumentation
US7409594B2 (en) * 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
WO2006117833A1 (ja) * 2005-04-25 2006-11-09 Fujitsu Limited 監視シミュレーション装置,方法およびそのプログラム
US7401263B2 (en) * 2005-05-19 2008-07-15 International Business Machines Corporation System and method for early detection of system component failure
JP2008271126A (ja) * 2007-04-19 2008-11-06 Ntt Docomo Inc 移動端末装置、移動端末装置の診断方法
US8543866B2 (en) * 2007-07-20 2013-09-24 Qualcomm Incorporated Remote access diagnostic mechanism for communication devices
US8949671B2 (en) * 2008-01-30 2015-02-03 International Business Machines Corporation Fault detection, diagnosis, and prevention for complex computing systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047905A (ja) * 1998-07-29 2000-02-18 Fujitsu Ltd 予防保守システム及び予防保守システムに接続された端末装置
JP2000137627A (ja) * 1998-10-27 2000-05-16 Hewlett Packard Co <Hp> 製品の使用中に生じる偶発的出来事の解決方法
JP2001338025A (ja) * 2000-05-30 2001-12-07 Nec Corp 評価管理を行う方法及び記録媒体
JP2003256367A (ja) * 2002-03-06 2003-09-12 Seiko Epson Corp 電子機器のエラーに関する情報提供システムおよび電気機器のエラー実績を管理するサーバ
JP2003271422A (ja) * 2002-03-18 2003-09-26 Fujitsu Ltd 予防保守判定処理方法、予防保守判定処理プログラム、および保守管理方法
JP2004038535A (ja) * 2002-07-03 2004-02-05 Sumisho Computer Systems Corp 障害対応システムおよびこれに用いるサーバ装置、障害対応プログラム
JP2004086719A (ja) * 2002-08-28 2004-03-18 Nec Fielding Ltd ネットワーク機器の保守システムおよび保守サービス提供方法
JP2007141007A (ja) * 2005-11-21 2007-06-07 Hitachi Ltd システム運用監視での障害時のサポートシステム化
JP2007156599A (ja) * 2005-12-01 2007-06-21 Fujitsu Ltd 補助記憶装置のデータ消去管理方法,補助記憶装置及び遠隔保守装置

Also Published As

Publication number Publication date
US8032789B2 (en) 2011-10-04
US20090249117A1 (en) 2009-10-01
JP2009230700A (ja) 2009-10-08

Similar Documents

Publication Publication Date Title
US10761926B2 (en) Server hardware fault analysis and recovery
JP4648961B2 (ja) 装置メンテナンスシステム、方法および情報処理装置
JP5088411B2 (ja) システム運用管理支援プログラム,方法及び装置
US8271417B2 (en) Health meter
JP5101465B2 (ja) 設備の不具合管理方法
US7843359B2 (en) Fault management system using satellite telemetering technology and method thereof
US6901306B2 (en) Semiconductor manufacturing apparatus and its diagnosis apparatus and operating system
JP2002006942A (ja) 遠隔監視診断システム、及び遠隔監視診断方法
JP2006514762A (ja) 通信システム、設備状態決定システム、警報システム、記録システム、および報告システム
JP2000259729A (ja) 作業機械の管理システム
JP2019153306A (ja) 故障解決策予測システム及び方法
Bauer et al. Practical system reliability
US20230342343A1 (en) Data center modeling for facility operations
JP5975094B2 (ja) 交換候補提示方法、情報処理装置、及びプログラム
JP4842738B2 (ja) 障害管理支援システム及びその情報管理方法
KR20220168849A (ko) 정보통신 설비 점검 시스템 및 방법
JP2001005692A (ja) 計算機システムおよびその保守管理システム並びに障害通知方法
US20040024659A1 (en) Method and apparatus for integrating server management and parts supply tools
JP2006178803A (ja) 診断システムおよび診断方法
JP2011192201A (ja) リモート保全システムおよびリモート保全方法
CN104823406A (zh) 识别报告以解决网络问题
JP4691285B2 (ja) 製品使用環境情報収集分析装置
JP2004272325A (ja) 外部記憶装置の故障予測方法およびシステム
JP2007115119A (ja) 監視制御装置の保守支援システム
Connelly et al. Reiki: serviceability architecture and approach for reduction and management of product service incidents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees