JP2021006970A - 情報処理装置、異常検出方法及びプログラム - Google Patents

情報処理装置、異常検出方法及びプログラム Download PDF

Info

Publication number
JP2021006970A
JP2021006970A JP2019121104A JP2019121104A JP2021006970A JP 2021006970 A JP2021006970 A JP 2021006970A JP 2019121104 A JP2019121104 A JP 2019121104A JP 2019121104 A JP2019121104 A JP 2019121104A JP 2021006970 A JP2021006970 A JP 2021006970A
Authority
JP
Japan
Prior art keywords
storage device
directory
confirmation
abnormality
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019121104A
Other languages
English (en)
Other versions
JP7275922B2 (ja
Inventor
厚 大堀
Atsushi Ohori
厚 大堀
若林 理
Osamu Wakabayashi
理 若林
貴司 水上
Takashi Mizukami
貴司 水上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019121104A priority Critical patent/JP7275922B2/ja
Publication of JP2021006970A publication Critical patent/JP2021006970A/ja
Application granted granted Critical
Publication of JP7275922B2 publication Critical patent/JP7275922B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】記憶装置の異常状態を正確かつ迅速に検出することができる情報処理装置を提供する。【解決手段】記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視部と、パーティション毎に記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認部と、ディレクトリ確認部によって存在が確認されたディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するアクセス確認部と、マウント状態の変化の確認、ディレクトリの非存在の確認、及びファイル書き込み又は削除の不可の確認のうちのいずれか1が行われたとき記憶装置の異常検出と判定する異常検出部と、を備える。【選択図】 図3

Description

本発明は、ハードディスク装置等の記憶装置を搭載した情報処理装置に関し、特に記憶装置の故障等の異常状態を検出する情報処理装置、情報処理装置の異常検出方法、及び異常検出方法のためのプログラムに関する。
コンピュータ等の情報処理装置においては、搭載されたハードディスク装置における、経年劣化、ファイルの誤消去等の人為的な障害、コンピュータウイルスによるファイルの破壊、ファイルシステムの不整合等の異常状態、いわゆるハードディスク障害によって、セクタ不良やファイルシステム障害等の不具合が発生する場合がある。
例えば、特許文献1には、ハードディスク障害を確実に検知することを目的として、ハードディスク装置に対して書き込み処理を実行し、その書き込みを監視してハードディスク装置の状態を監視し、書き込み処理が一定回数失敗した場合に、ハードディスク装置に障害が発生していると判定する情報処理装置が開示されている。
特開2014−235503号公報
一般的に、ハードディスク装置が故障した場合には、RAID(Redundant Arrays of Inexpensive Disks)に代表されるディスク冗長化技術を用いることで、破損したデータの復旧自体は可能である。
しかしながら、ハードディスク装置の故障又はデータ欠落が発生しても、情報処理装置においてユーザアプリケーションやOSに対しての通知や、自律的に回復アクションを実行することはない。そのため、fsck等のディスクチェックやS.M.A.R.T(Self-Monitoring, Analysis and Reporting Technology)に代表されるディスク健康診断等の検査ツールを用いてテストし、異常状態を発見するまでは、ハードディスク障害は検知されないこととなる。
また、ハードディスク障害の発生した箇所が、ユーザアプリケーションがアクセスするようなディレクトリ領域、又はファイルであった場合には、処理の誤動作やアクセス遅延、セグメンテーションフォルト等の多種多様な問題が発生する原因となりうる。
サーバや交換系の伝送装置等の24時間連続での稼働が求められるような情報処理装置においては、ハードディスク障害により安定したサービスの提供ができなくなってしまうことが懸念されている。特に、ブレードサーバのような、ディスクの冗長化を行っていない単一ハードディスク構成のシステムにおいては致命的な問題となる場合がある。
そこで、本発明の目的は、記憶装置の異常状態を正確かつ迅速に検出することができる情報処理装置、異常検出方法及びプログラムを提供することである。
本発明の情報処理装置は、記憶装置の異常を検出する情報処理装置であって、前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視部と、前記パーティション毎に前記記憶装置のディレクトリが存在するか否かを確認するディレクトリ確認部と、前記ディレクトリ確認部によって存在が確認された前記ディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するアクセス確認部と、前記マウント状態監視部による前記マウント状態の変化の確認、前記ディレクトリ確認部による前記ディレクトリの非存在の確認、及び前記アクセス確認部による前記ファイル書き込み又は削除の不可の確認のうちのいずれか1が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴としている。
本発明の異常検出方法は、記憶装置の異常を検出する情報処理装置の異常検出方法であって、前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、前記パーティション毎に前記記憶装置のディレクトリが存在するか否かを確認するディレクトリ確認ステップと、前記ディレクトリ確認ステップにおいて存在が確認された前記ディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、前記マウント状態監視ステップにおける前記マウント状態の変化の確認、前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認、及び前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認のうちのいずれか1が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴としている。
本発明のプログラムは、記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、コンピュータに、前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、前記パーティション毎に前記記憶装置のディレクトリが存在するか否かを確認するディレクトリ確認ステップと、前記ディレクトリ確認ステップにおいて存在が確認された前記ディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、前記マウント状態監視ステップにおける前記マウント状態の変化の確認、前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認、及び前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認のうちのいずれか1が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴としている。
本発明の情報処理装置は、記憶装置の異常を検出する情報処理装置であって、前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視部と、前記マウント状態監視部による前記マウント状態の変化の確認が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴としている。
本発明の情報処理装置は、記憶装置の異常を検出する情報処理装置であって、前記記憶装置の監視対象のパーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認部と、前記ディレクトリ確認部による前記ディレクトリの非存在の確認が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴としている。
本発明の情報処理装置は、記憶装置の異常を検出する情報処理装置であって、前記記憶装置の監視対象のパーティション毎にディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するアクセス確認部と、前記アクセス確認部による前記ファイル書き込み又は削除の不可の確認が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴としている。
本発明の異常検出方法は、記憶装置の異常を検出する情報処理装置の異常検出方法であって、前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、前記マウント状態監視ステップにおける前記マウント状態の変化の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴としている。
本発明の異常検出方法は、記憶装置の異常を検出する情報処理装置の異常検出方法であって、
前記記憶装置の監視対象のパーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認ステップと、
前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴としている。
本発明の異常検出方法は、記憶装置の異常を検出する情報処理装置の異常検出方法であって、前記記憶装置の監視対象のパーティション毎にディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴としている。
本発明のプログラムは、記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、コンピュータに、前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、前記マウント状態監視ステップにおける前記マウント状態の変化の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴としている。
本発明のプログラムは、記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、コンピュータに、前記記憶装置の監視対象のパーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認ステップと、前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴としている。
本発明のプログラムは、記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、コンピュータに、前記記憶装置の監視対象のパーティション毎にディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴としている。
本発明の情報処理装置、異常検出方法及びプログラムによれば、ファイルシステムのマウント状態の変化の確認、ハードディスク装置のディレクトリの非存在の確認、又はファイル書き込み又は削除の不可の確認が行われたとき記憶装置の異常検出と判定するので、記憶装置の異常状態を正確かつ迅速に検出することができる。
本発明による情報処理装置の構成を示すブロック図である。 図1のCPUの動作によって構成される各部を示すブロック図 ハードディスク障害監視処理を示すフローチャートである。 実行カウンタ監視処理を示すフローチャートである。 マウント状態チェックを示すフローチャートである。 /proc/mountsファイルの内容を例示する図である。 ディスクアクセスチェックを示すフローチャートである。 異常検出アクション及びWatchdog監視処理をIPMIによるハードリセットの動作タイミングと共に示すフローチャートである。
以下、本発明の実施例を、図面を参照しつつ詳細に説明する。
図1は本発明による情報処理装置10の構成を示している。この情報処理装置10は、CPU(Central Processing Unit:中央処理装置)11、記憶部12、通信部13、入出力インタフェース14、ハードディスク装置(ハードディスクドライブ)15、入力装置16、出力装置17、バス18、IPMI(Intelligent Platform Management Interface:ハードウェア管理インタフェース)ハードウェア19、電源装置20を備えている。CPU11、記憶部12、通信部13、入出力インタフェース14、IPMIハードウェア19の各々はバス18に接続されている。ハードディスク装置15、入力装置16、出力装置17は入出力インタフェース14に接続されている。
CPU11はOS(オペレーションシステム)を含むソフトウェアに従って情報処理装置10の全体を制御する制御部である。記憶部12はRAM(Random Access Memory)等のメモリであり、CPU11の処理プログラムや各種のデータが展開或いは保持される領域を有する。通信部13は図示しないネットワークを介して他の装置とデータを送受信する。入出力インタフェース14はハードディスク装置15、入力装置16、出力装置17の各々とデータの送受信を行う。入出力インタフェース14は、接続される装置に応じた種類のインタフェースを有している。
ハードディスク装置15は、磁気ディスク、光学ディスク、光磁気ディスク等のディスクを用いた記憶装置である。ハードディスク装置15は本実施例では情報処理装置10の内部に設けられているが、外部接続されても良い。ハードディスク装置15には、OS共にハードディスク障害監視プログラムがインストールされている。本実施例では、OSはLinux(登録商標)とする。ハードディスク障害監視プログラムはOS起動時にCPU11によって常駐プログラムとして実行開始され、所定の実行タイミングで繰り返しハードディスク装置15の障害監視を後述するように行う。
入力装置16はキーボードやマウスを含む。出力装置17はディスプレイ装置を含む。
IPMIハードウェア19は、Watchdog(ウォッチドッグ)機能としてウォッチドッグタイマ19aを内部に有している。IPMIハードウェア19は、Watchdog機能を利用して所定のタイマ時間内にウォッチドッグタイマ19aのリセットの有無を検出し、そのリセットがない場合に電源装置20に対してハードリセットを行う。電源装置20は、情報処理装置10内のCPU11を含む各装置への電源供給を行う装置であり、ハードリセットによって一旦電源供給を停止した後、電源供給を再度行う。
CPU11は、ハードディスク障害監視プログラムの動作としてマウント状態チェック、ディスクアクセスチェック、そして処理スレッド実行状態チェックを行う。マウント状態チェックはファイルシステムのマウント状態の正常性を確認する動作である。ディスクアクセスチェックは、書き込み不可などのアクセス異常が発生していないか確認する動作である。処理スレッド実行状態チェックは、マウント状態チェック及びディスクアクセスチェックを実行している処理スレッドの状態が、アクセス異常などによりフリーズ(処理停止)していないかを後述する実行カウンタにより確認する動作である。
ハードディスク障害監視プログラムはメインルーチンと実行カウンタ監視ルーチンとを含む。メインルーチンにはマウント状態チェック、ディスクアクセスチェック、異常検出アクション及び実行カウンタ更新ステップが含まれる。ディスクアクセスチェックにはディレクトリ存在チェック、ファイル書き込みチェック、及びファイル削除チェックが含まれる。実行カウンタ監視ルーチンには処理スレッド実行状態チェックが含まれる。
CPU11は、図2に示すように、メインルーチンのマウント状態チェックを実行することによりマウント状態監視部31を構成し、ディレクトリ存在チェックを実行することによりディレクトリ確認部32を構成し、ファイル書き込みチェック及びファイル削除チェックを実行することによりアクセス確認部33を構成し、異常検出アクションを実行することにより異常検出部34を構成する。また、CPU11は、実行カウンタ更新ステップを実行することによりカウンタ更新部35を構成し、実行カウンタ監視ルーチンを実行することによりカウンタ更新確認部36を構成する。
次に、CPU11によるハードディスク障害監視プログラム実行による概略動作を説明すると、メインルーチンでは、図3に示すように、先ず、ステップS101で所定の実行タイミングが測られた後、マウント状態チェックが実行される(ステップS102)。マウント状態チェックの実行後、その実行結果が判別される(ステップS103)。
マウント状態チェックの実行結果が正常ならば、ディスクアクセスチェックが実行される(ステップS104)。ディスクアクセスチェックの実行後、その実行結果が判別される(ステップS105)。
ディスクアクセスチェックの実行結果が正常ならば、実行カウンタがインクリメントされる(ステップS106)。実行カウンタの初期値は0であり、インクリメントされる毎にカウント値が例えば1だけ増加する。その後、ステップS101からの実行が繰り返される。
一方、マウント状態チェックの実行結果、又はディスクアクセスチェックの実行結果が異常ならば、ハードディスク障害が検出されたことを意味するので、異常検出アクションが実行される(ステップS107)。異常検出アクションでは、CPU11は出力装置17にハードディスク障害検出を表示させる。
CPU11は、ハードディスク障害監視プログラムのメインルーチンとは別のタスクとして実行カウンタ監視ルーチンを実行する。
実行カウンタ監視ルーチンでは、図4に示すように、ステップS111で所定の実行タイミングが測られた後、実行カウンタ更新チェックが実行される(ステップS112)。実行カウンタのカウント値が前回値からインクリメントされている場合、すなわちメインルーチンのステップS106が実行された場合には、その判別結果は正常である(ステップS113)。その正常ならば、その後、ステップS111からの実行が繰り返される。一方、実行カウンタのカウント値が前回値からインクリメントされず、前回値のままである場合には、その判別結果は異常である(ステップS113)。その異常ならば、ハードディスク障害監視プログラムのメインルーチンの処理に何らかの不具合が生じたとして異常検出アクションが実行される(ステップS114)。
次に、ステップS102のマウント状態チェックを具体的に説明すると、図5に示すように、先ず、マウント情報管理ファイルが記憶部12から読み出される(ステップS121)。マウント情報管理ファイルは、監視対象のディスクパーティション単位で設定ファイルのコンフィグレーション情報に基づいて事前に作成され、記憶部12に保存される。マウント情報管理ファイルには、マウント情報として、ディスクパーティション毎にデバイスと、ディスクパーティションと、ファイルシステムタイプと、マウントオプションとが含まれており、ステップS121ではマウント情報管理ファイルの読み出しによりマウント情報が得られる。ステップS121の実行後、Linuxカーネルのシステムファイルである/proc/mountsファイルが読み出される(ステップS122)。/proc/mountsファイルには例えば、図6に示すように現在の全マウント情報の一覧が示されている。
/proc/mountsファイルの読み出し後、監視対象のディスクパーティション毎にマウント情報と/proc/mountsファイルの内容との文字列の比較が実行される(ステップS123)。/proc/mountsファイルには一般的に、各行にデバイス、ディスクパーティション(マウントポイント)、ファイルシステムタイプ、マウントオプションがその順に記されている。マウントオプションには、読み書き可能のマウントを示す「rw」と、読み取り専用のマウントを示す「ro」とのいずれか一方が記されている。図6の/proc/mountsファイルの符号Aで示した行では、デバイスとして「/dev/sda11」、ディスクパーティションとして「/var/crash」、ファイルシステムタイプとして「ext3」、マウントオプションとして「rw」が記載されている。ステップS123では、ディスクパーティションとファイルシステムタイプとが検索キーワードとして用いられ、検索キーワードがマウント情報のものと一致する/proc/mountsファイルの行があるならば、当該行のマウントオプションに変化があるか否かの比較が行われる。その比較結果は図3のステップS103においてマウントオプションに変化がない場合にマウント状態チェック結果はハードディスク装置15の正常と判定され、変化がある場合にはハードディスク装置15の異常と判定される。
なお、マウント状態の変化としては、読み書き可能のマウントを示す「rw」と、読み取り専用のマウントを示す「ro」との間の変化に限らず、マウントの存在の有無の変化や、アクセス権の変化でも良い。
次いで、ステップS104のディスクアクセスチェックを具体的に説明すると、図7に示すように、先ず、ディレクトリの存在がチェックされる(ステップS131)。ステップS131では、監視対象のディスクパーティションをマウント情報から得てそのディスクパーティションのディレクトリが存在するか否かが判別される。例えば、そのディレクトリにアクセスが可能か否かにより判別が行われる。そして、その判別結果が判定される(ステップS132)。ディレクトリの存在チェックの判別結果が存在ならば、ファイル書き込みチェックが実行される(ステップS133)。ステップS133のファイル書き込みチェックでは、該当ディレクトリに試しファイルの書き込み処理が実行される。試しファイルは当該ディレクトリに容易に書き込み可能な大きさ、例えば、1バイト程度であることが望ましい。そのファイル書き込みチェック後、試しファイルの書き込みが成功したか否かが判別される(ステップS134)。当該ディレクトリに試しファイルが保存されたならば、それは試しファイルの書き込み成功を意味するので、次に、ファイル削除チェックが実行される(ステップS135)。ファイル削除チェックは書き込まれた試しファイルの削除処理が実行される。試しファイルの削除処理後、その削除処理が成功したか否かが判別される(ステップS136)。該当ディレクトリから試しファイルの存在がなくなった場合には、それは試しファイルの削除成功を意味するので、ディスクアクセスチェックは終了となる。
一方、ステップS132においてディレクトリの存在チェックの判別結果が存在しない場合、ステップS134において試しファイルの書き込みが失敗である場合、又はステップS135において試しファイルの削除が失敗である場合には、ハードディスク装置15が異常状態にあり、ディスクアクセスチェックに何らかの不具合が生じたとして異常検出アクションが実行される(ステップS137)。なお、ステップS132、S134及びS136の各判別は図3に示したディスクアクセスチェックの実行後のステップS105の実行結果判定に相当する。
ステップS107、S114及びS137の異常検出アクションでは同一の処理が実行される。この異常検出アクションを具体的に説明すると、図8に示すように、先ず、SNMPトラップにより保守者のコンピュータ(外部端末)に対して異常発生通知が送信される(ステップS141)。これは本情報処理装置10を含むシステムの保守者に本情報処理装置10が異常状態にある旨を知らしめるための送信である。ステップS141の実行後、Watchdog監視処理の停止が指令され(ステップS142)、そしてOSリブートの実行が指令される(ステップS143)。
CPU11は、ハードディスク障害監視プログラムとは別タスクとしてWatchdog監視処理プログラムを実行する。Watchdog監視処理プログラムの実行によって所定の繰り返し周期でタイマリセット信号がCPU11からIPMIハードウェア19に送信される(ステップS151、S152)。IPMIハードウェア19はWatchdog機能のタイマ19aをハードウェア又はソフトウェアとして内蔵し、タイマ19aは所定のタイマ時間を計測する。IPMIハードウェア19ではタイマ19aがタイマリセット信号に応答してリセットされ初期値から所定のタイマ時間を再計測する(ステップS161、S162)。所定のタイマ時間はタイマリセット信号の送信周期である所定の繰り返し周期より長い時間である。IPMIハードウェア19がタイマリセット信号を受信しないためにタイマ19aが所定のタイマ時間の計測を終了すると、IPMIハードウェア19はハードリセットを電源装置20に対して指令する(ステップS163)。
ステップS142のWatchdog監視処理停止指令では、SIGKILL等の処理停止信号を送ることにより、Watchdog監視処理はその処理停止信号に応答してタイマリセット信号の送信を停止させる(ステップS153)。一方、その停止直後のステップS143のOSリブート指令により本情報処理装置10ではOSの再起動が行われる。CPU11は現在の起動中のOSを一旦終了させてからOSを再起動する。そのOSの再起動が異常なく完了するならば、CPU11は、Watchdog監視処理プログラムも実行し直すので、所定の繰り返しタイミングでタイマリセット信号をIPMIハードウェア19に送信する。よって、OSの再起動が正常に行われる限りWatchdog機能のタイマが所定のタイマ時間の計測を終了することはない。
しかしながら、ハードディスク装置15が故障している場合にはステップS143のOSリブート処理が大幅に遅延したり、又はOSリブート処理自体が実行されないために、OSの再起動前にWatchdog機能のタイマ19aが所定のタイマ時間の計測を終了してしまうことが起きうる。所定のタイマ時間の計測が終了すると、ステップS163のハードリセットが指令される。ハードリセット指令に応答して電源装置20は一旦電源供給を停止した後、電源供給を再度行う。これにより本情報処理装置10ではOSの再起動が行われる。
このように実施例においては、OSリブート実行が指令されたにも係わらず、実際にはOSリブートが正常に実行されない場合には、Watchdog機能のタイマ19aが所定のタイマ時間の計測を終了してしまい、ハードリセットにより一旦電源オフとして強制的に本情報処理装置10は再起動される。すなわち、IPMIハードウェア19によるハードリセット機能を実装しているので、異常検出アクション時にOSリブート処理の失敗が生じても本情報処理装置10自身でハードリセットを強制的に実行することができる。よって、ハードディスク障害という異常な状態においてユーザプログラムが起動し続けることを避けることができると共に、自律的に正常状態への回復を図ることができる。
また、ハードディスク障害監視プログラムのメインルーチンのディスクアクセスチェックがハードディスク装置15の故障によりメインルーチンの処理自体が停止した場合でも、ステップS112の実行カウンタのカウント値のチェックによりハードディスク障害を検出することができる。
また、上記した実施例では、ファイルシステムのマウント状態の変化の有無確認、ディレクトリの存否の確認、及びファイル書き込み及び削除の可否の確認が繰り返し判定されるので、ハードディスク装置の異常状態を正確かつ迅速に検出することができる。
なお、上記した実施例では、記憶装置としてハードディスク装置を用いた場合を示したが、本発明はこれに限定されず、ディスク以外の半導体メモリを用いたSSD(Solid State Drive)等の記憶装置を搭載した情報記憶装置にも適用することができる。
また、上記した実施例では、情報記憶装置には、マウント状態監視部、ディレクトリ確認部及びアクセス確認部が設けられているが、これらのうちのいずれか1だけが備えられても良い。また、アクセス確認部はディレクトリ確認部によって存在が確認されたディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するが、アクセス確認部だけが備えられた情報記憶装置では、監視対象のパーティションのディレクトリが存在するものとしてファイルの書き込み及び削除が可能であるか否かを確認することが行われる。
10 情報処理装置
11 CPU
12 記憶部
13 通信部
14 入出力インタフェース
15 ハードディスク装置
16 入力装置
17 出力装置
18 バス
19 IPMIハードウェア
19a ウォッチドッグタイマ
20 電源装置
31 マウント状態監視部
32 ディレクトリ確認部
33 アクセス確認部
34 異常検出部
35 カウンタ更新部
36 カウンタ更新確認部

Claims (16)

  1. 記憶装置の異常を検出する情報処理装置であって、
    前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視部と、
    前記パーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認部と、
    前記ディレクトリ確認部によって存在が確認された前記ディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するアクセス確認部と、
    前記マウント状態監視部による前記マウント状態の変化の確認、前記ディレクトリ確認部による前記ディレクトリの非存在の確認、及び前記アクセス確認部による前記ファイル書き込み又は削除の不可の確認のうちのいずれか1が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴とする情報処理装置。
  2. 前記マウント状態監視部による前記マウント状態の変化の有無確認、前記ディレクトリ確認部による前記ディレクトリの存否の確認、及びアクセス確認部による前記ファイル書き込み及び削除の可否の確認は所定の期間毎に動作され、
    前記情報処理装置は、
    前記マウント状態監視部による前記マウント状態の不変化の確認、前記ディレクトリ確認部による前記ディレクトリの存在の確認、及び前記アクセス確認部による前記ファイル書き込み及び削除の可能の確認の全てが行われたとき実行カウンタのカウント値を更新するカウンタ更新部と、
    前記所定の期間毎に前記実行カウンタのカウント値の更新を確認するカウント更新確認部と、を更に備え、
    前記異常検出部は、前記カウント更新確認部により前記実行カウンタのカウント値の更新が確認されなかったとき前記記憶装置の異常検出と判定することを特徴とする請求項1記載の情報処理装置。
  3. 前記異常検出部は、前記記憶装置の異常検出判定時に前記情報処理装置の外部端末に対して異常発生通知を送信することを特徴とする請求項1又は2記載の情報処理装置。
  4. 前記記憶装置に保存されたオペレーションシステムの起動を行う制御部を更に備え、
    前記異常検出部は、前記記憶装置の異常検出判定時に前記制御部に対して前記オペレーションシステムの再起動を指令することを特徴とする請求項1ないし3のいずれか1記載の情報処理装置。
  5. 所定の繰り返し周期でタイマリセット信号を送信するウォッチドッグ監視処理部と、
    前記タイマリセット信号に応答してリセットして前記所定の繰り返し周期よりも長い所定のタイマ時間を初期値から計測するウォッチドッグタイマを含むハードリセット部と、を更に備え、
    前記異常検出部は、前記記憶装置の異常検出判定時に前記ウォッチドッグ監視処理部の前記タイマリセット信号の送信を停止させ、
    前記ハードリセット部は、前記ウォッチドッグタイマが前記所定のタイマ時間の計測を終了したときに、前記情報処理装置の電源装置の前記情報処理装置内への電源供給を強制的に一旦停止させた後、前記制御部に前記オペレーションシステムの再起動をさせるべく前記電源装置の電源供給を再開させるハードリセットを実行することを特徴とする請求項4記載の情報処理装置。
  6. 記憶装置の異常を検出する情報処理装置の異常検出方法であって、
    前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、
    前記パーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認ステップと、
    前記ディレクトリ確認ステップにおいて存在が確認された前記ディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、
    前記マウント状態監視ステップにおける前記マウント状態の変化の確認、前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認、及び前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認のうちのいずれか1が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴とする異常検出方法。
  7. 記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、
    コンピュータに、
    前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、
    前記パーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認ステップと、
    前記ディレクトリ確認ステップにおいて存在が確認された前記ディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、
    前記マウント状態監視ステップにおける前記マウント状態の変化の確認、前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認、及び前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認のうちのいずれか1が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴とするプログラム。
  8. 記憶装置の異常を検出する情報処理装置であって、
    前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視部と、
    前記マウント状態監視部による前記マウント状態の変化の確認が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴とする情報処理装置。
  9. 記憶装置の異常を検出する情報処理装置であって、
    前記記憶装置の監視対象のパーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認部と、
    前記ディレクトリ確認部による前記ディレクトリの非存在の確認が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴とする情報処理装置。
  10. 記憶装置の異常を検出する情報処理装置であって、
    前記記憶装置の監視対象のパーティション毎にディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するアクセス確認部と、
    前記アクセス確認部による前記ファイル書き込み又は削除の不可の確認が行われたとき前記記憶装置の異常検出と判定する異常検出部と、を備えることを特徴とする情報処理装置。
  11. 記憶装置の異常を検出する情報処理装置の異常検出方法であって、
    前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、
    前記マウント状態監視ステップにおける前記マウント状態の変化の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴とする異常検出方法。
  12. 記憶装置の異常を検出する情報処理装置の異常検出方法であって、
    前記記憶装置の監視対象のパーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認ステップと、
    前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴とする異常検出方法。
  13. 記憶装置の異常を検出する情報処理装置の異常検出方法であって、
    前記記憶装置の監視対象のパーティション毎にディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、
    前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を含むことを特徴とする異常検出方法。
  14. 記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、
    コンピュータに、
    前記記憶装置の監視対象のパーティション毎にファイルシステムのマウント状態の変化があったか否かを確認するマウント状態監視ステップと、
    前記マウント状態監視ステップにおける前記マウント状態の変化の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴とするプログラム。
  15. 記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、
    コンピュータに、
    前記記憶装置の監視対象のパーティション毎に前記記憶装置にディレクトリが存在するか否かを確認するディレクトリ確認ステップと、
    前記ディレクトリ確認ステップにおける前記ディレクトリの非存在の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴とするプログラム。
  16. 記憶装置の異常を検出する情報処理装置の異常検出方法のためのプログラムであって、
    コンピュータに、
    前記記憶装置の監視対象のパーティション毎にディレクトリ配下にファイルの書き込み及び削除が可能であるか否かを確認するディスクアクセス確認ステップと、
    前記ディスクアクセス確認ステップにおける前記ファイル書き込み又は削除の不可の確認が行われたとき前記記憶装置の異常検出と判定する異常検出ステップと、を実行させることを特徴とするプログラム。
JP2019121104A 2019-06-28 2019-06-28 情報処理装置、異常検出方法及びプログラム Active JP7275922B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019121104A JP7275922B2 (ja) 2019-06-28 2019-06-28 情報処理装置、異常検出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019121104A JP7275922B2 (ja) 2019-06-28 2019-06-28 情報処理装置、異常検出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021006970A true JP2021006970A (ja) 2021-01-21
JP7275922B2 JP7275922B2 (ja) 2023-05-18

Family

ID=74174469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019121104A Active JP7275922B2 (ja) 2019-06-28 2019-06-28 情報処理装置、異常検出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7275922B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854580A (zh) * 2024-03-06 2024-04-09 深圳玖合精工科技有限公司 硬盘坏道快速检测方法、装置、检测设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250776A (ja) * 1999-03-03 2000-09-14 Oki Electric Ind Co Ltd サーバ管理システムおよびその記憶装置の障害検出方法
JP2002215399A (ja) * 2001-01-22 2002-08-02 Pfu Ltd コンピュータシステム
JP2003335028A (ja) * 2002-05-20 2003-11-25 Ricoh Co Ltd 画像形成装置および状態情報管理方法
JP2008158768A (ja) * 2006-12-22 2008-07-10 Fujitsu Ltd 情報記憶装置の制御方法、情報記憶装置、プログラム及びコンピュータ読取可能な情報記録媒体
JP2012008861A (ja) * 2010-06-25 2012-01-12 Canon Inc データ処理装置、データ処理装置のデータ処理方法、プログラム
JP2017037626A (ja) * 2015-08-07 2017-02-16 株式会社Jvcケンウッド 故障予測装置、故障予測方法及び故障予測プログラム
JP2018055358A (ja) * 2016-09-28 2018-04-05 京セラドキュメントソリューションズ株式会社 電子機器及びhdd切り離しプログラム
JP2018092426A (ja) * 2016-12-05 2018-06-14 富士通株式会社 ストレージ制御装置、ストレージ装置、及び制御プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250776A (ja) * 1999-03-03 2000-09-14 Oki Electric Ind Co Ltd サーバ管理システムおよびその記憶装置の障害検出方法
JP2002215399A (ja) * 2001-01-22 2002-08-02 Pfu Ltd コンピュータシステム
JP2003335028A (ja) * 2002-05-20 2003-11-25 Ricoh Co Ltd 画像形成装置および状態情報管理方法
JP2008158768A (ja) * 2006-12-22 2008-07-10 Fujitsu Ltd 情報記憶装置の制御方法、情報記憶装置、プログラム及びコンピュータ読取可能な情報記録媒体
JP2012008861A (ja) * 2010-06-25 2012-01-12 Canon Inc データ処理装置、データ処理装置のデータ処理方法、プログラム
JP2017037626A (ja) * 2015-08-07 2017-02-16 株式会社Jvcケンウッド 故障予測装置、故障予測方法及び故障予測プログラム
JP2018055358A (ja) * 2016-09-28 2018-04-05 京セラドキュメントソリューションズ株式会社 電子機器及びhdd切り離しプログラム
JP2018092426A (ja) * 2016-12-05 2018-06-14 富士通株式会社 ストレージ制御装置、ストレージ装置、及び制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854580A (zh) * 2024-03-06 2024-04-09 深圳玖合精工科技有限公司 硬盘坏道快速检测方法、装置、检测设备及存储介质
CN117854580B (zh) * 2024-03-06 2024-05-31 深圳玖合精工科技有限公司 硬盘坏道快速检测方法、装置、检测设备及存储介质

Also Published As

Publication number Publication date
JP7275922B2 (ja) 2023-05-18

Similar Documents

Publication Publication Date Title
TWI627527B (zh) 基板管理控制器的回復方法及基板管理控制器
US7711989B2 (en) Storage system with automatic redundant code component failure detection, notification, and repair
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
TWI306193B (en) Self-monitoring and updating of firmware over a network
JP5607863B2 (ja) セキュア・リカバリ装置及び方法
US8108733B2 (en) Monitoring distributed software health and membership in a compute cluster
US9513998B2 (en) Management of microcode errors in a storage operation
CN108509156B (zh) 数据读取方法、装置、设备及***
US20130339784A1 (en) Error recovery in redundant storage systems
CN101329631B (zh) 一种嵌入式***自动检测和恢复启动的方法及装置
JP2002358210A (ja) コントローラリセットを処理する方法、及びコントローラリセットを処理するシステム及び方法を有する冗長コントローラデータ格納システム
US20080072030A1 (en) Computer System and Method for Updating Program Code
WO2015033433A1 (ja) ストレージ装置及び障害部位特定方法
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US10824517B2 (en) Backup and recovery of configuration files in management device
CN112099825A (zh) 组件进行升级的方法、装置、设备及存储介质
US10860411B2 (en) Automatically detecting time-of-fault bugs in cloud systems
JP7275922B2 (ja) 情報処理装置、異常検出方法及びプログラム
US8732531B2 (en) Information processing apparatus, method of controlling information processing apparatus, and control program
KR20220008237A (ko) 임시 스토리지에 대한 데이터 복원을 위한 시스템 및 장치
TW201510995A (zh) 維護電腦系統之檔案系統的方法
CN114518985B (zh) 存储***命令的故障指示
JP2013061841A (ja) 情報処理装置および情報処理装置の試験方法
TWI777628B (zh) 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法
JP3335779B2 (ja) プラント性能監視システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7275922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150