JP2010176464A - 計算機システム - Google Patents

計算機システム Download PDF

Info

Publication number
JP2010176464A
JP2010176464A JP2009019314A JP2009019314A JP2010176464A JP 2010176464 A JP2010176464 A JP 2010176464A JP 2009019314 A JP2009019314 A JP 2009019314A JP 2009019314 A JP2009019314 A JP 2009019314A JP 2010176464 A JP2010176464 A JP 2010176464A
Authority
JP
Japan
Prior art keywords
information
hardware
failure
register
dump
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009019314A
Other languages
English (en)
Other versions
JP5023086B2 (ja
Inventor
Kazuhiro Matsushita
和寛 松下
Norio Arashiro
典雄 荒城
Kimishige Nakanoya
仁茂 仲野谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009019314A priority Critical patent/JP5023086B2/ja
Publication of JP2010176464A publication Critical patent/JP2010176464A/ja
Application granted granted Critical
Publication of JP5023086B2 publication Critical patent/JP5023086B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】ハードウェア故障によるシステム障害発生時に故障したハードウェアを自動で特定してユーザに通知することができる計算機システムを提供すること。
【解決手段】メモリ2とハードディスク4を含む複数のハードウェアと、システム障害発生時にメモリ2に格納されている情報からダンプファイル41を生成してハードディスク4に格納するダンプ処理部14とを備え、複数のハードウェアはそれぞれ当該ハードウェアの状態を格納する状態レジスタを有してなる計算機システムにおいて、システム障害発生時に、状態レジスタからレジスタ情報6を取得し、レジスタ情報6から故障しているハードウェアを特定して故障箇所情報21を生成し、故障箇所情報21を格納する位置を特定する識別情報23を付してメモリ2に格納してからダンプ処理部14によりダンプファイル41を生成し、システム障害解析時に、ダンプファイル41を検索して識別情報23が付された故障箇所情報21を読み出して出力するシステム障害処理部12を設ける。
【選択図】図1

Description

本発明は、計算機システムにおけるシステム障害発生時の要因解析に関する。
従来の計算機システムにおいては、システム障害によってOS(オペレーティングシステム)が正常に動作できない状態になった場合、要因解析のための障害情報を採取するためのダンプ処理手段が動作する。ダンプ処理とは、システム障害発生時のメモリ等の主記憶装置上のデータを取得し、ハードディスク等の補助記憶装置にダンプファイルとして保存するものである。ダンプ処理手段により保存されたダンプファイルは、主に解析担当者が障害解析を行なうために用いられる。
ところで、一般に、ハードウェアの故障によりシステム障害となった場合は、故障情報がメモリ上ではなく、各ハードウェアに備えられハードウェア状態を格納する状態レジスタに記録される。このため、ダンプファイルの解析では故障したハードウェアを特定することができず、一つ一つハードウェアの動作を調べることで特定することしかできなかった。
計算機システムは、メモリ、複数のハードディスク、演算処理装置、入力装置、表示装置、DVDドライブ、複数のPCI接続機器等からなる多数のハードウェアから構成されているため、スキルのある解析担当者でも一つ一つハードウェアの動作を調べる作業には時間がかかり、システムを復旧させるまでには多大な時間を要していた。
また、ダンプファイルはバイナリデータとして書き込まれており、ユーザがダンプファイル中の障害情報を直接認識できない状態となっている。したがって、ユーザがダンプファイル中のデータを参照するには、特殊なソフトウェアと障害解析に関する専門的な知識が必要であり、一般的なユーザはシステム保守担当者等に障害解析を依頼せざるをえなかった。
本発明が解決しようとする課題は、ハードウェア故障によるシステム障害発生時に故障したハードウェアを自動で特定してユーザに通知することができる計算機システムを提供することにある。
上記課題を解決するため、本発明は、主記憶装置と補助記憶装置を含む複数のハードウェアを備え、それら複数のハードウェアはそれぞれ当該ハードウェアの状態を格納する状態レジスタを有してなる計算機システムにおいて、システム障害発生時に、状態レジスタからレジスタ情報を取得し、そのレジスタ情報から故障しているハードウェアを特定して故障情報を生成し、その故障情報を格納する位置を特定する識別情報を付して主記憶装置に格納してからダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、ダンプファイルを検索して識別情報が付された故障情報を読み出して出力するシステム障害処理手段を設けてなることを特徴とする。
本発明によれば、故障情報を生成して主記憶装置に格納した後にダンプ処理手段によりダンプファイルを生成しているので、システム障害解析時に、ダンプファイルを検索することで故障したハードウェアを自動で特定してユーザに通知し、システム復旧までの時間を短縮することができる。
また、システム障害発生時に、状態レジスタからレジスタ情報を取得し、そのレジスタ情報を格納する位置を特定する識別情報を付して主記憶装置に格納してからダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、ダンプファイルを検索して識別情報が付されたレジスタ情報を読み出し、そのレジスタ情報から故障しているハードウェアを特定して故障情報を出力するシステム障害処理手段を設けるように構成して、故障情報を生成する場所を変えてもよい。
本発明によれば、ハードウェア故障によるシステム障害発生時に故障したハードウェアを自動で特定してユーザに通知することができる。
実施例1に係る計算機システムの機能構成図である。 OSの処理の流れを示すフローチャートである。 実施例1に係る障害情報管理機能の処理の流れを示すフローチャートである。 実施例1に係る故障箇所自動通知機能の処理の流れを示すフローチャートである。 実施例2に係る計算機システムの機能構成図である。 実施例2に係る障害情報管理機能の処理の流れを示すフローチャートである。 実施例2に係る故障箇所自動通知機能の処理の流れを示すフローチャートである。
以下、本発明の計算機システムの実施例を図面を参照して説明する。
本発明の実施例1を、図1乃至4を参照して説明する。図1は本実施例の計算機システムの構成図である。図1に示すように、本実施例の計算機システムは、メモリ2とハードディスク4及び、図示していない演算処理装置、入力装置、表示装置、DVDドライブ、複数のPCI接続機器等からなる複数のハードウェアで構成されており、それぞれのハードウェアは、そのハードウェアの状態を示すレジスタ情報6を格納する状態レジスタを有している。
また、本実施例の計算機システムのOS10は、OS10が動作停止に陥るようなシステム障害が発生した時に動作するシステム障害処理部12と、メモリ2に格納されているデータからダンプファイル41を生成してハードディスク4に格納するためのダンプ処理部14とを備えている。
さらに、OS10上には、障害情報管理機能18と、故障箇所自動通知機能16とが設けられており、障害情報管理機能18はシステム障害発生時に、故障箇所自動通知機能16はシステム起動時に動作するようになっている。
また、障害情報管理機能18は、レジスタ情報取得部20と、故障箇所解析部24と、識別情報付加部26とを備えている。
このように構成される本実施例の計算機システムのシステム障害発生時における故障箇所情報自動通知の手順を図2乃至4を用いて説明する。図2は本実施例のシステム障害発生時におけるOS10の処理の流れを示すフローチャートである。
ハードウェア故障によるシステム障害が発生した場合、OS10の一部であるシステム障害処理部12が処理を開始する(S11)。システム障害処理部12は、後述する障害情報管理機能18を呼び出し(S12)、障害情報管理機能18の処理の終了を待つ(S13)。障害情報管理機能18の処理が終了すると、ダンプ処理部14が処理を開始し、メモリ2に格納されているデータからダンプファイル41を生成してハードディスク4に格納する(S14)。ダンプファイル41の格納が終了すると、OS10は再起動を行なう(S15)。
図3は障害情報管理機能18の処理の流れを示すフローチャートである。システ障害発生時に、OS10のシステム障害処理部12により呼び出された障害情報管理機能18は、レジスタ情報取得部20の処理を開始する。レジスタ情報取得部20は、システム障害発生時のハードウェアの正常/異常を示すレジスタ情報6を各ハードウェアが有する状態レジスタから取得する(S21)。
その後、故障箇所解析部24で、取得したレジスタ情報6の中から異常を示す値となっているものを見つけ、故障したハードウェアを特定できるデータ、例えば、ハードウェア名称の文字列を故障箇所情報21として生成する(S22)。識別情報付加部26は、故障箇所情報21にメモリ2上での位置を特定するための識別情報23を付加する(S23)。この時、付加する識別情報23は、ダンプファイル41内の検索おいて、他に同一の値が見つからないような固有値、例えば固有名詞等とする。
次に、ダンプ処理部14がデータを取得するメモリ2上の領域に、故障箇所情報21と識別情報23とを格納する(S24)。識別情報付加部26の処理が終了すると、OS10のシステム障害処理部12に処理が戻り、メモリ2に格納した故障箇所情報21と識別情報23とが、ダンプ処理部14により生成されるダンプファイル41に記録された状態で残る。
図4は故障箇所自動通知機能16の処理の流れを示すフローチャートである。図2の(S15)のOS10の再起動により故障箇所自動通知機能16が処理を開始すると、まずダンプファイル41から識別情報23を検索し、識別情報23が記録されていなかった場合は処理を終了する(S31)。識別情報23が記録されていた場合は、識別情報23が記録されている領域に付して記録されている故障箇所情報21を読み取る(S32)。読み取った故障箇所情報21をログ等に記録、又は表示装置に出力する(S23)。ユーザは出力された故障箇所情報21を確認してシステム復旧のために対応する。
以上説明したように本実施例によれば、故障箇所情報21を生成してメモリ2に格納した後にダンプ処理部14によりダンプファイル41を生成しているので、システム障害解析時に、ダンプファイル41を検索することで故障したハードウェアを自動で特定してユーザに通知することができ、システム復旧までの時間を短縮することができる。
次に、本発明の実施例2を、図5乃至7を参照して説明する。図5は、故障箇所の特定をOS10の再起動後に行なう場合の計算機システムの構成図である。本実施例は実施例1の構成のうち、障害情報管理機能18の故障箇所解析部24を故障箇所自動通知機能16に移動したものであり、その他の構成は実施例1と同様である。また、本実施例でのOS10の処理の流れは図2と同様であるため、障害情報管理機能18と故障箇所自動通知機能16の処理の流れを図6,7を用いて説明する。
図6は障害情報管理機能18の処理の流れを示すフローチャートである。システム障害発生時にOS10のシステム障害処理部12により障害情報管理機能18が呼び出されると、障害情報管理機能18はレジスタ情報取得部20の処理を開始する。レジスタ情報取得部20はシステム障害発生時のハードウェアの正常/異常を示すレジスタ情報6を状態レジスタから取得する(S41)。
次に、識別情報付加部26は、レジスタ情報6にメモリ2上での位置を特定するための識別情報23を付加する(S42)。その後、ダンプ処理部14がデータを取得するメモリ2上の領域に、レジスタ情報6と識別情報23を格納する(S43)。識別情報付加部26の処理が終了すると、OS10のシステム障害処理部12に処理が戻され、メモリ2に格納したレジスタ情報6と識別情報23が、ダンプファイル41に記録された状態で残る。
図7は故障箇所自動通知機能16の処理の流れを示すフローチャートである。OS10の再起動により故障箇所自動通知機能16が開始されると、まずダンプファイル41から識別情報23を検索し、識別情報23が記録されていなかった場合は処理を終了する(S51)。識別情報23が記録されていた場合は、識別情報23が記録されている領域に付して記録されているレジスタ情報6を読み取る(S52)。故障箇所解析部24では、読み取ったレジスタ情報6の中から異常を示す値となっているものを見つけ、故障箇所を特定する(S53)。その後、特定した故障箇所をログ等に記録、又は表示装置に出力する(S54)。本実施例でも、実施例1と同様の効果を得ることができる。
以上、実施例1,2について説明したが、本発明は、これらに限らず適宜構成を変更して適用することができる。例えば、複数の計算機システムがネットワークで接続されており、1つの計算機システムにシステム障害が発生しネットワークに異常がない場合に、別の計算機システムにネットワークを介して故障箇所情報を出力できるように構成することもできる。
2 メモリ
4 ハードディスク
6 レジスタ情報
10 OS
12 システム障害処理部
14 ダンプ処理部
16 故障箇所自動通知機能
18 障害情報管理機能
20 レジスタ情報取得部
21 故障箇所情報
23 識別情報
24 故障箇所解析部
26 識別情報付加部
41 ダンプファイル

Claims (2)

  1. 主記憶装置と補助記憶装置を含む複数のハードウェアと、システム障害発生時に前記主記憶装置に格納されている情報からダンプファイルを生成して前記補助記憶装置に格納するダンプ処理手段とを備え、前記複数のハードウェアはそれぞれ当該ハードウェアの状態を格納する状態レジスタを有してなる計算機システムにおいて、
    システム障害発生時に、前記状態レジスタからレジスタ情報を取得し、該レジスタ情報から故障しているハードウェアを特定して故障情報を生成し、該故障情報を格納する位置を特定する識別情報を付して前記主記憶装置に格納してから前記ダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、前記ダンプファイルを検索して前記識別情報が付された故障情報を読み出して出力するシステム障害処理手段を設けてなることを特徴とする計算機システム。
  2. 主記憶装置と補助記憶装置を含む複数のハードウェアと、システム障害発生時に前記主記憶装置に格納されている情報からダンプファイルを生成して前記補助記憶装置に格納するダンプ処理手段とを備え、前記複数のハードウェアはそれぞれ当該ハードウェアの状態を格納する状態レジスタを有してなる計算機システムにおいて、
    システム障害発生時に、前記状態レジスタからレジスタ情報を取得し、該レジスタ情報を格納する位置を特定する識別情報を付して前記主記憶装置に格納してから前記ダンプ処理手段によりダンプファイルを生成し、システム障害解析時に、前記ダンプファイルを検索して前記識別情報が付されたレジスタ情報を読み出し、該レジスタ情報から故障しているハードウェアを特定して故障情報を出力するシステム障害処理手段を設けてなることを特徴とする計算機システム。
JP2009019314A 2009-01-30 2009-01-30 計算機システム Expired - Fee Related JP5023086B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009019314A JP5023086B2 (ja) 2009-01-30 2009-01-30 計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009019314A JP5023086B2 (ja) 2009-01-30 2009-01-30 計算機システム

Publications (2)

Publication Number Publication Date
JP2010176464A true JP2010176464A (ja) 2010-08-12
JP5023086B2 JP5023086B2 (ja) 2012-09-12

Family

ID=42707364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009019314A Expired - Fee Related JP5023086B2 (ja) 2009-01-30 2009-01-30 計算機システム

Country Status (1)

Country Link
JP (1) JP5023086B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004510A (ja) * 2014-06-19 2016-01-12 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
CN105260278A (zh) * 2015-11-04 2016-01-20 四川效率源信息安全技术股份有限公司 数据区连续访问引发希捷硬盘失去响应的检测及修复方法
CN111813588A (zh) * 2020-06-01 2020-10-23 北京百卓网络技术有限公司 一种计算机硬盘故障定位方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09223046A (ja) * 1996-02-20 1997-08-26 Nec Software Ltd ダンプ収集機能を持つコンピュータシステム
JP2002149448A (ja) * 2000-11-10 2002-05-24 Mitsubishi Electric Corp メモリダンプ装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09223046A (ja) * 1996-02-20 1997-08-26 Nec Software Ltd ダンプ収集機能を持つコンピュータシステム
JP2002149448A (ja) * 2000-11-10 2002-05-24 Mitsubishi Electric Corp メモリダンプ装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004510A (ja) * 2014-06-19 2016-01-12 富士通株式会社 原因特定方法、原因特定プログラム、情報処理システム
CN105260278A (zh) * 2015-11-04 2016-01-20 四川效率源信息安全技术股份有限公司 数据区连续访问引发希捷硬盘失去响应的检测及修复方法
CN111813588A (zh) * 2020-06-01 2020-10-23 北京百卓网络技术有限公司 一种计算机硬盘故障定位方法、装置、设备及存储介质
CN111813588B (zh) * 2020-06-01 2024-03-19 北京百卓网络技术有限公司 一种计算机硬盘故障定位方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP5023086B2 (ja) 2012-09-12

Similar Documents

Publication Publication Date Title
JP4489802B2 (ja) マルチcpuコンピュータおよびシステム再起動方法
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
CN105573859A (zh) 一种数据库的数据恢复方法和设备
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JP2013206147A (ja) ロギング装置、ロギング方法及びプログラム
JP5023086B2 (ja) 計算機システム
CN112231403A (zh) 数据同步的一致性校验方法、装置、设备和存储介质
JP2007207014A (ja) 電子装置および保守情報の採取方法
JP2006268208A (ja) 故障診断回路とこの故障診断回路を備えた情報処理装置、故障診断システム及び故障診断プログラム
JP6528381B2 (ja) ログ管理装置,ログ管理プログラム,及びログ管理方法
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
JP2010066801A (ja) ログ記録システム、モジュール監視手段、トレースログ管理手段、記録方法、プログラム、及び記憶媒体
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
US8977892B2 (en) Disk control apparatus, method of detecting failure of disk apparatus, and recording medium for disk diagnosis program
CN112084097A (zh) 一种磁盘告警方法及装置
JP2009266031A (ja) 計算機システム及び計算機
JP2017068691A (ja) 診断プログラム、診断方法および診断装置
JP2007199968A (ja) 情報処理装置のログ採取システム
JP2012194930A (ja) 障害解析情報収集装置
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
Head et al. Towards self-assisted troubleshooting for the deployment of private clouds
JP2009087136A (ja) 障害修復システムおよび障害修復方法
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
JP6287055B2 (ja) 情報処理装置、情報収集方法および情報収集プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120618

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees