JP5440073B2 - 情報処理装置,情報処理装置の制御方法および制御プログラム - Google Patents

情報処理装置,情報処理装置の制御方法および制御プログラム Download PDF

Info

Publication number
JP5440073B2
JP5440073B2 JP2009226767A JP2009226767A JP5440073B2 JP 5440073 B2 JP5440073 B2 JP 5440073B2 JP 2009226767 A JP2009226767 A JP 2009226767A JP 2009226767 A JP2009226767 A JP 2009226767A JP 5440073 B2 JP5440073 B2 JP 5440073B2
Authority
JP
Japan
Prior art keywords
dump
information
processing apparatus
storage device
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009226767A
Other languages
English (en)
Other versions
JP2011076344A (ja
Inventor
甚輔 中井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009226767A priority Critical patent/JP5440073B2/ja
Priority to EP10182176A priority patent/EP2312443A3/en
Priority to US12/893,426 priority patent/US8732531B2/en
Publication of JP2011076344A publication Critical patent/JP2011076344A/ja
Application granted granted Critical
Publication of JP5440073B2 publication Critical patent/JP5440073B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理装置,情報処理装置の制御方法および制御プログラムに関する。
例えば、業務に用いられるサーバシステム(情報処理装置)においては、業務運用に使用するメインシステムと、それとは独立したサブシステムとをそなえて構成されるものがある。このようなサーバシステムにおいては、メインシステムにそなえられたメインプロセッサが、メインシステムにおけるOS(Operating System:以下、メインOSという場合もある)上で通常の業務運用に関する処理を行なう。一方、サブシステムにおいては、サブプロセッサが、サブシステムにおけるOS(以下、サブOSという場合もある)上でハードウェアの初期診断や故障監視などに関する処理を行なっている。
このような、サーバシステムにおいては、メインシステムにおいて障害が発生した場合に、メインプロセッサは、カーネルが使用しているメモリ領域の内容やプロセッサの情報に基づいてOSダンプ(カーネルダンプ)を作成する。また、この作成されたOSダンプはメインシステムに接続されたディスク装置に保存される。この記憶装置に保存されたOSダンプを参照することで障害の解析が行なわれる。
このような、OSダンプの採取方式として、例えば、多数のノードから構成されるクラスタシステムにおいて、システム障害発生時のメモリダンプを、多数のノードにより共有される共有ディスクに採取する技術が知られている。
特開2003−30011号公報
しかしながら、従来のサーバシステムにおいては、ディスク装置へOSダンプを保存できない場合がある。この場合、OSダンプを利用した障害の解析を行なうことができない。
例えば、メインシステムとディスク装置との通信回線に障害が生じたこと、もしくは、ディスク装置自体が故障したことにより、ディスク装置にアクセスできない場合には(ディスクアクセス異常)、作成されたOSダンプをディスク装置に保存することができない。このため、OSダンプを利用した障害の解析を行なうことができないという課題がある。
本発明の目的の一つは、このような課題に鑑み創案されたもので、ディスクアクセス異常が生じた場合であっても、障害の解析を可能とすることである。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。
このため、この情報処理装置は、処理装置と前記処理装置を管理する管理装置を有する情報処理装置において、前記処理装置は、第1のプログラムを格納する第1の記憶装置と、前記第1のプログラムを実行するとともに、前記処理装置の異常を検出し、前記第1のプログラムを実行することにより前記処理装置の異常を検出した場合に、Operating System(OS)ダンプを作成して前記第1の記憶装置に格納し、前記処理装置と伝送経路を介して接続された第5の記憶装置にアクセスが可能な場合に、前記OSダンプを前記第5の記憶装置に送信し、前記第5の記憶装置にアクセスが不可能な場合に、前記OSダンプが保持する情報の一部である部分情報を抽出する第1の演算処理装置と、前記抽出された部分情報を送信する第1の制御装置と、を有し、前記管理装置は、前記第1の制御装置に接続され、前記送信された部分情報を受信する第2制御装置と、前記部分情報を格納する第2の記憶装置と、を有する。
また、この情報処理装置の制御方法は、処理装置と前記処理装置を管理する管理装置を有する情報処理装置の制御方法において、前記処理装置が有する第1の演算処理装置が、第1の記憶装置に格納された第1のプログラムを実行するとともに、前記処理装置の異常を検出するステップと、前記第1のプログラムを実行することにより前記処理装置の異常を検出した場合に、前記第1の演算処理装置が、Operating System(OS)ダンプを作成して前記第1の記憶装置に格納するステップと、前記第1の演算処理装置が、前記処理装置と伝送経路を介して接続された第5の記憶装置にアクセスが可能な場合に、前記OSダンプを前記第5の記憶装置に送信するステップと、前記第1の演算処理装置が、前記第5の記憶装置にアクセスが不可能な場合に、前記OSダンプが保持する情報の一部である部分情報を抽出するステップと、前記処理装置が有する第1の制御装置が、前記抽出された部分情報を送信するステップと、前記第1の制御装置に接続された管理装置が有する第2の制御装置が、前記送信された部分情報を受信するステップと、前記管理装置が有する第2の記憶装置に前記部分情報を格納するステップと、を有する。
さらに、この情報処理装置の制御プログラムは、処理装置と前記処理装置を管理する管理装置を有する情報処理装置の制御プログラムにおいて、前記処理装置が有するとともに、第1の記憶装置に接続される第1の演算処理装置が、前記処理装置の異常を検出するステップと、前記プログラムを実行することにより前記処理装置の異常を検出した場合に、前記第1の演算処理装置が、Operating System(OS)ダンプを作成して前記第1の記憶装置に格納するステップと、前記第1の演算処理装置が、前記処理装置と伝送経路を介して接続された第5の記憶装置にアクセスが可能な場合に、前記OSダンプを前記第5の記憶装置に送信するステップと、前記第1の演算処理装置が、前記第5の記憶装置にアクセスが不可能な場合に、前記OSダンプが保持する情報の一部である部分情報を抽出するステップと、前記処理装置が有する第1の制御装置が、前記抽出された部分情報を送信するステップと、前記第1の制御装置に接続された管理装置が有する第2の制御装置が、前記送信された部分情報を受信するステップと、前記管理装置が有する第2の記憶装置に前記部分情報を格納するステップと、を有する。
開示の情報処理装置,情報処理装置の制御方法および制御プログラムによれば、ディスクアクセス異常が生じた場合であっても、OS緊急ダンプを保存することができる。さらに、OS緊急ダンプを保存することができるので、保存されたOS緊急ダンプから障害の解析が可能になる。
実施形態の一例としての情報処理装置の構成を模式的に示す図である。 実施形態の一例としての情報処理装置におけるシステムボードの詳細な構成を模式的に示す図である。 実施形態の一例としての情報処理装置におけるメインプロセッサの機能構成を模式的に示す図である。 実施形態の一例としての情報処理装置におけるOSダンプの構成を模式的に示す図である。 実施形態の一例としての情報処理装置におけるOS緊急ダンプの構成を模式的に示す図である。 実施形態の一例としての情報処理装置におけるOS緊急ダンプの作成パターンを示す図である。 実施形態の一例としての情報処理装置におけるフラッシュメモリにおけるOS緊急ダンプの保存状態を模式的に示す図である。 実施形態の一例としての情報処理装置における処理を説明するためのフローチャートである。 実施形態の一例としての情報処理装置における緊急ダンプの生成を説明するためのフローチャートである。 実施形態の一例としての情報処理装置におけるサブプロセッサの機能構成を模式的に示す図である。 実施形態の一例としての情報処理装置における保守サーバへのOS緊急ダンプの転送を説明するためのフローチャートである。
以下、図面を参照して本情報処理装置,情報処理装置の制御方法および制御プログラムに係る実施の形態を説明する。
〔A〕第1実施形態の説明
図1は実施形態の一例にかかる情報処理装置の構成を模式的に示す図、図2はそのシステムボードの詳細な構成を模式的に示す図である。
図1に示す情報処理装置1は、メインシステム2,サブシステム3およびメンテナンスバス4をそなえて構成されている。
メインシステム2は、主な計算業務を行なうシステムであり、システムボード20−1〜20−3をそなえて構成されている。
なお、本実施形態においては、メインシステム2にシステムボード20−1〜20−3の3つのシステムボードがそなえられている例について説明するが、これに限定されるものではなく、メインシステム2内に、2つ以下、もしくは4つ以上のシステムボードをそなえて構成してもよい。
以下、システムボードを示す符号としては、複数のシステムボードのうち1つを特定する必要があるときには符号20−1〜20−3を用いるが、任意のシステムボードを指すときには符号20を用いる。
各システムボード20は、図2に示すように、メインコントローラ21,メインプロセッサ22−1〜22−4,第1メモリ23−1〜23−4,I/Oコントローラ24−1〜24−4およびSRAM25をそなえて構成されている。メインコントローラ21は、SRAM(Static Random Access Memory)25と、複数(本実施例では4つ)のメインプロセッサ22−1〜22−4とに接続されている。メインプロセッサ22−1は、第1メモリ23−1と、IO(Input Output)コントローラ24−1とに接続されている。メインプロセッサ22−2は、第1メモリ23−2と、IOコントローラ24−2とに接続されている。メインプロセッサ22−3は、第1メモリ23−3と、IOコントローラ24−3とに接続されている。メインプロセッサ22−4は、第1メモリ23−4と、IOコントローラ24−4とに接続されている。さらに、各システムボード20は、第1通信回線10を介して第1ディスク装置7に接続されている。
第1ディスク装置7は、例えばHDD(Hard Disk Drive)等のディスク装置であり、後述するOSダンプ60を保存する記憶装置である。第1通信回線10は、例えば、FC(Fibre Channel),SAS(Serial Attached SCSI),イーサネット(登録商標)等の通信回線である。
以下、メインプロセッサを示す符号としては、複数のメインプロセッサのうち1つを特定する必要があるときには符号22−1〜22−4を用いるが、任意のメインプロセッサを指すときには符号22を用いる。同様に、第1メモリを示す符号としては、複数の第1メモリのうち1つを特定する必要があるときには符号23−1〜23−4を用いるが、任意の第1メモリを指すときには符号23を用いる。同様に、IOコントローラを示す符号としては、複数のIOコントローラのうち1つを特定する必要があるときには符号24−1〜24−4を用いるが、任意のIOコントローラを指すときには符号24を用いる。
なお、本実施形態においては、システムボード20にメインプロセッサ22−1〜22−4,第1メモリ23−1〜23−4およびIOコントローラ24−1〜24−4がそなえられる。すなわち、メインプロセッサ,第1メモリおよびIOコントローラがそれぞれ4つずつそなえられている例について説明する。しかし、これに限定されるものではなく、システムボード20内に、それぞれ3つ以下、もしくは5つ以上のメインプロセッサ,第1メモリおよびIOコントローラをそなえて構成してもよい。
メインコントローラ21は、例えば、FPGA(Field Programmable Gate Array)によるハードウェアデバイスである。このメインコントローラ21は、メインプロセッサ22により生成されるOS緊急ダンプ70(部分情報:詳細は後述)を、メインプロセッサ22からの、OS緊急ダンプ70のSRAM25におけるアドレスと当該OS緊急ダンプ70のサイズとの指定および転送依頼に基づいて、転送(送信)するものである。すなわち、メインコントローラ21は、OS緊急ダンプ70を送信する第1の制御装置として機能する。
具体的には、メインコントローラ21は、メインプロセッサ22(詳細は後述)から、転送するOS緊急ダンプ70のSRAM25におけるアドレスと当該OS緊急ダンプ70のサイズとの指定を受けるとともに、その転送依頼を受ける。メインコントローラ21は、メインプロセッサ22から指定を受けたOS緊急ダンプ70をSRAM25から、後述するメンテナンスバス4を介して、後述するサブコントローラ31に転送する。
また、メインコントローラ21は、メンテナンスバス4を介して、サブコントローラ31に通信可能に接続されている。
第1メモリ23は、例えば、DRAM(Dynamic Random Access Memory)であり、メインプロセッサ22によって実行されるOS(第1のプログラム,制御プログラム:以下、メインOSという場合もある)や圧縮アルゴリズムなどの種々のアプリケーションプログラムや各種データを記憶する記憶装置である。すなわち、第1メモリ23は、第1のプログラムを格納する第1の記憶装置として機能する。さらに、第1メモリ23は複数のメインプロセッサ22のそれぞれに対応して複数そなえられる。
IOコントローラ24は、例えば、FCカード,イーサネットカードなどの各種IOデバイスを接続して使用することを可能とする制御装置であり、複数のメインプロセッサ22のそれぞれに対応して複数そなえられる。
SRAM25は、メインプロセッサ22からアクセス可能な記憶装置であり、後述するOS緊急ダンプ70を一時的に保持するバッファとして機能する。すなわち、SRAM25は、OS緊急ダンプ70を格納する第2の記憶装置として機能する。
メインプロセッサ22は、例えば、CPU(Central Processing Unit)等の演算処理装置であり、後述する第1メモリ23に記録されたOSや種々のアプリケーションプログラムを実行することにより各種機能を実現する。また、各メインプロセッサ22上では、それぞれ独立したメインOSが動作する。図2に示すように、システムボード20において、メインプロセッサ22−1では、OS♯1が、メインプロセッサ22−2ではOS♯2が、メインプロセッサ22−3では、OS♯3が、メインプロセッサ22−4ではOS♯4がそれぞれ動作する。すなわち、図2に示す例においては、各システムボード20に4つのメインプロセッサ22がそなえられ、3つのシステムボード20を有する本実施形態の一例では、メインシステム2においてOS♯1〜OS♯12の12個のメインOSが動作する。
また、各メインプロセッサ22は、それぞれローカルバスによりメインコントローラ21に接続されている。
なお、以下、図中、既述の符号と同一の符号は同一もしくは略同一の部分を示しているので、その詳細な説明は省略する。
図3はメインプロセッサ22の機能構成を模式的に示した図である。このメインプロセッサ22は第1メモリ23に記録されたOSを実行することにより、図3に示すような、異常検出機能41,OSダンプ生成機能42,ディスクアクセスチェック機能43,OSダンプ保存機能44,OS緊急ダンプ生成機能45(要因調査機能46,採取情報リスト作成機能47,調査情報採取機能48を含む)およびOS緊急ダンプ転送機能49を実現する。
異常検出機能41は、メインシステム2における異常の発生を検出し、取りまとめるものである。例えば、ハード故障時には、故障したハードウェアからメインOSに対して割り込み信号が入力される。異常検出機能41は、この割り込みを検出することで、メインシステムにおける異常を検出する。また、例えば、OS内部故障発生時には、メインOS自身がそなえる自己診断機能により、メインシステム2における異常を検出する。さらに、例えば、メインコントローラ21の故障時には、メインOSがメインコントローラ21のデータを読み出した際の不具合により、メインシステムにおける異常を検出する。また、異常検出機能41が、メインシステム2における異常を検出することを契機として、後述するOSダンプ生成機能42が起動する。
さらに、異常検出機能41は、メインシステム2におけるハードウェア等の異常を、定期的に監視・検出する機能を有している。なお、異常検出機能41としては、既知の種々の手法を用いて実現可能であり、その詳細な説明は省略する。
OSダンプ生成機能42は、異常検出機能41による異常検出を契機として、異常を解析するのに必要な情報を収集しOSダンプ60を生成するものである。メインプロセッサ22は、このOSダンプ生成機能42として機能することにより、第1の演算処理装置として機能する。図4はOSダンプ60の構成を模式的に示す図である。OSダンプ60は、例えば、この図4に示すように、異常発生時における、メモリダンプ61(メインOSのスタック情報62,IO装置のレジスタ情報63を含む),メインプロセッサのレジスタ情報64,要因情報65およびメインコントローラのレジスタ情報66をそなえて構成される。
OSダンプ作成機能42は、メインシステム2における異常発生時に、これらのメモリダンプ61,メインプロセッサのレジスタ情報64,要因情報65およびメインコントローラのレジスタ情報66を収集し組み合わせることによりOSダンプ60を作成する。なお、作成されたOSダンプ60は、例えば、第1メモリ23上に一時的に格納される。
ここで、メモリダンプ61とは、異常発生時の第1メモリ23上の情報を保存したものである。さらに、メインOSのスタック情報62とは、異常発生時のメインOSの動作状態に関する情報であり、例えば、メモリダンプ61のアドレス0x10000000から連続する1Mバイトのデータから採取される。IO装置のレジスタ情報63とは、異常発生時のIOコントローラ24やIOデバイス内部のレジスタ情報であり、例えば、OSダンプ60に含まれるメモリダンプ61のアドレス0x20000000から連続する1Kバイトのデータから採取される。また、メインプロセッサのレジスタ情報64とは、異常発生時のメインプロセッサ22内部のプログラムカウンタなどの、メインOSからアクセス可能なメインプロセッサ22内のレジスタから採取される情報である。さらに、要因情報65とは、発生した異常の要因に応じて決定されるコード(エラーコード)である。ここで、異常の要因は、以下のようにして決定することができる。例えば、ハード故障時には、故障したハードウェアからメインOSに対して割り込み信号が入力されるため、異常の要因がハードウェア故障であると決定できる。また、例えば、OS内部故障発生時には、メインOS自身がそなえる自己診断機能が、ソフトウェアエラーを検出するため、異常の要因がOS内部故障であると決定できる。また、例えば、メインコントローラ21の故障時には、メインOSがメインコントローラ21のデータを読み出した際の不具合であると判断されるので、異常の要因がメインコントローラ21の故障であると決定できる。
なお、ハード故障の一例としては、メインOSが利用している第1メモリ23でのデータの破損やメインプロセッサ22の内部故障(但し、メインOSが動き続けられるような軽度なソフトウェア故障)などが挙げられる。OS内部故障の一例としては、OSのソフトウェアのバグによる不具合(但し、メインOSが動き続けられるような軽度なソフトウェア故障)が挙げられる。メインコントローラ21の内部故障の一例としては、メインコントローラ21の内部データで、チェックサムエラーが発生した場合などが挙げられる。
そして、これらの種々の異常の要因に対して、予めエラーコードが対応付けられており、要因情報65として、このエラーコードが用いられる。
また、メインコントローラのレジスタ情報66とは、メインコントローラ21内部の故障要因レジスタから採取される情報である。この故障要因レジスタには、例えば、どのようなコマンド(メインシステム2の故障の監視や立ち上げなどのコマンド)が使用されたかの履歴が記録される。さらに、故障要因レジスタには、サブシステム3へ転送されたデータの情報、故障発生時のメインコントローラ21の設定値などの情報も記録される。
なお、本実施形態においては、メモリダンプ61に、メインOSのスタック情報62とIO装置のレジスタ情報63とが含まれているが、これに限定されるものではなく、これらの情報は、メモリダンプ61に含まれない場合もある。また、メモリダンプ61が、これらのメインOSのスタック情報62およびIO装置のレジスタ情報63以外の情報を含んでもよい。
ディスクアクセスチェック機能43は、第1ディスク装置7へのアクセスが可能であるかを確認する。すなわち、システムボード20と第1ディスク装置7との間の第1通信回線10やインターフェイスに何らかの障害が生じた場合や、第1ディスク装置7自体が故障した場合をディスクアクセス異常として検出する。例えば、ディスクアクセスを複数回行なっても、全て失敗した場合に、ディスクアクセス異常であると判断する。
OSダンプ保存機能44は、ディスクアクセス異常がディスクアクセスチェック機能43により検出されていない場合において、OSダンプ生成機能42により生成されたOSダンプ60を、第1ディスク装置7に保存する。
OS緊急ダンプ生成機能45は、OSダンプ生成機能42により生成されたOSダンプ60から、障害の解析に必要な所定の情報を選択することにより、OSダンプ60よりも容量の小さなOS緊急ダンプ70を生成する。OS緊急ダンプ70は、例えば、不揮発性メモリであるフラッシュメモリ34の容量より小さくすることができる。このOS緊急ダンプ生成機能45は、要因調査機能46,採取情報リスト作成機能47および調査情報採取機能48をそなえる。図5はOS緊急ダンプの構成を模式的に示す図である。なお、この図5に示す例においては、OS緊急ダンプ70は、異常発生時におけるメインOSのスタック情報62,メインプロセッサのレジスタ情報64および要因情報65をそなえている。
また、OS緊急ダンプ70は、要因情報65に応じて複数通りのパターンがある。このパターンは要因調査機能46により決定される。
要因調査機能46は、ディスクアクセスチェック機能43により、ディスクアクセス異常が検出された場合に、要因情報65に基づいてパターンを決定する。
図6はOS緊急ダンプの作成パターンを示す図であり、要因情報65とパターンと採取情報リストとを相互に関連付けている。
要因調査機能46は、例えば、要因情報65がハード故障を示す場合には、パターン1,OS内部異常を示す場合にはパターン2,メインコントローラ21の内部異常を示す場合には、パターン3であるとそれぞれ判断する。なお、要因情報とパターンと採取情報リストとが相互に関連付けられた情報(作成パターン)は予め第1メモリ23等の記憶装置に保存されている。
採取情報リスト作成機能47は、要因調査機能46により特定されたパターンに応じて、図7に示すように、後述する調査情報採取機能48がOS緊急ダンプ70の要素として取得すべき情報のリストを作成する。この採取情報リスト作成機能47は、図6に示す例においては、ハード故障(パターン1)の場合には、異常発生時の要因情報65,メインOSのスタック情報62,メインプロセッサのレジスタ情報64およびIO装置のレジスタ情報63を採取対象の要素とする採取情報リストを作成する。また、採取情報リスト作成機能47は、OS内部異常(パターン2)の場合には、異常発生時の要因情報65,メインOSのスタック情報62およびメインプロセッサのレジスタ情報64を採取対象の要素とする採取情報リストを作成する。さらに、採取情報リスト作成機能47は、メインコントローラ21の内部異常(パターン3)の場合には、異常発生時の要因情報65,メインOSのスタック情報62,メインプロセッサのレジスタ情報64およびメインコントローラのレジスタ情報66を採取対象の要素とする採取情報リストを作成する。
調査情報採取機能48は、採取情報リスト作成機能47により作成された採取情報リストに基づいて、OSダンプ生成機能42により生成されたOSダンプ60から、採取すべき情報を採取してOS緊急ダンプ70を作成する。具体的には、既に生成され、第1メモリ23等の記憶装置に格納されているOSダンプ60から、採取すべき情報に応じたアドレス(例えば、先頭アドレス)および当該採取すべき情報のサイズを判断して情報の採取を行なう。なお、メインプロセッサ22は、OSダンプ60の作成の際に、異常発生時のメインOSのスタック情報62,IO装置のレジスタ情報63,メインプロセッサのレジスタ情報64,要因情報65およびメインコントローラのレジスタ情報66等のOSダンプ60を構成する各情報のOSダンプ60におけるアドレスおよびサイズを認識している。
ここで、異常発生時のメインOSのスタック情報62は、OSダンプ60に含まれるメモリダンプ61の所定位置、例えばアドレス0x10000000から連続する1Mバイトのデータから採取される。また、異常発生時のIO装置のレジスタ情報63も、OSダンプ60に含まれるメモリダンプ61の所定位置、例えば、アドレス0x20000000から連続する1Kバイトのデータから採取される。他の、異常発生時のメインプロセッサのレジスタ情報64,要因情報65およびメインコントローラのレジスタ情報66についてもアドレスおよびデータのサイズを参照し、OSダンプ60から採取する。
なお、上記の例は、アドレスやデータのサイズを便宜的に示すものであり種々変形して実施することができる。
また、OS緊急ダンプ生成機能45は、作成したOS緊急ダンプ70をSRAM25に保存する機能を有している。
OS緊急ダンプ転送機能49は、メインコントローラ21を介して、OS緊急ダンプ70をサブシステム3に転送するための処理を行なう。具体的には、メインコントローラ21に対して、OS緊急ダンプ70のSRAM25におけるアドレスとそのサイズとを指定し、さらにOS緊急ダンプ70の転送の実行を依頼するものである。
サブシステム3は、メンテナンスバス4を介して、メインシステム2の立ち上げ/停止の制御や、故障の監視を行なうシステムであり、メインシステム2から独立したシステムとして構成されている。また、サブシステム3は、例えば、イーサネットであるネットワーク8を介して後述する保守サーバ5に接続されている。
また、サブシステム3は、図1に示すように、サブコントローラ31,サブプロセッサ32,第2メモリ33およびフラッシュメモリ34をそなえて構成される。
サブコントローラ31は、例えば、FPGAによるハードウェアデバイスであり、メインコントローラ21から転送されてきたOS緊急ダンプ70を受け取ると、サブプロセッサ32に対して割り込みを発生させる。すなわち、サブコントローラ31は、メインコントローラ21に接続されOS緊急ダンプ70を受信する第2の制御装置として機能する。
第2メモリ33は、例えば、DRAMであり、サブプロセッサ32によって実行されるOS(第2のプログラム:以下、サブOSという場合もある)などの種々のアプリケーションプログラやデータを記憶する記憶装置である。すなわち、第2メモリ33は、第2のプログラムを格納する第4の記憶装置として機能する。
フラッシュメモリ34は、種々のデータを読み出し可能に記憶する不揮発性の記憶装置であり、図7に示すように、後述するOS緊急ダンプ70が、各システムボード20におけるメインOS毎に保存される。すなわち、フラッシュメモリ34は第2の記憶装置として機能する。図7はフラッシュメモリ34におけるOS緊急ダンプ70の保存状態を示す図である。この図7に示す例においては、メインOS毎に格納領域が形成され、各メインOSに対応するOS緊急ダンプ70が格納されている。なお、本実施形態では、各システムボードにおけるメインOS毎に2個(以下、OS緊急ダンプの個数を世代という場合がある。)までOS緊急ダンプ70を保存可能な例を示している。しかし、これに限定されるものではなく、システムボード20におけるメインOS毎に、3つ以上のOS緊急ダンプ70を保存してもよい。
サブプロセッサ32は、例えば、CPU等の演算処理装置であり、第2メモリ33に記録されたOSなどの種々のアプリケーションプログラムを実行することにより各種機能を実現する。サブプロセッサ32は第2メモリ33に記録されたOSを実行することにより、ダンプ保存機能を実現する。このダンプ保存機能は、サブコントローラ31からの割り込み信号を契機として、サブコントローラ31へ送られてきたOS緊急ダンプ70をフラッシュメモリ34に保存するものである。すなわち、サブプロセッサ32は第2の演算処理装置として機能する。また、サブプロセッサ32は、マルチスレッド処理できるようにしてもよい。
メンテナンスバス4は、例えば、Point-to-Point接続のシリアル転送バスであり、メインシステム2とサブシステム3とを通信可能に接続するバスである。より具体的には、メンテナンスバス4は、サブシステム3と、メインシステム2を構成するシステムボード20のそれぞれとを通信可能に接続するバスである。このメンテナンスバス4を介して、サブシステム3は、メインシステム2を構成するシステムボード20を目的として、所望のデータにアクセスする。
保守サーバ5は、情報処理装置の保守を行なうサーバであり、第2通信回線9を介して第2ディスク装置6と接続されている。
第2ディスク装置6は、例えば、ディスク装置であり、OS緊急ダンプ70を保存する記憶装置である。
上述の如く構成された、実施形態の一例としての情報処理装置1の動作を、図8に示すフローチャート(ステップA0〜A10)を参照しながら説明する。
まず、情報処理装置1が起動し、メインプロセッサ22が第1の制御プログラムを実行する。その後、メインシステム2において異常が発生すると(ステップA0)、異常検出機能41がこの異常を検出する(ステップA1)。異常検出機能41がこの異常を検出すると、OSダンプ生成機能42が、異常を解析するのに必要な情報を収集し、OSダンプ60を作成する(ステップA2)。ディスクアクセスチェック機能43は、ステップA2において作成したOSダンプ60が、第1ディスク装置40に転送可能か否かを判断すべく、ディスクアクセス異常の有無を確認する(ステップA3)。この確認の結果(ステップA4)、ディスクアクセス異常がある場合、すなわちOSダンプ60を第1ディスク装置40へ転送不可能な場合(ステップA4のNoルート参照)、OS緊急ダンプ生成機能45により、OSダンプ60からOS緊急ダンプ70が作成され、このOS緊急ダンプ70はSRAM25に保存される(ステップA5)。OS緊急ダンプ70が作成されると、OS緊急ダンプ転送機能46が、メインコントローラ21に対して、OS緊急ダンプ70のSRAM25におけるアドレスとそのサイズとをメインコントローラ21に指定する(ステップA6)。さらに、OS緊急ダンプ転送機能46は、メインコントローラ21に対して、OS緊急ダンプ70の転送依頼を行なう(ステップA7)。転送依頼を受けたメインコントローラ21は、SRAM25から、メインプロセッサ22により指定されたOS緊急ダンプ70をサブコントローラ31に対して転送する(ステップA8)。サブコントローラ31は、OS緊急ダンプ70を受け取ると、サブプロセッサ32に対して割り込みを発生させる。サブプロセッサ32は、サブコントローラ31が発生した割り込みを受け、ダンプ保存機能51により、OS緊急ダンプ70をサブコントローラ31からフラッシュメモリ34に保存する(ステップA9)。なお、ディスクアクセスに異常がない場合、すなわちOSダンプ60を第1ディスク装置7へ転送可能な場合には(ステップA4のYesルート参照)、OSダンプ保存機能44によりOSダンプ60は、SRAM25から第1ディスク装置7に保存される(ステップA10)。
次に、OS緊急ダンプ作成機能47の詳細、すなわち図8におけるステップA5の詳細な動作を、図9に示すフローチャート(ステップA51〜A56)を参照しながら説明する。
図8におけるステップA2にて、図4に示すOSダンプ60が作成されていることを前提とし、まず、要因調査機能47が、要因情報65に基づいて、パターンを判断する。本実施例では、採取情報リスト作成機能47は、図6に示すように、ハード故障の場合にはパターン1,OS内部異常の場合にはパターン2,メインコントローラの内部異常の場合にはパターン3と判断する(ステップA51)。採取情報リスト作成機能48は、要因調査機能47により判別されたパターンに応じて、図6に示すように、調査情報採取機能49が採取すべき情報のリストを作成する(ステップA52)。調査情報採取機能49が、既に作成されているOSダンプ60から、OS緊急ダンプ70を作成すべく調査情報リスト作成機能48により作成されたリストに基づいて、採取すべき情報が既に採取済みであるかを判断する(ステップA53)。採取すべき情報が未だ採取済みでない場合には(ステップA53のNoルート参照)、調査情報採取機能49により、採取すべき情報を、例えば、OSダンプ60から、取得すべき情報のアドレスとサイズを基に順次採取する(ステップA54)。ステップA54において採取された情報は、OS緊急ダンプとして追加される(ステップA55)。そして、採取情報リスト作成機能48により作成されたリストに基づいて、採取すべき情報が全て採取されると(ステップA53のYesルート参照)、OS緊急ダンプ70の作成が完了する(ステップA56)。
なお、同一のシステムボード20において、同時に複数のメインOSで異常が発生した場合には、各メインOSは、各メインプロセッサ22上でそれぞれ独立して動作しているので、各メインOS、すなわち各メインプロセッサ22は、それぞれOS緊急ダンプ70を生成する。各メインプロセッサ22は、生成されたOS緊急ダンプ70をSRAM25に保存した後、メインコントローラ21に対してOS緊急ダンプ70の転送依頼を行なう。ここで、サブOSのダンプ保存機能はマルチスレッド処理やマルチプロセス処理等、並列に処理できるように実装されているので、ダンプ保存機能は、サブコントローラ31に転送されてきた複数のOS緊急ダンプ70を同時にフラッシュメモリ34に保存することができる。
このように、実施形態の一例としての情報処理装置1によれば、ディスクアクセス異常によりOSダンプ60を第1ディスク装置7に転送できない場合であっても、OS緊急ダンプ70を作成し、このOS緊急ダンプ70をメンテナンスバス4を介してサブシステム3に転送することで、OS緊急ダンプ70を保存することができる。さらに、OS緊急ダンプ70を保存することができるため、保存されたOS緊急ダンプ70から障害の解析が可能になる。
また、ディスクアクセス異常により、OSダンプを第1ディスク装置7に転送できない場合には、OSダンプ60から障害の解析に必要な所定の情報を選択することで、OS緊急ダンプ70を作成するため、OS緊急ダンプ70はOSダンプ60に比べ容量が小さくなる。そのため、第1ディスク装置7に比べ容量の小さなフラッシュメモリ34であっても、確実にOS緊急ダンプ70を保存することができる。
さらに、OSダンプ60から、障害の解析に必要な所定の情報を選択することで、OS緊急ダンプ70を作成するため、障害の解析を確実に行なうことができる。
〔B〕変形例の説明
実施形態の一例にかかる情報処理装置1におけるサブシステム3は、第2ディスク装置6に接続されている保守サーバ5にネットワークを介して接続されてもよい。
保守サーバ5は、情報処理装置1の保守を行なうサーバであり、例えば、メンテナンスを行なう際に、フラッシュメモリ34に保存されているOS緊急ダンプ70を、自身(保守サーバ5)に転送するよう要求する機能をそなえている。さらに、保守サーバ5は、サブシステム3から転送されてきたOS緊急ダンプ70を第2ディスク装置6に保存する機能をそなえている。すなわち、保守サーバ5は、管理装置として機能する。
第2ディスク装置6は、例えば、ディスク装置であり、OS緊急ダンプを保存する記憶装置である。さらに、第2ディスク装置6は、例えば、一般的なSCSI(Small Computer System Interface)やSATA(Serial ATA)または、NAS(Network Attached Storage)等の規格に基づく第2通信回線9を介して保守サーバ5に接続されている。すなわち、第2ディスク装置6は、第3の記憶装置として機能する。
図10は、サブプロセッサ32の機能構成を模式的に示した図である。本サブプロセッサ32は第2メモリ33に記録されたOSを実行することにより、上述のダンプ保存機能に加え、図10に示す、定期監視機能52,ダンプチェック機能53,ダンプ転送機能54およびダンプ削除機能55を実現する。
ダンプチェック機能53は、フラッシュメモリ34内にOS緊急ダンプ70が保存されているか否かを判断する。ダンプチェック機能53は、後述する定期監視機能52が実行されたこと、又は、OS緊急ダンプ70がフラッシュメモリ34へ保存されたこと、若しくは、外部からOS緊急ダンプ70の転送要求があったことの少なくとも一つを契機として動作する。
定期監視機能52は、所定の間隔(例えば、1分間隔)でダンプチェック機能53を実行させる。この定期監視機能52は、例えば、タイマにより実現される。
ダンプ転送機能54は、ダンプチェック機能53により、フラッシュメモリ34内にOS緊急ダンプ70が保存されていると判断された場合に、フラッシュメモリ34に記憶されているOS緊急ダンプ70を保守サーバ5に転送する。
ダンプ削除機能55は、ダンプ転送機能54により転送が完了したOS緊急ダンプ70を、フラッシュメモリ34から削除する。
このように構成された実施形態の変形例としての情報処理装置における保守サーバ5,第2ディスク装置6およびサブシステム2の動作を、図11に示すフローチャート(ステップB1〜B7)を参照しながら説明する。なお、図8,図9に示すステップA0〜A9,A51〜A56の処理については、上述の処理と同様の処理が行なわれる。
まず、定期監視機能52が、所定の間隔でダンプチェック機能53を実行させる(ステップB1)。これにより、ダンプチェック機能53は、フラッシュメモリ34内にOS緊急ダンプ70が保存されているか否かを判断する(ステップB2)。この判断の結果(ステップB3)、OS緊急ダンプ70が保存されていると判断した場合には(ステップB3のYesルート参照)、ダンプ転送機能54が、フラッシュメモリ34内に格納されているOS緊急ダンプ70を保守サーバ5に転送する(ステップB4)。なお、保守サーバ5は、転送されてきたOS緊急ダンプ70を第2ディスク装置6に保存する。転送が完了すると、ダンプ削除機能55が、ダンプ転送機能54により転送が完了したOS緊急ダンプ70を、フラッシュメモリ34から削除し、ステップB1に戻る(ステップB5)。なお、OS緊急ダンプ70がフラッシュメモリ34内に保存されていないと判断された場合は(ステップB3のNoルート参照)、保守サーバ5に対して転送は行なわず、ステップB1に戻る。
また、OS緊急ダンプ70がサブコントローラ31に転送され、フラッシュメモリ34に保存された場合や(ステップB6)、保守サーバ5などの外部からOS緊急ダンプ70の転送要求がきた場合(ステップB7)にも、ダンプチェック機能53がフラッシュメモリ34内にOS緊急ダンプが保存されているか否かの判断が行なわれ(ステップB2)、以下、同様の処理が行なわれる。
ここで、図11に示す例においては、OS緊急ダンプ70が、メインシステム2からサブシステム3に転送された場合に、ダンプチェック機能53が動作し、ダンプ転送機能54が、フラッシュメモリ34内に保存されているOS緊急ダンプ70を保守サーバ5に対して転送する。そして、ダンプ削除機能55が、転送が完了したOS緊急ダンプ70を、フラッシュメモリ34から削除する。そのため、通常、フラッシュメモリ34内のOS緊急ダンプ70の数は0となるが、OS緊急ダンプ70の保守サーバ5への転送が失敗した場合、例えば、OS緊急ダンプ70の転送中に保守サーバ5がダウンしてリブートした場合等には、フラッシュメモリ34にOS緊急ダンプ70が残ったままになる。このような場合においても、定期監視機能52や、外部からのOS緊急ダンプ70の転送要求によりダンプチェック機能53が実行されるため、フラッシュメモリ34に残ったOS緊急ダンプ70を確実に保守サーバ5へ転送することが可能である。
このように、実施形態の情報処理装置1の変形例によれば、上述した実施形態と同様の作用効果を得ることができる他、サブシステム3が保持するOS緊急ダンプ70を保守サーバ5に転送することで、転送されたOS緊急ダンプ70は、第2ディスク装置6に保存される。したがって、例えばディスク装置である第2ディスク装置6の容量は、一般的にフラッシュメモリの容量に比べ非常に大きいため、第1実施形態に比べ、より多くのOS緊急ダンプ70を保存することができる。
また、OS緊急ダンプ70の保守サーバ5への転送が失敗した場合、例えば、OS緊急ダンプの転送中に保守サーバ5がダウンしてリブートした場合においても、定期監視機能52や、外部からのOS緊急ダンプ70の転送要求によりダンプチェック機能53が実行されるため、フラッシュメモリ34に残ったOS緊急ダンプ70を確実に保守サーバ5へ転送することができる。
〔C〕その他
なお、メインプロセッサ22の各機能を実現するためのメインOS,サブプロセッサ32の各機能を実現するためのサブOSおよび圧縮アルゴリズムなどの種々のアプリケーションプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
そして、開示の技術は上述した実施形態およびその変形例に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、上述した実施例においては、図のフローチャートに示すように、OS緊急ダンプ70を作成したのちSRAM25に保存しているが、OS緊急ダンプ70の作成が完了した後に、作成されたOS緊急ダンプ70を圧縮してもよい。これにより、OS緊急ダンプ70の容量がより小さくなるため、フラッシュメモリ34および第2ディスク装置6に、より多くのOS緊急ダンプ70を保存することが可能となる。なお、OS緊急ダンプ70の圧縮は、例えば、第1メモリ23に記憶された圧縮アルゴリズムをメインプロセッサ22が実行することで行なわれる。また、圧縮されたOS緊急ダンプ70を解析する際には、圧縮されたOS緊急ダンプ70を展開アルゴリズムにより展開し、展開後のOS緊急ダンプ70に対して解析を行なう。
さらに、上述した実施例においては、OS緊急ダンプ70を、サブプロセッサ32のダンプ保存機能により、フラッシュメモリ34に保存しているが、フラッシュメモリ34の容量が足りず、新たにOS緊急ダンプ70を保存することができない場合がある。この場合、新たなOS緊急ダンプ70を保存することができないことを契機として、ダンプ転送機能54により、既にフラッシュメモリ34に保存されているOS緊急ダンプを保守サーバ5に転送する。そして、その後、新たなOS緊急ダンプ70をフラッシュメモリ34に保存しても良い。また、新たなOS緊急ダンプ70の保存を断り削除しても良い。
また、上述した実施例においては、OSダンプ60から、採取すべき情報に応じたアドレス(例えば、先頭アドレス)および当該採取すべき情報のサイズに基づいて情報の採取を行なうことで、OS緊急ダンプ70が作成される。しかし、これに限定されるものではなく、OSダンプ60を作成する際と同様に、メインコントローラ21の故障要因レジスタ等の各種レジスタ等から直接情報を採取してもよい。すなわち、メインOSのスタック情報62は、メモリダンプ61のアドレス0x10000000から連続する1Mバイトのデータから採取し、IO装置のレジスタ情報63は、例えば、メモリダンプ61のアドレス0x20000000から連続する1Kバイトのデータから採取する。さらに、メインプロセッサのレジスタ情報64は、メインOSからアクセス可能なメインプロセッサ22内のレジスタから採取する。さらに、メインコントローラのレジスタ情報66は、メインコントローラ21内部の故障要因レジスタから採取する。なお、要因情報65は、メインOS自身が検知し、認識している。
さらに、上述した実施例においては、OSダンプ60を作成した後に、ディスクアクセス異常の有無を確認し、異常がある場合には、OS緊急ダンプ70を作成している。しかし、これに限定されるものではなく、OSダンプ60を作成することなく、ディスクアクセス異常の有無を確認し、ディスク異常がない場合には、OSダンプ60を作成し、ディスク異常がある場合には、OS緊急ダンプ70を作成することとしてもよい。このとき、OS緊急ダンプ70は、採取すべき情報をOSダンプ60からではなく、上述の如く各種レジスタ等から直接採取する。これにより、OSダンプ60を作成することなくOS緊急ダンプ70を作成することができるため、処理を簡素化することができる。
また、上述した実施例においては、ディスクアクセスチェック機能43が、ディスクアクセス異常を検出すると、OSダンプ生成機能42が、OSダンプ60を作成する。しかし、これに限定されるものではなく、ディスクアクセス異常を検出した後、OSダンプ60を作成することなく、OS緊急ダンプ生成機能45が、OS緊急ダンプ70を作成してもよい。このとき、OS緊急ダンプ70は、採取すべき情報をOSダンプ60からではなく、上述の如く各種レジスタ等から直接採取する。これにより、OSダンプ60を作成することなくOS緊急ダンプ70を作成することができるため、処理を簡素化することができる。
1 情報処理装置
2 メインシステム
3 サブシステム
4 メンテナンスバス
5 保守サーバ
6 第2ディスク装置
7 第1ディスク装置
8 ネットワーク
9 第2通信回線
10 第1通信回線
20−1,20−2,20−3 システムボード
21 メインコントローラ
22−1,22−2,22−3,22−4 メインプロセッサ
23−1,23−2,23−3,23−4 第1メモリ
24−1,24−2,24−3,24−4 IOコントローラ
25 SRAM
31 サブコントローラ
32 サブプロセッサ
33 第2メモリ
41 異常検出機能
42 OSダンプ生成機能
43 ディスクアクセスチェック機能
44 OSダンプ保存機能
45 OS緊急ダンプ生成機能
46 要因調査機能
47 採取情報リスト作成機能
48 調査情報採取機能
49 OS緊急ダンプ転送機能
52 定期監視機能
53 ダンプチェック機能
54 ダンプ転送機能
55 ダンプ削除機能
60 OSダンプ
61 メモリダンプ
62 メインOSのスタック情報
63 IO装置のレジスタ情報
64 メインプロセッサのレジスタ情報
65 要因情報
66 メインコントローラのレジスタ情報
70 OS緊急ダンプ

Claims (10)

  1. 処理装置と前記処理装置を管理する管理装置を有する情報処理装置において、
    前記処理装置は、
    第1のプログラムを格納する第1の記憶装置と、
    前記第1のプログラムを実行するとともに、前記処理装置の異常を検出し、前記第1のプログラムを実行することにより前記処理装置の異常を検出した場合に、Operating System(OS)ダンプを作成して前記第1の記憶装置に格納し、前記処理装置と伝送経路を介して接続された第5の記憶装置にアクセスが可能な場合に、前記OSダンプを前記第5の記憶装置に送信し、前記第5の記憶装置にアクセスが不可能な場合に、前記OSダンプが保持する情報の一部である部分情報を抽出する第1の演算処理装置と、
    前記抽出された部分情報を送信する第1の制御装置と、を有し、
    前記管理装置は、
    前記第1の制御装置に接続され、前記送信された部分情報を受信する第2制御装置と、
    前記部分情報を格納する第2の記憶装置と、を有することを特徴とする情報処理装置。
  2. 前記管理装置はさらに、伝送路を介して保守装置に接続され、
    前記保守装置は、
    前記伝送路を介して前記管理装置から前記第2の記憶装置に格納された部分情報を受信して第3の記憶装置に格納することを特徴とする請求項1記載の情報処理装置。
  3. 前記情報処理装置において、
    前記管理装置はさらに、第2のプログラムを格納する第4の記憶装置と、
    前記第2のプログラムを実行することにより、前記部分情報を前記保守装置に送信する第2の演算処理装置とを有し、
    前記第2の演算処理装置は、
    前記保守装置からデータ転送要求を受信した場合、又は、前記処理装置が有する第6の記憶装置に前記部分情報を保存することができない場合に、前記抽出された部分情報を送信することを特徴とする請求項2記載の情報処理装置。
  4. 前記情報処理装置において、
    前記第1の演算処理装置は、
    前記第1のプログラムの実行により、前記処理装置の異常を定期的に検出することを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 処理装置と前記処理装置を管理する管理装置を有する情報処理装置の制御方法において、
    前記処理装置が有する第1の演算処理装置が、第1の記憶装置に格納された第1のプログラムを実行するとともに、前記処理装置の異常を検出するステップと、
    前記第1のプログラムを実行することにより前記処理装置の異常を検出した場合に、前記第1の演算処理装置が、Operating System(OS)ダンプを作成して前記第1の記憶装置に格納するステップと、
    前記第1の演算処理装置が、前記処理装置と伝送経路を介して接続された第5の記憶装置にアクセスが可能な場合に、前記OSダンプを前記第5の記憶装置に送信するステップと、
    前記第1の演算処理装置が、前記第5の記憶装置にアクセスが不可能な場合に、前記OSダンプが保持する情報の一部である部分情報を抽出するステップと、
    前記処理装置が有する第1の制御装置が、前記抽出された部分情報を送信するステップと、
    前記第1の制御装置に接続された管理装置が有する第2の制御装置が、前記送信された部分情報を受信するステップと、
    前記管理装置が有する第2の記憶装置に前記部分情報を格納するステップと、を有することを特徴とする情報処理装置の制御方法。
  6. 前記情報処理装置はさらに、伝送路を介して保守装置に接続され、
    前記情報処理装置の制御方法はさらに、
    前記保守装置が、前記伝送路を介して前記管理装置から前記第2の記憶装置に格納された部分情報を受信して第3の記憶装置に格納するステップを有することを特徴とする請求項5記載の情報装置の制御方法。
  7. 前記情報処理装置の制御方法において、
    前記管理装置はさらに、第2のプログラムを格納する第4の記憶装置と、
    前記第2のプログラムを実行することにより、前記部分情報を前記保守装置に送信する第2の演算処理装置とを有し、
    前記第2の演算処理装置は、
    前記保守装置からデータ転送要求を受信した場合、又は、前記処理装置が有する第6の記憶装置に前記部分情報を保存することができない場合に、前記抽出された部分情報を送信することを特徴とする請求項6記載の情報処理装置の制御方法。
  8. 前記情報処理装置の制御方法において、
    前記第1の演算処理装置は、
    前記第1のプログラムの実行により、前記処理装置の異常を定期的に検出することを特徴とする請求項5〜7のいずれか1項に記載の情報処理装置の制御方法
  9. 処理装置と前記処理装置を管理する管理装置を有する情報処理装置の制御プログラムにおいて、
    前記処理装置が有するとともに、第1の記憶装置に接続される第1の演算処理装置が、前記処理装置の異常を検出するステップと、
    前記プログラムを実行することにより前記処理装置の異常を検出した場合に、前記第1の演算処理装置が、Operating System(OS)ダンプを作成して前記第1の記憶装置に格納するステップと、
    前記第1の演算処理装置が、前記処理装置と伝送経路を介して接続された第5の記憶装置にアクセスが可能な場合に、前記OSダンプを前記第5の記憶装置に送信するステップと、
    前記第1の演算処理装置が、前記第5の記憶装置にアクセスが不可能な場合に、前記OSダンプが保持する情報の一部である部分情報を抽出するステップと、
    前記処理装置が有する第1の制御装置が、前記抽出された部分情報を送信するステップと、
    前記第1の制御装置に接続された管理装置が有する第2の制御装置が、前記送信された部分情報を受信するステップと、
    前記管理装置が有する第2の記憶装置に前記部分情報を格納するステップと、を有することを特徴とする情報処理装置の制御プログラム。
  10. 前記情報処理装置の制御プログラムにおいて、
    前記第1の演算処理装置は、
    前記プログラムの実行により、前記処理装置の異常を定期的に検出することを特徴とする請求項9記載の情報処理装置の制御プログラム。
JP2009226767A 2009-09-30 2009-09-30 情報処理装置,情報処理装置の制御方法および制御プログラム Active JP5440073B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009226767A JP5440073B2 (ja) 2009-09-30 2009-09-30 情報処理装置,情報処理装置の制御方法および制御プログラム
EP10182176A EP2312443A3 (en) 2009-09-30 2010-09-29 Information processing apparatus, method of controlling information processing apparatus and control program
US12/893,426 US8732531B2 (en) 2009-09-30 2010-09-29 Information processing apparatus, method of controlling information processing apparatus, and control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009226767A JP5440073B2 (ja) 2009-09-30 2009-09-30 情報処理装置,情報処理装置の制御方法および制御プログラム

Publications (2)

Publication Number Publication Date
JP2011076344A JP2011076344A (ja) 2011-04-14
JP5440073B2 true JP5440073B2 (ja) 2014-03-12

Family

ID=43646179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009226767A Active JP5440073B2 (ja) 2009-09-30 2009-09-30 情報処理装置,情報処理装置の制御方法および制御プログラム

Country Status (3)

Country Link
US (1) US8732531B2 (ja)
EP (1) EP2312443A3 (ja)
JP (1) JP5440073B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5751156B2 (ja) * 2011-12-19 2015-07-22 富士通株式会社 ストレージシステム、制御装置およびストレージシステムの制御方法
US9535783B2 (en) 2014-11-17 2017-01-03 International Business Machines Corporation Firmware dump collection from primary system dump device adapter
JP2017004095A (ja) * 2015-06-05 2017-01-05 コニカミノルタ株式会社 画像処理装置および画像処理装置の制御プログラム
US10474518B1 (en) * 2016-12-06 2019-11-12 Juniper Networks, Inc. Obtaining historical information in a device core dump
CN108536545B (zh) * 2018-03-05 2021-07-20 广东美的厨房电器制造有限公司 终端设备的信息处理方法和装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0322149A (ja) * 1989-06-20 1991-01-30 Nec Corp ジヨブステツプ自動ダンプ採取方式
JPH0334036A (ja) * 1989-06-30 1991-02-14 Hitachi Ltd 遠隔保守機密保護方式
JPH05151117A (ja) * 1991-11-30 1993-06-18 Nec Corp プロセツサ用メモリダンプ遠隔収集システム
EP0586767A1 (en) * 1992-09-11 1994-03-16 International Business Machines Corporation Selective data capture for software exception conditions
JP2901527B2 (ja) * 1995-09-20 1999-06-07 日本電気ソフトウェア株式会社 コンピュータシステムのダンプ収集機構
JPH11259341A (ja) * 1998-03-13 1999-09-24 Hitachi Ltd リモートダンプ採取方式
JP2001034510A (ja) * 1999-07-22 2001-02-09 Mitsubishi Electric Corp クラッシュダンプ管理装置及びクラッシュダンプ管理方法
US6629267B1 (en) * 2000-05-15 2003-09-30 Microsoft Corporation Method and system for reporting a program failure
US6785848B1 (en) * 2000-05-15 2004-08-31 Microsoft Corporation Method and system for categorizing failures of a program module
US6681348B1 (en) * 2000-12-15 2004-01-20 Microsoft Corporation Creation of mini dump files from full dump files
JP2003030011A (ja) * 2001-07-19 2003-01-31 Nec Soft Ltd メモリダンプ採取方式および方法
WO2005089400A2 (en) * 2004-03-17 2005-09-29 Riverstone Networks, Inc. Managing process state information in an operating system environment
US7685575B1 (en) * 2004-06-08 2010-03-23 Sun Microsystems, Inc. Method and apparatus for analyzing an application
US7281163B2 (en) * 2004-06-22 2007-10-09 Hewlett-Packard Development Company, L.P. Management device configured to perform a data dump
US7380171B2 (en) * 2004-12-06 2008-05-27 Microsoft Corporation Controlling software failure data reporting and responses
US7783932B1 (en) * 2007-04-13 2010-08-24 Network Appliance, Inc. Method and apparatus for generating dynamic microcores
US7882223B2 (en) * 2007-09-05 2011-02-01 Hewlett-Packard Development Company, L.P. System and method for saving dump data of a client in a network
US7865774B2 (en) * 2007-09-19 2011-01-04 Cisco Technology, Inc. Multiprocessor core dump retrieval
US8135995B2 (en) * 2007-10-19 2012-03-13 Oracle International Corporation Diagnostic data repository
JP4992740B2 (ja) * 2008-01-25 2012-08-08 富士通株式会社 マルチプロセッサシステム、障害検出方法および障害検出プログラム
JP5359601B2 (ja) * 2009-06-25 2013-12-04 富士通株式会社 ダンプ出力制御装置、ダンプ出力制御プログラム、ダンプ出力制御方法

Also Published As

Publication number Publication date
US20110078520A1 (en) 2011-03-31
EP2312443A3 (en) 2011-05-04
US8732531B2 (en) 2014-05-20
JP2011076344A (ja) 2011-04-14
EP2312443A2 (en) 2011-04-20

Similar Documents

Publication Publication Date Title
JP5079080B2 (ja) ストレージ・エリア・ネットワーク内の障害に対応するデータを収集する方法及びコンピュータ・プログラム
US8448013B2 (en) Failure-specific data collection and recovery for enterprise storage controllers
TWI554875B (zh) 基於資源存取模式預測、診斷應用程式故障並從應用程式故障恢復
US8762648B2 (en) Storage system, control apparatus and control method therefor
JP6078984B2 (ja) 処理装置,処理方法,処理プログラム及び管理装置
JP5440073B2 (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
JP2017091456A (ja) 制御装置、制御プログラムおよび制御方法
JP2007133544A (ja) 障害情報解析方法及びその実施装置
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
CN114600088A (zh) 使用基板管理控制器的服务器状态监测***和方法
JP5488709B2 (ja) ストレージ制御装置における基準時間設定方法
JP2007299213A (ja) Raid制御装置および障害監視方法
US9251016B2 (en) Storage system, storage control method, and storage control program
JP4775843B2 (ja) ストレージシステム及び記憶制御方法
US20220035695A1 (en) Computer unit, computer system and event management method
US7996707B2 (en) Method to recover from ungrouped logical path failures
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
US20060168479A1 (en) Real time event logging and analysis in a software system
JP5335150B2 (ja) 計算機装置及びプログラム
JP5832408B2 (ja) 仮想計算機システム及びその制御方法
JP6398727B2 (ja) 制御装置,ストレージ装置及び制御プログラム
JP5842655B2 (ja) 情報処理装置、プログラムおよびエラー処理方法
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
JP4985033B2 (ja) バックアッププログラム、バックアップ方法およびバックアップ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131202

R150 Certificate of patent or registration of utility model

Ref document number: 5440073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150