JP2012128489A - Information processor, method for reproducing fault of information processor, and program for reproducing fault of information processor - Google Patents

Information processor, method for reproducing fault of information processor, and program for reproducing fault of information processor Download PDF

Info

Publication number
JP2012128489A
JP2012128489A JP2010276893A JP2010276893A JP2012128489A JP 2012128489 A JP2012128489 A JP 2012128489A JP 2010276893 A JP2010276893 A JP 2010276893A JP 2010276893 A JP2010276893 A JP 2010276893A JP 2012128489 A JP2012128489 A JP 2012128489A
Authority
JP
Japan
Prior art keywords
failure
information
module
reproduction
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010276893A
Other languages
Japanese (ja)
Other versions
JP5300089B2 (en
Inventor
Yoshifumi Horie
祥文 堀江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2010276893A priority Critical patent/JP5300089B2/en
Publication of JP2012128489A publication Critical patent/JP2012128489A/en
Application granted granted Critical
Publication of JP5300089B2 publication Critical patent/JP5300089B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processor having a mechanism which can accurately execute a reproduction test in a short time.SOLUTION: The information processor is configured to be divided into CPU modules 100 to 103 and MMU modules 200 to 203 being modules as maintenance and replacement units, and each module is provided with at least a nonvolatile memory. A service processor 300 for management of the operation in a fault detection mode of performing operation for confirming whether each module is faulty or not and the operation in a fault reproduction mode of performing operation for reproducing a fault which has occurred, picks up various required reproduction information in the fault reproduction mode and saves the picked-up reproduction information, as fault reproduction test information, in the nonvolatile memory of a module specified as a portion suspected to be faulty and, in the operation in the fault reproduction mode, refers to fault reproduction test information saved in the nonvolatile memory in the module specified as the portion suspected to be faulty, to reproduce an operation environment at the time of fault detection and performs a fault reproduction test.

Description

本発明は、情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムに関する。   The present invention relates to an information processing device, an information processing device failure reproduction method, and an information processing device failure reproduction program.

通常、情報処理装置は、CPU(Central Processing Unit)やメモリ等、保守交換単位となるモジュールごとに分割し、複数に分割したモジュールによって構成されている。そして、製造した情報処理装置を工場から出荷した後に、納入先の現地において、初期設置時に診断試験を実施して障害がないことを確認して、顧客に納入し、納入後においても、定期的な保守作業を実施して障害の有無を確認している。   Usually, the information processing apparatus is divided into modules such as a CPU (Central Processing Unit) and a memory, which are divided as maintenance replacement units, and is configured by a plurality of divided modules. After the manufactured information processing equipment is shipped from the factory, at the delivery site, a diagnostic test is performed at the time of initial installation to confirm that there are no obstacles, and the product is delivered to the customer. Check whether there is a failure by performing maintenance work.

初期設置時や定期的な保守作業において、障害が検出された場合には、診断試験結果として、障害被疑部位のモジュールを特定し、特定した障害被疑部位のモジュールを正常なモジュールに交換するとともに、特定した障害被疑部位のモジュールを工場の保守部門に戻入する。   When a failure is detected during initial installation or regular maintenance work, as a result of the diagnostic test, the module of the suspected faulty part is identified, and the identified faulty part of the module is replaced with a normal module. Return the identified suspected failure module to the factory maintenance department.

工場の保守部門においては、例えば、特許文献1の特開2000−259455号公報「設備障害管理装置および設備障害管理方法並びに記録媒体」にも記載されているように、納入先において障害が検出された情報処理装置の構成と実装状況とを再現して、戻入されてきた障害被疑部位のモジュールを組み込んで、障害発生状況を示す情報として保存されている障害情報を用いて、障害の再現試験を実施し、戻入されてきたモジュールの障害を確認するようにしている。   In the maintenance department of a factory, for example, as described in Japanese Patent Application Laid-Open No. 2000-259455 “Equipment Failure Management Device, Equipment Failure Management Method and Recording Medium” in Patent Document 1, a failure is detected at a delivery destination. Reproduce the information processing device configuration and implementation status, incorporate the module of the suspected failure part that has been returned, and use the failure information stored as information indicating the failure occurrence status to perform a failure reproduction test. It is implemented and the failure of the returned module is confirmed.

而して、納入先において発生した障害原因を分析し、情報処理装置の改良設計に反映したり、部品の選定作業を改善したりするなど、障害原因に応じた対策を講じるようにしている。   Thus, the cause of the failure that occurred at the delivery destination is analyzed, and the countermeasure is taken according to the cause of the failure, such as reflecting it in the improved design of the information processing apparatus or improving the part selection work.

特開2000−259455号公報(第4−5頁)JP 2000-259455 A (page 4-5)

しかしながら、前記特許文献1に記載されているような障害再現技術においては、工場の保守部門において、納入先の現地における障害発生時の動作環境条件(例えば、動作電圧や温度等の条件)を取得していないので、現地の動作環境条件を忠実に再現することができなく、正確に障害を再現することができない。   However, in the failure reproduction technology as described in Patent Document 1, the operating environment conditions (for example, operating voltage, temperature, etc.) at the time of failure occurrence at the delivery site are acquired in the maintenance department of the factory. Therefore, the local operating environment conditions cannot be reproduced faithfully, and the fault cannot be accurately reproduced.

また、工場に戻入されてきた障害被疑部位のモジュールを用いて障害の再現試験を行う場合、再現試験用の情報処理装置の構成やモジュールの実装状態を納入先の情報処理装置と同一の状態に正しく構築しているか否かを人手で確認する以外に確認手段がないので、人為的なミスが混入したりして、やはり、正確に障害を再現することができない場合がある。   In addition, when performing a failure reproduction test using a suspected failure module that has been returned to the factory, the configuration of the information processing device for reproducibility testing and the mounting state of the module should be the same as the information processing device at the delivery destination. Since there is no confirmation means other than manually confirming whether or not the construction is correct, there is a case where a fault cannot be accurately reproduced due to a human error.

あるいは、一般的な従来の情報処理装置における障害の再現試験環境においても、人手で、障害情報のログ解析や診断試験実行時のコンソール操作を行う必要があるため、人為的なミスが発生する可能性がある。また、再現作業には、人手と時間とが掛かってしまうため、短時間で、かつ、正確に、障害を再現することが困難である。   Or, even in a failure reproduction test environment in a typical conventional information processing device, it is necessary to manually perform failure information log analysis and console operation during diagnostic test execution, which can cause human error There is sex. In addition, since the reproduction work takes time and labor, it is difficult to reproduce the fault accurately in a short time.

本発明は、かかる問題に鑑みてなされたものであり、短時間に正確に再現試験を実施することが可能な仕組みを有する情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムを提供することを、その目的としている。   The present invention has been made in view of such a problem, and an information processing apparatus, an information processing apparatus failure reproduction method, and an information processing apparatus failure reproduction program having a mechanism capable of accurately performing a reproduction test in a short time are provided. Its purpose is to provide.

前述の課題を解決するため、本発明による情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムは、主に、次のような特徴的な構成を採用している。   In order to solve the above-described problems, the information processing apparatus, the information processing apparatus failure reproduction method, and the information processing apparatus failure reproduction program according to the present invention mainly adopt the following characteristic configuration.

(1)本発明による情報処理装置は、保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置であって、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする。   (1) The information processing apparatus according to the present invention checks the presence / absence of a failure of a module serving as a maintenance replacement unit, and when a failure is detected, the operation of a failure detection mode for identifying the module at the suspected failure portion, and the suspected failure An information processing apparatus comprising a service processor for managing at least an operation of a failure reproduction mode for reproducing a failure that has occurred in the module of a part, wherein each of the plurality of modules includes at least a nonvolatile memory, and the service When the processor detects a failure in the operation of the failure detection mode, the processor collects various reproduction information necessary for the operation of the failure reproduction mode, and specifies the module identified as the failure suspected portion as failure reproduction test information Stored in the non-volatile memory mounted in the memory, and in the operation of the failure reproduction mode, By referring to the said failure reproducing test information stored in the nonvolatile memory in the module at the suspected site, to reproduce the operating environment during fault detection, and performs reproduction test failure.

(2)本発明による情報処理装置障害再現方法は、保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置における障害再現方法であって、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする。   (2) The information processing apparatus failure reproduction method according to the present invention checks the presence or absence of a failure of a module serving as a maintenance replacement unit, and, when a failure is detected, operates in a failure detection mode for identifying the module at the suspected failure portion. A failure reproduction method in an information processing apparatus including a service processor that manages at least a failure reproduction mode operation for reproducing a failure that has occurred in the module at a suspected failure portion, wherein each of the plurality of modules is nonvolatile When the service processor detects a failure in the operation in the failure detection mode, the service processor collects various reproduction information required in the operation in the failure reproduction mode, and obtains the failure suspected as failure reproduction test information. Saving in the non-volatile memory mounted in the module specified in the part, In the operation of the harm reproduction mode, by referring to the failure reproduction test information stored in the nonvolatile memory in the module of the suspected failure part, the operation environment at the time of failure detection is reproduced, and the failure reproduction test is performed. It is characterized by performing.

(3)本発明による情報処理装置障害再現プログラムは、少なくとも前記(2)に記載の情報処理装置障害再現方法を、コンピュータによって実行可能なプログラムとして実施していることを特徴とする。   (3) An information processing device failure reproduction program according to the present invention is characterized in that at least the information processing device failure reproduction method described in (2) is implemented as a program executable by a computer.

本発明の情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムによれば、以下のような効果を奏することができる。   According to the information processing apparatus, the information processing apparatus failure reproduction method, and the information processing apparatus failure reproduction program of the present invention, the following effects can be obtained.

第1の効果は、再現試験において必要とする各種の再現情報を、障害再現試験情報として、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存しているので、該モジュールを戻入してきた工場内において、障害検出時の情報処理装置と同一の環境に設定して、正確な再現試験を実施することができることにある。   The first effect is that various reproduction information required in the reproduction test is stored as a failure reproduction test information in a non-volatile memory mounted in the module which is a suspected failure part. In an established factory, an accurate reproduction test can be performed by setting the same environment as the information processing apparatus at the time of failure detection.

第2の効果は、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存した障害再現試験情報の読み出し動作から、再現試験用の情報処理装置の構成実装状態の確認、再現試験用の動作環境の設定、再現試験用の診断試験の実行、再現試験用の診断試験結果である障害情報(ログ情報)の採取と障害検出時の障害情報(ログ情報)との照合動作に至るまで、障害再現モードの各動作を自動的に行っているので、短時間に、かつ、正確に、再現試験を実行することができることにある。   The second effect is that, from the read operation of the failure reproduction test information stored in the non-volatile memory mounted in the module that is the suspected failure site, the configuration mounting state of the information processing apparatus for the reproduction test is confirmed and the reproduction test is performed. Up to the setting of the operating environment, execution of diagnostic tests for reproduction tests, collection of fault information (log information) as diagnostic test results for reproduction tests, and collation with fault information (log information) when faults are detected Since each operation in the failure reproduction mode is automatically performed, the reproduction test can be executed in a short time and accurately.

第3の効果は、納入先の現地への初期設置時や納入先における定期的な保守作業時のみならず、アプリケーションを使用している通常運用時に発生した障害についても、再現試験用の情報処理装置において障害発生時と同一の環境を再現して、再現試験を実施しているので、納入先における障害の再現の可能性をさらに高めることができることにある。   The third effect is that not only during initial installation at the customer's site or during regular maintenance work at the customer's site, but also information that can be reproduced during normal operation using the application. Since the reproduction environment is reproduced by reproducing the same environment as when the failure occurred in the apparatus, the possibility of reproducing the failure at the delivery destination can be further increased.

本発明による情報処理装置のブロック構成の一例を示すブロック構成図である。It is a block block diagram which shows an example of the block configuration of the information processing apparatus by this invention. 図1に示す情報処理装置を構成する各モジュール内の構成の一例を示す構成図である。It is a block diagram which shows an example of a structure in each module which comprises the information processing apparatus shown in FIG. 図1に示す情報処理装置の各モジュール例えばCPUモジュール内の不揮発性メモリに保存する、障害発生時における構成実装情報に関する情報の一例を示す説明図である。FIG. 2 is an explanatory diagram illustrating an example of information related to configuration mounting information at the time of failure, which is stored in a nonvolatile memory in each module, for example, a CPU module of the information processing apparatus illustrated in FIG. 1. 図1に示す情報処理装置の各モジュール例えばCPUモジュール内の不揮発性メモリに保存する、障害発生時における動作環境条件に関する情報の一例を示す説明図である。FIG. 2 is an explanatory diagram illustrating an example of information regarding operating environment conditions when a failure occurs, which is stored in each module of the information processing apparatus illustrated in FIG. 1, for example, a nonvolatile memory in a CPU module. 本発明による情報処理装置における障害検出モードの動作の一例を説明するためのフローチャートである。It is a flowchart for demonstrating an example of operation | movement of the failure detection mode in the information processing apparatus by this invention. 本発明による情報処理装置における障害再現モードの動作の一例を説明するためのフローチャートである。It is a flowchart for demonstrating an example of operation | movement of the failure reproduction mode in the information processing apparatus by this invention.

以下、本発明による情報処理装置、情報処理装置障害再現方法および情報処理装置障害再現プログラムの好適な実施形態について添付図を参照して説明する。なお、以下の説明においては、本発明による情報処理装置および情報処理装置障害再現方法について説明するが、かかる情報処理装置障害再現方法をコンピュータにより実行可能な情報処理装置障害再現プログラムとして実施するようにしても良いし、あるいは、情報処理装置障害再現プログラムをコンピュータにより読み取り可能な記録媒体に記録するようにしても良いことは言うまでもない。   Preferred embodiments of an information processing apparatus, an information processing apparatus fault reproduction method, and an information processing apparatus fault reproduction program according to the present invention will be described below with reference to the accompanying drawings. In the following description, the information processing apparatus and the information processing apparatus fault reproduction method according to the present invention will be described. However, the information processing apparatus fault reproduction method is implemented as an information processing apparatus fault reproduction program that can be executed by a computer. Needless to say, the information processing apparatus failure reproduction program may be recorded on a computer-readable recording medium.

(本発明の特徴)
本発明の実施形態の説明に先立って、本発明の特徴についてその概要をまず説明する。本発明は、保守交換単位となるモジュールごとに複数に分割して構成された情報処理装置の納入先において障害が発生した場合に、障害被疑部位となるモジュールが戻入されてきた工場内においても、納入先の現地において発生した障害を、短時間に、かつ、正確に再現することが可能な仕組みを実現するものであり、納入先の現地において障害検出モードとして障害の有無を確認するために実施した診断試験による障害の被疑部位の検出作業と、工場内において障害再現モードとして障害を再現するために実施する診断試験によって、納入先の現地において検出された障害を再現する作業との双方の作業を対象とし、納入先の現地において検出された障害を工場内において確実に再現することができる仕組みを実現することを特徴としている。
(Features of the present invention)
Prior to the description of the embodiments of the present invention, an outline of the features of the present invention will be described first. In the present invention, when a failure occurs in a delivery destination of an information processing apparatus configured to be divided into a plurality for each module that is a maintenance replacement unit, even in a factory where a module that is a suspected failure site has been returned, This system realizes a mechanism that can accurately and accurately reproduce failures occurring at the customer's site in a short time, and is implemented as a failure detection mode at the customer's site to confirm the presence or absence of a failure. Both the work of detecting the suspected part of the failure by the diagnostic test performed and the work of reproducing the fault detected at the delivery site by the diagnostic test performed to reproduce the fault in the factory as a fault reproduction mode It is characterized by realizing a mechanism that can reliably reproduce failures detected at the delivery site in the factory. .

従来の技術においては、前述したように、情報処理装置の納入先の現地における初期設置時に実施する診断試験や納入後に定期的に実施される保守作業時における診断試験において、障害の発生箇所と推定される障害被疑部位のモジュールの検出を行い、該障害被疑部位はモジュール単位で工場に戻入されてくるが、工場においては、障害を検出した現地の情報処理装置の構成と実装状況とを再現して、戻入されてきたモジュールを実装して、障害の再現試験を実施しても、動作環境条件が異なっていたり、構成やモジュールの実装状態が異なっていたり、あるいは、人為的なミス等が生じて、短時間にかつ正確に障害を再現することが困難であった。   In the conventional technology, as described above, in the diagnostic test performed at the initial installation of the information processing device at the site of the delivery and the diagnostic test performed periodically after the delivery, it is estimated that the fault has occurred. The suspected faulty module is detected and the faulty suspected part is returned to the factory in units of modules, but the factory reproduces the configuration and mounting status of the local information processing device that detected the fault. Even if a module that has been returned is mounted and a failure reproduction test is performed, the operating environment conditions are different, the configuration and the module mounting state are different, or human error occurs. Thus, it has been difficult to accurately reproduce the failure in a short time.

本発明においては、情報処理装置を構成する各モジュールに不揮発性メモリを備えるとともに、納入先の現地において障害の有無を確認するために実施される診断試験における障害検出時の障害情報(ログ情報)のみならず、再現試験に必要とする各種の再現情報(構成実装情報、動作環境条件、診断試験の試験情報等の情報)も含めて、障害再現試験情報として、保存し、かつ、保存した障害再現試験情報を、再現試験用として確実に利用することができ、誤って書き替えてしまうことがないように、不揮発性メモリの動作モードを障害検出モードから障害再現モードに切り替えることにしている。   In the present invention, each module constituting the information processing apparatus is provided with a non-volatile memory, and failure information (log information) at the time of failure detection in a diagnostic test performed to confirm the presence or absence of a failure at the delivery destination site Not only the various reproduction information necessary for the reproduction test (information such as configuration mounting information, operating environment conditions, diagnostic test information, etc.), and saved and saved failures as failure reproduction test information The operation mode of the nonvolatile memory is switched from the failure detection mode to the failure reproduction mode so that the reproduction test information can be reliably used for the reproduction test and is not rewritten by mistake.

而して、工場内における障害の再現作業において、再現試験用の情報処理装置を、納入先の現地の情報処理装置の構成と実装状況と同一の構成実装状態に設定していることを確認する作業、納入先の現地において障害を検出した時点の動作環境条件と同一の動作環境に設定する作業、診断試験を実施する作業、再現試験時における診断試験において検出した障害情報と納入先の現地における障害情報(ログ情報)との照合結果から障害の再現を確認する作業までのすべての作業を自動的に行う仕組みを構築している。   Therefore, in the failure reproduction work in the factory, confirm that the information processing device for the reproduction test is set to the same configuration and mounting state as the configuration and mounting status of the local information processing device at the delivery destination. Work, setting the operating environment to the same operating environment condition as when the fault was detected at the delivery site, performing the diagnostic test, fault information detected in the diagnostic test during the reproduction test, and the local location at the delivery destination A system is built to automatically perform all operations from the result of collation with failure information (log information) to the operation to confirm failure reproduction.

より具体的には、本発明においては、次のような仕組みを構築している。まず、保守交換単位となるモジュール単位に分割して、情報処理装置を複数のモジュールによって構成し、複数のモジュールそれぞれには、再現試験を行う際に必要となる各種再現情報を障害再現試験情報として保存しておくための不揮発性メモリを実装している。情報処理装置の納入先の現地に初期設置した時点および納入後においては定期的に診断試験が実施される。つまり、情報処理装置が起動される都度、正常に動作しているか否かを確認し、かつ、障害が検出された場合には障害の被疑部位を検出するための診断試験が自動的に実施される。   More specifically, in the present invention, the following mechanism is constructed. First, it is divided into module units, which are maintenance replacement units, and the information processing device is configured by a plurality of modules. Each of the plurality of modules has various reproduction information necessary for performing a reproduction test as failure reproduction test information. A non-volatile memory for storage is implemented. Diagnostic tests are regularly conducted when the information processing device is initially installed at the delivery site and after delivery. In other words, each time the information processing device is started, a diagnostic test is automatically performed to check whether the information processing apparatus is operating normally and to detect the suspected part of the failure when a failure is detected. The

障害が検出された場合には、当該障害が発生したと想定される障害被疑部位となるモジュールを特定し、当該障害に関する障害情報(ログ情報)のみならず、診断試験対象となっている当該情報処理装置の構成やモジュールの実装状況を示す構成実装情報、障害検出時の動作環境条件(温度や電源電圧等の情報処理装置が動作している環境条件)、障害検出時のテストパターンやテストシーケンスや作動タイミング等からなる診断試験の試験情報をも含めて、再現試験を行う際の障害再現試験情報として、障害被疑部位とされたモジュール内の不揮発性メモリに保存する。   When a failure is detected, the module that is the suspected failure site where the failure has occurred is identified, and not only the failure information (log information) related to the failure but also the information that is the subject of the diagnostic test Configuration mounting information indicating the configuration of the processing device and module mounting status, operating environment conditions at the time of failure detection (environmental conditions for operating the information processing device such as temperature and power supply voltage), test patterns and test sequences at the time of failure detection Including the test information of the diagnostic test including the operation timing and the like, the failure reproduction test information when performing the reproduction test is stored in a nonvolatile memory in the module designated as the failure suspected part.

障害被疑部位として戻入されてきたモジュールを用いて、工場において障害の再現試験を行う場合には、該モジュール内の不揮発性メモリに障害再現試験情報として保存されている各種再現情報を読み出して、再現試験用の情報処理装置の構成とモジュールの実装状態の確認、障害検出時の動作環境条件の再現、障害検出時の診断試験の再現を自動的に行い、再現試験において採取した障害情報と不揮発性メモリに保存されている障害情報(ログ情報)とを自動的に照合することによって、再現試験において同一障害が検出されたか否かを確認する作業に至るまでの各作業を自動的に行う。   When performing a failure reproduction test in a factory using a module that has been returned as a suspected failure site, various reproduction information stored as failure reproduction test information in the nonvolatile memory in the module is read and reproduced. Confirms the configuration of information processing equipment for testing and module mounting status, reproduces the operating environment conditions at the time of failure detection, and reproduces the diagnostic test at the time of failure detection automatically. By automatically collating the failure information (log information) stored in the memory, each operation up to the operation of confirming whether or not the same failure is detected in the reproduction test is automatically performed.

かくのごとく、不揮発性メモリに保存されている障害再現試験情報を参照することにより、現地における障害検出時の動作環境と同一の動作環境を確実に構築して、障害検出時と同一の条件で診断試験を実施し、診断試験結果として採取した障害情報を現地で収集した障害情報(ログ情報)と自動的に照合して、障害の再現を自動的に確認する仕組みを有しているので、従来の再現試験のような人手による操作や確認を削減するとともに、人為的なミスの混入を防止することにより、短時間で正確に再現試験を実施することができる。   In this way, by referring to the failure reproduction test information stored in the non-volatile memory, the same operating environment as that at the time of failure detection is reliably constructed, and under the same conditions as at the time of failure detection. Because it has a mechanism to automatically check the failure reproduction by conducting a diagnostic test and automatically checking the failure information collected as a result of the diagnostic test with the failure information (log information) collected locally. In addition to reducing manual operation and confirmation as in the conventional reproduction test, the reproduction test can be accurately performed in a short time by preventing the introduction of human error.

(実施形態の構成例)
次に、本発明による情報処理装置および情報処理装置障害再現方法の実施形態について詳細に説明する。まず、図1と図2とを用いて、本発明による情報処理装置の構成例について説明する。図1は、本発明による情報処理装置障害再現システムに適用する情報処理装置のブロック構成の一例を示すブロック構成図であり、本情報処理装置においては、複数に分割した各モジュールに発生する障害を検出する動作や発生した障害の再現試験の動作を少なくとも管理するサービスプロセッサを備えるとともに、障害発生時において保守交換単位となるモジュールそれぞれには、再現試験を行う際に必要となる各種再現情報を障害再現試験情報として保存するための不揮発性メモリを少なくとも実装している。
(Configuration example of embodiment)
Next, embodiments of the information processing apparatus and the information processing apparatus failure reproduction method according to the present invention will be described in detail. First, a configuration example of an information processing apparatus according to the present invention will be described with reference to FIGS. 1 and 2. FIG. 1 is a block configuration diagram showing an example of a block configuration of an information processing device applied to an information processing device failure reproduction system according to the present invention. In this information processing device, a failure that occurs in each module divided into a plurality is divided. A service processor that at least manages the operation to detect and the operation to reproduce the failure that has occurred is provided, and each module that serves as a maintenance replacement unit at the time of the failure has various types of reproduction information required for the reproduction test. At least a non-volatile memory for storing as reproduction test information is mounted.

また、図2は、図1に示す情報処理装置を構成する各モジュール内の構成の一例を示す構成図であり、図1の情報処理装置内のCPUモジュール100内の構成例について、本発明の特徴として新たに実装する不揮発性メモリや温度センサに関する部位を中心に示している。   2 is a block diagram showing an example of the configuration in each module constituting the information processing apparatus shown in FIG. 1, and the configuration example in the CPU module 100 in the information processing apparatus in FIG. As a feature, a part related to a newly mounted nonvolatile memory and a temperature sensor is mainly shown.

図1の情報処理装置においては、主として、情報処理や数値計算等の演算処理を行うCPU(Central Processing Unit)を搭載した4個のCPUモジュール100〜103と、CPUそれぞれからのメモリアクセスを処理するMMU(Memory Management Unit)を搭載した4個のMMUモジュール200〜203とが、それぞれ、インターコネクト500〜503によって接続されている。   In the information processing apparatus of FIG. 1, four CPU modules 100 to 103 each equipped with a CPU (Central Processing Unit) that performs arithmetic processing such as information processing and numerical calculation, and memory access from each CPU are processed. Four MMU modules 200 to 203 mounted with an MMU (Memory Management Unit) are connected by interconnects 500 to 503, respectively.

また、CPUモジュール100〜103の各CPUとは独立して、当該情報処理装置の全体の管理を行うサービスプロセッサ300と、CPUモジュール100〜103とMMUモジュール200〜203とサービスプロセッサ300とに電源を供給する電源ユニット400とが、CPUインターフェース600〜603と、メモリインターフェース610〜613とによって、CPUモジュール100〜103とMMUモジュール200〜203とに、それぞれ、バス接続されている。   Further, power is supplied to the service processor 300 that manages the entire information processing apparatus, the CPU modules 100 to 103, the MMU modules 200 to 203, and the service processor 300 independently of the CPUs of the CPU modules 100 to 103. The power supply unit 400 to be supplied is bus-connected to the CPU modules 100 to 103 and the MMU modules 200 to 203 by CPU interfaces 600 to 603 and memory interfaces 610 to 613, respectively.

なお、図1には図示していないが、電源ユニット400は、CPUモジュール100〜103、MMUモジュール200〜203、サービスプロセッサ300の各モジュールへ供給しているそれぞれの電源電圧の電圧値を検知する電圧センサを含み、サービスプロセッサ300から電源ユニット400の電圧センサにアクセスして、各モジュールの電源電圧値を読み取ることができる。また、サービスプロセッサ300から電源ユニット400へアクセスすることにより、CPUモジュール100〜103、MMUモジュール200〜203、サービスプロセッサ300の各モジュールへ供給する電源電圧の電圧値を制御することも可能である。   Although not shown in FIG. 1, the power supply unit 400 detects the voltage values of the power supply voltages supplied to the modules of the CPU modules 100 to 103, the MMU modules 200 to 203, and the service processor 300. A voltage sensor is included, and the service processor 300 can access the voltage sensor of the power supply unit 400 to read the power supply voltage value of each module. Further, by accessing the power supply unit 400 from the service processor 300, it is also possible to control the voltage value of the power supply voltage supplied to the CPU modules 100 to 103, the MMU modules 200 to 203, and the service processor 300 modules.

また、図1には図示していないが、再現試験用に用いる情報処理装置には、さらに、冷却ファンやヒーター回路を内蔵しており、再現試験時の動作環境条件の一つであるモジュールの温度を、障害検出時の温度に調整することができる。なお、電源ユニット400から各モジュールに電源として供給する電圧値を検知する電圧センサは、電源ユニット400側ではなく、CPUモジュール100〜103、MMUモジュール200〜203、サービスプロセッサ300の各モジュール側に配置するようにしても良い。   Although not shown in FIG. 1, the information processing apparatus used for the reproduction test further includes a cooling fan and a heater circuit, and is a module that is one of the operating environment conditions during the reproduction test. The temperature can be adjusted to the temperature at the time of failure detection. Note that the voltage sensor that detects the voltage value supplied from the power supply unit 400 to each module as a power supply is arranged not on the power supply unit 400 side but on each module side of the CPU modules 100 to 103, the MMU modules 200 to 203, and the service processor 300. You may make it do.

次に、図1に示す情報処理装置を構成する各モジュール内の構成例について、図1のCPUモジュール100を例にとって図2を用いて説明する。   Next, a configuration example in each module constituting the information processing apparatus shown in FIG. 1 will be described with reference to FIG. 2 taking the CPU module 100 of FIG. 1 as an example.

図2に示すように、図1の情報処理装置内のCPUモジュール100内には、CPUモジュール100として通常の演算処理を行うためのCPU100aの他に、障害再現試験情報として各種再現情報を保存するための不揮発性メモリ100bおよび当該CPUモジュール100内の温度を検知する温度センサ100cとを少なくとも備えており、インターフェース制御部100dを介して、それぞれ、外部のモジュールとの間で情報の送受信を行い、外部から制御を行うことを可能としている。   As shown in FIG. 2, in the CPU module 100 in the information processing apparatus of FIG. 1, various reproduction information is stored as failure reproduction test information in addition to the CPU 100a for performing normal arithmetic processing as the CPU module 100. At least a temperature sensor 100c for detecting the temperature in the CPU module 100 and transmitting / receiving information to / from an external module via the interface control unit 100d, It is possible to control from the outside.

つまり、CPU100aは、インターフェース100iを介して、インターフェース制御部100dに接続されており、CPUインターフェース600を介して電源ユニット400からの電源供給を受け、インターコネクト500を介して外部のMMUモジュール200に対してメモリアクセスを行うことにより演算処理を行うとともに、サービスプロセッサ300との間で情報交換を行うことを可能としている。   In other words, the CPU 100 a is connected to the interface control unit 100 d via the interface 100 i, receives power supply from the power supply unit 400 via the CPU interface 600, and is supplied to the external MMU module 200 via the interconnect 500. It is possible to perform arithmetic processing by performing memory access and to exchange information with the service processor 300.

また、不揮発性メモリ100b、温度センサ100cは、それぞれ、インターフェース100j、インターフェース100kを介して、インターフェース制御部100dに接続されており、CPUインターフェース600を介して電源ユニット400からの電源供給をそれぞれ受けるとともに、サービスプロセッサ300との間でそれぞれ情報交換を行い、外部から制御を行うことを可能としている。   The nonvolatile memory 100b and the temperature sensor 100c are connected to the interface control unit 100d via the interface 100j and the interface 100k, respectively, and receive power supply from the power supply unit 400 via the CPU interface 600, respectively. The information can be exchanged with the service processor 300 and controlled from the outside.

なお、CPUモジュール100以外のその他のモジュールすなわちCPUモジュール101〜103、MMUモジュール200〜203の各モジュールについても、全く同様の回路構成を採用しており、それぞれに、各モジュールの機能を実現するための回路部の他に、障害再現試験情報として各種再現情報を保存するための不揮発性メモリおよび内部温度を検知する温度センサとを少なくとも備えており、インターフェース制御部を介して、それぞれ、外部のモジュールとの間で情報の送受信を行い、外部から制御を行うことを可能としている。   The other modules other than the CPU module 100, that is, the CPU modules 101 to 103 and the MMU modules 200 to 203 have the same circuit configuration, and realize the function of each module. In addition to the circuit section of FIG. 4, the apparatus includes at least a nonvolatile memory for storing various reproduction information as failure reproduction test information and a temperature sensor for detecting the internal temperature. It is possible to send and receive information to and from outside and to control from outside.

次に、図2に示したCPUモジュール100内の不揮発性メモリ100bに障害再現試験情報として保存される各種再現情報のうち、障害発生時における構成実装情報として、各モジュールの構成情報と実装情報とに関する情報と、障害発生時における動作環境条件として、温度センサ100cによって検知される障害発生時のCPUモジュール100内の温度および電源ユニット400から供給される障害発生時のCPUモジュール100の電源の電圧値に関する情報と、のそれぞれについて、その一例を、図3と図4とを用いて、説明する。   Next, among the various reproduction information stored as the failure reproduction test information in the nonvolatile memory 100b in the CPU module 100 shown in FIG. 2, as the configuration mounting information at the time of the failure, the configuration information and the mounting information of each module As information on the operation and the operating environment conditions at the time of failure, the temperature in the CPU module 100 at the time of failure detected by the temperature sensor 100c and the voltage value of the power supply of the CPU module 100 at the time of failure supplied from the power supply unit 400 An example of each of the information on the information will be described with reference to FIGS. 3 and 4.

図3は、図1に示す情報処理装置の各モジュール例えばCPUモジュール100内の不揮発性メモリ100bに保存する、障害発生時における構成実装情報に関する情報の一例を示す説明図であり、各モジュールの構成情報と実装情報とに関する情報が2バイトの情報量からなっている例を示している。   FIG. 3 is an explanatory diagram showing an example of information related to configuration mounting information at the time of failure, which is stored in each module of the information processing apparatus shown in FIG. 1, for example, the nonvolatile memory 100b in the CPU module 100. In this example, the information related to the information and the mounting information is composed of 2 bytes of information.

図3に示す例においては、不揮発性メモリ100bに保存する各モジュールの構成実装情報に関する情報が、各モジュールに関する構成情報と実装情報とからなっており、不揮発性メモリ100b内の構成実装情報用の保存領域の第0ビット目から第15ビット目までに保存される。   In the example shown in FIG. 3, the information related to the configuration mounting information of each module stored in the nonvolatile memory 100b is composed of the configuration information and mounting information related to each module, and is used for the configuration mounting information in the nonvolatile memory 100b. It is stored from the 0th bit to the 15th bit of the storage area.

図3に示すように、構成実装情報用の保存領域内の第0ビット目から第7ビット目までの8ビットには、4個のCPUモジュール100〜103の構成実装情報が保存され、第8ビット目から第15ビット目までの8ビットには、4個のMMUモジュール200〜203の構成実装情報が保存される。   As shown in FIG. 3, the configuration mounting information of the four CPU modules 100 to 103 is stored in the 8 bits from the 0th bit to the 7th bit in the storage region for configuration mounting information. Configuration mounting information of the four MMU modules 200 to 203 is stored in 8 bits from the bit 15 to the 15th bit.

例えば、ビット位置11aおよび項目11bに示すように、第0ビットと第1ビットとの組み合わせ([1:0])は、CPUモジュールの実装位置を示しており、値11cに示すように、第1ビット、第0ビットの値が"0b00"の場合は、ソケット(Socket)0としてCPUモジュール100が実装されることを示している。   For example, as shown in the bit position 11a and the item 11b, the combination of the 0th bit and the 1st bit ([1: 0]) indicates the mounting position of the CPU module, and as shown in the value 11c, When the values of the 1st bit and the 0th bit are “0b00”, it indicates that the CPU module 100 is mounted as a socket 0.

また、第2ビットと第3ビットとの組み合わせ([3:2])は、CPUモジュールに実装されるCPUの種類を示しており、値11cに示すように、第3ビット、第2ビットの値が"0b00"の場合は、リビジョン番号がRev.AのCPUであることを示している。   The combination of the second bit and the third bit ([3: 2]) indicates the type of CPU mounted on the CPU module. As shown by the value 11c, the combination of the third bit and the second bit is shown. When the value is “0b00”, the revision number is Rev. This indicates that the CPU is A.

また、第4ビット〜第7ビットのそれぞれは、CPUモジュール100〜103それぞれの状態を示しており、値11cに示すように、第4ビット目が"0"の場合は、CPUモジュール100が無効の状態にあり、"1"の場合は、CPUモジュール100が有効の状態にあることを示している。   Each of the 4th to 7th bits indicates the state of each of the CPU modules 100 to 103. When the 4th bit is "0" as shown in the value 11c, the CPU module 100 is invalid. In this state, “1” indicates that the CPU module 100 is in a valid state.

MMUモジュールの場合も同様であり、例えば、ビット位置11aおよび項目11bに示すように、第8ビットと第9ビットとの組み合わせ([9:8])は、MMUモジュールの実装位置を示しており、値11cに示すように、第9ビット、第8ビットの値が"0b00"の場合は、ソケット(Socket)0としてMMUモジュール200が実装されることを示している。   The same applies to the MMU module. For example, as shown in the bit position 11a and the item 11b, the combination of the eighth bit and the ninth bit ([9: 8]) indicates the mounting position of the MMU module. As shown in the value 11c, when the values of the ninth bit and the eighth bit are “0b00”, it indicates that the MMU module 200 is mounted as the socket (Socket) 0.

また、第10ビットと第11ビットとの組み合わせ([11:10])は、MMUモジュールに実装されるメモリを構成するDIMM(Dual Inline Memory Module)の種類を示しており、値11cに示すように、第11ビット、第10ビットの値が"0b00"の場合は、RDIMM(Registered Long DIMM)であることを示している。   The combination of the 10th bit and the 11th bit ([11:10]) indicates the type of DIMM (Dual Inline Memory Module) that constitutes the memory mounted on the MMU module, as indicated by the value 11c. In addition, when the values of the eleventh bit and the tenth bit are “0b00”, this indicates that it is an RDIMM (Registered Long DIMM).

また、第12ビット〜第15ビットのそれぞれは、MMUモジュール200〜203それぞれの状態を示しており、値11cに示すように、第12ビット目が"0"の場合は、MMUモジュール200が無効の状態にあり、"1"の場合は、MMUモジュール200が有効の状態にあることを示している。   Each of the 12th to 15th bits indicates the state of each of the MMU modules 200 to 203. As shown in the value 11c, when the 12th bit is “0”, the MMU module 200 is invalid. In this state, “1” indicates that the MMU module 200 is in a valid state.

図4は、図1に示す情報処理装置の各モジュール例えばCPUモジュール100内の不揮発性メモリ100bに保存する、障害発生時における動作環境条件に関する情報の一例を示す説明図であり、障害発生時において各モジュールが置かれている動作環境条件に関して、温度センサ100cによって検知される温度と電源ユニット400から供給される電源の電圧値とに関する情報が2バイトの情報量からなっている例を示している。   FIG. 4 is an explanatory diagram showing an example of information related to operating environment conditions at the time of failure, which is stored in the nonvolatile memory 100b in each module of the information processing apparatus shown in FIG. 1, for example, the CPU module 100. With respect to the operating environment condition in which each module is placed, an example is shown in which the information about the temperature detected by the temperature sensor 100c and the voltage value of the power supplied from the power supply unit 400 is an information amount of 2 bytes. .

図4に示す例においては、不揮発性メモリ100bに保存する各モジュールの動作環境条件に関する情報が、各モジュールの温度に関する情報と電源電圧値に関する情報とからなっており、不揮発性メモリ100b内の動作環境条件用の保存領域の第0ビット目から第15ビット目までに保存される。   In the example shown in FIG. 4, the information related to the operating environment condition of each module stored in the nonvolatile memory 100b includes information related to the temperature of each module and information related to the power supply voltage value, and the operation in the nonvolatile memory 100b. It is stored from the 0th bit to the 15th bit of the storage area for environmental conditions.

図4に示すように、動作環境条件用の保存領域内の第0ビット目から第7ビット目までの8ビットには、温度に関する情報が保存され、第8ビット目から第15ビット目までの8ビットには、電源電圧値に関する情報が保存される。   As shown in FIG. 4, temperature information is stored in the 8th bit from the 0th bit to the 7th bit in the storage area for operating environment conditions, and the 8th to 15th bits are stored. In 8 bits, information on the power supply voltage value is stored.

例えば、ビット位置12aおよび項目12bに示すように、第0ビット〜第7ビットまでの領域([7:0])には、障害発生時における各モジュール内の温度が、値12cに示すように、0℃〜255℃の範囲内の2進数表現で保存される。   For example, as shown in the bit position 12a and the item 12b, in the area from the 0th bit to the 7th bit ([7: 0]), the temperature in each module at the time of the failure is indicated by a value 12c. , Stored in binary notation in the range of 0 ° C to 255 ° C.

また、ビット位置12aおよび項目12bに示すように、第8ビット〜第15ビットまでの領域([15:8])には、障害発生時において電源ユニット400から供給されている各モジュールの電源の電圧値が、値12cに示すように、0.01V刻みで0V〜2.55Vまでの範囲内の2進数表現で保存される。   In addition, as shown in the bit position 12a and the item 12b, the area from the 8th bit to the 15th bit ([15: 8]) includes the power supply of each module supplied from the power supply unit 400 when a failure occurs. The voltage value is stored in binary notation in the range from 0V to 2.55V in increments of 0.01V, as shown by value 12c.

情報処理装置が納入された納入先の現地において、図1に示す情報処理装置のサービスプロセッサ300の制御の下、当該情報処理装置の診断試験を実施する都度、サービスプロセッサ300において、CPUモジュール100〜103とMMUモジュール200〜203との各モジュールそれぞれにアクセスして、それぞれのモジュール内に搭載されているCPUとMMUとに関する情報を採取して、障害発生時における各モジュールの構成実装情報に関する情報として、図3に例示するようなフォーマットに編集する。   Each time a diagnostic test of the information processing apparatus is performed under the control of the service processor 300 of the information processing apparatus shown in FIG. 103 and the MMU modules 200 to 203 are accessed to collect information on CPUs and MMUs mounted in the respective modules, and information on the configuration and mounting information of each module when a failure occurs. Then, the format is edited as shown in FIG.

同様に、図1に示すサービスプロセッサ300は、診断試験結果として或るモジュールを障害被疑部位として検出した際に、CPUモジュール100〜103とMMUモジュール200〜203とに搭載されている温度センサと、電源ユニット400に実装されている電圧センサとにそれぞれアクセスして、障害検出時の障害被疑部位となるモジュールの温度と電源ユニット400から当該モジュールに供給している電源の電圧値とを少なくとも採取して、障害発生時における各モジュールの動作環境条件に関する情報として、図4に例示するようなフォーマットに編集する。   Similarly, when the service processor 300 shown in FIG. 1 detects a certain module as a suspected failure site as a diagnostic test result, the temperature sensor mounted on the CPU modules 100 to 103 and the MMU modules 200 to 203, Each of the voltage sensors mounted on the power supply unit 400 is accessed to collect at least the temperature of the module that becomes a suspected failure site when a failure is detected and the voltage value of the power supplied from the power supply unit 400 to the module. Then, the information related to the operating environment condition of each module at the time of failure occurrence is edited into a format illustrated in FIG.

(実施形態の動作の説明)
次に、図1、図2に示した情報処理装置の動作について、その一例を、図5と図6とに示すフローチャートを用いて詳細に説明する。図5は、本発明による情報処理装置における障害検出モードの動作の一例を説明するためのフローチャートであり、納入先に初期設定した際に実施する診断試験並びに納入後において保守作業として定期的に実施する診断試験において、障害の発生の有無を確認し、障害が発生した場合に、障害が発生したと想定される障害被疑部位のモジュールを特定するとともに、障害の再現試験に必要とする各種再現情報を、障害再現試験情報として収集する動作の一例を示している。
(Description of operation of embodiment)
Next, an example of the operation of the information processing apparatus shown in FIGS. 1 and 2 will be described in detail with reference to the flowcharts shown in FIGS. FIG. 5 is a flowchart for explaining an example of the operation of the failure detection mode in the information processing apparatus according to the present invention, which is periodically performed as a diagnostic test performed when initially set in the delivery destination and maintenance work after delivery. In the diagnostic test, confirm whether or not a failure has occurred, and if a failure occurs, specify the module of the suspected failure that is assumed to have occurred, and various reproduction information required for the failure reproduction test Shows an example of an operation for collecting the information as failure reproduction test information.

また、図6は、本発明による情報処理装置における障害再現モードの動作の一例を説明するためのフローチャートであり、図5の障害検出モードにおいて障害再現試験情報として収集した各種再現情報に基づいて、納入先において障害が発生した情報処理装置の構成および実装状態と同一の状態を再現して、納入先における診断試験と同一の診断試験を再現試験として実施することによって、障害が再現するか否かを確認する動作の一例を示している。   FIG. 6 is a flowchart for explaining an example of the operation in the failure reproduction mode in the information processing apparatus according to the present invention. Based on the various reproduction information collected as the failure reproduction test information in the failure detection mode in FIG. Whether or not the failure is reproduced by reproducing the same state as the configuration and mounting state of the information processing device where the failure occurred at the delivery destination, and performing the same diagnostic test as the reproduction test at the delivery destination An example of the operation for confirming is shown.

まず、図5に示す障害検出モード動作のフローチャートを用いて、障害が発生した場合の障害被疑部位となるモジュールを特定するとともに、再現試験において必要となる障害再現試験情報を収集する動作について、その一例を説明する。   First, using the flowchart of the failure detection mode operation shown in FIG. 5, the operation of identifying the module that is the suspected failure site when a failure occurs and collecting the failure reproduction test information necessary for the reproduction test, An example will be described.

図5のフローチャートにおいて、情報処理装置を起動すると(ステップS100)、診断対象となる各モジュール内に実装されている不揮発性メモリのモード情報(例えば、診断対象のモジュールが、図2に示すCPUモジュール100の場合には、不揮発性メモリ100bに設定されているモード情報)を読み込み、障害検出モードか否かを判定する(ステップS101)。納入先において障害の有無を確認するために診断試験の実施を指示する障害検出モードの動作を指定している場合には(ステップS101のYES)、ステップS102へと進み、そうでない場合には(ステップS101のNO)、工場内において納入先で発生した障害を再現するために再現試験の実施を指示する障害再現モードの動作を指定している場合であり、図6に示す障害再現モード(障害再現試験)の動作に移行する(ステップS200)。   In the flowchart of FIG. 5, when the information processing apparatus is activated (step S100), the mode information of the nonvolatile memory mounted in each module to be diagnosed (for example, the module to be diagnosed is the CPU module shown in FIG. In the case of 100, the mode information set in the non-volatile memory 100b is read to determine whether or not the failure detection mode is set (step S101). If the delivery destination designates an operation in a failure detection mode for instructing the execution of a diagnostic test in order to confirm the presence or absence of a failure (YES in step S101), the process proceeds to step S102, otherwise ( NO in step S101) is a case in which the operation of the failure reproduction mode instructing the execution of the reproduction test is designated in order to reproduce the failure that occurred at the delivery destination in the factory. The operation proceeds to a reproduction test) (step S200).

障害検出モードであった場合には(ステップS101のYES)、図1に示すサービスプロセッサ300において、診断対象となるCPUモジュール100〜103とMMUモジュール200〜203との各モジュールそれぞれにアクセスして、それぞれのモジュール内に搭載されている各CPUと各MMUとに関する構成情報と実装情報とを構成実装情報として採取する(ステップS102)。   If it is in the failure detection mode (YES in step S101), the service processor 300 shown in FIG. 1 accesses each module of the CPU modules 100 to 103 and MMU modules 200 to 203 to be diagnosed, Configuration information and mounting information related to each CPU and each MMU mounted in each module are collected as configuration mounting information (step S102).

しかる後、サービスプロセッサ300は、採取した構成実装情報に基づいて、障害被疑部位を検出するための診断試験のメニューを作成するとともに(ステップS103)、各モジュールに関するテストパターンやテストシーケンスや作動タイミング等の診断試験の試験情報を採取する(ステップS104)。サービスプロセッサ300は、採取した試験情報に基づいて、各モジュールの診断試験を実行して(ステップS105)、診断対象の各モジュールについて、診断試験結果として障害を検出したか否かを判定する(ステップS106)。   After that, the service processor 300 creates a menu of a diagnostic test for detecting the suspected failure part based on the collected configuration mounting information (step S103), and the test pattern, test sequence, operation timing, etc. for each module. Test information of the diagnostic test is collected (step S104). The service processor 300 executes a diagnostic test for each module based on the collected test information (step S105), and determines whether a failure has been detected as a diagnostic test result for each module to be diagnosed (step S105). S106).

障害を検出した場合は(ステップS106のYES)、ステップS300へと進むが、障害を検出しなかった場合は(ステップS106のNO)、ステップS107へと進み、最後の診断試験まで実施したか否かを確認する(ステップS107)。最後の診断試験まで実施した場合には(ステップS107のYES)、診断対象の情報処理装置の各モジュールは正常に動作しているものと判定して、障害検出モードにおける動作を終了する(ステップS108)。一方、最後の診断試験まで実施していなかった場合には(ステップS107のNO)、次の診断試験へと進む処理を行った後(ステップS400)、ステップS103に戻って、次の診断試験の作成を行う動作を繰り返す。   If a failure is detected (YES in step S106), the process proceeds to step S300. If a failure is not detected (NO in step S106), the process proceeds to step S107, and whether or not the last diagnostic test has been performed. (Step S107). If the last diagnostic test has been performed (YES in step S107), it is determined that each module of the information processing apparatus to be diagnosed is operating normally, and the operation in the failure detection mode is terminated (step S108). ). On the other hand, if the last diagnostic test has not been performed (NO in step S107), the process proceeds to the next diagnostic test (step S400), and then returns to step S103 to return to the next diagnostic test. Repeat the creation process.

ステップS106において障害を検出した場合は(ステップS106のYES)、サービスプロセッサ300は、障害被疑部位となるモジュールを特定するとともに、当該モジュールに搭載されている温度センサと、電源ユニット400に実装されている電圧センサとにそれぞれアクセスして、当該モジュールの温度と電源ユニット400から当該モジュールに供給している電源の電圧値とを採取して、障害発生時における当該モジュールの動作環境条件に関する情報として採取する(ステップS300)。さらに、特定した障害被疑部位となるモジュールに関する障害情報(ログ情報)として、少なくとも障害の検出箇所と種別とからなる情報を採取する(ステップS301)。   If a failure is detected in step S106 (YES in step S106), the service processor 300 identifies a module that is a suspected failure site, and is mounted on the temperature sensor mounted on the module and the power supply unit 400. Each voltage sensor is accessed and the temperature of the module and the voltage value of the power supply supplied to the module from the power supply unit 400 are collected, and collected as information on the operating environment conditions of the module when a failure occurs (Step S300). Furthermore, as failure information (log information) related to the identified module that is the suspected failure site, information including at least a failure detection location and a type is collected (step S301).

しかる後、サービスプロセッサ300は、採取した各種の情報(構成実装情報、動作環境条件、診断試験の試験情報、障害情報(ログ情報)等に関する情報)を、再現試験において必要とする各種の再現情報(すなわち障害再現試験情報)として編集して、障害被疑部位と推定されるモジュール内に実装されている不揮発性メモリの所定の領域に保存する(ステップS302)。   After that, the service processor 300 uses the collected various information (configuration and mounting information, operating environment conditions, diagnostic test information, failure information (log information), etc.) as various reproduction information necessary for the reproduction test. It is edited as (that is, failure reproduction test information) and stored in a predetermined area of a nonvolatile memory mounted in a module that is presumed to be a failure suspected part (step S302).

さらに、障害被疑部位と推定されるモジュール内の不揮発性メモリに保存した障害再現試験情報が書き換えられないように、当該モジュール内の不揮発性メモリに設定されている動作モードを、障害検出モードから障害再現モードに書き換えた後、当該モジュールを正常なモジュールと交換する(ステップS303)。かかる処理が実施されると、診断対象の情報処理装置において障害が発生している障害被疑部位のモジュールが検出された旨をコンソール画面に表示して、障害検出モードにおける動作を終了する(ステップS108)。   In addition, in order to avoid rewriting the failure reproduction test information stored in the nonvolatile memory in the module that is estimated to be the suspected failure site, the operation mode set in the nonvolatile memory in the module is changed from the failure detection mode to the failure detection mode. After rewriting to the reproduction mode, the module is replaced with a normal module (step S303). When such processing is performed, the console screen displays that a faulty suspected part module where a fault has occurred in the information processing apparatus to be diagnosed is detected, and the operation in the fault detection mode is terminated (step S108). ).

次に、図6に示す障害再現モード動作のフローチャートを用いて、納入先の現地で実施した診断試験結果として検出された障害を再現するために、工場内において実施される再現試験の動作について、その一例を説明する。   Next, using the flowchart of the failure reproduction mode operation shown in FIG. 6, in order to reproduce the failure detected as a result of the diagnostic test performed at the delivery site, the operation of the reproduction test performed in the factory, One example will be described.

図6のフローチャートにおいて、納入先の現地から障害被疑部位とされたモジュールが戻入されてきたとき、オペレータは、工場に戻入されてきた障害被疑部位のモジュール内に実装されている不揮発性メモリ内に保存されている障害発生時の構成実装情報(構成情報と実装情報)を読み出して、再現試験用として工場内に設置されている情報処理装置の構成とモジュールの実装状態とを、障害発生時の情報処理装置の構成とモジュールの実装状態と同一の状態に設定する(ステップS500)。なお、納入先の現地から戻入された障害被疑部位のモジュール(例えばCPUモジュール100)は、再現試験用の情報処理装置の同一モジュールと差し替えられて、再現試験用の情報処理装置に実装されているので、該モジュール内の不揮発性メモリに保存されている情報は、サービスプロセッサ300によって読み取られて、コンソール画面上に画面表示することができる。   In the flowchart of FIG. 6, when a module designated as a suspected fault site is returned from the delivery site, the operator stores the module in the non-volatile memory mounted in the suspected fault module returned to the factory. Read the stored configuration mounting information (configuration information and mounting information) at the time of failure, and check the configuration of the information processing device installed in the factory and the module mounting status for the reproduction test. The configuration of the information processing apparatus and the module mounting state are set to the same state (step S500). The module (for example, the CPU module 100) of the suspected failure part returned from the delivery site is replaced with the same module of the information processing apparatus for the reproduction test and mounted on the information processing apparatus for the reproduction test. Therefore, the information stored in the nonvolatile memory in the module can be read by the service processor 300 and displayed on the console screen.

しかる後、障害再現用として情報処理装置を起動すると(ステップS501)、障害被疑部位として診断対象とされたモジュール内に実装されている不揮発性メモリのモード情報(例えば、診断対象のモジュールが、図2に示すCPUモジュール100の場合には、不揮発性メモリ100bに設定されているモード情報)を読み込み、障害再現モードか否かを判定する(ステップS502)。   After that, when the information processing apparatus is activated for failure reproduction (step S501), the mode information (for example, the module to be diagnosed is displayed in the non-volatile memory mounted in the module to be diagnosed as the suspected failure portion). In the case of the CPU module 100 shown in FIG. 2, the mode information set in the nonvolatile memory 100b is read to determine whether or not the failure reproduction mode is set (step S502).

図5のフローチャートにおいて説明したように、納入先の現地における障害検出モードの診断試験において障害を検出して、該動作モードを障害再現モードに切り替えていた場合には(ステップS502のYES)、工場内において納入先で発生した障害を再現するために再現試験の実施を指示している場合であり、ステップS503へと進み、そうでない場合には(ステップS502のNO)、納入先の現地において障害の有無を確認するために診断試験を実施すべき障害検出モードの動作を指示している場合であり、図5に示す障害検出モード(障害有無の確認用の診断試験)の動作に移行する(ステップS600)。   As described in the flowchart of FIG. 5, when a fault is detected in the diagnostic test in the fault detection mode at the delivery site and the operation mode is switched to the fault reproduction mode (YES in step S502), the factory In order to reproduce the failure that occurred at the delivery destination in the customer, the process proceeds to step S503, and if not (NO in step S502), the failure at the delivery destination site. This is a case in which an operation in a failure detection mode in which a diagnostic test is to be performed in order to confirm the presence / absence of the failure is instructed, and the operation shifts to an operation in the failure detection mode (diagnostic test for checking the presence / absence of failure) shown in FIG. Step S600).

障害再現モードであった場合には(ステップS502のYES)、図1に示すサービスプロセッサ300により、診断対象となる障害被疑部位のモジュール内の不揮発性メモリ(例えばCPUモジュール100の不揮発性メモリ100b)の所定の領域に保存されている障害再現試験情報を読み出す(ステップS503)。該障害再現試験情報は、図5において前述したように、再現試験において必要とする各種の再現情報(構成実装情報、動作環境条件、診断試験の試験情報、障害情報(ログ情報)等に関する情報)として、納入先の現地における障害検出モードの動作において障害被疑部位のモジュール内の不揮発性メモリ(例えばCPUモジュール100の不揮発性メモリ100b)に設定されている。   If it is in the failure reproduction mode (YES in step S502), the service processor 300 shown in FIG. 1 causes the service processor 300 shown in FIG. 1 to store the nonvolatile memory in the suspected failure module (for example, the nonvolatile memory 100b of the CPU module 100). The failure reproduction test information stored in the predetermined area is read (step S503). As described above with reference to FIG. 5, the failure reproduction test information includes various types of reproduction information required for the reproduction test (configuration mounting information, operating environment conditions, diagnostic test information, information on failure information (log information), etc.). Are set in the nonvolatile memory (for example, the nonvolatile memory 100b of the CPU module 100) in the module at the suspected failure site in the operation of the failure detection mode at the delivery site.

しかる後、サービスプロセッサ300は、読み出した障害再現試験情報に含まれている構成実装情報と、ステップS500においてオペレータが設定した再現試験用の情報処理装置の構成とモジュールの実装状態が一致しているか否かを確認する(ステップS504)。一致していた場合には(ステップS504のYES)、再現試験用の情報処理装置として構成およびモジュールの実装状態が正しく構築されている場合であり、ステップ505へと進む。   Thereafter, the service processor 300 confirms that the configuration mounting information included in the read failure reproduction test information matches the configuration of the information processing apparatus for the reproduction test set by the operator and the module mounting state in step S500. It is confirmed whether or not (step S504). If they match (YES in step S504), the configuration and the module mounting state of the information processing apparatus for the reproduction test are correctly constructed, and the process proceeds to step 505.

一方、一致していなかった場合は(ステップS504のNO)、ステップ700へと進んで、再現試験用の情報処理装置の構成または実装状況が、障害が検出された情報処理装置の構成または実装状況を再現していない旨をコンソール画面上に画面表示して、オペレータに通報した後(ステップS700)、情報処理装置を再現試験用として正しく構築させるために、ステップS500へ復帰する。   On the other hand, if they do not match (NO in step S504), the process proceeds to step 700, where the configuration or mounting status of the information processing apparatus for reproduction test is the configuration or mounting status of the information processing apparatus in which the failure is detected. Is displayed on the console screen and notified to the operator (step S700), the process returns to step S500 to correctly construct the information processing apparatus for the reproduction test.

再現試験用の情報処理装置が正しく構築されているものとして、ステップ505へと進むと、サービスプロセッサ300は、読み出した障害再現試験情報に含まれている動作環境条件(すなわち、障害発生時の温度、供給された電源電圧値等)と同じ動作環境に設定されるように、障害被疑部位である診断対象のモジュール(例えばCPUモジュール100)の温度や電源ユニット400から供給される電源の電圧値を調整する(ステップS505)。すなわち、サービスプロセッサ300は、冷却ファンの回転数やヒーター回路の電流値を制御して、診断対象のモジュール(例えばCPUモジュール100)の温度を調整し、かつ、電源ユニット400を制御して、電源ユニット400からの供給電圧を調整する。   Assuming that the information processing apparatus for the reproduction test is correctly constructed, the process proceeds to step 505, where the service processor 300 determines the operating environment conditions (that is, the temperature at the time of the failure occurrence) included in the read failure reproduction test information. , The temperature of the diagnosis target module (for example, the CPU module 100) that is a suspected failure site and the voltage value of the power supplied from the power supply unit 400 are set so that the same operating environment as that of the power supply voltage value supplied) is set. Adjustment is made (step S505). That is, the service processor 300 controls the rotation speed of the cooling fan and the current value of the heater circuit, adjusts the temperature of the module to be diagnosed (for example, the CPU module 100), and controls the power supply unit 400 to The supply voltage from the unit 400 is adjusted.

読み出した障害再現試験情報に含まれている動作環境条件と同じ動作環境に設定されると、サービスプロセッサ300は、読み出した障害再現試験情報に含まれている診断試験の試験情報を再現して、診断対象とする障害被疑部位のモジュールに関する診断試験を実行して(ステップS506)、診断試験結果として障害を検出したか否かを判定する(ステップS507)。   If the same operating environment as the operating environment condition included in the read failure reproduction test information is set, the service processor 300 reproduces the test information of the diagnostic test included in the read failure reproduction test information, A diagnostic test relating to the module of the suspected fault site to be diagnosed is executed (step S506), and it is determined whether or not a fault has been detected as a diagnostic test result (step S507).

障害を検出した場合は(ステップS507のYES)、ステップS507へと進むが、障害を検出しなかった場合は(ステップS507のNO)、ステップS800へと進み、再現試験においては、障害が再現しなかった旨をコンソール画面に画面表示して、オペレータに通知した後(ステップS800)、再現試験には失敗したものと判定して、障害再現モードにおける動作を終了する(ステップS511)。   If a failure is detected (YES in step S507), the process proceeds to step S507. If a failure is not detected (NO in step S507), the process proceeds to step S800, and the failure is reproduced in the reproduction test. After notifying the operator of the failure on the console screen and notifying the operator (step S800), it is determined that the reproduction test has failed, and the operation in the failure reproduction mode is terminated (step S511).

ステップS507において障害を検出した場合は(ステップS507のYES)、サービスプロセッサ300は、障害被疑部位のモジュールに関する障害の検出箇所と種別とを示す障害情報(ログ情報)を採取し(ステップS508)、障害再現モードにおいて採取した障害情報(ログ情報)が、読み出した障害再現試験情報に含まれている障害検出モードにおける障害情報(ログ情報)と一致しているか否かを確認する(ステップS509)。   If a failure is detected in step S507 (YES in step S507), the service processor 300 collects failure information (log information) indicating the detected location and type of the failure related to the module of the suspected failure portion (step S508), It is checked whether or not the failure information (log information) collected in the failure reproduction mode matches the failure information (log information) in the failure detection mode included in the read failure reproduction test information (step S509).

障害再現モードにおいて採取した障害情報(ログ情報)が障害検出モードにおける障害情報(ログ情報)と一致していた場合には(ステップS509のYES)、納入先の現地における障害検出モードの診断試験において検出された障害が、障害再現モードの診断試験においても再現されたものと判定して、障害が再現された旨をコンソール画面に画面表示して、オペレータに通知した後(ステップS510)、再現試験に成功したものと判定して、障害再現モードにおける動作を終了する(ステップS511)。   If the failure information (log information) collected in the failure reproduction mode matches the failure information (log information) in the failure detection mode (YES in step S509), in the failure detection mode diagnostic test at the delivery destination site It is determined that the detected fault has been reproduced in the diagnostic test in the fault reproduction mode, the fact that the fault has been reproduced is displayed on the console screen, and the operator is notified (step S510), and then the reproduction test. And the operation in the failure reproduction mode is terminated (step S511).

一方、障害再現モードにおいて採取した障害情報(ログ情報)が障害検出モードにおける障害情報(ログ情報)に一致していなかった場合には(ステップS509のNO)、障害再現モードの診断試験においては、障害が検出されたものの、納入先の現地における障害検出モードの診断試験において検出された障害とは異なる新規の障害が検出されたものと判定して、再現試験において新規の障害が検出された旨をコンソール画面に画面表示して、オペレータに通知した後(ステップS510)、再現試験にて異なる障害要因がさらに発生しているものと判定して、障害再現モードにおける動作を終了する(ステップS511)。   On the other hand, when the failure information (log information) collected in the failure reproduction mode does not match the failure information (log information) in the failure detection mode (NO in step S509), in the failure reproduction mode diagnostic test, Although a fault was detected, it was determined that a new fault different from the fault detected in the diagnostic test in the fault detection mode at the delivery site was detected, and a new fault was detected in the reproduction test. Is displayed on the console screen and notified to the operator (step S510), it is determined that a different failure factor has further occurred in the reproduction test, and the operation in the failure reproduction mode is terminated (step S511). .

以上のような障害検出モードにおける動作は、前述したように、納入先の現地における情報処理装置の初期設置時や定期的な保守作業における診断試験の場合を想定している。しかし、本発明はかかる場合に限るものではない。例えば、アプリケーションを使用している通常運用時において動作が異常になった時点で、各モジュールの障害の有無を確認するために診断試験を実行するようにしても良い。かくのごとく、アプリケーションの動作異常時に実施した診断試験において検出した障害についても、同様に、再現試験において必要とする各種の再現情報(構成実装情報、動作環境条件、診断試験の試験情報、障害情報(ログ情報)等に関する情報)を、障害再現試験情報として採取して、工場内における障害再現モードにおける動作に利用することによって、障害の再現の可能性を高めることができる。   As described above, the operation in the failure detection mode as described above assumes a case of an initial installation of an information processing apparatus at a delivery destination site or a diagnostic test in a periodic maintenance operation. However, the present invention is not limited to such a case. For example, a diagnostic test may be executed to confirm the presence or absence of a failure in each module when the operation becomes abnormal during normal operation using the application. As described above, various types of reproduction information (configuration mounting information, operating environment conditions, diagnostic test information, fault information, etc.) required for the reproduction test are similarly applied to the fault detected in the diagnostic test performed when the application operation is abnormal. (Information relating to (log information) etc.) is collected as failure reproduction test information and used for operation in the failure reproduction mode in the factory, thereby increasing the possibility of failure reproduction.

(実施形態の効果の説明)
以上に詳細に説明したように、本実施形態においては、以下に記載するような効果を得ることができる。
(Explanation of effect of embodiment)
As described in detail above, in the present embodiment, the following effects can be obtained.

第1の効果は、再現試験において必要とする各種の再現情報を、障害再現試験情報として、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存しているので、該モジュールを戻入してきた工場内において、障害検出時の情報処理装置と同一の環境に設定して、正確な再現試験を実施することができることにある。   The first effect is that various reproduction information required in the reproduction test is stored as a failure reproduction test information in a non-volatile memory mounted in the module which is a suspected failure part. In an established factory, an accurate reproduction test can be performed by setting the same environment as the information processing apparatus at the time of failure detection.

第2の効果は、障害被疑部位となるモジュール内に実装されている不揮発性メモリに保存した障害再現試験情報の読み出し動作から、再現試験用の情報処理装置の構成実装状態の確認、再現試験用の動作環境の設定、再現試験用の診断試験の実行、再現試験用の診断試験結果である障害情報(ログ情報)の採取と障害検出時の障害情報(ログ情報)との照合動作に至るまで、障害再現モードの各動作を自動的に行っているので、短時間に、かつ、正確に、再現試験を実行することができることにある。   The second effect is that, from the read operation of the failure reproduction test information stored in the non-volatile memory mounted in the module that is the suspected failure site, the configuration mounting state of the information processing apparatus for the reproduction test is confirmed and the reproduction test is performed. Up to the setting of the operating environment, execution of diagnostic tests for reproduction tests, collection of fault information (log information) as diagnostic test results for reproduction tests, and collation with fault information (log information) when faults are detected Since each operation in the failure reproduction mode is automatically performed, the reproduction test can be executed in a short time and accurately.

第3の効果は、納入先の現地への初期設置時や納入先における定期的な保守作業時のみならず、アプリケーションを使用している通常運用時に発生した障害についても、再現試験用の情報処理装置において障害発生時と同一の環境を再現して、再現試験を実施しているので、納入先における障害の再現の可能性をさらに高めることができることにある。   The third effect is that not only during initial installation at the customer's site or during regular maintenance work at the customer's site, but also information that can be reproduced during normal operation using the application. Since the reproduction environment is reproduced by reproducing the same environment as when the failure occurred in the apparatus, the possibility of reproducing the failure at the delivery destination can be further increased.

以上、本発明の好適な実施形態の構成を説明した。しかし、かかる実施形態は、本発明の単なる例示に過ぎず、何ら本発明を限定するものではないことに留意されたい。本発明の要旨を逸脱することなく、特定用途に応じて種々の変形変更が可能であることが、当業者には容易に理解できよう。   The configuration of the preferred embodiment of the present invention has been described above. However, it should be noted that such embodiments are merely examples of the present invention and do not limit the present invention in any way. Those skilled in the art will readily understand that various modifications and changes can be made according to a specific application without departing from the gist of the present invention.

例えば、上述の実施の形態では、図2に示すように、CPUモジュール100では温度センサ100cがCPU100aとは別に設けてある。しかしながら、本発明では、CPU100aが予め温度センサを内蔵しているときは、温度センサ100cに代えて、その内蔵の温度センサで以ってCPUモジュール100の温度を検知するようにしても差し支えない。そして、このようにCPU100aに内蔵されている温度センサによりCPUモジュール100の温度を検知するときは、サービスプロセッサ300はインターフェース100iを介してCPU100a内蔵の温度センサの温度を取得できるので、インターフェース100kは不要となる。同様に、情報処理装置内の他のモジュールについても、そのモジュール内の素子に予め温度センサが内蔵されており、サービスプロセッサ300がその内蔵温度センサにアクセスできる構成であれば、格別な温度センサを設けることは必要でない。   For example, in the above-described embodiment, as shown in FIG. 2, in the CPU module 100, the temperature sensor 100c is provided separately from the CPU 100a. However, in the present invention, when the CPU 100a has a built-in temperature sensor, the temperature of the CPU module 100 may be detected by the built-in temperature sensor instead of the temperature sensor 100c. When the temperature of the CPU module 100 is detected by the temperature sensor built in the CPU 100a in this way, the service processor 300 can acquire the temperature of the temperature sensor built in the CPU 100a via the interface 100i, so the interface 100k is unnecessary. It becomes. Similarly, for other modules in the information processing apparatus, if the temperature sensor is built in the element in the module in advance and the service processor 300 can access the built-in temperature sensor, a special temperature sensor is used. It is not necessary to provide it.

また、上述の実施の形態では、情報処理装置には冷却ファンやヒーター回路を内蔵しており、再現試験においては、サービスプロセッサ300は、診断対象のモジュール(例えばCPUモジュール100)の温度が、読み出した障害再現試験情報に含まれている障害発生時の温度に設定されるように、冷却ファンの回転数やヒーター回路の電流値を制御した。しかしながら、本発明では、再現試験における情報処理装置の温度調整のために冷却ファンやヒーター回路をその情報処理装置に内蔵することは必ずしも必要ではなく、診断対象のモジュールにおけるCPUモジュール(例えば、CPUモジュール100)に負荷プログラムを実行させ、或いはその情報処理装置における診断対象のモジュール以外のモジュールにおけるCPUモジュールにも負荷プログラムを実行させ、その診断対象のモジュールにおけるCPUモジュールの温度を障害発生時の温度に調整するようにしても差し支えない。   In the above-described embodiment, the information processing apparatus incorporates a cooling fan and a heater circuit. In the reproduction test, the service processor 300 reads the temperature of the module to be diagnosed (for example, the CPU module 100). The rotation speed of the cooling fan and the current value of the heater circuit were controlled so that the temperature at the time of the failure included in the failure reproduction test information was set. However, in the present invention, it is not always necessary to incorporate a cooling fan or a heater circuit in the information processing apparatus for adjusting the temperature of the information processing apparatus in the reproduction test, and a CPU module (for example, a CPU module) in the module to be diagnosed 100), or the CPU module in a module other than the module to be diagnosed in the information processing apparatus executes the load program, and the temperature of the CPU module in the module to be diagnosed is set to the temperature at the time of occurrence of the fault. You can adjust it.

11a ビット位置
11b 項目
11c 値
12a ビット位置
12b 項目
12c 値
100 CPUモジュール
100a CPU100a
100b 不揮発性メモリ
100c 温度センサ
100d インターフェース制御部
101 CPUモジュール
102 CPUモジュール
103 CPUモジュール
200 MMUモジュール
201 MMUモジュール
202 MMUモジュール
203 MMUモジュール
300 サービスプロセッサ
400 電源ユニット
500 インターコネクト
501 インターコネクト
502 インターコネクト
503 インターコネクト
600 CPUインターフェース
601 CPUインターフェース
602 CPUインターフェース
603 CPUインターフェース
610 メモリインターフェース
611 メモリインターフェース
612 メモリインターフェース
613 メモリインターフェース
11a Bit position 11b Item 11c Value 12a Bit position 12b Item 12c Value 100 CPU module 100a CPU 100a
100b Non-volatile memory 100c Temperature sensor 100d Interface control unit 101 CPU module 102 CPU module 103 CPU module 200 MMU module 201 MMU module 202 MMU module 203 MMU module 300 Service processor 400 Power supply unit 500 Interconnect 501 Interconnect 502 503 Interconnect 600 CPU interface 601 CPU interface 602 CPU interface 603 CPU interface 610 Memory interface 611 Memory interface 612 Memory interface 613 Memory interface

Claims (10)

保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置において、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする情報処理装置。   Check if there is a fault in the module that is the maintenance replacement unit, and if a fault is detected, operate the fault detection mode to identify the module at the suspected faulty part and reproduce the fault that occurred in the module at the suspected faulty part. An information processing apparatus including a service processor that manages at least a failure reproduction mode operation, wherein each of the plurality of modules includes at least a nonvolatile memory, and the service processor detects a failure in the operation of the failure detection mode. In such a case, various kinds of reproduction information necessary for the operation in the failure reproduction mode are collected and stored as failure reproduction test information in the nonvolatile memory mounted in the module specified in the suspected failure portion. In the operation of the failure reproduction mode, the module in the module of the suspected failure site By referring to the failure reproduction test information stored in the volatile memory, to reproduce the operating environment of detection of a failure, the information processing apparatus characterized by performing a reproduction test failure. 前記障害再現試験情報は、前記障害検出モードの動作における障害の発生状況のログ情報を示す障害情報のみならず、前記障害検出モードの動作における障害被疑部位の前記モジュールの動作環境条件を示す情報を少なくとも含んで構成されていることを特徴とする請求項1に記載の情報処理装置。   The failure reproduction test information includes not only failure information indicating log information of a failure occurrence state in the operation in the failure detection mode but also information indicating an operation environment condition of the module at the suspected failure portion in the operation in the failure detection mode. The information processing apparatus according to claim 1, comprising at least an information processing apparatus. 前記動作環境条件を示す情報として、障害検出時における障害被疑部位の前記モジュール内の温度を示す情報、および、障害検出時における障害被疑部位の前記モジュールに供給されている電源電圧値を少なくとも含むことを特徴とする請求項2に記載の情報処理装置。   The information indicating the operating environment condition includes at least information indicating the temperature in the module at the suspected fault site at the time of fault detection and a power supply voltage value supplied to the module at the suspected fault site at the time of fault detection. The information processing apparatus according to claim 2. 前記障害再現試験情報は、前記障害検出モードの動作における構成と前記モジュールの実装状態とを示す構成実装情報と、障害検出時の診断試験の試験情報とをさらに含んで構成されていることを特徴とする請求項2または3に記載の情報処理装置。   The failure reproduction test information further includes configuration mounting information indicating a configuration in the operation of the failure detection mode and a mounting state of the module, and test information of a diagnostic test at the time of failure detection. The information processing apparatus according to claim 2 or 3. 保守交換単位となるモジュールの障害の有無を確認し、障害が検出された場合、障害被疑部位の前記モジュールを特定する障害検出モードの動作と、障害被疑部位の前記モジュールに発生した障害の再現を行う障害再現モードの動作と、を少なくとも管理するサービスプロセッサを備えた情報処理装置における障害再現方法であって、複数の前記モジュールそれぞれに不揮発性メモリを少なくとも備え、前記サービスプロセッサは、前記障害検出モードの動作において障害を検出した場合、前記障害再現モードの動作において必要とする各種の再現情報を採取して、障害再現試験情報として、障害被疑部位に特定された前記モジュール内に実装されている前記不揮発性メモリに保存し、前記障害再現モードの動作において、障害被疑部位の前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報を参照することにより、障害検出時の動作環境を再現して、障害の再現試験を行うことを特徴とする情報処理装置障害再現方法。   Check if there is a fault in the module that is the maintenance replacement unit, and if a fault is detected, operate the fault detection mode to identify the module at the suspected fault site and reproduce the fault that occurred in the module at the suspected fault site A failure reproduction method in an information processing apparatus including a service processor for managing at least a failure reproduction mode operation, wherein each of the plurality of modules includes at least a nonvolatile memory, and the service processor includes the failure detection mode. When a failure is detected in the operation of the above, various reproduction information required in the operation of the failure reproduction mode is collected, and the failure reproduction test information is mounted in the module specified in the suspected failure portion Stored in a non-volatile memory, and in the operation of the failure reproduction mode, Information processing apparatus fault reproduction, wherein the fault reproduction test is performed by reproducing the operating environment at the time of fault detection by referring to the fault reproduction test information stored in the nonvolatile memory in the module Method. 前記障害再現試験情報は、前記障害検出モードの動作における障害の発生状況のログ情報を示す障害情報のみならず、前記障害検出モードの動作における障害被疑部位の前記モジュールの動作環境条件を示す情報を少なくとも含んで構成されていることを特徴とする請求項5に記載の情報処理装置障害再現方法。   The failure reproduction test information includes not only failure information indicating log information of a failure occurrence state in the operation in the failure detection mode but also information indicating an operation environment condition of the module at the suspected failure portion in the operation in the failure detection mode. The information processing apparatus failure reproduction method according to claim 5, comprising at least an information processing apparatus. 前記動作環境条件を示す情報として、障害検出時における障害被疑部位の前記モジュール内の温度を示す情報、および、障害検出時における障害被疑部位の前記モジュールに供給されている電源電圧値を少なくとも含むことを特徴とする請求項6に記載の情報処理装置障害再現方法。   The information indicating the operating environment condition includes at least information indicating the temperature in the module at the suspected fault site at the time of fault detection and a power supply voltage value supplied to the module at the suspected fault site at the time of fault detection. The information processing apparatus failure reproduction method according to claim 6. 前記障害再現試験情報は、前記障害検出モードの動作における構成と前記モジュールの実装状態とを示す構成実装情報と、障害検出時の診断試験の試験情報とをさらに含んで構成されていることを特徴とする請求項6または7に記載の情報処理装置障害再現方法。   The failure reproduction test information further includes configuration mounting information indicating a configuration in the operation of the failure detection mode and a mounting state of the module, and test information of a diagnostic test at the time of failure detection. The information processing apparatus failure reproduction method according to claim 6 or 7. 前記障害再現モードの動作において、障害被疑部位の前記モジュールを実装した際の再現試験用の構成と前記モジュールの実装状態とを、前記障害検出モードの動作時と同一の状態に構成した際に、前記サービスプロセッサは、前記モジュール内の前記不揮発性メモリに保存されている前記障害再現試験情報の中の前記構成実装情報を読み取り、再現試験用の構成と実装状態が前記構成実装情報と一致しているか否かを確認し、一致している場合、前記障害再現試験情報の中の前記動作環境条件を読み取って、該動作環境条件と同一の動作環境を自動的に再現した後、前記障害再現試験情報の中の前記試験診断の試験情報を読み取って、前記障害検出モードの障害検出時と同一の診断試験を実施して、診断試験結果として前記障害再現試験情報の中の前記障害情報と同一の障害情報が得られたか否かを確認することにより、前記障害検出モードの動作時において検出された障害が再現されたか否かを判別することを特徴とする請求項8に記載の情報処理装置障害再現方法。   In the operation in the failure reproduction mode, when the configuration for the reproduction test when the module of the suspected failure portion is mounted and the mounting state of the module are configured in the same state as in the operation in the failure detection mode, The service processor reads the configuration mounting information in the failure reproduction test information stored in the nonvolatile memory in the module, and the configuration for the reproduction test and the mounting state match the configuration mounting information. If it matches, the operation environment condition in the failure reproduction test information is read and the same operation environment as the operation environment condition is automatically reproduced, and then the failure reproduction test is performed. The test information of the test diagnosis in the information is read, and the same diagnostic test as that at the time of detecting the fault in the fault detection mode is performed. It is determined whether or not a failure detected at the time of operation in the failure detection mode is reproduced by checking whether or not the same failure information as the failure information is obtained. Item 9. The information processing apparatus failure reproduction method according to Item 8. 請求項5ないし9のいずれかに記載の情報処理装置障害再現方法を、コンピュータによって実行可能なプログラムとして実施していることを特徴とする情報処理装置障害再現プログラム。   10. An information processing device failure reproduction program, wherein the information processing device failure reproduction method according to claim 5 is implemented as a program executable by a computer.
JP2010276893A 2010-12-13 2010-12-13 Information processing apparatus, information processing apparatus fault reproduction method, and information processing apparatus fault reproduction program Expired - Fee Related JP5300089B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010276893A JP5300089B2 (en) 2010-12-13 2010-12-13 Information processing apparatus, information processing apparatus fault reproduction method, and information processing apparatus fault reproduction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010276893A JP5300089B2 (en) 2010-12-13 2010-12-13 Information processing apparatus, information processing apparatus fault reproduction method, and information processing apparatus fault reproduction program

Publications (2)

Publication Number Publication Date
JP2012128489A true JP2012128489A (en) 2012-07-05
JP5300089B2 JP5300089B2 (en) 2013-09-25

Family

ID=46645471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010276893A Expired - Fee Related JP5300089B2 (en) 2010-12-13 2010-12-13 Information processing apparatus, information processing apparatus fault reproduction method, and information processing apparatus fault reproduction program

Country Status (1)

Country Link
JP (1) JP5300089B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167030A (en) * 1990-10-31 1992-06-15 Hitachi Ltd Fault processing system
JPH07311689A (en) * 1994-05-17 1995-11-28 Hitachi Ltd Verification system of information processor
JP2005033325A (en) * 2003-07-08 2005-02-03 Fuji Photo Film Co Ltd Electronic camera
JP2005301593A (en) * 2004-04-09 2005-10-27 Fujitsu Ltd Multiprocessor system, and processor device
JP2010146072A (en) * 2008-12-16 2010-07-01 Nec Corp Apparatus, method and program for monitoring failure of computer
WO2012026035A1 (en) * 2010-08-27 2012-03-01 富士通株式会社 Fault processing method, fault processing system, fault processing device and fault processing program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167030A (en) * 1990-10-31 1992-06-15 Hitachi Ltd Fault processing system
JPH07311689A (en) * 1994-05-17 1995-11-28 Hitachi Ltd Verification system of information processor
JP2005033325A (en) * 2003-07-08 2005-02-03 Fuji Photo Film Co Ltd Electronic camera
JP2005301593A (en) * 2004-04-09 2005-10-27 Fujitsu Ltd Multiprocessor system, and processor device
JP2010146072A (en) * 2008-12-16 2010-07-01 Nec Corp Apparatus, method and program for monitoring failure of computer
WO2012026035A1 (en) * 2010-08-27 2012-03-01 富士通株式会社 Fault processing method, fault processing system, fault processing device and fault processing program

Also Published As

Publication number Publication date
JP5300089B2 (en) 2013-09-25

Similar Documents

Publication Publication Date Title
JP6171386B2 (en) Controller, information processing apparatus and program
US20180060148A1 (en) Bad block detection and predictive analytics in nand flash storage devices
CN103514068A (en) Method for automatically locating internal storage faults
US20080282113A1 (en) Failure information management method and apparatus, failure detection method and apparatus, electronic apparatus, information processing apparatus and computer-readable storage medium
JPWO2012026040A1 (en) Diagnostic module distribution device, diagnostic module distribution method, and diagnostic module distribution program
JP4648961B2 (en) Apparatus maintenance system, method, and information processing apparatus
JP5464128B2 (en) RAM failure diagnosis apparatus and program thereof
JP2006244269A (en) Facility managing device, program update system, facility management program updating method, starting program and facility management program
JP2014021577A (en) Apparatus, system, method, and program for failure prediction
US8161324B2 (en) Analysis result stored on a field replaceable unit
CN113961478A (en) Memory fault recording method and device
JP5300089B2 (en) Information processing apparatus, information processing apparatus fault reproduction method, and information processing apparatus fault reproduction program
JP5181479B2 (en) Fault diagnosis system and fault diagnosis program
CN105893196A (en) Server debugging auxiliary tool and system
US20050172176A1 (en) Method of verifying a monitoring and responsive infrastructure of a system
JP5279981B2 (en) Update control program, update control method, and update control apparatus
US8230261B2 (en) Field replaceable unit acquittal policy
JP2012160021A (en) Digital controller and its execution method
JP2009003557A (en) Device start time diagnostic method, diagnostic program, and start time diagnostic device
CN110502789A (en) A kind of SDR design method parallel based on BMC FW
JP5011159B2 (en) Computer with system monitoring circuit
JP5278267B2 (en) END COVER, PROGRAMMABLE LOGIC CONTROLLER DEVICE EQUIPPED WITH THE SAME, END COVER INSTALLATION CHECK METHOD, AND PROGRAMMABLE LOGIC CONTROLLER FAILURE DIAGNOSIS METHOD
US20070226536A1 (en) Apparatus, system, and method for information validation in a heirarchical structure
JP2007148570A (en) Diagnostic device and diagnostic method for storage device
JP2009015553A (en) Storage device, program, and memory failure recovery method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130614

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees