JP2008186173A - Fault monitoring system - Google Patents
Fault monitoring system Download PDFInfo
- Publication number
- JP2008186173A JP2008186173A JP2007018151A JP2007018151A JP2008186173A JP 2008186173 A JP2008186173 A JP 2008186173A JP 2007018151 A JP2007018151 A JP 2007018151A JP 2007018151 A JP2007018151 A JP 2007018151A JP 2008186173 A JP2008186173 A JP 2008186173A
- Authority
- JP
- Japan
- Prior art keywords
- state
- failure
- monitoring
- status
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、複数のオペレーティングシステムによって各オペレーティングシステムの状態を相互に監視させ合い、障害の発生状況を詳細に記録できる障害監視システムに関する。 The present invention relates to a failure monitoring system that allows a plurality of operating systems to mutually monitor the status of each operating system and to record a failure occurrence state in detail.
従来、ウォッチドッグ等の専用のハードウェアを追加することなくオペレーティングシステム(以下、OS(Operating System)とする。)の状態を監視する計算機が知られている(例えば、特許文献1参照。)。 2. Description of the Related Art Conventionally, a computer that monitors the state of an operating system (hereinafter referred to as an OS (Operating System)) without adding dedicated hardware such as a watchdog is known (for example, see Patent Document 1).
この計算機は、プロセッサ上で二つの独立したOS(第一及び第二OS)を動作させ、第一OSの状態を監視するソフトウェアプログラムである障害監視モニタを第二OS上で実行させ、さらに、第一OSと第二OSとの間の通信を可能とするOS間通信手段を介して第一OSから第二OSに送信される所定の信号に基づいて障害監視モニタに第一OSにおける障害の有無を判定させる。すなわち、この計算機は、ソフトウェアである第二OSにハードウェアであるウォッチドッグの機能を代用させることにより、第一OSから独立した機能により、第一OSの障害を監視できるようにする。
しかしながら、特許文献1に記載の計算機は、第二OSの状態を監視することができず、第二OSに障害が発生した場合には、計算機全体の信頼性が損なわれることになる。障害が発生した第二OS上で動作する障害監視モニタによって第一OSの状態を監視することとなるからである。
However, the computer described in
上述の点に鑑み、本発明は、複数のオペレーティングシステムによって各オペレーティングシステムの状態を相互に監視させ合い、障害の発生状況を詳細に記録できる障害監視システムを提供することを目的とする。 In view of the above, it is an object of the present invention to provide a failure monitoring system that allows a plurality of operating systems to mutually monitor the status of each operating system and record a failure occurrence state in detail.
上述の目的を達成するために、第一の発明に係る障害監視システムは、複数のオペレーティングシステムを動作させるプロセッサを有するコンピュータシステムにおいて各オペレーティングシステムの状態を相互に監視させる障害監視システムであって、前記オペレーティングシステムは、共有メモリにおける自オペレーティングシステム対応領域に自オペレーティングシステムの状態を記録する自状態記録手段と、前記共有メモリにおける他オペレーティングシステム対応領域の記録内容を参照し、該記録内容が前記他オペレーティングシステムの所定状態を示す場合に、前記他オペレーティングシステム対応領域に所定内容を記録する他状態記録手段と、前記自オペレーティングシステム対応領域の記録内容に基づいて前記他オペレーティングシステムの状態を監視する他状態監視手段と、を備える、ことを特徴とする。 In order to achieve the above object, a failure monitoring system according to a first invention is a failure monitoring system for mutually monitoring the status of each operating system in a computer system having a processor for operating a plurality of operating systems. The operating system refers to own state recording means for recording the state of the own operating system in the own operating system corresponding area in the shared memory, and the recorded contents of the other operating system corresponding area in the shared memory, and the recorded contents are the other When indicating a predetermined state of the operating system, other state recording means for recording predetermined contents in the other operating system corresponding area, and the other operating system based on the recorded contents of the own operating system corresponding area Comprising the other state monitoring means for monitoring the state of the ring system, and wherein the.
また、第二の発明は、第一の発明に係る障害監視システムであって、前記他状態記録手段は、前記自状態記録手段が前記自オペレーティングシステムの状態を記録する度に、前記他オペレーティングシステム対応領域の記録内容を参照することを特徴とする。 The second invention is the fault monitoring system according to the first invention, wherein the other status recording means records the status of the own operating system each time the own status recording means records the status of the own operating system. The content recorded in the corresponding area is referred to.
また、第三の発明は、第一又は第二の発明に係る障害監視システムであって、前記プロセッサは、マルチコアプロセッサであり、前記複数のオペレーティングシステムは、それぞれ異なるコアで実行されることを特徴とする。 The third invention is a fault monitoring system according to the first or second invention, wherein the processor is a multi-core processor, and the plurality of operating systems are executed by different cores. And
上述の手段により、本発明は、複数のオペレーティングシステムによって各オペレーティングシステムの状態を相互に監視させ合い、障害の発生状況を詳細に記録できる障害監視システムを提供することができる。 With the above-described means, the present invention can provide a failure monitoring system that allows a plurality of operating systems to mutually monitor the status of each operating system and to record the occurrence status of a failure in detail.
以下、図面を参照しつつ、本発明を実施するための最良の形態の説明を行う。 Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings.
図1は、本発明に係る障害監視システムを備えたコンピュータシステムの構成例を示す図である。 FIG. 1 is a diagram illustrating a configuration example of a computer system including a failure monitoring system according to the present invention.
コンピュータシステム100は、マルチコアプロセッサ1、揮発性メモリ2、不揮発性メモリ3の構成要素を有し、システムバス4を介して各構成要素間を接続する。
The
マルチコアプロセッサ1は、二以上のプロセッサコアを一個のパッケージに集積したプロセッサであり、コンピュータシステム100は、一個のマルチコアプロセッサ1からなるマルチコアシングルプロセッサ構成を採用するが、複数個のマルチコアプロセッサからなるマルチコアマルチプロセッサ構成を採用してもよい。
The
なお、コンピュータシステム100は、複数の機能を分散処理させてリアルタイム処理性能を向上させるため、部品点数の削減によりコストを低減させるため、或いは、省電力化を図るためにマルチコアプロセッサ1を採用するが、本発明に係る障害監視システムは、一個のシングルコアプロセッサからなるシングルコアシングルプロセッサ構成、又は、複数個のシングルコアプロセッサからなるシングルコアマルチプロセッサ構成にも適用可能である。
Note that the
また、コンピュータシステム100は、共有メモリを有する密結合マルチプロセッサ構成を採用するが、全てのプロセッサが対等となる対称型マルチプロセッサ構成であってもよく、プロセッサ毎に異なる処理内容が予め決定される非対称型マルチプロセッサ構成であってもよい。
The
マルチコアプロセッサ1は、第一CPU(Central Processing Unit)10、第二CPU11、第三CPU12及び第四CPU13の四つのCPUコアを有し、第一CPU10に第一OS50を実行させ、第二CPU11、第三CPU12及び第四CPU13の三つのCPUコアに第二OS51を実行させるマルチOS構成を採用する。
The
「マルチOS構成」とは、複数のOSをプロセッサ上で独立に動作させる構成をいい、例えば、組み込みシステム向けのOSとして利用されるリアルタイム処理に長けたμITRON(Micro Industrial TRON(The Real-time Operating System Nucleus))等のリアルタイムOSと、Windows(登録商標)やLinux(登録商標)といった機能が豊富な汎用OSとを兼ね備えたハイブリッドOSがある。 “Multi-OS configuration” refers to a configuration in which a plurality of OSs are independently operated on a processor. For example, μITRON (Micro Industrial TRON (The Real-time Operating There is a hybrid OS that combines a real-time OS such as System Nucleus)) and a general-purpose OS having abundant functions such as Windows (registered trademark) and Linux (registered trademark).
第一OS50及び第二OS51は、それぞれ、リアルタイムOS又は汎用OSの何れであってもよく、自状態記録手段500、510、他状態記録手段501、511、及び、他状態監視手段502、512をそれぞれ有する。
Each of the
揮発性メモリ2は、高速アクセスが要求される主記憶装置として使用される半導体メモリであり、例えば、DRAM(Dynamic Random Access Memory)やSRAM(Static RAM)等であって、第一OS50及び第二OS51によって共有される。
The
不揮発性メモリ3は、電源を切った後も記憶内容を保持できるメモリであり、例えば、フラッシュメモリ、FRAM(Ferroelectric RAM)、MRAM(Magneto-resistive RAM)等であって、揮発性メモリ2と同様に、第一OS50及び第二OS51によって共有される。なお、不揮発性メモリ3は、ハードディスク等の補助記憶装置であってもよい。
The
図2は、各種メモリの構成例を示す図であり、図2(A)が揮発性メモリ2の構成例を示し、図2(B)が不揮発性メモリ3の構成例を示す。
FIG. 2 is a diagram illustrating a configuration example of various memories, FIG. 2A illustrates a configuration example of the
揮発性メモリ2は、第一OS50の起動状態を記憶する第一OS起動情報領域20と、第二OS51の起動状態を記憶する第二OS起動情報領域21とを有する(図2(A)参照。)。
The
また、不揮発性メモリ3は、第一OS50の障害情報を記憶する第一OS障害情報領域30と、第二OS51の障害情報を記憶する第二OS障害情報領域31とを有し、各障害情報領域30、31は、障害の発生回数を記憶する障害発生回数領域300、310と、障害の内容を記憶する障害内容領域301、311と、をそれぞれ有する(図2(B)参照。)。
The
システムバス4は、CPUとメモリとを結ぶバスであり、例えば、ノースブリッジ等のチップセットとCPUとを結ぶフロントサイドバス、及び、チップセットとメモリとを結ぶメモリバスで構成されてもよい。 The system bus 4 is a bus that connects a CPU and a memory, and may be configured by, for example, a front side bus that connects a chip set such as a north bridge and a CPU, and a memory bus that connects a chip set and a memory.
次に、第一OS50及び第二OS51のそれぞれが有する自状態記録手段500、510、他状態記録手段501、511及び他状態監視手段502、512について説明する。
Next, the own
自状態記録手段500、510は、自OSの状態を記録するための手段であり、例えば、第一OS50の自状態記録手段500は、第一OS50の起動状態を揮発性メモリ2の第一OS起動情報領域20に記録し、第二OS51の自状態記録手段510は、第二OS51の起動状態を揮発性メモリ2の第二OS起動情報領域21に記録する。
The own state recording means 500 and 510 are means for recording the state of the own OS. For example, the own state recording means 500 of the
他状態記録手段501、511は、他OSの状態を記録するための手段であり、例えば、第一OS50の他状態記録手段501は、揮発性メモリ2の第二OS起動情報領域21に記録された第二OS51の起動状態を示す値(以下、「状態値」という。)を所定の状態値に書き換え、第二OS51の他状態記録手段511は、揮発性メモリ2の第一OS起動情報領域20に記録された第一OS50の状態値を所定の状態値に書き換える。
The other
他状態監視手段502、512は、他OSの状態を監視するための手段であり、例えば、第一OS50の他状態監視手段502は、第二OS51の他状態記録手段511によって書き換えられる第一OS起動情報領域20の内容を監視することで、第二OS51の起動処理における異常(以下、単に「障害」という。)を検知する。第二OS51で障害が発生すると、第二OS51の他状態記録手段511は、第一OS起動情報領域20の内容を書き換えることができなくなり、第一OS50は、第二OS51による書き換えが発生しないことによって間接的に第二OS51の障害を検知できるからである。
The other
反対に、第二OS51の他状態監視手段512は、第一OS50の他状態記録手段501によって書き換えられる第二OS起動情報領域21の内容を監視することで、第一OS50の障害を検知する。
On the contrary, the other
次に、図3を参照しながら、コンピュータシステム100上で動作する第一OS50及び第二OS51が相互に相手OSの起動状態を監視する処理(以下、「起動状態監視処理」とする。)について説明する。なお、図3は、起動状態監視処理の流れを示すフローチャートである。
Next, referring to FIG. 3, a process in which the
最初に、コンピュータシステム100は、第一CPU10を初期化した後、第一CPU10上で第一OS50を起動させる。
First, after initializing the
第一OS50は、起動処理を開始すると、自状態記録手段500により揮発性メモリ2の第一OS起動情報領域20に「起動開始」を示す状態値を記録する(ステップS1)。
When starting the boot process, the
このとき、第一OS50は、監視対象である相手OS(第二OS51)に関する情報を書き換える処理(以下、「他状態記録処理(後述)」という。)を実行させ、他状態記録手段501により揮発性メモリ2の第二OS起動情報領域21に記録された、第二OS51の状態を表す状態値を参照し、その状態値が第二OS51の「起動開始」を示す状態値である場合、第二OS起動情報領域21に記録された状態値を「起動開始確認」を示す状態値に書き換えるようにする。
At this time, the
なお、第一OS50は、自状態記録手段500により自身の状態値を第一OS起動情報領域20に記録する度に、他状態記録処理(後述)を実行する。
Each time the
その後、第一OS50は、第一OS起動情報領域20に記録された状態値を周期的に参照し、第二OS51における他状態記録処理(後述)によって第一OS起動情報領域20に記録された「起動開始」を示す状態値が「起動開始確認」を示す状態値に書き換えられるまで待機する(ステップS2)。
Thereafter, the
第一OS起動情報領域20に記録された状態値が「起動開始確認」を示す状態値に書き換えられたことを検出すると(ステップS2のYES)、第一OS50は、自状態記録手段500により第一OS起動情報領域20に「チェックポイント1」を示す状態値を記録し(ステップS3)、第一OS50における各種設定値を初期化する処理(以下、「OS初期化処理」とする。)を開始させる(ステップS4)。
When it is detected that the status value recorded in the first OS
一方、第一OS起動情報領域20に記録された状態値が「起動開始確認」を示す状態値に書き換えられないまま(ステップS2のNO)、第一OS起動情報領域20の参照回数が所定回数を上回ると(ステップS5のYES)、第一OS50は、他状態記録手段501により不揮発性メモリ3の第二OS障害情報領域31における障害発生回数領域310に記録された障害発生回数の値をインクリメントし(ステップS6)、かつ、不揮発性メモリ3の第二OS障害情報領域31における障害内容領域311に障害の内容として「起動確認障害」を表す値を記録(ステップS7)した後、OS初期化処理を開始させる(ステップS4)。
On the other hand, the state value recorded in the first OS
なお、第一OS50は、第二OS障害情報領域31における障害内容領域311に障害発生時刻、第一OS50の状態値、その他の各種設定値等を記録するようにしてもよい。後のデバッグに利用するためである。
The
また、第一OS50は、第二OS51に制御信号を送信し、第一OS50が記録した第二OS51の障害内容に対処するよう第二OS51に障害対応処理を実行させるようにしてもよい。
In addition, the
ここで、「障害対応処理」とは、相手OSで発生した障害を相手OSに除去させるための処理であり、例えば、発生した障害の回数やその障害の内容に応じて相手OSをリセットさせたり、再起動させたり、相手OSを縮退させたり(OSの一部の機能を制限し、他の一部の機能を動作させることをいい、例えば、相手OSを動作させる複数のプロセッサコアのうちの一部のコアを停止させたりする。)する処理がある。 Here, the “failure handling process” is a process for causing the partner OS to remove a fault that has occurred in the partner OS. For example, the partner OS may be reset in accordance with the number of faults that occurred and the content of the fault. , Restarting or degenerating the partner OS (referring to restricting some functions of the OS and operating some other functions, for example, among a plurality of processor cores that operate the partner OS Some cores are stopped.)
その後、第一OS50は、自状態記録手段500により第一OS起動情報領域20に「チェックポイント2」を示す状態値を記録し(ステップS8)、OS初期化処理が完了したことを確認(ステップS9)した後、自状態記録手段500により第一OS起動情報領域20に「起動完了」を示す状態値を記録して(ステップS10)、起動状態監視処理を終了させる。
Thereafter, the
また、第二OS51による第一OS50の起動状態監視処理は、上述した第一OS50による第二OS51の起動状態監視処理と同様に、上述した第一OS50による第二OS51の起動状態監視処理に平行かつ独立して第二OS51上で実行される。
In addition, the startup state monitoring process of the
次に、図4を参照しながら、他状態記録処理について説明する。なお、図4は、他状態記録処理の流れを示すフローチャートであり、第一OS50は、自状態記録手段500により第一OS起動情報領域20に第一OS50自身の状態値を記録する度に、他状態記録処理を実行するものとする。
Next, the other state recording process will be described with reference to FIG. FIG. 4 is a flowchart showing the flow of the other state recording process. The
最初に、第一OS50は、他状態記録手段501により揮発性メモリ2における第二OS起動情報領域21を参照し、第二OS51の状態値が「起動開始」を示す状態値となっているか否かを判定する(ステップS20)。
First, the
第二OS51の状態値が「起動開始」となっている場合(ステップS20のYES)、第一OS50は、第二OS起動情報領域21の状態値を「起動開始確認」を示す状態値に書き換える(ステップS21)。
When the status value of the
なお、第二OS51の状態値が「起動開始」となっていない場合(ステップS20のNO)、第一OS50は、第二OS起動情報領域21の状態値をそのまま維持させるようにして他状態記録処理を終了させる。
If the state value of the
また、第二OS51による第一OS50の他状態記録処理は、上述した第一OS50による第二OS51の他状態記録処理と同様に、上述した第一OS50による第二OS51の他状態記録処理に平行かつ独立して第二OS51上で実行される。
Further, the other state recording process of the
次に、図5を参照しながら、コンピュータシステム100上で動作する第一OS50及び第二OS51が相互に相手OSの障害状態を監視する処理(以下、「他状態監視処理」とする。)について説明する。なお、図5は、他状態監視処理の流れを示すフローチャートであり、各OSは、自身の起動処理を完了させた後、この他状態監視処理を繰り返し実行するものとする。
Next, referring to FIG. 5, a process in which the
最初に、第一OS50は、他状態監視手段502により揮発性メモリ2における第二OS起動情報領域21を参照し、第二OS51の状態値が「起動完了」を示す状態値となっているか否かを判定する(ステップS30)。
First, the
第二OS51の状態値が「起動完了」となっている場合(ステップS30のYES)、第一OS50は、不揮発性メモリ3における第二OS障害情報領域31に記録された第二OS51の障害に関する情報(障害発生回数及び障害内容)を消去して(ステップS31)、他状態監視処理を終了させる。
When the state value of the
第一OS50は、第二OS51の起動途中に第二OS51において障害が発生したことを検知していた場合であっても、第二OS51が最終的に起動処理を完了させたことを検知できたからである。
Even if the
なお、第一OS50は、第二OS51の状態値が「起動完了」となった場合であっても、他状態記録手段501により第二OS障害情報領域31に記録された内容を消去することなく、第二OS障害情報領域31にその内容を保持させるようにしてもよい。後のデバッグ等に利用できるようにするためである。
The
なお、第二OS51の状態値が「起動完了」となっていない場合(ステップS30のNO)、第一OS50は、ステップS30の判定回数をインクリメントした後、その判定回数が所定回数未満であるとき(ステップS32のNO)には、一旦、他状態監視処理を終了させる。
When the state value of the
一方、その判定回数が所定回数を上回るときには(ステップS32のYES)、第一OS50は、他状態監視手段502により不揮発性メモリ3の第二OS障害情報領域31における障害発生回数領域310に記録された障害発生回数の値をインクリメントし(ステップS33)、かつ、不揮発性メモリ3の第二OS障害情報領域31における障害内容領域311に、第二OS起動情報領域21に記録された状態値を障害内容として記録する(ステップS34)。
On the other hand, when the number of determinations exceeds the predetermined number (YES in step S32), the
その後、第一OS50は、第二OS51に制御信号を送信し、第一OS50が記録した第二OS51の障害内容に対処するよう第二OS51に障害対応処理を実行させるようにして、他状態監視処理を終了させる。
Thereafter, the
次に、図6を参照しながら、各OS起動情報領域に記録される状態値の遷移例について説明する。なお、図6は、第一OS起動情報領域20に記録される状態値の遷移の一例を示す図である。また、この場合、「監視側」は、監視側OSである第二OS51を意味し、「被監視側」は、被監視側OSである第一OS50を意味する。
Next, an example of transition of state values recorded in each OS boot information area will be described with reference to FIG. FIG. 6 is a diagram illustrating an example of state value transitions recorded in the first OS
第一OS起動情報領域20の状態は、状態値が不定値となっている初期状態P1、「起動開始」が設定された状態P2、「起動開始確認」が設定された状態P3、「チェックポイント1」が設定された状態P4、「チェックポイント2」が設定された状態P5、「起動完了」が設定された状態P6、及び、各種障害状態を示す値が設定された状態P7を有する。
The state of the first OS
状態P1は、コンピュータシステム100の電源がオンされた後、又は、状態P4〜P7において監視側により被監視側の再起動が実行された後の状態であり、例えば、第一CPU10が初期化された後、又は、第二OS51が第一OS50を再起動させた後の状態である。
The state P1 is a state after the
なお、監視側は、コンピュータシステム100全体を再起動させる必要がある場合にのみ、状態P6にある被監視側(第一OS50)の再起動を実行させる。被監視側(第一OS50)は、正常に起動処理を完了させているからである。
Note that the monitoring side causes the monitored side (first OS 50) in the state P6 to restart only when the
状態P2は、状態P1において被監視側が自身の起動処理を開始させた後の状態であり、例えば、第一OS50が自身の起動処理を開始させた状態であって、被監視側である第一OS50により状態値の書き換えが実行される。
The state P2 is a state after the monitored side starts its own startup process in the state P1, for example, a state where the
状態P3は、被監視側が状態P2にあることを監視側が確認した後の状態であり、例えば、第一OS50が第一OS50自身の起動処理を開始させたことを第二OS51が確認した後の状態であって、監視側である第二OS51により状態値の書き換えが実行される。
The state P3 is a state after the monitoring side confirms that the monitored side is in the state P2, for example, after the
状態P4は、被監視側が状態P3にあることを被監視側自身が確認した後の状態であり、例えば、第一OS50が第一OS50自身の起動処理を開始させたことを第二OS51が確認し、第一OS50がその第二OS51による確認をさらに確認した後の状態であって、被監視側である第一OS50により状態値の書き換えが実行される。
The state P4 is a state after the monitored side confirms that the monitored side is in the state P3. For example, the
なお、被監視側は、自身が状態P2から状態P3に移行せず所定期間にわたって状態P2に留まった場合、強制的に状態P2を状態P4に移行させ、被監視側のOS初期化処理を開始するようにする。監視側の障害によって被監視側が状態P3に停滞してしまうのを防止するためである。この場合、被監視側は、監視側に障害が発生した旨を監視側OSの障害情報領域に記録する。 If the monitored side does not shift from the state P2 to the state P3 and stays in the state P2 for a predetermined period, it forcibly shifts the state P2 to the state P4 and starts the OS initialization process on the monitored side. To do. This is to prevent the monitored side from staying in the state P3 due to a failure on the monitoring side. In this case, the monitored side records that a failure has occurred on the monitoring side in the failure information area of the monitoring OS.
これにより、コンピュータシステム100は、起動速度が異なる複数のOSを同時期に起動させる場合、起動速度の遅いOSが起動するまで起動速度の速いOSの起動を待機させることなく、複数のOSに各OSの起動状態を相互監視させながら、起動速度の速いOSから順番に複数のOSを迅速に起動させることができる。
Accordingly, when the
状態P5は、被監視側が被監視側自身のOS初期化処理を開始した状態であり、例えば、第一OS50が第一OS50自身のOS初期化処理を開始した状態であって、被監視側である第一OS50により状態値の書き換えが実行される。
The state P5 is a state in which the monitored side has started the OS initialization process of the monitored side. For example, the
状態P6は、被監視側が被監視側自身のOS初期化処理を完了した後の状態であり、例えば、第一OS50が第一OS50自身のOS初期化処理を完了した後の状態であって、被監視側である第一OS50により状態値の書き換えが実行される。
The state P6 is a state after the monitored side completes the OS initialization process of the monitored side itself, for example, the state after the
状態P7は、状態P4又は状態P5において被監視側が自身の障害を検知した後の状態であり、例えば、第一OS50が第一OS50自身の障害を検知した場合であって、被監視側である第一OS50により状態値の書き換えが実行される。
The state P7 is a state after the monitored side detects its own failure in the state P4 or the state P5, for example, when the
以上の構成により、コンピュータシステム100は、プロセッサ障害、ハードウェア障害、又は、ソフトウェア障害等により搭載するOSに障害が発生した場合であっても、その障害を早期に検知して障害対応処理を実行させることができるので、その障害によってシステム全体の信頼性が損なわれるのを防止することができる。
With the above configuration, the
また、コンピュータシステム100は、各OSの起動状態を詳細に記録するので、各OSで発生した障害の障害発生段階を特定することができる。
Further, since the
また、コンピュータシステム100は、各OSの障害情報を不揮発性メモリ3に記録するので、コンピュータシステム100に対する電力供給が途切れた場合であっても各OSの障害情報を確実に保持することができる。
In addition, since the
また、コンピュータシステム100は、マルチコアを採用することにより、一部のコアで異常が発生した場合であっても他の正常なコアで処理を継続させることができ、各OSを正常動作させる確率を高めることで障害情報の記録がより確実に行われ、障害発生原因の早期発見を実現させることができる。
In addition, by adopting multi-core, the
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなしに上述した実施例に種々の変形及び置換を加えることができる。 Although the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to the above-described embodiments, and various modifications and substitutions can be made to the above-described embodiments without departing from the scope of the present invention. Can be added.
例えば、上述の実施例において、コンピュータシステム100は、各OSの起動状態を相互に監視させるが、省電力モード移行状態や通常モード移行状態等、各OSにおける起動状態以外の稼働状態を相互に監視させるようにしてもよい。
For example, in the above-described embodiment, the
また、上述の実施例において、コンピュータシステム100は、第一OS50が自状態記録手段500により自身の状態値を第一OS起動情報領域20に記録する度に、他状態記録処理を実行するが、第一OS50が所定の状態値を記録した場合に限り、他状態記録処理を実行するようにしてもよく、所定周期で他状態記録処理を実行するようにしてもよい。他状態記録処理の実行タイミングに柔軟性を持たせるためである。
In the above-described embodiment, the
また、上述の実施例において、コンピュータシステム100は、二つのOSで相互に起動状態を監視させるが、例えば、三つのOSを独立して起動させるコンピュータシステムにおいて、第一のOSに第二及び第三のOSの起動状態を監視させ、第二及び第三のOSの双方又は何れか一方に第一のOSの起動状態を監視させるようにしてもよい。
In the above-described embodiment, the
また、本発明に係る障害監視システムは、四つ以上のOSを起動させるコンピュータシステムにおいても同様に、監視側OSと被監視側OSの組み合わせを柔軟に設定することができる。 Also, the failure monitoring system according to the present invention can flexibly set the combination of the monitoring OS and the monitored OS in a computer system that activates four or more OSs.
1 マルチコアプロセッサ
2 揮発性メモリ
3 不揮発性メモリ
4 システムバス
10〜13 CPU
20、21 OS起動情報領域
30、31 OS障害情報領域
50、51 オペレーティングシステム
300、310 障害発生回数領域
301、311 障害内容領域
500、510 自状態記録手段
501、511 他状態記録手段
502、512 他状態監視手段
P1〜P7 OS起動情報の状態
DESCRIPTION OF
20, 21 OS
Claims (3)
前記オペレーティングシステムは、共有メモリにおける自オペレーティングシステム対応領域に自オペレーティングシステムの状態を記録する自状態記録手段と、前記共有メモリにおける他オペレーティングシステム対応領域の記録内容を参照し、該記録内容が前記他オペレーティングシステムの所定状態を示す場合に、前記他オペレーティングシステム対応領域に所定内容を記録する他状態記録手段と、前記自オペレーティングシステム対応領域の記録内容に基づいて前記他オペレーティングシステムの状態を監視する他状態監視手段と、を備える、
ことを特徴とする障害監視システム。 A fault monitoring system for mutually monitoring the status of each operating system in a computer system having a processor for operating a plurality of operating systems,
The operating system refers to own state recording means for recording the state of the own operating system in the own operating system corresponding area in the shared memory, and the recorded contents of the other operating system corresponding area in the shared memory, and the recorded contents are the other Other status recording means for recording predetermined contents in the other operating system compatible area when monitoring a predetermined state of the operating system, and monitoring the status of the other operating system based on the recorded contents of the own operating system compatible area A state monitoring means,
Fault monitoring system characterized by that.
ことを特徴とする請求項1に記載の障害監視システム。 The other status recording means refers to the recorded contents of the other operating system corresponding area every time the own status recording means records the status of the own operating system.
The fault monitoring system according to claim 1.
前記複数のオペレーティングシステムは、それぞれ異なるコアで実行される、
ことを特徴とする請求項1又は2に記載の障害監視システム。 The processor is a multi-core processor;
The plurality of operating systems each run on a different core;
The fault monitoring system according to claim 1 or 2, characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018151A JP2008186173A (en) | 2007-01-29 | 2007-01-29 | Fault monitoring system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018151A JP2008186173A (en) | 2007-01-29 | 2007-01-29 | Fault monitoring system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008186173A true JP2008186173A (en) | 2008-08-14 |
Family
ID=39729188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007018151A Pending JP2008186173A (en) | 2007-01-29 | 2007-01-29 | Fault monitoring system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008186173A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134557A (en) * | 2008-12-02 | 2010-06-17 | Nec Corp | Virtual machine operation management system, operation management method therefor and program |
WO2010097925A1 (en) * | 2009-02-26 | 2010-09-02 | 株式会社日立製作所 | Information processing device |
WO2010109743A1 (en) * | 2009-03-27 | 2010-09-30 | 日本電気株式会社 | Log extraction device, log extraction method, and program |
WO2011021318A1 (en) * | 2009-08-19 | 2011-02-24 | 日本電気株式会社 | Multi-core system, control method of multi-core system, and multiprocessor |
JP5163807B2 (en) * | 2010-03-18 | 2013-03-13 | トヨタ自動車株式会社 | Microcomputer mutual monitoring system and microcomputer mutual monitoring method |
JP2015092407A (en) * | 2015-01-21 | 2015-05-14 | 株式会社小松製作所 | Construction machinery controller |
US9292981B2 (en) | 2013-08-20 | 2016-03-22 | Komatsu Ltd. | Construction machine controller |
JP2019057267A (en) * | 2017-09-19 | 2019-04-11 | 株式会社明電舎 | Information processing device |
JP2019087177A (en) * | 2017-11-10 | 2019-06-06 | トヨタ自動車株式会社 | Monitoring system |
WO2020235088A1 (en) * | 2019-05-23 | 2020-11-26 | 三菱電機株式会社 | Control device and distributed processing method |
-
2007
- 2007-01-29 JP JP2007018151A patent/JP2008186173A/en active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134557A (en) * | 2008-12-02 | 2010-06-17 | Nec Corp | Virtual machine operation management system, operation management method therefor and program |
WO2010097925A1 (en) * | 2009-02-26 | 2010-09-02 | 株式会社日立製作所 | Information processing device |
JPWO2010097925A1 (en) * | 2009-02-26 | 2012-08-30 | 株式会社日立製作所 | Information processing device |
WO2010109743A1 (en) * | 2009-03-27 | 2010-09-30 | 日本電気株式会社 | Log extraction device, log extraction method, and program |
JP2010231646A (en) * | 2009-03-27 | 2010-10-14 | Nec Corp | Device, and method for extracting log and program |
WO2011021318A1 (en) * | 2009-08-19 | 2011-02-24 | 日本電気株式会社 | Multi-core system, control method of multi-core system, and multiprocessor |
JP2011043892A (en) * | 2009-08-19 | 2011-03-03 | Nec Corp | Multi-core system, method for controlling the same, and multiprocessor |
JP5163807B2 (en) * | 2010-03-18 | 2013-03-13 | トヨタ自動車株式会社 | Microcomputer mutual monitoring system and microcomputer mutual monitoring method |
US9292981B2 (en) | 2013-08-20 | 2016-03-22 | Komatsu Ltd. | Construction machine controller |
JP2015092407A (en) * | 2015-01-21 | 2015-05-14 | 株式会社小松製作所 | Construction machinery controller |
JP2019057267A (en) * | 2017-09-19 | 2019-04-11 | 株式会社明電舎 | Information processing device |
JP2019087177A (en) * | 2017-11-10 | 2019-06-06 | トヨタ自動車株式会社 | Monitoring system |
WO2020235088A1 (en) * | 2019-05-23 | 2020-11-26 | 三菱電機株式会社 | Control device and distributed processing method |
JP6808090B1 (en) * | 2019-05-23 | 2021-01-06 | 三菱電機株式会社 | Control device and distributed processing method |
CN113841119A (en) * | 2019-05-23 | 2021-12-24 | 三菱电机株式会社 | Control device and distributed processing method |
US11340954B2 (en) | 2019-05-23 | 2022-05-24 | Mitsubishi Electric Corporation | Control device and distributed processing method |
CN113841119B (en) * | 2019-05-23 | 2022-12-27 | 三菱电机株式会社 | Control device and distributed processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008186173A (en) | Fault monitoring system | |
JP6438353B2 (en) | Semiconductor device and diagnostic test method | |
US8219851B2 (en) | System RAS protection for UMA style memory | |
JP5418597B2 (en) | Reset method and monitoring device | |
US10387261B2 (en) | System and method to capture stored data following system crash | |
US11526411B2 (en) | System and method for improving detection and capture of a host system catastrophic failure | |
KR20070108060A (en) | System executing a fast boot wake-up | |
JP2012069032A (en) | Information processor | |
KR20150111936A (en) | Runtime backup of data in a memory module | |
JP5726340B2 (en) | Processor system | |
JP2013084089A (en) | Vehicular device | |
US20180039553A1 (en) | Storage control device and storage control method | |
JP2010224847A (en) | Computer system and setting management method | |
CN115904793B (en) | Memory transfer method, system and chip based on multi-core heterogeneous system | |
CN115576734B (en) | Multi-core heterogeneous log storage method and system | |
JP2001101032A (en) | Os monitoring system under inter-different kind of os control | |
JP2014099097A (en) | Information processing device, information processing method, and computer program | |
JP4867896B2 (en) | Information processing system | |
JP6627366B2 (en) | Information processing system, information processing method and program | |
JP6385322B2 (en) | Information processing device | |
JP2013210767A (en) | Memory diagnostic device, memory diagnostic program, and apparatus | |
JP2011175366A (en) | Electronic device | |
US10983879B1 (en) | System and method for managing recovery of multi-controller NVMe drives | |
WO2023141832A1 (en) | Program updating method and program updating apparatus | |
JP2001051854A (en) | Information management system |