JP4476190B2 - 多重系計算機システム - Google Patents

多重系計算機システム Download PDF

Info

Publication number
JP4476190B2
JP4476190B2 JP2005214198A JP2005214198A JP4476190B2 JP 4476190 B2 JP4476190 B2 JP 4476190B2 JP 2005214198 A JP2005214198 A JP 2005214198A JP 2005214198 A JP2005214198 A JP 2005214198A JP 4476190 B2 JP4476190 B2 JP 4476190B2
Authority
JP
Japan
Prior art keywords
computer
microkernel
data
computers
shared memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005214198A
Other languages
English (en)
Other versions
JP2007034476A (ja
Inventor
諭 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005214198A priority Critical patent/JP4476190B2/ja
Publication of JP2007034476A publication Critical patent/JP2007034476A/ja
Application granted granted Critical
Publication of JP4476190B2 publication Critical patent/JP4476190B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

この発明は、システムの障害からの並列回復時に計算機内の内部データを同期化する多重系計算機システムに関するものである。
鉄道運行管理システムなどの高信頼性が求められる制御用計算機システムは、処理を行う稼動系計算機のほかに、稼動系計算機に障害が発生した場合に処理を引き継ぐ待機系計算機を備えた多重系のシステムとして利用される場合が多い。
特許文献1のように、従来の多重系システムにおいては、一方の計算機に障害が発生するなどして停止した後、計算機を起動すると、起動後に正常な他方の稼動系計算機から時刻情報や、各種データを受信することにより、稼動系と待機系の計算機の同期を図る並列回復を行っていた。
特開平6−321112号公報(第3〜4頁、図1)
特許文献1の従来の多重系システムでは、計算機に障害が発生し、再起動により回復する際には、正常な稼動系計算機よりネットワークを介して多くのデータを受信することにより同期を図っている。このデータ量は多く、稼動系計算機では負荷が重くなるという問題がある。
また、確実な同期を図るために、送信するデータに該当する機能を抑制した上でデータの送信を行っている。このような稼動系計算機の機能を長時間に渡り抑制した状態で保つことは、システムに悪影響を与えるという問題があった。
この発明は、上述のような課題を解決するためになされたものであり、障害からの回復時に、ネットワークを介したデータの送受信をすることなく、素早く多重系構成に回復することができる信頼性の高い多重系計算機システムを得ることを目的としている。
この発明に係わる多重系計算機システムにおいては、稼動系及び待機系の計算機がネットワークを介して多重系を構成する多重系計算機システムにおいて、各計算機は、アプリケーションを実行するオペレーティングシステム、このオペレーティングシステムとは独立に動作し、ネットワークを介して他の計算機と通信する通信管理プログラムを管理するマイクロカーネル、及びこのマイクロカーネルにより管理されると共にオペレーティングシステムによりアクセスされる共有メモリ領域を有するメモリを備え、マイクロカーネルは、共有メモリ領域に、自計算機のオペレーティングシステムが故障から回復するときに必要なデータを保存すると共に、オペレーティングシステムが停止中に、回復するときに必要なデータが更新された場合には、他の計算機から更新されたデータを受信し、保存したデータを更新するものである。
この発明は、以上説明したように、稼動系及び待機系の計算機がネットワークを介して多重系を構成する多重系計算機システムにおいて、各計算機は、アプリケーションを実行するオペレーティングシステム、このオペレーティングシステムとは独立に動作し、ネットワークを介して他の計算機と通信する通信管理プログラムを管理するマイクロカーネル、及びこのマイクロカーネルにより管理されると共にオペレーティングシステムによりアクセスされる共有メモリ領域を有するメモリを備え、マイクロカーネルは、共有メモリ領域に、自計算機のオペレーティングシステムが故障から回復するときに必要なデータを保存すると共に、オペレーティングシステムが停止中に、回復するときに必要なデータが更新された場合には、他の計算機から更新されたデータを受信し、保存したデータを更新するので、障害からの回復時に、この共有メモリ領域のデータを利用することにより、ネットワークを介したデータの送受信をすることなく、素早く多重系構成に回復することができる。


実施の形態1.
図1は、この発明の実施の形態1による多重系計算機システムを示す構成図である。
図1では、多重系計算機システムは、2台の制御用計算機からなる2重系システムである。ただし、制御用計算機は3台以上で構成されてもよい。
図1において、制御用計算機10、11は、それぞれ稼動系計算機、待機系計算機として動作する。制御用計算機10、11は、それぞれネットワークカード50、メインメモリ20、中央演算処理装置(以下、CPUと称す)60、DIO(Digital I/O)カード110を備えており、これらはバスによって接続される。この他、ハードディスク装置、入出力装置などが接続される場合もある。
ネットワークカード50は、イーサネット(登録商標)のネットワーク90に接続され、このイーサネット(登録商標)のネットワーク90は、他計算機とも接続される。このネットワーク90を介して、制御用計算機10と制御用計算機11は通信を行い、また他計算機とも通信を行う。また、両系の計算機は、DIO接点120を使用して接続されている。
制御用計算機10と制御用計算機11が共に正常な状態であるとき、稼動系である制御用計算機10のメインメモリ20には、OS(オペレーティングシステム)80、マイクロカーネル40、アプリケーション70、及び通信管理プログラムなどのマイクロカーネル40下で動作するアプリケーション100がロードされる。
同様に、待機系である制御用計算機11のメインメモリ20にも、OS80、マイクロカーネル40、アプリケーション70、及びマイクロカーネル40のアプリケーション100がロードされる。これらのプログラムは、制御用計算機10、11の両方で実行されている。なお、制御用計算機11では、アプリケーション70が実行されていない場合もある。
アプリケーション70は、該当の多重系システムの用途である処理を行うプログラムである。また、メインメモリ20には、回復に必要なデータ30がマイクロカーネル40により保存される。
次に、動作について説明する。
マイクロカーネル40は、OSのカーネルから独立したもので、OS80より下位に位置付けられるプログラムであり、OS80の稼動状況の監視や、通信管理プログラムなどのリアルタイム性を要求されるプログラムを管理する。CPU60の処理時間は、マイクロカーネル40に優先的に割り当てられ、OS80には残りの時間が割り当てられる。
メインメモリ20は、マイクロカーネル40により管理・利用される領域と、OS80によって管理・利用される領域に割り当てられる。その他のPCI(Peripheral Component Interconnect)などのデバイスがある場合には、マイクロカーネル40が、マイクロカーネル40により管理するか、OS80により管理するかを割り当てる。DIOカード110は、マイクロカーネル40により管理され、他の計算機のマイクロカーネル40との相互通信に用いられる。また、マイクロカーネル40は、ネットワークカード50の管理も行う。
通信管理プログラムは、ネットワーク90を介して他の計算機から受信した受信データのうち、アプリケーション70に必要なデータをOS80に対して送信するプログラムである。この通信には、バス通信や、仮想イーサネット(登録商標)通信が用いられる。
メインメモリ20のマイクロカーネル40の管理する領域は、OS80からのアクセスを可能としている。すなわち、マイクロカーネル40とOS80とにより共有される共有メモリ領域である。この共有メモリ領域は、OS80からは通常のRAMディスクと同様に認識され、直接アクセス可能である。この共有メモリ領域は、マイクロカーネル40により管理されるため、マイクロカーネル40が起動している間は、OS80が停止してもその内容は失われない。
この共有メモリ領域には、従来のシステムでの回復時に他系計算機から受信していたような、回復に必要な各種データ30が保存される。マイクロカーネル40は、上述のように通信管理プログラムを管理しているので、OS80停止時にも他系計算機や、その他の装置からのメッセージを受信することができる。OS80停止中に状態が変化し、回復に必要なデータが更新された場合には、ネットワーク90を通じてマイクロカーネル40が受信し、データ30を更新する。
次に、実施の形態1の多重系計算機システムにおける障害からの回復動作について説明する。
制御用計算機10と制御用計算機11は、DIOカード110を通じて接続され、マイクロカーネル40が、DIOカード110を介して他の計算機のマイクロカーネル40と相互通信することにより他の計算機を監視する。すなわち、マイクロカーネル40が、DIOカード110を介して互いの計算機の運転状態を常時監視するようになっている。この相互通信により、制御用計算機11は、制御用計算機10に異常が発生したと判断すると、自らを稼動系計算機とする。
また、それぞれの制御用計算機10、11のマイクロカーネル40は、一定間隔でOS80に対して生存メッセージを送ることを要求する。OS80に異常が発生し、生存メッセージを受信することができなくなると、マイクロカーネル40は、それを検知し、OS80を再起動する。
マイクロカーネル40は、共有メモリ領域に、回復に必要なデータ30を保持しており、このデータ30を使って多重系構成へと回復する。
マイクロカーネル40の管理するネットワークカード50を用いて、OS80停止中に、稼動系の制御用計算機11のマイクロカーネル40やその他装置から各種データの受信を行い、このデータを更新し、これを用いて多重系構成へ回復する場合もある。
実施の形態1によれば、このように、OSとは別にマイクロカーネルが管理するメモリ領域を設け、この領域へのOSからのアクセスを可能にし、この領域に故障からの回復に必要なデータを保存し、故障回復時には、このデータを利用することにより、異常停止からの回復時間を短縮する効果がある。
実施の形態2.
実施の形態1では、回復に必要なデータ30をマイクロカーネル40が管理する共有メモリ領域に保存することにより、回復時間の短縮を可能にしたが、実施の形態2では、この共有メモリ領域にさらに自計算機の動作状況を保存するようにしたものである。
図2は、この発明の実施の形態2による多重系計算機システムを示す構成図である。
図2において、10、11、20、30、40、50、60、70、80、90、100は図1におけるものと同一のものである。図2では、制御用計算機10、11は、DIOカード110を持っていない。すなわち、実施の形態1のように、計算機の相互監視をDIO接点を利用して行わないものである。
次に、動作について説明する。
図2の制御用計算機10のマイクロカーネル40は、一定間隔でOS80が管理するアプリケーション70に対して、動作状況確認メッセージを送信する。メッセージを受信したアプリケーション70は、自制御用計算機が稼動系として動作しているのか、待機系として動作しているのか、または回復動作中であるのかの動作状況の情報を、マイクロカーネル40が管理するOS80との共有メモリ領域に保存する。
一方、制御用計算機11のマイクロカーネル40も、同様にOS80が管理するアプリケーション70に対して、動作状況確認メッセージを送信し、自制御用計算機の動作状況を得て、共有メモリ領域に保存する。
そして、一定時間以上、この情報へのアクセスがない場合は、マイクロカーネル40は、自制御用計算機のOS80が停止していると判断し、この情報を停止状態に変更する。
制御用計算機10、11のマイクロカーネル40は、互いにこの動作状況に関する情報を、ネットワーク90を通じて相互通信し、互いに監視することにより、他系監視を行うことができる。
実施の形態1では、DIO接点情報を用いて監視していたが、実施の形態2では、本発明を利用することにより、実施の形態1と比較して安価に他系監視を行うことが可能になる。
実施の形態2によれば、各制御用計算機のマイクロカーネルで、OSが管理するアプリケーションに対して、動作状況を確認し、自制御用計算機が、稼動系か待機系かあるいは回復中かを示す情報を共有メモリ領域に保存し、この情報を相互に交換することにより他系監視を行うことができる。
この発明の実施の形態1による多重系計算機システムを示す構成図である。 この発明の実施の形態2による多重系計算機システムを示す構成図である。
符号の説明
10 制御用計算機A系、11 制御用計算機B系、20 メインメモリ、
30 回復に必要なデータ、40 マイクロカーネル、
50 ネットワークカード、60 CPU、70 OS上のアプリケーション、
80 OS、90 ネットワーク、
100 マイクロカーネル上のアプリケーション、110 DIOカード、
120 DIO接点。

Claims (3)

  1. 稼動系及び待機系の計算機がネットワークを介して多重系を構成する多重系計算機システムにおいて、上記各計算機は、アプリケーションを実行するオペレーティングシステム、このオペレーティングシステムとは独立に動作し、上記ネットワークを介して他の計算機と通信する通信管理プログラムを管理するマイクロカーネル、及びこのマイクロカーネルにより管理されると共に上記オペレーティングシステムによりアクセスされる共有メモリ領域を有するメモリを備え、上記マイクロカーネルは、上記共有メモリ領域に、自計算機のオペレーティングシステムが故障から回復するときに必要なデータを保存すると共に、上記オペレーティングシステムが停止中に、上記回復するときに必要なデータが更新された場合には、上記他の計算機から上記更新されたデータを受信し、上記保存したデータを更新することを特徴とする多重系計算機システム。
  2. 上記各計算機は、DIOカードを備え、上記マイクロカーネルが、上記DIOカードを介して他の計算機のマイクロカーネルと相互通信することにより上記他の計算機を監視することを特徴とする請求項1記載の多重系計算機システム。
  3. 上記共有メモリには、上記マイクロカーネルからの一定間隔での動作状況の確認に応じた上記アプリケーションにより、自計算機の動作状況が保存され、上記マイクロカーネルは、上記ネットワークを介して他の計算機のマイクロカーネルと上記共有メモリ領域の自計算機の動作状況を相互通信することにより上記他の計算機を監視することを特徴とする請求項1記載の多重系計算機システム。
JP2005214198A 2005-07-25 2005-07-25 多重系計算機システム Expired - Fee Related JP4476190B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005214198A JP4476190B2 (ja) 2005-07-25 2005-07-25 多重系計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005214198A JP4476190B2 (ja) 2005-07-25 2005-07-25 多重系計算機システム

Publications (2)

Publication Number Publication Date
JP2007034476A JP2007034476A (ja) 2007-02-08
JP4476190B2 true JP4476190B2 (ja) 2010-06-09

Family

ID=37793699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005214198A Expired - Fee Related JP4476190B2 (ja) 2005-07-25 2005-07-25 多重系計算機システム

Country Status (1)

Country Link
JP (1) JP4476190B2 (ja)

Also Published As

Publication number Publication date
JP2007034476A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
CN108923992B (zh) 一种nas集群高可用方法、***及电子设备和存储介质
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
CN105159798A (zh) 一种虚拟机的双机热备方法、双机热备管理服务器和***
US9195553B2 (en) Redundant system control method
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
JP2002259155A (ja) 多重系計算機システム
JP2012173996A (ja) クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム
CN113515408A (zh) 一种数据容灾方法、装置、设备及介质
CN116881053B (zh) 数据处理方法及交换板、数据处理***、数据处理装置
JP2009129409A (ja) 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム
JP5773166B2 (ja) 計算機の制御方法、計算機及び計算機システム
CN101482829A (zh) 集群***、处理装置及集群***冗余方法
CN111585835A (zh) 一种带外管理***的控制方法、装置和存储介质
JP2007058708A (ja) 多重系システム
KR20030048503A (ko) 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
JP4476190B2 (ja) 多重系計算機システム
JP3690666B2 (ja) マルチコンピュータシステム
JP6026142B2 (ja) 複数計算機が独立動作する制御システム
JP2009075710A (ja) 冗長化システム
JP2007334668A (ja) メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラム
KR20010076790A (ko) 상용 실시간 운영체제와 미들웨어를 통한 아이/오 기반고가용성 구현 방법
JP2008197907A (ja) 監視ネットワークシステムおよびデータバックアップ方法
JP5464886B2 (ja) 計算機システム
CN110752955A (zh) 一种席位不变故障迁移***和方法
JP2005115472A (ja) 運行管理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100309

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees