JP5757276B2 - 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム - Google Patents

無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム Download PDF

Info

Publication number
JP5757276B2
JP5757276B2 JP2012169031A JP2012169031A JP5757276B2 JP 5757276 B2 JP5757276 B2 JP 5757276B2 JP 2012169031 A JP2012169031 A JP 2012169031A JP 2012169031 A JP2012169031 A JP 2012169031A JP 5757276 B2 JP5757276 B2 JP 5757276B2
Authority
JP
Japan
Prior art keywords
execution
execution means
calculation
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012169031A
Other languages
English (en)
Other versions
JP2014029567A (ja
Inventor
剛志 畔出
剛志 畔出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012169031A priority Critical patent/JP5757276B2/ja
Publication of JP2014029567A publication Critical patent/JP2014029567A/ja
Application granted granted Critical
Publication of JP5757276B2 publication Critical patent/JP5757276B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本願発明は、障害発生時に演算処理結果を修復して演算処理を継続実行させるための、無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラムに関する。
高度情報化社会においては、システムダウンが社会にもたらす影響が非常に大きくなるため、システムの無停止運用に対する要求がますます高まってきている。システムを無停止運用させるためには、障害発生時に演算処理結果を修復して、速やかに処理を継続実行させることが必要となる。
このような障害発生時における処理の継続実行に関連する技術として、特許文献1には、
マルチノードで並列処理を行うシステムにおいて、あるノードで処理するデータの複製を分散して別のノードでも格納し、上述のあるノードで障害が発生した場合は、データの複製を分散格納した別のノードがバックアップ処理を行うようにしたシステムが公開されている。
また、特許文献2には、複数の計算機で並列処理を行うシステムにおいて、使用者から取得した分散データ配置ヒント情報に基づいて、データとその複製を各計算機に分散配置し、ある計算機で障害が発生した場合の別の計算機によるバックアップ処理を、計算機間で平準化させるようにしたシステムが公開されている。
特開2010-182141号公報 特開2012-73975号公報
前述の特許文献1、及び、特許文献2のシステムは、多重障害が発生した場合の処理の継続実行に関しては言及していない。特に高度に並列化されたシステムにおいては、システムを構成する計算機やプロセッサ等の数が多くなるため、多重障害が発生する確率も高くなる。したがって、多重障害が発生した場合であっても、処理を継続実行させることが課題となる。
本願発明の目的は、上述の課題を解決した無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラムを提供することである。
本願発明の一実施形態の無停止演算処理装置は、何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う演算実行手段と、前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させる格納手段と、前記演算実行手段を診断して障害を検出する診断手段と、前記診断手段が検出した障害が、同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示する指示手段と、前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する出力手段と、を備える。
本願発明の一実施形態の無停止演算処理方法は、何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う複数の演算実行手段を備えるシステムにおける無停止演算処理方法であって、格納手段が、前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させ、診断手段が、前記演算実行手段を診断して障害を検出し、指示手段が、前記診断手段が検出した障害が同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示し、出力手段が、前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する。
本願発明の一実施形態の無停止演算処理プログラムは、何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う複数の演算実行手段を備えるシステムの全体を制御する手段が実行するプログラムであって、そのプログラムによって、前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させる格納処理と、前記演算実行手段を診断して障害を検出する診断処理と、前記診断処理が検出した障害が同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示する指示処理と、前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する出力処理と、をコンピュータに実行させる。
本願発明は、システムにおいて多重障害が発生した場合でも、演算処理結果を修復して演算処理を継続実行させることができるようにする。
本願発明の第1の実施形態の無停止演算処理システムの構成を示すブロック図である。 本願発明の第1の実施形態における登録照合データの格納動作を示すフローチャートである。 本願発明の第1の実施形態における照合実行動作を示すフローチャートである。 本願発明の第1の実施形態における各コアへの登録照合データの格納例である。 本願発明の第2の実施形態の無停止演算処理システムの構成を示すブロック図である。
本願発明の第一の実施の形態について図面を参照して詳細に説明する。
図1は本実施形態の無停止演算処理システムの構成を示すブロック図である。
本実施形態の無停止演算処理システム3は、無停止演算処理装置1と、上位装置2とを包含している。無停止演算処理装置1は、指紋、掌紋、虹彩、顔などの生体情報のデータについて、ある探索データを、多数の登録照合データと照合する照合演算を実行する。
上位装置2は、無停止演算処理装置1に対して、まず、複数の登録照合データを出力し、次に探索データを1つずつ順次出力する。そして上位装置2は、各探索データについて、登録照合データとの照合を、無停止演算処理装置1に指示する。
無停止演算処理装置1は、全体制御部10と、n個の照合プロセッサ20−1乃至20−nとを包含している。照合プロセッサ20−1乃至20−nは、それぞれ照合プロセッサ番号として、1乃至nが付与されている。
照合プロセッサ20−1はマルチコアプロセッサであり、8個のコア201−1乃至208−1を包含している。コア201−1乃至208−1は、独立して登録照合データと探索データとの照合演算を行う最小構成単位であり、それぞれ、照合演算を実行する演算回路と、登録照合データ及び探索データを格納するメモリを包含している。コア201−1乃至208−1は、それぞれコア番号として、1乃至8が付与されている。
照合プロセッサ20−2乃至20−nの構成も、照合プロセッサ20−1と同じである。無停止演算処理装置1は、8個のコアを持つ照合プロセッサをn個包含するため、合計8n個のコアを包含している。したがって、無停止演算処理装置1は、最大8n個の照合演算を並列処理する。コア201−1乃至208−nは、照合結果を、出力部14へ送信する。
全体制御部10は、無停止演算処理装置1における照合演算の並列実行の制御を行い、格納部11と、診断部12と、指示部13と、出力部14とを包含している。
格納部11は、上位装置2から受信した複数の登録照合データを、8n個のコア201−1乃至208−nに均等に分配する。例えば、登録照合データが8n個である場合は、分配部11は、コア201−1乃至208−nの各々に対して、1個ずつ登録照合データを分配する。
格納部11は、さらに、各登録照合データをコピーしてm個(m=n−1)に分割した分割コピーデータを生成し、分割コピーデータの各々を、当該登録照合データを入力したコアとコア番号が等しく、かつ、所属する照合プロセッサが異なるm個のコアに送信する。
本実施形態における、各コアへの登録照合データの格納例を図に示す。照合プロセッサ20−1におけるコア201−1は、登録照合データ#111乃至#11mを格納している。登録照合データ#111乃至#11mは全体で1つの登録照合データである。格納部11は、登録照合データ#111乃至#11mをコピーしてm個に分割し、登録照合データ#111のコピーデータである登録照合データコピー#111−Cを、コア201−1の識別情報である「コア1−1」の情報を付加して、照合プロセッサ20−2におけるコア番号1のコアであるコア201−2に送信して格納させる。格納部11は、同様に登録照合データ#11mのコピーデータである登録照合データコピー#11m−Cを、「コア1−1」の情報を付加して、照合プロセッサ20−nにおけるコア番号1のコアであるコア201−nに送信して格納させる。
格納部11は、各コアに分配して格納させた全ての各登録照合データについて、同様にコピーデータの送信、格納処理を行う。尚、本実施形態では、便宜上、m=n−1としているが、mの値はn−1に限定されるわけではない。例えば、mの値がn−1より小さい何れかの整数である場合、格納部11は、あるコアが格納した登録照合データのコピーデータを、当該コアとコア番号が等しく、かつ、所属する照合プロセッサが異なるコアの中の一部コアに送信して格納させる。
格納部11は、上位装置2から受信した1個の探索データを、コア201−1乃至208−nの全てに送信して格納させる。
診断部12は、コア201−1乃至208−nにおける、1つの探索データに関する登録照合データとの照合演算の終了を検知する度に、コア201−1乃至208−nに同一の診断プログラムを送信して、コア201−1乃至208−nに実行させる。診断部12は、診断プログラムの実行結果をコア201−1乃至208−nから受信すると、各々のコアが出力した実行結果を比較する。
コア201−1乃至208−nの全てについて、診断プログラムの実行結果が同じである場合、診断部12は、コア201−1乃至208−nに障害は無いと診断する。コア201−1乃至208−nにおける一部少数のコアについてのみ、他のコアと実行結果が異なる場合、診断部12は、当該一部少数のコアに障害が発生したと診断する。即ち、診断部12は、多数決論理にて、コア201−1乃至208−nの障害を診断する。診断部12は、障害が発生したコアの識別情報を含む診断結果を、指示部13と出力部14に送信する。
指示部13は、診断部12からの診断結果を受けて、障害発生コアとコア番号が等しく、かつ、所属する照合プロセッサが障害発生コアとは異なるコアに対して、障害発生コアの識別情報に対応する登録照合データのコピーデータを用いて、照合演算を再実行するように指示する。例えば、コア201−1で障害が発生した場合、指示部13は、照合プロセッサ20−2乃至20−nにおけるコア番号が1のコアであるコア201−2乃至201−nに対して、コア201−1の識別情報である「コア1−1」に対応付けられた登録照合データのコピーデータを用いて、探索データとの照合演算の再実行を指示する。このとき、コア201−2は、登録照合データコピー#111−Cを用いて照合演算を再実行し、コア201−nは、登録照合データコピー#11m−Cを用いて照合演算を再実行する。
出力部14は、診断部12からの診断結果を受けて、指示部13からの指示によりコア201−1乃至208−nにおける正常コアが障害発生コアの照合演算を再実行した結果を、バックアップ照合結果としてまとめる。出力部14は、コア201−1乃至208−nの障害発生コアから受信した照合結果を、バックアップ照合結果に置き換える。出力部14は、全てのコアの照合結果をまとめて、探索データの登録照合データとの照合結果として、上位装置2へ送信する
次に図2、及び、図3のフローチャートを参照して、本実施形態の動作について詳細に説明する。
図2は、無停止演算処理装置1における登録照合データの格納動作を示すフローチャートである。
格納部11は、上位装置2から、登録照合データを受信し、登録照合データをn x 8個に均等に分割して、照合プロセッサ1乃至nにおけるコア1乃至8に分配する(S101)。照合プロセッサ1乃至nにおけるコア1乃至8は、分配された登録照合データを、自コア内のメモリに格納する(S102)。i=1〜nでループ処理を実行する(S103)。j=1〜8でループ処理を実行する(S104)。
格納部11は、照合プロセッサiにおけるコアjに分配した登録照合データのコピーをn−1個に分割し、分割したそれぞれの登録照合データのコピーを、データ照合プロセッサiを除く照合プロセッサ1乃至nにおける、コアjに分配する(S105)。照合プロセッサiにおけるコアjは、分配された登録照合データのコピーを、自コア内のメモリに格納する(S106)。j<8の場合は、jに1を加算して処理はS104に戻り、j=8の場合は、処理はS108へ進む(S107)。i<nの場合は、iに1を加算して処理はS103に戻り、i=nの場合は、全体の処理は終了する(S108)。
図3は、無停止演算処理装置1における探索データの登録照合データとの照合実行動作を示すフローチャートである。
格納部11は、上位装置2から、探索データを受信し、照合プロセッサ1乃至nにおけるコア1乃至8の全てに送信する(S201)。照合プロセッサ1乃至nにおけるコア1乃至8は、受信した探索データを、自コア内のメモリに格納し、既に自コア内に格納されている登録照合データと照合して、照合結果を出力部14へ送信する(S202)。
診断部12は、照合プロセッサ1乃至nにおけるコア1乃至8に対して同一の診断プログラムを入力し、全てのコアの出力から、多数決論理にて全てのコアを診断し、診断結果を指示部13と出力部14へ送信する(S203)。
診断結果で障害コアが存在する場合(S204でYes)、処理はS205へ進み、診断結果で障害コアが存在しない場合(S204でNo)、処理はS211へ進む。診断結果で障害コアが複数存在する場合(S205でYes)、処理はS206へ進み、診断結果で障害コアが1個のみの場合(S205でNo)、処理はS207へ進む。診断結果で複数の同じコア番号のコアで障害している場合(S206でYes)、指示部13は、診断部12から受信した診断結果をもとに、修復不可能な多重障害の発生を上位装置2に報告し、無停止演算処理装置1の照合動作を停止させ(S210)、全体の処理は終了する。診断結果で障害の発生した複数のコアのコア番号が異なる場合(S206でNo)、処理はS207へ進む。
指示部13は、診断部12から受信した診断結果をもとに、障害コアとコア番号が同じ正常コアに対して、障害コアの識別情報に対応付けられた登録照合データのコピーデータを用いて、再照合処理を行うように指示する(S207)。障害コアとコア番号が同じ正常コアは、指示部13から指示された再照合処理を実行し、再照合結果を出力部14へ送信する(S208)。
出力部14は、診断部12から受信した診断結果をもとに、障害コアからの照合結果を、障害コアとコア番号が同じ正常コアから受信した再照合結果をまとめたバックアップ照合結果に置き換える(S209)。出力部14は、全てのコアからの照合結果をまとめて、照合結果を上位装置2へ送信し(S211)、処理はS201へ戻る。
本実施形態には、第一の効果として、システムにおいて多重障害が発生した場合でも、照合演算処理結果を修復して照合演算処理を継続実行させることができる効果がある。その理由は、格納部11が、あるコアが記憶した登録照合データのコピーを、当該コアが搭載された照合プロセッサとは別の照合プロセッサ内の、当該コアとコア番号が等しいコアに記憶させておき、当該コアで障害が発生した場合、指示部13が、上述の登録照合データのコピーを記憶したコアに、障害発生コアが実行した照合演算を再実行させることで、照合演算処理結果を修復するからである。
本実施形態では、複数のマルチコアプロセッサ内において、コア番号が等しいコア同士でグループを形成し、同一のグループ内で演算処理結果の修復を行うため、異なるグループに所属するコアで多重障害が発生しても、システムを無停止運転させることが可能となる。本実施形態の例では、照合プロセッサ20−1乃至20−nは、それぞれ8個のコアを包含しているため、最大8個の障害に対する耐障害性を有していることになる。
本実施形態において、照合プロセッサ20−1乃至20−nのいずれかが丸ごとダウンするような重度障害が発生した場合でも、システムを無停止運転させることが可能である。その理由は、各照合プロセッサが搭載している個々のコアは、それぞれが全て異なるグループに所属するため、上述の演算処理結果の修復が可能であるからである。
また、多重障害への対応のために、あるコアが記憶する登録照合データのコピーを、当該コア以外の全てのコアに記憶させるような方式では、大容量のメモリが必要となる。本実施形態には、コアのグループ化を行い、同じグループ内のコアにのみ登録照合データのコピーを記憶させることにより、多重障害への対応に必要なメモリ容量を削減できる効果もある。
さらに、本実施形態には、第二の効果として、即時検出が困難な障害であっても障害を速やかに検出し、照合演算処理を継続実行させることができる効果がある。その理由は、診断部12が、コア201−1乃至208−nにおける、1つの探索データに関する照合処理が完了する度に、コア201−1乃至208−nを多数決論理により診断するからである。
例えば、データのパリティエラーのような即時検出可能な障害に対して、耐障害性を向上させたシステムは従来から存在する。しかしながら、パリティエラーにならないデータ化けのような障害が発生し、障害の検出までに時間を要した場合、障害検出後、システムを止めて障害処理を行わなければならない。本実施形態では、診断部12が、コア201−1乃至208−nに同じ診断プログラムを入力して多数決論理により診断することにより、通常は即時検出が困難な障害であっても速やかに障害を検出することが可能となる。
尚、本実施形態では、コア201−1乃至208−nの診断方式として、多数決論理を使用しているが、多数決論理以外の方式で診断する場合もある。例えば、診断プログラムの実行結果に対する期待値を準備しておき、コア毎に、診断プログラム実行結果と期待値を比較する方式などがある。
また、本実施形態では、診断部12が、コア201−1乃至208−nにおける、1つの探索データに関する照合処理が完了する度に、診断処理を実行しているが、診断処理の実行間隔をもう少し開けることで、照合処理のスピードを優先させる場合もある。
<第二の実施形態>
次に、本願発明の第二の実施形態について図面を参照して詳細に説明する。
図5は本願発明の第二の実施形態の無停止演算処理システムの構成を示すブロック図である。本実施形態の無停止演算処理システム3は無停止演算処理装置1を包含している。
無停止演算処理装置1は、演算実行部301−1乃至304−kと、格納部11と、診断部12と、指示部13と、出力部14とを包含している。
演算実行部301−1乃至304−kは、4個のグループ30−1乃至30−4に分けられ、演算実行部301−1乃至301−kはグループ30−1に所属し、演算実行部304−1乃至301−kはグループ30−4に所属する。すなわち、グループ30−1乃至30−4は、それぞれk個の演算実行部を包含している。
演算実行部301−1乃至304−kは、上位装置から指示された演算を並列処理する。演算の内容は、第一の実施形態のような照合演算の場合もあれば、一般的な配列演算等の場合もある。演算実行部301−1乃至304−kは、演算を行う構成単位であり、それぞれが、第一の実施形態のようなコアの場合もあれば、プロセッサやサーバ等の場合もある。
格納部11は、演算実行部301−1乃至304−kのそれぞれが入力した入力データを複製した複製データを、当該演算実行部と同じグループに所属する、当該演算実行部以外の演算実行部に、当該演算実行部の識別情報と対応付けて記憶させる。
診断部12は、演算実行部301−1乃至304−kを診断して障害を検出する。診断方式としては、第一の実施形態のような多数決論理を使用する場合もあれば、診断プログラムの実行結果を期待値と比較する場合もある。
指示部13は、診断部12が、いずれかの演算実行部301−1乃至304−kの障害を検出した場合、当該演算実行部の識別情報に対応付けられた複製データを記憶する、当該演算実行部と同じグループ内の演算実行部に対して、複製データを用いた演算処理の実行を指示する。
出力部14は、障害が検出された演算実行部が出力した実行結果を、上述の複製データを用いた演算処理の実行結果に置き換えて出力する。
本実施形態には、第一の実施形態と同様に、システムにおいて多重障害が発生した場合でも、演算処理結果を修復して演算処理を継続実行させることができる効果がある。その理由は、格納部11が、ある演算実行部が記憶した入力データのコピーを、当該演算実行部と同じグループに所属する演算実行部に記憶させておき、当該演算実行部で障害が発生した場合、指示部13が、上述の入力データのコピーを記憶した演算実行部に、障害が発生した演算実行部が実行した演算を再実行させることで、演算処理結果を修復するからである。
本実施形態では、同一のグループ内で演算処理結果の修復を行うため、異なるグループに所属する演算実行部で多重障害が発生しても、無停止運転させることが可能となる。本実施形態の例では、無停止演算処理装置1が4つのグループ30−1乃至30−4を包含しているため、最大4個の障害に対する耐障害性を有していることになる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されたものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 無停止演算処理装置
2 上位装置
3 無停止演算処理システム
10 全体制御部
11 格納部
12 診断部
13 指示部
14 出力部
20−1乃至20−n 照合プロセッサ
201−1乃至208−n コア
30−1乃至30−4 グループ
301−1乃至304−k 演算実行部

Claims (7)

  1. 何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う演算実行手段と、
    前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させる格納手段と、
    前記演算実行手段を診断して障害を検出する診断手段と、
    前記診断手段が検出した障害が、同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示する指示手段と、
    前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する出力手段と、
    を備える無停止演算処理装置。
  2. 前記診断手段は、前記演算実行手段が1つの前記入力データに対する前記演算処理の実行を終了する度に、前記演算実行手段を逐次診断する
    請求項1に記載の無停止演算処理装置。
  3. 前記診断手段は、全ての前記演算実行手段に、同一の診断プログラムを入力させ、多数の前記演算実行手段に対する前記診断プログラムの実行結果が一致し、かつ、少数の前記演算実行手段に対する前記診断プログラムの実行結果が、前記多数の前記演算実行手段に対する前記診断プログラムの実行結果と異なる場合、前記少数の前記演算実行手段の障害を検出する
    請求項1又は2に記載の無停止演算処理装置。
  4. 同じ数のコアプロセッサを包含し、前記コアプロセッサに対して、コア番号をハードウェア上で定義したマルチコアプロセッサを複数備えるシステムにおいて、
    前記演算実行手段は、前記マルチコアプロセッサにおける1つの前記コアプロセッサを包含し、包含する前記コアプロセッサの前記コア番号が等しい場合に、同じ前記グループに所属する
    請求項1乃至3の何れか一項に記載の無停止演算処理装置。
  5. 請求項1乃至4の何れか一項に記載の無停止演算処理装置と、前記無停止演算処理装置に前記入力データを出力して、前記演算処理の実行を指示する上位装置とを包含する無停止演算処理システム。
  6. 何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う複数の演算実行手段を備えるシステムにおける無停止演算処理方法であって、
    格納手段が、前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させ、
    診断手段が、前記演算実行手段を診断して障害を検出し、
    指示手段が、前記診断手段が検出した障害が同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示し、
    出力手段が、前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する
    無停止演算処理方法。
  7. 何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う複数の演算実行手段を備えるシステムの全体を制御する手段が実行するプログラムであって、そのプログラムによって、
    前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させる格納処理と、
    前記演算実行手段を診断して障害を検出する診断処理と、
    前記診断処理が検出した障害が同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示する指示処理と、
    前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する出力処理と、
    をコンピュータに実行させる無停止演算処理プログラム。
JP2012169031A 2012-07-31 2012-07-31 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム Active JP5757276B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012169031A JP5757276B2 (ja) 2012-07-31 2012-07-31 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012169031A JP5757276B2 (ja) 2012-07-31 2012-07-31 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム

Publications (2)

Publication Number Publication Date
JP2014029567A JP2014029567A (ja) 2014-02-13
JP5757276B2 true JP5757276B2 (ja) 2015-07-29

Family

ID=50202103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012169031A Active JP5757276B2 (ja) 2012-07-31 2012-07-31 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム

Country Status (1)

Country Link
JP (1) JP5757276B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04120633A (ja) * 1990-09-12 1992-04-21 Toshiba Corp プロセッサの故障診断装置
JP2853654B2 (ja) * 1996-04-17 1999-02-03 日本電気株式会社 密結合マルチプロセッサシステムにおける代替処理方式
EP0854423A1 (en) * 1997-01-20 1998-07-22 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Data partitioning and duplication in a distributed data processing system
JP3293125B2 (ja) * 1998-07-24 2002-06-17 日本電気株式会社 オンチップマルチプロセッサシステムにおける初期設定・診断方式
JP4789021B2 (ja) * 2009-02-06 2011-10-05 日本電気株式会社 データ処理装置及びデータ処理方法
JP5492028B2 (ja) * 2010-08-31 2014-05-14 株式会社日立ビルシステム データセンターシステム
JP5637791B2 (ja) * 2010-09-30 2014-12-10 株式会社日立製作所 計算機システム及びそのデータ処理方法

Also Published As

Publication number Publication date
JP2014029567A (ja) 2014-02-13

Similar Documents

Publication Publication Date Title
US11556438B2 (en) Proactive cluster compute node migration at next checkpoint of cluster upon predicted node failure
Siewiorek Fault tolerance in commercial computers
US8671311B2 (en) Multiprocessor switch with selective pairing
JP2500038B2 (ja) マルチプロセッサ・コンピュ―タ・システム、フォ―ルト・トレラント処理方法及びデ―タ処理システム
US10114356B2 (en) Method and apparatus for controlling a physical unit in an automation system
JP5785477B2 (ja) ミラー化データ・ストレージ・システムにおけるエラーを検出するための方法、コンピュータ・プログラム及びシステム
US11675654B2 (en) Systems and methods for error recovery
CN107506261A (zh) 适应cpu、gpu异构集群的级联容错处理方法
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
US8451019B2 (en) Method of detecting failure and monitoring apparatus
Tang et al. An efficient in-memory checkpoint method and its practice on fault-tolerant HPL
JP5757276B2 (ja) 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム
US5280606A (en) Fault recovery processing for supercomputer
Agullo et al. Hard faults and soft-errors: possible numerical remedies in linear algebra solvers
Chen et al. Fault-Tolerance Implementation in Typical Distributed Stream Processing Systems.
US20160266985A1 (en) Method, information processing apparatus, and computer readable medium
Yoon et al. Time-redundant recovery policy of TMR failures using rollback and roll-forward methods
Imai et al. Pair and swap: An approach to graceful degradation for dependable chip multiprocessors
JP2015106226A (ja) 二重化システム
Singh et al. Enhancing Performance andFault Tolerance of Hadoop cluster
JP4061549B2 (ja) ネットワークコンピュータシステム
Zhezhera et al. Development of a functionally sustainable system of orientation of a free battle flighting unit
Dou et al. Performance analysis for fast parallel recomputing algorithm under DTA
Mary et al. A Deep Insight Into Fault Tolerance In Cloud Computing
Adeosun et al. Hybrid modular redundancy network for critical systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140930

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150520

R150 Certificate of patent or registration of utility model

Ref document number: 5757276

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150