JP5757276B2 - 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム - Google Patents
無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム Download PDFInfo
- Publication number
- JP5757276B2 JP5757276B2 JP2012169031A JP2012169031A JP5757276B2 JP 5757276 B2 JP5757276 B2 JP 5757276B2 JP 2012169031 A JP2012169031 A JP 2012169031A JP 2012169031 A JP2012169031 A JP 2012169031A JP 5757276 B2 JP5757276 B2 JP 5757276B2
- Authority
- JP
- Japan
- Prior art keywords
- execution
- execution means
- calculation
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
マルチノードで並列処理を行うシステムにおいて、あるノードで処理するデータの複製を分散して別のノードでも格納し、上述のあるノードで障害が発生した場合は、データの複製を分散格納した別のノードがバックアップ処理を行うようにしたシステムが公開されている。
次に図2、及び、図3のフローチャートを参照して、本実施形態の動作について詳細に説明する。
<第二の実施形態>
次に、本願発明の第二の実施形態について図面を参照して詳細に説明する。
2 上位装置
3 無停止演算処理システム
10 全体制御部
11 格納部
12 診断部
13 指示部
14 出力部
20−1乃至20−n 照合プロセッサ
201−1乃至208−n コア
30−1乃至30−4 グループ
301−1乃至304−k 演算実行部
Claims (7)
- 何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う演算実行手段と、
前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させる格納手段と、
前記演算実行手段を診断して障害を検出する診断手段と、
前記診断手段が検出した障害が、同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示する指示手段と、
前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する出力手段と、
を備える無停止演算処理装置。 - 前記診断手段は、前記演算実行手段が1つの前記入力データに対する前記演算処理の実行を終了する度に、前記演算実行手段を逐次診断する
請求項1に記載の無停止演算処理装置。 - 前記診断手段は、全ての前記演算実行手段に、同一の診断プログラムを入力させ、多数の前記演算実行手段に対する前記診断プログラムの実行結果が一致し、かつ、少数の前記演算実行手段に対する前記診断プログラムの実行結果が、前記多数の前記演算実行手段に対する前記診断プログラムの実行結果と異なる場合、前記少数の前記演算実行手段の障害を検出する
請求項1又は2に記載の無停止演算処理装置。 - 同じ数のコアプロセッサを包含し、前記コアプロセッサに対して、コア番号をハードウェア上で定義したマルチコアプロセッサを複数備えるシステムにおいて、
前記演算実行手段は、前記マルチコアプロセッサにおける1つの前記コアプロセッサを包含し、包含する前記コアプロセッサの前記コア番号が等しい場合に、同じ前記グループに所属する
請求項1乃至3の何れか一項に記載の無停止演算処理装置。 - 請求項1乃至4の何れか一項に記載の無停止演算処理装置と、前記無停止演算処理装置に前記入力データを出力して、前記演算処理の実行を指示する上位装置とを包含する無停止演算処理システム。
- 何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う複数の演算実行手段を備えるシステムにおける無停止演算処理方法であって、
格納手段が、前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させ、
診断手段が、前記演算実行手段を診断して障害を検出し、
指示手段が、前記診断手段が検出した障害が同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示し、
出力手段が、前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する
無停止演算処理方法。 - 何れかのグループに所属し、入力データを格納して前記入力データに対して演算処理を行う複数の演算実行手段を備えるシステムの全体を制御する手段が実行するプログラムであって、そのプログラムによって、
前記演算実行手段が入力した前記入力データを分割して複製した分割複製データを、当該演算実行手段と同じ前記グループに所属する、当該演算実行手段以外の前記演算実行手段に分配して、当該演算実行手段の識別情報と対応付けて記憶させる格納処理と、
前記演算実行手段を診断して障害を検出する診断処理と、
前記診断処理が検出した障害が同じ前記グループに所属する複数の前記演算実行手段において発生した多重障害でない場合、当該演算実行手段の前記識別情報に対応付けられた前記分割複製データを記憶する前記演算実行手段に対して、前記分割複製データを用いた前記演算処理の実行を指示する指示処理と、
前記分割複製データを用いた前記演算処理の実行結果をバックアップ実行結果としてまとめて、前記障害が検出された前記演算実行手段が出力した実行結果を、前記バックアップ実行結果に置き換えて出力する出力処理と、
をコンピュータに実行させる無停止演算処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012169031A JP5757276B2 (ja) | 2012-07-31 | 2012-07-31 | 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012169031A JP5757276B2 (ja) | 2012-07-31 | 2012-07-31 | 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014029567A JP2014029567A (ja) | 2014-02-13 |
JP5757276B2 true JP5757276B2 (ja) | 2015-07-29 |
Family
ID=50202103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012169031A Active JP5757276B2 (ja) | 2012-07-31 | 2012-07-31 | 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5757276B2 (ja) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04120633A (ja) * | 1990-09-12 | 1992-04-21 | Toshiba Corp | プロセッサの故障診断装置 |
JP2853654B2 (ja) * | 1996-04-17 | 1999-02-03 | 日本電気株式会社 | 密結合マルチプロセッサシステムにおける代替処理方式 |
EP0854423A1 (en) * | 1997-01-20 | 1998-07-22 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Data partitioning and duplication in a distributed data processing system |
JP3293125B2 (ja) * | 1998-07-24 | 2002-06-17 | 日本電気株式会社 | オンチップマルチプロセッサシステムにおける初期設定・診断方式 |
JP4789021B2 (ja) * | 2009-02-06 | 2011-10-05 | 日本電気株式会社 | データ処理装置及びデータ処理方法 |
JP5492028B2 (ja) * | 2010-08-31 | 2014-05-14 | 株式会社日立ビルシステム | データセンターシステム |
JP5637791B2 (ja) * | 2010-09-30 | 2014-12-10 | 株式会社日立製作所 | 計算機システム及びそのデータ処理方法 |
-
2012
- 2012-07-31 JP JP2012169031A patent/JP5757276B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014029567A (ja) | 2014-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11556438B2 (en) | Proactive cluster compute node migration at next checkpoint of cluster upon predicted node failure | |
Siewiorek | Fault tolerance in commercial computers | |
US8671311B2 (en) | Multiprocessor switch with selective pairing | |
JP2500038B2 (ja) | マルチプロセッサ・コンピュ―タ・システム、フォ―ルト・トレラント処理方法及びデ―タ処理システム | |
US10114356B2 (en) | Method and apparatus for controlling a physical unit in an automation system | |
JP5785477B2 (ja) | ミラー化データ・ストレージ・システムにおけるエラーを検出するための方法、コンピュータ・プログラム及びシステム | |
US11675654B2 (en) | Systems and methods for error recovery | |
CN107506261A (zh) | 适应cpu、gpu异构集群的级联容错处理方法 | |
JP2003015900A (ja) | 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法 | |
US8451019B2 (en) | Method of detecting failure and monitoring apparatus | |
Tang et al. | An efficient in-memory checkpoint method and its practice on fault-tolerant HPL | |
JP5757276B2 (ja) | 無停止演算処理装置、無停止演算処理システム、無停止演算処理方法、及び、無停止演算処理プログラム | |
US5280606A (en) | Fault recovery processing for supercomputer | |
Agullo et al. | Hard faults and soft-errors: possible numerical remedies in linear algebra solvers | |
Chen et al. | Fault-Tolerance Implementation in Typical Distributed Stream Processing Systems. | |
US20160266985A1 (en) | Method, information processing apparatus, and computer readable medium | |
Yoon et al. | Time-redundant recovery policy of TMR failures using rollback and roll-forward methods | |
Imai et al. | Pair and swap: An approach to graceful degradation for dependable chip multiprocessors | |
JP2015106226A (ja) | 二重化システム | |
Singh et al. | Enhancing Performance andFault Tolerance of Hadoop cluster | |
JP4061549B2 (ja) | ネットワークコンピュータシステム | |
Zhezhera et al. | Development of a functionally sustainable system of orientation of a free battle flighting unit | |
Dou et al. | Performance analysis for fast parallel recomputing algorithm under DTA | |
Mary et al. | A Deep Insight Into Fault Tolerance In Cloud Computing | |
Adeosun et al. | Hybrid modular redundancy network for critical systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140930 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5757276 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |