JPH06332874A - Test program starting method - Google Patents

Test program starting method

Info

Publication number
JPH06332874A
JPH06332874A JP5121049A JP12104993A JPH06332874A JP H06332874 A JPH06332874 A JP H06332874A JP 5121049 A JP5121049 A JP 5121049A JP 12104993 A JP12104993 A JP 12104993A JP H06332874 A JPH06332874 A JP H06332874A
Authority
JP
Japan
Prior art keywords
job
test program
processor element
processor
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5121049A
Other languages
Japanese (ja)
Inventor
Eriko Nakakuki
江里子 中茎
Yasuhiko Nakajima
康彦 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5121049A priority Critical patent/JPH06332874A/en
Publication of JPH06332874A publication Critical patent/JPH06332874A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

PURPOSE:To suppress the number of jobs to be abnormally finished at a minimum when any hardware fault is detected by reducing the overhead of a test program at the same time. CONSTITUTION:Concerning the method for starting the test program while operating a system where one job JA is allocated to plural processor elements PE1 and PE2 and processed inside the multiprocessor system which is provided with plural processor elements PEi (i=0, 1, 2...) equipped with operating systems OSi (i=0, 1, 2...) and stores the test program for hardware fault detection to be executed under the control of each OS in each PE, the OS simultaneously start the test program with all the PEs related to the execution of the job JA synchronously with the end of one job JA.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、例えば、科学技術計算
用計算機など、複数のプロセッサエレメント(PE)を
具備したマルチプロセッサシステムに利用されるもので
あり、特に、オペレーティングシステム(以下、「O
S」という)の配下で実行されるテストプログラム(シ
ステムのハードウエア障害を検出するためのプログラ
ム)の起動方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is used in a multiprocessor system having a plurality of processor elements (PE), such as a computer for scientific and technological calculations, and particularly, an operating system (hereinafter referred to as "O").
S ”) is executed under the control of a test program (a program for detecting a hardware failure of the system).

【0002】[0002]

【従来の技術】図8は従来技術の説明図1(Aはシステ
ム構成図、BはPE4処理時の説明図)、図9は従来技
術の説明図2(PE処理時のタイミングチャート)、図
10は従来技術の説明図3(PE4処理時のタイミング
チャート)である。
2. Description of the Related Art FIG. 8 is an explanatory diagram 1 of a conventional technique (A is a system configuration diagram, B is an explanatory diagram of PE4 processing), FIG. 10 is an explanatory diagram 3 (timing chart at the time of PE4 processing) of the conventional technique.

【0003】図8〜図10中、PE0、PE1、PE
2、PE3、PE4・・・はプロセッサエレメント(Pro
cessor Element) 、OS0、OS1、OS2、OS3、
OS4・・・はオペレーティングシステム(Operating S
ystem)、UP0、UP1、UP2、UP3、UP4・・
・はユーザプログラム、TE0、TE1、TE2、TE
3、TE4・・・はテストプログラム、JA、JB、J
C、JDはジョブを示す。
8 to 10, PE0, PE1, PE
2, PE3, PE4 ... are processor elements (Pro
cessor Element), OS0, OS1, OS2, OS3,
OS4 ... is an operating system
ystem), UP0, UP1, UP2, UP3, UP4 ...
・ User program, TE0, TE1, TE2, TE
3, TE4 ... are test programs, JA, JB, J
C and JD indicate jobs.

【0004】§1:マルチプロセッサシステムの説明・
・・図8A参照 従来、マルチプロセッサシステムとして、例えば、図8
Aに示したような構成のシステムが知られていた。
§1: Description of multiprocessor system
.. See FIG. 8A. As a conventional multiprocessor system, for example, FIG.
A system having a configuration shown in A has been known.

【0005】このシステムは、複数のプロセッサエレメ
ントPEi(i=0、1、2・・・n−1)を具備して
おり、その内の1個のプロセッサ、例えばPE0を、他
のプロセッサエレメントに対する制御用のプロセッサと
して使用するものである。
This system comprises a plurality of processor elements PEi (i = 0, 1, 2, ... N-1), one of which, for example PE0, is used for other processor elements. It is used as a control processor.

【0006】そして、各プロセッサエレメントPEi
(i=0、1、2・・・n−1)には、それぞれ、オペ
レーティングシステムOSi(i=0、1、2・・・n
−1)と、ユーザプログラムUPi(i=0、1、2・
・・n−1)と、テストプログラムTEi(i=0、
1、2・・・n−1)が設けてある。
Then, each processor element PEi
(I = 0,1,2, ... n-1) has operating system OSi (i = 0,1,2, ... n), respectively.
−1) and the user program UPi (i = 0, 1, 2, ...
..N-1) and the test program TEi (i = 0,
1, 2, ... N-1) are provided.

【0007】この場合、テストプログラムTEi(i=
0、1、2・・・n−1)は、各プロセッサエレメント
PEi内のハードウエア障害を検出するためのプログラ
ムであり、各プロセッサエレメントPEi内のオペレー
ティングシステムOSiの配下で実行されるものであ
る。
In this case, the test program TEi (i =
0, 1, 2, ... N-1) is a program for detecting a hardware failure in each processor element PEi, which is executed under the operating system OSi in each processor element PEi. .

【0008】ところで一般的に、上記のようなマルチプ
ロセッサシステムでは、或るジョブを実行する際、1つ
のジョブを複数のプロセッサエレメントに割り当てて実
行(並列処理)させる。
Generally, in a multiprocessor system as described above, when a certain job is executed, one job is assigned to a plurality of processor elements and executed (parallel processing).

【0009】また、システムのハードウエア障害を検出
するために、各プロセッサエレメントでは、一定時間毎
に、テストプログラムを実行させている。この場合、O
Sからの割り込みにより、実行中のジョブを一時中断さ
せ、テストプログラムを起動して実行させている。
Further, in order to detect a hardware failure of the system, each processor element executes a test program at regular intervals. In this case, O
The job being executed is temporarily interrupted by the interrupt from S, and the test program is activated and executed.

【0010】§2:PE4内の処理説明・・・図8B参
照 以下、プロセッサエレメントの処理の1例として、プロ
セッサエレメントPE4の処理例を、図8Bを参照しな
がら説明する。
§2: Description of processing in PE4 ... See FIG. 8B Hereinafter, an example of processing of the processor element PE4 will be described as an example of processing of the processor element with reference to FIG. 8B.

【0011】プロセッサエレメントPE4内では、オペ
レーティングシステムOS4の配下で、ハードウエア障
害を検出するためのテストプログラムTE4を、一定時
間毎に実行させている。
In the processor element PE4, a test program TE4 for detecting a hardware failure is executed under a control of the operating system OS4 at regular time intervals.

【0012】その際、一定時間毎に、オペレーティング
システムOS4から、ユーザプログラムUP4に割り込
みを行うことにより、実行中のジョブを一時中断させ、
テストプログラムTE4を起動させる。
At this time, the job being executed is temporarily suspended by interrupting the user program UP4 from the operating system OS4 at regular intervals.
The test program TE4 is activated.

【0013】例えば、ユーザプログラムUP4により、
ジョブJAを実行している途中の時刻t1で、オペレー
ティングシステムOS4が、ユーザプログラムUP4に
割り込みを行うことにより、ジョブJAの処理を中断さ
せ、テストプログラムTE4を起動させる。
For example, by the user program UP4,
At time t1 during the execution of the job JA, the operating system OS4 interrupts the user program UP4 to interrupt the processing of the job JA and activate the test program TE4.

【0014】これにより、オペレーティングシステムO
S4の配下でテストプログラムTE4を実行し、ハード
ウエア障害の検出を行う。そして、時刻t2で、テスト
プログラムTE4の処理が終了すると、テストプログラ
ムTE4からオペレーティングシステムOS4に対し、
テストプログラムTE4の終了通知(処理の終了通知)
を行う。
As a result, the operating system O
The test program TE4 is executed under the control of S4 to detect a hardware failure. Then, at the time t2, when the processing of the test program TE4 ends, the test program TE4 instructs the operating system OS4 to
End notification of test program TE4 (end notification of processing)
I do.

【0015】このテストプログラムTE4の終了通知を
行う場合、テストプログラムTE4の実行で、ハードウ
エア障害を検出しなかったら、ハードウエアが正常であ
ることを報告する。
When the end notification of the test program TE4 is given, if the hardware failure is not detected during the execution of the test program TE4, it reports that the hardware is normal.

【0016】その後、中断していたジョブJAの続きを
実行し、時刻t3でジョブJAが終了すると、ユーザプ
ログラムUP4から、オペレーティングシステムOS4
に対し、ジョブJAの終了通知を行う。
After that, the continuation of the interrupted job JA is executed, and when the job JA ends at time t3, the operating system OS4 is changed from the user program UP4.
The job JA is notified of the end.

【0017】以後、同様にして、ユーザプログラムUP
4を実行しながら、一定時間毎に、テストプログラムT
E4を起動させて実行する。なお、プロセッサエレメン
トPE4以外のプロセッサエレメントでも、上記と同様
にして、処理を行う。
Thereafter, the user program UP is similarly processed.
4 while executing the test program T
Run and run E4. The processor elements other than the processor element PE4 also perform processing in the same manner as above.

【0018】§3:複数プロセッサエレメントによる処
理の説明・・・図9参照 上記構成のマルチプロセッサシステムにおいて、例え
ば、4個のプロセッサエレメントPE1、PE2、PE
3、PE4に、ジョブJAを割り当てた場合の処理例を
図9に基づいて説明する。なお、プロセッサエレメント
PE4の処理は、図8Bと同じである。
§3: Description of processing by a plurality of processor elements--see FIG. 9 In the multiprocessor system having the above configuration, for example, four processor elements PE1, PE2, PE
An example of processing when the job JA is assigned to the PE3 and PE4 will be described with reference to FIG. The processing of the processor element PE4 is the same as in FIG. 8B.

【0019】この場合、4個のプロセッサエレメントP
E1、PE2、PE3、PE4では、それぞれユーザプ
ログラムUP1、UP2、UP3、UP4により、ジョ
ブJAを実行する。
In this case, four processor elements P
In E1, PE2, PE3, and PE4, the job JA is executed by the user programs UP1, UP2, UP3, and UP4, respectively.

【0020】そして、各プロセッサエレメントPE1、
PE2、PE3、PE4では、それぞれ、図9に示した
所定の時刻にジョブJAを終了するが、プロセッサエレ
メントPE4では、時刻t1でジョブJAを中断し、テ
ストプログラムTE4を実行する。
Then, each processor element PE1,
In each of PE2, PE3, and PE4, the job JA ends at the predetermined time shown in FIG. 9, but in the processor element PE4, the job JA is interrupted at the time t1 and the test program TE4 is executed.

【0021】その後、時刻t2でテストプログラムTE
4の処理が終了すると、ジョブJAの続きを実行し、時
刻t3で、ジョブJAを終了する。この場合、PE1〜
PE3では、ジョブJAの実行中にテストプログラムを
実行しなかった(テストプログラムの起動前に、ジョブ
JAが終了しているため)とすると、プロセッサエレメ
ントPE4だけが、テストプログラムTE4の実行時間
(t1〜t2の間)だけ、ジョブJAの処理が遅れるこ
とになる。
Thereafter, at time t2, the test program TE
When the processing of 4 is completed, the continuation of job JA is executed, and at time t3, job JA is completed. In this case, PE1
In PE3, if the test program is not executed during the execution of job JA (because job JA is completed before the start of the test program), only processor element PE4 executes the execution time (t1) of test program TE4. The processing of the job JA is delayed by (between t2 and t2).

【0022】すなわち、ジョブJAの実行途中で、割り
込みによりテストプログラムを実行すると、テストプロ
グラムの実行時間だけ、ジョブJAの処理が遅れること
になる。
That is, if the test program is executed by interruption during the execution of the job JA, the processing of the job JA is delayed by the execution time of the test program.

【0023】§4:テストプログラムにより、ハードウ
エア障害を検出した場合の説明・・・図10参照 以下、プロセッサエレメントPE4の処理例を、図10
のタイミングチャートに基づいて説明する。なお、図1
0において、Kはテストプログラムの起動周期である。
§4: Description of the case where a hardware failure is detected by the test program ... See FIG. 10. Hereinafter, a processing example of the processor element PE4 will be described with reference to FIG.
The timing chart will be described. Note that FIG.
At 0, K is the activation period of the test program.

【0024】例えば、ユーザプログラムUP4により、
ジョブJAを実行している途中の時刻t1で、オペレー
ティングシステムOS4が、ユーザプログラムUP4に
割り込みを行うことにより、ジョブJAの処理を中断さ
せ、テストプログラムTE4を起動させる。
For example, by the user program UP4,
At time t1 during the execution of the job JA, the operating system OS4 interrupts the user program UP4 to interrupt the processing of the job JA and activate the test program TE4.

【0025】これにより、オペレーティングシステムO
S4の配下でテストプログラムTE4を実行し、ハード
ウエア障害の検出を行う。そして、時刻t2で、テスト
プログラムTE4の処理が終了すると、テストプログラ
ムTE4からオペレーティングシステムOS4に対し、
テストプログラムTE4の終了通知(処理の終了通知)
を行う。
As a result, the operating system O
The test program TE4 is executed under the control of S4 to detect a hardware failure. Then, at the time t2, when the processing of the test program TE4 ends, the test program TE4 instructs the operating system OS4 to
End notification of test program TE4 (end notification of processing)
I do.

【0026】この終了通知を行う場合、テストプログラ
ムTE4の実行で、ハードウエア障害を検出しなかった
ため(この例では正常とする)、ハードウエアが正常で
あることを報告する。
When this end notification is given, since the test program TE4 was executed and no hardware failure was detected (normal in this example), it is reported that the hardware is normal.

【0027】その後、中断していたジョブJAの続きを
実行し、時刻t3でジョブJAが終了すると、ユーザプ
ログラムUP4から、オペレーティングシステムOS4
に対し、ジョブJAの終了通知を行う。
After that, the continuation of the suspended job JA is executed, and when the job JA ends at the time t3, the operating system OS4 is changed from the user program UP4.
The job JA is notified of the end.

【0028】その後、ユーザプログラムUP4により、
ジョブJB、JC、JDの順に処理を行い、ジョブJD
の実行途中の時刻t4で、テストプログラムの起動を行
う時刻(テストプログラムの起動周期K)になったとす
る。
Then, by the user program UP4,
Jobs JB, JC, and JD are processed in this order, and job JD
It is assumed that at time t4 during the execution of, the time to start the test program (the start cycle K of the test program) has come.

【0029】この時刻t4で、再び、オペレーティング
システムOS4からユーザプログラムUP4に対し、割
り込みを行って、ジョブJDの処理を中断させ、テスト
プログラムTE4を起動させる。
At time t4, the operating system OS4 again interrupts the user program UP4 to interrupt the processing of the job JD and activate the test program TE4.

【0030】このようにして、テストプログラムTE4
を実行し、時刻t5で、テストプログラムTE4の処理
が終了すると、テストプログラムTE4から、オペレー
ティングシステムOS4に対し、テストプログラムTE
4の終了通知を出す。
In this way, the test program TE4
And the processing of the test program TE4 ends at time t5, the test program TE4 instructs the operating system OS4 to execute the test program TE4.
Issue 4 end notification.

【0031】この時、テストプログラムTE4の実行に
より、ハードウエア障害を検出したとすると、テストプ
ログラムTE4の終了通知において、ハードウエアの異
常報告を行う。
At this time, if a hardware failure is detected by executing the test program TE4, a hardware abnormality is reported in the end notification of the test program TE4.

【0032】以上のようにして、プロセッサエレメント
PE4の処理を行うが、上記時刻t5での異常報告で
は、時刻t2からt4の間に実行したジョブ全て(J
A、JB、JC、JD)が異常終了対象のジョブとな
る。
The processing of the processor element PE4 is performed as described above. However, in the abnormality report at the time t5, all the jobs (J
A, JB, JC, JD) are jobs that are subject to abnormal termination.

【0033】なお、この場合、ジョブJAが異常終了と
なるから、時刻t1以前に実行したジョブJAについて
も異常終了となる。
In this case, since the job JA ends abnormally, the job JA executed before the time t1 also ends abnormally.

【0034】[0034]

【発明が解決しようとする課題】上記のような従来のも
のにおいては、次のような課題があった。 :各プロセッサエレメントで実行中のジョブに同期さ
せることなく、各プロセッサエレメントに対し、一定時
間毎にテストプログラムを実行させていた。
SUMMARY OF THE INVENTION The above-mentioned conventional devices have the following problems. : Each processor element was caused to execute a test program at regular intervals without being synchronized with the job being executed by each processor element.

【0035】このため、複数のプロセッサエレメントに
またがるジョブの場合、テストプログラムを実行してい
たプロセッサエレメント(上記の例ではPE4)だけ、
処理が遅くなる(テストプログラムの実行時間だけ、ジ
ョブの終了が遅くなる)。
Therefore, in the case of a job spanning a plurality of processor elements, only the processor element (PE4 in the above example) that was executing the test program,
Processing is slow (job execution is delayed for the test program execution time).

【0036】従って、処理効率が悪く、マルチプロセッ
サシステムの性能が低下する。 :テストプログラムの実行により、ハードウエア障害
が検出された際、障害の影響を受けたと思われるジョブ
を多数、異常終了させなければならなかった。
Therefore, the processing efficiency is poor and the performance of the multiprocessor system is degraded. : When a hardware error was detected by the execution of the test program, many jobs that seemed to be affected by the error had to be abnormally terminated.

【0037】従って、この点でも、処理効率が悪く、マ
ルチプロセッサシステムの性能が低下する。本発明は、
このような従来の課題を解決し、マルチプロセッサシス
テムにおいて、テストプログラムのオーバーヘッドを減
らすと同時に、テストプログラムにより、ハードウエア
障害が検出された際に、異常終了すべきジョブを最小限
に抑えることを目的とする。
Therefore, also in this point, the processing efficiency is poor and the performance of the multiprocessor system is deteriorated. The present invention is
It is possible to solve such conventional problems and reduce the overhead of the test program in a multiprocessor system, and at the same time, minimize the jobs that should be abnormally terminated when the test program detects a hardware failure. To aim.

【0038】[0038]

【課題を解決するための手段】図1は本発明の原理説明
図であり、図1中、図8〜図10と同じものは、同一符
号で示してある。
FIG. 1 is a diagram for explaining the principle of the present invention. In FIG. 1, the same parts as those in FIGS. 8 to 10 are designated by the same reference numerals.

【0039】本発明は上記の課題を解決するため、次の
ように構成した。 :それぞれ、オペレーティングシステム(OSi:i
=0、1、2・・・n−1)を有する複数のプロセッサ
エレメント(PEi:i=0、1、2・・・n−1)を
具備し、各プロセッサエレメント内に、上記各オペレー
ティングシステムの配下で実行させ、システムのハード
ウエア障害を検出するためのテストプログラム(TE
i:i=0、1、2・・・n−1)を格納したマルチプ
ロセッサシステムで、1つのジョブ(JA)を、複数の
プロセッサエレメント(PE1、PE2)に割り当てて
処理しているシステム運用中に、上記テストプログラム
を起動させるテストプログラム起動方法において、上記
1つのジョブ(JA)の終了に同期して、該ジョブ(J
A)の実行に関わった全てのプロセッサエレメント(P
E1、PE2)で、上記オペレーティングシステムが、
一斉にテストプログラムを起動させるように構成した。
In order to solve the above problems, the present invention has the following configuration. : Operating system (OSi: i)
A plurality of processor elements (PEi: i = 0,1,2, ... n-1) having 0,1,2, ... n-1), and each operating system is provided in each processor element. Test program (TE to detect system hardware failure).
i: i = 0, 1, 2, ... N-1) is stored in the multiprocessor system, and one job (JA) is assigned to a plurality of processor elements (PE1, PE2) and processed. In the test program starting method for starting the test program, the job (J) is synchronized with the end of the one job (JA).
All processor elements (P
E1, PE2), the operating system is
It is configured to start the test programs all at once.

【0040】:構成において、プロセッサエレメン
ト(PEi:i=0、1、2・・・n−1)の内、各プ
ロセッサエレメントに対する制御用のプロセッサエレメ
ント(PE0)が、1つのジョブ(JA)の実行に関わ
った全てのプロセッサエレメント(PE1、PE2)か
らのジョブ終了通知により、1つのジョブ(JA)の終
了を確認した時、上記ジョブ(JA)の実行に関わった
全てのプロセッサエレメント(PE1、PE2)に対
し、テストプログラムの起動を指示することにより、こ
れら各プロセッサエレメントのオペレーティングシステ
ム(OS1、OS2)が、それぞれ、テストプログラム
(TE1、TE2)を起動するように構成した。
In the configuration, among the processor elements (PEi: i = 0, 1, 2, ... N-1), the processor element (PE0) for controlling each processor element is one job (JA). When the end of one job (JA) is confirmed by the job end notification from all the processor elements (PE1, PE2) involved in the execution, all the processor elements (PE1, PE1, By instructing PE2) to start the test program, the operating systems (OS1 and OS2) of these processor elements are configured to start the test programs (TE1 and TE2), respectively.

【0041】[0041]

【作用】上記構成に基づく本発明の作用を、図1に基づ
いて説明する。例えば、プロセッサエレメントPE0を
制御用のプロセッサエレメントとし、2個のプロセッサ
エレメントPE1、PE2で、1つのジョブJAを処理
している場合に、テストプログラムを起動させるには、
次のようにする。
The operation of the present invention based on the above configuration will be described with reference to FIG. For example, when the processor element PE0 is used as a control processor element and two job elements PE1 and PE2 process one job JA,
Do the following:

【0042】今、プロセッサエレメントPE1、PE2
で、それぞれユーザプログラムによりジョブJAを実行
しているとする。その後、プロセッサエレメントPE
1、PE2では、ジョブJAが終了すると、プロセッサ
エレメントPE0に対し、ジョブJAの終了通知を出
す。
Now, the processor elements PE1 and PE2
Then, it is assumed that the job JA is executed by each user program. After that, the processor element PE
In 1 and PE2, when the job JA ends, the end notification of the job JA is issued to the processor element PE0.

【0043】このようにして、プロセッサエレメントP
E0が、プロセッサエレメントPE1、PE2からのジ
ョブJAの終了通知を受け取ることにより、各プロセッ
サエレメントPE1、PE2でのジョブJAの終了を確
認する。
In this way, the processor element P
When E0 receives the end notification of the job JA from the processor elements PE1 and PE2, the end of the job JA in each processor element PE1 and PE2 is confirmed.

【0044】そして、プロセッサエレメントPE0が、
プロセッサエレメントPE1、PE2でのジョブJAの
終了を確認した時、各プロセッサエレメントPE1、P
E2に対し、テストプログラムの起動指令を出す。
Then, the processor element PE0 is
When the end of the job JA in the processor elements PE1 and PE2 is confirmed, each processor element PE1 and P2
A test program start command is issued to E2.

【0045】各プロセッサエレメントPE1、PE2で
は、プロセッサエレメントPE0からのテストプログラ
ムの起動指令を受け取ると、各オペレーティングシステ
ムOS1、OS2が直ちに、テストプログラムTE1、
TE2を起動させて、実行させる。
In each of the processor elements PE1 and PE2, upon receipt of the test program activation command from the processor element PE0, the operating system OS1 or OS2 immediately receives the test program TE1 or
TE2 is started and executed.

【0046】すなわち、プロセッサエレメントPE1で
は、テストプログラムTE1を実行し、プロセッサエレ
メントPE2では、テストプログラムTE2を実行す
る。そして、各プロセッサエレメントPE1、PE2で
のテストプログラムの処理が終了すると、それぞれ、プ
ロセッサエレメントPE0に対し、テストプログラムの
終了通知を行う。
That is, the processor element PE1 executes the test program TE1, and the processor element PE2 executes the test program TE2. Then, when the processing of the test program in each of the processor elements PE1 and PE2 is completed, the end of the test program is notified to the processor element PE0.

【0047】プロセッサエレメントPE0では、各プロ
セッサエレメントPE1、PE2からのテストプログラ
ムの終了通知により、テストプログラムの終了を確認す
る。以上のようにして、テストプログラムを実行し、シ
ステムのハードウエア障害の検出を行う。
The processor element PE0 confirms the end of the test program by the end notification of the test program from each of the processor elements PE1 and PE2. As described above, the test program is executed to detect the hardware failure of the system.

【0048】このようにすると、科学技術計算用計算機
など、ジョブ当たりのタイムスライスを大きくとれるマ
ルチプロセッサシステムにおいて、テストプログラムの
オーバーヘッドを減らすと同時に、テストプログラムに
より、ハードウエア障害が検出された際に、異常終了す
べきジョブを最小限に抑えることが可能となる。
By doing so, in a multiprocessor system such as a computer for scientific and technical computing which can take a large time slice for each job, the overhead of the test program is reduced and at the same time when the test program detects a hardware failure. It is possible to minimize the number of jobs that should end abnormally.

【0049】[0049]

【実施例】以下、本発明の実施例を図面に基づいて説明
する。 (第1実施例の説明)図2〜図6は、本発明の第1実施
例を示した図であり、図2は第1実施例の説明図1(シ
ステム構成図)、図3は第1実施例の説明図2(PEの
説明図)、図4は第1実施例の説明図3(PEの処理フ
ローチャート)、図5は第1実施例の説明図4(PE処
理時のタイミングチャート)、図6は第1実施例の説明
図5(PE4処理時のタイミングチャート)である。
Embodiments of the present invention will be described below with reference to the drawings. (Description of First Embodiment) FIGS. 2 to 6 are views showing a first embodiment of the present invention, FIG. 2 is an explanatory view of the first embodiment (system configuration diagram), and FIG. FIG. 2 is an explanatory view of the first embodiment, FIG. 4 is an explanatory view of the first embodiment, FIG. 3 is a processing flow chart of the PE, and FIG. 5 is an explanatory view of the first embodiment. ), And FIG. 6 is an explanatory diagram 5 of the first embodiment (timing chart during PE4 processing).

【0050】図2〜図6中、図1、図8〜図10と同じ
ものは、同一符号で示してある。 §1:マルチプロセッサシステムの構成の説明・・・図
2参照 第1実施例におけるマルチプロセッサシステムの構成
は、図2に示した通りである。
2 to 6, the same components as those in FIGS. 1 and 8 to 10 are designated by the same reference numerals. §1: Description of configuration of multiprocessor system--see FIG. 2 The configuration of the multiprocessor system in the first embodiment is as shown in FIG.

【0051】すなわち、このマルチプロセッサシステム
は、プロセッサエレメントPE0〜PE(n−1)から
なるn個のプロセッサエレメントPEi(i=0、1、
2・・・n−1)で構成されており、その内の1つのプ
ロセッサエレメントPE0を、他のプロセッサエレメン
トに対する制御用のプロセッサとしたシステムである。
That is, this multiprocessor system has n processor elements PEi (i = 0, 1, ...) Consisting of processor elements PE0-PE (n-1).
2 ... n-1), and one of the processor elements PE0 is used as a processor for controlling other processor elements.

【0052】§2:プロセッサエレメントの説明・・・
図3参照 上記マルチプロセッサシステムを構成する各プロセッサ
エレメントPEi(i=0、1、2・・・n−1)に
は、それぞれ、オペレーティングシステムOSi(i=
0、1、2・・・n−1)と、ユーザプログラムUPi
(i=0、1、2・・・n−1)と、テストプログラム
TEi(i=0、1、2・・・n−1)が設けてある。
§2: Description of processor element ...
See FIG. 3. Each of the processor elements PEi (i = 0, 1, 2, ..., n−1) that constitutes the above multiprocessor system has an operating system OSi (i =
0, 1, 2, ... N-1) and the user program UPi
(I = 0, 1, 2, ... N-1) and a test program TEi (i = 0, 1, 2, ... N-1) are provided.

【0053】この場合、テストプログラムTEiは、各
プロセッサエレメントPEi内のハードウエア障害を検
出するためのプログラムであり、各プロセッサエレメン
トPEi内のオペレーティングシステムOSiの配下で
実行されるものである。
In this case, the test program TEi is a program for detecting a hardware failure in each processor element PEi, and is executed under the operating system OSi in each processor element PEi.

【0054】上記各プロセッサエレメントPEiでは、
与えられたジョブの実行を終了すると、プロセッサエレ
メントPE0に対し、ジョブ終了通知を出し、プロセッ
サエレメントPE0からのテストプログラムの起動指令
に従って、テストプログラムの起動を行う。
In each of the above processor elements PEi,
When the execution of the given job is completed, a job end notification is issued to the processor element PE0, and the test program is started according to the test program start instruction from the processor element PE0.

【0055】また、プロセッサエレメントPE0では、
各プロセッサエレメントからのジョブ終了通知を受け取
り、ジョブの終了を確認する処理を行うと共に、各プロ
セッサエレメントに対し、テストプログラムの起動指令
を行う。
Further, in the processor element PE0,
A job end notification is received from each processor element, processing for confirming the end of the job is performed, and a test program start command is issued to each processor element.

【0056】§3:フローチャートによるプロセッサエ
レメント(PE)の処理説明・・・図4参照 以下、図4の処理フローチャートに基づいて、各プロセ
ッサエレメントの処理を説明する。なお、図のS1〜S
4は、各処理番号を示す。
§3: Description of Processing of Processor Element (PE) by Flowchart--See FIG. 4 Below, the processing of each processor element will be described based on the processing flowchart of FIG. Note that S1 to S in the figure
Reference numeral 4 indicates each processing number.

【0057】以下の例では、4個のプロセッサエレメン
トPE1、PE2、PE3、PE4で、1つのジョブJ
Aを処理している場合に、テストプログラムを起動させ
る例として説明する。
In the following example, one job J is composed of four processor elements PE1, PE2, PE3 and PE4.
An example in which the test program is activated when A is processed will be described.

【0058】S1:この処理では、複数のプロセッサエ
レメントPEi(i=1、2、3、4)内で、それぞれ
ユーザプログラムUPi(i=1、2、3、4)により
ジョブJAを実行する。
S1: In this process, the job JA is executed by the user program UPi (i = 1, 2, 3, 4) in each of the plurality of processor elements PEi (i = 1, 2, 3, 4).

【0059】すなわち、プロセッサエレメントPE1で
は、ユーザプログラムUP1によりジョブJAを実行
し、プロセッサエレメントPE2では、ユーザプログラ
ムUP2によりジョブJAを実行し、プロセッサエレメ
ントPE3では、ユーザプログラムUP3によりジョブ
JAを実行し、プロセッサエレメントPE4では、ユー
ザプログラムUP4によりジョブJAを実行する。
That is, the processor element PE1 executes the job JA by the user program UP1, the processor element PE2 executes the job JA by the user program UP2, and the processor element PE3 executes the job JA by the user program UP3. In the processor element PE4, the job JA is executed by the user program UP4.

【0060】そして、各プロセッサエレメントでは、ジ
ョブJAが終了すると、プロセッサエレメントPE0
(制御用のプロセッサエレメント)に対し、ジョブJA
の終了通知を出す。
Then, in each processor element, when the job JA is completed, the processor element PE0
Job JA to (processor element for control)
Issue an end notification.

【0061】S2:この処理では、プロセッサエレメン
トPE0が、各プロセッサエレメントPEi(i=1、
2、3、4)からのジョブJAの終了通知を受け取るこ
とにより、各プロセッサエレメントでのジョブJAの終
了を確認する。
S2: In this processing, the processor element PE0 causes each processor element PEi (i = 1,
The end of job JA in each processor element is confirmed by receiving the end notification of job JA from (2, 3, 4).

【0062】もし、いずれかのプロセッサエレメント
で、ジョブJAが終了していなければ、終了するのを待
つ。 S3:上記S2の処理で、プロセッサエレメントPE0
が、全てのプロセッサエレメントでのジョブJAが終了
したのを確認すると、各プロセッサエレメントPEi
(i=1、2、3、4)に対し、テストプログラムの起
動指令を出す。
If the job JA has not been completed by any of the processor elements, it waits until it is completed. S3: In the process of S2, the processor element PE0
However, when confirming that the job JA has been completed in all the processor elements, each processor element PEi
A test program activation command is issued to (i = 1, 2, 3, 4).

【0063】各プロセッサエレメントでは、プロセッサ
エレメントPE0からのテストプログラムの起動指令を
受け取ると、直ちに、テストプログラムを起動させて
(一斉に起動させる)、実行させる。
Upon receipt of the test program activation command from the processor element PE0, each processor element immediately activates (simultaneously activates) the test programs and executes them.

【0064】すなわち、プロセッサエレメントPE1で
は、テストプログラムTE1を実行し、プロセッサエレ
メントPE2では、テストプログラムTE2を実行し、
プロセッサエレメントPE3では、テストプログラムT
E3を実行し、プロセッサエレメントPE4では、テス
トプログラムTE4を実行する。
That is, the processor element PE1 executes the test program TE1, the processor element PE2 executes the test program TE2,
In the processor element PE3, the test program T
E3 is executed, and the processor element PE4 executes the test program TE4.

【0065】そして、各プロセッサエレメントでのテス
トプログラムの処理が終了すると、それぞれ、プロセッ
サエレメントPE0に対し、テストプログラムの終了通
知を行う。
When the processing of the test program in each processor element is completed, the end of the test program is notified to the processor element PE0.

【0066】S4:この処理では、プロセッサエレメン
トPE0が、各プロセッサエレメントPEi(i=1、
2、3、4)からのテストプログラムの終了通知によ
り、テストプログラムの終了を確認する。
S4: In this processing, the processor element PE0 causes each processor element PEi (i = 1,
Confirm the end of the test program by the end notification of the test program from 2, 3, 4).

【0067】この場合、テストプログラムの処理が終了
しているプロセッサエレメントに対しては、プロセッサ
エレメントPE0が、新たなジョブの割り当てを行なっ
て該ジョブを実行させる。
In this case, the processor element PE0 assigns a new job to the processor element for which the processing of the test program has been completed and executes the job.

【0068】§4:タイミングチャートによるプロセッ
サエレメントの処理説明・・・図5参照 上記各プロセッサエレメントの処理を、図5のタイミン
グチャートにより説明する。
§4: Description of Processing of Processor Element by Timing Chart--See FIG. 5 The processing of each processor element will be described with reference to the timing chart of FIG.

【0069】なお、この例でも、図4と同様に、4個の
プロセッサエレメントPE1、PE2、PE3、PE4
で、1つのジョブJAを処理している場合に、テストプ
ログラムを起動させる例として説明する。
Also in this example, as in FIG. 4, four processor elements PE1, PE2, PE3, PE4 are provided.
Now, an example of activating a test program when one job JA is processed will be described.

【0070】上記と同様にして、1つのジョブJAを、
4個のプロセッサエレメントPE1〜PE4に割り当て
て実行しているものとする。そして、時刻t1で、プロ
セッサエレメントPE3でのジョブJAが終了し、時刻
t2で、プロセッサエレメントPE1でのジョブJAが
終了し、時刻t3で、プロセッサエレメントPE2での
ジョブJAが終了し、時刻t4で、プロセッサエレメン
トPE4でのジョブJAが終了したとする。
Similarly to the above, one job JA is
It is assumed that the four processor elements PE1 to PE4 are allocated and executed. Then, at time t1, the job JA in the processor element PE3 ends, at time t2, the job JA in the processor element PE1 ends, at time t3, the job JA in the processor element PE2 ends, and at time t4. It is assumed that the job JA in the processor element PE4 is completed.

【0071】この場合、プロセッサエレメントPE4で
のジョブJAの終了時刻t4が、ジョブJAの最も遅い
終了時刻となる。従って、制御用のプロセッサエレメン
トであるプロセッサエレメントPE0が、プロセッサエ
レメントPE4でのジョブJAの終了を確認すると、全
てのジョブJAの終了を確認できた状態となる。
In this case, the end time t4 of the job JA in the processor element PE4 is the latest end time of the job JA. Therefore, when the processor element PE0, which is the control processor element, confirms the end of the job JA in the processor element PE4, the end of all the job JA can be confirmed.

【0072】このため、プロセッサエレメントPE0で
は、この時刻t4で、プロセッサエレメントPE1〜P
E4でのジョブJAの終了を確認すると、直ちに、各プ
ロセッサエレメントPE1〜PE4に対し、テストプロ
グラムの起動指令を出す。
Therefore, in the processor element PE0, at this time t4, the processor elements PE1 to P1.
Upon confirming the end of the job JA at E4, a test program activation command is immediately issued to each of the processor elements PE1 to PE4.

【0073】この指令により、各プロセッサエレメント
PE1〜PE4では、それぞれテストプログラムを起動
し、実行する。すなわち、時刻t4で、プロセッサエレ
メントPE0からのテストプログラムの起動指令が出さ
れると、プロセッサエレメントPE1では、テストプロ
グラムTE1を実行し、プロセッサエレメントPE2で
は、テストプログラムTE2を実行し、プロセッサエレ
メントPE3では、テストプログラムTE3を実行し、
プロセッサエレメントPE4では、テストプログラムT
E4を実行する。
In response to this command, each of the processor elements PE1 to PE4 activates and executes the test program. That is, when a test program activation command is issued from the processor element PE0 at time t4, the processor element PE1 executes the test program TE1, the processor element PE2 executes the test program TE2, and the processor element PE3 Run the test program TE3,
In the processor element PE4, the test program T
Execute E4.

【0074】そして、各プロセッサエレメントでのテス
トプログラムの実行が終了すると、それぞれ、プロセッ
サエレメントPE0に対し、テストプログラムの終了報
告を行う。
When the execution of the test program in each processor element is completed, the completion of the test program is reported to the processor element PE0.

【0075】§5:タイミングチャートによるPE4の
処理説明・・・図6参照 1例として、上記処理の内、プロセッサエレメントPE
4での処理の詳細を、図6のタイミングチャートに基づ
いて説明する。
§5: Description of the processing of the PE4 based on the timing chart--see FIG. 6 As an example, of the above processing, the processor element PE
Details of the processing in 4 will be described based on the timing chart of FIG.

【0076】なお、この例は、図5に示した例と同じ処
理例である。従って、この場合にも、4個のプロセッサ
エレメントPE1、PE2、PE3、PE4で、1つの
ジョブJAを処理している場合に、テストプログラムを
起動させるものである。
Note that this example is the same processing example as the example shown in FIG. Therefore, also in this case, the test program is activated when one job JA is processed by the four processor elements PE1, PE2, PE3, and PE4.

【0077】上記のように、プロセッサエレメントPE
4が、ジョブJAを最も遅く終了した場合、時刻t4
で、ジョブJAの終了通知を出した(図5と同じ)後、
プロセッサエレメントPE0からのテストプログラムの
起動指令が出される。
As described above, the processor element PE
4 finishes the job JA latest, time t4
Then, after issuing the end notification of job JA (same as in FIG. 5),
A test program activation command is issued from the processor element PE0.

【0078】この時、プロセッサエレメントPE4のオ
ペレーティングシステムOS4では、テストプログラム
TE4を起動して実行させる。その後、時刻t5で、テ
ストプログラムTE4の処理が終了すると、テストプロ
グラムTE4から、オペレーティングシステムOS4に
対し、テストプログラムTE4の終了通知(処理の終了
通知)を出す。
At this time, the operating system OS4 of the processor element PE4 activates and executes the test program TE4. After that, when the processing of the test program TE4 ends at time t5, the test program TE4 issues an end notification of the test program TE4 (processing end notification) to the operating system OS4.

【0079】この場合、テストプログラムTE4の実行
により、ハードウエア障害が検出できなかったとする
と、上記終了通知により、正常報告を行う。続いて、ユ
ーザプログラムUP4では、ジョブJB(ジョブJAと
は別のジョブ)を実行し、時刻t6で、ジョブJBの処
理が終了すると、ユーザプログラムUP4からオペレー
ティングシステムOS4に対し、ジョブJBの終了通知
を出す。
In this case, if no hardware failure can be detected by the execution of the test program TE4, a normal report is issued by the end notification. Subsequently, the user program UP4 executes the job JB (a job different from the job JA), and when the processing of the job JB ends at time t6, the user program UP4 notifies the operating system OS4 of the end of the job JB. Give out.

【0080】その後、時刻t7で、ジョブJBの全ての
処理が終了し、プロセッサエレメントPE0から、テス
トプログラムの起動指令が出されると、オペレーティン
グシステムOS4では、再びテストプログラムTE4を
起動し、実行させる。
After that, at time t7, when all the processing of the job JB is completed and a test program activation command is issued from the processor element PE0, the operating system OS4 activates and executes the test program TE4 again.

【0081】そして、時刻t8でテストプログラムTE
4の処理が終了すると、テストプログラムTE4から、
オペレーティングシステムOS4に対し、テストプログ
ラムTE4の終了通知を出す。
Then, at time t8, the test program TE
When the processing of 4 is completed, from the test program TE4,
The operating system OS4 is notified of the end of the test program TE4.

【0082】この場合、テストプログラムTE4の実行
により、ハードウエア障害を検出したとすると、オペレ
ーティングシステムOS4に対し、異常報告を行う。こ
の時、異常終了対象ジョブは、時刻t5から時刻t6の
間に実行したジョブJBのみ(1つのジョブ)である。
In this case, if a hardware failure is detected by executing the test program TE4, an abnormality report is sent to the operating system OS4. At this time, the abnormal end target job is only the job JB executed from the time t5 to the time t6 (one job).

【0083】(第2実施例の説明)図7は、本発明の第
2実施例の説明図(PE処理時のタイミングチャート)
である。図7中、図1〜図6と同じものは同一符号で示
してある。
(Explanation of the Second Embodiment) FIG. 7 is an explanatory view of the second embodiment of the present invention (timing chart during PE processing).
Is. In FIG. 7, the same parts as those in FIGS. 1 to 6 are indicated by the same reference numerals.

【0084】第2実施例は、プロセッサエレメントPE
0〜PE3からなるプロセッサエレメント群にジョブJ
Aを割り当て、プロセッサエレメントPE4、PE5か
らなるプロセッサエレメント群にジョブJBを割り当て
た場合の処理例である。
The second embodiment is a processor element PE.
Job J is assigned to a processor element group consisting of 0 to PE3.
In this example, A is assigned and job JB is assigned to the processor element group consisting of processor elements PE4 and PE5.

【0085】以下、各プロセッサエレメントの処理を、
図7のタイミングチャートに基づいて説明する。なお、
図2、図3に示した構成は、第2実施例でも同じなの
で、これらの図も援用して説明する。
The processing of each processor element will be described below.
Description will be made based on the timing chart of FIG. 7. In addition,
The configurations shown in FIG. 2 and FIG. 3 are the same in the second embodiment as well, so these figures will also be used for explanation.

【0086】図示のように、プロセッサエレメントPE
0、PE1、PE2、PE3でジョブJAを実行し、プ
ロセッサエレメントPE4、PE5でジョブJBを実行
しているものとする。
As shown, the processor element PE
It is assumed that the job JA is executed by 0, PE1, PE2, and PE3, and the job JB is executed by the processor elements PE4 and PE5.

【0087】:ジョブJAを実行するプロセッサエレ
メント群の処理説明 時刻t1で、プロセッサエレメントPE3でのジョブJ
Aが終了し、時刻t2で、プロセッサエレメントPE2
でのジョブJAが終了し、時刻t3で、プロセッサエレ
メントPE0でのジョブJAが終了し、時刻t4で、プ
ロセッサエレメントPE1でのジョブJAが終了したと
する。
Description of Processing of Processor Element Group for Executing Job JA At time t1, job J in processor element PE3
A ends, and at time t2, the processor element PE2
Job JA at the processor element PE0 ends at time t3, and job JA at the processor element PE1 ends at time t4.

【0088】この場合、プロセッサエレメントPE1で
のジョブJAの終了時刻t4が、ジョブJAの最も遅い
終了時刻となる。従って、制御用のプロセッサエレメン
トであるプロセッサエレメントPE0が、プロセッサエ
レメントPE1でのジョブJAの終了を確認すると、全
てのジョブJAの終了を確認できた状態となる。
In this case, the end time t4 of the job JA in the processor element PE1 is the latest end time of the job JA. Therefore, when the processor element PE0, which is the control processor element, confirms the end of the job JA in the processor element PE1, it becomes a state in which the end of all the job JA can be confirmed.

【0089】このため、プロセッサエレメントPE0で
は、この時刻t4で、プロセッサエレメントPE0〜P
E3でのジョブJAの終了を確認すると、直ちに、各プ
ロセッサエレメントPE0〜PE3に対し、テストプロ
グラムの起動指令を出す。
Therefore, in the processor element PE0, at this time t4, the processor elements PE0 to P0.
Upon confirming the end of the job JA at E3, a test program activation command is immediately issued to each of the processor elements PE0 to PE3.

【0090】この指令により、各プロセッサエレメント
PE0〜PE3では、それぞれテストプログラムを起動
し、実行する。すなわち、時刻t4で、プロセッサエレ
メントPE0からのテストプログラムの起動指令が出さ
れると、プロセッサエレメントPE0では、テストプロ
グラムTE0を実行し、プロセッサエレメントPE1で
は、テストプログラムTE1を実行し、プロセッサエレ
メントPE2では、テストプログラムTE2を実行し、
プロセッサエレメントPE3では、テストプログラムT
E3を実行する。
In response to this instruction, each of the processor elements PE0 to PE3 activates and executes a test program. That is, at time t4, when a test program activation command is issued from the processor element PE0, the processor element PE0 executes the test program TE0, the processor element PE1 executes the test program TE1, and the processor element PE2 executes Run the test program TE2,
In the processor element PE3, the test program T
Execute E3.

【0091】そして、各プロセッサエレメントでのテス
トプログラムの実行が終了すると、それぞれ、プロセッ
サエレメントPE0に対し、テストプログラムの終了通
知を行う。
When the execution of the test program in each processor element is completed, the end of the test program is notified to the processor element PE0.

【0092】:ジョブJBを実行するプロセッサエレ
メント群の処理説明 プロセッサエレメントPE4、PE5からなるプロセッ
サエレメント群では、ジョブJBを実行する。
Description of Processing of Processor Element Group for Executing Job JB Job JB is executed in the processor element group including processor elements PE4 and PE5.

【0093】この場合、時刻t5で、プロセッサエレメ
ントPE5でのジョブJBが終了し、時刻t6で、プロ
セッサエレメントPE4でのジョブJBが終了したとす
る。この場合、プロセッサエレメントPE4でのジョブ
JBの終了時刻t6が、ジョブJBの最も遅い終了時刻
となる。
In this case, it is assumed that the job JB in the processor element PE5 ends at time t5 and the job JB in the processor element PE4 ends at time t6. In this case, the end time t6 of the job JB in the processor element PE4 is the latest end time of the job JB.

【0094】従って、プロセッサエレメントPE0が、
プロセッサエレメントPE4でのジョブJBの終了を確
認すると、全てのジョブJBの終了を確認できた状態と
なる。
Therefore, the processor element PE0 is
When the end of the job JB in the processor element PE4 is confirmed, the end of all the jobs JB can be confirmed.

【0095】このため、プロセッサエレメントPE0で
は、この時刻t6で、プロセッサエレメントPE4、P
E5でのジョブJBの終了を確認すると、直ちに、各プ
ロセッサエレメントPE4、PE5に対し、テストプロ
グラムの起動指令を出す。
Therefore, in the processor element PE0, at this time t6, the processor elements PE4, P4
Upon confirming the end of the job JB at E5, the test program start command is immediately issued to each of the processor elements PE4 and PE5.

【0096】この指令により、各プロセッサエレメント
PE4、PE5では、それぞれテストプログラムを起動
し、実行する。すなわち、時刻t6で、プロセッサエレ
メントPE0からのテストプログラムの起動指令が出さ
れると、プロセッサエレメントPE4では、テストプロ
グラムTE4を実行し、プロセッサエレメントPE5で
は、テストプログラムTE5を実行する。
In response to this instruction, each of the processor elements PE4 and PE5 activates and executes a test program. That is, at the time t6, when a test program activation command is issued from the processor element PE0, the processor element PE4 executes the test program TE4, and the processor element PE5 executes the test program TE5.

【0097】そして、各プロセッサエレメントでのテス
トプログラムの実行が終了すると、それぞれ、プロセッ
サエレメントPE0に対し、テストプログラムの終了通
知を行う。
When the execution of the test program in each processor element is completed, the end of the test program is notified to the processor element PE0.

【0098】以上のように、ジョブJAを実行するプロ
セッサエレメント群(PE0、PE1、PE2、PE
3)と、ジョブJBを実行するプロセッサエレメント群
(PE4、PE5)とが、それぞれ独立してテストプロ
グラムの起動を行っている。
As described above, the processor element group (PE0, PE1, PE2, PE) that executes the job JA is
3) and the processor element group (PE4, PE5) that executes the job JB independently activate the test program.

【0099】すなわち、1つのジョブを単位とし、同じ
ジョブを実行したプロセッサエレメント群の全てのジョ
ブが終了すると、該ジョブを実行したプロセッサエレメ
ント群に対し、テストプログラムの起動を指令する。
That is, when all the jobs of the processor element group that executed the same job are completed with one job as a unit, the processor element group that executed the job is instructed to start the test program.

【0100】このようにして、プロセッサエレメント群
毎に、テストプログラムを起動させ、実行させる。以上
実施例について説明したが、本発明は、科学技術計算用
計算機など、ジョブ当たりのタイムスライスを大きくと
れる各種の計算機、例えば、1つの大きなジョブを、複
数のプロセッサエレメントにより並列処理する計算機
(マルチプロセッサシステム)に適用して有効である。
In this way, the test program is activated and executed for each processor element group. Although the embodiments have been described above, the present invention is applicable to various types of computers such as scientific and technological computing computers that can take a large time slice per job, for example, a computer (multiprocessor that processes one large job in parallel by a plurality of processor elements). It is effective when applied to a processor system).

【0101】なお、本発明のマルチプロセッサシステム
は、タイムスライスが小さいジョブに適用した場合、ジ
ョブの走行時間に対するテストプログラムの走行時間
が、相対的に増大し、システムの性能低下を引き起こ
す。
When the multiprocessor system of the present invention is applied to a job having a small time slice, the running time of the test program relative to the running time of the job is relatively increased, and the system performance is deteriorated.

【0102】このため、本発明では、上記のようにジョ
ブ当たりのタイムスライスを大きくとれることが必要条
件である。
Therefore, in the present invention, it is a necessary condition that the time slice per job can be large as described above.

【0103】[0103]

【発明の効果】以上説明したように、本発明によれば次
のような効果がある。 :ジョブ当たりのタイムスライスを大きくとれる計算
機(マルチプロセッサシステム)において、テストプロ
グラムのオーバーヘッドを減らすことができる。
As described above, the present invention has the following effects. : It is possible to reduce the overhead of the test program in a computer (multiprocessor system) that can take a large time slice per job.

【0104】:ジョブ当たりのタイムスライスを大き
くとれる計算機、例えば、1つの大きなジョブを複数の
装置により並列処理するような計算機の運用中におい
て、テストプログラムにより、ハードウエア障害が検出
された際、異常終了すべきジョブを最小限に抑えること
ができる。このため、計算機を効率良く運用することが
可能となる。
When a hardware failure is detected by the test program during the operation of a computer capable of obtaining a large time slice per job, for example, a computer in which one large job is processed in parallel by a plurality of devices, an error occurs. Jobs to be finished can be minimized. Therefore, the computer can be operated efficiently.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理説明図である。FIG. 1 is a diagram illustrating the principle of the present invention.

【図2】第1実施例の説明図1(システム構成図)であ
る。
FIG. 2 is an explanatory diagram 1 (system configuration diagram) of the first embodiment.

【図3】第1実施例の説明図2(PEの説明図)であ
る。
FIG. 3 is an explanatory diagram 2 (an explanatory diagram of PE) of the first embodiment.

【図4】第1実施例の説明図3(PEの処理フローチャ
ート)である。
FIG. 4 is an explanatory diagram 3 (PE processing flowchart) of the first embodiment.

【図5】第1実施例の説明図4(PE処理時のタイミン
グチャート)である。
FIG. 5 is an explanatory diagram (a timing chart during PE processing) of the first embodiment.

【図6】第1実施例の説明図5(PE4処理時のタイミ
ングチャート)である。
FIG. 6 is an explanatory diagram (a timing chart at the time of PE4 processing) of the first embodiment.

【図7】第2実施例の説明図(PE処理時のタイミング
チャート)である。
FIG. 7 is an explanatory diagram of a second embodiment (timing chart during PE processing).

【図8】従来技術の説明図1(Aはシステム構成図、B
はPE4処理時の説明図)である。
FIG. 8 is an explanatory diagram 1 of the related art (A is a system configuration diagram and B is a system configuration diagram).
Is an explanatory diagram at the time of PE4 processing).

【図9】従来技術の説明図2(PE処理時のタイミング
チャート)である。
FIG. 9 is an explanatory diagram 2 (a timing chart at the time of PE processing) of the conventional technique.

【図10】従来技術の説明図3(PE4処理時のタイミ
ングチャート)である。
FIG. 10 is an explanatory diagram 3 (a timing chart during PE4 processing) of the conventional technique.

【符号の説明】[Explanation of symbols]

PE0、PE1、PE2 プロセッサエレメント OS0、OS1、OS2 オペレーティングシステム JA ジョブ TE1、TE2 テストプログラム PE0, PE1, PE2 Processor element OS0, OS1, OS2 Operating system JA Job TE1, TE2 Test program

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 それぞれ、オペレーティングシステム
(OSi:i=0、1、2・・・n−1)を有する複数
のプロセッサエレメント(PEi:i=0、1、2・・
・n−1)を具備し、 各プロセッサエレメント内に、 上記各オペレーティングシステムの配下で実行させ、シ
ステムのハードウエア障害を検出するためのテストプロ
グラム(TEi:i=0、1、2・・・n−1)を格納
したマルチプロセッサシステムで、 1つのジョブ(JA)を、複数のプロセッサエレメント
(PE1、PE2・・・)に割り当てて処理しているシ
ステム運用中に、上記テストプログラムを起動させるテ
ストプログラム起動方法において、 上記1つのジョブ(JA)の終了に同期して、 該ジョブ(JA)の実行に関わった全てのプロセッサエ
レメント(PE1、PE2・・・)で、 上記オペレーティングシステムが、一斉にテストプログ
ラムを起動させることを特徴としたテストプログラム起
動方法。
1. A plurality of processor elements (PEi: i = 0, 1, 2, ...) Each having an operating system (OSi: i = 0, 1, 2, ... N-1).
N-1), a test program (TEi: i = 0, 1, 2, ...) Which is executed in each processor element under the control of each of the above operating systems and detects a hardware failure of the system. n-1) is stored in the multiprocessor system, and one job (JA) is assigned to a plurality of processor elements (PE1, PE2 ...) And processed, and the above test program is activated during system operation. In the test program starting method, in synchronization with the end of the one job (JA), all the processor elements (PE1, PE2, ... A test program starting method characterized by starting a test program on the.
【請求項2】 上記プロセッサエレメント(PEi:i
=0、1、2・・・n−1)の内、各プロセッサエレメ
ントに対する制御用のプロセッサエレメント(PE0)
が、 上記1つのジョブ(JA)の実行に関わった全てのプロ
セッサエレメント(PE1、PE2・・・)からのジョ
ブ終了通知により、1つのジョブ(JA)の終了を確認
した時、 上記ジョブ(JA)の実行に関わった全てのプロセッサ
エレメント(PE1、PE2・・・)に対し、テストプ
ログラムの起動を指示することにより、 これら各プロセッサエレメントのオペレーティングシス
テム(OS1、OS2・・・)が、それぞれ、テストプ
ログラム(TE1、TE2・・・)を起動することを特
徴とした請求項1記載のテストプログラム起動方法。
2. The processor element (PEi: i)
= 0, 1, 2, ... n-1), a processor element (PE0) for controlling each processor element
However, when the end of one job (JA) is confirmed by the job end notification from all the processor elements (PE1, PE2, ...) Involved in the execution of the one job (JA), ), The operating system (OS1, OS2 ...) Of each processor element (PE1, PE2 ...) 2. The test program starting method according to claim 1, wherein the test programs (TE1, TE2 ...) Are started.
JP5121049A 1993-05-24 1993-05-24 Test program starting method Withdrawn JPH06332874A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5121049A JPH06332874A (en) 1993-05-24 1993-05-24 Test program starting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5121049A JPH06332874A (en) 1993-05-24 1993-05-24 Test program starting method

Publications (1)

Publication Number Publication Date
JPH06332874A true JPH06332874A (en) 1994-12-02

Family

ID=14801569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5121049A Withdrawn JPH06332874A (en) 1993-05-24 1993-05-24 Test program starting method

Country Status (1)

Country Link
JP (1) JPH06332874A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2192489A1 (en) 2008-11-28 2010-06-02 Hitachi Automotive Systems Ltd. Multi-core processing system for vehicle control or an internal combustion engine controller
JP2010218277A (en) * 2009-03-17 2010-09-30 Toyota Motor Corp Failure diagnostic system, electronic control unit, failure diagnostic method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2192489A1 (en) 2008-11-28 2010-06-02 Hitachi Automotive Systems Ltd. Multi-core processing system for vehicle control or an internal combustion engine controller
US8417990B2 (en) 2008-11-28 2013-04-09 Hitachi Automotive Systems, Ltd. Multi-core processing system for vehicle control or an internal combustion engine controller
JP2010218277A (en) * 2009-03-17 2010-09-30 Toyota Motor Corp Failure diagnostic system, electronic control unit, failure diagnostic method

Similar Documents

Publication Publication Date Title
JP3982353B2 (en) Fault tolerant computer apparatus, resynchronization method and resynchronization program
JPH04350758A (en) Workstation having multiprocessing capability
JPH06332874A (en) Test program starting method
JPH086800A (en) Data processor and microprocessor
JPH10116261A (en) Check point restarting method for parallel computer system
JPH0675820A (en) Interruption device in multi-processor system
JPH117431A (en) Failure recovery system for job executed by plural computers
JP2708172B2 (en) Parallel processing method
JP2526835B2 (en) Duplex synchronous control system of programmable controller
JP2969844B2 (en) Programmable controller
JPH0644234B2 (en) Task management device
JPH064318A (en) Error detecting system
JPH04247531A (en) Fault detecting system
JPH01177133A (en) Event information system
JPH05342058A (en) Process abnormality detection system
JPH10207716A (en) Interrupting mask control system
JPS6033654A (en) Inter-microprocessor data transferring system
JPH061466B2 (en) Lock exclusive control method
JPS62106549A (en) Multi-processor system
JPH06242969A (en) Real-time multitask system
JPH1124944A (en) Process synchronization method
JPS63238641A (en) Simplified detecting system for fault of microprocessor
JPS61143868A (en) Multiplex process controller
JPS61226839A (en) Event processing system
JPH0431421B2 (en)

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000801