JPH07282016A

JPH07282016A - 並列化コンパイラ

Info

Publication number: JPH07282016A
Application number: JP7222594A
Authority: JP
Inventors: Yoshimasa Obayashi; 善正尾林
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-04-11
Filing date: 1994-04-11
Publication date: 1995-10-27

Abstract

(57)【要約】【目的】並列計算機での実行時間が最も短くなるよう
にソースプログラムをコンパイルするコンパイラを提供
することを目的とする。【構成】ソースプログラムの構文解析を行ない中間言
語に変換する構文解析手段３と、前記中間言語につい
て、並列実行可能なループを検出し、並列化のすべての
パターンの並列化中間言語を求める並列性検出手段４、
５と、並列化中間言語の並列実行されるループの回数と
前記並列化中間言語の並列実行される部分と動作するプ
ロセッサ数とに基づいて各々の前記並列化中間言語の実
行時間を予測する実行時間評価手段６と、前記実行時間
評価手段で予測された実行時間がもっとも短い並列化中
間言語を選ぶ並列化中間言語選択手段７と、前記並列化
中間言語選択手段によって選ばれた前記並列化中間言語
を目的プログラムに変換する目的プログラム生成手段１
１とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は並列計算機用のコンパイ
ラに関するものである。

【０００２】

【従来の技術】近年、電子計算機の構成方式において複
数の処理装置を同時に動作させて高い処理能力を実現す
る並列計算機が実用化されつつある。並列計算機の例と
しては、図２５に示すように、プロセッサ、ローカルメ
モリ、データ転送装置からなるプロセッサエレメント複
数からなる並列計算機があげられる。

【０００３】通常の計算機用の高級プログラミング言語
であるＣやＦＯＲＴＲＡＮなどで書かれたソースプログ
ラムを並列計算機で実行するには、一般に元のソースプ
ログラムを並列計算機用の目的プログラムに翻訳する並
列化コンパイラが必要になり例として、特開平０２−１
３２５２５号公報に記載されている並列化コンパイラが
あげられる。

【０００４】図２１は従来の並列化コンパイラ２０１及
び中間コード格納部２０２の構成図である。中間コード
格納部２０２は、中間コード等を格納しておく領域であ
る。並列化コンパイラ２０１は、構文解析部２０３と、
並列性検出部２０４と、並列化変換部２０５と、目的プ
ログラム生成部２０６から構成されている。

【０００５】構文解析部２０３は、図２に示すようなソ
ースプログラムの字句解析や構文解析を行ない中間言語
に変換して中間コード格納部２０２に格納する。図２
は、並列実行の対象となるＤＯ文を複数含むＦＯＲＴＲ
ＡＮプログラムを示す、プログラムの図である。図２に
おいて、２１は第１のＤＯ文、２２は２１のループの内
部に含まれる第２のＤＯ文、２３は２２のループの外に
あり、２１のループ内で実行される実行文のブロック、
２４は２２のループ内で実行される実行文のブロックを
示す。

【０００６】並列性検出部２０４は、並列可能なループ
を検出し、さらに分割可能なループを検出して、それら
に基づいて並列、分割、拡大等を行い並列化の度合を最
大とする中間コードを求め格納部２に格納する。また並
列性検出部２０４は、図２２に示すように並列ループ検
出部２０４１と、分割拡大実行部２０４２から構成され
ている。

【０００７】並列ループ検出部２０４１は、構文解析部
２０３で変換された中間言語を用いて、中間言語におい
て並列可能なループを検出する。分割拡大実行部２０４
２は、並列ループ検出部２０４１での並列可能なループ
の検出が終了した中間言語において、並列化可能なルー
プに着目し、図２３、図２４に示す動作フロー図に従い
並列化の度合を最大にするように並列化し、かつ分割で
きるループがあれば分割を行い、分割ができなければル
ープを拡大するように処理を行い、図１１に示すような
中間コードを生成する。そしてその中間コードを格納部
２に格納する。図１１において、１１１は２１のＤＯル
ープを並列性検出部２０４がループ分割した結果得られ
た、並列実行可能な第１のＤＯループ、１１２は２１の
ＤＯループを並列性検出部２０４がループ分割した結果
得られた、並列実行可能な第２のＤＯループ、１１３は
４１のＤＯループを並列実行するように指示するＨＰＦ
（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＦｏｒｔｒａ
ｎ）のディレクティブ（指示子）が付された第１のＤＯ
文、１１４は１１３によって並列実行する実行文のブロ
ック、１１５は１１２のＤＯループを並列実行するよう
に指示するＨＰＦのディレクティブが付された第２のＤ
Ｏ文、４６は４２のＤＯループを並列実行するように指
示するＨＰＦのディレクティブが付された第３のＤＯ文
を示す。ここで分割とは、例えば図２に示すようにルー
プが二重になっている場合に図１１に示すように内側の
ループの直前直後で外側のループを切り離して２つ以上
のループにすることをいう。ここで拡大とは、例えば図
２に示すようにループが二重になっている場合に図１２
に示すように内側のループを外側のループの最内側にま
で広げることをいう。

【０００８】具体的な動作については、図２３、図２４
に示す。ここで、図２４は、図２３で呼び出されるサブ
ルーチンである。並列化変換部２０５は、並列性検出部
２０４で求められた中間コードに対して、データのアク
セスの状態を調べてデータの分散方法を決定し、実行に
必要なデータ転送のためのデータ転送文を追加した図１
６に示すような並列化中間コードを生成し、再び中間コ
ード格納部２０２に格納する。追加されたデータ転送の
ためのデータ転送文は、図１６における１６１、１６２
に示す行の文である。

【０００９】目的プログラム生成部２０６は、最適化処
理部２０７と、メモリ割り付け・レジスタ割り当て部２
０８と、コード生成部２０９から構成されていて、選択
された並列化中間コードから目的コードを生成する機能
を有する。最適化処理部２０７は、作成された並列化中
間コードに対して最適化処理を行う。

【００１０】メモリ割り付け・レジスタ割り当て部２０
８は、並列化中間コード内で用いられる全ての変数をメ
モリ及びレジスタに割当てる。コード生成部２０９は、
並列化中間コード及び割当てられた結果より目的プログ
ラムを生成する。このように、並列になる数を最大にす
るようにコンパイルしている。これは、一般に、並列に
なる数を多くすると、計算機での実行時間が短くなると
考えられるからである。

【００１１】

【発明が解決しようとする課題】しかしながら上記の従
来の構成によれば、コンパイルしたプログラムの並列計
算機での実際の実行時間が最も短くなるとは限らないと
いう問題があった。その理由として、通常、ソースプロ
グラムには並列化し得る部分が複数存在し、どの部分を
並列化するかによって実行速度が異なるからである。特
に、分散メモリを有する並列計算機においては、例えば
図２５に示すように各ローカルメモリにデータが分散し
ているため各ローカルメモリ間でのデータ転送が発生
し、並列計算機のアーキテクチャーによっては、このデ
ータ転送時間が実行時間の多くを占めるからである。

【００１２】本発明は上記問題点を解決するため、並列
計算機での実行時間が最も短くなるようにソースプログ
ラムをコンパイルするコンパイラを提供することを目的
とする。

【００１３】

【課題を解決するための手段】上記目的を達成するた
め、本発明の請求項１では、高級言語で記述されたソー
スプログラムの構文解析を行ない中間言語に変換する構
文解析手段と、前記中間言語について、並列実行可能な
ループを検出し、検出されたループに基づいて並列化の
すべてのパターンの並列化中間言語を求める並列性検出
手段と、前記並列化中間言語に基づいて、実行に必要な
プロセッサエレメント間のデータ転送を指示するデータ
転送文を追加した並列化中間言語に変換する並列化変換
手段と、前記並列化変換手段で変換された並列化中間言
語の並列実行されるループの回数と並列実行される部分
と動作するプロセッサ数とに基づいて各々の前記並列化
中間言語の実行時間を予測する実行時間評価手段と、前
記実行時間評価手段で予測された実行時間がもっとも短
い並列化中間言語を選ぶ並列化中間言語選択手段と、前
記並列化中間言語選択手段によって選ばれた前記並列化
中間言語を目的プログラムに変換する目的プログラム生
成手段とを備えたことを特徴とする。

【００１４】請求項２では、前記並列性検出手段は、中
間言語において並列実行可能なループを検出する並列ル
ープ検出部と、並列実行可能なループについて、分割可
能なループを検出する分割ループ検出部と、並列ループ
検出部及び分割ループ検出部の検出結果に基づいて、全
てのループに関して、分割して並列化する場合、拡大し
て並列化を行う場合、分割も拡大しないで並列化する場
合、並列化しない場合の４つの場合を組み合わせたパタ
ーンを求めそれぞれのパターンの中間言語を求める分割
拡大実行部とからなることを特徴とする。

【００１５】請求項３では、前記実行時間評価手段は、
さらに並列実行される部分毎に、データ転送文と、並列
実行されるループの回数とに基づいてデータ転送時間を
求め、前記実行時間にデータ転送時間を加えたものを新
たな実行時間とすることを特徴とする。請求項４では、
前記並列計算機は、さらに、各プロセッサエレメントに
共通のデータを記憶する共有メモリを有し、前記並列化
変換手段は、さらに、実行に必要な各プロセッサエレメ
ントと共有メモリとの間のデータ転送、及びそのデータ
転送における共有メモリへのアクセス競合を制御する排
他制御を指示する制御文を追加した並列化中間言語に変
換することを特徴とし、前記実行時間評価手段は、さら
に各プロセッサエレメントと共有メモリとの間のデータ
転送に要する回数に基づいて排他制御時間を求め、前記
実行時間に排他制御時間を加えたものを新たな実行時間
とすることを特徴とする。

【００１６】

【作用】上記構成によれば、請求項１では、高級言語で
記述されたソースプログラムの構文解析が構文解析手段
によって行なわれ、さらに構文解析手段によって中間言
語に変換される。前記中間言語について、並列実行可能
なループが並列性検出手段によって検出され、検出され
たループに基づいて並列化のすべてのパターンの並列化
中間言語が並列性検出手段によって求められる。前記中
間言語に基づいて、実行に必要なプロセッサエレメント
間のデータ転送を指示するデータ転送文を追加した並列
化中間言語は、並列化変換手段によって求められる。前
記並列化変換手段で求められた並列化中間言語の並列実
行されるループの回数と並列実行される部分と動作する
プロセッサ数とに基づいて各々の前記並列化中間言語の
実行時間が実行時間評価手段によって予測される。さら
に前記実行時間評価手段で予測された実行時間がもっと
も短い並列化中間言語が並列化中間言語選択手段によっ
て選ばれる。前記並列化中間言語選択手段によって選ば
れた前記並列化中間言語は、目的プログラム生成手段に
よって目的プログラムに変換される。

【００１７】請求項２では、前記並列性検出手段におい
て、中間言語において並列実行可能なループは、並列ル
ープ検出部によって検出される。つぎに並列実行可能な
ループについて、分割可能なループは、分割ループ検出
部によって検出される。並列ループ検出部及び分割ルー
プ検出部の検出結果に基づいて、１つの並列実行可能な
ループに対して、分割して並列化する場合、拡大して並
列化を行う場合、分割も拡大しないで並列化する場合、
並列化しない場合の４通りをすべての並列可能なループ
に関して組み合わせた全てのパターンが分割拡大実行部
によって求められ、それぞれのパターンの中間言語が分
割拡大実行部によって求められる。

【００１８】請求項３では、前記実行時間評価手段によ
って、さらに並列実行される部分毎に、データ転送文
と、並列実行されるループの回数とに基づいてデータ転
送時間が求められ、前記実行時間にデータ転送時間を加
えたものが新たな実行時間とされる。請求項４では、前
記並列化変換手段によって、さらに、実行に必要な各プ
ロセッサエレメントと共有メモリとの間のデータ転送、
及びそのデータ転送における共有メモリへのアクセス競
合を制御する排他制御を指示する制御文を追加した並列
化中間言語が求められることを特徴とし、前記実行時間
評価手段のよって、さらに各プロセッサエレメントと共
有メモリとの間のデータ転送に要する回数に基づいて排
他制御時間が求められ、前記実行時間に排他制御時間を
加えたものを新たな実行時間とすることを特徴とする。

【００１９】

【実施例】図１は本発明の実施例の並列化コンパイラ１
及び格納部２を含む構成図である。格納部２は、処理で
生じた中間コード等を格納しておく領域である。並列化
コンパイラ１は、構文解析部３、並列性検出部４、並列
化変換部５、実行時間評価部６、並列化中間コード選択
部７、目的プログラム生成部８から構成されている。

【００２０】構文解析部３は、入力されたソースプログ
ラムの字句解析や構文解析を行ない中間言語に変換して
格納部２に格納する。入力されたソースプログラムの例
を、図２に示す。同図において２１は第１のＤＯ文、２
２は２１のループの内部に含まれる第２のＤＯ文、２３
は２２のループの外にある２１のループ内で実行される
実行文のブロック、２４は２２のループ内で実行される
実行文のブロックを示す。

【００２１】並列性検出部４は、並列可能なループを検
出し、さらに分割可能なループを検出して、それらに基
づいて分割、拡大等を行い並列化のパターンすべての中
間コードを求め格納部２に格納する。また並列性検出部
４は、図３に示すように並列ループ検出部４１と、分割
ループ検出部４２と、分割拡大実行部４３から構成され
ている。

【００２２】並列ループ検出部４１は、構文解析部３で
変換された中間言語のすべてのループにおいて並列可能
なループを検出する。分割ループ検出部４２は、並列ル
ープ検出部４１での検出が終了したら、並列化可能なル
ープに着目し、分割可能なループを検出する。具体的な
動作については、図４及び図５に示す。ここで、図５
は、図４で呼び出されるサブルーチンである。図４は、
プログラムの行を読み込み、並列可能なループであれば
図５のサブルーチンを実行する（ステップＳ４１からス
テップＳ４３）。図５は、並列可能なループの先頭であ
れば（ステップＳ５１からステップＳ５３）、さらにそ
のループの前後でループの分割が可能かを判断する（ス
テップＳ５４）。分割可能であればそのループの位置を
記憶する（ステップＳ５５）。そしてさらに図５のサブ
ルーチンを再帰呼び出しする（ステップＳ５６）。ま
た、ステップＳ５３において、並列可能なループの先頭
でなければ次の行に進む（ステップＳ５７からステップ
Ｓ５２）。

【００２３】分割拡大実行部４３は、分割ループ検出部
４２での検出が終了したら、並列可能なループと分割可
能なループに着目し、各々のループに関して、並列化の
み行う、分割して並列化を行う、拡大して並列化を行
う、並列化を行わないの４通りの作業が考えられる。そ
こで、各々のループに関してこれらの作業を行いすべて
のパターンの中間コードを求め格納部２に格納する。こ
こで分割とは、例えば図２に示すようにループが二重に
なっている場合に図１１に示すように内側のループの直
前直後で外側のループを切り離して２つ以上のループに
することをいう。ここで拡大とは、例えば図２に示すよ
うにループが二重になっている場合に図１２に示すよう
に内側のループを外側のループの最内側にまで広げるこ
とをいう。具体的な動作については、図６、図７、図
８、図９に示す。ここで、図７は、図６で呼び出される
サブルーチンであり、図８及び図９は、図７で呼び出さ
れるサブルーチンである。求められたパターンの中間コ
ードの例は、図１０、図１１、図１２、図１３、図１４
に示される。図６は、プログラムの行を読み込み並列可
能なループであるかを判断する（ステップＳ６１からス
テップＳ６２）。並列可能なループであれば図７のサブ
ルーチンを呼び出す（ステップＳ６３）。ステップＳ６
２にて、並列可能なループでなければ次の行を読み込む
（ステップＳ６４からステップＳ６５）。呼び出された
図７のサブルーチンは、ここまでのプログラムの行に関
して、並列化した中間コードと並列化しない中間コード
を作る（ステップＳ７１からステップＳ７２）。次に次
の行を読み込み（ステップＳ７３）、それが並列可能な
ループの先頭であれば（ステップＳ７４）、さらに図７
のサブルーチンを再帰呼び出しする（ステップＳ７
５）。次に、そのループに分割可能である場合は、図８
のサブルーチンを呼び出し、分割可能でない場合は、図
９のサブルーチンを呼び出す（ステップＳ７６からステ
ップＳ７８）。ステップＳ７４にて、並列可能なループ
でなければ次の行を読み込む（ステップＳ７９からステ
ップＳ７３）。

【００２４】呼び出された図８のサブルーチンは、ま
ず、ここまでのプログラムに関して、並列化可能なルー
プを並列化しない中間コードと、一つ外側のループをこ
のループの前後で分割し並列化した中間コードと、一つ
外側のループを最内側まで拡大して、このループを並列
化した中間コードをつくる（ステップＳ８０１からステ
ップＳ８０２）。次の行を読み込み、並列化可能なルー
プであるかを判定し以下同様に処理をする（ステップＳ
８０３からステップＳ８１１）。読み出された図９のサ
ブルーチンは、ここまでのプログラムに関して、並列化
可能なループを並列化しない中間コードと、一つ外側の
ループを最内側まで拡大して、このループを並列化した
中間コードをつくる（ステップＳ９１からステップＳ９
２）。次の行を読み込み、並列化可能なループであるか
を判定し、以下同様に処理をする（ステップＳ９３から
ステップＳ９９）。

【００２５】図１０から図１４の図は、便宜上人に理解
できる形式で表してある。図１０について、１０１は図
２の２１のＤＯ文を並列実行指示するためのＨＰＦの指
示子が付されたＤＯ文であり、１０２は１０１によって
並列実行する実行文のブロックを示す。他の図である図
１１から図１４についても同様である。図１０は、外側
のループのみを並列化した中間コードである。図１１
は、外側のループを内側のループの直前直後で分割し
て、並列化した中間コードである。図１２は、内側のル
ープを外側のループの最内側まで拡大して、並列化した
中間コードである。図１３は、内側のループのみ並列化
した中間コードである。図１４は、並列化を全然行わな
い中間コードである。

【００２６】並列化変換部５は、並列性検出部４で求め
られた全てのパターンの中間コードに対して、データの
アクセスの状態を調べてデータの分散方法を決定し、実
行に必要なデータ転送のためのデータ転送文を追加した
図１５から図１９に示すような並列化中間コードを生成
し、再び格納部２に格納する。追加されたデータ転送の
ためのデータ転送文は、図１５における１５１に示す行
の文である。他の図面である図１６から図１９について
も同様である。

【００２７】実行時間評価部６は、並列化変換部５でデ
ータ転送文が追加された並列化中間コードに対して、プ
ロセッサでの予測実行時間と、データ転送時間と、それ
らを足したものである予測総実行時間を求める。また実
行時間評価部６は、図２０に示すように、実行時間予測
部６１と、データ転送時間予測部６２と、総実行時間予
測部６３から構成される。

【００２８】実行時間予測部６１は、図１５から図１９
に示すような並列化中間コードから、並列実行される実
行文のブロック毎に、その実行文のブロックにおけるプ
ロセッサ１個によるループ１回あたりの実行時間と、並
列実行されるループの回数と、その部分で並列に動作す
るプロセッサ数から、全ての実行文のブロックの実行時
間を予測する。そして求められたすべての実行文のブロ
ックの実行時間の総和を求め、これを予測実行時間とし
て求める。また求められた予測実行時間を、並列化中間
コードと対応させて格納部２に格納する。

【００２９】具体的には、図２における実行文のブロッ
ク２３とブロック２４の実行時間をＴ１、Ｔ２とすると
（但し、「ａ」は、ａ以上の最小の整数を表す。）図１
５の示す並列化中間コードの予測実行時間をＴ３は、次
のように表される。Ｔ３＝「ｎｘ／Ｎ」・（Ｔ１＋ｎｙ
・Ｔ２）。これは、並列実行される部分が１５２で示さ
れる部分であるためそこでの実行時間は、Ｔ１＋ｎｙ・
Ｔ２で表される。ｎｙ・Ｔ２は、Ｔ２時間の部分がｎｙ
回ループすることを表している。次に、「ｎｘ／Ｎ」の
部分は、並列実行される部分１５２がｎｘ個存在するこ
とを示していて、それが、Ｎ個のプロセッサで実行する
ことを表している。よって、ｎｘ／Ｎとなるが、それが
整数でないときは、１回多く実行しているプロセッサが
少なくとも１個は存在していることを意味する。そのた
め、プロセッサ全体での実行時間としては、その１回多
く実行しているプロセッサの実行時間になるため、「ｎ
ｘ／Ｎ」となる。同様に、図１６に示す並列化中間コー
ドの予測実行時間Ｔ４は、次のように表される。Ｔ４＝
「ｎｘ／Ｎ」・Ｔ１＋「ｎｘ・ｎｙ／Ｎ」・Ｔ２。図１
７に示す並列化中間コードの予測実行時間Ｔ５は、次の
ように表される。Ｔ５＝「ｎｘ・ｎｙ／Ｎ」・（Ｔ１＋
Ｔ２）。図１８に示す並列化中間コードの予測実行時間
Ｔ６は、次のように表される。Ｔ６＝ｎｘ・（Ｔ１＋
「ｎｙ／Ｎ」・Ｔ２）。図１９に示す並列化中間コード
の予測実行時間Ｔ７は、次のように表される。Ｔ７＝ｎ
ｘ・（Ｔ１＋ｎｙ・Ｔ２）。これらによって、Ｔ４≦Ｔ
３≦Ｔ６≦Ｔ７、Ｔ４≦Ｔ５であることが分かる。

【００３０】データ転送時間予測部６２は、データ転送
に要する時間も予測可能であれば、図１５から図１９に
しめすような並列化中間コードから、データ転送時間を
予測する。具体的には、データ転送時間は、並列実行さ
れるブロック毎に、並列実行に必要となるデータ転送文
から、そのデータ転送文によって転送されるデータ量を
求め、さらに比例定数Ｃをかけたものを求め、そして求
められた値の全てのデータ転送文に対しての総和をデー
タ転送時間として求め並列化中間コードと対応させて格
納部２に格納する。ここでの比例定数Ｃは、対象とする
ハードウェアーの特性によってデータ転送時間が、プロ
セッサ数や、送信プロセッサや受信プロセッサの位置等
に関係なく転送されるデータ量に比例するものと仮定し
たときの比例定数であるとする。図１５に示す並列化中
間コードのデータ転送の予測実行時間Ｔ８は、次によう
に表される。Ｔ８＝５Ｃ・ｎｘ・ｎｙ。並列実行のため
に必要なデータ転送文は５つある。その各々のデータ転
送量は、ｎｘ・ｎｙで等しい。よって各々のデータ転送
時間は、Ｃ・ｎｘ・ｎｙとなり、それが５つあるので５
Ｃ・ｎｘ・ｎｙとなる。同様にして、図１６に示す並列
化中間コードのデータ転送の予測実行時間Ｔ９は、次の
ように表される。Ｔ９＝４Ｃ・ｎｘ＋３Ｃ・ｎｘ・ｎ
ｙ。図１７に示す並列化中間コードのデータ転送の予測
実行時間Ｔ１０は、次のように表される。Ｔ１０＝５Ｃ
・ｎｘ・ｎｙ。図１８に示す並列化中間コードのデータ
転送の予測実行時間Ｔ１１は、次のように表される。Ｔ
１１＝３Ｃ・ｎｘ・ｎｙ。図１９に示す並列化中間コー
ドのデータ転送の予測実行時間Ｔ１２は、次のように表
される。Ｔ１２＝０。

【００３１】総実行時間予測部６３は、各並列化中間コ
ードに対して、実行時間予測部６１で求められた予測実
行時間と、データ転送時間予測部６２とで求められたデ
ータ転送時間を足して、予測総実行時間として求める。
求められた例としては、図１５の予測実行実行時間Ｔ１
３は、次のように表される。Ｔ１３＝Ｔ３＋Ｔ８。図１
６の予測実行実行時間Ｔ１４は、次のように表される。
Ｔ１４＝Ｔ４＋Ｔ９。図１７の予測実行実行時間Ｔ１５
は、次のように表される。Ｔ１５＝Ｔ５＋Ｔ１０。図１
８の予測実行実行時間Ｔ１６は、次のように表される。
Ｔ１６＝Ｔ６＋Ｔ１１。図１９の予測実行実行時間Ｔ１
７は、次のように表される。Ｔ１７＝Ｔ７＋Ｔ１２＝Ｔ
７。

【００３２】並列化中間コード選択部７は、格納部２の
中から、予測実行時間若しくは、予測総実行時間がもっ
とも短い並列化中間コードを選択する。目的プログラム
生成部８は、最適化処理部９、メモリ割り付け・レジス
タ割り当て部１０、コード生成部１１から構成されてい
て、並列化中間コード選択部７により選択された並列化
中間コードから目的コードを生成する機能を有する。

【００３３】最適化処理部９は、作成された並列化中間
コードに対して最適化処理を行う。メモリ割り付け・レ
ジスタ割り当て部１０は、並列化中間コード内で用いら
れる全ての変数をメモリ及びレジスタに割当てる。コー
ド生成部１１は、並列化中間コード及び割当てられた結
果より目的プログラムを生成する。

【００３４】以上のように本発明の実施例によれば、さ
らに、データ転送に要する時間が並列化部の実行時間に
比べて無視できない場合にでも、これらの時間の総和を
予測し、その総和に基づいてより最適と予測される並列
化中間コードを選択することができ、その結果、最終的
に得られる目的プログラムの性能をより高いものとする
ことができる。

【００３５】尚、本実施例の並列化コンパイラが対象と
する並列計算機が図２６に示すようにプロセッサ間で共
有するメモリを有する場合にも対応できるとする。図２
６は、プロセッサとローカルメモリとデータ転送装置と
からなる複数のプロセッサエレメントと、データ転送装
置とメモリ排他制御手段と共有メモリからなる共有メモ
リブロック一つとからなる並列計算機である。

【００３６】具体的にどのように共有メモリを有する場
合に対応できるかの方法は、以下に示す。また、図２５
に示す並列計算機との違いを明確にするため、図２に示
すソースプログラムの代わりに、図２７に示すソースプ
ログラムを用いる。図２７に示すソースプログラムは、
図２に示すソースプログラムに新たに、総和を求める計
算式である「sum = sum + q(i,j)」が追加されている。

【００３７】次にこれが本実施例と同様に、構文解析部
３、並列性検出部４と処理が行われ、さらに並列化変換
部５で、並列性検出部４で求められたパターンの中間コ
ードに対して、データのアクセスの状態を調べてデータ
の分散方法を決定し、実行に必要なデータ転送のための
データ転送文と、共有メモリの排他制御の制御文を追加
した図２８から図３２に示すような並列化中間コードを
生成する。追加された共有メモリの排他制御のための制
御文は、図２８における２８１、２８２に示す行の文で
ある。他の図面である図２９から図３２についても同様
である。

【００３８】次に、実行時間評価部６は、実行時間予測
部６１、データ転送時間予測部６２、総実行時間予測部
６３、に加えて、さらに排他制御時間追加部６４が追加
された構成となっている。この排他制御時間追加部６４
は、排他制御に要する時間である予測排他制御時間を図
２８から図３２に示すような並列化中間コードから予測
し、総実行時間予測部６３で予測された予測総実行時間
に加えて、新たな予測総実行時間とする。具体的には、
予測排他制御時間は、メモリの排他制御に要する回数つ
まりループの回数に比例定数であるＫをかけたもので求
められる。ここでの比例定数Ｋは、対象とするハードウ
ェアーの特性によって排他制御に要する時間が、プロセ
ッサ数や、送信プロセッサと共有メモリの位置関係に全
く関係なく、排他制御の回数に比例するものと仮定した
ときの比例定数であるとする。図２８に示す並列化中間
コードの予測排他制御時間Ｔ１８は、次にように表され
る。Ｔ１８＝Ｋ・ｎｘ・ｎｙ。図２９に示す並列化中間
コードの予測排他制御時間Ｔ１９は、次にように表され
る。Ｔ１９＝Ｋ・ｎｘ・ｎｙ。図３０に示す並列化中間
コードの予測排他制御時間Ｔ２０は、次にように表され
る。Ｔ２０＝Ｋ・ｎｘ・ｎｙ。図３１に示す並列化中間
コードの予測排他制御時間Ｔ２１は、次にように表され
る。Ｔ２１＝Ｋ・ｎｘ・ｎｙ。図３２に示す並列化中間
コードの予測排他制御時間Ｔ２２は、次にように表され
る。Ｔ２２＝０。よって、新たな予測総実行時間は、総
実行時間予測部６３で予測された予測実行時間に、排他
制御時間追加部６４で求められた予測排他制御時間を追
加した時間であるから、それぞれ次に示すようになる。
図２８に示す並列化中間コードの予測総実行時間Ｔ２３
は、次のように表される。Ｔ２３＝Ｔ１３＋Ｔ１８＝Ｔ
３＋Ｔ８＋Ｔ１８。図２９に示す並列化中間コードの予
測総実行時間Ｔ２４は、次のように表される。Ｔ２４＝
Ｔ１４＋Ｔ１９＝Ｔ４＋Ｔ９＋Ｔ１９。図３０に示す並
列化中間コードの予測総実行時間Ｔ２５は、次のように
表される。Ｔ２５＝Ｔ１５＋Ｔ２０＝Ｔ５＋Ｔ１０＋Ｔ
２０。図３１に示す並列化中間コードの予測総実行時間
Ｔ２６は、次のように表される。Ｔ２６＝Ｔ１６＋Ｔ２
１＝Ｔ６＋Ｔ１１＋Ｔ２１。図３２に示す並列化中間コ
ードの予測総実行時間Ｔ２７は、次のように表される。
Ｔ２７＝Ｔ１７＋Ｔ２２＝Ｔ７＋０＝Ｔ７。

【００３９】以下の処理は、本実施例と同様である。

【００４０】

【発明の効果】以上のように、本発明の請求項１では、
並列計算機での実行時間が最も短くなるようにソースプ
ログラムをコンパイルすることができる。請求項２で
は、並列化の全てのパターンの中間言語を求めることに
より、並列計算機での実行時間が最も短くなるようにソ
ースプログラムをコンパイルすることができる。

【００４１】請求項３では、さらにデータ転送時間を考
慮することによりより確実に並列計算機での実行時間が
最も短くなるようにソースプログラムをコンパイルする
ことができる。請求項４では、対象とする並列計算機が
共有メモリを有する場合にも、データ転送時間に加え
て、排他制御時間をも考慮する事により、実行時間が最
も短くなるようにソースプログラムをコンパイルするこ
とができる

【図面の簡単な説明】

【図１】本発明の実施例における並列化コンパイラを含
む構成図である。

【図２】ＦＯＲＴＲＡＮのソースプログラム例の図であ
る。

【図３】並列性検出部４の構成図である。

【図４】並列ループ検出部４１の動作フロー図である。

【図５】図４の動作フロー図のサブルーチンの図であ
る。

【図６】分割拡大実行部４３の動作フロー図である。

【図７】図６の動作フロー図のサブルーチンの図であ
る。

【図８】図７のサブルーチンのサブルーチンの図であ
る。

【図９】図７のサブルーチンのサブルーチンの図であ
る。

【図１０】求められた第１の中間コードの例の図であ
る。

【図１１】求められた第２の中間コードの例の図であ
る。

【図１２】求められた第３の中間コードの例の図であ
る。

【図１３】求められた第４の中間コードの例の図であ
る。

【図１４】求められた第５の中間コードの例の図であ
る。

【図１５】求められた第１の並列化中間コードの例の図
である。

【図１６】求められた第２の並列化中間コードの例の図
である。

【図１７】求められた第３の並列化中間コードの例の図
である。

【図１８】求められた第４の並列化中間コードの例の図
である。

【図１９】求められた第５の並列化中間コードの例の図
である。

【図２０】実行時間評価部６の構成図である。

【図２１】従来例の並列化コンパイラを含む構成図であ
る。

【図２２】並列性検出部２０４の構成図である。

【図２３】分割拡大実行部２０４２の動作フロー図であ
る。

【図２４】図２３の動作フロー図のサブルーチンの図で
ある。

【図２５】並列計算機の構成図である。

【図２６】共有メモリを有する並列計算機の構成図であ
る。

【図２７】ＦＯＲＴＲＡＮのソースプログラム例の図で
ある。

【図２８】求められた第１の並列化中間コードの例の図
である。

【図２９】求められた第２の並列化中間コードの例の図
である。

【図３０】求められた第３の並列化中間コードの例の図
である。

【図３１】求められた第４の並列化中間コードの例の図
である。

【図３２】求められた第５の並列化中間コードの例の図
である。

【符号の説明】

１並列化コンパイラ２格納部３構文解析部４並列性検出部５並列化変換部６実行時間評価部７並列化中間コード選択部８目的プログラム生成部９最適化処理部１０メモリ割り付け・レジスタ割り付け部部１１コード生成部４１並列ループ検出部４２分割ループ検出部４３分割拡大実行部６１実行時間予測部６２データ転送時間予測部６３総実行時間予測部６４排他制御時間追加部２０１並列化コンパイラ２０２中間コード格納部２０３構文解析部２０４並列性検出部２０５並列化変換部２０６目的プログラム生成部２０７最適化処理部２０８メモリ割り付け・レジスタ割当部２０９コード生成部２０４１並列ループ検出部２０４２分割拡大実行部

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサエレメントからなる並
列計算機用に、ソースプログラムから目的プログラムを
生成する並列化コンパイラであって、高級言語で記述されたソースプログラムの構文解析を行
ない中間言語に変換する構文解析手段と、前記中間言語について、並列実行可能なループを検出
し、検出されたループに基づいて並列化のすべてのパタ
ーンの並列化中間言語を求める並列性検出手段と、前記並列化中間言語に基づいて、実行に必要なプロセッ
サエレメント間のデータ転送を指示するデータ転送文を
追加した並列化中間言語に変換する並列化変換手段と、前記並列化変換手段で変換された並列化中間言語の並列
実行されるループの回数と並列実行される部分と動作す
るプロセッサ数とに基づいて各々の前記並列化中間言語
の実行時間を予測する実行時間評価手段と、前記実行時間評価手段で予測された実行時間がもっとも
短い並列化中間言語を選ぶ並列化中間言語選択手段と、前記並列化中間言語選択手段によって選ばれた前記並列
化中間言語を目的プログラムに変換する目的プログラム
生成手段とを備えたことを特徴とする並列化コンパイ
ラ。
【請求項２】前記並列性検出手段は、中間言語において並列実行可能なループを検出する並列
ループ検出部と、並列実行可能なループについて、分割可能なループを検
出する分割ループ検出部と、並列ループ検出部及び分割ループ検出部の検出結果に基
づいて、全てのループに関して、分割して並列化する場
合、拡大して並列化を行う場合、分割も拡大しないで並
列化する場合、並列化しない場合の４つの場合を組み合
わせたパターンを求めそれぞれのパターンの中間言語を
求める分割拡大実行部とからなることを特徴とする請求
項１記載の並列化コンパイラ。
【請求項３】前記実行時間評価手段は、さらに並列実行される部分毎に、データ転送文と、並列
実行されるループの回数とに基づいてデータ転送時間を
求め、前記実行時間にデータ転送時間を加えたものを新
たな実行時間とすることを特徴とする請求項１又は請求
項２記載の並列化コンパイラ。
【請求項４】前記並列計算機は、さらに、各プロセッ
サエレメントに共通のデータを記憶する共有メモリを有
し、前記並列化変換手段は、さらに、実行に必要な各プロセ
ッサエレメントと共有メモリとの間のデータ転送、及び
そのデータ転送における共有メモリへのアクセス競合を
制御する排他制御を指示する制御文を追加した並列化中
間言語に変換することを特徴とし、前記実行時間評価手段は、さらに各プロセッサエレメントと共有メモリとの間のデ
ータ転送に要する回数に基づいて排他制御時間を求め、
前記実行時間に排他制御時間を加えたものを新たな実行
時間とすることを特徴とする請求項３記載の並列化コン
パイラ。