JPH01108638A

JPH01108638A - 並列化コンパイル方式

Info

Publication number: JPH01108638A
Application number: JP62263788A
Authority: JP
Inventors: Kyoko Iwazawa; 岩澤　京子; Giichi Tanaka; 義一田中; Shizuo Goto; 志津雄後藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-10-21
Filing date: 1987-10-21
Publication date: 1989-04-25
Also published as: US5151991A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、並列計算機システムに係り、特に逐次実行型
の高級言語で記述されたソース・プログラムから、並列
に実行するのに好適なオブジェクトプログラムを生成す
る方式に関する。

〔従来の技術〕

従来、マルチプロセッサのような並列処理システムにお
いては、ユーザインタフェースとして、逐次型のソース
プログラムに、並列化の手段、タスクの起動、同期など
の指示を明示的にユーザが記述する必要があった。ＡＣ
Ｍ−０−８９７９１−１７４−１−１２１８５−０１０
７，Ａ　ＤａｔａＦｌｏｗ　Ａｐｐｒｏａｃｈ　ｔｏ　
Ｍｕｌｔｉｔａｓｋｉｎｇ　ｏｎ　ＣＲＡＹ　Ｘ　−Ｍ
Ｐｃｏｍｐｕｔｅｒｓでは、４台のベクトルプロセッサ
を並列に動作させるマルチタスキングの動作と、そのた
めのユーザの指示方法について述べられている。

これによれば、タスクの起動や同期の制御のためのライ
ブラリがシステムに用意されており、ユーザはＦＯＲＴ
ＲＡＮプログラムの中で、これらを呼び出すように記述
する。さらに細いレベルでは、ループごとに並列化の手
段をコメント形式の制御文の形でコンパイラに指示する
必要がある。

このようなマルチプロセッサシステムに対して、逐次型
のコンパイル言語から自動的に並列化する手法について
言及したものはない。

〔発明が解決しようとする問題点〕

上記従来技術は、並列処理が可能なハードウェアに対し
て、自動的に並列化する点については配慮されておらず
、ユーザ自身が、並列処理の手段を考え、それを明示的
にプログラムに埋め込むというプログラム変換が必要が
あった。従って、財産としてユーザが持っていた逐次型
のプログラムをそのままの形で並列実行させることはで
きず、並列処理向きに再コーデイングさらにそのデバッ
グが必要となる。また、ハードウェアの特性が変わるた
びに、その資源を有効に使うために、並列化の指示を変
更する必要があり、他のシステムでは動かないなど、ユ
ーザプログラムの汎用性が損われるなどの問題点があっ
た。

本発明の目的は、上記のようなユーザの負担を軽減し、
既に存在する逐次型のプログラムはそのまま手を入れる
ことなく自動的に並列化でき、かつ新しくコーディング
する場合においても、ハードウェアの細い特性を意識し
なくても効率のよいオブジェクトコードを生成できるよ
うにすることにある。

〔問題点を解決するための手段〕

上記目的は、コンパイラの自動並列化処理において、外
側ループから内側ループに向がって順に、以下の処理を
施すことにより達成される。

まず、ループの各繰り返しを並列に実行する可能性を検
出する。

Ｄｏ　　１０　　Ｉ＝１．ＮＤｏ　　２０　　Ｊ＝１．ＭＡ（Ｉ、Ｊ）＝Ａ（Ｉ、Ｊ）＋Ｘ（Ｉ、Ｊ）　　・・・
■Ｂ（Ｉ、Ｊ）＝Ｂ（Ｉ、Ｊ）串Ｃ（Ｊ）／Ｄ（Ｉ）・
・・■ ２０　　　Ｃ０ＮＴＩＮＵＥ１０　　　Ｃ０ＮＴＩＮＵＥのようなプログラムに対して、 ■　Ｉ＝１．Ｉ＝２．・・・、Ｉ＝Ｎの各値で、内側の
Ｄｏ　２０　ループを並列に実行させる可能性を検出と
、次に内側のＤｏ　　２０ループについて■　Ｉ＝１．Ｊ
＝２．・・・、Ｊ＝Ｍの各値で、■。

■の文を並列に実行させる可能性を検出する。

Ｄｏ　　１０　　Ｉ＝１．Ｎ１０　　Ｃ０ＮＴＩＮＵＥというように、プログラムを分け、各々異るプロセッサ
で並列に実行させた時の逐次処理した場合に対する性能
向上度、即ち加速率に影響を与える項目を算出し、ルー
プごとのテーブルに結果を格納する。まず、同一アドレ
スのメモリ上のデータの値を決める定義とその値を用い
る使用が、異る繰り返しの回数の間で起るか否かにより
多重度を算出する。次に、ソースプログラムの字面上の
演算子の種類と個数および推定したループの繰り返し回
数などより数えあげ、それに基づき並列処理単位当りの
演算量（粒度という）の大きさとばらつきを算出する。

さらに、ループの各繰り返しを並列に実行する時に必要
な同期制御のための演算量の全演算量に対する割合を算
出する。

また、各文ごとに並列に実行する可能性を検出する。前
記と同じソースプログラムを例にとると、■の文と■の
文を内側のループで分割して並列に実行させる可能性を
検出する。

Ｄｏ　　　１０　　　Ｉ＝１．Ｎ１０　　　Ｃ０ＮＴＩＮＵＥとなり、この例ではループ内に２つの文があるので、プ
ログラムを２つに分け、これらを各々異るプロセッサで
、並列に実行する時の逐次実行した場合に対する性能向
上率、即ち加速率に影響を与える項目を算出し、ループ
ごとのテーブルに結果を格納する。まず、ループ分割不
可能な再帰演を検出し、文の数より多重度を算出する。

次に、並列処理の単位である文、内側ループ、再帰演算
部ごとに、演算量（粒度）を、ソースプログラムの字面
上の演算子の個数と、推定したループの繰り返し回数な
どにより数えあげ、各粒の大きさと粒度のばらつきを算
出する。さらに、各文の間のデータ依存関係より、同期
制御を行うための演算量の全演算量に対する割合を算出
する。

さらに、１つのループ単独ではなく、多重ループの組み
合わせによって生じる新たな並列実行の可能性を検出す
る。まず、多重なループを組み合わせることが可能か否
かの判定のために、密多重ループに変換できるか否かを
判定する。密多重ループに変換できる場合のみ、次の３
種のループ構造変換を施した場合の並列処理の可能性を
調べる。

ループ変換は、対象とするループに並列処理の可能性が
ある場合、その外側ループと交換して粒度を上げるため
に行う。従って、この条件を満足している時のみループ
交換可否を判定し、可能であれば交換した場合の、多重
度、演算量のばらつき、同期制御の割合などを算出し、
テーブルに格納する。前述と同じソースプログラムの例
では、Ｄｏ　　１０ループとＤｏ　　２０ループを交換
し、新たに外側ループとなったＤｏ　２０ループのＪ＝
１．Ｊ＝２．・・・・・・、Ｊ＝Ｍの各値で、内側のＤ
ｏ　１０ループを並列に実行させる可能性を検出する。

というように、プログラムを分け、各々異るプロセッサ
で実行させた時の、多重度、演算量のばらつき、同期制
御の割合などを算出する。

ループ一重化は、対象とするループについて並列処理が
可能であるが、ループ長が短いために多重度が十分では
ない場合、そのループの外側ループとをまとめて一重化
し、多重度を上げるために行う。従って、この条件を満
足している時のみ、ループ一重化の可否を判定し、可能
であれば一重化した場合の多重度、演算量のばらつき、
同期制御の割合などを算出し、テーブルに格納する。前
述と同じソースプログラムの例では、Ｄｏ　　１０ルー
プとＤｏ　　２０ループを一重化すると、Ｄｏ　　１０
　　Ｋ＝１．Ｍ傘ＮＡ（Ｋ）＝Ａ（Ｋ）＋Ｘ（Ｋ）　　　　　　　・・・■
Ｂ（Ｋ）＝Ｂ（Ｋ）傘Ｃ（ｍｏｄ（Ｋ　、　　Ｎ　＋　
１　））／Ｄ（Ｋ／Ｍ＋１）　　・・・■ １０　　Ｃ０ＮＴＩＮＵＩＩ！となる。これを、Ｋ＝１．に＝２．・・・・・・、　Ｋ
＝Ｍ欅Ｎの各値で、Ｄｏ　　１０ループを並列に実行さ
せる可能性を検出する。

というようにプログラムを分け、各々異るプロセッサで
実行させる可能性を検出する。

ななめ変換は、１つのループレベル単独では、データの
依存関係などに制限されて十分な多重度を引き出せない
場合に、ｗａｖｅ　ｆｒｏｎｔ　１ｉｖｅ（ｐｌａｎｅ
）に沿って並列に実行させ、十分な多重度を引き出すた
めに行う。従って、この条件を満足した時に、ななめ変
換可否判定し、ななめに変換した場合の多重度、演算量
のばらつき、同期制御の割合などを算出し、テーブルに
格納する。前述のソースプログラムの例では、並列処理
を妨げるデータ依存関係はないため、この変換は行わな
い。

最後に、これらの処理により算出された、多重度、演算
量のばらつき、同期制御の割合などから、並列に実行し
た場合、結果が得られるまでの経過時間が最も短くなる
と判断した、並列化の手段を選ぶ。後に続くコンパイラ
の処理は、これに従って、逐次実行型のプログラムを並
列実行型のプログラムに変換する。

〔実施例〕

以下、複数のプロセッサが並列に動作するマルチプロセ
ッサシステムのためのＦＯＲＴＲＡＮコンバイうにおけ
る１本発明の一実施例を図表を参照しつつ説明する。

第２図は適用するマルチプロセッサの例を示す。

ここでは、主記憶装置を共有する形態のマルチプロセッ
サ・システムを例にとり実施例を説明するが、本発明は
、各プロセッサがそれぞれ記憶装置を持つ形態のマルチ
プロセッサ・システムにも適用可能である。複数の並列
に動作するＣＰＵ８２〜８４があり、これらは主記憶装
置８０を共有する。従って、各ＣＰＵが同一アドレスを
アクセスする場合には、同期制御により順序を保証する
必要がある。このようなハードウェアの資源を有効に用
いて、計算結果を得るまでの経過時間が短くなるような
オブジェクトコードを生成する本発明の詳細な実施例を
述べる。

第３図に、本発明を適用するコンパイラ全体の構成を示
す。第３図内の構文解析処理１３がＦＯＲＴＲＡＮのソ
ースプログラム１１を入力とし、これを中間語６に変換
する。中間処理１４はこの中間語６を入力として、最適
化や並列化を行い、中間詰６を変形する。コード生成処
理１５は、中間処理１４が変形した中間語から並列に実
行されるオブジェクトコード１２を生成する。本発明は
、中間処理６に係り、オブジェクトコード１２を並列に
実行させた時の経過時間を短くするものである。

第３図の中間処理１４のうち、自動並列化に係わる処理
の構成を第１図に示す。第３図の入力するソースプログ
ラム１１の例として、第４図にＦＯＲＴＲＡＮプログラ
ムをあげ、説明する。第４図のＦＯＲＴＲＡＮプログラ
ムから、中間処理１４はり。

１０、Ｄｏ　　２０の２つのループテーブル第１図の７
を作り、これらが多重ループを構成することを示す。こ
のループごとのテーブルの構造を第５図に示す。

この第５図のループテーブルに従って、最外側ループか
ら内側へ向かって各フィールドを埋めながら、並列処理
の手段を決定する。自動並列化処理１の主制御を第６図
にＰＡＤ図で示す。中間処理１４はループテーブルを確
保した後、最外側で先頭のループのテーブルを指して、
自動並列化処理１を呼び出し、これは、与えられた当該
ループに対して、第６図のように処理する。

まず、第４図で最外側で先頭のループＤ０１０１１６〜
２１に対応するループテーブル第５図２２へのポインタ
が与えられ、第６図の処理が行われる。この第５図２２
のループに対して、各繰り返しについての並列性を検出
するために第１図のループの各繰り返しについて並列性
検出処理２が呼ばれる（第６図の６１）。

第１図のループの各繰り返しについて並列性検出処理２
の概要を第７図にＰＡＤ図で示す。第４図のプログラム
のＤｏ　　ＩＯＩループ１６〜２１については、１７の
左辺のＣ（Ｉ）から２０の右辺のＣ（Ｉ）へフロー依存
が、１７の左辺のＣ（Ｉ）から２０の左辺のＣ（Ｉ）へ
出力依存があり、１９の左辺のＡ（Ｉ＋１．Ｊ）から２
０の右辺のＡ（Ｉ。

Ｊ）へフロー依存がある。第７図の処理７０により、こ
の中でＣに関する依存はいずれもループ独立であるため
、Ａに関するフロー依存を検出する。

処理７１がこの２回のループ運搬依存より多重度は１と
算出し、この値を第５図のループテーブルのフィールド
２４に格納する。多重度１とは、逐次実行と同等である
ことを意味する。第７図７２は、Ｄｏ　　ＩＯＩループ
１回当りの演算量を見積る。文１７は１９文１９は字面
上の演算量ｌとループ長１００をかけて１００２文２０
は１とループ長１００をかけて１００となる。これらを
加えた２０１をフィールド２５と２６に格納し、さらに
二九に外側ループのループ長１０をかけた値２０１０を
フィールド２３に格納する。処理７４は、データ依存関
係より、工を１インクリメントするたびに、同期が必要
であるため、■のループ１回当りの演算量２０１をフィ
ールド２７に格納する。

次に、第６図の処理６２は、多重度１であるため十分な
多重度はないと判断して処理６５が第１図のループ中の
各文について並列性検出部３を呼び出す。この処理概要
を第８図にＰＡＤ図で示す。

第８図の処理７５が第４図の文１７と１８間のル−プ分
割点を検出し、ここしかループ分割可能な点が無いため
、多重度２を第５図のフィールド２８に格納する６処理
７６が、ループ分割した場合の演算量として、文１７の
１と外側ループ長１０をかけた値１０を最小値のフィー
ルド２９に格納する。文１８〜２０の演算量として、文
１９と文２０の２と、外側ループ長１０．内側ループ長
２０をかけた値２０００を最大値のフィールド３０に格
納する。処理７７が、文１７から文２０に対するフロー
依存より、文１８〜２１の演算２０００に対して１０回
同期制御があると判定し、これをフィールド３１に格納
する。以上で、第６図６３へ処理はもどる。

第４図のＤｏ　　ＩＯＨのプールには外側ループは無い
ため、処理６５を行わず、処理６６へ進み、第１図５の
並列手段選択処理を呼び出す。この処理概要を第９図に
ＰＡＤ図で示す。Ｄｏ　　ＩＯＩループの場合、いずれ
の方式よりも逐次実行の方が速いため、処理９２がこれ
を選択し、フィールど３３，３４をうめ、第１１図２３
′〜３４′のようになる。第６図の処理６７の判定を経
て、処理６９が、今度は、Ｄｏ　　ＩＯＪループのテー
ブル３８を示して、再び第６図の処理を行う。

第４図の文１８から文２１のＤｏ　ＩＯＪループには、
このループに関する運搬依存は無いため、第７図の処理
７１が、ループ長の１００を第５図のフィールド４０に
格納する。さらに処理７３゜７４で、ループ１回当りの
演算量２を、フィールド４１．４２へ格納し、これに内
側ループのループ長１００と、外側ループのループ長１
０をかけた、２０００をフィールド３９へ格納する。さ
らに、外側ループについての依存より、外側ループ１回
ごとに同期制御が必要であるため、その同期制御の回数
が２００演算に１回であることをフィールド４３に格納
する。第６図の処理６２で、既に繰り返し回数の並列化
により十分な並列性があると判定し、処理６３は行わず
、処理６４を経て、処理６５が第１図のループ構造変換
可否判定処理４を呼び出す。この処理の概要を第１０図
に示す。

第４図の文１８から文２１のＤｏ　ＩＯＪループでは、
この外側ループと密多重化することが可能であるため、
処理１００を経て、処理１０１へ進む。ここで、ループ
の繰り返しごとに並列に実行すれば、十分な並列度が得
られることがわかっているため、処理１０２が、粒度を
上げるためのループ交換の可能性を調べる。その結果可
能であることがわかると、処理１０４が交換した場合の
多重度、演算量、同期制御を示すように第１１図の１２
０〜１２７のテーブルを作り、上記の推定した値を格納
する。多重度は変わらずループ長の１００（第１１図の
フィールド１２３）であるが、演算粒度はループ交換に
より２０と（フィールド１２４．１２５）なり、同期制
御は計算途中で不要となるため、全演算が終了した後に
１回という意味で、２０００演算に１回としてフィール
ド１２６に格納する。他に、ループ運搬依存がある時は
、処理１０９と１１１がななめ変換の可能性とその時の
多重度、演算粒度、同期制御を算出しテーブルに格納し
、データ依存関係は独立でもループ長が短く多重度や、
演算粒度が小さい場合は。

処理１０６と１０８が一重化変換の可能性とその時の多
重度、演算粒度、同期制御を算出しテーブルに格納する
。この後、第６図の処理６６へ進み、第１図の並列化手
段選択処理５が呼ばれ、第９図に示す通りに判定が行わ
れる。処理９２では、各繰り返しを並列に実行すること
を第１１図のフィールド４９′に格納しであるが、処理
９４と９５がフィールド４８′が指すテーブルの結果よ
り、ループ交換したうえで、Ｄｏ　　ＩＯＪループの繰
り返し回数を並列に実行する手段を選ぶ。そして、処理
９７は第１１図のフィールド４９′に、フィールド１２
０〜１２７のテーブルのポインタを格納し、処理５９は
プロセッサの台数をＮＰＥとして、同期制御が無いので
推定経過時間２０Ｘ１００／ＮＰＥをフィールド５０′
に格納する。

このようにして、第４図のＦＯＲＴＲＡＮプログラムに
対して、並列性の検出・評価・選択を終了した時点では
、第１図のループテーブル７は第１１図のようになって
いる。このテーブルから、第３図中間処理１４の後に続
く処理が、第４図のプログラムを第１２図に示すように
、中間語６を変換する。１３１のループについて、各繰
り返しを並列に実行させる。これから、第３図のコード
生成処理１５がオブジェクトコード１２を生成するが、
このオブジェクトコードの実行時の様子を第１３図に示
す。第１２図のループ１３１の各繰り返しが、ＮＰＥ台
のプロセッサに割付けられ、並列に実行される。

〔発明の効果〕

本発明によれば、従来の逐次型のユーザプログラムを、
再コーデイングすることなく、並列処理システムで実行
させることができる。またこの時、ハードウェア資源を
有効に用いることにより、経過時間が短く、実行効率の
高いオブジェクトコードを生成させることができる。

【図面の簡単な説明】

第１図は自動並列化処理の１部、第２図は適用するシス
テムの概要図、第３図はコンパイラの全体図、第４図は
実施例説明のためのソースプログラム例を示す図、第５
図はループテーブルを示す図、第６図は自動並列化処理
の概要を示す図、第７図はループの各繰り返しについて
の並列性検出処理の概要を示す図、第８図はループの各
文についての並列性検出処理の概要を示す図、第９図は
並列化手段選択処理の概要を示す図、第１０図はループ
構造変換可否判定処理の概要を示す図、第１１図はルー
プテーブルを示す図、第１２図は並列化変換後のプログ
ラムを示す図、第１３図は実行時の概要を示す図である
。１・・・自動並列化処理、２・・・ループの各繰り返し
についての並列性検出処理、３・・・ループの各文につ
いての並列性検出処理、４・・・ループ構造変換可否判
定処理、５・・・並列化手段選択処理、６・・・中間語
、７・・・ループテーブル、１０・・・ＦＯＲＴＲＡＮ
コンパイラ、１１・・・ＦＯＲＴＲＡＮソースプログラ
ム、１２・・・オブジェクトコード、１３・・・構文解
析処理、１４・・・中間処理、１５・・・コード生成処
理、１６〜２１・・・ＦＯＲＴＲＡＮプログラム、２２
〜５３・・・ループテーブルの各フィールド、６１〜７
７・・・処理部、８０・・・主記憶装置、８１・・・イ
ンタフェースユニット、８２〜８４・・・プロセッサ、
８５．８６・・・入出力装置、９０〜９７，１００〜１
１１・・・処理、１２０〜１２７・・・ループテーブル
の各フィールド、１３０゜狛　１　　図＝）制御り波れ □　データのシ龍己Ｚ３図［二二二二二二二４＞＃、り御の　充ｎ１Ｔ″−９ｆ）
シ側れ

Claims

【特許請求の範囲】

１、高級言語で記述されたソースプログラムを複数のプ
ロセッサが並列に動作するマルチプロセッサの上で並列
に実行される命令列からなるオブジェクトコードを生成
するコンパイラにおいて、逐次実行型のプログラム内の
繰り返し計算を行う各々のループについて、まず（１）
ループの各繰り返しを単位とした並列実行の可能性を検
出し、次に（２）ループ内の各文の並列実行の可能性を
検出し、また（３）多重ループの外側ループと内側ルー
プの交換、一重化、傾め変換の可否を判定し、可能なも
のがあれば変換した後の並列実行の可能性を検出し、（
１）、（２）、（３）で検出した実行可能な並列処理を
施した場合について、適用するハードウェア装置の特性
により、オブジェクトコードを並列に実行させた時の、
計算結果が得られるまでの経過時間を推定し、コンパイ
ル時に最適と判断した並列処理を選択することにより並
列実行型のプログラムに変換することを特徴とする並列
化コンパイル方式。