JP2002116916A

JP2002116916A - プログラムの最適化方法及びこれを用いたコンパイラ

Info

Publication number: JP2002116916A
Application number: JP2000304618A
Authority: JP
Inventors: Kunio Tabata; 邦男田端; Hideaki Komatsu; 秀昭小松
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-10-04
Filing date: 2000-10-04
Publication date: 2002-04-19
Anticipated expiration: 2020-10-04
Also published as: US20020095666A1; JP3664473B2; US6817013B2

Abstract

(57)【要約】【課題】高速かつ適切に、プログラムをハイパーブロ
ックに分割することにより、プログラムの実行効率を向
上させることを可能とする。【解決手段】処理対象のプログラムに対し、基本ブロ
ックを単位として実行時間を見積もる基本ブロック・コ
ードスケジューラ２１と、基本ブロックを並列実行領域
であるハイパーブロックにまとめるハイパーブロック生
成部２２及び実行時間見積部２３とを備えたコンパイラ
であり、実行時間見積部２３は、基本ブロックの接続が
条件分岐を伴う場合に、前記基本ブロック単位で見積も
られた実行時間に基づいて、条件分岐のまま実行する場
合と、条件分岐部分を並列実行する場合の実行時間を見
積もり、ハイパーブロック生成部２２は、並列実行する
方が実行時間が短い場合、この部分を一まとまりの並列
実行領域とし、条件分岐のまま実行する方が実行時間が
短い場合、この部分をこの条件分岐にて接続された複数
の並列実行領域に分割する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータプロ
グラムの最適化方法に関し、特にプログラムの条件分岐
部分を並列実行に書き換える最適化を効果的に行うため
にプログラムの最適化領域を編集する方法に関する。

【０００２】

【従来の技術】通常、プログラミング言語で記述された
プログラムのソースコードをコンパイルする際、コンピ
ュータにおける実行速度の向上を図るために、当該プロ
グラムの最適化を行っている。最適化の手法には種々の
方法があるが、米国インテル社及び米国ヒューレット・
パッカード社によるＩＡ−６４のアーキテクチャに対応
したＣＰＵのように、ＶＬＩＷ（Very Long Instructio
n Word）による並列処理、すなわち、プレディケート付
き命令が実行可能でかつ命令レベルの並列実行が可能な
プロセッサ上では、分岐命令を削除して、分岐先命令群
を相補的なプレディケートを付けて並列実行することが
できる（このように命令群を変換することを、以下で
は、ＩＦ変換と呼ぶ）。このＩＦ変換を行うことによ
り、命令数を減少したり、分岐予測の失敗を回避したり
することができるため、プログラムの実行効率を向上さ
せることが可能である。

【０００３】しかし、ＩＦ変換は、この変換を行う命令
の選び方によっては、かえって実行効率を低下させてし
まう場合がある。その原因は、並列度のハードウェア限
界の超過、レジスタープレッシャーの上昇、分岐先命令
におけるクリティカルパス長のバランスの悪さ、実行可
能性が低い命令の挿入などである。これら全ての原因を
考慮に入れてプログラムの実行効率の高低を厳密に判断
するには、各分岐命令に関して、ＩＦ変換する場合とし
ない場合のそれぞれについてコードスケジュールを実行
し、実際の命令サイクル数を見積もり、比較する必要が
ある。

【０００４】しかしながら、プログラム中の全ての分岐
命令に対して、この命令サイクル数の見積もり及び比較
を行うとすると、組み合わせの数が膨大となるため、現
実的な計算時間で終了することができない。そのため、
最適化を実行する領域（以下、この領域をハイパーブロ
ックと称し、図示する場合には四辺形などを用いて示
す）を適切に選択する必要がある。

【０００５】そこで従来は、ＩＦ変換を行うかどうかの
判断を現実的な時間内で処理するため、（１）実行可能
性が最も高いと予想される実行パス（以下、メイントレ
ースと呼ぶ）中の分岐命令のみを必要に応じてＩＦ変換
する方法や、（２）一旦、全ての分岐命令をＩＦ変換し
最適化を施した後、リストスケジューリングの過程で必
要に応じてＩＦ変換の逆方向の変換（以下、逆ＩＦ変換
と呼ぶ）を実行して分岐命令を再生する方法を採ってい
た。

【０００６】これらの従来技術について、さらに説明す
る。（１）メイントレース中の分岐命令のみを必要に応じて
ＩＦ変換する従来技術としては、文献１ S.A.Mahlke, R.E.Hank,R.A.Bringmann,"Effective Comp
iler Support for Predicated Execution Using the Hy
perblock"in Proceedings of the 25th International
Symposium on Microarchitecture,pp. 45-54, December
1992.に開示された技術がある。文献１に記載された従
来技術は、どの領域を並列実行し、ＩＦ変換を実行する
ことで性能向上が得られるかという課題について、発見
的手法による一つの解を与えている。文献１によれば、
まずメイントレースを特定し、このパスに対して無条件
でＩＦ変換を実行する。次に、メイントレース以外のパ
ス（以下、サブトレースと呼ぶ）それぞれについて、同
じ並列実行領域に含めるかどうかを判断し、段階的にＩ
Ｆ変換を実行する領域を増大させてゆく。ある分岐命令
に対してＩＦ変換を実行するかどうかは、以下の四つの
要因を考慮して判断する。１．サブトレースにパイプラインを乱す命令があるかど
うか。２．メイントレースに対するサブトレースの実行確率。３．メイントレースに対するサブトレースの機械語命令
数の比。４．ハードウェアの並列実行能力の限界。この方法によれば、メイントレースの分岐命令の数をｎ
とすると、ｎに比例する程度の計算量で、ＩＦ変換を行
うかどうかの判断を終了することができる。

【０００７】（２）一旦、全ての分岐命令をＩＦ変換し
最適化を施した後、リストスケジューリングの過程で必
要に応じて逆ＩＦ変換を実行して分岐命令を再生する従
来技術としては、文献２ D.I.August, W.W.Hwu, S.A.Mahlke,"A Framework for B
alancing Control Flow and Predication"in Proceedin
gs of the 30th International Symposium on Microarc
hitecture,December 1997.に開示された技術がある。文
献２に記載された従来技術によれば、まず、プログラム
全体を一つの並列実行領域とし、全ての分岐命令に対し
てＩＦ変換を行う。そして、ＩＦ変換後のプログラムに
対して種々の最適化を施し、この後、選択的に逆ＩＦ変
換を実行することによって、結果として選択的に分岐命
令をＩＦ変換した状態を作る方法である。この方法は、
コードスケジューラと協業して、各分岐命令に関して、
逆ＩＦ変換した場合としない場合のそれぞれについて実
行サイクル数を求める。そして、どちらの実行性能が高
いかによって逆ＩＦ変換するかどうかを決定する。ただ
し、この方法を関数内の全ての分岐命令に対して適用す
ると、ＩＦ変換を行うかどうかを判断する場合と同様
に、逆ＩＦ変換の対象となる命令群の組み合わせの数が
膨大となる。そこで、リストスケジューラと協業し、ク
リティカルパスをスケジュールする場合にのみ逆ＩＦ変
換を試みることによって、計算量を抑えている。文献２
においては、分岐命令の数をｎとすると、２ｎ回程度ス
ケジューリングを行う手法を提案している。なお、クリ
ティカルパスとは、プログラム中の特定の範囲におい
て、並列化できない一連の命令列のうちで最も長い命令
列である。

【０００８】

【発明が解決しようとする課題】しかし、上述した従来
技術において、（１）メイントレース中の分岐命令のみ
を必要に応じてＩＦ変換する技術は、メイントレースの
実行効率を高めることはできるが、サブトレースの実行
効率については特に考慮されていない。したがって、必
ずしもプログラム全体の実行効率を向上させられるとは
限らない。また、特に実行可能性の高いパスが無く、メ
イントレースを厳密に特定できない場合には、どのパス
に対してＩＦ変換を行うかを決定することが困難であ
る。そして、何らかの基準に基づいていずれかのパスに
対してＩＦ変換を行ったとしても、他のパスの実行可能
性も十分に高いため、プログラムの実行効率を十分に向
上させることができない。

【０００９】また、（２）一旦、全ての分岐命令をＩＦ
変換し最適化を施した後、リストスケジューリングの過
程で必要に応じて逆ＩＦ変換を実行して分岐命令を再生
する技術は、リストスケジューリングの過程で逆ＩＦ変
換の対象となるパスを選択しているが、依然として、所
定のパスに対してＩＦ変換を行うかどうか（この場合は
逆ＩＦ変換により分岐命令を再生するかどうか）を判断
している。そして、この判断は、ＩＦ変換を行った場合
と行わない場合とのそれぞれに対してコードスケジュー
リングを行って、比較するという枠組みであるため、計
算量が大きい。すなわち、この従来技術においても、Ｉ
Ｆ変換を行うかどうかを判断する場合と同様に、原理的
に、ＩＦ変換を適用する領域の大きさと、コンパイルの
速度との間にトレードオフが存在する。

【００１０】以上のように、これらの従来技術は、現実
的な汎用コンパイラ、特にＪａｖａにおけるJust In Ti
me Compilerなどのようにコンパイル時間に制約がある
言語処理系では、プログラム全体の十分な実行効率の向
上を図ることができなかった。また、実際の汎用の言語
処理系では、十分な実行時情報が得られないため、メイ
ントレースのような最適化すべきパスを厳密に特定する
ことは困難であり、この問題は一層深刻であった。

【００１１】そこで、本発明は、限られた時間で、広い
領域をハイパーブロックに分割することにより、ある程
度実行可能性が高い多くのパスにおける実行効率を向上
させることが可能な最適化方法を提供することを目的と
する。

【００１２】

【課題を解決するための手段】かかる目的のもと、本発
明は、動的計画法に基づいた方法で、プログラムの所定
の領域全体（命令列ａ）を並列実行した場合の最短処理
時間の見積もりを、その領域の一部分（命令列ｂ、ｃな
ど）の最短処理時間の見積もりから再帰的に計算する。
そして、命令列ａの実行効率と命令列ｂ、ｃを逐次に実
行した場合の実行効率とを比較し、命令列ａの実行効率
の方が悪くなる場合は、命令列ｂ及び命令列ｃを独立し
たハイパーブロックにする。これにより、プログラムに
おける最適化したい領域全体を、複数のハイパーブロッ
クに適切に分割する。

【００１３】これを実現する本発明は、プログラミング
言語で記述されたプログラムのソースコードを機械語に
変換し、プログラムの最適化を行う最適化方法におい
て、処理対象である前記プログラムに対し、基本ブロッ
クを単位として実行時間を見積もるステップと、この基
本ブロックの接続関係を入れ子構造で表すネスト木を生
成するステップと、このネスト木のノードが条件分岐を
伴う場合に、前記基本ブロックを単位として見積もられ
た実行時間に基づいて、条件分岐のまま実行する場合
と、並列実行する場合の、このプログラムのこのノード
部分における実行時間を見積もるステップと、この見積
もりにより、並列実行する方が実行時間が短い場合は、
このノード部分を一まとまりの並列実行領域とし、条件
分岐のまま実行する方が実行時間が短い場合は、このノ
ードの複数の子ノードを複数の並列実行領域に分割する
ステップとを含むことを特徴とする。

【００１４】この最適化方法は、特にプレディケート付
き命令が実行可能でかつ命令レベルの並列実行が可能な
計算機にてプログラムを実行する場合に、条件分岐をそ
のまま実行するよりも命令レベルで並列実行する方が高
速に処理できるならば、この条件分岐部分を並列実行す
るように書き換えることができる。

【００１５】ここで、この基本ブロックを単位としてプ
ログラムの実行時間を見積もるステップは、前記基本ブ
ロックを単位として見積もられた実行時間に基づいて、
さらに、この基本ブロック内のプログラム部分における
クリティカルパス長と、このプログラム部分の平均並列
度とを取得するステップを含む。また、この基本ブロッ
クを、取得したクリティカルパス長及び平均並列度を辺
とする矩形で表現し、さらに、この矩形を、クリティカ
ルパス長に対応する辺がこのクリティカルパス長を下回
らない範囲で変形可能とすることができる。基本ブロッ
クについて取得されるクリティカルパス長は、この基本
ブロック内部の命令列のうちで依存関係により逐次実行
する必要のある最も長い部分の長さである。また、平均
並列度は、基本ブロックに含まれる全ての命令の数（延
べ実行時間に相当）をクリティカルパス長で割った値で
ある。すなわち、基本ブロックの命令列を、クリティカ
ルパス長を保持したまま並列に実行する場合に、どれだ
けの並列度が必要かを示す。このように平均並列度を定
義した上で、複数の基本ブロックを並列に実行した場合
に必要とされる並列度は、基本ブロックの平均並列度の
線形和になると近似する。

【００１６】また、このネスト木を生成するステップ
は、基本ブロック間の依存関係を表す依存グラフを生成
するステップと、この依存グラフから冗長な枝を取り除
いた先行制約グラフを生成するステップと、この先行制
約グラフのノードの接続関係を入れ子構造で表現するこ
とによりこのネスト木を生成するステップとを含む。ネ
スト木のノードは、プログラムの基本ブロックと、シリ
ーズスートと、パラレルスートとからなる。シリーズス
ートは基本ブロックまたはスートが依存関係を有して直
列に接続されたものであり、パラレルスートは基本ブロ
ックまたは他のスートが依存関係を持たずに並列に並ん
だものである。すなわち、基本ブロックまたはスートを
シリーズスートまたはパラレルスートの形で括っていく
ことにより、このプログラムの入れ子構造を表現する。

【００１７】また、ここで、条件分岐部分の実行時間を
判断するステップは、この子ノードにおいて実行可能な
並列度ごとに、この子ノードを並列実行した場合の実行
時間の最大値を求めるステップと、各並列度における実
行時間の最大値のうち特定の値をこの条件分岐部分を並
列実行する場合における実行時間と見積もるステップと
を含む。

【００１８】この条件分岐部分の実行時間を判断するス
テップは、実行時間の判断に先立って、この子ノードを
構成する基本ブロックの命令レベルでの依存関係に基づ
いて、この基本ブロックの実行時間に関する情報を修正
するステップを含む。具体的には、シリーズスートを構
成する基本ブロックにおいて、前に位置する基本ブロッ
ク内部における最後の命令以外の命令と、後ろに位置す
る基本ブロック内部における最初の命令とが依存関係を
有する場合、このシリーズスートは基本ブロックを単に
直列に連結するよりも短い長さ（このシリーズスートの
クリティカルパス長）で実行できることとなる。

【００１９】さらにここで、このプログラムの並列実行
領域を決定するステップは、この複数の子ノードを複数
の並列実行領域に分割する場合に、ハードウェアが持つ
並列度で各子ノードを並列実行した場合における各子ノ
ードの実行時間を比較するステップと、この実行時間が
最も短い子ノードを残して、他の子ノードを独立した並
列実行領域とするステップとを含む。

【００２０】また、本発明は、これらの最適化方法を、
コンピュータによるプログラムのコンパイルにおいて実
行させるコンピュータプログラムとして作成し、このコ
ンピュータプログラムを格納した記憶媒体や、このコン
ピュータプログラムを伝送する伝送装置として提供する
ことができる。

【００２１】さらに、本発明は、プログラミング言語で
記述されたプログラムのソースコードを機械語に変換
し、プログラムの最適化を行うコンパイラにおいて、処
理対象である前記プログラムに対し、基本ブロックを単
位として実行時間を見積もる第１のコードスケジューラ
と、この基本ブロックをまとめて並列実行領域であるハ
イパーブロックを生成するハイパーブロック生成部と、
このプログラムにおける所定の領域を実行した場合の処
理時間を見積もることにより、このハイパーブロック生
成部によるこのハイパーブロックの生成を支援する実行
時間見積部と、生成されたハイパーブロックごとにコー
ドスケジューリングを行う第２のコードスケジューラと
を備え、この実行時間見積部は、この基本ブロックの接
続関係を入れ子構造で表すネスト木の所定のノードが条
件分岐を伴う場合に、前記基本ブロックを単位として見
積もられた実行時間に基づいて、条件分岐のまま実行す
る場合と、このプログラムの条件分岐部分を並列実行す
る場合の、当該プログラムの当該ノード部分における実
行時間を見積もり、このハイパーブロック生成部は、実
行時間見積部の見積もりにより、並列実行する方が実行
時間が短いノードに関して、当該ノード部分を一まとま
りの並列実行領域とし、条件分岐のまま実行する方が実
行時間が短いノードに関して、当該ノードの複数の子ノ
ードを複数の並列実行領域に分割することを特徴とす
る。

【００２２】ここで、この第１のコードスケジューラ
は、基本ブロックを単位として見積もられた実行時間に
基づいて、さらに、この基本ブロック内のプログラム部
分におけるクリティカルパス長と、このプログラム部分
の平均並列度とを取得する。また、この実行時間見積部
は、実行時間の判断に先立って、この子ノードを構成す
る基本ブロックの命令レベルでの依存関係に基づいて、
この基本ブロックの実行時間に関する情報を修正する。

【００２３】

【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいて、この発明を詳細に説明する。まず、本発明
の概要を説明する。上述したように、本発明は、プログ
ラムのコンパイル時における最適化において、プログラ
ムの所定の領域を適切なハイパーブロックに分割する。

【００２４】具体的には、まず、処理対象であるプログ
ラムを変形可能に定義された基本ブロックに分割し、基
本ブロック間の制御依存関係及びデータ依存関係に基づ
いて、ＰＤＧ（Program Dependence Graph：依存グラ
フ）を作る。ここで、基本ブロックとは、ストレートコ
ード、すなわちコントロールフローが途中に入ることも
なく、途中から出ることもないようなコード列の範囲を
ブロックで示したものである。本発明では、後述のよう
に基本ブロックを構成する命令列のクリティカルパス長
を下回らない範囲で、変形可能に基本ブロックを定義す
る。次に、作成されたＰＤＧをシリーズパラレルグラフ
に変換し、このシリーズパラレルグラフを基本ブロック
間の先行制約グラフとして用いる。そして、このシリー
ズパラレルグラフにおける各基本ブロック内に対してコ
ードスケジューリングを実行し、メモリ依存を超える投
機的命令移動などの最適化を実行する。なお、シリーズ
パラレルグラフの定義については後述する。

【００２５】次に、シリーズパラレルグラフにおける各
基本ブロックに関して、クリティカルパス長、平均の並
列度、消費するハードウェアリソースなどの情報を求め
ておき、これらの値を基に、基本ブロックの領域全体の
最短処理時間を再帰的に見積もる。この過程で、所定の
領域について、並列実行より逐次実行の方が処理速度が
速いと判断された場合は、当該領域に含まれる部分領域
それぞれを独立したハイパーブロックとし、当該ハイパ
ーブロックの中の全ての条件分岐命令をＩＦ変換する。
これらの仕組みは、動的計画法を用いることにより、基
本ブロックの数に比例する計算時間で終了することがで
きる。

【００２６】図１は、本発明の実施の形態におけるコン
パイラの構成を説明する図である。図１に示すコンパイ
ラは、ＪａｖａのJust In Time Compilerである。本実
施の形態では、本発明をJust In Time Compilerに適用
する場合を例として説明するが、他の種々のプログラム
言語で記述されたプログラムに対するコンパイラに適用
できることは言うまでもない。

【００２７】図１を参照すると、本実施の形態における
コンパイラは、フロントエンド最適化部１０と、命令レ
ベル並列化最適化部２０と、ネイティブコード生成部３
０とを備える。フロントエンド最適化部１０は、Ｊａｖ
ａにおける処理対象のプログラムのバイトコードを入力
し、バイトコードレベルでの最適化を行うバイトコード
最適化部１１と、バイトコード最適化部１１により最適
化を施されたバイトコード（四つ組中間コード）に対し
て四つ組中間コードレベルでの最適化を行う四つ組中間
コード最適化部１２とを備える。また、四つ組中間コー
ド最適化部１２では、処理対象であるプログラムを基本
ブロックに分割する。

【００２８】命令レベル並列化最適化部２０は、フロン
トエンド最適化部１０により四つ組中間コードレベルま
での最適化が行われたプログラムに対して、基本ブロッ
クレベルでのコードスケジューリングを行う基本ブロッ
ク・コードスケジューラ２１と、当該基本ブロック間の
依存関係に基づいてＰＤＧを作成し、このＰＤＧをハイ
パーブロックに適切に分割するためのハイパーブロック
生成部２２及び実行時間見積部２３と、ハイパーブロッ
クに分割されたプログラム全体に対するコードスケジュ
ーリングを行うグローバル・コードスケジューラ２４と
を備える。

【００２９】ネイティブコード生成部３０は、命令レベ
ル並列化最適化部２０によりコードスケジューリングが
行われたプログラムをネイティブコードに変換するコー
ド生成部３１と、コード生成部３１により生成されたネ
イティブコードに対して命令レベルでのコードスケジュ
ーリングを行う命令レベル・コードスケジューラ３２と
を備える。

【００３０】以上の構成のうち、フロントエンド最適化
部１０とネイティブコード生成部３０とは、従来のJust
In Time Compilerにおけるフロントエンド最適化部１
０及びネイティブコード生成部３０と同様である。した
がって、本実施の形態は、命令レベル並列化最適化部２
０において、基本ブロックレベルでのコードスケジュー
リングを行い、ハイパーブロック生成部２２及び実行時
間見積部２３において、命令列の実行時間を見積もりな
がらハイパーブロックを生成した上で、全体的なコード
スケジューリングを行う点に特徴がある。また、図１に
示すJust In Time Compiler以外の、他のプログラミン
グ言語におけるコンパイラにおいても、ソースプログラ
ムを入力して構文解析を行い中間コードを生成した後
に、図１の命令レベル並列化最適化部２０に相当する機
能ブロックにより、同様の命令レベルでの並列化による
最適化処理を行うことができる。

【００３１】なお、図１に示す各構成要素は、コンピュ
ータプログラムにより制御されたＣＰＵにて実現される
仮想的なソフトウェアブロックである。ＣＰＵを制御す
る当該コンピュータプログラムはＣＤ−ＲＯＭやフロッ
ピー（登録商標）ディスクなどの記憶媒体に格納した
り、ネットワークを介して伝送したりすることにより提
供される。

【００３２】次に、命令レベル並列化最適化部２０の動
作について説明する。本実施の形態は、処理対象である
プログラム中の命令間の制御依存関係及びデータ依存関
係を示すＰＤＧ（Program Dependence Graph）をシリー
ズパラレルグラフに変換し、命令列の実行時間の見積も
りを再帰的に行うことにより、適切なハイパーブロック
を生成する。以下では、命令レベル並列化最適化部２０
の動作について、まず概略的に説明し、次に具体的な手
法について説明する。

【００３３】まず、本実施の形態で用いる基本ブロック
について詳細に説明する。図３９は、処理対象のプログ
ラムの構成を基本ブロックで表現した例を示す図であ
る。図３９に示した基本ブロックＤ、Ｅの組のように互
いに依存がない基本ブロックの集合（パラレルスートと
呼ぶ、定義は後述）の場合、並列に実行しても、逐次に
実行しても、プログラムの正しさは保証されているの
で、どちらで実行されると領域全体の結果が良いかどう
かを決定する必要がある。この決定は、単純には、領域
中の全てのパラレルスートを、逐次、並列のどちらかで
実行したときの全ての組み合わせに対して、全体の処理
時間と必要な並列度を求めて比較する方法で実現でき
る。その際、全体の処理時間と必要な並列度を求めるに
は、単純には、パラレルスートの実行時間を構成要素の
実行時間の合計ｄと論理的な並列度の最大値ｗとで表す
ことができる。図４０は、パラレルスートの実行時間を
構成要素のパラメータ（ｄ、ｗ）で表現できることを説
明する図である。

【００３４】しかし、この方法には、次の三つの問題点
がある。１．基本ブロックは、上述したように、ストレ
ートコード、すなわちコントロールフローが途中に入る
こともなく、途中から出ることもないようなコード列の
範囲をブロックで示したものである。したがって、本来
的には変形不能の矩形領域ではなく、実際には(ある制
約の下で)柔軟に移動可能な命令の集合であるが、上の
基本ブロックの定義ではこの点が考慮されていない。
２．スートを構成する際に図４０に示した「すきま」が
できるため、処理時間と並列度の見積もり精度が悪い。
３．領域中のパラレルスートを並列処理する場合と逐次
処理する場合の全ての組み合わせを尽くす方法で実行時
間を見積もるため、計算時間が基本ブロックの数に応じ
て指数関数的に増加する。

【００３５】そこで、本実施の形態では、各基本ブロッ
クを、クリティカルパス長を下回らないという前提の下
で、縦方向（処理時間が伸びる方向）に伸ばせるように
モデル化する。このようにモデル化された基本ブロック
によるパラレルスートの例を図４１に示す。図４１に示
すように、パラレルスートは、基本ブロックＤと基本ブ
ロックＥとを変形させながら処理時間と平均並列度を見
積もることができる。これにより、より実際のプログラ
ムの構成に即した見積もりを行うことが可能となる。ま
た、基本ブロックを変形可能としたことにより、上述し
たスートにおける「すきま」を解消することもできる。
さらに、基本ブロックの横幅である平均並列度は、基本
ブロックにおける命令列の延べ実行時間とクリティカル
パス長に基づいて単純なモデル化により算出された値で
あるため、図４２に示すような基本ブロック内部におけ
る隙間も、複数の基本ブロックを扱うことによってある
程度相殺されることが期待される。

【００３６】次に、このモデルに従った最短処理時間の
見積もりを、基本ブロックの数に応じて計算時間が指数
関数的に増加することを回避して高速に実現するため
に、動的計画法を使った実現方法を説明する。本実施の
形態では、所定の領域の最短処理時間の見積もりを、当
該領域における部分領域の最短処理時間の見積もりから
再帰的に求めていく。例えば、図３９の基本ブロック
Ｄ、Ｅの処理時間の見積もりから、それらで構成される
パラレルスートの実行時間を見積もる。この再帰処理の
１ステップを高速に実現することで、全体として高速な
実行を可能とする。この処理を実現するには、基本ブロ
ックだけでなく、パラレルスート、実行依存がある基本
ブロックの集合（シリーズスートと呼ぶ、定義は後述）
を、変形可能な矩形領域とみなせなければならない。こ
れを満たすため、基本ブロック、パラレルスート、シリ
ーズスートに関して、ハードウェアの並列度Ｗに対す
る、それぞれの可能な並列度ｗ（１≦ｗ≦Ｗ）に対する
最短処理時間の見積データを再帰的に計算していく。

【００３７】基本ブロック、パラレルスート、シリーズ
スートの各場合について、上記のデータを見積もる方法
を簡単に述べる。基本ブロックに対しては、基本ブロッ
ク・コードスケジューラ２１によるコードスケジューリ
ングを実行し、延べ実行時間を求める。そして、この延
べ実行時間を並列度ｗで割った値を、当該基本ブロック
の最短処理時間の見積もりとする。ただし、本実施の形
態における基本ブロックオン定義より、クリティカルパ
ス長は下回らないものとする。シリーズスートに対して
は、構成要素の並列度ｗにおける処理時間を、単純に加
算する。パラレルスートに対しては、図４０のイメージ
どおり、１≦ｗ≦Ｗにおける各並列度ｗについて、ｗ１
＋ｗ２＝ｗの条件を満たしながらｗ１を変化させ、各構
成要素を並列実行した場合の実行時間の最大値を求め、
得られた最大値の最小値を当該スートの最短処理時間の
見積もりとする。これらの手続き、すなわち再帰の１ス
テップは、最長でもＷ²／２に比例する計算時間で終了
する。結局、基本ブロックの数をｎとすると、ｎ×Ｗ²
に比例した計算時間で全体の処理が終了する。

【００３８】次に、命令レベル並列化最適化部２０によ
る動作の具体的な手法について説明する。本実施の形態
では、上記の動的計画法を使ったハイパーブロックの生
成手法として、基本ブロックの構成のみを用いた第１の
手法と、基本ブロック内の命令レベルの依存関係をも考
慮した第２の手法とを提案する。

【００３９】第１の手法は、基本ブロックを、論理的な
並列度の平均とクリティカルパス長で表される矩形領域
にモデル化する。複数の基本ブロックにおける逐次実行
時間の見積もりは、クリティカルパスの処理時間の和を
下回らないとする。また、複数の基本ブロックを並列に
実行した場合に必要とされる並列度は、基本ブロックの
平均並列度の線形和になると近似する。第２の手法は、
基本ブロックを、論理的な並列度の平均とクリティカル
パス長で表される矩形領域にモデル化すると共に、当該
基本ブロック内の命令間における依存関係（Dependence
Path）の情報を持たせる。複数の基本ブロックの逐次
実行時間の見積もりは、Dependence Pathを再構成して
クリティカルパス長を再計算し、その値を下回らないと
する。複数の基本ブロックを並列に実行した時必要とさ
れる並列度は、第１の手法と同様に扱う。基本ブロック
を、平均並列度とクリティカルパス長で表される矩形領
域に近似することにより、複数の基本ブロックを並列に
実行した場合に必要とされる並列度は、基本ブロックの
平均並列度の線形和になると近似することができ、これ
により、高速動作を実現することができる。以下、手法
ごとに詳細に説明する。なお、以下の説明において用い
られる記号を図７において定義する。図７の各定義にお
いて、nodeはノード一般を示す。したがって、以下の説
明において、特に所定のノードにおける子ノードを指す
場合には、nodeの代わりにchild1などと記述する場合も
ある。

【００４０】〔第１の手法〕命令レベル並列化最適化部
２０は、初期的に、フロントエンド最適化部１０により
前処理としての最適化を施されたプログラム（中間コー
ド）を入力し、実行頻度情報やプログラムの構造に基づ
いて並列実行する領域を決定する。例えば、ある程度以
上の実行頻度を持ち、ループを含まない領域を並列実行
する領域とすることができる。ここでは、図２に示した
プログラム領域を処理対象とする。図２は、処理対象で
あるプログラムの最適化処理を行う領域の制御フローグ
ラフと当該部分の命令列のリストである。

【００４１】基本ブロック・コードスケジューラ２１
は、当該領域内の基本ブロック毎に、あいまいなメモリ
依存の解消を伴うコードスケジューリングを行う。これ
により、各基本ブロック（図７におけるnodeとする）に
ついて、node.clと、node.allとを見積もることができ
る。

【００４２】図３は、図２に示したプログラム領域にお
いて、node.clを縦の長さとし、node.allを面積とする
矩形領域で基本ブロックを表した図である。また、基本
ブロックの横の長さ、すなわち面積（node.all）を縦の
長さ（node.cl）で割った値を平均並列度と呼ぶ。例え
ば、図２によると、ノードＡには、「imove a, 1」「im
ove b, 1」「imove c, 3」「iadd a, 1」「isub b, 1」
「cmpjmp-eq a, 1, C」という６個の命令が含まれる。
このうち、「imove a, 1」「iadd a, 1」「cmpjmp-eq
a, 1, C」は依存関係があるので、並列に実行できな
い。全部で６個の命令のうち、３個が逐次実行されるの
で、これがクリティカルパス長となる。したがって、図
３に示すようにノードＡは、縦の長さが３、横の長さが
２（＝６／３）の矩形として表現される。

【００４３】次に、ハイパーブロック生成部２２は、図
３に示す基本ブロック間の制御依存関係及びデータ依存
関係を表すＰＤＧを作成する。そして、作成されたＰＤ
Ｇから先行制約グラフとして冗長な枝を取り除き、シリ
ーズパラレルグラフに変換する。ここで、シリーズパラ
レルグラフとは、次の三つの条件を満たすグラフであ
る。（１）単独のノードはシリーズパラレルグラフである。（２）シリーズパラレルグラフを二つ直列に接続したも
のはシリーズパラレルグラフである。（３）シリーズパラレルグラフを二つ並列に接続したも
のはシリーズパラレルグラフである。また、シリーズパラレルグラフの構成は、シリーズスー
トとパラレルスートの２種類の部分に分けることができ
る。シリーズスートとは、直列に連結（この連結をシリ
ーズコネクションと呼ぶ）された、依存関係のある一連
のシリーズスート、パラレルスート及びノードの集合で
ある。また、パラレルスートとは、並列に連結（この連
結をパラレルコネクションと呼ぶ）された、互いに依存
関係のないシリーズスート、パラレルスート及びノード
の集合である。図８は、ＰＤＧをシリーズパラレルグラ
フに変換するアルゴリズムを示す擬似プログラムであ
る。図示のアルゴリズムによる手続きは、現実的にはＰ
ＤＧのノードの数に比例した計算時間で終了する。

【００４４】図４は、図３から作成されたＰＤＧを示す
図、図５は、図４のＰＤＧから変換されたシリーズパラ
レルグラフを示す図である。図４、５を参照すると、例
えば、図４におけるノードＡからノードＤへのデータ依
存は、ノードＡからノードＣへの依存とノードＣからノ
ードＤへの依存が存在するため、冗長とみなされ、図５
に示すように取り除かれている。

【００４５】次に、ハイパーブロック生成部２２は、上
述のシリーズパラレルグラフから、シリーズスートとパ
ラレルスートの入れ子関係を表すシリーズパラレルネス
ト木を生成する。シリーズパラレルネスト木とは、次の
ように定義されるノードとエッジとを持つ木構造であ
る。ノード：シリーズパラレルグラフ中の全てのシリーズス
ートまたは全てのパラレルスートまたは全てのノードの
集合。エッジ：所定のシリーズスートに対し、シリーズコネク
ションのみで連結された一連のシリーズスート、パラレ
ルスートまたはノードがある場合、この所定のシリーズ
スートから当該一連のスートまたはノードに対して張ら
れるエッジ。または、所定のパラレルスートに対し、パ
ラレルコネクションのみで連結された一連のシリーズス
ート、パラレルスートまたはノードがある場合、この所
定のパラレルスートからその一連のスートまたはノード
に対して張られるエッジ。図９は、シリーズパラレルグ
ラフからシリーズパラレルネスト木を生成するアルゴリ
ズムを示す疑似プログラムである。図示のアルゴリズム
による手続きは、実践的にはシリーズパラレルグラフの
ノード数に比例した時間で終了する。ただし、図示のア
ルゴリズムは、単純のため、パラレルスートが３以上の
葉ノードを持つことを許しているが、葉ノードを２つだ
け持つように変更することも容易に可能である。図６
は、図５のシリーズパラレルグラフから生成されたシリ
ーズパラレルネスト木を示す図である。なお、図５、６
において、実線で示したノードはシリーズスートを示
し、破線で示したノードはパラレルスートを示す。

【００４６】次に、ハイパーブロック生成部２２は、実
行時間見積部２３を用いて、シリーズパラレルネスト木
における各ノードの実行時間を再帰的に見積もり、その
結果に基づいてハイパーブロック選択処理を実行する
（図１０参照）。このハイパーブロック選択処理によ
り、シリーズパラレルネスト木の各ノードに、独立した
ハイパーブロックとして扱うか否かを示す情報が付され
る。以下、ハイパーブロック選択処理について、詳細に
説明する。

【００４７】図１１は、ハイパーブロック選択処理の全
体的な動作の流れを示すフローチャートである。また、
図１２は、図１１に対応する動作のアルゴリズムを示す
疑似プログラムである。図１１を参照すると、まず、シ
リーズパラレルネスト木のノードの一つを処理対象とし
（ステップ１１０１）、当該ノードの属性を調べ、パラ
レルスートか、シリーズスートか、基本ブロック（単一
ノード）かを判断する（ステップ１１０２）。そして、
当該ノードがパラレルスートであれば、実行時間見積部
２３に処理を渡して当該パラレルスートの実行時間見積
処理を行う（ステップ１１０３）。また、当該ノードが
シリーズスートであれば、当該ハイパーブロック選択処
理を当該ノードの子ノード（ここでは子ノード１、子ノ
ード２の二つ）に再帰的に適用した後（ステップ１１０
４）、当該シリーズスートの実行時間評価処理を行う
（ステップ１１０５）。さらに、当該ノードが基本ブロ
ック（単一ノード）であれば、単一ノードの実行時間評
価処理を行う（ステップ１１０６）。

【００４８】ステップ１１０３によるパラレルスートの
実行時間見積処理では、並列度Ｗのときの所定のパラレ
ルスート（ｘ）の処理時間を求めたい場合、パラレルス
ート（ｘ）を構成するスート（ｙ，ｚ）について、Ｗ＝
ｗ１＋ｗ２の関係でｗ１を変化させながら、並列度ｗ１
のときのスート（ｙ）の最短処理時間及び並列度ｗ２の
ときのスート（ｚ）の最短処理時間の最大値を求める。
そして、ｗ１の値ごとに得られた最大値のうちの最も小
さい値を、並列度Ｗのときのパラレルスート（ｘ）の最
短処理時間として見積もる。ここで、パラレルスート
は、各ノードをまとめて一つのハイパーブロックを構成
することによって、処理時間を長くしてしまうことがあ
り得る。そこで、パラレルスート中のノードをまとめて
ハイパーブロックを構成するか否かの判断を行う。具体
的には、分岐命令削減による利得を並列実行のオーバー
ヘッドが下回っているかどうかを判断する。そして、構
成しないと判断された場合は、各ノードを分けて別のハ
イパーブロックを構成するという意味の印を付ける（no
de.hyper_block = TRUE（図７））。この際、どちらの
スートを独立したハイパーブロックにするかの判断は、
状況に応じて種々の手法で行うことができる。例えば、
単純にクリティカルパスが長い方を独立したハイパーブ
ロックとしても良いし、実行確率がわかっている場合
は、実行確率の低い方を独立したハイパーブロックとす
ることもできる。

【００４９】図１３は、図１１におけるステップ１１０
３のパラレルスートに対する実行時間見積処理の内容を
説明するフローチャートである。図１３を参照すると、
まず、処理対象であるノードの子ノード（ここでは子ノ
ード１、子ノード２の二つ）に当該ハイパーブロック選
択処理を再帰的に適用する（ステップ１３０１）。そし
て、パラレルスートの実行時間評価処理（ステップ１３
０２）及び利得見積処理（ステップ１３０３）を行った
後、得られた利得の値が０よりも大きいか否かを判断す
る（ステップ１３０４）。利得が０以下である場合は、
ノード選択処理を行う（ステップ１３０５）。利得が０
よりも大きい場合は、子ノード１と子ノード２の面積
（すなわち、node.all：当該ノードの延べ実行時間）の
和を親ノード（すなわち、初めに処理対象としたノー
ド）の面積とする（ステップ１３０６）。

【００５０】図１４は、図１３におけるステップ１３０
２の実行時間評価処理の内容を説明するフローチャート
である。また、図１５は、図１４の実行時間評価処理の
動作アルゴリズムを示す疑似プログラムである。図１４
を参照すると、まず、この処理の中でのみ有効な自由変
数ｗ１の値を１に初期化する（ステップ１４０１）。ま
た、この処理の中でのみ有効な自由変数ｍｉｎの値を無
限大に初期化する（ステップ１４０２）。そして、変数
ｗ１とハードウェアの並列度Ｗとを比較し、同じかどう
か調べる（ステップ１４０３）。変数ｗ１が並列度Ｗと
同じでなければ、次に、この処理の中でのみ有効な自由
変数ｗ２を０に初期化し（ステップ１４０４）、この変
数ｗ２と変数ｗ１とを比較して同じかどうか調べる（ス
テップ１４０５）。変数ｗ１と変数ｗ２とが同じでない
場合、次に、子ノード１が並列度ｗ２のときの最短処理
時間と、子ノード２が並列度（ｗ１−ｗ２）のときの最
短処理時間とを比較し、大きい方の値を求める（ステッ
プ１４０６）。そして、得られた値と、変数ｍｉｎの値
とを比較し、小さい方の値を変数ｍｉｎの新たな値とす
る（ステップ１４０７）。この後、変数ｗ２の値を１増
加し（ステップ１４０８）、ステップ１４０５の比較に
戻る。一方、変数ｗ１と変数ｗ２とが同じである場合
は、現時点での変数ｍｉｎの値を親ノード（すなわち、
初めに処理対象としたノード）が並列度ｗ１のときの最
短処理時間とする（ステップ１４０９）。そして、変数
ｗ１の値を１増加し（ステップ１４１０）、ステップ１
４０２に戻る。そして、ステップ１４０３の比較におい
て、変数ｗ１と並列度Ｗとが同じであれば、処理を終了
する（ステップ１４０３）。

【００５１】以上の動作により、並列度Ｗのときのパラ
レルスートの最短処理時間の見積もりが得られる。実際
のＣＰＵ（ハードウェア）における並列度Ｗは一桁程度
の小さな数値なので、この実行時間評価処理はノード数
に比例する時間で終了することができる。

【００５２】図１６は、図１３におけるステップ１３０
３の利得見積処理の内容を説明するフローチャートであ
る。また、図１７は、図１６の利得見積処理の動作アル
ゴリズムを示す疑似プログラムである。図１６を参照す
ると、図１４、１５に示した実行時間評価処理により得
られたパラレルスートの最短処理時間の見積もりに基づ
いて、子ノード１と子ノード２とを条件分岐としてその
まま実行した場合の処理時間と、この条件分岐をプレデ
ィケート付き命令で並列実行した場合の処理時間との差
を利得として求める（ステップ１６０１）。

【００５３】図１８は、図１３におけるステップ１３０
５のノード選択処理の内容を説明するフローチャートで
ある。また、図１９は、図１８のノード選択処理の動作
アルゴリズムを示す疑似プログラムである。図１８を参
照すると、まず、ハードウェアの並列度Ｗのときの子ノ
ード１及び子ノード２の最短処理時間を比較する（ステ
ップ１８０１）。子ノード１の最短処理時間が子ノード
２の最短処理時間以下である場合、子ノード２に対して
当該子ノード２を独立したハイパーブロックとして実行
するという意味の属性を付する（ステップ１８０２）。
そして、子ノード１の最短処理時間の情報、依存関係を
示す情報、及び延べ実行時間の情報を親ノード（すなわ
ち、最初に処理対象としたノード）に複写する（ステッ
プ１８０３）。これにより、当該親ノードは、子ノード
１のみから構成されることとなる。一方、ステップ１８
０１の判断において、子ノード１の最短処理時間の方が
子ノード２の最短処理時間よりも大きい場合、子ノード
１に対して当該子ノード１を独立したハイパーブロック
として実行するという意味の属性を付する（ステップ１
８０４）。そして、子ノード２の最短処理時間の情報、
依存関係を示す情報、及び延べ実行時間の情報を親ノー
ド（すなわち、最初に処理対象としたノード）に複写す
る（ステップ１８０５）。これにより、当該親ノード
は、子ノード２のみから構成されることとなる。

【００５４】以上のようにして、シリーズパラレルネス
ト木のパラレルスートに対する実行時間見積処理を終了
する。これにより、シリーズパラレルネスト木中のパラ
レルスートに関して、当該パラレルスートを構成するノ
ードを一つのハイパーブロックにまとめるか、または別
のハイパーブロックとして分岐させるかを示す情報と、
当該一つまたは二つのハイパーブロックにおける実行時
間の見積もりが得られ、当該ハイパーブロックに付され
ることとなる。

【００５５】図１１のステップ１１０５によるシリーズ
スートの実行時間評価処理では、当該シリーズスートを
構成するノードの最短処理時間を単純に加えることによ
り、当該シリーズスートにおける実行時間を粗く見積も
る。そしてさらに、平均並列度ｗに対して当該実行時間
が最短（最短処理時間）となるように補正する。

【００５６】図２０は、図１１におけるステップ１１０
５のシリーズスートに対する実行時間評価処理の内容を
説明するフローチャートである。また、図２１は、図２
０の実行時間評価処理の動作アルゴリズムを示す疑似プ
ログラムである。図２０を参照すると、まず、処理対象
であるノードの延べ実行時間を子ノード（ここでは子ノ
ード１、子ノード２の二つ）の延べ実行時間の和とする
（ステップ２００１）。次に、この処理の中でのみ有効
な自由変数ｗの値を１に初期化する（ステップ２００
２）。そして、変数ｗとハードウェアの並列度Ｗとを比
較し、同じかどうか調べる（ステップ２００３）。変数
ｗが並列度Ｗと同じでなければ、次に、処理対象である
ノードの並列度ｗのときの最短処理時間を、子ノード１
及び子ノード２の並列度ｗのときのそれぞれの最短処理
時間の和とする（ステップ２００４）。そして、処理対
象であるノードの最短処理時間に変数ｗを乗じた値が、
子ノード１及び子ノード２の延べ実行時間とを比較し、
同じかどうか調べる（ステップ２００５）。すなわち、
変数ｗが処理対象であるノードの平均並列度となってい
るかどうかを確認する。処理対象であるノードの最短処
理時間に変数ｗを乗じた値が、子ノード１及び子ノード
２の延べ実行時間とは異なっている場合、当該処理対象
であるノードの平均並列度に対する最短処理時間をステ
ップ２００４で求めた値とする（ステップ２００６）。
処理対象であるノードの最短処理時間に変数ｗを乗じた
値が、子ノード１及び子ノード２の延べ実行時間と同じ
である場合、またはステップ２００６の終了後、変数ｗ
の値を１増加し（ステップ２００７）、ステップ２００
３に戻る。そして、ステップ２００３の比較において、
変数ｗが並列度Ｗと同じであれば、処理を終了する（ス
テップ２００３）。

【００５７】図１１のステップ１１０６による単一ノー
ドの実行時間評価処理では、クリティカルパス長を下回
らない限り、計算総量を並列度で割った値で実行できる
と見積もる。図２２は、図１１におけるステップ１１０
６の単一ノードに対する実行時間評価処理の内容を説明
するフローチャートである。また、図２３は、図２２の
実行時間評価処理の動作アルゴリズムを示す疑似プログ
ラムである。図２２を参照すると、まず、この処理の中
でのみ有効な自由変数ｗを１に初期化する（ステップ２
２０１）。そして、変数ｗとハードウェアの並列度Ｗと
を比較し、同じかどうか調べる（ステップ２２０２）。
変数ｗが並列度Ｗと同じでなければ、次に、処理対象で
あるノードの最短処理時間を、基本ブロック中の延べ実
行時間を変数ｗで割った値とする（ステップ２２０
３）。そして、得られた値が基本ブロックのクリティカ
ルパス長を下回ったかどうかを判断する（ステップ２２
０４）。ステップ２２０３で算出された処理対象である
ノードの最短処理時間が、基本ブロックのクリティカル
パス長を下回っている場合、当該ノードの最短処理時間
を基本ブロックのクリティカルパス長とする（ステップ
２２０５）。ステップ２２０３で算出された処理対象で
あるノードの最短処理時間が、基本ブロックのクリティ
カルパス長を下回っていない場合、またはステップ２２
０５の終了後、変数ｗの値を１増加し（ステップ２２０
６）、ステップ２２０２に戻る。そして、ステップ２２
０２の比較において、変数ｗが並列度Ｗと同じであれ
ば、処理を終了する（ステップ２２０２）。

【００５８】以上説明したパラレルスート、シリーズス
ート、単一ノードに対する実行時間の見積もり及び評価
を、シリーズパラレルネスト木のルートノードから葉ノ
ードへ再帰的に実行することにより、適切なハイパーブ
ロックを生成することができる。すなわち、一つのハイ
パーブロックにまとめた方が実行時間が短くなるノード
に関しては、一つのハイパーブロックにまとめられ、一
つのハイパーブロックにまとめない方が実行時間が短く
なるノードに関しては、別のハイパーブロックに分割す
る。

【００５９】次に、この第１の手法によるハイパーブロ
ックの生成例を説明する。ここでは、並列処理を実行す
る方が実行時間が短くなる例と、条件分岐を実行した方
が実行時間が短くなる例とを示すため、ハードウェアの
並列度が６である場合と３である場合とを例として説明
する。なお、図２乃至図６に示したプログラムを処理対
象とし、各命令は時間１で実行されると仮定する。ま
た、分岐処理によるペナルティ（分岐処理を行うことに
より必然的に処理に要する実行時間）を５とする。

【００６０】まず、ハードウェアの並列度が６である場
合について説明する。例として、図６のシリーズパラレ
ルネスト木において、スート５に関し、並列度Ｗが３で
ある場合の実行時間の見積もりを考える。この場合、ス
ート５は構成要素である基本ブロックＤ、Ｅが並列に接
続されたパラレルスートである。したがって、図１４に
示したパラレルスートに対する実行時間評価処理によ
り、基本ブロックＤ、Ｅの並列度ごとの処理時間の最大
値を求める。この場合、スート５の並列度Ｗが３である
から、基本ブロックＤ、Ｅの並列度は、基本ブロックＤ
の並列度が２、基本ブロックＥの並列度が１である場合
と、基本ブロックＤの並列度が１、基本ブロックＥの並
列度が２である場合とが考えられる。また、図３の基本
ブロックＤを表す矩形の情報から、基本ブロックＤに関
しては、クリティカルパス長が３であり、平均並列度が
１（命令を並列に実行できず、逐次実行しなければなら
ないことを意味する）である。したがって、基本ブロッ
クＤの処理に要する時間は、並列度に関わらず３であ
る。同様に、図３の基本ブロックＥを表す矩形の情報か
ら、基本ブロックＥに関しては、クリティカルパス長が
２であり、平均並列度が４である。したがって、基本ブ
ロックＤの処理に要する時間は、並列度が１のときで
８、並列度が２のときで４、並列度が３のときで３、並
列度が４以上では２となる。したがって、上述した基本
ブロックＤの並列度が２、基本ブロックＥの並列度が１
である場合は、基本ブロックＤの実行時間が３、基本ブ
ロックＥの実行時間が８である。一方、基本ブロックＤ
の並列度が１、基本ブロックＥの並列度が２である場合
は、基本ブロックＤの実行時間が３、基本ブロックＥの
実行時間が４である。すなわち、基本ブロックＤ、Ｅを
並列に実行するとすると、基本ブロックＤの並列度が
２、基本ブロックＥの並列度が１である場合は実行時間
が８となり、基本ブロックＤの並列度が１、基本ブロッ
クＥの並列度が２である場合は実行時間が４となる。そ
こで、スート５の最短処理時間は４と見積もることがで
きる。図２４は、以上のような最短処理時間の見積もり
を、図６のシリーズパラレルネスト木における各ノード
（スート）に対して、並列度１〜６の各場合で求めた結
果を示す図である。

【００６１】ここで、図６のシリーズパラレルネスト木
におけるパラレルスートであるスート５及びスート２の
実行時間見積処理においては、一つのハイパーブロック
にまとめるか、別の独立したハイパーブロックを生成す
るかの判断を行う（図１３参照）。例として、スート２
の場合を考えると、図２４を参照して、並列度６のとき
のスート２の最短処理時間は６となる（基本ブロックＢ
の並列度が２でスート３の並列度が４である場合、また
は基本ブロックＢ及びスート３の並列度が共に３である
場合）。これに対し、図１６、１７に示す利得見積処理
によれば、スート３と基本ブロックＢとを、条件分岐を
そのまま実行した場合の処理時間は、並列度６のときの
基本ブロックＢの最短処理時間が４、スート３の最短処
理時間が５であるから、９．５（＝５＋（４＋５）／
２）である。したがって、条件分岐を行う場合の処理時
間は並列処理における最短処理時間よりも大きいため、
利得は０よりも大きくなる（９．５−６＝３．５＞
０）。これにより、スート２は一つのハイパーブロック
にまとめられることとなる（図１３、ステップ１３０
４、１３０６参照）。スート２は、他のノードである基
本ブロックＡ、Ｇとシリーズスートを構成しているた
め、最大の並列度６の場合についてのみ考察すればよい
が、スート５の場合は、スート２を構成するスート３に
どれだけの並列度が割り当てられるかに応じて、それぞ
れ利得を見積もる必要がある。煩雑になるので記載は省
略するが、同様の計算を各並列度におけるスート５に対
して行うと、全ての場合で利得が０よりも大きくなる。
したがって、ハードウェアの並列度が６の場合は、全て
の基本ブロックを一つにまとめたハイパーブロックを生
成することとなる。図２４において、アスタリスク
（＊）の付されたスート（スート０）は、独立したハイ
パーブロックを構成するという意味の印である（図７に
おけるnode.hyper_block = TRUE）。

【００６２】次に、ハードウェアの並列度が３である場
合について説明する。ハードウェアの並列度が６である
場合について説明したのと同様の手法で、図６のシリー
ズパラレルネスト木の各ノードに対して並列度１〜３の
各場合で求めた最短処理時間の見積もりを図２５に示
す。まず、スート２について考える。スート２を並列実
行する場合、最短処理時間は１２となる（基本ブロック
Ｂの並列度が１でスート３の並列度が２である場合）。
これに対し、図１６、１７に示す利得見積処理によれ
ば、スート３と基本ブロックＢとを、条件分岐をそのま
ま実行した場合の処理時間は、並列度３のときの基本ブ
ロックＢの最短処理時間が４、スート３の最短処理時間
が６であるから、１０（＝５＋（６＋４）／２）であ
る。したがって、利得は−２（＝１０−１２）であり、
０よりも小さいので、スート２は二つのハイパーブロッ
クに分割される（図１３、ステップ１３０４、１３０５
参照）。また、基本ブロックＢとスート３とでは、スー
ト３の方が最短処理時間が大きいので、スート３を独立
のハイパーブロックとし、基本ブロックＢは基本ブロッ
クＡ及び基本ブロックＧとシリーズスートを構成するハ
イパーブロックに含める（図１８参照）。次に、スート
５について考える。上述したようにスート３は、独立の
ハイパーブロックであり、当該スート３においてスート
５は、基本ブロックＣおよび基本ブロックＦとシリーズ
スートを構成する。したがって、スート５の並列度はハ
ードウェアの並列度３をそのまま適用できる。この場
合、スート５の最短処理時間は４である（基本ブロック
Ｄの並列度が１で基本ブロックＥの並列度が２である場
合）。これに対し、図１６、１７に示す利得見積処理に
よれば、基本ブロックＤ、Ｅを、分岐条件をそのまま実
行した場合の処理時間は、並列度３のときの基本ブロッ
クＤ、Ｅとも最短処理時間が３であるから、８（＝５＋
（３＋３）／２）である。したがって、利得は４（＝８
−４）であり、０よりも大きいので、スート５は一つの
ハイパーブロックにまとめられる。以上の結果、基本ブ
ロックＡ、Ｂ、Ｇが一つのハイパーブロックを形成し、
基本ブロックＣ、Ｄ、Ｅ、Ｆが別の独立したハイパーブ
ロックを形成することとなる。図２５において、アスタ
リスク（＊）の付されたスート（スート０、３）は、独
立したハイパーブロックを構成するという意味の印であ
る（図７におけるnode.hyper_block = TRUE）。

【００６３】〔第２の手法〕次に、当該基本ブロック内
の命令間における依存関係（Dependence Path）の情報
を持たせる第２の手法について説明する。第２の手法で
は、プログラムの各基本ブロックに命令レベルでの依存
関係に関する情報を持たせておく。そして、基本ブロッ
クの実行時間の見積もりの際に、この依存関係に基づい
て当該基本ブロックのクリティカルパス長を再計算す
る。

【００６４】図２６を参照して具体的に説明する。図２
６は、図３に示した基本ブロックＣ、Ｄ、Ｅ、Ｆの内部
の命令における依存関係を説明する図である。図３に示
したように、基本ブロックＣのクリティカルパス長は
１、基本ブロックＤのクリティカルパス長は３、基本ブ
ロックＥのクリティカルパス長は２、基本ブロックＦの
クリティカルパス長は１である。したがって、第１の手
法によれば、基本ブロックＣ、Ｄ、Ｅ、Ｆ（図５、６の
スート３に対応）の最短処理時間は５以下にはなり得な
い（図２４のスート３の欄参照）。しかし、基本ブロッ
クＤ、Ｅ、Ｆの内部の命令間の依存関係が図２６に示す
ようになっていた場合、すなわち、基本ブロックＤにお
ける命令と基本ブロックＦにおける命令とに依存関
係があり、基本ブロックＤにおける命令と基本ブロッ
クＦとの間には依存関係がない場合、基本ブロックＦの
命令は基本ブロックＤの命令と並列に実行すること
が可能である。したがって、この命令レベルでの依存関
係を考慮することにより、スート３の最短処理時間を４
と見積もることができる。

【００６５】以上の処理を実現するため、第２の手法で
は、基本ブロック・コードスケジューラ２１において、
基本ブロック内部の命令の依存関係に関する情報を取得
する。基本ブロック・コードスケジューラ２１は、ま
ず、命令間の依存関係を示す依存ＤＡＧ（Directed Acy
clic Graph）の全てのパスを求める。そして、得られた
パスをその長さの降順に並べ替えておく。図２７は、依
存ＤＡＧの全てのパスを、ノードへのポインタを張るこ
とによって保持するイメージを表す図である。

【００６６】次に、基本ブロックに付された情報に基づ
いて、ハイパーブロック生成部２２がＰＤＧを作成し、
ＰＤＧをシリーズパラレルグラフに変換し、さらにシリ
ーズパラレルグラフからシリーズパラレルネスト木を生
成する行程は、第１の手法と同一である。したがって、
ここでは詳細な説明を省略する。

【００６７】次に、ハイパーブロック生成部２２は、実
行時間見積部２３を用いて、シリーズパラレルネスト木
における各ノードの実行時間を再帰的に見積もり、その
結果に基づいてハイパーブロック選択処理を実行する
（図１０参照）。このハイパーブロック選択処理によ
り、シリーズパラレルネスト木の各ノードに、独立した
ハイパーブロックとして扱うか否かを示す情報が付され
る。第２の手法におけるハイパーブロック選択処理は、
基本的には第１の手法と同様の手順で実行されるが、基
本ブロック内部の命令の依存関係を考慮し、必要に応じ
て当該基本ブロックのクリティカルパス長を変更する処
理が実行される。以下、ハイパーブロック選択処理につ
いて、詳細に説明する。

【００６８】ハイパーブロック選択処理の全体的な動作
の流れは、図１１を参照して説明した第１の手法と同様
である。すなわち、まず、シリーズパラレルネスト木の
ノードの一つを処理対象とし（ステップ１１０１）、当
該ノードの属性を調べ、パラレルスートか、シリーズス
ートか、基本ブロック（単一ノード）かを判断する（ス
テップ１１０２）。そして、判断結果に応じて、パラレ
ルスートの実行時間見積処理（ステップ１１０３）、シ
リーズスートの実行時間を評価するための処理（ステッ
プ１１０４、１１０５）、単一ノードの実行時間評価処
理を行う（ステップ１１０６）。

【００６９】また、パラレルスートの実行時間見積処理
（ステップ１１０３）も、実行時間評価処理の内容を除
き、全体的な動作の流れは図１３を参照して説明した第
１の手法と同様である。すなわち、まず、処理対象であ
るノードの子ノードに対して当該ハイパーブロック選択
処理を再帰的に適用する（ステップ１３０１）。そし
て、パラレルスートの実行時間評価処理（ステップ１３
０２）及び利得見積処理（ステップ１３０３）を行った
後、得られた利得の値が０よりも大きいか否かを判断す
る（ステップ１３０４）。利得が０よりも大きい場合
は、ノード選択処理を行う（ステップ１３０５）。利得
が０以下である場合は、子ノード１と子ノード２の面積
（すなわち、node.all：当該ノードの延べ実行時間）の
和を親ノード（すなわち、初めに処理対象としたノー
ド）の面積とする（ステップ１３０６）。

【００７０】図２８は、第２の手法において、図１３に
おけるステップ１３０２の実行時間評価処理の内容を説
明するフローチャートである。また、図２９は、図２８
の実行時間評価処理の動作アルゴリズムを示す疑似プロ
グラムである。図２８を参照すると、まず、この処理の
中でのみ有効な自由変数ｗ１の値を１に初期化する（ス
テップ２８０１）。また、この処理の中でのみ有効な自
由変数ｍｉｎ及びｍｉｎ２の値を無限大に初期化する
（ステップ２８０２）。そして、変数ｗ１とハードウェ
アの並列度Ｗとを比較し、同じかどうか調べる（ステッ
プ２８０３）。変数ｗ１が並列度Ｗと同じでなければ、
次に、この処理の中でのみ有効な自由変数ｗ２を０に初
期化し（ステップ２８０４）、この変数ｗ２と変数ｗ１
とを比較して同じかどうか調べる（ステップ２８０
５）。変数ｗ１と変数ｗ２とが同じでない場合、次に、
子ノード１が並列度ｗ２のときの最短処理時間と、子ノ
ード２が並列度（ｗ１−ｗ２）のときの最短処理時間と
を比較し、大きい方の値を求める（ステップ２８０
６）。そして、得られた値と、変数ｍｉｎの値とを比較
し、小さい方の値を変数ｍｉｎの新たな値とする（ステ
ップ２８０７）。また、子ノード１が並列度ｗ２のクリ
ティカルパス長を無視した場合の処理時間と、子ノード
２が並列度（ｗ１−ｗ２）のときのクリティカルパス長
を無視した場合の処理時間とを比較し、大きい方の値を
求める（ステップ２８０８）、そして、得られた値と、
変数ｍｉｎ２の値とを比較し、小さい方の値を新たなｍ
ｉｎ２の値とする（ステップ２８０９）。この後、変数
ｗ２の値を１増加し（ステップ２８１０）、ステップ２
８０５の比較に戻る。一方、変数ｗ１と変数ｗ２とが同
じである場合は、現時点での変数ｍｉｎの値を親ノード
（すなわち、初めに処理対象としたノード）が並列度ｗ
１のときの最短処理時間とし、現時点での変数ｍｉｎ２
の値を当該親ノードのクリティカルパス長を無視した場
合の処理時間とする（ステップ２８１１）。そして、変
数ｗ１の値を１増加し（ステップ２８１２）、ステップ
２８０２に戻る。そして、ステップ２８０３の比較にお
いて、変数ｗ１と並列度Ｗとが同じであれば、依存パス
融合処理（ステップ２８１３）を行った後に実行時間評
価処理を終了する。

【００７１】図３０は、図２８におけるステップ２８１
３の依存パス融合処理の内容を説明するフローチャート
である。なお、依存パスとは、依存ＤＡＧにおいて命令
間の依存関係を表すパスである。また、図３０におい
て、node.n_exec_pathは、ノードにおける依存パスの数
を示す。図３０を参照すると、まず、親ノードにおける
依存パスの数を子ノード１における依存パスの数と子ノ
ード２における依存パスの数の和とする（ステップ３０
０１）。次に、この処理の中でのみ有効な自由変数ｎ
１、ｎ２、ｎを０に初期化する（ステップ３００２）。
そして、変数ｎと親ノードの依存パスの数とを比較し、
同じかどうか調べる（ステップ３００３）。変数ｎと親
ノードの依存パスの数とが同じでない場合、次に、子ノ
ード１のｎ１番目の依存パスの長さと、子ノード２のｎ
２番目の依存パスとの長さを比較する（ステップ３００
４）。そして、子ノード１のｎ１番目の依存パスの方が
長い場合は、親ノードのｎ番目の依存パスを、子ノード
１のｎ１番目の依存パスとし、変数ｎ１の値を１増加す
る（ステップ３００５）。また、子ノード２のｎ２番目
の依存パスの方が長い場合は、親ノードのｎ番目の依存
パスを、子ノード２のｎ２番目の依存パスとし、変数ｎ
２の値を１増加する（ステップ３００６）。ステップ３
００５またはステップ３００６の後、変数ｎの値を１増
加し（ステップ３００７）、ステップ３００３へ戻る。
そして、変数ｎと親ノードの依存パスの数とが同じなら
ば、依存パス融合処理を終了する（ステップ３００
３）。

【００７２】以上の動作により、並列度Ｗのときのパラ
レルスートの最短処理時間の見積もりが得られる。上記
のように、第２の手法では、クリティカルパス長を無視
した（すなわち、実行時間がクリティカルパス長を下回
ることを許す）場合の処理時間の見積もり（図７のnod
e.best_time2）も計算される。この値は、後述するシリ
ーズスートの実行時間の評価において用いられる。ま
た、依存パス融合処理において、依存パスの融合とソー
トが行われる。子ノード１、２の依存パスは、基本ブロ
ック・コードスケジューラ２１により長いものから降順
にソートしてあるので、これを用いて親ノードにおける
依存パスが再構成される。

【００７３】図３１は、第２の手法において、図１１に
おけるステップ１１０５のシリーズスートに対する実行
時間評価処理の内容を説明するフローチャートである。
また、図３２は、図３１の実行時間評価処理の動作アル
ゴリズムを示す疑似プログラムである。図３１を参照す
ると、まず、処理対象であるノードの延べ実行時間を、
子ノード１、２の延べ実行時間の和とする（ステップ３
１０１）。次に、クリティカルパス長再計算処理（ステ
ップ３１０２）、最短処理時間計算処理（ステップ３１
０３）を順次実行する。

【００７４】図３３は、図３１におけるステップ３１０
２のクリティカルパス長再計算処理内容を説明するフロ
ーチャートである。図３３を参照すると、まず、この処
理の中でのみ有効な自由変数ｎ１、ｉｄｘを０に初期化
する（ステップ３３０１）。そして、変数ｎ１の値と子
ノード１の依存パスの数とを比較し、同じかどうかを調
べる（ステップ３３０２）。変数ｎ１の値と子ノード１
の依存パスの数とが同じでない場合、次に、この処理の
中でのみ有効な自由変数ｎ２を０に初期化する（ステッ
プ３３０３）。そして、変数ｎ２の値と子ノード２の依
存パスの数とを比較し、同じかどうかを調べる（ステッ
プ３３０４）。変数ｎ２の値と子ノード２の依存パスの
数とが同じでない場合、次に、子ノード１のｎ１番目の
依存パスの最後のノードが、子ノード２のｎ２番目の依
存パスの最初のノードに依存しているかどうか調べる
（ステップ３３０５）。そして、依存しているならば、
当該子ノード１のｎ１番目の依存パスと子ノード２のｎ
２番目の依存パスとを結合し、親ノード（すなわち、初
めに処理対象としたノード）のｉｄｘ番目の依存パスと
する（ステップ３３０６）。ステップ３３０６の処理の
後、及びステップ３３０５において、子ノード１のｎ１
番目の依存パスの最後のノードが、子ノード２のｎ２番
目の依存パスの最初のノードに依存していない場合、変
数ｗ２の値を１増加し（ステップ３３０７）、ステップ
３３０４に戻る。一方、ステップ３３０４において、変
数ｎ２の値と子ノード２の依存パスの数とが同じなら
ば、変数ｎ１の値を１増加し（ステップ３３０８）、ス
テップ３３０２へ戻る。そして、ステップ３３０２にお
いて、変数ｎ１の値と子ノード１の依存パスの数とが同
じならば、処理を終了する。

【００７５】以上のようにして、所定のシリーズスート
の子ノードにおいて、その子ノード中の命令の依存パス
を連結し、この連結された依存パスの長さに基づいてソ
ートした上で、当該シリーズスートのクリティカルパス
長を再計算する。これにより、子ノード中の命令の依存
関係によっては、当該シリーズスート全体におけるクリ
ティカルパス長を、子ノードのクリティカルパス長を単
純に足した場合よりも短くすることができる。

【００７６】図３４は、図３１におけるステップ３１０
３の最短処理時間計算処理の内容を説明するフローチャ
ートである。図３４を参照すると、まず、親ノードの依
存パスを長さの降順にソートする（ステップ３４０
１）。次に、この処理の中でのみ有効な自由変数ｗを０
に初期化する（ステップ３４０２）。そして、変数ｗと
ハードウェアの並列度Ｗとを比較し、同じかどうかを調
べる（ステップ３４０３）。変数ｗと並列度Ｗとが同じ
でない場合、クリティカルパス長を考慮しない場合にお
ける親ノードの実行時間を、子ノード１、２のクリティ
カルパス長を考慮しない場合における実行時間の和とす
る（ステップ３４０４）。そして、変数ｗの値を１増加
し（ステップ３４０５）、ステップ３４０３へ戻る。ス
テップ３４０３において、変数ｗと並列度Ｗとが同じで
あれば、処理を終了する。

【００７７】以上のようにして、子ノード１、２におけ
るクリティカルパス長を考慮しない場合における最短処
理時間の和において、再計算された当該シリーズスート
のクリティカルパス長を下回らない値を当該シリーズス
ートの最短処理時間と見積もることができる。

【００７８】図３５は、第２の手法において、図１１に
おけるステップ１１０６の単一ノードに対する実行時間
評価処理の内容を説明するフローチャートである。ま
た、図３６は、図３５の実行時間評価処理の動作アルゴ
リズムを示す疑似プログラムである。図３５を参照する
と、まず、この処理の中でのみ有効な自由変数ｗを１に
初期化する（ステップ３５０１）。そして、変数ｗとハ
ードウェアの並列度Ｗとを比較し、同じかどうか調べる
（ステップ３５０２）。変数ｗが並列度Ｗと同じでなけ
れば、次に、処理対象であるノードの最短処理時間を、
基本ブロック中の延べ実行時間を変数ｗで割った値とす
る（ステップ３５０３）。また、処理対象であるノード
のクリティカルパスを考慮しない場合における実行時間
も、基本ブロック中の延べ実行時間を変数ｗで割った値
とする（ステップ３５０４）。そして、ステップ３５０
３で得られた値が基本ブロックのクリティカルパス長を
下回ったかどうかを判断する（ステップ３５０５）。ス
テップ３５０３で算出された処理対象であるノードの最
短処理時間が、基本ブロックのクリティカルパス長を下
回っている場合、当該ノードの最短処理時間を基本ブロ
ックのクリティカルパス長とする（ステップ３５０
６）。ステップ３５０３で算出された処理対象であるノ
ードの最短処理時間が、基本ブロックのクリティカルパ
ス長を下回っていない場合、またはステップ３５０６の
終了後、変数ｗの値を１増加し（ステップ３５０７）、
ステップ３５０２に戻る。そして、ステップ３５０２の
比較において、変数ｗが並列度Ｗと同じであれば、処理
を終了する（ステップ３５０２）。

【００７９】以上、説明した第２の手法は、基本ブロッ
ク・コードスケジューラ２１において依存ＤＡＧのパス
（依存パス）のソートを行う。この処理は、依存パスの
数をｍとした場合、ｍ×log ｍに比例する計算時間を要
する。また、依存パスの連結には最長でｍ²に比例する
計算時間を要し、連結された依存パスのソートにやはり
ｍ×log ｍに比例する計算時間を要する。したがって、
上述した処理は、最長でｎ×ｍ²に比例する計算時間を
要することとなる。しかしながら、プログラム中の最適
化しようとする部分が多くの基本ブロックに分割されて
いる場合、依存パスの数ｍは小さな値となる。したがっ
て、実践的には大きな計算時間を要しないで実行が可能
である。

【００８０】次に、第２の手法による最短処理時間の計
算例を説明する。図３７は、図２、３のプログラムに対
して第２の手法により得られた最短処理時間の見積もり
を、図６のシリーズパラレルネスト木における各ノード
（スート）に対して、並列度１〜６の各場合で求めた結
果を示す図である。また、図３８は、基本ブロックのク
リティカルパス長を無視した場合における最短処理時間
の見積もりを、同様にして求めた結果を示す図である。
ここで、基本ブロックＤ、Ｅ、Ｆの内部における命令の
依存関係は、図２６に示したようになっている。

【００８１】したがって、第１の手段により得られた最
短処理時間の見積もりを示す図２４と、図３７とを比較
すると、基本ブロックＤ、Ｅ、Ｆの命令の依存関係が、
スート３における見積もりの結果に現れている。スート
３は、基本ブロックＦとスート４とで構成されたシリー
ズスートである。ここで、スート３における並列度６の
場合の最短処理時間は図３７によれば４であり、図２４
の場合における５よりも１だけ少なくなっている。そし
て、この値は、図３８における該当個所の最短処理時間
が４であることから、再計算されたクリティカルパス長
を下回らないことがわかる。したがって、この場合のス
ート３の最短処理時間は４と見積もられ、第１の手法の
場合と比べて最適化が進んでいる。

【００８２】

【発明の効果】以上説明したように、本発明によれば、
プログラムの所定の領域に対して高速かつ適切なハイパ
ーブロックの生成を行うことができるため、最適化処理
において、ある程度実行可能性が高い多くのパスにおけ
る実行効率を向上させることができる。

【図面の簡単な説明】

【図１】本発明の実施の形態におけるコンパイラの構
成を説明する図である。

【図２】処理対象であるプログラムの最適化処理を行
う領域の制御フローグラフと当該部分の命令列のリスト
を示す図である。

【図３】図２に示したプログラム領域において、nod
e.clを縦の長さとし、node.allを面積とする矩形領域で
基本ブロックを表した図である。

【図４】図３から作成されたＰＤＧを示す図である。

【図５】図４のＰＤＧから変換されたシリーズパラレ
ルグラフを示す図である。

【図６】図５のシリーズパラレルグラフから生成され
たシリーズパラレルネスト木を示す図である。

【図７】本実施の形態の動作説明に用いる記号を定義
した図表である。

【図８】ＰＤＧをシリーズパラレルグラフに変換する
アルゴリズムを示す擬似プログラムを示す図である。

【図９】シリーズパラレルグラフからシリーズパラレ
ルネスト木を生成するアルゴリズムを示す疑似プログラ
ムを示す図である。

【図１０】本実施の形態におけるハイパーブロック生
成部の全体動作を説明するフローチャートである。

【図１１】ハイパーブロック選択処理の全体的な動作
の流れを示すフローチャートである。

【図１２】図１１に対応する動作のアルゴリズムを示
す疑似プログラムを示す図である。

【図１３】パラレルスートに対する実行時間見積処理
の内容を説明するフローチャートである。

【図１４】実行時間評価処理の内容を説明するフロー
チャートである。

【図１５】図１４の実行時間評価処理の動作アルゴリ
ズムを示す疑似プログラムを示す図である。

【図１６】利得見積処理の内容を説明するフローチャ
ートである。

【図１７】図１６の利得見積処理の動作アルゴリズム
を示す疑似プログラムを示す図である。

【図１８】ノード選択処理の内容を説明するフローチ
ャートである。

【図１９】図１８のノード選択処理の動作アルゴリズ
ムを示す疑似プログラムを示す図である。

【図２０】シリーズスートに対する実行時間評価処理
の内容を説明するフローチャートである。

【図２１】図２０の実行時間評価処理の動作アルゴリ
ズムを示す疑似プログラムを示す図である。

【図２２】単一ノードに対する実行時間評価処理の内
容を説明するフローチャートである。

【図２３】図２２の実行時間評価処理の動作アルゴリ
ズムを示す疑似プログラムを示す図である。

【図２４】最短処理時間の見積もりを、図６のシリー
ズパラレルネスト木における各ノード（スート）に対し
て、並列度１〜６の各場合で求めた結果を示す図であ
る。

【図２５】最短処理時間の見積もりを、図６のシリー
ズパラレルネスト木における各ノード（スート）に対し
て、並列度１〜３の各場合で求めた結果を示す図であ
る。

【図２６】図３に示した基本ブロックＣ、Ｄ、Ｅ、Ｆ
の内部の命令における依存関係を説明する図である。

【図２７】依存ＤＡＧの全てのパスを、ノードへのポ
インタを張ることによって保持するイメージを表す図で
ある。

【図２８】第２の手法において、実行時間評価処理の
内容を説明するフローチャートである。

【図２９】図２８の実行時間評価処理の動作アルゴリ
ズムを示す疑似プログラムを示す図である。

【図３０】依存パス融合処理の内容を説明するフロー
チャートを示す図である。

【図３１】第２の手法において、シリーズスートに対
する実行時間評価処理の内容を説明するフローチャート
である。

【図３２】図３１の実行時間評価処理の動作アルゴリ
ズムを示す疑似プログラムである。

【図３３】クリティカルパス長再計算処理内容を説明
するフローチャートである。

【図３４】最短処理時間計算処理の内容を説明するフ
ローチャートである。

【図３５】第２の手法において、単一ノードに対する
実行時間評価処理の内容を説明するフローチャートであ
る。

【図３６】図３５の実行時間評価処理の動作アルゴリ
ズムを示す疑似プログラムである。

【図３７】第２の手法により得られた最短処理時間の
見積もりを、図６のシリーズパラレルネスト木における
各ノード（スート）に対して、並列度１〜６の各場合で
求めた結果を示す図である。

【図３８】基本ブロックのクリティカルパス長を無視
した場合における最短処理時間の見積もりを、同様にし
て求めた結果を示す図である。

【図３９】処理対象のプログラムの構成を基本ブロッ
クで表現した例を示す図である。

【図４０】パラレルスートの実行時間を構成要素のパ
ラメータ（ｄ、ｗ）で表現できることを説明する図であ
る。

【図４１】モデル化された基本ブロックによるパラレ
ルスートの例を示す図である。

【図４２】基本ブロック内部における隙間を説明する
図である。

【符号の説明】１０…フロントエンド最適化部、１１…バイトコード最
適化部、１２…四つ組中間コード最適化部、２０…命令
レベル並列化最適化部、２１…基本ブロック・コードス
ケジューラ、２２…ハイパーブロック生成部、２３…実
行時間見積部、２４…グローバル・コードスケジュー
ラ、３０…ネイティブコード生成部、３１…コード生成
部、３２…命令レベル・コードスケジューラ

───────────────────────────────────────────────────── フロントページの続き (72)発明者田端邦男神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者小松秀昭神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B013 DD04 5B033 CA22 5B081 CC24 CC32

Claims

【特許請求の範囲】

【請求項１】プログラミング言語で記述されたプログ
ラムのソースコードを機械語に変換し、プログラムの最
適化を行う最適化方法において、処理対象である前記プログラムに対し、基本ブロックを
単位として実行時間を見積もるステップと、前記基本ブロックの接続関係を入れ子構造で表すネスト
木を生成するステップと、前記ネスト木のノードが条件分岐を伴う場合に、前記基
本ブロックを単位として見積もられた実行時間に基づい
て、条件分岐のまま実行する場合と、当該プログラムの
条件分岐部分を並列実行する場合の、当該プログラムの
当該ノード部分における実行時間を見積もるステップ
と、前記見積もりにより、並列実行する方が実行時間が短い
場合は、当該ノード部分を一まとまりの並列実行領域と
し、条件分岐のまま実行する方が実行時間が短い場合
は、当該ノードの複数の子ノードを複数の並列実行領域
に分割するステップとを含むことを特徴とするプログラ
ムの最適化方法。
【請求項２】前記基本ブロックを単位として実行時間
を見積もるステップは、前記基本ブロックを単位として見積もられた実行時間に
基づいて、さらに、前記基本ブロック内のプログラム部
分におけるクリティカルパス長と、当該プログラム部分
の平均並列度とを取得するステップを含む請求項１に記
載のプログラムの最適化方法。
【請求項３】前記ネスト木を生成するステップは、前記基本ブロック間の依存関係を表す依存グラフを生成
するステップと、前記依存グラフから冗長な枝を取り除いた先行制約グラ
フを生成するステップと、前記先行制約グラフのノードの接続関係を入れ子構造で
表現することにより前記ネスト木を生成するステップと
を含む請求項１に記載のプログラムの最適化方法。
【請求項４】前記条件分岐部分の実行時間を判断する
ステップは、前記子ノードにおいて実行可能な並列度ごとに、当該子
ノードを並列実行した場合の実行時間の最大値を求める
ステップと、各並列度における前記実行時間の最大値のうち特定の値
を前記条件分岐部分を並列実行する場合における実行時
間と見積もるステップとを含む請求項１に記載のプログ
ラムの最適化方法。
【請求項５】前記条件分岐部分の実行時間を判断する
ステップは、実行時間の判断に先立って、前記子ノードを構成する前
記基本ブロックの命令レベルでの依存関係に基づいて、
前記基本ブロックの実行時間に関する情報を修正するス
テップを含む請求項１に記載のプログラムの最適化方
法。
【請求項６】前記プログラムの並列実行領域を決定す
るステップは、前記複数の子ノードを複数の並列実行領域に分割する場
合に、ハードウェアが持つ並列度で各子ノードを並列実
行した場合における当該各子ノードの実行時間を比較す
るステップと、前記実行時間が最も短い子ノードを残して、他の子ノー
ドを独立した並列実行領域とするステップとを含む請求
項１に記載のプログラムの最適化方法。
【請求項７】プログラミング言語で記述されたプログ
ラムのソースコードを機械語に変換し、プログラムの最
適化を行う最適化方法において、処理対象である前記プログラムの条件分岐部分を、プレ
ディケート付き命令が実行可能でかつ命令レベルの並列
実行が可能な計算機にて並列実行する場合の実行時間を
見積もるステップと、見積もられた前記実行時間が、前記条件分岐部分をその
まま実行した場合の実行時間よりも短い場合に、当該条
件分岐部分を前記プレディケート付き命令による並列実
行を行うように書き換えるステップとを含み、前記並列実行時の実行時間を見積もるステップは、前記プログラムに対し、基本ブロックを単位として実行
時間を見積もり、当該実行時間に基づいて、各基本ブロ
ック内のプログラム部分におけるクリティカルパス長
と、当該プログラム部分の平均並列度とを求めるステッ
プと、前記条件分岐による分岐先である基本ブロックを、前記
クリティカルパス長及び平均並列度の情報に基づいて、
実行可能な並列度ごとに、当該基本ブロックを並列実行
した場合の実行時間の最大値を求めるステップと、各並列度における前記実行時間の最大値のうちの特定の
値を前記条件分岐部分を並列実行する場合における実行
時間と見積もるステップとを含むことを特徴とするプロ
グラムの最適化方法。
【請求項８】前記基本ブロックのクリティカルパス長
及び平均並列度とを求めるステップは、前記基本ブロッ
クを、隣り合う２辺の一方の値を前記クリティカルパス
長とし、他方の値を前記平均並列度値とすると共に、ク
リティカルパス長に対応する辺が当該クリティカルパス
長を下回らない範囲で変形可能とした矩形で表現するス
テップを含む請求項７に記載のプログラムの最適化方
法。
【請求項９】前記条件分岐部分の実行時間を見積もる
ステップは、実行時間の判断に先立って、前記基本ブロ
ックの命令レベルでの依存関係に基づいて、前記基本ブ
ロックの実行時間に関する情報を修正するステップを含
む請求項７に記載のプログラムの最適化方法。
【請求項１０】プログラミング言語で記述されたプロ
グラムのソースコードを機械語に変換し、プログラムの
最適化を行うコンパイラにおいて、処理対象である前記プログラムに対し、基本ブロックを
単位として実行時間を見積もる第１のコードスケジュー
ラと、前記基本ブロックをまとめて並列実行領域であるハイパ
ーブロックを生成するハイパーブロック生成部と、前記プログラムにおける所定の領域を実行した場合の処
理時間を見積もることにより、前記ハイパーブロック生
成部による前記ハイパーブロックの生成を支援する実行
時間見積部と、生成された前記ハイパーブロックごとにコードスケジュ
ーリングを行う第２のコードスケジューラとを備え、前記実行時間見積部は、前記基本ブロックの接続関係を入れ子構造で表すネスト
木の所定のノードが条件分岐を伴う場合に、前記基本ブ
ロックを単位として見積もられた実行時間に基づいて、
条件分岐のまま実行する場合と、当該プログラムの条件
分岐部分を並列実行する場合の、当該プログラムの当該
ノード部分における実行時間を見積もり、前記ハイパーブロック生成部は、前記実行時間見積部の見積もりにより、並列実行する方
が実行時間が短いノードに関して、当該ノード部分を一
まとまりの並列実行領域とし、条件分岐のまま実行する
方が実行時間が短いノードに関して、当該ノードの複数
の子ノードを複数の並列実行領域に分割することを特徴
とするコンパイラ。
【請求項１１】前記第１のコードスケジューラは、基
本ブロックを単位として見積もられた実行時間に基づい
て、さらに、前記基本ブロック内のプログラム部分にお
けるクリティカルパス長と、当該プログラム部分の平均
並列度とを取得する、請求項１０に記載のコンパイラ。
【請求項１２】前記実行時間見積部は、前記子ノードにおいて実行可能な並列度ごとに、当該子
ノードを並列実行した場合の実行時間の最大値を求め、各並列度における前記実行時間の最大値のうちの特定の
値を前記条件分岐部分を並列実行する場合における実行
時間と見積もる、請求項１０に記載のコンパイラ。
【請求項１３】前記実行時間見積部は、実行時間の判
断に先立って、前記子ノードを構成する前記基本ブロッ
クの命令レベルでの依存関係に基づいて、前記基本ブロ
ックの実行時間に関する情報を修正する、請求項１０に
記載のコンパイラ。
【請求項１４】コンピュータに実行させるプログラム
を当該コンピュータの入力手段が読取可能に記憶した記
憶媒体において、処理対象であるプログラムに対し、基本ブロックを単位
として実行時間を見積もる処理と、前記基本ブロックの接続関係を入れ子構造で表すネスト
木を生成する処理と、前記ネスト木のノードが条件分岐を伴う場合に、前記基
本ブロックを単位として見積もられた実行時間に基づい
て、条件分岐のまま実行する場合と、当該プログラムの
条件分岐部分を並列実行する場合のどちらが前記プログ
ラムの当該ノード部分における実行時間が短くなるかを
判断する処理と、並列実行する方が実行時間が短いと判断した場合は、当
該ノード部分を一まとまりの並列実行領域とし、条件分
岐のまま実行する方が実行時間が短いと判断した場合
は、当該ノードの複数の子ノードを複数の並列実行領域
に分割する処理とを前記コンピュータに実行させること
を特徴とする記憶媒体。
【請求項１５】コンピュータに、処理対象であるプログラムに対し、基本ブロックを単位
として実行時間を見積もる処理と、前記基本ブロックの
接続関係を入れ子構造で表すネスト木を生成する処理
と、前記ネスト木のノードが条件分岐を伴う場合に、前
記基本ブロックを単位として見積もられた実行時間に基
づいて、条件分岐のまま実行する場合と、当該プログラ
ムの条件分岐部分を並列実行する場合のどちらが前記プ
ログラムの当該ノード部分における実行時間が短くなる
かを判断する処理と、並列実行する方が実行時間が短い
と判断した場合は、当該ノード部分を一まとまりの並列
実行領域とし、条件分岐のまま実行する方が実行時間が
短いと判断した場合は、当該ノードの複数の子ノードを
複数の並列実行領域に分割する処理とを実行させるプロ
グラムを記憶する記憶手段と、前記記憶手段から前記プログラムを読み出して当該プロ
グラムを送信する送信手段とを備えたことを特徴とする
プログラム伝送装置。