JPH10105412A

JPH10105412A - 主記憶の効率的アクセスを実現するオブジェクト生成方法

Info

Publication number: JPH10105412A
Application number: JP8258271A
Authority: JP
Inventors: Giichi Tanaka; 義一田中; Yuji Tsushima; 雄次對馬
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-09-30
Filing date: 1996-09-30
Publication date: 1998-04-24

Abstract

(57)【要約】【課題】プログラムにおいてループでアクセスするデ
ータ領域がキャッシュ容量を越えた場合に、ＤＲＡＭ、
ＳＤＲＡＭで作られた主記憶を効率的にアクセスするオ
ブジェクトを生成する。【解決手段】ループでアクセスするデータ領域がキャ
シュ容量を超え、ベクトル化できるデータ依存関係の場
合には、ベクトル命令と同様の処理を、ベクトルレジス
タを用いて複数のスカラ命令で実現するオブジェクト列
を生成する。【効果】ループ内の配列参照を平均的にアクセスする
方法に比べ、少数の配列を集中的にアクセスでき、同一
ＲＡＳアドレスで複数要素をアクセスする確率が高くな
り、データの効率的アクセスが実現される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、命令レベル並列処
理を行うプログラムでのオブジェクト生成方法に関わ
り、特にプログラムがアクセスするデータが大きく、キ
ャッシュに入りきらない場合のループに好適なオブジェ
クト生成方法に関する。

【０００２】

【従来の技術】スーパコンピュータの１つの方向とし
て、スカラプロセッサをノードプロセッサとする並列処
理方式が有望視されている。スカラプロセッサを用いた
並列スーパコンピュータが期待されるのは、半導体技術
の進歩によるクロック周波数の向上、複数の並列実行可
能な演算器を有効に生かすスーパスカラ方式等の命令レ
ベル並列処理の実現により、スカラプロセッサの処理性
能が飛躍的に向上していることがあげられる。

【０００３】しかしながら、その高いスカラプロセッサ
処理能力は、キャッシュメモリが有効に働くときのみ達
成される。大規模科学技術計算では、データ領域が大き
くデータの局所性が少ないという性質があるため、デー
タキャッシュが有効に働かないことが多い。その場合、
スカラプロセッサの性能は主記憶アクセスペナルティに
より大きく性能が低下する。中澤、中村、朴「超並列計
算機ＣＰ−ＰＡＣＳのアーキテクチャ」情報処理Ｖｏ
ｌ．３７，Ｎｏ．１，１９９６、ｐｐ．１８〜２８で
は、この主記憶アクセスペナルティを隠蔽を、主記憶の
多バンク化による主記憶アクセスのパイプライン化、多
数のレジスタ及び、レジスタへのプリロード機能により
実現した。

【０００４】

【発明が解決しようとする課題】上記の従来技術のみで
は、将来、スカラプロセッサのＣＰＵの性能が向上した
場合、演算に見合った主記憶バンド幅を確保できなくな
るという問題がある。例えば、周波数が１５０Ｍｈｚ，
１サイクルに発行できるロード命令は１、主記憶はＤＲ
ＡＭにより１６バンク構成である計算機を考える。ルー
プ内の配列を連続的にアクセスする場合、主記憶の素子
のサイクルタイムが１０６ｎｓ（１６／１５０）以下で
あれば、主記憶によるバンド幅が性能のネックにはなら
ないことになる。現状の素子のサイクル時間が１００ｎ
ｓであれば、ぎりぎりの主記憶バンド幅であるといえ
る。しかし、ＣＰＵ性能は年率５０％〜１００％の性能
向上が実現できているのに対し、ＤＲＡＭの性能向上は
１０％以下であることを考慮すると、従来のアプローチ
では限界があることがわかる。

【０００５】また、ＤＲＡＭの性能を改善する方式とし
てページモードというものがある。ＤＲＡＭをアクセス
するには、アドレスの上位半分を指定するＲＡＳアクセ
ス、次にアドレスの下位半分を指定されるＣＡＳアクセ
スの２段階からなる。ページモードでは、同一ＲＡＳア
ドレスに対する参照に対しては、ＲＡＳアドレスのアク
セスをしないで、ＣＡＳアドレスのアクセスだけとなる
高速化モードである。また最近、ＳＤＲＡＭという高速
素子があらわれてきた。これは、同一ＲＡＳアドレスの
データに対しては、１サイクルピッチでデータをアクセ
スできるように改良した素子である。これらの性質を利
用するためには、アドレスの接近したデータは、ＲＡＳ
アドレスが切り替わらないように近接した時間内に処理
することが必要である。

【０００６】ここで、従来のスカラプロセッサによるル
ープ処理で、ループ内にｎ個の配列の連続アクセス参照
がある場合を考える。１つの配列参照Ａ（Ｉ），Ｉ＝
１，２．．に着目したとき、１回の配列参照Ａ（１）の
のち、次のループ繰り返しでＡ（２）を参照する。Ａ
（１），Ａ（２）は同一ＲＡＳアドレスのため、効率的
にアクセスできるはずであるが、１回のループ処理の間
に他の配列に関するｎ−１個のデータアクセスが発生す
るため、ＲＡＳアドレスが切り替わる可能性が非常に高
い。つまり、従来のループ処理方式ではＤＲＡＭのペー
ジモードやＳＤＲＡＭの性質を生かすことができない問
題がある。

【０００７】本発明の目的は、ループでアクセスするデ
ータ領域がキャッシュ容量を超えた場合に、ＤＲＡＭ、
ＳＤＲＡＭで作られた主記憶を効率的にアクセスするオ
ブジェクト生成方法を提供することにある。

【０００８】

【課題を解決するための手段】上記の目的は、ループで
アクセスするデータ領域がキャシュ容量を超え、ベクト
ル化できるデータ依存関係の場合には、ベクトル命令と
同様の処理を、特願平８−２４９５９４号「ループ処理
の並列実行制御に適したレジスタ構成を有するプロセッ
サ」で発明されている多要素レジスタ（ベクトルレジス
タ）とその制御機構を用いて複数のスカラ命令で実現す
るコードを生成することによって達成される。

【０００９】何故なら、ベクトル処理では少数の配列を
集中的にアクセスするため、従来の方法に比べて、同一
ＲＡＳアドレスで複数要素をアクセスする確率が高くな
るためである。

【００１０】

【発明の実施の形態】以下、本発明のコンパイラにおけ
る実施例を図を参照しつつ説明する。

【００１１】まづ、本発明の説明の前に、本発明のコン
パイラが前提とする特願平８−２４９５９４号で示した
アーキテクチャの命令とレジスタの関係を図１１を参照
しつつ簡単に説明する。命令はオペコード１５０と、オ
ペランドフィールド１５１からなる。オペランドは、書
き込みオペランド１つと、２つの読み込みオペランドか
らなり、各オペランドはレジスタ種別フラグ１５２と論
理レジスタ番号１５３からなる。レジスタ種別フラグ１
５２が０の時は、通常のスカラレジスタを表し、レジス
タ種別フラグ１５２が１の時は、ベクトルレジスタとな
る。

【００１２】以下、ベクトルレジスタ指定時の動作を説
明する。論理レジスタ番号ごとに、対応するライトポイ
ンタ群１５４と、対応するリードポインタ群１５５を持
つ。命令で指定される論理レジスタ番号と、実際の大容
量物理レジスタファイル１７０であるベクトルレジスタ
とのマッピングは、書込側レジスタの場合は、指定され
た論理レジスタ番号１５７に対応するライトポインタに
よって指される要素１５８をさし、読み込み側レジスタ
の場合は、指定された論理レジスタ番号１６０に対応す
るリードポインタによって指される要素１６１を指す。
レジスタの読みだしのあとでは、リードポインタが、及
びレジスタの書き込みの後には、ライトポインタが１５
９、１６２により自動更新され、次にアクセスするとき
には、自動的にとなりの要素のレジスタをアクセスする
ベクトルレジスタ的構成となっている。

【００１３】なお、自動更新の際、レジスタファイルの
最後を示すポインタは、１６９で示すようにレジスタフ
ァイルの最初をさすようにラップアラウンドされる。ま
た、ポインタの初期値設定は、リード・ライトポインタ
の値は同一値とし、即値（またはレジスタ）代入命令で
行う。

【００１４】図１にコンパイラ全体の構造を示す。図１
のソースプログラム１が、構文解析２によって中間語に
変換され、これを入力として、データがキャッシュまた
は主記憶にあるかを判定し最適なプログラム変換を行う
最適化部３が、中間語４に変換する。そして、コード生
成部５が、対象マシン向けのオブジェクトコード６に変
換する。本発明は３及び５に係わり、オブジェクトコー
ド６の実行効率を向上させるものである。

【００１５】図１の最適化部３のうちデータの効率的ア
クセスのための最適化に関わる部分の構造を図２に示
す。図２に入力するソースプログラム１として、図５の
ＦＯＲＴＲＡＮプログラムを例としてあげ説明する。図
５の３０、３１はループを示し、これらは２重ループを
構成している。このようなプログラムに対して図２は以
下のような処理を行い、中間語４に変換する。

【００１６】図２の処理は、ソースプログラム中の最内
側ループを順次処理する。判定１０は当該ループにユー
ザがプログラムに記述した主記憶ターゲットディレクテ
ィブが存在するか判定する。主記憶ターゲットディレク
ティブとは、データがキャッシュに存在する確率が少な
いときに、以下のようにユーザがソースプログラム上の
ループの直前に指定するものである。この場合、後で述
べるような、当該ループのベクトル命令への変換処理１
５へ進む。

【００１７】＊ＯＰＴＩＯＮＭＥＭＴＡＲＧＥＴＤＯ３１Ｉ＝１，Ｌ図５のソースプログラムでは、ＤＯ３１にこのような指
定がないので、対象ループのアクセスデータ量算出処理
１１へ進む。処理１１は、図５のソースプログラムに対
して、内側ループから順にループ内でアクセスするデー
タ量を算出する。すなわち、まず、最内側のループ３１
では、配列Ａ３２、３３とＢ３４がループインデクスＩ
を添字としているため、ループ長のＬ個の要素を必要と
し、配列Ｃ３５は、ループで不変な添字であるのでただ
１つの要素のみをアクセスする。

【００１８】従って、全体では、２＊Ｌ＋１個の要素数
となり、倍精度データの場合、（２＊Ｌ＋１）＊８バイ
トになる。同様に、ループ３０では、新たに、ループイ
ンデクスＫが１からＭまで変化するため、配列Ａ３２、
３３はループ３１と同様であるが、配列Ｂ３４はＭ＊Ｌ
個、配列Ｃ３５はＭ個となる。従って、全体では、（Ｌ
＋Ｌ＊Ｍ＋Ｍ）＊８バイトのデータ量となる。

【００１９】判定１２では処理１１で求められた対象ル
ープのアクセスデータ容量をもとに、次の３つの処理に
分岐する。

【００２０】第１はアクセスデータ量がキャッシュ容量
より小さいことが判明した場合、キャッシュにデータが
存在するとの前提で通常のソフトウェアパイプライン処
理を行うため、中間語の変更はしない。

【００２１】第２はアクセスデータ量がキャッシュ容量
より大きいことが判明した場合、当該ループがベクトル
化可能否かの判定１３を行い、ベクトル化可能な場合は
当該ループをベクトル中間語への変換処理１５を行う。
ベクトル化できない場合は、通常のソフトウェアパイプ
ライン処理を行うため、中間語の変更はしない。ベクト
ル化否かの判定１３は、ベクトル処理的データ処理がデ
ータ依存関係から可能かどうかをチェックするもので、
公知である田中・岩沢「ベクトル計算機のためのコンパ
イル技術」情報処理，Ｖｏｌ．３１，Ｎｏ．６，ｐｐ．
７３６−７４３、１９９０などに詳しく書かれている。

【００２２】第３はアクセスデータ量とキャッシュ容量
の関係が不明な場合である。図５のプログラムの場合、
アクセスデータ量は、（Ｌ＋Ｌ＊Ｍ＋Ｍ）＊８バイトで
あるが、Ｌ，Ｍ等が変数であるため、コンパイル時には
その大きさが不明であるため、この場合に該当する。こ
の時、当該ループがベクトル化可能否かの判定１４を行
い、ベクトル化可能な場合は、１６に示すような中間語
を生成する。すなわち、ループ３１を、アクセスデータ
量がキャッシュ容量より小さい場合の条件３６が成立す
る場合は、キャッシュにデータが存在するとの前提で通
常のソフトウェアパイプライン処理を行うため、もとも
とのループの処理を実行し、アクセスデータ量がキャッ
シュ容量より大きい場合は、文３７〜文４２に示すよう
なベクトル中間語へ変換する。

【００２３】ここでＶＬＥＮＧ３７は、ベクトル処理を
行う処理長を設定するベクトル中間語、ＶＬＤＶＴＥ
ＭＰ１，Ｂ（１：Ｌ，Ｋ）３８はベクトルデータＢ
（Ｉ，Ｋ）Ｉ＝１，２，．．．，Ｌをベクトルレジスタ
ＶＴＥＭＰ１にロードするベクトル中間語、ＶＥＭＤ
ＶＴＥＭＰ２，ＶＴＥＭＰ１，Ｃ（Ｋ，Ｊ）３９はベク
トルレジスタＶＴＥＭＰ１とスカラデータＣ（Ｋ，Ｊ）
をベクトル乗算して、結果をベクトルレジスタＶＴＥＭ
Ｐ２に格納するベクトル中間語、ＶＬＤＶＴＥＭＰ
３，Ａ（１：Ｌ，Ｊ）４０はベクトルデータＡ（Ｉ，
Ｊ）Ｉ＝１，２，．．．，ＬをベクトルレジスタＶＴＥ
ＭＰ３にロードするベクトル中間語、ＶＥＡＤＶＴＥＭ
Ｐ４，ＶＴＥＭＰ２，ＶＴＥＭＰ３４１はベクトルレ
ジスタＶＴＥＭＰ２とベクトルレジスタＶＴＥＭＰ３を
ベクトル加算して、結果をベクトルレジスタＶＴＥＭＰ
４に格納するベクトル中間語、そしてＶＳＴＤＶＴＥ
ＭＰ４，Ａ（１：Ｌ，Ｊ）４２はベクトルレジスタＶＴ
ＥＭＰ４上のデータを、データ領域Ａ（Ｉ，Ｊ）Ｉ＝
１，２，．．．，Ｌに格納するベクトル中間語である。

【００２４】次に図１のコード生成部３のうち本発明に
関するベクトル処理的コード生成方法を図３、図４に示
す。図３に、図５のベクトル命令３７〜４２が入力され
た場合の動作を説明する。これらのベクトル命令は、ま
ず、命令並べ替え処理２０によってハードウェアに最適
な順序で実行できるように図６のベクトル命令３７〜４
２のように並べ替える（ベクトル命令３９、４０が交換
されている）。命令の並べ替えの方法は、公知の文献マ
イク・ジョンソン「スーパースカラプロセッサ」日経Ｂ
Ｐ出版センター１９９４，ｐｐ．１９０ー１９３に書か
れているリストスケジューリング法を適用すればよい。
なお、ここではメモリ演算ユニットが２個、浮動小数点
演算ユニットが２個、同時実行可能であると仮定してい
る。

【００２５】判定２１は、ループ長が変数か定数かを判
定する。中間語３７よりループ長がＬで変数のため、処
理２２に進む。処理２２はレジスタ構成の選択を行う。
仮にレジスタが５１２要素であった場合、２５６要素の
ベクトルレジスタ２個か、１２８要素のベクトルレジス
タ４組か、６４要素のベクトルレジスタ８組か、３２要
素のベクトルレジスタ１６組かなどを選択する。この
際、後で述べるようにレジスタの要素長をロードレイテ
ンシと同程度のものを選ぶことが重要である。この結
果、ロードレイテンシが５０の場合、ベクトル命令３８
〜４２に対しては、必要なレジスタ数が４であることか
ら、６４要素のベクトルレジスタ８組のレジスタ構成を
選択することになる。

【００２６】もし、判定２１により、ループ長が下記の
例のように定数の場合は、処理２４でレジスタ容量が許
す限りレジスタ長を選択する。下記の例では、必要なレ
ジスタが４であった場合、１２８要素のベクトルレジス
タ４組の構成を選択する。

【００２７】ＤＯ３１Ｉ＝１，１０００処理２３は選択したレジスタの要素長に基づくストリッ
プマイニング処理を行う。図６のベクトル中間語３７〜
４２に対しては、レジスタの要素長を６４としたことか
ら、図６の５０〜６８のようにベクトル処理長が６４以
下になるようにプログラムを変換する。これにより２つ
のベクトル中間語列が生成される。すなわち、ベクトル
長がレジスタ長のベクトル中間語列５２〜６０と、ベク
トル長が端数のベクトル命令列６１〜６８である。図６
のベクトル命令列の場合、前者のベクトル命令列はルー
プ長６４、後者のベクトル中間語列はループ長６４未満
である。もともとの、ループ長が変数であっても、前者
のループ長は定数であることに注意を要する。また、も
ともとのループ長が定数の場合、後者のループのベクト
ル長も定数になることも明らかである。

【００２８】図６のベクトル長がレジスタ長のベクトル
中間語列５５〜６０は、ベクトル長が定数なので、ベク
トル中間語に対応するベクトル命令のシミュレーション
によって実行状況を推定する。ベクトル中間語列５６〜
６０に対応するベクトル命令は、ハードウェアが与えら
れれば、実行状況をシミュレーションすることが可能で
あることは明らかである。ロードストア命令が同時実行
可能な演算器が２個、同時実行可能な浮動小数点演算器
が２個あるなら、その実行の様子は、図７のようにな
る。ここでロードレイテンシを５０、演算レイテンシを
３と仮定している。すなわち、ロード命令の結果を使う
命令は５０サイクル遅れて実行が開始でき、演算命令の
結果を使う命令は３サイクル遅れて実行を開始すること
ができる。

【００２９】処理２７では、同時に実行しているベクト
ル命令の組み合わせがかわる時間を求める。図７の例で
は、黒丸の点がその時間であり、区間ａ、ｂ，ｃ，ｄ，
ｅ，ｆの６つに分けられる。

【００３０】処理２８では、処理２７でもとめた変化点
をもとに、変化点の間の区間ごとにベクトル実行のスカ
ラ処理によるコードの実現のためのプログラム変換を行
う。図８に変換後のコードを示す。ＭＳＰＴＲ１３０〜
１３３は、各４つのベクトルレジスタＱ１，Ｑ２，Ｑ
３、Ｑ４の第０要素からの初期オフセットを示してお
り、各レジスタとも６４要素として使っていることを示
している。

【００３１】区間ａは２つのベクトルロード命令が同時
に実行する区間で、スカラ中間語ＬＤＵ１３６，１３７
を５０回実行する中間語を生成することで同一の処理を
実現できる。ループ処理はスカラ中間語１３４、１３
５、１３８でループが実現できる。ここで、スカラ中間
語１３４は、カウントレジスタＣＴＲに処理ループ回数
を設定するものである。スカラ中間語１３８は、ＣＴＲ
の内容が０以上であれば、ラベルｌａｂｅｌ１に分岐
し、ＣＴＲの内容を１減じるものである。スカラ中間語
ＬＤＵ１３６，１３７は通常のアドレス更新付ロード命
令に対応する中間語である。処理１３４〜１３８を実行
すると、レジスタを参照するとポインタが１つ進む機能
により、ベクトルレジスタの第０要素から第４９要素
に、Ｂ（Ｉ１、Ｋ），Ｂ（Ｉ１＋１、Ｋ），．，Ｂ（Ｉ
１＋４９，Ｋ）のデータが、ベクトルレジスタの第１２
８要素から第１７７要素に、Ａ（Ｉ１、Ｊ），Ａ（Ｉ１
＋１、Ｊ），．，Ａ（Ｉ１＋４９，Ｊ）のデータが格納
される。

【００３２】区間ｂは２つのベクトルロード命令と１つ
のベクトル乗算命令が実行する区間で、スカラ中間語Ｌ
ＤＵ１４１，１４２、スカラ中間語ＦＭＵＬ１４３を３
回実行する中間語を生成することで同一の処理を実現で
きる。ここで、ＦＭＵＬはスカラ乗算命令に対応する中
間語である。この結果、ベクトルレジスタの第５０要素
から第５２要素に、Ｂ（Ｉ１＋５０、Ｋ），Ｂ（Ｉ１＋
５１、Ｋ），Ｂ（Ｉ１＋５２，Ｋ）のデータが、ベクト
ルレジスタの第１７８要素から第１８０要素に、Ａ（Ｉ
１＋５０、Ｊ），Ａ（Ｉ１＋５１、Ｊ），Ａ（Ｉ１＋５
２，Ｊ）のデータが格納され、ベクトルレジスタの第６
４要素から第６６要素に、べクトルレジスタの第０要素
から第２要素の内容とＣ（Ｋ，Ｊ）を乗算した結果が格
納される。

【００３３】区間ｃは２つのベクトルロード命令、１つ
のベクトル乗算命令と１つのベクトル加算命令が実行す
る区間で、スカラ中間語ＬＤＵ１４７，１４８、スカラ
中間語ＦＭＵＬ１４９、スカラ中間語ＦＡＤＤ１５０を
１１回実行する中間語を生成することで同一の処理を実
現できる。ここで、ＦＡＤＤはスカラ加算命令に対応す
る中間語である。この結果、ベクトルレジスタの第５３
要素から第６３要素に、Ｂ（Ｉ１＋５３、Ｋ），Ｂ（Ｉ
１＋５４、Ｋ），．．，Ｂ（Ｉ１＋６３，Ｋ）のデータ
が、ベクトルレジスタの第１８１要素から第１９１要素
に、Ａ（Ｉ１＋５３、Ｊ），Ａ（Ｉ１＋５４、
Ｊ），．．，Ａ（Ｉ１＋６３，Ｊ）のデータが格納さ
れ、ベクトルレジスタの第６７要素から第７７要素に、
べクトルレジスタの第３要素から第１３要素の内容とＣ
（Ｋ，Ｊ）を乗算した結果が格納され、ベクトルレジス
タの第１９２要素から第２０２要素に、べクトルレジス
タの第０要素から第１０要素の内容とべクトルレジスタ
の第１２８要素から第１３８要素の内容を乗算した結果
が格納される。

【００３４】区間ｄは１つのベクトル乗算命令とベクト
ル加算命令とベクトルストア命令が実行する区間で、ス
カラ中間語ＦＭＵＬ１５４、スカラ中間語ＦＡＤＤ１５
５、スカラ中間語ＳＤＵ１５６を５０回実行する中間語
を生成することで同一の処理を実現できる。ここで、Ｓ
ＤＵは通常のアドレス更新付スカラストア命令に対応す
る中間語である。この結果、ベクトルレジスタの第７８
要素から第１２７要素に、べクトルレジスタの第１４要
素から第６３要素の内容とＣ（Ｋ，Ｊ）を乗算した結果
が格納され、ベクトルレジスタの第２０３要素から第２
５２要素に、べクトルレジスタの第１１要素から第６０
要素の内容とべクトルレジスタの第１３９要素から第１
８８要素の内容を乗算した結果が格納、ベクトルレジス
タの第１９２要素から第２４１要素の値が、データ域Ａ
（Ｉ１，Ｊ），Ａ（Ｉ１＋１，Ｊ），．．，Ａ（Ｉ１＋
４９，Ｊ）に書き込まれる。

【００３５】区間ｅは１つのベクトル加算命令とベクト
ルストア命令が実行する区間で、スカラ中間語ＦＡＤＤ
１６０、スカラ中間語ＳＤＵ１６１を３回実行する中間
語を生成することで同一の処理を実現できる。この結
果、ベクトルレジスタの第２５３要素から第２５５要素
に、べクトルレジスタの第６１要素から第６３要素の内
容とべクトルレジスタの第１８９要素から第１９１要素
の内容を乗算した結果が格納、ベクトルレジスタの第２
４２要素から第２４４要素の値が、データ域Ａ（Ｉ１＋
５０，Ｊ），Ａ（Ｉ１＋５１，Ｊ），Ａ（Ｉ＋５２，
Ｊ）に書き込まれる。

【００３６】区間ｆは１つベクトルストア命令が実行す
る区間で、スカラ中間語ＳＤＵ１６５を１１回実行する
中間語を生成することで同一の処理を実現できる。この
結果、ベクトルレジスタの第２４５要素から第２５５要
素の値が、データ域Ａ（Ｉ１＋５３，Ｊ），Ａ（Ｉ１＋
５４，Ｊ），．．，Ａ（Ｉ1＋６３，Ｊ）に書き込まれ
る。

【００３７】次に、図６のベクトル長が端数のベクトル
中間語列６４〜６８は、ベクトル長が変数なので、処理
２６の対応するベクトル命令のチェインスロットへの配
置を行ってベクトル命令の実行をシミュレーションす
る。チェインスロットとは、図９に示すように、並列実
行可能なベクトル命令を集めてグループ化したものであ
る。ロードストア命令が同時実行可能な演算器が２個、
同時実行可能な浮動小数点演算器が２個あるなら、４個
のスロット１１０〜１１３が時間軸方向に命令が埋まる
まで複数個、時間軸方向に並んでいる。対応するベクト
ル命令は２６に示した条件でチェインスロットに配置さ
れる。ベクトル中間語列６４〜６８の場合、図９のよう
に配置される。時間スロット１（１１４）は、並列実行
可能なロード命令のみしかないため、当該チェインスロ
ットの実行時間はＩ２−Ｉ１＋１サイクルであり、時間
スロット２（１１５）の実行時間は３つの命令がフロー
依存関係にあるため、演算レイテンシを３とした場合、
Ｉ２−Ｉ１＋１＋２＊３サイクルとなる。

【００３８】処理２７では、各時間スロット毎に、同時
に実行しているベクトル命令の組み合わせがかわる時間
を求める。図６のベクトル中間語列６４〜６８では、黒
丸の点がその時間であり、区間ａ、ｂ，ｃ，ｄ，ｅ，ｆ
の６つに分けられる。

【００３９】処理２８では、処理２７でもとめた変化点
をもとに、変化点の間の区間ごとにベクトル実行のスカ
ラ処理によるコード生成のためのプログラム変換を行
う。ベクトル中間語列５６〜６０での場合と同様にこの
変換を実施すると、その結果、図１０のスカラ中間語に
よるベクトル処理が実現できる。

【００４０】ここで、ベクトル長が変数の場合、ベクト
ル命令の並列実行状況をチェインスロットという概念で
推定する事の理由、及び、ベクトルロード命令とフロー
依存の関係にあるベクトル命令を別のチェインスロット
に配置する理由を述べる。ベクトル長が変数の場合、ベ
クトル中間語列６４〜６８に対する最適な並列実行状況
は、図９に推定するものとは異なっている。仮にループ
長が６４の場合で、ロードレイテンシが５０サイクル、
演算レイテンシが３の場合、以前に説明したように図７
のように実行するのが最適である。しかし、この場合
に、最適な実行状況を推定すると、並列実行状況の組み
合わせの数は、命令数、命令実行レイテンシ、命令出現
パターンとループ長とに依存して多項式的に多くなり実
質的にコード生成は不可能である。このため、ループ長
が大きいときに、主に重なっている命令をグループ化し
たチェインスロットという概念を用いて組み合わせの数
を減らす。

【００４１】すなわち、一般に演算レイテンシは小さ
く、主記憶レイテンシは大きいので、演算命令とその結
果を使用する命令は同一チェインスロットかそれ以後
に、ロード命令とそれを使用する演算命令は別チェイン
スロットに配置することで実現する。さらに、レジスタ
構成の選択の際に、主記憶レイテンシに近いものを選ぶ
事により、ロード命令とそれを使う演算命令の実行を最
適に近づけることができる。ループ長が大きく、何回か
のストリップマイニングを行うのであれば、最終回のス
トリップマイニング以外は理想的になる。

【００４２】なお、説明の簡単化のために、図１０のコ
ードは、正確にはループ長が６以下の場合には正しく動
くコードとなっていない。例えば、実際のループ長が１
の時には、ＶＥＭＤ５８，ＶＥＡＤ５９，ＶＳＴＤ６０
のベクトル命令は同時には実行されず、区間の数は３と
なる。なお、正しく動作するコードとするためには、区
間ｂ，ｃ，ｅ，ｆのコード部分にループ長による処理を
スキップする分岐をいれる必要がある。

【００４３】

【発明の効果】本発明のオブジェクト生成方法により、
ループでアクセスするデータ領域がキャシュ容量を超
え、ベクトル化できるデータ依存関係の場合には、ベク
トル命令と同様の処理を、ベクトルレジスタを用いて複
数のスカラ命令で実現するコードが生成できる。このオ
ブジェクト列を実行すると、従来のループ内の配列参照
を平均的にアクセスする方法に比べて、少数の配列を集
中的にアクセスするため、同一ＲＡＳアドレスで複数要
素をアクセスする確率が高くなり、データの効率的アク
セスが実現される。図１２にその効果の例を示す。この
図は、ＬＵ分解ソースプログラムのカーネルループに対
する生成コードの、実行効率を示している。丸印は、デ
ータがキャッシュにあるとして生成したコードによる性
能、黒丸印は、データが主記憶にあるとして、従来のソ
フトウェアパイプラインによるスケジューリングによる
性能、三角印がデータが主記憶にあるとしてベクトル処
理と同様の処理をスカラ命令で実現したコードによる性
能を示す。キャッシュターゲットのコードは配列が小さ
くキャッシュに存在する間は、高い実行性能を示す。主
記憶レイテンシを考慮してスケジューリングした従来コ
ードでは、ＳＤＲＡＭのＲＡＳミスが発生して全般に性
能が高くない。データが主記憶にあるとしてベクトル処
理と同様の処理をスカラ命令で実現したコードでは、Ｒ
ＡＳミスを少なくすることができるため、配列の大きな
領域で効率的な実行となる。

【００４４】従って、本発明で記述した、アクセスデー
タ領域がキャシュ容量以下の場合は、従来のキャッシュ
をターゲットとしたループスケジューリングコード、ア
クセスデータ領域がキャシュ容量を越えた場合は、ベク
トル処理的アクセスをスカラ命令で実現するコードを生
成することにより、図中の黒太線のように常に効率的な
実行性能が実現できる。

【図面の簡単な説明】

【図１】コンパイラ全体の構成図。

【図２】コンパイラにおけるデータの効率的アクセスに
関する最適化部。

【図３】コンパイラにおけるベクトル的処理コード生成
方法１。

【図４】コンパイラにおけるベクトル的処理コード生成
方法２。

【図５】ソースプログラムとそれに対するデータの効率
的アクセスに関する変換後の例。

【図６】ベクトル中間語に対してストリップマイニング
を適用した例。

【図７】ベクトル処理長が定数の場合のベクトル命令の
シミュレーションの結果の説明図。

【図８】ベクトル処理長が定数の場合のスカラ命令列に
よるベクトル処理実現のコード列例。

【図９】ベクトル処理長が変数の場合のベクトル命令の
シミュレーションの結果の説明図。

【図１０】ベクトル処理長が変数の場合のスカラ命令列
によるベクトル処理実現のコード列例。

【図１１】前提とするアーキテクチャの命令とレジスタ
構成の説明図。

【図１２】効果の説明図。

【符号の説明】

１ソースプログラム２構文解析部３最適化部４中間語５コード生成部６オブジェクトコード１５０オペコード１７０物理レジスタファイル。

Claims

【特許請求の範囲】

【請求項１】ソースプログラムをオブジェクトプログラ
ムにコンパイルする方法にて、前記ソースプログラムの
ループ部分に対して、該ループ部分のアクセスするデー
タ領域がキャッシュ容量を超え、かつベクトル化できる
データ依存関係の場合には、ベクトル処理と同一の演算
順序をスカラ命令で実現することを特徴とするオブジェ
クト生成方法。
【請求項２】ソースプログラムをオブジェクトプログラ
ムにコンパイルする方法にて、前記ソースプログラムの
ループ部分に対して、該ループ部分のアクセスするデー
タ領域がキャッシュ容量を超えるか判断できなく、かつ
該ループ部がベクトル化できるデータ依存関係の場合
に、該データアクセス領域の大きさを計算するコード
と、該データアクセス領域の大きさとキャッシュ容量と
比べ、キャッシュ容量より大きい時は、ベクトル処理と
同一の演算順序をスカラ命令で実現するコードと、キャ
ッシュ容量より小さい時は該ループが指定するのと同一
の演算順序のスカラ命令のコードを生成することを特徴
とするオブジェクト生成方法。
【請求項３】ソースプログラムを読み込み、構文解析を
して中間語に変換し、該中間語に最適化を施した後、コ
ードを生成するコンパイラにて、該最適化部で、該ソー
スプログラムのループ部分に対して、該ループ部分のア
クセスするデータ領域がキャッシュ容量を超え、かつベ
クトル化できるデータ依存関係の場合には、該ループ部
の中間語のベクトル化を行いベクトル中間語に変換し、
該コード生成部において、該ベクトル中間語の実行と同
一の演算順序でスカラ中間語に変換する事を特徴とする
オブジェクト生成方法。
【請求項４】ソースプログラムを読み込み、構文解析を
して中間語に変換し、該中間語に最適化を施した後、コ
ードを生成するコンパイラにて、該最適化部で、該ソー
スプログラムのループ部分に対して、該ループ部分のア
クセスするデータ領域がキャッシュ容量を超えるか判断
できなく、かつ該ループ部がベクトル化できるデータ依
存関係の場合に、該データアクセス領域の大きさを計算
する中間語と、該データ領域の大きさとキャッシュ容量
と比べる中間語と、キャッシュ容量より大きい時は、該
ループ部の中間語のベクトル化を行ったベクトル中間語
を生成し、キャッシュ容量より小さい時は該ループ部の
中間語を実行する中間語の変換を行い、該コード生成部
において、該ベクトル中間語の実行と同一の演算順序で
スカラ中間語に変換する事を特徴とするオブジェクト生
成方法。
【請求項５】請求項３のオブジェクト生成方法にて、該
ベクトル中間語の該スカラ中間語への変換の際に、該ベ
クトル中間語列に対応するベクトル命令列の実行状況の
シミュレーションを行い、並列実行中のベクトル命令列
の組み合わせが変化しない区間を検出し、該同時実行ベ
クトル命令に対応する複数のスカラ中間語を、該区間の
サイクル数だけループ処理で繰り返し実行する中間語に
変換する事を特徴とするオブジェクト生成方法。
【請求項６】請求項４のオブジェクト生成方法にて、該
ベクトル中間語の該スカラ中間語への変換の際に、該ベ
クトル中間語列に対応するベクトル命令列の実行状況の
シミュレーションを行い、並列実行中のベクトル命令列
の組み合わせが変化しない区間を検出し、該同時実行ベ
クトル命令に対応する複数のスカラ中間語を、該区間の
サイクル数だけループ処理で繰り返し実行する中間語に
変換する事を特徴とするオブジェクト生成方法。
【請求項７】請求項５のオブジェクト生成方法にて、該
ベクトル中間語列に対応するベクトル命令列の実行状況
のシミュレーションの際、ベクトル処理数が変数の場
合、該ベクトル中間語列に対応するベクトル命令列の中
で、ベクトルロード命令と、該ベクトルロード命令のベ
クトルレジスタに格納した結果を使用するベクトル命令
を、同時実行させないようにスケジューリングする事を
特徴とするオブジェクト生成方法。
【請求項８】請求項６のオブジェクト生成方法にて、該
ベクトル中間語列に対応するベクトル命令列の実行状況
のシミュレーションの際、ベクトル処理数が変数の場
合、該ベクトル中間語列に対応するベクトル命令列の中
で、ベクトルロード命令と、該ベクトルロード命令のベ
クトルレジスタに格納した結果を使用するベクトル命令
を、同時実行させないようにスケジューリングする事を
特徴とするオブジェクト生成方法。
【請求項９】請求項３のオブジェクト生成方法にて、該
ベクトル中間語を該スカラ中間語に変換する際に、ベク
トル処理長が変数の場合は、ベクトルレジスタの構成で
あるレジスタ数とレジスタ長の選択において、レジスタ
長をロードベクトル命令のレイテンシに近い大きさに設
定することを特徴とするオブジェクト生成方法。
【請求項１０】請求項３のオブジェクト生成方法にて、
該ベクトル中間語を該スカラ中間語に変換する際に、ベ
クトル処理長が変数の場合は、ベクトルレジスタの構成
であるレジスタ数とレジスタ長の選択において、レジス
タ長をロードベクトル命令のレイテンシに近い大きさに
設定することを特徴とするオブジェクト生成方法。