JP2022140995A

JP2022140995A - 情報処理装置、コンパイルプログラムおよびコンパイル方法

Info

Publication number: JP2022140995A
Application number: JP2021041104A
Authority: JP
Inventors: 智子新幸; Tomoko Shinko
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-09-29
Also published as: US20220291908A1; US11579853B2

Abstract

【課題】処理性能を向上する。【解決手段】記憶部１１は、処理対象のコードであるソースコード２０や中間コード２０ａを記憶する。処理部１２は、当該コードに含まれる複数のループそれぞれに対して、当該ループで使用される変数の数、レジスタの数、レジスタと主記憶装置との間で変数の値の入出力を行うメモリ命令の数およびレジスタに格納された変数の値に対する演算命令の数を含むループ情報２１を取得する。処理部１２は、ループ情報２１に基づいて、ループ融合の候補であるループの組合せに対応する変数の数、レジスタの数、メモリ命令の数および演算命令の数を、ループの各組合せに対して算出する。処理部１２は、各組合せに対して算出した変数の数、レジスタの数、および、メモリ命令の数と演算命令の数との比較に基づいて、複数の組合せのうち、ループ融合を適用する組合せを決定する。処理部１２は、決定した組合せに対してループ融合を実行する。【選択図】図１

Description

本発明は情報処理装置、コンパイルプログラムおよびコンパイル方法に関する。

ソフトウェア開発においては、高水準言語で記述されたソースコードを機械語などの低水準言語で記述されたオブジェクトコードに変換するコンパイラを使用することが多い。コンパイラは、ソースコードをオブジェクトコードに変換する過程で、オブジェクトコードの実行効率が向上するように各種の最適化を行うことがある。最適化では、ループ融合、ループ展開およびループ分割などのループ最適化が行われることがある。例えば、ループ融合では、コード中に存在するループの構造を解析して複数のループを融合し、データの局所性、ループの判定回数の削減を図ることで、実行効率が向上され得る。

ここで、例えばコンパイラがループを構成する命令語集合から使用するレジスタの数を見積もることで、ループの展開数をレジスタのスピルを起こさない範囲に制限するループ最適化方法の提案がある。

また、複数のループ最適化を個々に実施するのではなく、プログラム／ハードウェアの特性をオプティマイズレベルに応じて解析し、当該解析に応じて、ループ最適化の組合せで実施するコンパイラ装置の提案もある。

更に、各ループ処理内で実行される演算数とデータ転送数の比率を算出し、当該比率がシステムの性能条件によって特定される基準値を満たすか否かによって、ループ融合の可否を判定するコンパイルプログラムの提案もある。

特開平７－１２１３８１号公報特開平８－１０１７７６号公報特開２０１４－２２８８９１号公報

融合するループの組合せが不適切であると、オブジェクトコードの実行効率の向上を十分に図れない。例えば、融合後のループの処理において、変数の値を格納するレジスタが足りなくなったり、複数の命令に対する複数の演算器の割り当てが非効率になることで演算器を十分に使い切れなくなったりして、オブジェクトコード実行時の処理性能が悪くなることがある。

１つの側面では、本発明は、処理性能を向上する情報処理装置、コンパイルプログラムおよびコンパイル方法を提供することを目的とする。

１つの態様では、コンパイルを行う情報処理装置が提供される。この情報処理装置は、記憶部および処理部を有する。記憶部は、処理対象のコードを記憶する。処理部は、コードに含まれる複数のループそれぞれに対して、当該ループで使用される変数の数、レジスタの数、レジスタと主記憶装置との間で変数の値の入出力を行うメモリ命令の数およびレジスタに格納された変数の値に対する演算命令の数を含むループ情報を取得し、ループ情報に基づいて、ループ融合の候補であるループの組合せに対応する変数の数、レジスタの数、メモリ命令の数および演算命令の数を、ループの複数の組合せそれぞれに対して算出し、複数の組合せそれぞれに対して算出した変数の数、レジスタの数、および、メモリ命令の数と演算命令の数との比較に基づいて、複数の組合せのうち、ループ融合を適用する組合せを決定し、決定した組合せに対してループ融合を実行する。

また、１つの態様では、コンパイルプログラムが提供される。
また、１つの態様では、コンパイル方法が提供される。

１つの側面では、処理性能を向上できる。

第１の実施の形態の情報処理装置を説明する図である。第２の実施の形態の情報処理装置のハードウェア例を示す図である。ＣＰＵのハードウェア例を示す図である。情報処理装置の機能例を示す図である。ループ融合の第１の例を示す図である。ループ融合の第２の例を示す図である。リダクションループを観点にしたループ融合判定の例を示す図である。タイトリを観点にしたループ融合判定の例を示す図である。タイトリを観点にしたループ融合判定の他の例を示す図である。データ依存を観点にしたループ融合判定の例を示す図である。データ依存を観点にしたループ融合判定の他の例を示す図である。ループ融合の判定対象のコードの例を示す図である。ループ融合可能リストの例を示す図である。ループ情報の例を示す図である。ループ情報の例（続き）を示す図である。ループ情報の例（続き）を示す図である。ループ融合候補情報の例を示す図である。ループ融合候補情報（続き）の例を示す図である。コンパイルの全体処理の例を示すフローチャートである。ループ融合可能リスト生成の例を示すフローチャートである。ループ情報生成の例を示すフローチャートである。ループ融合候補情報生成の例を示すフローチャートである。ループ融合候補の項目値算出の例を示すフローチャートである。融合対象決定の例を示すフローチャートである。ループ融合対象の決定結果の例を示す図である。ループ融合の判定対象のコードの他の例を示す図である。ループ融合後のコードの例を示す図である。命令スケジューリングの例を示す図である。命令スケジューリングの比較例を示す図である。命令スケジューリングの比較例（続き）を示す図である。

以下、本実施の形態について図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明する図である。
情報処理装置１０は、ソースコード２０をオブジェクトコード３０に変換するコンパイラの機能を有する。情報処理装置１０は、記憶部１１および処理部１２を有する。

記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性記憶装置でもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性記憶装置でもよい。処理部１２は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを含み得る。処理部１２はプログラムを実行するプロセッサでもよい。「プロセッサ」には、複数のプロセッサの集合（マルチプロセッサ）も含まれ得る。

記憶部１１は、処理部１２のコンパイルの処理に用いられる情報を記憶する。例えば、記憶部１１は、コンパイルの対象であるソースコード２０を記憶する。例えば、ソースコード２０は、ループ＃１，＃２，＃３，＃４の処理の記述を含む。

処理部１２は、ソースコード２０に基づいて、中間語で記述されたコードである中間コード２０ａを生成し、記憶部１１に格納する。中間コードは、コンパイラ内部で利用されるコードである。中間コード２０ａには、ループ＃１～＃４に対応する記述が含まれる。

処理部１２は、中間コード２０ａに基づいて各ループに対し、当該ループで使用される変数の数、レジスタの数、メモリ命令の数および演算命令の数を含むループ情報２１を取得する。ループ情報２１は、記憶部１１に格納される。

メモリ命令とは、中間コード２０ａに記述されている、レジスタと主記憶装置との間で変数の値の入出力を行う命令である。メモリ命令には、主記憶装置からレジスタに変数の値を格納するＬＯＡＤ命令や、レジスタから主記憶装置に変数の値を格納するＳＴＯＲＥ命令がある。また、演算命令とは、中間コード２０ａに記述されている、レジスタに格納された変数の値に対する四則演算を行う命令である。演算命令には、ＡＤＤ命令、ＳＵＢ命令、ＭＵＬＴ命令、ＤＩＶ命令がある。

例えば、変数の数は、ループの制御変数以外の変数の数でもよい。また、レジスタの数は、整数レジスタおよび浮動小数レジスタのように、レジスタの種類ごとに取得されてもよい。例えば、ループ情報２１には、ループ＃１～＃４のそれぞれに対して取得された、変数の数、レジスタ数、メモリ命令数および演算命令数が登録される。

処理部１２は、ループ情報２１に基づいて、ループ融合の候補であるループの組合せに対応する変数の数、レジスタの数、メモリ命令の数および演算命令の数を、ループの複数の組合せそれぞれに対して算出する。処理部１２は、算出結果を、ループ融合候補情報２２に記録する。ループ融合候補情報２２は、ループ融合の候補であるループの組合せごとに算出された変数の数、レジスタの数、メモリ命令の数および演算命令の数が記録される。ループ融合候補情報２２は、記憶部１１に格納される。

ここで、処理部１２は、ループ融合の候補となるループの組合せを、リダクションやタイトリなどの各ループの構造やループに含まれる変数間の依存関係によって抽出する。ループ融合の候補となるループの組合せには、ループの制御変数の取り得る値が互いに同じであるループの組合せだけでなく、ループの制御変数の取り得る値が互いに異なるループの組合せが含まれてもよい。

例えば、ループ＃１～＃４に対して、ループ融合の候補の組合せは、（＃１，＃２）の組合せ、（＃２，＃３）の組合せ、（＃３，＃４）の組合せの３つであるとする。処理部１２は、ループ情報２１に基づいて、該当の組合せに属するループの変数の数、レジスタの数、メモリ命令の数および演算命令の数の各々の和を求めることで、該当の組合せに対応する変数の数、レジスタの数、メモリ命令の数および演算命令の数を得る。

例えば、ループ情報２１によれば、ループ＃１の変数の数はａ１であり、ループ＃２の変数の数はａ２である。したがって、ループ＃１，＃２の組合せに対する変数の数Ａ１は、Ａ１＝ａ１＋ａ２である。また、例えば、ループ情報２１によれば、ループ＃１のメモリ命令数はｃ１であり、ループ＃２のメモリ命令数はｃ２である。したがって、ループ＃１，＃２の組合せに対するメモリ命令数Ｃ１は、Ｃ１＝ｃ１＋ｃ２である。

処理部１２は、ループの複数の組合せそれぞれに対して算出した変数の数、レジスタの数、および、メモリ命令の数と演算命令の数との比較に基づいて、複数の組合せのうち、ループ融合を適用する組合せを決定する。

例えば、処理部１２は、融合候補のループの各組合せのうち、変数の数が多い組合せを優先する。また、処理部１２は、融合候補のループの各組合せのうち、当該組合せに対応するレジスタ数が、オブジェクトコード３０を実行予定である情報処理装置が備えるレジスタ数以下である組合せを、ループ融合を適用する組合せとする。なお、オブジェクトコード３０を実行予定である情報処理装置は、情報処理装置１０でもよい。

更に、処理部１２は、メモリ命令の数に比べて演算命令の数が少ない組合せを、ループ融合を適用する組合せとする。例えば、処理部１２は、メモリ命令の数から所定値を引いた値が演算命令の数以上である組合せを、ループ融合を適用する組合せとする。当該所定値は、オブジェクトコード３０を実行予定である情報処理装置が備える、演算命令を実行する複数の演算器により同時実行可能なメモリ命令の数に応じて決定されてもよい。

処理部１２は、決定したループの組合せに対してループ融合を実行する。例えば、処理部１２は、ループ融合候補情報２２に基づいて、融合候補のループの組合せ（＃１，＃２）、（＃２，＃３）、（＃３，＃４）のうち、（＃２，＃３）にループ融合を適用すると決定する。この場合、処理部１２は、融合候補のループの組合せ（＃２，＃３）に対してループ融合を実行し、ループ融合実行後の中間コード２０ｂを生成する。中間コード２０ｂは、記憶部１１に格納される。

処理部１２は、中間コード２０ｂに基づいて、オブジェクトコード３０を生成する。例えば、処理部１２は、中間コード２０ｂからアセンブリ言語を生成し、アセンブリ言語からオブジェクトコード３０を生成し、オブジェクトコード３０を記憶部１１に格納する。

情報処理装置１０によれば、処理対象のコードに含まれる複数のループそれぞれに対して、当該ループで使用される変数の数、レジスタの数、メモリ命令の数および演算命令の数を含むループ情報２１が取得される。ループ情報２１に基づいて、ループ融合の候補であるループの組合せに対応する変数の数、レジスタの数、メモリ命令の数および演算命令の数が、ループの複数の組合せそれぞれに対して算出される。複数の組合せそれぞれに対して算出された変数の数、レジスタの数、および、メモリ命令の数と演算命令の数との比較に基づいて、複数の組合せのうち、ループ融合を適用する組合せが決定される。決定された組合せに対してループ融合が実行される。

これにより、処理性能を向上できる。
ここで、コンパイル時のループ融合による最適化において、融合するループの組合せが不適切であると、オブジェクトコードの実行効率の向上を十分に図れない。例えば、融合後のループの処理において、変数の値を格納するレジスタが足りなくなったり、複数の命令に対する複数の演算器の割り当てが非効率になることで演算器を十分に使い切れなくなったりして、オブジェクトコード実行時の処理性能が悪くなることがある。

そこで、情報処理装置１０では、融合候補のループの組合せに対する変数の数、レジスタの数、メモリ命令の数および演算命令の数を用いてループ融合を行うループの組合せを決定することで、レジスタ不足によるスピルの抑止や演算器の効率利用を図れる。例えば、前述のように、情報処理装置１０は、ループの組合せに対応するレジスタの数が装置に搭載される物理的なレジスタの数以下で、かつ、演算命令の数がメモリ命令の数に基づく基準値以下である組合せのうち、変数の数が多いものを優先的にループ融合する。これにより、物理的なレジスタの数を超過せず、かつ、演算命令とメモリ命令とがバランスよく含まれるループの組合せであって、変数の数が多く演算器を埋められる可能性の高いループの組合せを融合対象に選択できる。

その結果、オブジェクトコード３０における融合したループの実行時の各サイクルにおいて、複数の演算器の空きが少なくなるように複数の命令を効率的に演算器に割り当てることが可能となり、処理性能を向上できる。例えば、融合したループの処理速度を向上できる。また、レジスタの効率的な利用を図ることもできる。

以下では、情報処理装置１０におけるコンパイラの機能を更に具体的に説明する。
［第２の実施の形態］
次に、第２の実施の形態を説明する。

図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。
情報処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ（Graphics Processing Unit）１０４、入力インタフェース１０５、媒体リーダ１０６およびＮＩＣ（Network Interface Card）１０７を有する。なお、ＣＰＵ１０１は、第１の実施の形態の処理部１２の一例である。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１の一例である。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。なお、ＣＰＵ１０１は複数のプロセッサコアを含んでもよい。また、情報処理装置１００は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。ＲＡＭ１０２は、情報処理装置１００の主記憶装置として使用される。主記憶装置をメインメモリまたは単にメモリと呼ぶことがある。なお、情報処理装置１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

ＧＰＵ１０４は、ＣＰＵ１０１からの命令に従って、情報処理装置１００に接続されたディスプレイ５１に画像を出力する。ディスプレイ５１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなど、任意の種類のディスプレイを用いることができる。

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス５２から入力信号を取得し、ＣＰＵ１０１に出力する。入力デバイス５２としては、マウス・タッチパネル・タッチパッド・トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、情報処理装置１００に、複数の種類の入力デバイスが接続されていてもよい。

媒体リーダ１０６は、記録媒体５３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体５３として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

媒体リーダ１０６は、例えば、記録媒体５３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体５３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体５３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

ＮＩＣ１０７は、ネットワーク５０に接続され、ネットワーク５０を介して他のコンピュータと通信を行うインタフェースである。ＮＩＣ１０７は、例えば、スイッチやルータなどの通信装置とケーブルで接続される。

図３は、ＣＰＵのハードウェア例を示す図である。
ＣＰＵ１０１は、演算器群１０１ａおよびレジスタ群１０１ｂを有する。演算器群１０１ａは、ＣＰＵ１０１が備える演算器のグループである。レジスタ群１０１ｂは、ＣＰＵ１０１が備える汎用レジスタのグループである。以下では、汎用レジスタを単にレジスタと呼ぶ。レジスタには、整数値が格納される整数レジスタや浮動小数値が格納される浮動小数レジスタがある。レジスタ群１０１ｂは、複数の整数レジスタおよび複数の浮動小数レジスタを含む。

演算器は、レジスタに格納された値に対する数値演算を行う演算実行回路であり、ＡＬＵ（Arithmetic and Logic Unit）とも呼ばれる。一例では、ＣＰＵ１０１は、４つの演算器を有する。各演算器は、レジスタのデータに対して演算を行い、演算結果をレジスタに書き込む。

図４は、情報処理装置の機能例を示す図である。
情報処理装置１００は、記憶部１１０、中間言語記憶部１２０、制御情報記憶部１３０、コンパイラ１４０およびリンカ１５０を有する。記憶部１１０、中間言語記憶部１２０および制御情報記憶部１３０には、ＲＡＭ１０２やＨＤＤ１０３の記憶領域が用いられる。コンパイラ１４０およびリンカ１５０は、ＲＡＭ１０２に記憶されたプログラムをＣＰＵ１０１が実行することで実現される。

記憶部１１０は、コンパイラ１４０およびリンカ１５０の処理に用いられる情報を記憶する。例えば、記憶部１１０は、ソースプログラム１１１、オブジェクトファイル１１２および実行ファイル１１３を記憶する。

ソースプログラム１１１は、高水準言語で記述されたソースコードを含むファイルである。オブジェクトファイル１１２は、ソースプログラム１１１がコンパイラ１４０によりコンパイルされることで生成されたオブジェクトコードを含むファイルである。オブジェクトコードは、前述のように、機械語などの低水準言語で記述される。実行ファイル１１３は、オブジェクトファイル１１２とライブラリファイルとがリンカ１５０により結合されて生成されたファイルである。

中間言語記憶部１２０は、コンパイラ１４０により生成された中間言語を記憶する。
制御情報記憶部１３０は、コンパイラ１４０の最適化処理に用いられる制御情報を記憶する。

コンパイラ１４０は、ソースプログラム１１１のコンパイルを行い、コンパイル結果としてオブジェクトファイル１１２を出力する。コンパイラ１４０は、ソースプログラム入力部１４１、入出力制御部１４２、中間言語生成部１４３、最適化部１４４、コード生成部１４５およびオブジェクトファイル出力部１４６を有する。

ソースプログラム入力部１４１は、指定されたソースプログラム１１１をオープンする。例えば、ソースプログラム入力部１４１は、コンパイル開始が指示されると、記憶部１１０に記憶されるソースプログラム１１１を読み込んで入出力制御部１４２に出力する。

入出力制御部１４２は、オプションやファイルの種別に応じて各種処理の選択を実行する。例えば、入出力制御部１４２は、ソースプログラム入力部１４１からソースプログラム１１１が入力された場合には、ソースプログラム１１１を中間言語生成部１４３に出力する。また、入出力制御部１４２は、コード生成部１４５からアセンブリ言語が入力された場合に、当該アセンブリ言語をオブジェクトファイル出力部１４６に出力する。

中間言語生成部１４３は、入出力制御部１４２から入力されたソースプログラム１１１から中間言語を生成して、中間言語記憶部１２０に格納する。具体的には、中間言語生成部１４３は、ソースプログラム１１１を最適化部１４４で利用される中間コード、すなわち、コンパイラ内部で利用するコードに変換する。そして、中間言語生成部１４３は、変換した中間言語を中間言語記憶部１２０に格納する。

最適化部１４４は、ソースプログラム１１１に対応するオブジェクトコードの実行を高速化するために、ソース解析やループ融合を含む最適化を行う。
ソース解析では、最適化部１４４は、中間言語を解析する。例えば、最適化部１４４は、中間言語記憶部１２０から中間言語を読み込み、行再構築、字句解析、構文解析、意味解析などを実行する。

最適化部１４４は、ソース解析の結果から、ソースプログラム１１１またはソースプログラム１１１から生成された中間言語に存在する複数のループそれぞれのループ条件に基づいて、融合候補のループの組合せを決定する。例えば、最適化部１４４は、リダクションやタイトリといったループの構造やループ内のデータ依存に基づいて、融合候補のループの組合せを決定する。最適化部１４４は、ループの初期値、終値、増分値が同じであるか否かに関わらず、融合候補のループの組合せを決定することができる。

最適化部１４４は、ループ融合による最適化の際に、融合候補のループの組合せごとに、当該組合せに属する各ループの変数の数の和、整数レジスタの数の和、浮動小数レジスタの数の和、メモリ命令の数の和および演算命令の数の和を算出する。最適化部１４４は、制御情報記憶部１３０に算出結果を格納する。最適化部１４４は、融合候補のループの組合せごとに算出した変数の数、整数レジスタの数、浮動小数レジスタの数、および、メモリ命令の数と演算命令の数との比較に基づいて、融合候補のループの組合せのうち、ループ融合を適用する組合せを決定する。最適化部１４４は、決定したループの組合せに対してループ融合を実行し、ループ融合後の中間言語をコード生成部１４５に出力する。

コード生成部１４５は、最適化部１４４によって最適化された中間言語からアセンブリ言語を生成する。コード生成部１４５は、生成したアセンブリ言語を入出力制御部１４２に出力する。

オブジェクトファイル出力部１４６は、入出力制御部１４２からアセンブリ言語が入力されると、当該アセンブリ言語からオブジェクトファイル１１２を生成して、記憶部１１０に格納する。

リンカ１５０は、オブジェクトファイル出力部１４６よって生成されたオブジェクトファイル１１２を記憶部１１０から読み込み、オブジェクトファイル１１２とライブラリファイルとを結合して実行ファイル１１３を生成する。そして、リンカ１５０は、生成した実行ファイル１１３を記憶部１１０に格納する。

次に、最適化部１４４によるループ融合の例を説明する。
図５は、ループ融合の第１の例を示す図である。
例えば、最適化部１４４は、コード６１におけるループａ１とループｂ１とが融合可能と判定された場合、ループａ１における演算式の次にループｂ１の演算式を挿入することで、コード６１をコード６２に変換し、１つのループとして処理させる。このようにすることで、ループの判定の繰り返し処理にかかるコストを削減して実行性能を高速化させることができる。なお、ループａ１，ｂ１は、両方ともループの制御変数ｉの初期値が「１」、終値が「１０」、増分値が「１」で同一である。ここで、増分値「１」の場合、コード中では記述が省略される。

図６は、ループ融合の第２の例を示す図である。
例えば、最適化部１４４は、コード６３におけるループａ２とループｂ２とを融合可能と判定することもできる。ここで、ループａ２は、ループの制御変数ｉの初期値が「１」、終値が「１０」、増分値が「２」である。一方、ループｂ２は、ループの制御変数ｊの初期値が「３」、終値が「３０」、増分値が「１」である。すなわち、ループａ２，ｂ２では、ループの制御変数の取り得る値が異なる。

この場合、最適化部１４４は、例えば、マスク変数「ｍａｓｋ１（ｉ）」やマスク変数「ｍａｓｋ２（ｉ）」を用いてループａ２とループｂ２とを融合することで、コード６３をコード６４に変換する。マスク変数は、融合後のループにおける分岐命令に使用される。ただし、融合後のループ内にマスク変数を用いたｉｆ文が分岐命令として挿入され、効率の良いループ融合とならないこともある。

次に、最適化部１４４によるループ融合判定の例を示す図である。
図７は、リダクションループを観点にしたループ融合判定の例を示す図である。
リダクションまたはリダクション演算とは、ループの反復における累積である。リダクションループとは、リダクションを含むループである。図７の例では、変数ａにリダクションの結果が代入される。

図７（Ａ）はループ融合可能なループ１ａ，２ａを含むコード７１を例示する。コード７１では、ループ１ａにリダクションはあるが、ループ１ａにおけるリダクションの結果が格納されるａは、ループ２ａで参照されていない。したがって、最適化部１４４は、ループ１ａとループ２ａとを融合可能であると判定する。

図７（Ｂ）はループ融合不可能なループ１ｂ，２ｂを含むコード７２を例示する。コード７２では、ループ１ｂにリダクションがある。ループ１ｂにおけるリダクションの結果が格納されるａは、ループ２ｂで参照されている。したがって、最適化部１４４は、ループ１ｂとループ２ｂとを融合不可能であると判定する。

図８は、タイトリを観点にしたループ融合判定の例を示す図である。
タイトリとは、多重ループにおいて、最内ループにのみ演算を所有するループである。途中のループの間に演算を含む場合は、演算を含むループより下のループをタイトとみなす。すなわち、最適化部１４４は、多重ループにおいて、最内ループにのみ演算を所有するループを融合候補と判定し、途中のループの間に演算を含む場合は、演算を含むループよりも下のループをタイトとみなして、融合候補からは除外する。

図（８）（Ａ）はループ融合可能なループ１ｃ，２ｃを含むコード７３を例示する。ループ１ｃ，２ｃは共にタイトリである。したがって、最適化部１４４は、ループ１ｃとループ２ｃとを融合可能であると判定する。

図（８）（Ｂ）はループ融合不可能なループ１ｄ，２ｄを含むコード７４を例示する。ループ２ｄはタイトリである。一方、ループ１ｄには最内ループ内以外に演算式「ｃ＝ｄ＊ｉ」が存在するのでタイトリではない。したがって、最適化部１４４は、ループ１ｄとループ２ｄとを融合不可能であると判定する。

図９は、タイトリを観点にしたループ融合判定の他の例を示す図である。
コード７５は、ループ１ｅ，２ｅ，３ｅ，４ｅを含む。ループ２ｅ，３ｅは、ループ１ｅの内側のループである。ループ１ｅは、最内ループ内以外に演算式「ｃ＝ｄ＊ｘ」が存在するのでタイトリではない。したがって、最適化部１４４は、ループ１ｅとループ４ｅとを融合不可能であると判定する。

一方、ループ２ｅ，３ｅは、何れもタイトリである。したがって、最適化部１４４は、ループ２ｅとループ３ｅとを融合可能であると判定する。
図１０は、データ依存を観点にしたループ融合判定の例を示す図である。

図１０（Ａ）はループ融合可能なループ１ｆ，２ｆを含むコード８１を例示する。最適化部１４４は、ループ１ｆ，２ｆでは、Ａ（ｊ）とＡ（ｊ＋１）とが依存しているが、順方向の依存であることから、融合してもデータが壊れないと判断する。したがって、最適化部１４４は、ループ１ｆとループ２ｆとをループ融合可能であると判定する。

図１０（Ｂ）はループ融合不可能なループ１ｇ，２ｇを含むコード８２を例示する。最適化部１４４は、ループ１ｇ，２ｇでは、Ａ（ｊ＋１）とＡ（ｊ）とが依存しているが、逆方向の依存であることから、融合するとデータが壊れると判断する。したがって、最適化部１４４は、ループ１ｇとループ２ｇとをループ融合不可能であると判定する。

図１１は、データ依存を観点にしたループ融合判定の他の例を示す図である。
図１１（Ａ）はループ融合可能なループ１ｈ，２ｈを含むコード８３を例示する。コード８３の例では、最適化部１４４は、ループ１ｈとループ２ｈとの組を融合候補とした場合、ループ３ｈがループ２ｈの算出結果を利用しないことから、ループ２ｈとループ３ｈとが依存関係にないと判断する。したがって、最適化部１４４は、ループ１ｈとループ２ｈとをループ融合可能と判定する。

図１１（Ｂ）はループ融合不可能なループ１ｉ，２ｉを含むコード８４を例示する。コード８４の例では、最適化部１４４は、ループ１ｉとループ２ｉとを融合候補とした場合、ループ３ｉがループ２ｉの算出結果を利用することから、ループ２ｉとループ３ｉとが依存関係にあると判断する。したがって、最適化部１４４は、ループ１ｉとループ２ｉとをループ融合不可能と判定する。

図１２は、ループ融合の判定対象のコードの例を示す図である。
ソースコード１１１ａは、ソースプログラム１１１に含まれるコードの一例である。例えば、ソースコード１１１ａは、ループ１～５の５つのループを含む。最適化部１４４は、中間言語生成部１４３が生成したソースコード１１１ａの中間言語から、融合候補のループの組合せを抽出する。ソースコード１１１ａの中間言語の場合、最適化部１４４は、まずはループ１をトリガーにして候補を抽出し、ループ２，３，４，５をトリガーにして順に判定を行う。なお、中間言語（中間コード）の記述については、特開２０１４－２２８８９１号公報の図１２などを参考にすることができる。

図１３は、ループ融合可能リストの例を示す図である。
ループ融合可能リスト１３１は、最適化部１４４により生成され、制御情報記憶部１３０に格納される。最適化部１４４は、前述のリダクションループやタイトリといったループの構造に基づいてトリガーのループと他のループとの融合可否を判定し、ループ融合可能リスト１３１を設定する。

ループ融合可能リスト１３１は、トリガーおよび融合可能ループの項目を含む。トリガーの項目には、トリガーとなるループの番号が登録される。融合可能ループの項目には、トリガーのループに対して融合可能なループの番号が登録される。

例えば、ループ融合可能リスト１３１には、トリガー「１」、融合可能ループ「２，４，５」というレコードが登録されている。このレコードは、ループ１に対してループ２，４，５をそれぞれ融合可能であることを示す。ループ融合可能リスト１３１には、他のトリガーに対しても、融合可能なループが同様に登録される。

図１４は、ループ情報の例を示す図である。
ループ情報１３２は、最適化部１４４により生成され、制御情報記憶部１３０に格納される。最適化部１４４は、ソースコード１１１ａの中間言語に基づいて、各ループにおける変数情報、レジスタ数、ループ形状および命令情報を取得し、ループごとにループ情報１３２に記録する。

変数情報とは、ループで使用される変数の情報である。変数情報は、四則演算に用いられる変数（ループの制御変数以外の変数）と、当該変数が生存する最終ループ（生存ループ）の情報を含む。生存ループの情報は、ループ間の変数の依存関係を確認する際に、確認対象とする変数の識別に用いられる。また、変数情報は、使用される変数と、当該変数がループの制御変数であるか否かを示すフラグ情報を含む。制御変数であるか否かを示すフラグ情報は、「Ｙｅｓ」が制御変数であることを示し、「Ｎｏ」が制御変数でないことを示す。

レジスタ数とは、ループで使用される整数レジスタの数および浮動小数レジスタの数の情報である。
ループ形状とは、ループの制御変数の取り得る値を表す初期値、終値、増分値の情報である。

命令情報とは、メモリ命令の数および四則演算命令の数の情報である。メモリ命令とは、ＬＯＡＤ命令やＳＴＯＲＥ命令である。四則演算命令とは、ＡＤＤ命令、ＳＵＢ命令、ＭＵＬＴ命令およびＤＩＶ命令である。メモリ命令の数および四則演算命令の数としてカウントする数は、ループの制御変数以外の変数に対するメモリ命令の数および四則演算命令の数でもよい。

ループ１の例では、最適化部１４４は、浮動小数点数の四則演算に用いられる変数「ａ」と、当該変数「ａ」が生存する最終ループ「ループ３」とをループ情報１３２に記録する。また、最適化部１４４は、使用変数名「ａ」、「ｉ」、「ｊ」に対して、それぞれ制御変数のフラグ情報「Ｎｏ」、「Ｙｅｓ」、「Ｙｅｓ」をループ情報１３２に記録する。また、最適化部１４４は、ループ１におけるレジスタ数として、例えば整数レジスタ「２」、浮動小数レジスタ「１」をループ情報１３２に記録する。また、最適化部１４４は、ループ１におけるループ形状として、例えば初期値「１」、終値「１０」、増分値「１」をループ情報１３２に記録する。更に、最適化部１４４は、ループ１における命令情報として、例えばメモリ命令数「－」（なし）、四則演算命令数「１」をループ情報１３２に記録する。

最適化部１４４は、ループ２に関しても同様に、変数情報、レジスタ数、ループ形状および命令情報を取得し、ループ情報１３２に記録する。
図１５は、ループ情報の例（続き）を示す図である。

最適化部１４４は、ループ３，４に関しても、変数情報、レジスタ数、ループ形状および命令情報を取得し、ループ情報１３２に記録する。
図１６は、ループ情報の例（続き）を示す図である。

最適化部１４４は、ループ５に関しても、変数情報、レジスタ数、ループ形状および命令情報を取得し、ループ情報１３２に記録する。
図１７は、ループ融合候補情報の例を示す図である。

ループ融合候補情報１３３は、ループ融合可能リスト１３１およびループ情報１３２に基づいて最適化部１４４により生成され、制御情報記憶部１３０に格納される。ループ融合候補情報１３３は、トリガーのループに対する融合候補のループの組合せごとの、マスク処理の要否、変数の数、レジスタ数、変数の依存関係の有無、メモリ命令数および演算命令数を示す情報である。

ここで、最適化部１４４は、融合候補のループの組合せを、ループ融合可能リスト１３１に基づいてトリガーごとに抽出し、ループ融合候補情報１３３に登録する。
ループ融合可能リスト１３１の例では、トリガー「１」に対して、融合可能ループにループ２，４，５がある。そのため、最適化部１４４は、ループ「１，２」、「１，４」、「１，５」の組合せを候補としてループ融合候補情報１３３のループの項目に記録する。

次に、最適化部１４４は、ループ１と組合せたループ２，４，５に対して、次の融合可能ループを探索する。例えば、ループ融合可能リスト１３１では、トリガー「２」に対して融合可能ループ「３」が記載されている。しかし、トリガー「１」の融合可能ループには、ループ３はない。このため、最適化部１４４は、トリガー「１」に関して、ループ融合候補情報１３３のループの項目にループ３を含む組合せを載せない。

次に、ループ融合可能リスト１３１では、トリガー「２」に対して融合可能ループ「４」が記載されている。トリガー「１」の融合可能ループには、ループ４がある。このため、最適化部１４４は、トリガー「１」に関して、ループ融合候補情報１３３のループの項目にループ「１，２，４」の組合せを候補として記録する。同様にして、最適化部１４４は、トリガー「１」に関して、ループ「１，２，５」、「１，４，５」、「１，２，４，５」の組合せを候補としてループ融合候補情報１３３のループの項目に記録する。最適化部１４４は、次にトリガー「２」に移って同様に融合候補のループの組合せをループ融合候補情報１３３に記録し、トリガーが無くなるまで繰り返す。

ここで、ループ情報１３２に基づいてループ融合候補情報１３３に登録される情報について説明する。
マスク処理の要否とは、融合時にマスク変数を用いたマスク処理の追加が必要であるか否かであり、必要であれば「ｔｒｕｅ」、不要であれば「ｆａｌｓｅ」となる。マスク処理は、ループの制御変数の初期値、終値、増分値が異なるループの組合せを融合する際に追加される分岐処理である。

変数の数は、該当のループの組合せに属する各ループで使用される変数の数の和である。
レジスタ数は、該当のループの組合せに属する各ループで使用されるレジスタ数の和であり、整数レジスタおよび浮動小数レジスタごとに求められる。図中、レジスタ数を「ｒ１，ｒ２」のように記載する。ｒ１は、整数レジスタの数である。ｒ２は、浮動小数レジスタの数である。

変数の依存関係の有無は、該当のループの組合せに属する各ループにおけるループを跨いだ変数の依存関係の有無である。変数の依存関係、すなわち、データ依存の例としては、図１０，１１で例示した依存関係が考えられる。依存ありは「ｔｒｕｅ」となり、依存なしは「ｆａｌｓｅ」となる。

メモリ命令数は、該当のループの組合せに属する各ループにおけるメモリ命令数の和である。
演算命令数は、該当のループの組合せに属する各ループにおける演算命令数の和である。

例えば、ループ融合候補情報１３３には、トリガー「１」に対する融合候補のループの組合せ「１，２」に対して、マスク「ｔｒｕｅ」、変数の数「２」、レジスタ数「４，２」、依存「ｆａｌｓｅ」、メモリ命令数「２」、演算命令数「２」というレコードが登録されている。このレコードは、ループ「１，２」の組合せを融合する場合、マスク処理の追加が必要であり、ループの制御変数以外の変数の数が「２」、整数レジスタ数が「４」、浮動小数レジスタ数が「２」、メモリ命令数が「２」、演算命令数が「２」であることを示す。また、このレコードは、ループ「１，２」の組合せに属するループ１，２では変数の依存関係がないことを示す。

最適化部１４４は、トリガー「１」に対する他の組合せについても同様に、マスク、変数の数、レジスタ数、依存、メモリ命令数、演算命令数のレコードをループ融合候補情報１３３に登録する。

最適化部１４４は、トリガー「２」に対する融合候補のループの組合せについても同様に、マスク、変数の数、レジスタ数、依存、メモリ命令数、演算命令数のレコードをループ融合候補情報１３３に登録する。

図１８は、ループ融合候補情報（続き）の例を示す図である。
最適化部１４４は、トリガー「３」、「４」に対する融合候補のループの組合せについても同様に、マスク、変数の数、レジスタ数、依存、メモリ命令数、演算命令数のレコードをループ融合候補情報１３３に登録する。

なお、トリガー「５」については、ループ融合可能リスト１３１において融合可能ループが存在しない。このため、最適化部１４４は、トリガー「５」に対する情報を、ループ融合候補情報１３３に登録しなくてよい。

次に、情報処理装置１００の処理手順を説明する。
図１９は、コンパイルの全体処理の例を示すフローチャートである。
（Ｓ１０）中間言語生成部１４３は、ソースプログラム入力部１４１により入力されたソースプログラム１１１を入出力制御部１４２から取得し、ソースプログラム１１１に対する中間言語を生成する。ソースプログラム１１１は、例えば、図１２で例示したソースコード１１１ａを含む。中間言語生成部１４３は、生成した中間言語を中間言語記憶部１２０に格納する。

（Ｓ１１）最適化部１４４は、中間言語記憶部１２０に記憶された中間言語に基づいて、ループ融合可能リスト１３１を生成し、生成したループ融合可能リスト１３１を制御情報記憶部１３０に格納する。ループ融合可能リスト生成の詳細は後述される。

（Ｓ１２）最適化部１４４は、中間言語記憶部１２０に記憶された中間言語に基づいて、ループ情報１３２を生成し、生成したループ情報１３２を制御情報記憶部１３０に格納する。ループ情報生成の詳細は後述される。

（Ｓ１３）最適化部１４４は、制御情報記憶部１３０に記憶されたループ融合可能リスト１３１およびループ情報１３２に基づいて、ループ融合候補情報１３３を生成し、生成したループ融合候補情報１３３を制御情報記憶部１３０に格納する。ループ融合候補情報生成の詳細は後述される。

（Ｓ１４）最適化部１４４は、制御情報記憶部１３０に記憶されたループ融合候補情報１３３に基づいて、融合対象のループの組合せを決定する。融合対象決定の詳細は後述される。

（Ｓ１５）最適化部１４４は、中間言語記憶部１２０に記憶された中間言語において、ステップＳ１４で決定された融合対象のループの組合せに対してループ融合を行うことで、ループ融合後の中間言語を生成する。なお、ループ融合候補情報１３３においてマスク「ｔｒｕｅ」であるループの組合せに対してループ融合を行う場合、最適化部１４４は、ループの初期化処理にマスク処理を追加することで、ループ融合を行う。

（Ｓ１６）コード生成部１４５は、ループ融合後の中間言語を基にアセンブリ言語を生成し、入出力制御部１４２に出力する。オブジェクトファイル出力部１４６は、生成されたアセンブリ言語を入出力制御部１４２から取得し、アセンブリ言語に基づいてオブジェクトファイル１１２を生成する。オブジェクトファイル出力部１４６は、生成したオブジェクトファイル１１２を記憶部１１０に格納する。そして、コンパイルが終了する。

図２０は、ループ融合可能リスト生成の例を示すフローチャートである。
ループ融合可能リスト生成は、ステップＳ１１に相当する。
（Ｓ２０）最適化部１４４は、トリガーループ番号Ｉを初期化する。例えば、最適化部１４４は、Ｉ＝１に初期化する。

（Ｓ２１）最適化部１４４は、ループ融合可能リスト１３１の雛形である空リストを生成し、制御情報記憶部１３０に格納する。
（Ｓ２２）最適化部１４４は、判定対象ループ番号ＪをＪ＝Ｉ＋１に設定する。

（Ｓ２３）最適化部１４４は、中間言語に含まれるループＩとループＪに関して、リダクションループやタイトリといったループ構造を基に、融合可能であるか否かを判定する。融合可能である場合、ステップＳ２４に処理が進む。融合可能でない場合、ステップＳ２５に処理が進む。

（Ｓ２４）最適化部１４４は、トリガーループ番号Ｉに対して、融合可能なループＪを、ループ融合可能リスト１３１に追加する。そして、ステップＳ２５に処理が進む。
（Ｓ２５）最適化部１４４は、トリガーループ番号Ｉに対する全判定対象について、融合可否を判定済であるか否かを判定する。判定対象ループ番号Ｊが最後のループ番号に達した場合に、全判定対象について判定済となる。全判定対象について判定済の場合、ステップＳ２７に処理が進む。全判定対象について判定済でない場合、ステップＳ２６に処理が進む。

（Ｓ２６）最適化部１４４は、Ｊをインクリメントする。すなわち、最適化部１４４は、Ｊ＝Ｊ＋１とする。そして、ステップＳ２３に処理が進む。
（Ｓ２７）最適化部１４４は、全トリガーループについて処理済であるか否かを判定する。トリガーループ番号Ｉが最後のループ番号に達した場合に、全トリガーループについて処理済となる。全トリガーループについて処理済である場合、ループ融合可能リスト生成が終了する。全トリガーループについて処理済でない場合、ステップＳ２８に処理が進む。

（Ｓ２８）最適化部１４４は、Ｉをインクリメントする。すなわち、最適化部１４４は、Ｉ＝Ｉ＋１とする。そして、ステップＳ２１に処理が進む。
図２１は、ループ情報生成の例を示すフローチャートである。

ループ情報生成は、ステップＳ１２に相当する。
（Ｓ３０）最適化部１４４は、トリガーループ番号Ｉを初期化する。例えば、最適化部１４４は、Ｉ＝１に初期化する。

（Ｓ３１）最適化部１４４は、ループ情報１３２の雛形データを生成し、制御情報記憶部１３０に格納する。
（Ｓ３２）最適化部１４４は、中間言語に基づいてループＩの変数情報を取得し、ループ情報１３２に書き込む。

（Ｓ３３）最適化部１４４は、中間言語に基づいてループＩのレジスタ数を取得し、ループ情報１３２に書き込む。最適化部１４４は、整数レジスタおよび浮動小数レジスタに分けてレジスタ数を取得する。

（Ｓ３４）最適化部１４４は、中間言語に基づいてループＩのループ形状、すなわち、制御変数の初期値、終値、増分値を取得し、ループ情報１３２に書き込む。
（Ｓ３５）最適化部１４４は、中間言語に基づいてループＩの命令情報を取得し、ループ情報１３２に書き込む。最適化部１４４は、命令情報として、メモリ命令数および演算命令数を取得する。

（Ｓ３６）最適化部１４４は、全トリガーループについて処理済であるか否かを判定する。全トリガーループについて処理済である場合、ループ情報生成が終了する。全トリガーループについて処理済でない場合、ステップＳ３７に処理が進む。

（Ｓ３７）最適化部１４４は、Ｉをインクリメントする。すなわち、最適化部１４４は、Ｉ＝Ｉ＋１とする。そして、ステップＳ３１に処理が進む。
図２２は、ループ融合候補情報生成の例を示すフローチャートである。

ループ融合候補情報生成は、ステップＳ１３に相当する。
（Ｓ４０）最適化部１４４は、トリガーループ番号Ｉを初期化する。例えば、最適化部１４４は、Ｉ＝１に初期化する。

（Ｓ４１）最適化部１４４は、トリガーループＩに対するループ融合候補情報１３３の雛形のデータ構造を生成し、制御情報記憶部１３０に格納する。
（Ｓ４２）最適化部１４４は、ループ融合可能リスト１３１を基に、該当のトリガーループＩに対するループ融合候補のループの組合せを抽出し、ループ融合候補情報１３３のループの項目に追加する。

（Ｓ４３）最適化部１４４は、全トリガーループに対して処理済であるか否かを判定する。全トリガーループについて処理済である場合、ステップＳ４５に処理が進む。全トリガーループについて処理済でない場合、ステップＳ４４に処理が進む。

（Ｓ４４）最適化部１４４は、Ｉをインクリメントする。すなわち、最適化部１４４は、Ｉ＝Ｉ＋１とする。そして、ステップＳ４１に処理が進む。
（Ｓ４５）最適化部１４４は、トリガーループ番号Ｉを初期化する。例えば、最適化部１４４は、Ｉ＝１に初期化する。

（Ｓ４６）最適化部１４４は、トリガーループＩに関して、ループ融合候補情報１３３から融合候補のループの組合せを１つ抽出する。
（Ｓ４７）最適化部１４４は、抽出した組合せに属するループの情報を、ループ情報１３２から取得する。

（Ｓ４８）最適化部１４４は、ステップＳ４７で取得した情報を基に、ループ融合候補のループの組合せに対して、変数の数、レジスタ数、メモリ命令数および演算命令数を含む項目値を算出し、ループ融合候補情報１３３に登録する。ループ融合候補の項目値算出の詳細は後述される。

（Ｓ４９）最適化部１４４は、全トリガーループに対して処理済であるか否かを判定する。全トリガーループについて処理済である場合、ループ融合候補情報生成が終了する。全トリガーループについて処理済でない場合、ステップＳ５０に処理が進む。

（Ｓ５０）最適化部１４４は、Ｉをインクリメントする。すなわち、最適化部１４４は、Ｉ＝Ｉ＋１とする。そして、ステップＳ４６に処理が進む。
図２３は、ループ融合候補の項目値算出の例を示すフローチャートである。

ループ融合候補の項目値算出は、ステップＳ４８に相当する。
（Ｓ６０）最適化部１４４は、該当のループの組合せに属する全てのループでループ形状、すなわち、ループの制御変数の初期値、終値、増分値が同じであるか否かを判定する。該当の全てのループでループ形状が同じである場合、ステップＳ６１に処理が進む。少なくとも何れかのループでループ形状が同じでない場合、ステップＳ６２に処理が進む。

（Ｓ６１）最適化部１４４は、該当のループの組合せに対して、ループ融合候補情報１３３におけるマスクの項目を「ｆａｌｓｅ」に設定する。そして、ステップＳ６３に処理が進む。

（Ｓ６２）最適化部１４４は、該当のループの組合せに対して、ループ融合候補情報１３３におけるマスクの項目を「ｔｒｕｅ」に設定する。そして、ステップＳ６３に処理が進む。

（Ｓ６３）最適化部１４４は、該当のループの組合せに対する変数の数を算出し、ループ融合候補情報１３３における変数の数の項目に、算出結果を設定する。最適化部１４４は、ループ情報１３２から取得した、該当の組合せに属するループにおけるループ制御変数以外の変数の数の和を、当該組合せに対応する変数の数として算出する。

（Ｓ６４）最適化部１４４は、該当のループの組合せに対するレジスタ数を算出し、ループ融合候補情報１３３におけるレジスタ数の項目に、算出結果を設定する。最適化部１４４は、ループ情報１３２から取得した、該当の組合せに属するループにおける整数レジスタ数の和、および、浮動小数レジスタ数の和を、当該組合せに対応するレジスタ数として算出する。

（Ｓ６５）最適化部１４４は、該当のループの組合せに変数の依存があるか否かを判定する。変数の依存がある場合、ステップＳ６６に処理が進む。変数の依存がない場合、ステップＳ６７に処理が進む。変数の依存の例としては、図１０，１１で説明したデータ依存が挙げられる。

（Ｓ６６）最適化部１４４は、該当のループの組合せに対して、ループ融合候補情報１３３における依存の項目を「ｔｒｕｅ」に設定する。そして、ステップＳ６８に処理が進む。

（Ｓ６７）最適化部１４４は、該当のループの組合せに対して、ループ融合候補情報１３３における依存の項目を「ｆａｌｓｅ」に設定する。そして、ステップＳ６８に処理が進む。

（Ｓ６８）最適化部１４４は、該当のループの組合せに対するメモリ命令数を算出し、ループ融合候補情報１３３におけるメモリ命令数の項目に、算出結果を設定する。最適化部１４４は、ループ情報１３２から取得した、該当の組合せに属するループにおけるメモリ命令数の和を、当該組合せに対応するメモリ命令数として算出する。

（Ｓ６９）最適化部１４４は、該当のループの組合せに対する演算命令数を算出し、ループ融合候補情報１３３における演算命令数の項目に、算出結果を設定する。最適化部１４４は、ループ情報１３２から取得した、該当の組合せに属するループにおける演算命令数の和を、当該組合せに対応する演算命令数として算出する。そして、ループ融合候補の項目値算出が終了する。

図２４は、融合対象決定の例を示すフローチャートである。
融合対象決定は、ステップＳ１４に相当する。
（Ｓ７０）最適化部１４４は、ループ融合候補情報１３３のレコード番号Ｊを初期化する。例えば、最適化部１４４は、Ｊ＝０に初期化する。ここで、レコード番号Ｊは、ループ融合候補情報１３３における１つの融合候補のループの組合せを識別する。

（Ｓ７１）最適化部１４４は、ループ融合候補情報１３３に基づいて、該当のループの組合せに対する依存の項目値が「ｔｒｕｅ」であるか否かを判定する。依存の項目値が「ｔｒｕｅ」の場合、ステップＳ７８に処理が進む。依存の項目値が「ｆａｌｓｅ」の場合、ステップＳ７２に処理が進む。

（Ｓ７２）最適化部１４４は、ループ融合対象として仮決定済の融合候補があるか否かを判定する。仮決定済の融合候補がある場合、ステップＳ７４に処理が進む。仮決定済の融合候補がない場合、ステップＳ７３に処理が進む。

（Ｓ７３）最適化部１４４は、レコード番号Ｊの融合候補のループの組合せを、融合対象として仮決定する。そして、ステップＳ７８に処理が進む。
（Ｓ７４）最適化部１４４は、ループ融合候補情報１３３に基づいて、レコード番号Ｊのループの組合せに対応する変数の数が、仮決定済の融合候補に対応する変数の数よりも多いか否かを判定する。レコード番号Ｊのループの組合せに対応する変数の数が、仮決定済の融合候補に対応する変数の数よりも多い場合、ステップＳ７５に処理が進む。レコード番号Ｊのループの組合せに対応する変数の数が、仮決定済の融合候補に対応する変数の数以下の場合、ステップＳ７８に処理が進む。

（Ｓ７５）最適化部１４４は、ループ融合候補情報１３３に基づいて、レコード番号Ｊのループの組合せに対応するレジスタ数が、オブジェクトファイル１１２を含む実行ファイル１１３を実行予定の装置におけるレジスタの使用可能数以下であるか否かを判定する。当該組合せに対応するレジスタ数が、使用可能数以下である場合、ステップＳ７６に処理が進む。当該組合せに対応するレジスタ数が、使用可能数より多い場合、ステップＳ７８に処理が進む。

ここで、実行ファイル１１３を実行予定の装置におけるレジスタの使用可能数は、制御情報記憶部１３０に予め設定される。当該使用可能数は、該当の装置が備える物理的なレジスタの数に応じた数となり、整数レジスタおよび浮動小数レジスタそれぞれに対して設定される。すなわち、最適化部１４４は、整数レジスタ数および浮動小数レジスタ数それぞれに対して、使用可能数以下であるかを判定し、整数レジスタ数および浮動小数レジスタ数の両方が使用可能数以下の場合に、ステップＳ７６に処理を進める。一方、最適化部１４４は、整数レジスタ数および浮動小数レジスタ数の少なくとも一方が使用可能数より多い場合に、ステップＳ７８に処理を進める。なお、実行ファイル１１３を実行予定の装置は、情報処理装置１００でもよい。

（Ｓ７６）最適化部１４４は、ループ融合候補情報１３３に基づいて、レコード番号Ｊのループの組合せに対応するメモリ命令数から所定値を減算した数が、当該組合せに対応する演算命令数以上であるか否かを判定する。メモリ命令数から所定値を減算した数が、当該組合せに対応する演算命令数以上である場合、ステップＳ７７に処理が進む。メモリ命令数から所定値を減算した数が、当該組合せに対応する演算命令数よりも少ない場合、ステップＳ７８に処理が進む。

ここで、ステップＳ７６で用いられる所定値は、例えば、実行ファイル１１３を実行予定の装置が備える複数の演算器において同時実行可能なメモリ命令の数に応じて予め定められる。例えば、当該装置が備える複数の演算器において同時実行可能なメモリ命令の数が「２」である場合、ステップＳ７６で用いられる所定値を「２」とすることが考えられる。あるいは、例えば同時実行可能なメモリ命令の数が「１」である場合、ステップＳ７６で用いられる所定値を「１」とすることが考えられる。演算命令を実行するためには、その前にメモリ命令が実行されるため、最適化部１４４は、ループ融合候補情報１３３のメモリ命令数から最初に同時実行され得るメモリ命令数を引いた上で、演算命令数と比較する。

（Ｓ７７）最適化部１４４は、仮決定の融合対象をレコード番号Ｊの融合候補に置換する。すなわち、最適化部１４４は、レコード番号Ｊの融合候補のループの組合せを、融合対象として仮決定し、ステップＳ７７より前に仮決定されていた融合候補については、仮決定を解除する。

（Ｓ７８）最適化部１４４は、ループ融合候補情報１３３の全レコードを処理済であるか否かを判定する。レコード番号Ｊが最後のレコード番号に達した場合に、全レコードについて処理済となる。全レコードについて処理済である場合、最適化部１４４は、ステップＳ７８の段階で仮決定されているループの組合せを融合対象として決定して、融合対象決定を終了する。全レコードについて処理済でない場合、ステップＳ７９に処理が進む。

（Ｓ７９）最適化部１４４は、Ｊをインクリメントする。すなわち、最適化部１４４は、Ｊ＝Ｊ＋１とする。そして、ステップＳ７１に処理が進む。
図２５は、ループ融合対象の決定結果の例を示す図である。

最適化部１４４は、図１７，１８で示したループ融合候補情報１３３に対して、図２４の手順により、例えば、ループ「１，２，４，５」の組合せを、ループ融合対象と決定する。なお、ループ「１，２，４，５」の組合せは、ループ融合候補情報１３３においてマスク「ｔｒｕｅ」である。したがって、最適化部１４４は、ループの初期化処理にマスク処理を追加することで、ループ「１，２，４，５」の組合せに対するループ融合を行う。

このように、最適化部１４４は、レジスタ数が使用可能数以下、かつ、メモリ命令数と演算命令数とがバランス良く含まれるループの組合せであって、変数の数がより多い組合せを優先的に、ループ融合対象として決定する。

これにより、レジスタ不足によるメモリへのデータ退避／復元（spill/fill）、すなわち、スピル／フィルの抑止や演算器の効率利用を図れる。実行ファイル１１３における該当のループの実行時の各サイクルにおいて、複数の演算器に複数の命令を効率的に割り当てることが可能となり、処理性能を向上できる。例えば、ループ融合をしないよりも、融合したループの処理速度を向上できる。また、レジスタの効率的な利用を図ることもできる。

図２６は、ループ融合の判定対象のコードの他の例を示す図である。
ソースコード１１１ｂは、ソースプログラム１１１に含まれるコードの一例である。例えば、ソースコード１１１ｂは、ループ１ｊ，２ｊ，３ｊの３つのループを含む。最適化部１４４は、中間言語生成部１４３が生成したソースコード１１１ｂの中間言語から、融合候補のループの組合せを抽出する。ループ１ｊ，２ｊは、ループ形状が同じである。ただし、ループ１ｊ，２ｊでは、ループ１ｊで求めているＢ１をループ２ｊで使用しており、変数同士の依存関係が強い。ループ１ｊ，３ｊは、ループ形状が異なる。ループ２ｊ，３ｊは、ループ形状が異なる。

ソースコード１１１ｂに対して、例えば、最適化部１４４は、ループ形状の異なるループ１ｊ，３ｊの組合せを融合する。
図２７は、ループ融合後のコードの例を示す図である。

ソースコード１１１ｃは、ソースコード１１１ｂにおけるループ１ｊ，３ｊを融合した場合の融合後のコードを、ソースコードベースで示している。最適化部１４４は、ソースコード１１１ｂの中間言語に対してループ融合を適用することにより、ソースコード１１１ｃに対応する中間言語を生成する。ソースコード１１１ｃには、融合後のループの終値を求める処理や融合後のループに用いられるマスクを生成する処理が追加される例が示されている。

次に、図２７に示すループ融合が行われた場合における、融合後のループに対する命令スケジューリングの例を説明する。
図２８は、命令スケジューリングの例を示す図である。

表２０１は、図２７で例示した融合後のループに対する、サイクルごとの各演算器への命令の割り当て例を示す。演算器の数は４個であり、同時実行可能なメモリ命令数は２であるとする。演算器の項目の下に記載された１つの列が１つの演算器に相当する。また、一例として、レジスタからメモリへのロードを行うＬＯＡＤ命令のレイテンシが８τであり、引き算を行うＳＵＢ命令のレイテンシが４τであるとする。ここで、τは、１サイクル当たりの時間である。更に、メモリのアドレス計算は省くものとする。

表２０１における括弧記号で括られた「（１）」などの数値は、該当のサイクルにおいて、１つの演算器に割り当てられる命令に対して実行される処理を表す。例えば、括弧記号で括られた数値は、次の処理となる。

（１）１つ目の演算器は、Ｖ（ｋ，ｉ，ｊ）をロードする。
（２）２つ目の演算器は、Ｖ（ｋ－１，ｉ，ｊ）をロードする。
（３）３つ目の演算器は、（１）の結果から（２）の結果を引く。

（４）１つ目の演算器は、Ｖ（ｋ＋１，ｉ，ｊ）をロードする。
（５）２つ目の演算器は、Ｖ（ｋ－２，ｉ，ｊ）をロードする。
（６）３つ目の演算器は、（４）の結果から（５）の結果を引く。

（７）３つ目の演算器は、（３）の結果から（６）の結果を引く。
（８）１つ目の演算器は、（７）の結果をＡ１にストアする。
（９）１つ目の演算器は、Ａ１（ｋ，ｉ，ｊ）をロードする。

（１７）１つ目の演算器は、Ｄ２（ｋ，ｉ，ｊ）をロードする。
（１８）２つ目の演算器は、Ｄ２（ｋ－１，ｉ，ｊ）をロードする。
（１９）４つ目の演算器は、（１７）の結果から（１８）の結果を引く。

（２０）１つ目の演算器は、Ｄ２（ｋ＋１，ｉ，ｊ）をロードする。
（２１）２つ目の演算器は、Ｄ２（ｋ－２，ｉ，ｊ）をロードする。
（２２）４つ目の演算器は、（２０）の結果から（２１）の結果を引く。

（２３）４つ目の演算器は、（１９）の結果から（２２）の結果を引く。
（２４）４つ目の演算器は、（２３）の結果をＤ１にストアする。
表２０１における各処理が実行されるスケジュールは次の通りである。（１）、（２）は、１サイクル目に実行される。（４）、（５）は、２サイクル目に実行される。（１７）、（１８）は、３サイクル目に実行される。（２０）、（２１）は、４サイクル目に実行される。（３）は、９サイクル目に実行される。（６）、（１９）は、１０サイクル目に実行される。（２２）は、１１サイクル目に実行される。（７）は、１４サイクル目に実行される。（２３）は、１５サイクル目に実行される。（８）は、１７サイクル目に実行される。（９）、（２４）は、１８サイクル目に実行される。図中、１９サイクル目以降のＢ１に関する処理は省略されている。

このように、ループ融合により、Ａ１およびＤ１に関する演算を１８サイクルで行うことが可能になり、下記の図２９，３０の比較例に比べて演算器を有効に使えていることが分かる。

次に、ソースコード１１１ｂのループ１ｊ，２ｊを融合した場合における命令スケジューリングの比較例を説明する。
図２９は、命令スケジューリングの比較例を示す図である。

ソースコード９１は、ループ１ｊ，２ｊを融合した場合のコード例を示す。
表２０２は、ループ１ｊ，２ｊを融合した場合の融合後のループに対する、サイクルごとの各演算器への命令の割り当て例を示す。図２８と同様に、演算器の数は４個であり、同時実行可能なメモリ命令数は２であるとする。演算器の項目の下に記載された１つの列が１つの演算器に相当する。また、一例として、ＬＯＡＤ命令のレイテンシが８τであり、ＳＵＢ命令のレイテンシが４τであるとする。表２０２において、括弧記号で括られた数値は、次の処理となる。

図中、Ｂ１に関する１９サイクル目から３５サイクル目の処理は省略されている。
図３０は、命令スケジューリングの比較例（続き）を示す図である。
（１７）１つ目の演算器は、Ｂ１（ｋ，ｉ，ｊ）をロードする。

（１８）２つ目の演算器は、Ｂ１（ｋ－１，ｉ，ｊ）をロードする。
（１９）３つ目の演算器は、（１７）の結果から（１８）の結果を引く。
（２０）１つ目の演算器は、Ｂ１（ｋ＋１，ｉ，ｊ）をロードする。

（２１）２つ目の演算器は、Ｂ１（ｋ－２，ｉ，ｊ）をロードする。
（２２）３つ目の演算器は、（２０）の結果から（２１）の結果を引く。
（２３）３つ目の演算器は、（１９）の結果から（２２）の結果を引く。

（２４）１つ目の演算器は、（２３）の結果をＣ１にストアする。
表２０２における各処理が実行されるスケジュールは次の通りである。（１）、（２）は、１サイクル目に実行される。（４）、（５）は、２サイクル目に実行される。（３）は、９サイクル目に実行される。（６）は、１０サイクル目に実行される。（７）は、１４サイクル目に実行される。（８）は、１７サイクル目に実行される。（９）は、１８サイクル目に実行される。１９サイクル目～３５サイクル目では、Ｂ１に関する処理が実行される。（１７）、（１８）は、３６サイクル目に実行される。（２０）、（２１）は、３７サイクル目に実行される。（１９）は、４４サイクル目に実行される。（２２）は、４５サイクル目に実行される。（２３）は、４９サイクル目に実行される。（２４）は、５２サイクル目に実行される。なお、Ｂ１の処理に要するサイクル数は、図２８の場合も図２９，３０の場合も同等である。

このように、ループ１ｊ，２ｊを融合すると、Ｃ１の処理が終わるまでに、５２サイクルかかる。ループ１ｊの演算結果をループ２ｊで使用しているため、ループ１ｊの演算が終わるまでループ２ｊの演算は待つことになり、命令実行の並列度を上げられないループ融合となる。したがって、ループ１ｊ，２ｊを融合したとしても、各サイクルにおいて演算器の空きが比較的多くなることで演算器を十分に使い切れなくなり、効率的なループ融合を行えないことになる。また、ループ融合したことで、レジスタが足りなくなり、退避や復元のメモリアクセスが増えて、性能が悪化することもある。

これに対し、図２８で例示したように、情報処理装置１００によれば、演算器の利用の効率化を図ることができ、ループ処理の実行時の処理性能を向上することができる。例えば、実際の演算器の数を超える演算が同時に行われないように、ループ１ｊ，３ｊに対して命令実行の並列度を上げることが可能であり、ループ処理の実行にかかるサイクル数を効率的に短縮できる。また、レジスタが足りなくなることによるスピル／フィルのメモリアクセスを抑制できる。その結果、処理速度を向上できる。

また、情報処理装置１００によれば、ループ形状が異なる、すなわち、ループの制御変数の初期値、終値、増分値が異なるループの組合せも融合対象にすることができる。ループ形状が異なるループの組合せを融合する場合には、融合後のループ内の演算が肥大化して非効率なループ融合が行われ易いが、情報処理装置１００の機能により非効率なループ融合が抑制されるためである。このため、ループ融合を行うループの組合せの自由度が増し、より効率的なループ融合を行える可能性が高まる。

また、情報処理装置１００のコンパイラの機能は、レジスタの数が比較的少なく、レジスタのサイクル数が比較的長いアーキテクチャに特に有効となる。
なお、第２の実施の形態では、ループ融合を判定するための各種データを中間言語（中間コード）から抽出する例で説明したが、これに限定されるものではない。例えば、コンパイラ１４０は、ソースプログラム１１１から当該各種データを抽出することもできる。コンパイラ１４０は、融合候補のループの組合せの特定についてはソースプログラム１１１を用いて実行し、ループごとの変数の数、レジスタ数、メモリ命令数および演算命令数などのデータの抽出については中間言語を用いて抽出してもよい。

第２の実施の形態で説明した情報処理装置１００は、例えば次の処理を実行する。
最適化部１４４は、中間コードに含まれる複数のループそれぞれに対して、当該ループで使用される変数の数、レジスタの数、メモリ命令の数および演算命令の数を含むループ情報１３２を取得する。最適化部１４４は、ループ情報１３２に基づいて、ループ融合の候補であるループの組合せに対応する変数の数、レジスタの数、メモリ命令の数および演算命令の数を、ループの複数の組合せそれぞれに対して算出する。最適化部１４４は、複数の組合せそれぞれに対して算出した変数の数、レジスタの数、および、メモリ命令の数と演算命令の数との比較に基づいて、複数の組合せのうち、ループ融合を適用する組合せを決定する。最適化部１４４は、決定した組合せに対してループ融合を実行する。

これにより、ループ融合後の中間コードを用いて生成されたオブジェクトコードを含む実行ファイル１１３の処理性能を向上できる。
最適化部１４４は、中間コードに基づいて、ループの制御変数の取り得る値が互いに異なる２以上のループが属する組合せを、ループ融合の候補として取得する。

これにより、ループ融合の自由度が増し、より効率的なループ融合を行える可能性が高まる。
最適化部１４４は、融合候補のループの複数の組合せのうち、算出した変数の数が多い組合せを優先して、ループ融合を適用する組合せとして決定する。

これにより、演算の並列度を向上させて演算器を効率的に利用できる可能性が高まる。
最適化部１４４は、融合候補のループの複数の組合せのうち、算出したレジスタの数が、コンパイルにより生成されるオブジェクトコードの実行予定の装置でのレジスタの使用可能数以下である組合せを、ループ融合を適用する組合せとして決定する。

これにより、スピルやフィルが発生する可能性を抑えて、レジスタを効率的に利用できる可能性が高まる。
最適化部１４４は、融合候補のループの複数の組合せのうち、算出したメモリ命令の数から所定値を引いた数が演算命令の数以上である組合せを、ループ融合を適用する組合せとして決定する。

このように、メモリ命令の数に比べて演算命令の数が過大にならないループの組合せに対してループ融合を適用することで、複数の命令を適度に複数の演算器に分散して割り当てることができ、レジスタおよび演算器を効率的に利用できる可能性を高められる。

最適化部１４４は、コンパイルにより生成されるオブジェクトコードの実行予定の装置により同時実行可能なメモリ命令の数に応じて、メモリ命令の数から減算する所定値を決定してもよい。例えば、最適化部１４４は、該当の装置において、同時実行可能なメモリ命令の数を、当該所定値としてもよい。

これにより、メモリ命令の数に対する演算命令の数の比較を適切に行うことができ、ループ融合により、レジスタおよび演算器を効率的に利用できる可能性を一層高められる。
また、第１の実施の形態の情報処理は、処理部１２にプログラムを実行させることで実現できる。また、第２の実施の形態の情報処理は、ＣＰＵ１０１にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体５３に記録できる。

例えば、プログラムを記録した記録媒体５３を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体５３に記録されたプログラムまたは他のコンピュータから受信したプログラムを、ＲＡＭ１０２やＨＤＤ１０３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

１０情報処理装置
１１記憶部
１２処理部
２０ソースコード
２０ａ，２０ｂ中間コード
２１ループ情報
２２ループ融合候補情報
３０オブジェクトコード

Claims

コンパイルを行う情報処理装置であって、
処理対象のコードを記憶する記憶部と、
前記コードに含まれる複数のループそれぞれに対して、当該ループで使用される変数の数、レジスタの数、前記レジスタと主記憶装置との間で前記変数の値の入出力を行うメモリ命令の数および前記レジスタに格納された前記変数の値に対する演算命令の数を含むループ情報を取得し、
前記取得したループ情報に基づいて、ループ融合の候補である前記ループの組合せに対応する前記変数の数、前記レジスタの数、前記メモリ命令の数および前記演算命令の数を、前記ループの複数の組合せそれぞれに対して算出し、
前記複数の組合せそれぞれに対して算出した前記変数の数、前記レジスタの数、および、前記メモリ命令の数と前記演算命令の数との比較に基づいて、前記複数の組合せのうち、前記ループ融合を適用する組合せを決定し、
決定した前記組合せに対して前記ループ融合を実行する処理部と、
を有する情報処理装置。
前記処理部は、前記コードに基づいて、前記ループの制御変数の取り得る値が互いに異なる２以上のループが属する前記組合せを、前記ループ融合の候補として取得する、
請求項１記載の情報処理装置。
前記処理部は、前記複数の組合せのうち、算出した前記変数の数が多い前記組合せを優先して、前記ループ融合を適用する組合せとして決定する、
請求項１または２記載の情報処理装置。
前記処理部は、前記複数の組合せのうち、算出した前記レジスタの数が、前記コンパイルにより生成されるオブジェクトコードの実行予定の装置での前記レジスタの使用可能数以下である前記組合せを、前記ループ融合を適用する組合せとして決定する、
請求項１乃至３の何れか１項に記載の情報処理装置。
前記処理部は、前記複数の組合せのうち、算出した前記メモリ命令の数から所定値を引いた数が前記演算命令の数以上である前記組合せを、前記ループ融合を適用する組合せとして決定する、
請求項１乃至４の何れか１項に記載の情報処理装置。
前記処理部は、前記コンパイルにより生成されるオブジェクトコードの実行予定の装置により同時実行可能な前記メモリ命令の数に応じて、前記所定値を決定する、
請求項５記載の情報処理装置。
コンピュータに、
処理対象のコードに含まれる複数のループそれぞれに対して、当該ループで使用される変数の数、レジスタの数、前記レジスタと主記憶装置との間で前記変数の値の入出力を行うメモリ命令の数および前記レジスタに格納された前記変数の値に対する演算命令の数を含むループ情報を取得し、
前記取得したループ情報に基づいて、ループ融合の候補である前記ループの組合せに対応する前記変数の数、前記レジスタの数、前記メモリ命令の数および前記演算命令の数を、前記ループの複数の組合せそれぞれに対して算出し、
前記複数の組合せそれぞれに対して算出した前記変数の数、前記レジスタの数、および、前記メモリ命令の数と前記演算命令の数との比較に基づいて、前記複数の組合せのうち、前記ループ融合を適用する組合せを決定し、
決定した前記組合せに対して前記ループ融合を実行する、
処理を実行させるコンパイルプログラム。
コンピュータが、
処理対象のコードに含まれる複数のループそれぞれに対して、当該ループで使用される変数の数、レジスタの数、前記レジスタと主記憶装置との間で前記変数の値の入出力を行うメモリ命令の数および前記レジスタに格納された前記変数の値に対する演算命令の数を含むループ情報を取得し、
前記取得したループ情報に基づいて、ループ融合の候補である前記ループの組合せに対応する前記変数の数、前記レジスタの数、前記メモリ命令の数および前記演算命令の数を、前記ループの複数の組合せそれぞれに対して算出し、
前記複数の組合せそれぞれに対して算出した前記変数の数、前記レジスタの数、および、前記メモリ命令の数と前記演算命令の数との比較に基づいて、前記複数の組合せのうち、前記ループ融合を適用する組合せを決定し、
決定した前記組合せに対して前記ループ融合を実行する、
コンパイル方法。