JP7230719B2

JP7230719B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP7230719B2
Application number: JP2019133669A
Authority: JP
Inventors: 正樹新井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2023-03-01
Anticipated expiration: 2039-07-19
Also published as: US20210019128A1; CN112241377A; US11080030B2; EP3767461A1; JP2021018585A

Description

本発明は、情報処理装置及び情報処理方法に関する。

計算機のハードウェアリソースを効率的に利用しながらアプリケーションプログラムを実行する技術の一つにループ分割がある。ループ分割は、アプリケーションプログラムのループを複数個に分割することにより一つのループに含まれる文の個数を少なくし、キャッシュミスを抑制する技術である。このようにキャッシュミスを抑制することにより、キャッシュメモリにおけるデータの置き換えが抑制されるため、キャッシュメモリというハードウェアを有効利用することができる。

但し、アプリケーションプログラムに対するループ分割の方法は多数あり、その中からキャッシュミスを抑制できる分割方法を見つけるのは容易ではない。

特開２０１４－２３２３６９号公報

一側面によれば、ハードウェアリソースを有効利用することを目的とする。

一側面によれば、ループ内に複数の文が記述された入力プログラムの入力を受け付ける受付部と、前記入力プログラムを書き換えることにより、複数の前記文の対ごとに前記ループを実行したときに想定されるキャッシュミス回数とキャッシュヒット回数とを計数する処理を計算機に実行させるための計数プログラムを生成するプログラム生成部と、前記処理において計数した前記キャッシュミス回数と前記キャッシュヒット回数とに基づいて前記ループを複数個に分割する分割部とを有する情報処理装置が提供される。

一側面によれば、ハードウェアリソースを有効利用することができる。

図１は、ターゲットマシンのハードウェア構成図である。図２（ａ）は、セットアソシアティブ方式について説明するための模式図であり、図２（ｂ）は、タグについて説明するための模式図である。図３は、本実施形態におけるループ分割の方法の概略について説明するための模式図である。図４は、本実施形態に係る情報処理装置のハードウェア構成図である。図５は、計算機のハードウェア構成図である。図６は、本実施形態に係る情報処理プログラムの構成図である。図７は、本実施形態に係るプログラム情報の一例を示す図である。図８は、本実施形態に係る対情報の一例を示す図である。図９は、本実施形態に係る変数・配列情報を示す図である。図１０は、本実施形態に係るキャッシュ構成情報の一例を示す図である。図１１は、本実施形態に係る情報処理方法を示すフローチャートである。図１２は、本実施形態に係る情報処理装置の機能を示す機能構成図である。図１３は、本実施形態に係るプロファイル情報生成プログラムの生成方法について示すフローチャートである。図１４は、本実施形態における構成要素E1～E5を示す模式図である。図１５は、図１３のステップＰ１８において、構成要素E2である文S1を処理したときに生成される関数ACCESS_QUEUEを示す模式図である。図１６は、図１３のステップＰ１８において、構成要素E3である文S2を処理したときに生成される関数ACCESS_QUEUEを示す模式図である。図１７は、図１３のステップＰ１８において、構成要素E4である文S3を処理したときに生成される関数ACCESS_QUEUEを示す模式図である。図１８は、図１３のステップＰ１９で出力されるコードの一例を示す模式図である。図１９は、本実施形態に係るプロファイル情報生成プログラムの一例を示す模式図である。図２０は、本実施形態に係る等価プログラムの一例を示す図である。図２１は、本実施形態に係る関数ACCESSの処理内容について示すフローチャートである。図２２（ａ）は、本実施形態においてループ分割の他の例について説明するためのプロファイル情報を示す図であり、図２２（ｂ）は、分割部がループ分割を行うことで得られた出力プログラムの一例を示す図である。

本実施形態では、ターゲットマシンで実行するアプリケーションプログラムに対して以下のようにループ分割を行うことにより、そのターゲットマシンで発生するキャッシュミスを抑制する。

[ターゲットマシン]
図１は、ターゲットマシン１０のハードウェア構成図である。
ターゲットマシン１０は、HPC(High Performance Computing)用の並列計算機やPC(Personal Computer)であって、プロセッサ１１とメインメモリ１２とを有する。

プロセッサ１１は、各種の計算を行うハードウェアであって、計算コア１３とキャッシュメモリ１４とを有する。

このうち、計算コア１３は、算術演算や論理演算を行うALU(Arithmetic Logic Unit)と各種のレジスタとを備えた回路素子である。また、キャッシュメモリ１４は、計算コア１３で使用するデータを保持するSRAM(Static Random Access Memory)等のメモリである。

一方、メインメモリ１２は、計算コア１３で実行するアプリケーションプログラム１５を記憶したDRAM(Dynamic Random Access Memory)等のハードウェアである。アプリケーションプログラム１５は、入力プログラムの一例であって、ループ分割の対象となるプログラムである。

このようなターゲットマシン１０においては、アプリケーションプログラム１５に含まれる各命令が実行時に参照したデータをキャッシュメモリ１４に格納しておく。各命令が参照するデータがキャッシュメモリ１４に存在する場合、キャッシュヒットが発生したという。

キャッシュヒットが発生すると、各命令がキャッシュメモリ１４にアクセスすることによりデータを参照することができるため、各命令がメインメモリ１２にアクセスする必要がなくなり、メモリアクセスに要する時間を低減できる。

アプリケーションプログラム１５の実行から終了までの間にキャッシュヒットが発生した回数はキャッシュヒット回数と呼ばれる。そのキャッシュヒット回数が多いほど、アプリケーションプログラム１５の実行時にキャッシュメモリ１４等のハードウェア資源を有効に活用できていることになる。

一方、命令が参照するデータがキャッシュメモリ１４に存在しない場合は、キャッシュミスが発生したという。キャッシュミスには、初期参照ミスと置き換えミスの二つがある。このうち、初期参照ミスは、アプリケーションプログラム１５の実行前にキャッシュメモリ１４にデータが存在しない場合に発生するキャッシュミスである。そして、置き換えミスは、キャッシュメモリ１４に一度はデータを格納したものの、後続命令によってキャッシュメモリ１４からそのデータが追い出された場合に発生するキャッシュミスである。いずれのキャッシュミスが発生しても、データを参照するためにメインメモリ１２へのアクセスが発生し、アプリケーションプログラム１５の実行時間が遅延してしまう。

アプリケーションプログラム１５の実行から終了までの間に、初期参照ミスと置き換えミス等のキャッシュミスが発生した回数はキャッシュミス回数と呼ばれる。

キャッシュミス回数は、アプリケーションプログラム１５に記述されたループを分割し、一つのループに含まれるメモリ参照命令の個数を減らすことで低減できる。

そのアプリケーションプログラム１５は特に限定されない。但し、ループ分割によってキャッシュミスを効率的に抑制するために、一つのループを実行することで多数のメモリ参照命令が実行されるHPC用のプログラムをアプリケーションプログラム１５として採用するのが好ましい。特に、一つのループ内に数百～数千もの文が記述されたアプリケーションプログラム１５は、実行時間の大部分がループの処理で占められる。このようなループはカーネルループとも呼ばれる。そのカーネルループが記述されたアプリケーションプログラム１５に対してループ分割を行うことにより、キャッシュミスを大幅に低減できると期待される。

なお、キャッシュメモリ１４にデータを格納する方式は特に限定されないが、この例ではセットアソシアティブ方式でキャッシュメモリ１４にデータを格納する。

図２（ａ）は、セットアソシアティブ方式について説明するための模式図である。

図２（ａ）に示すように、セットアソシアティブ方式では、キャッシュメモリ１４を複数のセット１４ａに分ける。これらのセット１４ａにはセット番号sが割り当てられており、セット番号sを指定することにより各セット１４ａを一意に特定できる。

また、各々のセット１４ａには複数のブロック１４ｂが設けられる。ブロック１４ｂは、データを格納するための記憶領域である。その記憶領域の大きさを以下ではブロックサイズBと呼ぶ。

一つのセット１４ａにおけるブロック１４ｂの個数は連想度Aと呼ばれる。図２（ａ）の例では連想度は４である。その連想度Aを用いると、セット１４ａの総個数であるセット数Sを次の式（１）で表すことができる。

但し、式（１）において、Cはキャッシュメモリ１４のトータルのサイズ（バイト）である。

また、データDのアドレスをmとすると、そのデータDが格納されるセット１４ａのセット番号sは次の式（２）のように表すことができる。

これによれば、データDのアドレスmが分かれば、そのデータDを格納すべきセット１４ａを特定できる。また、特定したセット１４ａに含まれる複数のブロック１４ｂのどこにデータDを格納するかは、アドレスmから定まるタグによって決定される。

図２（ｂ）は、タグについて説明するための模式図である。
ここでは、データD₀～D₁₈のアドレスm₀～m₁₈を例にしてタグの決め方について説明する。

連想度Aが2ⁿの場合、タグは、アドレスm₀～m₁₈の上位nビットで定義される。例えば、連想度Aが2の場合は、「01000」で表されるアドレスm₈のタグは「01」となる。この場合のタグは「00」、「01」、「10」、及び「11」の四つのいずれかとなる。一つのセット１４ａにおける四つのブロック１４ｂにこれらのタグを対応付けることで、アドレスmのデータを格納すべきブロック１４ｂを決定できる。

次に、アプリケーションプログラム１５に含まれるループを分割する方法について説明する。

図３は、本実施形態におけるループ分割の方法の概略について説明するための模式図である。

この例では、アプリケーションプログラム１５がC言語のソースプログラムであり、そのプログラムにfor文を用いたループ１５ａが記述されている場合を想定する。なお、while文によりループ１５ａを記述してもよい。更に、C++やFortranによりアプリケーションプログラム１５を記述してもよい。

そして、ループ１５ａには三つの文S1、S2、S3が記述されているものとする。

この場合、本実施形態では、アプリケーションプログラム１５に基づいてプロファイル情報１７を生成する。プロファイル情報１７は、複数の文S1、S2、S3のうちの二つのみをループ１５ａ内に記述したプログラムをターゲットマシン１０で実行したときに想定されるキャッシュヒット回数とキャッシュミス回数を含む情報である。

この例では、複数の文S1、S2、S3から選択した二つを順序対で表し、その順序対をキャッシュヒット回数とキャッシュミス回数の各々に対応付ける。順序対は、ループ分割後の出力プログラム１８を実行したときに先に実行する文を第１成分、後に実行する文を第２成分とした対である。そのような対は複数あるが、ここではループ内で実行したときの実行結果がアプリケーションプログラム１５におけるのと同じになる対を順序対とする。

例えば、図３の例では、文S1、S2、S3の依存関係を無視して得られる組み合わせは(S1、S2)、(S2、S1)、(S1、S3)、(S3、S1)、(S2、S3)、及び(S3、S2)の６個である。このうち、ループ内で実行したときの実行結果がアプリケーションプログラム１５におけるのと同じ組み合わせは、(S1、S2)、(S1、S3)、(S2、S3)、及び(S3、S2)の四つである。よって、これら四つの組み合わせが順序対としてプロファイル情報１７に含まれることになる。

また、各々の順序対を一意に識別するための番号もそのプロファイル情報１７に含まれる。

図３のプロファイル情報１７によれば、順序対(S1、S2)のキャッシュヒット回数が最も多いため、一つのループに文S1、S2のみを記述することでキャッシュヒット率を高めることができる。

そこで、本実施形態では、アプリケーションプログラム１５のループ１５ａを二つのループ１５ｂ、１５ｃに分割し、そのうちのループ１５ｂに文S1、S2のみが記述された出力プログラム１８を生成する。そして、残りの文S3は、別のループ１５ｃ内に単独で記述する。

これにより、文S1、S2とは異なる文の組み合わせをループ１５ｂに記述した場合と比較して、ターゲットマシン１０で出力プログラム１８を実行した場合のキャッシュヒット率を高めることが可能となる。

また、本実施形態では、プロセッサ１１の動作を模擬するCPUシミュレータ上でアプリケーションプログラム１５を実行せずに、アプリケーションプログラム１５から後述のようにプロファイル情報１７を生成する。そのため、ターゲットマシン１０と比べて動作が遅いCPUシミュレータを利用する場合と比較して高速にプロファイル情報１７を取得できる。

なお、キャッシュヒット回数やキャッシュミス回数は、ターゲットマシン１０のプロセッサ１１に内蔵されたレジスタを利用して計数することもできる。しかし、この場合には、アプリケーションプログラム１５の全体を実行した場合のキャッシュヒット回数やキャッシュミス回数を計数できるものの、プロファイル情報１７のように文の順序対ごとの回数を取得することはできない。

次に、プロファイル情報１７を生成したりループ分割を行ったりするための本実施形態に係る情報処理装置について説明する。

[ハードウェア構成]
図４は、本実施形態に係る情報処理装置のハードウェア構成図である。

この情報処理装置２０は、各々が独立して計算を行う複数の計算機２１と、各計算機２１を相互に接続するネットワーク２２と、そのネットワーク２２に接続された記憶装置２３とを備える。

このうち、記憶装置２３は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等の二次記憶装置であり、アプリケーションプログラム１５と情報処理プログラム２４を記憶する。情報処理プログラム２４は、アプリケーションプログラム１５に基づいてプロファイル情報１７を生成し、そのプロファイル情報１７に基づいてアプリケーションプログラム１５のループ分割を行うプログラムである。

また、計算機２１は、プロファイル情報１７を取得するためのマシンである。この例では、キャッシュメモリ１４のセット番号sに対応するように複数の計算機２１を用意する。そして、各々の計算機２１が、自身に対応したセット番号sにおけるキャッシュヒット回数とキャッシュミス回数とを含むプロファイル情報１７を生成する。このように複数の計算機２１の各々が並列して計算を実行することによりプロファイル情報１７を高速に生成することができる。

なお、プロファイル情報１７を生成する時間が問題にならない場合には、全てのセット番号sのプロファイル情報１７を一台の計算機２１が生成するようにしてもよい。

図５は、各計算機２１のハードウェア構成図である。
計算機２１は、例えばサーバやPC等であって、メインメモリ２５、プロセッサ２６、入力装置２７、表示装置２８、及びネットワークインターフェース２９を備える。これらの各部はバス３０によって相互に接続される。

このうち、メインメモリ２５は、DRAM等のようにデータを一時的に記憶するハードウェアであって、その上に前述の情報処理プログラム２４が展開される。

プロセッサ２６は、計算機２１の各部を制御したり、メインメモリ２５と協働して情報処理プログラム２４を実行したりするCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のハードウェアである。

なお、情報処理プログラム２４をコンピュータが読み取り可能な記録媒体３１に記録させておき、プロセッサ２６に記録媒体３１の情報処理プログラム２４を読み取らせるようにしてもよい。

そのような記録媒体３１としては、例えばCD-ROM(Compact Disc - Read Only Memory)、DVD(Digital Versatile Disc)、及びUSB(Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体３１として使用してもよい。これらの記録媒体３１は、物理的な形態を持たない搬送波のような一時的な媒体ではない。

更に、公衆回線、インターネット、及びLAN(Local Area Network)等に接続された装置に情報処理プログラム２４を記憶させておき、プロセッサ２６が情報処理プログラム２４を読み出して実行するようにしてもよい。

一方、入力装置２７は、キーボードやマウス等の入力デバイスである。ユーザがこれらの入力デバイスを操作することにより、情報処理プログラム２４の実行時に各種の指示を計算機２１に与えることができる。

また、表示装置２８は、情報処理プログラム２４の実行時にユーザが使用する様々なコマンドを表示する液晶ディスプレイ等の表示デバイスである。

なお、以下では複数の計算機２１が情報処理プログラム２４を実行する場合を例にして説明するが、ターゲットマシン１０（図１参照）が情報処理プログラム２４を実行することにより以下の各処理や機能を実現してもよい。

[プログラム構成]
図６は、本実施形態に係る情報処理プログラム２４の構成図である。
図６に示すように、情報処理プログラム２４は、コンパイラ４１、プログラムトランスレータ４２、プロファイル情報生成プログラム４３、及び分割実行プログラム４４を有する。

このうち、コンパイラ４１は、アプリケーションプログラム１５が有する様々な情報をプログラム情報４５として出力する。

図７は、図３のアプリケーションプログラム１５を基にしてコンパイラ４１が出力したプログラム情報４５の一例を示す図である。

図７に示すように、プログラム情報４５には、アプリケーションプログラム１５に含まれる各配列A、B、Cの開始アドレスが含まれる。また、各配列A、B、Cの次元情報や、配列要素あたりのバイト数等もそのプログラム情報４５に含まれる。

再び図６を参照する。
プログラムトランスレータ４２は、アプリケーションプログラム１５を書き換えることによりプロファイル情報生成プログラム４３を生成するプログラムである。そのプロファイル情報生成プログラム４３を生成するとき、プログラムトランスレータ４２は対情報４６を利用する。

図８は、対情報４６の一例を示す図である。
対情報４６は、プロファイル情報１７（図３参照）の順序対を含む情報である。前述のように、その順序対は、複数の文の対のうちで、ループ内で実行したときの実行結果がアプリケーションプログラム１５におけるのと同じになる対である。

例えば、図３のアプリケーションプログラム１５の例では、(S1、S2)、(S1、S3)、(S2、S3)、及び(S3、S2)の四つが順序対として対情報４６に格納される。また、この例では、各順序対を一意に識別する番号を対情報４６に格納する。

そのプロファイル情報１７は、コンパイラ４１が各文の依存関係を解析することにより生成してもよいし、ユーザが生成してもよい。

再び図６を参照する。
プロファイル情報生成プログラム４３は、計数プログラムの一例であって、前述のプロファイル情報１７を生成するプログラムである。

そのプロファイル情報１７を生成する際、プロファイル情報生成プログラム４３は、プログラム情報４５、変数・配列情報４７、及びキャッシュ構成情報４８とを参照する。

図９は、図３のアプリケーションプログラム１５を利用したときの変数・配列情報４７の一例を示す図である。

図９に示すように、変数・配列情報４７には変数Nが格納される。図３のアプリケーションプログラム１５に示されるように、変数Nは、ループ１５ａの回転数を表す変数である。また、このアプリケーションプログラム１５では各配列A、B、CにN個の要素が格納されるため、変数Nはこれらの配列A、B、Cの次元数を表す変数でもある。

図１０は、キャッシュ構成情報４８の一例を示す図である。
図１０に示すように、キャッシュ構成情報４８には、ターゲットマシン１０（図１参照）のキャッシュメモリ１４の連想度A、ブロックサイズB、及びセット数Sの各々の値が格納される。

再び図６を参照する。
分割実行プログラム４４は、プロファイル情報１７を利用してアプリケーションプログラム１５のループ１５ａ（図３参照）を複数個に分割し、分割後のプログラムを出力プログラム１８として出力する。

[情報処理方法]
次に、情報処理装置２０でこの情報処理プログラム２４を実行することにより実現される本実施形態に係る情報処理方法の処理の概略について説明する。

図１１は、本実施形態に係る情報処理方法を示すフローチャートである。

まず、ステップＰ１において、情報処理装置２０がアプリケーションプログラム１５の入力を受け付ける。

次いで、ステップＰ２において、アプリケーションプログラム１５に基づいてコンパイラ４１が対情報４６を生成する。

次に、ステップＰ３に移り、対情報４６を利用してプログラムトランスレータ４２がプロファイル情報生成プログラム４３を生成する。

そして、ステップＰ４に移り、プロファイル情報生成プログラム４３がプロファイル情報１７を生成する。

続いて、ステップＰ５に移り、プロファイル情報１７を利用することにより、分割実行プログラム４４が、アプリケーションプログラム１５のループを分割する。

[機能構成]
次に、本実施形態に係る情報処理装置２０の機能構成について説明する。

図１２は、本実施形態に係る情報処理装置２０の機能を示す機能構成図である。

図１２に示すように、情報処理装置２０は、受付部５１、プログラム生成部５２、計数部５３、及び分割部５４を有する。

このうち、受付部５１とプログラム生成部５２は、図５のプロセッサ２６とメインメモリ２５が協働して前述のプログラムトランスレータ４２を実行することにより実現される。

受付部５１は、アプリケーションプログラム１５の入力を受け付ける機能ブロックである。そして、プログラム生成部５２は、入力されたアプリケーションプログラム１５に基づいてプロファイル情報生成プログラム４３を生成する機能ブロックである。

一方、計数部５３は、図５のプロセッサ２６とメインメモリ２５が協働して前述のプロファイル情報生成プログラム４３を実行することにより実現される。その計数部５３は、アプリケーションプログラム１５に含まれる複数の文の順序対ごとにループを実行したときに想定されるキャッシュミス回数とキャッシュヒット回数とを計数し、その結果をプロファイル情報１７（図３参照）に書き込む。

なお、図４のようにセット番号sに対応した複数の計算機２１を用いる場合には、これらの計算機２１の各々において上記の計数部５３が実現される。そして、各々の計数部５３は、並列して自装置のセット番号sにおけるキャッシュミス回数とキャッシュヒット回数とを計数することになる。

分割部５４は、図５のプロセッサ２６とメインメモリ２５が協働して分割実行プログラム４４を実行することにより実現される機能ブロックである。その分割部５４は、プロファイル情報１７のキャッシュミス回数とキャッシュヒット回数とに基づいて、図３のようにループ１５ａを複数個のループ１５ｂ、１５ｃに分割する。

[プログラム生成部５２の処理]
次に、前述のプログラム生成部５２の処理について説明する。
プログラム生成部５２は、アプリケーションプログラム１５を書き換えることによりプロファイル情報生成プログラム４３を生成する。ここでは、そのプロファイル情報生成プログラム４３としてC言語のソースプログラムを生成する。その生成方法について以下に説明する。

図１３は、本実施形態に係るプロファイル情報生成プログラム４３の生成方法について示すフローチャートである。

なお、以下では、図３のアプリケーションプログラム１５を利用してプロファイル情報生成プログラム４３を生成する場合について説明する。

まず、ステップＰ１０において、プログラム生成部５２が、アプリケーションプログラム１５を複数の構成要素E1～E5に分解する。

図１４は、構成要素E1～E5を示す模式図である。
構成要素E1～E5は、アプリケーションプログラム１５のソースコードを意味のあるまとまりに分解して得られた要素である。例えば、セミコロン「;」で終端する文S1～S3の各々は構成要素E2～E4となる。また、構成要素E1のようなループの宣言も構成要素となる。なお、ループの宣言は、for文とその初期化式「i=0」、継続条件式「i<N」、及び変化式「i++」、始まりの括弧「{」を指す。また、ループの終わりの括弧「}」は構成要素E5となる。

次いで、ステップＰ１１に移り、複数の構成要素E1～E5のうちで次に処理する構成要素を選択する。ここでは、E1、E2、E3、E4、E5の順に選択していくものとする。

次に、ステップＰ１２に移り、プログラム生成部５２が、次に処理すべき構成要素がないかどうかを判定する。
ここで、ＮＯと判定された場合にはステップＰ１３に移る。

そのステップＰ１３においては、プログラム生成部５２が、処理すべき構成要素がループの宣言かどうかを判定する。例えば、構成要素E1はループの宣言である（ＹＥＳ）と判定される。

そして、このようにＹＥＳと判定された場合にはステップＰ１４に移り、プログラム生成部５２が、プロファイル情報生成プログラム４３に、ステップＰ１１で選択した構成要素を記述する。例えば、構成要素E1がプロファイル情報生成プログラム４３に記述される。

一方、ステップＰ１３においてＮＯと判断された場合にはステップＰ１５に移る。

ステップＰ１５においては、プログラム生成部５２が、構成要素がループを閉じる括弧かどうかを判断する。例えば、構成要素E5は、ループを閉じる括弧である（ＹＥＳ）と判断される。

そして、このようにＹＥＳと判定された場合にはステップＰ１４に移り、プログラム生成部５２が、プロファイル情報生成プログラム４３に構成要素を記述する。例えば、構成要素E5がプロファイル情報生成プログラム４３に記述される。

一方、ステップＰ１５においてＮＯと判断された場合にはステップＰ１６に移る。

ステップＰ１６では、プログラム生成部５２が、ステップＰ１１で選択した構成要素がループの回転数に影響する代入文であるかどうかを判断する。例えば、図３のアプリケーションプログラム１５では、変数「N」がループの回転数である。その変数「N」を変えるような代入文が存在する場合にはＹＥＳと判断され、ステップＰ１４においてその代入文がプロファイル情報生成プログラム４３に記述される。

図３の例では変数「N」を変えるような代入文が存在しないためＮＯと判断される。
このようにＮＯと判断された場合にはステップＰ１７に移る。

ステップＰ１７においては、処理すべき構成要素をアプリケーションプログラム１５から削除する。例えば、図１４の構成要素E2～E4がアプリケーションプログラム１５から削除される。

次に、ステップＰ１８に移り、プログラム生成部５２が、ステップＰ１１で選択した構成要素を利用して関数ACCESS_QUEUE(c, order, s, a)を生成する。そして、プログラム生成部５２は、その関数ACCESS_QUEUE(c, order, s, a)をプロファイル情報生成プログラム４３に記述する。

なお、関数ACCESS_QUEUE(c, order, s, a)は、各構成要素に含まれる配列等の項ごとに生成される。例えば、構成要素E2においては項として二つの配列A、Xが含まれているため、これらの配列A、Xごとに関数ACCESS_QUEUE(c, order, s, a)が生成される。

関数ACCESS_QUEUE(c, order, s, a)は、引数の「order」の値に応じて後述の関数ACCESS(c, s, a)を呼び出したり、その呼び出しを待ち行列に保存したりするためのライブラリ関数である。

例えば、「order」が「0」の場合には、関数ACCESS_QUEUE(c, order, s, a)は、その内部で関数ACCESS(c, s, a)を直ちに呼び出す。

一方、「order」が「1」の場合には、関数ACCESS_QUEUE(c, order, s, a)は、その呼び出しを待ち行列に保存する。そして、「order」が「0」の後続の関数ACCESS_QUEUEの実行を終えた後に、関数ACCESS_QUEUE(c, order, s, a)は、待ち行列にある関数ACCESS(c, s, a)を呼び出す。

なお、関数ACCESS_QUEUE(c, order, s, a)の第１引数「c」は、シミュレーションの対象となるキャッシュメモリ１４を識別する識別子である。本実施形態では、順序対（図８参照）ごとに異なるキャッシュメモリ１４を利用することを想定する。よって、順序対の番号（図８参照）と第１引数「c」とは一対一に対応する。

また、第２引数の「s」は、キャッシュメモリ１４のセット番号である。そして、第３引数の「a」は、ステップＰ１１で選択した構成要素に含まれる配列の先頭アドレスである。

ステップＰ１８の処理について、前述の構成要素E2～E4を例にして詳細に説明する。
まず、構成要素E2が処理対象の場合を考える。

図１５は、ステップＰ１８において、構成要素E2である文S1を処理したときに生成される関数ACCESS_QUEUE(c, order, s, a)を示す模式図である。

関数ACCESS_QUEUE(c, order, s, a)は、文S1にある二つの配列要素A[i]、X[i]と、文S1を含む二つの順序対(S1,S2)、(S1,S3)との組み合わせの総数だけ生成される。よって、この例では４個（＝２×２個）の関数ACCESS_QUEUE(c, order, s, a)が生成される。

これらの関数ACCESS_QUEUE(c, order, s, a)の引数は次のように決定される。

まず、第１引数の「c」には、シミュレーションの対象となるキャッシュメモリ１４を識別する「cache1」や「cache2」等の識別子がセットされる。ここでは、ターゲットマシン１０（図１参照）に４個のキャッシュメモリ１４が設けられた場合を想定し、これらのキャッシュメモリ１４の各々をcache1～chace4の識別子で識別する。

第２引数の「order」は、文S1が順序対の第１成分と第２成分のどちらにあるかに応じて決まる。以下では、文が第１成分にあるときに「order」を「0」とし、文が第２成分にあるときに「order」を「1」にする。

順序対(S1,S2)、(S1,S3)のいずれにおいても文S1は第１成分にある。よって、図１５の例では「order」は「0」となる。

第３引数の「s」は、キャッシュミス回数やキャッシュヒット回数の計測の対象となるセット番号である。そのセット番号は、プロファイル情報生成プログラム４３の実行時に関数ACCESS_QUEUE(c, order, s, a)に渡すため、この段階ではセットしない。

そして、第４引数の「a」には、文S1に含まれる二つの配列要素A[i]、X[i]の各々のアドレスaddress(X[i])、address(A[i])がセットされる。例えば、この例のようにC言語でプロファイル情報生成プログラムを記述する場合には、&演算子で第４引数にアドレスをセットすればよい。

次に、ステップＰ１８において構成要素E3を処理する場合について説明する。

図１６は、ステップＰ１８において、構成要素E3である文S2を処理したときに生成される関数ACCESS_QUEUE(c, order, s, a)を示す模式図である。

この場合、関数ACCESS_QUEUE(c, order, s, a)は、文S2にある３個の配列要素B[i]、A[i]、X[i+4]と、文S2を含む３個の順序対(S1,S2)、(S2,S3)、(S3,S2)との組み合わせの総数だけ生成される。よって、９個（＝３×３個）の関数ACCESS_QUEUE(c, order, s, a)が生成される。

また、これら９個の関数ACCESS_QUEUE(c, order, s, a)の引数も図１５の例と同様にして決定される。

例えば、最初の関数ACCESS_QUEUE(cache1, 1, s, address(A[i]))の第１引数は、順序対(S1,S2)の番号である１に対応して「cache1」となる。また、その順序対(S1,S2)の第２成分に文S2があるため、第２引数は「1」となる。そして、第４引数は、文S2に含まれる配列要素A[i]のアドレスであるaddress(A[i])となる。

次に、ステップＰ１８において構成要素E4を処理する場合について説明する。

図１７は、ステップＰ１８において、構成要素E4である文S3を処理したときに生成される関数ACCESS_QUEUE(c, order, s, a)を示す模式図である。

この場合、関数ACCESS_QUEUE(c, order, s, a)は、文S3にある３個の配列要素C[i]、A[i]、X[i+8]と、文S3を含む３個の順序対(S1,S3)、(S2,S3)、(S3,S2)との組み合わせの総数だけ生成される。よって、９個（＝３×３個）の関数ACCESS_QUEUEが生成される。

再び図１３を参照する。
上記のようにしてステップＰ１８を終えた後はステップＰ１１に再び戻る。そして、ステップＰ１２において、処理すべき構成要素がない（ＹＥＳ）と判断された場合はステップＰ１９に移る。

ステップＰ１９においては、キャッシュヒット回数やキャッシュミス回数等の結果を出力するコードをプロファイル情報生成プログラム４３に記述する。

図１８は、ステップＰ１９で出力されるコードの一例を示す模式図である。

この例では、そのコードとして、cache1～cache4の各々に対応した４個の関数DUMP(c, s)を出力する。

関数DUMP(c, s)は、第１引数として関数ACCESS_QUEUE(c, order, s, a)の第１引数「c」を受け取ると共に、第２引数としてキャッシュメモリのセット番号「s」を受け取る。この例では、第１引数「c」としてcache1～cache4のいずれかがセットされる。また、第２引数のセット番号「s」は、プロファイル情報生成プログラム４３の実行時に関数DUMP(c, s)に渡すため、この段階ではセットしない。

この関数DUMP(c, s)を実行すると、図３のプロファイル情報１７が出力される。例えば、関数DUMP(cache1, s)を実行すると、番号１の順序対(S1,S2)を一つのループで実行したときのキャッシュヒット回数とキャッシュミス回数が出力される。

また、関数DUMP(cache2, s)を実行すると、番号２の順序対(S1,S3)を一つのループで実行したときのキャッシュヒット回数とキャッシュミス回数が出力される。同様に、関数DUMP(cache3, s)、関数DUMP(cache4, s)を実行することにより、番号３と番号４のそれぞれの順序対(S2,S3)、(S3,S2)を一つのループで実行したときの結果が出力される。
以上により、図１３のフローチャートの処理を終える。

図１９は、このようにアプリケーションプログラム１５を書き換えることにより最終的に得られるプロファイル情報生成プログラム４３の一例を示す模式図である。

図１９に示すように、このプロファイル情報生成プログラム４３では、構成要素E1と構成要素E5でfor文によるループが記述される。なお、プロファイル情報生成プログラム４３を実行する際にはループの回転数を表す変数「N」の値を定める必要があるが、その値は図９の変数・配列情報４７から定めることができる。

そして、そのループの内側にステップＰ１８で生成した関数ACCESS_QUEUE(c, order, s, a)が記述される。更に、そのループの処理の後に関数DUMP(c, s)が記述される。

前述のように、関数ACCESS_QUEUE(c, order, s, a)は、その内側で関数ACCESS(c, s, a)を呼び出す。そして、その呼び出しを直ちに実行するか待ち行列に保存するかは、関数ACCESS_QUEUE(c, order, s, a)の第３引数「order」の値に応じて定まる。

図２０は、関数ACCESS(c, s, a)を呼び出すタイミングが図１９のプロファイル情報生成プログラム４３におけるのと同じになるように複数の関数ACCESS(c, s, a)を並べた等価プログラム６０の一例を示す図である。

等価プログラム６０は、プロファイル情報生成プログラム４３と同じ実行結果が得られるC言語のソースプログラムである。

その等価プログラム６０においては、for文のループ６０ｘの内側に複数の関数ACCESS(c, s, a)が記述される。各関数ACCESS(c, s, a)の各々は、プロファイル情報生成プログラム４３における複数の関数ACCESS_QUEUE(c, order, s, a)の各々の内部に記述されており、対応する関数ACCESS_QUEUE(c, order, s, a)から引数「c」、「s」、「a」を受けとる。

また、各関数ACCESS (c, s, a)の出現順序は、プロファイル情報生成プログラム４３における各関数ACCESS_QUEUE(c, order, s, a)を第１引数「c」と第２引数「order」でソートした順序と同じである。

これにより、複数の関数ACCESS(c, s, a)は、順序対(S1,S2)、(S1,S3)、(S2,S3)、(S3,S2)ごとに複数の計数処理６０ａ～６０ｄに分けられる。

このうち、計数処理６０ａは、対情報４６（図８参照）の番号１の順序対(S1,S2)のみを一つのループ１５ａで実行したときに想定されるキャッシュヒット回数とキャッシュミス回数とを計数する処理である。

また、計数処理６０ｂは、番号２の順序対(S1,S3)のみを一つのループ１５ａで実行したときに想定されるキャッシュヒット回数とキャッシュミス回数とを計数する処理である。

同様に、計数処理６０ｃ、６０ｄは、それぞれ番号３、４の順序対(S2,S3)、(S3,S2)のみを一つのループ１５ａで実行したときに想定されるキャッシュヒット回数とキャッシュミス回数とを計数する処理である。

前述のように、文S1、S2、S3の依存関係を無視して得られる組み合わせは(S1、S2)、(S2、S1)、(S1、S3)、(S3、S1)、(S2、S3)、及び(S3、S2)の６個である。このうち、ループ１５ａ内で実行したときの実行結果がアプリケーションプログラム１５におけるのと同じになる順序対は(S1、S2)、(S1、S3)、(S2、S3)、及び(S3、S2)の四つである。

本実施形態では、プログラム生成部５２が、これら四つの順序対に対応した計数処理６０ａ～６０ｄのみをプロファイル情報生成プログラム４３に記述する。そして、プログラム生成部５２は、これ以外の文の対に対してキャッシュヒット回数とキャッシュミス回数を計数する処理をプロファイル情報生成プログラム４３に記述しない。

これにより、アプリケーションプログラム１５におけるのと実行結果が異なる文の対に対して無駄にキャッシュヒット回数等を計数しなくて済み、プロファイル情報生成プログラム４３の実行時間を高速化することができる。

しかも、計数処理６０ａ～６０ｄを一つのループ６０ｘ内に記述することにより、このループ６０ｘの実行が終了したときに各計数処理６０ａ～６０ｄの実行結果を一括して取得できる。その結果、ループ６０ｘの実行が終了したときに(S1、S2)、(S1、S3)、(S2、S3)、及び(S3、S2)の各順序対についてのキャッシュヒット回数やキャッシュミス回数を一括して取得でき、これらの回数を効率的に取得することができる。

次に、図１２の計数部５３の機能について説明する。
計数部５３の機能は、関数ACCESS(c, s, a)を含むプロファイル情報生成プログラム４３（図１９参照）をメインメモリ２５とプロセッサ２６が協同して実行することにより実現される。

関数ACCESS(c, s, a)は、キャッシュヒット回数やキャッシュミス回数を計数したり、キャッシュメモリ１４におけるデータの置き換えをシミュレーションしたりする関数である。シミュレーションの対象となるキャッシュメモリ１４は第１引数「c」で指定される。また、第２引数「s」は、キャッシュメモリ１４においてシミュレーションの対象となるセット番号である。そして、第３引数「a」はデータのアドレスである。

次に、関数ACCESS(c, s, a)の処理内容について説明する。

図２１は、関数ACCESS(c, s, a)の処理内容について示すフローチャートである。

関数ACCESS(c, s, a)は、実行時に前述のプログラム情報４５、変数・配列情報４７、及びキャッシュ構成情報４８を含む設定ファイルを読み込み、以下の各処理を行う。

例えば、関数ACCESS(c, s, a)は、図１０のキャッシュ構成情報４８から連想度A、セット数S、及びブロックサイズBを取得する。なお、以下では連想度Aが４の場合を例にして説明するが、これ以外の連想度のキャッシュメモリ１４に対してシミュレーションを行ってもよい。

まず、ステップＰ２０において、計数部５３が、第３引数のアドレスaからタグTを求める。例えば、計数部５３は、図２（ｂ）に示したように、アドレスaの上位２ビットをタグTとして求める。

これと共に、計数部５３は、アドレスaに対応するセット番号s_0を求める。セット番号s_0は、アドレスa、セット数S、及びブロックサイズBを用いて前述の式（２）から求めることができる。

次に、ステップＰ２１に移り、計数部５３が、第２引数のsがセット番号s_0に等しいかどうかを判断する。ここでＮＯと判断された場合には処理を終える。

一方、ＹＥＳと判断された場合にはステップＰ２２に移る。
ステップＰ２２においては、計数部５３が変数HIT_Pを-1に初期化する。

変数HIT_Pは、アドレスaのデータが四つのブロック１４ｂのどれに格納されているのかを識別する整数値の変数である。この例では、アドレスaのデータが四つのブロック１４ｂのいずれかに存在することが後のステップで判明した場合には、これらのブロック１４ｂの各々に対応した0～3のいずれかの値が変数HIT_Pにセットされる。

なお、HIT_P=-1の場合には、アドレスaのデータが四つのブロック１４ｂのいずれにも存在しない。

次に、ステップＰ２３に移り、計数部５３が、タグTが変数A_0に等しいかどうかを判断する。変数A_0～A_3は、変数HIT_Pの値が0～4のそれぞれのブロック１４ｂのタグを表す。

また、LRU(Least Recently Used)法によるキャッシュメモリ１４のデータの置き換えを模擬するために、ここでは変数A_0～A_3に対応したブロック１４ｂの各々にアクセス時刻が古い順にデータを格納するものとする。これにより、変数A_0に対応したブロック１４ｂには、アクセス時刻が最も古いデータが格納されることになる。そして、変数A_3に対応したブロック１４ｂには、アクセス時刻が最も新しいデータが格納されることになる。

なお、このフローチャートの実行前に、変数A_0～A_3は全て-1に初期化されている。

ステップＰ２３においてＹＥＳと判断された場合には、変数A_0に対応したブロック１４ｂに、アドレスaのデータが存在するということになる。

そこで、この場合には、ステップＰ２４に移り、計数部５３が変数HIT_Pに0をセットする。これと共に、計数部５３が、変数HIT_Cの値を１だけインクリメントする。変数HIT_Cは、キャッシュヒット回数を格納するための整数値の変数である。なお、このフローチャートの実行前に、変数HIT_Cは0に初期化されているものとする。

一方、ステップＰ２３においてＮＯと判断された場合には、ステップＰ２５に移る。ステップＰ２５においては、計数部５３が、タグTが変数A_1に等しいかどうかを判断する。

ここで、ＹＥＳと判断された場合には、変数A_1に対応したブロック１４ｂに、アドレスaのデータが存在するということになる。

そこで、この場合には、ステップＰ２６に移り、計数部５３が変数HIT_Pに1をセットする。これと共に、計数部５３が、変数HIT_Cの値を１だけインクリメントする。

一方、ステップＰ２５においてＮＯと判断された場合には、ステップＰ２７に移る。

ステップＰ２７においては、タグTが変数A_2に等しいかどうかを計数部５３が判断する。ここでＹＥＳと判断された場合には、ステップＰ２８において計数部５３が変数HIT_Pに2をセットすると共に、変数HIT_Cの値を１だけインクリメントする。

一方、ステップＰ２７においてＮＯと判断された場合には、ステップＰ２９に移る。

ステップＰ２９においては、計数部５３が、タグTが変数A_3に等しいかどうかを判断する。ここでＹＥＳと判断された場合には、ステップＰ３０において計数部５３が変数HIT_Pに3をセットすると共に、変数HIT_Cの値を１だけインクリメントする。

一方、ステップＰ２９においてＮＯと判断された場合にはステップＰ３１に移る。

このようにステップＰ２９でＮＯと判断されるのは、タグTが変数A_0～A_3のいずれにも等しくなく、アドレスaのデータが四つのキャッシュブロックのいずれにも存在しない場合である。

よって、ステップＰ３１では、計数部５３が、キャッシュミス回数を格納する整数値の変数MISS_Cを１だけインクリメントする。なお、このフローチャートの実行前に、変数MISS_Cは0に初期化されているものとする。

また、ステップＰ２２で変数HIT_Pに-1をセットしてからステップＰ３１を実行するまでの間に変数HIT_Pの値を変更するような処理は行わないため、ステップＰ３１を終えた段階では変数HIT_Pの値は-1となっている。

上記のようにしてステップＰ２４、Ｐ２６、Ｐ２８、Ｐ３０、Ｐ３１を終えた後はステップＰ３２に移る。

そのステップＰ３２以降では、キャッシュメモリ１４のデータの置き換えをLRU法で行う場合をシミュレーションする。

まず、ステップＰ３２において、計数部５３が、変数HIT_Pが-1に等しいかどうかを判断する。

ここでＹＥＳと判断された場合には、前述のようにアドレスaのデータが四つのキャッシュブロックのいずれにも存在しないということになる。

この場合は、ステップＳ３３に移り、計数部５３が、A_0←A_1、A_1←A_2、A_2←A_3、A_3←Tの順に変数を代入していく。この順に代入を行うことで、代入後の変数A_0～A_3のいずれも代入前のA_0の値を保持しなくなるため、A_0に対応したデータのキャッシュメモリからの追い出しを模擬できる。また、最後にTの値を変数A_3に代入することにより、キャッシュメモリにおける最も新しいデータが、変数A_3に対応するブロック１４ｂに格納されたことを模擬できる。

そして、このように変数A_0～A_3の値を変更した後に処理を終える。

一方、ステップＰ３２においてＮＯと判断された場合にはステップＰ３４に移る。

ステップＰ３４においては、計数部５３が、変数HIT_Pが0に等しいかどうかを判断する。

ここで、ＹＥＳと判断された場合には、アドレスaのデータが、変数A_0に対応したブロック１４ｂに存在することになる。

この場合は、ステップＰ３５に移り、計数部５３が、tmp←A_0、A_0←A_1、A_1←A_2、A_2←A_3、A_3←tmpの順に変数を代入していく。なお、tmpは、代入を行うための一時的な変数である。

これにより、代入前の変数A_0の値が変数A_3に代入されるため、最も新しくアクセスしたデータが変数A_3に対応したブロック１４ｂに存在することを模擬できる。

また、ステップＰ３４においてＮＯと判断された場合にはステップＰ３６に移る。

ステップＰ３６においては、計数部５３が、変数HIT_Pが1に等しいかどうかを判断する。

ここで、ＹＥＳと判断された場合には、アドレスaのデータが、変数A_1に対応したブロック１４ｂに存在することになる。

この場合は、ステップＰ３７に移り、計数部５３が、tmp←A_1、A_1←A_2、A_2←A_3、A_3←tmpの順に変数を代入していく。

これにより、代入前の変数A_1の値が変数A_3に代入されるため、最も新しくアクセスしたデータが変数A_3に対応したブロック１４ｂに存在することを模擬できる。

そして、このように変数A_1～A_3の値を変更した後に処理を終える。

また、ステップＰ３６においてＮＯと判断された場合にはステップＰ３８に移る。

ステップＰ３８においては、計数部５３が、変数HIT_Pが2に等しいかどうかを判断する。

ここで、ＹＥＳと判断された場合には、アドレスaのデータが、変数A_2に対応したブロック１４ｂに存在することになる。

この場合は、ステップＰ３９に移り、計数部５３が、tmp←A_2、A_2←A_3、A_3←tmpの順に変数を代入していく。

これにより、代入前の変数A_2の値が変数A_3に代入されるため、最も新しくアクセスしたデータが変数A_3に対応したブロック１４ｂに存在することを模擬できる。

そして、このように変数A_2、A_3の値を変更した後に処理を終える。

一方、ステップＳ３８でＮＯと判断された場合には、変数HIT_Pが3に等しく、アドレスaのデータが変数A_3に対応したブロック１４ｂに存在することになる。前述のように、変数A_3は、アクセス時刻が最も新しいブロック１４ｂに対応する。よって、この場合は、変数A_3の値を変更する必要はなく、処理を終える。

以上により、関数ACCESS(c, s, a)の処理が終了する。

このような関数ACCESS(c, s, a)が記述された等価プログラム６０（図２０参照）を実行すると、セット番号sにおけるキャッシュヒット回数が変数HIT_Pに格納され、キャッシュミス回数が変数MISS_Cに格納される。

これらの変数HIT_P、MISS_Cの値は、関数DUMP(c, s)によってキャッシュヒット回数とキャッシュミス回数として出力される。これにより、図３に示したようなプロファイル情報１７を得ることができる。

以上説明した本実施形態によれば、図６に示したように、アプリケーションプログラム１５を書き換えることによりプロファイル情報生成プログラム４３を生成する。そして、そのプロファイル情報生成プログラム４３を実行することにより計数部５３がキャッシュヒット回数とキャッシュミス回数とを計数し、これらの値がプロファイル情報１７に書き出される。

そのキャッシュヒット回数とキャッシュミス回数は、文S1～S3から選択した二つの文の順序対ごとにループ１５ａを実行した場合に想定される値となる。そのため、順序対のうちでキャッシュヒット回数が最も多い順序対のみが一つのループに含まれるように分割部５４がループ１５ａを分割することにより、キャッシュメモリ１４におけるデータの置き換えが抑制される。その結果、キャッシュメモリ１４というハードウェアリソースを有効利用できると共に、ターゲットマシン１０（図１参照）におけるアプリケーションプログラム１５の実行速度を向上させることができる。

しかも、本実施形態では、文の順序対ごとのキャッシュミス回数等を取得するのが困難なCPUシミュレータやターゲットマシン１０を使用せず、アプリケーションプログラム１５からプロファイル情報生成プログラム４３を生成する。

これにより、前述のようにアプリケーションプログラム１５に含まれる文S1～S3の順序対ごとのキャッシュヒット回数やキャッシュミス回数を簡単に計数できる。

なお、分割部５４によるループ分割の方法は上記に限定されない。
図２２（ａ）は、ループ分割の他の例について説明するためのプロファイル情報１７を示す図である。

この例では、順序対(S1,S2)と(S1,S3)のそれぞれのキャッシュヒット回数が５００回で同じ値となっている。但し、キャッシュミス回数は、順序対(S1,S2)では２０回であるのに対し、順序対(S1,S3)では１０回となっている。

図２２（ｂ）は、この場合に分割部５４がループ分割を行うことで得られた出力プログラム１８の一例を示す図である。

この場合は、分割部５４は、キャッシュヒット回数が同じ順序対(S1,S2)と(S1,S3)のうちでキャッシュミス回数が最も少ない順序対(S1,S3)のみが一つのループ１５ｂに含まれるようにループ分割を行う。

これにより、順序対(S1,S3)とは別の順序対をループ１５ｂに含めた場合と比較して、ループ１５ｂを実行したときのキャッシュミス回数を低減することができる。

以上説明した各実施形態に関し、更に以下の付記を開示する。
（付記１）ループ内に複数の文が記述された入力プログラムの入力を受け付ける受付部と、
前記入力プログラムを書き換えることにより、複数の前記文の対ごとに前記ループを実行したときに想定されるキャッシュミス回数とキャッシュヒット回数とを計数する処理を計算機に実行させるための計数プログラムを生成するプログラム生成部と、
前記処理において計数した前記キャッシュミス回数と前記キャッシュヒット回数とに基づいて前記ループを複数個に分割する分割部と、
を有することを特徴とする情報処理装置。
（付記２）前記プログラム生成部は、複数の前記対ごとに前記キャッシュミス回数と前記キャッシュヒット回数とを計数する計数処理を前記ループ内に記述することを特徴とする付記１に記載の情報処理装置。
（付記３）前記プログラム生成部は、複数の前記対のうち、前記ループ内で実行したときの実行結果が前記入力プログラムにおけるのと異なる対に対する前記処理を前記計数プログラムに記述しないことを特徴とする付記１に記載の情報処理装置。
（付記４）前記キャッシュミス回数と前記キャッシュヒット回数とを計数する対象であるキャッシュメモリの複数のセット番号に対応して前記計算機が複数設けられ、
前記計算機の各々が、自身に対応した前記セット番号における前記キャッシュミス回数と前記キャッシュヒット回数とを並列して計数することを特徴とする付記１に記載の情報処理装置。
（付記５）前記分割部は、前記対のうちで前記キャッシュヒット回数が最も多い対が一つのループに含まれるように前記分割を行うことを特徴とする付記１に記載の情報処理装置。
（付記６）前記分割部は、前記キャッシュヒット回数が同じ前記対のうちで前記キャッシュミス回数が最も少ない対が一つのループに含まれるように前記分割を行うことを特徴とする付記１に記載の情報処理装置。
（付記７）ループ内に複数の文が記述された入力プログラムの入力を受け付ける処理と、
前記入力プログラムを書き換えることにより、複数の前記文の対ごとに前記ループを実行したときに想定されるキャッシュミス回数とキャッシュヒット回数とを計数する処理を計算機に実行させるための計数プログラムを生成する処理と、
前記計数する処理において計数した前記キャッシュミス回数と前記キャッシュヒット回数とに基づいて前記ループを複数個に分割する処理と、
をコンピュータが実行することを特徴とする情報処理方法。

１０…ターゲットマシン、１１…プロセッサ、１２…メインメモリ、１３…計算コア、１４…キャッシュメモリ、１４ａ…セット、１４ｂ…ブロック、１５…アプリケーションプログラム、１５ａ～１５ｃ…ループ、１７プロファイル情報生成プログラムプロファイル情報、１８…出力プログラム、２０…情報処理装置、２１…計算機、２２…ネットワーク、２３…記憶装置、２４…情報処理プログラム、２５…メインメモリ、２６…プロセッサ、２７…入力装置、２８…表示装置、２９…ネットワークインターフェース、３０…バス、３１…記録媒体、４１…コンパイラ、４２…プログラムトランスレータ、４３…プロファイル情報生成プログラム、４４…分割実行プログラム、４５…プログラム情報、４６…対情報、４７…変数・配列情報、４８…キャッシュ構成情報、５１…受付部、５２…プログラム生成部、５３…計数部、５４…分割部、６０…等価プログラム、６０ｘ…ループ。

Claims

ループ内に複数の文が記述された入力プログラムの入力を受け付ける受付部と、
前記入力プログラムを書き換えることにより、複数の前記文の対ごとに前記ループを実行したときに想定されるキャッシュミス回数とキャッシュヒット回数とを計数する処理を計算機に実行させるための計数プログラムを生成するプログラム生成部と、
前記処理において計数した前記キャッシュミス回数と前記キャッシュヒット回数とに基づいて前記ループを複数個に分割する分割部と、
を有することを特徴とする情報処理装置。
前記プログラム生成部は、複数の前記対ごとに前記キャッシュミス回数と前記キャッシュヒット回数とを計数する計数処理を前記ループ内に記述することを特徴とする請求項１に記載の情報処理装置。
前記プログラム生成部は、複数の前記対のうち、前記ループ内で実行したときの実行結果が前記入力プログラムにおけるのと異なる対に対する前記処理を前記計数プログラムに記述しないことを特徴とする請求項１に記載の情報処理装置。
前記キャッシュミス回数と前記キャッシュヒット回数とを計数する対象であるキャッシュメモリの複数のセット番号に対応して前記計算機が複数設けられ、
前記計算機の各々が、自身に対応した前記セット番号における前記キャッシュミス回数と前記キャッシュヒット回数とを並列して計数することを特徴とする請求項１に記載の情報処理装置。
ループ内に複数の文が記述された入力プログラムの入力を受け付ける処理と、
前記入力プログラムを書き換えることにより、複数の前記文の対ごとに前記ループを実行したときに想定されるキャッシュミス回数とキャッシュヒット回数とを計数する処理を計算機に実行させるための計数プログラムを生成する処理と、
前記計数する処理において計数した前記キャッシュミス回数と前記キャッシュヒット回数とに基づいて前記ループを複数個に分割する処理と、
をコンピュータが実行することを特徴とする情報処理方法。