JP4635082B2 - マルチプロセッサシステム及びグルーピング方法 - Google Patents

マルチプロセッサシステム及びグルーピング方法 Download PDF

Info

Publication number
JP4635082B2
JP4635082B2 JP2008255295A JP2008255295A JP4635082B2 JP 4635082 B2 JP4635082 B2 JP 4635082B2 JP 2008255295 A JP2008255295 A JP 2008255295A JP 2008255295 A JP2008255295 A JP 2008255295A JP 4635082 B2 JP4635082 B2 JP 4635082B2
Authority
JP
Japan
Prior art keywords
basic module
data
parallel
grouping
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008255295A
Other languages
English (en)
Other versions
JP2010086319A (ja
Inventor
隆二 境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008255295A priority Critical patent/JP4635082B2/ja
Priority to US12/571,064 priority patent/US8074211B2/en
Publication of JP2010086319A publication Critical patent/JP2010086319A/ja
Application granted granted Critical
Publication of JP4635082B2 publication Critical patent/JP4635082B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/43Checking; Contextual analysis
    • G06F8/433Dependency analysis; Data or control flow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Devices For Executing Special Programs (AREA)

Description

本発明は複数のプロセッサに並列処理を行わせるマルチプロセッサシステムとグルーピング方法に関する。
計算機の処理の高速化を実現するために複数の処理を並列に行うマルチスレッド処理がある。マルチスレッドによる並列処理プログラムでは複数のスレッドが生成され、それぞれのスレッドが同期処理を意識したプログラミングを強いられていた。例えば、実行順序を適切に保つためにはプログラムのさまざまな場所に同期を保証する処理を挿入する必要があり、プログラムのデバッグが困難になる等、メンテナンスコストが押し上げられていた。
このような並列処理プログラムの一例としては、特許文献1に記載のマルチスレッド実行方法がある。ここでは依存関係のある複数のスレッド(スレッド1はスレッド2の終了後でなければ実行できない等)を生成したとき、そのスレッドの実行結果とスレッド間の依存関係に基づいて並列処理を実現する方法が開示されている。
並列処理されるプログラム同士が実行順序を適切に保ちながら処理するには、プログラム間あるいはスレッド間であらかじめ依存関係を固定的に決定しておく必要がある。その一方で、その時々の状況に応じて、各プログラムの実行負荷を動的に調整可能な仕組みを備えることが好ましい。
並列処理の一つの形態は、複数ある処理単位を実行ユニット(CPU)に割り当てるスケジューラを含むランタイム処理と、各実行ユニット上で動作する処理単位の2つの構成要素から構成される。処理単位の大きさを並列処理の粒度といい、粒度を細かくする方が並列化の機会を増やすことが可能となり、並列性能を向上できる。並列処理の粒度が細かすぎると、スケジューラが動作する回数が多くなるため、このオーバーヘッドによって、十分な性能を得られないと言う問題があった。
実行ユニット(CPU)の数が十分多い場合には、ランタイムのオーバーヘッドが増えても、処理の並列度を向上させて、実行ユニットを使い切ることで性能向上が期待できる。実行ユニットの数に対して、並列度が十分であるときには、並列度を抑えて、ランタイムのオーバーヘッドを小さくすることで、実行効率を向上させることができる。
さらに、メニイコア等のプロセッサ数が2桁以上となるような環境において、メモリ階層が多層になりプロセッサ間のデータ通信のオーバーヘッドが均質でない場合において、処理単位のプロセッサへの割り当ては、データ転送のある処理単位を出来るだけ近くのプロセッサに割り当てられるようにすることで、共有メモリアクセスのメモリバンド幅を削減することが可能となる。しかし、プログラマがプロセッサへの割り当て方法を明示に指示するには、プログラムの構造を書き換えるなどの煩雑な作業が必要であった。
このような複数の処理を並列に実行するプログラムを、視覚的に、図形を用いて階層的に作成可能とするプログラムの表示方法が開発されている(例えば、特許文献2参照)。ここでは、並列計算機13上で実行されるプロセスとして実現されている機能としてプログラム開発環境74があり、プログラム開発環境74は、プログラムとして、自プロセスに固有のプログラムとして、前述したようにエディタ30、デバッカ31、並列度評価プログラム32を有している。また、プログラム開発環境74は、ソースプログラム35の内容をグラフィカルにディスプレイ17に表示し、マウス61やキーボード65からの指示をエディタ30、デバッカ31、並列度評価プログラム32に伝えるプログラムGUI56を有している。プログラムGUI56は、マウス64やキーボード65による指示をエディタ30、デバッガ31、並列度評価プログラム32に伝える等、プログラム開発環境74全体を制御する役割を担う。
特許文献2記載のプログラム表示方法は、プログラムを構成する複数の処理単位の階層的な構造の編集を受け付けるが、並列処理の粒度の変更に関する編集は受け付けていない。
特開2005−258920号公報(段落[0014]、図7) 特開平6−332689号公報(段落[0056]、図16)
このように従来のプログラム表示方法には、並列処理の処理単位の大きさである並列処理の粒度を調整するためのプログラムの編集ができなかった。
本発明の目的は並列処理の粒度の調整を簡単に指定できるグラフィックユーザインターフェースを実現することである。
本発明の一態様によるグルーピング方法は、マルチプロセッサシステム用のプログラムであって、基本モジュールと、基本モジュールの並列処理の関係を記述した並列記述とからなるプログラムにおける、基本モジュールとデータとからなる処理単位をプロセッサに割当てる処理単位のグルーピング方法において、プログラム実行時に前記並列記述に基づきデータと基本モジュールとの並列関係を示すデータフローグラフを表示することと、ユーザ入力により前記データフローグラフ上でノードが表す基本モジュールをグルーピングする時の基本モジュールグループをグルーピングを実行する時の優先順位とともに指定することと、前記データフローグラフを表示するためのグラフデータ構成生成情報を前記基本モジュールグループの指定に応じて変更することと、前記変更されたグラフデータ構成生成情報に基づいて前記基本モジュールグループを前記並列記述に反映させることと、を具備し、前記データフローグラフはデータの複数のエントリと、基本モジュールの複数のノードと、データの複数のエントリと基本モジュールの複数のノードとをそれぞれを繋ぐエッジとを含むものである。
本発明の他の態様によるマルチプロセッサシステムは、基本モジュールと、基本モジュールの並列処理の関係を記述した並列記述とからなるプログラムを実行して並列計算を行なうマルチプロセッサシステムであって、前記プログラムを格納する格納システムと、
前記プログラムを実行する多数のプロセッサと、を具備し、前記プログラムは基本モジュールとデータとからなり、前記多数のプロセッサに割り当てられる処理単位をグルーピングすることを具備し、該グルーピングすることは、プログラム実行時に前記並列記述に基づきデータと基本モジュールとの並列関係を示すデータフローグラフを表示することと、ユーザ入力により前記データフローグラフ上でノードが表す基本モジュールをグルーピングする時の基本モジュールグループをグルーピングを実行する時の優先順位とともに指定することと、前記データフローグラフを表示するためのグラフデータ構成生成情報を前記基本モジュールグループの指定に応じて変更することと、前記変更されたグラフデータ構成生成情報に基づいて前記基本モジュールグループを前記並列記述に反映させることと、を具備し、前記データフローグラフはデータの複数のエントリと、基本モジュールの複数のノードと、データの複数のエントリと基本モジュールの複数のノードとを繋ぐエッジとを含むものである。
以上説明したように本発明によれば、基本モジュールの並列処理の関係を記述した並列記述に基づいて、データの複数のエントリと、基本モジュールの複数のノードと、データの複数のエントリと基本モジュールの複数のノードとをそれぞれを繋ぐエッジとからなるデータフローグラフを表示することにより、データフローグラフ上のノードの結合候補をマウス等で指示することにより、並列処理の粒度を直感的な操作で簡単に変更することができる。
以下、図面を参照して本発明によるマルチプロセッサシステム及びグルーピング方法の実施の形態を説明する。
図1は本発明の第1の実施形態に係る並列処理を行うマルチプロセッサシステムの一例を示す図である。並列処理を実現するための多数のプロセッサ100(i=1,2,3,…)、メインメモリ101、ハードディスクドライブ(HDD)102が内部バス103に接続される。プロセッサ100はメインメモリ101やHDD102等の種々の記憶装置に記憶したプログラムコードを解釈し、プログラムとしてあらかじめ記述された処理を実行する機能を有する。図1では互いに同等の処理能力のプロセッサ100が3つ設けられていると想定するが、必ずしも同等のプロセッサである必要はなく、それぞれで処理能力が異なるものや、別種のコードを処理するプロセッサが含まれていてもかまわない。
メインメモリ101は例えばDRAM等の半導体メモリで構成された記憶装置を指す。プロセッサ100が処理するプログラムは処理前に比較的高速にアクセス可能なメインメモリ101上に読み込まれ、プログラム処理に従ってプロセッサ100からアクセスされる。
HDD102はメインメモリ101に比べて大容量のデータを記憶できるが、アクセス速度において不利である場合が多い。プロセッサ100が処理するプログラムコードはHDD102に記憶しておき、処理する部分のみをメインメモリ101上に読み出すように構成される。
内部バス103はプロセッサ100、メインメモリ101及びHDD102を相互に接続し、互いにデータの授受ができるように構成した共通バスである。
プログラム表示のためのグラフィックユーザインタフェース(GUI)104も内部バス103に接続され、処理結果を出力するための画像表示部105、後述するデータフローグラフの編集指示を入力するためのマウス106がGUI104に接続される。さらに、データ入力のためのキーボードがGUI104に接続されていてもよい。
次に、並列処理プログラムの概略を説明する。並列処理では複数のプログラムが並行して処理されているが、プログラム同士はそれぞれ無関係に処理されているわけではなく、他のプログラムの処理結果を自身の処理に使用する場合、あるいはデータの整合性を確保するという理由で他のプログラムの特定部分の処理が終わるのを待たねばならないことがある。このような特性を持つプログラムを並列に処理する場合、プログラムの各所に他のプログラムの実行状況を知得するための仕組みを埋め込まねばならない。この仕組み(同期処理とも呼ばれる)を埋め込むことによってプログラム間でデータ保証や、排他制御を実現し協調動作するように構成していた。しかしながら、プログラム自身に並列処理における同期処理を実現するための記述をした場合、本来のロジックとは別の配慮が必要となりプログラムが複雑になってしまう。また、他のプログラムの処理終了を待つ間、無駄にリソースを消費することにもなる。さらにはちょっとしたタイミングのずれによって処理効率が大きく変動するなど、後からのプログラム修正が困難になる場合が多い。
これを回避するために、本実施形態ではプログラムを、他のプログラムの実行状況に関係なく入力データが与えられたことを条件に実行可能となり、直列かつ同期処理無しで実行する直列基本モジュール(直列実行モジュールとも呼ばれる)と、直列基本モジュールをノードとしてグラフデータ構造生成情報を用いて複数の直列基本モジュールの並列処理の関係を記述する並列実行制御記述とに分割する。同期やデータの授受の必要のある部分は並列実行制御記述で記述することによって、直列基本モジュールの部品化を促進し、かつ、並列実行制御記述をコンパクトに管理できるようにする。図4にプログラムが直列基本モジュールと並列実行制御記述とに分割される様子を示す。
図2は本実施形態に係るプログラムの分割方法の一例を説明する図である。図2は相互に同期処理をするプログラム400(プログラムD)及びプログラム401(プログラムE)を示している。
プログラム400がスレッド402を、プログラム401がスレッド407を実行している。プログラム400はポイント406までスレッド402を実行すると、その処理結果をプログラム401に受け渡す必要がある。このためプログラム400はスレッド402の実行を終了すると、処理結果をイベント404としてプログラム401に通知する。プログラム401はイベント404とスレッド407の処理結果との両方が揃ったとき、初めてスレッド405を実行可能である。一方、プログラム400はスレッド402の実行の終了を受けて、ポイント406以降のプログラムをスレッド403として実行する。
このようにプログラム400、401にはスレッド402、407のように無条件に処理を進めて良い部分と、ポイント406のようにプログラムを処理していく間に他のスレッドに通知すべきある処理結果が得られるポイント、あるいは他のスレッドからの処理結果を得ることが処理開始の条件となっているポイントなどが存在する。
そこで、図2に示すように、ポイント406のようなポイントでプログラムを分割し、分割後のプログラムの処理単位をそれぞれ直列基本モジュールd1、d2、d3、…、直列基本モジュールe1、e2、e3、…と定義する。図2では相互に関連する2つのプログラムD、Eが示されているが、それ以上の数の相互に関連するプログラムがあっても同様の考え方で分割可能である。直列基本モジュールd1、d2、d3、…、直列基本モジュールe1、e2、e3、…が同期処理無しで実行できる直列実行モジュールである。
図3は本実施形態に係る直列基本モジュールの依存関係の一例を説明するグラフデータ構造を示す図である。モジュールの依存関係とはモジュール#1はモジュール#2の終了後でなければ実行できない等の関係である。図3の丸印である直列基本モジュール500は図2で説明した直列基本モジュールd1、d2、…、e1、e2、…のいずれかを表す。一番最初に実行される直列基本モジュール500は他のスレッドに関係なく無条件に進めて良いモジュール化されたプログラムが割当てられる。直列基本モジュール500は他の直列基本モジュールとの依存関係を示すリンク501に基づいて他の直列基本モジュールと関連付けられている。なお、グラフデータ構造においては、直列基本モジュールはノードとも呼ばれる。
図3の依存関係は、各直列基本モジュールはリンク501によって関連を定義された先行する直列基本モジュールからの計算結果出力のようなイベントを受け、同時にリンクにより関連を定義された後続の直列基本モジュールへのイベントを発生させることを示している。複数のリンクが入っている直列基本モジュールでは自身の処理のために複数の入力データ等が必要であることを示している。
図5は本実施形態に係るプログラムの実行環境を示す図である。多数の直列基本モジュール200(j=1,2,…)は本実施形態に係るシステムで実行するプログラムである。直列基本モジュール200は1つ以上のパラメータ198を受け取り可能に構成され、このパラメータ198の値に基づき、例えば適用するアルゴリズムを変更したり、アルゴリズム上の閾値や係数を変更すること等により、実行負荷を調整できるようになっている。直列基本モジュール200はそのまま実行環境の情報処理装置203内に取り込まれる。
並列実行制御記述201は実行する際に参照されるデータである。並列実行制御記述201は直列基本モジュール200各々の並列処理時の依存関係(図3)を示す。並列実行制御記述は、実行環境における情報処理装置203にて実行される前にトランスレータ202によってグラフデータ構造生成情報204に変換される。トランスレータ202は並列実行制御記述から複数の直列基本モジュールの各々に関連する部分を抽出し、並列実行制御記述を少なくとも直列基本モジュールに先行する直列基本モジュールの情報と後続の直列基本モジュールの情報とを含むグラフデータ構造生成情報を生成する。グラフデータ構造生成情報204はランタイムライブラリ206内に格納される。
トランスレータ202は直列基本モジュール200を処理する前に事前に変換する場合以外にも、直列基本モジュール200の実行中、ランタイムタスク等によって逐次トランスレートしながら処理する方法も考えられる。
情報処理装置203上の実行時点のソフトウェアは直列基本モジュール200、ランタイムライブラリ206(グラフデータ構造生成情報204を格納する)、マルチスレッドライブラリ208、オペレーティングシステム210、対称マルチプロセッサ212から構成される。
ランタイムライブラリ206は直列基本モジュール200を情報処理装置203上で実行する際のAPI(Application Interface)などを含み、直列基本モジュール200を並列処理する際に必要となる排他制御を実現するための機能を有する。一方、ランタイムライブラリ206からトランスレータ202の機能を呼び出すように構成し、直列基本モジュール200の処理の過程で呼び出されるとき、次に処理する部分の並列実行制御記述201をその都度変換するようにしても良い。このように構成すれば、トランスレートするための常駐タスクが不要になり、並列処理をよりコンパクトに構成できる。
オペレーティングシステム210は情報処理装置203のハードウェアやタスクのスケジューリングなど、システム全体を管理している。オペレーティングシステム210を導入することで、基本モジュール200を実行する際、プログラマはシステムの雑多な管理から開放され、プログラミングに専念できるとともに、一般的に機機種でも稼動可能なソフトウェアを開発できるというメリットがある。
本実施形態に係る情報処理装置では同期処理やデータの授受の必要な部分でプログラムを分割し、その間の関連を並列実行制御記述として定義することで、基本モジュールの部品化を促進し、並列処理定義をコンパクトに管理することができる。部品化した各基本モジュールの実行負荷は動的に調整可能である。
図5に示すように、並列実行制御記述201をグラフデータ構造生成情報204に一旦変換し、これを解釈実行するランタイムを並列に実行させることによって、オーバーヘッドの低減を図り、かつプログラミングの柔軟性を確保することができる。このランタイム処理は少なくともプロセッサの数よりも多数のスレッドによって実行し、動的に生成されるグラフデータ構造を解釈して、実行するべき直列基本モジュール200を選択し、グラフデータ構造を更新しながら直列基本モジュール200の実行を繰り返すことによって、並列処理を実現する。
グラフデータ構造生成情報は、C言語の構造体によるデータ構造で実現する場合もあるし、仮想マシンとしてのバイトコード列によって表現することもある。バイトコードで表現する場合は、プログラム実行環境である仮想マシンが、バイトコードを解釈実行することによって、グラフ構造を生成する。バイトコードによるグラフ生成は、バイトコードの入力オペランドのデータが、まだ有効でない場合でかつ、その入力データを求めるためにスレッドの実行を必要とする場合に、その処理をノードとして作成し、データの依存関係をエッジとしてデータフローグラフに追加することによって行う。
そのため、GUI104は図5に示す実行環境の情報処理装置203内のグラフデータ構造生成情報204に基づいて図6の右側に示すようなデータフローグラフを表示部105で表示する。データフローグラフはデータと関数(タスク)の並列関係を示すものであり、この例では、データ(配列)in0、in1に関数h、gが作用し、その結果のデータ(配列)a、bに対してさらに関数fが作用し、その結果のデータ(配列)cに対してさらに関数kが作用し、結果のデータ(配列)outが得られることを示す。関数f、h、gは直列基本モジュールに相当する。データ配列のそれぞれのデータに対する関数は関数のノードと称される。
図6の左側は右側のデータフローグラフの元である並列実行制御記述である。並列処理の粒度の変更に関する編集はデータフローグラフ上の関数のノードの結合という視覚的な編集処理により実行できるが、並列実行制御記述のテキストを直接編集することによっても実行できるので、並列実行制御記述は必ずしも表示しなくても良いが、データフローグラフに加えて表示してもよい。並列実行制御記述はデータフローグラフとともに同じ表示部105で表示してもよいが、表示部105とは別の表示部(テキストエディタ)で表示させても良い。
図6に示した並列実行制御記述は、トランスレータ202により以下のように解釈され、グラフデータ構造生成情報204に変換され、情報処理装置203で実行される。
ステップ#1:以下の3行を解釈する。
local a[100];
local b[100];
local c[100];
local宣言されたメモ化用のデータ配列a,b,c(それぞれエントリ個数は100とする)を生成する(領域を確保し初期化する)。
ステップ#2:次の3行は関数定義である。
a[i]:=h(in0[i]);
b[i]:=g(in1[i]);
c[i]:=f(a[i],b[i]);
ステップ#3:for文を実行し、変数jを0に初期化する。jが100以下の場合は、ループ本体を実行する。
for(j=0; j<100;j++){out[i]=k(c[i]);}
ステップ#4:ループ本体で、out[0]を計算するために関数kを呼び出そうとするが、引数c[0]が未定義なので、関数kのノードを作成し、データ依存として関数kのノードとc[0]のエントリをつなぐエッジを生成する。
ステップ#5:c[0]を求めるための関数定義であるc[i]:=f(a[i],b[i])に従い関数fを呼び出そうとするが、引数a[0],b[0]が未定義であるため、関数fのノードを作成し、データ依存として関数fのノードとa[0]およびb[0]のエントリをつなぐエッジをそれぞれ生成する。
ステップ#6:a[0]を求めるために関数定義であるa[i]:=h(in0[i])に従い、関数hを呼び出そうとするが、引数in0[0]が未定義であるため、上記と同様にノードを作成しエッジを生成する。b[0]についても同様に、ノードを作成しエッジを生成する。
ステップ#7:in0[0]やin1[0]が定義済みの場合は、関数h,gの実行に移り、バイトコード解釈を次のプロセッサに引き継ぐ。
ステップ#8:一連のノード生成と連結が完了するとステップ#4に戻り、i=1の場合のバイトコード実行を継続する。
ステップ#9:並列実行制御記述実行の各フェーズにおいて、上記で作成して成長したデータフローグラフの各ノードの入力値が確定し、実行可能になった時点で、それらのノードがあらわす関数(スレッド)の実行に遷移するものとする。
図6の右側に示したデータフローグラフは、上記の動作を模擬して生成可能なものであり、図1のGUI104を介して表示部105の画面上に表示される。
上記の並列実行制御記述の実行過程は、各関数(スレッド)を呼び出すたびにランタイムを引き継いでいくので、スレッドへの分割が細かすぎると、ランタイムの実行頻度が高くなり、全体処理に対するオーバーヘッドが大きくなってしまう。
一方で、プロセッサ数が大きくない場合は、細かく分けて並列性を抽出しても、結局は、同じプロセッサ上で一連の処理を動作させることになる。
また、メモリ階層がある場合は、特定のノードの集合を同一のクラスタ上で動作させると効率が良くなる場合がある。2次キャッシュを共有する8個のプロセッサ群(クラスタ)4個が3次キャッシュを共有して、8×4=32個のマルチプロセッサを構成する。
そこで、図7に示すように、ノードの粒度を粗くするための情報をデータフローグラフ画面から指定する仕組みを提案する。
プログラマは、データフローグラフ画面において、ランタイムの介在なくまとめて処理を行いたい複数のノードを指定する。図7では、関数f、g、hの複数のノードをデータ並列方向にグルーピングする例を示している。図6では説明の便宜上、関数は1つのデータ配列に対して代表的に1つだけ示したが、実際には、データ配列内のそれぞれのエントリ(例えば、in0[0]、in0[1]、…)に対してそれぞれ関数のノードh1、h2、…が存在する。グルーピングはデータフローグラフ画面においてグルーピングする関数のノードをマウス106で指定する、あるいは囲むことで実施する。関数f、gについてはグルーピングを完了し、そのグルーピングの結合強度(優先順位)のタブの数値入力まで完了している状態を示している。結合強度とはプログラマにより操作指示されたグルーピングを実際に実行する時の優先順位である。関数hについては、複数のノードh0、h1、…をマウス操作(図7の矢印はマウスカーソルを示す)によって囲む途中の様子を示し、囲む作業が終了すると、囲んだ楕円上にタブが現れ、優先順位の数値データの入力を促す。
データフローグラフ上のこのグルーピングに呼応して、グラフデータ構造生成情報が変更され、トランスレータ202の逆トランスレーションを利用して並列実行制御記述にもグルーピングが反映される。すなわち、図7の左側に示すように、該当する関数h、g、fの定義の終わりにアノテーションconn(関数、x)が自動生成される。xは、結合強度である。
a[i]:=h(in0[i]);conn(h,0);
b[i]:=g(in1[i]);conn(g,0);
c[i]:=f(a[i],b[i]);conn(f,1);
図8はタスク並列方向にグルーピングする例を示している。タスクとは関数と対応し、図8は関数hと関数gをランタイムの介在なく纏めて処理を行いたい指示を示す。タスク並列のグルーピングの場合は、並列実行制御記述上では、グルーピングしたタスクがconn(x){…}というスコープで括られる。関数定義の順序も自動的に入れ替えられる場合がある。
conn(0){
a[i]:=h(in0[i]);
b[i]:=g(in1[i]);

図9はタスク並列方向のグルーピングに階層構造をもたせる例を示している。関数fとgとのグルーピング全体と関数fとをさらにグルーピングする2階層のグルーピングの例を示す。関数fとgとのグルーピングが下位の階層であり、下位の階層の優先順位は自動的に高く設定される。階層構造を持たせ、下位ほど優先順位を高くすることにより、試行錯誤により最適なグルーピングを決定する際に、容易に最適解を求めることが出来る。
conn(0){
conn(1){
a[i]:=h(in0[i]);
b[i]:=g(in1[i])

c[i]:=f(a[i],b[i]);

なお、グルーピングには、図7に示すデータ並列方向のグルーピングと、図8、図9に示すタスク並列方向のグルーピング以外に、その両者を組み合わせた第3のグルーピングもある。
図10にデータフローグラフ上でグルーピング(ノードを連結)した場合のアルゴリズムを示す。ノードの連結指示が検出されると、ブロックB12において、グルーピングによってデータフローグラフにサイクルが出来てしまうか否か判定する。この判定はグルーピング後のグラフデータ構造生成情報からトランスレータの逆トランスレーションにより求めた並列実行制御記述を解析することにより実施できる。サイクルが出来てしまった場合は、ブロックB14に示すように、警告「グルーピングによりサイクル生成」を画面に表示して、そのグルーピング操作を無効にする。
サイクルが出来ていない場合は、ブロックB16において、グルーピングによって処理のクリティカルパスが大きく悪化するか否かさらに判定する。この判定も逆トランスレーションにより求めた並列実行制御記述を解析することにより実施できる。クリティカルパスが大きく悪化する場合は、ブロックB18でワーニングメッセージ「グルーピングにより並列度悪化」を表示し、そのグルーピングが本当に必要かどうかの再考を促す。
クリティカルパスが大きく悪化しない場合、あるいはブロックB18でワーニングメッセージを表示した後、ブロックB20で結合候補のノードは同じ関数であるか否か判定する。同じ関数である場合は図7に示すデータ並列方向のグルーピングであるので、ブロックB22で並列実行制御記述上の該当する関数の適用位置の引数リストの後ろにconn(x)を記載する。別の関数である場合は図8、図9に示すタスク並列方向のグルーピングであるので、ブロックB24で並列実行制御記述上のグルーピングする関数の配置を並び替えスコープconn(x){…}でくくる。
上述のデータフローグラフは関数のノードとデータのエントリとを繋ぐエッジは単なる線で示したが、ノード間を転送するデータの量に応じてエッジの太さを変えて表示してもよい。図6のノードgとfとを繋ぐエッジは他よりも太い線で表示し、データ量が多いことを示す。データ量を知ることにより、グルーピング候補を決定する際の参考になる。
また、グルーピングすることによりノード間のデータ転送がローカル化できるエッジの線を異なる色、態様で表示してもよい。これによっても、グルーピング候補を決定する際の参考になる。図6のデータ配列aとデータ配列cまでのデータ転送はメインメモリ101へのアクセスが不要で、L1キャッシュあるいはL2キャッシュまでのアクセスで済みローカル化できることを示す。
上述のデータフローグラフは2次元的に表示した例を示したが、図3に示すようにタスクの関係が複雑で網の目のようになっている場合は、タスクの表示だけで2次元が使われてしまう。その場合は、図11に示すように、タスクを2次元に表示し、データ配列はタスク面とは異なる次元に、すなわち3次元的に表示してもよい。
以上の仕組みによって、基本モジュールの並列処理の様子を示すデータフローグラフ上で、結合するノードとその結合強度を指定できるようになり、これらのデータを使って、並列実行環境は、プロセッサ数やメモリ階層に適合して、充分な並列性がありランタイム処理のオーバーヘッドが大きい場合は、結合強度の優先度にしたがって、ノードを結合することによって、ランタイムの実行切り替え回数を削減すると同時に、メモリ階層の局所性が必要な場合は、グループごとに、ノードをクラスタに割り当てるなどの最適化を行うことが出来るようになる。
グルーピングにおいて、もしそのグルーピングによって配列データを必要としなくなる場合は、データの転送コストを大きく削減できる可能性がある。そのような配列データを、あらかじめハイライト表示することによって、プログラマにグルーピングの効果が高い部分を認識させることが可能となる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る並列処理を行うマルチプロセッサシステムの一例を示す図。 並列処理プログラムの処理フローの一例を示す図。 本実施形態に係るノードの依存関係の一例を説明する図。 本実施形態に係るプログラム構成を説明する図。 本実施形態に係るプログラムのトランスレーションの一例を示す図。 本実施形態に係るグラフデータ構造生成情報から得られたデータフローグラフの一例と、それに対応する並列実行制御記述を示す図。 本実施形態に係るデータフローグラフと並列実行制御記述におけるデータ並列方向のグルーピングの例を示す図。 本実施形態に係るデータフローグラフと並列実行制御記述におけるタスク並列方向のグルーピングの例を示す図。 本実施形態に係るデータフローグラフと並列実行制御記述におけるタスク並列方向の階層構造を持つグルーピングの例を示す図。 本実施形態に係るグルーピングのアルゴリズムの一例を示すフローチャート。 本実施形態に係るデータフローグラフの3次元表示の一例を示す図。
符号の説明
100…プロセッサ、101…メインメモリ、102…HDD、103…内部バス、104…GUI、105…表示部、106…マウス、200…基本モジュール、201…並列実行制御記述、202…トランスレータ、203…情報処理装置、204…グラフデータ構造生成情報、206…ランタイムライブラリ、210…OS、212…対称マルチプロセッサ。

Claims (9)

  1. マルチプロセッサシステム用のプログラムであって、基本モジュールと、基本モジュールの並列処理の関係を記述した並列記述とからなるプログラムにおける、基本モジュールとデータとからなる処理単位をプロセッサに割当てる処理単位のグルーピング方法において、
    プログラム実行時に前記並列記述に基づきデータと基本モジュールとの並列関係を示すデータフローグラフを表示することと、
    ユーザ入力により前記データフローグラフ上でノードが表す基本モジュールをグルーピングする時の基本モジュールグループをグルーピングを実行する時の優先順位とともに指定することと、
    前記データフローグラフを表示するためのグラフデータ構成生成情報を前記基本モジュールグループの指定に応じて変更することと、
    前記変更されたグラフデータ構成生成情報に基づいて前記基本モジュールグループを前記並列記述に反映させることと、
    を具備し、
    前記データフローグラフはデータの複数のエントリと、基本モジュールの複数のノードと、データの複数のエントリと基本モジュールの複数のノードとをそれぞれを繋ぐエッジとを含むグルーピング方法。
  2. 前記並列記述をテキスト表示することと、
    前記テキスト表示された並列記述をユーザ入力により編集することにより基本モジュールグループを指定することと、をさらに具備する請求項1記載のグルーピング方法。
  3. 前記基本モジュールグループを指定することは、前記データフローグラフ上でノードを指定することを具備する請求項1記載のグルーピング方法。
  4. 前記基本モジュールグループを指定することは、同一のデータ配列内の異なるエントリに関する複数の基本モジュール、あるいは異なるデータ配列に関する複数の基本モジュールをグループとして指定することを具備する請求項1記載のグルーピング方法。
  5. 前記基本モジュールグループの前記並列記述への反映によりデータフローグラフにサイクルが出来る場合は、警告を発生し、基本モジュールグループの指定を無効化することをさらに具備する請求項2記載のグルーピング方法。
  6. 前記基本モジュールグループの前記並列記述への反映によりデータフローグラフのクリティカルパスが悪化する場合は、警告を発生することをさらに具備する請求項2記載のグルーピング方法。
  7. 前記データフローグラフを表示することは、ノード間で転送されるデータの量に応じてエッジの太さを変えることを具備する請求項1記載のグルーピング方法。
  8. 基本モジュールと、基本モジュールの並列処理の関係を記述した並列記述とからなるプログラムを実行して並列計算を行なうマルチプロセッサシステムであって、
    前記プログラムを格納する格納システムと、
    前記プログラムを実行する多数のプロセッサと、を具備し、
    前記プログラムは基本モジュールとデータとからなり、前記多数のプロセッサに割り当てられる処理単位をグルーピングすることを具備し、該グルーピングすることは、
    プログラム実行時に前記並列記述に基づきデータと基本モジュールとの並列関係を示すデータフローグラフを表示することと、
    ユーザ入力により前記データフローグラフ上でノードが表す基本モジュールをグルーピングする時の基本モジュールグループをグルーピングを実行する時の優先順位とともに指定することと、
    前記データフローグラフを表示するためのグラフデータ構成生成情報を前記基本モジュールグループの指定に応じて変更することと、
    前記変更されたグラフデータ構成生成情報に基づいて前記基本モジュールグループを前記並列記述に反映させることと、
    を具備し、前記データフローグラフはデータの複数のエントリと、基本モジュールの複数のノードと、データの複数のエントリと基本モジュールの複数のノードとを繋ぐエッジとを含むマルチプロセッサシステム。
  9. 前記プログラムは、前記並列記述をテキスト表示することと、前記テキスト表示された並列記述をユーザ入力により編集することにより基本モジュールグループを指定することと、をさらに具備する請求項記載のマルチプロセッサシステム。
JP2008255295A 2008-09-30 2008-09-30 マルチプロセッサシステム及びグルーピング方法 Expired - Fee Related JP4635082B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008255295A JP4635082B2 (ja) 2008-09-30 2008-09-30 マルチプロセッサシステム及びグルーピング方法
US12/571,064 US8074211B2 (en) 2008-09-30 2009-09-30 Computer program, multiprocessor system, and grouping method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008255295A JP4635082B2 (ja) 2008-09-30 2008-09-30 マルチプロセッサシステム及びグルーピング方法

Publications (2)

Publication Number Publication Date
JP2010086319A JP2010086319A (ja) 2010-04-15
JP4635082B2 true JP4635082B2 (ja) 2011-02-16

Family

ID=42059033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008255295A Expired - Fee Related JP4635082B2 (ja) 2008-09-30 2008-09-30 マルチプロセッサシステム及びグルーピング方法

Country Status (2)

Country Link
US (1) US8074211B2 (ja)
JP (1) JP4635082B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8561041B1 (en) * 2009-06-22 2013-10-15 The Mathworks, Inc. Parallel execution of function calls in a graphical model
US8555265B2 (en) * 2010-05-04 2013-10-08 Google Inc. Parallel processing of data
WO2012011145A1 (ja) * 2010-07-20 2012-01-26 株式会社 日立製作所 ソフトウェア保守支援装置及びそれにより検証した電子制御装置
US8707275B2 (en) * 2010-09-14 2014-04-22 Microsoft Corporation Simulation environment for distributed programs
US9489183B2 (en) 2010-10-12 2016-11-08 Microsoft Technology Licensing, Llc Tile communication operator
US9430204B2 (en) 2010-11-19 2016-08-30 Microsoft Technology Licensing, Llc Read-only communication operator
US9507568B2 (en) 2010-12-09 2016-11-29 Microsoft Technology Licensing, Llc Nested communication operator
US9395957B2 (en) * 2010-12-22 2016-07-19 Microsoft Technology Licensing, Llc Agile communication operator
US9003383B2 (en) * 2011-09-15 2015-04-07 You Know Solutions, LLC Analytic engine to parallelize serial code
US8856766B2 (en) 2012-05-11 2014-10-07 International Business Machines Corporation Generating layouts for graphs of data flow applications
US9734040B2 (en) 2013-05-21 2017-08-15 Microsoft Technology Licensing, Llc Animated highlights in a graph representing an application
US8990777B2 (en) 2013-05-21 2015-03-24 Concurix Corporation Interactive graph for navigating and monitoring execution of application code
US20140189650A1 (en) * 2013-05-21 2014-07-03 Concurix Corporation Setting Breakpoints Using an Interactive Graph Representing an Application
US9280841B2 (en) 2013-07-24 2016-03-08 Microsoft Technology Licensing, Llc Event chain visualization of performance data
US9292415B2 (en) 2013-09-04 2016-03-22 Microsoft Technology Licensing, Llc Module specific tracing in a shared module environment
US10346292B2 (en) 2013-11-13 2019-07-09 Microsoft Technology Licensing, Llc Software component recommendation based on multiple trace runs
JP6743568B2 (ja) * 2016-08-09 2020-08-19 富士通株式会社 制御装置、情報処理システム、プログラム及び情報処理方法
US10025566B1 (en) * 2016-10-07 2018-07-17 The Mathworks, Inc. Scheduling technique to transform dataflow graph into efficient schedule
WO2018221175A1 (ja) * 2017-05-30 2018-12-06 日本電気株式会社 半順序手順計画装置、半順序手順計画方法および半順序手順計画プログラム
US11308109B2 (en) * 2018-10-12 2022-04-19 International Business Machines Corporation Transfer between different combinations of source and destination nodes

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113885A (ja) * 1991-10-23 1993-05-07 Nitto Seiko Co Ltd 並列処理プログラム開発装置
JPH05257709A (ja) * 1992-03-16 1993-10-08 Hitachi Ltd 並列化判別方法およびそれを用いた並列化支援方法
JPH09171503A (ja) * 1995-07-14 1997-06-30 Lucent Technol Inc 並列処理方法および並列処理装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332689A (ja) 1993-05-21 1994-12-02 Hitachi Ltd プログラムの表示方法およびプログラムの編集受付け方法
JP3921367B2 (ja) * 2001-09-26 2007-05-30 日本電気株式会社 データ処理装置および方法、コンピュータプログラム、情報記憶媒体、並列演算装置、データ処理システム
US20030131345A1 (en) * 2002-01-09 2003-07-10 Chris Wilkerson Employing value prediction with the compiler
US6964029B2 (en) * 2002-10-31 2005-11-08 Src Computers, Inc. System and method for partitioning control-dataflow graph representations
US7392514B2 (en) * 2003-06-26 2008-06-24 Microsoft Corporation Data flow chasing
US7685587B2 (en) * 2003-11-19 2010-03-23 Ecole Polytechnique Federal De Lausanne Automated instruction-set extension
US7797691B2 (en) * 2004-01-09 2010-09-14 Imec System and method for automatic parallelization of sequential code
JP2005258920A (ja) 2004-03-12 2005-09-22 Fujitsu Ltd マルチスレッド実行方法、マルチスレッド実行プログラム、およびマルチスレッド実行装置
JP4275013B2 (ja) * 2004-06-21 2009-06-10 三洋電機株式会社 データフローグラフ処理装置、処理装置、リコンフィギュラブル回路。
US7941794B2 (en) * 2004-08-30 2011-05-10 Sanyo Electric Co., Ltd. Data flow graph processing method and processing apparatus provided with reconfigurable circuit
JP2006338507A (ja) 2005-06-03 2006-12-14 Fujifilm Holdings Corp 処理装置及び処理方法
US7873953B1 (en) * 2006-01-20 2011-01-18 Altera Corporation High-level language code sequence optimization for implementing programmable chip designs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113885A (ja) * 1991-10-23 1993-05-07 Nitto Seiko Co Ltd 並列処理プログラム開発装置
JPH05257709A (ja) * 1992-03-16 1993-10-08 Hitachi Ltd 並列化判別方法およびそれを用いた並列化支援方法
JPH09171503A (ja) * 1995-07-14 1997-06-30 Lucent Technol Inc 並列処理方法および並列処理装置

Also Published As

Publication number Publication date
JP2010086319A (ja) 2010-04-15
US8074211B2 (en) 2011-12-06
US20100083185A1 (en) 2010-04-01

Similar Documents

Publication Publication Date Title
JP4635082B2 (ja) マルチプロセッサシステム及びグルーピング方法
Ma et al. Rammer: Enabling holistic deep learning compiler optimizations with {rTasks}
US9898292B2 (en) Hardware instruction generation unit for specialized processors
Owaida et al. Synthesis of platform architectures from OpenCL programs
JP4621786B2 (ja) 情報処理装置、並列処理最適化方法およびプログラム
CN103858099A (zh) 用于在异构计算机上编译和运行高级程序的技术
US20210342184A1 (en) Method, electronic device, and computer program product for processing computing job
Filgueras et al. Ompss@ zynq all-programmable soc ecosystem
JP4381459B1 (ja) 情報処理装置、粒度調整方法およびプログラム
JP2010009495A (ja) 情報処理装置、プログラム処理方法及びコンピュータプログラム
Xiang et al. Heteroflow: An accelerator programming model with decoupled data placement for software-defined fpgas
Sabne et al. Scaling large-data computations on multi-GPU accelerators
Neelima et al. Recent trends in software and hardware for GPGPU computing: a comprehensive survey
Vinas et al. Improving OpenCL programmability with the heterogeneous programming library
US9665354B2 (en) Apparatus and method for translating multithread program code
Owaida et al. Massively parallel programming models used as hardware description languages: The OpenCL case
Diehl et al. Integration of CUDA Processing within the C++ Library for Parallelism and Concurrency (HPX)
Varbanescu et al. Towards an effective unified programming model for many-cores
Parashar et al. Hardware abstractions for targeting EDDO Architectures with the Polyhedral Model
Rafique et al. Generating efficient parallel code from the rvc-cal dataflow language
JP5360506B2 (ja) マルチコアにおけるプログラミングシステム、その方法及びそのプログラム
Tarakji et al. The development of a scheduling system GPUSched for graphics processing units
Cartwright et al. Automating the design of mlut mpsopc fpgas in the cloud
US20120137300A1 (en) Information Processor and Information Processing Method
Ivutin et al. The Automatic Algorithms' Adaptation Method for Embedded Multi-Core Configurations

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees