JPH06243113A

JPH06243113A - 並列計算機における計算モデルのマッピング法

Info

Publication number: JPH06243113A
Application number: JP5030971A
Authority: JP
Inventors: Kazuya Shibata; 一哉柴田; Masahide Fujisaki; 正英藤崎; Hiroyuki Kanazawa; 宏幸金澤; Motoi Okuda; 基奥田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-02-19
Filing date: 1993-02-19
Publication date: 1994-09-02
Also published as: US5649198A

Abstract

(57)【要約】【目的】ユーザ空間で並列計算機のアーキテクチャを
意識することなくマッピングができ、かつ、高速なマッ
ピングパターンを得ることを目的とする。【構成】ユーザが分割したＮ次元計算モデル２１の計
算ユニットと、物理プロセッサ２３に識別符号をつけて
おき、その対応をアドレス変換テーブル２５でもつこれ
にユーザがアクセスするだけで、自由にマッピング操作
ができるので、その後は、プロセッサ間通信はユーザが
分割ユニットの識別符号を用いて行うことが出来る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、並列計算機における関
し、特に、並列計算機におけるマッピングを効率よく行
い、通信の効率化を図る技術に関する。

【０００２】

【従来の技術】コンピュータシステムの高速化や大容量
化が要求されるに伴って、複数のプロセッサに処理を分
散させる分散処理技術が必要となってきた。

【０００３】そこで、複数のプロセッサが処理を並列的
に行なう並列計算機が提供されている。この並列計算機
では、各プロセッサが通信手段を介して互いに通信を行
うことで各プロセッサが並列に動作し、複数のプロセッ
サ全体であるまとまった処理を実行する。これによれ
ば、１つの仕事に対する処理の高速化を図ることができ
る。

【０００４】近年は、このような並列計算機の開発が進
み、並列化を行う環境が次第に整い、実用的なアプリケ
ーションが適応可能となってきた。しかし、並列化の過
程で必要となる作業、例えばマッピングなどは未だ自動
化されていない。特に、マッピングの際のデータ分割
や、機能分割のアルゴリズム（以降、分割アルゴリズ
ム）を考える時に、並列計算機のネットワーク・アーキ
テクチャの構造を考慮に入れなければならない。

【０００５】この場合、並列計算機のネットワーク・ア
ーキテクチャの構造が様々であることから、効率のよい
プログラムを開発するためには、一般ユーザが、マシン
のアーキテクチャを十分に考慮する必要がある。

【０００６】このようにして完成した並列アプリケーシ
ョン・プログラムでは、並列計算機のアーキテクチャが
進歩した場合、再度、改良されたアーキテクチャに合わ
せてプログラムを変更しなければならない。

【０００７】従って、事実上は、並列アプリケーション
・プログラムは並列計算機のアーキテクチャの変化に追
いついて行けないであろう。これでは、適応性の高い並
列アプリケーション・プログラムの蓄積は望めない。

【０００８】

【発明が解決しようとする課題】このような現状の環境
にもかかわらず、一部の先進ユーザは、アプリケーショ
ンの高速化を達成するために、アーキテクチャを十分に
考慮して高速化を行っている。

【０００９】一方、並列計算機を普及させるには、一般
ユーザに分割アルゴリズムを意識させないで、並列アプ
リケーションを開発させる環境が必要である。それに
は、使い勝手だけを考えれば、ユーザが自分のＮ次元計
算モデルのイメージのままで並列アプリケーション・プ
ログラムの開発が出来ればよい。また、アプリケーショ
ンの高速化という観点では、先進ユーザの計算モデルに
対応したマッピングが必要になる。

【００１０】そこで、アプリケーションによく見られる
データ参照パターンについて、ユーザに使いやすくか
つ、高速であるインターフェースが必要となる。本発明
は、このような要請に基づきなされたもので、並列計算
機において、ユーザが、並列計算機のアーキテクチャを
意識せずに、アプリケーションの開発あるいは運用を図
れるようにすることを課題とする。

【００１１】

【課題を解決するための手段】本発明は、前記課題を解
決するため、複数のプロセッサの間で相互にデータ及び
情報を通信手段により転送することで各々のプロセッサ
が並列に処理を実行する並列計算機において、以下の構
成をとった。

【００１２】図１の原理図に示したように、並列計算機
において、計算モデルを分割した計算ユニットと、並列
計算機のアーキテクチャである複数の物理プロセッサと
が、アドレス変換テーブルを介して、対応づけられる。

【００１３】図１で、２１は、ユーザが演算処理しよう
とするＮ次元計算モデルである。ここでは３次元モデル
であるが、任意のＮ次元（Ｎ＝自然数）が可能である。
Ｎ次元計算モデルは、識別符号を有する複数の計算ユニ
ットに分割される。

【００１４】また、２３は、物理プロセッサ構成であ
る。ここでは、２次元に配列されている。複数の物理プ
ロセッサ（ＰＥ）には、識別符号が付与されている。２
５は、分割された複数の計算ユニットと、各プロセッサ
とを、識別符号により対応づけるアドレス変換テーブル
である。

【００１５】ユーザが計算させようとする計算モデルは
様々であるが、適応する問題にはアプリケーション独特
のデータ参照パターンが存在していて、さらに計算モデ
ル構成が３次元以上の高次元であるものが多く、ネット
ワークアーキテクチャの構成と異なることが多い。前記
問題を解決するためには、これを反映させる必要があ
る。

【００１６】これらを踏まえ、ユーザに、アーキテクチ
ャを意識させず、計算モデルのイメージのままで作業さ
せるためには、あたかも、物理プロセッサ構成がユーザ
の計算モデルと同じ構成をしているかのごとく、ユーザ
にイメージさせて、その空間（ユーザ空間）のイメージ
のままでプロセッサ間通信をさせるインターフェースを
定義しなければならない。このようなインターフェース
を実現するのが以上の構成である。

【００１７】そして、このユーザ・インターフェースを
介して、分割した計算ユニットを、各プロセッサに任意
にマッピングする。マッピングとは、計算モデルを、ア
プリケーションプログラム上で並列に計算できる計算領
域の単位（ユニット）に分割したあとのプロセスであ
り、各ユニットを並列計算機上の、各プロセッサに割り
当てることをいう。ここで、前記単位（ユニット）は、
アプリケーションプログラムで並列に計算できる計算領
域の最小単位ユニットでもよいし、この最小単位ユニッ
トをいくつか集めたユニットブロックであってもよい。

【００１８】本発明は、方法として、あるいは、ライブ
ラリ・プログラムとして、さらには、並列計算機自体と
してとらえることが可能である。まず、方法としてとら
えた場合、並列計算機において、ユーザが演算処理しよ
うとするＮ次元計算モデルを、前記複数のプロセッサで
並列処理する方法であり、前記Ｎ次元計算モデルを識別
符号を有する複数の計算ユニットに分割するステップ
と、前記分割した計算ユニットと各プロセッサとを対応
づけるステップとでユーザ・インタフェースを形成す
る。このインターフェースを介して、分割した計算ユニ
ットを、各プロセッサに任意にマッピングするステップ
を有する。その後、プロセッサ間通信を分割ユニットの
識別符号を用いて行う。

【００１９】この方法をライブラリ・プログラムとした
場合、前記Ｎ次元計算モデルを識別符号を有する複数の
計算ユニットに分割する分割ルーチンと、分割した計算
ユニットの識別符号と前記各プロセッサに付与された識
別符号との対応関係をアドレス変換テーブル上に形成す
る管理ルーチンと、分割した計算ユニットを、各プロセ
ッサに任意にマッピングするマッピングルーチンと、を
備え、プロセッサ間通信を分割ユニットの識別符号を用
いて行うことを特徴とする並列計算機用通信ライブラリ
として実現できる。これを、従来のライブラリ群に加え
て、Ｎ次元サブルーチン・ライブラリとする。

【００２０】このようなライブラリの実行により、並列
計算機において、前記Ｎ次元計算モデルを識別符号を有
する複数の計算ユニットに分割する計算モデル分割部
と、前記複数の各プロセッサに識別符号をつけておき、
分割した計算ユニットと各プロセッサとの対応関係をア
ドレス変換テーブル上に形成する管理部と、分割した計
算ユニットを、各プロセッサに任意にマッピングするマ
ッピング部と、が実現される。

【００２１】以上において、計算モデルに対応した最適
なマッピングを行う必要がある。最適なマッピングと
は、アプリケーションのデータ参照パターンに対し、高
速化という観点で最も効率的なプロセッサ間通信を実現
するものである。

【００２２】本来、ユーザ空間から、プロセッサ空間へ
のマッピング作業は、自動的に最適な形が選ばれるのが
理想的である。しかし、アプリケーション独自のデータ
参照パターンは、ユーザしか知らないもので、これまで
多くの並列計算機システムでは、満足のいくマッピング
を行ってはいなかった。また、最適なマッピング手法自
体分からない部分が多い。そこで、本発明では、まず各
通信パターンに対応した、最適なマッピング規則を見つ
けることに目標をおいた。そのためには、ユーザが自由
にマッピング規則を操作できるものが必要になる。

【００２３】前記で説明した構成は、このような要請に
応えるユーザ・インターフェースを提供する。マッピン
グに当たっては、通信の高速化の観点から、ネットワー
クアーキテクチャに加え、新たにアプリケーションのデ
ータ参照関係を考慮する必要がある。そこで、マッピン
グの決定という問題を前述のように通信の高速化問題と
してとらえ、通信時間の評価関数を設定し、通信の最小
化を図ることとした。

【００２４】通信時間の最小化のアルゴリズムとして、
焼き鈍し法（アニーリング）を採用することで並列計算
機上の通信時間が最小となるようにするとよい。代表的
なデータ参照関係の場合は、この最適化問題をユーザが
解くことなく、最小な時間で、最適なマッピング情報を
得られるようにするとよい。

【００２５】代表的なデータ参照関係とは、最近接参
照、近接参照、全対全、等これまで経験的にアプリケー
ションプログラムに見られたものである。ユーザ固有の
データ参照関係の場合は、予め最適化問題を解き、最適
マッピング情報データベースにこれを登録することで、
代表的なデータ参照関係の場合と同様に、アプリケーシ
ョンプログラムの中からデータベースにアクセスするだ
けで最適なマッピングを得られるようにするとよい。

【００２６】ユーザ固有のデータ参照関係とは、ユーザ
にきわめて強く依存したもので、前記したデータ参照パ
ターン以外の汎用性にとぼしいものである。例えば、”
２つ飛び”、とか、”ある領域のみ”とかいった極めて
まれなデータ参照パターンである。

【００２７】最適マッピング情報データベースシステム
の作成にあたっては、データの参照関係、計算ユニット
単位のプロセッサ間データ量、プロセッサ台数を定義
し、マッピングの最適化手法により、マッピング情報を
データベース出力する。

【００２８】データベースが構築されると、その後は、
並列処理に当たって、このデータベースを参照し、計算
モデルにふさわしいマッピングを選択して、処理を遂行
する。

【００２９】

【作用】本発明では、前記図１のような、ユーザ・イン
ターフェースを提供し、ユーザが分割したＮ次元モデル
の計算ユニットと、物理プロセッサに識別符号をつけて
おき、その対応をアドレス変換テーブルでもつので、こ
れにユーザがアクセスするだけで、自由にマッピング操
作をすることが可能になる。

【００３０】その後は、プロセッサ間通信はユーザが分
割ユニットの識別符号を用いて行うことが出来る。これ
で、ユーザ空間での作業が実現し、Ｎ次元計算モデルに
応じてマッピングを自由に操作できるようになる。

【００３１】

【実施例】以下、本発明の好適具体例を図を参照して説
明する。実施例では、並列計算機ＡＰ１０００を対象に
行った研究について、このユーザ・インターフェース実
現の方法を述べるとともに、典型的なデータ参照パター
ンについての、最適なマッピング方法について述べる。＜ＡＰ１０００について＞まず、並列計算機ＡＰ１００
０を、図２、図３に従って説明する。

【００３２】ＡＰ１０００は、各プロセッサが、２次元
トーラス状に接続されているＭＩＭＤ（Multi Instruct
ion stream Multi Data stream）型の並列コンピュータ
である。特徴として、３つの通信ネットワークを装備し
ていて、プロセッサ（ＰＥ）間の通信はトーラスネット
ワークを用いる。ＰＥ間通信の最適化にあったては、ネ
ットワークの特性を考慮しなければならない。

【００３３】図２にＡＰ１０００のアーキテクチャ構成
図を示す。ＡＰ１０００は、１対１の通信に使用するト
ーラス・ネットワーク３１（Torus network）（以下、
Ｔ-net という）、１対多の通信に使用する放送ネット
ワーク３３（Broadcast network）（以下、Ｂ-net とい
う）、バリア同期専用の同期ネットワーク３５（Synchr
onization network）（以下、Ｓ-net という）の３種の
独立した通信ネットワークをもつ。

【００３４】Ｔ-net はその２次元格子点にルーチング
・コントローラ３７（ＲＴＣ）を有し、Ｂ-net は複数
の放送ネットワーク・インターフェース３９（ＢＩＦ）
を有している。Ｔ-net のＲＴＣ３７とＢ-net のＢＩＦ
３９とは４対１の関係でそれぞれバスで接続され、各バ
ス上に、それぞれセル・プロセッサ４１（以下、単にセ
ルという）が設けられている。その内にいくつかには、
オプション構成として、フレーム・バッファ４３と、ハ
ード・ディスク４５とが接続されている。また、フレー
ム・バッファ４３にモニタ４７が接続されている。

【００３５】前記Ｂ-net の各ＢＩＦ３９は、Ｓ-net３
５に一括して接続されている。また、ＢＩＦの一つにホ
ストコンピュータ４９が接続されている。この結果、全
セル４１とホスト４９は、Ｂ-netによって接続される。

【００３６】Ｂ-netは、階層バスとリングを組み合わせ
たネットワークで、データ放送、分散、収集に使用す
る。Ｂ-netは、データ転送中は一つのセルまたはホスト
に占有されるので、データ転送を行いたいホストまたは
セルは、データ転送を行う前にＢ-netの使用要求を出し
使用権を獲得する。Ｂ-netは、３２−ｂｉｔのデータパ
スとリセット、割込みなどの制御信号から構成されてお
り、パイプライン化されたハンドシェーク制御によっ
て、５０ＭＢｙｔｅ／ｓのデータ転送レートをもつ。

【００３７】Ｔ-netは、２次元トーラス状のトポロジー
をもつネットワークでメッセージの中継は、ワームホー
ルルーチングによりハードウェアで自動的に行われる。
ワームホールルーチングでは、メッセージのヘッダが、
入力チャネルから出力チャネルへ中継ルートを作りなが
らメッセージを送り出す。ストアアンドフォワードルー
チングが、中継プロセッサがメッセージ全体をストアす
るのに対し、ワームホールルーチングではフリットと呼
ばれる数バイト（ビット、ＡＰ１０００では１６ビッ
ト）のデータのみが中継プロセッサにストアされるた
め、低レイテンシが実現できる。

【００３８】このように、ワームホールルーチングは、
通信の遅延時間（レイテンシ：ltency）が小さいという
特長をもつが、メッセージが通信チャネルをブロックす
るためデッドロック発生の可能性とスループットの低下
という問題がある。ＡＰ１０００のＴ-netでは、ワーム
ホールルーチングに構造化バッファプールアルゴリズム
を組み合わせることによりデッドロックを回避しスルー
プットの低下を抑えた。また、放送通信のレイテンシを
小さくするため、行または列への放送機能も同時にイン
プリメントした。Ｔ-netのそれぞれのポートは、１６ｂ
ｉｔ幅のデータパスをもち、Ｂ-netと同じようにパイプ
ライン化されたハンドシェーク制御により、２５ＭＢｙ
ｔｅ／ｓのデータ転送レートをもつ。

【００３９】全セルとホストは、Ｓ-netによっても接続
されている。Ｓ-netは、ツリー状のトポロジーをもち、
バリア同期とステータスの検出に使用される。各セルか
らのデータは、Ｓ-netの根の部分に向かって送られる。
Ｓ-netの各ノードでは、各セルからのデータがＡＮＤ演
算によってマージされる。全セルの出力したデータの理
論積がＳ-netの根の部分で得られる。得られた結果は、
今度はＳ-netを逆に進んで全セルに知らされる。各セル
がＳ-netに送り出したデータの結果が得られるまでの時
間は、８クロック（６４０ｎｓ）とセル数に関係なく一
定である。

【００４０】ホストコンピュータには、汎用ワークステ
ーションを使用している。ＡＰ１０００のホストインタ
ーフェースは、ホストコンピュータに実装するＶＭＥバ
スインターフェースボードとＡＰ１０００フレーム内に
実装されるホストインターフェースボードから構成され
る。ホストインターフェースボードには、Ｂ-netインタ
ーフェースと３２ＭＢｙｔｅのローカルメモリが実装さ
れ、メッセージバッファとして利用できる。

【００４１】図３に前記セルの構成を示す。個々のセル
は、整数演算ユニット５１（ＩＵ）、不動小数点演算ユ
ニット５３（ＦＰＵ）、メッセージコントローラ５５
（ＭＳＣ）、ルーチングコントローラ５７（ＲＴＣ）、
Ｂ-netインターフェース５９（ＢＩＦ）、１６ＭＢｙｔ
ｅのメインメモリ（ＤＲＡＭ）６１から構成される。Ｉ
ＵとＦＰＵは、１２８ＫＢｙｔｅのダイレクトマップキ
ャシュメモリ６３に接続され、２５ＭＨｚで動作する。
ＩＵには、ＳＰＡＲＣアーキテクチャのものを採用し
た。ＲＴＣには、２次元トーラスネットワーク上での自
動ルーチング機能を、ＢＩＦには、データ分散収集及び
バリア同期機能をインプリメントした。ＭＳＣ，ＲＴ
Ｃ，ＢＩＦ，とＤＲＡＭコントローラ６５（ＤＲＡＭ
Ｃ）は，ＬＢＵＳとよばれる３２ｂｉｔの内部バスで接
続される。個々のセルのＬＢＵＳは、コネクタを介して
外部に取り出されており、高速Ｉ／Ｏインターフェー
ス、拡張メモリ、ディスクインターフェース、ベクター
プロセッサ等の個々のオプション・ハードウェアが接続
できるようになっている。

【００４２】メインメモリは４重インタリーブでＤＲＡ
Ｍを制御するＤＲＡＭＣと、４０個の４Ｍ−ＤＲＡＭで
構成される。ＭＳＣはキャッシュコントローラ、ライン
センド（Line sending）とバッファレシーブと呼ばれる
１対のメッセージハンドラー、４チャンネルの高機能Ｄ
ＭＡコントローラから構成される。

【００４３】本実施例では、このような構成のアーキテ
クチャ上に、図４のような、前記Ｎ次元計算モデルを識
別符号を有する複数の計算ユニットに分割する計算モデ
ル分割部７１と、前記複数の各プロセッサに識別符号を
つけておき分割した計算ユニットと各プロセッサとの対
応関係をアドレス変換テーブル上に形成する管理部７３
と、分割した計算ユニットを、各プロセッサに任意にマ
ッピングするマッピング部７５と、が実現される。そし
て、マッピング部７５で得られた最適マッピング情報は
データベース部７７に出力される。このデータベース部
７７は、図２のハードディスク４５上に設けられる。以
後は、このデータベース部７７を管理部７３を介して参
照し、アドレス変換テーブルを構成して、並列計算を行
う。

【００４４】ところで、ユーザ空間の重要性、また、そ
のユーザ空間からの自由なユーザ・マッピングの必要性
は前記したところであるが、このような要請に応えるイ
ンターフェースをＡＰ１０００上に実現した。

【００４５】実現方法の概要は、図４で示したように、
最初に、ユーザが分割したＮ次元モデルの計算ユニット
と、物理プロセッサに識別符号をつけておき、その対応
をアドレス変換テーブルでもつ方法である。すると、こ
れにユーザがアクセスするだけで、自由にマッピング操
作をすることが可能になる。その後は、プロセッサ間通
信はユーザが分割ユニットの識別符号を用いて行うこと
が出来る。これで、ユーザ空間での作業が実現し、Ｎ次
元計算モデルに応じてマッピングを自由に操作できるよ
うになる。これを、従来のライブラリ群に加えて、図５
で示したようなＮ次元サブルーチン・ライブラリとして
拡張、実現した。

【００４６】より詳細には、使用するプロセッサ数を宣
言するステップ、宣言したプロセッサの数の範囲内の数
＝Ｎⁿ に計算モデルを計算ユニットへと分割するステッ
プ、分割した計算ユニットに識別符号を付与するステッ
プ、使用するプロセッサに識別符号を付与するステッ
プ、計算ユニットに付与された識別符号と、プロセッサ
に付与された識別符号とを対応づけて管理テーブルに登
録するステップとによりユーザ・インターフェースが構
築される。なお、分割された計算ユニットと、プロセッ
サに付与される識別符号は、１、２、３・・・というよ
うな通し番号が管理上好ましい。

【００４７】＜処理の流れ＞最適マッピングをするため
には、図６のように、まず、計算モデルについての情報
を入力する必要がある。すなわち、データの参照関係
（データ参照パターンともいう）、計算ユニット単位の
プロセッサ間データ量、プロセッサ台数を定義する（ス
テップＡ１）。

【００４８】そして、マッピングの最適化手法により、
最適マッピングを得る（ステップＡ２）。マッピングの
最適化手法については後記する。得られたマッピング情
報をデータベース出力する（ステップＡ３）。

【００４９】＜アプリケーションプログラムでの使用例
＞データベースが構築されると、その後は、アプリケー
ションプログラムなどにおいて計算モデルの並列処理に
当たって、以下のような処理が行われる。まず、図７で
示したように、ユニット分割次元数とマッピングテーブ
ルの入力が行われる（ステップＢ１）。ここで、マッピ
ングテーブルの入力とは、前記したユーザ・インターフ
ェースの構築である。次に、最適マッピング情報データ
ベースにアクセスして、計算すべき計算モデルにふさわ
しい最適マッピング情報を読み出し、システム環境を設
定する（ステップＢ２）。ここでは、図４のアドレス変
換テーブル２５上にマッピング・テーブルが構築され
る。

【００５０】この処理が終了すると、ユニット分割次元
上での通信を行いつつ、並列的に処理が行われる。＜計算モデルに対応したマッピング＞では、最適なマッ
ピングを得る方法について説明する。

【００５１】マッピングは、図８に示したように、デー
タを任意のＮ次元に分割したあと、これを最適にプロセ
ッサに割り当てることである。図９は、２次元に分割す
べきか、３次元に分割すべきか、マッピングとしてパタ
ーン１がよいのかパターン２がよいのかという検討すべ
きことを示している。

【００５２】マッピングに当たって考慮すべきことは、
データ参照パターン、計算モデルの次元数、通信コスト
の評価関数である。「データ参照パターン」データ参照パターンと通信と計
算のバランスを考慮して、分割の仕方が決定される。

【００５３】マッピングの前提としてデータ分割が問題
となるが、考慮すべきことは、分割によって分割ユニッ
ト間での通信がどうなるかということと、ユニット内の
計算量を他ユニットとの通信量とのバランスである。

【００５４】例えば、あるLattice sizeの立体格子モデ
ルがあり、これを分割して各セル（プロセッサ）に割り
当てるとき、データ参照パターンが最近接（±Ｘ方向、
±Ｙ方向、±Ｚ方向の合わせて６方向を参照する）であ
るとしたら、ＡＰ１０００は２次元トーラス構造なの
で、マッピングの容易性を考えて図１０（Ａ）のように
分割する。これを２次元分割という。ところが、このよ
うな分割では問題がある。すなわち、２次元分割では、
図１１（Ａ）のように、通信方向が４方向となり、立体
モデルで表面積を通信量、体積を計算量と見るとき、分
割数が増えていくと、すなわち、セル（プロセッサ）台
数を増やしていくと、計算量に対して通信量の占める割
合が増してゆく。

【００５５】そこで、図１０（Ｂ）のような分割方法を
考慮してみた。これを３次元分割という。３次元分割で
は、図１１（Ｂ）のように、通信方向が６方向となり、
最近接のデータ参照パターンに対応できる。このため、
通信量の占める割合が２次元分割に比較して少なくな
る。しかし、マッピングの仕方が難しくなる。

【００５６】以上をまとめると、単位通信方向の通信量
の占める割合を計算量に対して減らすために、分割の方
法を考え、分割によって発生した通信パターンを考慮に
いれマッピングの容易さを考慮するということである。

【００５７】ところで、データ参照パターンは、アプリ
ケーションによってさまざまである。最初から全ての場
合について考えるのは無理であろう。そこで、図９のよ
うに、アプリケーションによく見られるデータ参照パタ
ーンによって分類してみることにする。最近接格子：自分のデータ更新に必要なデータを最も
近い隣の格子点から参照する必要がある格子である。±
Ｘ方向、±Ｙ方向、±Ｚ方向の合わせて６方向を参照す
る。

【００５８】応用例として、構造解析、熱伝動、流体解
析（有限要素法、中心差分）、物性（イジングスピ
ン）、ＭＤ（モデキュラーダイナミクス）などの計算に
利用できる。近接格子：自分のデータの更新に必要なデータを近く
で隣合っている（最近接＋斜め方向の）格子点から参照
する必要がある格子をいう。±Ｘ方向、±Ｙ方向、±Ｚ
方向の合わせて６方向に加えて、±ＺＸ方向、±ＹＺ方
向、±ＸＹ方向の合わせて６方向、合計１２方向を参照
する。

【００５９】応用例として、ＱＣＤ（Quantum chromody
namics：量子色力学）などに利用できる。Ｎ対Ｎ：データの更新に全ての格子点を参照する必要
があるもので、応用例として、希薄流体の粒子追跡など
に利用できる。希薄流体の粒子を追跡するとき、どの領
域に粒子が行くか分からないので、全ての分割領域を参
照する必要がある。完全独立：通信が無い場合である。この場合、計算が
並列計算機の全てのプロセッサ（ＰＥ）で独立に行える
場合である。

【００６０】以上の各場合と、分割すべき次数との関係
を図９に示す。以上のデータ参照パターンの相違により
本発明でどのような影響があるかを、前記３次元分割の
場合を例にととって説明する。

【００６１】最近接のとき：３次元分割によって各ユニ
ットには６方向の通信が発生する。これを２次元のセル
（プロセッサ）へマッピングするのであるが、２次元セ
ルには４方向の通信経路しか存在しない。ＡＰ１０００
では、セル間の距離に通信時間は依存しないのが建て前
であるが、メッセージの競合を避けるためには互いに通
信すべきユニットはできるだけ近くに置きたい。そこ
で、４方向を隣に置けるが、残りの２方向をどのように
処理するかが問題となる。

【００６２】近接（斜め方向も含む）のとき：この場
合、ユニットが計算に必要とする方向が増えるのでその
分、マッピングの仕方に影響がでる。Ｎ対Ｎの場合：この場合は、データの更新に全ての計算
単位の参照が必要な場合であるから、その点を考慮する
必要がある。この場合、分割によって膨大な通信量が発
生するのでマッピングには近接と異なる考え方を導入す
る必要がある。「計算モデルの次元数とマッピング」データの参照は、
問題が何次元であるかによっても考え方が異なってく
る。例えば図１０、図１１の様に、データ参照が最近接
方向で２次元の計算モデルを、ＡＰ１０００のような２
次元トーラスにマッピングする場合は、そのままマッピ
ングすればいいが、３次元の計算モデルの場合だと、途
中で変換が必要になる。計算モデルの次元が増える程、
各計算ユニットが通信する方向は増えてゆき、高次元の
計算モデルになるにつれて、難しくなることが想像され
る。例えば、３次元の最近接格子の場合は通信方向が６
方向で、４次元だと８方向である。これを２次元にマッ
ピングするには、残りの方向に当たる部分をどこかに持
ってゆかなければならない。

【００６３】実施例では、ＡＰ１０００（２次元トーラ
ス）での３次元の最近接格子の通信の最適化問題を考え
ることとした。これは、アプリケーションで最も応用範
囲の広いケースである。「通信コストの評価関数」一般的に、並列計算機で通信
コスト（時間）の削減を考える時に、通信回数、通信
量、通信の混み方、プロセッサ（ＰＥ）間距離を考えね
ばならない。どれが、どのくらい通信コストに、効いて
くるかの比率は、その並列計算機のアーキテクチャに大
きく依存している。ＡＰ１０００の場合は、プロセッサ
間通信コストは、図１２、図１３に示されるように、プ
ロセッサ（ＰＥ）間の距離にはあまり依存せず、通信の
混み方に大きく依存している。

【００６４】しかし、通信が混んでくると、むしろ通信
距離ができるだけ少ない方が、通信の衝突も起こりにく
く混み方が少なくなり、通信コストが最小に近い値が得
られるだろうと仮定した。

【００６５】このことは、図１４のＡＰ１０００のネッ
トワーク特性からも想定できる。図１４の実験は、全て
のセルが同じ方向、同じ距離だけ離れたセルに一斉に送
信した場合メッセージの発信から受信までどれくらいか
かるか？という実験である（メッセージの交換ではな
い）。これは３２×１６セルなのでトーラスの効用で最
大送信距離（Ｘ，Ｙ）は図から明かなように２４とな
る。この結果から、データが大きくなり、経路上でメッ
セージの引きずりが起こるとき距離に対してリニアに通
信時間が上がるように見える。そこで、これを確認する
ために、評価関数として各プロセッサ間の距離の総和Ｌ
を導入した。マッピングは、この距離の総和Ｌが最小と
なるように行う。ＡＰ１０００について、距離の総和と
通信速度との関係を調べたところ、図１５のように、距
離の総和が小さいほど、通信速度が速いことがわかっ
た。「マッピング」実施例では、サンプルとして、３³の物
理体系を８²の２次元ネットワーク構成の計算機に、４³
を８²にマッピングする場合について考える。しかし、
全ての組み合せはそれぞれ、１０⁴⁸通り、１０⁹⁰通り存
在するため、これら全てを調べるのは無理である。そこ
で、経験的に規則的な並びを考える方法と、シミュレー
ションにより求める方法を行った。＊経験的マッピング３次元の計算ユニットの、６つの通信方法全てに対し均
等な通信コストは考えにくいので、まず、ある方向を優
先的に隣になるようにおき、残りの方向についてなるべ
く近く、規則的になるように置くことを考えた。

【００６６】ＸＹＺ各方向に対して、立体的に分割し、
それをマッピングするモデルを考える。図１６は３³を
８²にマッピングした場合であり、図１７は４³を８²に
マッピングした場合である。図１６、図１７に於いて、
Ａのマッピング方法（スキップ法という）は、ＺＸ平面
で４つに切っておき、Ｙ方向の各計算ユニットが正方形
で隣合うように並べる方法で、ＺＸ方向の通信がひとつ
飛びに並ぶ恰好になる。しかし、Ｙ方向が隣合う為に
は、ＺＸ平面を４つに分割しなければならない。

【００６７】より具体的には、（ａ）３次元計算モデル
において、Ｘ方向、Ｙ方向、Ｚ方向の計算単位をＶＣ
Ｘ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、Ｚ方向
の分割数をＶＸ、ＶＹ、ＶＺと定義する。同時に、マッ
ピング対象となる２次元物理プロセッサにおいて、Ｘ方
向物理プロセッサ台数、Ｙ方向物理プロセッサ台数をそ
れぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方向、Ｙ
方向に分割した分割数をそれぞれＰＸ、ＰＹと定義して
物理プロセッサをグループ化する。

【００６８】そして、（ｂ）３次元計算モデルをＶＸ＝
ＰＣＸ／２、ＶＹ＝ＰＣＹ／２、ＶＺ＝０に分割し、こ
の分割によって出来た直方体ユニットをメインユニット
と呼び、各分割単位に通し番号（メインユニット番号）
を付与し、さらにこのメインユニットをＺ軸方向に４つ
に分割し、この結果できたユニットをサブユニットと呼
んで、各分割単位に通し番号（サブユニット番号）を付
与し、同時に、２次元物理プロセッサにおいて、ＰＸ＝
ＰＣＸ／２、ＰＹ＝ＰＣＹ／２に分割してプロセッサを
グループ化し、各分割単位に通し番号（グループ番号）
を付与する。

【００６９】さらに、（ｃ）３次元モデルのメインユニ
ット番号と同一番号のグループ番号を有する物理プロセ
ッサのグループに、図１８のように、サブユニット番号
０から３を、０と１、１と２、２と３、３と０とが隣接
するように分配してマッピングする。図１６、図１７に
於いて、Ｂのマッピング方法（タイル法という）は、Ｚ
Ｘ平面でスライスしたものを順番に置いていったもので
ある。これで、ＺＸ方向が隣合いＹ方向が均等（スライ
ス数分離れる）に並ぶ。

【００７０】より具体的には、（ａ）３次元計算モデル
において、Ｘ方向、Ｙ方向、Ｚ方向の計算単位をＶＣ
Ｘ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、Ｚ方向
の分割数をＶＸ、ＶＹ、ＶＺと定義する。同時に、マッ
ピング対象となる２次元物理プロセッサにおいて、Ｘ方
向物理プロセッサ台数、Ｙ方向物理プロセッサ台数をそ
れぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方向、Ｙ
方向に分割した分割数をそれぞれＰＸ、ＰＹと定義して
物理プロセッサをグループ化することを前提とする。

【００７１】そして、（ｂ）３次元計算モデルをＶＸ＝
０、ＶＹ＝０、ＶＺ＝ＶＣＺに分割し、この分割によっ
て出来た直方体ユニットをメインユニットと呼び、各分
割単位に通し番号（メインユニット番号）を付与し、こ
のメインユニットのＸ方向計算単位数、Ｙ方向計算単位
数をｖｘ、ｖｙとする。同時に、２次元物理プロセッサ
において、ＰＸ＝ＰＣＸ／ｖｘ、ＰＹ＝ＰＣＹ／ｖｙに
分割してプロセッサをグループ化し、各分割単位に通し
番号（グループ番号）を付与する。

【００７２】さらに、（ｃ）ｖｘ＝ＰＸ、ｖｙ＝ＰＹの
位置に対応して、図１９のように、メインユニットを２
次元物理プロセッサのＸ方向に通し番号順に配置し、そ
のライン上でのＸ方向の端部物理プロセッサに来たら、
Ｙ方向へ移行し、今度はメインユニットを逆のＸ方向に
通し番号順に配置し、再度Ｘ方向の端部物理プロセッサ
に来たら、Ｙ方向へ移行し、以後、以上の蛇行によるマ
ッピングを繰り返す。＊シミュレーションによるマッピング次に、シミュレーションによって最適なマッピングを求
めようという方法を用いた。つまり、今回のマッピング
の問題を距離の総和を最小化する組合わせの最適化問題
として考えた。

【００７３】マッピングによる通信コストは、すべての
最近接間格子間の距離の総和にほかならないとした。方
法は、初期状態としてランダムにマッピングしておき、
経路の総和を求めておく。図２０のように、どこか一組
を取り替えてみて、経路の総和が減ったら交換を採用す
る。交換を繰り返していき、総和の変化が少なくなった
状態を近似解として採用する方法である。

【００７４】具体的には、隣接格子点ＰｉＰｊがそれぞ
れ２次元格子点上のある点（Ｘｉ，Ｙｉ）（Ｘｊ，Ｙ
ｊ）にマッピングされたとする。ＰｉＰｊの距離ｌｉｊ
はｌｉｊ＝｜Ｘｉ−Ｘｊ｜＋｜Ｙｉ−Ｙｊ｜よって評価関数は、Ｌ＝Σｌｉｊになりこれが最小にな
った時の、マッピング状態を最適なものと近似する。
（最小なのは全ての格子点が一つになったときである
が、交換で格子点が重なることは考えない）ところが、
このような緩和法には、局所的最小の存在が確認されて
おり、△Ｌが最小だからといって必ずしも、通信コスト
が最小であるとは限らない。＊アニーリング法そこで、組合わせの最適化の近似解法として、カークパ
トリックら（Ｓ．Ｋｉｒｋｐａｔｒｉｃｋｅｔａ
ｌ．1983）によって提案された、シミュレーテドアニー
リング法（ｓｉｍｕｌａｔｅｄａｎｎｅａｌｉｎｇ
ｍｅｔｈｏｄ）［４］を用いた。これは、評価関数をよ
り小さくするように変化させていく過程に、局所的最小
を脱出するような確率を導入した方法である。その確率
をω、目安をＴ（確率を決定するパラメータ）とする。

【００７５】 ω（△Ｌ）＝ｅｘｐ（−△Ｌ／Ｔ），△Ｌ＞０ ω（△Ｌ）＝１，△Ｌ＜０ △Ｌ＝Ｌ（交換前）−Ｌ（交換後）：距離の変化Ｔ（確率を決定するパラメータ）を段々下げてゆく（確
率を下げてゆく）と評価関数が最小に近くなる。Ｔの下
げかた（アニーリング・スケジュール）は、ギーマン兄
弟（Ｓ．ＧｅｍａｎａｎｄＤ．Ｇｅｍａｎ 1984）
による、Ｔ（ｔ）＝Ｂ／ｌｎｔＴ（ｔ）→０（ｔ→無限大）とした。

【００７６】Ｂ：評価関数の障壁の高さ図２１に、アニーリング法のアルゴリズムを示す。すな
わち、初期マップ位置を決定した後（ステップ１０
１）、マップ位置を変化させ（ステップ１０２）、
長さの変化（前記距離の総和の変化）△Ｌを算出し（ス
テップ１０３）、△Ｌ＜０のとき、前記マップ位置の
変更を採用し（ステップ１０４、１０５）、△Ｌ＜０
でないとき、乱数Ｘ（０＜Ｘ＜１）を引き出し（ステッ
プ１０６）、ｅｘｐ（−△Ｌ／Ｔ）を演算し（Ｔは確立
を決める目安となるパラメータであり、例えば自然数を
代入できる）（ステップ１０７）、ｅｘｐ（−△Ｌ／
Ｔ）＜Ｘのとき、マップ位置の変更を採用せず（ステッ
プ１０８）、ｅｘｐ（−△Ｌ／Ｔ）＜Ｘでないとき、
マップ位置の変更を採用することとし（ステップ１０
５）、以上からの処理を、前記Ｔの値を減少させて
（ステップ１０９）繰り返すことにより、最終的に最適
なマッピングを得ることができる。からまでの繰返
し回数は、経験則から、１００万回程度で行うと、Ｌが
十分に下がることがわかった。よって、ループの繰返し
回数を予め入力して最適なＬを求めることができる。な
お、前記が一定回数連続して繰り返されたとき、前記
処理ループを中断させるブレークポイントを設けてもよ
い。

【００７７】このアニーリング法でどのように通信時間
が減るかを、図２２に示す。＜結果＞このアニーリングによって得られた、マッピン
グ結果、３³→８²の場合を図２３、４³→８²の場合を図
２６に示す。（図中の番号はＸＹＺ各座標を表す）同時に、前記した
経験マッピングのＡパターン方法（スキップ法）、Ｂパ
ターン方法（タイル法）についてもマッピング結果を得
た。３³→８²の場合をそれぞれ図２４、図２５、４³→
８²の場合をそれぞれ図２７、図２８に示す。＜マッピングの評価＞図２９に示したように、シミュレ
ーションで、得られたマッピングと経験的に得られたマ
ッピングとを距離の総和（Ｌ）で比較してみた。

【００７８】３³→８²の場合は、経験的に得られたマッ
ピングより、本手法でのマッピングの方が距離の総和が
少なく良い結果が得られた。ただし、最良なマッピング
であるとは限らない。４³→８²の場合は、経験的に得ら
れたマッピングと同程度の結果が得られた。＜データベースへの格納＞以上のマッピングで得られた
最適マッピングに関する情報は、図３０のようなファイ
ル形式でデータベースに登録される。

【００７９】このデータベースがどのように使用される
かは、前記したように、図７で示した通りである。＜結論＞評価関数として距離をとり、３次元格子の最近
接参照モデルを２次元のトーラス・ネットワークにマッ
ピングする時、アニーリング法を用いる事で、結果を比
較的容易に経験的マッピングより良い結果が得られる場
合があることを示した。今後、評価関数を正確化し改良
することで、経験的手法が働かないような、高次元の問
題のマッピングを考えるのに有効と考えられる。

【００８０】なお、本実施例は、ＡＰ１０００について
行ったが、本発明により前記ユーザ・インターフェース
を実現できる並列計算機であれば、他の並列計算機でも
本発明を実施できることはいうまでもない。＜マッピング最適化の並列処理＞図３１に、以上説明し
たマッピングの最適化を並列処理で行った場合の例を示
した。

【００８１】ここでは説明を簡単にするため、２台のプ
ロセッサで並列処理を行ったものとする。まず、親プロ
セッサがマップ位置等の初期値を子プロセッサに放送す
る（ステップ１０１−１）。また、親プロセッサでは、
障壁サンプルの設定を行い（ステップ２０６）、障壁Ｂ
を子プロセッサに送信する（ステップ２０７）。このス
テップ２０６、２０７を繰返し、最終フラグを子プロセ
ッサに送信する（ステップ２０８）。最終フラグとは以
下のループを行うか行わないかのフラグである。

【００８２】子プロセッサでは、初期値を受信して初期
設定を行う（ステップ１０１−２）。ついで、前記障壁
Ｂを受信し（ステップ２０１）、マップ位置を変化させ
る（ステップ１０２）。ついで、長さの変化（前記距離
の総和の変化）△Ｌを算出する（ステップ１０３）。△
Ｌ＜０のとき、前記マップ位置の変更を採用する（ステ
ップ１０４、１０５）。△Ｌ＜０でないとき、乱数Ｘ
（０＜Ｘ＜１）を引き出し（ステップ１０６）、ｅｘｐ
（−△Ｌ／Ｔ）を演算する（Ｔは確立を決める目安とな
るパラメータで、例えば自然数を代入できる）（ステッ
プ１０７）。ｅｘｐ（−△Ｌ／Ｔ）＜Ｘのとき、マップ
位置の変更を採用しない（ステップ１０８）。ｅｘｐ
（−△Ｌ／Ｔ）＜Ｘでないとき、マップ位置の変更を採
用する（ステップ１０５）。その後、Ｔの値を減少させ
（ステップ１０９）、減少率が十分低いか否かを判定し
（ステップ２０３）、目標値に達していない場合、ステ
ップ２０１から１０９までの処理を繰り返す。

【００８３】ステップ２０１で最終フラグを受信した場
合は、ステップ１０２から２０２の処理を飛ばして、全
サンプル中での最小値を計算する（ステップ２０３）。
そして、全サンプル中で「ＰＥ間距離の総和」が最小で
あるか否かを判定し（ステップ２０４）、全プロセッサ
の中で最小であればその結果を親プロセッサに送信する
（ステップ２０５）。親プロセッサでは、最小マッピン
グの出力をして（ステップ２１０）、処理を終了する。
なお、子プロセッサのステップ２０４で全サンプル中で
最小でないとされた場合、結果は親プロセッサに送信せ
ず、処理を終了する。ここで、全サンプルとは、全セル
でのそれぞれのサンプル、すなわち、あるセルでの評価
関数が最小となったマッピングパターンである。

【００８４】この並列化処理により、マッピングの最適
化が高速で行われる。

【００８５】

【発明の効果】本発明では、ユーザ空間において、並列
計算機のアーキテクチャを意識することなく最適なマッ
ピングをすることができる。よって、並列処置の高速化
を簡単に実現できる。

【図面の簡単な説明】

【図１】本発明で構成されるユーザ・インターフェー
スを示す概念図

【図２】実施例で使用した並列計算機のアーキテクチ
ャを示す構成図

【図３】実施例のセル構成図を示した構成図

【図４】インターフェースと本発明の機能ブロックと
の関係を示した図

【図５】ライブラリプログラムの一部を示した図

【図６】本実施例における処理フロー図

【図７】得られたデータベースの使用例を示す処理フ
ロー図

【図８】データ分割とマッピングパターン選択の考え
方を示した図

【図９】データ参照パターンと分割次元数との関係を
示す図

【図１０】データ分割・マッピングの関係の一例を示
した図

【図１１】データ分割・マッピングの関係の一例を示
した図

【図１２】ＡＰ１０００におけるＰＥ間距離対通信時
間を示す図

【図１３】ＡＰ１０００における通信コンテンション
対通信時間を示す図

【図１４】ＡＰ１０００における距離と時間との関係
を示す図

【図１５】ＡＰ１０００における距離の総和と通信時
間との関係を示す図

【図１６】３³を８²にマッピングした場合を示す図

【図１７】４³を８²にマッピングした場合を示す図

【図１８】マッピング例を示す図

【図１９】マッピング例を示す図

【図２０】最適マッピングの検索例を示す図

【図２１】シュミレーテド・アニーリング法のアルゴ
リズムを示す図

【図２２】評価関数（距離）による通信時間の差を示
す図

【図２３】３³を８²にアニーリング法でマッピングし
た場合の具体的結果を示す図

【図２４】３³を８²にスキップ法でマッピングした場
合の具体的結果を示す図

【図２５】３³を８²にタイル法でマッピングした場合
の具体的結果を示す図

【図２６】４³を８²にアニーリング法でマッピングし
た場合の具体的結果を示す図

【図２７】４³を８²にスキップ法でマッピングした場
合の具体的結果を示す図

【図２８】４³を８²にタイル法でマッピングした場合
の具体的結果を示す図

【図２９】マッピングの手法による評価関数と実測の
通信時間との関係を示した図

【図３０】最適マッピング情報データベースのファイ
ル形式を示した図

【図３１】マッピングの最適化を並列処理で行った場
合のフローチャート図

【符号の説明】

２１・・・Ｎ次元計算モデル２３ＰＥ・・・物理プロセッサ２５・・・アドレス変換テーブル３１・・・トーラス・ネットワーク３３・・・放送ネットワーク３５・・・同期ネットワーク３７・・・ルーチング・コントローラ３９・・・放送ネットワーク・インターフェース４１・・・セル・プロセッサ４１・・・全セル４３・・・フレーム・バッファ４５・・・ハード・ディスク４７・・・モニタ４９・・・ホストコンピュータ５１・・・整数演算ユニット５３・・・不動小数点演算ユニット５５・・・メッセージコントローラ５７・・・ルーチングコントローラ５９・・・インターフェース６３・・・ダイレクトマップキャシュメモリ６５・・・ＤＲＡＭコントローラ７１・・・計算モデル分割部７３・・・管理部７５・・・マッピング部Ｌ・・・距離の総和

───────────────────────────────────────────────────── フロントページの続き (72)発明者奥田基神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサの間で相互にデータ及
び情報を通信手段により転送することで各々のプロセッ
サが並列に処理を実行する並列計算機において、ユーザ
が演算処理しようとするＮ次元計算モデルを、前記複数
のプロセッサで並列処理する方法であり、前記Ｎ次元計算モデルを識別符号を有する複数の計算ユ
ニットに分割するステップと、前記分割した計算ユニットと各プロセッサとを対応づけ
るステップと、でユーザ・インターフェースを形成し、このユーザ・インターフェースを介して、分割した計算
ユニットを、各プロセッサに任意にマッピングするステ
ップを有し、その後、プロセッサ間通信を分割ユニットの識別符号を
用いて行うことを特徴とする並列計算機における計算モ
デルのマッピング法。
【請求項２】請求項１において、通信コストの評価関
数として、プロセッサ間の距離の総和Ｌを用い、前記マ
ッピングは、この距離の総和Ｌが最小となるように行う
ことを特徴とする並列計算機における計算モデルのマッ
ピング法。
【請求項３】請求項２において、分割ユニットの隣接
格子点Ｐｉ、Ｐｊが、それぞれ、２次元格子点上のある
点（Ｘｉ、Ｙｉ）（Ｘｊ、Ｙｊ）にマッピングされると
き、Ｐｉ、Ｐｊ間の距離ｌｉｊは、｜Ｘｉ−Ｘｊ｜＋｜Ｙｉ
−Ｙｊ｜と表され、前記評価関数Ｌ＝Σｌｉｊとし、これが最小となったと
きのマッピングを最適なものとして採用することを特徴
とする並列計算機における計算モデルのマッピング法。
【請求項４】請求項２または３において、初期マップ
位置を決定した後、マップ位置を変化させ、長さの
変化（前記距離の総和の変化）△Ｌを算出し、△Ｌ＜
０のとき、前記マップ位置の変更を採用し、△Ｌ＜０
でないとき、乱数Ｘ（０＜Ｘ＜１）を引き出してｅｘｐ
（−△Ｌ／Ｔ）を演算し（Ｔは確立を決める目安となる
パラメータ）、ｅｘｐ（−△Ｌ／Ｔ）＜Ｘのとき、マ
ップ位置の変更を採用せず、ｅｘｐ（−△Ｌ／Ｔ）＜
Ｘでないとき、マップ位置の変更を採用することとし、
以上からの処理を、前記Ｔの値を減少させて繰り返
すことを特徴とする並列計算機における計算モデルのマ
ッピング法。
【請求項５】請求項１において、前記マッピングは、
３次元計算モデルを、ＸＹＺ方向の３方向の計算ユニッ
トに立体的に分割し、それらを２次元に配列されたプロ
セッサにマッピングする場合であり、前記３次元計算モデルをＺＸ平面でｎ個の計算ユニット
に分割しておき、前記２次元において、Ｙ方向の各計算
ユニットが正方形で隣合うようにし、ＺＸ方向の計算ユ
ニットを一つ飛びに並べることを特徴とする並列計算機
における計算モデルのマッピング法。
【請求項６】請求項５において、（ａ）３次元計算モ
デルにおいて、Ｘ方向、Ｙ方向、Ｚ方向の計算単位をＶ
ＣＸ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、Ｚ方
向の分割数をＶＸ、ＶＹ、ＶＺと定義するとともに、マッピング対象となる２次元物理プロセッサにおいて、
Ｘ方向物理プロセッサ台数、Ｙ方向物理プロセッサ台数
をそれぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方
向、Ｙ方向に分割した分割数をそれぞれＰＸ、ＰＹと定
義して物理プロセッサをグループ化することを前提と
し、（ｂ）３次元計算モデルをＶＸ＝ＰＣＸ／２、ＶＹ
＝ＰＣＹ／２、ＶＺ＝０に分割し、この分割によって出
来た直方体ユニットをメインユニットと呼び、各分割単
位に通し番号（メインユニット番号）を付与し、さらに
このメインユニットをＺ軸方向に４つに分割し、この結
果できたユニットをサブユニットと呼んで、各分割単位
に通し番号（サブユニット番号）を付与し、２次元物理プロセッサにおいて、ＰＸ＝ＰＣＸ／２、Ｐ
Ｙ＝ＰＣＹ／２に分割してプロセッサをグループ化し、
各分割単位に通し番号（グループ番号）を付与し、
（ｃ）３次元モデルのメインユニット番号と同一番号の
グループ番号を有する物理プロセッサのグループにサブ
ユニット番号０から３を、０と１、１と２、２と３、３
と０とが隣接するように分配してマッピングすることを
特徴とする並列計算機における計算モデルのマッピング
法。
【請求項７】請求項１において、前記マッピングは、
３次元計算モデルを、ＸＹＺ方向の３方向の計算ユニッ
トに立体的に分割し、それらを２次元に配列されたプロ
セッサにマッピングする場合であり、前記３次元計算モデルをＺＸ平面でｎ個の計算ユニット
に分割しておき、前記２次元において、各計算ユニット
を順番に置き、ＺＸ方向が隣合いＹ方向が均等（ｎ個分
離れる）に並べたことを特徴とする並列計算機における
計算モデルのマッピング法。
【請求項８】請求項７において、（ａ）３次元計算モ
デルにおいて、Ｘ方向、Ｙ方向、Ｚ方向の計算単位をＶ
ＣＸ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、Ｚ方
向の分割数をＶＸ、ＶＹ、ＶＺと定義するとともに、マッピング対象となる２次元物理プロセッサにおいて、
Ｘ方向物理プロセッサ台数、Ｙ方向物理プロセッサ台数
をそれぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方
向、Ｙ方向に分割した分割数をそれぞれＰＸ、ＰＹと定
義して物理プロセッサをグループ化することを前提と
し、（ｂ）３次元計算モデルをＶＸ＝０、ＶＹ＝０、Ｖ
Ｚ＝ＶＣＺに分割し、この分割によって出来た直方体ユ
ニットをメインユニットと呼び、各分割単位に通し番号
（メインユニット番号）を付与し、このメインユニット
のＸ方向計算単位数、Ｙ方向計算単位数をｖｘ、ｖｙと
し、２次元物理プロセッサにおいて、ＰＸ＝ＰＣＸ／ｖｘ、
ＰＹ＝ＰＣＹ／ｖｙに分割してプロセッサをグループ化
し、各分割単位に通し番号（グループ番号）を付与し、
（ｃ）ｖｘ＝ＰＸ、ｖｙ＝ＰＹの位置に対応して、メイ
ンユニットを２次元物理プロセッサのＸ方向に通し番号
順に配置し、そのライン上でのＸ方向の端部物理プロセ
ッサに来たら、Ｙ方向へ移行し、今度はメインユニット
を逆のＸ方向に通し番号順に配置し、再度Ｘ方向の端部
物理プロセッサに来たら、Ｙ方向へ移行し、以後、以上
の蛇行によるマッピングを繰り返すことを特徴とする並
列計算機における計算モデルのマッピング法。
【請求項９】請求項４の処理を並列処理することを特
徴とする並列計算機における計算モデルのマッピング
法。
【請求項１０】請求項１において前記マッピングで得
られた最適マッピング・パターンをデータベースに蓄積
し、以後、このデータベースを参照して、計算モデルに
適合する最適マッピングを選択し、並列処理をすること
を特徴とする並列計算機における計算モデルのマッピン
グ法。
【請求項１１】複数のプロセッサの間で相互にデータ
及び情報を通信手段により転送することで各々のプロセ
ッサが並列に処理を実行する並列計算機において、ユー
ザが演算処理しようとするＮ次元計算モデルを、前記複
数のプロセッサで並列処理するにあたり使用する通信ラ
イブラリであり、前記Ｎ次元計算モデルを識別符号を有する複数の計算ユ
ニットに分割する分割ルーチンと、分割した計算ユニットの識別符号と前記各プロセッサに
付与された識別符号との対応関係をアドレス変換テーブ
ル上に形成する管理ルーチンと、分割した計算ユニットを、各プロセッサに任意にマッピ
ングするマッピングルーチンと、を備え、プロセッサ間通信を分割ユニットの識別符号を
用いて行うことを特徴とする並列計算機用通信ライブラ
リ。
【請求項１２】請求項１１において、前記マッピング
ルーチンにおける通信コストの評価関数として、プロセ
ッサ間の距離の総和Ｌを用い、前記マッピングは、この
距離の総和Ｌが最小となるように行うことを特徴とする
並列計算機用通信ライブラリ。
【請求項１３】請求項１２において、分割ユニットの
隣接格子点Ｐｉ、Ｐｊが、それぞれ、２次元格子点上の
ある点（Ｘｉ、Ｙｉ）（Ｘｊ、Ｙｊ）にマッピングされ
るとき、Ｐｉ、Ｐｊ間の距離ｌｉｊは、｜Ｘｉ−Ｘｊ｜＋｜Ｙｉ
−Ｙｊ｜と表され、前記評価関数Ｌ＝Σｌｉｊとし、これが最小となったと
きのマッピングを最適なものとして採用することを特徴
とする並列計算機用通信ライブラリ。
【請求項１４】請求項１２または１３において、初期
マップ位置を決定した後、マップ位置を変化させ、
長さの変化（前記距離の総和の変化）△Ｌを算出し、
△Ｌ＜０のとき、前記マップ位置の変更を採用し、△
Ｌ＜０でないとき、乱数Ｘ（０＜Ｘ＜１）を引き出して
ｅｘｐ（−△Ｌ／Ｔ）を演算し（Ｔは確立を決める目安
となるパラメータ）、ｅｘｐ（−△Ｌ／Ｔ）＜Ｘのと
き、マップ位置の変更を採用せず、ｅｘｐ（−△Ｌ／
Ｔ）＜Ｘでないとき、マップ位置の変更を採用すること
とし、以上からの処理を、前記Ｔの値を減少させて
繰り返すことを特徴とする並列計算機用通信ライブラ
リ。
【請求項１５】請求項１１において、前記マッピング
は、３次元計算モデルを、ＸＹＺ方向の３方向の計算ユ
ニットに立体的に分割し、それらを２次元に配列された
プロセッサにマッピングする場合であり、前記３次元計算モデルをＺＸ平面でｎ個の計算ユニット
に分割しておき、前記２次元において、Ｙ方向の各計算
ユニットが正方形で隣合うようにし、ＺＸ方向の計算ユ
ニットを一つ飛びに並べることを特徴とする並列計算機
用通信ライブラリ。
【請求項１６】請求項１５において、（ａ）３次元計
算モデルにおいて、Ｘ方向、Ｙ方向、Ｚ方向の計算単位
をＶＣＸ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、
Ｚ方向の分割数をＶＸ、ＶＹ、ＶＺと定義するととも
に、マッピング対象となる２次元物理プロセッサにおいて、
Ｘ方向物理プロセッサ台数、Ｙ方向物理プロセッサ台数
をそれぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方
向、Ｙ方向に分割した分割数をそれぞれＰＸ、ＰＹと定
義して物理プロセッサをグループ化することを前提と
し、（ｂ）３次元計算モデルをＶＸ＝ＰＣＸ／２、ＶＹ
＝ＰＣＹ／２、ＶＺ＝０に分割し、この分割によって出
来た直方体ユニットをメインユニットと呼び、各分割単
位に通し番号（メインユニット番号）を付与し、さらに
このメインユニットをＺ軸方向に４つに分割し、この結
果できたユニットをサブユニットと呼んで、各分割単位
に通し番号（サブユニット番号）を付与し、２次元物理プロセッサにおいて、ＰＸ＝ＰＣＸ／２、Ｐ
Ｙ＝ＰＣＹ／２に分割してプロセッサをグループ化し、
各分割単位に通し番号（グループ番号）を付与し、
（ｃ）３次元モデルのメインユニット番号と同一番号の
グループ番号を有する物理プロセッサのグループにサブ
ユニット番号０から３を、０と１、１と２、２と３、３
と０とが隣接するように分配してマッピングすることを
特徴とする並列計算機用通信ライブラリ。
【請求項１７】請求項１１において、前記マッピング
は、３次元計算モデルを、ＸＹＺ方向の３方向の計算ユ
ニットに立体的に分割し、それらを２次元に配列された
プロセッサにマッピングする場合であり、前記３次元計算モデルをＺＸ平面でｎ個の計算ユニット
に分割しておき、前記２次元において、各計算ユニット
を順番に置き、ＺＸ方向が隣合いＹ方向が均等（ｎ個分
離れる）に並べたことを特徴とする並列計算機用通信ラ
イブラリ。
【請求項１８】請求項１７において、（ａ）３次元計
算モデルにおいて、Ｘ方向、Ｙ方向、Ｚ方向の計算単位
をＶＣＸ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、
Ｚ方向の分割数をＶＸ、ＶＹ、ＶＺと定義するととも
に、マッピング対象となる２次元物理プロセッサにおいて、
Ｘ方向物理プロセッサ台数、Ｙ方向物理プロセッサ台数
をそれぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方
向、Ｙ方向に分割した分割数をそれぞれＰＸ、ＰＹと定
義して物理プロセッサをグループ化することを前提と
し、（ｂ）３次元計算モデルをＶＸ＝０、ＶＹ＝０、Ｖ
Ｚ＝ＶＣＺに分割し、この分割によって出来た直方体ユ
ニットをメインユニットと呼び、各分割単位に通し番号
（メインユニット番号）を付与し、このメインユニット
のＸ方向計算単位数、Ｙ方向計算単位数をｖｘ、ｖｙと
し、２次元物理プロセッサにおいて、ＰＸ＝ＰＣＸ／ｖｘ、
ＰＹ＝ＰＣＹ／ｖｙに分割してプロセッサをグループ化
し、各分割単位に通し番号（グループ番号）を付与し、
（ｃ）ｖｘ＝ＰＸ、ｖｙ＝ＰＹの位置に対応して、メイ
ンユニットを２次元物理プロセッサのＸ方向に通し番号
順に配置し、そのライン上でのＸ方向の端部物理プロセ
ッサに来たら、Ｙ方向へ移行し、今度はメインユニット
を逆のＸ方向に通し番号順に配置し、再度Ｘ方向の端部
物理プロセッサに来たら、Ｙ方向へ移行し、以後、以上
の蛇行によるマッピングを繰り返すことを特徴とする並
列計算機用通信ライブラリ。
【請求項１９】請求項１４の処理を並列処理すること
を特徴とする並列計算機用通信ライブラリ。
【請求項２０】請求項１１において前記マッピングで
得られた最適マッピング・パターンをデータベースに蓄
積するルーチンを有し、以後、このデータベースを参照
して、計算モデルに適合する最適マッピングを選択し、
並列処理をすることを特徴とする並列計算機用通信ライ
ブラリ。
【請求項２１】複数のプロセッサの間で相互にデータ
及び情報を通信手段により転送することで、ユーザが演
算処理しようとするＮ次元計算モデルを、前記複数のプ
ロセッサで並列処理する並列計算機において、前記Ｎ次元計算モデルを識別符号を有する複数の計算ユ
ニットに分割する計算モデル分割部と、前記複数の各プロセッサに識別符号をつけておき、分割
した計算ユニットと各プロセッサとの対応関係をアドレ
ス変換テーブル上に形成する管理部と、分割した計算ユニットを、各プロセッサに任意にマッピ
ングするマッピング部と、を備え、プロセッサ間通信を分割ユニットの識別符号を用いて行
うことを特徴とする並列計算機。
【請求項２２】請求項２１において、前記マッピング
部は、通信コストの評価関数として、プロセッサ間の距
離の総和Ｌを演算するプロセッサ間距離演算部と、距離
の総和Ｌが最小となったときのマッピングを最適なもの
として採用することを特徴とする並列計算機。
【請求項２３】請求項２２において、前記マッピング
部は、前記プロセッサ間距離演算部で得られた距離の総
和Ｌが最小であるか否かを判定する判定部とを有し、距
離の総和Ｌが最小となったと判定部が判定したときのマ
ッピングを最適なものとして採用することを特徴とする
並列計算機。
【請求項２４】請求項２１において、分割ユニットの
隣接格子点Ｐｉ、Ｐｊが、それぞれ、２次元格子点上の
ある点（Ｘｉ、Ｙｉ）（Ｘｊ、Ｙｊ）にマッピングされ
るとき、Ｐｉ、Ｐｊ間の距離ｌｉｊは、｜Ｘｉ−Ｘｊ｜＋｜Ｙｉ
−Ｙｊ｜と表され、前記評価関数Ｌ＝Σｌｉｊとし、このＬが最小であると
されたときのマッピングを最適なものとして採用するこ
とを特徴とする並列計算機。
【請求項２５】請求項２２または２３において、初期
マップ位置を決定した後、マップ位置を変化させ、
長さの変化（前記距離の総和の変化）△Ｌを算出し、
△Ｌ＜０のとき、前記マップ位置の変更を採用し、△
Ｌ＜０でないとき、乱数Ｘ（０＜Ｘ＜１）を引き出して
ｅｘｐ（−△Ｌ／Ｔ）を演算し（Ｔは確立を決める目安
となるパラメータ）、ｅｘｐ（−△Ｌ／Ｔ）＜Ｘのと
き、マップ位置の変更を採用せず、ｅｘｐ（−△Ｌ／
Ｔ）＜Ｘでないとき、マップ位置の変更を採用すること
とし、以上からの処理を、前記Ｔの値を減少させて
繰り返すことを特徴とする並列計算機。
【請求項２６】請求項２１において、前記マッピング
部は、３次元計算モデルを、ＸＹＺ方向の３方向の計算
ユニットに立体的に分割し、それらを２次元に配列され
たプロセッサにマッピングする場合であり、前記３次元計算モデルをＺＸ平面でｎ個の計算ユニット
に分割しておき、前記２次元において、Ｙ方向の各計算
ユニットが正方形で隣合うようにし、ＺＸ方向の計算ユ
ニットを一つ飛びに並べることを特徴とする並列計算
機。
【請求項２７】請求項２６において、（ａ）３次元計
算モデルにおいて、Ｘ方向、Ｙ方向、Ｚ方向の計算単位
をＶＣＸ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、
Ｚ方向の分割数をＶＸ、ＶＹ、ＶＺと定義するととも
に、マッピング対象となる２次元物理プロセッサにおいて、
Ｘ方向物理プロセッサ台数、Ｙ方向物理プロセッサ台数
をそれぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方
向、Ｙ方向に分割した分割数をそれぞれＰＸ、ＰＹと定
義して物理プロセッサをグループ化することを前提と
し、（ｂ）３次元計算モデルをＶＸ＝ＰＣＸ／２、ＶＹ
＝ＰＣＹ／２、ＶＺ＝０に分割し、この分割によって出
来た直方体ユニットをメインユニットと呼び、各分割単
位に通し番号（メインユニット番号）を付与し、さらに
このメインユニットをＺ軸方向に４つに分割し、この結
果できたユニットをサブユニットと呼んで、各分割単位
に通し番号（サブユニット番号）を付与し、２次元物理プロセッサにおいて、ＰＸ＝ＰＣＸ／２、Ｐ
Ｙ＝ＰＣＹ／２に分割してプロセッサをグループ化し、
各分割単位に通し番号（グループ番号）を付与し、
（ｃ）３次元モデルのメインユニット番号と同一番号の
グループ番号を有する物理プロセッサのグループにサブ
ユニット番号０から３を、０と１、１と２、２と３、３
と０とが隣接するように分配してマッピングすることを
特徴とする並列計算機。
【請求項２８】請求項２１において、前記マッピング
部は、３次元計算モデルを、ＸＹＺ方向の３方向の計算
ユニットに立体的に分割し、それらを２次元に配列され
たプロセッサにマッピングする場合であり、前記３次元計算モデルをＺＸ平面でｎ個の計算ユニット
に分割しておき、前記２次元において、各計算ユニット
を順番に置き、ＺＸ方向が隣合いＹ方向が均等（ｎ個分
離れる）に並べたことを特徴とする並列計算機。
【請求項２９】請求項２８において、（ａ）３次元計
算モデルにおいて、Ｘ方向、Ｙ方向、Ｚ方向の計算単位
をＶＣＸ、ＶＣＹ、ＶＣＺと定義し、Ｘ方向、Ｙ方向、
Ｚ方向の分割数をＶＸ、ＶＹ、ＶＺと定義するととも
に、マッピング対象となる２次元物理プロセッサにおいて、
Ｘ方向物理プロセッサ台数、Ｙ方向物理プロセッサ台数
をそれぞれＰＣＸ、ＰＣＹと定義するとともに、Ｘ方
向、Ｙ方向に分割した分割数をそれぞれＰＸ、ＰＹと定
義して物理プロセッサをグループ化することを前提と
し、（ｂ）３次元計算モデルをＶＸ＝０、ＶＹ＝０、Ｖ
Ｚ＝ＶＣＺに分割し、この分割によって出来た直方体ユ
ニットをメインユニットと呼び、各分割単位に通し番号
（メインユニット番号）を付与し、このメインユニット
のＸ方向計算単位数、Ｙ方向計算単位数をｖｘ、ｖｙと
し、２次元物理プロセッサにおいて、ＰＸ＝ＰＣＸ／ｖｘ、
ＰＹ＝ＰＣＹ／ｖｙに分割してプロセッサをグループ化
し、各分割単位に通し番号（グループ番号）を付与し、
（ｃ）ｖｘ＝ＰＸ、ｖｙ＝ＰＹの位置に対応して、メイ
ンユニットを２次元物理プロセッサのＸ方向に通し番号
順に配置し、そのライン上でのＸ方向の端部物理プロセ
ッサに来たら、Ｙ方向へ移行し、今度はメインユニット
を逆のＸ方向に通し番号順に配置し、再度Ｘ方向の端部
物理プロセッサに来たら、Ｙ方向へ移行し、以後、以上
の蛇行によるマッピングを繰り返すことを特徴とする並
列計算機。
【請求項３０】請求項２５の処理を並列処理すること
を特徴とする並列計算機。
【請求項３１】請求項２１において、さらにデータベ
ース部を有し、前記マッピングで得られた最適マッピン
グ・パターンをこのデータベース部に蓄積し、以後、こ
のデータベースを参照して、計算モデルに適合する最適
マッピングを選択し、並列処理をすることを特徴とする
並列計算機。