JPH08305678A

JPH08305678A - 並列ソート方式

Info

Publication number: JPH08305678A
Application number: JP7105211A
Authority: JP
Inventors: Kazutaka Ogiwara; 一隆荻原; Riichiro Take; 理一郎武
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-04-28
Filing date: 1995-04-28
Publication date: 1996-11-22
Anticipated expiration: 2019-05-10
Also published as: JP3525960B2

Abstract

(57)【要約】【目的】並列計算機システムにおけるソート処理に関
し、プロセッサエレメント間の通信量を減らし、また任
意の個数のエレメントによってソート処理を実行するこ
とを目的とする。【構成】ソート対象要素を格納する手段１と、すべて
のエレメントが保持する要素を行列の要素に対応させた
とき、エレメント間で行列の転置に相当する要素の交換
を行う手段２と、エレメント内に保持されている要素の
併合ソート処理を行う手段３と、手段２と手段３の動作
を制御する手段４とを備えるように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のプロセッサエレ
メント（処理装置）が汎用のネットワークによって結合
された並列計算機システムにおけるソート処理、例えば
複数のソート対象要素を一定の順序に従って並べるソー
ト処理方式に関し、更に詳しくはプロセッサエレメント
の間での通信量を減少させ、また任意の個数のプロセッ
サエレメントを用いて実行することができる並列ソート
方式に関する。

【０００２】

【従来の技術】並列ソート処理においては、並列計算機
システムを構成する各プロセッサエレメントはネットワ
ークを介して２つのソート対象要素の入力を受け取り、
それを主記憶に格納した後、格納した２つの要素の比較
を行い、要素の大小に従って得られたソート結果を他の
プロセッサエレメントに送り出す。２つの入力要素の主
記憶への格納、その比較を繰り返すことにより、全ての
プロセッサエレメントの主記憶装置に格納された要素間
に大小関係をつけることにより、ソート処理が実行され
る。

【０００３】従来のソート方式を例を挙げて説明する。
図２２は、処理装置４台の場合の従来のソート方法の説
明図である。４台の処理装置（処理装置０〜処理装置
３）が、それぞれ、データ（２，６，１０）、（１，
７，８）、（４，５，１１）、（０，３，９）をもつ、
これらの数値についてソート処理を行う。例えばデータ
（２，６，１０）は１つのベクタを表すものと考えるこ
ともできる。

【０００４】処理装置と処理装置を結ぶ矢印付きの線
は、交換・併合を行う処理装置の組みと（線で結ばれた
２処理装置）、併合後のデータを前半部、後半部に分割
したのち、どちらを格納するかを示す（矢印の向きは大
きな方、すなわち、後半部を格納する処理装置を示
す）。

【０００５】まず、処理装置０および処理装置１間でデ
ータの交換および併合分割処理を行い、処理装置０に前
半部を、処理装置１に後半部を格納する。まず、交換併
合により、処理装置０および処理装置１に両データが併
合され、データ（１，２，６，７，８，１０）が生成さ
れる。この後、分割処理により、前半部のデータ（１，
２，６）が処理装置０に、後半部のデータ（７，８，１
０）が処理装置１に格納される。

【０００６】一方、処理装置０および処理装置１による
交換併合分割処理に並行して、処理装置２と処理装置３
の間でも同様の交換併合分割処理を実行する。すなわ
ち、処理装置２のデータ（４，５，１１）と処理装置３
のデータ（０，３，９）が交換併合され、データ（０，
３，４，５，９，１１）が生成された後、処理装置３に
前半部（０，３，４）が、処理装置２に後半部（５，
９，１１）が格納される。

【０００７】以上の処理により、第１段階の交換併合分
割処理が終了する（ステージ０）。次に、別の組みの処
理装置間で同様に交換併合分割処理を実行する。すなわ
ち、処理装置０と処理装置２、処理装置１と処理装置３
を組みとして処理を行う。処理装置０と処理装置２間で
は、交換併合によりデータ（１，２，５，６，９，１
１）が生成され、前半部（１，２，５）が処理装置０
に、後半部（６，９，１１）が処理装置２に格納され
る。一方、処理装置１と処理装置３間では、交換併合に
よりデータ（０，３，４，７，８，１０）が生成され、
前半部（０，３，４）が処理装置１に、後半部（７，
８，１０）が処理装置３に格納される。

【０００８】さらに、処理装置０と処理装置１間、処理
装置２と処理装置３間で同様の交換併合分割処理を実行
すると、処理装置０には（０，１，２）、処理装置１に
は（３，４，５）、処理装置２には（６，７，８）、処
理装置３には（９，１０，１１）が格納され、ソート処
理が完了する。

【０００９】次に、このソート方式を一般化して式とし
て表す。まず、処理装置の数をＮ＝２ⁿとし、各処理装
置ＰをＰ₀，Ｐ₁，・・・、Ｐ_N-1とする。ソートの対
象となるデータＶは、各処理装置にＮ分割して持たせ
る。処理装置Ｐ_iのもつデータをＶ_iとする。

【００１０】まず、処理装置Ｐ_iが、保有するデータＶ
_iを独自にソートする。次に、以下に示す通りに処理装
置間でネットワークを用いてベクタの交換併合分割処理
を繰り返す。交換併合分割処理はlog₂Ｎ回、すなわちｎ
回のステージで行い、各ステージをＳ₀，Ｓ₁，・・
・，Ｓ_n-1とする。各ステージＳ_jはj+1回のサブステ
ージをもつ。各ステージをｓ_j0，ｓ_j1，・・・，ｓ_jjと
する。

【００１１】１つのサブステージで１回の交換併合分割
処理を行う。サブステージｓ_jKにおいて、処理装置Ｐ_i
は、Ａ（i,j,k)で表せる処理装置とベクタを交換し、持
っていたベクタＶ_iと受信したベクタを併合し、前半部
と後半部に分割する。分割後に、関数Ｂ（i,j,k)＝０で
あれば併合結果の前半部を残して後半部を捨て、関数Ｂ
（i,j,k)＝１であれば併合結果の後半部を残して前半部
を捨てる。

【００１２】Ａ，Ｂの関数は、

【００１３】

【数１】

【００１４】である。ここで、ｉ_jは、ｉの２進数表現
（ｂ_n-1，ｂ_n-2，・・・，ｂ_j，・・・，ｂ₁，
ｂ₀）でのｂ_jの値（０または１）を示す。以上の方法
により、Ｓ_n-1ステージのｓ_jjサブステージを終了した
段階で、ソートされたベクタを得ることができる。

【００１５】図２２の４台の処理装置の場合、Ｎ＝２²
＝４であり、２ステージでソート処理が完了する。ここ
で前述の(1) 、および(2) 式の意味について更に説明す
る。例えばプロセッサエレメントの数が４個の時、ステ
ージとしてはＳ₀、およびＳ₁の２つのステージがあ
り、サブステージはＳ₀₀、およびＳ₁₀，Ｓ₁₁となる。
(1) 式におけるＡ（i,j,k)は、前述のように、エレメン
ト番号ｉのエレメントがサブステージＳ _jKにおいて保持
しているデータ、例えばベクタを交換する相手のプロセ
ッサ番号を与えるものであり、サブステージＳ₀₀におけ
る番号０のエレメントがベクタを交換する相手のエレメ
ント番号は１となり、また番号３のエレメントのベクタ
の交換相手は番号２のエレメントとなる。例えばエレメ
ント番号３は２進数に直すものとし、３と１のＥＸＯＲ
としては２進数としての１１と０１とのビット毎のＥＸ
ＯＲを計算することにより１０、すななわち１０進数と
しての２が得られる。

【００１６】(2) 式で与えられるＢ（i,j,k)は、前述の
ように、番号ｉのエレメントがサブステージＳ_jKにおい
て併合処理結果の前半部を捨てるか、後半部を捨てるか
を表すもので、Ｂの値が１である時には、併合結果の前
半部を切り捨て、０である時には後半部を切り捨てるこ
とを意味する。図２３はエレメントの数が４個の場合の
各サブステージにおけるＡとＢの値を、それぞれのプロ
セッサエレメントに対して表したものである。各プロセ
ッサエレメントに対して左則の数値がＡの値を、また右
側の数値はＢの値を表す。

【００１７】

【発明が解決しようとする課題】従来の方式では、処理
装置数Ｎ＝２ⁿとするとき、ステージ数はｎであり、各
ステージのサブステージ数は１，２，・・・，ｎであ
る。１回のサブステージに１回の通信処理が必要であ
り、ソート処理全体を通じては１＋２＋・・・＋ｎ回、
すなわち、ｎ（ｎ＋１）／２回の通信処理が必要であ
る。これをＮで表すと、log₂Ｎ（log₂Ｎ＋１）／２回と
なる。通信量としては、これにソートするベクタの要素
数を掛けた量になる。

【００１８】この通信回数Ｍは、Ｎ＝４ではＭ＝３、Ｎ
＝８ではＭ＝６であるが、処理装置数が増えると非常に
大きくなる。すなわち、Ｎ＝２５６＝２⁸ではＭ＝３
６、Ｎ＝１０２４＝２¹⁰ではＭ＝５５と多くなる。この
ソート処理のなかで、通信処理にかかる手間が非常に大
きくなるのが従来方式の問題である。

【００１９】また、汎用の結合網で行われる従来のソー
ト方式は、処理装置が持つソートされたベクタ全体を交
換した上、併合する処理を行うので、同じ併合処理が２
つの処理装置で重複して行われ、無駄な処理を要すると
ともに、併合後に持つべきデータ量の２倍のデータ量を
入力とする処理を行うために時間がかかるという問題も
ある。

【００２０】更に従来方式では、処理装置の間でベクタ
を交換して処理を行うために、処理装置の必要台数が２
のべき乗個に限られると言う問題点もあった。本発明
は、通信量を減少させることと、併合時の入力データを
減らすことにより、並列ソートにかかる時間を短くする
ことを目的とする。また、並列ソートに必要とされる処
理装置の台数を２のべき乗個に限定することなく、任意
の自然数の処理装置を用いて並列ソート処理を実行可能
とすることを目的とする。

【００２１】

【課題を解決するための手段】図１は第１の発明の原理
ブロック図である。同図は、ネットワークによって相互
に結合された複数の処理装置（プロセッサエレメント）
の間でソート要素を交換して、要素のソートを行う並列
ソート方式の原理ブロック図である。同図において、本
発明の並列方式におけるそれぞれの処理装置はソート要
素格納手段１、転置手段２、併合ソート手段３、および
制御手段４によって構成される。

【００２２】ソート要素格納手段１は、例えばプロセッ
サエレメントの主記憶装置であり、ソート対象の要素を
格納するものである。転置手段２は、全ての処理装置の
ソート要素格納手段１に格納されている要素を行列の要
素に対応させた時、その行列の主対角線に対してお互い
に対称の位置にある要素を、それらの要素を保持する処
理装置間で交換して、結果として転置行列の要素を全て
の処理装置のソート要素格納手段１に格納するようにす
るものであり、例えばスイッチボックスとネットワーク
インタフェースによって構成される。

【００２３】併合ソート手段３は例えば併合装置であ
り、ソート要素格納手段１に格納されている要素の全て
を併合してソートする全要素併合ソート処理と、格納さ
れている要素を分割し、分割後の要素をそれぞれ併合し
てソートする部分的併合ソート処理を行うものである。
更に制御手段４は例えば制御装置であり、転置手段２に
よる他の処理装置との間でのソート要素の交換処理、お
よび併合手段３による併合ソート処理を制御するもので
ある。

【００２４】本発明においては、例えばソート要素格納
手段１にそれ自体がすでにソートされているソート列が
格納されている時、転置手段２による第一次転置処理、
併合ソート手段３による部分的併合ソート処理、転置手
段２による第２の転置処理、併合ソート手段３による全
要素併合ソート処理の４つの処理が順次実行される処理
が繰り返され、ソート対象要素の並列ソートが行われ
る。なお、一般にはソート要素格納手段１に最初に格納
されているデータがソート済みのことは少ないので、そ
の場合には内部ソート手段５によって最初に内部ソート
が実行される。

【００２５】

【作用】図２は第２の発明の機能ブロック図である。同
図は、ネットワークによって相互に結合された複数の処
理装置の間でソート要素を交換して、要素のソートを行
う並列ソート方法の機能ブロック図である。同図におい
ては、前述のように第一次転置処理６、部分的併合ソー
ト処理７、第二次転置処理８、および全要素併合ソート
処理９がこの順序で繰り返される。

【００２６】まず前述のように、並列計算機システムを
構成する全ての処理装置が保持している要素を行列の要
素に対応させた時、その行列の主対角線に対してお互い
に対称の位置にある要素を、それらの要素を保持する処
理装置の間で交換し、結果として転置行列の要素を各処
理装置が保持するようにする第一次転置処理６が行われ
る。

【００２７】次に、この第一次転置処理６の結果として
各処理装置内に保持された要素を対象とする処理であっ
て、第ｋ回の処理では保持された要素を２ｋ個毎に分割
し、分割された要素を２ｋ個毎に大→小、小→大、大→
小、・・・または小→大、大→小、小→大、・・・と順
次ソートする部分的併合ソート処理７が行われる。

【００２８】そして、この部分的併合ソート処理７の結
果に基づいて、前述の第一次転置処理６と同一の処理と
しての第二次転置処理８が行われ、続いてその第二次転
置処理８の結果に基づいて各処理装置内に保持された要
素を対象として、自処理装置内に保持されている要素の
全てを併合してソートする全要素併合ソート処理９が行
われる。この全要素併合ソート処理９においては、前述
の部分的併合ソート処理のｋ回のｋの値に応じて、一部
の処理装置では大→小、その他の処理装置では小→大の
ソート処理が行われる。

【００２９】この第一次転置処理６から全要素併合ソー
ト処理９までの処理が、部分的併合ソート処理７におけ
る分割時の要素の数としての２ｋ個が各処理装置内に保
持されている要素の全てを含むようになるまで繰り返さ
れ、並列ソート処理が行われる。

【００３０】以上のように、本発明においては処理装置
間でのソート要素の交換を、結果として行列の転置を行
うために必要なだけに止めることにより、処理装置間で
の通信量を減少させることができる。また併合ソート処
理においては、処理結果のソート列を構成する要素の数
と同じだけの要素数の入力によって処理が行われる。更
に行列の転置処理に相当する通信を行うに必要な数だけ
の処理装置があればよく、その個数は２のべき乗個に限
定されることはない。

【００３１】

【実施例】図３は本発明の並列ソート方式を実行する並
列計算機システムの第１実施例のシステム構成ブロック
図である。同図において、それぞれ主記憶装置と、後述
する内部ソート処理を行うソート装置、および併合ソー
ト処理を行う併合装置とを備えたＮ台の処理装置Ｐ₀〜
Ｐ_N-1，１０_-0〜１０_-N-1がネットワーク１１を介して
相互に接続されている。ここで本発明においては、従来
例におけるシステムが２台の処理装置（エレメント）の
間でソート要素の交換を行うために処理装置の台数が２
のべき乗個でなくてはならなかったのに対して、そのよ
うな制限はなく、任意の数の処理装置を用いることがで
きる。

【００３２】ソートすべき全ての要素群ＶはＮ²個の要
素群、すなわちベクタに分割され、任意のエレメントＰ
_iはＮ個のベクタを保持する。Ｐ_iが保持するＮ個のベ
クタをＥ_i0，Ｅ_i1，Ｅ_i2，・・・，Ｅ_iN-1 とし、Ｖを構成するベクタ全体を行列に対応させること
にする。図４はエレメントの数が８である場合のベクタ
の配置図である。Ｐ₀〜Ｐ₇の８個のエレメントに対し
て、それぞれ８個のベクタが割り当てられている。ここ
で、それぞれのベクタは複数個の要素の集合とみなすこ
とができるが、ベクタの代わりに要素１個だけと考えて
もよいことは当然である。

【００３３】図５は本発明の並列ソート方式を実行する
並列計算機システムにおける１つの処理装置（エレメン
ト）の詳細構成ブロック図である。同図において、１つ
のプロセッサエレメントはＮ個のベクタ（または単一の
要素）をそれぞれ格納するＮ個のブロックからなる主記
憶装置１５、後述する内部ソート処理を行うソート装置
１６、併合ソート処理を行う併合装置１７、他のエレメ
ントとの間でソート要素の交換としての通信を行うため
のネットワークインタフェース１８、主記憶装置１５と
ソート装置１６、併合装置１７、およびネットワークイ
ンタフェース１８の間でソート要素の入出力を行うため
のスイッチボックス１９、ソート装置１６、併合装置１
７、ネットワークインタフェース１８、およびスイッチ
ボックス１９の動作を制御する制御装置２０から構成さ
れている。

【００３４】図６は図５におけるソート装置１６によっ
て実行される内部ソート処理のフローチャートである。
ここで内部ソートとは内部メモリ、例えば主記憶装置上
にあるデータだけを対象としてソート対象要素のソート
を行うものであり、外部メモリ、例えば二次記憶装置上
にあるデータを対象としてソートを行うものを外部ソー
トと言う。そこで内部ソートではソート対象データの全
てを、あるメモリ上にのせて、その状態でソートが行わ
れる。

【００３５】図６において、ステップＳ１で図５のソー
ト装置１６は制御装置２０に対して、ソート対象全ての
データを、例えば主記憶装置１５から受け取ることを要
求し、ステップＳ２で受け取った要素を例えば大きい
順、または小さい順にソートし、ステップＳ３でそのソ
ート結果を制御側、例えば制御装置２０の制御のもとに
主記憶装置１５に渡すことになる。

【００３６】次に併合ソート処理を説明する。ここで併
合ソートとは、複数のすでにソートされた要素の列とし
てのソート列をまとめて１本のソート列を作成する処理
である。この併合ソートは内部ソート、および外部ソー
トのいずれにおいても実行することができる。すなわち
ソート対象要素が内部メモリ上だけの場合であっても、
二次記憶装置上にある場合であっても、同様にしてソー
ト処理を実行することができる。

【００３７】併合ソート処理について、具体例を用いて
説明する。次の２つのソート列Ａ，Ｂの併合ソート処理
を行うものとする。（１，１０，２６，３５，４１，５０，６８，７２，８９，９０）・・・Ａ（３，１３，２３，３２，４８，５４，６２，７６，８８，９５）・・・Ｂ小さいものから要素をソートする場合には、併合ソート
処理では先ずそれぞれのソート列の先頭要素を比較して
小さい方の要素を取り出し、取り出された方のソート列
においては次の要素を先頭にし、再度要素の比較を行う
処理を繰り返し、全てのソート列が取り出されるまで処
理が行われる。

【００３８】図７はソート列Ａ，Ｂの併合ソート処理の
説明図である。まず先頭の要素１と３が比較され、小さ
い方の要素１が取り出され、ソート列Ａでは次の１０が
先頭の要素とされる。

【００３９】次に１０と３が比較され、小さい方の要素
３が取り出され、ソート列Ｂにおいては次の要素１３が
先頭の要素とされる。図７には最終結果まで示していな
いが、このような比較と取出し、先頭要素の変更が繰り
返され、最終結果として、次のソート列が得られる。

【００４０】（１，３，１０，１３，２３，２６，３
２，３５，４１，４８，５０，５４，６２，６８，７
２，７６，８８，８９，９０，９５）この場合の比較回数は１９回である。この比較回数は内
部ソートであっても、外部ソートであっても同じであ
る。前述の２本のソート列がメモリ上にあると仮定し
て、内部ソートの代表の１つとしてのクイックソートに
おける処理を併合ソート処理と比較する。クイックソー
ト処理においては、何らかの方法で基準値を決め、この
基準値をソート対象となる全要素と比較し、その基準よ
り大きいものと小さいものに分割し、基準値の決定と分
割を繰り返して、ソート列を順次小さな集合と大きな集
合に分解し、最後にソート結果を得るという処理が行わ
れる。ここでメモリ上に、前述のように次のようなソー
ト対象要素が存在するものとする。

【００４１】（１，１０，２６，３５，４１，５０，６
８，７２，８９，９０，３，１３，２３，３２，４８，
５４，６２，７６，８８，９５）基準値として５０を選んで分割処理を行うと、次のよう
な分割結果が得られる。

【００４２】（１，１０，２６，３５，４１，３，１
３，２３，３２，４８，５０，６８，７２，８９，９
０，５４，６２，７６，８８，９５）続いて、５０の右側と左側に対して再度クイックソート
を行うことになるが、５０を基準値とする分解において
要素の比較はすでに１９回行われている。このためクイ
ックソートにおける比較回数は併合ソートに比べてかな
り多くなる。また、２本のソート列の要素がメモリ上に
全て乗り切らない場合には、クイックソートを使用した
ソートを行うことはできない。

【００４３】一般的に、並列計算機システムの各エレメ
ントが持つ要素がすでにソートされているということは
ないので、最初のソートとして併合ソートを行うことは
できないが、２回目以降のソートではある程度ソートさ
れたものがソート対象となるため、併合ソートを用いる
ことにより他のソート方式を用いる場合に比べて、高速
にソート処理を行うことができる。

【００４４】図８はこのような併合ソート処理の詳細フ
ローチャートである。同図において、ステップＳ５で制
御装置２０に対して、例えば主記憶装置１５からのソー
ト列Ａの先頭要素の入力が要求され、またステップＳ６
でソート列Ｂの先頭要素の入力が要求される。そしてス
テップＳ７で、ソート列Ａの要素がＢの要素より小さい
か否かが判定され、小さい場合にはステップＳ８で制御
側にソート列Ａの入力要素が渡され、ステップＳ９で制
御装置に対してソート列Ａの次の要素の入力が要求され
る。

【００４５】これに対して、ステップＳ７でソート列Ａ
の要素がソート列Ｂの要素より小さくない時には、ステ
ップＳ１０で制御側にソート列Ｂの要素が渡され、ステ
ップＳ１１で制御装置に対してソート列Ｂの次の要素の
入力が要求される。

【００４６】ステップＳ９、またはＳ１１の処理の後
に、ステップＳ１２においてソート列ＡおよびＢの間で
比較すべきデータがあるか否かが判定され、未だある場
合にはステップＳ７以降の処理が繰り返される。そして
比較すべきデータがないと判定されると、ステップＳ１
３で残っている要素が制御側に渡されて処理を終了す
る。

【００４７】図９は本発明の並列ソート方式によるソー
ト処理の具体例の説明図である。ここでは最終的に昇順
のソートを行うものとして処理を説明するが、説明文中
の昇順と降順とを入れ替えることによって、最終的に降
順のソートを行うこともできる。

【００４８】図９において、初期状態では各プロセッサ
エレメントＰ₀〜Ｐ₃の内部、例えば主記憶装置に保持
されているソート要素は未だソートされていない状態で
あり、各エレメントの内部で内部ソート処理が行われ、
この時各エレメントＰ_iにおいてｉが偶数の時は昇順、
奇数の時は降順の内部ソートを行うものとする。内部ソ
ートの結果は図９の最上段右側に示すようになり、ここ
で矢印はソート結果の要素の大きいものから小さいもの
に向かうように付けられている。

【００４９】この内部ソートの結果を行列に対応させ、
主対角線上の要素はそのままとして、主対角線に対して
対称な位置にある要素同志の交換が各プロセッサ間での
通信によって行われ、実質的に行列の転置処理が行われ
る。この転置の結果、図９の上から２段目の右側に示す
ように、４つのエレメントにまたがってソート列が並ぶ
ことになる。

【００５０】次に、各エレメントの内部で部分的な併合
ソートが行われる。部分的な併合ソートは、全体のソー
ト処理の中で一般に複数回行われるが、ｋ回目の部分的
な併合ソート処理においては２ｋ個のベクタ、または要
素を対象として併合ソート処理が行われる。すなわち、
各エレメントの内部のベクタ、または要素が２ｋ個毎に
分割され、昇順、降順、昇順・・・と、交互に併合ソー
ト処理が行われる。例えば、エレメントＰ₀においては
上の２つの要素は昇順、下の２つの要素は降順にソート
される。ここで各エレメントは４個のベクタではなく、
４個の単一要素をそれぞれ保持するため、併合ソートと
言ってもその用語は必ずしも適切ではないが、一般的に
ベクタである場合には、図１４に示すように併合ソート
処理が行われる。

【００５１】この部分的併合ソート処理が終了すると、
プロセッサエレメント間で行列の転置に相当するソート
要素の交換が再び行われる。その結果、図９、３段目の
左側に示すように、エレメントＰ₀とＰ₁にまたがって
昇順のソート列、Ｐ₂とＰ₃とにまたがって降順のソー
ト列が、それぞれ４つづつ格納されることになる。

【００５２】この転置処理の後に、各エレメントにおい
てエレメント内の要素全てをソートする全要素併合ソー
ト処理が行われる。この全要素併合ソート処理がｋ回目
である時には、プロセッサ番号ｉを２のｋ乗で割り、小
数点以下を切り捨てた値が偶数であれば昇順に、奇数な
らば降順に併合ソートが行われる。ここではｋ＝１であ
り、エレメントＰ₀およびＰ₁では昇順に、Ｐ₂および
Ｐ₃では降順に併合ソートが行われる。

【００５３】このような第一次転置、部分的併合ソー
ト、第二次転置、および全要素併合ソートの連続する処
理を１回として、部分的併合ソートにおける分割が不可
能になり、エレメント内の全ての要素を対象とする部分
的併合ソートが行われるまで繰り返される。

【００５４】すなわち図９において、４段目の右側に示
すように２回目の第一次転置処理が行われ、その結果に
基づいて４段目の左側で部分的併合ソート処理が行われ
る。この部分的併合ソート処理においてはｋ＝２であ
り、２ｋ個、すなわち４個の要素を１組として部分的併
合ソートが行われるため、この部分的併合ソートに含ま
れる要素はエレメント内の全ての要素となる。そして、
この併合ソートにおいては、各エレメントにおいて昇順
に併合ソートが行われる。

【００５５】更に図９の第５段目に示すように、２回目
の第二次転置処理が行われ、その転置処理の結果に基づ
いて、各エレメント内の全要素併合ソート処理が行わ
れ、最終的に並列ソート処理が終了する。

【００５６】図１０はエレメント数が３個の場合の並列
ソート処理の具体例の説明図である。この場合には、プ
ロセッサ数の３個に対応して行列の転置に対応する交換
処理を行うために、各エレメントが保持するソート要素
の数はそれぞれ３個となる。処理の流れは図９における
と同様であるが、例えば２段目の左側で行われる１回目
の部分的併合ソート処理において、各エレメント内の３
番目の要素はソートすべき相手が存在しないことにな
り、第一次転置処理の結果をそのままコピーすることに
なる。いずれにしても、本実施例においては、プロセッ
サエレメントの数が２のべき乗に限定されないことにな
る。

【００５７】図９および図１０で示した具体例に対応し
て、並列処理方式の実施例における一般的な手順を以下
に説明する。以下の説明で、(1) の手順は図９、および
図１０における最初の処理としての内部ソート処理、
(2) は第一次転置処理、(3) は部分的併合ソート処理、
(4) は第二次転置処理、(5) はプロセッサエレメント内
の全要素併合ソート処理に相当する。従って(1) の処理
が行われた後に、(2) 〜(5) の処理が複数回実行され
る。

【００５８】本発明では、以下の手順でソートが行われ
る。ここで説明するソートは昇順のソートであるが、説
明文中の昇順と降順を入れ換えることにより、降順のソ
ートを行うこともできる。説明文中でceil( ) は小数点
以下切り上げ、trucn( )は小数点以下切り捨てを意味す
る。 (1) 各エレメントＰ_iは、保持する要素を内部でソート
する。ただしｉが偶数の時は昇順、奇数の時は降順にソ
ートする。以下、(2) 〜(5) の操作をｎ＝ceil(log
₂Ｎ）回のステージ（Ｓ₁，Ｓ₂，・・・，Ｓ_n）を繰
り返す。 (2) エレメント間で要素の転置を行う。転置では全対全
通信を用いる。Ｐ_iが持つベクタを転置前をＶ_i＝（Ｅ
_i0,Ｅ_i1, ・・・, Ｅ_iN-1）、転置後をＶ′_i＝（Ｅ′
_i0,Ｅ′_i1, ・・・, Ｅ′_iN-1）とすると、Ｅ′_i0＝Ｅ
_0i，Ｅ′_i1＝Ｅ_1i，・・・，Ｅ′_iN-1＝Ｅ_N-1iとする。 (3) 処理装置内部で処理を行う。この時のステージをＳ
_kとし、Ｐ_iが保持しているベクタをＶ′_i＝
（Ｅ′_i0，Ｅ′_i1，・・・，Ｅ′_iN-1）とすると、ｋ^*
２個ごとにＶ′_iを分割し、昇順、降順、昇順・・・と
交互に併合ソートを行う。分割という言葉を用いたが、
従来の方式のようにサブステージに分ける必要はなく、
連続して併合処理が行われる。併合ソートを行った後に
結果の一部を捨てるということは必要ない。

【００５９】ｋ＝１ならば、Ｖ′_i＝（（Ｅ′_i0，Ｅ′
_i1），（Ｅ′_i2，Ｅ′_i3），・・・）と分割し、Ｅ′_i0
とＥ′_i1を昇順に併合ソート、Ｅ′_i2とＥ′_i3は降順に
併合ソート、・・・を行う。ｋ＝２ならば、Ｖ′_i＝
((Ｅ′_i0，Ｅ′_i1，Ｅ′_i2，Ｅ′_i3），・・・）と分割
し、併合ソートを行う。このときｊを４の整数倍にする
と、Ｅ′_ijとＥ′_ij+1は昇順に既にソートされている状
態であり、Ｅ′_ij+3とＥ′_ij+2は降順にすでにソートさ
れた状態である。このように併合ソートを行う時にソー
ト対象となる要素の前半部は昇順であり、後半部は降順
となる。よって併合ソートを行う際の入力順序は決定さ
れている。Ｎが２のべき乗数でない時は、ベクタＶ′_i
の分割時に端数が生じてしまうが、端数の部分では併合
時のデータの入力が少なくなるだけであり、特殊な処理
は必要ない。

【００６０】また、ステージＳ_n（最終ステージ）の時
に昇順に併合ソートを行うとＰ₀に最も小さい要素が集
まり、Ｐ_N-1に最も大きい要素が集まる。反対に降順に
併合ソートを行うとＰ_N-1に最も小さい要素が集まり、
Ｐ₀に最も大きい要素が集まる。 (4) エレメント間で要素の転置を行う。 (5) Ｐ_iが持つ全要素ベクタを対象とする併合ソートを
行う。(4) の転置が行われた後、各エレメントが持って
いる要素はバイトニック列となる。そのため容易に併合
ソートを行える。ステージがＳ_kのとき、trunc (i/
2^k) が偶数なら昇順に、奇数なら降順に併合ソートす
る。併合ソートを行った後に結果の一部を捨てるという
ことは必要ない。

【００６１】図１１はこの一般的手順をフローチャート
化したものである。同図において処理が開始されると、
まずステップＳ２０で前述の(1) の処理に相当する内部
ソート処理が行われ、ステップＳ２１で前述の回数、ま
たはステージを表す変数ｋの値が１とされ、その後前述
の(2) 〜(5) の処理が、ステップＳ２２からＳ２７にお
いて繰り返される。

【００６２】まずステップＳ２２で、プロセッサエレメ
ント間で第一次の転置処理に相当するソート要素の交換
が行われ、ステップＳ２３でｋ回目、すなわちｋステー
ジにおける２ｋ個毎のソート要素の部分的併合ソート処
理が行われる。このステップＳ２３は前述の(3) の処理
に相当する。

【００６３】その後ステップＳ２４で、エレメント間で
第二次の転置処理(4) に相当するソート要素の交換が行
われ、ステップＳ２５でｋ回目、すなわちステージｋに
おけるエレメント内での全要素併合ソート処理が行われ
る。この処理は前述の(5) の処理に相当する。その後ス
テップＳ２６でｋの値がインクリメントされ、ステップ
Ｓ２７でｋの値が繰り返すべき回数、すなわちlog₂Ｎよ
り小さいか否かが判定され、小さい場合にはステップＳ
２２以降の処理が繰り返され、小さくないと判定された
時点で処理を終了する。

【００６４】図１２は図１１のステップＳ２３、すなわ
ち部分的併合ソート処理におけるソート要素の入力順序
の説明図である。前述の一般的な手順(3) において併合
ソートを行う場合、ソート対象となる要素の前半部は昇
順であり、後半部は降順であるために、併合ソートを行
う際の入力順序は決定されていることを述べたが、図１
２でこの入力順序について更に説明する。

【００６５】前述のように、この部分的併合ソート処理
では、ソート対象のソート列はエレメント内で昇順、降
順、昇順、降順、・・・と交互に並んでおり、部分的併
合ソート処理では最初の昇順と降順の組を昇順にソート
し、次の昇順と降順の組を降順にソートし、・・・と言
う処理を行う。併合ソート処理では、ソートされた列を
対象とするソートが行われるため、入力されるデータの
順序は決定されている。

【００６６】例えば図１２に示すようにＡ＋ＢおよびＣ
＋Ｄという２つのソート列を昇順に併合ソートする場合
に、最初に入力されるソート列はＡとＤであり、Ａのソ
ート列の全ての要素に対する処理が終了した時点でＢの
要素の処理に移り、またＤの全ての要素の処理が終わっ
た後にＣの要素の処理に移ると言うように、処理の順序
はＡ→Ｂ，Ｄ→Ｃであって、この順序を変えることはで
きない。下半分も同様であり、処理の順序はＥ→Ｆ，Ｈ
→Ｇの順序となる。

【００６７】図１３はプロセッサエレメントの第２の実
施例の構成ブロック図である。同図を図５の第１の実施
例と比較すると、主記憶装置の各ブロックＮ₀〜Ｎ_N-1
が、それぞれ単一のソート要素でなく、複数のソート要
素としての集合であるベクタを格納する点のみが異なっ
ている。

【００６８】図１４は、図１３の第２の実施例によって
実行される並列ソート処理の具体例の説明図である。プ
ロセッサエレメント内の主記憶装置の各ブロックが２個
づつのソート要素を格納している点を除けば、実行され
る処理は例えば図９におけると同様であるが、相違する
点を中心に処理を説明する。

【００６９】まず、初期状態において、ここでは各エレ
メント内のベクタは昇順にソートされているために、こ
の初期状態に対して実行される内部ソートにおいては、
プロセッサ番号ｉが奇数のエレメントだけベクタの並び
を逆順にする、内部ソートと言うよりもむしろ単なる置
き換えの処理が実行される。

【００７０】また、例えば第一次転置後に、図１４の２
段目の右側から左側に対して行われる部分的併合ソート
処理では、例えばエレメントＰ₁内で上の２つのベクタ
に対しては昇順の併合ソート処理が行われるが、その結
果上から並んでいた（１１，１６），（１４，２２）の
ベクタは（１１，１４），（１６，２２）のように変化
する。更に例えば、上から３段目の第二次転置処理の結
果に対する全要素併合ソート処理において、例えばエレ
メントＰ₀の内部では最も小さい要素を持つベクタ
（１，２）は一番上、最も大きい要素を持つベクタ（１
１，１４）は一番下に格納されている。

【００７１】図１５はプロセッサエレメントの第３の実
施例の構成ブロック図である。同図は、図１３における
と同様に主記憶装置の各ブロックが複数のソート対象要
素の集合としてのベクタをそれぞれ格納する点で、第２
の実施例と類似しているが、それに加えて二次記憶媒体
２５に格納されているソート対象要素を、プロセッサエ
レメント内部の二次記憶制御装置２６を用いて読み書き
し、二次記憶媒体２５上に格納されているソート対象要
素のソートを行うものである。

【００７２】図１５の第３の実施例は後述する図１６、
および図１７で説明するように、ソート対象の要素が大
量であり、エレメント内の主記憶装置にそれらの要素全
て格納できない場合の処理を行うものであり、本実施例
では併合ソートを用いることにより、このような場合の
並列ソートが可能となる。併合ソートでは主記憶装置に
ソート対象要素が全て格納できない場合にも、ソートが
可能であることを図１４の具体例に対しても説明するこ
とができる。

【００７３】前述の図１４の説明では、初期状態におい
て全てのソート対象要素が各プロセッサエレメントＰ₀
〜Ｐ₃に格納されることを暗黙の前提として処理を説明
したが、例えば図１３における主記憶装置のブロックが
Ｍ₀とＭ₁の２つしかない場合にも、図１４の処理を実
行することができる。

【００７４】例えば、初期状態に対する内部ソートの処
理においては、例えばプロセッサエレメントＰ₁におい
て主記憶装置の２つのブロックに（１，４）と（２３，
２６）を二次記憶媒体から読み込み、二次記憶上での位
置を交換して書き戻し、その次に（９，１０）と（１
４，２２）とを２つのブロックに読み込んで、二次記憶
上での位置を交換して書き戻しを行うことにより、図１
４の１段目の右側のエレメントＰ₁に対するソート結果
が二次記憶上に格納される。

【００７５】また転置処理においては、二次記憶媒体か
ら主記憶装置の１ブロック分のデータを読み込んで他の
プロセッサに送信し、また他のプロセッサから１ブロッ
ク分のデータを受け取って、二次記憶媒体上に格納す
る。

【００７６】更に併合ソートでは、前述のようにデータ
を読み込む順序は決まっているため、その順序に従って
データを二次記憶媒体から読み込み、ソート結果を出力
する。図１４の４段目、右から左へのエレメントＰ₀に
おける部分的併合ソート（実際には全体の併合ソート）
では、二次記憶上のデータ（１，２）と（１５，１７）
をまず主記憶装置の２つのブロックに読み込み、併合ソ
ート処理を行い、（１，２）のソート列に対する処理を
終わった場合には、（１６，２１）のソート列の処理を
行い、また（１５，１７）のソート列に対する処理を終
わったら、（２９，３２）のソート列を読み込んで処理
を実行する。

【００７７】図１６、および図１７は、図１５の第３の
実施例を用いた並列ソート処理の具体例の説明図であ
る。図１６は各プロセッサエレメントに割り当てられる
べきデータであり、図１５の二次記憶媒体２５に格納さ
れているデータを順次読み込むことによって処理が行わ
れる。ここでは、各プロセッサエレメントの主記憶装置
上に格納可能なソート対象要素が４個だけであるものと
して、処理を説明する。

【００７８】まず図１６では、各プロセッサエレメント
に最初の４個のソート対象要素を読み込んで、それらの
要素の並列ソート処理を図９と全く同様に実行する。こ
こで最初の４つの要素に対しては、エレメントＰ₀から
Ｐ₃にまたがって昇順でソートが行われ、図９の最終結
果に示したようなソート結果が、各エレメント内で最初
の４つの要素に対して得られる。次の４つの要素に対し
ては、逆に降順でエレメントＰ₀からＰ₃にまたがるソ
ート結果が得られる。同様にして３番目の４つの要素に
対しては昇順、最後の４つの要素に対しては降順のソー
ト処理が行われ、各プロセッサエレメントに対応して二
次記憶媒体上に格納されるデータは図１６の下側に示す
ようになる。

【００７９】図１７は、図１６の処理によって得られた
結果に対して、各エレメントの主記憶装置の各ブロック
が格納するデータをベクタとして、図１４と同様の処理
を行った結果を示している。但し、ここでは図１４の最
初の内部ソートおよび第一次転置は不要であり、図１４
では２段目右側に相当する状態からソート処理が行われ
る。なおここでは、各プロセッサエレメントの主記憶装
置の大きさは２つのブロック分だけでもよく、また４つ
のブロック分あってもよい。但し、１つのブロックに
は、４個のソート対象要素の集合としてのベクタが格納
可能であるものとする。

【００８０】図１８はプロセッサエレメントの第４の実
施例の構成ブロック図である。同図において、プロセッ
サエレメントは汎用の疎結合型並列計算機の１つのエレ
メントであり、基本的に中央処理装置（ＣＰＵ）３０、
主記憶装置３１、およびネットワークインタフェース３
２によって構成される。主記憶装置３１には、一般的に
ブロック化されたＮ個のベクタとＣＰＵ３０のためのプ
ログラムが格納され、このプログラムによってＣＰＵ３
０はネットワークインタフェース３２を制御し、他のエ
レメントと交換すべきベクタの通信を行う。ネットワー
クは、ネットワーク固有の制御手段により、エレメント
相互間でベクタの交換による行列の転置に対応する処理
ができるように設定され、ＣＰＵ３０はネットワークイ
ンタフェース３２を介してネットワークから入力された
データを主記憶装置３１に格納し、内部処理を実行す
る。

【００８１】図１９は本発明の並列ソート方式を実行す
る並列計算機システムの第２の実施例の構成ブロック図
である。同図において、図３の第１の実施例におけると
同様に、複数のプロセッサエレメント（処理装置）１０
がネットワーク１１を介して相互に接続されているが、
このネットワーク１１は多段結合ネットワークとしての
バイナリｎキューブのネットワークである。このネット
ワークは全対全通信を行う機能を持つものであり、また
プロセッサエレメント１０の内部は、例えば図１８と同
様にＮ個のベクタとＣＰＵのためのプログラムを格納す
る主記憶装置と、ネットワークインタフェースと、ネッ
トワークインタフェースを制御し、他のプロセッサエレ
メントとの間でデータを交換する処理などを実行するＣ
ＰＵなどを備えている。

【００８２】図２０は並列計算機システムの第３の実施
例の構成ブロック図である。同図において、黒丸はそれ
ぞれ処理装置（プロセッサエレメント）を表し、各プロ
セッサエレメントは、例えば図１８と同様の構成を持
つ。ネットワークは全対全通信を行う機能を有するハイ
パーキューブのネットワークであり、キューブの内部で
は稜線によって表されるように結合され、キューブの間
では曲線で表されている経路によって相互に接続されて
いる。

【００８３】図２１は並列計算機システムの第４の実施
例の構成ブロック図である。同図において、複数のプロ
セッサエレメント１０（処理装置）は二次元トーラスネ
ットワークによって結合されている。このネットワーク
は他の実施例と同様に全対全通信を行う機能を持つ。１
つのプロセッサエレメントの構成は例えば図１８と同様
であり、主記憶装置、ＣＰＵ、およびネットワークイン
タフェースの動作も、図１８におけると同様である。

【００８４】最後に本発明のソート方式における通信
量、ソート時間などを従来例と比較する。１つのプロセ
ッサエレメント当たりのソート要素の数をＤ、エレメン
ト台数をＮとすると、従来の方式では前述のようにＤlog₂Ｎ（log₂Ｎ＋１）／２の通信量が必要であったが、本発明においては必要な通
信量が２Ｄ×ceil（log₂Ｎ）となる。従って今回の発明における通信量をその最大値
２Ｄlog₂Ｎと見積もっても、通信量は従来と比較して４
／（log₂Ｎ＋１）となり、エレメントが１６台の場合に
は４／５，６４台の場合には４／７の通信量で済むこと
になる。

【００８５】次にデータ量について比較すると、従来例
において併合ソートを用いるとしても、図２２、図２３
で説明したようにソート結果の前半部、または後半部を
捨てるために、本発明で併合しなければならないデータ
量をＤとすると、従来例は２Ｄとなる。従って、前述の
通信量の比較結果を用いて処理全体で併合にかかる時間
の比を考えると、その比は２／（log₂Ｎ＋１）となり、
エレメントが１６台の場合には２／５、６４台の場合に
は２／７となる。

【００８６】更に従来の方式では、エレメントの数とし
て２のべき乗の台数を用意する必要があったが、本発明
ではエレメントの数は任意のものでよく、エレメントの
台数として２のべき乗ではない数字を選ぶこともでき
る。また二次記憶装置上のデータを次々と読み込んで併
合ソート処理を行うことにより、更にエレメントの数に
柔軟性を持たせることもできる。

【００８７】

【発明の効果】以上、詳細に説明したように、本発明に
よれば従来の方式では全て通信として行われていたソー
ト要素の交換・併合に相当する処理を転置に相当する処
理のみに限定することにより、必要な通信量を減少させ
ることができる。また、併合ソートの対象となるデータ
量を減少させることにより、並列ソート処理を高速に実
行することが可能となる。更にプロセッサエレメントの
数としては、２のべき乗個に限定することはなく、任意
の自然数のプロセッサエレメントを使用することがで
き、システムとしての柔軟性が向上し、並列ソート方式
の効率化に寄与するところが大きい。

【図面の簡単な説明】

【図１】第１の発明の原理構成を示すブロック図であ
る。

【図２】第２の発明の機能ブロック図である。

【図３】本発明の並列ソート方式を実行する計算機シス
テムの第１の実施例のシステム構成ブロック図である。

【図４】エレメントの数が８である場合のベクタの配置
図である。

【図５】１つの処理装置（エレメント）の第１の実施例
の詳細構成を示すブロック図である。

【図６】内部ソート処理のフローチャートである。

【図７】２つのソート列の併合ソート処理の説明図であ
る。

【図８】併合ソート処理の詳細フローチャートである。

【図９】本発明の並列ソート方式によるソート処理の具
体例の説明図である。

【図１０】エレメント数が３個の場合の並列ソート処理
の具体例の説明図である。

【図１１】本発明の並列ソート方法の詳細フローチャー
トである。

【図１２】部分的併合ソート処理におけるソート要素の
入力順序の説明図である。

【図１３】プロセッサエレメントの第２の実施例の構成
を示すブロック図である。

【図１４】図１３の実施例によって実行される並列ソー
ト処理の具体例の説明図である。

【図１５】プロセッサエレメントの第３の実施例の構成
を示すブロック図である。

【図１６】図１５の第３の実施例を用いた並列ソート処
理の具体例の説明図（その１）である。

【図１７】図１５の第３の実施例を用いた並列ソート処
理の具体例の説明図（その２）である。

【図１８】プロセッサエレメントの第４の実施例の構成
を示すブロック図である。

【図１９】本発明の並列ソート方式を実行する並列計算
機システムの第２の実施例の構成を示すブロック図であ
る。

【図２０】並列計算機システムの第３の実施例の構成を
示すブロック図である。

【図２１】並列計算機システムの第４の実施例の構成を
示すブロック図である。

【図２２】並列ソート方法の従来例の説明図である。

【図２３】従来例における各プロセッサエレメントに対
するＡとＢの値を表す図である。

【符号の説明】

１ソート要素格納手段２転置手段３併合ソート手段４制御手段５内部ソート手段６第一次転置処理７部分的併合ソート処理８第二次転置処理９全要素併合ソート処理１０処理装置（プロセッサエレメント）１１ネットワーク１５，３１主記憶装置１６ソート装置１７併合装置１８，３２ネットワークインタフェース１９スイッチボックス２０制御装置２５二次記憶媒体２６二次記憶制御装置３０中央処理装置（ＣＰＵ）

Claims

【特許請求の範囲】

【請求項１】ネットワークによって相互に結合された
複数の処理装置の間でソート要素を交換して要素のソー
トを行う並列ソート方式において、前記各処理装置が、ソート対象の要素を格納するソート要素格納手段と、全ての処理装置のソート要素格納手段に格納されている
全ての要素を行列の要素に対応させた時、該行列の主対
角線に対してお互いに対称の位置にある要素を該当要素
を保持する処理装置間で交換して、結果として転置行列
の要素を各処理装置が格納するようにする転置手段と、該ソート要素格納手段に格納されている要素の全てを併
合してソートする全要素併合ソート処理と、該格納され
ている要素を分割し、分割後の要素をそれぞれ部分的に
併合してソートする部分的併合ソート処理とを行う併合
ソート手段と、該転置手段、および併合ソート手段の動作を制御する制
御手段とを備えたことを特徴とする並列ソート方式。
【請求項２】前記各処理装置が、前記ソート要素格納
手段に格納されている要素のソートを行う内部ソート手
段を更に備えたことを特徴とする請求項１記載の並列ソ
ート方式。
【請求項３】前記ソート要素格納手段が、複数のソー
ト対象要素を１つの組とするベクタとして、該各ベクタ
をそれぞれブロック化された領域に格納し、該各ブロック領域に格納された要素を対象としてソート
処理を行うことを特徴とする請求項１、または２記載の
並列ソート方式。
【請求項４】前記ソート要素格納手段が、前記データ
処理装置の主記憶装置によって構成されることを特徴と
する請求項１、または２記載の並列ソート方式。
【請求項５】前記ネットワークが多段結合網によって
構成されることを特徴とする請求項１、または２記載の
並列ソート方式。
【請求項６】前記ネットワークがハイパーキューブ状
の構成であることを特徴とする請求項１、または２記載
の並列ソート方式。
【請求項７】前記ネットワークがトーラス状の構成で
あることを特徴とする請求項１、または２記載の並列ソ
ート方式。
【請求項８】前記並列ソート方式において、読出し／書込み可能な二次記憶装置に、前記各処理装置
に割当て可能な形式でそれぞれ個別にソートされている
要素をソート対象とすることを特徴とする請求項１、ま
たは２記載の並列ソート方式。
【請求項９】前記並列ソート方式において、読出し／書込み可能な二次記憶装置にある要素をソート
対象とすることを特徴とする請求項１、または２記載の
並列ソート方式。
【請求項１０】ネットワークによって相互に結合され
た複数の処理装置の間でソート要素を交換して要素のソ
ートを行う並列ソート方法において、該各処理装置において、全ての処理装置に保持されてい
る全ての要素を行列の要素に対応させた時、該行列の主
対角線に対してお互いに対称の位置にある要素を該当要
素を保持する処理装置間で交換して、結果として転置行
列の要素を各処理装置が格納するようにする第一次転置
処理を行い、該第一次転置処理の結果として各処理装置内に保持され
た要素を対象とする処理であって、第ｋ回の処理では該
保持された要素を２ｋ個毎に分割し、該分割された要素
２ｋ個毎に大→小、小→大、大→小、・・・または小→
大、大→小、小→大、・・・と順次ソートする部分的併
合ソート処理を行い、該部分的併合ソート処理の結果に基づいて、前記第一次
転置処理と同一の処理としての第二次転置処理を行い、該第二次転置処理の結果として各処理装置内に保持され
た要素を対象として、自処理装置内に保持されている要
素の全てを併合してソートする全要素併合ソート処理を
行い、該全要素併合ソート処理の結果を用いて、前記第一次転
置処理から全要素併合ソート処理までの処理を、前記部
分的併合ソート処理における分割時の２ｋ個が各処理装
置内に保持されている要素の全てを含むようになるまで
繰り返すことを特徴とする並列ソート方法。
【請求項１１】前記並列ソート方法において、第１回目の前記第一次転置処理に先立って、各処理装置
内で自処理装置が保持する要素の内部ソートを行うこと
を特徴とする請求項１０記載の並列ソート方法。