JP2637749B2

JP2637749B2 - データ処理装置とその処理方法

Info

Publication number: JP2637749B2
Application number: JP62298606A
Authority: JP
Inventors: 淳一高橋; 隆木村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1986-11-27
Filing date: 1987-11-26
Publication date: 1997-08-06
Anticipated expiration: 2012-08-06
Also published as: JPS63238653A; EP0269995A3; EP0269995B1; EP0269995A2; DE3786330T2; DE3786330D1; US5138704A

Description

【発明の詳細な説明】（発明の属する技術分野）本発明は、データ処理装置間でのデータ通信を伴うシ
ステムのデータ処理において、データ処理装置間のデー
タ転送処理と各データ処理装置でのデータ演算処理とを
並列に行なうための技術に関するものである。

（従来の技術）従来、データ処理装置間でのデータ通信を伴うシステ
ムのデータ処理の一例としての、アレイプロセッサにお
けるデータ演算処理では、処理要素間のデータ転送処理
において、データ送・受信及びデータ演算処理は処理要
素の共通のデータ格納領域（メモリ等）を使っていたた
め、処理要素間のデータ授受を待ってデータ演算処理を
実行しなければならなかった。

そのため、データ転送とデータ演算処理を交互に繰り
返し行わなければならなかった。特に、ベクトルデータ
の転送を伴う行列乗算等の処理では転送データ量が多い
ため、アレイプロセッサの処理速度は処理要素間のデー
タ転送のオーバヘッドにより低下するという欠点があっ
た。

例えば、第16図に示すようなアレイプロセッサで、行
列A,Bの乗算処理を実行する場合について説明する。

各処理要素は、行列Ａの成分データの受信、送信及び
データ演算処理用に共通のデータ格納領域をもち、ま
た、行列Ｂの成分データの受信及び演算ユニットへのデ
ータ供給及び演算結果の受け取り用のデータ格納領域を
もつ。

（l,m）行列A,（m,n）行列Ｂをと定義すると、行列Ｃ＝Ａ×Ｂのｊ列ベクトルc_jはで表わされる。

従って、行列Ａを表わすベクトルデータ列と行列Ｂを表わすベクトルデータ列を第16図に示すようなデータフローに従ってアレイプロ
セッサに入力することによって、各処理要素において行
列Ｃの各成分をパイプライン処理で計算できる。

ｌ＝5,n＝５の場合の処理動作例を第17図Ａないし第1
7図Ｃに示す。

この例では、データ授受とデータ演算処理のデータ格
納領域を共有しているため、処理要素間のベクトルデー
タの転送とベクトルデータ間の内積演算はシリアルに行
われる。

例えば、時刻３においては、PE1はデータを入力すると同時にそれまで保持していたデータをPE2に転送する。さらに、ベクトルデータを入力する。

PE2はこれと同時にPE1からデータを受信し、外部からベクトルデータを入力する。

時刻４においては、時刻３で入力したデータに対して
内積演算処理を実行する。上記のような処理では、処理
要素間のデータ転送に要する時間がオーバヘッドにな
り、処理の高速化が図れない。

（発明の目的）本発明の目的は、上記のようなデータ処理装置間での
データ通信を伴うシステムのデータ処理において、デー
タ処理装置間のデータ転送処理と各データ処理装置での
データ演算処理とを並列化し、データ処理装置間のデー
タ転送に要する時間のオーバヘッドを低減し、上記のシ
ステムの並列処理の高効率化を達成できるデータ処理装
置を提供することにある。

（発明の構成）本発明装置は、１）データ受信端子を介して外部からデータを受信する
データ受信用のデータ格納領域、２）データ送信端子を介して外部へデータを送信する送
信データ用のデータ格納領域、３）演算実行ユニットに対するデータの供給並びに演算
結果の受取りを行うためのデータ演算処理用のデータ格
納領域をもち、上記の各データ格納領域は互いに排他的かつ循環的に
データ受信用、データ送信用、データ演算処理用に切り
換わることができ、上記の各データ格納領域のデータ受信、データ送信、
データ演算処理の各役割の切り換えを制御する手段と、所望の演算を実行する手段と、演算内容を制御する手段を有するデータ処理装置であ
って、データ処理装置間のデータ通信を伴うシステムで
のデータ処理におけるデータ通信時間のオーバヘッドを
低減し、処理速度の向上を図るものである。

（実施例）以下、本発明の実施例の図面を用いて、発明を詳細に
説明する。

［実施例１］（l,m）行列Ａと（m,n）行列Ｂの乗算を一次元アレイ
プロセッサで処理する例を示す。

行列A,Bをと定義する。ここで、はそれぞれ行ベクトル、列ベクトルでで表わされ、の転置ベクトルを表わす。

行列Ｃ＝Ａ×B,Cの（i,j）成分をc_ijで表わすとする
とである。

行列Ｃのｊ列ベクトルを c_j ^t＝（c_1j,c_2j,…,c_ij,…,c_lj）；（１≦ｊ≦ｎ）と定義すると、である。

第１図に示すｎ個の処理要素からなる一次元アレイプ
ロセッサで、行列Ｃを求める場合のアレイプロセッサの
処理動作を、ｌ＝ｎ＝５の場合について第２図A,第２図
Ｂに示す。上記のアレイプロセッサに入力されるデータ
は、ベクトル列及びベクトルデータ列である。

第３図は本発明を処理要素の構成にもつ一実施例を概
略的に示すブロック図であり、1,2,3はデータ格納領
域、４は演算実行ユニット、５はコントロールユニッ
ト、６はデータ受信端子、７はデータ送信端子、8,9は
レジスタを示す。

各処理要素は、本発明の構成であるデータ受信用、デ
ータ送信用、データ演算処理用のデータ格納領域をも
ち、それらの容量は各ベクトルデータを格納できる大き
さ、すなわち、ｍ個のデータ格納領域をもつ。

各処理要素はまた、ベクトルデータ列の各ベクトルデータ並びに演算途中結果を格納するため
のデータ格納領域をもち、内積演算を実行する手段、デ
ータ授受並びに上記のデータ格納領域の各々のデータ受
信、データ送信、データ演算処理の各役割を制御する手
段をもつ。

第２図A,第２図Ｂの動作例では、各ベクトルデータ列
を互いに同期させて、各処理要素にパイプライン転送す
る規則的なデータフローにより、各処理要素は並列に行
列Ｃの各成分の演算処理を行う。

各処理要素の各データ格納領域は、各時刻毎に第４図
に示されるように、次のような循環的な各役割の切り換
えを行う。（ここで、時刻の単位は行列Ｃの各成分計算
またはベクトルデータ転送に要する時間とする。）具体的に、時刻3,4,5でのPE1の３面のデータ格納領域
の処理動作について説明する。

時刻３において、データ受信用でベクトルデータを受信したデータ格納領域は、時刻４でデータ送信用に
なり、このデータをPE2に転送する。また、時刻５にお
いてデータ演算処理用になり、このデータと時刻１において入力し、保持されたベクトルデータとの内積演算処理に使われる。

一方、他の２つのデータ格納領域は、時刻３におい
て、それぞれベクトルデータとベクトルデータとの内積演算処理用のデータ格納領域（データ演算処理
用）、時刻２で受信したベクトルデータをPE2へ転送するデータ送信用のデータ格納領域（デー
タ送信用）である。

また、時刻４においては、それぞれベクトルデータのデータ入力用のデータ格納領域（データ受信用）、ベ
クトルデータとベクトルデータとの内積演算処理用のデータ格納領域（データ演算処理
用）である。

時刻５においては、それぞれベクトルデータをPE2へ転送するデータ送信用のデータ格納領域（デー
タ送信用）、ベクトルデータの入力用のデータ格納領域（データ受信用）として使用
される。

このような行列乗算の処理では、本発明のデータ受
信、データ送信、データ演算処理の３つの役割が互いに
排他的かつ循環的に切り換わるようなデータ格納領域の
構成により、常に処理要素内での内積演算処理と処理要
素間のデータ転送処理を並列に実行でき、アレイプロセ
ッサでの処理要素間のデータ転送に要する時間のオーバ
ヘッドを低減して効率的な処理が達成できる。

以下、本実施例による効果を定量的に評価する。

内積演算処理に要する時間をt_p,ベクトルデータの入力または転送に要する時間をt_tr,アレイプロセッサ
全体で演算処理を開始するまでに必要となるデータの初
期ロードに要する時間をt₀と定義すると、（l,m）行列
Ａと（m,n）行列Ｂの乗算処理に要する時間Ｔは、Ｔt₀＋（ｌ＋ｎ）×max［t_p,t_tr］ …（１）で表わされる。ここで、max［x,y］はx,yのうちの最大
値を表わす。t_p≧t_trの場合には、式（１）はＴt₀＋
（ｌ＋ｎ）t_pであり、データ転送処理が演算処理に隠さ
れ、総時間は演算処理時間だけに依存する。

また、t_p＜t_trの場合には、式（１）はＴt₀＋（ｌ＋ｎ）t_trであり、データ演
算処理がデータ転送処理に隠され、総時間はデータ転送
処理だけに依存する。

演算処理とデータ転送をシリアルに実行する手段、す
なわち、データ転送用のデータ格納領域とデータ演算処
理用のデータ格納領域を共有し、データ転送用とデータ
演算処理用の各役割を時分割して用いる従来の技術では
行列の乗算処理に要する総時間Ｔ′は、Ｔ′t₀′＋（ｌ＋ｎ）×（t_p＋t_tr） …（２）で表わされる。

式（１），（２）より式（３）の分母、分子の第一項のt₀′,t₀は第二項に比
べて無視できるとすると、である。

従って、式（４）よりＴ≦Ｔ′であり、本発明の構成
により、従来よりも高速の処理を達成できる。

t_pt_trの場合には、従来の２倍の処理速度向上を実
現でき得る。

次に、コントロールユニットの具体例について説明す
る。

コントロールユニットのブロック回路図を第５図に示
す。なおこのコントロールユニットは本発明の全実施例
に共通する。Address Counter 1,2,3は、各データ格納
領域，，をアドレシングするカウンタで、Base A
ddress Reg.1,2,3はこれらのAddress Counterのアドレ
ス値との比較対象となるデータを保持するレジスタであ
る。各Address Counterと対応するBase Address Reg.と
の値は、一致検出回路によって比較される。各一致検出
回路は、アドレス値の一致を示すフラグを発生する。各
一致検回路の出力するフラグは、各データ格納領域の役
割に対応して、データ送信、データ受信、データ演算用
の各格納領域に対するデータの授受動作状態を表わすフ
ラグとして定義でき、各マルチプレクサは、各々データ
送信状態、データ受信状態のフラグを切換え、これを送
信状態フラグ（SP）、受信状態フラグ（RF）としてモー
ドコントロール制御回路に送る。これらのフラグは、デ
ータ送信または、受信状態にあるデータ格納領域がデー
タの送信または、受信を完了したことを示すものであ
る。

詳細には、各Address Counterに送信または受信する
データ群の初期アドレスを、対応するBase Address Re
g.にその最終アドレスを設定し、Counterはデータを１
つ送信または受信するごとにインクリメントし、この値
がBase Address Reg.に一致したところでインクリメン
ト動作を終了し、一致のフラグが検出され、送信または
受信が完了する。

モードコントロール制御回路は、各データ格納領域の
役割状態を制御する。

制御信号MC（Mode Change Signal）は、各データ格納
領域の役割遷移を起動する信号であり、ST3,ST6はそれ
ぞれ、三状態循環状態遷移、六状態循環状態遷移（後述
する）の各過程を指定する制御信号である。制御信号P
n,Rn,Sn（ｎ＝1,2,3）は、それぞれのデータ格納領域
（ｎ＝１の時は,n＝２の時は,n＝３の時は）のデ
ータ演算用、データ受信用、データ送信用の役割状態に
示す信号である。制御信号MDFは六状態循環遷移の制御
を行う信号である。

デコーダ回路は、モードコントロール制御回路から各
データ格納領域の役割状態を示す制御信号とデータ演算
処理時のデータ格納領域の書込み、読出しを示す制御信
号WR,RD及びデータ送・受信時の書込み、読出しを示す
制御信号ASWR,ASRDとから個々のデータ格納領域のデー
タ読出し、書込みイネーブル信号RENn,WENn（ｎ＝1,3,
3）を発生する。

第６図に、モードコントロール回路の詳細論理図を示
す。

BMn（ｎ＝1,2,3）は、各データ格納領域の役割状態を
表し、Pn,Sn,Rn（ｎ＝1,2,3）のいずれかが、“High"で
あることを示す。レジスタ11〜16は、各データ格納領域
，，の役割状態値を制御するレジスタ群で、デー
タ格納領域の状態はレジスタ11,14、の状態はレジ
スタ12,15、の状態はレジスタ13,16、の各レジスタ値
によって定義される（データ演算用に対しては“11"、
データ受信用に対しては“10"、データ送信用に対して
は“01"）。また、このレジスタ群において、は、リ
セット時に初期値“1"を保持し、は“0"を保持するレ
ジスタである。レジスタ11〜13,レジスタ14〜16は、シ
フトレジスタとして動作する。

第７図にデコーダ回路の論理図を示し、第８図，第９
図に三状態循環遷移制御、六状態循環遷移制御における
モードコントロール回路の動作のタイムチャートを示
す。

第８図において、各データ格納領域の状態値を示すシ
フトレジスタは、制御信号MCが１マシンサイクル入るご
とにシフト動作し、各データ格納領域の状態を示す信号
BMn（ｎ＝1,2,3）が互いに排他的に変化し、三状態循環
遷移を実現する。

第９図においては、各データ格納領域の状態値を示す
シフトレジスタは、制御信号MCが２マシンサイクル入る
ごとに１回シフト動作し、制御信号MDFは、制御信号MC
が１マシンサイクル入るごとにセットまたはリセットさ
れる。制御信号MDFが“Low"の時は、各データ格納領域
の状態は、BMn（ｎ＝1,2,3）の値により定義し、MDFが
“High"の時は、BMn＝Pnのデータ格納領域をデータ演算
のデータ読出し専用に、BMn＝Snのデータ格納領域をデ
ータ演算のデータ書込み専用の役割状態として定義する
ことにより、二面のデータ格納領域をデータ演算の読出
し、書込み専用に割当てる状態と、各々のデータ格納領
域をそれぞれデータ演算用、データ受信用、データ送信
用に割当てる状態とをMCが１マシンサイクルごとに交互
に切換え、六状態循環遷移を現実する。

［実施例２］たたみ込み演算を一次元アレイプロセッサで実行する
例を示す。

重み係数データ列をＷ＝｛w₁,w₂,…,w_k｝，入力デー
タ列をＸ＝｛x₁,x₂,…,x_n｝とすると、たたみ込み演算
は y_i＝w₁x_i＋w₂x_i+1＋……＋w_kx_i+k-1 で表わされる。

本実施例に対する本発明の構成を第５図に示す。処理
要素は第３図の構成をもつ。ここで、データ受信、デー
タ送信、データ演算処理用の各役割を担うデータ格納領
域はレジスタである。

第10図に示すようなｋ個の処理要素からなる一次元ア
レイプロセッサでのたたみ込み演算処理の動作を、ｋ＝
５、ｎ＝７の場合について第11図A,第11図Ｂに示す。

ここで、各処理要素は本発明の構成である上記の３種
類の役割を担うデータ格納領域（この例では、各データ
がスカラデータであるので、各データ格納領域はレジス
タでよい）をもち、乗算及び加算の機能、各データ格納
領域の処理モード及びデータ授受の制御手段をもつ。

また、入力データＸのデータ格納領域をもち、この格
納領域は外部からのデータ入力とデータ演算処理用に同
時に用いることができるものとする。

さらに、演算途中結果の格納、保持する手段をもつも
のとする。

各々データ格納用レジスタは、データ受信、データ送
信、データ演算処理の各役割を互いに排他的かつ循環的
に切り換えることができる。

具体的に、時刻4,5,6でのPE1の各データ格納用レジス
タの動作について説明する。

時刻４において、データ受信用でw₄を受信したデータ
格納用レジスタは、時刻５においてデータ送信用になり
データw₄をPE2に送信する。また、時刻６において、デ
ータ演算処理用になり、時刻４で入力し、保持されてい
るx₄との乗算用に使用される。ここで、時刻５で入力デ
ータx₄を入力した入力データ用格納領域は、時刻６でデ
ータ演算処理用として使用される。

一方、他の２つのデータ格納用レジスタは、時刻４に
おいてそれぞれy₁の成分w₂x₂の乗算処理用（データ演算
処理用）、時刻３で入力したデータw₃をPE2へ転送する
データ転用用（データ送信用）として使用される。

また、時刻５においては、それぞれ、データ受信用で
のデータw₅の入力用、データ演算処理用でのy₁の成分w₃
x₃の乗算処理用として使用される。

時刻６においては、それぞれ時刻５で入力したデータ
w₅をデータ送信用でPE2に送信、データ受信用で空デー
タの受信用として使用される。入力データ列Ｘは、各時
刻毎に全処理要素に同時転送される。

上記のように、たたみ込み演算処理では、本発明のデ
ータ受信、データ送信、データ演算処理の３種類の役割
が互いに排他的かつ循環的に切り換わる。

データ格納領域の構成により、常に処理要素でのy_iの
成分計算と処理要素間のデータ転送処理が並列に実行で
き、アレイプロセッサ上で処理要素間のデータ転送のオ
ーバヘッドなく、y_iの演算がパイプライン並列処理で実
現できる。

演算結果は時刻7,8,9において、それぞれPE1ではy₁,P
E2ではy₂,PE3ではy₃が得られる。

以下、本実施例の効果を定量的に示す。データw_p（１
≦ｐ≦ｋ）を入力、転送するために要する時間をt_tr、
各処理要素で乗算w_px_i+p-1及びこの時刻までの計算結果とこの乗算結果の加算に要する時間をt_pとすると、結果
y_iを求めるためにかかる総時間Ｔは、Ｔt₀＋｛ｋ＋（ｎ＋１−ｋ）｝×max［t_tr,t_p］＝t₀＋（ｎ＋１）×max［t_tr,t_p］ ……（５）で表わされる。ここで、t₀は初期データロードに要する
時間であり、max［x,y］はx,yのうちの最大値を表わす
ものとする。

本実施例に示すたたみ込み演算処理では、処理要素間
のデータ転送は１個のスカラデータ転送であるので、t
_tr＜t_pである。従って、Ｔt₀＋（ｎ＋１）×t_p ……（６）従来の演算処理とデータ転送をシリアルに行う技術で
は、総時間Ｔ′はＴ′t₀′＋（ｎ＋１）（t_p＋t_tr） ……（７）である。

式（６），（７）より、式（８）より、Ｔ＜Ｔ′であり、本発明の構成により
処理速度は倍向上する。

［実施例３］音声認識処理のDP（ダイナミックプログラミング）に
基づくパターンマッチング処理におけるベクトル距離計
算を、本発明の構成を搭載した処理要素（PE）から成る
一次元アレイプロセッサで実行する例を示す。

このベクトル距離計算（以後、ｄ算計と呼ぶ）は、で表される。ここで、i,jは、マッチングする入力パタ
ーンデータ時系列の第ｉフレーム，標準パターンデータ時系列の第ｊフレームを表し、ｋは各ベクトルデータの次数を
表す。

具体例として、ｉ＝5,j＝５の場合をPE数＝５の一次
元アレイプロセッサで処理する場合について説明する。

各PEで実行するｄ計算の処理フローを第12図Ａないし
第12図Ｃに示す。各PEは、三面のデータ格納領域の他に
演算実行ユニットとのデータ授受を行なうことのできる
ワーキング用のデータ格納領域をもち、外部のバスから
データを入力することができる。

各PEは、バスから標準パターンデータを入力してこれ
をワーキング用のデータ格納領域に格納し、三面のデー
タ格納領域構成を使ったパイプライン処理によって入力
パターンデータを入力する。この処理フローは、一つの
ｄ計算に要する処理時間を時刻単位として示されてお
り、各PEの三面のデータ格納領域の役割に各時刻毎に互
いに排他的にかつ循環的にデータ受信用，データ送信
用，データ演算処理用に切り換わる。PE3の時刻ｔ＋６
におけるｄ計算を例に、詳細な処理を説明する。

時刻ｔ＋６において、PE3は、PE2から標準パターンベ
クトルデータをデータ受信状態のデータ格納領域に受信し、これと並
行して時刻ｔ＋５でPE2から受信した標準パターンベク
トルデータをPE4に送信する。また、このPE間データ転送と並行し
て時刻ｔ＋３において受信した標準パターンベクトルデ
ータと時刻ｔ＋２においてバスからワーキング用のデータ格
納領域に入力した入力パターンベクトルデータとのベクトル距離計算処理（d₃₃）を実行する。

PE3の三面の各データ格納領域の役割状態は、のように互いに排他的に切り換わる。

各PEは、各時刻において同一の処理を行なう。

以上のように、互いに排他的かつ循環的に三状態の役
割を切り換えることができる三面のデータ格納領域構成
によって、PE間のデータ転送をデータ演算処理に隠すこ
とができ、データ転送のオーバヘッドのない高速なDPに
基づくパターンマッチングの並列ベクトル距離計算が実
現できる。

［実施例４］この実施例において、３つのデータ格納領域の各々を
循環的且つ排他的に、データ受信用，データ送信用，デ
ータ演算処理用の３状態に順次切換える状態Ａと、前記
３つのうちの２つのデータ格納領域をデータ演算書込み
専用およびデータ演算読出し専用とする状態Ｂを交互に
切換え、上記の３つのデータ格納領域の各々をデータ演
算処理用（状態Ａ）、データ演算の書込み専用（状態
Ｂ）、データ送信用（状態Ａ）、ノーオペレーション
（状態Ｂ）、データ受信用（状態Ａ）、データ演算の読
出し専用（状態Ｂ）、続いてデータ演算処理用（状態
Ａ）と６状態に順次循環的に切換え、データ受信，デー
タ送信，データ演算処理を並列に実行する。

音声認識処理のDP（ダイナミックプログラミング）に
基づくパターンマッチング処理における累積距離計算
を、本発明の構成を搭載した処理要素（PE）から成る一
次元アレイプロセッサで実行する例を示す。

この累積距離計算（以後、ｇ計算と呼ぶ）は、で表される。ここで、i,jは、マッチングする入力パタ
ーンデータ時系列の第ｉフレーム，標準パターンデータ
時系列の第ｉフレームを表す。

具体例として、ｊ＝5,j＝５の場合をPE数＝５の一次
元アレイプロセッサで処理する場合について説明する。

各PEで実行するｇ計算の処理フロー第14図Ａに示す。
各PEは、三面のデータ格納領域の他に演算実行ユニット
とのデータ授受を行なうことのできるワーキング用のデ
ータ格納領域をもち、その一部の領域に距離値ｄ_i,jの
テーブルが格納されているものとする。この処理フロー
では、各PEは、隣接するPEからそのPEのｇ計算に必要な
データ群を受信し、このデータとワーキング用のデータ
格納領域に保持されているデータとを使って隣接するPE
がそのｇ計算で必要とするデータ群を話算して、隣接す
るPEへ送信する。そして、各PEは、このデータ送信と並
行してそのPEのg,l値を計算する。

第14図Ａにおいて、 g,l:対象となるｇ値,l値、 g^-1,l^-1:一時刻前のｇ値,l値、送信，受信用の格納領域には、データ群（n_j,P_a,l_a,P
_c,l_c）、ワーキングの格納領域には、データ群（p_b,l_b,
g^-1,l^-1,g_a,g_b,g_c）及びd_ijテーブルが格納される。

このPEの処理フローに従って、一次元アレイプロセッ
サでのｇ計算の並行処理フローを第14図Ｂに示す。各PE
は第14図Ａのステップａ〜ｅをこの処理フローに従って
実行するが、あるPEのステップa,dは隣接するPEのステ
ップd,aに相当するので、アレイプロセッサの処理で
は、隣接するPEの間でステップａとｄを対応させた並列
処理が実行できる。すなわち、データ演算処理と並列に
PE間データ転送が実行できる。

この処理フローを本発明の構成で実行した場合を第15
図Ａないし第15図Ｅに示す。

ここでは、はデータ群を表し、と定義する。

第15図Ａないし第15図Ｅは、一つのｇ値を計算するの
に要する時間を処理の時刻単位として処理フローを示し
ている。PE3の時刻ｔ＋４におけるg₃₃の計算を例に、詳
細な処理を説明する。

各PEの三面のデータ格納領域は、各時刻に二つの役割
状態をとる。すなわち、二面がそれぞれデータ演算処理
用の読出し、書込み専用に割当てられる状態、三面がそ
れぞれデータ送信，データ受信，データ演算処理用に割
当てられる状態である。

時刻ｔ＋４において、PE3は、データ演算処理の読出
し専用状態のデータ格納領域から時刻ｔ＋３においてPE
2から受信したデータを読出し、これとPE3内部のワーキングのデータ格納領
域に格納されていたデータから、送信用のデータを計算し、データ演算処理の書込み専用の状態にあるデ
ータ格納領域にこれを格納する。そして、三面のデータ
格納領域をデータ送信用，データ受信用，データ演算処
理用の状態にして、求めたデータをデータ送信用のデータ格納領域（書込み専用の状態に
あったデータ格納領域）から隣接するPEへ送信すると同
時に、データ受信用の状態にあるデータ格納領域に時刻
ｔ＋５計算に必要となるデータを受信する。さらに、これと並列に、データ演算処理用
のデータ格納領域（読出し専用の状態にあったデータ格
納領域）からのデータとワーキング用のデータ格納領域
からのデータを使ってg₃₃,l₃₃を計算し、時刻ｔ＋４で
のg,l計算を終了する。

であり、ワーキング用のデータ格納領域にはg₂₁＋2d₃₂,
l₂₁が格納されているので、g₃₃,l₃₃はこれらのデータに
より求められる。

各時刻において、各PEは、上記と同様の処理を行な
う。

以上のような各PEでの処理を、六つの役割状態の循環
的な遷移をもつ三面のデータ格納領域構成を使って実行
することにより、データ転送をデータ演算処理に隠すこ
とができデータ転送によるオーバヘッドのない高速なDP
に基づくパターンマッチングの並列累積距離計算を実現
できる。

（発明の効果）本発明によれば、データ処理装置間でのデータ通信を
伴うシステムのデータ処理において、データ処理装置間
のデータ転送処理と各データ処理装置でのデータ演算処
理の並列処理を可能とし、処理速度の向上を実現でき
る。

【図面の簡単な説明】

第１図及び第２図Ａ、第２図Ｂは、それぞれ行列の乗算
処理において、本発明の実施例のアレイプロセッサの構
成とその処理動作を示す。第３図及び第４図は、本発明の実施例を概略的に示すブ
ロック図とその状態の遷移を示す。第５図は本発明の実施例のコントロールユニットのブロ
ック回路図を示す。第６図は本発明の第５図の実施例のモードコントロール
回路の論理図を示す。第７図は第５図の実施例のデコーダ回路の論理図を示
す。第８図は、モードコントロール回路の三状態循環遷移制
御のタイムチャートを示す。第９図は、モードコントロール回路の六状態循環遷移制
御のタイムチャートを示す。第10図及び第11図A,第11図Ｂはそれぞれ、たたみ込み演
算処理における本発明の実施例を説明するためのアレイ
プロセッサの構成とその処理動作を示す。第12図Ａないし第12図Ｃは、ベクトル距離計算の処理フ
ローを示す。第13図は、３つのデータ格納領域の六状態循環遷移を示
す。第14図Ａは、一次元アレイプロセッサの累積距離計算並
列処理フローを、第14図ＢはPEの累積距離計算フローを
それぞれ示す。第15図Ａないし第15図Ｅは、本発明の構成で実行した場
合の、累積処理計算の並列処理フローを示す。第16図及び第17図Ａないし第17図Ｃは、それぞれ、従来
の技術を説明するためのアレイプロセッサの構成とその
処理動作を示す。 1,2,3……データ格納領域、４……演算実行ユニット、
５……コントロールユニット、６……データ受信端子、
７……データ送信端子、8,9……レジスタ、11〜16……
レジスタ、 PE1〜PEn……処理要素、x₁〜x_n……入力データ列、w₁〜
w_k……重み係数データ列。

Claims

(57)【特許請求の範囲】

【請求項１】３つのデータ格納領域と，所定の演算を実行する演算実行ユニットと，上記３つのデータ格納領域から選択した１つのデータ格
納領域をデータ受信用とし，そのデータ格納領域にデー
タ受信端子を介した外部から受信したデータを格納する
第１の手段と，上記３つのデータ格納領域から選択した１つのデータ格
納領域をデータ送信用とし，そのデータ格納領域に格納
されているデータをデータ送信端子を介して外部へ送信
する第２の手段と，上記３つのデータ格納領域から選択した１つのデータ格
納領域をデータ演算処理用とし，そのデータ格納領域に
格納されているデータを上記演算実行ユニットにより演
算の対象とする第３の手段と，上記第１の手段，上記第２の手段および上記第３の手段
が選択する上記データ格納領域を循環的且つ排他的に切
換える制御手段とを備え，上記制御手段によって，上記３つのデータ格納領域の各
々に対する上記第１の手段によるデータ受信，上記第２
の手段によるデータ送信および上記第３の手段によるデ
ータ演算処理とが並列に行われるようにしたことを特徴とする並列データ処理装置。
【請求項２】３つのデータ格納領域の各々を，循環的且
つ排他的に，データ受信用，データ送信用，データ演算
処理用の３状態に順次切換え，上記データ受信用に設定されている３つのデータ格納領
域の１つにデータ受信端子を介して外部から受信したデ
ータを格納する処理と，上記データ送信用に設定されている３つのデータ格納領
域の他の１つに格納されているデータをデータ送信端子
を介して外部へ送信する処理と，上記データ演算処理用に設定されている３つのデータ格
納領域の残りの１つに格納されているデータについて演
算を施す処理とを並列に行い，上記各データ格納領域におけるデータ受信用の状態で外
部から受信したデータを，データ送信用の状態で送信
し，データ演算処理用の状態で演算することを特徴とする並列データ処理方法。
【請求項３】３つのデータ格納領域の各々を，循環的且
つ排他的に，データ受信用，データ送信用，データ演算
処理用の３状態に順次切換える状態Ａと，前記の３つの
うちの２つのデータ格納領域をデータ演算書込み専用お
よびデータ演算読出し専用とする状態Ｂとを交互に切換
え，上記３つのデータ格納領域の各々を，データ受信用（状
態Ａ），データ演算の読出し専用（状態Ｂ），データ演
算処理用（状態Ａ），データ演算の書込み専用（状態
Ｂ），データ送信用（状態Ａ），ノーオペレーション
（状態Ｂ），次にまたデータ受信用（状態Ａ）と続く６
状態に順次循環的に切換え，上記各データ格納領域における上記データ受信用の状態
で外部から受信したデータを，上記データ演算の読出し
専用の状態においてそのデータ格納領域から読み出し，
上記データ演算処理用の状態では演算実行ユニットによ
り演算処理し，上記データ演算の書込み専用の状態で
は，演算により得られた処理結果のうち送信しなければ
ならない結果をそのデータ格納領域に書き込み，書き込
まれたデータを上記データ送信用の状態で送信し，データ受信，データ送信，データ演算処理を並列に実行
することを特徴とする並列データ処理方法。