JP2825133B2

JP2825133B2 - 並列データ処理方式

Info

Publication number: JP2825133B2
Application number: JP1243972A
Authority: JP
Inventors: 英樹加藤; 英樹吉沢; 宏基市來; 和雄浅川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-09-20
Filing date: 1989-09-20
Publication date: 1998-11-18
Anticipated expiration: 2013-11-18
Also published as: JPH03105584A

Description

【発明の詳細な説明】〔概要〕複数個のデータ処理ユニットを同期的に用いてデータ
を処理する並列データ処理方式に関し、リングシストリックアレイ方式や共通バス結合型SIMD
（Single Instruction Multi Data）結合方式と同程度
なハードウエア構成で、データ転送によるオーバヘッド
を減少せしめ、特に、長方形行列とベクトルとの積を求
めるような処理に対しても、本来の並列度を最大限利用
できるようにして良好な台数効果を得ることにより、行
列演算あるいはニューロコンピュータ演算を行うことを
目的とし、各々少なくとも一つの入力を持つ複数個のデータ処理
ユニットと、各々第１の入力及び出力を持ちかつ各々デ
ータ保持及びデータ転送を行う複数個のトレイであっ
て、前記トレイの全部又はその一部が各々前記データ処
理ユニットの第１の入力に接続された第２の出力を有す
るものと、前記接続するトレイの第１の入力及び出力が
接続されて成り、サイクリックシフトレジスタであるシ
フト手段とを具備し、前記シフト手段上のデータ転送
と、前記トレイと前記データ処理ユニット間のデータ転
送と、前記データ処理ユニットによるデータ処理とを同
期して行うことにより、行列演算あるいはニューロコン
ピュータ演算を行うように構成する。

〔産業上の利用分野〕

本発明は並列データ処理方式に係り、更に詳しくは、
複数個のデータ処理ユニットを同期的に用いてデータを
処理する並列データ処理方式に関する。

近年、電子計算機或いはデジタル信号処理装置等のシ
ステムにおいて、データ処理の適用分野の拡大に伴い、
処理されるデータの量が膨大になり、特に画像処理或い
は音声処理等の分野では高速なデータ処理を行う必要が
あり、そのため、複数個のデータ処理ユニットを同期的
に用いてデータを処理するデータ処理の並列性の利用が
重要となる。一般に、複数の処理ユニットおを用いた処
理において重要な概念に台数効果がある。これは用意さ
れたデータ処理ユニットの台数に比例したデータ処理速
度の向上が得られることを意味するが、並列処理方式に
おいては良好な台数効果を得ることが非常に重要とな
る。

台数効果が悪化する主要な原因は、問題そのものの並
列度による限界を別にすれば、データ処理に伴うデータ
転送に要する時間が本来のデータ処理に要する時間に加
算されてトータルとしての処理時間が引き延ばされるこ
とにある。従って、台数効果の向上にはデータ伝送路の
容量をフルに活用することが有効であるが、これはなか
なか難しい。

しかし、処理が規則的な場合には、この規則性を利用
して台数効果を上げることが可能となる。データをシス
トリックアレイ、すなわち巡回的にデータを流し、２つ
のテータがその流れにおいてそろったところで演算を行
うようにする。処理が規則的なことを利用する並列処理
がシストリックアレイ方式であり、この中でリングシス
トリックアレイ方式と呼ばれる１次元のシストリックア
レイ方式は、複数個のデータ処理ユニットを同期的に用
いてシストリックなデータを処理する並列データ処理方
式であって実現が比較的容易である。規則性のある処理
として、ベクトルの内積演算を基本とした行列演算や、
ニューラルネットの積和演算に非線形関数を介して出力
する並列処理がある。

〔従来の技術〕

第11図（Ａ）は従来の共通バス結合型並列方式の原理
構成図である。同図において91はプロセッサエレメン
ト、４はメモリ、93は共通バス、92は共通バスに接続さ
れるバス、94は各プロセッサエレメントと、それに対応
して接続されるメモリ４を接続する内部バスである。こ
の共通バス結合型並列方式においては、プロセッサエレ
メント（以下PEと称す）間の通信が共通バス93を介して
行われる。特定な時間区域には共通バスに乗せるデータ
は１つであるため、共通バスによる通信は共通バス全体
にわたって同期をとる必要がある。

第11図（Ｂ）はこの共通バス結合型並列方式による行
列ベクトル積の動作フローチャートである。各PEは他の
PEからのデータＸと内部レジスタのＹとをかけ、その積
をＹに差し込む動作を行う。そのためフローチャートに
示すように、ｉ番目のPEに関して、その内部にあるレジ
スタの内容、すなわち、Y_iの置をまず０にする。そして
以下をｎ回繰り返す。すなわち、共通バス93X_jを与える
とｉ番目のPEは共通バスに接続されたバス92からの入力
とメモリ４から内部バス94を介して与えられる入力を掛
け合わせ、その積をY_iに足し込む。これを繰り返す。

第12図（Ａ）は従来のリングシストリック方式の原理
説明図である。同図において20はプロセッサエレント
（PE）である。各PEは巡回バス22によって接続されてい
る。また、21は係数W_ijを格納するメモリである。W₁₁,W
₁₂,・・・,W₃₃などは係数行列の要素であり、一般にW_ij
は行列のij成分である。この係数行列Ｗと、ベクトルを掛ける動作をこのリングシストリック方式で行う場
合、次のようにして行われる。

第12図（Ｂ）はプロセッサエレメントの第ｉ番目の内
部構造である。同図において23は乗算器、24は加算器、
25はアキュムレータ（ACC）、21は係数の要素W_ijを格納
するレジスタ群である。このレジスタ群はいわゆるFIFO
であって、係数行列の第ｉ行目に関する係数として
W_ij、すなわちｊ番目の列の要素が出力されようとして
いる状態である。こののFIFOは出力された次のクロック
では巡回し、バス22を介して後ろ側からまた入力され
る。従って図に示すように、W_i1,・・・,W_i _j-1はすで
に巡回されて後側に格納されている状態となっている。

一方、ベクトルの各要素はバス22を介して入力され
る。現在、要素X_jが入力されている状態である。すでに
アキュムレータ25にはW_i1×X₁＋・・・＋W_i _j-1×X_j-1
の内積結果が格納されている。これが今アキュムレータ
25から出力され、加算器24の一方の入力に入力されてい
る。外部からのX_jとFIFOから出力されるW_ijの積が乗算
器23によって乗算され、その結果が加算器24の他方の入
力に入力され、現在のアキュムレータ25の内容とが加え
られ、次のクロックで同じアキュムレータ25に加算され
る。この操り換しによって、係数行列Ｗの第ｉ行目の行
ベクトルと外部から与えらるベクトルとの内積演算がＷ行される。なお、スイッチ
（Switch）はデータX_iをスルーに外部に出すか、あるい
は内部に取り込み、アキュムレータ25にセットする場合
との選択を行うためのものである。このようなPEで、行
列×ベクトルの積を行う場合、第12図（Ａ）に示すよう
に、PE−１はまず、W₁₁とX₁を掛け、次のクロック周期
に、X₂が右側のPE−２から流れ込み、W₁₂がメモリ21か
ら出力されるので、W₁₂×X₂が演算される。同様に次の
クロックではW₁₃とX₃との積が実行され、このことによ
り係数行列の第１列目とベクトルとの積がPE−１において可能となる。また、第２列目と
ベクトルとの積はPE−２において行われる。すなわち、
W₂₂とX₂を掛け、次のクロック周期に、W₂₃とX₃を掛け、
次のクロック周期においてW₂₁と巡回的にもどってきたX
₁との積を行うことになる。同様に、第３行目とベクト
ルとの積はW₃₃とX₃を掛け、W₃₁と巡回してくるX₁とを掛
け、W₃₂を巡回して戻ってくるX₂との積をとって内積演
算を実行することによって可能となる。従って、この動
作において、W₁₁とX₁との積、及びW₂₂とX₂、W₃₃とX₃と
の積は同時に行えることになる。しかし、図に示すよう
に、この同時性を実行するためには係数行列の要素を並
べ方にねじれが生じている。このようなリングシストリ
ックアレイ方式においては、各PE間のデータ転送と、各
PEでのデータ処理を同期して実行することで、データ転
送路を有効に利用でき、従って良好な台数効果を得るこ
とができる。

第12図（Ｃ）は、第12図（Ａ）のリングシストリック
方式の構成を多段に組み合わせたものであり、この構成
により、連続する行列とベクトルの積を行うことが可能
となる。このようなシストリックアレイ方式は処理が規
則的であるため、データ伝送路の容量をフルに活用する
ことが可能であり、従って台数効果の向上が計れる。

〔発明が解決しようとする課題〕

第11図（Ａ）のような従来の共通バス結合の並列方式
においては、プロセッシングエレメント、すなわちPE間
の結合が共通バスによっているため、一時には１つのデ
ータしか転送できない。また、共通バスによる結合は共
通バス全体にわたる同期をとらなければならない。従っ
て、従来の共通バス結合型並列方式においては良好な台
数効果を得られる処理の種類が少ないという問題が生
じ、さらに共通バスによる結合は、結合されるPEの個数
の増加とともに共通バスが長くなり、共通バス全体にわ
たる同期をとるのが難しくなるという問題、そして、大
規模並列には適さないという問題が生じていた。また、
第12図のような従来のリングシストリックアレイ方式に
おいては、各PE間のデータ転送とPEでのデータ処理を同
期して実行することにより、台数効果を得ることができ
るが、この方式では、各PE間でのデータ転送と、各PE間
でのデータ処理のタイミングを合わせねばならない。ま
た、この方式では、例えば長方形の行列とベクトルとの
積を求める場合等のように処理ユニットとデータ保持ユ
ニットのそれぞれの最適な個数が等しくない場合には、
実際のデータ処理に係わらないPEが必要となり、すなわ
ち、遊ぶPEが多くなり、そのため台数効果が悪化すると
いう問題がある。言い換えれば、効率よくとける問題と
回路構成とが固く対応し、問題の大きさが最適な値と異
なると台数効果が悪化してしまう。逆にいうと、良好な
台数効果が得られる問題が特定されてしまい、広範な処
理に適用できず、柔軟性、或いは汎用性に欠け、結果と
して、ある程度広い範囲の処理に適用できる高速なデー
タ処理系を実現することが困難となる。

本発明は、リングシストリックアレイ方式や共通バス
結合型SIMD（Single Instruction Multi Data）結合方
式と同程度なハードウエア構成で、データ転送によるオ
ーバヘッドを減少せしめ、特に、長方形行列とベクトル
との積を求めるような処理に対しても、本来の並列度を
最大限利用できるようにして良好な台数効果を得ること
により、行列演算あるいはニューロコンピュータ演算を
行うことを目的とする。

〔課題を解決するための手段〕

第１図（Ａ）は本発明の原理説明図である。同図にお
いて１はデータ処理ユニット、２はデータの保持及び転
送を行うトレイ、３は各トレイの相互接続により構成さ
れるシフトレジスタ、11はデータ処理ユニットの第１の
入力、12はデータ処理ユニットの第２の入力、21はトレ
イの第１の入力、22はトレイの第１の出力、23はトレイ
２の第２の出力である。

データ処理ユニット１はデータの処理を行い、トレイ
２は転送の動作を行うものでシフトレジスタ３を構成し
て、データの巡回シフトを行う。本発明では、ｍ×ｎと要素数のベクトルｘとの積を求める場合、の行数ｍが列数ｎより小さい場合であっても、或いはｍ
がｎより大きい場合であっても、ｍ個のデータ処理ユニ
ットとｎ個のトレイを用いてｎに比例する処理時間でそ
の積が実行可能となり、従って、良好な台数効果を得る
ことができる。すなわち、第１図（Ａ）に示すように、
それぞれ２つの入力を持ち、その入力間の乗算機能とそ
の乗算結果の累積機能、すなわち内積演算を実行するｍ
個のデータ処理ユニット１と、ｎ個のトレイ２とからな
る構成において、ユニット内の累積レジスタをＹとした
場合に、データ処理ユニット11からの入力と12からの入
力を掛け合わせ、積を累積Ｙに足し込み、その後、シフ
トレジスタ３内の隣接するトレイ間でベクトルの要素をシフトする。この動作をｎ回繰り返すことによ
り、ｍ×ｎのと、ｎ次元ベクトルとの乗算がｍ個のデータ処理ユニッ
トを用いてｎに比例する処理時間で実行可能となる。す
なわち、本発明は、従来方式と異なり、データ処理ユニ
ット１とデータ保持機能を有するトレイ２とを分離する
ことにより、それぞれｍとｎとが異なっている場合であ
っても、タイミングを合わせるための処理を必要とせず
に良好な台数効果を得ることが可能となる。さらに、本
発明では、トレイ２間のデータ転送とデータ処理ユニッ
ト１によるデータ処理とを同時並行的に行い、一般的に
はデータ処理ユニットがデータ処理に有する時間よりも
データ転送時間を短くすることが期待できるので、デー
タ転送時間をデータ処理時間の影に隠すことで実質的に
０にし、そのことにより、処理時間を短縮することが可
能となっている。このことにより、行列演算あるいはニ
ューロンコンピュータ演算を行う。

〔作用〕

データ処理ユニットと、データ保持機能を有するトレ
イとを分離することにより、データ処理ユニットの個数
ｍとトレイの個数ｎとが同一の場合も違っている場合
も、ｎ×ｍのと要素数ｎのベクトルとの積を、データ転送と、データ処理の同時並列処理に
より行うことができる。

〔実施例〕

以下、本発明の実施例を図面を参照して説明する。

第１図（Ｂ）は第１図（Ａ）の本発明の原理構成図の
システムの動作フローチャートである。第１図（Ａ）に
示されるように本発明ではデータ処理ユニット１とデー
タ保持機能を有するトレイ２とを分離し、さらにトレイ
を隣接間で接続し、巡回接続することによってシストリ
ックなシステムを構成している。データ処理ユニットの
数をｍ、トレイの数をｎとした場合に、ｍ×ｎと要素数ｎのベクトルｘとの積を求める場合、第１図
（Ｂ）のフローチャートに示される動作となる。X_iをト
レイ２のｉ番目にセットする。Y_iの値を０にする。すな
わちデータ処理ユニットのｉ番目のユニットにおける累
積レジスタの値を初期化する。ｉ番目の処理ユニット1_i
は11_iからの入力と、12_iの入力を掛け合わせて、積を累
積器Y_iに足し込む。そしてシフトレジスタ３をシフトす
る。この内積とシフト動作をｎ回繰り返す。この処理に
おいてとの積が形成される。この場合、トレイ間のデータ転送
とデータ処理ユニットにおけるデータ処理とは同時並行
処理となる。

第１図（Ｃ）は本発明方式の動作概念図である。同図
においてトレイ２内のデータX₁からX_nはベクトルｘの要
素でその個数はｎであるとする。またデータ処理ユニッ
トはｍ個あり、その各々に累積器Y₁,Y₂,・・・,Y_mがあ
る。ｍ×ｎの長方行列の要素はA₁₁からA_mnまでのｍ×ｎ
個存在する。データ処理ユニットの1₁には係数行列の第
１行目であるA₁₁,A₁₂,・・・,A_1nが同期的に12₁の入力
バスから入力される。またデータ処理ユニット1₂はA₂₂,
A₂₃,・・・,A₂₁がシストリック動作の各タイミングで順
番に与えられる。また、データ処理ユニット1_mにはA_mm,
A_m _m+1,・・・,A_m _m-1が同期的に与えられる。

第１図（Ｄ）は第１図（Ｃ）の動作のタイミングチャ
ートである。時間T₁からT_nの動作は第１図（Ｃ）のそれ
ぞれの図と第１図（Ｄ）の時間T₁,T₂,・・・,T_nとが対
応している。時間タイミングT₁においては第１図（Ｃ）
に示されるようにトレイの21,22,・・・,2nにはX₁,X₂,X
_m,・・・,X_nがあり、ユニット11,12,・・・,1mにはそれ
ぞれ係数行列の要素A₁₁,A₂₂,・・・A_mmが入力されてい
る。従って、このタイミングにおいてデータ処理ユニッ
トはA₁₁とトレイ21のデータX₁との積を求め、データ処
理ユニットに対応するトレイ22にあるX₂と、メモリから
与えられるA₂₂との積を求め、同様に、データ処理ユニ
ット1_-mにおいてはA_mmとX_mの積を求める。このタイミン
グは第１図（Ｄ）のT₁のタイミングで行われている。す
なわち積和を求める同期クロックにおいて、バス11₁に
はX₁があり、バス12₁にはA₁₁があり、バス11₂にはX₂、1
2₂にはA₂₂、11₃にはX₃、12₃にはA₃₃があり、11_mには
X_m、12_mにはA_mmがのっている。従って、第１図（Ｃ）の
T₁タイムにおける図に示すように内積演算が行われる。
累積器Ｙの値はこの時は０であるから内積結果は０に掛
けた値が加わることになる積和演算が終わるとシフト動
作に入る。すなわち第１図（Ｄ）に示されるようにT₁と
T₂との間がシフト動作であり、隣接するトレイ間でデー
タのシフトが行われる。すなわち左シフトがこの場合行
われる。すると第１図（Ｃ）のタイミングT₂に移る。第
１図（Ｄ）の動作タイミングでも同様にT₂の積和の時間
区域となる。するとシフトされているからトレイ2₁には
X₂、トレイ2₂にはX₃、そしてトレイ2mにはX_m+1が格納さ
れ、また、係数行列の要素もデータ処理ユニット1_-1,1
_-2,・・・,1_-mにはそれぞれA₁₂,A₂₃,A_m _m+1が入力され
る。これは第１図（Ｄ）のT₂のタイミングにおいてもバ
ス上のデータがそれぞれ示されている。従って、T₂のタ
イミングにおいて、A₁₂とX₂との積をとり、前の累積器
Ｙとの和が求められている。従ってユニット1₁において
はT₁において求まったA₁₁とX₁との積とT₂において求め
られるA₁₂とX₂との積との和が求められその結果が累積
器に格納される。同様にユニット1₂においては前の結果
であるA₂₂×X₂＋A₂₃×X₃の結果が累積器に格納される。
ユニット1_mに対しても同様である。そしてまたシフト
し、タイミングT₃に移る。トレイ１にはX₃、トレイ２に
はX₄、トレイｍにはX_m _m+2、トレイｎにはX₂が入り、第
１図（Ｃ）のT₃時間における図に示されるような内積演
算が実行される。

第１図（Ｄ）の動作タイミングの時間区域T₃において
は、データ処理ユニットに入るべき入力の記号が示され
ている。このような演算が進み、時間区域T_nまで行う
と、第１図（ｃ）の時間区域T_nに示されるようにA_1n×X
_nは前の累積器との値に加えられると、データ処理ユニ
ット1_-1においては、T₁で求めたA₁₁×X₁、T₂におけるA
₁₂×X₂、T₃で求めたA₁₃×X₃等の積の和が求まり、T_n-1
までの内積結果が累算器Ｙに格納されているので、その
結果にA_1n×X_nが加わっての１行目とベクトルとの内積が実行される。トレイ２においては同様に、の２行目の行ベクトルとベクトルとの内積演算がｎクロック周期で行われ、同様にｍ行目
の行ベクトルと、ベクトルｘの内積がデータ処理ユニッ
ト1_mで実行される。従って、このような時系列で処理を
行うことによって、ｍ×ｎの長方行列とｎ次元ベクトル
との乗算がｍ個のデータ処理ユニットを用いてｎに比例
する処理時間で実行可能となる。従って、良好な台数効
果を得ることが可能となる。ここで重要なことは、デー
タを処理するデータ処理ユニットと、データ保持機能を
有するトレイとを分離し、それぞれの個性を長方行例の
行と列に対応させ、それらの次元が異なっていても、時
系列動作が同期的に可能となっている点である。なお、
ｎがｍよりも小さい場合でもｍ個のトレイ２を用いるこ
とで処理時間は延びるが、すなわちｍに比例するが、台
数効果的な処理が可能となる。

第２図（Ａ）は第１図の構成の詳細ブロック図であ
り、ｍ×ｎ（ｎ≧ｍ≧１）の行列Ａと要素数ｎのベクト
ル（要素数ｍ）を求めるものである。同図において、第１
図で示したものと同一のものは同一の記号で示してあ
り、1aはデータ処理ユニット１の処理装置であり、例え
ばデジタルシグナルプロセッサで構成され、2aはトレイ
２のデータ保持回路であり、例えばラッチ回路で構成さ
れ、2bはトレイ２のデータ転送回路であり、例えばバス
ドライバで構成され、2cはトレイ２の制御手段であり、
例えば論理回路で構成され、４はデータ処理ユニット１
にデータを供給する手段の一部であると同時にデータ処
理ユニット１を制御する手段の一部である記憶装置であ
り、例えばRAM（ランダムアクセスメモリ）で構成さ
れ、５は処理ユニット１とトレイ２の同期動作を行う手
段であり、5aはクロック発生回路であり、例えば水晶発
振回路で構成され、5bはクロック分配回路であり、例え
ばバッファ回路から構成される。

本実施例の動作は本発明の原理図で説明した動作とほ
ぼ同じである。

第２図（Ｂ）は第２図（Ａ）の本発明のシステムの動
作フローチャートである。第２図（Ａ）に示されるよう
に本発明ではデータ処理ユニット１とデータ保持機能を
有するトレイ２とを分離し、さらにトレイを隣接間で接
続し、巡回接続することによってシストリックなシステ
ムを構成している。データ処理ユニットの数をｍ、トレ
イの数をｎとした場合に、ｍ×ｎのと要素数ｍのベクトルｘとの積を求める場合、第４図
（Ｂ）のフローチャートに示される動作となる。X_iをト
レイ2_iにセットする。Y_iの値を０にする。すなわちデー
タ処理ユニットのｉ番目のユニットにおける累積レジス
タの値を初期化する。ｉ番目の処理ユニットを1_iは11_i
からの入力と、12_iの入力を掛け合わせて、積を累積器Y
_iに足し込む。そしてシフトレジスタ３をシフトする。
この内積とシフト動作とをｎ回繰り返す。この処理にお
いてとの積が形成される。この場合、トレイ間のデータ転送
とデータ処理ユニットにおけるデータ処理とは同時並行
処理となる。

第２図（Ｃ）は本発明方式の動作概念図である。同図
においてトレイ２内のデータX₁からX_nはベクトルｘの要
素でその個数はｎであるとする。またデータ処理ユニッ
トはｍ個あり、その各々に累積器がY₁,Y₂,・・・,Y_mが
ある。ｍ×ｎの長方行列の要素はA₁₁からA_mnまでのｍ×
ｎ個存在する。データ処理ユニットの1₁には係数行列の
第１行目であるA₁₁、A12,・・・,A_1nが同期的に12₁の入
力バスから入力される。またデータ処理ユニット1₂はA
₂₂、A₂₃,・・・,A₂₁がシストリック動作の各タイミング
で順番に与えられる。また、データ処理ユニット1_mには
A_mm,A_m _m+1,・・・,A_m _m-1が同期的に与えられる。

第２図（Ｄ）は第２図（Ｃ）の動作のタイミングチャ
ートである。時間T₁からT_nの動作は第１図（Ｃ）のそれ
ぞれの図と第１図（Ｄ）の時間T₁,T₂,・・・,T_nとが対
応している。時間タイミングT₁においては，第２図
（Ｃ）に示されるように、トレイ21,22,・・・,2nにはX
₁,X₂,X_m,・・・,X_nがあり、ユニット11,12,・・・,1mに
はそれぞれ係数行列の要素A₁₁,A₂₂,A_mmが入力されてい
る。従って、このタイミングにおいてデータ処理ユニッ
ト11のA₁₁とトレイ21のデータX₁との積を求め、データ
処理ユニット12においてはトレイ22にあるX₂と、メモリ
から与えられるA₂₂との積を求め、同様に、トレイｍに
おいてはA_mmとX_mの積を求める。このタイミングは第２
図（Ｄ）のT₁のタイミングで行われている。すなわち積
和を求める同期クロックにおいて、バス11₁にはX₁があ
り、バス12₁にはA₁₁があり、バス11₂にはX₂、12₂にはA
₂₂、11₃にはX₃、12₃にはA₃₃があり、11_mにはX_m、12_mに
はA_mmがのっている。従って、第２図（Ｃ）のT₁タイム
における図に示すように内積演算が行われる。累積器Ｙ
の値はこの時は０であるから内積結果は０に掛けた値が
加わることになる。積和演算が終わるとシフト動作に入
る。すなわち第２図（Ｄ）の図に示されるようにT₁とT₂
との間がシフト動作であり、トレイの隣接するトレイ間
でデータのシフトが行われる。すなわち左シフトがこの
場合行われる。すると第２図（Ｃ）のタイミングT₂に移
る。第２図（Ｄ）の動作タイミングでも同様にT₂の積和
の時間区域となる。するとシフトされているからトレイ
21にはX₂、トレイ22にはX₃、そしてトレイし2mにはX_m+1
が格納され、また、係数行列の要素もバス12よりデータ
処理ユニット1_-1,1_-2,・・・,1_-mにはそれぞれA₁₂,A₂₃,
A_m _m+1が入力される。これは第２図（Ｄ）のT₂のタイミ
ングにおいてもバス上のデータがそれぞれ示されてい
る。従って、T₂のタイミングにおいて、A₁₂とX₂との積
をとり、前の累積器Ｙとの和が求められる。従って、ユ
ニット1₁においてはT₁において求まったA₁₁とX₁との積
とT₂において求められるA₁₂とX₂との積との和が求めら
れ、その結果が累積器に格納される。同様にユニット1₂
においては前の結果であるA₂₂×X₂＋A₂₃×X₃の結果が累
積器に格納される。ユニット1_mに対しても同様である。
そしてまたシフトし、タイミングT₃に移る。トレイ21に
はX₃、トレイ22にはX₄、トレイ2mにはX_m+2、トレイ2nに
はX₂が入り、第２図（Ｃ）のT₃時間における図に示され
るような内積演算が実行される。

第２図（Ｄ）の動作タイミングにおいての時間区域T₃
においては、データ処理ユニットに入るべき入力の記号
が示されている。このような演算が進み、時間区域T_nま
で行うと第２図（Ｃ）の時間区域T_nに示されるようにA
_1n×X_nな前の累積器との値に加えられると、データ処理
ユニット1_-1においてはT₁で求めたA₁₁×X₁、T₂における
A₁₂×X₂、T₃で求めたA₁₃×X₃等の積の和が求まり、T_n-1
までの内積結果が累積器Ｙに格納されているので、その
結果にA_1n×X_nが加わっての１行目とベクトルとの内積が実行される。データ処理ユニット1_-2におい
ては同様に、の２行目の行ベクトルとベクトルとの内積演算がｎクロック周期で行われ、同様にｍ行目
の行ベクトルと、ベクトルの内積がデータ処理ユニット1_mで実行される。従って、
このような時系列で処理を行うことによってｍ×ｎの長
方行列とｎ次元ベクトルとの乗算がｍ個のデータ処理ユ
ニットを用いてｎに比例する処理時間で実行可能とな
る。従って、良好な台数効果を得ることが可能となる。

第３図は、本発明の第２の実施例説明図である。ｍ×
ｎのと要素数ｎのベクトルとの積に対し、引き続きｋ×ｍの行列Ｂを左から掛ける
場合の動作に対するシストリック方式の構成図である。
第３図（Ａ）において第１図で示したものと同一のもの
は同一の記号で示してある。すなわち1aはデータ処理ユ
ニット１の処理装置であり、例えばデジタルシグナルプ
ロセッサである。2aはトレイ２のデータ保持回路であ
り、例えばラッチ回路で構成され、2bはトレイ２のデー
タ転送回路であり、例えばバスドライバで構成され、2c
はトレイ２の制御手段であり、例えば論理回路で構成さ
れている。４はデータ処理ユニット１にデータを供給す
る手段の一部であると同時にデータ処理ユニット１を制
御する手段の一部でもある記憶装置であって、例えばRA
M（ランダムアクセスメモリ）で構成されている。５は
データ処理ユニット１とトレイ２の同期動作を行う手段
であり、内部の5aは、クロック発生回路で、例えば、水
晶発振回路で構成され、5bはクロック分配回路であり、
例えば、バッファ回路から構成される。６はシストリッ
ク的に戻るデータとしてトレイに入力する場合のデータ
と外部データとの選択を行う選択回路で、７はシストリ
ックされるデータを途中からバイパスする選択回路であ
る。

本実施例は、中間結果を求めるところまでは第１の実施例と全く同一であり、
各データ処理ユニット中にその中間結果の各要素が求まっている状態から（ａ）中間結果をトレイ２に書き込み、（ｂ）バイアスの選択回路７をオンさせて、シフトレジ
スタの長さをｍに変更し、（ｃ）以後は本発明の第１の実施例において、そして、ｎをｍに、ｍをｋにそれぞれ変更すればまった
く同じ動作となる。

第３図（Ｂ）は第２の実施例の動作フローチャート、
第３図（Ｃ）は第２の実施例の動作概要図、第３図
（Ｄ）は第２の実施例の動作タイムチヤートである。

まず、ｍ×ｎのと要素数ｎのベクトルとの積、そして、ｋ×ｍの行列Ｂを左から掛ける場合、
第３図（Ｂ）のフローチャートに示される動作となる。
X_iをトレイ2_iにセットする。Y_iの値を０にする。すなわ
ちデータ処理ユニットのｉ番目のユニットにおける累積
レジスタの値を初期化する。ｉ番目の処理ユニット1_iは
11_iからの入力と、12_iの入力を掛け合わせて、積を累積
器Y_iに足し込む。そしてシフトレジスタ３をシフトす
る。この内積とシフト動作をｎ回繰り返す。この処理に
おいてとの積が形成される。

次に、シフトレジスタの長さをｍに変更し、Y_iをトレイ
2_iに転送する。そして、Z_i（ｉ＝1,・・・,k）を０にす
る。次にＢ行列を掛けるために、まず、ｉ番目の処理ユ
ニット1_iと11_iからの入力と12_iの入力を掛け合わせて、
積を累積器Z_iに足し込む。そして、シフトレジスタ３を
シフトするこの内積とシフト動作をｋ回繰り返す。

第３図（Ｃ）は以上の動作概念図である。同図におい
てトレイ２内のデータX₁からX_nはベクトルの要素でその個数はまず、ｎであるとする。またデータ
処理ユニットは最初は、ｍ個が有効で、その各々に累積
器がY₁,Y₂,・・・,Y_mがあるとする。まず、ｍ×ｎの長
方行列Ａの要素はA₁₁からA_mnまでのｍ×ｎ個存在する。
データ処理ユニットの1₁には係数行列の第１行目である
A₁₁,A₁₂,・・・,A_1nが同期的に12₁の入力バスから入力
される。またデータ処理ユニット1₂はA₂₂,A₂₃,・・・,A
₂₁がシストリック動作の各タイミングで順番に与えられ
る。また、データ処理ユニット1_mにはA_mm,A_m _m+1,・・
・,A_m _m-1が同期的に与えられる。

第３図（Ｄ）は第３図（Ｃ）の動作のタイミングチャ
ートである。時間T₁からT_nの動作は第３図（Ｃ）のそれ
ぞれの図と第３図（Ｄ）の時間T₁,T₂,・・・,T_nとが対
応している時、時間タイミングT₁においては、第３図
（Ｃ）に示されるように、トレイの1,2,・・・,nには
X₁,X₂,・・・,X_k,・・・,X_nがあり、ユニット1,2,・・
・,k,・・・,mにはそれぞれ係数行列の要素A₁₁,A₂₂,・
・・,A_kk,・・・,A_mmが入力されている。従って、この
タイミングにおいてデータ処理ユニットは、トレイ１に
おいて、A₁₁とトレイ１のデータX₁との積を求め、デー
タ処理ユニット２においてはトレイ２にあるX₂と、メモ
リから与えられるA₂₂との積を求め、同様に、データ処
理ユニット2_-kにおいてはA_kkとX_kの積を求め、データ処
理ユニット2_-mにおいて、A_mmとX_mの積を求める。このタ
イミングは第３図（Ｄ）のT₁のタイミングで行われてい
る。すなわち積和を求める同期クロックにおいて、バス
11₁にはX₁があり、バス12₁にはA₁₁があり、バス11₂に
は、X₂、12₂にはA₂₂、11_kにはX_k、12_kにはA_kkがあり、1
1_mにはX_m、12_mにはA_mmがのっている。従って、第３図
（Ｃ）のT₁タイムにおける図に示すように、内積演算が
行われる。累積器Ｙの値はこの時は０であるから内積結
果は０に掛けた値が加わることになる。積和演算が終わ
るとシフト動作に入る。すなわち第３図（Ｄ）の図に示
されるように、T₁とT₂との間がシフト動作であり、トレ
イの隣接するトレイ間でデータのシフトが行われる。す
なわち左シフトがこの場合行われる。すると第３図
（Ｃ）のタイミングT₂に移る。第３図（Ｄ）の動作タイ
ミングでも同様にT₂の積和の時間区域となる。するとシ
フトされているからトイレ１にはX₂、トレイ２にはX₃、
トレイｋにはX_k+1、そしてトレイｍにはX_m+1が供給さ
れ、また、係数行列の要素もデータ処理ユニット1_-1,1
_-2,・・・,1_-k,・・・,1_-mにはそれぞれA₁₂,A₂₃,・・・
A_k _k+1,・・・,A_m _m+1が力される。これは第３図（Ｄ）
のT₂のタイミングにおいてもバス上のデータがそれぞれ
示されている。従って、T₂のタイミングにおいてA₁₂とX
₂との積を取り、前の累積器Ｙとの和が求められる。従
ってデータ処理ユニット1_-1においてはT₁において求ま
ったA₁₁とX₁との積とT₂において求められるA₁₂とX₂との
積との和が求められその結果が累積器に格納される。同
様にデータ処理ユニット1_-2においては前の結果であるA
₂₂×X₂＋A₂₃×X₃の結果が累積器に格納される。データ
処理ユニット1_-kや1_-mに対しても同様である。そしてま
たシフトし、タイミングT₃に移る。トレイ１にはX₃、ト
レイ２にはX₄、トレイｋにはX_k _k+2、トレイｍにはX_m
_m+2、トレイｎにはX₂が入り、第３図（Ｃ）のT₃時間に
おける図に示されるような内積演算が実行される。

このような演算が進み、時間区域T_nまで行うと第３図
（Ｃ）の時間区域T_nに示されるようにA_1n×X_nが前の累
積器との値に加えられるとトレイ１においてはT₁で求め
たA₁₁×X₁、T₂におけるA₁₂×X₂、T_kで求めたA_1k×X_k等
の積の和が求まり、T_n-1までの内積結果が累積器Ｙに格
納されているので、その結果にA_1n×X_nが加わっての１行目とベクトルとの内積が実行される。データ処理ユニット1_-2におい
ては同様に行列Ａの２行目の行ベクトルとベクトルとの内積演算がｎクロック周期で行われ、同様にｋ行目
の行ベクトルと、ベクトルの内積がデータ処理ユニット1_kで実行される。

データ処理ユニットの有効数をｋ、トレイの有効数を
ｍとした場合に、ｋ×ｍのと要素数ｍのベクトルとの積を求める動作となる。Y_iをトレイ２の1_iにセット
する。Z_iの値を０にする。すなわちデータ処理ユニット
のｉ番目のユニットにおける累積レジスタの値を初期化
する。ｉ便目の処理ユニット1_iは11_iからの入力と、12_i
の入力を掛け合わせて、積を累積器Z_iに足し込む。そし
てシフトレジスタ３をシフトする。この内積とシフト動
作をｍ回繰り返す。この処理においてとの積が形成される。

第３図（Ｃ）においてトレイ２内のテータY₁からY_mは
ベクトルの要素でその個数はｍであるとする。またデータ処理ユ
ニットの有効数はｋ個あり、その個々に累積器がZ₁,Z₂,
・・・,Z_kがある。ｋ×ｍのの要素はB₁₁からB_kmまでのｋ×ｍ個存在する。データ処
理ユニットの1_iにはの第１行目であるB₁₁,B₁₂,・・・,B_1mが同期的に12₁の
入力バスから入力される。またデータ処理ユニット1₂は
B₂₂,B₂₃,・・・,B₂₁がシストリック動作の各タイミング
で順番に与えられる。また、データ処理ユニット1_kには
B_kk,B_k _k+1,・・・,B_k _k-1が同期的に与えられる。

第３図（Ｄ）は第３図（Ｃ）の動作のタイミングチャ
ートでも同様の記号が使われている。時間T_n+1からT
_n+m+1の動作は第３図（Ｃ）のそれぞれの図と第３図
（Ｄ）の時間とが対応している。時間タイミングT_n+1に
おいては第３図（Ｃ）に示されるように、トレイ1,2,・
・・,mにはY₁,Y₂,・・・,Y_mが移され、ユニット1,2,・
・・,kにはそれぞれの要素B₁₁,B₂₂,・・・,B_kkが入力されている。次のタイ
ミングT_n+2においてデータ処理ユニット１においてB₁₁
とトレイ１のデータY₁との積を求め、データ処理ユニッ
ト２においてはトレイ２にあるY₂と、メモリから与えら
れるB₂₂との積を求め、同様にユニットｋにおいてはB_kk
とY_kの積を求める。このタイミングは第５図（ｄ）のT
_n+2のタイミングで行われている。すなわち積和を求め
る同期クロックにおいて、バス11₁にはY₁があり、バス1
2₁にはB₁₁があり、バス11₂にはY₂、12₂にはB₂₂、11₃に
はY₃、12₃にはB₃₃があり、11_kにはY_k、12_kにはB_kkがの
っている。従って、第３図（Ｃ）のT_n+2における図に示
すように内積演算が行われる。累積器Ｚの値はこの時は
０であるから内積結果は０に掛けた値が加わることにな
る。積和演算が終わるとシフト動作すに入る。すなわち
第３図（Ｄ）の図に示されるように、T_n+2とT_n+3との間
がシフト動作であり、トレイの隣接するトレイ間のデー
タのシフトが行われる。すなわち左シフトがこの場合行
われる。すると第３図（Ｃ）のタイミングT_n+3に移る。
第３図（Ｄ）の動作タイミングでも同様にT_n+3の積和の
時間区域となる。すると、シフトされているからトレイ
１にはY₂、トレイ２にはY₃、そしてトレイｋにはY_k+1が
格納され、また、係数行列Ｂの要素もトレイ1,2,・・
・,kにはそれぞれB₁₂,B₂₃,・・・,B_k _k+1が入力され
る。これは第３図（Ｄ）のT_n+3のタイミングにおいても
バス上のデータがそれぞれ示されていれ。従って、T_n+3
のタイミングにおいてB₁₂とY₂との積をとり、前の累積
器Ｚとの和がも求められる。従って、ユニット１におい
ては、T_n+2において求まったB₁₁とY₁との積とT_n+3にお
いて求められるB₁₂とY₂との積との和が求められてその
結果が累積器Ｚに格納される。同様にユニット２におい
ては前の結果であるB₂₂×Y₂＋B₂₃×Y₃の結果が累積器Ｚ
に格納される。データ処理ユニット1_-kに対しても同様
である。そしてまたシフトし、タイミングT_n+4に移る。

このような演算が進み、時間区域T_n+m+1まで行う第３
図（Ｃ）の時間区域T_n+m+1に示されるようにB_1m×Y_mが
前の累積器Ｚとの値に加えられるとユニット１において
はT_n+2で求めたB₁₁×Y₁、T_n+2におけるB₁₂×Y₂、T_n+3で
求めたB₁₃×Y₃等の積の和が求まり、T_n+mまでの内積結
果が累積器に格納されているので、その結果にB_1m×Y_m
が加わって行列Ｂの１行目とベクトルとの内積が実行される。ユニット２においては同様に行
列Ｂの２行目の行ベクトルとベクトルとの内積演算が行われ、同様にｋ行目の行ベクトルと、
ベクトルの内積がデータ処理ユニット1_kで実行される。従って、
このような時系列で処理を行うことによってｋ×ｍのに対してｍに比例する処理時間で実行可能となり、従っ
て良好な台数効果を得ることが可能となる。

本実施例においてはシフトレジスタ３の長さを変更で
きること、及び中間結果をトレイ２に書き込み、それを
新たなデータとして処理できることが重要である。シフ
トレジスタ３の長さを変更できなければ、データをすべ
て巡回するためにｎ単位時間が必要になってしまう。ま
た中間結果を新たなデータとして処理できることで小規
模なハードウエアでリングシストリックアレイ方式より
広い範囲の処理が実行可能となっている。さらに書き込
みに要する時間が短くて各一定であることも重要であ
る。

第４図は本発明の第３の実施例説明図である。このシ
ステムはｍ×ｎのすなわち（ｎ×ｍ）の行列と要素数ｍのベクトルとの積とを計算するものである。同図において第１図に
示したもの同じものは同一の記号で示してある。

との積を求める場合においてはを構成する部分行ベクトルを各データ処理ユニット１に
接続された記憶装置４中に格納し、演算途中に生ずる部
分和をトレイ中のデータ保持回路2a上に累積しつつシフ
トレジスタ３上のデータを循環させる。

第４図（Ａ）は第３の実施例の構成の詳細ブロック図
であり、ｎ×ｍ（ｎ≧ｍ≧１）のと要素数ｍのベクトル（要素数ｎ）を求めるものである。同図において、第１
図で示したものと同一のものは同一の記号で示してあ
り、1aはデータ処理ユニット１の処理装置であり、例え
ばデジタルシグナルプロセッサで構成され、2aはトレイ
２のデータ保持回路であり、例えばラッチ回路で構成さ
れ、2bはトレイ２のデータ転送回路であり、例えばバス
ドライバで構成され、2cはトレイ２の制御手段であり、
例えば論理回路で構成され、４はデータ処理ユニット１
にデータを供給する手段の一部であると同時にデータ処
理ユニット１を制御する手段の一部である記憶装置であ
り、例えばRAM（ランダムアクセスメモリ）で構成さ
れ、５は処理ユニット１とトレイ２の同期動作を行う手
段であり、5aはクロック発生回路であり、例えば水晶発
振回路で構成され、5bはクロック分配回路であり、例え
ばバッファ回路から構成される。

第４図（Ｂ）は第３の実施例の動作フローチャートで
ある。X_iをユニット1_i（ｉ＝1,・・・,m）にセットす
る。そしてY_i（ｉ＝1,・・・,n）の値を０にする。各ユ
ニット1_iはA_jiとX_iを掛け合わせ、積をY_iに足し込む動
作をｉ＝1,・・・,nに対して行ってシフトする。この動
作をｊ＝1,・・・,mに対して繰り返す。転置行列とベク
トルの掛け算は、記憶装置４中に格納されたの各部分行ベクトルをそのままにして計算可能となり、
これは後述するニューラルネットの学習アルゴリズムの
１つであるバックプロパゲションの実行においては極め
て重要となる。またネットワークの量はオーダｎですむ
こと。リングネットワークである。またデータ転送時間
が処理時間の影に隠れて転送時間に対するオーバヘッド
はないことになる。しかもSIMD方式である。

第４図（Ｃ）は第３の実施例の動作概要図である。ユ
ニット1₁には、A₁₁からA_1mまでを順に与えていく。ユニ
ット1₂にはA₂₂からA₂₃,・・・,A₂₁を与え、ｋ番目のユ
ニットには記憶回路を介して、A_kk,A_k _k+1,・・・,A_k
_k-1を順に与える。ｍ番目にはA_mm,A_m _m+1,・・・,A_m
_m-1を順に与えていく。また、トレイ上を循環するもの
はY₁からY_nである。

第４図（Ｄ）は第３の実施例の動作タイクチヤートで
ある。時間区域T₁からT_nまでのバス上のデータが示さ
れ、これらは第６図（ｃ）の時間区域T₁からT_nまでの図
にそれぞれ対応している。時間区域T₁においては、Y₁か
らY_nまではすべて０である。そしてA₁₁とX₁との積がユ
ニット1₁で形成され、それをY₁に足し込む。それと同時
にA₂₂とX₂がY₂に足し込まれ、A_kk×X_kがY_kに足し込み、
A_mm×X_mがY_mに足し込まれる。そしてシフト動作に入る
とタイミングT₂になる。すなわちＹデータが循環する。
第１のユニットではA₁₂×X₁が計算され、これがY₂に足
し込まれるが、そのY₂はT₁において求まったA₂₂×X₂の
値が格納されているのでこれに足し込まれる。そのた
め、A₂₂×X₂＋A₁₂×X₁の結果がY₂となる。同様にユニッ
ト２においては、前のY₃の欠格にA₂₃×X₂が足し込まれ
る。ｋ番目のユニットにおいてはY_k+1にA_k _k+1×X_kが加
えられる。また、ｍ番目のユニットにはY_m+1にA_m _m+1×
X_mが加えられることになる。このように、Ｙデータを循
環するとｍ番目の時間区域T_nにおいては、例えば第１の
ユニット1₁においては、その前までに求まったY_nにA_1n
×X₁が加えられる。またY₁にはA₂₁×X₂が加えられる。
これを全体的に眺めてみると、例えば、ベクトルの第１の要素X₁には、T₁においてA₁₁と積がとられ、A11
×X₁が計算される。それはY₁に格納される。また、の第１行目の第２番目の要素A₂₁×X₂は実は最後のクロ
ック周期T_nにおいて計算されている。これは同じY₁に格
納されている形になっている。また、の第１行目の最後の要素であるA_m1とX_mとの積は第４図
（Ｃ）のクロック周期T_n-m+2のｍ番目のユニットで計算
されている。すなわちA_m1とX_mの積がY₁に足し込むこと
によって得られる。

の第２行目においても同様であり、A₁₂とX₁との積はT₂
のクロックにおいては、ユニット１において計算されて
いる。また、A₂₂×X₂はクロック周期T₁の第２番目のユ
ニットにおいて行われている。そしてY₂が再び循環じて
積の実行が行われるのは、時間区域T_n-m+3である。その
時間区域以後は乗算が行われ、シフト動作が行われる。
そして時間区域T_nにおいてはY₂に足し込まれる値は第３
番目のユニットであり、Y₂に足し込まれる値はA₃₂×X₃
である。従って、T_nにおいての第２行目とベクトルの内積が計算される。一般に第ｋ番目のユニットに関し
てはｋ番目のトレイからのデータ線が11_kであるから第
４図（Ｄ）に示されるように、11_kに示すところを追っ
ていけばよいことになる。すなわち、T₁においてはY_k＋
A_kk×X_k、T₂においてはY_k+1＋A_k _k+1×X_k、T₃において
はY_k+2＋A_k _k+2X_kが計算され、T_n-1においてはY_k-2＋A_k
_k-2X_kが計算され、時間区域T_nにおいてはY_k-1＋A_k _k-1
X_kが計算されることになる。このことによりとｍ次元のベクトルｘの積が実行される。すなわち、とベクトルｘとの積を求める場合においては、を構成する部分行ベクトルを各データ処理ユニット１に
接続された記憶装置４中に格納し、演算途中に生ずる部
分和をトレイ２のデータ保持回路上に累積しつつシフト
レジスタ上を循環させている。このような方法によりとの積Ｘに継続しての積を求める場合は、とベクトルｕとの積を求める時に用いた各データ処理ユ
ニット１に接続された記憶装置４中に格納されたの各部分行ベクトルをそのまま用いて、すなわちの部分行列を各データ処理ユニット１に転送することな
しに処理をおこなしうことができ、従って転送に要する
時間が節約でき、さらに処理時間が短縮できることにな
る。

第４図（Ｅ）は第４図（Ｂ）の繰り返し部分を詳細に
分解して示したフローチャートである。

第５図は本発明の第４の実施例図である。本実施例は
本発明を利用したニューロコンピュータの構成図であ
る。同図において第４図に示したものと同一のものは同
一の記号で示してある。同図において1aはデータ処理ユ
ニット１の処理装置であり、例えばデジタルシグナルプ
ロセッサで構成される。2aはトレイ２のデータ保持回路
であり、例えばラッチ回路で構成される。2bはトレイ２
のデータ転送回路であり、例えばバスドライバで構成さ
れる。2cはトレイ２の制御手段であり、例えば論理回路
で構成される。４はデータ処理ユニット１にデータを供
給する手段の一部であると同時にデータ処理ユニット１
を制御する手段の一部でもある記憶装置である。例えば
RAMで構成される。5aはデータ処理ユニット１とトレイ
２の同期動作を行う手段であり、5aはクロック発生回
路、例えば水晶発振回路で構成される。5bはクロック分
配回路であり、例えばバッファ回路から構成される。こ
れに加えて101はシグモイド関数と称される単調非減少
連続関数及びその微分係数を計算するシグモイド関数ユ
ニットであり、例えば多項式による近似式により実現さ
れる。103は学習時の終了を判定する手段であり、例え
ば通信手段により前記各処理ユニット１と接続されたホ
ストコンピュータと、各処理ユニット１が計算した出力
誤差を前記通信手段により前記ホストコンピュータに通
知する手段と、一般に複数個の前記出力誤差値を基に学
習の終了を判定し、ニューロコンピュータの停止を行う
手段とから構成される。なお102はニューロコンピュー
タの全体である。

第５図（Ｂ）は本発明のニューロコンピュータにおい
て処理の計算における基本素子であるニューロンモデル
の実施例図である。ニューロンモデルは入力X₁,X₂,・・
・,X_nの各々にシナプス結合としての重み時W₁,W₂,・・
・,W_nをそれぞれ掛け、その総和を求め、これを内部値
Ｕとする。このＵに非線形関数ｆを施し、出力Ｙとす
る。ここで非線形関数ｆは図に示すようなＳ型のシグモ
イド関数が一般に使われる。

第５図（Ｃ）は第５図（Ｂ）のニューロンモデルの複
数を用いて入力層、中間層、出力層の３層構造でニュー
ロコンピュータを形成する階層型のニュートラルネット
ワークの概念図である。第１層の入力層は入力信号I₁,I
₂,・・・,I_N(1)を入力する。第２層の中間層は各々のユ
ニット、すなわち、各々のニューロンモデルが第１層の
すべてのニューロンモデルに接続され、その結合枝がシ
ナプス結合であって、重み値W_ijが与えられている。第
３層の出力層は同様に中間層の各ニューロンモデルの全
てに各々のユニットが接続されている。その出力は外部
に出される。このニューラルネットにおいては学習時に
おいて入力層に与えられる入力パターンの信号に対応す
る教師信号と出力信号との出力信号との誤差を求め、こ
の差が非常に小さくなるように中間層と出力層との間の
重み及び第１層と第２層の間の重みを定めるようにす
る。このアルゴリズムがバックプラパゲーション法則、
すなわち逆伝播学習則と呼ばれるものである。逆伝播学
習則によって定められた重み値を保存し、例えばパター
ン認識等の連想処理を行う場合には、第１層の入力にて
認識するべきパターンからややずれた不完全なパターン
を与えると、出力層からそのパターンに対応した出力信
号が出力され、その信号は学習時に与えたそのパターン
に対応する教師信号と非常に似たような信号が出てく
る。教師信号との差が非常に小さければ、その不完全な
パターンを認識したことになる。

第５図（Ａ）のニューロコンピュータ102を用いてこ
のニュートラルネットワークの動作を工学的に実現でき
る。本実施例では第５図（Ｃ）に示すような３層のネッ
トワーク構成を用いるが、以下の説明のようにこの層数
は本実施例の動作にはなんら本質的な影響を受けない。
同図においてＮ（１）は第１層のニューロン数である。
また通常、第１層、すなわち入力層の各ニューロンの出
力は入力と等しいものとするので、実質的な処理の必要
はない。通常の動作、すなわちパターン認識を行う場合
の前向きの処理を第５図（Ｄ）に示す。

第５図（Ｄ）は第４の実施例の前向き処理フローチャ
ートである。前向き処理では第５図（Ｃ）に示すネット
ワークにおいて、各層間の結合枝上の重み係数は定まっ
ているものとする。第５図（Ｃ）のネットワークを第５
図（Ａ）のニューロコンピュータで実現する場合、次の
処理が行われる。前向き動作の基本動作は第５図（Ｂ）
のニューロモデルにおいて、入力に重みを掛けその総和
をとったものをＵとし、そのＵに非線形関数を施す処理
となる。これを各層において行うことになる。そのた
め、まず、ステップ70において入力データ、すなわちI₁
からI_N(1)までのデータをシフトレジスタ上にセットす
る。そして層の数をＬで表すと、以下のすべての処理を
層分繰り返す。例えばＬが３であった場合には、２回繰
り返す。繰り返される層は１層分の前向きの処理であ
る。そして、処理が終了する。その１層分の前向き処理
が下側に示されている。今、中間層に注目すると、ｌは
２である。ステップ72において、シフトレジスタの長さ
をＮ（ｌ−１）にする。すなわち、ｌ＝２であるからＮ
（１）、すなわち入力層の数にする。ステップ73は中間
層におけるニューロンモデルの処理である。インデック
スのｊは１から入力層のユニット数Ｎ（１）まで変化さ
せる。W_ij（ｌ）は入力層と中間層の間の結合における
重み係数である。すなわちｌ＝２である。Y_j（ｌ−１）
は入力層のｊ番目のユニットからの出力である。ｉは中
間層のｉ番目のユニットを意味する。ｉ番目のユニット
の状態U_i（２）は入力層の出力Y_j、すなわちｊ番目のＹ
に重みW_ijをかけてその総和より計算される。ステップ7
4に移って、その中間層のｉ番目の状態U_i（２）は非線
形関数、すなわちシグモイド関数に入力され、その出力
がY_i（２）となる。すなわちステップ73の内積計算は第
５図（Ａ）のユニット内で行うが、このシグモイド関数
の計算は、101によって行われる。ステップ75で例え
ば、中間層のｉ番目のユニットの出力Y_i（２）はトレイ
のｉ番目に出力される。そして処理が終わる。以上の前
向き処理を入力層、中間層、出力層に対して行うことに
なる。このようにして各層の前向き処理が終了する。す
なわちニューロン単体のシミュレーションに必要な処理
は第５図（Ｂ）の式で示される演算で、その内容は重み
と入力ベクトルとの内積演算及びその演算結果に対する
シグモイド関数値の計算であり、その関数値の計算はシ
グモイド関数ユニット101により実現される。従って、
ネットワーク中のある１層の処理は第５図（Ｃ）に示す
ように、そのニューロン単体の演算をその層内の全ニュ
ーロン分行うことである。従って内積演算は各ニューロ
ンｉ番目とするの結合係数ベクトルを並べた（ｌ）＝〔W_ij（ｌ）〕と、その層への入力を並べたベ
クトル（ｌ）＝〔X_j（ｌ）〕の積のベクトルとなり、これは本発明の第３の実施例で説明した方法で
実行可能となる。またシグモイド関数演算は各シグモイ
ド関数ユニット101が積ベクトルの各要素、U_i（ｌ）を
入力し、対応する関数値Y_i（ｌ）＝ｆ（U_i（ｌ））を出
力することによってなされる。継続する層すなわち、第
（ｌ＋１）層が存在する場合には、その各関数値出力Y_i
（ｌ）を各トレイに書き込み、第（ｌ＋１）層の処理に
おいてはこれを入力として以上の過程を繰り返す。

次に第５図（Ａ）のニューロコンピュータを用いて学
習動作、すなわちバックプロパゲーションアルゴリズム
を実行する場合について説明する。

第５図（Ｅ）は第４の実施例の学習処理フローチャー
トである。ニューロコンピュータにおける学習とはネッ
トワークが所望の入出力関係を満たすようになるまで各
ニューロンの重みを修正することである。学習方法は所
望の入力信号ベクトルと教師信号ベクトルとの対を複数
個、すなわち教師信号の集合分だけを用意し、その中か
ら１対を選び、その入力信号I_Pを学習対象ネットワーク
に入力し、入力に対するネットワークの出力と正しい出
力信号、すなわちその入力信号に対応した教師信号O_Pと
を比較する。この差を誤差と称するが、その誤差、及び
この時の入出力信号の値を基に、各ニューロンの重みを
修正することになる。この過程を教師信号の集合中の全
要素にわたり学習が収束するまで繰り返すものである。
すなわち、入力パターンの数の分だけ、すべて重み値と
して分布的に記憶することになる。この後ろ向き処理と
呼ばれる重みの修正過程において出力層で得られた誤差
を途中で変形しながら入力層に向け通常の信号の流れる
向きとは逆方向に伝播させる。これがバックプロパゲー
ションのアルゴリズムである。

まず前記誤差Ｄを以下のように再帰的に定義する。Di
（ｌ）は第ｌ層のｉ番目のニューロンから逆向きに伝播
される誤差、Ｌはネットワークの層数である。

Di（Ｌ）＝ｆ′（Ui（Ｌ））（Yi（Ｌ）−Opi）（最終層）（１） Di（ｌ−１）＝ｆ′（Ui（ｌ−１）） Σ_{ｊ＝1,N（ｌ）}Wji（ｌ）Dj（ｌ）（ｌ＝2,・・・,L）（２）（ｉ＝1,・・・,N（ｌ））ここでｆ′（Ｕ）はシグモイド関数ｆ（Ｘ）のＸに対
する微係数ｆ′（Ｘ）のＸ＝Ｕの時の値であり、例えばｆ（Ｘ）＝tanhX （３）ならば、ｆ′（Ｘ）＝ｄ（tanhX）/dX＝１−tanh²X ＝１−f²（Ｘ）（４）であるから、ｆ′（Ui）＝１−f₂（Ui）＝１−Yi² （５）である。

このDiとYiを基に、以下にように重みを更新する。基
本的には次の式を用いる。ここでηは重みを更新する刻
み巾であり、小さければ学習安定に収束する収束が遅く
なり、大きすぎると収束ひなくなるという性質を持った
パラメタである。

Wij（ｌ）^(t+1)＝Wij（ｌ）^(t)＋ΔWij（ｌ）
^(t) （６） ΔWij（ｌ）^(t)＝ηDi（ｌ）Yj （ｌ−１）（ｌ＝2,・・・,L）（７）しかし、次の式も良く用いられている。これは上式の
ΔWij（ｌ）^(t)を１次にデジタルローパスフィルタに通
したことになっており、αはその時定数を決めるパラメ
タである。

ΔWij（ｌ）^(t+1)＝ηDi（ｌ）Yj （ｌ−１）＋αΔWij（ｌ）^(t) （８）この後ろ向き処理の過程において必要となる演算はベ
クトル間の演算、或いは行列とベクトルとの演算であ
り、特にその中心となるのは各層のニューロンの重みを
要素とする重みと前記誤差ベクトルD_j（ｌ）との乗算である。この誤差
ベクトルは１層内に複数個のニューロンがある一般の場
合、誤差はベクトルとなる。

第５図（Ｅ）の左のフローチャートを説明する。

１層分の前向きの処理と後向きの処理が行われる。ま
ず、入力データI_Pをシフトレジスタ上にセットし、１層
分の前向き処理をシステムで行う。これは各層で行われ
るため、この前向き処理を層の数分だけ繰り返す。する
と出力データO_Pが出力されるので、これをシフトレジス
タ上にセットしする。そして、ステップ79から以下を出
力層のユニット分だけ並列に実行する。すなわち誤差D_i
（Ｌ）＝Y_i（Ｌ）−O_P（ｉ）を計算し、この誤差をトレ
イのｉ番目にセットする。そして出力層から入力層に向
かって各層毎に後向き処理を行う。この後向き処理は第
５図（Ｅ）の右上側に示されている。第Ｌ番目の層に関
して、この層の数はＮ（ｌ）であるからシフトレジスタ
長をＮ（ｌ）にする。そして以下の動作をこの前の層の
ユニット数だけ並列に実行する。すなわち、上記（２）
式を、ステップ83において実行する。ここで重要なのは
重みはW_ji（ｌ）となっており、これは重み行列のの要素になっている。そしてステップ84において、上記
（６），（７）あるいは（８）式を計算し、重みの更新
を行う。ステップ85で、求まった誤差D_i（ｌ−１）をト
レイのｉ番目に出力する。これは次の誤差を計算するた
め、ステップ84の動作に必要となる。第５図（Ａ）の右
下は第５図（Ｅ）の左のフローチャート、すなわち前向
き処理と後向き処理の連続処理を学習が習得するまで繰
り返すことを意味するフローチャートである。また、こ
のような処理において重みの更新と学習を安定にするた
めに重みの修正量の平滑化等の処理があるが、これらは
いずれも行列のスカラ倍及び行列同士の加減算からな
り、やはり、本ニューロコンピュータにおいて行える。
またシグモイド関数ユニット101はハードウエアで実現
するものとしているが、ソフトウエアで実現してもよ
い。また、学習の終了の反転手段103はホストコンピュ
ータ上のソフトウエアで実現してもよい。

以上のニューロンコンピュータをさらに第５図（Ｆ）
を用いて説明する。第５図（Ｆ）はエラーバックプロパ
ゲーションの学習を行う時の処理フロー図である。ここ
では、ベクトル表示を用いている。同図において（ｌ）は第ｌ層のニューロンベクトル、Ｗは同じく結合
係数、すなわち重み行列である。ｆはシグモイド関数、
ｅ（ｌ）は第ｌ層の出力側から逆向きに伝播してきた誤
差ベクトル、は重みの修正量である。入力信号が与えられると、ま
ず、３層である場合には、入力層はないものとすれば、
隠れ層の前向き処理を行う。それがである。このｕに非線形関数を施せば、次の層、すなわ
ち（ｌ＋１）層の入力となる。これは出力層の入力であ
るから、その前向き処理を行う。そして教師信号を入力
し、後向き処理になる。出力層においては教師信号と出
力信号の誤差ｅをｆの微分を掛けて後向き処理にする。
また中間層等の間の誤差は逆伝播してくる誤差信号に微
分をかけた変数に重み行列のをかけて求められる。誤差ベクトルの各要素にシグモイ
ドの微分をかけた値に前のの要素を掛けてこれよりを更新すればよい。このようにして、出力層の後向き処
理、及び隠れ層の後向き処理が行われる。前向き処理で
行う演算は、重みとの積、この結果ベクトルの各要素のシグモイド関数の
値の計算である。この計算は各ニューロンで並列に計算
できる。また後向き処理でも仕事は大きく分けて２あ
り、１つ目は教師信号と出力信号との誤差を順次変形し
ながら、後から前へ逆向きに伝播すること、また２つ目
はその誤差を基に重みを修正することである。この逆向
きの計算では重みによる乗算が必要になる。

とベクトルの積は前の実施例で述べている。すなわちバ
ックプパゲーションの学習を実現する再の重要な点は重
み行列のとベクトル乗算の効率な実現方法である。

さらに第５図（Ｇ）と（Ｈ）を用いて前向き積和計
算、及び後向き積和計算の実施例を説明する。前向き積
和演算は行列×ベクトルの計算で、特に行列は重みである。本発明で、行列ベクトル積を計算する場合、例えば、次の式に対して、重み行列の行とベクトルとの積が同時に行われる。この処理方式を第５図（ｇ）
を用いて説明する。重みは長方行列である。例えば、３×４の行列である。ベク
トルの各要素はトレイ上に入力される。T₁の時刻において、
X₁とW₁₁、X₂とW₂₂、X₃とW₃₃が各々のユニットで計算さ
れる。T₂に移るとベクトルの各要素は上に巡回シフトする。T₂においてW₁₂とX₂と
の積がU₁に足される。したがってU₁はこの時刻にはX₁×
W₁₁＋X₂×W₁₂となる。また、第２のユニットではW₂₃とX
₃が掛けられ、第３番目のユニットではW₃₄×X₄が掛けら
れる。T₃において、W₁₃とX₃が掛けられU₁に足し込まれ
る。W₂₄とX₄が掛けられ、U₂に加えられる。W₃₁とX₁が掛
けられU₃に足し込まれる。この時X₂は演算の対象からは
ずされている。T₄において、W₁₄とX₄、W₂₁とX₁、W₃₂とX
₂がそれぞれ同時に掛けられU₁、U₂、U₃にそれぞれ足し
込まれる。この場合、X₃は演算の対象外となっている。
この演算の対象外を考慮することによって長方行列とベ
クトルとの積が実行される。

Ｗの部分ベクトルWi^＊はPE_-iのローカルメモリ上にWi
iが先頭になるようにスキューされて格納されている。X
iはトレイにのってリング上を反時計回りに一回転す
る。UiはPE_-i内部のレジスタ上に累積される。

左端の状態でUi＝０の状態からスタートする。PE_-iは
自分の目の前にあるXjとWijと掛け合わせ、その結果をU
iに加算する。同時にXjは隣のトレイに隣接される（リ
ング上を反時計回りに循環する）。これを４回繰り返す
と全てのUiが同時に求まる。

Wiiがスキューされていること、Xiが全てトレイ中に
ある状態からスタートすること、Uiが全て同時に求ま
る。

第５図（Ｈ）は後向き積和計算の説明である。これは
転置行列と行ベクトル積、を計算する時のタイミング図である。この場合、ベクト
ルｖは前の層の誤差ベクトルに非線形関数の微分を掛け
た要素からなるベクトルである。

は求めらようとする次の層での逆伝播用の誤差ベクトル
である。本発明で重要なことは、であっても、前向き積和計算において利用されるメモリ
上のＷと同じ配置にしたままで演算できることである。

すなわち本発明では求めるべきのベクトルの巡回シフトによってなされる。演算するべ
きとの式は（10）式に従う。

上の式において示されるように、は転置されしかも、長方行列である。e₁はW₁₁×v₁＋W₂₁
×v₂＋W₃₁×v₃である。この演算を行うために、第５図
（Ｈ）において、時間区域T₁においては第１のユニット
（DSP）において、W₁₁とv₁の積が演算されている。これ
が０であるe₁に差し込まれる。そして、巡回シフトする
とT₂に移るが、e₁はT₂時刻においては演算の対象になっ
ていない。そしてT₃になると、３番目のユニットにおい
て演算対象となっている。すなわちW₃₁にv₃を掛けた値
が前の値に足し込まれるため、W₁₁×v₁に足し込まれ
る。そのため時間区域T₃においては、e₁の結果はW₁₁×v
₁＋W₃₁×v₃となる。そしてT₄に移ると、e₁は巡回シフト
として、第２番目のユニットで演算対象となる。ここ
で、e₁にはW₂₁×v₂が加えられるため、（10）式の行列
の第１行目とベクトルｖとの内積演算が実行され、その
演算結果がe₁に格納されることになる。

同様に第２行目とベクトルとの積はe₂を追えばよい。
T₁時刻にはW₂₂×v₂、T₂にはW₁₂×v₁、T₃では、e₂が遊び
になり、T₄でW₃₂×v₃の積が求まれ、各々の積の和とし
て計算される。

の第３行目とベクトルとの積はe₃を追えばよい。T₁においてはW₃₃×v₃、T₂に
おいてはそれにW₂₃×v₂が足し込まれ、T₃において、更
にW₁₃×v₁が足し込まれる。T₄はe₄は遊びとなる。

の第４行目とベクトルｖとの積はe₄を追えばよい。T₁時
刻ではe₄は遊びである。T₂ではW₃₄×v₃、T₃ではW₂₄×v₂
が足し込まれ、T₄において更にW₁₄×v₁が足し込まれ
て、計算ができる。このように本発明では、Ｗの部分ベ
クトルWi^＊は前と同様PE_-iのローカル目上にWiiが先頭
になるようにスキューされて格納されている。前と入れ
替わるのはeiとViである。つまり、eiはトレイ上を反時
計回りに循環しながら累積され、ViはPE_-i内部に常駐す
る。

左端の状態でej＝０からスタートする。PE_-iはViとWi
jとを掛け合わせ、その結果を自分の目の前にあるejに
加え込む。同時にこの更新されたejは隣のトレイに転送
される（リング上を反時計回りに循環する）。これを４
回繰り返すと全てのejが同時に求まる。

このように本発明のニューロコンピュータは層が何層
であっても実現でき、学習アルゴリズムの自由度が高い
という柔軟性を持つばかりでなく、DSPの速度そのまま
を利用でき、しかもそのDSPの演算においてオーバヘッ
ドがなく、高速性があり、しかもDSPによるSIMDが実行
できる。

第６図は本発明の第５の実施例説明図であり、アナロ
グデータによる行列の積を求めるものである。図中、第
２図で示したものと同一のものは同一の記号で示してあ
り、1dはデータ処理ユニット１の処理装置であり、例え
ばアナログ乗算器1eと積分器1fで構成され、2dはトレイ
２のデータ保持回路であり、例えばサンプル／ホールド
回路2fで構成され、２はトレイ２のデータ転送回路であ
り、例えばアナログスイッチ2gとバッファアンプ2hで構
成され、６はトレイ２にデータを設定する手段であり、
例えばアナログスイッチ6dで構成される。

本実施例の動作は本発明の原理図（第１図）で説明し
た動作と同じである。

第７図は本発明の第６の実施例説明図であり、帯行列
とベクトルとの乗算を示している。図中、第２図で示し
たものと同一のものは同一の記号で示してある。

本実施例の動作を第７図（Ｂ）を参照しつつ説明す
る。本発明では、ｍ×ｎ（ｎ≧ｍ≧１）で巾ｋのと要素数ｎのベクトルとの乗算結果（要素数ｍのベクトル）を求める場合において、第７図（Ａ）の如く、各々２
つの入力を持ち乗算機能と概乗算結果の累積機能を有す
るｍ個のデータ処理ユニット１と、ｎ個のトレイ２と、
前記各データ処理ユニット１に接続された入力データ供
給手段とから成る構成に於いて、第７図（Ｂ）に示す手
順で、第７図（Ｃ）及び第７図（Ｄ）のような時系列で
処理をするようにしている。従って、巾ｋの帯行列とベ
クトルとの乗算がｋに比例する処理時間で実行できる。

本実施例に於いて重要な異は、ベクトルを１回転させない事、及びベクトルをシフトレジスタ３上にセットする際に、第１の実施例
等と異なり、頂度帯が始まる位置にずらしておくことで
ある。すなわち、帯の開始位置から処理を開始する場合
は、ある方向にずらしながら積和演算を行えばｋに比例
する時間で処理が終了する。しかし、図示しない何らか
の事情で帯の途中に配置した状態から処理を開始する場
合は、始めにベクトルを一端までずらせばよいことは明らかであり、その場
合、シフトレジスタ３が双方向にシフト可能であること
が意味を持つのである。

即ち、例えば帯の中央から処理を開始する場合は、初
めに右にk/2（小数点以下切り捨て）だけずらし、以後
逆方向（この場合左）にずらしながら積和演算を行え
ば、合計3/2kに比例する時間で処理が終了する。

もし、シフトレジスタ３が双方向にシフト可能でなけ
れば、ベクトルを１回転させねばならないため、帯行列の巾ｋではなく
その大きさｎに比例する時間が必要になる。大規模な帯
行列の於いては、この差は非常に大きく、帯行列とベク
トルとの乗算が帯行列の巾ｋに比例する処理時間で実行
可能となることは本発明の方式の利点である。

第８図はトレイの構造を具体的に示す。

トレイは基本的には単なる１語のラッチであるが、DS
Pからのアクセスと、隣のトレイへの転送を１サイクル
で実行できる（ポストシフト）。

機能の切り替えは、アドレス線の下位ビットにより、デ
ータのアクセスと同時に行い、速度を向上させている。

一つのトレイはゲートアレイで約1200Basicセルの規
模であり、１チップに２〜４個入れることも可能であ
る。

また、トレイ中にワークレジスタを数ワード内蔵する
ことも可能である。

第９図は本発明の実施例を用いて、実際に構成された
ニューロコンピュータのブロック図である。

Sandyの基本構成はDSPの一次元トーラス（リング）結
合によるSIMD型マルチプロセッサである。

特徴的なのは、結合トポロジーや動作は１次元シスト
リックアレイと類似しているにも関わらず、SIMDとして
動作する事である。

各DSPと双方向バスで接続されている“トレイ”は、
転送機能を有するラッチであり、相互にリング状に接続
され、全体でサイクリックシフトレジスタを構成してい
る。以後このシフトレジスタをリングと呼ぶ。

各DSPは2K語の内部メモリと64語の外付けRAMを持ち、
内部メモリは１サイクルで、外部メモリは１〜２サイク
ルでアクセスできる。

外付けRAMは、プログラムやデータの初期ロード用
に、共通バスでホストコンピュータのVMEWバスに接続さ
れる。外部入力もバッファメモリを介してホストコンピ
ュータに接続されている。

第10図は本発明の実施例における学習時の時間空間チ
ャートであり、縦方向はプロセッサの数を示し、横方向
は時間を示す。Ｉは入力層のプロセッサの数、Ｈは隠れ
層のプロセッサの数、τはプロセッサの積和演算の時間
に対応する。

入力信号が隠れ層の前向き積和に要する時間は、入力
層のプロセッサの数Ｉと１つのプロセッサの積和に対応
する時間τとの積に比例する。次に、シグモイドの計算
が行われる。出力層においても出力層の前向き積和（2H
τ）とシグモイドが行われる。ここで、出力層のプロセ
ッサの数が隠れ層のプロセッサの数より少ないので、リ
ングの大きさ自体も小さくなる。次ぎに教師信号入力と
受信し、誤差計算を行い、誤差のバック・プロパゲーシ
ョンを行う。なお、この誤差計算は出力層のシグモイド
における誤差計算も含む出力層の後向き積和を行い、出
力層の重み更新を勾配ベクトル計算とローパスフィルタ
を介して行う。そして、隠れ層のシグモイドによる誤差
計算を経て、隠れ層においては、後向き積和は行わず隠
れ層の重み更新のみを行う。

〔発明の効果〕

以上説明した様に、本発明によれば従来の方法より広
い範囲の処理に対して、データ処理に伴うデータ転送に
よるオーバヘッド無しにデータを並列に処理出来る効果
を奏し、データ処理ユニットの台数に比例した高速なデ
ータ処理が実現出来ることにより、行列演算あるいはニ
ューロコンピュータ演算を行うデータ処理装置の性能向
上に寄与するところが大きい。

【図面の簡単な説明】

第１図（Ａ）は、本発明の原理構成図、第１図（Ｂ）は、本発明の動作フローチャート、第１図（Ｃ）は、本発明の動作概要図、第１図（Ｄ）は、本発明の動作タイムチャート、第２図（Ａ）は、第１の実施例の構成図、第２図（Ｂ）は、第１の実施例の動作フローチャート、第２図（Ｃ）は、第１の実施例の動作概要図、第２図（Ｄ）は、第１の実施例の動作タイムチャート、第３図（Ａ）は、第２の実施例の構成図、第３図（Ｂ）は、第２の実施例の動作フローチャート、第３図（Ｃ）は、第２の実施例の動作概要図、第３図（Ｄ）は、第２の実施例の動作タイムチャート、第４図（Ａ）は、第３の実施例の構成図、第４図（Ｂ）は、第３の実施例の動作フローチャート、第４図（Ｃ）は、第３の実施例の動作概要図、第４図（Ｄ）は、第３の実施例の動作タイムチャート、第４図（Ｅ）は、第３の実施例の詳細動作フローチャー
ト、第５図（Ａ）は、第４の実施例の構成図、第５図（Ｂ）は、第４の実施例のニューロンモデル、第５図（Ｃ）は、第４の実施例のネットワーク、第５図（Ｄ）は、第４の実施例の前向き処理フローチャ
ート、第５図（Ｅ）は、第４の実施例の学習処理フローチャー
ト、第５図（Ｆ）は、Sandyでエラーバックプロパゲーショ
ン学習を行うときの処理フローチャート、第５図（Ｇ）は、Sandyで行列ベクトル積を計算するときのタイムチャート、第５図（Ｈ）は、転置行列での行列ベクトル積を計算するときのタイムチャート、第６図（Ａ）は、第５の実施例の構成図、第６図（Ｂ）は、第５の実施例の動作フローチャート、第６図（Ｃ）は、第５の実施例の動作概要図、第６図（Ｄ）は、第５の実施例の動作タイムチャート、第７図（Ａ）は、第６の実施例の構成図、第７図（Ｂ）は、第６の実施例の動作フローチャート、第７図（Ｃ）は、第６の実施例の動作概要図、第７図（Ｄ）は、第６の実施例の動作タイムチャート、第８図は、トレイの構造を具体的に示す図、第９図は、本発明の実施例を用いて実際に構成されたニ
ューロコンピュータのブロック図、第10図は、本発明の実施例における学習時の時間空間チ
ャート、第11図（Ａ）は、共通バスSIMD方式の原理構成図、第11図（Ｂ）は、共通バスSMD方式による行列ベクトル
積の動作フローチャート、第12図（Ａ）及び第12図（Ｂ）は、リングシストリック
方式による行列ベクトル積の動作原理図、第12図（Ｃ）は、リングシストリック方式による行列ベ
クトル積の動作原理図である。１……データ処理ユニット、２……トレイ、３……シフトレジスタ、４……記憶装置、５……同期手段、６……データ設定手段、７……長さ変更手段、 11……データ処理ユニット１の入力、 12……データ処理ユニット１の第２の入力、 21……トレイ２の第１の入力、 22……トレイ二の第１の出力、 23……トレイ２の第２の出力、 24……トレイ２の第２の入力、 82……PE91の第１の入力、 83……PE91の第１の出力、 84……PE91の第２の入力、 85……PE91の第２の出力、 91……PE、 92……PE91の入出力、 93……共通バス．

───────────────────────────────────────────────────── フロントページの続き (72)発明者浅川和雄神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開昭63−187377（ＪＰ，Ａ) 特開昭62−42260（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 15/18

Claims

(57)【特許請求の範囲】

【請求項１】各々少なくとも一つの入力を持つ複数個の
データ処理ユニットと、各々第１の入力及び出力を持ちかつ各々データ保持及び
データ転送を行う複数個のトレイであって、前記トレイ
の全部又はその一部が各々前記データ処理ユニットの第
１の入力に接続された第２の出力を有するものと、前記接続するトレイの第１の入力及び出力が接続されて
成り、サイクリックシフトレジスタであるシフト手段と
を具備し、前記シフト手段上のデータ転送と、前記トレイと前記デ
ータ処理ユニット間のデータ転送と、前記データ処理ユ
ニットによるデータ処理とを同期して行うことにより、
行列演算あるいはニューロコンピュータ演算を行うこと
を特徴とする並列データ処理方式。
【請求項２】前記シフト手段の長さを変更する手段を有
すことを特徴とする特許請求の範囲第１項に記載の並列
データ処理方式。
【請求項３】前記シフト手段の長さを変更する手段は、
入力切り換え手段であることを特徴とする特許請求の範
囲第２項記載の並列データ処理方式。
【請求項４】前記シフト手段の長さを変更する手段は、
外部のデータ供給手段と、入力選択手段とからなること
を特徴とする特許請求の範囲第２項記載の並列データ処
理方式。
【請求項５】前記データ処理ユニットが第１の出力を持
ち、前記トレイが該第１の出力に接続された第２の入力
を持ち、前記データ処理ユニットから前記トレイにデー
タを書き込む手段を有することを特徴とする特許請求の
範囲第１項乃至第４項のいずれかに記載の並列データ処
理方式。
【請求項６】前記データ処理ユニットと前記トレイ間の
データ転送路は入力と出力で共通に利用するバスである
ことを特徴とする特許請求の範囲第５項記載の並列デー
タ処理方式。
【請求項７】データの処理結果を更に処理するに際し、
前記処理結果を前記書き込み手段を用いて前記トレイに
転送することを特徴とする特許請求の範囲第５項又は第
６項に記載の並列データ処理方式。
【請求項８】前記トレイが各々相互に接続された第３の
入力及び出力を備え、前記シフト手段又は双方向シフト
レジスタであることを特徴とする特許請求の範囲第１項
乃至第７項のいずれかに記載の並列データ処理方式。
【請求項９】前記双方向シフトレジスタを構成する前記
各トレイ間のデータ転送路は入力と出力で共通に利用さ
れるバスであることを特徴とする特許請求の範囲第８項
記載の並列データ処理方式。
【請求項１０】前記双方向シフトレジスタ上をデータを
双方向に転送することを特徴とする特許請求の範囲第８
項又は第９項に記載の並列データ処理方式。
【請求項１１】ベクトルの各要素を巡回させるシフト手
段であって、内部はその各要素を保持する機能および転
送機能を有するトレイ手段と、前記行列の各行に対応して存在し、少なくとも２入力間
の乗算とその乗算結果の累積機能を有するデータ処理ユ
ニット手段と、前記各データ処理ユニット毎に存在し、前記行列の各行
の要素を順番に読み出すことが可能な記憶手段とを有
し、データ処理ユニット手段と、データを巡回シフトさせる
前記トレイ手段とを分離することにより、各データ処理
ユニット手段が、巡回シフトしてくるベクトルの要素と
対応する前記記憶手段からの行列要素とを乗算し、その
乗算結果を累積することにより、行と列の数が異なる長
方行列とベクトルとの積を演算することにより行う行列
演算あるいはニューロコンピュータ演算を行うことを特
徴とする並列データ処理方式。
【請求項１２】前記トレイ手段は、巡回シフトの長さを
変更するためのバイパス手段を有することを特徴とする
特許請求の範囲第11項記載の並列データ処理方式。
【請求項１３】前記トレイ手段内のシフトレジスタの長
さをｎにし、そのｎの数に等しい要素からなるベクトル
を前記各トレイにセットし、前記データ処理ユニット手
段のそれぞれが対応するトレイと記憶手段とからそれぞ
れベクトルの要素及び行列の要素とを受け取り掛け合わ
せ累積し、その後、そのベクトルの要素を巡回する動作
をｎ回繰り返した後、結果をトレイ手段に転送し、その
巡回シフトのシフト長をｎからｍにし、同様な動作をｍ
回繰り返すことにより、長方行列とベクトルとの積にさ
らに異なる長方行列を掛けることを特徴とする特許請求
の範囲第11項記載の並列データ処理方式。
【請求項１４】長方行列の転置行列とベクトルとの積を
計算する場合、その行列を構成する部分行ベクトルを前
記各データ処理ユニット手段に接続された記憶手段中に
格納し、演算途中に生じる部分和を前記トレイ手段の各
トレイ中のデータ保持回路上に累積し、前記トレイ上の
データと記憶手段からのデータとの積をとってその部分
和をトレイに転送し、巡回シフトすることにより、前記
転置行列とベクトルとの積を計算することを可能とする
特許請求の範囲第11項記載の並列データ処理方式。
【請求項１５】ニューラルネットにおいて、前記長方行
列の各行を要素のニューロンモデルに接続する結合枝の
重みに対応させたとき、前記データ処理ユニット手段
は、前記トレイ手段の各データ保持回路にある入力変数
のそれぞれと対応する記憶手段からの前記重みとを掛
け、トレイ手段内で巡回シフトする動作を繰り返すこと
により、そのニューロンモデルに接続された結合枝の重
みとその結合枝への入力変数との積の総和を求め、その
後、非線形関数を施す処理部を有し、ニューラルネット
の前向き処理を実行することを可能とする事を特徴とす
る特許請求の範囲第11項記載の並列データ処理方式。
【請求項１６】前記非線形関数はシグモイド関数である
ことを特徴とする特許請求の範囲第15項記載の並列デー
タ処理方式。
【請求項１７】前記ニューラルネットは、少なくとも３
層構造の階層型ニューラルネットワークであることを特
徴とする特許請求の範囲第11項記載の並列データ処理方
式。
【請求項１８】階層型ニューラルネットワークにおける
逆伝播学習則の後ろ向き処理であって、出力層からの出
力信号と教師信号との誤差を入力層に向けて通常の信号
の流れる向きと逆方向に伝播させる処理において、逆伝
播して来る誤差信号を要素とするベクトルと前記前向き
処理において重みを要素とする重み係数行列Ｗの転置行
列WTを請求項15記載の方式、すなわち、行列の転置行列
とベクトルとの積を求める方式に従って、演算途中の部
分和をトレイ手段上で巡回シフトしながら、記憶手段に
格納された重み係数行列の各要素とデータ処理ユニット
手段内の誤差ベクトルとの各要素との積を求めて部分和
に加え、その結果を部分和として前記トレイ手段上に残
すことにより、転置行列×ベクトルとの積を求める処理
を後向き積和計算として実行することにより逆伝播学習
則を実行することを可能とすることを特徴とする特許請
求の範囲第11項乃至第17項のいづれかに記載の並列デー
タ処理方式。
【請求項１９】前記データ処理ユニット手段の処理装置
は、データがアナログである場合には、アナログ乗算器
と、積分器で構成され、前記トレイ手段の各トレイのデ
ータ保持回路はサンプルホールド回路で構成され、トレ
イ手段のデータ転送回路はアナログスイッチとバッファ
アンプで構成されることを特徴とする特許請求の範囲第
１項乃至第18項のいづれかに記載の並列データ処理方
式。
【請求項２０】行列がｍ×ｎで幅ｋの帯行列Ａと要素数
ｎとのベクトルｘとの乗算を行う場合、前記ベクトルｘ
を巡回シフトによって１回転させないで、ベクトルｘの
要素トレイ手段内でシフトする際に、行列の帯が始まる
始点を任意に指定できることを特徴とする特許請求の範
囲第１項乃至第19項のいづれかに記載の並列データ処理
方式。
【請求項２１】前記シフトの方向は双方向にできること
を特徴とする特許請求の範囲第20項記載の並列データ処
理方式。
【請求項２２】前記データ処理ユニット手段とデータ保
持機能を有するトレイの２つを分離することにより、ト
レイ手段間のデータ転送と、データ処理ユニット手段に
よるデータ処理とを同時並行的に行い、前記トレイ手段
間のデータ転送に要する時間を前記データ処理ユニット
手段がデータ処理に有する時間よりも短くすることでデ
ータ転送時間をデータ処理時間の影に隠すことを特徴と
する特許請求の範囲第１項乃至第21項のいづれかに記載
の並列データ処理方式。