JPH04128982A

JPH04128982A - プロセッサエレメント、プロセッシングユニット、プロセッサ、及びその演算処理方法

Info

Publication number: JPH04128982A
Application number: JP2250733A
Authority: JP
Inventors: Noritsugu Matsubishi; 松菱　則嗣; Yoshio Tokuno; 徳野　芳雄; Yutaka Mazaki; 裕真崎; Masato Yamazaki; 真人山崎
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1990-09-20
Filing date: 1990-09-20
Publication date: 1992-04-30
Anticipated expiration: 2016-11-12
Also published as: EP0477011B1; JP3228927B2; DE69129723D1; US5235536A; DE69129723T2; EP0477011A3; EP0477011A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、ディジタル化された音声データや画像データ
等の逐次データをプログラムに従って演算処理し、その
演算結果を出力するディジタル信号処理プロセッサ（以
下、ＤＳＰという）等において、そのプロセッサを構成
する演算処理要素であるプロセッサエレメント（以下、
ＰＥという〉と、そのＰＥを複数個用いて構成したグロ
セッシングユニット（以下、ＰＵという）と、そのＰｔ
Ｊを複数個設けて処理の並列実行を行う並列処理可能な
プロセッサと、その演算処理方法に関するものである。

（従来の技術）従来、このような分野の技術としては、次のような文献
に記載されるものがあった。

文献１　：１９９０年電子情報通信学会春季全国大会予
稿集、５Ａ−４−２、崎山等 ”２００ＭＩＰＳ画像処理マルチプロセッサ”、Ｐ、１−４１５〜１−４１文献２　；　１９９０年電子情報通信学会春季全国大会
予稿集、５Ａ−４−４、太田等 “並列信号処理システム用ベクトルプロセッサの設計”、Ｐ、１−４１９〜文献３−１；信学会集積回路研究会誌ｌＣＤ９Ｏ−１５
（１９９０）山口等“高連動画像プロセッサＫＺ５０００”　、Ｐ。

文献３−２；ＮＩＫＫＥＩ　　ＥＬＥＣＴＲＯＮＩＣ８
［４８２コ　（１９８９−９−１８）“ソフトウェアで
画像圧縮を処理する。テレビ電話用通信ワークステーション°’　Ｐ、１００−１０１文献３−３；ＮＩＫＫＥＩ　　ＥＬＥＣＴＲＯＮＩＣ３
［４８１］　　（１９８９−９−４＞“テレビ電話の動
き保証処理に使う３２０ＭＩＰＳのＤＳＰを開発”Ｐ、７文献４；信学会集積回路研究会誌ｌＣＤ８９−６　（１
９８９）加納等“１６ｂ、２５ｎｓ、ビデオ／画像信号
処理プロセッサ“Ｐ、３７−４４従来、前記文献４に記載されているように、積和演算が
支配的である信号処理のためのプロセッサは、主に、音
声などの一次元信号の処理を対象とする場合、算術論理
演算器のばかに専用乗算器を設けた単一のＰＥ構成での
パイプライン処理により高速化を計ってきた。また、前
記文献１．２３−１〜３−３に記載されているように、
近年では画像などのように２次元、３次元の広がりを持
つ信号の処理や、より高速な演算処理を対象とすること
を目的に、ＰＥを複数個設けた並列処理構成による高速
化が試みられている。このような構成の一例を第２図（
ａ）、（ｂ）、（ｃ）に示す。

第２図（ａ）〜（ｃ）は、前記文献３−１．３−２に記
載された従来技術の説明図であり、同図（ａ＞は前記文
献３−１に記載された従来の画像信号処理用プロセッサ
の構成ブロック図、同図（ｂ）は同図（ａ）中のＰＥの
構成ブロック図、同図（ｃ）は前記文献３−２に記載さ
れた従来における３段パイプラインを４本並列処理させ
るための処理構成図である。

第２図（ａ）に示す画像信号用プロセッサは、高速の信
号処理を並列に実行できるアレー・プロセッシング・ユ
ニット（以下、ＡＰＵという）１０、プログラム実行用
の中央処理装置（以下、ＣＰＵという）２０、メモリコ
ントローラ２１で制御されるキャッシュメモリ２２、ア
ドレス・発生ユニット２３、入出力ポート２４、及びバ
スＡＯ１Ａｌ、Ｄｏ、Ｄｉ、ＤＡ、ＤＤ、ＰＡ、ＰＤ等
で構成されている。

ＡＰＵｌｏは、入力フォーマツタ１１と、４行×４列か
らなるＰＥ１２−０〜１２−３．１２１０〜１２−１３
．１２−２０〜１２−２３．１２−３０〜１２−３３と
、並列アダー１３−○〜１３−３と、出力フォーマツタ
１４と、ＰＥ制御用のコントロール・フォーマツタ１５
と、及ヒ並列アダー１３−０〜１３−３のデータを一時
記憶するためのアキュムレータ（以下、ＡＣＣという）
１６とで、構成されている。

各ＰＥ１２−０〜１２−３３の内部構成は、第２図（ｂ
）に示されるように、セレクタ３１，３２、乗算回路３
３、加算回路３４、及び入出力マルチプレクサ３５より
構成されている。なお、第２図（ｂ）中のＡ、Ｂはバス
、Ａ、Ｄ　　・ＳＬ’　　　　Ｓｌ’ Ｂ、Ｄ、は入力データ、ＡＢＳｌ’　　　　５１　　　　　　　　　　　　　　　Ｓ
ｏｏ　　　５ＯＩＤ　　は出力データである。

　Ｏ以上のように構成される画像信号処理用プロセッサでは
、ＡＵＩＯを構成する４行×４列のＰＥ１２−０〜１２
−’３３により、画像信号処理が実行される。４行×４
列のＰＥ１２−０〜１２−３３は、接続形態としてパラ
レル、並びにパイプラインの２つを実現できる。パラレ
ル接続は２個のＰＥエレメントを１組として２次元離散
コサイン変換（以下、ＤＣＴという〉等のためのバタフ
ライ演算を実行するために用いられる。一方、パイプラ
イン接続では、ＰＥ１２’−０〜１２−３３は行方向の
パイプライン構成を取り、単一のＰＥだけでは１クロツ
ク内に実行することのできない高度な処理を１７０ツク
で実行する。

インターフェイスとしての機能を有する入力フォーマツ
タ１１及び出力フォーマツタ１４は、ＰＥ　１２−０〜
１２−３３とキャッシュメモリ２２との信号変換を実行
し、さらに並列アダー１３−〇〜１３−３はＡＣＣ１６
を介して加算結果をバスＰＤ上へ出力できる。これによ
り複雑な条件を有する任意ブロックサイズの２次元適応
フィルタや動き補償のためのブロック・マツチング方式
、グラデイエンド方式等の各種信号処理を高速に実行す
ることができる。

例えば、テレビ電話の画像圧縮を処理する場合、第２図
（ａ）に示す画像処理用プロセッサの１千ツブでテレビ
電話の動き補償が行える。即ち、第２図（ｃ−１）に示
すように、テレビ電話の動き補償で用いるブロック・マ
ツチング法では、第２図（ｃ−２＞のような演算を組合
わせて３段のパイプラインを構成し、これを４本並列動
作させる。

国際標準方式の場合、１６　Ｘ、　ｌ　６画素からなる
ブロック毎に、動きを補正する。現フレームの画素値Ａ
と前フレームの値Ｂの差の絶対値を、画素毎に計算し、
１６Ｘ１６画素分合計する。このようにしてブロック間
の差を求める。この演算に１本のパイプラインを割り当
てる。上下左右±７画素の範囲でブロックをずらしなが
ら、比較部２５で比較して動きベクトルを求め、補正を
行う。ブロックの位置をずらしたときは、別のパイプラ
インを使う。

（発明が解決しようとする課題）しかしながら、上記構成のＰＥ、及びそれを用いたプロ
セッサ、並びにその演算処理方法では、次のような課題
があった。

従来のＰＥでは、第２図（ａ）、（ｂ）に示すように、
専用の乗算回＃１３３及び加算回路３４をそれぞれ有す
る１６個のＰＥ１２−０〜１２−３゜・・・１２−３０
〜１２−３３が搭載され、積和演算処理では１６並列に
処理することが可能である。

ところが、例えば動きベクトルを検出する際に用いられ
るような差分絶対値の累積処理では、第２図（ｃ）に示
すように、４個のＰＥを組合わせたパイプライン構成に
より実行するため、４並列の処理となってしまい、それ
により並列性が損なわれ、さらに専用の乗算回路３３も
使用されないため、未使用の演算器が生じることによっ
てハードウェア上の無駄が生じ、回路規模の増大を招く
という問題があり、それらを解決することが困難であっ
た。

本発明は前記従来技術が持っていた課題として、差分絶
対値の累積処理において並列性が損なわれて高速化処理
が困難になる点と、未使用の演算器が生じて無駄となり
、それによって回路規模の増大を招くという点について
解決したＰＥ、ＰＵ、プロセッサ及びその演算処理方法
を提供するものである。

（課題を解決するための手段）前記課題を解決するために、第１の発明は、ディジタル
データである第１の入力データと第２の入力データとの
差分絶対値を出力するＰＥにおいて、前記第１の入力デ
ータと正または負の加算結果とを選択的に入力する第１
の入力手段と、前記第２の入力データを入力する第２の
入力手段と、前記第１の入力手段より入力された第１の
入力データ及び負の加算結果をそれぞれビット反転して
出力し、かつ正の加算結果をそのまま出力するビット反
転手段と、前記ビット反転手段の出力と前記第２の入力
手段の出力とを加算して加算結果及びその加算結果の正
、負を示す信号をそれぞれ出力する加算手段と、前記加
算手段から出力される加算結果を記憶する記憶手段とを
備えている。

前記加算手段は、前記負の加算結果が前記ビット反転手
段によりビット反転されると、その出力に対して論理“
１″を加え、前記正の加算結果がそのまま前記ビット反
転手段より出力されると、その出力を差分絶対値として
出力する構成にしたものである。

第２の発明は、第１の発明のＰＥにおいて、前記記憶手
段に記憶された加算結果を前記入力手段を介して前記ビ
ット反転手段へ与える構成にしている。

第３の発明は、第２の発明のＰＥにおいて、前記第１の
入力手段をセレクタで構成している。

第４の発明は、第３の発明のＰＥにおいて、前記セレク
タは、該セレクタへの入力データ群の入力タイミングの
１／２のタイミングで該セレクタ出力を切換える構成に
している。

第５の発明は、ディジタルデータである第１の入力デー
タと第２の入力データとの差分絶対値の累積値を出力す
るＰＥにおいて、前記第１の入力データと正または負の
加算結果とを選択的に入力する第１の入力手段と、前記
第２の入力データを入力する第２の入力手段と、前記第
１の入力手段より入力された第１の入力データ及び負の
加算結果をそれぞれビット反転して出力し、かつ正の加
算結果をそのまま出力するビット反転手段と、前記ビッ
ト反転手段の出力と前記第２の入力手段の出力とを加算
して加算結果及びその加算結果の正、負を示す信号をそ
れぞれ出力する加算手段と、前記加算手段から出力され
る加算結果を記憶する第１の記憶手段と、論理“０″に
初期設定される第２の記憶手段とを備えている。

前記加算手段は、前記負の加算結果が前記ビット反転手
段によりビット反転されると、その出力と前記第２の記
憶手段の内容との和に論理“１”を加え、前記正の加算
結果がそのまま前記ビット反転手段より出力されると、
その出力と前記第２の記憶手段の内容との和を差分絶対
値の累積値として前記第２の記憶手段に記憶させる構成
にしている。

第６の発明は、第５の発明のＰＥにおいて、前記第１の
記憶手段に記憶された加算結果を前記第１の入力手段を
介して前記ビット反転手段へ与え、前記第２の記憶手段
の内容を前記第２の入力手段を介して前記加算手段へ与
える構成にしている。

第７の発明は、第６の発明のＰＥにおいて、前記第１及
び第２の入力手段を第１及び第２のセレクタでそれぞれ
構成している。

第８の発明は、第７の発明のＰＥにおいて、前記第１及
び第２のセレクタは、該セレクタへの入力データの入力
タイミングの１／２のタイミングで該セレクタ出力を切
換える構成にしている。

第９の発明は、ＰＵにおいて、第５の発明または第８の
発明のＰＥを（ｎ＋１）個備え、前記第１のＰＥから第
ｎのＰＥの各入力側を入力バス群に、各出力側を出力バ
ス群にそれぞれ接続すると共に、前記第ｎ＋１のＰＥの
入、出力側を前記出力バス群に接続する。そして、Ｂｏ
ｏｔｈ　（ブース）アルゴリズムに従い、各２のべき乗
項を前記第１から第ｎのＰＥによってそれぞれ算出し、
前記第ｎ＋１のＰＥによりシフト加算することによって
乗算または乗算累積処理を行い、かつｎ個並列の算術論
理累積処理を行う構成にしている。

第１Ｏの発明は、並列信号の処理可能なプロセッサにお
いて、第９の発明のＰＵをｍ個備え、前記第１のＰＵか
ら第ｍのＰＵの各入力側を入力データパス群に、各出力
側を出力データパス群にそれぞれ接続し、ｍＸｍマトリ
クスの加減算、乗算、論理演算及びその累積処理を行う
構成にしている。

第１１の発明は、ＰＥを用いた演算処理方法において、
第１の入力データを所定ビットシフトするシフタと、前
記シフタの出力または第１のレジスタの出力を選択出力
する第１のセレクタと、第２の入力データまたはデータ
出力用の第２のレジスタの出力を選択出力する第２のセ
レクタと、前記第１及び第２のセレクタ出力を入力して
演算処理を行い、その演算結果を前記第１及び第２のレ
ジスタへ出力する演算手段とを用い、次のような処理を
行う。

即ち、モード信号により設定される第１の演算処理モー
ドにおいて、第１のステージでは、前記第１のセレクタ
が前記シフタ出力を選択出力し、前記第２のセレクタが
前記第２の入力データを選択出力し、該第１及び第２の
セレクタ出力を前記演算手段により演算してその演算結
果を前記第１のレジスタに格納する。第２のステージで
は、前記第１及び第２のセレクタがそれぞれ前記第１及
び第２のレジスタ出力を選択出力し、その出力を前記演
算手段で累積処理し、その処理結果を前記第２のレジス
タに格納し、前記第１及び第２のステージを１回または
複数回繰り返し実行する。さらに、前記モード信号によ
り設定される第２の演算処理モードにおいて、前記第１
のセレクタが前記シフタ出力を選択出力するよう固定し
、前記第２のセレクタが前記第２のレジスタ出力を選択
出力するよう固定し、前記演算手段によって前記シフタ
出力を累積処理し、その処理結果を前記第２のレジスタ
に格納するステージを１回または複数回繰り返し実行す
るようにしたものである。

第１２の発明は、第１１の発明の演算処理方法において
、前記第１の演算処理モードにおける前記第１のステー
ジから前記２のステージへの前記第１、第２のセレクタ
の切換えを、前記第１、第２の入力データにおける入力
タイミングの１／２のタイミンングで行うようにしてい
る。

（作用）第１〜第３の発明によれば、以上のようにＰＥを構成し
たので、第１及び第２の入力データが供給されると、該
第１の入力データは入力手段を介してビット反転手段へ
送られ、そのビット反転手段でビット反転処理されて加
算手段へ送られる。

加算手段では、ビット反転手段の出力と第２の入力デー
タとの加算処理を行い、その結果を記憶手段へ記憶させ
る。これにより、無駄のない効率の良い差分絶対値の算
出が行える。

第４の発明によれば、入力データ群の入力タイミングの
１７２のタイミングでセレクタ出力が切換わるので、入
力データ群の２倍の処理速度で差分絶対値が算出される
。

第５〜第７の発明によれば、第１の入力データと第１の
記憶手段に記憶された加算結果とのいずれか一方が第１
の入力手段を介してビット反転手段へ送られ、そのビッ
ト反転手段でビット反転処理されて加算手段へ送られる
。第２の入力データと第２の記憶手段に記憶された加算
結果とのいずれか一方が第２の入力手段により選択され
て加算手段へ送られる。加算手段では、ビット反転手段
の出力と第２の入力手段の出力との加算処理を行い、そ
の加算結果を第１及び第２の記憶手段へ出力する。これ
により、同一のビット反転手段及び加算手段が繰り返し
用いられて累積演算処理が行われ、それによってＰＥの
独立性（並列処理性）と簡素化が図れる。

第８の発明によれば、入力データの入力タイミングの１
／２のタイミングで第１及び第２のセレクタの出力が切
換わるので、入力データの１／２のタイミングで累積演
算の処理が行え、それによって処理速度の高速化が図れ
る。

第９及び第１０の発明によれば、乗算実行時において各
ＰＥがＢｏｏｔｈアルゴリズムに従って演算処理を行う
ので、各ＰＥの独立性（並列処理性）と簡素化が図れ、
それによって並列性が高く、ＰＥに無駄のない並列処理
が行える。

第１１の発明によれば、モード信号により設定される第
１及び第２の演算処理モードにおいて、同一の演算手段
が繰り返し用いられ、それによって演算処理の簡単化と
処理速度の高速化が図れる。

第１２の発明によれば、第１及び第２のセレクタが、第
１及び第２の入力データにおける入力タイミングの１／
２のタイミングで切換えられるので、入力データの１／
２のタイミングで演算処理を行え、それによって演算処
理のより高速化が図れる。

従って、前記課題を解決できるのである。

（実施例）第１Ｑ去施倒第１図は、本発明の第１の実施例を示すＰＥの構成ブロ
ック図である。

このＰＥ１００は、ＰＥ全体を制御する制御回路１１０
を有している。制御回路１１０は、バスを介して与えら
れる第３の入力データｘ　（＝ｘ”ｋ＋１．　Ｘ２に、
＞（２ｋ　　ｌと、外部から供給されるモード信号ｍｄ
及びタロツクｃｋと、キャリ出力ｃｏとを入力し、ＰＥ
の内部回路を制御するための制御信号ｓＯ〜ｓ５をそれ
ぞれ所定のタイミンクで出力する機能を有し、論理回路
や読出し専用メモリ（以下、ＲＯＭという）等で構成さ
れている。この制御回Ｂ１１０には、シフタ１２０、第
１．第２の入力手段である第１．第２のセレクタ１３０
，１４０、演算手段１２０、及び第１゜第２の記憶手段
である第１．第２のレジスタ１６０．１７０が接続され
ている。

シフタ１２０は、第１の入力データＹを入力し、制御信
号ｓＯによって０ビツトシフト左１ビツトシフト及び０
を出力する回路て′あり、その出力側にはセレクタ１３
０を介して演算手段１５０の一方の入力側が接続されて
いる。セレクタ１３０は、シフタ１２０の出力と第１の
レジスタ１６０の出力とを入力し、そのいずれか一方を
制御信号ｓ１により選択して演算手段１５０の一方の入
力側に与える機能を有している。第２のセレクタ１４０
は、第２の入力データＭと、第２のレジスタ１７０の出
力とを入力し、そのいずれが一方を制御信号ｓ２により
選択して演算手段１５０の他方の入力側に出力する機能
を有している。

演算手段１５０は、セレクタ１３０の出力側に接続され
たビット反転回路１５１と、該ビット反転回路１５１及
びセレクタ１４０の出力側に接続された加算器１５２と
で、構成されている。ビット反転回路１５１は、第１の
セレクタ１３０の出力を入力し、制御信号ｓ３によって
入力の全ビットを反転させ、その反転結果を加算器１５
２へ与える回路である。加算器１５２は、ビット反転回
路１５１の出力と第２のセレクタ１４０の出力とを入力
し、ブースエンコード値の正負を表す制御信号Ｓ３をキ
ャリ入力ｃｉとして入力し４ビット反転回路１５１の出
力及び第２のセレクタ１４０の出力に対する加算処理を
行い、その加算結果を第１及び第２のレジスタ１６０．
１７０に与えると共にキャリ出力ＣＯを制御回路１１０
へ与える機能を有してる。

第１のレジスタ１６０は、制御信号ｓ４に基づき加算器
１５２の出力を一時記憶し、その記憶内容を第１のセレ
クタ１３０へ出力する回路である。

第２のレジスタ１７０は、制御信号ｓ５に基づき、加算
器１５２の出力を一時記憶し、その記憶内容を第２のセ
レクタ１４０へ与えると共に出力データＱとしてバスへ
出力する機能を有している。

第３図は、第１図のＰＥ１００を用いた差分絶対値累積
処理のタイミングチャートであり、この図を参照しつつ
ＰＥ１００の演算処理方法について説明する。

第１及び第２の入力データＹ、Ｍに対する差分絶対値の
累積演算は、０・＝Σ１Ｍ　、−Ｙ　。

１　　、　　　１　　　１・・・・・・（１）で表わされる。説明の簡単化のために、ｉ＝１〜３とす
ると、（１）式は、次式（２）のようになる。

０１＝１Ｍ１−Ｙ１１＋１Ｍ２−Ｙ２＋　ｌ　Ｍ３　Ｙ３　ｌ　　　　　・・・・・・（２）
この（２）式の動作を示したものが、第３図である。

第１の入力データＹ１〜￥３はシフタ１２０を経由して
第１のセレクタ１３２、第２の入力データＭ□〜Ｍ３は
第２のセレクタ１４に、それぞれマシンサイクルＭＣＩ
〜ＭＣ７・・・・・・の１回置きに順次入力される。第
１のマシンサイクルＭＣＩでは、入力データＹＭ　　が
、制御信号ｓｌ、ｓ１・　　１２で制御される第１．第２のセレクタ１３０，１４０で
選択され、ビット反転回路１５１及び加算器１５２によ
り、Ｍｌ−Ｙｌが実行される。ビ・ント反転回路１５１
及び加算器１５２での減算Ｍ。

Ｙ　の実行は、制御信号Ｓ３によるビット反転回路１５
１でのビット反転及び加算器１５２へのキャリ入力Ｃ１
、即ちＭ１＋ｙ　１＋１と行なわれる。

第２のマシンサイクルＭＣ２では、Ｍｌ−Ｙｌの減算結
果が第１のレジスター６０に入力される。

これと同時に、今度は、第１．第２のセレクタ１３０．
１４０において、第１．第２のレジスタ出力が選択され
、ビット反転回路１５１及び加算器１５２で絶対値累積
加算が実行される。絶対値累積加算は、制御回路１１０
において加算器１５２のキャリ出力ＣＯを監視し、減算
結果ＭニーＹ１が負である場合、前述の方法で減算を実
行することにより行う。

第３のマシンサイクルＭＣ３では、前記の累積加算結果
が第２のレジスター７０に入力され、第１のマシンサイ
クルＭＣＩと同様に減算処理Ｍ２−Ｙ　　が実行される
。このように、以上の処理動作を繰り返すことにより第
７のマシンサイクルＭＣ７において（２）式の結果であ
る出力データＯ１が得られる。この第１．の実施例では
、累積演算処理時において同一の演算手段１５０を繰り
返し用いることにより、ＰＥ１００の独立性（並列処理
性）が向上し、それによって演算処理の高速化が可能に
なると共に、ＰＥ１００の構成が簡素化され、それによ
って回路規模の縮小化が可能となる。

以上、この第１の実施例では、差分絶対値累積処理につ
いて説明したが、第１図と同一の回路構成を用い、制御
信号Ｓ３でビット反転回路１５１の働きを反転出力しな
いように固定することにより、第１及び第２の入力デー
タＹ、Ｍに対する差分累積処理も実行できる。

また、ＰＥ１００において、演算手段１５０を例えば算
術論理演算器（以下、ＡＬＵという）に置き換えること
により、上記と同様の演算処理が可能である。

第λΩ大施泗第４図は、本発明の第２の実施例を示すもので、第１図
のＰＥ１００を複数個用いて乗算処理が可能なＰＵの構
成ブロック図、及び第５図はそのＰＵ内で用いられる終
段累積器の構成ブロック図である。

先ず、第４図及び第５図の構成を説明する前に、乗算の
実行について説明する。

乗算器を構成する手法の一つにＢｏｏｔｈアルゴリズム
を用いた手法がある。先ず、この手法について説明する
。

ΣＸＹ＝よって、ΣＸＹは、Φ、を計算する演算器と、Φ１をシ
フト加算する演算器によって構成できる。

以上のような乗算処理を行うための第４図のＰＵの構成
について説明する。

このＰＵ５００は、（１０）式のΦｋ（ｋ＝０〜７）を
計算するための第１図の８つのＰＥｌ０ｏ−ｏ〜１００
−７と、Φｋ（ｋ＝○〜７）をシフト累積加算し、乗算
結果あるいは乗算累積結果として出力する終段累積器２
００とを、備えている。ＰＥ１００−０〜１００−７の
入力側には、入力バス群３００が接続され、さらにその
ＰＥｌ００−０〜１００−７の出力側と終段累積器２０
０の入、出力側には、出力バス群４００が接続されてい
る。

入力バス群３００は、外部よりデータＸ、Ｙ。

Ｍを入力し、それぞれの各ＰＥ１００−０〜１００−７
へ出力するものである。特に、この入力バス群３００よ
り入力されるデータ、つまり乗数Ｘは、前記の２次Ｂｏ
ｏｔｈアルゴリズムに従い、Ｘｏ〜Ｘ１５にビット分割
され、それぞれのＰＥ１００−０〜１００−７へ入力さ
れる。出力バス群４００は、ＰＥ１００−０〜１００−
７の出力の終段累積器２００への入力、あるいは外部へ
の出力と、該終段累積器２００の出力の外部への出力を
行うものである。この出力バス群４００からは、乗算結
果あるいは乗算累積結果等の出力データＮが出力される
。

第５図に示すように、終段累積器２００は、外部からモ
ード信号ｍｄ及びクロックｃｋを入力して制御信号ｓｌ
ｏ、ｓｌｌを出力する制御回路２１０を有している。ま
た、出力バス群４００からのデータを入力して制御信号
ｓｌｏに基づき所定ビットシフトするシフタ２２０が設
けられ、その出力側には加算器２３０及びレジスタ２４
０が接続されている。加算器２３０は、シフタ２２０の
出力とレジスタ２４０の出力とを加算する回路である。

レジスタ２４０は、加算器２３０の出力を一時記憶し、
その記憶された内容を加算器２３０へ入力すると共に出
力バス群４００へ出力する機能を有している。

以上のようなＰＵを用いて乗算処理を行う場合の演算処
理方法について、第６図〜第８図を参照しつつ説明する
。

第６図は、第１図の回路によって構成された第４図にお
けるＰＥ１００−０〜１００−７の乗算処理時のタイミ
ングチャートである。第７図は、第４図における終段累
積器２００のシフト加算ビット構成図、つまり（１０）
式のシフト加算処理のビット構成を示す図である。第８
図は、第４図の終段累積器２００におけるシフト加算処
理のタイミングチャートである。

例えば、乗算の累積処理ΣＸＹを、 Σｘ、ｙ。

＝１１１ＸＩＹｌ＋Ｘ２Ｙ２＋Ｘ３Ｙ３＋Ｘ４Ｙ４・・・・・・
（１１） Φに＝２に−１０＋Ｘ４２）Ｙ４・・・・・・（１２）第６図は、第１図の回路で構成されるＰＥＩＱ０−０〜
ｔｏｏ−７におけるΦえ算出の動作タイミングチャート
である。この図に示すように、第１の入力データＹ１〜
￥４は各ＰＥ１００−０〜１００−７内のシフタ１７２
、第３の入力データＸ１〜Ｘ４は各ＰＥ１００−０〜１
００−７内の制御回路１１０に、それぞれマシンサイク
ルＭＣ１〜ＭＣ５・・・・・・毎に順次入力される。各
ＰＥ１００−０〜１００−７内の制御回路１１０は、第
１の入力データＸ工〜Ｘ４に従い、（６）式のエンコー
ド値Ｚを計算し、シフタ１２０への制御信号ｓＯとビッ
ト反転回路１５１及び加算器１５２への制御信号ｓ３を
出力する。

また、各ＰＥ１００−０〜１００−７は、外部からのモ
ード信号ｍｄの入力によって乗算実行モードとなり、第
１のセレクタ１３０はシフタ１２０の出力を常時選択出
力するように制御信号ｓ１を固定出力し、第２のセレク
タ１４０は第２のレジスタ１７０の出力を常時選択出力
するように制御信号ｓ２を固定出力する。

以上のような各ＰＥ１００−０〜１００−７内の制御回
路１１０の制御動作により、各ＰＥ１００−０〜１００
−７は、各マシンサイクルＭＣＩ〜ＭＣ５毎に、加算器
１５２により、シフタ１３０の出力と第２のレジスタ１
７０の出力とを加算し、その加算結果を第２のレジスタ
１７０に出力する動作の繰り返しによってΦえを算出す
る。第７図は、（１２）式の実行例を示しており、第５
のマシンサイクルＭＣ５目にΦ５が算出される。

以上のようにして各ＰＥ１００−０〜１００−７におい
て算出されたΦやは、第４図の出力バス群４００を経由
して終段累積器２００に入力され、（１０）式のシフト
加算処理が実行される。このシフト加算処理のビット構
成が第７図に示されている。さらに、第５図の終段累積
器２００におけるシフト加算処理の動作タイミングが第
８図に示されている。

第５図の終段累積器２００では、各マシンサイクルＭＣ
Ｉ〜ＭＣ９・・・・・・毎に、Φえをシフタ２２０に入
力し、その出力とレジスタ２４０の出力とを加算器２３
０で加算し、その加算結果をレジスタ２４０へ出力する
動作の繰り返しによってΣＸＹを算出する。（１０）式
の実行例が第８図に示されている。この図に示すように
、第９のマシンサイクルＭＣ９目にΣＸＹが算出され、
その算出結果が出力バス群４００へ出力される。

この第２の実施例では、第４図のモード信号ｍｄの切換
えにより、差分累積処理が実行されるため、８並列の処
理が可能となる。このように、２次Ｂｏｏｔｈアルゴリ
ズム手法を用いて乗算処理を行うようにしたので、各Ｐ
Ｅ１００−０〜１００−７の独立性（並列処理性）と簡
素化を実現でき、それによってＰＵ５００における演算
処理の高速化と回路規模の減少を図ることができる。

なお、この第２の実施例では、例えば次のような変形も
可能である。

（ａ）　　第４図の終段累積器２００は、第５図に示す
構成でなく、第１図のＰＥ構成をそのまま適用しても良
い。この際、第１図における制御回路１１０から出力さ
れる制御信号ｓ１．ｓ３．ｓ４により、第１のセレクタ
１３０、ビット反転回路１５１、及び第１のレジスタ１
６０をスルー状態に固定すれば良い。このように９個の
ＰＥを並列に接続することにより、乗算処理をも実行可
能なＰＵを簡単に構成できる。

（ｂ）　　第４図のＰＵ５００を用いた乗算累積処理に
ついて説明したが、（７）式に示すような単一の乗算処
理も実行可能である。

（ｃ）　　この実施例では入力データである乗数Ｘが１
６ビツトの場合を説明したが、そのビット数が任意のｎ
ビットの場合にも、ＰＥ数を変更することにより簡単に
対応できる。

（ｄ）　　入力データである乗数Ｘが例えば固定係数の
ような場合、第１図のＰＥ内の制御回ｎ１ｔＯの一部を
ＲＯＭ等の記憶回路に置き換え、Ｘの展開データを予め
その記憶回路に格納しておくことにより、演算処理の簡
単化とそれによる演算処理の高速化が可能となる。

第１Ｑ実施側第９図は、本発明の第３の実施例を示すもので、第４図
のＰＵを４個用いて構成した並列処理可能なプロセッサ
の構成ブロック図である。

このプロセッサは、第４図の構成の４つのＰＵ５００−
０〜５００−３を用いて４×４のマトリクス演算を行う
もので、その各ＰＵ５００−０〜５００−３の入力側に
は、データＸ、Ｙを入力する入力バス群６００が接続さ
れ、さらにその出力側には、出力データＱを出力する出
力バス群７００が接続されている。そのため、このプロ
セッサでは８Ｘ４＝３２個のＰＥが接続されていること
になる。

第１０図は、第９図の４×４マトリクス演算実行時の説
明図である。

この図に示すように、第９図のプロセッサでは、入力デ
ータＸ、Ｙが入力バス群６００に入力されると、その行
列Ｘ、Ｙの乗算は、次式（１３）式に従って実行される
。

ＸＹ＝即ち、（１３）式の行列Ｘ、Ｙの乗算処理を行う場合、
第１０図に示すように、Ｙの列データ毎にＰＵ５００−
０〜５００−３を割り当てて入力することにより、第１
〜第４のステップの４ステツプで４×４のマトリクス演
算の処理を完了し、その処理結果である出力データＱを
出力バス群７００から出力する。

また、このプロセッサを用いた加減算等の算術論理演算
では、ＰＥ単位で処理するため、３２個あるいはＰＥの
１６個を用いて並列に処理できる。

この第３の実施例では、複数のＰＥを並列接続して構成
した第４図のＰＵ５００−０〜５０〇−３を用いて並列
処理可能なプロセッサを構成しているので、より高性能
な並列処理の演算が可能となる。

第Ａ！乃（激例第１〜第３の実施例では、第１図のＰＥ１００を用いて
第４図のＰＵ５００や第９図の並列処理可能なプロセッ
サが構築できることを説明したが、第３図に示すような
差分絶対値累積処理等のＰＥ独立で処理する算術論理累
積演算における動作タイミングは、入力がマシンサイク
ル１回置きになり、効率的でない。そこで、算術論理累
積演算において非効率となる問題を解決し、連続的に処
理が行える高速化が可能なＰＥの構成の原理図を第１１
図に示す。

第１１図は、本発明の第４の実施例を示すもので、高速
演算可能なＰＥの構成ブロック図である。

このＰＥは、第１及び第２の入力データＡ、　Ｂを入力
し、制御信号ｃｓにより入力の選択出力を行うセレクタ
８３０と、該セレクタ８３０の出力と第３の入力データ
Ｃとの加算処理を行う加算器８５２と、制御信号ｃｒｌ
、ｃｒ２に基づき加算器８５２の出力を入力しそれを外
部に出力する第１及び第２のレジスタ８６０，８７０と
で、構成されている。

第１２図は、第１１図のタイミングチャートであり、こ
の図を参照しつつ演算処理方法について説明する。

例えば、第１２図に示すように入力データＡ。

十Ｃ１、Ｂ　、　＋Ｃ、の演算を実行する場合を考える
。マシンサイクルＭＣ毎に順次入力されるデータＡｉ、
Ｂｉ、Ｃ４に対し、制御信号ｃｓによりてセレクタ８３
０を２倍のリズム、つまり−／２のタイミングで切換え
、同一マシンサイクルＭＣ内に２つのデータを加算器８
５２に入力することで、２回の加算を実行する。そして
、制御信号Ｃ８と同一周期の制御信号ｃｒｌ、ｃｒ２を
用いて、第１のレジスタ８６０にはＡ、十Ｃ・の結果を
、第２のレジスタ８７０にはＢ、十Ｃ，の結果を、それ
ぞれ１マシンサイクルＭＣの時間幅で、順次入力させる
。

このように、第１１図に示すＰＥ内の加算器８５２の入
力段に接続されたセレクタ８３０を、データ人力リズム
の２倍のリズム、つまりデータ入力タイミングの１／２
のタイミングで、該セレクタ８３０を切換えることによ
り、加算器８５２の動作速度を向上させ、それによって
演算処理の高速化が実現できる。

第旦凶大施倒前記第４の実施例における高速化手法を例えば第１図の
ＰＥ構成の動作に取り入れた第５の実施例を第１３図に
示す。

第１３図は、第１図のＰＥを用いて差分絶対値累積処理
を行う場合のタイミングチャートである。

この第１３図の高速化手法では、第１の実施例を示す第
３図のタイミングチャートとは異なり、第１図の第１及
び第２のセレクタ１３０，１４０を、制御信号ｓｌ、ｓ
２を用いて共に入力データタイミングの２倍のリズム、
つまり１／２のタイミングで切換えることにより、差分
処理とその累積処理を同一マシンサイクル時間内に実行
している。

この第１３図のタイミングチャートを第３図と対比させ
ると、（２）式の結果である出力データＯ１が、第３図
では６マシンサイクル間処理して第７のマシンサイクル
ＭＣ７目で得られるのに対し、この第１３図では、３マ
シンサイクル間処理して第４のマシンサイクルＭＣ４目
で得られ、演算処理速度が２倍に高速化されている。し
かも、各マシンサイクル毎に順次データを入力でき、デ
ータ入力速度も２倍高速化されている。

（発明の効果）以上詳細に説明したように、第１の発明、第２の発明、
第３の発明、第５の発明、第６の発明、及び第７の発明
によれば、ビット反転手段及び加算手段で構成される演
算手段を用いて演算処理を行うようにしたので、ＰＥの
構成が簡素化され、それによって回路規模の小型化が可
能となる。特に、累積演算処理時において同一の演算手
段を繰り返し用いることにより、ＰＥがより簡素化され
ると共に、並列処理性がより向上するため、回路規模を
より小さくすることが可能となる。

第４及び第８の発明によれば、入力データ群の入力タイ
ミングの１／２のタイミングで゛セレクタ出力を切換え
るようにしたので、入力データに対する演算処理を効率
的に高速処理が行える。

第９及び第１０の発明によれば、Ｂｏｏｔｈアルゴリズ
手法を用いて乗算処理を実行する構成にしたので、その
ＰＵあるいはプロセッサを構成するＰＥの独立性（並列
処理性）と簡素化を向上させることができ、それによっ
てより多くのＰＥを実装でき、並列性が高く、無駄のな
い高機能なＰＵあるいはプロセッサを実現できる・。

第１１及び第１２の発明によれば、同一の演寛手法を繰
り返し用いることにより、無駄のない、高速かつ効率の
良い演算処理が実行できる。さらに、第１２の発明のよ
うに、入力データタイミングの１／２のタイミングでセ
レクタの切換えを行うことにより、演算処理をより高速
化できる。

【図面の簡単な説明】

第１図は本発明の第１の実施例を示すＰＥの構成ブロッ
ク図、第２図（ａ＞、（ｂ）、（ｃ）は従来技術の説明
図であり、同図（ａ＞は画像信号処理用プロセッサの構
成ブロック図、同図（ｂ）は同図（ａ）中のＰＥの構成
ブロック図、同図（Ｃ）は処理構成図、第３図は第１図
におけるＰＥの差分絶対値累積処理のタイミングチャー
ト、第４図は本発明の第２の実施例を示すＰＵの構成ブ
ロック図、第５図は第４図中の終段累積器の構成ブロッ
ク図、第６図は第４図中のＰＥの乗算累積処理時のタイ
ミングチャート、第７図は第４図中の終段累積器のシフ
ト加算ビット構成図、第８図は第４図中の終段累積器の
シフト加算処理のタイミングチャート、第９図は本発明
の第３の実施例を示すプロセッサの構成ブロック図、第
１０図は第９図の４Ｘ４マトリクス演算実行説明図、第
１１図は本発明の第４の実施例を示すＰＥの構成ブロッ
ク図、第１２図は第１１図のタイミングチャート、第１
３図は本発明の第５の実施例を示す差分絶対値累積処理
のタイミングチャートである。１００．１００−０〜１００−７・・・・・・ＰＥ、１
１０．２１０・・・・・・制御回路、１２０．２２０・
・・・・・シフタ、１３０，１４０，８３０・・・・・
・セレクタ、１５０・・・・・・演算手段、１５１・・
・・・・ビット反転回路、１５２．２３０，８５２・・
・・・・加算器、１６０，１７０．２４０，８６０，８
７０・・・・・・レジスタ、３００．６００・・・・・
・入力バス群、４００，７００・・・・・・出力バス群
、５００，５００−０〜５００−３・・・・・・ＰＵ、
２００・・・・・・終段累積器。

Claims

【特許請求の範囲】１、ディジタルデータである第１の入力データと第２の
入力データとの差分絶対値を出力するプロセッサエレメ
ントにおいて、前記第１の入力データと正または負の加算結果とを選択
的に入力する第１の入力手段と、前記第２の入力データを入力する第２の入力手段と、前記第１の入力手段より入力された第１の入力データ及
び負の加算結果をそれぞれビット反転して出力し、かつ
正の加算結果をそのまま出力するビット反転手段と、前記ビット反転手段の出力と前記第２の入力手段の出力
とを加算して加算結果及びその加算結果の正、負を示す
信号をそれぞれ出力する加算手段前記加算手段から出力
される加算結果を記憶する記憶手段とを備え、前記加算手段は、前記負の加算結果が前記ビット反転手
段によりビット反転されるとその出力に対して論理“１
”を加え、前記正の加算結果がそのまま前記ビット反転
手段より出力されるとその出力を差分絶対値として出力
する構成にしたことを特徴とするプロセッサエレメント
。２、請求項１記載のプロセッサエレメントにおいて、前記記憶手段に記憶された加算結果を前記入力手段を介
して前記ビット反転手段へ与える構成にしたプロセッサ
エレメント。３、請求項３記載のプロセッサエレメントにおいて、前記第１の入力手段をセレクタで構成したプロセッサエ
レメント。４、請求項３記載のプロセッサエレメントにおいて、前記セレクタは、該セレクタへの入力データ群の入力タ
イミングの１／２のタイミングで該セレクタ出力を切換
える構成にしたプロセッサエレメント。５、ディジタルデータである第１の入力データと第２の
入力データとの差分絶対値の累積値を出力するプロセッ
サエレメントにおいて、前記第１の入力データと正または負の加算結果とを選択
的に入力する第１の入力手段と、前記第２の入力データを入力する第２の入力手段と、前記第１の入力手段より入力された第１の入力データ及
び負の加算結果をそれぞれビット反転して出力し、かつ
正の加算結果をそのまま出力するビット反転手段と、前記ビット反転手段の出力と前記第２の入力手段の出力
とを加算して加算結果及びその加算結果の正、負を示す
信号をそれぞれ出力する加算手段と、前記加算手段から出力される加算結果を記憶する第１の
記憶手段と、論理“０”に初期設定される第２の記憶手段とを備え、前記加算手段は、前記負の加算結果が前記ビット反転手
段によりビット反転されると、その出力と前記第２の記
憶手段の内容との和に論理“１”を加え、前記正の加算
結果がそのまま前記ビット反転手段より出力されると、
その出力と前記第２の記憶手段の内容との和を差分絶対
値の累積値として前記第２の記憶手段に記憶させる構成
にしたことを特徴とするプロセッサエレメント。６、請求項５記載のプロセッサエレメントにおいて、前記第１の記憶手段に記憶された加算結果を前記第１の
入力手段を介して前記ビット反転手段へ与え、前記第２
の記憶手段の内容を前記第２の入力手段を介して前記加
算手段へ与える構成にしたプロセッサエレメント。７、請求項６記載のプロセッサエレメントにおいて、前記第１及び第２の入力手段を第１及び第２のセレクタ
でそれぞれ構成したプロセッサエレメント。８、請求項７記載のプロセッサエレメントにおいて、前記第１及び第２のセレクタは、該セレクタへの入力デ
ータの入力タイミングの１／２のタイミングで該セレク
タ出力を切換える構成にしたプロセッサエレメント。９、請求項５または８記載のプロセッサエレメントを（
ｎ＋１）個（但し、ｎは、正の整数）備え、前記第１の
プロセッサエレメントから第ｎのプロセッサエレメント
の各入力側を入力バス群に、各出力側を出力バス群にそ
れぞれ接続すると共に、前記第ｎ＋１のプロセッサエレ
メントの入、出力側を前記出力バス群に接続し、Ｂｏｏｔｈアルゴリズムに従い、各２のべき乗項を前記
第１から第ｎのプロセッサエレメントによってそれぞれ
算出し、前記第ｎ＋１のプロセッサエレメントによりシ
フト加算することによって乗算または乗算累積処理を行
い、かつｎ個並列の算術論理累積処理を行う構成にした
ことを特徴とするプロセッシングユニット。１０、請求項９記載のプロセッシングユニットをｍ個（
但し、ｍは正の整数）備え、前記第１のプロセッシングユニットから第ｍのプロセッ
シングユニットの各入力側を入力バス群に、各出力側を
出力バス群にそれぞれ接続し、ｍ×ｍマトリクスの加減
算、乗算、論理演算及びその累積処理を行う構成にした
ことを特徴とするプロセッサ。１１、第１の入力データを所定ビットシフトするシフタ
と、前記シフタの出力または第１のレジスタの出力を選
択出力する第１のセレクタと、第２の入力データまたは
データ出力用の第２のレジスタの出力を選択出力する第
２のセレクタと、前記第１及び第２のセレクタ出力を入
力して演算処理を行いその演算結果を前記第１及び第２
のレジスタへ出力する演算手段とを用い、モード信号により設定される第１の演算処理モードにお
いて、第１のステージでは、前記第１のセレクタが前記シフタ
出力を選択出力し、前記第２のセレクタが前記第２の入
力データを選択出力し、該第１及び第２のセレクタ出力
を前記演算手段により演算してその演算結果を前記第１
のレジスタに格納し、第２のステージでは、第１及び第
２のセレクタがそれぞれ前記第１及び第２のレジスタ出
力を選択出力し、その出力を前記演算手段で累積処理し
、その処理結果を前記第２のレジスタに格納し、前記第
１及び第２のステージを１回または複数回繰返し実行し
、前記モード信号により設定される第２の演算処理モード
において、前記第１のセレクタが前記シフタ出力を選択出力するよ
う固定し、前記第２のセレクタが前記第２のレジスタ出
力を選択出力するよう固定し、前記演算手段によって前
記シフタ出力を累積処理し、その処理結果を前記第２の
レジスタに格納するステージを１回または複数回繰返し
実行する、ことを特徴とする演算処理方法。１２、請求項１１記載の演算処理方法において、前記第
１の演算処理モードにおける前記第１のステージから前
記第２のステージへの前記第１、第２のセレクタの切換
えを、前記第１、第２の入力データにおける入力タイミ
ングの１／２のタイミングで行う演算処理方法。