JPH0830577A

JPH0830577A - Ｓｉｍｄプロセッサ

Info

Publication number: JPH0830577A
Application number: JP6164333A
Authority: JP
Inventors: Yoshitsugu Inoue; 喜嗣井上; Hiroyuki Kawai; 浩行河合; Sutoraitenberugaa Robaato; ロバート・ストライテンベルガー
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-07-15
Filing date: 1994-07-15
Publication date: 1996-02-02
Also published as: DE19524862A1; US5729758A

Abstract

(57)【要約】【目的】多様な処理を実行可能なＳＩＭＤプロセッサ
を提供する。【構成】各プロセシングエレメントＰＥａ０〜ＰＥａ
ｎ内に３本のローカルバスＬＢ０〜ＬＢ２および３本の
複合演算用バスＭＯＢ０〜ＭＯＢ２を備える。算術論理
演算器ＡＬ、乗算器ＭＰ、ビット演算器ＢＭ、および累
算器ＡＵはそれぞれローカルバスＬＢ０〜ＬＢ２および
複合演算用バスＭＯＢ０〜ＭＯＢ２と接続される。この
結果、各演算器は機能の異なる複数のバスを用いて効率
よくデータを転送することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数の並列プロセシン
グエレメントが同期して動作し、単一のプログラムカウ
ンタで指示される単一の命令によって制御されるＳＩＭ
Ｄ（単一命令ストリーム・複数データストリーム）プロ
セッサに関し、特に、画像処理用に適したＳＩＭＤプロ
セッサに関するものである。

【０００２】

【従来の技術】以下、従来の画像処理用ＳＩＭＤプロセ
ッサについて図面を参照しながら説明する。図２２は、
従来のＳＩＭＤプロセッサの構成を示すブロック図であ
る。

【０００３】図２２を参照して、ＳＩＭＤプロセッサ
は、プログラマブルに全体の制御を行なうコントロール
ユニット１００、荷重係数やテンプレートデータを格納
するメモリユニット１０１、画像データ転送を行なうシ
フトレジスタ１２１ａ〜１２１ｃを含むデータユニット
１０２、算術論理演算器（ＡＬＵ）１３２および乗算器
（ＭＰＹ）１３３を含むプロセシングエレメント（Ｐ
Ｅ）１３１ａ〜１３１ｄが複数個並列に配置されたプロ
セッサユニット１０３、算術論理演算器１４１、１４２
を含むリンケージユニット１０４、比較器によって構成
されるエバリュエーションユニット１０５を含む。

【０００４】プロセッサユニット１０３内の複数個のプ
ロセシングエレメント１３１ａ〜１３１ｄの各々は、デ
ータユニット１０２またはメモリユニット１０１から並
列に転送される異なるデータに対して、コントロールユ
ニット１００からの制御信号に応じて同一の処理を実行
する。各プロセシングエレメント１３１ａ〜１３１ｄの
演算結果は、リンケージユニット１０４に転送され、プ
ロセシングエレメント１３１ａ〜１３１ｄ間での統合処
理が行なわれる。たとえば、画像のフィルタリング処理
を行なう場合、局所ウィンドウの各水平方向の画素と荷
重係数の乗算を並列に各プロセシングエレメント１３１
ａ〜１３１ｄで行ない、その結果がリンケージユニット
１０４で加算される。

【０００５】画像処理としては、上記のフィルタリング
処理だけでなく、画像間の演算、画像の面積あるいは中
心等の計測、パターンマッチング等のように他に多くの
処理がある。上記の各処理のほとんどが大量のデータに
対する単一演算の処理で実行可能な処理である。したが
って、ＳＩＭＤプロセッサを用いてプログラムを変更す
ることにより種々のアルゴリズムを実行することがハー
ドウェアの節約の観点からも有効な手法である。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
ＳＩＭＤプロセッサでは、上記のように構成されている
ため、フィルタリング処理は実行できるが、プロセシン
グエレメントの機能が乏しいため、積和演算やビット演
算等の画像処理特有の演算を処理することができなかっ
たり、また、長大な処理ステップ数を必要としていた。
また、プロセシングエレメント間での演算結果がリンケ
ージユニットを通してのみ統合され、その統合結果をプ
ロセシングエレメントに反映することができないため、
統合結果を用いた処理ができないという問題点もあっ
た。上記のように、従来のＳＩＭＤプロセッサでは、プ
ログラマブルであっても、その処理速度が遅く、十分な
機能を持たず、画像処理分野の一部の処理に対してのみ
有効であり、その応用範囲が非常に狭いという問題点が
あった。

【０００７】本発明は上記課題を解決するためのもので
あって、多様な処理を実行することができ、適用範囲が
広いＳＩＭＤプロセッサを提供することを目的とする。

【０００８】本発明の他の目的は、高速な処理を実行す
ることができるＳＩＭＤプロセッサを提供することであ
る。

【０００９】本発明のさらに他の目的は、プロセシング
エレメント間のデータ転送を高速に行なうことができる
ＳＩＭＤプロセッサを提供することである。

【００１０】本発明のさらに他の目的は、回路規模を削
減することができるＳＩＭＤプロセッサを提供すること
である。

【００１１】本発明のさらに他の目的は、制御バスの本
数を削減することができるＳＩＭＤプロセッサを提供す
ることである。

【００１２】本発明のさらに他の目的は、命令の記述を
簡略化することができるＳＩＭＤプロセッサを提供する
ことである。

【００１３】

【課題を解決するための手段】請求項１記載のＳＩＭＤ
プロセッサは、全体制御手段と、複数のプロセシングエ
レメントと、複数のプロセシングエレメントの各々を一
次元的に並列に接続するグローバルバスと、全体制御手
段と複数のプロセシングエレメントの各々とを接続する
制御バスとを含み、複数のプロセシングエレメントの各
々は、ローカルメモリと、複数の演算手段と、データ入
出力手段と、ローカルメモリ、複数の演算手段、および
データ入出力手段とに接続され、データを伝送するため
の３本のローカルバスと、複数の演算手段の各々に接続
され、複合演算を行なうためのデータを伝送するための
複合演算用バスとを含み、全体制御手段は、同一演算を
行なうように複数のプロセシングエレメントの各々の動
作を制御する。

【００１４】請求項２記載のＳＩＭＤプロセッサは、請
求項１記載のＳＩＭＤプロセッサの構成に加え、上記３
本のローカルバスは、複数の演算手段へデータを入力す
るための２本のデータ入力用ローカルバスと、複数の演
算手段からデータを出力するための１本のデータ出力用
ローカルバスとを含む。

【００１５】請求項３記載のＳＩＭＤプロセッサは、請
求項２記載のＳＩＭＤプロセッサの構成に加え、上記複
数の演算手段は、算術論理演算器と、乗算器と、ビット
演算器と、累算器とを含み、上記複合演算用バスは、算
術論理演算器の出力データを乗算器、ビット演算器、お
よび累算器へ出力するための第１複合演算用バスと、乗
算器の出力データをビット演算器、および累算器へ出力
するための第２複合演算用バスと、ビット演算器の出力
データを累算器へ出力するための第３複合演算用バスと
を含む。

【００１６】請求項４記載のＳＩＭＤプロセッサは、全
体制御手段と、各々がローカルメモリを含む複数のプロ
セシングエレメントと、複数のプロセシングエレメント
の各々を一次元的に並列に接続するグローバルバスと、
全体制御手段と複数のプロセシングエレメントの各々と
を接続する制御バスとを含み、グローバルバスは、全体
制御手段の出力データを複数のプロセシングエレメント
の各々へ伝送するための第１グローバルバスと、複数の
プロセシングエレメントの各々の出力データを複数のプ
ロセシングエレメントの各々へ出力するための第２グロ
ーバルバスと、複数のプロセシングエレメントのうち１
つのプロセシングエレメントのローカルメモリのデータ
を他のプロセシングエレメントへ出力するための第３グ
ローバルバスとを含む。

【００１７】請求項５記載のＳＩＭＤプロセッサは、請
求項４記載のＳＩＭＤプロセッサの構成に加え、上記複
数のプロセシングエレメントの各々は、さらに、複数の
演算手段と、データ入出力手段と、ローカルメモリ、複
数の演算手段、およびデータ入出力手段とに接続され、
データを伝送するためのローカルバスとを含み、上記ロ
ーカルメモリは、データ入出力手段を介して第３グロー
バルバスと接続される。

【００１８】請求項６記載のＳＩＭＤプロセッサは、並
列に備えられた８つのプロセシングエレメントと、８つ
のプロセシングエレメント間を論理的に等間隔で接続す
る８本のグローバルバスとを含み、８つのプロセシング
エレメントの各々は、８本のグローバルバスのうち所定
の４本のグローバルバスからデータが入力され、残り４
本のグローバルバスのうち所定の２本のグローバルバス
へデータを出力する。

【００１９】請求項７記載のＳＩＭＤプロセッサは、請
求項６記載のＳＩＭＤプロセッサの構成に加え、上記８
本のグローバルバスは、第１ないし第８グローバルバス
を含み、上記８つのプロセシングエレメントは、第１な
いし第８プロセシングエレメントを含み、上記８つのプ
ロセシングエレメントの各々は、第１および第２出力ポ
ートおよび第１ないし第４入力ポートを含み、第１プロ
セシングエレメントは、第１および第２出力ポートから
第１および第５グローバルバスへそれぞれデータを出力
し、かつ、第１ないし第４グローバルバスから第１ない
し第４入力ポートへそれぞれデータを入力され、第２プ
ロセシングエレメントは、第１および第２出力ポートか
ら第２および第６グローバルバスへそれぞれデータを出
力し、かつ、第２ないし第４、第１グローバルバスから
第１ないし第４入力ポートへそれぞれデータを入力さ
れ、第３プロセシングエレメントは、第１および第２出
力ポートから第３および第７グローバルバスへそれぞれ
データを出力し、かつ、第３、第４、第１、第２グロー
バルバスから第１ないし第４入力ポートへそれぞれデー
タを入力され、第４プロセシングエレメントは、第１お
よび第２出力ポートから第４および第８グローバルバス
へそれぞれデータを出力し、かつ、第４、第１ないし第
３グローバルバスから第１ないし第４入力ポートへそれ
ぞれデータを入力され、第５プロセシングエレメント
は、第１および第２出力ポートから第５および第１グロ
ーバルバスへそれぞれデータを出力し、かつ、第５ない
し第８グローバルバスから第１ないし第４入力ポートへ
それぞれデータを入力され、第６プロセシングエレメン
トは、第１および第２出力ポートから第６および第２グ
ローバルバスへそれぞれデータを出力し、かつ、第６な
いし第８、第５グローバルバスから第１ないし第４入力
ポートへそれぞれデータを入力され、第７プロセシング
エレメントは、第１および第２出力ポートから第７およ
び第３グローバルバスへそれぞれデータを出力し、か
つ、第７、第８、第５、第６グローバルバスから第１な
いし第４出力ポートへそれぞれデータを入力され、第８
プロセシングエレメントは、第１および第２出力ポート
から第８および第４グローバルバスへそれぞれデータを
出力し、かつ、第８、第５ないし第７グローバルバスか
ら第１ないし第４入力ポートへそれぞれデータを入力さ
れる。

【００２０】請求項８記載のＳＩＭＤプロセッサは、複
数のプロセシングエレメントを含むＳＩＭＤプロセッサ
であって、複数のプロセシングエレメントの各々は、ロ
ーカルメモリと、隣接する１つのプロセシングエレメン
トのローカルメモリの出力データを選択的に自身のロー
カルメモリへ入力するための入力手段とを含み、ローカ
ルメモリは、直列に接続される。

【００２１】請求項９記載のＳＩＭＤプロセッサは、請
求項８記載のＳＩＭＤプロセッサの構成に加え、入力手
段は、外部から入力されるデータ、隣接する１つのプロ
セシングエレメントのローカルメモリの出力データ、お
よび自身のローカルメモリの出力データのうち一方のデ
ータを選択的に入力する選択入力手段を含む。

【００２２】請求項１０記載のＳＩＭＤプロセッサは、
複数のプロセシングエレメントを含むＳＩＭＤプロセッ
サであって、複数のプロセシングエレメントの各々は、
ローカルメモリを含み、ローカルメモリは、各々が独立
に制御可能な３つのバンクメモリを含む。

【００２３】請求項１１記載のＳＩＭＤプロセッサは、
請求項１０記載のＳＩＭＤプロセッサの構成に加え、上
記ＳＩＭＤプロセッサは、さらに、全体制御手段を含
み、上記複数のプロセシングエレメントの各々は、さら
に、複数の演算手段を含み、上記ローカルメモリは、さ
らに、演算手段の演算結果を格納するためのレジスタ
と、全体制御手段から出力されるアドレスとレジスタに
格納された演算結果のうち一方を選択的にバンクメモリ
のアドレスとして出力する選択手段とを含む。

【００２４】請求項１２記載のＳＩＭＤプロセッサは、
全体制御手段と、複数のプロセシングエレメントと、複
数のプロセシングエレメントの各々を一次元的に並列に
接続するグローバルバスと、全体制御手段と複数のプロ
セシングエレメントの各々とを接続する制御バスとを含
み、複数のプロセシングエレメントは、各々が制御信号
に応じて動作する複数の演算手段と、全体制御手段から
制御バスを介して伝送されるオペレーションコードをデ
コードし、複数の演算手段に対応した複数の制御信号お
よびパイプ遅延信号を出力するデコード手段と、複数の
制御信号ごとに設けられ、複数の制御信号のうち対応す
る制御信号を受け、複数のパイプ遅延信号のうち対応す
るパイプ遅延信号に応答して、所定のタイミングで制御
信号を出力する複数のパイプラインレジスタ手段とを含
む。

【００２５】請求項１３記載のＳＩＭＤプロセッサは、
請求項１２に記載のＳＩＭＤプロセッサの構成に加え、
上記複数の演算手段は、算術論理演算器と、乗算器と、
ビット演算器と、累算器とを含み、上記複数のパイプラ
インレジスタ手段は、デコード手段から出力される算術
論理演算器用の制御信号を格納する１段の第１レジスタ
と、デコード手段から出力される乗算器用の制御信号を
格納し、乗算器用のパイプ遅延信号に応答して所定のタ
イミングで乗算器用の制御信号を出力する２段の第２レ
ジスタと、デコード手段から出力されるビット演算器用
の制御信号を格納し、ビット演算器用のパイプ遅延信号
に応答して所定のタイミングでビット演算器用の制御信
号を出力する３段の第３レジスタと、デコード手段から
出力される累算器用の制御信号を格納し、累算器用のパ
イプ遅延信号に応答して所定のタイミングで累算器用の
制御信号を出力する４段の第４レジスタとを含む。

【００２６】請求項１４記載のＳＩＭＤプロセッサは、
全体制御手段と、複数のプロセシングエレメントと、複
数のプロセシングエレメントの各々を一次元的に並列に
接続するグローバルバスと、全体制御手段と複数のプロ
セシングエレメントの各々とを接続する制御バスとを含
み、複数のプロセシングエレメントの各々は、各々が制
御信号に応じて動作する複数の演算手段と、複数の演算
手段の各々が出力する演算結果に対応するフラグと、全
体制御手段から制御バスを介して出力される条件判定コ
ードとを比較する比較手段と、比較手段の比較結果に応
じて、全体制御手段から制御バスを介して複数の演算手
段ごとに出力される制御信号にマスクをかけ、制御信号
を出力するマスク手段とを含む。

【００２７】請求項１５記載のＳＩＭＤプロセッサは、
請求項１４記載のＳＩＭＤプロセッサの構成に加え、上
記比較手段は、複数のフラグのうち所定のフラグを選択
するセレクタと、セレクタの出力と条件判定コードとを
比較し、所定の比較結果を出力ずる比較判定器とを含
み、上記マスク手段は、比較判定器が出力する比較結果
を格納するレジスタと、複数の制御信号ごとに設けら
れ、レジスタの出力と制御信号の各々との論理積を複数
の演算手段のうち対応する演算手段へ出力する複数のＡ
ＮＤ回路とを含む。

【００２８】請求項１６記載のＳＩＭＤプロセッサは、
全体制御手段と、各々が制御信号に応じて動作する複数
の演算手段を含む複数のプロセシングエレメントと、全
体制御手段と複数のプロセシングエレメントの各々とを
一次元的に並列に接続するグローバルバスおよび制御バ
スとを含み、全体制御手段は、複数の演算手段ごとに対
応した制御信号をパイプ遅延させるパイプライン手段を
含み、パイプライン手段は、制御バスを介して複数のプ
ロセシングエレメントの各々に、パイプ挿入に必要な複
数のパイプ遅延値とパイプ遅延した制御信号とを出力
し、上記複数のプロセシングエレメントの各々は、さら
に、複数の演算手段の各々が出力する演算結果に対応す
るフラグと、全体制御手段から制御バスを介して出力さ
れる条件判定コードとを比較する比較手段と、複数のパ
イプ遅延値および比較手段の比較結果に応じて、パイプ
ライン手段から出力される制御信号にマスクをかけ、制
御信号を対応する複数の演算手段に出力するマスク手段
とを含む。

【００２９】請求項１７記載のＳＩＭＤプロセッサは、
請求項１６記載のＳＩＭＤプロセッサの構成に加え、上
記比較手段は、複数のフラグのうち所定のフラグを選択
するセレクタと、セレクタの出力と条件判定コードとを
比較し、所定の比較結果を出力する比較判定器とを含
み、上記マスク手段は、比較判定器が出力する比較結果
を格納するレジスタと、複数のパイプ遅延値に応じて、
比較手段の比較結果を出力する比較結果出力手段と、制
御信号ごとに設けられ、比較結果出力手段から出力され
る比較結果と全体制御手段から出力される制御信号の各
々との論理積を複数の演算手段のうち対応する演算手段
へ出力する複数のＡＮＤ回路とを含む。

【００３０】請求項１８記載のＳＩＭＤプロセッサは、
複数のプロセシングエレメントと、リンク処理手段と、
複数のプロセシングエレメントの各々とリンク処理手段
とを一次元的に並列に接続するグローバルバスとを含
み、リンク処理手段は、少なくとも、加算、および最大
値／最小値演算が可能な算術論理演算器と、データを記
憶するローカルメモリとを含む。

【００３１】請求項１９記載のＳＩＭＤプロセッサは、
請求項１８記載のＳＩＭＤプロセッサの構成に加え、上
記リンク処理手段は、さらに、グローバルバスにより伝
送されるデータの入出力を行なうインタフェース手段
と、インタフェース手段の出力およびローカルメモリの
出力のうち一方を選択的に算術論理演算器へ出力する第
１セレクタと、算術論理演算器の出力を格納するレジス
タと、レジスタの出力およびローカルメモリの出力のう
ち一方を選択的に算術論理演算器へ出力する第２セレク
タとを含み、上記ローカルメモリは、算術論理演算器の
出力を記憶する。

【００３２】請求項２０記載のＳＩＭＤプロセッサは、
８つのプロセシングエレメントと、リンク処理手段と、
８つのプロセシングエレメントの各々とリンク処理手段
とを一次元的に並列に接続するグローバルバスとを含
み、リンク処理手段は、８つのプロセシングエレメント
の各々の出力データを上位データと下位データとに分割
して上位データおよび下位データのうち一方を選択的に
出力する８つの分割手段を含み、リンク処理手段は、８
つの分割手段のうち２つの出力データを合わせてそれぞ
れ４つの出力データを出力する。

【００３３】請求項２１記載のＳＩＭＤプロセッサは、
請求項２０記載のＳＩＭＤプロセッサの構成に加え、上
記リンク処理手段は、少なくとも、加算、および最大値
／最小値演算が可能な算術論理演算器と、データを記憶
するローカルメモリとを含む。

【００３４】請求項２２記載のＳＩＭＤプロセッサは、
複数のプロセシングエレメントと、リンク処理手段と、
複数のプロセシングエレメントの各々とリンク処理手段
とを一次元的に並列に接続するグローバルバスとを含
み、リンク処理手段は、複数のプロセシングエレメント
からグローバルバスを介して入力される複数のデータに
対してソーティングを行なうためのソーティング手段
と、ソーティング手段によりソーティングされる複数の
データの各々に対して所定のコードを割付けるコード割
付手段とを含む。

【００３５】請求項２３記載のＳＩＭＤプロセッサは、
請求項２２記載のＳＩＭＤプロセッサの構成に加え、上
記コード割付手段は、ソーティング手段によるデータの
移動および格納と同様にコードを移動および格納させ
る。

【００３６】

【作用】請求項１ないし請求項３記載のＳＩＭＤプロセ
ッサにおいては、複数の演算手段の各々が、３本のロー
カルバスおよび複合演算用バスにより選択的にデータを
転送することができるので、プロセシングエレメント内
のデータ転送の効率が高くなる。

【００３７】請求項４および請求項５記載のＳＩＭＤプ
ロセッサにおいては、３本の第１ないし第３グローバル
バスを具備することにより、プロセシングエレメント間
でのデータの転送をフレキシブルかつ高速に実行するこ
とができる。

【００３８】請求項６および請求項７記載のＳＩＭＤプ
ロセッサにおいては、各プロセシングエレメントがグロ
ーバルバスにより論理的に等間隔で接続されているの
で、プロセシングエレメント間でのデータ転送を高速に
行なうことが可能となる。

【００３９】請求項８および請求項９記載のＳＩＭＤプ
ロセッサにおいては、各プロセシングエレメント内のロ
ーカルメモリが直列にチェーン状に接続されるため、ロ
ーカルメモリを画像処理に有効なラインメモリとして機
能させることができる。

【００４０】請求項１０および請求項１１記載のＳＩＭ
Ｄプロセッサにおいては、ローカルメモリが、独立に制
御可能な３つのバンクメモリから構成されているので、
同時に２つのバンクメモリが読出動作を行ない、１つの
バンクメモリが書込動作を行なうことができるので、高
速な処理が可能となる。

【００４１】請求項１２および請求項１３記載のＳＩＭ
Ｄプロセッサにおいては、各プロセシングエレメントが
命令用のパイプラインレジスタ手段を具備し、全体制御
手段からのオペレーションコードをデコードして複数の
演算手段に対応した複数の制御信号を、パイプ遅延信号
に応答して所定のタイミングで出力しているので、全体
制御手段から出力される制御信号はオペレーションコー
ドのみとなり、制御バスの本数を削減することが可能と
なる。

【００４２】請求項１４および請求項１５記載のＳＩＭ
Ｄプロセッサにおいては、各制御手段から出力されるフ
ラグを全体制御手段から出力される条件判定コードに応
じて比較判定し、制御信号にマスクをかけているので、
同じ制御信号で並列に動作している複数のプロセシング
エレメントを演算手段の演算結果に応じて選択的に動作
させることができる。

【００４３】請求項１６および請求項１７記載のＳＩＭ
Ｄプロセッサにおいては、パイプ遅延値および比較手段
の比較結果に応じて全体制御手段からの制御信号にマス
クをかけ、演算手段に制御信号を出力しているので、制
御信号の命令記述が容易となり、任意の位置で条件判定
命令を記述できる。

【００４４】請求項１８および請求項１９記載のＳＩＭ
Ｄプロセッサにおいては、加算、最大値／最小値演算が
可能な算術論理演算器およびローカルメモリを具備して
いるので、各プロセシングエレメント間でのデータ転送
を行なうことなくソーティング処理を行なうことが可能
となる。

【００４５】請求項２０および請求項２１記載のＳＩＭ
Ｄプロセッサにおいては、各プロセシングエレメントの
出力を上位および下位のデータに分割して選択的に出力
することができるので、様々なモードでデータを出力す
ることが可能となる。

【００４６】請求項２２および請求項２３記載のＳＩＭ
Ｄプロセッサにおいては、リンク処理手段においてソー
ティングされたデータに対して所定のコードを割付けて
いるので、各プロセシングエレメント内でコードを生成
する必要がなくなる。

【００４７】

【実施例】以下、本発明の第１の実施例のＳＩＭＤプロ
セッサについて図面を参照しながら説明する。図１は、
本発明の第１の実施例のＳＩＭＤプロセッサの構成を示
す図である。

【００４８】図１を参照して、ＳＩＭＤプロセッサは、
各プロセシングエレメントの制御を行なう全体制御部
（ＣＵ）ＣＵａ、複数のプロセシングエレメント（Ｐ
Ｅ）ＰＥａ０〜ＰＥａｎ、プロセシングエレメントＰＥ
ａ０〜ＰＥａｎの各々を一次元的に並列に接続するグロ
ーバルバスＧＢ、全体制御部ＣＵａと各プロセシングエ
レメントＰＥａ〜ＰＥｎとを接続する制御バスＣＢを含
む。

【００４９】各プロセシングエレメントＰＥａ０〜ＰＥ
ａｎは、ローカルメモリ（ＬＭ）ＬＭａ、データ入出力
部（ＩＯ）ＩＯａ、ＡＬＵブロックＡＬＢ、ＭＰＹブロ
ックＭＢ、ＢＭＵブロックＢＢ、ＡＵブロックＡＵＢ、
ローカルバスＬＢ０〜ＬＢ２、複合演算用バスＭＯＢ０
〜ＭＯＢ２を含む。

【００５０】ＡＵＬブロックＡＬＢは、レジスタＲ１
（ＲＥＧ）Ｒ１〜Ｒ３、セレクタ（ＳＥＬ）Ｓ１、算術
論理演算器（ＡＬＵ）ＡＬを含む。ＭＰＹブロックＭＢ
は、セレクタＳ２〜Ｓ４、レジスタＲ５〜Ｒ７、乗算器
（ＭＰＹ）ＭＰを含む。ＢＭＵブロックＢＢは、セレク
タＳ５〜Ｓ７、レジスタＲ８〜Ｒ１０、ビット演算器
（ＢＭＵ）ＢＭを含む。ＡＵブロックＡＵＢは、セレク
タＳ８、Ｓ９、レジスタＲ１１、Ｓ１２、累算器（Ａ
Ｕ）ＡＵを含む。

【００５１】複数のプロセシングエレメントＰＥａ０〜
ＰＥａｎは、全体制御部ＣＵから制御バスＣＢを介して
出力される制御信号によって制御される。各プロセシン
グエレメントは同一の処理を実行し、プロセシングエレ
メント間でのデータの転送はグローバルバスＧＢにより
行なわれる。

【００５２】プロセシングエレメント内のＡＬＵブロッ
クＡＬＢ、ＭＰＹブロックＭＢ、ＢＭＵブロックＢＢ、
およびＡＵブロックＡＵＢはローカルバスＬＢ０〜ＬＢ
２により接続されている。

【００５３】ローカルメモリＬＭａは、制御バスＣＢを
介して伝送される制御信号によって制御され、ローカル
バスＬＢ２から読出したデータを記憶する。ローカルメ
モリＬＭａから読出されたデータは、ローカルバスＬＢ
０、ＬＢ１に出力される。

【００５４】データ入出力部ＩＯａは、各プロセシング
エレメントＰＥａ０〜ＰＥａｎ内のデータを他のプロセ
シングエレメント間で交換する場合にデータの入出力の
制御を行なう。

【００５５】算術論理演算器ＡＬは、レジスタＲ１およ
びＲ２を介してローカルバスＬＢ０およびＬＢ１により
転送されたデータをソースとする２つの入力に対して、
加算、減算、絶対値等の算術演算、または、論理和、論
理積、排他的論理和等の論理演算を全体制御部ＣＵａか
ら出力される制御信号に応じて実行する。算術論理演算
器ＡＬの演算結果は、複合演算用バスＭＯＢ０を介して
レジスタＲ３、ＭＰＹブロックＭＢ、ＢＭＵブロックＢ
Ｂ、ＡＵブロックＡＵＢへ出力される。

【００５６】セレクタＳ２には、ローカルバスＬＢ０の
データおよび複合演算用バスＭＯＢ０のデータが入力さ
れ、いずれか一方のデータをレジスタＲ５へ出力する。
セレクタＳ３も同様にローカルバスＬＢ１および複合演
算用バスＭＯＢ０のデータを選択的にレジスタＲ６へ出
力する。乗算器ＭＰはレジスタＲ５およびＲ６のデータ
を受ける。つまり、乗算器ＭＰは、ローカルバスＬＢ０
および算術論理演算器ＡＵの出力のうち一方を第１の入
力とし、ローカルバスＬＢ１および算術論理演算器ＡＵ
の出力のうち一方を第２の入力とした２つの入力データ
の乗算を行なう。乗算器ＭＰの演算結果は、レジスタＲ
７、または複合演算用バスＭＯＰ１を介してＭＰＹブロ
ックＭＢおよびＡＵブロックＡＵＢへ出力される。

【００５７】セレクタＳ５にはローカルバスＬＢ０およ
び複合演算用バスＭＯＢ１のデータが入力され、いずれ
か一方を選択的にレジスタＲ８へ出力する。セレクタＳ
６も同様にローカルデータバスＬＢ１および複合演算用
バスＭＯＢ１のデータのうちいずれか一方をレジスタＲ
９へ出力する。ビット演算器ＢＭは、レジスタＲ８およ
びＲ９のデータを受ける。つまり、ビット演算器ＢＭ
は、ローカルデータバスＬＢ０および乗算器ＭＰの出力
のうち一方を第１の入力とし、ローカルバスＬＢ１およ
び算術論理演算器ＡＬの出力のうち一方を第２の入力と
した２つの入力データに対して、大別して以下の２種類
の演算のうちいずれか一方を実行する。

【００５８】図２は、図１に示すビット演算器の構成を
示すブロック図である。図２を参照して、ビット演算器
ＢＭは、論理演算器ＢＭ１、ビットカウンタＢＭ２、シ
フタＢＭ３、セレクタＳ１１を含む。

【００５９】ビット演算器ＢＭにおける第１の演算は、
論理演算器ＢＭ１およびシフタＢＭ３によって行なわれ
るシフト演算である。つまり、レジスタＲ８から出力さ
れる第１の入力ＢＳ１とレジスタＲ９から出力される第
２の入力ＢＳ２の論理和または論理積を実行した結果、
または２つの入力ＢＳ１、ＢＳ２のうち一方に対して、
論理シフト、算術シフトを実行する。

【００６０】第２の演算は、ビットカウンタＢＭ２にお
いて第２の入力ＢＳ２中に含まれる“１”の数を計測す
る。第１および第２の演算結果のうち一方がセレクタＳ
１１により選択され、出力ＢＳ３として出力される。出
力ＢＳ３は、レジスタＲ１０、および複合演算用バスＭ
ＯＢ２を介してＡＵブロックＡＵＢへ出力される。

【００６１】再び図１を参照して、セレクタＳ８には、
複合演算用バスＭＯＢ０〜ＭＯＢ１を介して算術論理演
算器ＡＬ、乗算器ＭＰ、およびビット演算器ＢＭの各デ
ータが入力され、入力した３つのデータのうち１つを選
択し、レジスタＲ１１へ出力する。累算器ＡＵには、レ
ジスタＲ１１のデータおよびレジスタＲ１２を介して自
身の出力が入力される。累算器ＡＵは、セレクタＳ８に
より選択されたデータ、または選択されたデータとレジ
スタＲ１２のデータとの間で加算した結果をレジスタＲ
１１にセットする。

【００６２】各演算器の出力側のレジスタＲ３、Ｒ７、
Ｒ１０、Ｒ１２の各データは、セレクタＳ１、Ｓ４、Ｓ
７、Ｓ９を経由して、ローカルバスＬＢ０〜ＬＢ２に選
択的に出力される。

【００６３】演算は、一般に２つのデータを入力して１
つの結果を得る。したがって、本実施例では、ローカル
バスＬＢ０およびＬＢ１を２つの入力用データバスとし
て用い、演算結果をローカルメモリＬＭａに書込む。ま
た、各プロセシングエレメント間でデータを交換するた
めの出力用データバスとしてローカルバスＬＢ２を用い
る。したがって、上記のように３本のローカルバスＬＢ
０〜ＬＢ３をプロセシングエレメント内に具備すること
により、１つの演算命令に対して必要なデータ転送を独
立して同時に実行することができ、高速な処理が可能と
なる。

【００６４】また、差分自乗和のような複数の演算器を
順番に経由して処理する必要がある複合演算に対して
は、各演算器の出力側のレジスタＲ３、Ｒ７、Ｒ１０お
よびローカルバスＬＢ０〜ＬＢ２を介してデータを転送
することなく、各演算器間を直接接続した複合演算用バ
スＭＯＢ０〜ＭＯＢ２を介してデータの転送を行なう。
したがって、本実施例のプロセシングエレメントでは、
各マシンサイクルごとに同じ差分自乗和演算を実行する
ことができる。つまり、差分自乗和演算の場合には、ロ
ーカルメモリＬＭａから同時に読出された２つのデータ
が、ローカルバスＬＢ０およびＬＢ１を経由して、算術
論理演算器ＡＬに入力され、入力の減算が実行される。
減算結果は、複合演算用バスＭＯＢ０を介して伝送さ
れ、乗算器ＭＰの２つの入力となる。乗算器ＭＰは、２
つの入力により自乗演算を実行する。自乗演算結果は、
複合演算用バスＭＯＢ１を介して伝送され、ビット演算
器ＢＭの入力となる。入力されたデータは論理演算器Ｂ
Ｍ１をそのまま通過し、シフタＢＭ３により桁合わせの
ための算術シフトが行なわれる。シフト結果は、複合演
算用バスＭＯＢ２を介して伝送され、累算器ＡＵの入力
となる。累算器ＡＵによりレジスタＲ１２のデータと入
力との加算が行なわれる。上記の処理により、算術論理
演算器ＡＬは常に減算を行ない、乗算器ＭＰは常に乗算
を行ない、ビット演算器ＢＭは常に算術シフトを行な
い、累算器ＡＵは常に累算を行なうことができる。この
結果、データ転送命令を間に挿入することなく、差分自
乗和演算を絶え間なく繰返し実行することが可能とな
る。

【００６５】他に複合演算としては、差分絶対値和、ま
たは、２値画像に対する処理で頻繁に行なわれるローカ
ルメモリデータに対するマスク演算後のデータ中に含ま
れる“１”の数の累算がある。このような複合演算で
も、本実施例では上記と同様に高速に処理することが可
能である。また、複合演算実行中に、その複合演算処理
で使われない演算器、または複合演算処理で既に演算が
終了している演算器に対しては、複合演算処理が終了す
るのを待つことなく、複合演算命令と同時に異なる演算
命令に属する処理を実行することが可能である。

【００６６】さらに、各演算器出力は、出力側のレジス
タＲ３、Ｒ７、Ｒ１０、Ｒ１２に格納された後に、ロー
カルバスＬＢ２を介してローカルメモリＬＭａまたはデ
ータ入出力部ＩＯａへ転送される。したがって、レジス
タＲ３、Ｒ７、Ｒ１０、Ｒ１２を一次レジスタとして使
用することが可能である。この結果、ローカルメモリＬ
Ｍａを介さず、またはローカルメモリＬＭａへの書込と
同時に書込まれるデータを次の命令のソースとすること
が可能となる。

【００６７】上記のように第１の実施例では、並列に配
置された複数のプロセシングエレメントを含むＳＩＭＤ
プロセッサにおいて、ローカルメモリ、データ入出力
部、算術論理演算器、乗算器、ビット演算器、累算器の
各機能ブロックと２入力１出力用の３本のローカルバス
を具備するとともに、各演算器出力が出力側のレジスタ
あるいは他の演算器の入力側のセレクタに入力され、さ
らに、出力側のレジスタからは選択的にローカルバスに
出力可能な構成になっているので、プロセシングエレメ
ント内におけるデータ転送の効率が高く、高速に種々の
演算を実行することができる。

【００６８】次に、本発明の第２の実施例のＳＩＭＤプ
ロセッサについて説明する。図３は、本発明の第２の実
施例のＳＩＭＤプロセッサの主要部の構成を示すブロッ
ク図である。

【００６９】図３を参照して、ＳＩＭＤプロセッサは、
全体制御部ＣＵａ、複数のプロセシングエレメントＰＥ
ｂ０〜ＰＥｂｎを含む。各プロセシングエレメントＰＥ
ｂ０〜ＰＥｂｎはデータ入出力部ＩＯｂ、ローカルメモ
リＬＭｂ、ローカルバスＬＢ０〜ＬＢ２を含む。図３に
示すプロセシングエレメントＰＥｂ０〜ＰＥｂｎは、図
１に示すプロセシングエレメントＰＥａ０〜ＰＥａｎと
同様にＡＬＵブロックＡＬＢ、ＭＰＹブロックＭＢ、Ｂ
ＭＵブロックＢＢ、ＡＵブロックＡＵＢを含むが、説明
を簡略化するため図示を省略している。したがって、こ
れらの各ブロックの動作は図１に示すプロセシングエレ
メントＰＥａ０〜ＰＥａｎと同様であるので詳細な説明
は省略する。

【００７０】次に、第２の実施例の特徴部分について詳
細に説明する。ローカルメモリＬＭｂから読出されたデ
ータは、ローカルバスＬＢ０、ＬＢ１に出力されるとと
もに、データ入出力部ＩＯｂにも出力される。データ入
出力部ＩＯｂは、全体制御部ＣＵａから出力されるデー
タを伝送するためのグローバルバスＧＩＢ、プロセシン
グエレメントＰＥｂ０〜ＰＥｂｎ間のデータの交換を行
なうためのグローバルバスＧＰＢ、ローカルメモリＬＭ
ｂからデータ入出力部ＩＯｂへ入力されたデータを出力
するためのグローバルバスＧＭＢにより外部と接続され
ている。

【００７１】グローバルバスＧＩＢにおいて、全体制御
部ＣＵａに入力される命令中に含まれた即値データまた
は全体制御部ＣＵａ中のレジスタデータが転送される。
演算命令で既知の共通のデータとの演算を行なう場合、
または全体に共通のデータをローカルメモリＬＭｂ、演
算器出力レジスタ（図示省略）にセットする場合に、グ
ローバルバスＧＩＢを介してデータの転送が行なわれ
る。

【００７２】グローバルバスＧＰＢは、プロセシングエ
レメントＰＥｂ０〜ＰＥｂｎの数だけその本数があり、
プロセシングエレメントＰＥｂ０〜ＰＥｂｎ間で同時に
データの転送を行なうことができる。並列に接続された
プロセシングエレメントＰＥｂ０〜ＰＥｂｎの演算結果
の総和を求める場合、または、一定の間隔を置いたプロ
セシングエレメントＰＥｂ０〜ＰＥｂｎ間でのデータの
転送を行なう場合、グローバルバスＧＰＢを介してデー
タの転送が行なわれる。

【００７３】グローバルバスＧＭＢは、並列に接続され
た複数個のプロセシングエレメントＰＥｂ０〜ＰＥｂｎ
のうちの任意の１つのプロセシングエレメントに含まれ
るローカルメモリＬＭｂのデータを他のすべてのプロセ
シングエレメントに転送する場合に用いられる。

【００７４】上記の構成により、第２の実施例では、デ
ータ転送を行なうグローバルバスとして、全体制御部Ｃ
ＵａからすべてのプロセシングエレメントＰＥｂ０〜Ｐ
Ｅｂｎにデータを分配するバスＧＩＢ、データ入出力部
ＩＯｂを介してすべてのプロセシングエレメントＰＥｂ
０〜ＰＥｂｎ内の出力用ローカルバスＬＢ２と接続され
たバスＧＰＢ、すべてのプロセシングエレメントＰＥｂ
０〜ＰＥｂｎのうちの任意の１つのプロセシングエレメ
ント内のローカルメモリＬＭｂから読出されたデータを
他のすべてのプロセシングエレメントに出力するバスＧ
ＭＢの３組のバスを具備することにより、各プロセシン
グエレメント間でのデータの授受をフレキシブルにかつ
高速に実行することが可能となる。また、複数のグロー
バルバスを介してデータ転送を行なうことができるた
め、種々の演算をより高速に行なうことができ、多様な
処理を実行することが可能となる。

【００７５】次に、本発明の第３の実施例のＳＩＭＤプ
ロセッサについて説明する。図４は、本発明の第３の実
施例である８並列のプロセシングエレメントを有するＳ
ＩＭＤプロセッサの主要部の構成を示すブロック図であ
る。

【００７６】図４を参照して、ＳＩＭＤプロセッサは、
８個のプロセシングエレメントＰＥｃ０〜ＰＥｃ７、８
本のグローバルバスＧＰ０〜ＧＰ７を含む。各プロセシ
ングエレメントＰＥｃ０〜ＰＥｃ７はデータ入出力部Ｉ
Ｏｃ０〜ＩＯｃ３を含む。図４では、説明を容易にする
ため、全体制御部、制御バス、ローカルメモリ、ＭＰＹ
ブロック、ＢＭＵブロック、ＡＵブロックについては図
示を省略しているが、これらの各ユニットは図１に示す
ものと同様であり同様に動作を行なうので、以下その説
明を省略する。

【００７７】プロセシングエレメントＰＥｃ０およびＰ
Ｅｃ４には、データ入出力部ＩＯｃ０が、プロセシング
エレメントＰＥｃ１およびＰＥｃ５にはデータ入出力部
ＩＯｃ１が、プロセシングエレメントＰＥｃ２およびＰ
Ｅｃ６にはデータ入出力部ＩＯｃ２が、プロセシングエ
レメントＰＥｃ３およびＰＥｃ７にはデータ入出力部Ｉ
Ｏｃ３がそれぞれグローバルバスＧＰ０〜ＧＰ７とのイ
ンタフェース部として具備されている。

【００７８】各データ入出力部ＩＯｃ０〜ＩＯｃ３は、
プロセシングエレメントからのデータの出力部として２
つの出力ポートｄ０およびｄ１、入力部として４つの入
力ポートｓ０〜ｓ３を含み、各ポートがグローバルバス
ＧＰ０〜ＧＰ７の所定のバスと接続されている。具体的
には、プロセシングエレメントＰＥｃ０およびＰＥｃ４
のデータ入出力部ＩＯｃ０からの出力は、グローバルバ
スＧＰ０およびＧＰ４に、プロセシングエレメントＰＥ
ｃ１およびＰＥｃ５のデータ入出力部ＩＯｃ１からの出
力は、グローバルバスＧＰ１およびＧＰ５に、プロセシ
ングエレメントＰＥｃ２およびＰＥｃ６のデータ入出力
部ＩＯｃ２からの出力は、グローバルバスＧＰ２および
ＧＰ６に、プロセシングエレメントＰＥｃ３およびＰＥ
ｃ７のデータ入出力部ＩＯｃ３からの出力は、グローバ
ルバスＧＰ３およびＧＰ７に、それぞれ接続され、出力
ポートｄ０およびｄ１が異なるグローバルバスに接続さ
れる。また、プロセシングエレメントＰＥｃ０〜ＰＥｃ
３への４つの入力は、グローバルバスＧＰ０〜ＧＰ３か
らのデータを受け、プロセシングエレメントＰＥｃ４〜
ＰＥｃ７への入力はグローバルバスＧＰ４〜ＧＰ７から
入力され、それぞれ入力ポートｓ０〜ｓ３とグローバル
バスの順序が１つずつシフトして接続されている。

【００７９】次に、図４に示すデータ入出力部について
さらに詳細に説明する。図５は、図４に示すデータ入出
力部ＩＯｃ０の一実施例の構成を示す図である。

【００８０】図５を参照して、データ入出力部ＩＯｃ０
は、判定部Ｉ１、セレクタＳ２１、Ｓ２２、バスドライ
バＩ２、Ｉ３を含む。

【００８１】ローカルバスＬＢ２上のデータは、セレク
タＳ２１により出力ｄ０またはｄ１のいずれか一方へ選
択的に出力される。また、入力Ｓ０〜Ｓ３の中から１つ
のデータがセレクタＳ２２によって選択される。選択さ
れたデータはバスドライバＩ２およびＩ３へ入力され、
制御バスＣＢを介して入力された制御信号に応じてロー
カルバスＬＢ０またはＬＢ１に出力される。また、セレ
クタＳ２１およびＳ２２の動作は、制御バスＣＢを介し
て入力された制御信号ＳＧを基に判定部Ｉ１が出力する
制御信号により制御される。

【００８２】データ入出力部の構成は、データ入出力部
ＩＯｃ０〜ＩＯｃ３でほぼ同様であるが、グローバルバ
スＧＰ０〜ＧＰ７との間でのデータの入出力の選択を決
定する判定部Ｉ１の機能がそれぞれ異なる。判定部Ｉ１
には、制御バスＣＢから３ビットのグローバルバス入出
力制御信号ＳＧが入力される。グローバルバス入出力制
御信号ＳＧは、すべてのプロセシングエレメントに共通
して入力され、データ入出力部ごとにグローバルバスと
の間の入出力選択信号の指定が異なる。

【００８３】次に、グローバルバス入出力制御信号ＳＧ
とデータ入出力部の入出力選択との関係について説明す
る。図６は、グローバルバス入出力制御信号とデータ入
出力部の入出力選択との関係を示す図である。

【００８４】グローバルバス入出力制御信号ＳＧは、デ
ータを交換するプロセシングエレメント間の距離を表わ
し、たとえば、ＳＧ＝“０１１”の場合は、プロセシン
グエレメントＰＥｃ０はプロセシングエレメントＰＥｃ
３から、プロセシングエレメントＰＥｃ１はプロセシン
グエレメントＰＥｃ４からというように、各プロセシン
グエレメントがそれぞれ３つ右隣のプロセシングエレメ
ントからのデータを受け取ることを意味する。

【００８５】制御信号ＳＧが“００１”〜“１００”の
場合には、データ入出力部ＩＯｃ０は出力ポートｄ１か
らデータを出力し、それ以外は出力ポートｄ０からデー
タを出力する。データ入出力部ＩＯｃ１は、グローバル
バス入出力制御信号ＳＧが“０１０”〜“１０１”の場
合に出力ポートｄからデータを出力し、それ以外は出力
ポートｄ０からデータを出力する。データ入出力部ＩＯ
ｃ２は、グローバルバス入出力制御信号ＳＧが“０１
１”〜“１１０”の場合に、出力ポートｄ１からデータ
を出力し、それ以外は出力ポートｄ０からデータを出力
する。データ入出力部ＩＯｃ３は、グローバルバス入出
力制御信号ＳＧが“１００”〜“１１１”の場合に、出
力ポートｄ１からデータを出力し、それ以外は出力ポー
トｄ０からデータを出力する。また、グローバルバスと
データ入出力部との接続順序はデータ入出力部ごとにシ
フトしているので、入力の選択はすべてのデータ入出力
部で共通する。つまり、グローバルバス入出力制御信号
ＳＧの下位２ビットが“００”の場合には、入力ポート
ｓ０を、“０１”の場合は入力ポートｓ１を、“１０”
の場合は入力ポートｓ２を、“１１”の場合は入力ポー
トｓ３をそれぞれ選択する。

【００８６】以上の構成により、第３の実施例である８
並列のプロセシングエレメントを有するＳＩＭＤプロセ
ッサにおいては、グローバルバスとの接続を４入力２出
力として、各プロセシングエレメントでグローバルバス
との接続と入出力の選択を異なるものとしたため、グロ
ーバルバスとの接続の組合せと入出力の選択の組合せと
によって、各プロセシングエレメントが論理的に等間隔
でデータの転送を行なうことが可能となる。したがっ
て、各プロセシングエレメントとグローバルバスとの接
続本数が削減されるとともに、各プロセシングエレメン
トの回路規模が削減される。さらに、各プロセシングエ
レメントが論理的に等間隔でデータの転送を行なうこと
ができるので、プロセシングエレメント間でのデータの
転送を高速にかつ様々なプロセシングエレメントの組合
せに対して実行することが可能となる。

【００８７】次に、本発明の第４の実施例のＳＩＭＤプ
ロセッサについて説明する。図７は、本発明の第４の実
施例のＳＩＭＤプロセッサの主要部の構成を示すブロッ
ク図である。

【００８８】図７を参照して、ＳＩＭＤプロセッサは、
複数のプロセシングエレメントＰＥｄ０〜ＰＥｄｎを含
む。プロセシングエレメントＰＥｄ０は、セレクタＳ３
０、ローカルメモリＬＭｃ０、ローカルバスＬＢ０〜Ｌ
Ｂ２を含む。他のプロセシングエレメントＰＥｄ１〜Ｐ
Ｅｄｎも同様である。また、図４では、説明を容易にす
るため、全体制御部、制御バス、グローバルバス、デー
タ入出力部、ＡＬＵブロック、ＭＰＵブロック、ＢＭＵ
ブロック、ＡＵブロックについては図示を省略している
が、これらは図１に示すものと同様であり同様に動作す
るので以下その説明を省略する。

【００８９】セレクタＳ３２は、外部入力ＥＸ、ＥＸ
０、ローカルバスＬＢ２のデータが入力される。セレク
タＳ３０は入力されたデータを選択し、ローカルメモリ
ＬＭｃ０へ出力する。ローカルメモリＬＭｃ０は入力し
たデータを記憶し、記憶したデータをローカルバスＬＢ
０およびＬＢ１、セレクタＳ３１へ出力する。以降同様
にローカルメモリのデータが次段のローカルメモリに順
次出力される。つまり、ローカルメモリから読出された
データは、ローカルバスＬＢ０、ＬＢ１に出力され、そ
の一方が右隣のプロセシングエレメントのローカルメモ
リへ出力される。書込まれるデータは、左隣のプロセシ
ングエレメントのローカルメモリから出力されたデータ
ＬＤ０〜ＬＤｎ−１、外部入力ＥＸ０〜ＥＸｎ、ローカ
ルバスＬＢ２のデータの３つのデータから１つのデータ
がセレクタＳ３０〜Ｓ３ｎにより選択される。最左端の
プロセシングエレメントにおける隣接するプロセシング
エレメントからの入力は、外部入力ＥＸである。各プロ
セシングエレメントに接続された外部入力ＥＸ０〜ＥＸ
ｎはそれぞれ独立した固有の外部入力である。

【００９０】次に、フィルタリングにおける局所処理に
ついて説明する。図８は、フィルタリングにおける局所
処理を説明するための図である。画像ＰＣに対してフィ
ルタリングにおける３×３の局所処理を施す場合、以下
のようになる。プロセシングエレメントＰＥｄ０は、常
に局所ウィンドウＷの最下列に対する処理を行ない、プ
ロセシングエレメントＰＥｄ１はその１つ上の水平ライ
ンを、プロセシングエレメントＰＥｄ２はさらにその１
つ上の水平ラインを処理する。３つのプロセシングエレ
メントは、常に水平方向画像が同じ位置の画素に対する
処理を行なう。プロセシングエレメントＰＥｄ０の外部
入力ＥＸとして画像Ｐをラスタ操作して得られる画像デ
ータＬＤｉが順次入力され、ローカルメモリＬＭｃ０に
書込まれる。画像Ｐの水平方向の１ライン分のデータの
転送が終了すると、次のラインのデータ転送を開始する
とともに既に書込まれたラインに対する処理を開始す
る。

【００９１】すべてのプロセシングエレメントのローカ
ルメモリから１ラインずつずれたラインの同じ水平方向
位置の画素データが読出される。読出された画素データ
は、隣接するプロセシングエレメントのローカルメモリ
の書込データとなり、同じアドレスに格納される。上記
操作を繰返すことにより、１ライン分の処理が終了した
時点で、各ローカルメモリにあった水平方向の１ライン
の画素データはすべて隣接するローカルメモリへ転送さ
れる。

【００９２】また、画像Ｐを領域分割して、プロセシン
グエレメントがその分割された領域に対する処理を分担
する場合には、ローカルメモリへはそれぞれ独立した外
部入力から画像データを選択入力する。

【００９３】以上の処理により、第４の実施例における
ＳＩＭＤプロセッサのローカルメモリでは、ローカルメ
モリに対する書込データとして、隣接するローカルメモ
リの読出データを選択することができるので、ローカル
メモリをチェーン状に直列に接続することができ、ロー
カルメモリを画像処理に有効なラインメモリとして機能
させることができる。また、個々のローカルメモリが独
立した外部入力を書込可能とすることにより、高速なデ
ータ転送を実現し、かつ、並列に動作させることができ
る。この結果、高速な処理が可能となり、また、上記の
各処理を選択的に行なえるので幅広い用途に使用するこ
とが可能となる。

【００９４】次に、本発明の第５の実施例のＳＩＭＤプ
ロセッサについて説明する。図９は、本発明の第５の実
施例のＳＩＭＤプロセッサの主要部の構成を示すブロッ
ク図である。

【００９５】図９を参照して、ＳＩＭＤプロセッサは、
プロセシングエレメントＰＥｅ、制御バスＣＢを含む。
プロセシングエレメントＰＥｅは、ローカルメモリＬＭ
ｄ、ローカルバスＬＢ０〜ＬＢ２を含む。ローカルメモ
リＬＭｄは、セレクタＳ４１〜Ｓ４６、レジスタＲ２
１、バンクメモリＢａ〜Ｂｃを含む。図９では、説明を
容易にするため、全体制御部、グローバルバス、ＡＬＵ
ブロック、ＭＰＹブロック、ＢＭＵブロック、ＡＵブロ
ック、データ入出力部については図示を省略している
が、これらは図１に示すものと同様であり同様に動作す
るので以下その説明を省略する。また、プロセシングエ
レメントとして１つのプロセシングエレメントＰＥｅの
みを表わしているが、複数のプロセシングエレメントを
具備してもよい。

【００９６】ローカルメモリＬＭｄは、同じ容量を持つ
３つのバンクメモリＢａ〜Ｂｃが並列に配置された３バ
ンク構成をなし、各バンクメモリＢａ〜Ｂｃは、制御バ
スＣＢを介して読出および書込のイネーブル信号ｅｎａ
ｂｌｅＡ〜ｅｎａｂｌｅＣおよびアドレスａｄｒＡ〜ａ
ｄｒＣが与えられる。また、同時に、３つのバンクメモ
リのうち２つのバンクメモリを読出に用い、他の１つの
バンクメモリを書込に用いることができる。各バンクメ
モリＢａ〜Ｂｃの出力は、ローカルバスＬＢ０およびＬ
Ｂ１とセレクタＳ４５およびＳ４６を介してそれぞれ接
続され、制御バスＣＢのアドレス選択信号ｓｅｌＳ０お
よびｓｅｌＳ１によっていずれかのバンクメモリの出力
がローカルバスＬＢ０およびＬＢ１へ出力される。書込
データとしては、ローカルバスＬＢ２上のデータまたは
プロセシングエレメントＰＥｅ外部から入力されたデー
タのいずれかが制御信号ｓｅｌＷによってセレクタＳ４
１により選択される。

【００９７】また、アドレスとしては、ローカルバスＬ
Ｂ２上のデータをレジスタＲ２１に格納しておき、全体
制御部（図示省略）から制御バスＣＢを介して与えられ
るアドレスａｄｒＡ〜ａｄｒＣとレジスタＲ２１のデー
タのうち一方をアドレス選択信号ｓｅｌＡ〜ｓｅｌＣに
よってセレクタＳ４２〜Ｓ４４により選択可能である。
演算結果を用いてテーブルルックアップ処理を行なう場
合、ルックアップテーブルを格納しているバンクメモリ
は予めわかっているので、そのバンクメモリに対して読
出のイネーブル信号を出力し、レジスタＲ２１に格納し
ておいた演算結果をアドレスとして選択するようにアド
レス選択信号を出力することにより、すべてのプロセシ
ングエレメントで同じバンクメモリからデータが読出さ
れる。したがって、レジスタＲ２１に格納された演算結
果をアドレスとして選択できるので、読出されるアドレ
スは各プロセシングエレメントで異なるという処理が実
行できる。さらに、演算結果を読出アドレスとしてだけ
でなく、書込アドレスとしても選択可能である。したが
って、演算結果から得られるアドレスのデータに対して
演算を行なった結果を再び同じアドレスに書込むリード
モデファイ動作も実行することができる。

【００９８】以上の構成により、本発明の第５の実施例
におけるＳＩＭＤプロセッサのローカルメモリにおいて
は、個々に制御可能な３つのバンクメモリを具備するこ
とにより、そのうち同時に２つが読出動作、１つが書込
動作を実行することができる。したがって、高速な処理
が可能となる。また、演算結果を格納するレジスタＲ２
１を具備し、レジスタＲ２１に格納した演算結果をアド
レスとして選択することができるので、同一の制御信号
で並列動作しているプロセシングエレメントにおいて各
自独自のアドレッシングが可能となり、より高度な処理
を実現することが可能となる。

【００９９】次に、本発明の第６の実施例のＳＩＭＤプ
ロセッサについて説明する。図１０は、本発明の第６の
実施例のＳＩＭＤプロセッサの構成を示すブロック図で
ある。図１０に示すＳＩＭＤプロセッサと図１に示すＳ
ＩＭＤプロセッサとで異なる点は、ＰＥ演算制御部ＰＯ
Ｃａが付加され、各演算器ブロックへ制御信号ｃＡＬ
Ｕ、ｃＭＰＹ、ｃＢＭＵ、ｃＡＵがそれぞれ出力される
点であり、その他の点は図１に示すものと同様であるの
で同一部分には同一符号を付し以下その説明を省略す
る。

【０１００】全体制御部ＣＵｂは、後述するニーモニッ
クが２値のコードに変換された命令列を格納し、プロセ
シングエレメントＰＥｆ０〜ＰＥｆｎが順次実行するよ
うに制御信号を制御バスＣＢを介して出力する。ＰＥ演
算制御部ＰＯＣａは、制御バスＣＢを介して上記命令中
の６ビットのオペレーションコードｏｐｃｏｄｅが入力
される。

【０１０１】次に、図１０に示すＰＥ演算制御部につい
てさらに詳細に説明する。図１１は、図１０に示すＰＥ
演算制御部の構成を示すブロック図である。

【０１０２】図１１を参照して、ＰＥ演算制御部ＰＯＣ
ａは、オペレーションコードｏｐｃｏｄｅをデコードす
るデコード部ＤＵ、各演算器に対する制御信号ｃＡＬ
Ｕ、ｃＭＰＹ、ｃＢＭＵ、ｃＡＵを転送するためのセレ
クタＳ５１〜Ｓ５９およびレジスタＲ３１〜Ｒ４０を含
む。

【０１０３】各演算器に対するシフトレジスタはその段
数が異なり、算術論理演算器に対するレジスタは１段、
乗算器に対するレジスタは２段、ビット演算器に対する
レジスタは３段、累算器に対するレジスタは４段となっ
ている。レジスタ間に挿入されたセレクタＳ５１〜Ｓ５
９は、前段のレジスタからの入力とデコード部ＤＵから
の制御信号のいずれか一方をデコード部ＤＵからのパイ
プ遅延信号ｐ１〜ｐ３によって選択し、次段のレジスタ
へ渡す。

【０１０４】次に、上記のＰＥ演算制御部の動作につい
てさらに詳細に説明する。図１２は、図１１に示すＳＩ
ＭＤプロセッサにおける命令と制御との関係を示す図で
ある。たとえば、図１２に示すニーモニックｓｕｂｓｒ
ａで示される差分自乗和を実行する場合、４ステージを
かけてすべての演算器に順次演算結果を渡して、最終結
果を得るパイプ処理を行なう必要がある。この場合、全
体制御部ＣＵｂからオペレーションコードｏｐｃｏｄｅ
＝“００００１１”がデコード部ＤＵに与えられる。デ
コード部ＤＵは、算術論理演算器に対して差分を実行す
るためのｓｕｂ命令を発行する。また、乗算器に対して
は、ｓｕｂ命令の処理の次のステージで乗算を行なうた
めに、パイプ遅延信号ｐ１は、算術論理演算器への制御
の１段後のレジスタにｍｐｙ命令を挿入するように“１
０”とする。また、乗算結果を累算するための桁合わせ
として算術右シフトを実行するように、ビット演算器に
対してａｒｓ命令が発行され、パイプ遅延信号ｐ２は、
乗算器への制御の１段後のレジスタにａｒｓ命令を挿入
するように“１００”となる。さらに、シフトした結果
を累算するように累算器に対してａｄｄ命令が発行さ
れ、パイプ遅延信号ｐ３は、ビット演算器への制御の１
段後のレジスタにａｄｄ命令を挿入するように“１００
０”となる。

【０１０５】上記の命令発行とパイプ遅延信号の生成は
同時に行なわれ、所定のパイプステージに命令が挿入さ
れる。この結果、命令が挿入された次のステージでは、
算術論理演算器に対してｓｕｂ命令を行なうように制御
信号が与えられる。また、他の演算器に対しては、上記
ｓｕｂｓｒａ命令以前の複合命令の演算の第２ステージ
以降に含まれていた命令または動作しないこと（ｎｏ
ｐ）に相当する制御信号が与えられ、シフトレジスタは
与えられた制御信号を１段シフトさせる。このとき、与
えられた命令に対する制御信号のシフトレジスタへの挿
入も上記ｓｕｂｓｒａ命令と同様に行なわれる。

【０１０６】次のステージでは、乗算器に対するｍｐｙ
命令を行なうための制御信号が出力され、他の演算器に
対しては、上記ｓｕｂｓｒａ命令以前の複合命令の演算
の第３ステージ以降に含まれていた命令に相当する制御
信号、または上記ｓｕｂｓｒａ命令の次に与えられた命
令の第１ステージの命令に相当する制御信号、またはｎ
ｏｐに相当する制御信号が与えられ、シフトレジスタは
制御信号を１段シフトさせる。また、同時に、このステ
ージで与えられた命令に対する制御信号のシフトレジス
タへの挿入も上記ｓｕｂｓｒａ命令と同様にして行なわ
れる。

【０１０７】上記処理を順次繰返すことによって、算術
論理演算器に対するｓｕｂ命令から４ステージかけてｓ
ｕｂｓｒａ命令が実行される。また、ｓｕｂｓｒａ命令
の終了を待たずに、ｓｕｂｓｒａ命令に継続して次々に
与えられた命令のデコードとパイプ段数の判定が行なわ
れて、順次命令が実行されていく。

【０１０８】以上の構成により、第６の実施例における
ＳＩＭＤプロセッサにおいては、各プロセシングエレメ
ントが命令のパイプラインレジスタを用い、全体制御部
からのオペレーションコードをデコードして、デコード
結果をパイプラインレジスタに挿入する位置をも判定す
る構成となっている。したがって、可変パイプライン構
成を持つＳＩＭＤプロセッサの演算処理部に対する制御
信号が各プロセシングエレメント内部で生成されるの
で、全体制御部から出力される演算器への制御信号はオ
ペレーションコードのみとなり、制御バスの本数を削減
することが可能となる。

【０１０９】次に、本発明の第７の実施例のＳＩＭＤプ
ロセッサについて説明する。図１３は、本発明の第７の
実施例のＳＩＭＤプロセッサの構成を示すブロック図で
ある。

【０１１０】図１３を参照して、ＳＩＭＤプロセッサ
は、全体制御部ＣＵａ、制御バスＣＢ、グローバルバス
ＧＢ、複数のプロセシングエレメントＰＥｇ０〜ＰＥｇ
ｎを含む。

【０１１１】各プロセシングエレメントＰＥｇ０〜ＰＥ
ｇｎは、ローカルメモリＬＭａ、データ入出力部ＩＯ
ａ、ＡＬＵブロックＡＬＢ、ＭＰＹブロックＭＢ、ＢＭ
ＵブロックＢＢ、ＡＵブロックＡＵＢ、ＰＥ演算制御部
ＰＯＣｂを含む。

【０１１２】ＰＥ演算制御部ＰＯＣｂは、セレクタＳ６
１、Ｓ６２、比較判定器ＣＰ、ＰＥ活性化信号レジスタ
ＰＡＲ、ＡＮＤ回路Ｇ１〜Ｇ３を含む。

【０１１３】図１３に示すＳＩＭＤプロセッサと、図１
に示すＳＩＭＤプロセッサとで異なる点は、ＰＥ演算制
御部ＰＯＣｂが付加された点であり、その他の点は図１
に示すＳＩＭＤプロセッサと同様であるので同一部分に
は同一符号を付し以下その説明を省略する。また、ＡＬ
ＵブロックＡＬＢ、ＭＰＹブロックＭＢ、ＢＭＵブロッ
クＢＢ、ＡＵブロックＡＵＢはそれぞれ、演算結果に対
応して、演算結果がオーバフロー、負数、０であった場
合にはフラグｆｌａｇＡＬＵ、ｆｌａｇＭＰＹ、ｆｌａ
ｇＢＭＵ、ｆｌａｇＡＵを生成し、ＰＥ演算制御部ＰＯ
Ｃｂへ出力する。

【０１１４】ＰＥ演算制御部ＰＯＣｂは、全体制御部Ｃ
Ｕａから制御バスＣＢを介して各演算器への制御信号ｆ
０〜ｆ３および条件判定コードＣＤＣが与えられる。全
体制御部ＣＵａから与えられた条件判定コードＣＤＣ
は、フラグを出力する演算器を指定する。条件判定コー
ドＣＤＣは比較判定器ＣＰに入力され、セレクタＳ６１
を介して入力されたフラグが所望のフラグか否かを比較
する。比較判定器ＣＰは、選択された演算器のフラグと
全体制御部からの条件判定コードＣＤＣが一致する場合
には“１”を出力し、一致しない場合には“０”をセレ
クタＳ６２を介してＰＥ活性化信号レジスタＰＡＲに出
力する。ＰＥ活性化信号レジスタＰＡＲは、全体制御部
ＣＵｂから出力されるリセット信号ｒｓｔによりセレク
タＳ６２が強制的に“１”にリセットされるまで、その
値を保持する。

【０１１５】ＰＥ活性化信号レジスタＰＡＲに格納され
たデータは、全体制御部ＣＵａからＰＥ演算制御部ＰＯ
Ｃｂに与えられる各演算器に対する制御信号ｆ０〜ｆ３
との論理積がＡＮＤ回路Ｇ１〜Ｇ４によりとられ、その
結果が各演算器の制御信号ｃＡＬＵ、ｃＭＰＹ、ｃＢＭ
Ｕ、ｃＡＵとなる。したがって、条件判定コードＣＤＣ
が与えられて、判定結果が“１”の場合には、全体制御
部ＣＵａからの各演算器への制御信号ｆ０〜ｆ３はその
まま各演算器に与えられ、各演算器は制御信号に応じて
所定の演算を実行する。一方、判定結果が“０”の場合
には、全体制御部から与えられる命令にマスクがかけら
れて、各演算器へｎｏｐに相当する制御信号が出力され
る。したがって全体制御部ＣＵａによってＰＥ活性化信
号レジスタＰＡＲに格納されたデータが“１”にリセッ
トされるまで演算器は動作しない。

【０１１６】以上の構成により、第７の実施例のＳＩＭ
Ｄプロセッサにおいては、各演算器が演算結果に対する
フラグｆｌａｇＡＬＵ、ｆｌａｇＭＰＹ、ｆｌａｇＢＭ
Ｕ、ｆｌａｇＡＵを生成してＰＥ演算制御部ＰＯＣｂへ
出力する。さらに、ＰＥ演算制御部ＰＯＣｂでは、全体
制御部ＣＵａからの条件判定コードＣＤＣに応じて演算
器のフラグを比較判定し、以降の命令に対するマスク信
号を生成する。この結果、同じ制御信号で並列動作して
いる複数のプロセシングエレメントを各演算器の演算結
果に応じて選択的に動作させることが可能となる。した
がって、第７の実施例のＳＩＭＤプロセッサでは、より
多様な処理を実行することが可能となる。

【０１１７】次に、本発明の第８の実施例のＳＩＭＤプ
ロセッサについて説明する。図１４は、本発明の第８の
実施例のＳＩＭＤプロセッサの構成を示すブロック図で
ある。図１４に示すＳＩＭＤプロセッサと、図１３に示
すＳＩＭＤプロセッサとで異なる点は、全体制御部ＣＵ
ｂ内部に図１１に示すデコード部ＤＵで生成したパイプ
遅延信号ｐ１〜ｐ３と同様のパイプ遅延信号ｐ１〜ｐ３
を出力するパイプライン演算制御部ＰＬＣが具備され、
さらに、ＰＥ演算制御部ＰＯＣｃ内部にパイプラインレ
ジスタＰＬＲが付加された点である。その他の点は図１
３に示すＳＩＭＤプロセッサと同様であるので同一部分
には同一符号を付し、以下その説明を省略する。

【０１１８】ＰＥ活性化信号レジスタＰＡＲとＡＮＤ回
路Ｇ１〜Ｇ４との間に、パイプラインレジスタＰＬＲが
挿入される。ＰＥ演算制御部ＰＯＣｃは、パイプライン
レジスタＰＬＲにより、ＰＥ活性化信号レジスタＰＡＲ
から出力されるデータをパイプ遅延信号ｐ１〜ｐ３に応
じてパイプ遅延させる。さらにＡＮＤ回路Ｇ１〜Ｇ４に
より、パイプ遅延させたデータと、全体制御部ＣＵｂか
ら出力される制御信号ｆ０〜ｆ３との間で論理積をとっ
て、各演算器へ制御信号ｃＡＬＵ、ｃＭＰＹ、ｃＢＭ
Ｕ、ｃＡＵをそれぞれ出力する。また、パイプライン演
算制御部ＰＬＣは、図１１に示すような命令のパイプラ
インレジスタを具備し、複合命令に対応して各命令は、
パイプラインディレイがかけられて、すべてのプロセシ
ングエレメントＰＥｈ０〜ＰＥｈｎへ出力される。

【０１１９】次に、図１４に示すパイプラインレジスタ
についてさらに詳細に説明する。図１５は、図１４に示
すパイプラインレジスタの構成を示すブロック図であ
る。

【０１２０】図１４を参照して、パイプラインレジスタ
ＰＬＲは、レジスタＲ５１〜Ｒ６０、セレクタＳ８１〜
Ｓ８９を含む。

【０１２１】パイプラインレジスタＰＬＲは、図１１に
示すＰＥ演算制御部の制御信号のシフトレジスタ部分と
類似した構成をとるが、レジスタＲ５１〜Ｒ６０のビッ
ト幅は１ビットであり、挿入される信号はすべて同じ条
件判定結果を格納したＰＥ活性化信号レジスタＰＡＲか
ら出力されるＰＥ活性化信号ｅｎａｂｌｅＰＥである。
ＰＥ活性化信号ｅｎａｂｌｅＰＥの挿入方法は、図１１
に示すＰＥ演算制御部における制御信号の挿入方法と全
く同様である。

【０１２２】次に、図１５に示すパイプラインレジスタ
の動作についてさらに詳細に説明する。図１６は、任意
の１つのプロセシングエレメントのパイプラインレジス
タの動作を説明するための図である。

【０１２３】図１６を参照して、時刻ｔ３まで、ｓｕｂ
ｓｒａ命令を全体制御部ＣＵｂがデコードし、パイプラ
イン演算制御部ＰＬＣ内の演算制御信号パイプラインレ
ジスタで各演算器への制御信号が遅延させられながら、
各プロセシングエレメントＰＥｈ０〜ＰＥｈｎへ与えら
れる。時刻ｔ４において、いずれかの演算器のフラグを
判定する命令が与えられ、判定結果が全体制御部ＣＵｂ
からの条件判定コードＣＤＣと一致せず、ＰＥ活性化信
号レジスタＰＡＲには“０”が格納されたものとする。

【０１２４】条件判定結果が得られるまで、パイプライ
ンレジスタＰＬＲには、常に演算器を動作させるべくす
べてのレジスタに“１”が格納されている。条件判定命
令実行時には、パイプラインレジスタＰＬＲには、すべ
ての演算器に対してｎｏｐが挿入される。

【０１２５】条件判定命令の次の命令にｍａｃ命令（積
和演算命令）が続くものとすると、パイプ遅延信号は、
ｓｕｂｓｒａ命令よりもそれぞれ１つ遅延値が少なく、
ｐ１＝“０１”、ｐ２＝“０１０”、ｐ３＝“０１０
０”となる。したがって、パイプラインレジスタＰＬＲ
では、直前の命令すなわち条件判定命令であるパイプラ
インレジスタの最終段に挿入されたｎｏｐが次段に伝達
されることなく、ｍａｃ命令に必要とされるｍｐｙ、ａ
ｒｓ、ａｄｄ命令に相当する制御信号がパイプ遅延値に
従って挿入される。同様に、パイプラインレジスタＰＬ
Ｒにおいても、パイプラインレジスタの最終段に挿入さ
れた“１”が次段に伝達されることなく、条件判定結果
である“０”がパイプ遅延値ｐ１〜ｐ３に従って挿入さ
れる。

【０１２６】時刻ｔ５のｍａｃ命令に対するＰＥ制御信
号ｅｎａｂｌｅＰＥのパイプへの挿入時においては、条
件判定を実行する以前のｓｕｂｓｒａ命令に対するビッ
ト演算器および累算器に対する制御信号ｅｎａｂｌｅＢ
ＭＵ，ｅｎａｂｌｅＡＵ＝“１”が残っている。この制
御信号は、パイプ遅延して出力され、ＰＥ活性化信号ｅ
ｎａｂｌｅＰＥは既に“０”となっているが、条件判定
を実行する以前のｓｕｂｓｒａ命令は最後まで実行され
る。そして、時刻ｔ５のｍａｃ命令以降は、パイプライ
ンレジスタＰＬＲには“０”が挿入される。

【０１２７】上記の説明では、条件判定結果が“０”で
ある場合のプロセシングエレメントについて説明した
が、他のプロセシングエレメントでは条件判定結果が
“１”のものも存在し得る。その場合、そのプロセシン
グエレメントでは、パイプラインレジスタＰＬＲに
“１”が挿入され、それ以前のすべての命令を実行す
る。

【０１２８】次に、時刻ｔ８において、ＰＥ活性化信号
レジスタＰＡＲに“１”をセットする命令が与えられて
いるものとする。すべてのプロセシングエレメントにお
いてＰＥ活性化信号レジスタＰＡＲは“１”となり、そ
れ以降の命令はすべてのプロセシングエレメントで実行
されるべく、パイプラインレジスタＰＬＲには“１”が
挿入される。図１６では、時刻ｔ９以降に続くｓｕｂｓ
ｒａ命令に対しては、時刻ｔ０からｔ３で行なわれた処
理と同様の処理により、パイプラインレジスタＰＬＲと
ＰＥ活性化信号レジスタＰＡＲとで挿入が行なわれ、ｓ
ｕｂｓｒａ命令を順次実行していく。

【０１２９】以上の処理により、第８の実施例における
ＳＩＭＤプロセッサにおいては、全体制御部ＣＵｂから
のパイプ遅延値ｐ１〜ｐ３に応じて、ＰＥ活性化信号ｅ
ｎａｂｌｅＰＥを各演算器ごとのパイプラインレジスタ
ＰＬＲに挿入し、ＰＥ演算制御部ＰＯＣｃから出力され
る制御信号ｃＡＬＵ、ｃＭＰＹ、ｃＢＭＵ、ｃＡＵも、
全体制御部ＣＵｂから出力される制御信号Ｆ０〜Ｆ３と
同じパイプディレイを持って、各演算器に与えられる前
に演算器活性化信号となる制御信号ｅｎａｂｌｅＡＬ
Ｕ、ｅｎａｂｌｅＭＰＹ、ｅｎａｂｌｅＢＭＵ、ｅｎａ
ｂｌｅＡＵと制御信号Ｆ０〜Ｆ３とのそれぞれの論理積
をとる構成となっている。したがって、条件判定を行な
ってプロセシングエレメントを選択的に活性化させる場
合に、それ以前の複合命令が完全に終了するのを待って
条件判定命令を発行する必要がなく、また命令列にｎｏ
ｐを挿入する必要もない。したがって、命令記述が容易
となり、任意の位置で条件判定命令を記述することがで
き、命令ステップ数が削減されるとともに処理の高速化
を実現することができる。また、１つの全体制御部ＣＵ
ｂでパイプライン処理を行なっているので、各プロセシ
ングエレメントＰＥｈ０〜ＰＥｈｎの回路規模を削減す
ることが可能となる。

【０１３０】次に、本発明の第９の実施例のＳＩＭＤプ
ロセッサについて説明する。図１７は、本発明の第９の
実施例のＳＩＭＤプロセッサの構成を示すブロック図で
ある。

【０１３１】図１７を参照して、ＳＩＭＤプロセッサ
は、全体制御部ＣＵａ、制御バスＣＢ、グローバルバス
ＧＢ（ＧＰ０〜ＧＰｎ）、プロセシングエレメントＰＥ
ａ０〜ＰＥａｎ、リンク処理部ＬＯＵａを含む。リンク
処理部ＬＯＵａは、シーケンス部ＳＥＱ、インタフェー
ス部ＩＦａ、セレクタＳ９１、Ｓ９２、レジスタＲ７
１、算術論理演算器ＡＬ１、ローカルメモリＬＭＬを含
む。図１７に示すＳＩＭＤプロセッサと図１に示すＳＩ
ＭＤプロセッサとで異なる点は、リンク処理部ＬＯＵａ
が付加された点である。その他の点は図１に示すＳＩＭ
Ｄプロセッサと同様であるので同一部分には同一符号を
付し以下その説明を省略する。

【０１３２】リンク処理部ＬＯＵａはすべてのグローバ
ルバスＧＰ０〜ＧＰｎおよび制御バスＣＢと接続され
る。リンク処理部ＬＯＵａは、全体制御部ＣＵａからの
制御信号に従ってリンク処理部内の処理シーケンスを管
理するシーケンス部ＳＥＱ、グローバルバスＧＢとのイ
ンタフェース部ＩＦａ、加算、最大値／最小値演算を実
行する算術論理演算器ＡＬａ、算術論理演算器ＡＬａの
出力を格納するレジスタＲ７１およびローカルメモリＬ
ＭＬ、セレクタＳ９１、Ｓ９２を含む。

【０１３３】各プロセシングエレメントＰＥａ０〜ＰＥ
ａｎからグローバルバスＧＢに出力されたデータの総和
をとるように、全体制御部ＣＵａから制御バスＣＢを介
してシーケンス部ＳＥＱに制御信号が与えられると、シ
ーケンス制御部ＳＥＱは、以下に示す動作を実行するよ
うにリンク処理部内の各要素に対して制御信号を生成す
る。

【０１３４】まず、インタフェース部ＩＦａは、同時並
列に出力されたすべてのプロセシングエレメントからの
出力データをグローバルバスＧＰ０〜ＧＰｎを介して同
時にリンク処理部ＬＯＵａに取り込む。次に、グローバ
ルバスＧＰ０〜ＧＰｎまでのデータが順にセレクタＳ９
１を介して算術論理演算器ＡＬａに与えられ、算術論理
演算器ＡＬａはレジスタＲ７１を用いて順次入力される
データの累算を行なう。

【０１３５】また、全プロセシングエレメントの出力か
ら最大値／最小値を抽出する場合には、累算と同様にし
てすべてのプロセシングエレメントの出力をリンク処理
部ＬＯＵａに取り込み、取り込んだデータが算術論理演
算器ＡＬａに順次与えられる。レジスタＲ７１に常に最
大値／最小値が格納され、格納した最大値／最小値を次
に与えられる入力との比較データとすることにより、す
べてのプロセシングエレメントの出力の最大値／最小値
を抽出することができる。

【０１３６】さらに、最大値／最小値の機能を用いて、
プロセシングエレメントの出力の降順／昇順ソーティン
グを実行することができる。図１８は、すべてのプロセ
シングエレメントの出力のうち大きい方から上位３つの
データを抽出するソーティング処理を説明するための図
である。

【０１３７】上位３個のデータは、ローカルメモリＬＭ
Ｌに格納され、そのアドレス＝“０”に最大値を、アド
レス＝“１”に２番目に大きい値を、アドレス＝“２”
に３番目に大きい値をそれぞれ格納し、上位３位以内に
入らなかったデータは廃棄する。ソーティングを開始す
る前には、ローカルメモリＬＭＬの各アドレスには、ソ
ートするデータのとり得る最小値を格納しておく。

【０１３８】まず、すべてのプロセシングエレメントの
出力が、リンク処理部ＬＯＵａに取り込まれると、グロ
ーバルバスＧＰ０とローカルメモリＬＭＬのアドレス＝
“０”に格納された値とにより最大値演算が行なわれ、
大きい値をローカルメモリＬＭＬのアドレス＝“０”に
書込み、小さい方をレジスタＲ７１に格納する。次に、
ローカルメモリＬＭＬのアドレス＝“１”のデータと、
レジスタＲ７１に格納されている前回の最大値検出演算
で小さかった方の値との間で、最大値検出演算を前回と
同様にして行なう。このとき、大きい方の値をローカル
メモリＬＭＬのアドレス＝“１”に書込み、小さい方の
値をレジスタＲ７１に格納する。ローカルメモリＬＭＬ
のアドレス＝“２”のデータに対しても同様に、レジス
タＲ７１のデータとの間で最大値検出演算を行なう。

【０１３９】上記の処理により、１つのプロセシングエ
レメントの出力に対して、ローカルメモリＬＭＬに格納
されている上位３個のデータとの間で、最大値検出演算
とデータの交換を３回行なう。上記処理をグローバルバ
スＧＰ０からＧＰｎまで繰返すことにより、ｎ＋１個の
プロセシングエレメントの出力のうち大きい方から上位
３位までのデータを抽出することができる。また、この
プロセシングエレメントの出力に続いて次のプロセシン
グエレメントの出力に対しても同様の操作を行なうこと
により、２（ｎ＋１）個のデータの上位３位までのデー
タを抽出することができる。

【０１４０】また、上記に説明した最大値検出演算を最
小値検出演算に変更することにより、プロセシングエレ
メントの出力の小さい方から順にソートすることも可能
である。

【０１４１】以上の動作により、第９の実施例における
ＳＩＭＤプロセッサにおいては、グローバルバスに接続
されるリンク処理部ＬＯＵａを有し、リンク処理部ＬＯ
Ｕａは、加算、最大値／最小値演算が可能な算術論理演
算器ＡＬａおよびローカルメモリＬＭＬを具備する。し
たがって、プロセシングエレメントの出力の累算やソー
ティングをプロセシングエレメント間でのデータ交換を
行なうことなく、演算することができるので、並列化に
よる処理の高速化と並列プロセシングエレメントのデー
タの統合機能がさらに高まる。

【０１４２】次に、本発明の第１０の実施例のＳＩＭＤ
プロセッサについて説明する。図１９は、本発明の第１
０の実施例のＳＩＭＤプロセッサの構成を示すブロック
図である。図１９に示すＳＩＭＤプロセッサと図１７に
示すＳＩＭＤプロセッサとで異なる点は、インタフェー
ス部ＩＦａが複数出力のインタフェース部ＩＦｂに変更
された点であり、その他の点は同様であるので同一部分
には同一番号を付し以下その説明を省略する。

【０１４３】インタフェース部ＩＦｂの出力は４つの出
力ｏｕｔ０〜ｏｕｔ３であり、リンク処理部ＬＯＵｂか
ら出力される。各出力ｏｕｔ０〜ｏｕｔ３のデータのビ
ット幅は１６ビットである。

【０１４４】次に、インタフェース部ＩＦｂについてさ
らに詳細に説明する。図２０は、図１９に示すインタフ
ェース部の構成を示すブロック図である。

【０１４５】図２０を参照して、インタフェース部ＩＦ
ｂは、レジスタＲ８１〜Ｒ８８、セレクタＳ１０１〜Ｓ
１１０を含む。インタフェース部ＩＦｂは、すべてのプ
ロセシングエレメントの出力データに対する演算を行な
うため、８個の１６ビットのレジスタＲ８１〜Ｒ８８に
よりすべてのプロセシングエレメントの出力を取り込
む。取り込まれた出力は８入力セレクタＳ１１０および
セレクタＳ９１を介して算術論理演算器ＡＬａに渡され
る。リンク処理部ＬＯＵｂ内での演算結果ａｌｕＯＵＴ
は、２入力セレクタＳ１０９を介して出力ｏｕｔ０とし
て出力される。

【０１４６】プロセシングエレメント間でのデータの演
算が必要ない場合、各データを上位および下位の８ビッ
トに分割して、４つの出力部に接続された４入力セレク
タＳ１０１〜Ｓ１０８を介して出力する。４入力セレク
タＳ１０１〜Ｓ１０８へのデータの入力方法は、図２０
に示すとおりである。たとえば、ＧＰ７＜１５：８＞
は、グローバルバスＧＰ７の上位８ビットのデータを示
し、ＧＰ７＜７：０＞は、グローバルバスＧＰ７の下位
８ビットのデータを示している。

【０１４７】第１の出力方法として、プロセシングエレ
メントＰＥａ０〜ＰＥａ３のデータを出力させる場合
は、すべての４入力セレクタＳ１０１〜Ｓ１０８におい
て４入力データの最下段を選択する。したがって、プロ
セシングエレメントＰＥａ０の出力は出力ｏｕｔ０とし
て、プロセシングエレメントＰＥａ１の出力は出力ｏｕ
ｔ１として、プロセシングエレメントＰＥａ２の出力は
出力ｏｕｔ２として、プロセシングエレメントＰＥａ３
の出力は出力ｏｕｔ３として出力される。

【０１４８】第２の出力方法として、プロセシングエレ
メントＰＥａ４〜ＰＥａ７のデータを出力させる場合、
すべての４入力セレクタＳ１０１〜Ｓ１０８において４
入力データの下から２番目のデータを選択する。プロセ
シングエレメントＰＥａ４の出力は出力ｏｕｔ０とし
て、プロセシングエレメントＰＥａ５の出力は出力ｏｕ
ｔ１として、プロセシングエレメントＰＥａ６の出力は
出力ｏｕｔ２として、プロセシングエレメントＰＥａ７
の出力は出力ｏｕｔ３として、それぞれ出力される。

【０１４９】第３の出力方法として、すべてのプロセシ
ングエレメントの出力データの下位８ビットを出力させ
る場合、すべての４入力セレクタＳ１０１〜Ｓ１０８に
おいて４入力データの下から３番目のデータを選択す
る。プロセシングエレメントＰＥａ０の下位８ビットは
出力ｏｕｔ０の下位８ビットに、プロセシングエレメン
トＰＥａ１の下位８ビットは出力ｏｕｔ０の上位８ビッ
トに、プロセシングエレメントＰＥａ２の下位８ビット
は出力ｏｕｔ１の下位８ビットに、プロセシングエレメ
ントＰＥａ３の下位８ビットは出力ｏｕｔ１の上位８ビ
ットに出力され、以降プロセシングエレメントＰＥａ４
〜ＰＥａ７も同様にして出力ｏｕｔ２およびｏｕｔ３と
して出力される。

【０１５０】第４の出力方法として、全プロセシングエ
レメントの出力データの上位８ビットを出力させる場
合、すべての４入力セレクタＳ１０１〜Ｓ１０８におい
て４入力データの最上段のデータを選択する。プロセシ
ングエレメントＰＥａ０の上位８ビットは出力ｏｕｔ０
の下位８ビットに、プロセシングエレメントＰＥａ１の
上位８ビットは出力ｏｕｔ０の上位８ビットに、プロセ
シングエレメントＰＥａ２の上位８ビットは出力ｏｕｔ
１の下位８ビットに、プロセシングエレメントＰＥａ３
の上位８ビットは出力ｏｕｔ１の上位８ビットに出力さ
れ、以降プロセシングエレメントＰＥａ４〜ＰＥａ７も
同様に出力ｏｕｔ２およびｏｕｔ３として出力される。

【０１５１】以上の動作により、第１０の実施例におけ
る８並列プロセシングエレメントを具備するＳＩＭＤプ
ロセッサにおいては、プロセシングエレメントの出力を
リンク処理部ＬＯＵｂを介して出力し、リンク処理部Ｌ
ＯＵｂの出力を４出力として各プロセシングエレメント
の出力を上位および下位に分割して選択的に出力するこ
とができる。したがって、様々な出力モードでプロセシ
ングエレメントの出力を外部に出力することができ、か
つ、８並列の出力に対して少ない外部出力本数で出力可
能となる。

【０１５２】次に、本発明の第１１の実施例のＳＩＭＤ
プロセッサについて説明する。図２１は、本発明の第１
１の実施例のＳＩＭＤプロセッサの構成を示すブロック
図である。図２１に示すＳＩＭＤプロセッサは図１７に
示すＳＩＭＤプロセッサの構成に加え、さらに、セレク
タＳ９３〜Ｓ９６、レジスタＲ７２、Ｒ７３、ローカル
メモリＬＭＬｂ、インクリメンタＡＤＵを含む。その他
の部分は図１７に示すＳＩＭＤプロセッサと同様である
ので同一部分には同一符号を付し以下その説明を省略す
る。

【０１５３】インクリメンタＡＤＵは、インタフェース
部ＩＦａから算術論理演算器ＡＬｂにソーティング演算
を行なうためにデータが与えられるごとにその値を１つ
増加させて、ローカルメモリＬＭＬｂとのデータ交換に
備えて次段のセレクタＳ９３に与える。上記の動作によ
り、インタフェース部ＩＦａを介して入力されるプロセ
シングエレメントの出力に固有のコードを割り当てるこ
とができる。ローカルメモリＬＭＬｂに対するアドレッ
シングおよび第１段の２つの２入力セレクタＳ９３およ
びＳ９４に対する制御は、算術論理演算器ＡＬｂに接続
されたローカルメモリＬＭＬａおよびセレクタＳ９１お
よびＳ９２に対するものと同様である。

【０１５４】第２段の２つの２入力セレクタＳ９３およ
びＳ９４は、算術論理演算器ＡＬｂの演算結果による制
御を受けて、算術論理演算器ＡＬｂにおけるデータの交
換と同様にデータの交換を行なう。したがって、２入力
セレクタＳ９５およびＳ９６に接続されたレジスタＲ７
２およびローカルメモリＬＭＬｂは、プロセシングエレ
メントの出力データの交換に並行して、各データに付加
された固有のコードを格納している。この結果、並列プ
ロセシングエレメントＰＥａ０〜ＰＥａｎからリンク処
理部ＬＯＵｃに入力されたデータのソーティングによっ
て抽出された上位または下位数項のデータがどのプロセ
シングエレメントの出力であったかを容易に特定するこ
とができる。また、リンク処理部ＬＯＵｃへのデータの
入力を繰返しても、抽出されたデータがどのプロセシン
グエレメントの何番目の出力かを特定することが可能と
なる。

【０１５５】以上の構成により、第１１の実施例におけ
るＳＩＭＤプロセッサにおいては、リンク処理部ＬＯＵ
ｃにおいて、プロセシングエレメントの出力のソーティ
ングを行なう場合に、各プロセシングエレメントの出力
に対してコードを割り当ててソーティングを行なうこと
が可能となる。したがって、ベクトルマッチング処理の
ようにデータにコードを割り当てて識別が必要な処理に
対して、プロセシングエレメント自体がコードを生成す
る必要がなく、プロセシングエレメントの回路規模を削
減することができる。また、プロセシングエレメントに
おける演算と並行してコード付けとソーティングが実行
されるので、処理がより高速化される。

【０１５６】上記第１〜第１１実施例の各構成は任意に
組合わせることができ、その場合は各実施例で説明した
効果と同様の効果を得ることができる。

【０１５７】

【発明の効果】請求項１〜請求項３記載のＳＩＭＤプロ
セッサにおいては、３本のローカルバスおよび複合演算
用バスにそれぞれデータを転送することができるので、
プロセシングエレメント間におけるデータ転送の効率を
向上させるとともに、高速に種々の演算を実行すること
が可能となる。

【０１５８】請求項４および請求項５記載のＳＩＭＤプ
ロセッサにおいては、機能の異なる第１ないし第３グロ
ーバルバスを具備することにより、プロセシングエレメ
ント間でのデータの転送をフレキシブルにかつ高速に実
行することが可能となる。

【０１５９】請求項６および請求項７記載のＳＩＭＤプ
ロセッサにおいては、８つのプロセシングエレメント間
が論理的に等間隔で接続されるため、プロセシングエレ
メント間でのデータの転送を高速にかつ様々なプロセシ
ングエレメントの組合せに対して実行することが可能と
なる。

【０１６０】請求項８および請求項９記載のＳＩＭＤプ
ロセッサにおいては、内部に具備したローカルメモリを
単独および直列に接続して使用することができるので、
画像処理に有効なラインメモリとして機能させることが
できるとともに個々のローカルメモリに独立した外部デ
ータを入力することが可能となる。この結果、高速なデ
ータ転送を実現するとともに、並列に動作させることで
高速な処理が可能となり、幅広い用途に使用することが
可能となる。

【０１６１】請求項１０および請求項１１記載のＳＩＭ
Ｄプロセッサにおいては、個々に独立に制御可能な３つ
のバンクメモリを具備しているので、同時に２つのバン
クメモリを読出用に、１つのバンクメモリを書込用に用
いることができ、高速な処理が可能となる。

【０１６２】請求項１２および請求項１３記載のＳＩＭ
Ｄプロセッサにおいては、演算手段に対する制御信号を
各プロセシングエレメント内部で生成することができる
ので、全体制御手段からの出力はオペレーションコード
のみとなり、制御バスの本数を削減することが可能とな
る。

【０１６３】請求項１４および請求項１５記載のＳＩＭ
Ｄプロセッサにおいては、各演算器が演算結果に対応し
たフラグを生成し、全体制御手段からの条件判定コード
に応じて演算器のフラグを判定し、演算器に対する制御
信号にマスクをかけているので、同じ制御信号で並列動
作している複数のプロセシングエレメントを演算結果に
応じて選択的に動作させることが可能となる。この結
果、より多様な処理を実行することができる。

【０１６４】請求項１６および請求項１７記載のＳＩＭ
Ｄプロセッサにおいては、命令記述が容易になり、任意
の位置で条件判定命令を記述できるので、命令ステップ
数が削減され、処理を高速化することができる。

【０１６５】請求項１８および請求項１９記載のＳＩＭ
Ｄプロセッサにおいては、プロセシングエレメント間で
のデータ転送を行なうことなくプロセシングエレメント
の出力の累算やソーティングを行なうことができるの
で、各プロセシングエレメントでの処理が高速化され、
プロセシングエレメント間のデータの統合機能が高ま
る。

【０１６６】請求項２０および請求項２１記載のＳＩＭ
Ｄプロセッサにおいては、プロセシングエレメントの出
力を上位および下位に分割して選択的に出力することが
できるので、様々なモードでプロセシングエレメントの
出力を外部に出力することができるとともに、８並列の
出力に対して少ない外部出力本数で出力可能となる。

【０１６７】請求項２２および請求項２３記載のＳＩＭ
Ｄプロセッサにおいては、リンク処理手段においてソー
ティングされたデータに対して所定のコードを割付けて
いるので、プロセシングエレメントでコードを生成する
必要がなく、回路規模を削減することができる。また、
プロセシングエレメントとの演算と並行してコード付け
とソーティングが実行されるので処理がより高速化され
る。

【図面の簡単な説明】

【図１】本発明の第１の実施例のＳＩＭＤプロセッサ
の構成を示すブロック図である。

【図２】図１に示すビット演算器の構成を示すブロッ
ク図である。

【図３】本発明の第２の実施例のＳＩＭＤプロセッサ
の主要部の構成を示すブロック図である。

【図４】本発明の第３の実施例のＳＩＭＤプロセッサ
の主要部の構成を示すブロック図である。

【図５】図４に示すデータ入出力部の構成を示す図で
ある。

【図６】グローバルバス入出力制御信号とデータ入出
力部の入出力選択との関係を示す図である。

【図７】本発明の第４の実施例のＳＩＭＤプロセッサ
の主要部の構成を示すブロック図である。

【図８】フィルタリングにおける局所処理を説明する
ための図である。

【図９】本発明の第５の実施例のＳＩＭＤプロセッサ
の主要部の構成を示すブロック図である。

【図１０】本発明の第６の実施例のＳＩＭＤプロセッ
サの主要部の構成を示すブロック図である。

【図１１】図１０に示すＰＥ演算制御部の構成を示す
ブロック図である。

【図１２】図１１に示すＳＩＭＤプロセッサにおける
命令と制御との関係を示す図である。

【図１３】本発明の第７の実施例のＳＩＭＤプロセッ
サの構成を示すブロック図である。

【図１４】本発明の第８の実施例のＳＩＭＤプロセッ
サの構成を示すブロック図である。

【図１５】図１４に示すパイプラインレジスタの構成
を示すブロック図である。

【図１６】図１５に示すパイプラインレジスタの動作
を説明するための図である。

【図１７】本発明の第９の実施例のＳＩＭＤプロセッ
サの構成を示すブロック図である。

【図１８】ソーティング処理を説明するための図であ
る。

【図１９】本発明の第１０の実施例のＳＩＭＤプロセ
ッサの構成を示すブロック図である。

【図２０】図１９に示すインタフェース部の構成を示
すブロック図である。

【図２１】本発明の第１１の実施例のＳＩＭＤプロセ
ッサの構成を示すブロック図である。

【図２２】従来のＳＩＭＤプロセッサの構成を示すブ
ロック図である。

【符号の説明】

ＣＵａ全体制御部、ＣＢ制御バス、ＧＢグローバ
ルバス、ＰＥａ０〜ＰＥａｎプロセシングエレメン
ト、ＬＭａローカルメモリ、ＩＯａデータ入出力
部、ＡＬＢＡＬＵブロック、ＭＢＭＰＹブロック、
ＢＢＢＭＵブロック、ＡＵＢＡＵブロック、Ｒ１〜
Ｒ１２レジスタ、Ｓ１〜Ｓ９セレクタ、ＡＬ算術
論理演算器、ＭＰ乗算器、ＢＭビット演算器、ＡＵ
累算器、ＬＢ０〜ＬＢ２ローカルバス、ＭＯＢ０〜
ＭＯＢ２複合演算用バス。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロバート・ストライテンベルガー兵庫県伊丹市瑞原４丁目１番地三菱電機株式会社システムエル・エス・アイ開発研究所内

Claims

【特許請求の範囲】

【請求項１】全体制御手段と、複数のプロセシングエレメントと、前記複数のプロセシングエレメントの各々を一次元的に
並列に接続するグローバルバスと、前記全体制御手段と前記複数のプロセシングエレメント
の各々とを接続する制御バスとを含み、前記複数のプロセシングエレメントの各々は、ローカルメモリと、複数の演算手段と、データ入出力手段と、前記ローカルメモリ、前記複数の演算手段、および前記
データ入出力手段とに接続され、データを伝送するため
のローカルバスと、前記複数の演算手段の各々と接続され、複合演算を行な
うためのデータを伝送するための複合演算用バスとを含
み、前記全体制御手段は、同一演算を行なうように前記複数のプロセシングエレメ
ントの各々の動作を制御するＳＩＭＤプロセッサ。
【請求項２】前記ローカルバスは、３本のローカルバ
スを含み、前記３本のローカルバスは、前記複数の演算手段へデータを入力するための２本のデ
ータ入力用ローカルバスと、前記複数の演算手段からデータを出力するための１本の
データ出力用ローカルバスとを含む請求項１記載のＳＩ
ＭＤプロセッサ。
【請求項３】前記複数の演算手段は、算術論理演算器と、乗算器と、ビット演算器と、累算器とを含み、前記複合演算用バスは、前記算術論理演算器の出力データを前記乗算器、前記ビ
ット演算器、および前記累算器へ出力するための第１複
合演算用バスと、前記乗算器の出力データを前記ビット演算器、および前
記累算器へ出力するための第２複合演算用バスと、前記ビット演算器の出力データを前記累算器へ出力する
ための第３複合演算用バスとを含む請求項２記載のＳＩ
ＭＤプロセッサ。
【請求項４】全体制御手段と、各々がローカルメモリを含む複数のプロセシングエレメ
ントと、前記複数のプロセシングエレメントの各々を一次元的に
並列に接続するグローバルバスと、前記全体制御手段と前記複数のプロセシングエレメント
の各々とを接続する制御バスとを含み、前記グローバルバスは、前記全体制御手段の出力データを前記複数のプロセシン
グエレメントの各々へ伝送するための第１グローバルバ
スと、前記複数のプロセシングエレメントの各々の出力データ
を前記複数のプロセシングエレメントの各々へ出力する
ための第２グローバルバスと、前記複数のプロセシングエレメントのうち１つのプロセ
シングエレメントの前記ローカルメモリのデータを他の
プロセシングエレメントへ出力するための第３グローバ
ルバスとを含むＳＩＭＤプロセッサ。
【請求項５】前記複数のプロセシングエレメントの各々
は、さらに、複数の演算手段と、データ入出力手段と、前記ローカルメモリ、前記複数の演算手段、および前記
データ入出力手段とに接続され、データを伝送するため
のローカルバスとを含み、前記ローカルメモリは、前記データ入出力手段を介して前記第３グローバルバス
と接続される請求項４記載のＳＩＭＤプロセッサ。
【請求項６】並列に備えられた８つのプロセシングエ
レメントと、前記８つのプロセシングエレメント間を論理的に等間隔
で接続する８本のグローバルバスとを含み、前記８つのプロセシングエレメントの各々は、前記８本のグローバルバスのうち所定の４本のグローバ
ルバスからデータが入力され、残りの４本のグローバル
バスのうち所定の２本のグローバルバスへデータを出力
するＳＩＭＤプロセッサ。
【請求項７】前記８本のグローバルバスは、第１ない
し第８グローバルバスを含み、前記８つのプロセシングエレメントは、第１ないし第８
プロセシングエレメントを含み、前記第１ないし第８プロセシングエレメントの各々は、
第１および第２出力ポートおよび第１ないし第４入力ポ
ートを含み、前記第１プロセシングエレメントは、前記第１および第２出力ポートから前記第１および第５
グローバルバスへそれぞれデータを出力し、かつ、前記
第１ないし第４グローバルバスから前記第１ないし第４
入力ポートへそれぞれデータを入力され、前記第２プロセシングエレメントは、前記第１および第２出力ポートから前記第２および第６
グローバルバスへそれぞれデータを出力し、かつ、前記
第２ないし第４、第１グローバルバスから前記第１ない
し第４入力ポートへそれぞれデータを入力され、前記第３プロセシングエレメントは、前記第１および第２出力ポートから前記第３および第７
グローバルバスへそれぞれデータを出力し、かつ、前記
第３、第４、第１、第２グローバルバスから前記第１な
いし第４入力ポートへそれぞれデータを入力され、前記第４プロセシングエレメントは、前記第１および第２出力ポートから前記第４および第８
グローバルバスへそれぞれデータを出力し、かつ、前記
第４、第１ないし第３グローバルバスから前記第１ない
し第４入力ポートへそれぞれデータを入力され、前記第５プロセシングエレメントは、前記第１および第２出力ポートから前記第５および第１
グローバルバスへそれぞれデータを出力し、かつ、前記
第５ないし第８グローバルバスから前記第１ないし第４
入力ポートへそれぞれデータを入力され、前記第６プロセシングエレメントは、前記第１および第２出力ポートから第６および第２グロ
ーバルバスへそれぞれデータを出力し、かつ、前記第６
ないし第８、第５グローバルバスから前記第１ないし第
４入力ポートへそれぞれデータを入力され、前記第７プロセシングエレメントは、前記第１および第２出力ポートから前記第７および第３
グローバルバスへそれぞれデータを出力し、かつ、前記
第７、第８、第５、第６グローバルバスから前記第１な
いし第４出力ポートへそれぞれデータを入力され、前記第８プロセシングエレメントは、前記第１および第２出力ポートから前記第８および第４
グローバルバスへそれぞれデータを出力し、かつ、前記
第８、第５ないし第７グローバルバスから前記第１ない
し第４入力ポートへそれぞれデータを入力される請求項
６記載のＳＩＭＤプロセッサ。
【請求項８】複数のプロセシングエレメントを含むＳ
ＩＭＤプロセッサであって、前記複数のプロセシングエレメントの各々は、ローカルメモリと、隣接する１つの前記プロセシングエレメントの前記ロー
カルメモリの出力データを選択的に自身のローカルメモ
リへ入力するための入力手段とを含み、前記ローカルメモリは、直列に接続されるＳＩＭＤプロ
セッサ。
【請求項９】前記入力手段は、外部から入力されるデータ、隣接する１つの前記プロセ
シングエレメントのローカルメモリの出力データ、およ
び自身の前記ローカルメモリの出力データのうち一方の
データを選択的に入力する選択入力手段を含む請求項８
記載のＳＩＭＤプロセッサ。
【請求項１０】複数のプロセシングエレメントを含む
ＳＩＭＤプロセッサであって、前記複数のプロセシングエレメントの各々は、ローカルメモリを含み、前記ローカルメモリは、各々が独立に制御可能な３つのバンクメモリを含むＳＩ
ＭＤプロセッサ。
【請求項１１】前記ＳＩＭＤプロセッサは、さらに、全体制御手段を含み、前記複数のプロセシングエレメントの各々は、さらに、複数の演算手段を含み、前記ローカルメモリは、さらに、前記演算手段の演算結果を格納するためのレジスタと、前記全体制御手段から出力されるアドレスと前記レジス
タに格納された前記演算結果のうち一方を選択的に前記
バンクメモリのアドレスとして出力する選択手段とを含
む請求項１０記載のＳＩＭＤプロセッサ。
【請求項１２】全体制御手段と、複数のプロセシングエレメントと、前記複数のプロセシングエレメントの各々を一次元的に
並列に接続するグローバルバスと、前記全体制御手段と前記複数のプロセシングエレメント
の各々とを接続する制御バスとを含み、前記複数のプロセシングエレメントは、各々が制御信号に応じて動作する複数の演算手段と、前記全体制御手段から前記制御バスを介して伝送される
オペレーションコードをデコードし、前記複数の演算手
段に対応した複数の前記制御信号およびパイプ遅延信号
を出力するデコード手段と、前記複数の制御信号ごとに設けられ、前記複数の制御信
号のうち対応する制御信号を受け、前記複数のパイプ遅
延信号のうち対応する遅延信号に応答して、所定のタイ
ミングで前記制御信号を出力する複数のパイプラインレ
ジスタ手段とを含むＳＩＭＤプロセッサ。
【請求項１３】前記複数の演算手段は、算術論理演算器と、乗算器と、ビット演算器と、累算器とを含み、前記複数のパイプラインレジスタ手段は、前記デコード手段から出力される前記算術論理演算器用
の前記制御信号を格納する１段の第１レジスタと、前記デコード手段から出力される前記乗算器用の前記制
御信号を格納し、前記乗算器用の前記パイプ遅延信号に
応答して所定のタイミングで前記乗算器用の制御信号を
出力する２段の第２レジスタと、前記デコード手段から出力される前記ビット演算器用の
前記制御信号を格納し、前記ビット演算器用の前記パイ
プ遅延信号に応答して所定のタイミングで前記ビット演
算器用の制御信号を出力する３段の第３レジスタと、前記デコード手段から出力される前記累算器用の前記制
御信号を格納し、前記累算器用の前記パイプ遅延信号に
応答して所定のタイミングで前記累算器用の制御信号を
出力する４段の第４レジスタとを含む請求項１２記載の
ＳＩＭＤプロセッサ。
【請求項１４】全体制御手段と、複数のプロセシングエレメントと、前記複数のプロセシングエレメントとを一次元的に並列
に接続するグローバルバスと、前記全体制御手段と前記複数のプロセシングエレメント
の各々とを接続する制御バスとを含み、前記複数のプロセシングエレメントの各々は、各々が制御信号に応じて動作する複数の演算手段と、前記複数の演算手段の各々が出力する演算結果に対応す
るフラグと、前記全体制御手段から前記制御バスを介し
て出力される条件判定コードとを比較する比較手段と、前記比較手段の比較結果に応じて、前記全体制御手段か
ら前記制御バスを介して前記複数の演算手段ごとに出力
される前記制御信号にマスクをかけ、前記制御信号を出
力するマスク手段とを含むＳＩＭＤプロセッサ。
【請求項１５】前記比較手段は、前記複数のフラグのうち所定のフラグを選択するセレク
タと、前記セレクタの出力と前記条件判定コードとを比較し、
所定の比較結果を出力する比較判定器とを含み、前記マスク手段は、前記比較判定器が出力する前記比較結果を格納するレジ
スタと、前記制御信号ごとに設けられ、前記レジスタの出力と前
記制御信号の各々との論理積を前記複数の演算手段のう
ち対応する演算手段へ出力する複数のＡＮＤ回路とを含
む請求項１４記載のＳＩＭＤプロセッサ。
【請求項１６】全体制御手段と、各々が制御信号に応じて動作する複数の演算手段を含む
複数のプロセシングエレメントと、前記複数のプロセシングエレメントの各々とを一次元的
に並列に接続するグローバルバスと、前記全体制御手段と前記複数のプロセシングエレメント
の各々とを接続する制御バスとを含み、前記全体制御手段は、前記複数の演算手段ごとに対応した前記制御信号をパイ
プ遅延させるパイプライン手段を含み、前記パイプライン手段は、前記制御バスを介して前記複数のプロセシングエレメン
トの各々に、パイプ挿入に必要な複数のパイプ遅延値と
パイプ遅延した前記制御信号を出力し、前記複数のプロセシングエレメントの各々は、さらに、前記複数の演算手段の各々が出力する演算結果に対応す
るフラグと、前記全体制御手段から前記制御バスを介し
て出力される条件判定コードとを比較する比較手段と、前記複数のパイプ遅延値および前記比較手段の比較結果
に応じて、前記パイプライン手段から出力される前記制
御信号にマスクをかけ、前記制御信号を対応する前記複
数の演算手段に出力するマスク手段とを含むＳＩＭＤプ
ロセッサ。
【請求項１７】前記比較手段は、前記複数のフラグのうち所定のフラグを選択するセレク
タと、前記セレクタの出力と前記条件判定コードとを比較し、
所定の比較結果を出力する比較判定器とを含み、前記マスク手段は、前記比較判定器が出力する前記比較結果を格納するレジ
スタと、前記複数のパイプ遅延値に応じて、前記比較手段の前記
比較結果を出力する比較結果出力手段と、前記制御信号ごとに設けられ、前記比較結果出力手段か
ら出力される前記比較結果と前記全体制御手段から出力
される前記制御信号の各々との論理積を前記複数の演算
手段のうち対応する演算手段へ出力する複数のＡＮＤ回
路とを含む請求項１６記載のＳＩＭＤプロセッサ。
【請求項１８】複数のプロセシングエレメントと、リンク処理手段と、前記複数のプロセシングエレメントの各々とリンク処理
手段とを一次元的に並列に接続するグローバルバスとを
含み、前記リンク処理手段は、少なくとも、加算、および最大値／最小値演算が可能な
算術論理演算器と、データを記憶するローカルメモリとを含むＳＩＭＤプロ
セッサ。
【請求項１９】前記リンク処理手段は、さらに、前記グローバルバスにより伝送されるデータの入出力を
行なうインタフェース手段と、前記インタフェース手段の出力および前記ローカルメモ
リの出力のうち一方を選択的に前記算術論理演算器へ出
力する第１セレクタと、前記算術論理演算器の出力を格納するレジスタと、前記レジスタの出力および前記ローカルメモリの出力の
うち一方を選択的に前記算術論理演算器へ出力する第２
セレクタとを含み、前記ローカルメモリは、前記算術論理演算器の出力を記憶する請求項１８記載の
ＳＩＭＤプロセッサ。
【請求項２０】８つのプロセシングエレメントと、リンク処理手段と、前記８つのプロセシングエレメントの各々と前記リンク
処理手段とを一次元的に並列に接続するグローバルバス
とを含み、前記リンク処理手段は、前記８つのプロセシングエレメントの各々の出力データ
を上位データと下位データとに分割して前記上位データ
および下位データのうち一方を選択的に出力する８つの
分割手段を含み、前記リンク処理手段は、前記８つの分割手段のうち２つの出力データを組合わせ
て４つの出力データを出力するＳＩＭＤプロセッサ。
【請求項２１】前記リンク処理手段は、さらに、少なくとも、加算、および最大値／最小値演算が可能な
算術論理演算器と、データを記憶するローカルメモリとを含む請求項２０記
載のＳＩＭＤプロセッサ。
【請求項２２】複数のプロセシングエレメントと、リンク処理手段と、前記複数のプロセシングエレメントの各々と前記リンク
処理手段とを一次元的に並列に接続するグローバルバス
とを含み、前記リンク処理手段は、前記複数のプロセシングエレメントから前記グローバル
バスを介して入力される複数のデータに対してソーティ
ングを行なうためのソーティング手段と、前記ソーティング手段によりソーティングされる前記複
数のデータの各々に対して所定のコードを割付けるコー
ド割付手段とを含むＳＩＭＤプロセッサ。
【請求項２３】前記コード割付手段は、前記ソーティング手段によるデータの移動および格納と
同様に前記コードを移動および格納させる請求項２２記
載のＳＩＭＤプロセッサ。