JP2003263331A

JP2003263331A - マルチプロセッサシステム

Info

Publication number: JP2003263331A
Application number: JP2002061576A
Authority: JP
Inventors: Atsushi Kunimatsu; 松敦国; Kenji Shirakawa; 川健治白; Takashi Fujiwara; 原崇藤; Jiro Amamiya; 宮治郎雨
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-03-07
Filing date: 2002-03-07
Publication date: 2003-09-19
Also published as: EP1365321A2; CN1444154A; US20030177288A1; TWI221250B; EP1365321A3; KR20030074047A; KR100538727B1

Abstract

(57)【要約】【課題】一つ以上の演算プロセッサでの処理を効率的
にスケジューリングする。【解決手段】本発明は、ブロック単位でアクセス可能
なメモリと、メモリに格納されたブロックデータを用い
て、指定されたタスクを実行可能な一つ以上の演算プロ
セッサと、演算プロセッサでのタスクの実行を制御する
制御プロセッサと、を備え、制御プロセッサは、指定さ
れたタスクの実行に用いられるブロックデータ同士の依
存関係をチェックする依存関係チェック部と、チェック
された依存関係に基づいて、メモリに対するアクセス、
メモリから演算プロセッサへのデータ転送、および演算
プロセッサでのデータ処理のスケジューリングを行うス
ケジューリング部と、を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像データ等の大
容量データを処理可能な複数のプロセッサからなるマル
チプロセッサシステムに関する。

【０００２】

【従来の技術】通常のプロセッサは、比較的小容量のデ
ータを処理することを前提としているため、レジスタに
は高価な小容量のマルチポートメモリを使用するのが一
般的である。このため、これら通常のプロセッサを複数
用いてマルチプロセッサシステムを構築すると、各プロ
セッサ間で頻繁にデータをやり取りしなければならず、
各プロセッサの制御が複雑になってしまう。

【０００３】

【発明が解決しようとする課題】既存のマルチプロセッ
サシステムとして代表的なものに、共有メモリ型並列プ
ロセッサシステムとベクトルプロセッサシステムがあ
る。

【０００４】共有メモリ型並列プロセッサシステムは、
演算器用のプロセッサが自発的にデータを取得するた
め、プログラムが各プロセッサの処理を最適にスケジュ
ーリングするのは困難である。例えば、グラフィックス
の重ね描き描画を行う場合、小さな処理単位を繰り返し
て結果的に大容量のデータになるため、同システムで
は、各プロセッサが自発的に何度もデータを取得する処
理を繰り返す結果になり、各プロセッサの処理を最適化
するのは事実上不可能である。

【０００５】また、ベクトルプロセッサシステムでは、
ホストコンピュータがベクトルプロセッサの処理を制御
する。ところが、従来の同システムでは、ホストコンピ
ュータは、ベクトルプロセッサのネットワークアクセス
やメモリアクセスのスケジューリングを行っておらず、
コンパイラがスケジューリングを行っていた。例えば、
同システムでグラフィックスの重ね描き処理を行う場
合、データの依存関係をすべてコンパイラ上でチェック
してスケジューリングしなければならず、コンパイル処
理に時間がかかってしまう。

【０００６】本発明は、このような点に鑑みてなされた
ものであり、その目的は、一つ以上の演算プロセッサで
の処理を効率的にスケジューリングすることができるマ
ルチプロセッサシステムを提供することにある。

【０００７】

【課題を解決するための手段】上述した課題を解決する
ために、本発明は、メモリに格納されたデータを用いて
タスクを実行する一つ以上の演算プロセッサと、前記演
算プロセッサでのタスクの実行を制御する制御プロセッ
サと、を備え、前記制御プロセッサは、タスクを実行す
る際にデータ同士の依存関係をチェックする依存関係チ
ェック部と、前記チェックされた依存関係に基づいて、
前記メモリに対するアクセス、前記メモリから前記演算
プロセッサへのデータ転送、および前記演算プロセッサ
での演算スケジューリングを行うスケジューリング部
と、を有する。

【０００８】

【発明の実施の形態】以下、本発明に係るマルチプロセ
ッサシステムの一実施形態について、図面を参照しなが
ら具体的に説明する。

【０００９】図１は本発明に係るマルチプロセッサシス
テムの一実施形態の概略構成を示すブロック図である。
図１のマルチプロセッサシステムは、複数のバンクで構
成されてバンク単位でアクセス可能なメモリ１と、バン
ク単位で読み出したブロックデータを用いて所定の演算
処理を行う複数の演算プロセッサ２を有する演算処理部
（LDALU）３と、複数の演算プロセッサ２とメモリ１と
の間でのデータ送受を制御するクロスバー部（X-bar）
４と、クロスバー部４を制御するクロスバー制御部５
と、演算処理部３を制御する制御プロセッサ（LDPCU）
６と、外部メモリ７とのデータの送受を行う外部インタ
フェース部８とを備えている。

【００１０】メモリ１は例えば、複数のバンクからなる
ワンポートメモリで構成される。演算処理部３は、バン
ク単位で読み出したブロックデータを用いてタスクを実
行する複数の演算プロセッサ２と、各演算プロセッサ２
に対応して設けられるSRAM９とを有する。

【００１１】メモリ１、演算処理部３および外部インタ
フェース部８は、バッファ１０を介してクロスバー部４
とデータの送受を行う。

【００１２】制御プロセッサ６は、各タスクが用いるブ
ロックデータ同士の依存関係をチェックする依存関係チ
ェック部２１と、演算プロセッサ２やクロスバー部４の
処理状況等を把握するリソースチェック部２２と、メモ
リ１から演算プロセッサ２へのデータ転送、メモリ１に
対するアクセス、および演算プロセッサ２でのデータ処
理のスケジューリングを行うスケジュール管理部２３
と、メモリ１と演算プロセッサ２との間でのＤＭＡ転送
を制御するＤＭＡコントローラ２４と、プログラマによ
って与えられた命令列を格納する命令格納部２５と、を
有する。

【００１３】図２は本実施形態の処理内容を説明する図
である。図示のように、本実施形態では、例えば、２枚
の画像を合成（ブレンド）するタスクを複数回繰り返す
処理を一つのスレッド（thread）とし、互いに依存関係
のない複数のスレッドを並行して実行することを想定し
ている。ここでは、同一または異なる合成画像を生成す
る際に共通して用いられるタスク同士を依存関係ありと
し、それ以外のタスクを依存関係なしとする。

【００１４】図２において、符号０〜１２を付した各ブ
ロックは画像データを表しており、各ブロックの上側に
記載されたaddrXXは、対応する画像データの格納先アド
レスを示している。例えば、addr0aとは、メモリ１のア
ドレス０ａを示している。

【００１５】図２のスレッド０は、メモリ１のアドレス
０ａに格納された画像０とアドレス１ａに格納された画
像１を識別番号Ｐ０の演算プロセッサ２で合成した画像
８をアドレス０ｃに格納するとともに、アドレス２ａに
格納された画像２とアドレス３ａに格納された画像３を
識別番号Ｐ２の演算プロセッサ２で合成した画像９をア
ドレス２ｃに格納し、その後、画像８，９を識別番号Ｐ
０の演算プロセッサ２で合成した画像１２をアドレス０
ｄに格納する処理を行う。

【００１６】また、図２のスレッド１は、メモリ１のア
ドレス３ｃに格納された画像４とアドレス０ｂに格納さ
れた画像５を識別番号Ｐ１の演算プロセッサ２で合成し
た画像１０をアドレス１ｂに格納するとともに、アドレ
ス１ｄに格納された画像６とアドレス２ｂに格納された
画像７を演算プロセッサＰ３で合成した画像１１をアド
レス３ｂに格納し、その後、画像１０，１１を識別番号
Ｐ１の演算プロセッサ２で合成した画像１３をアドレス
１ｃに格納する処理を行う。

【００１７】本実施形態では、２枚の画像を合成するた
めの専用の命令として、Blend命令を用意している。Ble
nd命令は、Blend(p,x,y,z)のように記述される。ｐは演
算プロセッサ２の識別番号、ｙはメモリ１から読み出さ
れる第１入力ブロックデータのアドレス、ｚはメモリ１
から読み出される第２入力ブロックデータのアドレス、
ｘはメモリ１に書き込まれる出力ブロックデータのアド
レスである。すなわち、Blend(p,x,y,z)は、メモリ１の
アドレスｙ，ｚの第１および第２入力ブロックデータを
識別番号ｐの演算プロセッサ２で合成したブロックデー
タをアドレスｘに格納することを示している。

【００１８】図２のスレッド０，１は、図３のように６
つのBlend命令で記述される。図３のスレッド０のBlend
(P0,0c,0a,1a)は図２の画像８を生成する処理に対応
し、Blend(P2,2c,2a,3a)は画像９を生成する処理に対応
し、Blend(P0,0d,0c,2c)は画像１２を生成する処理に対
応する。

【００１９】また、スレッド１のBlend(P1,1b,3c,0b)は
図２の画像１０を生成する処理に対応し、Blend(P3,3b,
1d,2b)は画像１１を生成する処理に対応し、Blend(P1,1
c,1b,3b)は画像１３を生成する処理に対応する。

【００２０】図３に示す命令列は、図１に示す命令格納
部２５に格納される。制御プロセッサ６、あるいは不図
示のコンパイラやインタプリタは、図３に示す命令列を
図４に示すような中間命令に変換する。変換された中間
命令は、命令格納部２５に格納してもよいし、中間命令
を格納するための格納部を別個に設けてもよい。

【００２１】図示のように、一つのBlend命令は三つの
中間命令に変換され、さらに不図示のアセンブラで機械
語に変換されて制御プロセッサ６により実行される。

【００２２】例えば、Blend(P0,0c,0a,1a)を例に取る
と、まず、中間命令DMA(P0SPM,0a)により、メモリ１の
アドレス０ａのブロックデータが、識別番号Ｐ０の演算
プロセッサ２に対応するSRAM９にＤＭＡ転送される。続
いて、中間命令DMA(P0SPM,1a)により、メモリ１のアド
レス１ａのブロックデータが、識別番号Ｐ０の演算プロ
セッサ２に対応するSRAM９にＤＭＡ転送される。続い
て、中間命令kick(P0,0c,P0SPM, Blend)により、SRAM９
に格納された２つのブロックデータ同士が識別番号Ｐ０
の演算プロセッサ２で合成され、合成されたブロックデ
ータがメモリ１のアドレス０ｃに格納される。Kick命令
の最後の引数のBlendは、Blend処理の命令列のありかを
示すアドレスのタグである。

【００２３】図４の中間命令列の右側に記述された数字
０Ａ，０Ｂ等は各中間命令を識別する番号である。

【００２４】図５は制御プロセッサ６の動作を説明する
図であり、図５の右方向は時間軸を示している。図５は
図４に示すスレッド０，１を処理する場合の制御プロセ
ッサ６の動作を説明している。

【００２５】まず、制御プロセッサ６はスレッド０の中
間命令０Ａ，０Ｂ，０Ｃを順に処理する。このとき、制
御プロセッサ６は、スケジュール管理部２３内に設けら
れるタスクスキューに対してＤＭＡ転送を指示して、す
ぐに次の中間命令の処理を行う。

【００２６】このように、制御プロセッサ６は、各中間
命令ごとにはＤＭＡ転送を行わず、ＤＭＡ転送の指示だ
けをタスクキューに溜める処理を行っていく。

【００２７】スレッド０の中間命令０Ｃの処理が終わっ
た段階で、例えば不図示のタイマからスレッドの切替割
り込み信号がスケジュール管理部２３に入力されると、
制御プロセッサ６は、スレッド０の代わりにスレッド１
の中間命令１Ａ，１Ｂ，１Ｃを順に処理していく。ここ
でも、制御プロセッサ６は、スケジュール管理部２３の
タスクキューに対してＤＭＡ転送を指示して、すぐに次
の中間命令の処理を行う。

【００２８】スレッド１の中間命令１Ｃの処理が終わっ
た段階で、例えば不図示のタイマからスケジュール割り
込み信号がスケジュール管理部２３に入力されると、ス
ケジュール管理部２３はタスクキューに溜まった中間命
令の実行処理に関するタスクのスケジューリングを行
い、スケジューリングした順序に従って、制御プロセッ
サ６は、ＤＭＡコントローラ２４や演算プロセッサ２を
制御して各タスクを実行する。

【００２９】スレッドの切替割り込み信号やスケジュー
ル割り込み信号は、例えばマイクロプロセッサシステム
内の不図示のタイマやカウンタなど、時間計測機能をも
った回路から周期的に入力される。あるいは、マイクロ
プロセッサシステムの外部回路からこれら割り込み信号
を供給してもよい。

【００３０】図５では、スレッド０，１の各中間命令を
３つずつ実行したときにスケジュール割り込み信号が入
り、スレッド０または１の中間命令を３つずつ実行する
たびにスレッド割り込み信号が入る例を示しているが、
これら割り込み信号が入るタイミングは実装形態により
種々変更可能である。

【００３１】図５の動作を時系列的にまとめると図６の
ようなフローチャートになる。まず、制御プロセッサ６
は、スレッドを選択して各中間命令を順に実行し（ステ
ップＳ１）、スケジュール管理部２３のタスクキューに
対してＤＭＡ転送を指示する（ステップＳ２）。

【００３２】続いて、制御プロセッサ６はスレッドの切
替割り込み信号がスケジュール管理部２３に入ったか否
かを判定し（ステップＳ３）、この割り込み信号が入る
までステップＳ１，Ｓ２の処理を繰り返す。

【００３３】スレッドの切替割り込み信号が入ると、制
御プロセッサ６は実行可能なスレッド同士で調停を行
い、一つのスレッドを選択して実行する（ステップＳ
４）。図５では、２つのスレッドしかないので、スレッ
ド０の次はスレッド１を実行する。

【００３４】その後、スケジュール割り込み信号が入る
と（ステップＳ５）、スケジュール管理部２３はスケジ
ュール処理を行う。スケジュール割り込みが入ると、ま
ず、スケジュール管理部２３は、タスクキューにエント
リーされているタスクを読み出した（ステップＳ６）
後、読み出したタスクのデータ依存関係をアドレスによ
りチェックするとともに、リソースコンフリクト（クロ
スバー部４やメモリ１のポート番号など）をチェック
し、最も効率がよくなるようにタスクをスケジューリン
グする（ステップＳ７）。このスケジューリングは、制
御プロセッサ６のソフトウェアとして実装可能であるた
め、実装形態に応じて種々変更可能である。

【００３５】続いて、制御プロセッサ６は、スケジュー
リングした順序に従って、実行可能なタスクを実際に実
行するべく、ＤＭＡコントローラ２４や演算プロセッサ
２を制御する（ステップＳ８）。

【００３６】図７は制御プロセッサ６が行うスケジュー
ル管理の一例を示している。図７（ａ）に示すように、
識別番号Ｐ０の演算プロセッサ２に対するタスクE0,E1,
E0,E2と識別番号Ｐ１の演算プロセッサ２に対するタス
クE0,E0,E2,E2がタスクキューに溜まっているとする。
これらタスクの具体的内容は特に問わないが、以下では
上述したBlend命令を実行するタスクを例に取って説明
する。

【００３７】何もスケジュール管理を行わない場合、制
御プロセッサ６は、最初にタスクキューに入ったタスク
から順に実行するため、識別番号Ｐ０，Ｐ１の演算プロ
セッサ２はいずれも、最初はタスクＥ０を実行しようと
する。ところが、タスクＥ０は、同一のBlend命令を実
行するものであり、その命令を実行する際にメモリ１に
格納されている同一データを利用するため、識別番号Ｐ
０，Ｐ１の演算プロセッサ２で同時に処理を行うことは
できない。このため、図７（ｂ）に示すように、識別番
号Ｐ１の演算プロセッサ２は識別番号Ｐ０の演算プロセ
ッサ２がタスクＥ０の処理を終えるまで待機しなければ
ならない。したがって、識別番号Ｐ１の演算プロセッサ
２がすべての処理を終えるまでに時間がかかってしま
う。

【００３８】一方、本実施形態のスケジュール管理部２
３は、識別番号Ｐ０，Ｐ１の演算プロセッサ２が最も効
率的にタスクを実行できるように、タスクキューに溜ま
ったタスクをスケジューリングする。図７（ｃ）は識別
番号Ｐ１の演算プロセッサ２がタスクＥ２を先に実行す
るようにスケジューリングした例を示している。タスク
Ｅ０，Ｅ２はそれぞれ別個のデータを用いてBlend命令
を実行するため、異なる演算プロセッサ２が同時に各タ
スクを実行することができる。

【００３９】このように、本実施形態では、複数の演算
プロセッサ２が並列してタスクを行えるように、各演算
プロセッサ２でのタスクを制御プロセッサ６でスケジュ
ーリングするため、各演算プロセッサ２は効率よくタス
クの処理を行うことができる。すなわち、本実施形態に
よれば、各演算プロセッサ２での処理を効率的にスケジ
ューリングすることができる。

【００４０】上述した実施形態では、Blend命令を実行
するタスクについて説明したが、実行する命令は必ずし
もBlend命令に限らない。タスクを構成する要素とし
て、以下の３種類を備える命令であればよい。

【００４１】１）タスクが必要とするデータを示す識別
子。ここで、識別子とは、メモリ１のブロックデータを
指し示すものであり、識別子は複数あってもよい。

【００４２】２）タスクを実行する演算器を示す識別子３）タスクが実行した結果であるデータを示す識別子１）〜３）の識別子は、必ずしもメモリ１をアクセスす
るためのアドレス自体である必要はなく、アドレスに対
応する識別子（トークン）であればよい。スケジュール
管理部２３は、タスクの順序依存関係を識別子同士の依
存関係として表現してタスクのスケーリングを実現す
る。

【００４３】以下に、スケジュール管理部２３のスケジ
ューリング手法の一例を詳述する。スケジュール管理部
２３の処理は、ソフトウェアとハードウェアのどちらで
も実現可能であり、ソフトウェアとハードウェアが協調
して動作することも可能である。

【００４４】図８は本実施形態のスケジューリング手法
の一例を示すフローチャートである。図８のフローチャ
ートでは、各演算プロセッサ２での処理の開始と終了を
アドレスに対応する識別子で管理する例を示している。

【００４５】まず、制御プロセッサ６は、処理を開始さ
せたい演算プロセッサ２にアドレスに対応する識別子を
送る（ステップＳ21）。この識別子を受け取った演算プ
ロセッサ２は指定された処理を行い（ステップＳ22）、
処理が終了すると、制御プロセッサ６にこの識別子を返
す（ステップＳ23）。

【００４６】制御プロセッサ６は、返された識別子を制
御プロセッサ６内のスケジュール管理部２３に送る。ス
ケジュール管理部２３は次に識別子を送るべき演算プロ
セッサ２を決定する（ステップＳ24）。このように、ブ
ロックデータの依存関係チェックはすべてスケジュール
管理部２３が行う。スケジュール管理部２３は、ブロッ
クデータの依存関係の他に、演算プロセッサ２やクロス
バー部４の処理状況等のリソース情報も考慮に入れて、
次に識別子を送るべき演算プロセッサ２を決定する。

【００４７】そして、制御プロセッサ６は、依存関係チ
ェックに適合して、かつリソースが確保できた演算プロ
セッサ２に対してアドレスに対応する識別子を送る（ス
テップＳ25）。

【００４８】以上の動作を実行タスク情報部に登録され
ているタスクの実行がすべて終了するまで繰り返す（ス
テップＳ26）。

【００４９】図９はスケジュール管理部２３の内部構成
の一例を示すブロック図である。図示のように、スケジ
ュール管理部２３は、実行すべきタスクに対応する識別
子の一覧を記録した実行タスク情報部３１と、タスクの
実行条件を記録した実行条件情報部３２と、タスクの実
行に利用可能な演算プロセッサ２の種類とその他のリソ
ース情報を記録した資源管理テーブル３３と、識別子と
タスクとの対応関係を示す識別子テーブル３４とを有す
る。

【００５０】タスクは例えば上述したBlend命令であ
り、各Blend命令ごとに識別子が対応づけられている。
例えば、図９の識別子テーブル３４は、識別子Ｔ１がBl
end（P0,0c,0a,1a)に対応し、識別子Ｔ２がBlend（P2,2
c,2a,3a)に対応し、識別子Ｔ３がBlend（P0,0c,0c,2c)
に対応し、識別子Ｔ４がBlend（P1,1b,3c,0b)に対応す
る例を示している。

【００５１】実行条件情報部３２に記録された条件と、
実行タスク情報部３１に記録された識別子とは互いに対
応づけられている。例えば、図９において、識別子Ｔ２
に対応するBlend命令と識別子Ｔ５に対応するBlend命令
がともに実行されたときに、実行タスク情報部３１の識
別子Ｔ４に対応するBlend命令が実行される。また、識
別子Ｔ２に対応するBlend命令か、識別子Ｔ３に対応す
るBlend命令が実行されたときに、実行タスク情報部３
１の識別子Ｔ１に対応するBlend命令が実行される。

【００５２】また、実行タスク情報部３１が識別子Ｔ４
に対応するBlend命令を終了すると、実行条件情報部３
２は、記録されている識別子Ｔ４すべてを終了済みとし
て扱う。識別子に多くのビットフィールドを割り当てる
ことができない場合、実行タスク情報部に複数のT4が現
れることがある。そのような場合、終了済みとするT4
は、実行タスク情報部中の当該T4から次に現れるT4間の
スロットのタスクとする。

【００５３】実行タスク情報部３１は、識別子Ｔ４に対
応するBlend命令を実行する際に、資源管理テーブル３
３を参照して、対応するBlend命令の実行を行う演算プ
ロセッサ２を決定する。スケジュール管理部２３は、資
源管理テーブル３３の情報を参照して、Blend命令を実
行する演算プロセッサ２の種類とBlend命令の実行時期
を決定する。

【００５４】決定された演算プロセッサ２が処理を終了
すると、その演算プロセッサ２はリソースを解放し、そ
の旨が資源管理テーブル３３に記録される。また、複数
の演算プロセッサ２が同一のリソースに対する要求を行
った場合には、原則として先に発行されたBlend命令が
優先的に処理される。

【００５５】本実施形態では、メモリ１からブロックデ
ータを単位として読み出しを行うが、データの転送速度
を上げるには、ブロックデータのデータサイズを約１キ
ロバイト以上に設定するのが望ましい。これは、一般的
なフレームバッファのチャンクサイズが２キロバイトで
あることからも妥当であることがわかる。ただし、実装
形態により最適なブロックデータのデータサイズは変化
する。

【００５６】図１０は、ブロックデータの中で演算処理
に有効に利用されるデータの割合を示す有効利用率と、
メモリ１から演算プロセッサ２へのブロックデータの転
送速度向上率と、をグラフで表したものである。有効利
用率はデータサイズが小さいほど高くなり、転送速度向
上率はデータサイズが大きいほど高くなる。

【００５７】このように、ブロックデータは１キロバイ
ト以上のデータサイズであり、ブロックデータの転送お
よび処理には、通常のプロセッサのシステムクロックの
数サイクルを要する。メモリ１と演算プロセッサ２は、
ブロックデータを単位として処理を行うため、ブロック
データの処理時間を単位とするクロックで制御プロセッ
サ６を動作させることも可能である。これにより、通常
のプロセッサのシステムクロックよりも遅いクロックで
制御プロセッサ６を動作させることができ、高価な高速
部品や高速プロセスを使用する必要もなくなり、またハ
ードウェアのタイミング設計も容易になる。

【００５８】また、演算プロセッサ２の数には特に制限
はないが、演算プロセッサ２の数が増えるほど、演算プ
ロセッサ２が一度に処理すべきブロックデータのデータ
サイズを大きくするのが望ましい。これにより、一つの
演算プロセッサ２での処理時間が長くなり、その分だけ
制御プロセッサ６が演算プロセッサ２を頻繁に切り替え
なくて済むため、制御プロセッサ６の処理負担を軽減で
きる。

【００５９】さらに、マルチプロセッサシステム全体の
パフォーマンスを上げるには、同システム全体の動作周
波数を上げる手法と演算プロセッサ２の数を増やす手法
とが考えられるが、演算プロセッサ２の数を増やして各
演算ブロックが処理すべきブロックデータのサイズを大
きくするのが望ましい。

【００６０】（第２の実施形態）第２の実施形態は、本
発明を画像処理に特化させたシステムに適用した例であ
る。

【００６１】図１１は画像処理専用の本発明に係るマル
チプロセッサシステムの第２の実施形態を示すブロック
図である。図示のように、それぞれが別個に画像処理を
行う複数の演算処理部（LDALU）３と、制御プロセッサ
（LDPCU）６と、メモリ１とがクロスバー部４に接続さ
れている。

【００６２】演算処理部３の内部には、複数のピクセル
パイプ３１と、各ピクセルパイプ３１に接続されるSRAM
（ＳＰＭ）９と、前処理を行うセットアップ／ＤＤＡ部
３２とが設けられている。

【００６３】各演算処理部３内のピクセルパイプ３１
は、図１の演算プロセッサ２に相当するものであり、ポ
リゴンのレンダリングやテンプレート・マッチング処理
等の画像処理を行う。

【００６４】図１１の制御プロセッサ６は、画像処理用
のタスクで用いられるブロックデータの依存関係をチェ
ックし、そのチェック結果に基づいて演算処理部３内の
ピクセルパイプ３１の動作をスケジューリングする。こ
れにより、各ピクセルパイプ３１を並列動作させること
ができ、きわめて高速に各種の画像処理を行うことがで
きる。

【００６５】上述した実施形態では、演算処理部３内に
複数の演算プロセッサ２を設ける例を説明したが、演算
プロセッサ２が一つだけでも本発明を適用可能である。

【００６６】上述した実施形態では、画像データを合成
する処理を行う例を説明したが、本発明は画像データの
合成処理以外の各種の演算処理にも適用可能である。

【００６７】また、図１、図５および図９に示したブロ
ック図の少なくとも一部をハードウェアの代わりにソフ
トウェアで実現してもよい。

【００６８】

【発明の効果】以上詳細に説明したように、本発明によ
れば、一つ以上の演算プロセッサでの処理を効率的にス
ケジューリングすることができる。

【図面の簡単な説明】

【図１】本発明に係るマルチプロセッサシステムの一実
施形態の概略構成を示すブロック図。

【図２】本実施形態の処理内容を説明する図。

【図３】Blend命令の一例を示す図。

【図４】図３のBlend命令を中間命令に変換した図。

【図５】制御プロセッサの動作を説明する図。

【図６】制御プロセッサの動作を示すフローチャート。

【図７】制御プロセッサ６が行うスケジュール管理の一
例を示す図。

【図８】本実施形態のスケジューリング手法の一例を示
すフローチャート。

【図９】スケジュール管理部の内部構成の一例を示すブ
ロック図。

【図１０】ブロックデータの有効利用率と転送速度向上
率を示すグラフ。

【図１１】画像処理専用の本発明に係るマルチプロセッ
サシステムの一例を示すブロック図。

【符号の説明】

１メモリ２演算プロセッサ３ LDALU ４クロスバー部５クロスバー制御部６制御プロセッサ７外部メモリ８外部インタフェース部２１依存関係チェック部２２リソースチェック部２３スケジュール管理部２４ＤＭＡコントローラ２５命令格納部

───────────────────────────────────────────────────── フロントページの続き (72)発明者藤原崇神奈川県川崎市幸区小向東芝町１番地株式会社東芝マイクロエレクトロニクスセンター内 (72)発明者雨宮治郎神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内Ｆターム(参考） 5B045 AA01 BB28 CC06 DD01 GG11 5B098 AA03 AA10 GA04 GC01

Claims

【特許請求の範囲】

【請求項１】メモリに格納されたデータを用いてタスク
を実行する一つ以上の演算プロセッサと、前記演算プロセッサでのタスクの実行を制御する制御プ
ロセッサと、を備え、前記制御プロセッサは、タスクを実行する際にデータ同士の依存関係をチェック
する依存関係チェック部と、前記チェックされた依存関係に基づいて、前記メモリに
対するアクセス、前記メモリから前記演算プロセッサへ
のデータ転送、および前記演算プロセッサでの演算スケ
ジューリングを行うスケジューリング部と、を有するこ
とを特徴とするマルチプロセッサシステム。
【請求項２】前記演算プロセッサは、データのブロック
単位で前記メモリにアクセスすることを特徴とする請求
項１に記載のマルチプロセッサシステム。
【請求項３】前記依存関係検出部は、同一または異なる
タスクを実行する際に共通して用いられるデータ間の依
存関係を検出することを特徴とする請求項１または２に
記載のマルチプロセッサシステム。
【請求項４】前記メモリおよび前記一つ以上の演算プロ
セッサ間でのデータの受け渡しを制御するデータ転送制
御部を備え、前記スケジューリング部は、前記データ転送制御部が出
力する転送制御信号を考慮に入れて前記スケジューリン
グを行うことを特徴とする請求項１〜３のいずれかに記
載のマルチプロセッサシステム。
【請求項５】前記演算プロセッサが行う処理内容を特定
する識別子と、前記演算プロセッサが入力データとして
使用するデータの格納先を示す前記メモリ上の第１アド
レスと、前記演算プロセッサによる演算結果の格納先を
示す前記メモリ上の第２アドレスとを含むマクロ命令を
格納する命令格納部を備え、前記依存関係検出部は、前記第１および第２アドレスに
基づいてデータ同士の依存関係を検出することを特徴と
する請求項１〜４のいずれかに記載のマルチプロセッサ
システム。
【請求項６】前記指定されたタスクを識別する識別子に
より、タスク同士の依存関係を記録する条件テーブル
と、前記条件テーブルに基づいて、前記指定されたタスクの
実行条件情報と各タスクが実行時に使用するリソース情
報とを記録する資源管理テーブルと、を備え、前記依存関係検出部は、前記資源管理テーブルに記録さ
れた情報に基づいて、前記指定されたタスクで用いるデ
ータの依存関係を検出することを特徴とする請求項１〜
５のいずれかに記載のマルチプロセッサシステム。
【請求項７】前記データは、画像データであり、前記依存関係検出部は、同一または異なる合成画像を生
成する際に共通して用いられるデータ同士を依存関係あ
りと判断することを特徴とする請求項１〜６のいずれか
に記載のマルチプロセッサシステム。
【請求項８】前記データは、１キロバイト以上のデータ
サイズに設定されることを特徴とする請求項１〜７のい
ずれかに記載のマルチプロセッサシステム。
【請求項９】複数のタスクを実行する前記演算プロセッ
サの数が増えるほど、前記データのデータサイズを大き
くすることを特徴とする請求項８に記載のマルチプロセ
ッサシステム。
【請求項１０】前記制御プロセッサは、前記メモリと前
記演算プロセッサとの間で前記データを送受するのに要
する時間単位を基準とするクロックに基づいて処理動作
を行うことを特徴とする請求項１〜９のいずれかに記載
のマルチプロセッサシステム。
【請求項１１】前記メモリは、複数のバンクに分かれた
ワンポートメモリであることを特徴とする請求項１〜１
０のいずれかに記載のマルチプロセッサシステム。
【請求項１２】前記メモリおよび前記演算プロセッサ間
のデータの転送と前記演算プロセッサでのデータ処理と
を並列して行えるように、前記メモリおよび前記演算プ
ロセッサ間のデータ転送用のバッファと、前記演算プロ
セッサでのデータ処理用のバッファと、を備えることを
特徴とする請求項１〜１１のいずれかに記載のマルチプ
ロセッサシステム。