JP3547482B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP3547482B2
JP3547482B2 JP10227594A JP10227594A JP3547482B2 JP 3547482 B2 JP3547482 B2 JP 3547482B2 JP 10227594 A JP10227594 A JP 10227594A JP 10227594 A JP10227594 A JP 10227594A JP 3547482 B2 JP3547482 B2 JP 3547482B2
Authority
JP
Japan
Prior art keywords
instruction
unit
execution
register
schedule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10227594A
Other languages
English (en)
Other versions
JPH07281896A (ja
Inventor
元久 伊藤
栄樹 釜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10227594A priority Critical patent/JP3547482B2/ja
Priority to US08/422,220 priority patent/US5742782A/en
Publication of JPH07281896A publication Critical patent/JPH07281896A/ja
Application granted granted Critical
Publication of JP3547482B2 publication Critical patent/JP3547482B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/3822Parallel decoding, e.g. parallel decode units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3853Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution of compound instructions

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Advance Control (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、長語命令方式を用いて並列実行性を高め、性能向上を計る情報処理装置に関する。
【0002】
【従来の技術】
図7に示すのは、長語命令方式(以下、VLIW方式)計算機の一例である。VLIW方式は、長い命令を多数の演算フィールドに分割し、各々の演算フィールドで実行部、レジスタ、メモリ等のリソースを独立して制御し、並列処理を実現する。
VLIW方式では、コンパイル時に並列性の抽出を行なう。コンパイラはプログラムの中から並列実行可能な演算命令を取りだし、1つの長語命令に合成する。
VLIW方式では、コンパイル時にデータ依存関係を始めとした演算命令間の依存関係のチェックを行ない、実行時には依存関係のチェックはしない。そのため、依存関係チェック用のハードウェアが不要となり、ハードウェア量を削減することができる。
【0003】
しかし、命令間の依存関係をチェックするハードウェアを持たないため、実行部の空きが生じることがある。命令間の依存関係をチェックするハードウェアを持たないVLIW方式では、無矛盾性の保障のため、先の長語命令の終了を待ってからでないと次の長語命令を実行できない。
このため、長語命令内に実行時間が他の演算フィールドの演算命令と異なる演算命令が存在すると、最も長くかかる演算命令の終了を待ってから次の長語命令の実行が開始されるため、演算命令が実行されない実行部が生じる。
実行時間に差が生じる例としては、データのロード/ストア命令がある。データのロード/ストア命令は、キャッシュのヒット/ミスヒットにより実行時間が異なる。
また、実行部の空きを生じる別の原因がある。VLIW方式では、演算フィールド数に等しい数の演算命令を1つの長語命令に合成できるとき最高の処理性能を達成できる。どれだけの演算命令を1つの長語命令に合成することができるかは、コンパイラの性能だけではなく、ソースプログラムの性質にも左右される。ソースプログラムに含まれる並列実行できる演算命令の割合が低ければ、1つの長語命令に合成することができる演算命令数は少ない。一般的なプログラムでは、並列実行できる演算命令はそれほど多くない。例えば、日経エレクトロニクス第487号によれば、平均して2〜3演算命令しか並列に実行できない。
【0004】
【発明が解決しようとする課題】
上記のように、VLIW方式には、
(a)長語命令内に実行時間が異なる演算命令が含まれていると、実行完了
を待ち合わせるため、実行部に空きが生じる。
(b)一般的なプログラムでは、並列性はそれほど高くなく、長語命令内の演算フィールドすべてに演算命令を埋めることができるのはまれで
ある。
といった短所がある。
本発明の目的は、
(1)実行完了待ち合わせにともなう実行部の空きを解消する。
(2)実効並列度を上げる。
手段を提供することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するため、本発明は、
演算の種類毎に分類されたnフィールド(nは1以上)の演算フィールドを有し、演算フィールド内の各演算命令が他の演算フィールド内の演算命令と互いに依存関係が無いように構成された長語命令からなる命令流m本(mは1以上)の処理を行なう情報処理装置であって、m個の命令デコード部と、該命令デコード部から発行された演算命令を受ける前記演算の種類毎に設けられたn個の命令スケジュール部と、該n個の命令スケジュール部対応にそれぞれ設けられ、対応する命令スケジュール部から発行された演算命令を実行する実行部と、レジスタ部を備え、前記各命令デコード部は、長語命令を格納する命令バッファと、実行中の長語命令と前記命令バッファ内の長語命令との間におけるレジスタのデータ依存関係およびリソース競合に基づき、実行中の長語命令内の演算命令全ての実行が完了していなくとも前記命令バッファ内の長語命令の前記命令スケジュール部への発行を制御する手段を備えるようにしている。
また、m個の命令デコード部と、該命令デコード部から発行された演算命令を受ける前記演算の種類毎に設けられたn個の命令スケジュール部と、該n個の命令スケジュール部対応にそれぞれ設けられ、対応する命令スケジュール部から発行された演算命令を実行する実行部と、レジスタ部を備え、
前記各命令デコード部は、長語命令を格納する命令バッファと、実行中の長語命令と前記命令バッファ内の長語命令との間における、レジスタのデータ依存関係を判定する判定手段とリソース競合を判定する判定手段と、該両判定手段の判定結果がレジスタのデータ依存関係がなく且つリソース競合がないことを示すとき、実行中の長語命令内の演算命令全ての実行が完了していなくとも命令バッファ内の長語命令を各演算命令に分け対応する命令スケジュール部へ発行制御する手段を備え、
前記各命令スケジュール部は、前記命令デコード部から発行された演算命令を保持する命令スケジュールバッファと、命令スケジュールバッファに保持された演算命令の中から実行部に投入する演算命令を選択し、該選択した演算命令を命令流番号と共に実行部に向け投入制御する手段を備え、
前記各実行部は、前記命令スケジュール部から投入される演算命令を実行する演算命令実行手段と、命令スケジュール部から投入される命令流番号を受け取りこれを保持する手段と、前記投入された演算命令と命令流番号から、前記演算命令実行手段の動作を制御する手段と、前記演算命令実行手段の状態を前記命令デコード部および命令スケジュール部に通知する手段を備えるようにしている。
また、前記実行部の演算命令実行手段は、演算命令の実行により例外発生を検知したとき例外発生信号を前記命令流番号に対応する命令デコード部に通知し、前記デコード部は、例外発生信号を通知した実行部に対して、前記全ての実行部の演算命令実行手段の状態が受け入れ可能状態のとき、例外発生をした演算命令の再実行を指示する手段を備えるようにしている。
【0006】
【作用】
上記手段により、実行完了待ち合わせにともなう実行部の空きを解消することができ、実行部における命令実行を効率よく行なうことができる。
また、複数命令流の命令をスケジューリングすることにより、実効並列度を上げ、データ依存関係に因る実行部の空きを解消できる。その結果、演算器の空きが生じることなく、高い並列性を得ることができる。
【0007】
【実施例】
本発明の実施例を図を用いて説明する。以下、二重引用符 ”” で囲まれた数字は2進数を、引用符で囲まれていない数字は10進数を表すとする。
図8は本発明の長語命令の一実施例を示す。本実施例の長語命令は1命令内
にL/S161、FAdd162、FMult163、FixOp164の4演算フィールドを持つ。各演算フィールドには、それぞれ以下の演算命令が入る。L/S演算フィールド :主記憶とレジスタ間でデータのロード/ストア
を行なう演算命令(以下、L/S命令)
FAdd演算フィールド :浮動小数点加減算を行なう演算命令
(以下、FAdd命令)
FMult演算フィールド :浮動小数点乗算を行なう演算命令
(以下、FMult命令)
FixOp演算フィールド :整数演算を行なう演算命令
(以下、FixOp命令)
本実施例の演算命令は、主記憶とレジスタの間のデータのやり取りをL/S命令のみに限る、ロード/ストア方式である。
【0008】
各演算フィールドの演算命令の持つオペランドの数は、次のとおりである。
FAdd演算フィールド、FMult演算フィールド、FixOp演算フィ
ールド
演算ソース:2
演算ディスティネーション:1
L/S演算フィールド
アドレス計算ソース:1
ロードデータディスィネーション:1(データロード命令の場合)
ストアデータソース:1(データストア命令の場合)。
【0009】
本発明の演算命令の実施例を図9に示す。図9(a)はFAdd命令、FMult命令、FixOp命令の構成を、図9(b)は、L/S命令のうちデータロード命令の構成を、図9(c)は、L/S命令のうちデータストア命令の構成を示す。
(a)図9に示すようにFAdd命令、FMult命令、FixOp命令は、オペコード、ディスティネーションレジスタ番号、空きフィールド、
ソース1レジスタ番号、ソース2レジスタ番号
の各フィールドから構成される。
命令の実行は、ソース1レジスタ番号とソース2レジスタ番号のフィールドで示されるレジスタの値に、オペコードフィールドで表される演算を施し、ディスティネーションレジスタ番号フィールドで示されるレ
ジスタに格納する。
(b)データロード命令は、
オペコード、ディスティネーションレジスタ番号、オフセット、
アドレス計算レジスタ番号、空きフィールド
の各フィールドから構成される。
命令の実行は、アドレス計算レジスタ番号フィールドで示されるレジスタの値にオフセットフィールドの値を加算し、主記憶のアドレスを求め、このアドレスからデータを、ディスティネーションレジスタ番号フ
ィールドで示されるレジスタに転送する。
(c)データストア命令は、
オペコード、空きフィールド、オフセット、
アドレス計算レジスタ番号、ストアデータレジスタ番号
の各フィールドから構成される。
命令の実行は、アドレス計算レジスタ番号フィールドで示されるレジスタの値にオフセットフィールドの値を加算し、主記憶のアドレスを求め、このアドレスにデータを、ストアデータレジスタ番号フィールドで
示されるレジスタから転送する。
本実施例の長語命令は、コンパイラがデータの依存関係や制御の依存関係の無い演算命令を組み合わせて合成する。コンパイラが長語命令を合成するとき、適切な演算命令が無く、演算命令を埋め込むことができない場合は、その演算フィールドにはNop命令が挿入される。Nop命令は何も動作を起こさない演算命令である。
【0010】
一実施例として、3本の独立した命令流を処理する情報処理装置を図1に示す。
3本の命令流間には、データや制御の依存関係は無い。この3本の命令流を以下、命令流A、命令流B、命令流Cと呼ぶ。
本発明の情報処理装置は、主記憶21、命令フェッチ部22、命令デコード部23、命令スケジュール部24、実行部25、レジスタ部26、その他の装置からなる。このうち、図1では、その他の装置は省略してある。
主記憶21は、命令流A、命令流B、命令流Cそれぞれのプログラムやデータを格納している。主記憶21には、キャッシュメモリを含むものとする。
命令フェッチ部22の働きは、
(1)各命令流毎に、長語命令をフェッチする主記憶のアドレス131を主記憶21に送り、そのアドレスから長語命令132を取り出し、命令
デコード部23に送る
ことである。
【0011】
命令デコード部23から命令発行信号133が送られてくれば、毎マシンサイクルごと以上の動作を繰り返す。
一実施例として図1に示すような3本の命令流を処理する場合、命令流A、命令流B、命令流Cそれぞれの命令をフェッチするアドレス131は、互いに独
立して主記憶21に送られ長語命令が取り出される。
命令デコード部23の働きは、
(1) 演算命令発行の可能性を判定する
(2) 命令スケジュール部24に向け演算命令を発行する
(3) レジスタの状態の管理する
(4) 命令フェッチ部22に次命令のフェッチを要求する
ことである。
命令デコード部23は、毎マシンサイクルごと以上の動作を繰り返す。
一実施例として図1に示すような3本の命令流を処理する場合、命令デコード部23は、命令流A、命令流B、命令流Cに対応して、命令デコード部A 23a、命令デコード部B 23b、命令デコード部C 23cの3本が設けられている。そして、それぞれの命令デコード部23は干渉することなく独立して動作する。
【0012】
命令スケジュール部24は各命令毎に設けられ、命令スケジュール部24の働きは、
(1)命令デコード部23から発行された演算命令135のなかから、実行
部25に投入する演算命令を選択する
ことである。
命令スケジュール部24は、命令デコード部23より命令が発行されているならば、毎マシンサイクルごとに以上の動作を繰り返す。
一実施例として図8に示すような4つの演算フィールドを有する長語命令の場合、命令スケジュール部24は、各演算フィールドに対応して、L/S命令用の命令スケジュール部24a、FAdd命令用の命令スケジュール部24b、FMult命令用の命令スケジュール部24c、FixOp命令用の命令スケジュール部24dの4本が設けられている。そして、それぞれの命令スケジュール部24は干渉することなく独立して動作する。
【0013】
実行部25は各命令毎に設けられ、実行部25の働きは、
(1)命令スケジュール部24から投入される演算命令を実行する
(2)次の演算命令を受け入れ可能であるかを判定する
ことである。
【0014】
実行部25は、演算パイプライン化されており、先行演算命令の実行が完了せずとも、次の演算命令実行を開始できる。しかし、演算命令の種類により、また、実行状態により、次の演算命令がいつ実行開始できるかは異なる。そのため、実行部25が、演算命令の実行状態をみて、次の演算命令を受け入れ可能であるか、あるいは、不可能であるかを判定する。
実行部25は、命令スケジュール部24から演算命令が投入されている間は以上の動作を毎マシンサイクルごと繰り返す。
一実施例として図8に示すような4つの演算フィールドを有する長語命令の場合、実行部25は、各演算フィールドに対応して、L/S命令用の実行部25a、FAdd命令用の実行部25b、FMult命令用の実行部25c、FixOp命令用の実行部25dの4本が設けられている。そして、それぞれの命令実行部25は干渉することなく独立して動作する。
【0015】
レジスタ部26の働きは、
(1)データを保持する
(2)レジスタの状態を保持する
(3)レジスタの状態を更新する
ことである。
レジスタの状態は、
(a)未定
(b)確定
の2値をとる。
(a)未定状態とは、レジスタの値を書き換える演算命令が命令デコード部23から発行されたが、未だ実行が完了しておらず、したがって、レジスタ
の値が未定な状態である。
(b)確定状態とは、演算命令が完了し、レジスタの値がすでに確定している
状態である。
一実施例として図1に示すような3本の命令流を処理する場合、レジスタ部26は、各命令流に対応して、26a、26b、26cの3本が設けられている。そして、それぞれのレジスタ部26は干渉することなく独立して動作する。
【0016】
命令フェッチ部22の動作をさらに詳しく説明する。
ある命令に注目してみた場合、命令フェッチ部22は、主記憶21に命令フェッチアドレス131を与え、主記憶21から長語命令を取り出し、信号線134を使って命令デコード部23内の命令バッファ31(図2)に送る。
先行長語命令が命令デコード部23から発行されると次の長語命令を主記憶21からフェッチする。命令デコード部23から長語命令が発行されたかどうかは、命令発行信号133に示される。
命令発行信号133が”1”
のとき、命令デコード部23から長語命令が発行され、命令フェッチ部11は命令フェッチを行なう。
命令発行信号133が”0”
ならば、命令デコード部23から長語命令が発行されず、したがって、命令フェッチも行なわない。以上は、各命令流ごと独立して行なわれる。
【0017】
次に、命令デコード部23の動作をさらに詳しく説明する。図2に命令デコード部23の一実施例を示す。
図2中、命令デコード部23は、命令バッファ31、競合判定部32、依存関係解明部33、実行制御部34、受け入れ可能フラグ35、命令発行器36から構成される。
命令デコード部23を構成する各部の動作を以下に説明する。
命令バッファ31は、命令フェッチ部22から送られてくる長語命令を各命令スケジュール部24に向け発行するまでの間保持する。
【0018】
競合判定部32は実行部25の競合状態を調べる。図10に競合判定部32の一実施例を示す。
実行部25の競合状態とは、
(a)命令バッファ31内の長語命令にNop命令でない演算フィールドが有り、
かつ、
(b)その、演算フィールドに対応する実行部25に演算命令の受け入れが不可能なものが1以上存在する状態である。
各実行部25の演算命令受け入れ可能であるか不可能であるかは、受け入れ可能信号143が書き込まれた受け入れ可能フラグ35に示される。
競合判定部32は、受け入れ可能フラグ35(受入れ可能なら”1”、そうでなければ”0”)と、命令バッファ31の各演算命令とNop命令とを比較した比較結果(演算命令がNop命令なら”1”、そうでなければ”0”)から、競合状態を調べ、信号線151に結果を出力する。
競合判定出力151の値は、
実行部4本全てが競合状態でない:競合判定出力151 = ”1”
実行部4本のうち1本でも競合状態:競合判定出力151 = ”0”
である。
【0019】
依存関係解明部33は、実行中の演算命令と命令バッファ31内の長語命令間で、レジスタのデータ依存関係を調べる。図11に依存関係解明部33の一実施例を示す。
データ依存関係には、
(a) RAW の依存関係
(b) WAR の依存関係
(c) WAW の依存関係
がある。まず、以上3種類のデータ依存関係について説明するR1〜R5はレジスタを表すとする。R1<−R2+R3 は、R2とR3の値を加算して、その結果をR1に代入することを表す。
(a)RAW(Read After Write)の依存関係
1:R1<−R2+R3
2:R4<−R1+R5
1、2の順で命令を実行した場合、R1の値が確定するまで、2の命令は
実行開始することができない。
(b)WAR(Write After Read)の依存関係
1:R2<−R1+R3
2:R1<−R4+R5
1、2の順で命令を実行した場合、1の命令が実行開始した後でないと、
2の命令の結果をR1に書き込めない。
(c)WAW(Write After Write)の依存関係
1:R1<−R2+R3
2:R1<−R4+R5
1、2の順で命令を実行した場合、1の命令が結果を書き込んだ後でない
と、2の命令の結果をR1に書き込めない。
以上、3通りの依存関係のうち、WARの依存関係は生じない。それは、先行する長語命令内の演算命令全てが実行開始した後、すなわち、ソースレジスタの値を読み出した後でないと、次の長語命令を命令デコード部23から発行しないためである。
よって、依存関係解明部33が解明しなければならないデータ依存関係は、
(a)RAWの依存関係、
(c)WAWの依存関係
である。
この、2種類の依存関係は、レジスタ値が書き込まれる前に、
(a)レジスタの読みだし、
(c)レジスタの書き込み
を行なうと生じる。すなわち、未定状態のレジスタを使用しようとす
ると、
(a)RAWの依存関係、
(c)WAWの依存関係
は生じる。
よって、依存関係解明部33では、レジスタの状態が未定状態であるかを調べれば、データ依存関係を解明できる。
レジスタの状態は、レジスタ部26が持つ予約ビット174(図6)に示される。未定状態のレジスタの予約ビット174の値は”1”である。
命令バッファ31に保持された演算命令のオペランドの各レジスタの予約ビット174を調べ、依存関係解明出力152に出力する。
依存関係解明出力152の値は、
全ての予約ビットが”0”:データ依存関係無、
依存関係解明出力152=”1”
”1”の予約ビットが存在:データ依存関係有、
依存関係解明出力152=”0”
である。
【0020】
実行制御部34は、各実行部25の実行状態を監視し、自命令流の演算命令により例外が発生したならば、例外処理を行なう。他の命令流の演算命令が例外を発生された場合、何もしない。
図12に実行制御部34の一実施例を示す。
実行制御部34は、例外発生フラグ53と再実行指示信号生成論理54から構成される。
各実行部25で例外(0で除算した場合、オーバーフローが発生した場合等)が発生すると、実行部25は、対応する命令流の命令デコード部23内の実行制御部34に、例外が発生したことを例外発生信号141を通じ報告する。
例外発生信号141を受け取った実行制御部34は、例外発生フラグ53に書き込む。例外発生フラグ53は一実施例として図1に示すような4つの実行部を有する場合、4bitで構成され、それぞれのビットが各実行部25に対応する。
例外処理は、演算例外を起こした演算命令を含む長語命令内の全ての演算命令の実行が全て終了した後、開始する。全ての演算命令の実行が終了したか/否かは、受け入れ可能フラグ35の全ビットのAND(論理積)をとった信号線143−1の値を基に検出する。
再実行指示信号生成論理54は、実行部25に対し演算命令の再実行を指示する信号142を生成する。例外発生フラグ53の値と、信号線143−1の値のAND(論理積)をとることで、再実行指示信号142を生成する。再実行開始時、対応する演算フィールドの再実行指示信号142は、
再実行指示信号142=”1”
になる。
例外処理開始待機中あるいは例外処理実行中であるか、正常状態であるかは、実行状態出力153に出力される。実行状態出力153の値は、
正常状態:実行状態出力153=”1”
例外処理開始待機中/例外処理実行中:実行状態出力153=”0”
である。
実行状態出力153は、例外発生フラグ53全ビットのNOR(否定論理和)を取ることで生成される。例外発生の報告を受けた後、例外処理開始を待っている間、また、例外処理中
は、
信号線153=”0”
になり、例外処理開始待機中/例外処理実行中を示す。その結果、発行条件が整っていても命令バッファ31内の長語命令は発行されない。
【0021】
受け入れ可能フラグ35は、実行部25が演算命令を受け入れ可能であるかどうかを示すフラグで、一実施例として図1に示すような4つの実行部を有する場合、4bitで構成され、各ビットがそれぞれの実行部に対応している。受け入れ可能フラグ35の各ビットの値は、
受け入れ可能 :”1”
受け入れ不可能:”0”
である。
受け入れ可能フラグ35は、各実行部25が、演算命令の実行状態に応じ書き換える。
【0022】
命令発行信号133は、命令バッファ31から長語命令が発行されることを示す信号で、
長語命令が発行される場合”1”
になる。長語命令が発行される条件、すなわち、命令発行信号133が”1”になる条件は、
(a)競合関係がなく(競合判定出力151=”1”)
かつ、
(b)データ依存関係がなく(依存関係解明出力152=”1”)
かつ、
(c)正常状態(実行状態出力153=”1”)
である。
命令発行信号133が”1”のとき、命令発行器36が開き、命令バッファ31内の長語命令が演算命令に分けられて命令スケジュール部24に向け発行される。また、命令発行信号133の値は命令フェッチ部22にも送られ、次の長語命令のフェッチを指示する。
命令発行器36は、命令発行信号133の値に基づき、命令バッファ31内の長語命令を命令スケジュール部24に向け発行する。命令発行器36は、命令発行信号114が”1”のとき、命令バッファ31内の長語命令を命令スケジュール部24に向け発行する。
信号線140は、発行された演算命令の結果格納先レジスタの予約ビットを、
予約ビット=”1”
にすることを、レジスタ部26に指示する信号である。信号線140は、演算命令発行時に、
信号線140=”1”
になる。信号線140は、命令発行信号133と同じ条件で生成される。
【0023】
次に、命令スケジュール部24の働きについて詳しく説明する。図3に命令スケジュール部の一実施例を示す。
命令スケジュール部24は、スケジュールバッファ37、Opecodeコンパレータ40、スレッド選択論理38、2bitカウンタ(一実施例として図1に示すように3命令流の場合)39、投入演算命令セレクタ41からなる。
スケジュールバッファ37は、各命令デコード部23から発行された演算命令を、実行部25に投入するまで保持する。スケジュールバッファ37は、一実施例として図1に示すように3命令流の場合、3エントリから構成される。例えば、命令スケジュール部がL/S命令用の命令スケジュール部24aの場合、各エントリには各命令流のL/S命令あるいはNop命令が格納される。
Opecode コンパレータ40は、スケジュールバッファ内の演算命令がNop命令であるかどうかを判定し、信号線155に出力する。信号線155の値は、
Nop命令 :信号線155=”1”
Nop命令以外:信号線155=”0”
である。
一実施例として図1に示すような3本の命令流を処理する場合、Opecode コンパレータ40は各命令流に対応して3本設けられている。
【0024】
スレッド選択論理38は、
(a) 投入する演算命令の選択
を行なう。
図13にスレッド選択論理の一実施例を示す。
(a)投入する演算命令の選択は、2bitカウンタ39の値を基に行なわれ、投入演算命令セレクタ41を制御するスレッド選択信号154を、2bitカウンタ39の値から生成する。
一実施例として図1に示すような3本の命令流を処理する場合、各命令流を識別する命令流番号をそれぞれ、
”00”(命令流A)、
”01”(命令流B)、
”10”(命令流C)
とする。”11”は、選択する命令流がないことを表す。
【0025】
スレッド選択信号154の生成手順を図13に示す。図13中の記号の意味は次ぎのとおりである。
【0026】
TNC :命令流番号カウンタ39の値
STN :開始時の命令流番号カウンタ39の値を保持
する作業用のレジスタ
Signal141 :例外発生信号141の値
Signal143 :受入れ可能信号143の値
Signal154 :スレッド選択信号154の値
Signal155(n) :命令流番号nの命令流の信号線155の値
A<−B :AにBの内容を転送する動作を示す
A==B :AとBの値が等しいかどうかを判定
図13のスレッド選択信号154生成手順を説明する。左端カッコ付きの数字は、図13のカッコ付きの数字に対応する。
【0027】
(1): Signal143==”0”(実行部が新たな演算命令を受入れ不
可能)
あるいは
Signal141==”0”(例外発生中)
ならば、スレッド選択信号の生成を開始せず、開始できるまで待ち合
わせる。
(2):STNにTNCを転送する。STNはスレッド選択信号154生成を
終了させるのに使用する。
(3):Signal155(TNC)=”0”ならば、TNCが示す命令流番号のオペコードはNop命令ではない。従って、TNCの示す命令流
を選択する。
(4):スレッド選択信号154の値(Signal154)をTNCの値に
し、TNCの値を更新する。
(5):TNCを更新した結果、TNC=”11”ならば、TNCを”00”にし
て終了。TNC=”11”でなければ、そのまま終了。
(6):(3)で、Signal155(TNC)=”0”でなければ、TNCが示す命令流番号のオペコードはNop命令。TNCを更新して、再
びオペコードを調べる。
(7):TNCを更新した結果、TNC=”11”ならば、TNCを”00”にす
る。
(8):STN=TNCならば、TNCの値が一回りした。
【0028】
このときは、
TNCを”11”(選択命令流無し)
スレッド選択信号154の値を”11”(選択命令流無し)
にして終了。
投入演算命令セレクタ41は、スレッド選択論理38からの命令流選択信号154により実行部25に投入する演算命令を選択する。
命令流選択信号154が示す命令流番号の演算命令を実行部25に投入するようにセレクタが開く。
【0029】
図4〜図5に実行部25の一実施例を示す。
図4に示すのは、メモリアクセスを伴わない演算を実行する実行部25の実施例である。また、図5に示すのは、メモリアクセスをともなう演算命令を実行する実行部25の実施例である。
メモりアクセスを伴わない演算を実行する実行部25から説明する。図4に示す実行部25は、演算器42、命令流番号レジスタ44、演算制御器43からなる。
演算器42は、実行部25に投入された演算命令137にしたがいレジスタ部26とデータをやり取りし、演算を行なう。一実施例として図4に示す実行部25の場合、演算器42は2stageの演算パイプライン化されている。
演算器42は、演算の段階ごとに実行状態を信号線156を通じ演算制御器43に送る。また、演算の各段階の制御も信号線156を通じ演算制御器43から送られる。
命令流番号レジスタ44は、実行中の演算命令の命令流番号を保持している。
命令流番号レジスタ44に保持された命令流番号は、
(a)演算実行に伴うレジスタ部26のアクセス
(b)命令デコード部23に対する例外発生の通知
に使用される。
演算制御器43は、
(a)演算器42の制御
(b)例外発生の検出と通知
(c)例外処理の制御
を行なう。
(a)演算制御器43は、命令スケジュール部24から投入された演算命令137を実行するために、信号線156を使って演算器42を制御する。演算命令実行の各段階の演算器42の状態を信号線156を通じ、演算制御器43は知る。
演算命令137の実行が進み、新たな演算命令を受け入れることが可能になったならば、
受け入れ可能信号143=”1”
にして、命令スケジュール部24、命令デコード部23に知らせる。命令デコード部23に送られた信号線143は、命令デコード部23内の受け入れ可能フラグ35の値を書き換える。
(b)演算命令を実行中、演算制御器43が例外を検出すると、
例外発生信号141=”1”
にして、命令デコード部23に例外の発生を知らせる。演算制御部43が例外を通知する命令デコード部23は、命令流レジスタ44に保持された命令流番号により特定される。
(c)命令デコード部25から再実行指示信号142を受け取ると、演算制御部43は例外を発生させた演算命令の再実行をする。再実行が完了したならば、
受け入れ可能信号143=”1”
にして、命令スケジュール部24、命令デコード部23に再実行の完了を知らせる。
【0030】
次に、図5に示す実行部について説明する。
図4に示す実行部の実施例と違い、メモリアクセスのために、メモリアクセス制御器47が設けられている。また、アドレス演算器45は、図4に示す実行部42の実施例とは異なり、アドレス演算を行なう。
アドレス演算器45はメモリアクセスアドレス146を計算するために使用される。
アドレス演算器45は、演算命令137のアドレス計算オフセット169(図9)の値と、アドレス計算ソース144から、メモリアクセスアドレス146を演算する。アドレス演算器の出力(メモリアクセスアドレス146)は、メモリアクセス制御器47に入力する。
実行制御器46は、メモリアドレスを計算するよう信号線156を通じてアドレス演算器45に指示を出し、同時に、信号線157を通じ、メモリアクセス制御器47に、メモリアクセスの種類を知らせる。
メモリアクセスの状態は、信号線157を通じ実行制御器46に知らされる。実行制御器46に伝えられるメモリアクセスの状態には、例として、キャッシュメモリのヒット/ミスヒット、がある。
(a) 演算命令137がデータロード命令の場合のメモリアクセス制御器47の動作を説明する。
1)メモリアクセスアドレス146を信号線121を通じ主記憶21に出力
2)データが転送されてくるのを待つ
3)障害が発生したならば、信号線157を通じ実行制御部46に知らせる
。障害の一例としてキャッシュメモリのミスヒットがある。
4)データが信号線120を通じ転送されてきたならば、信号線145を通
じ、転送されてきたレジスタ部26に書き込む
5)レジスタ部26にデータを書き込んだ段階で、
受け入れ可能信号143=”1”
にする。
(b)演算命令137がデータストア命令の場合のメモリアクセス制御器47の動作を説明する。
1)メモリアクセスアドレス146を信号線121を通じ主記憶21に出力
2)続いて、ストアデータ144を信号線121を通じ主記憶21に出力
3)障害が発生したならば、信号線157を通じ実行制御器46に知らせる
。障害の一例としてキャッシュメモリのミスヒットがある。
4)主記憶21にデータを書き込んだ段階で、
受け入れ可能信号143=”1”
にする。
【0031】
レジスタ部26についてさらに詳しく説明する。図6にレジスタ部26の一実施例を示す。
レジスタ部内の各レジスタは、
(1) データ領域173
(2) 予約ビット174
(3) ソース1レジスタ番号保持ラッチ175
(4) ソース2レジスタ番号保持ラッチ176
(5) ディスティネーションレジスタ番号保持ラッチ177
から構成される。
データ領域173は、レジスタが持つ値を格納しておく領域である。
予約ビット174は、レジスタの状態を表すビットで、図6に示す実施例では、1bitで構成されている。
予約ビット174の値は、
未定:予約ビット=”1”
確定:予約ビット=”0”
である。
予約ビット174の値は、データの依存関係解明のため命令デコード部23内の依存関係解明部33から読み出される。
【0032】
ソース1レジスタ番号保持ラッチ175は、レジスタ番号139に示されるレジスタ番号のうち、ソース1レジスタ番号フィールド167、あるいは、アドレス計算レジスタ番号フィールド170のレジスタ番号を保持する。
ソース1レジスタ番号フィールド167、あるいは、アドレス計算レジスタ番号フィールド170が演算命令にない場合は、’Invalid number’が保持される。’Invalid number’はレジスタ番号としては無意味な数である。
ソース2レジスタ番号保持ラッチ176は、レジスタ番号139に示されるレジスタ番号のうち、ソース2レジスタ番号フィールド168、あるいは、ストアレジスタ番号フィールド171のレジスタ番号を保持する。ソース1レジスタ番号フィールド167、あるいは、アドレス計算レジスタ番号フィールド170が演算命令にない場合は、’Invalid number’が保持される。
ディスティネーションレジスタ番号保持ラッチ177は、レジスタ番号139に示されるレジスタ番号のうち、ディスティネーションレジスタ番号フィールド166のレジスタ番号を保持する。ディスティネーションレジスタ番号フィールド166が演算命令にない場合は、’Invalid number’が保持される。
レジスタ部26を構成する各1本のレジスタは、ソース1レジスタ番号保持ラッチ175、ソース2レジスタ番号保持ラッチ176、ディスティネーションレジスタ番号保持ラッチ177に保持されたレジスタ番号により特定される。
【0033】
演算命令が発行されると信号線140が有効になる。信号線140が有効になったならば、レジスタ部26はディスティネーションレジスタ番号保持ラッチ177に保持されたレジスタの予約ビット174の値を、
予約ビット174=”1”
にして、レジスタの状態を未定状態にする。
演算命令の実行完了に伴い、演算結果が信号線145を通じ書き込まれたならば、レジスタ部26はディスティネーションレジスタ番号保持ラッチ177に保持されたレジスタの予約ビットの値を、
予約ビット=”0”
にして、レジスタの状態を確定状態にする。
ソース1レジスタ番号保持ラッチ175、ソース2レジスタ番号保持ラッチ176、ディスティネーションレジスタ番号保持ラッチ177は、一実施例として図8に示すような4演算フィールドからなる長語命令を処理する場合、それぞれ4組づつ設けられている。
【0034】
次に長語命令がどのように処理されるかを説明する。一実施例として図1に示すような、命令流A、命令流B、命令流Cの3本の命令流を処理する場合を例に取り上げる。
以下の説明で、左端の数字は、命令デコード部23aが命令発行信号133aを命令フェッチ部22に送った時点から計ったマシンサイクル数を表す。
00 命令デコード部23aが命令発行信号133aを命令フェッチ部22
に送る。
01 命令発行信号133aを受け取った命令フェッチ部は22は、命令フェッチアドレス131aを主記憶21に送り、長語命令がフェッチされ
てくるのを待つ。
02 キャッシュにヒットしたならば、この時刻に長語命令が命令フェッチ
部22に取り込まれる。
キャッシュがミスヒットしたならば、長語命令が取り込まれるまで待
合せを行なう。
以下の処理は、キャッシュのヒット/ミスヒットに関わりなく同じで
あるため、キャッシュにヒットしたとして説明を続ける。
03 命令フェッチ部22に取り込まれた長語命令は、命令デコード部23a内の命令バッファ31に転送される。
【0035】
04 命令バッファ31内の長語命令は、
競合判定部32、
依存関係解明部33
に送られ、実行部25の競合判定と、レジスタの依存関係が調べられる

依存関係解明部33に送られると同時に、長語命令から、レジスタ番号が取り出され、信号線139を通じ、レジスタ部26aに送られる。レジスタ部26aは、ソース1レジスタ番号保持ラッチ175、ソース2レジスタ番号保持ラッチ176、ディスティネーションレジスタ番号
保持ラッチ177にそれぞれの演算フィールドごと分けて記憶する。
さらに、レジスタ部26a信号線139を通じ送られてきた前レジスタの予約ビット174の値を、信号線138を通じ、命令デコード部2
3aに送る。
この時刻に、
(a)競合関係がなく(競合判定出力151=”1”)
かつ、
(b)データ依存関係がなく(依存関係解明出力152=”1”)
かつ、
(c)正常状態(実行状態出力153=”1”)
であれば、
命令発行信号133=”1”
になる。
05 命令発行信号133=”1”
ならば、命令発行器36が開き、命令バッファ31内の長語命令が、演算命令に分割され、各命令スケジュール部24内のスケジュールバッフ
ァ37に向け発行される。
同時に、命令発行信号133aは命令フェッチ部11に送られ、次のマシンサイクルで、命令流Aの次の長語命令をフェッチする。
さらに、予約化信号140がレジスタ部26aに送られ、ディスティネーションレジスタ番号保持ラッチに記憶されたレジスタの予約ビット
174を未定状態にする。
【0036】
06 命令スケジュール部24a〜dの処理はどれでも同じである。そこで
、命令スケジュール部24bの動作について述べる。
図13に示す手順により生成されるスレッド選択信号154を基に、
スケジュールバッファ37内の演算命令は選択される。
図13中の変数の値を以下のように仮定する。
命令流カウンタ39の値(TNC) :”10”
例外発生信号141の値(Signal141) : ”0”
受け入れ可能信号143の値(Signal143) : ”1”
Signal155(”10”) : ”1”
Signal155(”00”) : ”0”
以下、左端のカッコ付きの数字は図13中のカッコ付きの数字に対応す
る。
(1)Signal(141)=”0”
かつ、Signal(143)=”1”であるから、
(2)STNにTNCの値を転送する。
(3)Signal155(”10”)=”1”より、
(6)TNCをTNC+1 とする。
(7)TNC=”11”であるから、TNCの値は、”00”
(8)STN(”10”)の値とTNC(”00”)の値が違うので、
(3)Signal155(”00”)を評価
Signal155(”00”)=”00”より、
(4)Signal154にTNC(”00”)を転送
TNCの値は”01”に更新される。
(5)TNC=”11”でないので、TNCの値はそのまま。
スレッド選択信号154の値は、”00”であるので命令流Aが
選択される。
【0037】
07 投入演算命令セレクタ41が開き、命令流Aの演算命令が実行部25b内の演算制御器45に向け送られる。同時に命令流番号(”00”)も
実行部25b内の命令流番号レジスタ44に送られる。
08 命令流番号レジスタ44に記憶された命令流番号(”00”)をもとに、レジスタ部26aを選択し、演算に必要なデータを実行部25bに転
送する。
09 演算を開始する。
演算器42は演算パイプライン化されているため、新たな命令が受け
入れ可能になり、信号線143=”1”になる。
10 演算実行中。新たな命令が命令スケジュール部24bから送られてく
る。
11 演算終了。演算結果をレジスタ部26に戻す。
レジスタ部26aはディスティネーションレジスタ番号保持ラッチに記憶されたレジスタのデータ領域に演算結果を書き込むと同時に予約ビッ
トを確定状態にする。
一実施例として図1に示すような3本の命令流を処理する場合、以上のように長語命令は実行される。
【0038】
【発明の効果】
本発明によれば、命令実行の並列性低下の原因となる、データ依存関係および演算器の競合を始めとしたリソース競合を回避でき、その結果実行部が演算命令を実行していない空き時間を減少させ、高い効率で実行部を使用することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す図である。
【図2】命令デコード部の一実施例を示す図である。
【図3】命令スケジュール部の一実施例を示す図である。
【図4】実行部の一実施例を示す図である。
【図5】メモリアクセスを行なう実行部の一実施例を示す図である。
【図6】レジスタ部の一実施例を示す図である。
【図7】従来のVLIW方式の情報処理装置を示す図である。
【図8】本発明の長語命令の一実施例を示す図である。
【図9】本発明の長語命令を構成する演算命令の一実施例を示す図である。
【図10】競合判定部の一実施例を示す図である。
【図11】依存関係解明部の一実施例を示す図である。
【図12】実行制御部の一実施例を示す図である。
【図13】スレッド選択論理がスレッド選択信号を生成する手順を示す図である。
【符号の説明】
21 主記憶
22 命令フェッチ部
23a 命令流A命令デコード部
23b 命令流B命令デコード部
23c 命令流C命令デコード部
24a L/S命令スケジュール部
24b FAdd命令スケジュール部
24c FMult命令スケジュール部
24d FixOp命令スケジュール部
25a L/S命令実行部
25b FAdd命令実行部
25c FMult命令実行部
25d FixOp命令実行部
26a 命令流Aレジスタ部
26b 命令流Bレジスタ部
26c 命令流Cレジスタ部
31 命令バッファ
32 競合判定部
33 依存関係解明部
34 実行制御部
35 受け入れ可能フラグ
36 命令発行器
37 スケジュールバッファ
38 スレッド選択論理
39 命令流番号カウンタ
40a〜40d opecode コンパレータ
41 投入演算命令セレクタ
42 演算器
43 演算制御器
44 命令流番号レジスタ
45 アドレス演算器
46 実行制御器
47 メモリアクセス制御器
50 レジスタ番号バッファ
51a L/S演算フィールドレジスタ番号バッファ
51b FAdd演算フィールドレジスタ番号バッファ
51c FMult演算フィールドレジスタ番号バッファ
51d FixOp演算フィールドレジスタ番号バッファ
52 依存関係解明論理
53 例外発生フラグ
54 再実行指示信号生成論理
71 従来のVLIW方式情報処理装置の主記憶
72 従来のVLIW方式情報処理装置の命令フェッチ部
73 従来のVLIW方式情報処理装置の命令デコード部
75a〜d 従来のVLIW方式情報処理装置の演算器
76 従来のVLIW方式情報処理装置のレジスタ部
81 従来のVLIW方式情報処理装置の命令バッファ
85 従来のVLIW方式情報処理装置の受け入れ可能ビット
86 従来のVLIW方式情報処理装置の命令発行器
175 ソース1レジスタ番号保持ラッチ
176 ソース2レジスタ番号保持ラッチ
177 ディスティネーションレジスタ番号保持ラッチ

Claims (2)

  1. 演算の種類毎に分類されたnフィールド(nは以上)の演算フィールドを有する長語命令からなる命令流m本(mは以上)の処理を行なう情報処理装置であって、
    m個の命令デコード部と、該命令デコード部から発行された演算命令を受ける前記演算の種類毎に設けられたn個の命令スケジュール部と、該n個の命令スケジュール部対応にそれぞれ設けられ、対応する命令スケジュール部から発行された演算命令を実行する実行部と、レジスタ部を備え、
    前記各命令デコード部は、長語命令を格納する命令バッファと、実行中の長語命令と前記命令バッファ内の長語命令との間における、レジスタのデータ依存関係を判定する判定手段とリソース競合を判定する判定手段と、該両判定手段の判定結果がレジスタのデータ依存関係がなく且つリソース競合がないことを示すとき、実行中の長語命令内の演算命令全ての実行が完了していなくとも命令バッファ内の長語命令を各演算命令に分け対応する命令スケジュール部へ発行制御する手段を備え、
    前記各命令スケジュール部は、前記命令デコード部から発行された演算命令を保持する命令スケジュールバッファと、命令スケジュールバッファに保持された演算命令の中から実行部に投入する演算命令を選択し、該選択した演算命令を命令流番号と共に実行部に向け投入制御する手段を備え、
    前記各実行部は、前記命令スケジュール部から投入される演算命令を実行する演算命令実行手段と、命令スケジュール部から投入される命令流番号を受け取りこれを保持する手段と、前記投入された演算命令と命令流番号から、前記演算命令実行手段の動作を制御する手段と、前記演算命令実行手段の状態を前記命令デコード部および命令スケジュール部に通知する手段を備えることを特徴とする情報処理装置。
  2. 請求項記載の情報処理装置において、
    前記実行部の演算命令実行手段は、演算命令の実行により例外発生を検知したとき例外発生信号を前記命令流番号に対応する命令デコード部に通知し、
    前記デコード部は、例外発生信号を通知した実行部に対して、前記全ての実行部の演算命令実行手段の状態が受け入れ可能状態のとき、例外発生をした演算命令の再実行を指示する手段を備えることを特徴とする情報処理装置。
JP10227594A 1994-04-15 1994-04-15 情報処理装置 Expired - Fee Related JP3547482B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10227594A JP3547482B2 (ja) 1994-04-15 1994-04-15 情報処理装置
US08/422,220 US5742782A (en) 1994-04-15 1995-04-14 Processing apparatus for executing a plurality of VLIW threads in parallel

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10227594A JP3547482B2 (ja) 1994-04-15 1994-04-15 情報処理装置

Publications (2)

Publication Number Publication Date
JPH07281896A JPH07281896A (ja) 1995-10-27
JP3547482B2 true JP3547482B2 (ja) 2004-07-28

Family

ID=14323060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10227594A Expired - Fee Related JP3547482B2 (ja) 1994-04-15 1994-04-15 情報処理装置

Country Status (2)

Country Link
US (1) US5742782A (ja)
JP (1) JP3547482B2 (ja)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3493768B2 (ja) * 1994-12-01 2004-02-03 松下電器産業株式会社 データ処理装置
US6643765B1 (en) * 1995-08-16 2003-11-04 Microunity Systems Engineering, Inc. Programmable processor with group floating point operations
US5742840A (en) * 1995-08-16 1998-04-21 Microunity Systems Engineering, Inc. General purpose, multiple precision parallel operation, programmable media processor
WO1999015958A1 (fr) * 1997-09-19 1999-04-01 Hitachi, Ltd. Calculateur a tres long mot d'instruction pourvu d'une fonction de preexecution partielle
US6061710A (en) * 1997-10-29 2000-05-09 International Business Machines Corporation Multithreaded processor incorporating a thread latch register for interrupt service new pending threads
US6240509B1 (en) * 1997-12-16 2001-05-29 Intel Corporation Out-of-pipeline trace buffer for holding instructions that may be re-executed following misspeculation
US6463522B1 (en) * 1997-12-16 2002-10-08 Intel Corporation Memory system for ordering load and store instructions in a processor that performs multithread execution
US6182210B1 (en) * 1997-12-16 2001-01-30 Intel Corporation Processor having multiple program counters and trace buffers outside an execution pipeline
US6772324B2 (en) * 1997-12-17 2004-08-03 Intel Corporation Processor having multiple program counters and trace buffers outside an execution pipeline
US6112299A (en) * 1997-12-31 2000-08-29 International Business Machines Corporation Method and apparatus to select the next instruction in a superscalar or a very long instruction word computer having N-way branching
EP0945784A1 (en) * 1998-03-27 1999-09-29 Motorola, Inc. Method for storing data structures in memory using address pointers, and apparatus
US6718457B2 (en) * 1998-12-03 2004-04-06 Sun Microsystems, Inc. Multiple-thread processor for threaded software applications
US7114056B2 (en) 1998-12-03 2006-09-26 Sun Microsystems, Inc. Local and global register partitioning in a VLIW processor
US7117342B2 (en) * 1998-12-03 2006-10-03 Sun Microsystems, Inc. Implicitly derived register specifiers in a processor
US6275749B1 (en) 1998-12-22 2001-08-14 Philips Electronics North America Corporation Interrupt-controlled thread processing
US6401155B1 (en) 1998-12-22 2002-06-04 Philips Electronics North America Corporation Interrupt/software-controlled thread processing
US6535905B1 (en) * 1999-04-29 2003-03-18 Intel Corporation Method and apparatus for thread switching within a multithreaded processor
US6654870B1 (en) * 1999-06-21 2003-11-25 Pts Corporation Methods and apparatus for establishing port priority functions in a VLIW processor
US6427196B1 (en) * 1999-08-31 2002-07-30 Intel Corporation SRAM controller for parallel processor architecture including address and command queue and arbiter
US6668317B1 (en) * 1999-08-31 2003-12-23 Intel Corporation Microengine for parallel processor architecture
US6983350B1 (en) 1999-08-31 2006-01-03 Intel Corporation SDRAM controller for parallel processor architecture
US6606704B1 (en) * 1999-08-31 2003-08-12 Intel Corporation Parallel multithreaded processor with plural microengines executing multiple threads each microengine having loadable microcode
US7546444B1 (en) 1999-09-01 2009-06-09 Intel Corporation Register set used in multithreaded parallel processor architecture
US7191309B1 (en) 1999-09-01 2007-03-13 Intel Corporation Double shift instruction for micro engine used in multithreaded parallel processor architecture
US6625634B1 (en) 1999-10-01 2003-09-23 Sun Microsystems, Inc. Efficient implementation of multiprecision arithmetic
US6532509B1 (en) 1999-12-22 2003-03-11 Intel Corporation Arbitrating command requests in a parallel multi-threaded processing system
US6694380B1 (en) * 1999-12-27 2004-02-17 Intel Corporation Mapping requests from a processing unit that uses memory-mapped input-output space
US6307789B1 (en) * 1999-12-28 2001-10-23 Intel Corporation Scratchpad memory
US7620702B1 (en) 1999-12-28 2009-11-17 Intel Corporation Providing real-time control data for a network processor
US6625654B1 (en) * 1999-12-28 2003-09-23 Intel Corporation Thread signaling in multi-threaded network processor
US6631430B1 (en) * 1999-12-28 2003-10-07 Intel Corporation Optimizations to receive packet status from fifo bus
US6661794B1 (en) * 1999-12-29 2003-12-09 Intel Corporation Method and apparatus for gigabit packet assignment for multithreaded packet processing
US7480706B1 (en) 1999-12-30 2009-01-20 Intel Corporation Multi-threaded round-robin receive for fast network port
US6976095B1 (en) 1999-12-30 2005-12-13 Intel Corporation Port blocking technique for maintaining receive packet ordering for a multiple ethernet port switch
US6952824B1 (en) 1999-12-30 2005-10-04 Intel Corporation Multi-threaded sequenced receive for fast network port stream of packets
US6584522B1 (en) * 1999-12-30 2003-06-24 Intel Corporation Communication between processors
US6631462B1 (en) * 2000-01-05 2003-10-07 Intel Corporation Memory shared between processing threads
DE10000960C1 (de) * 2000-01-12 2001-12-20 Infineon Technologies Ag Datenverarbeitungsvorrichtung
US7376820B2 (en) 2000-03-16 2008-05-20 Fujitsu Limited Information processing unit, and exception processing method for specific application-purpose operation instruction
US7856633B1 (en) 2000-03-24 2010-12-21 Intel Corporation LRU cache replacement for a partitioned set associative cache
US6931641B1 (en) 2000-04-04 2005-08-16 International Business Machines Corporation Controller for multiple instruction thread processors
US7093109B1 (en) 2000-04-04 2006-08-15 International Business Machines Corporation Network processor which makes thread execution control decisions based on latency event lengths
JP4025493B2 (ja) 2000-08-08 2007-12-19 富士通株式会社 適切な発行先に命令を発行する命令発行装置
US7681018B2 (en) * 2000-08-31 2010-03-16 Intel Corporation Method and apparatus for providing large register address space while maximizing cycletime performance for a multi-threaded register file set
US7035998B1 (en) 2000-11-03 2006-04-25 Mips Technologies, Inc. Clustering stream and/or instruction queues for multi-streaming processors
US7139898B1 (en) * 2000-11-03 2006-11-21 Mips Technologies, Inc. Fetch and dispatch disassociation apparatus for multistreaming processors
US7127588B2 (en) * 2000-12-05 2006-10-24 Mindspeed Technologies, Inc. Apparatus and method for an improved performance VLIW processor
US7020871B2 (en) * 2000-12-21 2006-03-28 Intel Corporation Breakpoint method for parallel hardware threads in multithreaded processor
US7356673B2 (en) * 2001-04-30 2008-04-08 International Business Machines Corporation System and method including distributed instruction buffers for storing frequently executed instructions in predecoded form
US6868476B2 (en) * 2001-08-27 2005-03-15 Intel Corporation Software controlled content addressable memory in a general purpose execution datapath
US7126952B2 (en) * 2001-09-28 2006-10-24 Intel Corporation Multiprotocol decapsulation/encapsulation control structure and packet protocol conversion method
WO2003032154A1 (en) * 2001-10-08 2003-04-17 Telefonaktiebolaget Lm Ericsson Hidden job start preparation in an instruction-parallel processor system
JP2003140886A (ja) * 2001-10-31 2003-05-16 Seiko Epson Corp インストラクションセット及びコンパイラ
US7158964B2 (en) * 2001-12-12 2007-01-02 Intel Corporation Queue management
US7107413B2 (en) 2001-12-17 2006-09-12 Intel Corporation Write queue descriptor count instruction for high speed queuing
US7269179B2 (en) 2001-12-18 2007-09-11 Intel Corporation Control mechanisms for enqueue and dequeue operations in a pipelined network processor
US7895239B2 (en) 2002-01-04 2011-02-22 Intel Corporation Queue arrays in network devices
US7181573B2 (en) 2002-01-07 2007-02-20 Intel Corporation Queue array caching in network devices
US6934951B2 (en) 2002-01-17 2005-08-23 Intel Corporation Parallel processor with functional pipeline providing programming engines by supporting multiple contexts and critical section
US7181594B2 (en) * 2002-01-25 2007-02-20 Intel Corporation Context pipelines
US7149226B2 (en) 2002-02-01 2006-12-12 Intel Corporation Processing data packets
US7471688B2 (en) * 2002-06-18 2008-12-30 Intel Corporation Scheduling system for transmission of cells to ATM virtual circuits and DSL ports
ES2199063B1 (es) * 2002-07-01 2005-06-01 Robert Constant Vanhoutte Elemento de encofrado.
US7352769B2 (en) 2002-09-12 2008-04-01 Intel Corporation Multiple calendar schedule reservation structure and method
US7433307B2 (en) * 2002-11-05 2008-10-07 Intel Corporation Flow control in a network environment
US20060149927A1 (en) * 2002-11-26 2006-07-06 Eran Dagan Processor capable of multi-threaded execution of a plurality of instruction-sets
US6941438B2 (en) * 2003-01-10 2005-09-06 Intel Corporation Memory interleaving
US7653912B2 (en) 2003-05-30 2010-01-26 Steven Frank Virtual processor methods and apparatus with unified event notification and consumer-producer memory operations
US7443836B2 (en) 2003-06-16 2008-10-28 Intel Corporation Processing a data packet
US7366877B2 (en) * 2003-09-17 2008-04-29 International Business Machines Corporation Speculative instruction issue in a simultaneously multithreaded processor
JP2005182791A (ja) * 2003-12-12 2005-07-07 Sharp Corp 汎用組込みプロセッサ
US7213099B2 (en) * 2003-12-30 2007-05-01 Intel Corporation Method and apparatus utilizing non-uniformly distributed DRAM configurations and to detect in-range memory address matches
US7523330B2 (en) * 2004-06-30 2009-04-21 Sun Microsystems, Inc. Thread-based clock enabling in a multi-threaded processor
US20060229638A1 (en) * 2005-03-29 2006-10-12 Abrams Robert M Articulating retrieval device
US8099583B2 (en) * 2006-08-23 2012-01-17 Axis Semiconductor, Inc. Method of and apparatus and architecture for real time signal processing by switch-controlled programmable processor configuring and flexible pipeline and parallel processing
JP2009026136A (ja) * 2007-07-20 2009-02-05 Nec Electronics Corp マルチプロセッサ装置
US20090044159A1 (en) * 2007-08-08 2009-02-12 Mplicity Ltd. False path handling
US20110138152A1 (en) * 2008-08-21 2011-06-09 Panasonic Corporation Instruction control device
US7941644B2 (en) * 2008-10-16 2011-05-10 International Business Machines Corporation Simultaneous multi-thread instructions issue to execution units while substitute injecting sequence of instructions for long latency sequencer instruction via multiplexer
CN102436368B (zh) * 2011-12-31 2016-06-01 北京像素软件科技股份有限公司 一种网络游戏中的指令处理方法
KR102177871B1 (ko) * 2013-12-20 2020-11-12 삼성전자주식회사 멀티 쓰레딩을 지원하기 위한 연산 유닛, 이를 포함하는 프로세서 및 프로세서의 동작 방법
KR102270791B1 (ko) * 2014-12-10 2021-06-29 삼성전자주식회사 매크로 명령어를 처리하는 방법 및 장치
WO2018120016A1 (zh) * 2016-12-30 2018-07-05 上海寒武纪信息科技有限公司 用于执行lstm神经网络运算的装置和运算方法
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157287B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system with variable latency memory access
US11561791B2 (en) * 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5295249A (en) * 1990-05-04 1994-03-15 International Business Machines Corporation Compounding preprocessor for cache for identifying multiple instructions which may be executed in parallel
EP0474297B1 (en) * 1990-09-05 1998-06-10 Koninklijke Philips Electronics N.V. Very long instruction word machine for efficient execution of programs with conditional branches
US5299321A (en) * 1990-12-18 1994-03-29 Oki Electric Industry Co., Ltd. Parallel processing device to operate with parallel execute instructions
JP2908598B2 (ja) * 1991-06-06 1999-06-21 松下電器産業株式会社 情報処理装置
US5511172A (en) * 1991-11-15 1996-04-23 Matsushita Electric Co. Ind, Ltd. Speculative execution processor
JPH05233281A (ja) * 1992-02-21 1993-09-10 Toshiba Corp 電子計算機
US5513363A (en) * 1994-08-22 1996-04-30 Hewlett-Packard Company Scalable register file organization for a computer architecture having multiple functional units or a large register file

Also Published As

Publication number Publication date
US5742782A (en) 1998-04-21
JPH07281896A (ja) 1995-10-27

Similar Documents

Publication Publication Date Title
JP3547482B2 (ja) 情報処理装置
US5655096A (en) Method and apparatus for dynamic scheduling of instructions to ensure sequentially coherent data in a processor employing out-of-order execution
US5471593A (en) Computer processor with an efficient means of executing many instructions simultaneously
US6415380B1 (en) Speculative execution of a load instruction by associating the load instruction with a previously executed store instruction
CN107003837B (zh) 用于推测性编译器优化的轻量级受限事务存储器
KR100227276B1 (ko) 단일 사이클 마이크로 명령을 이용한 명령 스케줄링 방법 및 프로세서
US6279100B1 (en) Local stall control method and structure in a microprocessor
US4740893A (en) Method for reducing the time for switching between programs
US11204770B2 (en) Microprocessor having self-resetting register scoreboard
US6851045B2 (en) Microprocessor having delayed instructions with variable delay times for executing branch instructions
US5881307A (en) Deferred store data read with simple anti-dependency pipeline inter-lock control in superscalar processor
JP2834292B2 (ja) データ・プロセッサ
US10620954B2 (en) Dynamic acceleration of data processor operations using data-flow analysis
US6772317B2 (en) Method and apparatus for optimizing load memory accesses
JPH10154073A (ja) データ依存性を管理する装置及び方法
US7162620B2 (en) Methods and apparatus for multi-processing execution of computer instructions
JP5326314B2 (ja) プロセサおよび情報処理装置
US6871343B1 (en) Central processing apparatus and a compile method
CN112241288A (zh) 在硬件中检测条件分支的动态控制流重汇聚点
US10102003B2 (en) Intelligent context management
US5802340A (en) Method and system of executing speculative store instructions in a parallel processing computer system
US8255674B2 (en) Implied storage operation decode using redundant target address detection
JP3146077B2 (ja) プロセッサ
JP2020091751A (ja) 演算処理装置および演算処理装置の制御方法
US5737562A (en) CPU pipeline having queuing stage to facilitate branch instructions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040209

TRDD Decision of grant or rejection written
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040318

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040414

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees