JP3540743B2 - 1次発行キューと2次発行キューを持つマイクロプロセッサ - Google Patents

1次発行キューと2次発行キューを持つマイクロプロセッサ Download PDF

Info

Publication number
JP3540743B2
JP3540743B2 JP2000391228A JP2000391228A JP3540743B2 JP 3540743 B2 JP3540743 B2 JP 3540743B2 JP 2000391228 A JP2000391228 A JP 2000391228A JP 2000391228 A JP2000391228 A JP 2000391228A JP 3540743 B2 JP3540743 B2 JP 3540743B2
Authority
JP
Japan
Prior art keywords
instruction
issue queue
instructions
unit
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000391228A
Other languages
English (en)
Other versions
JP2001297000A (ja
Inventor
ジェームス・アラン・カール
チャールズ・ロバーツ・ムーア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001297000A publication Critical patent/JP2001297000A/ja
Application granted granted Critical
Publication of JP3540743B2 publication Critical patent/JP3540743B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • G06F9/3865Recovery, e.g. branch miss-prediction, exception handling using deferred exception handling, e.g. exception flags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/30149Instruction analysis, e.g. decoding, instruction word fields of variable length instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/3017Runtime instruction translation, e.g. macros
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/3017Runtime instruction translation, e.g. macros
    • G06F9/30174Runtime instruction translation, e.g. macros for non-native instruction set, e.g. Javabyte, legacy code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • G06F9/384Register renaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3853Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution of compound instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Advance Control (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般にマイクロプロセッサ・アーキテクチャの分野に関し、特に命令グループ・アーキテクチャ、対応するキャッシュ機構、及びその有用な拡張機能を利用したマイクロプロセッサに関する。
【0002】
【従来の技術】
マイクロプロセッサ技術によりギガヘルツクラスの性能が実現される中、マイクロプロセッサの設計者は、特定の命令セット・アーキテクチャ(ISA)で動作するよう設計され、既に実用に供されている多数のソフトウェアとの互換性を維持し、その一方で最新技術を利用するという大きな課題に直面している。設計者はこの問題を解決するため、既存ISAに従ってフォーマットされている命令を受信し、命令フォーマットをギガヘルツの実行パイプラインでの動作に適した内部ISAに変換するよう調整された"階層化アーキテクチャ"・マイクロプロセッサを実装している。図4を参照する。階層化アーキテクチャ・マイクロプロセッサ401の部分が示してある。この設計で、マイクロプロセッサ401の命令キャッシュ410は、フェッチ・ユニット402によりメイン・メモリからフェッチされた命令を受信し格納する。命令キャッシュ410に格納された命令は、第1ISA(つまりプロセッサ401により実行されているプログラムが書込まれたISA)に従ってフォーマットされる。命令は次に、命令キャッシュ410から検索され、ISAコンバータ412により第2ISAに変換される。第1ISAから第2ISAへの命令の変換には複数のサイクルが必要なので、変換プロセスは通常、パイプライン処理され、従って、どの時点でも第1ISAから第2ISAへ複数の命令を変換しなければならないことがある。変換された命令は次に、実行のためプロセッサ401の実行パイプライン422に転送される。フェッチ・ユニット402は、分岐判断の結果を予測することによって分岐命令に続いて実行される命令のアドレスを決定しようとする分岐予測ロジック406を含む。命令は次に、分岐予測をもとに投機的に発行され実行される。ただし分岐の予測が外れたとき、プロセッサ401の命令キャッシュ410と最終ステージ432の間に保留された命令をフラッシュする必要がある。システム内の予測ミスした分岐結果がフラッシュされたときに生じる性能のペナルティは、パイプラインの長さの関数である。フラッシュする必要のあるパイプライン・ステージが多ければ多いほど、分岐予測の外れた場合の性能のペナルティが大きくなる。階層化アーキテクチャではプロセッサ・パイプラインが長くなり、所定の時間に"フライト中"の命令数が増える可能性があるため、階層化アーキテクチャに伴う分岐予測外れのペナルティは、プロセッサの性能を制限する要因になる。
【0003】
従って、分岐予測外れの性能ペナルティに対応した階層化アーキテクチャ・マイクロプロセッサを実装することが強く求められる。また、実装された解決策が、コードの断片の反復実行により発生する例外条件の反復発生を、少なくとも部分的には解決することも求められる。更にまた、実装された解決策が、次に実行される命令を発行キューで検索する機能を犠牲にすることなく、事実上、大きい発行キューを使用可能にすることも求められる。
【0004】
【発明が解決しようとする課題】
本発明は、命令グループ及び命令グループ・フォーマットに一致するキャッシュ機構を利用したマイクロプロセッサを提供することを目的とする。
【0005】
本発明は更に、プロセッサ、データ処理システム、及び性能を改良するため基本キャッシュ・ブロックとともに命令履歴情報を利用する方法を提供することを目的とする。
【0006】
本発明は更に、プロセッサ、データ処理システム、及び1次発行キューと2次発行キューを利用した方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の実施例は、マイクロプロセッサ及びこれに関連する方法とデータの処理システムを想定している。マイクロプロセッサは、第1命令セットを受信するよう構成された命令クラッキング・ユニット(cracking unit)を含む。クラッキング・ユニットは、命令のセットを命令グループとして編成する。グループの各命令は命令グループ・タグを共有する。プロセッサはまた、命令グループ・フォーマットで編成され、クラッキング・ユニットにより生成された命令グループをキャッシュするよう構成された基本キャッシュ・ブロック機構を含む。プロセッサの実行ユニットは、命令グループの命令を実行するのに適している。実施例で、命令グループの命令の実行中に例外が発生し、これによりフラッシュが生じたとき、フラッシュされるのは、基本キャッシュ・ブロックからディスパッチされた命令のみである。プロセッサは、基本キャッシュ・ブロックに届いた命令のみフラッシュすることにより、クラッキング・ユニット・パイプラインに保留されている命令がフラッシュされないようにする。フラッシュされる命令が少なくなるので、例外発生時の性能ペナルティも減少する。他の実施例で、受信された命令は、第1命令フォーマットに従ってフォーマットされ、第2命令セットは第2命令フォーマットに従ってフォーマットされる。第2命令フォーマットは第1命令フォーマットより幅が広い。基本キャッシュ・ブロックは、基本キャッシュ・ブロックの対応するエントリの各命令グループを格納しやすいように構成される。実施例によっては、基本キャッシュ・ブロックの各エントリは、対応する基本キャッシュ・ブロック・エントリを示すエントリ・フィールドと、次に実行される命令グループを予測するポインタを含む。プロセッサは、好適には、予測ミスした分岐に対応したキャッシュ・エントリのポインタを更新するよう構成される。
【0008】
プロセッサは、命令セットを受信し、命令セットを命令グループに編成するのに適している。命令グループは実行を目的にディスパッチされる。命令グループの実行後、命令グループに関連する例外イベントを示す命令履歴情報が記録される。その後、命令の実行が命令履歴情報に応答して変更され、後の命令グループ実行時の例外イベントの発生が防止される。プロセッサは、命令キャッシュ等のステージ機構、L2キャッシュまたはシステム・メモリ、クラッキング・ユニット、及び基本キャッシュ・ブロックを含む。クラッキング・ユニットは、ステージ機構から命令セットを受信するよう構成される。クラッキング・ユニットは、命令セットを命令グループに編成するよう調整される。クラッキング・ユニットは、命令セットのフォーマットを第1命令フォーマットから第2命令フォーマットに変更することができる。基本キャッシュ・ブロックのアーキテクチャは命令グループを格納するのに適している。基本キャッシュ・ブロックは、基本キャッシュ・ブロックの各エントリに対応した命令履歴フィールドを含む。命令履歴情報は、命令グループに関連した例外イベントを示す。好適実施例の場合、基本キャッシュ・ブロックの各エントリは、クラッキング・ユニットにより生成された1つの命令グループに対応する。プロセッサには更に、命令グループの実行が完了したときに命令履歴フィールドに情報を格納するよう構成された完了テーブル制御ロジックを追加できる。命令履歴情報は、命令グループの命令が他の命令と依存関係を持つかどうか、または命令グループの実行が前にストア・フォワード例外になったかどうかを示すことができる。この実施例で、プロセッサは、命令グループの実行が前にストア・フォワード例外になったことの検出に応答する順次モード(in-order-mode)で動作するよう構成される。
【0009】
プロセッサは、命令を発行ユニットにディスパッチするのに適している。発行ユニットは、1次発行キューと2次発行キューを含む。命令は、実行のため現在発行が許可されている場合は1次発行キューに格納される。実行のため現在発行が許可されていない場合は2次発行キューに格納される。プロセッサは、1次発行キューの複数の命令のうち次に発行する命令を決定する。命令は、別の命令からの結果に依存する場合は、1次発行キューから2次発行キューに移動される。実施例で、命令は、実行のため発行された後、1次発行キューから2次発行キューに移動することができる。この実施例では、命令は、指定時間の間2次発行キューに維持することができる。その後、命令が拒否されていない場合は、命令を含む2次発行キュー・エントリの割当てが解除される。マイクロプロセッサは、命令キャッシュ、命令キャッシュから命令を受信するよう構成されたディスパッチ・ユニット、及びディスパッチ・ユニットから命令を受信するよう構成された発行ユニットを含む。発行ユニットは、ディスパッチされ現在実行を許可されている命令を1次発行キューに割当て、ディスパッチされ現在実行を許可されていない命令を2次発行キューに割当てる。
【0010】
【発明の実施の形態】
図1を参照する。本発明に従ったデータ処理システム100の実施例が示してある。システム100は、中央処理装置(プロセッサ)101a、101b、101c等(ここではプロセッサ101と総称する)を含む。実施例で、各プロセッサ101は、RISC(縮小命令セット・コンピュータ)マイクロプロセッサ等である。RISCプロセッサ一般については、C.MayらによるPower PC Architecture:A Specification for a New Family of RISC Processors(Morgan Kaufmann、1994 2d edition)を参照されたい。プロセッサ101は、システム・バス113を通してシステム・メモリ250及び他の様々なコンポーネントに接続される。ROM(読出し専用メモリ)102は、システム・バス113に接続され、BIOS(基本入出力システム)等を含み、BIOSはシステム100の基本機能を制御する。図1は、システム・バス113に接続されたI/Oアダプタ107とネットワーク・アダプタ106も含む。I/Oアダプタ107は、ハード・ディスク103、テープ・ストレージ・デバイス105等の大容量記憶装置をシステム・バス113にリンクする。ネットワーク・アダプタ106は、バス113を外部ネットワークと相互接続し、データ処理システム100が他のシステムと通信できるようにする。ディスプレイ・モニタ136は、ディスプレイ・アダプタ112によりシステム・バス113に接続され、アダプタ112は、グラフィックスの多いアプリケーション及びビデオ・コントローラの性能を改良するためグラフィックス・アダプタ等を含む。実施例によっては、アダプタ107、106、112は、中間バス・ブリッジ(図示せず)を介してシステム・バス113に接続されるI/Oバスに接続することができる。ハード・ディスク・コントローラ、ネットワーク・アダプタ、グラフィックス・アダプタ等の周辺装置を接続するのに適したI/Oバスは、PCI SIG(分科会)(オレゴン州ヒルズボロ)のPCIローカル・バス仕様2.2版に従って指定されているPCI(Peripheral Components Interface)バス等である。他の入出力デバイスは、ユーザ・インタフェース・アダプタ108を通してシステム・バス113に接続されているように示している。キーボード109、マウス110、スピーカ111は全てユーザ・インタフェース・アダプタ108を通してバス113にリンクされ、アダプタ108は、例えば複数のデバイス・アダプタを1つの回路に統合するSuperI/Oチップ等である。このようなチップの情報については、National Semiconductor Corporation、www.national.comのPC87338/PC97338 ACPI 1.0及びPC98/99 Compliant SuperI/Oデータ・シート(1998年11月)を参照されたい。図1に示すように、システム100は、プロセッサ101の形の処理手段、システム・メモリ250と大容量記憶装置104を含むステージ手段、キーボード109、マウス110等の入力手段、及びスピーカ111、ディスプレイ136を含む出力手段を含む。システム・メモリ250と大容量記憶装置104の一部の実施例は、集合的にIBM AIX等のオペレーティング・システムまたは他の適切なオペレーティング・システムを格納し、図1に示した様々なコンポーネントの機能を調整する。AIXオペレーティング・システムの詳細については、IBMのAIX Version 4.3 Technical Reference:Base Operating System and Extensions、Volumes 1 and 2(SC23-4159、SC23-4160)、AIX Version 4.3 System User's Guide:Communications and Networks(SC23-4122)、及びAIX Version 4.3 System User's Guide:Operating System and Devices(SC23-4121)を参照されたい。
【0011】
図2を参照する。本発明の実施例に従ったプロセッサ101を簡素化した図が示してある。プロセッサ101は、次にフェッチする命令のアドレスを生成するのに適した命令フェッチ・ユニット202を含む。フェッチ・ユニット202により生成された命令アドレスは命令キャッシュ210に与えられる。フェッチ・ユニット202は、名前からわかるように、プログラムの実行フローの決定結果を所定の情報をもとに予測するよう調整された分岐予測ロジック等を含む。分岐決定を正しく予測できるかどうかは、プロセッサ101が命令を投機的且つ順不同に実行することによって性能を改良するために重要な要因である。フェッチ・ユニット202により生成された命令アドレスは命令キャッシュ210に与えられる。キャッシュ210は高速ステージ機構にシステム・メモリの内容の一部を格納する。命令キャッシュ210に格納された命令は、好適には第1ISAに従ってフォーマットされる。第1ISAは通常、例えばPowerPC、x86互換命令セット等のレガシーISAである。PowerPC命令セットについての詳細は、モトローラ社のPowerPC 620 RISC Microprocessor User's Manual(MPC620UM/AD)を参照されたい。フェッチ・ユニット202により生成された命令アドレスが、命令キャッシュ210で現在複製されているシステム・メモリ位置に対応する場合、命令キャッシュ210は、対応する命令をクラッキング・ユニット212に転送する。フェッチ・ユニット202により生成された命令アドレスに対応した命令が、命令キャッシュ210に現在存在しない(つまりフェッチ・ユニット202により与えられた命令アドレスが命令キャッシュ210をミスしている)場合、命令は、クラッキング・ユニット212に転送する前に、L2キャッシュ(図示せず)またはシステム・メモリからフェッチする必要がある。
【0012】
クラッキング・ユニット212は、入力される命令ストリームを変更し、所定の実行パイプラインで高動作周波数(1GHzを超える動作周波数)にて実行するのに最適な命令セットを生成するよう調整される。例えば、クラッキング・ユニット212は、実施例によっては、PowerPCマイクロプロセッサによりサポートされる命令等、32ビット幅のISAで命令を受信し、ギガヘルツ・レンジ以上で動作する高速実行ユニットでの実行を促進する第2の、好適にはより幅の広いISAに変換する。クラッキング・ユニット212により生成される命令の、幅広いフォーマットは、例えばクラッキング・ユニット212により受信され第1フォーマットに従ってフォーマットされた命令にて単に暗示されているだけか、または参照されているだけの情報(オペランド値等)を格納する明示的フィールド等を含めることができる。例えば、実施例によっては、クラッキング・ユニットによって生成された命令のISAは64ビット以上のビット幅である。
【0013】
他の実施例で、クラッキング・ユニット212は、命令を第1フォーマットから第2の、好適にはより幅の広いフォーマットに変換する他、フェッチされた命令セットを命令グループ302に編成するよう設計される。図3に命令グループの例が示してある。命令グループ302はそれぞれ、命令スロット304a、304b等(ここでは命令スロット304と総称する)のセットを含む。命令セットを命令グループに編成することで、特にフライト中の多数の命令に対して名前変更レジスタのマッピング・テーブルや完了テーブルを維持するため必要なロジックが簡素化され、高速実行が促進される。図3は、クラッキング・ユニット212により実行可能な命令グループの3つの例を示す。
【0014】
例1で、301と示した命令セットは、クラッキング・ユニット212により1つの命令グループ302に変換される。本発明の図の実施例では、各命令グループ302が、304a、304b、304c、304d、及び304eと示した5つのスロットを含む。各スロット304は1つの命令を含むことができる。この実施例で、各命令グループは最大5つの命令を含むことができる。実施例によっては、クラッキング・ユニット212により受信される命令セット301の命令は、前記のように第1ISAに従ってフォーマットされ、グループ302に格納された命令は、より幅の広い第2フォーマットに従ってフォーマットされる。命令グループを使用することで、個別にタグを付けて追跡する必要のある命令数が減少し、名前変更リカバリ・テーブルや完了テーブルのロジックが簡素化される。従って、命令グループを使用することは、順不同プロセッサにて保留命令を追跡するプロセスを簡素化するよう努めながら、各命令に関する情報をいくらか犠牲にすることを想定したものである。
【0015】
図3の例2は、本発明の実施例に従ってクラッキング・ユニット212により実行される命令グループの第2例を示す。この例は、実行を高速化するため、複雑な命令を単純な命令のグループに分けるクラッキング・ユニット212の機能を示している。図示の例で、2つのLDU(load-with-update)命令のシーケンスが、それぞれスロット304a及び304cにあるロード命令のペアと、それぞれスロット304b及び304dにあるADD命令のペアを含む命令グループに分けられる。この例では、グループ302に分岐命令は含まれないので、命令グループ302の最後のスロット304eにも命令が含まれない。PowerPCのLDU命令は、他の命令セットの類似の命令と同様、命令が複数のGPR(汎用レジスタ)の内容に影響を与えるという意味で複雑な命令である。具体的には、LDU命令は、第1GPRの内容に影響を与えるロード命令と、第2GPRの内容に影響を与えるADD命令に分けることができる。従って、図3の例2の命令グループ302で、2つ以上の命令スロット304の命令は、クラッキング・ユニット212により受信された1つの命令に対応する。
【0016】
例3で、クラッキング・ユニット212に入力される1つの命令が、複数のグループ302を占める命令セットに分けられる。具体的には、図3は、LM(load multiple)命令を示す。LM命令は(PowerPC命令セットによると)、メモリ内の連続した位置の内容を連続番号の付いたGPRにロードする。図の例で、連続した6つのメモリ位置のLMは、6つのロード命令に分けられる。プロセッサ101の図の実施例に従った各グループ302は、多くても5つの命令しか含まず、5番目のスロット304eは分岐命令に予約されているので、6つのレジスタのLMはそれぞれ2つのグループ302a及び302bに分けられる。ロード命令のうち4つは第1グループ302aに格納され、残り2つのロード命令は第2グループ302bに格納される。従って例3で、1つの命令が複数の命令グループ302にまたがる命令セットに分けられる。
【0017】
図2を参照する。クラッキング・ユニット212の好適実施例により生成された命令グループ302は、基本キャッシュ・ブロック213に転送され、格納されて実行が保留される。図5を参照する。基本キャッシュ・ブロック213の実施例が示してある。図の実施例で、基本キャッシュ・ブロック213はエントリ502a乃至502nのセット(ここでは基本キャッシュ・ブロック・エントリ502と総称する)を含む。実施例によっては、基本キャッシュ・ブロック213の各エントリ502が1つの命令グループ302を格納する。また各エントリ502は、エントリID504、ポインタ506、及び命令アドレス(IA)・フィールド507等を含む。各エントリ502の命令アドレス・フィールド507は完了テーブル218のIAフィールドと同類である。他の実施例で、基本キャッシュ・ブロック504の各エントリは、完了テーブル218のエントリに対応し、命令アドレス・フィールド507は、対応する命令グループ302の第1命令の命令アドレスを示す。他の実施例で、ポインタ506は、分岐予測アルゴリズム、分岐履歴テーブル、または他の分岐予測メカニズムをもとに次に実行される命令グループ302のエントリIDを示す。前記のように、クラッキング・ユニット212で命令グループ302を形成する好適な実施例は、分岐命令を各グループ302の最後のスロットに割当てる。また、クラッキング・ユニット212の好適実施例は、グループ302の分岐命令数が1(または1以下)である命令グループ302を生成する。この構成の各命令グループ302は、図6に示す分岐ツリー600のレッグ(足)を表すとみなすことができる。その場合、命令グループ302は、対応する命令グループ・エントリ504の値により表される。例えば第1命令グループ302aは、そのエントリ番号(1)等により示される。1例として、プロセッサ101の分岐予測メカニズムが、レッグ1に続いてレッグ2(第2グループ302bに対応)が実行されると予測し、レッグ2に続いてレッグ3が実行されると仮定する。基本キャッシュ・ブロック213は、本発明の実施例によっては、これらの分岐予測を反映するため、ポインタ506をセットして次に実行されるグループ302を示す。基本キャッシュ・ブロック213の各エントリ502のポインタ506は、次にディスパッチされるグループ302を決定するために利用することができる。
【0018】
基本キャッシュ・ブロック213は、フェッチ・ユニット202が命令キャッシュ210と連携するのと同様、ブロック・フェッチ・ユニット215と連携する。具体的には、ブロック・フェッチ・ユニット215は、基本キャッシュ・ブロック213に与えられる命令アドレスを生成する役割を持つ。ブロック・フェッチ・ユニット215により与えられる命令アドレスは、基本キャッシュ・ブロック213の命令アドレス・フィールド507にあるアドレスと比較される。ブロック・フェッチ・ユニット213により与えられた命令アドレスが基本キャッシュ・ブロック213でヒットする場合、対応する命令グループが発行キュー220に転送される。ブロック・フェッチ・ユニット215により与えられたアドレスが基本キャッシュ・ブロック213でミスした場合、命令アドレスはフェッチ・ユニット202に送り返され、対応する命令が命令キャッシュ210から検索される。基本キャッシュ・ブロック213は、領域節約に適した実施例では(ダイ・サイズ)、命令キャッシュ210をなくすことができる。この実施例で、命令はL2キャッシュ、システム・メモリ等の適切なステージ機構から検索され、クラッキング・ユニット212に直接与えられる。ブロック・フェッチ・ユニット213により生成された命令アドレスが、基本キャッシュ・ブロック213でミスした場合、対応する命令が命令キャッシュ210ではなくL2キャッシュまたはシステム・メモリから検索される。
【0019】
プロセッサ101の図の実施例は更に、ディスパッチ・ユニット214を示す。ディスパッチ・ユニット214は、各命令グループの命令を対応する発行キュー220に転送する前に、必要な全てのリソースが利用できるようにする。また、ディスパッチ・ユニット214は、ディスパッチ/完了制御ロジック216と通信し、命令が発行された順序とこれらの命令の完了状態を追跡し、順不同実行を促進する。前記のように、クラッキング・ユニット212が入力された命令を命令グループに編成するプロセッサ101の実施例で、各命令グループ302には、完了制御ロジック216により、発行済み命令グループの順序を知らせるグループ・タグ(GTAG)が割当てられる。1例として、ディスパッチ・ユニット214は、単調に増加する値を連続した命令グループに割当てることができる。この構成で、GTAG値が小さい命令グループは、GTAG値の大きい命令グループよりも先に発行されている(つまりその命令グループより若い)と言われる。プロセッサ101の図の実施例は、ディスパッチ・ユニット214を独立した機能ブロックとして示しているが、基本キャッシュ・ブロック213の命令グループ編成は、ディスパッチ・ユニット214の機能を組み込むのに役立つ。従って、実施例によっては、ディスパッチ・ユニット214が基本キャッシュ・ブロック213内に組み込まれ、基本キャッシュ・ブロック213は発行キュー220に直接接続される。
【0020】
ディスパッチ/完了制御ロジック216に関連して、本発明の実施例にて、発行済み命令グループの状態を追跡するため完了テーブル218が使用される。図7を参照する。完了テーブル218の実施例が示してある。図の実施例で、完了テーブル218はエントリ702a乃至702nのセット(ここでは完了テーブル・エントリ702と総称する)を含む。この実施例で完了テーブル218の各エントリ702は、命令アドレス(IA)・フィールド704と状態ビット・フィールド706を含む。この実施例で、各命令グループ302のGTAG値は、命令グループ302に対応した完了情報が格納された完了テーブル218のエントリ702を識別する。従って、完了テーブル218のエントリ1に格納された命令グループ302は、GTAG値が1等となる。この実施例で完了テーブル218は更に、GTAG値の小さい命令グループが、GTAG値の大きい命令グループより実際に若いことを示すラップ・アラウンド・ビットを含むことができる。他の実施例で、命令アドレス・フィールド704は、対応する命令グループ302の第1スロット304aに命令のアドレスを含む。状態フィールド706は、例えば完了テーブル218の対応するエントリ702が利用できるかどうか、前に保留されている命令グループにエントリが割当てられているかどうかを示す状態ビットを含むことができる。
【0021】
図2に示したプロセッサ101の実施例で、命令はディスパッチ・ユニット214から発行キュー220に発行され、対応する実行パイプ222での実行を待機する。プロセッサ101には、様々な実行パイプを追加できる。パイプはそれぞれ、プロセッサの命令セットの一部を実行するよう設計される。実施例で、実行パイプ222は、分岐ユニット・パイプライン224、ロード/ストア・パイプライン226、固定小数点演算ユニット228、及び浮動小数点ユニット230等を含む。各実行パイプ222は、2つ以上のパイプライン・ステージで構成することができる。発行キュー220に格納された命令は、様々な発行優先順位アルゴリズムを使用して実行パイプ222に発行することができる。実施例によっては、例えば、発行キュー220の保留された最も古い命令が、次に実行パイプ222に発行される命令になる。この実施例で、ディスパッチ・ユニット214により割当てられたGTAG値は、発行キュー220の保留されている命令の相対経過時間を決定するため使用される。発行前に、命令の宛先レジスタ・オペランドが、使用できる名前変更GPRに割当てられる。最終的に命令が発行キュー120から対応する実行パイプに転送されるとき、実行パイプは、命令コードにより示される動作を実行し、命令がパイプラインの最終ステージに達したとき(132)、命令の結果を命令の名前変更GPRに書込む。名前変更GPRとこれに対応する設計済みレジスタ間にマッピングが維持される。命令グループの全命令(及び若い命令グループの全命令)が、例外を発生することなく終了したとき、完了テーブル218の完了ポインタが次の命令グループに増分される。完了ポインタが新しい命令グループに増分されたとき、古い命令グループの命令に関連する名前変更レジスタが解除され、これにより古い命令グループの命令の結果がコミットされる。終了しまだコミットされていない命令よりも古い命令が例外を発生した場合、例外を発生した命令及び全ての若い命令がフラッシュされ、名前変更リカバリ・ルーチンが呼び出され、GPRマッピングが既知の最後の有効状態に戻される。
【0022】
予測された分岐が取られない場合(分岐予測外れ)、実行パイプ222で保留されている命令と発行キュー220がフラッシュされる。また予測ミスした分岐に関連する基本キャッシュ・ブロック・エントリ502のポインタ506が更新され、採用された最も新しい分岐が反映される。この更新プロセスの例を、プログラム実行によりレッグ1(命令グループ302a)からレッグ4(命令グループ302d)への分岐が発生する場合について、図5に示す。エントリ502aのポインタ506は先に、基本キャッシュ・ブロック213の番号2のエントリにある命令グループ(つまりグループ302b)への分岐を予測したので、命令グループ302aからグループ302dへの実際の分岐は予測が外れている。予測が外れた分岐は削除され、ブロック・フェッチ・ユニット215に送り返され、基本キャッシュ・ブロック213と各パイプライン222の最終ステージ232間に保留されている命令がフラッシュされ、基本キャッシュ・ブロック213のエントリ4の命令グループ302dから実行が再開される。また、基本キャッシュ・ブロック・エントリ502aのポインタ506は、その前の値2から新しい値4に変更され、最も新しい分岐情報が反映される。本発明は、基本キャッシュ・ブロック213とブロック・フェッチ・ユニット215を実行パイプライン222に近接して組み込むことで、分岐予測が外れた場合の性能ペナルティを少なくするものである。具体的には、命令クラッキング・ユニット212の"下流"側に基本キャッシュ・ブロック213を実装することによって、分岐予測の外れたフラッシュ・パスから、クラッキング・ユニット212に保留されている命令をなくし、よって、分岐予測外れの後にパージしなければならないパイプライン・ステージ数を少なくし、性能ペナルティを少なくする。また基本キャッシュ・ブロック213は、ディスパッチ/完了制御ロジック216と完了テーブル218の編成に一致した構造を持つキャッシュ・メカニズムを想定し、よって、介在するロジックの編成を簡素化し、前記のように、基本キャッシュ・ブロック213への有用な拡張機能の実装を容易にしている。
【0023】
実施例の基本キャッシュ・ブロック213は更に、例外、フラッシュ、割込み等、性能を制限するイベント(ここでは例外イベントと総称する)の発生につながる可能性のあるシナリオを避けるため、同じ命令グループの後の実行の間に使用される可能性のある情報を記録することによって、プロセッサ性能を好都合に改良できるようにする命令履歴情報を含む。図8に示した基本キャッシュ・ブロック213の実施例で、命令履歴情報は、各エントリ502の命令履歴フィールド508に格納される。命令履歴フィールド508に格納される情報の種類の例として、ロード命令が最後に実行されたときストア・フォワード例外になった特定のロード命令を含む命令グループを考える。ストア・フォワード例外は、メモリ参照が共通の(プログラム順序で)ストア命令に続くロード命令が、順不同マシンでストア命令より先に実行されたときに生じる。ロード命令は、ストア命令より前に実行された場合は、レジスタから無効な値を検索するので、例外が発生する結果、命令がフラッシュされる。基本キャッシュ・ブロック213と完了制御ロジック216の構造間には並列性があるため、命令の実行と完了の方法に関してディスパッチ/完了制御ロジック216が取得した情報を基本キャッシュ・ブロック213の対応するエントリに転送するタスクが容易になる。この並列性がない場合、ディスパッチ/完了制御ロジック216からの完了情報は、通常、グループ命令情報をそのコンポーネント命令と関連付けるため、何らかの形の中間のハッシュ・テーブル、その他の適切なメカニズムを通して渡す必要がある。ストア・フォワードの例では、ストア・フォワード例外を検出した後、ディスパッチ/完了制御ロジック216が、基本キャッシュ・ブロック213の対応するエントリの命令履歴フィールド508に、ストア・フォワード例外を示すビットを書込む。後で命令グループが実行された場合、前にストア・フォワード例外が発生したことを示す命令履歴情報を、例えばプロセッサ101を、ストアの完了前にロードが実行されるのを防ぐ順次モードにするために使用できる。従って、本発明のこの実施例は、命令グループに関連した例外イベントを示す命令履歴情報を記録し、その後、命令グループの実行を変更することで、命令グループが後で実行されるときの例外イベントの発生を防ごうとするものである。ストア・フォワードの例に示しているが、命令履歴情報フィールド508は、予測メカニズムの精度に関連する情報、予測オペランド値、キャッシュ・ミス/ヒット情報等、プロセッサが例外条件の再発を回避できるような様々な命令履歴イベントに関連した情報を記録するのに適している。
【0024】
基本キャッシュ・ブロック213の実行履歴フィールド508に記録される情報の1例が、図9に示す実施例により強調されている。この実施例では、発行キュー220が1次発行キュー902と2次発行キュー904に分けられる。発行キュー220の最適なサイズまたは深さは、拮抗する考慮事項のバランスを表す。一方では、プロセッサの機能を最大限に活用して命令を順不同に実行するため、極めて大きく深い発行キューを実装することが望ましい。命令を順不同で発行する機能は、発行キュー220に保留されている命令の数により制限される。発行キューが多くなると、順不同処理に適した命令も多くなる。他方、発行キューが深くなると、プロセッサのサイクル時間の制約内で次に発行する命令を決定するプロセッサの機能は減少する。言い換えると、発行キュー220に保留される命令が多ければ多いほど、次に発行する命令を決定するため必要な時間が長くなる。そのため、発行キュー220のような発行キューは、約20以下の深さに制限されることが多い。本発明の実施例は、発行キューで次に発行可能な命令を検索するため必要なロジックをあまり大きくする必要なく、深い発行キューのメリットを実現しようとするものである。本発明は、既に発行されていて、プロセッサ101の実行パイプライン222に保留されているか、またはオペランド値を依存している他の命令の完了を待機しているため、発行キュー220に保留されている命令を直ちに発行することができないことが多いという事実を利用している。
【0025】
図9を参照する。本発明の実施例に従った発行キュー220は、1次発行キュー902と2次発行キュー904を含む。1次発行キュー902は、直ちに発行可能な命令を格納する。実施例で、ディスパッチ・ユニット214からディスパッチされた命令は、最初、1次発行キュー902の使用できるエントリに格納される。後に、命令が他の命令に依存することが確認された場合、依存する命令は、依存対象である命令によって必要な情報が検索されるまで、2次発行キュー904に移動される。例えば、ロード命令に続く加算命令に、ロード命令の結果が必要な場合、最初に両方の命令を1次発行キュー902にディスパッチすることができる。加算命令がロード命令に依存することが確認されると、加算命令は1次発行キュー902から2次発行キュー904に転送される。図8に関して述べたように、命令履歴フィールド508を利用した実施例では、後の命令実行時に、加算命令を2次発行キュー904に直接格納できるように加算命令の依存性を記録することができる。2次発行キュー904はまた、最近発行され、プロセッサの実行パイプラインにまだ保留されている命令を格納するために使用できる。この実施例で、命令は1次発行キュー902から発行された後、2次発行キュー904に転送される。実施例によっては、命令が拒否されないことが確認されるまで、命令を2次発行キュー904に配置することができる。命令が拒否されていないことを確認する1つの方法は、2次発行キュー904の各エントリに関連付けたタイマ/カウンタ(図示せず)を実装することである。最初に命令が1次発行キュー902から2次発行キュー904に転送されたときに、カウンタ/タイマが初期化される。他の実施例で、カウンタ/タイマは、カウンタ/タイマの初期化以降に終了したクロック・サイクル数をカウントする。カウンタ/タイマが所定数のサイクルについてカウントを続け、命令が拒否されたことが検出されない場合、命令は正常に完了したとみなされ、2次発行キュー904のエントリが割当てを解除される。命令の依存性のため、または命令が最近1次発行キューから発行されたために、命令がディスパッチされていても現在実行可能ではない2次発行キューとともに実行するため、現在発行可能な命令に専用される1次発行キューを含む発行キューを利用することによって、次に発行する命令を決定するため必要な時間(つまりロジック・レベル数)をかなり長くすることなく、発行キューの有効サイズまたは深さが増加する。
【0026】
本発明の開示内容を享受する当業者には明らかなように、本発明は、予測ミスした分岐に伴う待ち時間を少なくするため、グループ分けされた命令(つまり、第1フォーマットから第2フォーマットに変換された命令)を格納するのに適したキャッシュ機構を含むマイクロプロセッサの様々な実施例を想定している。図とともに詳しく説明した本発明の形式は、現在の好適な例にすぎない。特許請求の範囲は、ここに開示した好適実施例の変形例を全て包括するように広く解釈されるべきものである。
【0027】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0028】
(1)マイクロプロセッサ命令を実行する方法であって、
1次発行キューと2次発行キューを含む発行ユニットに命令をディスパッチするステップと、
前記命令が、実行のため現在発行可能な場合に、前記1次発行キューに前記命令を格納するステップと、
前記命令が、実行のため現在発行可能ではない場合に、前記2次発行キューに前記命令を格納するステップと、
次に発行する命令を、前記1次発行キューの命令から決定するステップと、
を含む方法。
(2)命令が他の命令からの結果に依存する場合は、該命令を前記1次発行キューから前記2次発行キューに移動するステップを含む、前記(1)記載の方法。
(3)前記命令を実行のため発行したとき前記命令を前記1次発行キューから前記2次発行キューに移動するステップを含む、前記(1)記載の方法。
(4)前記命令を前記2次発行キューに指定時間の間維持するステップと、その後、前記命令が拒否されていない場合は、前記命令を含む前記2次発行キューのエントリを割当て解除するステップを含む、前記(3)記載の方法。
(5)前記命令の前記発行ユニットへのディスパッチは、前記命令を含む命令グループを基本キャッシュ・ブロックから検索するステップを含む、前記(1)記載の方法。
(6)前記基本キャッシュ・ブロックの命令履歴情報を検出し、前記命令が他の命令に依存することを、対応する該命令履歴情報が示している場合は、前記命令を最初に前記2次発行キューに発行するステップを含む、前記(5)記載の方法。
(7)命令キャッシュと、
前記命令キャッシュから命令を受信するよう構成されたディスパッチ・ユニットと、
前記ディスパッチ・ユニットから命令を受信するよう構成され、現在実行可能なディスパッチ済み命令を1次発行キューに割当て、現在実行可能ではないディスパッチ済み命令を2次発行キューに割当てるよう調整された、発行ユニットと、
を含む、マイクロプロセッサ。
(8)前記命令キャッシュと前記ディスパッチ・ユニットの中間にクラッキング・ロジックを含み、該クラッキング・ロジックは、前記命令キャッシュから受信された命令のセットを、命令グループ・タグを共有する命令グループとして編成するよう調整された、前記(7)記載のマイクロプロセッサ。
(9)前記クラッキング・ロジックと前記ディスパッチ・ユニットの中間に基本キャッシュ・ブロックを含み、該基本キャッシュ・ブロックは、前記クラッキング・ロジックにより形成された命令グループをキャッシュするのに適した、前記(8)記載のマイクロプロセッサ。
(10)前記基本キャッシュ・ブロックは命令履歴情報を含み、更に、命令が別の命令に依存することを該命令履歴情報が示す場合に、前記発行ユニットは、該命令を最初に前記2次発行キューに格納するよう調整された、前記(9)記載のマイクロプロセッサ。
(11)前記発行ユニットは、命令に命令依存性があるため、該命令が現在実行可能ではない場合に、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、前記(7)記載のマイクロプロセッサ。
(12)前記発行ユニットは、命令を実行のため発行した後に、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、前記(7)記載のマイクロプロセッサ。
(13)前記発行ユニットは、前記命令の実行によって命令拒否が生じなかったことの確認に応答して前記2次発行キューから前記命令の割当てを解除するよう調整された、前記(12)記載のマイクロプロセッサ。
(14)前記発行ユニットは、前記命令の実行により命令拒否が生じたかどうかを判定するため、前記命令が実行のため発行されてから経過したクロック・サイクル数を確認し、該経過クロック・サイクル数が所定値を超える場合、前記命令によって命令拒否が生じなかったことが確認される、前記(13)記載のマイクロプロセッサ。
(15)データ処理システムに、少なくとも1つのマイクロプロセッサ、メモリ、入力手段、及びディスプレイが含まれ、該マイクロプロセッサは、
命令キャッシュと、
前記命令キャッシュから命令を受信するよう構成されたディスパッチ・ユニットと、
前記ディスパッチ・ユニットから命令を受信するよう構成され、現在実行可能なディスパッチ済み命令を1次発行キューに割当て、現在実行可能ではないディスパッチ済み命令を2次発行キューに割当てるよう調整された、発行ユニットと、
を含む、データ処理システム。
(16)前記命令キャッシュと前記ディスパッチ・ユニットの中間にクラッキング・ロジックを含み、該クラッキング・ロジックは、前記命令キャッシュから受信された命令のセットを、命令グループ・タグを共有する命令グループとして編成するよう調整された、前記(15)記載のデータ処理システム。
(17)前記クラッキング・ロジックと前記ディスパッチ・ユニットの中間に基本キャッシュ・ブロックを含み、該基本キャッシュ・ブロックは、前記クラッキング・ロジックにより形成された命令グループをキャッシュするのに適した、前記(16)記載のデータ処理システム。
(18)前記基本キャッシュ・ブロックは命令履歴情報を含み、更に、前記発行ユニットは、命令が他の命令に依存することを該命令履歴情報が示す場合に、該命令を最初は前記2次発行キューに格納するよう調整された、前記(17)記載のデータ処理システム。
(19)前記発行ユニットは、命令に命令依存性があるため、現在実行可能ではない場合に、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、前記(15)記載のデータ処理システム。
(20)前記発行ユニットは、命令を実行するため発行した後、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、前記(15)記載のデータ処理システム。
(21)前記発行ユニットは、前記命令の実行により命令拒否が生じなかったことの確認に応答して、前記2次発行キューから前記命令の割当てを解除するよう調整された、前記(20)記載のデータ処理システム。
(22)前記発行ユニットは、前記命令の実行により命令拒否が生じたかどうかを判定するため、前記命令が実行のため発行されてから経過したクロック・サイクル数を確認し、該経過クロック・サイクル数が所定値を超える場合、前記命令により命令拒否が生じなかったことが確認される、前記(21)記載のデータ処理システム。
【図面の簡単な説明】
【図1】本発明の実施例に従ったマイクロプロセッサを含むデータ処理システムの特定のコンポーネントを示す図である。
【図2】本発明の実施例に従ったマイクロプロセッサの特定のコンポーネントを示す図である。
【図3】図2のプロセッサの実施例により実行される命令クラッキング関数の例を示す図である。
【図4】マイクロプロセッサの特定のコンポーネントを示す図である。
【図5】図2のマイクロプロセッサの基本キャッシュ・ブロックを示す図である。
【図6】図2のプロセッサに予想される様々な分岐を示す図である。
【図7】本発明に適した完了テーブルを示す図である。
【図8】命令履歴情報を含む基本キャッシュ・ブロックを示す図である。
【図9】本発明の実施例に従った1次発行キューと2次発行キューを含む発行キューを示す図である。
【符号の説明】
100 データ処理システム
101 中央処理装置(プロセッサ)
102 ROM(読出し専用メモリ)
103 ハード・ディスク
104 大容量記憶装置
105 テープ・ストレージ・デバイス
106 ネットワーク・アダプタ
107 I/Oアダプタ
108 ユーザ・インタフェース・アダプタ
109 キーボード
110 マウス
111 スピーカ
112 ディスプレイ・アダプタ
113 システム・バス
136 ディスプレイ・モニタ
202 命令フェッチ・ユニット
210 命令キャッシュ
212 クラッキング・ユニット
213 基本キャッシュ・ブロック
214 ディスパッチ・ユニット
215 ブロック・フェッチ・ユニット
216 ディスパッチ/完了制御ロジック
218 完了テーブル
220 発行キュー
222 実行パイプ
224 分岐ユニット・パイプライン
226 ロード/ストア・パイプライン
228 固定小数点演算ユニット
230 浮動小数点ユニット
232 最終ステージ
250 システム・メモリ
302 命令グループ
304 命令スロット
401 階層化アーキテクチャ・マイクロプロセッサ
402 フェッチ・ユニット
406 分岐予測ロジック
410 命令キャッシュ
412 ISAコンバータ
422 実行パイプライン
432 最終ステージ
502 基本キャッシュ・ブロック・エントリ
504 エントリID
506 ポインタ
507 命令アドレス(IA)・フィールド
508 命令履歴フィールド
600 分岐ツリー
702 完了テーブル・エントリ
704 命令アドレス(IA)・フィールド
706 状態ビット・フィールド
902 1次発行キュー
904 2次発行キュー

Claims (22)

  1. マイクロプロセッサ命令を実行する方法であって、
    1次発行キューと2次発行キューを含む発行ユニットに命令をディスパッチするステップと、
    前記命令が、実行のため現在発行可能な場合に、前記1次発行キューに前記命令を格納するステップと、
    前記命令が、実行のため現在発行可能ではない場合に、前記2次発行キューに前記命令を格納するステップと、
    次に発行する命令を、前記1次発行キューの命令から決定するステップと、
    を含む方法。
  2. 命令が他の命令からの結果に依存する場合は、該命令を前記1次発行キューから前記2次発行キューに移動するステップを含む、請求項1記載の方法。
  3. 前記命令を実行のため発行したとき前記命令を前記1次発行キューから前記2次発行キューに移動するステップを含む、請求項1記載の方法。
  4. 前記命令を前記2次発行キューに指定時間の間維持するステップと、その後、前記命令が拒否されていない場合は、前記命令を含む前記2次発行キューのエントリを割当て解除するステップを含む、請求項3記載の方法。
  5. 前記命令の前記発行ユニットへのディスパッチは、前記命令を含む命令グループを基本キャッシュ・ブロックから検索するステップを含む、請求項1記載の方法。
  6. 前記基本キャッシュ・ブロックの命令履歴情報を検出し、前記命令が他の命令に依存することを、対応する該命令履歴情報が示している場合は、前記命令を最初に前記2次発行キューに発行するステップを含む、請求項5記載の方法。
  7. 命令キャッシュと、
    前記命令キャッシュから命令を受信するよう構成されたディスパッチ・ユニットと、
    前記ディスパッチ・ユニットから命令を受信するよう構成され、現在実行可能なディスパッチ済み命令を1次発行キューに割当て、現在実行可能ではないディスパッチ済み命令を2次発行キューに割当てるよう調整された、発行ユニットと、
    を含む、マイクロプロセッサ。
  8. 前記命令キャッシュと前記ディスパッチ・ユニットの中間にクラッキング・ロジックを含み、該クラッキング・ロジックは、前記命令キャッシュから受信された命令のセットを、命令グループ・タグを共有する命令グループとして編成するよう調整された、請求項7記載のマイクロプロセッサ。
  9. 前記クラッキング・ロジックと前記ディスパッチ・ユニットの中間に基本キャッシュ・ブロックを含み、該基本キャッシュ・ブロックは、前記クラッキング・ロジックにより形成された命令グループをキャッシュするのに適した、請求項8記載のマイクロプロセッサ。
  10. 前記基本キャッシュ・ブロックは命令履歴情報を含み、更に、命令が別の命令に依存することを該命令履歴情報が示す場合に、前記発行ユニットは、該命令を最初に前記2次発行キューに格納するよう調整された、請求項9記載のマイクロプロセッサ。
  11. 前記発行ユニットは、命令に命令依存性があるため、該命令が現在実行可能ではない場合に、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、請求項7記載のマイクロプロセッサ。
  12. 前記発行ユニットは、命令を実行のため発行した後に、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、請求項7記載のマイクロプロセッサ。
  13. 前記発行ユニットは、前記命令の実行によって命令拒否が生じなかったことの確認に応答して前記2次発行キューから前記命令の割当てを解除するよう調整された、請求項12記載のマイクロプロセッサ。
  14. 前記発行ユニットは、前記命令の実行により命令拒否が生じたかどうかを判定するため、前記命令が実行のため発行されてから経過したクロック・サイクル数を確認し、該経過クロック・サイクル数が所定値を超える場合、前記命令によって命令拒否が生じなかったことが確認される、請求項13記載のマイクロプロセッサ。
  15. データ処理システムに、少なくとも1つのマイクロプロセッサ、メモリ、入力手段、及びディスプレイが含まれ、該マイクロプロセッサは、
    命令キャッシュと、
    前記命令キャッシュから命令を受信するよう構成されたディスパッチ・ユニットと、
    前記ディスパッチ・ユニットから命令を受信するよう構成され、現在実行可能なディスパッチ済み命令を1次発行キューに割当て、現在実行可能ではないディスパッチ済み命令を2次発行キューに割当てるよう調整された、発行ユニットと、
    を含む、データ処理システム。
  16. 前記命令キャッシュと前記ディスパッチ・ユニットの中間にクラッキング・ロジックを含み、該クラッキング・ロジックは、前記命令キャッシュから受信された命令のセットを、命令グループ・タグを共有する命令グループとして編成するよう調整された、請求項15記載のデータ処理システム。
  17. 前記クラッキング・ロジックと前記ディスパッチ・ユニットの中間に基本キャッシュ・ブロックを含み、該基本キャッシュ・ブロックは、前記クラッキング・ロジックにより形成された命令グループをキャッシュするのに適した、請求項16記載のデータ処理システム。
  18. 前記基本キャッシュ・ブロックは命令履歴情報を含み、更に、前記発行ユニットは、命令が他の命令に依存することを該命令履歴情報が示す場合に、該命令を最初は前記2次発行キューに格納するよう調整された、請求項17記載のデータ処理システム。
  19. 前記発行ユニットは、命令に命令依存性があるため、現在実行可能ではない場合に、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、請求項15記載のデータ処理システム。
  20. 前記発行ユニットは、命令を実行するため発行した後、前記1次発行キューから前記2次発行キューに該命令を転送するよう調整された、請求項15記載のデータ処理システム。
  21. 前記発行ユニットは、前記命令の実行により命令拒否が生じなかったことの確認に応答して、前記2次発行キューから前記命令の割当てを解除するよう調整された、請求項20記載のデータ処理システム。
  22. 前記発行ユニットは、前記命令の実行により命令拒否が生じたかどうかを判定するため、前記命令が実行のため発行されてから経過したクロック・サイクル数を確認し、該経過クロック・サイクル数が所定値を超える場合、前記命令により命令拒否が生じなかったことが確認される、請求項21記載のデータ処理システム。
JP2000391228A 2000-01-06 2000-12-22 1次発行キューと2次発行キューを持つマイクロプロセッサ Expired - Fee Related JP3540743B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/478311 2000-01-06
US09/478,311 US6609190B1 (en) 2000-01-06 2000-01-06 Microprocessor with primary and secondary issue queue

Publications (2)

Publication Number Publication Date
JP2001297000A JP2001297000A (ja) 2001-10-26
JP3540743B2 true JP3540743B2 (ja) 2004-07-07

Family

ID=23899401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000391228A Expired - Fee Related JP3540743B2 (ja) 2000-01-06 2000-12-22 1次発行キューと2次発行キューを持つマイクロプロセッサ

Country Status (5)

Country Link
US (1) US6609190B1 (ja)
JP (1) JP3540743B2 (ja)
KR (1) KR100407013B1 (ja)
CN (1) CN1163822C (ja)
HK (1) HK1037248A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7302553B2 (en) * 2003-01-23 2007-11-27 International Business Machines Corporation Apparatus, system and method for quickly determining an oldest instruction in a non-moving instruction queue
US7487335B1 (en) * 2003-10-14 2009-02-03 Sun Microsystems, Inc. Method and apparatus for accessing registers during deferred execution
KR100460009B1 (ko) * 2004-06-23 2004-12-04 엔에이치엔(주) 이미지 리소스를 로딩하는 방법 및 이미지 리소스 로딩시스템
US20060090061A1 (en) * 2004-09-30 2006-04-27 Haitham Akkary Continual flow processor pipeline
US7490230B2 (en) * 2005-02-04 2009-02-10 Mips Technologies, Inc. Fetch director employing barrel-incrementer-based round-robin apparatus for use in multithreading microprocessor
US7681014B2 (en) * 2005-02-04 2010-03-16 Mips Technologies, Inc. Multithreading instruction scheduler employing thread group priorities
US7657891B2 (en) 2005-02-04 2010-02-02 Mips Technologies, Inc. Multithreading microprocessor with optimized thread scheduler for increasing pipeline utilization efficiency
US7657883B2 (en) * 2005-02-04 2010-02-02 Mips Technologies, Inc. Instruction dispatch scheduler employing round-robin apparatus supporting multiple thread priorities for use in multithreading microprocessor
US7664936B2 (en) * 2005-02-04 2010-02-16 Mips Technologies, Inc. Prioritizing thread selection partly based on stall likelihood providing status information of instruction operand register usage at pipeline stages
US7613904B2 (en) * 2005-02-04 2009-11-03 Mips Technologies, Inc. Interfacing external thread prioritizing policy enforcing logic with customer modifiable register to processor internal scheduler
US7631130B2 (en) * 2005-02-04 2009-12-08 Mips Technologies, Inc Barrel-incrementer-based round-robin apparatus and instruction dispatch scheduler employing same for use in multithreading microprocessor
US7752627B2 (en) * 2005-02-04 2010-07-06 Mips Technologies, Inc. Leaky-bucket thread scheduler in a multithreading microprocessor
US7853777B2 (en) * 2005-02-04 2010-12-14 Mips Technologies, Inc. Instruction/skid buffers in a multithreading microprocessor that store dispatched instructions to avoid re-fetching flushed instructions
US7328330B2 (en) * 2005-08-16 2008-02-05 International Business Machines Corporation Queue design supporting dependency checking and issue for SIMD instructions within a general purpose processor
US20070070077A1 (en) * 2005-09-26 2007-03-29 Silicon Integrated Systems Corp. Instruction removing mechanism and method using the same
US7490224B2 (en) * 2005-10-07 2009-02-10 International Business Machines Corporation Time-of-life counter design for handling instruction flushes from a queue
US7822948B2 (en) * 2008-01-03 2010-10-26 International Business Machines Corporation Apparatus, system, and method for discontiguous multiple issue of instructions
US8103852B2 (en) * 2008-12-22 2012-01-24 International Business Machines Corporation Information handling system including a processor with a bifurcated issue queue
US9104399B2 (en) * 2009-12-23 2015-08-11 International Business Machines Corporation Dual issuing of complex instruction set instructions
US8935705B2 (en) * 2011-05-13 2015-01-13 Benefitfocus.Com, Inc. Execution of highly concurrent processing tasks based on the updated dependency data structure at run-time
US20130297912A1 (en) * 2012-05-03 2013-11-07 Freescale Semiconductor, Inc. Apparatus and method for dynamic allocation of execution queues
US9411589B2 (en) 2012-12-11 2016-08-09 International Business Machines Corporation Branch-free condition evaluation
US9256427B2 (en) 2012-12-11 2016-02-09 International Business Machines Corporation Tracking multiple conditions in a general purpose register and instruction therefor
US9582322B2 (en) * 2013-03-15 2017-02-28 Soft Machines Inc. Method and apparatus to avoid deadlock during instruction scheduling using dynamic port remapping
US9348596B2 (en) * 2013-06-28 2016-05-24 International Business Machines Corporation Forming instruction groups based on decode time instruction optimization
CN105549952A (zh) * 2015-12-03 2016-05-04 上海高性能集成电路设计中心 一种基于记分牌原理的两级缓置发射的调控装置
US10402263B2 (en) * 2017-12-04 2019-09-03 Intel Corporation Accelerating memory fault resolution by performing fast re-fetching
US11669333B2 (en) 2018-04-26 2023-06-06 Qualcomm Incorporated Method, apparatus, and system for reducing live readiness calculations in reservation stations
US11327791B2 (en) * 2019-08-21 2022-05-10 Arm Limited Apparatus and method for operating an issue queue
US11327766B2 (en) * 2020-07-31 2022-05-10 International Business Machines Corporation Instruction dispatch routing
JP2023013799A (ja) * 2021-07-16 2023-01-26 富士通株式会社 演算処理装置及び演算処理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100309566B1 (ko) * 1992-04-29 2001-12-15 리패치 파이프라인프로세서에서다중명령어를무리짓고,그룹화된명령어를동시에발행하고,그룹화된명령어를실행시키는방법및장치
CA2105806C (en) * 1992-09-18 2001-11-20 Paul V. Jeffs Apparatus for implementing interrupts in pipelined processors
JP2815236B2 (ja) * 1993-12-15 1998-10-27 シリコン・グラフィックス・インコーポレーテッド スーパースカーラマイクロプロセッサのための命令ディスパッチ方法及びレジスタ競合についてのチェック方法
US5751985A (en) * 1995-02-14 1998-05-12 Hal Computer Systems, Inc. Processor structure and method for tracking instruction status to maintain precise state
US5870579A (en) * 1996-11-18 1999-02-09 Advanced Micro Devices, Inc. Reorder buffer including a circuit for selecting a designated mask corresponding to an instruction that results in an exception
US6061772A (en) * 1997-06-30 2000-05-09 Sun Microsystems, Inc. Split write data processing mechanism for memory controllers utilizing inactive periods during write data processing for other transactions
US6185675B1 (en) * 1997-10-24 2001-02-06 Advanced Micro Devices, Inc. Basic block oriented trace cache utilizing a basic block sequence buffer to indicate program order of cached basic blocks

Also Published As

Publication number Publication date
JP2001297000A (ja) 2001-10-26
HK1037248A1 (en) 2002-02-01
CN1303045A (zh) 2001-07-11
US6609190B1 (en) 2003-08-19
CN1163822C (zh) 2004-08-25
KR20010070435A (ko) 2001-07-25
KR100407013B1 (ko) 2003-11-28

Similar Documents

Publication Publication Date Title
JP3540743B2 (ja) 1次発行キューと2次発行キューを持つマイクロプロセッサ
JP3683808B2 (ja) 命令履歴情報を持つ基本キャッシュ・ブロック・マイクロプロセッサ
JP3588755B2 (ja) コンピュータシステム
JP3096451B2 (ja) データを転送する方法およびプロセッサ
US5931957A (en) Support for out-of-order execution of loads and stores in a processor
JP3132755B2 (ja) プロセッサのアーキテクチャ状態を維持するための方法および装置
US6052776A (en) Branch operation system where instructions are queued until preparations is ascertained to be completed and branch distance is considered as an execution condition
CN102087591A (zh) 非循序执行的微处理器及其操作方法
CN101847094A (zh) 非循序执行的微处理器及其操作方法
CN101853150A (zh) 非循序执行的微处理器及其操作方法
JP3678443B2 (ja) スーパーパイプライン式スーパースカラーマイクロプロセッサ用の書き込みバッファ
JPH10283181A (ja) プロセッサ内で命令を発行するための方法および装置
JPH10283180A (ja) プロセッサ内で命令をディスパッチする方法および装置
JP3689369B2 (ja) 2次リオーダ・バッファ・マイクロプロセッサ
JP3629551B2 (ja) 基本キャッシュ・ブロックを利用したマイクロプロセッサ
JP2001249805A (ja) マイクロプロセッサ内の命令取出ユニット

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080402

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100402

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110402

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110402

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees