JPH10177482A

JPH10177482A - マイクロプロセッサおよび動作方法

Info

Publication number: JPH10177482A
Application number: JP9301180A
Authority: JP
Inventors: Timothy D Anderson; ディー．アンダーソンティモシー; Jonathan H Shiell; エィチ．シェルジョナサン
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1996-10-31
Filing date: 1997-10-31
Publication date: 1998-06-30
Also published as: DE69718278T2; DE69718278D1; EP0840208A3; US5951679A; EP0840208A2; EP0840208B1

Abstract

(57)【要約】【課題】マルチプレクサの作動方法を得る。【解決手段】マイクロプロセッサ３６の作動方法は、
分岐命令ＳＳＢおよび目的命令ＴＲからなる命令の短い
後向き分岐ループ３４をフェッチし１４、短い後向き分
岐命令がフェッチした後の短い後向き分岐命令であるこ
とを確認する。さらに、演算実行ユニット命令の短い後
向き分岐ループを格納する３０。さらに、格納ステップ
の後で短い後向き分岐ループを再フェッチすることな
く、演算実行ユニット命令の短い後向き分岐ループの複
数の反復が複数のクロックサイクルにわたって実行され
る２２。さらに、複数のクロックサイクルのいくつか
（クロックサイクル１０）に対して、実行ステップが第
１の反復に対応する演算実行ユニット命令の第１セット
と第２の反復に対応する演算実行ユニット命令の第２セ
ットの両方を実行し、第２の反復は第１の反復にすぐ続
く。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明の実施例はマイクロプ
ロセッサに関し、特に、単一の実行サイクルで短い後向
き分岐ループの連続反復を発行するマイクロプロセッサ
回路、システム、および方法に関する。

【０００２】下記の実施例は開発され絶えず拡張される
コンピュータシステムおよびマイクロプロセッサの分野
を包含している。所与の期間にわたって実行される命令
数で測定した場合の性能を改善する著しい進展が近年マ
イクロプロセッサの設計においてなされつつある。その
一つは、単一の命令ポインタにより並列命令完了を達成
することができる“スーパースカラー”型のマイクロプ
ロセッサに関連している。典型的に、スーパースカラー
マイクロプロセッサは、多数の整数算術論理演算器（Ａ
ＬＵ）、多数のロード／ストアユニット（ＬＳＵ）、お
よび浮動小数点ユニット（ＦＰＵ）等の多数の演算実行
ユニット（ｅｘｅｃｕｔｉｏｎｕｎｉｔ）を有し、そ
の各々が命令を実行することができる。そのため、多数
のマシン命令をスーパースカラーマイクロプロセッサに
おいて同時に実行することができ、デバイスの全体性能
とそのシステム応用に明らかな利点が得られる。

【０００３】性能向上のために最新のマイクロプロセッ
サで使用されるもう一つの共通技術は命令の“パイプラ
イニング”である。従来技術で周知のように、マイクロ
プロセッサ命令はその各々が一般的に、命令フェッチ、
命令デコード、レジスタやメモリからのオペランドの読
出し、命令の実行、および命令の結果のライトバックを
含んでいる。マイクロプロセッサにおける命令のパイプ
ライニングは命令のこのシーケンス化のステージングと
呼ばれ、シーケンス内の多数の命令が内部シーケンスの
さまざまなステージで同時に処理されるようにされる。
例えば、パイプライン化されたマイクロプロセッサが所
与のマイクロプロセッサクロックサイクルにおいて命令
ｎを実行している場合、４ステージパイプラインマイク
ロプロセッサは命令ｎ＋１（すなわち、シーケンス内の
次の命令）のオペランドを同時に（すなわち、同じマシ
ンサイクル内に）検索し、命令ｎ＋２を復号し、命令ｎ
＋３をフェッチすることができる。パイプライニングを
使用すれば、マイクロプロセッサの性能により一連のマ
ルチサイクル命令をクロックサイクル当たり１命令のレ
ートで有効に実行することができる。

【０００４】パイプライニングとスーパースカラー技術
の両方を使用すれば、命令が周知のシーケンスで進行す
る場合、最新のマイクロプロセッサによりマシンクロッ
クサイクル当たり２命令以上のレートでマルチサイクル
マシン命令を実行することができる。しかしながら、従
来技術で周知のように、多くのコンピュータプログラム
は命令の逐次順序で連続的に進行することはなく、現在
の命令シーケンスにおける次の連続命令以外のプログラ
ム命令への分岐（条件付および無条件の両方）を含んで
いる。このようなオペレーションは、命令フェッチング
および実行等の多くの理由で、しばしば分岐命令のタイ
プおよび目的命令の位置に応じて、コンピュータに挑戦
する。事実、分岐の複雑さが長年コンピュータシステム
に発生してきている。例えば、非スーパースカラー技術
およびキャッシュが使用される前に、ＩＢＭ３６０モデ
ル９１は分岐ループの状況においてキャッシュのような
オペレーションを達成するループバッファを含んでい
た。特に、フェッチされた命令を受信するシステム内に
命令バッファが含まれていた。バッファ内の命令が分岐
ループを表すことが検出されると、キャッシュが効果的
に生成されそこから各命令を検索して、主記憶装置（コ
アメモリである）からループ命令を再フェッチすること
なく、命令の所望の反復が全て完了するまで個々に実行
することができる。したがって、これらの命令をフェッ
チするための余分な時間が解消される。

【０００５】スーパスカラーマイクロプロセッサの分岐
に関しては、本実施例はこの文書において短い後向き分
岐命令と呼ばれるものに向けられている。後向き分岐命
令は、分岐を行う時に、分岐命令を越える目的命令へフ
ローを向ける命令である。短い後向き分岐命令はこのよ
うに動作するが、目的命令への後向き分岐は比較的少数
の命令に跨がるにすぎない。この点において特定数の命
令を規定する必要はないが、例として５程度の数を仮定
する。したがって、分岐命令の前に５以下の命令である
目的へ分岐する（行われる場合）分岐命令は短い後向き
分岐と呼ばれる。

【０００６】前記したような短い後向き分岐命令を導入
した場合、短い後向き命令とその目的命令を含むその間
の命令である、短い後向き分岐命令により定義されるル
ープからの実行可能な命令を処理する時に著しい欠点が
生じることがあることを発明者は確認した。特に、現在
の技術の元では、短い後向き分岐命令ループが処理され
ると、そのループ内で実行可能な命令数以下の実行可能
な命令しか１クロックサイクルで実行されない。すなわ
ち、演算実行ユニット数が短い後向き分岐命令ループか
ら引き出される実行可能な命令数よりも多い場合には、
短い後向き分岐命令が実行されるサイクル中に、ある演
算実行ユニットは実行されない。数値的な例として、実
行ステージが８つの演算実行ユニットを含み、短い後向
き分岐ループから引き出される５つの実行可能な命令が
あるものとする。このように仮定すると、従来技術で
は、少なくとも３つの演算実行ユニットが短い後向き分
岐ループの実行中は実行されない。その結果、相当な演
算実行ユニットが使用されなくなる。さらに、短い後向
き分岐命令ループを処理している時には、命令パイプラ
インの他の位置のリソースも使用されないことがある。
さらに、演算実行ユニットや他の非使用リソースが増加
したり、短い後向き分岐ループからの実行可能な命令数
が増加すると、非効率性がさらに大きくなる。

【０００７】

【発明が解決しようとする課題】前記したことから、従
来技術の欠点に取り組んで、１実行サイクルで２つ以上
の短い後向き分岐ループを実行したりすることによりそ
のリソースをより効率的に使用するように作動するマイ
クロプロセッサを提供するニーズが生じている。

【０００８】

【課題を解決するための手段】好ましい方法の実施例で
は、本方法によりマイクロプロセッサが作動される。本
方法において、命令の短い後向き分岐ループがフェッチ
され、短い後向き分岐ループは分岐命令および目的命令
を含んでいる。また、本方法により、短い後向き分岐命
令はフェッチした後の短い後向き分岐命令であることが
確認される。さらに、本方法により演算実行ユニット命
令の短い後向き分岐ループが格納される。この短い後向
き分岐ループは分岐演算実行ユニット命令および目的演
算実行ユニット命令を含んでいる。さらに、格納ステッ
プの後で短い後向き分岐ループを再フェッチすることな
く、本方法により演算実行ユニット命令の短い後向き分
岐ループの複数の反復が複数のクロックサイクルにわた
って実行される。特に、複数のクロックサイクルのいく
つかに対して、実行ステップは第１の反復に対応する第
１セットの演算実行ユニット命令および第２の反復に対
応する第２セットの演算実行ユニット命令の両方を実行
し、第２の反復は第１の反復にすぐ続く。他の回路、シ
ステム、および方法も開示され請求される。

【０００９】

【発明の実施の形態】図１に命令処理システムを一般的
に１０に示し、本実施例を内蔵することができるタイプ
のシステムへ導入するために使用される。システム１０
は一般的な感覚として多くの従来技術マイクロプロセッ
サに存在するものと同じであり、実施例の全体動作を説
明する背景を例示するために図示されており、発明の局
面の詳細な検討は後で行う。また、図１のマイクロプロ
セッサ構造および他の周知のマイクロプロセッサは、他
にも図示せぬさまざまな局面を含むことをお判り願いた
い。しかしながら、ここでは、他の周知のマイクロプロ
セッサの詳細については検討を簡潔にするために説明し
ない。次に、システム１０に戻って、それはパイプライ
ン１２を含み、それは“ＣＩＳＣ”（ｃｏｍｐｌｅｘ
ｉｎｓｔｒｕｃｔｉｏｎｓｅｔｃｏｍｐｕｔｅｒ）
において命令を受信して処理する現在の技術において広
く存在するタイプにある局面において類似している。こ
の点において、ＣＩＳＣパイプラインを使用するのは例
にすぎず、当業者ならばこの文書に記載されたさまざま
な発明原理を“ＲＩＳＣ”（ｒｅｄｕｃｅｄｉｎｓｔ
ｒｕｃｔｉｏｎｓｅｔｃｏｍｐｕｔｅｒ）にも応用
できるものと思われる。次に、図１の例に戻って、パイ
プライン１２は、一例として、１４−２４の偶数番の６
ステージを有して図示されている。各ステージ１４−２
４は従来技術で周知のステージを表し、さまざまなアー
キテクチュアにおいて名称および／もしくは機能が異な
ることがある。従来技術で周知のように、一般的に、マ
イクロプロセッサパイプラインは開始ステージ、終了ス
テージ、および一群の中間ステージを含み、命令は開始
ステージから終了ステージへ向かって通され、各ステー
ジにある命令に応答して１つ以上のオペレーションが生
じる。しかしながら、図４−図９に関して後述するよう
に、少なくとも短い後向き分岐命令が処理される限りパ
イプライン１２は従来技術から著しく異なるように修正
することができる。短い後向き分岐命令に関連してシス
テム１０の修正動作の詳細説明を行う前に、発明の範囲
をさらに理解するのにいくつかの一般化が役立つ。した
がって、以下の検討は例にすぎず後述する実施例を制約
するものではない。

【００１０】パイプライン１２に戻って、本発明では命
令フェッチステージ１４であるパイプライン開始ステー
ジにおいて、一般的に命令が検索されることをお判り願
いたい。ステージ１４による命令フェッチングはキャッ
シュ等のさまざまなリソースからメモリのさまざまなレ
ベルで生じることがあり、論理アドレスと物理アドレス
間の変換等のアドレス操作を含むこともできる。したが
って、命令フェッチステージ１４は、さらに命令キャッ
シュおよびアドレス計算回路２６に接続されている。さ
らに、命令フェッチステージ１４は、従来技術で周知の
ように分岐命令が遂行されているかどうかを予測する、
従来技術で周知の、分岐目的バッファ（“ＢＴＢ”）２
８を含んでいる。さらに、ＢＴＢ２８は短い後向き分岐
命令に関して後述するように修正することができる。ま
た、ＢＴＢ２８は単なる例としてステージ１４内に図示
されており、命令フェッチプロセスに対するその機能的
関係により、図１に示すような構造ではなく独立した物
理構造とすることができることをお判り願いたい。

【００１１】典型的には、命令は命令フェッチステージ
１４で受信された後で、１つ以上のデコードステージに
おいてデコードされる。したがって、パイプラインは任
意数のデコードステージを含むことができるが、例とし
て１つのデコードステージ１６しか含まないように簡単
化されている。さらに、従来技術のさまざまな教示がさ
まざまな方法でこれらのステージに関係しており、例え
ば、これらのステージはデコードステージが後に続くい
わゆる予デコードステージへ分解される場合が多い。い
ずれの場合にも、１つ以上のデコードステージにより、
より複雑な命令セットアーキテクチュア命令が、後述す
る理由により本明細書では演算実行ユニット命令と呼ぶ
１つ以上のより単純なオペレーションへ分解される。こ
れらの演算実行ユニット命令は、典型的には、１実行ク
ロック内で実行することができる。また、演算実行ユニ
ット命令はアーキテクチュアおよび／もしくはメーカに
よって名称が異なることもあることをお判り願いたい。
例えば、テキサスインスツルメンツ社の標準では、演算
実行ユニット命令はアトミックオペレーション（“ＡＯ
ｐｓ”）と呼ばれる。これらのＡＯｐｓは全体が完了す
ると、適用できる場合のｏｐｃｏｄｅおよびオペランド
を含む、命令セット命令の完了および階級（ｇｒａｄｕ
ａｔｉｏｎ）を表す。ＡＯｐｓはあるＲＩＳＣ命令にほ
ぼ匹敵し、したがって、マイクロプロセッサのさまざま
な部分に接続されて後にデコードされた命令の実行を開
始するコードである。したがって、ＡＯｐｓは他のアー
キテクチュアではＲＯｐｓ，μＯｐｓ，もしくはＲＩＳ
Ｃ８６命令と呼ばれるものに匹敵する。さらに、あるＲ
ＩＳＣアーキテクチュアでは命令セット命令および演算
実行ユニット命令は同じ命令であることをお判り願いた
い（ＣＩＳＣシステムに対しては、命令セット命令はデ
コードされて命令セット命令自体とは異なる１つ以上の
演算実行ユニット命令が形成される）。したがって、演
算実行ユニット命令を使用してこのアーキテクチュアも
カバーしようとするものである。いずれにしても、演算
実行ユニット命令が形成されると（あるＲＩＳＣシステ
ムの場合には、命令セット命令として単に提示される
と）、それらは図１の目的のためにデコードステージ１
６内にキュー３０として図示されている記憶構造に格納
される。したがって、後述するように、キュー３０は演
算実行ユニット命令を格納して次の後続パイプラインス
テージへ通す。

【００１２】キュー３０は演算実行ユニット命令をスケ
ジュールステージ１８へ与え、それはマイクロプロセッ
サの対応する適切な演算実行ユニットへこれらの命令を
スケジュールする。スケジュールステージは各演算実行
ユニット命令をその適切な演算実行ユニットへ発行する
ものと決められている場合もある。例えば、パイプライ
ン１２は実行ステージ２２を含み、それは８つの演算実
行ユニット（ＥＸ１−ＥＸ８）を含んでいる。このよう
な演算実行ユニットは演算装置、ロード／ストアユニッ
ト、もしくは小数点ユニット等のさまざまなタイプとす
ることができる。いずれの場合にも、８つの演算実行ユ
ニットを含むパイプライン１２に対して、対応する各演
算実行ユニットにより１クロックサイクル内に一般的に
８つまでの演算実行ユニット命令の実行をステージ１８
によりスケジュールすることができる。さらに、マイク
ロプロセッサは９つ以上の演算実行ユニットを含むこと
ができ、したがって、１クロックサイクル内に実行でき
る演算実行ユニット命令数をそれに応じて増加すること
ができる。

【００１３】演算実行ユニット命令が発行された後で、
オペランド読み出しステージ２０は現在スケジュールさ
れている１つ以上の任意の演算実行ユニット命令を実行
するのに必要な任意のオペランドを読み出すことができ
る。典型的には、レジスタから読み出されるオペランド
がこれに含まれている。次に、ステージ２２において、
前記したように、演算実行ユニット命令が実行される、
すなわち、各演算実行ユニットＥＸ１−ＥＸ８がそのス
ケジュールされた演算実行ユニット命令に対して対応す
る機能を実行する。１つ以上の演算実行ユニットＥＸ１
−ＥＸ８が特定の分岐処理回路を含み、本明細書に記載
されているかあるいは従来技術で周知のように、分岐を
検出しそれに応答して他の分岐関連機能を実行すること
をお判り願いたい。事実、この点について、実行ステー
ジ２２は分岐命令を処理する時に３つの分岐関連制御信
号をＢＴＢ３０へ与えることをお判り願いたい。後述す
るように、特に、分岐命令を実行すると、実行ステージ
２２は分岐命令に対応する実際の（予想されたものでは
なく）目的アドレスを決定し、このアドレスはＢＴＢ３
０へ送られ図１にＡＣＴＵＡＬＴＡＲＧＥＴＡＤＤ
ＲＥＳＳ信号として図示されている。さらに、実行ステ
ージ２２は所与の分岐命令に対するＡＣＴＵＡＬＴＡ
ＲＧＥＴＡＤＤＲＥＳＳが同じ分岐命令に対して予想
された目的アドレスと一致するかどうかを確認する。こ
の確認結果はＭＩＳＰＲＥＤＩＣＴＥＤ信号を介してＢ
ＴＢ３０へ通される。ＭＩＳＰＲＥＤＩＣＴＥＤ信号は
少なくとも２ビットを含み、一方のビットは予測が正確
であるかどうかを示し、他方のビットは現在のＭＩＳＰ
ＲＥＤＩＣＴＥＤ信号が有効であるかどうかを示す。演
算実行ユニット以外のエリアさらには実行ステージより
も前のエリアからこれらの制御信号のいずれかもしくは
両方を実際に与えることができるアーキテクチュアもあ
る。例えば、あるアーキテクチュアは、命令のデコーデ
ィング中にその命令は分岐命令ではなく、しかもそれは
分岐されると予測されることを確認することができる。
当然、定義による非分岐命令は分岐を“取らない”た
め、非分岐命令の遂行された予測は不正確である。した
がって、この場合には分岐命令が実行ステージに達する
前であっても誤予測となる。当業者ならば、他の例も確
かめることができるであろう。最後に、ＡＣＴＵＡＬ
ＴＡＲＧＥＴＡＤＤＲＥＳＳおよびＭＩＳＰＲＥＤＩ
ＣＴＥＤ信号の他に、実行ステージ２２は実行される分
岐命令のアドレス（図１にＢＲＡＮＣＨＡＤＤＲＥＳ
Ｓとして示す）をＢＴＢ２８へ与える。従来技術で周知
のように、実行ステージ２２はさらに他の信号をＢＴＢ
２８へ与えることができる。

【００１４】パイプライン１２が完成すると、ステージ
２４は命令を段階に分け、それは命令が完了してマイク
ロプロセッサのアーキテクトされた状態に、もしあれ
ば、効果を表すことを意味する。さらに、命令の結果
は、もしあれば、レジスタファイル等の記憶装置に書き
込むことができる。この最後のオペレーションは通常ラ
イトバックと呼ばれ、しばしば最終パイプラインステー
ジの一部ではなく、命令の段階分けと同時に生じる機能
と考えられる。

【００１５】従来の技術で前記した短い後向き分岐命令
を詳細に説明する目的で、命令のストリームを図２に一
般的に３２で示す。命令ストリーム３２は８つの命令を
含み、それは図面の頂部から底部にわたって逐次的性質
である（すなわち、図面頂部の命令は図面底部の命令よ
りも早期の命令シーケンスである）。検討を簡単にする
ために、各命令は大文字や略字で示されている。最も早
期の命令Ｘで開始して、命令Ｙがシーケンスに続く。そ
の次は短い後向き分岐命令に対する分岐命令であり、こ
の目的命令は図２において命令ＴＲとして略示されてい
る。ＴＲ命令には３つの命令Ａ，Ｂ，Ｃが続き、それに
はＳＢＢの略字で示す短い後向き分岐命令が続く。最後
に、ＳＢＢ命令には付加命令が続き、図２には命令Ｍと
して任意に示されている。

【００１６】命令ストリーム３２の処理を、最初に短い
後向き分岐オペレーションの処理を一般的に例示するた
めに説明し、従来技術および図３および図５に関連して
後述する実施例と、それぞれ、対比させて説明する。次
に、一般動作に戻って、ＳＢＢ命令が生じて分岐が遂行
されるものと仮定すると、プログラムフローは命令Ａ，
Ｂ，ＣだけでなくＴＲ命令を処理するように戻る。した
がって、ループが明確に定められ図２に一般的に３４で
示される。したがって、ループ３４はＳＢＢ命令に再度
到達して完結する。しかしながら、ＳＢＢ分岐が再度遂
行されるものとすると、おびたたしい反復に対してルー
プ３４がこのように処理できるようにプロセスが繰り返
される。典型的には、ある点において、短い後向き分岐
はもはや遂行されずＳＢＢに続く次の後続命令（すなわ
ち、命令Ｍ）が処理される。したがって、命令ストリー
ム３２は５つの命令からなる分岐ループ３４を含む。こ
のようなループ３４は、したがって、分岐命令、目的命
令、および分岐および目的命令間の少数の命令を含む。
この明細書の目的のために、この少数の命令は検討を容
易にするために中間命令と呼ばれる。さらに、図２のル
ープ３４は例として５つの命令を含んでいるが、図３−
図９に例示する他のさまざまな局面を理解した後で、実
施例を使用して他の例を明示する目的で短い後向き分岐
ループの長さがさらに明確に定められる。

【００１７】図１に示すシステム１０のようなマイクロ
プロセッサ構造により従来技術の方法で処理される場合
の図２の命令ストリーム３２のタイミング図を図３に示
す。一般的に、図３を左から右へ横切する水平軸は連続
するマイクロプロセッサクロックサイクルを表し、図３
を頂部から底部へ横切する垂直軸はマイクロプロセッサ
パイプライン１２を通る命令ストリームの通路を表す。
したがって、クロックサイクル１中に、命令ストリーム
３２は命令フェッチステージ１４により命令キャッシュ
回路２６からフェッチされる。フェッチに応答して、Ｓ
ＢＢ命令は分岐命令として識別されＢＴＢ２８は分岐予
測を確認するように相談される。本実施例に対して、こ
れは特定のＳＢＢ命令がフェッチされる最初の例であ
り、したがって、さらに分岐は予測されないか（すなわ
ち、その点にはＢＴＢ２８内の対応する表示がない）あ
るいは最初のフェッチに対してしばしばそうであるよう
に遂行されないと予測されたものと仮定する。最後に、
図３において命令ストリーム３２はシーケンスの頂部で
最も早期の命令（すなわち、命令Ｘ）を示し、シーケン
スの底部で最も最近の命令（すなわち、命令Ｍ）を示す
ように方向付けされていることをお判り願いたい。

【００１８】クロックサイクル２中に、図３は命令スト
リーム３２がキュー３０と同じ方位を通ることを示して
いる。したがって、図２から、命令ストリーム３２の各
命令がデコードされキュー３０へ通されることが判る。
この表現から本検討を簡単にするための２つの仮定がな
される。第１に、ストリーム３２からの各命令をデコー
ドするのに１つのクロックサイクルしか使われないもの
と仮定する。しかしながら、多数のクロックサイクル
（および多数のデコードステージ）が実際上各命令をデ
コードすることができる。第２に、命令ストリーム３２
の各命令に対して１つの対応する演算実行ユニット命令
がデコードオペレーションにより生じるものと仮定す
る。しかしながら、２つ以上の演算実行ユニット命令へ
デコードできる命令もある。それでも、本説明を簡単に
するために、かつしばしばそうであるように、図２にお
いてキューステージおよびそれを越える演算実行ユニッ
ト命令は早期のステージでフェッチされている命令に１
対１で対応し次にデコードされる。

【００１９】図３のクロックサイクル２中にキュー３０
内に命令ストリーム３２が存在する他に、命令フェッチ
ステージ１４はその同じクロックサイクル２中に、命令
ストリーム３２に続く次のラインの命令もフェッチす
る。この点を例示するために、これらの命令を連続する
大文字を使用して示す。命令ストリーム３２の最後の命
令は命令Ｍであるため、クロックサイクル２中のフェッ
チステージに示すように、命令Ｍに続く次の８つのフェ
ッチされた命令は命令Ｎ−Ｕである。

【００２０】クロックサイクル３中に、命令ストリーム
３２に対応する演算実行ユニット命令はスケジュールス
テージ１８により処理され実行のためにスケジュールさ
れる。最適化されたスケジューリングを仮定すると、８
つの演算実行ユニット命令の各々が図１に示す実行ステ
ージ２２の８つの演算実行ユニットの１つへスケジュー
ルされる。また、クロックサイクル３中に、命令ストリ
ーム３２に続く命令ストリーム（すなわち、命令Ｎ−
Ｕ）もデコードされキュー３０に配置される。さらに、
命令Ｎ−Ｕに続くさらにもう１つの命令が命令フェッチ
ステージ１４によりフェッチされるが、図３を簡単化す
るために、命令ストリーム３２と次に続くストリーム
（すなわち、命令Ｎ−Ｕ）の処理だけを図示して実例お
よび検討を簡単化する。

【００２１】クロックサイクル４中に、命令ストリーム
３２に対応する各演算実行ユニット命令がオペランドリ
ードステージ２０へ通される。したがって、これらの演
算実行ユニット命令の任意の１つ以上を実行するのにオ
ペランドが必要とされる程度まで、このようなオペラン
ドはこの時点で読み出される（例えば、レジスタか
ら）。ここでも、クロックサイクル４中に、命令ストリ
ーム３２に続く命令ストリーム（すなわち、命令Ｎ−
Ｕ）はスケジュールステージ１８によりスケジュールさ
れ、やはり最適状態で各演算実行ユニット命令が実行ス
テージ２２の８つの演算実行ユニットの１つへ割り当て
られるようにされる。

【００２２】最後に、クロックサイクル５中に、命令ス
トリーム３２からの命令に対応する各演算実行ユニット
命令が実行される。しかしながら、ここで、短い後向き
分岐命令、ＳＢＢ、はその演算実行ユニットにより遂行
されると決定されるものと仮定する。しかしながら、Ｓ
ＢＢ命令は遂行されないと予測されている（もしくは、
ＢＴＢ２８へのエントリを欠くため予測されてない）た
め、誤予測（もしくは、ＢＴＢエントリが存在していな
いケースに相当するもの）が生じている。したがって、
しばらく図１に戻って、ＭＩＳＰＲＥＤＩＣＴＥＤ信号
が表明され、パイプライン１２がフラッシュされる。さ
らに、分岐が誤予測されていると、ＢＴＢ２８が更新さ
れてＳＢＢに対応するその命令が遂行されていないから
遂行されたへ変化する。同様に、分岐の対応する表示が
まだＢＴＢ２８内になければ、この時点で１つが確立さ
れ予測は遂行されたへ設定される。いずれの場合にも、
分岐目的命令ＴＲに対応するＡＣＴＵＡＬＴＡＲＧＥ
ＴＡＤＤＲＥＳＳが命令フェッチステージ１４へ通信
される。したがって、ＳＢＢ命令が遂行されるため、ク
ロックサイクル６に関して後述するように、命令フェッ
チステージ１４は次にＴＲ命令を含む１セットの命令を
フェッチする。

【００２３】図３に示す次に続くクロックサイクルはク
ロックサイクル６である。しかしながら、前記したよう
に分岐誤予測およびパイプラインフラッシュに続いて、
パイプラインへの次に続くフェッチが生じる前にいくつ
かのクロックサイクルが経過する場合がしばしばある。
それでも、アクションの逐次性を簡単化するために、図
３にはクロックサイクル５に続く次のクロックサイクル
はクロックサイクル６として例示されており、当業者な
らば実際には幾分後のクロックサイクルまでフェッチお
よびそれに続くステップは開始されないことがお判りで
あろう。次にクロックサイクル６（すなわち、パイプラ
インが進行する準備が完了している次のサイクル）に戻
って、命令フェッチステージ１４は、命令キャッシュ回
路２６から、ＴＲ命令およびそれに続くいくつかの命令
をフェッチする。しかしながら、命令はキャッシュライ
ンからフェッチされるため、ＴＲ命令に先行するその同
じラインの任意の命令（例えば、命令ＸおよびＹ）は使
用されない。それでも、ＴＲ命令がキャッシュライン内
に整列され、かつその整列は命令フェッチステージ１４
により保存されるため、クロックサイクル６中に命令フ
ェッチステージ１４に示す最初の２つの命令位置は、そ
の位置に命令がフェッチされないことを示す２つのアス
テリスクで開始される、すなわち、その位置の情報は無
効もしくは無関係である。さらに、フェッチされた命令
ラインは分岐命令ＳＢＢも含んでいるため、同じライン
のＳＢＢ命令に続く任意他の命令（例えば、命令Ｍ）も
やはりフェッチされない、すなわち、その位置の情報は
無効もしくは無関係である（やはり、図３にアステリス
クで示す）。したがって、クロックサイクル６を要約す
ると、命令ストリーム３２のループ３４しかフェッチさ
れないが、そこからフェッチされるキャッシュライン内
の整列は保存される。

【００２４】クロックサイクル７中に、クロックサイク
ル６からのフェッチされたループ３４はデコードステー
ジ１６を通ってキュー３０へ進む。さらに、キュー３０
に配置されると、ループ３４は目的命令ＴＲがキュー３
０の頂部に配置されるように再整列される。したがっ
て、ループ３４がキュー３０内に格納できる命令数より
も少ない命令を有する程度まで、残りの位置が使用され
なくなる。したがって、本例では、ループ３４は５つの
命令からなりキュー３０は８つの位置を有している。ル
ープ３４はキュー３０の頂部へ整列されるため、キュー
３０の残りの３つの位置は使用されない。また、クロッ
クサイクル７中に、命令フェッチステージ１４はクロッ
クサイクル６に関して前記したようにループ３４の次の
反復を再びフェッチする。

【００２５】前記したように、ループ３４はクロックサ
イクル６からフェッチされとクロックサイクル８，９，
１０中にパイプライン中を進行し、その時までに実行ス
テージ２６に達する。同時に、先行するステージはルー
プ３４の連続する反復を処理し、これらの反復もクロッ
クサイクル６からフェッチされる時にループ３４に遅れ
てフェッチされ、デコードされキューされ、スケジュー
ル等されるようにされる。次にクロックサイクル１０中
の実行ステージ２２に戻って、スケジューリングに利用
できるのはループ３４だけであり、したがって、実行ス
テージ２２はループの最初の反復、すなわち、（ステー
ジ２０からオペランドが読み出された後で）スケジュー
ルステージ１８から割り当てられる５つの演算実行ユニ
ット命令、しか実行しない。すなわち、各クロックサイ
クルに対して、ループの１反復に対する演算実行ユニッ
ト命令しか実行されない。したがって、キュー３０内の
位置の非使用と同様に演算実行ユニットのいくつかが使
用されない。すなわち、本例では、ループは５つの演算
実行ユニット命令しか含んでいないため、短い後向き分
岐の一つのループを実行するのに５つの演算実行ユニッ
トで済む。その結果、実行ステージ２２の残りの３つの
演算実行ユニットはクロックサイクル１０中にアイドル
のままとされる。さらに、クロックサイクル１０の後
で、ループ３４の連続する各反復実行に対して、ループ
の反復がもう１回実行され、したがって、５つの演算実
行ユニットしか実行されない。このプロセスは分岐が行
われなくなるまで続けられる。この点で、図示されては
いないが、分岐が誤予測されＭＩＳＰＲＥＤＩＣＴＥＤ
信号に応答してパイプラインが再びフラッシュされる。
次に、短い後向き分岐を含むラインがもう１回フェッチ
されが、今度はＴＲ命令に続く任意の命令を含み、これ
らの後続する命令は次に従来技術で周知のようにパイプ
ラインを介して処理して実行できるようにされる。

【００２６】前記説明は、例示したような短い後向き分
岐命令に対して演算実行ユニットを使用しないだけでな
く、キュー３０内の位置さえ使用しない非効率性等の、
従来技術のさまざまな非効率性を発明者が認識している
ことを示すものである。事実、キュー位置および演算実
行ユニットのこの非使用はループ３４の連続する各反復
について生じる。したがって、ループの実行回数が増す
と非効率性も増す。さらに、前例は５つの命令の後向き
分岐ループを示し、キューは８つの位置を有し実行ステ
ージは８つの演算実行ユニットを有している。したがっ
て、非使用とされるのはキュー３０内の３つの位置およ
び実行ステージ２２内の３つの演算実行ユニットである
が、ループ３４内の命令数が少なかったり実行ステージ
３０が９つ以上の演算実行ユニットを含む場合には、非
使用はさらに大きくなる。

【００２７】本発明による前記局面を理解すれば、下記
の実施例によりこの従来技術の方法に勝るさまざまな利
点が得られる。これらの利点は以下の詳細な検討から良
く理解することができるが、図３の方法の利点を理解し
たこの時点で簡単に紹介する。例えば、実施例ではキュ
ー３０の各位置は、たとえ短い後向き分岐ループが処理
されていても、最初の反復の後で書き込まれる。もう１
つの例として、実行ステージ２２の各演算実行ユニット
は、たとえ短い後向き分岐ループが処理されていても１
クロックサイクル中に命令を実行することができ、好ま
しくは、図３のケースのように実行サイクル中に使用さ
れない演算実行ユニットは無いようにされる。この後者
の目標に関して、短い後向き分岐ループの１回の反復を
実行するのに必要なものを越える演算実行ユニットが、
好ましくは、同じクロックサイクル中に使用されてルー
プの連続する反復のもう１つの反復を同時に実行する
（一部もしくは全体）。これらの利点については後述す
る図４−図９の検討から良く理解することができる。

【００２８】図４に命令処理システムを一般的に３６に
示し、それは前記した非効率性を克服して後述する発明
的局面を達成するための付加特徴が与えられている点を
除けば、図１のシステム１０と同じである。次に図４に
戻って、図１と同様に同じ参照番号が図４でも使用され
ている。システム３６は命令フェッチステージ１４の修
正も含んでいる、すなわち、ＳＢＢおよびＴＲ命令検出
回路３８が付加されＢＴＢ２８と情報を通信する。ま
た、回路３８は例としてステージ１４内に示されている
が、パイプライン１２に対して他の位置（例えば、実行
ステージ２２）に配置することもできる。いずれにせ
よ、この回路の目的は図５−図９の以下の検討から理解
することができる。

【００２９】図５は図４のマイクロプロセッサ３６に従
って処理される場合の図２の命令ストリーム３２のタイ
ミング図を示す。図５は、また、実施例を従来技術と対
比するための図３と同じタイミング条件を使用してお
り、したがって、図５を左から右へ横切する水平軸は連
続するマイクロプロセッサのクロックサイクルを表し、
図５を頂部から底部へ横切する垂直軸はマイクロプロセ
ッサパイプラインを通過する命令ストリームを表す。

【００３０】図５には、一般的に、クロックサイクル１
−５について前記した図３と同じ処理動作が図示されて
いる。したがって、クロックサイクル１において、命令
ストリーム２は図３のクロックサイクル１のケースと同
様に命令キャッシュ回路２６から命令フェッチステージ
１４によりフェッチされる。さらに、図５のクロックサ
イクル２−５に関して、前記した図３と同じ処理動作も
図示されている。したがって、読者はこれらのクロック
サイクルの詳細については図３の前記検討を参照された
い。また、前記検討から、図５のクロックサイクル５の
結論によりＳＢＢ命令が実行されその誤予測によりパイ
プラインはＭＩＳＰＲＥＤＩＣＴＥＤ信号に応答してフ
ラッシュすることも思い出して頂きたい。また、ＡＣＴ
ＵＡＬＴＡＲＧＥＴＡＤＤＲＥＳＳが命令フェッチス
テージ１４へ送られて、その次のフェッチはＴＲ命令を
含むラインのものとされることも思い出して頂きたい。

【００３１】図５のクロックサイクル５の表現にもかか
わらず、この点において、本実施例はクロックサイクル
５中にＳＢＢ命令も短い後向き分岐として構成するよう
に決定され、したがって、その目的は短い後向き分岐命
令の目的として確認されることが従来技術とは著しく異
なっている。実施例では、この確認はさまざまな方法で
実行することができる。しかしながら、検討を簡単にす
るために、このような技術の詳細な検討は図９まで延期
する。しかしながら、ここで、確認に応答して、ＳＢＢ
およびＴＲ命令検出回路３８により分岐命令を短い後向
き分岐命令として指示し、さらにＴＲ命令をその目的と
して指示するＢＴＢ２８へのエントリがなされる。後述
するように、本方法は次に連続する次のクロックサイク
ルへ進む。

【００３２】図３のケースと同様に、図５に示す連続す
る次のクロックサイクルはクロックサイクル６である。
しかしながら、前記したように、分岐誤予測およびパイ
プラインフラッシュに続いて、パイプラインへの連続す
る次のフェッチインの前にいくつかのクロックサイクル
が経過することがある。それでも、アクションの逐次性
を単純化するために、図５ではクロックサイクル５に続
く次のクロックサイクルはクロックサイクル６として例
示されており、当業者ならばフェッチおよびそれに続く
ステップは実際上いくつか後のクロックサイクルまで開
始されないこともあることがお判りであろう。次に図５
のクロックサイクル６（すなわち、パイプラインが進行
できる準備が完了している次のサイクル）へ戻って、一
般的に図３のクロックサイクル６のケースのように、ル
ープ３４は命令フェッチステージ１４により命令キャッ
シュ回路２６からフェッチされる。したがって、ループ
３４はキャッシュ回路２６からのその整列に従って整列
されているライン内に受け入れられる。しかしながら、
従来技術と対比される本実施例の２つの付加局面に注目
願いたい。本動作の第１の違いとして、好ましい実施例
では、ＳＢＢおよびＴＲ命令検出回路３８はフェッチさ
れたラインがそのＴＲ命令だけでなくＳＢＢ命令も含む
ことを検出する。特に、前記したことから、ＢＴＢ２８
はそのＴＲ命令だけでなくＢＴＢ２８の指示も含むよう
に書き込まれていることを思い出して頂きたい。したが
って、これらの命令は命令フェッチステージ１４により
フェッチされると、ＢＴＢ２８内のルックアップからそ
のようなものとして検出される。後述する理由により、
ＢＴＢ２８はそのＴＲ命令だけでなくＳＢＢ命令にもタ
グを付すようにして、このような各命令がパイプライン
１４に沿って通過する時に、ＳＢＢもしくはそのＴＲ命
令として区別され後述する方法論に従って処理できるよ
うにされる。本動作の第２の違いとして、フェッチング
ループ３４の他に、命令フェッチステージ１４はキャッ
シュ回路２６からの同じラインでＴＲ命令の後の任意の
命令もフェッチする。したがって、本例では、ループ３
４がフェッチされると、ループ３４に続く命令Ｍもフェ
ッチされる。

【００３３】クロックサイクル７中に、クロックサイク
ル６からの付加命令Ｍだけでなくフェッチされたループ
３４もデコードステージ１６を通過してキュー３０へ進
む。キュー３０に配置されると、ループ３４および命令
ＭはＴＲ命令がキュー３０の頂部に配置されるように再
整列される。したがって、この点において、ループ３４
および同じキュッシュラインでそれに続く任意の命令の
数がキュー３０に格納できる命令数よりも少なくなる程
度まで、残りの位置が非使用とされる（すなわち、本例
では２つの位置）。図３とは対照的に、さらに図５のク
ロックサイクル７に関して、また後に図６−図８に関し
て良く理解できるように、キュー３０が短い後向き分岐
ループの全体を格納すると、ループはもはや従来技術の
方法では再フェッチされない。キュー３０は後述する理
由でループがその中に残るような状態へ有効に固定され
る。さらに、従来技術とは反対に、クロックサイクル７
中に、命令Ｍに続く次の８つのフェッチされた命令がフ
ェッチされ、クロックサイクル７中に命令Ｎ−Ｕとして
フェッチステージに示される。

【００３４】図５のクロックサイクル８中のスケジュー
ルステージ１８のオペレーションにより、図３に示す従
来技術のオペレーションと対照的な本実施例のもう１つ
の特徴が明示される。特に、クロックサイクル８中に、
キュー３０はスケジューリングのための８つの演算実行
ユニットの全てをスケジュールステージ１８へ出力す
る。したがって、クロックサイクル８の終わりまでに、
スケジュールステージ１８はループ３４の最初の反復に
対する各演算実行ユニット命令をスケジュールできるだ
けでなく、ループ３４の次の（すなわち、第２の）反復
に対応する演算実行ユニット命令の開始命令をスケジュ
ールすることができる。この対比は、この点よりも以前
に使用した略字に連番を付して図５に示されている。特
に、クロックサイクル８中にスケジュールステージ１８
によりスケジュールされた最初の５つのエントリは、各
々がループ３４の最初の反復に対応する、ＴＲ１，Ａ
１，Ｂ１，Ｃ１，およびＳＢＢ１として示され、次の３
つのエントリは、各々がループ３４の第２の反復の最初
の３つの演算実行ユニット命令に対応する、ＴＲ２，Ａ
２，およびＢ２として示されている。しばらく、クロッ
クサイクル８中の図３の従来技術のオペレーションへ戻
って、キュー３０は命令の完全な１ループまでしかスケ
ジュール回路１８へ与えられないことを思い出して頂き
たい。したがって、そのループ（例えば、５つの命令）
しかスケジュールすることができず、その後そのループ
だけが１クロックサイクル（例えば、図３のクロックサ
イクル１０）で実行される。しかしながら、本実施例に
おいて短い後向き分岐ループ命令をスケジューリングす
る場合であって、図６に示すような回路を使用する時に
は、キュー３０によりループ３４はスケジュールステー
ジ１８が巡回式に利用できるようにされ、スケジュール
される演算実行ユニット命令数はループの１回の反復に
おける単なる演算実行ユニット命令数を越えて増加す
る。すなわち、ループに含まれる演算実行ユニット命令
がスケジュールできる数よりも少ない場合には、ループ
の各演算実行ユニット命令はキュー３０により巡回式に
利用されて同じクロックサイクル中にスケジュールされ
る最大数の演算実行ユニット命令までスケジューリング
が行われる。したがって、本例では、ループ３４は５つ
の演算実行ユニット命令を含みスケジュールステージ１
８は８つまでの演算実行ユニットに対して８つまでの演
算実行ユニット命令をスケジュールすることができる。
したがって、演算実行ユニット命令の最初の反復（すな
わち、Ｔ１−ＳＢＢ１）がキュー３０によりスケジュー
ルステージ１８へ与えられて５つの対応する演算実行ユ
ニットへスケジュールされると、スケジュールステージ
１８が演算実行ユニット命令をスケジュールすることが
できる３つの付加演算実行ユニットがそのまま残され
る。したがって、キュー３０により最初の反復（すなわ
ち、Ｔ１−ＳＢＢ１）が与えられる同じクロックサイク
ル中に、キュー３０は次の３つの連続する命令（すなわ
ち、Ｔ２−Ｂ２）をスケジュールステージ１８へ与えて
対応する演算実行ユニットへスケジュールすることがで
きる。その結果、図５のクロックサイクル８の終わりま
でには、合計８つの演算実行ユニット命令がスケジュー
ルされる。最後に、好ましい実施例を実現するマイクロ
プロセッサはレジスタリネーミング（ｒｅｎａｍｉｎ
ｇ）、および／もしくは適切なオペランドおよび結果を
保存しながら同時に短い後向き分岐演算実行ユニット命
令の後の実行を可能にするある種の他のｏｕｔ−ｏｆ−
ｏｒｄｅｒ実行技術を必ず含まなければならない。

【００３５】クロックサイクル９について検討する前
に、デコードステージ１６に対するクロックサイクル８
中のオペレーションについて述べる。このオペレーショ
ンはクロックサイクル８に続くデコードステージ１６の
情報とクロックサイクル７に続く情報との比較により最
も良く理解される。特に、クロックサイクル８の後で、
キュー３０の各位置にデコードされた情報が格納され
る。本例では、デコードされた命令ＮおよびＯはデコー
ドされた命令Ｍの後に加えられる。さらに、クロックサ
イクル７から思い出されるように、本実施例では短い後
向き分岐ループが含まれるラインに続く次のラインの命
令がフェッチされるため、このオペレーションが可能で
あることとをお判り願いたい。その結果後述するよう
に、短い後向き分岐ループがエグジットすると（すなわ
ち、もはや遂行されない）、連続する次の命令は既にパ
イプラインを介して一部処理されており、したがって、
パイプライン全体をフラッシュした後で従来技術のケー
スのようにフェッチされる必要がない。

【００３６】クロックサイクル９中に、オペランドリー
ドステージ２０に対するオペレーションおよびスケジュ
ールステージ１８に対するオペレーションが独立して行
われる。オペランドリードステージ２０に関しては、ク
ロックサイクル８中にスケジュールされた演算実行ユニ
ット命令（すなわち、ＴＲ１−ＳＢＢ１，およびＴＲ２
−Ｂ２）で、このようなオペランドが必要であるものに
ついてオペランドが読み出される。スケジュールステー
ジ１８に関しては、クロックサイクル８中にスケジュー
ルされたものに続く連続する次のループ命令がスケジュ
ールされ、ループの反復が完了すると、キュー３０によ
り次の反復からの付加命令をスケジュールステージ１８
が利用してスケジュールできるようにされる。すなわ
ち、クロックサイクル８中に演算実行ユニット命令ＴＲ
１−ＳＢＢ１およびＴＲ２−Ｂ２がスケジュールされた
ことを思い出して頂きたい。したがって、これらの演算
実行ユニット命令は、ループ３４の第２の反復の５つの
演算実行ユニット命令の中の最初の３つだけでなくルー
プ３４の最初の完全な反復にも対応していた。したがっ
て、シーケンスを続けると、クロックサイクル９中にル
ープ３４の第３の反復からの最初の演算実行ユニット命
令（すなわち、ＴＲ４）と同様な、ループ３４の第２の
反復からの５つの演算実行ユニット命令（すなわち、Ｔ
Ｒ３−ＳＢＢ３）と同様に、ループ３４の第２の反復か
らの残りの演算実行ユニット命令（すなわち、Ｃ２およ
びＳＢＢ２）がスケジュールされる。

【００３７】クロックサイクル１０中に、実行ステージ
２２の各演算実行ユニットは対応する演算実行ユニット
命令を実行する。図５から、このオペレーションにより
ループ３４の最初の反復（すなわち、ＴＲ１−ＳＢＢ
１）が実行されることが判る。しかしながら、残り３つ
の演算実行ユニットもループ３４の第２の反復の一部を
実行するようにスケジュールされている。したがって、
同じクロックサイクル１０中に、これら３つの残りの演
算実行ユニットによりＴＲ２−Ｂ２が実行される。した
がって、ここで、当業者ならば本実施例により短い後向
き分岐ループが１実行サイクルで１回以上反復されるこ
とがお判りであろう。例えば、この場合、最初の完全な
反復プラスループの次の反復の３／５（すなわち、５つ
のループ命令の中の３つ）が実行され、１サイクルで合
計１．６回の反復（すなわち、１回の反復よりも多い）
が実行される。最後に、これらの演算実行ユニット命令
に関して、図５には図示されていないが、クロックサイ
クル１０に続いて各演算実行ユニット命令が段階に分け
られマイクロプロセッサのアーキテクトされた状態に影
響を及ぼす。

【００３８】クロックサイクル１０に関して前記したオ
ペレーションが与えられると、本明細書で使用する短い
後向き分岐ループという用語に含まれるものをさらに明
確に定めることができる。ここで、前記したことからこ
のようなループには分岐命令が含まれそれは、遂行され
ると、比較的少数の演算実行ユニット命令だけ分岐命令
に先行する目的へコントロールを戻すと述べたことを思
い出して戴きたい。クロックサイクル１０中の図５のオ
ペレーションを理解したので、短い後向き分岐の演算実
行ユニット命令数はそこから命令をスケジュールするこ
とができる記憶セル数、すなわち、キュー３０内の記憶
セル数よりも少なくなければならないことが判る。すな
わち、図９のもう１つの実施例に示すように、本実施例
は各々がキュー３０から巡回出力を与えて１サイクルで
実行するように作動できる命令演算実行ユニットを最小
限に抑えようとする能力を共有している。したがって、
前記したものは８セルを有するデコードキュー３０、お
よび７つ以下（例えば、５つ）の演算実行ユニット命令
を有する短い後向き分岐ループの例である。キュー３０
の出力の巡回性が与えられて短い後向き分岐が格納され
ると、それはスケジュールステージ１８と組み合わされ
て所与のクロックサイクルに対して各演算実行ユニット
を使用するようにすることができる。さらに、これらを
考慮すると、さらに短い後向き分岐ループは７つまでの
演算実行ユニット命令を含むことができることが判る。
このような場合、本実施例を使用すると、７つの演算実
行ユニット命令の各々の最初の反復をループの第２の反
復の最初の演算実行ユニット命令と同じクロックサイク
ルで実行するようにスケジュールすることができる。さ
らに、キューセル数が整数Ｑまで増加する場合には、こ
のような場合に使用する短い後向き分岐命令ループはＱ
−１以下の演算実行ユニット命令で構成することがで
き、これらの２回以上のＱ−１（もしくはそれ以下）の
反復を１実行サイクルでスケジュールする機会が再び与
えられる。

【００３９】次に図５のクロックサイクル１０に戻っ
て、クロックサイクル９でスケジュールステージ１８に
よりスケジュールされた命令はオペランドリードステー
ジ２０へ通されることが判る。さらに、当業者ならば次
のクロックサイクル（すなわち、クロックサイクル１
１）において、これらの命令は実行されて、ループ３４
の第２の反復の実行（すなわち、Ｃ２およびＳＢＢ２の
実行による）、ループ３４の第３の反復の完全な実行
（すなわち、ＴＲ３−ＳＢＢ３の実行による）、および
ループ３４の第４の反復の部分的実行（すなわち、ＴＲ
４の実行による）の完了を表すことがお判りであろう。
したがって、ここでも、短い後向き分岐ループの２つ以
上の反復が１サイクルで実行される。

【００４０】クロックサイクル１０について説明してき
たので、さらに、プロセスは短い後向き分岐の所望数の
反復を実行するのに必要な任意の付加クロックサイクル
だけでなく、クロックサイクル１１を通して継続される
ことが判る。したがって、ＴＲ１−Ｂ２はクロックサイ
クル１０中に実行されたが、連続する次の８つの実行命
令（すなわち、Ｃ２−ＴＲ４）はクロックサイクル１１
中に実行される。したがって、クロックサイクル１２が
示されていると、少なくともＡ４−ＳＳＢ４が実行さ
れ、分岐が遂行され続ければさらにＣ５が実行される。

【００４１】次に本実施例により与えられる短い後向き
分岐ループが存在する効果について述べる。特に、クロ
ックサイクル１２が示されると、少なくともＡ４−ＳＳ
Ｂ４が実行されることを前に述べた。しかしながら、Ｓ
ＳＢ４は実行した時に遂行されないことが判ったものと
する。したがって、誤予測が生じ実行したい次の命令は
ＳＳＢに続くもの、すなわち、クロックサイクル６にお
いてＳＳＢ命令にすぐ続く命令Ｍとなる。従来技術で
は、誤予測が生じると、全体パイプラインがフラッシュ
され分岐に続く次の命令（例えば、命令Ｍ）がフェッチ
されパイプラインに沿って実行に向けて通される。しか
しながら、これとは対照的に、本実施例では連続する次
の命令は既にパイプライン内へフェッチされ、デコード
され、キュー３０内に格納されている。例えば、クロッ
クサイクル１１（もしくは、クロックサイクル７−１０
のいずれか）を見ると、キュー３０は命令ＮおよびＯだ
けでなくデコードされた命令Ｍも既に格納して図示され
ている。したがって、前記したようにＳＳＢ４の誤予測
の場合には、本実施例のパイプラインは次の命令および
恐らくは連続する付加命令をデコードされた形式で既に
格納しており、パイプラインのフラッシュに続いてこれ
らの命令を再フェッチすることなくそれ（もしくは、そ
れら）を次のサイクルでスケジューリングのために転送
することができる。したがって、クロックサイクル１１
において誤予測が生じると、命令Ｍ−Ｏは僅か３クロッ
クサイクル後に実行準備が完了するが、従来技術では最
初のフェッチおよび第２のデコード命令Ｍにさらに２つ
のクロックサイクルが必要である。したがって、本実施
例により短い後向き分岐エグジットに基づいた従来技術
もさらに改善される。

【００４２】図６にキュー３０の好ましい実施例の詳細
な模式図を示し、前記したようにスケジュールステージ
１８へ巡回式に演算実行ユニット命令を与える回路を含
んでいる。キュー３０は８つの記憶セルを含み、各々が
４２に連続文字“ａ”−“ｈ”を組み合わせた参照番号
で示されている。各セルはデコードステージ１６から受
信した演算実行ユニット命令に対応する出力を格納する
ように作動する（セルへの入力は図面を単純化するため
に図示されていない）。各セル４２ａ−４２ｈは後述す
るアドレス計算のための対応するセルアドレスを有して
いる。さらに、好ましい実施例では、一度セル内に格納
された演算実行ユニット命令は別のセルへ動くことはな
く、替わりにポインタを使用してキューの頂部および底
部を識別し、各演算実行ユニット命令が受信される順序
の基準が与えられる。したがって、例として、図５のク
ロックサイクルからの演算実行ユニット命令はセル４２
ｃ−４２ｈ内に格納されて図示される。演算実行ユニッ
ト命令ＴＲはシーケンス内の最初の命令であるため、キ
ュー頂部ポインタにより指示される。同様に、演算実行
ユニット命令Ｍはシーケンス内の最後の命令であるた
め、キュー底部ポインタにより指示される。

【００４３】各セル４２ａ−４２ｈの出力は８つのマル
チプレクサ４４ａ−４４ｈの各々の入力に接続されてい
る。マルチプレクサ４４ａ−４４ｈは各出力をスケジュ
ールステージ１８へ与える。特に、各マルチプレクサ４
４ａ−４４ｈは制御回路４６により制御され、それは図
４に関して紹介したＳＳＢおよびＴＲ演算実行ユニット
命令に関連するタグに応答して活性化される。すなわ
ち、命令はＳＳＢ命令であるというＢＴＢ２８内の表示
に応答して、ビットはＳＳＢ命令（もしくは、その対応
するＴＲ命令）を表すことを後続するパイプラインステ
ージへ表示するタグが各命令へ加えられる。ここで、タ
グに応答して、制御回路４６はループ３４の多数回の反
復を処理する次の機能を達成することができる。特に、
制御回路４６はＳＳＢタグを検出すると、各マルチプレ
クサに対するセルアドレスを計算し、１式に基づいてそ
の演算実行ユニット命令を選択する。

【００４４】

【数１】 addr(n)=（((n+curr br)mod br q sz)+top of q)mod q sz) （１式）ここに、addr(n) は図６に示すマルチプレクサのアドレ
ス、curr br は短い後向き分岐ループの最初の反復に対
してはゼロであり、その後の各サイクルに対しては（先
行するサイクル内のcurr br ＋最後のサイクルでスケジ
ュールされた命令数）modbr q z 、br q sz は短い後向
き分岐ループ内の命令数、top of qはキュー頂部ポイン
タに対するセルアドレス、q szは命令キューの合計セル
数（本例では８）。

【００４５】図７は図６のシステムを例示するものであ
るが、ループ３４からの演算実行ユニット命令を連続的
に供給する制御回路４６の動作を明示する各マルチプレ
クサ４４ａ−４４ｈの出力も表している。前例に従っ
て、キュー３０に示す演算実行ユニット命令は図５のク
ロックサイクル６のそれであるため、各マルチプレクサ
から出力される演算実行ユニット命令は図５のクロック
サイクル８においてスケジュールステージ１８により処
理されるものである（すなわち、シーケンス内の、ＴＲ
１−ＳＢＢ１およびＴＲ２−Ｂ２）。この順序が与えら
れると、１式のいくつかの計算例を明示して、その展開
をより完全に理解することができる。

【００４６】１式の最初の展開例として、キュー３０に
より最初のスケジュールステージ位置（例えば、addr
(0) ）へ通される演算実行ユニット命令を考える。１式
は次のように計算される。

【数２】addr(0)=（((0+0)mod5)+2)mod8)=((0mod5)+2)m
od8=2mod8=2 したがって、セルアドレス２（すなわち、セル４２ｃ対
応する）からの演算実行ユニット命令はスケジュールス
テージ１８のaddr(0) へ通され、最初のスケジュールス
テージ位置へ演算実行ユニット命令ＴＲを与える。

【００４７】１式の第２の展開例として、キュー３０に
より第５のスケジュールステージ位置（すなわち、addr
(4) ）へ通される演算実行ユニット命令を考える。１式
は次のように計算される。

【数３】addr(4)=（((4+0)mod5)+2)mod8)=((4mod5)+2)m
od8=6mod8=6 したがって、セルアドレス６（すなわち、セル４２ｇに
対応する）からの演算実行ユニット命令はスケジュール
ステージ１８のaddr(4) へ通され、第５のスケジュール
ステージ位置へ演算実行ユニット命令ＳＢＢを与える。

【００４８】１式の第３の展開例として、キュー３０に
より第６のスケジュールステージ位置（すなわち、addr
(5) ）へ通される演算実行ユニット命令を考える。１式
は次のように計算される。

【数４】addr(5)=(((5+0)mod5)+2)mod8)=((5mod5)+2)mo
d8=2mod8=2 したがって、セルアドレス２（すなわち、セル４２ｃに
対応する）からの演算実行ユニット命令はスケジュール
ステージ１８のaddr(5) へ通され、第６のスケジュール
ステージ位置へ演算実行ユニット命令ＴＲを与える。

【００４９】１式の展開例をさらに明示するために、図
８に図７を重複して示すが、図５からのクロックサイク
ル９（すなわち、図７の例に続くクロックサイクル）に
対するマルチプレクサ４４ａ−４４ｈの各々の所望の出
力が明示されている。したがって、図５のクロックサイ
クル９に対して各マルチプレクサから出力されるように
図示されている演算実行ユニット命令はＣ２およびＳＢ
Ｂ２であり、ＴＲ３−ＳＢＢ３が続き、最後にＴＲ４が
続く。この順序が与えられると、１式のいくつかの計算
例を明示して、その展開をより完全に理解することがで
きる。図８に対して１式の例を続ける前に、１式の各展
開がパラメータcurr br を含み、また前記したようにル
ープの最初の反復後の各サイクルに対してこのcurr br
は（先行サイクルのcurr br ＋最終サイクルでスケジュ
ールされた命令数）modbr q z であることを思い出して
頂きたい。したがって、次の例では、curr br は次のよ
うになる。

【数５】curr br=(0+8)mod5=3

【００５０】次に１式の最初の展開例に戻って、キュー
３０により最初のスケジュールステージ位置（すなわ
ち、addr(0) ）へ通される演算実行ユニット命令を考え
る。１式は次のように計算される。

【数６】addr(0)=(((0+3)mod5)+2)mod8)=((3mod5)+2)mo
d8=5mod8=5 したがって、セルアドレス５（すなわち、セル４２ｆに
対応する）からの演算実行ユニット命令はスケジュール
ステージ１８のaddr(0) へ通され、最初のスケジュール
ステージ位置へ演算実行ユニット命令Ｃを与える。

【００５１】１式の第２の展開例として、キュー３０に
より第２のスケジュールステージ位置（すなわち、addr
(1) ）へ通される演算実行ユニット命令を考える。１式
は次のように計算される。

【数７】addr(1)=(((1+3)mod5)+2)mod8)=((4mod5)+2)mo
d8=6mod8=6 したがって、セルアドレス６（すなわち、セル４２ｇに
対応する）からの演算実行ユニット命令はスケジュール
ステージ１８のaddr(1) へ通され、第２のスケジュール
ステージ位置へ演算実行ユニット命令ＳＢＢを与える。

【００５２】１式の最後の展開例として、キュー３０に
より第８のスケジュール位置（すなわち、addr(7) ）へ
通される演算実行ユニット命令を考える。１式は次のよ
うに計算される。

【数８】addr(7)=(((7+3)mod5)+2)mod8)=((10mod5)+2)m
od8=2mod8=2 したがって、セルアドレス０（すなわち、セル４２ｃに
対応する）からの演算実行ユニット命令はスケジュール
ステージ１８のaddr(7) へ通され、第８のスケジュール
ステージ位置へ演算実行ユニット命令ＴＲを与える。

【００５３】図９に図４のマイクルプロセッサ３６の修
正に従って処理される場合の図２のストリーム３２と同
様な、別の命令ストリームのタイミング図を示す。最初
に、図９の命令ストリームも短い後向き分岐ループを含
んでいるが、前記原理をさらに明示するために、ループ
は１０の演算実行ユニット命令を含み、それには最も早
期のものから最も最近までの下記のフォーマットが含ま
れるものとする。

【数９】ＴＲＡＢＣＤＥＦＧＨＳＳＢさらに、前記したように、図９に示す処理は修正された
マイクルプロセッサ３６にも適用される。特に、本例で
は、キュー３０の記憶セル（すなわち、対応する演算実
行ユニット命令を格納できるセル）の数は８から１２へ
増加される。しかしながら、マイクルプロセッサに含ま
れる演算実行ユニットは８個のままである。

【００５４】以下の検討を簡単にするために、図９では
図５と同じきまりのタイミングが使用され、図９を左か
ら右へ横切する水平軸は連続するマイクルプロセッサク
ロックサイクルを表し、図９を頂部から底部へ横切する
垂直軸はマイクルプロセッサパイプラインを通過する命
令ストリームを表す。さらに検討を簡単にするために、
図９の分岐ループは誤予測により既に検出されており、
したがって、目的および連続命令のフェッチングが開始
する最初のクロックサイクル（すなわち、図５のクロッ
クサイクル６と同様）としてクロックサイクル１０が任
意に明示される。すなわち、クロックサイクル９（図示
せず）の計算により、ＳＢＢ命令が実行されその誤予測
によりＭＩＳＰＲＥＤＩＣＴＥＤ信号に応答してパイプ
ラインがフラッシュされる。また、ＡＣＴＵＡＬＴＡＲ
ＧＥＴＡＤＤＲＥＳＳが命令フェッチステージ１４へ
送られてその次のフェッチがＴＲ命令を含むラインとな
るようにされることを思い出して頂きたい。最後に、Ｓ
ＢＢがＢＴＢ２８内の短い後向き分岐として明示され、
その目的も短い後向き分岐の目的として指示されること
を思い出して頂きたい。

【００５５】次に図９のクロックサイクル１０に戻っ
て、本ループ内の最初の１０の命令の中のいくつかが命
令フェッチステージ１４によりフェッチされる。これら
の最初の命令はキャッシュ回路２６からのその整列に従
って整列されるライン内で受信される。本例では、ルー
プはキャッシュラインからフェッチされる最初の２つの
命令がループの一部ではなく、したがって、クロックサ
イクル１０にアステリスクで示されるように整列される
ものと仮定する。さらに、全体ループが１０命令長であ
り、ループはキャッシュライン内の２つの非ループ命令
で置換され、かつフェッチステージは一時に８つの命令
しかフェッチできないため、クロックサイクル１０中に
１０のループ命令の僅か６つしかフェッチされない。し
たがって、後述するように、ループの残りの命令はクロ
ックサイクル１１中にフェッチされる。クロックサイク
ル１０を継続すると、再びＢＴＢ２８（あるいはそれに
関連する目的記憶レジスタ等の他の記憶装置）が相談さ
れてＴＲ命令はＳＢＢ命令の目的であることが表示さ
れ、したがって、それを示すタグがＴＲ命令に付加もし
くは関連ずけられてそれがパイプライン１４を通過する
こと等が明示される。

【００５６】クロックサイクル１０中に、前記したよう
に、本ループの残りの４つの命令がフェッチステージ１
４によりフェッチされる。さらに、図５のクロックサイ
クル６のケースのように、ループのフェッチを完了する
他に命令フェッチステージ１４はキャッシュ回路２６か
らの同じラインでＴＲ命令の後の任意の命令をフェッチ
する。したがって、本例では、クロックサイクル１１で
ループの最終命令がフェッチされると、ループに続く命
令Ｍ，Ｎ，ＯおよびＰもフェッチされる。さらに、ＳＢ
Ｂ命令がフェッチされているため、ＢＴＢ２８への対応
するエントリによりそれも短い後向き分岐としてタグが
付される。また、クロックサイクル１１中に、フェッチ
されたループの最初の６つの命令がデコードステージ１
６を通ってキュー３０へ進む。キュー３０に配置される
と、これらの最初のループ命令はＴＲ命令がキュー３０
の頂部に配置されるように再整列される。したがって、
ここで、ループの最初の命令がキュー３０に格納できる
命令数よりも少くなる程度まで、またこれらの最初の命
令がそれを読み出したキャッシュライン内で変位される
程度まで、キュー３０の残りの位置は非使用とされる
（すなわち、本例では、６つの位置）。

【００５７】クロックサイクル１２中に、デコードステ
ージ１６はさらにこの短い後向き分岐ループの残りの命
令をデコードし、デコードした演算実行ユニット命令を
キュー３０内に格納する。したがって、クロックサイク
ル１２の後で、スケジュールステージ１８は、図５−図
９に関して前記しかつ後述する方法に匹敵する方法で巡
回式に演算実行ユニット命令を受信することができる。

【００５８】クロックサイクル１３中に、スケジュール
ステージ１８はキュー３０から演算実行ユニット命令を
巡回式に受信する。したがって、スケジュールステージ
１８は考えられる最大数の命令、すなわち、利用可能な
演算実行ユニット数に対応する数の命令を実行するため
に発行する。本例では、８つの演算実行ユニットが利用
可能であり、したがって、ＴＲ１−Ｇ１が実行のために
スケジュールされる。クロックサイクル１３の表現が与
えられると、ループのスケジューリングが開始される前
に１クロックの遅延が生じていることが判る。特に、た
とえクロックサイクル１１中に演算実行ユニット命令が
キュー３０内に格納されていても、クロックサイクル１
２中にスケジューリングは示されていないことをお判り
願いたい。したがって、図９に図示する例の代替例で
は、クロックサイクル１３中に８つの演算実行ユニット
命令全部をスケジュールするのを待機せずに、クロック
サイクル１１中にキュー３０に格納された演算実行ユニ
ット命令をクロックサイクル１２中にスケジュールする
ことができる。しかしながら、このような場合、６つの
演算実行ユニット命令（すなわち、ＴＲ−Ｅ１）しかス
ケジューリングに利用できずパイプラインへ通して６つ
だけの命令としてクロックサイクル１４で実行される。
したがって、説明を簡単にするために、替わりに図９の
パターンについて検討する。

【００５９】クロックサイクル１４中に、スケジュール
ステージ１８は再び演算実行ユニット命令をキュー３０
命令から巡回式に受信する。しかしながら、ここではこ
のループ内の１０の命令の中の最初の８つが先行するク
ロックサイクル１３中にステージ１８により受信されス
ケジュールされるため、このクロックサイクル１４は、
ループの次の反復に対する最初の６つの演算実行ユニッ
ト命令（すなわち、ＴＲ２−Ｅ２）だけでなく、ループ
の最初の反復における残りの演算実行ユニット命令（す
なわち、Ｈ１およびＳＳＢ１）を受信しスケジュールす
る。

【００６０】前記したことから、当業者ならば、クロッ
クサイクル１２の後で各サイクル毎に８つの演算実行ユ
ニット命令をスケジュールしてこのループの所望する全
ての反復が完了するまで、各演算実行ユニットに命令を
割り当てられることがお判りであろう。したがって、こ
こでも、演算実行ユニットは従来技術のようにアイドル
のままとされることはない。事実、図９に示すようにキ
ャッシュ整列された１０の命令ループの例が与えられる
と、従来技術では第１のキャッシュラインに対応する第
１群の命令（ＴＲ−Ｅ命令を含む）それに続く第２のキ
ャッシュラインに対応する第２群の命令（Ｆ−ＳＳＢ命
令を含む）を連続してフェッチし、毎回それらをパイプ
ラインへ通すことができる。したがって、実行時間に、
ループの各反復はフェッチされる各命令群に一つずつの
２つのクロックサイクルが必要である。さらに、これら
のクロックサイクルの最初のクロックサイクル中に、演
算実行ユニットの２つが使用されず（８つの演算実行ユ
ニットの中の６つだけを使用して６つの命令しか実行さ
れないため）、これらのクロックサイクルの第２のクロ
ックサイクル中には、演算実行ユニットの４つが使用さ
れない（８つの演算実行ユニットの中の４つだけを使用
して４つの命令しか実行されないため）。これとは対照
的に、本発明の実施例では短い後向き分岐ループを実行
する時に利用可能な演算実行ユニットは完全に利用でき
る。したがって、ここでも図９の実施例は従来技術に較
べて性能の向上を表している。

【００６１】前記したオペレーションが行われると、本
明細書で使用されている短い後向き分岐命令ループとい
う用語に何が含まれるかを本実施例で検討することがこ
こでも有用となる。前記したことから、短い後向き分岐
の演算実行ユニット命令数は命令をスケジュールするこ
とができる記憶セル数、すなわち、キュー３０内の記憶
セル数よりも少なくなければならないことを思い出して
頂きたい。これに関して、図９の実施例には１２の記憶
セル、および１０の命令ループが明示されている。ここ
でも、相対的ベースで演算実行ユニットへ命令を巡回発
行して、全ての演算実行ユニットが短い後向き分岐ルー
プの一部を１サイクルで実行することができる。さら
に、図５および図９のオペレーションの他の共通的局面
にも注目願いたい。特に、いずれの場合にも、短い後向
き分岐が検出され、デコードキュー３０はさきざまな反
復にわたってそれらを再フェッチすることなく短い後向
き分岐命令の全ループを格納し、短い後向き分岐命令の
さきざまな反復はさきざまなクロックサイクルにわたっ
て実行される。さらに、これらのクロックサイクル中
に、各演算実行ユニットはスケジュールして実行する利
用可能な演算実行ユニット命令が無いためにアイドルと
されるのではなく、好ましくは対応する演算実行ユニッ
ト命令を実行することができる。さらに、これらのさき
ざまなクロックサイクルにおいて、所与のクロックサイ
クル中に、実行されるある演算実行ユニット命令はルー
プの１反復を表し、同じサイクルで実行される他の演算
実行ユニット命令はループの先行もしくは後続反復を表
す。この最後に関して、例えば、図５のクロックサイク
ル１０中にＴＲ１−ＳＢＢ１はループの最初の反復を表
し、ＴＲ２−Ｂ２はループの第２の反復を表す。同様
に、図９において、クロックサイクル１６中にＨ１−Ｓ
ＳＢ１はループの最初の反復を表しＴＲ２−Ｅ２はルー
プの第２の反復を表す。最後に、後述するように、短い
後向き分岐ループの全反復を実行するのに使用されるク
ロックサイクルの全セットにわたって、非使用演算実行
ユニットの平均数は従来技術の非使用演算実行ユニット
の平均数よりも少ない。

【００６２】前記したように、好ましい実施例が与えら
れると短い後向き分岐に関するさきざまな観察を行うこ
とができる。これらの観察が行われると、図５および図
９のオペレーションを図３の従来技術のそれと対比し、
かつ前記したいくつかの仮定を再び調べることにより発
明の範囲をさらに特徴づけることができる。前記したよ
うに、実施例では、非使用演算実行ユニットの平均数は
従来技術の非使用演算実行ユニットの平均数よりも少な
い。この局面は前記説明のより集中した解析により調査
することができる。以下の説明を良く理解するために、
以後演算実行ユニットタイムスロットと呼ばれるものを
ここで紹介する。特に、演算実行ユニットタイムスロッ
トは１クロックサイクルで演算実行ユニット命令を実行
する演算実行ユニットの可用性である。例えば、前記し
たさまざまな場合において、演算実行ユニット命令は１
クロックサイクル中に実行されるものと仮定されてお
り、この場合、このようなイベントにより１演算実行ユ
ニットタイムスロットが費やされるということができ
る。同様に、同じ演算実行ユニット命令を実行するのに
２クロックサイクルを要した場合、このようなイベント
は２演算実行ユニットタイムスロットを費やしたといわ
れる。しかしながら、さらに、所与のサイクル中にたと
え演算実行ユニットが演算実行ユニット命令を実行しな
い場合でも、演算実行ユニットタイムスロットは経過し
てしまう。すなわち、演算実行ユニットタイムスロット
は、実施例が実際にその可用性を利用してそのスロット
中に実行するかどうかに無関係に、所与のクロックサイ
クル中に実行する可用性を表す。後述するように、実行
タイムスロットのこの概念により従来技術を越える実施
例の集中解析が可能となる。

【００６３】従来技術では、短い後向き分岐ループの反
復実行中に経過する演算実行ユニットタイムスロット
数、ＥＵＴＳＩ、は４式で定義することができる。

【数１０】ＥＵＴＳＩ＝ＮＥＵ^*ＣＦＩ４式ここに、ＮＥＵはマイクロプロセッサ内の演算実行ユニ
ット数に等しく、ＣＦＩは短い後向き分岐ループの１反
復をフェッチするクロックサイクル数に等しい。例え
ば、４式は次のように図３へ適用される。最初に、図３
は８つの演算実行ユニットを有するマイクロプロセッサ
を示している。第２に、短い後向き分岐ループは１本の
キャッシュライン内にあり、したがって、１クロックサ
イクルでフェッチすることができる。したがって、４式
を図３の従来技術のオペレーションに適用すると、下記
の結果が得られる。

【数１１】ＥＵＴＳＩ＝ＮＥＵ^*ＣＦＩ＝８^*１＝８したがって、短い後向き分岐の１反復を実行するクロッ
クサイクルに対して８つの演算実行ユニットタイムスロ
ットが経過する。これは、図３の１実行クロックサイク
ル（例えば、クロックサイクル１０）に対して５つの演
算実行ユニット命令しか実行されなくても、合計８つの
演算実行ユニットタイムスロットが経過することを数学
的に示すものである。したがって、これらのタイムスロ
ットの中の３つのタイムスロットは非使用とされ、その
クロックサイクル中に８つの演算実行ユニットの中の３
つはアイドルであるため無駄にされる。

【００６４】４式のもう１つの例として、図９の短い後
向き分岐ループが従来技術により処理されると（図９に
示すように本発明によるのではなく）、４式の結果は次
のようになる。ここでも、図９は８つの演算実行ユニッ
トを有するマイクロプロセッサを示している。しかしな
がら、短い後向き分岐ループは２本のキャッシュライン
内にあり、したがって、２クロックサイクルでフェッチ
される。したがって、４式を従来技術の短い後向き分岐
に適用すると、次式が得られる。

【数１２】ＥＵＴＳＩ＝ＮＥＵ^*ＣＦＩ＝８^*２＝１６したがって、１６の演算実行ユニットタイムスロットが
２クロックサイクルにわたって経過して短い後向き分岐
の１反復を実行する。これは、２実行クロックサイクル
にわたって僅か１０の演算実行ユニット命令しか実行さ
れなくても、合計１６の演算実行ユニットタイムスロッ
トが経過することを数学的に示すものである。したがっ
て、これらのタイムスロットの中の６つのタイムスロッ
トは非使用とされ、ループの１反復の実行の終わりまで
に無駄にされる。

【００６５】従来技術に較べて、前記した好ましい実施
例は、ループの１反復に対して、従来技術よりも少ない
演算実行ユニットタイムスロットを使用する方法で短い
後向き分岐を実行する能力を提供する構成および方法論
を表すものである。したがって、残りの演算実行ユニッ
トタイムスロットを使用してループのもう１つの反復の
一部もしくは全部を実行するのに使用することができ
る。後述するように、実施例では、短い後向き分岐ルー
プの反復に要する演算実行ユニットタイムスロット数、
ＥＵＴＳＩ_INV、は５式のように定義することができ
る。

【数１３】ここに、Ｌは短い後向き分岐ループ内の命令数、ＥＵＣ
は命令を実行するのに費やされる演算実行ユニット数
（すなわち、命令当たりの演算実行ユニット命令数）、
ＣＥは演算実行ユニット命令を実行するクロック数、し
たがって、ＣＥ_i, _jはループ内の第ｉ番命令に対応する
第ｊ番演算実行ユニット命令を実行するクロック数であ
る。５式のパラメータは、さらに、図５および図９に関
して行ったいくつかの仮定も説明するものである。例え
ば、ＥＵＣに関して、前の検討では各命令（デコードす
る前）は１つの演算実行ユニット命令（デコード後）に
対応するものと仮定した。したがって、各命令は実行す
るのに１つの演算実行ユニットしか費やさなかった。し
かしながら、ある命令は２つ（あるいはそれ以上の）演
算実行ユニット命令へデコードされ、したがって、実行
するのに対応する数の演算実行ユニットを費やすことが
ある。もう１つの例として、図５および図９は、演算実
行ユニット命令が実行ステージに達すると必ず次のクロ
ックサイクルで実行されることを暗示している。しかし
ながら、パイプラインストール、インターロック、もし
くは従来技術で周知の他のイベント等の場合に、演算実
行ユニット命令が実行される前に実際に遅延が生じ、さ
らに、ＣＥの値は特定の演算実行ユニット命令に依存す
ることがある。したがって、５式のパラメータＣＥはこ
のような遅延を調整することができる。例えば、所与の
演算実行ユニット命令にストールが生じて実行するのに
２クロックが必要になれば、５式はその反復中にこのよ
うなイベントを考慮する。いずれにせよ、短い後向き分
岐ループに対して、前記した回路およびオペレーション
方法により５式が４式のそれよりも少ない総タイムスロ
ット数を実現する場合には、本実施例に従って利点が実
現される。これをさらに明示するために、下記のように
図５に５式が適用される。

【数１４】ＥＵＴＳＩ_INV＝ＣＥ_1,1＋ＣＥ_2,1＋ＣＥ
_3,1＋ＣＥ_4,1＋ＣＥ_5,1＝１＋１＋１＋１＋１＝５すなわち、各命令ＣＥ₁−ＣＥ₅に対して、１つの演算
実行ユニット命令しかなく、これらの各演算実行ユニッ
ト命令に対して、図５では演算実行ユニット命令を実行
するのにクロックサイクルしか使用されないものと仮定
されている。したがって、前記したことから、５式を図
５に適用すると図５の短い後向き分岐ループの反復中に
必要な演算実行ユニットタイムスロットの平均数は僅か
５であることが明示される。しかしながら、図３のよう
な従来技術を使用して同じループを処理すると８つのこ
のようなタイムスロットが生じることを思い出して戴き
たい。したがって、本実施例は遥かに効率的である。別
の例として、５式は次のように図９へ適用される。

【数１５】ＥＵＴＳＩ_INV＝ＣＥ_1,1＋ＣＥ_2,1＋ＣＥ
_3,1＋ＣＥ_4,1＋ＣＥ_5,1＋ＣＥ_6,1＋ＣＥ_7,1＋ＣＥ
_8,1＋ＣＥ_9,1＋ＣＥ_10,1 ＝１＋１＋１＋１＋１＋１
＋１＋１＋１＋１＝１０前記したことから、５式を図９へ適用すると図９の短い
後向き分岐ループの反復中に必要な演算実行ユニットタ
イムスロットの平均数は僅か１０であることが明示さ
れ、同じループを従来技術を使用して処理すると４式か
ら１６のタイムスロットが使用される。したがって、こ
こでも、１反復に対して必要な演算実行ユニットタイム
スロットは少なくなる。

【００６６】５式の効果をさらに理解するために、最後
に２つの命令（すなわち、分岐とその目的のみ）を有す
る短い後向き分岐ループを仮定し、第１の命令は３つの
演算実行ユニット命令へデコードされ第２の命令は２つ
の演算実行ユニット命令へデコードされる。さらに、こ
の例において、対応する各演算実行ユニット命令を実行
するクロック数は下記の表１に示されたものとする。

【００６７】

【表１】

【００６８】したがって、５式を表１へ適用すると次式
が得られる。

【数１６】ＥＵＴＳＩ_INV＝（ＣＥ_1,1＋ＣＥ_1,2,＋ＣＥ_1,3）＋（ＣＥ_2,1＋ＣＥ_2,2）＝（１＋１＋２）＋（２＋３）＝９前記したことから、５式を表１のループへ適用すると前
記した本発明の装置および方法論により、短い後向き分
岐ループの反復中に平均数９の演算実行ユニットタイム
スロットを得られることが明示される。

【００６９】最後に、式４と式５の対比によりループの
１反復に対するオペレーションが明示される。しかしな
がら、同じループの多数の反復に対して、再び平均数を
計算して本実施例により得られる相対的な改善を明示す
ることができる。例えば、４式および図３は、命令当た
り１演算実行ユニット命令の最善のケースであっても、
ループの全反復に対して平均で３つのタイムスロットが
使用されないことを示唆している。もちろん、ストール
等の状況では、１反復に対して６つ以上の演算実行ユニ
ットが使用される場合があり、したがって、使用されな
い演算実行ユニットは２つ以下となる。しかしながら、
当業者ならば平均で少なくとも３つの演算実行ユニット
が使用されないことがお判りであろう。これに対して、
５式はループの１反復に対してより少数の演算実行ユニ
ットタイムスロットを使用することができる代案を明示
している。事実、ここでもループの全反復にわたる平均
のケースを考えると、あるクロックサイクルにおいて、
パラメータは、その反復に対して、反復を実行するのに
付加タイムスロットが使用されることを表示することが
できる。しかしながら、ループの全反復の平均をとり、
本実施例に従って処理すると、ループの全反復を完了す
るのに経過するタイムスロット数が少なくなる。

【００７０】短い後向き分岐ループを処理する好ましい
パイプラインオペレーションを明示してきたので、この
ようなオペレーションを実行するのに、ＳＢＢは最初に
パイプラインを通過して誤予測であると判った時に（あ
るいは、予測されずにＢＴＢ２８へのエントリが無い時
に）短い後向き分岐と確認されると説明したことを思い
出して戴きたい。好ましい実施例では、この確認はさま
ざまな方法で、ＳＢＢおよびＴＲ検出回路３８を単独で
あるいは実行ステージ２２に含まれる機能と組み合わせ
て使用して実行することができる。いずれにせよ、さま
ざまな確認の例を後述する。

【００７１】本実施例がＲＩＳＣマイクロプロセッサに
実施される場合には、ＳＢＢ検出はかなり直接的であ
り、各ＲＩＳＣ命令は１演算実行ユニット命令に対応す
る。最初に、図５のクロックサイクル５のように、分岐
命令はそれが誤予測されるかあるいはＢＴＢ２８へのエ
ントリが無い場合に最初に実行されることを思い出して
戴きたい。ここで、適切な演算実行ユニットの分岐処理
回路は前記した信号（すなわち、ＡＣＴＵＡＬＴＡＲ
ＧＥＴＡＤＤＲＥＳＳ，ＩＮＳＴＲＵＣＴＩＯＮＡ
ＤＤＲＥＳＳ，ＭＩＳＰＲＥＤＩＣＴＥＤ）で応答す
る。したがって、演算実行ユニットはそれ自体が目的命
令のアドレスだけでなく分岐命令のアドレスを入手する
ことができる。したがって、現在の分岐命令がＳＢＢ命
令であるかどうかを決定する２つの確認を行うことがで
きる。第１に、演算実行ユニットは目的アドレスが分岐
命令アドレスよりも小さいことを確認することができ、
そうであれば、分岐は後向き分岐である。第２に、演算
実行ユニットは目的アドレスを分岐命令アドレスから減
じることができる。次に、その結果をキュー３０内の記
憶セル数（例えば、図５の例では８、図９の例では１
２）と比較することができる。結果がキュー３０内の記
憶セル数よりも小さければ、分岐は短い後向き分岐であ
り、さもなくば分岐は後向き分岐であり、本実施例でそ
の用語が定義されているほど小さくはない。

【００７２】本実施例がＣＩＳＣマイクロプロセッサ
（すなわち、複雑なデコードを有するＲＩＳＣ）に実施
される場合にはＳＢＢ検出はより複雑となり、２つの技
術しか後述されていないが当業者ならば代替策が考えら
れるであろう。

【００７３】ＣＩＳＣマイクロプロセッサの第１のＳＢ
Ｂ検出技術では、シミュレーションや他の匹敵する解析
を実行してＩＳＡ命令当たりの演算実行ユニット命令の
平均数だけでなく、命令セットアーキテクチュア（“Ｉ
ＳＡ”）命令当たり平均バイト数Ｂを求めることができ
る。これらのパラメータが与えられると、キュー３０内
に格納できるＩＳＡ命令の平均数ＱＩが２式により求め
られる。

【００７４】

【数１７】ＱＩ＝（キュー３０内のセル数）÷Ｉ２式次に、１式の結果を使用してキュー３０内に格納されて
いるバイトの平均数ＱＢを３式に従って求めることがで
きる。

【００７５】

【数１８】ＱＢ＝ＱＩ^*Ｂ３式

【００７６】３式のＱＢの値（すなわち、キュー３０内
に格納できるバイトの平均数）が与えられると、前記し
たＲＩＳＣのケースのようなアドレス減算を再び使用す
ることができる。すなわち、目的アドレスが分岐アドレ
スから減じられて差Ｄが作り出される。アドレスはバイ
トによるため、Ｄはループ内に含まれるバイト総数を表
す。したがって、ＤがＱＢよりも小さければ、後向き分
岐は統計的に短い後向き分岐である可能性が高い。ま
た、前記パラメータは平均に基づいているため前記確認
は統計的近似にすぎない。したがって、平均を越える偏
差をさらに幾分含めるために、別の実施例ではＱＢの値
を、１．１程度の、ある因数だけ増加してＱＢとＤのあ
からさまな比較よりも多くのループを短い後向き分岐と
見なせるようにすることができる。ＱＢが増加されるか
どうかに無関係に、分岐が短い後向き分岐として検出さ
れると、ＳＢＢおよびＴＲ検出回路３８はＢＴＢ２８を
更新して現在の分岐命令がＳＢＢ命令であることを表示
し、前記したように、その後でＳＢＢおよびその対応す
るＴＲ命令にタグを付けることができる。

【００７７】前記したことから、２式および３式の計算
とそこからのＳＢＢの結論は平均に基づいていることに
再び注目願いたい。したがって、短い後向き分岐として
識別された分岐ループが実際にこのようなループよりも
大きい場合がある（すなわち、ループに対応する演算実
行ユニット命令がおびただしいためキュー３０のセル内
に適合しない）。したがって、好ましい実施例はさらに
前式および後述するステップに基づいて確認を検証する
付加ステップおよびハードウェアを含んでいる。

【００７８】前記したようにＢＴＢ２８が更新された後
で、パイプラインはＴＲ命令とそれに続く命令をフェッ
チすることを思い出して戴きたい。ここで、ＴＲ命令に
はＢＴＢ２８へのエントリによる短い後向き分岐ループ
のタグが付されてそのように識別される。次に、図５に
戻って、ＴＲ命令は次にデコードされキュー３０内に格
納されることを思い出して戴きたい。（ＳＢＢ命令目的
として必ずタグが付されている）ＴＲ命令がキュー３０
内に格納されると、本実施例はさらにその到来を検出す
る適切な回路を含み、さらに２つの確認を実行する。最
初に、対応するＳＢＢもキュー３０内にあるかどうかが
確認される。ある場合には、ＴＲおよびＳＢＢ演算実行
ユニット命令の両方がキュー３０内にあるため、定義に
よりループは短い後向き分岐ループである。その結果、
前式に基づいたＢＴＢ２８への早期のエントリは正確で
あり、図５（もしくは図９）に示すように方法が継続さ
れる。一方、対応するＳＢＢもキュー３０内になけれ
ば、キュー３０が満杯（すなわち、各キュー位置が有効
な情報を格納している）であるかどうかが確認される。
例えば、図９のクロックサイクル１１に戻って、ＴＲ命
令がキュー３０内に格納されているが、キュー３０はま
だ満杯ではない場合がある。このような場合、次のクロ
ックサイクルにおいて、現在の実行命令はパイプライン
１４に沿って継続することを許されるが、それらのコピ
ーもキュー３０内に保持される。その後の各サイクルに
対して、この解析は継続される、すなわち、ＳＢＢとＴ
Ｒ演算実行ユニット命令の両方がキュー３０内にあるか
どうかが確認され、なければ、キュー３０が満杯である
かどうかが確認される。したがって、ある点において、
キュー３０は演算実行ユニット命令で満たされる。例え
ば、図９において、これはクロックサイクル１２で起こ
る。ここで、再び、ＳＢＢおよびＴＲ演算実行ユニット
命令がキュー３０内にあれば、ループが短い後向き分岐
ループであるという前記確認は正確であり、前記したよ
うにそのループの処理を継続することができる。一方、
キュー３０が満杯であれば、ＳＢＢ演算実行ユニット命
令はキュー３０内にはないことが確認され、次に現在ル
ープの定義により、短い後向き分岐ループとして識別さ
れてはいるが、実際にはそのようなループではない。そ
れに応答して、２つのアクションがとられる。最初に、
分岐命令がＳＢＢ命令であることを示すＢＴＢ２８への
エントリが、短い後向き分岐命令を示さないように修正
される。第２に、キュー３０内に保持されこの確認が保
留されかつそれに対してコピーが既に後続パイプライン
ステージへ通されている演算実行ユニット命令につい
て、それらは無効とされ後続パイプラインステージへま
だ通されていない連続する次の命令が適切な順序でパイ
プラインに沿って進行できるようにされる。

【００７９】ＣＩＣＳマイクロプロセッサの第２のＳＢ
Ｂ検出技術では、式および比較だけでなく前記した平均
も使用されない。替わりに、フェッチされた各後向き分
岐命令に対して、最初にＢＴＢ２８内でＳＢＢ命令とし
て指示される。次に、前節で説明したようにフローが継
続される、すなわち、分岐の目的に対応する演算実行ユ
ニット命令のキュー３０への到来が検出される。その
後、ＳＢＢがキュー３０内に格納されるのはキュー３０
が満杯とされるクロックサイクルよりも前すなわち後で
はないかどうかが確認される。ここでも、目的およ分岐
演算実行ユニット命令の両方が同時にキュー３０内に格
納される場合には、ＢＴＢ２８内の表示は正確であるこ
とが確認され、さもなくば表示は不正確で前記したよう
に修正される。その後、この方法は前記したように継続
される、すなわち、ループが短い後向き分岐であれば発
明の方法で進められ、ループが長い後向き分岐を表す場
合には従来技術のように進められる。

【００８０】前記したことから、当業者ならば本実施例
のさまざまな利点を理解できるであろう。例えば、さま
ざまな実施例に従ったマイクロプロセッサが短い後向き
分岐ループの２回以上の反復を１実行サイクルで実行す
ることができ、あるいは短い後向き分岐ループのさまざ
まな反復の部分に対応する命令を１サイクルで実行する
ことができる。その結果、短い後向き分岐を実行する場
合、各実行中に従来技術よりも多くの演算実行ユニット
が使用される。もう１つの利点として、当業者ならばさ
まざまな構成を使用して前記した機能を実施することが
できる。もう１つの利点として、当業者ならば前記した
機能を達成しながら本実施例を修正することができる。
例えば、８つの演算実行ユニットを有するマイクロプロ
セッサを開示したが、前記したようにこの数は増減する
ことができる。もう１つの例として、短い後向き分岐ル
ープの長さについて定めた前記定義はこのようなループ
内の演算実行ユニット命令数も変化できることを明示し
ている。事実、演算実行ユニット数の多いマイクロプロ
セッサおよび／もしくは演算実行ユニット命令数の少な
い短い後向き分岐ループに対して、そのループの２回以
上の反復を１クロックサイクルで実行することができ
る。本発明のシステムのその他の利点についても説明し
てきたが、それらは発明の範囲内に含まれるさまざまな
実施例を明示するものである。当業者ならば、さらに他
の例も確認できるであろう。したがって、実施例につい
て詳細に説明してきたが、これらの利点および例は、前
記説明をさまざまに置換、修正もしくは変更できること
を明示するものであり、それらは全て特許請求の範囲に
明記された発明の範囲の柔軟性を示すものである。

【００８１】以上の説明に関して更に以下の項を開示す
る。（１）マイクロプロセッサの動作方法であって、該方法
は、命令の短い後向き分岐ループをフェッチするステッ
プであって、命令の前記短い後向き分岐ループは分岐命
令および目的命令からなり、命令の前記短い後向き分岐
ループは演算実行ユニット命令の対応する短い後向き分
岐ループを有する前記ステップと、前記短い後向き分岐
命令が命令の前記短い後向き分岐ループをフェッチする
前記ステップの後の短い後向き分岐命令であることを確
認するステップと、前記フェッチングステップの後で命
令の前記短い後向き分岐ループを再フェッチすることな
く、演算実行ユニット命令の前記短い後向き分岐ループ
の複数の反復を複数のクロックサイクルにわたって実行
するステップと、を含み、前記実行ステップは、前記複
数のクロックサイクルのいくつかに、前記複数の反復の
最初の反復に対応する前記演算実行ユニット命令の第１
セットを実行するステップと、前記複数の反復の第２の
反復に対応する前記演算実行ユニット命令の第２セット
を実行するステップと、を含み、前記第２の反復は前記
第１の反復にすぐ続く、マイクロプロセッサの動作方
法。

【００８２】（２）第１項記載の方法であって、さら
に、演算実行ユニット命令の前記短い後向き分岐ループ
を格納するステップを含み、前記格納ステップは、前記
実行ステップの前に、演算実行ユニット命令の前記短い
後向き分岐ループを整数Ｑの記憶セルを有するキュー内
へ格納するステップを含み、演算実行ユニット命令の前
記短い後向き分岐ループは整数Ｌの演算実行ユニット命
令を有し、前記整数Ｌは前記整数Ｑよりも小さい、方
法。

【００８３】（３）第１項記載の方法であって、命令の
前記短い後向き分岐ループをフェッチする前記ステップ
は、ｃｏｍｐｌｅｘｉｎｓｔｒｕｃｔｉｏｎｓｅｔ
アーキテクチュア命令をフェッチするステップを含む、
方法。

【００８４】（４）第３項記載の方法であって、前記演
算実行ユニット命令は前記命令セットアーキテクチュア
命令とは異なる、方法。

【００８５】（５）第１項記載の方法であって、命令の
前記短い後向き分岐ループをフェッチする前記ステップ
は、ｒｅｄｕｃｅｄｉｎｓｔｒｃｔｉｏｎｓｅｔア
ーキテクチュア命令をフェッチするステップを含む、方
法。

【００８６】（６）第５項記載の方法であって、前記演
算実行ユニット命令は前記命令セットアーキテクチュア
命令と同じである、方法。

【００８７】（７）第１項記載の方法であって、さら
に、命令の前記短い後向き分岐ループをデコードして演
算実行ユニット命令の前記短い後向き分岐ループを形成
するステップを含む、方法。

【００８８】（８）第１項記載の方法であって、命令の
短い後向き分岐ループをフェッチする前記ステップは、
さらに、命令の前記短い後向き分岐ループを第１のクロ
ックサイクルでフェッチするステップと、前記第１のク
ロックサイクルで、前記分岐命令の後で逐次的に方向づ
けされた付加命令をフェッチするステップと、前記第１
のクロックサイクルのすぐ後の第２のクロックサイクル
で、前記付加命令のすぐ後で逐次的に方向づけされた第
２群の命令をフェッチするステップと、を含む、方法。

【００８９】（９）第８項記載の方法であって、前記複
数の反復を実行するステップは、第３のクロックサイク
ルで、前記短い後向き分岐ループの最後の反復を実行す
るステップと、さらに、前記第３のクロックサイクルの
後のクロックサイクルで、前記第２群の命令の少なくと
も１つの命令に対応する少なくとも１つの演算実行ユニ
ット命令を再フェッチすることなく実行するステップ
と、を含む、方法。

【００９０】（１０）第１項記載の方法であって、前記
短い後向き分岐ループは整数Ｌの前記演算実行ユニット
命令を有し、前記マイクロプロセッサは前記実行ステッ
プを実行する整数Ｅの演算実行ユニットを含み、前記整
数Ｌは前記整数Ｅよりも小さい、方法。

【００９１】（１１）第１項記載の方法であって、前記
短い後向き分岐ループは整数Ｌの前記演算実行ユニット
命令を有し、前記マイクロプロセッサは前記実行ステッ
プを実行する整数Ｅの演算実行ユニットを含み、前記整
数Ｌは前記整数Ｅよりも大きい、方法。

【００９２】（１２）第１項記載の方法であって、さら
に、演算実行ユニット命令の前記短い後向き分岐ループ
を格納するステップを含み、前記格納ステップは、前記
実行ステップの前に、演算実行ユニット命令の前記短い
後向き分岐ループを整数Ｑの記憶セルを有するキュー内
へ格納するステップを含み、前記実行ステップの前に、
さらに、演算実行ユニット命令の前記短い後向き分岐ル
ープを前記キューからスケジュール回路へ巡回式に送る
ステップを含む、方法。

【００９３】（１３）第１２項記載の方法であって、さ
らに、前記実行ステップの前に、演算実行ユニット命令
の前記短い後向き分岐ループをスケジュールして実行す
るステップを含む、方法。

【００９４】（１４）マイクロプロセッサの動作方法で
あって、該方法は、命令の短い後向き分岐ループをフェ
ッチするステップであって、前記短い後向き分岐ループ
は分岐命令および目的命令からなり、命令の前記短い後
向き分岐ループは演算実行ユニット命令の対応する短い
後向き分岐ループを有する前記ステップと、前記短い後
向き分岐命令が命令の前記短い後向き分岐ループをフェ
ッチする前記ステップの後の短い後向き分岐命令である
ことを確認するフェッチステップと、演算実行ユニット
命令の前記短い後向き分岐ループを格納するステップで
あって、前記短い後向き分岐ループは分岐演算実行ユニ
ット命令および目的演算実行ユニット命令を含む整数Ｌ
の演算実行ユニット命令を有し、演算実行ユニット命令
の前記短い後向き分岐ループを整数Ｑの記憶セルを有す
るキュー内へ格納するステップを含む前記格納ステップ
と、演算実行ユニット命令の前記短い後向き分岐ループ
を前記キューからスケジュール回路へ巡回式に通信する
ステップと、前記格納ステップおよび前記通信ステップ
の後で命令の前記短い後向き分岐ループを再フェッチす
ることなく、演算実行ユニット命令の前記短い後向き分
岐ループの複数の反復を複数のクロックサイクルにわた
って実行するステップと、を含み、前記実行ステップ
は、前記複数のクロックサイクルのいくつかに、前記複
数の反復の最初の反復に対応する前記演算実行ユニット
命令の第１セットを実行するステップと、前記複数の反
復の第２の反復に対応する前記演算実行ユニット命令の
第２セットを実行するステップと、を含み、前記第２の
反復は前記第１の反復にすぐ続く、マイクロプロセッサ
の動作方法。

【００９５】（１５）第１４項記載の方法であって、命
令の前記短い後向き分岐ループをフェッチする前記ステ
ップは、ｃｏｍｐｌｅｘｉｎｓｔｒｕｃｔｉｏｎｓ
ｅｔアーキテクチュア命令をフェッチするステップを含
む、方法。

【００９６】（１６）第１５項記載の方法であって、前
記演算実行ユニット命令は前記命令セットアーキテクチ
ュア命令とは異なる、方法。

【００９７】（１７）第１４項記載の方法であって、命
令の前記短い後向き分岐ループをフェッチする前記ステ
ップは、ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔｉｏｎｓ
ｅｔアーキテクチュア命令をフェッチするステップを含
む、方法。

【００９８】（１８）第１７項記載の方法であって、前
記演算実行ユニット命令は前記命令セットアーキテクチ
ュア命令と同じである、方法。

【００９９】（１９）第１４項記載の方法であって、命
令の短い後向き分岐ループをフェッチする前記ステップ
は、さらに、命令の前記短い後向き分岐ループを第１の
クロックサイクルでフェッチするステップと、前記第１
のクロックサイクルで、前記分岐命令の後で逐次的に方
向づけされた付加命令をフェッチするステップと、前記
第１のクロックサイクルのすぐ後の第２のクロックサイ
クルで、前記付加命令のすぐ後に逐次的に方向づけされ
た第２群の命令をフェッチするステップと、を含む、方
法。

【０１００】（２０）第１９項記載の方法であって、前
記複数の反復を実行する前記ステップは、第３のクロッ
クサイクルで、前記短い後向き分岐ループの最後の反復
を実行するステップと、さらに、前記第３のクロックサ
イクルの後のクロックサイクルで、前記第２群の命令の
少なくとも１つの命令に対応する少なくとも１つの演算
実行ユニット命令を再フェッチすることなく実行するス
テップと、を含む、方法。

【０１０１】（２１）マイクロプロセッサの動作方法で
あって、該方法は、命令の短い後向き分岐ループを１以
上の整数Ｃのクロックサイクルにわたってフェッチする
ステップであって、前記短い後向き分岐ループは分岐命
令および目的命令からなり、命令の前記短い後向き分岐
ループは演算実行ユニット命令の対応する短い後向き分
岐ループを有する前記ステップと、前記短い後向き分岐
命令が命令の前記短い後向き分岐ループをフェッチする
前記ステップの後の短い後向き分岐命令であることを確
認するステップと、演算実行ユニットの前記短い後向き
分岐ループの複数の反復を複数のクロックサイクルにわ
たって実行するステップであって、前記マイクロプロセ
ッサは前記実行ステップを実行する整数Ｅの演算実行ユ
ニットを含み、前記複数のクロックサイクルの各サイク
ル中に前記各演算実行ユニットに対して演算実行ユニッ
トタイムスロットが定義される前記実行ステップと、を
含み、前記複数の反復の各々を実行する前記演算実行ユ
ニットタイムスロットの平均数は前記整数Ｃと前記整数
Ｅの積よりも小さい、方法。

【０１０２】（２２）第２１項記載の方法であって、さ
らに、演算実行ユニット命令の前記短い後向き分岐ルー
プを格納するステップを含み、前記格納ステップは、前
記実行ステップの前に、前記短い後向き分岐ループを整
数Ｑの記憶セルを有するキュー内へ格納するステップを
含み、前記短い後向き分岐ループは整数Ｌの演算実行ユ
ニット命令を有し、前記整数Ｌは前記整数Ｑよりも小さ
い、方法。

【０１０３】（２３）第２１項記載の方法であって、命
令の前記短い後向き分岐ループをフェッチする前記ステ
ップは、ｃｏｍｐｌｅｘｉｎｓｔｒｕｃｔｉｏｎｓ
ｅｔアーキテクチュア命令をフェッチするステップを含
む、方法。

【０１０４】（２４）第２３項記載の方法であって、前
記演算実行ユニット命令は前記命令セットアーキテクチ
ュア命令とは異なる、方法。

【０１０５】（２５）第２１項記載の方法であって、命
令の前記短い後向き分岐ループをフェッチする前記ステ
ップは、ｒｅｄｕｃｅｄｉｎｓｔｒｃｔｉｏｎｓｅ
ｔアーキテクチュア命令をフェッチするステップを含
む、方法。

【０１０６】（２６）第２５項記載の方法であって、前
記演算実行ユニット命令は前記命令セットアーキテクチ
ュア命令と同じである、方法。

【０１０７】（２７）第２１項記載の方法であって、さ
らに、命令の前記短い後向き分岐ループをデコードして
演算実行ユニット命令の前記短い後向き分岐ループを形
成するステップを含む、方法。

【０１０８】（２８）第２１項記載の方法であって、命
令の短い後向き分岐ループをフェッチする前記ステップ
は、さらに、命令の前記短い後向き分岐ループを第１の
クロックサイクルでフェッチするステップと、前記第１
のクロックサイクルで、前記分岐命令の後に逐次的に方
向づけされた付加命令をフェッチするステップと、前記
第１のクロックサイクルのすぐ後の第２のクロックサイ
クルで、前記付加命令のすぐ後に逐次的に方向づけされ
た第２群の命令をフェッチするステップと、を含む、方
法。

【０１０９】（２９）第２８項記載の方法であって、前
記複数の反復を実行する前記ステップは、第３のクロッ
クサイクルで、前記短い後向き分岐ループの最後の反復
を実行するステップを含み、さらに、前記第３のクロッ
クサイクルの後のクロックサイクルで、前記第２群の命
令の少なくとも１つの命令に対応する少なくとも１つの
演算実行ユニット命令を再フェッチすることなく実行す
るステップと、を含む、方法。

【０１１０】（３０）第２１項記載の方法であって、前
記短い後向き分岐ループは整数Ｌの演算実行ユニット命
令を有し、前記整数Ｌは前記整数Ｅよりも小さい、方
法。

【０１１１】（３１）第２１項記載の方法であって、前
記短い後向き分岐ループは整数Ｌの前記演算実行ユニッ
ト命令を有し、前記整数Ｌは前記整数Ｅよりも大きい、
方法。

【０１１２】（３２）第２１項記載の方法であって、さ
らに、演算実行ユニット命令の前記短い後向き分岐ルー
プを格納するステップを含み、前記格納ステップは、前
記実行ステップの前に、前記短い後向き分岐ループを整
数Ｑの記憶セルを有するキュー内へ格納するステップを
含み、前記実行ステップの前に、さらに、演算実行ユニ
ット命令の前記短い後向き分岐ループを前記キューから
スケジュール回路へ巡回式に送るステップを含む、方
法。

【０１１３】（３３）第２１項記載の方法であって、さ
らに、前記実行ステップの前に、演算実行ユニット命令
の前記短い後向き分岐ループをスケジュールして実行す
るステップを含む、方法。

【０１１４】（３４）マイクロプロセッサであって、該
マイクロプロセッサは、命令の前記短い後向き分岐ルー
プをフェッチする回路であって、前記短い後向き分岐ル
ープは分岐命令および目的命令からなり命令の前記短い
後向き分岐ループは演算実行ユニット命令の対応する短
い後向き分岐ループを有する前記回路と、前記短い後向
き分岐命令が命令の前記短い後向き分岐ループをフェッ
チした後の短い後向き分岐命令であることを確認する回
路と、演算実行ユニット命令の前記短い後向き分岐ルー
プを格納した後で前記短い後向き分岐ループを再フェッ
チすることなく、演算実行ユニット命令の前記短い後向
き分岐ループの複数の反復を複数のクロックサイクルに
わたって実行する回路と、を含み、前記実行回路は、前
記複数のクロックサイクルのいくつかに、前記複数の反
復の第１の反復に対応する前記演算実行ユニット命令の
第１セットを実行する回路と、前記複数の反復の第２の
反復に対応する前記演算実行ユニット命令の第２セット
を実行する回路と、を含み、前記第２の反復は前記第１
の反復にすぐ続く、マイクロプロセッサ。

【０１１５】（３５）第３４項記載のマイクロプロセッ
サであって、さらに、演算実行ユニット命令の前記短い
後向き分岐ループを格納する回路を含み、前記格納回路
は整数Ｑの記憶セルを有するキューを含み、前記短い後
向き分岐ループは整数Ｌの演算実行ユニット命令を有
し、前記整数Ｌは前記整数Ｑよりも小さい、マイクロプ
ロセッサ。

【０１１６】（３６）第３４項記載のマイクロプロセッ
サであって、命令の前記短い後向き分岐ループをフェッ
チする前記回路は、ｃｏｍｐｌｅｘｉｎｓｔｒｕｃｔ
ｉｏｎｓｅｔアーキテクチュア命令をフェッチする回
路を含む、マイクロプロセッサ。

【０１１７】（３７）第３６項記載のマイクロプロセッ
サであって、前記演算実行ユニット命令は前記命令セッ
トアーキテクチュア命令とは異なる、マイクロプロセッ
サ。

【０１１８】（３８）第３４項記載のマイクロプロセッ
サであって、命令の前記短い後向き分岐ループをフェッ
チする前記回路は、ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔ
ｉｏｎｓｅｔアーキテクチュア命令をフェッチする回
路を含む、マイクロプロセッサ。

【０１１９】（３９）第３８項記載のマイクロプロセッ
サであって、前記演算実行ユニット命令は前記命令セッ
トアーキテクチュア命令と同じである、マイクロプロセ
ッサ。

【０１２０】（４０）第３４項記載のマイクロプロセッ
サであって、さらに、命令の前記短い後向き分岐ループ
をデコードして演算実行ユニット命令の前記短い後向き
分岐ループを形成する回路を含む、マイクロプロセッ
サ。

【０１２１】（４１）第３４項記載のマイクロプロセッ
サであって、命令の前記短い後向き分岐ループをフェッ
チする前記回路は、命令の前記短い後向き分岐ループを
第１のクロックサイクルでフェッチし、さらに、前記第
１のクロックサイクルで、前記分岐命令の後に逐次的に
方向づけられた付加命令をフェッチし、前記フェッチ回
路は、さらに、前記第１のクロックサイクルの後の第２
のクロックサイクルで、前記分岐命令のすぐ後に逐次的
に方向づけられた第２群の命令をフェッチする、マイク
ロプロセッサ。

【０１２２】（４２）第４１項記載のマイクロプロセッ
サであって、前記複数の反復を実行する前記回路は、前
記短い後向き分岐ループの最後の反復を第３のクロック
サイクルで実行し、前記第３のクロックサイクルの後の
クロックサイクルで、前記実行回路は、さらに、前記第
２群の命令の少なくとも１つの命令に対応する少なくと
も１つの演算実行ユニット命令を再フェッチすることな
く実行する、マイクロプロセッサ。

【０１２３】（４３）第３４項記載のマイクロプロセッ
サであって、さらに、演算実行ユニット命令の前記短い
後向き分岐ループを格納する回路を含み、前記格納回路
は、整数Ｑの記憶セルを有するキューを含み、さらに、
前記実行回路による演算実行ユニット命令の前記短い後
向き分岐ループの前記複数の反復を実行する前に、演算
実行ユニット命令の前記短い後向き分岐ループを前記キ
ューからスケジュール回路へ巡回式に送る前記回路を含
む、マイクロプロセッサ。

【０１２４】（４４）マイクロプロセッサであって、該
マイクロプロセッサは、命令の短い後向き分岐ループを
１以上の整数Ｃのクロックサイクルにわたってフェッチ
する回路であって、前記短い後向き分岐ループは分岐命
令および目的命令からなり、命令の前記短い後向き分岐
ループは演算実行ユニット命令の対応する短い後向き分
岐ループを有する前記回路と、命令の前記短い後向き分
岐命令が前記フェッチ回路によりフェッチされた後で、
前記短い後向き分岐命令が短い後向き分岐命令であるこ
とを確認する回路と、演算実行ユニット命令の前記短い
後向き分岐ループを格納する回路と、演算実行ユニット
命令の前記短い後向き分岐ループの複数の反復を複数の
クロックサイクルにわたって実行する回路であって、前
記実行回路は前記複数のクロックサイクルの各サイクル
中に前記各演算実行ユニットに対して演算実行ユニット
タイムスロットが定義されるように実行する整数Ｅの演
算実行ユニットを含み、前記複数の反復の各々を実行す
る前記演算実行ユニットタイムスロットの平均数は前記
整数Ｃと前記整数Ｅの積よりも小さい、マイクロプロセ
ッサ。

【０１２５】（４５）好ましい実施例の方法では、本方
法によりマイクロプロセッサ３６が作動される。本方法
は、命令の短い後向き分岐ループ３４をフェッチし１
４、短い後向き分岐ループは分岐命令ＳＳＢおよび目的
命令ＴＲからなっている。また、本方法により、短い後
向き分岐命令がフェッチした後の短い後向き分岐命令で
あることが確認される。さらに、本方法により演算実行
ユニット命令の短い後向き分岐ループが格納される３
０。この短い後向き分岐ループは分岐演算実行ユニット
命令ＳＳＢおよび目的演算実行ユニット命令ＴＲを含ん
でいる。さらに、格納ステップの後で短い後向き分岐ル
ープを再フェッチすることなく、本方法により演算実行
ユニット命令の短い後向き分岐ループの複数の反復が複
数のクロックサイクルにわたって実行される２２。さら
に、複数のクロックサイクルのいくつか（クロックサイ
クル１０）に対して、実行ステップが第１の反復に対応
する演算実行ユニット命令の第１セットと第２の反復に
対応する演算実行ユニット命令の第２セットの両方を実
行し、第２の反復は第１の反復にすぐ続く。

【図面の簡単な説明】

【図１】短い後向き分岐命令ループをより効率的に処理
するように修正することができるマイクロプロセッサパ
イプラインを示す図。

【図２】短い後向き分岐命令ループを含む命令シーケン
スを示す図。

【図３】図１の命令パイプラインを通る短い後向き分岐
命令シーケンスのタイミング図。

【図４】本発明の実施例に従って短い後向き分岐命令ル
ープをより効率的に処理するように修正した図１のマイ
クロプロセッサパイプラインを示す図。

【図５】シーケンスが演算実行ユニット数よりも少数の
命令を含む、図４の命令パイプラインを通る短い後向き
分岐命令シーケンスのタイミング図。

【図６】短い後向き分岐命令を図４のキュー３０からス
ケジュールステージ１８へ与えるキュー回路の模式図。

【図７】図５のクロックサイクル８中に、スケジュール
ステージ１８へループ命令を与えてスケジュールした後
の図６の模式図。

【図８】図５のクロックサイクル９中に、スケジュール
ステージ１８へループ命令を与えてスケジュールした後
の図６の模式図。

【図９】キューが演算実行ユニット数よりも多い命令を
含む、図４の命令パイプラインを通る短い後向き分岐命
令シーケンスのタイミング図。

【符号の説明】

１０，３６命令処理システム１２パイプライン１４命令フェッチステージ１６デコードステージ１８スケジュールステージ２０オペランド読取りステージ２２実行ステージ２４段階分け／ライトバックステージ２６命令キャッシュ回路２８分岐目的バッファ３０キュー３２命令ストリーム３４ループ３８ＳＳＢおよびＴＲ命令検出回路４２ａ−４２ｈ記憶セル４４ａ−４４ｈマルチプレクサ４６制御回路

Claims

【特許請求の範囲】

【請求項１】マイクロプロセッサの動作方法であっ
て、該方法は、命令の短い後向き分岐ループをフェッチ
するステップであって、命令の前記短い後向き分岐ルー
プは分岐命令および目的命令からなり、命令の前記短い
後向き分岐ループは演算実行ユニット命令の対応する短
い後向き分岐ループを有するフェッチステップと、前記
短い後向き分岐命令が命令の前記短い後向き分岐ループ
をフェッチする前記ステップの後の短い後向き分岐命令
であることを確認するステップと、前記フェッチングス
テップの後で命令の前記短い後向き分岐ループを再フェ
ッチすることなく、演算実行ユニット命令の前記短い後
向き分岐ループの複数の反復を複数のクロックサイクル
にわたって実行するステップと、を含み、前記実行ステ
ップは、前記複数のクロックサイクルのいくつかに、前
記複数の反復の最初の反復に対応する前記演算実行ユニ
ット命令の第１セットを実行するステップと、前記複数
の反復の第２の反復に対応する前記演算実行ユニット命
令の第２セットを実行するステップと、を含み、前記第
２の反復は前記第１の反復にすぐ続く、マイクロプロセ
ッサの動作方法。
【請求項２】マイクロプロセッサであって、該マイク
ロプロセッサは、命令の短い後向き分岐ループをフェッ
チする回路であって、前記短い後向き分岐ループは分岐
命令および目的命令からなり、命令の前記短い後向き分
岐ループは演算実行ユニット命令の対応する短い後向き
分岐ループを有する前記フェッチ回路と、前記短い後向
き分岐命令が命令の前記短い後向き分岐ループをフェッ
チした後の短い後向き分岐命令であることを確認するス
テップと、演算実行ユニット命令の前記短い後向き分岐
ループを格納した後で前記短い後向き分岐ループを再フ
ェッチすることなく、演算実行ユニット命令の前記短い
後向き分岐ループの複数の反復を複数のクロックサイク
ルにわたって実行する回路と、を含み、前記実行回路
は、前記複数のクロックサイクルのいくつかに、前記複
数の反復の最初の反復に対応する前記実行ユニット命令
の第１セットを実行する回路と、前記複数の反復の第２
の反復に対応する前記実行ユニット命令の第２セットを
実行する回路と、を含み、前記第２の反復は前記第１の
反復にすぐ続く、マイクロプロセッサ。