JP3498673B2

JP3498673B2 - 記憶装置

Info

Publication number: JP3498673B2
Application number: JP2000103567A
Authority: JP
Inventors: 充文柴山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-04-05
Filing date: 2000-04-05
Publication date: 2004-02-16
Anticipated expiration: 2020-04-05
Also published as: US20010029571A1; JP2001290702A; US6678789B2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ストアバッファ及
びキャッシュメモリを備えた記憶装置に係り、特に高性
能化・低消費電力化を図った記憶装置に関する。

【０００２】

【従来の技術】従来、マイクロプロセッサにおいて、大
容量であるが低速である主記憶へのデータアクセスを高
速化するため、小容量であるが高速であるキャッシュメ
モリによりデータアクセスのレイテンシを隠蔽する技術
が広く使われている。特に近年においては、マイクロプ
ロセッサの処理速度と主記憶等のチップ外部における処
理速度の差が次第に顕著になり、プロセッサ内に益々大
容量のキャッシュメモリを搭載する傾向が高まってい
る。

【０００３】また、マルチメディア処理に代表される多
量のデータを消費するプログラムでは、キャッシュメモ
リは一度に多量のデータを供給することが求められてい
るため、多ポートのキャッシュメモリを備え、複数のロ
ード命令やストア命令のアクセスを同時に処理したり、
ロード命令やストア命令によるアクセスと主記憶とキャ
ッシュメモリ間のデータ転送を同時に処理することを可
能にしたマイクロプロセッサも増えている。このような
多ポートのキャッシュメモリを実現する場合、メモリセ
ル自体を多ポートにするとレイアウト面積上のコストが
大きい。このため、通常はキャッシュメモリを更に小さ
い単位であるバンクに分割し、バンク毎にアクセスを処
理するバンク・インターリーブ方式が採用されている。
この場合、異なるバンクへのアクセスは同時に処理する
ことが可能となる。

【０００４】通常、上述のようなキャッシュメモリに対
してロード命令が発行された場合には、キャッシュタグ
の読み出し及びヒット判定と、キャッシュデータの読み
出しとが平行に行われるため、単一のパイプライン・ス
テージで処理が完了する。一方、ストア命令が発行され
た場合には、キャッシュタグの読み出し及びヒット判定
を行って、書き込みの可否及び書き込みを行うキャッシ
ュ・ウェイを決定した後、実際にデータを書き込むこと
となる。このため、ストア命令では、ロード命令よりも
処理に時間がかかり、一般に２つ以上のパイプライン・
ステージが必要となる。この結果、ストア命令とロード
命令とが連続して発行された場合には、キャッシュメモ
リへのアクセスのパイプライン・タイミングが合わない
ため処理速度が低下してしまう。

【０００５】上記問題を解消するために、キャッシュメ
モリとともにストアバッファと呼ばれるストア命令によ
るストアデータを格納するバッファを備えたマイクロプ
ロセッサがある。このストアバッファを備えたマイクロ
プロセッサにおいては、ストア命令によるストアデータ
を一旦ストアバッファに格納し、ストアバッファからキ
ャッシュメモリへ書き込みを行うため、ロード命令とス
トア命令のパイプライン上のタイミング調整が可能とな
り、ストア命令に対しても処理速度を確保できる。

【０００６】また、上述のストアバッファを備えたマイ
クロプロセッサにおいては、分岐命令などによる投機的
なストア命令に対しても効果を奏する。例えば、近年で
は分岐命令に対してパイプライン動作を円滑に実行する
ために、分岐予測機構に基づく命令の投機実行が広く行
われるようになった。この分岐予測機構では、分岐先を
予測し、分岐先アドレスが決定する前に予測した分岐先
の命令を投機的に実行する。

【０００７】この場合、分岐の予測が失敗した際には投
機的に実行した命令を取り消す必要がある。しかしなが
らキャッシュメモリに書き込まれたストア命令の結果を
取り消すのは容易でなかった。これに対し、ストアバッ
ファに書き込まれたストア命令の結果を取り消すのは容
易である。したがって、投機的なストア命令によるスト
アデータは一旦ストアバッファに格納し、分岐予測が成
功したことが確定した後、ストアバッファからキャッシ
ュメモリに書き込みを行い、分岐予測が失敗した場合に
は、ストアバッファ上で投機的なストア命令によるスト
アデータの取り消しを行えばよい。これにより、分岐先
が確定する前に分岐先を予測し、ストア命令を含めた予
測された分岐先の命令を投機的に実行することが可能と
なる。

【０００８】また、ストアバッファに格納されるストア
データは最新のデータである。このため、後続の同じア
ドレスに対するロード命令は、主記憶やキャッシュメモ
リではなく、ストアバッファからそのデータを読み出す
ことが可能となる。通常ストアバッファはストアバッフ
ァに格納されたストアデータを後続のロード命令に提供
する機構を備える。また、同じアドレスに対するストア
命令が複数発行された場合、ストアバッファでは先行す
るストア命令のストアデータが、後続のストア命令のス
トアデータを破壊しないように保障する必要がある。こ
のため、通常ストアバッファは先入れ先出し（ＦＩＦ
Ｏ）バッファにより実現し、先に発行されたストア命令
のストアデータから順にキャッシュメモリへ書き込みを
行うように制御される。なお、ストアバッファについて
は例えば特開平６−３０１６００号公報や特開平８−３
６４９１号公報に開示されている。

【０００９】

【発明が解決しようとする課題】上述したように携帯情
報端末等の用途等、マイクロプロセッサに対して消費電
力削減の要求が益々強くなる一方、動作周波数の向上や
キャッシュメモリの大容量化・多ポート化などのため
に、マイクロプロセッサの消費電力におけるキャッシュ
メモリの割合が大きくなっているという問題がある。

【００１０】また、キャッシュメモリのポート数よりも
同時に発生するキャッシュメモリへのアクセス要求数が
多い場合にはポート競合が発生し、いずれかのアクセス
はポートが空くまで待たせる必要があるため、その分だ
け処理性能が低下するという問題があった。また、多ポ
ートのキャッシュメモリをバンク・インターリーブ方式
で実現する場合においては、同じバンクに同時にアクセ
スしようとするいわゆるバンク競合が発生すると、アク
セス処理を１つずつ順に処理する必要があるため、その
分だけ処理性能が低下するという問題があった。

【００１１】本発明はこのような事情に鑑みてなされた
もので、キャッシュメモリにおける電力消費を低減する
とともに、ポート競合及びバンク競合の発生率を低下さ
せることにより処理能力の低下を低減させた記憶装置を
提供することを目的とする。

【００１２】

【課題を解決するための手段】上記目的を達成するため
に、本発明では、キャッシュメモリあるいは主記憶への
ストアデータを一時的に保持するストアバッファを備え
た記憶装置において、ロード命令により該キャッシュメ
モリからロードデータを読み出した場合には、該ロード
データを該ストアバッファに格納し、前記ロード命令に
より前記キャッシュメモリから読み出したロードデータ
を前記ストアバッファに格納する際に、前記ストアバッ
ファ中に空きエントリが存在する場合には、該空きエン
トリに前記ロード命令によるロードデータを格納し、前
記ストアバッファ中に空きエントリが存在せず、かつ前
記ストアバッファ中にロードデータが格納されているエ
ントリが存在する場合には、該エントリのいずれか１つ
に前記ロード命令によるロードデータを格納し、前記ス
トアバッファ中に空きエントリが存在せず、かつ前記ス
トアバッファ中にロードデータが格納されているエント
リも存在しない場合には、前記ロード命令によるロード
データを前記ストアバッファへ格納しないことを特徴と
する。

【００１３】

【００１４】また、請求項２に記載の発明は、キャッ
シュメモリあるいは主記憶へのストアデータを一時的に
保持するストアバッファを備えた記憶装置において、ロ
ード命令により該キャッシュメモリからロードデータを
読み出した場合には、該ロードデータを該ストアバッフ
ァに格納し、前記ストアバッファにストア命令によるス
トアデータを格納する際に、前記ストアバッファ中に該
ストア命令の対象アドレスと同一のアドレスのストアデ
ータまたはロードデータが格納されているエントリが存
在する場合、該エントリに前記ストア命令によるストア
データを格納し、前記ストアバッファ中に前記ストア命
令の対象アドレスと同一のアドレスのストアデータまた
はロードデータが格納されているエントリが存在せず、
かつ前記ストアバッファ中に空きエントリが存在する場
合、該空きエントリに前記ストア命令によるストアデー
タを格納し、前記ストアバッファ中に前記ストア命令の
対象アドレスと同一のアドレスのストアデータまたはロ
ードデータが格納されているエントリが存在せず、かつ
前記ストアバッファ中に空きエントリが存在せず、かつ
前記ストアバッファ中にロードデータが格納されている
エントリが存在する場合、該ロードデータが格納されて
いるいずれかの該エントリに前記ストア命令によるスト
アデータを格納することを特徴とする。なお、全てのエ
ントリにストアデータが格納されていて、どのストアデ
ータともアドレスが異なる場合、空きエントリができる
までストア命令の実行を停止する。

【００１５】また、請求項３に記載の発明は、請求項
１または請求項２に記載の記憶装置において、前記ロー
ド命令の実行時において、前記ストアバッファに前記ロ
ード命令の対象アドレスと同じアドレスのストアデータ
またはロードデータが格納されていることが判明した場
合には、該ストアデータまたはロードデータを前記スト
アバッファより読み出して前記ロード命令の実行結果と
して転送することを特徴とする。

【００１６】また、請求項４に記載の発明は、請求項
１乃至請求項３のいずれかひとつに記載の記憶装置にお
いて、前記ロード命令の実行時において、前記ストアバ
ッファに前記ロード命令の対象アドレスと同じアドレス
のストアデータまたはロードデータが格納されているこ
とが判明し、該ストアデータまたはロードデータを前記
ストアバッファより読み出して前記ロード命令の実行結
果として転送する期間において、前記キャッシュメモリ
や前記主記憶へのアクセスを中止することを特徴とす
る。

【００１７】また、請求項５に記載の発明は、請求項
１乃至請求項４のいずれかひとつに記載の記憶装置にお
いて、ワード内の一部のバイトのみを対象としたストア
命令の実行時において、前記ストアバッファに前記スト
ア命令によるストアデータを格納する際に、前記ストア
命令の対象アドレスと同一のアドレスのストアデータま
たはロードデータが格納されているエントリが前記スト
アバッファ中に存在し、更に該エントリに前記ストア命
令によるストアデータを格納する場合に、前記ストア命
令がストア対象とするバイト位置には前記ストア命令に
よるストアデータを格納し、前記ストア命令がストア対
象としないバイト位置には書き込みを行わず以前の値を
そのまま保持することを特徴とする。

【００１８】また、請求項６に記載の発明は、請求項
１乃至請求項５のいずれかひとつに記載の記憶装置にお
いて、ワード内の一部のバイトのみを対象としたストア
命令の実行時において、前記ストアバッファに前記スト
ア命令によるストアデータを格納する際に、前記ストア
命令の対象アドレスと同一のアドレスのストアデータま
たはロードデータが格納されているエントリが前記スト
アバッファ中に存在せず、かつ前記ストアバッファに空
きエントリが存在する場合には、前記キャッシュメモリ
あるいは前記主記憶より、前記ストア命令の対象アドレ
スと同一のアドレスのデータを読み出し、該データを前
記ストア命令がストア対象としないバイト位置に格納
し、前記ストア命令がストア対象とするバイト位置には
前記ストア命令によるストアデータを格納することを特
徴とする。

【００１９】また、請求項７に記載の発明は、請求項
１乃至請求項６のいずれかひとつに記載の記憶装置にお
いて、前記ストアバッファのエントリのうち、一部のエ
ントリにはストアデータを格納せず、ロードデータのみ
を格納することを特徴とする。

【００２０】また、請求項８に記載の発明は、請求項
１乃至請求項７のいずれかひとつに記載の記憶装置にお
いて、前記ストアバッファに格納されたストアデータを
前記ストアバッファから前記キャッシュメモリに書き込
む際に、前記ストアバッファに格納されている前記スト
アデータのうち、前記書き込み可能になったものの中か
ら任意の順番で前記キャッシュメモリに書き込みを行う
ことを特徴とする。

【００２１】上記構成によれば、ロード命令の実行時に
ストアバッファを検索し、ロードの対象のアドレスと同
じアドレスのストアデータまたはロードデータが存在す
れば、それをロードデータとしてストアバッファから転
送を行い、キャッシュメモリにはアクセスしない。すな
わち、従来と比べてストアバッファに格納されているロ
ードデータにヒットする分だけ、キャッシュメモリへの
アクセス回数が減少することになる。ストアバッファは
キャッシュメモリに比べてはるかに容量が小さいため、
アクセスしたときの消費電力も小さい。従って、キャッ
シュメモリへのアクセスの減少により、消費電力を削減
することができるという効果がある。

【００２２】また、ロード命令に対してキャッシュメモ
リからロードデータを読み出した場合には、該ロードデ
ータをストアバッファに格納する。通常、ストア命令に
よりストアしたデータをその直後にロード命令でロード
する場合はまれであるのに対して、ロード命令によりロ
ードしたデータを再びロードする場合は比較的多い。こ
のため、上述のようにキャッシュメモリから読み出され
たロードデータをストアバッファに格納することによ
り、後続するロード命令に対してストアバッファでヒッ
トする頻度が高くなり、キャッシュメモリにアクセスす
る頻度を低下させることが可能となる。

【００２３】上述のように、本発明の記憶装置において
は、キャッシュメモリへのアクセスが減少することによ
り、キャッシュメモリでポート競合が発生する頻度が減
少する。さらに、多ポートのキャッシュメモリをバンク
・インターリーブ方式で実現する場合においても、キャ
ッシュメモリへのアクセスが減少することにより、バン
ク競合の発生確率も減少する。この結果、低ハードウエ
アコスト且つ低消費電力でポート競合やバンク競合の発
生確率が小さいキャッシュメモリを備える記憶装置を実
現することができるという特徴がある。

【００２４】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図１は本発明の第1
の実施形態による記憶装置の構成を示すブロック図であ
る。同図において、符号１はストアバッファ、符号２０
はキャッシュメモリ、符号３０はセレクタ、符号３１は
アライナである。

【００２５】上記ストアバッファ１において、符号１０
は当該ストアバッファ１の各エントリの有効・無効ビッ
トや、そのエントリに格納されているストアデータまた
はロードデータのワードアドレスを保持するタグバッフ
ァである。なお、ワードアドレスとは通常のバイト単位
でのアドレスであるバイトアドレスからワード内のオフ
セット部分を除去あるいは無視したワード単位でのアド
レスである。符号１１はストア命令あるいはロード命令
の対象アドレスが当該ストアバッファ１に格納されてい
るか否かを判定し、判定結果に基づいた信号を出力する
比較回路である。符号１２は当該ストアバッファ１に格
納されているストアデータまたはロードデータをワード
単位で保持するデータバッファである。これによりスト
アバッファ１は、ワードアドレス境界で整列したストア
データあるいはロードデータをワード単位で保持する。
符号１３はセレクタであり、符号１４はアライナであ
る。

【００２６】また、キャッシュメモリ２０において、符
号２１は当該キャッシュメモリ２０に格納されているキ
ャッシュラインのアドレスやライン状態などを保持する
タグアレイ、符号２２はキャッシュメモリ２０に格納さ
れているキャッシュラインのデータを保持するデータア
レイである。符号２３はロード命令あるいはストア命令
の対象アドレスが当該キャッシュメモリ２０に格納され
ているか否かを判定する比較回路、符号２４は比較回路
２３の出力に基づいてデータアレイ２２からのデータを
出力するセレクタである。

【００２７】上記構成のキャッシュメモリ２０及びスト
アバッファ１において、ロード命令が発行された場合に
ついて図２及び図３を参照して説明する。なお、ロード
命令の実行は図２（ａ）及び図３（ａ）に示すように連
続する２つのクロック・サイクルで行われる。

【００２８】まず、ロード命令が発行されると、第１の
クロックサイクルにおいてロード命令の対象アドレス
（以下、ロード命令対象アドレスとする）は、アドレス
線４０を通じてキャッシュメモリ２０内のタグアレイ２
１、データアレイ２２、比較回路２３及びストアバッフ
ァ１内のタグバッファ１０、比較回路１１に入力される
（図２（ｂ））。続いて、ストアバッファ１内の比較回
路１１により、タグバッファ１０内の各エントリに格納
されているアドレスと、ロード命令対象アドレスとが比
較される。なお、この比較は全エントリ並列に行われ
る。この結果、いずれかのエントリに格納されているア
ドレスがロード命令対象アドレスと一致した場合、即ち
ストアバッファ１でヒットした場合、比較回路１１はヒ
ット信号をデータバッファ１２及び信号線４３を通じて
キャッシュメモリ２０及びセレクタ回路３０に出力する
（図２（ｃ））。

【００２９】比較回路１１からヒット信号がデータバッ
ファ１２へ入力されると、第２のクロック・サイクルに
おいてデータバッファ１２は、ヒットしたエントリに格
納されているストアデータまたはロードデータをデータ
線４５を通じてセレクタ回路３０に出力する（図２
（ｄ））。セレクタ回路３０は、データ線４３を通じて
比較回路１１からヒット信号が入力され、またデータバ
ッファ１２からデータ線４５により読み出しデータが供
給されると、この読み出しデータをアライナ回路３１に
出力する。アライナ回路３１は必要に応じて読み出しデ
ータの整列を行い、データ線４７を通じてロードデータ
として転送する（図２（ｅ））。これに対し、キャッシ
ュメモリ２０はデータ線４３により比較回路１１からヒ
ット信号が入力されると、ストアバッファ１でヒットし
たと認識し、ロード命令による読み出し動作を中止す
る。これは、キャッシュメモリ内のクロック停止、アド
レスラッチの動作停止やセンスアンプの動作停止などを
伴なう。

【００３０】一方、ロード命令対象アドレスに一致する
アドレスがタグバッファ１０のいずれのエントリにも格
納されていなかった場合、即ちストアバッファでミスし
た場合は、第１のサイクルにおいて比較回路１１により
ヒット信号が出力されないこととなる（図３（ｃ））。
これによりキャッシュメモリ２０は、ストアバッファ１
でミスしたと認識する。この場合、第２のクロックサイ
クルにおいてキャッシュメモリ２０は以下の動作を行
う。

【００３１】まず、タグアレイ２１は、アドレス線４０
を通じて入力されたアドレスの一部のビットをインデッ
クスとしてタグを検索し、該当するタグを抽出して比較
回路２３へ出力する。また、これと同時にデータアレイ
２２は、データをセレクタ回路２４に出力する。なお、
ここで出力されるタグ及びデータは、ダイレクトマップ
ド方式のキャッシュメモリにおいてはそれぞれ１つであ
り、セット・アソシアティブ方式のキャッシュメモリに
おいてはその連想数だけ出力される。

【００３２】比較回路２３は、タグアレイ２１より読み
出されたタグと信号線４０を通じて入力されたロード命
令対象アドレスとを比較し、その比較結果を信号線４２
を通じてセレクタ回路２４及び３０に出力する（図３
（ｄ））。セレクタ回路２４は、比較回路２３から入力
されたタグの比較結果に基づいて、データアレイ２２か
ら読み出されたデータのうち、比較回路２３においてヒ
ットしたアドレスに対応するデータを選択し、データ線
４４を通じてセレクタ回路３０及びストアバッファ１内
のセレクタ回路１３へ出力する（図３（ｅ））。

【００３３】セレクタ回路３０はキャッシュメモリ２０
からデータ線４４に読み出されているデータをアライナ
回路３１に出力する。アライナ回路３１は必要に応じて
読み出しデータの整列を行い、データ線４７を通じてロ
ードデータとして転送する（図３（ｆ））。同時にスト
アバッファ１ではキャッシュメモリ２０より読み出した
データの格納動作が行われる。具体的には、キャッシュ
メモリ２０から読み出されたデータはデータ線４４及び
セレクタ回路１３を通じてデータバッファ１２に入力さ
れる（図３（ｇ））。

【００３４】また、そのデータのアドレスはアドレス線
４０を通じてタグバッファ１０に入力されている。スト
アバッファ１は空きエントリがあれば、それら空きエン
トリのうちの１つに上記データ及びアドレスを格納す
る。空きエントリがなく、ロードデータが格納されてい
るエントリがあれば、それらのエントリのうちの１つに
上記データ及びアドレスを格納する。ストアバッファ１
のエントリにはすべてストアデータが格納されており、
空きエントリもロードデータが格納されているエントリ
がない場合には、格納は行わない。

【００３５】また、ストアバッファ１に格納されたデー
タは、後続の同じアドレスを対象とするロード命令に転
送されることになる。この場合、前記したようにキャッ
シュメモリ２０へのアクセスが中止されるため、消費電
力の削減やポート競合、バンク競合の発生頻度の低減に
効果がある。

【００３６】次に、上記説明におけるストアバッファ１
の動作を具体例を用いて詳細に説明する。図４に、スト
アバッファ１の詳細構成図を示す。なお、ここでは、ス
トアバッファ１のエントリ数が４、データバッファ１２
の各エントリがそれぞれ２バイトデータであるストアバ
ッファ１であるとする。

【００３７】図４において、タグバッファ１０は、４エ
ントリ分のタグ１０１ａ〜１０１ｄと１つのセレクタ回
路１０２とから構成されている。タグ１０１ａ〜１０１
ｄはストアデータ有効ビットＳＶ、ロードデータ有効ビ
ットＬＶ、アドレス領域の３つの領域から構成され、こ
のストアデータ有効ビットＳＶが“１”であれば、該当
エントリにストアデータが格納されていることを示し、
ストアデータ有効ビットＳＶが“０”であれば、該当エ
ントリにストアデータが格納されていないことを示す。
同様に、ロードデータ有効ビットＬＶが“１”であれ
ば、該当エントリにロードデータが格納されていること
を示し、ロードデータ有効ビットＬＶが０であれば、該
当エントリにロードデータが格納されていないことを示
す。アドレス領域はアドレス線４０より入力されるスト
アデータまたはロードデータのアドレスのワードアドレ
ス部分を格納する。セレクタ回路１０２は各エントリか
らのアドレスを選択してアドレス線４６に出力する。

【００３８】比較回路１１は、４エントリ分の比較器１
１１ａ〜１１１ｄとＯＲ回路１１２から構成される。比
較器１１１ａ〜１１１ｄはタグバッファ１０から入力さ
れる各エントリのアドレスとアドレス線４０で与えられ
るアドレスのワードアドレス部分を比較し、比較結果を
ＯＲ回路１１２及びデータバッファ１２へ出力する。Ｏ
Ｒ回路１１２は各エントリの比較結果の論理和をとるこ
とにより、いずれかのエントリが一致する場合、信号線
４３にヒット信号を出力する。

【００３９】データバッファ１２は、４エントリ分のバ
ッファ１２１ａ〜１２１ｄとセレクタ回路１２２から構
成される。バッファ１２１ａ〜１２１ｄは、データ線１
５から入力されるロードデータまたはストアデータを保
持する。セレクタ回路１２２は比較回路１１からの比較
結果に基づいて、ヒットしたエントリのデータをデータ
線４５に出力する。

【００４０】例えば、今エントリ１のタグ１０１ａにお
いては、ストアデータ有効ビットＳＶには“０”が、ロ
ードデータ有効ビットＬＶには“１”が、アドレス領域
には１６進数で表現された１６ビットのワードアドレス
“０００４”が、また、エントリ１のデータバッファ１
２１ａにはデータ“０１０１”が示されている。これ
は、エントリ１にはアドレス“０００４”のロードデー
タ“０１０１”が格納されていることを意味する。ここ
で、１ワードは２バイトから構成され、１６ビットのア
ドレスの内３ビット目から１６ビット目がワードアドレ
スを表わし、１ビット目及び２ビット目でワード内のバ
イトを選択するものとする。

【００４１】同様にしてエントリ２のタグ１０１ｂのス
トアデータ有効ビットＳＶには“１”が、ロードデータ
有効ビットＬＶには“０”が、アドレス領域にはワード
アドレス“００１０”が、エントリ２のデータバッファ
１２１ｂにはデータ“０２０２”が示されているため、
エントリ２にはアドレス“００１０”のストアデータ
“０２０２”が格納されていることを意味する。

【００４２】同様に、エントリ３のタグ１０１ｃのスト
アデータ有効ビットＳＶには“０”が、ロードデータ有
効ビットＬＶには“１”が、アドレス領域にはワードア
ドレス“００２８”が、エントリ３のデータバッファ１
２１ｃにはデータ“０３０３”が示されており、エント
リ３にはアドレス“００２８”のロードデータ“０３０
３”が格納されていることを意味する。一方、エントリ
４のタグ１０１ｄのアドレス領域にはワードアドレス
“００２８”が格納されているが、ストアデータ有効ビ
ットＳＶ及びロードデータ有効ビットＬＶには共に
“０”が格納されており、エントリ４にはロードデータ
もストアデータも格納されていないことを意味する。

【００４３】上記タグ及びデータが格納されているスト
アバッファにおいて、アドレス“００２ａ”に対するロ
ード命令が発行された場合について説明する。まず、ロ
ード命令の対象アドレス“００２ａ”はアドレス線４０
を通じて各エントリに設置された比較器１１１ａ〜１１
１ｄに入力される。各比較器１１１ａ〜１１１ｄは、各
エントリのタグに格納されたアドレスが対象アドレス
“００２ａ”に一致するかを判定するとともに、タグの
ロードデータ有効ビットＬＶが“１”あるいはストアデ
ータ有効ビットＳＶが“１”であるか否かを判定する。

【００４４】なお、本実施形態による比較器１１１ａ〜
１１１ｄはワードアドレス、即ちアドレスの３ビット目
から１６ビット目を比較するため、ロード命令の対象ア
ドレス“００２ａ”は、詳細には“００２８”、“００
２９”、“００２ａ”、“００２ｂ”と一致する。この
結果、エントリ３に格納されているタグのアドレスは
“００２８”であり、更にロードデータ有効ビットＬＶ
が“１”であることから、ロード命令対象アドレス“０
０２ａ”に一致すると判定され、比較器１１１ｃはヒッ
ト信号をＯＲ回路１１２及びセレクタ１２２へ出力す
る。

【００４５】一方、アドレス“００２ａ”はエントリ４
に格納されているアドレス“００２８”とも一致する
が、エントリ４のロードデータ有効ビットＬＶ及びスト
アデータ有効ビットＳＶは共に“０”であり、エントリ
４にはロードデータもストアデータも格納されていない
ため、エントリ４の比較器１１１ｄはヒット信号を出力
しない。

【００４６】この結果、セレクタ回路１２２はエントリ
３の比較器１１１ｃからのヒット信号に基づいて、エン
トリ３のデータバッファ１２１ｃに格納されたデータ
“０３０３”をロードデータとしてデータ線４５へ出力
する。

【００４７】次に、エントリ１〜４に格納されているア
ドレス及びデータはそのままの状態で、例えばロード命
令としてアドレス“００２０”に対するロード命令が発
行された場合について説明する。まず、ロード命令対象
アドレス“００２０”はアドレス線４０を通じて各エン
トリに設置された比較器１１１ａ〜１１１ｄへ入力され
る。比較器１１１ａ〜１１１ｄは、各エントリに格納さ
れているアドレスと、入力されたアドレス“００２０”
と比較した結果、いずれのアドレスとも一致しないと判
定し、ヒット信号を出力しない。したがって信号線４３
にヒット信号が出力されず、この結果アドレス“００２
０”に対するロード命令はキャッシュメモリ２０をアク
セスすることとなる。

【００４８】キャッシュメモリ２０をアクセスした結
果、キャッシュメモリにおいてヒットし、ロードデータ
“０５０５”が読み出されたとする。このキャッシュメ
モリ２０より読み出されたロードデータ“０５０５”
は、図５に示すようにデータ線１５を通じてデータバッ
ファ１２に入力される。

【００４９】ここでエントリ４のようにロードデータあ
るいはストアデータのいずれも格納されていないエント
リが存在すれば、そのエントリにキャッシュメモリ２０
より読み出したロードデータを格納する。即ち、図５に
示すように、エントリ４のタグ１０１ｄのアドレス領域
にロードデータ命令の対象アドレス“００２０”を、ロ
ードデータ有効ビットＬＶに“１”を、ストアデータ有
効ビットＳＶに“０”を、エントリ４のデータバッファ
１２１ｄにロードデータ“０５０５”を格納する。

【００５０】このように、ストアバッファ１においてミ
スし、キャッシュメモリ２０からデータを読み出した場
合には、そのデータをストアバッファ１内の空きエント
リに格納することにより、後続する同様のロード命令に
対してはストアバッファ１にてヒットする確率が高くな
る。

【００５１】次に、図６を参照してストア命令が発行さ
れた場合について説明する。なお、ストア命令の実行は
上述のロード命令と同様、連続する２つのクロック・サ
イクルで行われる。まず、ストア命令が発行されると、
第１のクロックサイクルにおいてストア命令の対象アド
レス（以下、ストア命令対象アドレスとする）は、アド
レス線４０を通じてキャッシュメモリ２０内のタグアレ
イ２１、データアレイ２２、比較回路２３及びストアバ
ッファ１内のタグバッファ１０、比較回路１１に入力さ
れる（図６（ｂ））。

【００５２】続いて、ストアバッファ１内の比較回路１
１により、タグバッファ１０内の各エントリに格納され
ているアドレスと、ストア命令対象アドレスとが比較さ
れる。なお、比較は全エントリ並列に行う。この結果、
いずれかのエントリに格納されているアドレスがストア
命令対象アドレスと一致した場合、即ちストアバッファ
１でヒットした場合、比較回路１１はヒット信号をデー
タバッファ１２及び信号線４３を通じてキャッシュメモ
リ２０及びセレクタ回路３０に出力する（図６
（ｃ））。

【００５３】比較回路１１からヒット信号がデータバッ
ファ１２へ入力されると、第２のクロック・サイクルに
おいて、そのヒットしたエントリにストアデータの書き
込みを行う。具体的には、ストアデータはデータ線４１
を通じてストアバッファ１へ供給され（図６（ｄ））、
ストアバッファ１内のアライナ回路１４、セレクタ回路
１３及びデータ線１５を経由してデータバッファ１２に
入力される（図６（ｅ））。なお、ストアデータのアド
レスは、アドレス線４０を通じてタグバッファ１０に入
力されているので、データバッファ１２へのストアデー
タの格納と同時に、タグバッファ１０にそのストアデー
タのアドレスを格納する。

【００５４】なお、ストア命令の中にはワード内の一部
のバイトのみをストアの対象とするものがある。そのよ
うなストア命令をストアバッファ１に格納する場合に
は、通常、ストアデータはデータ線４１に下位のバイト
方向へ整列した形で与えられる。このため、アライナ回
路１４によって、ストアするバイト位置をストア命令対
象アドレスが指し示すワード内のバイト位置に移動され
た後、データバッファ１２では、ワード内のストアする
バイト位置のみ書き込み（上書き）を行う。

【００５５】以下、ワード内の一部のバイトのみをスト
ア対象とするストア命令が発行された場合について図７
を参照して詳しく説明する。図７に示すように、今回の
例ではワード長は３２ビット、バイト長は８ビットであ
り、ワード内には４つのバイトが存在し、下位のバイト
から順に第０バイト、第１バイト、第２バイト、第３バ
イトと呼ぶこととする。即ち、３２ビットのワードにお
いて、下位のビットから順に０ビット目、１ビット目、
・・・、３１ビット目としたとき、０ビット目から７ビ
ット目までの８ビットを第０バイト、８ビット目から１
５ビット目までの８ビットを第１バイト、１６ビット目
から２３ビット目までの８ビットを第２バイト、２４ビ
ット目から３１ビット目までの８ビットを第３バイトと
する（図７（Ａ））。

【００５６】上述したようなバイトデータにおいて、第
２バイト目の位置のみにストアを行うストア命令が発行
されたとすると、ストア対象のバイトデータは、図７
（Ｂ）に示すように下位のバイト方向に整列した形で、
即ち第０のバイト位置にストアデータが格納された形
で、データ線４１を通じてアライナ回路１４へ入力され
る。アライナ回路１４は、第０バイトの位置に与えられ
ているストアデータをストアするバイト位置、すなわち
第２バイト目の位置に移動する（図７（Ｃ））。なお、
ストア対象のバイト位置はストア命令対象アドレスの下
位２ビット、即ち０ビット目及び１ビット目で得ること
ができる。また、ストアデータが格納されているバイト
位置以外に格納されているデータは任意である。

【００５７】アライナ回路１４によりストアすべきバイ
ト位置にストアデータが移動されると、該ストアデータ
は信号線１６を通じてセレクタ１３へ入力された後デー
タバッファ１２へ入力される。データバッファ１２は同
じワードアドレスのデータが格納されているエントリに
ストアを行う。ただし、ストアするのはエントリ内のす
べてのバイトではなくストア対象の第２バイトのみであ
り、他のバイト位置については、以前の値が保持された
ままとする。これにより、一部のバイトのみにストアを
行うストア命令が発行された場合でも、ストアバッファ
１には常にワード全体で有効でかつ最新のストアデータ
が格納されていることになる。すなわち、後続のワード
全体をロードするロード命令に対して、ストアバッファ
１からデータを転送することが可能となる。

【００５８】次に、上述したストア命令実行時にストア
バッファ１にミスした場合、即ちストア命令対象アドレ
スに一致するアドレスがタグバッファ１０のいずれのエ
ントリにも格納されていなかった場合について図８を参
照して説明する。まず、ストアバッファ１でミスした場
合は、第１のクロック・サイクルにおいて比較回路１１
よりヒット信号が出力されない（図８（ｃ））。ここ
で、発行されたストア命令がワード全体へのストアであ
る場合には、データ線４１に与えられるストアデータを
データバッファ１２に格納し、また、アドレス線４０で
与えられるアドレスをタグバッファ１０に格納する。な
お、格納するタグバッファ及びデータバッファのエント
リは、空いているエントリか、空いているエントリがな
ければロードデータが格納されているエントリである。

【００５９】一方、発行されたストア命令がワード全体
ではなく特定のバイトのみを対象としていた場合には、
第２クロック・サイクルでキャッシュメモリ２０にアク
セスする。キャッシュメモリ２０において、まず、タグ
アレイ２１は、アドレス線４０を通じて入力されたアド
レスの一部のビットをインデックスとしてタグを検索
し、該当するタグを抽出して比較回路２３へ出力する。
また、これと同時にデータアレイ２２は、データをセレ
クタ回路２４に出力する。

【００６０】比較回路２３は、タグアレイ２１より読み
出されたタグと信号線４０を通じて入力されたストア命
令対象アドレスとを比較した結果、その比較結果を信号
線４２を通じてセレクタ回路２４及び３０に出力する
（図８（ｄ））。セレクタ回路２４は、比較回路２３か
ら入力されたタグの比較結果に基づいて、データアレイ
２２から読み出されたデータのうち、比較回路２３にお
いてヒットしたアドレスに対応するデータを選択し、デ
ータ線４４を通じてセレクタ回路３０及びストアバッフ
ァ１内のセレクタ回路１３へ出力する（図８（ｆ））。

【００６１】一方、ストア対象のストアデータはストア
バッファにおいてヒットするしないにかかわらず第２の
クロック・サイクルにおいてストアバッファ１内のアラ
イナ１４へ入力される。このストアデータは図７（Ｂ）
に示したように、整列した形でデータ線４１に与えられ
るため、アライナ回路１４によりストアするバイト位置
に移動された後、セレクタ回路１３に出力される。セレ
クタ１３は、アライナ回路１４より入力されたストアデ
ータと、キャッシュメモリ２０から読み出されたデータ
とを合成して、信号線１５を通じてデータバッファ１２
へ出力し、データバッファ１２は空きエントリか、ある
いは空いているエントリが無ければロードデータが格納
されているエントリへ、入力されたストアデータを格納
する（図８（ｇ））。

【００６２】以下、ワード内の一部のバイトのみをスト
ア対象とするストア命令が発行され、更にストアバッフ
ァにおいてミスした場合について図９を参照して詳しく
説明する。なお、ワード長及びバイト長は、図７に示し
たものと同様とする。例えば今、第２バイト目の位置の
みにストアを行うストア命令が発行されたとする。スト
アするバイトデータは、下位のバイト方向に整列した形
で、データ線４１の第０バイトの位置に与えられる（図
９（Ｂ））。アライナ回路１４は第０バイトの位置に与
えられたストアするバイトデータをストアするアドレス
位置、すなわち第２バイト目の位置に移動する（図９
（Ｃ））。

【００６３】また、これと同時にデータ線４４には同じ
アドレスの以前のデータがキャッシュメモリ２０から読
み出されている。データはワード全体、すなわちすべて
のバイトが有効である。セレクタ回路１３は、ストアを
行うバイト位置、即ち第２バイトはアライナ回路１４の
出力を選択し、その他のバイトはデータ線４４のデータ
を選択してデータバッファ１２に出力する（図９
（Ｄ））。

【００６４】従って、データバッファ１２にはワード全
体で有効でかつ最新のデータが出力される。データバッ
ファ１２はそのデータ全体、すなわちすべてのバイトを
格納する。これにより、一部のバイトのみにストアを行
うストア命令が発行された場合でも、ストアバッファ１
には常にワード全体で有効でかつ最新のストアデータが
格納されていることになる。即ち、後続のワード全体を
ロードするロード命令に対して、ストアバッファ１から
データを転送することができる。

【００６５】以上、本発明の第1の実施形態による動作
を、ロード命令及びストア命令で、ストアバッファ１に
ヒットした場合及びストアバッファ１にミスし、かつキ
ャッシュメモリ２０にヒットした場合についてそれぞれ
説明した。なお、ストアバッファ１にミスし、更にキャ
ッシュメモリ２０にもミスした場合には、主記憶や２次
キャッシュメモリより読み出したデータをキャッシュメ
モリ２０に格納した後、キャッシュメモリから読み出し
た該データをストアバッファ１へと書き込む。この間、
従来のノン・ブロッキング・キャッシュメモリと同様
に、後続のロード命令やストア命令で、ストアバッファ
１やキャッシュメモリ２０にヒットするものを先に実行
することも可能である。

【００６６】また、ストアバッファ１に格納されている
ストアデータは、キャッシュメモリ２０に書き込み可能
になると、キャッシュメモリ２０に転送し、ストアバッ
ファ１からは削除する。ここで、キャッシュメモリ２０
に書き込み可能になるとは、ストアバッファ１にストア
データを格納したストア命令の実行が確定し、実行の取
り消しが発生しないことが保証される場合で、そのスト
アデータのアドレスがキャッシュメモリ２０にヒットす
る場合である。より詳細には、データバッファ１２から
データ線４５を通じてキャッシュメモリ２０のデータア
レイ２２に出力し、格納する。同時にそのストアデータ
のアドレスは、タグバッファ１０からアドレス線４６を
通じてキャッシュメモリ２０のタグアレイ２１に出力
し、格納する。

【００６７】また、ストアバッファ１に格納されている
ストアデータのアドレスが、キャッシュメモリ２０にミ
スした場合は、主記憶や２次キャッシュメモリからミス
したアドレスのキャッシュラインデータをキャッシュメ
モリ２０に格納した後、上記したキャッシュメモリ２０
にヒットする場合と同様に、キャッシュメモリ２０に格
納し、ストアバッファ１から削除する。

【００６８】また、本実施形態のストアバッファ１で
は、同じアドレスのストアデータは１つしか存在せず、
そのデータは常に最新のデータである。また、キャッシ
ュメモリ２０にヒットする場合には、そのデータはワー
ド全体、即ち全てのバイトが有効である。これは、従来
のストアバッファと異なり、キャッシュメモリ２０に書
き込み可能になった任意のストアデータから、任意の順
番で書き込みが行えることを意味する。即ち、あるエン
トリのストアデータがキャッシュメモリ２０にミスし、
そのアドレスのデータが主記憶や２次キャッシュメモリ
からキャッシュメモリ２０に書き込まれるのを待ってい
る間に、キャッシュメモリ２０にヒットする他のストア
データの書き込みを先に実行することができる。従っ
て、本実施形態では効率的にストアバッファにエントリ
を空けることができるので、ストアバッファがストアデ
ータで一杯になり、命令の実行が停止することによる処
理性能の低下が小さいという効果が得られる。

【００６９】なお、本実施形態における記憶装置では、
ストアバッファ１の全てのエントリにストアデータが格
納されている場合はロードデータの格納を行わないとし
ているが、ロードデータのみを格納するエントリを設け
て、常にロードデータを格納可能としても良い。

【００７０】また、本実施形態による記憶装置におい
て、ロード命令及びストア命令は連続する２クロック・
サイクルで実行しているが、それぞれのサイクルはパイ
プライン・ステージが独立しているため、ある命令が２
つ目のクロック・サイクルの処理を実行中に、別の命令
が１つ目のクロック・サイクルの処理を行うことができ
る。すなわち、毎クロック・サイクルでロード命令また
はストア命令を発行し、実行することができる。なお、
ロード命令やストア命令を実行するクロック・サイクル
は２サイクルに限るものではない。また、本実施形態に
よる記憶装置において、容量が４エントリのタグバッフ
ァ１０、比較回路１１、データバッファ１２の実施の形
態を示したが、エントリ数はこの限りではない。

【００７１】次に、本発明の第２の実施形態における記
憶装置について図１０を参照して説明する。第２の実施
形態における記憶装置は、２つのポートを有するストア
バッファ２０１、２つのポートを有するキャッシュメモ
リ２２０、２ポート分のセレクタ回路３０Ａ、３０Ｂ及
び２ポート分のアライナ回路３１Ａ、３１Ｂから構成さ
れる。更にストアバッファ２０１は、２ポートのタグバ
ッファ２１０、２ポートの比較回路２１１、２ポートの
データバッファ２１２、及び２ポート分のセレクタ回路
１３Ａ、１３Ｂ、２ポート分のアライナ回路１４Ａ、１
４Ｂから構成され、２つのポート、ポートＡ及びＢを通
じて同時に２つのロード命令もしくはストア命令を処理
することができる。

【００７２】また、キャッシュメモリ２２０は更に、２
つのバンク、バンクＸ及びバンクＹ、入力セレクタ回路
５０、出力セレクタ回路５１から構成される。バンクＸ
及びバンクＹはタグアレイ２１、データアレイ２２、比
較回路２３、セレクタ回路２４から構成される１ポート
のキャッシュメモリである。キャッシュメモリ２２０の
２つのポート、ポートＡ及びポートＢのそれぞれの入力
である４０Ａ、４３Ａ、４５Ａ、４６Ａ及び４０Ｂ、４
３Ｂ、４５Ｂ、４６Ｂは入力セレクタ回路５０によりそ
のいずれかのポートの入力がバンクＸまたはバンクＹに
入力される。

【００７３】バンクＸ及びバンクＹの出力である４２
Ｘ、４４Ｘ及び４２Ｙ、４４Ｙは出力セレクタ回路５１
で選択された後、ポートＡの出力４２Ａ、４４Ａ及びポ
ートＢの出力４２Ｂ、４４Ｂに出力される。バンクＸ及
びバンクＹは１つのポートしか持たないため、ポートＡ
及びポートＢから同時にロード命令あるいはストア命令
の処理を行うことができないが、互いに独立に動作可能
であるので、ポートＡ及びポートＢからのアクセスが異
なるバンクにアクセスする時に限り同時に２つの処理が
可能となる。２つのポートからのアクセスが同じバンク
をアクセスするバンク競合が発生する場合は、いずれか
の処理を待たせる必要があり、しいては性能低下を招い
てしまう。

【００７４】これに対し、ストアバッファ２０１はそれ
を構成するタグバッファ２１０、比較回路２１１、デー
タバッファ２１２がすべて２つのポートを持ち、常に同
時に２つのアクセスを処理することができる。ストアバ
ッファ２０１はハードウェア規模が比較的小さいため多
ポート化が容易であるのに対して、キャッシュメモリ２
２０のハードウェア規模はストアバッファ２０１に比べ
て遥かに大きいため、完全に多ポート化するのは現実的
ではなく、本例のようにバンク分割により擬似的に多ポ
ート化するのが一般的である。この場合、バンク競合の
発生を低減することが性能を向上するための大きな課題
となる。

【００７５】ポートＡまたはポートＢを通じてロード命
令やストア命令が発行されると、まずストアバッファ２
０１にアクセスされる。ストアバッファ２０１にヒット
すればロード命令、ストア命令ともそこで処理が終了
し、キャッシュメモリ２２０にはアクセスされない。し
かし、ロード命令またはストア命令がストアバッファ２
０１にミスした場合には、キャッシュメモリ２２０にア
クセスされる。この場合、ポートＡ及びポートＢを通じ
て異なるバンクにアクセスされる場合は、ポートＡ及び
ポートＢからの処理を同時に行うことが可能となる。し
かしながら、ポートＡ及びポートＢから同じバンクにア
クセスされる場合には、バンク競合が発生する。このよ
うな場合には、同時に処理を行うことができず、どちら
かの処理が待たされるため、処理能力が低下することと
なる。

【００７６】しかしながら、ストアバッファ２０１のヒ
ット率が高くなればキャッシュメモリ２２０へのアクセ
ス数は減少し、したがってバンク競合の発生率も減少す
るため、性能の低下を低減させることが可能となる。

【００７７】本実施形態の記憶装置によれば、ロード命
令によりキャッシュメモリ２２０をアクセスした場合、
そのロードデータを信号線４４Ａまたは４４Ｂを通じて
ストアバッファ２０１に格納することを特徴としてい
る。これによりストアバッファ２０１のヒット率が向上
するため、キャッシュメモリ２２０へのアクセス数が減
少し、バンク競合による性能の低下を回避することがで
きるという顕著な効果を奏する。更に、キャッシュメモ
リ２２０へのアクセスは、ストアバッファ２０１へのア
クセスに比べ消費電力が大きいことから、キャッシュメ
モリ２２０へのアクセス数が減少することにより消費電
力を減少させることができるという効果を奏する。

【００７８】

【発明の効果】以上説明したように、本発明の記憶装置
によれば、ストア命令によるストアデータをストアバッ
ファに格納するのに加えて、ロード命令によりキャッシ
ュメモリからロードデータを読み出した場合において
も、そのロードデータをストアバッファに格納する。こ
れにより、ロード命令実行時にストアバッファのヒット
率が向上し、キャッシュメモリへのアクセス数が減少す
るので、キャッシュメモリの消費電力を削減できるとい
う効果が得られる。

【００７９】また、キャッシュメモリへのアクセス数が
減少することにより、キャッシュメモリでポート競合が
発生する頻度が減少するため、ポート競合を原因とする
プロセッサ性能の低下を低減することができる。さら
に、多ポートメモリをバンク・インターリーブ方式で実
現したキャッシュメモリを備えた記憶装置の場合、キャ
ッシュメモリへのアクセスが減少することにより、バン
ク競合の発生確率が減少するため、バンク競合を原因と
する性能の低下を低減することができる。

【００８０】また、請求項３に記載の発明によれば、ス
トアバッファにストア命令によるストアデータを格納す
る際に、ストアバッファ中にストア命令の対象アドレス
と同一のアドレスのストアデータまたはロードデータが
格納されているエントリが存在する場合、エントリにス
トア命令によるストアデータを格納し、ストアバッファ
中にストア命令の対象アドレスと同一のアドレスのスト
アデータまたはロードデータが格納されているエントリ
が存在せず、かつストアバッファ中に空きエントリが存
在する場合、空きエントリにストア命令によるストアデ
ータを格納し、ストアバッファ中にストア命令の対象ア
ドレスと同一のアドレスのストアデータまたはロードデ
ータが格納されているエントリが存在せず、かつストア
バッファ中に空きエントリが存在せず、かつストアバッ
ファ中にロードデータが格納されているエントリが存在
する場合、ロードデータが格納されているいずれかのエ
ントリにストア命令によるストアデータを格納する。こ
れにより、ストアバッファのエントリを有効に使用する
ことができるので、後から発行されるロード命令または
ストア命令がストアバッファにヒットする確率が高くな
る。この結果、キャッシュメモリにアクセスする頻度が
減少するので、アクセス時の消費電力を削減することが
できる。

【００８１】また、請求項６に記載の発明によれば、ワ
ード内の一部のバイトのみを対象としたストア命令の実
行時において、ストアバッファにストア命令によるスト
アデータを格納する際に、ストア命令の対象アドレスと
同一のアドレスのストアデータまたはロードデータが格
納されているエントリがストアバッファ中に存在し、更
にエントリにストア命令によるストアデータを格納する
場合に、ストア命令がストア対象とするバイト位置には
ストア命令によるストアデータを格納し、ストア命令が
ストア対象としないバイト位置には書き込みを行わず以
前の値をそのまま保持する。

【００８２】これにより、ストアバッファには常時最新
のデータのみが格納されることとなる。また、従来にお
いてはデータの上書きができなかったため、同じアドレ
スのデータがストアデータとして供給された場合にも違
うエントリに書き込まなければならなかった。したがっ
て、エントリを有効に使用することができなかった。こ
れに対して、本発明の記憶装置によれば、同じアドレス
であればストアデータを上書きできるため、エントリを
有効に使用することが可能となる。

【００８３】また、請求項７に記載の発明によれば、ワ
ード内の一部のバイトのみを対象としたストア命令の実
行時において、ストアバッファにストア命令によるスト
アデータを格納する際に、ストア命令の対象アドレスと
同一のアドレスのストアデータまたはロードデータが格
納されているエントリがストアバッファ中に存在せず、
かつストアバッファに空きエントリが存在する場合に
は、キャッシュメモリあるいは主記憶より、ストア命令
の対象アドレスと同一のアドレスのストアデータまたは
ロードデータを読み出し、ロードデータをストア命令が
ストア対象としないバイト位置に格納し、ストア命令が
ストア対象とするバイト位置にはストア命令によるスト
アデータを格納する。これにより、ストア命令に対して
ストアバッファでヒットしなかった場合においても、ワ
ード全体が有効で且つ最新のストアデータをストアバッ
ファに格納することが可能となる。これにより、後続の
ロード命令がストアバッファにおいてヒットする確率が
高くなるという効果が得られる。

【００８４】また、請求項８に記載の発明によれば、ス
トアバッファのエントリのうち、一部のエントリにはス
トアデータを格納せず、ロードデータのみを格納する。
これにより、ロード命令を実行した際に、キャッシュメ
モリより読み出したロードデータを確実にストアバッフ
ァに格納することができるため、後続のロード命令がス
トアバッファにヒットする確率を更に増加させることが
できる。また、請求項９に記載の発明によれば、ストア
バッファに格納されたストアデータをストアバッファか
らキャッシュメモリに書き込む際に、ストアバッファに
格納されているストアデータのうち、書き込み可能にな
ったものの中から任意の順番でキャッシュメモリに書き
込みを行う。これにより、効率的にストアバッファ内に
空きエントリを作ることができるため、ストアバッファ
がストアデータで一杯になり、命令の実行が停止するこ
とによる処理性能の低下を減少させることができる。ま
た、ロード命令実行時には、ロードデータをストアバッ
ファに格納する頻度が増加するため、後続のロード命令
がストアバッファにヒットする確率が増加する。この結
果、キャッシュメモリへのアクセス時の消費電力を削減
することができ、また、バンク競合や、ポート競合の発
生率も低下するので、処理能力を維持することが可能と
なるという効果が得られる。

【図面の簡単な説明】

【図１】本発明の第1の実施形態における記憶装置の
構成を示したブロック図である。

【図２】第1の実施形態においてロード命令実行時に
ストアバッファにヒットした場合の動作を示すタイミン
グチャートである。

【図３】第1の実施形態においてロード命令実行時に
ストアバッファにミスした場合の動作を示すタイミング
チャートである。

【図４】第1の実施形態においてロード命令実行時に
おけるストアバッファの動作の具体例を示す図である。

【図５】第1の実施形態においてロード命令実行時に
おけるストアバッファの動作の具体例を示す図である。

【図６】第1の実施形態においてストア命令実行時に
ストアバッファにヒットした場合の動作を示すタイミン
グチャートである。

【図７】第1の実施形態においてストアバッファへ一
部のバイトのみ書き込む場合のデータ構成を説明する説
明図である。

【図８】第1の実施形態においてストアバッファへ一
部のバイトのみ書き込む場合に、ストア命令実行時にス
トアバッファにミスした場合の動作を示すタイミングチ
ャートである。

【図９】第1の実施形態においてストアバッファへ一
部のバイトのみ書き込む場合に、ストア命令実行時にス
トアバッファにミスした場合のデータ構成図を示す図で
ある。

【図１０】本発明の第２の実施形態における記憶装置
の構成を示したブロック図である。

【符号の説明】１ストアバッファ１０タグバッファ１１比較回路１２データバッファ１３セレクタ回路１４アライナ回路１５、１６データ線２０キャッシュメモリ２１タグアレイ２２データアレイ２３比較回路２４、３０セレクタ回路３１アライナ回路４０アドレス線４１データ線４２、４３信号線４４、４５データ線４６アドレス線４７データ線１０１ａ〜１０１ｄタグ１０２セレクタ回路１１１ａ〜１１１ｄ比較器１１２ＯＲ回路１２１ａ〜１２１ｄバッファ１２２セレクタ回路

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 12/08 - 12/12

Claims

(57)【特許請求の範囲】

【請求項１】キャッシュメモリあるいは主記憶へのスト
アデータを一時的に保持するストアバッファを備えた記
憶装置において、ロード命令により該キャッシュメモリからロードデータ
を読み出した場合には、該ロードデータを該ストアバッ
ファに格納し、前記ロード命令により前記キャッシュメモリから読み出
したロードデータを前記ストアバッファに格納する際
に、前記ストアバッファ中に空きエントリが存在する場合に
は、該空きエントリに前記ロード命令によるロードデー
タを格納し、前記ストアバッファ中に空きエントリが存在せず、かつ
前記ストアバッファ中にロードデータが格納されている
エントリが存在する場合には、該エントリのいずれか１
つに前記ロード命令によるロードデータを格納し、前記ストアバッファ中に空きエントリが存在せず、かつ
前記ストアバッファ中にロードデータが格納されている
エントリも存在しない場合には、前記ロード命令による
ロードデータを前記ストアバッファへ格納しないことを
特徴とする記憶装置。
【請求項２】キャッシュメモリあるいは主記憶へのスト
アデータを一時的に保持するストアバッファを備えた記
憶装置において、ロード命令により該キャッシュメモリからロードデータ
を読み出した場合には、該ロードデータを該ストアバッ
ファに格納し、前記ストアバッファにストア命令によるストアデータを
格納する際に、前記ストアバッファ中に該ストア命令の対象アドレスと
同一のアドレスのストアデータまたはロードデータが格
納されているエントリが存在する場合、該エントリに前
記ストア命令によるストアデータを格納し、前記ストアバッファ中に前記ストア命令の対象アドレス
と同一のアドレスのストアデータまたはロードデータが
格納されているエントリが存在せず、かつ前記ストアバ
ッファ中に空きエントリが存在する場合、該空きエント
リに前記ストア命令によるストアデータを格納し、前記ストアバッファ中に前記ストア命令の対象アドレス
と同一のアドレスのストアデータまたはロードデータが
格納されているエントリが存在せず、かつ前記ストアバ
ッファ中に空きエントリが存在せず、かつ前記ストアバ
ッファ中にロードデータが格納されているエントリが存
在する場合、該ロードデータが格納されているいずれか
の該エントリに前記ストア命令によるストアデータを格
納することを特徴とする記憶装置。
【請求項３】前記ロード命令の実行時において、前記ス
トアバッファに前記ロード命令の対象アドレスと同じア
ドレスのストアデータまたはロードデータが格納されて
いることが判明した場合には、該ストアデータまたはロ
ードデータを前記ストアバッファより読み出して前記ロ
ード命令の実行結果として転送することを特徴とする請
求項１または請求項２に記載の記憶装置。
【請求項４】前記ロード命令の実行時において、前記ス
トアバッファに前記ロード命令の対象アドレスと同じア
ドレスのストアデータまたはロードデータが格納されて
いることが判明し、該ストアデータまたはロードデータ
を前記ストアバッファより読み出して前記ロード命令の
実行結果として転送する期間において、前記キャッシュ
メモリや前記主記憶へのアクセスを中止することを特徴
とする請求項１乃至請求項３のいずれかひとつに記載の
記憶装置。
【請求項５】ワード内の一部のバイトのみを対象とした
ストア命令の実行時において、前記ストアバッファに前
記ストア命令によるストアデータを格納する際に、前記
ストア命令の対象アドレスと同一のアドレスのストアデ
ータまたはロードデータが格納されているエントリが前
記ストアバッファ中に存在し、更に該エントリに前記ス
トア命令によるストアデータを格納する場合に、前記ス
トア命令がストア対象とするバイト位置には前記ストア
命令によるストアデータを格納し、前記ストア命令がス
トア対象としないバイト位置には書き込みを行わず以前
の値をそのまま保持することを特徴とする請求項１乃至
請求項４のいずれかひとつに記載の記憶装置。
【請求項６】ワード内の一部のバイトのみを対象とした
ストア命令の実行時において、前記ストアバッファに前
記ストア命令によるストアデータを格納する際に、前記
ストア命令の対象アドレスと同一のアドレスのストアデ
ータまたはロードデータが格納されているエントリが前
記ストアバッファ中に存在せず、かつ前記ストアバッフ
ァに空きエントリが存在する場合には、前記キャッシュ
メモリあるいは前記主記憶より、前記ストア命令の対象
アドレスと同一のアドレスのデータを読み出し、該デー
タを前記ストア命令がストア対象としないバイト位置に
格納し、前記ストア命令がストア対象とするバイト位置
には前記ストア命令によるストアデータを格納すること
を特徴とする請求項１乃至請求項５のいずれかひとつに
記載の記憶装置。
【請求項７】前記ストアバッファのエントリのうち、一
部のエントリにはストアデータを格納せず、ロードデー
タのみを格納することを特徴とする請求項１乃至請求項
６のいずれかひとつに記載の記憶装置。
【請求項８】前記ストアバッファに格納されたストアデ
ータを前記ストアバッファから前記キャッシュメモリに
書き込む際に、前記ストアバッファに格納されている前
記ストアデータのうち、前記書き込み可能になったもの
の中から任意の順番で前記キャッシュメモリに書き込み
を行うことを特徴とする請求項１乃至請求項７のいずれ
かひとつに記載の記憶装置。