JP2003067357A

JP2003067357A - 不均一メモリ・アクセス（ｎｕｍａ）データ処理システムおよびその操作方法

Info

Publication number: JP2003067357A
Application number: JP2002170907A
Authority: JP
Inventors: Ravi Kumar Arimilli; ラビクマール・アリミリ; John Steven Dodson; ジョン・スティーブン・ドッドソン; James Stephen Fields Jr; ジュニアジェームズ・スティーブン・フィールズ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-06-21
Filing date: 2002-06-12
Publication date: 2003-03-07
Anticipated expiration: 2022-06-12
Also published as: US20030009640A1; US6658538B2; JP3924206B2

Abstract

(57)【要約】（修正有）【課題】不必要なコヒーレンシー通信をなくした不均
一メモリ・アクセス（ＮＵＭＡ）データ処理システムを
提供する。【解決手段】ＮＵＭＡデータ処理システム１０は、複数
のノード１２を備え，各ノード１２は、複数の処理装置
１４と、ページテーブルを有する少なくとも１つのシス
テム・メモリ２６とを備えている。このテーブルには、
１群の非物理アドレスを物理アドレスに変換するのに用
いる少なくとも１つのエントリを備えている。このエン
トリは、各ノード１２ごとに上記１群の非物理アドレス
に属す制御情報を個別に指定し、少なくとも１つのデー
タ記憶制御フィールドを備えている。このフィールド
は、複数のノード１２のうちの各ノード１２に各々が関
連付けられた複数のライトスルー標識を備え、この標識
がセットされると、関連するノード１２中の処理装置１
４は、変更したデータをキャッシュせず、ホーム・ノー
ド中のシステム・メモリに書き戻す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般にデータ処理
に関し、特に不均一メモリ・アクセス（non-uniform me
mory access:ＮＵＭＡ）データ処理システムに関する。
本発明は、さらに特に、ノード特有の情報を格納したペ
ージ・テーブルを備えたＮＵＭＡデータ処理システムに
関する。

【０００２】

【従来の技術】典型的なコンピュータ・システムのメモ
リ・サブシステムは、少なくとも１つの不揮発性の大容
量記憶装置（たとえば、磁気ディスクや光ディスクな
ど）と、揮発性のＲＡＭ（ランダム・アクセス・メモ
リ）とを備えている。ＲＡＭには、高速のキャッシュ・
メモリと、低速のシステム・メモリとの双方がある。オ
ペレーティング・システムとアプリケーション・ソフト
ウェアが使用するアドレス、すなわちデータと命令用に
加えメモリ・マップＩ／Ｏ用のアドレスを十分に用意す
るために、コンピュータ・システムのプロセッサ（群）
は、通常、ＲＡＭに物理的に存在する記憶場所の数より
もはるかに多いアドレスを備えた仮想アドレス空間を利
用している。したがって、メモリ・マップＩ／Ｏを実行
するには、あるいは、ＲＡＭにアクセスするには、コン
ピュータ・システムは、ソフトウェアとプロセッサのハ
ードウェアが使用している仮想アドレスを、特定のＩ／
Ｏ装置にに割り当てられた物理アドレス、あるいは、Ｒ
ＡＭ中の物理的な場所に変換する必要がある。

【０００３】典型的なコンピュータ・システムでは、仮
想アドレス空間の一部を多数のメモリ・ページに区画し
ている。メモリ・ページは、各々、オペレーティング・
システムが生成する少なくとも１つの関連する、ページ
・テーブル・エントリ（PageTable Entry: ＰＴＥ）と
呼ばれるアドレス記述子を備えている。仮想メモリ・ペ
ージに対応するＰＴＥは、通常、当該（仮想）メモリ・
ページの仮想アドレスと、メインメモリ中の関連する
（物理）ページ・フレームの物理アドレスと、たとえば
当該メモリ・ページが参照あるいは変更されたか否かを
示す統計フィールドとを備えている。ＰＴＥを参照する
ことにより、プロセッサは、メモリ・ページ内の仮想ア
ドレスを実アドレスに変換することができる。ＰＴＥ
は、ＲＡＭ中のページ・テーブルと呼ばれるグループに
格納されている。そして、ＲＡＭ中のＰＴＥにアクセス
して各アドレス変換を実行すると、システムの性能が大
幅に低下するので、既存のコンピュータ・システムの各
プロセッサは、当該プロセッサが最も最近にアクセスし
たＰＴＥをキャッシュして迅速なアクセスを実現するＴ
ＬＢ（Translation Lookaside Buffer: 変換索引バッフ
ァ）をも備えている。

【０００４】ＰＴＥを用いて仮想から実へのアドレス変
換を行なうことは、大多数のコンピュータ・システムで
一般的であるけれども、アドレス変換を行なう方法と、
ＰＴＥをページ・テーブルにグループ化する仕方とは、
コンピュータ・システムごとに異なる。一般に、アドレ
ス変換方式は、階層型変換方式と直接変換方式とに分類
することができる。インテル・コーポレーションが製造
しているｘ８６プロセッサとペンティアム（R)プロセッ
サが用いている典型的な階層型変換方式では、アドレス
変換を次のように実行する。まず、リニア（非物理）ア
ドレス（説明を簡易にするために３２ビットであると仮
定する）を、１０ビットのディレクトリ・フィールド、
１０ビットのテーブル・フィールド、および、１２ビッ
トのオフセット・フィールドに区画する。リニア・アド
レス中のディレクトリ・フィールドの値は、オフセット
として使用し、制御レジスタに格納されているルート・
アドレスに付加してページ・ディレクトリ中のエントリ
にアクセスするのに使う。アクセスしたページ・ディレ
クトリ・エントリは、ページ・テーブルの基底アドレス
を指示しているポインタを格納している。リニア・アド
レス中のテーブル・フィールドの値は、オフセット・ポ
インタを形成しており、ディレクトリ・エントリの値に
付加して、メモリ中のページ・フレームの基底アドレス
を指示しているページ・テーブル・エントリを選択する
のに使う。最後に、オフセット・フィールドの値は、ペ
ージ・フレーム内の特定の物理アドレスを指示してい
る。ページ・ディレクトリとページ・テーブルから情報
をロードするには、大きなレイテンシー（待ち時間）を
伴うメモリ・アクセスを必要とするので、上述した変換
過程と並行にリニア・アドレスの上位２０ビットをも用
いて、ＴＬＢ中の一致するページ・テーブル・エントリ
を探索する。ＴＬＢ中に一致するものが見つかったら、
ページ・ディレクトリとページ・テーブルの代わりに、
一致するページ・テーブル・エントリを用いて、リニア
から実へのアドレス変換を実行する。

【０００５】上述したような階層型アドレス変換を方式
を用いているコンピュータ・システムでは、各プロセス
は、それ自身のページ・テーブルを有している。すなわ
ち、特定のプロセスが参照するメモリ・ページに関連付
けられたすべてのＰＴＥは、同じページ・テーブルにグ
ループ化されている。そして、読み出し専用データには
複数のプロセスが同時にアクセスしうるから、複数のプ
ロセスのページ・テーブルは、読み出し専用データの同
じページに関連付けられたＰＴＥを並行して使うことが
できる。

【０００６】階層型変換方式に対して、直接変換方式
は、仮想から実へのアドレス変換の実行に必要なＰＴＥ
を突き止めるのに、アクセスすべき複数レベルのディレ
クトリやテーブルを必要としない。その代わり、直接変
換方式では、ページ・テーブル中にある必要なＰＴＥの
物理アドレスを決めるのに、仮想アドレスをハッシュ
（し、かつ、オペレーティング・システムが指定するビ
ットを連結）する。次いで、ページ・テーブルを探索し
て必要なＰＴＥを突き止める。このページ・テーブル
は、通常、ユニプロセッサ・コンピュータ・システムと
マルチプロセッサ・コンピュータ・システムとの双方に
おいて、すべてのＰＴＥを格納しているグローバル・ペ
ージ・テーブルである。無論、ＲＡＭ中のページ・テー
ブルの探索が必要なのは、変換すべき仮想アドレスが特
定しているＰＴＥがプロセッサのＴＬＢに存在しない場
合だけである。

【０００７】近年、既存のＳＭＰ（symmetric multipro
cessor: 対称型マルチプロセッサ）コンピュータ・シス
テムのスケーラビリティ（拡張容易性）その他の限界を
克服するマルチプロセッサ・コンピュータ・システムの
開発にますます重点が置かれるようになった。このよう
な弱点を扱う最新のアーキテクチャの１つにＮＵＭＡ
（non-uniform memory access:不均一メモリ・アクセ
ス）アーキテクチャがある。ＮＵＭＡアーキテクチャと
は、システム中の少なくとも２つのプロセッサのアクセ
ス時間が異なるシステム・メモリを備えたマルチプロセ
ッサ・アーキテクチャのことである。メモリ・アクセス
時間の不均一性の結果、そのようなデータを参照するプ
ロセスに関し、データの動的な場所がＮＵＭＡデータ処
理システムの性能を決定する要因である。それゆえ、最
小アクセス時間したがって最適な性能を実現するために
は、そのようなデータを参照しているプロセスを実行し
ているプロセッサのできるだけ「近く」にデータが存在
するのが望ましい。

【０００８】少なくとも１つのプロセッサがデータの
「プロデューサー（生産者）」として機能し、少なくと
も１つの他のプロセッサがデータの「コンシューマー
（消費者）」として機能する大きなアプリケーションを
実行するには、大型のマルチプロセッサ・コンピュータ
・システム、特にＮＵＭＡシステムを用いることが多
い。プロデューサー・プロセッサは、大量のデータを処
理してメモリ・ページの集合に格納する（変更する）。
プロデューサーは、特定のデータを格納すると、その後
は通常、当該データに２度とアクセスしない。逆に、コ
ンシューマー・プロセッサは、大量のオペランド・デー
タをロードする（読み出す）けれども、通常、当該デー
タを変更（格納）することはない。この一般的なソフト
ウェア構成の観点から、本発明の認識によれば、性能を
向上させるには、プロデューサーを含むＮＵＭＡノード
に、変更したデータをメモリ階層の下位レベルに押し下
げさせればよい。なぜなら、プロデューサーは当該デー
タに２度とアクセスしないからである。同様に、本発明
の認識によれば、コンシューマーを含むＮＵＭＡノード
がデータをキャッシングしないようにするのが好都合で
ある。なぜなら、コンシューマーがデータを変更するこ
とはありえないからである。

【０００９】

【発明が解決しようとする課題】本発明の目的は、不必
要なコヒーレンシー通信をなくすとともにデータ・アク
セスのレイテンシーを低減したＮＵＭＡデータ処理シス
テムを提供することである。

【００１０】本発明の他の目的は、ノード特有の制御ビ
ットを有するページ・テーブルを備えたＮＵＭＡデータ
処理システムを提供することにより、上記目的を達成す
ることである。

【００１１】

【課題を解決するための手段】本発明に係る不均一メモ
リ・アクセス（ＮＵＭＡ）データ処理システムは、ノー
ド相互接続体に接続された複数のノードを備えている。
この複数のノードは、複数の処理装置と、自身の中に存
在するテーブル（たとえばページ・テーブル）を有する
少なくとも１つのシステム・メモリとを備えている。こ
のテーブルは、１群の非物理アドレスを物理アドレスに
変換するのに用いる少なくとも１つのエントリを備えて
いる。このエントリは、複数のノードの各ノードごとに
上記１群の非物理アドレスに属す制御情報を個別に指定
している。この制御情報は、少なくとも１つのデータ記
憶制御フィールドを備えている。このデータ記憶制御フ
ィールドは、複数のノードのうちの各ノードに各々が関
連付けられた複数のライトスルー標識を備えている。ラ
イトスルー標識がセットされていると、関連するノード
中の処理装置は、変更したデータを、キャッシュするこ
となく、ホーム・ノード中のシステム・メモリに書き戻
す。上記制御情報は、さらに、複数のノードのうちの各
ノードに各々が関連付けられた複数のキャッシュ不能標
識から成るデータ記憶制御フィールドを備えることがで
きる。キャッシュ不能標識がセットされると、関連する
ノード中の処理装置は、テーブル・エントリを参照して
変換される群中の非物理アドレスに関連付けられたデー
タをキャッシュしないように命じられる。上記制御情報
は、コヒーレンシー制御情報をも備えることができる。
コヒーレンシー制御情報は、各ノードに、テーブル・エ
ントリに関連付けられたデータ用のノード間コヒーレン
シーがソフトウェア支援によって維持されるか否かを個
別に示すものである。

【００１２】

【発明の実施の形態】〔システムの概観〕

【００１３】次に、図面を参照する。図１は、本発明に
よるＮＵＭＡコンピュータ・システム１０の典型的な実
施形態を示す図である。図示した実施形態は、たとえ
ば、ワークステーション、サーバ、またはメインフレー
ム・コンピュータとして実現しうる。

【００１４】図１に示すように、ＮＵＭＡコンピュータ
・システム１０は、ノード相互接続体１５で接続された
少なくとも２つのノード１２を備えている。ノード相互
接続体１５は、図示するように、スイッチとして実現す
ることができる。本発明ではそうである必要はないけれ
ども、図示した実施形態では、各ノード１２は本質的に
同一である。各ノード１２は、ローカル相互接続体１８
で接続された少なくとも１つの処理装置１４と、ローカ
ル相互接続体１８とノード相互接続体１５との間に接続
されたノード・コントローラ１６とを備えている。各ノ
ード・コントローラ１６は、他のノード１２用のローカ
ル・エージェント（手元にある代行者）として機能す
る。すなわち、ノード・コントローラ１６は、ローカル
相互接続体１８上で受信した所定のオペレーションを他
のノード１２へノード相互接続体１５を介して送信する
とともに、ノード相互接続体１５を介して受信した所定
のオペレーションをローカル相互接続体１８上に送信す
る。

【００１５】下で詳述するように、処理装置１４は、Ｃ
ＰＵ２０を備えている。ＣＰＵ２０は、命令フロー論理
回路とソフトウェア命令を実行するのに用いる実行装置
とを備えている。各処理装置１４は、さらに、キャッシ
ュ階層体２２を備えている。キャッシュ階層体２２は、
全ＮＵＭＡコンピュータ・システム１０中のデータ記憶
装置から関連するＣＰＵ２０にデータをステージするの
に用いる少なくとも１レベルのオンチップ・キャッシュ
（すなわちＣＰＵチップ上に形成されたキャッシュ）を
含んでいる。さらに、処理装置１４は、インタフェース
装置２５と応答論理回路２３とを備えている。インタフ
ェース装置２５は、処理装置１４とローカル相互接続体
１８との間のアドレス、データ、およびコヒーレンシー
（一貫性）操作の通信を処理する。応答論理回路２３
は、ローカル相互接続体１８上に発行されるオペレーシ
ョンに対する組み合わせ応答を、当該オペレーションに
対する様々なスヌープ応答から判別する。最後に、処理
装置１４は、各々、メモリ・コントローラ２４を備えて
いる。メモリ・コントローラ２４は、処理装置１４群の
間に分散配置されている物理システム・メモリ２６のう
ちの関連する１つに対するアクセスを制御する。本発明
の別の実施形態として、システム・メモリは、各ノード
において、ローカル相互接続体１８に接続された関連す
る１つのメモリ・コントローラが制御する単一のシステ
ム・メモリとして実現してもよい。

【００１６】現在の仕様では、「システム・メモリ」と
は、（エラー状態が存在しない場合）物理的データ記憶
装置中の個別の記憶場所に永続的に関連付けられた一意
のアドレスを用いてアドレッシングする物理的データ記
憶装置のことである。あるノード１２が、全ＮＵＭＡコ
ンピュータ・システム１０中の１つのデータを一意に特
定するのに用いるアドレスに関連付けられた、そのシス
テム・メモリ２６中の記憶場所に、あるデータを格納し
ている場合、当該ノード１２は当該データのホーム・ノ
ードであると定義される。逆に、他のノード１２群は、
当該データに関しリモート・ノードであると定義され
る。

【００１７】図１に示すように、ノード１２間のデータ
共用を支援するために、メモリ・コントローラ１４は、
ローカル・メモリ・ディレクトリ（ＬＭＤ）３２と、関
連するリモート・メモリ・ディレクトリ（ＲＭＤ）３４
を備えたリモート・メモリ・キャッシュ（ＲＭＣ）３０
とを利用する。ここで使用しているように、ローカル・
メモリ・ディレクトリ（ＬＭＤ）とは、関連する（すな
わちローカルの）システム・メモリに存在するデータに
関し、当該データが少なくとも１つのリモート・ノード
にキャッシュされているか否かに関する表示を格納して
いるディレクトリのことである。逆に、リモート・メモ
リ・ディレクトリ（ＲＭＤ）とは、他の（すなわちリモ
ートの）ノード（群）のシステム・メモリに由来するど
のデータが、関連するリモート・メモリ・キャッシュ
（ＲＭＣ）にキャッシュされているかを表示しているデ
ィレクトリのことである。

【００１８】無論、ＮＵＭＡコンピュータ・システム１
０は、追加の装置をさらに備えてもよい。それらは、本
発明を理解するのに必要でないので、本発明を曖昧にし
ないために図１には示されていない。たとえば、任意の
ノード１２は、Ｉ／Ｏアダプタ、ネットワーク・アダプ
タ、オペレーティング・システムやアプリケーション・
ソフトウェアを格納する不揮発性記憶装置、および、ネ
ットワークや付属装置への接続用のシリアル・ポートと
パラレル・ポートをサポートしてもよい。

【００１９】〔メモリの構成〕

【００２０】ＮＵＭＡコンピュータ・システム１０の性
能に影響するのは、とりわけ、データ・アクセス・レイ
テンシー（待ち時間）である。ノード内のデータ要求に
対するアクセス・レイテンシーは、通常、ノード間のデ
ータ要求に対するアクセス・レイテンシーよりもずっと
小さいから、システム性能が向上するのは、一般に、処
理装置１４を備えた各ノード１２が大データ記憶容量を
備えてノード間データ要求を最小にした場合である。た
とえば、典型的な実施形態では、ＮＵＭＡコンピュータ
・システム１０は、４つのノード１２を備えている。各
ノード１２は、４つの処理装置１４と４つのシステム・
メモリ２６を備えている。各システム・メモリ２６の容
量は、１ギガバイト（ＧＢ）以上である。したがって、
システム・メモリの合計記憶容量は、数ギガバイトにな
る。システム・メモリ２６は、容量が大きいので、一般
に、コストを考慮して、バイト当りのコストの低いメモ
リ技術（たとえばＤＲＡＭ〔動的ランダム・アクセス・
メモリ〕）で構築する必要がある。

【００２１】本発明によると、システム・メモリ２６の
記憶容量は、（たとえばＮＵＭＡコンピュータ・システ
ム１０のオペレーティング・システムによって）少なく
とも１つのアドレス空間に区画されている。図１に示す
実施形態では、各システム・メモリ２６は、システム・
メモリ・アドレス空間２８を備えている。システム・メ
モリ・アドレス空間２８は、ＮＵＭＡコンピュータ・シ
ステム１０のオペレーティング・システムが、様々なオ
ペレーティング・システム・プロセスとアプリケーショ
ン・プロセスに命令とデータの記憶用に割り当てたもの
である。さらに、各ノード１２の、処理装置１４を有す
る少なくとも１つのシステム・メモリ２６は、少なくと
も１つの他のノード１２のシステム・メモリ中に存在す
るデータに対応するデータを格納するＲＭＣ３０を備え
ている。したがって、各ノード１２のリモート・メモリ
・キャッシュは、１つの、可能であれば複数のシステム
・メモリ２６中に組み込まれている。ＲＭＣ３０が複数
のシステム・メモリ２６に分散している実施形態では、
キャッシュ・ライン（これらは同じノード１２の少なく
とも任意のＣＰＵ２０にとってアクセス可能である）
は、特定のＲＭＣにマップされているのが望ましい。こ
のマッピングは、キャッシュ・ラインに関連付けられた
物理アドレスまたは論理アドレスをハッシュすることに
よって行なう。

【００２２】リモート・メモリ・キャッシュは低コスト
のＤＲＡＭで実現しているので、ＲＭＣ３０のバイト当
りのコストは、ＳＲＡＭで実現した場合と比べて大幅に
低い。すなわち、追加のコストをほとんどかけなくと
も、そのサイズを大幅に増大させることができる。さら
に、リモート・メモリ・キャッシュを複数のシステム・
メモリに分散させることにより、帯域幅が大幅に改善す
る。それは、アクセス制御を単一のノード・コントロー
ラではなく複数のメモリ・コントローラ２４全体に分散
させているからである。

【００２３】留意点を挙げると、本発明の一部の実施形
態では、オペレーティング・システムは、少なくとも１
つのノードにおいて、リモート・メモリ・キャッシュに
物理システム・メモリの一部または全部を割り当て、シ
ステム・メモリのアドレス空間に物理システム・メモリ
を全く割り当てないようにしている。このような実施形
態では、システム・メモリのアドレス空間は、たとえば
ラック・システム中のディスク・メモリ引き出しとして
実現された少なくとも１つのノードに局限されている。
一方、処理装置を有する他のノードの物理システム・メ
モリは、リモート・メモリ・キャッシュとして割り当て
られている。

【００２４】上述したように、ＲＭＣ３０の少なくとも
一部を保持するように割り当てられたシステム・メモリ
２６に関連付けられた各メモリ・コントローラ２４は、
ＲＭＤ３４を備えており、ＲＭＣ３０の自分に関連付け
られた部分の内容をそれに記録する。既存のキャッシュ
・ディレクトリの場合と同様に、ＲＭＤ３４は、ＲＭＣ
３０中のデータに関係するアドレス情報だけでなく、コ
ヒーレンシー情報、置き換え情報、および、任意事項と
しての追加の状態情報（たとえば包含性）をも格納する
のが望ましい。

【００２５】メモリ・コントローラ２４によるＲＭＤ３
４への迅速なアクセスを支援するために、ＲＭＤ３４
は、図１に示すように、高速のＳＲＡＭで実現すること
ができる。この実現方法によるとアクセス・レイテンシ
ーが大幅に低減するのは、要求に応答してなされるディ
レクトリの探索が迅速になるからである。しかし、ＲＭ
Ｃ３０の場合と同様に、ＲＭＤ３４にＳＲＡＭを使う
と、実際のシステムでは、高価になるとともに、ＲＭＤ
３４（したがってＲＭＣ３０）のサイズが制限されてし
まう。これらの問題点を扱うのに、２つの方法をとるこ
とができる。

【００２６】第１に、ＲＭＤ３４をＳＲＡＭ（または他
の高コスト記憶技術）で実現する場合、ＲＭＤ３４は、
大きなセクタを実現して（すなわち、大きなデータ・ブ
ロックをタグと状態情報の組に関連付けて）、ＳＲＡＭ
の記憶容量の使用を最適化することができる。第２の方
法は、ＲＭＤ３４をＲＭＣ３０と一緒にシステム・メモ
リ２６に組み込むものである。この方法で、ＲＭＤ３４
を実現するコストを大幅に低減させることができる。あ
るいは、追加のコストなしに、ＲＭＤ３４とＲＭＣ３０
のサイズを大幅に増大させることができる。ＲＭＤ３４
をシステム・メモリ２６のＤＲＡＭに組み込むと、ディ
レクトリ・アクセス時間が増大する可能性があるけれど
も、メモリ・コントローラ２４に最近アクセスされた
（したがってアクセスされる可能性の高い）ディレクト
リ・エントリを含む小さなディレクトリ・キャッシュを
備えることにより、余分なディレクトリ・アクセス・レ
イテンシーを低減させることができる。

【００２７】ＮＵＭＡコンピュータ・システム１０のオ
ペレーティング・システムがＲＭＤ３４および／または
ＲＭＣ３０に割り当てるシステム・メモリの量は、性能
を評価する上で重要である。（「Ａおよび／またはＢ」
は「ＡおよびＢ、Ａ、またはＢ」を表わす。）というの
は、大きなＲＭＣ３０とＲＭＤ３４を割り当てると、シ
ステム・メモリのアドレス空間２８が必然的に減少する
からである。好適な実施形態では、ＲＭＣ３０とＲＭＤ
３４に割り当てるシステム・メモリ２６対システム・メ
モリのアドレス空間の割合は、実行すべきアプリケーシ
ョンの必要に応じて動的に変化しうる。たとえば、アプ
リケーションが自身が実行することになっているノード
１２内のメモリしかアクセスしないことをオペレーティ
ング・システムが検出した場合には、オペレーティング
・システムは、システム・メモリのアドレス空間２８と
比べてかなり小さな空間をＲＭＣ３０（およびそれに関
連付けられたＲＭＤ３４）に割り当てるだけでよい。逆
に、アプリケーションがリモート・メモリに対する頻繁
なアクセスを必要とするようになることをオペレーティ
ング・システムが検出した場合には、オペレーティング
・システムは、システム・メモリの大きな部分をＲＭＣ
３０（およびそれに関連付けられたＲＭＤ３４）に割り
当てる必要がある。

【００２８】ＲＭＣ３０（およびＲＭＤ３４）は、少な
くとも２つの交換可能な方法に従って構成することがで
きる。第１に、ＲＭＣ３０は、包含的（または疑似包含
的）キャッシュとして実現することができる。包含的キ
ャッシュとは、ローカル・キャッシュ階層体２２中に保
持されている、他のノードに由来するデータのスーパー
セット（拡大集合）を全体として格納するキャッシュの
ことである。この実施形態では、キャッシュ・ラインを
あるノード１２のＲＭＣ３０中にロードするのは、要求
されたキャッシュ・ラインを他のノード１２から受け取
ったときである。あるいは、ＲＭＣ３０は、「犠牲キャ
ッシュ」として実現することもできる。犠牲キャッシュ
とは、ローカル・キャッシュ階層体２２から割り当てを
解除された共用あるいは変更コヒーレンシー状態にある
リモート・データのキャッシュ・ラインしか保持しない
キャッシュのことである。

【００２９】〔メモリ・コヒーレンシー〕

【００３０】システム・メモリ２６に格納されているデ
ータは、一般に、ＮＵＭＡコンピュータ・システム１０
内の任意のＣＰＵ２０によって要求され、アクセスさ
れ、変更さるから、ＮＵＭＡコンピュータ・システム１
０は、互換性のあるキャッシュ・コヒーレンシー・プロ
トコルのうちの少なくとも１つを実装（implement)し
て、キャッシュ階層体２２とノード１２のＲＭＣ３０と
の間のコヒーレンシー（すなわち、システム・メモリの
アドレス空間２８の全内容の一貫した見え方）を維持し
ている。したがって、ＮＵＭＡコンピュータ・システム
１０は、ＣＣ−ＮＵＭＡコンピュータ・システムとして
分類するのが適切である（ＣＣ＝キャッシュ・コヒーレ
ンス）。キャッシュ・コヒーレンス・プロトコルは、実
装（implementation) に依存するとともに、たとえば、
周知のＭＥＳＩ（Modified, Exclusive, Shared, Inval
id）プロトコルまたはそれを変形したプロトコルから成
る。当業者が理解しうるように、キャッシュ階層体２２
が使用するコヒーレンシー・プロトコルは、ローカル相
互接続体１８とノード相互接続体１５をまたいだ様々な
実装依存メッセージの送信を必要とする。これらの実装
依存メッセージには、キャッシュ階層体２２にＣＰＵ２
０が実行する命令を知らせるためのもの、必要なデータ
と命令を取得するためのもの、変更したデータをシステ
ム・メモリ２６にライトバックする（書き戻す）ための
もの、および、コヒーレンシーを維持するのに必要な他
の機能を実行するためのもの、などがある。

【００３１】ノード間のコヒーレンシーを維持するため
に、メモリ・コントローラ２４は、関連するシステム・
メモリのアドレス空間２８からリモート・ノード１２に
取り出したデータ（すなわちキャッシュ・ライン）のシ
ステム・メモリ・アドレス表示をＬＭＤ３２に格納して
いる。小規模なディレクトリを維持するのが重要な低価
格の実装では、ＬＭＤ３２は、各データ・グラニュール
に、当該データ・グラニュールが少なくとも１つのリモ
ート・ノード１２に「取り出されている（checked ou
t)」か否かに関して不明確な表示しか関連付けていな
い。これに対して、高価格の実装では、ＬＭＤ３２は、
各データ・グラニュールに関連付けて、各リモート・ノ
ード１２におけるキャッシュ・ラインのコヒーレンシー
状態の表示を格納しているのが望ましい。本発明の典型
的な実施形態によるＬＭＤ３２のエントリに格納される
ノード当りのコヒーレンシー状態には、表１にまとめた
ようなものがある。

【００３２】

【表１】

【００３３】表１に示すように、高価格の実装において
さえ、リモート処理ノードが保持しているキャッシュ・
ラインのコヒーレンシー状態は、ある程度の不明確さを
伴わないと知ることができない。不明確さの程度は、当
該コヒーレンシー・プロトコルの実装によって、リモー
ト側が保持しているキャッシュ・ラインが、ホーム・ノ
ードのＬＭＤ３２に知らせることなくＳからＩへ、Ｅか
らＩへ、または、ＥからＭへ遷移できるか否かによる。

【００３４】〔処理装置のアーキテクチャ〕

【００３５】次に、図２を参照する。図２は、ＮＵＭＡ
コンピュータ・システム１０の処理装置１４の実施形態
のより詳細なブロック図である。図２に示す実施形態で
は、処理装置１４は、単一の処理装置から成り、様々な
実行装置、レジスタ、バッファ、メモリ、および、その
他の機能装置を備えている。これらは、すべて、集積回
路構成要素によって形成されている。

【００３６】図２に（そして図１にも）示すように、処
理装置２０は、ＣＰＵ２０、キャッシュ階層体２２、メ
モリ・コントローラ２４、および、インタフェース装置
（ＩＵ）２５を備えている。ＩＵ２５は、処理装置２０
をローカル相互接続体１８に接続している。ＩＵ２５
は、さらに、キャッシュ階層体２２に接続されている。
キャッシュ階層体２２は、図示した実施形態では、統合
されたレベル２（Ｌ２）キャッシュ４２と別々のレベル
１（Ｌ１）データ・キャッシュ４４およびＬ１命令キャ
ッシュ４６とを備えている。Ｌ１データ・キャッシュ４
４とＬ１命令キャッシュ４６にそれぞれ格納されている
データと命令には、アドレス・タグで特定してアクセス
する。各アドレス・タグは、システム・メモリ２６中の
データまたは命令の物理アドレスの所定数の上位ビット
から成る。後述するように、ＣＰＵ２０がデータと命令
を参照するのに用いるのは、実効アドレスである。した
がって、ＣＰＵ２０がキャッシュ４２、４４、４６中の
データと命令にアクセスできるようにするために、デー
タ・メモリ管理装置（ＤＭＭＵ）４８と命令メモリ管理
装置（ＩＭＭＵ）５０が、データと命令の実効アドレス
をそれぞれ仮想アドレス、次いで物理アドレスに変換す
る。この物理アドレスがキャッシュ４２、４４、４６に
供給される。

【００３７】Ｌ１命令キャッシュ４６とＩＭＭＵ５０
は、さらに、命令順序付け装置５２に接続されている。
命令順序付け装置５２は、ＩＭＭＵ５０が変換したアド
レスを用いてＬ１命令キャッシュ４６から実行用の命令
をフェッチする。命令順序付け装置５２は、分岐命令は
内部で処理し、順序（非分岐）命令は当該順序命令用の
実行資源が利用可能になるまで一時的にバッファリング
する。図示した実施形態では、プロセッサ２０の順序実
行資源には、整数演算装置（ＩＵ）６２、ロード・スト
ア装置（ＬＳＵ）６８、および、浮動小数点演算装置
（ＦＰＵ）７４がある。実行装置６２、６８、７４の各
々は、通常、汎用レジスタ（ＧＰＲ）６６と浮動小数点
レジスタ（ＦＰＲ）７２に格納されているオペランドを
参照して、各プロセッサ時間内に特定の型の順序命令群
のうちの少なくとも１つの順序命令を実行する。

【００３８】実行装置６２、６８、７４のうちのあるも
のがある命令の実行を終了すると、当該実行装置は、完
了装置７６に通知する。すると、完了装置７６は、当該
命令の完了を指示する。必要な場合には、データのコミ
ットメントがＣＰＵ２０の状態に反映される（コミット
メントはコミットとロールバックの総称である）。

【００３９】〔仮想アドレス空間〕

【００４０】本発明を説明するために、一実施形態につ
いて述べる。この実施形態では、ＮＵＭＡデータ処理シ
ステム１０の各ＣＰＵ２０の命令順序付け装置５２とＬ
ＳＵ６８は、命令とデータを参照するのに、３２ビット
の実効アドレスを用いる。すなわち、ＣＰＵ２０は、４
ギガ（Ｇ）バイト（２³²）の実効アドレス空間を有す
る。この実効アドレス空間は、５２ビットの仮想アドレ
スによって参照されるずっと大きな仮想アドレス空間の
サブセット（部分集合）である。この仮想アドレス空間
は、ＮＵＭＡデータ処理システム１０中の全ＣＰＵ２０
が共用するするが、多数（たとえば４キロ〔Ｋ〕バイ
ト）のメモリ・ページに区画されている。各メモリ・ペ
ージは、ページ・テーブル・エントリ（ＰＴＥ）アドレ
ス記述子を備えている。ＰＴＥは、（仮想）メモリ・ペ
ージの基底仮想アドレスと、１つのシステム・メモリ２
６中の（物理）メモリ・ページの対応する（基底）物理
アドレスとを関連付けている。

【００４１】システム・メモリ２６を備えた複数のノー
ド１２の各々は、自身のシステム・メモリ２６中に存在
する少なくとも１つのページ・テーブルを有する。各ペ
ージ・テーブルに含まれているＰＴＥの構成は、ＮＵＭ
Ａデータ処理システム１０のオペレーティング・システ
ムが２つのハッシュ関数のうちの一方を用いて行なう。
本発明によれば、特定の処理ノード１２中の処理装置１
４は、ローカルの（すなわち自身の）システム・メモリ
２６中のページ・テーブルに存在するＰＴＥだけにアク
セスしてそれをキャッシュし、他のノード１２中のペー
ジ・テーブルにはアクセスしないのが望ましい。

【００４２】〔ページ・テーブル〕

【００４３】次に、図３を参照する。図３は、図１のＮ
ＵＭＡコンピュータ・システム１０のシステム・メモリ
２６中に存在するページ・テーブル１９の典型的な実施
形態を示す詳細なブロック図である。ページ・テーブル
１９は、可変サイズのデータ構造であり、多数のページ
・テーブル・エントリ・グループ（ＰＴＥＧ）８０から
成る。各ＰＴＥＧ８０は、多数のＰＴＥ８２を備えてい
る。各ＰＴＥ８２は、ページ・テーブル１９中の主ＰＴ
ＥＧ８４または副ＰＴＥＧ８６中の任意の場所に割り当
てることができる。主ＰＴＥＧ８４にするか副ＰＴＥＧ
８６にするかは、不揮発性記憶装置からページインする
ときに、オペレーティング・システム２１がメモリ中に
関連するメモリ・ページをセットアップするのに主ハッ
シュ関数を使うか副ハッシュ関数を使うかによる。主Ｐ
ＴＥＧ８４と副ＰＴＥＧ８６のアドレスは、図２のテー
ブル・ウォーク・コントローラ７８によるページ・テー
ブル探索操作用のエントリ・ポイントとして機能する。

【００４４】〔ページ・テーブル・エントリ（ＰＴ
Ｅ）〕

【００４５】次に、図４を参照する。図４は、ページ・
テーブル１９中の各ＰＴＥ８２の構造を示す図である。
図示するように、各ＰＴＥ８２は、有効ビット９０、仮
想セグメントＩＤ（ＶＳＩＤ）９２、ハッシュ関数識別
子（Ｈ）９４、および、短縮ページ・インデックス（Ab
breviated Page Index: ＡＰＩ）９６を備えている。有
効ビット９０は、ＰＴＥエントリ８２が有効であるか否
かを示す。ＶＳＩＤ９２は、仮想ページ番号の上位ビッ
トを特定している。ハッシュ関数識別子（Ｈ）９４は、
ＰＴＥ８２を生成するのに使用したのが主ハッシュ関数
と副ハッシュ関数のうちのどちらであるかを示す。ＡＰ
Ｉ９６は、仮想ページ番号の下位ビットを特定してい
る。ハッシュ関数識別子（Ｈ）９４と、ＶＳＩＤ９２お
よびＡＰＩ９６によって特定される仮想ページ番号と
は、ページ・テーブル１９の探索中、または、ＤＭＭＵ
４８とＩＭＭＵ５０が維持しているＴＬＢ（変換索引バ
ッファ）４９と５１の探索中に特定のＰＴＥ８２を突き
止めるのに使用する。

【００４６】なお図４を参照する。各ＰＴＥ８２は、さ
らに、物理ページ番号（ＰＰＮ）９８、被参照（Ｒ）ビ
ット１００、被変化（Ｃ）ビット１０２、メモリ・アク
セス属性（ＷＩＭＧ）ビット１０４、および、ページ保
護（ＰＰ）ビット１０６を備えている。物理ページ番号
（ＰＰＮ）９８は、対応する物理メモリ・ページ・フレ
ームを特定している。被参照（Ｒ）ビット１００と被変
化（Ｃ）ビット１０２は、これらのビットをリセットし
てからメモリ・ページがアクセスあるいは変更されたか
否かを示している。メモリ・アクセス属性（ＷＩＭＧ）
ビット１０４は、メモリ・ページに対するメモリ更新モ
ードを特定している。ページ保護（ＰＰ）ビット１０６
は、メモリ・ページに対するアクセス保護制約条件を定
義している。最後に、各ＰＴＥ８２は、本発明が導入し
たノードに特有の次に示す新たな３つのフィールドを備
えている。すなわち、ノード・ライトスルー（Node Wri
teThrough: ＮＷＴ）フィールド１０８、ノード・ノー
・インテント・ツー・キャッシュ（Node No-Intent-to-
Cache:ＮＮＣ）フィールド１１０、および、ノード・ロ
ーカル・リード・ウィズ・インテント・ツー・モディフ
ァイ（Node Local Read-with-Intent-to-Modify:ＮＬ
Ｍ）フィールド１１２である。

【００４７】好適な実施形態では、ＮＷＴフィールド１
０８は、ＮＵＭＡコンピュータ・システム１０中のノー
ド１２ごとに１ビット備えている。各ビットは、当該ビ
ットに関連付けられたノード１２の処理装置１４が、Ｐ
ＴＥ８２に関連付けられたメモリ・ページに属すあるデ
ータに対してライトスルー・モードで動作するか否かを
制御する。ただし、これを行なうのは、当該データが別
のノード１２中のシステム・メモリ２６のアドレス空間
２８に存在する場合である。たとえば、ノード１のＣＰ
Ｕ２０がノード１に対してライトスルーと印を付けられ
た、メモリ・ページ中の場所にストアを発行したとす
る。ＣＰＵ２０は、ＰＴＥ８２中にセットされたノード
１用のビットを見つけると、自身の関連するキャッシュ
とメモリの階層体にストア・データ（変更したデータ）
をＮＷＴ標識と一緒に送る。このＮＷＴ標識は、変更し
たデータのホーム・ノードがノード１以外のノード１２
である場合には、当該変更したデータを保持しないよう
にキャッシュ階層体２２に命ずるものである。このＮＷ
Ｔ標識とストア・データを受け取ると、ＣＰＵ２０に関
連付けられたキャッシュ階層体２２は、オペレーティン
グ・システムがセットしたメモリ構成レジスタを参照し
て、ローカルのノード（すなわちＣＰＵ２０が属すノー
ド）が当該ストア・データ用のホーム・ノードであるか
否かを判断する。Ｙｅｓならば、キャッシュ階層体２２
は、既存のアクセス制御（ＷＩＭＧ）ビット１０４（こ
れは、通常、キャッシュ階層体２２が当該ストア・デー
タをキャッシュすべきことを意味している）に従って当
該ストア・データを処理する。このように、キャッシュ
階層体２２は、引き続いて、介入を変更することによ
り、他の要求者にストア・データを供給することができ
る。

【００４８】しかしながら、ストア・データに対するホ
ーム・ノードがローカルのノードでない場合、キャッシ
ュ階層体２２は、変更したデータをホーム・ノード１２
中のシステム・メモリ２６に書き戻すライト・トランザ
クションをローカル相互接続体１８に発行する。この場
合、当該変更したデータをホーム・ノード１２に直ちに
書き戻すので、ホーム・ノード１２のメモリ・コントロ
ーラ２４は、別のコヒーレンシー通信を通じてリモート
のノード１２から当該変更したデータを書き戻すように
要求する必要がない。この結果、コンシューマーによる
引き続く読み出し要求のアクセス・レイテンシーが改善
される。したがって、ＮＵＭＡコンピュータ・システム
１０のオペレーティング・システムは、通常、プロデュ
ーサーを含むノード１２ごとにＮＷＴビットをセットす
るが、コンシューマーを含むノード１２用にはＮＷＴビ
ットをセットしない。

【００４９】余談になるが、留意点を挙げると、ＮＷＴ
フィールド１０８はアクセス制御（ＷＩＭＧ）ビット１
０４に属すライトスルー（Ｗ）ビットに取って代わるも
のではないから、上位互換性は維持されている。その代
わり、Ｗビットがセットされていると、ＮＷＴフィール
ド１０８は無視される。

【００５０】ＮＷＴフィールド１０８と同様に、ＮＮＣ
フィールド１１０は、ＮＵＭＡコンピュータ・システム
１０中のノード１２ごとに１ビット備えているのが望ま
しい。ＮＮＣフィールド１１０中の各ビットは、自身が
関連するノード１２用のリード・ウィズ・ノー・インテ
ント・ツー・キャッシュ（Read-With-No-Intent-To-Cac
he: ＲＷＮＩＴＣ）フラグとして機能する。たとえば、
ノード２中のＣＰＵ２０がノード２用にセットされたＮ
ＮＣビットを有する、メモリ・ページ中の場所にロード
を発行したとする。すると、ＣＰＵ２０は、自身に関連
するキャッシュとメモリの階層体にリード要求をＮＮＣ
標識と一緒に送る。ただし、このＮＮＣ標識は、ＣＰＵ
２０のキャッシュ階層体に、要求したデータをキャッシ
ュしないように命ずるものである。上記リード要求がキ
ャッシュ階層体２２でミスしたと仮定すると、リード要
求とＮＮＣ標識に対するキャッシュ階層体２２の応答
は、既存のリード要求ではなく、自身のローカル相互接
続体２８にＲＷＮＩＴＣ要求（たとえば、ＮＮＣフラグ
をセットさせるリード要求）を発行することである。容
易に理解しうるように、ＲＷＮＩＴＣ要求は、ローカル
のノード・コントローラ１６が別のノード１２に送信し
てサービスさせるものである。

【００５１】重要なのは、ＲＷＮＩＴＣ要求中のＮＮＣ
フラグが、キャッシュ階層体２２中のコヒーレンシー管
理論理回路と要求を受け取ったメモリ・コントローラ２
４とに、ＣＰＵのロード要求を満足させた後は、要求さ
れたデータは要求元のキャッシュ階層体２２に保持され
ないということを知らせている点である。したがって、
他のキャッシュ階層体２２中に存在する要求されたデー
タのコピーのコヒーレンシー状態は、ＲＷＮＩＴＣ要求
に応答して更新する必要がない。そして、要求されたデ
ータのホーム・ノード１２がＲＷＮＩＴＣ要求を処理し
た場合には、ホーム・ノード１２のＬＭＤ３２は、更新
する必要がない。さらに、処理装置１４が引き続いて同
じデータに対して（たとえばリード・ウィズ・インテン
ト・ツー・モディファイ〔Read-with-Intent-to-Modif
y〕要求を発行することにより）排他的なアクセスを要
求すると、要求されたデータが存在するホーム・ノード
１２のシステム・メモリ２６のメモリ・コントローラ２
４は、ノード２における要求されたデータのコピーを無
効にする必要がない。したがって、ノード間のコヒーレ
ンシー用の通信量が低減するので、性能が向上する。上
述した点から認識しうるように、ＮＵＭＡコンピュータ
・システム１０のオペレーティング・システムは、コン
シューマーを有するノード１２ごとにＮＮＣビットをセ
ットし、プロデューサーを有するノードに対してはＮＮ
Ｃビットをセットしないのが望ましい。

【００５２】なお図４を参照する。各ＰＴＥ８２中のＮ
ＬＭフィールド１１２は、ＮＵＭＡコンピュータ・シス
テム１０中の各ノード１２に関連付けられた１ビットを
有するのが望ましい。各ＮＬＭビットは、関連するノー
ド１２中のハードウェアが、対応するメモリ・ページ中
のアドレスに対してＮＵＭＡコンピュータ・システム１
０全体のグローバル・コヒーレンシーを維持する必要が
あるか、あるいは、単一のノード内のローカル・コヒー
レンシーを維持するだけでよいか（すなわち、ソフトウ
ェアがコヒーレンシー・ハードウェアを支援するため
に、グローバル・コヒーレンシー管理を行なうことにな
るか否か）、というグローバル／ローカルの標識として
機能する。

【００５３】たとえば、ノード１中のＣＰＵ２０がＮＬ
Ｍフィールド１１２中にノード１に対して「ローカル」
と印を付けられた、メモリ・ページ中の場所にストアを
発行する場合、ＣＰＵ２０は、自身に関連するキャッシ
ュ階層体２２にストア・データと一緒にＮＬＭローカル
標識を送る。ＮＬＭローカル標識は、上記キャッシュ階
層体２２に当該ＮＬＭローカル標識を、上記キャッシュ
階層体２２が目標とするキャッシュ・ラインにアクセス
するために発行したＲＷＩＴＭ要求に付加するように命
ずる。ＮＬＭローカル標識を含んだＲＷＩＴＭ要求を受
け取ると、ホーム・ノード１２中の適当なメモリ・コン
トローラ２４が、要求されたキャッシュ・ラインの所在
を突き止めるけれども、コヒーレンシーの観点からＲＷ
ＩＴＭ要求を無視する。なぜなら、「ローカル」という
設定は、目標とするメモリ・ページのグローバル・コヒ
ーレンシーを処理するのはソフトウェアの責任である、
ということを示しているからである。したがって、上記
メモリ・コントローラ２４は、ＬＭＤ３２を更新しな
い。しかし、ハードウェアは、要求元ノード１２内のコ
ヒーレンシーの管理を続ける。

【００５４】通常、アプリケーションの実行が関連する
ノード１２に限定される動作シナリオでは、ＮＬＭ１１
２中のあるビットが「ローカル」状態にセットされる。
データとコヒーレンシーの転送に起因するＮＵＭＡコン
ピュータ・システム１０のノード間通信のレイテンシー
はきわめて大きく（たとえば２０００ＣＰＵサイクル以
上に）なりうるから、性能上の利点が得られるのは、上
記動作シナリオにおいてソフトウェアがコヒーレンシー
管理の支援をしうるようにした場合である。なぜなら、
ソフトウェアは、コヒーレンシーを失うことなくレイテ
ンシーの大きなグローバル・コヒーレンシー動作を除去
できる、アドレスに関する追加の情報にアクセスできる
からである。同時に１つのＮＬＭビットだけを「ローカ
ル」状態にセットするのが望ましいけれども、本発明の
一部の実施形態では、複数のＮＬＭビットを「ローカ
ル」状態にセットすることができる。しかし、そのよう
な実施形態では、ソフトウェアが大幅に余分に複雑にな
るので、性能上の利点が減少する。

【００５５】〔アドレス変換〕

【００５６】次に、図５を参照する。図５は、各ＣＰＵ
２０が用いるアドレス変換プロセスの高レベルの流れ図
を示す図である。アドレス変換プロセスでは、まず、Ｃ
ＰＵ２０が用いる実効アドレス（ＥＡ）を仮想アドレス
に変換したのち、キャッシュ階層体２２、システム・メ
モリ２６、およびメモリ・マップＩ／Ｏ装置にアクセス
するのに用いる物理アドレスに変換する。図２に示した
ように、ＬＳＵ６８は、各データ・アクセス要求の３２
ビットのＥＡをＤＭＭＵ４８に送信する。同様に、命令
順序付け装置５２は、各命令フェッチ要求の３２ビット
のＥＡをＩＭＭＵ５０に送信する。ＤＭＭＵ４８とＩＭ
ＭＵ５０は、各々、図５に示すプロセスを用いて、この
ようなＥＡを変換する。当業者が認識しうるように、同
様の変換プロセスを用いて、６４ビットのアドレスや１
２８ビットのアドレスも変換することができる。

【００５７】図示するように、変換すべき３２ビットの
ＥＡ１２０を用いて、ＤＭＭＵ４８（データ用）または
ＩＭＭＵ５０（命令用）中の１６個のセグメント・レジ
スタ１１２のうちの１つを選択する。（６４ビットのＥ
Ａ実装では、セグメント化機構には図示したのとは異な
るものを用い、アドレス変換の残りの部分は様々なフィ
ールドのサイズのみが異なるようにするのが望まし
い。）セグメント・レジスタ１２２の所定の１つに格納
されているＶＳＩＤは、ＥＡ１２０の１６ビットのペー
ジ・インデックスおよび１２ビットのバイト・オフセッ
トとともに５２ビットの仮想アドレス１２４を形成して
いる。このＶＳＩＤをＤＴＬＢ４９またはＩＴＬＢ５１
のうちの適切なものに渡す。ＤＴＬＢ４９とＩＴＬＢ５
１は、一実施形態では、各々、２ウエイ・セット・アソ
シアティブのＰＴＥキャッシュとして実現する。次い
で、ＥＡ１２０のビット１５〜１９を用いて、ＴＬＢの
特定のラインに格納されている２つのＰＴＥを選択す
る。次いで、ＥＡ１２０のビット１０〜１４と、所定の
ＰＴＥとＶＳＩＤフィールドの各々に関連付けられたア
ドレス・タグとを比較する。次いで、ＡＰＩフィールド
（ＥＡのビット４〜９）と所定のＰＴＥの対応するフィ
ールドとを比較する。さらに、所定のＰＴＥの各々の有
効（Ｖ）ビットを検査する。上記比較の結果、一致が存
在すれば、一致したＰＴＥ８２のＰＰビットが例外に反
していないか検査する。これらのビットが例外を引き起
こしていなければ、一致したＰＴＥ８２に含まれる２０
ビットのＰＰＮ（物理ページ番号）をＬ１データ・キャ
ッシュ４４とＬ１命令キャッシュ４６のうちの適切なも
のに（適当な場合には、ＮＷＴ、ＮＮＣ、またはＮＬＭ
と一緒に）渡して、要求されたデータまたは命令が存在
するか否かを判断する。図５に示すように、２０ビット
のＰＰＮとＥＡ１２０が指定している１２ビットのバイ
ト・オフセットとを連結すると、要求されたデータまた
は命令の、システム・メモリ２６における３２ビットの
物理アドレス１２６が得られる。

【００５８】仮想アドレス１２４を物理アドレス１２６
に変換するのに必要なＰＴＥ８２は、参照の局所性によ
って、通常、ＤＴＬＢ４９またはＩＴＬＢ５１の一方に
存在するけれども、アドレス変換を実行するには、テー
ブルウォーク・コントローラ７８が、公知の方法を用い
てキャッシュ階層体２２またはシステム・メモリ２６中
で、必要なＰＴＥ８２を突き止める必要がある。

【００５９】上述したように、本発明は、ノード特有の
記憶とコヒーレンシー管理情報を格納したＰＴＥを含む
ページ・テーブルを備えたＮＵＭＡデータ処理システム
を提供するものである。ノード特有の制御情報をＰＴＥ
に組み込むことにより、システム・ハードウェアが実行
するデータ記憶とコヒーレンシー管理の活動を実行中の
ソフトウェアの振る舞いと適合させるのが容易になるの
で、不必要なコヒーレンシー通信がなくなるとともにデ
ータ・アクセスのレイテンシーが低減する。

【００６０】好適な実施形態について本発明を特に示し
かつ説明したけれども、当業者が理解しうるように、本
発明の本旨と範囲のうちで、形態と詳細を様々に変更し
うる。たとえば、関連するＰＴＥを有する固定サイズの
仮想メモリ・ページについて本発明を説明したけれど
も、理解すべき点を挙げると、本発明は、関連するブロ
ック・アドレス・テーブル（ＢＡＴ）エントリを備えた
可変ブロック・サイズの仮想メモリに適用することもで
きる。さらに、ページ・テーブルに組み込んだ特定のノ
ード特有の制御情報について本発明を説明したけれど
も、当業者が認識しうるように、本発明は、その範囲が
ここで説明した特定の制御情報に限定されることなく、
一般に、ページ・テーブル中のノード特有の制御情報の
全体に適用することができる。

【００６１】まとめとして以下の事項を開示する。（１）複数の処理装置および少なくとも１つのシステム
・メモリを備え、ノード相互接続体に接続された複数の
ノードと、１群の非物理アドレスを物理アドレスに変換
するのに使用する少なくとも１つのエントリを備え、前
記エントリが前記複数のノードの各ノードごとに前記１
群の非物理アドレスに属す制御情報を個別に指定してい
る、前記少なくとも１つのシステム・メモリに存在する
テーブルとを備えた不均一メモリ・アクセス（ＮＵＭ
Ａ）データ処理システム。（２）前記テーブルがページ・テーブルから成り、前記
エントリがページ・テーブル・エントリから成る、上記
（１）に記載の不均一メモリ・アクセス（ＮＵＭＡ）デ
ータ処理システム。（３）前記制御情報が少なくとも１つのデータ記憶制御
フィールドから成る、上記（１）に記載の不均一メモリ
・アクセス（ＮＵＭＡ）データ処理システム。（４）前記データ記憶制御フィールドが、前記複数のノ
ードのうちの各ノードに各々が関連付けられた複数のラ
イトスルー標識から成り、前記ライトスルー標識が、関
連するノード中の少なくとも１つの処理装置に、前記複
数のノードのうちのホーム・ノードのシステム・メモリ
に変更したデータを書き込むことを命じるものである、
上記（３）に記載の不均一メモリ・アクセス（ＮＵＭ
Ａ）データ処理システム。（５）前記データ記憶制御フィールドが、前記複数のノ
ードのうちの各ノードに各々が関連付けられた複数のキ
ャッシュ不能標識から成り、前記キャッシュ不能標識
が、関連するノード中の少なくとも１つの処理装置に、
前記群内の非物理アドレスに関連付けられたデータをキ
ャッシュしないように命じるものである、上記（１）に
記載の不均一メモリ・アクセス（ＮＵＭＡ）データ処理
システム。（６）前記制御情報がコヒーレンシー制御情報から成
る、上記（１）に記載の不均一メモリ・アクセス（ＮＵ
ＭＡ）データ処理システム。（７）前記コヒーレンシー制御情報が、前記複数のノー
ドのうちの各ノードに各々が関連付けられた複数のコヒ
ーレンシー標識から成り、前記コヒーレンシー標識が、
関連するノード中の少なくとも１つの処理装置に、前記
エントリに関連付けられたデータ用のノード間コヒーレ
ンシーはソフトウェア支援によって維持されることを示
すものである、上記（６）に記載の不均一メモリ・アク
セス（ＮＵＭＡ）データ処理システム。（８）複数の処理装置および少なくとも１つのシステム
・メモリを備え、ノード相互接続体に接続された複数の
ノードを備えた不均一メモリ・アクセス（ＮＵＭＡ）デ
ータ処理システムを操作する方法であって、１群の非物
理アドレスを物理アドレスに変換するのに使用する少な
くとも１つのエントリを備え、前記エントリが前記複数
のノードの各ノードごとに前記１群の非物理アドレスに
属す制御情報を個別に指定している、前記少なくとも１
つのシステム・メモリに存在するテーブルを生成するス
テップと、前記エントリにアクセスして、非物理アドレ
スを物理アドレスに変換するステップとを備えた、不均
一メモリ・アクセス（ＮＵＭＡ）データ処理システムを
操作する方法。（９）前記制御情報が少なくとも１つのデータ記憶制御
フィールドから成り、前記方法が、さらに、前記非物理
アドレスに関連付けられたデータの記憶を、前記データ
記憶制御フィールドに従って処理するステップを備え
た、上記（８）に記載の方法。（１０）前記データ記憶制御フィールドが、前記複数の
ノードのうちの各ノードに関連付けられた複数のライト
スルー標識から成り、前記処理するステップが、前記複
数のノードのうちの特定のノード用にセットされたライ
トスルー標識に応答して、前記特定のノード中の処理装
置が、変更したデータを、前記複数のノードのうちのホ
ーム・ノードのシステム・メモリに、前記ホーム・ノー
ドが発するコヒーレンシー通信とは無関係に書き戻すス
テップを備えている、上記（９）に記載の方法。（１１）前記データ記憶制御フィールドが、前記複数の
ノードのうちの各ノードに各々が関連付けられた複数の
キャッシュ不能標識から成り、前記処理するステップ
が、前記複数のノードのうちの特定のノード用にセット
されたキャッシュ不能標識に応答して、前記特定のノー
ド中の処理装置が、前記非物理アドレスに関連付けられ
たデータを、前記処理装置が要求されたデータをキャッ
シュしないことを示す表示とともに求める要求を発する
ステップを備えている、上記（９）に記載の方法。（１２）前記制御情報がコヒーレンシー制御情報から成
る、上記（８）に記載の方法。（１３）前記コヒーレンシー制御情報が、前記複数のノ
ードのうちの各ノードに各々が関連付けられた複数のコ
ヒーレンシー標識から成り、前記方法が、さらに、前記
複数のノードのうちの特定のノード用にセットされたコ
ヒーレンシー標識に応答して、前記特定のノード中の処
理装置が、前記非物理アドレスに関連付けられたデータ
を、ハードウェアが要求されたデータ用にグローバル・
コヒーレンシーを維持する必要のないことを示す表示と
一緒に求める要求を発するステップを備えている、上記
（１２）に記載の方法。

【図面の簡単な説明】

【図１】本発明の方法とシステムを有利に使用する際
に依拠するＮＵＭＡデータ処理システムの実施形態を示
す図である。

【図２】図１に示すＮＵＭＡデータ処理システム中の
処理装置の実施形態を示すブロック図である。

【図３】図１に示すＮＵＭＡデータ処理システムにお
けるページ・テーブルの実施形態を示す図である。

【図４】図１に示すＮＵＭＡデータ処理システムにお
けるＰＴＥの典型的な実施形態を示す図である。

【図５】本発明により実効アドレスを仮想アドレス次
いで物理アドレスに変換するプロセスを示す高レベルの
流れ図である。

【符号の説明】

１０ＮＵＭＡコンピュータ・システム１２ノード１４処理装置１５ノード相互接続体１６ノード・コントローラ１８ローカル相互接続体１９ページ・テーブル２０ＣＰＵ２２キャッシュ階層体２３応答論理回路２４メモリ・コントローラ２５インタフェース装置（ＩＵ）２６システム・メモリ２８システム・メモリ・アドレス空間３０リモート・メモリ・キャッシュ（ＲＭＣ）３２ローカル・メモリ・ディレクトリ（ＬＭＤ）３４リモート・メモリ・ディレクトリ（ＲＭＤ）４２レベル２（Ｌ２）キャッシュ４４レベル１（Ｌ１）データ・キャッシュ４６Ｌ１命令キャッシュ４８データ・メモリ管理装置（ＤＭＭＵ）４９ＤＴＬＢ（データ変換索引緩衝機構）５０命令メモリ管理装置（ＩＭＭＵ）５１ＩＴＬＢ（命令変換索引緩衝機構）５２命令順序付け装置６２整数演算装置（ＩＵ）６６汎用レジスタ（ＧＰＲ）６８ロード・ストア装置（ＬＳＵ）７２浮動小数点レジスタ（ＦＰＲ）７４浮動小数点演算装置（ＦＰＵ）７６完了装置７８テーブル・ウォーク・コントローラ８０ページ・テーブル・エントリ・グループ（ＰＴＥ
Ｇ）８２ページ・テーブル・エントリ（ＰＴＥ）８４主ＰＴＥＧ８６副ＰＴＥＧ９０有効ビット９２仮想セグメントＩＤ（ＶＳＩＤ）９４ハッシュ関数識別子（Ｈ）９６短縮ページ・インデックス（ＡＰＩ）９８物理ページ番号（ＰＰＮ）１００被参照（Ｒ）ビット１０２被変化（Ｃ）ビット１０４メモリ・アクセス属性（ＷＩＭＧ）ビット１０６ページ保護（ＰＰ）ビット１０８ノード・ライトスルー（ＮＷＴ）フィールド１１０ノード・ノー・インテント・ツー・キャッシュ
（ＮＮＣ）フィールド１１２ノード・ローカル・リード・ウィズ・インテン
ト・ツー・モディファイ（ＮＬＭ）フィールド１２０実効アドレス（ＥＡ）１２２セグメント・レジスタ１２４仮想アドレス１２６物理アドレス

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 12/10 ５０５Ｇ０６Ｆ 12/10 ５０５Ｂ 13/14 ３２０ 13/14 ３２０Ｈ 15/16 ６４５ 15/16 ６４５ 15/167 15/167 Ｂ (72)発明者ラビクマール・アリミリアメリカ合衆国テキサス州 78759、オースチン、スパイスブラッシュドライブ 9221 (72)発明者ジョン・スティーブン・ドッドソンアメリカ合衆国テキサス州 78660、オースチン、ベルロックサークル 1205 (72)発明者ジェームズ・スティーブン・フィールズジュニアアメリカ合衆国テキサス州 78717、オースチン、ポコノドライブ 16420 Ｆターム(参考） 5B005 JJ12 KK03 KK14 MM01 NN25 PP02 PP11 RR04 5B014 EB03 GD13 GD19 HB26 5B045 DD01 DD12 DD13 EE03 EE11

Claims

【特許請求の範囲】

【請求項１】複数の処理装置および少なくとも１つのシ
ステム・メモリを備え、ノード相互接続体に接続された
複数のノードと、１群の非物理アドレスを物理アドレスに変換するのに使
用する少なくとも１つのエントリを備え、前記エントリ
が前記複数のノードの各ノードごとに前記１群の非物理
アドレスに属す制御情報を個別に指定している、前記少
なくとも１つのシステム・メモリに存在するテーブルと
を備えた不均一メモリ・アクセス（ＮＵＭＡ）データ処
理システム。
【請求項２】前記テーブルがページ・テーブルから成
り、前記エントリがページ・テーブル・エントリから成る、
請求項１に記載の不均一メモリ・アクセス（ＮＵＭＡ）
データ処理システム。
【請求項３】前記制御情報が少なくとも１つのデータ記
憶制御フィールドから成る、請求項１に記載の不均一メ
モリ・アクセス（ＮＵＭＡ）データ処理システム。
【請求項４】前記データ記憶制御フィールドが、前記複
数のノードのうちの各ノードに各々が関連付けられた複
数のライトスルー標識から成り、前記ライトスルー標識が、関連するノード中の少なくと
も１つの処理装置に、前記複数のノードのうちのホーム
・ノードのシステム・メモリに変更したデータを書き込
むことを命じるものである、請求項３に記載の不均一メ
モリ・アクセス（ＮＵＭＡ）データ処理システム。
【請求項５】前記データ記憶制御フィールドが、前記複
数のノードのうちの各ノードに各々が関連付けられた複
数のキャッシュ不能標識から成り、前記キャッシュ不能標識が、関連するノード中の少なく
とも１つの処理装置に、前記群内の非物理アドレスに関
連付けられたデータをキャッシュしないように命じるも
のである、請求項１に記載の不均一メモリ・アクセス
（ＮＵＭＡ）データ処理システム。
【請求項６】前記制御情報がコヒーレンシー制御情報か
ら成る、請求項１に記載の不均一メモリ・アクセス（Ｎ
ＵＭＡ）データ処理システム。
【請求項７】前記コヒーレンシー制御情報が、前記複数
のノードのうちの各ノードに各々が関連付けられた複数
のコヒーレンシー標識から成り、前記コヒーレンシー標識が、関連するノード中の少なく
とも１つの処理装置に、前記エントリに関連付けられた
データ用のノード間コヒーレンシーはソフトウェア支援
によって維持されることを示すものである、請求項６に
記載の不均一メモリ・アクセス（ＮＵＭＡ）データ処理
システム。
【請求項８】複数の処理装置および少なくとも１つのシ
ステム・メモリを備え、ノード相互接続体に接続された
複数のノードを備えた不均一メモリ・アクセス（ＮＵＭ
Ａ）データ処理システムを操作する方法であって、１群の非物理アドレスを物理アドレスに変換するのに使
用する少なくとも１つのエントリを備え、前記エントリ
が前記複数のノードの各ノードごとに前記１群の非物理
アドレスに属す制御情報を個別に指定している、前記少
なくとも１つのシステム・メモリに存在するテーブルを
生成するステップと、前記エントリにアクセスして、非物理アドレスを物理ア
ドレスに変換するステップとを備えた、不均一メモリ・
アクセス（ＮＵＭＡ）データ処理システムを操作する方
法。
【請求項９】前記制御情報が少なくとも１つのデータ記
憶制御フィールドから成り、前記方法が、さらに、前記非物理アドレスに関連付けられたデータの記憶を、
前記データ記憶制御フィールドに従って処理するステッ
プを備えた、請求項８に記載の方法。
【請求項１０】前記データ記憶制御フィールドが、前記
複数のノードのうちの各ノードに関連付けられた複数の
ライトスルー標識から成り、前記処理するステップが、前記複数のノードのうちの特定のノード用にセットされ
たライトスルー標識に応答して、前記特定のノード中の
処理装置が、変更したデータを、前記複数のノードのう
ちのホーム・ノードのシステム・メモリに、前記ホーム
・ノードが発するコヒーレンシー通信とは無関係に書き
戻すステップを備えている、請求項９に記載の方法。
【請求項１１】前記データ記憶制御フィールドが、前記
複数のノードのうちの各ノードに各々が関連付けられた
複数のキャッシュ不能標識から成り、前記処理するステップが、前記複数のノードのうちの特定のノード用にセットされ
たキャッシュ不能標識に応答して、前記特定のノード中
の処理装置が、前記非物理アドレスに関連付けられたデ
ータを、前記処理装置が要求されたデータをキャッシュ
しないことを示す表示とともに求める要求を発するステ
ップを備えている、請求項９に記載の方法。
【請求項１２】前記制御情報がコヒーレンシー制御情報
から成る、請求項８に記載の方法。
【請求項１３】前記コヒーレンシー制御情報が、前記複
数のノードのうちの各ノードに各々が関連付けられた複
数のコヒーレンシー標識から成り、前記方法が、さらに、前記複数のノードのうちの特定のノード用にセットされ
たコヒーレンシー標識に応答して、前記特定のノード中
の処理装置が、前記非物理アドレスに関連付けられたデ
ータを、ハードウェアが要求されたデータ用にグローバ
ル・コヒーレンシーを維持する必要のないことを示す表
示と一緒に求める要求を発するステップを備えている、
請求項１２に記載の方法。