CN1330783A

CN1330783A - 把读请求推测地传送到远程处理节点的非均匀存储器访问(numa)数据处理***

Info

Publication number: CN1330783A
Application number: CN99814443A
Authority: CN
Inventors: 约那·鲍姆加特纳; 马克·E·迪安; 安娜·埃尔曼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-12-15
Filing date: 1999-12-10
Publication date: 2002-01-09
Anticipated expiration: 2019-12-10
Also published as: CA2349569C; EP1153349A1; AU1672500A; HUP0104577A3; EP1153349B1; TW446883B; CA2349569A1; US6338122B1; CN1157659C; WO2000036514A1; IL142265A; KR100465583B1; KR20010101193A; CZ20012153A3; ES2196893T3; IL142265A0; ATE236431T1; DE69906585T2; PL348859A1; HUP0104577A2

Abstract

一个非均匀存储器访问(NUMA)计算机***包括至少一个本地处理节点和一个远程处理节点,它们每个与一节点互连相连。该本地处理节点包括一个本地互连,与本地互连相连的一个处理器和一个***存储器,以及一个节点控制器放在本地互连和节点互连之间。为响应收到了一个来自本地互连的读请求,节点控制器推测地把该读请求经由节点互连传送到远程处理节点。然后,为响应收到了一个来自远程处理节点的对该读请求的响应,节点控制器根据本地处理节点处该读请求的分辨力处理该响应。例如,在一个处理过程中,从远程处理节点接收的响应中包含的数据被该节点控制器抛弃,如果该读请求在本地处理节点处收到了一个修正的干预相干性响应的话。

Description

把读请求推测地传送到远程处理节点的非均匀存储器访问(NUMA)数据处理***

一般地说，本发明涉及数据处理方法和***，特别是涉及非均匀存储器访问(NUMA)数据处理***内的数据处理。更具体地说，本发明涉及NUMA数据处理***中的通信方法，在该***中的读请求被推测地传送到远程存储器中。

在计算机技术领域众所周知，通过相互合作地驾驭多个单独处理器的处理能力，能达到更强的计算机***性能。可以以多种不同的拓扑结构设计多处理器计算机***，其中各种拓扑结构可能适用于特定的应用，这取决于每个应用的性能要求和软件环境。最通用的MP计算机拓扑结构之一是对称多处理器(SMP)配置，其中多个处理器共享公用资源，如***存储器和输入/输出(I/O)子***，它们通常连接于共享的***互连。把这种计算机***称作对称的，这是因为在理想状态下在一个SMP计算机***中的所有处理器针对共享***存储器中存储的数据有相同的访问延迟时间。

虽然SMP计算机***允许使用相对简单的处理器间通信和数据共享方法，但SMP计算机***有有限的可伸缩性。换句话说，尽管通过扩大规模(即增加更多的处理器)一般可以期望使典型的SMP计算机***改善性能，但总线、存储器和输入/输出(I/O)带宽等固有限制，使得在超出与其实现有关的规模(在这种规模下对这些共享资源的利用达到最佳)之后，靠扩大SMP的规模已不能得到显著的好处。这样，在***规模增大时，SMP拓扑结构本身受到某种程序的带宽限制，特别是在***存储器处的带宽限制。例如，尽管一些部件能最佳地应用于单处理器和小规模SMP计算机***，但这些部件在应用于大规模SMP时往往是效率差的。与此相反，为用于大规模SMP而设计的部件从费用的观点看要用于较小的***是不实际的。

结果，一种称作非均匀存储器访问(NUMA)的MP计算机***拓扑结构出现了，作为克服SMP计算机***的许多限制的另一种设计，其代价是某些额外的复杂性。典型的NUMA计算机***包括若干个彼此互连的节点，每个节点包括一个或多个处理器以及一个本地“***”存储器。这种计算机***被称作有非均匀存储器访问，这是因为每个处理器针对其存储在本地节点处的***存储器中的数据，其访问延时低于针对其存储在远程节点处的***存储器中的数据的访问延时。NUMA***可进一步分类为非相干的或高速缓存相干的，这取决于是否保持不同节点中各高速缓存之间的数据相干性。高速缓存相干的NUMA(CC-NUMA)***的复杂性在很大程度上归因于硬件不仅要维持每个节点内的各级高速缓存和***存储器之间的数据相干性而且要维持不同节点中的高速缓存和***存储器之间的数据相干性所需要的额外通信。然而，NUMA计算机***确实解决了传统SMP计算机的规模限制，因为在NUMA计算机***内的每个节点可作为较小的SMP***来实现。这样，每个节点的共享部件能被最佳地应用于少数处理器，而整个***则得益于可得到较大规模的并行度并同时保持较低的延时。

CC-NUMA计算机***所关心的主要性能是经由连接各节点的互连传送的通信事务(transacfion)所伴随的延时。特别是读事务，它是到目前为止最普通的事务类型，与指出本地***存储器所驻留的数据的读事务相比，当指出远程***中所驻留的数据时，延时可能为其两倍。因为在节点互连上传送的读事务所伴随的延时高于在本地互连上的读事务所伴随的延时，所以减少在节点互连上传送的读事务的延时是有用的和人们所希望的。

根据第一方面，本发明提供一计算机***，包含：一个节点互连；以及至少一个本地处理节点和一个远程处理节点，它们每个都连到所述节点互连上，所述本地处理节点包括一个本地互连，与本地互连相连的一个处理器和一个***存储器，以及一个节点控制器放在所述本地互连和节点互连之间，这里所述节点控制器推测地把从所述本地互连接收的请求事务经由所述节点互连传送到所述远程处理节点，而且这里所述节点控制器根据在所述本地处理节点处所述请求事务的分辨力，处理从所述远程处理节点处接收的对所述请求事务的响应。

根据其第二方面，本发明提供一种在计算机***中的通信方法，该计算机***包括一个节点互连，该节点互连至少连接一个本地处理节点和一个远程处理节点，所述本地处理节点包括一个本地互连，与本地互连相连的一个处理器和一个***存储器，以及一个节点控制器放在所述本地互连和所述节点互连之间，所述方法包含：经由所述节点互连推测地把从所述本地互连接收请求事务传送到所述远程处理节点；在所述本地处理接点，从所述远程处理节点接收一个对所述请求事务的响应，为响应这一接收，根据所述本地处理节点处所述请求事务的分辨力，处理所述对该请求事务的响应。

相信为本发明特点的新特性将在所附权利要求中提出。然而，结合附图阅读下文中对实施示例的详细描述，将能最好地理解发明本身和最佳使用方式及其进一步的目的和优点，这里：

图1描绘根据本发明的一个NUMA计算机***的一个实施示例；

图2是图1中所示节点控制器的更详细的方框图；

图3A和图3B是高层逻辑流程图，它们一起说明一种处理请求事务的方法示例，其中在源处理节点处的读请求被推测地传送到远程处理节点；以及

图4A-4D一起显示根据图3A和3B中所示方法进行的处理过程示例。

***概述

现在参考附图，特别是参考图1，图中描绘了根据本发明的一个NUMA计算机***的实施示例。所描绘的实例示例可实现为例如一个工作站、服务器或大型机。如图所示，NUMA计算机***6包括若干处理节点8a-8n(N≥2)，它们由节点互连22彼此互连。处理节点8a-8n每个可以包括M(M≥0)个处理器10，一个本地互连16以通过存储器控制器17访问的***存储器18。处理器10a—10m最好是(但不是必须是)相同的，而且可以包含PowerPC^TM处理器线内的一个处理器，它可从纽约州Armonk的国际商用机器公司得到。除了用于执行程序指令的寄存器、指令流逻辑和执行单元(它们通常被指定为处理器核12)外，每个处理器10a-10m还包括一个在芯片上的高速缓存分级***，它用于把数据从***存储器18存储到相关联的处理器核12。每个高速缓存分级***14可以包括例如一个一级(L1)高速缓存和一个二级(L2)高速缓存，它们分别有8—32kB和1—16MB的存储能力。

每个处理节点8a-8n进一步包括各自的节点控制器20连在本地互连16和节点互连22之间。每个节点控制器20通过完成至少两项功能作为远程处理节点8的本地代理。第一，每个节点控制器20窥探相关联的本地互连16并使本地通信事务向远程处理节点8的传送便利。第二，每个节点控制器20窥探节点互连22上的通信事务并主控相关联的本地互连16上的相关通信事务。在每个本地互连16上的通信由一个仲裁器24控制。仲裁器24根据处理器10产生的总线请求信号规则对地方互连16的访问，并为本地互连16上窥探到的通信事务编辑相干性响应，对此下文中将进一步讨论。

本地互连16通过夹层总线桥26与夹层总线30相连，例如，夹层总线30可以作为***部件互连(PCI)本地总线实现。夹层总线桥26提供一个低延时路径和一个高带宽路径，通过低延时路经处理器10可以直接访问I/O装置32和存储器装置34当中的装置，这些装置被映射到总线存储器和/或I/O地址空间，而通过高带宽路径I/O装置32和存储器装置34可以访问***存储器18。I/O装置32可以包括例如显示装置、键盘、图形指示器以及用于连接外部网络或附属装置的串行和并行端口。另一方面，存储装置34可以包括光盘或磁盘，它们提供操作***和应用软件的非易失存储。存储器组织

在NUMA计算机***6中的所有处理器10共享单一的物理存储器空间，意思是每个物理地址只与***存储器18之一中的单个位置相关联。这样，***存储器的总内容(它一般可由NUMA计算机***6中任何处理器访问)可被看作是在各***存储器18之间分区的。例如，在本发明的有4个处理节点8的实施示例中，NUMA计算机***可以有16GB物理地址空间，包括通用存储区和保留区。通用存储区分成若干500MB段，4个处理节点8的每个节点被分配每个第4段。保留区可以包含大约2GB，它包括***控制和***存储区以及I/O存储区，它们每个被分配给各一个处理节点8。

为了本讨论的目的，在其***存储器18中存储特定数据的处理节点8被称作那个数据的主节点(home node)；相反，处理节点8a-8n中的其他节点被称作该特定数据的远程节点。存储器相干性

因为存储在每个***存储器18内的数据能被NUMA计算机***6内的任何处理器10请求、访问和修改，所以NUMA计算机***6实现一个高速缓存相干性协议以维持同一处理节点中各高速缓存之间的相干性，还维持不同处理节点中高速缓存之间的相干性。这样，NUMA计算机***6被适当地分类为CC-NUMA计算机***。所实现的高速缓存相干性协议是依赖于具体实现的，可能包含例如著名的“修改的、排他的、共享的、无效的(MESI)”协议或其变体。下文中将假定高速缓存分级结构14和仲裁器24实现传统的MESI协议，其中节点控制器20认识M、S和I状态，并认为E状态被合并到M状态中供校正之用。就是说，节点控制器20假定排他地由远程高速缓存保持的数据已经被修改，而不管该数据在实际上是否被修改。互连体系结构

本地互连16和节点互连22每个能由任何基于总线的广播分级结构、基于交换的广播分级结构、或者基于交换的非广播分级结构来实现。然而，在一个最佳实施例中，至少节点控制器22是作为由IBM公司开发的6××通信协议管制的、基于交换的非广播互连来实现的。本地互连16的节点互连22允许***的事务，意思是在组成通信事务的地址和数据使用权(tenure)之间不存在固定的时间关系，而且数据打包的顺序可以不同于相应的地址打包顺序。本地互连16和节点互连22的利用还最好由流水线通信事务来说加强，它允许在先前的通信事务的主控方(master)从每个接收方(recipient)接收相干性响应之前寻找下一个通信事务的发源。

不管所实现的互连分级结构的类型如何，至少有三类“包”一般地讲，(这里所用的“包”是指一个单独的信息单元)，即地址、数据和相干性响应，用于通过节点互连22在处理节点8之间传递信息以及通过本地互连16在各窥探器之间传递信息。现在参考表I和表II，它们分别给出地址包和数据包的相关字段和定义概要。

表I

字段名	描述
字段名	描述	地址<0：7>	调节器，定义一个通信事务关于相干性、写通过(write thru)以及保护的属性
地址<8：15>	标记，用于标识一个通信事务中的所有包	地址<0：7>	调节器，定义一个通信事务关于相干性、写通过(write thru)以及保护的属性
地址<8：15>	标记，用于标识一个通信事务中的所有包	地址<16：63>	地址部分，它指出一个请求中的物理、虚拟或I/O地址
AParity<0：2>	指出地址位<0：63>的奇偶校验	地址<16：63>	地址部分，它指出一个请求中的物理、虚拟或I/O地址
AParity<0：2>	指出地址位<0：63>的奇偶校验	TDescriptors	指出通信事务的大小和类型

表II

字段名	描述
字段名	描述	数据<0：127>	用于读和写事务的数据
数据奇偶性<0：15>	指出数据行<0：127>的奇偶校验	数据<0：127>	用于读和写事务的数据
数据奇偶性<0：15>	指出数据行<0：127>的奇偶校验	DTag<0：7>	标记，用于使一数据包与一地址包匹配
DValid<0：1>	指出在数据和D标记字段中是否存在有效信息	DTag<0：7>	标记，用于使一数据包与一地址包匹配

如表I和表II中指出的那样，为允许一接收方节点或窥探器能确定每个包属于的通信事务，在通信事务中的每个包都用事务标记来标识。本领域技术人员将会理解，可以使用额外的流控制逻辑和相关联的流控制信号来管制有限通信资源的利用。

在每个处理节点8内，在每个窥探器和本地仲裁器24之间传送状态和相干性响应。在本地互连16内用于状态和相干性通信的信号行概括在下面的表III中。

表III

信号名	描述
信号名	描述	AStatOut<0：1>	由每个总线接收器认定的编码信号，用于向仲裁器指出流控制或错误信息
AStatIn<0：1>	由仲裁器认定的编码信号，以响应与总线接收器认定的AStatOut信号的符合	AStatOut<0：1>	由每个总线接收器认定的编码信号，用于向仲裁器指出流控制或错误信息
AStatIn<0：1>	由仲裁器认定的编码信号，以响应与总线接收器认定的AStatOut信号的符合	ARespOut<0：2>	由每个总线接收器认定的编码信号，用于向仲裁器指出相干性信息
ARespIn<0：2>	由仲裁器认定的编码信号，以响应与总线接收器认定的ARespOut信号的符合	ARespOut<0：2>	由每个总线接收器认定的编码信号，用于向仲裁器指出相干性信息

经由本地互连16的AResp和AStat线传送的状态和相干性响应最好与相关联的地址包有固定的但可编程的时间关系。例如，可能在接收地址包之后的第二个周期中需要AStatOut表决(vote)，它提供关于每个窥探器是否已成功地接收到本地互连16上传送的地址包的初步指示。仲裁器24编译AStatOut表决结果，然后在一固定的但可编程的周期数(例如1个周期)之后发布AStatIn表决结果。在下面的表IV中概括了可能的AStat表决结果。

表IV

AStat表决	意义
AStat表决	意义	Null	空闲
Ack	由窥探器接受的事务	Null	空闲
Ack	由窥探器接受的事务	Error	在事务中检测到奇偶校验错
Retry	“重试”事务，通常用于流控制	Error	在事务中检测到奇偶校验错

跟随AStatOut周期，在一个固定的但可编程的周期数(例如2个周期)之后可能需要ARespOut表决结果。仲裁器24还编译每个窥探器的ARespOut表决结果并发布ARespIn表决结果，这最好在下一个周期中进行。可能的AResp表决结果最好包括表V中列出的相干响应。

表V

相干性响应	意义
相干性响应	意义	Retry	请求源必须重试事务——通常是为了流控制的原因
修正的干预	行在高速缓存中被修正并将把请求方作为源	Retry	请求源必须重试事务——通常是为了流控制的原因
修正的干预	行在高速缓存中被修正并将把请求方作为源	共享的	行保持在高速缓存中供共享
空(Null)	行在高速缓存中无效	共享的	行保持在高速缓存中供共享
空(Null)	行在高速缓存中无效	重运行	窥探到的请求有长的延时，请求源被指示在晚些时候重新发出事务

重运行(ReRun)AResp表决结果通常由节点控制器20发出，指出窥探到的请求有长的延时，而且该请求的源将被指示在晚些时候重新发出该事务。这样，与重试(Retry)AResp表决结果不同，一个重运行(ReRun)使得表决为重运行(ReRun)的事务接收方(而不是该事务的发起方)有责任在晚些时候使该通信事务再次被发出。节点控制器

现在参考图2，图中显示图1的NUMA计算机***6中的节点控制器20的更详细的方框图。如图2中所示，连在本地互连16和节点互连22之间的每个节点控制器20包括一个事务接收单元(TRU)40、一个事务发送单元(TSU)42、一个数据接收单元(DRU)44以及一个数据发送单元(DSU)46。TRU40、TSU42、DRU44及DSU46能由例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现。如所指出的那样，穿过节点控制器20的地址和数据路径是分为两支的，其地址(和相干性)包由TRU40和TSU42处理，而数据包由DRU44和DSU46处理。

TRU40，这样指定它是为了表明事务流从节点互连22流出，负责接收来自节点互连22的地址和相干性包，在本地互连16上发出事务以及向TSU42传送响应。TRU40包括响应多路转换器(mux)52，它从节点互连22接收包并把选定的包传送给TSU42中的总线主控器54和相干性响应逻辑56。对接收来自响应多路转换器52的地址包作出响应，总线主控器52能在它的本地互连16上发起一个通信事务，它与收到的地址包所指示的通信事务类型相同或者不同。

TSU42，如其名称指出的那样，是事务流到节点互连22上的管道，它包括一个多条目待决缓存器60，它暂时存储通信事务的属性，这些通信事务是把源放到节点互连22上的尚待完成的通信事务。在待决缓存器60的一个条目中存储的事务属性最好至少包括该事务的地址(包括标记)、事务的类型、以及预期的相干响应个数。每个待决缓存器条目有相应的状态，它可设置为Null(空)，表明该待决缓存器条件可被删除，或设置为ReRun(重运行)，表明该事务仍在待决。除了在节点互连22上对地址包寻源外，TSU42还与TRU40交互作用以处理存储器请求事务和向DRU44及DSU46发出命令以控制本地互连16和节点互连22之间的数据传送。TSU42还以相干性响应逻辑56实现用于节点互连22的选定(即MSI)相干性协议，并以目录控制逻辑58维持相干性目录50。

相干性目录50存储数据的***存储器地址(即高速缓存行)的指示，这些数据已被验明送到远程节点中的高速缓存，对这些远程节点而言，本地处理节点是其主节点。与每个高速缓存行的地址指示一起存储的具有该高速缓存行副本的每个远程处理节点的标识符以及在每个这种远程处理节点处该高速缓存行的相干性状态。相干性目录50中的条目可能有的相干性状态概括在表VI中。

表VI

相干性目录状态	在本地高速缓存中的可能状态	在远程高速缓存中的可能状态	意义
相干性目录状态	在本地高速缓存中的可能状态	在远程高速缓存中的可能状态	意义	修正的(M)	I	M、E、或I	针对主节点处的***存储器，其高速缓存行可在远程节点被修改
共享的(S)	S或I	S或I	高速缓存行可以不排他地保持在远程节点	修正的(M)	I	M、E、或I	针对主节点处的***存储器，其高速缓存行可在远程节点被修改
共享的(S)	S或I	S或I	高速缓存行可以不排他地保持在远程节点	无效的(I)	M、E、S或I	I	高速缓存行不被任何远程节点保持
待共享的	S或I	S或I	高速缓存行是在远程节点处被作废的过程中	无效的(I)	M、E、S或I	I	高速缓存行不被任何远程节点保持
待共享的	S或I	S或I	高速缓存行是在远程节点处被作废的过程中	待修改的	I	M、E或I	可能已被远程修改的高速缓存行，正处于被写回主节点处***存储器的过程中，可能在远程节点处被作废

如表VI中指出的那样，由远程处理节点保持的高速缓存行相干性状态知识是不准确的。这种不准确是由于这样的事实：远程保持的高速缓存行可以从S过渡到I，从E过渡到I，或从E过渡到M，而不通知主节点的节点控制器20。处理读请求事备

现在参考图3A和图3B，图中显示两个高速逻辑流程图，它们一起描述根据本发明处理读请求事务的方法示例。首先参考图3A，过程从块70开始，然后进到块72，它描绘处理器10(如处理节点8a的处理器10a)在其本地互连16上发出一个读请求事务。该读请求事务由节点控制器20以及与处理节点8a的本地互连16相连的其余窥探器接收。响应对读请求的接收，窥探器驱动AStatOut表决，它们由仲裁器24编译以产生AStatIn表决结果，如块74所示。在节点控制器20提供AckAStatOut表决结果以允许读请求继续进行之前，节点控制器20在待决缓存器60中分配一个读条目和一个带清除的写条目，如果该读请求指定一个远程***存储器18中的地址的话。如下文中将进一步讨论的那样，通过分配这两个条目，节点控制器20能推测地把读请求传送到被请求高速缓存行的主节点并正确地处置对读请求的响应，不管在处理节点8a处接下来的AResp表决结果如何。

现在参考块76，如果在块74产生的AStatIn表决结果是Retry(重试)，则该读请求基本上被杀掉，在待决缓存器60中被分配的条目(如果有的话)被释放，过程返回到前已描述过的块72。在这种情况中，处理器10a必须在晚些时候再发出读请求。另一方面，如果在块74产生的AStatIn表决结果不是Retry(重试)，则过程从块76进到块78，它描绘节点控制器20通过参考存储器图确定它的处理节点8是否是在读请求中指定的物理地址的主节点。如果是，则过程进到块80；然而，如果本地处理节点8不是该读请求的主节点，则过程进到块100。

现在参考块80，此时处理节点8a内的窥探器提供它们的ARespOut表决结果，仲裁器24编译这一表决结果以产生ARespIn表决结果。如果相干性目录50表明，由读请求中指定的地址标识的高速缓存行被验明送到至少一个远程处理节点8，则节点控制器20将表决ReRun(重运行)，如果对这一读请求的服务需要与远程处理节点8通信的话。例如，如果相干性目录50表明，所请求的高速缓存行是在远程处理节点8处“被修正的”，则对读请求的服务将需要把该读请求送到远程处理节点8。类似地，如果相干性目录50表明，所请求的高速缓存行是在远程处理节点8处“被共享的”，则对带有修正意图的读(RWITM)请求的服务将需要向远程处理节点8传送一个“杀掉”(Kill)命令，以使所请求的高速缓存行的远程副本作废。如块82所示，如果ARespIn表决结果不是ReRun(重运行)，则过程进到块90，它将在下文中描述；如果AResp In表决结果是ReRun(重运行)，则过程进到块84。

块84说明节点控制器20通过节点互连22把一适当的事务传送到一个或多个远程处理节点8，这些节点已经结清(check out)了这个所请求的高速缓存行。如前面指出的那样，该事务或者可以是一个高速缓存命令(例如Kill(杀掉))或读请求事务。然后该过程在块86处循环，直主节点控制器20收到来自每个被传送过事务(在块84)的远程处理节点8的响应为止。在收到适当数量的响应(它们可以包括接收所请求的高速缓存行的副本)之后，节点控制器20在本地互连16上传送一个ReRun(重运行)请求，指示发请求的处理器10a重发读请求。如在块88中指出的那样，发请求的处理器10a通过在本地互连16上重发读请求事务来响应这个ReRun(重运行)请求。跟随AStat和AResp周期，该读请求在块90得到服务：或者由节点控制器20提供从一远程处理节点8收到的所请求高速缓存行的副本，或者由处理节点8a中的另一本地窥探器(例如存储器控制器17或高速缓存14)对所请求的高速缓存行寻源。然后，该过程在块150终止。

现在参考块100，如果处理节点8a的节点控制器20确定处理节点8a不是所请求高速缓存行的主节点，则节点控制器20推测地把读请求事务传送到作为所请求高速缓存行主节点的远程处理节点8。如图3A指出的那样，由节点控制器20传送读请求至少是与AStatIn周期并发，而且最好是在从仲裁器24收到AStatIn表决结果之后和在ARespOut周期之前立即传送。当读请求被传送时，待决缓存器60中的读条目状态被更新为ReRun(重运行)。然后，如块102所示，窥探器提供它们的表决结果，而仲裁器编译这些结果以产生AStatIn表决结果。然后，如块110及其后各块所示，主节点提供一个对该读请求的响应，而节点控制器20根据处理节点8a处对该读请求的AStatIn表决结果处置这一响应。

如果该ARespIn表决结果是Retry(重试)，该读请求基本上在处理节点8a被杀掉。这样，为了响应收到一个ARespIn Retry(重试)表决结果，在待决缓存器60中分配的读和写条目的状态被更新为Null(空)。然后过程穿过块110到达块112和114，它们描述节点控制器20等待来自主节点的所请求的高速缓存行并当收到后废弃该高速缓存行以响应待决缓存器60中该读条目的Null(空)状态。

如果ARespIn表决结果是“修正的”干预，则该读请求可在本地的处理节点8a中得到服务，无需利用来自主节点的(陈旧的)数据。这样，为响应收到一个ARespIn Modified(修正的)干预表决结果，待决缓存器60中该读条目的状态被更新为Null(空)，于是过程从块102穿过块110和120进到块122。块122说明，在ARespOut周期表决为Modified(修正的)干预的那个窥探器在处理节点8a的本地互连16上对所请求的高速缓存行寻源。然后，在对所请求的高速缓存行寻源的窥探器处所请求的高速缓存行的相干性状态从Modified(修正的)更新为Shared(共享的)。为响应收到所请求的高速缓存行，发请求的处理器10a把所请求的高速缓存行加载到它的高速缓存分层结构14，如块124所示。此外，如块126所示，节点控制器捕获离开本地互连16的所请求高速缓存行，并向主节点发出含有该高速缓存行的带清除的写事务，以便用这修正的高速缓存行更新该主节点的***存储器18。然后过程进到块112，这已经描述过了。

由计算机***6实现的相干性协议可以任选地支持共享干预，即由持有处于Shared(共享的)状态的所请求高速缓存行的本地高速缓存分层结构14提供读请求事务服务。如果共享干预是由计算机***6的高速缓存相干性协议支持的，而是该请求事务的ARespIn表决结果是Shared(共享的)(即“共享的”干预)，则表决为Shared(共享的)的窥探器在本地互连16上对所请求的高速缓存行寻源，如块132所示。为响应收到所请求的高速缓存行，发请求的处理器10a把所请求的高速缓存行加载到它的高速缓存分层结构14中，如块134所示。由于不需要对***存储器18进行更新，分配在待决缓存器60中的读和写条目的状态被更新为Null(空)，于是过程在块150终止。

最后，如果在处理节点8a处对该请求事务的ARespIn表决结果为ReRun(重运行)，则待决缓存器60中写条目的状态被更新为Null(空)，而读条目的状态设置为ReRun(重运行)。然后，过程从块102穿过块110、120、130到达块142，它描述处理节点8a的节点控制器20等待直至从主节点收到所请求的高速缓存行。为响应经由节点互连22收到来自主节点的所请求的高速缓存行，节点控制器20经由本地互连16把所请求的高速缓存行传送到发请求的处理器10a，如块144所示。为响应收到所请求的高速缓存行，发请求的处理器10a把所请求的高速缓存行加载到它的高速缓存分层结构14中，如块146所示。然后，过程在块150终止。

现在参考图3B，图中描绘了一个高层逻辑流程图，显示主节点如何处理从另一处理节点接收的一个事务。如图所示，过程在块160开始，然后进到块162，它说明确定主节点是否已经通过节点互连22收到了来自另一处理节点的事务。如果不是，则过程在块162简单地循环，直至从另一处理节点8收到一个事务。为响应主节点的节点控制器20从一远程处理节点8收到一个事务，过程进到块164，它描述主节点的节点控制器20在主节点的本地互连16上传送在块162中收到的事务，如决策块170所指出的那样，如果在本地互连16上发布的事务是一个读事务，则过程地行到块172，它说明该读请求由一窥探器提供服务，该窥探器向主节点的节点控制器20提供所请求的高速缓存行的一个副本。为响应收到了所请求的高速缓存行，节点控制器20把所请求的高速缓存行经由节点互连22传送到发请求的处理节点8，如块174所示。然后，过程在块190终止。

回到块164，如果在主节点的本地互连16上传送的事务是写(例如带清除的写)事务，则过程穿过170和180进到块184，它说明存储器控制器17以写事务中包含的高速缓存行更新***存储器18。然后，过程在块180终止。如果在主节点的本地互连16上传送的事务既不是读事务也不是写事务，则主节点进行块182处的事务所指出的行动，然后过程在块190终止。为响应读或写事务以外的其他事务可能进行的行动包括例如更新主节点高速缓存分层结构14中保持的高速缓存行的相干性状态。

现在参考图4A—4D，图中描绘了根据本发明的处理过程示例。为了清楚，下面对处理过程示例的解释利用计算机***6的一个简化表示，它有两个处理节点8a和8b，每个含有两个处理器10a和10b。所请求的高速缓存行的相干性状态在每个处理器10的高速缓存分层结构14内和在主节点8a的相干性目录50内指出。

如图4A中指出的那样，处理节点8b的处理器10b首先发出对一高速缓存行的读请求，那个高速缓存行在其高速缓存分层结构14中是Invalid(无效的)(即未驻留)。为响应对该读请求的接收，处理节点8b的节点控制器推测地把读请求传送处理节点8a，它是在读请求中指定的该高速缓存行的主节点。当读请求被推测地传递到处理节点8a时，处理器10a在ARespOut周期期间表决为Modified(修正的)干预，因为它的高速缓存分层结构14持有处于Modified(修正的)状态的所请求的高速缓存行。处理节点8b的仲裁器编译ARespOut表决结果并向处理节点8b中的每个窥探器提供一个Modified(修正的)干预ARespIn表决结果。

接下来，如图4B中所示，处理节点8a的节点控制器20接收这个被推测地传递的读请求并在它的本地互连16上发布该请求。如图4B中指出的那样，节点控制器20在AResp Out周期期间表决为Null(空)以响应相干性目录50，表明读请求中指定的高速缓存行在处理节点8b为Modified(修正的)。节点控制器20承认这个特殊状态，这允许该读请求继续进行，如下文中针对图4D所讨论的那样。

如图4C中所示，独立于向处理节点8a推测地传送请求(而且可能在此传送之前、同时或之后)，处理节点8b的处理器10a对该读请求作出响应：即在本机互连16上对所请求的高速缓存行寻源，并把所请求的高速缓存行在其高速缓存分层结构14中的相干性状态更新为Shared(共享的)。为响应窥探到了所请求的高速缓存行，发请求的处理器10b把所请求的高速缓存行加载到它的高速缓存分层结构14并把相应的相干性状态设置为Shared(共享的)。此外，处理节点8b的节点控制器20捕获该高速缓存行并向处理节点8a发出一个含有此修正过的高速缓存行的带清除的写事务。为响应收到这带清除的写事务，处理节点8a的节点控制器20通过其本地互连16向***存储器18发出这带清除的写。然后主节点8a的***存储器18用这修正的数据更新相应的存储器行。

现在参考图4D，独立于图4A中所示存储器更新(而且可能在这更新之前、同时或之后)，处理节点8a的***存储器18对该读请求作出响应：即通过本地互连16寻到所请求的高速缓存行的一个可能的陈旧副本源于处理节点8a的节点控制器20。于是处理节点8a的节点控制器20把所请求的高速缓存行的这个副本传送到处理节点8b的节点控制器20，它抛弃该高速缓存行以响应在其待决缓存器60中被标为Null(空)的读请求。

如已描述的那样，本发明提供了一种改进的NUMA计算机***和在NUMA计算机***中的一种改进的通信方法。根据本发明，在确定一读请求是否能在本地得到服务而无需远程处理器干预之前，通过节点互连该读请求被推测地发布到一个远程处理节点(即主节点)。当该远程处理节点响应这一推测地传送的读请求时，发请求的处理节点根据该读请求的本地相干性响应来处置远程处理节点的响应。以这种方式，通信事务的延时能显著地减小。

还如已描述的那样，本发明提供了一个非均匀存储器访问(NUMA)计算机***，它包括至少一个本地处理节点和一个远程处理节点，它们每个连到一个节点互连上。本地处理节点包括一个本地互连，与该本地互连连接的一个处理器和一个***存储器，以及放在本地互连和节点互连之间的一个节点控制器。为响应收到一个来自本地互连的读请求，节点控制器通过节点互连把该读请求推测地传送到远程处理节点。然后，为响应收到来自该远程处理节点的对该读请求的响应，该节点控制器根据该本发处理节点处该读请求的分辨力(resolution)处置这个来自远程处理节点的响应。例如，在一个处理过程中，在从远程处理节点收到的响应中包含的数据被该节点控制器抛弃，如果该读请求在本地处理节点处接收一个Modified Intervention(修正的干预)相干性响应的话。

Claims

1.一个计算机***，包含：

一个节点互连，以及至少一个本地处理节点和一个远程处理节点，它们每个都连到所述节点互连上，所述本地处理节点包括一个本地互连，与本地互连相连的一个处理器和一个***存储器，以及一个节点控制器放在所述本地互连和节点互连之间，其中所述节点控制器推测地把从所述本地互连接收的请求事务经由所述节点互连传送到所述远程处理节点，而且其中所述节点控制器根据在所述本地处理节点处所述请求事务的分辨力，处理从所述远程处理节点处接收的对所述请求事务的响应。

2.权利要求1的计算机***，其中所述远程处理节点进一步包含一个本地互连以及一个放在所述节点互连和所述本地互连之间的一个节点控制器，其中为响应收到所述推测的请求事务，所述远程处理节点的节点控制器在所述远程处理节点的本地互连上发出所述推测的请求事务。

3.权利要求1的计算机***，其中：

所述计算机***进一步包含第三个处理节点：

所述请求事务包括一个地址；以及

所述第一处理节点的节点控制器至少是部分地响应所述请求事务中包括的所述地址，确定所述推测地传送的请求事务的一个目标处理节点。

4.权利要求1的计算机***，其中所述本地处理节点的所述节点控制器抛弃响应所述请求事务而从所述远程节点接收的数据，如果所述请求事务在所述本地处理节点收到一个修正的或共享的干预相干性响应的话。

5.权利要求1的计算机***，所述远程处理节点包括一个***存储器，其中所述本地处理节点的节点控制器推测地把所述请求事务传送到所述远程处理节点，以响应确定了所述请求事务指定了一个与所述远程处理节点处的***存储器相关联的地址。

6.权利要求1的计算机***，其中所述本地处理节点的节点控制器把从所述远程处理节点接收的数据之源放到所述本地处理节点的本地互连上，如果所述请求事务在所述本地处理节点收到一个相干性响应，指出所述请求事务不能在本地得到服务的话。

7.一种在计算机***中的通信方法，该计算机***包括一个节点互连，该节点互连至少连接一个本地处理节点和一个远程处理节点，所述本地处理节点包括一个本地互连，与本地互连相连的一个处理器和一个***存储器，以及一个节点控制器放在所述本地互连和所述节点互连之间，所述方法包含：

经由所述节点互连推测地把从所述本地互连接收的请求事务传送到所述远程处理节点；以及

在所述本地处理节点，从所述远程处理节点接收一个对所述请求事务的响应，为响应这一接收，根据所述本地处理节点处所述请求事务的分辨力，处理所述对该请求事务的响应。

8.权利要求7的方法，进一步包含：

为响应在所述远程处理节点处收到所述推测的请求事务，在所述远程处理节点的本地互连上发出所述推测的请求事务。

9.权利要求7的方法，其中所述计算机***进一步包括第三个处理节点，而且所述请求事务包括一个地址，所述方法进一步包含：

至少是部分地响应所述请求事务中包括的所述地址，确定所述推测地传送的请求事务的一个目标处理节点。

10.权利要求7的方法，其中处理所述响应包含抛弃从所述远程节点接收的数据，如果所述请求事务在所述本地处理节点处接收一个修正的或共享的干预相干性响应的话。

11.权利要求7的方法，所述远程处理节点包括一个***存储器，其中推测地传送一个请求事务包含向所述远程处理节点推测地传送所述请求事务，以响应确定所述请求事务指定了一个与所述远程处理节点处的***存储器相关联的地址。

12.权利要求7的方法，其中处理所述响应包含把从所述远程节点接收的数据放到所述本地处理节点的本地互连上，如果所述请求事务在所述本地处理节点收到一个相干性响应，指出所述请求事务不能在本地得到服务的话。