CN108027807A

CN108027807A - 基于块的处理器核拓扑寄存器

Info

Publication number: CN108027807A
Application number: CN201680054497.2A
Authority: CN
Inventors: D·C·伯格; A·L·史密斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-09-19
Filing date: 2016-09-13
Publication date: 2018-05-11
Anticipated expiration: 2036-09-13
Also published as: EP3350719B1; US10768936B2; CN108027807B; WO2017048661A1; EP3350719A1; US20170083334A1

Abstract

公开了与基于块的处理器核拓扑寄存器相关的***、装置和方法。在所公开的技术的一个示例中，处理器可以包括用于执行包括多个指令块的程序的多个基于块的处理器核。相应的基于块的处理器核可以包括可共享资源和可编程复合拓扑寄存器。可编程复合拓扑寄存器可用于指派共享可共享资源的物理处理器核组。

Description

基于块的处理器核拓扑寄存器

背景技术

由于摩尔定律所预测的持续的晶体管扩展，微处理器已经从晶体管数的持续增加、集成电路成本、制造资本、时钟频率、以及能量效率中收益，而相关的处理器指令集架构(ISA)却很小变化。然而，从在过去40年里驱动半导体工业的光刻扩展实现的益处正在放缓或者甚至反转。精简指令集计算(RISC)架构已经成为处理器设计中的主导典范很多年。乱序超标量实现尚未在面积或性能方面展现出持续改进。因此，存在对于扩展性能改进的处理器ISA改进的足够机会。

发明内容

公开了用于将处理器核的一个或多个资源组成为较大的逻辑处理核的方法、设备和计算机可读存储设备。处理器核实现了基于块的处理器指令集架构(BB-ISA)。所描述的技术和工具能够潜在地改进处理器性能，并且可以彼此分离地被实现，或者彼此各种组合被实现。如下面将更充分地描述的，所描述的技术和工具可以被实现在以下各项中：数字信号处理器、微处理器、专用集成电路(ASIC)、软处理器(例如，使用可重新配置逻辑被实现在现场可编程门阵列(FPGA)中的微处理器核)、可编程逻辑、或者其他适合的逻辑电路。如对于本领域的普通技术人员而言将容易地明显的，所公开的技术可以被实现在各种计算平台中，包括但不限于服务器、大型机、手机、智能电话、PDA、手持式设备、手持式计算机、触摸屏平板设备、平板计算机、可穿戴计算机、以及膝上型计算机。

在所公开的技术的一些示例中，处理器可以包括用于执行包括多个指令块的程序的多个基于块的处理器核。各个基于块的处理器核可以包括可共享资源和可编程复合拓扑寄存器。可编程复合拓扑寄存器可用于指派共享可共享资源的物理处理器核组。

提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或基本特征，其也不旨在用于限制要求保护的主题的范围。所公开的主题的前述和其他目标、特征以及优点将从参考附图进行的以下具体实施方式变得更加明显。

附图说明

图1图示了如可以在所公开的技术的一些示例中使用的包括多个处理器核的基于块的处理器。

图2图示了如可以在所公开的技术的一些示例中使用的基于块的处理器核。

图3图示了根据所公开的技术的某些示例的多个指令块。

图4图示了源代码和相应的指令块的部分。

图5图示了如可以在所公开的技术的一些示例中使用的基于块的处理器头部和指令。

图6是图示基于块的处理器中的处理器核的状态的进展的示例的流程图。

图7是图示了包括具有多个基于块的处理器核的处理器的示例***的图。

图8是图示了包括可共享和不可共享资源的基于块的处理器核的示例的图。

图9是图示了基于块的处理器核的示例控制寄存器的图。

图10至图12图示了被配置为使得资源在物理处理器核之间共享的多核处理器的示例。

图13和图14是图示了可以在公开的技术的一些示例中执行的使用逻辑处理器和/或逻辑资源对处理器进行编程以执行线程的示例方法的流程图。

图15-17是图示了可以在本公开技术的一些示例中使用的在逻辑处理器和/或逻辑资源上配置和/或执行程序的线程的示例方法的流程图。

图18是图示了用于实现所公开技术的一些实施例的合适计算环境的框图。

具体实施方式

I.总体考虑

在未旨在以任何方式进行限制的代表性实施例的上下文中阐述了本公开内容。

如在本申请中所使用的，除非上下文清楚地指明，否则单数形式“一”、“一种”和“该”包括复数形式。此外，术语“包括”意味着“包含”。而且，术语“耦合的”涵盖机械的、电的、磁性的、光学的以及将多个项耦合或链接在一起的其他实际方式，并且不排除耦合项之间的中间元件的存在。另外，如在此所使用的，术语“和/或”意味着短语中的任何一项或多项的组合。

在此所描述的***、方法和装置不应当以任何方式被解释为限制性的。相反，本公开涉及彼此单独并且以各种组合和子组合的各种所公开的实施例的所有新颖和非显而易见的特征和方面。所公开的***、方法和装置既不限于任何特定方面或者特征或者其组合，所公开的内容和方法也不要求任何一个或多个特定优点存在或者问题被解决。此外，所公开的实施例的任何特征或者方面可以彼此以各种组合和子组合被使用。

虽然为了方便呈现而以特定顺序的次序描述所公开的方法中的一些方法的操作，但是应当理解，除非特定排序由下面阐述的特定语言所要求，否则说明书的这种方式涵盖重新布置。例如，顺序地描述的操作可以在一些情况下重新布置或者并行地执行。此外，出于简单的缘故，附图可能未示出所公开的内容和方法可以结合其他内容和方法使用的各种方式。此外，说明书有时使用类似“产生”、“生成”、“显示”、“接收”、“发射”、“验证”、“执行”和“发起”的术语来描述所公开的方法。这些术语是所执行的实际操作的高层描述。对应于这些术语的实际操作将取决于特定实现而变化并且是由本领域的普通技术人员容易地可辨别的。

参考本公开的装置或者方法在此所呈现的操作理论、科学原理或者其他理论描述已经出于更好的理解的目的而被提供，并且不旨在范围方面是限制性的。所附的权利要求中的装置和方法不限于以由这样的操作理论所描述的方式实现的那些装置和方法。

所公开的方法中的任一方法可以被实现为被存储在一个或多个计算机可读介质(例如，计算机可读介质(诸如一个或多个光学介质光盘、易失性存储器部件(诸如DRAM或SRAM))或非易失性存储器部件(诸如硬盘驱动器))上并且被执行在计算机(例如，任何商业可获得的计算机，包括智能电话或者包括计算硬件的其他移动设备)上的计算机可执行指令。用于实现所公开的技术的计算机可执行指令中的任一指令以及在所公开的实施例的实现期间创建和使用的任何数据可以被存储在一个或多个计算机可读介质(例如，计算机可读存储介质)上。计算机可执行指令可以是例如专用软件应用或者经由网络浏览器或者其他软件应用(诸如远程计算应用)访问或者下载的软件应用的一部分。这样的软件可以例如在单个本地计算机(例如，作为在任何适合的商业可获得的计算机上执行的具有通用处理器和/或基于块的处理器)上被执行，或者在使用一个或多个网络计算机的网络环境(例如，经由因特网、广域网、局域网、客户端服务器网络(诸如云计算网络)、或者其他这样的网络)中被执行。

为了清晰起见，描述了基于软件的实现的仅某些所选的方面。省略了在本领域中众所周知的其他细节。例如，应当理解，所公开的技术不限于任何特定计算机语言或者程序。例如，所公开的技术可以通过以C、C++、JAVA或者任何其他适合的编程语言来实现。同样地，所公开的技术不限于任何特定计算机或者硬件类型。适合的计算机和硬件的某些细节是众所周知的并且不需要在本公开中被详细阐述。

此外，基于软件的实施例(包括例如用于使得计算机执行所公开的方法中的任一方法的计算机可执行指令)中的任一实施例可以通过适合的通信手段被上载、被下载或者被远程访问。这样的适合的通信手段包括例如因特网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信、或者其他这样的通信手段。

II.对所公开的技术的介绍

超标量乱序微架构采用大量的电路资源来重命名寄存器，以数据流次序调度指令，在误推测之后清理，并且针对精确异常按序收回结果。这包括昂贵的能量消耗电路，诸如深的许多端口的寄存器文件、用于数据流指令调度唤醒的许多端口的内容可访问存储器(CAM)、以及许多宽总线复用器和旁路网络，所有的这些都是资源密集的。例如，多读取、多写入RAM的基于FPGA的实现通常要求复制、多循环操作、时钟加倍、组交错、实况值表和其他昂贵技术的混合。

所公开的技术可以通过应用包括高指令集并行性(ILP)、乱序(out-of-order，OoO)、超标量执行的技术来实现能量效率和/或性能增强，同时避免处理器硬件和相关联的软件二者中的大量的复杂性和开销。在所公开的技术的一些示例中，包括多个处理器核的基于块的处理器使用针对区域和能量有效的高ILP执行所设计的显式数据图形执行(EDGE)ISA。在一些示例中，EDGE架构和相关联的编译器的使用巧妙处理重命名CAM的寄存器的远离和复杂性。在一些示例中，基于块的处理器的相应核可以存储或者高速缓存可以被重复地执行的所取指且译码的指令，并且所取指且译码的指令可以被重新使用以潜在地实现减少的功率和/或增加的性能。

在所公开的技术的某些示例中，EDGE ISA可以消除对于一个或多个复杂架构特征的需要，包括寄存器重命名、数据流分析、误推测恢复以及按序引退，同时支持主流编程语言(诸如C和C++)。在所公开的技术的某些示例中，基于块的处理器执行多个(两个或两个以上)指令作为原子块。基于块的指令可以被用于以更显式的方式表达程序数据流和/或指令流的语义，这允许改进的编译器和处理器性能。在所公开的技术的某些示例中，显式数据图形执行指令集架构(EDGE ISA)包括关于可以用于改进对不适当的控制流指令的检测的程序控制流的信息，从而增加性能、节省存储器资源和/或以及节省能量。

在所公开的技术的一些示例中，在指令块内组织的指令原子地被取指、被执行并且被提交。由原子指令块中的指令产生的中间结果在本地被缓冲，直到指令块被提交。当指令块被提交时，对由执行指令块的指令而得到的可见架构状态的更新对其他指令块可见。块内的指令以数据流次序被执行，其使用寄存器重命名减少或者消除并且提供功率有效的OoO执行。编译器可以被用于通过ISA显式地编码数据依存性，这减少或者消除负担的处理器核控制逻辑在运行时重新发现依存性。使用所断言的执行，块内分支可以被转换为数据流指令，并且除了存储器依存性之外的依存性可以限于直接数据依存性。所公开的目标形式编码技术允许块内的指令经由操作数缓冲器直接地传递其操作数，这减少对功耗渴望的多端口物理寄存器文件的访问。

在指令块之间，指令可以使用诸如存储器和寄存器的可见架构状态来进行通信。因此，通过利用混合数据流执行模型，EDGE架构可以仍然支持命令式编程语言和顺序的存储器语义，但是期望地还享有具有近按序功率效率和复杂性的乱序执行的益处。

单线程程序或多线程程序的指令块可以使用可针对给定工作负载被动态适配的多核处理器并行执行。例如，物理核可以组合成更大的逻辑处理器，逻辑处理器可以分解为更小的逻辑处理器或物理核，和/或可以资源在物理核之间被共享。逻辑处理器可以包括彼此协调以执行程序的线程内的指令块的一个或多个物理核。通过动态调整逻辑处理器的复合和物理处理器核的资源共享，程序可以比没有动态地适配给定工作负载的能力的处理器更快地执行和/或使用更少的能量。

如本领域的普通技术人员将容易地理解到，所公开的技术的实现的范围在各种区域、性能和功率折中的情况下是可能的。

III.示例基于块的处理器

图1是如可以被实现在所公开的技术的一些示例中的基于块的处理器100的块图10。处理器100被配置为根据指令集架构(ISA)来执行原子指令块，ISA描述了处理器操作的若干方面，包括寄存器模型、由基于块的指令执行的若干定义操作、存储器模型、中断以及其他架构特征。基于块的处理器包括多个处理器核110，其包括处理器核111。

如在图1中所示，处理器核经由核互连120而彼此连接。核互连120携带数据并且控制核110中的个体核、存储器接口140以及输入/输出(I/O)接口145之间的信号。核互连120可以使用电的、光学的、磁性的或者其他适合的通信技术来发送和接收信号，并且可以取决于特定期望的配置而提供根据若干不同的拓扑布置的通信连接。例如，核互连120可以具有交叉开关、总线、点对点总线、或者其他适合的拓扑。在一些示例中，核110中的任一核可以被连接到其他核中的任一核，而在其他示例中，一些核仅被连接到其他核的子集。例如，每个核可以仅被连接到最近的4、8或20个邻近核。核互连120可以用于将输入/输出数据传送至核以及从核传送输入/输出数据，以及将控制信号和其他信息信号传送至核以及从核传送控制信号和其他信息信号。例如，核110中的每个核110可以接收并且传送指示当前正由相应核中的每个核执行的指令的执行状态的信号量。在一些示例中，核互连120被实现为将核110和存储器***连接的接线，而在其他示例中，核互连可以包括用于多路复用(一条或多条)互连接线上的数据信号的电路、开关和/或路由部件，包括活跃的信号驱动器和中继器或者其他适合的电路。在所公开的技术的一些示例中，在处理器100内和/或至/来自处理器100的信号不限于全摆幅电数字信号，而是处理器可以被配置为包括差分信号、脉冲信号或者用于传送数据和控制信号的其他适合的信号。

在图1的示例中，处理器的存储器接口140包括被用于连接到附加存储器(例如，被定位在除了处理器100之外的另一集成电路上的存储器)的接口逻辑。如在图1中所示，外部存储器***150包括L2高速缓存152和主存储器155。在一些示例中，L2高速缓存可以使用静态RAM(SRAM)被实现，并且主存储器155可以使用动态RAM(DRAM)被实现。在一些示例中，存储器***150被包括在与处理器100的其他部件相同的集成电路上。在一些示例中，存储器接口140包括允许在不使用(一个或多个)寄存器文件和/或处理器100的情况下传送存储器中的数据块的直接存储器访问(DMA)控制器。在一些示例中，存储器接口140可以包括用于管理并且分配虚拟存储器、扩展可用的主存储器155的存储器管理单元(MMU)。

I/O接口145包括用于将输入信号和输出信号接收并且发送到其他部件的电路，诸如硬件中断、***控制信号、***接口、协处理器控制和/或数据信号(例如，用于图形处理单元、浮点协处理器、物理处理单元、数字信号处理器或者其他协处理部件的信号)、时钟信号、信号量或者其他适合的I/O信号。I/O信号可以是同步的或者异步的。在一些示例中，I/O接口的全部或部分结合存储器接口140使用存储器映射的I/O技术被实现。

基于块的处理器100还可以包括控制单元160。控制单元可以经由核互连120或边带互连(未示出)来与处理核110、I/O接口145和存储器接口140进行通信。控制单元160监督处理器100的操作。可以由控制单元160执行的操作可以包括对核的分配和去分配以用于执行指令处理；对任何核、寄存器文件、存储器接口140和/或I/O接口145中之间的输入数据和输出数据的控制；对执行流的修改；以及验证控制流中的分支指令、指令头部和其他改变的(一个或多个)目标位置。控制单元160还可以处理硬件中断，并且控制特殊***寄存器(例如，被存储在一个或多个寄存器文件中的程序计数器)的读取和写入。在所公开的技术的一些示例中，控制单元160至少部分地使用处理器核110中的一个或多个核被实现，而在其他示例中，控制单元160使用非基于块的处理器核(例如，耦合到存储器的通用RISC处理核)被实现。在一些示例中，控制单元160至少部分地使用以下各项中的一项或多项被实现：硬连线有限状态机、可编程微代码、可编程门阵列或者其他适合的控制电路。在备选示例中，可以由核110中的一个或多个核来执行控制单元功能。

控制单元160包括用于将指令块分配到处理器核110的调度器。如在此所使用的，调度器分配涉及用于引导指令块的操作的硬件，包括发起指令块映射、取指、译码、执行、提交、中止、空闲以及刷新指令块。在一些示例中，硬件接收使用计算机可执行指令所生成的信号，以引导指令调度器的操作。处理器核110在指令块映射期间被指派到指令块。指令操作的叙述阶段出于说明性目的，并且在所公开的技术的一些示例中，某些操作可以被组合、被省略、被分离为多个操作，或者被添加附加操作。

基于块的处理器100还包括时钟发生器170，其将一个或多个时钟信号分布到处理器内的各种部件(例如，核110、互连120、存储器接口140和I/O接口145)。在所公开的技术的一些示例中，所有部件共享共同时钟，而在其他示例中，不同的部件使用不同的时钟(例如，具有不同的时钟频率的时钟信号)。在一些示例中，时钟的一部分被选通以在处理器部件中的一些部件未被使用时允许功率节省。在一些示例中，时钟信号使用锁相环(PLL)被生成以生成具有固定的恒定频率和占空比的信号。接收时钟信号的电路可以在单个边沿(例如，上升沿)上被触发，而在其他示例中，接收电路中的至少一些电路通过上升和下降时钟沿而被触发。在一些示例中，时钟信号可以光学地或无线地被传输。

IV.示例基于块的处理器核

图2是如可以在所公开的技术的某些示例中使用的进一步详述用于基于块的处理器100(并且特别地，基于块的处理器核(处理器核111)之一的实例)的示例微架构的块图200。为了便于解释，示例性的基于块的处理器核111被图示有五个阶段：指令取指(IF)、译码(DC)、操作数取回、执行(EX)以及存储器/数据访问(LS)。然而，本领域的普通技术人员将容易地理解到，对所图示的微架构的修改(诸如添加/移除阶段、添加/移除执行操作的单元、以及其他实现细节)可以被修改为适合用于基于块的处理器的特定应用。

在所公开的技术的一些示例中，处理器核111可以用于执行和提交程序的指令块。指令块是包括指令块头部和多个指令的基于块的处理器指令的原子集合。如将在下面进一步讨论的，指令块头部可以包括描述指令块的执行模式的信息和可以用于进一步定义指令块中的多个指令中的一个或多个的语义的信息。取决于所使用的特定ISA和处理器硬件，指令块头部还可以在指令的执行期间被使用以通过例如允许指令和/或数据的提前获取、改进分支预测、推测执行、改进的能源效率、以及改进的代码紧凑性来改进执行指令块的性能。

指令块的指令可以是显式地编码指令块的生产者-消费者指令之间的关系的数据流指令。具体地，指令可以通过仅为目标指令保留的操作数缓冲器来直接将结果传送给目标指令。在操作数缓冲器中存储的中间结果通常对执行核外部的核不可见，因为块-原子执行模型只在指令块之间传递最终结果。当指令块被提交时，执行原子指令块指令的最终结果在执行核外部可见。因此，由每个指令块生成的可见架构状态可以作为执行核之外的单个事务出现，并且中间结果通常在执行核之外是不可观察的。

如在图2中所示，处理器核111包括控制单元205，其可以从其他核接收控制信号，并且生成控制信号来调节核操作并且使用指令调度器206调度核内的指令流。控制单元205可以包括用于检查核状态和/或配置处理器核111的操作模式的状态访问逻辑207。控制单元205可以包括执行用于在处理器核111的一个或多个操作模式期间生成控制信号的执行控制逻辑208。可以由控制单元205和/或指令调度器206执行的操作可以包括对核的分配和去分配以用于执行指令处理；对任意核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。控制单元205还可以处理硬件中断，并且控制特殊***寄存器(例如，被存储在一个或多个寄存器文件中的程序计数器)的读取和写入。在所公开的技术的其他示例中，控制单元205和/或指令调度器206使用非基于块的处理器核(例如，耦合到存储器的通用RISC处理核)被实现。在一些示例中，控制单元205、指令调度器206、状态访问逻辑207和/或执行控制逻辑208至少部分地使用以下各项中的一项或多项被实现：硬连线有限状态机、可编程微代码、可编程门阵列、或者其他适合的控制电路。

控制单元205可以译码指令块头部以获得关于指令块的信息。例如，指令块的执行模式可以通过各种执行标志在指令块头部中被指定。译码的执行模式可以存储在执行控制逻辑208的寄存器中。基于执行模式，执行控制逻辑208可以诸如通过使用指令调度器206来生成控制信号以调节核操作并调度核111内的指令流。例如，在默认执行模式期间，执行控制逻辑208可以对在处理器核111的一个或多个指令窗口(例如，210、211)上执行的一个或多个指令块的指令进行排序。具体地，每条指令可以通过指令取指、译码、操作数取指、执行和存储器/数据访问阶段来排序，使得指令块的指令可以流水线化并且并行执行。在它们的操作数可用时指令准备执行，并且指令调度器206可以选择执行指令的顺序。

状态访问逻辑207可以包括用于其他核和/或处理器级控制单元(诸如图1的控制单元160)与核111通信并访问核111状态的接口。例如，状态访问逻辑207可以连接到核互连(诸如图1的核互连120)，并且其他核可以经由控制信号、消息、读取和写入寄存器等进行通信。

状态访问逻辑207可以包括用于修改和/或检查指令块的模式和/或状态和/或核状态的控制状态寄存器或者其他逻辑。作为示例，核状态可以指示指令块是否被映射到核111或者核111的指令窗口(例如，指令窗口210、211)、指令块是否驻留在核111上、指令块是否执行在核111上、指令块是否准备提交、指令块是否正执行提交、以及指令块是否空闲。作为另一示例，指令块的状态可以包括指示指令块是所执行的最旧的指令块的标记或者标志以及指示指令块正推测地执行的标志。作为另一个示例，处理器核的状态可以包括功率状态，诸如处理器核的个体资源或作为整体的处理器核的功率状态。

控制状态寄存器(CSR)可以被映射到被保留用于由基于块的处理器使用的唯一存储器位置。例如，控制单元160(图1)的CSR可以被指派到第一地址范围，存储器接口140(图1)的CSR可以被指派到第二地址范围，第一处理器核可以被指派到第三地址范围，第二处理器核可以被指派到第四地址范围，等等。在一个实施例中，CSR可以使用基于块的处理器的通用存储器加载和存储指令而被访问。附加地或者备选地，CSR可以使用用于CSR的特定读取和写入指令(例如，用于读/写CSR的指令具有与存储器加载和存储指令不同的操作码)而被访问。因此，一个核可以通过从对应于不同核的CSR的地址进行读取来检查不同核的配置状态。类似地，一个核可以通过写入到对应于不同核的CSR的地址来修改不同核的配置状态。CSR可以被保护或控制，使得只有受信软件组件才能读取和写入CSR。例如，CSR只能从特权或内核模式访问。附加地或备选地，可以由通过串行扫描链(诸如通过联合测试行动组(JTAG)测试访问端口和边界扫描逻辑)将命令移入状态访问逻辑207来访问CSR。以这种方式，一个核可以检查不同核的状态访问逻辑207，并且一个核可以修改不同核的状态访问逻辑207或模式。

如本文进一步描述的，状态访问逻辑207可以包括用于配置和/或重新配置核以在不同操作模式下操作的寄存器或其他逻辑。例如，状态访问逻辑207可以包括可通过CSR写入的复合控制寄存器，该合成控制寄存器控制处理器核的哪个资源可以与其他处理器核共享。复合控制寄存器还可以指定处理器核是否被组成为逻辑处理器的一部分。复合控制寄存器还可以控制处理器核的功率状态。作为另一个示例，状态访问逻辑207可以包括可通过CSR写入的复合拓扑寄存器，该合成拓扑寄存器控制哪些处理器核可以与其他处理器核被分组。

指令窗口210和211中的每个指令窗口可以从输入端口220、221和222(其连接到互连总线)中的一个或多个输入端口以及指令高速缓存227(其进而连接到指令译码器228和229)接收指令和数据。附加的控制信号还可以在附加的输入端口225上被接收。指令译码器228和229中的每个指令译码器对用于指令块中的指令进行译码，并且将所译码的指令存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216内。

处理器核111还包括耦合到L1(第一级)高速缓存235的寄存器文件230。寄存器文件230存储用于在基于块的处理器架构中定义的寄存器的数据，并且可以具有一个或多个读端口和一个或多个写端口。例如，寄存器文件可以包括用于将数据存储在寄存器文件中的两个或两个以上写端口，以及具有用于从寄存器文件内的个体寄存器读取数据的多个读端口。在一些示例中，单个指令窗口(例如，指令窗口210)可以一次访问寄存器文件的仅一个端口，而在其他示例中，指令窗口210可以访问一个读端口和一个写端口，或者可以同时访问两个或两个以上读端口和/或写端口。在一些示例中，寄存器文件230可以包括64个寄存器，寄存器中的每个寄存器保持32位的数据的字。(除非另外指定，否则本申请将把32位的数据称为字)。在一些示例中，寄存器文件230内的寄存器中的一些寄存器可以被分配为特殊目的。例如，寄存器中的一些寄存器可以被专用作***寄存器示例，其包括存储常量值(例如，所有零字)、(一个或多个)程序计数器(PC)(其指示正被执行的程序线程的当前地址)、物理核数目、逻辑核数目、核分配拓扑、核控制标志、处理器拓扑或者其他适合的专用目的的寄存器。在一些示例中，存在多个程序计数器寄存器、一个或每个程序计数器，以允许跨一个或多个处理器核和/或处理器的多个执行线程的并发执行。在一些示例中，程序计数器被实现为指定存储器位置，而不是寄存器文件中的寄存器。在一些示例中，***寄存器的使用可以由操作***或者其他监督式计算机指令进行限制。在一些示例中，寄存器文件230被实现为触发器阵列，而在其他示例中，寄存器文件可以使用锁存器、SRAM或者其他形式的存储器存储装置被实现。针对给定处理器(例如，处理器100)的ISA规格指定寄存器文件230内的寄存器如何被定义并且被使用。

在一些示例中，处理器100包括由多个处理器核共享的全局寄存器文件。在一些示例中，与处理器核相关联的个体寄存器文件可以被组合以静态地或者动态地形成较大的文件，这取决于处理器ISA和配置。

如在图2中所示，指令窗口210的存储器存储库215包括若干译码的指令241、左操作数(LOP)缓冲器242、右操作数(ROP)缓冲器243以及指令记分板245。在所公开的技术的一些示例中，指令块中的每个指令被分解为一行译码的指令、左操作数和右操作数和记分板数据，如在图2中所示。译码的指令241可以包括被存储为位级控制信号的指令的部分或者完全译码的版本。操作数缓冲器242和243存储操作数(例如，从寄存器文件230接收到的寄存器值、从存储器接收到的数据、在指令内编码的中间操作数、由较早发出的指令计算的操作数、或者其他操作数值)，直到其相应的译码的指令准备好执行。指令操作数从操作数缓冲器242和243被读取，而不是寄存器文件。

第二指令窗口211的存储器存储库216存储类似的指令信息(译码的指令、操作数和记分板)作为存储器存储库215，但是出于简单的原因在图2中未示出。指令块可以关于第一指令窗口由第二指令窗口211并发地或者顺序地执行，这受制于ISA约束并且如由控制单元205引导。

在所公开的技术的一些示例中，前端流水线阶段IF和DC可以从后端流水线阶段(IS、EX、LS)运行去耦合。在一个实施例中，控制单元可以每时钟周期将两个指令取指并且译码到指令窗口210和211中的每个指令窗口中。在备选实施例中，控制单元可以每时钟周期将一个、四个或者另一数目的指令取指并且译码到对应数目的指令窗口中。控制单元205使用记分板245来提供指令窗口数据流调度逻辑以监测每个译码的指令的输入(例如，每个相应指令的(一个或多个)断言和(一个或多个)操作数)的就绪状态。当针对特定译码的指令的所有输入就绪时，指令准备好发出。控制逻辑205然后每周期发起一个或多个下一指令(例如，最低编号的就绪指令)的执行，并且其译码指令和输入操作数被发送到功能单元260中的一个或多个功能单元以用于执行。译码的指令还可以对若干就绪事件进行编码。控制逻辑205中的调度器接受来自其他源的这些和/或事件，并且更新窗口中的其他指令的就绪状态。因此执行从处理器核的111个就绪零输入指令开始，继续以零输入指令为目标的指令等。

译码指令241不需要以其被布置在指令窗口210的存储器存储库215内的相同次序被执行。相反，指令记分板245用于追踪译码的指令的依存性，并且当依存性已经被满足时，相关联的个体译码指令被调度用于执行。例如，当依存性已经针对相应指令被满足时，对相应指令的参考可以被推送到就绪队列上，并且指令可以从就绪队列以先进先出(FIFO)次序被调度。被存储在记分板245中的信息可以包括但不限于相关联的指令的执行断言(诸如指令是否正等待要被计算的断言位，并且在断言位是真或者假的情况下指令是否执行)、操作数对于指令的可用性、或者在执行相关联的个体指令之前所要求的其他前提条件。

在一个实施例中，记分板245可以包括：译码就绪状态，其由指令译码器228初始化；以及活跃就绪状态，其在指令的执行期间由控制单元205初始化。例如，译码就绪状态可以编码相应指令是否已经被译码、等待断言和/或一些操作数(也许经由广播信道)、或者立即准备发出。活跃就绪状态可以编码相应指令是否等待断言和/或一些操作数、是准备发出还是已经发出。译码就绪状态可以在块重置或者块刷新时被清除。在分支到新指令块时，译码就绪状态和活跃就绪状态被清除(块或核被重置)。然而，当指令块在核上被重新执行时(诸如当其分支回到其自身(块刷新))，仅仅活跃就绪状态被清除。块刷新可以立即发生(当指令块分支到自身)，或者在执行若干其他中间指令块之后发生。指令块的译码就绪状态可以因此被保留，使得其不需要重新取指并且译码块的指令。因此，块刷新可以用于节省循环和其他重复程序结构中的时间和能量。

被存储在每个指令窗口中的指令的数目通常对应于指令块内的指令的数目。在一些示例中，指令块内的指令的数目可以是32、64、128、1024或者另一数目的指令。在所公开的技术的一些示例中，跨处理器核内的多个指令窗口分配指令块。在一些示例中，指令窗口210、211可以被逻辑分区，使得多个指令块可以在单个处理器核上被执行。例如，可以在一个核上执行一个、两个、四个或者另一数目的指令块。相应的指令块可以彼此并发地或者顺序地被执行。

指令可以使用被定位在处理器核111内的控制单元205而被分配并且被调度。控制单元205安排来自存储器的对指令的取指、对执行的译码、在其已经被加载到相应的指令窗口时对指令的执行、进/出处理器核111的数据流，并且控制由处理器核输入和输出的信号。例如，控制单元205可以包括如上文所描述的就绪队列，以用于在调度指令中使用。可以原子地执行被存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216中的指令。因此，对由执行的指令影响的可见架构状态(诸如寄存器文件230和存储器)的更新可以本地缓存在核内直到指令被提交为止。控制单元205可以确定指令何时准备被提交，对提交逻辑进行排序，并发出提交信号。例如，指令块的提交阶段可以在对所有寄存器写入被缓冲时开始，所有对存储器的写入都被缓冲，并计算分支目标。指令块可在对可见架构状态的更新完成时提交。例如，当寄存器写入被写入寄存器文件时，存储被发送到加载/存储单元或存储器控制器，并且提交信号被生成时，可以提交指令块。控制单元205还至少部分地控制功能单元260对各个指令窗口中的每一个的分配。

如在图2中所示，具有若干执行流水线寄存器255的第一路由器250用于将数据从指令窗口210和211中的任一指令窗口发送到功能单元260中的一个或多个功能单元，其可以包括但不限于整数ALU(算术逻辑单元)(例如，整数ALU 264和265)、浮点单元(例如，浮点ALU 267)、移位/旋转逻辑(例如，桶型移位器268)或者其他适合的执行单元，其可以包括图形功能、物理功能和其他数学操作。来自功能单元260的数据可以然后通过第二路由器270被路由到输出290、291和292，路由返回到操作数缓冲器(例如，LOP缓冲器242和/或ROP缓冲器243)，或者被馈送回到另一功能单元，这取决于特定指令被执行的要求。第二路由器270可以包括：加载/存储队列275，其可以被用于发出存储器指令；数据高速缓存277，其存储正从核被输出到存储器的数据；以及加载/存储流水线寄存器278。

核还包括控制输出295，其用于指示例如指令窗口210或者211中的一个或多个指令窗口的所有指令的执行何时已经完成。当指令块的执行完成时，指令块被指定为“提交的”并且来自控制输出295的信号可以进而可以由基于块的处理器100内的其他核和/或由控制单元160用于发起其他指令块的调度、取指和执行。第一路由器250和第二路由器270二者可以将数据发送回到指令(例如，作为用于指令块内的其他指令的操作数)。

如本领域的普通技术人员将容易理解到，个体核内的部件不限于图2中所示的那些部件，而是可以根据特定应用的要求而变化。例如，核可以具有更少或更多的指令窗口，单个指令译码器可以由两个或两个以上指令窗口共享，并且所使用的功能单元的数目和类型可以取决于用于基于块的处理器的特定目标应用而变化。在利用指令核选择并且分配资源时应用的其他考虑包括性能要求、能量使用要求、集成电路芯片、处理技术和/或成本。

对于本领域的普通技术人员而言将容易明显的，可以通过处理器核110的指令窗口(例如，指令窗口210)和控制逻辑205内的资源的设计和分配来在处理器性能中做出折中。面积、时钟周期、能力和限制实质上确定个体核110的实现性能和基于块的处理器核110的吞吐量。

指令调度器206可以具有不同的功能。在某些较高的性能示例中，指令调度器是高并发的。例如，每个周期(一个或多个)译码器将指令的译码就绪状态和译码指令写入到一个或多个指令窗口中，选择要发出的下一个指令，并且作为响应后端发送第二就绪事件——以特定指令的输入槽(断言、左操作数、右操作数等)为目标的任一目标就绪事件或者以所有指令为目标的广播就绪事件。每指令就绪状态位连同译码就绪状态可以用于确定指令准备好发出。

在一些示例中，指令调度器206使用存储装置(例如，先进先出(FIFO)队列、内容可寻址存储器(CAM))被实现，存储装置存储指示被用于根据所公开的技术调度指令块的执行的信息的数据。例如，关于指令依存性的数据、控制的传递、推测、分支预测和/或数据加载和存储被布置在存储装置中，以促进将指令块映射到处理器核中的确定。例如，指令块依存性可以与标签相关联，标签被存储在FIFO或者CAM中并且后续由用来将指令块映射到一个或多个处理器核的选择逻辑进行访问。在一些示例中，指令调度器206使用耦合到存储器的通用处理器被实现，存储器被配置为存储用于调度指令块的数据。在一些示例中，指令调度器206使用专用处理器或者使用耦合到存储器的基于块的处理器核被实现。在一些示例中，指令调度器206被实现为耦合到存储器的有限状态机。在一些示例中，在处理器(例如，通用处理器或者基于块的处理器核)上执行的操作***生成优先级、断言和其他数据，其可以至少部分地用于利用指令调度器206来调度指令块。如本领域的普通技术人员将容易地理解到，在集成电路、可编程逻辑或者其他适合的逻辑中实现的其他电路结构可以用于实现用于指令调度器206的硬件。

在一些情况下，调度器206接受目标指令的事件，其尚未被译码并且还必须禁止已发出的就绪指令的重新发出。指令可以是非断言的、或者断言的(基于真或假条件)。断言的指令直到其由另一指令的断言结果作为目标时才变得就绪，并且该结果匹配断言条件。如果相邻的断言未匹配，则指令绝不发出。在一些示例中，断言指令可以推测地被发出并且被执行。在一些示例中，处理器可以随后检查推测地发出和执行的指令被正确地推测。在一些示例中，误推测的发出指令和消耗其输出的块中的指令的特定传递闭包可以被重新执行、或者被误推测取消的副作用。在一些示例中，对误推测的指令的发现导致整个指令块的完全回滚和重新执行。

V.示例指令块流

现在转到图3的示图300，图示了基于块的指令流的一部分310，包括若干可变长度指令块311-315(A-E)。指令流可以用于实现用户应用、***服务或者任何其他适合的用途。在图3中所示的示例中，每个指令块从指令头部开始，其跟随有不同的数目的指令。例如，指令块311包括头部320和二十条指令321。所图示的特定指令头部320包括部分地控制指令块内的指令的执行的若干数据字段，并且还允许改进的性能增强技术，包括例如分支预测、推测执行、惰性评估和/或其他技术。指令头部320还包括指示头部是指令头部而非指令的ID位。指令头部320还包括指令块大小的指示。指令块大小可以处于比一更大的指令的数据块中，例如，被包含在指令块内的4指令数据块的数目。换句话说，块的大小被移动4位以便压缩被分配到指定指令块大小的头部空间。因此，0的大小值指示最小大小的指令块，其是跟随有四条指令的块头部。在一些示例中，指令块大小被表达为字节数、字数、n字数据块数、地址、地址偏移或者使用用于描述指令块的大小的其他适合的表达。在一些示例中，指令块大小由指令块头部和/或脚部中的终止位模式来指示。

指令块头部320还可以包括执行标志，其指示特殊指令执行要求。例如，取决于特定应用，分支预测或者存储器依存性预测可以针对某些指令块被禁止。

在所公开的技术的一些示例中，指令头部320包括指示编码数据是指令头部的一个或多个标识位。例如，在一些基于块的处理器ISA，最低有效位空间中的单个ID位总是被设定为二进制值1，以指示有效指令块的开始。在其他示例中，不同的位编码可以用于(一个或多个)标识位。在一些示例中，指令头部320包括指示相关联的指令块被编码所针对的ISA的特定版本的信息。

指令块头部还可以包括用于在例如分支预测、控制流确定和/或坏跳检测中使用的若干块退出类型。退出类型可以指示分支指令的类型是什么，例如：顺序分支指令，其指向存储器中的下一相连的指令块；偏移指令，其是相对于偏移而计算的存储器地址处的另一指令块的分支；子例程调用、或者子例程返回。通过编码指令头部中的分支退出类型，分支预测器可以至少部分地在相同指令块内的分支指令已经被取指和/或被译码之前开始操作。

指令块头部320还包括存储掩码，其标识被指派到存储操作的加载存储队列标识符。指令块头部还可以包括写入掩码，其标识相关联的指令块将写入的(一个或多个)全局寄存器。相关联的寄存器文件必须在指令块可以完成之前接收对每个条目的写入。在一些示例中，基于块的处理器架构可以包括不仅标量指令，而且单指令多数据(SIMD)指令，这允许具有单个指令内的较大数目的数据操作数的操作。

VI.示例块指令目标编码

图4是描绘C语言源代码的两个部分410和415及其相应的指令块420和425(以汇编语言)的示例的示图400，这图示了基于块的指令可以如何显式地编码其目标。高级C语言源代码可以通过其目标是基于块的处理器的编译器被转换为低级汇编语言和机器代码。高级语言可以提取出底层计算机架构的许多细节，使得程序员可以聚焦于程序的功能。相反，机器代码根据目标计算机的ISA来编码程序，使得其可以使用计算机的硬件资源在目标计算机上被执行。汇编语言是机器代码的人类可读形式。

在以下示例中，汇编语言指令使用以下术语：“I[<number>]指定指令块内指令的编号，其中对于指令头部之后的指令，编号从零开始，并且对于每个后续指令，指令编号都会递增；指令的操作(诸如READ、ADDI、DIV等)遵循指令编号；可选值(诸如立即值1)或对寄存器的引用(例如对于寄存器0为R0)遵循该操作；并且用于接收指令结果的可选目标遵循值和/或操作。每个目标可以是到另一指令、到其他指令的广播信道、或者可以是当指令块被提交时，对另一个指令块是可见的寄存器。指令目标的示例是T[1R]，T[1R]以指令1的右操作数为目标。寄存器目标的示例是W[R0]，其中目标被写入寄存器0。

在图400中，指令块420的前两个READ指令430和431相应地以ADD指令432的右(T[2R])和左(T[2L])操作数为目标。在所图示的ISA中，读指令是从全局寄存器文件读取的唯一指令；然而，任何指令可以以全局寄存器文件为目标。当ADD指令432接收到这两个寄存器读取的结果时，其将变为就绪并且执行。

当TLEI(测试小于等于立即(test-less-than-equal-immediate))指令433从ADD接收其单个输入操作数时，其将变为就绪并且执行。测试然后产生在信道一(B[1P])上广播到在广播信道上监听的所有指令的断言操作数，其在该示例中是两个断言的分支指令(BRO_T 434和BRO_F 435)。接收匹配断言的分支将激发。

指令块420的依存性图形440还被图示为指令节点阵列450和其对应的操作数目标455和456。这图示了块指令420、对应的指令窗口条目以及由指令所表示的底层数据流程图之间的对应性。此处，译码指令READ 430和READ 431准备好发出，因为其不具有输入依存性。当其发出并且执行时，从寄存器R6和R7读取的值被写入到ADD 432的右操作数缓冲器和左操作数缓冲器中，这使得ADD 432的左操作数和右操作数“就绪”。因此，ADD 432指令变为就绪、发出到ALU、执行，并且之和被写入到TLEI 433的左操作数。

作为比较，传统的乱序RISC或者CISC处理器将使用附加的硬件复杂性、功率、面积并且减少时钟频率和性能来在运行时建立依存性图形。然而，依存性图形在编译时是静态地已知的并且EDGE编译器可以通过ISA直接地编码指令之间的生产者-消费者关系，这使得微架构免于动态地重新发现他们。这可以潜在地实现更简单的微架构，减少面积、功率和升压频率和性能。

VII.示例基于块的指令格式

图5是图示用于指令头部510、通用指令520和分支指令530的指令格式的一般化示例的示图。指令头部或者指令中的每一个根据位数而被标记。例如，指令头部510包括四个32位的字并且从其最低有效位(lsb)(位0)被标记直到其最高有效位(msb)(位127)。如所示出的，指令头部包括写入掩码字段、存储掩码字段、多个退出类型字段、多个执行标志字段(X标志)、指令块大小字段和指令头部ID位(指令头部的最低有效位)。

执行标志字段可以指示特殊的指令执行模式。例如，当设置标志时，“抑制分支预测器”标志可以被用于抑制指令块的分支预测。作为另一示例，当设置标志时，“抑制存储器依赖性预测”标志可以被用于抑制指令块的存储器依赖性预测。作为另一个示例，“块后中止”标志可以被用于停止指令线程并且在指令块被提交时引起中断。作为另一个示例，“块前中止”标志可以被用于停止指令线程，并且在指令块头部被译码时并且在指令块的指令被执行之前引起中断。

退出类型字段包括可以用于指示被编码在指令块内的控制流和/或同步指令的类型的数据。例如，退出类型字段可以指示指令块包括以下各项中的一项或多项：顺序分支指令、偏移分支指令、间接分支指令、调用指令、返回指令、和/或中断指令。在一些示例中，分支指令可以是用于在指令块之间传递控制流的任何控制流指令，包括相对地址和/或绝对地址，并且使用有条件的断言或者无条件的断言。除了确定隐式控制流指令之外，退出类型字段可以用于分支预测和推测执行。在一些示例中，多达六种退出类型可以被编码在退出类型字段中，并且字段与对应的显式或者隐式控制流指令之间的对应性可以通过例如检查指令块中的控制流指令而被确定。

所图示的通用块指令520被存储为一个32位的字，并且包括操作码字段、断言字段、广播ID字段(BID)、第一目标字段(T1)、以及第二目标字段(T2)。对于具有比目标字段更大的消费者的指令而言，编译器可以使用移动指令来构建扇出树，或者其可以将高扇出指令指派到广播。广播支持通过轻量网络将操作数发送到核中的任何数目的消费者指令。广播标识符可以被编码在一般块指令520中。

虽然由通用指令520概述的通用指令格式可以表示由基于块的处理器处理的一些或全部指令，但是本领域的技术人员将容易理解到，即使对于ISA的特定示例而言，指令字段中的一个或多个指令字段也可以偏离用于特定指令的通用格式。操作码字段指定指令520的长度和宽度并且由指令520执行的(一个或多个)操作，诸如存储器读取/写入、寄存器加载/存储、加法、减法、乘法、除法、移位、旋转、***操作或者其他适合的指令。断言字段指定指令在其下将执行的条件。例如，断言字段可以指定值“真”，并且指令将仅在对应的条件标志匹配指定的断言值的情况下执行。在一些示例中，断言字段至少部分地指定哪一个被用于比较断言，而在其他示例中，执行在由先前指令(例如，指令块中的先前指令)设定的标志上被断定。在一些示例中，断言字段可以指定指令将总是或者绝不被执行。因此，断言字段的使用可以通过减少分支指令的数目来允许更密集的目标代码、改进的能量效率以及改进的处理器性能。

目标字段T1和T2指定基于块的指令的结果被发送到的指令。例如，在指令槽5处的ADD指令可以指定其计算结果将被发送到槽3和10处的指令。取决于特定指令和ISA，所图示的目标字段之一或二者可以由其他信息替换，例如，第一目标字段T1可以由中间操作数、附加操作码、指定两个目标等来替换。

分支指令530包括操作码字段、断言字段、广播ID字段(BID)以及偏移字段。操作码和断言字段在如关于通用指令所描述的格式和功能方面是类似的。偏移可以以四个指令为单位被表达，因此扩展在其上可以执行分支的存储器地址范围。利用通用指令520和分支指令530示出的断言可以用于避免指令块内的附加分支。例如，特定指令的执行可以根据先前指令的结果(例如，两个操作数的比较)被断定。如果断言是假的，则指令将不提交由特定指令计算出的值。如果断言值未匹配所要求的断言，则指令不发出。例如，BRO_F(断言假)指令将发出其是否被发送假断言值。

应当容易理解到，如在此所使用的，术语“分支指令”不限于将程序执行改变到相对存储器位置，而且包括跳跃到绝对或者符号存储器位置、子例程调用和返回，以及可以修改执行流的其他指令。在一些示例中，通过改变***寄存器(例如，程序计数器PC或者指令指针)的值来修改执行流，而在其他示例中，可以通过修改被存储在存储器中的指定位置处的值来改变执行流。在一些示例中，跳跃寄存器分支指令用于跳跃到被存储在寄存器中的存储器位置。在一些示例中，分别使用跳跃和链接以及跳跃寄存器指令来实现子例程调用和返回。

VIII.处理器核的示例状态

图6是图示基于块的处理器的计算机核的状态600的进展的示例的流程图。基于块的处理器包括共同地用于运行或者执行软件程序的多个处理器核。程序可以以各种高级语言被编写，并且然后使用以基于块的处理器为目标的编译器针对基于块的处理器而被编译。编译器可以发射当在基于块的处理器上被运行或者被执行时将执行由高级程序指定的功能的代码。编译代码可以被存储在可以由基于块的处理器访问的计算机可读存储器中。编译代码可以包括被分组为一系列指令块的指令流。在执行期间，指令块中的一个或多个可以由基于块的处理器执行以执行程序的功能。通常，程序将包括比在任一时间可以在核上执行的指令块更多的指令块。因此，程序的块被映射到相应核，核执行由块指定的工作，并且然后相应核上的块利用不同块被替换直到程序完成。指令块中的一些指令块可以被执行超过一次(诸如在程序的循环或者子例程期间)。可以针对每次指令块将被执行时创建指令块的“实例”。因此，指令块的每个重复可以使用指令块的不同实例。当程序运行时，基于架构约束、可用硬件资源和程序的动态流动，相应的指令块可以被映射到处理器核并且在处理器核上执行。在程序的执行期间，相应的处理器核可以通过状态600的进展进行转变，使得一个核可以处于一个状态并且另一核可以处于不同的状态。

在状态605处，相应的处理器核的状态可以是未映射。未映射处理器核是当前未被指派以执行指令块的实例的核。例如，处理器核可以在程序开始基于块的计算机上的执行之前是未映射。作为另一示例，处理器核可以在程序开始执行但是并非所有核正被使用之后是未映射的。特别地，程序的指令块至少部分地根据程序的动态流动而被执行。程序的一些部分可以总体上串行地或者顺序地流动(诸如当后续的指令块取决于来自较早的指令块的结果时)。程序的其他部分可以具有更多平行流，诸如当在不使用并行执行的其他块的结果的情况下多个指令块可以同时执行时。较少的核可以用于在程序的更多顺序流期间执行程序，并且较多的核可以用于在程序的更多并行流期间执行程序。

在状态610处，相应的处理器核的状态可以是映射。映射的处理器核是当前被指派以执行指令块的实例或被保留为逻辑资源的一部分的核。当指令块被映射到特定处理器核时，指令块在运行中。运行中的指令块是以基于块的处理器的特定核为目标的块，并且块将或正在推测地或者非推测地在特定处理器核上执行。特别地，运行中的指令块对应于被映射到状态610-650中的处理器核的指令块。在程序将使用由执行指令块提供的工作的块映射期间块是已知的时，块非推测地执行。在映射程序将使用或将不使用由执行指令块所提供的工作期间块是未知的时，块推测地执行。推测地执行块能够潜在地提高性能(诸如当比在已知块的工作将被使用之后或之时块将被开始的情况下更早地开始推测块时)。然而，推测地执行可以潜在地增加当执行程序时(诸如当推测工作未由程序使用时)使用的能量。

基于块的处理器包括有限数目的同构或者异构处理器核。典型的程序可以包括比可以适配到处理器核上更多的指令块。因此，程序的相应指令块将通常与程序的其他指令块共享处理器核。换句话说，给定核可以在程序的执行期间执行多个不同的指令块中的指令。具有有限数目的处理器核还意味着在所有处理器核忙于执行指令块并且没有新核可用于分派时，程序的执行可以停止或者被延迟。当处理器核变得可用时，指令块的实例可以被映射到处理器核。

指令块调度器可以指派哪个指令块将在哪个处理器核上执行并且指令块何时将被执行。映射可以基于各种因素，诸如将被用于执行的目标能量、处理器核的数目和配置、处理器核的当前和/或先前使用、程序的动态流、推测执行是否被启用、推测块将被执行的置信度水平以及其他因素。指令块的实例可以被映射到当前可用的处理器核(诸如当没有指令块当前正在其上执行时)。在一个实施例中，指令块的实例可以被映射到当前繁忙的处理器核(诸如当核正执行指令块的不同实例时)，并且后续映射的实例可以在较早映射的实例完成时开始。

在状态620处，相应处理器核的状态可以是取指。例如，处理器核的IF流水线阶段可以在取指状态期间是活跃效的。取指指令块可以外包括将该块从存储器(诸如L1高速缓存、L2高速缓存或者主存储器)传递到处理器核并且从处理器核的本地缓冲器读取指令，使得指令可以被译码。例如，指令块的指令可以被加载到处理器核的指令高速缓存、缓冲器或寄存器中。指令块的多个指令可以在相同的时钟周期内被并行(例如，同时)取指。取指状态可以是多个周期长并且可以与在处理器核被流水线化时的译码(630)和执行(630)状态重叠。

当指令块中的指令被加载到处理器核上时，指令块驻留在处理器核上。指令块在指令块的一些但非所有指令被加载时部分驻留。指令块在指令块中的所有指令被加载时完全驻留。指令块将驻留在处理器核上，直到处理器核被重置或者不同的指令块被取指到处理器核上。特别地，当核处于状态620-670时，指令块驻留在处理器核中。

在状态630处，相应的处理器核的状态可以是译码。例如，处理器核的DC流水线阶段可以在取指状态期间是活跃的。在译码状态期间，指令块中的指令正在被译码，使得其可以被存储在处理器核的指令窗口的存储器存储库中。特别地，指令可以从相对地紧凑的机器代码被转换为可以用于控制处理器核的硬件资源的较不紧凑的表示。译码状态可以是多个周期长，并且可以与在处理器核被流水线化时的取指(620)和执行(630)状态重叠。在指令块的执行被译码之后，其可以在指令的所有依存性被满足时被执行。

在状态640处，相应处理器核的状态可以是执行。在执行状态期间，指令块中的指令正被执行。特别地，处理器核的EX和/或LS流水线阶段可以在执行状态期间是活跃的。指令块可以推测地或者非推测地执行。推测块可以执行到完成或者其可以在完成之前被终止(诸如当确定由推测块执行的工作将不被使用时)。当指令块被终止时，处理器可以转变为中止状态。当确定块的工作将被使用时(例如，所有寄存器写入被缓冲，对存储器的所有写入被缓冲，并且分支目标被计算)，推测块可以完成。当例如所有寄存器写入被缓冲、对存储器的所有写入被缓冲并且分支目标被计算时，非推测块可以执行到完成。执行状态可以是多个周期长，并且可以与在处理器核被流水线化时的取指(620)和译码(630)状态重叠。当指令块完成时，处理器可以转变为提交状态。

在状态650处，相应的处理器核的状态可以是提交或者中止。在提交期间，指令块的指令的工作可以原子地被提交，使得其他块可以使用指令的工作。特别地，提交状态可以包括其中本地缓冲架构状态被写入到由其他处理器核可见或者可访问的架构状态的提交阶段。当可见架构状态被更新时，提交信号可以被发出并且处理器核可以被释放，使得另一指令块可以在处理器核上被执行。在中止状态期间，核的流水线可以被停止以减少动态功率耗散。在一些应用中，核可以功率选通来减少静态功率耗散。在提交/中止状态的结束处，处理器核可以接收在处理器核上待执行的新的指令块，核可以被刷新，核可以被空闲，或者核可以被重置。

在状态660处，可以确定驻留在处理器核上的指令块是否可以被刷新。如在此所使用的，指令块刷新或者处理器核刷新意味着使得处理器核能够重新执行驻留在处理器核上的一个或多个指令块。在一个实施例中，刷新核可以包括重置针对一个或多个指令块的活跃就绪状态。当指令块是循环或者重复的子例程的一部分时或者当推测块被终止并且将被重新执行时，在相同处理器核上重新执行指令块可以是期望的。刷新的决策可以由处理器核自身(连续的重新使用)或者由处理器外部(非连续的重新使用)做出。例如，刷新的决策可以来自另一处理器核或者执行指令块调度的控制核。当与在不同核上执行指令块相反在已经执行指令的核上刷新指令块时，可以存在潜在能量节省。能量被用于对指令块中的指令取指并且译码，但是刷新块可以通过旁路这些状态来节省取指和译码状态中使用的大部分能量。特别地，刷新块可以在执行状态(640)时重新开始，因为已经由核取指并且译码指令。当块被刷新时，译码指令和译码就绪状态可以被维持，同时活跃就绪状态被清除。刷新指令块的决策可以作为提交操作的一部分或在后续时间发生。如果指令块未被刷新，则处理器核可以是空闲的。

在状态670处，相应的处理器核的状态可以是空闲。基于在给定时间活跃的处理器核的数目，基于块的处理器的性能和功耗可以潜在地被调节或者被折中。例如，如果推测误预测速率很高，则在并行地运行的核上执行推测工作可以增加计算的速度而不是增加功率。作为另一示例，在提交或者中止较早执行的指令块之后立即向处理器地指派新指令块可以增加并行地执行的处理器的数目，但是可以减少重新使用驻留在处理器核上的指令块的机会。重新使用可以在空闲处理器核的高速缓存或者池被维持时增加。例如，当处理器核提交常用的指令块时，处理器核可以被放置在空闲池中，使得核可以在下次相同指令块将被执行时被刷新。如上文所描述的，刷新处理器核可以节省用来对驻留指令块取指和译码的时间和能量。在空闲高速缓存中放置的指令块/处理器核可以基于由编译器执行的静态分析或者由指令块调度器执行的动态分析而被确定。例如，指示指令块的潜在重新使用的编译器提示可以被放置在块的头部中，并且指令块调度器可以使用提示来确定块是将空闲还是在提交指令块之后被重新分配到不同的指令块。当空闲时，处理器核可以被放置在低功率状态中以减少例如动态功率消耗。

在状态680处，可以确定驻留在空闲处理器核上的指令块是否可以被刷新。如果核要被刷新，则块刷新信号可以被声明并且核可以转变为执行状态(640)。如果核不将被刷新，则块重置信号可以被声明并且核可以转变为未映射状态(605)。当核被重置时，核可以被放入具有未映射核的池中，使得指令块调度器可以将新指令块分配到核。

IX.示例多核处理器架构

多核处理器可以包括多个基于块的物理处理器核，其中每个物理核包括一个或多个可共享资源。物理处理器核直接对应于处理器的制造的处理器核。图7图示了包括具有多个物理处理器核的处理器的示例***。图8图示了包括可共享和不可共享资源的基于块的处理器核的示例。图9图示了基于块的处理器核的示例控制寄存器。例如，控制寄存器可以被用于选择物理核的哪些资源可以在核之间被共享以及哪些物理核被组成逻辑核。图10-12图示了被配置为使得资源在物理处理器核之间共享的多核处理器的各种示例。

如本文所述，通过在物理核之间共享资源，通过将物理核组合成更大的逻辑核，和/或通过将逻辑核拆分成更小的逻辑或物理核，多核处理器可以被动态地适配用于给定工作负载。逻辑核可以包括彼此协调以执行程序的线程内的指令块的一个或多个物理核。线程是程序中的一个控制单元，其中指令块是根据线程的控制流被排序的。该线程可以包括该程序的一个或多个指令块。线程可以包括：用于将其与其他线程区分的线程标识符、引用线程的非推测的指令块的程序计数器、用于在线程的指令块之间传递值的逻辑寄存器文件、以及用于存储本地于线程的、诸如激活记录的数据的栈。程序可以是多线程的，其中每个线程可以独立于其他线程运行。因此，不同的线程可以在不同的相应逻辑核上执行。

多个物理核可以在运行时被合并在一起以形成更大、更强大的逻辑核。作为一个具体的示例，工作负载的串行部分可以通过将多个物理核组成为执行类似于激进的超标量的更大的逻辑处理器来处理。备选地，当有足够的线程级并行性可用时，相同大型逻辑处理器可以被分解或拆分为多个逻辑处理器，因此每个物理处理器可以独立工作并执行来自独立线程的指令块。将物理核合并在一起被称为组成逻辑核，而拆分逻辑核称为分解逻辑核。

逻辑核可以交错对物理核之间的寄存器和存储器的访问，以向逻辑核给出所有组成物理核的组合计算资源。例如，包括两个物理核的逻辑核可以使用附加的地址位以在核的两个物理高速缓存之间进行选择，从而有效地将LI高速缓存容量加倍。寄存器文件可以被类似地交错。

线程的每个指令块被映射到单个物理处理器。当组成时，架构可以使用逻辑处理器的附加核来执行线程的推测的指令块。通过比仅使用非推测的执行时所执行的工作更早执行工作，推测可以潜在地增加串行工作负载的性能。当非推测块提交时，它可以向逻辑处理器中的所有其他核发送提交信号以及退出分支地址。在正确路径上的推测块可以继续执行，而未采用路径上的块可以被终止。

当改变配置的开销小于更高效配置的性能增益时，组成逻辑核可以是满足需要的。复合总是在块边界完成，并可由运行时***启动。运行时***可以分布在物理核之间，或者也可以在处理器的全局控制单元上执行。物理核和物理核的可共享资源可以以各种不同的方式被组成，每种方式在开销和效率方面都提供不同折衷。

全复合改变逻辑核中的物理核的数目，并且改变寄存器文件和高速缓存映射。脏高速缓存行可以被懒惰地写出到主存储器中。逻辑寄存器和高速缓存位置在整个物理核中均匀分布。高速缓存行被映射到存储库，其中每个存储库对应于特定物理核的高速缓存。因此，完整复合可以包括较大的逻辑高速缓存，该逻辑高速缓存是逻辑核的所有物理核的高速缓存容量的总和。图10图示了一个完整复合的示例。

快速复合向逻辑处理器添加附加的物理核，但保留相同的LI数据高速缓存和寄存器映射，并且在复合期间不将脏高速缓存行写入主存储器。这导致逻辑处理器具有比利用完整复合更小的数据高速缓存，但是能够实现对已经在高速缓存中的数据的访问以在组成后仍然命中。快速复合对于短时活动的突发来说可能是可期望的，其中附加的执行单元是有用的，但是重新配置高速缓存的开销可能大于来自更大、更高效的高速缓存配置的节省。

资源复合将附加的物理资源添加到逻辑核，而不增加附加的物理核的所有能力。例如，可以使用多个物理核的高速缓存来组成逻辑高速缓存。具体而言，线程可能会使用超过物理处理器高速缓存大小的数据集合。通过使用来自相邻物理核的高速缓存组成逻辑高速缓存来增加线程可用的高速缓存大小，线程的高速缓存命中率有可能得到改善。相邻物理核的非高速缓存资源可以被关闭以节约能源。图11和图12示出了资源复合的示例。

解复合从逻辑处理器移除物理核或资源，并且可以关闭移除的核或资源以节约能量。执行可以在剩余的物理核上继续执行。解复合可以包括清除从逻辑处理器丢弃的每个高速缓存的脏线并更新高速缓存映射。当高速缓存行被逐出时，其余物理核中的脏高速缓存行可以被写回。

转到图7，计算***700可以包括处理器705、存储器770、输入设备750和输出设备740。处理器705可以包括控制单元710、多个基于物理块(BB)的处理器核720-727、输入/输出(I/O)接口730以及可选存储器控制器和/或二级(L2)高速缓存760。控制单元710包括用于管理处理器的执行的逻辑，诸如用于执行运行时***712的全部或一部分的代码。I/O接口730可以用于将处理器705连接到各种输入设备(诸如输入设备750)和各种输出设备(诸如输出装置740)。I/O接口730可以包括使用一个或多个通信协议的一个或多个I/O桥，诸如***组件互连(PCI)、PCI-Express、通用串行总线(USB)、加速图形端口(AGP)等。在一些示例中，控制单元710、存储器控制器和L2高速缓存760以及I/O接口730至少部分地使用以下项中的一项或多项来实现：硬连线有限状态机、可编程微码、可编程门阵列或其他合适的控制电路。在一些示例中，控制单元710、存储器控制器和L2高速缓存760以及I/O接口730至少部分地使用处理器(例如，执行控制代码的片上处理器)和/或外部计算机(例如，执行控制代码并经由通信接口(未示出)与处理器705通信的片外处理器)来实现。

存储器770可以包括存储的程序指令。例如，程序可以包括指令块A-E。处理器705可以经由存储器控制器和L2高速缓存760与存储器770进行通信以取回程序的全部或部分或将程序的全部或部分加载到一个或多个物理处理器核720-727上。具体而言，存储器控制器和L2高速缓存760可以用于生成用于与存储器770进行通信的控制信号并且为来自或去往存储器770的信息提供临时存储。备选地，物理处理器核720-727可以直接与存储器770进行通信。

控制单元710包括用于管理处理器的执行的逻辑，诸如用于执行运行时***712的全部或一部分的代码。例如，运行时***712可以包括用于以下项的代码：针对程序指令分配和组织存储器；针对程序的数据分配、解分配和组织存储器；分配、解分配和调度物理BB处理器核720-727用于执行程序；分配、解分配和调度物理BB处理器核720-727的可共享资源；并提供程序和操作***之间的接口。例如，运行时***712可以包括用于分配物理BB处理器核720-727使得一个或多个程序可以在处理器705上执行的指令块调度器。例如，指令块调度器可以向空闲的一个或多个物理BB处理器核720-727分配程序指令块。当程序正在被执行时，程序的指令块可以被分配给物理BB处理器核720-727，所以只有程序的指令块的一部分可以在任意给定的时间驻留在物理BB处理器核720-727上。

作为具体示例，短程序可以包括单个控制线程，单个控制线程包括指令块A-E。指令块调度器可以分配单个逻辑处理器来执行线程。逻辑处理器可以包括单个物理处理器核或多个物理处理器核。多个指令块可以被调度给给定的物理处理器核。例如，物理处理器核可以具有用于多达128个译码指令的存储装置，其可以进一步划分为指令块槽或指令窗口，指令块槽或指令窗口具有用于多达32个译码指令的存储装置。因此，给定的物理处理器核可以顺序或同时执行一个至四个指令块，其中不同的指令块是使用给定物理处理器核的不同的相应指令窗口执行的。

线程根据线程的控制流执行。例如，包括指令块A-E的线程可以具有依赖关系图780。通过线程的控制流可以根据对程序的输入而不同。因此，在程序的一次运行期间，可以执行指令块ABDE，并且在程序的另一次运行期间，可以执行指令块ACDE。在这个示例中，指令块B和C中只有一个将在给定的程序运行期间执行。线程的非推测的执行可以包括根据控制流串行执行线程的指令块，其中线程的下一个指令块不被启动直到在线程的下一个指令块已知。因此，当线程仅被非推测地执行时，指令块B或C将不会开始执行，直到指令块A被提交或直到来自块A的目标地址(例如块B或C的地址)是已知的。然而，在来自块A的目标地址被已知之前，通过推测地执行块B和C中的一个或多个可以潜在地加速该线程。例如，在来自块A的目标地址是已知的之前，只有块B、只有块C、或者块B和C两者能够开始推测性的执行。块D和E也可以在来自块A的目标地址已知之前开始推测的执行。指令块的推测的执行可发生在作为执行该线程的逻辑处理器的一部分的相同的物理核(例如，在不同的指令窗口中)或不同物理核上。作为一个示例，指令块A可以在物理处理器核720上非推测地执行，而指令块B、D和E分别在物理处理器核721、722和723上推测性地执行。当来自块A的目标地址已知时，正确路径上的块可以继续执行，而未采用路径上的块可以终止。

用于执行程序的线程的逻辑处理器可以包括物理处理器核720-727中的一个或多个。物理处理器核720-727在处理器705内具有放置或取向。例如，处理器705可以是单片集成电路(IC)，并且物理处理器核720-727可以在IC的区域上被制造，其中每个物理处理器核720-727不重叠。如图所示，物理处理器核720-727可以被布置成具有两列和四行的2x4阵列。然而，处理器可以包括以各种拓扑布置的各种数目的物理BB处理器核。尽管出于说明的目的选择2x4阵列，但是对于物理BB处理器核，1x4、2x2、4x4、8x8、4x8等是可能的设计选择。逻辑核的物理核可以经由在物理核之间运行的控制信号相互协调。因此，为逻辑核选择的物理核物理上彼此接近是可取的，从而与如果核是物理上很远相比，控制信号可以在更短的时间内在核之间传播。

如本文所述，将被指派给给定逻辑核的特定物理处理器核720-727可以独立于其物理接近度而被指派，或者基于处理器705的拓扑和附加准则被指派。作为一个示例，运行时***712可以使用任意两个空闲物理核(诸如物理处理器核720和727)来组成逻辑处理器。物理处理器核720和727可以物理上相邻或物理上分开(如图所示)。作为另一个示例，能够成为给定逻辑处理器的一部分的物理处理器核可以基于处理器705的拓扑和逻辑处理器的物理处理器核的数目而被约束。作为具体的示例，包含两个核的任意逻辑处理器可以仅包含一行内的物理处理器核，例如用虚线791-794所图示的。备选地或附加地，包含四个核的任意逻辑处理器可以仅包含一个四元组内的物理处理器核，如虚线795-796所图示的。附加地或德选地，逻辑处理器可以包含所有物理处理器核，诸如虚线797所图示的。应当注意，组成逻辑处理器的物理处理器核可以以各种不同的方式进行被约束。例如，物理处理器核的对和/或四元组可以分组在列中。

单个物理处理器核的一些资源可以由逻辑处理器内的其他物理处理器核共享。例如，每个物理处理器核可以包括一级(L1)数据高速缓存，并且逻辑核的所有物理处理器核可以共享LI数据高速缓存，使得逻辑处理器有效地具有比个体物理处理器核中任意一个更大的LI数据高速缓存。备选地或附加地，个体物理处理器核的一些资源可以由逻辑处理器之外的其他物理处理器核共享。备选地或附加地，个体物理处理器核的其他资源可以是私有的，并且不被个体物理处理器核之外的其他物理处理器核共享。

图8图示了包括可共享资源和不可共享资源的基于物理块的处理器核800的示例。处理器核800可以包括控制逻辑810、执行单元820、寄存器文件830、指令窗口840-841、加载存储队列850和LI数据高速缓存860。在一个实施例中，可共享资源可以包括执行单元820、寄存器文件830和LI数据高速缓存860。不可共享资源可以包括控制逻辑810、指令窗口840-841和加载存储队列850。在备选实施例中，可共享和不可共享资源可以被不同地划分。在一些示例中，控制逻辑810、执行单元820、寄存器文件830、指令窗口840-841、加载存储队列850和LI数据高速缓存860至少部分地使用以下项中的一项或多项来实现：硬连线有限状态机、可编程微码、可编程门阵列或其他合适的控制电路。

控制逻辑810可以包括用于控制基于物理块的处理器核800的操作的逻辑。例如，控制逻辑810可以包括头部译码逻辑811、指令调度器812、配置状态813、分支预测器814、引退逻辑815、核接口逻辑816和功率管理逻辑818。头部译码逻辑811可以用于译码将在处理器核800上执行的指令块的指令块头部。指令调度器812可以是用于调度在处理器核800上执行的指令块的指令。例如，当操作数变得可用于相应指令时，可以按数据流顺序调度指令。配置状态813可以包括诸如参考图9所描述的寄存器，用于将处理器核800编程为与给定逻辑处理器相关联和/或与另一个处理器核共享一个或多个可共享资源。寄存器可以是映射到处理器核800的可见架构状态的存储器，使得寄存器的值仅在指令块写入寄存器的提交阶段期间被改变。具体而言，寄存器的值可以在与处理器核800不同的处理器核上执行的指令块的提交阶段期间被改变。

分支预测器814可以通过预测每个指令块的分支退出地址来跨指令块进行推测。分支预测器814可以使用各种算法跨指令块进行推测，诸如通过使用顺序块预测(例如，假设取下一个顺序指令块)或向前(look-ahead)分支推测(例如，使用取回表缓冲器)。预测分支退出地址允许指令块被取指并在当前块完成之前开始推测的执行。最早的指令块被标记为非推测的，并且可以预测分支退出地址。如果存在可用的指令窗口，则预测的地址(对应于预测的指令块)可以被取回，并且预测的指令块可以开始在逻辑处理器中的另一个物理核上或者在相同的物理核(例如，处理器核800)上执行。

取得的分支地址可以在指令块完成之前解析。在这种情况下，非推测块可以使用所取得的分支信号来通知逻辑处理器中其他核所取的地址。最早的指令块然后变成非推测块。任意未被正确推测的块都可以被中止。采取的分支信号不同于提交信号。当采用的分支允许下一个块继续推测并开始取指新的指令模块时，更新的寄存器和存储器值在提交信号之后才有效

分支预测器814可以通过预测断言值和通过指令块的控制流路径来在指令块内进行推测。在指令块中可以使用三种不同类型的推测，包括断言推测、存储器推测和加载推测。断言推测可以用来预测断言的值。存储器推测包括从LI高速缓存中加载推测块的值，这些值可能会被推测性较小的块所改变。加载推测可以包括使用加载存储队列来允许加载在具有较低加载存储标识符的存储之前执行。在所有这三种情况下，误推测都会导致整个指令块的重新执行。例如，所有操作数缓冲器中的有效位可以被重置，并且零操作数指令可以被重新加载。

引退逻辑815可以监视执行块的进度并管理非推测性指令块的提交阶段。由于预测执行，指令块可以在不执行块中的所有指令的情况下完成。当一个(并且只有一个)分支已经执行时，指令块可以完成，并且修改外部状态(寄存器写入和存储)的所有指令都已经执行。例如，编译器可以将寄存器写入和存储标识符编码到指令块头部中，使得引退逻辑815可以标识何时所有寄存器写入和存储都完成。在执行期间，块的指令不会修改可见的架构状态。相反，所有更改都会被缓冲并且在提交阶段一起提交。一旦处理器核800进入指令块的提交阶段，就用所有寄存器写入来更新逻辑寄存器文件，并且加载存储队列中的所有存储都以最低序列标识符开始发送到逻辑L1数据高速缓存。如下面进一步描述的，逻辑寄存器文件可以包括寄存器文件830和/或来自其他物理处理器核的寄存器文件。类似地，逻辑LI数据高速缓存可以包括LI数据高速缓存860和/或来自其他物理处理器核的LI数据高速缓存。一旦所有的寄存器写入和存储已经提交，引退逻辑815就可以向相同逻辑处理器中的所有其他物理核发送提交信号。只有非推测的块可以被提交，并且推测的块将等待提交，直到推测的块是最早的块，因此不再是推测的。

核接口逻辑816提供用于与其他物理处理器核进行通信的逻辑。例如，核接口逻辑816可以用于使用控制接口817与逻辑处理器内的其他物理处理器核进行通信。控制接口817可以包括例如控制信号的集合、总线或芯片上的网络(NOC)。控制接口817可以包括采取的分支信号、目标地址信号、提交信号以及用于在物理处理器核之间进行通信的其它各种信号。

功率管理逻辑818可以包括用于动态地和选择性地减少处理器核800的能量消耗的逻辑。例如，功率管理逻辑818可以包括用于将处理器核800的一个或多个组件放入低功率模式的逻辑。低功率模式可以包括时钟门控、电压缩放、频率缩放和/或功率门控各个组件。功率管理逻辑818可以包括用于唤醒处于低功率模式的处理器核800的组件的逻辑。取决于性能和功率目标，可以选择各种不同量的处理器核800以放置于低功率模式。例如，可以在不同的电压岛上和/或用不同的时钟树来制造处理器核800的可共享和不可共享资源。不可共享的资源可以在一个电压岛和时钟树上，并且不同的可共享资源可以具有不同的相应的电压岛和时钟树。作为具体示例，可共享资源可以包括执行单元820、寄存器文件830和LI数据高速缓存860。每个可共享资源可以具有不同的电压岛和/或时钟树，使得每个可共享的资源可以诸如通过编程功率管理逻辑818的寄存器来独立地被放置于低功率模式。备选地，处理器核800的大部分可以处于低功率模式，而一个或多个可共享组件是处于全面操作模式。作为具体示例，处理器核800的大部分可以处于低功率模式，而仅LI数据高速缓存860被上电。处理器核800的大部分可以包括除专门上电的资源和电源管理逻辑818之外的所有可共享和不可共享资源。即使当处理器核800的其余部分处于低功率模式时，功率管理逻辑818也被上电，使得功率管理逻辑818可以响应唤醒请求。

LI数据高速缓存860可以用于临时存储程序数据。LI数据高速缓存860可以包括内容可寻址存储器(CAM)和用于访问和管理CAM的内容的逻辑。LI数据高速缓存860可以被布置成行，其中每行对应于主存储器中的连续地址范围。LI数据高速缓存860通常小于主存储器，因此L1数据高速缓存860可以保存主存储器中的数据的子集。通过存储对与存储在LI数据高速缓存860中的、来自主存储器的每行数据相关联的地址的引用来跟踪数据的子集。地址870可以被划分成不同的字段以提供存储器中的地址到存储在LI数据缓存860中的行的映射。例如，地址870可被分成标记字段872、可选索引字段874和偏移字段876。当存储器的内容被加载到LI数据高速缓存860的一行时，标记字段872被存储在LI数据高速缓存860中。标记字段引用存储器位置，数据从该存储器位置读取和/或将被写回到该存储器位置。偏移字段876是行内数据的地址。例如，如果高速缓存行是1024位，则高速缓存行中有128个字节和32个32位字。当小于整个高速缓存行被引用时，偏移字段876可在高速缓存行内的不同字节和/或字之间进行区分。索引字段874可用于将高速缓存行映射到存储库和/或逻辑高速缓存集合。由于仅存在一个存储库，因此当逻辑高速缓存仅包括单个直接映射高速缓存时，不使用索引字段874。然而，当逻辑高速缓存包括多个物理高速缓存时，索引字段874用于在逻辑高速缓存的不同存储库之间进行区分。

L1数据高速缓存860可以与其他物理处理器核共享。作为一个示例，LI数据高速缓存860可以与逻辑处理器的其他物理处理器核共享。备选地或附加地，LI数据高速缓存860可以与不是逻辑处理器的一部分的其他物理处理器核共享。当LI数据高速缓存860与其他物理处理器核共享时，LI数据高速缓存860是较大逻辑高速缓存的一部分。例如，LI数据高速缓存860可以是逻辑高速缓存的存储库。如下面进一步描述的，可以为每个物理高速缓存指派对应于索引字段874的值的存储库标识符。当到存储器的地址的索引字段位命中或匹配LI数据高速缓存860的存储库标识符时，当响应存储器访问时使用LI数据高速缓存860。

L1数据高速缓存860可以使用高速缓存接口862与其他处理器核进行通信。高速缓存接口862可以包括读取/写入使能、地址信号和数据信号。例如，LI数据高速缓存860可以使用高速缓存接口862向发出对数据的请求的另一个处理器核提供数据。LI数据高速缓存860是可见的架构状态，因此当指令块提交时它被更新。具体地，指令块的中间结果可以在被提交给LI数据高速缓存860之前在加载存储队列850中被缓冲。在一些实施例中，当LI数据高速缓存860与其他处理器核被共享时，可以访问加载存储队列850。

执行单元820可以被用于执行指令块的指令。执行单元820可以包括算术逻辑单元(ALU)、浮点单元(FPU)、桶形移位器、乘法器、图形加速器、物理加速器以及用于执行数学和/或指令的逻辑运算的各种其他逻辑功能中的一个或多个。指令块的译码指令和指令的操作数可以存储在指令窗口840-841中。部分地通过将指令的操作数路由到适当的执行单元820并将执行单元820的输出存储在另一指令的操作数缓冲器、加载存储队列850和/或寄存器文件830中来执行指令。在基于块的处理器核800的数据流执行模型下，一旦指令被译码并且所有操作数可用于该指令，指令就可能潜在地发出或执行。然而，可以并行执行的指令的数目可以由在处理器核800上可用的执行单元820的数目来限制。作为具体示例，如果有四个ALU指令准备执行，但处理器核800只能访问两个ALU，则在相同周期内只能并行地发出两个ALU指令。然而，执行单元820可以在物理处理器核之间共享以形成执行单元的逻辑组。指令调度器812的发出逻辑可以从执行单元的逻辑组中选择个体执行单元来执行指令块的指令。例如，可以使用执行单元接口822在物理核之间传递控制信号、操作数和结果。具体而言，可以使用执行单元接口822将操作数从第一物理处理器核的指令窗口路由到第二物理处理器核的执行单元。来自第二物理处理器核的执行单元的结果可以使用执行单元接口822被路由回第一物理处理器核。在非本地处理器核上执行指令可以增加延迟以解决在物理处理器核之间的通信，所以指令调度器812可以优先执行本地物理处理器核上的指令。

寄存器文件830是可用于存储在指令块之间传递的数据的可见架构状态。寄存器文件830可以包括用于存储指令块的中间结果的缓冲器或影子寄存器文件，并且寄存器文件830可以在提交阶段期间被更新。寄存器文件830可以在物理处理器核之间共享以形成逻辑寄存器文件。寄存器文件830的个体寄存器类似于存储器中的位置被编号或被寻址。每个物理寄存器文件可以是逻辑寄存器文件的存储库，因此可以使用寄存器编号内的索引来确定哪个存储库被引用。寄存器文件接口832可以用于传送控制信号、地址和数据以在不同的物理处理器核上寄存文件。

图9是图示了基于物理块的处理器核的示例控制寄存器的图。控制寄存器可用于编程物理处理器核的哪些资源与其他物理处理器核共享。控制寄存器可用于编程哪些物理处理器核可以相互共享资源。控制寄存器是可以在程序运行时编程的可见架构状态。具体而言，控制寄存器在指令块的提交阶段期间被更新。控制寄存器可以以各种方式被访问，包括以下项中的一项或多项：通用存储器映射加载和存储；用于读取和写入控制寄存器的具体指令；保护(例如通过特权或内核模式)存储器映射加载和存储；以及通过测试访问端口扫描的命令。在一些示例中，控制寄存器至少部分地使用以下项中的一项或多项来实现：触发器、锁存器、寄存器文件、静态随机存取存储器(SRAM)、动态随机存取存储器、电可擦除可编程只读存储器EEPROM)、闪存或其他合适的存储器元件。

给定物理处理器核的复合控制寄存器900可以用于编程给定物理处理器核的哪些资源与其他物理处理器核共享。例如，主控制寄存器(MCR)字段901可被编码以指示与其他物理核共享的给定物理处理器核的资源。MCR字段901可以包括多个位以使能各种资源的共享，指示给定物理核是逻辑核的一部分，和/或关断给定物理处理器核的大部分或给定物理处理器核的特定资源。在表910中图示了用于MCR字段901的编码的一个示例。在该示例中，可以使用最低有效位(位0)来启用LI数据高速缓存的共享；位1可用于启用寄存器文件的共享；位2可用于启用执行单元的共享；位3可用于指示给定的物理处理器核是较大的逻辑处理器核的一部分；并且最高有效位(位4)可以用于指示给定物理处理器核的默认功率状态，其中“0”指示默认状态是低功率模式并且“1”指示默认状态是上电。多个位可以被同时设置以共享多个资源。MCR字段901的编码的具体示例包括：“00000”编码可以关断包括核的可共享资源的给定物理处理器核的大部分；“10000”编码可以上电给定的物理处理器核，并在给定的物理处理器核中保持可共享的资源私有；“00001”编码可以使LI数据高速缓存在其他物理处理器核之间被共享，并关断给定物理处理器核的其余部分；“00010”编码可以使得寄存器文件能够在其他物理处理器核之间被共享，并关断给定物理处理器核的其余部分；“00100”编码可以使得执行单元在其他物理处理器核之间被共享，并关断给定物理处理器核的其余部分；“11001”编码可以指示给定的物理处理器核是更大的逻辑处理器核的一部分，并且使得L1数据高速缓存能够在其他物理处理器核之间被共享；以及“11000”编码可以指示给定的物理处理器核是更大的逻辑处理器核的一部分，并且可以关断LI数据高速缓存。应当注意的是，这些编码是为了说明的目的而被选择的，并且具有更多或更少位的不同的各种编码是可能的。

复合控制寄存器900可以包括可选的核数目字段902，用于对可以在彼此之间共享资源的物理处理器核的数目进行编程。作为一个示例，核数目字段可以用多达处理器的最大核数目的任意数目编程。在另一个示例中，核数目字段可以包括对应于可以被分组的物理核的不同法定数量的单独位。作为一个具体的示例，物理核可能只能以2的幂被分组，以便地址的索引字段被完全映射到核。因此，一个、两个、四个和八个物理处理器核的分组可以被允许用于包括八个物理处理器核的处理器。例如，核数目字段902可以包括用于对两个物理处理器核进行分组的第一位、用于对四个物理处理器核进行分组的第二位、以及用于对八个物理处理器核进行分组的第三位。备选地，核数目字段902中编程的值可以指示被分组的二的幂个核，所以值为3可以指示八个核被分组在一起。

在核数目字段902中编程的值和给定物理处理器核的相对物理位置可以用于组成逻辑处理器和/或逻辑资源。例如，资源的共享可以基于处理器的拓扑来约束，诸如参考图7所描述的。具体地，两个物理核的分组可以被约束为一行处理器以及四个物理核的分组可以被约束为核处理器的四元组。MCR字段901可以确定处理器核的分组是否对应于逻辑核和/或逻辑资源。例如，如果MCR字段901的位(例如，位3)被设置，则给定的物理处理器核是较大的逻辑处理器核的一部分。然而，如果MCR字段901的位清零并且与可共享资源相对应的另一位被设置，则资源可以被共享，而不需要给定的物理处理器核是较大逻辑处理器核的一部分。

物理处理器核的分组内的不同处理器核的MCR字段可以被不同地编程，使得不同处理器核不同地共享资源。例如，逻辑处理器可以包括第一处理器和第二处理器。第一处理器可以共享其LI高速缓存，第二处理器可以禁用其LI高速缓存。

复合控制寄存器900可以是处理器级寄存器而不是处理器核级寄存器。例如，复合控制寄存器900可以是处理器级控制单元的一部分。复合控制寄存器900可以包括用于处理器的每个相应处理器核的分离的MCR字段。例如，复合控制寄存器900可以包括对应于处理器核0的MCR0字段901、对应于处理器核1的MCR1字段903、以及对应于处理器核n的MCRn字段904，其中处理器包括n个处理器核。处理器级复合控制寄存器900的值可以以各种方式传送给各个处理器核。例如，处理器级合成控制寄存器900的值可以经由专用控制信号连续传递到各个处理器核。作为另一示例，对处理器级复合控制寄存器900的更新可以经由片上网络发送的中断或消息来传送给各个处理器核。

在一个实施例中，给定的处理器核可以包括复合控制寄存器900和复合拓扑寄存器920。复合控制寄存器900可以用于指示给定的物理处理器核的哪些资源在物理处理器核组之间被共享，并且复合拓扑寄存器920可用于指示哪些物理处理器核是该组物理处理器核的一部分。例如，复合拓扑寄存器920可以包括可以被编程以将物理处理器核逻辑地分组在一起的多个位921-923。作为具体示例，位921-923可以表示作为逻辑组的一部分的处理器核的位图。位C0 921可以对应于第一物理处理器核，位C1 922可以对应于第二物理处理器核，并且位Cn 923可以对应于第n物理处理器核，其中处理器包括n个物理处理器核。因此，如果位C0 921和C1922是在复合拓扑寄存器920中设置的唯一位，则第一物理处理器核和第二物理处理器核是逻辑组的一部分。作为特定示例，如果相应复合控制寄存器900的MCR字段指示物理处理器核是较大逻辑处理器核的一部分，则第一物理处理器核和第二物理处理器核是逻辑处理器的一部分。备选地，如果相应的复合控制寄存器900的MCR字段指示物理处理器核仅共享它们的LI高速缓存，则第一物理处理器核和第二物理处理器核的LI高速缓存形成逻辑L1高速缓存，但第一物理处理器核和第二物理处理器核不是逻辑处理器的一部分。

位921-923可以被编程为使得选择的物理处理器核跨处理器的拓扑上被稀疏地分布。然而，可能需要将逻辑组的物理处理器核紧密分组以减少物理处理器核之间的通信延迟。物理处理器核可以包括用于分析复合拓扑寄存器920的编程值的监视逻辑。作为示例，处理器核可以断言中断或拒绝分组的接近准则失败的编程值。

复合拓扑寄存器920可以包括用于指示如何解释位921-923的可选拓扑模式设置924。例如，如果拓扑模式设置924被编程为具有第一值(例如，“0”)，则位921-923可以是物理处理器核的位图，如前所述。如果拓扑模式设置924被编程为具有第二值(例如，“1”)，则位921-923可以是该组的物理处理器核的数目。与相应物理处理器核的相对位置相结合的物理处理器核的数目可用于定义分组的物理处理器核。例如，每个物理处理器核可以仅在预定义的行、列、四元组等等中被分组。

在备选实施例中，控制寄存器可专用于单个可共享资源并用于编程可共享资源的可访问性。例如，可共享资源可以是高速缓存、寄存器文件或执行单元中的一个或多个。作为具体示例，高速缓存复合控制寄存器930可以被用于编程可以共享各个物理处理器核的高速缓存的物理处理器核的分组。高速缓存复合控制寄存器930可以包括多个数据高速缓存存储库字段931，用于编程多少物理高速缓存存储库可以被用于创建逻辑高速缓存。在一个示例中，物理高速缓冲存储库的数目和处理器的拓扑内的各个物理处理器核的相对物理位置被用于确定逻辑高速缓存的所有物理高速缓存存储库。例如，每个物理高速缓存存储库只能在预定义的行、列、四元组等等中被分组。在另一个示例中，逻辑高速缓存可以包括来自处理器的物理处理器核中的任意一个的物理高速缓存存储库。作为具体示例，标识字段的数目(诸如核标识(核ID)字段932-935)可以被用于多个来标识个体物理高速缓冲存储库。例如，特定的核标识字段可以被编程为具有对应于特定物理处理器核的地址或标识符。特别地，物理处理器核中的每一个可以用处理器内的唯一号码和/或位置(例如，行和列)来标识。标识字段的数目可以从零变到M，其中M是允许用于逻辑高速缓存的高速缓存存储库的最大数目。M可以小于或等于处理器上的物理高速缓存存储库的数目。

高速缓存复合控制寄存器930内的核标识字段的位置可用于将地址的索引字段映射到逻辑高速缓存的特定物理高速缓存存储库。作为具体示例，逻辑高速缓存可以通过编程数据高速缓存存储库字段931的数目为具有“2”，而被配置为具有两个物理高速缓存存储库，核标识字段932可以对应于索引字段“0”，并且核标识字段933可以对应于索引字段“1”。作为另一个示例，逻辑高速缓存可以通过编程数据高速缓存存储库字段931的数目为具有“4”，被配置为具有四个物理高速缓存存储库。核标识字段932可以对应于索引字段“00”，核识别字段933可以对应于索引字段“01”，核标识字段934可以对应于一个索引字段“10”，并且核标识字段935可对应于索引字段“11”。类似地，可以添加附加的核标识字段以将更多索引字段位映射到较大逻辑高速缓存的物理高速缓存存储库。

处理器拓扑寄存器940可以向运行时***提供处理器的拓扑信息。运行时***可以使用拓扑信息来做出关于如何将物理处理器核和/或可共享资源分组成逻辑核和/或资源的决定。处理器拓扑寄存器940可以使用行字段942来指示物理处理器核的行的数目。处理器拓扑寄存器940可以使用列字段944来指示物理处理器核的列的数目。当处理器由只读存储器设计和提供时，处理器拓扑寄存器940报告的行和列的数目可以是固定的。处理器拓扑寄存器940可以使用处理器类型标识符字段946来指示处理器的类型的唯一标示符。例如，在初始化序列期间，运行时***可以读取处理器类型标识符字段946，以确定哪些类型的处理器正在执行运行时***，并且基于从处理器类型标识符字段946读取的值，可以确定处理器的拓扑信息。例如，针对不同处理器类型的拓扑信息可以存储在与不同相应处理器类型标识符相关联的表中。因此，通过为处理器类型提供唯一标识符，可以使用软件(例如读取表格)以及通过读取处理器拓扑寄存器940中硬编码的值来确定拓扑信息。

图10至图12图示了被配置为使得资源在物理处理器核之间被共享的多核处理器的示例。图10图示了执行程序的多个线程的多个逻辑处理器的示例。图11图示了包括多个物理高速缓存存储库的逻辑高速缓存的示例。图12图示了执行程序的多个线程并且使用共享逻辑高速缓存的多个逻辑处理器的示例。

在图10中，处理器1000包括以两列乘以四行的阵列布置的八个基于物理块的处理器核1020、1030、1040、1050和1080-1083。处理器1000在具有包括线程0和线程1的多个线程的程序的执行期间被图示。每个线程可以包括可以在处理器1000的逻辑处理器上被执行的一个或多个指令块。例如，线程0可以在包括物理处理器核1020和1030的逻辑处理器1010上被执行；并且线程1可以在包括物理处理器核1040和1050的逻辑处理器1060上被执行。逻辑处理器可以包括编程处理器1000和/或基于物理块的处理器核的控制寄存器的运行时***。例如，每个逻辑处理器可以通过编程物理处理器核的相应复合控制寄存器和复合拓扑寄存器来配置。作为具体示例，逻辑处理器1010可以通过以下项配置：编程物理处理器核1020和1030的复合控制寄存器，使得物理处理器核中的每一个被组成为逻辑处理器的一部分，并且使得LI数据高速缓存被共享；以及编程物理处理器核1020和1030的复合拓扑寄存器，使得物理处理器核1020和1030被分组在一起。因此，物理处理器核1020和1030可以被组成具有逻辑高速缓存1015的逻辑处理器1010。物理处理器核1020的LI数据高速缓存可以是逻辑高速缓存1015的第一存储库以及物理处理器核1030的L1数据高速缓存可以是逻辑高速缓存1015的第二存储库。物理处理器核1020和1030到逻辑处理器1010的分组可以通过仅对物理处理器核1020和1030的复合拓扑寄存器中的物理处理器核的数目进行编程来指定。备选地，物理处理器核1020和1030到逻辑处理器1010中的分组可以通过编程物理处理器核1020和1030的复合拓扑寄存器中的物理处理器核的位图来指定。

类似地，可以通过以下项来配置逻辑处理器1060：编程物理处理器核1040和1050的复合控制寄存器，使得每个物理处理器核被组成为逻辑处理器的一部分，并且使得LI数据高速缓存被共享；以及编程物理处理器核1040和1050的复合拓扑寄存器，使得物理处理器核1040和1050被分组在一起。因此，物理处理器核1040和1050可以被组成到具有逻辑高速缓存1065的逻辑处理器1060中。物理处理器核1040的LI数据高速缓存可以是逻辑高速缓存1065的第一存储库和物理处理器核1050的L1数据高速缓存可以是逻辑高速缓存1065的第二存储库。

一旦逻辑处理器1010和1060被配置，线程0和1就可以在各自的逻辑处理器上独立执行。例如，线程0的一个指令块可以在物理处理器核(例如，物理处理器核1020)上非推测地执行，并且线程0的不同指令块可以在不同的物理处理器核(例如，物理处理器核1030)上推测性地执行。当非推测性指令块被提交时，如果该块被正确地预测并且该块是在该线程内执行的最早的块，则以前推测的执行块可以变为非推测的。在一个物理处理器核上执行的指令块可以访问跨两个物理处理器核1020和1030分布的逻辑高速缓存。因此，逻辑高速缓存可以与仅使用单个物理处理器核的物理高速缓存相比提供更大的高速缓存。

基于物理块的处理器核1080-1083可以被断电以节省能量。例如，可以通过编程相应的物理处理器核的相应复合控制寄存器或其他功率控制寄存器来对物理处理器核1080-1083中的每一个断电。断电物理处理器核1080-1083可以包括将物理处理器核1080-1083置于低功耗模式。例如，物理处理器核1080-1083可以是时钟门控的、以降低频率计算时钟、以较低电压供电、或断电。

图11图示了处理器1100的示例，该处理器1100包括以两列乘以四行的阵列布置的八个基于物理块的处理器核。处理器1100在程序的单个线程的执行期间被图示。该线程可以包括可以在物理处理器核1120上执行的一个或多个指令块。物理处理器核1120可以访问延伸到物理处理器核1120之外的逻辑数据高速缓存1140。逻辑数据高速缓存1140可以包括编程处理器1100和/或基于物理块的处理器核的控制寄存器的运行时***。作为具体示例，逻辑数据高速缓存1140可以通过以下来配置：对物理处理器核1120的复合控制寄存器进行编程，使得LI数据高速缓存被共享并且物理处理器核被上电并且不被组成；对物理处理器核1130的复合控制寄存器进行编程，使得物理处理器核的大部分被断电并且LI数据高速缓存被上电并被共享；以及编程物理处理器核1120和1130的复合拓扑寄存器，使得物理处理器核1120和1130被分组在一起。因此，物理处理器核1120和1130可以被分组，使得物理处理器核1120可以使用逻辑数据高速缓存1140来执行线程的指令块，逻辑数据高速缓存1140是单个物理处理器核的物理数据高速缓存的大小的两倍。这可以通过以下各项来导致较高的性能：与利用单个物理处理器核执行线程相比，数据高速缓存中较低的缺失率，并且与使物理处理器核1120和1130两者都执行线程相比，以低功率来执行线程。

图12图示了处理器1200的示例，该处理器1200包括以两列乘以四行的阵列布置的八个基于物理块的处理器核。处理器1200在具有包括线程0和线程1的多个线程的程序的执行期间被图示。每个线程可以包括可以在处理器1200的逻辑处理器上执行的一个或多个指令块。例如，线程0可以在包括物理处理器核1220的逻辑处理器上被执行；并且线程1可以在包括物理处理器核1230的逻辑处理器上被执行。逻辑处理器和线程可以共享逻辑数据高速缓存1240。例如，当不同线程正在从公共数据集合读取时，这可能是有益的。逻辑处理器和逻辑高速缓存可以包含编程处理器1200和/或基于物理块的处理器核的控制寄存器的运行时间***。作为具体示例，处理器配置可以通过以下各项来配置：编程物理处理器核1220的复合控制寄存器，使得L1数据高速缓存被共享，并且物理处理器核1220被上电并且不被组成；编程物理处理器核1230的复合控制寄存器，使得LI数据高速缓存被共享，并且物理处理器核1230被上电并且不被组成；以及编程物理处理器核1220和1230的复合拓扑寄存器，使得物理处理器核1220和1230被分组在一起。因此，物理处理器核1220和1230可以执行共享逻辑高速缓存1240的独立线程。与使用物理处理器核内的单个数据高速缓存执行线程相比，这可以通过数据高速缓存中较低的缺失率导致较高的性能。

X.编程处理器的示例方法

图13和图14是图示编程处理器以使用逻辑处理器和/或逻辑资源来执行程序的线程的示例方法的流程图。例如，所述方法可以由执行至少部分地在处理器的控制单元上或在处理器的基于物理块的处理器核上的软件指令的运行时***执行。图13图示了用于编程处理器以使用共享逻辑资源来执行程序的线程的示例方法1300的流程图。例如，处理器可以包括多个基于块的物理处理器核，基于块的物理处理器核包括第一物理处理器核和第二物理处理器核。相应的物理处理器核可以包括一个或多个可共享资源，诸如高速缓存、寄存器文件、执行单元和/或各种其他逻辑或数学组件。

在处理框1310处，第一物理处理器核的复合控制寄存器可被编程为将第一物理处理器核的给定资源配置为与第二物理处理器核共享。例如，程序可以包括线程初始化指令块，并且第一物理处理器核可以在程序运行期间使用线程初始化指令块的指令来编程。线程初始化指令块可以在多个物理处理器核中的任意一个或处理器的控制单元上执行。复合控制寄存器可以通过执行到与高速缓存复合控制寄存器相对应的存储器映射地址的存储指令而被编程。诸如复合控制寄存器和复合拓扑寄存器的***寄存器可以是可见的架构状态，因此只有在指令块更新***寄存器的提交阶段期间才可以更新存储在***寄存器中的值。因此，当存储指令被执行时，被写入复合控制寄存器的值可以被初始地缓冲，并且在线程初始化指令块的提交阶段期间复合控制寄存器被更新。

如上所述，可共享资源中的一个或多个可与其他物理处理器核共享以创建逻辑资源。共享逻辑资源的物理处理器核可以具有彼此不同的关系。例如，第一处理器核和第二处理器核可以被组成以形成执行程序的单个线程的逻辑处理器核。因此，逻辑资源可以在单个线程内共享。作为另一个示例，第一处理器核和第二处理器核可以被配置为执行程序的不同线程。因此，逻辑资源可以跨不同的线程被共享。

当第一物理处理器核的给定资源与第二物理处理器核共享时，第一物理处理器核的复合控制寄存器或功率控制寄存器可以被编程为将第一物理处理器核配置为不同功率模式。例如，第一物理处理器核可以处于低功耗模式。作为具体示例，除非在不同的物理处理器核之间共享特定的资源，否则第一物理处理器核的资源可以默认为低功率模式。因此，通过仅选择要共享的第一物理处理器核的高速缓存，高速缓存可以在操作模式下被上电，并且第一物理处理器核的其余部分可以处于低功率模式。通过断电第一物理处理器核的一部分，可以在执行程序时节省能源。

在处理框1320处，复合拓扑寄存器可以可选地被编程为配置物理处理器核组以共享资源。例如，物理处理器核组可以包括第一物理处理器核和第二物理处理器核。物理处理器核组可以通过提供组的位图或通过提供组的物理处理器核的数目来指定。例如，位图可用于从处理器的任意位置指定物理处理器核，而不管物理处理器核是相互相邻还是不相邻。作为另一个示例，提供物理处理器核的数目可以基于组中的数量和处理器的拓扑形成自动分组。

在处理框1330处，可以在第二物理处理器核上启动指令块的执行。指令块可以包括使用第一物理处理器核上配置的给定可共享资源的指令，使得在第二物理处理器核上执行使用第一物理处理器核的可共享资源的指令。例如，可以通过将指令块分配给第二物理处理器核来在第二物理处理器核上启动指令块的执行。具体地，可以将与指令块对应的地址加载到第二物理处理器核的程序计数器中，以便第二物理处理器核可以取指并执行指令块。

图14是图示用于编程逻辑处理器以执行程序的线程的示例方法1400的流程图。例如，处理器可以包括多个基于块的物理处理器核，其包括第一物理处理器核和第二物理处理器核。相应的物理处理器核可以包括一个或多个可共享资源，诸如高速缓存、寄存器文件、执行单元和/或各种其他逻辑或数学组件。

在处理框1410处，复合拓扑寄存器可被编程为组成包括第一物理处理器核和第二物理处理器核的逻辑处理器。例如，复合拓扑寄存器可以诸如通过执行给定线程的线程初始化指令块的指令来在程序的运行期间被编程。逻辑处理器可以用来执行程序的给定线程的非推测和推测指令块。逻辑处理器的物理处理器核可以通过提供该组的位图或通过提供该组的物理处理器核的数目来指定。例如，位图可用于从处理器的任意位置指定物理处理器核，无论物理处理器核物理接近与否。作为另一个示例，提供物理处理器核的数目可以基于组中的数目和处理器的拓扑形成自动分组。

运行时***可以被设计为在各种不同的平台上运行，并且它可以基于各种因素来选择逻辑核的物理处理器核，这些因素诸如处理器的拓扑、物理处理器核的利用率、或者处理器内功能的固定映射。作为一个示例，处理器拓扑寄存器可以存储关于处理器的拓扑信息，诸如物理处理器核的布置。因此，运行时***可以在具有以1x 4、2x2、2x4、4x4、8x8、4x8或其他大小的阵列布置的物理处理器核的处理器上执行。使用拓扑信息，运行时***可以确定哪些物理处理器核在物理上相邻和/或物理上彼此靠近。可能希望逻辑核的物理处理器核靠近在一起以减少物理处理器核之间的通信延迟。运行时***可以维护空闲物理处理器核的列表。运行时***可以优先从存在足够数量的空闲和相邻物理处理器核的处理器的区域中选择逻辑核的物理处理器核。备选地，运行时***可以使用来自处理器上任意位置的空闲物理处理器核来选择逻辑核的物理处理器核。

在处理框1420处，第一物理处理器核的复合控制寄存器可以可选地被编程为控制第一物理处理器核的给定资源与第二物理处理器核的共享。例如，控制给定资源的共享可以包括保持第一物理处理器核私有的给定资源。因此，在逻辑处理器内，相应的物理处理器核可具有在逻辑处理器的其他物理处理器核之间不共享的私有资源。作为另一个示例，控制给定资源的共享可以包括与第二物理处理器核共享给定资源。当给定资源被共享时，它可以是更大的逻辑资源的一部分。第一物理处理器核的复合控制寄存器也可以被编程为将第一物理处理器核配置成不同的功率模式。作为具体示例，第一物理处理器核的高速缓存可以处于低功率模式并且不被逻辑处理器使用。当第一物理处理器核被添加到现有逻辑处理器并且希望高速缓存未被重新映射时，这可能是有益的。此外，线程的数据集合可能较小，并且在执行程序时断电第一物理处理器核的高速缓存可以节省能源。

在处理框1430处，程序的给定线程可被指派给逻辑处理器。例如，逻辑处理器可以被保留用于与给定线程的线程标识符相关联的指令块。逻辑核号可以指派给逻辑处理器并存储在逻辑处理器的每个物理处理器核的逻辑核号寄存器中。逻辑核号可以与线程标识符相同或可以与线程标识符相关联。

在处理框1440，可以在逻辑处理器的第一物理处理器核上启动给定线程的第一指令块的执行。例如，可以将第一指令块的地址加载到第一物理处理器核上，使得第一指令块的指令可以由第一物理处理器核取指并执行。作为具体的示例，线程初始化指令块可以将给定线程的第一指令块的地址存储在第一物理处理器核的程序计数器寄存器中。当线程初始化指令块提交并且第一指令块的地址在程序计数器寄存器中被更新时，第一指令块(和给定的线程)可以开始执行。

XI.执行程序的示例方法

图15-17是图示配置和/或执行处理器的逻辑处理器和/或逻辑资源上的程序的线程的示例方法的流程图。例如，处理器可以包括多个基于块的物理处理器核，其包括第一物理处理器核和第二物理处理器核。相应的物理处理器核可以包括一个或多个可共享资源，诸如高速缓存、寄存器文件、执行单元和/或各种其他逻辑或数学组件。物理处理器核可以被分组或组成逻辑处理器。类似地，物理处理器核的可共享资源可以被分组或组成逻辑资源。图15是图示了用于使用共享逻辑资源来执行物理处理器核上的程序的线程的指令的示例方法1500的流程图。

在处理框1510处，根据第一物理处理器核的可编程复合控制寄存器，第一物理处理器核的给定资源可被配置为与第二物理处理器核共享。例如，复合控制寄存器可以在程序的运行时期间由线程初始化指令块编程。当线程初始化指令块被提交时，给定资源可以被配置为在线程初始化指令块时被共享。给定的资源可以配置为更大的逻辑资源的一部分。例如，给定资源可以是高速缓存，给定资源可以是较大逻辑高速缓存的一个存储库。第一物理处理器核的可共享资源可以被选择性地共享，使得可以共享第一资源并且不共享其他资源。未共享的资源可以由第一物理处理器核在本地使用，或者未被共享资源可以被断电。例如，给定的资源可以是将被上电并运行的第一物理处理器核的唯一主要功能单元。

在处理框1520处，根据可编程复合拓扑寄存器，物理处理器核组可以被可选地配置为共享资源。例如，所述物理处理器核组可以包括第一物理处理器核和第二物理处理器核。物理处理器核组可以由复合拓扑寄存器的字段内的组的位图来指定。备选地，物理处理器核组可以由被编程到复合拓扑寄存器中的组的物理处理器核的数目指定。例如，位图可以被用于指定来自处理器的任意位置的物理处理器核，而不管物理处理器核是彼此相邻还是不相邻。作为另一个示例，所述多个物理处理器核可以根据组中的数目和处理器的拓扑来形成自动分组。具体地，对于给定大小的逻辑处理器，可以存在物理处理器核到逻辑处理器的固定映射，诸如参考图7所描述的。

在处理框1530处，可以使用第一物理处理器核的可共享资源在第二物理处理器核上执行指令块的指令。具体而言，译码的指令可以被存储在第二物理处理器核的指令窗口中，并由第二物理处理器核的指令发布或调度逻辑发布用于执行。第一物理处理器核的可共享资源用于指令的执行。作为一个示例，指令的操作数可以从可共享资源中加载或读取。作为另一个示例，可以使用第一物理处理器核的共享执行单元来部分或完全执行该指令。作为另一个示例，指令可以将输出结果存储或写入可共享资源。

执行指令可以包括指令的各种步骤或微操作，包括：管理第二物理处理器核与第一物理处理器核之间的通信；将与所述指令相关联的索引字段映射到所述可共享资源；调度指令的微操作；并在第二物理处理器核的指令窗口中将该指令标记为完成。该指令可能需要多个时钟周期来完成，以解释第二物理处理器核与第一物理处理器核之间的通信延迟。

图16是图示了用于在逻辑处理器上执行程序的线程的示例方法1600的流程图。例如，处理器可以包括多个基于块的物理处理器核，基于块的物理处理器核包括第一物理处理器核和第二物理处理器核。相应的物理处理器核可以包括一个或多个可共享资源，诸如高速缓存、寄存器文件、执行单元和/或各种其他逻辑或数学组件。物理处理器核可以被分组或组成逻辑处理器。类似地，物理处理器核的可共享资源可以被分组或组成逻辑资源。

在处理框1610处，可以根据可编程复合拓扑寄存器来组成逻辑处理器。逻辑处理器可以包括第一物理处理器核和第二物理处理器核。例如，复合拓扑寄存器可以诸如通过执行线程的线程初始化指令块的指令来在程序的运行时期间被编程。逻辑处理器可以被用来执行程序的线程的非推测和推测指令块。逻辑处理器的物理处理器核可以通过提供该组的位图或通过提供该组的物理处理器核的数目来指定。例如，位图可被用于指定来自处理器的任意位置的个体物理处理器核。作为另一个示例，取决于组中的数目和处理器的拓扑，组中的物理处理器核可以具有固定的映射。

在处理框1620处，第一物理处理器核的给定资源可以可选地被配置为根据第一物理处理器核的复合控制寄存器来与第二物理处理器核共享。物理处理器核的可共享资源可以具有默认设置，以指示资源是否与其他物理处理器核共享。例如，默认情况下，可共享资源在物理处理器核中可以是私有的。作为另一个示例，默认情况下，共享资源可以在逻辑处理器的物理处理器核之间共享。不同的可共享资源可以有不同的默认设置。例如，高速缓存可以默认为在逻辑处理器的物理处理器核之间共享，并且执行单元可以默认为在其物理处理器核中是私有的。合成控制寄存器可用于通过编写合成控制寄存器中的不同共享设置来覆盖默认的共享设置。

在处理框1630处，线程的第一指令块可以在第一物理处理器核上非推测性地执行。线程可以有在给定时间执行的非推测指令块。非推测指令块是线程的第一已发布或最早的指令块。线程的其他指令块可以在非推测指令块被提交之前在不同的指令窗口或不同的物理处理器核上开始。然而，附加的指令块是推测性的，直到知道附加指令块将提交为止。例如，非推测指令块可以在附加指令块可以被提交之前接收要被服务的中断。作为另一个示例，附加的指令块可能在错误预测的路径上。当非推测块提交时，它可以将提交信号连同退出分支地址一起发送给逻辑处理器的所有其他物理处理器核。位于正确路径上的推测块可以继续执行，而未采用路径上的块可以被中止。

第一指令块的非推测性执行可以包括：预测第一指令块的分支目标地址，使得线程的推测性指令块的路径可以被确定；将预测的分支目标地址发送给逻辑处理器的一个或多个物理处理器核；使用与另一物理处理器核共享的逻辑资源来执行所述第一指令块的指令；确定提交条件是否满足；当提交条件满足时开始提交阶段；以及当提交阶段完成时向逻辑处理器的其他物理处理器核发送提交信号和目标分支地址。

在处理框1640处，线程的第二指令块可以在第二物理处理器核上被推测地执行。第二物理处理器核可以推测地发出指令，直到知道第二指令块是否在错误预测的路径上或直到第二指令块变为非推测指令块为止。例如，如果第二指令块的起始地址与提交非推测指令块的目标分支地址匹配，则第二指令块可以变成非推测指令块。即使推测性指令块在非推测性指令块之前完成执行，推测性指令块也不能提交，直到推测性指令块被转换为非推测性指令块为止。

第二指令块的推测执行可以包括：在第一指令块提交之前取指第二指令块；使用与另一物理处理器核共享的逻辑资源来执行所述第一指令块的指令；当接收到提交信号时，将第二指令块的起始地址与目标分支地址进行比较；当接收到提交信号时，当第二指令块的起始地址匹配目标分支地址时，将第二指令块转换为非推测指令块；将预测路径与执行路径进行比较；当预测路径不同于执行路径时，中止第二指令块；并且延迟提交阶段，直到第二指令块是非推测性指令块之后。

以这种方式，逻辑处理器的物理处理器核可以被用于执行线程的指令块。具体而言，推测性指令块和非推测性指令块两者可以在逻辑处理器的物理处理器核上被同时执行。当推测路径被正确预测时，当较早的非推测性指令块提交时，通过将推测指令块中的一个变换为非推测性指令块，非推测性指令块可在物理处理器核之间迁移。可以根据分配策略来选择被选择用于推测性地执行线程的相应指令块的物理处理器核。例如，分配策略可以是逻辑处理器的物理处理器核的循环调度。

图17是图示了用于启动逻辑处理器上的程序的线程的执行的示例方法1700的流程图。例如，处理器可以包括多个基于块的物理处理器核。相应的物理处理器核可以包括一个或多个可共享资源，诸如高速缓存、寄存器文件、执行单元和/或各种其他逻辑或数学组件。物理处理器核可以被分组或组成逻辑处理器。类似地，物理处理器核的可共享资源可以被分组或组成逻辑资源。

在1710处，针对线程初始化指令块之后执行的指令块的推测性执行可以被静止。线程初始化指令块可以包括用于配置资源以执行程序的线程的指令。通过静止或停止线程初始化指令块之后的推测执行，空闲物理处理器核可被标识并被编程以组成逻辑处理器。运行时***可以动态跟踪空闲的物理处理器核，以便逻辑处理器的复合成可以基于当前的运行时信息。

在1720从线程初始化指令块内执行到复合拓扑和/或复合控制寄存器的存储操作被。例如，逻辑处理器的每个物理处理器核可以具有复合拓扑寄存器，用于指定物理处理器核是否被组成为逻辑处理器核的一部分以及物理处理器核的资源是否被共享。逻辑处理器的各个物理处理器核的复合拓扑寄存器可以被不同地编程，使得各个物理处理器核的不同资源被共享。逻辑处理器的每个物理处理器核可以具有复合拓扑寄存器，用于指定要与之组成和/或共享资源的物理处理器核组。

在1730处，可以在线程初始化指令块的提交阶段期间执行对该线程的第一指令块的分支操作，以启动逻辑处理器上的线程的执行。分支操作可以包括将第一指令块的地址加载到逻辑处理器的物理处理器核之一的程序计数器中。当线程初始化指令块被提交时，非推测指令块将成为线程的第一指令块。因此，线程可以开始执行第一指令块。

XII.示例计算环境

图18图示了在其中可以实现所描述的实施例、方法和技术的适合的计算环境1800的一般示例。

计算环境1800不旨在提出关于技术的使用或者功能的范围的任何限制，因为技术可以被实现在不同的通用或者专用计算环境中。例如，所公开的技术可以利用其他计算机***配置被实现，包括手持式设备、多处理器***、可编程消费者电子产品、网络PC、微型计算机、大型计算机，等等。所公开的技术还可以被实践在分布式计算环境中，其中任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块(包括用于基于块的指令块的可执行指令)可以被定位在本地存储器存储设备和远程存储器存储设备二者中。

参考图18，计算环境1800包括至少一个基于块的处理单元1810和存储器1820。在图18中，该最基本配置1830被包括在虚线内。基于块的处理单元1810执行计算机可执行指令并且可以是真实处理器或者虚拟处理器。在多处理***中，多个处理单元执行计算机可执行指以增加处理能力，并且如此多个处理器可以同时运行。存储器1820可以是易失性存储器(例如，寄存器、高速缓存、RAM)、非易失性存储器(例如，ROM、EEPROM、闪速存储器等)、或者两者的组合。存储器1820存储可以例如实现在此所描述的技术的软件1880、图像和视频。计算环境可以具有附加的特征。例如，计算环境1800包括存储装置1840、一个或多个输入设备1850、一个或多个输出设备1860以及一个或多个通信连接1870。互连机制(未示出)(诸如总线、控制器或者网络)将计算环境1800的部件相互连接。通常，操作***软件(未示出)提供用于在计算环境1800中执行的其他软件的操作环境，并且协调计算环境1800的部件的活动。

存储装置1840可以是可移除或者不可移除的，并且包括磁盘、磁带或者磁带盒、CD-ROM、CD-RW、DVD或者可以用于存储信息并且可以在计算环境1800内访问的任何其他介质。存储装置1840存储用于软件1880的指令、***数据和消息，其可以用于实现在此所描述的技术。

(一个或多个)输入设备1850可以是触摸输入设备，诸如键盘、小键盘、鼠标、触屏显示器、笔或轨迹球、语音输入设备、扫描设备或者向计算环境1800提供输入的另一设备。对于音频而言，(一个或多个)输入设备1850可以是以模拟或者数字形式接受音频输入的声卡或者类似设备，或者向计算环境1800提供音频样本的CD-ROM读取器。(一个或多个)输出设备1860可以是显示器、打印机、扬声器、刻录机或者提供来自计算环境1800的输出的另一设备。

(一个或多个)通信连接1870实现通过通信介质(例如，连接网络)与另一计算实体的通信。通信介质传达诸如计算机可执行指令、压缩图形信息、视频或者调制数据信号中的其他数据的信息。(一个或多个)通信连接1870不限于有线连接(例如，兆比特或吉比特以太网、无限带宽、电气或光纤连接上的光纤信道)，而且包括无线技术(例如，经由蓝牙、WiFi(IEEE 802.11a/b/n)、WiMax、蜂窝、卫星、激光、红外的RF连接)以及用于提供用于所公开的代理、网桥和代理数据消费者的网络连接的其他适合的通信连接。在虚拟主机环境中，(一个或多个)通信连接可以是由虚拟主机所提供的虚拟化网络连接。

可以使用实现计算云1890中的所公开的技术的全部或部分的计算机可执行指令执行所公开的方法的一些实施例。例如，所公开的编译器和/或基于块的处理器的服务器被定位在计算环境中，或者所公开的编译器可以在被定位在计算云1890中的服务器上执行。在一些示例中，所公开的编译器在传统的中央处理单元(例如，RISC或者CISC处理器)上执行。

计算机可读介质是可以在计算环境1800内访问的任何可用介质。以示例而非限制的方式，利用计算环境1800，计算机可读介质包括存储器1820和/或存储装置1840。如应当容易理解的，术语计算机可读存储介质包括用于数据存储的介质(诸如存储器1820和存储装置1840)而非传输介质(诸如调制数据信号)。

XIII.所公开的技术的附加示例

根据上文所讨论的示例在此讨论了所公开的主题的附加示例。

在一个实施例中，处理器包括用于执行包括多个指令块的程序的多个基于块的物理处理器核，并且相应的基于块的物理处理器核包括分支预测器和可编程复合拓扑寄存器。分支预测器被配置为选择多个指令块中的将被逻辑处理器推测性地执行的指令块。可编程复合拓扑寄存器用于将多个基于块的物理处理器核的一数目的物理处理器核指派给逻辑处理器。可编程复合拓扑寄存器在程序执行期间可动态编程。复合拓扑寄存器部分地通过执行在多个核中的任一个上执行的指令块的存储指令来编程，所述存储指令用于对应于合成拓扑寄存器的存储器映射地址。复合拓扑寄存器的值在具有指令块的提交阶段期间被更新，所述指令块具有用于对应于合成拓扑寄存器的存储器映射的地址的存储指令。

作为一个示例，逻辑处理器的物理处理器核可以仅由在复合拓扑寄存器中编程的物理处理器核的数目和处理器的拓扑内的相应物理处理器核的位置来确定。作为另一个示例，逻辑处理器的物理处理器核可以使用标识逻辑处理器的每个物理处理器核的复合拓扑寄存器的复合字段来编程。作为另一个示例，复合拓扑寄存器可以包括复合字段和用于指定合成字段的含义的模式字段。当模式字段被编程为第一值时，复合字段可以提供逻辑处理器的物理处理器核的位图。当模式字段被编程为第二值时，复合字段可以仅提供逻辑处理器的物理处理器核的数目。

相应的物理处理器核还可以包括一个或多个可共享资源和可编程复合控制寄存器。一个或多个可共享资源可以被配置为由逻辑处理器的物理处理器核共享。例如，一个或多个可共享资源可以用于执行在逻辑处理器上执行的指令块的指令。可编程复合控制寄存器可用于配置与逻辑处理器的其他物理处理器核共享一个或多个可共享资源中的哪一个。

处理器可以用在各种不同的计算***中。例如，服务器计算机可以包括非易失性存储器和/或存储设备；网络连接；存储一个或多个指令块的存储器；以及包括用于执行指令块的基于块的处理器核的处理器。作为另一个示例，设备可以包括用户界面组件；非易失性存储器和/或存储设备；蜂窝和/或网络连接；存储一个或多个指令块的存储器；以及包括用于执行指令块的基于块的处理器的处理器。用户界面组件可以包括以下中的至少一项或多项：显示器、触摸屏显示器、触觉输入/输出设备、运动感测输入设备和/或语音输入设备。

在一个实施例中，处理器包括用于执行包括多个指令块的程序的多个基于块的物理处理器核，并且相应的基于块的物理处理器核包括可共享资源和可编程复合拓扑寄存器。可共享资源可配置为与多个基于块的物理处理器核的物理处理器核组共享。例如，可共享资源可以被用于执行在物理处理器核组上执行的指令块的指令。可编程复合拓扑寄存器被用于指派共享可共享资源的物理处理器核组。可编程复合拓扑寄存器在程序执行期间是可动态编程的。例如，高速缓存复合拓扑寄存器的值可以在包括存储指令的指令块的提交阶段期间被更新，所述存储指令是到对应于高速缓存拓扑控制寄存器的存储器映射地址的存储指令。

作为一个示例，物理处理器核组可以仅由复合拓扑寄存器中编程的物理处理器核的数目以及处理器的拓扑内的相应物理处理器核的位置来确定。作为另一个示例，物理处理器核组可以使用复合拓扑寄存器的复合字段来编程，其标识物理处理器核组中的每个物理处理器核。作为具体示例，物理处理器核组中的每个物理处理器核可以用物理处理器核的位图来标识。

相应的物理处理器核还可以包括可编程复合控制寄存器，用于从相应处理器核的一个或多个可共享资源中选择可共享资源。一个或多个可共享资源可以从数据高速缓存、寄存器文件或执行单元中选择。

在一个实施例中，可以使用一种方法来在包括第一物理处理器核和第二物理处理器核的处理器上执行程序。该程序包括布置在一个或多个线程中的多个指令块。该方法包括根据可编程复合拓扑寄存器来组成包括第一物理处理器核和第二物理处理器核的逻辑处理器。该方法包括在第一物理处理器核上非推测性地执行线程的第一指令块。该方法包括在第二物理处理器核上推测性地执行线程的第二指令块。

该方法可以包括：静止在线程初始化指令块之后执行的指令块的推测执行；从所述线程初始化指令块内执行对合成拓扑寄存器的存储操作；以及在所述线程初始化指令块的提交阶段期间执行用于所述第一指令块的分支操作，以启动所述逻辑处理器上的所述线程的执行。该方法可以包括在所述逻辑处理器上执行所述线程期间，根据分配策略来选择所述逻辑处理器的物理处理器核用于推测地执行所述线程的指令块。例如，分配策略可以是所述逻辑处理器的所述物理处理器核的循环调度。该方法可以包括根据所述第一物理处理器核的可编程复合控制寄存器来配置所述第一物理处理器核的资源的共享。该方法可以包括当在所述第二物理处理器核上执行所述第二指令块的指令时，使用所述第一物理处理器核的所述资源。

鉴于所公开的主题的原理可以应用的许多可能实施例，应当认识到所图示的实施例仅是优选的示例并且不应该当作将权利要求的范围限于那些优选的示例。相反，要求保护的主题的范围由所附的权利要求进行限定。我们因此根据我们的发明要求保护落在这些权利要求的范围内的全部内容。

Claims

1.一种包括多个基于块的物理处理器核的处理器，所述多个基于块的物理处理器核用于执行包括多个指令块的程序，相应的基于块的物理处理器核包括：

分支预测器，被配置为选择所述多个指令块中将被逻辑处理器推测地执行的指令块；以及

可编程复合拓扑寄存器，用于将所述多个基于块的物理处理器核中的一数目的物理处理器核指派给所述逻辑处理器，所述可编程复合拓扑寄存器在所述程序的执行期间动态地可编程。

2.根据权利要求1所述的相应的物理处理器核，其中所述逻辑处理器的所述物理处理器核由所述复合拓扑寄存器中编程的所述物理处理器核的所述数目以及所述相应物理处理器核在所述处理器的拓扑内的位置来确定。

3.根据权利要求1所述的相应物理处理器核，其中所述逻辑处理器的所述物理处理器核使用所述复合拓扑寄存器的复合字段来编程，所述复合字段标识所述逻辑处理器的每个物理处理器核。

4.根据权利要求1所述的相应物理处理器核，其中所述复合拓扑寄存器包括复合字段和用于指定所述复合字段的含义的模式字段，当所述模式字段被编程为第一值时，所述复合字段提供所述逻辑处理器的所述物理处理器核的位图，并且当所述模式字段被编程为第二值时，所述复合字段提供所述逻辑处理器的所述物理处理器核的所述数目。

5.根据权利要求1至4中任一项所述的相应的物理处理器核，还包括：

一个或多个可共享资源，可配置为由所述逻辑处理器的所述物理处理器核共享，所述一个或多个可共享资源被用于执行在所述逻辑处理器上执行的指令块的指令；以及

可编程复合控制寄存器，用于配置与所述逻辑处理器的其他物理处理器核共享所述一个或多个可共享资源中的哪一个可共享资源。

6.根据权利要求5所述的相应物理处理器核，其中所述一个或多个可共享资源是从数据高速缓存、寄存器文件或执行单元中被选择的。

7.根据权利要求1至6中任一项所述的相应物理处理器核，其中所述复合拓扑寄存器部分地通过执行在所述多个核中的任一个核上执行的指令块的存储指令而可编程，所述存储指令到与所述复合拓扑寄存器相对应的存储器映射地址的存储指令。

8.根据权利要求7所述的相应物理处理器核，其中所述复合拓扑寄存器的值在具有所述存储指令的所述指令块的提交阶段期间被更新，所述存储指令是到与所述复合拓扑寄存器相对应的所述存储器映射地址的所述存储指令。

9.一种在处理器上执行程序的方法，所述处理器包括第一物理处理器核和第二物理处理器核，所述程序包括被布置在一个或多个线程中的多个指令块，所述方法包括：

根据复合拓扑寄存器来组成逻辑处理器，所述逻辑处理器包括所述第一物理处理器核和所述第二物理处理器核；

在所述第一物理处理器核上非推测地执行所述线程的第一指令块；以及

在所述第二物理处理器核上推测地执行所述线程的第二指令块。

10.根据权利要求9所述的方法，还包括：

静止在线程初始化指令块之后执行的指令块的推测执行；

从所述线程初始化指令块内执行对所述复合拓扑寄存器的存储操作；以及

在所述线程初始化指令块的提交阶段期间，执行对所述第一指令块的分支操作，以启动所述逻辑处理器上的所述线程的执行。

11.根据权利要求9所述的方法，还包括：

在所述逻辑处理器上执行所述线程期间，根据分配策略来选择所述逻辑处理器的物理处理器核以用于推测地执行所述线程的指令块。

12.根据权利要求11所述的方法，其中所述分配策略是所述逻辑处理器的所述物理处理器核的循环调度。

13.根据权利要求9所述的方法，还包括：

根据所述第一物理处理器核的复合控制寄存器来配置所述第一物理处理器核的资源的共享。

14.根据权利要求13所述的方法，还包括：

当在所述第二物理处理器核上执行所述第二指令块的指令时，使用所述第一物理处理器核的所述资源。