CN113050994A - 用于512位操作的***、装置和方法 - Google Patents

用于512位操作的***、装置和方法 Download PDF

Info

Publication number
CN113050994A
CN113050994A CN202011015027.XA CN202011015027A CN113050994A CN 113050994 A CN113050994 A CN 113050994A CN 202011015027 A CN202011015027 A CN 202011015027A CN 113050994 A CN113050994 A CN 113050994A
Authority
CN
China
Prior art keywords
bit
operand
execution
instruction
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011015027.XA
Other languages
English (en)
Inventor
E·乌尔德-阿迈德-瓦尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN113050994A publication Critical patent/CN113050994A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • G06F9/30014Arithmetic instructions with variable precision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/3017Runtime instruction translation, e.g. macros

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

详述了用于执行512位操作的***、装置和方法的实施例。例如,详述了一种装置,其包括:解码器电路,用于对指令解码,该指令具有用于操作码的字段和用于至少一个操作数标识符的字段;以及执行电路,用于根据操作码对至少一个操作数执行512位操作,其中,所标识的操作数和执行电路中的至少一者小于512位。

Description

用于512位操作的***、装置和方法
技术领域
本发明的领域总体上涉及计算机处理器架构,更具体地涉及执行512位操作。
背景技术
许多现代处理器包括单指令多数据(SIMD)支持或向量支持。示例包括对执行对128位紧缩数据操作数(例如,128位SIMD寄存器或向量寄存器)和256位紧缩数据操作数的操作的支持。然而,如何执行那些操作会有所不同。
附图说明
在所附附图中以示例方式而非限制方式来图示本发明,在附图中,类似的附图标记指示类似的要素,其中:
图1图示用于处理“512位”指令的硬件的实施例。
图2A是图示根据本发明的实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线两者的框图。
图2B是图示根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图。
图3图示以256位执行电路来利用512位操作数的处理器或核的实施例。
图4图示以256位执行电路来利用单个512位操作数的处理器或核的实施例。
图5图示以256位执行电路来利用256位操作数以产生512位结果的处理器或核的实施例。
图6图示以256位执行电路来利用单个512位操作数的处理器或核的实施例。
图7图示以512位执行电路来利用单个512位操作数的处理器或核的实施例。
图8图示由处理器执行以处理“512位”指令的方法的实施例。
图9A是图示根据本发明的实施例的示例性指令格式的框图。
图9B是示出根据本发明的一个实施例的指令格式中构成完整操作码字段的字段的框图。
图9C是图示根据本发明的一个实施例的指令格式中构成寄存器索引字段的字段的框图。
图9D是示出根据本发明的一个实施例的指令格式中构成扩充操作字段的字段的框图。
图10是根据本发明的一个实施例的寄存器架构的框图。
图11A-图11B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核)。
图12是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器的框图。
图13示出根据本发明的一个实施例的***的框图。
图14是根据本发明的实施例的第一更具体的示例性***的框图。
图15是根据本发明的实施例的第二更具体的示例性***的框图。
图16是根据本发明的实施例的SoC的框图。
图17是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
在下列描述中,阐述了众多具体细节。然而应理解,可在没有这些具体细节的情况下实施本发明的实施例。在其他实例中,未详细示出公知的电路、结构和技术,以免使对本描述的理解模糊。
说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可包括特定的特征、结构或特性,但是每个实施例可以不一定包括该特定的特征、结构或特性。而且,此类短语不一定是指同一实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为结合无论是否被明确描述的其他实施例而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。
当前对于512位数据操作(例如,使用512位单指令多数据(SIMD)寄存器或向量寄存器的那些操作)的支持使用512位执行单元(例如,512位ALU)来执行。然而,512位执行单元会具有一些劣势,诸如,与128位执行单元或256位执行单元相比在物理尺寸和能量使用方面的增加。此外,拥有专用的512位寄存器具有类似的尺寸和能量问题。下文详述的是支持不使用512位源和/或512位执行单元的512位数据操作的方式。
具体而言,在一些实施例中,由一个或多个256位执行资源对一个或多个256位数据操作数进行操作。在其他实施例中,由512位执行资源对一个或多个256位数据操作数进行操作。在其他实施例中,由256位执行资源对一个或多个512位数据操作数进行操作。由此,本文中详述的是通过提供用于允许512位操作的一种或多种方式来改善计算机本身的实施例。
图1图示用于处理“512位”指令的硬件的实施例。该指令被称为“512位”指令,因为数据或执行资源中的一者或多者不是512位的,但是操作实际上是512位的。例如,256位寄存器与256位执行电路一起使用以产生“512位”结果(其可以按照存储在2个256位目的地或单个512位目的地中的结果的形式)。
如图所示,存储103存储要被执行的“512位”指令101。
指令101由解码电路105接收。例如,解码电路105接收来自取出逻辑/电路的该指令。指令包括用于操作码的字段、用于至少第一源位置的标识符的字段、以及用于目的地位置的标识符的字段。在一些实施例中,所标识的(多个)源和目的地是寄存器,并且在其他实施例中,所标识的(多个)源和目的地中的一个或多个是存储器位置。在一些实施例中,操作码详述要执行哪个操作,包括算术、布尔、数据操纵(例如,移位、循环移位、置换等)。
解码电路105将指令解码为一个或多个操作。下文对与该解码有关的细节进行注解,而这些细节可包括将256位操作数映射到512位等效物,从而生成要在一个或多个256位执行电路(而不是512位执行电路)上执行的操作,等等。在一些实施例中,该解码包括:生成要由执行电路(诸如,执行电路109)执行的多个微操作。解码电路105还对指令前缀解码。
在一些实施例中,寄存器重命名、寄存器分配和/或调度电路106提供用于以下一项或多项的功能:1)将逻辑操作数值重命名为物理操作数值(例如,一些实施例中的寄存器别名表),其可包括将多个256位寄存器映射为等效于512位寄存器;2)将状态位和标志分配给经解码的指令;以及3)(例如,在一些实施例中,使用预留站)调度经解码的指令,供在指令池外部的执行电路上执行。
寄存器(寄存器堆)107和/或存储器113将数据存储为要由执行电路109操作的指令的操作数。示例性寄存器类型包括紧缩数据(例如,SIMD或向量)寄存器、通用寄存器和浮点寄存器。
执行电路109按照调度根据操作码来执行经解码的指令。
在一些实施例中,引退/写回电路111在架构上将目的地寄存器提交到寄存器107或存储器113中,并且引退指令。
在一些实施例中,算术递归指令包括用于写掩码寄存器操作数(k)的字段。写掩码用于有条件地控制逐元素的操作以及结果的更新。取决于实现方式,该写掩码使用合并掩码或归零掩码。以断言(写掩码、写入掩码或k寄存器)操作数进行编码的指令使用那个操作数来有条件地控制逐元素的计算操作以及结果到目的地操作数的更新。该断言操作数被称为操作掩码(写掩码)寄存器。在一些实施例中,操作掩码是尺寸为64位的架构寄存器的集合。注意,从该集合的架构寄存器,仅k1到k7可以被寻址为断言操作数。k0可用作常规的源或目的地,但不能被编码为断言操作数。也注意到,断言操作数可用于启用对具有存储器操作数(源或目的地)的一些指令的存储器故障抑制。作为断言操作数,操作掩码寄存器包含一个位来支配对向量寄存器的每个数据元素的操作/更新。一般而言,操作掩码寄存器可支持具有如下元素尺寸的指令:单精度浮点(float32)、整数双字(int32)、双精度浮点(float64)、整数四字(int64)。操作掩码寄存器的长度MAX_KL足以处置多达64个元素,对于每个元素有一个位,即,64个位。对于给定的向量长度,每条指令仅访问基于其数据类型所需数量的最低有效的掩码位。操作掩码寄存器以逐元素的粒度影响指令。因此,每个数据元素的任何数值或非数值操作以及中间结果至目的地操作数的逐元素更新在操作掩码寄存器的对应位上被断言。在大多数实施例中,充当断言操作数的操作掩码遵从以下属性:1)如果对应的操作掩码位未被置位(这暗示没有异常或违例会由对掩码关闭的(masked-off)元素的操作导致,因此,作为掩码关闭的操作的结果,没有异常标志被更新),则不对元素执行指令的操作;2)如果对应的写掩码位未被置位,则不用操作的结果更新目的地元素。相反,目的地元素值必须被保留(合并掩码),或者它必须被归零(归零掩码);3)对于具有存储器操作数的一些指令,对于具有掩码位0的元素,存储器故障被抑制。注意,该特征提供了用于实现控制流断言的通用构想,因为掩码实际上为向量寄存器目的地提供了合并行为。作为替代,掩码可用于归零而不是合并,使得用0来更新被掩码掉的元素,而不是保留旧值。提供归零行为,以便当不需要对旧值的隐式依赖关系时去除该对旧值的隐式依赖关系。
在实施例中,指令的编码包括比例-索引-基址(SIB)型存储器寻址操作数,其间接地标识存储器中的多个被索引的目的地位置。在一个实施例中,SIB型存储器操作数可包括标识基址寄存器的编码。基址寄存器的内容可表示存储器中的基址,存储器中的特定目的地位置的地址通过该基址来计算。例如,基址可以是用于扩展向量指令的潜在的目的地位置的块中的第一位置的地址。在一个实施例中,SIB型存储器操作数可以包括标识索引寄存器的编码。索引寄存器的每个元素可指定索引或偏移值,该索引或偏移值能用于通过基址来计算潜在的目的地位置的块内的相应目的地位置的地址。在一个实施例中,SIB型存储器操作数可包括指定比例因子的编码,该比例因子在计算相应目的地地址时将应用于每个索引值。例如,如果比例因子值4被编码在SIB型存储器操作数中,则从索引寄存器的元素获得的每个索引值可乘以4,且随后加到基址,以计算目的地地址。
在一个实施例中,具有vm32{x,y,z}的形式的SIB型存储器操作数可标识使用SIB型存储器寻址指定的存储器操作数的向量数组。在该示例中,使用共同的基址寄存器、常数比例因子和包含各自都为32位索引值的各个元素的向量索引寄存器来指定存储器地址的数组。向量索引寄存器可以是128位寄存器(例如,XMM)寄存器(vm32x)、256位(例如,YMM)寄存器(vm32y)或512位(例如,ZMM)寄存器(vm32z)。在另一实施例中,vm64{x,y,z}形式的SIB型存储器操作数可标识使用SIB型存储器寻址指定的存储器操作数的向量数组。在该示例中,使用共同的基址寄存器、常数比例因子和包含各自都为64位索引值的各个元素的向量索引寄存器来指定存储器地址的数组。向量索引寄存器可以是128位寄存器(例如,XMM)寄存器(vm64x)、256位(例如,YMM)寄存器(vm64y)或512位(例如,ZMM)寄存器(vm64z)。
图2A是图示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图2B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图2A-图2B中的实线框图示有序流水线和有序核,而虚线框的任选增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图2A中,处理器流水线200包括取出级202、长度解码级204、解码级206、分配级208、重命名级210、调度(也被称为分派或发布)级212、寄存器读取/存储器读取级214、执行级216、写回/存储器写入级218、异常处置级222和提交级224。
图2B示出处理器核290,该处理器核290包括前端单元230,该前端单元230耦合到执行引擎单元250,并且前端单元230和执行引擎单元250两者都耦合到存储器单元270。核290可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项,核290可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核,等等。
前端单元230包括分支预测单元232,该分支预测单元232耦合到指令高速缓存单元234,该指令高速缓存单元234耦合到指令转换后备缓冲器(TLB)236,该指令转换后备缓冲器236耦合到指令取出单元238,该指令取出单元238耦合到解码单元105。解码单元105(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元105可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核290包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元105中,或以其他方式在前端单元230内)。解码单元105耦合到执行引擎单元250中的重命名/分配器单元252。
执行引擎单元250包括重命名/分配器单元252,该重命名/分配器单元252耦合到引退单元254和一个或多个调度器单元的集合256。(多个)调度器单元256表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元256耦合到(多个)物理寄存器堆单元107。(多个)物理寄存器堆单元107中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中,(多个)物理寄存器堆单元107包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元107由引退单元254重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。引退单元254和(多个)物理寄存器堆单元107耦合到(多个)执行集群109。(多个)执行集群109包括一个或多个执行单元的集合262以及一个或多个存储器访问单元的集合264。执行单元262可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元256、(多个)物理寄存器堆单元107和(多个)执行集群109示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线,和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行集群具有(多个)存储器访问单元264的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线可以是有序的。
存储器访问单元的集合264耦合到存储器单元270,该存储器单元270包括数据TLB单元272,该数据TLB单元272耦合到数据高速缓存单元274,该数据高速缓存单元274耦合到第二级(L2)高速缓存单元276。在一个示例性实施例中,存储器访问单元264可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元270中的数据TLB单元272。指令高速缓存单元234还耦合到存储器单元270中的第二级(L2)高速缓存单元276。L2高速缓存单元276耦合到一个或多个其他级别的高速缓存,并最终耦合到主存储器。
作为示例,示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线200:1)指令取出238执行取出级202和长度解码级204;2)解码单元105执行解码级206;3)重命名/分配器单元252执行分配级208和重命名级210;4)(多个)调度器单元256执行调度级212;5)(多个)物理寄存器堆单元107和存储器单元270执行寄存器读取/存储器读取级214;执行集群109执行执行级216;6)存储器单元270和(多个)物理寄存器堆单元107执行写回/存储器写入级218;7)各单元可牵涉到异常处置级222;以及8)引退单元254和(多个)物理寄存器堆单元107执行提交级224。
核290可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展)),其中包括本文中描述的(多条)指令。在一个实施例中,核290包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如,时分取出和解码以及此后的诸如
Figure BDA0002698762670000091
超线程化技术中的同时多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令和数据高速缓存单元234/274以及共享的L2高速缓存单元276,但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该***可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。
图3图示以256位执行电路来利用512位操作数的处理器或核的实施例。利用512位的数据宽度和对256位操作的执行资源的该组合的实施例可允许与添加512位执行资源相比、对已经具有256位执行资源的执行电路262的较小改变。处理器或核可将该配置用于算术操作、布尔操作等。
在一些实施例中,解码器电路105将512位操作映射到256位执行电路硬件。例如,ADD REG1,REG2,REG3指令(其中,寄存器都是512位的)将不被解码以简单地使用512位加法器,但是将被解码以使用至少两个256位加法器。在一些实施例中,由解码器电路105生成微操作以反映256位执行资源的使用。注意,在一些实施例中,指令的操作码指示512位操作的使用。在一些实施例中,用于操作数的一个或多个字段指示(例如,具有512位寄存器或存储器位置的)512位操作的使用。
类似地,(多个)调度器256将调度两个256位操作而不是一个512位操作。
在该实施例中,有两个512位源操作数301和305。这些操作数可以是来自(多个)寄存器堆107中的寄存器的数据、来自存储器的数据、或来自寄存器的数据和来自存储器的数据的组合。如图所示,源操作数301和305在逻辑上包括两半,每一半为256位。例如,源0 301包括较高的一半301(B)和较低的一半301(A),并且源1 305包括较高的一半305(B)和较低的一半305(A)。
在一些实施例中,使用至少两个256位执行电路311和313同时对源301和305的对应的一半进行操作。例如,对于ADD REG1,REG2,REG3,256位执行电路311将来自REG2[0:255]和REG3[0:255]的数据元素相加,并且256位执行电路313将来自REG2[256:511]和REG3[256:511]的数据元素相加。
在其他实施例中,使用至少两个256位执行电路311和313顺序地对源301和305的对应的一半进行操作。例如,对于ADD REG1,REG2,REG3,256位执行电路311首先将来自REG2[0:255]和REG3[0:255]的数据元素相加,随后将来自REG2[256:511]和REG3[256:511]的数据元素相加。
来自任一执行方式的结果被保存在512位目的地321中。由于执行了两个不同写入,这可被视为双重泵。注意,目的地321也可以是源301或305中的一个。
图4图示以256位执行电路来利用单个512位操作数的处理器或核的实施例。利用512位的数据宽度和对256位操作的执行资源的该组合的实施例可允许与添加512位执行资源相比、对已经具有256位执行资源的执行电路262的较小改变。不是所有指令都具有两个或更多个源操作数。例如,移位、循环移位、单源置换等典型地仅具有一个源操作数,并且目的地可以是该相同的源。
在一些实施例中,解码器电路105将512位操作映射到256位执行电路硬件。例如,SHIFT REG1,REG2指令(其中,寄存器是512位的)将不被解码以简单地使用512位移位器,但是将被解码以使用至少一个256位移位器。在一些实施例中,由解码器电路105生成微操作以反映256位执行资源的使用。注意,在一些实施例中,指令的操作码指示512位操作的使用。在一些实施例中,用于操作数的一个或多个字段指示(例如,具有512位寄存器或存储器位置的)512位操作的使用。
类似地,(多个)调度器256将调度至少一个256位操作而不是一个512位操作。
在该实施例中,源操作数0 401包括两半,每一半为256位。例如,源0 401包括较高的一半401(B)和较低的一半401(A)。操作数可以是来自(多个)寄存器堆107中的寄存器的数据、来自存储器的数据、或来自寄存器的数据和来自存储器的数据的组合。
如图所示,由同一256位执行电路对两个一半401(A)和401(B)进行操作。首先对两个一半中的一个一半(例如,较低的一半401(A))进行操作,那个操作的结果被存储在512位目的地421中,随后,对另一半(例如,较高的一半401(B))进行操作,并且那个操作的结果被存储在512位目的地421中。由于执行了两个不同写入,这可被视为双重泵。
图5图示以256位执行电路来利用256位操作数以产生512位结果的处理器或核的实施例。利用256位的数据宽度和对256位操作的执行资源的该组合的实施例可允许与添加512位执行资源相比、对已经具有256位执行资源的执行电路262的较小改变。处理器或核可将该配置用于算术操作、布尔操作等。
在一些实施例中,解码器电路105将256位操作映射到256位执行电路硬件以进行512位操作。例如,ADD REG1,REG2,REG3指令(其中,寄存器都是256位的)将不被解码以简单地使用512位加法器,但是将被解码以使用至少两个256位加法器。在一些实施例中,由解码器电路105生成微操作以反映256位执行资源的使用。注意,在一些实施例中,指令的操作码指示512位操作的使用。
类似地,(多个)调度器256将调度至少两个256位操作而不是一个512位操作。
在该实施例中,有四个256位源操作数501、503、505和507。这些操作数可以是来自(多个)寄存器堆107中的寄存器的数据、来自存储器的数据、或来自寄存器的数据和来自存储器的数据的组合。如图所示,两个源操作数可在逻辑上被视为512位源的多个一半。例如,源0 501可以是第一512位源的较低的一半,并且源1 503可以是第二512位源的较低的一半。类似地,源2 505可以是第一512位源的较高的一半,并且源3 507可以是第二512位源的较高的一半。
在一些实施例中,使用至少两个256位执行电路511和513同时对源501-507的对应的一半进行操作。例如,对于ADD REG1,REG2,REG3,256位执行电路511将来自REG2[0:255]和REG3[0:255]的数据元素相加,并且256位执行电路513将来自REG2[256:511]和REG3[256:511]的数据元素相加。
在其他实施例中,使用至少两个256位执行电路511和513顺序地对源501-507的对应的一半进行操作。例如,对于ADD REG1,REG2,REG3,256位执行电路511首先将来自REG2[0:255]和REG3[0:255]的数据元素相加,随后将来自REG2[256:511]和REG3[256:511]的数据元素相加。
来自任一执行方式的结果被保存到两个256位目的地521和523中。由于执行了两个不同写入,这可被视为双重泵。注意,目的地521和523也可以是源501-507中的一个。
图6图示以256位执行电路来利用单个512位操作数的处理器或核的实施例。利用256位的数据宽度和对256位操作的执行资源的该组合的实施例可允许与添加512位执行资源相比、对已经具有256位执行资源的执行电路262的较小改变。不是所有指令都具有两个或更多个源操作数。例如,移位、循环移位、单源置换等典型地仅具有一个源操作数,并且目的地可以是该相同的源。
在一些实施例中,解码器电路105将512位操作映射到256位执行电路硬件。例如,SHIFT REG1,REG2指令(其中,寄存器是256位的)将不被解码以简单地使用512位移位器,但是将被解码以使用至少一个256位移位器。在一些实施例中,由解码器电路105生成微操作以反映256位执行资源的使用。注意,在一些实施例中,指令的操作码指示512位操作的使用。类似地,(多个)调度器256将调度至少一个256位操作而不是一个512位操作。
如图所示,两个源操作数可在逻辑上被视为512位源的多个一半。例如,源0 601可以是第一512位源的较低的一半,并且源1 603可以是第二512位源的较低的一半。操作数可以是来自(多个)寄存器堆107中的寄存器的数据、来自存储器的数据、或来自寄存器的数据和来自存储器的数据的组合。
如图所示,由同一256位执行电路对两个一半601和603进行操作。首先对两个一半中的一个一半(例如,较低的一半601)进行操作,那个操作的结果至少被存储在256位目的地621中,随后,对另一半(例如,较高的一半603)进行操作,并且那个操作的结果至少被存储在至少256位目的地621中。由于执行了两个不同写入,这可被视为双重泵。
图7图示以512位执行电路来利用单个512位操作数的处理器或核的实施例。利用256位数据宽度和对512位操作的执行资源的该组合的实施例允许不添加512位寄存器。不是所有指令都具有两个或更多个源操作数。例如,移位、循环移位、单源置换等典型地仅具有一个源操作数,并且目的地可以是该相同的源。
在一些实施例中,解码器电路105将512位操作映射到512位执行电路硬件。例如,ADD REG1,REG2,REG3指令(其中,寄存器在逻辑上是512位的)将被解码以使用512位加法器。注意,指令的REG可以是两个256位寄存器向512位等效物的映射。例如,REG2是1号256位寄存器和0号256位寄存器。在一些实施例中,使该映射是显式的(例如,REG2[YMM0,YMM1])。由此,每个“512位”操作数具有显式编码的至少两个底层寄存器和/或存储器位置。在一些实施例中,不使该映射显式,而是该映射是推断的(例如,REG2=YMM2和YMM3)。由此,每个“512位”操作数具有隐式详述的至少两个底层寄存器和/或存储器位置。
在一些实施例中,由解码器电路105生成微操作以反映512位执行资源的使用。注意,在一些实施例中,指令的操作码指示512位操作的使用。类似地,(多个)调度器256将调度一个512位操作而不是多个256位操作。
如图所示,两个256位源操作数可在逻辑上被视为512位源的多个一半。例如,源0701可以是512位源的较低的一半,并且源1 703可以是第二512位源的较低的一半。操作数可以是来自(多个)寄存器堆107中的寄存器的数据、来自存储器的数据、或来自寄存器的数据和来自存储器的数据的组合。
如图所示,可由512位执行电路711对两个一半701和703进行操作,就好像它们是单个512位源。512位操作的结果被存储到表示512位目的地的较低的一半和较高的一半的两个256位目的地721和723中。
图8图示由处理器执行以处理“512位”指令的方法的实施例。例如,如图1中所示的处理器核、如下文详述的流水线等执行该方法。
在801处,取出“512位”指令。取决于指令,该指令将至少包括用于操作码的字段、用于至少第一源操作数位置(例如,寄存器)的标识符的字段、以及用于目的地操作数位置的标识符的字段。如上文所述,取决于实现方式,操作数可以是256位或512位的。在一些实施例中,该指令进一步包括用于写掩码的字段。在一些实施例中,从指令高速缓存取出该指令。
在803处,对所取出的指令进行解码。例如,由诸如本文中详述的解码电路对取出的指令进行解码。
在805处,检取与经解码的指令的源操作数相关联的数据值;并且调度指令的操作。例如,当源操作数中的一个或多个是存储器操作数时,检取来自所指示的存储器位置的数据。
在807处,由执行电路(硬件)根据操作码执行经解码的指令。取决于操作码、操作数尺寸等,该执行可使用256位操作数、256位执行资源、512位操作数、512位执行资源、以及上述各项的组合。
在一些实施例中,在809处,提交或引退指令。
以下附图详述用于实现上文的实施例的示例性架构和***。在一些实施例中,上文所描述的一个或多个硬件组件和/或指令如下文所详述地被仿真,或被实现为软件模块。
示例性指令格式
本文中所描述的(多条)指令的实施例能以不同格式来具体化。此外,在下文中详述示例性***、架构和流水线。(多条)指令的实施例可在此类***、架构和流水线上执行,但是不限于详述的那些***、架构和流水线。
尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例,即:64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字节向量由16个双字尺寸的元素组成,或者替代地由8个四字尺寸的元素组成);64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸);32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸);以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸);但是替代实施例可支持更大、更小和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)。
图9A是图示根据本发明的实施例的示例性指令格式的框图。图9A示出指令格式900,其指定各字段的位置、尺寸、解释和次序、以及那些字段中的一些字段的值,在这个意义上,该指令格式900是专用的。指令格式900可用于扩展x86指令集,并且由此字段中的一些字段与如在现有的x86指令集及其扩展(例如,AVX)中所使用的那些字段类似或相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段一致。
EVEX前缀(字节0-3)902——以四字节形式进行编码。
格式字段982(EVEX字节0,位[7:0])——第一字节(EVEX字节0)是格式字段982,并且它包含0x62(在本发明的一个实施例中,为用于区分向量友好指令格式的唯一值)。
第二-第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。
REX字段905(EVEX字节1,位[7-5])——由EVEX.R位字段(EVEX字节1,位[7]–R)、EVEX.X位字段(EVEX字节1,位[6]–X)以及(957BEX字节1,位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能,并且使用1补码的形式进行编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx和bbb)进行编码,由此可通过对EVEX.R、EVEX.X和EVEX.B相加来形成Rrrr、Xxxx和Bbbb。
REX’字段910——这是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’位字段(EVEX字节1,位[4]–R’)。在本发明的一个实施例中,该位与以下指示的其他位一起以位反转的格式存储以(在公知x86的32位模式下)与BOUND指令进行区分,该BOUND指令的实操作码字节是62,但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11;本发明的替代实施例不以反转的格式存储该指示的位以及以下其他指示的位。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.R’、EVEX.R以及来自其他字段的其他RRR来形成R’Rrrr。
操作码映射字段915(EVEX字节1,位[3:0]–mmmm)——其内容对隐含的前导操作码字节(0F、0F 38或0F 3)进行编码。
数据元素宽度字段964(EVEX字节2,位[7]–W)——由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持多个数据元素宽度,则该字段是不需要的,在这个意义上,该字段是任选的。
EVEX.vvvv 920(EVEX字节2,位[6:3]-vvvv)——EVEX.vvvv的作用可包括如下:1)EVEX.vvvv对以反转(1补码)形式指定的第一源寄存器操作数进行编码,并且对具有两个或更多个源操作数的指令有效;2)EVEX.vvvv对针对特定向量位移以1补码的形式指定的目的地寄存器操作数进行编码;或者3)EVEX.vvvv不对任何操作数进行编码,该字段被预留,并且应当包含1111b。由此,EVEX.vvvv字段920对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令,额外不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。
EVEX.U 968类字段(EVEX字节2,位[2]-U)——如果EVEX.U=0,则它指示A类(支持合并掩码)或EVEX.U0;如果EVEX.U=1,则它指示B类(支持归零掩码和合并掩码)或EVEX.U1。
前缀编码字段925(EVEX字节2,位[1:0]-pp)——提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外,这也具有压缩SIMD前缀的益处(EVEX前缀仅需要2位,而不是需要字节来表达SIMD前缀)。在一个实施例中,为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令,将这些传统SIMD前缀编码成SIMD前缀编码字段;并且在运行时在被提供给解码器的PLA之前被扩展成传统SIMD前缀(因此,在无需修改的情况下,PLA既可执行传统格式的这些传统指令又可执行EVEX格式的这些传统指令)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展,但是为了一致性,特定实施例以类似的方式扩展,但允许由这些传统SIMD前缀指定的不同含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码,并且由此不需要扩展。
α字段953(EVEX字节3,位[7]–EH,也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N;也以α图示)——其内容区分出不同的扩充操作类型中的哪个类型要被执行。
β字段955(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB,还以βββ图示)——区分出所指定类型的操作中的哪个操作要被执行。
REX’字段910——这是REX’字段的其余部分,并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3,位[3]–V’)。该位以位反转的格式存储。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。
写掩码字段971(EVEX字节3,位[2:0]-kkk)——其内容指定写掩码寄存器中的寄存器的索引。在本发明的一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现,包括使用硬连线到所有对象的写掩码或绕过掩码硬件的硬件来实现)。当合并时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新;在另一实施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相反,当归零时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间使目的地中的任何元素集归零;在一个实施例中,目的地的元素在对应掩码位具有0值时被设置为0。该功能的子集是控制正在被执行的操作的向量长度的能力(即,从第一个到最后一个正在被修改的元素的跨度);然而,被修改的元素不一定要是连续的。由此,写掩码字段971允许部分向量操作,包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段971的内容选择多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此写掩码字段971的内容间接地标识要执行的掩码)的本发明的实施例,但是替代实施例相反或另外允许掩码写字段971的内容直接地指定要执行的掩码。
实操作码字段930(字节4)还被称为操作码字节。操作码的一部分在该字段中被指定。
MOD R/M字段940(字节5)包括MOD字段942、寄存器索引字段944和R/M字段946。MOD字段942的内容将存储器访问操作和非存储器访问操作区分开。寄存器索引字段944的作用可被归结为两种情形:对目的地寄存器操作数或源寄存器操作数进行编码;或者被视为操作码扩展,并且不用于对任何指令操作数进行编码。直接地或通过地址生成得到的寄存器索引字段944的内容指定源操作数和目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如,32x512、16x128、32x1024、64x1024)寄存器堆中选择N个寄存器。尽管在一个实施例中N可多达三个源寄存器和一个目的地寄存器,但是替代实施例可支持更多或更少的源寄存器和目的地寄存器(例如,可支持多达两个源,其中这些源中的一个还用作目的地;可支持多达三个源,其中这些源中的一个还用作目的地;可支持多达两个源和一个目的地)。
R/M字段946的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)字节(字节6)——比例字段950的内容允许对索引字段的内容进行缩放,以用于存储器地址生成(例如,用于使用2比例*索引+基址的地址生成)。SIB.xxx954和SIB.bbb 956——先前已经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。
位移字段963A(字节7-10)——当MOD字段942包含10时,字节7-10是位移字段963A,并且它与传统32位位移(disp32)一样地工作,并且以字节粒度工作。这可用作存储器地址生成的部分(例如,用于使用2比例*索引+基址+位移的地址生成)。
位移因数字段963B(字节7)——当MOD字段942包含01时,字节7是位移因数字段963B。该字段的位置与以字节粒度工作的传统x86指令集8位位移(disp8)的位置相同。由于disp8是符号扩展的,因此它仅能在-128和127字节偏移之间寻址;在64字节高速缓存行的方面,disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位;由于常常需要更大的范围,所以使用disp32;然而,disp32需要4个字节。与disp8和disp32对比,位移因数字段963B是disp8的重新解释;当使用位移因数字段963B时,通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移,但具有大得多的范围)。此类经压缩的位移基于有效位移是存储器访问的粒度的倍数的假设,并且由此地址偏移的冗余低阶位不需要被编码。换句话说,位移因数字段963B替代传统x86指令集8位位移。由此,位移因数字段963B以与x86指令集8位位移相同的方式被编码(因此,在ModRM/SIB编码规则中没有变化),唯一的不同在于,将disp8超载至disp8*N。换句话说,在编码规则或编码长度方面没有变化,而仅在有硬件对位移值的解释方面有变化(这需要将位移按比例缩放存储器操作数的尺寸以获得字节式地址偏移)。
立即数字段972允许对立即数的指定。该字段在实现不支持立即数的通用向量友好格式中不存在且在不使用立即数的指令中不存在,在这个意义上,该字段是任选的。
完整操作码字段
图9B是图示根据本发明的一个实施例的指令格式900中构成完整操作码字段974的字段的框图。具体地,完整操作码字段974包括格式字段982、基础操作字段943和数据元素宽度(W)字段964。基础操作字段943包括前缀编码字段925、操作码映射字段915和实操作码字段930。
寄存器索引字段
图9C是图示根据本发明的一个实施例的格式900中构成寄存器索引字段945的字段的框图。具体地,寄存器索引字段945包括REX字段905、REX’字段910、MODR/M.reg字段944、MODR/M.r/m字段946、VVVV字段920、xxx字段954和bbb字段956。
扩充操作字段
图9D是图示根据本发明的一个实施例的指令格式900中构成扩充操作字段950的字段的框图。当类(U)字段968包含0时,它表明EVEX.U0(A类968A);当它包含1时,它表明EVEX.U1(B类968B)。当U=0且MOD字段942包含11(表明无存储器访问操作)时,α字段953(EVEX字节3,位[7]–EH)被解释为rs字段953A。当rs字段953A包含1(舍入953A.1)时,β字段955(EVEX字节3,位[6:4]–SSS)被解释为舍入控制字段955A。舍入控制字段955A包括一位SAE字段996和两位舍入操作字段958。当rs字段953A包含0(数据变换953A.2)时,β字段955(EVEX字节3,位[6:4]–SSS)被解释为三位数据变换字段955B。当U=0且MOD字段942包含00、01或10(表明存储器访问操作)时,α字段953(EVEX字节3,位[7]–EH)被解释为驱逐提示(EH)字段953B,并且β字段955(EVEX字节3,位[6:4]–SSS)被解释为三位数据操纵字段955C。
当U=1时,α字段953(EVEX字节3,位[7]–EH)被解释为写掩码控制(Z)字段953C。当U=1且MOD字段942包含11(表明无存储器访问操作)时,β字段955的一部分(EVEX字节3,位[4]–S0)被解释为RL字段957A;当它包含1(舍入957A.1)时,β字段955的其余部分(EVEX字节3,位[6-5]–S2-1)被解释为舍入操作字段959A,而当RL字段957A包含0(VSIZE957.A2)时,β字段955的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段959B(EVEX字节3,位[6-5]–L1-0)。当U=1且MOD字段942包含00、01或10(表明存储器访问操作)时,β字段955(EVEX字节3,位[6:4]–SSS)被解释为向量长度字段959B(EVEX字节3,位[6-5]–L1-0)和广播字段957B(EVEX字节3,位[4]–B)。
图10是根据本发明的一个实施例的寄存器架构1000的框图。在所图示的实施例中,有32个512位宽的向量寄存器1010;这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖(overlay)在寄存器ymm0-16上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。
写掩码寄存器1015——在所图示的实施例中,存在8个写掩码寄存器(k0至k7),每一写掩码寄存器的尺寸是64位。在替代实施例中,写掩码寄存器1015的尺寸是16位。如先前所述,在本发明的一个实施例中,向量掩码寄存器k0无法用作写掩码;当将正常指示k0的编码用作写掩码时,它选择硬连线的写掩码0xFFFF,从而有效地禁止写掩码用于那条指令。
通用寄存器1025——在所示出的实施例中,有十六个64位通用寄存器,这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
标量浮点栈寄存器堆(x87栈)1045,在其上面重叠了MMX紧缩整数平坦寄存器堆1050——在所图示的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈;而使用MMX寄存器来对64位紧缩整数数据执行操作,以及为在MMX与XMM寄存器之间执行的一些操作保存操作数。
本发明的替代实施例可以使用更宽的或更窄的寄存器。另外,本发明的替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。
示例性核架构、处理器和计算机架构
处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)CPU,其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机***架构,这些计算机***架构可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上***,其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
具体的示例性有序核架构
图11A-图11B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。
图11A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络1102的连接及其第二级(L2)高速缓存的本地子集1104的框图。在一个实施例中,指令解码器1100支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1106允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元1108和向量单元1110使用分开的寄存器集合(分别为标量寄存器1112和向量寄存器1114),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(L1)高速缓存1106读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集1104是全局L2高速缓存的一部分,该全局L2高速缓存被划分成多个分开的本地子集,每个处理器核一个本地子集。每个处理器核具有到其自身的L2高速缓存的本地子集1104的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集1104中,并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的L2高速缓存子集1104中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。
图11B是根据本发明的实施例的图11A中的处理器核的一部分的展开图。图11B包括L1高速缓存1104的L1数据高速缓存1106A部分,以及关于向量单元1110和向量寄存器1114的更多细节。具体地,向量单元1110是16宽向量处理单元(VPU)(见16宽ALU 1128),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1120支持对寄存器输入的混合,通过数值转换单元1122A-B支持数值转换,并且通过复制单元1124支持对存储器输入的复制。写掩码寄存器1126允许掩蔽所得的向量写入。
图12是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器1200的框图。图12中的实线框图示具有单个核1202A、***代理1210、一个或多个总线控制器单元的集合1216的处理器1200,而虚线框的任选增加图示具有多个核1202A-N、***代理单元1210中的一个或多个集成存储器控制器单元的集合1214以及专用逻辑1208的替代处理器1200。
因此,处理器1200的不同实现可包括:1)CPU,其中专用逻辑1208是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核1202A-N是一个或多个通用核(例如,通用有序核、通用乱序核、这两者的组合);2)协处理器,其中核1202A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核1202A-N是大量通用有序核。因此,处理器1200可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器,等等。该处理器可以被实现在一个或多个芯片上。处理器1200可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。
存储器层次结构包括核内的一个或多个级别的高速缓存、一个或多个共享高速缓存单元的集合1206、以及耦合到集成存储器控制器单元的集合1214的外部存储器(未示出)。共享高速缓存单元的集合1206可包括一个或多个中间级别的高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然在一个实施例中,基于环的互连单元1212将集成图形逻辑1208(集成图形逻辑1208是专用逻辑的示例,并且在本文中也被称为专用逻辑)、共享高速缓存单元的集合1206以及***代理单元1210/(多个)集成存储器控制器单元1214互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个高速缓存单元1206与核1202A-N之间维持一致性。
在一些实施例中,一个或多个核1202A-N能够实现多线程化。***代理1210包括协调和操作核1202A-N的那些部件。***代理单元1210可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核1202A-N以及集成图形逻辑1208的功率状态进行调节所需的逻辑和部件,或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。
核1202A-N在架构指令集方面可以是同构的或异构的;即,核1202A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机架构
图13-16是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他***设计和配置也是合适的。一般地,能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的***或电子设备一般都是合适的。
现在参考图13,所示出的是根据本发明一个实施例的***1300的框图。***1300可以包括一个或多个处理器1310、1315,这些处理器耦合到控制器中枢1320。在一个实施例中,控制器中枢1320包括图形存储器控制器中枢(GMCH)1390和输入/输出中枢(IOH)1350(其可以在分开的芯片上);GMCH 1390包括存储器和图形控制器,存储器1340和协处理器1345耦合到该存储器和图形控制器;IOH 1350将输入/输出(I/O)设备1360耦合到GMCH1390。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器1340和协处理器1345直接耦合到处理器1310,并且控制器中枢1320与IOH 1350处于单个芯片中。
附加的处理器1315的任选性在图13中通过虚线来表示。每一处理器1310、1315可包括本文中描述的处理核中的一个或多个,并且可以是处理器1200的某一版本。
存储器1340可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢1320经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口、或者类似的连接1395来与(多个)处理器1310、1315进行通信。
在一个实施例中,协处理器1345是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。在一个实施例中,控制器中枢1320可以包括集成图形加速器。
在物理资源1310、1315之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。
在一个实施例中,处理器1310执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器1310将这些协处理器指令识别为具有应当由附连的协处理器1345执行的类型。因此,处理器1310在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1345。(多个)协处理器1345接受并执行所接收的协处理器指令。
现在参见图14,所示出的是根据本发明的实施例的第一更具体的示例性***1400的框图。如图14中所示,多处理器***1400是点对点互连***,并且包括经由点对点互连1450耦合的第一处理器1470和第二处理器1480。处理器1470和1480中的每一个都可以是处理器1200的某一版本。在本发明的一个实施例中,处理器1470和1480分别是处理器1310和1315,而协处理器1438是协处理器1345。在另一实施例中,处理器1470和1480分别是处理器1310和协处理器1345。
处理器1470和1480示出为分别包括集成存储器控制器(IMC)单元1472和1482。处理器1470还包括作为其总线控制器单元的一部分的点对点(P-P)接口1476和1478;类似地,第二处理器1480包括P-P接口1486和1488。处理器1470、1480可以经由使用点对点(P-P)接口电路1478、1488的P-P接口1450来交换信息。如图14中所示,IMC 1472和1482将处理器耦合到相应的存储器,即存储器1432和存储器1434,这些存储器可以是本地附连到相应处理器的主存储器的部分。
处理器1470、1480可各自经由使用点对点接口电路1476、1494、1486、1498的各个P-P接口1452、1454来与芯片组1490交换信息。芯片组1490可以任选地经由高性能接口1439来与协处理器1438交换信息。在一个实施例中,协处理器1438是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。
共享高速缓存(未示出)可被包括在任一处理器中,或在这两个处理器的外部但经由P-P互连与这些处理器连接,使得如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。
芯片组1490可以经由接口1496耦合到第一总线1416。在一个实施例中,第一总线1416可以是***部件互连(PCI)总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图14中所示,各种I/O设备1414可连同总线桥1418一起耦合到第一总线1416,该总线桥1418将第一总线1416耦合到第二总线1420。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器1415耦合到第一总线1416。在一个实施例中,第二总线1420可以是低引脚数(LPC)总线。在一个实施例中,各种设备可耦合到第二总线1420,这些设备包括例如键盘和/或鼠标1422、通信设备1427以及存储单元1428,该存储单元1428诸如可包括指令/代码和数据1430的盘驱动器或者其他大容量存储设备。此外,音频I/O 1424可以被耦合到第二总线1420。注意,其他架构是可能的。例如,代替图14的点对点架构,***可以实现多分支总线或其他此类架构。
现在参考图15,示出的是根据本发明的实施例的第二更具体的示例性***1500的框图。图14和图15中的类似元件使用类似的附图标记,并且从图15中省略了图14的某些方面以避免混淆图15的其他方面。
图15图示处理器1470、1480可分别包括集成存储器和I/O控制逻辑(“CL”)1472和1482。因此,CL 1472、1482包括集成存储器控制器单元,并包括I/O控制逻辑。图15图示不仅存储器1432、1434耦合到CL 1472、1482,而且I/O设备1514也耦合到控制逻辑1472、1482。传统I/O设备1515被耦合到芯片组1490。
现在参考图16,示出的是根据本发明的实施例的SoC 1600的框图。图12中的类似要素使用类似的附图标记。另外,虚线框是更先进的SoC上的任选的特征。在图16中,(多个)互连单元1602被耦合到:应用处理器1610,其包括一个或多个核的集合1202A-N的集合(其包括高速缓存单元1204A-N)以及(多个)共享高速缓存单元1206;***代理单元1210;(多个)总线控制器单元1216;(多个)集成存储器控制器单元1214;一个或多个协处理器的集合1620,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元1630;直接存储器访问(DMA)单元1632;以及用于耦合到一个或多个外部显示器的显示单元1640。在一个实施例中,(多个)协处理器1620包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器,等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程***上执行的计算机程序或程序代码,该可编程***包括至少一个处理器、存储***(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如,图14中图示的代码1430)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理***包括具有处理器的任何***,该处理器诸如例如,数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理***通信。如果需要,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或***特征。这些实施例也被称为程序产品。
仿真(包括二进制变换、代码变形等)
在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图17是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图17示出可使用x86编译器1704来编译高级语言1702形式的程序,以生成可由具有至少一个x86指令集核的处理器1716原生执行的x86二进制代码1706。具有至少一个x86指令集核的处理器1716表示通过兼容地执行或以其他方式处理以下各项来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核的指令集的实质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器1704表示可操作用于生成x86二进制代码1706(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器1716上执行。类似地,图17示出可以使用替代的指令集编译器1708来编译高级语言1702形式的程序,以生成可以由不具有至少一个x86指令集核的处理器1714(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码1710。指令转换器1712用于将x86二进制代码1706转换成可以由不具有x86指令集核的处理器1714原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码1710相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器1712通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码1706的软件、固件、硬件或其组合。
示例性示例包括但不限于:
示例1:一种装置,包括:解码器电路,用于对指令解码,该指令具有用于操作码的字段和用于至少一个操作数标识符的字段;以及执行电路,用于根据操作码对至少一个操作数执行512位操作,其中,所标识的操作数和执行电路中的至少一者小于512位。
示例2:示例1的装置,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括一个512位执行电路。
示例3:示例1的装置,其中,所标识的至少一个操作数是512位向量寄存器,并且执行电路包括两个256位执行电路。
示例4:示例1的装置,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括两个256位执行电路。
示例5:示例1的装置,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括一个256位执行电路。
示例6:示例1的装置,进一步包括:调度器电路,用于在执行电路上调度经解码的指令。
示例7:示例1的装置,其中,解码器电路用于基于操作码和至少一个所标识的操作数中的一者或多者来确定512位操作支持。
示例8:一种方法,包括:对指令解码,该指令具有用于操作码的字段和用于至少一个操作数标识符的字段;以及根据操作码对至少一个操作数执行512位操作,其中,所标识的操作数和执行电路中的至少一者小于512位。
示例9:示例8的方法,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括一个512位执行电路。
示例10:示例8的方法,其中,所标识的至少一个操作数是512位向量寄存器,并且执行电路包括两个256位执行电路。
示例11:示例8的方法,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括两个256位执行电路。
示例12:示例8的方法,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括一个256位执行电路。
示例13:示例8的方法,进一步包括:在执行电路上调度经解码的指令。
示例14:示例8的方法,其中,解码用于:基于操作码和至少一个所标识的操作数中的一者或多者来确定512位操作支持。
示例15:一种***,包括:存储器,用于存储指令;处理器,该处理器包括:解码器电路,用于对该指令解码,该指令具有用于操作码的字段和用于至少一个操作数标识符的字段;以及执行电路,用于根据操作码对至少一个操作数执行512位操作,其中,所标识的操作数和执行电路中的至少一者小于512位。
示例16:示例15的***,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括一个512位执行电路。
示例17:示例15的***,其中,所标识的至少一个操作数是512位向量寄存器,并且执行电路包括两个256位执行电路。
示例18:示例15的***,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括两个256位执行电路。
示例19:示例15的***,其中,所标识的至少一个操作数是256位向量寄存器,并且执行电路包括一个256位执行电路。
示例20:示例15的***,其中,解码电路用于基于操作码和至少一个所标识的操作数中的一者或多者来确定512位操作支持。

Claims (20)

1.一种装置,包括:
解码器电路,用于对指令解码,所述指令具有用于操作码的字段和用于至少一个操作数标识符的字段;以及
执行电路,用于执行经解码的指令,以根据所述操作码对至少一个操作数执行512位操作,其中,所标识的操作数和所述执行电路中的至少一个小于512位。
2.如权利要求1所述的装置,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括一个512位执行电路。
3.如权利要求1所述的装置,其中,所标识的至少一个操作数是512位向量寄存器,并且所述执行电路包括两个256位执行电路。
4.如权利要求1所述的装置,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括两个256位执行电路。
5.如权利要求1所述的装置,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括一个256位执行电路。
6.如权利要求1-5中的任一项所述的装置,进一步包括:
调度器电路,用于在所述执行电路上调度所述经解码的指令。
7.如权利要求1-6中的任一项所述的装置,其中,所述解码器电路用于基于所述操作码和至少一个所标识的操作数中的一者或多者来确定512位操作支持。
8.一种方法,包括:
对指令解码,所述指令具有用于操作码的字段和用于至少一个操作数标识符的字段;以及
执行经解码的指令,以根据所述操作码对至少一个操作数执行512位操作,其中,所标识的操作数和执行电路中的至少一个小于512位。
9.如权利要求8所述的方法,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括一个512位执行电路。
10.如权利要求8所述的方法,其中,所标识的至少一个操作数是512位向量寄存器,并且所述执行电路包括两个256位执行电路。
11.如权利要求8所述的方法,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括两个256位执行电路。
12.如权利要求8所述的方法,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括一个256位执行电路。
13.如权利要求8-12中的任一项所述的方法,进一步包括:
在所述执行电路上调度所述经解码的指令。
14.如权利要求8-13中的任一项所述的方法,其中,所述解码用于:基于所述操作码和至少一个所标识的操作数中的一者或多者来确定512位操作支持。
15.一种***,包括:
存储器,用于存储指令;以及
处理器,所述处理器包括:
解码器电路,用于对所述指令解码,所述指令具有用于操作码的字段和用于至少一个操作数标识符的字段;以及
执行电路,用于执行经解码的指令,以根据所述操作码对至少一个操作数执行512位操作,其中,所标识的操作数和所述执行电路中的至少一个小于512位。
16.如权利要求15所述的***,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括一个512位执行电路。
17.如权利要求15所述的***,其中,所标识的至少一个操作数是512位向量寄存器,并且所述执行电路包括两个256位执行电路。
18.如权利要求15所述的***,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括两个256位执行电路。
19.如权利要求15所述的***,其中,所标识的至少一个操作数是256位向量寄存器,并且所述执行电路包括一个256位执行电路。
20.如权利要求15-19中的任一项所述的***,其中,所述解码器电路用于基于所述操作码和至少一个所标识的操作数中的一者或多者来确定512位操作支持。
CN202011015027.XA 2019-12-27 2020-09-24 用于512位操作的***、装置和方法 Pending CN113050994A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/728,785 2019-12-27
US16/728,785 US20210200549A1 (en) 2019-12-27 2019-12-27 Systems, apparatuses, and methods for 512-bit operations

Publications (1)

Publication Number Publication Date
CN113050994A true CN113050994A (zh) 2021-06-29

Family

ID=72659601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011015027.XA Pending CN113050994A (zh) 2019-12-27 2020-09-24 用于512位操作的***、装置和方法

Country Status (3)

Country Link
US (1) US20210200549A1 (zh)
EP (1) EP3842935A1 (zh)
CN (1) CN113050994A (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4748585A (en) * 1985-12-26 1988-05-31 Chiarulli Donald M Processor utilizing reconfigurable process segments to accomodate data word length
US6295599B1 (en) * 1995-08-16 2001-09-25 Microunity Systems Engineering System and method for providing a wide operand architecture
US6948051B2 (en) * 2001-05-15 2005-09-20 International Business Machines Corporation Method and apparatus for reducing logic activity in a microprocessor using reduced bit width slices that are enabled or disabled depending on operation width
US8555034B2 (en) * 2009-12-15 2013-10-08 Oracle America, Inc. Execution of variable width vector processing instructions
US20110320765A1 (en) * 2010-06-28 2011-12-29 International Business Machines Corporation Variable width vector instruction processor
US20160026467A1 (en) * 2014-07-25 2016-01-28 Intel Corporation Instruction and logic for executing instructions of multiple-widths
US20170192789A1 (en) * 2015-12-30 2017-07-06 Rama Kishnan V. Malladi Systems, Methods, and Apparatuses for Improving Vector Throughput
CN114004349A (zh) * 2016-08-05 2022-02-01 中科寒武纪科技股份有限公司 一种能支持不同位宽运算数据的运算单元、方法及装置
US20180074824A1 (en) * 2016-09-13 2018-03-15 Apple Inc. Outer Product Engine
US10282296B2 (en) * 2016-12-12 2019-05-07 Intel Corporation Zeroing a cache line
US20200264873A1 (en) * 2019-02-20 2020-08-20 Nanjing Iluvatar CoreX Technology Co., Ltd. (DBA ? Iluvatar CoreX Inc. Nanjing?) Scalar unit with high performance in crypto operation
US11455143B2 (en) * 2020-05-07 2022-09-27 Meta Platforms, Inc. Using a low-bit-width dot product engine to sum high-bit-width numbers

Also Published As

Publication number Publication date
EP3842935A1 (en) 2021-06-30
US20210200549A1 (en) 2021-07-01

Similar Documents

Publication Publication Date Title
CN109791488B (zh) 用于执行用于复数的融合乘-加指令的***和方法
US10671392B2 (en) Systems, apparatuses, and methods for performing delta decoding on packed data elements
US20190114169A1 (en) Vector multiplication with accumulation in large register space
KR102463858B1 (ko) 벡터 인덱스 로드 및 저장을 위한 방법 및 장치
US9218182B2 (en) Systems, apparatuses, and methods for performing a shuffle and operation (shuffle-op)
KR102508075B1 (ko) 인덱스 및 즉치로 벡터 치환을 수행하기 위한 방법 및 장치
KR102462174B1 (ko) 벡터 비트 셔플을 수행하기 위한 방법 및 장치
CN106030514B (zh) 用于执行采用传播的被屏蔽源元素存储指令的处理器及其方法
CN107003845B (zh) 用于在掩码寄存器和向量寄存器之间可变地扩展的方法和装置
CN108415882B (zh) 利用操作数基础***转换和再转换的向量乘法
CN112711443A (zh) 用于执行16位浮点向量点积指令的***和方法
KR102460975B1 (ko) 벡터 비트 뒤집기를 수행하기 위한 방법 및 장치
CN115480730A (zh) 用于经融合的乘加的***、装置和方法
US11455167B2 (en) Efficient implementation of complex vector fused multiply add and complex vector multiply
CN108268279B (zh) 用于广播算术操作的***、装置和方法
US11934830B2 (en) Method and apparatus for data-ready memory operations
CN111352658A (zh) 用于在从存储器加载时在进行中转置向量的***和方法
KR102528073B1 (ko) 벡터 비트 수집을 수행하기 위한 방법 및 장치
CN114721624A (zh) 用于处理矩阵的处理器、方法和***
CN112988230A (zh) 用于将大约为一的浮点值相乘的指令的装置、方法和***
US10095517B2 (en) Apparatus and method for retrieving elements from a linked structure
KR102321941B1 (ko) 스핀-루프 점프를 수행하기 위한 장치 및 방법
EP3842935A1 (en) Systems, apparatuses, and methods for 512-bit operations
CN114327622A (zh) 用于转换16位浮点格式的指令的装置、方法和***
CN112988231A (zh) 用于将零的值相乘的指令的装置、方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination