CN100474235C

CN100474235C - 用于单指令/多数据指令的乘法积累单元

Info

Publication number: CN100474235C
Application number: CNB028196473A
Authority: CN
Inventors: S·斯特拉斯杜斯; Y·廖; A·杰布森; N·帕弗; D·邓
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2001-10-05
Filing date: 2002-10-03
Publication date: 2009-04-01
Anticipated expiration: 2022-10-03
Also published as: US20030069913A1; HK1065127A1; WO2003032187A2; KR100834178B1; DE60222163T2; DE60222163D1; CN1633637A; EP1446728A2; AU2002334792A1; JP4555356B2; EP1446728B1; JP2008217805A; KR20040048937A; US7107305B2; TWI242742B; WO2003032187A3; JP4584580B2; JP2005532601A; ATE371893T1

Abstract

用于执行单指令/多数据(SIMD)操作的紧耦合(tightly coupled)的双16位乘法积累(MAC)单元可促进到流水线中另一个操作的中间结果，以解决积累依存关系惩罚(accumulating dependency penalty)。该MAC单元也可被用来执行32位×32位操作。

Description

用于单指令/多数据指令的乘法积累单元

技术领域

本发明涉及乘法积累单元，有其涉及用于单指令/多数据指令的乘法积累单元。

背景技术

数字信号处理器(DSP)可用作SIMD(单指令/多数据)，或数据并行处理器。在SIMD操作中，单个指令被发送到许多处理元件，这些处理元件在不同的数据上执行相同的操作。SIMD指令提供用于几种类型的标准操作，这包括加法、减法、乘法、乘法积累(MAC)和许多用于执行如裁剪(clipping)和双线性内插操作这样的专用指令。

许多DSP应用，包括许多言语编解码器，需要高性能16位乘法积累(MAC)操作。为实现关于这些16位DSP应用的高性能，可引入64位SIMD指令。该64位SIMD指令可被用来更有效的处理媒体流并减少寄存器压力(registerpressure)及存储器通信量，这是由于4个16位数据项可一次被载入到64位寄存器中。

虽然对实现高性能而言，高吞吐量是重要的因素，但是在设计用于无线/手提式产品的DSP时，能量消耗也可能是重要的考虑因素。因此，我们也需要在DSP中使用能够具有高性能且低需要功率的MAC体系结构。

发明内容

本发明旨在解决上述技术问题。

根据本发明的一种方法，其特征在于，包含：在流水线中执行第一乘法积累操作中的第一压缩操作，其中所述执行第一压缩操作包含将第一多个部分乘积压缩为第一和向量与第一进位向量，并将第二多个部分乘积压缩为第二和向量与第二进位向量；在所述第一乘法积累操作中的第一压缩操作中生成两个或更多中间向量，其中所述两个或更多中间向量至少包括一个中间和向量和一个中间进位向量，其中所述第一与第二和向量以及所述第一与第二进位向量被压缩成所述中间和向量与中间进位向量；以及在所述流水线中将所述中间和向量和所述中间进位向量的每一个的至少一部分转发到第二乘法积累操作，其中所述第二乘法积累操作与所述第一乘法积累操作相分离。

根据本发明的一种方法，包含：在乘法积累操作的第一***树压缩阶段中，将第一多个部分乘积压缩成第一和向量与第一进位向量，以及将第二多个部分乘积压缩到第二和向量与第二进位向量；将所述第一和第二和向量以及所述第一和第二进位向量压缩成第一中间和向量与第一中间进位向量；以及在所述乘法积累操作的第二阶段中，压缩所述中间和向量与第三多个部分乘积，并压缩所述中间进位向量和第四多个部分乘积。

根据本发明的一种装置，包含：第一和第二***树压缩单元，用于在乘法积累操作的第一和第二阶段中压缩向量；压缩器，其作用为将所述乘法积累操作的所述第一阶段中来自所述第一和第二***树单元的多个向量输出压缩成两个中间向量，所述两个中间向量包括中间和向量和中间进位向量；以及从所述压缩器的输出到复用器的输入的数据通路，所述复用器可用于在所述乘法积累操作的所述第二阶段中，将所述中间向量的其中一个选择性地输入到所述第一和第二***树压缩单元的其中一个。

根据本发明的一种***，包含：静态随机地址存储器；以及与所述静态随机存取存储器联结的处理器，所述处理器包含双乘法积累单元，所述单元包括：第一和第二***树压缩单元，用于在乘法积累操作的第一和第二阶段中压缩向量；压缩器，其作用为将来自所述乘法积累操作的所述第一阶段中的所述第一和第二***树单元的多个向量输出压缩成两个中间向量，所述两个中间向量包括中间和向量与中间进位向量；以及从所述压缩器的输出到复用器的输入的数据通路，所述复用器可用于在所述乘法积累操作的所述第二阶段中，将所述中间向量的其中一个选择性的输入到所述第一和第二***树压缩单元的其中一个。

附图说明

图1是依照实施例的双乘法积累(MAC)单元的框图。

图2是依照实施例阐明MAC SIMD(单指令/多数据)操作的框图。

图3A到3C是依照实施例描述MAC SIMD操作的流程图。

图4A到4C是依照实施例阐明利用数据转发的流水线指令序列(pipelinedinstruction sequences)的框图。

图5A到5C是依照实施例阐明利用中间数据转发(intermediate dataforwarding)的流水线指令序列的框图。

图6A到6B是依照实施例描述在紧耦合的双16位MAC单元上执行的32位×32位MAC操作的流程图。

图7是依照实施例包括MAC单元的移动视频单元的框图。

具体实施方式

图1示出了依照实施例的乘法积累(MAC)单元100。该MAC单元100可被用来执行许多不同的SIMD(单指令/多数据)操作。

MAC单元100可具有紧耦合的双16位MAC体系结构。图2中概念地示出可由这样的MAC单元执行的16位MAC SIMD操作200。两个64位寄存器，202(wRn)和204(wRm)的内容可被视为4对16位数值，A₀-A₃(wRn)和B₀-B₃(wRm)。wRn的第一16位到第四16位分别与wRm的第一16位到第四16位相乘。然后，该4个相乘的结果P₀-P₃被加到64位寄存器206(wRd)的数值中，且该结果被发送到寄存器206。

可通过4个执行阶段来实现该MAC操作200：(1)进行B₁和B₀的工作台编码(booth encoding)和***树压缩；(2)进行B₃和B₂的工作台编码和***树压缩；(3)4到2(4-2)压缩，并将该结果的低32位相加；以及(4)将该结果的高32位相加。这4个阶段可被分别称作CSA0、CSA1、CLA0和CLA1阶段。

图3A到3C示出了依照实施例的描述该MAC操作200的实现300的流程图。在CSA0阶段中，MUX和工作台编码器单元(booth encoder unit)102选择B₀(16位)并对那些位进行编码(框302)。生成控制信号，每个这样的控制信号从集合{0，-A₀，-2A₀，A₀，2A₀}中选择部分乘积向量(partial product vector)。生成9个部分乘积向量，Pa0到Pa8，并将其传递到MUX阵列104(框304)。所有的9个部分乘积向量和寄存器206(wRd)中数值的低32位通过***树单元106而被压缩到两个向量中(框306)。该两个向量包括和向量与进位向量(carry vector)，它们分别被存储在和向量触发器(FF)108中和进位向量触发器110中。

MUX和工作台编码器单元112选择B₁(16位)并对那些位进行编码(框308)。生成控制信号，每个这样的控制信号从集合{0，-A₁，-2A₁，A₁，2A₁}中选择部分乘积向量。生成9个部分乘积向量，Pb0到Pb8，并将其传递到MUX阵列114(框310)。所有的9个部分乘积向量和零向量通过***树单元116而被压缩到两个向量中(框312)。该两个向量包括和向量与进位向量，它们分别被存储在和向量触发器118中和进位向量触发器120中。

在CSA1阶段中，来自CSA0阶段的和向量以及进位向量触发器108、110、118和120的4个向量通过MUX和4到2压缩器单元122被压缩到向量Vs₀和Vc₀中(框314)。MUX和工作台编码器单元102选择B₂(16位)并对那些位进行编码(框316)。生成控制信号，每个这样的控制信号从集合{0，-A₂，-2A₂，A₂，2A₂}中选择部分乘积向量。生成9个部分乘积向量(框318)。然后所有的9个部分乘积向量和向量Vs₀通过***树单元106而被压缩到两个向量中(框320)。该两个向量包括和向量与进位向量，它们分别被存储在和向量触发器108中和进位向量触发器110中。

MUX和工作台编码器112选择B₃(16位)，然后对那些位进行编码(框322)。生成控制信号，每个这样的控制信号从集合{0，-A₃，-2A₃，A₃，2A₃}中选择部分乘积向量。生成9个部分乘积向量(框324)。然后所有的9个部分乘积向量和向量Vc₀通过***树单元116而被压缩到两个向量中(框326)。该两个向量包括和向量与进位向量，它们分别被存储在和向量触发器118中和进位向量触发器120中。

在CLA0阶段，来自CSA1阶段的触发器108、110、118和120的4个向量被发送到该4到2压缩器单元122，以生成向量Vs₁和向量Vc₁(框327)。Vs₁和Vc₁的较低32位通过向前进位(CLA)(carry look-ahead)单元124相加以产生最后结果的低32位(框328)。

在CLA1阶段，将Vs₁和Vc₁的高位符号扩展成32位向量(框330)。该扩展的向量和wRd的高32位随后通过3到2压缩器单元126而被压缩到两个向量中(框332)。来自CLA0单元124的两个压缩的向量和进位输入(carry-in bit)通过CLA单元128相加，以产生最后结果的高32位(框334)。

如上所述，完成工作台编码和向量压缩要花费两个周期。在第一周期内，来自两个***树单元的结果被发送回来，以用于在第二周期内进一步处理。按照惯例，来自触发器108、110、118和120的所有四个向量将被发送回***树，以用于在第二周期内进一步处理。然而，我们已经注意到(it has beenobserved)MUX和4到2压缩器单元122与MUX和工作台编码器单元以及MUX阵列相比可更快的执行该向量的4到2压缩。这样，仅有来自MUX和4到2压缩器单元122的两个向量(Vs₀和Vc₀)被发送回***树单元106和116。通过这个体系结构，可减少反馈路由选择而且能使***树单元106、116相对较小。较少的反馈路由选择使该布局(layout)更简单，这一点是我们所需要的，因为路由选择限制是在MAC设计中的问题之一。

某些传统的MAC实现在一个周期内执行64位加法。然而，这样的MAC可能对频率非常高的64位数据通路不合适，而且其结果可能没有足够的时间通过旁路逻辑(bypass logic)返回，该旁路逻辑一般被用来解决流水线操作中的数据依存关系。与传统体系结构相比，图1中所示的双MAC体系结构可更容易的在频率非常高和低功率应用中实现。CLA1阶段可具有比CLA0阶段更少的逻辑门，这就允许最终结果有足够的时间通过旁路逻辑返回，从而使这个双MAC体系结构适合于高速和低功率64位数据通路。

MAC单元可用在流水线DSP中。可通过重叠其执行而改变相对指令计时(relative timing of instructions)的流水线操作与非流水线DSP相比，可增加DSP的吞吐量。然而，流水线操作可引入数据依存关系或者冒险，每当前一条指令的结果不可得到并且当前指令需要该前一条指令的结果时，这种情况就可能出现。当前操作在数据依存关系被解决之前，可在流水线中停止(stalled)。

通常，数据转发是基于操作的最后结果的。对许多DSP算法而言，前一个MAC操作的结果需要被加到当前MAC操作。然而，MAC操作可花费4个周期来完成，而且前一个MAC操作的结果对于当前MAC操作而言可能不是可用的。在此情况中，被称作积累依存关系(accumulating dependency)的数据依存关系就被引入了。

图4A—4C示出关于标准数据转发方案的积累依存关系惩罚。该标准转发方案被用来减少积累依存关系惩罚，其中EX402是关于其它非MAC指令的执行阶段。即使使用该标准数据转发，在最差的情况下，积累依存关系惩罚还是两个周期，这在图4A中示出(注意，尽管在CLA1阶段之后，最后结果为可用之前，有3个停止404，图4A中的第一停止404还是由***树单元中的资源冲突引起的，其不被认为是数据依存关系惩罚)。两个周期惩罚可能对某些DSP应用而言可能太苛刻了，因此需要消除积累依存关系惩罚。

MAC单元100可被用来实现新的数据转发方案，这个新的数据转发方案被称作中间数据转发，其可消除积累依存关系惩罚。与等待来自前一个操作的最后结果不同，中间数据转发方案促进中间结果以解决数据依存关系。图5A—5C阐明图4A—4C中示出的序列，但使用中间数据转发技术来实现。

如图5A—5C中所示，CSA0阶段500被分割成两个子阶段502(BE0)和504(WT0)，以分别对操作数B₀和B₁进行工作台编码和***树压缩。CSA1阶段506被分割成两个子阶段508(BE1)和510(WT1)，以分别对操作数B₂和B₃进行工作台编码和***树压缩。CLA0阶段512被分割成两个子阶段514(4T2)和516(ADD0)，以对应于向量的4到2压缩和最后结果的低32位加法。CLA1阶段518包括最后结果520的高32位加法(ADD1)。

在图5A和5B中所示的情况下，第一MAC指令的中间向量Vs、Vc的低32位可被转发到***树单元106和116以用于第二MAC指令，以解决积累依存关系。来自CLA1单元128的第一MAC指令的高32位结果被发到MUX和3到2压缩器单元126。图5A中的停止404是由***树资源冲突引起的，这并不被认为是数据依存关系惩罚。

在图5C中所示的情况下，当第二MAC指令需要第一MAC指令的最后结果时，该第一MAC指令的最后结果是不可用的，但是第一MAC指令的低32位结果是可用的。与等待最后结果不同，第一MAC指令的低32位结果被发到***树单元106，以解决积累依存关系。来自CLA1单元126的第一MAC指令的高32位结果被转发到MUC和3到2压缩器单元128。

表1中给出了图4A到4C中所示的标准数据转发技术与图5A到5C中所示的中间数据转发技术之间的积累数据依存关系惩罚比较。如表1中所示，中间数据转发可消除积累依存关系，其可为许多DSP应用实现较高的吞吐量。

	关于情况(A)的惩罚	关于情况(B)的惩罚	关于情况(C)的惩罚
	关于情况(A)的惩罚	关于情况(B)的惩罚	关于情况(C)的惩罚	标准数据转发	2个周期	2个周期	1个周期
中间数据转发	0个周期	0个周期	0个周期	标准数据转发	2个周期	2个周期	1个周期

表1

依照实施例，诸如图1中所示这样的紧耦合的双16位MAC单元可用于32位×32位指令以及16位SIMD指令。32位×32位操作可被分成4个16位×16位操作，如下面方程中所示：

A[31:0]×B[31:0]＝(A[31:16]×B[15:0]×2¹⁶+A[15:0]×B[15:0])+(A[31:16]×B[31:16]×2¹⁶+A[15:0]×B[31:16])×2¹⁶.

图6是依照实施例的描述32位×32位MAC操作600的流程图。在CSA0阶段中，由MUX和工作台编码器单元102生成A[15:0]×B[15:0]的部分乘积向量(框602)。***树单元106将该部分乘积向量压缩到两个向量中(框604)。该两个向量包括和向量与进位向量，它们分别被存储在和向量触发器108和进位向量触发器110中。由MUX和工作台编码器单元112生成A[31:16]×B[15:0]的部分乘积向量(框606)。***树单元116将该部分乘积向量压缩到两个向量中(框608)。该两个向量包括和向量与进位向量，它们分别被存储在和向量触发器118和进位向量触发器120中。

在CSA1阶段中，来自和向量触发器118和进位向量触发器120的两个向量被左移16位(框610)。MUX和4到2压缩器单元122将该经移位的向量以及来自和向量触发器108和进位向量触发器110的另外两个向量压缩到向量Vs₀和向量Vc₀中(框612)。Vs₀和Vc₀的低16位被发送到CLA0单元124。剩余位(remaining bits)被发送回***树单元106和116。然后，由CLA0单元124生成最后结果的位0到位15(框614)。然后，A[15:0]×B[31:16]的部分乘积向量以及来自Vs₀的反馈向量被***树单元106压缩到两个向量中(框616)。该两个向量包括和向量与进位向量，它们分别被存储在和向量触发器108和进位向量触发器120中。A[31:16]×B[31:16]的部分乘积向量以及来自Vs₀的反馈向量被***树单元116压缩到两个向量中(框618)。该两个向量包括和向量与进位向量，它们分别被存储在和向量触发器118和进位向量触发器120中。

在CLA0阶段，来自和向量触发器118和进位向量触发器120的两个向量被左移16位(框620)。MUX和4到2压缩器单元122将该经移位的向量以及来自和向量触发器108和进位向量触发器110的另外两个向量压缩到向量Vs₁和向量Vc₁中(框622)。向量Vs₁和Vc₁的低16位通过CLA0单元124相加。然后生成最后结果的位16到位31(框624)。

在CLA1阶段，向量Vs₁和Vc₁的高位(从位16到位47)通过CLA1单元128相加以产生高32位最后结果(从位32到位63)(框626)。

可在包括通用计算***、数字处理***、膝上型计算机、个人数字助理(PDA)和蜂窝电话在内的多种***中实现MAC单元100。在这样的***中，MAC单元可被包括在耦合至存储器设备的处理器中，该存储器设备诸如闪存设备或静态随机存取存储器(SRAM)，其保存操作***或其它的软件应用。

这样的处理器可被用在视频可携式摄像机、电话会议、PC视频卡以及高清晰度电视(HDTV)中。另外，该处理器可连同利用诸如用在移动通话、话音识别和其它应用中的语音处理这样的数字信号处理的其它技术来使用。

例如，图7示出了依照实施例的包括处理器701的移动视频设备700，该处理器701包括MAC单元100。移动视频装置700可为手提式设备，其显示从接收自天线702或诸如数字视频盘(DVD)或存储器卡这样的数字视频存储媒体704的已经编码的视频信号中生成的视频图像。处理器100可与高速缓冲存储器706进行通信，该高速缓冲存储器可存储关于处理器操作以及诸如SRAM 708这样的其它装置的指令和数据。

已经说明了许多实施例。然而应当理解，可进行各种修改而不背离本发明主旨和范围。例如，可跳过流程图中的框或者不按次序执行这些框，并仍旧产生需要的结果。进一步，在每SIMD指令上操作的操作数的大小和操作数的数量可以不同。因此，其它实施例落在所附权利要求的范围内。

Claims

1.一种方法，其特征在于，包含：

在流水线中执行第一乘法积累操作中的第一压缩操作，其中所述执行第一压缩操作包含将第一多个部分乘积压缩为第一和向量与第一进位向量，并将第二多个部分乘积压缩为第二和向量与第二进位向量；

在所述第一乘法积累操作中的第一压缩操作中生成两个或更多中间向量，其中所述两个或更多中间向量至少包括一个中间和向量和一个中间进位向量，其中所述第一与第二和向量以及所述第一与第二进位向量被压缩成所述中间和向量与中间进位向量；以及

在所述流水线中将所述中间和向量和所述中间进位向量的每一个的至少一部分转发到第二乘法积累操作，其中所述第二乘法积累操作与所述第一乘法积累操作相分离。

2.如权利要求1所述的方法，其特征在于，所述转发所述中间和向量和所述中间进位向量的每一个的至少一部分包含转发所述中间和向量和所述中间进位向量的每一个的低位部分。

3.如权利要求1所述的方法，其特征在于，所述转发包含将所述中间和向量和所述中间进位向量的每一个的至少部分转发到***树压缩单元。

4.一种方法，其特征在于，包含：

在乘法积累操作的第一***树压缩阶段中，将第一多个部分乘积压缩成第一和向量与第一进位向量，以及将第二多个部分乘积压缩到第二和向量与第二进位向量；

将所述第一和第二和向量以及所述第一和第二进位向量压缩成第一中间和向量与第一中间进位向量；以及

在所述乘法积累操作的第二阶段中，压缩所述中间和向量与第三多个部分乘积，并压缩所述中间进位向量和第四多个部分乘积。

5.如权利要求4所述的方法，其特征在于，所述乘法积累操作包含单指令/多数据SIMD操作。

6.如权利要求4所述的方法，进一步包含：

从第一对操作数产生第一多个部分乘积；

从第二对操作数产生第二多个部分乘积；

从第三对操作数产生第三多个部分乘积；以及

从第四对操作数产生第四多个部分乘积。

7.如权利要求4所述的方法，其特征在于，进一步包含在流水线中将所述中间和向量与所述中间进位向量转发到第二乘法积累操作。

8.如权利要求7所述的方法，其特征在于，所述转发包含消除所述第二乘法积累操作中的积累数据依存关系。

9.一种装置，其特征在于，包含：

第一和第二***树压缩单元，用于在乘法积累操作的第一和第二阶段中压缩向量；

压缩器，其作用为将所述乘法积累操作的第一阶段中来自所述第一和第二***树单元的多个向量输出压缩成两个中间向量，所述两个中间向量包括中间和向量和中间进位向量；以及

从所述压缩器的输出到复用器的输入的数据通路，所述复用器可用于在所述乘法积累操作的所述第二阶段中，将所述中间向量的其中一个选择性地输入到所述第一和第二***树压缩单元的其中一个。

10.如权利要求9所述的装置，进一步包含双乘法积累单元。

11.如权利要求9所述的装置，其特征在于，所述多个向量包含第一和第二和向量以及第一和第二进位向量。

12.如权利要求9所述的装置，其特征在于，所述压缩器包含4到2向量压缩器。

13.如权利要求9所述的装置，其特征在于，所述复用器包含具有与所述第一***树压缩单元联结的输出的第一复用器以及具有与所述第二***树压缩单元联结的输出的第二复用器。

14.一种***，其特征在于，包含：

静态随机地址存储器；以及

与所述静态随机存取存储器联结的处理器，所述处理器包含双乘法积累单元，所述单元包括：

压缩器，其作用为将来自所述乘法积累操作的所述第一阶段中的所述第一和第二***树单元的多个向量输出压缩成两个中间向量，所述两个中间向量包括中间和向量与中间进位向量；以及

从所述压缩器的输出到复用器的输入的数据通路，所述复用器可用于在所述乘法积累操作的所述第二阶段中，将所述中间向量的其中一个选择性的输入到所述第一和第二***树压缩单元的其中一个。

15.如权利要求14所述的***，其特征在于，所述复用器包括：具有与所述第一***树压缩单元联结输出的第一复用器以及具有与所述第二***树压缩单元联结输出的第二复用器。