CN1633637A

CN1633637A - 用于单指令/多数据指令的乘法积累单元

Info

Publication number: CN1633637A
Application number: CNA028196473A
Authority: CN
Inventors: S·斯特拉斯杜斯; Y·廖; A·杰布森; N·帕弗; D·邓
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2001-10-05
Filing date: 2002-10-03
Publication date: 2005-06-29
Anticipated expiration: 2022-10-03
Also published as: US20030069913A1; DE60222163D1; US7107305B2; DE60222163T2; JP2005532601A; HK1065127A1; ATE371893T1; KR100834178B1; EP1446728A2; WO2003032187A2; EP1446728B1; WO2003032187A3; AU2002334792A1; JP2008217805A; JP4584580B2; JP4555356B2; TWI242742B; KR20040048937A; CN100474235C

Abstract

用于执行单指令/多数据(SIMD)操作的紧密结合(tightly coupled)的双16位乘法积累(MAC)单元可促进到流水线中另一个操作的中间结果，以解决积累依存关系惩罚(accumulating dependency penalty)。该MAC单元也可被用来执行32位×32位操作。

Description

用于单指令/多数据指令的乘法积累单元

背景

【0001】数字信号处理器(DSP)可用作SIMD(单指令/多数据)，或数据并行处理器。在SIMD操作中，单个指令被发送到许多处理元件，该处理元件在不同的数据上执行相同的操作。SIMD指令提供用于几种类型的标准操作，这包括加法、减法、乘法、乘法积累(MAC)和许多用于执行如裁剪(clipping)和双线性内插操作这样的专门指令。

【0002】许多DSP应用，包括许多言语编解码器，需要高性能16位乘法积累(MAC)操作。为获取关于这些16位DSP应用的高性能，可引入64位SIMD指令。该64位SIMD指令可被用来更有效的处理媒体流并减少寄存器压力(register pressure)及存储器流量，这是由于4个16位数据项可一次被载入到64位寄存器中。

【0003】虽然对获取高性能而言，高吞吐量是重要的因素，但是在设计用于无线/手提式产品的DSP时，能量消耗也可能是重要的考虑因素。因此，我们也需要在DSP中使用能够具有高性能且需要低能量的MAC体系结构。

附图简述

【0004】图1是依照实施例的双乘法积累(MAC)单元的框图。

【0005】图2是依照实施例阐明MAC SIMD(单指令/多数据)操作的框图。

【0006】图3A到3C是依照实施例说明MAC SIMD操作的流程图。

【0007】图4A到4C是依照实施例阐明利用数据转发的流水线指令序列(pipelined instruction sequences)的框图。

【0008】图5A到5C是依照实施例阐明利用中间数据转发(intermediate dataforwarding)的流水线指令序列的框图。

【0009】图6A到6B是依照实施例说明在紧密结合的双16位MAC单元上执行的32位×32位MAC操作的流程图。

【0010】图7是依照实施例包括MAC单元的可移动视频单元的框图。

详细说明

【0011】图1依照实施例阐明乘法积累(MAC)单元100。该MAC单元100可被用来执行许多不同的SIMD(单指令/多数据)操作。

【0012】MAC单元100可具有紧密结合的双16位MAC体系结构。图2中概念的示出可由这样的MAC单元执行的16位MAC SIMD操作200。两个64位寄存器，202(wRn)和204(wRm)的内容可被视为4对16位数值，A₀-A₃(wRn)和B₀-B₃(wRm)。wRn的第一16位到第四16位分别与wRm的第一16位到第四16位相乘。然后，该4个相乘的结果P₀-P₃被加到64位寄存器206(wRd)的数值中，且该结果被发送到寄存器206。

【0013】可通过4个执行阶段来实现该MAC操作200：(1)进行B₁和B₂的工作台编码(booth encoding)和***树压缩；(2)进行B₃和B₂的工作台编码(booth encoding)和***树压缩；(3)4到2压缩，并将该结果的低32位相加；以及(4)将该结果的高32位相加。这4个阶段可被分别称作CSA0、CSA1、CLA0和CLA1阶段。

【0014】图3A到3C依照实施例阐明描述该MAC操作200的实现300的流程图。在CSA0阶段中，MUX和工作台编码器单元(booth encoder unit)102选择B₀(16位)并对那些位(块302)进行编码。产生控制信号，每个这样的控制信号从集合{0，-A₀，-2A₀，A₀，2A₀}中选择部分乘积向量(partial productvector)。产生9个部分乘积向量，Pa0到Pa8，并将其传递到MUX阵列104(块304)。所有的9个部分乘积向量和寄存器206(wRd)中数值的低32位通过***树单元106(块306)而被压缩到两个向量中。该两个向量包括和向量与进位向量(carry vector)，它们分别被保存在和向量触发器(FF)108中和进位向量触发器110中。

【0015】MUX和工作台编码器单元112选择B₁(16位)并对那些位(块308)进行编码。产生控制信号，每个这样的控制信号从集合{0，-A₁，-2A₁，A₁，2A₁}中选择部分乘积向量。产生9个部分乘积向量，Pb0到Pb8，并将其传递到MUX阵列114(块310)。所有的9个部分乘积向量和零向量通过***树单元116(块312)而被压缩到两个向量中。该两个向量包括和向量与进位向量，它们分别被保存在和向量触发器118中和进位向量触发器120中。

【0016】在CSA1阶段中，来自和向量以及进位向量触发器108、110、118的4个向量以及来自CSA0阶段的120通过MUX和4到2压缩器单元122(块314)而被压缩到向量Vs₀和Vc₀中。MUX和工作台编码器单元102选择B2(16位)并对那些位(块316)进行编码。产生控制信号，每个这样的控制信号从集合{0，-A₂，-2A₂，A₂，2A₂}中选择部分乘积向量。产生9个部分乘积向量(块318)。然后所有的9个部分乘积向量和向量Vs₀通过***树单元106(块320)而被压缩到两个向量中。该两个向量包括和向量与进位向量，它们分别被保存在和向量触发器108中和进位向量触发器110中。

【0017】MUX和工作台编码器112选择B₃(16位)，然后对那些位(块322)进行编码。产生控制信号，每个这样的控制信号从集合{0，-A₃，-2A₃，A₃，2A₃}中选择部分乘积向量。产生9个部分乘积向量(块324)。然后所有的9个部分乘积向量和向量Vc₀通过***树单元116(块326)而被压缩到两个向量中。该两个向量包括和向量与进位向量，它们分别被保存在和向量触发器118中和进位向量触发器120中。

【0018】在CLA0阶段，来自触发器108、110、118的4个向量和来自CSA1阶段的120被发送到该4到2压缩器单元122，以产生向量Vs₁和向量Vc₁(块327)。Vs₁和Vc₁的较低32位与进位前向(CLA)(carry look-ahead)单元124相加以产生最后结果的低32位(块328)。

【0019】在CLA1阶段，Vs₁和Vc₁的高位是扩展到32位向量的符号(块330)。该扩展的向量和wRd的高32位然后通过3到2压缩器单元126而被压缩到两个向量中(块332)。来自CLA0单元124的两个压缩的向量和进位位(carry-in bit)通过CLA单元128相加，以产生最后结果的高32位(块334)。

【0020】如上所述，完成工作台编码和向量压缩要花费两个周期。在第一周期内，来自两个***树单元的结果被发送回来，以用于在第二周期内进一步处理。按照惯例，来自触发器108、110、118和120的所有四个向量将被发送回***树，以用于在第二周期内进一步处理。然而，我们已经注意到(it has been observed)MUX和4到2压缩器单元122与MUX和工作台编码器单元以及MUX阵列相比可更快的执行该向量的4到2压缩。这样，仅有来自MUX和4到2压缩器单元122的两个向量(Vs₀和Vc₀)被发送回***树单元106和116。通过这个体系结构，可减少反馈路由选择而且能使***树单元106、116较小。由于路由选择限制是在MAC设计中的问题，所以我们需要这一点，即较少的反馈路由选择使该布局(layout)更简单。

【0021】某些传统的MAC实现在一个周期内执行64位加法。然而，这样的MAC可能对频率非常高的64位数据通路不合适，而且其结果可能没有足够的时间通过旁路逻辑(bypass logic)返回，该旁路逻辑一般被用来解决流水线操作中的数据依存关系。与传统体系结构相比，图1中所示的双MAC体系结构可更容易的在频率非常高和低能量应用中实现。CLA1阶段可具有比CLA0阶段更少的逻辑门，这就允许最终结果有足够的时间通过旁路逻辑返回，这就使这个双MAC体系结构适合于高速和低能量64位数据通路。

【0022】MAC单元可用在流水线DSP中。可通过覆盖其执行而改变相对指令计时(relative timing of instructions)流水线操作与非流水线DSP相比，可增加DSP的吞吐量。然而，流水线操作可引入数据依存关系，或者冒险，每当前一条指令的结果不可得到时并且当前指令需要该前一条指令的结果时，这种情况就可能出现。当前操作在数据依存关系被解决之前，可在流水线中停止(stalled)。

【0023】通常，数据转发是基于操作的最后结果的。对许多DSP算法而言，前一个MAC操作的结果需要被加到当前MAC操作。然而，MAC操作可花费4个周期来完成，而且前一个MAC操作的结果对当前MAC操作而言可能不是可用的。既然这样(In this case)，被称作积累依存关系(accumulatingdependency)的数据依存关系就被引入了。

【0024】图4A-4C示出关于标准数据转发方案的积累依存关系惩罚。该标准转发方案被用来减少积累依存关系惩罚，那里EX 402是关于其它非MAC指令的执行阶段。即使我们使用该标准数据转发，在最差的情况下，积累依存关系惩罚还是两个周期，这在图4A中示出(注意，尽管在CLA1阶段之后，最后结果为可用之前，有3个停止404，图4A中的第一停止404还是由***树单元中的资源冲突引起的，其不被认为是数据依存关系惩罚)。两个周期惩罚可能对某些DSP应用而言可能太苛刻了，因此我们需要消除积累依存关系惩罚。

【0025】MAC单元100可被用来实现新的数据转发方案，这个新的数据转发方案被称作中间数据转发，其可消除积累依存关系惩罚。不是等待来自前一个操作的最后结果，而是中间数据转发方案促进中间结果以解决数据依存关系。图5A-5C阐明图4A-4C中示出的序列，但使用中间数据转发技术而被实现。

【0026】如图5A-5C中所示，CSA0阶段500被分割成两个子阶段502(BE0)和504(WT0)，以分别对操作数B₀和B₁进行工作台编码和***树压缩。CSA1阶段506被分割成两个子阶段508(BE1)和510(WT1)，以分别对操作数B₂和B₃进行工作台编码和***树压缩。CLA0阶段512被分割成两个子阶段514(4T2)和516(ADD0)，以对向量和最后结果的低32位加法进行4到2压缩。CLA1阶段518包括最后结果520的高32位加法(ADD1)。

【0027】在图5A和5B中所示的情况下，第一MAC指令的中间向量Vs、Vc的低32位可关于第二MAC指令被发到***树单元106和116，以解决积累依存关系。来自CLA1单元128的第一MAC指令的高32位结果被发到MUX和3到2压缩器单元126。图5A中的停止404是由***树资源冲突引起的，这并不被认为是数据依存关系惩罚。

【0028】在图5C中所示的情况下，当第二MAC指令需要第一MAC指令的最后结果时，该第一MAC指令的最后结果是不可用的，但是第一MAC指令的低32位结果是可用的。不是等待最后结果，而是第一MAC指令的低32位结果被发到***树单元106，以解决积累依存关系。来自CLA1单元126的第一MAC指令的高32位结果被发到MUC和3到2压缩器单元128。

【0029】表1中给出了图4A到4C中所示的标准数据转发技术和图5A到5C中所示的中间数据转发技术之间的积累数据依存关系惩罚比较。如表1中所示，中间数据转发可消除积累依存关系，其可允许关于许多DSP应用的较高的吞吐量。

	关于情况(A)的惩罚	关于情况(B)的惩罚	关于情况(C)的惩罚
	关于情况(A)的惩罚	关于情况(B)的惩罚	关于情况(C)的惩罚	标准数据转发	2个周期	2个周期	1个周期
中间数据转发	0个周期	0个周期	0个周期	标准数据转发	2个周期	2个周期	1个周期

表1

【0030】依照实施例，诸如图1中所示这样的紧密结合的双16位MAC单元可用于32位×32位指令以及16位SIMD指令。32位×32位操作可被分成4个16位×16位操作，如下面方程中所示：

A[31:0]×B[31:0]＝(A[31:16]×B[15:0]×2¹⁶+A[15:0]×B[15:0])+(A[31:16]×

B[31:16]×2¹⁶+A[15:0]×B[31:16])×2¹⁶.

【0031】图6是依照实施例说明32位×32位MAC操作600的流程图。在CSA0阶段中，由MUX和工作台编码器单元102产生A[15:0]×B[15:0]的部分乘积向量(块602)。***树单元106将该部分乘积向量压缩到两个向量中(块604)。该两个向量包括和向量与进位向量，它们分别被保存在和向量触发器108和进位向量触发器110中。由MUX和工作台编码器单元112产生A[31:16]×B[15:0]的部分乘积向量(块606)。***树单元116将该部分乘积向量压缩到两个向量中(块608)。该两个向量包括和向量与进位向量，它们分别被保存在和向量触发器108和进位向量触发器110中。

【0032】在CSA1阶段中，来自和向量触发器118和进位向量触发器120的两个向量被左移16位(块610)。MUX和4到2压缩器单元122将该移动的向量以及来自和向量触发器108和进位向量触发器110的另外两个向量压缩到向量Vs₀和向量Vc₀中(块612)。Vs₀和Vc₀的低16位被发送到CLA0单元124。剩余位(remaining bits)被发送回***树单元106和116。然后由CLA0单元124产生来自位0到位15的最后结果(块614)。然后，A[15:0]×B[31:16]的部分乘积向量以及来自Vs₀的反馈向量被***树单元106压缩到两个向量中(块616)。该两个向量包括和向量与进位向量，它们分别被保存在和向量触发器108和进位向量触发器120中。A[31:16]×B[31:16]的部分乘积向量以及来自Vs₀的反馈向量被***树单元116压缩到两个向量中(块618)。该两个向量包括和向量与进位向量，它们分别被保存在和向量触发器118和进位向量触发器120中。

【0033】在CLA0阶段，来自和向量触发器118和进位向量触发器120的两个向量被左移16位(块620)。MUX和4到2压缩器单元122将该移动的向量以及来自和向量触发器108和进位向量触发器110的另外两个向量压缩到向量Vs₁和向量Vc₁中(块622)。向量Vs₁和Vc₁的低16位与CLA0单元124相加。然后产生来自位16到位31的最后结果(块624)。

【0034】在CLA1阶段，向量Vs₁和Vc₁的高位(从位16到位47)与CLA1单元128相加以产生高32位最后结果(从位32到位63)(块626)。

【0035】可在包括通用计算***、数字处理***、膝上计算机、个人数字助理(PDA)和便携式电话在内的多种***中实现MAC单元100。在这样的***中，MAC单元可被包括在与存储器装置联结的处理器中，该存储器装置如闪速存储器装置或静态随机存取存储器(SRAM)，其保存操作***或其它的软件应用。

【0036】这样的处理器可被用在视频可携式摄像机、远程会议、PC视频卡以及高清晰度电视(HDTV)中。另外，该处理器可连同利用诸如用在移动电话学、语音识别和其它应用中的话音处理这样的数字信号处理的其它技术来使用。

【0037】例如，图7依照实施例阐明包括处理器701的移动视频装置700，该处理器701包括MAC单元100。移动视频装置700可为手提式装置，其显示从接收自天线702或诸如数字视频盘(DVD)或存储器卡这样的数字视频存储媒体704的已经编码的视频信号中产生的视频图像。处理器100可与高速缓冲存储器706进行通信，该高速缓冲存储器可保存关于处理器操作以及诸如SRAM 708这样的其它装置的指令和数据。

【0038】已经说明了许多实施例。然而应当理解的是在不背离本发明主旨和范围的前提下可进行不同的修改。例如，可跳过流程图中的块或者执行这些块时次序颠倒，并仍旧产生需要的结果。进一步，在每SIMD指令上操作的操作数的大小和操作数的数量可以不同。因此，其它的实施例在下面权利要求的范围内。

Claims

1.一种方法，其特征在于，包含：

在流水线中的第一乘法积累操作中执行第一压缩操作；

在所述第一乘法积累操作中的第一压缩操作中产生两个或更多的中间向量；以及

将至少部分所述两个或更多中间向量的每一个发到所述流水线中的第二乘法积累操作。

2.如权利要求1所述的方法，其特征在于，所述转发至少部分所述两个或更多中间向量的每一个包含转发每个所述两个或更多中间向量的较低部分(alower portions)。

3.如权利要求1所述的方法，其特征在于，所述执行所述第一压缩操作包含将第一多数部分乘积压缩到第一和向量与第一进位向量，并将第二多数部分乘积压缩到第二和向量与第二进位向量中。

4.如权利要求1所述的方法，其特征在于，所述产生两个或更多中间向量包含将所述第一和第二和向量以及所述第一和第二进位向量压缩到中间和向量与中间进位向量中。

5.如权利要求1所述的方法，其特征在于，所述转发包含将至少部分所述两个或更多中间向量的每一个发到***树压缩单元。

6.一种包含机器可读媒体的文章，其保存机器可执行指令，所述指令促使机器：

在流水线中的第一乘法积累操作中执行第一压缩操作；

7.如权利要求6所述的文章，其特征在于，促使所述机器转发至少部分所述两个或更多中间向量的每一个的所述指令包括促使所述机器转发所述两个或更多中间向量的每一个的较低数量位的指令。

8.如权利要求6所述的文章，其特征在于，促使所述机器执行所述第一压缩操作的所述指令包括这样的指令，该指令促使所述机器将第一多数部分乘积压缩到第一和向量与第一进位向量中，并将第二多数部分乘积压缩到第二和向量与第二进位向量中。

9.如权利要求6所述的文章，其特征在于，促使所述机器产生两个或更多中间向量的所述指令包括这样的指令，该指令促使所述机器将所述第一和第二和向量以及所述第一和第二进位向量压缩到中间和向量与中间进位向量中。

10.如权利要求6所述的文章，其特征在于，促使所述机器转发的所述指令包括促使所述机器将至少部分所述两个或更多中间向量的每一个发到***树压缩单元的指令。

11.一种方法，其特征在于，包含：

在乘法积累操作的第一***树压缩阶段中，将第一多数部分乘积压缩到第一和向量与第一进位向量中，以及将第二多数部分乘积压缩到第二和向量与第二进位向量中；

将所述第一和第二和向量以及所述第一和第二进位向量压缩到第一中间和向量与第一中间进位向量中；以及

在所述乘法积累操作的第二阶段中，压缩所述中间和向量与第三多数部分乘积，并压缩所述中间进位向量和第四多数部分乘积。

12.如权利要求11所述的方法，其特征在于，所述乘法积累操作包含单指令/多数据(SIMD)操作。

13.如权利要求11所述的方法，进一步包含：

从第一对操作数产生所述第一多数部分乘积；

从第二对操作数产生所述第二多数部分乘积；

从第三对操作数产生所述第三多数部分乘积；以及

从第四对操作数产生所述第四多数部分乘积。

14.如权利要求11所述的方法，其特征在于，进一步包含将所述中间和向量与进位向量发到流水线中的第二乘法积累操作。

15.如权利要求14所述的方法，其特征在于，所述转发包含消除所述第二乘法积累操作中的积累数据依存关系。

16.一种包含机器可读媒体的文章，其保存机器可执行指令，所述指令促使机器：

17.如权利要求16所述的方法，其特征在于，所述乘法积累操作包含单指令/多数据(SIMD)操作。

18.如权利要求16所述的文章，进一步包含这样的指令，该指令促使所述机器：

从第一对操作数产生所述第一多数部分乘积；

从第二对操作数产生所述第二多数部分乘积；

从第三对操作数产生所述第三多数部分乘积；以及

从第四对操作数产生所述第四多数部分乘积。

19.如权利要求16所述的文章，其特征在于，进一步包含促使所述机器将所述中间和向量与进位向量发到流水线中的第二乘法积累操作的指令。

20.如权利要求16所述的文章，其特征在于，促使所述机器转发的所述指令包括促使所述机器消除所述第二乘法积累操作中的积累数据依存关系的指令。

21.一种装置，其特征在于，包含：

第一和第二***树压缩单元，其作用为压缩乘法积累操作的第一和第二阶段中的向量；

压缩器，其作用为将来自所述乘法积累操作的所述第一阶段中的所述第一和第二***树单元的多数向量输出压缩到两个中间向量中；以及

从所述压缩器的输出到复用器的输入的数据通路，所述复用器可用于在所述乘法积累操作的所述第二阶段中，将其中一个所述中间向量选择性的输入到其中一个所述第一和第二***树压缩单元。

22.如权利要求21所述的装置，进一步包含双乘法积累单元。

23.如权利要求21所述的装置，其特征在于，所述多数向量包含第一和第二和向量以及第一和第二进位向量。

24.如权利要求21所述的装置，其特征在于，所述压缩器包含4到2向量压缩器。

25.如权利要求21所述的装置，其特征在于，所述复用器包含具有与所述第一***树压缩单元联结输出的第一复用器以及具有与所述第二***树压缩单元联结输出的第二复用器。

26.一种***，其特征在于，包含：

静态随机地址存储器；以及

与所述静态随机存取存储器联结的处理器，所述处理器包含双乘法积累单元，所述单元包括

第一和第二***树压缩单元，其作用为压缩乘法积累操作的第一和第二阶段的向量，

27.如权利要求21所述的***，其特征在于，所述复用器包含具有与所述第一***树压缩单元联结输出的第一复用器以及具有与所述第二***树压缩单元联结输出的第二复用器。

28.一种方法，其特征在于，包含：

同4个n位操作一样，在第一和第二2n位操作数上执行乘法积累操作。

29.如权利要求28所述的方法，其特征在于，所述执行包含：

从所述第一操作数的所述较低n位和所述第二操作数的所述较低n位产生部分乘积向量；

从所述第一操作数的所述高n位和所述第二操作数的所述较低n位产生部分乘积向量；

从所述第一操作数的所述高n位和所述第二操作数的所述高n位产生部分乘积向量；以及

从所述第一操作数的所述较低n位和所述第二操作数的所述高n位产生部分乘积向量。

30.如权利要求28所述的方法，进一步包含：

将从所述第一操作数的所述高n位和所述第二操作数的所述较低n位产生的所述部分乘积压缩到两个中间向量中；以及

将所述中间向量左移n位。

31.如权利要求28所述的方法，其特征在于，所述执行包含在紧密结合的双n位乘法积累单元上执行所述乘法积累操作。

32.如权利要求28所述的方法，其特征在于，n等于16。

33.一种包含机器可读媒体的文章，其保存机器可执行指令，所述指令促使机器：

34.如权利要求33所述的文章，其特征在于，促使所述机器执行的所述指令包括这样的指令，该指令促使所述机器：

35.如权利要求33所述的文章，进一步包含这样的指令，该指令促使所述机器：

将所述中间向量左移n位。

36.如权利要求33所述的文章，其特征在于，促使所述机器执行的所述指令包括促使所述机器在紧密结合的双n位乘法积累单元上执行所述乘法积累操作的指令。

37.如权利要求33所述的文章，其特征在于，n等于16。