CN1422402A

CN1422402A - 在通用处理器中有效多输入累加的最优化乘法器结构

Info

Publication number: CN1422402A
Application number: CN 01807694
Authority: CN
Inventors: R·科拉哥特拉; B·C·阿尔德里奇; W·C·安德森
Original assignee: Analog Devices Inc; Intel Corp
Current assignee: Analog Devices Inc; Intel Corp
Priority date: 2000-03-31
Filing date: 2001-04-02
Publication date: 2003-06-04
Also published as: WO2001075587A2; AU2001249767A1; EP1269308A2; WO2001075587A3; TW539989B

Abstract

在一个实施例中，描述了用于通用数字信号处理器(DSP)的双模式执行单元。执行单元可以起到在一个模式中的16×16乘法器和在另一个模式中的8－位加法树的作用。在乘法器结构的乘法器阵列中通过再使用预存算术逻辑单元(ALUs)来构造加法树结构。8－位加法树模式对执行用在数字视频处理中的各种密集计算算法，诸如运动搜索和空间插值算法特别有用。

Description

在通用处理器中有效多输入累加的最优化乘法器结构

背景技术

数字信号处理器(DSPs)常常用于各种多媒体应用，诸如数字视频，图象，和音频。DSPs能够操作数字信号创造和打开这样的多媒体文件。

MPEG-1，MPEG-2，MPEG-4和H.263是数字视频压缩标准和文件格式。这些标准通过存储一个图象画面到另一个的主要变化情况而不是存储每个完整画面，得到数字视频信号的高压缩比率。一些不同的技术可以用来进一步压缩视频信号。

在压缩中，DSP执行视频信号的各种操作。这些操作包括运动(motion)搜索和空间插值算法。其主要目的是测量相邻画面中图块(block)间的失真。这些操作需要密集计算和高的数据吞吐量。

标准的MPEG系列与多媒体应用和文件增长的带宽需求同步发展。每个标准的新版本提供改进得更好的算法，这些算法也对在MPEG顺从的视频处理设备中使用的DSPs安置了更多的处理需求。

视频处理设备制造商常常依赖于为在MPEG和H.263标准下的视频编码而定制的专用集成电路(ASIC)。但是，ASIC设计复杂，造价昂贵，并且在它们的应用中，比通用DSPs灵活性差。

附图说明

图1是根据本发明的一个实施例的包括双模式通用数字信号处理器(DSP)的视频处理器。

图2是如图1所示的执行单元示意图。

图3是示出图1中接着在执行单元中实施加法树模式的序列发生器总体步骤的流程示意图。

图4是示出图1中接着执行单元中实施乘法器模式的序列发生器总体步骤的流程示意图。

图5是在图1的执行单元中另一个加法树结构的示意图。

图6是根据本发明的另一个实施例的在执行单元中加法树结构的示意图。

在各个附图中相同的参考记号代表了相同的元件。

详细描述

依照一个实施例，用于通用数字信号处理器(DSP)的处理单元10可以至少在两个模式工作。在“标准”的乘法模式，处理单元可以起16×16乘法器的作用。在加法树模式，执行单元可以起用于累加多个被运算数的8-位加法树。

加法树适于执行在相对低的诸如8-位的位宽度数据流上的密集计算操作，于是可以用于在视频压缩格式的H.263和MPEG系列的视频信号处理。根据本实施例，通用DSP12是视频处理器5的一部分，它包括中央处理单元(CPU)7和用于存储视频处理算法和视频数据的存储装置9。

根据这个实施例，可以在通过和常规的通用DSPs共同的16×16乘法器结构中再使用预存算术逻辑单元(ALUs)来构造加法树模式的加法树结构。这提供了用较少的额外硬件在执行单元中的双模式操作。

图2更详细地示出双模式执行单元10。执行单元10可以包括两个主要输入乘法器(MUXs)14，两个次要输入MUXs 16，部分乘积发生器18，乘法器阵列20，两个中间寄存器22，两个中间MUXs 24，向量合并ALU 26，累加器28，累加器MUX30，输出寄存器32，和把由执行单元产生的总和输出到结果总线36的输出MUX 34。但是，本发明的范围不仅限于具有如图2示出所有元件的实施例。

执行单元10元件间的相互作用将通过结合在各种工作模式中的执行元件操作来描述。

可以由序列发生器100完成执行单元10的逻辑控制(图1)。序列发生器100从指令超高速缓冲存储器102中取指令并且发出控制信号来起动工作在各自模式中的必要元件。指令超高速缓冲存储器可以是编程的或是硬件化的。

在乘法器和加法树两个模式中，执行单元10从总线控制器106控制下的运算数总线104中接收两对16-位字。每对16-位字输入到主要MUXs 14中的一个。主要MUXs 14由序列发生器100控制来选择并且输出一个单一的16-位字。

图3示出实施加法树模式以后的序列发生器100总体步骤。

序列发生器100控制开关50输出16-位字，从主要MUXs 14输出到在方框200中的次要MUXs 16。在方框202和204中，控制每个次要MUX分别选择两个8-位字，被运算数A和B，以及C和D，并且被加到乘法器阵列20。

乘法器阵列20包括许多互相连接的布置在几个等级的ALUs 60。在典型的16×16乘法器中，乘法器阵列有7个等级的ALUs。

在二进制加法中，把两个n-位数字相加产生最大的(n+1)-位数字，附加位代表了新的二进制位置2⁽ⁿ⁺¹⁾。例如，把两个8-位数字相加产生一个9-位和，如下面方程所示：

1111111₂＝255₁₀

+111111112 ＝255₁₀

111111110₂＝510₁₀

8-位被运算数A和B可以直接输入到在方框206中的ALU 62并且在方框208中相加产生9-位部分和E。同样，被运算数C和D可以直接输入到在方框210中的ALU 64中并且在方框212中相加产生9-位部分和F。

9-位部分和E和F可以输出到在方框214和216中的ALU66，中并且在方框218中相加产生10-位和G。从在方框220中的乘法器阵列20中输出和G。

根据一个实施例，序列发生器100控制执行单元10绕过乘法器阵列20的乘法结构下游(例如ALU26和累加器28)，并且输出和G直接送到输出MUX34。这个实施例有利于诸如使用简单和的空间插值算法的视频编码操作

根据另一实施例，总和G通过中间寄存器22，中间MUX24，和向量合并ALU26送到存储总和的累加器28。然后把总和G送回累加器MUX30，并且从后面的加法操作中把10位总和G’输入向量合并ALU26。总和G和G’可以输出并且储存到累加器28。后面的10-位总和被加到累加器中的值中并且这个循环可以重复无数次。这个实施例有利于诸如使用累加操作的运动搜索算法的视频编码操作。

图4是示出在实施乘法器模式以后的序列发生器100总体指令的流程图。在方框300中，序列发生器100控制开关50来绕过次要MUXs，并且把作为被乘数I和J的16-位字输出到部分乘积发生器。部分乘积发生器18可以包括“与”逻辑门矩阵，各个逻辑门工作在16-位被乘数I的一位和16位被乘数J的一位。16-位被乘数的部分乘积16被送到在方框302中乘法器阵列20。在方框304中，把它们还原成两个32-位字，总和X与进位Y，其和等于部分乘积的和。通过中间MUXs24可以把X和Y送到中间寄存器22，并且加到向量合并ALU26来产生乘积Z。通过输出寄存器32和输出MUX34输出Z到总线36，或通过累加器28进行如上所述的涉及加法树模式的累加操作。较佳的是，向量合并ALU26是40-位ALU，它接纳在乘法和累加操作中的溢出。

使用在乘法器阵列中备有的ALUs可以实现其它的加法树结构。根据另一个实施例，如图5所示的有相同结构的执行单元可以实现双2-运算数加法树。

根据这个具体实施例，执行单元10被控制在旁路ALU66。为了进行如上所述的累加操作，各个9-位和E和F从乘法器阵列直接输出到输出MUX34或中间寄存器22。

除了在步骤208和212后输出总和S和F，序列发生器100执行图3所示的相同总体步骤。

图6示出又一个实施例，其中在乘法器阵列中使用了更复杂的加法树结构。次要MUX16用于各个16-位输入。

上面描述了图6中的左加法树结构1。可以理解右加法树结构2有相同的结构和操作。序列发生器100对各个加法树结构执行图3中的相同总体步骤。

各个次要MUX16从运算数总线102中输入的16-位字中选择两个8-位被运算数(图1)来产生被运算数A₁，B₁，C₁，和D₁。A₁和B₁在ALU中相加来产生9-位部分和E₁。同样，C₁和D₁在ALU中相加来产生9-位部分和F₁。E₁和F₁在ALU中相加来产生10-位和G₁。

换句话说，和G₁以及和G₂可以直接送到输出MUX34为了输出到结果总线36，或换一个方法，为了另一个额外操作和/或累加器操作而送到向量合并ALU26。

根据各种实施例结合执行单元的通用DSP是有益的。这样的DSP能够提供可以和ASIC相比的功能，这个功能要用已增加的通用灵活性的好处来支持运动搜索算法。这个功能把增加了的灵活性提供给用户，使得可16-位机器实施各种广泛的运动搜索和8-位图象处理算法。

可以如此使用这样的通用DSP，即不准备用作视频处理的乘积可容易地使加法树模式不起作用。

在几种应用中，乘法是用于数字信号处理，但可能是由DSP所执行的最慢的操作。在MPEG和H.263标准下的数字视频处理中执行的运动搜索和空间过滤算法是计算密集的，但在低的位-宽度数字上有相对简单的算法。本发明的双模式执行单元实施例有益地提供使用相同元件，乘法器阵列的两个操作。与ASIC方案相比***可以采用较的较低复杂性和较少的硅表面面积。

涉及图5和6描述的包括平行加法树结构的实施例特别适于需要基于数据结构的两维图像的双线性插值的操作。例如，这样的双线性操作用于空间低通过滤操作，颜色插值，和部分(fractional)象素运动搜索。

根据本发明的加法树也可以用于诸如绝对差值和(SAD)计算的低功率应用。SAD是用于测量一个视频序列中两个相邻图象间的失真测量来确定最佳匹配。SAD计算常常用于运动搜索操作。

如上所述，包括根据各种实施例的执行单元双模式DSP特别适于供采用MPEG-1/MPEG-2/MPEG-4/H.263的视频处理图像设备使用，以及对视频压缩目前虽没有被发现，但期待未来判定。

这样的通用DSP可望用于视频摄象机，远程电信会议，PC(个人计算机)视频卡和HDTV(高清晰度电视)。另外，通用DSP也可望供结合数字信号处理的其它技术使用，诸如用于移动电话中声音处理，语音识别，和其它应用。

已经描述了本发明的许多实施例。不过，可以理解在不背离本发明的精神和范围的情况下可以进行各种修改。因此，其它实施例包含在下面的权利要求的范围中。

例如，虽然这个申请描述了分半的分割，可以理解由“x”进行的任意分割是复杂的，其中x可以是2或其它任意数字。也只示出了16和8位的使用。本发明的范围并不限于运算数的位数。

Claims

1.一种装置，其特征在于，包括：

解码器，解码一条指示一项加法树操作的指令；

耦合到解码器的电路，且包括：

包括多个算术逻辑单元的乘法器阵列；以及

一个选择电路，从2n-位字中选择第一和第二被运算数，其中所述第一和第二被运算数有小于2n的位，并且

所述选择电路适于在乘法器阵列中，在所选的所述ALUs中的一个，相加第一和第二被运算数来产生第一总和。

2.如权利要求1所述的装置，其特征在于，其中所述第一和第二被运算数是n-位字。

3.如权利要求1所述的装置，其特征在于，其中n是8。

4.如权利要求1所述的装置，其特征在于，其中所述选择电路适于响应所述指令进行操作，

从第二2n-位字中选择第三运算数和第四运算数，其中所述第一和第二被运算数有小于2n的位，以及

在所选择的所述ALUs中的第二个中把所述第三和第四个n-位被运算数相加并且产生第二个总和。

5.如权利要求4所述的装置，其特征在于，其中所述第三和第四操作数是n-位字。

6.如权利要求4所述的装置，其特征在于，其中所述选择电路适于响应所述指令进行操作，在所选择的所述ALUs中的第三个中把第一个总和与第二个总和相加并且产生第三个总和。

7.如权利要求1所述的装置，其特征在于，其中所述选择电路适于响应指令进行操作，指定乘法器模式来

选择第一和第二2n-位被乘数，以及

把所述第一和第二2n-位被乘数相乘来产生4n-位乘积。

8.如权利要求1所述的装置，其特征在于，其中运算数选择器包括多路复用器。

9.一种视频处理器，其特征在于，包括：

中央处理单元(CPU)；

存储器，存储指令来执行视频编码操作；

耦合到所述CPU和所述存储器上的数字信号处理器并且包括执行单元，包括：

一种解码器，解码一条指示一条加法树操作的指令；并且

耦合到解码器上的第一电路，并且包括包含了多个算术逻辑单元(ALUs)的乘法器阵列，

所述第一电路包括一个元件，这元件响应所述指令，从2n-位字中选择第一和第二n-位被运算数，并且在乘法器阵列中，在所选ALUs一个中把所述第一和第二n-位被运算数相加来产生第一个总和。

10.如权利要求9所述的视频处理器，其特征在于，其中n等于8。

11.如权利要求9所述的视频处理器，其特征在于，其中所述第一电路响应指令操作指示一个乘法器模式来

选择第一和第二2n-位被乘数，以及

把所述两个2n-位被乘数相乘来产生一个乘积。

12.如权利要求9所述的视频处理器，其特征在于，进一步包括：

第一被乘数选择器，从至少一个第一2n-位字中选择所述第一被乘数；

第二被乘数选择器，从至少一个第二2n-位字中选择所述第二被乘数；

部分乘积发生器，从所述第一和第二2n-位被乘数中产生多个部分和；以及

加法器，把通过还原所述部分乘积在乘法器阵列中产生的两个4n-位字相加。

13.如权利要求9所述的视频处理器，其特征在于，其中执行视频编码操作的指令与MPEG标准一致。

14.如权利要求9所述的视频处理器，其特征在于，其中执行视频编码操作的指令包括执行运动搜索算法的指令。

15.如权利要求9所述的视频处理器，其特征在于，其中执行视频编码操作的指令包括执行空间插值算法的指令。

16.一种方法，其特征在于，包括：

在包括多个ALUs的乘法器阵列中把多个被运算数相加；

选择加法树模式；

从2n-位字中选择第一和第二被运算数；

在乘法器阵列中的第一个ALUs中把所述两个第一和第二被运算数相加；以及

从乘法器阵列中输出总和。

17.如权利要求16所述的方法，其特征在于，其中所述第一和第二被运算数有小于2n位。

18.如权利要求16所述的方法，其特征在于，进一步包括：

从第二2n-位字中选择第三和第四被运算数，所述第三和第四被运算数小于2n位；

在乘法器阵列的第二个ALUs中的一个把所述第三和第四个字相加；

在乘法器阵列的第三个ALU中把从所述第一ALU中的第一个和与从所述第二ALU中的第二个和相加。

19.如权利要求18所述的方法，其特征在于，其中所述第三和第四被运算数是n-位字。

20.如权利要求16所述的方法，其特征在于，进一步包括：

选择乘法器模式；

从至少一个第一2n-位字中选择第一2n-位被乘数；

从至少一个第二2n-位字中选择第二2n-位被乘数；

把所述第一和第二被乘数相乘产生一个乘积。

21.如权利要求16所述的方法，其特征在于，其中n是8。

22.如权利要求16所述的方法，其特征在于，进一步包括：

在加法树模式中执行运动搜索算法。

23.如权利要求16所述的方法，其特征在于，进一步包括：

在加法树模式中执行空间插值算法。

24.如权利要求16所述的方法，其特征在于，进一步包括：

在加法树模式中执行空间低通过滤算法。

25.一种机器可读的程序存储装置，其特征在于，包括使机器如下操作的指令：

在包括多个ALUs的乘法器阵列中对多个被运算数相加；

选择加法树模式；

从2n-位字中选择第一和第二被运算数；

在乘法器阵列中的第一ALUs中把所述第一和第二被运算数相加；以及

从乘法器阵列中输出一个总和。

26.如权利要求25所述的程序存储装置，其特征在于，所述第一和第二被运算数是n-位字。