CN102760117A

CN102760117A - 一种实现矢量运算的方法和***

Info

Publication number: CN102760117A
Application number: CN2011101088800A
Authority: CN
Inventors: 黎立煌; 华力; 林文琼
Original assignee: ZTE Corp
Current assignee: Shenzhen ZTE Microelectronics Technology Co Ltd
Priority date: 2011-04-28
Filing date: 2011-04-28
Publication date: 2012-10-31
Anticipated expiration: 2031-04-28
Also published as: WO2012145986A1; CN102760117B

Abstract

本发明公开了一种实现矢量运算的方法和***，均可通过三阶运算器的组合实现实数和复数矢量运算；其中，所述三阶运算器的第一阶段为两个乘法器，第二阶段为一个加法器，第三阶段为两个具有累加功能的加法器；通过所述三阶运算器实现实数和复数矢量运算的同时，应用所述三阶运算器实现FFT蝶形运算。本发明实现矢量运算的技术能够兼容实数和复数矢量运算，并同时支持高效率的快速傅里叶蝶形运算。所述实数和复数运算包括复数实数乘、加、乘加、乘累加等。由于在每个时钟能产生半个FFT蝶形，因此两个这种矢量运算单元每个时钟就能产生一个完整FFT蝶形。

Description

一种实现矢量运算的方法和***

技术领域

本发明涉及芯片设计技术，具体涉及一种实现矢量运算的方法和***。

背景技术

矢量处理器(vector processor)的最大特点就是能通过多个运算单元对多个数据进行并行运算。这些数据可以是实数，也可以是复数。矢量处理器的一个重要性能指标是数据吞吐率，因此如何在固定数量运算单元的基础上提高数据运算吞吐率，是个很热门的研究课题。

传统的矢量运算单元一般支持实数乘加、复数乘加、实数乘累加、复数乘累加，但是不同时支持高效率的快速傅里叶(Fast-Fourier Transform，FFT)蝶形运算。

发明内容

有鉴于此，本发明的主要目的在于提供一种实现矢量运算的方法和***，以便在兼容实数和复数矢量运算的同时，还能够支持FFT蝶形运算。

为达到上述目的，本发明的技术方案是这样实现的：

一种实现矢量运算的方法，该方法包括：

通过三阶运算器的组合实现实数和复数矢量运算；其中，所述三阶运算器的第一阶段为两个乘法器，第二阶段为一个加法器，第三阶段为两个具有累加功能的加法器；

通过所述三阶运算器实现实数和复数矢量运算的同时，应用所述三阶运算器实现FFT蝶形运算。

所述FFT蝶形运算是通过实部运算与虚部运算相结合实现的；

其中，

X1＝C+AB； (1a)

X2＝C-AB； (1b)

其中，A、B和C都是复数矢量，B是旋转因子。

所述实部运算的过程包括：

通过第一阶段的两个乘法器，计算出A的实部Ar与B的实部Br相乘的结果ArBr，以及A的虚部Ai与B的虚部Bi相乘的结果AiBi；通过第二阶段的加法器计算得到ArBr-AiBi并送入第三阶段的两个加法器，用于与C的实部Cr相加得到蝶形运算中一个分支的实部Cr+(ArBr-AiBi)，还用于相减以得到蝶形运算中另一个分支的实部Cr-(ArBr-AiBi)；

所述虚部运算的过程包括：

通过第一阶段的两个乘法器，计算出A的实部Ar与B的虚部Bi相乘的结果ArBi，以及A的虚部Ai与B的实部Br相乘的结果AiBr；通过第二阶段的加法器计算得到ArBi+AiBr并送入第三阶段两个加法器，用于与C的虚部Ci相加得到蝶形运算中一个分支的实部Ci+(ArBi+AiBr)，还用于相减以得到蝶形运算中另一个分支的虚部Ci-(ArBi+AiBr)。

所述累加，是通过将第三阶段中加法器的输出以循环反馈的方式重新输入该加法器实现的。

该方法进一步包括：

将第二阶段加法器输出端的一个寄存器分别分置到第三阶段两个加法器的输入端；和/或，

将第三阶段加法器输出端的两个寄存器分别反馈到第三阶段两个加法器的输入端。

一种实现矢量运算的***，该***包括三阶运算器，用于通过三阶运算器的组合实现实数和复数矢量运算；并且，在通过所述三阶运算器实现实数和复数矢量运算的同时，应用所述三阶运算器实现FFT蝶形运算；其中，

所述三阶运算器的第一阶段为两个乘法器，第二阶段为一个加法器，第三阶段为两个具有累加功能的加法器。

所述三阶运算器，具体用于通过实部运算与虚部运算相结合实现所述FFT蝶形运算；

其中，

X1＝C+AB； (1a)

X2＝C-AB； (1b)

其中，A、B和C都是复数矢量，B是旋转因子。

所述三阶运算器在进行实部运算时，具体用于：

所述三阶运算器在进行虚部运算时，具体用于：

所述三阶运算器的第三阶段，具体用于将其中加法器的输出以循环反馈的方式重新输入所述加法器，以实现所述累加。

所述第二阶段的加法器输出端的一个寄存器分别分置到第三阶段两个加法器的输入端；和/或，

所述第三阶段的加法器输出端的两个寄存器分别反馈到第三阶段两个加法器的输入端。

本发明实现矢量运算的方法和***，能够兼容实数和复数矢量运算，并同时支持高效率的FFT蝶形运算。

附图说明

图1为本发明一实施例的矢量运算单元原理示意图；

图2为本发明实施例中FFT蝶形运算的实部运算原理示意图；

图3为本发明实施例中FFT蝶形运算的虚部运算原理示意图；

图4为本发明又一实施例的矢量运算单元原理示意图；

图5为本发明另一实施例的矢量运算单元原理示意图；

图6为本发明实施例实现矢量运算的流程简图。

具体实施方式

为了使矢量运算单元在兼容实数和复数矢量运算的同时还支持高效率的快速傅里叶蝶形运算，可以进行如图1所示的设置。为了简化描述，图中只显示矢量运算单元用了三阶来实现。在实际的硬件设计与实现里，矢量运算单元可以采用不同的阶数来实现，其所需要的实现阶数取决于其最高操作频率和所采用的工艺。

具体而言，矢量运算单元的第一阶段为两个乘法器，第二阶段为一个加法器，第三阶段为两个具有累加功能的加法器，通过三阶运算器不同组合方式，可以兼容实数和复数矢量运算，并同时支持高效率的快速傅里叶蝶形运算。在图1所示的矢量运算单元中，第一阶段有两个乘法器，第二阶段有一个加法器，第三阶段有两个加法器。该运算单元有六个输入口：X0、Y0、Z0、X1、Y1、Z1，以及两个输出口：out0、out1。

表1显示矢量运算单元实现的矢量函数。在实部运算中，A0、A1为矢量A中的两个单元数据。B0、B1为矢量B中的两个单元数据。在复数运算中，Ar+jAi为矢量A的一个复数单元，Br+jBi为矢量B的一个复数单元，C＝Cr+jCi为矢量C的一个复数单元。

另外，在进行某些复数运算时(如：乘法，复数乘加，复数乘累加)，图1显示的矢量运算单元只能进行实部或者虚部运算。即在进行这些复数运算时，我们需要两个这种运算单元来完成一个完整复数单元运算。

表1

FFT蝶形运算可以描述如下：

X1＝C+AB； (1a)

X2＝C-AB； (1b)

其中，A、B和C都是复数矢量，B是旋转因子。

设：

A＝Ar+jAi；

B＝Br+jBi；

C＝Cr+jCi；

X1＝X1r+jX1i；

X2＝X2r+jX2i；

则由公式(1a)和(1b)组成的公式(1)可改写为：

X1r＝Cr+[Ar*Br-Ai*Bi]；

X2r＝Cr-[Ar*Br-Ai*Bi]； (2)

X1i＝Ci+[Ar*Bi+Ai*Br]；

X2i＝Ci-[Ar*Bi+Ai*Br]； (3)

需要说明的是，第三阶段中的加法器的累加功能，是通过将加法器的输出以循环反馈的方式重新输入该加法器实现的。

参见图2，图2实现了公式(1a)和(1b)的实部运算，即实现了一半的蝶形运算。

具体而言，图2完成FFT蝶形运算的实部运算，通过第一阶段的两个乘法器，计算出A的实部Ar与B的实部Br相乘的结果ArBr，以及A的虚部Ai与B的虚部Bi相乘的结果AiBi。通过第二阶段的加法器计算得到ArBr-AiBi并送入第三阶段的两个加法器，用于与C的实部Cr相加得到蝶形运算中一个分支的实部Cr+(ArBr-AiBi)，还用于相减以得到蝶形运算中另一个分支的实部Cr-(ArBr-AiBi)。

参见图2，图3实现了公式(1a)和(1b)的虚部运算，即实现了一半的蝶形运算。

具体而言，图3完成FFT蝶形运算的虚部运算，通过第一阶段的两个乘法器，计算出A的实部Ar与B的虚部Bi相乘的结果ArBi，以及A的虚部Ai与B的实部Br相乘的结果AiBr。通过第二阶段的加法器计算得到ArBi+AiBr并送入第三阶段两个加法器，用于与C的虚部Ci相加得到蝶形运算中一个分支的实部Ci+(ArBi+AiBr)，还用于相减以得到蝶形运算中另一个分支的虚部Ci-(ArBi+AiBr)。

可见，图2和图3必须合并起来才能实现整个蝶形运算。

需要说明的是，图4和图5显示了矢量运算单元基于三阶运算的其他实现方式，对第二阶段和第三阶段之间的寄存器进行了位置上的变动。其中，将图4中第二阶段加法器输出端的一个寄存器分别分置到第三阶段两个加法器的输入端；与此同时，还可以将图5中第三阶段加法器输入端的两个寄存器分别反馈到第三阶段两个加法器的输入端。

结合以上描述可知，本发明实现矢量运算的操作思路可以表示如图6所示的流程，该流程包括以下步骤：

步骤610：通过三阶运算器的组合实现实数和复数矢量运算；其中，第一阶段为两个乘法器，第二阶段为一个加法器，第三阶段为两个具有累加功能的加法器。

步骤620：通过所述三阶运算器实现实数和复数矢量运算的同时，应用所述三阶运算器实现FFT蝶形运算。

需要说明的是，步骤610与步骤620之间没有严格的时间先后顺序，可以并行进行。

综上所述可见，无论是方法还是***，本发明实现矢量运算的技术能够兼容实数和复数矢量运算，并同时支持高效率的快速傅里叶蝶形运算。所述实数和复数运算包括复数实数乘、加、乘加、乘累加等。由于在每个时钟能产生FFT的实部或虚部，因此两个这种矢量运算单元每个时钟就能产生一个完整FFT蝶形。这种FFT运算吞吐率是业界所有已知处理器或硬件加速器中最高的之一。

并且，在公式(1a)和(1b)中，乘法项A*B是共有的，因此可以利用该特点将公式(1a)和(1b)运算合并起来。在此过程中，乘法A*B只进行一次。使得每个FFT蝶形中就省了一个复数乘法。一个复数乘法实际上是需要四个实数乘法和两个实数加法实现的，因此所节省的设置面积和功耗是相当可观的。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种实现矢量运算的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述FFT蝶形运算是通过实部运算与虚部运算相结合实现的；

其中，

X1＝C+AB； (1a)

X2＝C-AB； (1b)

其中，A、B和C都是复数矢量，B是旋转因子。

3.根据权利要求2所述的方法，其特征在于，

所述实部运算的过程包括：

所述虚部运算的过程包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述累加，是通过将第三阶段中加法器的输出以循环反馈的方式重新输入该加法器实现的。

5.根据权利要求4所述的方法，其特征在于，该方法进一步包括：

6.一种实现矢量运算的***，其特征在于，该***包括三阶运算器，用于通过三阶运算器的组合实现实数和复数矢量运算；并且，在通过所述三阶运算器实现实数和复数矢量运算的同时，应用所述三阶运算器实现FFT蝶形运算；其中，

7.根据权利要求6所述的***，其特征在于，所述三阶运算器，具体用于通过实部运算与虚部运算相结合实现所述FFT蝶形运算；

其中，

X1＝C+AB； (1a)

X2＝C-AB； (1b)

其中，A、B和C都是复数矢量，B是旋转因子。

8.根据权利要求7所述的***，其特征在于，

所述三阶运算器在进行实部运算时，具体用于：

所述三阶运算器在进行虚部运算时，具体用于：

9.根据权利要求6至8任一项所述的***，其特征在于，所述三阶运算器的第三阶段，具体用于将其中加法器的输出以循环反馈的方式重新输入所述加法器，以实现所述累加。

10.根据权利要求9所述的***，其特征在于，