CN112307421A

CN112307421A - 一种基4频率抽取快速傅里叶变换处理器

Info

Publication number: CN112307421A
Application number: CN202011134140.XA
Authority: CN
Inventors: 康凯; 黄哲; 吴韵秋; 赵晨曦; 刘辉华; 余益明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-02-02
Anticipated expiration: 2040-10-21
Also published as: CN112307421B

Abstract

本发明属于数字信号处理技术领域，涉及快速傅里叶变换处理器，具体提供一种基4频率抽取快速傅里叶变换处理器，用以解决现有基4顺序执行的流水线型结构FFT处理器的数据吞吐率低、运算时间长的问题。本发明采用顺序执行的流水线型结构，储存单元使用寄存器组的方式，在读写寄存器组的时候使用4组地址译码器和4组多路复用器，能够同时将蝶形运算计算出的四个结果同时写入和读取，从而极大的减少了一次FFT运算花费的时钟周期；与传统使用SRAM作为储存结构的FFT处理器相比，单次蝶形运算完成时钟周期数从8个周期缩短为1个周期完成，将整体FFT运算时间缩短为传统结构的1/4，极大地提高了FFT处理器的数据吞吐率与运算速度。

Description

一种基4频率抽取快速傅里叶变换处理器

技术领域

本发明属于数字信号处理技术领域，涉及快速傅里叶变换处理器，具体提供一种基4频率抽取快速傅里叶变换处理器。

背景技术

目前，快速傅里叶处理器的硬件实现结构主要有顺序结构、并列结构、阵列结构及流水线结构。具体来讲：

顺序结构(储存器结构)：顺序结构采用传统CPU计算FFT的方式，整个FFT运算模块只使用了一个蝶形运算单元；在FFT处理过程中，整个蝶形运算单元一直处于工作状态按照运算流图按顺序计算；使用了同址运算的方式计算N点FFT、输入、中间运算数据，运算结果共用一块储存单元；蝶形运算计算结果作为新的值会覆盖储存单元对应地址上的数据；这种结构是最节约资源的，但是计算需要的时钟周期数很多。

并列结构：计算N个点基R的FFT处理器需要

级，但使用并列结构只需要采样N/R个蝶形运算单元，每一级的运算过程并行独立，各级之间使用顺序执行；需要先用这N/R个蝶形运算单元并行计算完第一级后再开始完成第二级所有的蝶形运算；相对于顺序结构，大大提高处理速度，但是当N较大时，采用的蝶形单元数量较多，需要耗费大量资源。

阵列结构：阵列结构将并行结构并行的特点发挥到极致，需要使用

个并行运算单元；这种结构具有极高的运算速度，相对于并列结构需要等待计算完成后再重新输入数据，这种阵列结构可以无间断的向里面写入数据，提高了数据的吞吐量，但是这种结构牺牲了硬件的资源消耗，并且功耗较大。

流水线结构：流水线结构综合了以上几种结构的优点和缺点，典型的流水线结构FFT处理器结构如图1所示，具体为：每一级只需要一个蝶形单元，一共使用

个运算单元；每个蝶形单元执行N/R次蝶形运算，前一级计算结果储存到SRAM中，作为下一级蝶形单元的输入数据；由于使用流水线结构，使用该结构数据吞吐率远远高于顺序结构，与并行结构相同；在硬件资源上相比起并行结构使用较少，数据处理速度上也高于顺序结构，作为兼顾硬件资源和处理速度上，流水线结构使用的较为普遍。

常用的流水线结构分为顺序执行和延时结构两类，其中，顺序执行的基本原理为：向SRAM中写入待计算的数据，写入完成后开启第一级蝶形单元计算；第一级所有蝶形单元计算完成后，再开始第二级的蝶形单元计算，依次完成后级运算；同时当第一级计算完成以后可以再次输入新的一组数据，写入完成后可以重新开启一次第一级蝶形单元计算，以此进行流水线操作。延时结构支持数据连续输入，但相比起顺序执行的流水线型结构，控制较为复杂且需要增加延时单元的硬件资源消耗。

现有的基4顺序执行的流水线型结构FFT处理器，如图2所示，其储存模块使用双端SRAM；但是这样的结构有如下缺点：该结构中储存模块使用双端SRAM，双端SRAM相比单端的SRAM增加了异步读写的功能，这样可以分别在时钟CLK_WRITE和时钟CLK_READ的上升沿写入读出，通过改变读写时钟的相位可以使得，上一级计算的的结果存入SRAM后立刻传入到下一级的蝶形运算单元输入；减少了计算周期；但是如图3所示，由于SRAM在一个时钟周期上升沿只能向一个地址内写入或者读出，则使得将一组待运算的数据写入蝶形运算单元需要4个周期，而蝶形运算如果使用组合逻辑运算，而由于基4的蝶形运算单元计算结果同时有四个输出，那么采用这样的结构会导致原本同时计算出来的结果需要至少4个周期才能完全写入SRAM中；这样由于SRAM储存结构的读写时序，拖慢了整个***的运算速度，增加运算时间。

综上所述，现有快速傅里叶处理器的实现结构中，顺序结构的数据吞吐率低、运算需要的时间周期很长，并列结构和阵列结构使用的硬件资源太多，因此，大多数实际使用的结构是采用流水线结构；而现有顺序执行流水线结构中储存模块使用双端SRAM，由于SRAM在一个时钟周期上升沿只能向一个地址内写入或者读出，拖慢了整个***的运算速度，增加运算时间。

发明内容

本发明的目的在于针对解决现有基4顺序执行的流水线型结构FFT处理器的数据吞吐率低、运算时间长的问题，提供一种基4频率抽取快速傅里叶变换处理器；本发明采用顺序执行的流水线型结构，储存模块使用寄存器组的方式，在读写寄存器组的时候使用4组地址译码器和4组多路复用器，能够同时将蝶形运算计算出的四个结果同时写入和读取，从而极大的减少了一次FFT运算花费的时钟周期，即大幅提升运算速度。

为实现上述目的，本发明采用的技术方案为：

一种基4频率抽取快速傅里叶变换处理器，包括若干级运算单元；其特征在于，第k级运算单元包括：蝶形运算单元，第k级控制模块，第k级储存单元模块，第k级地址产生模块；其中，第k级储存单元模块由第k级实部寄存器组和第k级虚部寄存器组构成；第k-1级蝶形运算单元的计算结果实部和虚部分别同时写入第k级实部寄存器和第k级虚部寄存器组；所述写入的寄存器地址由第k级的地址产生模块在第k级控制模块控制下生成，每个时钟周期生成8个地址、对应实部和虚部各4个地址。

进一步的，所述实部寄存器组与虚部寄存器组结构相同，具体包括：地址译码模块、使能D锁存模块、D锁存器组模块、读出数据模块及写入数据译码模块；其中，地址总线ADD输入地址译码模块，由地址译码模块输出译码结果Decode，译码结果Decode与使能写WE输入使能D锁存器，由使能D锁存器生成使能信号D_LATCH_EN输入D锁存器组模块；译码结果Decode和数据总线DATA输入写入数据译码模块，由数据译码模块输出写入D锁存器组模块的数据DSAVE；所述D锁存器组模块生成数据D_LOCK，数据D_LOCK与译码结果Decode输入读出数据模块，由读出数据模块输出数据DOUT为读出结果；

所述地址译码模块采用4组地址译码器，针对第i组地址译码器(i＝1,2,3,4)，地址变量ADDi[3]、ADDi[2]、ADDi[1]、ADDi[0]组成16个最小项Q_im、m＝0,1,2,...,15，采用组合逻辑实现译码功能得到译码结果Decode(i,m)：Decode(i,m)＝Q_im；

所述使能D锁存模块根据译码结果Decode(i,m)生成使能D锁存器的信号D_LATCH_EN，其逻辑表达式为：

所述写入数据译码根据第i组地址译码器的译码结果为Decode(i,m)与第i组数据线DATAi[n]相与得第二级译码结果D(i,m,n)，n＝0,1；其逻辑表达式为：

D(i,m,n)＝DATAi[n]·Decode(i,m)；进而，将第二级译码结果D(i,m,n)通过逻辑或运算得到第m组写入数据DSAVE(m,n)，其逻辑表达式为：

所述D锁存器组由多个D锁存器构成、依次编号D_LATCH(n,m)，D锁存器D_LATCH(n,m)的OUT输出端输出数据D_LOCK(n,m)、D端口输入写入数据译码模块的输出数据DSAVE(m,n)、使能端口D_WE连接使能D锁存模块的输出信号D_LATCH_ENm；

所述读出数据模块输出结果DOUT，其第i组的输出结果DOUTi的逻辑表达式为：

本发明的有益效果在于：

本发明提供一种基4频率抽取快速傅里叶变换处理器，与传统使用SRAM作为储存结构的FFT处理器相比，单次蝶形运算完成时钟周期数从8个周期缩短为1个周期完成，将整体FFT运算时间缩短为传统结构的1/4，极大地提高了FFT处理器的数据吞吐率与运算速度。

附图说明

图1为典型的流水线结构FFT处理器结构图。

图2为现有的基4顺序执行的流水线型结构FFT处理器结构图。

图3为现有的FFT处理器蝶形单元数据读写时序图。

图4为基4频率抽取的FFT数据流图。

图5为基4频率抽取的FFT蝶形单元的数据流图。

图6为基4频率抽取的FFT蝶形单元的电路结构图。

图7为本发明的基4频率抽取快速傅里叶变换处理器结构图。

图8为本发明的FFT处理器蝶形单元数据读写时序图。

图9为本发明的FFT处理器使用的储存单元的总体框图。

图10为本发明的储存单元中D锁存器连接关系图。

图11为本发明的储存单元中D锁存器实现的电路图。

图12为本发明的储存单元中地址译码模块的连接关系图。

图13为本发明的储存单元中使能D锁存模块的连接关系图。

图14为本发明的储存单元中写入数据译码模块的连接关系图。

图15为本发明的储存单元中读出数据模块的连接关系图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本发明采用基4顺序执行的流水线型结构，基4频率抽取的FFT数据流图如图4所示，其中，蝶形单元的数据流图如图5所示、蝶形单元使用组合逻辑搭建，蝶形单元的电路结构如图6所示；本发明的核心在于优化储存单元结构，使计算所需的时钟周期数相比起传统结构减少到1/4，且将蝶形单元的利用率提高到100％；并且继承了顺序执行流水线型结构的易于控制的特点，更易于工程实现。

本实施例提供一种基4频率抽取快速傅里叶变换处理器，其结构如图7所示；该结构包括若干级运算单元，第k级运算单元包括：蝶形运算单元，第k级控制模块，第k级储存单元模块，第k级地址产生模块；其中，第k级储存单元模块由第k级实部寄存器组和第k级虚部寄存器组构成；第k-1级蝶形运算单元的计算结果实部和虚部分别同时写入第k级实部寄存器和第k级虚部寄存器组；所述写入的寄存器地址由第k级的地址产生模块在第k级控制模块控制下生成，每个时钟周期生成8个地址(实部和虚部各4个)；第k级运算单元的蝶形单元的计算结果实部和虚部分别同时写入第k+1级实部寄存器和第k+1级虚部寄存器组，依次类推；

其中，蝶形单元计算的时序图如图8所示，从图中可以看出完成一次完整蝶形运算(从上一级存储单元读入到写入下一级存储单元)只需要1个时钟周期；而传统的顺序执行的流水线结构的蝶形单元运算一组数据(从读入数据计算完成到写入输入数据)至少需要8个周期；

进一步的，上述实部寄存器组与虚部寄存器组结构相同，为了实现对寄存器组里4个不同地址里数据同时操作，本发明提供一种4路地址线、P位地址位宽、4路数据线、Q位数据位宽的寄存器组结构设计方案；为了方便阐述，本实施例中以16点FFT为例，地址位宽P设置为4、数据位宽Q设置为2。

具体的寄存器组的结构如图9所示，包括5个模块：地址译码模块、使能D锁存模块、D锁存器组模块、读出数据模块及写入数据译码模块；其中，地址总线ADD输入地址译码模块，由地址译码模块输出译码结果Decode，译码结果Decode与使能写WE输入使能D锁存器，由使能D锁存器生成使能信号D_LATCH_EN输入D锁存器组模块；译码结果Decode和数据总线DATA输入写入数据译码模块，由数据译码模块输出写入D锁存器组模块的数据DSAVE；所述D锁存器组模块生成数据D_LOCK；译码结果Decode和数据D_LOCK输入读出数据模块，由读出数据模块输出数据DOUT，即得到读出的结果。

更为具体的讲：

1.地址译码模块

地址译码模块通过实现译码得到译码结果，这些译码结果作为其他模块的输入数据，译码方案如下：第i路(i＝1,2,3,4)地址ADDi[3]、ADDi[2]、ADDi[1]、ADDi[0]，通过组合逻辑实现译码结果Decode(i,m)，m＝0,1,2,3,...,15。

地址变量ADDi[3]、ADDi[2]、ADDi[1]、ADDi[0]可以组成16个最小项，这里用Q_im来表示由地址变量组成的最小项，例如

Q_i15＝ADDi[3]·ADDi[2]·ADDi[1]·ADDi[0]

通过以下组合逻辑即可实现译码功能：

Decode(i,m)＝Q_im

其中，第i路的译码电路实现如图12所示；

举例说明地址译码器原理：

当地址ADD1＝2’b0000，ADD2＝2’b0001，ADD3＝2’b0010，ADD4＝2’b0011；

译码结果如下所示：

2.使能D锁存模块

使能D锁存模块的功能是根据地址译码模块的译码结果，生成使能D锁存器的使能信号D_LATCH_EN；如图13所示，具体的逻辑运算关系如下：

3.写入数据译码

写入数据译码模块如图14所示，具体实现逻辑关系如下：

第i(i＝1,2,3,4)组地址译码器的第m个(m＝0,1,2,3,...,15)的第一级译码结果为Decode(i,m)，分别与第i组数据线DATAi[n]相与得第二级译码结果D(i,m,n)，这里数据位宽Q设置为2、所以n＝0,1；

D(i,m,n)＝DATAi[n]·Decode(i,m)

将得到的第二级译码结果通过逻辑或运算得到第m组写入数据DSAVE(m,n)：

4.D锁存器组模块

D锁存器组由多个D锁存器构成，将D锁存器编号(n,m)，其中，n＝1,2；m＝0,1,2,3,...,15；D锁存器D_LATCH(n,m)的OUT输出端输出D_LOCK(n,m)，D端口输入写入数据译码模块的输出数据DSAVE(m,n)，使能端口D_WE连接使能D锁存模块的输出使能信号D_LATCH_ENm；

具体的D锁存器组之间的连接关系如图10所示，D锁存器为最基础的数据储存单元，是实现储存数据的基本单元，其内部结构如图11所示，D_WE为使能读写端，D为输入的写入数据端，OUT为读出数据端；

当D_WE＝1时，可向锁存器从D端口写入数据；

当D_WE＝0时，将储存数据读出到OUT端口：

S＝D·D_WE

当D_WE＝0时，S、R为0，电路稳定，OUT端口可以输出之前储存的值；

当D_WE＝1，S＝D，

当电路稳定时，OUT＝D，即从D端口写入了1bit数据。

5.读出数据模块

读出数据模块如图15所示，其中，D_LOCK和Decode的具体连接关系为：第i组(i＝1,2,3,4)的输出结果DOUTi的逻辑表达式为：

本发明FFT处理器的流水线结构使用的储存模块采用的是寄存器组来储存，通过设置4组地址译码器和4组多路复用器，将蝶形运算过程中数据读写的交换过程从8个周期压缩到1个周期完成，大大减少了一次FFT运算需要的时钟周期。

在运行速度方面，以16点FFT运算为例，使用传统的流水线顺序执行的结构中，完全计算每一级从读取到计算完成再到写入SRAM的整个过程中，需要经过20个周期(读取16个点需要16个周期，写入SRAM需要延时4个周期)，由于每组数据读入需要4个周期，则每四个周期蝶形运算才计算出结果，这样蝶形单元的利用率只有25％；且两级完全计算完成需要40个周期，加上串行输入数据的时间需要16周期，则一共需要56个周期完成运算；而在本发明中，16点FFT运算4个数据一组输入，一个周期能够运算完成，需要经过4个周期就能够将一级的蝶形单元完全计算完成，这样两级完全计算完成只需要8个周期即可，加上输入数据的时间，一共需要24个周期完成运算，而储存单元的使用并没有增加，并且提高了蝶形单元的利用率到了100％。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基4频率抽取快速傅里叶变换处理器，包括若干级运算单元；其特征在于，第k级运算单元包括：蝶形运算单元，第k级控制模块，第k级储存单元模块，第k级地址产生模块；其中，第k级储存单元模块由第k级实部寄存器组和第k级虚部寄存器组构成；第k-1级蝶形运算单元的计算结果实部和虚部分别同时写入第k级实部寄存器和第k级虚部寄存器组；所述写入的寄存器地址由第k级的地址产生模块在第k级控制模块控制下生成，每个时钟周期生成8个地址、对应实部和虚部各4个地址。

2.按权利要求1所述基4频率抽取快速傅里叶变换处理器，其特征在于，所述实部寄存器组与虚部寄存器组结构相同，具体包括：地址译码模块、使能D锁存模块、D锁存器组模块、读出数据模块及写入数据译码模块；其中，地址总线ADD输入地址译码模块，由地址译码模块输出译码结果Decode，译码结果Decode与使能写WE输入使能D锁存器，由使能D锁存器生成使能信号D_LATCH_EN输入D锁存器组模块；译码结果Decode和数据总线DATA输入写入数据译码模块，由数据译码模块输出写入D锁存器组模块的数据DSAVE；所述D锁存器组模块生成数据D_LOCK，数据D_LOCK与译码结果Decode输入读出数据模块，由读出数据模块输出数据DOUT为读出结果；

所述地址译码模块采用4组地址译码器，针对第i组地址译码器(i＝1,2,3,4)，地址变量ADDi[3]、ADDi[2]、ADDi[1]、ADDi[0]组成16个最小项Q_im、m＝0,1,2,3,...,15，采用组合逻辑实现译码功能得到译码结果Decode(i,m)：Decode(i,m)＝Q_im；