CN101082906A

CN101082906A - 一种低存储器开销的固定基fft处理器及其方法

Info

Publication number: CN101082906A
Application number: CN 200610012048
Authority: CN
Inventors: 王江; 黑勇; 仇玉林
Original assignee: Institute of Microelectronics of CAS
Current assignee: Institute of Microelectronics of CAS
Priority date: 2006-05-31
Filing date: 2006-05-31
Publication date: 2007-12-05

Abstract

本发明涉及无线通讯技术领域，特别是一种操作数无冲突生成的低存储器开销的固定基FFT处理器及其方法。引入8个循环移位寄存器，将存储器划分为8个存储体，8个操作数并行访问，同时对于每帧的输入计数寄存器按帧交替按照大端、小端译码模式，实现本帧时域点输入和上帧频域点输出共享同一存储器，蝶算单元需要的8个操作数的地址由大端、小端译码模式产生，并且8个操作数分散在8个不同的存储体中，可以并行访问。步骤如下：FFT处理器初始化完成；第一帧时域数据并行读取操作数；运算存储器的数据进入蝶算单元；蝶算单元的数据进入复数乘法单元；第二帧时域数据输入I/O存储器；第三帧时域数据数据写入，两者共享I/O存储器。

Description

一种低存储器开销的固定基FFT处理器及其方法

技术领域

本发明涉及无线通讯技术领域，特别是一种操作数无冲突生成的低存储器开销的固定基FFT处理器及其方法。

背景技术

当FFT(快速傅立叶变换Fast Fourier Transformation)进行原位运算时，具有最小的存储体开销，如N点数据进行FFT，不考虑输入输出，则只需N字节存储器。若考虑输入输出，常规架构需要3N字节的存储器，分别为输入RAM，运算RAM，输出RAM，这三个缓存存储器一直轮换，即可以保证FFT进行连续运算，即每帧无间断输入输出，该方法可以在FFT处理器内部倍频获得高的数据吞吐量。

OFDM(正交频分复用)是一种多载波调制，具有频谱利用率高、抗多径干扰与频率选择性衰减能力强等优点，在无线通信中获得了广泛的应用。无线局域网(WLAN)IEEE802.11a标准即采用OFDM作为物理层的调制和复用技术。

针对移动无线通信设备应用，这里提出了一种低存储器开销，可以进行连续FFT处理的算法和相应架构。该算法的核心是操作数并行无冲突地址产生，以及紧凑压缩存储器读写时序，该架构运算速度提高，并且只需要2N字节存储器，相对于无优化的3N字节存储器，缩减为66.7％，采用该方法可以设计出低存储器开销(存储器开销：指处理器内部使用的SRAM存储器的字节数)的FFT处理器IP硬核，有利于减小SoC芯片面积。

操作数：1965年，Cooley-Tukey两位学者提出了FFT算法，顺序输入FFT处理器的数据经抽取后，输入蝶算单元进行复数乘法、累加，本说明书将输入蝶算单元的数据称为操作数。

存储器交织架构以及操作数无冲突生成：输入FFT处理器的数据均存储在SRAM存储器中，一个SRAM存储器可以由多个存储体构成，存储器对应页面地址，存储体对应块地址，每个存储体内的地址称为点地址(对于基-8FFT处理器，一个存储器划分为8个存储体)，通过以上划分方法，得到存储器交织架构，增大了存储器的带宽，即在一个时钟周期可以并行读取(或存储)多个操作数，如果不进行存储器交织，一个时钟周期只能并行读取(或存储)一个操作数。

发明内容

本发明的目的在于提供一种低存储器开销的固定基FFT处理器及其方法。特别是一种操作数无冲突生成的低存储器开销的固定基FFT处理器及其方法。

这里提出的基8FFT架构含有两个SRAM存储器(一种全同步、全静态的随机访问存储器)，分别为I/O共享存储器，FFT运算存储器，每个存储器都分为8块存储体，每个存储体对应一个块地址，以十进制数表示为0，1，...，7。每个存储体内均有8个字节，其地址定义为点地址，以十进制数表示为0，1，...，7。每个字节的地址由块地址、点地址共同表征。对于每帧输入的数据，按时间序列进行标记，依次为0，1，2，...，63，输入输出共用一个6位累加寄存器IO_CNT_REG计数，溢出值为111111。图1中的输入序列1写入地址按照图2.a进行译码，数据依次写入I/O共享存储器的8个存储体中。输入序列1写入完成后，进行按频域抽取FFT运算，采用下面的算法并行访问存储体。

一种操作数无冲突生成的低存储器开销的固定基FFT处理器，引入8个循环移位寄存器，并将存储器划分为8个存储体，实现8个操作数并行访问，同时对于每帧的输入计数寄存器按帧交替按照大端、小端译码模式，实现本帧时域点输入和上帧频域点输出共享同一存储器，蝶算单元需要的8个操作数的地址由大端、小端译码模式产生，并且8个操作数分散在8个不同的存储体中，可以并行访问。

所述的操作数无冲突生成的低存储器开销的固定基FFT处理器，输入序列以64点为单位交替按照大端、小端译码模式产生写入地址，该地址与输出序列完全一样，可以实现输入输出共享同一存储器。

所述的操作数无冲突生成的低存储器开销的固定基FFT处理器，输入时域点顺序，输出时域点也为顺序。

附图说明

图1是64点操作数地址生成及FFT数据流图。

图2是IO_CNT_REG译码模式示意图。

图3是SRAM访问时序图。

图4是存储器开销对比示意图。

图5是对角线无冲突寻址模式示意图。

图6是操作数无冲突生成的低存储器开销的固定基FFT处理器内部硬件结构及工作步骤图。

图7是低存储器开销的固定基FFT处理器工作方法流程图。

具体实施方式

FFT处理器整体采用同步电路的经典设计方法，即采用组合逻辑、时序逻辑电路实现所有的功能，组合逻辑包括地址译码，存储器轮换的控制，蝶算，复数乘法等，时序逻辑在硬件上对应D触发器。

FFT运算模块具有8个移位寄存器以遍历所有的操作数(64个)，该寄存器的位宽为6位，第一、二级FFT均完成8次蝶算，以J表示，J＝000，001，...，111，对于每一个J，均有8个操作数并行输入进行蝶算，这8个操作数需要放在不同的存储体中，以并行读取。同时，第一级蝶算按照间隔8抽取，第二级蝶算按照间隔1抽取，则移位寄存器中必须包含级数I的信息，在第一级，对于同一个J的3位二进制码，置于移位寄存器的低三位，而8个操作数在蝶算单元输入端的顺序位(000-111)置于移位寄存器的高三位，则满足了与同一个J对应的蝶算单元中每一个操作数的抽取间隔为8；在第二级，对于同一个J的3位二进制码，置于移位寄存器的高三位，而8个操作数在蝶算单元输入端的顺序位(000-111)置于移位寄存器的低三位，则满足了与同一个J对应的蝶算单元中每一个操作数的抽取间隔为1。因此，构造一个循环移位寄存器，其译码用于遍历各级的各个蝶算，每个蝶算单元并行输入的8个操作数的地址可以由下面8个循环移位寄存器译码生成：

CIR_0_REG(8*J+000，3*I)，

CIR_1_REG(8*J+001，3*I)，

CIR_2_REG(8*J+010，3*I)，

CIR_3_REG(8*J+011，3*I)，

CIR_4_REG(8*J+100，3*I)，

CIR_5_REG(8*J+101，3*I)，

CIR_6_REG(8*J+110，3*I)，

CIR7_REG(8*J+111，3*I)，

J＝000，001，...，111.I＝1，0.(或者I＝0，1).

I交替取1，0或者0，1，即对于第一帧数据FFT处理，I取1，0，对于第二帧，I取0，1，一直交替进行。式中8*J+xxx表示将J的二进制码左移3位，然后低三位分别加上000，001，...，111。当I＝1时，循环左移3位，即高三位移入低三位，低三位移入高三位；当I＝0时，不移位。

8个循环移位寄存器的高三位与低三位输入模8加法器，得到3位的块地址(000-111)，用以并行命中存储器的8个存储体，点地址为移位寄存器的高三位，译码方式与图2.a相同，区别在于IO_CNT_REG仅是一个累加计数寄存器，没有移位。

对图2，大端译码模式：在生成点地址时，点地址由IO_CNT_REG的高位译码生成。

小端译码模式：在生成点地址时，点地址由IO_CNT_REG的低位译码生成。

对于输入输出，当按照图2.a大端译码模式进行译码时，第一、二级蝶算I分别取1，0，当按照图2.b小端译码模式进行译码时，第一、二级蝶算I分别取0，1。即CIR_0_REG，CIR_1_REG，......，CIR_7_REG的循环方式由IO_CNT_REG的译码方式决定。

若将同一块地址对应的8个字节看作一行，而将同一点地址对应的8个字节看作一列，则对IO_CNT_REG按照图2译码后，顺序输入输出的数据在I/O共享存储器的8个存储体中具有与对角线平行的分布模式，如图5所示。对8个循环移位寄存器进行译码，操作数地址在FFT运算存储器的8个存储体中也具有与对角线平行的分布模式。因此可以进行对角线存储模式下的无冲突操作数并行访问。

64点基-8FFT数据流如图1所示，为清晰起见，第一级只画了第一个基-8蝶算单元。采用按频域抽取，即输入序列1为顺序时域点输入，FFT原位运算完成后，相应原位地址为按基8的倒序频域点数据。如图1中宽体下划线标记所示，对于输入序列1中的时域点5，IO_CNT_REG对应的二进制码为000101，按照图2.a译码，块地址与点地址分别为5，0，FFT运算完成后，该地址存放的数为输出序列1中的频域点40，二进制码为101000，为IO_CNT_REG高三位与低三位交换后对应的十进制数。

如果在读出输出序列1(第一帧输入数据FFT运算结果)时，同时原位写入输入序列2(第二帧待FFT运算的数据)，即可实现输出输入存储器共享。在开始输入序列2时，IO_CNT_REG从000000开始计数，将IO_CNT_REG按照图2.b译码，用作读出输出序列1的地址和写入输入序列2的地址，输出序列1的频域点即可按照顺序方式依次读出，而输入序列2按照顺序方式原位写入。写入后，对输入序列2进行FFT运算。差别在于：进行FFT运算时，输入序列1对应I＝1，0，输入序列2对应I＝0，1，输入序列3对应I＝1，0，......，一直交替进行。按照上述算法，对于任一帧输入数据，均实现了FFT第一级运算按照间隔8抽取，FFT第二级运算按照间隔1抽取，输入时域点与输出频域点均为顺序。

设地址表示格式为(块地址/点地址)，对于输入序列2的时域点20，21，22，23，24，25，26，27，按照图2.b译码得到写入地址分别为(6/4)，(7/5)，(0/6)，(1/7)，(3/0)，(4/1)，(5/2)，(6/3)，这些地址存储的数据改写前为输出序列1的频域点20，21，22，23，24，25，26，27，对应关系如图1中方框标记所示。

采用上述无冲突地址生成算法之后，即可紧凑压缩存储器读写时序。

表1 SRAM信号说明表(注：32位包含操作数的实部，虚部)

SRAM信号	方向	说明
SRAM信号	方向	说明	CLKCENWENA	输入输入输入输入3位	***时钟SRAM选中，低有效写入使能，低有效地址

DQOEN

输入32位输出32位输入

待写入的数据与地址对应的存储单元数据输出使能，短接信号地

本设计采用的SRAM存储体信号说明见表1，其中CEN端连接块地址译码结果，用以命中该存储体。

访问时序如图3所示，当地址有效时，WEN为低，CLK上升沿时对D采样，在延时Ta之后，数据DATA写入该地址对应的存储单元，Q在Ta之后发生改变。因此在CLK上升沿，如果同时也对Q采样，则可保证在地址ADD对应的存储单元写入数据DATA前，该存储单元上一时钟上升沿读出的数据已经被采样。采用上述方法后，输入输出存储器共享，减小了存储器开销。这里提出的FFT处理器只需要2N字节存储器，在存储器开销上节省了33.3％。

图4.a为常规架构存储器开销所需存储器框图。

图4.b为本发明提出的架构存储器开销，优化算法后所需存储器框图。

图5是对角线无冲突寻址模式示意图，以J＝0为例，第0，8，16，24，32，40，48，56点分布在存储体0-7中，可以无冲突的并行读出这8个操作数。

图6是操作数无冲突生成的低存储器开销的固定基FFT处理器内部硬件结构及工作步骤。

低存储器开销的固定基FFT处理器由控制逻辑部件1、运算RAM存储器2、网络3、蝶算单元4、旋转因子复数乘法单元5、旋转因子ROM6、I/O共享RAM存储器7组成，控制逻辑部件1控制运算RAM存储器2、蝶算单元4、旋转因子ROM6以及I/O共享RAM存储器7。运算RAM存储器2通过网络3连接于蝶算单元4和旋转因子复数乘法单元5。旋转因子复数乘法单元5连接于旋转因子ROM6。

控制逻辑部件1主要包括特殊功能寄存器堆，包括：用于存储器轮换的计数器以及轮换标志位生成逻辑，用于并行读取操作数寻址的循环移位寄存器以及译码逻辑，用于输入、输出的地址寄存器以及译码逻辑，控制逻辑部件1采用VerilogHDL语言描述，并采用电子辅助设计软件综合生成网表(含逻辑门和连线)。

蝶算单元4进行操作数的复数乘法、累加运算，采用的基-8 FFT运算矩阵。矩阵运算的复数乘法完全采用移位、累加完成，也由VerilogHDL语言描述，并采用电子辅助设计软件综合生成网表(含逻辑门和连线)。

RAM存储器为芯片代工厂商提供的全静态、全同步的SRAM硬核，由Memory Compiler电子辅助设计工具生成，作为现成的硬核嵌入到FFT处理器芯片中。

图7是低存储器开销的固定基FFT处理器的工作方法流程，其步骤如下：

一种操作数无冲突生成的低存储器开销的固定基FFT处理器的工作方法，其步骤如下：

步骤1，FFT处理器初始化完成，进入工作状态，当第一帧时域(奇数帧)数据输入时，按照大端译码模式生成块地址和点地址，输入第一帧时域数据串行写入I/O共享存储器；

步骤2，第一帧时域数据写入完成后，I/O存储器轮换成为运算存储器，FFT处理器从写满第一帧时域数据的运算存储器中并行读取操作数；

步骤3，运算存储器读出的数据经过对准网络进入蝶算单元；

步骤4，蝶算单元处理后的数据进入复数乘法单元；

步骤5，经过复数乘法运算后的数据通过数据对准网络再原位写回运算存储器；

步骤6，步骤2到步骤5的过程要反复若干次，直到FFT运算完成，每一次运算从运算存储器中抽取操作数的地址由控制逻辑部件(1)产生；

步骤7，在FFT运算的同时，第二帧时域(偶数帧)数据输入I/O存储器；

步骤8，第一帧时域数据FFT运算完成后，运算存储器轮换为I/O共享存储器，I/O存储器轮换为运算存储器，此时，开始第二帧时域数据的FFT运算，同时，第一帧频域数据开始输出，第三帧时域数据(奇数帧)数据开始写入，两者共享I/O存储器。

以上过程一直进行下去，运算与输入输出同时进行，从而获得了连续流处理的性能，并且存储器开销得到了减小。

Claims

1，一种操作数无冲突生成的低存储器开销的固定基FFT处理器，其特征为，引入8个循环移位寄存器，并将存储器划分为8个存储体，实现8个操作数并行访问，同时对于每帧的输入计数寄存器按帧交替按照大端、小端译码模式，实现本帧时域点输入和上帧频域点输出共享同一存储器，蝶算单元需要的8个操作数的地址由大端、小端译码模式产生，并且8个操作数分散在8个不同的存储体中，可以并行访问。

2，根据权利要求1所述的操作数无冲突生成的低存储器开销的固定基FFT处理器，其特征在于，输入序列以64点为单位交替按照大端、小端译码模式产生写入地址，该地址与输出序列完全一样，可以实现输入输出共享同一存储器。

3，根据权利要求2所述的操作数无冲突生成的低存储器开销的固定基FFT处理器，其特征在于，输入时域点顺序，输出时域点也为顺序。

4，根据权利要求1所述的操作数无冲突生成的低存储器开销的固定基FFT处理器，其特征在于，低存储器开销的固定基FFT处理器由控制逻辑部件(1)、运算RAM存储器(2)、网络(3)、蝶算单元(4)、旋转因子复数乘法单元(5)、旋转因子ROM(6)、I/O共享RAM存储器(7)组成，控制逻辑部件(1)控制运算RAM存储器(2)、蝶算单元(4)、旋转因子ROM(6)以及I/O共享RAM存储器(7)，运算RAM存储器(2)通过网络(3)连接于蝶算单元(4)和旋转因子复数乘法单元(5)，旋转因子复数乘法单元(5)连接于旋转因子ROM(6)。

5，一种操作数无冲突生成的低存储器开销的固定基FFT处理器的工作方法，采用基-8FFT算法，引入8个循环移位寄存器，并将存储器划分为8个存储体，实现8个操作数并行访问，同时对于每帧的输入计数寄存器按帧交替按照大端、小端译码模式，实现本帧时域点输入和上帧频域点输出共享同一存储器，其步骤如下：

步骤1，FFT处理器初始化完成，进入工作状态，当第一帧时域数据输入时，按照大端译码模式生成块地址和点地址，输入第一帧时域数据串行写入I/O共享存储器；

步骤3，运算存储器读出的数据经过对准网络进入蝶算单元；

步骤4，蝶算单元处理后的数据进入复数乘法单元；

步骤7，在FFT运算的同时，第二帧时域数据输入I/O存储器；

步骤8，第一帧时域数据FFT运算完成后，运算存储器轮换为I/O共享存储器，I/O存储器轮换为运算存储器，此时，开始第二帧时域数据的FFT运算，同时，第一帧频域数据开始输出，第三帧时域数据数据开始写入，两者共享I/O存储器。