CN1707426A

CN1707426A - 基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法

Info

Publication number: CN1707426A
Application number: CN 200410025007
Authority: CN
Inventors: 沈胜宇; 李思昆; 高树静; 周军明; 张谊; 卢先兆; 黄勇; 曾亮; 薛德贤
Original assignee: Shanghai Hua Bo Technology (group) Co Ltd
Current assignee: Shanghai Hua Bo Technology (group) Co Ltd
Priority date: 2004-06-09
Filing date: 2004-06-09
Publication date: 2005-12-14

Abstract

本发明公开了一种用于支持微处理器中数字信号处理的操作数分配装置及其操作数分配方法。装置包括两组输入部件、一访存部件、以及连接在输入部件和访存部件之间的一个执行部件，其特点是，执行部件由多个小位宽乘法器形成乘法器矩阵构成；还包括两个操作数配置连接器，操作数配置连接器分别连接在各自对应的两组输入部件与对应的执行部件的输入端之间。其方法是：配置连接器通过不同的路由将输入部件的水平向量输入端和垂直向量输入端分别与执行部件的各乘法器输入端水平向量输入端和垂直向量输入端进行配置连接，访存部件输出不同配置的操作结果，从而极大的提高了微处理器数字信号处理的性能。

Description

基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法

技术领域

本发明涉及基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法，用于在微处理器中支持高效的数字信号处理。

背景技术

在使用微处理器进行高性能数字信号处理时，一般采用大位宽的乘法器与其它部件组合进行，如图1所示，包括：执行部件(大位宽乘法器)11，以及分别与所述乘法器连接的两组输入部件12、13和一个访存部件14。由于大位宽的乘法器无法提供足够的运算通路带宽，因此导致数字信号处理的性能不够理想。

发明内容

本发明目的是为了解决现有微处理器在进行数字信号处理时效率较低的问题而提供的一种基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法，该结构和方法可以在仅增加少量部件的前提下，实现操作数的多种配置，从而极大的提高数字信号处理的性能。

本发明采取的技术措施是：

一种基于可配置的乘法器矩阵结构的操作数分配装置，包括两组输入部件、一访存部件、以及连接在输入部件、访存部件之间的一个执行部件，所述的执行部件是乘法器，其水平向量输入端和垂直向量输入端分别对应与输入部件中的各水平向量输入端和垂直向量输入端连接；

其特点是，所述的执行部件由多个小位宽乘法器形成乘法器矩阵构成；以及，还包括两个操作数配置连接器；所述的操作数配置连接器分别连接在各自对应的两组输入部件与对应的执行部件的输入端之间，访存部件输出不同配置的操作结果。

上述基于可配置的乘法器矩阵结构的操作数分配装置，其中，所述的各小位宽乘法器是指8位乘法器，该乘法器能接受两个8位源操作数，并产生16位结果。

上述基于可配置的乘法器矩阵结构的操作数分配装置，其中，所述的乘法器矩阵是由4×4＝16个的8位乘法器按矩阵排列构成。

基于可配置的乘法器矩阵结构的操作数分配装置方法，其特点是，包括以下步骤：

A.建立由多个小位宽乘法器构成的乘法器矩阵；

B.将输入信号分解为两组32位向量，其中一组是水平输入向量，另一组是垂直输入向量；将各8位乘法器分解为一个水平向量输入端和一个垂直向量输入端；在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器；

C.配置连接器通过不同的路由将输入部件的水平输入向量和垂直输入向量分别与执行部件的各小位宽乘法器水平向量输入端和垂直向量输入端进行配置连接，从访存部件输出不同配置的操作结果，用于支持微处理器的不同功能的数字信号处理。

上述操作数分配方法，其中：所述的乘法器矩阵是由4×4＝16个的8位乘法器按矩阵排列构成；各8位乘法器能接受两个8位源操作数，并产生16位结果。

上述操作数分配方法，其中：C步骤所述的支持微处理器不同功能的数字信号处理是指：32×32位乘法、高速傅立叶变换和8位复数向量的点积操作。

上述操作数分配方法，其中，所述的配置连接器配置操作数支持32×32位乘法的路由是：

A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中其中一行的乘法器的水平向量输入端连接；

B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中的其中一例乘法器的各垂直输入端连接；

以上两次配置其在访存输出连接器输出的配置结果有4种：

第一种：3个输出端左移16位，一个输出不左移；

第二种：三个输出端左移32位，一个输出端左移48位；

第三种：两个输出端左移40位，另两个输出端左移8位；

第四种：各输出端全部左移24位。

上述操作数分配方法，其中，所述的配置操作数支持高速傅立叶变换，采用两次配置方式；

第一次配置的路由是：

A.选择用乘法器矩阵中间隔的两行乘法器，将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接；

B.选择乘法器矩阵中间隔的两列乘法器，将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接。

第二次配置的路由是：

A.选择乘法器矩阵中另两行间隔排列的乘法器，将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接；

B.选择所述乘法器矩阵中为两行间隔排列的乘法器，将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接；

以上两次配置其在访存输出连接器输出的配置结果有4种：

第一种：选择乘法器矩阵中的一行乘法器，将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连；

第二种：选择乘法器矩阵中剩余的三行乘法器中的一行，将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连；

第三种：选择乘法器矩阵中剩余的两行乘法器中的一行，将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连；

第四种：将访存部件中的每个输出端与乘法器矩阵中剩余的一行乘法器输出端两两相连。

上述操作数分配方法，其中：所述的配置操作数支持8位受向量点积操作，其配置的路由是：

A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中的一行乘法器中两个乘法器的水平向量输入端连接，其中：有两个水平向量输入端分别对应连接第一、二行的前两个乘法器的水平向量输入端，另两个水平向量输入端对应连接第三、四行的后两个乘法器的水平向量输入端；

B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中一列乘法器中两个乘法器的垂直输入端连接，其中：有两个输入端分别对应连接第一、二列的前两个乘法器的垂直输入端，另两个乘法器的垂直输入端分别连接第三、四列的后两个乘法器的垂直输入端；

输出结果为：

第一种：在乘法器矩阵中任意选择两行、两列，将访存部件中的每个输出端与所选行、列交叉处的乘法器的输出端两两相连；

第二种：将访存部件中的每个输出端与另外两行、两列交叉处的乘法器的输出端两两相连。

由于本发明采用了以上的技术方案，可达到以下有益效果：

1、在仅增加少量硬件的前提下，极大的增强数字信号处理的性能。

2、减小对微处理器整体结构的修改，从而防止引进额外的错误。

附图说明

本发明的具体结构性能由以下的实施例及其附图进一步描述。

图1是现有的微处理器中支持数字信号处理的操作数分配装置。

图2是本发明基于可配置的乘法器矩阵结构的操作数分配装置结构的示意图。

图3是本发明图2中的乘法器矩阵结构示意图。

图4a、4b分别是本发明配置输入变量信号的实施例之一的路由连接示意图。

图5a、5b、5c、5d是图4实施例之一的分配输出结果示意图。

图6a、6b、6c、6d分别是本发明配置输入变量信号的实施例之二的路由连接示意图。

图7a、7b、7c、7d是图6实施例之二的分配输出结果示意图。

图8a、8b分别是本发明配置输入变量信号的实施例之三的路由连接示意图

图9a、9b是图8实施例之三的分配输出结果示意图。

具体实施方式

整个支持微处理器中数字信号处理的操作数分配装置如图2所示，包括两组输入部件21、22，一个执行部件23，两个操作数配置连接器24、25，以及一个访存部件26。两组输入部件21、22中其中一组为水平向量输入部件21，另一组为垂直向量输入部件22，水平向量输入部件21中划分4个8位水平向量Y₀～Y₃，垂直向量输入部件22划分4个8位垂直向量X₀～X₄，访存部件26(其余各图中用Z₀～Z₃显示)输出不同配置的操作结果。

请参见图3，执行部件23由4×4＝16个8位(小位宽)乘法器M形成乘法器矩阵构成，每个8位乘法器能够接受两个8位源操作数A、B，并产生一个16位结果C。

两个操作数配置连接器24、25中一个操作数配置连接器24的输入端连接水平向量输入部件21中的4个8位水平向量Y₀～Y₃，其输出端通过适当的路由连接乘法器矩阵中的各乘法器的水平输入端；另一个操作数配置连接器25的输入端连接垂直向量输入部件21中的4个8位垂直向量X₀～X₄，其输出端通过适当的路由连接乘法器矩阵中的各乘法器的垂直输入端，所述的访存部件26与执行部件23的输出端C连接。

本发明通过适当的位移和路由，可以完成32～32×32位的长乘法、高并行度的8位和16位乘法、FFT等操作，从而实现微处理器的高性能数字信号处理。

下面通过具体的实施例进一步说明本发明的方法和优点。

请参阅图4a、4b，这是本发明实施例之一实现支持32×32位乘法的操作数分配示意图。

本发明微处理器中的操作数配置方法，包括以下步骤：

A.建立由多个小位宽乘法器构成的乘法器矩阵；

B.将输入信号分解为两组32位向量，其中一组是水平输入向量Y，另一组是垂直输入向量X；将各8位乘法器分解为一个水平向量输入端A和一个垂直向量输入端B；在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器；

假设Y和X分别为两个32位向量，Z为Y与X的乘法结果。则有

Z = Σ_{i = 0}^{32} A * B_{i}

将Y划分为以下4个8位向量：

Y’₀＝Y₇...Y₀

Y’₁＝Y₁₅...Y₈

Y’₂＝Y₂₃...Y₁₆

Y’₃＝Y₃₁...Y₂₄

将X划分为以下4个8位向量：

X’₀＝X₇...X₀

X’₁＝X₁₅...X₈

X’₂＝X₂₃...X₁₆

X’₃＝X₃₁...X₂₄

每个8位乘法器属于2个8位输入端，其中一个是水平向量输入端A，另一个是垂直向量输入端B。

配置连接器配置操作数支持32×32位乘法的路由是：

A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中其中一行的乘法器的水平向量输入端连接；如图4a中所示是水平向量输入部件中的水平向量输入端Y₃、Y₂、Y₁、Y₀分别对应与乘法器矩阵中一行乘法器的水平向量输入端A₃₃～A₃₀、A₂₃～A₂₀、A₁₃～A₁₀、A₀₃～A₀₀连接；

B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中的其中一列乘法器的各垂直输入端连接；如图4b中所示是垂直向量输入部件中的垂直向量输入端X₃、X₂、X₁、X₀分别对应与乘法器矩阵中一列乘法器的垂直向量输入端B₃₃～B₃₀、B₂₃～B₂₀、B₁₃～B₁₀、B₀₃～B₀₀连接。

请参阅图5a～5d，以上配其输出的配置结果有4种：

第一种：3个输出端左移16位，一个输出不左移；

第二种：三个输出端左移32位，一个输出端左移48位；

第三种：两个输出端左移40位，另两个输出端左移8位；

第四种：各输出端全部左移24位。

请参阅图6a～d，这是本发明的实施例之二，用于支持8位复数向量Radix4FFT(高速傅立叶变换)的实现。

Radix4 FFT算法原理

设数组f长度为N，W＝e^2πi/N。以下为经典的Radix 4FFT算法：

F_{k} = Σ_{n = 0}^{3} W^{nk} F_{k}^{4 j + n}

(1)

本发明微处理器中的操作数配置方法，包括以下步骤：

A.建立由多个小位宽乘法器构成的乘法器矩阵；

B.将输入信号分解为两组32位向量，其中一组是水平输入向量Y，另一组是垂直输入向量B；将各8位乘法器分解为一个水平向量输入端A和一个垂直向量输入端B；在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器；

所述的配置操作数支持高速傅立叶变换，采用两次配置方式；

第一次配置的路由是：

A.选择用乘法器矩阵中间隔的两行乘法器，将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接；如图6a所示，利用乘法器矩阵中的第2、第4行的乘法器A₂₃～A₂₀和A₀₃～A₀₀，将水平向量输入部件中连接端Y₃与乘法器中的A₂₃、A₀₃连接，将水平向量输入部件中连接端Y₂与乘法器中的A₂₂、A₀₂连接，将水平向量输入部件中连接端Y₁与乘法器中的A₀₁、A₂₁连接，将水平向量输入部件中连接端Y₀与乘法器中的A₂₀、A₀₀连接。

B.选择乘法器矩阵中间隔的两列乘法器，将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接。如图6b所示，利用乘法器矩阵中的第1、第3列的乘法器B₃₂～B₀₂和B₃₀～B₀₀，将水平向量输入部件中连接端X₃与乘法器中的B₃₀、B₃₂连接，将水平向量输入部件中连接端X₂与乘法器中的B₂₀、B₂₂连接，将水平向量输入部件中连接端X₁与乘法器中的B₁₀、B₁₂连接，将水平向量输入部件中连接端X₀与乘法器中的B₀₂、B₀₀连接。

第二次配置的路由是：

A.选择乘法器矩阵中另两行间隔排列的乘法器，将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接；如图6c所示，利用乘法器矩阵中的第1、第3行的乘法器A₀₀～A₀₃和A₃₀～A₃₃，将水平向量输入部件中连接端Y₃与乘法器中的A₃₃、A₁₃连接，将水平向量输入部件中连接端Y₂与乘法器中的A₃₂、A₁₂连接，将水平向量输入部件中连接端Y₁与乘法器中的A₁₁、A₃₁连接，将水平向量输入部件中连接端Y₀与乘法器中的A₃₀、A₁₀连接。

B.选择所述乘法器矩阵中为两行间隔排列的乘法器，将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接；如图6d所示，利用乘法器矩阵中的第2、第4列的乘法器B₀₁～B₃₁和B₀₃～B₃₃，将水平向量输入部件中连接端X₃与乘法器中的B₃₃、B₃₁连接，将水平向量输入部件中连接端X₂与乘法器中的B₂₁、B₂₃连接，将水平向量输入部件中连接端X₁与乘法器中的B₁₁、B₁₃连接，将水平向量输入部件中连接端X₀与乘法器中的B₀₁、B₀₃连接。

请参见图7a～7d，以上两次配置输出的配置结果有4种：

举例说明：

对特定的k(用语言表达是什么？)，乘法矩阵可在一周期内计算出Fk。乘法矩阵的配置如下：

设M(i，j)为i行j列的乘法器。R(x)为复数x的实部，I(x)为复数x的虚部，n＝0，1，2，3：

M (0, n) = R (W^{nk}) * R (F_{k}^{4 j + n})

M (1, n) = I (W^{nk}) * R (F_{k}^{4 j + n})

M (2, n) = R (W^{nk}) * I (F_{k}^{4 j + n})

M (4, n) = I (W^{nk}) * R (F_{k}^{4 j + n})

Σ_{i = 0}^{3} M (0, i) - Σ_{i = 0}^{3} M (3, i)

为F_k的实部。

Σ_{i = 0}^{3} M (1, i) + Σ_{i = 0}^{3} M (2, i)

为F_k的虚部(2)

复数Radix4 FFT的时间分析

对N点的复数Radix 4 FFT，共需log₄N次递归，每次递归需运行式(1)的操作N次。共Nlog₄N次。

对于长度为N的复数Radix4 FFT，设loop unroll为k。则运行载入指令和FFT2指令分别需Nlog₄N个周期。branch指令需(Nlog₄N)/k个周期。故总共需(2+1/k)Nlog₄ N个周期。

图8a、8b是本发明实施例之三实现8位复数向量的点积操作的路由示意图。

本发明微处理器中的操作数配置方法，包括以下步骤：

A.建立由多个小位宽乘法器构成的乘法器矩阵；

所述的配置操作数支持8位受向量点积操作，其配置的路由是：

A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中的一行乘法器中两个乘法器的水平向量输入端连接，其中：有两个水平向量输入端分别对应连接第一、二行的前两个乘法器的水平向量输入端，另两个水平向量输入端对应连接第三、四行的后两个乘法器的水平向量输入端；如图8a所示，将水平向量输入部件中连接端Y₃与乘法器中第一行的A₃₃、A₃₂连接，将水平向量输入部件中连接端Y₂与乘法器中第二行的A₂₃、A₂₂连接，将水平向量输入部件中连接端Y₁与乘法器中第三行的A₁₁、A₁₀连接，将水平向量输入部件中连接端Y₀与乘法器中第四行的A₀₁、A₀₀连接。

B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中一列乘法器中两个乘法器的垂直输入端连接，其中：有两个输入端分别对应连接第一、二列的前两个乘法器的垂直输入端，另两个乘法器的垂直输入端分别连接第三、四列的后两个乘法器的垂直输入端；如图8b所示，将垂直向量输入部件中连接端X3与第4列乘法器中的B₃₃、B₂₃连接，将垂直向量输入部件中连接端X₂与第3列乘法器中的B₃₂、B₂₂连接，将垂直向量输入部件中连接端X₁与乘法器中的B₁₁、B₀₁连接，将垂直向量输入部件中连接端X₀与乘法器中的B₁₀、B₀₀连接。

输出结果为两种：

请见图9a，第一种：在乘法器矩阵中任意选择两行、两列，将访存部件中的每个输出端与所选行、列交叉处的乘法器的输出端两两相连；

请见图9b，第二种：将访存部件中的每个输出端与另外两行、两列交叉处的乘法器的输出端两两相连。

举例说明：

8位复数向量的点积操作的原理：

设有两个数组：

A＝<a₀，...，a_n>

B＝<b₀，...，b_n>

其中对于任意复数a_i，令I(a_i)为其虚部，R(a_i)为其实部。

则两个数组的点积操作为一个结果数组：

C＝<c₀，...，c_n>

其中复数c_i＝a_i*b_i

对乘法器矩阵的配置方法

其中c_i的虚部的计算公式如下：

I(c_i)＝I(a_i)*R(b_i)+I(b_i)*R(a_i) (3)

c_i的实部的计算公式如下：

R(c_i)＝R(a_i)*R(b_i)-I(b_i)*I(a_i) (4)

综合考虑乘法矩阵和存储器的双端口访问特性(每周期两个32位字)，故每周期能完成一次长度为2的向量点积。则完成一次长度为N的点积需N个周期。

Claims

1.一种基于可配置的乘法器矩阵结构的操作数分配装置，包括两组输入部件、一访存部件、以及连接在输入部件、访存部件之间的一个执行部件，所述的执行部件是乘法器，其水平向量输入端和垂直向量输入端分别对应与输入部件中的各水平向量输入端和垂直向量输入端连接；

其特征在于，所述的执行部件由多个小位宽乘法器形成乘法器矩阵构成；以及，还包括两个操作数配置连接器，所述的操作数配置连接器分别连接在各自对应的两组输入部件与对应的执行部件的输入端之，访存部件输出不同配置的操作结果。

2.根据权利要求1所述的基于可配置的乘法器矩阵结构的操作数分配装置，其特征在于，所述的各小位宽乘法器是指8位乘法器，该乘法器能接受两个8位源操作数，并产生16位结果。

3.根据权利要求1所述的基于可配置的乘法器矩阵结构的操作数分配装置，其特征在于，所述的乘法器矩阵是由4×4＝16个的8位乘法器按矩阵排列构成。

4.基于可配置的乘法器矩阵结构的操作数分配方法，其特征在于，包括以下步骤：

A.建立由多个小位宽乘法器构成的乘法器矩阵；

5.根据权利要求4所述的操作数分配方法，其特征在于：所述的乘法器矩阵是由4×4＝16个的8位乘法器按矩阵排列构成；各8位乘法器能接受两个8位源操作数，并产生16位结果。

6.根据权利要求4所述的操作数分配方法，其特征在于：C步骤所述的支持微处理器不同功能的数字信号处理是指：32×32位乘法、高速傅立叶变换和8位复数向量的点积操作。

7.根据权利要求4或6所述的操作数分配方法，其特征在于，所述的配置连接器配置操作数支持32×32位乘法的路由是：

以上两次配置其在访存输出连接器输出的配置结果有4种：

第一种：3个输出端左移16位，一个输出不左移；

第二种：三个输出端左移32位，一个输出端左移48位；

第三种：两个输出端左移40位，另两个输出端左移8位；

第四种：各输出端全部左移24位。

8.根据权利要求4或6所述的操作数分配方法，其特征在于，所述的配置操作数支持高速傅立叶变换，采用两次配置方式；

第一次配置的路由是：

第二次配置的路由是：

以上两次配置其在访存输出连接器输出的配置结果有4种：

9.根据权利要求4或6所述的操作数分配方法，其特征在于：所述的配置操作数支持8位受向量点积操作，其配置的路由是：

输出结果有两种：