CN1707426A - 基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法 - Google Patents

基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法 Download PDF

Info

Publication number
CN1707426A
CN1707426A CN 200410025007 CN200410025007A CN1707426A CN 1707426 A CN1707426 A CN 1707426A CN 200410025007 CN200410025007 CN 200410025007 CN 200410025007 A CN200410025007 A CN 200410025007A CN 1707426 A CN1707426 A CN 1707426A
Authority
CN
China
Prior art keywords
multiplier
input end
multipliers
row
vector input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410025007
Other languages
English (en)
Inventor
沈胜宇
李思昆
高树静
周军明
张谊
卢先兆
黄勇
曾亮
薛德贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hua Bo Technology (group) Co Ltd
Original Assignee
Shanghai Hua Bo Technology (group) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hua Bo Technology (group) Co Ltd filed Critical Shanghai Hua Bo Technology (group) Co Ltd
Priority to CN 200410025007 priority Critical patent/CN1707426A/zh
Publication of CN1707426A publication Critical patent/CN1707426A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种用于支持微处理器中数字信号处理的操作数分配装置及其操作数分配方法。装置包括两组输入部件、一访存部件、以及连接在输入部件和访存部件之间的一个执行部件,其特点是,执行部件由多个小位宽乘法器形成乘法器矩阵构成;还包括两个操作数配置连接器,操作数配置连接器分别连接在各自对应的两组输入部件与对应的执行部件的输入端之间。其方法是:配置连接器通过不同的路由将输入部件的水平向量输入端和垂直向量输入端分别与执行部件的各乘法器输入端水平向量输入端和垂直向量输入端进行配置连接,访存部件输出不同配置的操作结果,从而极大的提高了微处理器数字信号处理的性能。

Description

基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法
技术领域
本发明涉及基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法,用于在微处理器中支持高效的数字信号处理。
背景技术
在使用微处理器进行高性能数字信号处理时,一般采用大位宽的乘法器与其它部件组合进行,如图1所示,包括:执行部件(大位宽乘法器)11,以及分别与所述乘法器连接的两组输入部件12、13和一个访存部件14。由于大位宽的乘法器无法提供足够的运算通路带宽,因此导致数字信号处理的性能不够理想。
发明内容
本发明目的是为了解决现有微处理器在进行数字信号处理时效率较低的问题而提供的一种基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法,该结构和方法可以在仅增加少量部件的前提下,实现操作数的多种配置,从而极大的提高数字信号处理的性能。
本发明采取的技术措施是:
一种基于可配置的乘法器矩阵结构的操作数分配装置,包括两组输入部件、一访存部件、以及连接在输入部件、访存部件之间的一个执行部件,所述的执行部件是乘法器,其水平向量输入端和垂直向量输入端分别对应与输入部件中的各水平向量输入端和垂直向量输入端连接;
其特点是,所述的执行部件由多个小位宽乘法器形成乘法器矩阵构成;以及,还包括两个操作数配置连接器;所述的操作数配置连接器分别连接在各自对应的两组输入部件与对应的执行部件的输入端之间,访存部件输出不同配置的操作结果。
上述基于可配置的乘法器矩阵结构的操作数分配装置,其中,所述的各小位宽乘法器是指8位乘法器,该乘法器能接受两个8位源操作数,并产生16位结果。
上述基于可配置的乘法器矩阵结构的操作数分配装置,其中,所述的乘法器矩阵是由4×4=16个的8位乘法器按矩阵排列构成。
基于可配置的乘法器矩阵结构的操作数分配装置方法,其特点是,包括以下步骤:
A.建立由多个小位宽乘法器构成的乘法器矩阵;
B.将输入信号分解为两组32位向量,其中一组是水平输入向量,另一组是垂直输入向量;将各8位乘法器分解为一个水平向量输入端和一个垂直向量输入端;在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器;
C.配置连接器通过不同的路由将输入部件的水平输入向量和垂直输入向量分别与执行部件的各小位宽乘法器水平向量输入端和垂直向量输入端进行配置连接,从访存部件输出不同配置的操作结果,用于支持微处理器的不同功能的数字信号处理。
上述操作数分配方法,其中:所述的乘法器矩阵是由4×4=16个的8位乘法器按矩阵排列构成;各8位乘法器能接受两个8位源操作数,并产生16位结果。
上述操作数分配方法,其中:C步骤所述的支持微处理器不同功能的数字信号处理是指:32×32位乘法、高速傅立叶变换和8位复数向量的点积操作。
上述操作数分配方法,其中,所述的配置连接器配置操作数支持32×32位乘法的路由是:
A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中其中一行的乘法器的水平向量输入端连接;
B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中的其中一例乘法器的各垂直输入端连接;
以上两次配置其在访存输出连接器输出的配置结果有4种:
第一种:3个输出端左移16位,一个输出不左移;
第二种:三个输出端左移32位,一个输出端左移48位;
第三种:两个输出端左移40位,另两个输出端左移8位;
第四种:各输出端全部左移24位。
上述操作数分配方法,其中,所述的配置操作数支持高速傅立叶变换,采用两次配置方式;
第一次配置的路由是:
A.选择用乘法器矩阵中间隔的两行乘法器,将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接;
B.选择乘法器矩阵中间隔的两列乘法器,将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接。
第二次配置的路由是:
A.选择乘法器矩阵中另两行间隔排列的乘法器,将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接;
B.选择所述乘法器矩阵中为两行间隔排列的乘法器,将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接;
以上两次配置其在访存输出连接器输出的配置结果有4种:
第一种:选择乘法器矩阵中的一行乘法器,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第二种:选择乘法器矩阵中剩余的三行乘法器中的一行,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第三种:选择乘法器矩阵中剩余的两行乘法器中的一行,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第四种:将访存部件中的每个输出端与乘法器矩阵中剩余的一行乘法器输出端两两相连。
上述操作数分配方法,其中:所述的配置操作数支持8位受向量点积操作,其配置的路由是:
A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中的一行乘法器中两个乘法器的水平向量输入端连接,其中:有两个水平向量输入端分别对应连接第一、二行的前两个乘法器的水平向量输入端,另两个水平向量输入端对应连接第三、四行的后两个乘法器的水平向量输入端;
B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中一列乘法器中两个乘法器的垂直输入端连接,其中:有两个输入端分别对应连接第一、二列的前两个乘法器的垂直输入端,另两个乘法器的垂直输入端分别连接第三、四列的后两个乘法器的垂直输入端;
输出结果为:
第一种:在乘法器矩阵中任意选择两行、两列,将访存部件中的每个输出端与所选行、列交叉处的乘法器的输出端两两相连;
第二种:将访存部件中的每个输出端与另外两行、两列交叉处的乘法器的输出端两两相连。
由于本发明采用了以上的技术方案,可达到以下有益效果:
1、在仅增加少量硬件的前提下,极大的增强数字信号处理的性能。
2、减小对微处理器整体结构的修改,从而防止引进额外的错误。
附图说明
本发明的具体结构性能由以下的实施例及其附图进一步描述。
图1是现有的微处理器中支持数字信号处理的操作数分配装置。
图2是本发明基于可配置的乘法器矩阵结构的操作数分配装置结构的示意图。
图3是本发明图2中的乘法器矩阵结构示意图。
图4a、4b分别是本发明配置输入变量信号的实施例之一的路由连接示意图。
图5a、5b、5c、5d是图4实施例之一的分配输出结果示意图。
图6a、6b、6c、6d分别是本发明配置输入变量信号的实施例之二的路由连接示意图。
图7a、7b、7c、7d是图6实施例之二的分配输出结果示意图。
图8a、8b分别是本发明配置输入变量信号的实施例之三的路由连接示意图
图9a、9b是图8实施例之三的分配输出结果示意图。
具体实施方式
整个支持微处理器中数字信号处理的操作数分配装置如图2所示,包括两组输入部件21、22,一个执行部件23,两个操作数配置连接器24、25,以及一个访存部件26。两组输入部件21、22中其中一组为水平向量输入部件21,另一组为垂直向量输入部件22,水平向量输入部件21中划分4个8位水平向量Y0~Y3,垂直向量输入部件22划分4个8位垂直向量X0~X4,访存部件26(其余各图中用Z0~Z3显示)输出不同配置的操作结果。
请参见图3,执行部件23由4×4=16个8位(小位宽)乘法器M形成乘法器矩阵构成,每个8位乘法器能够接受两个8位源操作数A、B,并产生一个16位结果C。
两个操作数配置连接器24、25中一个操作数配置连接器24的输入端连接水平向量输入部件21中的4个8位水平向量Y0~Y3,其输出端通过适当的路由连接乘法器矩阵中的各乘法器的水平输入端;另一个操作数配置连接器25的输入端连接垂直向量输入部件21中的4个8位垂直向量X0~X4,其输出端通过适当的路由连接乘法器矩阵中的各乘法器的垂直输入端,所述的访存部件26与执行部件23的输出端C连接。
本发明通过适当的位移和路由,可以完成32~32×32位的长乘法、高并行度的8位和16位乘法、FFT等操作,从而实现微处理器的高性能数字信号处理。
下面通过具体的实施例进一步说明本发明的方法和优点。
请参阅图4a、4b,这是本发明实施例之一实现支持32×32位乘法的操作数分配示意图。
本发明微处理器中的操作数配置方法,包括以下步骤:
A.建立由多个小位宽乘法器构成的乘法器矩阵;
B.将输入信号分解为两组32位向量,其中一组是水平输入向量Y,另一组是垂直输入向量X;将各8位乘法器分解为一个水平向量输入端A和一个垂直向量输入端B;在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器;
C.配置连接器通过不同的路由将输入部件的水平输入向量和垂直输入向量分别与执行部件的各小位宽乘法器水平向量输入端和垂直向量输入端进行配置连接,从访存部件输出不同配置的操作结果,用于支持微处理器的不同功能的数字信号处理。
假设Y和X分别为两个32位向量,Z为Y与X的乘法结果。则有
Z = Σ i = 0 32 A * B i
将Y划分为以下4个8位向量:
Y’0=Y7...Y0
Y’1=Y15...Y8
Y’2=Y23...Y16
Y’3=Y31...Y24
将X划分为以下4个8位向量:
X’0=X7...X0
X’1=X15...X8
X’2=X23...X16
X’3=X31...X24
每个8位乘法器属于2个8位输入端,其中一个是水平向量输入端A,另一个是垂直向量输入端B。
配置连接器配置操作数支持32×32位乘法的路由是:
A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中其中一行的乘法器的水平向量输入端连接;如图4a中所示是水平向量输入部件中的水平向量输入端Y3、Y2、Y1、Y0分别对应与乘法器矩阵中一行乘法器的水平向量输入端A33~A30、A23~A20、A13~A10、A03~A00连接;
B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中的其中一列乘法器的各垂直输入端连接;如图4b中所示是垂直向量输入部件中的垂直向量输入端X3、X2、X1、X0分别对应与乘法器矩阵中一列乘法器的垂直向量输入端B33~B30、B23~B20、B13~B10、B03~B00连接。
请参阅图5a~5d,以上配其输出的配置结果有4种:
第一种:3个输出端左移16位,一个输出不左移;
第二种:三个输出端左移32位,一个输出端左移48位;
第三种:两个输出端左移40位,另两个输出端左移8位;
第四种:各输出端全部左移24位。
请参阅图6a~d,这是本发明的实施例之二,用于支持8位复数向量Radix4FFT(高速傅立叶变换)的实现。
Radix4 FFT算法原理
设数组f长度为N,W=e2πi/N。以下为经典的Radix 4FFT算法:
F k = Σ n = 0 3 W nk F k 4 j + n (1)
本发明微处理器中的操作数配置方法,包括以下步骤:
A.建立由多个小位宽乘法器构成的乘法器矩阵;
B.将输入信号分解为两组32位向量,其中一组是水平输入向量Y,另一组是垂直输入向量B;将各8位乘法器分解为一个水平向量输入端A和一个垂直向量输入端B;在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器;
C.配置连接器通过不同的路由将输入部件的水平输入向量和垂直输入向量分别与执行部件的各小位宽乘法器水平向量输入端和垂直向量输入端进行配置连接,从访存部件输出不同配置的操作结果,用于支持微处理器的不同功能的数字信号处理。
所述的配置操作数支持高速傅立叶变换,采用两次配置方式;
第一次配置的路由是:
A.选择用乘法器矩阵中间隔的两行乘法器,将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接;如图6a所示,利用乘法器矩阵中的第2、第4行的乘法器A23~A20和A03~A00,将水平向量输入部件中连接端Y3与乘法器中的A23、A03连接,将水平向量输入部件中连接端Y2与乘法器中的A22、A02连接,将水平向量输入部件中连接端Y1与乘法器中的A01、A21连接,将水平向量输入部件中连接端Y0与乘法器中的A20、A00连接。
B.选择乘法器矩阵中间隔的两列乘法器,将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接。如图6b所示,利用乘法器矩阵中的第1、第3列的乘法器B32~B02和B30~B00,将水平向量输入部件中连接端X3与乘法器中的B30、B32连接,将水平向量输入部件中连接端X2与乘法器中的B20、B22连接,将水平向量输入部件中连接端X1与乘法器中的B10、B12连接,将水平向量输入部件中连接端X0与乘法器中的B02、B00连接。
第二次配置的路由是:
A.选择乘法器矩阵中另两行间隔排列的乘法器,将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接;如图6c所示,利用乘法器矩阵中的第1、第3行的乘法器A00~A03和A30~A33,将水平向量输入部件中连接端Y3与乘法器中的A33、A13连接,将水平向量输入部件中连接端Y2与乘法器中的A32、A12连接,将水平向量输入部件中连接端Y1与乘法器中的A11、A31连接,将水平向量输入部件中连接端Y0与乘法器中的A30、A10连接。
B.选择所述乘法器矩阵中为两行间隔排列的乘法器,将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接;如图6d所示,利用乘法器矩阵中的第2、第4列的乘法器B01~B31和B03~B33,将水平向量输入部件中连接端X3与乘法器中的B33、B31连接,将水平向量输入部件中连接端X2与乘法器中的B21、B23连接,将水平向量输入部件中连接端X1与乘法器中的B11、B13连接,将水平向量输入部件中连接端X0与乘法器中的B01、B03连接。
请参见图7a~7d,以上两次配置输出的配置结果有4种:
第一种:选择乘法器矩阵中的一行乘法器,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第二种:选择乘法器矩阵中剩余的三行乘法器中的一行,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第三种:选择乘法器矩阵中剩余的两行乘法器中的一行,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第四种:将访存部件中的每个输出端与乘法器矩阵中剩余的一行乘法器输出端两两相连。
举例说明:
对特定的k(用语言表达是什么?),乘法矩阵可在一周期内计算出Fk。乘法矩阵的配置如下:
设M(i,j)为i行j列的乘法器。R(x)为复数x的实部,I(x)为复数x的虚部,n=0,1,2,3:
M ( 0 , n ) = R ( W nk ) * R ( F k 4 j + n )
M ( 1 , n ) = I ( W nk ) * R ( F k 4 j + n )
M ( 2 , n ) = R ( W nk ) * I ( F k 4 j + n )
M ( 4 , n ) = I ( W nk ) * R ( F k 4 j + n )
Σ i = 0 3 M ( 0 , i ) - Σ i = 0 3 M ( 3 , i ) 为Fk的实部。 Σ i = 0 3 M ( 1 , i ) + Σ i = 0 3 M ( 2 , i ) 为Fk的虚部(2)
复数Radix4 FFT的时间分析
对N点的复数Radix 4 FFT,共需log4N次递归,每次递归需运行式(1)的操作N次。共Nlog4N次。
对于长度为N的复数Radix4 FFT,设loop unroll为k。则运行载入指令和FFT2指令分别需Nlog4N个周期。branch指令需(Nlog4N)/k个周期。故总共需(2+1/k)Nlog4 N个周期。
图8a、8b是本发明实施例之三实现8位复数向量的点积操作的路由示意图。
本发明微处理器中的操作数配置方法,包括以下步骤:
A.建立由多个小位宽乘法器构成的乘法器矩阵;
B.将输入信号分解为两组32位向量,其中一组是水平输入向量,另一组是垂直输入向量;将各8位乘法器分解为一个水平向量输入端和一个垂直向量输入端;在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器;
C.配置连接器通过不同的路由将输入部件的水平输入向量和垂直输入向量分别与执行部件的各小位宽乘法器水平向量输入端和垂直向量输入端进行配置连接,从访存部件输出不同配置的操作结果,用于支持微处理器的不同功能的数字信号处理。
所述的配置操作数支持8位受向量点积操作,其配置的路由是:
A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中的一行乘法器中两个乘法器的水平向量输入端连接,其中:有两个水平向量输入端分别对应连接第一、二行的前两个乘法器的水平向量输入端,另两个水平向量输入端对应连接第三、四行的后两个乘法器的水平向量输入端;如图8a所示,将水平向量输入部件中连接端Y3与乘法器中第一行的A33、A32连接,将水平向量输入部件中连接端Y2与乘法器中第二行的A23、A22连接,将水平向量输入部件中连接端Y1与乘法器中第三行的A11、A10连接,将水平向量输入部件中连接端Y0与乘法器中第四行的A01、A00连接。
B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中一列乘法器中两个乘法器的垂直输入端连接,其中:有两个输入端分别对应连接第一、二列的前两个乘法器的垂直输入端,另两个乘法器的垂直输入端分别连接第三、四列的后两个乘法器的垂直输入端;如图8b所示,将垂直向量输入部件中连接端X3与第4列乘法器中的B33、B23连接,将垂直向量输入部件中连接端X2与第3列乘法器中的B32、B22连接,将垂直向量输入部件中连接端X1与乘法器中的B11、B01连接,将垂直向量输入部件中连接端X0与乘法器中的B10、B00连接。
输出结果为两种:
请见图9a,第一种:在乘法器矩阵中任意选择两行、两列,将访存部件中的每个输出端与所选行、列交叉处的乘法器的输出端两两相连;
请见图9b,第二种:将访存部件中的每个输出端与另外两行、两列交叉处的乘法器的输出端两两相连。
举例说明:
8位复数向量的点积操作的原理:
设有两个数组:
A=<a0,...,an>
B=<b0,...,bn>
其中对于任意复数ai,令I(ai)为其虚部,R(ai)为其实部。
则两个数组的点积操作为一个结果数组:
C=<c0,...,cn>
其中复数ci=ai*bi
对乘法器矩阵的配置方法
其中ci的虚部的计算公式如下:
I(ci)=I(ai)*R(bi)+I(bi)*R(ai)    (3)
ci的实部的计算公式如下:
R(ci)=R(ai)*R(bi)-I(bi)*I(ai)    (4)
综合考虑乘法矩阵和存储器的双端口访问特性(每周期两个32位字),故每周期能完成一次长度为2的向量点积。则完成一次长度为N的点积需N个周期。

Claims (9)

1.一种基于可配置的乘法器矩阵结构的操作数分配装置,包括两组输入部件、一访存部件、以及连接在输入部件、访存部件之间的一个执行部件,所述的执行部件是乘法器,其水平向量输入端和垂直向量输入端分别对应与输入部件中的各水平向量输入端和垂直向量输入端连接;
其特征在于,所述的执行部件由多个小位宽乘法器形成乘法器矩阵构成;以及,还包括两个操作数配置连接器,所述的操作数配置连接器分别连接在各自对应的两组输入部件与对应的执行部件的输入端之,访存部件输出不同配置的操作结果。
2.根据权利要求1所述的基于可配置的乘法器矩阵结构的操作数分配装置,其特征在于,所述的各小位宽乘法器是指8位乘法器,该乘法器能接受两个8位源操作数,并产生16位结果。
3.根据权利要求1所述的基于可配置的乘法器矩阵结构的操作数分配装置,其特征在于,所述的乘法器矩阵是由4×4=16个的8位乘法器按矩阵排列构成。
4.基于可配置的乘法器矩阵结构的操作数分配方法,其特征在于,包括以下步骤:
A.建立由多个小位宽乘法器构成的乘法器矩阵;
B.将输入信号分解为两组32位向量,其中一组是水平输入向量,另一组是垂直输入向量;将各8位乘法器分解为一个水平向量输入端和一个垂直向量输入端;在信号输入部件与所述乘法器矩阵输入端之间连接配置连接器;
C.配置连接器通过不同的路由将输入部件的水平输入向量和垂直输入向量分别与执行部件的各小位宽乘法器水平向量输入端和垂直向量输入端进行配置连接,从访存部件输出不同配置的操作结果,用于支持微处理器的不同功能的数字信号处理。
5.根据权利要求4所述的操作数分配方法,其特征在于:所述的乘法器矩阵是由4×4=16个的8位乘法器按矩阵排列构成;各8位乘法器能接受两个8位源操作数,并产生16位结果。
6.根据权利要求4所述的操作数分配方法,其特征在于:C步骤所述的支持微处理器不同功能的数字信号处理是指:32×32位乘法、高速傅立叶变换和8位复数向量的点积操作。
7.根据权利要求4或6所述的操作数分配方法,其特征在于,所述的配置连接器配置操作数支持32×32位乘法的路由是:
A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中其中一行的乘法器的水平向量输入端连接;
B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中的其中一例乘法器的各垂直输入端连接;
以上两次配置其在访存输出连接器输出的配置结果有4种:
第一种:3个输出端左移16位,一个输出不左移;
第二种:三个输出端左移32位,一个输出端左移48位;
第三种:两个输出端左移40位,另两个输出端左移8位;
第四种:各输出端全部左移24位。
8.根据权利要求4或6所述的操作数分配方法,其特征在于,所述的配置操作数支持高速傅立叶变换,采用两次配置方式;
第一次配置的路由是:
A.选择用乘法器矩阵中间隔的两行乘法器,将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接;
B.选择乘法器矩阵中间隔的两列乘法器,将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接。
第二次配置的路由是:
A.选择乘法器矩阵中另两行间隔排列的乘法器,将水平向量输入部件中的每个水平向量输入端与所利用的两行乘法器中对应同行的两列乘法器的水平向量输入端连接;
B.选择所述乘法器矩阵中为两行间隔排列的乘法器,将垂直向量输入部件中的每个垂直向量输入端与所利用的两列乘法器中各对应同行的两个乘法器的垂直输入端连接;
以上两次配置其在访存输出连接器输出的配置结果有4种:
第一种:选择乘法器矩阵中的一行乘法器,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第二种:选择乘法器矩阵中剩余的三行乘法器中的一行,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第三种:选择乘法器矩阵中剩余的两行乘法器中的一行,将访存部件中的每个输出端与所选择的那一行乘法器的输出端两两相连;
第四种:将访存部件中的每个输出端与乘法器矩阵中剩余的一行乘法器输出端两两相连。
9.根据权利要求4或6所述的操作数分配方法,其特征在于:所述的配置操作数支持8位受向量点积操作,其配置的路由是:
A.水平向量输入部件中的每个水平向量输入端分别与乘法器矩阵中的一行乘法器中两个乘法器的水平向量输入端连接,其中:有两个水平向量输入端分别对应连接第一、二行的前两个乘法器的水平向量输入端,另两个水平向量输入端对应连接第三、四行的后两个乘法器的水平向量输入端;
B.垂直向量输入部件中的每个垂直向量输入端分别与乘法器矩阵中一列乘法器中两个乘法器的垂直输入端连接,其中:有两个输入端分别对应连接第一、二列的前两个乘法器的垂直输入端,另两个乘法器的垂直输入端分别连接第三、四列的后两个乘法器的垂直输入端;
输出结果有两种:
第一种:在乘法器矩阵中任意选择两行、两列,将访存部件中的每个输出端与所选行、列交叉处的乘法器的输出端两两相连;
第二种:将访存部件中的每个输出端与另外两行、两列交叉处的乘法器的输出端两两相连。
CN 200410025007 2004-06-09 2004-06-09 基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法 Pending CN1707426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410025007 CN1707426A (zh) 2004-06-09 2004-06-09 基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410025007 CN1707426A (zh) 2004-06-09 2004-06-09 基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法

Publications (1)

Publication Number Publication Date
CN1707426A true CN1707426A (zh) 2005-12-14

Family

ID=35581367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410025007 Pending CN1707426A (zh) 2004-06-09 2004-06-09 基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法

Country Status (1)

Country Link
CN (1) CN1707426A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636640A (zh) * 2016-01-30 2018-01-26 慧与发展有限责任合伙企业 具有求反指示符的点积引擎
CN108874744A (zh) * 2017-05-08 2018-11-23 辉达公司 矩阵乘积累加运算的广义加速
CN110337635A (zh) * 2017-03-20 2019-10-15 英特尔公司 用于点积操作的***、方法和装置
US11816482B2 (en) 2017-05-08 2023-11-14 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636640B (zh) * 2016-01-30 2021-11-23 慧与发展有限责任合伙企业 点积引擎、忆阻器点积引擎以及用于计算点积的方法
CN107636640A (zh) * 2016-01-30 2018-01-26 慧与发展有限责任合伙企业 具有求反指示符的点积引擎
US11847452B2 (en) 2017-03-20 2023-12-19 Intel Corporation Systems, methods, and apparatus for tile configuration
US12039332B2 (en) 2017-03-20 2024-07-16 Intel Corporation Systems, methods, and apparatus for matrix move
CN110337635A (zh) * 2017-03-20 2019-10-15 英特尔公司 用于点积操作的***、方法和装置
US11977886B2 (en) 2017-03-20 2024-05-07 Intel Corporation Systems, methods, and apparatuses for tile store
CN110337635B (zh) * 2017-03-20 2023-09-19 英特尔公司 用于点积操作的***、方法和装置
US11797303B2 (en) 2017-05-08 2023-10-24 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations
US11797301B2 (en) 2017-05-08 2023-10-24 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations
US11816482B2 (en) 2017-05-08 2023-11-14 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations
US11816481B2 (en) 2017-05-08 2023-11-14 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations
US11797302B2 (en) 2017-05-08 2023-10-24 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations
CN108874744B (zh) * 2017-05-08 2022-06-10 辉达公司 用于执行矩阵乘积和累加运算的处理器、方法及存储介质
CN108874744A (zh) * 2017-05-08 2018-11-23 辉达公司 矩阵乘积累加运算的广义加速

Similar Documents

Publication Publication Date Title
CN1637748A (zh) 可重配置电路、具备可重配置电路的处理装置
CN1832344A (zh) 图形均衡器的控制器
CN1806274A (zh) 具有主显示器和子显示器的显示装置的驱动方法
CN1924429A (zh) 背光灯制造方法和背光灯
CN101055375A (zh) 背光组件及具有其的显示装置
CN1862646A (zh) 驱动液晶显示器件的装置及方法
CN1877532A (zh) 编译装置
CN1622180A (zh) 多路分离器和使用该多路分离器的显示器
CN1892636A (zh) 双模计算机处理器中索引式载入及储存操作的***及方法
CN1862524A (zh) 数字信号处理器中执行多个向量稀疏卷积方法与***
CN1808571A (zh) 声音信号分离***及方法
CN1165007C (zh) 数据传送设备、显示器及数据发送机、接收机和传送方法
CN1707426A (zh) 基于可配置的乘法器矩阵结构的操作数分配装置及其分配方法
CN1784926A (zh) 阵列扬声器***
CN1880984A (zh) 改进的导光板、具有其的背光模组和显示装置
CN1967500A (zh) 自动测试过程中资源使用的方法
CN1337122A (zh) 图像处理电路
CN101055467A (zh) 一种基于idp的工业过程动态优化***及方法
CN1900903A (zh) 使用图形***以实现多用户计算机***
CN101055567A (zh) 一种电子数据表计算链的生成方法和***
CN1627285A (zh) 互连并行计算机的处理器以有利于环状分区的方法和***
CN101051263A (zh) 处理器、图像处理***和处理方法
CN1273936C (zh) 一种推扫式卫星影像ccd相对辐射校正方法
CN100342643C (zh) 二维锥形滤波器
CN1909592A (zh) 误差扩散图像挂网技术中的图像扫描处理方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication