CN102737010A - 以摩尔图为拓扑结构的并行矩阵乘计算的方法和*** - Google Patents

以摩尔图为拓扑结构的并行矩阵乘计算的方法和*** Download PDF

Info

Publication number
CN102737010A
CN102737010A CN2012101009201A CN201210100920A CN102737010A CN 102737010 A CN102737010 A CN 102737010A CN 2012101009201 A CN2012101009201 A CN 2012101009201A CN 201210100920 A CN201210100920 A CN 201210100920A CN 102737010 A CN102737010 A CN 102737010A
Authority
CN
China
Prior art keywords
matrix
processor
partitioning
row
mollier chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101009201A
Other languages
English (en)
Other versions
CN102737010B (zh
Inventor
张冰
昝程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201210100920.1A priority Critical patent/CN102737010B/zh
Publication of CN102737010A publication Critical patent/CN102737010A/zh
Application granted granted Critical
Publication of CN102737010B publication Critical patent/CN102737010B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Multi Processors (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***;其首先将第一矩阵按行分解为若干第一矩阵分块,将第二矩阵按列分解为若干第二矩阵分块;然后每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块,经过若干步骤后完成乘积矩阵中的相应矩阵分块的计算;最后将乘积矩阵分块叠加在一起,组成乘积矩阵。所述***采用摩尔图作为并行计算的基本结构,计算负载能均匀分布在各个处理器中,每个处理器的处理功能相同,具有正则性、对称性和容错性,且同步并行性更高,总的通信开销时间更短。

Description

以摩尔图为拓扑结构的并行矩阵乘计算的方法和***
技术领域
本发明涉及并行与分布式计算技术领域,特别涉及一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***。 
背景技术
大多数并行计算都是在基于总线、环和二维环绕网孔阵列、立方体、完全树等拓扑结构构造的超级计算机或分布式网络上实现的,数据加载过程中的通信开销占据了整个计算过程很大一部分开销,例如矩阵乘运算。
现有的矩阵乘计算经常采用Canon和Fox这两种基于二维环绕网孔阵列拓扑结构的并行处理技术,其基本过程包括装入、对准、循环单步移位和乘加3个步骤。装入是将用于进行乘运算的矩阵A,B按棋盘方式进行分块,然后按一定的规定将各个分块矩阵ai,j,bi,j加载到处理器Pi,j中。在装入过程中对数据装载的位置要求严格,要求数据必须在所规定的位置上。
在对准步骤上,Canon方法是将矩阵分块ai,j向左循环移动i步,将矩阵分块bi,j向上循环移动j步。Fox技术是将对角矩阵分块ai,j向所在行的其余处理器进行一到多播送。装入和对准两个步骤占据了Canon和Fox模块的很大一部分通信开销。这些开销是由于所采用的处理机互联拓扑结构的局限性所造成的。此外,扩展性也是一个比较大的问题,即计算效率往往会随着计算规模的增大而下降。
摩尔图是指在一定度和直径下包含最多节点的图,图中的节点连接成最稠密的形式,具有对称对等和节点之间整体通信开销最小的特点。直径为2的摩尔图的节点数n与图的度δ的关系为:n = δ2+1。图1和图2分别为直径为2,度为3和直径为2,度为7的两个摩尔图。
对摩尔图的研究主要集中在图论领域,基于摩尔图的应用也主要是在通信网络路由的设计方面,而如何采用摩尔图作为处理器互联的拓扑结构进行并行计算的文献和报道则较为鲜见。
有鉴于此,现有技术还有待改进和提高。
发明内容
本发明的目的在于提供一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***,以解决现有技术的并行矩阵乘计算中,装入和对准两个步骤占据了很大一部分通信开销,处理效率低下,不易扩展等问题。
为了达到上述目的,本发明采取了以下技术方案:
一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,用于对第一矩阵AM×N和第二矩阵BN×P进行相乘计算,使其得到乘积矩阵CM×P,其中,所述摩尔图的直径为2,度为δ,处理器的个数q=δ2+1,其中,所述方法包括以下步骤:
S1、将第一矩阵AM×N按行分解为q个每个大小为m行N列的第一矩阵分块,将第二矩阵BN×P按列分解为q个每个大小为N行p列的第二矩阵分块;其中,m=M除以q,p=P除以q;
S2、每个处理器Pi随机地接收一个第一矩阵分块和一个第二矩阵分块,完成乘积矩阵CM×P中大小为m行p列的第i个分块Cm×p的计算;
S3、将乘积矩阵分块Cm×p叠加在一起,组成乘积矩阵CM×P
所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,其中,在所述步骤S1中,通过对第一矩阵AM×N和第二矩阵BN×P添加若干值为0的行和列,确保m、p的值为整数。
所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,其中,所述步骤S2进一步包括:
S21、每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块;
S22、每个处理器将分配给自己的1个第一矩阵分块传送给相邻的δ个处理器;
S23、每个处理器Pi收到来自相邻处理器传送的δ个第一矩阵分块后,检查其中及本身初始分配的第一矩阵分块中是否有第一矩阵的第i个矩阵分块,若有则保存到处理器相应的寄存器中,若无则进行步骤S24;
S24、每个处理器将步骤S24中收到的第一矩阵分块中除了来自要发送处理器的第一矩阵分块外的(δ-1)个第一矩阵分块分别传送给相邻的处理器;
S25、每个处理器Pi收到来自相邻处理器传送的δ×(δ-1)个第一矩阵分块后,检查其中是否有第一矩阵的第i个矩阵分块,若有则保存到处理器相应的寄存器中;
S26、每个处理器将分配给自己的1个第二矩阵分块传送给相邻的δ个处理器;
S27、各处理器Pi将保存到各自寄存器的第一矩阵分块分别与本身初始分配的第二矩阵分块,以及来自相邻处理器传送的δ个第二矩阵分块相乘,得到乘积矩阵C的第i个分块的(δ+1)个列子分块;
S28、每个处理器将步骤S27中收到的第二矩阵分块中除了来自要发送处理器的第二矩阵分块外的(δ-1)个第二矩阵分块分别传送给相邻的处理器;
S29、各处理器Pi将保存到各自寄存器的第一矩阵分块与其收到来自相邻处理器传送的第二矩阵的δ×(δ-1)个矩阵分块相乘,得到乘积矩阵C的第i个分块的剩余的δ×(δ-1)个列子分块;
S30、则组合后,得到乘积矩阵CM×P中大小为m行p列的第i个矩阵分块Cm×p
所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,其中,所述度为3,处理器的个数q=10。
一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,其中,所述***包括若干个处理器,所述处理器之间以摩尔图为拓扑结构相连。
所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,其中,所述摩尔图的直径为2,度为3,处理器的个数为10个。
所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,其中,所述摩尔图的直径为2,度为7,处理器的个数为50个。
一种所述的***的扩展结构,其中,包括若干个以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,通过增加权利要求5所述的***的度和直径而组成所述扩展结构。
所述的***的扩展结构,其中,包括2个***,每个***中包括10个处理器,每个***的摩尔图的直径为2,度为3;组成的扩展结构的度为4直径为3。
有益效果:
本发明提供的以摩尔图为拓扑结构的并行矩阵乘计算的方法和***,采用摩尔图作为并行计算的基本结构,计算负载能均匀分布在各个处理器中,每个处理器的处理功能相同,具有正则性、对称性和容错性,且同步并行性更高,总的通信开销时间更短。
附图说明
图1为直径为2,度为3的摩尔图的示意图。
图2为直径为2,度为7的摩尔图的示意图。
图3为本发明的以摩尔图为拓扑结构的并行矩阵乘计算的方法的流程图。
图4为本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***的实施例的示意图。
图5为本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法与现有技术的并行矩阵乘计算的方法的比较示意图。
图6为本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***的扩展结构的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。本发明提供了一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,用于对第一矩阵AM×N和第二矩阵BN×P进行相乘计算,使其得到乘积矩阵CM×P,其中,所述摩尔图的直径为2,度为δ,处理器的个数q=δ2+1。
请参阅图3,其为本发明的以摩尔图为拓扑结构的并行矩阵乘计算的方法的流程图。如图所示,所述方法包括以下步骤:
S1、将第一矩阵AM×N按行分解为q个每个大小为m行N列的第一矩阵分块,将第二矩阵BN×P按列分解为q个每个大小为N行p列的第二矩阵分块;其中,m=M除以q,p=P除以q;
S2、每个处理器Pi随机地接收一个第一矩阵分块和一个第二矩阵分块,完成乘积矩阵CM×P中大小为m行p列的第i个矩阵分块Cm×p的计算;
S3、将乘积矩阵分块Cm×p叠加在一起,组成乘积矩阵CM×P
下面分别针对上述步骤进行详细描述:
所述步骤S1为将第一矩阵AM×N和第二矩阵BN×P分解为相应的矩阵分块,具体步骤为:将第一矩阵AM×N按行分解为q个每个大小为m行N列的第一矩阵分块,将第二矩阵BN×P按列分解为q个每个大小为N行p列的第二矩阵分块;其中,m=M除以q,p=P除以q。为了方便描述,我们以度为3,直径为2的摩尔图为例来说明,其中,摩尔图的节点数(即对应的处理器的个数)为10。进一步地,因为m 、p满足:m=M除以q,p=P除以q,且m、p的值为整数。所以我们可以通过对第一矩阵AM×N和第二矩阵BN×P添加若干值为0的行和列,确保m、p的值为整数,此方式为现有技术,这里就不再赘述了。
所述步骤S2是本发明的关键,因为采用了摩尔图的拓扑结构,每个处理器Pi便可以随机地接收一个第一矩阵分块和一个第二矩阵分块,完成乘积矩阵CM×P中大小为m行p列的第i个分块Cm×p的计算。而无需像现有技术中那样包括装入、对准等步骤,大大缩短了时间。
为了方便描述,我们以度为3,直径为2的摩尔图为例来说明,其中,摩尔图的节点数(即对应的处理器的个数)为10,如图4所示,每个处理器Pi(i=0, 1, …9)将随机地接收到了一个第一矩阵分块和一个第二矩阵分块。然后进行乘运算:
(1)每个处理器将分配给自己的1个第一矩阵的分块传送给相邻的3个处理器;例如:处理器P9将其接收的第一矩阵的分块发送给P3、P5和P7
(2)每个处理器Pi(i=0,1,2,…,9)收到来自相邻处理器传送的第一矩阵的3个矩阵分块后,检查其中及本身初始分配的第一矩阵分块中是否有第一矩阵的第i个分块,若有则保存到处理器相应的寄存器中;
(3)每个处理器将第(2)步收到的第一矩阵的3个矩阵分块中除了来自要发送处理器的另外2个分块分别传送给相邻的3个处理器;
(4)每个处理器Pi(i=0,1,2,…,9)收到来自相邻处理器传送的6个第一矩阵分块后,检查其中是否有第一矩阵的第i个分块,若有则保存到处理器相应的寄存器中;
(5)对第二矩阵分块也采用相同处理,每个处理器将分配给自己的1个第二矩阵分块传送给相邻的3个处理器;
(6)各处理器Pi(i=0,1,2,…,9)将保存到各自寄存器的第一矩阵分块分别与本身初始分配的第二矩阵分块,以及每个处理器收到来自相邻处理器传送的第二矩阵的3个矩阵分块相乘,得到乘积矩阵C的第i个分块的4个列子分块;
(7)每个处理器将第(6)步收到的第二矩阵的3个矩阵分块中除了来自要发送处理器的另外2个分块分别传送给相邻的3个处理器;
(8)各处理器Pi(i=0,1,2,…,9)将保存到各自寄存器的第一矩阵分块与每个处理器收到来自相邻处理器传送的第二矩阵的6个矩阵分块相乘,得到C矩阵第i个分块的剩余的6个列子分块;组合后,便完成乘积矩阵第i个矩阵分块的计算。
同样地,当所述以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法中,度为δ,处理器的个数q=δ2+1时,其所述步骤S2进一步包括:
S21、每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块;
S22、每个处理器将分配给自己的1个第一矩阵分块传送给相邻的δ个处理器;
S23、每个处理器Pi收到来自相邻处理器传送的δ个第一矩阵分块后,检查其中及本身初始分配的第一矩阵分块中是否有第一矩阵的第i个矩阵分块,若有则保存到处理器相应的寄存器中,若无则进行步骤S24;
S24、每个处理器将步骤S24中收到的第一矩阵分块中除了来自要发送处理器的第一矩阵分块外的(δ-1)个矩阵分块分别传送给相邻的处理器;
S25、每个处理器Pi收到来自相邻处理器传送的δ×(δ-1)个第一矩阵分块后,检查其中是否有第一矩阵的第i个矩阵分块,若有则保存到处理器相应的寄存器中;
S26、每个处理器将分配给自己的1个第二矩阵分块传送给相邻的δ个处理器;
S27、各处理器Pi将保存到各自寄存器的第一矩阵分块分别与本身初始分配的第二矩阵分块,以及来自相邻处理器传送的δ个第二矩阵分块相乘,得到乘积矩阵C的第i个分块的(δ+1)个列子分块;
S28、每个处理器将步骤S27中收到的第二矩阵分块中除了来自要发送处理器的第二矩阵分块外的(δ-1)个矩阵分块分别传送给相邻的处理器;
S29、各处理器Pi将保存到各自寄存器的第一矩阵分块与每个处理器收到来自相邻处理器传送的第二矩阵的δ×(δ-1)个矩阵分块相乘,得到乘积矩阵C的第i个分块的剩余的δ×(δ-1)个列子分块;
S30、则组合后,得到乘积矩阵CM×P中大小为m行p列的第i个矩阵分块Cm×p
所述步骤S3为将最终矩阵分块Cm×p叠加在一起,组成乘积矩阵CM×P,完成了第一矩阵AM×N和第二矩阵BN×P乘计算。
本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法与现有技术的Canon和Fox算法的比较,如图5所示,其中ts为启动时间(包括打包、执行选路算法和建立通信界面的时间),tw是传输每个字的时间。由图5可见,由于本方法的通信开销大大小于其它2种方法,因此本方法更适用于大规模矩阵的乘法运算。另外,Canon和Fox等方法要求开始时矩阵分块要装入到固定的处理器中,而本方法由于矩阵分块可随机分布在各处理器中而无此开销,总的通信开销时间更短了。
与上述方法对应的是,本发明还提供了一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,其中,所述***包括若干个处理器,所述处理器之间以摩尔图为拓扑结构相连。其中,所述摩尔图的直径为2,度为3,处理器的个数为10个,如图4所示。当然,也可以是直径为2度为7的具有50个处理器的并行矩阵乘计算的***,其拓扑结构可参见图2。
我们可以讲上述以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***应用在集成电路和矩阵乘法器专用芯片上面,其计算过程中同步性好、通信开销小、加速比高,便于硬件化实现以及可对任意大小的矩阵进行分块计算等特点。
此外,所述以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,还具有良好的可扩展性。例如,在图4 所示的***的基础上,通过增加图的直径和度形成更大规模的扩展结构,如图6所示。相比图4的结构,采用图6结构的计算方法的通信开销中仅增加了0.5倍的启动时间ts,而计算时间降低了1倍;采用图2结构的计算方法由于处理器能够同步向相邻的7个处理器传输数据,其总的通信开销反而由于同步传输能力的提高有所下降,而计算时间降低了4倍。表明本方法在以直径为2的摩尔图拓扑结构组建的并行矩阵乘计算的***上具有理想的加速比和良好的可扩展特性。概括来说,所述扩展结构包括若干个以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,通过所述的***的度和直径而组成所述扩展结构。如图6所示,其包括2个***第一***包括处理器10个:Pi(i=0,1,2,…,9);第二***包括处理器10个:Pi(i=10,11,12,…,19),每个***的摩尔图的直径为2,度为3;组成的扩展结构的度为4直径为3。
综上所述,本发明提供了一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***;其首先将第一矩阵按行分解为若干第一矩阵分块,将第二矩阵按列分解为若干第二矩阵分块;然后每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块,完成最终矩阵中的最终矩阵分块的计算;最后将最终矩阵分块叠加在一起,组成最终矩阵。所述***采用摩尔图作为并行计算的基本结构,计算负载能均匀分布在各个处理器中,每个处理器的处理功能相同,具有正则性、对称性和容错性,且同步并行性更高,总的通信开销时间更短。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (9)

1.一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,用于对第一矩阵AM×N和第二矩阵BN×P进行相乘计算,使其得到乘积矩阵CM×P,其中,所述摩尔图的直径为2,度为δ,处理器的个数q=δ2+1,其特征在于,所述方法包括以下步骤:
S1、将第一矩阵AM×N按行分解为q个每个大小为m行N列的第一矩阵分块,将第二矩阵BN×P按列分解为q个每个大小为N行p列的第二矩阵分块;其中,m=M除以q,p=P除以q;
S2、每个处理器Pi随机地接收一个第一矩阵分块和一个第二矩阵分块,完成乘积矩阵CM×P中大小为m行p列的第i个矩阵分块Cm×p的计算;
S3、将乘积矩阵分块Cm×p叠加在一起,组成乘积矩阵CM×P
2.根据权利要求1所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,其特征在于,在所述步骤S1中,通过对第一矩阵AM×N和第二矩阵BN×P添加若干值为0的行和列,确保m、p的值为整数。
3.根据权利要求1所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,其特征在于,所述步骤S2进一步包括:
S21、每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块;
S22、每个处理器将分配给自己的1个第一矩阵分块传送给相邻的δ个处理器;
S23、每个处理器Pi收到来自相邻处理器传送的δ个第一矩阵分块后,检查其中及本身初始分配的第一矩阵分块中是否有第一矩阵的第i个矩阵分块,若有则保存到处理器相应的寄存器中,若无则进行步骤S24;
S24、每个处理器将步骤S24中收到的第一矩阵分块中除了来自要发送处理器的第一矩阵分块外的(δ-1)个第一矩阵分块分别传送给相邻的处理器;
S25、每个处理器Pi收到来自相邻处理器传送的δ×(δ-1)个第一矩阵分块后,检查其中是否有第一矩阵的第i个矩阵分块,若有则保存到处理器相应的寄存器中;
S26、每个处理器将分配给自己的1个第二矩阵分块传送给相邻的δ个处理器;
S27、各处理器Pi将保存到各自寄存器的第一矩阵分块分别与本身初始分配的第二矩阵分块,以及来自相邻处理器传送的δ个第二矩阵的矩阵分块相乘,得到乘积矩阵C的第i个分块的(δ+1)个列子分块;
S28、每个处理器将步骤S27中收到的第二矩阵分块中除了来自要发送处理器的第二矩阵分块外的(δ-1)个第二矩阵分块分别传送给相邻的处理器;
S29、各处理器Pi将保存到各自寄存器的第一矩阵分块与其收到的来自相邻处理器传送的第二矩阵的δ×(δ-1)个第二矩阵分块相乘,得到乘积矩阵C第i个分块的剩余的δ×(δ-1)个列子分块;
S30、则组合后,得到乘积矩阵CM×P中大小为m行p列的第i个矩阵分块Cm×p
4.根据权利要求1所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法,其特征在于,所述度为3,处理器的个数q=10。
5.一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,其特征在于,所述***包括若干个处理器,所述处理器之间以摩尔图为拓扑结构相连。
6.根据权利要求5所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,其特征在于,所述摩尔图的直径为2,度为3,处理器的个数为10个。
7.根据权利要求5所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,其特征在于,所述摩尔图的直径为2,度为7,处理器的个数为50个。
8.一种权利要求5所述的***的扩展结构,其特征在于,包括若干个以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***,通过增加权利要求5所述的***的度和直径而组成所述扩展结构。
9.根据权利要求8所述的***的扩展结构,其特征在于,包括2个***,每个***中包括10个处理器,每个***的摩尔图的直径为2,度为3;组成的扩展结构的度为4直径为3。
CN201210100920.1A 2012-04-09 2012-04-09 以摩尔图为拓扑结构的并行矩阵乘计算的方法和*** Expired - Fee Related CN102737010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210100920.1A CN102737010B (zh) 2012-04-09 2012-04-09 以摩尔图为拓扑结构的并行矩阵乘计算的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210100920.1A CN102737010B (zh) 2012-04-09 2012-04-09 以摩尔图为拓扑结构的并行矩阵乘计算的方法和***

Publications (2)

Publication Number Publication Date
CN102737010A true CN102737010A (zh) 2012-10-17
CN102737010B CN102737010B (zh) 2014-12-17

Family

ID=46992537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210100920.1A Expired - Fee Related CN102737010B (zh) 2012-04-09 2012-04-09 以摩尔图为拓扑结构的并行矩阵乘计算的方法和***

Country Status (1)

Country Link
CN (1) CN102737010B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205519A (zh) * 2016-12-20 2018-06-26 上海寒武纪信息科技有限公司 矩阵乘加运算装置和方法
CN109886398A (zh) * 2019-01-03 2019-06-14 曾集伟 神经网络矩阵乘法运算方法及相关产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153702A1 (en) * 2009-12-23 2011-06-23 Starhill Philip M Multiplication of a vector by a product of elementary matrices
CN102110079A (zh) * 2011-03-07 2011-06-29 杭州电子科技大学 一种基于mpi的分布式共轭梯度法的调优计算方法
WO2011161202A2 (en) * 2010-06-25 2011-12-29 Intracom S.A. Telecom Solutions A parallel multi-pipeline systolic array for complex singular value decomposition on a multi-processor device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110153702A1 (en) * 2009-12-23 2011-06-23 Starhill Philip M Multiplication of a vector by a product of elementary matrices
WO2011161202A2 (en) * 2010-06-25 2011-12-29 Intracom S.A. Telecom Solutions A parallel multi-pipeline systolic array for complex singular value decomposition on a multi-processor device
CN102110079A (zh) * 2011-03-07 2011-06-29 杭州电子科技大学 一种基于mpi的分布式共轭梯度法的调优计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HOFFMAN A J ET AL.: "On Moore graphs with diameters 2 and 3", 《IBM JOURNAL OF RESEARCH AND DEVELOPMENT》, vol. 4, no. 5, 31 December 1960 (1960-12-31), pages 497 - 504 *
ZHANGBING ET AL.: "《Proceedings of 2007 International Symposium on Distributed Computing and Applications to Business,Engineering and Science》", 14 August 2007, article "A Parallel Sorting Scheme of 50 Numbers and its Hardware Implementation on FPGA", pages: 1213-1216 *
王雷等: "二维环/双环互连Petersen图网络及其路由算法", 《计算机学报》, vol. 27, no. 9, 30 September 2004 (2004-09-30), pages 1290 - 1296 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205519A (zh) * 2016-12-20 2018-06-26 上海寒武纪信息科技有限公司 矩阵乘加运算装置和方法
CN109886398A (zh) * 2019-01-03 2019-06-14 曾集伟 神经网络矩阵乘法运算方法及相关产品

Also Published As

Publication number Publication date
CN102737010B (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN108875958B (zh) 使用外积单元的原生张量处理器
CN104156267B (zh) 任务分配方法、任务分配装置及片上网络
Désir et al. Sparse process flexibility designs: Is the long chain really optimal?
KR20130090147A (ko) 신경망 컴퓨팅 장치 및 시스템과 그 방법
CN105956659A (zh) 数据处理装置和***、服务器
CN109863477A (zh) 具有本地化存储器的矩阵处理器
GB2445084B (en) Method and apparatus for clustered filtering in an rfid infrastructure
CN105049353A (zh) 一种为业务配置路由路径的方法及控制器
CN102025753B (zh) 一种服务器数据资源负载均衡处理方法及设备
CN104301434A (zh) 一种基于集群的高速通信架构及方法
CN111582494A (zh) 一种基于延迟处理的混合分布式机器学习更新方法
CN103942253A (zh) 一种负载均衡的空间数据处理方法和***
Distler et al. The semigroups of order 10
US20230088237A1 (en) Efficient and more advanced implementation of ring-allreduce algorithm for distributed parallel deep learning
CN102737010A (zh) 以摩尔图为拓扑结构的并行矩阵乘计算的方法和***
CN112149047A (zh) 数据的处理方法及装置、存储介质和电子装置
CN104281636A (zh) 海量报表数据并发分布式处理方法
CN111626410B (zh) 一种稀疏卷积神经网络加速器及计算方法
CN112217652B (zh) 一种基于中心通信模式的网络拓扑装置及方法
CN105183692A (zh) 一种集群***设备间数据通信方法与***
CN103914429B (zh) 用于粗粒度动态可重构阵列的多模式数据传输互连器
EP4006736A1 (en) Connecting processors using twisted torus configurations
CN109523019A (zh) 加速器、基于fpga的加速***及控制方法、cnn网络***
CN114374640A (zh) 一种基于时间触发以太网的业务调度方法
US20210241078A1 (en) Hyper-square implementation of tree allreduce algorithm for distributed parallel deep learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141217

Termination date: 20150409

EXPY Termination of patent right or utility model