CN102737010A

CN102737010A - 以摩尔图为拓扑结构的并行矩阵乘计算的方法和***

Info

Publication number: CN102737010A
Application number: CN2012101009201A
Authority: CN
Inventors: 张冰; 昝程
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2012-04-09
Filing date: 2012-04-09
Publication date: 2012-10-17
Anticipated expiration: 2032-04-09
Also published as: CN102737010B

Abstract

本发明公开了一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***；其首先将第一矩阵按行分解为若干第一矩阵分块，将第二矩阵按列分解为若干第二矩阵分块；然后每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块，经过若干步骤后完成乘积矩阵中的相应矩阵分块的计算；最后将乘积矩阵分块叠加在一起，组成乘积矩阵。所述***采用摩尔图作为并行计算的基本结构，计算负载能均匀分布在各个处理器中，每个处理器的处理功能相同，具有正则性、对称性和容错性，且同步并行性更高，总的通信开销时间更短。

Description

以摩尔图为拓扑结构的并行矩阵乘计算的方法和***

技术领域

本发明涉及并行与分布式计算技术领域，特别涉及一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***。

背景技术

大多数并行计算都是在基于总线、环和二维环绕网孔阵列、立方体、完全树等拓扑结构构造的超级计算机或分布式网络上实现的，数据加载过程中的通信开销占据了整个计算过程很大一部分开销，例如矩阵乘运算。

现有的矩阵乘计算经常采用Canon和Fox这两种基于二维环绕网孔阵列拓扑结构的并行处理技术，其基本过程包括装入、对准、循环单步移位和乘加3个步骤。装入是将用于进行乘运算的矩阵A，B按棋盘方式进行分块，然后按一定的规定将各个分块矩阵a_i,j，b_i,j加载到处理器P_i,j中。在装入过程中对数据装载的位置要求严格，要求数据必须在所规定的位置上。

在对准步骤上，Canon方法是将矩阵分块a_i,j向左循环移动i步，将矩阵分块b_i,j向上循环移动j步。Fox技术是将对角矩阵分块a_i,j向所在行的其余处理器进行一到多播送。装入和对准两个步骤占据了Canon和Fox模块的很大一部分通信开销。这些开销是由于所采用的处理机互联拓扑结构的局限性所造成的。此外，扩展性也是一个比较大的问题，即计算效率往往会随着计算规模的增大而下降。

摩尔图是指在一定度和直径下包含最多节点的图，图中的节点连接成最稠密的形式，具有对称对等和节点之间整体通信开销最小的特点。直径为2的摩尔图的节点数n与图的度δ的关系为：n = δ²+1。图1和图2分别为直径为2，度为3和直径为2，度为7的两个摩尔图。

对摩尔图的研究主要集中在图论领域，基于摩尔图的应用也主要是在通信网络路由的设计方面，而如何采用摩尔图作为处理器互联的拓扑结构进行并行计算的文献和报道则较为鲜见。

有鉴于此，现有技术还有待改进和提高。

发明内容

本发明的目的在于提供一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***，以解决现有技术的并行矩阵乘计算中，装入和对准两个步骤占据了很大一部分通信开销，处理效率低下，不易扩展等问题。

为了达到上述目的，本发明采取了以下技术方案：

一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，用于对第一矩阵A_M×N和第二矩阵B_N×P进行相乘计算，使其得到乘积矩阵C_M×P，其中，所述摩尔图的直径为2，度为δ，处理器的个数q=δ²+1，其中，所述方法包括以下步骤：

S1、将第一矩阵A_M×N按行分解为q个每个大小为m行N列的第一矩阵分块，将第二矩阵B_N×P按列分解为q个每个大小为N行p列的第二矩阵分块；其中，m=M除以q，p=P除以q；

S2、每个处理器P_i随机地接收一个第一矩阵分块和一个第二矩阵分块，完成乘积矩阵C_M×P中大小为m行p列的第i个分块C_m×p的计算；

S3、将乘积矩阵分块C_m×p叠加在一起，组成乘积矩阵C_M×P。

所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，其中，在所述步骤S1中，通过对第一矩阵A_M×N和第二矩阵B_N×P添加若干值为0的行和列，确保m、p的值为整数。

所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，其中，所述步骤S2进一步包括：

S21、每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块；

S22、每个处理器将分配给自己的1个第一矩阵分块传送给相邻的δ个处理器；

S23、每个处理器P_i收到来自相邻处理器传送的δ个第一矩阵分块后，检查其中及本身初始分配的第一矩阵分块中是否有第一矩阵的第i个矩阵分块，若有则保存到处理器相应的寄存器中，若无则进行步骤S24；

S24、每个处理器将步骤S24中收到的第一矩阵分块中除了来自要发送处理器的第一矩阵分块外的（δ-1）个第一矩阵分块分别传送给相邻的处理器；

S25、每个处理器P_i收到来自相邻处理器传送的δ×（δ-1）个第一矩阵分块后，检查其中是否有第一矩阵的第i个矩阵分块，若有则保存到处理器相应的寄存器中；

S26、每个处理器将分配给自己的1个第二矩阵分块传送给相邻的δ个处理器；

S27、各处理器P_i将保存到各自寄存器的第一矩阵分块分别与本身初始分配的第二矩阵分块，以及来自相邻处理器传送的δ个第二矩阵分块相乘，得到乘积矩阵C的第i个分块的（δ+1）个列子分块；

S28、每个处理器将步骤S27中收到的第二矩阵分块中除了来自要发送处理器的第二矩阵分块外的（δ-1）个第二矩阵分块分别传送给相邻的处理器；

S29、各处理器P_i将保存到各自寄存器的第一矩阵分块与其收到来自相邻处理器传送的第二矩阵的δ×（δ-1）个矩阵分块相乘，得到乘积矩阵C的第i个分块的剩余的δ×（δ-1）个列子分块；

S30、则组合后，得到乘积矩阵C_M×P中大小为m行p列的第i个矩阵分块C_m×p。

所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，其中，所述度为3，处理器的个数q=10。

一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，其中，所述***包括若干个处理器，所述处理器之间以摩尔图为拓扑结构相连。

所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，其中，所述摩尔图的直径为2，度为3，处理器的个数为10个。

所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，其中，所述摩尔图的直径为2，度为7，处理器的个数为50个。

一种所述的***的扩展结构，其中，包括若干个以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，通过增加权利要求5所述的***的度和直径而组成所述扩展结构。

所述的***的扩展结构，其中，包括2个***，每个***中包括10个处理器，每个***的摩尔图的直径为2，度为3；组成的扩展结构的度为4直径为3。

有益效果：

本发明提供的以摩尔图为拓扑结构的并行矩阵乘计算的方法和***，采用摩尔图作为并行计算的基本结构，计算负载能均匀分布在各个处理器中，每个处理器的处理功能相同，具有正则性、对称性和容错性，且同步并行性更高，总的通信开销时间更短。

附图说明

图1为直径为2，度为3的摩尔图的示意图。

图2为直径为2，度为7的摩尔图的示意图。

图3为本发明的以摩尔图为拓扑结构的并行矩阵乘计算的方法的流程图。

图4为本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***的实施例的示意图。

图5为本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法与现有技术的并行矩阵乘计算的方法的比较示意图。

图6为本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***的扩展结构的实施例的示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实例对本发明进一步详细说明。本发明提供了一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，用于对第一矩阵A_M×N和第二矩阵B_N×P进行相乘计算，使其得到乘积矩阵C_M×P，其中，所述摩尔图的直径为2，度为δ，处理器的个数q=δ²+1。

请参阅图3，其为本发明的以摩尔图为拓扑结构的并行矩阵乘计算的方法的流程图。如图所示，所述方法包括以下步骤：

S2、每个处理器P_i随机地接收一个第一矩阵分块和一个第二矩阵分块，完成乘积矩阵C_M×P中大小为m行p列的第i个矩阵分块C_m×p的计算；

S3、将乘积矩阵分块C_m×p叠加在一起，组成乘积矩阵C_M×P。

下面分别针对上述步骤进行详细描述：

所述步骤S1为将第一矩阵A_M×N和第二矩阵B_N×P分解为相应的矩阵分块，具体步骤为：将第一矩阵A_M×N按行分解为q个每个大小为m行N列的第一矩阵分块，将第二矩阵B_N×P按列分解为q个每个大小为N行p列的第二矩阵分块；其中，m=M除以q，p=P除以q。为了方便描述，我们以度为3，直径为2的摩尔图为例来说明，其中，摩尔图的节点数（即对应的处理器的个数）为10。进一步地，因为m 、p满足：m=M除以q，p=P除以q，且m、p的值为整数。所以我们可以通过对第一矩阵A_M×N和第二矩阵B_N×P添加若干值为0的行和列，确保m、p的值为整数，此方式为现有技术，这里就不再赘述了。

所述步骤S2是本发明的关键，因为采用了摩尔图的拓扑结构，每个处理器P_i便可以随机地接收一个第一矩阵分块和一个第二矩阵分块，完成乘积矩阵C_M×P中大小为m行p列的第i个分块C_m×p的计算。而无需像现有技术中那样包括装入、对准等步骤，大大缩短了时间。

为了方便描述，我们以度为3，直径为2的摩尔图为例来说明，其中，摩尔图的节点数（即对应的处理器的个数）为10，如图4所示，每个处理器P_i(i=0, 1, …9)将随机地接收到了一个第一矩阵分块和一个第二矩阵分块。然后进行乘运算：

（1）每个处理器将分配给自己的1个第一矩阵的分块传送给相邻的3个处理器；例如：处理器P₉将其接收的第一矩阵的分块发送给P₃、P₅和P₇；

（2）每个处理器P_i（i=0,1,2,…,9）收到来自相邻处理器传送的第一矩阵的3个矩阵分块后，检查其中及本身初始分配的第一矩阵分块中是否有第一矩阵的第i个分块，若有则保存到处理器相应的寄存器中；

（3）每个处理器将第（2）步收到的第一矩阵的3个矩阵分块中除了来自要发送处理器的另外2个分块分别传送给相邻的3个处理器；

（4）每个处理器P_i（i=0,1,2,…,9）收到来自相邻处理器传送的6个第一矩阵分块后，检查其中是否有第一矩阵的第i个分块，若有则保存到处理器相应的寄存器中；

（5）对第二矩阵分块也采用相同处理，每个处理器将分配给自己的1个第二矩阵分块传送给相邻的3个处理器；

（6）各处理器P_i（i=0,1,2,…,9）将保存到各自寄存器的第一矩阵分块分别与本身初始分配的第二矩阵分块，以及每个处理器收到来自相邻处理器传送的第二矩阵的3个矩阵分块相乘，得到乘积矩阵C的第i个分块的4个列子分块；

（7）每个处理器将第（6）步收到的第二矩阵的3个矩阵分块中除了来自要发送处理器的另外2个分块分别传送给相邻的3个处理器；

（8）各处理器P_i（i=0,1,2,…,9）将保存到各自寄存器的第一矩阵分块与每个处理器收到来自相邻处理器传送的第二矩阵的6个矩阵分块相乘，得到C矩阵第i个分块的剩余的6个列子分块；组合后，便完成乘积矩阵第i个矩阵分块的计算。

同样地，当所述以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法中，度为δ，处理器的个数q=δ²+1时，其所述步骤S2进一步包括：

S24、每个处理器将步骤S24中收到的第一矩阵分块中除了来自要发送处理器的第一矩阵分块外的（δ-1）个矩阵分块分别传送给相邻的处理器；

S28、每个处理器将步骤S27中收到的第二矩阵分块中除了来自要发送处理器的第二矩阵分块外的（δ-1）个矩阵分块分别传送给相邻的处理器；

S29、各处理器P_i将保存到各自寄存器的第一矩阵分块与每个处理器收到来自相邻处理器传送的第二矩阵的δ×（δ-1）个矩阵分块相乘，得到乘积矩阵C的第i个分块的剩余的δ×（δ-1）个列子分块；

所述步骤S3为将最终矩阵分块C_m×p叠加在一起，组成乘积矩阵C_M×P，完成了第一矩阵A_M×N和第二矩阵B_N×P乘计算。

本发明的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法与现有技术的Canon和Fox算法的比较，如图5所示，其中t_s为启动时间（包括打包、执行选路算法和建立通信界面的时间），t_w是传输每个字的时间。由图5可见，由于本方法的通信开销大大小于其它2种方法，因此本方法更适用于大规模矩阵的乘法运算。另外，Canon和Fox等方法要求开始时矩阵分块要装入到固定的处理器中，而本方法由于矩阵分块可随机分布在各处理器中而无此开销，总的通信开销时间更短了。

与上述方法对应的是，本发明还提供了一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，其中，所述***包括若干个处理器，所述处理器之间以摩尔图为拓扑结构相连。其中，所述摩尔图的直径为2，度为3，处理器的个数为10个，如图4所示。当然，也可以是直径为2度为7的具有50个处理器的并行矩阵乘计算的***，其拓扑结构可参见图2。

我们可以讲上述以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***应用在集成电路和矩阵乘法器专用芯片上面，其计算过程中同步性好、通信开销小、加速比高，便于硬件化实现以及可对任意大小的矩阵进行分块计算等特点。

此外，所述以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，还具有良好的可扩展性。例如，在图4 所示的***的基础上，通过增加图的直径和度形成更大规模的扩展结构，如图6所示。相比图4的结构，采用图6结构的计算方法的通信开销中仅增加了0.5倍的启动时间t_s，而计算时间降低了1倍；采用图2结构的计算方法由于处理器能够同步向相邻的7个处理器传输数据，其总的通信开销反而由于同步传输能力的提高有所下降，而计算时间降低了4倍。表明本方法在以直径为2的摩尔图拓扑结构组建的并行矩阵乘计算的***上具有理想的加速比和良好的可扩展特性。概括来说，所述扩展结构包括若干个以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，通过所述的***的度和直径而组成所述扩展结构。如图6所示，其包括2个***第一***包括处理器10个：P_i（i=0,1,2,…,9）；第二***包括处理器10个：P_i（i=10,11,12,…,19），每个***的摩尔图的直径为2，度为3；组成的扩展结构的度为4直径为3。

综上所述，本发明提供了一种以摩尔图为拓扑结构的并行矩阵乘计算的方法和***；其首先将第一矩阵按行分解为若干第一矩阵分块，将第二矩阵按列分解为若干第二矩阵分块；然后每个处理器随机地接收一个第一矩阵分块和一个第二矩阵分块，完成最终矩阵中的最终矩阵分块的计算；最后将最终矩阵分块叠加在一起，组成最终矩阵。所述***采用摩尔图作为并行计算的基本结构，计算负载能均匀分布在各个处理器中，每个处理器的处理功能相同，具有正则性、对称性和容错性，且同步并行性更高，总的通信开销时间更短。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，用于对第一矩阵A_M×N和第二矩阵B_N×P进行相乘计算，使其得到乘积矩阵C_M×P，其中，所述摩尔图的直径为2，度为δ，处理器的个数q=δ²+1，其特征在于，所述方法包括以下步骤：

S3、将乘积矩阵分块C_m×p叠加在一起，组成乘积矩阵C_M×P。

2.根据权利要求1所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，其特征在于，在所述步骤S1中，通过对第一矩阵A_M×N和第二矩阵B_N×P添加若干值为0的行和列，确保m、p的值为整数。

3.根据权利要求1所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，其特征在于，所述步骤S2进一步包括：

S27、各处理器P_i将保存到各自寄存器的第一矩阵分块分别与本身初始分配的第二矩阵分块，以及来自相邻处理器传送的δ个第二矩阵的矩阵分块相乘，得到乘积矩阵C的第i个分块的（δ+1）个列子分块；

S29、各处理器P_i将保存到各自寄存器的第一矩阵分块与其收到的来自相邻处理器传送的第二矩阵的δ×（δ-1）个第二矩阵分块相乘，得到乘积矩阵C第i个分块的剩余的δ×（δ-1）个列子分块；

4.根据权利要求1所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的方法，其特征在于，所述度为3，处理器的个数q=10。

5.一种以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，其特征在于，所述***包括若干个处理器，所述处理器之间以摩尔图为拓扑结构相连。

6.根据权利要求5所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，其特征在于，所述摩尔图的直径为2，度为3，处理器的个数为10个。

7.根据权利要求5所述的以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，其特征在于，所述摩尔图的直径为2，度为7，处理器的个数为50个。

8.一种权利要求5所述的***的扩展结构，其特征在于，包括若干个以摩尔图为拓扑结构的处理器的并行矩阵乘计算的***，通过增加权利要求5所述的***的度和直径而组成所述扩展结构。

9.根据权利要求8所述的***的扩展结构，其特征在于，包括2个***，每个***中包括10个处理器，每个***的摩尔图的直径为2，度为3；组成的扩展结构的度为4直径为3。