CN117349585A

CN117349585A - 一种基于加速器约束的算子性能优化方法

Info

Publication number: CN117349585A
Application number: CN202311644953.7A
Authority: CN
Inventors: 钟阳宇; 杜凯; 刘忠新; 温研; 邓强; 李解
Original assignee: Beijing Linzhuo Information Technology Co Ltd
Current assignee: Beijing Linzhuo Information Technology Co Ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-01-05
Anticipated expiration: 2043-12-04
Also published as: CN117349585B

Abstract

本发明公开了一种基于加速器约束的算子性能优化方法，基于获取到的加速器第一参数确定第一约束，再根据第一约束建立测试矩阵组集合及与测试矩阵组集合对应的测试矩阵组组合集合，再采用目标深度学习加速器完成所有测试子矩阵组的矩阵乘法运算并记录运算时间，将最小组合运算时间的矩阵组组合作为测试矩阵组的选定矩阵组组合并将选定矩阵组组合作为第二约束，对于待执行运算的输入数组分解确定目标组合，基于目标组合确定受限探索空间，最后以第二约束作为约束采用基于约束的模拟退火算法在该受限探索空间中执行寻优得到最优分解组合，从而有效提高相同加速器上的算子计算性能。

Description

一种基于加速器约束的算子性能优化方法

技术领域

本发明属于深度学习加速器技术领域，具体涉及一种基于加速器约束的算子性能优化方法。

背景技术

随着深度学习应用的不断增加，对于高性能计算的需求也越来越大。深度学习的加速主要是通过提高深度学习算子的计算效率和能耗效率，如何通过算法的计算特点与硬件架构的特点之间的匹配来实现最佳的性能和能耗效率仍然具有挑战。现有的性能优化方式主要是通过为CPU和GPU设计软件库，通过优化内存子***实现矩阵乘法的优化，此外，还有通过对数组进行分解以提高算子性能的方式，然而上述方式都未关注加速器的自身特性，因此未能有效解决加速器与算子的匹配问题，对算子性能的优化效果不佳。

发明内容

有鉴于此，本发明提供了一种基于加速器约束的算子性能优化方法，实现了基于约束的数组分解以获取最优的数组分解方式，进而得到最优的矩阵组合。

本发明提供的一种基于加速器约束的算子性能优化方法，包括以下步骤：

步骤1、获取目标深度学习加速器的第一参数，第一参数是指目标深度学习加速器能够支持的矩阵乘法运算的最小计算单元的尺寸记为(M，N，K)，将第一参数和第一参数中M、N及K三者的乘积共同作为第一约束；构建由测试矩阵组组成的测试矩阵组集合，在第一约束下将测试矩阵组分解为测试子矩阵组g(m，n，k)形成多种矩阵组组合G(M，N，K)，由所有矩阵组组合构成测试矩阵组集合对应的测试矩阵组组合集合，采用目标深度学习加速器完成测试矩阵组的每个矩阵组组合中所有测试子矩阵组的矩阵乘法运算并记录运算时间得到每个矩阵组组合的组合运算时间，将最小组合运算时间及与之对应的矩阵组组合的最大集合规模作为第二约束；

步骤2、对于待执行运算的输入数组A和B，数组A的维度为d_{_A}、数组B的维度为d_{_B}，且d_{_A}和d_{_B}均为不小于2的整数；若d_{_A}和d_{_B}均等于2且数组A与数组B的行数或列数相等则执行步骤3，若d_{_A}和d_{_B}一个等于2另一个等于3且数组A与数组B的行数或列数相等则执行步骤4，若d_{_A}和d_{_B}均不小于3则执行步骤5；

步骤3、将A与B的矩阵乘法运算表示为mma(num，O1，O2)且num=1、O1=A、O2=B、O1_c=O2_r，其中，num为参与运算矩阵的组数，O1及O2均为参与运算的矩阵，O1表示为(O1_r，O1_c)，O2表示为(O2_r，O2_c)，执行步骤6；

步骤4、将维度为3的数组分解为多个矩阵和一个向量，执行步骤6；

步骤5、令A为输入数组A=(n,ci,wi，hi)，B为卷积核B=(co,ci,kw，kh)，其中，n为卷积批次数，ci为输入通道数，wi为输入宽度，hi为输入高度，co为输出通道数，kw为卷积核宽度，kh为卷积核高度；若A或B的维度为2x+1，则将其分解为x-1个矩阵及由最后三个元素所组成的数组降维变形得到的矩阵A_ch′或B_ch′；若A或B的维度为2x，则将其分解为x个矩阵，并将最后一个矩阵变形为A_ch′或B_ch′；再将A与B的矩阵乘法运算表示为mma(num，O1，O2)且num=n*ci、O1=A_ch′、O2=B_ch′、O1_c=O2_r，执行步骤6；x为任意自然数；

步骤6、对于mma(num，O1，O2)中的矩阵O1(O1_r，O1_c)及O2(O2_r，O2_c)，将O1_r、O1_c或O2_r、O2_c作为待比较数值，若待比较数值中存在大于下阈值的值则执行步骤7，若待比较数值均不大于下阈值则将下阈值添加到待比较数值对应向量X的子集LX中再执行步骤10；

步骤7、若待比较数值大于上阈值则执行步骤8，否则执行步骤10；

步骤8、对待比较数值对应的向量执行模2除法，若结果为0则将待比较数值的取值设置为运算结果，并且记录模2除法的次数，执行步骤7；否则执行步骤9；

步骤9、对待比较数值对应的向量执行补零操作，将待比较数值设置为下一个待比较数值后执行步骤8；

步骤10、分解待比较数值对应的向量X，令2ⁱ为大于或等于第一最小值且小于或等于第一最大值的值，采用X=X-2ⁱ的方式分解X直到X小于或等于下阈值，记录所有i的取值，再将以2为底以i的取值为指数的结果作为维度保存到向量X的子集LX中，执行步骤6；当所有向量均完成分解后，执行步骤11；

步骤11、对所有向量子集LX中的数值进行排列组合得到num个矩阵组组合的集合GA(M，N，K)，由num个GA (M，N，K)得到受限探索空间，采用基于约束的模拟退火算法以第二约束为约束在该受限探索空间中执行寻优，得到满足最优计算时间的输入数组A和B的最优分解组合。

进一步地，所述步骤1中所述构建由测试矩阵组组成的测试矩阵组集合的方式为：以第一约束M、N及K中的最大值作为单个维度的最小值记为第一最小值MIN，设定单个维度的最大值记为第一最大值MAX，第一最大值选取大于第一最小值且为2的指数倍的数值；选取第一最小值与第一最大值之间的2的指数倍的数值构建测试矩阵组（m_TA，n_TB，k_TA），由所有的测试矩阵组组成测试矩阵组集合。

进一步地，所述步骤1中所述组合运算时间为矩阵组组合内的所有测试子矩阵组的矩阵乘法运算时间之和。

进一步地，所述步骤4中所述将维度为3的数组分解为多个矩阵和一个向量的方式为：假定A为3维数组A=(a_1，a_2，a_3)，B为2维数组B=(a_4，a_1)，那么将A分解为A′和A′′，其中A′=(a_1，a_2)、A′′=(a_3)，再将A与B的矩阵乘法运算表示为mma(num，O1，O2)且num=a_3、O1=A′、O2=B、O1_c=O2_r。

进一步地，所述步骤5中所述将最后一个矩阵变形为A_ch′或B_ch′的方式为：

令卷积运算的步长s=1、卷积填充p=0，则二维卷积运算得到的输出长为wo=(wi-kw+2p)/s+1、宽为ho=(hi-kh+2p)/s+1；对于每个通道的计算过程，均有n=1、ci=1则A_ch=(1,1,wi，hi)、B_ch=(co,1,kw，kh)；将A_ch降维为矩阵C=(wi，hi)，再将C变形为A_ch′=(kw*kh，wo*ho)，将B_ch降维为B_ch′=(co，kw*kh)。

有益效果

本发明基于获取到的加速器第一参数确定第一约束，再根据第一约束建立测试矩阵组集合及与测试矩阵组集合对应的测试矩阵组组合集合，再采用目标深度学习加速器完成所有测试子矩阵组的矩阵乘法运算并记录运算时间，将最小组合运算时间的矩阵组组合作为测试矩阵组的选定矩阵组组合并将选定矩阵组组合作为第二约束，对于待执行运算的输入数组分解确定目标组合，基于目标组合确定受限探索空间，最后以第二约束作为约束采用基于约束的模拟退火算法在该受限探索空间中执行寻优得到最优分解组合，从而有效提高相同加速器上的算子计算性能。

附图说明

图1为本发明提供的一种基于加速器约束的算子性能优化方法中数组分解过程示意图。

具体实施方式

下面列举实施例，对本发明进行详细描述。

本发明提供的一种基于加速器约束的算子性能优化方法，其核心思想是：基于获取到的加速器第一参数确定第一约束，再根据第一约束建立测试矩阵组集合及与测试矩阵组集合对应的测试矩阵组组合集合，再采用目标深度学习加速器完成所有测试子矩阵组的矩阵乘法运算并记录运算时间，将最小组合运算时间的矩阵组组合作为测试矩阵组的选定矩阵组组合并将选定矩阵组组合作为第二约束，对于待执行运算的输入数组分解确定目标组合，基于目标组合确定受限探索空间，最后以第二约束作为约束采用基于约束的模拟退火算法在该受限探索空间中执行寻优得到最优分解组合。

本发明提供的一种基于加速器约束的算子性能优化方法，具体包括以下步骤：

步骤1、获取目标深度学习加速器的型号和第一参数，第一参数是指目标深度学习加速器能够支持的矩阵乘法运算的最小计算单元的尺寸记为（M，N，K），即深度学习加速器能够支持的最小计算为矩阵A=M*K与矩阵B=K*N间的乘法运算；将第一参数和第一参数中M、N及K三者的乘积共同作为第一约束。

步骤2、以第一约束M、N及K中的最大值作为单个维度的最小值记为第一最小值MIN，设定单个维度的最大值记为第一最大值MAX，第一最大值选取大于第一最小值且为2的指数倍的数值；选取第一最小值与第一最大值之间的2的指数倍的数值构建测试矩阵组（m_TA，n_TB，k_TA），该测试矩阵组可表示为矩阵TA=m_TA*k_TA和矩阵TB=k_TB*n_TB，由所有的测试矩阵组组成测试矩阵组集合。

步骤3、针对测试矩阵组集合中的每个测试矩阵组，在第一约束下将其分解为多种矩阵组组合G(M，N，K)，由所有矩阵组组合构成测试矩阵组集合对应的测试矩阵组组合集合。其中，矩阵组组合包含多个由测试矩阵组分解得到的测试子矩阵组g(m，n，k)，矩阵组组合内的所有测试子矩阵组的矩阵乘法运算时间之和为该矩阵组组合的矩阵乘法运算时间记为组合运算时间。

由于不同测试子矩阵组的矩阵乘法运算时间不同所以不同矩阵组组合的组合计算时间也不同。

步骤4、对于测试矩阵组的每个矩阵组组合，改变矩阵组组合中元素的数据类型，再采用目标深度学习加速器完成其中所有测试子矩阵组的矩阵乘法运算并记录运算时间，由此得到每个矩阵组组合的组合运算时间；将多种矩阵组组合中具有最小组合运算时间且集合规模最大的矩阵组组合作为测试矩阵组的选定矩阵组组合，将选定矩阵组组合的组合运算时间及集合规模作为第二约束。

其中，矩阵组组合实际为由测试子矩阵组g(m，n，k)组成的集合，因此集合规模是指该矩阵组组合中元素的数量。本发明建立的第二约束实际反应了目标深度学习加速器在相对最短运算时间内所能支持的最大运算数量。

步骤5、对于待执行运算的输入数组A和B，数组A的维度为d_{_A}、数组B的维度为d_{_B}，且d_{_A}和d_{_B}均为不小于2的整数；若d_{_A}和d_{_B}均等于2且数组A与数组B的行数或列数相等则执行步骤6，若d_{_A}和d_{_B}一个等于2另一个等于3且数组A与数组B的行数或列数相等则执行步骤7，若d_{_A}和d_{_B}均不小于3则执行步骤8。

具体来说，本发明中执行矩阵乘法运算的输入数组，其维度可为二维、三维、四维、…、N维等，二维数组即为矩阵，三维数组是指由多个矩阵构成的数组，四维数组是指由多个三维数组构成的数组，以此类推，N维数组是指由多个N-1维数组构成的数组。例如，三维数组可表示为（a_1，a_2，a_3），其含义为该三维数组是由a_3个（a_1，a_2）矩阵构成；四维数组可表示为（a_1，a_2，a_3，a_4），其含义为该四维数组是由a_4个（a_1，a_2，a_3）三维数组构成；以此类推，N维数组可表示为（a_1，a_2，a_3，…，a_(N-1)，a_N），其含义为该N维数组是由a_N个（a_1，a_2，a_3，…，a_(N-1)）N-1维数组构成，其中，a_1、a_2、a_3、…、a_(N-1)均为数组的元素。

步骤6、对输入数组A和B，将A与B的矩阵乘法运算表示为mma(num，O1，O2)且num=1、O1=A、O2=B、O1_c=O2_r，即1组矩阵A与矩阵B执行矩阵乘法运算，再执行步骤9。其中，mma(num，O1，O2)为本发明定义的矩阵乘法运算函数，num为参与运算矩阵的组数，O1及O2均为参与运算的矩阵，O1表示为(O1_r，O1_c)，O2表示为(O2_r，O2_c)。

步骤7、将维度为3的数组分解为多个矩阵和一个向量，假定输入数组A为3维数组表示为A=(a_1，a_2，a_3)，输入数组B为2维数组表示为B=(a_4，a_1)，那么将A分解为A′和A′′，其中A′=(a_1，a_2)、A′′=(a_3)，再将A与B的矩阵乘法运算表示为mma(num，O1，O2)且num=a_3、O1=A′、O2=B、O1_c=O2_r，即a_3组矩阵A′与矩阵B执行矩阵乘法运算，执行步骤9。

步骤8、这种情况通常是卷积运算，因此令A为输入数组表示为A=(n,ci,wi，hi)，B为卷积核表示为B=(co,ci,kw，kh)，其中，n为卷积批次数，ci为输入通道数，wi为输入宽度，hi为输入高度，co为输出通道数，kw为卷积核宽度，kh为卷积核高度；若A或B的维度为奇数即其维度可表示为2x+1，则将其分解为x-1个矩阵及由最后三个元素所组成数组降维变形得到的矩阵A_ch′或B_ch′；若A或B的维度为偶数即其维度可表示为2x，则将其分解为x个矩阵，并将最后一个矩阵变形为A_ch′或B_ch′；再将A与B的矩阵乘法运算表示为mma(num，O1，O2)且num=n*ci、O1=A_ch′、O2=B_ch′、O1_c=O2_r，即n*ci组矩阵A_ch′与矩阵B_ch′执行矩阵乘法运算，执行步骤9。

深度学习中最为常用也是最为基础的算子就是二维卷积，三维卷积、反卷积和膨胀卷积等都是以二维卷积为基础只是维度或尺寸不同。对于A为输入数组A=(n,ci,wi，hi)、B为卷积核B=(co,ci,kw，kh)的卷积运算，上述将最后一个矩阵变形为A_ch′或B_ch′的过程如下：

假设卷积运算的步长s=1、卷积填充p=0，则二维卷积运算得到的输出长为wo=(wi-kw+2p)/s+1、宽为ho=(hi-kh+2p)/s+1；

对于每个通道的计算过程，均有n=1、ci=1则A_ch=(1,1,wi，hi)、B_ch=(co,1,kw，kh)；

将A_ch降维为C=(wi，hi)，再将C变形为A_ch′=(kw*kh，wo*ho)；将B_ch降维为B_ch′=(co，kw*kh)。

上述变形过程如图1所示，图1中第一通道即第一行中的输入数组A_1=(1，3，5，5)、卷积核B_1=(2，3，3，3)，下面仅以第一通道中深色部分的处理为例进行说明：此时n=1，ci=1，A_1=(1,1,wi，hi)，B_1=(co,1,kw，kh)，将A_1降维处理为C(wi，hi)，再将C变形成A_1′(kw*kh，wo*ho)，将B_1降维处理为B_1′(co，kw*kh)，当完成所有通道的计算后得到n*ci个A_1′和B_1′进行矩阵乘法运算，即F(A_1，B_1)=mma(n*ci，A_1′，B_1′)。

步骤9、对于mma(num，O1，O2)中的矩阵O1(O1_r，O1_c)及O2(O2_r，O2_c)，将O1_r、O1_c或O2_r、O2_c作为待比较数值，分别依次比较待比较数值与2^MIN及2^MAX的关系，若待比较数值中存在大于2^MIN的值则执行步骤10，若待比较数值均不大于2^MIN则将2^MIN添加到待比较数值对应向量X的子集LX中再执行步骤13。

步骤10、若待比较数值大于2^MAX则执行步骤11，否则执行步骤13。

步骤11、对待比较数值对应的向量执行模2除法，若模2除法的结果为0则说明该值能被2整除，将待比较数值的取值设置为运算结果，并且记录模2除法的次数，执行步骤10；否则执行步骤12。

步骤12、对待比较数值对应的向量执行补零操作，即在该向量的末尾添加0，将当前待比较数值设置为下一个待比较数值后执行步骤11。

步骤13、分解待比较数值对应的向量X，令2ⁱ为大于或等于MIN且小于或等于MAX的值，采用X=X-2ⁱ的方式分解X直到X小于或等于2^MIN，记录过程中所有i的取值i1、i2、i3等，再将以2为底以这些取值为指数的结果作为维度保存到向量X的子集LX中，再执行步骤9；当所有向量均完成分解后，执行步骤14。

例如，MIN=2、MAX=8，则i满足1≤i≤3。此时，当待比较数值为8时说明向量X具有8个元素，则当i取到3时向量X能够被分解，将2³添加到子集LX中，即LX={2³}；当待比较数值为7时说明向量X具有7个元素，则首先令i取2即将2²个元素从向量X中分解出来得到向量X′，再令i取1即将2¹个元素从向量X′中分解出来，此时向量X剩余的维度小于2¹因此记为2¹，将2²、2¹、2¹添加到子集LX中，即LX={2²，2¹，2¹}。

步骤14、对所有向量子集LX中的数值进行排列组合形成矩阵组组合集合GA(M，N，K)，且存在num个GA(M，N，K)。

步骤15、根据步骤14确定的num个GA(M，N，K)得到受限探索空间，以第二约束作为约束，采用基于约束的模拟退火算法在该受限探索空间中执行寻优，得到满足最优计算时间的最优分解组合。

基于约束的模拟退火算法在该受限探索空间中执行寻优的具体探索步骤如下：

步骤15.1、初始化，设置温度的初始值为T=100，设置初始解状态S为：输入数组为A、B，矩阵乘法运算的最小计算单元的尺寸（M，N，K），M、N及K中的最大值MAX(M，N，K)，自定义第一最大值MAX为2¹⁴，实测的AB计算的计算时间Time(S)。

步骤15.2、将步骤15.3到步骤15.5重复执行100次。

步骤15.3、产生新解S'为：输入数组为A、B，矩阵乘法运算的最小计算单元的尺寸（M，N，K），M、N及K中的最大值MAX(M，N，K)，Time(S') 为新解实测的AB计算的计算时间。

步骤15.4、计算增量Δt'= Time(S')- Time(S)。

步骤15.5、若Δt'<0，则接受S'作为新的当前解，否则以概率exp(-Δt'/T)接受S'作为新的当前解。

步骤15.6、若连续20次新解S'都未被接受或当T<=1时，则输出当前解作为最优解，该最优解包括最优的计算时间Time(S')、算子最优分解和组合GA(M，N，K)、GA的数量及模2除法的次数，退出本流程。其中，GA(M，N，K)包含矩阵组组合G(M，N，K)及子矩阵组g(m，n，k)。

步骤15.7、令T=0.95T，执行步骤15.2。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于加速器约束的算子性能优化方法，其特征在于，包括以下步骤：

步骤11、对所有向量子集LX中的数值进行排列组合得到num个矩阵组组合的集合GA(M，N，K)，由num个GA(M，N，K)得到受限探索空间，采用基于约束的模拟退火算法以第二约束为约束在该受限探索空间中执行寻优，得到满足最优计算时间的输入数组A和B的最优分解组合。

2.根据权利要求1所述的算子性能优化方法，其特征在于，所述步骤1中所述构建由测试矩阵组组成的测试矩阵组集合的方式为：以第一约束M、N及K中的最大值作为单个维度的最小值记为第一最小值MIN，设定单个维度的最大值记为第一最大值MAX，第一最大值选取大于第一最小值且为2的指数倍的数值；选取第一最小值与第一最大值之间的2的指数倍的数值构建测试矩阵组（m_TA，n_TB，k_TA），由所有的测试矩阵组组成测试矩阵组集合。

3.根据权利要求1所述的算子性能优化方法，其特征在于，所述步骤1中所述组合运算时间为矩阵组组合内的所有测试子矩阵组的矩阵乘法运算时间之和。

4.根据权利要求1所述的算子性能优化方法，其特征在于，所述步骤4中所述将维度为3的数组分解为多个矩阵和一个向量的方式为：假定A为3维数组A=(a_1，a_2，a_3)，B为2维数组B=(a_4，a_1)，那么将A分解为A′和A′′，其中A′=(a_1，a_2)、A′′=(a_3)，再将A与B的矩阵乘法运算表示为mma(num，O1，O2)且num=a_3、O1=A′、O2=B、O1_c=O2_r。

5.根据权利要求1所述的算子性能优化方法，其特征在于，所述步骤5中所述将最后一个矩阵变形为A_ch′或B_ch′的方式为：