CN106407561B

CN106407561B - 一种并行gpdt算法在多核soc上的划分方法

Info

Publication number: CN106407561B
Application number: CN201610832540.5A
Authority: CN
Inventors: 韩军; 轩四中; 袁腾跃; 曾晓洋
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2020-07-03
Anticipated expiration: 2036-09-19
Also published as: CN106407561A

Abstract

本发明属于集成电路设计技术领域，具体为一种并行GPDT算法在多核SoC上的划分方法。并行GPDT算法包括两层迭代，内层迭代负责求解工作集，而外层迭代负责更新工作集。在计算速度的关键路径方面，外层循环的关键路径是梯度的更新，内层循环的关键路径是每次投影之后向量的计算，这两部分矩阵运算都需要在多核上并行化处理；而其余的运算只能通过在主核上串行的方式实现，包括利用Dai‑Fletcher算法实现的梯度投影操作，以及通过引入快速排序算法来实现工作集的更新等。计算结束后得到的向量即为GPDT算法训练数据的支持向量。

Description

一种并行GPDT算法在多核SOC上的划分方法

技术领域

本发明属于集成电路设计技术领域，具体为一种并行GPDT算法在多核SoC上的划分方法。

背景技术

GPDT算法是Zanni等人提出的一种对原始QP问题的分解方法，其每次迭代的工作集变量个数在10²到10³数量级之间，使得算法在很少的几次迭代之后就可以达到收敛，虽然每次迭代的计算量比较大，但可以通过并行化的方式将复杂的计算分配到多个处理器上进行，从而获得更快的训练速度。

支持向量机问题的原始表达式为：

G是一个l×l的矩阵，称为核矩阵，其中，

为核函数。

问题的分解就是将待求解的向量

分成两部分，一部分是工作集，用B来表示，另一部分是非工作集，用N来表示。公式中待求解向量、样本类别向量以及核矩阵都相应被分解为如下形式：

经过化简，分解之后的QP子问题转换成如下形式：

QP子问题的求解过程主要分为四个步骤，通过循环迭代求出最终结果，迭代结束的判断条件为KKT(Karush-Kuhn-Tucker)条件。

算法的具体步骤如下：

步骤1：初始化。

将向量

初始化为0，然后选择两个整数n_B和n_C,令0≤n_C≤n_B≤1,n_C为偶数，从向量

中随机选择n_B个元素组成工作集B，剩余的元素组成非工作集N,令外层迭代次数k＝1；

步骤2：QP子问题求解。

令

为QP子问题的解。然后再令

步骤2.1：初始化

令

表示初始梯度，并且令

下降步长ρ₀∈[ρ_min，ρ_max]，ρ_min和ρ_max为预设值，且满足0<ρ_min＜ρ_max,令内层迭代次数k’＝0；

步骤2.2：投影

用P_Ω()表示向可行域Ω投影的操作，首先判断向量

是否满足终止条件，如果满足则结束迭代，否则利用下式来计算梯度下降的方向：

步骤2.3：矩阵乘法

计算矩阵

步骤2.4：线搜索

用线搜索的方法计算系数λ_k‘，并且更新待求向量

步骤2.5：更新

计算第k’+1次迭代的

和

然后计算新的梯度下降步长ρ_k′+1，令迭代次数k’＝k’+1，并返回步骤2.2。

步骤3：梯度更新。

更新第k次迭代后目标函数关于向量

的梯度：

更新之后，如果

满足KKT条件，那么结束迭代，否则进入下一步。

步骤4：工作集更新。

首先求解如下问题：

然后，将结果

中的非零项对应的α_i取出，组成工作集

非零项的个数最大为n_c个，然后从旧的工作集B中取出元素填充到

中，直到

中达到n_B个元素，最后令

k＝k+1，然后返回步骤2。

GPDT算法的优点是每次迭代求解的工作集元素个数能够达到10³数量级，使得算法能够快速地收敛，然而在单次迭代中由于存在大量的矩阵运算，计算量非常大。

发明内容

本发明的目的是提供一种并行GPDT算法在多核SoC上的划分方法，以大大缩短单次迭代的计算时间，从而提高整个训练算法的运行效率。

本发明提供的并行GPDT算法在多核SoC上的划分方法，其总体思想是，将工作集B中的n_B个元素平均分配到N个处理器上，并且每个处理器在本地都存有训练数据的备份，这样可以将矩阵运算很方便地分配到N个处理器上执行。由算法的基本原理可以看出，算法的并行度主要集中在步骤2和步骤3中，这两步是矩阵运算相对集中的步骤。

并行GPDT算法在多核SoC上的划分方法，包括两个部分：行分解和列分解；具体介绍如下。

行分解方法。包括：矩阵按行分解、并行计算、结果拼接三个步骤：

在步骤2.1的初始化过程中，计算初始梯度

其中，A表示一个n_B×n_B的矩阵，而

表示一个n_B×1的列向量，那么，

的结果也是一个n_B×1的列向量；首先，将矩阵A将按行分解为

其中，A_ni表示一个

的矩阵；然后在各个核上计算

的值；最后，在主核上将各核的运算结果拼接，

即为

的结果。

列分解方法。包括：矩阵按列分解、并行计算、结果拼接三个步骤：

在步骤3的梯度更新中，计算

其中，G_LB是一个l×n_B的矩阵，而

是一个n_B×1的列向量，则二者相乘的结果

是一个l×1的列向量。由于矩阵G_LB是l行n_B列，所以，首先，将矩阵按列分解为

按行分解为

然后，在各个核上计算

最后，在主核上将各个核计算的结果累加，

即为

的值。

根据上述划分方法，则改进后的并行GPDT算法(即基于在多核SoC上划分的并行GPDT算法)的具体步骤如下：

步骤1：首先在主核上初始化向量

为0，选择两个整数n_B和n_C，令0≤n_C≤n_B≤1，n_C为偶数，从向量

中随机选择n_B个元素组成工作集B，令外层迭代次数k＝1。

步骤2：QP子问题求解

2.1 在主核上设定初始梯度

下降步长ρ₀∈[ρ_min，ρ_max]，ρ_min和ρ_max为预设值，且满足0<ρ_min＜ρ_max，令内层迭代次数k’＝0；

2.2 然后在各个核上并行计算初始梯度

的行片段

在主核上将计算结果拼接：

其中，A是n_B×n_B矩阵，

是n_B×1的列向量，

也是n_B×1的列向量；首先，将矩阵A将按行分解为

其中，A_ni表示一个

的矩阵；然后在各个核上计算

的值；最后，在主核上将各核的运算结果拼接，

即为

的结果；

2.3 在主核上完成向可行域Ω投影的操作，并判断向量

是否满足终止条件，如果满足则结束迭代，否则计算梯度下降的方向d^(k’)；

2.4 接着在各个核上并行计算矩阵z^(k’)的行片段

其中矩阵A的行分解方式同步骤2.2中一样，然后在主核上将各核的运算结果拼接，

即为

的计算结果；

2.5 然后在主核上先线搜索计算系数λ_k,计算新的步长ρ_k‘+1以及u^k′+1等，再令内层迭代次数k’＝k’+1；判断u^k′+1是否满足KKT终止条件，如果满足，进入下一步；否则，返回到步骤2.2，计算新的梯度下降方向。

步骤3：在得到QP子问题的解

后，需要更新梯度，在各个核上并行计算梯度增量的列片段

然后在主核上将结果累加，得到新的梯度：

计算

其中，G_LB是一个l×n_B的矩阵，而

是一个n_B×1的列向量，则二者相乘的结果

按行分解为

然后，在各个核上计算

最后，在主核上将各个核计算的结果累加，

即为

的值。

步骤4：在主核上判断

是否满足KKT条件，如果满足，计算结束，否则在主核上更新工作集，具体更新过程见背景技术介绍，令k＝k+1，返回到步骤2。

该并行GPDT算法主要包括两层迭代，内层迭代负责求解工作集B，外层迭代负责更新工作集B。在计算速度的关键路径方面，内层循环的关键路径是每次投影后向量z^(k’)的计算，而外层循环的关键路径是梯度的更新，这两部分矩阵运算需要分配到各个核上并行化处理，并行化处理的方式分别为“按行分解”和“按列分解”，其余的运算在主核上串行实现，主要包括两部分，一是梯度的投影操作，采用的是Dai-Fletcher算法，二是工作集B的更新，这一步通过引入快速排序算法来高效地填充新工作集中的元素。

附图说明

图1并行GPDT算法流程。

图2按行分解的矩阵乘法。

图3按列分解的矩阵乘法。

具体实施方式

下面结合附图，对本发明作进一步的描述。

如图1所示，本发明将算法中计算初始梯度

中的

内层循环计算矩阵z^(k’)、外层循环计算梯度增量

的过程通过并行化处理，分配到多个处理器上进行，将大大减少每次迭代过程中矩阵运算的时间，另外算法中的其他部分仍然是串行化操作，包括梯度的投影和工作集的更新等。根据阿姆达尔定律，并行化算法的加速比不但跟可并行化部分的加速比有关，还跟可并行化部分的比例有关，因此随着训练数据的增加，可并行化部分的运算时间比例增加，算法整体的加速比将逐渐接近于并行化部分的加速比。

1、并行划分的总体思想是，将工作集B中的n_B个元素平均分配到N个处理器上，每个处理器分配到的工作集下标定义为集合I_p，p＝1，2，…，N，则分配之后的集合I_p满足：

即每个处理器分配到的集合互不相交。假设每个处理器分配到的工作集元素个数为n_p个，且满足

并且每个处理器在本地都存有训练数据的备份，这样就可以将矩阵运算很方便地分配到N个处理器上执行，算法的并行度主要集中在步骤2和步骤3中。

2、Dai-Fletcher算法初始梯度的并行化计算初始梯度的计算公式为

其中A表示一个n_B×n_B的矩阵，而

则表示一个n_B×1的列向量，那么

的结果也是一个n_B×1的列向量。按照附图2划分，将矩阵A按行分解，每个处理器上分配到矩阵A的其中n_p行的片段，然后与列向量

相乘，最后经过拼接，得到最终的结果：

同理，步骤2.3中矩阵

的计算也用相同的方法进行分解，即

3、梯度更新的并行计算梯度更新的公式为：

令

则

其中，G_LB是一个l×n_B的矩阵，而

表示相邻两次迭代的向量

的差值，则二者相乘的结果

是一个l×1的列向量。由于矩阵G_LB是l行n_B列，所以这里的划分方式是将矩阵G_LB按列分解，如附图3所示。对于每个处理器来说，其分配到的矩阵G_LB的列片段G_np是l行n_p列的矩阵，与列向量

的行片段

相乘，得到的结果是

是一个l行的列向量，所以需要将每个处理器的计算结果进行累加才能得到最终的结果：

4、算法中的其他部分，包括梯度的投影操作和工作集的更新等，则仍然在主核上串行执行，改进后的并行GPDT算法总体流程如附图1所示。