CN103020258A

CN103020258A - 一种采用多核集群的lda模型的训练方法及***

Info

Publication number: CN103020258A
Application number: CN2012105646001A
Authority: CN
Inventors: 陆忠华; 王珏; 周莼葆; 郎显宇; 聂宁明
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2013-04-03

Abstract

本发明实施例涉及一种采用多核集群的LDA模型的训练方法、***。方法包括：多核产生多个进程，每个进程均启动多个线程，用于分担处理多个训练文档；每个进程中的多个线程共同处理该进程负责处理的文档，每个线程给出其负责处理的文档的主题-词矩阵，该进程依据其所有线程给出的主题-矩阵得到该进程负责处理的文档的主题-词矩阵；根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵，并用该主题-词矩阵更新所述的LDA模型。本发明实施例采用多核并行处理，提高了主题-词矩阵的计算速度，有利于更快地更新LDA模型。

Description

一种采用多核集群的LDA模型的训练方法及***

技术领域

本发明涉及机器学习领域，尤其涉及一种采用多核集群的LDA模型的训练方法及***。

背景技术

LDA(Latent Dirichlet Allocation)是一种非监督机器学习技术，是一种被大家关注的聚类工具，它能够识别大规模文档集中的潜在主题信息，同时它还能够预测推断（inference）一篇新文档和哪些主题（topic）相关。LDA采用的是词袋（bag of words）的方法，将每一篇文档看成一个词频向量，如果两个不同词经常一起出现在文档中，那么LDA的训练算法倾向于把这两个词归于同一类，亦称同一主题。

LDA模型是一种生成模型（generative model），LDA首先假设了一个产生文档的过程，然后根据现实的大量文档集，来学习背后的产生过程是怎么样的。LDA假设所有的文档存在K个主题（每个主题可以认为是词的分布），要生成一篇文档，首先生成该文档的一个主题分布，然后生成词的集合；要生成一个词，需要根据文档的主题分布随机选择一个主题，然后根据该主题中词的分布随机生成一个词。

一般来说LDA的实现包括训练算法和预测算法两个部分。训练算法是指基于已有的文档集，学习出LDA模型，LDA模型的效果和模型收敛情况有较大影响，一般迭代次数成百上千；预测算法是指利用已学习出来LDA模型去推断一篇新文档的主题分布。

由于LDA的训练需要大量迭代，每次迭代需要遍历所有训练文档的所有词，并且不断更新其中的文档-主题矩阵（大小为D×K，其中D为文档个数、K为主题个数）、主题-词矩阵（大小为K×V，其中V为词数），计算量较大，耗时较多。

发明内容

针对上述问题，本发明实施例提出一种采用多核集群的LDA模型的训练方法、***。

在第一方面，本发明实施例提出一种采用多核集群的LDA模型的训练方法，所述方法包括：所述多核产生多个进程，每个进程均启动多个线程，用于分担处理多个训练文档；每个进程中的多个线程共同处理该进程负责处理的文档，每个线程给出其负责处理的文档的主题-词矩阵，该进程依据其所有线程给出的主题-词矩阵得到该进程负责处理的文档的主题-词矩阵；根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵，并用该主题-词矩阵更新所述的LDA模型。

优选地，在所述多核产生多个进程之前还包括：对所述多个训练文档进行预处理，即对所述多个训练文档中的不同单词赋予唯一编号，在统计词频时，用所述唯一编号来代替相应的单词，并去除词频过低的词。

优选地，所述每个线程给出其负责处理的文档的主题-词矩阵，具体为：每个线程根据其负责处理的文档中的单词的主题被认定的次数给出所述主题-词矩阵。

优选地，每个进程的所有线程在更新LDA模型的主题-词矩阵之前或者之后进行同步。

优选地，所述多核分布于多个网络节点，每个网络节点包括一个或多个核。

在第二方面，本发明实施例提出一种采用多核集群的LDA模型的训练***，所述***包括：进程产生模块，用于所述多核产生多个进程，每个进程均启动多个线程，用于分担处理多个训练文档；进程矩阵生成模块，用于每个进程中的多个线程共同处理该进程负责处理的文档，每个线程给出其负责处理的文档的主题-词矩阵，该进程依据其所有线程给出的主题-矩阵得到该进程负责处理的文档的主题-词矩阵；模型更新模块，用于根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵，并用该主题-词矩阵更新所述的LDA模型。

优选地，所述***还包括预处理模块，用于对所述多个训练文档进行预处理，即对所述多个训练文档中的不同单词赋予唯一编号，在统计词频时，用所述唯一编号来代替相应的单词，并去除词频过低的词。

优选地，所述***还包括线程同步模块，用于每个进程的所有线程在更新LDA模型的主题-词矩阵之前或者之后进行同步。

本发明实施例采用多核并行处理，提高了主题-词矩阵的计算速度，有利于更快地更新LDA模型。

附图说明

以下结合附图以举例方式对本发明的实施方式进行详细描述后，本发明的其他特征、特点和优点将会更加明显。

图1是本发明实施例的采用多核集群的LDA模型的训练方法示意图；

图2是本发明实施例的采用多核集群的LDA模型的训练***示意图；

图3是本发明实施例的多核集群示意图；

图4是本发明实施例的多核集群上的多核并行处理流程示意图；

图5是本发明实施例的消息传递接口函数工作示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细、清楚、完整的说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1是本发明实施例的采用多核集群的LDA模型的训练方法示意图。如图1所示，所述方法包括：所述多核产生多个进程，每个进程均启动多个线程，用于分担处理多个训练文档；每个进程中的多个线程共同处理该进程负责处理的文档，每个线程给出其负责处理的文档的主题-词矩阵，该进程依据其所有线程给出的主题-词矩阵得到该进程负责处理的文档的主题-词矩阵；根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵，并用该主题-词矩阵更新所述的LDA模型。

图2是本发明实施例的采用多核集群的LDA模型的训练***示意图。如图2所示，所述***包括：进程产生模块，用于所述多核产生多个进程，每个进程均启动多个线程，用于分担处理多个训练文档；进程矩阵生成模块，用于每个进程中的多个线程共同处理该进程负责处理的文档，每个线程给出其负责处理的文档的主题-词矩阵，该进程依据其所有线程给出的主题-词矩阵得到该进程负责处理的文档的主题-词矩阵；模型更新模块，用于根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵，并用该主题-词矩阵更新所述的LDA模型。

下面对本发明实施例方案进行更加详细细致的描述，以便本领域人员更好地理解本发明实施例方案的原理以及具体实施细节。

本发明实施例实质上可以视为一种面向多核集群的LDA并行算法。其包括预处理/后处理、并行算法。

预处理/后处理

所有训练文档被分布到各个网络节点，每个节点都有一份主题-词矩阵的副本，每次迭代都会对该矩阵进行更新。文档-主题矩阵在每个节点所占的空间随着节点数的增加而减少；但是主题-词矩阵在每个节点占用存储空间固定。为了降低相关数据结构的存储负载，对输入（即训练文档）和输出文件（即主题-词矩阵）进行预处理和后处理操作，具体如下：

去除词频过低的词。对出现频率过低的词并不关注，比如从文档集合中去除出现次数少于10次的词。

在输入文件中增加单词唯一编号项。由以前2元组变为3元组<词（字符串），词唯一编号（整数），文档中词出现的次数（整数）>，在程序处理过程中用词的唯一编号来代替词（字符串）以降低程序运行中的存储空间。

在后处理中将单词唯一编号对应代回实际的词。

并行算法

图3是本发明实施例的多核集群示意图。所述的核即为一个处理单元。多核集群具有节点内共享存储和节点间分布式存储的特点，节点内共享存储是指多个核共享内存，节点间分布式存储是指节点间的核间访问必须通过网络进行。

在多核集群上采用的执行模型如图4所示，其中实线代表进程/线程执行，虚线表示循环迭代。

并行LDA算法分布D个训练文档到P个进程上，每个进程启动T个线程。为了负载均衡，每个进程分到D/P个文档，进程内每个线程共享D/P个文档相关的数据，每个线程处理D/P/T个文档。第p个进程中的第t个线程处理的文档集为W(p,t)，相应的主题集（文档中词对应的主题集合）为Z(p,t)，其中p∈[1,P],t∈[1,T]。第p个进程处理的文档集为

相应的主题集为

Z_{p} = {Z (p, t)}_{t = 1}^{T} .

在每次吉布斯Gibbs采样迭代过程中，每个线程t通过后验分布给z(p,t，i,j)赋值，具体如下：

P (z (p, t, i, j) = k | Z - (p . t . i, j), W - (p, t, i, j), w (p, t, i, j) = v) &Proportional; (C_{(p, t, i, k) - (p, t, i, j)}^{doc} + α) \times

(C_{(v, k) - (p, t, i, j)}^{\mod} + β) / (C_{(k) - (p, t, i, j)}^{\mod} + V \times β) .

其中的“-(p,t,i,j)”是不包含(p,t,i,j)的意思。α、β都是可调参数，根据实际需要进行调整，α的值可以为50/K、β可以为0.01。

其中k∈[1，K]是K个主题词中的一个；v∈[1，V]是词典中的一个词；w(p,t,i,j)是第p个进程中第t个线程处理的第i个文档中的第j个词，z(p,t,i,j)是w(p,t,i,j)其所对应的主题；

是第p个进程中第t个线程处理的第i个文档中主题k出现的次数（除去w(p,t,i,j)和z(p,t,i,j)）；是词v的主题被赋成k的次数（除去w(p,t,i,j)和z(p,t,i,j)）；

mod是模型model的英文简写。

具体处理过程如下：

（1）启动P个进程执行，读取输入文件，通过采样对z(p,t)∈Z(p,t)进行初始赋值；

（2）每个进程进行文档相关数据结构（包括文档-主题矩阵S_doc等）和模型相关数据结构（包括主题-词矩阵

等）初始化；

（3）每个进程通过MPI_Allreduce将局部的进行累计；所述MPI_Allreduce是消息传递接口函数，执行allreduce操作。可以参见图5。

（4）每个进程创建T个线程执行；

（5）线程/进程涉及的时间步迭代；

（5.1）每个线程处理D/P/T个文档，对于文档d中每个词；

（5.1.1）对

加锁；注意这是必须的步骤，因为

对于整个LDA模型而言是全局变量，可以为所有线程共享，所以在某个线程对其进行处理时，需要获得独占权，否则将会造成变量访问的紊乱，使得数据出现偏差。

（5.1.2）通过

C_{(v, k) - (p, t, i, j)}^{(\mod)}, C_{(k) - (p, t, i, j)}^{\mod}

和

C_{(p, t, i, k) - (p, t, i, j)}^{doc}

进行样本采集获得新的z(p,t,i,j)；（5.1.3）重新计算

和

（5.1.4）解锁；

（5.1.5）重新计算

注意优选地，（5.1）步骤由各核并行处理。

（5.2）线程同步；

（5.3）每个进程的主线程执行得到本地主题-词矩阵

（5.4）每个进程通过MPI_Allreduce将局部的

进行累计；

（5.5）进程同步。

注意：

（1）——（4）对应图3中①；

（5.1）对应图3中②；

（5.2）对应图3中③；

（5.3）和（5.4）对应图3中④；

（5.5）对应图3中⑤。

为了验证本发明实施例的效果，做了大量的测试，主要测试方案以及数据如下：

测试环境与结果

测试采用的数据如表1：

表1

采用的试验环境如下：

采用32个处理节点，每个配置2个Intel XeonE5450四核处理器（3.0GHz，L1：32KB+32KB,L2：2x6MB，4条浮点流水线，单核心性能为12Gflops,单CPU性能为48Gflops，TDP为80W)；

单节点内存32GB；

配备4x DDR infiniband网卡（HCA）；

配备千兆以太网卡；

IO节点、启动节点等配备4Gbps光纤卡（HBA）；

采用platform LSF作业提交***；

Intel mpi,icc 12.1.2。

256核实验数据如表2，其中1p*8t为每个节点1个进程，每个进程启动8个线程；2p*4t为每个节点2个进程，每个进程启动4个线程；4p*2t为每个节点4个进程，每个进程启动2个线程。

表2

本领域技术人员应该进一步意识到，结合本文中所公开的实施例描述的各示例模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

需要指出的是，以上仅为本发明较佳实施例，并非用来限定本发明的实施范围，具有专业知识基础的技术人员可以由以上实施实例实现本发明，因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进，都被本发明的专利范围所覆盖。即，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种采用多核集群的LDA模型的训练方法，其特征在于，所述方法包括：

所述多核产生多个进程，每个进程均启动多个线程，用于分担处理多个训练文档；

每个进程中的多个线程共同处理该进程负责处理的文档，每个线程给出其负责处理的文档的主题-词矩阵，该进程依据其所有线程给出的主题-词矩阵得到该进程负责处理的文档的主题-词矩阵；

根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵，并用该主题-词矩阵更新所述的LDA模型。

2.如权利要求1所述的采用多核集群的LDA模型的训练方法，其特征在于：在所述多核产生多个进程之前还包括：对所述多个训练文档进行预处理，即对所述多个训练文档中的不同单词赋予唯一编号，在统计词频时，用所述唯一编号来代替相应的单词，并去除词频过低的词。

3.如权利要求1所述的采用多核集群的LDA模型的训练方法，其特征在于：所述每个线程给出其负责处理的文档的主题-词矩阵，具体为：每个线程根据其负责处理的文档中的单词的主题被认定的次数给出所述主题-词矩阵。

4.如权利要求1所述的采用多核集群的LDA模型的训练方法，其特征在于：每个进程的所有线程在更新LDA模型的主题-词矩阵之前或者之后进行同步。

5.如权利要求1-4之一所述的采用多核集群的LDA模型的训练方法，其特征在于：所述多核分布于多个网络节点，每个网络节点包括一个或多个核。

6.一种采用多核集群的LDA模型的训练***，其特征在于，所述***包括：

进程产生模块，用于所述多核产生多个进程，每个进程均启动多个线程，用于分担处理多个训练文档；

进程矩阵生成模块，用于每个进程中的多个线程共同处理该进程负责处理的文档，每个线程给出其负责处理的文档的主题-词矩阵，该进程依据其所有线程给出的主题-词矩阵得到该进程负责处理的文档的主题-词矩阵；

模型更新模块，用于根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵，并用该主题-词矩阵更新所述的LDA模型。

7.如权利要求6所述的采用多核集群的LDA模型的训练***，其特征在于：所述***还包括预处理模块，用于对所述多个训练文档进行预处理，即对所述多个训练文档中的不同单词赋予唯一编号，在统计词频时，用所述唯一编号来代替相应的单词，并去除词频过低的词。

8.如权利要求6所述的采用多核集群的LDA模型的训练***，其特征在于：所述每个线程给出其负责处理的文档的主题-词矩阵，具体为：每个线程根据其负责处理的文档中的单词的主题被认定的次数给出所述主题-词矩阵。

9.如权利要求6所述的采用多核集群的LDA模型的训练***，其特征在于：所述***还包括线程同步模块，用于每个进程的所有线程在更新LDA模型的主题-词矩阵之前或者之后进行同步。

10.如权利要求6-9之一所述的采用多核集群的LDA模型的训练***，其特征在于：所述多核分布于多个网络节点，每个网络节点包括一个或多个核。