CN103745225A

CN103745225A - 分布式ctr预测模型训练的方法和***

Info

Publication number: CN103745225A
Application number: CN201310741493.XA
Authority: CN
Inventors: 崔晶晶; 林佳婕; 刘立娜; 李春华; 马占国
Original assignee: BEIJING GEO POLYMERIZATION NETWORK TECHNOLOGY Co Ltd
Current assignee: BEIJING GEO POLYMERIZATION NETWORK TECHNOLOGY Co Ltd
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2014-04-23

Abstract

本发明涉及大数据机器学习领域，公开了一种分布式CTR预测模型训练方法和***，在分布式并行框架下进行逻辑回归计算，将参数和数据分配到多个一级集群中进行处理；将一级集群进一步细分为多个二级集群，每个一级集群内部的二级集群采用MapReduce架构，Map计算梯度，Reduce计算迭代方向和步长；在二级集群内部采用任务备份机制。通过本发明的方法和***，能够提高逻辑回归计算中可以处理的样本数和特征参数，同时提高***的整体运行效率，缩短计算和处理时间，还能有效防止节点出现大的故障而使整个计算中断的情况发生。

Description

分布式CTR预测模型训练的方法和***

技术领域

本发明涉及大数据机器学习领域，特别涉及一种分布式CTR预测模型训练的方法和***。

背景技术

逻辑回归被普遍认为是很好的进行分类的机器学习方法，尤其是在对象点击率预测方面，如精准内容（如广告投放/媒体推荐等）的点击率（CTR）预测中有较好的应用效果。经研究表明，增加训练样本，增加特征数量或者是模型参数都会提高分类/点击率预测的精度，但也同时对处理完成的速度有了更严格的要求。

现有技术中，为了达到在精度和速度上的目标，目前主要有两种办法，一种办法是采用GPU，另一种办法就是采用并行和分布式处理。

采用GPU可以提高处理速度，但其缺点在于：在训练需要很大内存的情况下，处理速度基本不会有明显提高；而当为了提高速度，来减少训练样本或参数的个数时，又会造成预测准确率的下降。

采用并行和分布式处理可以处理大量的参数和训练样本，但其缺点在于：目前的处理方式主要集中在线性的凸模型上，首先要做分布式的梯度计算，但由于各个节点的处理速度不一致，所以不得不放宽同步的要求，梯度更新就会不及时，这就严重影响了处理完成的速度。

发明内容

（一）本发明解决的技术问题：

针对现有技术的缺陷，本发明提出了一种分布式CTR预测模型训练的方法和***，能够快速处理非常大的样本集合，样本集合的数量可达十万级，而且不局限在凸模型或计算稀疏梯度上。

（二）技术方案

为实现上述目的，本发明提出了一种新的解决方案，采用分布式集群进行大数据训练，以便增加处理的训练样本和特征参数，并且提高处理速度。

一方面，本发明提供一种分布式CTR预测模型训练方法，其特征在于，所述方法包括步骤：

（1）将全部参数集合分块，形成多个训练样本块。

（2）每个一级集群执行一个回归模型的副本，处理全部参数集合的一个训练样本块，计算该训练样本块中参数的梯度。

（3）每个一级集群计算完一个训练样本块中参数的梯度后，将训练完的参数传到参数服务器上进行更新。

（4）参数服务器对参数进行统一更新，然后再将更新后的参数分别下发到每个一级集群。

优选地，步骤（1）中将全部参数集合分块，形成多个训练样本块中训练样本块的数量多于或等于全部一级集群数量。

优选地，训练样本块的数量远大于全部一级集群数量。

优选地，一级集群内部可进一步划分成多个二级集群，该多个二级集群可采用分布式的分布方式。

优选地，步骤（2）中每个一级集群执行一个回归模型的副本，处理整个参数集合的一个训练样本块，计算该训练样本块中参数的梯度具体为：将一级集群的计算该训练样本块中参数的梯度的任务下发到二级集群来完成，一级集群中的二级集群采用MapReduce结构，Map阶段计算梯度，Reduce阶段计算迭代的方向和步长。

优选地，在二级集群内部监控所有工作的服务器，当发现某台服务器计算速度慢时，若在集群内部存在已完成处理任务的其他处于空闲阶段的服务器，则在该处于空闲阶段的服务器上重新启动在该处理速度慢的服务器中正在处理的相同任务。

优选地，若该重启任务的服务器在处理速度慢的服务器之前完成任务，则采用该重启任务的服务器上的处理结果，同时停止处理速度慢的服务器上的处理任务；若处理速度慢的服务器在该重启任务的处理器之前完成处理任务，则采用该处理速度慢的服务器中的处理结果，同时停止该重启任务的服务器上的处理任务。

另一方面，本发明还提供一种分布式CTR预测模型训练***，其特征在于：***包括一个参数服务器，多个一级集群，每个一级集群至少包含一个或多个服务器，每个一级集群分别与参数服务器相连接。

优选地，每个一级集群中的多个服务器被细分为多个二级集群。

优选地，二级集群呈分布式分布。

（三）技术效果

本发明提出了在分布式并行框架下进行逻辑回归计算，大大提高了可以处理的样本数和特征参数，并同时缩短了计算和处理时间；

本发明将参数和数据分配到每个一级集群处理，有效缩短了计算时间；

本发明在每个一级集群内部采用MapReduce架构，Map计算梯度，Reduce计算迭代方向和步长，能够有效利用服务器资源，并节省时间；

本发明在二级集群内部采用任务备份机制，防止了节点出现大的故障而使整个计算中断的情况发生。

附图说明

图1是本发明中分布式CTR预测模型训练的***结构示意图

图2是本发明中分布式CTR预测模型训练的方法流程示意图

图3是本发明中分布式CTR预测模型训练的方法数据流向示意图

图4是本发明中二级集群的MapReduce结构示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所其他实施例，都属于本发明保护的范围。

本发明提出了一种新的解决方案GEO-DIST(GEO DISTRIBUTIONPROCESS，集奥-分布式处理)，采用分布式集群，以便增加处理的训练样本和特征参数，并且提高处理速度。

如附图1中所示，***中包含多个服务器，其中包含一个参数服务器，并将除参数服务器之外的其他所有的服务器分为若干个一级集群，每个一级集群中至少包含一个或多个服务器，一个一级集群中的服务器可再次被细分为多个二级集群。

一级集群之间没有直接通信，而是分别与参数服务器相连接，也就是说，一级集群呈集中式分布。每个一级集群中的二级集群呈分布式分布。

图2是本发明的分布式CTR预测模型训练方法步骤流程图，以下是步骤的详细说明：

（1）将全部参数数据集合分块，形成多个训练样本块。为了充分利用***的运算能力，可将全部参数数据集合以多于或等于全部一级集群数量的数量进行分块，形成多于或等于全部一级集群数量的训练样本块。

（2）***中每个一级集群执行一个回归模型的副本，处理全部参数集合的一个训练样本块，计算该训练样本块中参数的梯度。当一个一级集群处理完一个训练样本块中的参数计算任务后，可在剩余未处理的训练样本块中选择一个训练样本块再分配给该一级集群。这样，运算能力强、计算速度快的一级集群的能力可以被充分利用，能有效提高整个***的计算速度，降低处理时间。

（3）一级集群之间不进行直接通信，每个一级集群计算完一个训练样本块中参数的梯度后，将训练完的参数传到参数服务器上进行更新。

图3是本发明中分布式CTR预测模型训练的方法数据流向示意图。

其中参数服务器先将各个训练样本块中的参数w下发给各个一级集群。每个一级集群接受参数w后对其执行训练任务，训练结束后，得到更新后的参数Δw，一级集群将该更新后的参数Δw上传给参数服务器。参数服务器接收到该更新后的参数Δw后，用其更新在参数服务器中存储的参数集合，更新后的参数集合w’=w+αΔw，其中α表示更新后的参数Δw的个数。当α等于训练样本块的数量时，即表示每个训练样本块均已经被一级集群训练过，参数得到更新后，整个数据集合的训练计算完成，等到最终的更新后的参数集合。

传统的并行计算是将数据分布到每个集群，然后每个集群计算完梯度后回传给参数服务器，这样就需要等到最慢的集群计算完毕才能下发参数和计算任务，大大影响了整个处理速度。本发明的分布式CTR预测模型训练的方法中可将全部的参数数据集合分解为远远大于一级集群数量的份数的训练样本块，给计算速度较快的集群分配数量较多的训练样本块，给计算速度较慢的集群分配数量较少的训练样本块，这样就能充分利用每个集群的处理能力，从而提高***整体的处理速度。

为了进一步提高计算速度，一级集群内部可进一步划分成二级集群，该二级集群可采用分布式的分布方式。每个一级集群的二级集群之间采用MapReduce结构，Map阶段计算梯度，Reduce阶段计算迭代的方向和步长，不同的二级集群之间分工协作，能够有效利用服务器资源，并节省时间。图4是本发明中二级集群的MapReduce结构示意图。

为了提高处理速度，同时也为了防止了节点出现大的故障而使整个计算中断的情况发生，在二级集群内部采用“任务备份”的机制。监控所有工作的服务器，当发现某台服务器计算速度慢时，若在集群内部存在已完成处理任务的其他服务器，则在该处于空闲阶段的服务器上重新启动在该处理速度慢的服务器中正在处理的相同任务。若该重启任务的服务器比处理速度慢的服务器还要优先完成任务，则采用该重启任务的服务器上的处理结果，同时停止处理速度慢的服务器上的处理任务；若处理速度慢的服务器在该重启任务的处理器之前完成处理任务，则采用该处理速度慢的服务器中的处理结果，同时停止该重启任务的服务器上的相应的任务的处理过程。

利用本发明提出的GEO-DIST方案，能获得有益的技术效果。以精准广告投放CTR预测的逻辑回归训练进行实际的实验验证，节点数为900，训练样本数为8千万，特征参数为5万，分别利用本发明提出的分布式CTR预测模型训练的方法和传统的BFGS算法进行求解，本发明的解决方案取得了很好的效果，相较于传统的BFGS算法的1/10的时间就得到了理想的模型参数。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种分布式CTR预测模型训练方法，其特征在于，所述方法包括步骤：

（1）将全部参数数据集合分块，形成多个训练样本块；

（2）每个一级集群执行一个回归模型的副本，处理全部参数数据集合的一个训练样本块；

（3）每个一级集群处理完一个训练样本块后，将训练完的参数数据传到参数服务器上进行更新；

（4）参数服务器对参数数据进行统一更新，然后再将更新后的参数数据分别下发到每个一级集群。

2.如权利要求1所述的方法，其特征在于：步骤（1）中将全部参数集合分块，形成多个训练样本块中训练样本块的数量多于或等于全部一级集群数量。

3.如权利要求2所述的方法，其特征在于：训练样本块的数量远大于全部一级集群数量。

4.如权利要求1所述的方法，其特征在于：一级集群内部可进一步划分成多个二级集群，该多个二级集群可采用分布式的分布方式。

5.如权利要求4所述的方法，其特征在于：步骤（2）中每个一级集群执行一个回归模型的副本，处理整个参数集合的一个训练样本块，计算该训练样本块中参数的梯度具体为：将一级集群的计算该训练样本块中参数的梯度的任务下发到二级集群来完成，每个一级集群中的二级集群采用MapReduce结构，Map阶段计算梯度，Reduce阶段计算迭代的方向和步长。

6.如权利要求4所述的方法，其特征在于：在二级集群内部监控所有工作的服务器，当发现某台服务器计算速度慢时，若在集群内部存在已完成处理任务的其他处于空闲阶段的服务器，则在该处于空闲阶段的服务器上重新启动在该处理速度慢的服务器中正在处理的相同任务。

7.如权利要求6所述的方法，其特征在于：若该重启任务的服务器在处理速度慢的服务器之前完成任务，则采用该重启任务的服务器上的处理结果，同时停止处理速度慢的服务器上的处理任务；若处理速度慢的服务器在该重启任务的处理器之前完成处理任务，则采用该处理速度慢的服务器中的处理结果，同时停止该重启任务的服务器上的处理任务。

8.一种分布式CTR预测模型训练***运行如权利要求1所述的方法，其特征在于：***包括一个参数服务器，多个一级集群，每个一级集群至少包含一个或多个服务器，每个一级集群分别与参数服务器相连接。

9.如权利要求8所述的***，其特征在于：每个一级集群中的多个服务器被细分为多个二级集群。

10.如权利要求9所述的***，其特征在于：二级集群呈分布式分布。