CN105046382A

CN105046382A - 异构并行随机森林优化方法和

Info

Publication number: CN105046382A
Application number: CN201510591067.1A
Authority: CN
Inventors: 王娅娟; 张广勇; 吴韶华; 沈铂; 卢晓伟; 张清
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2015-11-11

Abstract

本发明公开了一种异构***并行随机森林优化***和方法，应用于中央处理器与协处理器混合异构集群，包括：一个主节点和多个从节点；其中，主节点用于将待计算的数据文件划分成多个数据分片，分别发送数据分片给各从节点，各从节点用于接收主节点分配的数据分片进行计算，将计算后的最优解构建决策树发送到主节点，从而生成随机森林，通过多个从节点对数据分片并行计算，从而加快了寻找最优解的时间，使得整个***效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

Description

异构***并行随机森林优化方法和***

技术领域

本发明涉及机器学习领域，尤指一种异构***并行随机森林优化***和方法。

背景技术

近年来，随着当今社会经济科技日新月异的发展，许多应用领域在迅速积累着大量的数据，对这些数据进行分析以发掘数据蕴含的信息，成为几乎所有领域的共同需求，而在实际应用中，机器学习在数据挖掘分析技术的作用日渐重要，受到了广泛的关注。

现有技术中，机器学习中最常用的分类方法就是采用随机森林算法，随机森林是一种有监督的集成学习分类技术，是通过大量分类树的汇总来提高模型的预测精度。正是由于它的这种设计使得随机森林算法对样本数据中的不正常数据和噪声等有很好的容忍性，对于数据比较复杂的分类问题有着较好的并行性和扩展性。

但是，采用现有技术，数据优化过程中寻找最优解时间比较长，在当前这个数据量以指数级增长的时代，显然对于超大数据的处理显得力不从心。

发明内容

为了解决上述技术问题，本发明提供了一种异构***并行随机森林优化***和方法，能够通过多个从节点对数据分片并行计算，从而加快了寻找最优解的时间，使得整个***效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

第一方面，本发明提供了一种异构***并行随机森林优化***，应用于中央处理器与协处理器混合异构集群，包括：一个主节点和多个从节点；

所述主节点用于将待计算的数据文件划分成多个数据分片，分别发送数据分片给各所述从节点，接收各所述从节点构建好的决策树生成随机森林；

所述从节点用于接收所述主节点分配的所述数据分片进行计算，将计算后的最优解构建决策树发送到所述主节点。

第二方面，本发明提供了一种异构***并行随机森林优化方法，应用于异构***并行随机森林优化***，其特征在于，所述***包括：一个主节点和多个从节点；

所述主节点调用将待计算的数据文件划分成多个数据分片，分别发送数据分片给各所述从节点，接收各所述从节点构建好的决策树生成随机森林；

所述从节点接收所述主节点分配的所述数据分片进行计算，将计算后的最优解构建决策树发送到所述主节点。

与现有技术相比，本发明提供了一种异构***并行随机森林优化***和方法，包括：一个主节点和多个从节点；其中，主节点用于将待计算的数据文件划分成多个数据分片，分别发送数据分片给各从节点，各从节点用于接收主节点分配的数据分片进行计算，将计算后的最优解构建决策树发送到主节点，从而生成随机森林，通过多个从节点对数据分片并行计算，从而加快了寻找最优解的时间，使得整个***效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的异构***并行随机森林优化***实施例一的结构示意图；

图2为本发明实施例提供的异构***并行随机森林优化方法实施例一的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例涉及的异构***并行随机森林优化***，应用于中央处理器与协处理器混合异构集群，具体可以是计算机集群或者服务器集群上，其中协处理器可以是图形处理器(GraphicsProcessingUnit，简称：GPU)或者众核处理器(IntelManyIntegratedCore，简称：MIC卡)，但并不以此为限。

本发明实施例涉及的***和方法，旨在解决现有技术中采用随机森林的分类方法数据在优化过程中寻找最优解时间比较长，无法满足超大规模数据处理的技术问题。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的异构***并行随机森林优化***实施例一的结构示意图，如图1所示，该异构***并行随机森林优化***应用于中央处理器与协处理器混合异构集群，包括：一个主节点10和多个从节点20；

其中，所述主节点10用于将待计算的数据文件划分成多个数据分片，分别发送数据分片给各所述从节点20，接收各所述从节点20构建好的决策树生成随机森林。

所述从节点20用于接收所述主节点分配的所述数据分片进行计算，将计算后的最优解构建决策树发送到所述主节点10。

具体的，主节点10将待计算的数据文件划分成多个数据分片，一般数据文件为指数级超大规模数据，可以调用库函数划分的数据分片大小为16M到64M，具体可以根据子节点20的计算能力来确定，可以对各数据分片进行编号，用广播的方式将划分好的数据分片按照编号顺序分发到各从节点20上，但并不限于此。

一般来说从节点20设置越多，则处理大规模数据更准确，具体的可以根据需要处理的数据文件的大小来设置从节点20的数量，各从节点20接收主节点10分配得对应的数据分片后，各从节点20可以通过Bagging集成学习技术并行计算分配的数据分片，选择计算后的结果中的最优解分别构建决策树，其中，该最优解可以是求最小值，根据该最小值对应的数据分片构建决策树，并发送给主节点10进行随机森林的整合。

本发明实施例提供的异构***并行随机森林优化***，应用于中央处理器与协处理器混合异构集群，包括至少一个主节点和多个从节点，其中，主节点用于将待计算的数据文件划分成多个数据分片，分别发送数据分片给各从节点，各从节点用于接收主节点分配的数据分片进行计算，将计算后的最优解构建决策树发送到主节点，从而生成随机森林，本发明实施例通过多个从节点对数据分片并行计算，从而加快了寻找最优解的时间，使得整个***效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

进一步地，从节点20包括至少一个中央处理器210(CentralProcessingUnit，简称：CPU)和多个协处理器220(ManyIntegratedCore，简称：MIC)，

所述从节点20用于接收所述主节点10分配的所述数据分片，包括：所述中央处理器210接收所述数据分片，将所述数据分片划分为多个数据分片子集，分配相应的所述数据分片子集给各所述线程，分发线程给各所述协处理器220；

具体的，为了更好地说明本实施例，假设该从节点20包括一个中央处理器210和4块协处理器220，该中央处理器210将接收的数据分片划分为多个数据分片子集，可以根据这4块协处理器220的计算能力进行划分，分配相应的数据分配子集给各线程，并分发线程给各协处理器220，线程与协处理器220是一一对应的，如果有4个线程，则分发1个线程给一个协处理器220。

所述从节点20用于计算所述数据分片并将计算后的最优解构建决策树发送到所述主节点10，包括：所述协处理器220接收对应的线程获取相应的所述数据分片子集和初始值进行计算，根据计算后的结果获取最优***属性构建决策树发送给所述主节点10。

具体的，协处理器220接收对应的线程获取相应的所述数据分片子集和初始值，该数据分片子集为需要进行计算处理的数据集合，该初始值是指构建初始决策树需要的数据，这些数据可以随机产生，也可以固定的，计算过程可以采用几何估算法、曲线拟合法和分布函数法获取基尼(Gini)值的测算，根据计算后的Gini值，一般选择Gini值最小的作为最优***属性构建决策树。

进一步地，所述协处理器220用于接收对应的线程获取相应的所述数据分片子集和初始值进行计算之前，还包括：

所述主节点10向各所述从节点20分配进程，所述进程向所述从节点内所有设备发送调用请求进行计算的线程，接收各所述设备返回的调用请求进行计算的线程；其中，一个中央处理器作为一个设备，一块协处理器作为一个设备。

具体的，在协处理器220获取对应线程的数据分片子集和初始值进行计算之前，主节点20向各从节点20分配进程，该进程会向从节点20内的所有设备发送调用请求的线程，该调用请求包括资源、地址等信息的请求，并接收各所述设备返回调用请求的线程，根据该调用请求的线程，所述协处理器220可以获取到数据分片和初始值。每一个设备对应一个线程，其中，一个中央处理器可以作为一个设备，一块协处理器可以作为一个设备，所有设备的数量即为所有处理器设备和协处理器设备的和。

进一步地，所述中央处理器210用于划分数据分片为多个数据分片子集，是指：

所述中央处理器210按照所述协处理器220的数量将数据分片平均划分成多个数据分片子集。

具体的，为了更好地说明本实施例，假设有M个线程，中央处理器210会将接收到主节点10分发的数据分片，将所述数据分片平均划分成数据分片子集，所述数据分片子集则为1/M的数据分片，把每个数据分片子集分别发送给从节点20内的各个协处理器220，这样为最后选择最优***属性时，就只需要从M个属性进行选择，那么计算Gini值的时间可以大大减少，最理想的情况下可以减少到1/M。

进一步地，所述协处理器220用于根据计算后的结果获取最优***属性构建决策树发送给所述主节点10，是指：

所述协处理器220判段计算后的结果是不是最优解，若是，则将所述计算结果为最优解的对应的数据分片子集作为最优***属性构建决策树，将构建的决策树发送给所述主节点；若不是，则继续处理所述从节点的其他数据分片，直至计算后的结果是最优解或所有数据分片全部处理完。

具体的，各所述协处理器220计算后的结果会进行汇总，对所有计算后的结果进行判断，例如可以判断计算后的基尼值是不是最小的，若是，则将基尼值最小的对应的数据分片子集作为最优***属性构建决策树，并将构建的决策树发送给所述主节点10；若不是，则继续处理从节点20的其他数据分片，直至计算后的基尼值是最小的或者是把所有的数据分片全部处理完。

图2为本发明实施例提供的异构***并行随机森林优化方法实施例一的流程示意图，如图2所示，该方法应用于异构***并行随机森林优化***，其特征在于，所述***包括：一个主节点和多个从节点；

S101、所述主节点将待计算的数据文件划分成多个数据分片，分别发送数据分片给各所述从节点，接收各所述从节点构建好的决策树生成随机森林；

S102、所述从节点接收所述主节点分配的所述数据分片进行计算，将计算后的最优解构建决策树发送到所述主节点。

本发明实施例提供的异构***并行随机森林优化方法，应用于异构***并行随机森林优化***，包括至少一个主节点和多个从节点，通过主节点将待计算的数据文件划分成多个数据分片，分别发送数据分片给各从节点，各从节点用于接收主节点分配的数据分片进行计算，将计算后的最优解构建决策树发送到主节点，从而生成随机森林，实现了对超大规模数据文件的并行计算，从而加快了寻找最优解的时间，使得整个***效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

进一步地，所述从节点包括至少一个中央处理器和多个协处理器；

所述从节点接收所述主节点分配的所述数据分片，包括：所述中央处理器接收所述数据分片，将所述数据分片划分为多个数据分片子集，分配相应的所述数据分片子集给各所述线程，分发线程给各所述协处理器；

所述从节点计算所述数据分片并将计算后的最优解构建决策树发送到所述主节点，包括：所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算，根据计算后的结果获取最优***属性构建决策树发送给所述主节点。

本发明实施例提供的异构***并行随机森林优化方法，可以执行上述***实施例，其实现原理和技术效果类似，在此不再赘述。

进一步地，所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算之前，还包括：

所述主节点向各所述从节点分配进程，所述进程向所述从节点内所有设备发送调用请求的线程，接收各所述设备返回的调用请求的线程；其中，一个中央处理器作为一个设备，一块协处理器作为一个设备。

本发明实施例提供的大异构***并行随机森林优化方法，可以执行上述***实施例，其实现原理和技术效果类似，在此不再赘述。

进一步地，所述中央处理器划分数据分片为多个数据分片子集，包括：

所述中央处理器按照所述协处理器的数量将数据分片平均划分成多个数据分片子集。

进一步地，所述协处理器根据计算后的结果获取最优***属性构建决策树发送给所述主节点，包括：

所述协处理器判断计算后的结果是不是最优解，若是，则将所述计算后的最优解的对应的数据分片子集作为最优***属性构建决策树，将构建的决策树发送给所述主节点；若不是，则继续计算所述从节点的其他数据分片，直至计算后的结果是最优解或所有数据分片全部处理完。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种异构***并行随机森林优化***，其特征在于，应用于中央处理器与协处理器混合异构集群，包括：一个主节点和多个从节点；

2.根据权利要求1所述的***，其特征在于，所述从节点包括至少一个中央处理器和多个协处理器；

所述从节点用于接收所述主节点分配的所述数据分片，包括：所述中央处理器接收所述数据分片，将所述数据分片划分为多个数据分片子集，分配相应的所述数据分片子集给各所述线程，分发线程给各所述协处理器；

所述从节点用于计算所述数据分片并将计算后的最优解构建决策树发送到所述主节点，包括：所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算，根据计算后的结果获取最优***属性构建决策树发送给所述主节点。

3.根据权利要求2所述的***，其特征在于，所述协处理器用于接收对应的线程获取相应的所述数据分片子集和初始值进行计算之前，还包括：

4.根据权利要求2所述的***，其特征在于，所述中央处理器用于划分数据分片为多个数据分片子集，是指：

5.根据权利要求2所述的***，其特征在于，所述协处理器用于根据计算后的结果获取最优***属性构建决策树发送给所述主节点，是指：

所述协处理器用于判断计算后的结果是不是最优解，若是，则将所述计算后的最优解的对应的数据分片子集作为最优***属性构建决策树，将构建的决策树发送给所述主节点；若不是，则继续计算所述从节点的其他数据分片，直至计算后的结果是最优解或所有数据分片全部处理完。

6.一种异构***并行随机森林优化方法，应用于异构***并行随机森林优化***，其特征在于，所述***包括：一个主节点和多个从节点；

7.根据权利要求6所述的方法，其特征在于，所述从节点包括至少一个中央处理器和多个协处理器；

8.根据权利要求7所述的方法，其特征在于，所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算之前，还包括：

9.根据权利要求7所述的方法，其特征在于，所述中央处理器划分数据分片为多个数据分片子集，包括：

10.根据权利要求7所述的方法，其特征在于，所述协处理器根据计算后的结果获取最优***属性构建决策树发送给所述主节点，包括：