CN104679911B - 一种基于离散弱相关的云平台决策森林分类方法 - Google Patents

一种基于离散弱相关的云平台决策森林分类方法 Download PDF

Info

Publication number
CN104679911B
CN104679911B CN201510133866.4A CN201510133866A CN104679911B CN 104679911 B CN104679911 B CN 104679911B CN 201510133866 A CN201510133866 A CN 201510133866A CN 104679911 B CN104679911 B CN 104679911B
Authority
CN
China
Prior art keywords
attribute
cloud platform
decision
decision tree
decision forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510133866.4A
Other languages
English (en)
Other versions
CN104679911A (zh
Inventor
袁景凌
陈旻骋
刘永坚
杨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN LIGONG DIGITAL COMMUNICATIONS ENGINEERING Co.,Ltd.
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201510133866.4A priority Critical patent/CN104679911B/zh
Publication of CN104679911A publication Critical patent/CN104679911A/zh
Application granted granted Critical
Publication of CN104679911B publication Critical patent/CN104679911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于离散弱相关的云平台决策森林分类方法,对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之间的相关程度,选出随机抽样属性元组,然后增量更新属性组概率离散化的连续属性,求得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模数据规模时,能减少构建云平台决策森林的时间和空间开销,增强抗数据噪音的能力及其稳定性,并加快了分类的预测速度和提高了分类的质量。

Description

一种基于离散弱相关的云平台决策森林分类方法
技术领域
本发明涉及云计算领域,具体是指一种基于离散弱相关的云平台决策森林分类方法。
背景技术
随机***技术构建多棵决策树,通过投票得到最终预测结果。随机森林是由许多决策树集成在一起的分类器,如果把决策树看成分类任务中的一个专家,随机森林就是许多专家在一起对某种任务进行分类。
目前,随着大数据时代的到来,数据的规模不断的增大以及数据的属性维度的连续增加,传统的随机森林分类方法不能有效地处理海量规模数据,不能高效、快速地完成分类预测。因此针对海量、高维的数据,不少学者提出了基于云平台的分布式随机森林分类方法,虽然这些方法能够快速地完成数据的分类预测工作。但是空间效率及分类精度并不尽如人意。
为了解决这个问题,需要研究怎样在保证分类时间效率的同时,减少云平台随机森林方法的空间开销,提高分类精度。对随机森林离散弱相关化是一种有效手段。离散弱相关化是指随机森林在随机抽样的基础上,根据数据集属性之间的相关程度,选取若干个属性构成属性组,并增量更新属性组中概率离散化的连续属性。以此来提高云平台决策森林分类效率。
发明内容:
本发明的目的是为了解决上述背景技术存在的不足,提出一种基于离散弱相关的云平台决策森林分类方法,减少了时间和空间开销,增强抗数据噪音的能力,并提高了分类质量。
为了解决上述技术问题本发明的技术方案为:
一种基于离散弱相关的云平台决策森林分类方法,其特征在于,该方法包括如下步骤:步骤一,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset;步骤二,确定每棵决策树弱相关化随机抽样属性元组;步骤三,依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新,求得其中最大增益属性;步骤四,重复步骤三获得分类属性序列,建立云平台决策森林并分类。
较佳地,所述步骤一中所述决策树的最优总数是通过以下方法获得的:用云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数,其中m取其中p是新数据集dataset中属性的维数。
较佳地,所述步骤一中所述新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
较佳地,所述步骤二具体包括以下步骤:21)为步骤一所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取其中p是新数据集dataset中属性的维数;22)对步骤21)所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均值,对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;23)针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
较佳地,所述步骤三是对每棵决策树进行以下操作:31)对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化;32)通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;33)将替换后的随机抽样属性元组划分为数个候选***属性子集,各个候选***属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选***属性子集上计算所有属性的信息增益,统计得到最大增益属性。
较佳地,所述步骤31)是根据连续属性的概率密度函数进行离散化。
较佳地,所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值,以键值对表示。
较佳地,所述步骤33)所得结果还包括各个云平台节点的***属性和***点,所述***属性和***点是通过以下方式得到的:调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择***值最优的属性值作为该节点的***属性和***点,所得结果包括***点编号和***规则,以键值对表示。
较佳地,所述步骤四具体包括以下步骤:41)重复步骤三获得分类属性序列,并行化建立相应的决策树;42)构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个节点上对应的键值,通过Reduce函数组合结果,生成云平台决策森林;43)为待分类的数据集的每个决策树分配一个Map映射函数,统计各Map映射函数返回投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
本发明首先根据数据集属性之间的相关程度,选出随机抽样属性元组,然后增量更新属性组中概率离散化的连续属性,并求得其最大增益属性,最后通过获得的分类属性序列建立云平台决策森林并分类。通过分析云平台的配置及数据集特性,优化描述文件中的参数,经过相关性检测后,确定弱相关化随机抽样属性元组,再增量更新属性组中概率离散化的连续属性,能够对云平台的决策森林方法离散弱相关化,减少了时间和空间开销,增强抗数据噪音的能力及其稳定性,加快了分类的预测速度,提高了分类的质量。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
一种基于离散弱相关的云平台决策森林分类方法(图1),该方法包括如下步骤:
步骤S1,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset;
决策树的最优总数是通过以下方法获得的:用Hadoop云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数,促使各个Reduce任务经归约后,能够单独计算一个属性的熵;其中m即随机森林算法中超参数的取值,一般取m为其中p是新数据集dataset中属性的维数。
新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
将得到的决策森林中树的最优总数及dataset加入到云平台决策森林描述文件中。并将这些决策树的描述文件分别进行Map映射操作,将其被分配到不同的节点上。
步骤S2,确定每棵决策树弱相关化随机抽样属性元组;
步骤S21为步骤S1所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取其中p是新数据集dataset中属性的维数;
离散属性相关性计算:1利用倒排索引的思想统计出各离散值在两组属性中的出现情况;2.设定变量i_tag,根据步骤1中统计的结果,若两组属性中均包含某一离散属性,则对变量i_tag进行累加;3.将累加后的变量i_tag乘以权值,得到两组离散属性的相关程度值(权值为新数据集dataset总属性数除以总离散属性数商的对数值)。此过程为TF-IDF思想的变换
连续属性相关性计算:1.分别计算两组连续属性的均值;2.将两组属性的均值代入协方差公式进行计算,并将计算结果取绝对值。计算值越大,则说明两种属性的相关性越强。若计算值为0,则说明两种属性相互独立。
Map函数计算结束后,得到键值对<属性1,(属性1,属性2,相关程度值)>,其中属性1为当前所计算的属性(可能是前面所抽取2m个属性中的离散属性,也可能是所抽取2m个属性中连续属性)(若属性1和属性2为不同类别的属性,相关程度值为0),属性2为与属性1进行相关性检测的属性;
步骤S22对步骤S21所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均值,若该均值接近于0,则表示相关性小。对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;
步骤S 23针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
步骤S3,依次对步骤S2所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新,求得其中最大增益属性:
步骤S31对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散;是根据连续属性的概率密度函数进行离散化。
步骤S32通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;
步骤S33将替换后的随机抽样属性元组划分为数个候选***属性子集,各个候选***属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选***属性子集上计算所有属性的信息增益,统计得到最大增益属性。
返回键值对<对应的属性名称,最大的信息增益值>。
调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择***值最优的属性值作为该节点的***属性和***点,返回键值对<***点编号和***规则>。
步骤S4,重复步骤S3获得分类属性序列,建立云平台决策森林并分类。
步骤S41重复步骤S3获得分类属性序列,并行化建立相应的决策树;
步骤S42构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个节点上对应的键值,通过Reduce函数组合结果,生成云平台决策森林;
步骤S43为待分类的数据集的每个决策树分配一个Map映射函数,统计各Map映射函数返回投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
上述方法中,对云平台的决策森林分类方法离散弱相关化。首先根据数据属性之间的相关程度,选出随机抽样属性元组,然后增量更新属性组概率离散化的连续属性。并求得最大增益属性。最后通过获得的分类属性序列建立云平台决策森林。这样在处理大规模数据规模时,能减少构建云平台决策森林的时间和空间开销,增强抗数据噪音的能力及其稳定性。并加快了分类的预测速度和提高了分类的质量。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (9)

1.一种基于离散弱相关的云平台决策森林分类方法,其特征在于,该方法包括如下步骤:
步骤一,生成使云平台决策森林最优的描述文件,所述描述文件包括决策树的最优总数及每棵决策树的新数据集dataset;
步骤二,确定每棵决策树弱相关化随机抽样属性元组;
步骤三,依次对步骤二所得各个决策树的弱相关化随机抽样属性元组中概率离散化的连续属性进行增量更新,求得其中最大增益属性;
步骤四,重复步骤三获得分类属性序列,建立云平台决策森林并分类。
2.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤一中所述决策树的最优总数是通过以下方法获得:用云平台的Data_Node节点个数乘以各节点统一设定的Reduce任务数,用所求得的积开方的2倍除以m得到决策森林中决策树的最优总数,其中m取其中p是所述新数据集dataset中属性的维数。
3.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤一中所述新数据集dataset是通过以下方法获得的:通过bootstrap抽样方法为云平台中的每棵决策树抽取训练样本,获得每棵决策树的新数据集dataset。
4.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤二具体包括以下步骤:
21)为步骤一所得每棵决策树随机抽取2m个属性,并使用Map函数通过TF-IDF逆文档频率计算离散属性相关程度,通过协方差矩阵计算连续属性相关程度,其中m取其中p是所述新数据集dataset中属性的维数;
22)对步骤21)所得结果进行收集,计算抽样属性与其他决策树的已建树属性的相关性均值,对每个抽样属性的相关性均值进行快速排序,找出相关性最小的m个属性,构成每棵决策树的弱相关化随机抽样属性元组;
23)针对每棵决策树对应的弱相关化随机抽样属性元组,初始化Map任务,并将所述随机抽样属性元组映射到对应的云平台节点上。
5.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤三是对每棵决策树进行以下操作:
31)对每棵决策树的弱相关化随机抽样属性元组中的连续属性进行离散化;
32)通过更新函数用已离散化的属性替换描述文件中数据集的原连续属性,并得到替换后的随机抽样属性元组;
33)将替换后的随机抽样属性元组划分为数个候选***属性子集,各个候选***属性子集由对应云平台节点子线程处理,每个子线程在自己对应的候选***属性子集上计算所有属性的信息增益,统计得到最大增益属性。
6.根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤31)是根据连续属性的概率密度函数进行离散化。
7.根据权利要求5所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤33)所得结果包括所对应的属性名称和最大的信息增益值,以键值对表示。
8.根据权利要求7所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤33)所得结果还包括各个云平台节点的***属性和***点,所述***属性和***点是通过以下方式得到的:调用Reduce函数统计包含属性名称和最大的信息增益值的各键值对,选择***值最优的属性值作为该节点的***属性和***点,所得结果包括***点编号和***规则,以键值对表示。
9.根据权利要求1所述的一种基于离散弱相关的云平台决策森林分类方法,其特征在于,所述步骤四具体包括以下步骤:
41)重复步骤三获得分类属性序列,并行化建立相应的决策树;
42)构建各云平台节点对应的决策树,当所有决策树构建完成后,获取每个节点上对应的键值,通过Reduce函数组合结果,生成云平台决策森林;
43)为待分类的数据集的每个决策树分配一个Map函数,统计各Map函数返回投票情况键值对,选择投票数目最多的那个类别作为决策森林的分类预测类别。
CN201510133866.4A 2015-03-25 2015-03-25 一种基于离散弱相关的云平台决策森林分类方法 Active CN104679911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510133866.4A CN104679911B (zh) 2015-03-25 2015-03-25 一种基于离散弱相关的云平台决策森林分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510133866.4A CN104679911B (zh) 2015-03-25 2015-03-25 一种基于离散弱相关的云平台决策森林分类方法

Publications (2)

Publication Number Publication Date
CN104679911A CN104679911A (zh) 2015-06-03
CN104679911B true CN104679911B (zh) 2018-03-27

Family

ID=53314953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510133866.4A Active CN104679911B (zh) 2015-03-25 2015-03-25 一种基于离散弱相关的云平台决策森林分类方法

Country Status (1)

Country Link
CN (1) CN104679911B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292186B (zh) * 2016-03-31 2021-01-12 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN107729555B (zh) * 2017-11-07 2020-10-09 太原理工大学 一种海量大数据分布式预测方法及***
CN110309587B (zh) * 2019-06-28 2024-01-16 京东城市(北京)数字科技有限公司 决策模型构建方法、决策方法与决策模型
CN111695588B (zh) * 2020-04-14 2021-03-23 北京迅达云成科技有限公司 一种基于云计算的分布式决策树学习***
CN116933187B (zh) * 2023-09-15 2023-12-19 北京中企导航科技有限公司 一种财务报销单据数字化处理方法及***
CN117520965B (zh) * 2024-01-04 2024-04-09 华洋通信科技股份有限公司 基于人工智能的工矿作业数据分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593361A (zh) * 2012-08-14 2014-02-19 中国科学院沈阳自动化研究所 感应网络环境下移动时空轨迹分析方法
CN104216889A (zh) * 2013-05-30 2014-12-17 北大方正集团有限公司 基于云服务的数据传播性分析预测方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7213023B2 (en) * 2000-10-16 2007-05-01 University Of North Carolina At Charlotte Incremental clustering classifier and predictor
US20040064450A1 (en) * 2002-09-30 2004-04-01 Kabushiki Kaisha Toshiba Method for preparing data to be analyzed, data analysis method, data analysis device, data preparation program, data analysis program, data prediction device, data prediction method, data prediction program and computer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593361A (zh) * 2012-08-14 2014-02-19 中国科学院沈阳自动化研究所 感应网络环境下移动时空轨迹分析方法
CN104216889A (zh) * 2013-05-30 2014-12-17 北大方正集团有限公司 基于云服务的数据传播性分析预测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
随机森林方法预测膜蛋白类型;袁敏等;《生物物理学报》;20091031;第25卷(第5期);349-354 *

Also Published As

Publication number Publication date
CN104679911A (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
CN104679911B (zh) 一种基于离散弱相关的云平台决策森林分类方法
CN102411563B (zh) 一种识别目标词的方法、装置及***
Priyam et al. Comparative analysis of decision tree classification algorithms
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘***及其方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN111754345A (zh) 一种基于改进随机森林的比特币地址分类方法
CN106548196A (zh) 一种针对非平衡数据的随机森林抽样方法及装置
CN107025228B (zh) 一种问题推荐方法及设备
Minegishi et al. Detection of fraud use of credit card by extended VFDT
Ruangthong et al. Bank direct marketing analysis of asymmetric information based on machine learning
Zafarani et al. Differentially private naive bayes classifier using smooth sensitivity
CN111126865A (zh) 一种基于科技大数据的技术成熟度判断方法和***
CN107274066A (zh) 一种基于lrfmd模型的共享交通客户价值分析方法
Graham et al. Finding and visualizing graph clusters using pagerank optimization
Hacıbeyoğlu et al. Comparison of the effect of unsupervised and supervised discretization methods on classification process
CN116662282A (zh) 一种基于多维数据的服务数据处理共享***
CN103744958B (zh) 一种基于分布式计算的网页分类方法
CN110097120B (zh) 网络流量数据分类方法、设备及计算机存储介质
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
CN107832611B (zh) 一种动静态特征结合的僵尸程序检测与分类方法
CN103793504B (zh) 一种基于用户偏好与项目属性的聚类初始点选择方法
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
Ravichandran et al. Comparative study on decision tree techniques for mobile call detail record
WO2020024448A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
Kurnia et al. Comparison of C4. 5 Algorithm, Naive Bayes and Support Vector Machine (SVM) in Predicting Customers that Potentially Open Deposits

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210127

Address after: 430070 East Lake science and Technology Park, East Lake Development Zone, Wuhan, Hubei

Patentee after: WUHAN LIGONG DIGITAL COMMUNICATIONS ENGINEERING Co.,Ltd.

Address before: 430070 Hubei city of Wuhan province Luoshi Road No. 122, Wuhan University of Technology

Patentee before: WUHAN University OF TECHNOLOGY