CN109754023A

CN109754023A - 基于j散度的新型决策树分类方法

Info

Publication number: CN109754023A
Application number: CN201910082556.2A
Authority: CN
Inventors: 杨云帆; 陈文�
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-14

Abstract

本发明提供了一种基于J散度的新型决策树分类方法，包括以下步骤：S1、规范化输入样本数据集；S2、设置样本数据集或数据子集的划分终止条件，也即决策树根据当前结点的状态，生成叶子结点不再继续划分的条件；S3、准备对原始样本数据集进行划分，创建决策树的根结点；S4、按照划分准则进行样本数据集的划分、决策树结点的***以及决策规则的产生；S5、采用递归的方式，将每次划分得到的样本子集继续按照步骤S2、S3、S4进行划分，得到新的结点；S6、对未知类别标签值的样本X^*进行类别值的判别预测。本方法创新地使用了J散度这一信息度量用于划分准则的产生，使得决策树分类算法的预测准确度得到了提升。

Description

基于J散度的新型决策树分类方法

技术领域

本发明涉及信息论和数据挖掘交叉技术领域，具体地，涉及一种基于J散度的新型决策树分类方法。

背景技术

随着无线移动通信、互联网以及各种智能终端设备等技术的发展与进步，海量数据在呈指数***式地不断地产生和收集。如何从海量大数据中发现和提取有用的知识或规则是一系列值得考虑的问题。这些问题都涉及到大数据技术中的一个关键的技术，即数据挖掘技术。分类问题是数据挖掘所要解决的一个典型问题，广泛应用于垃圾邮件识别、文字和图像识别、金融风险控制和***欺诈、在线广告投放以及推荐***等实际的应用场景中。目前解决分类问题所采用的方法大多是有监督的机器学习方法，包括朴素贝叶斯分类、逻辑回归(Logistic Regression)、支持向量机SVM(Support Vector Machine)、最近邻分类kNN(k-Nearest Neighbor)、神经网络(Neural Network)以及决策树分类算法。其中，决策树分类算法相较于其他分类算法由于其生成的决策树清晰、简洁以及可解释性强，非常方便决策者做出相应决策，广泛实际的应用在生产生活中。

决策树分类算法的研究最早可追溯到上世纪八十年代，Quinlan于1986年首次在“Induction of decision trees”一文中提出基于信息增益的ID3决策树分类算法。此后，他于1993年在著作“C4.5:programs for machine learning”提出基于信息增益率的改进版本的C4.5决策树。而在此期间，几乎是与此同时，Breiman和Friedman等多名统计学家在著作“Classification and regression trees”中介绍并提出了二叉结构的CART决策树分类算法。一时间决策树学***静。

近年来，随着大数据技术以及计算机计算能力的发展与进步，新一轮的人工智能浪潮来临。机器学习算法也再度成为研究热点，然而，近年来机器学习算法的研究大多集中在深度学习，集成学习以及迁移学习等复杂算法或模型的方向，对传统的基本机器学习或数据挖掘的算法鲜有涉及。

经对现有技术的检索，申请号为201110100232.0的中国发明专利公开了一种处理缺失数据的新型决策树分类器方法，包括以下步骤：将待处理的原始样本数据集进行初始化设置，且将所述数据集进行权重值初始化分配；选择一将所述数据集中的节点***为子节点的特征属性；将样本数据根据节点的特征属性分类到各子节点；通过计算出各子节点选择的特征量值将各子节点***出来；根据***出来的各子节点的样本属性确定叶子节点。该方案没有采用J散度作为样本数据集划分以及决策树结点***准则，使得决策树分类算法的预测准确度无法得到进一步提升。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于J散度的新型决策树分类方法，应用于数据样本集的分类，以解决现有的决策树分类方法的分类预测准确度不佳的技术问题。

根据本发明提供的一种基于J散度的新型决策树分类方法，包括以下步骤：

S1、规范化输入样本数据集D＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾},i＝1,2,...,M,j＝1,2,...,N，其中，X_j ⁽ⁱ⁾表示样本X⁽ⁱ⁾在特征A_j上的特征值，C⁽ⁱ⁾∈{c₁,c₂,...,c_K}表示样本X⁽ⁱ⁾对应的类别标签值；

S2、设置样本数据集或数据子集的划分终止条件，也即决策树根据当前结点的状态，生成叶子结点不再继续划分的条件；

S3、准备对原始样本数据集进行划分，创建决策树的根结点；

S4、按照划分准则进行样本数据集的划分、决策树结点的***以及决策规则的产生；

S5、采用递归的方式，将每次划分得到的样本子集继续按照步骤S2、S3、S4进行划分，得到新的结点；

S6、对未知类别标签值的样本X^*进行类别值的判别预测。

进一步的，所述步骤S1中，原始样本数据集D中有M个样本，每个样本用X⁽ⁱ⁾,i＝1,2,...,M表示，样本数据集D中同样包含了N个特征A_j,j＝1,2,...,N，每个特征A_j是类别型特征或者数值型特征，此外，数据集中共有K个类别标签值构成集合C＝{c₁,c₂,...,c_K}，每个样本都由这N个特征所对应的N个特征值和一个类别标签值所描述，其中，对应的特征值描述为X_j ⁽ⁱ⁾，i＝1,2,...,M,j＝1,2,...,N，对应的类别标签值描述为C⁽ⁱ⁾,i＝1,2,...,M。

进一步的，所述步骤S2中，划分终止条件有3个，分别为：

a.设置参数决策树最大高度MaxHeight，如果当前结点在树中的高度大于MaxHeight，则直接生成叶子结点，不再继续往下划分；

b.设置叶子结点最小样本个数MinSamples，如果与当前结点相关的样本集或样本子集中的样本个数小于等于MinSamples，则直接生成叶子节点，不再继续往下划分；

c.设置当前结点类别最小不确定度MinUncertainty，其取值范围在[0,1]之间，如果当前结点的不确定度U_c(p)小于MinUncertainty，则直接生成叶子节点，不再继续往下划分。

进一步的，所述当前结点的不确定度U_c(p)的计算方法如下：假设与当前结点相关联的样本集或样本子集为D_c＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾},i＝1,2,...,M_c,j＝1,2,...,N，则计算当前结点的不确定度为：

进一步的，所述步骤S3中，判断结点的状态是否满足划分终止条件，若满足其中一个，则不进行划分，该结点即是叶子结点，并标记叶子结点类别标签值为样本集多中数样本所属类别标签值；如果不满足，则继续进行划分。

进一步的，所述步骤S4中，假设与当前结点相关联的样本数据集或样本数据子集为D_c＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾},i＝1,2,...,M_c,j＝1,2,...，N，其样本类别概率分布向量为p＝(p₁,p₂,...,p_K)，划分就是寻找一个特征A_j＝a*将D_c划分成左右两个样本子集D_l以及D_r；其中，如果D_c中样本X⁽ⁱ⁾在特征A_j上的特征值满足X_j ⁽ⁱ⁾≤a^*，则X⁽ⁱ⁾被划分至左子集D_l中；反之，如果满足X_j ⁽ⁱ⁾＞a^*则会被划分至右子集D_r中。

进一步的，所述步骤S4中，基于贪心的策略，选择特征及相应的特征值A_j＝a^*，以使得下列划分准则最大：

其中，p_l和p_r分别表示左右两个样本子集中关于类别概率分布的向量，J(p_l||p)表示p_l和p之间的J散度。

进一步的，所述J散度又称作对称形式的KL散度，计算如下：

J(p_l||p)＝KL(p_l||p)+KL(p||p_l),

其中，p_lk和p_k分别是样本集或样本子集中样本类别值为c_K的概率，如果A_j为类别型特征，则相应地，左右两个子集的划分条件变为A_j＝a^*和A_j≠a^*，由当前结点记录划分所选择的特征及特征值A_j＝a^*，而相应的左右两个子集划分条件即为生成的决策规则。

进一步的，所述步骤S5中，判断结点的状态是否满足预设的划分终止条件，若满足其中一个，则不进行划分，该结点即是叶子结点，并标记叶子结点类别标签值为与之相关联的样本集或样本子集多数样本所属类别标签值；若不满足，则继续按照步骤S4往下划分，直至生成一棵完整的决策树。

进一步的，所述步骤S6中，从决策树的根结点开始，往下匹配每个结点中的特征以及相应的决策规则，直至落入叶子结点中，叶子结点被标记的类别标签值即是样本X^*所属类别值。

与现有技术相比，本发明具有如下的有益效果：

1、本发明采用J散度作为样本数据集划分以及决策树结点***准则，生成的决策树在结构上与现有的决策树分类方法完全不同。

2、本发明的基于J散度的新型决策树分类方法，在分类预测准确度表现上也优于现有的决策树分类方法。

3、本发明的基于J散度的新型决策树分类方法，创新性地选择J散度这一信息度量，用于在根据数据样本集创建决策树过程中的结点***准则以及决策规则的产生，从而根据生成的决策树以及相关决策规则，实现对未知类别标签的样本类别标签值的准确判别预测。

4、本发明的基于J散度的新型决策树分类方法，在应用于中大型复杂数据集分类问题上，综合性能(综合考虑运行效率以及分类准确率)比现有的其他解决数据挖掘分类问题的基本技术表现要好。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于J散度决策树分类方法的逻辑流程图；

图2为J散度决策树一般结构的简单示例说明。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本实施例中，本发明的一种基于J散度的新型决策树分类方法，介绍如下：

S6、对未知类别标签值的样本X^*进行类别值的判别预测。

接下来对本发明进行详细的描述。

本发明的目的是提供一种基于J散度的新型决策树分类方法，应用于数据样本集的分类，以解决现有的决策树分类方法的分类预测准确度不佳的技术问题。

如图1的逻辑流程图所示，一种基于J散度的决策树分类方法具体过程包括以下步骤：

S1、规范化输入样本数据集，为之后的计算作铺垫。将原始样本数据集用D＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾}表示，假设中D有M个样本，每个样本用X⁽ⁱ⁾,i＝1,2,...,M表示，每个样本都由N个特征所对应的N个特征值和一个类别标签值所构成，这N个特征分别表示为A_j,j＝1,2,...,N，每个特征A_j可能是类别型特征或者数值型特征，样本X⁽ⁱ⁾对应特征A_j的特征值为X_j ⁽ⁱ⁾，此外，数据集中共有K个类别标签值构成集合C＝{c₁,c₂,...,c_K}，则每个样本都对应一个类别标签值样本，样本X⁽ⁱ⁾对应类别标签值为C⁽ⁱ⁾；

S2、根据样本数据集创建新的结点。初始时，则根据原始样本数据集创建决策树的根结点，结点分为根结点、内部结点以及叶子结点。每个结点中都记录一些信息：与结点相关联的样本(子)集，结点的高度，根结点和内部结点还记录了数据集划分或结点***所选择的特征及特征值，而叶子结点则记录其被标记相应的类别标签值。关于结点类型的信息可以参考图2示出的J散度决策树结构简单示例说明。假设与结点相关的样本集为D_c＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾},i＝1,2,...,M_c,j＝1,2,...,N关于类别标签值的概率分布向量为p＝(p₁,p₂,...,p_K)，则计算关于类别的不确定度为：

初始化根结点的高度为1，则往后进行***时，子结点的高度等于其父结点的高度加1；

S3、判断结点的状态是否满足划分终止条件，也即判断当前结点是叶子结点还是内部结点。设置了3个划分终止条件分别为：

a.如果当前结点的在树中的高度大于等于预设的决策树最大高度MaxHeight，则直接生成叶子结点，不再继续往下划分；

b.如果与当前结点相关的样本(子)集中的样本个数小于等于预设的叶子结点最小样本个数MinSamples，则直接生成叶子节点，不再继续往下划分；

c.如果当前结点关于类别的不确定度小于等于预设的最小不确定度MinUncertainty，其取值大小范围在[0,1]之间，则直接生成叶子节点，不再继续往下划分；

如果满足划分终止条件，则当前结点为叶子结点，标记其类别标签值为与其相关联的样本子集多数样本所属的类别标签值；

S4、按照划分准则划分数据集，也即结点***以及决策规则的产生。如果当前结点的状态不满足划分终止条件，则需要往下划分。假设与当前结点相关联的样本数据(子)集为D_c＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾},i＝1,2,...,M_c,j＝1,2,...,N，其样本类别概率分布向量为p＝(p₁,p₂,...,p_K)，若采用一个特征(数值型特征为例)A_j＝a^*将D_c划分成左右两个样本子集D_l以及D_r，其中，如果D_c中样本X⁽ⁱ⁾在特征A_j上的特征值满足X_j ⁽ⁱ⁾≤a^*，则X⁽ⁱ⁾被划分至左子集D_l中；反之，如果满足X_j ⁽ⁱ⁾＞a^*则会被划分至右子集D_r中，左右两个样本子集中关于类别C＝{c₁,c₂,...,c_K}概率分布的向量分别为p_l＝(p_l1,p_l2,...,p_lK)和p_r＝(p_r1,p_r2,...,p_rK)。基于贪心的策略选择使得下列划分准则最大的特征及相应的特征值A_j＝a^*：

其中，J(p_l||p)表示p_l和p之间的J散度，J散度又称作对称形式的KL散度，计算如下：

J(p_l||p)＝KL(p_l||p)+KL(p||p_l),

S5、采用递归的方式，将每次划分得到左右两个样本子集继续按照步骤S2、S3、S4进行划分,直至所有的划分都停止，生成对应的叶子结点，从而得到一颗完整的基于J散度的决策树。图2即是J散度决策树一般结构的简单示例；

S6、对未知类别标签值的样本进行类别值得判别预测。从根结点开始依次往下匹配相应的特征与特征值，直至其到达某个叶子结点，叶子结点所被标记的类别标签值即是对该未知类别标签值的样本的预测结果。

综上所述，本发明采用J散度作为样本数据集划分以及决策树结点***准则，生成的决策树在结构上与现有的决策树分类方法完全不同；本发明的基于J散度的新型决策树分类方法，在分类预测准确度表现上也优于现有的决策树分类方法；本发明的基于J散度的新型决策树分类方法，创新性地选择J散度这一信息度量，用于在根据数据样本集创建决策树过程中的结点***准则以及决策规则的产生，从而根据生成的决策树以及相关决策规则，实现对未知类别标签的样本类别标签值的准确判别预测；本发明的基于J散度的新型决策树分类方法，在应用于中大型复杂数据集分类问题上，综合性能(综合考虑运行效率以及分类准确率)比现有的其他解决数据挖掘分类问题的基本技术表现要好。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于J散度的新型决策树分类方法，其特征在于，包括以下步骤：

S6、对未知类别标签值的样本X^*进行类别值的判别预测。

2.根据权利要求1所述的基于J散度的新型决策树分类方法，其特征在于，所述步骤S1中，原始样本数据集D中有M个样本，每个样本用X⁽ⁱ⁾,i＝1,2,...,M表示，样本数据集D中同样包含了N个特征A_j,j＝1,2,...,N，每个特征A_j是类别型特征或者数值型特征，此外，数据集中共有K个类别标签值构成集合C＝{c₁,c₂,...,c_K}，每个样本都由这N个特征所对应的N个特征值和一个类别标签值所描述，其中，对应的特征值描述为X_j ⁽ⁱ⁾，i＝1,2,...,M,j＝1,2,...,N，对应的类别标签值描述为C⁽ⁱ⁾,i＝1,2,...,M。

3.根据权利要求1所述的基于J散度的新型决策树分类方法，其特征在于，所述步骤S2中，划分终止条件有3个，分别为：

4.根据权利要求3所述的基于J散度的新型决策树分类方法，其特征在于，所述当前结点的不确定度U_c(p)的计算方法如下：假设与当前结点相关联的样本集或样本子集为D_c＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾},i＝1,2,...,M_c,j＝1,2,...,N，则计算当前结点的不确定度为：

5.根据权利要求1所述的基于J散度的新型决策树分类方法，其特征在于，所述步骤S3中，判断结点的状态是否满足划分终止条件，若满足其中一个，则不进行划分，该结点即是叶子结点，并标记叶子结点类别标签值为样本集多中数样本所属类别标签值；如果不满足，则继续进行划分。

6.根据权利要求1所述的基于J散度的新型决策树分类方法，其特征在于，所述步骤S4中，假设与当前结点相关联的样本数据集或样本数据子集为D_c＝{X_j ⁽ⁱ⁾；C⁽ⁱ⁾},i＝1,2,...,M^c,j＝1,2,...,N，其样本类别概率分布向量为p＝(p₁,p₂,...,p_K)，划分就是寻找一个特征A_j＝a^*将D_c划分成左右两个样本子集D_l以及D_r；其中，如果D_c中样本X⁽ⁱ⁾在特征A_j上的特征值满足X_j ⁽ⁱ⁾≤a^*，则X⁽ⁱ⁾被划分至左子集D_l中；反之，如果满足X_j ⁽ⁱ⁾＞a^*则会被划分至右子集D_r中。

7.根据权利要求6所述的基于J散度的新型决策树分类方法，其特征在于，所述步骤S4中，基于贪心的策略，选择特征及相应的特征值A_j＝a^*，以使得下列划分准则最大：

8.根据权利要求7所述的基于J散度的新型决策树分类方法，其特征在于，所述J散度又称作对称形式的KL散度，计算如下：

J(p_l||p)＝KL(p_l||p)+KL(p||p_l),

9.根据权利要求1所述的基于J散度的新型决策树分类方法，其特征在于，所述步骤S5中，判断结点的状态是否满足预设的划分终止条件，若满足其中一个，则不进行划分，该结点即是叶子结点，并标记叶子结点类别标签值为与之相关联的样本集或样本子集多数样本所属类别标签值；若不满足，则继续按照步骤S4往下划分，直至生成一棵完整的决策树。

10.根据权利要求1所述的基于J散度的新型决策树分类方法，其特征在于，所述步骤S6中，从决策树的根结点开始，往下匹配每个结点中的特征以及相应的决策规则，直至落入叶子结点中，叶子结点被标记的类别标签值即是样本X^*所属类别值。