CN106294667A

CN106294667A - 一种基于id3的决策树实现方法及装置

Info

Publication number: CN106294667A
Application number: CN201610635132.0A
Authority: CN
Inventors: 谢京华
Original assignee: Sichuan Jiuzhou Electric Group Co Ltd
Current assignee: Sichuan Jiuzhou Electric Group Co Ltd
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2017-01-04

Abstract

本发明公开了一种基于ID3的决策树实现方法和装置，该方法包括矩阵构建步骤，读入数据以构建属性矩阵和数据矩阵；当前节点确定步骤，选择根据数据矩阵计算的属性矩阵中当前信息增益最大值对应的属性作为当前节点；子一级节点确定步骤，去除当前节点属性后重构属性矩阵，选择属性矩阵重构后计算得到的信息增益最大值对应的属性作为当前的子一级节点，并以该子一级节点为当前节点重复子一级节点确定步骤；决策树实现步骤，根据当前节点及对应的所有子一级节点实现决策树。本发明可以充分、高效、实用、可靠的获取决策知识，从而实现数据挖掘。

Description

一种基于ID3的决策树实现方法及装置

技术领域

本发明属于信息技术领域，具体地说，尤其设计一种基于ID3的决策树实现方法及装置。

背景技术

随着信息技术的飞速发展，数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。这就导致从海量数据中提取有用的信息成为巨大的挑战。由于数据量太大，无法使用传统的数据分析工具和技术处理。有时，即使数据量相对较小，但由于数据本身具有一些非传统特点，也不能使用传统的方法处理。在另外一些情况下，面临的问题是不能使用已有的数据分析技术来解决。因此，需要开发新的方法来进行数据处理。

数据挖掘是一种技术，其将传统的数据分析方法与处理大量数据的复杂算法相结合，从这些大量的数据里面挖掘信息。目前，决策树已经成为一种重要的数据挖掘方法。在决策树构造中，ID3算法是最具有影响力的一种决策树生成算法，是1986年由Quinlan提出的。Quinlan详细阐述了决策树和ID3算法的相关理论，其后很多专家学者对决策树进行了深入的研究。但在实际具体的应用过程中，ID3算法在处理不完整的训练数据或有歧义的训练数据时具有一定的缺陷。

发明内容

为解决以上问题，本发明提供了一种基于ID3的决策树实现方法及装置，用于充分、高效、实用、可靠的获取决策知识，从而实现数据挖掘。

根据本发明的一个方面，提供了一种基于ID3的决策树实现方法，包括：

矩阵构建步骤，读入数据以构建属性矩阵和数据矩阵；

当前节点确定步骤，选择根据数据矩阵计算的属性矩阵中当前信息增益最大值对应的属性作为当前节点；

子一级节点确定步骤，去除当前节点属性后重构属性矩阵，选择属性矩阵重构后计算得到的信息增益最大值对应的属性作为当前的子一级节点，并以该子一级节点为当前节点重复子一级节点确定步骤；

决策树实现步骤，根据当前节点及对应的所有子一级节点实现决策树。

根据本发明的一个实施例，所述子一级节点确定步骤进一步包括：

判断当前的子一级节点是否为叶节点步骤，如是则判断该叶节点是否为有效叶节点，否则剔除该子一级节点后重构属性矩阵并返回子一级节点确定步骤；

如该叶节点为有效叶节点，则形成决策树的一个分支，否则剔除该子一级节点后重构属性矩阵并返回子一级节点确定步骤。

根据本发明的一个实施例，当判断当前的子一级节点为有效叶节点时还包括计算该叶节点对应分支的支持度。

根据本发明的一个实施例，剔除掉的子一级节点在并行平级的子一级节点计算完成后，剔除计算完成的子一级节点后重构属性矩阵并返回子一级节点确定步骤。

根据本发明的一个实施例，所述决策树实现步骤进一步包括：

遍历完成确定所有的并行平级的子一级节点；

遍历完成确定所有的并行平级的当前节点，其中，如当前节点对应是最后属性，则根据所有的子一级节点和当前节点形成决策树，否则，剔除该当前节点属性后重构属性矩阵并返回当前节点确定步骤。

根据本发明的另一个方面，还提供了一种基于ID3的决策树实现装置，包括：

矩阵构建模块，读入数据以构建属性矩阵和数据矩阵；

当前节点确定模块，选择根据数据矩阵计算的属性矩阵中当前信息增益最大值对应的属性作为当前节点；

子一级节点确定模块，去除当前节点属性后重构属性矩阵，选择属性矩阵重构后计算得到的信息增益最大值对应的属性作为当前的子一级节点，并以该子一级节点为当前节点在子一级节点确定模块重复运行；

决策树实现模块，根据当前节点及对应的所有子一级节点实现决策树。

根据本发明的一个实施例，所述子一级节点确定模块通过以下方式确定子一级节点：

判断当前的子一级节点是否为叶节点步骤，如是则判断该叶节点是否为有效叶节点，否则剔除该子一级节点后重构属性矩阵并返回子一级节点确定模块；

如该叶节点为有效叶节点，则形成决策树的一个分支，否则剔除该子一级节点后重构属性矩阵并返回子一级节点确定模块。

根据本发明的一个实施例，所述子一级节点确定模块当判断当前的子一级节点为有效叶节点时还包括计算该叶节点对应分支的支持度。

根据本发明的一个实施例，所述子一级节点确定模块剔除掉的子一级节点在并行平级的子一级节点计算完成后，剔除计算完成的子一级节点后重构属性矩阵并返回子一级节点确定模块。

根据本发明的一个实施例，所述决策树实现模块通过以下方式实现决策树：

遍历完成确定所有的并行平级的子一级节点；

遍历完成确定所有的并行平级的当前节点，其中，如当前节点对应是最后属性，则根据所有的子一级节点和当前节点形成决策树，否则，剔除该当前节点属性后重构属性矩阵并返回当前节点确定模块。

本发明的有益效果：

本发明一方面运用过程剪枝的思想剔除掉不完整的决策知识以及有歧义的决策知识，另一方面运用过程运算的思想在过程中完成对每条决策知识支持度的计算，具有时间和空间利用效率更高、所挖掘的知识收敛有效、更贴合实际应用等特点，可充分、高效、实用、可靠的获取决策知识，从而实现数据挖掘。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要的附图做简单的介绍：

图1是根据本发明的一个实施例的方法流程图；

图2是根据本发明的一个实施例的算法实现流程图；

图3是根据本发明的一个实施例的属性矩阵和数据矩阵程序实际运行截面示意图；

图4是根据本发明的一个实施例的熵计算结果截面示意图；

图5是根据本发明的一个实施例的矩阵重构结果截面示意图；

图6是根据本发明的一个实施例的另一矩阵重构结果截面示意图；

图7是根据本发明的一个实施例的决策输出结果截面示意图；

图8是根据本发明的一个实施例的另一决策输出结果截面示意图；

图9是根据本发明的一个实施例的又一决策输出结果截面示意图；

图10是根据本发明的一个实施例的未采用过程运算计算支持度所得到的结果示意图；

图11是根据本发明的一个实施例的采用了过程运算计算支持度得到的结果示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

经典ID3算法的核心思想是采用信息增益来度量属性选择，选择***后信息增益最大的属性进行***。该算法采用自顶向下的贪婪搜索遍历可能的决策树空间。具体来说，ID3算法的关键在于如何从训练样本中确定决策树的每个分支结点，在ID3算法中，每个结点的属性测试标准采用信息增益的方法，利用该方法选择信息增益最高的属性作为当前结点的***属性测度。在ID3决策树分类过程中，一般用多个属性(或称作特征)来刻画每个实体，而每个属性限于在数据集中相互独立的值。

ID3决策树算法方法简单、分类能力强，适于处理大规模的机器学习问题，是数据挖掘和机器学习领域中的一个有效手段。ID3算法的优点总结如下：

1)ID3决策树算法基于信息论思想，以信息增益选择***属性结点，算法简单，易于实现，可以形成结点数最少的分类决策树，并且在搜索空间上也是完备的；

2)ID3决策树算法由于基于自顶向下的递推策略，并且算法的时间复杂度与训练样本数量、属性数量以及结点数量三者的乘积成线性关系，所以该算法的分类速度较快；

3)ID3决策树算法使用树型结构，具有层次结构特点，可以很容易地从数据中归纳出易于用户理解的“如果-那么”分类规则。

但是，ID3决策树算法也存在固有的缺点：

1)ID3决策树算法的思想是基于一种贪心策略，不能增量地接受训练数据，不适合于渐进式机器学习任务；

2)ID3决策树算法在搜索过程中不进行回溯，在构建决策树过程中，可以收敛到局部最优，但很难收敛到全局最优；

3)ID3决策树算法基于信息论思想，该计算方式对数据中属性值数目较多的属性有所依赖，而属性值较多的属性在分类性能上不一定最好；

4)当训练数据不完整或是训练数据有歧义时，ID3决策树算法存在一定的瑕疵，所以其在实际应用中也受到一定限制，例如，如表1所示的训练数据样本，其第13行和第14行数据除决策项之外所有的条件项全部相同，此时，使用经典的ID3算法将会出现决策判决异常的现象，对于后续形成决策知识将会形成干扰。

表1

	Lon	Ran	Azi	Typ	Judge
						1	101	201	301	401	120
2	101	201	301	402	120
						3	101	201	301	403	120
4	102	201	301	401	110
						5	102	201	301	403	110
6	103	202	301	401	120
						7	103	202	301	403	120
8	103	201	302	401	110
						9	103	201	302	402	120
10	101	202	301	401	120
						11	101	202	301	403	120
12	103	202	302	401	120
						13	103	202	302	403	120
14	103	202	302	403	110
						15	101	202	302	402	110
16	102	202	301	402	110
						17	102	202	301	403	110
18	102	201	302	401	110
						19	103	202	301	402	120
20	102	201	302	403	110

目前，国内外大多针对第1)、2)、3)项缺点进行改进，在一定程度上忽视了针对第4)项缺点的研究。归纳起来，针对第4)项缺点主要采取的方法是剪枝的方法，包括先剪枝和后剪枝。其中先剪枝方法是通过提前停止树的构造而对树剪枝，一旦停止，节点则成为树叶，该树叶持有子集样本中出现最频繁的类，但由于该树叶不是判决条件的叶节点，因此该决策条件在很多实际应用中是无意义的；而后剪枝方法是由完全生长的树剪去分枝，效率较低。

因此，本发明提供了一种基于ID3的决策树实现方法，用于充分、高效、实用、可靠的获取决策知识，实现数据挖掘。如图1所示为根据本发明的一个实施例的方法流程图，如图2所示为根据本发明的一个实施例的算法流程图，以下参考图1和图2来对本发明进行详细说明。

首先是步骤S110矩阵构建步骤，读入数据以构建属性矩阵和数据矩阵。

具体的，在该步骤中，首先从数据源读入数据，根据读入的数据构建属性矩阵和数据矩阵。如图3所示为构建属性矩阵和数据矩阵的实际运行截图，其中，Azi、Lon、Ran、Tye表示属性矩阵中的属性，<Azi,0>、<Lon,0>、<Ran,0>、<Tye,0>、即为属性矩阵，<Azi,301>、<Judge,120>、<Lon,101>、<Ran,201>、<Tye,401>…………表示数据矩阵，相当于将属性名称和属性值匹配，决策项和决策值匹配，并共同构成一个大的数据矩阵，为后续的程序运行做好数据的预处理工作。

接着是步骤S120当前节点确定步骤，选择根据数据矩阵计算的属性矩阵中当前信息增益最大值对应的属性作为当前节点。

具体的，根据数据矩阵计算属性矩阵中每个属性的信息增益。部分程序实际运行截图如图4所示，在该实例中，属性Azi的熵为0.932751，属性Lon的熵为0.519518，属性Ran的熵为0.966097，属性Tye的熵为0.987567。根据计算得到的各属性的熵值，选取熵最小的属性，也就是选取信息增益最大的属性Lon作为当前节点Nd。

需注意的是，决策树是有顺序的(树干、大树枝、小树枝、树叶)，也就是说每次经过信息增益的判断排序后Azi，Lon，Ran，Tye这四个属性项之间的顺序是不能随意更改的。

接着是步骤S130子一级节点确定步骤，去除当前节点属性后重构属性矩阵，选择属性矩阵重构后计算得到的信息增益最大值对应的属性作为当前的子一级节点，并以该子一级节点为当前节点重复子一级节点确定步骤。

具体的，去除当前节点属性后重构属性矩阵，计算重构后属性矩阵中各属性的信息增益，并选择信息增益最大值对应的属性作为子一级节点。

子一级节点属性对应的部分程序实际运行截图如图5和图6所示，在该实例中，属性Lon为101、102、103的数据矩阵分别如图中所示，并选择其中信息增益最大值所对应的属性作为子一级节点。部分程序实际运行截图如图4所示，在该实例中，Lon的下一级属性Azi的熵为0，属性Ran的熵为0.459148，属性Tye的熵为0.333333。选取熵最小的属性，也就是信息增益最大的属性Azi作为下一级节点(子一级节点)。

在该子一级节点确定步骤中还进一步包括判断当前的子一级节点是否为叶节点步骤，如是则进一步判断该叶节点是否为有效叶节点。否则剔除该子一级节点后重构属性矩阵并返回子一级节点确定步骤，即该子一级节点还可以继续分为下一级节点。

如该叶节点为有效叶节点，则形成决策树的一个分支，即该节点已经是叶节点，那么该决策树分支已经形成，就不需要浪费处理器资源了。否则，即该子一级节点还可以继续分支，则剔除该子一级节点后重构属性矩阵并返回子一级节点确定步骤。剔除掉的节点并不是无用节点，而是单独保存在缓存中，不参与后续的计算，这样可以减少后续的计算输入，提升计算效率，等到后续的计算完成后，再将该节点前置，从而形成完成的决策树分支。也就是剔除掉的子一级节点在并行平级的子一级节点计算完成后，剔除计算完成的子一级节点后重构属性矩阵并返回子一级节点确定步骤。

有效叶节点就是说一方面最后的决策项是否能对应到Judge的值，如果不能那么就肯定不是叶节点，因为决策树最终的目的(树叶)必须是结论项；另一方面就是后面提到的叶节点是否冲突的问题，也就是说条件A＝x能够到B＝-1同时条件A＝x还能得到B＝1，显然这个条件A＝x是无意义的，因为它导致了一个冲突的结论。当判断当前的子一级节点为有效叶节点时还包括计算该叶节点对应分支的支持度。

判断子一级节点是否为叶节点及有效叶节点的过程，也即过程剪枝与否的判断。如表1中的第13行和第14行的数据由于会产生矛盾决策，在程序运行的判断过程中会直接得到判决结果无效的标志，因此直接不予录取该条决策信息，即过程剪枝。通过过程剪枝，不仅可以大大减少数据处理的数量，还可以剔除掉不完整的决策知识以及有歧义的决策知识。

最后是步骤S140决策树实现步骤，根据当前节点及对应的所有子一级节点实现决策树。

如图2所示，包括遍历完成确定所有的并行平级的子一级节点和遍历完成确定所有的并行平级的当前节点，其中，如当前节点对应是最后属性，则根据所有的子一级节点和当前节点形成决策树，否则，剔除该当前节点属性后重构属性矩阵并返回当前节点确定步骤。

具体包括以下步骤，首先判断当前节点的子一级节点是否遍历完成，即判断对所有的子一级节点均进行了以上的叶节点及有效叶节点的判断。如是，则继续判断当前节点Nd对应的属性是否是最后一个属性，如是最后一个属性则形成决策树(部分程序实际运行截图如图7、图8和图9所示)，否则删除当前节点Nd对应的属性，重构属性矩阵后返回信息增益计算步骤。如判断子一级属性没有遍历完成，则删除该子一级属性并重构属性矩阵后重新计算每个属性的信息增益。

在遍历子一级节点形成决策树过程中，通过判断判断子一级节点是否遍历完成，可以剔除掉进行叶节点及有效叶节点判断的子一级节点，只对剩下的子一级节点进行属性重构和叶节点及有效叶节点判断，从而减少数据运算量。对当前节点Nd对应的属性是否是最后一个属性进行判断，可以剔除掉该当前节点Nd对应的属性及其子一级节点对应的属性，对与当前节点Nd等级别的并行平级的其他节点属性进行分析，从而减少数据运算量。

在本发明的一个实施例中，在判断子一级节点为有效叶节点后还包括该分支的支持度计算步骤。在形成决策树的一个分支后，同步得到该分支的支持度，即过程运算。部分程序实际运行截图如图4所示，在该实例中，输出的第一条决策知识，也即第一条从决策树的根节点到叶节点的支路为0、101、301->120；各节点在决策树中的等级分别为0、1、2；该条分支的支持度计数值为5。

本发明以表1所示的训练数据样本为例，采用本发明在CPU3.4GHz，内存4GB，WindowsXP SP3，VC2008的开发环境下进行测试，并添加计时程序对运行结果进行计时。其中附图10为未采用过程运算计算支持度所得到的结果，附图11为采用了过程运算计算支持度所得到的结果。

对比图10和图11可知，本发明运用过程剪枝的思想有效的剔除掉了不完整的决策知识以及有歧义的决策知识；同时，运用过程运算的思想在过程中准确高效的完成对每条决策知识支持度的计算。由于本实例受数据量所限，当数据量更大时，本发明的运行效率较传统方法有明显提升。另外，本发明具有与外部数据进行融合的接口与能力，从而可以支持多种挖掘手段的数据融合。

本发明可广泛应用于国防体系中的预警探测、识别、监视以及民航和通用航空领域的监视、流量控制等方面，通过对历史数据和实时的挖掘分析，优化区域内的管理监视以及为作战指挥控制提供决策支持。此外，本发明还可应用于医学、商务智能、WEB搜索等国民经济的各行各业，为相关人员制定更加合理、明确、明智的决策提供参考。

根据本发明的另一个方面，还提供了一种基于ID3的决策树实现装置，包括矩阵构建模块、当前节点确定模块、子一级节点确定模块和决策树实现模块。

其中，矩阵构建模块读入数据以构建属性矩阵和数据矩阵；当前节点确定模块选择根据数据矩阵计算的属性矩阵中当前信息增益最大值对应的属性作为当前节点；子一级节点确定模块去除当前节点属性后重构属性矩阵，选择属性矩阵重构后计算得到的信息增益最大值对应的属性作为当前的子一级节点，并以该子一级节点为当前节点在子一级节点确定模块重复运行；决策树实现模块根据当前节点及对应的所有子一级节点实现决策树。

在本发明的一个实施例中，子一级节点确定模块通过以下方式确定子一级节点：

在本发明的一个实施例中，子一级节点确定模块当判断当前的子一级节点为有效叶节点时还包括计算该叶节点对应分支的支持度。

在本发明的一个实施例中，子一级节点确定模块剔除掉的子一级节点在并行平级的子一级节点计算完成后，剔除计算完成的子一级节点后重构属性矩阵并返回子一级节点确定模块。

在本发明的一个实施例中，决策树实现模块通过以下方式实现决策树：

遍历完成确定所有的并行平级的子一级节点；

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于ID3的决策树实现方法，包括：

矩阵构建步骤，读入数据以构建属性矩阵和数据矩阵；

2.根据权利要求1所述的方法，其特征在于，所述子一级节点确定步骤进一步包括：

3.根据权利要求2所述的方法，其特征在于，当判断当前的子一级节点为有效叶节点时还包括计算该叶节点对应分支的支持度。

4.根据权利要求2所述的方法，其特征在于，剔除掉的子一级节点在并行平级的子一级节点计算完成后，剔除计算完成的子一级节点后重构属性矩阵并返回子一级节点确定步骤。

5.根据权利要求4所述的方法，其特征在于，所述决策树实现步骤进一步包括：

遍历完成确定所有的并行平级的子一级节点；

6.一种基于ID3决策树实现装置，包括：

矩阵构建模块，读入数据以构建属性矩阵和数据矩阵；

7.根据权利要求6所述的装置，其特征在于，所述子一级节点确定模块通过以下方式确定子一级节点：

8.根据权利要求7所述的装置，其特征在于，所述子一级节点确定模块当判断当前的子一级节点为有效叶节点时还包括计算该叶节点对应分支的支持度。

9.根据权利要求7所述的装置，其特征在于，所述子一级节点确定模块剔除掉的子一级节点在并行平级的子一级节点计算完成后，剔除计算完成的子一级节点后重构属性矩阵并返回子一级节点确定模块。

10.根据权利要求9所述的装置，其特征在于，所述决策树实现模块通过以下方式实现决策树：

遍历完成确定所有的并行平级的子一级节点；