CN105373606A

CN105373606A - 一种改进c4.5决策树算法下的不平衡数据抽样方法

Info

Publication number: CN105373606A
Application number: CN201510772750.5A
Authority: CN
Inventors: 邓维斌; 刘进; 熊冰妍; 何菲菲
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2016-03-02

Abstract

本发明涉及一种改进C4.5决策树算法下的不平衡数据抽样方法，首先根据各类样本数量确定各个样本的初始权重，然后每轮通过改进C4.5决策树算法的训练结果对各样本的权重进行修改，改进的C4.5算法的***标准兼顾信息增益率和误分样本权重，经过T轮迭代后得到各样本的最终权重，最后根据样本权重找出位于少数类边界区域与多数类中心区域的样本，并使用SMOTE算法对少数类边界区域的样本进行过抽样，按权重抽样方法对多数类样本进行欠抽样，使中心区域的样本更易被选中，以改善不同类数据的平衡度，提高少数类和数据集整体的识别率。本发明通过改进的C4.5决策树算法进行权重修改，并根据样本权重有针对性地进行过抽样和欠抽样处理，有效地避免了分类器过拟合和丢失多数类有用信息等现象。

Description

一种改进C4.5决策树算法下的不平衡数据抽样方法

技术领域

本发明属于数据处理技术领域，涉及一种改进C4.5决策树算法下的不平衡数据抽样方法。

背景技术

不平衡数据集是指在数据集中，某一类的样本数量远远少于其它类的样本数量，其中数量占多数的类称为多数类，而占少数的类称为少数类。不平衡数据集的分类问题大量存在于人们的现实生活和工业生产之中，如客户流失预测、DNA微阵列数据分析、软件缺陷预测、垃圾邮件过滤、文本分类、医疗诊断等，在这些应用中，少数类分类精度往往更为重要。因此，提高少数类的分类精度成为不平衡数据集中的一个研究重点。

解决不平衡分类问题的策略可以分为两大类：一类是从训练集入手，通过改变训练集样本分布，降低不平衡程度。常用的方法有随机过抽样、随机欠抽样、SMOTE、Borderline-SMOTE、进化算法、基于聚类的过抽样算法(Under-samplingbasedonclustering，SBC)、基于局部聚类的过抽样方法等。但是欠抽样容易导致重要样本信息的丢失，过抽样会引起分类器过学***衡问题时的缺陷，适当地修改算法使之适应不平衡分类问题。常用策略有：代价敏感方法，在传统的分类算法的基础上引人代价敏感因子，设计出代价敏感的分类算法，如代价敏感决策树、代价敏感支持向量机等，这些算法的关键都在于误分代价的确定，而在多数情况下，真实的误分代价很难被准确地估计。

发明内容

有鉴于此，本发明的目的在于提供一种改进C4.5决策树算法下的不平衡数据抽样方法，能够有针对性地进行过抽样和欠抽样处理，提高少数类和数据集整体的分类性能。

为达到上述目的，本发明提供如下技术方案：

一种改进C4.5决策树算法下的不平衡数据抽样方法，包括以下步骤：

1)根据训练集中各类样本的数量初始化各个样本的权重，作为该样本的误分权重；设迭代总次数为T，从1到T每轮迭代训练依次完成步骤2)～3)；

2)利用改进的C4.5决策树算法对训练集进行学习，得到一套规则；

3)根据步骤2)所得规则修改训练集各个样本的权重，分类错误的样本权重增大，分类正确的样本权重减小，且变化幅度与其原始权重成正比；

4)设定过抽样率，并根据样本权重找出位于少数类边界区域的样本，利用SMOTE算法对此区域的样本进行过抽样，并将所有的少数类样本及过抽样所得样本添加到NewData数据集中；

5)设定欠抽样率，按照样本权重对多数类进行欠抽样，使位于多数类中心区域的样本更容易被选中，将选中的样本添加到NewData数据集中；

6)使用决策树算法对抽样得到的数据集NewData进行训练，得到规则并对测试集进行分类处理。

进一步，在步骤1)中，所述初始化各个样本的权重具体包括：设多数类样本数量为m，少数类样本数量为n，则所有多数类样本的权重为1/2m，少数类样本的权重为1/2n，这样既体现了多数类样本与少数类样本之间的差异，又保证了所有样本权重和为1。

进一步，在步骤2)中，改进的C4.5决策树算法的构建要点如下：

a)***属性的选择：***标准需要兼顾属性信息增益率和误分样本权重。设S表示样本集合，属性A_i将当前样本集合分为v个不相交的子集{S₁,S₂,...,S_v}，则选择标准的计算公式为：f(S,A_i)＝GainRatio(S,A_i)×ReduMc(S,A_i)，选择使f取最大值的属性作为***属性；

GainRatio(S,A_i)为以A_i作为***属性时的信息增益率，值越大说明属性的分类性能越好，其计算公式为：其中Gain(S,A_i)＝I(S)-I(S,A_i)，I(S)表示***前S的信息熵，I(S,A_i)表示按属性A_i***之后各子集的信息熵加权和，计算公式为：

I (S) = Σ_{i = 1}^{C} - p_{i} \times \log p_{i}, I (S, A_{i}) = Σ_{i = 1}^{v} \frac{| S_{i} |}{| S |} \times I (S_{i}),

p_i是S中样本属于类别i的概率，C是类别数量；

ReduMc(S,A_i)为以A_i作为***属性时的误分权重减少量，其计算公式为：其中Mc(S)为***前的误分权重，设S中有p个少数类样本和n个多数类样本，记p个少数类样本的权重和为pw，n个多数类样本的权重和为nw，则Mc(S)＝Min(pw,nw)，为v个子集的误分权重和；

b)***点的选择：若***属性为离散型，直接将各个离散值作为当前节点的分支；若***属性为连续型，首先将样本中***属性的所有取值进行排序，并将相邻值的平均值作为候选***点，其次计算各个候选***点***的f值，f值最大的候选***点作为***点，将当前节点***为两颗子树；

c)叶子节点类标记的确定：当一个分类节点中所有样本的类型标记都相同或者样本数量小于给定值时，将当前节点标记为叶子节点；如果所有样本的类型相同，那么直接将当前节点的类型标记为该类型；如果样本数量少于给定的数量，计算各类样本的权重总和，设当前节点包含p个少数类样本和n个多数类样本，p个少数类样本权重记为pw，n个多数类样本权重记为nw，若pw>nw，则将当前节点的类型标记为少数类，否则标记为多数类；

d)决策树的剪枝：以悲观剪枝算法PEP为基础，对其进行改进使其能够适应不平衡数据；在PEP算法中认为如果：

e'(t)≤e'(T_t)+S_e(e'(T_t))成立，则T_t应被剪裁，其中 e(t)为节点t处误差，i为覆盖T_t的叶子，N_t为子树T_t的叶子数，n(t)为在节点t处训样本的数目；

对此算法进行改进之处在于少数类的计数方式，使少数类样本和多数类样本具有同等的重要性，设训练样本中具有m个多数类样本和n个少数类样本，节点t处包含p个少数类样本和q个多数类样本，pw为节点t处p个少数类样本权重和，nw为节点t处q个多数类样本权重和，则e(t)的计算公式为：

e (t) = \{\begin{matrix} \frac{p \times m}{n}, & i f & n w > p w \\ q, & i f & n w \leq p w \end{matrix},

n(t)的计算公式为：

n (t) = \frac{p \times m}{n} + q .

进一步，在步骤3)中，样本权重的修改公式为：其中，D_t(i)表示第t轮迭代中第i个样本的权重，x_i表示训练集中第i个样本，y_i∈{-1,1}表示第i个样本的类别标识，h(x_i)∈{-1，1}表示第i个样本的预测分类，权重调整因子a_t计算公式为：r＝ΣD_t(i)(h(x_i)≠y_i)，β(i)为代价调整函数，定义为：

β (i) = \{\begin{matrix} - 0.5 D_{t} (i) + 0.5, & i f & h (x_{i}) = y_{i} \\ 0.5 D_{t} (i) + 0.5, & i f & h (x_{i}) &NotEqual; y_{i} \end{matrix},

Z_t为归一化参数，定义为：

Z_{t} = Σ_{i = 1}^{n} D_{(t + 1)} (i),

用于确保更新后的权重取值在[0,1]区间内。

进一步，在步骤4)中，具体包括：

首先设定少数类边界区域的权重阈值，样本权重大于阈值的少数类样本即位于少数类的边界区域；然后利用SMOTE算法对边界区域的样本进行过抽样处理，生成新的合成样本；最后将所有的少数类样本及合成样本添加到数据集NewData中。

进一步，在步骤5)中，具体包括：

首先对所有多数类样本的权重求倒数，这是因为样本权重越小，说明其所处的区域越趋于中心；然后按照权重大小对所有的多数类样本进行欠抽样，使权重大的样本被选中的概率大；最后将所有选中的多数类样本添加到数据集NewData中。

本发明的有益效果在于：

1)本发明引入了误分权重来作为决策树***标准的一部分，与传统的代价敏感策略人为去设定代价矩阵不同，这点充分考虑了现实情况，因为在现实生活中，真实的误分代价是很难估计得到。而且在每轮决策树训练完成后会对样本权重进行修改，可以更好地体现出样本分布的情况，而代价矩阵是不会发生变化的，它是把同一类的所有样本进行同等处理，没有体现出样本间的差异情况。

2)本发明根据样本所处区域进行有针对性地抽样处理，充分利用了样本的分布信息，使抽样得到的样本更具有代表性，从而避免过拟合和有用信息丢失的现象，提高了分类器对不平衡数据的分类性能。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为改进的C4.5决策树建立过程示意图；

图2为改进C4.5决策树算法下的不平衡数据抽样方法流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

图2为改进C4.5决策树算法下的不平衡数据抽样方法流程图，如图所示，本方法具体包括以下步骤：

1)初始化数据集的各样本权重及迭代次数T。设多数类样本数量为m，少数类样本数量为n，则所有多数类样本的权重为1/2m，少数类样本的权重为1/2n。

2)使用图1所示的改进的C4.5决策树算法对数据集进行训练，算法的个核心点在于***属性及***点的确定，叶子节点的类标记，剪枝，具体计算方式描述如下：

(1)***属性的选择：***标准需要兼顾属性的信息增益率和误分权重。设S表示样本集合，属性A_i将当前样本几个分为v个不相交的子集{S₁,S₂,...,S_v}，则选择标准的计算公式为：f(S,A_i)＝GainRatio(S,A_i)×ReduMc(S,A_i)，选择使f取最大值的属性作为***属性。

GainRatio(S,A_i)为以A_i作为***属性时的信息增益率，值越大说明属性的分类性能越好，其计算公式为：其中Gain(S,A_i)＝I(S)-I(S,A_i)，I(S)表示***前S的信息熵，I(S,A_i)表示按属性A_i***之后各子集的信息熵加权和，计算公式为： p_i是S中样本属于类别i的概率，C是类别数量。

ReduMc(S,A_i)为以A_i作为***属性时的误分权重减少量，其计算公式为：其中Mc(S)为***前的误分权重，设S中有p个少数类样本和n个多数类样本，记p个少数类样本的权重和为pw，n个多数类样本的权重和为nw，则：

Mc(S)＝Min(pw,nw)，为v个子集的误分权重和。

(2)***点的选择：若***属性为离散型，直接将各个离散值作为当前节点的分支；若***属性为连续型，首先将样本中***属性的所有取值进行排序，并将相邻值的平均值作为候选***点，其次计算各个候选***点***的f值，f值最大的候选***点作为***点，将当前节点***为两颗子树。

(3)叶子节点类标记的确定：当一个分类节点中所有样本的类型标记都相同或者样本数量小于给定值时，将当前节点标记为叶子节点。如果所有样本的类型相同，那么直接将当前节点的类型标记为该类型；如果样本数量少于给定的数量，计算各类样本的权重总和，设当前节点包含p个少数类样本和n个多数类样本，p个少数类样本权重记为pw，n个多数类样本权重记为nw，若pw>nw，则将当前节点的类型标记为少数类，否则标记为多数类。

(4)决策树的剪枝：以悲观剪枝算法PEP为基础，对其进行改进使其能够适应不平衡数据。在PEP算法中认为如果e'(t)≤e'(T_t)+S_e(e'(T_t))成立，则T_t应被剪裁。其中

e^{'} (t) = [e (t) + \frac{1}{2}], e^{'} = Σ e (i) + \frac{N_{t}}{2},

e(t)为节点t处误差，i为覆盖T_t的叶子，N_t为子树T_t的叶子数，n(t)为在节点t处训样本的数目。

e (t) = \{\begin{matrix} \frac{p \times m}{n}, & i f & n w > p w \\ q, & i f & n w \leq p w \end{matrix},

n(t)的计算公式为：

3)修改数据集中各样本的权重：

样本权重的修改公式为：其中，D_t(i)表示第t轮迭代中第i个样本的权重，x_i表示训练集中第i个样本，y_i∈{-1,1}表示第i个样本的类别标识，h(x_i)∈{-1，1}表示第i个样本的预测分类，权重调整因子a_t计算公式为：r＝ΣD_t(i)(h(x_i)≠y_i)，β(i)为代价调整函数，定义为：

β (i) = \{\begin{matrix} - 0.5 D_{t} (i) + 0.5, & i f & h (x_{i}) = y_{i} \\ 0.5 D_{t} (i) + 0.5, & i f & h (x_{i}) &NotEqual; y_{i} \end{matrix},

Z_t为归一化参数，定义为：

Z_{t} = Σ_{i = 1}^{n} D_{(t + 1)} (i),

用于确保更新后的权重取值在[0,1]区间内。

4)若迭代次数小于T则返回至步骤2)。

5)过抽样：首先设定过抽样率和少数类边界区域的权重阈值，样本权重大于阈值的少数类样本即位于少数类的边界区域；然后利用SMOTE算法对边界区域的样本进行过抽样处理，生成新的合成样本；最后将所有的少数类样本及合成样本添加到数据集NewData中。

6)欠抽样：首先设定欠抽样率，然后对所有多数类样本的权重求倒数，并按照权重大小对所有的多数类样本进行欠抽样，使权重大的样本被选中的概率大；最后将所有选中的多数类样本添加到数据集NewData中。

7)使用决策树算法对抽样得到的数据集NewData进行训练，得到规则并对测试集进行分类处理。

实施例：

采用某运营商两个月用户换机数据集作为研究对象，每个月换机用户要远少于非换机用户，有效预测出换机用户并采取相应的营销措施，就可以为公司带来非常可观的利润。学习集为某电信运营商4月20万按自然比例(非换机：换机＝27：1)分布的数据记录，测试集为5月40万按1：1分布的数据记录。通过特征选取和专家经验相结合，选择了19个属性作为预测模型的输入特征，此外，鉴于在学习过程中各属性之间相互独立，但在实际情况中用户近三个月的贡献收入、通话时间及流量联系紧密，所以人为添加了9个属性，来衡量三个月间属性的变化情况，具体描述如表1。

表1用户数据属性描述

为了说明本发明的有效性，采用相同的学习集和测试集，将本发明与随机欠抽样算法进行对比，选用F-measure和G-mean作为评价指标，其计算公式如下：

F - m e a s u r e = \frac{(1 + β^{2}) \times Re c a l l \times \Pr e c i s i o n}{β^{2} \times Re c a l l + \Pr e c i s i o n}, G - m e a n = \sqrt{P A \times N A},

其中，

Re c a l l = \frac{T P}{T P + F N}, \Pr e c i s i o n = \frac{T P}{T P + F P}, P A = Re c a l l = \frac{T P}{T P + F N}, N A = \frac{T N}{T N + F P},

TP和TN分别表示正确分类的换机样本和非换机样本的数量，FP和FN分别表示误分类的换机样本和非换机样本的数量。

本发明与随机欠抽样算法的实验结果对比如表2所示。

表2实验对比结果

评价指标

随机欠抽样

本发明

F-measure	56.35	59.42
			G-mean	56.34	59.27

由表2可以看出，本发明较随机欠抽样方法在两项指标上有明显的提高，能有效识别出换机用户，并降低非换机用户的误分率，特别对具有大量样本的数据集来说，一个百分点的提高会带来非常可观的收益。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种改进C4.5决策树算法下的不平衡数据抽样方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种改进C4.5决策树算法下的不平衡数据抽样方法，其特征在于：在步骤1)中，所述初始化各个样本的权重具体包括：设多数类样本数量为m，少数类样本数量为n，则所有多数类样本的权重为1/2m，少数类样本的权重为1/2n，这样既体现了多数类样本与少数类样本之间的差异，又保证了所有样本权重和为1。

3.根据权利要求2所述的一种改进C4.5决策树算法下的不平衡数据抽样方法，其特征在于：在步骤2)中，改进的C4.5决策树算法的构建要点如下：

a)***属性的选择：设S表示样本集合，属性A_i将当前样本集合分为v个不相交的子集{S₁,S₂,...,S_v}，则选择标准的计算公式为：f(S,A_i)＝GainRatio(S,A_i)×ReduMc(S,A_i)，选择使f取最大值的属性作为***属性；

p_i是S中样本属于类别i的概率，C是类别数量；

e (t) = \{\begin{matrix} \frac{p \times m}{n}, & i f n w > p w \\ q, & i f n w \leq p w \end{matrix},

n(t)的计算公式为：

n (t) = \frac{p \times m}{n} + q .

4.根据权利要求3所述的一种改进C4.5决策树算法下的不平衡数据抽样方法，其特征在于：在步骤3)中，样本权重的修改公式为：其中，D_t(i)表示第t轮迭代中第i个样本的权重，x_i表示训练集中第i个样本，y_i∈{-1,1}表示第i个样本的类别标识，h(x_i)∈{-1，1}表示第i个样本的预测分类，权重调整因子a_t计算公式为：r＝ΣD_t(i)(h(x_i)≠y_i)，β(i)为代价调整函数，定义为：

β (i) = \{\begin{matrix} - 0.5 D_{t} (i) + 0.5, & i f h (x_{i}) = y_{i} \\ 0.5 D_{t} (i) + 0.5, & i f h (x_{i}) &NotEqual; y_{i} \end{matrix},

Z_t为归一化参数，定义为：

Z_{t} = Σ_{i = 1}^{n} D_{(t + 1)} (i),

用于确保更新后的权重取值在[0,1]区间内。

5.根据权利要求4所述的一种改进C4.5决策树算法下的不平衡数据抽样方法，其特征在于：在步骤4)中，具体包括：

6.根据权利要求5所述的一种改进C4.5决策树算法下的不平衡数据抽样方法，其特征在于：在步骤5)中，具体包括：