CN112200293A

CN112200293A - 基于cart-amv改进的随机森林算法

Info

Publication number: CN112200293A
Application number: CN202011201843.XA
Authority: CN
Inventors: 刘明山; 石伟诚; 周原; 杜渐
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-08

Abstract

本发明公开了一种基于CART‑AMV改进的随机森林算法，该改进算法改进了现有随机森林算法的算法复杂度高、无法解决回归类问题、决策树不具有剪枝过程、对于噪声比较大的数据集，容易陷入过拟合、对于决策树的数量较多的随机森林，计算强度高，计算时间长的上述问题，为工业互联网的入侵检测提供了新的方法。

Description

基于CART-AMV改进的随机森林算法

技术领域

本发明涉及随机森林算法、CART算法、AMV算法、数据集的分类及其应用领域，尤其是用来实现工业互联网入侵检测的基于CART-AMV改进的随机森林算法。

背景技术

随机森林算法的出现，改进了集成学***衡的数据集而言，它可以平衡误差，这是随机森林算法的优点。其缺陷是在生成决策树时的算法复杂度高，只能解决分类问题，而无法解决回归类问题，生成的决策树不具有剪枝过程，对于噪声比较大的数据集，容易陷入过拟合，对于决策树的数量较多的随机森林，计算强度高，计算时间长。

发明内容

本发明是为了解决随机森林算法算法复杂度高，分类精度低的问题。对于要求生成决策树数量较大的随机森林，随机森林算法在构建决策树时，其对信息增益的计算需要大量的对数运算，导致了算法复杂度高；对于噪声比较大的数据集，由于随机森林算法简单多数投票法的局限性，容易陷入过拟合，降低分类精度。

实现本发明目的的具体技术方案是：

首先使用CART算法通过对训练数据集的特征标签的基尼系数的计算，来构建二叉决策树，而不是随机森林算法的多叉决策树；这样相当于将随机森林算法基于信息增益构建决策树(如C4.5算法，ID3算法)使用的对数运算改进为了二次运算，从而降低了算法的复杂度。接着对生成的二叉决策树进行剪枝处理，通过增加剪枝的过程，剔除了影响较小的特征标签，进一步降低算法的复杂度，降低决策树数量较多的随机森林的计算强度和计算时间。最后使用AMV算法将剪枝后的二叉决策树组合成随机森林；AMV算法即AbsoluteMajority Vote，绝对多数投票算法，算法按照少数服从多数的原则进行投票，且要求得多数投票者的票数不少于随机森林中决策树数量的二分之一。若得多数投票者的票数不满足以上条件，则重新生成随机森林中的二叉决策树。这样可以避免对噪声比较大的数据集分类时，出现过拟合的情况。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着本发明专利的更全面理解，本发明专利的其它目的及结果将更加明白及易于理解。在附图中：

图1为基于CART-AMV算法改进的随机森林算法流程图；

图2为不同算法对Sati_mage数据集数据集处理的检测精度对比图；

图3为不同算法对Optical_digits数据集数据集数据集处理的检测精度对比图

具体实施方式

(1)输入训练数据集D，设定基尼系数的阈值ε₁，样本个数的阈值ε₂，从根节点开始，使用CART算法，递归建立二叉分类决策树。

(2)对于当前节点的训练数据集D，如果样本个数小于样本个数的阈值ε₂或没有特征标签，则返回决策子树，当前节点停止递归。

(3)计算训练数据集D的基尼系数Gini(D)，如果基尼系数Gini(D)小于基尼系数的阈值ε₁，则返回决策树子树，当前节点停止递归。

(4)在计算出来的各个特征标签的各个特征值对于训练数据集D计算出的基尼系数中，选择基尼系数最小的特征标签A和对应的特征值a。根据这个最优特征标签和最优特征值，把数据集划分成两部分D₁和D₂，同时建立当前节点的左右节点，左节点的数据集D为D₁，右节点的数据集D为D₂。

(5)对左右节点的子节点递归调用(1)至(4)，生成最终的二叉分类决策树。其中，如果在对生成的决策树做预测的时候，测试数据集里的样本A落到了某个叶子节点，而节点里有多个训练样本，则对于A的类别预测采用的是这个叶子节点里概率最大的类别。

(6)输入使用CART算法得到原始二叉分类决策树T，初始化α_min＝∞，最优子树集合ω＝{T}。

(7)从叶子结点开始自下而上计算内部节点t的训练误差损失函数C_α(T_t)，叶子节点数|T_t|，正则化阈值

并更新α_min＝α，得到所有节点的α值的集合M。

(8)从集合M中选择最大的值α_k，自上而下的访问子树t的内部节点。若

则进行剪枝，并确定叶子节点t的值为概率最高的类别，得到α_k对应的最优子树T_k。

(9)得到最优子树集合ω＝ωυT_k，并更新集合M＝M-{α_k}。

(10)如果集合M为非空集，则返回(8)；若集合M为空集，则得到所有的可选最优子树集合ω。

(11)使用交叉验证策略，在集合ω选择最优子树T_α，作为剪枝后的最优二叉分类决策树。

(12)将得到的全部最优二叉分类决策树按照绝对多数投票法(即最多票数者票数应超过投票数的二分之一)组合生成随机森林。

(13)将改进的算法应用于工业互联网入侵检测中，并通过在网络入侵检测数据集上的实验，进一步验证了本发明的可用性。

Claims

1.基于CART-AMV改进的随机森林算法，其特征在于：通过CART-AMV改进的随机森林算法可以有效地降低算法复杂度，提升算法的检测精度，改进效果明显。

2.根据权利要求1所述的基于CART-AMV改进的随机森林算法，其特征在于：首先使用CART算法通过对训练数据集的特征标签的基尼系数的计算，来构建二叉决策树，而不是随机森林算法的多叉决策树；这样相当于将随机森林算法基于信息增益构建决策树(如C4.5算法，ID3算法)使用的对数运算改进为了二次运算，从而降低了算法的复杂度，接着对生成的二叉决策树进行剪枝处理，通过增加剪枝的过程，剔除了影响较小的特征标签，进一步降低算法的复杂度，降低决策树数量较多的随机森林的计算强度和计算时间，最后使用AMV算法将剪枝后的二叉决策树组合成随机森林；AMV算法即Absolute Majority Vote，绝对多数投票算法，算法按照少数服从多数的原则进行投票，且要求得多数投票者的票数不少于随机森林中决策树数量的二分之一，若得多数投票者的票数不满足以上条件，则重新生成随机森林中的二叉决策树，这样可以避免对噪声比较大的数据集分类时，出现过拟合的情况。

3.根据权利要求2所述的基于CART-AMV改进的随机森林算法，其特征在于：

(1)输入训练数据集D，设定基尼系数的阈值ε₁，样本个数的阈值ε₂，从根节点开始，使用CART算法，递归建立二叉分类决策树；

(2)对于当前节点的训练数据集D，如果样本个数小于样本个数的阈值ε₂或没有特征标签，则返回决策子树，当前节点停止递归；

(3)计算训练数据集D的基尼系数Gini(D)，如果基尼系数Gini(D)小于基尼系数的阈值ε₁，则返回决策树子树，当前节点停止递归；

(4)在计算出来的各个特征标签的各个特征值对于训练数据集D计算出的基尼系数中，选择基尼系数最小的特征标签A和对应的特征值a；根据这个最优特征标签和最优特征值，把数据集划分成两部分D₁和D₂，同时建立当前节点的左右节点，左节点的数据集D为D₁，右节点的数据集D为D₂；

(5)对左右节点的子节点递归调用(1)至(4)，生成最终的二叉分类决策树；其中，如果在对生成的决策树做预测的时候，测试数据集里的样本A落到了某个叶子节点，而节点里有多个训练样本，则对于A的类别预测采用的是这个叶子节点里概率最大的类别；

(6)输入使用CART算法得到原始二叉分类决策树T，初始化α_min＝∞，最优子树集合ω＝{T}；

并更新α_min＝α，得到所有节点的α值的集合M；

(8)从集合M中选择最大的值α_k，自上而下的访问子树t的内部节点；若

则进行剪枝，并确定叶子节点t的值为概率最高的类别，得到α_k对应的最优子树T_k；

(9)得到最优子树集合ω＝ωυT_k，并更新集合M＝M-{α_k}；

(10)如果集合M为非空集，则返回(8)；若集合M为空集，则得到所有的可选最优子树集合ω；

(11)使用交叉验证策略，在集合ω选择最优子树T_α，作为剪枝后的最优二叉分类决策树；