CN112200293A - 基于cart-amv改进的随机森林算法 - Google Patents

基于cart-amv改进的随机森林算法 Download PDF

Info

Publication number
CN112200293A
CN112200293A CN202011201843.XA CN202011201843A CN112200293A CN 112200293 A CN112200293 A CN 112200293A CN 202011201843 A CN202011201843 A CN 202011201843A CN 112200293 A CN112200293 A CN 112200293A
Authority
CN
China
Prior art keywords
algorithm
random forest
decision tree
node
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011201843.XA
Other languages
English (en)
Inventor
刘明山
石伟诚
周原
杜渐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202011201843.XA priority Critical patent/CN112200293A/zh
Publication of CN112200293A publication Critical patent/CN112200293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于CART‑AMV改进的随机森林算法,该改进算法改进了现有随机森林算法的算法复杂度高、无法解决回归类问题、决策树不具有剪枝过程、对于噪声比较大的数据集,容易陷入过拟合、对于决策树的数量较多的随机森林,计算强度高,计算时间长的上述问题,为工业互联网的入侵检测提供了新的方法。

Description

基于CART-AMV改进的随机森林算法
技术领域
本发明涉及随机森林算法、CART算法、AMV算法、数据集的分类及其应用领域,尤其是用来实现工业互联网入侵检测的基于CART-AMV改进的随机森林算法。
背景技术
随机森林算法的出现,改进了集成学***衡的数据集而言,它可以平衡误差,这是随机森林算法的优点。其缺陷是在生成决策树时的算法复杂度高,只能解决分类问题,而无法解决回归类问题,生成的决策树不具有剪枝过程,对于噪声比较大的数据集,容易陷入过拟合,对于决策树的数量较多的随机森林,计算强度高,计算时间长。
发明内容
本发明是为了解决随机森林算法算法复杂度高,分类精度低的问题。对于要求生成决策树数量较大的随机森林,随机森林算法在构建决策树时,其对信息增益的计算需要大量的对数运算,导致了算法复杂度高;对于噪声比较大的数据集,由于随机森林算法简单多数投票法的局限性,容易陷入过拟合,降低分类精度。
实现本发明目的的具体技术方案是:
首先使用CART算法通过对训练数据集的特征标签的基尼系数的计算,来构建二叉决策树,而不是随机森林算法的多叉决策树;这样相当于将随机森林算法基于信息增益构建决策树(如C4.5算法,ID3算法)使用的对数运算改进为了二次运算,从而降低了算法的复杂度。接着对生成的二叉决策树进行剪枝处理,通过增加剪枝的过程,剔除了影响较小的特征标签,进一步降低算法的复杂度,降低决策树数量较多的随机森林的计算强度和计算时间。最后使用AMV算法将剪枝后的二叉决策树组合成随机森林;AMV算法即AbsoluteMajority Vote,绝对多数投票算法,算法按照少数服从多数的原则进行投票,且要求得多数投票者的票数不少于随机森林中决策树数量的二分之一。若得多数投票者的票数不满足以上条件,则重新生成随机森林中的二叉决策树。这样可以避免对噪声比较大的数据集分类时,出现过拟合的情况。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着本发明专利的更全面理解,本发明专利的其它目的及结果将更加明白及易于理解。在附图中:
图1为基于CART-AMV算法改进的随机森林算法流程图;
图2为不同算法对Sati_mage数据集数据集处理的检测精度对比图;
图3为不同算法对Optical_digits数据集数据集数据集处理的检测精度对比图
具体实施方式
(1)输入训练数据集D,设定基尼系数的阈值ε1,样本个数的阈值ε2,从根节点开始,使用CART算法,递归建立二叉分类决策树。
(2)对于当前节点的训练数据集D,如果样本个数小于样本个数的阈值ε2或没有特征标签,则返回决策子树,当前节点停止递归。
(3)计算训练数据集D的基尼系数Gini(D),如果基尼系数Gini(D)小于基尼系数的阈值ε1,则返回决策树子树,当前节点停止递归。
(4)在计算出来的各个特征标签的各个特征值对于训练数据集D计算出的基尼系数中,选择基尼系数最小的特征标签A和对应的特征值a。根据这个最优特征标签和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点,左节点的数据集D为D1,右节点的数据集D为D2
(5)对左右节点的子节点递归调用(1)至(4),生成最终的二叉分类决策树。其中,如果在对生成的决策树做预测的时候,测试数据集里的样本A落到了某个叶子节点,而节点里有多个训练样本,则对于A的类别预测采用的是这个叶子节点里概率最大的类别。
(6)输入使用CART算法得到原始二叉分类决策树T,初始化αmin=∞,最优子树集合ω={T}。
(7)从叶子结点开始自下而上计算内部节点t的训练误差损失函数Cα(Tt),叶子节点数|Tt|,正则化阈值
Figure BDA0002755539330000021
并更新αmin=α,得到所有节点的α值的集合M。
(8)从集合M中选择最大的值αk,自上而下的访问子树t的内部节点。若
Figure BDA0002755539330000022
则进行剪枝,并确定叶子节点t的值为概率最高的类别,得到αk对应的最优子树Tk
(9)得到最优子树集合ω=ωυTk,并更新集合M=M-{αk}。
(10)如果集合M为非空集,则返回(8);若集合M为空集,则得到所有的可选最优子树集合ω。
(11)使用交叉验证策略,在集合ω选择最优子树Tα,作为剪枝后的最优二叉分类决策树。
(12)将得到的全部最优二叉分类决策树按照绝对多数投票法(即最多票数者票数应超过投票数的二分之一)组合生成随机森林。
(13)将改进的算法应用于工业互联网入侵检测中,并通过在网络入侵检测数据集上的实验,进一步验证了本发明的可用性。

Claims (3)

1.基于CART-AMV改进的随机森林算法,其特征在于:通过CART-AMV改进的随机森林算法可以有效地降低算法复杂度,提升算法的检测精度,改进效果明显。
2.根据权利要求1所述的基于CART-AMV改进的随机森林算法,其特征在于:首先使用CART算法通过对训练数据集的特征标签的基尼系数的计算,来构建二叉决策树,而不是随机森林算法的多叉决策树;这样相当于将随机森林算法基于信息增益构建决策树(如C4.5算法,ID3算法)使用的对数运算改进为了二次运算,从而降低了算法的复杂度,接着对生成的二叉决策树进行剪枝处理,通过增加剪枝的过程,剔除了影响较小的特征标签,进一步降低算法的复杂度,降低决策树数量较多的随机森林的计算强度和计算时间,最后使用AMV算法将剪枝后的二叉决策树组合成随机森林;AMV算法即Absolute Majority Vote,绝对多数投票算法,算法按照少数服从多数的原则进行投票,且要求得多数投票者的票数不少于随机森林中决策树数量的二分之一,若得多数投票者的票数不满足以上条件,则重新生成随机森林中的二叉决策树,这样可以避免对噪声比较大的数据集分类时,出现过拟合的情况。
3.根据权利要求2所述的基于CART-AMV改进的随机森林算法,其特征在于:
(1)输入训练数据集D,设定基尼系数的阈值ε1,样本个数的阈值ε2,从根节点开始,使用CART算法,递归建立二叉分类决策树;
(2)对于当前节点的训练数据集D,如果样本个数小于样本个数的阈值ε2或没有特征标签,则返回决策子树,当前节点停止递归;
(3)计算训练数据集D的基尼系数Gini(D),如果基尼系数Gini(D)小于基尼系数的阈值ε1,则返回决策树子树,当前节点停止递归;
(4)在计算出来的各个特征标签的各个特征值对于训练数据集D计算出的基尼系数中,选择基尼系数最小的特征标签A和对应的特征值a;根据这个最优特征标签和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点,左节点的数据集D为D1,右节点的数据集D为D2
(5)对左右节点的子节点递归调用(1)至(4),生成最终的二叉分类决策树;其中,如果在对生成的决策树做预测的时候,测试数据集里的样本A落到了某个叶子节点,而节点里有多个训练样本,则对于A的类别预测采用的是这个叶子节点里概率最大的类别;
(6)输入使用CART算法得到原始二叉分类决策树T,初始化αmin=∞,最优子树集合ω={T};
(7)从叶子结点开始自下而上计算内部节点t的训练误差损失函数Cα(Tt),叶子节点数|Tt|,正则化阈值
Figure FDA0002755539320000011
并更新αmin=α,得到所有节点的α值的集合M;
(8)从集合M中选择最大的值αk,自上而下的访问子树t的内部节点;若
Figure FDA0002755539320000012
则进行剪枝,并确定叶子节点t的值为概率最高的类别,得到αk对应的最优子树Tk
(9)得到最优子树集合ω=ωυTk,并更新集合M=M-{αk};
(10)如果集合M为非空集,则返回(8);若集合M为空集,则得到所有的可选最优子树集合ω;
(11)使用交叉验证策略,在集合ω选择最优子树Tα,作为剪枝后的最优二叉分类决策树;
(12)将得到的全部最优二叉分类决策树按照绝对多数投票法(即最多票数者票数应超过投票数的二分之一)组合生成随机森林。
CN202011201843.XA 2020-11-02 2020-11-02 基于cart-amv改进的随机森林算法 Pending CN112200293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011201843.XA CN112200293A (zh) 2020-11-02 2020-11-02 基于cart-amv改进的随机森林算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011201843.XA CN112200293A (zh) 2020-11-02 2020-11-02 基于cart-amv改进的随机森林算法

Publications (1)

Publication Number Publication Date
CN112200293A true CN112200293A (zh) 2021-01-08

Family

ID=74010713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011201843.XA Pending CN112200293A (zh) 2020-11-02 2020-11-02 基于cart-amv改进的随机森林算法

Country Status (1)

Country Link
CN (1) CN112200293A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113509176A (zh) * 2021-07-23 2021-10-19 深圳数联天下智能科技有限公司 基于多路压电传感器的睡姿识别方法、装置和设备
CN113839926A (zh) * 2021-08-31 2021-12-24 哈尔滨工业大学 一种基于灰狼算法特征选择的入侵检测***建模方法、***及装置
CN114299633A (zh) * 2021-12-28 2022-04-08 中国电信股份有限公司 汽车驾驶事故预测方法、装置、电子设备及存储介质
CN117574278A (zh) * 2023-12-15 2024-02-20 南通大学 基于变分模态分解与随机森林的闪电脉冲识别方法
CN117932482A (zh) * 2024-03-21 2024-04-26 泰安北航科技园信息科技有限公司 一种用于围巾加热的碳纳米加热方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113509176A (zh) * 2021-07-23 2021-10-19 深圳数联天下智能科技有限公司 基于多路压电传感器的睡姿识别方法、装置和设备
CN113839926A (zh) * 2021-08-31 2021-12-24 哈尔滨工业大学 一种基于灰狼算法特征选择的入侵检测***建模方法、***及装置
CN113839926B (zh) * 2021-08-31 2023-09-22 哈尔滨工业大学 一种基于灰狼算法特征选择的入侵检测***建模方法、***及装置
CN114299633A (zh) * 2021-12-28 2022-04-08 中国电信股份有限公司 汽车驾驶事故预测方法、装置、电子设备及存储介质
CN117574278A (zh) * 2023-12-15 2024-02-20 南通大学 基于变分模态分解与随机森林的闪电脉冲识别方法
CN117932482A (zh) * 2024-03-21 2024-04-26 泰安北航科技园信息科技有限公司 一种用于围巾加热的碳纳米加热方法
CN117932482B (zh) * 2024-03-21 2024-06-11 泰安北航科技园信息科技有限公司 一种用于围巾加热的碳纳米加热方法

Similar Documents

Publication Publication Date Title
CN112200293A (zh) 基于cart-amv改进的随机森林算法
CN110163261B (zh) 不平衡数据分类模型训练方法、装置、设备及存储介质
US11741361B2 (en) Machine learning-based network model building method and apparatus
Dogru et al. Deep learning-based classification of news texts using doc2vec model
Nigam et al. Impact of noisy labels in learning techniques: a survey
Yin et al. A novel classifier ensemble method with sparsity and diversity
CN111582396B (zh) 一种基于改进卷积神经网络的故障诊断方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及***
CN109800853B (zh) 融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备
CN113435509A (zh) 基于元学习的小样本场景分类识别方法及***
Wankhade et al. Data stream classification: a review
Mohammed et al. Feature reduction based on hybrid efficient weighted gene genetic algorithms with artificial neural network for machine learning problems in the big data
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
Karrar The effect of using data pre-processing by imputations in handling missing values
JP2024503036A (ja) 改善された深層学習モデルのための方法およびシステム
CN112527959A (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN115812210A (zh) 用于增强机器学习分类任务的性能的方法和设备
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
Dewi et al. Ensemble learning for predicting mortality rates affected by air quality
Xia et al. A Model‐Free Feature Selection Technique of Feature Screening and Random Forest‐Based Recursive Feature Elimination
CN116245139A (zh) 图神经网络模型训练方法和装置、事件检测方法和装置
CN115062602A (zh) 对比学习的样本构造方法、装置、计算机设备及存储介质
CN114626485A (zh) 一种基于改进knn算法的数据标签分类方法及装置
CN114048796A (zh) 一种改进型硬盘故障预测方法及装置
CN114121296A (zh) 基于数据驱动的临床信息规则提取方法、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination