CN117056834A - 基于决策树的大数据分析方法 - Google Patents

基于决策树的大数据分析方法 Download PDF

Info

Publication number
CN117056834A
CN117056834A CN202311050733.1A CN202311050733A CN117056834A CN 117056834 A CN117056834 A CN 117056834A CN 202311050733 A CN202311050733 A CN 202311050733A CN 117056834 A CN117056834 A CN 117056834A
Authority
CN
China
Prior art keywords
data
decision tree
model
algorithm
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311050733.1A
Other languages
English (en)
Inventor
索强
于天宇
任舟
汪智鹏
潘彦
郑晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuzi Technology Co ltd
Original Assignee
Shanghai Shuzi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuzi Technology Co ltd filed Critical Shanghai Shuzi Technology Co ltd
Priority to CN202311050733.1A priority Critical patent/CN117056834A/zh
Publication of CN117056834A publication Critical patent/CN117056834A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及大数据分析技术领域,具体为基于决策树的大数据分析方法,包括以下步骤,集成多模态数据,进行清洗、归一化,采用深度学***衡数据,提高对少数类样本的分类精度,采用决策树算法进行特征选择,提高模型的精度,融合决策树与深度学习模型,可以结合两者的优点,构建出更强大、高效和鲁棒的模型,基于决策树的异常检测算法,对于预防和发现问题具有重要作用,使用SHAP可解释性工具,提供容易理解的模型解释。

Description

基于决策树的大数据分析方法
技术领域
本发明涉及大数据分析方法技术领域,尤其涉及基于决策树的大数据分析方法。
背景技术
大数据分析方法是指通过使用各种技术和工具来提取、处理、分析和理解大规模数据集的过程,包括数据预处理、数据可视化、统计分析、机器学习、自然语言处理、数据挖掘和时间序列分析。大数据分析方法在当今信息时代的快速发展中起着重要作用。随着互联网、传感器技术、社交媒体以及其他大数据源的不断增加,大规模数据集的产生呈***性增长。这些大规模数据蕴含着海量的信息和知识,在正确的分析和利用下,可以为组织和企业带来巨大的商业价值。通过综合应用这些大数据分析方法,可以揭示数据中的隐藏信息,提供商业洞见,优化决策和策略,并推动创新和发展。
在大数据分析方法的实际使用过程中,传统的数据分析方法往往只处理单一类型或结构化的数据,对于多模态和非结构化的数据处理能力较弱。传统方法在处理非平衡数据时,往往会忽视少数类样本,导致分类结果偏向多数类样本。特征选择主要依赖于人工经验,可能会忽视一些重要的特征。传统的决策树模型可能无法处理复杂和高维度的数据,而且容易过拟合。传统方法通常只提供了模型结果,而没有给出解释,这可能会导致用户对结果的理解和信任程度下降。
发明内容
本发明的目的是解决现有技术中存在的缺点,而提出的基于决策树的大数据分析方法。
为了实现上述目的,本发明采用了如下技术方案:基于决策树的大数据分析方法,包括以下步骤:
集成多模态数据,进行清洗、归一化,采用深度学习的卷积神经网络、自然语言处理技术对所述多模态数据进行特征提取,获取预处理数据集;
集成非结构化数据,采用NLP算法、聚类算法对所述非结构化数据进行分析,获取非结构分析结果;
使用SMOTE采样方法,基于所述预处理数据集和非结构分析结果,识别和处理不平衡数据,获取平衡数据集;
使用包括信息增益、Gini系数的决策树算法,从所述平衡数据集中选择特征,获取选择特征集;
使用CART算法,基于所述选择特征集构建基本决策树模型;
集成随机森林与深度神经网络的融合学习方法,将所述基本决策树模型与深度学习模型融合,获取融合决策树模型;
在大数据分析过程中,采用在线决策树算法对新产生的数据进行实时分析,生成在线分析结果;
基于所述融合决策树模型的异常检测算法,对所述在线分析结果进行异常检测,生成异常报告;
使用具体为SHAP的可解释性工具,将所述异常报告、融合决策树模型进行可视化展示,同时提供所述融合决策树模型的解释,整合生成最终报告。
作为本发明的进一步方案,所述多模态数据包括图像数据、音频数据、文本数据;
所述集成多模态数据,进行清洗、归一化,采用深度学习的卷积神经网络、自然语言处理技术对所述多模态数据进行特征提取,获取预处理数据集的步骤具体为:
收集所述多模态数据,并在数据整合过程中,将所述多模态数据中每种模态数据与其它模态数据在时间、空间上对齐;
对整合后的所述多模态数据进行数据清洗,包括异常值检测、数据填充、数据去噪;
将所述多模态数据中每种模态数据归一化到统一区间;
采用所述卷积神经网络对图像数据进行特征提取,采用所述自然语言处理技术对文本数据进行特征提取,采用MFCC对音频数据进行特征提取,基于所述特征提取获取特征向量;
使用多模态融合的技术合并不同模态的所述特征向量,获取所述预处理数据集。
作为本发明的进一步方案,所述集成非结构化数据,采用NLP算法、聚类算法对所述非结构化数据进行分析,获取非结构分析结果的步骤具体为:
收集所述非结构化数据,并在数据整合过程中,将所述非结构化数据在时间、空间上对齐;
在所述NLP算法的分析过程中,基于文本分词、命名实体识别、情感分析、主题建模、文本分类操作,将非结构化数据中的文本分到预定义的类别中,获取分词结果、情感倾向、主题识别和分类;
采用具体为k-means的聚类算法,获取包括文本聚类、图像聚类、音频聚类的聚类簇结果;
整合NLP算法、聚类算法的结果,得到非结构化数据的聚类分析结果,作为非结构分析结果。
作为本发明的进一步方案,所述使用SMOTE采样方法,基于所述预处理数据集和非结构分析结果,识别和处理不平衡数据,获取平衡数据集的步骤具体为:
对所述预处理数据集和非结构分析结果进行统计Fenix,统计每个类别的样本数量,获得数据类别统计结果;
基于所述数据类别统计结果,设置需要增强的类别和增强策略,生成增强策略详情;
基于所述增强策略详情,应用所述SMOTE算法为需要增强的类别生成合成样本,找到需要增强的类别的K个最近邻居,作为合成样本集;
将所述预处理数据集和非结构分析结果与合成样本集合并,形成初步平衡数据集;
基于初步平衡数据集,循环上述步骤,直至每个类别的样本数量达到平衡目标,获取最终平衡数据集。
作为本发明的进一步方案,所述使用包括信息增益、Gini系数的决策树算法,从所述平衡数据集中选择特征,获取选择特征集的步骤具体为:
调用所述平衡数据集,计算所有特征的统计摘要,包括平均值、标准差,生成特征统计摘要;
基于所述特征统计摘要,计算其中每个特征的信息增益,获取信息增益结果;
基于所述特征统计摘要,计算每个特征的Gini系数,获取Gini系数结果;
综合所述信息增益结果和Gini系数结果,生成选择特征集。
作为本发明的进一步方案,所述使用CART算法,基于所述选择特征集构建基本决策树模型的步骤具体为:
将所述选择特征集所对应的平衡数据集拆分为训练集和测试集,作为训练测试数据;
使用CART算法对训练测试数据中的训练集进行训练,获取CART模型;
使用所述CART模型在训练测试数据中的测试集上进行验证,获取CART验证结果。
作为本发明的进一步方案,所述集成随机森林与深度神经网络的融合学习方法,将所述基本决策树模型与深度学习模型融合,获取融合决策树模型的步骤具体为:
基于所述选择特征集,使用随机森林算法训练模型,获取随机森林模型;
基于所述选择特征集,构建和训练深度神经网络模型;
采用融合算法,将所述CART模型、随机森林模型和深度神经网络模型进行融合,获取融合决策树模型。
作为本发明的进一步方案,所述在大数据分析过程中,采用在线决策树算法对新产生的数据进行实时分析,生成在线分析结果的步骤具体为:
在大数据分析过程中,接收实时新产生的数据,作为实时数据流;
对所述实时数据流进行清洗、标准化和特征提取,获取预处理后的数据流;
利用在线决策树算法对预处理后的数据流进行实时分析,获取在线决策树分析结果;
针对所述在线决策树分析结果,与真实数据标签进行对比,评估模型的实时性能,获取在线性能评估结果。
作为本发明的进一步方案,所述基于所述融合决策树模型的异常检测算法,对所述在线分析结果进行异常检测,生成异常报告的步骤具体为:
加载预先训练好的所述融合决策树模型,作为预加载融合模型;
利用所述预加载融合模型对在线决策树分析结果进行异常检测,获取初步异常检测结果;
对所述初步异常检测结果中的异常数据点进行标注和归类,获取标注后的异常数据,生成异常报告。
作为本发明的进一步方案,所述使用具体为SHAP的可解释性工具,将所述异常报告、融合决策树模型进行可视化展示,同时提供所述融合决策树模型的解释,整合生成最终报告的步骤具体为:
加载SHAP库及其依赖资源,作为SHAP资源集;
使用所述SHAP资源集,为所述融合决策树模型生成解释,获取融合模型解释;
利用所述SHAP资源集将异常报告进行可视化展示,作为异常数据可视化结果;
将所述融合模型解释与异常数据可视化结果进行整合,获取综合分析报告。
与现有技术相比,本发明的优点和积极效果在于:
本发明中,
通过集成多模态数据和非结构化数据,和进行深度学***衡数据,可以减小模型的偏见,提高对少数类样本的分类精度。采用决策树算法进行特征选择,可以更准确地找出影响结果的关键特征,提高模型的精度。融合决策树与深度学习模型,可以结合两者的优点,构建出更强大、高效和鲁棒的模型。采用在线决策树算法进行实时分析,可以快速响应新产生的数据,提高分析的时效性。基于决策树的异常检测算法,可以准确地识别出异常数据,对于预防和发现问题具有重要作用。使用SHAP可解释性工具,可以为用户提供容易理解的模型解释,增强用户对结果的理解和信任。
附图说明
图1为本发明提出基于决策树的大数据分析方法的主要步骤示意图;
图2为本发明提出基于决策树的大数据分析方法的步骤1细化示意图;
图3为本发明提出基于决策树的大数据分析方法的步骤2细化示意图;
图4为本发明提出基于决策树的大数据分析方法的步骤3细化示意图;
图5为本发明提出基于决策树的大数据分析方法的步骤4细化示意图;
图6为本发明提出基于决策树的大数据分析方法的步骤5细化示意图;
图7为本发明提出基于决策树的大数据分析方法的步骤6细化示意图;
图8为本发明提出基于决策树的大数据分析方法的步骤7细化示意图;
图9为本发明提出基于决策树的大数据分析方法的步骤8细化示意图;
图10为本发明提出基于决策树的大数据分析方法的步骤9细化示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例一
请参阅图1,本发明提供一种技术方案:基于决策树的大数据分析方法,包括以下步骤:
集成多模态数据,进行清洗、归一化,采用深度学习的卷积神经网络、自然语言处理技术对多模态数据进行特征提取,获取预处理数据集;
集成非结构化数据,采用NLP算法、聚类算法对非结构化数据进行分析,获取非结构分析结果;
使用SMOTE采样方法,基于预处理数据集和非结构分析结果,识别和处理不平衡数据,获取平衡数据集;
使用包括信息增益、Gini系数的决策树算法,从平衡数据集中选择特征,获取选择特征集;
使用CART算法,基于选择特征集构建基本决策树模型;
集成随机森林与深度神经网络的融合学习方法,将基本决策树模型与深度学习模型融合,获取融合决策树模型;
在大数据分析过程中,采用在线决策树算法对新产生的数据进行实时分析,生成在线分析结果;
基于融合决策树模型的异常检测算法,对在线分析结果进行异常检测,生成异常报告;
使用具体为SHAP的可解释性工具,将异常报告、融合决策树模型进行可视化展示,同时提供融合决策树模型的解释,整合生成最终报告。
通过清洗和归一化的步骤,可以减少多模态数据中的噪声和不一致性,提高数据的质量和一致性。通过卷积神经网络和自然语言处理技术进行特征提取,能够从多模态数据中提取出丰富而具有代表性的特征信息,充分利用多模态数据的各种信息。应用NLP算法和聚类算法对非结构化数据进行分析,可以从文本、图像等数据中提取出有用的信息和模式,为后续的决策树模型提供补充和丰富的特征。使用SMOTE采样方法处理不平衡数据,可以平衡样本类别分布,提高模型在少数类别的分类性能,确保模型的鲁棒性和准确性。使用信息增益和Gini系数的决策树算法,从平衡数据集中选择最具代表性的特征,减少特征维度,提高模型效率,并帮助解释模型的决策过程。将基本决策树模型与深度学习模型进行融合学习,可以充分利用两者的优点,提高模型的泛化能力和准确性。此外,使用可解释性工具如SHAP,能够解释融合决策树模型的预测结果,提高模型的可解释性和可信度。采用在线决策树算法对新产生的数据进行实时分析,使得分析过程具有即时性和实时性能,同时使用基于融合决策树模型的异常检测算法,能够快速发现并报告异常情况。通过可视化工具展示异常报告和融合决策树模型,帮助用户直观理解分析结果和模型决策过程,提供全面而准确的最终报告,为决策提供有力支持。
请参阅图2,多模态数据包括图像数据、音频数据、文本数据;
集成多模态数据,进行清洗、归一化,采用深度学习的卷积神经网络、自然语言处理技术对多模态数据进行特征提取,获取预处理数据集的步骤具体为:
收集多模态数据,并在数据整合过程中,将多模态数据中每种模态数据与其它模态数据在时间、空间上对齐;
对整合后的多模态数据进行数据清洗,包括异常值检测、数据填充、数据去噪;
将多模态数据中每种模态数据归一化到统一区间;
采用卷积神经网络对图像数据进行特征提取,采用自然语言处理技术对文本数据进行特征提取,采用MFCC对音频数据进行特征提取,基于特征提取获取特征向量;
使用多模态融合的技术合并不同模态的特征向量,获取预处理数据集。
请参阅图3,集成非结构化数据,采用NLP算法、聚类算法对非结构化数据进行分析,获取非结构分析结果的步骤具体为:
收集非结构化数据,并在数据整合过程中,将非结构化数据在时间、空间上对齐;
在NLP算法的分析过程中,基于文本分词、命名实体识别、情感分析、主题建模、文本分类操作,将非结构化数据中的文本分到预定义的类别中,获取分词结果、情感倾向、主题识别和分类;
采用具体为k-means的聚类算法,获取包括文本聚类、图像聚类、音频聚类的聚类簇结果;
整合NLP算法、聚类算法的结果,得到非结构化数据的聚类分析结果,作为非结构分析结果。
首先,在数据整合过程中,对多模态数据进行对齐,确保它们在时间和空间上具有一致性。其次,进行数据清洗,包括异常值检测、数据填充和去噪,以提高数据质量和减少异常值的干扰。此外,将不同模态的数据归一化到统一区间,消除尺度和范围的偏差,确保数据可比性。接下来,通过卷积神经网络、自然语言处理和音频特征提取等技术,从图像、文本和音频中提取有代表性的特征向量。最后,利用多模态融合技术将各模态特征向量合并,得到综合性的预处理数据集。这样的流程能够最大限度地利用多模态数据的信息,提高数据质量和一致性,为后续任务提供更准确、全面的预处理数据集。通过整合这些步骤,能够充分利用多模态数据的丰富性,提高数据分析和模型构建的效果。
请参阅图4,使用SMOTE采样方法,基于预处理数据集和非结构分析结果,识别和处理不平衡数据,获取平衡数据集的步骤具体为:
对预处理数据集和非结构分析结果进行统计Fenix,统计每个类别的样本数量,获得数据类别统计结果;
基于数据类别统计结果,设置需要增强的类别和增强策略,生成增强策略详情;
基于增强策略详情,应用SMOTE算法为需要增强的类别生成合成样本,找到需要增强的类别的K个最近邻居,作为合成样本集;
将预处理数据集和非结构分析结果与合成样本集合并,形成初步平衡数据集;
基于初步平衡数据集,循环上述步骤,直至每个类别的样本数量达到平衡目标,获取最终平衡数据集。
首先,统计预处理数据集和非结构分析结果,得到每个类别的样本数量统计。根据统计结果,设定需要增强的类别和相应的增强策略。然后,应用SMOTE算法为需要增强的类别生成合成样本,通过选择该类别的K个最近邻居来生成合成样本集。接下来,将预处理数据集、非结构分析结果和合成样本集合并,形成初步平衡数据集。通过循环上述步骤,不断迭代生成平衡数据集,直到各个类别的样本数量达到平衡目标,获取最终平衡数据集。通过这样的整合步骤,可以有效处理不平衡数据,平衡各个类别之间的样本分布,提高模型对于少数类别的学***衡数据集能够提升模型的鲁棒性、准确性和整体预测能力。
请参阅图5,使用包括信息增益、Gini系数的决策树算法,从平衡数据集中选择特征,获取选择特征集的步骤具体为:
调用平衡数据集,计算所有特征的统计摘要,包括平均值、标准差,生成特征统计摘要;
基于特征统计摘要,计算其中每个特征的信息增益,获取信息增益结果;
基于特征统计摘要,计算每个特征的Gini系数,获取Gini系数结果;
综合信息增益结果和Gini系数结果,生成选择特征集。
通过计算平衡数据集中所有特征的统计摘要,包括平均值和标准差等信息,可以获得关于特征的描述性统计信息,为后续的特征选择提供基础。基于特征统计摘要,通过计算每个特征的信息增益,可以评估每个特征对于目标变量的贡献程度。信息增益可以帮助识别具有较高预测能力的特征,用于构建具有更好分类能力的决策树模型。基于特征统计摘要,计算每个特征的Gini系数,用于度量特征的纯度或不纯度。Gini系数可以衡量特征***后的混乱程度,通过选择Gini系数较低的特征,可以提高决策树的分类准确性。将信息增益结果和Gini系数结果进行综合分析,可以生成选择特征集。根据选择特征集,可以确定在构建决策树模型时应该使用哪些特征作为判定节点。
请参阅图6,使用CART算法,基于选择特征集构建基本决策树模型的步骤具体为:
将选择特征集所对应的平衡数据集拆分为训练集和测试集,作为训练测试数据;
使用CART算法对训练测试数据中的训练集进行训练,获取CART模型;
使用CART模型在训练测试数据中的测试集上进行验证,获取CART验证结果。
首先,将选择特征集所对应的平衡数据集拆分为训练集和测试集,用于模型的构建和验证。然后,使用CART算法对训练集进行模型的训练,通过递归地对特征进行划分,生成具有节点和叶子节点的决策树模型。在每个节点上,CART算法根据数据特征选择最优划分策略,建立决策规则,使得决策树能够对数据进行分类。接下来,使用训练得到的CART模型,在测试集上进行验证,应用模型进行预测,并将预测结果与真实标签对比,得到CART的验证结果。通过验证结果,可以评估模型在未见过的数据上的性能,验证模型的泛化能力和分类准确性。这样的实施步骤能够构建基本的决策树模型,并通过验证和评估提升模型的分类能力和准确性。CART算法利用选择特征集进行最优划分,成为一种简单而有效的分类和回归方法,具有广泛的实施效果和应用价值。
请参阅图7,集成随机森林与深度神经网络的融合学习方法,将基本决策树模型与深度学习模型融合,获取融合决策树模型的步骤具体为:
基于选择特征集,使用随机森林算法训练模型,获取随机森林模型;
基于选择特征集,构建和训练深度神经网络模型;
采用融合算法,将CART模型、随机森林模型和深度神经网络模型进行融合,获取融合决策树模型。
基于选择特征集,首先使用随机森林算法对训练数据进行模型的训练。随机森林是一种集成学***均等策略进行集成。训练出的随机森林模型能够综合多棵决策树的预测结果,提高模型的分类准确性和鲁棒性。接下来,基于选择特征集构建并训练深度神经网络模型。深度神经网络是一种强大的学***均、堆叠等。
请参阅图8,在大数据分析过程中,采用在线决策树算法对新产生的数据进行实时分析,生成在线分析结果的步骤具体为:
在大数据分析过程中,接收实时新产生的数据,作为实时数据流;
对实时数据流进行清洗、标准化和特征提取,获取预处理后的数据流;
利用在线决策树算法对预处理后的数据流进行实时分析,获取在线决策树分析结果;
针对在线决策树分析结果,与真实数据标签进行对比,评估模型的实时性能,获取在线性能评估结果。
在大数据分析过程中,首先需要接收实时新产生的数据,这可以通过数据流处理框架或流式数据处理***来实现。接收到的数据包含了最新的信息,可以进行实时分析和决策。针对实时数据流,进行清洗、标准化和特征提取等预处理步骤。清洗数据可以去除噪声和异常值,标准化可以将数据按照一定规范进行转换,特征提取可以从原始数据中提取有意义的特征,为后续的在线决策树算法提供输入。利用在线决策树算法对预处理后的数据流进行实时分析。在线决策树算法具有适应数据流的特性,可以动态地根据新数据进行决策树的更新和调整。它在处理大规模数据和实时数据流时具有较高的效率和实时性。根据在线决策树分析结果,将其与真实数据标签进行对比,评估模型的实时性能。这有助于验证模型在实时环境下的准确性和可靠性,以及对新数据的快速适应能力。通过实时性能评估结果,可以及时发现模型的问题并进行调整和改进。
请参阅图9,基于融合决策树模型的异常检测算法,对在线分析结果进行异常检测,生成异常报告的步骤具体为:
加载预先训练好的融合决策树模型,作为预加载融合模型;
利用预加载融合模型对在线决策树分析结果进行异常检测,获取初步异常检测结果;
对初步异常检测结果中的异常数据点进行标注和归类,获取标注后的异常数据,生成异常报告。
首先,需要加载预先训练好的融合决策树模型作为预加载模型。加载融合模型可以方便后续的异常检测操作。利用预加载的融合决策树模型对在线分析结果进行异常检测。将在线分析结果输入到融合模型中,通过模型的预测结果来判断数据点是否异常。这个过程可以通过对比在线分析结果与预测结果,检测出潜在的异常数据点。对初步异常检测结果中的异常数据点进行标注和归类。这个步骤可根据具体需求,将异常数据点进行标记、分类和分组,以便后续生成异常报告和进一步的处理。标注和归类的过程可以基于异常点的特征和上下文信息进行,例如异常类型、严重程度等。根据标注后的异常数据点,生成异常报告。异常报告可以包括异常数据点的详细信息,如数据值、时间戳、异常类型等,以及相关的统计和分析结果。生成的异常报告可以帮助用户快速了解异常情况,并采取相应的应对措施。
请参阅图10,使用具体为SHAP的可解释性工具,将异常报告、融合决策树模型进行可视化展示,同时提供融合决策树模型的解释,整合生成最终报告的步骤具体为:
加载SHAP库及其依赖资源,作为SHAP资源集;
使用SHAP资源集,为融合决策树模型生成解释,获取融合模型解释;
利用SHAP资源集将异常报告进行可视化展示,作为异常数据可视化结果;
将融合模型解释与异常数据可视化结果进行整合,获取综合分析报告。
首先,需要加载SHAP库及其相关的依赖资源,以便使用SHAP的功能和工具。这包括安装SHAP库、加载TreeExplainer解释器和处理所需的其他依赖资源。利用准备好的SHAP资源集,为融合决策树模型生成解释。SHAP通过计算特征的重要性和对模型预测的贡献度,提供了对模型的解释和理解。这可以帮助我们理解融合模型中每个特征的重要性和影响,了解模型做出预测的原因。利用SHAP资源集,将异常报告进行可视化展示。通过可视化工具和技术,将异常数据点、特征值和其他相关信息以可视化的形式呈现,使用户能够直观地理解和分析异常情况。将之前生成的融合模型解释和异常数据的可视化结果进行整合。将解释结果与可视化结果结合,可以提供更全面和准确的综合分析报告,帮助用户深入理解和解释异常情况。
工作原理:数据集成与预处理是数据分析中关键的阶段之一。此阶段的目标是收集多模态数据,如图像数据、音频数据和文本数据,并确保在整合过程中各模态数据在时间和空间上对齐。随后,对整合后的多模态数据进行清洗和归一化处理,以提高数据质量和一致性。特征提取是预处理过程中的另一个重要步骤,其中运用卷积神经网络和自然语言处理技术(例如词嵌入和文本特征提取)来从多模态数据中提取有用的特征,从而获得预处理数据集。同时,还需收集和整合非结构化数据,并在数据整合和清洗阶段对其进行处理。为了处理不平衡数据,在预处理数据集和非结构分析结果的基础上,采用SMOTE采样方法进行识别和处理,生成平衡数据集。基于平衡数据集,利用决策树算法中的信息增益和Gini系数等方法进行特征选择,得到选择特征集。基本决策树模型构建采用CART算法,使用选择特征集构建模型。该模型进行训练集和测试集的拆分,使用CART算法在训练集上进行训练,并在测试集上验证模型的性能。融合决策树模型构建阶段,运用随机森林算法和深度神经网络模型进行训练。进一步地,将基本决策树模型、随机森林模型和深度神经网络模型进行融合学习,得到融合决策树模型。在线分析与异常检测过程中,实时产生的数据被作为数据流进行处理。该数据流经过清洗、标准化和特征提取等预处理步骤后,得到预处理数据流。利用在线决策树算法对预处理数据流进行实时分析,生成在线分析结果。利用基于融合决策树模型的异常检测算法,对在线分析结果进行异常检测,并生成异常报告。最后,进行可视化展示与解释。使用专业的可解释性工具(如SHAP),加载SHAP库及其相关资源。通过SHAP资源集,为融合决策树模型生成解释,获取融合模型的解释结果。利用SHAP资源集将异常报告进行可视化展示,获得异常数据的可视化结果。将融合模型的解释结果与异常数据的可视化结果整合,生成综合分析报告。
以上,仅是本发明的较佳实施例而已,并非对本发明作其他形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其他领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (10)

1.基于决策树的大数据分析方法,其特征在于,包括以下步骤:
集成多模态数据,进行清洗、归一化,采用深度学习的卷积神经网络、自然语言处理技术对所述多模态数据进行特征提取,获取预处理数据集;
集成非结构化数据,采用NLP算法、聚类算法对所述非结构化数据进行分析,获取非结构分析结果;
使用SMOTE采样方法,基于所述预处理数据集和非结构分析结果,识别和处理不平衡数据,获取平衡数据集;
使用包括信息增益、Gini系数的决策树算法,从所述平衡数据集中选择特征,获取选择特征集;
使用CART算法,基于所述选择特征集构建基本决策树模型;
集成随机森林与深度神经网络的融合学习方法,将所述基本决策树模型与深度学习模型融合,获取融合决策树模型;
在大数据分析过程中,采用在线决策树算法对新产生的数据进行实时分析,生成在线分析结果;
基于所述融合决策树模型的异常检测算法,对所述在线分析结果进行异常检测,生成异常报告;
使用具体为SHAP的可解释性工具,将所述异常报告、融合决策树模型进行可视化展示,同时提供所述融合决策树模型的解释,整合生成最终报告。
2.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述多模态数据包括图像数据、音频数据、文本数据;
所述集成多模态数据,进行清洗、归一化,采用深度学习的卷积神经网络、自然语言处理技术对所述多模态数据进行特征提取,获取预处理数据集的步骤具体为:
收集所述多模态数据,并在数据整合过程中,将所述多模态数据中每种模态数据与其它模态数据在时间、空间上对齐;
对整合后的所述多模态数据进行数据清洗,包括异常值检测、数据填充、数据去噪;
将所述多模态数据中每种模态数据归一化到统一区间;
采用所述卷积神经网络对图像数据进行特征提取,采用所述自然语言处理技术对文本数据进行特征提取,采用MFCC对音频数据进行特征提取,基于所述特征提取获取特征向量;
使用多模态融合的技术合并不同模态的所述特征向量,获取所述预处理数据集。
3.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述集成非结构化数据,采用NLP算法、聚类算法对所述非结构化数据进行分析,获取非结构分析结果的步骤具体为:
收集所述非结构化数据,并在数据整合过程中,将所述非结构化数据在时间、空间上对齐;
在所述NLP算法的分析过程中,基于文本分词、命名实体识别、情感分析、主题建模、文本分类操作,将非结构化数据中的文本分到预定义的类别中,获取分词结果、情感倾向、主题识别和分类;
采用具体为k-means的聚类算法,获取包括文本聚类、图像聚类、音频聚类的聚类簇结果;
整合NLP算法、聚类算法的结果,得到非结构化数据的聚类分析结果,作为非结构分析结果。
4.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述使用SMOTE采样方法,基于所述预处理数据集和非结构分析结果,识别和处理不平衡数据,获取平衡数据集的步骤具体为:
对所述预处理数据集和非结构分析结果进行统计Fenix,统计每个类别的样本数量,获得数据类别统计结果;
基于所述数据类别统计结果,设置需要增强的类别和增强策略,生成增强策略详情;
基于所述增强策略详情,应用所述SMOTE算法为需要增强的类别生成合成样本,找到需要增强的类别的K个最近邻居,作为合成样本集;
将所述预处理数据集和非结构分析结果与合成样本集合并,形成初步平衡数据集;
基于初步平衡数据集,循环上述步骤,直至每个类别的样本数量达到平衡目标,获取最终平衡数据集。
5.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述使用包括信息增益、Gini系数的决策树算法,从所述平衡数据集中选择特征,获取选择特征集的步骤具体为:
调用所述平衡数据集,计算所有特征的统计摘要,包括平均值、标准差,生成特征统计摘要;
基于所述特征统计摘要,计算其中每个特征的信息增益,获取信息增益结果;
基于所述特征统计摘要,计算每个特征的Gini系数,获取Gini系数结果;
综合所述信息增益结果和Gini系数结果,生成选择特征集。
6.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述使用CART算法,基于所述选择特征集构建基本决策树模型的步骤具体为:
将所述选择特征集所对应的平衡数据集拆分为训练集和测试集,作为训练测试数据;
使用CART算法对训练测试数据中的训练集进行训练,获取CART模型;
使用所述CART模型在训练测试数据中的测试集上进行验证,获取CART验证结果。
7.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述集成随机森林与深度神经网络的融合学习方法,将所述基本决策树模型与深度学习模型融合,获取融合决策树模型的步骤具体为:
基于所述选择特征集,使用随机森林算法训练模型,获取随机森林模型;
基于所述选择特征集,构建和训练深度神经网络模型;
采用融合算法,将所述CART模型、随机森林模型和深度神经网络模型进行融合,获取融合决策树模型。
8.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述在大数据分析过程中,采用在线决策树算法对新产生的数据进行实时分析,生成在线分析结果的步骤具体为:
在大数据分析过程中,接收实时新产生的数据,作为实时数据流;
对所述实时数据流进行清洗、标准化和特征提取,获取预处理后的数据流;
利用在线决策树算法对预处理后的数据流进行实时分析,获取在线决策树分析结果;
针对所述在线决策树分析结果,与真实数据标签进行对比,评估模型的实时性能,获取在线性能评估结果。
9.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述基于所述融合决策树模型的异常检测算法,对所述在线分析结果进行异常检测,生成异常报告的步骤具体为:
加载预先训练好的所述融合决策树模型,作为预加载融合模型;
利用所述预加载融合模型对在线决策树分析结果进行异常检测,获取初步异常检测结果;
对所述初步异常检测结果中的异常数据点进行标注和归类,获取标注后的异常数据,生成异常报告。
10.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述使用具体为SHAP的可解释性工具,将所述异常报告、融合决策树模型进行可视化展示,同时提供所述融合决策树模型的解释,整合生成最终报告的步骤具体为:
加载SHAP库及其依赖资源,作为SHAP资源集;
使用所述SHAP资源集,为所述融合决策树模型生成解释,获取融合模型解释;
利用所述SHAP资源集将异常报告进行可视化展示,作为异常数据可视化结果;
将所述融合模型解释与异常数据可视化结果进行整合,获取综合分析报告。
CN202311050733.1A 2023-08-18 2023-08-18 基于决策树的大数据分析方法 Withdrawn CN117056834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311050733.1A CN117056834A (zh) 2023-08-18 2023-08-18 基于决策树的大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311050733.1A CN117056834A (zh) 2023-08-18 2023-08-18 基于决策树的大数据分析方法

Publications (1)

Publication Number Publication Date
CN117056834A true CN117056834A (zh) 2023-11-14

Family

ID=88662283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311050733.1A Withdrawn CN117056834A (zh) 2023-08-18 2023-08-18 基于决策树的大数据分析方法

Country Status (1)

Country Link
CN (1) CN117056834A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273670A (zh) * 2023-11-23 2023-12-22 深圳市云图华祥科技有限公司 一种具有学习功能的工程资料管理***
CN117349782A (zh) * 2023-12-06 2024-01-05 湖南嘉创信息科技发展有限公司 智能数据预警决策树分析方法及***
CN117873837A (zh) * 2024-03-11 2024-04-12 国网四川省电力公司信息通信公司 一种存储设备容量耗尽趋势的分析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273670A (zh) * 2023-11-23 2023-12-22 深圳市云图华祥科技有限公司 一种具有学习功能的工程资料管理***
CN117273670B (zh) * 2023-11-23 2024-03-12 深圳市云图华祥科技有限公司 一种具有学习功能的工程资料管理***
CN117349782A (zh) * 2023-12-06 2024-01-05 湖南嘉创信息科技发展有限公司 智能数据预警决策树分析方法及***
CN117349782B (zh) * 2023-12-06 2024-02-20 湖南嘉创信息科技发展有限公司 智能数据预警决策树分析方法及***
CN117873837A (zh) * 2024-03-11 2024-04-12 国网四川省电力公司信息通信公司 一种存储设备容量耗尽趋势的分析方法

Similar Documents

Publication Publication Date Title
CN117056834A (zh) 基于决策树的大数据分析方法
US20240028571A1 (en) Automatic entity resolution with rules detection and generation system
CN111221920B (zh) 变电设备运维装置的案例库构建方法、装置及计算机存储介质
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN110442523B (zh) 一种跨项目软件缺陷预测方法
CN111949535B (zh) 基于开源社区知识的软件缺陷预测装置及方法
Wahono et al. Neural network parameter optimization based on genetic algorithm for software defect prediction
CN113450147B (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN112069069A (zh) 缺陷自动定位分析方法、设备及可读存储介质
CN114218998A (zh) 一种基于隐马尔可夫模型的电力***异常行为分析方法
CN110717090A (zh) 一种旅游景点网络口碑评价方法、***及电子设备
CN113778894A (zh) 测试用例的构建方法、装置、设备及存储介质
CN107908807B (zh) 一种基于贝叶斯理论的小子样可靠性评定方法
CN113722719A (zh) 针对安全拦截大数据分析的信息生成方法及人工智能***
Soukup et al. Towards evaluating quality of datasets for network traffic domain
CN106529470A (zh) 一种基于多级深度卷积神经网络的手势识别方法
CN116662817A (zh) 物联网设备的资产识别方法及***
CN110956543A (zh) 异常交易检测的方法
Li et al. Ensemble learning model based on selected diverse principal component analysis models for process monitoring
CN111896609A (zh) 一种基于人工智能分析质谱数据的方法
CN115455407A (zh) 一种基于机器学习的GitHub敏感信息泄露监控方法
CN111310048A (zh) 基于多层感知机的新闻推荐方法
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
CN113722230A (zh) 针对模糊测试工具漏洞挖掘能力的集成化评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20231114