CN110175191B - 数据分析中的数据过滤规则建模方法 - Google Patents

数据分析中的数据过滤规则建模方法 Download PDF

Info

Publication number
CN110175191B
CN110175191B CN201910401717.XA CN201910401717A CN110175191B CN 110175191 B CN110175191 B CN 110175191B CN 201910401717 A CN201910401717 A CN 201910401717A CN 110175191 B CN110175191 B CN 110175191B
Authority
CN
China
Prior art keywords
data
column
analysis
cnt
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910401717.XA
Other languages
English (en)
Other versions
CN110175191A (zh
Inventor
周鹏程
荆一楠
何震瀛
王晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201910401717.XA priority Critical patent/CN110175191B/zh
Publication of CN110175191A publication Critical patent/CN110175191A/zh
Application granted granted Critical
Publication of CN110175191B publication Critical patent/CN110175191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据分析技术领域,具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分:(1)数据列分析过滤(2)数据范围分析过滤(3)结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型,利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集,分析与挖掘数据项之间联系。

Description

数据分析中的数据过滤规则建模方法
技术领域
本发明属于数据分析技术领域,具体涉及数据分析中的数据过滤规则建模方法。
背景技术
在数据无处不在的时代,用户的决策越来越受到数据的驱动。通常,对于数据分析结果的不同往往能显著影响决策过程。选择不当数据,不管是有意的还是无意的,可能导致错误、误导或“脆弱”的决策。尤其对于数据分析毫无数据分析经验的用户来说,这些不好的数据分析的结果可能会导致严重的经济损失。所以引导用户进行良好的数据选择能带给用户质量更好的数据分析探索体验。
为了使没有数据分析经验的用户能够尽可能消除容易出错的数据探索过程和繁琐的分析过滤条件设置,直截了当的得到良好的数据分析过滤效果。毫无疑问的是我们需要一个标准化的流程来决定该如何进行数据的过滤分析选择,如何根据数据的特征自动化的进行数据过滤规则建模。
发明内容
本发明的目的是对于交互式数据探索的场景,提供一种数据过滤规则建模方法,以便快速对于数据集上的数据进行分析挖掘,方便用户对于数据的探索和分析。
对于数据集上的推荐规则建模,我们所期望的特性如下:
1.可解释性:如何合适地在一个可视化***里面产生推荐;
2.可行性:产生推荐应具有足够的分析意义,需要能挖掘出数据之间的潜在关联;
3.质量性:由于用户探索的特性,因此模型的构建具有高效性、鲁棒性。
本发明提供的数据过滤规则建模方法,具体步骤如下:
(1)给定由大量数据组成的数据集D,采用随机森林特征选择的方法,根据用户是否指定了关键数据,计算数据列的重要度。具体流程如下:
(1.1)重要性评分(variable importance measures),用VIM来表示,将Gini指数用GI来表示,假设有m个数据列X1,X2,X3,...,Xm,现在要计算出每个列Xj的Gini指数评分VIMj (Gini),亦即第j个列在随机森林(RF)所有决策树中节点***不纯度的平均改变量;其中Gini指数:
Figure 511690DEST_PATH_IMAGE001
其中,K表示m节点在RF所有决策树中有K个类别,pmk表示节点m中类别k所占的比例,pmk′表示节点m中类别k所占的比例的补值;直观地说,就是随便从节点m中随机抽取两个样本,其类别标记不一致的概率。
(1.2)数据列Xj在节点m的重要性,即节点m分枝前后的Gini指数变化量为
Figure 121663DEST_PATH_IMAGE002
Figure 26165DEST_PATH_IMAGE003
Figure 328971DEST_PATH_IMAGE004
分别表示分枝后两个新节点的Gini指数。
(1.3)数据列Xj在决策树i中出现的节点在集合M中,那么Xj在第i颗树的重要性为:
Figure 686134DEST_PATH_IMAGE005
(1.4)随机森林里面共有n颗树,则数据列Xj的重要性为:
Figure 99798DEST_PATH_IMAGE006
(1.5)根据算出重要性的排序,返回给用户分析过滤结果为最重要的两列数据,记为A、B, A的重要性排序高于B。
(2)数据范围分析过滤。本发明以A、B两列为例说明如何进行数据范围分析过滤,具体流程如下:
(2.1)本发明首先根据A、B两列数据类型分为三类:数值型N,离散值型X,时序型T;对于数值型N,首先会做离散化处理,具体做法是对数据进行分箱处理得到每个箱子记做n′,计算每个分箱的计数记做CNT(n′);对于离散值型X,计算每个离散值的计数记做CNT(x);
由于时序型数据往往具有季度性的特征,本发明会自动的根据数据列T的时序数据范围划分时间片段箱,数据列T经过分箱处理得到每个时序箱记做t′;比如:T的数据范围2017年-2019年则时序箱t′以年为单位划分,T的数据范围仅为2019年的数据,则时序箱t′以月为单位划分;同理列T的数据范围仅为2019年的1月,则时序箱t′以日为单位划分。
(2.2)根据三个不同的数据类型形成两种数据分析过滤组合模型,对数据集D进行数据过滤分析(其中所有“/”含义均为 “或者”,不表示为除法);具体为:
(2.2.1)A为时序型数据,B为离散值型或数值型;A依据(2.1)得到的时序箱t′的单位选取适当的近段时间作为第一个过滤条件trecent(比如:最近三年、最近六个月、最近七日,不足则不产生此项过滤);经过A列的条件筛选后的数据集为D*,数据列B经过过滤得到离散数据列B*的x1 *,x2 *,...,xk *或者数值数据列B*将重新分箱得到(n1 *)′,(n2 *)′,...,(nk *)′,其中箱子数量为k,以x*/(n*)′中的计数最大的三个值CNT(x*)top3/CNT((n*)′) top3所在的三个离散数据xmax *或箱(nmax *)′的数值范围作为第二个过滤条件;以两个过滤条件trecent和xmax */(nmax *)′的交集trecent∩xmax */(nmax *)′作为分析过滤组合模型的分析过滤条件,对数据集D进行数据过滤分析;
(2.2.2)A为离散值型或数值型,B为时序型数据;A计算每个离散值量或箱的CNT(x)/CNT(n′),选取计数最多的五个常量xtop5或箱(ntop5)′(离散值或箱数量不足则不会产生此项过滤)对应的数值范围作为第一个过滤条件;经过A列的条件筛选后的数据集为D*;选取A中计数最多的常量xmax或者箱(nmax)′所对应数据列B*的时序范围tmax作为第二个过滤条件;以两个过滤条件xtop5/(ntop5)′和tmax的交集xtop5/(ntop5)′∩tmax作为分析过滤组合模型的分析过滤条件,对数据集D进行数据过滤分析。
(3)为了将经过分析过滤的数据呈现给用户,本发明将经过步骤(1)、(2)两步分析过滤得到的结果数据集自动化地可视化。具体流程如下:
(3.1)将结果数据集可视化得到列X的基数值d(X),列X的最大值max(X),最小值min(X),列X的记录条数|X|,列X的数据类型type(X),列X每个箱数据x′与其对应x′的计数CNT(x′)(离散值列X的每个离散值可看做一个箱),每个箱数据x′与其对应的计数CNT(x′)的相关系数correlation(x,CNT(x′))。
(3.2)根据(3.1)中得到的列类型type(X)定义了一套剪切规则;当列x的数据类型为时序型:可视化图表可为柱状图、折线图;当列x的数据类型为离散值型或数值型:可视化图表可为柱状图、饼状图、散点图。
(3.3)本发明提出一种数据分析方法-相对信息熵来确定从步骤(1)、(2)分析过滤后得到的结果数据集该如何自动化的可视化;该方法的核心思想计算每个数据列X可视化为各种图表的信息熵相对于标准化的图表信息熵的比值,记做C(X)1,C(X)2,...,C(X)k;比较每个相对信息熵的大小,最大值C(X)max对应的图表类型就是数据列X的可视化类型。具体做法如下:
(3.3.1)柱形图是分析师最常用到的图表之一,柱子的高度差利用提高用户对于数据差异的辨识度;柱形图适用于各个场景,当x′元素(即箱的个数)较多的时候能更好地展示数据的详细情况;计算柱状图的相对信息熵使用列X的基数值d(X),|d(X)|表示列X的基数d(X)的值;
Figure 858806DEST_PATH_IMAGE007
(3.3.2)饼图可展示多组数据,表现各组数据占总比情况;在饼状图中我们需要有 区分度的CNT(x′)来凸显各部分的占比,为此引入香农熵:
Figure 332513DEST_PATH_IMAGE008
,作为判定标准的部分;其中y表示CNT(x')的每个值,P(y)表示y的数量占比值,即y在CNT (x')的发生概率;
Figure 176972DEST_PATH_IMAGE009
(3.3.3)线图的优势可以反映同一事物在不同时间里的发展变化的情况;当数据CNT(x′)与x′符合某种分布(比如:线性分布、指数分布、对数分布、低次幂分布)时,分布的表达式记做distribution(x′,CNT(x′)),信息熵C(X)为1;否则,信息熵C(X)为0;
C(X)= distribution(x′,CNT(x′));
(3.3.4)散点图通过坐标轴,表示两个变量之间的关系;使用相关系数correlation(x′,CNT(x′))计算;
C(X)= correlation (x′,CNT(x′))。
(3.4)通过比较列X在各种可视化图表下得到相对信息熵序列,得到相对信息熵最大值C(X)max。(1)(2)分析过滤后得到的结果数据集将采用C(X)max对应的图表类型进行可视化展现。
本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型,利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集,分析与挖掘数据项之间联系。
附图说明
图1为数据列分析实例图示。
图2为数据分析过滤的过程。
图3为数据分析过滤的实例。其中,(a)为销售日期过滤实例图(b)为售价过滤实例图。
图4为结果数据集可视化方式对比图。其中,(a)为结果数据集柱状图展示(b)为结果数据集折线图展示。
图5为本发明方法流程图示。
具体实施方式
在本节中我们通过一个具体的数据分析***来介绍本发明。
本发明选用的数据,包含33列344355条数据。按照上文所述的过程进行操作,分析数据列和数据范围并将分析得到的数据可视化以后返回给用户展示。如下图1所示,本发明数据列分析方法以利润列为关键列分析其余的所有的数据列,分析结果为销售日期和售价两列的重要性最高。
本发明基于(2)给出的方案建立数据过滤规则模型,对目标列销售日期和售价进行筛选条件的组合,数据分析***基于数据过滤规则模型得到分析数据如下图2所示的操作序列,得到销售日期为最近一个月,售价的最大的箱数据范围0-57。最后得到如图3所示的过滤结果***实例展示。
本发明采用的自动化可视化的形式。因此会自主分析结果数据集,以适当的可视化图表将结果数据集展示出来。如下图4所示,左图所示将数据作为柱状图展示就不太合适,而将数据可视化为右图折线图就比可视化为柱状图更容易看出趋势。因此,本发明采用右边的折线图展示数据列售价。

Claims (1)

1.一种数据分析中的数据过滤规则建模方法,具体步骤如下:
(1)给定由大量数据组成的数据集D,采用随机森林特征选择的方法,根据用户是否指定了关键数据,计算数据列的重要度;具体流程如下:
(1.1)重要性评分,用VIM来表示;将Gini指数用GI来表示,假设有m个数据列X1,X2,X3,...,Xm,要计算出每个列Xj的Gini指数评分VIMj (Gini),亦即第j个列在随机森林RF所有决策树中节点***不纯度的平均改变量;Gini指数为:
Figure FDA0004154738440000011
其中,K表示m节点在RF所有决策树中有K个类别,pmk表示节点m中类别k所占的比例,pmk′表示节点m中类别k所占的比例的补值;
(1.2)数据列Xj在节点m的重要性,即节点m分枝前后的Gini指数变化量为:
Figure FDA0004154738440000012
GIl和GIr分别表示分枝后两个新节点的Gini指数;
(1.3)数据列Xj在决策树i中出现的节点在集合M中,那么Xj在第i颗树的重要性为:
Figure FDA0004154738440000013
(1.4)随机森林里面共有n颗树,则数据列Xj的重要性为:
Figure FDA0004154738440000014
(1.5)根据算出重要性排序,返回给用户分析过滤结果为最重要的两列数据,记为A、B,A的重要性排序高于B;
(2)数据范围分析过滤;具体流程如下:
(2.1)首先根据A、B两列数据类型分为三类:数值型N,离散值型X,时序型T;对于数值型N,首先做离散化处理,具体做法是对数据进行分箱处理得到每个箱子记做n′,计算每个分箱的计数记做CNT(n′);对于离散值型X,计算每个离散值的计数记做CNT(x);
时序型T,根据数据列T的时序数据范围划分时间片段箱,数据列T经过分箱处理得到每个时序箱记做t′;
(2.2)根据三个不同的数据类型形成两种数据分析过滤组合模式,对数据集D进行数据过滤分析;具体为:
(2.2.1)A为时序型数据,B为离散值型或数值型;A依据(2.1)得到的时序箱t′的单位选取适当的近段时间作为第一个过滤条件trecent;经过A列的条件筛选后的数据集记为为D*,数据列B经过过滤得到离散数据列B*的x1 *,x2 *,...,xk *或者数值数据列B*将重新分箱得到(n1 *)′,(n2 *)′,...,(nk *)′,其中箱子数量为k,以x*/(n*)′中的计数最大的三个值CNT(x*)top3/CNT((n*)′)top3所在的三个离散数据xmax *或箱(nmax *)′的数值范围作为第二个过滤条件;以两个过滤条件trecent和xmax */(nmax *)′的交集trecent∩xmax */(nmax *)′作为分析过滤组合模型的分析过滤条件,对数据集D进行数据过滤分析;
(2.2.2)A为离散值型或数值型,B为时序型数据;A计算每个离散值量或箱的CNT(x)/CNT(n′),选取计数最多的五个常量xtop5或箱(ntop5)′对应的数值范围作为第一个过滤条件;经过A列的条件筛选后的数据集为D*;选取A中计数最多的常量xmax或者箱(nmax)′所对应数据列B*的时序范围tmax作为第二个过滤条件;以两个过滤条件xtop5/(ntop5)′和tmax的交集xtop5/(ntop5)′∩tmax作为分析过滤组合模型的分析过滤条件,对数据集D进行数据过滤分析;
(3)为了将经过分析过滤的数据呈现给用户,将经过步骤(1)、(2)分析过滤得到的结果数据集自动地可视化;具体流程如下:
(3.1)将结果数据集可视化得到列X的基数值d(X),列X的最大值max(X),最小值min(X),列X的记录条数|X|,列X的数据类型type(X),列X每个箱数据x′与其对应x′的计数CNT(x′),每个箱数据x′与其对应的计数CNT(x′)的相关系数correlation(x,CNT(x′));
(3.2)根据(3.1)中得到的列类型type(X)定义一套剪切规则;当列x的数据类型为时序型:可视化图表为柱状图、折线图;当列x的数据类型为离散值型或数值型:可视化图表为柱状图、饼状图、散点图;
(3.3)采用数据分析方法-相对信息熵来确定从步骤(1)、(2)分析过滤后得到的结果数据集如何自动化的可视化;该方法的核心思想是计算每个数据列X可视化为各种图表的信息熵相对于标准化的图表信息熵的比值,记做C(X)1,C(X)2,...,C(X)k;比较每个相对信息熵的大小,最大值C(X)max对应的图表类型就是数据列X的可视化类型;具体如下:
(3.3.1)柱形图中,柱子的高度差用于提高用户对于数据差异的辨识度;计算柱状图的相对信息熵使用列X的基数值d(X),|d(X)|表示列X的基数d(X)的值:
Figure FDA0004154738440000031
(3.3.2)饼图可展示多组数据,表现各组数据占总比情况;在饼状图中,需要有区分度的CNT(x′)来凸显各部分的占比,为此引入香农熵:∑y∈CNT(x′)-P(y)logP(y),作为判定标准的部分;其中y表示CNT(x')的每个值,P(y)表示y的数量占比值,即y在CNT(x')的发生概率;
Figure FDA0004154738440000032
(3.3.3)折线图可以反映同一事物在不同时间里的发展变化的情况;当数据CNT(x′)与x′符合某种分布:线性分布、指数分布、对数分布或低次幂分布时,分布的表达式记做distribution(x′,CNT(x′)),信息熵C(X)为1;否则,信息熵C(X)为0;
C(X)=distribution(x′,CNT(x′))
(3.3.4)散点图中,通过坐标轴,表示两个变量之间的关系;使用相关系数correlation(x′,CNT(x′))计算;
C(X)=correlation(x′,CNT(x′))
(3.4)通过比较列X在各种可视化图表下得到相对信息熵序列,得到相对信息熵最大值C(X)max;步骤(1)、(2)分析过滤后得到的结果数据集采用C(X)max对应的图表类型进行可视化展现。
CN201910401717.XA 2019-05-14 2019-05-14 数据分析中的数据过滤规则建模方法 Active CN110175191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910401717.XA CN110175191B (zh) 2019-05-14 2019-05-14 数据分析中的数据过滤规则建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910401717.XA CN110175191B (zh) 2019-05-14 2019-05-14 数据分析中的数据过滤规则建模方法

Publications (2)

Publication Number Publication Date
CN110175191A CN110175191A (zh) 2019-08-27
CN110175191B true CN110175191B (zh) 2023-06-27

Family

ID=67691033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910401717.XA Active CN110175191B (zh) 2019-05-14 2019-05-14 数据分析中的数据过滤规则建模方法

Country Status (1)

Country Link
CN (1) CN110175191B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766167B (zh) * 2019-10-29 2021-08-06 深圳前海微众银行股份有限公司 交互式特征选择方法、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295983A (zh) * 2016-08-08 2017-01-04 烟台海颐软件股份有限公司 电力营销数据可视化统计分析方法及***
CN106599325A (zh) * 2017-01-18 2017-04-26 河海大学 一种基于R和HighCharts的数据挖掘可视化平台的构建方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN108171617A (zh) * 2017-12-08 2018-06-15 全球能源互联网研究院有限公司 一种电网大数据分析方法及装置
CN109409647A (zh) * 2018-09-10 2019-03-01 昆明理工大学 一种基于随机森林算法的薪资水平影响因素的分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于非平衡数据的随机森林算法研究;魏正韬;信息科技(第2018年第04期);全文 *

Also Published As

Publication number Publication date
CN110175191A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
US10367888B2 (en) Cloud process for rapid data investigation and data integrity analysis
US9824472B2 (en) Determining alternative visualizations for data based on an initial data visualization
Kotu et al. Predictive analytics and data mining: concepts and practice with rapidminer
US10970431B2 (en) Automated model development process
US7777743B2 (en) Viewing multi-dimensional data through hierarchical visualization
CN108140025A (zh) 用于图形生成的结果分析
US20120059790A1 (en) Method for providing with a score an object, and decision-support system
Halim et al. Quantifying and optimizing visualization: An evolutionary computing-based approach
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
Guruler et al. Modeling student performance in higher education using data mining
CN112149737A (zh) 选择模型训练方法、模型选择方法、装置及电子设备
Liu et al. SocialBrands: Visual analysis of public perceptions of brands on social media
CN112101574A (zh) 一种机器学习有监督模型解释方法、***及设备
CN109035025A (zh) 评价股票评论可靠性的方法和装置
CN110175191B (zh) 数据分析中的数据过滤规则建模方法
CN114511190A (zh) 一种面向二级市场市值重估的可视分析***及分析方法
Khoshnevis et al. Prioritizing ground‐motion validation metrics using semisupervised and supervised learning
Nasution A method for constructing a dataset to reveal the industrial behaviour of big data
CN107368506A (zh) 非结构化数据分析***和方法
Anderson Visual Data Mining: The VisMiner Approach
Gunawan et al. C4. 5, K-Nearest Neighbor, Naïve Bayes, and Random Forest Algorithms Comparison to Predict Students' on TIME Graduation
Morariu et al. Predicting user preferences of dimensionality reduction embedding quality
US20180121811A1 (en) Profiling a population of examples in a precisely descriptive or tendency-based manner
CN116663972A (zh) 基于特征选择的食品掺杂物权重可视分析方法
Swarnalatha et al. Mining Educational Data for students' placement prediction using Sum of difference method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant