CN110175191B

CN110175191B - 数据分析中的数据过滤规则建模方法

Info

Publication number: CN110175191B
Application number: CN201910401717.XA
Authority: CN
Inventors: 周鹏程; 荆一楠; 何震瀛; 王晓阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2023-06-27
Anticipated expiration: 2039-05-14
Also published as: CN110175191A

Abstract

本发明属于数据分析技术领域，具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分：（1）数据列分析过滤（2）数据范围分析过滤（3）结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型，利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集，分析与挖掘数据项之间联系。

Description

数据分析中的数据过滤规则建模方法

技术领域

本发明属于数据分析技术领域，具体涉及数据分析中的数据过滤规则建模方法。

背景技术

在数据无处不在的时代，用户的决策越来越受到数据的驱动。通常，对于数据分析结果的不同往往能显著影响决策过程。选择不当数据，不管是有意的还是无意的，可能导致错误、误导或“脆弱”的决策。尤其对于数据分析毫无数据分析经验的用户来说，这些不好的数据分析的结果可能会导致严重的经济损失。所以引导用户进行良好的数据选择能带给用户质量更好的数据分析探索体验。

为了使没有数据分析经验的用户能够尽可能消除容易出错的数据探索过程和繁琐的分析过滤条件设置,直截了当的得到良好的数据分析过滤效果。毫无疑问的是我们需要一个标准化的流程来决定该如何进行数据的过滤分析选择，如何根据数据的特征自动化的进行数据过滤规则建模。

发明内容

本发明的目的是对于交互式数据探索的场景，提供一种数据过滤规则建模方法，以便快速对于数据集上的数据进行分析挖掘，方便用户对于数据的探索和分析。

对于数据集上的推荐规则建模，我们所期望的特性如下：

1.可解释性：如何合适地在一个可视化***里面产生推荐；

2.可行性：产生推荐应具有足够的分析意义，需要能挖掘出数据之间的潜在关联；

3.质量性：由于用户探索的特性，因此模型的构建具有高效性、鲁棒性。

本发明提供的数据过滤规则建模方法，具体步骤如下：

（1）给定由大量数据组成的数据集D，采用随机森林特征选择的方法，根据用户是否指定了关键数据，计算数据列的重要度。具体流程如下：

（1.1）重要性评分（variable importance measures），用VIM来表示，将Gini指数用GI来表示，假设有m个数据列X₁，X₂，X₃，...，X_m，现在要计算出每个列X_j的Gini指数评分VIM_j ^(Gini)，亦即第j个列在随机森林（RF）所有决策树中节点***不纯度的平均改变量；其中Gini指数：

其中，K表示m节点在RF所有决策树中有K个类别，p_mk表示节点m中类别k所占的比例，p_mk′表示节点m中类别k所占的比例的补值；直观地说，就是随便从节点m中随机抽取两个样本，其类别标记不一致的概率。

（1.2）数据列X_j在节点m的重要性，即节点m分枝前后的Gini指数变化量为

；

和

分别表示分枝后两个新节点的Gini指数。

（1.3）数据列X_j在决策树i中出现的节点在集合M中，那么X_j在第i颗树的重要性为：

。

（1.4）随机森林里面共有n颗树，则数据列X_j的重要性为：

。

（1.5）根据算出重要性的排序，返回给用户分析过滤结果为最重要的两列数据，记为A、B， A的重要性排序高于B。

（2）数据范围分析过滤。本发明以A、B两列为例说明如何进行数据范围分析过滤，具体流程如下：

（2.1）本发明首先根据A、B两列数据类型分为三类：数值型N，离散值型X，时序型T；对于数值型N，首先会做离散化处理，具体做法是对数据进行分箱处理得到每个箱子记做n′，计算每个分箱的计数记做CNT(n′)；对于离散值型X，计算每个离散值的计数记做CNT(x)；

由于时序型数据往往具有季度性的特征，本发明会自动的根据数据列T的时序数据范围划分时间片段箱，数据列T经过分箱处理得到每个时序箱记做t′；比如：T的数据范围2017年-2019年则时序箱t′以年为单位划分，T的数据范围仅为2019年的数据，则时序箱t′以月为单位划分；同理列T的数据范围仅为2019年的1月，则时序箱t′以日为单位划分。

（2.2）根据三个不同的数据类型形成两种数据分析过滤组合模型，对数据集D进行数据过滤分析（其中所有“/”含义均为 “或者”，不表示为除法）；具体为：

（2.2.1）A为时序型数据，B为离散值型或数值型；A依据（2.1）得到的时序箱t′的单位选取适当的近段时间作为第一个过滤条件t_recent（比如：最近三年、最近六个月、最近七日，不足则不产生此项过滤）；经过A列的条件筛选后的数据集为D^*，数据列B经过过滤得到离散数据列B^*的x₁ ^*，x₂ ^*，...，x_k ^*或者数值数据列B^*将重新分箱得到（n₁ ^*）′，（n₂ ^*）′，...，（n_k ^*）′，其中箱子数量为k，以x^*/（n^*）′中的计数最大的三个值CNT(x^*)_top3/CNT(（n^*）′)_top3所在的三个离散数据x_max ^*或箱（n_max ^*）′的数值范围作为第二个过滤条件；以两个过滤条件t_recent和x_max ^*/（n_max ^*）′的交集t_recent∩x_max ^*/（n_max ^*）′作为分析过滤组合模型的分析过滤条件，对数据集D进行数据过滤分析；

（2.2.2）A为离散值型或数值型，B为时序型数据；A计算每个离散值量或箱的CNT(x)/CNT(n′),选取计数最多的五个常量x_top5或箱(n_top5)′（离散值或箱数量不足则不会产生此项过滤）对应的数值范围作为第一个过滤条件；经过A列的条件筛选后的数据集为D^*；选取A中计数最多的常量x_max或者箱（n_max）′所对应数据列B^*的时序范围t_max作为第二个过滤条件；以两个过滤条件x_top5/(n_top5)′和t_max的交集x_top5/(n_top5)′∩t_max作为分析过滤组合模型的分析过滤条件，对数据集D进行数据过滤分析。

（3）为了将经过分析过滤的数据呈现给用户，本发明将经过步骤（1）、（2）两步分析过滤得到的结果数据集自动化地可视化。具体流程如下：

（3.1）将结果数据集可视化得到列X的基数值d(X)，列X的最大值max(X)，最小值min(X)，列X的记录条数|X|，列X的数据类型type（X），列X每个箱数据x′与其对应x′的计数CNT(x′)（离散值列X的每个离散值可看做一个箱），每个箱数据x′与其对应的计数CNT(x′)的相关系数correlation(x,CNT(x′))。

（3.2）根据（3.1）中得到的列类型type（X）定义了一套剪切规则；当列x的数据类型为时序型：可视化图表可为柱状图、折线图；当列x的数据类型为离散值型或数值型：可视化图表可为柱状图、饼状图、散点图。

（3.3）本发明提出一种数据分析方法-相对信息熵来确定从步骤（1）、（2）分析过滤后得到的结果数据集该如何自动化的可视化；该方法的核心思想计算每个数据列X可视化为各种图表的信息熵相对于标准化的图表信息熵的比值，记做C（X）₁，C（X）₂，...，C（X）_k；比较每个相对信息熵的大小，最大值C（X）_max对应的图表类型就是数据列X的可视化类型。具体做法如下：

（3.3.1）柱形图是分析师最常用到的图表之一，柱子的高度差利用提高用户对于数据差异的辨识度；柱形图适用于各个场景，当x′元素（即箱的个数）较多的时候能更好地展示数据的详细情况；计算柱状图的相对信息熵使用列X的基数值d(X),|d(X)|表示列X的基数d(X)的值；

（3.3.2）饼图可展示多组数据，表现各组数据占总比情况；在饼状图中我们需要有区分度的CNT（x′）来凸显各部分的占比，为此引入香农熵：

，作为判定标准的部分；其中y表示CNT(x')的每个值，P(y)表示y的数量占比值，即y在CNT (x')的发生概率；

（3.3.3）线图的优势可以反映同一事物在不同时间里的发展变化的情况；当数据CNT（x′）与x′符合某种分布（比如：线性分布、指数分布、对数分布、低次幂分布）时，分布的表达式记做distribution(x′,CNT（x′）)，信息熵C（X）为1；否则，信息熵C（X）为0；

C（X）= distribution(x′,CNT（x′）)；

（3.3.4）散点图通过坐标轴，表示两个变量之间的关系；使用相关系数correlation(x′,CNT(x′))计算；

C（X）= correlation (x′,CNT(x′))。

（3.4）通过比较列X在各种可视化图表下得到相对信息熵序列，得到相对信息熵最大值C（X）_max。（1）（2）分析过滤后得到的结果数据集将采用C（X）_max对应的图表类型进行可视化展现。

本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型，利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集，分析与挖掘数据项之间联系。

附图说明

图1为数据列分析实例图示。

图2为数据分析过滤的过程。

图3为数据分析过滤的实例。其中，（a）为销售日期过滤实例图（b）为售价过滤实例图。

图4为结果数据集可视化方式对比图。其中，（a）为结果数据集柱状图展示（b）为结果数据集折线图展示。

图5为本发明方法流程图示。

具体实施方式

在本节中我们通过一个具体的数据分析***来介绍本发明。

本发明选用的数据，包含33列344355条数据。按照上文所述的过程进行操作，分析数据列和数据范围并将分析得到的数据可视化以后返回给用户展示。如下图1所示，本发明数据列分析方法以利润列为关键列分析其余的所有的数据列，分析结果为销售日期和售价两列的重要性最高。

本发明基于（2）给出的方案建立数据过滤规则模型，对目标列销售日期和售价进行筛选条件的组合，数据分析***基于数据过滤规则模型得到分析数据如下图2所示的操作序列，得到销售日期为最近一个月，售价的最大的箱数据范围0-57。最后得到如图3所示的过滤结果***实例展示。

本发明采用的自动化可视化的形式。因此会自主分析结果数据集，以适当的可视化图表将结果数据集展示出来。如下图4所示，左图所示将数据作为柱状图展示就不太合适，而将数据可视化为右图折线图就比可视化为柱状图更容易看出趋势。因此，本发明采用右边的折线图展示数据列售价。

Claims

1.一种数据分析中的数据过滤规则建模方法，具体步骤如下：

(1)给定由大量数据组成的数据集D，采用随机森林特征选择的方法，根据用户是否指定了关键数据，计算数据列的重要度；具体流程如下：

(1.1)重要性评分，用VIM来表示；将Gini指数用GI来表示，假设有m个数据列X₁，X₂，X₃，...，X_m，要计算出每个列X_j的Gini指数评分VIM_j ^(Gini)，亦即第j个列在随机森林RF所有决策树中节点***不纯度的平均改变量；Gini指数为：

其中，K表示m节点在RF所有决策树中有K个类别，p_mk表示节点m中类别k所占的比例，p_mk′表示节点m中类别k所占的比例的补值；

(1.2)数据列X_j在节点m的重要性，即节点m分枝前后的Gini指数变化量为：

GI_l和GI_r分别表示分枝后两个新节点的Gini指数；

(1.3)数据列X_j在决策树i中出现的节点在集合M中，那么X_j在第i颗树的重要性为：

(1.4)随机森林里面共有n颗树，则数据列X_j的重要性为：

(1.5)根据算出重要性排序，返回给用户分析过滤结果为最重要的两列数据，记为A、B，A的重要性排序高于B；

(2)数据范围分析过滤；具体流程如下：

(2.1)首先根据A、B两列数据类型分为三类：数值型N，离散值型X，时序型T；对于数值型N，首先做离散化处理，具体做法是对数据进行分箱处理得到每个箱子记做n′，计算每个分箱的计数记做CNT(n′)；对于离散值型X，计算每个离散值的计数记做CNT(x)；

时序型T，根据数据列T的时序数据范围划分时间片段箱，数据列T经过分箱处理得到每个时序箱记做t′；

(2.2)根据三个不同的数据类型形成两种数据分析过滤组合模式，对数据集D进行数据过滤分析；具体为：

(2.2.1)A为时序型数据，B为离散值型或数值型；A依据(2.1)得到的时序箱t′的单位选取适当的近段时间作为第一个过滤条件t_recent；经过A列的条件筛选后的数据集记为为D^*，数据列B经过过滤得到离散数据列B^*的x₁ ^*，x₂ ^*，...，x_k ^*或者数值数据列B^*将重新分箱得到(n₁ ^*)′，(n₂ ^*)′，...，(n_k ^*)′，其中箱子数量为k，以x^*/(n^*)′中的计数最大的三个值CNT(x^*)_top3/CNT((n^*)′)_top3所在的三个离散数据x_max ^*或箱(n_max ^*)′的数值范围作为第二个过滤条件；以两个过滤条件t_recent和x_max ^*/(n_max ^*)′的交集t_recent∩x_max ^*/(n_max ^*)′作为分析过滤组合模型的分析过滤条件，对数据集D进行数据过滤分析；

(2.2.2)A为离散值型或数值型，B为时序型数据；A计算每个离散值量或箱的CNT(x)/CNT(n′),选取计数最多的五个常量x_top5或箱(n_top5)′对应的数值范围作为第一个过滤条件；经过A列的条件筛选后的数据集为D^*；选取A中计数最多的常量x_max或者箱(n_max)′所对应数据列B^*的时序范围t_max作为第二个过滤条件；以两个过滤条件x_top5/(n_top5)′和t_max的交集x_top5/(n_top5)′∩t_max作为分析过滤组合模型的分析过滤条件，对数据集D进行数据过滤分析；

(3)为了将经过分析过滤的数据呈现给用户，将经过步骤(1)、(2)分析过滤得到的结果数据集自动地可视化；具体流程如下：

(3.1)将结果数据集可视化得到列X的基数值d(X)，列X的最大值max(X)，最小值min(X)，列X的记录条数|X|，列X的数据类型type(X)，列X每个箱数据x′与其对应x′的计数CNT(x′)，每个箱数据x′与其对应的计数CNT(x′)的相关系数correlation(x,CNT(x′))；

(3.2)根据(3.1)中得到的列类型type(X)定义一套剪切规则；当列x的数据类型为时序型：可视化图表为柱状图、折线图；当列x的数据类型为离散值型或数值型：可视化图表为柱状图、饼状图、散点图；

(3.3)采用数据分析方法-相对信息熵来确定从步骤(1)、(2)分析过滤后得到的结果数据集如何自动化的可视化；该方法的核心思想是计算每个数据列X可视化为各种图表的信息熵相对于标准化的图表信息熵的比值，记做C(X)₁，C(X)₂，...，C(X)_k；比较每个相对信息熵的大小，最大值C(X)_max对应的图表类型就是数据列X的可视化类型；具体如下：

(3.3.1)柱形图中，柱子的高度差用于提高用户对于数据差异的辨识度；计算柱状图的相对信息熵使用列X的基数值d(X),|d(X)|表示列X的基数d(X)的值：

(3.3.2)饼图可展示多组数据，表现各组数据占总比情况；在饼状图中，需要有区分度的CNT(x′)来凸显各部分的占比，为此引入香农熵：∑_{y∈CNT(x′)}-P(y)logP(y)，作为判定标准的部分；其中y表示CNT(x')的每个值，P(y)表示y的数量占比值，即y在CNT(x')的发生概率；

(3.3.3)折线图可以反映同一事物在不同时间里的发展变化的情况；当数据CNT(x′)与x′符合某种分布：线性分布、指数分布、对数分布或低次幂分布时，分布的表达式记做distribution(x′,CNT(x′))，信息熵C(X)为1；否则，信息熵C(X)为0；

C(X)＝distribution(x′,CNT(x′))

(3.3.4)散点图中，通过坐标轴，表示两个变量之间的关系；使用相关系数correlation(x′,CNT(x′))计算；

C(X)＝correlation(x′,CNT(x′))

(3.4)通过比较列X在各种可视化图表下得到相对信息熵序列，得到相对信息熵最大值C(X)_max；步骤(1)、(2)分析过滤后得到的结果数据集采用C(X)_max对应的图表类型进行可视化展现。