CN109271440A

CN109271440A - 一种用于在有限空间显示大规模多属性堆叠柱状图的方法

Info

Publication number: CN109271440A
Application number: CN201810950082.4A
Authority: CN
Inventors: 巫英才; 翁荻; 陈然; 邓紫坤
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-25
Anticipated expiration: 2038-08-20
Also published as: CN109271440B

Abstract

本发明公开了一种用于在有限空间显示大规模多属性堆叠柱状图的方法，包括以下步骤：(1)获取数据并对其进行初始化；(2)根据步骤(1)得到的初始化过的数据，进行采样并使用基于交换的启发式贪心方法，最小化由平均采样导致的多选项数值属性的信息损失；(3)根据步骤(2)得到的最小化信息损失后的采样数据，使用基于交换的启发式贪心方法，最小化采样后堆叠柱状图中多选项数值属性的抖动；(4)根据步骤(3)得到的增强可读性后的采样数据，绘制堆叠柱状图；本发明能够帮助用户更好地感知大规模多属性数据的堆叠柱状图，并发掘和分析可视化中蕴含的数据模式，在大数据可视化和可视分析等相关领域上有着广泛应用的潜力。

Description

一种用于在有限空间显示大规模多属性堆叠柱状图的方法

技术领域

本发明涉及可视化技术领域，特别涉及一种用于在有限空间显示大规模多属性堆叠柱状图的方法。

背景技术

堆叠柱状图是一种常见的可视化形式。图中每一行表示一个待评估价值的选项。每一行由多个以颜色表示不同数值型属性的柱形堆叠而成，其长度表示对应属性的价值。堆叠柱状图可以形象得展示每个选项包含的每个属性的数据，显示的是单个与整体之间的关系。堆叠柱状图常用于对比不同选项的价值大小、同时对比选项内不同属性的价值大小。相比普通柱状图，堆叠柱状图可以展示数据的更多维度。

然而，堆叠柱状图逐渐难以应对当下海量高维数据的可视化任务。主要原因是由于数据选项的数量以及数据属性的数量的***增长，在有限的显示空间内利用堆叠柱状图呈现海量选项和属性时常常产生视觉的混乱，加大视觉负担。人们难以继续发挥堆叠柱状图的优势，即对比不同选项的价值大小、同时对比选项内不同属性的价值大小。主要困难为：1)由于过度的压缩，每个柱形的边界不可区分；2)相同颜色的柱形(同一数值型属性)在视觉上不连续，产生严重的视觉干扰和混淆。

由此，提出一种用于在有限空间显示大规模多属性堆叠柱状图的方法，主要通过减小信息丢失的平均采样以提高数据显示容量、利用平滑布局减少堆叠柱状图抖动以提高其可读性来解决这两个问题，在显示空间有限的情况下提高堆叠柱状图的显示容量和可读性。相比传统的堆叠柱状图，本发明能够帮助用户更好地感知大规模多属性数据的堆叠柱状图，并发掘和分析可视化中蕴含的数据模式，例如极限、均值、变化、统计分布等特征，从而在大数据可视化和可视分析等相关领域上有着广泛应用的潜力。

发明内容

本发明描述了用于在有限空间显示大规模多属性堆叠柱状图的方法，在显示空间有限的情况下提高堆叠柱状图的显示容量和可读性，以更好帮助人们利用可视化发掘海量选项数据中的隐含模式。

一种用于在有限空间显示大规模多属性堆叠柱状图的方法，包括以下步骤：

(1)获取数据并对其进行初始化；

(2)根据步骤(1)得到的初始化过的数据，进行采样并使用基于交换的启发式贪心方法，最小化由平均采样导致的多选项数值属性的信息损失；

(3)根据步骤(2)得到的最小化信息损失后的采样数据，使用基于交换的启发式贪心方法，最小化采样后堆叠柱状图中多选项数值属性的抖动；目的是平滑堆叠柱状图以提高其可读性。

(4)根据步骤(3)得到的增强可读性后的采样数据，绘制堆叠柱状图。

优选的，步骤(1)中，获取数据并对其进行初始化包括进行属性的标准化和加权计算。

优选的，进行属性的标准化和加权计算的具体步骤如下：

1-1、在数据集中，令数据选项的数量为n，数据指标的数量为m，每项数据包含多个维度的属性：c₁、c₂、...、c_m，将每项数据的属性统一标准化到[0，1]区间；

比较属性值，获取c_j-max为第j个指标属性的最大值，设c′_ij为第i个数据项的第j个指标属性值，则第i个选项第j个标准化指标属性值为对于某些值越小越好的属性，例如价格，

1-2、将标准化后的数据进行加权，令w_j表示第j个指标所占的权重，其中∑w_j＝1；

令f_ij＝w_jc_ij，表示第i个选项的第j个标准化指标加权数值属性值，其中0≤f_ij，c_ij≤1，则第i个数据项的总分数为

为了最小化采样数据的信息损失，优选的，步骤(2)中，根据步骤(1)得到的初始化过的数据，对其进行采样并使用基于交换的启发式贪心方法，最小化由平均采样导致的多选项数值属性的信息损失的具体步骤如下：

2-1、根据步骤(1)得到的初始化过的数据，对其进行采样，设置p为平均采样中的样本数量，选择p使得样本数量不会超过给定的阈值；

2-2、计算每个采样样本的各属性值，令表示对连续p个选项平均采样后获得的第i个样本的第j个平均后的标准化加权属性值；

2-3、平均采样会丧失大量的数据统计特征，信息损失为即将选项的标准化加权数值属性值与样本的平均值相比较，计算平均采样过程中产生的信息损失；

2-4、采用基于交换的启发式贪心方法降低采样的信息损失，通过枚举交换策略，逼近信息损失最小的采样顺序。

优选的，步骤2-4中，采用基于交换的启发式贪心方法降低采样的信息损失，通过枚举交换策略，逼近信息损失最小的采样顺序的具体过程包括：

2-4-1、迭代所有的样本间的成对的数据项，并按2-3的计算方法计算当前的信息损失loss值为oldLoss，交换这对数据项的位置，重新计算当前的信息损失loss值为newLoss；

2-4-2、如果oldLoss值小于newLoss值，则将这对数据项位置进行交换；

否则，保持这对数据项的位置，迭代至无选项可交换位置则方法结束，获得最小化信息损失后的采样数据。

为最小化采样数据的抖动，增强可读性，优选的，步骤(3)中，根据步骤(2)得到的最小化信息损失后的采样数据，使用基于交换的启发式贪心方法，最小化采样后堆叠柱状图中多选项数值属性的抖动的具体步骤如下：

3-1、根据步骤(2)得到的最小化信息损失后的采样数据，采用求导的方式计算数据抖动；

具体的，令表示第i个样本的前k个平均后的选项标准化加权属性值之和。采用基于一阶导数的度量以计算采样后选项属性值的抖动其中，导数G′_ij由相邻样本对应属性值的差得到：G′_ij＝(G_i+1，j-G_i-1，j)/2；

3-2、采用基于交换的启发式贪心方法枚举样本的交换策略，逼近数据抖动最小的显示顺序。

具体的，方法迭代所有的两两样本，并按3-1的计算方法计算当前的抖动wwiggles值为oldWwiggles，交换这对数据项的位置，重新计算当前的抖动wwiggles值为newWwiggles。如果oldWwiggles值小于newWwiggles值，则将这对数据项位置进行交换。否则，保持这对数据项的位置。迭代至无选项可交换位置则方法结束。获得增强可读性后的采样数据，可用其绘制堆叠柱状图。

本发明通过减小信息丢失的平均采样以提高数据显示容量、利用平滑布局减少堆叠柱状图抖动以提高其可读性来解决这两个问题。

本发明的有益效果：

本发明用于在有限的显示空间中基于堆叠柱状图呈现多选项数值属性，通过减小信息丢失的平均采样提高数据显示容量，并通过平滑堆叠柱状图以提高其可读性，相比传统的堆叠柱状图，本发明能够帮助用户更好地感知大规模多属性数据的堆叠柱状图，并发掘和分析可视化中蕴含的数据模式，例如极限、均值、变化、统计分布等特征，在大数据可视化和可视分析等相关领域上有着广泛应用的潜力。

附图说明

图1是本发明的用于在有限空间显示大规模多属性堆叠柱状图的方法的流程线框图。

图2是现有技术的大规模多属性堆叠柱状图。

图3是直接进行平均采样后的大规模多属性堆叠柱状图。

图4是经过降低信息损失后的大规模多属性堆叠柱状图。

图5是采用本发明方法处理后的大规模多属性堆叠柱状图。

具体实施方式

下面通过一个多维房屋数据的堆叠柱状图的优化案例，结合附图详细描述本发明，本发明的目的和效果将变得更加明显。

如图1所示，本实施例的用于在有限空间显示大规模多属性堆叠柱状图的方法包括以下步骤：

(1)获取海量多维房屋数据并对其进行初始化，包括进行属性的标准化和加权计算，具体步骤如下：

1-1、在数据集中，令n为数据选项的数量，m为数据指标的数量。每项数据包含多个维度的属性，例如：单位面积价格c₁、面积c₂、建造年份c₃、卧室数量c₄等，将每项数据的属性统一标准化到[0，1]区间。

具体的，令c_{j_max}为第j个指标属性的最大值，令c′_ij为第i个数据项的第j个指标属性值，则第i个选项第j个标准化指标属性值为对于某些值越小越好的属性，例如单位面积价格，

1-2、接下来，将标准化后的数据进行加权。令w_j表示第j个指标所占的权重，其中∑w_j＝1。令f_ij＝w_jc_ij，表示第i个选项的第j个标准化指标加权数值属性值，其中0≤f_ij，c_ij≤1。则第i个数据项的总分数为

1-3、若直接用堆叠柱状图对这海量的数据进行可视化，即根据f_ij绘制堆叠柱状图，如图2所示，会绘制出紧凑的堆叠柱状图。然而，由于过度压缩和垂直不连续，导致了严重的视觉混乱。需要对其进行优化。

(2)根据步骤(1)得到的初始化过的数据，对其进行采样并使用基于交换的启发式贪心方法，最小化由平均采样导致的多选项数值属性的信息损失，具体步骤如下：

2-1、根据步骤一得到的初始化过的数据，对其进行采样。设置p为平均采样中的样本数量。选择p使得样本数量不会超过给定的阈值；

2-2、接下来，计算每个采样样本的各属性值。令表示对连续p个选项平均采样后获得的第i个样本的第j个平均后的标准化加权属性值；

2-3、平均采样会丧失大量的数据统计特征，信息损失为即，将选项的标准化加权数值属性值与样本的平均值相比较，计算平均采样过程中产生的信息损失。

若直接使用平均采样数据计算F_ij绘制堆叠柱状图，结果如图3所示，结果丧失了大量的统计特征，难以观察数据集的极限、均值、变化、统计分布等特征；

2-4、为了最小化采样数据的信息损失，采用基于交换的启发式贪心方法降低采样的信息损失，通过枚举交换策略，逼近信息损失最小的采样顺序。

具体的，方法迭代所有的样本间的成对的数据项，并按2-3的计算方法计算当前的信息损失loss值为oldLoss，交换这对数据项的位置，重新计算当前的信息损失loss值为newLoss。如果oldLoss值小于newLoss值，则将这对数据项位置进行交换。否则，保持这对数据项的位置。迭代至无选项可交换位置则方法结束。获得最小化信息损失后的采样数据；

2-5、根据最小化信息损失后的采样数据，计算F_ij绘制堆叠柱状图，结果如图4所示，经过优化后的结果显著提高了数据显示容量，并且尽可能保留了重要的统计特征。

(3)根据步骤(2)得到的最小化信息损失后的采样数据，对其使用基于交换的启发式贪心方法，最小化采样后堆叠柱状图中多选项数值属性的抖动。目的是平滑堆叠柱状图以提高其可读性，具体步骤如下：

3-1、根据步骤(2)得到的最小化信息损失后的采样数据，采用求导的方式计算数据抖动。

具体的，令表示第i个样本的前k个平均后的选项标准化加权属性值之和。采用基于一阶导数的度量以计算采样后选项属性值的抖动其中，导数G′_ij由相邻样本对应属性值的差得到：G′_i，j＝(G_i+1，j-G_i-1，j)/2；

3-2、为最小化采样数据的抖动，增强可读性。采用基于交换的启发式贪心方法枚举样本的交换策略，逼近数据抖动最小的显示顺序。

具体的，方法迭代所有的两两样本，并按3-1的计算方法计算当前的抖动wwiggles值为oldWwiggles，交换这对数据项的位置，重新计算当前的抖动wwiggles值为newWwiggles。如果oldWwiggles值小于newWwiggles值，则将这对数据项位置进行交换。否则，保持这对数据项的位置。迭代至无选项可交换位置则方法结束。获得增强可读性后的采样数据；

3-3、根据增强可读性后的采样数据，计算F_ij绘制堆叠柱状图，结果如图5所示，经过优化后的结果减少了条纹间的波动，提高了可读性，有利于人们发掘数据中的如极限、均值、变化、统计分布等统计特征。

本实施例方法阐述了将本发明应用于一个多维房屋数据的堆叠柱状图的优化案例，该流程提供了一种把较为混乱的大规模堆叠柱状图转化为清晰显示数据模式的柱状图的途径，具有应用过程简单，适应场景广泛等优点。通过本实施例的方法，大量堆叠条形图的布局、可视化更为清晰，相关用户可以更好地阅读大规模堆叠柱状图，发掘其中的如极限、均值、变化、统计分布等特征，为相关可视化工作打下了坚实的基础。

Claims

1.一种用于在有限空间显示大规模多属性堆叠柱状图的方法，其特征在于，包括以下步骤：

(1)获取数据并对其进行初始化；

(3)根据步骤(2)得到的最小化信息损失后的采样数据，使用基于交换的启发式贪心方法，最小化采样后堆叠柱状图中多选项数值属性的抖动；

2.如权利要求1所述的用于在有限空间显示大规模多属性堆叠柱状图的方法，其特征在于，步骤(1)中，获取数据并对其进行初始化包括进行属性的标准化和加权计算。

3.如权利要求2所述的用于在有限空间显示大规模多属性堆叠柱状图的方法，其特征在于，进行属性的标准化和加权计算的具体步骤如下：

1-1、在数据集中，令数据选项的数量为n，数据指标的数量为m，每项数据包含多个维度的属性：c₁、c₂、…、c_m，将每项数据的属性统一标准化到[0,1]区间；

比较属性值，获取c_{j_max}为第j个指标属性的最大值，设c′_ij为第i个数据项的第j个指标属性值，则第i个选项第j个标准化指标属性值为

令f_ij＝w_jc_ij，表示第i个选项的第j个标准化指标加权数值属性值，其中0≤f_ij,c_ij≤1，则第i个数据项的总分数为

4.如权利要求1所述的用于在有限空间显示大规模多属性堆叠柱状图的方法，其特征在于，步骤(2)中，根据步骤(1)得到的初始化过的数据，对其进行采样并使用基于交换的启发式贪心方法，最小化由平均采样导致的多选项数值属性的信息损失的具体步骤如下：

2-3、平均采样会丧失大量的数据统计特征，信息损失为

5.如权利要求1所述的用于在有限空间显示大规模多属性堆叠柱状图的方法，其特征在于，步骤(3)中，根据步骤(2)得到的最小化信息损失后的采样数据，使用基于交换的启发式贪心方法，最小化采样后堆叠柱状图中多选项数值属性的抖动的具体步骤如下：

6.如权利要求4所述的用于在有限空间显示大规模多属性堆叠柱状图的方法，其特征在于，步骤2-4中，采用基于交换的启发式贪心方法降低采样的信息损失，通过枚举交换策略，逼近信息损失最小的采样顺序的具体过程包括：