CN109271440A - 一种用于在有限空间显示大规模多属性堆叠柱状图的方法 - Google Patents
一种用于在有限空间显示大规模多属性堆叠柱状图的方法 Download PDFInfo
- Publication number
- CN109271440A CN109271440A CN201810950082.4A CN201810950082A CN109271440A CN 109271440 A CN109271440 A CN 109271440A CN 201810950082 A CN201810950082 A CN 201810950082A CN 109271440 A CN109271440 A CN 109271440A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- histogram
- information loss
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明公开了一种用于在有限空间显示大规模多属性堆叠柱状图的方法,包括以下步骤:(1)获取数据并对其进行初始化;(2)根据步骤(1)得到的初始化过的数据,进行采样并使用基于交换的启发式贪心方法,最小化由平均采样导致的多选项数值属性的信息损失;(3)根据步骤(2)得到的最小化信息损失后的采样数据,使用基于交换的启发式贪心方法,最小化采样后堆叠柱状图中多选项数值属性的抖动;(4)根据步骤(3)得到的增强可读性后的采样数据,绘制堆叠柱状图;本发明能够帮助用户更好地感知大规模多属性数据的堆叠柱状图,并发掘和分析可视化中蕴含的数据模式,在大数据可视化和可视分析等相关领域上有着广泛应用的潜力。
Description
技术领域
本发明涉及可视化技术领域,特别涉及一种用于在有限空间显示大规模多属性堆叠柱状图的方法。
背景技术
堆叠柱状图是一种常见的可视化形式。图中每一行表示一个待评估价值的选项。每一行由多个以颜色表示不同数值型属性的柱形堆叠而成,其长度表示对应属性的价值。堆叠柱状图可以形象得展示每个选项包含的每个属性的数据,显示的是单个与整体之间的关系。堆叠柱状图常用于对比不同选项的价值大小、同时对比选项内不同属性的价值大小。相比普通柱状图,堆叠柱状图可以展示数据的更多维度。
然而,堆叠柱状图逐渐难以应对当下海量高维数据的可视化任务。主要原因是由于数据选项的数量以及数据属性的数量的***增长,在有限的显示空间内利用堆叠柱状图呈现海量选项和属性时常常产生视觉的混乱,加大视觉负担。人们难以继续发挥堆叠柱状图的优势,即对比不同选项的价值大小、同时对比选项内不同属性的价值大小。主要困难为:1)由于过度的压缩,每个柱形的边界不可区分;2)相同颜色的柱形(同一数值型属性)在视觉上不连续,产生严重的视觉干扰和混淆。
由此,提出一种用于在有限空间显示大规模多属性堆叠柱状图的方法,主要通过减小信息丢失的平均采样以提高数据显示容量、利用平滑布局减少堆叠柱状图抖动以提高其可读性来解决这两个问题,在显示空间有限的情况下提高堆叠柱状图的显示容量和可读性。相比传统的堆叠柱状图,本发明能够帮助用户更好地感知大规模多属性数据的堆叠柱状图,并发掘和分析可视化中蕴含的数据模式,例如极限、均值、变化、统计分布等特征,从而在大数据可视化和可视分析等相关领域上有着广泛应用的潜力。
发明内容
本发明描述了用于在有限空间显示大规模多属性堆叠柱状图的方法,在显示空间有限的情况下提高堆叠柱状图的显示容量和可读性,以更好帮助人们利用可视化发掘海量选项数据中的隐含模式。
一种用于在有限空间显示大规模多属性堆叠柱状图的方法,包括以下步骤:
(1)获取数据并对其进行初始化;
(2)根据步骤(1)得到的初始化过的数据,进行采样并使用基于交换的启发式贪心方法,最小化由平均采样导致的多选项数值属性的信息损失;
(3)根据步骤(2)得到的最小化信息损失后的采样数据,使用基于交换的启发式贪心方法,最小化采样后堆叠柱状图中多选项数值属性的抖动;目的是平滑堆叠柱状图以提高其可读性。
(4)根据步骤(3)得到的增强可读性后的采样数据,绘制堆叠柱状图。
优选的,步骤(1)中,获取数据并对其进行初始化包括进行属性的标准化和加权计算。
优选的,进行属性的标准化和加权计算的具体步骤如下:
1-1、在数据集中,令数据选项的数量为n,数据指标的数量为m,每项数据包含多个维度的属性:c1、c2、...、cm,将每项数据的属性统一标准化到[0,1]区间;
比较属性值,获取cj-max为第j个指标属性的最大值,设c′ij为第i个数据项的第j个指标属性值,则第i个选项第j个标准化指标属性值为对于某些值越小越好的属性,例如价格,
1-2、将标准化后的数据进行加权,令wj表示第j个指标所占的权重,其中∑wj=1;
令fij=wjcij,表示第i个选项的第j个标准化指标加权数值属性值,其中0≤fij,cij≤1,则第i个数据项的总分数为
为了最小化采样数据的信息损失,优选的,步骤(2)中,根据步骤(1)得到的初始化过的数据,对其进行采样并使用基于交换的启发式贪心方法,最小化由平均采样导致的多选项数值属性的信息损失的具体步骤如下:
2-1、根据步骤(1)得到的初始化过的数据,对其进行采样,设置p为平均采样中的样本数量,选择p使得样本数量不会超过给定的阈值;
2-2、计算每个采样样本的各属性值,令表示对连续p个选项平均采样后获得的第i个样本的第j个平均后的标准化加权属性值;
2-3、平均采样会丧失大量的数据统计特征,信息损失为 即将选项的标准化加权数值属性值与样本的平均值相比较,计算平均采样过程中产生的信息损失;
2-4、采用基于交换的启发式贪心方法降低采样的信息损失,通过枚举交换策略,逼近信息损失最小的采样顺序。
优选的,步骤2-4中,采用基于交换的启发式贪心方法降低采样的信息损失,通过枚举交换策略,逼近信息损失最小的采样顺序的具体过程包括:
2-4-1、迭代所有的样本间的成对的数据项,并按2-3的计算方法计算当前的信息损失loss值为oldLoss,交换这对数据项的位置,重新计算当前的信息损失loss值为newLoss;
2-4-2、如果oldLoss值小于newLoss值,则将这对数据项位置进行交换;
否则,保持这对数据项的位置,迭代至无选项可交换位置则方法结束,获得最小化信息损失后的采样数据。
为最小化采样数据的抖动,增强可读性,优选的,步骤(3)中,根据步骤(2)得到的最小化信息损失后的采样数据,使用基于交换的启发式贪心方法,最小化采样后堆叠柱状图中多选项数值属性的抖动的具体步骤如下:
3-1、根据步骤(2)得到的最小化信息损失后的采样数据,采用求导的方式计算数据抖动;
具体的,令表示第i个样本的前k个平均后的选项标准化加权属性值之和。采用基于一阶导数的度量以计算采样后选项属性值的抖动其中,导数G′ij由相邻样本对应属性值的差得到:G′ij=(Gi+1,j-Gi-1,j)/2;
3-2、采用基于交换的启发式贪心方法枚举样本的交换策略,逼近数据抖动最小的显示顺序。
具体的,方法迭代所有的两两样本,并按3-1的计算方法计算当前的抖动wwiggles值为oldWwiggles,交换这对数据项的位置,重新计算当前的抖动wwiggles值为newWwiggles。如果oldWwiggles值小于newWwiggles值,则将这对数据项位置进行交换。否则,保持这对数据项的位置。迭代至无选项可交换位置则方法结束。获得增强可读性后的采样数据,可用其绘制堆叠柱状图。
本发明通过减小信息丢失的平均采样以提高数据显示容量、利用平滑布局减少堆叠柱状图抖动以提高其可读性来解决这两个问题。
本发明的有益效果:
本发明用于在有限的显示空间中基于堆叠柱状图呈现多选项数值属性,通过减小信息丢失的平均采样提高数据显示容量,并通过平滑堆叠柱状图以提高其可读性,相比传统的堆叠柱状图,本发明能够帮助用户更好地感知大规模多属性数据的堆叠柱状图,并发掘和分析可视化中蕴含的数据模式,例如极限、均值、变化、统计分布等特征,在大数据可视化和可视分析等相关领域上有着广泛应用的潜力。
附图说明
图1是本发明的用于在有限空间显示大规模多属性堆叠柱状图的方法的流程线框图。
图2是现有技术的大规模多属性堆叠柱状图。
图3是直接进行平均采样后的大规模多属性堆叠柱状图。
图4是经过降低信息损失后的大规模多属性堆叠柱状图。
图5是采用本发明方法处理后的大规模多属性堆叠柱状图。
具体实施方式
下面通过一个多维房屋数据的堆叠柱状图的优化案例,结合附图详细描述本发明,本发明的目的和效果将变得更加明显。
如图1所示,本实施例的用于在有限空间显示大规模多属性堆叠柱状图的方法包括以下步骤:
(1)获取海量多维房屋数据并对其进行初始化,包括进行属性的标准化和加权计算,具体步骤如下:
1-1、在数据集中,令n为数据选项的数量,m为数据指标的数量。每项数据包含多个维度的属性,例如:单位面积价格c1、面积c2、建造年份c3、卧室数量c4等,将每项数据的属性统一标准化到[0,1]区间。
具体的,令cj_max为第j个指标属性的最大值,令c′ij为第i个数据项的第j个指标属性值,则第i个选项第j个标准化指标属性值为对于某些值越小越好的属性,例如单位面积价格,
1-2、接下来,将标准化后的数据进行加权。令wj表示第j个指标所占的权重,其中∑wj=1。令fij=wjcij,表示第i个选项的第j个标准化指标加权数值属性值,其中0≤fij,cij≤1。则第i个数据项的总分数为
1-3、若直接用堆叠柱状图对这海量的数据进行可视化,即根据fij绘制堆叠柱状图,如图2所示,会绘制出紧凑的堆叠柱状图。然而,由于过度压缩和垂直不连续,导致了严重的视觉混乱。需要对其进行优化。
(2)根据步骤(1)得到的初始化过的数据,对其进行采样并使用基于交换的启发式贪心方法,最小化由平均采样导致的多选项数值属性的信息损失,具体步骤如下:
2-1、根据步骤一得到的初始化过的数据,对其进行采样。设置p为平均采样中的样本数量。选择p使得样本数量不会超过给定的阈值;
2-2、接下来,计算每个采样样本的各属性值。令表示对连续p个选项平均采样后获得的第i个样本的第j个平均后的标准化加权属性值;
2-3、平均采样会丧失大量的数据统计特征,信息损失为 即,将选项的标准化加权数值属性值与样本的平均值相比较,计算平均采样过程中产生的信息损失。
若直接使用平均采样数据计算Fij绘制堆叠柱状图,结果如图3所示,结果丧失了大量的统计特征,难以观察数据集的极限、均值、变化、统计分布等特征;
2-4、为了最小化采样数据的信息损失,采用基于交换的启发式贪心方法降低采样的信息损失,通过枚举交换策略,逼近信息损失最小的采样顺序。
具体的,方法迭代所有的样本间的成对的数据项,并按2-3的计算方法计算当前的信息损失loss值为oldLoss,交换这对数据项的位置,重新计算当前的信息损失loss值为newLoss。如果oldLoss值小于newLoss值,则将这对数据项位置进行交换。否则,保持这对数据项的位置。迭代至无选项可交换位置则方法结束。获得最小化信息损失后的采样数据;
2-5、根据最小化信息损失后的采样数据,计算Fij绘制堆叠柱状图,结果如图4所示,经过优化后的结果显著提高了数据显示容量,并且尽可能保留了重要的统计特征。
(3)根据步骤(2)得到的最小化信息损失后的采样数据,对其使用基于交换的启发式贪心方法,最小化采样后堆叠柱状图中多选项数值属性的抖动。目的是平滑堆叠柱状图以提高其可读性,具体步骤如下:
3-1、根据步骤(2)得到的最小化信息损失后的采样数据,采用求导的方式计算数据抖动。
具体的,令表示第i个样本的前k个平均后的选项标准化加权属性值之和。采用基于一阶导数的度量以计算采样后选项属性值的抖动其中,导数G′ij由相邻样本对应属性值的差得到:G′i,j=(Gi+1,j-Gi-1,j)/2;
3-2、为最小化采样数据的抖动,增强可读性。采用基于交换的启发式贪心方法枚举样本的交换策略,逼近数据抖动最小的显示顺序。
具体的,方法迭代所有的两两样本,并按3-1的计算方法计算当前的抖动wwiggles值为oldWwiggles,交换这对数据项的位置,重新计算当前的抖动wwiggles值为newWwiggles。如果oldWwiggles值小于newWwiggles值,则将这对数据项位置进行交换。否则,保持这对数据项的位置。迭代至无选项可交换位置则方法结束。获得增强可读性后的采样数据;
3-3、根据增强可读性后的采样数据,计算Fij绘制堆叠柱状图,结果如图5所示,经过优化后的结果减少了条纹间的波动,提高了可读性,有利于人们发掘数据中的如极限、均值、变化、统计分布等统计特征。
(4)根据步骤(3)得到的增强可读性后的采样数据,绘制堆叠柱状图。
本实施例方法阐述了将本发明应用于一个多维房屋数据的堆叠柱状图的优化案例,该流程提供了一种把较为混乱的大规模堆叠柱状图转化为清晰显示数据模式的柱状图的途径,具有应用过程简单,适应场景广泛等优点。通过本实施例的方法,大量堆叠条形图的布局、可视化更为清晰,相关用户可以更好地阅读大规模堆叠柱状图,发掘其中的如极限、均值、变化、统计分布等特征,为相关可视化工作打下了坚实的基础。
Claims (6)
1.一种用于在有限空间显示大规模多属性堆叠柱状图的方法,其特征在于,包括以下步骤:
(1)获取数据并对其进行初始化;
(2)根据步骤(1)得到的初始化过的数据,进行采样并使用基于交换的启发式贪心方法,最小化由平均采样导致的多选项数值属性的信息损失;
(3)根据步骤(2)得到的最小化信息损失后的采样数据,使用基于交换的启发式贪心方法,最小化采样后堆叠柱状图中多选项数值属性的抖动;
(4)根据步骤(3)得到的增强可读性后的采样数据,绘制堆叠柱状图。
2.如权利要求1所述的用于在有限空间显示大规模多属性堆叠柱状图的方法,其特征在于,步骤(1)中,获取数据并对其进行初始化包括进行属性的标准化和加权计算。
3.如权利要求2所述的用于在有限空间显示大规模多属性堆叠柱状图的方法,其特征在于,进行属性的标准化和加权计算的具体步骤如下:
1-1、在数据集中,令数据选项的数量为n,数据指标的数量为m,每项数据包含多个维度的属性:c1、c2、…、cm,将每项数据的属性统一标准化到[0,1]区间;
比较属性值,获取cj_max为第j个指标属性的最大值,设c′ij为第i个数据项的第j个指标属性值,则第i个选项第j个标准化指标属性值为
1-2、将标准化后的数据进行加权,令wj表示第j个指标所占的权重,其中∑wj=1;
令fij=wjcij,表示第i个选项的第j个标准化指标加权数值属性值,其中0≤fij,cij≤1,则第i个数据项的总分数为
4.如权利要求1所述的用于在有限空间显示大规模多属性堆叠柱状图的方法,其特征在于,步骤(2)中,根据步骤(1)得到的初始化过的数据,对其进行采样并使用基于交换的启发式贪心方法,最小化由平均采样导致的多选项数值属性的信息损失的具体步骤如下:
2-1、根据步骤(1)得到的初始化过的数据,对其进行采样,设置p为平均采样中的样本数量,选择p使得样本数量不会超过给定的阈值;
2-2、计算每个采样样本的各属性值,令表示对连续p个选项平均采样后获得的第i个样本的第j个平均后的标准化加权属性值;
2-3、平均采样会丧失大量的数据统计特征,信息损失为
2-4、采用基于交换的启发式贪心方法降低采样的信息损失,通过枚举交换策略,逼近信息损失最小的采样顺序。
5.如权利要求1所述的用于在有限空间显示大规模多属性堆叠柱状图的方法,其特征在于,步骤(3)中,根据步骤(2)得到的最小化信息损失后的采样数据,使用基于交换的启发式贪心方法,最小化采样后堆叠柱状图中多选项数值属性的抖动的具体步骤如下:
3-1、根据步骤(2)得到的最小化信息损失后的采样数据,采用求导的方式计算数据抖动;
3-2、采用基于交换的启发式贪心方法枚举样本的交换策略,逼近数据抖动最小的显示顺序。
6.如权利要求4所述的用于在有限空间显示大规模多属性堆叠柱状图的方法,其特征在于,步骤2-4中,采用基于交换的启发式贪心方法降低采样的信息损失,通过枚举交换策略,逼近信息损失最小的采样顺序的具体过程包括:
2-4-1、迭代所有的样本间的成对的数据项,并按2-3的计算方法计算当前的信息损失loss值为oldLoss,交换这对数据项的位置,重新计算当前的信息损失loss值为newLoss;
2-4-2、如果oldLoss值小于newLoss值,则将这对数据项位置进行交换;
否则,保持这对数据项的位置,迭代至无选项可交换位置则方法结束,获得最小化信息损失后的采样数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810950082.4A CN109271440B (zh) | 2018-08-20 | 2018-08-20 | 一种用于在有限空间显示大规模多属性堆叠柱状图的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810950082.4A CN109271440B (zh) | 2018-08-20 | 2018-08-20 | 一种用于在有限空间显示大规模多属性堆叠柱状图的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271440A true CN109271440A (zh) | 2019-01-25 |
CN109271440B CN109271440B (zh) | 2021-09-10 |
Family
ID=65153960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810950082.4A Active CN109271440B (zh) | 2018-08-20 | 2018-08-20 | 一种用于在有限空间显示大规模多属性堆叠柱状图的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271440B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040223020A1 (en) * | 2002-05-03 | 2004-11-11 | Mccay Jonathan C. | Fault tolerant superpixel constructions |
CN104715003A (zh) * | 2013-12-17 | 2015-06-17 | 国际商业机器公司 | 使用数据传播功能输入数据的方法和*** |
CN105447510A (zh) * | 2015-11-11 | 2016-03-30 | 上海大学 | 基于人工蜂群优化lssvm的脉动风速预测方法 |
CN106327506A (zh) * | 2016-08-05 | 2017-01-11 | 北京三体高创科技有限公司 | 一种基于概率分区合并的三维模型分割方法 |
CN106875320A (zh) * | 2017-02-10 | 2017-06-20 | 武汉理工大学 | 云环境下船舶航行数据的高效可视分析方法 |
CN107241213A (zh) * | 2017-04-28 | 2017-10-10 | 东南大学 | 一种基于深度强化学习的Web服务组合方法 |
CN108062551A (zh) * | 2017-06-28 | 2018-05-22 | 浙江大学 | 一种基于邻接矩阵的图特征提取***、图分类***和方法 |
CN108416377A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 柱状图中的信息提取方法及装置 |
-
2018
- 2018-08-20 CN CN201810950082.4A patent/CN109271440B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040223020A1 (en) * | 2002-05-03 | 2004-11-11 | Mccay Jonathan C. | Fault tolerant superpixel constructions |
CN104715003A (zh) * | 2013-12-17 | 2015-06-17 | 国际商业机器公司 | 使用数据传播功能输入数据的方法和*** |
CN105447510A (zh) * | 2015-11-11 | 2016-03-30 | 上海大学 | 基于人工蜂群优化lssvm的脉动风速预测方法 |
CN106327506A (zh) * | 2016-08-05 | 2017-01-11 | 北京三体高创科技有限公司 | 一种基于概率分区合并的三维模型分割方法 |
CN106875320A (zh) * | 2017-02-10 | 2017-06-20 | 武汉理工大学 | 云环境下船舶航行数据的高效可视分析方法 |
CN107241213A (zh) * | 2017-04-28 | 2017-10-10 | 东南大学 | 一种基于深度强化学习的Web服务组合方法 |
CN108062551A (zh) * | 2017-06-28 | 2018-05-22 | 浙江大学 | 一种基于邻接矩阵的图特征提取***、图分类***和方法 |
CN108416377A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 柱状图中的信息提取方法及装置 |
Non-Patent Citations (2)
Title |
---|
Z GU等: "An adaptive method for triggering, event validation and pulse pile-up recovery in PET", 《2012 IEEE NUCLEAR SCIENCE SYMPOSIUM AND MEDICAL IMAGING CONFERENCE RECORD》 * |
李垚: "电网健康状况监测架构及其故障分析方法的研究与实现", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271440B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334848A (zh) | 一种基于生成对抗网络的微小人脸识别方法 | |
CN109214298B (zh) | 一种基于深度卷积网络的亚洲女性颜值评分模型方法 | |
CN105631416B (zh) | 采用新型密度聚类进行人脸识别的方法 | |
CN106296695A (zh) | 基于显著性的自适应阈值自然目标图像分割抽取算法 | |
CN104050628B (zh) | 图像处理方法和图像处理装置 | |
CN112132197A (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN103903238B (zh) | 图像特征的显著结构和相关结构融合方法 | |
CN113887517B (zh) | 基于并行注意力机制的农作物遥感图像语义分割方法 | |
CN110490913A (zh) | 基于角点与单线段编组的特征描述算子进行影像匹配方法 | |
CN108171241A (zh) | 基于IFCS/Otsu的IOFR火焰识别方法 | |
CN105095867A (zh) | 基于深度学习的快速动态人脸提取、识别方法 | |
CN109829924A (zh) | 一种基于主体特征分析的图像质量评价方法 | |
CN202771514U (zh) | 一种人脸识别门禁考勤*** | |
CN108984481A (zh) | 一种基于卷积神经网络的单应性矩阵估计方法 | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
Junbao et al. | Refined kernel principal component analysis based feature extraction | |
CN105975906A (zh) | 一种基于面积特征的pca静态手势识别方法 | |
CN105740787A (zh) | 基于多核鉴别彩色空间的人脸识别方法 | |
CN111368989A (zh) | 神经网络模型的训练方法、装置、设备及可读存储介质 | |
CN105678208B (zh) | 提取人脸纹理的方法及装置 | |
CN113344837B (zh) | 人脸图像处理方法及装置、计算机可读存储介质、终端 | |
CN109271440A (zh) | 一种用于在有限空间显示大规模多属性堆叠柱状图的方法 | |
CN108038467B (zh) | 一种镜像图与粗细层次结合的稀疏人脸识别方法 | |
CN106770007B (zh) | 一种支持向量机模型的近红外光谱特征波长选择方法 | |
CN109948652A (zh) | 一种基于叶花融合的局部判别cca的植物物种识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |