CN105868352A - 一种基于维度相关性分析的高维数据维度排序方法 - Google Patents

一种基于维度相关性分析的高维数据维度排序方法 Download PDF

Info

Publication number
CN105868352A
CN105868352A CN201610185969.XA CN201610185969A CN105868352A CN 105868352 A CN105868352 A CN 105868352A CN 201610185969 A CN201610185969 A CN 201610185969A CN 105868352 A CN105868352 A CN 105868352A
Authority
CN
China
Prior art keywords
dimension
class
classes
probability
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610185969.XA
Other languages
English (en)
Inventor
刘腾
张怡
李克非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610185969.XA priority Critical patent/CN105868352A/zh
Publication of CN105868352A publication Critical patent/CN105868352A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于维度相关性分析的高维数据维度排序方法,包括:进行维度聚类;计算维度间类和类的对应概率来判断两个维度成强相关还是弱相关,若是两个类之间对应概率较大,则成强相关,反之则成弱相关,然后统计两个维度所有类的对应概率和作为判断两个维度相关性的标准;维度排序。本发明的维度相关性的分析方法是基于聚类的,通过分析类与类之间的对应关系来判断其所属维度的相关性,比起直接计算数据点之间的对应关系要简便很多,很大程度上减少了计算量,而且最终的相关性用数值来表示,可以很直观的看出两个维度的相关性大小。

Description

一种基于维度相关性分析的高维数据维度排序方法
技术领域
本发明属于高维可视分析领域,涉及一种维度相关性的分析方法,并用于维度排序,方便用户分析高维数据。
背景技术
随着信息技术的高速发展,产生了大量的结构繁多、数目巨大的高维数据,这些高维数据加大了我们对于它们的理解难度,给我们带来了巨大的挑战,但同时也给我们带来了许多机遇,让我们从中获取许多有价值的信息,为我们创造更多的财富。而这些信息往往存在于复杂的数据关系中,如果我们能够发现隐藏在高维数据中的那些复杂的数据关系,我们便可以利用它们来做一些预测的工作,为我们创造价值,因此相关性分析在高维数据分析中变得尤为重要。相关性分析主要是分析属性之间的数据元素是否是相关的,如果它们是相关的,是强相关还是弱相关,是正相关还是负相关。在众多的高维可视化方法中,平行坐标(ParallelCoordinates)和散点图(ScatterPlot)可以比较有效的展示维度间的关系,其中散点图(ScatterPlot)可以比较清晰的表现两个维度间的关系,而平行坐标(Parallel Coordinates)可以表现所有维度间的关系,但是维度关系表现不够清晰。由于高维数据维数众多、数目巨大,这两种方法在表现维度间关系时容易产生混乱,不能够很好的帮助我们分析维度间的相关性。于是,为了能够更好地帮助我们分析维度间的关系,产生了许多基于维度相关性分析的维度排序方法,主要是使相邻维度间具有较强的相关性,从排序后的维度序列中我们还可以看出一定的高维数据结构。
发明内容
为了能够更好地帮助人们理解高维数据,发现隐藏在其中的复杂的数据关系,本发明提供一种高维数据维度排序方法,本发明采用相关性分析方法,发现维度间的强弱相关性以及正负相关性,并将这种相关性分析方法用于维度排序,使其相邻的维度间具有较强的相关性,方便用户对其数据作进一步的分析。本发明的技术方案如下:
一种基于维度相关性分析的高维数据维度排序方法,包括下列步骤:
(1)进行维度聚类
使用K-means算法对高维数据集D={d1,d2,d3,...,dm}的每一维度分别聚类;
(2)维度相关性分析
根据上述的聚类结果,计算维度间类和类的对应概率来判断两个维度成强相关还是弱相关,若是两个类之间对应概率较大,则成强相关,反之则成弱相关,然后统计两个维度所有类的对应概率和作为判断两个维度相关性的标准,步骤如下:
①计算类之间的对应概率
对于高维数据集D={d1,d2,d3,...,dm}的任意两个维度di和dj,设维度di被聚成n类,维度dj被聚成m类,计算类之间的对应概率,令di,p为维度di的p类,dj,q为维度dj的q类,统计落在di,p中的数据个数num(i,p)和落在dj,q中的数据个数num(j,q),然后统计共同落在这两个类中的数据个数num,得到这两个类di,p和dj,q的对应概率定义为:
p ( d i , p , d j , q ) = num 2 num ( i , p ) · num ( j , q )
②维度间的相关性分析
计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准,进行维度间的相关性分析;
(3)维度排序
在维度相关性分析的基础上,将维度按照相关性大小进行排序,使得相邻之间的维度有较强的相关性,方法为:首先选择一个维度放在序列的第一个位置,然后找与其最相关的维度放在其后,以此类推,直到所有的维度排列完成。
作为优选实施方式,其特征在于,步骤(1)中,
使用改进了初始聚类中心选取方法的K-means算法对高维数据集D={d1,d2,d3,...,dm}的每一维度分别聚类,对于每一维数据集,设为X={x1,x2,x3,...,xn},其初始聚类中心选取步骤如下:
①利用公式d(xi,xj)=|xi-xj|求出一维数据集X任意两点xi和xj之间的距离,并组成距离矩阵distarrayn×n
②利用公式求出一维数据集X的平均半径;
③利用公式得到所有数据点的密度集,其中f是一个函数,当distarray(i,j)<meanradium时,f=1,否则f=0;
④最后计算每个数据点的簇内相似度
⑤求密度集合density中的最大值相对应的序号,如果这样的值唯一,则取其相对应的数据点为一个聚类中心c,如果这样的值不唯一,则以dens_distaver中最小值为基准,取最小值的对应的那个数据点为一个聚类中心c,并将此初始聚类中心c放入集合C中;
⑥在距离矩阵中去掉那些和聚类中心c相关的且小于meanradium的值,得到新的距离矩阵,并根据新的距离矩阵生成新的平均半径meanradium、密度集density和簇内样本相似度集dens_distaver;
⑦重复步骤⑤-⑥,直到集合C中的数据不再发生变化,则得到k个初始聚类中心,其中k为集合c中数据点的个数。
计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准,进行维度间的相关性分析的步骤可以如下:
a根据上式对应概率的定义求出维度di的第一个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pm1放入集合P中;
b求出维度di的第二个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pm2放入集合P中;
c以此类推,直至求出维度di的第n个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pmn放入集合P中;
d计算集合P中的概率值的和sum(P),即为高维数据集D的维度di和维度dj的相关性。
本发明的维度相关性的分析方法是基于聚类的,通过分析类与类之间的对应关系来判断其所属维度的相关性,比起直接计算数据点之间的对应关系要简便很多,很大程度上减少了计算量,而且最终的相关性用数值来表示,可以很直观的看出两个维度的相关性大小。然后基于相关性将维度重新排序,排序后的维度序列加上维度聚类的效果,更加清晰的展示了相邻维度间的相关性,在一定程度上可以帮助用户发现其中隐藏的一些数据结构。
附图说明
图1为总的流程图;
图2(a)为正相关示例图;
图2(b)为负相关示例图;
图3为所有维度的每一类数据的均值和标准差组成的散点图,且属于同一维度的类用曲线连接;
图4为类和类的对应概率条形图;
图5为维度相关性示例图;
图5(a)为汽车数据集(Car Data Set)中属性”power”的类1和其它属性的类之间的对应概率;
图5(b)为汽车数据集(Car Data Set)中属性”power”的类2和其它属性的类之间的对应概率;
图5(c)为汽车数据集(Car Data Set)中属性”power”的类3和其它属性的类之间的对应概率;
图6(a)属性”power”和属性“weight”组成的散点图;
图6(b)属性”power”和属性“economy”组成的散点图;
图7(a)为汽车数据集(Car Data Set)排序前的维度序列图;
图7(b)为汽车数据集(Car Data Set)排序后的维度序列图。
具体实施方式
本发明是一种基于维度相关性分析的高维可视化方法,提出一种基于维度聚类的维度相关性计算方法,可以直接用数值来表示维度间的相关性,然后利用维度间的相关性将维度重新排序,使得相邻之间的维度具有较强的相关性,有利于我们分析高维数据。
图1为总的流程图,具体包括以下步骤:
1.维度聚类
利用聚类将每一维度数据分成几个小类,我们希望聚类算法可以自动识别聚类数目,且每一类之内数据相似度较大,因此我们选取一种改进的K-means算法,它优化了初始聚类中心,且可以自动给出聚类数目。这里会用到几个公式:
定义一维数据集X={x1,x2,x3,...,xn},
任意两点之间的距离为:
d(xi,xj)=|xi-xj| (1)
其中xi和xj均为数据集X中任意两点,i和j的取值为1~n,n代表数据集X中数据点的个数;
得到距离矩阵:
distarray n × n = 0 d ( x 1 , x 2 ) ... d ( x 1 , x n ) d ( x 2 , x 1 ) 0 ... d ( x 2 , x n ) d ( x 3 , x 1 ) d ( x 3 , x 2 ) 0 ... ... ... ... ... d ( x n , x 1 ) d ( x n , x 2 ) d ( x n , x 3 ) 0 - - - ( 2 )
数据集间的平均半径:
m e a n r a d i u m = Σ i = 1 n Σ j = i n d i s t a r r a y ( i , j ) n × n - - - ( 3 )
其中,distarray(i,j)代表数据点xi和xj之间的距离;
数据点xi的密度值:
d e n s i t y ( i ) = Σ j = 1 n f ( d i s t a r r a y ( i , j ) - m e a n r a d i u m ) - - - ( 4 )
其中,f是一个函数,当distarray(i,j)<meanradium时,f=1,否则f=0;
数据点xi的簇内相似度:
d e n s _ d i s t a v e r ( i ) = Σ j = 1 n d i s t a r r a y ( i , j ) d e n s i t y ( i ) - - - ( 5 )
基于以上公式,对于高维数据集的每一维度,此处设为d,进行如下步骤的聚类操作:
a根据式(1)和式(2)计算维度数据集d的距离矩阵distarrayn×n,根据式(3)得到其平均半径meanradium;
b根据式(4)统计距离矩阵的每一行中小于meanradium的值,得到数据点的密度集合density;
c根据式(5)生成簇内样本相似度集dens_distaver;
d求密度集合density中的最大值相对应的序号,如果这样的值唯一,则取其相对应的数据点为一个聚类中心c,如果这样的值不唯一,则以dens_distaver中最小值为基准,取最小值的对应的那个数据点为一个聚类中心c,并将此初始聚类中心c放入集合C中;
e在距离矩阵中去掉那些和聚类中心c相关的且小于meanradium的值,得到新的距离矩阵,并根据新的距离矩阵生成新的平均半径meanradium、密度集density和簇内样本相似度集dens_distaver;
f重复步骤d-e,直到集合C中的数据不再发生变化,则得到k个初始聚类中心,其中k为集合c中数据点的个数;
g得到k个初始聚类中心之后,再用K-means算法对数据集d进行聚类,最终得到维度d的k个类;
2.维度相关性分析
维度间的相关性主要分为正相关和负相关两种,其中正相关是指维度间的数据一一对应(如图2(a)所示),而负相关是指维度间的数据交叉对应(如图2(b)所示)。在两个维度之间,若对应的数据点数越多则说明其相关性较强,否则相关性较弱,甚至没有相关性。直接统计两个维度间数据点的对应程度是不太容易的,而且对于数据量巨大的高维数据,计算起来是很耗费时间的。于是这里我们通过上述聚类算法将每一个维度的数据聚成几个小类,我们来计算维度间类和类的对应概率来判断两个维度成正相关还是负相关,若是两个类之间一一对应得概率较大,则其成正相关,反之,若是其交叉对应概率较大,则其成负相关,然后统计两个维度所有类的对应概率和作为判断两个维度相关性的标准。具体计算步骤如下:
(1)计算类之间的对应概率
对于高维数据集D={d1,d2,d3,...,dm}的任意两个维度di和dj,设维度di被聚成n类,维度dj被聚成m类,计算类之间的对应概率,令di,p为维度di的p类,dj,q为维度dj的q类,统计落在di,p中的数据个数num(i,p)和落在dj,q中的数据个数num(j,q),然后统计共同落在这两个类中的数据个数num,得到这两个类di,p和dj,q的对应概率定义为:
p ( d i , p , d j , q ) = num 2 num ( i , p ) · num ( j , q ) - - - ( 6 )
为了便于后续操作和直观的统计每一维度的每一类所包含的数据点个数,我们将每一类数据用一个点来表示,这里我们取其均值和标准差并用散点图显示,用标签显示每一类所包含的数据点个数(如图3所示)。类和类之间的对应概率我们用条形图来表示,这样我们便可以直观的看出其相关性大小以及正负相关性。如图4所示,点击属性“displacement”的类1,得到其它属性的所有类与之对应的概率,其中属性“cylinders”的类1与其性关性最大。
(2)计算维度间的相关性
计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准,步骤如下:
a利用式(6)求出维度di的第一个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pm1放入集合P中;
b求出维度di的第二个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pm2放入集合P中;
c以此类推,直至求出维度di的第n个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pmn放入集合P中;
d计算集合P中的概率值的和sum(P),即为维度di和维度dj的相关性。
(3)除此之外,我们还可以使用散点图(scatterplot)来作为相关性分析的辅助方法,因为散点图是展现任意两个维度相关性最好的可视化方法,通过它我们可以直观的看出两个维度是呈正相关或是呈负相关,还是没有相关性。如图6(a)所示,我们可以清楚看出属性“power”和属性“weight”呈正相关,而从图6(b)我们可以看出,属性“power”和属性“economy”呈负相关
实例1:汽车数据集(Car Data Set)是高维数据分析中经常用的一个数据集,它包含7个属性和406条数据,这里我们用它作为一个实例来分析,在这个数据集中,维度间存在着比较清晰的相关性,且有的呈正相关,有的呈负相关。如图5所示,属性“cylinders”和“mph”被聚成了2类,属性“displacement”、“power”、“weight”和“economy”被聚成了3类,属性“year”被聚成了4类,我们给出了属性“power”的三个类和其它属性的所有类的对应概率条形图,其中图5(a)中展示的是“power”的类1和其它属性的类的对应概率,根据表3的算法,我们选取属性间对应概率大的类,p(power1,weight1)=0.58,
p(power1,cylinders1)=0.54,p(power1,displacement1)=0.51,
p(power1,economy3)=0.46,p(power1,mph2)=0.36,p(power1,year3)=0.12;
图5(b)中展示的是“power”的类2和其它属性的类的对应概率,根据表3的算法,我们选取属性间对应概率大的类,p(power2,weight2)=0.46,
p(power2,cylinders2)=0.23,p(power2,displacement2)=0.36,
p(power2,economy2)=0.34,p(power2,mph1)=0.27,p(power2,year2)=0.15;
图5(c)中展示的是“power”的类3和其它属性的类的对应概率,根据表3的算法,我们选取属性间对应概率大的类,p(power3,weight3)=0.72,
p(power3,cylinders2)=0.50,p(power3,displacement3)=0.87,
p(power3,economy1)=0.54,p(power3,mph1)=0.38,p(power3,year1)=0.29;
我们从这些类的对应概率可以看出,属性“power”和属性“weight”、“displacement”的类之间是一一对应的,且对应概率较大,因此我们可以猜测它们呈正相关,且具有较强的相关性,而属性“power”和属性“economy”的类之间是交叉对应的,但对应概率没有太大,因此我们猜测属性“power”和属性“economy”呈负相关,且相关性较弱。属性“power”和其它的几个属性的类之间的对应没有太明显的规律,且对应概率较小,因此我们猜测它们相关性很弱,几乎没有相关性。下面我们具体计算它们的相关性:
corr(power,weight)=p(power1,weight1)+p(power2,weight2)+p(power3,weight3)=0.58+0.46+0.72=1.76
corr(power,cylinders)=p(power1,cylinders1)+p(power2,cylinders2)+p(power3,cylinders2)=0.54+0.23+0.50=1.27
corr(power,displacement)=p(power1,displacement1)+p(power2,displacement2)+p(power3,displacement3)=0.51+0.36+0.87=1.74
corr(power,economy)=p(power1,economy3)+p(power2,economy2)+p(power3,economy1)=0.46+0.34+0.54=1.34
corr(power,mph)=p(power1,mph2)+p(power2,mph1)+p(power3,mph1)=0.36+0.27+0.38=1.01
corr(power,year)=p(power1,year3)+p(power2,year2)+p(power3,year1)=0.12+0.15+0.29=0.56
从上述计算结果我们可以看出,属性“power”和属性“weight”、“displacement”具有很强的相关性,而与属性“mph”、“year”相关性很弱,几乎没有相关性,与属性“economy”、“cylinders”有着较弱的相关性。
3.维度排序
在维度相关性分析的基础上,我们将维度按照相关性大小进行排序,使得相邻之间的维度有较强的相关性。我们首先需要选择一个维度放在序列的第一个位置,然后找与其最相关的维度放在其后,以此类推,直到所有的维度排列完成。
实例2:我们选取高维数据分析中常用的一个数据集——汽车数据集(Car Data Set)作为我们的一个分析实例,在这个数据集中有7个维度和406条数据,且维度间有着较明显的相关关系。图7(a)显示了排序之前的维度序列,图7(b)为按照相关性排序之后的维度序列图,这里我们选择属性“displacement”作为核心维度放在第一个位置,然后依次排序。从图7(b)中我们可以看出,属性“displacement”、“weight”和“power”之间的相关性较强,且呈正相关。而属性“mph”、“cylinders”和“year”之间的相关性很弱,而且类的对应关系比较混乱,因此这三个属性之间几乎不存在相关性。属性“power”、“economy”和“cylinders”之间存在着较弱的负相关性。对比图7(a)和图7(b),我们可以看到排序后的序列图比较清楚的展现了维度间的相关关系,而且其强弱性可以从具体数据值来直观的判断,除此之外,从整个排序后的序列图中我们还可以看到数据的一个明显的趋势。

Claims (3)

1.一种基于维度相关性分析的高维数据维度排序方法,包括下列步骤:
(1)进行维度聚类
使用K-means算法对高维数据集D={d1,d2,d3,...,dm}的每一维度分别聚类;
(2)维度相关性分析
根据上述的聚类结果,计算维度间类和类的对应概率来判断两个维度成强相关还是弱相关,若是两个类之间对应概率较大,则成强相关,反之则成弱相关,然后统计两个维度所有类的对应概率和作为判断两个维度相关性的标准,步骤如下:
①计算类之间的对应概率
对于高维数据集D={d1,d2,d3,...,dm}的任意两个维度di和dj,设维度di被聚成n类,维度dj被聚成m类,计算类之间的对应概率,令di,p为维度di的p类,dj,q为维度dj的q类,统计落在di,p中的数据个数num(i,p)和落在dj,q中的数据个数num(j,q),然后统计共同落在这两个类中的数据个数num,得到这两个类di,p和dj,q的对应概率定义为:
p ( d i , p , d j , q ) = num 2 num ( i , p ) · num ( j , q )
②维度间的相关性分析
计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准,进行维度间的相关性分析;
(3)维度排序
在维度相关性分析的基础上,将维度按照相关性大小进行排序,使得相邻之间的维度有较强的相关性,方法为:首先选择一个维度放在序列的第一个位置,然后找与其最相关的维度放在其后,以此类推,直到所有的维度排列完成。
2.根据权利要求1所述的排序方法,其特征在于,步骤(1)中,
使用改进了初始聚类中心选取方法的K-means算法对高维数据集D={d1,d2,d3,...,dm}的每一维度分别聚类,对于每一维数据集,设为X={x1,x2,x3,...,xn},其初始聚类中心选取步骤如下:
①利用公式d(xi,xj)=|xi-xj|求出一维数据集X任意两点xi和xj之间的距离,并组成距离矩阵distarrayn×n
②利用公式求出一维数据集X的平均半径;
③利用公式得到所有数据点的密度集,其中f是一个函数,当distarray(i,j)<meanradium时,f=1,否则f=0;
④最后计算每个数据点的簇内相似度
⑤求密度集合density中的最大值相对应的序号,如果这样的值唯一,则取其相对应的数据点为一个聚类中心c,如果这样的值不唯一,则以dens_distaver中最小值为基准,取最小值的对应的那个数据点为一个聚类中心c,并将此初始聚类中心c放入集合C中;
⑥在距离矩阵中去掉那些和聚类中心c相关的且小于meanradium的值,得到新的距离矩阵,并根据新的距离矩阵生成新的平均半径meanradium、密度集density和簇内样本相似度集dens_distaver;
⑦重复步骤⑤-⑥,直到集合C中的数据不再发生变化,则得到k个初始聚类中心,其中k为集合c中数据点的个数。
3.根据权利要求1所述的排序方法,其特征在于,计算两个维度间所有类的对应概率和作为两个维度相关性判断的标准,进行维度间的相关性分析的步骤如下:
a根据上式对应概率的定义求出维度di的第一个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pm1放入集合P中;
b求出维度di的第二个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pm2放入集合P中;
c以此类推,直至求出维度di的第n个类和维度dj的所有类的对应概率,并选择其中最大的那个概率pmn放入集合P中;
d计算集合P中的概率值的和sum(P),即为高维数据集D的维度di和维度dj的相关性。
CN201610185969.XA 2016-03-29 2016-03-29 一种基于维度相关性分析的高维数据维度排序方法 Pending CN105868352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610185969.XA CN105868352A (zh) 2016-03-29 2016-03-29 一种基于维度相关性分析的高维数据维度排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610185969.XA CN105868352A (zh) 2016-03-29 2016-03-29 一种基于维度相关性分析的高维数据维度排序方法

Publications (1)

Publication Number Publication Date
CN105868352A true CN105868352A (zh) 2016-08-17

Family

ID=56626281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610185969.XA Pending CN105868352A (zh) 2016-03-29 2016-03-29 一种基于维度相关性分析的高维数据维度排序方法

Country Status (1)

Country Link
CN (1) CN105868352A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368599A (zh) * 2017-07-26 2017-11-21 中南大学 高维数据的可视化分析方法及其分析***
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及***
CN108319569A (zh) * 2018-01-17 2018-07-24 西南交通大学 一种基于维度重排序降低平行坐标可视化视觉杂乱的方法
CN110347930A (zh) * 2019-07-18 2019-10-18 杭州连银科技有限公司 一种基于统计分析方法的高维数据自动加工及处理方法
CN110929804A (zh) * 2019-12-03 2020-03-27 无限极(中国)有限公司 一种栽培品产地识别方法、装置、设备及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368599A (zh) * 2017-07-26 2017-11-21 中南大学 高维数据的可视化分析方法及其分析***
CN107368599B (zh) * 2017-07-26 2020-06-23 中南大学 高维数据的可视化分析方法及其分析***
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及***
CN108021664B (zh) * 2017-12-04 2020-05-05 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及***
CN108319569A (zh) * 2018-01-17 2018-07-24 西南交通大学 一种基于维度重排序降低平行坐标可视化视觉杂乱的方法
CN108319569B (zh) * 2018-01-17 2020-04-03 西南交通大学 一种基于维度重排序降低平行坐标可视化视觉杂乱的方法
CN110347930A (zh) * 2019-07-18 2019-10-18 杭州连银科技有限公司 一种基于统计分析方法的高维数据自动加工及处理方法
CN110929804A (zh) * 2019-12-03 2020-03-27 无限极(中国)有限公司 一种栽培品产地识别方法、装置、设备及介质
CN110929804B (zh) * 2019-12-03 2024-04-09 无限极(中国)有限公司 一种栽培品产地识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN105868352A (zh) 一种基于维度相关性分析的高维数据维度排序方法
Michalski et al. Automated construction of classifications: Conceptual clustering versus numerical taxonomy
Bifet et al. New ensemble methods for evolving data streams
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN101178703B (zh) 基于网络分割的故障诊断谱聚类方法
CN105512768A (zh) 大数据环境下用户用电关联因素辨识及用电量预测方法
CN108846338A (zh) 基于面向对象随机森林的极化特征选择及分类方法
CN109726749A (zh) 一种基于多属性决策的最优聚类算法选择方法和装置
CN105488628A (zh) 一种面向电力大数据可视化的数据挖掘方法
CN107392048B (zh) 一种数据可视化中的差分隐私保护方法及其评价指标
CN113568368A (zh) 一种工控数据特征重排序算法的自适应确定方法
Hilderman et al. Measuring the interestingness of discovered knowledge: A principled approach
CN106055645A (zh) 一种用于高维数据分析的维度重要性评估方法
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法
Patnaik et al. Clustering of categorical data by assigning rank through statistical approach
CN110472659A (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
Mathai et al. An efficient approach for item set mining using both utility and frequency based methods
Chen et al. PurTreeClust: A purchase tree clustering algorithm for large-scale customer transaction data
CN115034839A (zh) 办公区域状态的检测方法、装置和存储介质及电子设备
CN110297977A (zh) 一种面向众筹平台的个性化推荐单目标进化方法
CN111080351A (zh) 一种多维数据集的聚类方法及***
Horzyk et al. ASA-graphs for efficient data representation and processing
Nazareth et al. Visualizing attribute interdependencies using mutual information, hierarchical clustering, multidimensional scaling, and self-organizing maps
CN110033031A (zh) 群组检测方法、装置、计算设备和机器可读存储介质
CN103488997A (zh) 基于各类重要波段提取的高光谱图像波段选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160817

RJ01 Rejection of invention patent application after publication