CN103226595A - 基于贝叶斯混合公共因子分析器的高维数据的聚类方法 - Google Patents

基于贝叶斯混合公共因子分析器的高维数据的聚类方法 Download PDF

Info

Publication number
CN103226595A
CN103226595A CN2013101334151A CN201310133415A CN103226595A CN 103226595 A CN103226595 A CN 103226595A CN 2013101334151 A CN2013101334151 A CN 2013101334151A CN 201310133415 A CN201310133415 A CN 201310133415A CN 103226595 A CN103226595 A CN 103226595A
Authority
CN
China
Prior art keywords
formula
high dimensional
dimensional data
value
bayes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101334151A
Other languages
English (en)
Other versions
CN103226595B (zh
Inventor
魏昕
李宗辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tian Gu Information Technology Co ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201310133415.1A priority Critical patent/CN103226595B/zh
Publication of CN103226595A publication Critical patent/CN103226595A/zh
Application granted granted Critical
Publication of CN103226595B publication Critical patent/CN103226595B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于贝叶斯混合公共因子分析器的高维数据的聚类方法。本发明首先针对待聚类的高维数据建立贝叶斯混合公共因子分析器的模型,接着对该模型中的各个随机变量的后验分布进行推理,并且得到与这些随机变量相关的统计量,最终通过判决得到每个高维数据所属的类别,从而完成聚类过程。本发明建立起的贝叶斯混合公共因子分析器模型具有很强的灵活性,基于贝叶斯准则的推理过程也有效地避免了过拟合问题和维数灾难现象的产生。该方法能够根据高维数据自动调节模型的最优结构,从而自动确定出最优的类别数,从而在降维的同时顺利完成聚类,获得了很好的聚类性能和计算效率。

Description

基于贝叶斯混合公共因子分析器的高维数据的聚类方法
技术领域
本发明涉及一种基于贝叶斯混合公共因子分析器的高维数据的聚类方法,属于高维数据的处理方法与应用技术领域。
 
背景技术
随着采集和存储技术的不断发展,高维和超高维的数据不断涌现。例如,基于内容的图像检索和文档检索中屡见不鲜的上万维人脸图像和几十万维的网页文本、语音与音频信号处理中不可避免出现的高维特征矢量、生物信息学中对生物组织进行聚类分析中的高维基因表达数据,等等。很显然,维数越高(对象的属性越多),可以更加全面地刻画所描述的对象以及更好地分辨对象。然而,当数据样本量不大的时候,过高的维数不可避免地对数据的处理提出了严峻的挑战。“维数灾难”便是一个非常棘手的问题。此外,过高的维数也带来了极高的计算负担,并且使得相关问题难以理解和表示,更不可能实现可视化。因此,如何实现对高维数据准确、高效地分析与处理,已经成为相关技术领域和实际应用中一个极具挑战性的问题。
对于大部分观测或采集到的高维数据而言,其主要信息存在于一个低维空间中。因此,如何在低维空间中有效地刻画高维数据的有用信息,从而设计出相应的降维算法,对于该问题的解决方法不仅有着重要的学术意义,而且具有重大的应用价值。混合因子分析器(MFA)是用以对高维观测数据各个维数分量之间的内部依赖关系进行建模,从而达到对数据进行降维处理的一种统计分析工具,MFA在图像与视频处理、生物信息处理等领域都有着广泛的应用。然而,基于MFA的高维数据处理方法,特别是用于聚类时,仍然存在局限性。首先,在MFA中,由于每个混合成分都具有不同的因子载荷矩阵,模型的总体参数个数较多,并且现有MFA是基于最大似然准则进行模型的推理和参数估计的,因此在高维数据的样本数目不大的时候容易出现过拟合问题;其次,也是最重要的一点,在数据聚类的应用中的大多数情况下,类别的数目预先是未知的,如果设定过高或过低,都会影响最终聚类结果的准确性,并且对于高维数据而言,这个问题将会变得更加困难,如何在降维的同时,根据高维数据自适应地确定出最优的类别数,从而获得较好地聚类性能,是高维数据聚类技术和方法中面临的难题和关键之处。本发明解决了现有技术的缺陷,提出了一种基于贝叶斯混合公共因子分析器的高维数据的聚类方法。
 
 发明内容
本发明提出了一种基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其包括以下步骤:
(1)设待聚类的高维数据集合                                                
Figure 216476DEST_PATH_IMAGE001
,其中为高维数据的个数,每个数据
Figure 573825DEST_PATH_IMAGE003
Figure 693484DEST_PATH_IMAGE004
的维数为
Figure 746891DEST_PATH_IMAGE005
;建立贝叶斯混合公共因子分析器(BMCFA)模型,用该模型来表示的分布;即,BMCFA为一个成分数为的混合模型;对于每一高维数据
Figure 500717DEST_PATH_IMAGE003
,其可以表示为
     以概率
Figure 114418DEST_PATH_IMAGE009
Figure 77564DEST_PATH_IMAGE010
),   (式1)
其中,
Figure 919618DEST_PATH_IMAGE011
为与高维数据相对应并且与成分
Figure 942249DEST_PATH_IMAGE012
相关的低维空间中的因子,它的维数为
Figure 764711DEST_PATH_IMAGE013
Figure 94061DEST_PATH_IMAGE014
), 
Figure 607476DEST_PATH_IMAGE013
的值根据具体问题中
Figure 276354DEST_PATH_IMAGE005
的大小进行选取:遍历之间的所有整数,每个候选的
Figure 899414DEST_PATH_IMAGE013
做一次聚类,取性能最好的那次对应的作为最终的
Figure 487707DEST_PATH_IMAGE013
值;
Figure 963557DEST_PATH_IMAGE016
Figure 205182DEST_PATH_IMAGE017
的因子载荷矩阵;误差变量
Figure 808202DEST_PATH_IMAGE018
服从高斯分布
Figure 999143DEST_PATH_IMAGE019
,其中
Figure 599888DEST_PATH_IMAGE020
Figure 125548DEST_PATH_IMAGE021
的对角矩阵;概率
Figure 469941DEST_PATH_IMAGE009
满足
Figure 16854DEST_PATH_IMAGE022
(2)根据待处理的高维数据,基于贝叶斯准则,对步骤(1)中建立好的贝叶斯混合公共因子分析器(BMCFA)模型进行推理;在完成这一推理过程后,对于每一个高维数据
Figure 788501DEST_PATH_IMAGE003
,可以得到与其相对应的指示变量
Figure 801456DEST_PATH_IMAGE023
的后验期望值,
Figure 683961DEST_PATH_IMAGE024
,其中
Figure 849495DEST_PATH_IMAGE025
表示当前高维数据
Figure 854360DEST_PATH_IMAGE003
是由混合模型中的第
Figure 603879DEST_PATH_IMAGE026
个成分产生的概率;
(3)判决:将
Figure 290075DEST_PATH_IMAGE027
中的最大值所对应的序号作为
Figure 559382DEST_PATH_IMAGE003
所最终分配到的类
Figure 672832DEST_PATH_IMAGE028
,即
Figure 411112DEST_PATH_IMAGE029
 ;      (式2)
用这样的方式得到高维数据集
Figure 635420DEST_PATH_IMAGE006
中所有数据的聚类结果
在所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法中,对步骤(1)中所述的建立贝叶斯混合公共因子分析器(BMCFA)模型的过程中,各变量的条件似然分布、先验分布指定如下:
(1-1)设定一个与
Figure 43584DEST_PATH_IMAGE001
中每个数据一一对应的指示变量集合
Figure 782344DEST_PATH_IMAGE031
,其中与对应的
Figure 54243DEST_PATH_IMAGE023
为一个
Figure 322544DEST_PATH_IMAGE007
维矢量,在该矢量中只有一个元素为1,其余为0;当
Figure 956788DEST_PATH_IMAGE023
的第
Figure 585215DEST_PATH_IMAGE026
个元素
Figure 886883DEST_PATH_IMAGE032
时(此时其他元素都为0),表明是由第个成分产生的;那么,关于混合权值
Figure 534454DEST_PATH_IMAGE034
的条件分布为
Figure 144558DEST_PATH_IMAGE035
           (式3)
(1-2)用均值为
Figure 753394DEST_PATH_IMAGE036
,协方差矩阵为
Figure 661307DEST_PATH_IMAGE037
的高斯分布
Figure 734306DEST_PATH_IMAGE038
来定义的分布;那么,
Figure 112908DEST_PATH_IMAGE011
所属的集合关于
Figure 752016DEST_PATH_IMAGE040
,
Figure 703923DEST_PATH_IMAGE041
,
Figure 287351DEST_PATH_IMAGE042
的条件分布为
Figure 176548DEST_PATH_IMAGE043
;         (式4)
(1-3)根据(式1),高维数据集
Figure 958559DEST_PATH_IMAGE006
关于的条件分布为
Figure 152091DEST_PATH_IMAGE045
;      (式5)
(1-4)因子载荷矩阵的分布设定为其行向量
Figure 107594DEST_PATH_IMAGE047
Figure 588254DEST_PATH_IMAGE048
的乘积,每个行向量
Figure 460789DEST_PATH_IMAGE047
服从高斯分布
Figure 52307DEST_PATH_IMAGE049
,     (式6)
其中,
Figure 808911DEST_PATH_IMAGE050
为一个对角线元素为
Figure 539100DEST_PATH_IMAGE051
的对角矩阵,
Figure 318837DEST_PATH_IMAGE052
服从Gamma分布
Figure 776364DEST_PATH_IMAGE053
,       (式7)
其中
Figure 590736DEST_PATH_IMAGE054
为Gamma分布的超参数;
(1-5)设定
Figure 724783DEST_PATH_IMAGE055
,
Figure 991816DEST_PATH_IMAGE056
的先验分布为Gaussian-Wishart联合分布:
Figure 253033DEST_PATH_IMAGE057
,       (式8)
其中
Figure 734961DEST_PATH_IMAGE058
为Gaussian-Wishart联合分布中的超参数;
(1-6)设定混合权值
Figure 728325DEST_PATH_IMAGE059
的先验分布为Dirichlet分布:
Figure 544971DEST_PATH_IMAGE060
,         (式9)
其中
Figure 281983DEST_PATH_IMAGE061
为上述Dirichlet分布的超参数。
在所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法中,对步骤(2)中所述的对贝叶斯混合公共因子分析器(BMCFA)模型进行推理过程如下:
(2-1)设定
Figure 119883DEST_PATH_IMAGE007
的值,该值根据待聚类的高维数据集
Figure 549727DEST_PATH_IMAGE006
的类别数来确定;如果类别数C在聚类开始之前就已知,则,如果类别数未知,则
Figure 128793DEST_PATH_IMAGE007
设定为之间的任意正整数;
(2-2)随机产生
Figure 920479DEST_PATH_IMAGE002
个服从区间上均匀分布的整数,统计该区间上各整数出现的概率;即,如果产生了
Figure 790532DEST_PATH_IMAGE065
个整数
Figure 371741DEST_PATH_IMAGE066
,那么
Figure 384697DEST_PATH_IMAGE067
;对于每个,对应的隐变量的初始分布和其期望分别为
          (式10)
(2-3)设定超参数
Figure 813218DEST_PATH_IMAGE069
,,
Figure 768722DEST_PATH_IMAGE054
的值和矩阵的值;对于所有的
Figure 110197DEST_PATH_IMAGE026
Figure 334505DEST_PATH_IMAGE010
),,
Figure 742670DEST_PATH_IMAGE072
,
Figure 968246DEST_PATH_IMAGE073
,
Figure 996245DEST_PATH_IMAGE074
,
Figure 240144DEST_PATH_IMAGE075
Figure 429817DEST_PATH_IMAGE076
,
Figure 329640DEST_PATH_IMAGE077
,其中
Figure 207335DEST_PATH_IMAGE078
为小于0.1的任意正数;
Figure 509003DEST_PATH_IMAGE079
为单位矩阵;在首次迭代更新
Figure 931894DEST_PATH_IMAGE080
中,
Figure 319013DEST_PATH_IMAGE081
,
Figure 501864DEST_PATH_IMAGE082
,
Figure 392460DEST_PATH_IMAGE083
;此外,产生
Figure 189515DEST_PATH_IMAGE016
的初始值,即,该矩阵中的每一个元素
Figure 860667DEST_PATH_IMAGE084
Figure 34160DEST_PATH_IMAGE085
)服从标准正态分布
Figure 359355DEST_PATH_IMAGE086
,那么与
Figure 327311DEST_PATH_IMAGE016
有关的统计量的初始值为:
Figure 485760DEST_PATH_IMAGE087
设定推理过程中迭代次数的计数变量
Figure 14459DEST_PATH_IMAGE090
,开始迭代;
(2-4)更新
Figure 597887DEST_PATH_IMAGE080
的后验分布
Figure 909919DEST_PATH_IMAGE091
,即
Figure 895193DEST_PATH_IMAGE092
,         (式11)
其中,超参数
Figure 516536DEST_PATH_IMAGE093
的更新公式为
Figure 587260DEST_PATH_IMAGE094
            (式12)
Figure 702984DEST_PATH_IMAGE095
      (式13)
在(式13)中,
Figure 542764DEST_PATH_IMAGE096
Figure 836473DEST_PATH_IMAGE003
中的第维分量,
Figure 986012DEST_PATH_IMAGE098
为对角矩阵
Figure 742615DEST_PATH_IMAGE020
的逆矩阵中的第
Figure 394176DEST_PATH_IMAGE097
行第
Figure 754007DEST_PATH_IMAGE097
列元素;那么,关于
Figure 149216DEST_PATH_IMAGE011
的统计量随之更新为:
Figure 760326DEST_PATH_IMAGE099
        (式14)
(2-5)更新
Figure 848368DEST_PATH_IMAGE052
的后验分布
Figure 115401DEST_PATH_IMAGE100
,即
Figure 127350DEST_PATH_IMAGE101
                         (式15)
其中,超参数的更新公式为:
Figure 851910DEST_PATH_IMAGE103
,  
Figure 606239DEST_PATH_IMAGE104
,                      (式16)
(式16)中的
Figure 654835DEST_PATH_IMAGE105
为矢量
Figure 178221DEST_PATH_IMAGE106
中的第
Figure 608065DEST_PATH_IMAGE107
个元素;那么关于
Figure 646428DEST_PATH_IMAGE052
的统计量随之更新为
Figure 187131DEST_PATH_IMAGE108
         (式17)
(2-6)更新
Figure 643651DEST_PATH_IMAGE016
的后验分布
Figure 978818DEST_PATH_IMAGE109
,即
Figure 770056DEST_PATH_IMAGE110
              (式18)
其中,超参数
Figure 288018DEST_PATH_IMAGE111
的更新公式为
Figure 785996DEST_PATH_IMAGE112
         (式19)
                (式20)
那么,关于
Figure 570598DEST_PATH_IMAGE047
的统计量随之更新为:
             (式21)
(2-7)更新
Figure 131820DEST_PATH_IMAGE059
的后验分布
Figure 136685DEST_PATH_IMAGE115
,即
Figure 574620DEST_PATH_IMAGE116
                           (式22)
其中,超参数
Figure 995237DEST_PATH_IMAGE117
的更新公式为
Figure 280856DEST_PATH_IMAGE118
,                        (式23)
那么,关于
Figure 128726DEST_PATH_IMAGE009
的统计量随之更新为:
Figure 116274DEST_PATH_IMAGE119
;             (式24)
(式24)中的
Figure 340582DEST_PATH_IMAGE120
为标准的digamma函数;
(2-8)更新
Figure 979243DEST_PATH_IMAGE121
的后验分布,即
Figure 263593DEST_PATH_IMAGE122
       (式25)
其中,超参数
Figure 738437DEST_PATH_IMAGE123
的更新公式为:
,                     (式26)
,        (式27)
Figure 950741DEST_PATH_IMAGE126
,       (式28)
Figure 850564DEST_PATH_IMAGE127
;                       (式29)
那么,关于
Figure 478991DEST_PATH_IMAGE036
,
Figure 515080DEST_PATH_IMAGE128
的统计量随之更新为:
Figure 455748DEST_PATH_IMAGE129
,   (式30)
(式31)
(2-9)更新
Figure 947089DEST_PATH_IMAGE131
的后验分布,即
 ,      (式32)
其中,
   (式33)
Figure 384521DEST_PATH_IMAGE134
      (式34)
(式31)和(式34)中的
Figure 558013DEST_PATH_IMAGE135
都表示矩阵的迹(trace);那么,关于的统计量随之更新为:
Figure 598967DEST_PATH_IMAGE137
                     (式35)
(2-10)更新对角矩阵
Figure 6684DEST_PATH_IMAGE020
,其对角线上的第
Figure 452708DEST_PATH_IMAGE097
个元素
Figure 583476DEST_PATH_IMAGE138
Figure 368078DEST_PATH_IMAGE140
; (式36)
(2-11)计算当前迭代后的似然值
Figure 416116DEST_PATH_IMAGE142
为当前的迭代次数;
Figure 788192DEST_PATH_IMAGE143
        (式37)
(2-12)计算当前迭代后与上一次迭代后的似然值的差值;如果,那么BMCFA模型的推理过程结束,否则转到步骤(2-4),
Figure 66617DEST_PATH_IMAGE142
的值增加1,继续进行下一次的迭代;阈值
Figure 547277DEST_PATH_IMAGE146
的取值范围为
Figure 902035DEST_PATH_IMAGE147
~
Figure 759132DEST_PATH_IMAGE148
;需要注意的是,第一次迭代结束时,只需计算
Figure 266468DEST_PATH_IMAGE141
,并将的值增加1,无需进行的判断,直接进入下一次迭代。
有益效果:
1. 本发明中所采用的贝叶斯混合公共因子分析器具有很强的灵活性,能够根据给定的高维数据自动调节模型的最优结构,从而自动确定出合适的混合成分数目,即,最优的类别数,从而在降维的同时顺利完成聚类,获得了更好的聚类性能。
2. 本发明中所采用的贝叶斯混合公共因子分析器的推理学习过程是基于贝叶斯准则,解决了现有的模型及其学习过程中基于最大似然准则所出现的过拟合高维数据的问题。
3. 本发明中所采用的贝叶斯混合公共因子分析器中所有成分具有公共的因子载荷矩阵,而因子具有混合模型结构,与传统的MFA相比,模型的结构和参数的复杂度都大大降低,从而可以更好地表示和处理高维数据。
附图说明
图1 本发明涉及的基于贝叶斯混合公共因子分析器的高维数据的聚类方法的实现流程图。
图2 采用本发明涉及的BMCFA方法和采用MFA和MCUFSA方法对基因表达数据进行聚类之后的ERR性能比较图。
图3 采用本发明涉及的BMCFA方法和采用MFA和MCUFSA方法对基因表达数据进行聚类之后的ARI性能比较图。
具体实施方式
为了更好地说明本发明涉及的基于贝叶斯混合公共因子分析器(BMCFA)的高维数据的聚类方法,将其应用于生物信息学领域中高维基因表达数据的聚类。待聚类的数据源来自于Yeoh等人提供的经过了预处理的248个组织(tissues)样本,每个样本的维数为50(E. J. Yeoh et al. Classification, subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling, Cancer Cell, vol.1, no.2, pp.133-143, 2002.),即= 248,p = 50,
Figure 420872DEST_PATH_IMAGE149
在该应用中一共有6个类,类名和该类中的样本数为:MLL(20个样本)、T-ALL(43个样本)、Hyperdip(64个样本)、TEL-AML1(79个样本)、E2A-PBX1(27个样本)、BCR-ABL(15个样本)。在聚类之前假设不知道类的个数和具体情况,在聚类完成之后将聚类结果与上述真实结果做比较,从而评估本发明所涉及的方法的准确性和有效性。
采用基于BMCFA的高维数据的聚类方法对该数据进行聚类的过程如下:
第1步:建立BMCFA模型,用该模型来表示
Figure 969665DEST_PATH_IMAGE006
的分布。具体地,BMCFA为一个成分数为
Figure 369291DEST_PATH_IMAGE007
的混合模型,对于每一高维数据
Figure 636324DEST_PATH_IMAGE003
,其可以表示为
     以概率
Figure 372833DEST_PATH_IMAGE010
), (式1)
其中,误差变量服从高斯分布
Figure 864175DEST_PATH_IMAGE019
Figure 449877DEST_PATH_IMAGE020
Figure 614142DEST_PATH_IMAGE021
的对角矩阵。概率
Figure 170281DEST_PATH_IMAGE009
满足
Figure 710984DEST_PATH_IMAGE022
。根据(式1)各变量的条件似然分布或先验分布指定如下:
(1-1)设定一个与
Figure 151193DEST_PATH_IMAGE001
中每个数据一一对应的指示变量集合
Figure 751938DEST_PATH_IMAGE031
,其中与
Figure 215281DEST_PATH_IMAGE003
对应的
Figure 372724DEST_PATH_IMAGE023
为一个维矢量,在该矢量中只有一个元素为1,其余为0,当
Figure 439086DEST_PATH_IMAGE023
的第
Figure 655304DEST_PATH_IMAGE026
个元素
Figure 849393DEST_PATH_IMAGE032
时(此时其他元素都为0),表明
Figure 201877DEST_PATH_IMAGE003
是由第
Figure 878846DEST_PATH_IMAGE026
个成分产生的。那么,关于混合权值
Figure 65294DEST_PATH_IMAGE034
的条件分布为
Figure 85334DEST_PATH_IMAGE035
    (式2)
(1-2)在(式1)中,
Figure 198783DEST_PATH_IMAGE011
为与高维数据
Figure 186331DEST_PATH_IMAGE003
相对应并且与成分相关的低维空间中的因子,它的维数为
Figure 324861DEST_PATH_IMAGE014
), 
Figure 471809DEST_PATH_IMAGE013
的值根据具体问题中
Figure 562124DEST_PATH_IMAGE005
的大小进行选取。这里对同样的数据进行六次聚类,每次聚类中的
Figure 743707DEST_PATH_IMAGE013
分布取3,4,5,6,7,8;用均值为
Figure 12009DEST_PATH_IMAGE036
,协方差矩阵为
Figure 911831DEST_PATH_IMAGE037
的高斯分布
Figure 540259DEST_PATH_IMAGE038
来定义
Figure 576348DEST_PATH_IMAGE011
的先验。那么
Figure 202501DEST_PATH_IMAGE011
所属的集合
Figure 635626DEST_PATH_IMAGE039
关于
Figure 5427DEST_PATH_IMAGE040
,
Figure 223919DEST_PATH_IMAGE041
,
Figure 20974DEST_PATH_IMAGE042
的条件分布为
Figure 442859DEST_PATH_IMAGE043
。   (式3)
(1-3)根据(式1),高维数据集
Figure 350772DEST_PATH_IMAGE006
关于
Figure 361453DEST_PATH_IMAGE044
的条件分布为
Figure 391726DEST_PATH_IMAGE045
。      (式4)
(1-4)
Figure 487858DEST_PATH_IMAGE016
Figure 513976DEST_PATH_IMAGE017
的因子载荷矩阵,
Figure 644743DEST_PATH_IMAGE016
的分布设定为其行向量
Figure 845918DEST_PATH_IMAGE047
Figure 163766DEST_PATH_IMAGE048
的乘积,每个行向量服从高斯分布
,  (式5)
其中,
Figure 787143DEST_PATH_IMAGE050
为一个对角线元素为
Figure 654605DEST_PATH_IMAGE051
的对角矩阵,
Figure 708011DEST_PATH_IMAGE052
服从Gamma分布
Figure 859376DEST_PATH_IMAGE053
,       (式6)
其中
Figure 340036DEST_PATH_IMAGE054
为Gamma分布的超参数。
(1-5)设定
Figure 960373DEST_PATH_IMAGE055
,
Figure 551891DEST_PATH_IMAGE056
的先验分布为Gaussian-Wishart联合分布:
;     (式7)
其中
Figure 976368DEST_PATH_IMAGE058
为Gaussian-Wishart联合分布中的超参数。
(1-6)设定混合权值
Figure 756105DEST_PATH_IMAGE059
的先验分布为Dirichlet分布:
Figure 213631DEST_PATH_IMAGE150
,   (式8)
其中
Figure 28003DEST_PATH_IMAGE061
为上述Dirichlet分布的超参数,
Figure 164980DEST_PATH_IMAGE151
为Gamma函数。
 
第2步:根据待处理的高维数据,基于贝叶斯准则,对步骤(1)中建立好的建立贝叶斯混合公共因子分析器(BMCFA)模型进行推理,具体过程如下:
(2-1)设定的值,该值根据待聚类的高维数据集的类别数来确定,在该实例中,由于聚类之前
Figure 362109DEST_PATH_IMAGE007
的值假设是未知的,因此这里设定
Figure 168522DEST_PATH_IMAGE152
(2-2)随机产生
Figure 922851DEST_PATH_IMAGE002
个服从
Figure 987759DEST_PATH_IMAGE064
区间上均匀分布的整数,统计该区间上各整数出现的概率;即,如果产生了
Figure 511145DEST_PATH_IMAGE065
个整数,那么
Figure 228620DEST_PATH_IMAGE067
;对于每个
Figure 769322DEST_PATH_IMAGE003
,对应的隐变量
Figure 209531DEST_PATH_IMAGE023
的初始分布和其期望分别为
Figure 810277DEST_PATH_IMAGE068
       (式9)
(2-3)设定超参数
Figure 86668DEST_PATH_IMAGE069
,,
Figure 725777DEST_PATH_IMAGE054
的值和矩阵
Figure 497424DEST_PATH_IMAGE020
的值。对于所有的
Figure 448062DEST_PATH_IMAGE012
Figure 645082DEST_PATH_IMAGE010
),
Figure 997566DEST_PATH_IMAGE071
,
Figure 2431DEST_PATH_IMAGE072
,
Figure 440366DEST_PATH_IMAGE073
,
Figure 939611DEST_PATH_IMAGE074
,
Figure 146602DEST_PATH_IMAGE075
Figure 260051DEST_PATH_IMAGE076
,
Figure 247599DEST_PATH_IMAGE077
,其中为小于0.1的任意小数。
Figure 110567DEST_PATH_IMAGE079
为单位矩阵。首次迭代更新
Figure 129339DEST_PATH_IMAGE080
中的
Figure 604183DEST_PATH_IMAGE081
,
Figure 632181DEST_PATH_IMAGE082
,。此外,产生
Figure 82065DEST_PATH_IMAGE016
的初始值,即,该矩阵中的每一个元素
Figure 344737DEST_PATH_IMAGE085
)服从标准正态分布
Figure 646405DEST_PATH_IMAGE086
,那么与
Figure 598791DEST_PATH_IMAGE016
有关的统计量的初始值为:
Figure 720331DEST_PATH_IMAGE087
Figure 152449DEST_PATH_IMAGE088
Figure 308624DEST_PATH_IMAGE153
设定推理过程中迭代次数的计数变量
Figure 105679DEST_PATH_IMAGE090
,开始迭代。
(2-4)更新的后验分布
Figure 435477DEST_PATH_IMAGE091
,即
Figure 508475DEST_PATH_IMAGE092
,  (式10)
其中,超参数
Figure 476431DEST_PATH_IMAGE093
的更新公式为
Figure 884148DEST_PATH_IMAGE094
            (式11)
Figure 595752DEST_PATH_IMAGE095
      (式12)
在(式12)中,
Figure 523257DEST_PATH_IMAGE096
Figure 662114DEST_PATH_IMAGE003
中的第
Figure 245542DEST_PATH_IMAGE097
维分量,
Figure 573886DEST_PATH_IMAGE098
为对角矩阵
Figure 293581DEST_PATH_IMAGE020
的逆矩阵中的第
Figure 665656DEST_PATH_IMAGE097
行第
Figure 736380DEST_PATH_IMAGE097
列元素。那么,关于
Figure 104301DEST_PATH_IMAGE011
的统计量随之更新为:
      (式13)
(2-5)更新
Figure 424741DEST_PATH_IMAGE052
的后验分布
Figure 45078DEST_PATH_IMAGE100
,即
Figure 636597DEST_PATH_IMAGE101
                        (式14)
其中,超参数的更新公式为:
Figure 61073DEST_PATH_IMAGE103
,  
Figure 903127DEST_PATH_IMAGE104
,                      (式15)
(式15)中的为矢量
Figure 424293DEST_PATH_IMAGE106
中的第个元素。那么关于
Figure 513789DEST_PATH_IMAGE052
的统计量随之更新为
Figure 775006DEST_PATH_IMAGE108
         (式16)
(2-6)更新的后验分布
Figure 250298DEST_PATH_IMAGE109
,即
Figure 4627DEST_PATH_IMAGE110
         (式17)
其中,超参数
Figure 803956DEST_PATH_IMAGE111
的更新公式为
Figure 327341DEST_PATH_IMAGE112
  (式18)
Figure 757185DEST_PATH_IMAGE113
          (式19)
那么,关于
Figure 313325DEST_PATH_IMAGE047
的统计量随之更新为:
Figure 588449DEST_PATH_IMAGE114
             (式20)
(2-7)更新
Figure 294236DEST_PATH_IMAGE059
的后验分布
Figure 629403DEST_PATH_IMAGE115
,即
Figure 171374DEST_PATH_IMAGE116
                           (式21)
其中,超参数
Figure 250188DEST_PATH_IMAGE117
的更新公式为
Figure 810482DEST_PATH_IMAGE118
,                        (式22)
那么,关于
Figure 582129DEST_PATH_IMAGE009
的统计量随之更新为:
Figure 844352DEST_PATH_IMAGE119
;             (式23)
(式23)中的
Figure 726858DEST_PATH_IMAGE120
为标准的digamma函数。
(2-8)更新
Figure 79342DEST_PATH_IMAGE121
的后验分布,即
Figure 84207DEST_PATH_IMAGE122
       (式24)
其中,超参数
Figure 522141DEST_PATH_IMAGE123
的更新公式为:
,                     (式25)
Figure 228377DEST_PATH_IMAGE125
,        (式26)
Figure 404144DEST_PATH_IMAGE126
,       (式27)
;                       (式28)
那么,关于
Figure 553682DEST_PATH_IMAGE036
,
Figure 929693DEST_PATH_IMAGE128
的统计量随之更新为:
Figure 214044DEST_PATH_IMAGE129
,   (式29)
(式30)
(2-9)更新
Figure 716887DEST_PATH_IMAGE131
的后验分布,即
Figure 711519DEST_PATH_IMAGE132
 ,      (式31)
其中,
Figure 901192DEST_PATH_IMAGE133
   (式32)
Figure 863331DEST_PATH_IMAGE134
      (式33)
(式30)和(式33)中的
Figure 429442DEST_PATH_IMAGE135
都表示矩阵的迹(trace)。那么,关于
Figure 731110DEST_PATH_IMAGE136
的统计量随之更新为:
                     (式34)
(2-10)更新对角矩阵
Figure 790388DEST_PATH_IMAGE020
,其对角线上的第个元素
Figure 723206DEST_PATH_IMAGE155
Figure 394359DEST_PATH_IMAGE140
; (式35)
(2-11)计算当前迭代后的似然值
Figure 567851DEST_PATH_IMAGE141
Figure 578532DEST_PATH_IMAGE142
为当前的迭代次数;
        (式36)
(2-12)计算当前迭代后与上一次迭代后的似然值的差值
Figure 945416DEST_PATH_IMAGE144
;如果,那么BMCFA模型的推理过程结束,否则转到步骤(2-4),
Figure 584525DEST_PATH_IMAGE142
的值增加1,继续进行下一次的迭代;阈值
Figure 536431DEST_PATH_IMAGE146
Figure 119859DEST_PATH_IMAGE147
。需要注意的是,第一次迭代结束时,只需计算
Figure 431892DEST_PATH_IMAGE141
,并将
Figure 417165DEST_PATH_IMAGE142
的值增加1,无需进行
Figure 726924DEST_PATH_IMAGE145
的判断,直接进入下一次迭代。
第3步:判决。将与每个高维数据
Figure 109233DEST_PATH_IMAGE003
相关的
Figure 162639DEST_PATH_IMAGE027
中的最大值所对应的序号作为
Figure 64736DEST_PATH_IMAGE003
所最终分配到的类,即
Figure 713203DEST_PATH_IMAGE029
 。                    (式37)
用这样的方式得到高维数据集
Figure 884815DEST_PATH_IMAGE006
的聚类结果
Figure 579102DEST_PATH_IMAGE030
性能评价:
采用本发明所涉及聚类方法所得到的结果
Figure 230663DEST_PATH_IMAGE030
和正确的类属结果进行比较,从而可以评价和衡量出本发明所涉及的方法的有效性和准确性。这里采用两个评价指标——衡量聚类错误率的error rate(ERR)指标和衡量聚类纯度的adjusted rand index(ARI)指标。ERR和ARR的取值范围都在0~1之间,对于ERR,值越小,表明采用该方法聚类的性能越好,而对于ARI,值越大,采用该方法聚类的性能越好。图2为采用了本发明所涉及的BMCFA方法以及另外两种方法——MFA和Mixtures of common uncorrelated factors with spherical-error analyzers(MCUFSA)对该高维基因表达数据进行聚类后的ERR性能。图3为采用了本发明所涉及的BMCFA方法以及MFA和MCUFSA对该高维基因表达数据进行聚类后的ARI性能。首先,对于MFA和MCUFSA,需要采用模型选择准则(如Bayesian Information Criterion)来确定最优的类别数I,而BMCFA无需模型选择准则,因此大大降低了聚类过程的计算效率和运算时间。如果聚类结束之后自动确定或是采用模型选择准则得到的类别数与6不相等,则ERR无法计算,在图2中其结果标记为“NA”。其次,可以看到,在= 6~8的时候,BMCFA不仅可以获得正确的类别数,而且在三种方法中ERR最小, ARI最大,因此基于BMCFA的聚类方法可以获得最优的聚类性能,从而可以准确而有效地处理高维数据。

Claims (3)

1.基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,包括以下步骤:
(1)设待聚类的高维数据集合                                                ,其中
Figure 227299DEST_PATH_IMAGE002
为高维数据的个数,每个数据
Figure 794678DEST_PATH_IMAGE003
Figure 797269DEST_PATH_IMAGE004
的维数为
Figure 382971DEST_PATH_IMAGE005
;建立贝叶斯混合公共因子分析器(BMCFA)模型,用该模型来表示的分布;即,BMCFA为一个成分数为
Figure 115094DEST_PATH_IMAGE007
的混合模型;对于每一高维数据
Figure 718114DEST_PATH_IMAGE003
,其可以表示为
Figure 96006DEST_PATH_IMAGE008
     以概率
Figure 35460DEST_PATH_IMAGE010
),   (式1)
其中,
Figure 379853DEST_PATH_IMAGE011
为与高维数据
Figure 923836DEST_PATH_IMAGE003
相对应并且与成分
Figure 695483DEST_PATH_IMAGE012
相关的低维空间中的因子,它的维数为
Figure 590944DEST_PATH_IMAGE014
), 
Figure 756477DEST_PATH_IMAGE013
的值根据具体问题中
Figure 761342DEST_PATH_IMAGE005
的大小进行选取:遍历之间的所有整数,每个候选的
Figure 199987DEST_PATH_IMAGE013
做一次聚类,取性能最好的那次对应的
Figure 469294DEST_PATH_IMAGE013
作为最终的值;
Figure 321024DEST_PATH_IMAGE016
的因子载荷矩阵;误差变量
Figure 308626DEST_PATH_IMAGE018
服从高斯分布
Figure 327398DEST_PATH_IMAGE019
,其中
Figure 552974DEST_PATH_IMAGE020
Figure 580973DEST_PATH_IMAGE021
的对角矩阵;概率满足
Figure 280125DEST_PATH_IMAGE022
(2)根据待处理的高维数据,基于贝叶斯准则,对步骤(1)中建立好的贝叶斯混合公共因子分析器(BMCFA)模型进行推理;在完成这一推理过程后,对于每一个高维数据
Figure 228882DEST_PATH_IMAGE003
,可以得到与其相对应的指示变量
Figure 794993DEST_PATH_IMAGE023
的后验期望值,,其中
Figure 785132DEST_PATH_IMAGE025
表示当前高维数据是由混合模型中的第
Figure 89522DEST_PATH_IMAGE012
个成分产生的概率;
(3)判决:将
Figure 308014DEST_PATH_IMAGE026
中的最大值所对应的序号作为
Figure 105069DEST_PATH_IMAGE003
所最终分配到的类
Figure 713904DEST_PATH_IMAGE027
,即
Figure 933402DEST_PATH_IMAGE028
 ;      (式2)
用这样的方式得到高维数据集
Figure 944083DEST_PATH_IMAGE006
中所有数据的聚类结果
Figure 974356DEST_PATH_IMAGE029
2.根据权利要求1所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,步骤(1)中所述的建立贝叶斯混合公共因子分析器(BMCFA)模型的过程中,各变量的条件似然分布、先验分布的步骤如下:
(1-1)设定一个与
Figure 883538DEST_PATH_IMAGE001
中每个数据一一对应的指示变量集合
Figure 595142DEST_PATH_IMAGE030
,其中与
Figure 460329DEST_PATH_IMAGE003
对应的
Figure 661504DEST_PATH_IMAGE023
为一个
Figure 244932DEST_PATH_IMAGE007
维矢量,在该矢量中只有一个元素为1,其余为0;当的第
Figure 794435DEST_PATH_IMAGE012
个元素
Figure 166511DEST_PATH_IMAGE031
时(此时其他元素都为0),表明
Figure 237235DEST_PATH_IMAGE003
是由第
Figure 290642DEST_PATH_IMAGE012
个成分产生的;那么,
Figure 943471DEST_PATH_IMAGE032
关于混合权值
Figure 424131DEST_PATH_IMAGE033
的条件分布为
Figure 44468DEST_PATH_IMAGE034
           (式3)
(1-2)用均值为,协方差矩阵为
Figure 641857DEST_PATH_IMAGE036
的高斯分布
Figure 558998DEST_PATH_IMAGE037
来定义
Figure 338735DEST_PATH_IMAGE011
的分布;那么,所属的集合
Figure 610633DEST_PATH_IMAGE038
关于
Figure 246145DEST_PATH_IMAGE039
,
Figure 513178DEST_PATH_IMAGE040
,
Figure 774395DEST_PATH_IMAGE041
的条件分布为
Figure 443274DEST_PATH_IMAGE042
;         (式4)
(1-3)根据(式1),高维数据集
Figure 739433DEST_PATH_IMAGE006
关于
Figure 493763DEST_PATH_IMAGE043
的条件分布为
Figure 230775DEST_PATH_IMAGE044
;      (式5)
(1-4)因子载荷矩阵
Figure 816477DEST_PATH_IMAGE045
的分布设定为其行向量
Figure 246321DEST_PATH_IMAGE046
Figure 300996DEST_PATH_IMAGE047
的分布的乘积,每个行向量
Figure 576119DEST_PATH_IMAGE046
服从高斯分布
Figure 281907DEST_PATH_IMAGE048
,     (式6)
其中,
Figure 617074DEST_PATH_IMAGE049
为一个对角线元素为
Figure 345995DEST_PATH_IMAGE050
的对角矩阵,
Figure 736394DEST_PATH_IMAGE051
服从Gamma分布
,       (式7)
其中为Gamma分布的超参数;
(1-5)设定
Figure 18974DEST_PATH_IMAGE054
,
Figure 714529DEST_PATH_IMAGE055
的先验分布为Gaussian-Wishart联合分布:
Figure 67012DEST_PATH_IMAGE056
,       (式8)
其中
Figure 71878DEST_PATH_IMAGE057
为Gaussian-Wishart联合分布中的超参数;
(1-6)设定混合权值
Figure 509812DEST_PATH_IMAGE058
的先验分布为Dirichlet分布:
Figure 930429DEST_PATH_IMAGE059
,         (式9)
其中
Figure 717513DEST_PATH_IMAGE060
为上述Dirichlet分布的超参数。
3.根据权利要求1所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,步骤(2)中所述的对贝叶斯混合公共因子分析器(BMCFA)模型进行推理过程的步骤如下:
(2-1)设定
Figure 830963DEST_PATH_IMAGE007
的值,该值根据待聚类的高维数据集
Figure 818510DEST_PATH_IMAGE006
的类别数来确定;如果类别数C在聚类开始之前就已知,则
Figure 42818DEST_PATH_IMAGE061
,如果类别数未知,则
Figure 917364DEST_PATH_IMAGE007
设定为之间的任意正整数;
(2-2)随机产生
Figure 614242DEST_PATH_IMAGE002
个服从
Figure 704558DEST_PATH_IMAGE063
区间上均匀分布的整数,统计该区间上各整数出现的概率;即,如果产生了个整数
Figure 287221DEST_PATH_IMAGE065
,那么
Figure 915648DEST_PATH_IMAGE066
;对于每个
Figure 217316DEST_PATH_IMAGE003
,对应的隐变量
Figure 577891DEST_PATH_IMAGE023
的初始分布和其期望分别为
Figure 778059DEST_PATH_IMAGE067
          (式10)
(2-3)设定超参数
Figure 147860DEST_PATH_IMAGE068
,
Figure 100773DEST_PATH_IMAGE069
,
Figure 897828DEST_PATH_IMAGE053
的值和矩阵
Figure 821178DEST_PATH_IMAGE020
的值;对于所有的
Figure 994670DEST_PATH_IMAGE012
Figure 67668DEST_PATH_IMAGE010
),
Figure 35624DEST_PATH_IMAGE070
,
Figure 944805DEST_PATH_IMAGE071
,
Figure 656410DEST_PATH_IMAGE072
,
Figure 521597DEST_PATH_IMAGE073
,
Figure 722772DEST_PATH_IMAGE074
Figure 306200DEST_PATH_IMAGE075
,
Figure 867500DEST_PATH_IMAGE076
,其中
Figure 852773DEST_PATH_IMAGE077
为小于0.1的任意正数;
Figure 224849DEST_PATH_IMAGE078
为单位矩阵;在首次迭代更新中,
Figure 348980DEST_PATH_IMAGE080
,
Figure 1809DEST_PATH_IMAGE081
,
Figure 482469DEST_PATH_IMAGE082
;此外,产生
Figure 837227DEST_PATH_IMAGE016
的初始值,即,该矩阵中的每一个元素
Figure 694324DEST_PATH_IMAGE083
Figure 703125DEST_PATH_IMAGE084
)服从标准正态分布
Figure 354686DEST_PATH_IMAGE085
,那么与
Figure 400003DEST_PATH_IMAGE016
有关的统计量的初始值为:
Figure 857529DEST_PATH_IMAGE086
Figure 406322DEST_PATH_IMAGE087
Figure 307413DEST_PATH_IMAGE088
设定推理过程中迭代次数的计数变量,开始迭代;
(2-4)更新
Figure 835663DEST_PATH_IMAGE079
的后验分布,即
Figure 497906DEST_PATH_IMAGE091
,         (式11)
其中,超参数
Figure 563820DEST_PATH_IMAGE092
的更新公式为
Figure 300832DEST_PATH_IMAGE093
            (式12)
      (式13)
在(式13)中,
Figure 316378DEST_PATH_IMAGE095
Figure 105474DEST_PATH_IMAGE003
中的第
Figure 646176DEST_PATH_IMAGE096
维分量,
Figure 289647DEST_PATH_IMAGE097
为对角矩阵
Figure 687131DEST_PATH_IMAGE020
的逆矩阵中的第
Figure 416052DEST_PATH_IMAGE096
行第
Figure 821100DEST_PATH_IMAGE096
列元素;那么,关于
Figure 319077DEST_PATH_IMAGE011
的统计量随之更新为:
        (式14)
(2-5)更新
Figure 103679DEST_PATH_IMAGE051
的后验分布
Figure 986185DEST_PATH_IMAGE099
,即
Figure 151718DEST_PATH_IMAGE100
                         (式15)
其中,超参数
Figure 94266DEST_PATH_IMAGE101
的更新公式为:
Figure 594518DEST_PATH_IMAGE102
,  
Figure 15135DEST_PATH_IMAGE103
,                      (式16)
(式16)中的为矢量
Figure 647159DEST_PATH_IMAGE105
中的第个元素;那么关于
Figure 859015DEST_PATH_IMAGE051
的统计量随之更新为
Figure 186091DEST_PATH_IMAGE107
         (式17)
(2-6)更新
Figure 283491DEST_PATH_IMAGE016
的后验分布,即
Figure 835268DEST_PATH_IMAGE109
              (式18)
其中,超参数
Figure 79168DEST_PATH_IMAGE110
的更新公式为
Figure 534420DEST_PATH_IMAGE111
         (式19)
Figure 247292DEST_PATH_IMAGE112
                (式20)
那么,关于
Figure 813403DEST_PATH_IMAGE046
的统计量随之更新为:
             (式21)
(2-7)更新
Figure 537962DEST_PATH_IMAGE058
的后验分布,即
                           (式22)
其中,超参数
Figure 497063DEST_PATH_IMAGE116
的更新公式为
Figure 356434DEST_PATH_IMAGE117
,                        (式23)
那么,关于的统计量随之更新为:
Figure 951812DEST_PATH_IMAGE118
;             (式24)
(式24)中的
Figure 962493DEST_PATH_IMAGE119
为标准的digamma函数;
(2-8)更新的后验分布,即
Figure 88898DEST_PATH_IMAGE121
       (式25)
其中,超参数
Figure 534923DEST_PATH_IMAGE122
的更新公式为:
Figure 980204DEST_PATH_IMAGE123
,                     (式26)
,        (式27)
Figure 764806DEST_PATH_IMAGE125
,       (式28)
;                       (式29)
那么,关于
Figure 999796DEST_PATH_IMAGE035
,
Figure 122604DEST_PATH_IMAGE127
的统计量随之更新为:
,   (式30)
Figure 309051DEST_PATH_IMAGE129
(式31)
(2-9)更新
Figure 148831DEST_PATH_IMAGE130
的后验分布,即
Figure 941076DEST_PATH_IMAGE131
 ,      (式32)
其中,
   (式33)
      (式34)
(式31)和(式34)中的
Figure 847218DEST_PATH_IMAGE134
都表示矩阵的迹(trace);那么,关于
Figure 498779DEST_PATH_IMAGE135
的统计量随之更新为:
Figure 357145DEST_PATH_IMAGE136
                     (式35)
(2-10)更新对角矩阵
Figure 752354DEST_PATH_IMAGE020
,其对角线上的第
Figure 363464DEST_PATH_IMAGE096
个元素
Figure 451506DEST_PATH_IMAGE137
Figure 33053DEST_PATH_IMAGE138
Figure 966374DEST_PATH_IMAGE139
; (式36)
(2-11)计算当前迭代后的似然值
Figure 697570DEST_PATH_IMAGE140
Figure 956513DEST_PATH_IMAGE141
为当前的迭代次数;
Figure 445263DEST_PATH_IMAGE142
        (式37)
(2-12)计算当前迭代后与上一次迭代后的似然值的差值
Figure 260903DEST_PATH_IMAGE143
;如果
Figure 784288DEST_PATH_IMAGE144
,那么BMCFA模型的推理过程结束,否则转到步骤(2-4),
Figure 10870DEST_PATH_IMAGE141
的值增加1,继续进行下一次的迭代;阈值
Figure 252496DEST_PATH_IMAGE145
的取值范围为
Figure 104783DEST_PATH_IMAGE146
~
Figure 482675DEST_PATH_IMAGE147
;需要注意的是,第一次迭代结束时,只需计算,并将
Figure 609080DEST_PATH_IMAGE141
的值增加1,无需进行
Figure 953473DEST_PATH_IMAGE144
的判断,直接进入下一次迭代。
CN201310133415.1A 2013-04-17 2013-04-17 基于贝叶斯混合公共因子分析器的高维数据的聚类方法 Expired - Fee Related CN103226595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310133415.1A CN103226595B (zh) 2013-04-17 2013-04-17 基于贝叶斯混合公共因子分析器的高维数据的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310133415.1A CN103226595B (zh) 2013-04-17 2013-04-17 基于贝叶斯混合公共因子分析器的高维数据的聚类方法

Publications (2)

Publication Number Publication Date
CN103226595A true CN103226595A (zh) 2013-07-31
CN103226595B CN103226595B (zh) 2016-06-15

Family

ID=48837040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310133415.1A Expired - Fee Related CN103226595B (zh) 2013-04-17 2013-04-17 基于贝叶斯混合公共因子分析器的高维数据的聚类方法

Country Status (1)

Country Link
CN (1) CN103226595B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455842A (zh) * 2013-09-04 2013-12-18 福州大学 贝叶斯算法和MapReduce相结合的信任度量方法
CN104994170A (zh) * 2015-07-15 2015-10-21 南京邮电大学 传感器网络中基于混合因子分析模型的分布式聚类方法
CN105320727A (zh) * 2014-06-16 2016-02-10 三菱电机株式会社 用于检测实时序列中的异常的方法
CN106776641A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种数据处理方法及装置
CN107292323A (zh) * 2016-03-31 2017-10-24 日本电气株式会社 用于训练混合模型的方法和设备
CN109951327A (zh) * 2019-03-05 2019-06-28 南京信息职业技术学院 一种基于贝叶斯混合模型的网络故障数据合成方法
CN111612102A (zh) * 2020-06-05 2020-09-01 华侨大学 基于局部特征选择的卫星影像数据聚类方法、装置及设备
CN111612101A (zh) * 2020-06-04 2020-09-01 华侨大学 非参数Waston混合模型的基因表达数据聚类方法、装置及设备
CN114462548B (zh) * 2022-02-23 2023-07-18 曲阜师范大学 一种提高单细胞深度聚类算法精度的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411610A (zh) * 2011-10-12 2012-04-11 浙江大学 一种用于高维数据聚类的半监督降维方法
US8363961B1 (en) * 2008-10-14 2013-01-29 Adobe Systems Incorporated Clustering techniques for large, high-dimensionality data sets

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363961B1 (en) * 2008-10-14 2013-01-29 Adobe Systems Incorporated Clustering techniques for large, high-dimensionality data sets
CN102411610A (zh) * 2011-10-12 2012-04-11 浙江大学 一种用于高维数据聚类的半监督降维方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J.BAEK: "Mixtures of Factor Analyzers with Common Factor Loadings:Applications to the Clustering and Visualization of High-Dimensional Data", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
XIN WEI: "Bayesian mixtures of common factor analyzers: Model, variational interface, and applications", 《SIGNAL PROCESSING》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455842B (zh) * 2013-09-04 2015-06-03 福州大学 贝叶斯算法和MapReduce相结合的信任度量方法
CN103455842A (zh) * 2013-09-04 2013-12-18 福州大学 贝叶斯算法和MapReduce相结合的信任度量方法
CN105320727A (zh) * 2014-06-16 2016-02-10 三菱电机株式会社 用于检测实时序列中的异常的方法
CN105320727B (zh) * 2014-06-16 2020-03-17 三菱电机株式会社 用于检测实时序列中的异常的方法
CN104994170B (zh) * 2015-07-15 2018-06-05 南京邮电大学 传感器网络中基于混合因子分析模型的分布式聚类方法
CN104994170A (zh) * 2015-07-15 2015-10-21 南京邮电大学 传感器网络中基于混合因子分析模型的分布式聚类方法
CN106776641A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种数据处理方法及装置
CN106776641B (zh) * 2015-11-24 2020-09-08 华为技术有限公司 一种数据处理方法及装置
CN107292323A (zh) * 2016-03-31 2017-10-24 日本电气株式会社 用于训练混合模型的方法和设备
CN107292323B (zh) * 2016-03-31 2023-09-19 日本电气株式会社 用于训练混合模型的方法和设备
CN109951327A (zh) * 2019-03-05 2019-06-28 南京信息职业技术学院 一种基于贝叶斯混合模型的网络故障数据合成方法
CN111612101A (zh) * 2020-06-04 2020-09-01 华侨大学 非参数Waston混合模型的基因表达数据聚类方法、装置及设备
CN111612101B (zh) * 2020-06-04 2023-02-07 华侨大学 非参数Waston混合模型的基因表达数据聚类方法、装置及设备
CN111612102A (zh) * 2020-06-05 2020-09-01 华侨大学 基于局部特征选择的卫星影像数据聚类方法、装置及设备
CN111612102B (zh) * 2020-06-05 2023-02-07 华侨大学 基于局部特征选择的卫星影像数据聚类方法、装置及设备
CN114462548B (zh) * 2022-02-23 2023-07-18 曲阜师范大学 一种提高单细胞深度聚类算法精度的方法

Also Published As

Publication number Publication date
CN103226595B (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN103226595A (zh) 基于贝叶斯混合公共因子分析器的高维数据的聚类方法
Li et al. A method of two-stage clustering learning based on improved DBSCAN and density peak algorithm
Vrbik et al. Parsimonious skew mixture models for model-based clustering and classification
Raman et al. The Bayesian group-lasso for analyzing contingency tables
Seo et al. Root selection in normal mixture models
Gao et al. James–Stein shrinkage to improve k-means cluster analysis
CN107203785A (zh) 多路径高斯核模糊c均值聚类算法
CN107679368A (zh) 基于遗传算法和变精度粗糙集的pet/ct高维特征级选择方法
CN111222847A (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN105447844A (zh) 一种复杂多变量数据的特征选择新方法
CN104881651B (zh) 一种基于随机投影和Fisher向量的人物行为识别方法
Zhang et al. Ascnet: Adaptive-scale convolutional neural networks for multi-scale feature learning
Liu et al. Improve temporal action proposals using hierarchical context
Jin et al. Inter-and intra-uncertainty based feature aggregation model for semi-supervised histopathology image segmentation
CN106951918B (zh) 一种用于冷冻电镜分析的单颗粒图像聚类方法
Yin et al. A two-stage variable selection strategy for supersaturated designs with multiple responses
CN111898666A (zh) 一种随机森林算法结合模群种群的数据变量选择方法
Athanasiadis et al. Segmentation of complementary DNA microarray images by wavelet-based Markov random field model
Wang et al. Spline estimator for ultra-high dimensional partially linear varying coefficient models
Wang et al. scBKAP: a clustering model for single-cell RNA-Seq data based on bisecting K-means
CN109614587A (zh) 一种智能人脉关系分析建模方法、终端设备及存储介质
CN106156856A (zh) 用于混合模型选择的方法和装置
Teimouri Finite mixture of skewed sub-Gaussian stable distributions
Wu Gaussian Process and Functional Data Methods for Mortality Modelling
Teimouri et al. Robust mixture modelling using sub-Gaussian stable distribution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130731

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000218

Denomination of invention: Clustering method for high dimensional data based on Bayes mixed common factor analyzer

Granted publication date: 20160615

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: 2016320000218

Date of cancellation: 20180116

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201204

Address after: Gulou District of Nanjing City, Jiangsu Province, Beijing Road No. 20 210024

Patentee after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. INFORMATION & TELECOMMUNICATION BRANCH

Address before: Room 214, building D5, No. 9, Kechuang Avenue, Zhongshan Science and Technology Park, Jiangbei new district, Nanjing, Jiangsu Province

Patentee before: Nanjing Tian Gu Information Technology Co.,Ltd.

Effective date of registration: 20201204

Address after: Room 214, building D5, No. 9, Kechuang Avenue, Zhongshan Science and Technology Park, Jiangbei new district, Nanjing, Jiangsu Province

Patentee after: Nanjing Tian Gu Information Technology Co.,Ltd.

Address before: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160615