CN102439600B

CN102439600B - 基于分子标签的集合的生物标志物

Info

Publication number: CN102439600B
Application number: CN201080021694.7A
Authority: CN
Inventors: A·贾内夫斯基; V·瓦拉达恩; N·班纳吉
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2009-05-20
Filing date: 2010-05-18
Publication date: 2015-09-30
Anticipated expiration: 2030-05-18
Also published as: EP2433232A1; US20120265446A1; JP2012527679A; CN102439600A; JP5714001B2; US11348662B2; WO2010134023A2

Abstract

提供了一种形成生物学数据的新型标签的方法(10)。所述方法包括基于趋势值对特征排列，所述趋势值是基于通过模式发现方法识别出的多个标签创建的。此外，还提供了执行根据所述方法(10)的步骤的装置(30)和计算机程序产品(40)。还提供了所述方法在临床数据的统计学分析、基于多个分子标签的化验设计和基于多个分子标签的化验解释方面的使用。

Description

基于分子标签的集合的生物标志物

技术领域

本发明总体涉及生物信息学领域。更具体而言，本发明涉及一种用于基于对生物学数据的多个标签进行排序来形成新型(novel)的生物学数据标签的方法。本发明还涉及一种用于对多个分子标签进行比较的装置、一种形成新型的标签的装置、一种计算机程序产品以及所述方法和装置的使用。

背景技术

已经知道，对生物样本的高吞吐量的分子分布分析得到了用于将样本划分成具体的类别的标签。这样的群组可以是健康状况诊断(正常或疾病)、病程(侵袭性的或非侵袭性的)或治疗选择(药物响应)。分子标签就是标签的例子。

诸如分子标签的标签通常是通过临床研究发现并加以验证的，但是已经证实在解释相同的临床问题时这样的标签的内容也存在很大的易变性。这主要是由于可用于分析的数据的本质导致的——高吞吐量测量所提供的特征有几万乃至几十万个，而测量点(样本)的数量则为几百个。如果特征的数量和样本的数量存在几个数量级的差异，那么其又被称为维数(dimensionality)的制约(curse)。此外，即使在同一临床研究和同一发现方法的背景下，情况也往往是，在参数的选择存在易变性或者采用不同的随机化方式的情况下重复完全相同的流程将导致尽管类似但是不同的标签。

本领域内的快速发展产生了很多将患者划分到具体的类别中的标签。这一数据往往不连贯，而且多变，因为没有具体的标准存在。生物***的复杂性质以及对其进行研究的方式也使得对不同来源的基因组身份的集合进行比较存在困难。

因而，一种改进的生物学数据分析方法将是有利的，尤其是能够增加灵活性、成本效率、速度和/或分析精确度的方法将是有利的。

发明内容

因此，本发明寻求以单独或组合的方式缓和、减轻或消除一个或多个上文给出的本领域的缺陷和不利因素。这一目的是通过提供根据随附独立权利要求的用于对生物学数据的多个标签进行分组的方法、装置、计算机程序产品和使用来实现的。

根据本发明的一般解决方案是实现对具有相同预测值的多个标签的测量。

根据本发明的第一方面，提供了一种基于对生物学数据的多个标签的集合进行分析来形成包括若干特征(F＝{F₁，F₂，…，F_n})的生物学数据的新型标签的方法。所述方法包括通过对生物学数据运行N次特征子集选择算法来获得生物学数据的多个标签的集合的步骤。对于若干次运行({r₁，r₂，…，r_N})中的每次运行(r_i)而言，所述方法还包括下述步骤：形成具有尺寸(F×F)的第一矩阵(M_i)，其中，在运行r_i中所述第一矩阵(M_i)的每个矩阵元(i，j)基于每个对应的特征对(F_iF_i)受分析标签中的共同出现来量化所述特征对；以及形成具有尺寸(F×N)的第二矩阵(T)，其中，所述第二矩阵(T)的每个元(T_(i，j))被分配以对应的第一矩阵(M_i)的对应行(F_i)的和。此外，所述方法还包括形成具有尺寸(F)的向量(C)，其中，所述向量的每个元(C_Fi)被分配以所述第二矩阵(T)的所有列(1到N)的对应行(T_i)的平均值。所述方法还包括按照降序对向量(C)的每个值排序(sort)，从而使得由所述向量(C)的每个元表示的每个特征(F_i)按照降序排列。所述方法还包括通过合并至少两个具有相似排位的标签的特征而基于经排列的特征形成新型的标签的集合。

根据本发明的第二方面，提供了一种装置，其包括多个单元，所述单元被配置为在彼此存在操作性连接时执行根据本发明的第一方面的步骤。

根据本发明的第三方面，提供了一种计算机程序产品，其包括由计算机进行处理的计算机程序。所述计算机程序包括用于执行根据本发明的第一方面的方法的代码段。

根据本发明的第四方面，提供了根据第一方面的方法和根据第二方面的装置在临床数据的统计分析中的使用。

根据本发明的第五方面，提供了根据第一方面的方法和根据第二方面的装置在基于多个分子标签的化验设计方面的使用。

根据本发明的第六方面，提供了根据第一方面的方法和根据第二方面的装置在基于多个分子标签的化验解释方面的使用。

在从属权利要求中限定了本发明的实施例。

本发明相对于现有技术的优点在于，其能够从标签发现过程得到更加全面的输出。作为对严格的单标签输出的替代，取得了更广泛的描述趋势，其能够实现单组测量值的多幅临床视图。可以通过各种各样的方式对这一描述加以利用。在临床研究中，多个标签能够实现对所研究的临床问题中的生物学基础进行更好的评估。例如，可以使用其寻找多个药物靶点，并对疾病机理进行评估。此外，在设计诊断性化验时，本发明还允许多个具有相同预测值的标签并存。这样通过使得能够选择最佳的基因组特征集合，从而有助于(例如)绕开化验设计中的问题。临床医生能够应用有关患者数据的不同视图，从而利用基因组特征的很多组合，并选择其中最佳的来对生理学样本的生物学状态和患者的临床状态做出最佳描述。

作为对严格的单标签输出的替代，获得了能够实现单组测量值的多幅临床视图的更广泛的描述趋势。可以通过各种方式对这一描述加以利用。在临床研究中，采用多个标签进行例证能够实现对所研究的临床问题中的生物学基础进行更好的评估。另一个优点在于，本发明能够应用对患者数据的不同视图，从而利用基因组特征的很多组合，并选择最佳的组合来从基因信息归纳出最佳结论。

附图说明

通过下文参考附图对本发明的实施例的描述，本发明能够实现的这些和其他方面、特征和优点将变得显而易见，并得到阐释，

在附图中：

图1是根据一个实施例方法的流程图；

图2是根据一个实施例的特征子集的生成的图解表示；

图3是根据一个实施例的装置的示意性表示；

图4是根据一个实施例的计算机程序产品的示意性表示。

具体实施方式

下文将参考附图更加详细地描述本发明的几个实施例，从而使本领域技术人员能够实现本发明。不过，本发明可以体现为很多不同形式，并且不应被解读为受限于这里阐述的实施例。相反，提供这些实施例是为了使本公开透彻和完整，并将向本领域技术人员充分传达本发明的范围。实施例不限制本发明，相反，本发明仅受所附专利权利要求的限制。此外，附图中所示特定实施例的详细描述中使用的术语并非意在限制本发明。

在根据图1的实施例中，提供了一种方法10，其用于基于对生物学数据的多个标签的集合进行分析来形成包括若干特征(F＝{F₁，F₂，…，F_n})的生物学数据的新型标签。在步骤110中，所述方法包括对生物学数据运行N次特征子集选择算法，由此获得生物学数据的多个标签的集合。对于若干次运行({r₁，r₂，…，r_N})中的每次运行(r_i)而言，方法10包括：步骤120a，其用于形成具有尺寸(F×F)的第一矩阵(M_i，例如)，其中，在运行r_i中第一矩阵(M_i)的每个矩阵元(i，j)基于每个对应的特征对(F_iF_i)在受分析标签中的共同出现来量化所述特征对；以及步骤120b，其用于形成具有尺寸(F×N)的第二矩阵(T，例如)，其中，第二矩阵(T)的每个元(T_(i，j))被分配以对应的第一矩阵(M_i)的对应行(F_i)的和。在步骤130中，方法10还包括形成具有尺寸(F)的向量(C，例如C＝{C_F1，C_F2，…C_Fn})，其中，所述向量的每个元(C_Fi)被分配以第二矩阵(T)的所有列(1到N)的对应行(T_i)的平均值。所述方法还包括步骤140，其用于按照降序对向量(C)的每个值排序，使得由向量(C)的每个元表示的每个特征(F_i)按照降序排列。此外，方法10还包括步骤150，其用于通过合并至少两个具有相似排位的标签的特征而基于经排列的特征形成新型的标签的集合。

通过例如对所测量的分子特征的排位进行表征，对标签加以描述，并且创建出诸如特征并存性的趋势，其有助于确定可以结合哪些特征以及具有怎样的顺序。此外，可以构建(举例说明)分子标签的族。这些可以被用于设计诊断化验或者通过改变基因组特征的集合而对分子测量结果进行探究。可以保存并考虑每次运行的其他特性，例如，平均特征子集尺寸、平均性能(例如就样本分类而言)。

在一个实施例中，所述标签可以是分子标签，例如，从由核苷酸序列、基因变异、甲基化状态或基因表达构成的组中选择的任何标签。然而，任何标签都是可以加以利用的。

在一个实施例中，所述特征子集选择可以包括本领域公知的过滤技术、前向(forward)特征选择技术、基因算法等。然而，任何特征子集选择方式都可以加以利用。

表1 根据一个实施例的方法的输入总览

在一个以程序设计语言“R”为基础的更为具体的实施例中，使用来自表1的输入执行下述步骤：

根据上述伪代码，在基于T的特征的“相邻关系”的基础上通过类似的方式获得了最为相关和最为反相关的特征。一种实现这一目的的方式是寻找排在最上面的N个相关(或反相关)特征，之后使用C从所述N个特征中挑出排在最上面的一个。使用这一方案可以避免选择仅在少量情况下相关(反相关)的那些不是太有关的特征。

参考图2进一步说明特征子集生成。

通过大写字母给出的符号表示被添加至子集的特征。对于它们中的每个而言，标记出了小写情况(small-case)的节点，其指示反相关基因。在它们当中，只有单个节点既有大写字母又有小写字母的情况才是我们感兴趣的。虚线(dotted)区域表示被认为是排在上面的反相关特征的特征。出于观看简化的原因，没有示出基于高度相关性考虑添加的特征。

在级别1中，子集＝{{A}}，于是添加B和C(features.added.per.level＝3)，并对那些D、E、F做出标记以供在下一级别中添加。考虑了4个(反)相关特征的相邻关系。在级别1后，S＝{{{A，B，C}}，因为到目前为止不存在反相关冲突。

在级别2中，将D添加至子集，考虑在下一级别中添加G，子集＝{{A，B，C，D}}。接下来，将E添加至子集，并考虑在下一级别中添加H，子集＝{{A，B，C，D，E}}。将F添加至子集，并考虑在下一级别中添加I，但是E和F不应一起使用，因而子集＝{{A，B，C，D，E}，{A，B，C，D，F}}

在级别3中，将G添加至子集，子集＝{{A，B，C，D，E，G}，{A，B，C，D，F，G}}，将H添加至子集，子集＝{{A，B，C，D，E，G，H}，{A，B，C，D，F，G，H}}，将I添加至子集，其中，I和H不能一起使用，因而子集＝{A，B，C，D，E，G，H}，{A，B，C，D，F，G，H}，{A，B，C，D，E，G，I}，{A，B，C，D，F，G，I}}。

因而，上述例子表明怎样有可能采用成对的趋势值，例如，特征之间的相关和反相关来导出新型标签。

在一个实施例中，N等于4，即，可以为本领域公知的任何特征子集算法的特征子集选择算法运行4次，以获得110生物数据的多个标签的集合。基于这些标签形成120a表2所示的第一矩阵(M_i)。

表2.根据一个实施例的第一矩阵M_i，i＝4。

M1		A	B	C	D	E
							A		450	100	350	30
	B	450		30	150	35
							C	100	30		50	100
	D	350	150	50		30
							E	30	35	100	30

M2

A

B

C

D

E

A		100	400	60	300
						B	100		100	60	35
C	400	100		50	50
						D	60	60	50		30
E	300	35	50	30

M3		A	B	C	D	E
							A		420	100	300	70
	B	420		30	450	35
							C	100	30		50	100
	D	300	450	50		30
							E	70	35	100	30

M4		A	B	C	D	E
							A		100	500	50	300
	B	100		100	40	35
							C	500	100		50	40
	D	50	40	50		30
							E	300	35	40	30

接下来将根据表3形成120b第二矩阵(T)。

表3 根据一个实施例的第二矩阵T

T		r1	r2	r3	r4
						A	930	860	890	950
	B	665	295	935	275
						C	280	600	280	690
	D	580	200	830	170
						E	195	415	235	405

基于第二矩阵(T)，通过分配对于第二矩阵(T)的所有列(1到N)的对应行(T_i)的平均值来形成130C向量。根据表4按照降序对C向量排序140。

表4 根据一个实施例的C向量。

接下来，可以基于排列后的特征形成150新型的标签集合。在这一实施例中，A是最上面的一个。之后，为了判断添加什么，既需要具有相似的排序的特征，即相关特征，又需要不相关的，即反相关特征。可以通过基于T矩阵计算特征对的相关性而实现这一目的。在表5中示出了结果。

表5 一个实施例中的相关和反相关特征。括号内的数值是负的。

	A	B	C	D	E
						A	1,0000	(0,0971)	0,0860	(0,0977)	(0,1616)
B	(0,0971)	1,0000	(0,9278)	0,9995	(0,8763)
						C	0,0860	(0,9278)	1,0000	(0,9386)	0,9681
D	(0,0977)	0,9995	(0,9386)	1,0000	(0,8882)
						E	(0,1616)	(0,8763)	0,9681	(0,8882)	1,0000

从特征{A}开始，添加接下来排在最上面的特征，从而得到{A，B}。由于B和C之间的高反相关性，不添加接下来排在最上面的特征(C)。而是生成两个集合{{A，B}，{A，C}}。接下来，类似地，由于D和E也是高度反相关的，因而不可能将它们放到一起。因而，在这一实施例中所形成150的新型的标签集合是{{A，B，D}，{A，C，E}}。

可以保存并考虑本领域公知的特征子集算法的每次运行的额外属性。在一个实施例中，可以考虑平均特征子集尺寸、样本分类的平均性能等。例如，可以在特征子集中采用统计信息，例如平均特征数量。一个子集可能具有20个特征，而另一个子集可能具有35个特征，等等。此外，每个特征子集的在其对结果的预测能力方面的性能可能是不同的。例如，所述子集之一可能具有98％的预测准确度，而另一个则具有95％的准确度，等等。因而，尽管计算了特征的表征C，但是人们可以通过每个子集的性能衡量其作用。因此，如果一对特征似乎同时出现在具有较低的预测性能的标签中，那么可以通过将这些成对并存评分罚掉与标签的平均预测准确度成反比的某一量对其进行调节。例如，不再为并存加1，而是可以为性能差的子集加0.5。

在一个临床实施例中，临床医生可以应用对于患者数据的不同视图，从而利用基因组特征的很多组合，并选择其中最佳的那些来对生理学样本的生物学状态和患者的临床状态做出最佳描述。例如，如果化验测量了来自患者样本的100个基因组未来，那么诊断测试可以包含基于单次研究的多项评估，而不是对测量结果的集合做“一次性使用(one shot)”。因而，可以利用标签委员会(committee)，由其共同确定测试结果。例如，如果基于临床研究可以通过3个组合A，B，C；A，C，D；A，C，E获得以5个基因组特征A、B、C、D、E为基础的趋势；那么特征B的有噪测量结果将扭曲来自A、B、C的输出。然而，其余的两个新型标签仍将准确地捕捉到样本中的信号。

在本发明的根据图3的另一实施例中，提供了一种用于形成生物学数据的新型标签的装置30。装置30包括第一单元310，其被配置成通过对生物学数据运行N次特征子集选择算法来获得生物学数据的多个标签的集合。

装置30还包括第二单元320，其被配置为针对若干次运行({r₁，r₂，…，r_N})中的每次运行(r_i)形成320a具有尺寸(F×F)的第一矩阵(M_i，例如其中，在运行r_i中第一矩阵(M_i)的每个矩阵元(i，j)基于每个对应的特征对(F_iF_i)在受分析标签中的共同出现对所述特征对进行量化；以及形成320b具有尺寸(F×N)的第二矩阵(T，例如)，其中，第二矩阵(T)的每个元(T_(i，j))被分配以对应的第一矩阵(M_i)的对应行(F_i)的和。

装置30还包括第三单元330，其被配置为形成具有尺寸(F)的向量(C，例如C＝{C_F1，C_F2，…C_Fn})，其中，所述向量的每个元(C_Fi)被分配以对于第二矩阵(T)的所有列(1到N)的对应行(T_i)的平均值。

装置30包括第四单元340，其被配置为按照降序对向量(C)的每个值排序，从而使得由向量(C)的每个元表示的每个特征(F_i)按照降序排列。

装置30还包括第五单元350，其被配置为通过合并至少两个具有相似排位的标签的特征而基于经排列的特征形成新型的标签的集合。

单元310、320、330、340、350操作性地彼此连接。可以将单元310、320、330、340、350体现为连接到一起的分立的物理实体。但是，也可以在单个物理实体中体现单元310、320、330、340、350。可以将单元310、320、330、340、350的任意组合体现到不同的分立的物理实体中，也可以将其体现到一元化的物理实体中。还可以以任何设置方式使所述实体进一步结合，从而在所述物理实体之间形成连接。

单元310、320、330、340、350可以是任何通常用于执行所涉及的任务的单元，例如硬件，比如，具有存储器的处理器等。

在一个实施例中，装置30或***100可以包含到医疗工作站或医疗***中，例如，计算机断层摄影(CT)***、磁共振成像(MRI)***或超声波成像(US)***。

在根据图4的一个实施例中，一种计算机程序产品包括通过计算机处理的计算机程序40。计算机程序40包括第一代码段410，其用于通过对生物学数据运行N次特征子集选择算法获得由生物学数据的多个标签构成的集合，并且对于若干次运行({r₁，r₂，…，r_N})中的每次运行(r_i)。计算机程序40还包括第二代码段420，其用于针对若干次运行({r₁，r₂，…，r_N})中的每次运行(r_i)形成420a具有尺寸(F×F)的第一矩阵(M_i，例如)，其中，在运行r_i中第一矩阵(M_i)的每个矩阵元(i，j)基于每个对应的特征对(F_iF_i)在受分析标签中的共同出现量化所述特征对；以及形成420b具有尺寸(F×N)的第二矩阵(T，例如)，其中，第二矩阵(T)的每个元(T_(i，j))被分配以对应的第一矩阵(M_i)的对应行(F_i)的和。

计算机程序40包括第三代码段430，其用于形成具有尺寸(F)的向量(C，例如C＝{C_F1，C_F2，…C_Fn})，其中，该向量的每个元(C_Fi)被分配以对于第二矩阵(T)的所有列(1到N)的对应行(T_i)的平均值。

计算机程序40包括***码段440，其用于按照降序对向量(C)的每个值排序，从而使得由向量(C)的每个元表示的每个特征(F_i)按照降序排列。计算机程序40包括第五代码段450，其用于通过合并至少两个具有相似排位的标签的特征而基于经排列的特征形成新型的标签的集合。

在一个实施例中，所述计算机程序产品包括供计算机处理的计算机程序40，所述计算机程序包括被设置为在通过具有计算机处理属性的装置运行时执行方法10中定义的所有方法步骤的代码段。

在一个实施例中，方法10或装置30提供了诸如生物学数据的多个分子标签构成的组的信息，其可以辅助医师实现对患者的诊断或者治疗。

因而在一个实施例中，提供了方法10或装置30在临床数据的统计学分析方面的使用。

例如，在总共含有100个患者的数据库内，一些患者有特定的结果，例如，癌症的复发，而一些患者则具有不同的结果。找到多个标签，并按照上文提供的内容对其进行表征。例如，基于预测每个患者的复发状态的能力对标签进行评价。诊断化验从初始研究测量所有的有关特征。假设有一名新患者，那么临床医生可以生成多个标签，每个标签预测对于假定患者的复发情况，并基于标签中的每个的某一属性对所述标签进行评价。例如，临床医生可以仅使用那些含有与涉及具体治疗的生物学途径(pathway)相关联的关于基因的信息的标签。

在一个实施例中，提供了方法10或装置30在基于多个分子标签的化验设计方面的应用。

基于上述内容，可以设计包含所生成的特征的较小子集的化验。在这种情况下，基于某一属性选择特征，例如，所述特性可以是已知与该种疾病相关的基因，或者具有对于测量装置而言的更好的属性的特征(基因)。

在一个实施例中，提供了方法10或装置30在基于多个分子标签的化验的解释方面的使用。

假定一种根据上述内容的化验，那么临床医生可以使用所述表征来设计第二次化验，以解释第一次化验的输出结果。基于化验读出结果是否存在针对某些特征的信号，临床医生可以推断出第一次化验未明确测量出的特征的额外信息。例如，已知在分子标签中大部分情况下共同出现特征A和B，并且由于第一次化验提供了仅有特征A的测量结果，那么临床医生可以选择推断出特征B的可能测量，从而获得关于患者的额外的临床相关信息。

可以通过包括硬件、软件、固件或其任意组合的任何适当的形式实现本发明。但是，优选地，将本发明实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以通过任何适当的方式在物理、功能和逻辑上实现本发明的实施例的元件和部件。实际上，可以通过单个单元或多个单元实现所述功能性，或者将所述功能性作为其他功能单元的部分实现。这样，可以在单个单元中实现本发明，或者本发明可以在物理和功能上分布于不同的单元和处理器之间。

尽管上文已经参考具体实施例描述了本发明，但并不意在限于这里阐述的具体形式。相反，本发明只受所附权利要求的限制，在这些所附加的权利要求的范围内，除了上述的具体实施例以外的其他实施例同样是可能的。

在权利要求中，“包括/包含”一词不排除其他元件或步骤的存在。此外，尽管文中单独的列出多个机构、元件或方法步骤，但是这些可以通过(例如)单个单元或处理器实现。此外，尽管各个特征可能包含于不同的权利要求中，但是，这些特征可以得到有利的组合，包含在不同的权利要求中并不意味着特征组合是不可行和/或是不利的。此外，单数引用不排除复数。“一”、“一个”、“第一”、“第二”等不排除复数。在权利要求中提供的附图标记只是使权利要求清晰易懂的例子，无论如何不应将其推断为对权利要求的范围构成限制。

Claims

1.一种用于基于对生物学数据的多个分子标签的集合进行分析来形成包括若干特征F＝{F₁,F₂,...,F_n}的生物学数据的新型分子标签的方法(10)，所述方法包括以下步骤：

通过对生物学数据运行N次模式发现算法来获得(110)所述生物学数据的多个分子标签的集合，并且对于若干次运行{r₁,r₂,...,r_N}中的每次运行r_i形成(120a)具有尺寸n×n的第一矩阵M_i，其中，在运行r_i中所述第一矩阵M_i的每个矩阵元(i,j)基于每个对应的特征对F_iF_j在所述生物学数据的分子标签中的共同出现来量化所述特征对；以及

形成(120b)具有尺寸n×N的第二矩阵T，其中，所述第二矩阵T的每个元T_(i,j)被分配以第一矩阵M_i中与特征F_i对应的行的和；

形成(130)具有尺寸n的向量C，其中，所述向量的每个元C_Fi被分配以所述第二矩阵T的所有列1到N的对应行T_i的平均值；

按照降序对向量C的每个值排序(140)，从而使得由所述向量C的每个元表示的每个特征F_i按照降序排列；以及

在对矩阵T上的特征对的相关性的计算的基础上，根据分子标签的特征的排位和相关性通过合并至少两个具有相似排位的分子标签的特征而基于经排列的特征来形成(150)新型的分子标签的集合。

2.根据权利要求1所述的方法，其中，所述分子标签选自包括以下项的组：核苷酸序列、基因变异、甲基化状态或基因表达。

3.一种用于基于对生物学数据的多个分子标签的集合进行分析来形成包括若干特征F＝{F₁,F₂,...,F_n}的生物学数据的新型分子标签的装置(30)，所述装置包括：

第一单元(310)，其被配置为通过对生物学数据运行N次模式发现算法来获得所述生物学数据的多个分子标签的集合；

第二单元(320)，其被配置为，对于若干次运行{r₁,r₂,...,r_N}中的每次运行r_i形成(320a)具有尺寸n×n的第一矩阵M_i，其中，在运行r_i中所述第一矩阵M_i的每个矩阵元(i,j)基于每个对应的特征对F_iF_j在所述生物数据的分子标签中的共同出现来量化所述特征对；以及

形成(320b)具有尺寸n×N的第二矩阵T，其中，所述第二矩阵T的每个元T_(i,j)被分配以所述第一矩阵M_i中与特征F_i对应的行的和；

第三单元(330)，其被配置为形成具有尺寸n的向量C，其中，所述向量的每个元C_Fi被分配以所述第二矩阵T的所有列1到N的对应行T_i的平均值；

第四单元(340)，其被配置为按照降序对向量C的每个值排序，从而使得由所述向量C的每个元表示的每个特征F_i按照降序排列；以及

第五单元(350)，其被配置为，在对矩阵T上的特征对的相关性的计算的基础上，根据分子标签的特征的排位和相关性通过合并至少两个具有相似排位的分子标签的特征而基于经排列的特征形成新型的分子标签的集合，

各所述单元操作性地彼此连接。

4.根据权利要求1所述的方法或根据权利要求3所述的装置在临床数据的统计学分析方面的用途。

5.根据权利要求1所述的方法或根据权利要求3所述的装置在基于多个分子标签的化验设计方面的用途。

6.根据权利要求1所述的方法或根据权利要求3所述的装置在基于多个分子标签的化验解释方面的用途。