CN109856307B

CN109856307B - 一种代谢组分子变量综合筛选技术

Info

Publication number: CN109856307B
Application number: CN201910238318.6A
Authority: CN
Inventors: 林晓惠; 李佳林; 张艳慧
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2021-04-16
Anticipated expiration: 2039-03-27
Also published as: CN109856307A

Abstract

本发明提供一种代谢组分子变量综合筛选技术，属于代谢组学数据分析技术领域。本发明中考量了分子对变量上多种可能的样本分布模式，对分子对变量的区分能力进行了综合的评价，并使用与分子对变量相同的指标，有机融合了单变量评价过程，将所有单变量和对变量的评分进行排序，选择得分最高的对变量及其分布模式或单变量进行后续靶向代谢分析。该方法的核心技术基于代谢组学的实际特点，对对变量上多种可能样本分布模式进行了多角度分析与综合评价，挖掘了信息丰富的变量，对所选分子变量和分子对变量进行分类测试，分类性能优越，故本发明为代谢组学数据的前期分析处理提供了切实有效的方法，具有较强的应用价值。

Description

一种代谢组分子变量综合筛选技术

技术领域

本发明属于代谢组学数据分析技术领域，发明结合当前高通量技术下非靶向代谢组变量多，噪音多，生物体代谢组中分子以各种通路相互关联，分子变量之间关系复杂多样等实际特点，分析样本在成对分子变量上多种可能的分布情况，对成对分子的类间区分能力进行综合评价，并使用统一指标，有机融合单分子的评价过程，有助于迅速从非靶向代谢组中筛选差异性代谢成分或组合代谢成分，来进行后续针对性定性定量研究，是一种代谢组分子变量综合评价筛选技术。

背景技术

代谢产物是基因表达的最终产物，在代谢酶的作用下生成。代谢物更多地反映了细胞所处的环境，这又与细胞的营养状态，药物和环境污染物的作用，以及其它外界因素的影响密切相关。研究人员通过对机体代谢产物进行深入研究，可以判断机体处于何种状态，而对基因和蛋白质的研究都无法得出这样的结论。代谢物的研究渗透多个领域，包括营养食品科学、毒理学、环境学、植物学等，代谢组学研究具有广泛的前景。

非靶向代谢组学(Untargeted metabolomics)是指采用LC-MS、GC-MS、NMR技术，无偏向性的检测机体受到刺激或扰动前后所有小分子代谢物，是代谢组学研究的重要步骤。但是，随着高通量检测技术的发展，代谢组学数据维度越来越高、由于实验，设备等原因，数据中噪音多、由于实验成本等原因，实验中涉及的样本量通常较小，由于这些特点的存在，非靶向代谢物分析受干扰较多，确定与问题相关代谢物的难度越来越大，从非靶向代谢实验中充分利用代谢组所携带的信息，快速且准确地确定与关键差异性代谢分子，为当前问题的进一步研究提供线索和方向的新技术，对于代谢组学研究具有重要的意义。

代谢反应机制十分复杂，代谢物以各类通路反应的形式相互关联，代谢分子变量间存在密切联系，其中蕴含丰富的信息，单分子反映差异的能力有限，差异有很大一部分反应在变量的组合形式上，仅研究单分子将忽略重要信息。分子变量间关系复杂而多样，不同变量对构成的二维平面空间上，样本的分布模式多种多样，对组合变量区分能力的判定需要根据情况作出变化，仅研究的单一的样本分布模式将对组合变量的区分能力产生误判，从而丢失大量有用信息，故需要进行组合变量的综合评价。

本发明在综合分析多种实际代谢组学数据的基础上，提出了一种代谢组变量综合筛选技术，该技术构建所有的对变量，对对变量分别进行多种假设样本分布模式下的类间区分能力评分，选取最高评分作为对变量的最终得分，并将最终得分相对应的样本分布模式确定为对变量的最佳样本分布模式。技术中融合了单变量评价过程，使用信息增益对每个单变量计算最佳划分点，使用与对变量评价过程相统一的指标，计算最佳划分点下的单变量类间区分能力评分。将所有单变量和对变量的评分进行排序，筛选得分最高的对变量及其分布模式(或单变量)进行后续靶向生物学分析。

发明内容

本发明的目的是基于代谢组分子变量多、数据噪音大、分子变量间关系复杂多样，难以用单一模式进行刻画的特点，建立一种能迅速确定差异性分子变量或分子组合变量的综合评价筛选方法。该方法的核心技术为：代谢分子对变量上多种可能样本分布模式的分析与综合评价。方法中，构建所有的对变量，对每对对变量所构成的二维平面，技术将分别分析可能呈现的几种样本分布模式：(1)两类样本在两个变量上的相对含量存在较大差异，或描述为：在两个变量构建的二维平面上，两类样本分别位于第一，三象限对角线的上下方，此情况下，样本呈现为水平分布模式；(2)两类样本在两个变量构建的二维平面上，分别分布于两变量的样本均值线相交叉构成的四个区域中，此情况下，样本呈现垂直分布模式；(3)两类样本在两个变量构建的二维平面上，分别近似形成两个分离的簇，但又不符合(1)(2)中描述的分布模式，此情况下，样本呈现簇分布模式；对每对变量的区分能力分别在三种假设样本分布模式下进行评分，选取最高评分作为对变量的最终得分，将最终得分相对应的样本分布模式确定为对变量的最佳分布模式。对单变量，根据信息增益找最佳分割点，使用最佳分割点分配样本，并使用在对变量分析中相同的指标计算此分配下单变量的得分。将所有单变量和对变量的评分进行排序，选择得分最高的对变量(或单变量)，进行代谢物靶向研究。

为了实现上述目标，本发明采用的技术方案如下：

一种代谢组分子变量综合筛选技术，步骤如下：

使用LC-MS，GC-MS技术检测所研究问题的样本中的小分子代谢成分(相对分子量1000以下)，并确定这些成分在不同样本中的含量。将各种成分看作变量，将成分的含量看作变量的值。

将样本集合划分为训练集和测试集两部分，训练集用于构建筛选模型，测试集用于验证。令F＝{f₁，f₂，...，f_i，...，f_m}代表变量集合，m是变量数；X＝{x₁，x₂，...，x_n}代表训练集样本集合，n是训练集样本数；C＝{1，2}代表类标集合；Y＝(y₁，y₂，...，y_i，...，y_n)是n个样本的类标向量，其中y_i∈C是第i个样本的类标。

步骤一、计算单变量得分；

(1.1)获取单变量最佳***点：首先将变量f_i在所有训练样本上的取值进行递增顺序排列，每对不相等相邻值的中点作为此变量可能的***点，n个样本最多需计算n-1个可能的***点。对于每一个可能的***点，计算使用此***点进行训练样本集合划分时获得的信息增益，将信息增益最大的***点作为变量f_i最佳***点。公式如下：

sp^*＝argmaxIG(X，sp_k)，k＝1，2，...，n₁-1 (3)

公式(1)中，IG(X，sp_k)代表变量f_i使用***点sp_k划分训练样本集合X后，得到的信息增益，n₁为训练样本在变量f_i上的取值个数，n₁≤n，n为样本数量，X^-代表在变量f_i上取值小于***点sp_k的训练样本构成的集合，X⁺代表在变量f_i上取值不小于***点sp_k的训练样本构成的集合，|X^-|、|X⁺|和|X|分别是X^-、X⁺与X集合的大小；公式(2)中H(X)代表信息熵，是度量样本集合纯度的一个指标，p_l为集合X中类标为l的样本的比例，H(X)的值越小，则样本集合X的纯度越高；公式(3)中，sp^*代表变量f_i最佳***点。

(1.2)计算单变量得分：对每个单变量f_i，1≤i≤m，构建对应的f′_i，f′_i在所有样本上的值，为此单变量f_i的最佳划分点的值，使用变量f_i与其对应的f′_i组成(f_i，f′_i)，以在单变量f_i上及对应f′_i上的值的相对大小关系，将训练样本集合划分，得到两个区域，区域内样本分别满足：f_i＜f′_i，f_i≥f′_i。使用公式(4)-(6)进行单变量f_i区分能力得分S(i，i′)的计算：

S(x，y)＝(Comp_xy，max-Comp_xy)/Comp_xy，max (6)

公式(4)中，

为f_x和f_y所构成的二维平面上，某区域d内类标为l的样本个数，l＝1，2。

为区域d内样本总数，r为区域的个数；公式(5)中，fre_xy(l)为类标为l的样本总个数，num为样本总数；公式(6)中，S(x，y)刻画了当前划分下各个区域的样本纯度，S(x，y)越高代表当前划分越能将异类样本区分开，也就越有效；对于此处单变量得分的计算，x＝i，y＝i′，r＝2。

步骤二、计算对变量得分；

对每个对变量(f_i，f_j)，1≤i＜j≤m，分别分析其形成的二维平面上，三种样本分布模式：

(i)对于水平分布模式，根据变量f_i和变量f_j的大小关系，将训练样本集合划分，得到两个区域，区域内样本分别满足下列条件：f_i＜f_j和f_i≥f_j。使用公式(4)-(6)，x＝i，y＝j，r＝2，进行得分的计算，记为S_h(i，j)；

(ii)对于垂直分布模式，计算变量f_i下所有训练样本的均值，记为μ_i,计算变量f_j下所有训练样本的均值，记为μ_j，根据变量f_i和变量f_j的值将训练样本集合划分，得到四个区域，区域内样本分别满足：f_i≥μ_i∩f_j≥μ_j，f_i≥μ_i∩f_i＜μ_j，f_i＜μ_i∩f_j≥μ_j以及f_i＜μ_i∩f_j＜μ_j。使用公式(4)-(6)，x＝i，y＝j，r＝4，进行得分的计算，记为S_v(i，j)；

(iii)对于簇分布模式，先移除训练集内每类样本中的离群样本，保留有效范围内的样本，构成新的样本集X′。类l样本的有效范围如下：

其中，

和

分别为：变量f_i在训练集类标为l的样本上的均值和标准差。则训练集类标为l的样本的中心

的计算公式为：

其中，

与

分别为类l样本集合的中心

在变量f_i和变量f_j上的值；x_q为训练集某样本，

和

为样本x_q在变量f_i和变量f_j上的值；y_q为样本x_q的类别；随后，令

为样本x_q离类l样本中心

的欧式距离，计算训练集所有类l有效样本离类l样本中心

的最大距离，此距离为类l形成的近似圆区域的半径

公式如下：

以不同类的样本形成的近似圆区域为基础，得到不同类的一个重叠区域，并得到位于重叠区域的样本，即满足

且

x_q为训练集内某样本。使用公式(4)-(6)，x＝i，y＝j，r＝1，进行得分的计算，记为S_o(i，j)；

比较三个模式(i)-(iii)相对应的三个得分，取三个得分中最大者为对变量最终得分，即S(i，j)＝max{S_o(i，j)，S_h(i，j)，S_v(i，j)}，将对变量的模式确定为最高得分对应的模式。

步骤三、选择得分最高的前k个单变量或对变量；

将所有对变量和单变量根据得分进行降序排序，令所选集合

将对变量(f_i，f_j)或者单变量f_i按降序顺序加入P_k。当前欲加入对变量(f_i，f_j)，f_i或者f已出现在集合P_k中某个对变量中，且此对变量与(f_i，f_j)采用相同的样本分布模式时，则不将此对变量(f_i，f_j)加入，而继续考虑将得分次高者加入P_k，迭代此加入的过程，直到集合P_k的大小|P_k|＝k为止。

步骤四、利用最优变量构造分类器，进行变量性能验证；

使用P_k中的对变量或单变量建立分类器，通过多数投票的方式融合各个基分类器的预测结果。基分类器分类原理如下：

(4.1)对于单变量f_i：

(A)当待预测样本变量f_i的取值小于f′_i的取值时：1类样本中变量f_i小于f′_i的比例大于2类样本中变量f小于f′_i的比例，则将样本预测为1类，否则预测为2类；

(B)当待预测样本变量f_i的取值大于等于f′_i的取值时：1类样本中变量f_i大于等于f′_i的比例大于2类样本中变量f_i大于等于f′_i的比例，则将样本预测为1类，否则，预测为2类；

(4.2)对于对变量(f_i，f_j)，当其采用水平分布模式时：

(A)当待预测样本变量f_i的取值小于变量f_j的取值时：1类样本中变量fi_i小于变量f_j的比例大于2类样本中变量f_i小于变量f_j的比例，则将样本预测为1类，否则预测为2类；

(B)当待预测样本变量f_i的取值大于等于变量f_j的取值时：1类样本中变量f_i大于等于变量f_j的比例大于2类样本中变量f_j大于等于变量f_j的比例，则将样本预测为1类，否则，预测为2类；

(4.3)对于对变量(f_i，f_j)，当其采用垂直分布模式时：

(A)当待预测样本变量f_i与f_j的取值满足f_i≥μ_i∩f_j≥μ_j时：1类样本中满足f_i≥μ_i∩f_j≥μ_j的比例大于2类样本中的比例，则将样本预测为1类，否则预测为2类；

(B)当待预测样本变量f_i与f_j的取值满足f_i≥μ_i∩f_j＜μ_j时：1类样本中满足f_i≥μ_i∩f_j＜μ_j的比例大于2类样本中的比例，则将样本预测为1类，否则预测为2类；

(C)当待预测样本变量f_i与f_j的取值满足f_i＜μ_i∩f_j≥μ_j时：1类样本中满足f_i＜μ_i∩f_j≥μ_j的比例大于2类样本中的比例，则将样本预测为1类，否则预测为2类；

(D)当待预测样本变量f_i与f_j的取值满足f_i＜μ_i∩f_j＜μ_j时：1类样本中满足f_i＜μ_i∩f_j＜μ_j的比例大于2类样本中的比例，则将样本预测为1类，否则预测为2类；

(4.4)对于对变量(f_i，f_j)，当其采用簇分布模式时，令

为f_i,f_j构成的二维平面上，待预测样本x_u与类l圆心

的欧式距离，r_l为类l样本构成的圆的半径，l＝1，2：

(A)当待预测样本x_u位于两圆公共区域，即

时：统计f_i,f_j构成的二维平面上，与待预测样本最近的3个样本中，两类样本的数量，取数量较多的类作为预测样本的类；

(B)当待预测样本x_u仅位于其中一个圆内，即

或

待预测样本x_u的类为所在圆的所属类；

(C)当待预测样本x_u位于两圆之外，即

时：当满足：

则将其预测为1类，否则预测为2类。

本发明的有益效果：该方法的核心技术基于代谢组学的实际特点，对对变量上多种可能样本分布模式进行了多角度分析与综合评价，挖掘了信息丰富的变量，对所选分子变量和分子对变量进行分类测试，分类性能优越，故本发明为代谢组学数据的前期分析处理提供了切实有效的方法，具有较强的应用价值。

附图说明

图1为使用该方法，在乳腺代谢公共数据集上找到的区分能力排名第一的变量f₃₅。

图2为使用该方法，在乳腺代谢公共数据集上找到的区分能力排名第二的变量对f₁₃、f₃₅。

图3为使用该方法，在乳腺代谢公共数据集上找到的区分能力排名第三的变量对f₇、f₁₄₇。

具体实施方式

下面结合技术方案，构建假设的数据集来进一步说明本发明的具体实施方式。假设代谢数据共10个样本，包含两类(1和2)，共4个代谢分子变量：f₁、f₂、f₃和f₄，将k设置为3。

变量评价与筛选：

(1)计算单变量的最佳划分点。以变量f₁为例：将所有训练集样本在f₁上的取值排序，依次采用相邻两个不相等的值的中点作为***点，使用公式(1)计算每个***点下，将训练样本集合划分获得的信息增益，并取最大信息增益对应的***点作为该变量的最佳***点，不妨设变量f₁最佳***点的值为a，同理我们可以得到变量f₂、f₃和f₄的最佳***点，分别设为b，c，d。

(2)利用计算得到的最佳***点，构造f′₁、f′₂、f′₃和f′₄，其中，f′₁在所有训练样本上的取值为a，同理，f′₂、f′₃和f′₄在所有训练样本上的取值分别为b，c，d。

(3)构造集合{(f₁，f′₁),(f₂，f′₂),(f₃，f′₃),(f₄，f′₄),(f₁，f₂),(f₁，f₃),(f₁，f₄),(f₂，f₃),(f₂，f₄),(f₃，f₄)}。

(4)对每个单变量f_i，计算其得分S(i，i)。以f₁为例，根据所有训练样本在f₁和f′₁上取值的大小关系，将训练样本集合划分，得到两个区域，区域内训练样本在f₁和f′₁上的取值分别为：f₁＜f′₁，f₁≥f′₁。或者表示为：f₁＜a，f₁≥a。利用公式(4)-(6)计算单变量f₁得分S(1，1)，不妨设为0.7。同理，计算单变量f₂、f₃和f₄得分，不妨分别设为0.6，0.8，0.85。

(5)对每个对变量(f_i，f_j)，计算其得分S(i，j)。以(f₁，f₂)为例，依次计算：(i)水平分布模式得分：根据训练样本在变量f₁和变量f₂上的值的大小关系，将训练样本集合内所有样本分配到f₁＜f₂，f₁≥f₂两个区域，并使用公式(4)-(6)计算对变量(f₁，f₂)在假设的水平分布模式下的得分，记为S_h(1，2)，不妨设为0.7；(ii)垂直分布模式得分：计算训练样本集合内所有样本在f₁，f₂上的均值，分别记为μ₁，μ₂，以训练样本在f₁，f₂上的取值为基础，将训练样本按条件分配到如下4个区域：f₁≥μ₁∩f₂≥μ₂，f₁≥μ₁∩f₂＜μ₂，f₁＜μ₁∩f₂≥μ₂以及f₁＜μ₁∩f₂＜μ₂，然后使用公式(4)-(6)计算对变量(f₁，f₂)在假设的垂直分布模式下的得分，记为S_v(1，2)，不妨设为0.9；(iii)簇分布模式得分：使用公式(8)计算训练样本集合内类标为1和2的两类样本的近似圆圆心，分别记为

使用公式(9)计算训练样本集合内类标为1和2的两类样本的近似圆半径，分别记为

得到两簇重叠区域以及落在重叠区域内的样本，即训练样本集合内满足：

的所有样本，x_q为某训练样本，使用公式(4)-(6)计算对变量(f₁,f₂)在假设的簇分布模式下的得分，记为S_o(1，2)，不妨设为0.8。综合(i)(ii)(iii)计算得到的三个得分，将最高得分0.9作为对变量(f₁，f₂)最终得分，即S(1，2)＝S_v(1，2)＝0.9，并将对变量(f₁,f₂)的最佳样本分布模式确定为最高得分所对应的分布模式，即垂直。对其他对变量采取相同的处理方式，计算其得分以及相应的样本分布模式，假设S(1，3)＝S_v(1，3)＝0.65，S(1，4)＝S_o(1，4)＝0.75，S(2，3)＝S_h(2，3)＝0.55，S(2，4)＝S_v(2，4)＝0.5，S(3，4)＝S_o(3，4)＝0.87。

(6)将全体对变量和单变量根据得分降序排序，排序结果为S(1，2)>S(3，4)>S(4，4)>S(3，3)>S(1，4)>S(1，1)>S(1，3)>S(2，2)>S(2，3)>S(2，4)。令k＝3，即选取排名前3者。其中，对变量(f₁，f₂)得分最高，为S(1，2)＝0.9，对应分布模式为垂直；对变量(f₃，f₄)得分次之，为S(3，4)＝0.87，对应分布模式为簇分布模式；单变量f₄得分第三，为S(4，4)＝0.8。

变量或变量对的区分能力验证：

利用三对变量构造分类器。对于对变量(f₁，f₂)，由于其采用垂直分布模式，根据未知样本在变量f₁，f₂上的取值，将其分配到下面满足条件的区域中：f₁≥μ₁∩f₂≥μ₂，f₁≥μ₁∩f₂＜μ₂，f₁＜μ₁∩f₂≥μ₂以及f₁＜μ₁∩f₂＜μ₂，不妨设样本被分配到了区域f₁≥μ₁∩f₂≥μ₂，1类样本中位于此区域的比例大于2类样本中位于此区域的比例，故将样本预测为1类；对于对变量(f₃，f₄)，由于其采用簇分布模式，根据未知样本在变量f₃，f₄上的取值，将其分配到下面满足条件的区域中，x_u为未知样本：

设样本被分配到区域

中，即仅落在1类构成的近似圆内，故将样本预测为1类；对于单变量f₄，未知样本在f₄′上的取值为f₄的最佳划分点，即d。根据未知样本在f₄，f′₄上的取值，将其分配到下面满足条件的区域中：f₄＜f′₄，f₄≥f′₄。设样本被分配到区域f₄＜f′₄中，1类样本中位于此区域的比例大于2类样本中位于此区域的比例，故将样本预测为1类。综合投票结果，将未知样本预测为1类票数为3，2类票数为0，故将样本预测为1类。计算测试集上所有样本的预测情况，并与真实类标相比较，得到分类准确率，验证所选代谢分子或代谢分子对的区分能力。

下面的表格为此方法(EC)与常用模式识别技术k-TSP和k-SF方法在两个代谢公共数据集上交叉验证50次5倍的分类准确度比较结果(准确度±标准差)。k为各方法进行分类所使用的变量数，*为t检验中p值小于0.05的显著性差异，**为p值小于0.01的显著性差异。从结果可以得出，本技术所确定的差异性分子或分子对具有较强的区分能力。

表1.准确率对比

上述表格中的乳腺癌代谢公共数据(breast)包括271例乳腺癌样本(204例***受体阳性ER+和67例***受体阴性ER-)，对于每个样本组织，采用气相色谱-飞行时间质谱联用技术(GC-TOFMS)测定了162种已知化学结构的代谢产物。图1-3为使用交叉验证50次5倍，选择变量数设为3的情况下，本方法选择频率最高的前三位，分别为单变量f₃₅(图1)，对变量(f₁₃，f₃₅)(图2，垂直分布模式)，以及对变量(f₇，f₁₄₇)(图3，垂直分布模式)，图中叉点为***受体阴性患者组织(ER-)，圆点为***受体阳性患者组织(ER+)。从图中可以得出，此技术找出的变量所构成的空间中，两类样本在方法确定的分布模式下呈现清晰的类间分离趋势，该技术从代谢数据中挖掘了信息丰富的变量，为后续靶向代谢研究提供了方向，具有较强的应用价值。

Claims

1.一种代谢组分子变量综合筛选方法，其特征在于，步骤如下：

使用LC-MS，GC-MS技术检测所研究问题的样本中的小分子代谢成分，相对分子量1000以下，并确定这些成分在不同样本中的含量；将各种成分看作变量，将成分的含量看作变量的值；

将样本集合划分为训练集和测试集两部分，训练集用于构建筛选模型，测试集用于验证；令F＝{f₁，f₂，...，f_i，...，f_m}代表变量集合，m是变量数；X＝{x₁，x₂，...，x_n}代表训练样本集合，n是训练样本数；C＝{1，2}代表类标集合；Y＝(y₁，y₂，...，y_i，...，y_n)是n个样本的类标向量，其中y_i∈C是第i个样本的类标；

步骤一、计算单变量得分；

(1.1)获取单变量最佳***点：首先将变量f_i在所有训练样本上的取值进行递增顺序排列，每对不相等相邻值的中点作为此变量可能的***点，n个样本最多需计算n-1个可能的***点；对于每一个可能的***点，计算使用此***点进行训练样本集合划分时获得的信息增益，将信息增益最大的***点作为变量f_i最佳***点；公式如下：

sp^*＝argmaxIG(X，sp_k)，k＝1，2，...，n₁-1(3)

公式(1)中，IG(X，sp_k)代表变量f_i使用***点sp_k划分训练样本集合X后，得到的信息增益，n1为训练样本在变量f_i上的取值个数，n1≤n，n为样本数量，X^-代表在变量f_i上取值小于***点sp_k的训练样本构成的集合，X⁺代表在变量f_i上取值不小于***点sp_k的训练样本构成的集合，|X^-|、|X⁺|和|X|分别是X^-、X⁺与X集合的大小；公式(2)中H(X)代表信息熵，是度量样本集合纯度的一个指标，p_l为集合X中类标为l的样本的比例，H(X)的值越小，则样本集合X的纯度越高；公式(3)中，sp^*代表变量f_i最佳***点；

(1.2)计算单变量得分：对每个单变量f_i，1≤i≤m，构建对应的f_i’，f_i’在所有样本上的值，为此单变量f_i的最佳***点的值，使用变量f_i与其对应的f_i’组成(f_i，f_i’)，以在单变量f_i上及对应f_i’上的值的相对大小关系，将训练样本集合划分，得到两个区域，区域内样本分别满足：f_i＜f_i’，f_i≥f_i’；使用公式(4)-(6)进行单变量f_i区分能力得分S(i，i’)的计算：

S(x，y)＝(Comp_xy，max-Comp_xy)/Comp_xy，max(6)

公式(4)中，

为f_x和f_y所构成的二维平面上，某区域d内类标为l的样本个数，l＝1，2；

为区域d内样本总数，r为区域的个数；公式(5)中，fre_xy(l)为类标为l的样本总个数，num为样本总数；公式(6)中，S(x，y)刻画了当前划分下各个区域的样本纯度，S(x，y)越高代表当前划分越能将异类样本区分开，也就越有效；对于此处单变量得分的计算，x＝i，y＝i’，r＝2；

步骤二、计算对变量得分；

(i)对于水平分布模式，根据变量f_i和变量f_j的大小关系，将训练样本集合划分，得到两个区域，区域内样本分别满足下列条件：f_i＜f_j和f_i≥f_j；使用公式(4)-(6)，x＝i，y＝j，r＝2，进行得分的计算，记为S_h(i，j)；

(ii)对于垂直分布模式，计算变量f_i下所有训练样本的均值，记为μ_i，计算变量f_j下所有训练样本的均值，记为μ_j，根据变量f_i和变量f_j的值将训练样本集合划分，得到四个区域，区域内样本分别满足：f_i≥μ_i∩f_j≥μ_j，f_i≥μ_i∩f_j＜μ_j，f_i＜μ_i∩f_j≥μ_j以及f_i＜μ_i∩f_j＜μ_j；使用公式(4)-(6)，x＝i，y＝j，r＝4，进行得分的计算，记为S_v(i，j)；

(iii)对于簇分布模式，先移除训练集内每类样本中的离群样本，保留有效范围内的样本，构成新的样本集X’；类l样本的有效范围如下：

其中，

和

分别为：变量f_i在训练集类标为l的样本上的均值和标准差；则训练集类标为l的样本的中心

的计算公式为：

其中，

与

分别为类l样本集合的中心V_l ^ij在变量f_i和变量f_j上的值；x_q为训练集某样本，

和

为样本x_q在变量f_i和变量f_j上的值；y_q为样本x_q的类别；随后，令d(V_l ^ij，x_q)为样本x_q离类l样本中心V_l ^ij的欧式距离，计算训练集所有类l有效样本离类l样本中心

的最大距离，此距离为类l形成的近似圆区域的半径r_l ^ij，公式如下：

r_l ^ij＝max_dd(V_l ^ij，x_q)，x_q∈X’and y_q＝l，l＝1，2(9)

以不同类的样本形成的近似圆区域为基础，得到不同类的一个重叠区域，并得到位于重叠区域的样本，即满足d(V₁ ^ij，x_q)≤r₁ ^ij且

x_q为训练集内某样本；使用公式(4)-(6)，x＝i，y＝j，r＝1，进行得分的计算，记为S_o(i，j)；

比较三个模式(i)-(iii)相对应的三个得分，取三个得分中最大者为对变量最终得分，即S(i，j)＝max{S_o(i，j)，S_h(i，j)，S_v(i，j)}，将对变量的模式确定为最高得分对应的模式；

步骤三、选择得分最高的前k个单变量或对变量；

将所有对变量和单变量根据得分进行降序排序，令所选集合

将对变量(f_i，f_j)或者单变量f_i按降序顺序加入P_k；当前欲加入对变量(f_i，f_j)，f_i或者f_j已出现在集合P_k中某个对变量中，且此对变量与(f_i，f_j)采用相同的样本分布模式时，则不将此对变量(f_i，f_j)加入，而继续考虑将得分次高者加入P_k，迭代此加入的过程，直到集合P_k的大小|P_k|＝k为止；

步骤四、利用最优变量构造分类器，进行变量性能验证；

使用P_k中的对变量或单变量建立分类器，通过多数投票的方式融合各个基分类器的预测结果；基分类器分类原理如下：

(4.1)对于单变量f_i：

(A)当待预测样本变量f_i的取值小于f_i’的取值时：1类样本中变量f_i小于f_i’的比例大于2类样本中变量f小于f_i’的比例，则将样本预测为1类，否则预测为2类；

(B)当待预测样本变量f_i的取值大于等于f_i’的取值时：1类样本中变量f_i大于等于f_i’的比例大于2类样本中变量f_i大于等于f_i’的比例，则将样本预测为1类，否则，预测为2类；

(4.2)对于对变量(f_i，f_j)，当其采用水平分布模式时：

(A)当待预测样本变量f_i的取值小于变量f_j的取值时：1类样本中变量f_i小于变量f_j的比例大于2类样本中变量f_i小于变量f_j的比例，则将样本预测为1类，否则预测为2类；

(B)当待预测样本变量f_i的取值大于等于变量f_j的取值时：1类样本中变量f_i大于等于变量f_j的比例大于2类样本中变量f_i大于等于变量f_j的比例，则将样本预测为1类，否则，预测为2类；

(4.3)对于对变量(f_i，f_j)，当其采用垂直分布模式时：

(4.4)对于对变量(f_i，f_j)，当其采用簇分布模式时，令d(V_l ^ij，x_u)为f_i，f_j构成的二维平面上，待预测样本x_u与类l圆心V_l ^ij的欧式距离，r_l为类l样本构成的圆的半径，l＝1，2：

(A)当待预测样本x_u位于两圆公共区域，即d(V₁ ^ij，x_u)≤r₁∩d(V₂ ^ij，x_u)≤r₂时：统计f_i，f_j构成的二维平面上，与待预测样本最近的3个样本中，两类样本的数量，取数量较多的类作为预测样本的类；

(B)当待预测样本x_u仅位于其中一个圆内，即d(V₁ ^ij，x_u)≤r₁∩d(V₂ ^ij，x_u)＞r₂或d(V₂ ^ij，x_u)＞r₁∩d(V₂ ^ij，x_u)≤r₂：待预测样本x_u的类为所在圆的所属类；

(C)当待预测样本x_u位于两圆之外，即d(V₁ ^ij，x_u)＞r₁∩d(V₂ ^ij，x_u)＞r₂时：当满足：

则将其预测为1类，否则预测为2类。