CN109856307B - 一种代谢组分子变量综合筛选技术 - Google Patents

一种代谢组分子变量综合筛选技术 Download PDF

Info

Publication number
CN109856307B
CN109856307B CN201910238318.6A CN201910238318A CN109856307B CN 109856307 B CN109856307 B CN 109856307B CN 201910238318 A CN201910238318 A CN 201910238318A CN 109856307 B CN109856307 B CN 109856307B
Authority
CN
China
Prior art keywords
sample
variable
class
samples
variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910238318.6A
Other languages
English (en)
Other versions
CN109856307A (zh
Inventor
林晓惠
李佳林
张艳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910238318.6A priority Critical patent/CN109856307B/zh
Publication of CN109856307A publication Critical patent/CN109856307A/zh
Application granted granted Critical
Publication of CN109856307B publication Critical patent/CN109856307B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种代谢组分子变量综合筛选技术,属于代谢组学数据分析技术领域。本发明中考量了分子对变量上多种可能的样本分布模式,对分子对变量的区分能力进行了综合的评价,并使用与分子对变量相同的指标,有机融合了单变量评价过程,将所有单变量和对变量的评分进行排序,选择得分最高的对变量及其分布模式或单变量进行后续靶向代谢分析。该方法的核心技术基于代谢组学的实际特点,对对变量上多种可能样本分布模式进行了多角度分析与综合评价,挖掘了信息丰富的变量,对所选分子变量和分子对变量进行分类测试,分类性能优越,故本发明为代谢组学数据的前期分析处理提供了切实有效的方法,具有较强的应用价值。

Description

一种代谢组分子变量综合筛选技术
技术领域
本发明属于代谢组学数据分析技术领域,发明结合当前高通量技术下非靶向代谢组变量多,噪音多,生物体代谢组中分子以各种通路相互关联,分子变量之间关系复杂多样等实际特点,分析样本在成对分子变量上多种可能的分布情况,对成对分子的类间区分能力进行综合评价,并使用统一指标,有机融合单分子的评价过程,有助于迅速从非靶向代谢组中筛选差异性代谢成分或组合代谢成分,来进行后续针对性定性定量研究,是一种代谢组分子变量综合评价筛选技术。
背景技术
代谢产物是基因表达的最终产物,在代谢酶的作用下生成。代谢物更多地反映了细胞所处的环境,这又与细胞的营养状态,药物和环境污染物的作用,以及其它外界因素的影响密切相关。研究人员通过对机体代谢产物进行深入研究,可以判断机体处于何种状态,而对基因和蛋白质的研究都无法得出这样的结论。代谢物的研究渗透多个领域,包括营养食品科学、毒理学、环境学、植物学等,代谢组学研究具有广泛的前景。
非靶向代谢组学(Untargeted metabolomics)是指采用LC-MS、GC-MS、NMR技术,无偏向性的检测机体受到刺激或扰动前后所有小分子代谢物,是代谢组学研究的重要步骤。但是,随着高通量检测技术的发展,代谢组学数据维度越来越高、由于实验,设备等原因,数据中噪音多、由于实验成本等原因,实验中涉及的样本量通常较小,由于这些特点的存在,非靶向代谢物分析受干扰较多,确定与问题相关代谢物的难度越来越大,从非靶向代谢实验中充分利用代谢组所携带的信息,快速且准确地确定与关键差异性代谢分子,为当前问题的进一步研究提供线索和方向的新技术,对于代谢组学研究具有重要的意义。
代谢反应机制十分复杂,代谢物以各类通路反应的形式相互关联,代谢分子变量间存在密切联系,其中蕴含丰富的信息,单分子反映差异的能力有限,差异有很大一部分反应在变量的组合形式上,仅研究单分子将忽略重要信息。分子变量间关系复杂而多样,不同变量对构成的二维平面空间上,样本的分布模式多种多样,对组合变量区分能力的判定需要根据情况作出变化,仅研究的单一的样本分布模式将对组合变量的区分能力产生误判,从而丢失大量有用信息,故需要进行组合变量的综合评价。
本发明在综合分析多种实际代谢组学数据的基础上,提出了一种代谢组变量综合筛选技术,该技术构建所有的对变量,对对变量分别进行多种假设样本分布模式下的类间区分能力评分,选取最高评分作为对变量的最终得分,并将最终得分相对应的样本分布模式确定为对变量的最佳样本分布模式。技术中融合了单变量评价过程,使用信息增益对每个单变量计算最佳划分点,使用与对变量评价过程相统一的指标,计算最佳划分点下的单变量类间区分能力评分。将所有单变量和对变量的评分进行排序,筛选得分最高的对变量及其分布模式(或单变量)进行后续靶向生物学分析。
发明内容
本发明的目的是基于代谢组分子变量多、数据噪音大、分子变量间关系复杂多样,难以用单一模式进行刻画的特点,建立一种能迅速确定差异性分子变量或分子组合变量的综合评价筛选方法。该方法的核心技术为:代谢分子对变量上多种可能样本分布模式的分析与综合评价。方法中,构建所有的对变量,对每对对变量所构成的二维平面,技术将分别分析可能呈现的几种样本分布模式:(1)两类样本在两个变量上的相对含量存在较大差异,或描述为:在两个变量构建的二维平面上,两类样本分别位于第一,三象限对角线的上下方,此情况下,样本呈现为水平分布模式;(2)两类样本在两个变量构建的二维平面上,分别分布于两变量的样本均值线相交叉构成的四个区域中,此情况下,样本呈现垂直分布模式;(3)两类样本在两个变量构建的二维平面上,分别近似形成两个分离的簇,但又不符合(1)(2)中描述的分布模式,此情况下,样本呈现簇分布模式;对每对变量的区分能力分别在三种假设样本分布模式下进行评分,选取最高评分作为对变量的最终得分,将最终得分相对应的样本分布模式确定为对变量的最佳分布模式。对单变量,根据信息增益找最佳分割点,使用最佳分割点分配样本,并使用在对变量分析中相同的指标计算此分配下单变量的得分。将所有单变量和对变量的评分进行排序,选择得分最高的对变量(或单变量),进行代谢物靶向研究。
为了实现上述目标,本发明采用的技术方案如下:
一种代谢组分子变量综合筛选技术,步骤如下:
使用LC-MS,GC-MS技术检测所研究问题的样本中的小分子代谢成分(相对分子量1000以下),并确定这些成分在不同样本中的含量。将各种成分看作变量,将成分的含量看作变量的值。
将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证。令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标。
步骤一、计算单变量得分;
(1.1)获取单变量最佳***点:首先将变量fi在所有训练样本上的取值进行递增顺序排列,每对不相等相邻值的中点作为此变量可能的***点,n个样本最多需计算n-1个可能的***点。对于每一个可能的***点,计算使用此***点进行训练样本集合划分时获得的信息增益,将信息增益最大的***点作为变量fi最佳***点。公式如下:
Figure BDA0002008900660000041
Figure BDA0002008900660000042
sp*=argmaxIG(X,spk),k=1,2,...,n1-1 (3)
公式(1)中,IG(X,spk)代表变量fi使用***点spk划分训练样本集合X后,得到的信息增益,n1为训练样本在变量fi上的取值个数,n1≤n,n为样本数量,X-代表在变量fi上取值小于***点spk的训练样本构成的集合,X+代表在变量fi上取值不小于***点spk的训练样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X集合的大小;公式(2)中H(X)代表信息熵,是度量样本集合纯度的一个指标,pl为集合X中类标为l的样本的比例,H(X)的值越小,则样本集合X的纯度越高;公式(3)中,sp*代表变量fi最佳***点。
(1.2)计算单变量得分:对每个单变量fi,1≤i≤m,构建对应的f′i,f′i在所有样本上的值,为此单变量fi的最佳划分点的值,使用变量fi与其对应的f′i组成(fi,f′i),以在单变量fi上及对应f′i上的值的相对大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足:fi<f′i,fi≥f′i。使用公式(4)-(6)进行单变量fi区分能力得分S(i,i′)的计算:
Figure BDA0002008900660000043
Figure BDA0002008900660000044
S(x,y)=(Compxy,max-Compxy)/Compxy,max (6)
公式(4)中,
Figure BDA0002008900660000045
为fx和fy所构成的二维平面上,某区域d内类标为l的样本个数,l=1,2。
Figure BDA00020089006600000512
为区域d内样本总数,r为区域的个数;公式(5)中,frexy(l)为类标为l的样本总个数,num为样本总数;公式(6)中,S(x,y)刻画了当前划分下各个区域的样本纯度,S(x,y)越高代表当前划分越能将异类样本区分开,也就越有效;对于此处单变量得分的计算,x=i,y=i′,r=2。
步骤二、计算对变量得分;
对每个对变量(fi,fj),1≤i<j≤m,分别分析其形成的二维平面上,三种样本分布模式:
(i)对于水平分布模式,根据变量fi和变量fj的大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足下列条件:fi<fj和fi≥fj。使用公式(4)-(6),x=i,y=j,r=2,进行得分的计算,记为Sh(i,j);
(ii)对于垂直分布模式,计算变量fi下所有训练样本的均值,记为μi,计算变量fj下所有训练样本的均值,记为μj,根据变量fi和变量fj的值将训练样本集合划分,得到四个区域,区域内样本分别满足:fi≥μi∩fj≥μj,fi≥μi∩fi<μj,fi<μi∩fj≥μj以及fi<μi∩fj<μj。使用公式(4)-(6),x=i,y=j,r=4,进行得分的计算,记为Sv(i,j);
(iii)对于簇分布模式,先移除训练集内每类样本中的离群样本,保留有效范围内的样本,构成新的样本集X′。类l样本的有效范围如下:
Figure BDA0002008900660000052
其中,
Figure BDA0002008900660000053
Figure BDA0002008900660000054
分别为:变量fi在训练集类标为l的样本上的均值和标准差。则训练集类标为l的样本的中心
Figure BDA0002008900660000055
的计算公式为:
Figure BDA0002008900660000056
其中,
Figure BDA0002008900660000057
Figure BDA0002008900660000058
分别为类l样本集合的中心
Figure BDA00020089006600000513
在变量fi和变量fj上的值;xq为训练集某样本,
Figure BDA00020089006600000510
Figure BDA00020089006600000511
为样本xq在变量fi和变量fj上的值;yq为样本xq的类别;随后,令
Figure BDA0002008900660000061
为样本xq离类l样本中心
Figure BDA0002008900660000062
的欧式距离,计算训练集所有类l有效样本离类l样本中心
Figure BDA0002008900660000063
的最大距离,此距离为类l形成的近似圆区域的半径
Figure BDA0002008900660000064
公式如下:
Figure BDA0002008900660000065
Figure BDA0002008900660000066
以不同类的样本形成的近似圆区域为基础,得到不同类的一个重叠区域,并得到位于重叠区域的样本,即满足
Figure BDA0002008900660000067
Figure BDA0002008900660000068
xq为训练集内某样本。使用公式(4)-(6),x=i,y=j,r=1,进行得分的计算,记为So(i,j);
比较三个模式(i)-(iii)相对应的三个得分,取三个得分中最大者为对变量最终得分,即S(i,j)=max{So(i,j),Sh(i,j),Sv(i,j)},将对变量的模式确定为最高得分对应的模式。
步骤三、选择得分最高的前k个单变量或对变量;
将所有对变量和单变量根据得分进行降序排序,令所选集合
Figure BDA0002008900660000069
将对变量(fi,fj)或者单变量fi按降序顺序加入Pk。当前欲加入对变量(fi,fj),fi或者f已出现在集合Pk中某个对变量中,且此对变量与(fi,fj)采用相同的样本分布模式时,则不将此对变量(fi,fj)加入,而继续考虑将得分次高者加入Pk,迭代此加入的过程,直到集合Pk的大小|Pk|=k为止。
步骤四、利用最优变量构造分类器,进行变量性能验证;
使用Pk中的对变量或单变量建立分类器,通过多数投票的方式融合各个基分类器的预测结果。基分类器分类原理如下:
(4.1)对于单变量fi
(A)当待预测样本变量fi的取值小于f′i的取值时:1类样本中变量fi小于f′i的比例大于2类样本中变量f小于f′i的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于f′i的取值时:1类样本中变量fi大于等于f′i的比例大于2类样本中变量fi大于等于f′i的比例,则将样本预测为1类,否则,预测为2类;
(4.2)对于对变量(fi,fj),当其采用水平分布模式时:
(A)当待预测样本变量fi的取值小于变量fj的取值时:1类样本中变量fii小于变量fj的比例大于2类样本中变量fi小于变量fj的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于变量fj的取值时:1类样本中变量fi大于等于变量fj的比例大于2类样本中变量fj大于等于变量fj的比例,则将样本预测为1类,否则,预测为2类;
(4.3)对于对变量(fi,fj),当其采用垂直分布模式时:
(A)当待预测样本变量fi与fj的取值满足fi≥μi∩fj≥μj时:1类样本中满足fi≥μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi与fj的取值满足fi≥μi∩fj<μj时:1类样本中满足fi≥μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(C)当待预测样本变量fi与fj的取值满足fi<μi∩fj≥μj时:1类样本中满足fi<μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(D)当待预测样本变量fi与fj的取值满足fi<μi∩fj<μj时:1类样本中满足fi<μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(4.4)对于对变量(fi,fj),当其采用簇分布模式时,令
Figure BDA0002008900660000081
为fi,fj构成的二维平面上,待预测样本xu与类l圆心
Figure BDA0002008900660000082
的欧式距离,rl为类l样本构成的圆的半径,l=1,2:
(A)当待预测样本xu位于两圆公共区域,即
Figure BDA00020089006600000811
Figure BDA00020089006600000810
时:统计fi,fj构成的二维平面上,与待预测样本最近的3个样本中,两类样本的数量,取数量较多的类作为预测样本的类;
(B)当待预测样本xu仅位于其中一个圆内,即
Figure BDA0002008900660000085
Figure BDA0002008900660000086
Figure BDA0002008900660000087
待预测样本xu的类为所在圆的所属类;
(C)当待预测样本xu位于两圆之外,即
Figure BDA0002008900660000088
时:当满足:
Figure BDA0002008900660000089
则将其预测为1类,否则预测为2类。
本发明的有益效果:该方法的核心技术基于代谢组学的实际特点,对对变量上多种可能样本分布模式进行了多角度分析与综合评价,挖掘了信息丰富的变量,对所选分子变量和分子对变量进行分类测试,分类性能优越,故本发明为代谢组学数据的前期分析处理提供了切实有效的方法,具有较强的应用价值。
附图说明
图1为使用该方法,在乳腺代谢公共数据集上找到的区分能力排名第一的变量f35
图2为使用该方法,在乳腺代谢公共数据集上找到的区分能力排名第二的变量对f13、f35
图3为使用该方法,在乳腺代谢公共数据集上找到的区分能力排名第三的变量对f7、f147
具体实施方式
下面结合技术方案,构建假设的数据集来进一步说明本发明的具体实施方式。假设代谢数据共10个样本,包含两类(1和2),共4个代谢分子变量:f1、f2、f3和f4,将k设置为3。
变量评价与筛选:
(1)计算单变量的最佳划分点。以变量f1为例:将所有训练集样本在f1上的取值排序,依次采用相邻两个不相等的值的中点作为***点,使用公式(1)计算每个***点下,将训练样本集合划分获得的信息增益,并取最大信息增益对应的***点作为该变量的最佳***点,不妨设变量f1最佳***点的值为a,同理我们可以得到变量f2、f3和f4的最佳***点,分别设为b,c,d。
(2)利用计算得到的最佳***点,构造f′1、f′2、f′3和f′4,其中,f′1在所有训练样本上的取值为a,同理,f′2、f′3和f′4在所有训练样本上的取值分别为b,c,d。
(3)构造集合{(f1,f′1),(f2,f′2),(f3,f′3),(f4,f′4),(f1,f2),(f1,f3),(f1,f4),(f2,f3),(f2,f4),(f3,f4)}。
(4)对每个单变量fi,计算其得分S(i,i)。以f1为例,根据所有训练样本在f1和f′1上取值的大小关系,将训练样本集合划分,得到两个区域,区域内训练样本在f1和f′1上的取值分别为:f1<f′1,f1≥f′1。或者表示为:f1<a,f1≥a。利用公式(4)-(6)计算单变量f1得分S(1,1),不妨设为0.7。同理,计算单变量f2、f3和f4得分,不妨分别设为0.6,0.8,0.85。
(5)对每个对变量(fi,fj),计算其得分S(i,j)。以(f1,f2)为例,依次计算:(i)水平分布模式得分:根据训练样本在变量f1和变量f2上的值的大小关系,将训练样本集合内所有样本分配到f1<f2,f1≥f2两个区域,并使用公式(4)-(6)计算对变量(f1,f2)在假设的水平分布模式下的得分,记为Sh(1,2),不妨设为0.7;(ii)垂直分布模式得分:计算训练样本集合内所有样本在f1,f2上的均值,分别记为μ1,μ2,以训练样本在f1,f2上的取值为基础,将训练样本按条件分配到如下4个区域:f1≥μ1∩f2≥μ2,f1≥μ1∩f2<μ2,f1<μ1∩f2≥μ2以及f1<μ1∩f2<μ2,然后使用公式(4)-(6)计算对变量(f1,f2)在假设的垂直分布模式下的得分,记为Sv(1,2),不妨设为0.9;(iii)簇分布模式得分:使用公式(8)计算训练样本集合内类标为1和2的两类样本的近似圆圆心,分别记为
Figure BDA0002008900660000101
使用公式(9)计算训练样本集合内类标为1和2的两类样本的近似圆半径,分别记为
Figure BDA0002008900660000102
得到两簇重叠区域以及落在重叠区域内的样本,即训练样本集合内满足:
Figure BDA0002008900660000103
的所有样本,xq为某训练样本,使用公式(4)-(6)计算对变量(f1,f2)在假设的簇分布模式下的得分,记为So(1,2),不妨设为0.8。综合(i)(ii)(iii)计算得到的三个得分,将最高得分0.9作为对变量(f1,f2)最终得分,即S(1,2)=Sv(1,2)=0.9,并将对变量(f1,f2)的最佳样本分布模式确定为最高得分所对应的分布模式,即垂直。对其他对变量采取相同的处理方式,计算其得分以及相应的样本分布模式,假设S(1,3)=Sv(1,3)=0.65,S(1,4)=So(1,4)=0.75,S(2,3)=Sh(2,3)=0.55,S(2,4)=Sv(2,4)=0.5,S(3,4)=So(3,4)=0.87。
(6)将全体对变量和单变量根据得分降序排序,排序结果为S(1,2)>S(3,4)>S(4,4)>S(3,3)>S(1,4)>S(1,1)>S(1,3)>S(2,2)>S(2,3)>S(2,4)。令k=3,即选取排名前3者。其中,对变量(f1,f2)得分最高,为S(1,2)=0.9,对应分布模式为垂直;对变量(f3,f4)得分次之,为S(3,4)=0.87,对应分布模式为簇分布模式;单变量f4得分第三,为S(4,4)=0.8。
变量或变量对的区分能力验证:
利用三对变量构造分类器。对于对变量(f1,f2),由于其采用垂直分布模式,根据未知样本在变量f1,f2上的取值,将其分配到下面满足条件的区域中:f1≥μ1∩f2≥μ2,f1≥μ1∩f2<μ2,f1<μ1∩f2≥μ2以及f1<μ1∩f2<μ2,不妨设样本被分配到了区域f1≥μ1∩f2≥μ2,1类样本中位于此区域的比例大于2类样本中位于此区域的比例,故将样本预测为1类;对于对变量(f3,f4),由于其采用簇分布模式,根据未知样本在变量f3,f4上的取值,将其分配到下面满足条件的区域中,xu为未知样本:
Figure BDA0002008900660000111
Figure DA00020089006668569953
Figure BDA0002008900660000112
Figure BDA0002008900660000113
设样本被分配到区域
Figure BDA0002008900660000114
Figure BDA0002008900660000115
中,即仅落在1类构成的近似圆内,故将样本预测为1类;对于单变量f4,未知样本在f4′上的取值为f4的最佳划分点,即d。根据未知样本在f4,f′4上的取值,将其分配到下面满足条件的区域中:f4<f′4,f4≥f′4。设样本被分配到区域f4<f′4中,1类样本中位于此区域的比例大于2类样本中位于此区域的比例,故将样本预测为1类。综合投票结果,将未知样本预测为1类票数为3,2类票数为0,故将样本预测为1类。计算测试集上所有样本的预测情况,并与真实类标相比较,得到分类准确率,验证所选代谢分子或代谢分子对的区分能力。
下面的表格为此方法(EC)与常用模式识别技术k-TSP和k-SF方法在两个代谢公共数据集上交叉验证50次5倍的分类准确度比较结果(准确度±标准差)。k为各方法进行分类所使用的变量数,*为t检验中p值小于0.05的显著性差异,**为p值小于0.01的显著性差异。从结果可以得出,本技术所确定的差异性分子或分子对具有较强的区分能力。
Figure BDA0002008900660000121
表1.准确率对比
上述表格中的乳腺癌代谢公共数据(breast)包括271例乳腺癌样本(204例***受体阳性ER+和67例***受体阴性ER-),对于每个样本组织,采用气相色谱-飞行时间质谱联用技术(GC-TOFMS)测定了162种已知化学结构的代谢产物。图1-3为使用交叉验证50次5倍,选择变量数设为3的情况下,本方法选择频率最高的前三位,分别为单变量f35(图1),对变量(f13,f35)(图2,垂直分布模式),以及对变量(f7,f147)(图3,垂直分布模式),图中叉点为***受体阴性患者组织(ER-),圆点为***受体阳性患者组织(ER+)。从图中可以得出,此技术找出的变量所构成的空间中,两类样本在方法确定的分布模式下呈现清晰的类间分离趋势,该技术从代谢数据中挖掘了信息丰富的变量,为后续靶向代谢研究提供了方向,具有较强的应用价值。

Claims (1)

1.一种代谢组分子变量综合筛选方法,其特征在于,步骤如下:
使用LC-MS,GC-MS技术检测所研究问题的样本中的小分子代谢成分,相对分子量1000以下,并确定这些成分在不同样本中的含量;将各种成分看作变量,将成分的含量看作变量的值;
将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证;令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练样本集合,n是训练样本数;C={1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标;
步骤一、计算单变量得分;
(1.1)获取单变量最佳***点:首先将变量fi在所有训练样本上的取值进行递增顺序排列,每对不相等相邻值的中点作为此变量可能的***点,n个样本最多需计算n-1个可能的***点;对于每一个可能的***点,计算使用此***点进行训练样本集合划分时获得的信息增益,将信息增益最大的***点作为变量fi最佳***点;公式如下:
Figure FDA0002774255850000011
Figure FDA0002774255850000012
sp*=argmaxIG(X,spk),k=1,2,...,n1-1(3)
公式(1)中,IG(X,spk)代表变量fi使用***点spk划分训练样本集合X后,得到的信息增益,n1为训练样本在变量fi上的取值个数,n1≤n,n为样本数量,X-代表在变量fi上取值小于***点spk的训练样本构成的集合,X+代表在变量fi上取值不小于***点spk的训练样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X集合的大小;公式(2)中H(X)代表信息熵,是度量样本集合纯度的一个指标,pl为集合X中类标为l的样本的比例,H(X)的值越小,则样本集合X的纯度越高;公式(3)中,sp*代表变量fi最佳***点;
(1.2)计算单变量得分:对每个单变量fi,1≤i≤m,构建对应的fi’,fi’在所有样本上的值,为此单变量fi的最佳***点的值,使用变量fi与其对应的fi’组成(fi,fi’),以在单变量fi上及对应fi’上的值的相对大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足:fi<fi’,fi≥fi’;使用公式(4)-(6)进行单变量fi区分能力得分S(i,i’)的计算:
Figure FDA0002774255850000021
Figure FDA0002774255850000022
S(x,y)=(Compxy,max-Compxy)/Compxy,max(6)
公式(4)中,
Figure FDA0002774255850000023
为fx和fy所构成的二维平面上,某区域d内类标为l的样本个数,l=1,2;
Figure FDA0002774255850000024
为区域d内样本总数,r为区域的个数;公式(5)中,frexy(l)为类标为l的样本总个数,num为样本总数;公式(6)中,S(x,y)刻画了当前划分下各个区域的样本纯度,S(x,y)越高代表当前划分越能将异类样本区分开,也就越有效;对于此处单变量得分的计算,x=i,y=i’,r=2;
步骤二、计算对变量得分;
对每个对变量(fi,fj),1≤i<j≤m,分别分析其形成的二维平面上,三种样本分布模式:
(i)对于水平分布模式,根据变量fi和变量fj的大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足下列条件:fi<fj和fi≥fj;使用公式(4)-(6),x=i,y=j,r=2,进行得分的计算,记为Sh(i,j);
(ii)对于垂直分布模式,计算变量fi下所有训练样本的均值,记为μi,计算变量fj下所有训练样本的均值,记为μj,根据变量fi和变量fj的值将训练样本集合划分,得到四个区域,区域内样本分别满足:fi≥μi∩fj≥μj,fi≥μi∩fj<μj,fi<μi∩fj≥μj以及fi<μi∩fj<μj;使用公式(4)-(6),x=i,y=j,r=4,进行得分的计算,记为Sv(i,j);
(iii)对于簇分布模式,先移除训练集内每类样本中的离群样本,保留有效范围内的样本,构成新的样本集X’;类l样本的有效范围如下:
Figure FDA0002774255850000031
其中,
Figure FDA0002774255850000032
Figure FDA0002774255850000033
分别为:变量fi在训练集类标为l的样本上的均值和标准差;则训练集类标为l的样本的中心
Figure FDA0002774255850000034
的计算公式为:
Figure FDA0002774255850000035
其中,
Figure FDA0002774255850000036
Figure FDA0002774255850000037
分别为类l样本集合的中心Vl ij在变量fi和变量fj上的值;xq为训练集某样本,
Figure FDA0002774255850000038
Figure FDA0002774255850000039
为样本xq在变量fi和变量fj上的值;yq为样本xq的类别;随后,令d(Vl ij,xq)为样本xq离类l样本中心Vl ij的欧式距离,计算训练集所有类l有效样本离类l样本中心
Figure FDA00027742558500000310
的最大距离,此距离为类l形成的近似圆区域的半径rl ij,公式如下:
rl ij=maxdd(Vl ij,xq),xq∈X’and yq=l,l=1,2(9)
Figure FDA00027742558500000311
以不同类的样本形成的近似圆区域为基础,得到不同类的一个重叠区域,并得到位于重叠区域的样本,即满足d(V1 ij,xq)≤r1 ij
Figure FDA00027742558500000312
xq为训练集内某样本;使用公式(4)-(6),x=i,y=j,r=1,进行得分的计算,记为So(i,j);
比较三个模式(i)-(iii)相对应的三个得分,取三个得分中最大者为对变量最终得分,即S(i,j)=max{So(i,j),Sh(i,j),Sv(i,j)},将对变量的模式确定为最高得分对应的模式;
步骤三、选择得分最高的前k个单变量或对变量;
将所有对变量和单变量根据得分进行降序排序,令所选集合
Figure FDA0002774255850000041
将对变量(fi,fj)或者单变量fi按降序顺序加入Pk;当前欲加入对变量(fi,fj),fi或者fj已出现在集合Pk中某个对变量中,且此对变量与(fi,fj)采用相同的样本分布模式时,则不将此对变量(fi,fj)加入,而继续考虑将得分次高者加入Pk,迭代此加入的过程,直到集合Pk的大小|Pk|=k为止;
步骤四、利用最优变量构造分类器,进行变量性能验证;
使用Pk中的对变量或单变量建立分类器,通过多数投票的方式融合各个基分类器的预测结果;基分类器分类原理如下:
(4.1)对于单变量fi
(A)当待预测样本变量fi的取值小于fi’的取值时:1类样本中变量fi小于fi’的比例大于2类样本中变量f小于fi’的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于fi’的取值时:1类样本中变量fi大于等于fi’的比例大于2类样本中变量fi大于等于fi’的比例,则将样本预测为1类,否则,预测为2类;
(4.2)对于对变量(fi,fj),当其采用水平分布模式时:
(A)当待预测样本变量fi的取值小于变量fj的取值时:1类样本中变量fi小于变量fj的比例大于2类样本中变量fi小于变量fj的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi的取值大于等于变量fj的取值时:1类样本中变量fi大于等于变量fj的比例大于2类样本中变量fi大于等于变量fj的比例,则将样本预测为1类,否则,预测为2类;
(4.3)对于对变量(fi,fj),当其采用垂直分布模式时:
(A)当待预测样本变量fi与fj的取值满足fi≥μi∩fj≥μj时:1类样本中满足fi≥μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(B)当待预测样本变量fi与fj的取值满足fi≥μi∩fj<μj时:1类样本中满足fi≥μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(C)当待预测样本变量fi与fj的取值满足fi<μi∩fj≥μj时:1类样本中满足fi<μi∩fj≥μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(D)当待预测样本变量fi与fj的取值满足fi<μi∩fj<μj时:1类样本中满足fi<μi∩fj<μj的比例大于2类样本中的比例,则将样本预测为1类,否则预测为2类;
(4.4)对于对变量(fi,fj),当其采用簇分布模式时,令d(Vl ij,xu)为fi,fj构成的二维平面上,待预测样本xu与类l圆心Vl ij的欧式距离,rl为类l样本构成的圆的半径,l=1,2:
(A)当待预测样本xu位于两圆公共区域,即d(V1 ij,xu)≤r1∩d(V2 ij,xu)≤r2时:统计fi,fj构成的二维平面上,与待预测样本最近的3个样本中,两类样本的数量,取数量较多的类作为预测样本的类;
(B)当待预测样本xu仅位于其中一个圆内,即d(V1 ij,xu)≤r1∩d(V2 ij,xu)>r2或d(V2 ij,xu)>r1∩d(V2 ij,xu)≤r2:待预测样本xu的类为所在圆的所属类;
(C)当待预测样本xu位于两圆之外,即d(V1 ij,xu)>r1∩d(V2 ij,xu)>r2时:当满足:
Figure FDA0002774255850000061
则将其预测为1类,否则预测为2类。
CN201910238318.6A 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术 Expired - Fee Related CN109856307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910238318.6A CN109856307B (zh) 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910238318.6A CN109856307B (zh) 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术

Publications (2)

Publication Number Publication Date
CN109856307A CN109856307A (zh) 2019-06-07
CN109856307B true CN109856307B (zh) 2021-04-16

Family

ID=66902186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910238318.6A Expired - Fee Related CN109856307B (zh) 2019-03-27 2019-03-27 一种代谢组分子变量综合筛选技术

Country Status (1)

Country Link
CN (1) CN109856307B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890130B (zh) * 2019-12-03 2022-09-20 大连理工大学 基于多类型关系的生物网络模块标志物识别方法
CN111739581B (zh) * 2020-06-12 2022-10-18 大连理工大学 一种基因组变量综合筛选方法
BR102020015916A2 (pt) * 2020-08-04 2022-02-15 Universidade Estadual De Campinas - Unicamp Método automático para seleção molecular

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050162A (zh) * 2013-03-11 2014-09-17 富士通株式会社 数据处理方法和数据处理装置
CN104699707A (zh) * 2013-12-06 2015-06-10 深圳先进技术研究院 一种聚类数据的方法和装置
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN105424827A (zh) * 2015-11-07 2016-03-23 大连理工大学 一种代谢组学数据随机误差的筛选和校正方法
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
WO2018067886A2 (en) * 2016-10-05 2018-04-12 Nantomics, Llc Stress induced mutations as a hallmark of cancer
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN108537003A (zh) * 2018-03-30 2018-09-14 大连理工大学 基于单变量和对变量的标志物筛选方法
CN108595585A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 样本数据分类方法、模型训练方法、电子设备及存储介质
CN109214462A (zh) * 2018-09-25 2019-01-15 东北大学 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法
CN109508087A (zh) * 2018-09-25 2019-03-22 易念科技(深圳)有限公司 脑纹信号识别方法及终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956779B2 (en) * 2015-03-26 2021-03-23 Oracle International Corporation Multi-distance clustering

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050162A (zh) * 2013-03-11 2014-09-17 富士通株式会社 数据处理方法和数据处理装置
CN104699707A (zh) * 2013-12-06 2015-06-10 深圳先进技术研究院 一种聚类数据的方法和装置
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN105424827A (zh) * 2015-11-07 2016-03-23 大连理工大学 一种代谢组学数据随机误差的筛选和校正方法
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
WO2018067886A2 (en) * 2016-10-05 2018-04-12 Nantomics, Llc Stress induced mutations as a hallmark of cancer
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法
CN108537003A (zh) * 2018-03-30 2018-09-14 大连理工大学 基于单变量和对变量的标志物筛选方法
CN108595585A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 样本数据分类方法、模型训练方法、电子设备及存储介质
CN109214462A (zh) * 2018-09-25 2019-01-15 东北大学 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法
CN109508087A (zh) * 2018-09-25 2019-03-22 易念科技(深圳)有限公司 脑纹信号识别方法及终端设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A new feature selection method based on a validity index of feature subset;Chuan Liu et al;《Pattern Recognition Letters》;20170322;第92卷;1-8 *
Analyzing omics data by pair-wise feature evaluation with horizontal and vertical comparisons;Xin Huang et al;《Journal of Pharmaceutical and Biomedical Analysis》;20180501;第157卷;20-26 *
基于***式K均值聚类的图像分割方法;张健 等;《计算机应用》;20110228(第02期);372-374 *
基于加权的K-modes聚类初始中心选择算法;江峰 等;《山东大学学报(工学版)》;20160430(第02期);29-34 *

Also Published As

Publication number Publication date
CN109856307A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109856307B (zh) 一种代谢组分子变量综合筛选技术
Blekherman et al. Bioinformatics tools for cancer metabolomics
Hsu et al. An unsupervised hierarchical dynamic self-organizing approach to cancer class discovery and marker gene identification in microarray data
Liu et al. RPCA-based tumor classification using gene expression data
Mccarthy et al. Applications of machine learning and high‐dimensional visualization in cancer detection, diagnosis, and management
Wirth et al. Mining SOM expression portraits: feature selection and integrating concepts of molecular function
Nassar et al. Precision medicine: steps along the road to combat human cancer
CN105938523B (zh) 基于特征辨识度和独立性的基因选择方法
CN101145171A (zh) 一种基于独立分量集成学习的基因微阵列数据预测方法
CN104866863B (zh) 一种生物标志物筛选方法
CN110890130B (zh) 基于多类型关系的生物网络模块标志物识别方法
CN110322930B (zh) 基于水平关系的代谢组学网络标志物识别方法
CN108537003B (zh) 基于单变量和对变量的标志物筛选方法
Dutkowski et al. On consensus biomarker selection
Arslan et al. Machine learning in epigenomics: Insights into cancer biology and medicine
Huang et al. Spectral clustering strategies for heterogeneous disease expression data
CN105447844A (zh) 一种复杂多变量数据的特征选择新方法
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
Lian et al. Artificial-cell-type aware cell-type classification in CITE-seq
Folcarelli et al. Automated flow cytometric identification of disease-specific cells by the ECLIPSE algorithm
Phan et al. Functional genomics and proteomics in the clinical neurosciences: data mining and bioinformatics
Qiu et al. Unsupervised learning framework with multidimensional scaling in predicting epithelial-mesenchymal transitions
ShahrjooiHaghighi et al. Ensemble feature selection for biomarker discovery in mass spectrometry-based metabolomics
Feng et al. MSFC: a new feature construction method for accurate diagnosis of mass spectrometry data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210416

CF01 Termination of patent right due to non-payment of annual fee