CN107798217B - 基于特征对的线性关系的数据分析方法 - Google Patents

基于特征对的线性关系的数据分析方法 Download PDF

Info

Publication number
CN107798217B
CN107798217B CN201710967812.7A CN201710967812A CN107798217B CN 107798217 B CN107798217 B CN 107798217B CN 201710967812 A CN201710967812 A CN 201710967812A CN 107798217 B CN107798217 B CN 107798217B
Authority
CN
China
Prior art keywords
feature
pair
linear combination
features
pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710967812.7A
Other languages
English (en)
Other versions
CN107798217A (zh
Inventor
林晓惠
张艳慧
王珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710967812.7A priority Critical patent/CN107798217B/zh
Publication of CN107798217A publication Critical patent/CN107798217A/zh
Application granted granted Critical
Publication of CN107798217B publication Critical patent/CN107798217B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征对的线性关系的数据分析方法,属于生物数据分析技术领域,一种从生物大数据中挖掘特征对之间有效的线性组合关系,并利用区分能力强的特征对的线性组合关系构建融合分类模型对生物样本进行分类的方法。本方法首先对每一对特征构造SVM分类模型的超平面,得到其线性组合关系;给出第一准则和第二准则评价每一对特征对线性组合关系的区分能力;选择区分能力最强的k≥1对组合关系构建融合分类模型。本发明的核心内容是通过SVM和成对分析挖掘隐藏在生物大数据中的重要信息,建立有效的分类模型,寻找疾病诊断的潜在生物标志物。

Description

基于特征对的线性关系的数据分析方法
技术领域
本发明属于生物数据分析技术领域,通过分析、评价特征之间的线性关系,确定潜在的标志物,从而预测样本的类标。
背景技术
基因、蛋白、代谢等组学数据通常维数极高,如何从组学大数据中挖掘出重要的信息,对疾病诊断、药物研发、个性化治疗等具有重要的意义。
在复杂的生命活动中,分子之间相互关联、相互作用,共同反映生命活动的变化。因此,研究特征之间的相互关系,发现隐藏在生物数据中的富含信息的特征已经日益引起人们的关注。Top scoring pair(TSP)算法从水平关系角度成对分析、评价特征,选择区分能力最高的特征对构建分类模型;k-TSP算法选择区分能力最高的k≥1对特征,采用简单多数投票机制构建融合的分类模型。TSP和k-TSP采用少数特征对,利用特征对的水平关系预测未知样本,简单且易于获得生物学的解释。Relative Simplicity(RS)方法从水平、垂直等多角度评价特征的相互关系,确定富含信息的特征。
本发明对特征对的线性关系进行研究,给出基于特征对的线性关系的数据分析方法LC-k-TSP。该方法利用SVM构造特征对的最佳线性组合方式,并根据SVM的分类原理,给出评价特征对的线性组合关系的两个准则:第一准则和第二准则;根据该二准则对特征对的线性组合关系的评价结果,选择区分能力最强的k≥1对特征,构建融合分类器。本发明利用特征对的线性组合关系对样本进行分类,在生物学领域中有着广泛的实际应用价值。
发明内容
本发明为了挖掘生物数据中富含信息的标志特征,从而对未知样本进行准确分类,本发明提出一种基于特征对的线性关系的数据分析方法。对于二分类问题,令F={f1,…,fp}表示特征集合,该方法成对考察特征,对于每一对特征fi,fj∈F,1≤i≠j≤p,建立SVM分类模型,得到基于特征fi,fj的SVM超平面,从而得到该特征对的线性组合。统计分析两类样本在特征对fi,fj的线性组合关系上的差异,计算特征对fi,fj的第一指标值Δij和第二指标值Γij,根据Δij和Γij评价特征对的线性组合关系的区分能力。Δij的取值范围为[0,1],该值越大说明特征fi和fj对应的线性组合关系区分两类样本的能力越大。本发明首先根据每一对特征的Δ值,对所有特征对进行降序排序。如果两对特征的Δ值相同,则采用第二指标对特征的线性组合关系的区分能力进一步的比较。LC-k-TSP方法根据特征对排序结果,选择得分最高的k≥1对特征,利用简单多数投票方式构建融合分类器。
本发明的技术方案:
基于特征对的线性关系的数据分析方法,步骤如下:
令F={f1,…,fp}表示特征集合,X={x1,x2,...,xn}表示样本集合,C={c1,c2}表示样本类标集合,Y={y1,…,yn}是n个样本的类标向量,其中,yt∈C,t∈{1,…,n};对于每一对特征fi和fj,1≤i≠j≤p,首先使用线性核函数在该特征对上构建SVM分类超平面αijfiijfjij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ,计算每对特征的线性组合关系的区分能力;特征对fi和fj的Δij和Γij计算方法如公式(1)-(4)所示:
Δij=|Pij(c1)-Pij(c2)|. (1)
Figure BDA0001436816830000021
Γij=|uij(c1)-uij(c2)| (3)
Figure BDA0001436816830000031
其中:fi t表示特征fi在样本xt上的取值;Pij(cl)表示类标为cl的样本中,特征对fi和fj的线性组合关系αijfiijfjij>0的频率;Δij表示两类样本的αijfiijfjij>0的频率差值的绝对值,取值范围是[0,1],Δij的值越大,表明该特征对的线性组合关系区分两类样本的能力越强;根据每一对特征的Δ值,对所有特征对进行降序排序;如果两对特征的第一指标Δ值相同,则采用第二指标Γ进一步比较两对特征的线性组合关系的区分能力;其中,
Figure BDA0001436816830000032
为样本xt到直线αijfiijfjij=0的距离;根据排序结果,选择区分能力最高的、排序的前k≥1对特征,并利用简单多数投票方式构建融合分类器;
对于所选特征对fi和fj,其对应的线性组合关系为αijfiijfjij,则基于特征对fi和fj的分类规则如下:
Figure BDA0001436816830000033
其中,z为输入样本;
LC-k-TSP方法流程如下:
输入:训练数据集Data={(xt,yt),xt∈Rp,yt∈{c1,c2},t=1,2,...,n},特征集F={f1,f2,…,fp},选取的“特征对”数量为k;
输出:选取的特征子集S,k对特征对的线性组合关系和融合分类器;
开始:
(1)初始化:特征子集S=Φ;F中所有特征标记为未选状态;
(2)对于每一对特征对fi和fj,1≤i≠j≤p,使用线性核函数构造SVM分类器,得到该特征对的线性组合关系αijfiijfjij
(3)根据公式(1)-(4)计算每对特征的第一指标Δ和第二指标Γ,并根据Δ和Γ对特征对进行降序排序,得到排序列表O;
(4)从O上的第一对特征开始顺次考察每一对特征的状态,选择两特征状态均为未被选择的特征对fi和fj加入已选特征对集合S,输出该特征对的线性组合关系,并设置特征fi和fj的状态为已被选择;
(5)重复(4),直至集合S中包含k对特征;
(6)根据S中每一对特征的线性组合关系,构建一个分类器;对k个分类器采用简单多数投票的方式构建融合分类器。
LC-k-TSP方法中参数k可以采用交叉验证的方法确定。
对于多类问题,LC-k-TSP方法可以采用“一对一”,“一对多”和层次分类的方法。
本发明的有益效果:本发明应用于生物组学数据分析,通过特征之间的组合关系的分析、评价挖掘隐藏于生物大数据中的有意义的生物特征,确定生物标志物对。本发明研究生物特征之间的线性组合,利用少数几对特征的组合关系对样本的类别进行判定,简单且易于获得生物学解释。
附图说明
图1是在fi和fj平面上样本的分布图。
具体实施方式
以下结合技术方案和附图,进一步说明本发明的具体实施方式。
以2类问题(C={c1,c2})中一对特征特征fi和fj,1≤i≠j≤p为例,说明第一指标Δ和第二指标Γ的计算方法。
LC-k-TSP方法分析特征对fi和fj,首先使用线性核函数在该特征对上构建SVM分类超平面αijfiijfjij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ计算每对特征的线性组合关系的区分能力。
图1给出在fi和fj平面上2类样本的分布情况,图中的直线为SVM分类超平面αijfiijfjij=0。LC-k-TSP方法统计两类样本在fi和fj平面上位于直线上方的频率差(即:两类样本的αijfiijfjij>0的频率差值)作为评价特征对的第一指标Δ。
以图1为例,特征fi和fj建立的SVM模型构造超平面为fi-fj-1=0(αij=1,βij=-1,γij=-1)。根据公式(1)(2)计算第一指标得分Δij:统计类标为c1的样本中fi-fj-1>0的频率
Figure BDA0001436816830000051
统计类标为c2的样本中fi-fj-1>0的频率
Figure BDA0001436816830000052
则特征对fi和fj的第一指标Δij=|Pij(c1)-Pij(c2)|=1。根据特征对fi和fj构建的分类器的分类规则如下:如果输入样本满足fi-fj-1>0,则被预测为c1类;否则,预测为c2类。
通过图1可以发现判别直线fi-fj-1=0将两类样本完全分开,这是一种理想的情况。LC-k-TSP选择区分能力最高的k对特征对,并利用每对特征对的线性组合关系构造的基分类器得到的预测结果进行多数投票分类预测。
本发明在8个UCI公共数据集对LC-k-TSP和k-TSP算法的分类性能进行了对比实验,实验采用留一法。实验结果如表1所示,结果表明本发明提出的LC-k-TSP优于k-TSP算法。
表1 LC-k-TSP和k-TSP之间的比较
Figure BDA0001436816830000061

Claims (3)

1.一种基于特征对的线性关系的数据分析方法,其特征在于,步骤如下:
令F={f1,…,fp}表示特征集合,X={x1,x2,...,xn}表示生物样本集合,C={c1,c2}表示生物样本类标集合,Y={y1,…,yn}是n个生物样本的类标向量,其中,yt∈C,t∈{1,…,n};对于每一对特征fi和fj,1≤i≠j≤p,首先使用线性核函数在该特征对上构建SVM分类超平面αijfiijfjij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ,计算每对特征的线性组合关系的区分能力;特征对fi和fj的Δij和Γij计算方法如公式(1)-(4)所示:
Δij=|Pij(c1)-Pij(c2)| (1)
Figure FDA0002264226010000013
Γij=|uij(c1)-uij(c2)| (3)
Figure FDA0002264226010000011
其中:fi t表示特征fi在生物样本xt上的取值;Pij(cl)表示类标为cl的生物样本中,特征对fi和fj的线性组合关系αijfiijfjij>0的频率;Δij表示两类生物样本的αijfiijfjij>0的频率差值的绝对值,取值范围是[0,1],Δij的值越大,表明该特征对的线性组合关系区分两类生物样本的能力越强;根据每一对特征的Δ值,对所有特征对进行降序排序;如果两对特征的第一指标Δ值相同,则采用第二指标Γ进一步比较两对特征的线性组合关系的区分能力;其中,
Figure FDA0002264226010000012
为生物样本xt到直线αijfiijfjij=0的距离;根据排序结果,选择区分能力最高的、排序的前k≥1对特征,并利用简单多数投票方式构建融合分类器;
对于所选特征对fi和fj,其对应的线性组合关系为αijfiijfjij,则基于特征对fi和fj的分类规则如下:
若c1类样本中在特征对fi和fj的线性组合关系αijfiijfjij>0的概率大于c2类样本中在特征对fi和fj的线性组合关系αijfiijfjij>0的概率,当待预测样本在特征对fi和fj满足αijfiijfjij>0时,则将待预测样本预测为c1类,否则预测为c2类;同理,在c1类样本中在特征对fi和fj的线性组合关系αijfiijfjij>0的概率小于或等于c2类样本中在特征对fi和fj的线性组合关系αijfiijfjij>0的概率,当待预测样本在特征对fi和fj满足αijfiijfjij>0时,则将待预测样本预测为c2类,否则预测为c1类;
LC-k-TSP方法流程如下:
输入:训练数据集Data={(xt,yt),xt∈Rp,yt∈{c1,c2},t=1,2,...,n},特征集F={f1,f2,…,fp},选取的“特征对”数量为k;
输出:选取的特征子集S,k对特征对的线性组合关系和融合分类器;
开始:
(1)初始化:特征子集S=Φ;F中所有特征标记为未选状态;
(2)对于每一对特征对fi和fj,1≤i≠j≤p,使用线性核函数构造SVM分类器,得到该特征对的线性组合关系αijfiijfjij
(3)根据公式(1)-(4)计算每对特征的第一指标Δ和第二指标Γ,并根据Δ和Γ对特征对进行降序排序,得到排序列表O;
(4)从O上的第一对特征开始顺次考察每一对特征的状态,选择两特征状态均为未被选择的特征对fi和fj加入已选特征对集合S,输出该特征对的线性组合关系,并设置特征fi和fj的状态为已被选择;
(5)重复(4),直至集合S中包含k对特征;
(6)根据S中每一对特征的线性组合关系,构建一个分类器;对k个分类器采用简单多数投票的方式构建融合分类器。
2.根据权利要求1所述的基于特征对的线性关系的数据分析方法,其特征在于,LC-k-TSP方法中参数k采用交叉验证的方法确定。
3.根据权利要求1或2所述的基于特征对的线性关系的数据分析方法,其特征在于,对于多类问题,LC-k-TSP方法采用“一对一”、“一对多”或层次分类的方法。
CN201710967812.7A 2017-10-18 2017-10-18 基于特征对的线性关系的数据分析方法 Expired - Fee Related CN107798217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710967812.7A CN107798217B (zh) 2017-10-18 2017-10-18 基于特征对的线性关系的数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710967812.7A CN107798217B (zh) 2017-10-18 2017-10-18 基于特征对的线性关系的数据分析方法

Publications (2)

Publication Number Publication Date
CN107798217A CN107798217A (zh) 2018-03-13
CN107798217B true CN107798217B (zh) 2020-04-28

Family

ID=61533286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710967812.7A Expired - Fee Related CN107798217B (zh) 2017-10-18 2017-10-18 基于特征对的线性关系的数据分析方法

Country Status (1)

Country Link
CN (1) CN107798217B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008037479A1 (en) * 2006-09-28 2008-04-03 Private Universität Für Gesundheitswissenschaften Medizinische Informatik Und Technik - Umit Feature selection on proteomic data for identifying biomarker candidates
WO2007145789A3 (en) * 2006-05-18 2008-08-28 John Zhang Method and implementation of reliable consensus feature selection in biomedical discovery
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN105574363A (zh) * 2015-12-14 2016-05-11 大连理工大学 一种基于svm-rfe和重叠度的特征选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007145789A3 (en) * 2006-05-18 2008-08-28 John Zhang Method and implementation of reliable consensus feature selection in biomedical discovery
WO2008037479A1 (en) * 2006-09-28 2008-04-03 Private Universität Für Gesundheitswissenschaften Medizinische Informatik Und Technik - Umit Feature selection on proteomic data for identifying biomarker candidates
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN105574363A (zh) * 2015-12-14 2016-05-11 大连理工大学 一种基于svm-rfe和重叠度的特征选择方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《k-Top Scoring Pair Algorithm for feature selection in SVM with applications to microarray data classification》;Sejong Yoon,et al.;《Soft Computing》;20100131;第14卷(第2期);第151-159页 *
《Top scoring pairs for feature selection in machine learning and application to cancer outcome prediction》;Ping Shi,et al.;《BMC Bioinformatics 12》;20110923;第1-15页 *
《基于SVM-RFE的特征选择方法研究》;王君;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160515(第3期);第I138-5365页 *
《基于SVM算法的癌症基因数据分类研究》;黄燕红;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20160215(第2期);第E072-50页 *

Also Published As

Publication number Publication date
CN107798217A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
Peng et al. A novel feature selection approach for biomedical data classification
Koo et al. A Review for Detecting Gene‐Gene Interactions Using Machine Learning Methods in Genetic Epidemiology
Wang et al. Determination of the spread parameter in the Gaussian kernel for classification and regression
Dalton et al. Bayesian minimum mean-square error estimation for classification error—Part I: Definition and the Bayesian MMSE error estimator for discrete classification
Momeni et al. A survey on single and multi omics data mining methods in cancer data classification
WO2002044715A1 (en) Methods for efficiently minig broad data sets for biological markers
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
Mukhopadhyay Large-scale mode identification and data-driven sciences
CN104598774A (zh) 基于logistic与相关信息熵的特征基因选择方法
CN106202999A (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN107463799B (zh) 交互融合特征表示与选择性集成的dna结合蛋白识别方法
Lin et al. Pattern classification in DNA microarray data of multiple tumor types
CN106874705B (zh) 基于转录组数据确定肿瘤标记物的方法
US7991223B2 (en) Method for training of supervised prototype neural gas networks and their use in mass spectrometry
Suresh et al. Data clustering using multi-objective differential evolution algorithms
Sevilla-Villanueva et al. Using CVI for understanding class topology in unsupervised scenarios
CN111816246A (zh) 从差异网络中识别驱动基因的方法
CN107798217B (zh) 基于特征对的线性关系的数据分析方法
CN115662504A (zh) 一种基于多角度融合的生物组学数据分析方法
CN111584005B (zh) 一种基于融合不同模式标志物的分类模型构建算法
Mahmoodian et al. Using fuzzy association rule mining in cancer classification
Sun et al. Bayesian non-linear support vector machine for high-dimensional data with incorporation of graph information on features
Mahmoodian Predicting the continuous values of breast cancer relapse time by type-2 fuzzy logic system
KR20100001177A (ko) 주성분 분석을 이용한 유전자 선택 알고리즘
Keedwell et al. Gene expression rule discovery and multi-objective ROC analysis using a neural-genetic hybrid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200428