CN106055928B - 一种宏基因组重叠群的分类方法 - Google Patents

一种宏基因组重叠群的分类方法 Download PDF

Info

Publication number
CN106055928B
CN106055928B CN201610361015.XA CN201610361015A CN106055928B CN 106055928 B CN106055928 B CN 106055928B CN 201610361015 A CN201610361015 A CN 201610361015A CN 106055928 B CN106055928 B CN 106055928B
Authority
CN
China
Prior art keywords
species
macro genome
max
contig
mean algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610361015.XA
Other languages
English (en)
Other versions
CN106055928A (zh
Inventor
刘云
刘富
侯涛
康冰
王柯
姜守坤
王婧媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201610361015.XA priority Critical patent/CN106055928B/zh
Publication of CN106055928A publication Critical patent/CN106055928A/zh
Application granted granted Critical
Publication of CN106055928B publication Critical patent/CN106055928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种宏基因组重叠群的分类方法,属于生物信息学分析技术领域。本发明的目的是针对宏基因组重叠群的不平衡特性,提出了一种利用改进的模糊c均值算法进行重叠群分类的方法。本发明的步骤是:设c个物种的平均覆盖率,则根据宏基因组物种个数确定公式,利用改进的模糊c均值算法进行宏基因组重叠群分类。本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不平衡数据集较差的性能的根本原因的基础上,提出的改进算法。改进的模糊c均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群分类中可以极大地提高分类精度,为后续的宏基因组分析提供良好的基础。

Description

一种宏基因组重叠群的分类方法
技术领域
本发明属于生物信息学分析技术领域。
背景技术
宏基因组学利用新一代测序技术,无需经过实验室培养而直接从环境中获取DNA遗传物质,有效地克服了传统基因测序技术的局限性,目前已成为分析生物群落中物种多样性的有效手段。宏基因组分析的一般步骤为测序、组装、分类和功能注释。原始的宏基因组数据是由大量的、长度短的DNA片段(reads)组成。这些片段之间具有重叠关系,可据此将其组装成长度较长的DNA序列,称之为重叠群(contigs),将这些重叠群按照其物种归属进行分类是宏基因组分析中必不可少的一步。
由于若干个因素,诸如物种间的基因组长度不同以及物种间的不同丰度等,在宏基因组数据中,不同物种所包含的重叠群的数量往往是不一样的。因此,组装后的宏基因组数据是一种不平衡数据集。如何对具有不平衡属性的重叠群进行有效地分类,是一个难题。
模糊c均值算法是一种著名的无监督分类方法,已经有效地应用在数据挖掘、图像分割、模式识别等领域,然而该方法对于不平衡数据集具有较差的性能。
发明内容
本发明的目的是针对宏基因组重叠群的不平衡特性,提出了一种利用改进的模糊c均值算法进行重叠群分类的方法。
本发明的步骤是:
a、设是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:
其中Gmin和Gmax是该宏基因组中最短和最长的物种基因组;因此,物种个数c应在如下区间:
利用Nonpareil软件来估计物种的平均覆盖率
按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为Gmin和Gmax
宏基因组中的物种个数区间[cmin,cmax]为:
其中N和l分别为宏基因组数据中重叠群的个数和平均长度;
b、利用改进的模糊c均值算法进行宏基因组重叠群分类:
①改进的模糊c均值算法:
改进的模糊c均值算法在原始代价函数的基础上,改进算法在其代价函数中考虑了各个类的大小,新的代价函数为:
其中xi是第i个重叠群的特征向量,θj是第j个类的中心,uij∈[0,1]是xi对θj的隶属度值,q∈[1,+∞)是模糊度,本发明中q=2,d为欧氏距离,fj为第j个类的大小,定义为:
通过最小化新代价函数,得出改进算法的隶属度矩阵urs和聚类中心θj公式为:
重复步骤直到||U(t)-U(t-1)||<ε,其中ε=1×10-5
②利用改进算法进行重叠群分类:
以物种个数作为类的个数输入到改进的模糊c均值算法进行重叠群分类,分别遍历所有属于区间[cmin,cmax]的物种个数,改进的模糊c均值算法共执行cmax-cmin+1次,分别对应不同的属于区间[cmin,cmax]的物种个数,得到了cmax-cmin+1个分类结果。
本发明最佳分类结果的确定:
利用一种聚类准则函数FS(c)从cmax-cmin+1个分类结果中确定一个最好的分类结果。
本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不平衡数据集较差的性能的根本原因的基础上,提出的改进算法。改进的模糊c均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群分类中可以极大地提高分类精度,为后续的宏基因组分析提供良好的基础。
具体实施方式
本发明的步骤是:
(1)重叠群数据的获取
本发明适用于所有的宏基因组重叠群数据集,可从网络公开数据库中下载各种宏基因组数据。例如,可从http://gutmeta.genomics.org.cn/下载人体肠道的宏基因组数据。
(2)特征向量的建立
①计算每个重叠群的4-mer频率,即用一个列向量来表示一个DNA序列。由于DNA由ATGC四种核苷酸排列而成,因此特征向量的维度为256维。
②对步骤①中计算得到的特征向量进行归一化,方法为:特征向量中每一个元素都除以该特征向量中元素的最大值,即:
其中,N是宏基因组数据中重叠群的数量,fj是第j个重叠群的特征向量。
③宏基因组物种个数的确定
在一个包含有c个物种的宏基因组中,基因组总长度G为:
其中Gi是第i个物种的基因组长度,ηi是第i个物种的覆盖率。
a、设是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:
其中Gmin和Gmax是该宏基因组中最短和最长的物种基因组;因此,物种个数c应在如下区间:
因此,需要估计Gmin和Gmax来确定物种个数c。
利用Nonpareil软件来估计物种的平均覆盖率该估算方法可参见文献Rodriguez-R,Luis M,Konstantinidis,Konstantinos T.Nonpareil:a redundancy-basedapproach to assess the level of coverage in metagenomic datasets[J].Bioinformatics,30(5):629-635。
由于物种间基因组的长度往往是不同的,本发明从NCBI网站上下载了一个包含有2573个细菌的全基因组数据全集,网址为ftp://ftp.ncbi.nih.gov/genomes/Bacteria/。按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为Gmin和Gmax;Gmin=9.4×105bps,Gmax=6.4×106bps,区间[cmin,cmax]可以包含这些物种的90%。
宏基因组中的物种个数区间[cmin,cmax]为:
其中N和l分别为宏基因组数据中重叠群的个数和平均长度;
b、利用改进的模糊c均值算法进行宏基因组重叠群分类:
①改进的模糊c均值算法:
传统模糊c均值算法对于不平衡数据集分类效果不理想的原因是其使用了一种平方和形式的代价函数,因此分类结果中各个类之间的样本个数大致相等将获得较小的代价函数值,于是模糊c均值算法会将一部分来自大类的样本误分到其临近的小类中。为了从根本上克服模糊c均值算法的这种缺陷,本发明提出了一种改进的模糊c均值算法,在原始代价函数的基础上,改进算法在其代价函数中考虑了各个类的大小,用来表示类所包含的样本的个数,比如第一类包含800个样本,第二类包含1000个样本,800和1000即为类的大小,新的代价函数为:
其中xi是第i个重叠群的特征向量,θj是第j个类的中心,uij∈[0,1]是xi对θj的隶属度值,q∈[1,+∞)是模糊度,本发明中q=2,d为欧氏距离,fj为第j个类的大小,定义为:
改进后的代价函数将在分类结果中允许小类的存在,由于其考虑了各个类的大小,使得分类结果中各个类之间的样本个数除以其大小大致相等才能获得较小的代价函数值。
通过最小化新代价函数,得出改进算法的隶属度矩阵urs和聚类中心θj公式为:
重复步骤直到||U(t)-U(t-1)||<ε,其中ε=1×10-5
改进算法的分类过程为:
i.给定类的个数,构建随机隶属度矩阵;
ii.根据聚类中心计算公式计算聚类中心;
iii.计算各个类的大小;
iv.利用隶属度矩阵公式更新隶属度矩阵;
v.重复步骤ii到iv,直到||U(t)-U(t-1)||<ε。本发明中ε=1×10-5
②利用改进算法进行重叠群分类:
以物种个数作为类的个数输入到改进的模糊c均值算法进行重叠群分类,分别遍历所有属于区间[cmin,cmax]的物种个数,改进的模糊c均值算法共执行cmax-cmin+1次,分别对应不同的属于区间[cmin,cmax]的物种个数,得到了cmax-cmin+1个分类结果。
本发明最佳分类结果的确定:
利用一种聚类准则函数FS(c)从cmax-cmin+1个分类结果中确定一个最好的分类结果。
FS(c)定义为:
其中越小的FS(c)值代表越好的分类结果,因此,最终的聚类个数为:
最终的分类结果即为c*对应的分类结果。
实例
本发明从https://github.com/minillinim/GroopM_test_data下载了一个宏基因组重叠群数据集,该数据集中共包含5668个重叠群。利用本发明所述的方法,可得cmin=15,cmax=119,c*=48,最终的分类结果如表1所示。
表1实施例的最终分类结果
利用本发明所述的分类方法,能够正确分类其中的4340个重叠群,从而证明了本发明所述方法的有效性。

Claims (2)

1.一种宏基因组重叠群的分类方法,利用改进的模糊c均值算法进行宏基因组重叠群分类:
改进的模糊c均值算法:
改进的模糊c均值算法在原始代价函数的基础上,改进算法在其代价函数中考虑了各个类的大小,新的代价函数为:
其中xi是第i个重叠群的特征向量,θj是第j个类的中心,uij∈[0,1]是xi对θj的隶属度值,q∈[1,+∞)是模糊度,其中q=2,d为欧氏距离,fj为第j个类的大小,定义为:
通过最小化新代价函数,得出改进算法的隶属度矩阵urs和聚类中心θj公式分别为:
改进算法的分类过程为:
i.给定类的个数,构建随机隶属度矩阵;
ii.根据聚类中心计算公式计算聚类中心;
iii.计算各个类的大小;
iv.利用隶属度矩阵公式更新隶属度矩阵;
v.重复步骤ii到iv,直到其中
其特征在于:
a、设是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:
其中Gmin和Gmax是该宏基因组中最短和最长的物种基因组;因此,物种个数c应在如下区间:
利用Nonpareil软件来估计物种的平均覆盖率
按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为Gmin和Gmax
宏基因组中的物种个数区间[cmin,cmax]为:
其中N和l分别为宏基因组数据中重叠群的个数和平均长度;
b、在改进的模糊c均值算法进行宏基因组重叠群分类步骤中:
以物种个数作为类的个数输入到改进的模糊c均值算法进行重叠群分类,分别遍历所有属于区间的物种个数,改进的模糊c均值算法共执行cmax-cmin+1次,分别对应不同的属于区间[cmin,cmax]的物种个数,得到了cmax-cmin+1个分类结果。
2.根据权利要求1所述的宏基因组重叠群的分类方法,其特征在于:
最佳分类结果的确定:
利用一种聚类准则函数FS(c)从cmax-cmin+1个分类结果中确定一个最好的分类结果;
FS(c)定义为:
其中越小的FS(c)值代表越好的分类结果,因此,最终的聚类个数为:
最终的分类结果即为c*对应的分类结果。
CN201610361015.XA 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法 Active CN106055928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610361015.XA CN106055928B (zh) 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610361015.XA CN106055928B (zh) 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法

Publications (2)

Publication Number Publication Date
CN106055928A CN106055928A (zh) 2016-10-26
CN106055928B true CN106055928B (zh) 2018-09-14

Family

ID=57174725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610361015.XA Active CN106055928B (zh) 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法

Country Status (1)

Country Link
CN (1) CN106055928B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599618B (zh) * 2016-12-23 2021-07-23 吉林大学 一种宏基因组重叠群的无监督分类方法
CN107292124A (zh) * 2017-06-25 2017-10-24 广东国盛医学科技有限公司 基于分层主元深度学习的宏基因组操作分类单元识别方法
CN109001386A (zh) * 2018-04-17 2018-12-14 中国地质大学(武汉) 一种水体径流连通性的探测方法
CN112466404B (zh) * 2020-12-14 2024-02-02 浙江师范大学 一种宏基因组重叠群无监督聚类方法及***
CN112634989A (zh) * 2020-12-29 2021-04-09 山东建筑大学 基于片段重叠群的双面基因组片段填充方法及装置
CN113393898B (zh) * 2021-06-29 2024-01-05 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955629A (zh) * 2014-02-18 2014-07-30 吉林大学 基于模糊k均值的宏基因组片段聚类方法
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
WO2011120880A1 (en) * 2010-03-29 2011-10-06 Galderma Research & Development Fuzzy clustering algorithm and its application on carcinoma tissue
KR101254177B1 (ko) * 2011-10-07 2013-04-19 위아코퍼레이션 주식회사 방사형 기저 함수 신경회로망 알고리즘을 이용한 실시간 얼굴 인식 시스템
WO2013086418A1 (en) * 2011-12-09 2013-06-13 Biovest International, Inc. Tumor-specifc gm-csf cytokine response as predictor of cancer vaccine effectiveness
EP2626802B1 (en) * 2012-02-10 2016-11-16 Tata Consultancy Services Limited Assembly of metagenomic sequences
CN104299232B (zh) * 2014-09-30 2017-02-15 西安电子科技大学 一种基于自适应窗方向波域和改进fcm的sar图像分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955629A (zh) * 2014-02-18 2014-07-30 吉林大学 基于模糊k均值的宏基因组片段聚类方法
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《The Reduction and Classification Research on DNA Fragment Species Attributes in Meta genome》;Xue Jian etc;《2015 27th Chinese Control and Decision Conference》;20151231;全文 *
Improving fuzzy c-means method for unbalanced dataset;Yun Liu, etc;《ELECTRONICS LETTERS》;20151105;第51卷(第23期);第1880-1882页 *

Also Published As

Publication number Publication date
CN106055928A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055928B (zh) 一种宏基因组重叠群的分类方法
AU2017338775B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Frise et al. Systematic image‐driven analysis of the spatial Drosophila embryonic expression landscape
WO2021062904A1 (zh) 基于病理图像的tmb分类方法、***及tmb分析装置
WO2017181665A1 (zh) 一种基因表达数据分类方法及分类***
Lee et al. HiComet: a high-throughput comet analysis tool for large-scale DNA damage assessment
Zhao et al. Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis
CN107194207A (zh) 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
Binder et al. Analysis of large-scale OMIC data using self organizing maps
Iqbal et al. Mitochondrial organelle movement classification (fission and fusion) via convolutional neural network approach
CN111916149A (zh) 基于层次聚类的蛋白质相互作用网络全局比对方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
Chidester et al. Discriminative bag-of-cells for imaging-genomics
CN110246543A (zh) 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机***
Belean et al. Unsupervised image segmentation for microarray spots with irregular contours and inner holes
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
WO2022011855A1 (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
Saha et al. Aggregation of multi-objective fuzzy symmetry-based clustering techniques for improving gene and cancer classification
CN107103206B (zh) 基于标准熵的局部敏感哈希的dna序列聚类
Maguluri et al. A comparative analysis of clustering based segmentation algorithms in microarray images
CN110060735B (zh) 一种基于k-mer组群分割的生物序列聚类方法
Patra et al. Deep learning methods for scientific and industrial research
Castellanos-Garzón et al. A clustering-based method for gene selection to classify tissue samples in lung cancer
Iqbal et al. A framework for the RNA-Seq based classification and prediction of disease
Cai et al. Application and research progress of machine learning in Bioinformatics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant