CN106460045B - 人类基因组常见拷贝数变异用于癌症易感风险评估 - Google Patents

人类基因组常见拷贝数变异用于癌症易感风险评估 Download PDF

Info

Publication number
CN106460045B
CN106460045B CN201580021591.3A CN201580021591A CN106460045B CN 106460045 B CN106460045 B CN 106460045B CN 201580021591 A CN201580021591 A CN 201580021591A CN 106460045 B CN106460045 B CN 106460045B
Authority
CN
China
Prior art keywords
dna
copy number
cancer
cancerous
recurrent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580021591.3A
Other languages
English (en)
Other versions
CN106460045A (zh
Inventor
薛红
丁肖凡
曾瑞英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naturon Ltd
Original Assignee
Naturon Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naturon Ltd filed Critical Naturon Ltd
Publication of CN106460045A publication Critical patent/CN106460045A/zh
Application granted granted Critical
Publication of CN106460045B publication Critical patent/CN106460045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明是要对人类受试者的癌症易感性进行预测,通过机器学习,比较受试者遗传基因拷贝数变异(“CNV”)与同人种诊断性常见CNV特征系列。该CNV特征系列必须选自同人种非癌患者遗传DNA样本(简称“非癌DNA”样本)和癌患者遗传DNA样本(简称“癌DNA”样本)的CNVs,可以相关法、频率法或分类法选择,再应用朴素贝叶斯分类法鉴定,以便有效地用来分辨癌患者遗传DNA与非癌患者遗传DNA。在此基础上,受试者的癌症易感性预测可以应用统计方法进行,例如朴素贝叶斯方法。另外,使用诊断性常见CNV特征对受试者的癌症易感性进行预测,可以是针对一般性的癌症易感性,也可以是针对一种或少数特定类型癌症的易感性。

Description

人类基因组常见拷贝数变异用于癌症易感风险评估
技术领域
本发明属于生物技术领域,涉及一种常见拷贝数变异检测***在制备癌症易感性评估***方面的应用。
背景技术
本发明涉及一种基于人类遗传基因组常见拷贝数变异(“CNV”)的方法,用于预测受试者的患癌风险。方法是从同种族DNA样品群中识别常见性遗传CNVs,样本包括非癌患者的非癌组织DNA(简称“非癌DNA”样品)和癌患者的非癌组织DNA(简称“癌DNA”样品);通过机器学***。
无论是非癌患者、癌患者或任何受试者,其基因组DNA中的遗传CNVs,可利用不同方法进行检测,如人类基因组DNA单核苷酸多态性(SNP)微阵列、定量PCR,个人全基因组测序、“WES”外显子组区域测序或“AluScan”基因组区域序列测序,包括Alu转座子之间和/或接近Alu的基因组区域序列(Mei L et al.AluScan:a method for genome-wide scanningof sequence and structure variations in the human genome.BMC Genomics 2011,12:564)。而从任何DNA样品中发现的CNVs,可依据它们的发生频率和统计准则,被分类为“常见性”CNVs或“罕见性”CNVs。迄今,只发现某些“罕见性”遗传CNVs与特定癌症类别相关,但没有任何常见性遗传CNV与癌症关联的信息,可应用于预测癌症易感性。
所述方法是需要从非癌患者群组和癌患者群组的非癌组织遗传基因组中,分别鉴定出属“非癌DNA”及“癌DNA”的常见CNVs,再从中选出一组具诊断性的常见CNV特征,用于预测受试者的癌症易感风险。因此,选择过程将运用多种统计方法,以机器学习辅助进行,但并不限于以下方法:(I)相关性特征选择法(Correlation based Feature Selection;相关法):选择分别与“非癌DNA”或“癌DNA”类别高度关联,但互相之间并不相关的常见性CNVs;如采用WEKA机器学习工具包中的CfsSubsetEval,并配合BestFirst搜寻方法(Hall MA andSmith LA,Feature subset selection:A correlation based filterapproach.International Conference on Neural Information Processing andIntelligent Information Systems.New Zealand;1997:8555-858;Dagliyan O et al,Optimization based tumor classification from microarray gene expressiondata.PLoS One 2011,6:e14579)进行特征选择;(II)频率选择法(Frequency-basedMethod;频率法):在选择某一CNV特征时,它的发生频率于“非癌DNA”和“癌DNA”类别之间必须有着显著不同;及(III)分类器选择(Classifier-based Method;分类法):利用分类器进行CNV特征分析,列如WEKA机器学习工具包中的ClassifierSubsetEval属性鉴别器和BestFirst搜寻方法(Hall MA et al,The WEKA Data Mining Software:AnUpdate.SIGKDD Explorations 2009,11:10-18)。
利用朴素贝叶斯分类法(Bayes classification method)及接受器操作特性分析(Receiver Operating Characteristic,ROC),以机器学习模式评估诊断性常见CNV特征的分类功能,看是否能有效地将DNA样品识别为“非癌DNA”或“癌DNA”类别。ROC是源于区分雷达信号与噪声,及后在不同临床医学领域中均有应用(Zweig MH and CampbellG.Receiver-operating characteristic(ROC)plots:a fundamental evaluation toolin clinical medicine.Clinical Chemistry 1993,39:561-577;Zhou X StatisticalMethods in Diagnostic Medicine.New York,USA;Wiley&Sons 2002)。
从一特定种族“非癌DNA”和“癌DNA”样品群中,要寻找到一组具诊断性的常见CNV特征,其ROC-AUC值(ROC曲线下面积)必须大于0.5。这表示该特征可作为分类工具,能有效地将DNA样品识别为“非癌DNA”或“癌DNA”类别,预测同族群受试者DNA的癌症易感性。
在[0006]中所术的预测方法,原理是:首先要组合一学习群,其中包括标记遗传DNA样品(即样品类别属“非癌DNA”或“癌DNA”是已知的)。然后,从这DNA群选取一组具诊断性的常见CNV特征,用作识别未标记DNA样品(即样品类别属“非癌DNA”或“癌DNA”是未知的),以确定该特征对“非癌DNA”或“癌DNA”的分类成效。经确认后的CNV特征,将用于检测学习群中各遗传DNA样品,是否存在诊断性常见CNVs。最后,利用以下公式计算B值,并按各样品相对B值排名:
公式一
Figure GDA0002317683300000021
Figure GDA0002317683300000022
Figure GDA0002317683300000023
Figure GDA0002317683300000031
B为癌症特征性CNV概率[Pr(cancer|features)]和非癌症特征性CNV概率[Pr(noncancer|features)]的比率对数。Pr(cancer|features)是根据所提供CNV数据算出的归属癌类成员的贝叶斯后验概率,而Pr(noncancer|features)是根据所提供CNV数据算出的归属非癌类成员的贝叶斯后验概率;Pr(features|cancer)及Pr(features|noncancer)分别指根据癌及非癌类别成员算出的CNV数据的概率。另外,Pr(cancer)和Pr(noncancer)则分别是学习群中10癌样品和非癌样品的先验分布概率。被检测样品会按其B值作预期分类,B>0属于“癌”概率高,B<0属于“非癌”概率高,或B=0为不确定。因此,学习群中的B值刻度排名,“非癌DNA”样品会偏低,相反“癌DNA”则倾向高排名。此特定B值刻度表,将为该人种所有“非癌DNA”和“癌DNA”样品,提供一个B值对照标准。利用这个标准,测试同一人种受试者遗传DNA15的拷贝数变异,以确定是否存在B值表中的诊断性常见CNVs,并按公式一,计算受试者的B值,并与学习群中各“非癌DNA”和“癌DNA”样品B值进行比较,评估受试者的患癌风险为高(B值刻度表上高位),中(B值刻度表上中游位置),或低(B值刻度表上低位)。
发明简述
本发明涉及用于预测人类患癌风险的遗传基因组拷贝数变异(“CNV”)的方法。是对同种族DNA样品群的遗传性常见CNVs进行分析,当中包含非癌患者的非癌组织DNA(称为“非癌DNA”样品)和癌患者的非癌组织DNA(称为“癌DNA”样品);通过机器学***。
如[0015]所述,要选择一组具诊断性的常见CNV特征,可通过以下方法以机器学习模式进行,但不限于:(I)相关性特征选择法(相关法);(II)频率特征选择法(频率法);和(III)分类器特征选择法(分类法)。选定后,可以朴素贝叶斯等分类方法,测试该组特征的分类功能,是否能够将“非癌DNA”和“癌DNA”样品分为“非癌DNA”和“癌DNA”类别,再以接受器操作特性分析(ROC)进行分类准确率评估。
当ROC-AUC值(是指ROC曲线下面积)大于0.5,证实该组诊断性常见CNV特征的可用性后,便可用于预测受试者DNA的癌症易感性。条件是受试者所属人种,应该与构成该组诊断性常见CNV特征的“非癌DNA”和“癌DNA”样品,源自同一人种。
不同癌症类型患者的“癌DNA”,其诊断性常见CNVs的分布频率均有着差异。因此,本发明不仅可以用于预测受试者的一般患癌易感性,还可以预测对某特定癌症类型的易感性。
附图说明
以下附图为发明的部分说明及对某特定范畴作进一步阐述。通过参考以下一或多个附图,并配合具体实施例描述,将更能清楚了解本发明。
经Affymetrix SNP6.0数组芯片检测,图1分别显示了两组人种(A)高加索及(B)高丽人种的非癌患者和癌患者的非癌性白血细胞常见性拷贝数变异。在这些实施例中,只选取长度界乎1kb和10Mb之间且q值<0.25的CNV进行分析。图上方为“拷贝增加”q值,而下方是“拷贝减少”q值。q值是通25过GISTIC2.0评估,高“-log q值”表示高度非随机性变异。基于相关性方法选择方法,图2和图3分别显示了高加索和高丽人种被纳入诊断性CNV特征中的拷贝增加特征(标示为A系列)和拷贝减少特征(标示为D系列)。
图2展示了一组通过Affymetrix SNP6.0数组芯片鉴定的诊断性常见CNV特征,是从高加索人种非癌患者群组和癌患者群组的非癌性白血细胞核基因组DNA中选择出来。“癌频率”是指“癌DNA”样品的CNV特征频率,而“对照频率”是“非癌DNA”对照样品的CNV特征频率,另“癌/非癌(Can/Con)。
比率”则是指它们的比率。CNVG(CN-Gain)=拷贝增加;CNVL(CN-Loss)=拷贝减少。图1(A)所列出A系列和D系列的编号,有助显示各CNV特征的位置。
图3展示了一组通过Affymetrix SNP6.0数组芯片鉴定的诊断性常见CNV特征,是从高丽人种非癌患者群组和癌患者群组的非癌性白血细胞核基因组DNA中选择出来的。“癌频率”是指“癌DNA”样品的CNV特征频率,而“对照频率”是“非癌DNA”对照样品的CNV特征频率,另“癌/非癌(Can/Con)比率”则是指它们的比率。CNVG(CN-Gain)=拷贝增加;CNVL(CN-Loss)=拷贝减少。图1(B)所列出A系列和D系列的编号,有助显示各CNV特征的位置。
图4显示了从(A)高加索和(B)高丽人种癌患者组和非癌对照组,以相关法、频率法和分类法三种不同方法选择特征性CNVs。实心三角:同时被相关法和频率法选择;实心圆:仅仅被相关法选择;空心三角:仅仅被频率法选择;实心三角加实心倒三角:被相关法、频率法和分类法共同选择;空心三角加空心倒三角:同时被频率法和分类法选择;空心圆:没有被任何方法选择。假如癌患者组和非癌对照组的卡方检验概率P值相等,其位置是位于两条P=0.05虚线之间的,即P>0.05区域;而位于两虚线之外则表示P<0.05。另两条实线代表P'=0.05,其中P'是Bonferroni校正后的P值,这两条实线区分了P'>0.05的内区域和P'<0.05的外区域。
图表5显示,从高加索和高丽人种以三种不同CNV特征选择方法选择出来的CNV特征,用来分辨癌症与非癌DNA样品所得到的ROC-AUC值。
图6表明了(A)高加索人及(B)高丽人族群以相关法选出的CNV特征预测患癌风险的准确率。步骤是将每个族群的DNA样品随机分为学习群和测试群,各包含数量相等或大致相等的非癌DNA和癌DNA样品。基于相关法从学习群选择出的CNV特征,以[0008]中公式1计算的B值,预测测试群中每个样品的类别,属非癌或是癌症类别。分类准则是B>0属于“癌”概率高,B<0属于“非癌”概率高,或B=0为不确定。通过重复将样品随机分到学习群或测试群1000次,每次均对测试群中每个样品进行预测,并采用公式2评估每次预测的准确率,共1000次:
公式2
Figure GDA0002317683300000051
图(A)和(B)分别展示高加索及高丽族群1000次预测准确率的分布,及每个族群1000次预测准确率的平均值。
图7显示(A)高加索和(B)高丽人种癌患者的诊断性常见CNV特征在各种不同肿瘤患者的非肿瘤白细胞DNA中的分布,运用相关法从非肿瘤白细胞DNA中选择出来。图2及图3分别描述了所用的高加索人种与高丽人种的诊断性常见CNV特征。计算分布的步骤是采用R工具包kmean功能,获取各相关法CNV特征的K平均值,将不同癌症类型患者的CNVs聚类(Suzuki R,Shimodaira H.Pvclust:an R package for assessing the uncertaintyinhierarchical clustering.Bioinformatics 2006,22:1540-1542)。由于相关法CNV10特征数量大于2,我们应用了R工具包CLUSPLOT群集功能(Pison G et al.Displaying aclustering with CLUSPLOT.Comput Stat Data An 1999,30:381-392),以主要成分分析法(PCA)简化数据集,将输出图形限于首二个主要成分。不同类型的癌症患者包括大肠癌(圆),神经胶质瘤(绿三角),骨髓瘤(红方块),胃癌(蓝方块)和肝细胞癌(红三角)。
表8显示中国族群各相关性方法常见CNV特征。采用AluScan测序,从非癌对照和患癌者的非癌症白细胞DNA中识别。“癌症频率”表示“癌DNA”的CNV特征频率,“对照频率”是“非癌DNA”的CNV特征频率,而“Can/Con比率”是指癌症频率/对照频率的比率。CNVG=CNV-增加;CNVL=CNV-减少。
图9显示了中国族群常见CNV特征的发生频率,包括非癌对照和癌患者,并以相关性方法选择法识别。被选定的常见CNV特征,如图8中所示,由实心三角表示,而未被选中的则以空心圆表示。
图10展示了中国人种癌症发生的预测准确率。将非癌DNA和癌DNA样品,如图6所述,随机分成学***均值。
图11展示了本发明预测患癌风险的过程摘要。N代表非癌患者的非癌组织遗传DNA样品,C是癌患者非癌组织遗传DNA样品。
具体实施方式
在不背离本发明公开精神的前提下,对本发明技术领域范围所作出的各种替换和修饰,均纳入本发明范围之内。
术语:
在说明书中使用的术语“一”是指一个或多个。至于权利要求中的“一”是指一个或一个以上,而本文所用的“另一个”是指至少第二个或更多。
术语“拷贝数变异”,或CNV,是指人类基因组常染色体及女性X染色体DNAs的拷贝数目变异,正常为两个拷贝(即“双倍体”)。如果一DNA片段存在多于或小于两个拷贝,它便成为一个CNV。而男性的X和Y染色体DNAs均只有一个拷贝(即“单倍体”),所以DNA片段存在多于或小于一个拷贝的,便成为一个CNV。多于标准拷贝数目的是拷贝增加。相反,少于标准拷贝数目的是拷贝减少。
术语“常见性CNV”是指那些并不罕见的CNVs,能被应用于预测癌症易感性用途。鉴别常见性CNVs,可用方法例如Rueda,O.M.&Diaz-Uriarte,R.Finding recurrent regionsof copy number variation.Collection of Biostatistics Research Archive 2008,Paper 42,The Berkeley Electronic Press,其中包括MSA,RAE,MAR,CMAR,cghMCR,CGHregions,Master HMMs,STAC,Interval Scores,CoCoA,KC SMART,SIRAC,GEAR等方法及其相关软件。
本发明中的术语“诊断性常见CNV特征”是指遗传性常见CNVs,从同一人种基因组DNA,包括非癌受试者(即非患癌个体)和癌症受试者(即癌症病人)的非癌组织基因组DNA的常见CNVs中选择出来,具有能力分辨非患癌个体及癌症病人遗传DNA的CNV。通常CNV特征的富集情况是偏向显现于非癌DNA比癌DNA相对较多,或反过来偏向显现于癌DNA比非癌DNA较多。因此,检测同人种受试者遗传DNA中,是否含有这些诊断性常见CNV特征的偏向,将可以预测被检者的癌症易感性。CNV特征的选择,可应用但不限于以下统计方法:(I)基于相关性的特征选择方法(相关法),(II)基于频率的特征选择方法(频率法)和(III)基于分类的特征选择方法(分类法)。每个方法均会产生一系列诊断性常见CNV特征,可用作对非癌DNA及癌DNA样品的分类,并配合不同机器学习程序进行鉴定,例如Fisher线性判别、逻辑回归、朴素贝叶斯分类、判定树和神经网络等。当一组常见CNV特征被认定为具有诊断能力,例如其ROC-AUC值大于0.5,便可用作预测任一个同一人种受试者的癌症易感程度。
在本发明的一个实施例中,采用Affymetrix SNP 6.0高密度芯片,对51名高加索癌症患者和47名同人种非癌对照的血样品进行检测,并依据基因表达综合数据库(GEO)[http://www.ncbi.nlm.nih.gov/geo/]及caArray[https://array.nci.nih.gov/caarray]的检索结果,获取CNV数据。另外,应用APT软件工具(Affymetrix Power Tools)中的拷贝数检测流程和默认值[http://www.affymetrix.com/partners_programs/programs/developer/tools/powertools.affx],并从270个HapMap基因组Affymetrix SNP6.0微阵列综合分析得到参考模板序列,对这些癌症和非癌样本进行CNV检测。利用R程序DNACopy中的环状二元片段分割算法(Circular Binary Segmentation,CBS),将邻近拷贝数变异区域分割出拷贝增加和拷贝减少片段(Olshen AB et al.Circular binarysegmentation for the analysis of array-based DNA copy numberdata.Biostatistics 2004,5:557-572)。本研究采用了人类参照基因hg19/GRCh37坐标和SNP6.0平台注释文件版本32。为了识别显著常见CNVs,采用GISTIC2.0方法(Mermel C.H.etal,Genome Biol.12(4):R41,2011)下述选项“-smallmem 1-broad 1-brlen 0.5-conf0.9-ta 0.2-td 0.2-twosides 1-genegistic 1”进行检测。任何CNVs的log2比率变化为>0.2或<-0.2的话,则会被视为常见CNVs(Ding X et al.Application of machinelearning to development of copy number variation-based prediction of cancerrisk.Genomics Insights 2014,7:1-10)。图1(A)展示了已被确定的常见CNVs。
在本发明的这个实施例中,将[0038]所述的高加索癌症与非癌微阵列数据,同时采用相关性方法、频率和分类三种选择分法,分别产生三组诊断性常见CNV特征。为评估这三组诊断性常见CNV特征是否能将样品区分为癌症和非癌类别,我们采用了WEKA工具包的朴素贝叶斯分类法,以其中一组特征为训练模型,进行1000次两重迭代交叉验证。然后,将原数据集内每个样品的标记(‘非癌’对‘癌症’)随机置换,组成一新数据集,并重复上述分类过程。按这样产生共10,000组数据集,以测试该模型的稳健性。至于各分类的重要性,会根据正确预测百分比的分布计算。图5显示了以三组CNV特征为训练模型的朴素贝叶斯分类结果,用作决定样本分为“非癌'或'癌症”类别。基于相关法、频率法和分类法的高加索样品CNV特征,其ROC-AUV值分别是0.996±0.001,0.991±0.007,和0.986±0.014。这些高ROC-AUC值显示,三组CNV特征均能准确地把“非癌DNA”和“癌DNA”分类,并可作为预测高加索族群癌症易感性的基础,见图4(A)。被选定的所有CNV特征均显示高偏性分布,就是富集于癌DNA但少见于非癌对照DNA,或富集于非癌对照DNA但少见于癌DNA。结论是,它们都具潜力应用于癌症与非癌对照遗传基因组DNA的分辨。
为要确实被选择的CNV特征能应用于预测癌症易感性,高加索族群的非癌对照DNA样品(N)被随机分为学习群和测试群两个组别;当样品数量为偶数的话,每组数量便相等,但要是样品数量为奇数,额外的一个将随机配给其中一组,使两组数量相差一个。同样地,大肠癌患者DNA样品(C)被随机分为学习群和测试群两个组别,每组数量是相等或只相差一个;而神经胶质瘤和骨髓瘤患者的样品也以同样方式分组,最终分别获得含[N+C]样品的学习群和测试群,当中N和C的数量是相等或近乎相同。然后,从学习群CNVs中使用相关法选出一组CNV特征。并使用该组CNV特征对测试群中的每个样品进行检测,并利用公式1将样品分配到非癌或癌症类别。最后,以公式2计算对测试群全部样品的预测准确率:
公式2
Figure GDA0002317683300000081
通过这样1,000次重复随机分组,获得1,000个预测准确率数据。它们的分布见于图6(A),平均值为93.6%,这数值确定该诊断性常见CNV特征能有效预测高加索人种的癌症易感性。
本发明的一个实施例中,采用Affymetrix SNP 6.0高密度芯片,对347名高丽人种癌症患者和195名同人种的非癌对照的血样品进行检测,并依据基因表达综合数据库(GEO)[http://www.ncbi.nlm.nih.gov/geo/]及肿瘤矩阵信息数据库(caArray databases)[https://array.nci.nih.gov/caarray/]的检索结果,获取CNV数据。另外,通过[0041]and[0042]所述的程序,从非癌对照和癌症DNA样品,获取包含拷贝增加和拷贝减少的常见CNVs;并采用相关法、频率法和分类法三种选择方法,分别从非癌DNA和癌DNA选择出三组诊断性常见CNV特征。然后,按朴素贝叶斯分类法,将这三组特征纳入训练模型,评估它们是否能将样品正确区分为癌症和非癌类别。图5展示的是,高丽人种样品采用相关法、频率法和分类法选择的CNV特征,其ROC-AUV值分别是0.975±0.002,0.958±0.009,和0.867±0.016。这些高ROC-AUC值显示,三组CNV特征均能相当准确地把样品分为“非癌”和“癌症”类别,为高丽人种癌症易感性预测提供了实用基础,见图4(B)。被选定的所有CNV特征均显示高偏性分布,即富集于癌DNA而少见于非癌对照DNA,或富集于非癌对照DNA但少见于癌DNA。结论是,它们可以有效地分辨开癌症DNA与非癌DNA。
另外,像[0043]中高加索人种一样,高丽人种非癌对照和癌症受试者,被随机分割为学***均值为86.5%,确定了这些常见CNV特征对预测高丽人种患癌风险的实用性。
在[0041]中所述的高加索人种癌症样本是来自三种癌症类型,分别是脑胶质瘤、骨髓瘤和大肠癌。图7A显示了这三批癌症患者的遗传基因组中,它们的CNV特征不完全相似。由此可见,用于选择诊断性常见CNV特性的样品,不一定需要集合多种癌症类型,可以是非癌受试者的非癌组织DNA,与一种或少数特定癌症的非癌组织DNA,这样便可集中预测一种或少数特定类型癌症的易感性,而不是一般患癌风险。同样地,[0044]所述的高丽人种癌症样品也是来自三种癌症类型,分别是:胃癌,肝细胞癌和结直肠癌。如图7B所示,这三类癌症患者的遗传基因组中,其CNV特征是不完全相似。因此,若用非癌患者的DNA,与一种或少数特定类型癌症的非癌组织DNA,而不是多种类型癌症患者的非癌组织DNA,则可以预测一种或少数特定类型癌症的易感性,而不只是一般的患癌风险。这些实施例表明,集合诊断性常见CNV特性可用于预测一般患癌易感性或任何特定类别癌症的易感性。
在前述实施例中,常见CNVs(包括CNV-增加和CNV-减少)是从人基因组数据,通过高辨析Affymetrix SNP6.0平台读取。在另一个本发明的实施例中,常见CNVs(包括CNV-增加和CNV-减少)是从28名患有不同癌症的中国病人(14肝癌,4胃癌,3肺癌,4胶质瘤和3白血病)和22名同种族非癌对照的基因组数据,通过AluScan新一代测序平台获取(Mei L,DingX,Tsang SY,Pun FW,Ng SK,Yang J,Zhao C,Li D,Wan W,Yu CH et al:AluScan:a methodfor genome-wide scanning of sequence and structure variations in the humangenome.BMC genomics 2011,12:564)。将AluScan序列数据,通过AluScanCNV窗口算法(窗口大小为350kb)分析,识别常见CNVs(Yang,J.F.et al.Copy number variation analysisbased on AluScan sequences.J Clin Bioinformatics 4,15,2014);继而,采用相关法特征选择法选定一组具诊断性的常见CNV特征(见图8)。
如图9所示,从28个癌症和22个非癌症中国人种DNA样品所鉴定的常见CNVs,也被发现于其它各类癌症和非癌DNA样品,且具广阔发生频率(见图9空心圆)。相反,该组基于相关性方法从所有CNVs选择的诊断性常见CNV特征(见图8),表现出高偏向频率;要不是相对富集于非癌DNA样品,就是相对富集于癌DNA样品(见图9实心三角)。按等式1计算,应用此组CNV特征将这28个癌症和22个非癌症中国人种DNA分为“癌症”和“非癌症”类别,得到的平均ROC-AUC值为0.993±0.001,显示该CNV特征能够精确地将“癌症”和“非癌症”分类,成为预测中国族群癌症易感性的基础,见图9。被选定的所有CNV特征均显示高偏性分布,即富集于癌DNA而见稀于非癌症对照DNA,或富集于非癌症对照DNA但见稀于癌DNA。结论是,它们具潜力成为分辨癌症或非癌DNA的标记。
按照[0043]所述步骤,中国族群28个癌症和22个非癌症样品会被随机分到学***均值,证实了这些诊断性常见性CNV特征能有效预测中国族群的癌症易感性。

Claims (21)

1.一种重复出现的拷贝数变异(Recurrent CNVs)检测***在制备癌症易感性评估***方面的应用;
所述的重复出现的拷贝数变异(Recurrent CNVs)检测***是基于受试者的DNA中重复出现的拷贝数变异(Recurrent CNVs)与一组诊断性重复出现的拷贝数变异(DiagnosticRecurrent CNVs)特征或标记之间的比较,该组特征选取自一个DNA样本群的重复出现的拷贝数变异(Recurrent CNVs),该样本群包括非癌患者的非癌组织遗传DNA及癌患者的非癌组织遗传DNA,所述重复出现的拷贝数变异(Recurrent CNVs)检测***包括如下构件:
(a)识别所有重复出现的拷贝数变异(Recurrent CNVs)的构件:用于将与受试者同人种的非癌患者的非癌组织遗传DNA样本和癌患者的非癌组织遗传DNA样本合拼起来,识别所有重复出现的拷贝数变异(Recurrent CNVs);所述非癌患者为从没患癌的;所述非癌患者的非癌组织遗传DNA样本为“非癌DNA”样本;所述癌患者的非癌组织遗传DNA样本为“癌DNA”样本;
(b)分辨构件:用于从合拼起来的“非癌DNA”和“癌DNA”的重复出现的拷贝数变异(Recurrent CNVs)当中,选取一组或多组具分类功能的重复出现的CNVs(Recurrent CNVs)特征或标记,将DNA样品分辨为“非癌DNA”和“癌DNA”类别;
(c)确定具诊断性重复出现的拷贝数变异(Diagnostic Recurrent CNVs)的构件:该构件在不同的重复出现的拷贝数变异(Recurrent CNVs)特征组别被选定后,测试它们的分类功能,看能否将“非癌DNA”和“癌DNA”分类;当任何一组重复出现的拷贝数变异(RecurrentCNVs)特征能有效率地将“非癌DNA”和“癌DNA”分类,即成为一组具诊断性重复出现的拷贝数变异(Diagnostic Recurrent CNVs)特征;
(d)分析构件:用于分析一位受试者的“非癌DNA”和“癌DNA”样本,鉴定该DNA样本中含有那一些同一人种的诊断性重复出现的拷贝数变异(Diagnostic Recurrent CNVs)特征中的拷贝数变异;再依据此资料,使用机器学习过程,预测受试者的患癌风险。
2.根据权利要求1所述的应用,其特征在于,所述识别所有重复出现的拷贝数变异(Recurrent CNVs)的构件利用DNA微阵列技术,进行基因组DNA的拷贝数变异筛选。
3.根据权利要求2所述的应用,其特征在于,所述DNA微阵列技术包括Affymetrix芯片。
4.根据权利要求1所述的应用,其特征在于,所述识别所有重复出现的拷贝数变异(Recurrent CNVs)的构件是从全基因组测序获取的基因组DNA序列中识别DNA中的拷贝数变异。
5.根据权利要求1的所述的应用,其特征在于,所述识别所有重复出现的拷贝数变异(Recurrent CNVs)的构件是从测序获取的基因组DNA子集序列中识别DNA中的拷贝数变异;所述基因组DNA子集序列是通过AluScan测序平台获得。
6.根据权利要求1所述的应用,其特征在于,所述识别所有重复出现的拷贝数变异(Recurrent CNVs)的构件使用统计学流程进行重复出现的拷贝数变异(Recurrent CNVs)鉴定。
7.根据权利要求6所述的应用,其特征在于,所述统计学流程包括GISTIC2.0鉴定法。
8.根据权利要求6所述的应用,其特征在于,所述统计学流程包括AluScan鉴定法。
9.根据权利要求6所述的应用,其特征在于,所述统计学流程包括AluScanCNV鉴定法。
10.根据权利要求1所述的应用,其特征在于,所述识别所有重复出现的拷贝数变异(Recurrent CNVs)的构件采用基于相关性的特征选择法,从集合“非癌DNA”和“癌DNA”的样本群重复出现的拷贝数变异(Recurrent CNVs)中,选定一组重复出现的拷贝数变异(Recurrent CNVs)特征;方法是只选取跟“非癌DNA”或“癌DNA”相关而又互不关联的重复出现的拷贝数变异(Recurrent CNVs),作为重复出现的拷贝数变异(Recurrent CNVs)特征。
11.根据权利要求1所述的应用,其特征在于,所述识别所有重复出现的拷贝数变异(Recurrent CNVs)的构件采用基于频率的特征选择法,从集合“非癌DNA”和“癌DNA”的样本群重复出现的拷贝数变异(Recurrent CNVs)中,选定一组重复出现的拷贝数变异(Recurrent CNVs)特征;方法是选取在“非癌DNA”和“癌DNA”样本群之间,具有显著发生频率差异的重复出现的拷贝数变异(Recurrent CNVs),作为重复出现的拷贝数变异(Recurrent CNVs)特征。
12.根据权利要求1所述的应用,其特征在于,所述分辨构件采用基于分类器的特征选择法,从集合“非癌DNA”和“癌DNA”的样本群重复出现的拷贝数变异(Recurrent CNVs)中,选定一组重复出现的拷贝数变异(Recurrent CNVs)特征。
13.根据权利要求10-12任一所述的应用,其特征在于,所述特征选择法包括使用WEKA机器学习工具包中的ClassifierSubsetEval属性鉴别器与BestFirst搜寻方法。
14.根据权利要求1所述的应用,其特征在于,确定具诊断性重复出现的拷贝数变异(Diagnostic Recurrent CNVs)的构件采用贝叶斯后验概率分析,对一组诊断性重复出现的拷贝数变异(Diagnostic Recurrent CNVs)特征进行可用性测试。
15.根据权利要求1所述的应用,其特征在于,分析构件采用贝叶斯后验概率分析,对受试者癌症易感性进行评估。
16.根据权利要求1所述的应用,其特征在于,其中所述“癌DNA”样品是指包含多种类型癌症病人的遗传基因组DNAs。
17.根据权利要求1所述的应用,其特征在于,其中所述“癌DNA”样品是指单一类型癌症患者的遗传基因组DNAs。
18.根据权利要求1所述的应用,其特征在于,采用下列的一个或多个重复出现的拷贝数变异(Recurrent CNVs)作为一组诊断性重复出现的拷贝数变异(Diagnostic RecurrentCNVs)特征的成员,所述癌症易感性评估***为用来检测高加索人种受试者癌症易感性的***:
Figure FDA0002270709980000031
Figure FDA0002270709980000041
所述CNVG为拷贝数增加;所述CNVL为拷贝数减少。
19.根据权利要求1所述的应用,其特征在于,采用下列的一个或多个重复出现的拷贝数变异(Recurrent CNVs)作为一组诊断性重复出现的拷贝数变异(Diagnostic RecurrentCNVs)特征的成员,所述癌症易感性评估***为用来检测高丽人种受试者癌症易感性的***:
Figure FDA0002270709980000042
所述CNVG为拷贝数增加;所述CNVL为拷贝数减少。
20.根据权利要求1所述的应用,其特征在于,采用下列一个或多个重复出现的拷贝数变异(Recurrent CNVs)作为一组诊断性重复出现的拷贝数变异(Diagnostic RecurrentCNVs)特征的成员,所述癌症易感性评估***为中国族群受试者癌症易感性检测***:
基因组区域种类chr2:38150001-38500000CNVG
chr5:167300001-167650000CNVG
chr6:170800001-171115067CNVG
chr12:106050001-106400000CNVG
chr14:101850001-102200000CNVG
chr15:92050001-92400000CNVG
chr19:29400001-29750000CNVG
chr1:117950001-118300000CNVL
chr1:175000001-175350000CNVL
chr1:71400001-71750000CNVL
chr3:64400001-64750000CNVL
chr5:167300001-167650000CNVL
chr5:168000001-168350000CNVL
chr6:5250001-5600000CNVL
chr6:85400001-85750000CNVL
chr7:80850001-81200000CNVL
chr10:64400001-64750000CNVL
chr15:92050001-92400000CNVL
chr17:34300001-34650000CNVL
chr18:73500001-73850000CNVL;
所述CNVG为拷贝数增加;所述CNVL为拷贝数减少。
21.一种癌症易感性评估***,其特征在于,其包括如权利要求1-20任一所述的重复出现的拷贝数变异(Recurrent CNVs)检测***。
CN201580021591.3A 2014-03-20 2015-03-19 人类基因组常见拷贝数变异用于癌症易感风险评估 Active CN106460045B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461968140P 2014-03-20 2014-03-20
US61/968,140 2014-03-20
US201461990389P 2014-05-08 2014-05-08
US61/990,389 2014-05-08
PCT/CN2015/074606 WO2015139652A1 (en) 2014-03-20 2015-03-19 Use of recurrent copy number variations in constitutional human genome for prediction of predisposition to cancer

Publications (2)

Publication Number Publication Date
CN106460045A CN106460045A (zh) 2017-02-22
CN106460045B true CN106460045B (zh) 2020-02-11

Family

ID=54143765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580021591.3A Active CN106460045B (zh) 2014-03-20 2015-03-19 人类基因组常见拷贝数变异用于癌症易感风险评估

Country Status (3)

Country Link
US (1) US20170091378A1 (zh)
CN (1) CN106460045B (zh)
WO (1) WO2015139652A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688726B (zh) * 2017-09-21 2021-09-07 深圳市易基因科技有限公司 基于液相捕获技术判定单基因病相关拷贝数缺失的方法
WO2019066421A2 (ko) * 2017-09-27 2019-04-04 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법
CN110391025A (zh) * 2018-04-19 2019-10-29 清华大学 一种面向宏微观多维度胃癌早期风险评估的人工智能建模方法
CN108763872B (zh) * 2018-04-25 2019-12-06 华中科技大学 一种分析预测癌症突变影响lir模体功能的方法
CN113053460A (zh) * 2019-12-27 2021-06-29 分子健康有限责任公司 用于基因组和基因分析的***和方法
CN113496761B (zh) * 2020-04-03 2023-09-19 深圳华大生命科学研究院 确定核酸样本中cnv的方法、装置及应用
CN112164420B (zh) * 2020-09-07 2021-07-20 厦门艾德生物医药科技股份有限公司 一种基因组瘢痕模型的建立方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316080A1 (en) * 2009-10-19 2012-12-13 Stichting Het Nederlands Kanker Instiuut Differentiation between brca2-associated tumours and sporadic tumours via array comparative genomic hybridization

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
a common deletion in the APOBEC3 genes and breast cancer risk;Long et al;《JNCI》;20130417;第105卷(第8期);全文 *
Application of machine learning to development of copy number variation-based prediction of cancer risk;Ding et al;《Genomics Insights》;20140626;第7卷;全文 *
Copy number variation analysis based on aluscan sequences;Yang et al;《Journal of Clinical Bioinformatics》;20141205;第4卷(第15期);全文 *
Genetic Vatiations at loci involved in the immune response are risk factors for hepatocellular carcinoma;Clifford et al;《HEPATOLOGY》;20121231;第52卷(第6期);全文 *

Also Published As

Publication number Publication date
US20170091378A1 (en) 2017-03-30
WO2015139652A1 (en) 2015-09-24
CN106460045A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106460045B (zh) 人类基因组常见拷贝数变异用于癌症易感风险评估
Tao et al. Machine learning-based genome-wide interrogation of somatic copy number aberrations in circulating tumor DNA for early detection of hepatocellular carcinoma
US20210272695A1 (en) Systems and methods for using sequencing data for pathogen detection
Quackenbush Microarray analysis and tumor classification
US20230114581A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和***
CA3129831A1 (en) An integrated machine-learning framework to estimate homologous recombination deficiency
US20210065847A1 (en) Systems and methods for determining consensus base calls in nucleic acid sequencing
WO2020132499A2 (en) Systems and methods for using fragment lengths as a predictor of cancer
EP4275208A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
NZ539578A (en) Health and performance status determination of a biological subject using level, abundance or functional activity of a gene expression product in sample cells
US20220101135A1 (en) Systems and methods for using a convolutional neural network to detect contamination
Kim et al. MarkerCount: A stable, count-based cell type identifier for single-cell RNA-seq experiments
Wu et al. DNA-methylation signature accurately differentiates pancreatic cancer from chronic pancreatitis in tissue and plasma
US20220259657A1 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
EP4305191A1 (en) Systems and methods for identifying microbial biosynthetic genetic clusters
EP2324351B1 (en) Non-hypergeometric overlap probability
TWI832443B (zh) 甲基化生物標記選擇裝置及方法
Phan et al. High-performance deep learning pipeline predicts individuals in mixtures of DNA using sequencing data
Lynch et al. demuxSNP: supervised demultiplexing scRNAseq using cell hashing and SNPs
Marzena et al. Validation of HER2 status in whole genome sequencing data of breast cancers with AI-driven, ploidy-corrected approach
Aljouie Cancer Risk Prediction with Whole Exome Sequencing and Machine Learning
WO2024079279A1 (en) Disease characterisation
Titus Analyzing Tumors via Latent DNA-methylation-based Phenotypes of Disease to Quantify Biological Signal
WO2019015549A1 (en) METHOD AND SYSTEM OF CELLULAR TYPE IDENTIFICATION

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant