CN114927213A - 多癌种早筛模型构建方法以及检测装置 - Google Patents
多癌种早筛模型构建方法以及检测装置 Download PDFInfo
- Publication number
- CN114927213A CN114927213A CN202210392412.9A CN202210392412A CN114927213A CN 114927213 A CN114927213 A CN 114927213A CN 202210392412 A CN202210392412 A CN 202210392412A CN 114927213 A CN114927213 A CN 114927213A
- Authority
- CN
- China
- Prior art keywords
- cancer
- model
- fsc
- edm
- fsd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Public Health (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Immunology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Hospice & Palliative Care (AREA)
Abstract
本发明涉及多癌种(肺癌、肠癌和肝癌)早期检测和癌种预测方法、检测装置以及计算机可读取介质。本发明提供了一种对血浆样本cfDNA进行WGS低深度测序,使用高通量测序结果分析各癌种cfDNA片段五种差异特征,包括基因组范围片段长度覆盖分布,染色体各长短臂上片段长度分布,片段断点处序列,片段5’端序列和1MB窗口片段拷贝数变化,利用再用广义线性模型,梯度提升机,随机森林,深度学习和极端梯度提升五种算法分别进行训练建模,再用广义线性模型进行二次集合训练构建多特征多算法整合模型,实现了对多癌种低深度高特异性高敏感性的无创精准早期检测和组织起源检测的目的。
Description
技术领域
本发明涉及一种包括肺癌(Lung Adenocarcinoma,LUAD)、结直肠癌(ColorectalCarcinoma,CRC) 和肝癌(Primary Liver Cancer,PLC)的多癌种组织起源检测,属于分子生物医学技术领域。
背景技术
肺癌、结直肠癌和肝癌是三种全球死亡率最高的恶性肿瘤。
肺癌、肝癌和结直肠癌由于早期无明显症状或检测困难导致早期诊断率低。然而,目前市场上的癌症 早筛产品多是针对单癌种预测,若患者需接受多次不同单癌种早筛项目,由于耗时费力且费用高,可能降 低各癌种早筛在广泛人群中的贯彻推广。多癌种的早期筛查不仅覆盖各癌种的早起筛查,且精确检测其组 织起源,预防癌症发展过程中可能出现的未知原发癌而使病情复杂,耽误诊断治疗的情况发生。因此,我 国迫切需要一种同时覆盖以上三种死亡率最高的恶性肿瘤的早筛产品,以更高效、经济、实用地适用于更 广泛人群。
发明内容
本发明提供了一种对血浆样本cfDNA进行WGS低深度测序,使用高通量测序结果分析各癌种cfDNA 片段五种差异特征,包括基因组范围片段长度覆分布,染色体各长短臂上片段长度分布,片段断点处序列 (8-mer Breakpoint Motif),片段5’端序列(8-mer EndMotif)和1MB窗口片段拷贝数变化,利广义线性 模型(GLM),用梯度提升机(GBM),随机森林(Random Forest),深度学习(Deep Learning)和极端梯 度提升(XGBoost)四种算法分别进行训练建模,最后再通过广义线性模型(GLM)构建多特征多算法整 合模型,实现了对多癌种低深度高特异性高敏感性的无创精准组织起源(Tissue of Origin,TOO)检测的 目的。
本发明的第一个目的:
多癌种早筛模型的构建方法,所述的模型用于对样本是否患有肠癌、肺癌或者肝癌进行分类,包括如 下步骤:
步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口 范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获 得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段 中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的 位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的 所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征 集合;
步骤7,以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征向量输入至 分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
所述的步骤6中,患癌是指患有肠癌、肺癌或者肝癌中的任意一种。
所述的步骤6中,还需要对初始特征值进行简化后再作为模型特征向量,所述的简化是指分别筛选出 第一、第二、第三、第四和第五特征集合在阳性组和对照组的样本之间存在显著性差异的特征值。
所述的筛选过程是通过方差分析方法。
所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp 范围。
所述的步骤2中窗口的大小范围是2-7Mb。
所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度 范围。
所述的读段数量经过了标准化处理。
所述的步骤4中,m是6-10之间的任意整数。
所述的步骤5中,n是2-5之间的任意整数。
所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的。
所述的步骤7中输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性 模型、梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将 子模型联立为线性关系模型。
本发明的第二个目的:
多癌种检测装置,所述的装置用于样本是否患有肠癌、肺癌或者肝癌进行分类,包括:
测序模块,用于对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并 分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂 作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种 碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上 的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基 片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数 数据,作为第五特征集合;
模型构建模块,用于以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征 向量输入至分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
本发明的第三个目的:
一种计算机可读取介质,其记载有可以运行多癌种早筛模型的构建方法的计算机程序。
本发明的第四个目的:
一种多癌种早筛模型的构建方法,所述的模型用于对癌症样本进行肠癌、肺癌或者肝癌的区分;
包括如下步骤:
步骤1,对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口 范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获 得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段 中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的 位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的 所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征 集合;
步骤7,分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本,每一组 中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、第二、第三、 第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异的特征值,再 将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型中,并以是否 患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
所述的步骤7中,输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至梯度提 升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将子模型联立为 线性关系模型。
所述的筛选过程是通过方差分析方法。
所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp 范围。
所述的步骤2中窗口的大小范围是2-7Mb。
所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度 范围。
所述的读段数量经过了标准化处理。
所述的步骤4中,m是6-10之间的任意整数。
所述的步骤5中,n是2-5之间的任意整数。
所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的。
本发明的第五个目的:
多癌种检测装置,所述的装置用于对癌症样本进行肠癌、肺癌或者肝癌的区分,包括:
测序模块,用于对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并 分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂 作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种 碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上 的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基 片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数 数据,作为第五特征集合;
模型构建模块,用于分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样 本,每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、 第二、第三、第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异 的特征值,再将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型 中,并以是否患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
本发明的第六个目的:
一种计算机可读取介质,其记载有可以运行多癌种早筛模型的构建方法的计算机程序。
有益效果
对191例肝癌患者、149例结直肠癌患者和146例肺癌患者的低深度WGS(~5X)cfDNA读段基因组 范围内长度分布、染色体各长短臂范围内长度分布、片段末端序列占比、断点处序列占比和区域拷贝数变 化进行统计,分别利用五种不同的训练学习算法构建模型,并对所有模型进行二次集合训练,提高模型对 癌症早期检测和癌种预测的预测性能。本发明首次基于血浆cfDNA高通量低深度测序提供了多分子特征 多训练算法二次整合诊断模型,该模型不仅能够诊断早期多种癌症及其组织起源,且具有无创检测,通量 低,检测特异性和敏感性高的特点。
附图说明
图1是模型构建过程示意图;
图2是多癌种早期检测模型构建过程示意图;
图3是多癌种组织起源模型构建过程示意图;
图4是5中特征中最大差异特征列在癌症组和非癌症组之间的分布;
图5是多癌种早期检测模型在训练集合中的AUC表现;
图6是多癌种早期检测模型在测试集合中的AUC表现;
图7是肝癌5种特征中独有的最大差异特征列在肝癌和其他癌种之间的分布;
图8是肠癌5种特征中独有的最大差异特征列在肠癌和其他癌种之间的分布;
图9是肺癌5种特征中独有的最大差异特征列在肺癌和其他癌种之间的分布;
具体实施方式
本发明涉及多癌种(肺癌、肠癌和肝癌)早期检测和癌种预测标志物、检测方法、检测装置以及计算 机可读取介质。本发明提供了一种对血浆样本cfDNA进行WGS低深度测序,使用高通量测序结果分析各 癌种cfDNA片段五种差异特征,包括基因组范围片段长度覆盖分布,染色体各长短臂上片段长度分布, 片段断点处序列(8-mer Breakpoint Motif),片段5’端序列(8-mer End Motifs)和1MB窗口片段拷贝数 变化,利用再用广义线性模型(Generalized Linear Mode,GLM),梯度提升机(Gradient Boosting Machine, GBM),随机森林(Random Forest,RF),深度学习(Deep Learning,DL)和极端梯度提升(XGBoost)五 种算法分别进行训练建模,再用广义线性模型(GLM)进行二次集合训练构建多特征多算法整合模型,实 现了对多癌种低深度高特异性高敏感性的无创精准早期检测和组织起源检测的目的。
本发明中的计算方法详述如下:
本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没 有特别的限定,可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序 技术获得cfDNA的碱基信息。
本发明中的模型构建过程采用的数据集情况如下:
血浆cfDNA样本的提取和测序方法:
采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本,及时离心分离血浆(2小时内),转运 至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行cfDNA提取。对采集到的cfDNA 样本建库后,进行WGS~5乘测序。在获得了下机数据之后,将数据比对至人类参考基因组上,获得相应 的读段的碱基数据信息。
数据处理
本发明中的标志数据,主要是利用五种分子特征:
1.DNA片段大小占比(Fragmentation Size Coverage,FSC)
对于DNA片段大小占比,其反映的是cfDNA读段的长度大小的占比特征。利用DNA片段大小覆盖 深度(fragmentation size ratio)进行机器学习建立预测模型,从而区分肺癌、肠癌和肝癌患者。通过比较 486例肺癌、肠癌或肝癌患者的cfDNA读段的长度,发现40-80bp,81-300bp和40-300bp间的片段数量在 染色体上的分布存在差异,可以作为区分特征。
cfDNA读段长度数据是通过如下方法获取得到的:在比对好的BAM当中,记录了每一条读段的质量, 长度和比对位置信息,人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California,Santa Cruz,UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度,切割成572个窗口,分别统计每一个 窗口中的全部读段数量(40-300bp),短读段数量(40-80bp)和长读段数量(81-300bp)。根据所有窗口中 各种读段数量统计结果,分别对每种读段数量进行标准化换算,即标准化值=(原始值–平均值)/标准差。 由此得到了572组不同长度的读段数量的数集。
2.DNA片段大小分布(Fragmentation Size Distribution,FSD)
在获取了DNA片段大小占比的基础上,为获得高分辨率读段结果,以人类参考基因组各染色体长短 臂41个区域作为窗口,如下所示:
chr1_p | chr4_q | chr8_p | chr11_q | chr16_q | chr20_p |
chr1_q | chr5_p | chr8_q | chr12_p | chr17_p | chr20_q |
chr2_p | chr5_q | chr9_p | chr12_q | chr17_q | chr21_q |
chr2_q | chr6_p | chr9_q | chr13_q | chr18_p | chr22_q |
chr3_p | chr6_q | chr10_p | chr14_q | chr18_q | chrX_p |
chr3_q | chr7_p | chr10_q | chr15_q | chr19_p | chrX_q |
chr4_p | chr7_q | chr11_p | chr16_p | chr19_q |
将40-300bp的片段,以10bp递增,划分27个长度梯度(例,chr1的1q臂上40-49bp,50-59bp……), 对每个长度梯度在各长短臂窗口内片段数量进行统计,并进行标准化换算,从而获得高分辨率DNA片段 大小分布结果共计1107个特征结果(2823=41*27个长度梯度标准化结果)。
3.片段5’端末端序列占比(8-mer End Motif,EDM)
人类参考基因组是DNA双螺旋结构,依靠碱基互补配对氢离键链接;在正常衰老和癌症进展过程中, 细胞周围环境的酸碱度发生变化,从而破坏了碱基互补氢键,发生断裂;由于断裂后的DNA片段末端碱 基序列不同,包含不同末端序列的占比也会不同。收集方法:比对后获取每一条读段内5’端8bp序列,统 计每种末端序列(共计4**8=65536种)的读段数量,从而计算出65536种末端序列读段占比,例 AAAAAAAA序列占比=AAAAAAAA读段数量/所有末端序列读段总数。
4.片段5’端断点序列读段数量占比(8-mer Breakpoint Motif,BKM)
类似于末端序列占比,由于断裂处的碱基序列不同,包含不同断点序列的序列占比也会不同。收集方 法:比对后的BAM中,记录了每一条读段的基本信息和比对到的位置,确认每一条读段的5’端所在人类 参考基因组序列坐标的左右各4bp序列,统计每种断点处序列(共计4**8=65536种)的读段数量,从而 计算出65536种断点处序列读段占比,例AAAAAAAA序列占比=AAAAAAAA读段数量/所有断点序 列读段总数。
5.1 Mb窗口拷贝数变化(1Mb-Bin Copy Number Variation,CNV)
拷贝数变化与个体癌症有显高度相关性,尽管已经可以通过检测部分癌症相关基因或特定基因组区间 的拷贝数数变化从而进行区分,但仍有其他稀有或未知基因或区间可以提供潜在拷贝数变化信息。收集方 法:对每个待测样本WGS数据,将参考基因1-22号染色体以1Mb的长度无重叠划分窗口,利用bedtools coverage对每个样本计算各个窗口内的读段深度,并根据各自窗口的GC含量和平均比对能力记录(UCSC BigWig文件)进行矫正,获得2475个窗口个体读段深度信息,利用隐马尔可夫模型(Hidden Markov Model, HMM)和每个窗口群体对照基线深度,构建每个窗口的拷贝数变化对数,即log2(待测样本矫正均一化后深度/群体基线矫正均一化后深度),从而获得每个待测样本的拷贝数变化信息。
通过上述的数据获取,分别能够获得这五类数据的初始数据向量。接下来,再设计相应的计算方法: 本发明中的标志数据,主要利用五种单特征机器学习算法:
1.广义线性模型算法(Generalize Linear Model,GLM)
广义线性模型是线性模型的扩展,通过连接函数建立响应变量的数学期望值与线性组合的预测变量之 间的关系。主要特点是不强行改变数据的自然度量,是常用的二分类分类策略。
2.梯度提升算法(Gradient Boosting Machine,GBM)
梯度提升算法是机器学习中常见的一类算法,其基本原理是根据当前模型损失函数的负梯度信息来训 练新加入的弱分类器,然后将训练好的若分类起以累加的形式结合到现有的模型中从而获得最优模型,该 模型具有训练效果好,不易过拟合等优点。为防止GBM在学习过程中过度或欠拟合,设定GBM参数如 下:ntrees=300,max_depth=9,learning_rate=0.01,subample=0.8,cross_validation=10。
3.随机森林(Random Forest,RF)
随机森林是一个强大的分类和回归工具。当提供一组数据集合,随机森林可以随机抽取部分信息产生 一组帮助分类或回归的决策树林,做节点***属性,不断重复随机抽取,直至不能再***;最后结合所有 ***属性结果,获得最终预测结果。为防止RF在学习过程中过度或欠拟合,设定RF参数如下:ntrees=300, max_depth=9,cross_validation=10。
4.深度学习算法(Deep Learning,DL)
深度学***均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型,也称为深层 神经网络(DNN)或多层感知器(MLP),是深层神经网络的最常见类型。主要原理是将多输入和多输出 的多个感知机通过设计建立适量的神经元计算节点和多层运算层次结构,选择合适的输人层和输出层,通 过网络的学习和调优,建立起从输入到输出的函数关系,可以尽可能的逼近现实的关联关系。为防止DL 学习过程中过度或欠拟合,设定DL参数如下:epoch是=300,hidden={100,100,100},input_dropout_ratios =0.05,rho=0.95,mini_batch_size=10,cross_validation=10。
5.极端梯度提升算法(Extreme Gradient Boosting,XGBoost)
极端梯度提升是梯度提升算法的高效开源实现。相比传统GMB,XGBoost引入了并行化,所以其速 度更快;XGBoost对目标函数引入了二阶近似,求得解析解,用解析解来建立决策树,使得目标函数最优; XGBoost引入了正则项部分,可以控制模型的复杂度,防止过拟合;Xgboost引入了特征子采样,类似于 随机森林,既可以降低过拟合,也可以减少计算。为防止XGBoost在学习过程中过度或欠拟合,设定 XGBoost参数如下:ntrees=300,max_depth=9,cross_validation=10。
为提高机器学习效率和降低无用特征干扰,通过对不同组间的特征值进行方差分析(Analysisofvariance, ANOVA),将组间差异大的特征值筛选出来,该步骤通过R包stats的aov()功能的F值(Fvalue)结果 和p.adjust()功能矫正后的pvalue实现。
多癌种早期检测模型的建立过程
为建立多癌种早期检测模型,将训练集合分成癌症组和非癌组,分别对五种特征进行方差分析,并根 据Fvalue结果进行降序排列,保留前200的特征作为预测输入值。
癌种组织起源模型的建立过程
为建立多癌种组织起源模型,对训练集合中的191例肝癌、149例肠癌和146例肺癌患者分为三组,以“单 癌种vs.其他癌种”模式对每个癌种组的5种特征分别进行特征方差分析,并对单癌种每个特征根据Fvalue 结果进行降序排列,保留前100的特征作为预测输入值。
特征值筛选过程的数据结果
癌症组与非癌症组FSC的前200个差异显著的特征值如下所示:其中的long/short/total分别代表长读段、 短读段和全部读段,数字部分代表窗口位置编号;
Feature | Fvalue | Feature | Fvalue | Feature | Fvalue | Feature | Fvalue |
FSC_long396 | 81.701 | FSC_long263 | 52.6787 | FSC_long347 | 46.5958 | FSC_long179 | 40.5184 |
FSC_long540 | 75.4718 | FSC_total383 | 52.2025 | FSC_total539 | 46.5743 | FSC_long224 | 40.43 |
FSC_long391 | 72.9756 | FSC_long82 | 51.0191 | FSC_long349 | 46.3592 | FSC_long566 | 40.4084 |
FSC_total253 | 70.415 | FSC_long489 | 50.8073 | FSC_long72 | 46.3575 | FSC_long389 | 40.238 |
FSC_long57 | 65.0874 | FSC_total491 | 50.7231 | FSC_total429 | 45.6451 | FSC_total87 | 40.1647 |
FSC_total444 | 64.683 | FSC_total357 | 50.3417 | FSC_long502 | 45.5662 | FSC_long388 | 40.1022 |
FSC_long157 | 64.0348 | FSC_total448 | 49.965 | FSC_long517 | 45.3359 | FSC_long134 | 40.0138 |
FSC_long90 | 64.0015 | FSC_long113 | 49.6011 | FSC_long188 | 45.2453 | FSC_total47 | 39.9453 |
FSC_total172 | 61.622 | FSC_total31 | 49.0058 | FSC_total314 | 45.2022 | FSC_long74 | 39.8747 |
FSC_long405 | 60.4978 | FSC_long194 | 48.9941 | FSC_long130 | 45.0391 | FSC_long254 | 39.6966 |
FSC_long66 | 60.4351 | FSC_long499 | 48.7882 | FSC_total4 | 44.8316 | FSC_long301 | 39.4437 |
FSC_long400 | 59.9275 | FSC_total171 | 48.7311 | FSC_long123 | 44.5548 | FSC_long89 | 39.2945 |
FSC_total46 | 59.6363 | FSC_long227 | 48.4569 | FSC_long531 | 44.3869 | FSC_long140 | 39.2536 |
FSC_total446 | 57.4202 | FSC_long459 | 48.1535 | FSC_total234 | 43.5862 | FSC_short444 | 39.2209 |
FSC_long4 | 56.6373 | FSC_long512 | 47.9473 | FSC_total342 | 43.5405 | FSC_total94 | 39.1298 |
FSC_long152 | 56.524 | FSC_total513 | 47.713 | FSC_total376 | 42.9968 | FSC_total219 | 39.1004 |
FSC_long553 | 55.4318 | FSC_long56 | 47.7048 | FSC_long393 | 42.7845 | FSC_total468 | 38.9743 |
FSC_total12 | 55.0499 | FSC_total13 | 47.5346 | FSC_total173 | 42.7742 | FSC_total3 | 38.8111 |
FSC_long377 | 54.58 | FSC_long475 | 47.4325 | FSC_total184 | 42.3602 | FSC_long394 | 38.803 |
FSC_long125 | 54.3197 | FSC_total5 | 47.0377 | FSC_long50 | 42.1805 | FSC_total449 | 38.6676 |
FSC_long3 | 54.192 | FSC_long444 | 47.0082 | FSC_total10 | 41.9203 | FSC_long463 | 38.487 |
FSC_total174 | 53.5348 | FSC_long467 | 46.7466 | FSC_long390 | 41.3479 | FSC_long269 | 38.1169 |
FSC_long262 | 53.3568 | FSC_total126 | 46.6959 | FSC_long190 | 41.3405 | FSC_long178 | 37.7909 |
FSC_long229 | 53.3224 | FSC_long526 | 46.6444 | FSC_long260 | 40.9844 | FSC_total2 | 37.6067 |
FSC_long396 | 81.701 | FSC_total109 | 46.6086 | FSC_total454 | 40.6857 | FSC_total11 | 37.387 |
癌症组与非癌症组FSD的前200个差异显著的特征值如下所示:其中的chrx,xp/q代表x号染色体上的长 臂或短臂,数字部分是指梯度位置的编号;
Feature | Fvalue | Feature | Fvalue |
FSD_chr5.5p.230.234 | 54.8092854 | FSD_chr4.4p.235.239 | 46.4221384 |
FSD_chr4.4p.230.234 | 51.9645174 | FSD_chr20.20q.290.294 | 46.4201924 |
FSD_chr11.11p.230.234 | 51.5186474 | FSD_chr19.19q.275.279 | 46.283729 |
FSD_chr5.5p.225.229 | 50.8401068 | FSD_chr12.12p.230.234 | 46.2242476 |
FSD_chr7.7p.230.234 | 50.2519893 | FSD_chr9.9p.240.244 | 46.2196927 |
FSD_chr10.10p.230.234 | 48.4822926 | FSD_chr12.12p.260.264 | 46.1646039 |
FSD_chr5.5p.235.239 | 47.5247215 | FSD_chr19.19q.280.284 | 46.1265988 |
FSD_chr20.20q.270.274 | 47.3902919 | FSD_chr9.9p.280.284 | 46.1158508 |
FSD_chr20.20q.280.284 | 47.3678492 | FSD_chr12.12p.265.269 | 46.0895064 |
FSD_chr10.10p.225.229 | 47.1690378 | FSD_chr20.20q.285.289 | 46.0108982 |
FSD_chr4.4p.225.229 | 47.1414866 | FSD_chr21.21q.275.279 | 45.9727712 |
FSD_chr19.19q.285.289 | 47.0605845 | FSD_chr20.20p.280.284 | 45.9303935 |
FSD_chr12.12p.240.244 | 46.9006364 | FSD_chr20.20q.245.249 | 45.9105264 |
FSD_chr20.20q.265.269 | 46.8555706 | FSD_chr12.12p.250.254 | 45.875542 |
FSD_chr20.20q.260.264 | 46.8400839 | FSD_chr17.17q.230.234 | 45.8489966 |
FSD_chr5.5p.240.244 | 46.8303311 | FSD_chr20.20q.250.254 | 45.816055 |
FSD_chr9.9p.265.269 | 46.8185691 | FSD_chr12.12p.270.274 | 45.5709483 |
FSD_chr19.19q.265.269 | 46.8026732 | FSD_chr19.19q.230.234 | 45.5488692 |
FSD_chr20.20q.275.279 | 46.7419692 | FSD_chr12.12p.255.259 | 45.5170554 |
FSD_chr20.20q.230.234 | 46.64789 | FSD_chr9.9p.285.289 | 45.4580678 |
FSD_chr10.10p.240.244 | 46.6417362 | FSD_chr7.7p.235.239 | 45.4516827 |
FSD_chr11.11p.240.244 | 46.5794021 | FSD_chr16.16q.240.244 | 45.4129474 |
FSD_chr20.20q.240.244 | 46.5064897 | FSD_chr19.19q.260.264 | 45.3741767 |
FSD_chr19.19q.270.274 | 46.4862245 | FSD_chr8.8p.240.244 | 45.3389915 |
FSD_chr5.5p.165.169 | 46.4674378 | FSD_chr12.12p.245.249 | 45.3279377 |
Feature | Fvalue | Feature | Fvalue |
FSD_chr8.8p.265.269 | 44.031405 | FSD_chr22.22q.270.274 | 43.2411911 |
FSD_chr20.20p.250.254 | 43.9666741 | FSD_chr21.21q.290.294 | 43.2278246 |
FSD_chr8.8p.270.274 | 43.8818837 | FSD_chr22.22q.260.264 | 43.2262642 |
FSD_chr12.12p.285.289 | 43.8489858 | FSD_chr16.16q.245.249 | 43.1792503 |
FSD_chr21.21q.285.289 | 43.8382823 | FSD_chr20.20q.235.239 | 43.1283769 |
FSD_chr20.20p.260.264 | 43.8108758 | FSD_chr9.9p.245.249 | 43.127892 |
FSD_chr8.8p.275.279 | 43.808056 | FSD_chr8.8p.280.284 | 43.0742397 |
FSD_chr19.19p.265.269 | 43.7224674 | FSD_chr20.20q.225.229 | 43.0671324 |
FSD_chr20.20p.255.259 | 43.7223783 | FSD_chr20.20p.230.234 | 43.0504681 |
FSD_chr19.19q.225.229 | 43.705319 | FSD_chr19.19p.250.254 | 43.0229557 |
FSD_chr22.22q.265.269 | 43.6151308 | FSD_chr16.16q.255.259 | 43.0014434 |
FSD_chr20.20p.290.294 | 43.6055968 | FSD_chr8.8p.245.249 | 42.9739528 |
FSD_chr19.19q.295.299 | 43.6039302 | FSD_chr5.5p.250.254 | 42.9520915 |
FSD_chr4.4p.245.249 | 43.5852556 | FSD_chr16.16q.280.284 | 42.9266045 |
FSD_chr4.4p.240.244 | 43.558149 | FSD_chr19.19p.275.279 | 42.8884374 |
FSD_chr19.19q.235.239 | 43.5359024 | FSD_chr11.11p.260.264 | 42.8444442 |
FSD_chr22.22q.240.244 | 43.4979393 | FSD_chr22.22q.250.254 | 42.822104 |
FSD_chr11.11p.245.249 | 43.4940087 | FSD_chr11.11p.225.229 | 42.821477 |
FSD_chr16.16q.235.239 | 43.4045613 | FSD_chr21.21q.245.249 | 42.8073186 |
FSD_chr9.9p.290.294 | 43.3618866 | FSD_chr21.21q.255.259 | 42.7824982 |
FSD_chr20.20p.240.244 | 43.3527499 | FSD_chr21.21q.230.234 | 42.7789333 |
FSD_chr7.7p.250.254 | 43.3352273 | FSD_chr22.22q.280.284 | 42.6836024 |
FSD_chr21.21q.260.264 | 43.3236451 | FSD_chr11.11p.255.259 | 42.5800444 |
FSD_chr16.16q.250.254 | 43.2766888 | FSD_chr19.19p.285.289 | 42.400389 |
FSD_chr8.8p.285.289 | 43.2615185 | FSD_chr19.19p.280.284 | 42.3744761 |
癌症组与非癌症组EDM的前200个差异显著的特征值如下所示:其中由8位ATCG构成的编号代表不同 的特征值的碱基序列;
Feature | Fvalue | Feature | Fvalue |
EDM_TGCTTGAT | 108.939 | EDM_AGATGCGG | 83.7157 |
EDM_AGCTTCCG | 105.103 | EDM_TGACGCGC | 83.0017 |
EDM_GGCTTCAG | 104.596 | EDM_GGATGTCG | 82.4446 |
EDM_TGCTCCAA | 98.8863 | EDM_TGACGCAA | 81.7297 |
EDM_GGCTCCCG | 98.0056 | EDM_CGATTACG | 81.696 |
EDM_CGCTTTGT | 97.0309 | EDM_TGATCCGG | 81.6917 |
EDM_TGGCTCAC | 96.0004 | EDM_GGACTTCG | 81.4562 |
EDM_TGCTTCGC | 94.8698 | EDM_AGATTCGC | 81.2742 |
EDM_GGCTTTCA | 93.5914 | EDM_TGCTGCGT | 81.1171 |
EDM_CGATCCCG | 92.5713 | EDM_CGCTCCGA | 80.8802 |
EDM_GGATCCAC | 92.2369 | EDM_AGCTCTAT | 80.6847 |
EDM_GGACGTGA | 91.9986 | EDM_TGCTTTAA | 79.0565 |
EDM_CGATACCG | 91.8643 | EDM_TGACCCGC | 78.8234 |
EDM_GGACTCCG | 91.3485 | EDM_CGCCTCGC | 78.8054 |
EDM_AGCTCTCA | 90.9664 | EDM_CCCGTATT | 78.3346 |
EDM_GGCCTCAT | 89.878 | EDM_AGACCCCT | 78.2996 |
EDM_GGCTTCTA | 89.1031 | EDM_AGGTTCCG | 77.9522 |
EDM_TGACTCAT | 87.1597 | EDM_AGGTTCAC | 77.4016 |
EDM_GGGCGCAG | 86.9931 | EDM_AGATTCCT | 76.6816 |
EDM_TGACGTAC | 86.6968 | EDM_GGATCTCC | 76.2927 |
EDM_AGACCCAT | 86.0862 | EDM_AAAAAGGA | 76.1724 |
EDM_TGACGTCC | 85.8079 | EDM_TGACTTGG | 75.6534 |
EDM_CGGCGCGC | 85.4427 | EDM_AGATCGAA | 75.4723 |
EDM_TGGCGTGT | 84.9567 | EDM_CGACACCA | 75.312 |
EDM_GGATCTGG | 83.8928 | EDM_AGCTACGT | 75.0954 |
Feature | Fvalue | Feature | Fvalue |
EDM_AGTCGTGG | 66.8285 | EDM_CCAAAAGA | 64.4245 |
EDM_AACTGCAC | 66.6532 | EDM_GGACGCTC | 64.3401 |
EDM_CAAATGTG | 66.5838 | EDM_AGAATCAA | 64.2852 |
EDM_AGTCGAGC | 66.4404 | EDM_GCTTAGTT | 64.2412 |
EDM_CGACGTTG | 66.3781 | EDM_GGTGCCAG | 64.1455 |
EDM_AGGTCCAA | 66.2987 | EDM_TACTTCCG | 64.1268 |
EDM_AGCATCGT | 65.9152 | EDM_CATAAGTA | 63.9182 |
EDM_TGCCTTAT | 65.843 | EDM_CGCCGTAA | 63.7133 |
EDM_AGCCGTCA | 65.8123 | EDM_CGCTGCAC | 63.5523 |
EDM_TGCTTACC | 65.7943 | EDM_CCTCAATC | 63.4838 |
EDM_CACTTTGT | 65.5289 | EDM_TCCAATTA | 63.368 |
EDM_TACTGCCC | 65.3877 | EDM_TGCCCTAC | 63.1577 |
EDM_AGCCGCGC | 65.0759 | EDM_TATTGGTG | 63.1209 |
EDM_CGATCCTT | 65.047 | EDM_GGATTGCC | 63.0253 |
EDM_CGGTGCAT | 65.0067 | EDM_GGCCCCAC | 62.949 |
EDM_TGATGTGG | 64.9339 | EDM_GCAATTTC | 62.887 |
EDM_AGACTACC | 64.8444 | EDM_CGGCCCAC | 62.4603 |
EDM_GCTAAAAC | 64.824 | EDM_CCCATTTA | 62.3246 |
EDM_CACCGCGC | 64.7008 | EDM_TAAAGGAG | 61.9389 |
EDM_GCTACATG | 64.6971 | EDM_GCTAATGC | 61.8865 |
EDM_CCTATATC | 64.6731 | EDM_CCTGTATT | 61.7935 |
EDM_TCAATATT | 64.6509 | EDM_CGGTACGA | 61.7435 |
EDM_GGCTCACC | 64.5625 | EDM_TGACGAGG | 61.6167 |
EDM_AACTCCAC | 64.5266 | EDM_TCTAAAGG | 61.498 |
EDM_CAAAAGTC | 64.4716 | EDM_AGATCTAG | 61.461 |
癌症组与非癌症组BKM的前200个差异显著的特征值如下所示:其中由8位ATCG构成的编号代表不同 的特征值的碱基序列;
Feature | Fvalue | Feature | Fvalue |
BKM_TATCGCTA | 130.807152 | BKM_ATGCGCTA | 98.5952581 |
BKM_GCACGCTT | 113.538103 | BKM_GAGTGCTA | 97.9152335 |
BKM_CTTTGTAG | 112.083258 | BKM_GAATGGCT | 97.697029 |
BKM_GAAGGCCT | 111.824392 | BKM_AGAGGCCC | 97.6070588 |
BKM_GGACGCAG | 111.752205 | BKM_GAATGCTA | 96.2450864 |
BKM_AAAGGCTC | 110.03839 | BKM_AAGGGAAG | 95.8114101 |
BKM_GGTCGCTT | 109.32525 | BKM_AAACGCCA | 95.4338561 |
BKM_AACCGCTT | 108.39628 | BKM_GAGCGCAC | 94.6393849 |
BKM_GAAGGGCC | 105.356765 | BKM_CACCGCCC | 94.3997228 |
BKM_CATCGCCA | 105.307551 | BKM_AAGTGCCA | 94.2375066 |
BKM_CGGCGCTT | 105.154233 | BKM_GATGGCTT | 93.73717 |
BKM_TGCCGCTA | 103.837807 | BKM_GGACGCCC | 93.6879938 |
BKM_AGGGGCTT | 102.774888 | BKM_CTACGCTA | 93.3585377 |
BKM_AAGCGCTA | 102.631636 | BKM_CGGCGACT | 92.5179784 |
BKM_ATTAGTAC | 102.282114 | BKM_CGGTGGCT | 92.1608125 |
BKM_TAGGGCCT | 102.178313 | BKM_TCACGATG | 91.3761759 |
BKM_CATGGCCT | 102.045968 | BKM_AGATGCCT | 91.3176476 |
BKM_GGGTGCTG | 102.007894 | BKM_AAGCGCCA | 91.0868765 |
BKM_CTTCGCTA | 101.571631 | BKM_CAACGCTG | 90.2805221 |
BKM_TAACGCAC | 101.405716 | BKM_CGGCGCCA | 89.7592663 |
BKM_TAATGCCA | 100.658644 | BKM_GTGGGATG | 89.7128211 |
BKM_AGATGCTT | 99.891257 | BKM_TAGGGGCG | 89.499491 |
BKM_CAGGGCTC | 99.6844108 | BKM_TGGGGCCA | 89.276824 |
BKM_GGACGCTA | 99.262136 | BKM_AGAGGACT | 88.4708948 |
BKM_CATGGGCA | 99.193011 | BKM_AGGTGCCG | 88.3251624 |
Feature | Fvalue | Feature | Fvalue |
BKM_AGGCGGCA | 78.2177097 | BKM_ATTACAAC | 75.0675134 |
BKM_CAACGACG | 78.1940344 | BKM_GTTAATAA | 74.9328476 |
BKM_GTGCGATG | 78.1206373 | BKM_TGGGGGTC | 74.9180801 |
BKM_ACTAATCA | 78.068639 | BKM_CGACGATT | 74.5733125 |
BKM_AGACGACA | 77.9623598 | BKM_TATCGGCC | 74.5161508 |
BKM_GAGTGAGC | 77.889533 | BKM_CTGGGCTT | 74.2999242 |
BKM_CGGGGGCG | 77.8259267 | BKM_CAGCGGAT | 73.5440325 |
BKM_CTCAATCA | 77.7366991 | BKM_TAACGATG | 73.4477075 |
BKM_GATCGCGC | 77.4573563 | BKM_GTGAAAAG | 72.9467138 |
BKM_GGGCGGTT | 77.4291049 | BKM_GTAAATTC | 72.8716606 |
BKM_CGTGGCCA | 77.3332113 | BKM_AGCAATAA | 72.5298191 |
BKM_GAGCGGTT | 77.235208 | BKM_TAACGAAA | 72.2698349 |
BKM_TCAAATCA | 76.9099303 | BKM_GGAGGGTA | 72.2420055 |
BKM_GACTGCTC | 76.8131165 | BKM_CGGCGCAT | 72.2078111 |
BKM_CAACGGTC | 76.7882665 | BKM_CTCACTAT | 72.1524578 |
BKM_GGACGGCG | 76.5531798 | BKM_GTAAAAAA | 71.9312005 |
BKM_TAGGGATT | 76.3743039 | BKM_GAGTGATC | 71.7835403 |
BKM_TAGGGCAC | 75.8879792 | BKM_TTAACTAA | 71.7320049 |
BKM_AAGTGGTA | 75.879689 | BKM_AAAACCAA | 71.6974967 |
BKM_CCTAATTA | 75.6847188 | BKM_GTTACACT | 71.6851512 |
BKM_TCAAATTA | 75.5914363 | BKM_ACAAAAAT | 71.3907208 |
BKM_TAATGACG | 75.5543415 | BKM_TACCGATG | 70.7519088 |
BKM_AGCCGACC | 75.4170013 | BKM_GTTAATCA | 70.4962008 |
BKM_CCACGCCC | 75.4052383 | BKM_AGCGGTGA | 70.4733951 |
BKM_CAGTGACG | 75.0877116 | BKM_TATCGATA | 70.32242 |
癌症组与非癌症组CNV的前200个差异显著的特征值如下所示:其中chrx是代表x号染色体,数字部分 是指在染色体上的位置范围;
Feature | Fvalue | Feature | Fvalue |
CNV_chr1.61000001.62000000 | 84.1167063 | CNV_chr15.57000001.58000000 | 65.2286629 |
CNV_chr22.36000001.37000000 | 79.9497093 | CNV_chr2.125000001.126000000 | 65.1535805 |
CNV_chr7.97000001.98000000 | 77.9046624 | CNV_chr10.85000001.86000000 | 64.772446 |
CNV_chr6.169000001.170000000 | 77.7682786 | CNV_chr4.80000001.81000000 | 64.7706848 |
CNV_chr5.2000001.3000000 | 77.15837 | CNV_chr10.90000001.91000000 | 64.6821865 |
CNV_chr5.5000001.6000000 | 76.6542542 | CNV_chr1.94000001.95000000 | 64.3404648 |
CNV_chr7.158000001.159000000 | 76.5191597 | CNV_chr3.171000001.172000000 | 64.2926543 |
CNV_chr2.146000001.147000000 | 73.5063859 | CNV_chr1.57000001.58000000 | 64.082675 |
CNV_chr2.4000001.5000000 | 72.9152386 | CNV_chr9.80000001.81000000 | 63.7822602 |
CNV_chr2.224000001.225000000 | 72.6330996 | CNV_chr1.66000001.67000000 | 63.4208437 |
CNV_chr12.126000001.127000000 | 70.6660462 | CNV_chr12.20000001.21000000 | 63.1140167 |
CNV_chr10.77000001.78000000 | 70.6001315 | CNV_chr1.8000001.9000000 | 62.9225936 |
CNV_chr18.76000001.77000000 | 69.3861408 | CNV_chr5.15000001.16000000 | 62.8815256 |
CNV_chr1.60000001.61000000 | 69.1993934 | CNV_chr5.166000001.167000000 | 62.814949 |
CNV_chr12.84000001.85000000 | 69.1200481 | CNV_chr3.168000001.169000000 | 61.9843795 |
CNV_chr7.81000001.82000000 | 68.558569 | CNV_chr2.58000001.59000000 | 61.6256805 |
CNV_chr10.87000001.88000000 | 68.08084 | CNV_chr15.25000001.26000000 | 61.1586246 |
CNV_chr12.130000001.131000000 | 67.5174835 | CNV_chr4.74000001.75000000 | 60.9090545 |
CNV_chr18.73000001.74000000 | 66.7461572 | CNV_chr3.188000001.189000000 | 60.8823912 |
CNV_chr9.112000001.113000000 | 66.7190187 | CNV_chr12.30000001.31000000 | 60.7756192 |
CNV_chr19.29000001.30000000 | 66.4561366 | CNV_chr12.98000001.99000000 | 60.655065 |
CNV_chr10.52000001.53000000 | 66.0605539 | CNV_chr9.113000001.114000000 | 60.4174039 |
CNV_chr5.165000001.166000000 | 65.7131733 | CNV_chr8.47000001.48000000 | 60.3275434 |
CNV_chr4.106000001.107000000 | 65.697428 | CNV_chr3.148000001.149000000 | 59.6855455 |
CNV_chr22.33000001.34000000 | 65.394011 | CNV_chr15.26000001.27000000 | 59.6821836 |
Feature | Fvalue | Feature | Fvalue |
CNV_chr7.67000001.68000000 | 53.1724174 | CNV_chr12.99000001.100000000 | 50.6342338 |
CNV_chr1.41000001.42000000 | 53.1638589 | CNV_chr1.92000001.93000000 | 50.6140102 |
CNV_chr2.167000001.168000000 | 52.7880905 | CNV_chr2.182000001.183000000 | 50.5154741 |
CNV_chr3.140000001.141000000 | 52.7843364 | CNV_chr10.114000001.115000000 | 50.3398076 |
CNV_chr19.23000001.24000000 | 52.6056437 | CNV_chr11.92000001.93000000 | 50.3235404 |
CNV_chr2.229000001.230000000 | 52.5732458 | CNV_chr3.26000001.27000000 | 50.0593714 |
CNV_chr2.221000001.222000000 | 52.5375692 | CNV_chr21.16000001.17000000 | 49.9822975 |
CNV_chr2.102000001.103000000 | 52.3012458 | CNV_chr19.22000001.23000000 | 49.9382204 |
CNV_chr3.151000001.152000000 | 52.1089856 | CNV_chr5.4000001.5000000 | 49.9157941 |
CNV_chr4.77000001.78000000 | 52.091561 | CNV_chr4.54000001.55000000 | 49.8692041 |
CNV_chr2.197000001.198000000 | 52.0459163 | CNV_chr6.87000001.88000000 | 49.8479168 |
CNV_chr18.49000001.50000000 | 51.9251668 | CNV_chr14.68000001.69000000 | 49.8459922 |
CNV_chr4.124000001.125000000 | 51.8246327 | CNV_chr2.165000001.166000000 | 49.7942017 |
CNV_chr12.15000001.16000000 | 51.6195957 | CNV_chr11.42000001.43000000 | 49.7582539 |
CNV_chr19.56000001.57000000 | 51.5625877 | CNV_chr4.190000001.191000000 | 49.6014571 |
CNV_chr2.140000001.141000000 | 51.5420977 | CNV_chr18.56000001.57000000 | 49.5963862 |
CNV_chr1.39000001.40000000 | 51.3876865 | CNV_chr1.25000001.26000000 | 49.4796326 |
CNV_chr1.67000001.68000000 | 51.264439 | CNV_chr15.53000001.54000000 | 49.2241726 |
CNV_chr11.122000001.123000000 | 51.2460045 | CNV_chr1.240000001.241000000 | 49.1506809 |
CNV_chr17.41000001.42000000 | 51.0992407 | CNV_chr3.118000001.119000000 | 49.0855821 |
CNV_chr9.108000001.109000000 | 51.0755174 | CNV_chr2.46000001.47000000 | 49.0810354 |
CNV_chr1.62000001.63000000 | 50.8358058 | CNV_chr11.132000001.133000000 | 48.9878724 |
CNV_chr5.66000001.67000000 | 50.7347117 | CNV_chr18.4000001.5000000 | 48.8567361 |
CNV_chr20.41000001.42000000 | 50.7209341 | CNV_chr1.89000001.90000000 | 48.8564422 |
CNV_chr1.242000001.243000000 | 50.6611239 | CNV_chr11.106000001.107000000 | 48.8528039 |
肝癌FSC的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue | Feature | Fvalue | Feature | Fvalue |
FSC_total342 | 1958.029 | FSC_total468 | 993.4181 | FSC_total449 | 741.3084 | FSC_total136 | 585.6022 |
FSC_total448 | 1737.066 | FSC_total54 | 967.7797 | FSC_total336 | 739.8277 | FSC_total306 | 578.9733 |
FSC_total47 | 1728.198 | FSC_total480 | 931.9892 | FSC_total138 | 735.2527 | FSC_total31 | 575.1425 |
FSC_total19 | 1650.805 | FSC_short446 | 907.0614 | FSC_short31 | 728.9618 | FSC_short5 | 571.2054 |
FSC_total445 | 1496.366 | FSC_total502 | 888.475 | FSC_total496 | 715.9461 | FSC_total491 | 568.2544 |
FSC_total446 | 1495.932 | FSC_total224 | 885.812 | FSC_total343 | 711.9853 | FSC_total404 | 557.465 |
FSC_total184 | 1489.824 | FSC_total94 | 883.7963 | FSC_total171 | 700.6121 | FSC_total536 | 556.9154 |
FSC_total314 | 1405.678 | FSC_total339 | 880.3535 | FSC_total109 | 695.9024 | FSC_total315 | 548.2729 |
FSC_total11 | 1373.502 | FSC_total357 | 879.0083 | FSC_total371 | 690.9119 | FSC_total277 | 545.1852 |
FSC_total26 | 1335.301 | FSC_total443 | 878.8112 | FSC_total282 | 686.1532 | FSC_total370 | 539.8904 |
FSC_total429 | 1332.077 | FSC_total13 | 870.0326 | FSC_total25 | 674.606 | FSC_total354 | 535.9954 |
FSC_total126 | 1323.887 | FSC_total528 | 851.3381 | FSC_total452 | 673.7713 | FSC_total208 | 529.488 |
FSC_total444 | 1271.019 | FSC_total58 | 832.8891 | FSC_total484 | 663.6099 | FSC_total10 | 528.0007 |
FSC_total311 | 1252.345 | FSC_total186 | 827.487 | FSC_total172 | 661.9749 | FSC_total360 | 524.4219 |
FSC_total329 | 1239.754 | FSC_total317 | 820.376 | FSC_total71 | 649.7148 | FSC_total79 | 522.8448 |
FSC_total338 | 1128.13 | FSC_total350 | 820.0188 | FSC_total174 | 645.6495 | FSC_short58 | 513.0006 |
FSC_total351 | 1125.17 | FSC_total74 | 817.037 | FSC_total183 | 640.5506 | FSC_short194 | 511.0938 |
FSC_total447 | 1062.756 | FSC_short537 | 816.1534 | FSC_total253 | 623.4959 | FSC_short99 | 503.3949 |
FSC_total46 | 1056.971 | FSC_total352 | 809.7391 | FSC_total310 | 615.3269 | FSC_total365 | 500.8565 |
FSC_total539 | 1050.796 | FSC_total87 | 805.6005 | FSC_total185 | 607.2533 | FSC_total481 | 497.3079 |
FSC_total383 | 1047.191 | FSC_total5 | 798.7964 | FSC_total214 | 607.154 | FSC_total64 | 497.267 |
FSC_total61 | 1017.956 | FSC_total65 | 792.9177 | FSC_total135 | 597.8357 | FSC_total475 | 493.6661 |
FSC_total12 | 1012.374 | FSC_total353 | 781.8164 | FSC_total278 | 592.8503 | FSC_total426 | 491.1711 |
FSC_total2 | 1009.529 | FSC_total334 | 769.9661 | FSC_total203 | 588.032 | FSC_short342 | 488.3527 |
FSC_total380 | 1001.355 | FSC_total457 | 766.5186 | FSC_total234 | 585.9124 | FSC_short311 | 481.2467 |
肝癌FSD的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
FSD_chr1.1p.170.174 | 651.6424 | FSD_chr20.20q.170.174 | 228.5047 |
FSD_chr15.15q.170.174 | 592.9465 | FSD_chr16.16q.170.174 | 225.0086 |
FSD_chr9.9q.170.174 | 563.7931 | FSD_chr7.7p.170.174 | 212.0978 |
FSD_chr10.10q.170.174 | 541.7146 | FSD_chr8.8p.170.174 | 179.351 |
FSD_chr17.17q.170.174 | 529.8895 | FSD_chr9.9p.170.174 | 177.631 |
FSD_chr22.22q.170.174 | 396.8675 | FSD_chr8.8q.170.174 | 161.6957 |
FSD_chr2.2q.170.174 | 382.7515 | FSD_chr22.22q.175.179 | 161.3245 |
FSD_chr3.3q.170.174 | 373.2305 | FSD_chr4.4p.170.174 | 157.9614 |
FSD_chr14.14q.170.174 | 353.0167 | FSD_chr9.9q.175.179 | 148.745 |
FSD_chr2.2p.170.174 | 341.6353 | FSD_chr17.17q.175.179 | 145.6454 |
FSD_chr4.4q.170.174 | 335.5371 | FSD_chr1.1p.175.179 | 143.4413 |
FSD_chr12.12p.170.174 | 334.1828 | FSD_chr15.15q.175.179 | 137.1265 |
FSD_chr11.11q.170.174 | 329.9364 | FSD_chr17.17p.170.174 | 134.3842 |
FSD_chr6.6p.170.174 | 325.8338 | FSD_chr12.12p.175.179 | 129.2162 |
FSD_chr12.12q.170.174 | 322.0938 | FSD_chr20.20p.170.174 | 116.1746 |
FSD_chr6.6q.170.174 | 317.5682 | FSD_chr10.10q.175.179 | 115.8119 |
FSD_chr1.1q.170.174 | 306.4746 | FSD_chr21.21q.175.179 | 112.4427 |
FSD_chr10.10p.170.174 | 284.0492 | FSD_chr5.5p.160.164 | 107.5844 |
FSD_chr18.18q.170.174 | 281.0233 | FSD_chr20.20q.175.179 | 104.9931 |
FSD_chr5.5q.170.174 | 280.3617 | FSD_chr8.8q.160.164 | 104.3855 |
FSD_chr11.11p.170.174 | 268.3012 | FSD_chr5.5p.150.154 | 102.7431 |
FSD_chr13.13q.170.174 | 266.5134 | FSD_chr8.8q.150.154 | 100.1226 |
FSD_chr21.21q.170.174 | 262.706 | FSD_chr10.10p.175.179 | 99.35405 |
FSD_chr3.3p.170.174 | 256.5071 | FSD_chr17.17p.175.179 | 97.42416 |
FSD_chr7.7q.170.174 | 251.0922 | FSD_chr4.4p.150.154 | 97.02158 |
肝癌EDM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
EDM_CCCGCGCC | 507.0186 | EDM_CCTCGCGG | 259.7716 |
EDM_CCTGCGCC | 412.9355 | EDM_AGTCCCCA | 258.6786 |
EDM_TATGCCAC | 359.554 | EDM_CAGGTCGC | 256.9967 |
EDM_TCCGCACA | 359.1244 | EDM_CGTCCGCC | 256.6916 |
EDM_AAGCGAGG | 353.3591 | EDM_CCTCCCCG | 254.5327 |
EDM_CAGAGCGT | 345.6558 | EDM_GACCCGCA | 254.1595 |
EDM_GGAAAAGA | 342.5025 | EDM_CGTGCCCA | 251.7536 |
EDM_AGTTCGAA | 334.4255 | EDM_GGTACCCG | 251.5993 |
EDM_AGTGTCAC | 316.4217 | EDM_GGGAAACG | 251.3249 |
EDM_TCGCGCCC | 314.4177 | EDM_AGTGTCCT | 248.5778 |
EDM_CGTGTCGA | 314.0716 | EDM_TATCGCTA | 247.5544 |
EDM_CATCCGCA | 308.1118 | EDM_AGATCACA | 247.5238 |
EDM_TGAAAACT | 301.4507 | EDM_TATCGAGG | 244.3871 |
EDM_GGCTAATT | 299.4315 | EDM_TAGTAGAC | 241.9007 |
EDM_TCTCCCGC | 293.2168 | EDM_GTTCTCGG | 241.8694 |
EDM_TATCACGC | 291.5595 | EDM_CAGCCGAT | 239.435 |
EDM_TCTCGCCT | 282.8159 | EDM_GGTGCGAG | 238.8838 |
EDM_GGAATGTT | 281.1659 | EDM_CTTCCCCA | 238.8751 |
EDM_TTTCTCCA | 277.7611 | EDM_CCTCCGCG | 238.388 |
EDM_CATGCCGA | 277.4883 | EDM_CCTCGGCC | 237.6367 |
EDM_TGTGCTCT | 274.1821 | EDM_GGGCTATA | 236.6261 |
EDM_TATGCGGA | 272.7045 | EDM_GATGCGCT | 236.3939 |
EDM_CCTGCACA | 270.6942 | EDM_AACGCCAT | 235.6241 |
EDM_TAGGTCAG | 267.2424 | EDM_GGTCCCGG | 234.7257 |
EDM_CACTGGTG | 263.5153 | EDM_TGTGCCTC | 234.0051 |
肝癌BPM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
BPM_GGCTAAAA | 446.9759 | BPM_TCGGGTGT | 285.8598 |
BPM_TGGGGTGT | 426.4516 | BPM_CGACGTGC | 285.8157 |
BPM_GTGGGTGC | 403.4757 | BPM_GCGGATCT | 284.9311 |
BPM_GCACGTCC | 387.1821 | BPM_CAACCTCC | 284.1891 |
BPM_TCCTAAAC | 378.4941 | BPM_CGTGAGCT | 283.7469 |
BPM_GAGGGTGG | 372.909 | BPM_CCCGAAAT | 282.0334 |
BPM_CCGATTCT | 366.4208 | BPM_ACTTCACG | 281.4817 |
BPM_GCACGTGG | 354.2835 | BPM_GCAGGTCG | 277.9029 |
BPM_GATCGTGC | 353.9695 | BPM_TGGCCTCG | 272.4844 |
BPM_TGTGGTGG | 351.595 | BPM_GCCTAACA | 268.8348 |
BPM_AGGCGTGT | 348.6232 | BPM_TCCAGTTT | 268.8255 |
BPM_CGACCAGG | 344.5716 | BPM_CCCTACAC | 268.5103 |
BPM_AGAGGTGG | 340.3368 | BPM_GTCGAAAT | 267.9706 |
BPM_TCGCTTCG | 336.144 | BPM_CTTTCCGG | 267.9257 |
BPM_TATTCCGA | 333.7656 | BPM_GCTAACTA | 265.3604 |
BPM_ACTAAAAT | 327.0214 | BPM_GCCGAATT | 265.0456 |
BPM_AATGGTGA | 326.8414 | BPM_TAAGGTGC | 263.056 |
BPM_ACACGCCG | 320.0641 | BPM_GGGGTTCA | 260.5528 |
BPM_CGACCTCG | 315.8643 | BPM_ACTGGTGT | 259.6315 |
BPM_AGGCTTCC | 307.2223 | BPM_AAGCTTCA | 258.8344 |
BPM_GCAGGTGA | 298.2757 | BPM_TTATCCGA | 255.7474 |
BPM_CTCCGTCG | 289.8907 | BPM_TGGCATGG | 253.2666 |
BPM_CCCACCGA | 287.8417 | BPM_TCCTAATC | 252.5897 |
BPM_ACTTAAAA | 287.0997 | BPM_GTGCTTCG | 250.3235 |
BPM_GCCAAAAC | 286.967 | BPM_TGCAAAAG | 249.3061 |
肝癌CNV的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
CNV_chr2.63000001.64000000 | 1603.97 | CNV_chr9.104000001.105000000 | 915.3503 |
CNV_chr15.67000001.68000000 | 1602.688 | CNV_chr5.152000001.153000000 | 914.3901 |
CNV_chr15.71000001.72000000 | 1502.678 | CNV_chr10.114000001.115000000 | 911.7461 |
CNV_chr1.94000001.95000000 | 1477.364 | CNV_chr3.58000001.59000000 | 910.1798 |
CNV_chr4.77000001.78000000 | 1429.136 | CNV_chr1.70000001.71000000 | 890.4857 |
CNV_chr14.67000001.68000000 | 1284.314 | CNV_chr1.61000001.62000000 | 887.902 |
CNV_chr9.112000001.113000000 | 1281.299 | CNV_chr22.46000001.47000000 | 866.4501 |
CNV_chr22.28000001.29000000 | 1159.767 | CNV_chr9.97000001.98000000 | 863.9896 |
CNV_chr11.16000001.17000000 | 1140.063 | CNV_chr3.26000001.27000000 | 862.7027 |
CNV_chr22.36000001.37000000 | 1127.214 | CNV_chr12.130000001.131000000 | 856.234 |
CNV_chr1.242000001.243000000 | 1108.812 | CNV_chr1.93000001.94000000 | 852.2735 |
CNV_chr11.12000001.13000000 | 1067.112 | CNV_chr1.8000001.9000000 | 850.2513 |
CNV_chr10.96000001.97000000 | 1053.56 | CNV_chr17.53000001.54000000 | 838.4448 |
CNV_chr12.129000001.130000000 | 1038.886 | CNV_chr7.67000001.68000000 | 836.1458 |
CNV_chr3.114000001.115000000 | 1034.597 | CNV_chr15.53000001.54000000 | 832.5921 |
CNV_chr12.21000001.22000000 | 1033.367 | CNV_chr3.148000001.149000000 | 831.618 |
CNV_chr4.74000001.75000000 | 1025.755 | CNV_chr2.102000001.103000000 | 825.4904 |
CNV_chr1.181000001.182000000 | 1022.096 | CNV_chr19.29000001.30000000 | 824.3668 |
CNV_chr2.165000001.166000000 | 1014.034 | CNV_chr10.90000001.91000000 | 823.7275 |
CNV_chr2.46000001.47000000 | 1013.779 | CNV_chr1.240000001.241000000 | 817.8488 |
CNV_chr10.52000001.53000000 | 1010.85 | CNV_chr12.24000001.25000000 | 808.8073 |
CNV_chr21.17000001.18000000 | 993.4448 | CNV_chr2.224000001.225000000 | 808.446 |
CNV_chr6.140000001.141000000 | 975.6892 | CNV_chr15.58000001.59000000 | 803.8329 |
CNV_chr10.77000001.78000000 | 970.0618 | CNV_chr15.76000001.77000000 | 801.6939 |
CNV_chr1.57000001.58000000 | 947.4578 | CNV_chr4.151000001.152000000 | 801.497 |
肠癌FSC的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue | Feature | Fvalue | Feature | Fvalue |
FSC_total496 | 138.5343 | FSC_total528 | 88.60479 | FSC_total417 | 70.30197 | FSC_total400 | 60.28559 |
FSC_total457 | 134.9777 | FSC_total329 | 88.55033 | FSC_total445 | 69.55729 | FSC_total185 | 59.81065 |
FSC_total58 | 123.655 | FSC_total360 | 86.99602 | FSC_total454 | 68.99554 | FSC_total135 | 59.52346 |
FSC_total383 | 119.0881 | FSC_total282 | 86.98864 | FSC_total480 | 68.59151 | FSC_total72 | 59.39061 |
FSC_total270 | 114.7435 | FSC_total278 | 86.4068 | FSC_short417 | 68.44363 | FSC_total315 | 59.26733 |
FSC_total172 | 112.9751 | FSC_total481 | 85.87555 | FSC_total444 | 68.3548 | FSC_total226 | 58.45125 |
FSC_total74 | 111.6887 | FSC_total183 | 84.95802 | FSC_total138 | 67.75737 | FSC_total253 | 57.75223 |
FSC_total19 | 104.4497 | FSC_total184 | 84.87907 | FSC_total416 | 67.29718 | FSC_total214 | 57.14836 |
FSC_total224 | 104.0743 | FSC_total350 | 83.66972 | FSC_total338 | 67.09268 | FSC_total225 | 56.66388 |
FSC_total61 | 103.7873 | FSC_total351 | 81.64194 | FSC_total426 | 66.87448 | FSC_total227 | 55.91968 |
FSC_total384 | 103.2437 | FSC_total47 | 81.62457 | FSC_short31 | 64.97628 | FSC_total169 | 55.91875 |
FSC_total446 | 98.9689 | FSC_total31 | 80.79974 | FSC_total415 | 64.56384 | FSC_short1 | 55.05982 |
FSC_total80 | 98.7818 | FSC_total468 | 80.4078 | FSC_total498 | 64.14542 | FSC_total136 | 54.98498 |
FSC_total311 | 98.51741 | FSC_total513 | 77.65709 | FSC_total343 | 64.09097 | FSC_total449 | 54.75545 |
FSC_total460 | 96.59712 | FSC_total448 | 77.10919 | FSC_total507 | 63.52258 | FSC_total378 | 54.65803 |
FSC_total171 | 95.86679 | FSC_total13 | 76.58969 | FSC_total353 | 63.4985 | FSC_total163 | 54.43059 |
FSC_total26 | 95.85136 | FSC_total336 | 76.20524 | FSC_total487 | 62.92851 | FSC_short537 | 54.40673 |
FSC_total54 | 95.792 | FSC_total94 | 75.63488 | FSC_total477 | 62.81264 | FSC_total419 | 53.56684 |
FSC_total429 | 95.53202 | FSC_total79 | 74.78976 | FSC_total174 | 62.60365 | FSC_short270 | 52.12856 |
FSC_total342 | 95.12157 | FSC_total46 | 74.6314 | FSC_total537 | 62.37928 | FSC_total427 | 52.03686 |
FSC_total314 | 94.09647 | FSC_total354 | 74.41704 | FSC_total1 | 62.15657 | FSC_total137 | 51.65196 |
FSC_total317 | 92.53888 | FSC_total87 | 74.40339 | FSC_total447 | 61.8094 | FSC_short415 | 51.30264 |
FSC_total186 | 92.07703 | FSC_total380 | 73.67246 | FSC_total330 | 61.73745 | FSC_short496 | 51.18549 |
FSC_total357 | 91.35636 | FSC_total109 | 73.65028 | FSC_total222 | 61.32355 | FSC_short383 | 51.03456 |
FSC_total339 | 88.8738 | FSC_short416 | 71.13763 | FSC_short411 | 61.18611 | FSC_short225 | 50.77148 |
肠癌FSD的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
FSD_chr3.3q.145.149 | 18.7876 | FSD_chr6.6p.145.149 | 16.61293 |
FSD_chr13.13q.135.139 | 18.66425 | FSD_chr8.8p.185.189 | 16.53298 |
FSD_chr20.20p.190.194 | 18.56714 | FSD_chr5.5q.155.159 | 16.50833 |
FSD_chr9.9q.150.154 | 18.56685 | FSD_chr8.8p.145.149 | 16.45258 |
FSD_chr17.17p.195.199 | 18.47431 | FSD_chr10.10q.150.154 | 16.45164 |
FSD_chr17.17q.155.159 | 18.45312 | FSD_chr3.3q.155.159 | 15.97597 |
FSD_chr4.4q.135.139 | 18.40981 | FSD_chr14.14q.150.154 | 15.97234 |
FSD_chr7.7q.145.149 | 18.07121 | FSD_chr7.7p.175.179 | 15.96856 |
FSD_chr4.4p.180.184 | 17.83495 | FSD_chr20.20p.195.199 | 15.91606 |
FSD_chr6.6q.155.159 | 17.82853 | FSD_chr12.12p.145.149 | 15.90553 |
FSD_chr12.12q.145.149 | 17.81809 | FSD_chr22.22q.145.149 | 15.87943 |
FSD_chr20.20q.185.189 | 17.75157 | FSD_chr10.10p.185.189 | 15.87515 |
FSD_chr5.5p.170.174 | 17.72761 | FSD_chr8.8p.180.184 | 15.80244 |
FSD_chr19.19q.205.209 | 17.64134 | FSD_chr4.4q.130.134 | 15.78704 |
FSD_chr16.16q.145.149 | 17.37092 | FSD_chr16.16q.185.189 | 15.77408 |
FSD_chr14.14q.155.159 | 17.35122 | FSD_chr6.6q.150.154 | 15.77028 |
FSD_chr4.4p.185.189 | 17.28463 | FSD_chr5.5p.190.194 | 15.76444 |
FSD_chr2.2p.155.159 | 17.19052 | FSD_chr19.19p.200.204 | 15.70571 |
FSD_chr19.19q.200.204 | 17.03916 | FSD_chr5.5p.215.219 | 15.66777 |
FSD_chr21.21q.185.189 | 17.02334 | FSD_chr13.13q.130.134 | 15.65899 |
FSD_chr11.11p.145.149 | 16.9825 | FSD_chr13.13q.140.144 | 15.57815 |
FSD_chr19.19q.215.219 | 16.73683 | FSD_chr9.9p.180.184 | 15.51131 |
FSD_chr17.17p.175.179 | 16.72673 | FSD_chr2.2p.150.154 | 15.50279 |
FSD_chr20.20q.180.184 | 16.70439 | FSD_chr21.21q.180.184 | 15.48663 |
FSD_chr2.2q.150.154 | 16.67886 | FSD_chr9.9p.185.189 | 15.44299 |
肠癌EDM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
EDM_CGAAAAGC | 89.14905 | EDM_TATCACAT | 84.54037 |
EDM_CAGCCCGC | 88.77748 | EDM_CGTCGCGG | 84.18776 |
EDM_CAGGTTGC | 88.76981 | EDM_GACCGCGT | 83.49459 |
EDM_TGTCGCTT | 88.42687 | EDM_TCTCCCCT | 83.27432 |
EDM_GATGTCGC | 88.2005 | EDM_GAGCTCCT | 82.84254 |
EDM_TGTCGTCA | 87.94542 | EDM_AATGCCTT | 82.83025 |
EDM_AATCGTGC | 87.79991 | EDM_CAACCCGC | 82.72267 |
EDM_GTTCCTCG | 87.75322 | EDM_GACGTTAA | 82.48033 |
EDM_TATGTTCA | 86.93214 | EDM_TACGTTCG | 82.44166 |
EDM_AAGCACGG | 86.56443 | EDM_AAAATTCC | 82.43573 |
EDM_TATCTGCA | 86.55412 | EDM_TATCTGGA | 82.11142 |
EDM_CAGAGCGG | 86.18084 | EDM_GTTCCCTT | 81.98738 |
EDM_GGTCTCCT | 86.16157 | EDM_TATGCGGG | 81.82268 |
EDM_TTTCTTCG | 86.14142 | EDM_CGTCCACA | 81.69958 |
EDM_AATCTCCT | 86.02978 | EDM_AGTAACGA | 81.66571 |
EDM_AACGCAAC | 85.99139 | EDM_AATCGGAG | 81.65059 |
EDM_CATCCCGG | 85.82959 | EDM_GTTCCCCG | 81.39973 |
EDM_AGTCTGCC | 85.74437 | EDM_GAGCGTGG | 80.94975 |
EDM_AATATCCC | 85.73038 | EDM_TATCGGGC | 80.83798 |
EDM_CCACGCGA | 85.70024 | EDM_ACTCCCAT | 80.50758 |
EDM_TGTCACCG | 85.63544 | EDM_CATCCTCC | 80.41569 |
EDM_AAGCGCAA | 84.99924 | EDM_TAACGCCA | 80.35345 |
EDM_GGTTGCGT | 84.8427 | EDM_GGTAACCG | 80.31635 |
EDM_GGTGCTCA | 84.58682 | EDM_TGTCGCAA | 80.23356 |
EDM_CGTTGTCA | 84.56203 | EDM_CAACGCGG | 80.22601 |
肠癌BPM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
BPM_GAATATTC | 103.9303 | BPM_GAAGAACG | 97.68725 |
BPM_AGACTTCT | 103.8447 | BPM_CCACGTAG | 97.65923 |
BPM_GGAGATCA | 103.0721 | BPM_CACCGTGT | 97.50731 |
BPM_GAAGGTCA | 102.9746 | BPM_CCACTTCA | 97.46156 |
BPM_GTGGTTCG | 102.8628 | BPM_ATACGTAA | 97.21755 |
BPM_TTTGGTCA | 102.7219 | BPM_GGATAAGA | 97.15476 |
BPM_CAACGGAG | 102.1167 | BPM_CTACATCG | 97.11012 |
BPM_CAAGAATA | 101.899 | BPM_CAGTTTCA | 96.70648 |
BPM_GCACACCG | 101.7758 | BPM_TGGCCTCT | 96.52017 |
BPM_AGGGATAC | 101.2588 | BPM_TGTGACGG | 96.44287 |
BPM_CAGTAGGC | 101.1933 | BPM_AGACACGC | 96.35069 |
BPM_CAATAGAT | 101.0603 | BPM_CAACGTCT | 96.18812 |
BPM_CGTGGTGG | 100.9921 | BPM_TGGGTTCT | 95.85064 |
BPM_GAATGTCA | 100.9133 | BPM_GGATACGG | 95.80242 |
BPM_ATGGATCG | 100.0101 | BPM_CAATAGCG | 95.64896 |
BPM_CGGCGTGG | 99.95188 | BPM_ACAGGTCG | 95.58161 |
BPM_GGACAGAC | 99.5449 | BPM_TAACAGAA | 95.29093 |
BPM_TAAGAGCA | 99.26556 | BPM_TTAGGTTC | 95.23174 |
BPM_TTACTTCG | 98.94704 | BPM_GGACCACC | 95.10943 |
BPM_TGGGACGC | 98.87501 | BPM_TGGCGTAC | 95.09535 |
BPM_CAAGATCG | 98.68586 | BPM_GAGCAAGT | 94.73595 |
BPM_CAATATAT | 98.67258 | BPM_CGTGGTCT | 94.59702 |
BPM_TGAGAACC | 98.435 | BPM_AATGGTGA | 94.52957 |
BPM_TAATAATA | 97.98724 | BPM_CTGGGTCT | 94.31675 |
BPM_TGGGATTG | 97.79515 | BPM_ACAGACTG | 94.07035 |
肠癌CNV的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
CNV_chr21.41000001.42000000 | 80.45982 | CNV_chr9.72000001.73000000 | 74.35208 |
CNV_chr1.177000001.178000000 | 80.03521 | CNV_chr19.57000001.58000000 | 74.26447 |
CNV_chr1.240000001.241000000 | 79.5749 | CNV_chr18.76000001.77000000 | 74.2639 |
CNV_chr15.67000001.68000000 | 79.49521 | CNV_chr1.241000001.242000000 | 73.49557 |
CNV_chr7.70000001.71000000 | 79.36931 | CNV_chr21.17000001.18000000 | 73.46428 |
CNV_chr6.165000001.166000000 | 79.09499 | CNV_chr5.4000001.5000000 | 73.13683 |
CNV_chr2.63000001.64000000 | 78.86963 | CNV_chr8.136000001.137000000 | 72.94989 |
CNV_chr10.85000001.86000000 | 78.66376 | CNV_chr5.166000001.167000000 | 72.65424 |
CNV_chr14.67000001.68000000 | 78.59199 | CNV_chr6.135000001.136000000 | 72.5488 |
CNV_chr5.15000001.16000000 | 78.27438 | CNV_chr1.181000001.182000000 | 72.52764 |
CNV_chr11.132000001.133000000 | 78.0492 | CNV_chr18.5000001.6000000 | 72.33165 |
CNV_chr15.71000001.72000000 | 77.96649 | CNV_chr9.80000001.81000000 | 72.27265 |
CNV_chr1.70000001.71000000 | 77.66862 | CNV_chr11.16000001.17000000 | 72.25346 |
CNV_chr9.97000001.98000000 | 77.48878 | CNV_chr14.26000001.27000000 | 72.2316 |
CNV_chr19.22000001.23000000 | 77.14572 | CNV_chr22.34000001.35000000 | 71.95549 |
CNV_chr7.81000001.82000000 | 77.02357 | CNV_chr3.58000001.59000000 | 71.36722 |
CNV_chr1.80000001.81000000 | 76.82989 | CNV_chr1.196000001.197000000 | 71.26741 |
CNV_chr2.229000001.230000000 | 76.7425 | CNV_chr5.44000001.45000000 | 70.27166 |
CNV_chr3.26000001.27000000 | 76.64087 | CNV_chr12.21000001.22000000 | 70.2704 |
CNV_chr11.121000001.122000000 | 76.33553 | CNV_chr5.9000001.10000000 | 69.78694 |
CNV_chr4.58000001.59000000 | 76.19258 | CNV_chr1.72000001.73000000 | 69.60144 |
CNV_chr9.113000001.114000000 | 75.75571 | CNV_chr3.137000001.138000000 | 69.39308 |
CNV_chr11.91000001.92000000 | 75.33783 | CNV_chr2.120000001.121000000 | 69.29377 |
CNV_chr15.46000001.47000000 | 75.01465 | CNV_chr3.114000001.115000000 | 69.28682 |
CNV_chr12.24000001.25000000 | 74.9416 | CNV_chr21.16000001.17000000 | 68.88139 |
肺癌FSC的前100个与其他癌种存在显著差异的特征值如下所示:
肺癌FSD的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
FSD_chr1.1p.170.174 | 232.6715 | FSD_chr22.22q.175.179 | 98.75972 |
FSD_chr15.15q.170.174 | 201.9678 | FSD_chr8.8p.170.174 | 97.68822 |
FSD_chr10.10q.170.174 | 194.8766 | FSD_chr20.20q.170.174 | 97.37439 |
FSD_chr9.9q.170.174 | 180.6592 | FSD_chr7.7q.170.174 | 95.05887 |
FSD_chr17.17q.170.174 | 167.1577 | FSD_chr21.21q.170.174 | 94.6919 |
FSD_chr11.11q.170.174 | 165.9932 | FSD_chr1.1p.175.179 | 89.31301 |
FSD_chr14.14q.170.174 | 162.9866 | FSD_chr9.9p.170.174 | 88.33316 |
FSD_chr2.2p.170.174 | 154.3941 | FSD_chr9.9q.175.179 | 84.96155 |
FSD_chr2.2q.170.174 | 154.2729 | FSD_chr12.12p.175.179 | 84.68276 |
FSD_chr5.5q.170.174 | 143.2361 | FSD_chr15.15q.175.179 | 84.58863 |
FSD_chr18.18q.170.174 | 143.1794 | FSD_chr5.5p.170.174 | 84.11787 |
FSD_chr3.3q.170.174 | 142.2039 | FSD_chr17.17q.175.179 | 83.82406 |
FSD_chr22.22q.170.174 | 140.2664 | FSD_chr10.10q.175.179 | 79.53303 |
FSD_chr6.6p.170.174 | 140.2499 | FSD_chr16.16q.175.179 | 78.48808 |
FSD_chr4.4q.170.174 | 140.051 | FSD_chr7.7p.170.174 | 77.28316 |
FSD_chr11.11p.170.174 | 140.0242 | FSD_chr20.20q.175.179 | 76.6012 |
FSD_chr6.6q.170.174 | 139.5741 | FSD_chr11.11p.175.179 | 73.47995 |
FSD_chr12.12q.170.174 | 132.7733 | FSD_chr11.11q.175.179 | 71.93778 |
FSD_chr3.3p.170.174 | 132.0152 | FSD_chr14.14q.175.179 | 71.39093 |
FSD_chr16.16q.170.174 | 129.0126 | FSD_chr21.21q.175.179 | 71.26414 |
FSD_chr1.1q.170.174 | 128.5696 | FSD_chr18.18q.175.179 | 70.38705 |
FSD_chr12.12p.170.174 | 125.3286 | FSD_chr10.10p.175.179 | 70.10232 |
FSD_chr13.13q.170.174 | 110.062 | FSD_chr8.8p.175.179 | 68.37477 |
FSD_chr10.10p.170.174 | 106.8334 | FSD_chr6.6p.175.179 | 68.23977 |
FSD_chr4.4p.170.174 | 103.8546 | FSD_chr17.17p.175.179 | 67.48362 |
肺癌EDM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
EDM_CGGATTTC | 162.6994 | EDM_CCGAGGCG | 84.01107 |
EDM_CAAATTTC | 151.0367 | EDM_AAAACTTA | 82.87072 |
EDM_TTATTTCC | 126.3219 | EDM_CAAAATCC | 79.96553 |
EDM_TCGAGACA | 123.2216 | EDM_CAAATATC | 76.30621 |
EDM_ACAATTTG | 121.0831 | EDM_CGACCCTG | 76.15206 |
EDM_CTATTTTT | 116.1564 | EDM_GAACATTA | 76.09892 |
EDM_GCGAGGTA | 111.6676 | EDM_CCGAGCTA | 75.83263 |
EDM_AACAATTA | 108.7154 | EDM_GGTAATTG | 75.7341 |
EDM_AGTTCGAC | 107.727 | EDM_GGGTCGAG | 75.35926 |
EDM_TGGTCGTC | 106.3542 | EDM_AGATCGAT | 75.22614 |
EDM_CACAAATA | 106.1273 | EDM_TCAGGAGA | 74.1821 |
EDM_CCGGCTCA | 106.0005 | EDM_AAATTATA | 74.08922 |
EDM_TAAAAATT | 105.5304 | EDM_TCGAGATG | 71.80894 |
EDM_GAAAATAT | 102.4886 | EDM_TCGAGAGC | 69.82134 |
EDM_TGAATATC | 100.9529 | EDM_GCAAGCGG | 69.7169 |
EDM_TTCTTTTC | 93.77515 | EDM_CCGAACTT | 69.57405 |
EDM_TAAATCTT | 92.18208 | EDM_GAAATTGG | 69.09861 |
EDM_GAAAACTT | 90.12961 | EDM_CAAATTCA | 68.85522 |
EDM_TAGGCGGA | 89.18633 | EDM_CTGATTTG | 68.80014 |
EDM_CCAGCACA | 88.39956 | EDM_CCGTGCCC | 68.49044 |
EDM_TCGGGAGT | 88.09943 | EDM_GAGGTGGA | 67.86733 |
EDM_TGATCACA | 87.86209 | EDM_GAGCATTT | 66.58806 |
EDM_CACGAAAA | 87.27786 | EDM_ACGAGGAT | 66.48141 |
EDM_TGAATTTG | 85.48083 | EDM_GCAGGTGG | 66.02296 |
EDM_CAAGCGAG | 84.03121 | EDM_TAATATTC | 65.89972 |
肺癌BPM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
BPM_GGTTCGAA | 110.2884 | BPM_TCTCCCGT | 64.84041 |
BPM_TTCACGAT | 102.0414 | BPM_CAGCCGAC | 64.82649 |
BPM_GGGCCGAC | 87.43244 | BPM_GCTGAAAT | 64.46257 |
BPM_GTAGCCGC | 87.23313 | BPM_CAGGCAGC | 63.17406 |
BPM_TCTGAATC | 85.1604 | BPM_CGTTAAAT | 63.11873 |
BPM_GTCTCGGG | 83.82155 | BPM_CTTGAAAT | 62.33678 |
BPM_CTTGACAT | 83.18107 | BPM_AGGCCAGG | 60.38521 |
BPM_GACTAAAG | 82.60972 | BPM_GCAGCAGG | 59.62648 |
BPM_GACCCGGC | 79.35237 | BPM_TGGCCTGG | 59.32276 |
BPM_TCGGCAGG | 78.79006 | BPM_GGGCAGGA | 59.05842 |
BPM_ATCCCAGT | 78.2154 | BPM_TCCCCTGT | 58.20697 |
BPM_CCACGCCG | 77.92306 | BPM_CATGAAAC | 58.11845 |
BPM_ATGGCGTG | 76.31007 | BPM_GTTGAATT | 56.72788 |
BPM_TTGGTATG | 73.99142 | BPM_CGATCGAG | 56.42841 |
BPM_TGGTCGAA | 73.45759 | BPM_GGCCCAGA | 56.39867 |
BPM_AAGGCGGT | 72.44847 | BPM_GCAGCCGT | 56.38815 |
BPM_ACGCCTGA | 71.79144 | BPM_TGAGCCGC | 55.73464 |
BPM_ACTCCTGG | 71.71051 | BPM_GATTCCGA | 55.71156 |
BPM_CTCACGCG | 71.23241 | BPM_AGTGAAAT | 55.6608 |
BPM_ACGCCAGC | 69.77407 | BPM_ACCGAGGA | 55.62206 |
BPM_GGCTAAAA | 67.8724 | BPM_TCCCCAGA | 55.48295 |
BPM_CGGGCAGG | 67.86326 | BPM_TCTGACTG | 55.09991 |
BPM_CCACCTGA | 67.45342 | BPM_TCGGGGAC | 54.80264 |
BPM_AGGTCAGA | 65.66972 | BPM_GAGCCAGG | 54.74774 |
BPM_GCGGCTGC | 65.109 | BPM_TGGTCGGG | 54.4326 |
肺癌CNV的前100个与其他癌种存在显著差异的特征值如下所示:
Feature | Fvalue | Feature | Fvalue |
CNV_chr1.57000001.58000000 | 225.6192 | CNV_chr10.78000001.79000000 | 124.7202 |
CNV_chr10.3000001.4000000 | 218.5865 | CNV_chr22.33000001.34000000 | 124.6285 |
CNV_chr15.61000001.62000000 | 194.4551 | CNV_chr11.7000001.8000000 | 122.7107 |
CNV_chr15.71000001.72000000 | 191.9362 | CNV_chr17.53000001.54000000 | 122.5421 |
CNV_chr19.54000001.55000000 | 181.8472 | CNV_chr22.46000001.47000000 | 121.3503 |
CNV_chr1.56000001.57000000 | 177.6451 | CNV_chr10.77000001.78000000 | 119.4977 |
CNV_chr4.77000001.78000000 | 175.7081 | CNV_chr7.97000001.98000000 | 119.3826 |
CNV_chr1.19000001.20000000 | 173.856 | CNV_chr10.114000001.115000000 | 119.0295 |
CNV_chr2.63000001.64000000 | 173.2083 | CNV_chr14.32000001.33000000 | 118.4204 |
CNV_chr10.96000001.97000000 | 169.1734 | CNV_chr1.48000001.49000000 | 118.2863 |
CNV_chr15.67000001.68000000 | 168.1591 | CNV_chr3.114000001.115000000 | 117.8066 |
CNV_chr11.12000001.13000000 | 163.9404 | CNV_chr15.37000001.38000000 | 116.8303 |
CNV_chr9.112000001.113000000 | 159.2188 | CNV_chr1.61000001.62000000 | 116.4514 |
CNV_chr15.53000001.54000000 | 155.3465 | CNV_chr1.6000001.7000000 | 115.4291 |
CNV_chr19.42000001.43000000 | 151.8652 | CNV_chr1.42000001.43000000 | 114.7394 |
CNV_chr1.41000001.42000000 | 150.8113 | CNV_chr5.163000001.164000000 | 113.7108 |
CNV_chr9.136000001.137000000 | 148.7559 | CNV_chr2.72000001.73000000 | 112.82 |
CNV_chr14.67000001.68000000 | 148.3175 | CNV_chr1.242000001.243000000 | 112.3114 |
CNV_chr1.94000001.95000000 | 142.8335 | CNV_chr5.67000001.68000000 | 111.7953 |
CNV_chr1.20000001.21000000 | 139.3634 | CNV_chr8.70000001.71000000 | 111.3386 |
CNV_chr1.244000001.245000000 | 131.2422 | CNV_chr11.86000001.87000000 | 109.7284 |
CNV_chr9.104000001.105000000 | 128.159 | CNV_chr11.105000001.106000000 | 109.3234 |
CNV_chr10.52000001.53000000 | 126.9496 | CNV_chr11.111000001.112000000 | 108.4714 |
CNV_chr22.28000001.29000000 | 125.5865 | CNV_chr5.156000001.157000000 | 106.2967 |
CNV_chr12.21000001.22000000 | 124.9424 | CNV_chr15.80000001.81000000 | 105.789 |
筛选异显著特征后,为多癌种早期检测模型获得五种特征各200个,将所有训练集合中的样本的每种 特征作为输入值,以预测“癌症/健康”为反馈结果,分别使用广义线性模型、梯度提升算法模型、随机森 林模型、深度学习模型和极端梯度提升模型进行训练建模,获得25种二分类基础模型;
为进一步提高分类器预测性能,对以上多种训练基础模型结果进行二次集合训练(stacking)。Stacking 是一种集成学习技术,通过对多个底层弱分类器(1st-level basemodel)的再次进行元学习(2nd-level meta-learning),收集每个底层分类器的特点,找到最优整合方式,从而提高模型预测性能。本专利Stacking 使用的训练算法为广义线性模型(Generalized Linear Model,GLM),通过联结函数建立响应变量的数学期 望值与线性组合的预测变量之间的关系,将多种训练基础模型转化为最终线性方程:
ALLStacked=Intercept+A1*FSC_GLM+A2*FSC_GBM+A3*FSC_RF+A4*FSC_DL+A5*FSC_XGBoost+B1*F SD_GLM+B2*FSD_GBM+B3*FSD_RF+B4*FSD_DL+B5*FSD_XGBoost+C1*EDM_GLM+C2*EDM_GBM+ C3*EDM_RF+C4*EDM_DL+C5*EDM_XGBoost+D1*BPM_GLM+D2*BPM_GBM+D3*BPM_RF+D4*BPM _DL+D5*BPM_XGBoost+E1*CNV_GLM+E2*CNV_GBM+E3*CNV_RF+E4*CNV_DL+E5*CNV_XGBoost
其中,Intercept、A1-E5都是线性方程参数。FSC_GLM等都是指模型在获得输入数据后得到的输出值, 符号“_”前的字符代表特征集合的类型,符号“_”后的字符代表算法类型,多癌种早筛模型的输出值为 癌症概率。
多癌种组织起源的模型,主要是针对已经确认患有上述三种癌症之一的样本进一步地确认具体的癌症 种类。因此,在进行样本分类时,分别建立起三组训练样本:
第一组训练样本:阳性为肠癌,对照为肺癌和肝癌;判断分为两类:肠癌、其他两种癌症。
第二组训练样本:阳性为肺癌,对照为肠癌和肝癌;判断分为两类:肺癌、其他两种癌症。
第三组训练样本:阳性为肝癌,对照为肝癌和肠癌;判断分为两类:肝癌、其他两种癌症。
在每一组的样本中,分别进行方差分析,可以在每一组当中找到各个特征集合当中具有显著性差异的 特征值;而将三组都分析完成后,每一组之间都可以获得相应的显著性差异的特征值,这些之间会存在着 重叠,因此,再将每一组筛选出的特征值进行合并后去重复,得到最终模型中所需要的特征值。
最终,为多癌种组织起源模型获得FSC特征180个,FSD特征205个,EDM特征295个,BKM特征 297个,CNV特征204个。将训练连集合中的癌症样本的每组特征作为输入值,以预测“肠癌/肝癌/肺癌” 为反馈结果,分别使用适合多分类算法的梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提 升模型进行训练建模,获得20种多分类基础模型。
为了提高预测性能,也采用了二次集合训练,方法基本同上述过程,区别是采用的线性方程式为:
ALLStacked=Intercept+A2*FSC_GBM+A3*FSC_RF+A4*FSC_DL+A5*FSC_XGBoost++B2*FSD_GBM+B3* FSD_RF+B4*FSD_DL+B5*FSD_XGBoost+C2*EDM_GBM+C3*EDM_RF+C4*EDM_DL+C5*EDM_XGBoo st++D2*BPM_GBM+D3*BPM_RF+D4*BPM_DL+D5*BPM_XGBoost++E2*CNV_GBM+E3*CNV_RF+E4* CNV_DL+E5*CNV_XGBoost
其中,Intercept、A2-E5都是线性方程参数。FSC_GBM等都是指模型在获得输入数据后得到的输出值, 符号“_”前的字符代表特征集合的类型,符号“_”后的字符代表算法类型,多癌种早筛模型的输出值为 癌症概率,多癌种组织起源模型为癌种概率(多癌种组织起源整合模型会对待预测样本分别进行肝癌可能 性预测,肠癌可能性预测和肺癌可能性预测,并以三种预测结果中的最大值作为最终判定结果)。
多癌种早期检测整合模型可有效区分癌症与健康人,训练集合中敏感性与特意性均达到94%,同时测 试集验证整合模型,灵敏性与特异性可达到95%,未出现集合间结果差异,具体结果如下表所示:
多癌种组织起源集合模型可有效区分肺癌、肝癌与肠癌组织起源,在训练集合中整体准确率达分别 95.1%,对测试集中成功预测成癌的样本的整体准去了大道93.1%,具体结果如下表所示:
对照实验1:
模型所采用的特征值中,不纳入片段5’端末端序列占比(EDM),只采用其它四种,模型建立过程 同上,进行癌种起源模型的建立,最终得到的测试集样本的计算结果如下:
GLM是一个二分类算法,在多分类的时候优势不够明显,在癌种分类的过程中不能表现出较好的分 类性能,因此在本部分的分类模型中没有用glm的基础模型,仅在癌症/健康样本分类的过程中使用。
通过以上实施例对本专利的技术方案进行解释和说明,但是并不构成对本专利的保护范围的限制。
Claims (10)
1.多癌种早筛模型的构建方法,所述的模型用于对样本是否患有肠癌、肺癌或者肝癌进行分类,其特征在于,包括如下步骤:
步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
步骤7,以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征向量输入至分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
2.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤6中,患癌是指患有肠癌、肺癌或者肝癌中的任意一种;所述的步骤6中,还需要对初始特征值进行简化后再作为模型特征向量,所述的简化是指分别筛选出第一、第二、第三、第四和第五特征集合在阳性组和对照组的样本之间存在显著性差异的特征值;所述的筛选过程是通过方差分析方法
3.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp范围;所述的步骤2中窗口的大小范围是2-7Mb。
4.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围;所述的读段数量经过了标准化处理。
5.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤4中,m是6-10之间的任意整数;所述的步骤5中,n是2-5之间的任意整数;
6.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的;所述的步骤7中输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性模型、梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将子模型联立为线性关系模型。
7.多癌种检测装置,其特征在于,所述的装置用于样本是否患有肠癌、肺癌或者肝癌进行分类,包括:
测序模块,用于对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
模型构建模块,用于以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征向量输入至分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
8.一种多癌种早筛模型的构建方法,其特征在于,所述的模型用于对癌症样本进行肠癌、肺癌或者肝癌的区分;
步骤1,对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5'端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5'端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
步骤7,分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本,每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、第二、第三、第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异的特征值,再将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型中,并以是否患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
9.根据权利要求8所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤7中,输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将子模型联立为线性关系模型。
10.多癌种检测装置,其特征在于,所述的装置用于对癌症样本进行肠癌、肺癌或者肝癌的区分,包括:
测序模块,用于对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
模型构建模块,用于分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本,每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、第二、第三、第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异的特征值,再将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型中,并以是否患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392412.9A CN114927213A (zh) | 2022-04-15 | 2022-04-15 | 多癌种早筛模型构建方法以及检测装置 |
PCT/CN2023/082118 WO2023197825A1 (zh) | 2022-04-15 | 2023-03-17 | 多癌种早筛模型构建方法以及检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392412.9A CN114927213A (zh) | 2022-04-15 | 2022-04-15 | 多癌种早筛模型构建方法以及检测装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114927213A true CN114927213A (zh) | 2022-08-19 |
Family
ID=82807125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210392412.9A Pending CN114927213A (zh) | 2022-04-15 | 2022-04-15 | 多癌种早筛模型构建方法以及检测装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114927213A (zh) |
WO (1) | WO2023197825A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115595372A (zh) * | 2022-12-16 | 2023-01-13 | 南京世和基因生物技术股份有限公司(Cn) | 一种血浆游离dna来源的甲基化检测方法、肺癌诊断标志物以及试剂盒 |
CN116153420A (zh) * | 2023-04-24 | 2023-05-23 | 南京世和基因生物技术股份有限公司 | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 |
WO2023197825A1 (zh) * | 2022-04-15 | 2023-10-19 | 南京世和基因生物技术股份有限公司 | 多癌种早筛模型构建方法以及检测装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706749A (zh) * | 2019-09-10 | 2020-01-17 | 至本医疗科技(上海)有限公司 | 一种基于组织器官分化层次关系的癌症类型预测***和方法 |
CN113436684A (zh) * | 2021-07-02 | 2021-09-24 | 南昌大学 | 一种癌症分类和特征基因选择方法 |
CN113826167A (zh) * | 2019-05-13 | 2021-12-21 | 格瑞尔公司 | 基于模型的特征化和分类 |
CN113903398A (zh) * | 2021-09-08 | 2022-01-07 | 南京世和基因生物技术股份有限公司 | 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110452981A (zh) * | 2017-06-07 | 2019-11-15 | 深圳市海普洛斯生物科技有限公司 | 基于外周血的肺癌早筛用的试剂盒 |
WO2021110987A1 (en) * | 2019-12-06 | 2021-06-10 | Life & Soft | Methods and apparatuses for diagnosing cancer from cell-free nucleic acids |
AU2021322806A1 (en) * | 2020-08-05 | 2023-03-02 | Inivata Ltd. | Highly sensitive method for detecting cancer DNA in a sample |
CN114927213A (zh) * | 2022-04-15 | 2022-08-19 | 南京世和基因生物技术股份有限公司 | 多癌种早筛模型构建方法以及检测装置 |
-
2022
- 2022-04-15 CN CN202210392412.9A patent/CN114927213A/zh active Pending
-
2023
- 2023-03-17 WO PCT/CN2023/082118 patent/WO2023197825A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113826167A (zh) * | 2019-05-13 | 2021-12-21 | 格瑞尔公司 | 基于模型的特征化和分类 |
CN110706749A (zh) * | 2019-09-10 | 2020-01-17 | 至本医疗科技(上海)有限公司 | 一种基于组织器官分化层次关系的癌症类型预测***和方法 |
CN113436684A (zh) * | 2021-07-02 | 2021-09-24 | 南昌大学 | 一种癌症分类和特征基因选择方法 |
CN113903398A (zh) * | 2021-09-08 | 2022-01-07 | 南京世和基因生物技术股份有限公司 | 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023197825A1 (zh) * | 2022-04-15 | 2023-10-19 | 南京世和基因生物技术股份有限公司 | 多癌种早筛模型构建方法以及检测装置 |
CN115595372A (zh) * | 2022-12-16 | 2023-01-13 | 南京世和基因生物技术股份有限公司(Cn) | 一种血浆游离dna来源的甲基化检测方法、肺癌诊断标志物以及试剂盒 |
CN116153420A (zh) * | 2023-04-24 | 2023-05-23 | 南京世和基因生物技术股份有限公司 | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 |
CN116153420B (zh) * | 2023-04-24 | 2023-08-18 | 南京世和基因生物技术股份有限公司 | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023197825A1 (zh) | 2023-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114927213A (zh) | 多癌种早筛模型构建方法以及检测装置 | |
CN112750502B (zh) | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及*** | |
CN109872776B (zh) | 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 | |
CN113903398A (zh) | 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 | |
CN112927757B (zh) | 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 | |
CN113355421B (zh) | 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN113421608B (zh) | 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN114334038A (zh) | 一种基于异质网络嵌入模型的疾病药物预测方法 | |
CN114420212A (zh) | 一种大肠杆菌菌株鉴定方法和*** | |
CN113862351A (zh) | 体液样本中鉴定胞外rna生物标志物的试剂盒及方法 | |
CN112259163B (zh) | 基于生物网络和亚细胞定位数据识别癌症驱动模块方法 | |
CN116153420B (zh) | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
CN111748634A (zh) | 一种特征lincRNA表达谱组合及结肠癌的早期预测方法 | |
CN111944902A (zh) | 一种基于lincRNA表达谱组合特征的肾***状细胞癌早期预测方法 | |
CN116959562A (zh) | 一种识别疾病表型相关的细胞亚群的方法 | |
CN114373502B (zh) | 一种基于甲基化的肿瘤数据分析*** | |
CN116486920A (zh) | 一种基于迭代em聚类的单细胞转录组疾病特异性细胞分析方法 | |
CN113035279B (zh) | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 | |
CN113380326B (zh) | 一种基于pam聚类算法的基因表达数据分析方法 | |
Schwender | Statistical analysis of genotype and gene expression data | |
KR102376212B1 (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |