CN114927213A

CN114927213A - 多癌种早筛模型构建方法以及检测装置

Info

Publication number: CN114927213A
Application number: CN202210392412.9A
Authority: CN
Inventors: 邵阳; 吴雪; 包华; 刘睿; 吴舒雨; 唐皖湘夫; 杨珊珊; 刘思思; 孟齐; 王婷婷
Original assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co ltd
Current assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-19
Also published as: WO2023197825A1

Abstract

本发明涉及多癌种(肺癌、肠癌和肝癌)早期检测和癌种预测方法、检测装置以及计算机可读取介质。本发明提供了一种对血浆样本cfDNA进行WGS低深度测序，使用高通量测序结果分析各癌种cfDNA片段五种差异特征，包括基因组范围片段长度覆盖分布，染色体各长短臂上片段长度分布，片段断点处序列，片段5’端序列和1MB窗口片段拷贝数变化，利用再用广义线性模型,梯度提升机，随机森林，深度学习和极端梯度提升五种算法分别进行训练建模，再用广义线性模型进行二次集合训练构建多特征多算法整合模型，实现了对多癌种低深度高特异性高敏感性的无创精准早期检测和组织起源检测的目的。

Description

多癌种早筛模型构建方法以及检测装置

技术领域

本发明涉及一种包括肺癌(Lung Adenocarcinoma，LUAD)、结直肠癌(ColorectalCarcinoma，CRC) 和肝癌(Primary Liver Cancer,PLC)的多癌种组织起源检测，属于分子生物医学技术领域。

背景技术

肺癌、结直肠癌和肝癌是三种全球死亡率最高的恶性肿瘤。

肺癌、肝癌和结直肠癌由于早期无明显症状或检测困难导致早期诊断率低。然而，目前市场上的癌症早筛产品多是针对单癌种预测，若患者需接受多次不同单癌种早筛项目，由于耗时费力且费用高，可能降低各癌种早筛在广泛人群中的贯彻推广。多癌种的早期筛查不仅覆盖各癌种的早起筛查，且精确检测其组织起源，预防癌症发展过程中可能出现的未知原发癌而使病情复杂，耽误诊断治疗的情况发生。因此，我国迫切需要一种同时覆盖以上三种死亡率最高的恶性肿瘤的早筛产品，以更高效、经济、实用地适用于更广泛人群。

发明内容

本发明提供了一种对血浆样本cfDNA进行WGS低深度测序，使用高通量测序结果分析各癌种cfDNA 片段五种差异特征，包括基因组范围片段长度覆分布，染色体各长短臂上片段长度分布，片段断点处序列 (8-mer Breakpoint Motif)，片段5’端序列(8-mer EndMotif)和1MB窗口片段拷贝数变化，利广义线性模型(GLM)，用梯度提升机(GBM)，随机森林(Random Forest)，深度学习(Deep Learning)和极端梯度提升(XGBoost)四种算法分别进行训练建模，最后再通过广义线性模型(GLM)构建多特征多算法整合模型，实现了对多癌种低深度高特异性高敏感性的无创精准组织起源(Tissue of Origin，TOO)检测的目的。

本发明的第一个目的：

多癌种早筛模型的构建方法，所述的模型用于对样本是否患有肠癌、肺癌或者肝癌进行分类，包括如下步骤：

步骤1，对阳性组和对照组的样本进行cfDNA的提取并测序，获得读段数据；

步骤2，将读段数据结果比对至参考基因组，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量，作为第一特征集合；

步骤3，将读段数据结果比对至参考基因组，分别以各个染色体上的长臂和短臂作为区域范围，并获得在每个范围内的不同长度梯度区间中的读段数量，作为第二特征集合；

步骤4，将读段数据中的5’端的m个碱基数据作为碱基片段集合，并得到各种碱基片段在全部片段中所占比例作为第三特征集合；

步骤5，将读段数据结果比对至参考基因组，得到读段的5’端在参考基因组上的位置；获得所述的位置处的上下游各n个bp碱基的序列数据，作为碱基片段集合；以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合；

步骤6，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的拷贝数数据，作为第五特征集合；

步骤7，以第一、第二、第三、第四和第五特征集合共同作为初始特征值，作为模型特征向量输入至分类模型中，并以是否患癌作为输出值，对模型进行训练，获得早筛模型。

所述的步骤6中，患癌是指患有肠癌、肺癌或者肝癌中的任意一种。

所述的步骤6中，还需要对初始特征值进行简化后再作为模型特征向量，所述的简化是指分别筛选出第一、第二、第三、第四和第五特征集合在阳性组和对照组的样本之间存在显著性差异的特征值。

所述的筛选过程是通过方差分析方法。

所述的短读段是指长度40-80bp，所述的超长读段数量是200-300bp；全部读段是指长度在40-300bp 范围。

所述的步骤2中窗口的大小范围是2-7Mb。

所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围。

所述的读段数量经过了标准化处理。

所述的步骤4中，m是6-10之间的任意整数。

所述的步骤5中，n是2-5之间的任意整数。

所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的。

所述的步骤7中输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性模型、梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中，获得多个子模型，并将子模型联立为线性关系模型。

本发明的第二个目的：

多癌种检测装置，所述的装置用于样本是否患有肠癌、肺癌或者肝癌进行分类，包括：

测序模块，用于对阳性组和对照组的样本进行cfDNA的提取并测序，获得读段数据；

第一特征集合获取模块，用于将读段数据结果比对至参考基因组，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量，作为第一特征集合；

第二特征集合获取模块，用于将读段数据结果比对至参考基因组，分别以各个染色体上的长臂和短臂作为区域范围，并获得在每个范围内的不同长度梯度区间中的读段数量，作为第二特征集合；

第三特征集合获取模块，用于将读段数据中的5’端的m个碱基数据作为碱基片段集合，并得到各种碱基片段在全部片段中所占比例作为第三特征集合；

第四特征集合获取模块，用于将读段数据结果比对至参考基因组，得到读段的5’端在参考基因组上的位置；获得所述的位置处的上下游各n个bp碱基的序列数据，作为碱基片段集合；以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合；

第五特征集合获取模块，用于将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的拷贝数数据，作为第五特征集合；

模型构建模块，用于以第一、第二、第三、第四和第五特征集合共同作为初始特征值，作为模型特征向量输入至分类模型中，并以是否患癌作为输出值，对模型进行训练，获得早筛模型。

本发明的第三个目的：

一种计算机可读取介质，其记载有可以运行多癌种早筛模型的构建方法的计算机程序。

本发明的第四个目的：

一种多癌种早筛模型的构建方法，所述的模型用于对癌症样本进行肠癌、肺癌或者肝癌的区分；

包括如下步骤：

步骤1，对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序，获得读段数据；

步骤7，分别建立三组对照实验组，每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本，每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本，分别在三组对照实验组中采用第一、第二、第三、第四和第五特征集合共同作为初始特征值，筛选出在阳性样本和对照样本中存在显著性差异的特征值，再将三组对照实验组中的存在显著差异的特征值进行合并，作为模型特征向量输入至分类模型中，并以是否患有肠癌、肺癌或者肝癌的概率作为输出值，对模型进行训练，获得早筛模型。

所述的步骤7中，输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中，获得多个子模型，并将子模型联立为线性关系模型。

所述的筛选过程是通过方差分析方法。

所述的步骤2中窗口的大小范围是2-7Mb。

所述的读段数量经过了标准化处理。

所述的步骤4中，m是6-10之间的任意整数。

所述的步骤5中，n是2-5之间的任意整数。

本发明的第五个目的：

多癌种检测装置，所述的装置用于对癌症样本进行肠癌、肺癌或者肝癌的区分，包括：

测序模块，用于对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序，获得读段数据；

模型构建模块，用于分别建立三组对照实验组，每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本，每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本，分别在三组对照实验组中采用第一、第二、第三、第四和第五特征集合共同作为初始特征值，筛选出在阳性样本和对照样本中存在显著性差异的特征值，再将三组对照实验组中的存在显著差异的特征值进行合并，作为模型特征向量输入至分类模型中，并以是否患有肠癌、肺癌或者肝癌的概率作为输出值，对模型进行训练，获得早筛模型。

本发明的第六个目的：

有益效果

对191例肝癌患者、149例结直肠癌患者和146例肺癌患者的低深度WGS(～5X)cfDNA读段基因组范围内长度分布、染色体各长短臂范围内长度分布、片段末端序列占比、断点处序列占比和区域拷贝数变化进行统计，分别利用五种不同的训练学习算法构建模型，并对所有模型进行二次集合训练，提高模型对癌症早期检测和癌种预测的预测性能。本发明首次基于血浆cfDNA高通量低深度测序提供了多分子特征多训练算法二次整合诊断模型，该模型不仅能够诊断早期多种癌症及其组织起源，且具有无创检测，通量低，检测特异性和敏感性高的特点。

附图说明

图1是模型构建过程示意图；

图2是多癌种早期检测模型构建过程示意图；

图3是多癌种组织起源模型构建过程示意图；

图4是5中特征中最大差异特征列在癌症组和非癌症组之间的分布；

图5是多癌种早期检测模型在训练集合中的AUC表现；

图6是多癌种早期检测模型在测试集合中的AUC表现；

图7是肝癌5种特征中独有的最大差异特征列在肝癌和其他癌种之间的分布；

图8是肠癌5种特征中独有的最大差异特征列在肠癌和其他癌种之间的分布；

图9是肺癌5种特征中独有的最大差异特征列在肺癌和其他癌种之间的分布；

具体实施方式

本发明涉及多癌种(肺癌、肠癌和肝癌)早期检测和癌种预测标志物、检测方法、检测装置以及计算机可读取介质。本发明提供了一种对血浆样本cfDNA进行WGS低深度测序，使用高通量测序结果分析各癌种cfDNA片段五种差异特征，包括基因组范围片段长度覆盖分布，染色体各长短臂上片段长度分布，片段断点处序列(8-mer Breakpoint Motif)，片段5’端序列(8-mer End Motifs)和1MB窗口片段拷贝数变化，利用再用广义线性模型(Generalized Linear Mode,GLM),梯度提升机(Gradient Boosting Machine, GBM)，随机森林(Random Forest,RF)，深度学习(Deep Learning,DL)和极端梯度提升(XGBoost)五种算法分别进行训练建模，再用广义线性模型(GLM)进行二次集合训练构建多特征多算法整合模型，实现了对多癌种低深度高特异性高敏感性的无创精准早期检测和组织起源检测的目的。

本发明中的计算方法详述如下：

本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没有特别的限定，可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序技术获得cfDNA的碱基信息。

本发明中的模型构建过程采用的数据集情况如下：

血浆cfDNA样本的提取和测序方法：

采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本，及时离心分离血浆(2小时内)，转运至实验室后，血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行cfDNA提取。对采集到的cfDNA 样本建库后，进行WGS～5乘测序。在获得了下机数据之后，将数据比对至人类参考基因组上，获得相应的读段的碱基数据信息。

数据处理

本发明中的标志数据，主要是利用五种分子特征：

1.DNA片段大小占比(Fragmentation Size Coverage，FSC)

对于DNA片段大小占比，其反映的是cfDNA读段的长度大小的占比特征。利用DNA片段大小覆盖深度(fragmentation size ratio)进行机器学习建立预测模型，从而区分肺癌、肠癌和肝癌患者。通过比较 486例肺癌、肠癌或肝癌患者的cfDNA读段的长度，发现40-80bp，81-300bp和40-300bp间的片段数量在染色体上的分布存在差异，可以作为区分特征。

cfDNA读段长度数据是通过如下方法获取得到的：在比对好的BAM当中，记录了每一条读段的质量，长度和比对位置信息，人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California,Santa Cruz,UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度，切割成572个窗口，分别统计每一个窗口中的全部读段数量(40-300bp)，短读段数量(40-80bp)和长读段数量(81-300bp)。根据所有窗口中各种读段数量统计结果，分别对每种读段数量进行标准化换算，即标准化值＝(原始值–平均值)/标准差。由此得到了572组不同长度的读段数量的数集。

2.DNA片段大小分布(Fragmentation Size Distribution，FSD)

在获取了DNA片段大小占比的基础上，为获得高分辨率读段结果，以人类参考基因组各染色体长短臂41个区域作为窗口，如下所示：

chr1_p	chr4_q	chr8_p	chr11_q	chr16_q	chr20_p
						chr1_q	chr5_p	chr8_q	chr12_p	chr17_p	chr20_q
chr2_p	chr5_q	chr9_p	chr12_q	chr17_q	chr21_q
						chr2_q	chr6_p	chr9_q	chr13_q	chr18_p	chr22_q
chr3_p	chr6_q	chr10_p	chr14_q	chr18_q	chrX_p
						chr3_q	chr7_p	chr10_q	chr15_q	chr19_p	chrX_q
chr4_p	chr7_q	chr11_p	chr16_p	chr19_q

将40-300bp的片段，以10bp递增，划分27个长度梯度(例，chr1的1q臂上40-49bp，50-59bp……)，对每个长度梯度在各长短臂窗口内片段数量进行统计，并进行标准化换算，从而获得高分辨率DNA片段大小分布结果共计1107个特征结果(2823＝41*27个长度梯度标准化结果)。

3.片段5’端末端序列占比(8-mer End Motif，EDM)

人类参考基因组是DNA双螺旋结构，依靠碱基互补配对氢离键链接；在正常衰老和癌症进展过程中，细胞周围环境的酸碱度发生变化，从而破坏了碱基互补氢键，发生断裂；由于断裂后的DNA片段末端碱基序列不同，包含不同末端序列的占比也会不同。收集方法：比对后获取每一条读段内5’端8bp序列，统计每种末端序列(共计4**8＝65536种)的读段数量，从而计算出65536种末端序列读段占比，例 AAAAAAAA序列占比＝AAAAAAAA读段数量/所有末端序列读段总数。

4.片段5’端断点序列读段数量占比(8-mer Breakpoint Motif，BKM)

类似于末端序列占比，由于断裂处的碱基序列不同，包含不同断点序列的序列占比也会不同。收集方法：比对后的BAM中，记录了每一条读段的基本信息和比对到的位置，确认每一条读段的5’端所在人类参考基因组序列坐标的左右各4bp序列，统计每种断点处序列(共计4**8＝65536种)的读段数量，从而计算出65536种断点处序列读段占比，例AAAAAAAA序列占比＝AAAAAAAA读段数量/所有断点序列读段总数。

5.1 Mb窗口拷贝数变化(1Mb-Bin Copy Number Variation,CNV)

拷贝数变化与个体癌症有显高度相关性，尽管已经可以通过检测部分癌症相关基因或特定基因组区间的拷贝数数变化从而进行区分，但仍有其他稀有或未知基因或区间可以提供潜在拷贝数变化信息。收集方法：对每个待测样本WGS数据，将参考基因1-22号染色体以1Mb的长度无重叠划分窗口，利用bedtools coverage对每个样本计算各个窗口内的读段深度，并根据各自窗口的GC含量和平均比对能力记录(UCSC BigWig文件)进行矫正，获得2475个窗口个体读段深度信息，利用隐马尔可夫模型(Hidden Markov Model， HMM)和每个窗口群体对照基线深度，构建每个窗口的拷贝数变化对数，即log2(待测样本矫正均一化后深度/群体基线矫正均一化后深度)，从而获得每个待测样本的拷贝数变化信息。

通过上述的数据获取，分别能够获得这五类数据的初始数据向量。接下来，再设计相应的计算方法：本发明中的标志数据，主要利用五种单特征机器学习算法：

1.广义线性模型算法(Generalize Linear Model,GLM)

广义线性模型是线性模型的扩展，通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。主要特点是不强行改变数据的自然度量，是常用的二分类分类策略。

2.梯度提升算法(Gradient Boosting Machine，GBM)

梯度提升算法是机器学习中常见的一类算法，其基本原理是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器，然后将训练好的若分类起以累加的形式结合到现有的模型中从而获得最优模型，该模型具有训练效果好，不易过拟合等优点。为防止GBM在学习过程中过度或欠拟合，设定GBM参数如下：ntrees＝300，max_depth＝9，learning_rate＝0.01，subample＝0.8,cross_validation＝10。

3.随机森林(Random Forest,RF)

随机森林是一个强大的分类和回归工具。当提供一组数据集合，随机森林可以随机抽取部分信息产生一组帮助分类或回归的决策树林，做节点***属性，不断重复随机抽取，直至不能再***；最后结合所有 ***属性结果，获得最终预测结果。为防止RF在学习过程中过度或欠拟合，设定RF参数如下：ntrees＝300, max_depth＝9，cross_validation＝10。

4.深度学习算法(Deep Learning,DL)

深度学***均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型，也称为深层神经网络(DNN)或多层感知器(MLP)，是深层神经网络的最常见类型。主要原理是将多输入和多输出的多个感知机通过设计建立适量的神经元计算节点和多层运算层次结构，选择合适的输人层和输出层，通过网络的学习和调优，建立起从输入到输出的函数关系，可以尽可能的逼近现实的关联关系。为防止DL 学习过程中过度或欠拟合，设定DL参数如下：epoch是＝300，hidden＝{100,100,100},input_dropout_ratios ＝0.05,rho＝0.95,mini_batch_size＝10，cross_validation＝10。

5.极端梯度提升算法(Extreme Gradient Boosting，XGBoost)

极端梯度提升是梯度提升算法的高效开源实现。相比传统GMB，XGBoost引入了并行化，所以其速度更快；XGBoost对目标函数引入了二阶近似，求得解析解,用解析解来建立决策树,使得目标函数最优； XGBoost引入了正则项部分，可以控制模型的复杂度，防止过拟合；Xgboost引入了特征子采样，类似于随机森林，既可以降低过拟合，也可以减少计算。为防止XGBoost在学习过程中过度或欠拟合，设定 XGBoost参数如下：ntrees＝300,max_depth＝9，cross_validation＝10。

为提高机器学习效率和降低无用特征干扰，通过对不同组间的特征值进行方差分析(Analysisofvariance， ANOVA)，将组间差异大的特征值筛选出来，该步骤通过R包stats的aov()功能的F值(Fvalue)结果和p.adjust()功能矫正后的pvalue实现。

多癌种早期检测模型的建立过程

为建立多癌种早期检测模型，将训练集合分成癌症组和非癌组，分别对五种特征进行方差分析，并根据Fvalue结果进行降序排列，保留前200的特征作为预测输入值。

癌种组织起源模型的建立过程

为建立多癌种组织起源模型，对训练集合中的191例肝癌、149例肠癌和146例肺癌患者分为三组，以“单癌种vs.其他癌种”模式对每个癌种组的5种特征分别进行特征方差分析，并对单癌种每个特征根据Fvalue 结果进行降序排列，保留前100的特征作为预测输入值。

特征值筛选过程的数据结果

癌症组与非癌症组FSC的前200个差异显著的特征值如下所示：其中的long/short/total分别代表长读段、短读段和全部读段，数字部分代表窗口位置编号；

Feature	Fvalue	Feature	Fvalue	Feature	Fvalue	Feature	Fvalue
								FSC_long396	81.701	FSC_long263	52.6787	FSC_long347	46.5958	FSC_long179	40.5184
FSC_long540	75.4718	FSC_total383	52.2025	FSC_total539	46.5743	FSC_long224	40.43
								FSC_long391	72.9756	FSC_long82	51.0191	FSC_long349	46.3592	FSC_long566	40.4084
FSC_total253	70.415	FSC_long489	50.8073	FSC_long72	46.3575	FSC_long389	40.238
								FSC_long57	65.0874	FSC_total491	50.7231	FSC_total429	45.6451	FSC_total87	40.1647
FSC_total444	64.683	FSC_total357	50.3417	FSC_long502	45.5662	FSC_long388	40.1022
								FSC_long157	64.0348	FSC_total448	49.965	FSC_long517	45.3359	FSC_long134	40.0138
FSC_long90	64.0015	FSC_long113	49.6011	FSC_long188	45.2453	FSC_total47	39.9453
								FSC_total172	61.622	FSC_total31	49.0058	FSC_total314	45.2022	FSC_long74	39.8747
FSC_long405	60.4978	FSC_long194	48.9941	FSC_long130	45.0391	FSC_long254	39.6966
								FSC_long66	60.4351	FSC_long499	48.7882	FSC_total4	44.8316	FSC_long301	39.4437
FSC_long400	59.9275	FSC_total171	48.7311	FSC_long123	44.5548	FSC_long89	39.2945
								FSC_total46	59.6363	FSC_long227	48.4569	FSC_long531	44.3869	FSC_long140	39.2536
FSC_total446	57.4202	FSC_long459	48.1535	FSC_total234	43.5862	FSC_short444	39.2209
								FSC_long4	56.6373	FSC_long512	47.9473	FSC_total342	43.5405	FSC_total94	39.1298
FSC_long152	56.524	FSC_total513	47.713	FSC_total376	42.9968	FSC_total219	39.1004
								FSC_long553	55.4318	FSC_long56	47.7048	FSC_long393	42.7845	FSC_total468	38.9743
FSC_total12	55.0499	FSC_total13	47.5346	FSC_total173	42.7742	FSC_total3	38.8111
								FSC_long377	54.58	FSC_long475	47.4325	FSC_total184	42.3602	FSC_long394	38.803
FSC_long125	54.3197	FSC_total5	47.0377	FSC_long50	42.1805	FSC_total449	38.6676
								FSC_long3	54.192	FSC_long444	47.0082	FSC_total10	41.9203	FSC_long463	38.487
FSC_total174	53.5348	FSC_long467	46.7466	FSC_long390	41.3479	FSC_long269	38.1169
								FSC_long262	53.3568	FSC_total126	46.6959	FSC_long190	41.3405	FSC_long178	37.7909
FSC_long229	53.3224	FSC_long526	46.6444	FSC_long260	40.9844	FSC_total2	37.6067
								FSC_long396	81.701	FSC_total109	46.6086	FSC_total454	40.6857	FSC_total11	37.387

癌症组与非癌症组FSD的前200个差异显著的特征值如下所示：其中的chrx,xp/q代表x号染色体上的长臂或短臂，数字部分是指梯度位置的编号；

Feature	Fvalue	Feature	Fvalue
				FSD_chr5.5p.230.234	54.8092854	FSD_chr4.4p.235.239	46.4221384
FSD_chr4.4p.230.234	51.9645174	FSD_chr20.20q.290.294	46.4201924
				FSD_chr11.11p.230.234	51.5186474	FSD_chr19.19q.275.279	46.283729
FSD_chr5.5p.225.229	50.8401068	FSD_chr12.12p.230.234	46.2242476
				FSD_chr7.7p.230.234	50.2519893	FSD_chr9.9p.240.244	46.2196927
FSD_chr10.10p.230.234	48.4822926	FSD_chr12.12p.260.264	46.1646039
				FSD_chr5.5p.235.239	47.5247215	FSD_chr19.19q.280.284	46.1265988
FSD_chr20.20q.270.274	47.3902919	FSD_chr9.9p.280.284	46.1158508
				FSD_chr20.20q.280.284	47.3678492	FSD_chr12.12p.265.269	46.0895064
FSD_chr10.10p.225.229	47.1690378	FSD_chr20.20q.285.289	46.0108982
				FSD_chr4.4p.225.229	47.1414866	FSD_chr21.21q.275.279	45.9727712
FSD_chr19.19q.285.289	47.0605845	FSD_chr20.20p.280.284	45.9303935
				FSD_chr12.12p.240.244	46.9006364	FSD_chr20.20q.245.249	45.9105264
FSD_chr20.20q.265.269	46.8555706	FSD_chr12.12p.250.254	45.875542
				FSD_chr20.20q.260.264	46.8400839	FSD_chr17.17q.230.234	45.8489966
FSD_chr5.5p.240.244	46.8303311	FSD_chr20.20q.250.254	45.816055
				FSD_chr9.9p.265.269	46.8185691	FSD_chr12.12p.270.274	45.5709483
FSD_chr19.19q.265.269	46.8026732	FSD_chr19.19q.230.234	45.5488692
				FSD_chr20.20q.275.279	46.7419692	FSD_chr12.12p.255.259	45.5170554
FSD_chr20.20q.230.234	46.64789	FSD_chr9.9p.285.289	45.4580678
				FSD_chr10.10p.240.244	46.6417362	FSD_chr7.7p.235.239	45.4516827
FSD_chr11.11p.240.244	46.5794021	FSD_chr16.16q.240.244	45.4129474
				FSD_chr20.20q.240.244	46.5064897	FSD_chr19.19q.260.264	45.3741767
FSD_chr19.19q.270.274	46.4862245	FSD_chr8.8p.240.244	45.3389915
				FSD_chr5.5p.165.169	46.4674378	FSD_chr12.12p.245.249	45.3279377

Feature	Fvalue	Feature	Fvalue
				FSD_chr8.8p.265.269	44.031405	FSD_chr22.22q.270.274	43.2411911
FSD_chr20.20p.250.254	43.9666741	FSD_chr21.21q.290.294	43.2278246
				FSD_chr8.8p.270.274	43.8818837	FSD_chr22.22q.260.264	43.2262642
FSD_chr12.12p.285.289	43.8489858	FSD_chr16.16q.245.249	43.1792503
				FSD_chr21.21q.285.289	43.8382823	FSD_chr20.20q.235.239	43.1283769
FSD_chr20.20p.260.264	43.8108758	FSD_chr9.9p.245.249	43.127892
				FSD_chr8.8p.275.279	43.808056	FSD_chr8.8p.280.284	43.0742397
FSD_chr19.19p.265.269	43.7224674	FSD_chr20.20q.225.229	43.0671324
				FSD_chr20.20p.255.259	43.7223783	FSD_chr20.20p.230.234	43.0504681
FSD_chr19.19q.225.229	43.705319	FSD_chr19.19p.250.254	43.0229557
				FSD_chr22.22q.265.269	43.6151308	FSD_chr16.16q.255.259	43.0014434
FSD_chr20.20p.290.294	43.6055968	FSD_chr8.8p.245.249	42.9739528
				FSD_chr19.19q.295.299	43.6039302	FSD_chr5.5p.250.254	42.9520915
FSD_chr4.4p.245.249	43.5852556	FSD_chr16.16q.280.284	42.9266045
				FSD_chr4.4p.240.244	43.558149	FSD_chr19.19p.275.279	42.8884374
FSD_chr19.19q.235.239	43.5359024	FSD_chr11.11p.260.264	42.8444442
				FSD_chr22.22q.240.244	43.4979393	FSD_chr22.22q.250.254	42.822104
FSD_chr11.11p.245.249	43.4940087	FSD_chr11.11p.225.229	42.821477
				FSD_chr16.16q.235.239	43.4045613	FSD_chr21.21q.245.249	42.8073186
FSD_chr9.9p.290.294	43.3618866	FSD_chr21.21q.255.259	42.7824982
				FSD_chr20.20p.240.244	43.3527499	FSD_chr21.21q.230.234	42.7789333
FSD_chr7.7p.250.254	43.3352273	FSD_chr22.22q.280.284	42.6836024
				FSD_chr21.21q.260.264	43.3236451	FSD_chr11.11p.255.259	42.5800444
FSD_chr16.16q.250.254	43.2766888	FSD_chr19.19p.285.289	42.400389
				FSD_chr8.8p.285.289	43.2615185	FSD_chr19.19p.280.284	42.3744761

癌症组与非癌症组EDM的前200个差异显著的特征值如下所示：其中由8位ATCG构成的编号代表不同的特征值的碱基序列；

Feature	Fvalue	Feature	Fvalue
				EDM_TGCTTGAT	108.939	EDM_AGATGCGG	83.7157
EDM_AGCTTCCG	105.103	EDM_TGACGCGC	83.0017
				EDM_GGCTTCAG	104.596	EDM_GGATGTCG	82.4446
EDM_TGCTCCAA	98.8863	EDM_TGACGCAA	81.7297
				EDM_GGCTCCCG	98.0056	EDM_CGATTACG	81.696
EDM_CGCTTTGT	97.0309	EDM_TGATCCGG	81.6917
				EDM_TGGCTCAC	96.0004	EDM_GGACTTCG	81.4562
EDM_TGCTTCGC	94.8698	EDM_AGATTCGC	81.2742
				EDM_GGCTTTCA	93.5914	EDM_TGCTGCGT	81.1171
EDM_CGATCCCG	92.5713	EDM_CGCTCCGA	80.8802
				EDM_GGATCCAC	92.2369	EDM_AGCTCTAT	80.6847
EDM_GGACGTGA	91.9986	EDM_TGCTTTAA	79.0565
				EDM_CGATACCG	91.8643	EDM_TGACCCGC	78.8234
EDM_GGACTCCG	91.3485	EDM_CGCCTCGC	78.8054
				EDM_AGCTCTCA	90.9664	EDM_CCCGTATT	78.3346
EDM_GGCCTCAT	89.878	EDM_AGACCCCT	78.2996
				EDM_GGCTTCTA	89.1031	EDM_AGGTTCCG	77.9522
EDM_TGACTCAT	87.1597	EDM_AGGTTCAC	77.4016
				EDM_GGGCGCAG	86.9931	EDM_AGATTCCT	76.6816
EDM_TGACGTAC	86.6968	EDM_GGATCTCC	76.2927
				EDM_AGACCCAT	86.0862	EDM_AAAAAGGA	76.1724
EDM_TGACGTCC	85.8079	EDM_TGACTTGG	75.6534
				EDM_CGGCGCGC	85.4427	EDM_AGATCGAA	75.4723
EDM_TGGCGTGT	84.9567	EDM_CGACACCA	75.312
				EDM_GGATCTGG	83.8928	EDM_AGCTACGT	75.0954

Feature	Fvalue	Feature	Fvalue
				EDM_AGTCGTGG	66.8285	EDM_CCAAAAGA	64.4245
EDM_AACTGCAC	66.6532	EDM_GGACGCTC	64.3401
				EDM_CAAATGTG	66.5838	EDM_AGAATCAA	64.2852
EDM_AGTCGAGC	66.4404	EDM_GCTTAGTT	64.2412
				EDM_CGACGTTG	66.3781	EDM_GGTGCCAG	64.1455
EDM_AGGTCCAA	66.2987	EDM_TACTTCCG	64.1268
				EDM_AGCATCGT	65.9152	EDM_CATAAGTA	63.9182
EDM_TGCCTTAT	65.843	EDM_CGCCGTAA	63.7133
				EDM_AGCCGTCA	65.8123	EDM_CGCTGCAC	63.5523
EDM_TGCTTACC	65.7943	EDM_CCTCAATC	63.4838
				EDM_CACTTTGT	65.5289	EDM_TCCAATTA	63.368
EDM_TACTGCCC	65.3877	EDM_TGCCCTAC	63.1577
				EDM_AGCCGCGC	65.0759	EDM_TATTGGTG	63.1209
EDM_CGATCCTT	65.047	EDM_GGATTGCC	63.0253
				EDM_CGGTGCAT	65.0067	EDM_GGCCCCAC	62.949
EDM_TGATGTGG	64.9339	EDM_GCAATTTC	62.887
				EDM_AGACTACC	64.8444	EDM_CGGCCCAC	62.4603
EDM_GCTAAAAC	64.824	EDM_CCCATTTA	62.3246
				EDM_CACCGCGC	64.7008	EDM_TAAAGGAG	61.9389
EDM_GCTACATG	64.6971	EDM_GCTAATGC	61.8865
				EDM_CCTATATC	64.6731	EDM_CCTGTATT	61.7935
EDM_TCAATATT	64.6509	EDM_CGGTACGA	61.7435
				EDM_GGCTCACC	64.5625	EDM_TGACGAGG	61.6167
EDM_AACTCCAC	64.5266	EDM_TCTAAAGG	61.498
				EDM_CAAAAGTC	64.4716	EDM_AGATCTAG	61.461

癌症组与非癌症组BKM的前200个差异显著的特征值如下所示：其中由8位ATCG构成的编号代表不同的特征值的碱基序列；

Feature	Fvalue	Feature	Fvalue
				BKM_TATCGCTA	130.807152	BKM_ATGCGCTA	98.5952581
BKM_GCACGCTT	113.538103	BKM_GAGTGCTA	97.9152335
				BKM_CTTTGTAG	112.083258	BKM_GAATGGCT	97.697029
BKM_GAAGGCCT	111.824392	BKM_AGAGGCCC	97.6070588
				BKM_GGACGCAG	111.752205	BKM_GAATGCTA	96.2450864
BKM_AAAGGCTC	110.03839	BKM_AAGGGAAG	95.8114101
				BKM_GGTCGCTT	109.32525	BKM_AAACGCCA	95.4338561
BKM_AACCGCTT	108.39628	BKM_GAGCGCAC	94.6393849
				BKM_GAAGGGCC	105.356765	BKM_CACCGCCC	94.3997228
BKM_CATCGCCA	105.307551	BKM_AAGTGCCA	94.2375066
				BKM_CGGCGCTT	105.154233	BKM_GATGGCTT	93.73717
BKM_TGCCGCTA	103.837807	BKM_GGACGCCC	93.6879938
				BKM_AGGGGCTT	102.774888	BKM_CTACGCTA	93.3585377
BKM_AAGCGCTA	102.631636	BKM_CGGCGACT	92.5179784
				BKM_ATTAGTAC	102.282114	BKM_CGGTGGCT	92.1608125
BKM_TAGGGCCT	102.178313	BKM_TCACGATG	91.3761759
				BKM_CATGGCCT	102.045968	BKM_AGATGCCT	91.3176476
BKM_GGGTGCTG	102.007894	BKM_AAGCGCCA	91.0868765
				BKM_CTTCGCTA	101.571631	BKM_CAACGCTG	90.2805221
BKM_TAACGCAC	101.405716	BKM_CGGCGCCA	89.7592663
				BKM_TAATGCCA	100.658644	BKM_GTGGGATG	89.7128211
BKM_AGATGCTT	99.891257	BKM_TAGGGGCG	89.499491
				BKM_CAGGGCTC	99.6844108	BKM_TGGGGCCA	89.276824
BKM_GGACGCTA	99.262136	BKM_AGAGGACT	88.4708948
				BKM_CATGGGCA	99.193011	BKM_AGGTGCCG	88.3251624

Feature	Fvalue	Feature	Fvalue
				BKM_AGGCGGCA	78.2177097	BKM_ATTACAAC	75.0675134
BKM_CAACGACG	78.1940344	BKM_GTTAATAA	74.9328476
				BKM_GTGCGATG	78.1206373	BKM_TGGGGGTC	74.9180801
BKM_ACTAATCA	78.068639	BKM_CGACGATT	74.5733125
				BKM_AGACGACA	77.9623598	BKM_TATCGGCC	74.5161508
BKM_GAGTGAGC	77.889533	BKM_CTGGGCTT	74.2999242
				BKM_CGGGGGCG	77.8259267	BKM_CAGCGGAT	73.5440325
BKM_CTCAATCA	77.7366991	BKM_TAACGATG	73.4477075
				BKM_GATCGCGC	77.4573563	BKM_GTGAAAAG	72.9467138
BKM_GGGCGGTT	77.4291049	BKM_GTAAATTC	72.8716606
				BKM_CGTGGCCA	77.3332113	BKM_AGCAATAA	72.5298191
BKM_GAGCGGTT	77.235208	BKM_TAACGAAA	72.2698349
				BKM_TCAAATCA	76.9099303	BKM_GGAGGGTA	72.2420055
BKM_GACTGCTC	76.8131165	BKM_CGGCGCAT	72.2078111
				BKM_CAACGGTC	76.7882665	BKM_CTCACTAT	72.1524578
BKM_GGACGGCG	76.5531798	BKM_GTAAAAAA	71.9312005
				BKM_TAGGGATT	76.3743039	BKM_GAGTGATC	71.7835403
BKM_TAGGGCAC	75.8879792	BKM_TTAACTAA	71.7320049
				BKM_AAGTGGTA	75.879689	BKM_AAAACCAA	71.6974967
BKM_CCTAATTA	75.6847188	BKM_GTTACACT	71.6851512
				BKM_TCAAATTA	75.5914363	BKM_ACAAAAAT	71.3907208
BKM_TAATGACG	75.5543415	BKM_TACCGATG	70.7519088
				BKM_AGCCGACC	75.4170013	BKM_GTTAATCA	70.4962008
BKM_CCACGCCC	75.4052383	BKM_AGCGGTGA	70.4733951
				BKM_CAGTGACG	75.0877116	BKM_TATCGATA	70.32242

癌症组与非癌症组CNV的前200个差异显著的特征值如下所示：其中chrx是代表x号染色体，数字部分是指在染色体上的位置范围；

Feature	Fvalue	Feature	Fvalue
				CNV_chr1.61000001.62000000	84.1167063	CNV_chr15.57000001.58000000	65.2286629
CNV_chr22.36000001.37000000	79.9497093	CNV_chr2.125000001.126000000	65.1535805
				CNV_chr7.97000001.98000000	77.9046624	CNV_chr10.85000001.86000000	64.772446
CNV_chr6.169000001.170000000	77.7682786	CNV_chr4.80000001.81000000	64.7706848
				CNV_chr5.2000001.3000000	77.15837	CNV_chr10.90000001.91000000	64.6821865
CNV_chr5.5000001.6000000	76.6542542	CNV_chr1.94000001.95000000	64.3404648
				CNV_chr7.158000001.159000000	76.5191597	CNV_chr3.171000001.172000000	64.2926543
CNV_chr2.146000001.147000000	73.5063859	CNV_chr1.57000001.58000000	64.082675
				CNV_chr2.4000001.5000000	72.9152386	CNV_chr9.80000001.81000000	63.7822602
CNV_chr2.224000001.225000000	72.6330996	CNV_chr1.66000001.67000000	63.4208437
				CNV_chr12.126000001.127000000	70.6660462	CNV_chr12.20000001.21000000	63.1140167
CNV_chr10.77000001.78000000	70.6001315	CNV_chr1.8000001.9000000	62.9225936
				CNV_chr18.76000001.77000000	69.3861408	CNV_chr5.15000001.16000000	62.8815256
CNV_chr1.60000001.61000000	69.1993934	CNV_chr5.166000001.167000000	62.814949
				CNV_chr12.84000001.85000000	69.1200481	CNV_chr3.168000001.169000000	61.9843795
CNV_chr7.81000001.82000000	68.558569	CNV_chr2.58000001.59000000	61.6256805
				CNV_chr10.87000001.88000000	68.08084	CNV_chr15.25000001.26000000	61.1586246
CNV_chr12.130000001.131000000	67.5174835	CNV_chr4.74000001.75000000	60.9090545
				CNV_chr18.73000001.74000000	66.7461572	CNV_chr3.188000001.189000000	60.8823912
CNV_chr9.112000001.113000000	66.7190187	CNV_chr12.30000001.31000000	60.7756192
				CNV_chr19.29000001.30000000	66.4561366	CNV_chr12.98000001.99000000	60.655065
CNV_chr10.52000001.53000000	66.0605539	CNV_chr9.113000001.114000000	60.4174039
				CNV_chr5.165000001.166000000	65.7131733	CNV_chr8.47000001.48000000	60.3275434
CNV_chr4.106000001.107000000	65.697428	CNV_chr3.148000001.149000000	59.6855455
				CNV_chr22.33000001.34000000	65.394011	CNV_chr15.26000001.27000000	59.6821836

Feature	Fvalue	Feature	Fvalue
				CNV_chr7.67000001.68000000	53.1724174	CNV_chr12.99000001.100000000	50.6342338
CNV_chr1.41000001.42000000	53.1638589	CNV_chr1.92000001.93000000	50.6140102
				CNV_chr2.167000001.168000000	52.7880905	CNV_chr2.182000001.183000000	50.5154741
CNV_chr3.140000001.141000000	52.7843364	CNV_chr10.114000001.115000000	50.3398076
				CNV_chr19.23000001.24000000	52.6056437	CNV_chr11.92000001.93000000	50.3235404
CNV_chr2.229000001.230000000	52.5732458	CNV_chr3.26000001.27000000	50.0593714
				CNV_chr2.221000001.222000000	52.5375692	CNV_chr21.16000001.17000000	49.9822975
CNV_chr2.102000001.103000000	52.3012458	CNV_chr19.22000001.23000000	49.9382204
				CNV_chr3.151000001.152000000	52.1089856	CNV_chr5.4000001.5000000	49.9157941
CNV_chr4.77000001.78000000	52.091561	CNV_chr4.54000001.55000000	49.8692041
				CNV_chr2.197000001.198000000	52.0459163	CNV_chr6.87000001.88000000	49.8479168
CNV_chr18.49000001.50000000	51.9251668	CNV_chr14.68000001.69000000	49.8459922
				CNV_chr4.124000001.125000000	51.8246327	CNV_chr2.165000001.166000000	49.7942017
CNV_chr12.15000001.16000000	51.6195957	CNV_chr11.42000001.43000000	49.7582539
				CNV_chr19.56000001.57000000	51.5625877	CNV_chr4.190000001.191000000	49.6014571
CNV_chr2.140000001.141000000	51.5420977	CNV_chr18.56000001.57000000	49.5963862
				CNV_chr1.39000001.40000000	51.3876865	CNV_chr1.25000001.26000000	49.4796326
CNV_chr1.67000001.68000000	51.264439	CNV_chr15.53000001.54000000	49.2241726
				CNV_chr11.122000001.123000000	51.2460045	CNV_chr1.240000001.241000000	49.1506809
CNV_chr17.41000001.42000000	51.0992407	CNV_chr3.118000001.119000000	49.0855821
				CNV_chr9.108000001.109000000	51.0755174	CNV_chr2.46000001.47000000	49.0810354
CNV_chr1.62000001.63000000	50.8358058	CNV_chr11.132000001.133000000	48.9878724
				CNV_chr5.66000001.67000000	50.7347117	CNV_chr18.4000001.5000000	48.8567361
CNV_chr20.41000001.42000000	50.7209341	CNV_chr1.89000001.90000000	48.8564422
				CNV_chr1.242000001.243000000	50.6611239	CNV_chr11.106000001.107000000	48.8528039

肝癌FSC的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue	Feature	Fvalue	Feature	Fvalue
								FSC_total342	1958.029	FSC_total468	993.4181	FSC_total449	741.3084	FSC_total136	585.6022
FSC_total448	1737.066	FSC_total54	967.7797	FSC_total336	739.8277	FSC_total306	578.9733
								FSC_total47	1728.198	FSC_total480	931.9892	FSC_total138	735.2527	FSC_total31	575.1425
FSC_total19	1650.805	FSC_short446	907.0614	FSC_short31	728.9618	FSC_short5	571.2054
								FSC_total445	1496.366	FSC_total502	888.475	FSC_total496	715.9461	FSC_total491	568.2544
FSC_total446	1495.932	FSC_total224	885.812	FSC_total343	711.9853	FSC_total404	557.465
								FSC_total184	1489.824	FSC_total94	883.7963	FSC_total171	700.6121	FSC_total536	556.9154
FSC_total314	1405.678	FSC_total339	880.3535	FSC_total109	695.9024	FSC_total315	548.2729
								FSC_total11	1373.502	FSC_total357	879.0083	FSC_total371	690.9119	FSC_total277	545.1852
FSC_total26	1335.301	FSC_total443	878.8112	FSC_total282	686.1532	FSC_total370	539.8904
								FSC_total429	1332.077	FSC_total13	870.0326	FSC_total25	674.606	FSC_total354	535.9954
FSC_total126	1323.887	FSC_total528	851.3381	FSC_total452	673.7713	FSC_total208	529.488
								FSC_total444	1271.019	FSC_total58	832.8891	FSC_total484	663.6099	FSC_total10	528.0007
FSC_total311	1252.345	FSC_total186	827.487	FSC_total172	661.9749	FSC_total360	524.4219
								FSC_total329	1239.754	FSC_total317	820.376	FSC_total71	649.7148	FSC_total79	522.8448
FSC_total338	1128.13	FSC_total350	820.0188	FSC_total174	645.6495	FSC_short58	513.0006
								FSC_total351	1125.17	FSC_total74	817.037	FSC_total183	640.5506	FSC_short194	511.0938
FSC_total447	1062.756	FSC_short537	816.1534	FSC_total253	623.4959	FSC_short99	503.3949
								FSC_total46	1056.971	FSC_total352	809.7391	FSC_total310	615.3269	FSC_total365	500.8565
FSC_total539	1050.796	FSC_total87	805.6005	FSC_total185	607.2533	FSC_total481	497.3079
								FSC_total383	1047.191	FSC_total5	798.7964	FSC_total214	607.154	FSC_total64	497.267
FSC_total61	1017.956	FSC_total65	792.9177	FSC_total135	597.8357	FSC_total475	493.6661
								FSC_total12	1012.374	FSC_total353	781.8164	FSC_total278	592.8503	FSC_total426	491.1711
FSC_total2	1009.529	FSC_total334	769.9661	FSC_total203	588.032	FSC_short342	488.3527
								FSC_total380	1001.355	FSC_total457	766.5186	FSC_total234	585.9124	FSC_short311	481.2467

肝癌FSD的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				FSD_chr1.1p.170.174	651.6424	FSD_chr20.20q.170.174	228.5047
FSD_chr15.15q.170.174	592.9465	FSD_chr16.16q.170.174	225.0086
				FSD_chr9.9q.170.174	563.7931	FSD_chr7.7p.170.174	212.0978
FSD_chr10.10q.170.174	541.7146	FSD_chr8.8p.170.174	179.351
				FSD_chr17.17q.170.174	529.8895	FSD_chr9.9p.170.174	177.631
FSD_chr22.22q.170.174	396.8675	FSD_chr8.8q.170.174	161.6957
				FSD_chr2.2q.170.174	382.7515	FSD_chr22.22q.175.179	161.3245
FSD_chr3.3q.170.174	373.2305	FSD_chr4.4p.170.174	157.9614
				FSD_chr14.14q.170.174	353.0167	FSD_chr9.9q.175.179	148.745
FSD_chr2.2p.170.174	341.6353	FSD_chr17.17q.175.179	145.6454
				FSD_chr4.4q.170.174	335.5371	FSD_chr1.1p.175.179	143.4413
FSD_chr12.12p.170.174	334.1828	FSD_chr15.15q.175.179	137.1265
				FSD_chr11.11q.170.174	329.9364	FSD_chr17.17p.170.174	134.3842
FSD_chr6.6p.170.174	325.8338	FSD_chr12.12p.175.179	129.2162
				FSD_chr12.12q.170.174	322.0938	FSD_chr20.20p.170.174	116.1746
FSD_chr6.6q.170.174	317.5682	FSD_chr10.10q.175.179	115.8119
				FSD_chr1.1q.170.174	306.4746	FSD_chr21.21q.175.179	112.4427
FSD_chr10.10p.170.174	284.0492	FSD_chr5.5p.160.164	107.5844
				FSD_chr18.18q.170.174	281.0233	FSD_chr20.20q.175.179	104.9931
FSD_chr5.5q.170.174	280.3617	FSD_chr8.8q.160.164	104.3855
				FSD_chr11.11p.170.174	268.3012	FSD_chr5.5p.150.154	102.7431
FSD_chr13.13q.170.174	266.5134	FSD_chr8.8q.150.154	100.1226
				FSD_chr21.21q.170.174	262.706	FSD_chr10.10p.175.179	99.35405
FSD_chr3.3p.170.174	256.5071	FSD_chr17.17p.175.179	97.42416
				FSD_chr7.7q.170.174	251.0922	FSD_chr4.4p.150.154	97.02158

肝癌EDM的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				EDM_CCCGCGCC	507.0186	EDM_CCTCGCGG	259.7716
EDM_CCTGCGCC	412.9355	EDM_AGTCCCCA	258.6786
				EDM_TATGCCAC	359.554	EDM_CAGGTCGC	256.9967
EDM_TCCGCACA	359.1244	EDM_CGTCCGCC	256.6916
				EDM_AAGCGAGG	353.3591	EDM_CCTCCCCG	254.5327
EDM_CAGAGCGT	345.6558	EDM_GACCCGCA	254.1595
				EDM_GGAAAAGA	342.5025	EDM_CGTGCCCA	251.7536
EDM_AGTTCGAA	334.4255	EDM_GGTACCCG	251.5993
				EDM_AGTGTCAC	316.4217	EDM_GGGAAACG	251.3249
EDM_TCGCGCCC	314.4177	EDM_AGTGTCCT	248.5778
				EDM_CGTGTCGA	314.0716	EDM_TATCGCTA	247.5544
EDM_CATCCGCA	308.1118	EDM_AGATCACA	247.5238
				EDM_TGAAAACT	301.4507	EDM_TATCGAGG	244.3871
EDM_GGCTAATT	299.4315	EDM_TAGTAGAC	241.9007
				EDM_TCTCCCGC	293.2168	EDM_GTTCTCGG	241.8694
EDM_TATCACGC	291.5595	EDM_CAGCCGAT	239.435
				EDM_TCTCGCCT	282.8159	EDM_GGTGCGAG	238.8838
EDM_GGAATGTT	281.1659	EDM_CTTCCCCA	238.8751
				EDM_TTTCTCCA	277.7611	EDM_CCTCCGCG	238.388
EDM_CATGCCGA	277.4883	EDM_CCTCGGCC	237.6367
				EDM_TGTGCTCT	274.1821	EDM_GGGCTATA	236.6261
EDM_TATGCGGA	272.7045	EDM_GATGCGCT	236.3939
				EDM_CCTGCACA	270.6942	EDM_AACGCCAT	235.6241
EDM_TAGGTCAG	267.2424	EDM_GGTCCCGG	234.7257
				EDM_CACTGGTG	263.5153	EDM_TGTGCCTC	234.0051

肝癌BPM的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				BPM_GGCTAAAA	446.9759	BPM_TCGGGTGT	285.8598
BPM_TGGGGTGT	426.4516	BPM_CGACGTGC	285.8157
				BPM_GTGGGTGC	403.4757	BPM_GCGGATCT	284.9311
BPM_GCACGTCC	387.1821	BPM_CAACCTCC	284.1891
				BPM_TCCTAAAC	378.4941	BPM_CGTGAGCT	283.7469
BPM_GAGGGTGG	372.909	BPM_CCCGAAAT	282.0334
				BPM_CCGATTCT	366.4208	BPM_ACTTCACG	281.4817
BPM_GCACGTGG	354.2835	BPM_GCAGGTCG	277.9029
				BPM_GATCGTGC	353.9695	BPM_TGGCCTCG	272.4844
BPM_TGTGGTGG	351.595	BPM_GCCTAACA	268.8348
				BPM_AGGCGTGT	348.6232	BPM_TCCAGTTT	268.8255
BPM_CGACCAGG	344.5716	BPM_CCCTACAC	268.5103
				BPM_AGAGGTGG	340.3368	BPM_GTCGAAAT	267.9706
BPM_TCGCTTCG	336.144	BPM_CTTTCCGG	267.9257
				BPM_TATTCCGA	333.7656	BPM_GCTAACTA	265.3604
BPM_ACTAAAAT	327.0214	BPM_GCCGAATT	265.0456
				BPM_AATGGTGA	326.8414	BPM_TAAGGTGC	263.056
BPM_ACACGCCG	320.0641	BPM_GGGGTTCA	260.5528
				BPM_CGACCTCG	315.8643	BPM_ACTGGTGT	259.6315
BPM_AGGCTTCC	307.2223	BPM_AAGCTTCA	258.8344
				BPM_GCAGGTGA	298.2757	BPM_TTATCCGA	255.7474
BPM_CTCCGTCG	289.8907	BPM_TGGCATGG	253.2666
				BPM_CCCACCGA	287.8417	BPM_TCCTAATC	252.5897
BPM_ACTTAAAA	287.0997	BPM_GTGCTTCG	250.3235
				BPM_GCCAAAAC	286.967	BPM_TGCAAAAG	249.3061

肝癌CNV的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				CNV_chr2.63000001.64000000	1603.97	CNV_chr9.104000001.105000000	915.3503
CNV_chr15.67000001.68000000	1602.688	CNV_chr5.152000001.153000000	914.3901
				CNV_chr15.71000001.72000000	1502.678	CNV_chr10.114000001.115000000	911.7461
CNV_chr1.94000001.95000000	1477.364	CNV_chr3.58000001.59000000	910.1798
				CNV_chr4.77000001.78000000	1429.136	CNV_chr1.70000001.71000000	890.4857
CNV_chr14.67000001.68000000	1284.314	CNV_chr1.61000001.62000000	887.902
				CNV_chr9.112000001.113000000	1281.299	CNV_chr22.46000001.47000000	866.4501
CNV_chr22.28000001.29000000	1159.767	CNV_chr9.97000001.98000000	863.9896
				CNV_chr11.16000001.17000000	1140.063	CNV_chr3.26000001.27000000	862.7027
CNV_chr22.36000001.37000000	1127.214	CNV_chr12.130000001.131000000	856.234
				CNV_chr1.242000001.243000000	1108.812	CNV_chr1.93000001.94000000	852.2735
CNV_chr11.12000001.13000000	1067.112	CNV_chr1.8000001.9000000	850.2513
				CNV_chr10.96000001.97000000	1053.56	CNV_chr17.53000001.54000000	838.4448
CNV_chr12.129000001.130000000	1038.886	CNV_chr7.67000001.68000000	836.1458
				CNV_chr3.114000001.115000000	1034.597	CNV_chr15.53000001.54000000	832.5921
CNV_chr12.21000001.22000000	1033.367	CNV_chr3.148000001.149000000	831.618
				CNV_chr4.74000001.75000000	1025.755	CNV_chr2.102000001.103000000	825.4904
CNV_chr1.181000001.182000000	1022.096	CNV_chr19.29000001.30000000	824.3668
				CNV_chr2.165000001.166000000	1014.034	CNV_chr10.90000001.91000000	823.7275
CNV_chr2.46000001.47000000	1013.779	CNV_chr1.240000001.241000000	817.8488
				CNV_chr10.52000001.53000000	1010.85	CNV_chr12.24000001.25000000	808.8073
CNV_chr21.17000001.18000000	993.4448	CNV_chr2.224000001.225000000	808.446
				CNV_chr6.140000001.141000000	975.6892	CNV_chr15.58000001.59000000	803.8329
CNV_chr10.77000001.78000000	970.0618	CNV_chr15.76000001.77000000	801.6939
				CNV_chr1.57000001.58000000	947.4578	CNV_chr4.151000001.152000000	801.497

肠癌FSC的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue	Feature	Fvalue	Feature	Fvalue
								FSC_total496	138.5343	FSC_total528	88.60479	FSC_total417	70.30197	FSC_total400	60.28559
FSC_total457	134.9777	FSC_total329	88.55033	FSC_total445	69.55729	FSC_total185	59.81065
								FSC_total58	123.655	FSC_total360	86.99602	FSC_total454	68.99554	FSC_total135	59.52346
FSC_total383	119.0881	FSC_total282	86.98864	FSC_total480	68.59151	FSC_total72	59.39061
								FSC_total270	114.7435	FSC_total278	86.4068	FSC_short417	68.44363	FSC_total315	59.26733
FSC_total172	112.9751	FSC_total481	85.87555	FSC_total444	68.3548	FSC_total226	58.45125
								FSC_total74	111.6887	FSC_total183	84.95802	FSC_total138	67.75737	FSC_total253	57.75223
FSC_total19	104.4497	FSC_total184	84.87907	FSC_total416	67.29718	FSC_total214	57.14836
								FSC_total224	104.0743	FSC_total350	83.66972	FSC_total338	67.09268	FSC_total225	56.66388
FSC_total61	103.7873	FSC_total351	81.64194	FSC_total426	66.87448	FSC_total227	55.91968
								FSC_total384	103.2437	FSC_total47	81.62457	FSC_short31	64.97628	FSC_total169	55.91875
FSC_total446	98.9689	FSC_total31	80.79974	FSC_total415	64.56384	FSC_short1	55.05982
								FSC_total80	98.7818	FSC_total468	80.4078	FSC_total498	64.14542	FSC_total136	54.98498
FSC_total311	98.51741	FSC_total513	77.65709	FSC_total343	64.09097	FSC_total449	54.75545
								FSC_total460	96.59712	FSC_total448	77.10919	FSC_total507	63.52258	FSC_total378	54.65803
FSC_total171	95.86679	FSC_total13	76.58969	FSC_total353	63.4985	FSC_total163	54.43059
								FSC_total26	95.85136	FSC_total336	76.20524	FSC_total487	62.92851	FSC_short537	54.40673
FSC_total54	95.792	FSC_total94	75.63488	FSC_total477	62.81264	FSC_total419	53.56684
								FSC_total429	95.53202	FSC_total79	74.78976	FSC_total174	62.60365	FSC_short270	52.12856
FSC_total342	95.12157	FSC_total46	74.6314	FSC_total537	62.37928	FSC_total427	52.03686
								FSC_total314	94.09647	FSC_total354	74.41704	FSC_total1	62.15657	FSC_total137	51.65196
FSC_total317	92.53888	FSC_total87	74.40339	FSC_total447	61.8094	FSC_short415	51.30264
								FSC_total186	92.07703	FSC_total380	73.67246	FSC_total330	61.73745	FSC_short496	51.18549
FSC_total357	91.35636	FSC_total109	73.65028	FSC_total222	61.32355	FSC_short383	51.03456
								FSC_total339	88.8738	FSC_short416	71.13763	FSC_short411	61.18611	FSC_short225	50.77148

肠癌FSD的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				FSD_chr3.3q.145.149	18.7876	FSD_chr6.6p.145.149	16.61293
FSD_chr13.13q.135.139	18.66425	FSD_chr8.8p.185.189	16.53298
				FSD_chr20.20p.190.194	18.56714	FSD_chr5.5q.155.159	16.50833
FSD_chr9.9q.150.154	18.56685	FSD_chr8.8p.145.149	16.45258
				FSD_chr17.17p.195.199	18.47431	FSD_chr10.10q.150.154	16.45164
FSD_chr17.17q.155.159	18.45312	FSD_chr3.3q.155.159	15.97597
				FSD_chr4.4q.135.139	18.40981	FSD_chr14.14q.150.154	15.97234
FSD_chr7.7q.145.149	18.07121	FSD_chr7.7p.175.179	15.96856
				FSD_chr4.4p.180.184	17.83495	FSD_chr20.20p.195.199	15.91606
FSD_chr6.6q.155.159	17.82853	FSD_chr12.12p.145.149	15.90553
				FSD_chr12.12q.145.149	17.81809	FSD_chr22.22q.145.149	15.87943
FSD_chr20.20q.185.189	17.75157	FSD_chr10.10p.185.189	15.87515
				FSD_chr5.5p.170.174	17.72761	FSD_chr8.8p.180.184	15.80244
FSD_chr19.19q.205.209	17.64134	FSD_chr4.4q.130.134	15.78704
				FSD_chr16.16q.145.149	17.37092	FSD_chr16.16q.185.189	15.77408
FSD_chr14.14q.155.159	17.35122	FSD_chr6.6q.150.154	15.77028
				FSD_chr4.4p.185.189	17.28463	FSD_chr5.5p.190.194	15.76444
FSD_chr2.2p.155.159	17.19052	FSD_chr19.19p.200.204	15.70571
				FSD_chr19.19q.200.204	17.03916	FSD_chr5.5p.215.219	15.66777
FSD_chr21.21q.185.189	17.02334	FSD_chr13.13q.130.134	15.65899
				FSD_chr11.11p.145.149	16.9825	FSD_chr13.13q.140.144	15.57815
FSD_chr19.19q.215.219	16.73683	FSD_chr9.9p.180.184	15.51131
				FSD_chr17.17p.175.179	16.72673	FSD_chr2.2p.150.154	15.50279
FSD_chr20.20q.180.184	16.70439	FSD_chr21.21q.180.184	15.48663
				FSD_chr2.2q.150.154	16.67886	FSD_chr9.9p.185.189	15.44299

肠癌EDM的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				EDM_CGAAAAGC	89.14905	EDM_TATCACAT	84.54037
EDM_CAGCCCGC	88.77748	EDM_CGTCGCGG	84.18776
				EDM_CAGGTTGC	88.76981	EDM_GACCGCGT	83.49459
EDM_TGTCGCTT	88.42687	EDM_TCTCCCCT	83.27432
				EDM_GATGTCGC	88.2005	EDM_GAGCTCCT	82.84254
EDM_TGTCGTCA	87.94542	EDM_AATGCCTT	82.83025
				EDM_AATCGTGC	87.79991	EDM_CAACCCGC	82.72267
EDM_GTTCCTCG	87.75322	EDM_GACGTTAA	82.48033
				EDM_TATGTTCA	86.93214	EDM_TACGTTCG	82.44166
EDM_AAGCACGG	86.56443	EDM_AAAATTCC	82.43573
				EDM_TATCTGCA	86.55412	EDM_TATCTGGA	82.11142
EDM_CAGAGCGG	86.18084	EDM_GTTCCCTT	81.98738
				EDM_GGTCTCCT	86.16157	EDM_TATGCGGG	81.82268
EDM_TTTCTTCG	86.14142	EDM_CGTCCACA	81.69958
				EDM_AATCTCCT	86.02978	EDM_AGTAACGA	81.66571
EDM_AACGCAAC	85.99139	EDM_AATCGGAG	81.65059
				EDM_CATCCCGG	85.82959	EDM_GTTCCCCG	81.39973
EDM_AGTCTGCC	85.74437	EDM_GAGCGTGG	80.94975
				EDM_AATATCCC	85.73038	EDM_TATCGGGC	80.83798
EDM_CCACGCGA	85.70024	EDM_ACTCCCAT	80.50758
				EDM_TGTCACCG	85.63544	EDM_CATCCTCC	80.41569
EDM_AAGCGCAA	84.99924	EDM_TAACGCCA	80.35345
				EDM_GGTTGCGT	84.8427	EDM_GGTAACCG	80.31635
EDM_GGTGCTCA	84.58682	EDM_TGTCGCAA	80.23356
				EDM_CGTTGTCA	84.56203	EDM_CAACGCGG	80.22601

肠癌BPM的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				BPM_GAATATTC	103.9303	BPM_GAAGAACG	97.68725
BPM_AGACTTCT	103.8447	BPM_CCACGTAG	97.65923
				BPM_GGAGATCA	103.0721	BPM_CACCGTGT	97.50731
BPM_GAAGGTCA	102.9746	BPM_CCACTTCA	97.46156
				BPM_GTGGTTCG	102.8628	BPM_ATACGTAA	97.21755
BPM_TTTGGTCA	102.7219	BPM_GGATAAGA	97.15476
				BPM_CAACGGAG	102.1167	BPM_CTACATCG	97.11012
BPM_CAAGAATA	101.899	BPM_CAGTTTCA	96.70648
				BPM_GCACACCG	101.7758	BPM_TGGCCTCT	96.52017
BPM_AGGGATAC	101.2588	BPM_TGTGACGG	96.44287
				BPM_CAGTAGGC	101.1933	BPM_AGACACGC	96.35069
BPM_CAATAGAT	101.0603	BPM_CAACGTCT	96.18812
				BPM_CGTGGTGG	100.9921	BPM_TGGGTTCT	95.85064
BPM_GAATGTCA	100.9133	BPM_GGATACGG	95.80242
				BPM_ATGGATCG	100.0101	BPM_CAATAGCG	95.64896
BPM_CGGCGTGG	99.95188	BPM_ACAGGTCG	95.58161
				BPM_GGACAGAC	99.5449	BPM_TAACAGAA	95.29093
BPM_TAAGAGCA	99.26556	BPM_TTAGGTTC	95.23174
				BPM_TTACTTCG	98.94704	BPM_GGACCACC	95.10943
BPM_TGGGACGC	98.87501	BPM_TGGCGTAC	95.09535
				BPM_CAAGATCG	98.68586	BPM_GAGCAAGT	94.73595
BPM_CAATATAT	98.67258	BPM_CGTGGTCT	94.59702
				BPM_TGAGAACC	98.435	BPM_AATGGTGA	94.52957
BPM_TAATAATA	97.98724	BPM_CTGGGTCT	94.31675
				BPM_TGGGATTG	97.79515	BPM_ACAGACTG	94.07035

肠癌CNV的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				CNV_chr21.41000001.42000000	80.45982	CNV_chr9.72000001.73000000	74.35208
CNV_chr1.177000001.178000000	80.03521	CNV_chr19.57000001.58000000	74.26447
				CNV_chr1.240000001.241000000	79.5749	CNV_chr18.76000001.77000000	74.2639
CNV_chr15.67000001.68000000	79.49521	CNV_chr1.241000001.242000000	73.49557
				CNV_chr7.70000001.71000000	79.36931	CNV_chr21.17000001.18000000	73.46428
CNV_chr6.165000001.166000000	79.09499	CNV_chr5.4000001.5000000	73.13683
				CNV_chr2.63000001.64000000	78.86963	CNV_chr8.136000001.137000000	72.94989
CNV_chr10.85000001.86000000	78.66376	CNV_chr5.166000001.167000000	72.65424
				CNV_chr14.67000001.68000000	78.59199	CNV_chr6.135000001.136000000	72.5488
CNV_chr5.15000001.16000000	78.27438	CNV_chr1.181000001.182000000	72.52764
				CNV_chr11.132000001.133000000	78.0492	CNV_chr18.5000001.6000000	72.33165
CNV_chr15.71000001.72000000	77.96649	CNV_chr9.80000001.81000000	72.27265
				CNV_chr1.70000001.71000000	77.66862	CNV_chr11.16000001.17000000	72.25346
CNV_chr9.97000001.98000000	77.48878	CNV_chr14.26000001.27000000	72.2316
				CNV_chr19.22000001.23000000	77.14572	CNV_chr22.34000001.35000000	71.95549
CNV_chr7.81000001.82000000	77.02357	CNV_chr3.58000001.59000000	71.36722
				CNV_chr1.80000001.81000000	76.82989	CNV_chr1.196000001.197000000	71.26741
CNV_chr2.229000001.230000000	76.7425	CNV_chr5.44000001.45000000	70.27166
				CNV_chr3.26000001.27000000	76.64087	CNV_chr12.21000001.22000000	70.2704
CNV_chr11.121000001.122000000	76.33553	CNV_chr5.9000001.10000000	69.78694
				CNV_chr4.58000001.59000000	76.19258	CNV_chr1.72000001.73000000	69.60144
CNV_chr9.113000001.114000000	75.75571	CNV_chr3.137000001.138000000	69.39308
				CNV_chr11.91000001.92000000	75.33783	CNV_chr2.120000001.121000000	69.29377
CNV_chr15.46000001.47000000	75.01465	CNV_chr3.114000001.115000000	69.28682
				CNV_chr12.24000001.25000000	74.9416	CNV_chr21.16000001.17000000	68.88139

肺癌FSC的前100个与其他癌种存在显著差异的特征值如下所示：

肺癌FSD的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				FSD_chr1.1p.170.174	232.6715	FSD_chr22.22q.175.179	98.75972
FSD_chr15.15q.170.174	201.9678	FSD_chr8.8p.170.174	97.68822
				FSD_chr10.10q.170.174	194.8766	FSD_chr20.20q.170.174	97.37439
FSD_chr9.9q.170.174	180.6592	FSD_chr7.7q.170.174	95.05887
				FSD_chr17.17q.170.174	167.1577	FSD_chr21.21q.170.174	94.6919
FSD_chr11.11q.170.174	165.9932	FSD_chr1.1p.175.179	89.31301
				FSD_chr14.14q.170.174	162.9866	FSD_chr9.9p.170.174	88.33316
FSD_chr2.2p.170.174	154.3941	FSD_chr9.9q.175.179	84.96155
				FSD_chr2.2q.170.174	154.2729	FSD_chr12.12p.175.179	84.68276
FSD_chr5.5q.170.174	143.2361	FSD_chr15.15q.175.179	84.58863
				FSD_chr18.18q.170.174	143.1794	FSD_chr5.5p.170.174	84.11787
FSD_chr3.3q.170.174	142.2039	FSD_chr17.17q.175.179	83.82406
				FSD_chr22.22q.170.174	140.2664	FSD_chr10.10q.175.179	79.53303
FSD_chr6.6p.170.174	140.2499	FSD_chr16.16q.175.179	78.48808
				FSD_chr4.4q.170.174	140.051	FSD_chr7.7p.170.174	77.28316
FSD_chr11.11p.170.174	140.0242	FSD_chr20.20q.175.179	76.6012
				FSD_chr6.6q.170.174	139.5741	FSD_chr11.11p.175.179	73.47995
FSD_chr12.12q.170.174	132.7733	FSD_chr11.11q.175.179	71.93778
				FSD_chr3.3p.170.174	132.0152	FSD_chr14.14q.175.179	71.39093
FSD_chr16.16q.170.174	129.0126	FSD_chr21.21q.175.179	71.26414
				FSD_chr1.1q.170.174	128.5696	FSD_chr18.18q.175.179	70.38705
FSD_chr12.12p.170.174	125.3286	FSD_chr10.10p.175.179	70.10232
				FSD_chr13.13q.170.174	110.062	FSD_chr8.8p.175.179	68.37477
FSD_chr10.10p.170.174	106.8334	FSD_chr6.6p.175.179	68.23977
				FSD_chr4.4p.170.174	103.8546	FSD_chr17.17p.175.179	67.48362

肺癌EDM的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				EDM_CGGATTTC	162.6994	EDM_CCGAGGCG	84.01107
EDM_CAAATTTC	151.0367	EDM_AAAACTTA	82.87072
				EDM_TTATTTCC	126.3219	EDM_CAAAATCC	79.96553
EDM_TCGAGACA	123.2216	EDM_CAAATATC	76.30621
				EDM_ACAATTTG	121.0831	EDM_CGACCCTG	76.15206
EDM_CTATTTTT	116.1564	EDM_GAACATTA	76.09892
				EDM_GCGAGGTA	111.6676	EDM_CCGAGCTA	75.83263
EDM_AACAATTA	108.7154	EDM_GGTAATTG	75.7341
				EDM_AGTTCGAC	107.727	EDM_GGGTCGAG	75.35926
EDM_TGGTCGTC	106.3542	EDM_AGATCGAT	75.22614
				EDM_CACAAATA	106.1273	EDM_TCAGGAGA	74.1821
EDM_CCGGCTCA	106.0005	EDM_AAATTATA	74.08922
				EDM_TAAAAATT	105.5304	EDM_TCGAGATG	71.80894
EDM_GAAAATAT	102.4886	EDM_TCGAGAGC	69.82134
				EDM_TGAATATC	100.9529	EDM_GCAAGCGG	69.7169
EDM_TTCTTTTC	93.77515	EDM_CCGAACTT	69.57405
				EDM_TAAATCTT	92.18208	EDM_GAAATTGG	69.09861
EDM_GAAAACTT	90.12961	EDM_CAAATTCA	68.85522
				EDM_TAGGCGGA	89.18633	EDM_CTGATTTG	68.80014
EDM_CCAGCACA	88.39956	EDM_CCGTGCCC	68.49044
				EDM_TCGGGAGT	88.09943	EDM_GAGGTGGA	67.86733
EDM_TGATCACA	87.86209	EDM_GAGCATTT	66.58806
				EDM_CACGAAAA	87.27786	EDM_ACGAGGAT	66.48141
EDM_TGAATTTG	85.48083	EDM_GCAGGTGG	66.02296
				EDM_CAAGCGAG	84.03121	EDM_TAATATTC	65.89972

肺癌BPM的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				BPM_GGTTCGAA	110.2884	BPM_TCTCCCGT	64.84041
BPM_TTCACGAT	102.0414	BPM_CAGCCGAC	64.82649
				BPM_GGGCCGAC	87.43244	BPM_GCTGAAAT	64.46257
BPM_GTAGCCGC	87.23313	BPM_CAGGCAGC	63.17406
				BPM_TCTGAATC	85.1604	BPM_CGTTAAAT	63.11873
BPM_GTCTCGGG	83.82155	BPM_CTTGAAAT	62.33678
				BPM_CTTGACAT	83.18107	BPM_AGGCCAGG	60.38521
BPM_GACTAAAG	82.60972	BPM_GCAGCAGG	59.62648
				BPM_GACCCGGC	79.35237	BPM_TGGCCTGG	59.32276
BPM_TCGGCAGG	78.79006	BPM_GGGCAGGA	59.05842
				BPM_ATCCCAGT	78.2154	BPM_TCCCCTGT	58.20697
BPM_CCACGCCG	77.92306	BPM_CATGAAAC	58.11845
				BPM_ATGGCGTG	76.31007	BPM_GTTGAATT	56.72788
BPM_TTGGTATG	73.99142	BPM_CGATCGAG	56.42841
				BPM_TGGTCGAA	73.45759	BPM_GGCCCAGA	56.39867
BPM_AAGGCGGT	72.44847	BPM_GCAGCCGT	56.38815
				BPM_ACGCCTGA	71.79144	BPM_TGAGCCGC	55.73464
BPM_ACTCCTGG	71.71051	BPM_GATTCCGA	55.71156
				BPM_CTCACGCG	71.23241	BPM_AGTGAAAT	55.6608
BPM_ACGCCAGC	69.77407	BPM_ACCGAGGA	55.62206
				BPM_GGCTAAAA	67.8724	BPM_TCCCCAGA	55.48295
BPM_CGGGCAGG	67.86326	BPM_TCTGACTG	55.09991
				BPM_CCACCTGA	67.45342	BPM_TCGGGGAC	54.80264
BPM_AGGTCAGA	65.66972	BPM_GAGCCAGG	54.74774
				BPM_GCGGCTGC	65.109	BPM_TGGTCGGG	54.4326

肺癌CNV的前100个与其他癌种存在显著差异的特征值如下所示：

Feature	Fvalue	Feature	Fvalue
				CNV_chr1.57000001.58000000	225.6192	CNV_chr10.78000001.79000000	124.7202
CNV_chr10.3000001.4000000	218.5865	CNV_chr22.33000001.34000000	124.6285
				CNV_chr15.61000001.62000000	194.4551	CNV_chr11.7000001.8000000	122.7107
CNV_chr15.71000001.72000000	191.9362	CNV_chr17.53000001.54000000	122.5421
				CNV_chr19.54000001.55000000	181.8472	CNV_chr22.46000001.47000000	121.3503
CNV_chr1.56000001.57000000	177.6451	CNV_chr10.77000001.78000000	119.4977
				CNV_chr4.77000001.78000000	175.7081	CNV_chr7.97000001.98000000	119.3826
CNV_chr1.19000001.20000000	173.856	CNV_chr10.114000001.115000000	119.0295
				CNV_chr2.63000001.64000000	173.2083	CNV_chr14.32000001.33000000	118.4204
CNV_chr10.96000001.97000000	169.1734	CNV_chr1.48000001.49000000	118.2863
				CNV_chr15.67000001.68000000	168.1591	CNV_chr3.114000001.115000000	117.8066
CNV_chr11.12000001.13000000	163.9404	CNV_chr15.37000001.38000000	116.8303
				CNV_chr9.112000001.113000000	159.2188	CNV_chr1.61000001.62000000	116.4514
CNV_chr15.53000001.54000000	155.3465	CNV_chr1.6000001.7000000	115.4291
				CNV_chr19.42000001.43000000	151.8652	CNV_chr1.42000001.43000000	114.7394
CNV_chr1.41000001.42000000	150.8113	CNV_chr5.163000001.164000000	113.7108
				CNV_chr9.136000001.137000000	148.7559	CNV_chr2.72000001.73000000	112.82
CNV_chr14.67000001.68000000	148.3175	CNV_chr1.242000001.243000000	112.3114
				CNV_chr1.94000001.95000000	142.8335	CNV_chr5.67000001.68000000	111.7953
CNV_chr1.20000001.21000000	139.3634	CNV_chr8.70000001.71000000	111.3386
				CNV_chr1.244000001.245000000	131.2422	CNV_chr11.86000001.87000000	109.7284
CNV_chr9.104000001.105000000	128.159	CNV_chr11.105000001.106000000	109.3234
				CNV_chr10.52000001.53000000	126.9496	CNV_chr11.111000001.112000000	108.4714
CNV_chr22.28000001.29000000	125.5865	CNV_chr5.156000001.157000000	106.2967
				CNV_chr12.21000001.22000000	124.9424	CNV_chr15.80000001.81000000	105.789

筛选异显著特征后，为多癌种早期检测模型获得五种特征各200个，将所有训练集合中的样本的每种特征作为输入值，以预测“癌症/健康”为反馈结果，分别使用广义线性模型、梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型进行训练建模，获得25种二分类基础模型；

为进一步提高分类器预测性能，对以上多种训练基础模型结果进行二次集合训练(stacking)。Stacking 是一种集成学习技术，通过对多个底层弱分类器(1^st-level basemodel)的再次进行元学习(2^nd-level meta-learning)，收集每个底层分类器的特点，找到最优整合方式，从而提高模型预测性能。本专利Stacking 使用的训练算法为广义线性模型(Generalized Linear Model，GLM)，通过联结函数建立响应变量的数学期望值与线性组合的预测变量之间的关系，将多种训练基础模型转化为最终线性方程：

ALLStacked＝Intercept+A1*FSC_GLM+A2*FSC_GBM+A3*FSC_RF+A4*FSC_DL+A5*FSC_XGBoost+B1*F SD_GLM+B2*FSD_GBM+B3*FSD_RF+B4*FSD_DL+B5*FSD_XGBoost+C1*EDM_GLM+C2*EDM_GBM+ C3*EDM_RF+C4*EDM_DL+C5*EDM_XGBoost+D1*BPM_GLM+D2*BPM_GBM+D3*BPM_RF+D4*BPM _DL+D5*BPM_XGBoost+E1*CNV_GLM+E2*CNV_GBM+E3*CNV_RF+E4*CNV_DL+E5*CNV_XGBoost

其中，Intercept、A1-E5都是线性方程参数。FSC_GLM等都是指模型在获得输入数据后得到的输出值，符号“_”前的字符代表特征集合的类型，符号“_”后的字符代表算法类型，多癌种早筛模型的输出值为癌症概率。

多癌种组织起源的模型，主要是针对已经确认患有上述三种癌症之一的样本进一步地确认具体的癌症种类。因此，在进行样本分类时，分别建立起三组训练样本：

第一组训练样本：阳性为肠癌，对照为肺癌和肝癌；判断分为两类：肠癌、其他两种癌症。

第二组训练样本：阳性为肺癌，对照为肠癌和肝癌；判断分为两类：肺癌、其他两种癌症。

第三组训练样本：阳性为肝癌，对照为肝癌和肠癌；判断分为两类：肝癌、其他两种癌症。

在每一组的样本中，分别进行方差分析，可以在每一组当中找到各个特征集合当中具有显著性差异的特征值；而将三组都分析完成后，每一组之间都可以获得相应的显著性差异的特征值，这些之间会存在着重叠，因此，再将每一组筛选出的特征值进行合并后去重复，得到最终模型中所需要的特征值。

最终，为多癌种组织起源模型获得FSC特征180个，FSD特征205个，EDM特征295个，BKM特征 297个，CNV特征204个。将训练连集合中的癌症样本的每组特征作为输入值，以预测“肠癌/肝癌/肺癌” 为反馈结果，分别使用适合多分类算法的梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型进行训练建模，获得20种多分类基础模型。

为了提高预测性能，也采用了二次集合训练，方法基本同上述过程，区别是采用的线性方程式为：

ALLStacked＝Intercept+A2*FSC_GBM+A3*FSC_RF+A4*FSC_DL+A5*FSC_XGBoost++B2*FSD_GBM+B3* FSD_RF+B4*FSD_DL+B5*FSD_XGBoost+C2*EDM_GBM+C3*EDM_RF+C4*EDM_DL+C5*EDM_XGBoo st++D2*BPM_GBM+D3*BPM_RF+D4*BPM_DL+D5*BPM_XGBoost++E2*CNV_GBM+E3*CNV_RF+E4* CNV_DL+E5*CNV_XGBoost

其中，Intercept、A2-E5都是线性方程参数。FSC_GBM等都是指模型在获得输入数据后得到的输出值，符号“_”前的字符代表特征集合的类型，符号“_”后的字符代表算法类型，多癌种早筛模型的输出值为癌症概率，多癌种组织起源模型为癌种概率(多癌种组织起源整合模型会对待预测样本分别进行肝癌可能性预测，肠癌可能性预测和肺癌可能性预测，并以三种预测结果中的最大值作为最终判定结果)。

多癌种早期检测整合模型可有效区分癌症与健康人，训练集合中敏感性与特意性均达到94％，同时测试集验证整合模型，灵敏性与特异性可达到95％，未出现集合间结果差异，具体结果如下表所示：

多癌种组织起源集合模型可有效区分肺癌、肝癌与肠癌组织起源，在训练集合中整体准确率达分别 95.1％，对测试集中成功预测成癌的样本的整体准去了大道93.1％，具体结果如下表所示：

对照实验1：

模型所采用的特征值中，不纳入片段5’端末端序列占比(EDM)，只采用其它四种，模型建立过程同上，进行癌种起源模型的建立，最终得到的测试集样本的计算结果如下：

GLM是一个二分类算法，在多分类的时候优势不够明显，在癌种分类的过程中不能表现出较好的分类性能，因此在本部分的分类模型中没有用glm的基础模型，仅在癌症/健康样本分类的过程中使用。

通过以上实施例对本专利的技术方案进行解释和说明，但是并不构成对本专利的保护范围的限制。

Claims

1.多癌种早筛模型的构建方法，所述的模型用于对样本是否患有肠癌、肺癌或者肝癌进行分类，其特征在于，包括如下步骤：

2.根据权利要求1所述的多癌种早筛模型的构建方法，其特征在于，所述的步骤6中，患癌是指患有肠癌、肺癌或者肝癌中的任意一种；所述的步骤6中，还需要对初始特征值进行简化后再作为模型特征向量，所述的简化是指分别筛选出第一、第二、第三、第四和第五特征集合在阳性组和对照组的样本之间存在显著性差异的特征值；所述的筛选过程是通过方差分析方法

3.根据权利要求1所述的多癌种早筛模型的构建方法，其特征在于，所述的短读段是指长度40-80bp，所述的超长读段数量是200-300bp；全部读段是指长度在40-300bp范围；所述的步骤2中窗口的大小范围是2-7Mb。

4.根据权利要求1所述的多癌种早筛模型的构建方法，其特征在于，所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围；所述的读段数量经过了标准化处理。

5.根据权利要求1所述的多癌种早筛模型的构建方法，其特征在于，所述的步骤4中，m是6-10之间的任意整数；所述的步骤5中，n是2-5之间的任意整数；

6.根据权利要求1所述的多癌种早筛模型的构建方法，其特征在于，所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的；所述的步骤7中输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性模型、梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中，获得多个子模型，并将子模型联立为线性关系模型。

7.多癌种检测装置，其特征在于，所述的装置用于样本是否患有肠癌、肺癌或者肝癌进行分类，包括：

8.一种多癌种早筛模型的构建方法，其特征在于，所述的模型用于对癌症样本进行肠癌、肺癌或者肝癌的区分；

步骤4，将读段数据中的5'端的m个碱基数据作为碱基片段集合，并得到各种碱基片段在全部片段中所占比例作为第三特征集合；

步骤5，将读段数据结果比对至参考基因组，得到读段的5'端在参考基因组上的位置；获得所述的位置处的上下游各n个bp碱基的序列数据，作为碱基片段集合；以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合；

9.根据权利要求8所述的多癌种早筛模型的构建方法，其特征在于，所述的步骤7中，输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中，获得多个子模型，并将子模型联立为线性关系模型。

10.多癌种检测装置，其特征在于，所述的装置用于对癌症样本进行肠癌、肺癌或者肝癌的区分，包括：