CN114927213A - 多癌种早筛模型构建方法以及检测装置 - Google Patents

多癌种早筛模型构建方法以及检测装置 Download PDF

Info

Publication number
CN114927213A
CN114927213A CN202210392412.9A CN202210392412A CN114927213A CN 114927213 A CN114927213 A CN 114927213A CN 202210392412 A CN202210392412 A CN 202210392412A CN 114927213 A CN114927213 A CN 114927213A
Authority
CN
China
Prior art keywords
cancer
model
fsc
edm
fsd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210392412.9A
Other languages
English (en)
Inventor
邵阳
吴雪
包华
刘睿
吴舒雨
唐皖湘夫
杨珊珊
刘思思
孟齐
王婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co ltd
Original Assignee
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shihe Medical Devices Co ltd, Nanjing Shihe Gene Biotechnology Co ltd filed Critical Nanjing Shihe Medical Devices Co ltd
Priority to CN202210392412.9A priority Critical patent/CN114927213A/zh
Publication of CN114927213A publication Critical patent/CN114927213A/zh
Priority to PCT/CN2023/082118 priority patent/WO2023197825A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Public Health (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hospice & Palliative Care (AREA)

Abstract

本发明涉及多癌种(肺癌、肠癌和肝癌)早期检测和癌种预测方法、检测装置以及计算机可读取介质。本发明提供了一种对血浆样本cfDNA进行WGS低深度测序,使用高通量测序结果分析各癌种cfDNA片段五种差异特征,包括基因组范围片段长度覆盖分布,染色体各长短臂上片段长度分布,片段断点处序列,片段5’端序列和1MB窗口片段拷贝数变化,利用再用广义线性模型,梯度提升机,随机森林,深度学习和极端梯度提升五种算法分别进行训练建模,再用广义线性模型进行二次集合训练构建多特征多算法整合模型,实现了对多癌种低深度高特异性高敏感性的无创精准早期检测和组织起源检测的目的。

Description

多癌种早筛模型构建方法以及检测装置
技术领域
本发明涉及一种包括肺癌(Lung Adenocarcinoma,LUAD)、结直肠癌(ColorectalCarcinoma,CRC) 和肝癌(Primary Liver Cancer,PLC)的多癌种组织起源检测,属于分子生物医学技术领域。
背景技术
肺癌、结直肠癌和肝癌是三种全球死亡率最高的恶性肿瘤。
肺癌、肝癌和结直肠癌由于早期无明显症状或检测困难导致早期诊断率低。然而,目前市场上的癌症 早筛产品多是针对单癌种预测,若患者需接受多次不同单癌种早筛项目,由于耗时费力且费用高,可能降 低各癌种早筛在广泛人群中的贯彻推广。多癌种的早期筛查不仅覆盖各癌种的早起筛查,且精确检测其组 织起源,预防癌症发展过程中可能出现的未知原发癌而使病情复杂,耽误诊断治疗的情况发生。因此,我 国迫切需要一种同时覆盖以上三种死亡率最高的恶性肿瘤的早筛产品,以更高效、经济、实用地适用于更 广泛人群。
发明内容
本发明提供了一种对血浆样本cfDNA进行WGS低深度测序,使用高通量测序结果分析各癌种cfDNA 片段五种差异特征,包括基因组范围片段长度覆分布,染色体各长短臂上片段长度分布,片段断点处序列 (8-mer Breakpoint Motif),片段5’端序列(8-mer EndMotif)和1MB窗口片段拷贝数变化,利广义线性 模型(GLM),用梯度提升机(GBM),随机森林(Random Forest),深度学习(Deep Learning)和极端梯 度提升(XGBoost)四种算法分别进行训练建模,最后再通过广义线性模型(GLM)构建多特征多算法整 合模型,实现了对多癌种低深度高特异性高敏感性的无创精准组织起源(Tissue of Origin,TOO)检测的 目的。
本发明的第一个目的:
多癌种早筛模型的构建方法,所述的模型用于对样本是否患有肠癌、肺癌或者肝癌进行分类,包括如 下步骤:
步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口 范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获 得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段 中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的 位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的 所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征 集合;
步骤7,以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征向量输入至 分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
所述的步骤6中,患癌是指患有肠癌、肺癌或者肝癌中的任意一种。
所述的步骤6中,还需要对初始特征值进行简化后再作为模型特征向量,所述的简化是指分别筛选出 第一、第二、第三、第四和第五特征集合在阳性组和对照组的样本之间存在显著性差异的特征值。
所述的筛选过程是通过方差分析方法。
所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp 范围。
所述的步骤2中窗口的大小范围是2-7Mb。
所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度 范围。
所述的读段数量经过了标准化处理。
所述的步骤4中,m是6-10之间的任意整数。
所述的步骤5中,n是2-5之间的任意整数。
所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的。
所述的步骤7中输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性 模型、梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将 子模型联立为线性关系模型。
本发明的第二个目的:
多癌种检测装置,所述的装置用于样本是否患有肠癌、肺癌或者肝癌进行分类,包括:
测序模块,用于对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并 分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂 作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种 碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上 的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基 片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数 数据,作为第五特征集合;
模型构建模块,用于以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征 向量输入至分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
本发明的第三个目的:
一种计算机可读取介质,其记载有可以运行多癌种早筛模型的构建方法的计算机程序。
本发明的第四个目的:
一种多癌种早筛模型的构建方法,所述的模型用于对癌症样本进行肠癌、肺癌或者肝癌的区分;
包括如下步骤:
步骤1,对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口 范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获 得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段 中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的 位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的 所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征 集合;
步骤7,分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本,每一组 中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、第二、第三、 第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异的特征值,再 将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型中,并以是否 患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
所述的步骤7中,输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至梯度提 升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将子模型联立为 线性关系模型。
所述的筛选过程是通过方差分析方法。
所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp 范围。
所述的步骤2中窗口的大小范围是2-7Mb。
所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度 范围。
所述的读段数量经过了标准化处理。
所述的步骤4中,m是6-10之间的任意整数。
所述的步骤5中,n是2-5之间的任意整数。
所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的。
本发明的第五个目的:
多癌种检测装置,所述的装置用于对癌症样本进行肠癌、肺癌或者肝癌的区分,包括:
测序模块,用于对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并 分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂 作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种 碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上 的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基 片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数 数据,作为第五特征集合;
模型构建模块,用于分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样 本,每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、 第二、第三、第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异 的特征值,再将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型 中,并以是否患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
本发明的第六个目的:
一种计算机可读取介质,其记载有可以运行多癌种早筛模型的构建方法的计算机程序。
有益效果
对191例肝癌患者、149例结直肠癌患者和146例肺癌患者的低深度WGS(~5X)cfDNA读段基因组 范围内长度分布、染色体各长短臂范围内长度分布、片段末端序列占比、断点处序列占比和区域拷贝数变 化进行统计,分别利用五种不同的训练学习算法构建模型,并对所有模型进行二次集合训练,提高模型对 癌症早期检测和癌种预测的预测性能。本发明首次基于血浆cfDNA高通量低深度测序提供了多分子特征 多训练算法二次整合诊断模型,该模型不仅能够诊断早期多种癌症及其组织起源,且具有无创检测,通量 低,检测特异性和敏感性高的特点。
附图说明
图1是模型构建过程示意图;
图2是多癌种早期检测模型构建过程示意图;
图3是多癌种组织起源模型构建过程示意图;
图4是5中特征中最大差异特征列在癌症组和非癌症组之间的分布;
图5是多癌种早期检测模型在训练集合中的AUC表现;
图6是多癌种早期检测模型在测试集合中的AUC表现;
图7是肝癌5种特征中独有的最大差异特征列在肝癌和其他癌种之间的分布;
图8是肠癌5种特征中独有的最大差异特征列在肠癌和其他癌种之间的分布;
图9是肺癌5种特征中独有的最大差异特征列在肺癌和其他癌种之间的分布;
具体实施方式
本发明涉及多癌种(肺癌、肠癌和肝癌)早期检测和癌种预测标志物、检测方法、检测装置以及计算 机可读取介质。本发明提供了一种对血浆样本cfDNA进行WGS低深度测序,使用高通量测序结果分析各 癌种cfDNA片段五种差异特征,包括基因组范围片段长度覆盖分布,染色体各长短臂上片段长度分布, 片段断点处序列(8-mer Breakpoint Motif),片段5’端序列(8-mer End Motifs)和1MB窗口片段拷贝数 变化,利用再用广义线性模型(Generalized Linear Mode,GLM),梯度提升机(Gradient Boosting Machine, GBM),随机森林(Random Forest,RF),深度学习(Deep Learning,DL)和极端梯度提升(XGBoost)五 种算法分别进行训练建模,再用广义线性模型(GLM)进行二次集合训练构建多特征多算法整合模型,实 现了对多癌种低深度高特异性高敏感性的无创精准早期检测和组织起源检测的目的。
本发明中的计算方法详述如下:
本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没 有特别的限定,可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序 技术获得cfDNA的碱基信息。
本发明中的模型构建过程采用的数据集情况如下:
Figure BDA0003597451170000041
血浆cfDNA样本的提取和测序方法:
采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本,及时离心分离血浆(2小时内),转运 至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行cfDNA提取。对采集到的cfDNA 样本建库后,进行WGS~5乘测序。在获得了下机数据之后,将数据比对至人类参考基因组上,获得相应 的读段的碱基数据信息。
数据处理
本发明中的标志数据,主要是利用五种分子特征:
1.DNA片段大小占比(Fragmentation Size Coverage,FSC)
对于DNA片段大小占比,其反映的是cfDNA读段的长度大小的占比特征。利用DNA片段大小覆盖 深度(fragmentation size ratio)进行机器学习建立预测模型,从而区分肺癌、肠癌和肝癌患者。通过比较 486例肺癌、肠癌或肝癌患者的cfDNA读段的长度,发现40-80bp,81-300bp和40-300bp间的片段数量在 染色体上的分布存在差异,可以作为区分特征。
cfDNA读段长度数据是通过如下方法获取得到的:在比对好的BAM当中,记录了每一条读段的质量, 长度和比对位置信息,人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California,Santa Cruz,UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度,切割成572个窗口,分别统计每一个 窗口中的全部读段数量(40-300bp),短读段数量(40-80bp)和长读段数量(81-300bp)。根据所有窗口中 各种读段数量统计结果,分别对每种读段数量进行标准化换算,即标准化值=(原始值–平均值)/标准差。 由此得到了572组不同长度的读段数量的数集。
2.DNA片段大小分布(Fragmentation Size Distribution,FSD)
在获取了DNA片段大小占比的基础上,为获得高分辨率读段结果,以人类参考基因组各染色体长短 臂41个区域作为窗口,如下所示:
chr1_p chr4_q chr8_p chr11_q chr16_q chr20_p
chr1_q chr5_p chr8_q chr12_p chr17_p chr20_q
chr2_p chr5_q chr9_p chr12_q chr17_q chr21_q
chr2_q chr6_p chr9_q chr13_q chr18_p chr22_q
chr3_p chr6_q chr10_p chr14_q chr18_q chrX_p
chr3_q chr7_p chr10_q chr15_q chr19_p chrX_q
chr4_p chr7_q chr11_p chr16_p chr19_q
将40-300bp的片段,以10bp递增,划分27个长度梯度(例,chr1的1q臂上40-49bp,50-59bp……), 对每个长度梯度在各长短臂窗口内片段数量进行统计,并进行标准化换算,从而获得高分辨率DNA片段 大小分布结果共计1107个特征结果(2823=41*27个长度梯度标准化结果)。
3.片段5’端末端序列占比(8-mer End Motif,EDM)
人类参考基因组是DNA双螺旋结构,依靠碱基互补配对氢离键链接;在正常衰老和癌症进展过程中, 细胞周围环境的酸碱度发生变化,从而破坏了碱基互补氢键,发生断裂;由于断裂后的DNA片段末端碱 基序列不同,包含不同末端序列的占比也会不同。收集方法:比对后获取每一条读段内5’端8bp序列,统 计每种末端序列(共计4**8=65536种)的读段数量,从而计算出65536种末端序列读段占比,例 AAAAAAAA序列占比=AAAAAAAA读段数量/所有末端序列读段总数。
4.片段5’端断点序列读段数量占比(8-mer Breakpoint Motif,BKM)
类似于末端序列占比,由于断裂处的碱基序列不同,包含不同断点序列的序列占比也会不同。收集方 法:比对后的BAM中,记录了每一条读段的基本信息和比对到的位置,确认每一条读段的5’端所在人类 参考基因组序列坐标的左右各4bp序列,统计每种断点处序列(共计4**8=65536种)的读段数量,从而 计算出65536种断点处序列读段占比,例AAAAAAAA序列占比=AAAAAAAA读段数量/所有断点序 列读段总数。
5.1 Mb窗口拷贝数变化(1Mb-Bin Copy Number Variation,CNV)
拷贝数变化与个体癌症有显高度相关性,尽管已经可以通过检测部分癌症相关基因或特定基因组区间 的拷贝数数变化从而进行区分,但仍有其他稀有或未知基因或区间可以提供潜在拷贝数变化信息。收集方 法:对每个待测样本WGS数据,将参考基因1-22号染色体以1Mb的长度无重叠划分窗口,利用bedtools coverage对每个样本计算各个窗口内的读段深度,并根据各自窗口的GC含量和平均比对能力记录(UCSC BigWig文件)进行矫正,获得2475个窗口个体读段深度信息,利用隐马尔可夫模型(Hidden Markov Model, HMM)和每个窗口群体对照基线深度,构建每个窗口的拷贝数变化对数,即log2(待测样本矫正均一化后深度/群体基线矫正均一化后深度),从而获得每个待测样本的拷贝数变化信息。
通过上述的数据获取,分别能够获得这五类数据的初始数据向量。接下来,再设计相应的计算方法: 本发明中的标志数据,主要利用五种单特征机器学习算法:
1.广义线性模型算法(Generalize Linear Model,GLM)
广义线性模型是线性模型的扩展,通过连接函数建立响应变量的数学期望值与线性组合的预测变量之 间的关系。主要特点是不强行改变数据的自然度量,是常用的二分类分类策略。
2.梯度提升算法(Gradient Boosting Machine,GBM)
梯度提升算法是机器学习中常见的一类算法,其基本原理是根据当前模型损失函数的负梯度信息来训 练新加入的弱分类器,然后将训练好的若分类起以累加的形式结合到现有的模型中从而获得最优模型,该 模型具有训练效果好,不易过拟合等优点。为防止GBM在学习过程中过度或欠拟合,设定GBM参数如 下:ntrees=300,max_depth=9,learning_rate=0.01,subample=0.8,cross_validation=10。
3.随机森林(Random Forest,RF)
随机森林是一个强大的分类和回归工具。当提供一组数据集合,随机森林可以随机抽取部分信息产生 一组帮助分类或回归的决策树林,做节点***属性,不断重复随机抽取,直至不能再***;最后结合所有 ***属性结果,获得最终预测结果。为防止RF在学习过程中过度或欠拟合,设定RF参数如下:ntrees=300, max_depth=9,cross_validation=10。
4.深度学习算法(Deep Learning,DL)
深度学***均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型,也称为深层 神经网络(DNN)或多层感知器(MLP),是深层神经网络的最常见类型。主要原理是将多输入和多输出 的多个感知机通过设计建立适量的神经元计算节点和多层运算层次结构,选择合适的输人层和输出层,通 过网络的学习和调优,建立起从输入到输出的函数关系,可以尽可能的逼近现实的关联关系。为防止DL 学习过程中过度或欠拟合,设定DL参数如下:epoch是=300,hidden={100,100,100},input_dropout_ratios =0.05,rho=0.95,mini_batch_size=10,cross_validation=10。
5.极端梯度提升算法(Extreme Gradient Boosting,XGBoost)
极端梯度提升是梯度提升算法的高效开源实现。相比传统GMB,XGBoost引入了并行化,所以其速 度更快;XGBoost对目标函数引入了二阶近似,求得解析解,用解析解来建立决策树,使得目标函数最优; XGBoost引入了正则项部分,可以控制模型的复杂度,防止过拟合;Xgboost引入了特征子采样,类似于 随机森林,既可以降低过拟合,也可以减少计算。为防止XGBoost在学习过程中过度或欠拟合,设定 XGBoost参数如下:ntrees=300,max_depth=9,cross_validation=10。
为提高机器学习效率和降低无用特征干扰,通过对不同组间的特征值进行方差分析(Analysisofvariance, ANOVA),将组间差异大的特征值筛选出来,该步骤通过R包stats的aov()功能的F值(Fvalue)结果 和p.adjust()功能矫正后的pvalue实现。
多癌种早期检测模型的建立过程
为建立多癌种早期检测模型,将训练集合分成癌症组和非癌组,分别对五种特征进行方差分析,并根 据Fvalue结果进行降序排列,保留前200的特征作为预测输入值。
癌种组织起源模型的建立过程
为建立多癌种组织起源模型,对训练集合中的191例肝癌、149例肠癌和146例肺癌患者分为三组,以“单 癌种vs.其他癌种”模式对每个癌种组的5种特征分别进行特征方差分析,并对单癌种每个特征根据Fvalue 结果进行降序排列,保留前100的特征作为预测输入值。
特征值筛选过程的数据结果
癌症组与非癌症组FSC的前200个差异显著的特征值如下所示:其中的long/short/total分别代表长读段、 短读段和全部读段,数字部分代表窗口位置编号;
Feature Fvalue Feature Fvalue Feature Fvalue Feature Fvalue
FSC_long396 81.701 FSC_long263 52.6787 FSC_long347 46.5958 FSC_long179 40.5184
FSC_long540 75.4718 FSC_total383 52.2025 FSC_total539 46.5743 FSC_long224 40.43
FSC_long391 72.9756 FSC_long82 51.0191 FSC_long349 46.3592 FSC_long566 40.4084
FSC_total253 70.415 FSC_long489 50.8073 FSC_long72 46.3575 FSC_long389 40.238
FSC_long57 65.0874 FSC_total491 50.7231 FSC_total429 45.6451 FSC_total87 40.1647
FSC_total444 64.683 FSC_total357 50.3417 FSC_long502 45.5662 FSC_long388 40.1022
FSC_long157 64.0348 FSC_total448 49.965 FSC_long517 45.3359 FSC_long134 40.0138
FSC_long90 64.0015 FSC_long113 49.6011 FSC_long188 45.2453 FSC_total47 39.9453
FSC_total172 61.622 FSC_total31 49.0058 FSC_total314 45.2022 FSC_long74 39.8747
FSC_long405 60.4978 FSC_long194 48.9941 FSC_long130 45.0391 FSC_long254 39.6966
FSC_long66 60.4351 FSC_long499 48.7882 FSC_total4 44.8316 FSC_long301 39.4437
FSC_long400 59.9275 FSC_total171 48.7311 FSC_long123 44.5548 FSC_long89 39.2945
FSC_total46 59.6363 FSC_long227 48.4569 FSC_long531 44.3869 FSC_long140 39.2536
FSC_total446 57.4202 FSC_long459 48.1535 FSC_total234 43.5862 FSC_short444 39.2209
FSC_long4 56.6373 FSC_long512 47.9473 FSC_total342 43.5405 FSC_total94 39.1298
FSC_long152 56.524 FSC_total513 47.713 FSC_total376 42.9968 FSC_total219 39.1004
FSC_long553 55.4318 FSC_long56 47.7048 FSC_long393 42.7845 FSC_total468 38.9743
FSC_total12 55.0499 FSC_total13 47.5346 FSC_total173 42.7742 FSC_total3 38.8111
FSC_long377 54.58 FSC_long475 47.4325 FSC_total184 42.3602 FSC_long394 38.803
FSC_long125 54.3197 FSC_total5 47.0377 FSC_long50 42.1805 FSC_total449 38.6676
FSC_long3 54.192 FSC_long444 47.0082 FSC_total10 41.9203 FSC_long463 38.487
FSC_total174 53.5348 FSC_long467 46.7466 FSC_long390 41.3479 FSC_long269 38.1169
FSC_long262 53.3568 FSC_total126 46.6959 FSC_long190 41.3405 FSC_long178 37.7909
FSC_long229 53.3224 FSC_long526 46.6444 FSC_long260 40.9844 FSC_total2 37.6067
FSC_long396 81.701 FSC_total109 46.6086 FSC_total454 40.6857 FSC_total11 37.387
Figure BDA0003597451170000071
Figure BDA0003597451170000081
癌症组与非癌症组FSD的前200个差异显著的特征值如下所示:其中的chrx,xp/q代表x号染色体上的长 臂或短臂,数字部分是指梯度位置的编号;
Feature Fvalue Feature Fvalue
FSD_chr5.5p.230.234 54.8092854 FSD_chr4.4p.235.239 46.4221384
FSD_chr4.4p.230.234 51.9645174 FSD_chr20.20q.290.294 46.4201924
FSD_chr11.11p.230.234 51.5186474 FSD_chr19.19q.275.279 46.283729
FSD_chr5.5p.225.229 50.8401068 FSD_chr12.12p.230.234 46.2242476
FSD_chr7.7p.230.234 50.2519893 FSD_chr9.9p.240.244 46.2196927
FSD_chr10.10p.230.234 48.4822926 FSD_chr12.12p.260.264 46.1646039
FSD_chr5.5p.235.239 47.5247215 FSD_chr19.19q.280.284 46.1265988
FSD_chr20.20q.270.274 47.3902919 FSD_chr9.9p.280.284 46.1158508
FSD_chr20.20q.280.284 47.3678492 FSD_chr12.12p.265.269 46.0895064
FSD_chr10.10p.225.229 47.1690378 FSD_chr20.20q.285.289 46.0108982
FSD_chr4.4p.225.229 47.1414866 FSD_chr21.21q.275.279 45.9727712
FSD_chr19.19q.285.289 47.0605845 FSD_chr20.20p.280.284 45.9303935
FSD_chr12.12p.240.244 46.9006364 FSD_chr20.20q.245.249 45.9105264
FSD_chr20.20q.265.269 46.8555706 FSD_chr12.12p.250.254 45.875542
FSD_chr20.20q.260.264 46.8400839 FSD_chr17.17q.230.234 45.8489966
FSD_chr5.5p.240.244 46.8303311 FSD_chr20.20q.250.254 45.816055
FSD_chr9.9p.265.269 46.8185691 FSD_chr12.12p.270.274 45.5709483
FSD_chr19.19q.265.269 46.8026732 FSD_chr19.19q.230.234 45.5488692
FSD_chr20.20q.275.279 46.7419692 FSD_chr12.12p.255.259 45.5170554
FSD_chr20.20q.230.234 46.64789 FSD_chr9.9p.285.289 45.4580678
FSD_chr10.10p.240.244 46.6417362 FSD_chr7.7p.235.239 45.4516827
FSD_chr11.11p.240.244 46.5794021 FSD_chr16.16q.240.244 45.4129474
FSD_chr20.20q.240.244 46.5064897 FSD_chr19.19q.260.264 45.3741767
FSD_chr19.19q.270.274 46.4862245 FSD_chr8.8p.240.244 45.3389915
FSD_chr5.5p.165.169 46.4674378 FSD_chr12.12p.245.249 45.3279377
Figure BDA0003597451170000082
Figure BDA0003597451170000091
Feature Fvalue Feature Fvalue
FSD_chr8.8p.265.269 44.031405 FSD_chr22.22q.270.274 43.2411911
FSD_chr20.20p.250.254 43.9666741 FSD_chr21.21q.290.294 43.2278246
FSD_chr8.8p.270.274 43.8818837 FSD_chr22.22q.260.264 43.2262642
FSD_chr12.12p.285.289 43.8489858 FSD_chr16.16q.245.249 43.1792503
FSD_chr21.21q.285.289 43.8382823 FSD_chr20.20q.235.239 43.1283769
FSD_chr20.20p.260.264 43.8108758 FSD_chr9.9p.245.249 43.127892
FSD_chr8.8p.275.279 43.808056 FSD_chr8.8p.280.284 43.0742397
FSD_chr19.19p.265.269 43.7224674 FSD_chr20.20q.225.229 43.0671324
FSD_chr20.20p.255.259 43.7223783 FSD_chr20.20p.230.234 43.0504681
FSD_chr19.19q.225.229 43.705319 FSD_chr19.19p.250.254 43.0229557
FSD_chr22.22q.265.269 43.6151308 FSD_chr16.16q.255.259 43.0014434
FSD_chr20.20p.290.294 43.6055968 FSD_chr8.8p.245.249 42.9739528
FSD_chr19.19q.295.299 43.6039302 FSD_chr5.5p.250.254 42.9520915
FSD_chr4.4p.245.249 43.5852556 FSD_chr16.16q.280.284 42.9266045
FSD_chr4.4p.240.244 43.558149 FSD_chr19.19p.275.279 42.8884374
FSD_chr19.19q.235.239 43.5359024 FSD_chr11.11p.260.264 42.8444442
FSD_chr22.22q.240.244 43.4979393 FSD_chr22.22q.250.254 42.822104
FSD_chr11.11p.245.249 43.4940087 FSD_chr11.11p.225.229 42.821477
FSD_chr16.16q.235.239 43.4045613 FSD_chr21.21q.245.249 42.8073186
FSD_chr9.9p.290.294 43.3618866 FSD_chr21.21q.255.259 42.7824982
FSD_chr20.20p.240.244 43.3527499 FSD_chr21.21q.230.234 42.7789333
FSD_chr7.7p.250.254 43.3352273 FSD_chr22.22q.280.284 42.6836024
FSD_chr21.21q.260.264 43.3236451 FSD_chr11.11p.255.259 42.5800444
FSD_chr16.16q.250.254 43.2766888 FSD_chr19.19p.285.289 42.400389
FSD_chr8.8p.285.289 43.2615185 FSD_chr19.19p.280.284 42.3744761
Figure BDA0003597451170000092
Figure BDA0003597451170000101
癌症组与非癌症组EDM的前200个差异显著的特征值如下所示:其中由8位ATCG构成的编号代表不同 的特征值的碱基序列;
Feature Fvalue Feature Fvalue
EDM_TGCTTGAT 108.939 EDM_AGATGCGG 83.7157
EDM_AGCTTCCG 105.103 EDM_TGACGCGC 83.0017
EDM_GGCTTCAG 104.596 EDM_GGATGTCG 82.4446
EDM_TGCTCCAA 98.8863 EDM_TGACGCAA 81.7297
EDM_GGCTCCCG 98.0056 EDM_CGATTACG 81.696
EDM_CGCTTTGT 97.0309 EDM_TGATCCGG 81.6917
EDM_TGGCTCAC 96.0004 EDM_GGACTTCG 81.4562
EDM_TGCTTCGC 94.8698 EDM_AGATTCGC 81.2742
EDM_GGCTTTCA 93.5914 EDM_TGCTGCGT 81.1171
EDM_CGATCCCG 92.5713 EDM_CGCTCCGA 80.8802
EDM_GGATCCAC 92.2369 EDM_AGCTCTAT 80.6847
EDM_GGACGTGA 91.9986 EDM_TGCTTTAA 79.0565
EDM_CGATACCG 91.8643 EDM_TGACCCGC 78.8234
EDM_GGACTCCG 91.3485 EDM_CGCCTCGC 78.8054
EDM_AGCTCTCA 90.9664 EDM_CCCGTATT 78.3346
EDM_GGCCTCAT 89.878 EDM_AGACCCCT 78.2996
EDM_GGCTTCTA 89.1031 EDM_AGGTTCCG 77.9522
EDM_TGACTCAT 87.1597 EDM_AGGTTCAC 77.4016
EDM_GGGCGCAG 86.9931 EDM_AGATTCCT 76.6816
EDM_TGACGTAC 86.6968 EDM_GGATCTCC 76.2927
EDM_AGACCCAT 86.0862 EDM_AAAAAGGA 76.1724
EDM_TGACGTCC 85.8079 EDM_TGACTTGG 75.6534
EDM_CGGCGCGC 85.4427 EDM_AGATCGAA 75.4723
EDM_TGGCGTGT 84.9567 EDM_CGACACCA 75.312
EDM_GGATCTGG 83.8928 EDM_AGCTACGT 75.0954
Figure BDA0003597451170000102
Figure BDA0003597451170000111
Feature Fvalue Feature Fvalue
EDM_AGTCGTGG 66.8285 EDM_CCAAAAGA 64.4245
EDM_AACTGCAC 66.6532 EDM_GGACGCTC 64.3401
EDM_CAAATGTG 66.5838 EDM_AGAATCAA 64.2852
EDM_AGTCGAGC 66.4404 EDM_GCTTAGTT 64.2412
EDM_CGACGTTG 66.3781 EDM_GGTGCCAG 64.1455
EDM_AGGTCCAA 66.2987 EDM_TACTTCCG 64.1268
EDM_AGCATCGT 65.9152 EDM_CATAAGTA 63.9182
EDM_TGCCTTAT 65.843 EDM_CGCCGTAA 63.7133
EDM_AGCCGTCA 65.8123 EDM_CGCTGCAC 63.5523
EDM_TGCTTACC 65.7943 EDM_CCTCAATC 63.4838
EDM_CACTTTGT 65.5289 EDM_TCCAATTA 63.368
EDM_TACTGCCC 65.3877 EDM_TGCCCTAC 63.1577
EDM_AGCCGCGC 65.0759 EDM_TATTGGTG 63.1209
EDM_CGATCCTT 65.047 EDM_GGATTGCC 63.0253
EDM_CGGTGCAT 65.0067 EDM_GGCCCCAC 62.949
EDM_TGATGTGG 64.9339 EDM_GCAATTTC 62.887
EDM_AGACTACC 64.8444 EDM_CGGCCCAC 62.4603
EDM_GCTAAAAC 64.824 EDM_CCCATTTA 62.3246
EDM_CACCGCGC 64.7008 EDM_TAAAGGAG 61.9389
EDM_GCTACATG 64.6971 EDM_GCTAATGC 61.8865
EDM_CCTATATC 64.6731 EDM_CCTGTATT 61.7935
EDM_TCAATATT 64.6509 EDM_CGGTACGA 61.7435
EDM_GGCTCACC 64.5625 EDM_TGACGAGG 61.6167
EDM_AACTCCAC 64.5266 EDM_TCTAAAGG 61.498
EDM_CAAAAGTC 64.4716 EDM_AGATCTAG 61.461
Figure BDA0003597451170000112
Figure BDA0003597451170000121
癌症组与非癌症组BKM的前200个差异显著的特征值如下所示:其中由8位ATCG构成的编号代表不同 的特征值的碱基序列;
Feature Fvalue Feature Fvalue
BKM_TATCGCTA 130.807152 BKM_ATGCGCTA 98.5952581
BKM_GCACGCTT 113.538103 BKM_GAGTGCTA 97.9152335
BKM_CTTTGTAG 112.083258 BKM_GAATGGCT 97.697029
BKM_GAAGGCCT 111.824392 BKM_AGAGGCCC 97.6070588
BKM_GGACGCAG 111.752205 BKM_GAATGCTA 96.2450864
BKM_AAAGGCTC 110.03839 BKM_AAGGGAAG 95.8114101
BKM_GGTCGCTT 109.32525 BKM_AAACGCCA 95.4338561
BKM_AACCGCTT 108.39628 BKM_GAGCGCAC 94.6393849
BKM_GAAGGGCC 105.356765 BKM_CACCGCCC 94.3997228
BKM_CATCGCCA 105.307551 BKM_AAGTGCCA 94.2375066
BKM_CGGCGCTT 105.154233 BKM_GATGGCTT 93.73717
BKM_TGCCGCTA 103.837807 BKM_GGACGCCC 93.6879938
BKM_AGGGGCTT 102.774888 BKM_CTACGCTA 93.3585377
BKM_AAGCGCTA 102.631636 BKM_CGGCGACT 92.5179784
BKM_ATTAGTAC 102.282114 BKM_CGGTGGCT 92.1608125
BKM_TAGGGCCT 102.178313 BKM_TCACGATG 91.3761759
BKM_CATGGCCT 102.045968 BKM_AGATGCCT 91.3176476
BKM_GGGTGCTG 102.007894 BKM_AAGCGCCA 91.0868765
BKM_CTTCGCTA 101.571631 BKM_CAACGCTG 90.2805221
BKM_TAACGCAC 101.405716 BKM_CGGCGCCA 89.7592663
BKM_TAATGCCA 100.658644 BKM_GTGGGATG 89.7128211
BKM_AGATGCTT 99.891257 BKM_TAGGGGCG 89.499491
BKM_CAGGGCTC 99.6844108 BKM_TGGGGCCA 89.276824
BKM_GGACGCTA 99.262136 BKM_AGAGGACT 88.4708948
BKM_CATGGGCA 99.193011 BKM_AGGTGCCG 88.3251624
Figure BDA0003597451170000122
Figure BDA0003597451170000131
Feature Fvalue Feature Fvalue
BKM_AGGCGGCA 78.2177097 BKM_ATTACAAC 75.0675134
BKM_CAACGACG 78.1940344 BKM_GTTAATAA 74.9328476
BKM_GTGCGATG 78.1206373 BKM_TGGGGGTC 74.9180801
BKM_ACTAATCA 78.068639 BKM_CGACGATT 74.5733125
BKM_AGACGACA 77.9623598 BKM_TATCGGCC 74.5161508
BKM_GAGTGAGC 77.889533 BKM_CTGGGCTT 74.2999242
BKM_CGGGGGCG 77.8259267 BKM_CAGCGGAT 73.5440325
BKM_CTCAATCA 77.7366991 BKM_TAACGATG 73.4477075
BKM_GATCGCGC 77.4573563 BKM_GTGAAAAG 72.9467138
BKM_GGGCGGTT 77.4291049 BKM_GTAAATTC 72.8716606
BKM_CGTGGCCA 77.3332113 BKM_AGCAATAA 72.5298191
BKM_GAGCGGTT 77.235208 BKM_TAACGAAA 72.2698349
BKM_TCAAATCA 76.9099303 BKM_GGAGGGTA 72.2420055
BKM_GACTGCTC 76.8131165 BKM_CGGCGCAT 72.2078111
BKM_CAACGGTC 76.7882665 BKM_CTCACTAT 72.1524578
BKM_GGACGGCG 76.5531798 BKM_GTAAAAAA 71.9312005
BKM_TAGGGATT 76.3743039 BKM_GAGTGATC 71.7835403
BKM_TAGGGCAC 75.8879792 BKM_TTAACTAA 71.7320049
BKM_AAGTGGTA 75.879689 BKM_AAAACCAA 71.6974967
BKM_CCTAATTA 75.6847188 BKM_GTTACACT 71.6851512
BKM_TCAAATTA 75.5914363 BKM_ACAAAAAT 71.3907208
BKM_TAATGACG 75.5543415 BKM_TACCGATG 70.7519088
BKM_AGCCGACC 75.4170013 BKM_GTTAATCA 70.4962008
BKM_CCACGCCC 75.4052383 BKM_AGCGGTGA 70.4733951
BKM_CAGTGACG 75.0877116 BKM_TATCGATA 70.32242
Figure BDA0003597451170000132
Figure BDA0003597451170000141
癌症组与非癌症组CNV的前200个差异显著的特征值如下所示:其中chrx是代表x号染色体,数字部分 是指在染色体上的位置范围;
Feature Fvalue Feature Fvalue
CNV_chr1.61000001.62000000 84.1167063 CNV_chr15.57000001.58000000 65.2286629
CNV_chr22.36000001.37000000 79.9497093 CNV_chr2.125000001.126000000 65.1535805
CNV_chr7.97000001.98000000 77.9046624 CNV_chr10.85000001.86000000 64.772446
CNV_chr6.169000001.170000000 77.7682786 CNV_chr4.80000001.81000000 64.7706848
CNV_chr5.2000001.3000000 77.15837 CNV_chr10.90000001.91000000 64.6821865
CNV_chr5.5000001.6000000 76.6542542 CNV_chr1.94000001.95000000 64.3404648
CNV_chr7.158000001.159000000 76.5191597 CNV_chr3.171000001.172000000 64.2926543
CNV_chr2.146000001.147000000 73.5063859 CNV_chr1.57000001.58000000 64.082675
CNV_chr2.4000001.5000000 72.9152386 CNV_chr9.80000001.81000000 63.7822602
CNV_chr2.224000001.225000000 72.6330996 CNV_chr1.66000001.67000000 63.4208437
CNV_chr12.126000001.127000000 70.6660462 CNV_chr12.20000001.21000000 63.1140167
CNV_chr10.77000001.78000000 70.6001315 CNV_chr1.8000001.9000000 62.9225936
CNV_chr18.76000001.77000000 69.3861408 CNV_chr5.15000001.16000000 62.8815256
CNV_chr1.60000001.61000000 69.1993934 CNV_chr5.166000001.167000000 62.814949
CNV_chr12.84000001.85000000 69.1200481 CNV_chr3.168000001.169000000 61.9843795
CNV_chr7.81000001.82000000 68.558569 CNV_chr2.58000001.59000000 61.6256805
CNV_chr10.87000001.88000000 68.08084 CNV_chr15.25000001.26000000 61.1586246
CNV_chr12.130000001.131000000 67.5174835 CNV_chr4.74000001.75000000 60.9090545
CNV_chr18.73000001.74000000 66.7461572 CNV_chr3.188000001.189000000 60.8823912
CNV_chr9.112000001.113000000 66.7190187 CNV_chr12.30000001.31000000 60.7756192
CNV_chr19.29000001.30000000 66.4561366 CNV_chr12.98000001.99000000 60.655065
CNV_chr10.52000001.53000000 66.0605539 CNV_chr9.113000001.114000000 60.4174039
CNV_chr5.165000001.166000000 65.7131733 CNV_chr8.47000001.48000000 60.3275434
CNV_chr4.106000001.107000000 65.697428 CNV_chr3.148000001.149000000 59.6855455
CNV_chr22.33000001.34000000 65.394011 CNV_chr15.26000001.27000000 59.6821836
Figure BDA0003597451170000142
Figure BDA0003597451170000151
Feature Fvalue Feature Fvalue
CNV_chr7.67000001.68000000 53.1724174 CNV_chr12.99000001.100000000 50.6342338
CNV_chr1.41000001.42000000 53.1638589 CNV_chr1.92000001.93000000 50.6140102
CNV_chr2.167000001.168000000 52.7880905 CNV_chr2.182000001.183000000 50.5154741
CNV_chr3.140000001.141000000 52.7843364 CNV_chr10.114000001.115000000 50.3398076
CNV_chr19.23000001.24000000 52.6056437 CNV_chr11.92000001.93000000 50.3235404
CNV_chr2.229000001.230000000 52.5732458 CNV_chr3.26000001.27000000 50.0593714
CNV_chr2.221000001.222000000 52.5375692 CNV_chr21.16000001.17000000 49.9822975
CNV_chr2.102000001.103000000 52.3012458 CNV_chr19.22000001.23000000 49.9382204
CNV_chr3.151000001.152000000 52.1089856 CNV_chr5.4000001.5000000 49.9157941
CNV_chr4.77000001.78000000 52.091561 CNV_chr4.54000001.55000000 49.8692041
CNV_chr2.197000001.198000000 52.0459163 CNV_chr6.87000001.88000000 49.8479168
CNV_chr18.49000001.50000000 51.9251668 CNV_chr14.68000001.69000000 49.8459922
CNV_chr4.124000001.125000000 51.8246327 CNV_chr2.165000001.166000000 49.7942017
CNV_chr12.15000001.16000000 51.6195957 CNV_chr11.42000001.43000000 49.7582539
CNV_chr19.56000001.57000000 51.5625877 CNV_chr4.190000001.191000000 49.6014571
CNV_chr2.140000001.141000000 51.5420977 CNV_chr18.56000001.57000000 49.5963862
CNV_chr1.39000001.40000000 51.3876865 CNV_chr1.25000001.26000000 49.4796326
CNV_chr1.67000001.68000000 51.264439 CNV_chr15.53000001.54000000 49.2241726
CNV_chr11.122000001.123000000 51.2460045 CNV_chr1.240000001.241000000 49.1506809
CNV_chr17.41000001.42000000 51.0992407 CNV_chr3.118000001.119000000 49.0855821
CNV_chr9.108000001.109000000 51.0755174 CNV_chr2.46000001.47000000 49.0810354
CNV_chr1.62000001.63000000 50.8358058 CNV_chr11.132000001.133000000 48.9878724
CNV_chr5.66000001.67000000 50.7347117 CNV_chr18.4000001.5000000 48.8567361
CNV_chr20.41000001.42000000 50.7209341 CNV_chr1.89000001.90000000 48.8564422
CNV_chr1.242000001.243000000 50.6611239 CNV_chr11.106000001.107000000 48.8528039
Figure BDA0003597451170000152
Figure BDA0003597451170000161
肝癌FSC的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue Feature Fvalue Feature Fvalue
FSC_total342 1958.029 FSC_total468 993.4181 FSC_total449 741.3084 FSC_total136 585.6022
FSC_total448 1737.066 FSC_total54 967.7797 FSC_total336 739.8277 FSC_total306 578.9733
FSC_total47 1728.198 FSC_total480 931.9892 FSC_total138 735.2527 FSC_total31 575.1425
FSC_total19 1650.805 FSC_short446 907.0614 FSC_short31 728.9618 FSC_short5 571.2054
FSC_total445 1496.366 FSC_total502 888.475 FSC_total496 715.9461 FSC_total491 568.2544
FSC_total446 1495.932 FSC_total224 885.812 FSC_total343 711.9853 FSC_total404 557.465
FSC_total184 1489.824 FSC_total94 883.7963 FSC_total171 700.6121 FSC_total536 556.9154
FSC_total314 1405.678 FSC_total339 880.3535 FSC_total109 695.9024 FSC_total315 548.2729
FSC_total11 1373.502 FSC_total357 879.0083 FSC_total371 690.9119 FSC_total277 545.1852
FSC_total26 1335.301 FSC_total443 878.8112 FSC_total282 686.1532 FSC_total370 539.8904
FSC_total429 1332.077 FSC_total13 870.0326 FSC_total25 674.606 FSC_total354 535.9954
FSC_total126 1323.887 FSC_total528 851.3381 FSC_total452 673.7713 FSC_total208 529.488
FSC_total444 1271.019 FSC_total58 832.8891 FSC_total484 663.6099 FSC_total10 528.0007
FSC_total311 1252.345 FSC_total186 827.487 FSC_total172 661.9749 FSC_total360 524.4219
FSC_total329 1239.754 FSC_total317 820.376 FSC_total71 649.7148 FSC_total79 522.8448
FSC_total338 1128.13 FSC_total350 820.0188 FSC_total174 645.6495 FSC_short58 513.0006
FSC_total351 1125.17 FSC_total74 817.037 FSC_total183 640.5506 FSC_short194 511.0938
FSC_total447 1062.756 FSC_short537 816.1534 FSC_total253 623.4959 FSC_short99 503.3949
FSC_total46 1056.971 FSC_total352 809.7391 FSC_total310 615.3269 FSC_total365 500.8565
FSC_total539 1050.796 FSC_total87 805.6005 FSC_total185 607.2533 FSC_total481 497.3079
FSC_total383 1047.191 FSC_total5 798.7964 FSC_total214 607.154 FSC_total64 497.267
FSC_total61 1017.956 FSC_total65 792.9177 FSC_total135 597.8357 FSC_total475 493.6661
FSC_total12 1012.374 FSC_total353 781.8164 FSC_total278 592.8503 FSC_total426 491.1711
FSC_total2 1009.529 FSC_total334 769.9661 FSC_total203 588.032 FSC_short342 488.3527
FSC_total380 1001.355 FSC_total457 766.5186 FSC_total234 585.9124 FSC_short311 481.2467
肝癌FSD的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
FSD_chr1.1p.170.174 651.6424 FSD_chr20.20q.170.174 228.5047
FSD_chr15.15q.170.174 592.9465 FSD_chr16.16q.170.174 225.0086
FSD_chr9.9q.170.174 563.7931 FSD_chr7.7p.170.174 212.0978
FSD_chr10.10q.170.174 541.7146 FSD_chr8.8p.170.174 179.351
FSD_chr17.17q.170.174 529.8895 FSD_chr9.9p.170.174 177.631
FSD_chr22.22q.170.174 396.8675 FSD_chr8.8q.170.174 161.6957
FSD_chr2.2q.170.174 382.7515 FSD_chr22.22q.175.179 161.3245
FSD_chr3.3q.170.174 373.2305 FSD_chr4.4p.170.174 157.9614
FSD_chr14.14q.170.174 353.0167 FSD_chr9.9q.175.179 148.745
FSD_chr2.2p.170.174 341.6353 FSD_chr17.17q.175.179 145.6454
FSD_chr4.4q.170.174 335.5371 FSD_chr1.1p.175.179 143.4413
FSD_chr12.12p.170.174 334.1828 FSD_chr15.15q.175.179 137.1265
FSD_chr11.11q.170.174 329.9364 FSD_chr17.17p.170.174 134.3842
FSD_chr6.6p.170.174 325.8338 FSD_chr12.12p.175.179 129.2162
FSD_chr12.12q.170.174 322.0938 FSD_chr20.20p.170.174 116.1746
FSD_chr6.6q.170.174 317.5682 FSD_chr10.10q.175.179 115.8119
FSD_chr1.1q.170.174 306.4746 FSD_chr21.21q.175.179 112.4427
FSD_chr10.10p.170.174 284.0492 FSD_chr5.5p.160.164 107.5844
FSD_chr18.18q.170.174 281.0233 FSD_chr20.20q.175.179 104.9931
FSD_chr5.5q.170.174 280.3617 FSD_chr8.8q.160.164 104.3855
FSD_chr11.11p.170.174 268.3012 FSD_chr5.5p.150.154 102.7431
FSD_chr13.13q.170.174 266.5134 FSD_chr8.8q.150.154 100.1226
FSD_chr21.21q.170.174 262.706 FSD_chr10.10p.175.179 99.35405
FSD_chr3.3p.170.174 256.5071 FSD_chr17.17p.175.179 97.42416
FSD_chr7.7q.170.174 251.0922 FSD_chr4.4p.150.154 97.02158
Figure BDA0003597451170000171
Figure BDA0003597451170000181
肝癌EDM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
EDM_CCCGCGCC 507.0186 EDM_CCTCGCGG 259.7716
EDM_CCTGCGCC 412.9355 EDM_AGTCCCCA 258.6786
EDM_TATGCCAC 359.554 EDM_CAGGTCGC 256.9967
EDM_TCCGCACA 359.1244 EDM_CGTCCGCC 256.6916
EDM_AAGCGAGG 353.3591 EDM_CCTCCCCG 254.5327
EDM_CAGAGCGT 345.6558 EDM_GACCCGCA 254.1595
EDM_GGAAAAGA 342.5025 EDM_CGTGCCCA 251.7536
EDM_AGTTCGAA 334.4255 EDM_GGTACCCG 251.5993
EDM_AGTGTCAC 316.4217 EDM_GGGAAACG 251.3249
EDM_TCGCGCCC 314.4177 EDM_AGTGTCCT 248.5778
EDM_CGTGTCGA 314.0716 EDM_TATCGCTA 247.5544
EDM_CATCCGCA 308.1118 EDM_AGATCACA 247.5238
EDM_TGAAAACT 301.4507 EDM_TATCGAGG 244.3871
EDM_GGCTAATT 299.4315 EDM_TAGTAGAC 241.9007
EDM_TCTCCCGC 293.2168 EDM_GTTCTCGG 241.8694
EDM_TATCACGC 291.5595 EDM_CAGCCGAT 239.435
EDM_TCTCGCCT 282.8159 EDM_GGTGCGAG 238.8838
EDM_GGAATGTT 281.1659 EDM_CTTCCCCA 238.8751
EDM_TTTCTCCA 277.7611 EDM_CCTCCGCG 238.388
EDM_CATGCCGA 277.4883 EDM_CCTCGGCC 237.6367
EDM_TGTGCTCT 274.1821 EDM_GGGCTATA 236.6261
EDM_TATGCGGA 272.7045 EDM_GATGCGCT 236.3939
EDM_CCTGCACA 270.6942 EDM_AACGCCAT 235.6241
EDM_TAGGTCAG 267.2424 EDM_GGTCCCGG 234.7257
EDM_CACTGGTG 263.5153 EDM_TGTGCCTC 234.0051
Figure BDA0003597451170000182
Figure BDA0003597451170000191
肝癌BPM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
BPM_GGCTAAAA 446.9759 BPM_TCGGGTGT 285.8598
BPM_TGGGGTGT 426.4516 BPM_CGACGTGC 285.8157
BPM_GTGGGTGC 403.4757 BPM_GCGGATCT 284.9311
BPM_GCACGTCC 387.1821 BPM_CAACCTCC 284.1891
BPM_TCCTAAAC 378.4941 BPM_CGTGAGCT 283.7469
BPM_GAGGGTGG 372.909 BPM_CCCGAAAT 282.0334
BPM_CCGATTCT 366.4208 BPM_ACTTCACG 281.4817
BPM_GCACGTGG 354.2835 BPM_GCAGGTCG 277.9029
BPM_GATCGTGC 353.9695 BPM_TGGCCTCG 272.4844
BPM_TGTGGTGG 351.595 BPM_GCCTAACA 268.8348
BPM_AGGCGTGT 348.6232 BPM_TCCAGTTT 268.8255
BPM_CGACCAGG 344.5716 BPM_CCCTACAC 268.5103
BPM_AGAGGTGG 340.3368 BPM_GTCGAAAT 267.9706
BPM_TCGCTTCG 336.144 BPM_CTTTCCGG 267.9257
BPM_TATTCCGA 333.7656 BPM_GCTAACTA 265.3604
BPM_ACTAAAAT 327.0214 BPM_GCCGAATT 265.0456
BPM_AATGGTGA 326.8414 BPM_TAAGGTGC 263.056
BPM_ACACGCCG 320.0641 BPM_GGGGTTCA 260.5528
BPM_CGACCTCG 315.8643 BPM_ACTGGTGT 259.6315
BPM_AGGCTTCC 307.2223 BPM_AAGCTTCA 258.8344
BPM_GCAGGTGA 298.2757 BPM_TTATCCGA 255.7474
BPM_CTCCGTCG 289.8907 BPM_TGGCATGG 253.2666
BPM_CCCACCGA 287.8417 BPM_TCCTAATC 252.5897
BPM_ACTTAAAA 287.0997 BPM_GTGCTTCG 250.3235
BPM_GCCAAAAC 286.967 BPM_TGCAAAAG 249.3061
Figure BDA0003597451170000192
Figure BDA0003597451170000201
肝癌CNV的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
CNV_chr2.63000001.64000000 1603.97 CNV_chr9.104000001.105000000 915.3503
CNV_chr15.67000001.68000000 1602.688 CNV_chr5.152000001.153000000 914.3901
CNV_chr15.71000001.72000000 1502.678 CNV_chr10.114000001.115000000 911.7461
CNV_chr1.94000001.95000000 1477.364 CNV_chr3.58000001.59000000 910.1798
CNV_chr4.77000001.78000000 1429.136 CNV_chr1.70000001.71000000 890.4857
CNV_chr14.67000001.68000000 1284.314 CNV_chr1.61000001.62000000 887.902
CNV_chr9.112000001.113000000 1281.299 CNV_chr22.46000001.47000000 866.4501
CNV_chr22.28000001.29000000 1159.767 CNV_chr9.97000001.98000000 863.9896
CNV_chr11.16000001.17000000 1140.063 CNV_chr3.26000001.27000000 862.7027
CNV_chr22.36000001.37000000 1127.214 CNV_chr12.130000001.131000000 856.234
CNV_chr1.242000001.243000000 1108.812 CNV_chr1.93000001.94000000 852.2735
CNV_chr11.12000001.13000000 1067.112 CNV_chr1.8000001.9000000 850.2513
CNV_chr10.96000001.97000000 1053.56 CNV_chr17.53000001.54000000 838.4448
CNV_chr12.129000001.130000000 1038.886 CNV_chr7.67000001.68000000 836.1458
CNV_chr3.114000001.115000000 1034.597 CNV_chr15.53000001.54000000 832.5921
CNV_chr12.21000001.22000000 1033.367 CNV_chr3.148000001.149000000 831.618
CNV_chr4.74000001.75000000 1025.755 CNV_chr2.102000001.103000000 825.4904
CNV_chr1.181000001.182000000 1022.096 CNV_chr19.29000001.30000000 824.3668
CNV_chr2.165000001.166000000 1014.034 CNV_chr10.90000001.91000000 823.7275
CNV_chr2.46000001.47000000 1013.779 CNV_chr1.240000001.241000000 817.8488
CNV_chr10.52000001.53000000 1010.85 CNV_chr12.24000001.25000000 808.8073
CNV_chr21.17000001.18000000 993.4448 CNV_chr2.224000001.225000000 808.446
CNV_chr6.140000001.141000000 975.6892 CNV_chr15.58000001.59000000 803.8329
CNV_chr10.77000001.78000000 970.0618 CNV_chr15.76000001.77000000 801.6939
CNV_chr1.57000001.58000000 947.4578 CNV_chr4.151000001.152000000 801.497
Figure BDA0003597451170000202
Figure BDA0003597451170000211
肠癌FSC的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue Feature Fvalue Feature Fvalue
FSC_total496 138.5343 FSC_total528 88.60479 FSC_total417 70.30197 FSC_total400 60.28559
FSC_total457 134.9777 FSC_total329 88.55033 FSC_total445 69.55729 FSC_total185 59.81065
FSC_total58 123.655 FSC_total360 86.99602 FSC_total454 68.99554 FSC_total135 59.52346
FSC_total383 119.0881 FSC_total282 86.98864 FSC_total480 68.59151 FSC_total72 59.39061
FSC_total270 114.7435 FSC_total278 86.4068 FSC_short417 68.44363 FSC_total315 59.26733
FSC_total172 112.9751 FSC_total481 85.87555 FSC_total444 68.3548 FSC_total226 58.45125
FSC_total74 111.6887 FSC_total183 84.95802 FSC_total138 67.75737 FSC_total253 57.75223
FSC_total19 104.4497 FSC_total184 84.87907 FSC_total416 67.29718 FSC_total214 57.14836
FSC_total224 104.0743 FSC_total350 83.66972 FSC_total338 67.09268 FSC_total225 56.66388
FSC_total61 103.7873 FSC_total351 81.64194 FSC_total426 66.87448 FSC_total227 55.91968
FSC_total384 103.2437 FSC_total47 81.62457 FSC_short31 64.97628 FSC_total169 55.91875
FSC_total446 98.9689 FSC_total31 80.79974 FSC_total415 64.56384 FSC_short1 55.05982
FSC_total80 98.7818 FSC_total468 80.4078 FSC_total498 64.14542 FSC_total136 54.98498
FSC_total311 98.51741 FSC_total513 77.65709 FSC_total343 64.09097 FSC_total449 54.75545
FSC_total460 96.59712 FSC_total448 77.10919 FSC_total507 63.52258 FSC_total378 54.65803
FSC_total171 95.86679 FSC_total13 76.58969 FSC_total353 63.4985 FSC_total163 54.43059
FSC_total26 95.85136 FSC_total336 76.20524 FSC_total487 62.92851 FSC_short537 54.40673
FSC_total54 95.792 FSC_total94 75.63488 FSC_total477 62.81264 FSC_total419 53.56684
FSC_total429 95.53202 FSC_total79 74.78976 FSC_total174 62.60365 FSC_short270 52.12856
FSC_total342 95.12157 FSC_total46 74.6314 FSC_total537 62.37928 FSC_total427 52.03686
FSC_total314 94.09647 FSC_total354 74.41704 FSC_total1 62.15657 FSC_total137 51.65196
FSC_total317 92.53888 FSC_total87 74.40339 FSC_total447 61.8094 FSC_short415 51.30264
FSC_total186 92.07703 FSC_total380 73.67246 FSC_total330 61.73745 FSC_short496 51.18549
FSC_total357 91.35636 FSC_total109 73.65028 FSC_total222 61.32355 FSC_short383 51.03456
FSC_total339 88.8738 FSC_short416 71.13763 FSC_short411 61.18611 FSC_short225 50.77148
肠癌FSD的前100个与其他癌种存在显著差异的特征值如下所示:
Figure BDA0003597451170000212
Figure BDA0003597451170000221
Feature Fvalue Feature Fvalue
FSD_chr3.3q.145.149 18.7876 FSD_chr6.6p.145.149 16.61293
FSD_chr13.13q.135.139 18.66425 FSD_chr8.8p.185.189 16.53298
FSD_chr20.20p.190.194 18.56714 FSD_chr5.5q.155.159 16.50833
FSD_chr9.9q.150.154 18.56685 FSD_chr8.8p.145.149 16.45258
FSD_chr17.17p.195.199 18.47431 FSD_chr10.10q.150.154 16.45164
FSD_chr17.17q.155.159 18.45312 FSD_chr3.3q.155.159 15.97597
FSD_chr4.4q.135.139 18.40981 FSD_chr14.14q.150.154 15.97234
FSD_chr7.7q.145.149 18.07121 FSD_chr7.7p.175.179 15.96856
FSD_chr4.4p.180.184 17.83495 FSD_chr20.20p.195.199 15.91606
FSD_chr6.6q.155.159 17.82853 FSD_chr12.12p.145.149 15.90553
FSD_chr12.12q.145.149 17.81809 FSD_chr22.22q.145.149 15.87943
FSD_chr20.20q.185.189 17.75157 FSD_chr10.10p.185.189 15.87515
FSD_chr5.5p.170.174 17.72761 FSD_chr8.8p.180.184 15.80244
FSD_chr19.19q.205.209 17.64134 FSD_chr4.4q.130.134 15.78704
FSD_chr16.16q.145.149 17.37092 FSD_chr16.16q.185.189 15.77408
FSD_chr14.14q.155.159 17.35122 FSD_chr6.6q.150.154 15.77028
FSD_chr4.4p.185.189 17.28463 FSD_chr5.5p.190.194 15.76444
FSD_chr2.2p.155.159 17.19052 FSD_chr19.19p.200.204 15.70571
FSD_chr19.19q.200.204 17.03916 FSD_chr5.5p.215.219 15.66777
FSD_chr21.21q.185.189 17.02334 FSD_chr13.13q.130.134 15.65899
FSD_chr11.11p.145.149 16.9825 FSD_chr13.13q.140.144 15.57815
FSD_chr19.19q.215.219 16.73683 FSD_chr9.9p.180.184 15.51131
FSD_chr17.17p.175.179 16.72673 FSD_chr2.2p.150.154 15.50279
FSD_chr20.20q.180.184 16.70439 FSD_chr21.21q.180.184 15.48663
FSD_chr2.2q.150.154 16.67886 FSD_chr9.9p.185.189 15.44299
肠癌EDM的前100个与其他癌种存在显著差异的特征值如下所示:
Figure BDA0003597451170000222
Figure BDA0003597451170000231
Feature Fvalue Feature Fvalue
EDM_CGAAAAGC 89.14905 EDM_TATCACAT 84.54037
EDM_CAGCCCGC 88.77748 EDM_CGTCGCGG 84.18776
EDM_CAGGTTGC 88.76981 EDM_GACCGCGT 83.49459
EDM_TGTCGCTT 88.42687 EDM_TCTCCCCT 83.27432
EDM_GATGTCGC 88.2005 EDM_GAGCTCCT 82.84254
EDM_TGTCGTCA 87.94542 EDM_AATGCCTT 82.83025
EDM_AATCGTGC 87.79991 EDM_CAACCCGC 82.72267
EDM_GTTCCTCG 87.75322 EDM_GACGTTAA 82.48033
EDM_TATGTTCA 86.93214 EDM_TACGTTCG 82.44166
EDM_AAGCACGG 86.56443 EDM_AAAATTCC 82.43573
EDM_TATCTGCA 86.55412 EDM_TATCTGGA 82.11142
EDM_CAGAGCGG 86.18084 EDM_GTTCCCTT 81.98738
EDM_GGTCTCCT 86.16157 EDM_TATGCGGG 81.82268
EDM_TTTCTTCG 86.14142 EDM_CGTCCACA 81.69958
EDM_AATCTCCT 86.02978 EDM_AGTAACGA 81.66571
EDM_AACGCAAC 85.99139 EDM_AATCGGAG 81.65059
EDM_CATCCCGG 85.82959 EDM_GTTCCCCG 81.39973
EDM_AGTCTGCC 85.74437 EDM_GAGCGTGG 80.94975
EDM_AATATCCC 85.73038 EDM_TATCGGGC 80.83798
EDM_CCACGCGA 85.70024 EDM_ACTCCCAT 80.50758
EDM_TGTCACCG 85.63544 EDM_CATCCTCC 80.41569
EDM_AAGCGCAA 84.99924 EDM_TAACGCCA 80.35345
EDM_GGTTGCGT 84.8427 EDM_GGTAACCG 80.31635
EDM_GGTGCTCA 84.58682 EDM_TGTCGCAA 80.23356
EDM_CGTTGTCA 84.56203 EDM_CAACGCGG 80.22601
肠癌BPM的前100个与其他癌种存在显著差异的特征值如下所示:
Figure BDA0003597451170000232
Figure BDA0003597451170000241
Feature Fvalue Feature Fvalue
BPM_GAATATTC 103.9303 BPM_GAAGAACG 97.68725
BPM_AGACTTCT 103.8447 BPM_CCACGTAG 97.65923
BPM_GGAGATCA 103.0721 BPM_CACCGTGT 97.50731
BPM_GAAGGTCA 102.9746 BPM_CCACTTCA 97.46156
BPM_GTGGTTCG 102.8628 BPM_ATACGTAA 97.21755
BPM_TTTGGTCA 102.7219 BPM_GGATAAGA 97.15476
BPM_CAACGGAG 102.1167 BPM_CTACATCG 97.11012
BPM_CAAGAATA 101.899 BPM_CAGTTTCA 96.70648
BPM_GCACACCG 101.7758 BPM_TGGCCTCT 96.52017
BPM_AGGGATAC 101.2588 BPM_TGTGACGG 96.44287
BPM_CAGTAGGC 101.1933 BPM_AGACACGC 96.35069
BPM_CAATAGAT 101.0603 BPM_CAACGTCT 96.18812
BPM_CGTGGTGG 100.9921 BPM_TGGGTTCT 95.85064
BPM_GAATGTCA 100.9133 BPM_GGATACGG 95.80242
BPM_ATGGATCG 100.0101 BPM_CAATAGCG 95.64896
BPM_CGGCGTGG 99.95188 BPM_ACAGGTCG 95.58161
BPM_GGACAGAC 99.5449 BPM_TAACAGAA 95.29093
BPM_TAAGAGCA 99.26556 BPM_TTAGGTTC 95.23174
BPM_TTACTTCG 98.94704 BPM_GGACCACC 95.10943
BPM_TGGGACGC 98.87501 BPM_TGGCGTAC 95.09535
BPM_CAAGATCG 98.68586 BPM_GAGCAAGT 94.73595
BPM_CAATATAT 98.67258 BPM_CGTGGTCT 94.59702
BPM_TGAGAACC 98.435 BPM_AATGGTGA 94.52957
BPM_TAATAATA 97.98724 BPM_CTGGGTCT 94.31675
BPM_TGGGATTG 97.79515 BPM_ACAGACTG 94.07035
肠癌CNV的前100个与其他癌种存在显著差异的特征值如下所示:
Figure BDA0003597451170000242
Figure BDA0003597451170000251
Feature Fvalue Feature Fvalue
CNV_chr21.41000001.42000000 80.45982 CNV_chr9.72000001.73000000 74.35208
CNV_chr1.177000001.178000000 80.03521 CNV_chr19.57000001.58000000 74.26447
CNV_chr1.240000001.241000000 79.5749 CNV_chr18.76000001.77000000 74.2639
CNV_chr15.67000001.68000000 79.49521 CNV_chr1.241000001.242000000 73.49557
CNV_chr7.70000001.71000000 79.36931 CNV_chr21.17000001.18000000 73.46428
CNV_chr6.165000001.166000000 79.09499 CNV_chr5.4000001.5000000 73.13683
CNV_chr2.63000001.64000000 78.86963 CNV_chr8.136000001.137000000 72.94989
CNV_chr10.85000001.86000000 78.66376 CNV_chr5.166000001.167000000 72.65424
CNV_chr14.67000001.68000000 78.59199 CNV_chr6.135000001.136000000 72.5488
CNV_chr5.15000001.16000000 78.27438 CNV_chr1.181000001.182000000 72.52764
CNV_chr11.132000001.133000000 78.0492 CNV_chr18.5000001.6000000 72.33165
CNV_chr15.71000001.72000000 77.96649 CNV_chr9.80000001.81000000 72.27265
CNV_chr1.70000001.71000000 77.66862 CNV_chr11.16000001.17000000 72.25346
CNV_chr9.97000001.98000000 77.48878 CNV_chr14.26000001.27000000 72.2316
CNV_chr19.22000001.23000000 77.14572 CNV_chr22.34000001.35000000 71.95549
CNV_chr7.81000001.82000000 77.02357 CNV_chr3.58000001.59000000 71.36722
CNV_chr1.80000001.81000000 76.82989 CNV_chr1.196000001.197000000 71.26741
CNV_chr2.229000001.230000000 76.7425 CNV_chr5.44000001.45000000 70.27166
CNV_chr3.26000001.27000000 76.64087 CNV_chr12.21000001.22000000 70.2704
CNV_chr11.121000001.122000000 76.33553 CNV_chr5.9000001.10000000 69.78694
CNV_chr4.58000001.59000000 76.19258 CNV_chr1.72000001.73000000 69.60144
CNV_chr9.113000001.114000000 75.75571 CNV_chr3.137000001.138000000 69.39308
CNV_chr11.91000001.92000000 75.33783 CNV_chr2.120000001.121000000 69.29377
CNV_chr15.46000001.47000000 75.01465 CNV_chr3.114000001.115000000 69.28682
CNV_chr12.24000001.25000000 74.9416 CNV_chr21.16000001.17000000 68.88139
肺癌FSC的前100个与其他癌种存在显著差异的特征值如下所示:
Figure BDA0003597451170000252
Figure BDA0003597451170000261
肺癌FSD的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
FSD_chr1.1p.170.174 232.6715 FSD_chr22.22q.175.179 98.75972
FSD_chr15.15q.170.174 201.9678 FSD_chr8.8p.170.174 97.68822
FSD_chr10.10q.170.174 194.8766 FSD_chr20.20q.170.174 97.37439
FSD_chr9.9q.170.174 180.6592 FSD_chr7.7q.170.174 95.05887
FSD_chr17.17q.170.174 167.1577 FSD_chr21.21q.170.174 94.6919
FSD_chr11.11q.170.174 165.9932 FSD_chr1.1p.175.179 89.31301
FSD_chr14.14q.170.174 162.9866 FSD_chr9.9p.170.174 88.33316
FSD_chr2.2p.170.174 154.3941 FSD_chr9.9q.175.179 84.96155
FSD_chr2.2q.170.174 154.2729 FSD_chr12.12p.175.179 84.68276
FSD_chr5.5q.170.174 143.2361 FSD_chr15.15q.175.179 84.58863
FSD_chr18.18q.170.174 143.1794 FSD_chr5.5p.170.174 84.11787
FSD_chr3.3q.170.174 142.2039 FSD_chr17.17q.175.179 83.82406
FSD_chr22.22q.170.174 140.2664 FSD_chr10.10q.175.179 79.53303
FSD_chr6.6p.170.174 140.2499 FSD_chr16.16q.175.179 78.48808
FSD_chr4.4q.170.174 140.051 FSD_chr7.7p.170.174 77.28316
FSD_chr11.11p.170.174 140.0242 FSD_chr20.20q.175.179 76.6012
FSD_chr6.6q.170.174 139.5741 FSD_chr11.11p.175.179 73.47995
FSD_chr12.12q.170.174 132.7733 FSD_chr11.11q.175.179 71.93778
FSD_chr3.3p.170.174 132.0152 FSD_chr14.14q.175.179 71.39093
FSD_chr16.16q.170.174 129.0126 FSD_chr21.21q.175.179 71.26414
FSD_chr1.1q.170.174 128.5696 FSD_chr18.18q.175.179 70.38705
FSD_chr12.12p.170.174 125.3286 FSD_chr10.10p.175.179 70.10232
FSD_chr13.13q.170.174 110.062 FSD_chr8.8p.175.179 68.37477
FSD_chr10.10p.170.174 106.8334 FSD_chr6.6p.175.179 68.23977
FSD_chr4.4p.170.174 103.8546 FSD_chr17.17p.175.179 67.48362
Figure BDA0003597451170000262
Figure BDA0003597451170000271
肺癌EDM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
EDM_CGGATTTC 162.6994 EDM_CCGAGGCG 84.01107
EDM_CAAATTTC 151.0367 EDM_AAAACTTA 82.87072
EDM_TTATTTCC 126.3219 EDM_CAAAATCC 79.96553
EDM_TCGAGACA 123.2216 EDM_CAAATATC 76.30621
EDM_ACAATTTG 121.0831 EDM_CGACCCTG 76.15206
EDM_CTATTTTT 116.1564 EDM_GAACATTA 76.09892
EDM_GCGAGGTA 111.6676 EDM_CCGAGCTA 75.83263
EDM_AACAATTA 108.7154 EDM_GGTAATTG 75.7341
EDM_AGTTCGAC 107.727 EDM_GGGTCGAG 75.35926
EDM_TGGTCGTC 106.3542 EDM_AGATCGAT 75.22614
EDM_CACAAATA 106.1273 EDM_TCAGGAGA 74.1821
EDM_CCGGCTCA 106.0005 EDM_AAATTATA 74.08922
EDM_TAAAAATT 105.5304 EDM_TCGAGATG 71.80894
EDM_GAAAATAT 102.4886 EDM_TCGAGAGC 69.82134
EDM_TGAATATC 100.9529 EDM_GCAAGCGG 69.7169
EDM_TTCTTTTC 93.77515 EDM_CCGAACTT 69.57405
EDM_TAAATCTT 92.18208 EDM_GAAATTGG 69.09861
EDM_GAAAACTT 90.12961 EDM_CAAATTCA 68.85522
EDM_TAGGCGGA 89.18633 EDM_CTGATTTG 68.80014
EDM_CCAGCACA 88.39956 EDM_CCGTGCCC 68.49044
EDM_TCGGGAGT 88.09943 EDM_GAGGTGGA 67.86733
EDM_TGATCACA 87.86209 EDM_GAGCATTT 66.58806
EDM_CACGAAAA 87.27786 EDM_ACGAGGAT 66.48141
EDM_TGAATTTG 85.48083 EDM_GCAGGTGG 66.02296
EDM_CAAGCGAG 84.03121 EDM_TAATATTC 65.89972
Figure BDA0003597451170000272
Figure BDA0003597451170000281
肺癌BPM的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
BPM_GGTTCGAA 110.2884 BPM_TCTCCCGT 64.84041
BPM_TTCACGAT 102.0414 BPM_CAGCCGAC 64.82649
BPM_GGGCCGAC 87.43244 BPM_GCTGAAAT 64.46257
BPM_GTAGCCGC 87.23313 BPM_CAGGCAGC 63.17406
BPM_TCTGAATC 85.1604 BPM_CGTTAAAT 63.11873
BPM_GTCTCGGG 83.82155 BPM_CTTGAAAT 62.33678
BPM_CTTGACAT 83.18107 BPM_AGGCCAGG 60.38521
BPM_GACTAAAG 82.60972 BPM_GCAGCAGG 59.62648
BPM_GACCCGGC 79.35237 BPM_TGGCCTGG 59.32276
BPM_TCGGCAGG 78.79006 BPM_GGGCAGGA 59.05842
BPM_ATCCCAGT 78.2154 BPM_TCCCCTGT 58.20697
BPM_CCACGCCG 77.92306 BPM_CATGAAAC 58.11845
BPM_ATGGCGTG 76.31007 BPM_GTTGAATT 56.72788
BPM_TTGGTATG 73.99142 BPM_CGATCGAG 56.42841
BPM_TGGTCGAA 73.45759 BPM_GGCCCAGA 56.39867
BPM_AAGGCGGT 72.44847 BPM_GCAGCCGT 56.38815
BPM_ACGCCTGA 71.79144 BPM_TGAGCCGC 55.73464
BPM_ACTCCTGG 71.71051 BPM_GATTCCGA 55.71156
BPM_CTCACGCG 71.23241 BPM_AGTGAAAT 55.6608
BPM_ACGCCAGC 69.77407 BPM_ACCGAGGA 55.62206
BPM_GGCTAAAA 67.8724 BPM_TCCCCAGA 55.48295
BPM_CGGGCAGG 67.86326 BPM_TCTGACTG 55.09991
BPM_CCACCTGA 67.45342 BPM_TCGGGGAC 54.80264
BPM_AGGTCAGA 65.66972 BPM_GAGCCAGG 54.74774
BPM_GCGGCTGC 65.109 BPM_TGGTCGGG 54.4326
Figure BDA0003597451170000282
Figure BDA0003597451170000291
肺癌CNV的前100个与其他癌种存在显著差异的特征值如下所示:
Feature Fvalue Feature Fvalue
CNV_chr1.57000001.58000000 225.6192 CNV_chr10.78000001.79000000 124.7202
CNV_chr10.3000001.4000000 218.5865 CNV_chr22.33000001.34000000 124.6285
CNV_chr15.61000001.62000000 194.4551 CNV_chr11.7000001.8000000 122.7107
CNV_chr15.71000001.72000000 191.9362 CNV_chr17.53000001.54000000 122.5421
CNV_chr19.54000001.55000000 181.8472 CNV_chr22.46000001.47000000 121.3503
CNV_chr1.56000001.57000000 177.6451 CNV_chr10.77000001.78000000 119.4977
CNV_chr4.77000001.78000000 175.7081 CNV_chr7.97000001.98000000 119.3826
CNV_chr1.19000001.20000000 173.856 CNV_chr10.114000001.115000000 119.0295
CNV_chr2.63000001.64000000 173.2083 CNV_chr14.32000001.33000000 118.4204
CNV_chr10.96000001.97000000 169.1734 CNV_chr1.48000001.49000000 118.2863
CNV_chr15.67000001.68000000 168.1591 CNV_chr3.114000001.115000000 117.8066
CNV_chr11.12000001.13000000 163.9404 CNV_chr15.37000001.38000000 116.8303
CNV_chr9.112000001.113000000 159.2188 CNV_chr1.61000001.62000000 116.4514
CNV_chr15.53000001.54000000 155.3465 CNV_chr1.6000001.7000000 115.4291
CNV_chr19.42000001.43000000 151.8652 CNV_chr1.42000001.43000000 114.7394
CNV_chr1.41000001.42000000 150.8113 CNV_chr5.163000001.164000000 113.7108
CNV_chr9.136000001.137000000 148.7559 CNV_chr2.72000001.73000000 112.82
CNV_chr14.67000001.68000000 148.3175 CNV_chr1.242000001.243000000 112.3114
CNV_chr1.94000001.95000000 142.8335 CNV_chr5.67000001.68000000 111.7953
CNV_chr1.20000001.21000000 139.3634 CNV_chr8.70000001.71000000 111.3386
CNV_chr1.244000001.245000000 131.2422 CNV_chr11.86000001.87000000 109.7284
CNV_chr9.104000001.105000000 128.159 CNV_chr11.105000001.106000000 109.3234
CNV_chr10.52000001.53000000 126.9496 CNV_chr11.111000001.112000000 108.4714
CNV_chr22.28000001.29000000 125.5865 CNV_chr5.156000001.157000000 106.2967
CNV_chr12.21000001.22000000 124.9424 CNV_chr15.80000001.81000000 105.789
Figure BDA0003597451170000292
Figure BDA0003597451170000301
筛选异显著特征后,为多癌种早期检测模型获得五种特征各200个,将所有训练集合中的样本的每种 特征作为输入值,以预测“癌症/健康”为反馈结果,分别使用广义线性模型、梯度提升算法模型、随机森 林模型、深度学习模型和极端梯度提升模型进行训练建模,获得25种二分类基础模型;
为进一步提高分类器预测性能,对以上多种训练基础模型结果进行二次集合训练(stacking)。Stacking 是一种集成学习技术,通过对多个底层弱分类器(1st-level basemodel)的再次进行元学习(2nd-level meta-learning),收集每个底层分类器的特点,找到最优整合方式,从而提高模型预测性能。本专利Stacking 使用的训练算法为广义线性模型(Generalized Linear Model,GLM),通过联结函数建立响应变量的数学期 望值与线性组合的预测变量之间的关系,将多种训练基础模型转化为最终线性方程:
ALLStacked=Intercept+A1*FSC_GLM+A2*FSC_GBM+A3*FSC_RF+A4*FSC_DL+A5*FSC_XGBoost+B1*F SD_GLM+B2*FSD_GBM+B3*FSD_RF+B4*FSD_DL+B5*FSD_XGBoost+C1*EDM_GLM+C2*EDM_GBM+ C3*EDM_RF+C4*EDM_DL+C5*EDM_XGBoost+D1*BPM_GLM+D2*BPM_GBM+D3*BPM_RF+D4*BPM _DL+D5*BPM_XGBoost+E1*CNV_GLM+E2*CNV_GBM+E3*CNV_RF+E4*CNV_DL+E5*CNV_XGBoost
其中,Intercept、A1-E5都是线性方程参数。FSC_GLM等都是指模型在获得输入数据后得到的输出值, 符号“_”前的字符代表特征集合的类型,符号“_”后的字符代表算法类型,多癌种早筛模型的输出值为 癌症概率。
多癌种组织起源的模型,主要是针对已经确认患有上述三种癌症之一的样本进一步地确认具体的癌症 种类。因此,在进行样本分类时,分别建立起三组训练样本:
第一组训练样本:阳性为肠癌,对照为肺癌和肝癌;判断分为两类:肠癌、其他两种癌症。
第二组训练样本:阳性为肺癌,对照为肠癌和肝癌;判断分为两类:肺癌、其他两种癌症。
第三组训练样本:阳性为肝癌,对照为肝癌和肠癌;判断分为两类:肝癌、其他两种癌症。
在每一组的样本中,分别进行方差分析,可以在每一组当中找到各个特征集合当中具有显著性差异的 特征值;而将三组都分析完成后,每一组之间都可以获得相应的显著性差异的特征值,这些之间会存在着 重叠,因此,再将每一组筛选出的特征值进行合并后去重复,得到最终模型中所需要的特征值。
最终,为多癌种组织起源模型获得FSC特征180个,FSD特征205个,EDM特征295个,BKM特征 297个,CNV特征204个。将训练连集合中的癌症样本的每组特征作为输入值,以预测“肠癌/肝癌/肺癌” 为反馈结果,分别使用适合多分类算法的梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提 升模型进行训练建模,获得20种多分类基础模型。
为了提高预测性能,也采用了二次集合训练,方法基本同上述过程,区别是采用的线性方程式为:
ALLStacked=Intercept+A2*FSC_GBM+A3*FSC_RF+A4*FSC_DL+A5*FSC_XGBoost++B2*FSD_GBM+B3* FSD_RF+B4*FSD_DL+B5*FSD_XGBoost+C2*EDM_GBM+C3*EDM_RF+C4*EDM_DL+C5*EDM_XGBoo st++D2*BPM_GBM+D3*BPM_RF+D4*BPM_DL+D5*BPM_XGBoost++E2*CNV_GBM+E3*CNV_RF+E4* CNV_DL+E5*CNV_XGBoost
其中,Intercept、A2-E5都是线性方程参数。FSC_GBM等都是指模型在获得输入数据后得到的输出值, 符号“_”前的字符代表特征集合的类型,符号“_”后的字符代表算法类型,多癌种早筛模型的输出值为 癌症概率,多癌种组织起源模型为癌种概率(多癌种组织起源整合模型会对待预测样本分别进行肝癌可能 性预测,肠癌可能性预测和肺癌可能性预测,并以三种预测结果中的最大值作为最终判定结果)。
Figure BDA0003597451170000311
多癌种早期检测整合模型可有效区分癌症与健康人,训练集合中敏感性与特意性均达到94%,同时测 试集验证整合模型,灵敏性与特异性可达到95%,未出现集合间结果差异,具体结果如下表所示:
Figure BDA0003597451170000312
Figure BDA0003597451170000321
多癌种组织起源集合模型可有效区分肺癌、肝癌与肠癌组织起源,在训练集合中整体准确率达分别 95.1%,对测试集中成功预测成癌的样本的整体准去了大道93.1%,具体结果如下表所示:
Figure BDA0003597451170000322
Figure BDA0003597451170000323
对照实验1:
模型所采用的特征值中,不纳入片段5’端末端序列占比(EDM),只采用其它四种,模型建立过程 同上,进行癌种起源模型的建立,最终得到的测试集样本的计算结果如下:
Figure BDA0003597451170000324
Figure BDA0003597451170000331
GLM是一个二分类算法,在多分类的时候优势不够明显,在癌种分类的过程中不能表现出较好的分 类性能,因此在本部分的分类模型中没有用glm的基础模型,仅在癌症/健康样本分类的过程中使用。
通过以上实施例对本专利的技术方案进行解释和说明,但是并不构成对本专利的保护范围的限制。

Claims (10)

1.多癌种早筛模型的构建方法,所述的模型用于对样本是否患有肠癌、肺癌或者肝癌进行分类,其特征在于,包括如下步骤:
步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
步骤7,以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征向量输入至分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
2.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤6中,患癌是指患有肠癌、肺癌或者肝癌中的任意一种;所述的步骤6中,还需要对初始特征值进行简化后再作为模型特征向量,所述的简化是指分别筛选出第一、第二、第三、第四和第五特征集合在阳性组和对照组的样本之间存在显著性差异的特征值;所述的筛选过程是通过方差分析方法
3.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的短读段是指长度40-80bp,所述的超长读段数量是200-300bp;全部读段是指长度在40-300bp范围;所述的步骤2中窗口的大小范围是2-7Mb。
4.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤3中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围;所述的读段数量经过了标准化处理。
5.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤4中,m是6-10之间的任意整数;所述的步骤5中,n是2-5之间的任意整数;
6.根据权利要求1所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤6中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的;所述的步骤7中输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性模型、梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将子模型联立为线性关系模型。
7.多癌种检测装置,其特征在于,所述的装置用于样本是否患有肠癌、肺癌或者肝癌进行分类,包括:
测序模块,用于对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
模型构建模块,用于以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征向量输入至分类模型中,并以是否患癌作为输出值,对模型进行训练,获得早筛模型。
8.一种多癌种早筛模型的构建方法,其特征在于,所述的模型用于对癌症样本进行肠癌、肺癌或者肝癌的区分;
步骤1,对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
步骤3,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
步骤4,将读段数据中的5'端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
步骤5,将读段数据结果比对至参考基因组,得到读段的5'端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
步骤6,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
步骤7,分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本,每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、第二、第三、第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异的特征值,再将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型中,并以是否患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
9.根据权利要求8所述的多癌种早筛模型的构建方法,其特征在于,所述的步骤7中,输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至梯度提升算法模型、随机森林模型、深度学习模型和极端梯度提升模型中,获得多个子模型,并将子模型联立为线性关系模型。
10.多癌种检测装置,其特征在于,所述的装置用于对癌症样本进行肠癌、肺癌或者肝癌的区分,包括:
测序模块,用于对肠癌、肺癌以及肝癌的样本进行cfDNA的提取并测序,获得读段数据;
第一特征集合获取模块,用于将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量,作为第一特征集合;
第二特征集合获取模块,用于将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第二特征集合;
第三特征集合获取模块,用于将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第三特征集合;
第四特征集合获取模块,用于将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
第五特征集合获取模块,用于将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第五特征集合;
模型构建模块,用于分别建立三组对照实验组,每一组中的阳性样本分别采用肠癌、肺癌或者肝癌样本,每一组中的对照样本为除去阳性样本以外的剩余两种癌症样本,分别在三组对照实验组中采用第一、第二、第三、第四和第五特征集合共同作为初始特征值,筛选出在阳性样本和对照样本中存在显著性差异的特征值,再将三组对照实验组中的存在显著差异的特征值进行合并,作为模型特征向量输入至分类模型中,并以是否患有肠癌、肺癌或者肝癌的概率作为输出值,对模型进行训练,获得早筛模型。
CN202210392412.9A 2022-04-15 2022-04-15 多癌种早筛模型构建方法以及检测装置 Pending CN114927213A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210392412.9A CN114927213A (zh) 2022-04-15 2022-04-15 多癌种早筛模型构建方法以及检测装置
PCT/CN2023/082118 WO2023197825A1 (zh) 2022-04-15 2023-03-17 多癌种早筛模型构建方法以及检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210392412.9A CN114927213A (zh) 2022-04-15 2022-04-15 多癌种早筛模型构建方法以及检测装置

Publications (1)

Publication Number Publication Date
CN114927213A true CN114927213A (zh) 2022-08-19

Family

ID=82807125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210392412.9A Pending CN114927213A (zh) 2022-04-15 2022-04-15 多癌种早筛模型构建方法以及检测装置

Country Status (2)

Country Link
CN (1) CN114927213A (zh)
WO (1) WO2023197825A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115595372A (zh) * 2022-12-16 2023-01-13 南京世和基因生物技术股份有限公司(Cn) 一种血浆游离dna来源的甲基化检测方法、肺癌诊断标志物以及试剂盒
CN116153420A (zh) * 2023-04-24 2023-05-23 南京世和基因生物技术股份有限公司 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法
WO2023197825A1 (zh) * 2022-04-15 2023-10-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706749A (zh) * 2019-09-10 2020-01-17 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测***和方法
CN113436684A (zh) * 2021-07-02 2021-09-24 南昌大学 一种癌症分类和特征基因选择方法
CN113826167A (zh) * 2019-05-13 2021-12-21 格瑞尔公司 基于模型的特征化和分类
CN113903398A (zh) * 2021-09-08 2022-01-07 南京世和基因生物技术股份有限公司 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110452981A (zh) * 2017-06-07 2019-11-15 深圳市海普洛斯生物科技有限公司 基于外周血的肺癌早筛用的试剂盒
WO2021110987A1 (en) * 2019-12-06 2021-06-10 Life & Soft Methods and apparatuses for diagnosing cancer from cell-free nucleic acids
AU2021322806A1 (en) * 2020-08-05 2023-03-02 Inivata Ltd. Highly sensitive method for detecting cancer DNA in a sample
CN114927213A (zh) * 2022-04-15 2022-08-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113826167A (zh) * 2019-05-13 2021-12-21 格瑞尔公司 基于模型的特征化和分类
CN110706749A (zh) * 2019-09-10 2020-01-17 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测***和方法
CN113436684A (zh) * 2021-07-02 2021-09-24 南昌大学 一种癌症分类和特征基因选择方法
CN113903398A (zh) * 2021-09-08 2022-01-07 南京世和基因生物技术股份有限公司 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197825A1 (zh) * 2022-04-15 2023-10-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置
CN115595372A (zh) * 2022-12-16 2023-01-13 南京世和基因生物技术股份有限公司(Cn) 一种血浆游离dna来源的甲基化检测方法、肺癌诊断标志物以及试剂盒
CN116153420A (zh) * 2023-04-24 2023-05-23 南京世和基因生物技术股份有限公司 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法
CN116153420B (zh) * 2023-04-24 2023-08-18 南京世和基因生物技术股份有限公司 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法

Also Published As

Publication number Publication date
WO2023197825A1 (zh) 2023-10-19

Similar Documents

Publication Publication Date Title
CN114927213A (zh) 多癌种早筛模型构建方法以及检测装置
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及***
CN109872776B (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN113903398A (zh) 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN113355421B (zh) 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN113421608B (zh) 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN114334038A (zh) 一种基于异质网络嵌入模型的疾病药物预测方法
CN114420212A (zh) 一种大肠杆菌菌株鉴定方法和***
CN113862351A (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
CN112259163B (zh) 基于生物网络和亚细胞定位数据识别癌症驱动模块方法
CN116153420B (zh) 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
CN111748634A (zh) 一种特征lincRNA表达谱组合及结肠癌的早期预测方法
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾***状细胞癌早期预测方法
CN116959562A (zh) 一种识别疾病表型相关的细胞亚群的方法
CN114373502B (zh) 一种基于甲基化的肿瘤数据分析***
CN116486920A (zh) 一种基于迭代em聚类的单细胞转录组疾病特异性细胞分析方法
CN113035279B (zh) 基于miRNA测序数据的帕金森疾病演化关键模块识别方法
CN113380326B (zh) 一种基于pam聚类算法的基因表达数据分析方法
Schwender Statistical analysis of genotype and gene expression data
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination