CN116153420B - 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 - Google Patents

基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 Download PDF

Info

Publication number
CN116153420B
CN116153420B CN202310446774.6A CN202310446774A CN116153420B CN 116153420 B CN116153420 B CN 116153420B CN 202310446774 A CN202310446774 A CN 202310446774A CN 116153420 B CN116153420 B CN 116153420B
Authority
CN
China
Prior art keywords
model
fragments
reference genome
cfdna
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310446774.6A
Other languages
English (en)
Other versions
CN116153420A (zh
Inventor
邵阳
吴雪
包华
刘睿
吴舒雨
唐皖湘夫
唐诗婷
刘思思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co ltd
Original Assignee
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shihe Medical Devices Co ltd, Nanjing Shihe Gene Biotechnology Co ltd filed Critical Nanjing Shihe Medical Devices Co ltd
Priority to CN202310446774.6A priority Critical patent/CN116153420B/zh
Publication of CN116153420A publication Critical patent/CN116153420A/zh
Application granted granted Critical
Publication of CN116153420B publication Critical patent/CN116153420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Microbiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法,通过对血浆样本cfDNA进行液体活检全基因组WGS低深度测序,并对高通量测序结果进行恶性乳腺癌与良性结节间,窗口拷贝数变化分析(CNV),DNA片段化分布差异(FSD),DNA片段长度比值差异(FSR),DNA断点序列(BPM)和DNA末端序列(EDM)利用自动机器学习构建多特征多算法的整合模型,实现对乳腺癌无创精准诊断的目的。

Description

基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和 筛查模型的构建方法
技术领域
本发明涉及对恶性乳腺癌与良性乳腺结节的早期筛查,属于分子生物医学领域。
背景技术
乳腺癌是世界上女性中最常见,也是导致女性死亡最常见的癌症类型。据GLOBOCAN2020年全球癌症报告显示,2020年新发乳腺癌226万例,占总体癌症发病的11.7%,成为全球第一恶性癌症,严重威胁了女性的身心健康,影响生活质量。研究表明,早期乳腺癌筛查可以更早发现乳腺癌,提高生存率及生存质量。目前,乳腺癌常见的筛查方式主要有乳腺超声(Breast Ultrasound),核磁共振(Breast MRI),自动乳腺超声***(AutomatedBreast Ultrasound System,ABUS)以及***造影术(Mammography)。然而现存各个现有技术都存在一些缺点,其中,***超声技术的检查质量在一定程度取决于操作人员的经验技术,核磁共振技术的患者使用依从性不高,自动乳腺超声***成本较高。使用率最高的***造影术是目前筛检早期乳癌的主要检查方法,但对患者不同的胸型的检测灵敏度存在差异。比如在较年轻女性中,***造影术的筛查准确性较低,对于50岁以上的女性,由于随着年龄的增长,***的纤维腺体组织会变脂肪组织取代,脂肪组织附近的异常病灶更容易被***造影检出,筛查准确性变高。筛查灵敏度与年龄有一定联系。此外,对于约占总体10%的极度致密胸型(Almost entirely dense tissue),存在过度诊断,灵敏性不高的缺点。研究显示,采用***造影术的检测的模型AUC为0.79,采用乳腺超声的检测模型AUC为0.78。乳腺癌的影像检测的灵敏性有一定的限制,仅依靠影像检测作为诊断乳腺肿瘤的依据,增加了不必要侵入性手术的风险,因此迫切需要开发适用于广泛人群的有效,实用,高灵敏度的筛查手段对影像检测诊断为高风险的人群进行辅助筛查。
发明内容
本发明提供了一种对血浆样本cfDNA进行WGS测序,通过高通量测序结果进行恶性乳腺癌与良性结节的特征差异1Mb窗口的拷贝数变化 (copy number variation, CNV),DNA片段化分布 (Fragment size distribution, FSD), DNA片段化长度比例 (Fragmentsize ratio, FSR) ,断点序列(Break Point Motif,BPM)以及末端序列(End PointMotif,EDM)分析,利用广义线性模型(GLM),梯度提升(Gradient Boost, GBM),随机森林(Random Forest,RF),深度学***均值的方法对多特征多算法进行整合,得到最终风险系数并进行分类,实现了对恶性乳腺癌的无创精准诊断的目的。
基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用,所述的基因标志物包括:
第一标志物:WGS数据中染色体上不同窗口中的拷贝数;
第二标志物:cfDNA片段比对至参考基因组的不同窗口中的短读段数量占比和长读段数量占比;所述的短读段的碱基长度为100-150bp,所述的长读段的碱基长度为151-220bp;
第三标志物:cfDNA片段比对至参考基因组的长臂和短臂上的不同长度梯度区间中的读段数量;不同长度梯度区间是指在100-220bp范围内以4-5bp步长递增而得到的不同长度梯度范围;所述的长臂和短臂选自如下的染色体臂:
chr1_p、chr4_q、chr8_p、chr11_q、chr16_q、chr20_p、chr1_q、chr5_p、chr8_q、chr12_p、chr17_p、chr20_q、chr2_p、chr5_q、chr9_p、chr12_q、chr17_q、chr21_q、chr2_q、chr6_p、chr9_q、chr13_q、chr18_p、chr22_q、chr3_p、chr6_q、chr10_p、chr14_q、chr18_q、chr3_q、chr7_p、chr10_q、chr15_q、chr19_p、chr4_p、chr7_q、chr11_p、chr16_p、chr19_q;其中字符chr及其后的数字代表染色体编号,q代表长臂,p代表短臂;
第四标志物:cfDNA片段比对参考基因组上的断点处的上下游各n个bp的碱基序列在全部碱基序列中的占比;
第五标志物:不同种类的cfDNA片段比对至参考基因组的5’端的m个碱基片段在全部碱基片段中的占比。
所述的第一标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得WGS数据中1-22号染色体上不同窗口中的拷贝数数据;窗口大小为0.8-1.2M。
所述的第二标志物通过如下步骤获得:将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的短读段和长读段cfDNA在该窗口中全部cfDNA片段中的比例。
所述的第三标志物通过如下步骤获得:cfDNA片段比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量。
所述的第四标志物通过如下步骤获得:将cfDNA片段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合。
所述的第五标志物通过如下步骤获得:将cfDNA片段的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例。
n是4,m是8。
恶性乳腺癌筛查模型的构建方法,所述的模型用于对样本进行恶性乳腺癌和良性乳腺结节的分类,包括如下步骤:
步骤1,对恶性乳腺癌患者和对照组(良性结节患者)的样本进行cfDNA的提取并测序,获得cfDNA 片段化的信息;
步骤2,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第一特征值;
步骤3,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量占比和长读段数量占比,作为第二特征集合,所述的短读段的碱基长度为100-150bp,所述的长读段的碱基长度为151-220bp;
步骤4,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第三特征集合;不同长度梯度区间是指在100-220bp范围内以4-5bp步长递增而得到的不同长度梯度范围;所述的长臂和短臂选自如下的染色体臂:
chr1_p、chr4_q、chr8_p、chr11_q、chr16_q、chr20_p、chr1_q、chr5_p、chr8_q、chr12_p、chr17_p、chr20_q、chr2_p、chr5_q、chr9_p、chr12_q、chr17_q、chr21_q、chr2_q、chr6_p、chr9_q、chr13_q、chr18_p、chr22_q、chr3_p、chr6_q、chr10_p、chr14_q、chr18_q、chr3_q、chr7_p、chr10_q、chr15_q、chr19_p、chr4_p、chr7_q、chr11_p、chr16_p、chr19_q;其中字符chr及其后的数字代表染色体编号,q代表长臂,p代表短臂;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
步骤6,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第五特征集合;
步骤7,以第一,第二,第三,第四以及第五特征集合共同作为初始特征值,作为模型特征向量输入至分类模型中,并以恶性乳腺癌及良性结节分类结果作为输出值,对模型进行训练,获得恶性乳腺癌筛查模型。
所述的步骤2中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的。
所述的步骤3中包括:
步骤3-1,将参考基因组按5Mb为长度划分为多个窗口;
步骤3-2,统计出比对于各个窗口中的短读段和长读段cfDNA在该窗口中全部cfDNA片段中的比例;
所述的步骤4中所述的读段数量经过了标准化处理。
所述的步骤5中,n是4;
所述的步骤6中,m是8;
所述的步骤7中,输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性回归模型、梯度提升模型、随机森林、深度学习神经网络模型、极致梯度提升模型中,获得多个子模型,并将子模型联立为线性关系模型。
在获得多个子模型的过程中,还分别根据第一、第二、第三、第四和第五特征集合的各个子模型的分类性能进行筛选后,将筛选得到的子模型应用于线性关系模型中。
本发明的有益效果是:对98名恶性乳腺癌患者和93名良性结节患者的WGS cfDNA的片段化长度比例,拷贝数变化以及片段化分布进行统计和分析,利用广义线性回归模型,梯度提升模型,随机森林模型,极端梯度提升模型,深度学习神经网络模型通过自动化机器学习进行训练和整合,得到最终模型。本发明首次基于血浆cfDNA高通量低深度测序的片段化结果进行对恶性乳腺癌的筛查。该模型比现存的分析检测方法具有更高的灵敏性,能更有效地对恶性乳腺肿瘤和良性结节进行分类,减少非必要的手术风险和并发症风险。
附图说明
图1是模型构建过程示意图;
图2是各个特征中差异最大特征的差异分布图
图3是训练集中各个特征以及最终整合模型的AUC曲线
图4是验证集中最终整合模型的AUC曲线
图5是验证集中良性结节及恶性乳腺肿瘤在最终模型下预测出的分数分布
实施方式
本发明中的计算方法详述如下:
本发明首先需要从血液样本中对cfDNA的提取,建库,测序等步骤。这里的提取,建库方法没有特别的限定,可从现有技术中的提取方法中进行调整,这里的测序过程中可以采用现有技术中的测序技术中获得cfDNA的碱基信息。本发明中的参考基因组采用hg19版。
本专利中的模型的目的是用于区分恶性乳腺肿瘤(malignant breast cancer)和良性结节(benign nodes),对样本进行分类。在训练过程中,根据后续术后病理判定为良性结节的患者作为对照组,判定为恶性乳腺癌的患者作为阳性。
本发明的模型构建过程采用的数据集情况如下:
表1
血浆cfDNA样本的提取和测序方法:
对患者进行液体活检,采用紫色血液采血管(EDTA抗凝管)收集患者10ml全血样本,及时离心分离血浆(2小时内),在-80摄氏度冷冻保存下,转至实验室分析。转运至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的ctDNA样本建库后,进行WGS的5乘测序。在获得了下机数据之后,将数据比对至人类参考基因组(hg19版),获得相应的读段的碱基数据信息。
本专利的模型建立过程主要如下:
步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得cfDNA 片段化数据;
步骤2,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第一特征;
步骤3,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度。对cfDNA短读段以及长读段在该窗口中全部片段中所占的比例,作为第二特征值;
步骤4,将每个染色体臂水平上分别计算在100bp到220bp范围内以5bp为读长的片段覆盖度,作为第三特征。
步骤5,将DNA片段断点处的碱基组合出现的频率,作为第四特征;
步骤6,将DNA片段末端处的碱基组合出现的频率,作为第五特征;
步骤7,将阳性组和对照组的样本的模型特征向量输入第一层模型,选择出各个特征对应的最好模型,进行取平均值整合,作为最后的模型输出结果。
本专利的特征值共五个,分别详述如下:
1 Mb窗口拷贝数变化(1 Mb-Bin Copy Number Variation, CNV)
拷贝数变化与个体癌症有显高度相关性,尽管已经可以通过检测部分癌症相关基因或特定基因组区间的拷贝数数变化从而进行区分,但仍有其他稀有或未知基因或区间可以提供潜在拷贝数变化信息。
拷贝数据收集方法:首先收集30例健康人的WGS数据,将参考基因1-22号染色体以1Mb的长度无重叠划分窗口,利用bedtools coverage对每个样本计算各个窗口内的读段深度,并根据各自窗口的GC含量和平均比对能力记录(UCSC BigWig文件)进行矫正,取每个窗口中的30位健康人的中位深度作为代表,获得2475个窗口读段深度的群体对照基线;对每个待测样本,同样获得2475个窗口个体读段深度信息,利用隐马尔可夫模型(HiddenMarkov Model,HMM)和每个窗口群体对照基线深度,构建每个窗口的拷贝数变化对数,即log2(待测样本矫正均一化后深度/群体基线矫正均一化后深度),从而获得每个待测样本的拷贝数变化信息。
2. cfDNA DNA 片段化长度比值差异(Fragment size ratio, FSR)
对于DNA片段大小占比,其反映的是cfDNA读段的长度大小的占比特征。利用DNA片段大小覆盖深度(fragmentation size ratio)进行机器学习建立预测模型,从而区分恶性乳腺癌和良性乳腺结节。通过比较恶性乳腺癌和良性乳腺结节的cfDNA读段的长度,发现100-150bp,151-220bp和100-220bp间的片段数量在染色体上的分布存在差异,可以作为区分特征。
cfDNA读段长度数据是通过如下方法获取得到的:在比对好的BAM当中,记录了每一条读段的质量,长度和比对位置信息,人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California, Santa Cruz, UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度,切割成541个窗口,分别统计每一个窗口中的全部读段数量(100-220bp),短读段数量(100-150bp)和长读段数量(151-220bp)。根据所有窗口中各种读段数量统计结果,分别对每种读段数量进行标准化换算,即标准化值=(原始值–平均值)/标准差。由此得到了1082 (541*2 = 1082)组不同长度 (短读段以及长读段)的读段数量的数集。在纳入至特征值数据集中,根据读段的数量需要计算出在各个窗口当中的不同长度范围内的读段数据占比,比例值是由相应的长度范围内的cfDNA的数量/该窗口中全部cfDNA读段的数量计算得到。
cfDNA 片段化大小分布(Fragment Size Distribution,FSD)
在获取了DNA片段大小占比的基础上,为获得高分辨率读段结果,以人类参考基因组各染色体长短臂39个区域作为窗口,如下所示:
表2
chr1_p chr4_q chr8_p chr11_q chr16_q chr20_p
chr1_q chr5_p chr8_q chr12_p chr17_p chr20_q
chr2_p chr5_q chr9_p chr12_q chr17_q chr21_q
chr2_q chr6_p chr9_q chr13_q chr18_p chr22_q
chr3_p chr6_q chr10_p chr14_q chr18_q
chr3_q chr7_p chr10_q chr15_q chr19_p
chr4_p chr7_q chr11_p chr16_p chr19_q
将100-220bp的片段,以5bp递增,划分24个长度梯度(例,chr1的1q臂上100-104bp,105-109bp……),对每个长度梯度在各长短臂窗口内片段数量进行统计,并进行标准化换算,从而获得高分辨率DNA片段大小分布结果共计936个特征结果(936 = 39*24个长度梯度标准化结果)。
4. cfDNA 断点序列(BreakPoint Motif, BPM)
人类参考基因组是DNA双螺旋结构,依靠碱基互补配对氢离键链接;在正常衰老和癌症进展过程中,细胞周围环境的酸碱度发生变化,从而破坏了碱基互补氢键,发生断裂;在DNA进入血液循环后,DNA发生了非随机断裂。该过程可能与组织来源,疾病状态,核小体的开放程度和核酸内切酶的活性均有相关性。由于断裂处的碱基序列不同,包含不同断点处序列的信息的序列占比也会不同。收集方法:比对后的bam中,记录了每一条读段的基本信息和比对到的位置,确认每一条读段的5‘端所在人类参考基因组序列坐标的断点左右各4bp序列,统计每种断点处的8bp长度序列(共计4**8=65536种)的读段数量,从而计算出65536种断点处序列读段占比,例AAAAAAAA读段占比=AAAAAAAA读段数量/所有断点处序列读段总数。
5.cfDNA 末端序列(End Motif,EDM)
比对后获取每一条读段内5’端8bp序列,统计每种末端序列(共计4**8=65536种)的读段数量,从而计算出65536种末端序列读段占比,例AAAAAAAA序列占比 = AAAAAAAA读段数量/所有末端序列读段总数。
通过上述的数据获取,分别能够获得这五类数据的初始数据向量。接下来,再设计相应的计算方法:
1. 广义线性回归模型(Generalized Logistic Regression, glm)
广义线性回归模型是机器学习中常见的一类算法,是为了克服线性回归模型的缺点出现的,旨在解决普通线性回归模型无法处理的因变量离散问题,是线性回归模型的推广。他通过对线性预测结果与因变量y的值之间建立一座桥梁,建立一个链接函数,是线性和非线性的桥梁。
2. 梯度提升模型(Gradient Boosting, GBM)
梯度提升模型算法在每一轮迭代中,首先计算出当前模型在所有样本上的负梯度,然后以该值为目标训练一个新的弱分类器进行拟合,并计算出该弱分类器的权重,最终实现对模型的更新。
3. 随机森林(random forest)
随机森林是一个强大的分类和回归工具,用于高维度和多重共线性的情况。当提供一组数据集合,随机森林可以随机抽取部分信息产生一组帮助分类或回归的决策树林,做节点***属性,不断重复随机抽取,直至不能再***;最后结合所有***属性结果,获得最终预测结果。
4. 深度学习神经网络模型神经网络(Deep Learning Neural network)
神经网络由输入,权重,偏差或阈值以及输出组成,任何单个节点的输出高于指定的阈值,则激活该节点,将数据发送到网络的下一层。输入层的每个节点,都要与隐藏层的每个节点做点对点的计算,运用加权求和和激活的方法。利用隐藏层计算出的每个值,再用相同的方法,和输出层进行计算。他具有分类准确度高,并行分布处理能力强,分布存储及学习能力强的优点。
5. 极致梯度提升(extreme gradient boosting, xgboost)
是一种基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的集成思想加法模型的优化算法。他利用二阶泰勒公式展开,优化损失函数,提高计算精准度,利用正则项去简化模型,避免过拟合,采用Blocks存储结构,可以并行计算。
另外,本专利还采用了随机搜索超参数(Random Grid Search Parameters)算法,用于对模型进行优化。随机搜索是一种常见的机器学习超参优化的方法。随机搜索就是在特定的模型参数范围之中随机抽取参数值,对多个抽样的参数值中选取最优的参数组合。该方法不是尝试所有可能的组合,而是通过选择每一个超参数的一个随机值的特定数量的随机组合。随机搜索相较于使用人工调优和网络搜素进行模型调参,可以用较少的搜索次数达到比较良好的效果,提供了一种更高效的解决方法(特别是参数数量多的情况下)。
在模型的优化和参数调整过程中,本专利使用的五种算法的超参数如下表所示:
表3
算法(Algorithms) 模型超参数 (Hyperparameters)
广义线性回归模型(GLM) alpha {0.0,0.2,0.4,0.6,0.8,1.0}
极致梯度提升模型(XGBoost) max_depth {3,4,5,6,7,8,9,10,15,20};min_rows {0.01,0.1,1.0,3.0,5.0,10.0,15.0,20.0}min_child_weight {3,5,10,15,20}
随机森林(Random Forest) max_depth {3,4,5,6,7,8,9,10,11,12,13,14,15,16,17}min_rows {1,5,10,15,30,100}ntrees: 10000
深度学习神经网络模型(Deep Learning) epsilon {1e-6,1e-7,1e-8,1e-9}hidden {20},{50},{100}rho {0.9, 0.95, 0.99}
梯度提升模型(GBM) max_depth{3,4,5,6,7,8,9,10}min_rows{1,5,10,15,30,100}nbins{10,20,40,60}
在获得98例恶性乳腺癌和93例良性乳腺结节的患者上述五类初始数据后,将拷贝数量变化(CNV)统计结果作为输入值,分别通过五种分类模型对恶性乳腺肿瘤样本与良性乳腺结节样本进行分类,在进行筛选的过程中,还分别对这五类模型通过随机搜素超参数进行参数和结构的变化,作为子模型进行数据的训练和模型的建议,再选出该特征的三个最优子模型,在筛选时是以模型的训练集的AUC曲线作为分类效果的指标;同样地,通过收集恶性乳腺肿瘤和良性乳腺结节的cfDNA片段大小比值(FSR),cfDNA片段大小分布(FSD),断点序列(BPM)和末端序列(EDM)也分别作为输入值,并为每个特征选择出最优的三个子模型(具体的模型优化过程同上),通过上述的计算过程,共得到3X5=15个模型的计算结果。在每个计算中,可以获得每个特征向量对于分类结果的贡献值。各个特征选择出的3个最优模型(共计15个模型)分别是如下表所示:
每个特征所选的最优模型的贡献值排前的特征变量以及贡献值如下:
拷贝数变化(CNV)极致梯度提升XGBoost模型:
表4
变量 贡献值 变量 贡献值
1 Cnv.22.46000001.47000000 1 21 Cnv.3.50000001.51000000 0.192185063
2 Cnv.4.176000001.177000000 0.707718729 22 Cnv.4.135000001.136000000 0.187070758
3 Cnv.4.103000001.104000000 0.702344457 23 Cnv.12.97000001.98000000 0.159003193
4 Cnv.6.132000001.133000000 0.603610479 24 Cnv.7.82000001.83000000 0.158473368
5 Cnv.22.48000001.49000000 0.584821318 25 Cnv.10.126000001.127000000 0.153133441
6 Cnv.3.101000001.102000000 0.51322448 26 Cnv.8.33000001.34000000 0.152661605
7 Cnv.3.153000001.154000000 0.497560161 27 Cnv.22.29000001.30000000 0.131411155
8 Cnv.13.75000001.76000000 0.480732668 28 Cnv.5.122000001.123000000 0.128729099
9 Cnv.12.76000001.77000000 0.353319757 29 Cnv.6.3000001.4000000 0.128214895
10 Cnv.9.134000001.135000000 0.344604821 30 Cnv.1.241000001.242000000 0.1216052
11 Cnv.2.129000001.130000000 0.329638899 31 Cnv.12.82000001.83000000 0.118804964
12 Cnv.18.34000001.35000000 0.267532225 32 Cnv.13.105000001.106000000 0.114712761
13 Cnv.8.110000001.111000000 0.26669307 33 Cnv.7.5000001.6000000 0.114293264
14 Cnv.3.80000001.81000000 0.256606013 34 Cnv.8.10000001.11000000 0.105616978
15 Cnv.16.56000001.57000000 0.253101489 35 Cnv.3.189000001.190000000 0.105581721
16 Cnv.3.21000001.22000000 0.232077932 36 Cnv.11.97000001.98000000 0.102099504
17 Cnv.16.50000001.51000000 0.22288311 37 Cnv.9.107000001.108000000 0.09950168
18 Cnv.3.41000001.42000000 0.211229986 38 Cnv.19.34000001.35000000 0.0989202
19 Cnv.6.81000001.82000000 0.202457945 39 Cnv.3.52000001.53000000 0.089593942
20 Cnv.15.62000001.63000000 0.201399251 40 Cnv.18.35000001.36000000 0.085212451
21 Cnv.3.50000001.51000000 0.192185063
22 Cnv.4.135000001.136000000 0.187070758
23 Cnv.12.97000001.98000000 0.159003193
24 Cnv.7.82000001.83000000 0.158473368
25 Cnv.10.126000001.127000000 0.153133441
cfDNA片段大小比例(FSR)极致梯度提升XGBoost模型:
表5
变量 贡献值 变量 贡献值
1 Frag.longA408 1 26 Frag.longA60 0.09980968
2 Frag.shortA64 0.85819829 27 Frag.shortA251 0.09972169
3 Frag.longA46 0.64443052 28 Frag.longA535 0.0921953
4 Frag.longA102 0.63926766 29 Frag.longA523 0.0898759
5 Frag.longA223 0.42440395 30 Frag.longA237 0.08636216
6 Frag.longA316 0.29105056 31 Frag.longA44 0.08317273
7 Frag.longA30 0.25139644 32 Frag.shortA227 0.08238297
8 Frag.longA101 0.24885936 33 Frag.longA492 0.07812515
9 Frag.shortA346 0.24481562 34 Frag.longA71 0.07647141
10 Frag.longA248 0.23781 35 Frag.longA257 0.0744764
11 Frag.longA32 0.19572478 36 Frag.longA389 0.07397167
12 Frag.shortA511 0.19031787 37 Frag.shortA360 0.07290724
13 Frag.longA163 0.16107737 38 Frag.longA430 0.06958323
14 Frag.shortA310 0.15044681 39 Frag.shortA87 0.06900854
15 Frag.shortA146 0.13785492 40 Frag.shortA312 0.06695638
16 Frag.shortA491 0.1351144 41 Frag.longA108 0.06349707
17 Frag.longA185 0.1294817 42 Frag.shortA389 0.06096496
18 Frag.longA130 0.12876509 43 Frag.shortA35 0.05931402
19 Frag.shortA408 0.12708398 44 Frag.shortA61 0.05915703
20 Frag.shortA332 0.12464014 45 Frag.shortA393 0.05727665
21 Frag.shortA253 0.12012323 46 Frag.shortA353 0.05415344
22 Frag.longA245 0.11298206 47 Frag.longA195 0.0530392
23 Frag.longA219 0.10198909 48 Frag.shortA63 0.05250434
24 Frag.shortA196 0.10106005 49 Frag.longA517 0.0520624
25 Frag.longA208 0.0999192 50 Frag.shortA361 0.05163735
cfDNA片段大小分布(FSD)深度学习神经网络回归模型(DeepLearning,NN):
表6
变量 贡献值 变量 贡献值
1 FragArm.chr19.19p.frag.200.204 1 26 FragArm.chr22.22q.frag.215.219 0.62650544
2 FragArm.chr19.19q.frag.205.209 0.93421996 27 FragArm.chr7.7q.frag.170.174 0.62340617
3 FragArm.chr17.17q.frag.170.174 0.84517437 28 FragArm.chr3.3p.frag.170.174 0.621714
4 FragArm.chr11.11q.frag.170.174 0.74109721 29 FragArm.chr21.21q.frag.215.219 0.61096567
5 FragArm.chr8.8p.frag.215.219 0.72974157 30 FragArm.chr20.20p.frag.210.214 0.60664117
6 FragArm.chr18.18q.frag.170.174 0.72518045 31 FragArm.chr7.7p.frag.170.174 0.6036374
7 FragArm.chr4.4q.frag.170.174 0.71589434 32 FragArm.chr9.9q.frag.215.219 0.60263228
8 FragArm.chr22.22q.frag.170.174 0.71454889 33 FragArm.chr9.9q.frag.170.174 0.59463716
9 FragArm.chr8.8q.frag.170.174 0.71383041 34 FragArm.chr19.19p.frag.205.209 0.58072054
10 FragArm.chr15.15q.frag.170.174 0.70367897 35 FragArm.chr17.17p.frag.200.204 0.57559198
11 FragArm.chr6.6p.frag.170.174 0.70319629 36 FragArm.chr16.16q.frag.215.219 0.57427329
12 FragArm.chr18.18p.frag.175.179 0.69913715 37 FragArm.chr2.2p.frag.170.174 0.57368487
13 FragArm.chr20.20p.frag.175.179 0.68919247 38 FragArm.chr13.13q.frag.170.174 0.57236755
14 FragArm.chr19.19q.frag.170.174 0.68403781 39 FragArm.chr20.20p.frag.205.209 0.57026112
15 FragArm.chr19.19q.frag.210.214 0.67318714 40 FragArm.chr1.1q.frag.170.174 0.56910765
16 FragArm.chr9.9p.frag.215.219 0.67183381 41 FragArm.chr10.10p.frag.170.174 0.56614232
17 FragArm.chr12.12p.frag.170.174 0.64841783 42 FragArm.chr14.14q.frag.170.174 0.56131285
18 FragArm.chr1.1p.frag.170.174 0.63953185 43 FragArm.chr8.8p.frag.175.179 0.5551706
19 FragArm.chr20.20q.frag.215.219 0.6361028 44 FragArm.chr5.5p.frag.175.179 0.55327171
20 FragArm.chr12.12p.frag.215.219 0.63554609 45 FragArm.chr19.19q.frag.175.179 0.55095059
21 FragArm.chr6.6q.frag.170.174 0.63494736 46 FragArm.chr12.12q.frag.170.174 0.55088931
22 FragArm.chr17.17p.frag.170.174 0.63375968 47 FragArm.chr10.10q.frag.170.174 0.54725403
23 FragArm.chr2.2q.frag.170.174 0.63122767 48 FragArm.chr10.10p.frag.215.219 0.54440355
24 FragArm.chr3.3q.frag.170.174 0.62818843 49 FragArm.chr18.18p.frag.195.199 0.53650242
25 FragArm.chr5.5p.frag.215.219 0.62724286 50 FragArm.chr19.19p.frag.175.179 0.53099901
断点序列深度学习神经网络回归模型(DeepLearning, NN):
表7
变量 贡献值 变量 贡献值
1 BPM_ACGAAGTT 1 26 BPM_AGAAGTAC 0.66628772
2 BPM_CAATTATA 0.94607401 27 BPM_TAACGCGC 0.66143578
3 BPM_AGCGGTTC 0.89684391 28 BPM_GTGCGTAA 0.6593492
4 BPM_CCGGATCT 0.8741132 29 BPM_TCGTATCT 0.65734679
5 BPM_GACTCGCG 0.85113877 30 BPM_CCGTAACA 0.65716744
6 BPM_TCCATGCA 0.81111783 31 BPM_AAAAGGTC 0.65640622
7 BPM_GTGCAAAT 0.8035053 32 BPM_GCCGCGGT 0.6516785
8 BPM_TCGACGGA 0.79976958 33 BPM_ATAAGGGC 0.64762968
9 BPM_CGGCACGG 0.78045821 34 BPM_TTCGTTTA 0.64635307
10 BPM_ATCCGTAA 0.76044983 35 BPM_GCGGCCGG 0.64323455
11 BPM_GGCGTGCC 0.75822753 36 BPM_TCCGTTCT 0.64271921
12 BPM_CCGGAACG 0.73871589 37 BPM_ATGCGAAG 0.64210856
13 BPM_CAAAACTA 0.72939718 38 BPM_GCTGAGCA 0.6320973
14 BPM_TATAGTTA 0.71431983 39 BPM_TGATTATA 0.62828749
15 BPM_AGCACAAT 0.71318734 40 BPM_TACTTGCC 0.62744111
16 BPM_GTTCCGGG 0.71131843 41 BPM_AAACCCCC 0.62479603
17 BPM_GGCTTGAA 0.70888007 42 BPM_ATCCCCGT 0.61880386
18 BPM_AACGTTCG 0.7037878 43 BPM_CATAGGAA 0.61735392
19 BPM_TCGTGCGG 0.70090812 44 BPM_GTGCTCGT 0.61727566
20 BPM_AACGACCC 0.69668245 45 BPM_TCCGAAAA 0.6157372
21 BPM_CCGCGGAT 0.69300968 46 BPM_TCGGCGAT 0.6151548
22 BPM_TGTATCCT 0.67933434 47 BPM_CTCGTCCC 0.6127463
23 BPM_ATCTTTCC 0.67813677 48 BPM_TTCGGTTT 0.61045146
24 BPM_TGCGAGTC 0.67347133 49 BPM_TAAAGTTA 0.60864198
25 BPM_ACGTCTTG 0.6698823 50 BPM_TATCGCCC 0.60788792
末端序列深度学习神经网络回归模型(DeepLearning,NN):
表8
变量 贡献值 变量 贡献值
1 EDM_GAGTCGAT 1 26 EDM_CGTACGCG 0.67282635
2 EDM_CAGCCGCT 0.94303036 27 EDM_CTAACGTA 0.67080379
3 EDM_AGCGTTAC 0.89571661 28 EDM_GGGATATG 0.66796774
4 EDM_GAACGTAT 0.82257056 29 EDM_TGTACCTT 0.66630644
5 EDM_CGTGCTAG 0.78153014 30 EDM_GCGATAGA 0.66531879
6 EDM_GGTGATAA 0.73706114 31 EDM_GCATTCGG 0.6649462
7 EDM_GGATCGGG 0.73158205 32 EDM_ACGATTCT 0.66256285
8 EDM_AACGACGT 0.72405159 33 EDM_AGGCGCTA 0.65348101
9 EDM_TAACGAGT 0.72331977 34 EDM_ATCCAACG 0.64768285
10 EDM_CTATATAA 0.72320271 35 EDM_CTCGTGTT 0.64099795
11 EDM_GTTCCGAA 0.72225255 36 EDM_ATATTGCC 0.63993442
12 EDM_GCGCTATC 0.71595263 37 EDM_CAGTCAAG 0.63803053
13 EDM_ACGAACGA 0.71322638 38 EDM_GCGAAGCG 0.63759154
14 EDM_TCGACATA 0.69361341 39 EDM_TCCTGTGG 0.63716823
15 EDM_ACCTCGCC 0.69169796 40 EDM_ACTCTCTC 0.63659197
16 EDM_CACCGGAT 0.69112372 41 EDM_GGCGATCA 0.63594854
17 EDM_CGTATCGG 0.69073415 42 EDM_CCCCCCTG 0.63546211
18 EDM_GGGTTGCA 0.69031698 43 EDM_TCGTGCCA 0.63408917
19 EDM_GACCGGCG 0.68690753 44 EDM_TCCCTACT 0.63252074
20 EDM_GTACGTCC 0.68384075 45 EDM_GCCGTGAC 0.63248158
21 EDM_GGTGGACA 0.68310016 46 EDM_CGTCGCTG 0.63233876
22 EDM_GGCGCGAG 0.67621911 47 EDM_GATTCGCT 0.63176686
23 EDM_AGGTTCTC 0.67594147 48 EDM_CAATGCCC 0.63152003
24 EDM_CGGGTATA 0.67563164 49 EDM_TTAGTCGT 0.63035995
25 EDM_GAGGTATT 0.67491972 50 EDM_CAAATCCT 0.63023627
将15种训练模型转化为最终线性方程:ALLStacked=(CNVmodel1+ CNVmodel2+CNVmodel3+ FSRmodel1+ FSRmodel2+ FSRmodel3+ FSDmodel1+ FSDmodel2+ FSDmodel3+BPMmodel1+ BPMmodel2+ BPMmodel3+ EDMmodel1+ EDMmodel2+ EDMmodel3)/15。
表9
模型 模型基本参数
CNV_1 Max_depth = {9}, Min_rows = {15}, Min_child_weight = {15}
CNV_2 Max_depth = {9}, Min_rows = {15}, Min_child_weight = {15}
CNV_3 Max_depth = {15}, Min_rows = {15}, Min_child_weight = {15}
FSR_1 Max_depth = {3}, Min_rows = {5}, Min_child_weight = {5}
FSR_2 epsilon = 1e-6, , rho = {0.9}, hidden = {100}
FSR_3 Max_depth = {12}, Min_rows = {3}, Min_child_weight = {3}
FSD_1 epsilon = 1e-6, rho = {0.95}, hidden = {100}
FSD_2 epsilon = 1e-6, rho = {0.9}, hidden = {50}
FSD_3 epsilon = 1e-6, rho = {0.95}, hidden = {20}
BPM_1 epsilon = 1e-6, rho = {0.9}, hidden = {50}
BPM_2 epsilon = 1e-6, rho = {0.95}, hidden = {20}
BPM_3 epsilon = 1e-6, rho = {0.9}, hidden = {50}
EDM_1 epsilon = 1e-7, rho = {0.95}, hidden = {50}
EDM_2 epsilon = 1e-6, rho = {0.95}, hidden = {50}
EDM_3 epsilon = 1e-9, rho = {0.9}, hidden = {100}
将15个单特征子模型进行二次集合取各子模型结果的均值,二次集合模型的预测效果相较于单特征模型的预测效果有所提升,采用训练集90%灵敏性作为模型预测良性乳腺结节和恶性乳腺肿瘤的截段值,最终针对训练集的预测效果AUC高达91.2%,训练集灵敏性90%,训练集特异性76.3%。针对验证集的预测效果AUC为89.3%,验证集特异性为85.9%,验证集灵敏性为89.8%。

Claims (2)

1.基因标志物在制备恶性乳腺癌与良性乳腺结节的早筛检测试剂中的应用,其特征在于,所述的基因标志物包括:
第一标志物:WGS数据中染色体上不同窗口中的拷贝数;
第二标志物:cfDNA片段比对至参考基因组的不同窗口中的短读段数量占比和长读段数量占比;所述的短读段的碱基长度是100-150bp,所述的长读段的碱基长度是151-220bp;
第三标志物:cfDNA片段比对至参考基因组的长臂和短臂上的不同长度梯度区间中的读段数量;不同长度梯度区间是指在100-220bp范围内以5bp步长递增而得到的不同长度梯度范围;所述的长臂和短臂选自如下的染色体臂:
chr1_p、chr4_q、chr8_p、chr11_q、chr16_q、chr20_p、chr1_q、chr5_p、chr8_q、chr12_p、chr17_p、chr20_q、chr2_p、chr5_q、chr9_p、chr12_q、chr17_q、chr21_q、chr2_q、chr6_p、chr9_q、chr13_q、chr18_p、chr22_q、chr3_p、chr6_q、chr10_p、chr14_q、chr18_q、chr3_q、chr7_p、chr10_q、chr15_q、chr19_p、chr4_p、chr7_q、chr11_p、chr16_p、chr19_q;其中字符chr及其后的数字代表染色体编号,q代表长臂,p代表短臂;
第四标志物:cfDNA片段比对参考基因组上的断点处的上下游各n个bp的碱基序列在全部碱基序列中的占比;
第五标志物:不同种类的cfDNA片段比对至参考基因组的5’端的m个碱基片段在全部碱基片段中的占比;
所述的第一标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得WGS数据中1-22号染色体上不同窗口中的拷贝数数据;窗口大小为0.8-1.2M;
所述的第二标志物通过如下步骤获得:将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的短读段和长读段cfDNA在该窗口中全部cfDNA片段中的比例;
所述的第三标志物通过如下步骤获得:cfDNA片段比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量;
所述的第四标志物通过如下步骤获得:将cfDNA片段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
所述的第五标志物通过如下步骤获得:将cfDNA片段的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例;n是4,m是8。
2.恶性乳腺癌筛查模型的构建方法,其特征在于,所述的模型用于对样本进行恶性乳腺癌和良性乳腺结节的分类,包括如下步骤:
步骤1,对恶性乳腺癌患者和对照组的样本进行cfDNA的提取并测序,获得cfDNA片段化的信息;
步骤2,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第一特征值;
步骤3,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量占比和长读段数量占比,作为第二特征集合,所述的短读段的碱基长度为100-150bp,所述的长读段的碱基长度为151-220bp;
步骤4,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第三特征集合;不同长度梯度区间是指在100-220bp范围内以5bp步长递增而得到的不同长度梯度范围;所述的长臂和短臂选自如下的染色体臂:
chr1_p、chr4_q、chr8_p、chr11_q、chr16_q、chr20_p、chr1_q、chr5_p、chr8_q、chr12_p、chr17_p、chr20_q、chr2_p、chr5_q、chr9_p、chr12_q、chr17_q、chr21_q、chr2_q、chr6_p、chr9_q、chr13_q、chr18_p、chr22_q、chr3_p、chr6_q、chr10_p、chr14_q、chr18_q、chr3_q、chr7_p、chr10_q、chr15_q、chr19_p、chr4_p、chr7_q、chr11_p、chr16_p、chr19_q;其中字符chr及其后的数字代表染色体编号,q代表长臂,p代表短臂;
步骤5,将读段数据结果比对至参考基因组,得到读段的5’端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合;
步骤6,将读段数据中的5’端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第五特征集合;
步骤7,以第一,第二,第三,第四以及第五特征集合共同作为初始特征值,作为模型特征向量输入至分类模型中,并以恶性乳腺癌及良性结节分类结果作为输出值,对模型进行训练,获得恶性乳腺癌筛查模型;
所述的步骤2中的窗口是将参考基因1-22号染色体以0.8-1.2Mb的长度无重叠划分得到的;
所述的步骤3中包括:
步骤3-1,将参考基因组按5Mb为长度划分为多个窗口;
步骤3-2,统计出比对于各个窗口中的短读段和长读段cfDNA在该窗口中全部cfDNA片段中的比例;
所述的步骤4中读段数量经过了标准化处理;
所述的步骤5中,n是4;所述的步骤6中,m是8;
所述的步骤7中,输入至分类模型是指分别将第一、第二、第三、第四和第五特征集合输入至广义线性回归模型、梯度提升模型、随机森林、深度学习神经网络模型、极致梯度提升模型中,获得多个子模型,并将子模型联立为线性关系模型;
在获得多个子模型的过程中,还分别根据第一、第二、第三、第四和第五特征集合的各个子模型的分类性能进行筛选后,将筛选得到的子模型应用于线性关系模型中。
CN202310446774.6A 2023-04-24 2023-04-24 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 Active CN116153420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310446774.6A CN116153420B (zh) 2023-04-24 2023-04-24 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310446774.6A CN116153420B (zh) 2023-04-24 2023-04-24 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法

Publications (2)

Publication Number Publication Date
CN116153420A CN116153420A (zh) 2023-05-23
CN116153420B true CN116153420B (zh) 2023-08-18

Family

ID=86356536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310446774.6A Active CN116153420B (zh) 2023-04-24 2023-04-24 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法

Country Status (1)

Country Link
CN (1) CN116153420B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403637A (zh) * 2023-06-08 2023-07-07 深圳市睿法生物科技有限公司 一种肝硬化标志物的模型构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863250A (zh) * 2020-08-14 2020-10-30 中国科学院大学温州研究院(温州生物材料与工程研究所) 一种早期乳腺癌的联合诊断模型及***
CN111910004A (zh) * 2020-08-14 2020-11-10 中国科学院大学温州研究院(温州生物材料与工程研究所) cfDNA在早期乳腺癌无创诊断中的应用
US10993653B1 (en) * 2018-07-13 2021-05-04 Johnson Thomas Machine learning based non-invasive diagnosis of thyroid disease
CN114927213A (zh) * 2022-04-15 2022-08-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10993653B1 (en) * 2018-07-13 2021-05-04 Johnson Thomas Machine learning based non-invasive diagnosis of thyroid disease
CN111863250A (zh) * 2020-08-14 2020-10-30 中国科学院大学温州研究院(温州生物材料与工程研究所) 一种早期乳腺癌的联合诊断模型及***
CN111910004A (zh) * 2020-08-14 2020-11-10 中国科学院大学温州研究院(温州生物材料与工程研究所) cfDNA在早期乳腺癌无创诊断中的应用
CN114927213A (zh) * 2022-04-15 2022-08-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置

Also Published As

Publication number Publication date
CN116153420A (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN109872772B (zh) 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及***
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN111243673B (zh) 肿瘤筛查模型、其构建方法和装置
CN115295074B (zh) 基因标志物在恶性肺结节筛查中的应用、筛查模型的构建方法和检测装置
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及***
CN116153420B (zh) 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN110428899B (zh) 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法
CN113862351B (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
CN114093512B (zh) 一种基于多模态数据和深度学习模型的生存预测方法
CN113421608A (zh) 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN111564177A (zh) 基于dna甲基化的早期非小细胞肺癌复发模型构建方法
CN110714078A (zh) 一种用于ii期结直肠癌复发预测的标记基因及应用
CN114613430A (zh) 一种假阳性核苷酸变异位点的过滤方法及计算设备
CN113903398A (zh) 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质
CN112382341B (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
Nayak et al. ReCuRandom: A hybrid machine learning model for significant gene identification
CN115881296B (zh) 一种甲状腺***状癌(ptc)风险辅助分层***
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测***
KR20220133516A (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant