CN111833963A - 一种cfDNA分类方法、装置和用途 - Google Patents

一种cfDNA分类方法、装置和用途 Download PDF

Info

Publication number
CN111833963A
CN111833963A CN201910374094.1A CN201910374094A CN111833963A CN 111833963 A CN111833963 A CN 111833963A CN 201910374094 A CN201910374094 A CN 201910374094A CN 111833963 A CN111833963 A CN 111833963A
Authority
CN
China
Prior art keywords
cancer
cfdna
urothelial
normal
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910374094.1A
Other languages
English (en)
Other versions
CN111833963B (zh
Inventor
慈维敏
葛广哲
周媛媛
李学松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Genomics of CAS
Peking University First Hospital
Original Assignee
Beijing Institute of Genomics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Genomics of CAS filed Critical Beijing Institute of Genomics of CAS
Priority to CN201910374094.1A priority Critical patent/CN111833963B/zh
Priority to US17/609,036 priority patent/US20220336043A1/en
Priority to PCT/CN2020/087830 priority patent/WO2020224504A1/zh
Publication of CN111833963A publication Critical patent/CN111833963A/zh
Application granted granted Critical
Publication of CN111833963B publication Critical patent/CN111833963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)

Abstract

本发明属于基因组学和生物信息学领域,涉及一种cfDNA分类方法、装置和用途。具体地,本发明涉及一种cfDNA分类方法,包括:计算目标样本中的cfDNA的拷贝数变异数据;计算目标cfDNA拷贝数变异数据与各分类标签的cfDNA拷贝数变异数据的相似度;根据所述相似度,利用分类器模型确定所述目标cfDNA所属的分类。本发明能够实现一次性完成多达3种泌尿生殖***肿瘤的诊断,具有较高的敏感性和特异性。特别是在尿路上皮癌的诊断和动态监测的方面的敏感性和特异性高于了目前临床使用的检测方法。

Description

一种cfDNA分类方法、装置和用途
技术领域
本发明属于基因组学和生物信息学领域,涉及一种cfDNA分类方法、装置和用途。
背景技术
泌尿生殖***肿瘤(***癌、尿路上皮癌和肾癌)是危害人类健康的严重疾病。而对于泌尿生殖***肿瘤的诊断和监测方法通常是侵入性的,或者缺乏敏感性和特异性。
肾癌大约占成人恶性肿瘤的3%,占肾脏肿瘤的90%-95%,其中约75%为肾脏透明细胞癌。目前,手术治疗仍是局限性肾癌最有效的治疗方法,但是术后大约有20%-40%患者将复发。肾细胞癌对放疗和化疗敏感性低。肾癌患者的死亡率高达40%,肾癌引起的高死亡率主要是因为其早期缺乏明显的临床症状,进展期缺乏有效的治疗方法。目前,影像学、细针针吸细胞学检查(fine needle aspiration,FNA),空芯针活检(core biopsy,CB)只能辅助监测,无法给出明确的诊断。目前没有一种敏感性和特异性均较好的肿瘤标志物可用于肾癌的早期诊断及术后随访。
尿路上皮癌是起源于是发生在肾盂、输尿管、膀胱、尿道等覆盖移行上皮细胞的恶性肿瘤,主要包括肾盂和输尿管所在的上尿路上皮癌和膀胱癌。其中上尿路上皮癌相对少见,仅占尿路上皮癌的5%-10%,但在中国上尿路上皮癌占尿路上皮癌的比例高达30%。有多项研究表明上尿路上皮癌的地域特征可能和服用含有马兜铃酸及其类似物的中药相关。另外,虽然组织来源相同,上尿路上皮癌和膀胱癌在临床病理特征方面还有很大不同。筛选尿路上皮癌的新风险因子、新靶点、诊断、预后和动态监测的新型标记物必须同时考虑这两个亚型的癌症。并且,尿路上皮癌患者高复发率可导致手术次数增加、并发症发生率增高、治疗费用增加等。复发患者最终需要进行根治性膀胱切除术或双侧肾输尿管切除术,极大地降低了生存率和生活质量。目前,膀胱癌的诊断可以通过影像学、荧光原位杂交FISH、尿细胞学检查辅助检查判断,但是对于低分级的***敏感性只有4%-31%。目前,诊断膀胱癌最主要的方法就是膀胱镜,但膀胱镜费用昂贵,并且是侵入式的,增加了病人的痛苦。此外,膀胱癌复发率较高,膀胱镜不便用于长期、终身以及预后监测。
***癌是男性常见的恶性肿瘤,一定程度上发病率呈上升趋势。***癌早期没有症状,当肿瘤发展到一定程度,会阻塞尿道或侵犯膀胱颈,造成尿频、尿急、尿失禁等。很多患者确诊时已是晚期,晚期很多患者多发生骨转移。目前,***癌公认的方法是直肠指检和***特异性抗原(PSA)检查,但是PSA的水平也会受到***炎、尿潴留、导尿和药物等因素的影响,造成不少的假阳性率。
随着科学技术的发展,对于肿瘤的诊断技术也在不断的推进。2017年6月,世界经济论坛与《科学美国人》杂志的专家委员会联合选出了2017年度全球十大新兴技术榜单,其中肿瘤的无创诊断技术成功入选并荣膺榜首。肿瘤无创诊断技术即液体活检(liquidbiopsies)的出现,标志着人类在攻克肿瘤的道路上又前进了一大步。与传统的组织活检相比,液体活检具备实时动态检测、克服肿瘤异质性、提供全面检测信息等独特优势。目前,临床研究中,液体活检主要包括游离循环肿瘤细胞(CTCs)检测、循环肿瘤DNA(ctDNA)检测、外泌体及循环RNA(Circulating RNA)检测等,与传统的依靠临床症状或影像学诊断技术比较,利用液体活检技术可以更早地发现疾病进展。液体活检预计在患者治疗过程中评估肿瘤动态和负荷变化,实时监测治疗的有效性,及监测患者机体的微小残留病灶、复发、预后评估、耐药的产生等多个方面发挥重大作用。
目前,尚需要开发新的泌尿生殖***肿瘤的检测手段,其特异性和敏感性均较好,更方便用于多次、长期和预后监测,并减少患者痛苦。
发明内容
本发明人经过深入的研究和创造性的劳动,惊奇地发现,通过在尿上清中检测游离DNA(cfDNA),有利于泌尿***中早期阶段、低级别、非浸润的肿瘤的检测或诊断。进一步地,本发明人设计并完成了实验、测序和分析,通过检测尿液上清的中的cfDNA拷贝数变异(CNV),能够实现一次性完成多达3种泌尿生殖***肿瘤的诊断和分类。由此提供了下述发明:
本发明的一个方面涉及一种cfDNA分类方法,包括:
计算目标样本中的cfDNA的拷贝数变异数据;
计算目标cfDNA拷贝数变异数据与各分类标签的cfDNA拷贝数变异数据的相似度;
根据所述相似度,利用分类器模型确定所述目标cfDNA所属的分类。
在本发明的一些实施方式中,所述的分类方法,其中,确定所述目标cfDNA所属的分类包括:
根据所述相似度,利用随机森林模型确定所述各分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度;
根据所述相关度,利用所述分类器模型确定所述目标cfDNA所属的分类。
在本发明的一些实施方式中,所述的分类方法,其中,确定所述各分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度包括:
根据所述相关度,对所述cfDNA拷贝数变异数据进行排序,以形成向量序列;
将所述向量序列输入所述随机森林模型,确定所述分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度。
在本发明的一些实施方式中,所述的分类方法,其中,所述人泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌;
优选地,所述人泌尿生殖***肿瘤通过对手术样本进行组织活检确诊。
在本发明的一些实施方式中,所述的分类方法,其中,所述随机森林模型为至少3个随机森林二元分类器,并且选自如下的I-VI组中的任意一组、两组、三组或四组:
I.
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
在本发明的一些实施方式中,所述的分类方法,其中,对每个组进行投票,取得票数最高的组对应分类为最终分类,如果得票数相等,则取得票数相等的组中预测概率最高的类别为最终分类,我们定义该集成分类方法为GUdetector。
在本发明的一些实施方式中,所述的分类方法,其中,所述目标样本中的cfDNA的拷贝数变异数据和/或所述各分类标签的cfDNA拷贝数变异数据由尿液样本中的cfDNA的测序数据计算得到;优选地,所述测序数据为全基因组测序数据;优选地,测序深度为1X-5X。
在本发明的一些实施方式中,所述的分类方法,其中,所述目标样本中的cfDNA的拷贝数变异数据和/或所述各分类标签的cfDNA拷贝数变异数据按照如下方法计算:
将待测样本的基因组划分为5000-500000个长度相等或者理论模拟拷贝数相等的bin(例如50000个bin);将测序数据进行归一化处理,并计算得到各个bin对应的reads数的比值A/B,
其中:
A是一个bin中的经GC含量校正后的实际的reads数;
B是该bin里面理论reads数,是将该样本测得的reads总数除以bin的总数;
比值A/B即为拷贝数变异。
在本发明的一个或多个实施方式中,所述的分类方法,其中,通过Varbin、CNVnator、ReadDepth或SegSeq等软件或算法,将待测样本的基因组划分为5000-500000个长度相等或者理论模拟拷贝数相等的bin。
在本发明的一个或多个实施方式中,所述的分类方法,其中,通过Varbin、CNVnator、ReadDepth或SegSeq等软件或算法,计算得到各个bin对应的reads数的比值A/B。
在本发明的一个或多个实施方式中,所述的分类方法,其中,将待测样本的基因组划分为10000-200000个长度相等或者理论模拟拷贝数相等的bin。
在本发明的一个或多个实施方式中,所述的分类方法,其中,将待测样本的基因组划分为10000-150000个长度相等或者理论模拟拷贝数相等的bin。
在本发明的一个或多个实施方式中,所述的分类方法,其中,将待测样本的基因组划分为10000-100000个(例如10000、20000、30000、40000、50000、60000、70000、80000、90000或100000个)长度相等或者理论模拟拷贝数相等的bin。
在本发明的一些实施方式中,所述的分类方法,其中,所述尿液样本为晨尿;优选地,所述尿液样本为晨尿上清。
在本发明的一些实施方式中,所述的分类方法,其中,所述比值A/B为生物标志物组合中的各生物标志物的比值A/B,
其中,
所述的生物标志物组合为下文中所描述的本发明任一项的生物标志物组合。
本发明的另一方面涉及一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的方法,包括下述步骤(1)、步骤(2)、可选的步骤(3)、步骤(4):
(1)收取尿液样本,提取cfDNA;
(2)筛选得到90-300bp的cfDNA片段或100-300bp的cfDNA片段,
(3)利用得到的cfDNA片段构建全基因组文库;
(4)将cfDNA片段按照本发明中任一项所述的分类方法进行分类。
在本发明的一些实施方式中,所述的方法,其中,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
在本发明的一些实施方式中,所述的方法,其中,步骤(1)中,所述尿液样本为晨尿;优选地,所述尿液样本为晨尿上清。
在本发明的一些实施方式中,所述的方法,其中,步骤(2)中,所述筛选为磁珠筛选。
本发明的再一方面涉及一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的装置,包括:
I.‘正常决策单元’:
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
本发明的再一方面涉及一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的装置,
包括存储器;和耦接至所述存储器的处理器,
其中,
所述存储器上存储有由处理器执行的程序指令,所述程序指令包含选自如下的4个决策单元中的任意1个、任意2个、任意3个或者全部4个决策单元,其中,每个决策单元里面包含3个随机森林二元分类器:
I.‘正常决策单元’:
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
在本发明的一些实施方式中,所述的装置,其中,所述处理器被配置为基于存储在所述存储器装置中的指令,执行本发明中任一项所述的分类方法。
在本发明的一些实施方式中,所述的装置,其中,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
本发明的再一方面涉及选自如下的1)-3)项中的任意一项在制备人泌尿生殖***肿瘤的检测、诊断、患病风险评估或预后评估的药物中的用途:
1)本发明中任一项所述的生物标志物组合;
2)人尿液中的cfDNA特别是人尿液上清中的cfDNA;
优选地,所述尿液为晨尿;
优选地,所述cfDNA为90-300bp的cfDNA或100-300bp的cfDNA;更优选地,所述cfDNA为90-150bp的cfDNA或100-150bp的cfDNA;
3)DNA文库,其由第2)项制得;优选地,所述DNA文库为全基因组文库;
优选地,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
本发明的还一个方面涉及一种生物标志物组合,其包含m个生物标志物,m为大于或等于50的正整数;
所述生物标志物为一段DNA,其对应于染色体上的起始位点为A±n1,终止位点为B±n2;
其中,所述n1和n2独立地为小于或等于60,000的非负整数;
其中,所述染色体、A和B选自如下的(1)-(7)组中的任意1组、任意2组、任意3组、任意4组、任意5组、任意6组(例如前6组)或全部7组;
(1)肾癌VS正常的生物标志物(标记物序号越小,分类效能越强)
表1
Figure BDA0002051061330000091
Figure BDA0002051061330000101
Figure BDA0002051061330000111
(2)尿路上皮癌VS正常的生物标志物(标记物序号越小,分类效能越强)
表2
Figure BDA0002051061330000112
Figure BDA0002051061330000121
Figure BDA0002051061330000131
(3)***癌VS正常的生物标志物(标记物序号越小,分类效能越强)
表3
Figure BDA0002051061330000142
Figure BDA0002051061330000151
Figure BDA0002051061330000161
(4)肾癌VS***癌的生物标志物(标记物序号越小,分类效能越强)
表4
Figure BDA0002051061330000162
Figure BDA0002051061330000171
Figure BDA0002051061330000181
(5)尿路上皮癌VS肾癌的生物标志物(标记物序号越小,分类效能越强)
表5
Figure BDA0002051061330000182
Figure BDA0002051061330000191
Figure BDA0002051061330000201
Figure BDA0002051061330000211
(6)尿路上皮癌VS***癌的生物标志物(标记物序号越小,分类效能越强)
表6
Figure BDA0002051061330000212
Figure BDA0002051061330000221
Figure BDA0002051061330000231
(7)正常VS***癌的生物标志物(考虑到性别差异,正常人群中只包括了男性,标记物序号越小,分类效能越强)
表7
Figure BDA0002051061330000232
Figure BDA0002051061330000241
Figure BDA0002051061330000251
在本发明的一些实施方式中,所述的生物标志物组合,其中,m为50-300或者大于300,例如50-100、100-150、150-200、200-250、250-300、50、100、150、200、250或300。
在本发明的一个或多个实施方案中,所述的生物标志物组合,其中,n1和n2独立地为5000、4000、3000、2000、1500、1000、500、300、200、150、100、90、80、70、60、50、40、30、20、10、5或0。
在本发明的一个或多个实施方案中,所述的生物标志物组合,其中,所述生物标志物为一段cfDNA;优选地,所述cfDNA来源于人尿液特别是人尿液上清。
在本发明的一个或多个实施方案中,所述的生物标志物组合,其中,
所述染色体、A和B如所述(1)-(7)组中的任意1组、任意2组、任意3组、任意4组、任意5组、任意6组或全部7组所示。
下面对本发明涉及的部分术语进行解释。
术语“bin”(区间/区域)是基因组学研究领域对基因组按某个长度人为定义或划分的通用描述,例如,把人的基因组约30亿个碱基对平均划分为3000个bin,那每个bin的大小就是一百万的碱基对左右。
术语“cfNA”是Cell free nucleic acid的缩写,是指血浆游离核酸,是位于外周循环中的细胞外的核酸片段。
术语“cfDNA”是Cell free DNA的缩写,是指血浆游离DNA,是位于外周循环中的细胞外的DNA片段。
术语“覆盖度(coverage)”指的是基因组上至少被检测到1次的区域,占整个基因组的比例。覆盖度是衡量基因组被数据覆盖程度的术语。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
术语“测序深度(depth)”是指是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,或者理解为基因组中每个碱基被测序到的平均次数。例如,假设一个基因大小为2M,获得的总数据量为20M,那么测序深度为20M/2M=10X。
术语“read”或“reads”是指读段,即测得的序列。
术语“pair-end reads”是指配对读段。
术语“拷贝数变异(copy number variations,CNVs)”是指较大DNA片段的缺失或重复,常见的从几百bp至几百万bp的DNA片段的拷贝数增加或者减少。CNVs是由基因组发生重排而导致的,是肿瘤的重要致病因素之一。
术语“理论模拟拷贝数”是指通过拷贝数计算软件和/或方法,将基因组划分成若干个长度相等或者不等的区域,但通过数据模拟,每个区域包含的理论上的拷贝数是相同的。
发明的有益效果
(1)微量检测,降低了测序成本,实现了较低较浅覆盖度即可检测。早期肿瘤细胞释的cfDNA中的含量一般在百分之一甚至万分之一以下,因此想检测到ctDNA中SNV(单核酸变异)和INDEL(***/缺失)水平上的变异,对于目前的DNA检测技术来讲,非常具有挑战性,而且需要很深的测序深度,但是本发明人利用cfDNA全基因组测序技术,检测其拷贝数变异的情况,理论和技术上都具备可行性。本发明人的样本测序深度仅为1X到5X,实现了高灵敏性和特异性的诊断。
(2)实现单种泌尿***肿瘤的高准确性诊断。
(3)组织特异性诊断。解决了未知情况下诊断出是什么肿瘤的问题。本发明人基于建立的分类***筛选出的生物标志物组,可以较高准确度的一次性判断样本来自于泌尿***中哪种肿瘤。
(4)真正做到无创。尿液收集简单、无创,病人无任何痛苦,利于样本收集、诊断、长期和预后定期监测。
附图说明
图1:随机森林二元分类器肾癌VS正常分类结果:敏感性72.2%,特异性93.1%,准确率85.1%。
图2:随机森林二元分类器尿路上皮癌VS正常分类结果:敏感性76.2%,特异性100%,准确率90.0%。
图3:随机森林二元分类器***癌VS正常分类结果:敏感性71.4%,特异性93.1%,准确率86.1%。
图4:随机森林二元分类器肾癌VS***癌分类结果:敏感性72.2%,特异性85.7%,准确率78.1%。
图5:随机森林二元分类器尿路上皮癌VS肾癌分类结果:敏感性95.2%,特异性77.8%,准确率87.2%。
图6:随机森林二元分类器尿路上皮癌VS***分类结果:敏感性85.7%,特异性85.7%,准确率85.7%。
图7A,GUdetector集成分类模型示意图。
图7B,集成分类决策***(GUdetector)四类分类结果,每一类预测正确率分别为正常组89.7%,尿路上皮癌76.2%,***癌64.3%,肾癌44.4%,总体准确率为72.0%。
图8:男性样本的***癌诊断模型。***癌VS正常:准确率96.7%。
图9:SVM四类分类结果(考虑性别因素,去除所有性染色体上的marker),每一类预测正确率分别为正常组84.7%,尿路上皮癌74.3%,***癌52.2%,肾癌55.8%,总体准确率为70.1%。
图10:SVM三类分类结果,每一类预测正确率分别为正常组88.5%,尿路上皮癌76.1%,肾癌64.8%,总体准确率为78.4%。
图11:SVM尿路上皮癌分类结果(定义为UCdetector),并和LASSO和随机森林方法比较。SVM预测正确率分别为正常组94.7%,尿路上皮癌86.5%,总体准确率为91.4%。LASSO预测正确率分别为正常组94.7%,尿路上皮癌75.0%,总体准确率为86.72%。随机森林预测正确率分别为正常组97.4%,尿路上皮癌80.8%,总体准确率为89.8%。
图12A-12D:尿路上皮癌治疗疗效动态监测示例。其中:
图12A,患者1术后动态监测。
图12B,患者2术后动态监测。
图12C,患者3术后动态监测。
图12D,3例患者术后动态监测总结。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1:cfDNA样品的制备
1.目标群体
95例健康人;
172例患者,包括:58例透明肾细胞癌(ccRCC)患者,69例尿路上皮癌患者和45例***癌患者。均通过对手术样本进行组织活检确诊。
健康人和患者合计267例。
2.实验方法
(1)收集上述健康人的晨尿和肿瘤病人术前晨尿,每例尿液均收集于50ml离心管中,体积约20-50ml,收集后置于4℃冰盒中,半个小时内进行提取,以免cfDNA降解。
(2)将收集到的晨尿样本分别在3500转/分钟下离心15分钟,然后分别取上清。
(3)利用zymo Quick-DNATM Urine Kit试剂盒进行cfDNA的提取。提取后用Qubit 4荧光定量仪测浓度,后放-80℃保存。
制得267例cfDNA样品。
实施例2:全基因组文库的构建
1.实验样品、试剂和仪器
前面实施例1得到的267例cfDNA样品。
尿液游离DNA提取试剂盒:ZYMO Quick-DNA Urine Kit(ZYMO,Cat#:D3061)。
磁珠:AMPure XP beads(Beckman Coulter,Cat#:A63880)。
普通离心机。
2.实验方法
(1)通过磁珠筛选100bp-300bp的cfDNA(通过控制磁珠体积和cfDNA样本的体积之比能够对磁珠吸附DNA片段大小的范围进行控制)。具体操作如下:
在提取的尿液cfDNA中加入0.6倍体积的磁珠,吸附5分钟后弃去磁珠,保留上清,然后在上清中加入0.3倍体积的磁珠,吸附5分钟后弃上清,保留磁珠(注:加入0.6倍体积的磁珠目的是吸附大的DNA片段,然后丢掉,再在上清中加入0.3倍体积的磁珠以吸附小片段的目的DNA片段,这样就回收了小的DNA片段),80%乙醇洗两次,最后用水溶解DNA。
(2)末端补平,加A。具体操作参见试剂盒操作说明,NEBNext End Repair Module:货号E6050S;NEBNext dA-Tailing Module,货号E6053S。
(3)加上PE接头。具体操作参见试剂盒操作说明,T4 DNA Ligase,货号M0202L。
(4)采用接头特异性引物,进行PCR扩增。
(5)将前面得到的PCR产物用磁珠进行纯化,得到267例样品各自的DNA文库即全基因组文库。
另外,使用Agilent 2100Bioanalyse对267个文库进行质量检测,确定建完库后均没有接头污染。
实施例3:HiSeq X10 system测序
1.试剂和仪器
待测样品:前面实施例2制得的267例文库。
2.实验方法
进行全基因组测序。测序委托诺禾致源测序公司进行。
3.实验结果
获得267例文库各自的150bp双端测序读段(pair-end reads)。每个样品的产出测序深度大约在1X-5X。用于后面的肿瘤标志物分析。
实施例4:肿瘤标志物的筛选、分析和应用
1.实验方法
(1)比值A/B的计算
根据Varbin算法(Genome-wide copy number analysis of singlecells.Nature protocols 7,1024-1041,doi:10.1038/nprot.2012.039(2012))首先将每个样本的基因组均划分为50000个bin,然后结合前面实施例3的测序结果,计算每个bin里面的reads数和GC含量,并对每个文库样本测序得到的reads总数和GC含量进行归一化处理,从而得到每个样本的每个bin里面的原始reads数和经GC含量校正后的实际的reads数(A),校正的方法是局部加权回归散点平滑法(LOWESS smoothing);进一步得到每个区间(bin)的reads数相对于该区间中的理论reads数的比值A/B。其中:
A是一个bin中的经GC含量校正后的实际的reads数;
B是该bin里面理论reads数,是将该样本测得的reads总数除以bin的总数50000”,因此,对于一个样本而言,其每个bin中的理论read数是相等的。
比值A/B大于1,预示着这个区域很可能是拷贝数增加,等于1,说明这个区域没有变化,小于1说明这个区域很可能是拷贝数缺失。
最终每个样本均得到50000个比值,这50000个比值(也称为特征)用于后面marker的筛选。
(2)marker的筛选
将4组对象样本(健康人样本、透明肾细胞癌患者样本、尿路上皮癌患者样本和***癌患者样本),以随机的方式分别将每一组对象样本划分为训练集(约70%)和测试集(约30%),分别得到4个训练集和相应的4个测试集,其各自的人数如下面的表7所示。
表7
Figure BDA0002051061330000321
先对4个训练集进行两两比较。具体是将每个bin在不同组之间进行两两比较,依次进行,直到50000个bin全部检验完。即对50000个bin对应的比值A/B进行t检验,通过t检验筛选出差异显著(p<0.05)的比值A/B,找到对应于该比值A/B的marker(bin)。举例而言,取一个bin,将正常人和肾癌中该bin对应的比值A/B进行两组间比较,统计检验显著后保留该bin,否则舍弃;如此计算50000个bin。这样共得到6种两两组合,以及6组差异显著的marker。
然后将这6组marker进行进一步的筛选,具体的做法是将6组marker对应的比值A/B分别放入随机森林分类器进行二元分类模型训练,通过特征的重要性(即随机森林算法的运算结果)进行排序(marker对于分类越重要,排序就越靠前),选择靠前的marker比如top500、top300、top100、top50、top10再次进行随机森林模型训练,评估在不同的marker集合下训练集和测试集的预测准确率,选择准确率高的marker作为最终的marker集合(当准确率基本一致的时候,本发明人倾向于选择数量较少的marker组合),这样6个随机森林二元分类器一共得到6组marker,每组含有50个marker。如前面的表1-表6所示。
将得到的表1-表6中的6组生物标志物(marker)对应的数据(6组marker的比值A/B)分别提取出来,使用随机森林算法进行训练,最后得到6个二元分类模型。
(3)集成分类***的构建(GUdetector)
本发明人将这6个二元分类模型组合起来以投票的方式进行多类分类,具体方法如下:
本发明人设计了4个决策单元,每个决策单元里面包含3个随机森林二元分类器:
I.‘正常决策单元’:正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
然后本发明人对每个决策单元进行投票,即将一个样本对应的6组marker的比值A/B分别输入到上面4个决策单元中各自对应的分类器中进行预测分类,比如‘正常决策单元’正常预测得票为N1,‘肾癌决策单元’肾癌组预测得票为N2,‘***癌决策单元’***癌预测得票为N3,‘尿路上皮癌决策单元’尿路上皮癌预测得票为N4,最后取得票数最高的预测单元对应分类为最终预测分类,如果得票数相等,则取得票数相等的组中预测概率最高的类别为最终预测分类。
同时,将6组marker在公开的TCGA数据库中验证可靠性。TCGA中包含了各种肿瘤组织的拷贝数数据(原发肿瘤组织及正常组织的数据),下载对应的四组数据,然后计算该6组marker对应的值(是TCGA提供的是segment值,用来衡量拷贝数变化),放入随机森林模型进行训练和预测,评估准确率。
2.标志物分析结果:
如图1-图12所示。其中,KIRC表示肾癌,UC表示尿路上皮癌,PRAD表示***癌,Normal表示健康人。都是那30%的测试集里面的预测结果,一般是用训练集进行挑选marker和训练分类模型,测试集用来评估预测准确率。
分析结果是筛选得到最终的6组marker后通过随机森林二元分类器对分类效果进行评估后的计算结果,通过R语言中的函数计算得到。
1)如图1所示。
肾癌VS正常:敏感性72.2%,特异性93.1%。
2)如图2所示。
尿路上皮癌VS正常:敏感性76.2%,特异性100%。
3)如图3所示。
***癌VS正常:敏感性71.4%,特异性93.1%。
4)如图4所示。
肾癌VS***癌:敏感性72.2%,特异性85.7%。
5)如图5所示。
尿路上皮癌VS肾癌:敏感性95.2%,特异性77.8%。
6)如图6所示。
尿路上皮癌VS***:敏感性85.7%,特异性85.7%。
7)如图7A和图7B所示。
参照实施例1-3的实验方法和样本。集成分类***(GUdetector)4组同时分类。
8)如图8所示。
男性样本的***癌诊断模型。参照实施例1-3的实验方法和样本,采用非肿瘤人群中的43个男性患者和45个***癌患者的拷贝数数据,进行分类模型的构建。
***癌VS正常:准确率AUC=0.967。
9)如图9所示。
考虑性别因素,去除所有性染色体上的marker,参照实施例1-3的实验方法和样本,采用SVM模型进行4组同时分类。
每一类预测正确率分别为正常组89.7%,尿路上皮癌76.2%,***癌64.3%,肾癌44.4%,总体准确率为72.0%。
10)如图10所示。
参照实施例1-3的实验方法和样本,采用SVM模型进行3组同时分类结果,每一类预测正确率分别为正常组88.5%,尿路上皮癌76.1%,肾癌64.8%,总体准确率为78.4%。
11)如图11所示。
参照实施例1-3的实验方法和样本,只采用90例非肿瘤个体和65例尿路上皮癌患者,采用SVM模型进行尿路上皮癌诊断结果,并和LASSO和随机森林方法比较。SVM预测正确率分别为正常组94.7%,尿路上皮癌86.5%,总体准确率为91.4%。LASSO预测正确率分别为正常组94.7%,尿路上皮癌75.0%,总体准确率为86.72%。随机森林预测正确率分别为正常组97.4%,尿路上皮癌80.8%,总体准确率为89.8%。
12)如图12A-12D所示。
参照实施例1-3的实验方法和样本,在3例尿路上皮癌治疗疗效动态监测示例,三个患者手术前后的cfDNA的拷贝数以及肿瘤DNA占总的cfDNA的比例,通过ichorCNA算法得到,可见,在三例患者中术前都检测到了拷贝数变化以及肿瘤DNA的含量,但是,术后则未检测到,这和患者其他检测相一致,三例患者都没有出现复发。以上结果支持,本发明也可以用来无创预后监测。
另外说明的是:
特异性和敏感性是评估marker分类效能的指标。敏感性是挑出肿瘤患者的能力,特异性是指挑出正常人的能力,例如,假设一共有1000个肿瘤患者,1000个正常人,通过该分类器,敏感性72.2%和特异性93.1%,本发明人在肿瘤组正确挑出了722人,正常组中挑出了931人。
两种癌症之间的敏感性和特异性是指为了评估分开两种肿瘤的能力,虽然这两个概念是用来评估阴性和阳性、或者正常和异常,但在这里,本发明人也拿来评估两种肿瘤,本发明人定义了阳性类,在结果最下方显示为‘positive’class。
除了敏感性数值和特异性数值,Accuracy指的是总体准确率。每个结果最上方的混淆矩阵表示某一组正确分类的个数以及误分类到另一组里面的个数。
Confusion matrix(混淆矩阵),Reference指的是原本的类别,Prediction指的是预测分类,比如UC组,有16个UC被预测成UC(预测正确),2个UC被预测成了Normal,3个UC被预测成了PRAD,没有一个被预测成KIRC,其余依次类推;
总体准确率为0.7195;
每一类的预测准确率就是下面对应的Sensitivity,这里不用管特异性,因为这两个概念是二分类里面的概念,现在是4类分类,只关心总体的准确率和每一类的灵敏度就可以。
3.结果讨论:
本发明人首创建立了基于尿液的cfDNA拷贝数分类***,通过筛选出的生物标志物组,能够一次性预测未知泌尿生殖***肿瘤的不同组织来源,且有着较高的敏感性和特异性。另外,考虑到性别差异,只有男性才有评估***癌风险的需要,所以,我们同时针对男性重新训练了***癌分类标记物。另外,排除性别因素,训练了正常、肾癌和尿路上皮癌的3类分类模型。3类分类时将不能采用集成分类投票的方法,所以,我们比较了SVM,LASSO和随机森林等机器学习分类方法,发现SVM模型明显优于其它两个机器算法模型(LASSO和随机森林)。
实施例5:诊断示例
针对门诊上的一个随机的未知对象(可能是健康人,也可能是泌尿生殖***肿瘤患者),可以参考下述方法:
1.收取晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.将待测样本的基因组划分为50000个bin;将测序数据进行归一化处理,并使用varbin算法计算得到50000个bin对应的reads比值;
6.提取对应于表1-表6中所示的300个marker所对应的比值,放入前面的集成分类***(GUdetector)进行预测。
上述步骤1-4的具体操作可分别参考实施例1-4。
实施例6:考虑到性别差异***癌诊断标记物筛选
***癌是男性特有肿瘤,因此,如果不考虑性别因素,健康人群中包含男性和女性,性染色体的拷贝数将会高估分类器诊断准确性。因此,我们针对男性未知对象,来诊断其是否罹患***癌时,可以用采用健康人群的男性进行标记物的重新筛选(男性健康人群vs.***癌患者,表7)。针对门诊上的一个男性患者,可以参考下述方法:
1.收取晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.将待测样本的基因组划分为50000个bin;将测序数据进行归一化处理,并使用varbin算法计算得到50000个bin对应的reads比值;
6.提取对应于表7中所示的50个marker所对应的比值,通过SVM等机器学习算法,预测未知样本是否是***癌。
上述步骤1-4的具体操作可分别参考实施例1-4。
实施例7:正常、肾癌和尿路上皮癌诊断和分类标记物筛选。
针对门诊上的一个随机的未知对象(可能是健康人,也可能是肾癌和尿路上皮癌),可以参考下述方法:
1.收取晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.将待测样本的基因组划分为50000个bin;将测序数据进行归一化处理,并使用varbin算法计算得到50000个bin对应的reads比值;
6.提取对应于表1、2、5中所示的150个marker所对应的比值,通过SVM等机器学习算法,预测未知样本是否是正常、肾癌和尿路上皮癌。
上述步骤1-4的具体操作可分别参考实施例1-4。
实施例8:尿路上皮癌治疗疗效动态监测示例
针对cfDNA的拷贝数分析完全可以采用其他算法得到,比如,ichorCNA算法。该方法将基因组区域分成了均匀的1000000bp长度的区域,进而计算拷贝数变异情况以及肿瘤来源DNA所占的比例。针对门诊上的一个手术前以及治疗后复查的患者,可以参考下述方法:
1.收取手术前和定期复查时晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.采用ichorCNA的方法得到肿瘤患者手术前和复查时尿液cfDNA的拷贝数变异图谱以及估计的肿瘤DNA含量。
6.根据以上图谱和肿瘤DNA含量的比对,评估患者的治疗疗效以及复发情况。
对比例1:采用LASSO算法模型
1.实验方法
参考文献Circulating tumour DNA methylation markers for diagnosis andprognosis of hepatocellular carcinoma中的方法进行。
输入的数据为表1-表6中的6组生物标志物(marker)对应的比值A/B。
2.实验结果
结果如下面的表8所示。
表8
Figure BDA0002051061330000391
结果显示,使用LASSO分类模型,各类预测准确率比本发明人提出的集成分类***(GUdetector)低,总体准确率仅有58.5%。
对比例2:采用SVM算法模型
1.实验方法
参考文献CancerLocator:non-invasive cancer diagnosis and tissue-of-origin prediction using methylation profiles of cell-free DNA中的方法进行。
输入的数据为表1-表6中的6组生物标志物(marker)对应的比值A/B。
2.实验结果
结果如下面的表9所示。
表9
Figure BDA0002051061330000401
结果显示,使用SVM分类模型,各类预测准确率比本发明人提出的集成分类***(GUdetector)低,总体准确率仅有54.7%。
对比例3:随机森林四类分类模型
1.实验方法
参考文献:Epigenetic profiling for the molecular classification ofmetastatic brain tumors中的方法进行。
输入的数据为表1-表6中的6组生物标志物(marker)对应的比值A/B。
2.实验结果
结果如下面的表10所示。
表10
Figure BDA0002051061330000411
结果显示,使用随机森林四类分类模型,各类预测准确率比本发明人提出的集成分类***(GUdetector)低,总体准确率仅有65.1%。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims (24)

1.一种cfDNA分类方法,包括:
计算目标样本中的cfDNA的拷贝数变异数据;
计算目标cfDNA拷贝数变异数据与各分类标签的cfDNA拷贝数变异数据的相似度;
根据所述相似度,利用分类器模型确定所述目标cfDNA所属的分类。
2.根据权利要求1所述的分类方法,其中,确定所述目标cfDNA所属的分类包括:
根据所述相似度,利用随机森林模型确定所述各分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度;
根据所述相关度,利用所述分类器模型确定所述目标cfDNA所属的分类。
3.根据权利要求2所述的分类方法,其中,确定所述各分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度包括:
根据所述相关度,对所述cfDNA拷贝数变异数据进行排序,以形成向量序列;
将所述向量序列输入所述随机森林模型,确定所述分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度。
4.根据权利要求3所述的分类方法,其中,所述人泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌;
优选地,所述人泌尿生殖***肿瘤通过对手术样本进行组织活检确诊。
5.根据权利要求3或4所述的分类方法,其中,所述随机森林模型为至少3个随机森林二元分类器,并且选自如下的I-VI组中的任意一组、两组、三组或四组:
I.
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
6.根据权利要求5所述的分类方法,其中,对每个组进行投票,取得票数最高的组对应分类为最终分类,如果得票数相等,则取得票数相等的组中预测概率最高的类别为最终分类(GUdetector)。
7.根据权利要求1至6中任一权利要求所述的分类方法,其中,所述目标样本中的cfDNA的拷贝数变异数据和/或所述各分类标签的cfDNA拷贝数变异数据由尿液样本中的cfDNA的测序数据计算得到;优选地,所述测序数据为全基因组测序数据;优选地,测序深度为1X-5X。
8.根据权利要求1至7中任一权利要求所述的分类方法,其中,所述目标样本中的cfDNA的拷贝数变异数据和/或所述各分类标签的cfDNA拷贝数变异数据按照如下方法计算:
将待测样本的基因组划分为5000-500000个长度相等或者理论模拟拷贝数相等的bin;将测序数据进行归一化处理,并计算得到各个bin对应的reads数的比值A/B,
其中:
A是一个bin中的经GC含量校正后的实际的reads数;
B是该bin里面理论reads数,是将该样本测得的reads总数除以bin的总数;
比值A/B即为拷贝数变异。
9.根据权利要求8所述的分类方法,其中,通过Varbin、CNVnator、ReadDepth或SegSeq,将待测样本的基因组划分为5000-500000个长度相等或者理论模拟拷贝数相等的bin;
和/或
通过Varbin、CNVnator、ReadDepth或SegSeq,计算得到各个bin对应的reads数的比值A/B。
10.根据权利要求7至9中任一权利要求所述的分类方法,其中,所述尿液样本为晨尿;优选地,所述尿液样本为晨尿上清。
11.根据权利要求8或9所述的分类方法,其中,所述比值A/B为生物标志物组合中的各生物标志物的比值A/B,
其中,
所述的生物标志物组合,其包含m个生物标志物,m为大于或等于50的正整数;
所述生物标志物为一段DNA,其对应于染色体上的起始位点为A±n1,终止位点为B±n2;
其中,所述n1和n2独立地为小于或等于60000的非负整数;
其中,所述染色体、A和B选自如下的(1)-(7)组中的任意1组、任意2组、任意3组、任意4组、任意5组、任意6组或全部7组;
(1)肾癌VS正常的生物标志物
表1
Figure FDA0002051061320000041
Figure FDA0002051061320000051
Figure FDA0002051061320000061
(2)尿路上皮癌VS正常的生物标志物
表2
Figure FDA0002051061320000062
Figure FDA0002051061320000071
Figure FDA0002051061320000081
(3)***癌VS正常的生物标志物
表3
Figure FDA0002051061320000082
Figure FDA0002051061320000091
Figure FDA0002051061320000101
Figure FDA0002051061320000111
(4)肾癌VS***癌的生物标志物
表4
Figure FDA0002051061320000112
Figure FDA0002051061320000121
Figure FDA0002051061320000131
(5)尿路上皮癌VS肾癌的生物标志物
表5
Figure FDA0002051061320000132
Figure FDA0002051061320000141
Figure FDA0002051061320000151
(6)尿路上皮癌VS***癌的生物标志物
表6
Figure FDA0002051061320000152
Figure FDA0002051061320000161
Figure FDA0002051061320000171
(7)正常VS***癌的生物标志物
表7
Figure FDA0002051061320000181
Figure FDA0002051061320000191
Figure FDA0002051061320000201
12.根据权利要求11所述的分类方法,其中,m为50-300或者大于300,例如50-100、100-150、150-200、200-250、250-300、50、100、150、200、250或300。
13.根据权利要求11所述的分类方法,其中,n1和n2独立地为5000、4000、3000、2000、1500、1000、500、300、200、150、100、90、80、70、60、50、40、30、20、10、5或0。
14.根据权利要求11所述的分类方法,其中,所述生物标志物为一段cfDNA;优选地,所述cfDNA来源于人尿液特别是人尿液上清。
15.根据权利要求11至14中任一权利要求所述的分类方法,其中,
所述染色体、A和B如所述(1)-(7)组中的任意1组、任意2组、任意3组、任意4组、任意5组、任意6组或全部7组所示。
16.一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的方法,包括下述步骤(1)、步骤(2)、可选的步骤(3)、步骤(4):
(1)收取尿液样本,提取cfDNA;
(2)筛选得到90-300bp的cfDNA片段或100-300bp的cfDNA片段,
(3)利用得到的cfDNA片段构建全基因组文库;
(4)将cfDNA片段按照权利要求1至15中任一权利要求所述的分类方法进行分类。
17.根据权利要求16所述的方法,其中,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;优选地,所述肾癌为透明肾细胞癌,尿路上皮癌包括上尿路上皮癌和膀胱癌,***癌为***腺癌。
18.根据权利要求16所述的方法,其中,步骤(1)中,所述尿液样本为晨尿;优选地,所述尿液样本为晨尿上清。
19.根据权利要求16所述的方法,其中,步骤(2)中,所述筛选为磁珠筛选。
20.一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的装置,包括:
I.‘正常决策单元’:
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
21.一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的装置,
包括存储器;和耦接至所述存储器的处理器,
其中,
所述存储器上存储有由处理器执行的程序指令,所述程序指令包含选自如下的4个决策单元中的任意1个、任意2个、任意3个或者全部4个决策单元,其中,每个决策单元里面包含3个随机森林二元分类器:
I.‘正常决策单元’:
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
22.根据权利要求21所述的装置,其中,所述处理器被配置为基于存储在所述存储器装置中的指令,执行权利要求1至15中任一权利要求所述的分类方法。
23.根据权利要求20至22中任一权利要求所述的装置,其中,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
24.选自如下的1)-3)项中的任意一项在制备人泌尿生殖***肿瘤的检测、诊断、患病风险评估或预后评估的药物中的用途:
1)权利要求11至15中任一权利要求所述的生物标志物组合;
2)人尿液中的cfDNA特别是人尿液上清中的cfDNA;
优选地,所述尿液为晨尿;
优选地,所述cfDNA为90-300bp的cfDNA或100-300bp的cfDNA;更优选地,所述cfDNA为90-150bp的cfDNA或100-150bp的cfDNA;
3)DNA文库,其由第2)项制得;优选地,所述DNA文库为全基因组文库;
优选地,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
CN201910374094.1A 2019-05-07 2019-05-07 一种cfDNA分类方法、装置和用途 Active CN111833963B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910374094.1A CN111833963B (zh) 2019-05-07 2019-05-07 一种cfDNA分类方法、装置和用途
US17/609,036 US20220336043A1 (en) 2019-05-07 2020-04-29 cfDNA CLASSIFICATION METHOD, APPARATUS AND APPLICATION
PCT/CN2020/087830 WO2020224504A1 (zh) 2019-05-07 2020-04-29 一种cfDNA分类方法、装置和用途

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910374094.1A CN111833963B (zh) 2019-05-07 2019-05-07 一种cfDNA分类方法、装置和用途

Publications (2)

Publication Number Publication Date
CN111833963A true CN111833963A (zh) 2020-10-27
CN111833963B CN111833963B (zh) 2024-06-11

Family

ID=72912303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910374094.1A Active CN111833963B (zh) 2019-05-07 2019-05-07 一种cfDNA分类方法、装置和用途

Country Status (3)

Country Link
US (1) US20220336043A1 (zh)
CN (1) CN111833963B (zh)
WO (1) WO2020224504A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257360A (zh) * 2021-06-24 2021-08-13 北京橡鑫生物科技有限公司 癌症筛查模型、癌症筛查模型的构建方法及构建装置
CN115148287A (zh) * 2022-09-01 2022-10-04 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 基因焦点扩增分型模型的构建方法及肿瘤样本的分型方法
CN115691667A (zh) * 2022-12-30 2023-02-03 北京橡鑫生物科技有限公司 尿路上皮癌早筛方法、模型构建方法、装置和设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838533B (zh) * 2021-08-17 2024-03-12 福建和瑞基因科技有限公司 一种癌症检测模型及其构建方法和试剂盒

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105102634A (zh) * 2013-03-15 2015-11-25 伊穆科Gti诊治股份有限公司 使用尿的无细胞dna评价肾状态的方法和组合物
CN105567846A (zh) * 2016-02-14 2016-05-11 上海交通大学医学院附属仁济医院 检测粪便中细菌dna的试剂盒及其在大肠癌诊断中的应用
CN108763859A (zh) * 2018-05-17 2018-11-06 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
CN108846259A (zh) * 2018-04-26 2018-11-20 河南师范大学 一种基于聚类和随机森林算法的基因分类方法及***
CN109182526A (zh) * 2018-10-10 2019-01-11 杭州翱锐生物科技有限公司 用于早期肝癌辅助诊断的试剂盒及其检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105102634A (zh) * 2013-03-15 2015-11-25 伊穆科Gti诊治股份有限公司 使用尿的无细胞dna评价肾状态的方法和组合物
CN105567846A (zh) * 2016-02-14 2016-05-11 上海交通大学医学院附属仁济医院 检测粪便中细菌dna的试剂盒及其在大肠癌诊断中的应用
CN108846259A (zh) * 2018-04-26 2018-11-20 河南师范大学 一种基于聚类和随机森林算法的基因分类方法及***
CN108763859A (zh) * 2018-05-17 2018-11-06 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
CN109182526A (zh) * 2018-10-10 2019-01-11 杭州翱锐生物科技有限公司 用于早期肝癌辅助诊断的试剂盒及其检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MOLPARIA, BHUVAN 等: "Assessment of circulating copy number variant detection for cancer screening", PLOS ONE, pages 1 - 14 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257360A (zh) * 2021-06-24 2021-08-13 北京橡鑫生物科技有限公司 癌症筛查模型、癌症筛查模型的构建方法及构建装置
CN115148287A (zh) * 2022-09-01 2022-10-04 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 基因焦点扩增分型模型的构建方法及肿瘤样本的分型方法
CN115148287B (zh) * 2022-09-01 2024-05-31 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 基因焦点扩增分型模型的构建方法及肿瘤样本的分型方法
CN115691667A (zh) * 2022-12-30 2023-02-03 北京橡鑫生物科技有限公司 尿路上皮癌早筛方法、模型构建方法、装置和设备

Also Published As

Publication number Publication date
CN111833963B (zh) 2024-06-11
US20220336043A1 (en) 2022-10-20
WO2020224504A1 (zh) 2020-11-12

Similar Documents

Publication Publication Date Title
CN111833963B (zh) 一种cfDNA分类方法、装置和用途
AU2019277698A1 (en) Convolutional neural network systems and methods for data classification
CN111863250B (zh) 一种早期乳腺癌的联合诊断模型及***
US20200219587A1 (en) Systems and methods for using fragment lengths as a predictor of cancer
US11929148B2 (en) Systems and methods for enriching for cancer-derived fragments using fragment size
WO2010141955A2 (en) Methods of detecting cancer
CN105219844A (zh) 一种谱筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型
CN111910004A (zh) cfDNA在早期乳腺癌无创诊断中的应用
CN115443341A (zh) 分析无细胞核酸的方法及其应用
US20240002949A1 (en) Panel of mirna biomarkers for diagnosis of ovarian cancer, method for in vitro diagnosis of ovarian cancer, uses of panel of mirna biomarkers for in vitro diagnosis of ovarian cancer and test for in vitro diagnosis of ovarian cancer
WO2015042454A1 (en) Compositions, methods and kits for diagnosis of lung cancer
CN112382341A (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
CN110408706A (zh) 一种评估鼻咽癌复发的生物标志物及其应用
WO2020117620A1 (en) Method, system and kit to detect metastatic hepatic cancer stemming from colorectal tumors and to determine a proposed treatment regime
EP4282984A1 (en) Method for construction of multi-feature prediction model for cancer diagnosis
CN116377062B (zh) 检测环状RNA hsa_circ_0033144的试剂在制备诊断胃癌产品中的应用
WO2023102786A1 (zh) 基因标志物在预测孕妇早产风险中的应用
CN115747333B (zh) 一种肿瘤标记物检测试剂盒和检测分析***及其应用
EP4357782A1 (en) Protein biomarker panel for the diagnosis of colorectal cancer
US20240209455A1 (en) Analysis of fragment ends in dna
Peng et al. Non-Invasive Detection of Breast Cancer by Low-Coverage Whole-Genome Sequencing from Plasma
EP4244374A1 (en) Cancer diagnosis and classification by non-human metagenomic pathway analysis
CN115820857A (zh) 一种鉴别胃癌前病变和胃癌及诊断胃癌的试剂盒
Ren et al. Early Detection of Non-Small Cell Lung Cancer with Novel 5-Hydroxymethylcytosine DNA Markers: Discovery, Tissue Validation, and Pilot Testing in Plasma
CN118207322A (zh) 胆汁cfDNA中的HDR信号通路突变在胆管癌预后评估中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100101 building 104, courtyard 1, Beichen West Road, Chaoyang District, Beijing

Applicant after: Beijing Institute of genomics, Chinese Academy of Sciences

Address before: 100101 building 104, courtyard 1, Beichen West Road, Chaoyang District, Beijing

Applicant before: BEIJING INSTITUTE OF GENOMICS, CHINESE ACADEMY OF SCIENCES

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210518

Address after: 100101 building 104, courtyard 1, Beichen West Road, Chaoyang District, Beijing

Applicant after: Beijing Institute of genomics, Chinese Academy of Sciences

Applicant after: The first hospital of Peking University (the first clinical medical College of Peking University)

Address before: 100101 building 104, courtyard 1, Beichen West Road, Chaoyang District, Beijing

Applicant before: Beijing Institute of genomics, Chinese Academy of Sciences

GR01 Patent grant
GR01 Patent grant