CN111028888A

CN111028888A - 一种全基因组拷贝数变异的检测方法及其应用

Info

Publication number: CN111028888A
Application number: CN201811172904.7A
Authority: CN
Inventors: 刘弼; 李小雨; 宫玉艳; 武旺; 张钰; 王征; 刘东戈
Original assignee: Berry Genomics Co Ltd; Beijing Hospital
Current assignee: Berry Genomics Co Ltd; Beijing Hospital
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2020-04-17

Abstract

本发明涉及一种全基因组拷贝数变异的检测方法，其包括以下步骤：(1)获得DNA样品的全基因组测序的测序结果序列；(2)将所述测序结果序列与人类参考基因组比对，并计算CNV在染色体区段的坐标位置以及所述CNV在该区段的拷贝数CN_检测；(3)通过以下公式计算所述DNA样品的综合CNV评分：

其中，CNV长度表示根据CNV在染色体区段的坐标位置计算的CNV的长度，CN_参考表示正常样品中的染色体拷贝数，其中所述CNV评分表示所述DNA样品的全基因组拷贝数变异。本发明还涉及所述检测方法在癌症诊断中的用途，以及用于诊断癌症状况的设备。

Description

一种全基因组拷贝数变异的检测方法及其应用

技术领域

本发明涉及一种全基因组拷贝数变异的检测方法。本发明还涉及所述检测方法在癌症诊断中的用途，以及基于所述检测方法的诊断癌症的装置。

背景技术

基因组拷贝数变异(Copy Number Variation,CNV)是指与基因组参考序列相比，基因组中大于等于1kb的DNA片段***、缺失、倒位、易位和/或重复，及其互相组合衍生出的复杂的染色体结构变异，其具有分布范围广、可遗传、相对稳定和高度异质性等特点。

研究表明，CNV是肿瘤发生发展的重要因素，其可通过影响原癌和抑癌基因的活性而诱发肿瘤。多项研究显示，CNV检测有潜力作为肿瘤诊断的指标。例如，美国FDA于2005年批准了Abbott Molecular公司的4条检测CNV的FISH探针应用于尿血患者膀胱癌的诊断和膀胱癌患者的监测，敏感性68.6％，特异性77.7％。Ayal等的研究发现，在非典型脑膜瘤中常见11种整臂或整条染色体的拷贝数降低(del)，患者样本中这11种CNV的总数与患者的临床分期成正相关的趋势(Kadota K et al.,Am J Surg Pathol.2014；38(4):448-660)。Ni等对CTC细胞的全基因组CNV研究发现，来自同一患者的所有循环肿瘤细胞(CirculatingTumor Cell,CTC)具有类似的CNV模式(与癌症亚型无关)，而小细胞肺癌与腺癌CTC样本的CNV模式呈现明显差异(Xiaohui Ni et al.,PNAS.2013；110(52):21083-21088)。Bowcock等通过基因芯片技术对18个肺癌患者和47个对照者的CNV进行检测，并筛选了三个肺癌样本中常见的CNV区段3p26-p11.1(缺失)、3q26.2-29(增加)和6q25.3-24.3(缺失)作为肿瘤标志物，并用这些肿瘤标志物对24个支气管肺发育不良的对照者和12个支气管上皮化生(随访时均已确诊为肿瘤)的患者进行诊断。结果表明这些CNV标志物将所有对照者和3个随访确诊为肿瘤的支气管上皮化生患者诊断为低风险患者，对于该人群肿瘤预测的精确度为92％，阴性预测值89％(Bowcock AM et al.,Thorax.2014；69(5):495-496)。

目前，检测CNV的方法主要有，荧光原位杂交(Fluorescence In SituHybridization,FISH)技术、比较基因组杂交(Comparative Genomic Hybridization,CGH)技术、微阵列比较基因组杂交(Array Comparative Genomic Hybridization,array-CGH)技术、单核苷酸多态性微阵列(Single Nucleotide Polymorphism-based Array,SNParray)技术和下一代测序(Next Generation Sequencing,NGS)技术。FISH技术的原理主要是通过标记的核酸探针与细胞染色体的特异性结合，再用带荧光基团的特异亲和素与核酸探针结合，最后通过荧光分布来观察染色体的情况。CGH技术的原理主要是用不同颜色的荧光染料分布标记待测DNA和对照DNA，两种DNA等量混合后与染色体杂交，在通过相应的软件分析荧光显微镜所成图像，从而检测染色体是否存在异常。Array-CGH技术的原理与CGH技术类似，只是等量混合后的两种DNA不是与染色体杂交，而是与带有基因组片段克隆载体的微阵列杂交，这使其分辨率比CGH技术高。SNP array技术的原理是用带有SNP探针的微阵列与片段化的单链基因组DNA杂交，通过捕获基因组DNA的SNP位点，从而分析得到基因组的SNP情况。

FISH技术和CGH技术由于受到探针的限制，仅能检测部分染色体，而并不能反映整个基因组的全部情况，因此其应用受到一定的限制。Array-CGH技术和SNP array技术虽然由于其快速准确以及高分辨率的特点已经初步应用于临床，但高昂的价格以及检测过程中过量信息带来的分析困难仍然某种程度上限制了这些技术的推广应用。

随着测序技术的不断发展，NGS已经逐渐成为全基因组分析的一种趋势。通过对样品的全基因组扩增产物进行高通量大规模的并行基因组测序，并对测序结果进行统计学信息分析，能够判断基因组中CNV的整体情况。与FISH和CGH技术相比，由于不受探针的限制，NGS可以反映全部染色体的情况。此外，由于NGS可以同时对多个样品进行测序，因此与Array-CGH和SNP array技术相比，在保证快速准确和高分辨率的前提下，又具有检测成本低的优势。

然而，目前在通过CNV的NGS结果来诊断肿瘤的过程中，主要还是通过检测某一些特定的CNV标志物是否存在，从而诊断肿瘤风险。但肿瘤是一种高异质性疾病，单纯通过某几个CNV作为标志物实际上难以有效诊断肿瘤。并且，目前对全基因组CNV进行分析所考量的参数相对比较单一，一般仅考虑了CNV的长度，这使得CNV的分析结果不能全面反映样品的基因组紊乱程度。

因此，为了提高效率和准确性，本领域仍需要一种普适性的、简单、经济、可量化的CNV检测方法，从而更有利于CNV在肿瘤诊断中的应用和推广。

发明内容

本发明的目的在于提供一种全基因组CNV的检测方法、该方法用于癌症诊断的用途，以及用于诊断癌症状况的设备。本发明对全基因组CNV进行统计分析时，充分考虑了CNV的长度及其拷贝数偏离正常拷贝数的程度，从而更准确、全面地反映样品的基因组紊乱程度，避免了特定区域CNV分析带来的局限性，同时降低了癌症样本高异质性特征引入的诊断准确度低的问题。

因此，在第一个方面，本发明提供一种全基因组拷贝数变异(CNV)的检测方法，包括以下步骤：

(1)获得DNA样品的全基因组测序的测序结果序列；

(2)将所述测序结果序列与人类参考基因组比对，计算CNV在染色体区段的坐标位置以及所述CNV在该区段的拷贝数CN_检测；

(3)通过以下公式计算所述DNA样品的综合CNV评分：

其中，CNV长度表示根据CNV在染色体区段的坐标位置计算的CNV的长度，CN_参考表示正常样品中的染色体拷贝数，其中所述CNV评分表示所述所核苷酸样品的全基因组拷贝数变异。

在一个实施方案中，对于常染色体和女性X染色体而言，CN_参考为2；对于男性X染色体和Y染色体而言，CN_参考为1。

在一个实施方案中，所述DNA样品直接分离自受试者的组织、细胞或流体(例如血液、血清、血浆、尿液、脊髓液、羊水、淋巴液、胸水)。在另一个实施方案中，所述DNA样品来源于经过特殊处理(例如固定、诸如***固定石蜡包埋、激光显微切割等)的组织样本。

在一个实施方案中，本发明所述的全基因组测序可以通过本领域技术人员已知的任何测序技术进行。举例而言，可用于本发明的测序技术包括但不限于：合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、数字基因表达、单分子合成测序、大规模平行签名测序、克隆单分子阵列、焦磷酸测序和本领域已知的任何其他测序技术。例如，本发明的测序可以在以下平台上进行：HiSeq 2000(Illumina)、454Genome Sequencer(Roche)、SOLiD System(Applied Biosystem)、Polonator G007(Dover/Harvard)、HeliScope(Helicos Biosciences)、Ion Torrent(Thermo Life)、GS FLX System(Roche)和本领域已知的任何其他高通量测序平台。

在一个实施方案中，本发明的测序可以采用单端测序，也可以采用双端测序。单端测序首先将DNA样品进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，上机测序单端读取序列。双端测序是指在构建DNA文库时，在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用双端测序模块引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序。在一个优选的实施方案中，本发明的测序采用单端测序，即可满足本发明所需灵敏度，同时节省测序的时间和成本。在另一个优选的实施方案中，本发明的测序采用短读长测序，例如36bp测序、75bp测序等，也能满足本发明所需灵敏度。并且短读长测序相较于长读长测序具有节省测序时间和成本的优势。一般而言，短读长不应小于36bp，以避免测序结果产生过多的噪音，从而在与参考基因组的比对中无法准确提取与参考基因组唯一且完全匹配的序列。

在一个实施方案中，本发明的测序在从所述DNA样品制备的测序文库上进行。制备测序文库的方法是本领域技术人员已知的。通常，测序文库的制备方法包括以下步骤：对DNA样品进行末端修复，然后对修复的DNA进行末端加A，连接测序接头后，通过PCR扩增反应并纯化扩增产物，从而得到测序文库。基于不同的DNA样品，本领域技术人员可以对测序文库的制备方法进行相应的修改和调整。此外，测序文库的制备还可以使用本领域技术人员已知的文库制备试剂盒进行。这种文库制备试剂盒包括但不限于：ChroSure试剂盒(贝瑞和康)、科诺安试剂盒(贝瑞和康)、KAPA文库构建试剂盒(Illumina)、Nextera DNA文库制备试剂盒(Illumina)等。

在本发明中，“人类参考基因组”是指NCBI数据库中的标准人类参考基因组序列，例如可以为hg18，NCBI Build 36；hg19，NCBI Build 37。人类参考基因组的序列可以在NCBI、Ensembl和UCSC的基因数据中获得。

在一个实施方案中，测序结果序列与人类参考基因组的比对可以采用本领域技术人员已知的算法或软件进行。此类算法或软件的实例包括但不限于：BLAST、BLAT、MAQ、SOAP、Bowtie、BWA、SSAHA、ELAND。

在一个实施方案中，上述步骤(2)中的计算CNV在染色体区段的坐标位置以及所述CNV在该区段的拷贝数可以采用本领域已知的任何方法进行，例如，在CNV-seq,a newmethod to detect copy number variation using high-throughput sequencing(Xieet al.,BMC Bioinformatics,2009,10(1):80-80)；CNVnator:An approach to discover,genotype,and characterize typical and atypical CNVs from family andpopulation genome sequencing(Abyzov et al.,Genome Res,2011,21(6):974)；ReadDepth:a parallel r package for detecting copy number alterations fromshort sequencing reads(Miller et al.,PLoS One,2011,6(1):e16327)；cn.MOPS:mixture of Poissons for discovering copy number variations in next-generationsequencing data with a low false discovery rate(Klambauer et al.,NucleicAcids Res,2012,40(9):e69-e69)中所述的方法。在一个具体的实施方案中，上述步骤(2)进一步包括以下步骤：

(2.1)将所述测序结果序列与人类参考基因组比对，提取测序结果序列中与人类参考基因组完全匹配且比对到人类参考基因组中唯一位置的序列；

(2.2)将人类参考基因组划分为若干个连续的区域(bin)，统计步骤(2.1)所得序列比对到每个区域内的序列数Q值；

(2.3)对步骤(2.2)所得序列数Q值进行校正和标准化，获得每个区域内的标准序列数P值；

(2.4)用步骤(2.3)获得的标准序列数P除以从正常样品获得的标准序列数的中值，获得每个区域内的fd值；

(2.5)基于所有区域的fd值，通过数学模型计算CNV在染色体区段的坐标位置以及该区段的拷贝数CN_检测。

在一个实施方案中，区域(bin)的大小是均匀的或基本均匀的。本领域技术人员可以根据CNV检测所需的分辨率和测序数据量调节区域的大小。在本发明中，区域的大小为例如约10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb或100kb。

在上述步骤(2.3)中，为了减小序列数的变异，提高检测敏感度，需要对序列数Q值进行校正，主要是GC偏好校正。GC偏好导致在序列读取中GC含量丰富或频发区域的不均匀呈现。本领域已知的任何GC校正的方法可用于本发明。GC校正方法的实例例如loess GC校正法或区域GC校正法。

在上述步骤(2.3)中，为了使得提供的DNA样品与正常样品具有同样的数据量而方便比较，还需要对序列数Q值进行标准化，从而获得每个区域内的标准序列数P值。在一个实施方案中，通过以下公式对校正后的Q值进行标准化：

P＝[校正后的Q值/(测序结果序列的总数)]×[(5×10⁶)]其中5×10⁶是满足本发明所需的最低的测序数据量。

在另一个实施方案中，也可以使用本领域已知的算法，例如隐马尔可夫、动态编程、支持向量机、贝叶斯或概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤或神经网络等算法中的一种或多种进行上述标准化步骤。

在本发明的步骤(2.4)中，标准序列数P除以从正常样品获得的标准序列数的中值，获得每个区域内的fd值。正常样品的标准序列数可以根据本领域已知的任何方法获得，例如上述步骤(2.1)-(2.3)所述的方法。此外，根据正常样品所有区域的标准序列数计算中值的方法也是本领域技术人员熟知的。

在本发明的步骤(2.5)中，基于所有区域的fd值，通过数学模型计算CNV在染色体区段的坐标位置以及该区段的拷贝数CN_检测。本领域已知的可以计算CNV的坐标位置及其拷贝数的数学模型均可用于本发明。此类数学模型的实例包括但不限于Fused Lasso算法或CBS算法。

基于CNV在染色体区段的坐标位置，可以计算出CNV的长度。在本发明中，DNA样品的综合CNV评分通过以下公式计算：

其中，CNV长度表示根据CNV在染色体区段的坐标位置计算的CNV的长度，CN_参考表示正常样品中的染色体拷贝数，

其中对于常染色体和女性X染色体而言，CN_参考为2；对于男性X染色体和Y染色体而言，CN_参考为1，

其中所述CNV评分表示所述DNA样品的全基因组拷贝数变异。

上述CNV评分的计算方法举例如下：对于一个特定的样品，检测到两个CNV：其中一个CNV位于9号染色体(长度为119040000bp)的位置chr9:100000-24300000，拷贝数为1.1；另一个CNV位于16号染色体(长度为78700000bp)的位置chr16:15540000-31780000，拷贝数为2.97；CN_参考为2。则该样品的CNV评分为：[(24300000-100000)/119040000]*|1.1-2|+[(31780000-15540000)/78700000]*|2.97-2|＝0.38。

在一个实施方案中，本发明所检测的CNV长度为100kb以上。

本发明所述的全基因组CNV的检测方法可以客观、量化地反映样本基因组紊乱程度。本发明的优势一方面体现在CNV评分将CNV的长度和变异程度(即，CNV拷贝数偏离正常拷贝数的程度，在本发明中表现为|CN_检测-CN_参考|)均纳入统计，能更全面的反映样品的基因组紊乱的程度。另一方面，本发明的CNV检测方法还将所有偏离正常拷贝数的CNV(包括嵌合CNV)纳入统计，对于基因变异高异质性的癌症样品而言，能更充分地反映样品的基因组紊乱的程度。最后，本发明具有很高的灵敏度和特异性。即使是对于起始量较少的样品(例如显微切割样本)扩增之后的测序数据，仍能达到较为满意的灵敏度和特异性。

在第二个方面，本发明提供一种用于诊断受试者的癌症状况的设备，包括：

存储器，被配置为存储一个或多个程序；

处理单元，耦合至所述存储器并且被配置为执行所述一个或多个程序使所述管理***执行多个动作，所述动作包括：

(1)通过本发明所述的全基因组CNV的检测方法获得多个DNA样品的多个CNV评分；

(2)根据所述多个CNV评分确定阈值；

(3)通过本发明所述的全基因组CNV的检测方法获得所述受试者的CNV评分，并将其与所述阈值进行比较，获得诊断结果。

在第三个方面，本发明提供一种用于诊断受试者的癌症状况的方法，包括：

(2)根据所述多个CNV评分确定阈值；

(3)通过本发明所述的全基因组CNV的检测方法获得所述受试者的CNV评分，并将其与所述阈值进行比较，获得诊断结果。在一个实施方案中，所述多个DNA样品来自多个个体。在一个实施方案中，所述多个DNA样品包括癌症样品和非癌样品。在另一个实施方案中，所述多个DNA样品包括低浸润性的癌症样品和高浸润性的癌症样品。还在另一个实施方案中，所述多个DNA样品包括组织学亚型分级为I、II和/或III级的癌症样品。本领域技术人员可以根据所需的诊断结果选择用于通过CNV评分来确定阈值的多个DNA样品。在这些实施方案中，根据CNV评分确定的阈值可以区分癌症样品和非癌症样品，以及癌症样品的浸润性高低和组织学亚型分级。相应地，诊断结果为该受试者是否患有癌症，以及若患有癌症，癌症的浸润性高低情况。

此外，临床根据主要的组织学亚型分级***将癌症分为I、II、III级。例如，在肺癌中，等级I主要是指原位肺癌、微浸润肺癌、贴壁型肺癌占主导地位，等级II主要是指腺泡或***状为主的浸润性肺癌，等级III主要是指实性型或微***状为主的浸润性肺癌。不同分级患者的预后具有明显差异，其中等级III患者的预后情况最差。因此，通过本发明的方法提前诊断受试者的组织学亚型分级情况，对于临床的治疗和预后具有重要意义。因此，根据CNV评分确定的阈值还可以区分组织学亚型分级情况，例如区分I/II级和III级。相应地，诊断结果为受试者的组织学亚型分级情况。

在一个实施方案中，所述癌症选自以下：脑癌、皮肤癌、乳腺癌、肺癌、肝癌、食管癌、***癌、结直肠癌、鼻咽癌、胃癌、胰腺癌、肾癌、膀胱癌、淋巴瘤、***、子宫癌、卵巢癌、***癌、甲状腺癌。

在一个优选的实施方案中，所述癌症是肺癌。更具体地，所述癌症包括：原位肺癌(AIS)、微浸润肺癌(MIA)、浸润性肺癌(IA)、恶性胸膜积液(MPE)和转移性结节(MN)。其中，原位肺癌和微浸润肺癌浸润性低，浸润性肺癌的浸润性高。恶性胸膜积液和转移性结节由于已经从肺细胞上转移，因此一般不评价它们的浸润性。在一个实施方案中，浸润性肺癌还可以包括贴壁型、腺泡型、***型、微***和实性型等几种亚型。在一个实施方案中，所述阈值可以通过本领域技术人员已知的各种统计方法来确定，例如通过受试者工作特征曲线(ROC)来确定。在本发明中，所述阈值是灵敏度和特异性均为最大值时的CNV评分。

上述本发明的全基因CNV检测方法在诊断受试者的癌症状况中的用途依赖于发明人发现的以下事实：通过本发明方法获得的CNV评分能够准确区分癌症样品与非癌样品；并且本发明方法获得的CNV评分与癌症样本的浸润性程度和组织学亚型分级均呈正相关关系，对于浸润性程度和组织学亚型分级不同的样品也有很好的分类效果，因而该方法应用于临床诊断，可以显著提高癌症诊断的准确度。

在第四个方面，本发明提供一种计算机可读存储介质，所述可读存储介质上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行根据本发明所述的全基因组CNV的检测方法的步骤。

在第五个方面，本发明提供一种计算机可读存储介质，所述可读存储介质上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行以下方法的步骤：

(2)根据所述多个CNV评分确定阈值；

在本发明中，计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如包括但不限于，电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的机器可执行指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收机器可执行指令，并转发该机器可执行指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的机器可执行指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。机器可执行指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用机器可执行指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行机器可执行指令，从而实现本公开的各个方面。

这些机器可执行指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现本发明各方面的功能的装置。也可以把这些机器可执行指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现本发明各方面的功能的指令。

也可以把机器可执行指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现本发明各方面的功能。

下面将结合附图和实施例进一步阐述本发明。

附图说明

图1：根据本发明的全基因组CNV检测方法的一个实施方案的示意图。

图2A：实施例2中确定区分癌症样品与非癌样品的阈值的ROC曲线。

图2B：实施例2中确定区分低浸润性的癌症样品与高浸润性的癌症样品的阈值的ROC曲线。

图2C：实施例2中确定区分I/II级与III级癌症样品的阈值的ROC曲线。

具体实施方式

下面以肺癌为例，示例性说明本发明的全基因组CNV检测方法及其用于诊断癌症的用途。

实施例1根据本发明的检测方法测定样品的全基因组CNV评分

1.样品收集

于2017年1月至2018年3月期间，通过北京医院和郑州大学附属医院的外科手术从患者获得肿瘤组织样品。所述患者是经病理学诊断的肺癌患者并且未进行肺癌治疗。具体地，所述患者患有以下肺癌：原位肺癌(AIS)、微浸润肺癌(MIA)、浸润性肺癌(IA)、恶性胸膜积液(MPE)和转移性结节(MN)。其中，AIS和MIA属于低浸润性肺癌，IA属于高浸润性肺癌。一共获得71个患者的肿瘤组织样品及其中15个患者的癌旁样品(即，非癌样品)。将通过外科手术从患者获得的肿瘤组织样品及癌旁样品进行固定，然后制成切片，并进行HE染色。然后，通过激光显微切割准确收集肿瘤细胞团至200ul EP管内。每个样品切取100个左右的细胞。

2.构建测序文库

在200ul EP管内加入2ul PBS，12000g离心5min后，将肿瘤及癌旁细胞团收集至管底。然后按照制造商的说明，用ChroSure试剂盒(贝瑞和康，产品号R0005)构建测序文库。

3.上机测序

将构建的测序文库在Illumination HiSeq 2500测序仪上机，上机条件为36SE，设定上机数据量>5M reads。最后实际获得的平均测序结果序列为7.2×10⁶个序列。

4.CNV评分测定

4.1将测序结果序列与人类参考基因组hg19比对，提取测序结果序列中与人类参考基因组完全匹配且比对到人类参考基因组中唯一位置的序列。

4.2将人类参考基因组划分为1.5×10⁵个大小为20kb的连续区域(bin)，统计步骤4.1所得序列比对到每个区域内的序列数Q值。例如，对于第50个区域，其Q值为24。

4.3对步骤4.2所得序列数Q值通过loess GC校正法进行GC偏好校正。第50个区域的Q值校正后为25。然后将该校正后的值通过以下公式进行标准化，以获得每个区域内的标准序列数P值：P＝[校正后的Q值/测序结果序列的总数]×[(5×10⁶)]。因此，对于第50个区域，其P值为：[25/(7.2×10⁶)]×(5×10⁶)＝17。

4.4用步骤4.3获得的标准序列数P除以从正常样品获得的标准序列数的中值，获得每个区域内的fd值。通过对正常样品进行测序，并根据上述步骤，计算正常样品的标准序列数的中值为30。因此，对于第50个区域，其fd值为：17/30＝0.57。

4.5基于所有区域的fd值，通过Fused Lasso算法计算CNV在染色体区段的坐标位置以及该区段的拷贝数CN检测。下表1示出了其中一个样品(6号样品)中检测到的所有CNV的位置和拷贝数信息。

表1：6号样品中所有CNV的位置和拷贝数信息。

4.6通过以下公式计算每个样品的CNV评分：

例如，对于6号样品，计算其CNV评分为：0.07。

实施例2：基于本发明的全基因组CNV检测方法诊断肺癌、其浸润性以及癌症等级

1.根据实施例1所获得的71个肿瘤组织样品和15个癌旁样品的CNV评分绘制ROC曲线，以确定阈值(参见图2A-2B)。如图2A所示，当CNV评分的阈值设定为0.015时，其区分癌症样品和正常样品的准确度最高，灵敏度和特异性分别是93.3％和97.2％。如图2B所示，当CNV评分的阈值设定为1.940时，其区分低浸润性癌症样品和高浸润性癌症样品的准确度最高，灵敏度和特异性分别是82.6％和92.9％。如图2C所示，当CNV评分的阈值设定为2.550时，其区分低等级(等级I、II)和高等级(等级III)癌症样品的准确度最高，灵敏度和特异性分别是70％和90％。

2.验证试验

为了验证根据本发明的方法确定的阈值对于肺癌样品的诊断能力，发明人对20例样品进行了检测。

根据实施例1所述的方法获得20例样品(包括15例肺癌样品和5例正常样品)的CNV评分，并根据上述确定的阈值判断这些样品是癌症或非癌样品，以及在样品是癌症样品的情况下，其浸润性高低。然后，将此判断结果与病理诊断结果进行比较，如下表2所示。

如上表2所示，在区分癌症与非癌样品方面，基于本发明的CNV检测方法所确定的阈值的诊断结果与病理诊断结果完全一致，准确率达到100％。另外，在诊断癌症的浸润性高低方面，在15例癌症样品中，基于本发明的CNV检测方法的诊断结果只有3例与病理诊断结果不一致，准确率达到80％。在诊断癌症的组织亚型分级情况方面，在15例癌症样品中，基于本发明的CNV检测方法的诊断结果只有2例与病理诊断结果不一致，准确率达到86.7％。

因此，本发明的CNV评分不仅能够全面反映样品的基因组紊乱程度，并且可以有效用于诊断癌症状况，例如是否患癌，癌症的浸润性高低以及癌症的组织学亚型分级。

以上描述的本申请的各实施例仅仅是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员而言许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本申请的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种全基因组拷贝数变异(CNV)的检测方法，包括以下步骤：

(1)获得DNA样品的全基因组测序的测序结果序列；

(2)将所述测序结果序列与人类参考基因组比对，并计算CNV在染色体区段的坐标位置以及所述CNV在该区段的拷贝数CN_检测；

(3)通过以下公式计算所述DNA样品的综合CNV评分：

其中所述CNV评分表示所述DNA样品的全基因组拷贝数变异。

2.权利要求1所述的检测方法，其中步骤(2)进一步包括：

(2.2)将人类参考基因组划分为若干个连续的区域，统计步骤(2.1)所得序列比对到每个区域内的序列数Q值；

(2.5)基于所有区域内的fd值，通过数学模型计算CNV在染色体区段的坐标位置以及该区段的拷贝数CN_检测。

3.权利要求2所述的方法，其中所述校正是GC偏好校正。

4.权利要求3所述的方法，所述GC偏好校正通过loess GC校正法或区域GC校正法进行。

5.权利要求2所述的方法，其中通过以下公式进行标准化：

P＝[校正后的Q值/(测序结果序列的总数)]×[(5×10⁶)]。

6.权利要求2所述的方法，其中所述数学模型是Fused Lasso算法或CBS算法。

7.权利要求1-6任一项所述的方法，其中所述测序是单端测序方式。

8.权利要求1-7任一项所述的方法，其中所述CNV长度为100kb以上。

9.一种用于诊断受试者的癌症状况的设备，包括：

存储器，被配置为存储一个或多个程序；

(1)通过权利要求1-8任一项所述的方法获得多个DNA样品的多个CNV评分；

(2)根据所述多个CNV评分确定阈值；

(3)通过权利要求1-8任一项所述的方法从来自受试者的样品获得CNV评分，并将其与所述阈值进行比较，获得诊断结果。

10.权利要求9所述的设备，其中所述癌症选自以下：脑癌、皮肤癌、乳腺癌、肺癌、肝癌、食管癌、***癌、结直肠癌、鼻咽癌、胃癌、胰腺癌、肾癌、膀胱癌、淋巴瘤、***、子宫癌、卵巢癌、***癌、甲状腺癌。

11.权利要求9或10所述的设备，其中所述阈值通过受试者工作特征曲线来确定。

12.权利要求9-11任一项所述的设备，其中所述诊断结果是指所述受试者是否患有癌症。

13.权利要求9-11任一项所述的设备，其中所述诊断结果是指所述受试者患有的癌症是低浸润性癌症或高浸润性癌症。

14.权利要求9-11任一项所述的设备，其中所述诊断结果是指所述受试者患有的癌症的组织学亚型分级。

15.一种计算机可读存储介质，所述可读存储介质上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1-8中任一项所述的方法的步骤。

16.一种计算机可读存储介质，所述可读存储介质上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行以下方法的步骤：

(1)根据权利要求1-8中任一项所述的方法获得多个DNA样品的多个CNV评分；

(2)根据所述多个CNV评分确定阈值；

(3)根据权利要求1-8中任一项所述的方法获得所述受试者的CNV评分，并将其与所述阈值进行比较，获得诊断结果。

17.一种用于诊断受试者的癌症状况的方法，包括：

(2)根据所述多个CNV评分确定阈值；