CN111755066A

CN111755066A - 一种拷贝数变异的检测方法和实施该方法的设备

Info

Publication number: CN111755066A
Application number: CN201910240024.7A
Authority: CN
Inventors: 王晶; 李川; 侯光远; 李莹
Original assignee: Euroimmun Medizinische Labordiagnostika AG
Current assignee: Euroimmun Medizinische Labordiagnostika AG
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-09
Anticipated expiration: 2039-03-27
Also published as: CN111755066B

Abstract

本发明提供了一种检测基因拷贝数变异的方法和实施该方法的设备。具体地，本发明通过对已有的高通量测序数据的分析，实现对基因拷贝数快速而准确地检测。实验结果表明，使用本发明的方法可以准确检测基因拷贝数变异，尤其是长度较短的基因拷贝数变异，并能提供变异的具***置。

Description

一种拷贝数变异的检测方法和实施该方法的设备

技术领域

本发明涉及医药健康领域。具体而言，本发明涉及一种拷贝数变异的检测方法和实施该方法的设备。

背景技术

拷贝数变异(CNV，Copy Number Variation)是人类基因组中常见的一种结构变异，主要包括片段缺失(deletion)与片段***(insertion)。已证明CNV影响人体中的多种生物学功能，例如元素代谢、信号传导等，并参与多种复杂疾病(例如，神经类疾病)的发展。因此，在临床研究、疾病治疗、医药健康等领域，对拷贝数变异的检测需求都必要而紧迫。

现有的进行CNV检测的技术，大体可分为两种，即湿实验型与干实验型。

湿实验型技术是指通过实验的手段直接进行拷贝数变异情况的检测，如定量PCR、array-CGH、FISH、G显带等。这种方法存在操作繁琐、分辨率较低、易污染且实验周期较长等缺点。即使目前使用较多的多重连接探针扩增反应(multiplex ligation-dependentprobe amplification,MLPA)对之前的传统方法进行了改进，但仍存在人员要求专业性较高，检测成本昂贵等问题。

干实验型技术是指利用已有的二代测序数据，在电脑端进行数据分析，最终实现拷贝数变异的检测。这种方法克服了湿实验型技术的以上缺陷：不进行实验操作，无需任何试剂或实验仪器，在已有的测序数据基础上，花费一定的人力成本即可获得最终的检测结果。再加上目前NGS测序技术迅猛发展，单次测序所需费用直线下降，获得测序数据变的更加方便容易，使得此项技术的优点更加突出。

因此，需要一种仅基于已有的高通量测序数据对拷贝数变异进行准确检测的方法。

发明内容

因此，在第一个方面，本发明提供一种检测基因拷贝数变异的方法，包括以下步骤：

(1)构建对照集：

(1.1)从bed文件中提取每个区段(region)的目标信息，并将每个区段前后各延伸一定长度的核苷酸，获得扩展区段；

(1.2)获取多个正常样本的测序数据；

(1.3)将每个正常样本的测序数据比对到参考人类基因组，提取唯一比对的read，获得比对后文件；

(1.4)基于扩展区段，计算比对后文件中每个read的覆盖度值，并将所述覆盖度值标准化，获得每个扩展区段中每个read的标准化覆盖度值；

(1.5)合并每个扩展区段中每个read的标准化覆盖度值，并计算每个扩展区段的覆盖度中值作为对照集；

(2)分析待测样本的测序数据：

(2.1)获取待测样本的测序数据；

(2.2)将待测样本的测序数据比对到参考人类基因组，提取唯一比对的read；

(2.3)计算每个read的覆盖度值，并将所述覆盖度值标准化，获得每个read的标准化覆盖度值；

(2.4)将多个具有相同标准化覆盖度值的连续read合并为一个片段；

(2.5)根据步骤(1.5)获得的对照集和步骤(2.4)获得的待测样本的每个片段的标准化覆盖度值计算待测样本每个片段的Ptn值；

(2.6)根据Ptn值的绝对值的大小判断是否存在基因拷贝数变异，并且Ptn值为正数判断为拷贝数重复，Ptn值为负数判断为拷贝数缺失。

如本文所用，术语“正常样本”是指不存在基因拷贝数变异的健康样本。在一个实施方案中，优选正常样本的测序数据与待测样本的测序数据在相同的实验条件下获得。所述实验条件包括但不限于：样本来源；起始DNA含量；文库构建方法；文库构建所用的试剂、操作条件例如温度、时间等；测序平台；测序方法；测序数据量等。

在一个实施方案中，步骤(1.1)中的bed文件是本领域技术人员已知的，一般包括人类基因组每个染色体上各个区段(region)的各种信息。在本发明的上下文中，所述目标信息包括该区段的名称、位于几号染色体，以及在染色体上的具体起始位置和终止位置等。在另一个实施方案中，步骤(1.1)还包括提取每个区段的其他信息，例如对应基因的名称、基因ID等。

在一个实施方案中，步骤(1.1)中的“将每个区段前后各延伸一定长度的核苷酸”是指根据该区段在染色体上的具体起始位置和终止位置，将其分别往前和往后延伸一定长度的核苷酸。本领域技术人员可以根据实际需要确定具体延伸的长度，例如延伸100bp、150bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp等。一般而言，延伸的长度越长，占用的计算空间越大，需要的时间也越多。但延伸的长度过短，则会造成空间浪费，甚至影响检测准确度。因此，在一个实施方案中，综合考虑计算空间和所需时间，优选将每个区段前后各延伸250bp。

通过步骤(1.1)，本发明的方法可以有效缩小数据分析范围，对目标信息进行重点分析，从而提高检测方法的准确性和灵敏度。

在本发明中，“参考人类基因组”是指NCBI数据库中的标准人类参考基因组序列，例如可以为hg18，NCBI Build 36；hg19，NCBI Build 37。人类参考基因组的序列可以在NCBI、Ensembl和UCSC的基因数据中获得。

在一个实施方案中，可以采用本领域技术人员已知的算法或软件进行步骤(1.3)中测序数据与参考人类基因组的比对。此类算法或软件的实例包括但不限于：BLAST、BLAT、MAQ、SOAP、Bowtie、BWA、SSAHA、ELAND。

在一个实施方案中，步骤(1.3)和/或步骤(2.2)还包括对比对后文件进行质控的步骤。对比对后文件进行质控的方法是本领域技术人员已知的。例如，可以通过筛选比对得分、计算唯一比对率、错配率等，使这些指标在合理的波动范围内，从而控制比对后文件的质量。

在一个实施方案中，本领域技术人员可以利用常规方法进行步骤(1.4)和/后步骤(2.3)中将覆盖度值标准化的步骤。例如，可以通过归一化、比例化、中值标准化、对数转换等方式将覆盖度值标准化。

在一个实施方案中，步骤(2.5)中Ptn(pre-tangent-normalized)值的计算利用GATK软件。

在一个实施方案中，步骤(2.6)中Ptn值的绝对值的大小可以通过与预定值进行比较来判断，Ptn值的绝对值大于预定值则表明存在基因拷贝数变异，其中所述预定值可以根据本领域的常规方法进行确定。例如，对于已知与拷贝数变异相关的疾病，可以利用确诊患有此类疾病的患者样本中已知的拷贝数变异情况计算Ptn值，并将其作为判断与该疾病相关的拷贝数变异的预定值。

在一个实施方案中，本发明的方法特别适用于检测与疾病相关的基因拷贝数变异。例如，与杜氏进行性肌营养不良症(Duchenne muscular dystrophy,DMD)、贝氏进行性肌营养不良症(Becker muscular dystrophy,BMD)、脊髓性肌肉萎缩症(Spinal muscularatrophy,SMA)、遗传性乳腺癌等疾病相关的基因拷贝数变异。

在第二个方面，本发明还涉及一种检测基因拷贝数变异的设备，包括：

存储器，被配置为存储一个或多个程序；

处理单元，耦合至所述存储器并且被配置为执行所述一个或多个程序使管理***执行多个动作，所述动作包括本发明的检测基因拷贝数变异的方法的步骤。

在第三个方面，本发明还涉及一种计算机可读存储介质，所述可读存储介质上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行根据本发明的检测基因拷贝数变异的方法的步骤。

需要进一步说明的是，本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Python、Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施方案中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图中的一个或多个方框中规定的功能/动作的各个方面的指令。

本发明的优势在于：(1)对待测样本仅进行一次序列比对操作，大大节省了分析的时间，因为序列比对，尤其是大型基因组(例如，人类基因组)的序列比对往往非常耗时，以bowtie2软件为例，处理一个20G的全外显子测序样本大概需要3.5个小时。(2)利用正常样本构建对照集(即，从多个正常样本获得的每个扩展区段的覆盖度中值)进行对比分析，使得分析结果更加准确，并且对照集只需构建一次即可多次、反复用于后续同类型样本的快速、准确检测；(3)不仅能准确检测基因拷贝数变异，并且能提供拷贝数变异的具***置信息；(4)不仅能检测包括染色体非整倍性在内的较长的基因组拷贝数变异，还能检测长度较短(例如小于1M)的基因组拷贝数变异，例如仅在染色体的某一区段、某一基因、甚至某一基因的某个片段上发生的拷贝数变异；(5)不需要进行额外的实验，仅通过对已有测序数据的分析即可准确检测拷贝数变异。

以上已经描述了本公开的各实施方案，上述说明是示例性的，并不意欲以任何方式限制本发明。在不偏离所说明的各实施方案的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

以下将结合具体的实施例进一步阐述本发明。

附图说明

图1A和1B：待测样本1的MLPA实验结果。

图2：待测样本2的MLPA实验结果。

图3：待测样本3的MLPA实验结果。

具体实施方式

实施例1.

已知DMD基因位于X染色体的位置p21.2-p21.3，并且编码抗肌萎缩蛋白(dystrophin)。DMD基因的突变会引起杜氏进行性肌营养不良症，表现为进行性四肢近端骨骼肌萎缩无力、小腿腓肠肌假性肥大，同时累及心肌和呼吸肌，甚至有些患者还伴随有智力障碍的致死性X连锁阴性遗传病。据报道，DMD基因外显子拷贝数变异发生呈现出显著的热点效应，其中44-55以及3-22号外显子最常发生缺失，而3-11以及21-37号外显子最常发生重复。本实施例的目的在于用本发明的方法检测待测样本中是否包含DMD基因的拷贝数变异以及所述变异的具***置。具体方法如下。

(1)构建对照集；

从Nimblegen WES bed软件提取每个区段的目标信息(包括该区段的名称、位于几号染色体，以及在染色体上的具体起始位置和终止位置)，并将每个区段前后各延伸250bp，获得扩展区段。然后获取100个正常样本的测序数据，并利用BWA软件将每个正常样本的测序数据比对到参考人类基因组序列(NCBI build 37/hg19)，提取唯一比对的read，获得比对后文件。通过筛选比对得分，对比对后文件进行质控。然后计算比对后文件中每个扩展区段的每个read的覆盖度值，并通过归一化将所述覆盖度值标准化，获得每个正常样本的每个扩展区段的每个read的标准化覆盖度值。最后，合并100个正常样本的每个扩展区段的每个read的标准化覆盖度值，并计算每个扩展区段的覆盖度中值作为对照集。

(2)分析待测样本的测序数据

获取3个待测样本的测序数据，利用BWA软件将每个待测样本的测序数据比对到参考人类基因组序列(NCBI build 37/hg19)，提取唯一比对的read，获得比对后文件。通过筛选比对得分，对比对后文件进行质控。然后计算比对后文件中每个read的覆盖度值，并通过归一化将每个read的覆盖度值标准化度。然后将多个具有相同标准化覆盖度值的连续read合并为一个片段。最后，根据正常样本的每个扩展区段的覆盖度中值和待测样本的每个片段的标准化覆盖度值，利用GATK软件计算待测样本每个片段的Ptn值。将Ptn值的绝对值与预定值进行比较，Ptn值的绝对值大于预定值则表明存在基因拷贝数变异，并且Ptn值为正数判断为拷贝数重复，Ptn值为负数判断为拷贝数缺失。

3个待测样本的测序数据进行分析的结果如下(仅示出代表性外显子的数据)。

表1.待测样本1的分析结果。

表2.待测样本2的分析结果。

染色体

起始位置

终止位置

名称

Ptn值

转录本

外显子

chrX

31747436

31748176

r4832:DMD

-0.75340803

NM_000109

exon52

chrX

31791751

31792573

r4833:DMD

-29.93348161

NM_000109

exon51

chrX

31837771

31838522

r4834:DMD

-0.96933133

NM_000109

exon50

chrX

31854521

31858534

r4835:DMD

-0.739692945

NM_000109

exon49

表3.待测样本3的分析结果。

染色体

起始位置

终止位置

名称

Ptn值

转录本

外显子

chrX

32872323

32872420

r4929:DMD

-0.847470629

NA

chrX

32872421

32872580

r4930:DMD

-0.806280419

NA

chrX

33037931

33038590

r4934:DMD

-0.112345021

NM_000109

exon2

注：NA表示该区域不是外显子区，因而不进行转录本和外显子信息的标识。

在本实施例中，用于判断Ptn值大小的预定值是10(根据10名DMD患者的基因拷贝数变异情况计算得出)。从表1可以判断在待测样本1的46-51号外显子处发生拷贝数缺失；从表2可以判断在待测样本2的51号外显子处发生拷贝数缺失；从表3可以判断待测样本3没有发生拷贝数变异。

同时，根据制造商的说明，使用多重连接探针扩增反应(MLPA)试剂盒(来自MRC-Holland公司)检测3个待测样本的拷贝数情况，以验证根据本发明的方法检测基因拷贝数的上述结果是否正确。MLPA的结果如图1-3所示。从图1-3可以看出，MLPA在待测样本1的46-51号外显子处检测到拷贝数缺失，在待测样本2的51号外显子处检测到拷贝数缺失，在待测样本3中没有检测到拷贝数缺失，与本发明方法的检测结果一致。

这些结果表明，根据本发明的方法可以非常准确地检测样本的基因拷贝数变异，准确率达100％。同时，根据本发明的方法还可以提供准确的基因拷贝数变异的起始位置和终止位置，为探索疾病发生的DNA遗传分子机制提供有利的技术支持。

以上所述仅为本发明的实施例，并不用于限制本发明，对于本领域的技术人员来讲，本发明可以有更改和变化。凡在本发明的精神和原则之内，所作的任何修改、同等替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检测基因拷贝数变异的方法，包括以下步骤：

(1)构建对照集：

(1.2)获取多个正常样本的测序数据；

(2)分析待测样本的测序数据：

(2.1)获取待测样本的测序数据；

(2.2)将待测样本的测序数据比对到参考人类基因组，提取唯一比对的read，获得比对后文件；

(2.3)计算比对后文件中每个read的覆盖度值，并将所述覆盖度值标准化，获得每个read的标准化覆盖度值；

(2.5)根据步骤(1.5)获得的正常样本的每个扩展区段的覆盖度中值和步骤(2.4)获得的待测样本的每个片段的标准化覆盖度值计算待测样本每个片段的Ptn值；

2.权利要求1所述的方法，其中步骤(1.3)和/或步骤(2.2)还包括对比对后文件进行质控的步骤。

3.权利要求1所述的方法，其中通过归一化、比例化、中值标准化或对数转换的方法进行步骤(1.4)和/或步骤(2.3)中将覆盖度值标准化的步骤。

4.权利要求1所述的方法，其中所述基因拷贝数变异是与疾病相关的基因拷贝数变异。

5.权利要求4所述的方法，其中所述疾病选自杜氏进行性肌营养不良症、贝氏进行性肌营养不良症、脊髓性肌肉萎缩症、遗传性乳腺癌。

6.一种检测基因拷贝数变异的设备，包括：

存储器，被配置为存储一个或多个程序；

处理单元，耦合至所述存储器并且被配置为执行所述一个或多个程序使管理***执行多个动作，所述动作包括执行根据权利要求1所述的方法的步骤。

7.一种计算机可读存储介质，所述可读存储介质上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1所述的方法的步骤。