CN102985561A - 用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体 - Google Patents
用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体 Download PDFInfo
- Publication number
- CN102985561A CN102985561A CN2011800229710A CN201180022971A CN102985561A CN 102985561 A CN102985561 A CN 102985561A CN 2011800229710 A CN2011800229710 A CN 2011800229710A CN 201180022971 A CN201180022971 A CN 201180022971A CN 102985561 A CN102985561 A CN 102985561A
- Authority
- CN
- China
- Prior art keywords
- karyomit
- chromosomal
- normalization method
- sample
- interested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种能够在包含胎儿和母体核酸的母体样品中检测单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面不同。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异有关的病状的诊断和监测。
Description
发明领域
本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异相关联的病状的诊断和监测。
发明背景
2007年公布的美国妇产科学会(American College of Obstetrics andGynecology;ACOG)实施公告号77支持对所有孕妇妊娠期的前三个月进行非整倍性风险评估,该评估是基于颈半透明度测量以及替代生化标记物,用以筛查唐氏综合征(美国妇产科学会实施公告号77(ACOG Practice Bulletin No.77),妇产科(Obstet Gynecol)109:217-227[2007])。这些筛查测试仅可以提供风险确定,该风险确定是非决定性的并且具有非最佳的确定和高假阳性率。如今,仅有包括绒膜绒毛采样(CVS)、羊膜穿刺或脐带穿刺在内的创伤性方法才提供关于胎儿的明确遗传信息,但这些程序对母亲和胎儿都有风险(欧迪波(Odibo)等人,妇产科(Obstet Gynecol)112:813-819[2008];欧迪波(Odibo)等人,妇产科(Obstet Gynecol)111:589-595[2008];埃文斯(Evans)和瓦普纳(Wapner),围产期学论文集(Semin Perinatol)29:215-218[2005])。因此,所希望的是一种用来获得关于胎儿染色体状态的明确信息的无创性手段。
对从母体血浆中获得的cfDNA进行大规模平行DNA测序产生数百万个短序列标签,这些短序列标签可以被比对并且唯一地映射到来自参照人类基因组的位点,并且所映射的标签的计数可以用于确定染色体的过度表达或表达不足(范(Fan)等人,美国国家科学院院刊(Proc Natl Acad Sci USA)105:16266-16271[2008];维尔克汀(Voelkerding)和里昂(Lyon),临床化学(Clin Chem)56:336-338[2010])。然而,测序深度和后续计数统计决定了胎儿非整倍性确定的灵敏度。显然不能在测试样品群体中确定一种以上类型的三体性,这一情况强调了针对用来在母体血浆样品中确定染色体非整倍性的优化的算法的需求(赵(Chiu)等人,英国医学杂志(BMJ)342,c7401[2011];埃里克(Ehrich)等人,美国妇产科杂志(Am J Obstet Gynecol)2014:205 e1[2011])。
现有方法的局限性成为针对最佳的无创性方法的需求的基础,这些最佳的无创性方法将为产前诊断以及与拷贝数变化有关的医学病状的诊断和监测提供特异性、灵敏性以及适用性中的任一者或全部以便可靠地诊断染色体非整倍性。
本发明实现了上述需求中的一些,并且尤其提供了一个优点,即提供了一种可靠的方法,该方法具有足够的灵敏性以便确定单个或多个染色体非整倍性,并且该方法验证已作出正确的确定。
发明概述
本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面不同。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异有关的病状的诊断和监测。
在一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在一种胎儿染色体非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较指示存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述的归一化的染色体值(NCV)。
在上述和所有后续实施方案中,获得测序信息的步骤包括下一代测序(NGS)。NGS可以是使用多个可逆染料终止子进行合成法测序(sequencing-by-synthesis)。可替代地,NGS可以是连接法测序(sequencing-by-ligation)进行测序。NGS还可以是单分子测序。
类似地,在上述和所有后续实施方案中,针对染色体21的归一化染色体是选自染色体9、11、14、以及1。在一些实施方案中,针对染色体18的归一化染色体是选自染色体8、3、2、以及6。在一些实施方案中,针对染色体13的归一化染色体是选自染色体4、染色体2-6的群组、染色体5、以及染色体6。在一些实施方案中,针对染色体X的归一化染色体是选自染色体6、5、13、以及3。在一些实施方案中,针对染色体1的归一化染色体是选自染色体10、11、9、以及15。在一些实施方案中,针对染色体2的归一化染色体是选自染色体8、7、12、以及14。在一些实施方案中,针对染色体3的归一化染色体是选自染色体6、5、8、以及18。在一些实施方案中,针对染色体4的归一化染色体是选自染色体3、5、6、以及13。在一些实施方案中,针对染色体5的归一化染色体是选自染色体6、3、8、以及18。在一些实施方案中,针对染色体6的归一化染色体是选自染色体5、3、8、以及18。在一些实施方案中,针对染色体7的归一化染色体是选自染色体12、2、14、以及8。在一些实施方案中,针对染色体8的归一化染色体是选自染色体2、7、12、以及3。在一些实施方案中,针对染色体9的归一化染色体是选自染色体11、10、1、以及14。在一些实施方案中,针对染色体10的归一化染色体是选自染色体1、11、9、以及15。在一些实施方案中,针对染色体11的归一化染色体是选自染色体1、10、9、以及15。在一些实施方案中,针对染色体12的归一化染色体是选自染色体7、14、2、以及8。在一些实施方案中,针对染色体14的归一化染色体是选自染色体12、7、2、以及9。在一些实施方案中,针对染色体15的归一化染色体是选自染色体1、10、11、以及9。在一些实施方案中,针对染色体16的归一化染色体是选自染色体20、17、15、以及1。在一些实施方案中,针对染色体17的归一化染色体是选自染色体16、20、19、以及22。在一些实施方案中,针对染色体19的归一化染色体是选自22、17、16、以及20。在一些实施方案中,针对染色体20的归一化染色体是选自染色体16、17、15、以及1。在一些实施方案中,针对染色体22的归一化染色体是选自染色体19、17、16、以及20。
在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在一种胎儿染色体非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述的归一化的染色体值(NCV)。胎儿染色体非整倍性可以是一种部分的或完整的染色体非整倍性。在这些实施方案中,胎儿染色体非整倍性可以选自21三体性(T21)、18三体性(T18)、13三体性(T13)、X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。
在另一个实施方案中,该方法确定存在或不存在至少两种不同的染色体非整倍性。在一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在至少两种不同的胎儿染色体非整倍性,其中这些步骤包括(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。
在另一个实施方案中,该方法确定存在或不存在至少两种不同的染色体非整倍性。在一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)来确定在包含胎儿和母体核酸分子的母体测试样品中存在或不存在至少两种不同的胎儿染色体非整倍性,其中这些步骤包括(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。至少两种不同的胎儿染色体非整倍性可以选自T21、T18、T13、以及X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。
在另一个实施方案中,该方法通过以下步骤验证在包含胎儿和母体核酸分子的母体测试样品中存在或不存在针对感兴趣的染色体的一种非整倍性的确定:(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述计算的归一化的染色体值(NCV)。
在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定:(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述计算的归一化的染色体值(NCV)。胎儿染色体非整倍性可以是一种部分的或完整的染色体非整倍性。在这些实施方案中,胎儿染色体非整倍性可以选自T21、T18、T13、以及X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。
在另一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在至少两种不同的胎儿染色体非整倍性,其中针对该至少两个感兴趣的染色体中每一个的步骤(a)-(c)包括(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,对于该至少两个感兴趣的染色体中的每一个而言,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。
在另一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在至少两种不同的胎儿染色体非整倍性,其中针对该至少两个感兴趣的染色体中每一个的步骤(a)-(c)包括(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,对于该至少两个感兴趣的染色体中的每一个而言,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法包括针对所有染色体重复该方法以确定存在或不存在至少两种不同的胎儿染色体非整倍性。至少两种不同的胎儿染色体非整倍性可以选自T21、T18、T13、以及X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。
在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的一种胎儿染色体非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目,其中获得序列信息包括使用多个可逆染料终止子进行大规模平行合成法测序;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的至少两种不同的染色体非整倍性。该方法可以进一步包括针对所有染色体重复步骤(a)-(c)以确定存在或不存在至少两种胎儿染色体非整倍性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。
在另一个实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的一种胎儿染色体非整倍性:(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目,其中获得序列信息包括使用多个可逆染料终止子进行大规模平行合成法测序;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。在一些实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)在包含胎儿和母体核酸分子(例如cfDNA)的母体血浆测试样品中确定存在或不存在选自21三体性、18三体性、13三体性、以及X单体性的至少两种不同的染色体非整倍性。该方法可以进一步包括针对所有染色体重复步骤(a)-(c)以确定存在或不存在至少两种胎儿染色体非整倍性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。在一些其他实施方案中,母体测试样品是从一位孕妇获得的血浆样品,并且核酸分子是cfDNA分子。
在一些上述实施方案以及一些后续实施方案中,获得针对在样品中胎儿和母体核酸的序列信息包括对在样品中的胎儿和母体核酸分子进行测序。
通过引用结合
本文中所提及的所有专利、专利申请、以及其他公开物(包括这些参考文献中所披露的所有序列)都明确地通过引用结合,其结合程度就如同各单独的公开物、专利或专利申请确切地并且单独地被指明为通过引用结合。然而,对任何文献的引述都不应该被理解为承认它是关于本发明的现有技术。
附图简要说明
本发明的新颖特征在所附权利要求书中加以特殊性阐述。通过参考以下阐述了利用本发明原理的示意性实施方案的发明详细说明以及其附图将获得对本发明特征和优点的更好理解。
图1提供了一个流程图,示出了确定并且验证存在或不存在非整倍性的方法的两个替代实施方案。
图2示出了在来自训练集1的样品中确定的针对染色体21(○)、18(△)、以及13(□)的归一化的染色体值(实例1)。
图3示出了在来自测试集1的样品中确定的针对染色体21(○)、18(△)、以及13(□)的归一化的染色体值(实例1)。
图4示出了使用赵(Chiu)等人的归一化方法在来自测试集1的样品中确定的针对染色体21(○)和18(△)的归一化的染色体值(实例1)。
图5示出了使用染色体11作为归一化染色体在测试集1(实例1)的48个样品中确定的针对染色体9剂量的归一化的染色体值的图。
图6示出了使用染色体2作为归一化染色体在测试集1(实例1)的48个样品中确定的针对染色体8剂量的归一化的染色体值的图。
图7示出了使用染色体5作为归一化染色体在测试集1(实例1)的48个样品中确定的针对染色体6剂量的归一化的染色体值的图。
图8示出了对应地使用染色体9(A)、染色体10(B)、以及染色体14(C)在测试集1的48个样品中确定的针对染色体21剂量的归一化的染色体值的图,该测试集1包括未受影响(○)和受影响(△)(即,21三体性)的样品。
图9示出了使用染色体2作为归一化染色体(A)以及使用染色体7作为归一化染色体(B)在测试集2(实例4)中确定的针对染色体8剂量的归一化的染色体值的图。
发明详细说明
本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面有所不同。该方法至少适用于无创性产前诊断的实施,并且适用于与健康个体对比患病的个体中序列表达差异有关的病状的诊断和监测。
除非另外指明,否则本发明的实施涉及分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序、以及重组DNA领域中常用的常规技术,这些技术都在本领域的技术范畴内。这些技术是本领域的技术人员所知的,并且描述于众多教科书和参考文献中(参见例如萨姆布鲁克(Sambrook)等人,“分子克隆实验指南(Molecular Cloning:A Laboratory Manual)”,第二版(冷泉港(Cold Spring Harbor)),[1989]);和奥苏伯尔(Ausubel)等人,“最新分子生物学实验方法汇编(Current Protocols in Molecular Biology)”[1987])
数值范围包括限定该范围的数值。在此的意图是贯穿本说明书给出的每一最大数值限度包括每一较低的数值限度,如同此类较低数值限度在此被明确写出。贯穿本说明书给出的每一最小数值限度将包括每一较高的数值限度,如同此类较高数值限度在此被明确写出。贯穿本说明书给出的每一数值范围将包括落在此类较广的数值范围内的每一较窄数值范围,如同此类较窄数值范围此处被全部明确地写出。
本文中所提供的标题并不是对本发明的不同的方面或实施方案的限制,它可以是通过参考作为一个总体的说明书而具有的。因此,如上所指明,直接在下文中定义的术语通过参考作为一个总体的说明书而更充分地定义。
除非在此另行定义,在此使用的所有技术的和科学的术语都具有本发明所属领域中的一位普通技术人员通常理解的相同含义。包括了在此包含的术语的不同科学字典对于本领域那些技术人员而言是熟知并且是可获得的。虽然类似或等价于在此所述的那些方法和材料的任何方法和材料在实施或测试本发明中找到了用途,但仅说明了一些优选的方法和材料。因此,直接在下文中定义的术语通过将本说明书作为整体来参阅即得到更完全地说明。应理解,本发明并不局限于所说明的具体方法学、规程、以及试剂,因为这些可以变化,它们被本领域的那些技术人员根据其情况下来使用。
定义
如在此所使用的,单数的术语“一个”、“一种”、和“该”包括复数引用,除非上下文清楚地另外指明。除非另外指明,核酸是按5′到3′方向从左到右书写并且氨基酸序列是按氨基到羧基方向从左到右书写。
术语“获得序列信息”在本文中是指对核酸进行测序以获得呈序列读数形式的序列信息,这些序列读数当被唯一地映射到参照基因组时被识别为序列标签。
术语“归一化值”在本文中是指针对感兴趣的染色体确定的并且使针对感兴趣的染色体的序列标签的数目与针对归一化染色体的序列标签的数目相关联的一个数值。举例来说,“归一化值”可以是如本文中别处描述的一个染色体剂量,或者它可以是如本文中别处描述的一个NCV(归一化的染色体值)。
术语“感兴趣的染色体”在本文中是指进行存在或不存在一种非整倍性确定的一种染色体。感兴趣的染色体的实例包括常见的非整倍性(如21三体性)中所涉及到的染色体,以及罕见的非整倍性(如2三体性)中所涉及到的染色体。染色体1-22、X以及Y中的任何一项都可以是感兴趣的染色体。
术语“多个(multiple)和复数个(plurality)”当关于染色体非整倍性数目和/或染色体数目使用时,在本文中是指两个或更多个非整倍性和/或染色体。
术语“阈值”在本文中是指使用训练数据集计算的并且用作生物体中拷贝数变异(例如非整倍性)诊断界限的任何数值。如果从实施本发明获得的结果超过阈值,那么受试者可以被诊断为有拷贝数变异(例如21三体性)。针对本文中所述的方法的适当阈值可以通过对针对包括合格样品(即,未受影响的样品)的训练样品集所计算的归一化值(例如染色体剂量、或NCV(归一化的染色体值))进行分析来识别。阈值可以使用合格样品以及被识别为具有染色体非整倍性的样品(即,受影响的样品)进行设定(参见本文中的实例)。在一些实施方案中,用于识别适当阈值的训练集包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少2000个、至少3000个、至少4000个、或更多个合格样品。使用更大的合格样品集来改善阈值的诊断工具可能是有利的。
术语“下一代测序(NGS)”在本文中是指允许对以克隆方式扩增的核酸分子以及单个核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括使用多个可逆染料终止子进行的合成法测序、以及连接法测序。
术语“读数”是指具有足够长度(例如至少约30bp)的一个DNA序列,其可以用于识别更大的序列或区域,例如其可以被比对并且特定地归属到染色体或基因组区域或基因。
术语“序列标签”在本文中可与术语“映射的序列标签”互换使用以提及已通过比而确切地归属(即,映射)到更大序列(例如,参照基因组)的一个序列读数。映射的序列标签被唯一地映射到一个参照基因组,即,它们被归属到参照基因组的单一位置。分析中不包括可以被映射到参照基因组上的一个以上位置的标签(即,不唯一地映射的标签)。
术语“序列标签的数目”当关于针对一个感兴趣的染色体和/或一个或多个归一化染色体的标签的数目使用时,在本文中是指映射到这个感兴趣的染色体和/或这个或这些归一化染色体的序列标签,这些序列标签是针对样品中所有染色体获得的多个标签的子集。针对一个样品获得的标签数目可以是至少约1×106个序列标签、至少约2×106个序列标签、至少约3×106个序列标签、至少约5×106个序列标签、至少约8×106个序列标签、至少约10×106个序列标签、至少约15×106个序列标签、至少约20×106个序列标签、至少约30×106个序列标签、至少约40×106个序列标签,或至少约50×106个序列标签、或至少约60×106个序列标签,或至少约70×106个序列标签、或至少约80×106个序列标签,包括在20bp与40bp之间(例如36bp)的读数,是每个样品通过将读数映射到参照基因组而获得的。被映射到任何一个染色体的标签的数目将取决于染色体大小和染色体拷贝数。举例来说,被映射到21三体性样品中的染色体21的标签的数目将不同于(即,大于)被映射到未受影响的样品中的染色体21的标签的数目。类似地,被映射到染色体19的标签的数目将小于被映射到染色体1(其约为染色体19大小的4倍)的标签的数目。被映射到感兴趣的序列(例如染色体)的标签的数目也被称为“序列标签密度”。
术语“序列标签密度”在本文中是指被映射到参照基因组序列的序列读数的数目,例如针对染色体21的序列标签密度是通过测序方法产生的被映射到参照基因组的染色体21的序列读数的数目。可以针对整个染色体、或针对染色体的部分确定序列标签密度。
如本文中所使用,术语“被比对的”、“比对”或“进行比对”是指就它们的核酸分子次序方面被识别为与来自参照基因组的已知序列匹配的一个或多个序列。该种比对可以人工进行或通过计算机算法进行,实例包括作为亿明达基因组学分析流水线(Illumina Genomics Analysis pipeline)的一部分配发的高效的核苷酸数据局部比对(Efficient Local Alignment of Nucleotide Data;ELAND)的计算机程序。比对中的序列读数的匹配可以是100%序列匹配或小于100%(非完美匹配)。
如本文中所使用,术语“参照基因组”是指任何生物体或病毒的任何特定的已知基因组序列(无论是部分的还是完整的),其可以用于给从受试者识别出的序列作参照。举例来说,用于人类受试者以及许多其他生物体的参照基因组见于美国国家生物技术信息中心(National Center for BiotechnologyInformation)www.ncbi.nlm.nih.gov。
“基因组”是指以核酸序列形式表示的生物体或病毒的完整遗传信息。
术语“母体样品”在本文中是指从怀孕的受试者(例如女性)获得的生物样品。
术语“生物学流体”在本文中是指从生物来源取得的液体,并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、***、汗水、眼泪、唾液等。如本文中所使用,术语“血液”、“血浆”以及“血清”明确地涵盖它们的部分或经过加工的部分。类似地,当样品是取自活组织检查、拭子、涂片等时,“样品”明确地涵盖来源于活组织检查、拭子、涂片等的经过加工的碎片或部分。
术语“母体核酸”和“胎儿核酸”在本文中对应地是指怀孕女性受试者的核酸以及由怀孕雌性所携带的胎儿的核酸。
术语“受试者”在本文中是指人类受试者以及非人类受试者,如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌、以及病毒。尽管本文中的实例涉及人类并且言辞主要是针对有关人类,但本发明的概念适用于来自任何植物或动物的基因组,并且适用于兽医学、动物科学、以及研究实验室等领域。
术语“归一化序列”在本文中是指在多个样品和多个测序批次之间显示被映射到其上的序列标签的数目有变异性的序列,该序列标签的数目的变异性最接近于它被用作归一化参数所针对的感兴趣的序列的序列标签的数目的变异性,并且可以最佳地将受影响的样品与一个或多个未受影响的样品区别开。“归一化染色体”是“归一化序列”的一个实例。
术语“序列剂量”在本文中是指使感兴趣的序列的序列标签密度与归一化序列的标签密度相关联的一个参数。“染色体剂量”是被映射到染色体(例如感兴趣的染色体)的序列标签的数目与被映射到归一化染色体的序列标签的数目的比率,它是序列剂量的一个实例。“测试序列剂量”是使在测试样品中确定的感兴趣的序列(例如染色体21)的序列标签密度与归一化序列(例如染色体9)的序列标签密度相关联的一个参数。类似地,“合格序列剂量”是使在合格样品中确定的感兴趣的序列的序列标签密度与归一化序列的序列标签密度相关联的一个参数。
术语“染色体剂量”在本文中是指被映射到染色体(例如感兴趣的染色体)的序列标签的数目与被映射到归一化染色体的序列标签的数目的比率。
术语“归一化染色体”在本文中是指在多个样品和多个测序批次之间显示被映射到它的序列标签的数目有变异性的染色体,该序列标签的数目的变异性最接近于它被用于获得归一化值所针对的感兴趣的染色体的序列标签的数目的变异性,并且可以最佳地将受影响的样品与一个或多个未受影响的样品区别开。
术语“感兴趣的序列”在本文中是指与在健康个体对比患病的个体中的序列表达差异有关的核酸序列。感兴趣的序列可以是在疾病或遗传状况中错误表达(即,过度表达或表达不足)的染色体上的序列。感兴趣的序列还可以是染色体的一部分、或染色体(即,感兴趣的染色体)。举例来说,感兴趣的序列可以是在非整倍性病状中过度表达的染色体(例如染色体13、18、21、以及X)、或在癌症中编码表达不足的肿瘤抑制因子的基因。感兴趣的序列包括在受试者细胞的总群或亚群中过度表达或表达不足的序列。“感兴趣的合格序列”是合格样品中的感兴趣的序列。“感兴趣的测试序列”是测试样品中的感兴趣的序列。
术语“合格样品”在本文中是指包含与测试样品中的核酸进行比较的、以已知拷贝数存在的多种核酸的混合物的一个样品,并且针对感兴趣的序列,它是正常(即,不是非整倍体)的样品,例如用于识别针对染色体21的归一化染色体的合格样品是一个非21三体性样品的样品。
术语“训练集”和“训练样品”在本文中用于指包含与测试样品中的核酸进行比较的、以已知拷贝数存在的核酸的样品。除非另外说明,否则训练集包括合格和受影响的样品。
术语“测试样品”在本文中是指包含核酸混合物并且这些核酸包含拷贝数被怀疑已经发生变异的至少一个核酸序列的样品。存在于测试样品中的核酸被称为“测试核酸”。
术语“非整倍性”在此是指由损失或获得整个染色体、或染色体的一部分而引起的遗传物质的不平衡。
术语“染色体性非整倍性”在此是指由损失或获得整个染色体而引起的遗传物质的不平衡,并且包括种系非整倍性和嵌合性非整倍性。
术语“部分非整倍性”和“部分染色体性非整倍性”在此是指由损失或获得染色体的一部分(例如,部分单体性和部分三体性)而引起的遗传物质的不平衡,并且涵盖由易位、缺失和***引起的不平衡。
术语“核酸分子”、“多核苷酸”以及“核酸”被可互换地使用,并且是指一个共价连接的核苷酸序列(即,RNA的核糖核苷酸和DNA的脱氧核糖核苷酸),其中一个核苷酸的戊糖的3′位置被一个磷酸二酯基团连接到下一个核苷酸的戊糖的5′位置上,这包括任何形式的核酸的序列,包括但不局限于RNA、DNA和cfDNA分子。术语“多核苷酸”包括而不局限于单链的和双链的多核苷酸。
术语“拷贝数变异(CNV)”在本文中是指存在于测试样品中的核酸序列拷贝数与存在于合格样品(即,正常样本)中的核酸序列拷贝数相比的变异。拷贝数变异包括缺失(包括微缺失)、***(包括微***)、复制、倍增、倒位、易位以及复杂多位置变异。CNV涵盖了完整的染色体非整倍性和部分的非整倍性。
描述
本发明提供了一种能够在包含胎儿和母体核酸的母体样品中确定单个或多个胎儿染色体非整倍性并且验证已作出正确的确定的方法。该方法适用于在多个样品中确定任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于至少两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面不同。感兴趣的序列包括在数百个碱基到数十个巨碱基到整个染色体范围内的基因组序列,这些基因组序列已知或被怀疑为与遗传或疾病病状有关。感兴趣的序列的实例包括与熟知的非整倍性(例如21三体性)有关的染色体、以及在疾病(如癌症)中倍增的染色体片段(例如急性髓细胞白血病中的部分8三体性)。
本发明方法包括在一个或多个母体测试样品中获得测序信息,以计算针对感兴趣的序列(例如染色体)的染色体剂量,从而确定存在或不存在单个或多个染色体非整倍性,并且包括验证作出正确的非整倍性的确定。正确地确定在样品中存在或不存在CNV(例如非整倍性)所需的准确性是基于以下各项的:一个测序批次内的多个样品之间映射到参照基因组的序列标签的数目的变异(同批测序变异),以及不同测序批次中映射到参照基因组的序列标签的数目的变异(轮次间测序变异),这些变异可以使胎儿染色体非整倍性映射射的序列标签的分布的影响不明显。举例来说,对于映射到GC富集或GC贫乏的参照序列的标签而言,变异可能尤其显著。为了校正该种变异,本发明方法基于归一化染色体(或归一化染色体群组)的知识使用染色体剂量从本质上解释了出现的测序变异性。
归一化染色体和染色体剂量
使用来自一组从受试者获得的合格样品的序列信息来识别归一化染色体,这些样品已知包含具有针对任何一个感兴趣的序列正常的拷贝数(例如针对染色体21的二倍体)的细胞。从合格样品获得的序列信息还用于确定在测试样品中染色体非整倍性的有统计学意义的识别(参见实例)。在一个实施方案中,合格样品是从怀有胎儿的母亲获得的,已使用细胞遗传学手段证实该胎儿具有正常的染色体拷贝数(例如针对染色体21的二倍体)。生物学合格样品可以是一种生物学流体(例如血浆)、或如下文所述的任何适合的样品。在一些实施方案中,合格样品包含核酸分子(例如cfDNA分子)的混合物。在一些实施方案中,合格样品是包含胎儿和母体cfDNA分子的混合物的母体血浆样品。
通过使用任何已知的测序方法对核酸(例如胎儿和母体核酸)的至少一部分进行测序来获得针对归一化染色体的序列信息。优选地,使用本文中别处所述的任何一种下一代测序(NGS)方法来对呈单分子或以克隆方式扩增的分子形式的胎儿和母体核酸进行测序。具有预定长度(例如36bp)的数百万个序列读数是通过NGS技术产生的,并且被映射到参照基因组以待于作为序列标签进行计数。对各合格样品的至少一部分核酸进行测序,并且对被映射到各染色体的序列标签的数目进行计数。在一些实施方案中,被映射到染色体的序列标签的数目可以归一化到这些感兴趣的合格序列的、映射它们到上面的长度。作为标签密度相对于感兴趣的序列长度的比率而确定的序列标签密度在本文中被称作标签密度比率。归一化到感兴趣的序列长度不是必需的,但是可以作为用来减少数值中的数字数目的步骤而包括在内,以简化数值以供人类解读。当各合格样品中的所有合格序列标签都被映射并且计数时,合格样品中针对感兴趣的序列(例如临床上相关的序列)的合格序列标签密度被确定,针对随后用来从中识别归一化序列的另外序列的序列标签密度也被确定了。
基于所计算的合格标签密度,针对感兴趣的序列(例如染色体21)的合格序列剂量(例如染色体剂量)各自作为针对感兴趣的序列的序列标签密度与针对随后用来从中识别归一化序列的另外序列的合格序列标签密度的比率而被确定。举例来说,针对感兴趣的染色体(例如染色体21)的染色体剂量是作为针对染色体21的序列标签密度与针对所有其余染色体(即,染色体1-20、染色体22、染色体X、以及染色体Y)各自的序列标签密度的比率而确定的。可以针对所有染色体确定合格序列剂量。
随后,基于所计算的序列剂量在合格样品中识别出针对感兴趣的序列(例如染色体21)的至少两个归一化序列。举例来说,针对染色体21的合格归一化序列是作为合格样品中所具有的序列标签密度变异最接近于染色体21的序列标签密度变异的序列而识别的。举例来说,合格归一化序列是具有最小变异性的序列。在一些实施方案中,识别出两个以上的归一化序列。举例来说,确定了针对所有染色体1-22、染色体X、以及染色体Y中的每一个的具有最低变异性的归一化染色体。实例5中的表9提供了四个归一化染色体,这些归一化染色体被确定为针对染色体1-22、染色体X、以及染色体Y中的每一个的具有四个最低变异性。如实例中所示,变异性在数值上可以表示为变异系数(CV%)。归一化序列还可以是最佳地区分一个或多个合格样品与一个或多个受影响的样品的序列,即,归一化序列是具有最大可辨性的序列。可辨性程度可以作为合格样品群体中的染色体剂量与一个或多个测试样品中的染色体剂量之间的统计学差异而确定。举例来说,可辨性在数值上可以表示为T测试值,其表示合格样品群体中的染色体剂量与一个或多个测试样品中的染色体剂量之间的统计学差异。可替代地,可辨性在数值上可以表示为归一化的染色体值(NCV),其在NCV呈正态分布的时候是针对染色体剂量的z分值。在确定z分值中,可以使用一组合格样品中的染色体剂量的均值和标准差。可替代地,可以使用包括合格样品和受影响的样品的训练集中的染色体剂量的均值和标准差。在其他实施方案中,归一化序列是具有最小变异性和最大可辨性的序列。
该方法识别了天生地具有类似的特征并且倾向于在样品和测序批次之间发生类似的变异的序列,并且这些序列适用于确定测试样品中的序列剂量。
基于对合格样品中的这个或这些归一化序列的识别,使用针对测试样品中的核酸获得的序列信息确定测试样品中针对感兴趣的序列(例如染色体21)的一个或多个序列剂量(例如染色体剂量)。在一些实施方案中,确定了针对感兴趣的序列的至少两个序列剂量(例如染色体剂量)。举例来说,使用染色体9作为一个第一归一化染色体确定针对染色体21的一个第一染色体剂量,并且使用染色体11作为第二归一化染色体确定针对染色体21的一个第二染色体剂量。测试序列剂量可以进一步表示为如下所述的NCV。在一些实施方案中,可以通过以下步骤进行测试样品的分类:直接将针对感兴趣的染色体的第一测试序列剂量与一个第一阈值进行比较并且将第二测试序列剂量与一个第二阈值进行比较以确定在测试样品中存在或不存在一种染色体非整倍性。针对感兴趣的染色体的两个染色体剂量的比较验证了样品分类的确定。根据用户定义的可靠性阈值选择阈值以将样品分类为“正常的”、“受影响的”或““未判定(no call)的”样品。在其他实施方案中,使用一个第一归一化染色体确定针对感兴趣的染色体的一个第一染色体剂量,并且使用一个第二归一化染色体确定针对第一归一化染色体的一个第二染色体剂量。可以通过以下步骤进行测试样品的分类:将第一染色体剂量与一个第一阈值进行比较并且将第二染色体剂量与一个第二阈值进行比较以确定在测试样品中存在或不存在一种染色体非整倍性。针对感兴趣的染色体的染色体剂量与一个第一阈值的比较确定了在测试样品中存在或不存在针对感兴趣的染色体的非整倍性,并且针对归一化染色体的第二染色体剂量与一个第二阈值的比较验证了样品分类的确定。测试染色体剂量可以进一步表示为如下所述的NCV,其中第一和第二染色体剂量表示为第一和第二NCV;并且测试样品的分类是通过将第一NCV与一个第一阈值进行比较并且将第二NCV与一个第二阈值进行比较来进行的。
尽管本文中的实例涉及完整的染色体非整倍性,但本发明的概念适用于部分的非整倍性。在一个实施方案中,感兴趣的序列是与部分的非整倍性(例如染色体缺失或***、或不平衡的染色体易位)有关的染色体片段,并且至少两个归一化序列是与部分的非整倍性无关的染色体片段,并且这些两个归一化序列的序列标签密度变异最接近于与部分的非整倍性有关的染色体片段的序列标签密度变异。部分的非整倍性可以使用染色体剂量确定(参见2010年12月1日提交的国际申请PCT/US2010/058609、以及2010年12月1日提交的美国专利申请12/958,352,这些申请的名称都为“用于确定拷贝数变异的方法(Method for Determining Copy Number Variations)”并且通过引用以其全文结合在此)。可以根据本发明方法使用至少两个归一化序列验证存在或不存在一种部分的非整倍性。
图1提供了方法100的两个示例性实施方案的流程图,该方法在包含两个基因组的混合物的样品(例如母体样品)中确定并且验证存在或不存在一种染色体非整倍性。
在一个第一实施方案中,该方法通过以下步骤在包含胎儿和母体核酸的母体测试样品中确定存在或不存在胎儿染色体非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的序列标签的数目以及针对至少两个归一化染色体的序列标签的数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如下所述的归一化的染色体值(NCV)。
根据如图1中示出的方法的步骤110、120、130、以及140描绘第一实施方案。对从母体样品获得的胎儿和母体核酸进行测序以提供序列标签的数目(110)。对被映射到一个感兴趣的染色体(例如染色体21)的序列标签、以及被映射到两个归一化染色体(例如染色体9和染色体11)的序列标签进行计数并且用于计算针对感兴趣的染色体的相应的第一和第二归一化值(例如染色体剂量)。在一个实施方案中,至少两个染色体剂量是针对各感兴趣的染色体确定的归一化值。在一个实施方案中,针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率(120)。将针对感兴趣的染色体的第一归一化值(即,第一染色体剂量)与一个第一阈值相比,并且将针对感兴趣的染色体的第二归一化值(即第二染色体剂量)与一个第二阈值相比(130),并且进行存在或不存在一种染色体非整倍性的确定以及验证(140)。可替代地,至少两个染色体剂量表示为第一和第二归一化的染色体值(NCV),该第一NCV使第一染色体剂量与在一组合格样品中相应的第一染色体剂量的均值相关联,并且第二NCV使第二染色体剂量与在同一组合格样品中相应的染色体剂量的均值相关联,如:
其中和对应地是针对在一组合格样品中第j个染色体剂量的估算均值和标准差,并且xij是针对测试样品i所观察到的第j个染色体剂量。第一和第二归一化值(即,NCV)各自对应地与一个第一阈值和一个第二阈值相比(130),并且进行存在或不存在一种染色体非整倍性的确定以及验证(140)。该方法能够识别极罕见的(例如9三体性)和较常见的染色体非整倍性(例如21三体性),并且可以识别来自测序信息的多个染色体非整倍性,该测序信息是从测试样品核酸(例如cfDNA)上的单个测序批次而获得的。如实例中所示,针对样品获得的用来确定存在或不存在21三体性的序列信息揭示了虽然不存在21三体性,但该样品包含9三体性。在一些实施方案中,在染色体1-22、染色体X以及染色体Y中的任一项中识别出染色体非整倍性。可以在感兴趣的染色体和/或第一或第二归一化染色体中识别染色体非整倍性。在一些实施方案中,该方法识别出选自21三体性、13三体性、18三体性以及X单体性的多个染色体非整倍性。
在一个第二实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定:(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的映射的序列标签的数目以及针对至少两个归一化染色体的序列标签的数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为按照以下计算的、如上所述的归一化的染色体值(NCV)
根据如图1中示出的方法的步骤110、150、160、以及140描绘第二实施方案。对从母体样品获得的胎儿和母体核酸进行测序以提供序列标签的数目(110)。对被映射到一个感兴趣的染色体(例如染色体21)的序列标签、以及被映射到一个归一化染色体(例如染色体9)的序列标签进行计数并且用于计算针对感兴趣的染色体的一个相应的第一归一化值(例如染色体剂量),并且作为被映射到第一归一化染色体(例如染色体9)的序列标签与被映射到一个第二归一化染色体(例如染色体11)的序列标签的数目的比率,计算针对第一归一化染色体的一个第二归一化值(例如染色体剂量)(150)。第一和第二归一化值(即,染色体剂量)各自对应地与第一和第二阈值相比(160),并且进行存在或不存在一种染色体非整倍性的确定以及验证(140)。可替代地,两个归一化值(即,两个染色体剂量)表示为第一和第二归一化的染色体值(NCV),该第一NCV使第一染色体剂量与在一组合格样品中相应的第一染色体剂量的均值相关联,并且第二NCV使第二染色体剂量与在同一组合格样品中相应的染色体剂量的均值相关联,如:
其中和对应地是针对在一组合格样品中第j个染色体剂量的估算均值和标准差,并且xij是针对测试样品i所观察到的第j个染色体剂量。第一和第二归一化值(即,NCV)各自与预定阈值相比(160),并且进行存在或不存在一种染色体非整倍性的确定以及验证(140)。
如先前所述,该方法能够识别罕见的非整倍性(例如9三体性)、以及常见的非整倍性(例如21三体性)、染色体非整倍性,并且可以识别来自测序信息的多个染色体非整倍性,该测序信息是从关于测试样品核酸(例如cfDNA)的单个测序批次获得的。在一些实施方案中,在染色体1-22、染色体X以及染色体Y中的任一项中识别单个或多个染色体非整倍性。可以在感兴趣的染色体和/或第一或第二归一化染色体中识别出染色体非整倍性。在一些实施方案中,该方法识别出选自21三体性、13三体性、18三体性、9三体性以及X单体性的单个或多个染色体非整倍性。
可以在一个或多个独立的合格样品集中确定归一化染色体。在一些实施方案中,可以在一个或多个合格样品集中确定针对基因组中的所有染色体的归一化染色体。确定针对基因组中的所有染色体的归一化染色体,允许使用测序信息来确定基因组的各染色体中的染色体非整倍性,该测序信息是从来自测试样品的核酸的单个测序批次获得的。
在所有实施方案中,可以如下选择归一化染色体。
针对染色体1的归一化染色体是选自染色体10、11、9、以及15。在一个实施方案中,针对染色体1的第一和第二归一化染色体是染色体10和染色体11。
针对染色体2的归一化染色体是选自染色体8、7、12、以及14。在一个实施方案中,针对染色体2的第一和第二染色体归一化染色体是染色体8和染色体7。
针对染色体3的归一化染色体是选自染色体6、5、8、以及18。在一个实施方案中,针对染色体3的第一和第二染色体归一化染色体是染色体6和染色体5。
针对染色体4的归一化染色体是选自3、5、6、以及13。在一个实施方案中,针对染色体4的第一和第二染色体归一化染色体是染色体13和染色体5。
针对染色体5的归一化染色体是选自6、3、8、以及18。在一个实施方案中,针对染色体5的第一和第二染色体归一化染色体是染色体6和染色体3。
针对染色体6的归一化染色体是选自5、3、8、以及18。在一个实施方案中,针对染色体6的第一和第二染色体归一化染色体是染色体5和染色体3。
针对染色体7的归一化染色体是选自12、2、14、以及8。在一个实施方案中,针对染色体7的第一和第二染色体归一化染色体是染色体12和染色体2。
针对染色体8的归一化染色体是选自2、7、12、以及3。在一个实施方案中,针对染色体8的第一和第二染色体归一化染色体是染色体2和染色体3。
针对染色体9的归一化染色体是选自11、10、1、以及14。在一个实施方案中,针对染色体9的第一和第二染色体归一化染色体是染色体11和染色体10。
针对染色体10的归一化染色体是选自1、11、9、以及15。在一个实施方案中,针对染色体10的第一和第二染色体归一化染色体是染色体1和染色体11。
针对作为感兴趣的染色体的染色体11的归一化染色体是选自1、10、9、以及15。在一个实施方案中,针对染色体11的第一和第二染色体归一化染色体是染色体1和染色体10。
针对染色体12的归一化染色体是选自7、14、2、以及8。在一个实施方案中,针对染色体12的第一和第二染色体归一化染色体是染色体7和染色体14。
针对染色体13的归一化染色体是选自染色体4、染色体2-6的群组、染色体5、以及染色体6。在一个实施方案中,针对染色体13的第一和第二染色体归一化染色体对应地是染色体4和染色体2-6的群组。染色体2-6的群组可以用作针对感兴趣的染色体13的第一或第二归一化染色体,并且可以用作针对用于染色体13的第一归一化染色体的归一化染色体。在一些实施方案中,可以执行对群组中的所有染色体的验证。两个染色体群组可以用作针对染色体13的第一和第二归一化染色体,其中第一群组的染色体不同于第二群组的染色体。
针对染色体14的归一化染色体是选自12、7、2、以及9。在一个实施方案中,针对染色体14的第一和第二染色体归一化染色体是染色体12和染色体7。
针对染色体15的归一化染色体是选自1、10、11、以及9。在一个实施方案中,针对染色体2的第一和第二染色体归一化染色体是染色体1和染色体10。
针对染色体16的归一化染色体是选自20、17、15、以及1。在一个实施方案中,针对染色体16的第一和第二染色体归一化染色体是染色体20和染色体17。
针对染色体17的归一化染色体是选自16、20、19、以及22。在一个实施方案中,针对染色体17的第一和第二染色体归一化染色体是染色体16和染色体20。
针对染色体18的归一化染色体是选自8、3、2、以及6。在一个实施方案中,针对染色体18的第一和第二染色体归一化染色体是染色体8和染色体3。
针对染色体19的归一化染色体是选自22、17、16、以及20。在一个实施方案中,针对染色体19的第一和第二染色体归一化染色体是染色体22和染色体17。
针对染色体20的归一化染色体是选自16、17、15、以及1。在一个实施方案中,针对染色体20的第一和第二染色体归一化染色体是染色体16和染色体17。
针对染色体21的归一化染色体是选自9、11、14、以及1。在一个实施方案中,针对染色体21的第一和第二染色体归一化染色体是染色体9和染色体11。
针对染色体22的归一化染色体是选自19、17、16、以及20。在一个实施方案中,针对染色体22的第一和第二染色体归一化染色体是染色体19和染色体17。
针对染色体X的归一化染色体是选自6、5、13、以及3。在一个实施方案中,针对染色体X的第一和第二染色体归一化染色体是染色体6和染色体5。
针对染色体Y的归一化染色体是选自染色体2-6的群组、染色体3、染色体4、以及染色体5。在另一个实施方案中,针对染色体Y的第一和第二染色体归一化染色体对应地是染色体3和染色体2-6的群组。染色体2-6的群组可以用作针对染色体Y的第一或第二归一化染色体,或用作针对用于染色体Y的第一归一化染色体(例如染色体3)的归一化染色体。在一些实施方案中,验证出2-6的群组中的所有染色体的非整倍性的不存在。两个染色体群组可以用作针对染色体13的第一和第二归一化染色体,其中第一群组的染色体不同于第二群组的染色体。如针对染色体13和染色体Y所示例,归一化染色体可以是一个染色体或一个染色体群组。
在一些实施方案中,这些方法可能涉及对针对除感兴趣的染色体以外的3或4个归一化染色体的序列标签的分析。
因此,在一些实施方案中,该方法通过以下步骤在包含胎儿和母体核酸的母体测试样品中确定存在或不存在一种胎儿染色体非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别出针对一个感兴趣的染色体的序列标签的数目以及针对三个归一化染色体的序列标签的数目;(b)使用序列标签的数目来计算出针对感兴趣的染色体的第一、第二以及第三归一化值;并且(c)将针对感兴趣的染色体的第一、第二以及第三归一化值与一个或多个阈值进行比较,以确定在母体样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率;并且针对感兴趣的染色体的第三归一化值是一个第三染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第三归一化染色体的序列标签的数目的比率。任选地,第一、第二以及第三归一化值可以表示为如本文中别处所述的归一化的染色体值(NCV)。
此外,在一些实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别出针对一个感兴趣的染色体的序列标签的数目以及针对三个归一化染色体的序列标签的数目;(b)使用针对感兴趣的染色体的映射的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值;(c)使用针对第一归一化染色体的标签的数目以及针对一个第二归一化染色体的标签的数目来确定针对第一归一化染色体的一个第二归一化值;(d)使用针对第二归一化染色体的标签的数目以及针对一个第三归一化染色体的标签的数目来确定针对第二归一化染色体的一个第三归一化值;并且(e)将针对感兴趣的染色体的第一、第二以及第三归一化值与一个或多个阈值进行比较,以确定在母体样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率;并且第三归一化值是一个第三染色体剂量,它是针对第二归一化染色体的序列标签的数目与针对一个第三归一化染色体的序列标签的数目的比率。任选地,第一、第二以及第三归一化值可以表示为如本文中别处所述的归一化的染色体值(NCV)。
在一些实施方案中,该方法通过以下步骤在包含胎儿和母体核酸的母体测试样品中确定存在或不存在一种胎儿染色体非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别出针对一个感兴趣的染色体的序列标签的数目以及针对四个归一化染色体的序列标签的数目;(b)使用序列标签的数目来计算出针对感兴趣的染色体的第一、第二、第三以及第四归一化值;并且(c)将针对感兴趣的染色体的第一、第二、第三以及第四归一化值与一个或多个阈值进行比较,以确定在母体样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率;并且针对感兴趣的染色体的第三归一化值是一个第三染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第三归一化染色体的序列标签的数目的比率;并且针对感兴趣的染色体的第四归一化值是一个第四染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第四归一化染色体的序列标签的数目的比率。任选地,第一、第二、第三以及第四归一化值可以表示为如本文中别处所述的归一化的染色体值(NCV)。
在一些实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中确定并且验证存在或不存在针对感兴趣的染色体的一种非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别出针对一个感兴趣的染色体的序列标签的数目以及针对四个归一化染色体的序列标签的数目;(b)使用针对感兴趣的染色体的映射的标签数目以及针对一个第一归一化染色体的标签数目来确定针对感兴趣的染色体的一个第一归一化值;(c)使用针对第一归一化染色体的标签的数目以及针对一个第二归一化染色体的标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(d)使用针对第二归一化染色体的标签的数目以及针对一个第三归一化染色体的标签的数目来确定针对第二归一化染色体的一个第三归一化值;(e)使用针对第三归一化染色体的标签的数目以及针对一个第四归一化染色体的标签的数目来确定针对第三归一化染色体的一个第四归一化值;并且(f)将针对感兴趣的染色体的第一、第二、第三以及第四归一化值与一个或多个阈值进行比较,以确定在母体样品中存在或不存在一种胎儿非整倍性。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率;并且第三归一化值是一个第三染色体剂量,它是针对第二归一化染色体的序列标签的数目与针对一个第三归一化染色体的序列标签的数目的比率;并且第四归一化值是一个第四染色体剂量,它是针对第三归一化染色体的序列标签的数目与针对一个第四归一化染色体的序列标签的数目的比率。任选地,第一、第二、第三以及第四归一化值可以表示为如本文中别处所述的归一化的染色体值(NCV)。
在这些实施方案中,第一、第二、第三以及第四归一化染色体可以选自以上阐述的归一化染色体。举例来说,针对染色体1的第一、第二、第三以及第四归一化染色体可以选自染色体10、11、9、以及15;针对染色体2的第一、第二、第三以及第四归一化染色体可以选自染色体8、7、12、以及14;针对染色体3的第一、第二、第三以及第四归一化染色体可以选自染色体6、5、8、以及18;针对染色体4的第一、第二、第三以及第四归一化染色体可以选自染色体3、5、6、以及13;针对染色体5的第一、第二、第三以及第四归一化染色体可以选自染色体6、3、8、以及18;针对染色体6的第一、第二、第三以及第四归一化染色体可以选自染色体5、3、8、以及18。针对染色体7的第一、第二、第三以及第四归一化染色体可以选自染色体12、2、14、以及8;针对染色体8的第一、第二、第三以及第四归一化染色体可以选自染色体2、7、12、以及3;针对染色体9的第一、第二、第三以及第四归一化染色体可以选自染色体11、10、1、以及14;针对染色体10的第一、第二、第三以及第四归一化染色体可以选自1、11、9、以及15;针对染色体11的第一、第二、第三以及第四归一化染色体可以选自染色体1、10、9、以及15;针对染色体12的第一、第二、第三以及第四归一化染色体可以选自染色体7、14、2、以及8;针对染色体13的第一、第二、第三以及第四归一化染色体可以选自染色体4、染色体2-6的群组、5、以及6;针对染色体14的第一、第二、第三以及第四归一化染色体可以选自染色体12、7、2、以及9;针对染色体15的第一、第二、第三以及第四归一化染色体可以选自1、10、11、以及9;针对染色体16的第一、第二、第三以及第四归一化染色体可以选自染色体20、17、15、以及1;针对染色体17的第一、第二、第三以及第四归一化染色体可以选自染色体16、20、19、以及22;针对染色体18的第一、第二、第三以及第四归一化染色体可以选自染色体8、3、2、以及6;针对染色体19的第一、第二、第三以及第四归一化染色体可以选自染色体22、17、16、以及20;针对染色体20的第一、第二、第三以及第四归一化染色体可以选自染色体16、17、15、以及1;针对染色体21的第一、第二、第三以及第四归一化染色体可以选自染色体9、11、14、以及1;针对染色体22的第一、第二、第三以及第四归一化染色体可以选自染色体19、17、16、以及20;针对染色体X的第一、第二、第三以及第四归一化染色体可以选自染色体6、5、13、以及3;并且针对染色体Y的第一、第二、第三以及第四归一化染色体可以选自染色体2-6的群组、染色体3、4、以及5。
测序方法
在本发明的一些方法中,获得针对在样品中胎儿和母体核酸的序列信息来识别序列标签的数目,包括对样品中的胎儿和母体核酸分子进行测序。
序列信息是通过使用以大规模平行的方式对以克隆方式扩增的DNA模板或单个DNA分子进行测序的下一代测序(NGS)方法中的任何一种,对在母体样品中的基因组DNA(例如无细胞DNA)进行测序而获得的(例如像在沃克尔丁(Volkerding)等人,临床化学(Clin Chem)55:641-658[2009];梅兹可M(Metzker M),自然评论(Nature Rev)11:31-46[2010]中所述)。除了高通量序列信息,NGS提供了定量信息,其中每一序列读数是可计算的“序列标签”,这些序列标签代表个体克隆DNA模板或单DNA分子。NGS的测序技术包括但不限于焦磷酸测序、使用多个可逆染料终止子进行的合成法测序、通过寡核苷酸探针连接进行的测序、以及离子半导体测序。可以单独地测序来自单独的样品的DNA(即singleplex测序),或者在单测序运行时,作为索引基因组分子,来自多个样品的DNA可以被汇集在一起并进行测序(即,多重测序),以产生高达若干亿的DNA序列的读数。以下说明了测序技术的实例,这些技术可以用于获得根据本发明的方法的序列信息。
一些测序技术是可商购的,例如来自美国昂飞公司(Affymetrix Inc.)(桑尼维尔(Sunnyvale),CA)的杂交测序平台,和来自454生命科学公司(454Life Sciences)(布拉福德(Bradford),CT),加利福尼亚州海沃德亿明达/索列沙公司(Illumina/Solexa)(海沃德(Hayward),CA)与螺旋生物科学公司(Helicos Biosciences)(剑桥(Cambridge),MA)的合成法测序平台,以及来自美国应用生物***公司(Applied Biosystems)(福斯特城(Foster City),CA)的连接法测序平台,如以下所述。除了使用螺旋生物科学公司(HelicosBiosciences)的合成法测序进行的单分子测序,其他单分子测序技术包括太平洋生物科学公司(Pacific Biosciences)的SMRTTM技术,离子TorrentTM技术,以及正开发的纳米孔测序,例如通过牛津纳米孔技术。虽然自动化的桑格尔法(Sanger method)被视为‘第一代’技术,但本发明方法可以应用于使用桑格尔测序(包括自动化的桑格尔测序)的生物检测。此外,本发明方法可以应用于使用核酸成像技术(例如原子力显微镜(AFM)或透射电子显微术(TEM))的生物测定。以下说明示例性测序技术。
在一个实施方案中,本发明的方法包括使用单分子测序技术,螺旋真正的单分子测序(the Helicos True Single Molecule Sequencing;tSMS)技术获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息(例如哈里斯T.D.(HarrisT.D.)等人,科学(Science)320:106-109[2008]中所述)。在tSMS技术中,DNA样品被切割为约100至200个核苷酸的链,并且polyA序列被添加到每一DNA链的3’端。通过添加荧光标记的腺苷酸来标记每一链。这些DNA链然后被杂交至流动槽,它含有被固定到流动槽表面的数百万个寡T(oligo-T)捕获位点。模板可以是在约1亿个模板/cm2的密度。然后将流动槽加载到一个仪器中,例如HeliScopeTM测序仪,并且激光照亮流动槽表面,揭示每一模板的位置。CCD相机可以绘制流动槽表面上的模板的位置。然后切割并洗掉模板荧光标记物。通过引入DNA聚合酶和荧光标记的核苷酸来开始测序反应。寡T核酸用作引物。聚合酶以模板引导的方式,将标记的核苷酸结合到该引物上。除去聚合酶和未结合的核苷酸。通过使流动槽表面成像,辨别具有荧光标记的核苷酸的引导结合的模板。在成像后,切割步骤除去了荧光标记物,并且用其他荧光标记的核苷酸重复该过程,直至达到希望的读数长度。用每一核苷酸添加步骤收集序列信息。通过单分子测序技术的整个基因组测序排除在制备测序文库中的PCR基扩增,并且样品制备的直接性允许样品的直接测量,而不是样品的拷贝的测量。
在另一个实施方案中,本发明的方法包括使用454测序(罗氏公司(Roche))获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息(例如马古利斯M(Margulies,M.)等人自然(Nature)437:376-380[2005]中所述)。454测序涉及两个步骤。在第一步,DNA被剪切为约300-800个碱基对的片段,并且这些片段以平端结束。然后将寡核苷酸适配子连接到这些片段的末端。适配子用作用于扩增和测序这些片段的引物。例如使用适配子B,它含有5’生物素标签,这些片段可以附接到DNA捕获珠上,例如链霉亲和素涂覆的珠上。在多滴油水乳状液内PCR扩增了附接到珠上的片段。结果是在每一珠上的克隆扩增的DNA片段的多个拷贝。在第二步中,在孔(微微升大小的)中捕获这些珠。对每一DNA片段平行进行焦磷酸测序。添加一个或多个核苷酸产生出由测序仪中的CCD相机记录的一个光信号。信号强度与结合的核苷酸数成比例。焦磷酸测序利用了在核苷酸添加时释放的焦磷酸根(PPi)。在腺苷酸5’磷酰硫酸盐的存在下,PPi被ATP硫酸化酶转化为ATP。荧光素酶使用ATP将荧光素转化成氧化荧光素,并且这一反应产生了光,该光被辨别并且分析。
在另一个实施方案中,本发明方法包括使用SOLiDTM技术(应用生物***公司(Applied Biosystems))获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息。在SOLiDTM连接法测序中,基因组DNA被剪切为片段,并且适配子被附接到这些片段的5’和3’端,以产生片段库。可替代地,可以通过将适配子连接到这些片段的5’和3’端上,分发这些片段,消化这些分发的片段以产生内部适配子,以及将适配子附接到生成的片段的5’和3’端上以产生配对库,来引入内部适配子。接下来,在含有珠、引物、模板、和PCR组分的微反应器中制备克隆珠群。在PCR后,变性模板并且浓缩珠,以分离具有延伸模板的珠。使所选择的珠上的模板经受允许结合到载玻片上的3’修饰。通过顺序杂交和连接部分随机寡核苷酸与通过特定荧光团的识别的中央确定的碱基(或碱基对),可以确定该序列。在记录颜色后,切割并除去连接的寡核苷酸,并且然后重复该过程。
在另一个实施方案中,本发明的方法包括使用太平洋生物科学公司(Pacific Biosciences)的单分子实时(SMRTTM)测序技术获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息。在SMRT测序中,在DNA合成过程中对染料标记的核苷酸的连续结合进行图像。使单个DNA聚合酶分子附接到单独的零模式波长识别器(ZMW识别器)的底表面上,这些识别器在连接磷的核苷酸被结合到生长中的引物链中的同时获得序列信息。ZMW是一个封闭结构,它使能够观察通过针对迅速扩散进出ZMW(按微秒计)的荧光核苷酸的背景的DNA聚合酶,单核苷酸的结合。用若干毫秒来将核苷酸结合到正在生长的链中。在该时段期间,激发荧光标记物并且产生荧光信号,并且切掉该荧光标签。染料的相应荧光的识别表明了哪个碱基被结合。重复该过程。
在另一个实施方案中,本发明的方法包括使用纳米孔测序获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息(例如在索尼(Soni)GV和梅勒A.(Meller A.),临床化学(Clin Chem)53:1996-2001[2007]中所述)。由多个公司正工业地开发纳米孔测序DNA分析技术,包括牛津纳米孔公司(Oxford Nanopore Technologies)(牛津,英国)。纳米孔测序是一种单分子测序技术,由此随着它通过一个纳米孔,一个单分子的DNA被直接测序。纳米孔是一个小孔,其级别为直径1纳米。将纳米孔浸入导电流体中,并且横跨它施加一个电势(电压),产生了由于离子传导穿过纳米孔的一个轻微电流。对于纳米孔的大小和形状,流动的电流的量是敏感的。随着DNA分子穿过纳米孔,DNA分子上的每一核苷酸以不同程度阻塞纳米孔,以不同程度改变穿过纳米孔的电流的量级。因此,随着DNA分子穿过纳米孔的电流的改变代表DNA序列的读数。
在另一个实施方案中,本发明的方法包括使用化学敏感性场效电晶体(chemFET)阵列获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息(例如像在美国专利申请公开号20090026082中所述)。在该技术的一个实例中,DNA分子可以被置入反应室中,并且可以将模板分子杂交到结合到聚合酶的测序引物上。可以通过用chemFET的电流中的改变来辨别在测序引物的3’端处一个或多个三磷酸根结合到新核酸链中。一个阵列可以具有多个chemFET传感器。在另一实例中,单核酸可以附接到珠上,并且这些核酸可以在该珠上扩增,并且单独的珠可以被转移到chemFET阵列上的单独反应室中,其中每一个室具有chemFET传感器,并且核酸可以被测序。
在另一个实施方案中,本发明的方法包括使用翠鸟分子公司(HalcyonMolecular)的技术获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息,该技术使用了透射电子显微术(TEM)。该方法,被称为单个分子放置快速纳米转移(Individual Molecule Placement Rapid Nano Transfer,IMPRNT),包括利用通过重原子标记物选择性标记的高分子量(150kb或更大)DNA的单原子分辨率透射电子显微镜成像,以及以一致碱基到碱基间距在超密度(3nm链到链)平行阵列中的超薄膜上安排这些分子。使用电子显微镜来成像膜上的分子,以确定重原子标记物的位置,并且提取来自DNA的碱基序列信息。在PCT专利公开WO 2009/046445中进一步说明了该方法。该方法允许在小于十分钟的时间内测序完整人类基因组。
在另一个实施方案中,DNA测序技术是离子激流公司(Ion Torrent)单分子测序,它使半导体技术与简单测序化学配对,以在半导体芯片上将化学编码的信息(A、C、G、T)直接翻译为数字信息(0、1)。本质上,在通过聚合酶将核苷酸结合到一个DNA链中时,释放一个氢离子作为副产物。离子激流公司(Ion Torrent)使用一个高密度的微机械加工的孔阵列,来以大规模平行方式进行该生物化学过程。每一孔容纳一个不同的DNA分子。在这些孔下是一个离子敏感层,并且在其下是一个离子传感器。在一个核苷酸,例如C,被添加到一个DNA模板并且然后结合到一个DNA链中时,将释放一个氢离子。来自该离子的电荷将改变溶液的pH值,该变化可以被离子激流的离子传感器所识别。该测序仪——本质上世界上最小的固态pH计——对碱基进行判定,直接从化学信息到数字信息。这种离子个人基因组机(Ion personal GenomeMachine,PGMTM)测序仪然后顺序地用一个接一个的核苷酸淹没该芯片。如果淹没该芯片的下一个核苷酸并不匹配,那么将记录不到电压的改变,并且将不会判定碱基。如果在DNA链上存在两个一样的碱基,那么电压将会加倍,并且该芯片将记录到经判定的两个一样的碱基。直接识别允许按秒计来记录核苷酸的结合。
在另一个实施方案中,本发明的方法包括通过使用亿明达公司(Illumina)的合成法测序以及基于可逆终止子的测序化学对数百万个DNA片段进行大规模平行测序来获得针对基因组DNA(例如胎儿和母体cfDNA)的序列信息(例如在Bentley(宾利)等人,Nature(自然)6:53-59[2009]中所述)。模板DNA可以是基因组DNA,例如cfDNA。在一些实施方案中,来自分离细胞的基因组DNA被用作模板,并且被分割为数百个碱基对的长度。在其他实施方案中,cfDNA被用作模板,并且并不需要分割,因为cfDNA以短片段存在。举例来说,胎儿cfDNA在血流中以小于300bp的片段形式循环,并且据估计母体cfDNA是以在约0.5与1Kb之间的片段形式循环(李(Li)等人,临床化学(ClinChem),50:1002-1011[2004])。亿明达公司的测序技术依赖分割的基因组DNA到一个平面(寡核苷酸锚点结合到上面的任选地透明表面)的附接。模板DNA被末端修复以产生5’磷酸化的平端,并且克列诺(Klenow)片段的聚合酶活性被用于添加单个的A碱基到平的磷酸化DNA片段的3’端。该添加制备了用于连接到寡核苷酸适配子上的DNA片段,并且在它们的3′端具有一个悬挂的单T碱基,以增加连接效率。这些适配子寡核苷酸与流动槽锚点互补。在限制稀释条件下,适配子修饰的、单链模板DNA被添加到流动槽,并且通过杂交被固定到锚点。附接的DNA片段被延伸和桥式扩增,来产生具有数亿个簇的超高密度测序流动槽,每个均含有同一模板的约1000个拷贝。在一个实施方案中,随机分割的基因组DNA,例如cfDNA,在经历成簇扩增(cluster amplification)前,使用PCR对其进行扩增。可替代地,使用无扩增基因组库制品,并且单独地使用成簇扩增来富集随机分割的基因组DNA(即,cfDNA)(科扎热瓦(Kozarewa)等人,自然方法学(Nature Methods),6:291-295[2009])。使用一种鲁棒的四颜色DNA合成法测序技术测序这些模板,该技术采用了具有可除去荧光染料的可逆终止子。使用激光激发和全内反射光学来获得高敏感性荧光识别。将具有约20-40bp(例如36bp)的短序列读数相对于遮蔽重复的参照基因组进行比对,并且使用特别开发的数据分析流水线软件来判定遗传差异。在第一次读数完成后,可以原位再生这些模板,以便从这些片段的相反端能够获得的一个第二读数。因此,可以使用这些DNA片段的单末端的亦或成对末端的测序。进行样品中存在的DNA片段的部分测序,并且将的包括预定长度(例如36bp)的读数的序列标签映到已知参照基因组。可以映射射的标签进行计数。
在一个实施方案中,参照基因组序列是NCBI36/hg18序列,它在万维网,在genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105可得。在另一个实施方案中,参照基因组序列是GRCh37/hg19,它在万维网在genome.ucsc.edu/cgi-bin/hgGateway可得。来自多种物种的其他参照基因组的序列在NCBI网站在ncbi.nlm.nih.gov/genomes/leuks.cgi可得。公开序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)、以及DDBJ(日本DNA数据库)。多个计算机算法可用于比对序列,包括而不是限制:限制BLAST(阿尔丘尔(Altschul)等人,1990)、BLITZ(MPsrch)(斯特罗克(Sturrock)&柯林斯(Collins),1993)、FASTA(珀森(Person)&利普曼(Lipman),1988)、BOWTIE(拉格梅德(Langmead)等人,基因组生物学(Genome Biology)10:R25.1-R25.10[2009])、或ELAND(美国加利福尼亚州圣地亚哥亿明达公司(Illumina,Inc.),圣迭戈(San Diego),CA,USA)。在一个实施方案中,对血浆cfDNA分子的克隆扩展的拷贝的一端进行测序,并且将其通过用于Illumina基因组分析仪的生物信息学比对分析进行处理,该分析仪使用了核苷酸数据库的有效大规模比对(ELAND)软件。
在此说明的方法的一些实施方案中,映射的序列标签包括为约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、或约500bp的序列读数。期待技术优势将使得能进行大于500bp的单端读数,在产生配对端读数时,该读数使能够用于大于约1000bp的读数。在一个实施方案中,映射的序列标签包括为36bp的序列读数通过标签序列与参考序列的比较来实现序列标签的映射,以确定测序的核酸(例如cfDNA)分子的染色体来源,并且并不需要特异性遗传序列信息。可以允许小程度的错配(每个序列标签0-2个错配),以解释可以存在于参照基因组和混合样品中的基因组之间的小多态性。
每个样品获得多个序列标签。在一些实施方案中,从将读数映射到每个样品的参照基因组中上获得了包括在20和40bp的读数之间(例如36bp)的至少约3x106个序列标签、至少约5x106个序列标签、至少约8x106个序列标签、至少约10x106个序列标签、至少约15x106个序列标签、至少约20x106个序列标签、至少约30x106个序列标签、至少约40x106个序列标签、或至少约50x106个序列标签。在一个实施方案中,所有序列读数被映射射到参照基因组的所有区域。在一个实施方案中,对已经映射到参照基因组的所有区域(例如所有染色体)的标签进行计数,并且确定在混合DNA样品中,感兴趣的序列(例如染色体或其一部分)的CNV(即,过度表达或表达不足)。该方法并不需要两个基因组之间的差异化。
在一些实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在一种胎儿染色体非整倍性:(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的序列标签的数目以及针对至少两个归一化染色体的序列标签的数目,其中序列信息包括下一代测序(NGS)、包括使用多个可逆染料终止子进行的合成法测序、包括连接法测序、或包括单分子测序;(b)使用序列标签的数目来计算出针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。
在一些其他实施方案中,该方法通过以下步骤在包含胎儿和母体核酸分子的母体测试样品中验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定:(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的映射的序列标签的数目以及针对至少两个归一化染色体的序列标签的数目,其中获得序列信息包括下一代测序(NGS)、包括使用多个可逆染料终止子进行的合成法测序、包括连接法测序、或包括单分子测序;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述计算的归一化的染色体值(NCV)。
在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率;并且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。
生物学流体包括,作为非限制性实例,血液,血浆,血清,汗水,眼泪,痰,尿,痰,耳流出物(ear flow),淋巴液,唾液,脑脊液,灌洗液(ravages),骨髓悬浮液(bone marrow suspension),***流出物(vaginal flow),经宫颈的灌洗液,脑液,腹水,乳汁,呼吸、肠和生殖泌尿道的分泌物,羊水和白细胞分离术样品。在一些实施方案中,这种样品是通过无创性过程容易地可获得的样品,例如血液、血浆、血清、汗水、眼泪、痰、尿、痰、耳流出物、以及唾液。优选地,这种生物学样品是外周血样品,或血浆或血清部分。在其他实施方案中,这种生物学样品是棉签或涂片,活组织检查标本,或细胞培养。在另一实施方案中,这种样品是两种或更多种生物学样品的混合物,例如生物学样品可以包括两种或更多种生物学流体样品、组织样品、和细胞培养样品。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖它们的分离部或加工的部分。类似地,当一个样品是取自一种活组织检查、棉签、涂片、等时,该“样品”明确地涵盖衍生自这种活组织检查、棉签、涂片、等的加工的分离部或部分。
在一些实施方案中,样品可以得自多个来源,包括但不限于,来自不同个体、相同或不同个体的不同发展阶段、不同的患病个体(例如患有癌症的或怀疑具有遗传性障碍的个体)、正常个体的样品,在个体的疾病的不同阶段获得的样品,得自经历对疾病的不同治疗的个体的样品,来自经历不同环境因素的个体的样品,或对一种病情易感的个体,或暴露于一种传染病因素(例如HIV)的个体、以及是供体细胞、组织和/或器官的接受者的个体的样品。在一些实施方案中,样品是包含来源于相同或不同受试者的不同来源样品的混合物的样品。举例来说,样品可以包含来源于两个或更多个体的细胞的混合物,如通常在犯罪现场所发现的。在一个实施方案中,这种样品是得自怀孕雌性(例如孕妇)的母体样品。在这种情况下,该样品可以使用在此说明的方法来进行分析,以提供胎儿中潜在染色体异常的产前诊断。这种母体样品可以是组织样品、生物学流体样品、或细胞样品。生物学流体包括(作为非限制性实例):血液,血浆,血清,汗水,眼泪,痰,尿,痰,耳流出物,淋巴,唾液,脑脊液,灌洗液(ravages),骨髓悬浮液,***流出物,经宫颈的灌洗液,脑液,腹水,乳汁,呼吸、肠和生殖泌尿道的分泌物,和白细胞分离术样品。在一些实施方案中,这种样品是通过无创性过程容易地可获得的样品,例如,血液、血浆、血清、汗水、眼泪、痰、尿、痰、耳流出物、以及唾液。在一些实施方案中,这种生物学样品是外周血样品,或血浆或血清分离部。在其他实施方案中,这种生物学样品是棉签或涂片、活组织检查标本、或细胞培养。在另一实施方案中,母体样品是两种或更多种生物学样品的混合物,例如,一种生物学样品可以包括两种或更多种生物学流体样品、组织样品、和细胞培养样品。如以上披露的,术语“血液”、“血浆”和“血清”明确涵盖它们的分离部或加工的部分。类似地,当一个样品取自活组织检查、棉签、涂片、等时,这个“样品”明确涵盖衍生自活组织检查、棉签、涂片、等的加工的分离部或部分。
样品还可以是得自体外培养的组织、细胞、或其他含多核苷酸的来源。这些培养的样品可以取自多个来源,包括但不限于,维持在不同培养基和条件(例如pH值、压力、或温度)下的培养物(例如组织或细胞),维持了不同长度的时段的培养物(例如组织或细胞),用不同因子或试剂(例如药物候选,或调节剂)处理的培养物(例如组织或细胞),或不同类型的组织或细胞的培养物。
从生物学来源分离核酸的方法是人们熟知的,并且取决于源的性质将不同。本领域的普通技术人员可以容易地从一个源分离出如对于在此说明的方法所需要的核酸。在一些情况中,将核酸样品中的核酸分子断裂可以是有利的。断裂可以是随机的,或者它可以是特异的,例如使用限制性内切酶消化所达到的情况。用于随机断裂的方法在本领域是为人熟知的,并且包括例如限制性DNA酶消化、碱处理和物理剪切。在一个实施方案中,样品核酸是作为cfDNA而获得的,它并不经历断裂。在其他实施方案中,样品核酸是作为基因组DNA而获得的,它经历断裂成为约500或更多碱基对的片段,并且可以对其容易地施用NGS方法。
用于确定CNV(例如染色体和部分非整倍性)的样品包含存在于细胞中的(即细胞的)基因组核酸、或“无细胞”的基因组核酸。基因组核酸包括DNA和RNA。优选地,基因组核酸是细胞的基因组核酸和/或cfDNA。在一些实施方案中,样品的基因组核酸是细胞DNA,其可以从完整细胞中通过以人工或机械方式从具有相同或不同遗传组成的完整细胞中提取基因组DNA而获得。细胞DNA可以例如从来源于一个受试者的具有相同遗传组成的完整细胞、从不同受试者的完整细胞的混合物、或从来源于一个受试者的在遗传组成方面不同的完整细胞的混合物获得。从完整细胞中提取基因组DNA的方法已为本领域所知,并且取决于来源的性质而有所不同。在一些实施方案中,将细胞基因组DNA断裂可能是有利的。断裂可以是随机的,或其可以是特定的,如例如使用限制性核酸内切酶消化所实现的。随机分段的方法为本领域所熟知,并且包括例如限制性的DNA酶消化、碱处理、以及物理剪切。在一些实施方案中,样品核酸是以细胞基因组DNA形式获得,使细胞基因组DNA断裂,成为具有大约500个或更多个碱基对的片段,这些片段可以通过下一代测序(NGS)进行测序。
在一些实施方案中,获得细胞基因组DNA以便识别包含单个基因组的样品的染色体非整倍性。举例来说,细胞基因组DNA可以从仅包含怀孕雌性的细胞样品中获得,即该样品不含胎儿基因组序列。从单个基因组(例如仅母体基因组)识别染色体非整倍性可以用于与在存在于母体血浆中的胎儿和母体基因组的混合物中识别的染色体非整倍性和/或多态性比较,以便识别胎儿染色体非整倍性。类似地,细胞基因组DNA可以从处于不同治疗阶段的患者(例如癌症病人)中获得,以便通过对样品DNA中染色体非整倍性和/或多态性的可能的变化进行分析来评价治疗方案的功效。
在一些实施方案中,获得无细胞核酸,例如无细胞DNA(cfDNA)是有利的。无细胞核酸(包括无细胞DNA)可以通过本领域已知的不同的方法从包括但不限于血浆、血清以及尿液的生物样品中获得(范(Fan)等人,美国国家科学院院刊(Proc Natl Acad Sci)105:16266-16271[2008];小出(Koide)等人,产前诊断(Prenatal Diagnosis)25:604-607[2005];陈(Chen)等人,自然医学(Nature Med.)2:1033-1035[1996];卢(Lo)等人,柳叶刀(Lancet)350:485-487[1997];博泰扎图(Botezatu)等人,临床化学(Clin Chem.)46:1078-1084,2000;以及苏(Su)等人,分子诊断学杂志(J Mol.Diagn.)6:101-107[2004])。为了从细胞分离cfDNA,可以使用部分分离(fractionation)、离心(例如密度梯度离心)、DNA特异性沉淀、或高通量细胞分选和/或分离方法。可获得用于人工和自动化cfDNA分离的可商购的试剂盒(印第安纳州印第安纳波利斯罗氏诊断公司(Roche Diagnostics,Indianapolis,IN);加利福利亚州瓦伦西亚凯杰公司(Qiagen,Valencia,CA);特拉华州杜伦马舍雷-内格尔公司(Macherey-Nagel,Duren,DE))。包含cfDNA的生物样品已被用于分析中,以便通过可以确定染色体非整倍性和/或不同的多态性的测序分析来确定存在或不存在多种染色体异常(例如21三体性)。
在制备测序文库之前,可以特异性地或非特异性地富集存在于样品中的cfDNA。样品DNA的非特异性富集是指样品的基因组DNA片段的全基因组扩增,其可以用于在制备cfDNA测序文库之前增加样品DNA水平。非特异性富集可以是存在于包含一个以上基因组的样品中的两个基因组之一的选择性富集。举例来说,非特异性富集可以是母体样品(其可以通过已知方法获得)中的胎儿基因组的选择性富集,以便提高样品中胎儿与母体DNA的相对比例。可替代地,非特异性富集可以是存在于样品中的两个基因组的非选择性扩增。举例来说,非特异性扩增可以是包含来自胎儿和母体基因组的DNA的混合物的样品中胎儿和母体DNA的非特异性扩增。全基因组扩增的方法为本领域已知。简并寡聚核苷酸作引物的PCR(DOP)、引物延伸PCR技术(PEP)以及多重置换扩增(MDA)是全基因组扩增方法的实例。在一些实施方案中,包含来自不同基因组的cfDNA的混合物的样品未针对存在于混合物中的基因组的cfDNA富集。在其他实施方案中,包含来自不同基因组的cfDNA的混合物的样品针对存在于样品中的任何一个基因组进行非特异性富集。
应用
在母体血液中循环的无细胞胎儿DNA和RNA可以被用于数目不断增加的遗传状况的早期无创性产前诊断(NIPD),既可用于妊娠管理也可帮助生殖决策。在血流中循环的无细胞DNA的存在已经为人所知超过50年了。最近,在怀孕期间的母体血流中发现了存在小量循环的胎儿DNA(罗(Lo)等人,柳叶刀(Lancet)350:485-487[1997])。被认为是源自垂死的胎盘细胞,无细胞胎儿DNA(cfDNA)已经被证明是由长度上典型地小于200bp的短片段组成,(陈(Chan)等人),临床化学,50:88-92[2004]),在早到只有4周妊娠的时候可以被辨明(伊拉尼斯(Illanes)等人,早期人类发育(EarlyHuman Dev),83:563-566[2007]),并且已知在分娩的数小时内即被从母体循环中清除(罗(Lo)等人,美国人类遗传学杂志(Am J Hum Genet),64:218-224[1999])。除了cfDNA外,在母体血流中还可以辨明无细胞胎儿RNA的(cfRNA)的片段,这是源自在胎儿或胎盘中被转录的基因。来自母体血液样品的这些胎儿遗传元素的提取和随后的分析提供了用于NIPD的新机会。
该方法可以用于在包含胎儿和母体核酸分子(例如cfDNA)的母体样品中确定存在或不存在一种胎儿染色体非整倍性。本方法是一种适用于NIPD的独立于多态性的方法,并且不需要将胎儿cfDNA与母体cfDNA相区分即可实现一种胎儿非整倍性的确定。
在一些实施方案中,样品是一种生物学流体样品,例如血液样品或其部分。优选地,生物样品是选自血浆、血清以及尿液。在一些实施方案中,母体来源样品是一种外周血样。在其他实施方案中,母体来源样品是一个血浆样品。胎儿和母体核酸的测序可以通过任何一种大规模平行NGS测序方法来实现。在一个实施方案中,测序是对以克隆方式扩增的cfDNA分子或多个独立的cfDNA分子的大规模平行测序。在另一个实施方案中,测序是使用多个可逆染料终止子进行的大规模平行合成法测序的所述大规模平行测序。在另一个实施方案中,测序是使用大规模平行连接法测序执行的大规模平行测序。
在一些实施方案中,该方法可以确定或验证存在或不存在至少两个不同的染色体非整倍性。在一个实施方案中,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)来确定存在或不存在至少两种不同的胎儿染色体非整倍性,其中这些步骤包括(a)获得针对在母体样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值进行比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值进行比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述感兴趣的染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且第二归一化值是一个第二染色体剂量,它是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。
可替代地,该方法通过针对至少两个感兴趣的染色体重复步骤(a)-(c)来确定存在或不存在至少两种不同的胎儿染色体非整倍性,其中这些步骤包括(a)获得针对在样品中胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个映射的序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的标签的数目以及针对一个第一归一化染色体的标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值比较,以确定在样品中存在或不存在一种胎儿非整倍性。第一和第二阈值可以是相同的,或者它们可以是不同的。在这个方法的步骤(c)中,针对所述感兴趣的染色体的第一归一化值与阈值的比较表明存在或不存在针对所述感兴趣的染色体的一种非整倍性,并且针对所述第一归一化染色体的第二归一化值与阈值的比较验证存在或不存在针对感兴趣的染色体的一种非整倍性的确定。在一些实施方案中,第一归一化值是一个第一染色体剂量,它是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,淡且第二归一化值是一个第二染色体剂量,它是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。任选地,第一和第二归一化值可以表示为如本文中所述的归一化的染色体值(NCV)。
在这些实施方案中,可以针对所有染色体重复该方法以确定存在或不存在一种胎儿染色体非整倍性。
可以确定的一种或至少两种不同的染色体非整倍性的实例包括T21、T13、T18、T2、T9、以及X单体性。在一些实施方案中,母体样品是从一位孕妇获得的。在一些实施方案中,母体样品是一种生物学流体样品,例如一个血液样品或从血液样品获得的血浆部分。在一些实施方案中,母体样品是一个血浆样品。在一些实施方案中,母体样品中的核酸是cfDNA分子。
胎儿染色体非整倍性的实例包括但不限于完整的染色体三体性或单体性、或部分三体性或单体性。完整的胎儿三体性的实例包括21三体性(T21;唐氏综合征)、18三体性(T18;爱德华氏综合征(Edward′s Syndrome))、16三体性(T16)、22三体性(T22;猫眼综合征(Cat Eye Syndrome))、15三体性(T15)、13三体性(T13;帕塔综合征(Patau Syndrome))、8三体性(T8;瓦克尼综合征(Warkany Syndrome))、9三体性(T9)、2三体性、以及XXY(克兰费尔特综合征(Kleinefelter Syndrome))、XYY、或XXX三体性。部分三体性的实例包括1q32-44、具有三体性的9p三体性、4三体性嵌合性、17p三体性、部分4q26-qter三体性、9三体性、部分2p三体性、部分1q三体性、和/或部分6p三体性/6q单体性。胎儿单体性的实例包括染色体X单体性;以及染色体13、染色体15、染色体16、染色体18、染色体21、以及染色体22的部分单体性,这些单体性已知与妊娠流产有关。还可以通过本发明的方法确定典型地涉及完的非整倍性的染色体的部分单体性。单体性18p是罕见的染色体疾病,其中缺失染色体18的全部或部分的短臂(p)(单染色体的)。这种疾病典型地特征在于身材矮小,程度可变的精神发育迟缓,语言发育迟缓,颅骨和面部(颅面)区域的畸形,和/或额外的身体异常。对于不同案例,相关颅面缺损可以在范围和严重性上变化很大。由染色体15的结构和数目中的变化引起的病况包括安格曼综合征和普瑞德-威利氏综合征,它们涉及在染色体15的同一个部分(15q11-q13区域)中的基因活性的丢失。应当理解,在父母携带者中,若干易位和微缺失可以是无症状的,但仍可以引起后代中的主要遗传疾病。例如,携带15q11-q13微缺失的健康母亲可以生出患有安格曼综合征(一种严重的神经变性疾病)的孩子。因此,本发明可以用于识别胎儿中此类部分缺失。部分单体性13q是一种罕见的染色体疾病,它发生在染色体13长臂(q)的一段缺失时(单体的)。出生时患有部分单体性13q的婴儿会表现出低出生体重,头和面部(颅面区域)的畸形,骨骼异常(尤其是手和脚),以及其他身体异常。精神发育迟缓是该病况的特征。在出生患有该疾病的个体中,婴儿期间的死亡率是很高的。几乎所有部分单体性13q的病例都没有明显原因而随机发生(偶发性的)。22q11.2缺失综合征,也称为迪格奥尔格综合征,是由一小段染色体22的缺失引起的综合征。缺失(22q11.2)发生在这对染色体之一的长臂上的染色体中部附近。该综合征的特征甚至在同一家族的成员中也会变化非常广,并且影响身体的很多部分。特征性迹象和症状可以包括出生缺陷,如先天性心脏病,颚的缺陷,最常见地与关闭有关的神经肌肉问题(腭咽关闭不全),学习障碍,面部特征中的轻微差异,以及复发性感染。染色体区域22q11.2中的微缺失是与精神***症的20至30倍的增加的风险相关联的。在一个实施方案中,本发明的方法被用于确定部分单体性,包括但不局限于:单体性18p,染色体15的部分单体性(15q11-q13),部分单体性13q,并且还可以使用本发明的方法确定染色体22的部分单体性。
1.在一些实施方案中,染色体非整倍性是以嵌合的状态出现的完全的染色体非整倍性。举例来说,在一些实施方案中,染色体非整倍性是以真正的染色体嵌合性形式存在的非整倍性,其中胎儿细胞可以包括两种不同的核型。在其他实施方案中,染色体非整倍性与主要局限于胎盘组织的嵌合性有关。受局限的胎盘嵌合性(CPM)表示胎盘中细胞与婴儿中细胞的染色体组成之间的差异。最常见地在发现CPM时其表示胎盘中的三体性细胞系以及婴儿中的正常地二倍体染色体补体。然而,约10%的病例与胎儿有关。认为胎盘中存在的相当大数目的异常细胞干扰了正常的胎盘功能。受损的胎盘无法支撑妊娠,并且这可能导致失去染色体正常的婴儿(泰森(Tyson)和卡劳塞克(Kalousek),1992)。对于许多常染色体三体性,仅有嵌合的病例才存活到足月。举例来说,完整的2三体性明显促使前三个月的妊娠流产,在临床上公认的0.16%的妊娠中出现。2三体性似乎仅有在嵌合的状态下以及当三体性主要局限于胎盘组织中时才与生命相容。尽管已经鉴别了一定数目的产前确定的2三体性嵌合性的病例,但嵌合的2三体性呈现了更困难的咨询情形之一。结果从正常到新生儿死亡不等。羊水过少(低羊水)和不良的子宫内生长是最常见的特征。异常的结果可能主要是在胎盘中三体性水平高以及在婴儿自身中可能存在低水平的三体性的结果。一些不常见的三体性(例如9三体性)可以在嵌合的或非嵌合的状态下出现,并且呈现出不同的临床表现。在绒膜绒毛采样时发现嵌合性9三体性呈现了一种困难的咨询情形。CVS时诊断出9三体性后,应以羊膜穿刺和一系列的超声波来排除胎儿中的三体性,该三体性引起包括颅骨、神经***异形、以及精神发育迟缓在内的症状。还可能出现心脏、肾、以及肌肉骨骼***的异形。在CVS时而非羊膜穿刺时发现三体性的大多数病例中,结果是正常的。然而,也可能出现异常结果。尽管已经鉴别了一定数目的产前确定的9三体性嵌合性的病例,但结果从正常到新生儿死亡不等。一些三体性是罕见的并且致命的,而其他三体性在局限于胎盘细胞时是可存活的。在后种情况下,确定三体性后可以用另外的测试(例如羊膜穿刺)来排除该三体性是胎儿三体性。
2.该方法还适用于在双亲之一为该异常的已知携带者时确定任何染色体异常。这些包括但不局限于:对于小的额外标记物染色体的嵌合;t(11;14)(p15;p13)易位;不平衡的易位t(8;11)(p23.2;p15.5);11q23微缺失;史密斯-马吉利综合征17p11.2缺失;22q13.3缺失;Xp22.3微缺失;10p14缺失;20p微缺失;迪格奥尔格综合征[del(22)(q11.2q11.23)];威廉姆斯综合征(7q11.23和7q36缺失);1p36缺失;2p微缺失;神经纤维瘤类型1(17q11.2微缺失),Yq缺失;Wolf-Hirschhorn综合征(WHS,4p16.3微缺失);1p36.2微缺失;11q14缺失;19q13.2微缺失;鲁宾斯坦-泰比综合征(16p13.3微缺失);7p21微缺失;米勒-迪克综合征(17p13.3),17p11.2缺失;以及2q37微缺失。
该方法还可以与用于确定其他与母亲和/或胎儿有关的产前病状的分析进行组合。该方法还适用于确定在多个样品中任何感兴趣的序列的拷贝数变异(CNV),这些样品包含来源于至少两个不同基因组的基因组核酸的混合物,并且已知或怀疑这两个不同基因组在一个或多个感兴趣的序列的量方面不同。在一些实施方案中,该方法可以用于确定在孪生胎儿妊娠中存在或不存在一种染色体非整倍性(参见实例1)。在异卵双胎妊娠中,该方法可以确定在双胎妊娠中存在或不存在一种染色体非整倍性,并且通过建立针对双胎各自的胎儿分数并且将其与非整倍性有关的胎儿分数进行比较来确定是一个还是两个孪生胎儿携带非整倍性。可以通过对多态序列(例如母体血浆cfDNA中的SNP)进行测序来对应地确定针对第一和第二孪生胎儿的第一和第二胎儿分数。各胎儿分数可以作为由母亲贡献的主等位基因部分与由胎儿贡献的次等位基因部分的比率而计算。用于确定母体血浆cfDNA中胎儿分数的方法描述于以下各项中:未决的美国专利申请12/958,347(名称为“用于在母体样品中确定胎儿核酸的分数的方法(Methods for Determining Fraction of Fetal Nucleic Acids inMaternal Samples)”)、12/958,356(名称为“同时确定非整倍性和胎儿分数(Simultaneous determination of Aneuploidy and Fetal Fraction)”)(两项均提交于2010年12月1日)、以及13/009,718(名称为“通过全基因组测序识别在基因组DNA的混合物中的多态序列(Identification of polymorphic sequences inmixtures of genomic DNA by whole genome sequencing)”,提交于2011年1月19日),这些专利均通过引用以其全文结合在此。由于异卵双胎将至少在一些SNP位点处不同,故可以确定两个独立的胎儿分数(第一和第二)。已知针对具有双胎妊娠的样品的针对染色体21的NCV,则与非整倍性相关联的胎儿分数可以作为针对非整倍体双胎样品的染色体剂量与在训练集的合格样品中的染色体21剂量的平均值之间的差异百分比而估算,即在测试样品中的NCV染色体21剂量在合格样品中的NCV平均染色体21剂量/在测试样品中的NCV染色体21剂量。与非整倍性相关联并且使用针对染色体21的NCV计算的分数将对应于使用在SNP序列中的差异确定的一个第一或第二胎儿分数,由此识别是一个或是两个孪生胎儿携带非整倍性。
除了该方法用于在胎儿中确定表明遗传状况的染色体非整倍性的适用性以外,可以应用该方法来确定存在或不存在表明疾病(例如癌症)和/或疾病状态的染色体异常、确定存在或不存在病原体(例如病毒)的核酸、确定与移植物抗宿主疾病(GVHD)有关的染色体异常、以及确定个体在法医分析中的贡献。
人类基因组中的CNV明显影响人类多样性和易患病性(勒东(Redon)等人,自然(Nature)23:444-454[2006];沙伊赫(Shaikh)等人 基因组研究(Genome Res)19:1682-1690[2009])。已知CNV通过不同机制促成遗传疾病,在大多数病例中引起基因剂量不平衡或基因破坏。除了CNV与遗传性障碍直接相关以外,已知它们介导了可能有害的表型变化。近来,数项研究已报导了,与正常对照相比,在复杂病症(如自闭症、ADHD、以及精神***症)中罕见的或新生的CNV的负荷增加,强调了罕见或独特的CNV的潜在病原性(塞巴特(Sebat)等人,316:445-449[2007];沃尔什(Walsh)等人,科学(Science)320:539-543[2008])。CNV由基因组重排产生,主要归因于缺失、复制、***、以及不平衡的易位事件。
本发明的多个实施方案提供了一种方法,用于评定在一个测试样品中的感兴趣的序列(例如临床上相关的序列)的拷贝数变异,该测试样品包括衍生自两个不同基因组的核酸的混合物,并且这些核酸已知或被怀疑在一个或多个感兴趣的序列的量上是不同的。核酸的混合物是衍生自两个或更多个类型的细胞。在一个实施方案中,该核酸混合物是衍生自正常的和癌的细胞,这些细胞衍生自患有一种医学情况(例如癌症)的受试者。
据信很多实体瘤,如乳癌,通过若干遗传畸变的累积而从启始进展到转移。[佐藤(Sato)等人,癌症研究(Cancer Res.),50:7184-7189[1990];琼斯玛(Jongsma)等人,临床病理学杂志(J Clin Pathol):分子病理学(Mol Path)55:305-309[2002])]。此类遗传畸变随着它们累积可以造成繁殖优势、遗传不稳定性和伴随的迅速演生出抗药性的能力,以及增强的血管生成、蛋白分解和新陈代谢。这些遗传畸变可以或者是影响隐性的“肿瘤抑制基因”或者是影响起主导作用的癌基因。导致杂合性丢失(LOH)的缺失和重组被认为是通过露出突变的肿瘤抑制等位基因在肿瘤进展中起到主要作用。
在诊断患有恶性肿瘤的患者的循环中已经发现了cfDNA,这些恶性肿瘤包括但不局限于肺癌(帕萨克(Pathak)等人,临床化学(Clin Chem),52:1833-1842[2006]),***癌(许瓦臣巴赫(Schwartzenbach)等人,临床癌症研究(ClinCancer Res),15:1032-8[2009]),以及乳癌(许瓦臣巴赫(Schwartzenbach)等人,在breast-cancer-research.com/content/11/5/R71在线可得,[2009])。在癌症患者的循环cfDNA中可以确定的与癌症相关的基因组不稳定性的识别是潜在的诊断和预测工具。在一个实施方案中,本发明的方法评定了在样品中的感兴趣的序列的CNV,该样品包含衍生自一位受试者的核酸的混合物,已知或怀疑该受试者患有癌症,例如癌、肉瘤、淋巴瘤、白血病、生殖细胞瘤和母细胞瘤。在一个实施方案中,这种样品是衍生(加工)自外周血的血浆样品,并且它包括衍生自正常的和癌的细胞的cfDNA的混合物。在另一实施方案中,需要确定是否存在CNV的生物学样品是衍生自癌和非癌细胞的混合物,这些细胞来自其他生物学流体,这些生物学流体包括但不局限于:血清,汗水,眼泪,痰,尿,痰,耳流出物,淋巴液,唾液,脑脊液,灌洗液(ravages),骨髓悬浮液,***流出物,经宫颈的灌洗液,脑液,腹水,乳汁,呼吸、肠和生殖泌尿道的分泌物,以及白细胞分离术样品,或者在组织活检、棉签、或涂片中。
感兴趣的序列是一种核酸序列,已知或怀疑该序列在癌症的发展和/或进展中起作用。感兴趣的序列的实例包括核酸序列,如以下所述,这些序列在癌细胞中被扩增或删除。
与人类实体瘤相关联的显性开放基因典型地通过过表达或改变的表达来发挥它们的作用。基因扩增是导致基因表达上调的一种常见机制。来自细胞遗传学研究的证据表明,在超过50%的人乳癌中发生了显著扩增。最值得注意的是,位于染色体17上的原癌基因人表皮生长因子受体2(HER2)的扩增造成了在细胞表面上的HER2受体的过表达,从而在导致乳癌和其他恶性肿瘤中的过量的并且调节异常的信号(朴(Park)等人,临床乳癌(Clinical Breast Cancer),8:392-401[2008])。在其他人类恶性肿瘤中已经发现了多种癌基因被扩增。人类肿瘤中细胞癌基因扩增的实例包括以下各项的扩增:前髓细胞性白血病细胞系HL60、以及小细胞肺癌中的c-myc,原发成神经细胞瘤(阶段III和IV)、成神经细胞瘤细胞系、视网膜母细胞瘤细胞系和原发肿瘤、以及小细胞肺癌细胞系和肿瘤中的N-myc,小细胞肺癌细胞系和肿瘤中的L-myc,急性髓细胞性白血病中和结肠癌细胞系中的c-myb,表皮样癌细胞、以及原发神经胶质瘤中的c-erbb,肺、结肠、膀胱、以及直肠的原发癌中的c-K-ras-2,乳腺癌细胞系中的N-ras(瓦穆斯H.(Varmus H.),遗传学年鉴(Ann Rev Genetics),18:553-612(1984),[引用在沃森(Watson)等人,基因的分子生物学(MolecularBiology of the Gene)(第4版;本杰明/康宁出版公司(Benjamin/CummingsPublishing Co.)1987)]。
涉及肿瘤抑制基因的染色体缺失可以在实体瘤的发展和进展中起一种重要作用。视网膜母细胞瘤肿瘤抑制基因(Rb-1)(位于染色体13q14)是最广泛地特征化的肿瘤抑制基因。Rb-1基因产物(一种105kDa的核磷蛋白)显然在细胞周期调控中起到重要作用(豪依(Howe)等人,美国国家科学院院刊(Proc Natl Acad Sci)(美国),87:5883-5887[1990])。由通过一个点突变亦或染色体缺失的这两个基因的等位基因的失活引起Rb蛋白的改变的或丢失的表达。已经发现Rb-i基因改变不仅存在于视网膜母细胞瘤中,而且还存在于其他恶性肿瘤中,如骨肉瘤、小细胞肺癌(瑞格德(Rygaard)等人,癌症研究(Cancer Res),50:5312-5317[1990)])和乳癌。限制性片段长度多态性(RFLP)研究已经表明,此类肿瘤类型经常在13q丢失了杂合性,这提示由于总的染色体缺失,Rb-1基因的等位基因之一已经被丢失(伯考克(Bowcock)等人,美国人类遗传学杂志(Am J Hum Genet),46:12[1990])。包括涉及染色体6和其他同伴染色体的复制、缺失和不平衡易位的染色体1异常表明染色体1的区域,特别是q21-1q32和1p11-13,可能容纳与骨髓增生性肿瘤的慢性和高级阶段发病上有关的癌基因或肿瘤抑制基因(卡拉马萨(Caramazza)等人,欧洲血液学杂志(Eur J Hematol),84:191-200[2010])。骨髓增生性肿瘤还与染色体5的缺失相关联。染色体5的完整丢失或中间缺失是骨髓增生异常综合征(MDS)中最常见的核型异常。分离的del(5q)/5q-MDS患者具有比患有额外核型缺陷的那些患者更有利的预后,他们倾向于发展骨髓增生性肿瘤(MPN)和急性髓细胞性白血病。不平衡的染色体5缺失的频率已经引出一个想法,即:5q容纳一个或多个肿瘤抑制基因,这些基因在造血干细胞/造血祖细胞(HSCsHPC)的生长控制中起到根本作用。通常缺失的区域(CDR)的细胞遗传学映射集中在5q31和5q32识别的候选肿瘤抑制基因,包括核糖体亚基RPS14、转录因子Egr1/Krox20和细胞骨架重塑蛋白、α-联蛋白(艾斯曼(Eisenmann),癌基因(Oncogene),28:3429-3441[2009])。新鲜肿瘤和肿瘤细胞系的细胞遗传学和等位基因型研究已经证明,来自染色体3p上的若干明确区域(包括3p25、3p21-22、3p21.3、3p12-13和3p14)的等位基因的丢失是在肺癌、乳癌、肾癌、头颈癌、卵巢癌、子***、结肠癌、胰腺癌、食道癌、膀胱癌和其他器官的癌症的广谱的主要上皮癌中所涉及的最早和最常见的基因组异常。若干肿瘤抑制基因已经被映射到染色体3p区域,并且认为中间缺失或启动子高度甲基化先于在癌的发展中的3p或完整染色体3的丢失((安格罗尼D.(Angeloni D.),功能基因组学简报(Briefings FunctionalGenomics),6:19-39[2007])。
患有唐氏综合征(DS)的新生儿和儿童通常呈现先天的暂时性白血病并且具有急性髓细胞性白血病和急性成淋巴细胞白血病的增加的风险。染色体21(容纳约300个基因)可以牵涉多种结构畸变,例如在白血病、淋巴瘤、和实体瘤中的易位、缺失、以及扩增。此外,已经识别位于染色体21上的基因在肿瘤发生中所起的重要作用。染色体21的实体数目的连同结构的畸变是与白血病相关联的,并且特定基因包括RUNX1、TMPRSS2、和TFF,它们位于21q,在肿瘤发生中起作用(冯纳茨克C(Fonatsch C)基因、染色体和癌C,(GeneChromosomes Cancer),49:497-508[2010])。
在一个实施方案中,该方法提供了一个手段来评定基因扩增和肿瘤演化的程度之间的关联性。扩增和/或缺失以及癌症阶段或等级之间的关联对于预后可以是重要的,因为此类信息可以构成遗传性肿瘤等级的定义,这会更好地预测具有最坏预后的更晚期肿瘤的未来病程。此外,关于早期扩增和/或缺失事件的信息在将这些事件作为随后疾病进展的预测因素方面进行关联时可以是有用的。可以将通过本方法识别的基因扩增和缺失与其他已知参数(如肿瘤等级、病史、Brd/Urd标记物指数、激素状态、***转移、肿瘤大小、生存时间和从流行病学和生物统计学研究可获得的其他肿瘤特性)进行关联。例如,有待通过本方法进行测试的肿瘤DNA可以包括不典型增生、导管的原位癌、阶段I-III的癌症以及转移性***,以便允许识别在扩增和缺失与阶段之间的关联性。所做出的关联可以使得有效的治疗性干预成为可能。例如,一致扩增的区域可以含有一个过表达的基因,其产物也许能够接受治疗性附接(例如,生长因子受体酪氨酸激酶p185HER2)。
通过确定从原发癌症到已经转移到其他部位的细胞的那些核酸的拷贝数变异,该方法可以用于识别与抗药性相关的扩增和/或缺失事件。如果基因扩增和/或缺失是允许抗药性迅速发展的核型不稳定性的一种表现,那么与来自化疗敏感的患者的肿瘤相比,将会期待在来自化疗抗性的患者的原发肿瘤中的更多扩增和/或缺失。例如,如果特定基因的扩增造成了抗药性的发展,那么在来自化疗抗性的患者的肿瘤细胞中而不是在原发肿瘤中将会期待围绕那些基因的区域得到了一致的扩增。在基因扩增和/或缺失与抗药性发展之间的关联性的发现可以允许识别将能够或将不能受益于辅助疗法的患者。
用于确定CNV的装置和***
测序数据的分析以及由此得出的确定典型地使用不同的计算机硬件、计算机算法以及计算机程序执行。因此,本发明方法典型地是计算机实施的或计算机辅助的方法。
在一个实施方案中,本发明提供了一种计算机程序产品用于产生一个输出,该输出表明在一个测试样品中存在或不存在一种胎儿非整倍性。该计算机产品包括一个计算机可读媒质,该媒质具有一种记录于其上的计算机可执行的逻辑,用于使处理器能够确定存在或不存在胎儿非整倍性,该逻辑包括:一种接收程序,用于接收来自母体生物样品的至少一部分核酸分子的测序数据,其中所述测序数据包括序列读数;电脑辅助的逻辑,用于分析来自所述接收的数据的胎儿非整倍性;以及一种输出程序,用于产生输出以表明所述胎儿非整倍性的存在、不存在或种类。使用具有上面储存了计算机可读指令的计算机可读的媒质可以进行本发明的方法,以便进行一种用于识别任何CNV(例如染色体的或部分的非整倍性)的方法。在一个实施方案中,本发明提供了一种计算机可读媒质,该媒质具有储存于其上的计算机可读指令用于识别怀疑与一种染色体非整倍性(例如21三体性、13三体性、18三体性、或X单体性)有关的至少一个染色体。
在一个实施方案中,本发明提供了一种计算机可读媒质,该媒质具有储存于其上的计算机可读指令用于执行包括以下步骤的方法:(a)使用从在样品中的胎儿和母体核酸获得的序列信息来识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值比较,以确定在样品中存在或不存在一种胎儿非整倍性。计算机可读媒质可以具有储存于其上的用于执行一种方法的计算机可读指令,在该方法中针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,该第一染色体剂量是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且在该方法中针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,该第二染色体剂量是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
在一个实施方案中,本发明提供了一种计算机可读媒质,该媒质具有储存于其上的计算机可读指令用于执行包括以下步骤的方法:(a)使用从在样品中的胎儿和母体核酸获得的序列信息来识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的序列标签的数目以及针对一个第一归一化染色体的序列标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值比较,以确定在样品中存在或不存在一种胎儿非整倍性。计算机可读媒质可以具有储存于其上的用于执行一种方法的计算机可读指令,在该方法中针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,该第一染色体剂量是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且该方法中针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,该第二染色体剂量是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
在一个实施方案中,本发明提供了一种计算机处理***,其被调适或配置来执行根据本发明方法。举例来说,本发明提供了一种计算机处理***,其被适配并且配置来执行包括以下步骤的方法:(a)使用从在样品中胎儿和母体核酸获得的序列信息来识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用序列标签的数目来计算针对感兴趣的染色体的一个第一归一化值和一个第二归一化值;以及(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值比较并且将针对感兴趣的染色体的第二归一化值与一个第二阈值比较,以确定在样品中存在或不存在一种胎儿非整倍性。计算机处理***可以被适配并且配置来执行一种方法,在该方法中针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,该第一染色体剂量是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且在该方法中针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,该第二染色体剂量是针对感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
在一个实施方案中,本发明提供了一种计算机处理***,其被适配并且配置来执行包括以下步骤的方法:(a)使用从在样品中的胎儿和母体核酸获得的序列信息来识别针对感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;(b)使用针对感兴趣的染色体的序列标签的数目以及针对一个第一归一化染色体的序列标签的数目来确定针对感兴趣的染色体的一个第一归一化值,并且使用针对第一归一化染色体的序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对第一归一化染色体的一个第二归一化值;(c)将针对感兴趣的染色体的第一归一化值与一个第一阈值比较并且将针对第一归一化染色体的第二归一化值与一个第二阈值比较,以确定在样品中存在或不存在一种胎儿非整倍性。计算机处理***可以被调适并且配置来执行一种方法,在该方法中针对感兴趣的染色体的第一归一化值是一个第一染色体剂量,该第一染色体剂量是针对感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且在该方法中针对感兴趣的染色体的第二归一化值是一个第二染色体剂量,该第二染色体剂量是针对第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
本发明还提供了被适配或配置来执行根据本发明的方法的装置,其中该装置任选地包括被适配或配置来对在样品中的胎儿和母体核酸分子进行测序的测序器件。举例来说,本发明提供了包括以下各项的装置:(a)一个测序器件,其被适配或配置成用于使用如本文中所述的测序方法对在样品中的胎儿和母体核酸分子进行测序,从而生成序列信息;以及(b)一个计算机处理***,其被适配或配置成用于使用在如本文中所述的方法中由测序器件生成的序列信息,其中该计算机处理***任选地直接连接到测序器件,这样使得序列信息可以自动地从测序器件传输到计算机处理***。该装置可以进一步包括转移器件,其被适配或配置来将样品转移到测序器件以供测序。
在以下实例中将更详细地说明本发明,这些实例无意以任何方式限制如所要求的本发明的范围。附图是意在被认为是本发明的说明书和说明的整体部分。提供了以下实例来进行说明,而并非限制所要求的发明。
实例
实例1
使用对来自母体血液的无细胞胎儿DNA的大规模平行DNA测序进行胎儿染色体异常的最佳确定:独立于训练集1的测试集1
本研究是由合格的定点临床研究人员在13个美国临床地区于2009年4月和2010年10月之间根据由每个机构的伦理审查委员会(IRB)获准的一项人类受试者科学试验计划进行的。在参与研究之前从每位受试者获得了书面同意书。该科学试验计划被设计为提供血液样品以及临床数据来支持无创性产前遗传学诊断方法的发展。18岁或年龄更大的妊娠妇女有资格参与。对于经历临床指征的绒膜绒毛取样(CVS)或羊膜刺穿的患者在进行该程序之前收集血液,并且同样收集胎儿核型的结果。从所有受试者抽取外周血样品(两管或总共约20mL)置于酸性枸橼酸盐葡萄糖(ACD)管中(贝克顿迪金森公司(Becton Dickinson))。将所有样品都去除身份并且指定一个匿名的患者ID号。将血液样品在对于研究所提供的温控型运送容器中连夜运送至实验室。抽血和受到样品之间所花费的时间被记录为样品即位的一部分。
定点研究协调人员使用匿名的患者ID号将与患者当前的妊娠情况以及历史相关的临床数据录入研究病例报告表(CRF)中。在每个实验室对来自无创性产前程序的样品进行胎儿核型的细胞遗传分析并且将结果同样记录在研究CRF中。在CRF上获得的所有数据都录入实验室的临床数据库中。在24至48小时的静脉穿刺取样后利用两步离心法从单独的血液管获得无细胞的血浆。来自单一血液管的血浆足够进行测序分析。通过使用QIAamp DNA血液微型试剂盒(凯杰公司)(QIAamp DNA Blood Mini kit(Qiagen))根据制造商的说明将无细胞DNA从无细胞血浆中提取出来。由于已知这些无细胞的DNA片段在长度上约为170个碱基对(bp)(Fan et al.,Clin Chem 56:1279-1286[2010]),在测序之前无需使将DNA碎裂。
对于这个训练组的样品,将cfDNA送至Prognosys Biosciences,Inc.(LaJolla,CA)用于测序文库制备(钝端化并且连接到普通适配子上的cfDNA)并且使用标准制造商科学试验计划用Illumina Genome Analyzer IIx仪器(http://www.illumina.com/)进行测序。获得了36个碱基对的单端读数。在完成测序之后,收集所有碱基判定文件并且进行分析。对于测试组样品,制备测序文库并且在Illumina Genome Analyzer IIx仪器上进行测序。测序文库的制备如下进行。所说明的全长科学试验计划主要是Illumina提供的标准科学试验计划,并且仅在扩增的文库的纯化上与Illumina科学试验计划不同。Illumina科学试验计划指示:扩增的文库使用凝胶电泳法进行纯化,而在此说明的科学试验计划使用磁珠进行相同的纯化步骤。使用从母体血浆提取的约2ng纯化的cfDNA来制备一个初级测序文库,这主要使用的NEBNextTM DNA样品制备DNA试剂集1(NEBNextTM DNA Sample Prep DNA Reagent Set 1)(物品编号:E6000L;New England Biolabs,Ipswich,MA)根据制造商的说明来进行。除了使用Agencourt磁珠和试剂来代替纯化柱对适配子连接的产物进行最终纯化之外,所有步骤都是根据科学试验计划伴随用于基因组DNA文库的样品制备的NEBNextTM试剂(已使用GAII测序)来进行的。NEBNextTM规约本质上遵循了Illumina所提供的规约,这在grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf处可获得。
将在40μl中包含的大约2ng纯化的cfDNA片段的突出端通过在1.5ml微量离心管中将cfDNA用在NEBNextTM DNA样品制备DNA试剂集1(NEBNextTM DNA Sample Prep DNA Reagent Set 1)中提供的5μl 10X的磷酸化作用的缓冲液、2μl脱氧核苷酸溶液混合物(每份dNTP有10mM)、1μl的1∶5的DNA聚合酶I的稀释液、1μl T4 DNA聚合酶以及1μl T4多核苷酸激酶在20℃下孵育15分钟,根据末端修复模块而转化成磷酸化的钝端。将该样品冷却到4℃,并且使用一个在QIAQuick PCR纯化试剂盒(QIAQuick PCR Purification Kit)(加利福利亚州巴伦西亚凯杰公司(QIAGENInc.,Valenicia,CA))中提供的QIA快速柱进行纯化。将50μl反应液转移到1.5ml离心管中,并且加入250μl的Qiagen Buffer PB。将得到的300μl转移到一个QIA快速柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。残余的乙醇通过在13,000RPM下再离心5分钟来去除。将DNA在39μl的凯杰缓冲剂EB(QiagenBuffer EB)中通过离心来洗脱。使用16μl的含有克列诺片段(3’至5’exo minus)(NEBNextTM DNA样品制备DNA试剂集1(NEBNextTM DNA SamplePrep DNA Reagent Set 1))的dA加尾主混合液完成34μl钝端的DNA的dA加尾,并且根据制造商的dA-Tailing Module在37℃下孵育15分钟。将该样品冷却到4℃,并且使用在MinElute PCR Purification Kit(QIAGEN Inc.,Valencia,CA)中提供的一个柱进行纯化。将50μl反应液转移到1.5ml离心管中,并且加入250μl的Qiagen Buffer PB。将300μl转移到一个MinElute柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。残余的乙醇通过在13,000RPM下再离心5分钟来去除。将DNA在15μl的Qiagen Buffer EB中通过离心来洗脱根据Quick Ligation Module,将十微升的DNA洗脱液用1μl的1∶5的Illumina Genomic Adapter Oligo Mix(物品编号:1000521)稀释液、15μl的2X Quick Ligation Reaction Buffer、以及4μl快速T4 DNA连接酶在25℃下孵育15分钟。将样品冷却到4℃,并且使用一个如下的MinElute柱。将一百五十微升Qiagen Buffer PE加入30μl反应液中,并且将全部体积转移到一个MinElute柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。通过在13,000RPM下再离心5分钟来去除残余的乙醇。将DNA在28μl的Qiagen Buffer EB中通过离心来洗脱。使用Illumina基因组PCR引物(物品编号:100537和1000538)以及在NEBNextTM DNA样品制备DNA试剂集1(NEBNextTM DNA SamplePrep DNA Reagent Set 1)中提供的Phusion HF PCR预混液(根据制造商的说明),使二十三微升的适配子连接的DNA洗脱液经受18次PCR循环(98℃下30秒;98℃下18次循环持续10秒,65℃下30秒,并且72℃下30秒;最终伸展在72℃下5分钟,并且保持在4℃下)。使用Agencourt AMPure XPPCR纯化***(Agencourt Bioscience Corporation,Beverly,MA)根据制造商的说 明(在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处可获得)将扩增的产物进行纯化。Agencourt AMPure XP PCR纯化***去除了未接合的dNTP、引物、引物二聚体、盐类以及其他污染物,并且回收了大于100bp的扩增子。将纯化后的扩增产品在40μl的Qiagen EB缓冲液从Agencourt珠中洗脱,并且使用2100 Bioanalyzer(Agilent technologies Inc.,SantaClara,CA)的Agilent DNA 1000 Kit对析这些文库的尺寸分布。
对于训练以及测试样品组二者,对36个碱基对的单端读数进行测序。
数据分析和样品分类
将长度为36个碱基的序列读数与从UCSC数据库获得的人类基因组组件hg18进行比对(http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/)。使用在比对过程中允许最多两个碱基错配的Bowtie短基因片段比对器(版本0.12.5)(Langmead et al.,Genome Biol 10:R25[2009])来进行比对。只有清楚映射到一个单一基因组位置上的读数才被包括在内。对读数所映射的基因组位点进行了计数并且包括在染色体剂量的计算中(参见以下内容)。在Y染色体上来自男性和女性胎儿的序列标签无任何区分地映射之处的区域被排除在分析以外(确切地说,从碱基0至碱基2x106、碱基10x106至碱基13x106;以及碱基23x106至Y染色体的末尾。)
序列读数的染色体分布中的同批和轮次间测序变异可以使胎儿非整倍性对映射的序列位点的分布的影响不明显。为了校正该种变异,在将针对给定的感兴趣的染色体的映射的位点的计数针对在预定的归一化染色体或一组归一化染色体上观察到的计数进行归一化时计算染色体剂量。首先在未受影响的样品(即合格样品)的样品训练集中的样品子集中识别归一化染色体或归一化染色体集,这些样品具有针对感兴趣的染色体21、18、13以及X的二倍体核型,将各常染色体视为与我们感兴趣的染色体计数比率中的潜在分母。选择使测序轮次内和测序轮次间的染色体比率变异最小的分母染色体(即归一化染色体)。各感兴趣的染色体被确定为具有不同的分母(表1)。
在合格样品中针对各感兴趣的染色体的染色体剂量提供了针对各感兴趣的染色体的映射的序列标签的总数目相对于其余染色体各自的映射的序列标签的总数目的变异的量度。因此,合格染色体剂量可以识别染色体或染色体群组,即归一化染色体,其具有最接近于感兴趣的染色体的变异的样品中的变化,并且将用作针对归一化值的理想序列以便进行进一步统计学评价。
在训练组(即合格并且受影响的)中针对所有样品的染色体剂量还如以下所说明作为在识别的测试样品中的非整倍性时用于确定阈值的基础。
表1
用于确定染色体剂量的归一化染色体序列
对于在测试组的每个样品中每个感兴趣的染色体,确定了一个归一化的值并且被用来确定存在或不存在非整倍性。该归一化值是作为一个染色体剂量来进行计算的,该染色体剂量可以被进一步计算以提供一个归一化的染色体值(NCV)。
染色体剂量
对于测试组,对于每个样品的每个感兴趣的染色体21、18、13、X和Y计算了一个染色体剂量。如在以上表10中提供的,染色体21的染色体剂量是作为映射到测试样品中的染色体21的测试样品中的标签数目与映射到测试样品中的染色体9的测试样品中的标签数目的比率来计算的;染色体18的染色体剂量是作为映射到测试样品中的染色体18的测试样品中的标签数目与映射到测试样品中的染色体8的测试样品中的标签数目的比率来计算的;染色体13的染色体剂量是作为映射到测试样品中的染色体13的测试样品中的标签数目与映射到测试样品中的染色体2至6的测试样品中的标签数目的比率来计算的;染色体X的染色体剂量是作为映射到测试样品中的染色体X的测试样品中的标签数目与映射到测试样品中的染色体6的测试样品中的标签数目的比率来计算的;染色体Y的染色体剂量是作为映射到测试样品中的染色体Y的测试样品中的标签数目与映射到测试样品中的染色体2至6的测试样品中的标签数目的比率来计算的。
归一化的染色体值
使用每个测试样品中针对每个感兴趣的染色体的染色体剂量以及在训练组的合格样品中确定的相应的染色体剂量,使用以下方程计算归一化的染色体值(NCV):
其中和对应地是针对第j个染色体比率的估算训练集均值和标准差,并且xij是针对样品i所观察到的第j个染色体比率。当染色体比率呈正态分布时,NCV等于针对比率的统计学z分值。在来自未受影响的样品的NCV的分位数-分位数绘图中没有观察到与线性度的显著偏离。此外,对于NCV的归一程度的标准测试未能否决正态性的零假设。对于柯尔莫诺夫-斯米尔诺夫(Kolmogrov-Smirnov)和夏皮罗-威尔克(Shapiro-Wilk)两项检验,显著性值都大于0.05。
对于测试组,对于每个样品的每个感兴趣的染色体21、18、13、X和Y计算了一个NCV。为了确保一个安全且有效的分类方案,对于非整倍性分类选择了保守的边界。为了对常染色体的非整倍性状态进行分类,需要NCV>4.0来将染色体归类为受影响的(即,对于该染色体为非整倍性);以及NCV<2.5来将染色体归类为未受影响的。常染色体具有2.5和4.0之间的NCV的样品被归类为“未判定的”。
在测试中,性染色体的分类是通过对于X和Y都按如下内容相继应用NCV来进行的:
1.如果NCV Y距男性样品的平均值>-2.0标准偏差,则该样品被归类为男性(XY)。
2.如果NCV Y距男性样品的平均值<-2.0标准偏差,并且NCV X距离女性样品的平均值>-2.0标准偏差,则该样品被归类为女性(XX)。
3.如果NCV Y距男性样品的平均值<-2.0标准偏差,并且NCV X距离女性样品的平均值<-3.0标准偏差,则该样品被归类为单体性X,即特纳综合征。
4.如果NCV不符合任何以上标准,则该样品被归类为对于性别是“未判定的”。
结果
研究人口统计学
在2009年4月和2010年7月之间共登记了1,014名患者。患者的人口统计、侵入性程序类型以及核型结果总结在表2中。研究参与者的平均年龄为35.6岁(范围在17至47岁)并且孕龄范围是6周1天至38周1天(平均为15周4天)。异常胎儿染色体核型的总体发病率是6.8%,其中T21发病率为2.5%。在具有单胎妊娠以及核型的946名受试者中,906名(96%)呈现出对于产前过程的胎儿非整倍性而言至少一种临床公认的风险因素。即使除去那些仅具有高的怀孕年龄作为其唯一指征的受试者,数据仍展示了对于当前的筛查模态一个非常高的假阳性率。用超声进行的超声检查结果为:增加的颈半透明度、水囊状***瘤、或其他结构上的先天性异常,这些是这一年龄组中预见性最强的异常核型。
表2
患者人口统计
*包括多胎妊娠的胎儿的结果,**由临床医师评估和报告
AMA=孕妇高龄,NT=颈半透明度
在本研究人群中展示的多样的种族背景的分布也在表2中示出。总体上,在本研究中63%的患者是高加索人,17%是西班牙人,6%是亚洲人,5%是多民族的,并且4%是非裔美国人。注意到,种族的差异在不同的地点变化显著。例如,一个地点登记了60%的西班牙和26%的高加索受试者,而位于相同州的三个临床点没有登记西班牙受试者。如所预期的,在我们的不同种族的结果中没有观察到可辨别的不同之处。
训练数据组1
该训练组研究从2009年4月至2009年12月之间收集的、初期相继积累的435个样品中挑选了71个样品。在该第一系列的受试者中具有受影响的胎儿(异常核型)的所有受试者都包括在内用于测序,以及具有适当的样品和数据的一个随机挑选和随机数目的未受影响的受试者。训练组患者的临床特征与表11中示出的总体研究的人口统计一致。训练组内的样品的孕龄范围是从10周0天至23周1天的范围。三十八人经历了CVS,32人经历了羊膜穿刺并且1位患者不具有指定的侵入性程序的类型(未受影响的核型46,XY)。70%的患者是高加索人,8.5%是西班牙人,8.5%是亚洲人,并且8.5%是多民族的。为了训练的目的,从这个组内去除了六个已测序的样品。4个样品来自双胎妊娠的受试者(以下详细讨论),1个样品具有T18,该样品在制备过程中被污染,并且1个样品具有胎儿核型69,XXX,剩下65个样品为该训练组。
单一序列位点的数目(即,在基因组中用独特的位点识别的标签)从该训练组研究的早期阶段的2.2M到后期阶段的13.7M(由于随时间推移而在测序技术上的改进)而变化。为了监测在独特的位点中染色体比率超过这个6倍范围的任何潜在的改变,在研究的开始和结束时运行了不同的、未受影响的样品。对于前15个未受影响的样品的轮次,独特位点的平均数目是3.8M并且对于染色体21和染色体18的平均染色体比率分别是0.314和0.528。对于后15个未受影响的样品的轮次,独特位点的平均数目是10.7M并且对于染色体21和染色体18的平均染色体比率分别是0.316和0.529。在染色体21和染色体18的染色体比率之间随着训练组研究的时间推移,没有统计性差异。
在图2上示出对于染色体21、18和13的训练组NCV。在图2中示出的结果与一种归一化程度的假设一致,该假设是:大约99%的二倍体NCV将落入平均值的±2.5标准偏差。在这一组内的65个样品中,8个具有指示T21的临床核型的样品具有的NCV范围是从6至20。四个具有的临床核型指示出胎儿T18的样品具有的NCV范围是从3.3至12,并且两个具有的临床核型指示出胎儿三体性13(T13)的样品具有的NCV为2.6和4。在受影响的样品中NCV的散布是由于它们对单个样品中的胎儿cfDNA的百分比的依赖性。
与常染色体类似,在训练组内确定了性染色体的平均值和标准偏差。性染色体的阈值允许100%地鉴别训练组内的男性和女性胎儿。
测试数据组1
在确立了染色体比率平均值以及与训练组的标准离均差之后,从在2010年1月至2010年6月之间从总共575个样品中收集的样品中选择了48个样品的一个测试组。其中一个来自双胎妊娠的样品从最终分析中去除,这样在测试组内剩下47个样品。使制备用于测序的样品以及操作设备的人员对临床核型信息为盲。孕龄范围与在训练组中所看到的类似(表2)。侵入性程序的58%是CVS,比总体的程序性人口统计的更高,但也与训练组类似。50%的受试者是高加索人,27%是西班牙人,10.4%是亚洲人并且6.3%是非裔美国人。
在测试组内,独特的序列标签的数目从大约13M至26M而不同。对于未受影响的样品,对于染色体21和染色体18,染色体比率分别为0.313和0.527。对于染色体21、染色体18和染色体13,测试组NCV在图3中示出并且分类在表12中给出。
表3
测试组分类数据测试组分类数据
*MX是X染色体的单体性,而Y染色体没有迹象
在测试组内,具有指示为胎儿T21的核型的13/13名受试者被正确地识别为具有范围从5至14的NCV。具有指示为胎儿T18的核型的八/八名受试者被正确地识别为具有范围从8.5至22的NCV。在本测试组内,具有归类为T13的单一样品被归类为其中NCV大约为3的未判定。
对于测试数据组,所有男性样品被正确地识别,包括具有复杂核型46,XY+标记染色体(通过细胞遗传学不能识别)的样品(表3)。二十名女性样品中有十九名被正确识别,并且一个女性样品被归类为未判定。对于测试组内核型为45,X的三个样品,三个中有两个被正确识别为单体性X,并且1个被归类为未判定的(表3)。
双胎
对于训练组最初选择的样品中有四个并且测试组内有一个是来自双胎妊娠。在此使用的阈值可能受到在双胎妊娠的环境中预期的cfDNA的不同量值的困扰。在训练组内,来自其中一个双胎样品的核型是单绒膜47,XY+21。一个第二双胎样品是异卵的并且对每个胎儿单独进行了羊膜穿刺是。在这个双胎妊娠中,其中一个胎儿具有47,XY+21的核型而另一个具有一个正常的核型46,XX。在这两个病例中,基于以上讨论的方法的无细胞的归类将样品归类为T21。在训练组内的其他两个双胎妊娠被正确归类为对于T21未受影响的(所有双胎都显示对于染色体21的二倍体核型)。对于测试组内的双胎妊娠,仅对双胎B确立了核型(46,XX),并且该算法被正确归类为对于T21是未受影响的。
结论
该数据表明大规模平行测序法可以被用来从孕妇的血液中确定多个异常的胎儿核型。这些数据表明,对具有三体性21和三体性18的样品的100%正确的归类可以使用独立的测试组数据进行识别。即使是在具有异常的性染色体核型的胎儿的情况下,利用该方法的算法没有样品被错误地归类。重要的是,该算法同样在确定在两个双胎妊娠的组内存在或不存在T21方面同样表现良好。此外,本研究检查了来自多个中心的许多连续的样品,不仅代表了人们在商业临床环境中可能见到的异常核型的范围,还展示了将未受普通三体性影响的妊娠准确归类的重要性,以强调在当今的产前筛查中存在的高到不可接受的假阳性率。该数据对于在未来利用该方法的巨大潜力提供了有价值的见解。独特的基因位点的子集的分析表明了在方差一致的泊松计数统计值上的增加。
该数据在Fan和Quake的发现的基础上建立,Fan和Quake证实了:使用大规模平行测序从母体血浆无创地确定胎儿非整倍性的灵敏度仅受计数统计的限制(Fan和Quake,PLos One 5,e10439[2010])。因为测序信息是遍及整个基因组采集的,所以这种方法能够确定任何非整倍性或其他拷贝数变异,包括***和缺失。来自其中一个样品的核型在染色体11中在q21和q23之间具有一个小的缺失,当将测序数据在500k碱基数据箱内进行分析时,观察到在q21处起始的一个25Mb的区域内标签相对数目约10%的减少。此外,在训练组内,样品中有三个由于细胞遗传分析中的嵌合现象而具有复杂的性核型。这些核型是:i)47,XXX[9]/45,X[6];ii)45,X[3]/46,XY[17];以及iii)47,XXX[13]/45,X[7]。展现出一些含有XY的细胞的样品ii被正确归类为XY。通过细胞遗传分析(与嵌合体特纳综合征一致)均展示出XXX和X细胞的混合物的样品i(来自CVS过程)和iii(来自羊膜穿刺)分别被归类为未判定的和单体性X。
在测试该算法时,对于来自测试组的一个样品(图3)的染色体21,另一个有趣的数据点被观察到具有-5和-6之间的一个NCV。尽管该样品通过细胞遗传学在染色体21上为二倍体,该核型对于染色体9展示了与部分三倍性的嵌合现象:47,XX+9[9]/46,XX[6]。由于染色体9被用在分母中来确定染色体21的染色体剂量(表1),这降低了总的NCV值。结果惊人地证明了该方法在此情况下确定胎儿三体性9的能力(参见实例2)。确定了多个染色体比率以确保针对感兴趣的染色体的正确分类。此外,确立针对所有常染色体的归一化染色体以提高跨越基因组确定罕见的非整倍性的可能性(参见实例5)。
Fan等人有关这些方法的灵敏度的结论仅在所使用的算法能够将测序方法所带来的任何随机或***性偏差考虑在内时才是正确的。如果该测序数据未被适当地归一化,则所得的分析结果将劣于计数统计。赵(Chiu)等人在他们近期的论文中注意到,他们使用大规模平行测序方法得到的染色体18和13的测量结果是不精确的,并且结论是需要进行更多的研究来将该方法应用至T18和T13的确定(Chiu等人,BMJ 342:c7401[2011])。在Chiu等人的论文中使用的方法在他们的病例染色体21中简单使用了感兴趣的染色体的序列标签的数目,该数目通过在该测序轮次中的标签的总数目进行了归一化。这种途径的挑战之处在于:标签在每个染色体上的分布可以从测序轮次到测序轮次而不同,并且因此增加了非整倍性测定量度的总体变化。为了将Chiu算法的结果与在本实例中使用的染色体的比率进行对比,将染色体21和18的测试数据使用Chiu等人推荐的方法进行再分析,如图4中所示。总体上,对于染色体21和18的每一个都观察到了在NCV的范围内的压缩,并且观察到了确定率的减小,其中利用了用于非整倍性分类的NCV阈值4.0从我们的测试组中正确识别出10/13的T21和5/8的T18样品。
Ehrich等人同样只聚焦于T21并且使用了与Chiu等人相同的算法(Ehrichet al.,Am J Obstet Gynecol 204:205 e1-e11[2011])。此外,在观察到他们的测试组z分数量度与外部参比数据(即训练组)的一个偏移之后,他们对测试组进行了再训练以确立分类边界。尽管这种方法在原则上是可行的,在实际中将具有挑战性的是决定需要多少样品进行训练以及需要多久一次进行再训练来确保这些分类数据的正确。减轻这一问题的一种方法是在每个测序轮次中都包括对照,这些对照度量基线并且对于定量行为进行校准。
使用本方法获得的数据表明,当用于将染色体计数数据进行归一化的算法被优化时,大规模平行测序能够从孕妇的血浆确定多种胎儿染色体异常。本方法用于定量不仅将测序轮次之间的随机和***变化减至最小,还允许遍及整个基因组对非整倍性进行分类,最显著的是T21和T18。需要较大的样品收集来测试用于确定T13的算法。为此目的,正在进行一个有希望的、盲的、多地点的临床研究以进一步证明本方法的诊断准确性。
实例2
使用复染色体比率来验证非整倍性的确定:对归一化染色体进行归一化
如先前实例中所述,本方法是基于被映射到感兴趣的染色体的序列标签的数目针对被映射到展示与感兴趣的染色体类似的、样品间以及测序轮次间变异性的样品的序列标签的数目的归一化。为了验证非整倍性的分类并且排除分析中所用的归一化染色体本身是非整倍体染色体(即以畸形的拷贝数存在),如下确定第一归一化染色体(即用于确定染色体剂量以用于对涉及染色体21、18以及X的常见非整倍性进行分类的染色体)的归一化。
使用如实例1中所述来自训练集1的合格样品、以及来自测试集1的合格样品,分析测序信息以便识别针对第一归一化染色体的至少一个第二归一化染色体,该第一归一化染色体用于确定存在或不存在T21、T18或染色体X非整倍性(对应地参见表4、5、以及6)。
A.针对第一归一化染色体9的第二归一化染色体:
为了验证如实例1中确定的使用第一归一化染色体9确定的正常染色体21基因型的确定,使用各其他染色体计算针对染色体9的染色体剂量,即作为被映射到在训练集1中的各合格样品(正常样品)、和在测试集中的各合格样品中的染色体9的标签与被映射到染色体1-8、和10-22的标签的比率,并且计算CV%(表4)。如先前所述,用于识别归一化染色体的CV%是在二倍体样品中确定的染色体剂量的CV值。
表4
针对第一归一化染色体9的第二归一化染色体的确定
具有最低变异性的染色体被确定为来自训练集和测试集两个集的合格样品中的染色体11。
选择染色体11作为第二归一化染色体以用于验证使用第一归一化染色体9对针对染色体21的非整倍性(即T21)的确定后,针对各测试样品计算针对染色体9/染色体11的染色体剂量。如实例1中所述,使用如在训练集的合格样品中确定的针对染色体9/染色体11的平均染色体剂量0.834054±0.005213(均值±S.D),确定针对各测试样品的NCV(图5)。
数据示出了使用染色体9针对染色体21计算的异常低的NCV(低于其余测试样品的均值5-6 NCV;图3)对应于在使用染色体11作为第二归一化染色体时针对染色体9的异常高的NCV(高于其余测试样品的均值5-6 NCV)。数据表明样品具有染色体9非整倍性,并且验证了样品中二倍体染色体21的确定。这一结果与针对样品的非整倍体核型一致,该非整倍体核型已被示出为三体性9嵌合体47,XX+9[9]/46,XX[6]。三体性9的核型是使用羊水样品确定的。此外,这些数据示出了该方法能够识别罕见的染色体非整倍性(例如三体性9)。
B.针对第一归一化染色体8的第二归一化染色体:
针对各其他染色体计算针对染色体8的染色体剂量(它是被用于如实例1中所述确定存在或不存在T18的归一化染色体),即作为被映射到染色体8与在训练集1中的各合格样品(正常样品)、和在测试集1中的各合格样品中的染色体1-7、和9-22的标签的比率,并且计算CV%(表5)。
表5
针对第一归一化染色体8的第二归一化染色体的确定
具有最低变异性的染色体被确定为来自训练集和测试集两个集的合格样品中的染色体11。
选择染色体2作为第二归一化染色体以用于验证使用第一归一化染色体8对针对染色体18的非整倍性(即T18)的确定后,针对各测试样品计算针对染色体8/染色体2的染色体剂量。使用如在训练集的合格样品中确定的针对染色体8/染色体2的平均染色体剂量0.60102532±0.00318442(均值±S.D),确定针对各测试样品的NCV(图6)。
图6示出了在所有测试样品中均不存在针对第一归一化染色体8的非整倍性,由此验证了使用染色体8作为归一化染色体对存在或不存在T18非整倍性的确定。
C.针对第一归一化染色体6的第二归一化染色体:
针对各其他染色体计算针对染色体6的染色体剂量(它是被用于如实例1中所述确定存在或不存在染色体X的非整倍性的归一化染色体),即作为被映射到染色体6与在训练集中的各合格样品(正常样品)、和在测试集中的各合格样品中的染色体1-5、和7-22的标签的比率,并且计算CV%(表6)。
表6
针对第一归一化染色体6的第二归一化染色体的确定
具有最低变异性的染色体被确定为在训练集中的合格样品中的染色体5、以及在测试集的合格样品中的染色体3。
选择染色体5作为第二归一化染色体以用于验证使用第一归一化染色体6对针对染色体X的非整倍性(例如单体性X)的确定后,针对各测试样品计算针对染色体6/染色体5的染色体剂量。使用如在训练集1的合格样品中确定的针对染色体6/染色体5的平均染色体剂量0.954309±0.003149(均值±S.D),确定针对各测试样品的NCV。
图7示出了在所有测试样品中均不存在针对第二归一化染色体5的非整倍性,由此验证了使用染色体6作为第一归一化染色体对存在或不存在染色体X非整倍性的确定。
这些数据表明该方法可以用于确定罕见的非整倍性(例如三体性9),以及该方法可以用于通过用第二归一化染色体对第一归一化染色体进行归一化来验证存在或不存在针对感兴趣的染色体的非整倍性的确定结果。第一归一化染色体的归一化通过证实存在或不存在针对第一归一化染色体的非整倍性,以及在第一或第二归一化染色体中确定存在或不存在非整倍性来验证第一结果。
实例3
使用针对感兴趣的染色体的至少两个归一化染色体来确定并且验证染色体非整倍性
为了证明染色体非整倍性的确定可以通过使用针对感兴趣的染色体的第一和第二归一化染色体来验证,使用染色体10和染色体14作为针对感兴趣的染色体21的第二和第三归一化染色体,计算使用染色体9作为第一归一化染色体计算的实例1A中针对染色体21的染色体剂量。
图8A示出了针对在测试集1中的48个样品的NCV的绘图,这些NCV是使用在训练集1的合格样品中的相应染色体剂量的均值和S.D.计算的。在训练集1中的针对染色体21的染色体剂量的平均CV%提供于表7中。
表7
针对感兴趣的染色体染色体21的第二归一化染色体的确定
图8A中用箭头表明在图3中识别的测试样品具有在-5与-6 NCV之间的异常低的NCV,并且在使用染色体9作为第一归一化染色体时已被正确地归类为针对染色体21的二倍体。除使用染色体9作为第一归一化染色体以外,使用染色体10以及使用染色体14作为另外的归一化染色体,在测试集1的所有测试样品中确定存在或不存在三体性21。针对第二归一化染色体10使用平均值0.259070±0.002823 S.D.,并且针对第二归一化染色体14使用平均值0.409420±00.4965 S.D.来对应地计算图8B和8C中示出的NCV。
图8B和C中示出的数据示出了先前在染色体9被用作第一归一化染色体(图3和8A)时被归类为针对染色体21的二倍体的样品在染色体10(图8B)或染色体14(图8C)被用作归一化染色体时被证实为针对染色体21的二倍体。
因此,确定存在或不存在染色体非整倍性可以通过使用至少两个不同染色体作为针对感兴趣的染色体的归一化染色体来进行验证。
实例4
在针对第一归一化染色体8的第二归一化染色体中确定染色体非整倍性
为了证明除确定如实例1和2中确定的不同于三体性9的罕见的染色体异常的存在以外,从第二训练集和第二测试集获得序列信息,并且如上所述计算针对染色体1-22各自的针对所有染色体剂量的NCV。
使用染色体8作为第一归一化染色体,进行在来自测试集2的样品中存在或不存在涉及染色体18的非整倍性的确定。为了验证在测试样品中存在或不存在三体性18的确定,针对各其他染色体计算针对染色体8的染色体剂量,即作为被映射到染色体8与在训练集2中的各合格样品(正常样品)、和在测试集2中的各合格样品中的染色体1-7、和9-22的标签的比率,并且计算CV%(表8)。
表8
针对第一归一化染色体8的第二归一化染色体的确定
具有最低变异性的染色体被确定为在来自训练集和测试集两个集的合格样品中的染色体2,并且被用作第二归一化染色体用于验证存在或不存在染色体18的非整倍性的确定。使用第一归一化染色体8,针对各测试样品计算针对染色体8/染色体2的染色体剂量。使用如在训练集2的合格样品中确定的针对染色体8/染色体2的平均染色体剂量0.601163±0.002408(均值±S.D),确定针对各测试样品的NCV(图9A)。图9A示出了使用第一归一化染色体8针对T18分析的在测试样品中的非整倍性。在使用染色体2作为第二归一化染色体时针对染色体8剂量的NCV异常低(约-10),表明在测试样品中存在针对染色体2的非整倍性。为了验证非整倍性在于染色体2而非染色体8,使用如在训练集2的合格样品中确定的针对染色体8/染色体7的平均染色体剂量0.953953±0.006302(均值±S.D),确定针对各测试样品的NCV(图9B)。图9B示出了在染色体7被用作第二归一化染色体来计算针对第一归一化染色体8的剂量和NCV时,测试样品都不包含非整倍体染色体8。
这些数据证实了该方法可以用于确定罕见的非整倍性,以及该方法可以用于验证存在或不存在非整倍性的确定结果,即通过确定第一归一化染色体(其被用作用于计算感兴趣的染色体剂量的分子)自身不以畸形的拷贝数存在,即其不是非整倍体染色体。如实例2和3中所示,存在或不存在非整倍性的确定可以通过使用至少两个不同的归一化染色体来进行。在计算针对感兴趣的染色体的染色体剂量和NCV,以及比较结果以确定相同结果时,不同的归一化染色体可以被用作独立的分子。可替代地,两个不同的归一化染色体中的第一个可以用于计算针对感兴趣的染色体的剂量和NCV,并且第二归一化染色体可以用于计算第一归一化染色体的剂量和NCV,以验证第一归一化染色体没有非整倍性。
实例5
确定第一和第二归一化染色体用于确定染色体非整倍性
为了识别针对染色体1-2、X以及Y各自的归一化染色体,通过对来自训练集1、测试集1、以及训练集2中的每一个的所有(即合格和受影响的)样品进行测序所获得的测序信息被用于使用如先前实例中所述的所有染色体计算针对各染色体的NCV百分比。
表9中展示的数据提供了针对所有1-22、X以及Y染色体中的每一个的四个归一化染色体,这四个归一化染色体被确定为在所提供的3个样品集中具有针对对应剂量最低的CV。
提供具有最低的四个CV%的归一化染色体。针对染色体13的第二最低变异性被确定为由针对染色体2-6的染色体剂量的总和的平均值产生。在使用针对染色体2-6的染色体剂量的总和的平均值时,针对染色体Y的染色体剂量变异性是最小的。
表9
针对所有染色体的归一化染色体
基于这些结果,无论第二归一化染色体是针对感兴趣的染色体的两个所选归一化染色体中的一个,或第二归一化染色体是针对第一归一化染色体(它是针对感兴趣的染色体的第一归一化染色体)的归一化染色体,都可以选择归一化染色体。
虽然已经在此展示和描述了本发明的优选实施方案,对于本领域普通技术人员而言显而易见的是此类实施方案仅是以举例的方式在此提供的。本领域普通技术人员此刻将会想到众多的1变体、改变、和替代而无需背离本发明。应理解的是,在实施本发明时可以利用对在此描述的本发明的这些实施方案的多个不同的替代方案。在此的意图是用以下权利要求来定义本发明的范围并且在这些权利要求的范围内的方法和结构以及他们的等效物由此覆盖在内。
Claims (15)
1.一种用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在胎儿染色体非整倍性的方法,所述方法包括:
(a)获得针对在所述样品中所述胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;
(b)使用所述序列标签的数目来计算针对所述感兴趣的染色体的一个第一归一化值和一个第二归一化值;并且
(c)将针对所述感兴趣的染色体的所述第一归一化值与一个第一阈值进行比较并且将针对所述感兴趣的染色体的所述第二归一化值与一个第二阈值进行比较,以确定在所述样品中存在或不存在一种胎儿非整倍性。
2.如权利要求1所述的方法,其中针对所述感兴趣的染色体的所述第一归一化值是一个第一染色体剂量,所述第一染色体剂量是针对所述感兴趣的染色体的序列标签的数目与一个第一归一化染色体的比率,并且其中针对所述感兴趣的染色体的所述第二归一化值是一个第二染色体剂量,所述第二染色体剂量是针对所述感兴趣的染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
3.一种用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在胎儿染色体非整倍性的方法,所述方法包括:
(a)获得针对在所述样品中所述胎儿和母体核酸的序列信息,以便识别针对一个感兴趣的染色体的多个序列标签的一个数目以及针对至少两个归一化染色体的多个序列标签的一个数目;
(b)使用针对所述感兴趣的染色体的所述序列标签的数目以及针对一个第一归一化染色体的序列标签的数目来确定针对所述感兴趣的染色体的一个第一归一化值;并且使用针对所述第一归一化染色体的所述序列标签的数目以及针对一个第二归一化染色体的序列标签的数目来确定针对所述第一归一化染色体的一个第二归一化值;
(c)将针对所述感兴趣的染色体的所述第一归一化值与一个第一阈值进行比较并且将针对所述第一归一化染色体的所述第二归一化值与一个第二阈值进行比较,以确定在所述样品中存在或不存在一种胎儿非整倍性。
4.如权利要求3所述的方法,其中针对所述感兴趣的染色体的所述第一归一化值是一个第一染色体剂量,所述第一染色体剂量是针对所述感兴趣的染色体的序列标签的数目与针对一个第一归一化染色体的序列标签的数目的比率,并且其中针对所述感兴趣的染色体的所述第二归一化值是一个第二染色体剂量,所述第二染色体剂量是所述第一归一化染色体的序列标签的数目与针对一个第二归一化染色体的序列标签的数目的比率。
6.如权利要求1到5中任何一项所述的方法,其中:
针对染色体21的所述归一化染色体是选自染色体9、11、14、以及1;
针对染色体18的所述归一化染色体是选自染色体8、3、2、以及6;
针对染色体13的所述归一化染色体是选自染色体4、染色体2-6的群组、染色体5、以及染色体6;
针对染色体X的所述归一化染色体是选自染色体6、5、13、以及3;
针对染色体1的所述归一化染色体是选自染色体10、11、9、以及15;
针对染色体2的所述归一化染色体是选自染色体8、7、12、以及14;
针对染色体3的所述归一化染色体是选自染色体6、5、8、以及18;
针对染色体4的所述归一化染色体是选自染色体3、5、6、以及13;
针对染色体5的所述归一化染色体是选自染色体6、3、8、以及18;
针对染色体6的所述归一化染色体是选自染色体5、3、8、以及18;
针对染色体7的所述归一化染色体是选自染色体12、2、14、以及8;
针对染色体8的所述归一化染色体是选自染色体2、7、12、以及3;
针对染色体9的所述归一化染色体是选自染色体11、10、1、以及14;
针对染色体10的所述归一化染色体是选自染色体1、11、9、以及15;
针对染色体11的所述归一化染色体是选自染色体1、10、9、以及15;
针对染色体12的所述归一化染色体是选自染色体7、14、2、以及8;
针对染色体14的所述归一化染色体是选自染色体12、7、2、以及9;
针对染色体15的所述归一化染色体是选自染色体1、10、11、以及9;
针对染色体16的所述归一化染色体是选自染色体20、17、15、以及1;
针对染色体17的所述归一化染色体是选自染色体16、20、19、以及22;
针对染色体19的所述归一化染色体是选自22、17、16、以及20;
针对染色体20的所述归一化染色体是选自染色体16、17、15、以及1;并且
针对染色体22的所述归一化染色体是选自染色体19、17、16、以及20。
7.如权利要求1到6中任何一项所述的方法,其中确定了至少两种不同的胎儿染色体非整倍性的存在或不存在。
8.如权利要求7所述的方法,其中:
(i)所述方法包括针对至少两个感兴趣的染色体重复如权利要求1或权利要求2所述的方法来确定存在或不存在所述不同的胎儿染色体非整倍性;或
(ii)所述方法包括针对至少两个感兴趣的染色体重复如权利要求3或权利要求4所述的方法来确定存在或不存在所述不同的胎儿染色体非整倍性;或
(iii)所述方法包括针对至少两个感兴趣的染色体重复如权利要求5所述的方法。
9.如权利要求7或权利要求8所述的方法,其中该方法包括针对所有染色体重复如权利要求1到5中任何一项所述的方法来确定存在或不存在不同的胎儿染色体非整倍性。
10.如权利要求1到6中任何一项所述的方法,其中所述胎儿染色体非整倍性是选自T21、T13、T18、以及单体性X;或如权利要求7到9中任何一项所述的方法,其中所述不同的胎儿染色体非整倍性是选自T21、T13、T18、以及单体性X。
11.如以上权利要求中任何一项所述的方法,其中:
所述母体样品是从一位孕妇获得的;
所述母体样品是一种生物学流体样品;
所述母体样品是一个血浆样品;和/或
所述核酸分子是cfDNA分子。
12.如以上权利要求中任何一项所述的方法,其中获得针对在该样品中的这些胎儿和母体核酸的序列信息包括对在该样品中的胎儿和母体核酸分子进行测序。
13.如权利要求12所述的方法,其中:
获得所述序列信息包括下一代测序(NGS);
获得所述序列信息包括使用多个可逆染料终止子进行合成法测序;
获得所述序列信息包括连接法测序;或
获得所述序列信息包括单分子测序。
14.如以上权利要求中任何一项所述的方法,其中所述染色体非整倍性是一种部分的或完整的染色体非整倍性。
15.如以上权利要求中任何一项所述的方法,其中所述母体测试样品是从一位孕妇获得的血浆样品,并且所述核酸分子是cfDNA分子。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2011/032554 WO2012141712A1 (en) | 2011-04-14 | 2011-04-14 | Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102985561A true CN102985561A (zh) | 2013-03-20 |
CN102985561B CN102985561B (zh) | 2015-04-01 |
Family
ID=44625975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180022971.0A Active CN102985561B (zh) | 2011-04-14 | 2011-04-14 | 用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN102985561B (zh) |
AU (1) | AU2011365507A1 (zh) |
WO (1) | WO2012141712A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016045106A1 (zh) * | 2014-09-26 | 2016-03-31 | 深圳华大基因股份有限公司 | 单细胞染色体的cnv分析方法和检测装置 |
CN105814574A (zh) * | 2013-10-04 | 2016-07-27 | 塞昆纳姆股份有限公司 | 遗传变异的非侵入性评估的方法和过程 |
CN105830077A (zh) * | 2013-10-21 | 2016-08-03 | 维里纳塔健康公司 | 用于在确定拷贝数变异中改善检测的灵敏度的方法 |
WO2016176847A1 (zh) * | 2015-05-06 | 2016-11-10 | 安诺优达基因科技(北京)有限公司 | 检测染色体非整倍性的试剂盒、装置和方法 |
CN107841543A (zh) * | 2012-04-06 | 2018-03-27 | 香港中文大学 | 通过使用靶向大规模并行测序的等位基因比率分析进行的胎儿三体性的非侵入性产前诊断 |
CN109971852A (zh) * | 2014-04-21 | 2019-07-05 | 纳特拉公司 | 检测染色体片段中的突变和倍性 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10900080B2 (en) | 2011-02-24 | 2021-01-26 | The Chinese University Of Hong Kong | Molecular testing of multiple pregnancies |
GB2484764B (en) | 2011-04-14 | 2012-09-05 | Verinata Health Inc | Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies |
ES2775213T3 (es) * | 2013-06-13 | 2020-07-24 | Ariosa Diagnostics Inc | Análisis estadístico para la determinación no invasiva de aneuploidías de los cromosomas sexuales |
AU2016321204B2 (en) | 2015-09-08 | 2022-12-01 | Cold Spring Harbor Laboratory | Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010033578A2 (en) * | 2008-09-20 | 2010-03-25 | The Board Of Trustees Of The Leland Stanford Junior University | Noninvasive diagnosis of fetal aneuploidy by sequencing |
US20100216151A1 (en) * | 2004-02-27 | 2010-08-26 | Helicos Biosciences Corporation | Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100216153A1 (en) * | 2004-02-27 | 2010-08-26 | Helicos Biosciences Corporation | Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities |
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
CA2701726A1 (en) | 2007-10-04 | 2009-04-09 | Halcyon Molecular | Sequencing nucleic acid polymers with electron microscopy |
US20110245085A1 (en) * | 2010-01-19 | 2011-10-06 | Rava Richard P | Methods for determining copy number variations |
-
2011
- 2011-04-14 WO PCT/US2011/032554 patent/WO2012141712A1/en active Application Filing
- 2011-04-14 CN CN201180022971.0A patent/CN102985561B/zh active Active
- 2011-04-14 AU AU2011365507A patent/AU2011365507A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100216151A1 (en) * | 2004-02-27 | 2010-08-26 | Helicos Biosciences Corporation | Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities |
WO2010033578A2 (en) * | 2008-09-20 | 2010-03-25 | The Board Of Trustees Of The Leland Stanford Junior University | Noninvasive diagnosis of fetal aneuploidy by sequencing |
Non-Patent Citations (1)
Title |
---|
T.CHU ET AL.: "Statistical model for wholt genome sequencing and its application to minimally invasive diagnosis of fetal genetic disease", 《BIOINFORMATICS》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107841543A (zh) * | 2012-04-06 | 2018-03-27 | 香港中文大学 | 通过使用靶向大规模并行测序的等位基因比率分析进行的胎儿三体性的非侵入性产前诊断 |
CN107841543B (zh) * | 2012-04-06 | 2021-12-31 | 香港中文大学 | 通过使用靶向大规模并行测序的等位基因比率分析进行的胎儿三体性的非侵入性产前诊断 |
CN105814574A (zh) * | 2013-10-04 | 2016-07-27 | 塞昆纳姆股份有限公司 | 遗传变异的非侵入性评估的方法和过程 |
CN105830077A (zh) * | 2013-10-21 | 2016-08-03 | 维里纳塔健康公司 | 用于在确定拷贝数变异中改善检测的灵敏度的方法 |
CN105830077B (zh) * | 2013-10-21 | 2019-07-09 | 维里纳塔健康公司 | 用于在确定拷贝数变异中改善检测的灵敏度的方法 |
CN109971852A (zh) * | 2014-04-21 | 2019-07-05 | 纳特拉公司 | 检测染色体片段中的突变和倍性 |
WO2016045106A1 (zh) * | 2014-09-26 | 2016-03-31 | 深圳华大基因股份有限公司 | 单细胞染色体的cnv分析方法和检测装置 |
WO2016176847A1 (zh) * | 2015-05-06 | 2016-11-10 | 安诺优达基因科技(北京)有限公司 | 检测染色体非整倍性的试剂盒、装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2012141712A1 (en) | 2012-10-18 |
CN102985561B (zh) | 2015-04-01 |
AU2011365507A1 (en) | 2013-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210082538A1 (en) | Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies | |
US20220228197A1 (en) | Method for determining copy number variations | |
CN102985561B (zh) | 用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体 | |
US20220106639A1 (en) | Method for determining copy number variations | |
US10837055B2 (en) | Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA | |
JP6161607B2 (ja) | サンプルにおける異なる異数性の有無を決定する方法 | |
KR102184868B1 (ko) | 카피수 변이를 판정하기 위한 dna 단편 크기의 사용 | |
CN105830077B (zh) | 用于在确定拷贝数变异中改善检测的灵敏度的方法 | |
CN110800063A (zh) | 使用无细胞dna片段大小检测肿瘤相关变体 | |
CN103797129A (zh) | 使用多态计数来解析基因组分数 | |
AU2015204302B2 (en) | Method for determining copy number variations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |