CN104884633B - 通过测序少量遗传物质的高通量基因分型 - Google Patents

通过测序少量遗传物质的高通量基因分型 Download PDF

Info

Publication number
CN104884633B
CN104884633B CN201380052261.1A CN201380052261A CN104884633B CN 104884633 B CN104884633 B CN 104884633B CN 201380052261 A CN201380052261 A CN 201380052261A CN 104884633 B CN104884633 B CN 104884633B
Authority
CN
China
Prior art keywords
sequencing
nucleic acid
target nucleic
library
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380052261.1A
Other languages
English (en)
Other versions
CN104884633A (zh
Inventor
J·维美徐
T·富特
F·汉内斯
J·范霍特
G·马埃斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Katholieke Universiteit Leuven
Original Assignee
Katholieke Universiteit Leuven
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=47294342&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN104884633(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Katholieke Universiteit Leuven filed Critical Katholieke Universiteit Leuven
Publication of CN104884633A publication Critical patent/CN104884633A/zh
Application granted granted Critical
Publication of CN104884633B publication Critical patent/CN104884633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种用于分析以少量存在的靶核酸的方法。特别的是,该方法包括下列步骤:i.提供样品,其中靶核酸以少量存在,ii.通过如下方法生成所述靶核酸的简化代表性文库,所述方法包括:使所述靶核酸片段化;连接衔接子至所述片段;和选择所述衔接子‑连接片段的子集,iii.进行所述简化代表性文库的大规模平行测序,和iv.通过分析由所述测序获得的结果而鉴定在所述靶核酸中的变体。

Description

通过测序少量遗传物质的高通量基因分型
技术领域
本发明涉及提供在含有少量靶核酸的样品,例如相对少的分析物,例如少数或单个细胞或者自由流动的肿瘤或胎儿核酸中,快速发现、验证和评估整个基因组中遗传变异或染色体异常的方法和***,该整个基因组包括性染色体和/或线粒体基因组。
背景技术
人类基因组中遗传变异的最常见形式是一类已知为单核苷酸多态性(SNP)的遗传变异。SNP在许多研究中是连接序列变异和表型改变的重要标志物。因此,SNP的鉴定也被称为SNP分型,是在分子诊断中的重要工具,并且其目的是确定不同于参考序列的至少一个碱基的位置。基因分型是针对个体的等位基因鉴别的过程。基因型典型地是使用从数以千计的细胞中提取的DNA来鉴别的。
相对于使用从大量细胞中提取的DNA,最近,技术已经发展到允许少量分析物的高容量、低成本的全基因组基因分型,如单个细胞或有限量的细胞。由于可用DNA的小量(对于正常二倍体人细胞是~7pg或对于单倍体细胞是~3.3pg),单个细胞或有限量细胞的SNP-和基因-分型是艰巨的任务。为了克服起始物质的这种小量,广泛的全基因组扩增(WGA)通常在进一步的下游分析之前实施。已经描述了不同的WGA方法,并且其基于多重置换扩增(MDA)(例如Genomiphi和Repli-G试剂盒)或基于PCR的全基因组扩增方法(例如GenomePlex)。在该扩增之后,通过作为本领域已知的基于“SNP芯片”微阵列的平台而实现成功的基因分型。这些平台需要基因组序列和变异性的大量的现有技术知识,并且一旦设计完成就是仅仅适用于那些目标可变核苷酸位点的。该方法引入实质性确认偏倚,并且固有地排除对稀有的或人群特异性的变体的检测或者其在高度不同的物种中的应用。
新型的测序技术通过高通量平行测序(即下一代测序或NGS)能够在全基因组水平评估数万个靶点的变体,高通量平行测序能够快速全基因组测序。NGS通常产生是传统的Sanger测序的几个数量级高的数据。为了检索来自NGS研究的SNP-和/或基因型数据,需要数据的广泛生物信息学/统计学解释,其中包括用于碱基检出和基因组比对的算法,随后是用于SNP鉴定和/或基因型判定的工具。除了全基因组扩增,部分基因组扩增(PGA)有时被优选用于促进某些目的DNA片段(例如基因或外显子的集合,线粒体基因组,等等)的富集。已经报道全基因组和靶向扩增策略与高通量大规模平行测序的效果相关。
近期,已经从完整的基因组和捕获外显子组文库中实现单个细胞测序,并且由此,在不同的领域中获得了更深的见解,如肿瘤生物学和配子形成。Navin和同事开发了一种基于FACS的方法,以从乳腺癌样品的不同切片分离单独的细胞核,并实施全基因组扩增,随后是大规模平行测序。该WGA产物在足以计算变体拷贝数的低覆盖率(~0,2X)下进行测序。然而,不利的是,他们方法不允许检测单个细胞中的体细胞碱基突变。Xu等人(Cell2012 148(5):886-95)和Hou等人(Cell2012 148(5):873-85)使用口移液法从实体肿瘤和血液肿瘤中分离单独的细胞。扩增之后,高通量单个细胞测序之前进行外显子组捕获,使这两个个研究组能够在复杂的肿瘤中分析体细胞碱基突变的基因全景。可以获得30X至40X的测序深度,但大多数的单个细胞外显子组以5X的最小深度进行测序。为了评估编码区域内真正的体细胞突变,所推定的变体要根据多个标准来过滤,包括在至少3至5个不同的单个细胞样品中存在突变。相比之下,Wang和同事使用一种革命性的微流体***分离单个***细胞和实施平行的样品加工,其中包括全基因组扩增以提高扩增的性能。WGA之后,实施高通量全基因组测序分析,以确定同源重组和基因转变事件以及碱基替换和染色体非整倍体的从头突变率。由于以6至8倍序列覆盖的扩增偏倚,只有30-50%的基因组被代表。此外,Wang等人在多重反应中以较低基因组覆盖测序MDA的单个***细胞以进行非整倍性检测。WO2012108920提供了用于非侵入性产前倍性检出的方法。来自单个细胞的DNA或从孕妇获得的血浆样品中的胎儿DNA,在半巢式多重PCR中使用数百至数千的引物对,用特定目标扩增法(STA)进行扩增。测序扩增子以确定三种染色体的倍性状态。总体上,读取计数信息的完整基因组分析使得能够进行在基因组内大规模拷贝数偏差的全基因组检测,和多路的单个外显子测序使得能够测单个突变。然而迄今为止,从单个细胞的高通量大规模测序数据中没有实现准确的SNP-检出。
此外缺乏从含有有限量DNA的样品的少量分析物中实现高通量大规模测序的方法,现有技术的方法也具有若干缺点。例如,现有技术的方法需要SNP阵列或多重引物组的开发和设计。在每个实例中,这些方法需要基因组的详细知识,大量的时间和计算工作量和一些试错运行和优化,以便应用该方法到新基因组中。此外,用户需要获得昂贵的阵列和引物/探针以及该方法需要很长的时间实施,因此从样品至结果经常需要好几天时间。此外,现有技术的方法不允许一次进行若干个样品的高通量分析,因为阵列不允许大量的样品同时被检测和多重PCR分析,例如在WO2012108920中所述,不允许增加可同时运行的测定数量。与此相反,本发明提供了一种用于对包含少量目标DNA的样品进行测序的简单方法,其是很容易转移应用到其它的基因组(例如未测序或部分测序的基因组),允许同时进行高通量分析和多个样品测序,该方法是低运营时间和低成本的,并且不要求昂贵的消耗品(如阵列或数千个特异性引物组)。根据本发明的方法产生简化代表性文库可以在大约3-6h内完成,而下一代测序允许在约2-4小时内完成测序(例如使用离子流平台)。由此,结果可以在约5-10h获得,这与往往需要多天的现有技术的方法相比快得多。尤其是在植入前诊断中,这样的时间减少是一个关键性优势。
考虑到测序和装配完整基因组的相对高的成本和复杂性,已经开发了若干种策略,使来源于仅部分测序基因组的迅速和具有成本效益的全基因组发现和遗传变异的基因分型(SNP,INDEL,CNV)。截至目前,若干种新的方法已经被开发,以减少测序工作量并限制筛选到几千个单核苷酸多态性(SNP),其与全基因组测序或偏倚的SNP芯片分析相比具有高度降低的成本。这些方法已经旨在构建简化代表性文库(reduced representationlibraries或RRL)以降低测序前的基因组的复杂性,通过(1)富集基因组的子集,要么通过捕获/靶向已知片段,或者(2)通过经由限制性内切酶消化的高度重复性的、大型复杂片段的移除。后一种方法的实例包括多态性序列的复杂性降低(CRoPS),复用鸟枪基因分型(multiplexed shotgun genotyping),限制性位点相关的DNA测序(RAD-seq)和基于测序的基因分型或GBS。所有的方法都是基于一个简单和灵活的限制性内切酶消化和衔接子连接,接着通过深度测序,特别是用于不具有参考基因组的那些物种。
所述基于测序的基因分型(GBS)方法是简单、快速、高度特异性和可重复性的方法,并且允许访问序列捕获方法无法进入的基因组区域。在缺乏完整基因组序列的物种中,GBS允许在样品基因分型的过程中构建参考图谱,而基因组可得的物种可以从附加的序列信息极大地受益以改善除外显子组之外的新的多态性的发现。GBS是特别有用的,因为它使我们将查询的基因组区域减少到可测量数量的基因座,取决于面对的应用,该基因座典型地从从数千个至十万个。
RAD-tag测序是还例如公开在EP 1885882中,而CROPS技术被描述于van Orsouw等人(Plos One 2(11):e1172.doi:10.1371/journal.pone.0001172)中。
发明简述
仍然需要通过对少量分析物的测序而进行基因分型的改善***和方法,少量分析物如,例如单个细胞,有限量的细胞或含有仅有限可用量的目的遗传物质的样品。
本发明的一个一般目的是提供通过对少量分析物的测序而进行基因检测(genetic testing)的可替代***和方法,少量分析物如单个细胞,双细胞,少数细胞或含有有限量的目的遗传物质的样品。
本发明的一个目的是提供通过单个细胞的测序而进行基因分型和/或基因检测的可替代***和方法。
本发明的另一个目的是提供通过对少数细胞的测序而进行基因分型和/或基因检测的可替代***和方法。如下文进一步详述,少数细胞相当于样品中含有最多30个靶细胞,特别是一个或两个靶细胞。备选地,细胞的数目是基于样品中存在的目的遗传物质的量,并且在本发明的上下文中对应于这样的样品,其中目的遗传物质以100pg或更低的量存在。
本发明的又一个目的是提供通过对样品测序而进行基因分型和/或基因检测的备选***和方法,该样品包含少量的靶核酸,也被称为目的遗传物质。
通过根据本发明的独立权利要求的方法和手段可以实现这个目的。从属权利要求涉及优选的实施方案。
在一个方面,本发明提供了用于少量分析物基因检测的方法,该方法包括以下步骤:
i.分离至少一种小分析物,
ii.通过对在所述少量分析物中存在的目的遗传物质的简化代表性文库的测序,进行大规模平行(全基因组)的遗传多态性分型,
iii.用于变体发现,基因分型和/或单体型分型。
在要求准确和效率和在小的时间框架内的输出递送的程序中,诸如例如在植入前遗传学诊断,本发明的方法是特别有利的。优选地,小分析物是如遗传物质或含有遗传物质的细胞的物理物质。更优选地,分析物是在植入前遗传学诊断或筛查中使用的分析物。分析物可以是单个细胞,双细胞,少数细胞或仅仅少量的核酸。因为从少数或单个细胞获得的基因DNA的量是有限的。在一些实施方案中,从分析物中获得遗传物质的步骤可能需要在测序之前扩增。
从而,本发明还提供了用于小分析物基因检测的方法,该方法包括以下步骤:
i.分离至少一种小分析物,
ii.扩增在所述少量分析物中存在的遗传物质的DNA片段以形成扩增产物,
iv.通过对所述扩增产物的简化代表性文库的测序,进行大规模平行(全基因组)的遗传多态性分型,
v.应用于变体的发现,基因分型和/或单体型分型。
在该分析物是细胞(单个或多个)的情况下,本发明的方法包括裂解分离细胞以释放核酸(例如,DNA或RNA)的额外步骤。
因此,本发明还提供用于少量分析物基因测试的方法,该方法包括以下步骤:
i.分离至少一种小分析物,
ii.扩增所述遗传物质的DNA片段以形成扩增产物,
iv.通过对所述扩增产物的简化代表性文库的测序,进行大规模平行(全基因组)的遗传多态性分型,
v.应用于变体的发现,基因分型和/或单体型分型。
替代细胞,分析物可以简单地是少量的遗传物质,例如诸如在母体液体(例如血液)中胎儿DNA。
因此,在一个相关方面中,本发明提供用于少量遗传物质的基因分型和/或单体型分型的方法,该方法包括以下步骤:
i.提供少量的遗传物质,
ii.扩增遗传物质的DNA片段,
iii.通过对所述扩增产物的简化代表性文库的测序,进行大规模平行(全基因组)的遗传多态性分型,
iv.应用于变体的发现,基因分型和/或单体型分型。
在特定的实施方案中,本发明提供用于单个细胞基因分型和/或单体型分型的方法,该方法包括以下步骤:
i.分离和裂解单个细胞,
ii.扩增该单个细胞的DNA片段,
iii.通过对所述扩增产物的简化代表性文库的测序,进行大规模平行(全基因组)的遗传多态性分型(基因分型),
iv.用于变体的发现,基因分型和/或单体型分型的流水线处理(pipeline)。
在另一个特定的实施方案中,本发明提供用于双细胞基因分型和/或单体型分型的方法,该方法包括以下步骤:
i.分离和裂解两个细胞,
ii.对于每个细胞,扩增该单个细胞的DNA片段,
iii.对于每个细胞,通过对所述单个细胞扩增产物的简化代表性文库的深度测序,进行大规模平行(全基因组)的遗传多态性分型(基因分型),
iv.生成由两个分别基因分型的单个细胞之间遗传多态性检出一致所组成的虚拟基因型,
v.重构所述虚拟基因型的单体型分型或所述虚拟基因型的选择,
iv.用于变体的发现,基因分型和/或单体型分型的流水线处理。
在一个备选的实施方案中,本发明提供了用于至少一个细胞的基因分型和/或单体型分型的方法,该方法包括以下步骤:
i.分离和裂解至少一个细胞,
ii.扩增至少细胞的DNA片段,
iii.通过对所述扩增产物的简化代表性文库的深度测序,进行大规模平行(全基因组)的遗传多态性分型(基因分型),
iv.用于变体的发现,基因分型和/或单体型分型的流水线处理。
在又一个特定的实施方案中,本发明提供用于靶核酸的分析的方法,所述方法包括以下步骤:
i.提供样品,其中靶核酸以少量存在,
ii.生成所述靶核酸的简化代表性文库,
iii.进行所述简化代表性文库的大规模平行测序,和
iv.通过分析由所述测序获得的结果而鉴定在所述靶核酸中的变体。
在特定的实施方案中,生成简化代表性文库进一步包括全基因组扩增。因此,在一个特定的实施方案中,本发明提供用于靶核酸的分析的方法,所述方法包括以下步骤:
i.提供样品,其中靶核酸以少量存在,
ii.可选地扩增所述靶核酸,
iii.生成所述靶核酸的简化代表性文库,
iv.进行所述简化代表性文库的大规模平行测序,和
v.通过分析由所述测序获得的结果而鉴定在所述靶核酸中的变体。
在一个优选的实施方案中,本发明的方法适用于全基因组规模。因此,在一个特定的实施方案中,本发明提供用于靶核酸的全基因组分析的方法,该方法包括以下步骤:
i.提供样品,其中靶核酸以少量存在,
ii.可选地扩增所述靶核酸,
iii.生成所述靶核酸的全基因组的简化代表性文库,
iv.进行所述简化代表性文库的大规模平行测序,和
v.通过分析由所述测序获得的结果而全基因组鉴定在所述靶核酸中的变体。
在一个特定的实施方案中,在生成简化代表性文库之前,扩增所述靶核酸。在另一个特定的实施方案中,简化代表性文库的生成包括扩增所述靶核酸的子集。
在优选的实施方案中,扩增是在整个基因组中进行的。全基因组扩增(WGA)贯穿用于分析的全部基因中扩增单核苷酸多态性(SNP)、突变和变体拷贝数目。已经描述了一些WGA的技术,包括连接介导的PCR(LM-PCR),降解寡核苷酸引物的PCR(DOP-PCR)和多重置换扩增(MDA)。在一个特定的实施方案中,本发明的方法包括全基因组扩增(WGA)或靶核酸。
在本发明的另一个优选实施方案中,扩增可能使用全基因组多重置换扩增或任何全基因组扩增方法而实施。
在本发明的优选实施方案中,该方法进一步可能包括构建扩增产物的简化代表性文库,用于大规模平行测序和随后使用生物信息学和统计学而应用于变体发现、基因分型和/或单体型分型。
在一个特定的实施方案中,通过如下方法生成简化代表性文库,该方法包括使所述靶核酸片段化,连接衔接子到所述片段和选择所述衔接子-连接片段的子集。在进一步的特定实施方案中,使所述靶核酸片段化包括用一种或多种限制性内切酶消化所述靶核酸。在另一个进一步的实施方案中,使所述靶核酸片段化包括物理剪切,例如使用超声波。一个以上的不同的衔接子可以用于连接到所述片段。在一个特定的实施方案中,使用退火到所述衔接子的引物而进一步扩增所述衔接子-连接片段。在另一个特定的实施方案中,选择衔接子-连接片段的子集是基于所述片段的尺寸。在进一步的特定实施方案中,选择衔接子-连接片段的子集包括通过PCR扩增的尺寸选择。在另一个实施方案中,在分离简化代表性文库期间,例如使用PCR纯化方法,实施尺寸选择。
因此,在一个优选的实施方案中,本发明提供用于靶核酸的分析的方法,所述方法包括以下步骤:
i.提供样品,其中靶核酸以少量存在,
ii.通过使用包括如下的方法生成所述靶核酸的简化代表性文库
*使所述靶核酸片段化;
*连接衔接子至所述片段;和
*选择所述衔接子-连接片段的子集,
iii.进行所述简化代表性文库的大规模平行测序,和
iv.通过分析由所述测序获得的结果而鉴定在所述靶核酸中的变体。
在一个特定的实施方案中,本发明的方法进一步包括基于在所述靶核酸中鉴定的变体而构建基因型和/或单体型分型。在另一个特定的实施方案中,本发明的方法进一步包括基于在所述靶核酸中鉴定的变体而鉴定所述样品中的基因畸变。
在另一个特定的实施方案中,选择衔接子-连接片段的子集包括使用选择性引物的扩增反应。特别的是,所述选择性引物含有在其3′末端的1至5个选择性核苷酸。使用选择性引物的扩增仅仅扩增所述衔接子-连接片段的子集,即其中选择性引物以足够的严格性与其杂交以允许其延伸的片段。在另一个特定的实施方案中,所述选择性引物含有在3′末端的从1至3个,更特别的是2个选择性核苷酸。在另一个特定的实施方案中,所述选择性引物含有衔接子区域和选择性区域。所述衔接子区域与单链的衔接子-连接片段中的衔接子杂交,而所述选择区域由选择性核苷酸组成。与核苷酸杂交的所述选择性核苷酸存在于所述衔接子之间的片段中。在一个特定的实施方案中,所述选择性引物包括从5′到3′的衔接子区,任选的接头区域和选择性区域,其中所述衔接子区域和选择性区域是如上所述。所述接头区域包含从1至50,特别的是1-25,更特别的是1-10个核苷酸。
优选的,通过使用限制性内切酶的至少一种或组合来限制性消化以及随后的衔接子连接和经由PCR-扩增的尺寸选择,或者任何本领域所公知的序列文库简化方法,生成遗传物质扩增产物或至少一个细胞的扩增产物的简化代表性文库。使用片段化或限制性消化的简化代表性文库产生是特别优选的,因为它是不需要特异性引物和/或探针的设计和使用的简单方法。简化代表性方法可以很容易地适用于不同的基因组,即使当具有关于这些基因组有限信息时,不需要现有技术方法中复杂的(引物/探针/阵列)设计考虑和减少固有偏倚。
在本发明的另一个特定实施方式中,序列文库简化方法可以进一步包括外显子组捕获。优选的外显子组捕获可以使用本领域已知的任何的外显子组测序方法或本领域的任何靶向外显子组捕获方法而进行。后者可以是一种有效的策略来选择性地测序基因组的编码区,作为一种更便宜的但是仍然有效的全基因组测序的替代。外显子组是DNA中短的、功能上重要的序列,其代表在基因上被翻译成蛋白质的区域和它们邻侧的非翻译区域(UTR)。UTR通常不包括在外显子组研究中。在人类基因组中有大约180,000个外显子组:这些构成约1%的人体基因组,这相当于大约30万碱基(Mb)的长度。据估计,人类基因组的蛋白编码区域构成约85%的致病突变。在一个优选的实施方案中,本发明的方法不包括外显子组捕获。在另一个特定的实施方案中,本发明的方法不包括亚硫酸氢盐转化。
已经发现,在与测序相联合的简化代表性文库的生成允许更大的测序深度,同时保留全基因组信息。文库简化的量可以由本领域技术人员根据所希望鉴定的变体数目,从这些变体所希望获得的测序深度,可用的测序基础设施和测序成本而选择。例如,通过使用严格的片段选择可以获得非常大的简化。这种强烈简化的基因组文库能够以最小的工作量进行高深度的测序。然而,它们提供变体的全基因组图谱,其可以被用于例如倍型检出或单体型分型的确定。在全基因组信息应是更高的分辨率可用的实例中,本领域技术人员可以应用测序文库的不太严格简化。在一个特定的实施方案中,文库的简化降低至少5倍的复杂性。在另一个实施方案中至少10倍,特别的是至少50倍,更特别的是至少100倍。在又一个特定的实施方案中,复杂度降低至少200倍,特别的是至少500倍,更特别的是至少1000倍。例如,复杂度降低100倍意味着该简化的基因组文库提供覆盖约1%基因组的片段,从而强烈降低测序工作量,和允许剩余片段的更大深度的测序。然而,因为这些片段被分散在整个基因组中,本发明的方法提供全基因组的变体信息。
在其它优选的实施方案中,所述方法还可以进一步包括简化代表性文库的深度测序的步骤。后者有利地确保了各变体的位置进行具有高冗余度的采样。基于对序列变体中功能性后果的目前理解,对简化代表性文库测序的有力方法有利地具有与基因诊断的临床上相关的潜力。这种方法的目标是鉴别功能性变体,其负责孟德尔和常见的疾病,例如如Miller综合征和阿尔茨海默病,而在保持测序深度的高覆盖率的同时不需要与全基因组测序相关的高费用。
在其它优选的实施方案中,变体检出的流水线处理或变体发现、基因分型和/或单体型分型的应用可以基于在序列读取中对变体等位基因的频率的检测,这与使用序列比对、生物信息学和统计学的流水线处理,从测序和/或扩增的假象相区分。
在优选的实施方案中,变体等位基因的频率可以是罕见的变体等位基因的频率。
优选的,使用参考基因组进行使用序列比对的流水线处理。在一个特定的实施方案中,本发明的方法进一步包括对比鉴定变体和一个参考序列,特别是参考基因组。
在其它优选的实施方案中,所述方法可以进一步包括从检测到的变体等位基因的频率而推断基因型检出的步骤。
在优选的实施方案中,所述方法可以进一步包括至少一个细胞基因型的单体型分型评估和/或预测,优选单个细胞或双细胞的基因型。
优选的,该扩增仅仅扩增部分基因组。
在其它优选的实施方案中,使用多重置换扩增或任何DNA-扩增方法,实施部分基因组扩增(PGA)。优选的,任何PicoPlex,GenomePlex,SurePlex和/或AmpliOne。备选地,可以被使用的可以包括本领域已知的任何DOP-PCR,PEP-PCR,连接-介导的PCR,和/或alu-PCR全基因组扩增方法。
在其它优选的实施方案中,所述方法可以进一步包括使用生物信息学和统计学手段构建PGA-产物文库用于大规模平行测序和随后的基因分型和/或单体型分型。优选的,所述文库是简化的基因组文库。
优选地,生成少量分析物的PGA-产物的简化代表性文库,其中通过使用限制性内切酶的一种或组合的限制性消化以及随后的衔接子连接和通过PCR扩增的尺寸选择,或者有或没有进一步基因组简化方法的任何序列文库制造方法。
在其它优选的实施方案中,所述方法进一步可以包括简化代表性文库的深度测序的步骤,以确保每一个变体的位置进行具有高冗余度的采样。
在本发明的优选实施方案中,变体检出的流水线处理是基于在序列读取中对变体等位基因的频率的检测,使用序列比对、生物信息学和统计学的流水线处理,其可以与测序和/或扩增的假象相区分。
优选的,变体等位基因的频率是罕见的变体等位基因的频率。
在本发明优选的实施方案中,使用参考基因组进行使用序列比对的流水线处理。
在其它优选的实施方案中,所述方法可以进一步包括从检测到的变体等位基因的频率而推测基因型检出的步骤。
在本发明优选的实施方案中,所述方法可以进一步包括至少一个细胞基因型的单体型分型评估和/或预测,优选单个细胞或双细胞的基因型。
在本发明的其它优选的实施方案中,扩增可以涉及来源于至少一个细胞,优选单个细胞的、裂解物中存在的DNA的立即简化代表性文库生产。因此,在本文所提供的特定的实施方案中,少量分析物是单个细胞或者所述单个细胞中存在的DNA或其裂解物。
在本发明的优选实施方案中,在裂解之后,至少一个细胞,优选单个细胞的DNA优选通过使用限制性内切酶的一种或组合进行立即消化和随后的衔接子连接和通过PCR扩增的尺寸选择,或者任何序列文库制造方法和/或进一步的简化方法。
与之相关的是,在本发明的优选实施方案中,提供了用于靶核酸的分析的方法,该方法包括以下步骤:
i.提供样品,其中靶核酸以少量存在;
ii.生成所述靶核酸的简化代表性文库,使用步骤
*使所述靶核酸片段化;
*连接衔接子至所述片段;
*选择所述衔接子-连接片段的子集;
*选择子集的同时或之后,扩增所述子集;
iii.进行所述简化代表性文库的大规模平行测序;和
iv.通过分析由所述测序获得的结果而鉴定在所述靶核酸中的变体。
在一个优选的实施方案中,所述样品的提供和所述靶核酸的片段化之间没有进行扩增。在另一个特定的实施方案中,所述子集的选择与扩增同时进行,例如通过PCR扩增。在又一个优选的实施方案中,产生简化代表性文库包括扩增片段的子集,当结合时,该片段子集仅仅包含部分靶核酸。
任何本领域技术人员已知的方法可以被用于衔接子-连接片段的子集的选择(和任选的扩增)。在一个特定的实施方案中,使用本文之前所描述的选择性引物通过PCR扩增而进行所述选择。在另一个特定的实施方案中,所述PCR扩增包括使用温度谱以优先扩增一定尺寸的片段。例如PCR扩增可以优先扩增小尺寸的碎片。
在本发明的其它优选实施方案中,任何序列文库的产生和/或进一步简化的方法可以是由单个细胞裂解后的DNA产生的扩增子测序文库。
在本发明的其它优选实施方案中,所述方法可以进一步包括对简化代表性文库的深度测序的步骤,以确保每个变***置进行高冗余度的采样。
在本发明优选的实施方案中,变体检出的流水线处理可以基于在序列读取中对变体等位基因的频率的检测,使用例如序列比对、生物信息学和统计学的流水线处理,其与测序和/或扩增的假象相区分。
在本发明的其它优选实施方案中,变体等位基因的频率可以是罕见的变体等位基因的频率。
在本发明优选的实施方案中,使用序列比对的流水线处理是使用参考基因组实施的。
在本发明的其它优选实施方案中,所述方法可以进一步包括从检测到的变体等位基因的频率而推测基因型检出的步骤。
在本发明优选的实施方案中,所述方法可以进一步包括至少一个细胞,优选单个细胞的基因型的单体型分型评估和/或预测。
在本发明优选的实施方案中,通过滚环扩增,扩增可以在基因组的任何所需的部分进行。优选地,滚环扩增可以在环状线粒体DNA上进行。
本申请所描述的方法可以被使用/应用到人和动物细胞上,用于胚胎选择的目的,用于对由具有不同的等位基因构成的细胞所组成的异种组织的遗传研究(例如肿瘤),或用于法医研究。成熟的通用方法具有立即应用的价值,用于例如在诊所体外受精后人类胚胎的植入前遗传学诊断(PGD),或通过可以在单一实验中选择多个(数量性状)基因座的胚胎而进行动物育种项目,或用于由不同等位构成的细胞所组成的异种组织(例如肿瘤)的遗传研究,以及通常需要遗传多态性分型(例如SNP分型或通过DNA测序的遗传变异体检测)或单体型分型数据的所有遗传研究。
另外,本发明基因分型/单体型分型方法的实施方案允许单体型分型多样性驱动的进一步表征,主要是减数***同源重组,也是有丝***重组过程,其在肿瘤发生过程中可能会以升高的频率发生。体细胞内的和体细胞之间的染色体重排改变了同线等位基因的序列,导致原癌基因的潜在活化和肿瘤抑制基因的失活。因此,这样的重组可能引起肿瘤生成,而且还可能有助于肿瘤进展。由于肿瘤中的这种染色体不稳定的细胞是异质性的并且此外肿瘤活组织检查被正常的体细胞所污染。本发明的方法有利地允许获得在肿瘤进展和重组过程中更深入的了解。
因此,本发明的方法适用于任何类型的细胞。优选的细胞是极体,卵裂球,从囊胚或绒毛取样的滋养外胚层细胞。优选的遗传物质包括DNA,更特别的是无细胞的DNA。优选的无细胞胎儿DNA是来源于母体血液,血浆或血清。完整的胎儿细胞和胎儿无细胞核酸(DNA,RNA)两者可以在母体血液中被鉴定。在母体循环中的大部分胎儿无细胞核酸的主要来源于被认为是胎盘细胞的细胞凋亡。如已经上文所提到的,该方法适用于少量这些细胞类型,即在少数细胞中,特别是在一个或两个细胞中。当应用在滋养外胚层时,所述少数细胞可以选自1、2、3、4、5、6、7、8、9、10或更多个细胞;特别是多达50个滋养外胚层细胞。
为了移除相应的至少一个细胞,在***和囊胚阶段的透明带可以通过机械透明带钻孔、酸化Tyrodes溶液或激光而开启。在本发明优选实施方案中,至少一个细胞,优选单个细胞,是人类或动物卵裂球。
在特定的实施方案中,基因检测应用于诊断测试,携带者检测,产前检查,植入前的测试,或预测性和症状前的测试。在这些特定的实施方案中,基因检测有助于帮助患者获得辅助生殖的成功。在另一个特定的实施方案中,本发明的方法应用于新生儿筛查。在又一个特定的实施方案中,本发明的方法应用于法医检测。
在另一个特定的实施方案中,本发明的方法可以应用于确定肿瘤细胞的存在,或用于确定微小残留疾病或疾病的进展。在另一个特定的实施方案中,所述方法可应用于确定肿瘤或癌症的进展风险。在一个特定的实施方案中,本发明的方法可以应用于被怀疑为肿瘤或癌症细胞的一个或多个细胞。在另一个特定的实施方案中,本发明的方法应用于来源于怀疑患有肿瘤或癌症的受试者的流体样品。优选的,所述流体样品是血液,血浆或血清样品。在进一步的实施方案中,本发明的方法应用于无细胞的肿瘤DNA。在另一个优选的实施方案中,本发明的方法应用于环状肿瘤DNA。
在特定的实施方案中,本发明的方法适用于简化代表性测序,并且关于遗传变异的问题是通过对一小组未测序全基因组的全基因组区域的测序而回答的。应用于基因组物质消化的基因组文库简化方法可以使用一个,两个,三个,四个或更多个限制性内切酶。酶的选择可以由所需的标记密度来确定。最经常地,基因组DNA用选择的一种或多种频率切割的限制性内切酶进行消化。产生的限制性片段按尺寸选择,然后进行测序产生部分而不是全基因组覆盖。
测序可以应用鸟枪测序法或靶向测序法。具体而言,测序是指大规模平行测序,也被称为下一代测序。优选的测序方法包括焦磷酸测序(454),离子流(Ion Torrent)测序,Illumina染色测序,诸如此类。
根据本发明实施方案的方法可以如下实现,在计算机上作为计算机执行方法,或者在专用硬件上,或者以它们的组合。用于根据本发明的方法的可执行代码可以存储在计算机程序产品中。计算机程序产品的实例包括存储装置,光存储装置,集成电路,服务器,网络软件等。硬件可以包括微控制器或处理器等。
在第二个方面,本发明提供了数据载体,其存储根据本发明方法的实施方案的计算机程序产品。术语“数据载体”等同于术语“载体介质”或“计算机可读介质”,并且是指参与提供指令给处理器用于执行的任何介质。这样的介质可以采取许多形式,包括但不限于,非易失性介质,易失性介质,和传输介质。非易失性介质包括,例如,光盘或磁盘,如存储装置,其是大容量存储部分。易失性介质包括动态存储器,例如RAM。计算机可读介质的常见形式包括,例如,软盘,软磁盘,硬盘,磁带,或任何其它磁介质,CD-ROM,任何其它光学介质,打孔卡,纸带,任何具有孔图案的其它物理介质,RAM,PROM,EPROM,FLASH-EPROM,任何其它存储器芯片或盒,如下所述的载波,或者该计算机可以读取的任何其它介质。各种形式的计算机可读介质可以涉及携带一个或多个指令的一个或多个序列至处理器用于执行。例如,指令可以最初携带在远程计算机的磁盘上。远程计算机可以将指令加载到其动态存储器中并且使用调制解调器通过电话线发送指令。计算机***的本地调制解调器可以通话电话线接受数据,并且使用红外发射器将数据转换为红外信号。耦合到总线的红外检测器可以接收在红外信号中携带的数据,并且把数据放置在总线上。所述总线传送数据到主存储器,处理器从主存储器检索到并且执行指令。由主存储器接收的指令可以在由处理器执行之前或之后任选地存储在存储设备上。所述指令还可以通过网络中的载波传送,如LAN,WAN或互联网。传输介质可以采取声波或光波形式,例如在无线电波和红外数据通信期间所生成的形式。传输介质包括同轴电缆,铜线和光纤,包括构成计算机内总线的金属线。
在第三个方面,本发明提供通过网络传输根据本发明的第二个方面的计算机程序产品。
在第四个方面,本发明提供用于单体型分型至少一个细胞的***,从而该***可以包括控制单元,所述控制单元适于:
-分离并裂解所述至少一个细胞,
-扩增至少一个细胞的DNA片段,
-通过深度测序所述扩增产物的简化代表性文库,大规模平行(全基因组)的遗传多态性分型(基因分型),
-提供用于变体发现,基因分型和/或单体型分型的流水线处理。
在一个备选的方面,本发明提供用于单体型分型单个细胞的***,从而该***可以包括控制单元,所述控制单元适于:
-分离并裂解该单个细胞,
-扩增该单个细胞的DNA片段,
-通过深度测序所述扩增产物的简化代表性文库,大规模平行(全基因组)的遗传多态性分型(基因分型),
-提供用于变体发现,基因分型和/或单体型分型的流水线处理。
在又一个方面,本发明提供用于单体型分型双细胞的***,从而该***可以包括控制单元,所述控制单元适于:
-分离并裂解所述两个细胞,
-扩增每个单个细胞的DNA片段,
-对于每个细胞,通过深度测序所述扩增产物的简化代表性文库,来大规模平行(全基因组)遗传多态性分型(基因分型),
-生成由两个分别基因分型的单个细胞之间遗传多态性检出一致所组成的虚拟基因型,
-重构所述虚拟基因型的单体型分型(或所述虚拟基因型的选择)
-提供用于变体发现,基因分型和/或单体型分型的流水线处理。
在一个特定的实施方案中,本发明提供适于执行本发明实施方案的***或装置。所述***或装置可以包括一个或多个控制单元来以控制本发明的方法步骤。此外,本发明提供装置的组合,每个装置适于执行一个或多个本发明的方法步骤。
在另一个特定的实施方案中,本发明提供用于生成测序文库的***,所述***适于接收样品,其中靶核酸是以少量存在的,所述***包括控制单元,所述控制单元控制所述靶核酸的简化代表性测序文库的生成是通过控制
●使所述靶核酸片段化;
●衔接子连接到所述片段;和
●选择所述衔接子-连接片段子集。
在进一步的实施方案中,本发明提供用于生成测序文库的***,所述***包括一个或多个控制单元,其控制:
●包括少量靶核酸的样品的分离;特别是少数细胞的分离;
●根据本发明方法的简化代表性测序文库的生成;特别是
-使所述靶核酸片段化,
-连接衔接子至所述片段,和
-选择所述衔接子-连接片段子集。
在进一步的实施方案中,所述一个或多个控制单元进一步适于控制所述简化代表性测序文库的测序,特别是深度测序。
在另一个特定的实施方案中,本发明提供用于靶核酸的分析的***,所述***适于接收样品,其中靶核酸是少量存在的,所述***包括一个或多个控制单元,所述控制单元控制
●根据本发明方法的所述靶核酸的简化代表性文库的生成,和
●对所述简化代表性文库测序。
在一个特定的实施方案中,本发明提供装置的组合,其包括:
●适于分离少数细胞的细胞分离装置;特别是1至20个细胞;和
●样品处理装置,其适于:
-如本文所述,生成简化代表性文库,和
-进行所述简化代表性文库的大规模平行测序。
此外,本发明提供装置的组合,其包括:
●适于分离少数细胞的细胞分离装置;特别是1至20个细胞;
●适于生成根据本发明方法的简化代表性文库的样品处理装置;和
●大规模平行测序装置。
在优选的实施方案中,本发明有利地提供通过对单个细胞测序(Sc GBS)而用于高通量基因分型的方法。
本发明的实施方案提供通用的方法,其可以用于直接鉴定来自不同基因组的遗传变异,其有利地,与基因组的尺寸和/或GC含量无关,以及无需关注所使用的高通量大规模平行测序的技术来推测基因型和/或单体型。在本发明另外的实施方案中,可以有利地具有不同的应用价值,例如:
(1)在人类或非人类生育诊所中,在体外或体内所生成的植入前胚胎进行植入前基因检测,
(2)在动物育种计划中用于基因组选择的应用,
(3)在基因测试中心分析异种组织,它由具有不同等位基因组成的细胞所构成(例如肿瘤),和
(4)在所有遗传研究中需要用于基因型和/或单体型重构的全基因组遗传变异检测。
本发明的实施方案提供在至少一个细胞,优选单个细胞或少数细胞中的全基因组变体的发现和/或分型,以推测基因型和/或单体型,优选来源于简化代表性测序数据,例如通过使用目前本领域已知的高通量的大规模平行测序技术。与测序平台的设计和化学,人口变异或基因组组成(如SNP阵列)无关,本发明的实施方案有利地提供具有成本效益、快速和通用的策略。样品可以在测序之前汇集,使用不同的衔接子连接的条形码使得这种方法有利的高度可扩展(从低到超深度测序)和具有在诊断上成本效益的适用性。
在本发明实施方案中使用的超深度测序或扩增子测序优选地允许检测极低水平的突变,和PCR扩增DNA的特定靶向区域。该方法优选地用于鉴定癌症样品中低频率体细胞突变或发现稀有的变体。
根据本发明优选的实施方案,该方法可以包括涉及至少一个细胞,优选单个细胞、少数细胞或遗传物质的以下步骤中的至少一个步骤:
1.细胞制备的情况下,所述细胞制备优选地包括:
a.分离至少一个细胞,优选地单个细胞或少数细胞,例如从体外或体内生成的植入前胚胎
b.裂解该细胞
在遗传物质的情况下,不需要细胞制备并且遗传物质是从适当的流体例如血液,血浆或血清中获得。
2.扩增全基因组,优选地使用多重置换扩增或任何(全基因组)扩增方法,其例如可以是基于使用例如(半)随机引物的PCR;或衔接子连接到用于扩增的单个细胞DNA-片段和/或通用引物。
a.在一个可选的步骤中,全基因组扩增可以省略和扩增单个细胞基因组的仅仅所需片段,例如特异性地使用例如一个引物和滚环扩增原理的线粒体序列的扩增。滚环扩增(RCA)是一种形成连环体DNA的独特属性的分子扩增方法,该连环体DNA是由成千上万的初始序列的衔接重复拷贝组成的。有利的是,可以使用RCA检测结合到微阵列表面的低至150个分子。因为RCA的线性动力学,核酸靶分子可以在4个数量级的动态范围内被测定。
这样的部分基因组扩增(PGA)方法有利地已经显著降低了在PGA-产物的大规模平行测序之前的单个细胞基因组的复杂性。
b.在一个可选的步骤中,全基因组扩增(WGA)和部分基因组扩增(PGA),可以省略并且优选地新生单个细胞DNA是优选地立即处理用于GBS。
3.通过消除复杂的基因组结构(例如限制性消化)或通过例如经由部分基因组扩增或包括外显子组的目标序列捕获而富集目的DNA,构建简化代表性文库(RRL),以确保文库的大小和扩增片段复杂性的降低。
a.在一个可选的步骤中,制备RRL优选被省略,并且总的单个细胞扩增产物可以通过大规模平行测序(例如使用一个特定的引物的线粒体序列扩增)而进行分析。
b.在一个可选的步骤中,条形码衔接子序列的连接可以在非扩增的单个细胞DNA片段上立即进行,优选地随后汇集以等摩尔比例的不同样品。
c.文库的聚合酶链式反应(PCR)扩增,优选地至例如200-300碱基对的大小选择片段,优选地避免使用大小选择步骤(例如Caliper Labchip XT,基于凝胶的)。文库的质量控制应优选地在此步骤进行。
4.文库的大规模平行DNA测序(与平台或化学无关)。
5.SNP和/或变体发现的鉴定,优选地根据本发明的实施方案如下进行:参照序列制图或读数的从头本地装配,优选地随后通过使用特异性变体检出算法/工具的遗传标记的基因分型,有利地允许基因型的扩增偏倚估算和可能性计算。
6.重构基因型,优选地用基因组的位置和单独的ID。
在一个可选的步骤中,重建或归咎于单体型,优选地是基于早期的知识或参考数据。
在一个特定的实施方案中,本发明提供用于两个或更多个样品中靶核酸的分析的方法,该方法包括以下步骤:
●提供第一样品,其中靶核酸是少量存在的,
●提供第二样品,其中靶核酸是少量存在的,
●生成所述第一样品中靶核酸的第一简化代表性文库,包括掺入在所述第一简化代表性文库中片段的第一标记,
●生成所述第二样品中靶核酸的第二简化代表性文库,包括掺入在所述第二简化代表性文库中片段的第一标记,
●任选地汇集所述第一和第二简化代表性文库,
●大规模平行测序所述第一和第二简化代表性文库,和
●通过分析由所述测序获得结果而鉴定在所述靶核酸中的变体,其中使用所述第一或第二标记,所述变体被鉴定为存在于所述第一或第二样品中。
有利的是,第一或第二标记的掺入可以很容易地通过使用标记(“条形码”)的衔接子而执行。
定义
本文所用的术语“GBS”是指“通过测序简化代表性文库的基因分型”。
本文所用的术语“直接GBS”是指“通过在细胞裂解之后没有干扰全-或部分-基因组扩增步骤,立即测序从DNA产生的简化代表性文库的基因分型”。
本文所用的术语“小分析物”是指非常少量的分析物。优选的分析物是至少一个细胞,优选少数细胞,双细胞,单个细胞,或无细胞DNA,例如在母体流体中的无细胞胎儿DNA。
本文所用的术语“母体流体”是指母体流体样品,例如血液,血浆或血清样品。
本文所用的术语“基因测试”是指鉴定在染色体,亚染色体的区域,基因或蛋白质中变体(病症,改变)的测试。染色体变体(例如非整倍体),拷贝数变体(CNv),***和缺失(INDEL)和单核苷酸多态性(SNP)是遗传变异的形式。变体的发现,包括非整倍体或倍体的检出,拷贝数变体的检出,基因分型和/或单体型分型,可以帮助确认或排除疑似的遗传性疾病或帮助确定一个人在发展或传递遗传性疾病的几率。这种基因检测可能用于例如新生儿筛查,诊断检测,携带者检测,产前检测,植入前检测,预测性和症状前检测或法医检测。
本文所应用的,变体的发现,变体的检出和变体的鉴别是可以交替应用的。“变体”是指任何遗传多态性,例如,但不限于,SNP,INDEL或CNV。本文所使用的“基因分型”适用于SNP,INDEL或CNV变体分型。
本文所应用的“遗传物质”或“遗传样品”是指染色体、DNA、RNA或它们的亚基。
“非整倍体”是指从正常的染色体组中损失和/或增加个别染色体。在人的体细胞情况下,它是指一个细胞中不包含22对常染色体和一对性染色体。
本文所应用的术语“分离”指的是获得。
本文所应用的“深度测序”是指在高冗余度下的测序。在一个优选的实施方案中,深度测序是指具有至少为1x深度的测序(即代表测序文库中给定核苷酸的读数的平均数量)。在一个优选的实施方案中,深度测序是指至少5x的深度,特别是至少10x,更特别是至少50x。在另一个优选的实施方案中,测序文库中的片段以至少100x的深度,特别是至少200x,更特别地为至少300x进行测序。在一个进一步的实施方案中,进行所谓的超深度测序,是指至少500x,特别是至少750x,更特别是至少100x的测序深度。
从本发明此处的描述可以看出,本发明的方法优选应用于含有少量靶核酸的样品,靶核酸也被称为遗传物质。具体而言,所述目的遗传物质是在一个或少数靶细胞中存在的,或者是作为样品中游离的循环物质。因此,在一个特定的实施方案中,所述样品中含有一个或少数靶细胞。在进一步的实施方案中,所述样品含有一个靶细胞。在另一个实施方案中,所述样品含有少数靶细胞,特别是1至30个,更特别为1至20个靶细胞。例如,1-15,1-10,1-8,1-7,1-6,1-5,1-4,1-3,一个或两个靶细胞。在另一个特定的实施方案中,靶核酸在所述样品中以2ng或更少的量存在,特别是1ng或更少,更特别是0.5ng或更少。在另一个特定的实施方案中,靶核酸在所述样品中以250pg或更少的量存在;特别是200pg或更少;更特别是150pg或更少。在另一个特定的实施方案中,所述靶核酸以100pg或更少的量存在;特别是50pg或更少;更特别是30pg或更少。在另一个特定的实施方案中,所述靶核酸是无细胞的循环核酸。例如,来自母体样品的循环无细胞胎儿DNA,或来自患者样品的循环肿瘤DNA。尽管遗传物质(如母体DNA)是在这些样品中富含的,但目标DNA(如胎儿DNA)仅以非常有限的量存在。在一个特定的实施方案中,靶核酸以流体样品中的无细胞核酸而存在。具体而言,所述无细胞核酸存在于含有额外的(非目标)核酸的流体样品中。在一个特定的实施方案中,所述样品包含目标和非靶核酸的混合物。优选的,所述靶核酸是以所述非靶核酸的0.1至20%的量存在。在另一个特定的实施方案中,所述样品包含目标和非靶核酸的混合物,其中所述靶核酸是以700ng或更少的量存在,特别是500ng或更少,更特别是300ng或更少。在一个进一步的实施方案中,200ng或更少,特别是100ng或更少,更特别是50ng或更少。在又一个实施方案中,所述样品包含无细胞核酸,其中所述的无细胞核酸以如上文所定义的量存在。
在一个特定的实施方案中,提供包含少量的靶核酸的样品,包括分离一个或少数靶细胞。本发明的方法可以进一步包括裂解一个或少数靶细胞。
样品优选从真核有机体中获得,更特别是从哺乳动物中获得。在一个进一步优选的实施方案中,所述样品来自非人类动物(以下也称为动物)来源或人类来源。在一个特定的实施方案中,所述动物是驯养动物或在农业中使用的动物,例如马或牛。在一个进一步的特定实施方案中,所述动物是马。在另一个特定的实施方案中,所述样品是人类来源的。在又一个特定的实施方案中,所述样品是从孕妇获得的。在另一个实施方案中,所述样品是从疑似患有肿瘤或癌症的患者中获得的。在另一个特定的实施方案中,所述细胞是真核细胞,特别是哺乳动物细胞。在一个更特定的实施方案中,所述细胞的来源是如根据如上所述的有关样品来源的优选实施方案中所描述。在另一个特定的所述靶核酸是真核来源的,特别是哺乳动物来源的。在一个更特定的实施方案中,所述靶核酸是是如根据有关样品来源的优选实施方案中所描述的。与此相应的是,在一个优选的实施方案中,所述靶核酸来源于胚胎或胎儿。在另一个优选的实施方案中,所述靶核酸来源于(疑似)癌症或肿瘤细胞。
本文所应用的“全基因组”是指方法被应用于和提供关于全基因组的序列的信息。特别的是,本发明的方法提供关于所有染色体的信息,对于染色体的至少片段存在于样品中。在一个特定的实施方案中,“全基因组”是指整个基因组中关于每100Mb中至少一种变体,特别是在每10Mb中至少一种变体,特别是在每1Mb中至少一种变体的信息。在一个进一步的实施方案中,这意味着在整个基因组中每100Mb的窗口中至少一个变体,特别是每50Mb的窗口中至少一个变体,更特别是每10Mb的窗口中至少一个变体。在另一个特定的实施方案中,全基因组是指关于每1Mb的窗口中至少一个变体的信息。
附图说明
本发明的进一步特征将通过实施例和附图而变得明显,其中:
图1图示了在本发明实施方案中应用的WGA核苷酸-拷贝方法的准确性。
图2:用ApekI限制性消化之后,1个马的基因组文库的尺寸分布。X-轴显示碱基对的片段长度和Y-轴显示荧光单位。在35bp和10380bp的两峰分别是指上游和下游的标记。
图3:在用110bp附近的峰测序之后,1个马的基因组文库的尺寸分布。X-轴显示碱基对的片段长度和Y-轴显示在该特定长度检出片段的数量。
图4:该图显示当使用标准方法与选择性方法对比时,马基因组的复杂性降低的改进。黑色框表示用标准方法测序的平均样品(意味着56个样品的平均值)。透明框表示用选择性方法测序的平均样品。Y-轴显示读取的数目。
图5:聚焦到染色体31上288碱基对特定区域的IGV浏览器快照。上部框表示的染色***置和窗口的基因组的大小。道1显示了通过标准方法测序的56个样品的汇集数据,而道2显示了通过选择性方法测序的56个样品的汇集数据。道3显示ApekI酶的识别位点的位置。在道1和2中的黑条表示存在与参考序列(EquCab2)不同的核苷酸。道1和2上的每个水平条/和斑点是指在一个单独样品中的测序差异。
优选实施方式的详细描述
本发明将针对特定的实施方案和参考具体的附图进行描述,但是本发明不因此受限,而仅由权利要求限定。所描述的附图仅仅是示意性的和非限制性的。在附图中,一些要素的尺寸可能被放大并且用于说明目的而未按比例绘制。其中用在本申请说明书和权利要求书中的术语“包括”,不排除其它要素或步骤。使用不定冠词或定冠词,当涉及单数名词例如“一”或“一个”,“该”时,包括该名词的复数,除非其它有特别的说明。
在权利要求中所使用的术语“包括”,不应该被解释为受限于其后所列出的方式;它不排除其它要素或步骤。因此,“包括方式A和B的***”表述的范围不应当受限于仅由组件A和B组成的***。这意味着相对于本发明,该***的相关的组件是A和B。
再者,说明书和权利要求中的术语第一,第二,第三等,被用于区分相似的要素,而不必需用于描述顺序或时间次序。但是应当理解的是,如此使用的术语在适当的情况下是通用的,并且本文所描述的本发明的实施方案能够使用于本文所描述或图示的其它序列。
在图中,相同的参考数字表示相同的特征;和并且,显示在多于一个的附图中的一个参考数字是指相同的要素。图和下面的详细描述显示通过对单个细胞测序而进行高通量基因分型的特定***和方法。
本发明的实施方案有利的提供了一种方法,其中至少一个单个细胞DNA的分离,有或没有(n/mtDNA)扩增,可以与目标的复杂性降低相组合,所述目标例如单个细胞,DNA产物,基于PCR的扩增和下一代测序,以产生一组标记,用于一个至多个细胞的基因分型和单体型分型完整的基因组或其部分基因组。除了这些步骤的新的组合,本发明的其它实施方案有利地提供了一种新的方法,通过例如生物信息学/统计学方法筛选由任何全-或部分-基因组扩增(分别的,WGA或PGA)或者测序文库的PCR(简化代表性)所产生的假象以及测序方法。
下一代测序(NGS)技术的到来已经革命了生物学家生产,分析和解释数据的方式。虽然NGS平台提供一种经济有效的方法,从单个实验发现全基因组的变体,通过NGS发现的变体因为与各种测序化学相关的高错误率而需要跟进验证,此外单个细胞的分子分析由于少量的可用DNA而是具有挑战性的。有利地,全外显子组测序已经被提议作为与全基因组运行比较的经济实惠的选择,但它仍需要跟进所有的新型外显子组变体的验证。习惯上,一种共识的方法用于克服测序技术、比对的和比对后的变体检测算法所固有的***误差。然而,上述方法确保多重测序化学,多重比对工具,多个变体检出的应用,就时间和金钱方面而言,它们可能对具有有限的信息技术诀窍的个体研究者是不可行的。生物学家往往缺乏处理由NGS运行所产生的巨量数据的必要训练,并且面临着在从用于NGS数据分析的自由使用的分析工具列表中选择的困难。因此,存在着定制NGS数据分析流水线处理以优先保留真正变体的需求,通过最大限度地减少假阳性的发生率和更容易的选择正确的分析工具。为此目的,本发明的实施方案有利的提供可以克服这些缺点的方法,通过提供先进的数据校正方法,产生有效和有力的结果。
此外,当前的单个细胞基因分型的难题,主要是由于单个细胞DNA-扩增方法后的等位基因脱失(drop out)和加入(drop in)和/或优先等位基因扩增偏倚,这样的难题可以通过根据本发明优选实施方案的深度测序而大幅度克服,以保证每一个碱基对以高冗余度进行采样。该方法和相关的生物信息方式的实施方案能够有利地使其鉴定那些(罕见的)变体。
根据本发明实施方案的方法可以包括以下步骤中的至少一个:
(i)分离单个细胞,DNA提取物和全基因组扩增(WGA)。简而言之,当通过采集或流式细胞分离细胞而分离获得单个或多个细胞时,在裂解细胞之后,通过基于多重置换扩增(MDA)的全基因组扩增方法或基于PCR的全基因组扩增而扩增含有DNA和线粒体DNA的细胞核。结果是片段(大小取决于所应用的WGA方法)的集合。这个集合将随后经处理用于通过测序的基因分型(GBS),其中使用限制性内切酶以构建用于高通量大规模平行测序的表达文库(RRL)。在一个可选的步骤中,单个细胞DNA的WGA是可省略的并且单个细胞基因组的仅仅特定的或所需的部分被扩增。这些部分基因组扩增(PGA)方法已经显著地减少大规模平行测序/GBS之前的单个细胞基因组的复杂性。在另一个可选的步骤中,单个细胞DNA的WGA和PGA是可省略的,并且单个细胞DNA在细胞裂解之后立即用于GBS(即直接GBS)的处理。
(ii)在芯片上的消化和酶选择。
限制性内切酶可以优选地基于以下标准而选择:
(1)预测的片段长度/限制性位点的nr,
(2)重复性要素/甲基化位点的覆盖比例,
(3)预测的SNP含量,
(4)酶切的频率,
(5)单个细胞全基因组扩增方法的预测覆盖。
本发明的实施方案有利地提供构建和整合一个基因组的“零覆盖”图谱的方式,即图谱突出那些由单个细胞扩增产物的序列所反复错失的碱基。
用于特定量的碱基而测序的每个单个细胞WGA-文库优选产生在整个参照基因组上序列覆盖广度和深度的WGA-特征模式。例如基于单个细胞PCR的序列反复错过了比多重置换扩增(MDA)的细胞的序列更多的基因组部分,但是当与MDA的细胞的序列相比时,基于单个细PCR的胞序列所覆盖的位点往往覆盖更深,虽然两者都被就相同量的碱基进行了测序。
本发明优选的实施方案提供限制性内切酶的组合,其优选可以被选择以实施双重或多个消化以增加SNP的发现率,并且从而增加基因分型分析的整体敏感性。当此类酶被选择时,消化优选地在WGA样品中制备,随后基于尺寸而选择片段。
(iii)文库构建和DNA测序
随后优选实施所选片段的纯化,随后加入具有(优选)单核苷酸突出端的衔接子。
(iv)SNP的检出(例如鉴定和/或定型)和数据处理
使用根据本发明实施方案的方法的结果有利地证明了对单个细胞WGA产物的测序能够确定WGA-DNA中遗传标记(SNP,Indel,…)的两个等位基因的数字频率。具有的优点是,例如当与使用例如SNP阵列的常规方法相比时,在单个细胞中的SNP可以更准确的分型。实际上,当在SNP阵列上分析时,杂合SNP的一个等位基因的优先扩增将导致例如纯合SNP检出,这是由于在阵列的SNP-探针上这个优先扩增的等位基因的压倒性信号。与之相反的是,在该测序方法中杂合SNP可以被更准确和可信的检出,因为例如数百至数千的序列读取报道优先扩增的等位基因,但是也有少数读取将报道SNP的其它等位基因。因此,这种观察将允许根据本发明实施方案(参见下文)的基因分型算法具有统计学置信的倾向该单个细胞SNP检出至正确的杂合,而不是假的纯合检出。当单个细胞DNA是在没有WGA/PGA干扰下经由PGA或直接GBS而实施时,类似的规则是适用的。虽然核苷酸替换可以在单个细胞WGA序列中被鉴定,WGA-聚合酶在扩增过程中不能准确的复制每一个碱基。这些错误可能被误认为是在细胞基因组中真正的核苷酸替换。为了考察WGA-聚合酶的碱基保真度,碱基的错配频率(具有碱基检出质量≥30)已经被绘制到参考基因组跨越读取的整个长度(具有图谱质量≥30)。引人注目的是,随后的基于单个细胞PCR的WGA测序比与随后的基于单个细胞MDA或非WGA的DNA测序相比,错配频率是显著更高(如在图2中所示,它显示一个双尾Kolmogorov-Smirnov测试,具有p值<2.2e-16),这表明某些基于PCR的聚合酶(s)具有显著的多个核苷酸复制错误。当应用碱基检出和如图2所示的30个或更多个的图谱质量时,该MDA的phi29聚合酶应用3′->5′校对外切酶活性,并且初步结果表明该MDA-序列的错误率非常低,而且几乎与常规的非WGA的DNA测序相媲美。
此外,图1示例显示了在每个碱基读取,hg19参考基因组的核苷酸的错配频率。在具有最小制图质量30的读取中,仅仅考虑具有30或30以上的碱基检出质量的碱基。很明显的,基于单个细胞PCR的WGA-方法引入比单个细胞MDA-WGA和非WGA DNA测序显著更多的WGA-核苷酸错误。
除了单个细胞WGA-聚合酶的保真度之外,GBS-PCR聚合酶和序列化学反应(例如bridge-PCR聚合酶)的精确性也必须被考虑到用于以下的单个细胞(WGA/PGA-)GBS的基因分型的方法。
有用于解释该序列读取的两种主要方法,该序列读取产生于根据本发明优选实施方案的单个细胞(WGA/PGA-)GBS方法:
(1)细胞的基因分型为已知的一组多态性标记(SNP,Indel,…),或经由单个细胞(WGA/PGA-)GBS读取所覆盖的DNA突变。尽管该工作流程可以应用于任何核苷酸遗传变体,其是人们希望在所得到的单个细胞序列中进行基因分型,在人类基因组hg19中目前已知SNP位置可以例如从数据库作为dbSNP或从1000基因组项目而进行检索。类似数据库存在其他物种中。核苷酸遗传变体的物理位置被优选应用于生成覆盖的特定位点的碱基堆积。虽然可能有不同的算法的方法来实现这一目标,本发明的另外优选的实施方案提供了基于例如Burrows Wheeler Alignment(BWA),SAMtools,Perl和R-scripts的流水线处理。简而言之,对于经由根据本发明实施方案的算法而被询问的每个位点,优选产生覆盖该位置的A-,C-,G-和T-碱基的量的列表,该参考等位基因和对于该位置的所有预测的替代(变体)的等位基因优选被鉴定。读取制图质量,碱基检出质量,开始和结束的读取(例如,图2显示序列读取的第一个和最后一个碱基应当从分析中省略,因为它们包含与参照基因组的更多的错配)的阙值可以被用于增加在覆盖成本下的准确度。如果SNP的参考和替代等位基因是已知的(例如,胞嘧啶和胸腺嘧啶碱基分别为普通人群中SNP的主要和次要等位基因),根据本发明优选实施方案的算法将有利地反馈承载参考等位基因(例如在WGA序列中该位置的C-碱基的20个读取报告)的序列读取的量和类似地用于替代等位基因(例如在WGA序列中该位点的T-碱基的980个读取报告)。随后,例如通过使用统计检验,这些数字等位基因计数可以被评价为与如下情况具有显著的差异,所述情况是如果进行SNP是纯合的,序列错误和/或预测的WGA核苷酸拷贝错误将导致类似的观察。基于后续的P-值的阈值,可以建立杂合的、纯合的和SNP-未检出。考虑到WGA等位基因的脱失和优先扩增假象往往包括几千碱基,近变体的单体型中的SNP或核苷酸遗传变异都期望具有在单个细胞的WGA-GBS产物中相似的等位基因变异频率。通过应用该原理,根据本发明优选的实施方案,有利的是最后的基因分型检出中的准确度是进一步增加的。当单个细胞DNA将进行PGA-GBS或没有WGA干扰的直接GBS时,类似的规则适用。对于直接GBS,单个细胞DNA在裂解之后立即被消化,连接衔接子,通过PCR扩增DNA片段,尺寸选择和扩增子将进行大规模平行测序。在此过程中,从单个细胞开始时将引入等位基因扩增偏倚以及核苷酸复制错误。因此,根据本发明的实施方案,可以应用相同的算法流水线处理。作为算法,根据本发明的实施方案,能够检测序列中(超)低频率的变体等位基因,这种流水线处理也具有用于深度测序样品中的(超)低等级的遗传嵌合体检测的巨大价值。
(2)从头发现细胞中的基因变体
根据本发明的实施方案,上面提出的原则可以被应用于通过在单个细胞(WGA/PGA-)GBS产物中从头发现的SNP的单个细胞(WGA/PGA-)GBS覆盖的所有碱基。此外,根据本发明优选的实施方案,这些流水线处理可以补充有标准的基因变体的检出(例如具有BCFtools的SAMtools,SOAPsnp,GATK,…),但是因为在单个细胞扩增序列中SNP的两个等位基因的频率的差异,以及WGA/PGA-GBS序列错误,现有可用的变体检出可以产生较低准确性的单个细胞基因分型。
一些示范性的例子,用于实施本发明的编号的实施方案在下文详述:
1.用于基因分型和/或单体型分型至少一个细胞的方法,该方法包括以下步骤:
i.分离和裂解所述至少一个细胞,
ii.扩增所述至少一个细胞的DNA片段,
iii.通过深度测序所述扩增产物的简化代表性文库而大规模平行(全基因组)基因多态性分型(基因分型),
iv.用于变体发现,基因分型和/或单体型分型的流水线处理。
2.实施方案1的方法,其中所述扩增是在整个基因组上实施。
3.根据实施方案1或2中任意的方法,其中所述扩增是使用全基因组多重置换扩增或任何全基因组扩增方案方法而实施。
4.根据实施方案1至3中任意的方法,该方法进一步包括构建扩增产物的简化代表性文库用于大规模平行测序和随后的使用生物信息学和统计学方式的基因分型和/或单体型分型。
5.根据实施方案4的方法,其中产生所述至少一个细胞扩增产物的简化代表性文库,通过限制性内切酶的至少一种或组合的限制性消化,以及随后的衔接子连接和通过PCR扩增的大小选择,或者任意的序列文库简化方法。
6.根据实施方案5的方法,其中所述序列文库的简化方法是外显子组捕获。
7.根据实施方案1至6中任意的方法,其中所述方法进一步包括简化代表性文库的深度测序步骤以确保每一个变***置以高冗余度进行采样。
8.根据实施方案1至7中任意的方法,其中用于变体检出的流水线处理是基于在序列读取中对变体等位基因频率的检测,其与使用序列比对,生物信息学和统计学的流水线处理的测序和/或扩增的不一致相区别。
9.根据实施方案8的方法,其中所述变体等位基因的频率是罕见的变体等位基因的频率。
10.根据实施方案8或9中任意的方法,其中使用序列比对的流水线处理是使用参考基因组而实施的。
11.根据实施方案1至10中任意的方法,其中所述方法进一步包括从检测的变体等位基因的频率而推测基因分型检出的步骤。
12.根据实施方案1至11中任意的方法,其中所述方法进一步包括单体型分型的评估和/或至少一个细胞的基因型的预测。
13.根据实施方案1的方法,其中所述扩增扩增了仅仅部分基因组。
14.根据实施方案13的方法,其中所述部分基因组扩增(PGA)是使用多重置换扩增或任何DNA-扩增法而实施的。
15.根据实施方案14的方法,其中所述多重置换扩增方法可以是PicoPlex,GenomePlex,SurePlex和/或AmpliOne中的任意。
16.根据实施方案13至15中任意的方法,该方法进一步包括构建PGA-产物的(简化代表性)文库用于大规模平行测序和随后的使用生物信息学和统计学方式的基因分型和/或单体型分型。
17.根据实施方案16的方法,其中产生所述至少一个细胞的PGA-产物的简化代表性文库,通过限制性内切酶的至少一种或组合的限制性消化,以及随后的衔接子连接和通过PCR扩增的大小选择,或者有或没有进一步基因组简化方法的任意的序列文库产生方法。
18.根据实施方案13至17中任意的方法,其中所述方法进一步包括简化代表性文库的深度测序步骤,以确保每一个变***置以高冗余度进行采样.
19.根据实施方案13至18中任意的方法,其中用于变体检出的流水线处理是基于在序列读取中对变体等位基因的频率的检测,其与使用序列比对,生物信息学和统计学的流水线处理的测序和/或扩增的不一致相区别。
20.根据实施方案19的方法,其中所述变体等位基因的频率是罕见的变体等位基因的频率。
21.根据实施方案19或20中任意的方法,其中使用序列比对的流水线处理是使用参考基因组而实施的。
22.根据实施方案13至21中任意的方法,其中所述方法进一步包括从检测的变体等位基因的频率而推测基因分型检出的步骤。
23.根据实施方案13至22中任意的方法,其中所述方法进一步包括单体型分型的评估或至少一个细胞的基因型的预测。
24.根据实施方案1的方法,其中所述扩增包括从至少一个细胞的裂解液中存在的DNA的立即简化代表性测序文库生成。
25.根据实施方案24的方法,其中裂解之后,至少一个细胞的DNA通过限制性内切酶的一种或组合而被立即消化,以及随后的衔接子连接和通过PCR扩增的大小选择,或者任意的序列文库生成和/或进一步的简化方法。
26.根据实施方案25的方法,其中所述任何序列文库生成和/或进一步的简化方法是从来自单个细胞裂解之后DNA所生成的扩增子测序文库。
27.根据实施方案24至26中任意的方法,其中所述方法进一步包括简化代表性文库的深度测序步骤,以确保每一个变***置以高冗余度进行采样。
28.根据实施方案24至27中任意的方法,其中用于变体检出的流水线处理是基于在序列读取中对变体等位基因的频率的检测,其与使用序列比对,生物信息学和统计学的流水线处理的测序和/或扩增的不一致相区别。
29.根据实施方案28的方法,其中所述变体等位基因的频率是罕见的变体等位基因的频率。
30.根据实施方案28或29中任意的方法,其中使用序列比对的流水线处理是使用参考基因组而实施的。
31.根据实施方案24至30中任意的方法,其中所述方法进一步包括从检测的变体等位基因的频率而推测基因分型检出的步骤。
32.根据实施方案24至31中任意的方法,其中所述方法进一步包括单体型分型的评估和/或至少一个细胞的基因型的预测。
33.根据实施方案1的方法,其中所述扩增是通过滚环扩增而在基因组的任意所需部分上实施。
34.根据实施方案33的方法,其中所述滚环扩增是在环状线粒体DNA上实施的。
35.根据上述实施方案中任意的方法,其中该至少一个细胞是人类或动物卵裂球。
36.一种计算机程序,包括当计算机程序在计算机上运行时,适于实施实施方案1至35中任意的方法的所有步骤的计算机程序代码装置。
37.根据实施方案36的计算机程序,包含在计算机可读介质上。
38.一种用于单体型分型至少一个细胞的***,其中所述***包括控制单元,所述控制单元适于:
-分离并裂解所述至少一个细胞,
-扩增所述至少一个细胞的DNA片段,
-通过深度测序所述扩增产物的简化代表性文库而大规模平行(全基因组)遗传多态性分型(基因分型),
-提供用于变体发现,基因分型和/或单体型分型的流水线处理。
本发明实施方案中所描述的处理过程的各种修改和变化是可能的,其在不脱离本发明的范围或精神时是可行的。其它的实施方案对本领域技术人员在本发明的实践中将是清楚的,并且本文所描述的示例,实施例和说明书可以被认为是仅仅示例性的。
可以理解的是,本发明并不受限于所描述的该方式的特定特征和/或该方法的实施步骤,因为这样的方式和方法可以变化。也可以理解的是,本文所用的术语是仅仅为了描述特定实施方案的目的,并且不旨在是限制性的。必须注意的是,如在说明书和所附权利要求书中所应用的,单数形式“一”、“一个”和“该”包括单数和/或复数对象,除非上下文另有明确说明。也可以理解的是,复数形式包括单数和/或复数对象,除非上下文另有明确说明。此外可以理解的是,通过数值分隔给定参数范围的情况下,该范围被认为包括这些限制值。
实施例
实施例1:在***马中通过基于测序的基因分型(GBS)的SNP鉴定
目的是基于使用GBS的大规模SNP鉴定,确定***纯种马内的遗传多样性。至此,我们收集了56个血样。用puregene试剂盒(Qiagen)进行DNA提取。使用纳米滴检测样品浓度和在琼脂糖凝胶上检测片段化。
使用ApekI的基于EquCab2参考序列的芯片上消化是使用定制的Perl/BioPerl转录本而实施的,并且预测2,937,656个片段<=500bp或3,766,233个片段<=1000bp。这个数字反映出基因组复杂性降低的效果。然而这并没有考虑到发生甲基化模式。
如描述的(Elshire等,PLoS One.2011 6(5):e19379.doi:10.1371/journal.pone.0019379)并且稍作修改,制备DNA文库。限制性内切酶ApekI用于简化每个样品的基因组复杂性。ApekI是II型限制性内切核酸酶,其识别DNA靶序列5′-G^CWGC-3′(其中W=A或T)和在第一个G之后切割以产生具有3碱基5′-突出端的片段。该衔接子包括一组56个不同的含条形码衔接子和共同的衔接子,且具有0.3ng/μl而不是0.6ng/μl的浓度。对4个样品进行质量对照,马1,2,9和10。片段尺寸和存在的衔接子二聚体是经由Agilentbioanalyzer 2100(图2)而确定。经由picogreen试验确定样品浓度之后,该文库在lllumina HiSeq2000的一个道上进行双端测序。
FASTQ lllumina DNA序列是经由我们的数据分析流水线处理处理的。通过基于联机条形码(读取1的前6-8bp)的样品分类自定义转录本的数据。修整后,将读取用BWAv0.6.2与EquCab2进行比对并且用SNIFER鉴定的峰覆盖>5X的区域和自定义转录本。
测序结果显示在每个样品中平均1,8百万的读取和每个样品平均1X覆盖。表1提供了在对56个***马的标准文库测序后生成的数据的概要。样品号显示于第1栏中。第2栏显示每个样品中原始读取的数,第3栏显示每个样品中处理后的读取,其中每个样品中所有区域计数大于80bp。
用ApekI处理的这些样品的片段尺寸分布在所有样品之间显示出类似的模式(图3)。合并所有56个样品的存取文件,并且上传到一体化的基因组浏览器(IGV)。通过肉眼观测分析SNP(图5)。
表1:
实施例2:使用选择性的引物的基因组复杂性的进一步简化改善
除了使用ApekI限制性内切酶和相同的56个***马的样品组所产生的上述简化代表性文库(进一步称为“标准”库)之外,我们已经通过使用选择性引物而进一步降低基因组的复杂性。这种选择性引物覆盖了整个通用衔接子,3′限制位点并延伸2个碱基到***区域中。由于在引物3′末端的所述2个选择性碱基,扩增仅仅衔接子连接的片段的子集。
选择性反向引物(5′-3′):
CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCTCAGCAC
标准的反向引物(5′-3′):
CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT
通用的正向引物(5′-3′):
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
此外,在lllumina HiSeq2500的一个单道上进行文库制备的单端测序。类似于上述流水线处理实施原始序列读取。实施适当的质量对照以检查条形码和限制性位点正确的组织。质量差的读取因为不符合我们的标准而被丢弃。总的来说,结果表明出与标准文库的基因组复杂性相比,选择性文库的基因组复杂性减小了一半(图4),并且平均覆盖率达到7X测序深度的改进。
类似于上述实施例进行SNP鉴定,并且随后在一体化的基因组浏览器(IGV)上显示(图5)。在选择性文库中比在标准文库中存在较少的检出区域,而现实了引物的功效。
实施例3:多细胞和单个细胞的基于测序的基因分型
取出雄性马的皮肤biopt并且培养在37℃和5%CO2的标准培养箱中。大的T175***成纤维细胞进行培养,洗涤并使用血液和组织试剂盒(Qiagen)提取DNA。经由纳米滴检测浓度和在琼脂糖凝胶上检测DNA片段。
来自相同细胞系,单个成纤维细胞被用于进一步的下游加工。根据WO2011/157846裂解细胞和扩增DNA。
使用PstI限制性内切酶进行文库制备并类似如实施例1的过程而进一步处理。预测PstI生成在马基因组中的968,569个片段(EquCab2参考序列)而ApeKI总计4461178个片段。因为我们想要最大限度的测序能力,我们决定在马基因组中测试PstI消化。PstI酶识别下列序列CTGCA^G并且其是对甲基化敏感的。此外,芯片预测估计238405个片段和388822个片段分别小于500bp的和1000bp。
在lllumina HiSeq2000上进行多细胞和单个细胞两者的测序。这产生多细胞样品的52K双端100bp读取和单个细胞样品的144K双端100bp读取。如实施例1中所述处理序列数据。覆盖分析显示在多细胞和单个细胞样品中分别具有至少5X深度的15K和19K区域,其中两个样品之间存在2585区域的重叠。后者是在给定的预测范围内,预测区域的总数将在250K的范围内,其中因为每个样品测序的少量碱基,我们仅观测到低于10%。尽管每个样品中少量碱基进行测序,它可以通过应用RRL而导致局部深度测序覆盖(例如在该实施例中>5x)。Samtools V 0.1.17用于两种样品中的snp检出。在两种样品中观测到的snp检出的位置为99%的一致。

Claims (9)

1.用于靶核酸的分析的方法,所述方法包括下列步骤:
i. 通过分离一个或少数靶细胞提供人或动物样品,其中靶核酸以100pg或更低的量存在,
ii.通过使用包括如下的方法生成所述靶核酸的简化代表性文库
*使用一种或多种限制性内切酶而使所述靶核酸片段化;
*连接衔接子至所述片段;和
*基于所述片段的尺寸选择所述衔接子-连接片段的子集,
iii.进行所述简化代表性文库的大规模平行测序,和
iv.通过分析由所述测序获得的结果而鉴定在所述靶核酸中的变体。
2.权利要求1的方法,其中选择所述衔接子-连接片段的子集是使用PCR-扩增而实施的。
3.权利要求1或2的方法,其中选择所述衔接子-连接片段的子集包括使用选择性引物的PCR扩增。
4.权利要求1的方法,其中生成简化代表性文库包括扩增片段的子集,当组合时,所述扩增片段的子集仅包含靶核酸的一部分。
5.权利要求1的方法,进一步包括
v.基于在所述靶核酸中鉴定的变体,构建基因型和/或单体型。
6.权利要求1的方法,其中提供样品进一步包括裂解所述一个或少数靶细胞。
7.权利要求1的方法,进一步包括所述靶核酸的全基因组扩增(WGA)。
8.权利要求1的方法,其中对所述简化代表性文库的测序确保在所述文库中的每个变***置以高冗余度进行采样。
9.权利要求1和4-8中任一项的方法,其中所述一个或少数靶细胞来自非人类胚胎。
CN201380052261.1A 2012-10-05 2013-10-07 通过测序少量遗传物质的高通量基因分型 Active CN104884633B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1217888.5 2012-10-05
GBGB1217888.5A GB201217888D0 (en) 2012-10-05 2012-10-05 High-throughput genotyping by sequencing of single cell
PCT/EP2013/070858 WO2014053664A1 (en) 2012-10-05 2013-10-07 High-throughput genotyping by sequencing low amounts of genetic material

Publications (2)

Publication Number Publication Date
CN104884633A CN104884633A (zh) 2015-09-02
CN104884633B true CN104884633B (zh) 2018-10-26

Family

ID=47294342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380052261.1A Active CN104884633B (zh) 2012-10-05 2013-10-07 通过测序少量遗传物质的高通量基因分型

Country Status (10)

Country Link
US (3) US20150247184A1 (zh)
EP (2) EP2904113B1 (zh)
CN (1) CN104884633B (zh)
AU (1) AU2013326406B2 (zh)
BR (1) BR112015007333A2 (zh)
CA (1) CA2886835A1 (zh)
DK (1) DK2904113T3 (zh)
ES (1) ES2792904T3 (zh)
GB (1) GB201217888D0 (zh)
WO (1) WO2014053664A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201319779D0 (en) * 2013-11-08 2013-12-25 Cartagenia N V Genetic analysis method
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN105177160B (zh) * 2015-10-16 2018-10-16 浙江大学 检测多种新生儿遗传代谢病致病基因的引物及试剂盒
CN105256379A (zh) * 2015-11-23 2016-01-20 武汉大学 一种新的基因组简化甲基化测序文库的制备方法
US11124831B2 (en) 2016-08-10 2021-09-21 New York Genome Center Ultra-low coverage genome sequencing and uses thereof
US11342047B2 (en) * 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
CN109161587A (zh) * 2018-09-26 2019-01-08 上海交通大学医学院附属上海儿童医学中心 一种检测染色体重复片段断裂位点和定位信息的方法
CN109628566A (zh) * 2018-12-28 2019-04-16 北京中仪康卫医疗器械有限公司 利用RAD-seq对胚胎进行PGS分析的方法
CN109629009B (zh) * 2019-01-10 2022-02-22 北京中科遗传与生殖医学研究院有限责任公司 一种基于RAD-seq对胚胎进行无创PGS的方法
CN113215230B (zh) * 2021-06-22 2024-02-09 艾康健(武汉)基因技术有限公司 一种非疾病诊断目的的snp核酸质谱分型检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6395887B1 (en) * 1995-08-01 2002-05-28 Yale University Analysis of gene expression by display of 3'-end fragments of CDNAS
CN104334739A (zh) * 2012-01-13 2015-02-04 Data生物有限公司 通过新一代测序进行基因分型

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004081183A2 (en) 2003-03-07 2004-09-23 Rubicon Genomics, Inc. In vitro dna immortalization and whole genome amplification using libraries generated from randomly fragmented dna
DK2292788T3 (da) 2005-06-23 2012-07-23 Keygene Nv Strategier til identifikation og detektion af polymorfismer med højt gennemløb
DK2789696T3 (en) 2005-12-22 2016-02-29 Keygene Nv A method for high-throughput AFLP-based polymorphism
WO2010115154A1 (en) * 2009-04-02 2010-10-07 Fluidigm Corporation Multi-primer amplification method for barcoding of target nucleic acids
GB201010232D0 (en) 2010-06-18 2010-07-21 Univ Leuven Kath Methods for haplotyping single cells
WO2013078019A1 (en) 2011-11-22 2013-05-30 Dow Agrosciences Llc Three dimensional matrix analyses for high throughput sequencing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6395887B1 (en) * 1995-08-01 2002-05-28 Yale University Analysis of gene expression by display of 3'-end fragments of CDNAS
CN104334739A (zh) * 2012-01-13 2015-02-04 Data生物有限公司 通过新一代测序进行基因分型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A robust, simple genotyping-by-sequencing (GBS) approach for high diversity species";Robert J.Elshire et al.;《Plos one》;20110101;第6卷(第5期);摘要,图1-2,以及e19379 第2-4页 Methods *

Also Published As

Publication number Publication date
US20200291456A1 (en) 2020-09-17
BR112015007333A2 (pt) 2017-07-04
CA2886835A1 (en) 2014-04-10
EP3699292A1 (en) 2020-08-26
GB201217888D0 (en) 2012-11-21
AU2013326406A1 (en) 2015-05-14
ES2792904T3 (es) 2020-11-12
AU2013326406B2 (en) 2019-01-03
EP2904113B1 (en) 2020-02-26
DK2904113T3 (da) 2020-05-25
CN104884633A (zh) 2015-09-02
US20150247184A1 (en) 2015-09-03
WO2014053664A1 (en) 2014-04-10
US20220186291A1 (en) 2022-06-16
EP2904113A1 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
CN104884633B (zh) 通过测序少量遗传物质的高通量基因分型
US20200350034A1 (en) Method for Non-Invasive Prenatal Testing Using Parental Mosaicism Data
US20220073979A1 (en) Methods for non-invasive prenatal ploidy calling
TWI661049B (zh) 使用不含細胞之dna片段大小以測定複製數變異之方法
AU2011358564B9 (en) Methods for non-invasive prenatal ploidy calling
KR102028375B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
AU2012385961B2 (en) Highly multiplex PCR methods and compositions
US20190309358A1 (en) Methods for non-invasive prenatal ploidy calling
DK3078752T3 (en) SOLUTION OF REFRACTIONS USING POLYMORPHISM COUNTIES
US20130196862A1 (en) Informatics Enhanced Analysis of Fetal Samples Subject to Maternal Contamination
US20140206552A1 (en) Methods for preimplantation genetic diagnosis by sequencing
WO2013130848A1 (en) Informatics enhanced analysis of fetal samples subject to maternal contamination
WO2013052557A2 (en) Methods for preimplantation genetic diagnosis by sequencing
Beltman et al. Reproducibility of Illumina platform deep sequencing errors allows accurate determination of DNA barcodes in cells
WO2023034090A1 (en) Methods for non-invasive prenatal testing
EP2847347A1 (en) Highly multiplex pcr methods and compositions

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant