CN107250356A - 测序对照 - Google Patents

测序对照 Download PDF

Info

Publication number
CN107250356A
CN107250356A CN201580068605.7A CN201580068605A CN107250356A CN 107250356 A CN107250356 A CN 107250356A CN 201580068605 A CN201580068605 A CN 201580068605A CN 107250356 A CN107250356 A CN 107250356A
Authority
CN
China
Prior art keywords
sequence
standard items
artificial
dna
rna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580068605.7A
Other languages
English (en)
Inventor
T.默瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Garvan Institute of Medical Research
Original Assignee
Garvan Institute of Medical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2014905092A external-priority patent/AU2014905092A0/en
Application filed by Garvan Institute of Medical Research filed Critical Garvan Institute of Medical Research
Priority to CN202111427653.4A priority Critical patent/CN114381455A/zh
Publication of CN107250356A publication Critical patent/CN107250356A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H21/00Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
    • C07H21/04Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/01Preparation of mutants without inserting foreign genetic material therein; Screening processes therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/107Reactions characterised by their quantitative nature the purpose being quantitative analysis with a competitive internal standard/control

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Saccharide Compounds (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本公开一般涉及用于遗传测序和定量测定法的人工对照,其可用于校准极其多种遗传测序和定量方法。例如,本文公开的测序对照可用于校准极其多种高通量测序方法(例如,称为下一代测序方法的那些)。本公开还通常涉及在极其多种应用中(例如包括在极其多种测序方法的校准中)使用测序对照。

Description

测序对照
发明领域
本公开通常涉及可用于校准极其多种测序方法的测序对照(或“标准品”)。例如,本文公开的测序对照可用于校准极其多种高通量测序方法(例如,那些称为下一代测序方法的)。本公开还通常涉及在极其多种应用中(例如包括在多种测序方法的校准中)使用测序对照。
发明背景
下一代测序(NGS)技术(以如下公司提供的服务和产品为例:Illumina,Nanopore,PacBio,Ion Torrent,Roche 454Pyrosequencing(参见例如Bentley,D.R.et al.,2008;Clarke,J.et al.,2009;Ronaghi,M.et al.,1998;Eid,J.et al.,2009;Rothberg,J.M.etal.,2011)和其他)实现核酸分子的高通量、大规模平行测序。这些技术有能力确定单个样品中数百万个RNA和DNA分子的核苷酸碱基序列。此外,确定个别RNA或DNA序列的速率与样品中个别RNA或DNA序列的相对丰度成比例。因此,NGS也可用于确定样品中一个或多个核酸序列的量。
NGS广泛用于测定核酸的序列和/或测量核酸的量,所述核酸发现于天然来源的样品中,如动物,植物,微生物或环境样品中微生物的不同群体(Edwards,R.A.et al.,2006)。这些使用包括测定微生物的全基因组序列(参见例如Bentley,D.R.et al.,2008),测定样品中存在的信使RNA的序列和丰度(例如参见Mortazavi,A.et al.,2008),或者测序和测量一系列细胞特征,如表观遗传修饰(例如参见Bernstein,B.E.et al.,2005),蛋白质结合位点(例如参见Johnson,D.S.,et al.,2007),和三维DNA结构(例如参见Lieberman-Aiden,E.et al.,2009),以及其他特征。
由NGS测定的数百万的个别RNA或DNA序列可以通过从头组装合并为更长的序列(称为重叠群)或与已知参考序列匹配。DNA序列的从头组装可用于组装生物体的基因组;RNA序列的从头组装可以指示基因序列,长度和同等型。DNA序列与参考基因组的匹配或比对可以鉴定个体间遗传差异或变异的位置。DNA序列与参考基因组之间的匹配位置可以指示表观遗传特征的位置,如组蛋白修饰或蛋白质结合位点。RNA序列与参考基因组的比对可以指示在基因剪接(splicing)过程中切出的内含子序列的存在。
在某些情况下,在此类测序方法的操作过程中,已经将已知量或序列核酸(称为标准品)添加(或“掺入(spiked in)”)到天然的核酸样品中。然后可以使用一系列遗传技术(例如NGS技术)分析所得的组合混合物,所述遗传技术包括微阵列技术,定量聚合酶链反应方法等。可以将样品核酸的量或序列与添加的核酸标准品的已知量或序列相比较,以提供可用于测量和测定核酸天然样品的量或序列的参考量表(scale)。
目前使用的RNA和DNA标准品源自天然来源。例如,已经广泛地表征了从最初来源于高加索人女性的NA12878细胞系提取的DNA序列,并且其已被用于评估分析工具的性能来鉴定遗传变异(Zook,J.M.et al.,2014)。开发了含有源自古细菌Methanocaldococcusjannaschii序列的核糖核酸标准品(称为ERCC Spike-Ins)用于微阵列和qRT-PCR技术(Baker,S.C.et al.,2005;Consortium,E.R.C.,2005)并且已被用于RNA测序(Jiang,L.etal.,2011)。
然而,源自天然来源的核酸标准品的缺点是它们通常不能直接添加到样品中,因为它们与样品中感兴趣的核酸序列共享同源序列。使用源自天然来源的核酸标准品导致无法区分标准品与样品中存在的感兴趣的同源序列。因此,此类标准品作为校准应用于感兴趣样品的测序方法的工具的价值是有限的,并且仍然需要替代的和改善的测量对照。
发明概述
本发明人已开发了可以分别使用或与人工染色体结合使用的新型人工测量对照。术语“对照”在本文中可与术语“标准品”互换使用。因此,本公开提供了新型、人工测序标准品。
一方面,本公开提供了包含人工多核苷酸序列的人工染色体,其中人工多核苷酸序列的任何片段可与任何已知的天然存在的基因组序列区分开。所述片段可以是任何大小从20到10,000,000个连续核苷酸的。在一个实例中,该片段长度为1,000个或更多个核苷酸。在另一个实例中,该片段长度为100个或更多个核苷酸。在另一个实例中,该片段长度为21个或更多个核苷酸。
在本文公开的人工染色体中,人工多核苷酸序列的任何1,000个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。在另一个实例中,人工多核苷酸序列的任何100个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。在另一个实例中,人工多核苷酸序列的任何21个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。在另一个实例中,人工多核苷酸序列的任何20个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。
在另一个实例中,在本文公开的人工染色体中,人工多核苷酸序列的任何1,000个或更多个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。在另一个实例中,人工多核苷酸序列的任何100个或更多个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。在另一个实例中,人工多核苷酸序列的任何21个或更多个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。在另一个实例中,人工多核苷酸序列的任何20个或更多个连续的核苷酸可以与任何已知相同长度的天然存在的基因组序列具有小于100%的序列同一性。
本文公开的人工染色体可以包含天然存在的真核染色体的选自下组的任何一个或多个特征:基因座,CpG岛,移动元件,重复多核苷酸特征,小规模遗传变异和大规模遗传变异。人工多核苷酸序列可以包含多个基因座;重复多核苷酸特征可以包括末端重复,串联重复,反向重复和散在重复的任何一个或多个;基因座可以包含免疫受体基因座;小规模遗传变异可以包含一个或多个SNP,一个或多个***,一个或多个缺失,一个或多个微卫星和/或多个核苷酸多态性;和/或大规模遗传变异可以包含一个或多个缺失,一个或多个重复,一个或多个拷贝数变体,一个或多个***,一个或多个倒置和/或一个或多个易位。
或者或另外,本文公开的人工染色体可以包含天然存在的原核染色体的一个或多个特征。例如,人工染色体可以包含天然存在的原核染色体的选自下组的任何一个或多个特征:基因座、DNA重复、移动元件,和操纵子。
本公开还提供了本文公开的人工染色体的片段,该片段包含人工多核苷酸序列的20至10,000,000个连续核苷酸。所述片段可以是RNA片段或DNA片段。
本公开还提供了包含本发明连结(conjoined)的两个或多个片段以形成连续的多核苷酸序列的人工多核苷酸序列。所述人工多核苷酸序列可以是RNA或DNA多核苷酸序列。
本公开还提供了载体,其包含本文公开的人工染色体的DNA片段,该片段包含人工多核苷酸序列的20至10,000,000个连续核苷酸。
本公开还提供了包含本文中公开的人工多核苷酸序列的载体,该人工多核苷酸序列是DNA多核苷酸序列。
本公开还提供了制备本文公开的片段的方法,所述方法包括通过内切核酸酶消化从本文公开的载体中切出该片段,扩增或转录包含在本文公开的载体内的DNA片段。在一个实例中,扩增可以是聚合酶链式扩增。本公开还提供了制备本文公开的片段的方法,所述方法包括通过DNA合成制备片段。
本公开还提供了通过本文公开的方法制备的人工染色体的片段。因此,本公开提供了人工染色体的片段,其通过包含以下方法制备:通过内切核酸酶消化从本发明公开的载体切出该片段,或转录包含在本公开的载体内的DNA片段。
本公开还提供了制备本文公开的人工多核苷酸序列的方法,所述方法包括通过内切核酸酶消化从本发明公开的载体切出人工多核苷酸序列,扩增,或转录包含在本公开的载体内的人工多核苷酸序列。在一个实例中,扩增可以是聚合酶链式扩增。本公开还提供了制备本文公开的人工多核苷酸序列的方法,所述方法包含通过DNA合成生成所述人工多核苷酸序列。
本公开还提供了通过本文公开的方法制备的人工多核苷酸序列。因此本公开提供了人工多核苷酸序列,其通过包含以下的方法制备:通过内切核酸酶消化从本发明公开的载体切出该人工多核苷酸序列,或转录包含在本公开的载体内的人工多核苷酸序列DNA。
本公开还提供了本文公开的人工染色体和/或本文公开的片段和/或本文公开的人工多核苷酸序列在校准多核苷酸测序过程中的用途。在这方面可以校准多种测序过程。
本公开还提供了校准多核苷酸测序方法的方法,其包括:
i)将本文公开的一个或多个片段和/或一个或多个本文公开的人工多核苷酸序列添加至包含要测定的目标多核苷酸序列的样品;
ii)测定目标多核苷酸的序列;
iii)测定本文公开的一个或多个片段和/或本文公开的一个或多个人工多核苷酸序列的序列;以及
iv)将在iii)中测定的序列与片段和/或人工多核苷酸序列的原始序列相比较,该原始序列存在于本文公开的人工染色体中;
其中iii)中的序列测定的准确性用于校准ii)中的序列测定。例如,多核苷酸测序过程可以是多核苷酸比对,多核苷酸组装,或其他已知测序过程。
本公开还提供本文公开的人工染色体和/或本文公开的片段和/或本文公开的人工多核苷酸序列在校准多核苷酸定量过程中的用途。
本公开还提供了一种校准多核苷酸定量过程的方法,其包括:
i)将本文公开的一个或多个片段和/或一个或多个本文公开的人工多核苷酸序列添加至包含要测定的目标多核苷酸序列的样品;
ii)测定目标多核苷酸的量;
iii)测定本文公开的一个或多个片段和/或本文公开的一个或多个人工多核苷酸序列的量;以及
iv)将在iii)中测定的一个或多个片段和/或一个或多个人工多核苷酸序列的量与i)中的一个或多个片段和/或一个或多个人工多核苷酸序列的已知量相比较;
其中iii)中的定量测定的准确性用于校准ii)中的定量测定。
本公开还提供本文公开的人工染色体和/或本文公开的片段和/或本文公开的人工多核苷酸序列在校准多核苷酸扩增过程中的用途。
本公开还提供了校准多核苷酸扩增过程的方法,其包括:
i)将已知量的本文公开的一个或多个片段和/或一个或多个本文公开的人工多核苷酸序列添加至包含要测定的目标多核苷酸序列的样品;
ii)扩增所述目标多核苷酸;
iii)扩增本文公开的一个或多个片段和/或本文公开的一个或多个人工多核苷酸序列;以及
iv)将在iii)中扩增的一个或多个片段和/或一个或多个人工多核苷酸序列的扩增区域与在ii)中扩增的目标多核苷酸的扩增区相比较;
其中iii)中的扩增用于校准ii)中的扩增。
在本文公开的任何方法中,可以以相同或不同浓度将两个或多个本文公开的片段(或标准品)添加到样品中。这具有允许复制天然状态的纯合性或杂合性或异质性的优点(即,复制含有正常和肿瘤细胞的不纯样品的罕见突变体等位基因频率;例如,由染色体多倍体产生的复制复合等位基因频率;例如,复制在循环DNA中针对母亲基因型背景的胎儿基因型)。
本公开还提供了包含本文公开的一种或多种人工染色体和本文公开的一种或多种片段或本文公开的一种或多种人工多核苷酸序列的试剂盒。
本公开还提供了计算机可编程介质(medium),其含有其上储存的本公开的一个或多个人工染色体。
本公开还提供了用于生成包含人工多核苷酸序列的人工染色体的计算机实施方法,所述计算机实施方法包括:
产生指示初始多核苷酸序列的初始数据;
测定指示初始多核苷酸序列与一个或多个已知天然存在的多核苷酸序列间的相似性的匹配值;
基于匹配值修改初始数据以测定指示修饰的多核苷酸序列的修改数据,使得修改的多核苷酸序列与任何已知的天然存在的基因组序列区分开;以及
将修改的数据存储在数据存储上。
在本文公开的计算机实施的方法中,修改初始数据可以包括改组(shuffling)初始数据。
本公开还提供了校准多核苷酸测序过程的计算机实施方法,该计算机实施的方法包括:
接收与目标多核苷酸序列相关的第一数据;
接收指示本文公开的人工染色体的一个或多个片段和/或本文公开的一个或多个人工多核苷酸序列的第二数据;基于所述第二数据,相对于人工染色体性质,测定与一个或多个片段或一个或多个人工多核苷酸序列的性质相关的人工染色体的性质的定量数值,该定量数值指示测定一个或多个片段和/或一个或多个人工多核苷酸序列的性质的准确性;以及
基于定量数值调整与第一数据相关的性质,以确定目标多核苷酸序列的校准性质。
计算机实施的方法还可以包括生成第一和/或第二数据;以及将第一和/或第二数据存储在数据存储器上。
本公开还提供了一种用于校准多核苷酸测序过程的计算机***,该计算机***包括:
数据端口,以接收
涉及目标多核苷酸序列的第一数据,
第二数据,其指示本文公开的人工染色体的一个或多个片段和/或本文公开的一个或多个人工多核苷酸序列;和
处理器,以
基于第二数据,相对于人工染色体的性质,测定与一个或多个片段和/或一个或多个人工多核苷酸序列的性质相关的第一定量数值,该定量数值指示测定一个或多个片段和/或人工多核苷酸序列的性质的准确性,以及
基于定量数值调整第一数据以测定目标多核苷酸序列的校准性质。
本公开的任何特定方面或实施方案或实例的每个特征可以加以必要的变更适用于本公开的任何其它方面或实施方案或实例。
附图简述
以下附图进一步说明本公开的某些方面。通过参考这些图中的一个或多个,结合本文呈现的具体实施方案的详细描述可以更好地理解本公开。
图1显示了本公开的人工染色体的潜在结构特征。示例性的人工染色体包含以下各项(从顶部到底部)的特征:基因、大规模结构变异、疾病相关的变异事件、DNA重复元件(包括着丝点和端粒)、免疫受体基因座、小规模变异(如<50nt)如单核苷酸多态性(SNPs)、***或缺失(InDels);以及移动元件衍生的序列。
图2显示了通过改组序列以除去与任何已知天然序列的同源性来创建人工染色体。用50nt大小的窗口(window)改组HOXA1基因启动子中与CpG岛(小图A中所示的黑框)重叠的已知DNA序列(小图A)。这除了与已知或自然序列的同源性(小图B),同时以50nt的分辨率保持定义CpG岛(小图B中的白框)的高CpG二核苷酸含量(content)。
图3显示了基因座(小图A),其包含在人工染色体内的居间(intervening)外显子和内含子序列。(B)外显子的可变纳入可以从单个基因座产生许多不同的同等型。较低的小图(C)显示了产生的RNA标准品以包括连续的外显子序列(其中除去居间内含子)。可以生成RNA标准品来表示不同的同等型,其中指示了共有外显子(阴影)和备选外显子(白色)。通过以一系列浓度范围将标示备选同等型的RNA标准品结合在一起,模拟了可变剪接的生物过程。
图4显示了生成用于包含在本公开的人工染色体中的移动元件。(A)最初,从人基因组检索对应于移动元件(灰框)的单个拷贝的序列。(B)多个人工移动元件与模拟(model)个别序列趋异性(divergence)平行经历进一步核苷酸替代,***或缺失。然后将多个人工移动元件与人工染色体组装。(C)可以产生DNA标准品来表示移动元素***。(D)对人工染色体测序,比对(由序列读段和序列覆盖的直方图指示)并且分析能够识别该移动元件。
图5显示了人工DNA重复的特定实例的产生,该重复可以包括在本公开的人工染色体中。(A)最初,从人基因组检索对应于感兴趣的DNA重复单拷贝的序列(如微卫星,端粒或着丝点重复单元)。除去同源性以形成人工(“祖先”)移动重复元件(白框)。(B)扩增该人工移动元件。(C)扩增的人工移动元件与模拟个别序列趋异性(divergence)平行经历多核苷酸改变。(D)可以非对称扩增人工移动元件。(E)人工序列经历多个扩增和核苷酸修饰循环以形成具有不同拷贝数的多个重复子集的大型串联DNA重复。(E)可以产生表示不同重复子集的DNA标准品,DNA标准品丰度与重复拷贝数成正比。
图6显示了可以包括在本公开的人工染色体中的人工小规模遗传变异的产生。(A)可以将小规模遗传变异(包括单核苷酸多态性,***,缺失等)引入人工染色体,以形成携带小规模核苷酸变异的变体人工染色体。(B)可以产生匹配每个变体人工染色体序列的多个DNA标准品,从而模拟杂合或纯合等位基因频率。(C)显示了DNA标准品的测序,与参考人工染色体的比对,以及分析鉴定小规模变异。
图7显示了本公开的人工染色体中的人工疾病相关遗传变异的产生。(A)从人基因组中检索到与BRAF突变V600E位点重叠的序列。随着窗口大小的增加,随着与BRAF V600E突变位点的距离增加,对周围序列改组。未改组BRAF V600E突变位点周围的12个核苷酸序列。改组的序列在人工染色体内组装,生成变体人工染色体序列。产生匹配野生型和疾病相关BRAF V600E突变的DNA标准品,并结合以模拟纯合或杂合基因型。(B)散点图显示了与变异DNA标准品与参考DNA标准品的相对稀释度相比,序列读段覆盖的深度相对于变异之间的关系。(C)散点图显示了相较于变体DNA标准品与参考DNA标准品的相对稀释度,与指定的基因型(指示纯合和杂合基因型)相关的置信。
图8显示了可以掺入本公开的人工染色体的人工大规模遗传变异。说明的是DNA标准品的例子,所述能够测量不同类型的大规模变化的DNA标准品包括(A)***,(B)缺失,(C)倒置,(D)串联重复和(E)移动元件***,其中DNA标准品的相对丰度可以模拟诸如人工染色体之间拷贝数变异的特征。
图9显示了可以掺入本公开的人工染色体中的易位。(A)两个不同人工染色体之间的序列可以在易位期间重排。在说明性的示例中,当易位断点发生在两个人工基因(A1和B1)内时,产生融合基因。可以产生表示两个正常基因和融合基因序列的三种RNA标准品,并在不同相对浓度下结合,以模拟纯合和杂合基因型。(B)散点图显示了相较于相对于两个正常基因同等性RNA标准品的融合基因RNA标准品的分数稀释,融合基因RNA标准品的丰度(作为与融合内含子接合(junction)的每百万的读段(RPM)测量)。该散点图显示了伴随(accompanying)文库的定量准确性和灵敏度极限。还指示(虚线)的是来自伴随K562RNA样品的内源性人BCR-ABL融合基因的丰度。使用不含内源性人BCR-ABL融合基因的GM12878RNA样品,以增加的稀释滴定K562RNA样品。(C)散点图显示了相对于两个正常基因同等型RNA标准品,与鉴定在融合基因RNA标准品的增加稀释处的融合接合相关的显著性(P值)。
图10显示了模拟微生物群落的人工染色体。(A)此类人工染色体的产生,检索并改组一大批在大小、GC%和分类群上变化的微生物基因组的任何一个或多个,以除去对天然序列的同源性。(B)可以生成符合人工染色体内的表示性子序列的DNA标准品。通过在一定浓度范围内合并这些DNA标准品,可以模拟外源微生物群落。
图11显示了生成人工16S rRNA标志物的方法的一个实例。16S rRNA序列可用作宏基因组***发育分析的标志物。产生在人工微生物基因组中匹配16s rRNA序列的DNA标准品,包括侧翼的通用引物序列。该DNA标准品可以作为在宏基因组分析中进行PCR扩增和测序的模板。(B)散点图显示了来自对应于一大批不同微生物基因组(指示的)的测序的16SDNA标准品的模拟读段的丰度。(C)散点图显示了根据对应于微生物基因组的rRNA操纵子计数的16S DNA标准品丰度的标准化。
图12显示了产生人工TCRγ基因座的一个实例。(A)TCRγ基因座包含14个Vγ区段和5个Jγ区段。(B)改组序列以除去与天然序列的同源性。(C)用模拟VJ重组和体细胞超突变的生物过程的过程将区段连接在一起以产生多个人工TCRγ克隆型。(D)可以制备DNA标准品来表示维持与通用引物互补的序列的个别人工TCRβ克隆型。DNA标准品可用作目标DNA分子用于使用通用引物的PCR扩增,同时PCR扩增在伴随人类DNA样品中的天然TCRγ基因座。因此,每个DNA标准品扩增出不同的扩增子,其丰度与引物结合效率和DNA标准品丰度成比例。
图13显示了人工TCRβ基因座的一个实例。(A)TCRβ基因座包含65个Vβ区段,2个Dβ区段以及13个Jβ。(B)用模拟V(D)J重组和体细胞超突变的生物过程的过程将区段连接在一起,如在健康成人样品中测量,以产生多个人工TCRβ克隆型。(C)可以产生DNA标准品以表示个别人工TCRβ克隆型。DNA标准品可以保留与用于免疫全集测序期间基因座PCR扩增的引物互补的序列。DNA标准品可以是连结的以在用通用引物PCR扩增前形成单个连续模板。(D)在健康成人受试者中鉴定的克隆型的累积频率分布和用于比较,测量的人工克隆型的DNA标准品的丰度。人工克隆型提供了扩展跨越天然克隆型的动态范围的定量量表,并可被用于归纳丰度并确定检测限。(E)在健康成人受试者中发现的个别V,J和D区段的累计频率分布(用黑线显示),以及用DNA标准品表示的个别V,J和D区段的频率分布(用虚线表示)。
图14显示了可以产生RNA标准品的方法概述。合成感兴趣的人工染色体序列并***到用于体外转录的表达载体中以产生RNA标准品。在与其他RNA标准品组合以形成混合物之前,将RNA标准品纯化和定量并稀释至合适的浓度。可将不同终混合物添加到不同样品用于分析。
图15显示了可以产生DNA标准品的方法概述。合成感兴趣的人工染色体序列并***到用作(i)用侧翼引物的PCR扩增;或(ii)在侧翼位点的限制内切核酸消化的模板的载体中。在与其他DNA标准品组合以形成混合物之前,将DNA标准品纯化和定量并稀释至合适的浓度。可将不同终混合物添加到不同样品用于分析。
图16显示了产生连结的DNA标准品的一个实例的方法。(A)示意图指示将多个个别DNA标准品连接成更大的连结的DNA标准品。(B)通过结合不同拷贝数的个别DNA标准品使我们能够模拟包含单个连结的DNA标准品的个别标准品之间的差异丰度。(C)因为丰度倍数变化在个别标准品之间是依赖的,所以我们可以区分源自移液的变异与其他变异来源。在这种情况下,绘制连接标准内的个别DNA标准品的测量丰度与已知丰度的斜率指示移液误差的量级。(D)根据该斜率,标准化个别DNA标准品丰度可以标准化和最小化该误差。
图17显示了用于产生条形码变化的一个实例方法。可以将连续的或非连续的核苷酸序列取代入RNA或DNA标准品的序列中。测序后,可以使用条形码区分多个相同的DNA或RNA标准品或衍生物测序读段。
图18显示了在下一代测序实验期间使用人工染色体和伴随RNA/DNA标准品的实例的示意图概览。在文库制备和测序前将RNA/DNA标准品添加到感兴趣的RNA/DNA样品中。同时将测序读段与感兴趣的参照基因座以及人工染色体比对。测序读段对人工染色体的比对和组装可用于校准伴随参考基因座的分析。
图19显示了在RNA测序实验中使用RNA标准品的示意图概览。指示的(虚线框)是可以使用DNA标准品评估的分析方面。
图20显示了在基因组测序实验中使用DNA标准品的示意图概览。指示的(虚线框)是可以使用DNA标准品评估的分析方面。
图21显示了宏基因组测序实验中使用DNA标准品的示意图概览。指示的(虚线框)是可以使用DNA标准品评估的分析方面。
图22显示了使用RNA标准品和D562总细胞RNA的RNA测序分析的一个实例。散点图指示了相对于RNA标准品丰度的(A)内含子的灵敏度和(B)外显子发现的灵敏度。这指示了检测限,低于所述检测限,转录物具有不足的覆盖来实现稳健(robust)组装。(C)散点图指示了相对于RNA标准品的已知丰度,与RNA标准品的观察到的定量测量相关的置信(confidence)。
图23显示了使用RNA标准品和K562总细胞RNA,比对来自RNA测序分析的读段。(A-E)显示了包含在人工染色体上编码的多个同等型的基因座的五个实例。将人工染色体与产生自从RNA标准品测序的读段相比对。连续比对显示为黑色柱,并且比对分割的区域显示为细线。然后使用重叠读段比对来组装全长基因座结构,包括内含子和外显子和可变剪接事件。直方图指示来自累积读段比对的序列覆盖。
图24显示了来自RNA标准品与人细胞RNA样品的RNA测序分析的定量分析。(A,B)散点图指示了当组合为以下各项时,相对于表示基因的RNA标准品的已知丰度观察到的丰度(在以RPKM计测量):(A)与K562人细胞RNA样品的混合物A,或(B)与GM12878人细胞RNA样品的混合物B。线性相关和斜率表示每个RNA测序文库的定量准确性。(C)散点图显示了相对于混合物A(添加到K562RNA)和混合物B(添加到GM12878RNA)之间丰度的预期倍数变化,基因RNA标准品丰度中观察到的倍数变化。(D,E)散点图指示了当组合为下列各项时,通过每个RNA标准品表示的个别同等型的观察到的丰度:(D)添加到K562RNA样品的混合物A,或(E)添加到GM12878RNA样品的混合物B。(F)散点图显示了相对于混合物A和混合物B之间丰度的预期倍数变化,同等型基因RNA标准品丰度中观察到的倍数变化。。个别同等型之间的倍数变化模拟了可变剪接。
图25显示了使用剪接RNA标准品的一个例子。(A)散点图指示了针对由RNA标准品表示的每个基因的变体和参考同等型所观察到的相对丰度。(B)盒须图(Box-whiskerplot)(最小-最大)指示了相对于预期同等型倍数变化,混合物A(添加到K562RNA样品)和混合物B(添加到GM128787RNA样品)中观察到的倍数变化。(B)在该实例中,人工染色体上的单个基因座编码两个不同同等型(R_10_2_R和R_10_2_V),它们共享组成型外显子,但在3'可变外显子和终止点上不同。我们产生了RNA标准品,其表示在针对混合物A的不同约定(conventions)(3:1比率)和针对混合物B的倒转(inverted)(1:3比率)的每个同等型。(B)图指示了相对于在混合物A和混合物B中R_10_2基因和R_10_2_R和R_10_2_V同等型的预期(虚线)表达所观察到的(盒须图显示最小到最大;n=3)。
图26显示了RNA标准品和ERCC RNA Spike-ins的定量比较。(A)散点图指示了相对于RNA标准品(灰色),观察到的丰度(在以RPKM计测量)与ERCC RNA Spike-Ins(黑色)的已知浓度的比较。基于具有指示标准差的误差棒的三次重复。检测限指示已知的RNA标准品浓度,低于该浓度,抽样是罕见的且可变的。(B)相对于RNA标准品(灰色)的ERCC RNA Spike-Ins(黑色)展示出高于检测限的类似的线性概貌和相关性。(C)散点图指示了相对于混合物A(添加到正常肺RNA样品)和混合物B(添加到匹配的肺腺癌RNA样品)之间的ERCC RNASpike-Ins(黑色)和RNA标准品(灰色)的丰度的预期的倍数变化,所观察到的倍数变化。(D)癌基因表达(黑线)的累计频率分布。指示了添加的RNA标准品的测量的丰度(虚线)以提供重叠定量参考梯,相对于所述重叠定量参考梯,测量伴随的肺腺癌RNA样品中内源癌基因浓度。
图27显示了散点图,其指示当添加到小鼠肝RNA样品时,相对于表示(A)基因或(B)个别同等型的RNA标准品的已知丰度,观察到的丰度(在以RPKM计测量)。线性相关和斜率指示了RNA测序文库的定量准确性。
图28显示了使用DNA标准品和GM21878基因组DNA的实例DNA测序分析。(A)散点图比较了DNA标准品的测量的丰度(在以RPKM计)相对于DNA标准品的已知丰度。(B)散点图指示了相对于DNA标准品的已知浓度,由DNA标准品表示的遗传变体的比对倍数覆盖。(C)散点图指示了与已知变体等位基因频率相比,观察到的变体的等位基因频率。相对于参照等位基因频率指示了变体等位基因频率。线性相关和斜率指示了观察到等位基因频率的定量准确性。(D)散点图比较了当用于用小鼠(moue)基因组DNA分析时,相对于DNA标准品的已知丰度,DNA标准品的测量的丰度(在以RPKM计)。(E)累计频率分布图显示了相对于伴随GM12878基因组DNA样品(黑线),DNA标准品(虚线)的(上部小图)PHRED质量得分,(中部小图)倍数覆盖,或(底部小图)相对变体等位基因频率的总体分布。
图29显示了使用DNA标准品并比较了匹配的肺腺癌和正常基因组DNA的示例DNA测序分析。(A)来自对人工染色体的读段比对的频率分布定位质量(MAPQ)分数。(B)来自DNA标准品的125nt测序的读段长度间的核苷酸错配(序列读段和人工染色体之间)相对分布。(C,D)散点图指示了当以下列各项组合时,相对于DNA标准品的已知丰度的观察到的丰度:(C)添加到匹配的正常肺基因组DNA样品的混合物A,或(D)添加到匹配的肺腺癌基因组DNA样品的混合物B。线性相关和斜率指示了定量准确性。(E)散点图指示了相对于DNA标准品的已知浓度,由DNA标准品代表的遗传变体的测序覆盖。检测限(虚线)指示了下限浓度,因而未可靠地检测到遗传变异。
图30显示了示例DNA测序分析以鉴定遗传变异,所述分析使用DNA标准品并将匹配的肺腺癌和正常基因组DNA相比较。(A)累积频率分布图指示了分配给正确鉴定的变体(黑线)或误差鉴定的变体(虚线)的质量得分的分布。在正确和不正确鉴定的变异的质量得分中的指示的差异可用于区分在伴随肺腺癌基因组DNA样品中正确和不正确鉴定的变异。(B)直方图指示了相较于正确鉴定的变体,不正确鉴定的变体中特异性核苷酸取代(C至A和T至G)的富集。(C,D)散点图指示了与组合为下列各项的DNA标准品的已知相对变体等位基因频率相比观察的相对变体等位基因频率(相对于参考等位基因频率):(C)与肺腺癌基因组DNA样品的混合物A,和(B)与匹配的正常肺组织基因组DNA样品的混合物B。线性相关和斜率指示了测量的等位基因频率的定量准确性。需要等位基因频率的精确性和灵敏度测量以检测可能仅在全肺腺癌样品中仅有一小部分肿瘤细胞含有的突变。
图31显示了使用连结的DNA标准品的示例DNA测序分析。(A)散点图,比较了个别DNA标准品的观察的丰度,与通过迫使连结的DNA标准品组展示1的斜率在用于移液误差的标准化前所示(上部的小图)以及标准化后所示(下部小图)的DNA标准品的已知丰度相比较。这使得能够识别和除去由于移液误差引起的变化。(B)多个重叠的连接的DNA标准品通常被制造成在每个已知的丰度点提供至少三个独立的测量。由于移液误差所致的连结的DNA标准品组异常值(指示)可以容易地识别和除去。直方图(上部的小图)指示了对来自三个独立测量的每个已知丰度点测定的95%置信区间。95%置信区间显著较小(下方的小图),这是由于DNA标准品丰度标准化以除去移液误差后的定量准确性较高。
图32显示了代表大规模结构变异的DNA标准品的例子。制备了代表以下的DNA标准品:(A)倒置,(B)缺失,(C)***,(D)拷贝数变异和(E)移动元件***。将DNA标准品与GM12878人类细胞基因组DNA组合,用于文库的制备和测序。来自每个实例DNA标准品的比对覆盖率(黑色直方图)与个别序列读数比对的实例(灰色柱)一并示出。
图33显示了产生人工D4Z4重复的方法的一个实例。(A)从人基因组检索单个D4Z4重复拷贝(灰色,箭头指示相对方向)。除去了同源性(白色框)并扩增以形成头到尾的重复阵列。制备了多个DNA标准品,其匹配重复拷贝并在上游和下游半重复拷贝的侧翼,但通过条形码变异识别。DNA标准品的相对丰度与预期的重复拷贝数成正比。(B)散点图显示了相对于预期的拷贝数的每个DNA标准品(每百万个读段中)的观察的丰度。还指示的是对肺正常、腺癌、K562和GM12878基因组DNA样品通过与DNA标准品相比较测定的D4Z4重复单元拷贝数。
图34显示了BioAnalyser(2100高灵敏度DNA测定;Agilent)迹线(traces),其确认了15个扩增子的大小和纯度,所述扩增子通过使用BIOMED2通用引物(TCRγTube A和B引物)对人工TCRγ克隆型DNA标准品的成功PCR扩增产生。
图35显示了宏基因组DNA标准品的分析。(A)散点图显示了相对于DNA标准品的预期浓度,组装的DNA标准品重叠群的观察的丰度(在以RPKM计测量)。(B)三个实例显示了DNA标准品丰度对重叠群组装和覆盖的影响。尽管浓度较高的DNA标准品(上部小图)显示高序列读段覆盖和完全重叠群组装,与此相反,低丰度的DNA标准品(下部小图)显示低序列读段覆盖和组装不良。(C,D)散点图显示了DNA标准品的已知浓度相对于DNA标准品的分数覆盖与(C)测序读段比对或(D)从头组装重叠群。
图36显示了与粪或土壤微生物DNA一起使用的DNA标准品的实例宏基因组分析。(A,B)散点图显示了相较于与(A)粪样品重复1和(B)粪样品重复2一起使用的DNA标准品的预期丰度相比观察的丰度(在以RPKM计测量)。(C)散点图指示了与DNA标准品的已知丰度相比正确从头组装的DNA标准品的分数。(D,E)散点图显示了与来自Watsons Creek(D)重复1-3(混合物A)和(E)重复4-6(混合物B)的土壤样品一起使用的DNA标准品的预期丰度相比较的观察的丰度(在以RPKM计测量)。(F)散点图,指示了与混合物A(土壤样品重复1-3)和混合物B(土壤样品重复4-6)之间的DNA标准品的丰度的预期倍数变化相比,观察的倍数变化。线性相关和斜率指示了在样品间测量DNA丰度倍数变化的定量准确性。
图37显示了产生为了测量GC偏倚(bias)而产生的DNA标准品的一个实例方法。(A)来自GC宏基因组DNA标准品(细黑线)和伴随的土壤样品(重复1;粗黑线)的测序读段的GC含量的累积频率分布图。(B)与来自DNA标准品的模拟读段(虚线)的积累分布相比,来自具有极端GC含量的选择的DNA标准品的实验衍生的测序读段的累积频率分布(黑线)。我们观察到相对于模拟,具有极端GC含量的实验衍生的测序读段的低呈现。这说明GC含量对文库制备和测序程序的定量影响。(C)在土壤样品1测序期间添加DNA标准品的GC含量的累积频率分布。
图38显示了用于校准多核苷酸测序过程的合适的计算机***3800。计算机***3800包括连接到程序存储器3804,数据存储器3806,通信端口3808和用户端口3810的处理器3802。
图39显示了产生连接的合成标准品以调整NGS方法中的移液误差的一个示例方法。(A)显示了连结的标准品的可能构建的示意图。(B)显示了与加权标准化测量的丰度相比,每个个别标准品(衍生自接待(hosting)连结的标准品的浓度和连结的标准品内的拷贝数两者)的加权标准化的已知浓度的图。(C)显示了校准后对已知的个别标准浓度进行的调整。
图40(A)显示了正常基因和融合基因合成标准品的产生。(B)显示了相对于实验混合物中合成融合基因的已知浓度,在融合接合间的位置处的合成的融合基因覆盖的图。
图41(A)是累积分布图,其指示了识别NA12878基因组(虚线)和合成染色体(灰线)两者中的单核苷酸变体的敏感性。(B)识别NA12878基因组(虚线)和合成染色体(灰线)两者中小***或缺失(indel)的敏感性的累积分布图。(C)来自综合基因组查看器(IntegratedGenome Viewer,IGV)的屏幕截图,其显示了与合成染色体的读段比对中的杂合变体。
图42(A)是示意图,其指示了混合物内存在的变体等位基因频率的范围。(B)散点图,其显示了相对于参考(黑色圆圈)和变体(灰色圆形轮廓)的观察覆盖序列,预期的变体等位基因分数。(C)根据由VarScan2(由参照变体等位基因覆盖的Fisher精确检验进行计算)归因的p值阈值确定的真和假变体等位基因的累积分布。(D)显示了相对于VarScan2归因的p值阈值,检测到变体等位基因的灵敏度和特异性比率。(E)示意图,其指示了显示胎儿DNA加载范围内胎儿和母体变体的预期等位基因丰度。还指示(圆圈轮廓)的是代表三倍体事件的变体的预期丰度。
发明详述
通用:
在整个说明书中,除非另有明确说明或上下文另有要求,否则应提及单个步骤,物质组成,步骤组或将要发生的物质的组合物组,以涵盖那些步骤,物质组合物,步骤组或物质组合物组的一个(one)和多个(plurality)(即一个(one)或多个(more))。
如本文所用,除非上下文明确另有明确规定,单数形式的“一(a)”,“和(and)”和“该(the)”包括这些单词的复数形式。
术语“和/或”,例如“X和/或Y”应理解为意指“X和Y”或“X或Y”,并且应被视为为两种含义或任一含义提供明确的支持。
在整个本说明书中,单词“包含(comprise)”或变体如“包括(comprises)”或“包括(comprising)”将被理解为暗示包括所述元素,整数或步骤,或元素,整数或步骤的组,但不包括排除任何其他元素,整数或步骤,或元素,整数或步骤的组。
本文所用的术语“约”是指指定值的+/-10%的范围。
人工染色体:
本文公开的人工染色体可以作为物理多核苷酸序列产生,或者可以制备并存储在计算机中(计算机中(in silico))。对于本文所描述的许多应用,人工染色体在计算机中静止是足够的。然而,可以使用标准的,众所周知的多核苷酸生成方法产生人工染色体的物质多核苷酸序列。
本文公开的人工染色体可以包含DNA或RNA多核苷酸序列。因此,本文中对多核苷酸序列的任何参考应理解为对DNA序列或RNA序列的参考。
人工染色体的精确长度可根据人工染色体设计的具体用途而有所不同。例如,人工染色体的长度可以在约103到109个核苷酸长的范围内。在一个实例中,人工染色体包含或由长度至少为1,800个核苷酸的多核苷酸序列组成。在另一个实例中,人工染色体包含或由少于20兆碱基(Mb;其中1Mb等于1,000,000个核苷酸)长度的多核苷酸序列组成。因此,人工染色体可以是例如长度从1800核苷酸长到20Mb长。
人工染色体包括人工多核苷酸序列,其中人工多核苷酸序列的任何片段与任何已知的天然存在的基因组序列是可区分的。人工多核苷酸序列的一个优点是可以将这样的片段直接添加到含有感兴趣的天然多个甘酸靶标中,同时仍然可以与样品中存在的任何天然多核苷酸区分开来。应当理解,人工染色体可以包含与已知的天然基因组序列具有一些同源性(或序列同一性)的附加序列。任何此类附加序列不包括在人工染色体的人工多核苷酸序列中。
人工多核苷酸序列可以形成任何比例的人工染色体。因此,人工多核苷酸序列可以包括人工染色体的1%至100%。例如,人工多核苷酸序列可以包含人工染色体的约10%,20%,30%,40%,50%,60%,70%,80%,90%或95%。在一个实例中,人工多核苷酸序列形成人工染色体的大部分。因此,人工多核苷酸序列可以形成人工染色体的50%或更高,60%或更高,70%或更高,80%或更高,90%或更高,95%或更高,99%或更高。在另一个具体实例中,他人工多核苷酸序列形成人工染色体的100%。
人工多核苷酸序列的长度可以有所不同。人工多核苷酸序列的长度可以是人工染色体的整个长度。因此,人工多核苷酸序列的长度可以在约103到109个核苷酸长的范围内。在一个实例中,人工多核苷酸序列长度至少为1,800个核苷酸。在另一个实例中,人工多核苷酸序列长度小于20Mb。因此,人工多核苷酸序列例如可以是从1,800个核苷酸长至20Mb长。在另一个实例中,人工多核苷酸序列的长度可以与本文公开的片段的长度相同。例如,人工多核苷酸序列的长度例如可以是从20个核苷酸至10,000,000个核苷酸的长度。
人工染色体的人工多核苷酸序列与任何已知的天然存在的序列(即,与任何活的生物体分离的任何多核苷酸序列)几乎没有或没有同源性。因此,本文公开的染色体被描述为“人工”染色体。可以通过以下来测定同源性的程度:使用本领域已知的任何合适的序列比较方法来比较人工染色体的人工多核苷酸序列和任何已知的、天然存在的多核苷酸序列。人工染色体的人工多核苷酸序列与任何已知的天然存在的多核苷酸序列之间没有或没有共享序列同一性说明人工多核苷酸序列与任何已知的天然存在的序列几乎没有或没有同源性。
人工染色体的人工多核苷酸序列可能完全是人工的,可能与任何已知的天然存在的序列不具有任何同源性。因此,人工染色体序列可以与任何已知的天然存在的核苷酸序列共享序列同一性。
在一个实例中,人工多核苷酸序列的任何10,000,000个连续核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。在另一个实例中,人工多核苷酸序列的任何1,000,000个连续核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。在其他实例中,人工多核苷酸的任何500,000,任何100,000,任何50,000,任何10,000,任何1,000,任何500,任何400,任何300,任何250,任何200,任何150,任何100,或任何50个连续的核苷酸与任何已知的相同长度的天然存在的基因组序列具有小于100%的序列同一性。在具体实例中,人工多核苷酸序列的任何250个连续核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。在一个具体实例中,人工多核苷酸序列的任何250个连续核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。在另一个具体实例中,人工多核苷酸序列的任何150个连续核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。在一个具体实例中,人工多核苷酸序列的任何100个连续核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。在本文公开的任何人工多核苷酸序列中,人工多核苷酸序列的任何10,000,000个,任何1,000,000个,任何500,000个,任何100,000个,任何50,000个,任何10,000个,任何1,000个,任何500个,任何400个,任何300个,任何250个,任何200个,任何150个,任何100个,任何50个,任何25个,任何21个或任何20个连续的核苷酸与任何已知的相同长度的天然存在的基因组序列可以具有小于100%,小于95%,小于90%,小于80%,小于70%,小于60%,小于50%,小于40%,小于30%,小于20小于10%,小于5%或小于1%的序列同一性,以任何组合或排列。因此,例如,人工多核苷酸序列的任何21个连续核苷酸可以与任何已知的相同长度的天然存在的基因组序列小于50%,小于40%,小于30%,小于20%,小于10%,小于5%或小于1%的序列同一性。在一个具体实例中,人工多核苷酸序列的任何21个连续核苷酸与相同长度的任何已知天然存在的基因组序列具有小于50%的序列同一性。
人工染色体的小部分(例如,8,9,10,11,12,13,14或15个连续核苷酸)可以与任何已知的相同长度的天然存在的核苷酸序列同源。例如,此类小部分的人工染色体可以复制一小部分的包含感兴趣的变体序列的已知、天然存在的核苷酸序列。例如小部分(例如8个,9个,10个,11个,12个,13个,14个或15个连续的核酸)的人工染色体可以在其长度上与已知的天然存在的核苷酸序列100%相同,其中所述天然存在的核苷酸序列包含感兴趣的变体序列,如特定基因中的突变。虽然人工染色体序列的大部分可能与任何已知的天然存在的核苷酸序列(并且因此可能是人工多核苷酸序列)具有很少或不具有同源性,但人工染色体可以另外包含一个或多个这样的小部分或特定的感兴趣的序列。
当人工染色体包含与已知的天然存在的核苷酸序列共享一些序列同一性的多核苷酸序列或由其组成时,人工染色体可能不编码功能性mRNA,rRNA,tRNA,lncRNA,snRNA,snoRNA或功能性多肽或蛋白质。
尽管与任何已知的天然存在的多核苷酸序列没有共享的一级核苷酸序列同一性,本文公开的人工染色体的人工多核苷酸序列可以包含天然存在的多核苷酸序列(例如,天然存在的染色体)的一个或多个一般特征。因此,本文公开的人工染色体的片段可以包含天然存在的多核苷酸序列的一个或多个一般特征。例如,人工多核苷酸序列可以编码通常在真核和/或原核染色体或基因组中观察到的遗传特征,包括(但不限于):基因,重复元件,移动元件,小规模遗传变异,大规模遗传变异等。图1提供了此类示例性特征的说明,可以将该特征的任何一个或多个,以任何组合包括进人工多核苷酸序列中。
生成人工染色体
本公开还提供了制造(或“构建”)本文公开的人工染色体或其片段的方法。此外,本公开通过本文公开的任何一种或多种方法提供制造(或“构建”)的人工染色体或其片段。本文公开的人工染色体可以通过如本文所述的许多合适的方法构建。例如可以通过如下构建人工染色体:通过在计算机中生成与其他已知的天然存在的序列具有很少或没有序列同一性的连续的多核苷酸序列,通过随机添加核苷酸以形成延伸的连续多核苷酸序列。可用于生成人工染色体序列的合适的软件程序包括(例如但不限于):产生随机DNA序列的软件例如FaBox(Villesen 2007)或RANDNA(Piva和Principato2006);改组DNA序列的软件例如uShuffle(Jiang,Anderson et al.2008)和Shufflet(Coward 1999)。
或者,可以通过以下构建人工染色体:通过从天然来源鉴定的已知或天然的核苷酸序列(其在本文中可以称为“模板”序列)中检索,然后改组(或“重排”)该核苷酸以除去或降低所述模板与任何已知、天然存在的多核苷酸序列共享的序列同一性。在一个实例中,可以改组人工染色体的所有核苷酸以改变核苷酸顺序。在一个实例中,可以将模板核苷酸序列内的连续的核苷酸分配入沿着模板序列的离散(discrete)核酸窗口中,并且仅这些在单个窗口内的核苷酸可以被一起改组。这允许窗口内的一级核苷酸序列改组,使得改组(或“重排”)序列与任何已知的、天然存在的序列享有很少或没有序列同一性,但保留原始已知或天然序列典型的核苷酸组成的更广泛的特征。例如,窗口内的任何核苷酸偏倚(biasing)(如高鸟嘌呤或胞嘧啶含量)可以通过确保应用于模板序列的窗口中存在的相同核苷酸保留在同一窗口内的改组序列中(如图2中的图示所示)来保留在改组窗口的长度上。因此,本文所指的“改组”在多核苷酸序列的固定长度内重排了相同的核苷酸,并且不涉及在多核苷酸序列的固定长度内存在的每个特定核苷酸的数目的改变。
因为序列特异性特征可能会影响下一代测序和分析中自然遗传特征的表达,因此保留模板序列的高水平核苷酸组成特征可能是有利的。例如,在文库制备期间,通过PCR可能不太好地扩增具有高或低鸟嘌呤或胞嘧啶含量(GC%)的序列,这导致测序文库中的差的表达。或者,可能难以明确地排列具有重复序列结构的序列,导致分析期间的差的显示。由于本文公开的人工染色体和标准品可以设计成模拟天然遗传特征,因此可以制备人工染色体或标准品的合成的一级序列以作为模板序列反映相同的序列特异性偏倚。因此,本文公开的人工染色体或标准品可具有人工一级序列,但同时保持作为原始模板序列的核苷酸组成和/或重复结构。
选择进行任何改组的窗口大小可以对应于固定的多核苷酸长度(例如10,15,20,30,40,50,60,70,80,90,100,150,200,250,300,400,500,600,700,800,900,1000或更多核苷酸)。或者,选择的窗口大小可以对应于存在于模板序列中的高水平遗传特征(例如内含子,外显子,CpG岛等)的边界。例如,可以改组基因的一级内含子和外显子序列但仍然保持外显子和内含子特征的组织(organisation)。因此,可以保留高水平遗传特征的结构和组织,尽管人工染色体内的人工多核苷酸序列的一级序列与已知或天然序列不匹配。
或者,可以通过检索从天然来源鉴定的已知或天然核酸序列(“模板”序列),然后反转模板序列来构建人工染色体。天然存在的核苷酸序列(DNA或RNA序列)具有由核苷酸碱基之间的磷酸二酯键施加的固有的5'至3'方向性。将序列反转到3'至5'方向违反了该方向性,并产生不再与原始模板序列具有同源性(或序列同一性)的序列。制备人工染色体的这种方法的一个优点是保留原始序列的核苷酸组成和重复性,即使除去了与模板序列的序列同一性。因此,反向序列是“人工的”并可以与原始内源序列(其具有正确的方向性)区分开来。
或者,可以通过以下构建人工染色体:通过检索从天然来源鉴定的已知或天然核苷酸序列(“模板”序列)然后用核苷酸替代序列内的替代核苷酸。例如,鸟嘌呤核苷酸可以取代胞嘧啶核苷酸,胞嘧啶核苷酸可以取代鸟嘌呤核苷酸,腺嘌呤核苷酸可以取代胸腺嘧啶核苷酸,和/或胸腺嘧啶核苷酸可以取代腺嘌呤核苷酸。通过以***的方式取代核苷酸,尽管个别核苷酸和一级序列也可能发生变化,但是可以维持序列的重复结构,可以维持嘧啶和嘌呤的组成,和/或保持GC含量。
应当理解,改组,取代和倒置(reversing)技术的每个均可以在构建人工染色体和/或其片段期间以任何组合或置换方式应用。因此,例如,可以倒置模板序列,然后可以将倒置序列的所选窗口进行改组,以便减少或除去与已知天然序列相反的序列中的任何残基同源性。或者,可以对模板序列进行改组,并且可以倒置改组序列的所选窗口,以便减少或除去改组序列中与已知天然序列的任何残基同源性。
为了确认是否与存在于人工染色体核苷酸序列内的已知天然序列同源,可以使用软件程序如BLASTn软件程序检索已知的核苷酸序列数据库(如NCBI核苷酸收集(nr/nt)数据库)(Altschul,S.F.,et al.,1990)。还可以使用促进多个核苷酸序列比对和比较的其他合适的软件程序,例如FASTA(Pearson and Lipman 1988)或ENA序列查找(http://www.ebi.ac.uk/ena/search/)。对于复杂序列,同源性通常对应于与已知序列匹配的21个或更多个连续核苷酸序列(例如,在21个或更多个核苷酸序列长度上具有100%的序列同一性)。对于简单序列(例如重复或单核苷酸组合物),同源性对应于小于或等于0.01的预期(E)值(如定义于NCB1BLAST(Altschul,S.F.,et al.,1990))。因此,本文公开的人工多核苷酸序列的任何21个或更多个连续核苷酸可以具有小于或等于0.01的E值(如定义于NCB1BLAST(Altschul,S.F.,et al.,1990))。
如果改组、取代和/或颠倒(reversing)技术没有除去或足以降低与其他、已知、天然存在的序列共享的序列同一性至需要的程度,则可以制备个别核苷酸取代以实现降低序列相似性的所需水平。因此,可以通过苷酸的特异性***、缺失或取代来进一步编辑(或“策划”)改组的、取代的或颠倒的(reversed)序列,以除去任何剩余的共享序列同一性。因此,本文公开的产生人工染色体的方法还可以包含编辑改组的、取代的或颠倒的(reversed)核苷酸序列以除去任何与任何已知、天然存在的序列共享的序列同一性。
可以改组、取代或倒置(reverse)任何天然基因组或染色体序列以除去同源性,但保留天然基因组或染色体序列的核苷酸组成的特征。合适的天然核苷酸序列可以从任何一个或多个可公开获得的核苷酸在线数据库中鉴定。合适的核苷酸在线数据库的实例包括GenBank和核苷酸收集(nr/nt)数据库(National Center for BiotechnologyInformation),日本DNA数据银行(National Institute of Genetics)以及EMBL-BANK(European Bioinformatics Institute)。或者,可以通过从天然来源分离多核苷酸并使用已知的测序技术测序那些多核苷酸来获得合适的天然核苷酸序列。在一个实例中,天然基因组或染色体序列是哺乳动物基因组或染色体序列,例如人或鼠基因组或染色体序列。例如,天然核苷酸序列可以选自参考人基因组序列(例如,最新注释的版本hg19)。或者天然核苷酸序列可以选自任何哺乳动物序列(例如,M.musculus mm10),任何脊椎动物基因组(例如D.rerio danRer7),任何动物序列(例如秀丽线虫(C.elegans)ce10,D.melanogastordm3等),任何植物序列(例如A.thalianis tair9),任何真菌序列(例如N.crassa)或任何真核细胞序列(例如酿酒酵母(S.cerevisae)SacCer6),或任何细菌序列(例如大肠杆菌eschColiK12),或任何古细菌序列(例如M.kandleri methKand1),或任何病毒,噬菌体和细胞器序列(例如丁型肝炎病毒)。
本文公开的人工染色体内的人工多核苷酸序列可以与衍生自单个物种的任何已知天然存在的基因组序列,或与衍生自多个物种的任何已知天然存在的基因组序列区分开,例如,本文公开的人工染色体内的人工多核苷酸序列可以与任何天然存在的人基因组序列区分开。在另一个实例中,本文公开的人工染色体内的人工多核苷酸序列可以与任何生物体的所有已知天然存在的基因组序列区分开。
在另一个说明性实例中,具有高GC含量的Anaeromyxobacter dehalogens基因组可用作模板序列。改组A.dehalogens基因组序列可以产生包含与原始A.dehalogens基因组(或任何其他天然或已知序列)没有同源性(或者没有共享的序列同一性)的多核苷酸序列的人工染色体,然而其保留了是A.dehalogens基因组的特征的高GC含量。
本文公开的方法可用于生成多个连续的核苷酸序列而与任何已知或天然序列不同源(或共享序列单一性)。可以重排和组合这些多个序列以形成单个合并的连续序列。因此,本文公开的人工染色体可以以模块化的方式构造,其在其设计和构造中提供了大量的灵活性。例如,有可能编码不同遗传特征的多个序列可以在被集体组装成单个复合人工染色体之前被独立构建。组装不同的序列组合还可以为特定的研究或诊断要求提供定制的人工染色体的构建体。
此外,可以生成多个(即两个或更多个)人工染色体并一起使用。因此,本公开还提供了两个或多个人工染色体的文库。可以根据文库的特定目的的应用来选择填充文库的染色体数量。在一个实例中,人工染色体文库可以模拟整个基因组(包括多倍体基因组)的组织。例如,可以创建含有46人工染色体的人工染色体文库,以模拟跨越46个不同染色体序列的人基因组的组织。因此,可以复制个别人工染色体序列以形成多倍体人工基因组。可以在复制的人工染色体之间掺入序列变异,从而模拟天然接合性(zygosity)。在另一个实例中,人工染色体文库可以模拟作为微生物集合或群落存在的多个微生物基因组(如可以作为经受测序分析的存在于环境中的样品)。例如,此类集合可以包含超过10个,如约30个不同的人工染色体。
额外的人工染色体特征:
如上所述,人工染色体(或其片段)可以掺入更高水平的特征,如真核细胞基因座,CpG岛,移动元件,重复多核苷酸特征,小规模遗传变异和大规模遗传变异或原核细胞基因座,DNA重复和/或移动元件,尽管包含不存在于一个或多个(或任何)天然生物体中的一级核苷酸序列,其不编码全长或功能性mRNA、rRNA、tRNA、microRNA、piRNA、lncRNA、snRNA、snoRNA、功能性读框、多肽或蛋白质。本文描述了人工染色体的这些和其他附加或替代特征。
人工基因
人工染色体的人工多核苷酸序列可以包含一个或多个人工基因。一个或多个人工基因可以包含一个或多个具有居间内含子的外显子。内含子和/或外显子可以是任何合适的长度。例如,外显子的长度可以为25个核苷酸至10千碱基(kb)。内含子的长度可以为50个核苷酸至2兆碱基(Mb)。整个基因大小可以在200个核苷酸至4Mb的范围内。人工染色体上存在的人工基因数量可能在1到10,000之间。每个人工基因产生的同等型的数量可以在1到200之间变化。每人工基因的外显子数量可以在1到300之间变化。每人工基因的内含子数量可以在1至300之间变化。
人工基因可以通过本文所述的任何合适的方法产生。例如,可以使用本文所述的改组技术,使用对应于天然存在的模板核苷酸序列的天然存在的内含子和外显子的改组窗来创建人工基因。一旦改组(并进一步手动编辑,如果需要),然后可以在人工染色体中重建具有原始天然存在基因的内含子和外显子结构的人工基因(如图3中的人工染色体的图示所示)。另外,可以将少于15个核苷酸的小序列元件(例如剪接和转录起始位点和停止序列元件)填充在人工染色体内编码的人工基因座周围。
人工移动元件
人工染色体的人工多核苷酸序列可以包括一个或多个移动重复元件。移动重复元件是高度相似的DNA序列,其作为跨越人工染色体的多个拷贝存在。它们的长度和丰度可根据需要变化。例如,可以掺入本公开的人工染色体的人工移动元件的重复单元可以是5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000或更多个核苷酸长度。例如,人工移动元件的重复单位的大小可以从100个核苷酸到10kb不等。本文公开的人工染色体中存在的重复元件的数量可以占人工染色体长度的0.1-90%。
在一个实例中,可以定制移动元件的长度和丰度以便模拟自然移动***元件。再次,生成移动元件的一级序列,以便与任何已知的天然存在的移动元件共享很少或没有序列同一性。可以包括在本公开的人工染色体中的合适的移动元件的实例是模拟人类SINE元件的移动元件。此类移动元件的长度约为350个核苷酸。在一个实例中,模拟人类SINE元件的多个移动元件可以掺入人工染色体中,使得它们占人工染色体序列的约10%(例如,10.7%)。
可以生成人工移动元件,以便模拟从古代到最近***事件的突变的积累导致的移动重复元件的层次结构(Lander,E.S.et al.,2001)。例如,可以改组最初,移动元件的原始、天然(“祖先”)重复序列以除去与已知天然序列的同源性。然后可以复制改组的移动元件序列以产生多个拷贝。例如,人工染色体可以包含至少2个,至少3个,至少4个,至少5个,至少10个,至少20个,至少30个,至少40个,至少50个,至少60个70,至少80,至少90,至少100,至少500,至少1,000或至少2,000或更多个拷贝的人工移动元件。然后可以将一个或多个拷贝(或每个拷贝)进行随机核苷酸替换,***和缺失以从祖先序列复制移动重复序列的序列简并(degeneration)(如图4中的图示所示)。移动元件还可以经历多个进一步的核苷酸替换和扩增循环,以创建一系列移动元件。
重复多核苷酸序列
人工染色体的人工多核苷酸序列可以包含重复的多核苷酸特征,例如包括重复DNA特征例如包括端粒,反向重复,和串联重复例如着丝点。串联,颠倒和末端重复DNA可以通过一系列重复单位扩增事件进化,导致新的重复亚家族的扩散。当通过使用连续轮重复单元扩增,接着人工复制序列差异来设计人工重复DNA来设计人工重复DNA时,可以模拟产生重复DNA序列的该过程(例如,通过操作重复单元以***随机核苷酸取代,缺失和/或***;如图5中的图示所示)。该迭代过程可以产生重复DNA串联阵列,其维持重复单元子集之间的层级关系。
因此,人工染色体的人工多核苷酸序列可以包含模拟人类重复遗传特征的人工重复DNA,如卫星DNA。在另一个实例中,人工染色体可以包含一个或多个着丝点。着丝点可以构成具有25-5,000个核苷酸长的DNA序列的串联重复单元的大阵列。或者或另外,人工染色体可以包含重复的端粒序列。重复的端粒序列可以是任何合适的长度。例如,重复端粒序列可以包含5,6,7,8,9,10,11,12,13,14,15,20或更多个核苷酸的重复单元。例如,重复端粒序列的长度可以是4-10个核苷酸。在一个实例中,此类端粒序列可以包含在序列末端多达10kb的串联重复的6个核苷酸基序。其他合适的重复可以根据需要进行设计。任何合适数目的重复可以掺入本文公开的人工染色体中。在一个实例中,端粒重复的拷贝数可以为5,000-50000。
小规模遗传变异
可以将小规模遗传变异(例如包括单核苷酸多态性,***,缺失,重复和长度小于50个连续核苷酸的多核苷酸多态性)掺入本文公开的多个人工染色体中。例如可以生成人工染色体对之间的核苷酸差异以便模拟遗传变异,其中呈现在像个或多个人工染色体上的两个或多个变体代表两个或多个等位基因(如图6中的图示所示)。因此,多个人工染色体可以表示多个等位基因。例如,可以产生模拟二倍体基因组的一部分的人工染色体的两个匹配拷贝,以便包含一个等位基因的两个拷贝(从而模拟纯合子)。或者,人工染色体的两个拷贝中的每一个可以包含不同的等位基因(从而模拟杂合子)。应当理解,根据需要可以在多个人工染色体上制备多个等位基因。因此,本公开提供了多个人工染色体的集合(或“文库”),其表示天然存在的等位基因变异。在一个实例中,提供了在2、3或4人工染色体上的2个,3个或4个人工等位基因。
在本文公开的人工染色体的小规模遗传变异的产生中,可能需要编辑小规模变异核苷酸序列和侧翼人工序列以除去与已知天然序列的任何同源性。
代表与疾病相关的遗传变异的多核苷酸序列也可以掺入本文公开的人工染色体中。例如,具体的诊断遗传特征(例如特定的SNP)可***人工染色体,以为突变提供匹配的局部序列上下文(context),而在更广泛的水平上与已知的天然序列保持很少或没有同源性。
由于模拟已知遗传变异需要多个人工染色体,可以生成被视为“共有”,或“参考”序列(类似于共有基因组组装如hg19人基因组组装,mm10小鼠基因组组装等)和一个或更多个不同的人工染色体(或“变体”人工染色体),所述人工染色体与遗传变异的一个或多个位点处的参考染色体不同。因此,本文公开的人工染色体文库可以包括在遗传变异的一个或多个位点处与参考染色体不同的单参考人工染色体和一个或多个变体人工染色体。
大规模遗传变异
也可以将大规模遗传变异(每个涉及50个或更多个连续核苷酸的核苷酸序列的大的缺失,重复,拷贝数变异,***,倒位和易位)掺入本文公开的多个人工染色体中。自然发生的大规模遗传变异常常影响大于典型***枪短序列读取长度的核苷酸序列,进一步使天然存在的样品核苷酸序列中结构变异的检测和分辨进一步复杂化。
如本文所述,可以使用与大规模变异的结构单元大小匹配的窗口大小对受倒置,拷贝数变异和/或移动元件***影响的核酸序列进行改组。例如,单个重复单元可以在复制之前进行改组,从而得到的重复拷贝共享相同的改组序列。在另一个实例中,序列可以在倒置之前进行改组,因此只有方向和断点与模板序列不同。在另一实例中,可以在***移动元件之前对序列进行改组,使得***在同一人工染色体中与其他移动元件保持序列同源性。
可掺入本文公开的多种人工染色体中的大规模遗传变异的一个例子是易位。可以通过两个人工染色体之间的序列重排,产生两个相互融合的人工染色体来发生易位(如图9中的图示所示)。两个非同源人工染色体之间的易位可导致两个不同基因的融合以产生嵌合基因融合。因此,本文公开的人工染色体可以包含一个或多个人工嵌合基因融合体。
人工微生物基因组
可以将本文公开的人工染色体的人工多核苷酸序列设计为模拟微生物基因组(其中人工染色体在本文中也称为“人工微生物基因组”)。例如,人工染色体可以通过改组天然微生物基因组来产生,以除了通过本文公开的方法与天然序列的一级序列同源性(如图10中的图示所示),而仍然保留原始微生物基因组的特定特征,(例如但不限于大小,rRNA操纵子数,GC%,重复含量等)。
可以生成多个人工染色体,以模拟人工微生物群落进行宏基因组分析。因此,本公开还提供了两种或更多种人工微生物基因组的文库,其中已经减少或除去了与原始天然存在的微生物基因组序列的任何共享序列同一性。可以选择个别人工微生物基因组的相对丰度,以对应于宏基因组样品中微生物群体的不同丰度。因此,可以产生人工微生物基因组文库,以模拟在宏基因组分析期间通常分布的异质微生物群落。可以将本文公开的任何合适数量的人工微生物基因组组合成文库。在一个实例中,文库可以含有3-3,000人工微生物基因组。
本文公开的人工微生物基因组可以编码一个或多个基因座。基因座可以包含人工16S rRNA基因,其通常用于宏基因组群落的***发育谱(例如参见Edwards,R.A.et al.,2006)。16S rRNA基因内可变区的PCR扩增和测序一直是评估样品中微生物丰度和分类多样性的主要方法。存在于本文公开的人工微生物基因组中的人工16S rRNA序列通常被洗牌以除去与已知天然序列的同源性,与扩增子测序中使用的通用引物互补的序列可以定制成与天然序列保持相同(如图11中的图示所示)。
人工免疫受体克隆型
本文公开的人工染色体的人工多核苷酸序列可以编码一个或多个免疫细胞受体基因座,包括IgA、IgH、IgL、IgK、IgM、TCRA、TCRB和TCRG受体或其他中的任何一种或多种的代表。这些免疫球蛋白和T细胞受体基因座经历V(D)J重组和体细胞超突变以产生称为克隆型的不同范围的序列。可以使用人工染色体序列来建模这些生物过程,以生成一套人工克隆型。
可以在基因组序列中(如人基因组中)分别检索和改组来自免疫球蛋白和T细胞受体序列的可变(V)片段,连接(J)片段和多样性(D)片段序列(和侧翼内含子)以减少或除去同源性。在一些实例中,可能需要保留与通常用于免疫受体的扩增子分析的通用引物序列互补的小(例如20个核苷酸长)序列(例如参见van Dongen,J.J.et al.,2003)。然后可以通过一下进行人工免疫球蛋白和T细胞受体基因座的V(D)J重组:随机选择首先与随机选择多样性(D)片段组合的连接(J)片段以形成除去***序列的D-J基因片段,然后链接随机选择的可变(V)片段,导致人工VDJ基因片段中的重组(如图12和13中的图示所示)。不同片段的随机选择产生不同片段组合的巨大库。可以通过片段连接处或片段内的核苷酸的取代,添加或缺失来添加额外的多样性。每个重排的人工VDJ基因片段在本文中称为“克隆型”。通过这种方法可以产生大量的人工克隆型,从而模拟人白细胞免疫曲目测序期间通常观察到的天然免疫受体克隆型的大小,多样性,复杂性和分布。
计算机可读介质:
本文公开的人工染色体可以以计算机方式提供,并且因此可以提供在计算机可读介质上。因此,本公开还提供了包含表示本文公开的一个或多个人工染色体的数据的计算机可读介质。计算机可读介质可以是非暂时性的。
计算机可读介质可以与适于分析存储在计算机可读介质上的人工染色体或染色体的计算机***一起提供。
本公开还提供允许分析存储在计算机可读介质上的人工染色体或染色体的软件。例如,软件可以允许执行序列比较,将给定输入序列的序列与人工染色体序列进行比较。可以使用能够实现该功能的任何已知的软件包。
多核苷酸标准品:
本文公开的人工染色体序列的任何部分或全部可以物理地形成为RNA或DNA多核苷酸。因此,本公开还提供了本文公开的人工染色体的片段,其中所述片段包含人工染色体的人工多核苷酸序列的20至10,000,000个连续核苷酸或由其组成。例如,所述片段可以包含或由人工多核苷酸序列的任何10,000,000个,任何1,000,000个,任何500,000个,任何100,000个,任何50,000个,任何10,000个,任何1,000个,任何500个,任何400个,任何300个,任何250个,任何200个,任何150个,任何100个,任何50个,任何25个,任何21个或者任何20个连续核苷酸组成。此类片段在本文中被称为“标准品”。多核苷酸标准符合人工染色体的人工序列。因此,多核苷酸标准能够表示本文公开的人工染色体的任何一个或多个特征。应当理解,本文公开的标准品可以独立于人工染色体使用。例如,人工标准品可用于校准多核苷酸定量过程,无需参照人工染色体。
基于本文公开的人工染色体的物理有形标准品的生成允许校准各种测序方法(包括PCR扩增和NGS测序方法)。例如,这可以通过在进行扩增和/或测序方法之前,向给定的RNA或DNA样品中添加已知量的一种或多种多核苷酸标准品来进行。用对人工染色体的参照物来分析已知多核苷酸标准品的测序提供了强大的校准所使用的特定扩增和/或测序方法。
RNA标准品的产生
标准品可以是RNA标准品。RNA标准品是与人工染色体编码的RNA分子相匹配并代表感兴趣的特征。例如,RNA标准品可以代表由人工染色体编码的人工基因或转录元件或其片段。在一个实例中,RNA标准品不包括与任何已知的天然序列的任何同源性。因此,RNA标准品的长度可以根据感兴趣的特征而变化。在一个实例中,RNA标准品的长度可以从200个核苷酸到30kb不等。
人工染色体感兴趣的序列可以合成为DNA序列。DNA序列可以与活性启动子可操作地连接到载体中。因此,本公开还提供了编码人工染色体的片段的DNA分子。本公开还提供了包含编码人工染色体的片段的DNA序列的多核苷酸载体(例如DNA载体)。可以使用任何合适的载体。在一个实例中,载体是表达载体。表达载体可以含有能够引导本文公开的标准品转录的任何合适的启动子和/或增强子。
本文公开的载体可以用作产生RNA分子的RNA合成反应的模板。因此,本公开内容还提供了用于产生本文公开的多核苷酸标准的方法,其包括从本文公开的载体合成RNA分子。合适的RNA合成方法是众所周知的。例如,此类合成方法可以在无细胞的体外表达***中进行。或者,此类方法可以在体内表达***例如宿主细胞中进行。然后可以通过已知方法纯化产生的RNA分子,以产生最终的RNA多核苷酸标准品。
因此,本公开提供了可用于产生与人工染色体序列的人工序列的部分或全部匹配的RNA标准品的方法。图14中显示了产生RNA标准品的合适方法的概述。
多个RNA标准品的混合物
多RNA标准品可以作为混合物一起使用。因此,本公开提供本文公开的一种或多种RNA标准品的混合物。该混合物可以包含任何合适的缓冲液,以维持RNA标准品的结构完整性。
个别RNA标准品可以在不同浓度的范围内稀释,然后合并成RNA标准品的混合物。因此,RNA标准品在不同浓度范围内的混合物可以包含定量规模(quantitative scale)。定量规模可以包括不同顺序丰度的RNA标准品的梯度。该规模可用作参考,以测量随机样品内天然RNA转录物的丰度。可以制备不同的RNA标准品的相对浓度的替代混合物。替代混合物中RNA标准品的比较可以测定RNA标准品的差异丰度,从而提供可用于测量两个或更多个样品之间RNA中丰度变化(如在基因表达中发生)的参考物。
每个混合物提供的RNA标准品的数量可以从3-3000个变化,例如3-300个每制备的混合物。例如,可以提供含有约90个RNA标准品的混合物。RNA标准品可以添加到感兴趣的样品中,从而构成样品中存在的总RNA的约0.001-50%,例如约1%。
代表人工基因的RNA标准品
RNA标准品可以设计为匹配人工染色体的人工多核苷酸序列中编码的任何人工基因。连续的RNA标准序列与人工外显子序列匹配,而排除***的内含子序列(如图3中的例证所示)。因此,RNA标准品可以包含对应于由人工染色体编码的人工基因的外显子序列的连续核苷酸序列或由其组成。这模拟了基因剪接的天然过程,其中内含子序列是除去的,并且外显子序列是连接在一起的。
RNA标准品可以设计用于模拟生物过程的可变剪接,其中包括或排除特定的外显子以形成基因座的多个同等型。此外,可以生成从单个基因座产生的多个同等型的多个RNA标准品。通过组合匹配不同浓度的多个可变mRNA同等型的多个RNA标准品,可以模拟可变剪接事件,其包括,例如内含子保留,盒外显子,可变转录起始和终止,非规范剪接等。可以变化表示每个同等型的RNA标准品的相对丰度,以对应于所表示的替代剪接事件的频率。
代表人工融合基因的RNA标准品
两个人工染色体之间的易位可以将两个不同的人工基因加入到单个融合基因(或“嵌合体”)中。可以生成RNA标准品,以便匹配人工染色体之间由易位产生的融合基因。
易染色***通常仅影响染色体对(或高等多倍体生物体中多个等效染色体)的一条染色体,而染色体对中的另一个染色体保持不受影响。因此,生成代表基因的两个正常(即非融合)拷贝的RNA标准品和融合基因的单拷贝可能是有利的,从而模拟杂合基因型(如图9中的图示所示)。可以改变与融合基因相匹配的RNA标准品的相对浓度,以模拟研究的测试样品中建模的特定融合基因可能的浓度。例如,在极少残留疾病的情况下,其中肿瘤样品中只有一小部分细胞含有易位等位基因并表达融合基因,可以使用人工融合基因的低浓度。
DNA标准品的产生
标准品可以是DNA标准品。DNA标准品是与人工染色体中的人工感兴趣的序列相匹配的DNA分子。在一个实例中,DNA标准匹配人工染色体中的特征序列。因此,本公开还提供了本文公开的人工染色体的人工序列的DNA片段。可以使用任何合适的已知DNA合成方法作为DNA分子物理地产生人工染色体序列的部分或全部。因此,DNA标准品的大小和含量可以根据选择用于形成DNA标准品的人工染色体的特定片段而变化。在一个实例中,DNA标准品的长度可以从20个核苷酸变化到20Mb。
可以将与人工染色体序列匹配的DNA分子***载体。可以使用任何合适的载体。例如,载体可以是质粒载体。可以将合成的DNA分子***到任何两个合适的限制性内切酶一致性(consensus)识别位点之间的载体中。例如,可以将合成的DNA分子***到两个III型限制性内切核酸酶一致性(consensus)识别位点之间的载体中(在图15的图示中示例)。.这允许通过使用一种或多种限制性内切酶从载体中切出来产生DNA标准品。因此,本公开提供了生成DNA标准品的方法,其包含合成对应于人工染色体序列的DNA片段,将DNA片段***载体(如质粒载体)并随后通过限制性内切核酸酶消化从载体中切出DNA片段。
可以使用生成DNA标准品的替代方法。例如,可以通过扩增反应产生DNA标准品(其可以例如存在于载体中,例如质粒载体)。例如,通过使用与DNA标准品的任一末端序列互补的PCR引物,可以使用PCR扩增来产生DNA标准品的多个拷贝。可以使用已知产生DNA分子的多个拷贝的任何合适的扩增方法。图15中显示了产生DNA标准品的合适方法的概述。
多个DNA标准品的混合物
多个DNA标准品可以作为混合物一起使用。因此,本公开提供本文公开的一种或多种DNA标准品的混合物。该混合物可以包含任何合适的缓冲液,以维持DNA标准品的结构完整性。
个别DNA标准品可以在不同浓度的范围内稀释,然后合组合为DNA标准品的混合物。因此,跨越不同浓度范围内的DNA标准品的这种混合物可以包含定量尺度。定量尺度可以包含不同顺序丰度的DNA标准品的梯度。该尺度可用作参考,以测量伴随样品中天然DNA转录本的丰度。
可以制备不同于DNA标准品的相对浓度的替代混合物。替代混合物中DNA标准品的比较从而可以测量DNA标准品的差异丰度,从而提供可用于测量两个或更多个伴随样品之间DNA分子丰度变化的参考尺度。例如,两个混合物之间DNA标准品丰度的差异可以提供比较两个样品之间微生物基因组DNA丰度差异的尺度。
每个混合物所提供的DNA标准品的数量可以从3-3000个变化,例如3-300个每制备的混合物。例如,可以提供含有约90个DNA标准品的混合物。可以将DNA标准品添加到感兴趣的样品中,从而占0.001-50%,例如样品中存在的总DNA的约1%。
连结的DNA标准品
使用标准分子生物学技术,如限制性消化和链接或Gibson组装,可以将多个DNA标准品连在一起(或“连结的”)成为单个连续的序列(例如,如图16所示)。因此,本公开还提供了连结的DNA标准品。本公开还提供了制备连结的DNA标准品的方法,其包含将本文公开的两个或多个DNA标准品连接成单个,连续的序列。
单个连结的标准品可以包含重复成多个拷贝数的个别DNA标准品。因此,可以使用拷贝数建立DNA标准品的差异丰度。本公开还提供了制备包含多个DNA标准品的连结DNA标准品的方法,其中每个DNA标准品以作为连结的DNA标准品中的多个拷贝存在。
另外,单个连结的标准品可以包含多个不同的个别DNA标准品,其中以任何组合将每个拷贝为任何所需的拷贝数。
个别DNA标准品丰度的变化可能是由于移液或等分试样的误差引起的。然而,将多个个别DNA标准品连接成大的连结的DNA标准品除去由于移液或等分而导致的任何差异(因为连结的DNA标准品等分一次)。
可以使用包含连结的DNA标准的不同拷贝数的多个个别DNA标准品的丰度来估计由于移液引起的误差。这是因为连结的标准品中的移液误差是相同的,并且依赖于一并组合成连结DNA标准品的个别DNA标准品。观察到的已知丰度的个别DNA标准品之间的最佳拟合线的斜率被连接成单个连结的DNA标准品指示了连结DNA标准的移液误差估计。根据这一估计,DNA标准丰度的随后标准化可以将这种变化的来源降到最低。这种内部标准化方法可以更准确地测量丰度,
任何合适的类型和数量的个体DNA标准品可以结合形成连结的DNA标准品。在一个实例中,6个个别DNA标准品结合形成一个连结的DNA标准品。此外,可以将浓度范围内的多个连结的DNA标准品组合起来形成混合物。在另一个实例中,将30个连结的DNA标准品组合以形成混合物。
表示人工微生物基因组的DNA标准品
宏基因组学需要研究来自不同生物体的多个基因组,并且可以应用于描述微生物基因组的群落。例如,可以使用宏基因组分析来确定序列并测量单个样品(如环境样品)内多个微生物基因组的丰度。可以制备匹配和表示人工微生物基因组的DNA标准品,从而模拟微生物群落结构和多样性。
因此,本公开提供了基于人工微生物基因组的DNA标准品。此类DNA标准品可以仅匹配全人工微生物基因组的代表性子序列(例如如图10所示)。例如,微生物基因组大小变化很大(对于普通分类群一般在0.5到7Mb之间)。因此,DNA标准品可能与全长人工微生物基因组具有比例长度(例如0.5和7Kb的1%大小之间)。
此外,微生物的基因组表现出宽泛的GC含量百分比(例如,20%-75%)。本文公开的DNA标准品可以具有与全长人工微生物基因组的比例GC含量(例如,从20%至75%范围)。使用与人工微生物基因组中只有代表性子序列匹配的DNA标准品可以减少对微生物群落进行分类所需的序列深度,同时保持与天然样品中通常存在的微生物群落结构相似的标准品之间的丰度。
表示小规模变异的DNA标准品
小规模遗传变异区分人工染色体序列的两个或多个变异等位基因(例如,如图6所示)。DNA标准品可以设计为代表多个人工染色体之间的此类小规模遗传变异。例如,可以生成与“参考”人工染色体中存在的等位基因的序列匹配的个别DNA标准品,并且可以生成与“变体”人工染色体中存在的等位基因的序列相匹配的个别DNA标准品。
DNA标准品的相对丰度可以匹配等位基因的相对频率。例如,相同丰度的匹配可变变体的一个DNA标准品与匹配参考变体的一个DNA标准品可以模拟二倍体基因组中等位基因的杂合频率。在另一个实例中,匹配可变变体的单个DNA标准品可以模拟二倍体基因组中的纯合变异。在另一个实例中,不同丰度的匹配可变变体的一个DNA标准品和匹配参照变体的一个DNA标准品可以模拟异质性频率(以非双等位基因比例存在,例如当仅样品的子集含有突变时)。因此,可以制备DNA标准品以模拟人工染色体之间遗传变异的存在和频率。
表示大规模结构变异的DNA标准品
大规模遗传变异可以区分人工染色体序列的两个或多个变异等位基因。可以将DNA标准品设计为匹配和表示多个人工染色体之间的此类大规模遗传变异(例如,如图8所示)。DNA标准的相对丰度可以匹配大尺度变异的相对频率,并且模拟接合性(zygosity)。
可以提供与串联重复阵列中的一个或多个重复单元匹配的DNA标准品(例如,如图5所示)。也可以选择DNA标准品浓度的变化以模拟重复单位拷贝数。例如,可以制备丰富的DNA重复标准品以对应于高拷贝数变体。相反,可以制备低丰度DNA重复标准品以对应于低拷贝数变体。此外,可以校准DNA标准品的相对丰度也以匹配所需的等位基因频率。
测序条形码以区分DNA标准品
为了区分与相同DNA序列匹配的DNA标准品(例如相同的重复元件),可以将一个或多个“条形码”核苷酸序列掺入DNA标准品中(例如,如图17所示)。条形码核苷酸序列通常是仅构成总DNA标准品序列的一小部分的小(例如4、5、6、7、8、9或10个核苷酸)连续或非连续的核苷酸序列。例如,一个或多个条形码核苷酸序列可以占DNA标准品的总核苷酸序列的小于10%,例如小于9%,例如小于8%,例如小于7%,例如小于6%,例如小于5%,例如小于4%,例如小于3%,例如小于2%,例如小于1%。条形码核苷酸序列的存在可以允许鉴定DNA标准品。例如,当多个DNA标准品匹配相同的人工染色体序列时,“条形码”核苷酸序列允许在所有DNA标准品中鉴定出符合相同人工染色体序列的特定DNA标准品。可以在分析过程中除去或修改条形码序列因此不会影响比对。
表示免疫受体克隆型的DNA标准品
可以设计本文公开的DNA标准品,以便匹配和表示由相应人工染色体内编码的免疫球蛋白和T细胞受体基因座产生的人工克隆型(例如,如图12和13所示)。在一个实例中,DNA标准品包含随机选择的V,D和J片段的克隆型序列。本文公开的DNA标准品还可以保留与通常用于免疫谱系测序的通用引物序列互补的小序列。例如,DNA标准品可以保留BIOMED-2(van Dongen,Langerak等人2003)研究中描述的天然克隆型多样性的引物序列。
可以通过这种方法生成大量的DNA标准品,每个代表人工克隆型。这些DNA标准品可以组合成混合物,所述混合物模拟人白细胞免疫曲目测序期间通常观察到的天然受体克隆型的大小,多样性,复杂性和分布(profile)。
表示16S标记基因的DNA标准品
DNA标准品可以代表来自人工微生物基因组的人工16S rRNA基因序列(例如,如图11所示)。除了通常用于扩增子测序的通用16S引物保留两个互补序列外,人工16S rRNA基因与已知序列没有同源性。这使得DNA标准品作为用16S引物进行PCR扩增的模板。DNA标准品的扩增从而提供了通常用于确定微生物群落特征和结构的16S rRNA标记基因的PCR扩增和测序的合成和定量测量。
使用方法
本文公开的多核苷酸标准品可用于校准各种测序方法。这可以通过将多核苷酸标准品添加到包含待测定的目标DNA/RNA序列的样品中来实现。目标DNA/RNA的来源可以来自任何已知的生物体或环境样品。例如,可以将多核苷酸标准品添加到源自以下的天然RNA样品来源中:动物(如哺乳动物,人类或其他),植物(如玉米,水稻或其他),微生物(如细菌,古细菌或其他)和环境(如土壤样品,人体粪,临床样品如感染伤口液等)。应当理解,本文公开的多核苷酸标准品可用于校准对含有待测定的目标DNA/RNA序列的任何样品进行的测序方法。
由于本文公开的多核苷酸标准品与天然多核苷酸序列几乎没有或没有同源性(或序列同一性),因此来自多核苷酸标准品的序列读段可以与源自样品中存在的天然RNA/DNA的序列读段区分开(例如,如图18所示)。因此,本文公开的片段(标准品)可以具有相对于已知的天然存在的序列的百分比同一性,该序列被选择以允许源自多核苷酸标准品的测序读段与源自样品中存在的天然RNA/DNA的测序读段区分开。这使得能够在测序之前将多核苷酸标准品添加到RN/DNA样品中,并因此进行与感兴趣的DNA/RNA样品相同的文库制备,测序,比对和分析。然而,测序过程中,匹配多核苷酸标准品的读段可以与匹配感兴趣的DNA/RNA样品的读段区分开。
因此,本文公开的方法包括确定样品中目的多核苷酸(DNA或RNA)目标序列的步骤。本文公开的方法还包括确定已添加到样品中的一种或多种多核苷酸标准品的序列的步骤。本文公开的方法还包括将样品中目的多核苷酸(DNA或RNA)的序列和/或数量与已经添加到样品中的一个或多个多核苷酸标准品的序列和/或数量相比较。此类比较允许将源自样品中目标多核苷酸的测量值针对源自一个或多个多核苷酸标准品的测量值进行标准化。因此,本文公开的方法还可以包括将源自样品中目标多核苷酸的测量值针对源自一个或多个多核苷酸标准品的测量值进行标准化的步骤。可以使用能够对这些值进行标准化的任何合适的数学算法。
在许多情况下,与RNA/DNA样品组合的多核苷酸标准品仅构成样品中RNA/DNA总量的一部分。这种分数贡献(通常在样品中RNA/DNA总量的0.1至10%之间,或通常小于样品中RNA/DNA的总量的10%,例如小于5%,例如小于1%,例如小于0.5%)根据分析中使用的文库制剂的类型而有所不同(例如,rRNA去除,polyA或总RNA纯化制备物)。多核苷酸标准品的分数贡献可以与归因于RNA/DNA样品的测序深度成反比。因此,可以选择分数总数作为充分实现多核苷酸标准品分析所需的最小量。
测量多核苷酸标准品中的测序误差
当核苷酸被误差地确定时(其可能由文库制备或测序过程本身的误差或假象产生),就会出现测序误差。来自多核苷酸标准品的测序读段分析可以鉴别和量化核苷酸误差差异。有助于鉴定测序误差的合适软件包括Quake(Kelley,Schatz et al.2010)和SysCall(Meacham,Boffelli et al.2011)。然后可以使用该分析来提供测序性能和质量的度量。此分析然后还允许研究人员从样品DNA/RNA中标准化或校正读段内的***测序误差,从而提供样品中感兴趣的目标DNA/RNA的更准确(定性和定量两者)测量。多核苷酸标准品的测序误差分布(profile)也可用于区分测序误差与真核苷酸差异(如SNPS或核苷酸修饰)。
用多核苷酸标准品评估测序比对
在测序操作期间,小测序读段通常首先与参考基因组比对。读段与大参考基因组的比对是一个可以以多种方式执行的计算密集型任务,从而为速度,灵敏度和准确性提供差异结果。本文公开的多核苷酸标准品可用于评估与本文公开的人工染色体比对的测序读段的效率和准确性,从而校准所进行的比对方法。因此,本文公开的方法还可以包括将衍生自多核苷酸标准品的测序读段与衍生自那些标准品的人工染色体比对的步骤。可以使用任何合适的比对方法来执行该步骤。合适软件的例子促进了测序读段的比对,包括BWA(Liand Durbin 2009,Kelley,Schatz et al.2010)和Bowtie(Langmead,Trapnell etal.2009)。
测序读段优选同时与参考基因组和人工染色体比对。在一个实例中,人工染色体序列与参考基因组相结合以制备促进快速比对的指引(index)。这使得测序读段能够同时比对人工染色体和参考基因组(例如,如图18所示)。通过评估读段与人工染色体比对的准确性和敏感性,可以同时执行与天然基因组比对的读段的并行和经验评估。可以根据许多特征来评估衍生自本文公开的多核苷酸标准品的读段与人工染色体的比对,如(但不限于):正确读段比对的灵敏度和特异性;和/或读段的比例一致地排列在一起,或者与燕尾形成;和/或比对错配和碱基方式(base-wise)准确性。
需要穿过内含子的RNA测序读段以断裂(split)或不连续的方式与参考基因组比对。本文公开了旨在模拟内含子和外显子剪接的RNA标准品。因此,此类RNA标准品可用于评估跨越内含子的读段的断裂比对。可以将衍生自RNA标准品的断裂读段与人工和天然染色体两者比对。促进序列读段断裂比对的合适软件的例子包括Tophat2(Kim,Pertea etal.2013)和STAR(Dobin,Davis et al.2013)。然后可以将人工染色体上的断裂比对与人工基因注释相比较,以评估跨越内含子的读段比对的灵敏度和特异性。
可变剪接,转录起始和终止从单个基因座产生一系列同等型。本文还公开了RNA标准品,其可用于评估将剪接和未剪接的比对组装成全长转录模型的准确性。例如,全长转录物同等型可以从人工和天然染色体上的重叠读数对其进行组装。促进序列读段组装的合适的软件的实例包括Cufflinks(Trapnell,Williams et al.2010)和Trinity(Haas,Papanicolaou et al.2013)。然后可以将组装的RNA转录物的结构与人工基因注释进行比较,以评估已发生转录物组装的灵敏度和特异性(例如,如图3所示)。然后可以将该评估用于指导伴随天然样品中的基因模型的组装。
用多核苷酸标准品评估定量准确性
个别多核苷酸标准品可以稀释成已知浓度,并且共同组合形成提供此类标准品的定量尺度的混合物。可以根据待分析样品中存在的目标RNA/DNA的可能数量来确定选择以定义尺度的特定值。测序后,与多核苷酸标准品比对的读段数量可以提供丰度的定量测量。多核苷酸标准品的已知摩尔浓度和测量的读段丰度之间的比较可用于以多种方式指导样品之间和之间的定量分析,包括(但不限于):
(i)多核苷酸标准品的已知浓度与相同多核苷酸的测量丰度的比较标准品表示DNA、RNA测序方法的定量准确性。
(ii)动态范围(多核苷酸标准品的最高和最低丰度之间的差异)表示定量线性(或其部分)。这些预期的偏离可能允许定性标准化的表现。
(iii)检测下限(检测到的多核苷酸标准浓度最低)表示文库大小和灵敏度。
(iv)定量的多核苷酸标准品包含用于定量相应丰度基因的内部参考。
(v)使得将测序单位(R/FPKM)转换为摩尔浓度或绝对(转录物拷贝数)单位。
(vi)RNA标准器的定量范围使得两个或多个样品之间标准化,并能够进行基因表达的比较分析。
用RNA标准品测量基因表达
基因表达谱使用RNA测序读段测量多个基因的丰度。可以在浓度范围内添加、本文公开的RNA标准品以形成混合物,并从而模拟差异基因表达。可以对测量RNA标准品丰度的准确性进行评估,从而评估伴随天然RNA样品中基因表达分析的定量准确性(例如,如图19所示)。
可以在一定范围内的已知浓度组合多个RNA标准品,并共同组合形成不同的混合物,模拟差异基因丰度,和样品之间的基因表达倍数变化。可以测量RNA标准品的丰度。适用于促进RNA定量的软件的例子包括EdgeR(Robinson,McCarthy et al.2010)和DEseq(Anders,McCarthy et al.2013)。将测定的RNA标准品的丰度与其已知的摩尔浓度进行比较可以指示转录物定量的准确性。将天然基因丰度与RNA标准品或包含多个RNA标准品的定量参考尺度进行比较还可以指导基因表达的测量。
类似地,可变RNA标准品同等型可以包含在不同浓度以模拟可变剪接。可以使用合适的软件测量RNA标准品同等型的丰度,如Cufflinks(Trapnell,Williams et al.2010)或MISO(Katz,Wang et al.2010)。可以确定观察到的混合物间RNA标准品同等型丰度的倍数变化以评估样品间测量的同等型转换和可变剪接的准确性,与基因表达的变化无关。比较自然同等型与RNA标准品的丰度也可以指导测量可变剪接。
检测由DNA标准品代表的小规模遗传变异
可以生成本文公开的DNA标准品,其代表人工染色体中小规模遗传变异的变体和参考等位基因(例如,如图6所示)。一系列变量可影响变体识别和基因型分配,包括(但不限于):变体接合性;读段比对;质量和/或覆盖;变体类型和复杂性(如:SNPs,***/缺失,同聚物(homopolymers));近端序列邻近(context);和用于识别小规模遗传变异的软件。本文公开的DNA标准品可用于评估鉴定小规模遗传变异的灵敏度和特异性。DNA标准品的序列测定可以鉴定参考人工染色体序列的小规模变异。用于鉴定小规模遗传变异的合适软件包括GATK(McKenna,Hanna et al.2010)和SAMtools(Li,Handsaker et al.2009)。可以根据人工染色体评估在DNA标准品内检测到小规模遗传变异的准确性和灵敏度(例如,如图20所示)。不确定性值(如95%置信区间)也可归因于准确性的估计。比较人工染色体系中鉴定的小规模遗传变异的置信度和灵敏度也可以指示伴随DNA样品中小规模遗传变异的鉴定。
测量由DNA标准品代表的等位基因频率
需要准确定量等位基因的频率以正确分配携带变体的样品内DNA的基因型或DNA的估计分数(例如当肿瘤样品中的癌细胞的子集携带有害变异时)。本文公开的DNA标准品可用于模拟差异等位基因频率,并因此评估或校准测量等位基因频率的定量准确性。
例如,代表不同等位基因的DNA标准品可以以不同的浓度组合成与天然DNA样品组合用于测序的混合物。每个变异等位基因(每个由不同的DNA标准品代表)的已知摩尔浓度和测量的读数丰度之间的比较使得能够进行等位基因频率的定量评估。因此,本文公开的DNA标准品可以用于确定在不同相对浓度下变体检测的灵敏度,特异性和精确度,并用于建立用于与天然的,目标变异等位基因的检测和/或定量比较的定量标度。因此,本文公开的方法可以包括制备代表变异等位基因的DNA标准品的混合物的步骤,其中以预定浓度添加每种变体DNA标准品。所述方法还可以包括确定混合物中每种变体DNA标准品的序列和数量。本文公开的方法还可以包括提供测量的变体DNA标准频率的定量尺度的步骤,该尺度然后可用于校准在单个DNA样品中或多个DNA样品之间测定的天然DNA等位基因的定量测量。
解析由DNA标准品代表的大规模变异
大规模或结构遗传变异在计算上难以正确解析,因为它通常大于测序读段的长度。可以生成本文公开的代表和模拟大规模变异的DNA标准品。例如,代表结构变异的DNA标准品可用于:评估软件程序正确解析结构的能力。和量化结构变异的相对丰度和拷贝数,和/或用于将基因型分配给包含结构变异的序列。适用于解析大规模变异的软件包括BreakDancer(Chen,Wallis et al.2009)和Cortex(Iqbal,Caccamo et al.2012)。本文公开的DNA标准品也可用于对由于参考人工染色体的结构变异而对测序读段的重新分布进行建模。DNA标准品的测量可以指示评估的准确性,使用该准确性在在伴随天然基因组DNA样品内鉴定和定量了大规模变异。
DNA标准品的从头组装
在没有天然存在的参考基因组可用的情况下,基因组序列必须从重叠序列读段从头组装。DNA标准品的平行从头组装可以与目标基因组DNA样品同时进行。适于从头组装的软件包括Velvet(Zerbino and Birney 2008)和ABySS(Simpson,Wong et al.2009)。影响基因组组装的变量包括(但不限于):基因组复杂性和重复内容;倍性(ploidy);测序深度;质量和误差率;读数长度和***大小;以及使用的软件程序和参数(包括k-mer长度,比对方法,读数soft-clipping,和其他参数)。可以评估这些变量对DNA标准的从头组装的影响。
组装序列可以与已知的DNA标准品进行比较,以评估从头组装的性能和上述变量的影响。可以根据以下任一个或多个评价人工染色体的从头组装:N50值;中值,最大和/或组合的重叠群大小;相对于人工染色体重叠群的覆盖和空隙;相对于人工染色体重叠群的错配或碱基方式(base-wise)准确性;以及鉴定大型或***组装误差。DNA标准品从头组装的评估可以指导评估伴随目标天然DNA样品的从头组装。
用DNA标准品的宏基因组分析
宏基因组分析通常包括来自环境样品的多个微生物基因组的组装和定量。本文公开的DNA标准品可用于模拟复杂微生物群落,其在不同丰度的范围内构成基因组的异质集合(例如,如图10所示)。这些代表微生物基因组的DNA标准品可用于评估宏基因组分析。影响宏基因组分析的变量包括(但不限于):微生物群落基因组大小,复杂性,重复和GC含量,以及用户定义的变量如测序深度和覆盖,质量,读段长度和***大小,以及使用的软件和参数。可以评估这些变量对DNA标准品的宏基因组分析的影响。
本文公开的宏基因组DNA标准品可用于评估从头组装和分析的性能(例如,如图21所示)。关于人工染色体的DNA标准品的组装可以根据许多功能进行评估,包括(但不限于):N50值;和中值和最大重叠群大小;覆盖;组装DNA标准品重叠群的碱基方式(base-wise)准确性可以可以相对于相应的人工染色体进行比较。DNA标准品的宏基因组分析的评估可以指示评估伴随目标天然DNA样品的宏基因组分析。
NGS测序可以确定采样群落内微生物的丰度和多样性。本文公开的DNA标准品可以以不同的相对浓度组合以形成包含定量参考物的混合物。本文公开的方法还可以包括提供测量的宏基因组DNA标准品频率的定量尺度的步骤,该尺度然后可用于校准在办税环境样品中确定的天然微生物基因组的定量测量。
DNA标准品也可用于评估相对于定量丰度的宏基因组分析。例如,DNA标准品可用于评估(但不限于):有效组装所需的最小序列覆盖;检测下限(即,检测到宏基因组DNA标准品的最低浓度);以及文库灵敏度,大小和/或多样性的量度。本文公开的宏基因组DNA标准品也可用于两种或多种样品之间的定量比较,其使得比较分析两种或多种样品之间进行的微生物群落结构和多样性。
用DNA标准品进行16S rRNA序型分析(profiling)
16S rRNA基因通常用作对大型复杂微生物群落进行序型分析的***发育标记。可以生成DNA标准品,其代表和匹配来自人工微生物基因组的16s rRNA基因的一部分(例如,如图11所示)。此外,代表人工16S rRNA基因的DNA标准品可以以不同的相对浓度组合以模拟微生物群落并允许对16S序型分析应用进行评估。
与人工16S rRNA基因匹配的DNA标准品可以保留与通用引物互补的小序列,并因此与天然16S rRNA基因平行扩增。然后可以分析来自DNA标准品的所得扩增子,以评估以下任何一种或多种:(i)差异PCR扩增偏差;和(ii)通过比较DNA标准品扩增子的测量丰度相对于那些DNA标准品的已知初始浓度来定量准确性。此外,来自DNA标准品的得到的扩增子可用于建立用于比较的定量尺度,以定量来自感兴趣样品的伴随宏基因组的扩增子。
用DNA标准品鉴定GC偏差
在文库制备和测序过程中,GC含量对几种反应的影响导致引起组装和定量中偏差的微生物基因组的倾斜表现(Chen,Y.C.,et al.,2013)。本文公开的DNA标准品可用于评估GC含量对测序和分析的影响。
可以产生匹配微生物基因组中观察到的一大批GC含量的DNA标准品。DNA标准品可以在测序和分析之前结合在环境DNA样品内。可以鉴定与GC含量相关的DNA标准品的比对,组装和/或定量中的偏差。例如,测量的丰度和已知浓度的DNA标准品之间的差异可以识别与GC含量相关的偏差,这反过来可以允许随后的定量标准化来抵消GC含量的影响。本文公开的DNA标准品也可用作训练集(training set),以建立使DNA定量中最小化GC含量偏差的标准化参数。
使用DNA标准品与免疫受体测序
免疫全集(repertoire)测序采用一组共同的引物来扩增由白细胞表达的免疫受体序列。本文公开的DNA标准品可以设计成在人工染色体上表示人工克隆型(图12和13所示的实施例)。可以定制克隆型DNA标准品的范围和复杂性,以模拟白细胞样品表达的天然克隆型的复杂多样分布。
本文公开的DNA标准品还可以保留与通常用于免疫谱系测序的每个引物对互补的小序列。因此,PCR扩增可用于扩增样品内感兴趣的天然克隆型,也可用于扩增DNA标准品所代表的克隆型。因此,DNA标准品可以作为免疫全集测序中使用通用引物进行扩增的模板。扩增和测序后,可以分析衍生自DNA标准品的读段以评估免疫全集测序表现以及定量不同克隆型的相对丰度。DNA标准品还可用于测定可能是由于杂交效率的差异而导致的不同通用引物的扩增偏差。扩增偏差可以通过比较DNA标准扩增子的测量丰度相对于DNA标准品的已知初始浓度来确定。随后将克隆型丰度标准化以计数确定的扩增偏差。本文公开的DNA标准品也可用于评估人工克隆型的检测和定量,所述检测和定量可以指示评估伴随目标天然DNA样品的克隆型检测和定量。
本文公开的任何方法可以包含将本文公开的两个或多个片段(或标准品)以相同或不同的浓度添加到样品中,以复制纯合性。杂合性或异质性。例如,可以将两个不同的片段(或标准品)以相同的浓度添加以复制杂合性。因此,以不同的浓度添加片段(或标准品)可以复制纯合性。杂合性或异质性。
试剂盒
从上述可以理解,本公开还提供了包含本文公开的一种或多种多核苷酸标准品的试剂盒。或者或另外,试剂盒可以包含本文公开的一种或多种载体,其中载体包含一个或多个编码本文公开的一个或多个标准品的多核苷酸序列。试剂盒还可以包含一种或多种适于表达载体的组分以产生多核苷酸标准品。试剂盒可以包括本文公开的多核苷酸标准品和本文公开的载体。试剂盒还可以提供描述其中所含的特定多核苷酸标准品的信息,例如(但不限于)其序列,浓度,感兴趣的结构基因组特征等。试剂盒还可以包含本文公开的一种或多种人工染色体。
所述试剂盒还可以包含本文公开的多核苷酸标准品和/或载体的任一个或多个的组合物,以任何组合。标准品和/或载体的混合物可以在单个缓冲液中一起提供,其可以在一个或多个容器中提供。或者,标准品和/或载体的混合物可以以多个,单独的容器的形式提供,每个容器包含单个标准品和/或载体,或标准品和/或载体的单一浓度。分开的容器可以相互联系作为一个试剂盒提供。
试剂盒还可以包括本文公开的计算机设备,计算机可编程介质和/或计算机软件。因此,试剂盒可以作为打包提供,允许实验使用物理多核苷酸标准品,并允许使用计算机设备和软件将实验派生的测序信息与人工染色体相关联。
计算机***和计算机实现方法:
本公开还提供了计算机***和计算机实现的方法。图38示出了用于校准多核苷酸测序过程的合适的计算机***3800。计算机***3800包括连接到程序存储器3804的处理器3802,数据存储器3806,通信端口3808和用户端口3810。程序存储器3804是非暂时性计算机可读介质,如硬盘固态磁盘或CD-ROM。软件(即存储在程序存储器3804中的可执行程序)使得处理器3802执行本文公开的方法。
处理器3802然后可以将校准结果存储在数据存储器3806上,如存储在RAM或处理器寄存器上。处理器3802还可以经由通信端口3808将校准的结果发送到服务器,如样品序列数据库或管理多核苷酸测序实验的计算机***。
处理器3802可以接收数据,如指示多核苷酸序列,人工染色体或样品序列的片段,来自数据存储器3806以及来自通信端口3808和用户端口3810,其连接到显示给用户3816测序结果的视觉表现3814的显示器3812。在一个实例中,处理器3802经由通信端口3808从测序装置接收序列数据,如通过使用根据IEEE 802.11的Wi-Fi网络。Wi-Fi网络可以是分散的自组织网络,使得不需要诸如路由器的专用管理基础设施,或者不具有管理网络的路由器或接入点的集中式网络。
虽然通信端口3808和用户端口3810显示为不同的实体,应当理解,可以使用任何种类的数据端口来接收数据,如网络连接,存储器界面,处理器3802的芯片封装的引脚,或逻辑端口如IP sockets或存储在程序存储器3804上并由处理器3802执行的功能的参数。这些参数可以存储在数据存储器3806中,并且可以在源代码中按数值或按参考处理,即作为指针(pointer)处理。
处理器3802可以通过所有这些接口接收数据,这些接口包括易失性存储器的存储器访问,例如缓存或RAM,或非易失性存储器,例如光盘驱动器,硬盘驱动器,存储服务器或云存储。计算机***3800还可以在云计算环境内实现,例如托管动态数量的虚拟机的互连服务器的托管组。
应当理解,任何接收步骤之前可以由处理器3802确定或计算稍后接收的数据。例如,处理器3802可以测定人工染色体的序列数据,并且可以将序列数据存储在数据存储器3806中,如RAM或处理器寄存器。然后,处理器3802可以例如通过与存储器地址一起提供读取信号来从数据存储器3806请求数据。数据存储器3806可以将数据作为物理位线上的电压信号提供,并且处理器3802可以经由存储器接口接收人工染色体的序列数据。
应当理解,除非另有说明,否则在本公开内容中,数据可以由诸如[“G”,“A”,“T”,“C”]字符串或编码核苷酸的二进制元组列表的数据结构来表示。数据结构可以物理地存储在数据存储器3806上或由处理器3802处理。
应当理解,本公开的技术可以使用各种技术来实现。例如,本文描述的方法可以通过驻留在合适的计算机可读介质上的一系列计算机可执行指令来实现。合适的计算机可读介质可以包括易失性(例如RAM)和/或非易失性(例如ROM,磁盘)存储器,载波和传输介质。示例性载波可以采取沿着本地网络或诸如互联网的公共可访问网络传送数字数据流的电,电磁或光信号的形式。
还应当理解,除非另有明确说明,否则从下面的讨论中可以看出,应当理解,在整个说明书中,使用诸如“处理”或“计算(computing)”或“计算(calculating)”,“测定”或“显示”或“校准”或“标准化”等术语的讨论可以指计算机***或类似的电子计算设备的动作和过程,其将表示为计算机***寄存器和存储器内的物理(电子)量的数据处理和转化为在计算机***存储器或寄存器或其他此类信息存储,传输或显示设备内的类似地表示为物理量的其他数据。
本公开现在在以下非限制性实施例中进一步描述。
实施例1:
如下制备人工染色体的一个实例。我们从人类chr7:271,335,00–271,385,00(hg19)中检索了一个5,000nt的序列。该序列在HOXA1基因启动子中的CpG岛(包含CpG二核苷酸密度的序列)重叠。为了除去同源性,我们使用50nt的改组窗口大小改组了5,000nt序列同时维持CG二核苷酸配对。该过程描述于图2中。窗口内改组一级DNA序列重排了序列以除去同源性,同时维持分辨率大于窗口大小的遗传特征。如果需要,手动创建额外的核苷酸取代,***和缺失以除去与已知天然序列的同源性。使用BLASTn软件程序(Altschul,S.F.et al.,J Mol Biol 215,403-10(1990))将所得的改组序列与核酸收集(nr/nt)数据库比较,以确认不存在与任何已知或天然序列具有大于21nt连续同源性的任何序列。该实例方法产生与已知或天然序列没有同源性的5,000nt序列,但保留HOXA1启动子内分辨率为50nt的高级CpG岛遗传特征。
实施例2:
如下制备人工染色体中人工基因序列的一个实例。我们首先从包含12个外显子和11个内含子的人基因组(hg19)中检索到基因序列。检索个别外显子和内含子序列以及上游/下游1,000nt序列。使用20nt窗口大小个别改组每个基因的外显子和内含子序列以除去同源性,如实施例1中描述的。然后,在人工染色体内以正确的顺序组装改组的外显子和内含子序列,保留人基因组中原始基因的方向和分布。该人工基因被命名为R_1_2_R,如图3所示。手动编辑在***外显子立即侧翼的核苷酸以***规范二核苷酸AG-CT剪接位点和多-嘧啶段(track)核苷酸。因此,人工基因保留存在于天然人基因中的基因座的更高级遗传特征,但不保留与原始人基因或任何其他已知核苷酸序列的一级序列同源性。
实施例3:
如下进行将多个基因(每个基因包含多个同等型)纳入人工染色体中的一个实例。我们首先从GENCODE v19基本基因组装(Harrow,Denoeud et al.2006)中检索到人类mRNA同等型序列。同等型通过组合的外显子长度,外显子数和同等型数来排序。从该列表中***地取样了包含两个或更多个交替同等型的30个基因。管理(curate)这些同等型以包括可变基因剪接的不同例子,包括外显子排除,外显子纳入,可变转录起始,可变转录中止,内含子保留和可变3'和5'剪接位点使用。检索来自人基因组(hg19)的每个基因外显子和内含子序列并且如上文实施例1中所述个别改组以除去同源性。然后,在人工染色体中再组装每个改组的序列以维持外显子-内含子结构但除去对天然序列的同源性。在人工染色体中***基因座之间的距离保持尽可能类似于在人基因组中的基因之间通常观察到的距离。通过这个过程,我们在人工染色体中掺入了30个人工基因座,如图1所示。
实施例4:
如下制备在人工染色体中纳入移动元件的一个实例。我们从常见重复类别(AluSx,MIRb,L2a等)(A.F.A.Smit,R.Hubley&P.Green RepeatMasker at http://repeatmasker.org)中检索了移动元件的5个实例的天然人类DNA序列。将重复序列按照上述实施例1中所述进行改组和管理以除去同源性。将改组的重复序列复制到足够数量,从而以与人基因组中存在的相同的密度***到人工染色体中。例如,8Mb人工染色体序列将具有788个AluSx,534个MIRb,433个L2a,93个MER5B和166个L1M5重复移动元件,以匹配人基因组中类似的天然重复元件的密度。然后将个别重复元件进行随机核苷酸取代,***和缺失,以引起个别重复移动元件与祖先序列的序列趋异性,如图4所示。改组重复移动元件的序列和长度差异可以设计为匹配人基因组中类似天然元件的序列和长度趋异性。然后将改组的重复基序以与人基因组中类似的天然移动元件具有相同的密度和分布的方式***到人工染色体序列中,如图1所示。
如下制备在人工染色体中纳入着丝点的一个实例。我们从人基因组(A.F.A.Smit,R.Hubley&P.Green RepeatMasker at http://repeatmasker.org)中的个别ALR/Alpha着丝点中检索到单个171nt串联重复DNA序列。将该天然171nt串联重复DNA序列改组和管理以除去对天然序列的同源性并形成祖先重复。从该祖先重复,我们进行了4轮连续的4倍扩征,然后通过随机核苷酸取代,***和缺失得到的14%的序列趋异。这导致了10,944核苷酸长的人工着丝点元件的形成,其中所述人工着丝点元件具有与原始人类序列类似的内部分层重复结构,但与原始人类序列不具有序列同一性。然后将人工着丝点元素***染色体序列的中心区域,如图1所示。
如下制备在人工染色体中纳入端粒的一个实例。我们手动生成人工6聚体核苷酸祖先重复基序(ATTGGG),我们将该重复基序经受多轮扩增和模拟序列趋异以生成两个10.9和8.3kb的长人工端粒序列,然后将将其添加到人工染色体序列的每个末端,如图1所示。
实施例5:
如下制备在人工染色体中纳入小规模遗传变异的一个实例。根据突变类型,核酸含量和大小来排序人类小规模变异列表,包括SNP,***,缺失,杂合,微卫星和多个核苷酸多态性(Sherry,S.T.et al.Nucleic Acids Res 29,308-11(2001)。从该列表中***地抽取了总共512个小规模变体。手工管理选择的小规模变体以确保广泛的突变类型,核苷酸含量和大小的呈现。从人基因组序列(hg19)检索人类小规模变异的DNA序列以及上游和下游侧翼5个核苷酸序列。然后我们将268个小规模变体替代到两个人工染色体中,从而产生掺入相对于原始“参考”人工染色体的纯合变异的变体人工染色体对。我们然后将289个小规模变体替代到仅一个单个人工变体等位基因染色体中,从而产生相对于原始“参考”人工染色体的杂合变异。通过该过程,我们可以呈现人工染色体中的纯合和杂合小规模变异。
实施例6:
如下制备将疾病特异性,小规模遗传变异掺入人工染色体中的一个实例。BRAFV600E突变导致BRAF蛋白从缬氨酸(V)到谷氨酸(E)的位置600处的氨基酸取代并且在约85%的黑素瘤病例中发现(Davies,H.et al.Nature 417,949-54(2002))。从人基因组中检索匹配野生型(T)或疾病相关变体BRAF V600E突变(A)的DNA序列和侧翼上游和下游150个核苷酸(对应于hg19组装中的chr7:140,452,986-140,453,286)。未改组BRAF V600E突变的6个上游和下游核苷酸。然而,如图7所示,剩余的侧翼序列以越来越大的窗口大小随着与BRAF V600E变异位点的距离增加而被改组。例如,当BRAF V600E变异的20nt距离内时,序列以6nt窗口大小改组,当BRAF V600E变异的100nt距离内时以10nt窗口大小改组,当BRAFV600E变异大于100nt距离内时以20nt窗口大小改组。这除去了整个基因序列间与已知天然序列的同源性,但增加了在变体的极其附近处改组的窗口分辨率。然后将改组序列替代到“参考”人工染色体中以形成携带BRAF V600E突变的人工变体染色体。
在另一个实例中,K562细胞系在TP53基因序列中的ch17:7578523-7578524(hg19)处包含移码核苷酸***(Law,J.C.et al.,Leuk Res 17,1045-50(1993))。从人基因组(对应于hg19组装中的chr17:7,578,374-7,578,674)中检索到匹配参考(T)或疾病相关变体TP53Q136fs突变(TG)的DNA序列以及侧翼上游和下游150nt核苷酸的序列。未改组TP53Q136fs突变的6个上游和下游核苷酸,而如上所述,剩余序列在按距TP53Q136fs的距离增加窗口大小的情况下进行改组。然后将该序列替代到“参考”人工染色体中以形成携带TP53Q136fs突变的人工变体染色体。
实施例7:
如下制备将大规模遗传变异(>50nt)掺入人工染色体的一个实例。根据突变类型,核苷酸含量和大小来排序人大规模变异的目录(Sherry,Ward et al.2001,MacDonald,Ziman et al.2014)。从人类大规模变异列表中***采样出共计大规模变异的12个实例,并手动管理以确保充分呈现一大批不同类型的大规模变异,包括大的缺失,***,倒置(颠倒),拷贝数变异以及移动元件***。改组和管理结构变异的序列(具有侧翼上游和下游的额外的1,000个核苷酸)以除去与已知天然序列的同源性,如前面对实施例1所述。值得注意的是,在可能的情况下,对大规模变异的任何内部结构(如重复或倒置单位)进行改组,其中在可能的情况下维持内部层次结构,如以前在实例4中所述。然后将这些结构变异的实例***人工染色体序列中以产生变体人工染色体。以这种方式,我们在人工染色体内***四种不同类型的大规模结构变异的12个例子,如图12所示。可以通过相对于“参考”人工染色体使用多个变体人工染色体建立结构变异的一系列基因型(纯合和杂合),如上述实施例6的方法所述。
在另一个实例中,我们如下掺入在多个人工染色体之间拷贝数变化的DNA重复。我们从人基因组(hg19)中检索单个D4Z4重复拷贝的DNA序列,并用匹配重复拷贝大小的窗口大小改组,以除去与已知天然序列的同源性,如图33所示。然后复制并以头对尾方向组织改组的D4Z4重复拷贝以形成10,20,50,100和200个改组的D4Z4重复拷贝的阵列。这些重复拷贝数包括人受试者中观察到的D4Z4拷贝数的大多数(99%)(Schaap,Lemmers etal.2013)。这包括拷贝数为10拷贝(由95%的FSMD患者展示),20拷贝(高风险个体),50拷贝(相关个体)和超过100拷贝(不受影响的个体)(van der Maarel and Frants 2005)。然后将每个重复阵列掺入人工染色体,从而产生人工D4Z4重复拷贝数变化的一批不同基因型。
实施例8:
如下进行通过两个人工染色体之间易位来形成融合基因的一个实例。我们首先使用以前在实施例2中描述的方法产生了编码两个人工基因,B1和A1基因的两个人工染色体。A1和B1基因的外显子/内含子结构分别衍生自人类ABL1和BCR基因。B1基因包含在人工染色体A上的23个外显子/21个内含子,以及代表包含11个外显子的A1基因的序列在人工染色体B上产生,如图9所示。基因的外显子/内含子结构保持在每个人工染色体内,但是通过上述实施例1中描述的方法改组了DNA序列以除去同源性。然后通过易位重排人工染色体A和B的序列,(i)在B1基因中的外显子4后和(ii)在A1基因的外显子2之前,从而生成在人工染色体A上包含B1外显子1至13和A1外显子2至11的融合基因,以及在人工染色体B上匹配A1外显子1和B1外显子14至22的融合基因,如图9所示。通过该过程,我们进行了两个人工染色体的易位以形成融合基因事件。
实施例9:
如下进行了使用本文描述的人工染色体以模拟微生物基因组群落的一个实例。环境DNA样品通常包含多个微生物基因组的复杂群落。在此,我们模拟了代表不同类型,大小和丰度的微生物基因组(本文称为“人工微生物基因组”)的多个人工染色体的复杂群落。首先,我们检索了总共30个微生物的高质量草案基因组序列(Chan,P.P.,et al.,NucleicAcids Res 40,D646-52(2012))。手工管理选定的微生物基因组以确保代表广泛的分类群(包括古细菌和细菌),大小(0.5-10Mbp),GC含量(27-70%),rRNA操纵子计数(1-10),以及分离自一大批环境(人体,水生,陆地和极端物理或化学条件)。选择(如表9所示)旨在表示环境DNA样品中复杂微生物群体中经常遇到的***发育和基因组异质性。对基因组序列改组和操作以除去与已知天然序列具有任何序列同源性的序列。通过这个过程,我们产生了30个人工微生物基因组的文库。
进行了将16S rRNA基因掺入微生物基因组的另一个实例。我们检索了对应于30个微生物基因组序列的16S rRNA序列,如表9所示,其中使用上述方法从中已经产生了人工微生物基因组。改组并手动编辑了16S rRNA序列以除去与已知天然序列的同源性,如先前在实施例1中所述。然而保留了通用16S引物(正向引物:CTACGGGAGGCAGCAG和反向引物:GACTACCAGGGTATCTAATCC)需要的序列。如图11所示,这些引物序列在约460nt改组序列侧翼,所述改组序列对应于16S rRNA基因内的V3区。该居间改组的V3序列包含与在聚合酶链式反应中使用通用16S引物扩增的与已知天然序列无同源性的人工标志物。以下述频率将合成的标志物16S rRNA基因组装为人工微生物基因组序列,所述频率遵守衍生微生物基因组序列的原始微生物的操纵子计数(1-10)。
实施例10:
使用本文公开的人工染色体进行模拟哺乳动物免疫球蛋白序列多样性的一个实例。人工免疫全集序列的生成允许使用核苷酸标准品来评估免疫全集测序期间克隆型的准确性和定量。我们在人工染色体上产生了TCRβ基因座并模拟了V(D)J重组过程以产生一套人工TCRβ克隆型。首先,我们从人基因组(hg19)中检索了TCRβ基因序列(其包含65个Vβ片段,2个Dβ片段和13个Jβ片段)。除了与用于BIOMED-2研究的引物序列互补的序列外,分别改组每个片段或内含子序列以除去与已知天然序列的同源性(van Dongen,J.J.etal.Leukemia 17,2257-317(2003))。然后再组装改组的片段和侧翼内含子序列以将TCRβ基因座掺入到人工染色体上,如图13所示。
然后,人工TCRβ基因座经历发生在V(D)J重组的T细胞分化和体细胞超突变期间的生物过程的简化模拟以如下产生TCRβ克隆。通过选择和结合对应于随机选择的以前在成年健康男性中鉴定的TCRβ克隆型(Zvyagin,I.V.et al.Proc Natl Acad Sci U S A 111,5980-5(2014))的Vβ,Dβ和Jβ片段来模拟V(D)J重组。通过在接合处***和缺失核苷酸以基于在成年健康男性中观察到的TCRβ克隆型中的随机选择的***和缺失的频率来模拟体细胞超突变(Zvyagin,I.V.et al.Proc Natl Acad Sci U S A 111,5980-5(2014))。按照此方法,我们产生了15人工TCRβ克隆型。
在另一个实例中,我们生成了在人工染色体上的TCRγ基因座并模拟了VJ重组以产生一套人工TCRγ克隆型。我们首先从人基因组(hg19)检索了10个Vγ片段,5个Jγ片段和两个Cγ片段以及侧翼内含子序列。除了与用于BIOMED-2研究的引物序列互补的序列外,分别改组每个片段或内含子序列以除去与已知天然序列的同源性(van Dongen,Langeraket al.2003)。如图12所示,再组装改组序列和侧翼内含子序列以形成人工TCRγ基因座。我们接着模拟了发生在T细胞期间的VγJγ体细胞重组的多样化过程,其通过随机选择和结合人工Vγ片段和Jγ片段进行,以产生一批TCRγ克隆型。例如,我们将Vγ4片段与Jγ1片段结合以形成Vγ4Jγ1克隆(SEQ ID NO:203)。按照该程序,我们生成15个人工TCRG VγJγ克隆(SEQ ID NOs:203-219)。
实施例11:
进行了代表人工染色体中R_1_2_R基因的RNA标准品序列的一个实例。使用实施例2中描述的方法将R_1_2_R基因座掺入人工染色体中。然后将R_1_2_R基因的13个外显子序列连接在一起形成连续的1,310nt序列(SEQ ID NO:3),同时除去居间的12个内含子序列,如图3所示。将额外的约100个核苷酸聚腺嘌呤道(tract)添加到R_1_2_R mRNA序列的3’末端。评估了表示使用模拟的测序读段得到的R_1_2_R标准品的RNA标准品的性能。Sherman软件用于模拟来自R_1_2_R序列(SEQ ID NO:3)的1,000配对末端(paired-end)125-nt读段。然后我们使用Tophat2软件(Kim,Pertea et al.2013),使用以下参数将模拟的读段与人工染色体相比对:
>tophat2cht_index simulated_reads.R1.fq simulated_reads.R1.fq
我们发现,所有1,000个读段与R_1_2_R基因唯一地和正确地比对。我们发现,模拟的读段在所有12个内含子和13之间正确分开和比对,确认了R_1_2_R标准品的效用。
实施例12:
进行了代表人工R_1_2基因的可变剪接的mRNA同等型的RNA标准品的一个实例。R_1_2_V序列包括人工染色体中包含的R_1_2_R序列的可变剪接同等型,并如上述实施例11所述。R_1_2_V同等型序列包含形成连续1,310nt序列(SEQ ID NO:4)的12个外显子,同时除去了居间的11个内含子序列。注意到R_1_2_V标准品序列具有与可变同等型R_1_2_R标准品共同的11个外显子,如图3所示。然而其缺失外显子(4)并含有额外的两个外显子(5和6)。因此,通过R_1_2人工基因的可变剪接,比较R_1_2_R和R_1_2_V RNA标准品模拟了外显子4的排除和外显子5和6的纳入。
实施例13:
进行了制造RNA标准品的一个实例以产生表示R_1_2_R基因成熟mRNA序列的RNA标准品。使用市售服务(ThermoFisher GeneArt)首先合成了作为DNA分子的R_1_2_R序列(SEQID NO:3)。将序列按照以下元件顺序将序列***到pMA表达质粒中:(i)SP6启动子(ii)R_1_2_R基因序列(iii)~50核苷酸多聚腺嘌呤序列和(iv)EcoR1限制性位点,如图14所示。将质粒转化大肠杆菌并培养。使用QIAprep Spin Midiprep(Cat#12945)纯化质粒。用Sanger测序质粒克隆以确认以上序列元件的准确性,***和方向。然后通过用EcoR1限制性内切核酸酶消化来线性化质粒。然后,质粒被用作用于体外RNA合成反应的模板以产生合成的RNA多核苷酸标准品,然后用QIAquick柱(QIAGEN)纯化该RNA多核苷酸标准品。使用BioAnalyzerRNA芯片(Agilent)分析RNA标准品的等分试样以确认预期的全长转录物和浓度。然后将纯化的RNA标准品稀释至所需浓度。
实施例14:
进行了产生多个RNA标准品的不同混合物的一个示例性方法。我们首先制造了代表人工染色体编码的30个基因的RNA标准品,如上述实施例11和13所述。我们将30个RNA标准品分为10组(每组由3个RNA标准品组成),如表1所示。我们在10组之间进行了3倍连续滴定,覆盖了最低和最高组之间丰度的106倍范围。然后将不同相对丰度的30个RNA标准品组合以形成混合物。因此,混合物包含不同浓度序列范围的30个不同的RNA标准品,所述混合物包含RNA丰度的定量量表或梯。RNA标准品的集合称为混合物A。
我们然后组装了带有不同丰度范围的相同30个RNA标准品以形成不同的混合物,我们称为混合物B,如表1中所示。混合物B中RNA标准品的丰度使得RNA标准品的丰度之间的成对比较表明混合物A和混合物B之间RNA标准品的丰度增加或减少0,2倍或4倍。RNA标准品丰度中的这种差异变化与天然基因群体相似,并可用于模拟基因表达变化。
实施例15:
进行了一种产生多个可变剪接RNA标准品的不同混合物的实例方法。使用实施例13中描述的方法,我们首先制造了60个RNA标准品(SEQ ID NOs:1-62)。RNA标准品被组织成包括两个可变同等型的对,它们在外显子序列含量上彼此共享并且彼此不同,如上述实施例12所述。
我们将30对RNA标准品合并成两个可变的3倍连续稀释液以形成混合物A和B,使得对应于1倍,2倍和3倍变化的可变同等型RNA标准品之间的丰度的成对比较(如表1所示)。例如,我们在混合物A中添加15,000阿托摩尔/ul(attomoles/ul)的R_1_2_R和5,000阿托摩尔/ul的R_1_2_V,并且我们在混合物B中添加1,250阿托摩尔/ul的R_1_2_R和3,750阿托摩尔/ul的R_1_2_V。这对应于混合物A和B之间的R_1_2基因表达的4倍变化,并且还对应于个别R_1_2_R与R_1_2_V同等型之间相对浓度的3倍变化,从而模拟了R_1_2基因的可变剪接。混合物中同等型丰度的差异可以与天然基因群体的可变剪接相比较。
实施例16:
如下进行RNA标准品代表融合基因的一个实例:制造RNA标准品以匹配(i)B1基因序列(SEQ ID NO:136)(ii)A1基因序列(SEQ ID NO:135)以及(iii)B1fA1基因,其匹配B1外显子1至13序列以及A1外显子2至11序列(SEQ ID NO:137)。使用先前在实施例13中描述的方法制造RNA标准品。
实施例17:
进行DNA标准品的制造的一个例子,以表示6,974,486-6,975,593个核苷酸之间的人工染色体序列。使用市售服务(ThermoFisher GeneArt)首先将1,122nt DNA标准品序列(SEQ ID NO:63)和两个侧翼Sap1限制性位点(GCTCTTC)合成到DNA分子中。然后将序列克隆进高拷贝质粒(pMA)中,如图14所示。将每个质粒在大肠杆菌培养物中生长并使用QIAprepSpin Midiprep(Cat#12945)制备。使用QIAquick column(QIAGEN)纯化DNA质粒并稀释至标准浓度以包含贮液(stock)。Sanger测序质粒克隆以确认正确序列和***质粒中。该贮存质粒用作通过PCR的DNA标准品合成的模板(使用D_1_1_R序列末端的引物对来扩增DNA标准品)或用作限制性消化的模板(Sap1限制性内切核酸酶在侧翼Sap1位点下游5/6nt切割并可用于切出D_1_1_R标准品DNA分子而无需在切割后在末端留下添加核苷酸)。合成后,在Agilent21000Bioanalyser上分析D_1_1_R标准品的等份以确认标准品预期的全长大小和浓度。然后将纯化的DNA标准品稀释至需要的浓度。
实施例18:
进行了产生多个DNA标准品的不同混合物的一个示例性方法。使用上述实施例17中所述的方法,我们制造了30个匹配人工染色体序列的DNA标准品。将DNA标准品分成10组,每个有3个标准品组成。我们为每组组装了3倍的连续稀释液(即三个DNA标准品具有相同的浓度),从而涵盖DNA标准品的最低和最高组之间的106倍浓度范围(图5中所示)。DNA标准品在这一浓度范围内的组合称为混合物A。该混合物因而提供了DNA丰度的定量量表或梯。我们然后组装了不同浓度范围的相同的30个DNA标准品以形成可变混合物B,如表5中所示。混合物B中每个DNA标准品的丰度使得DNA标准品的丰度成对比较表明混合物A和混合物B之间DNA标准品的丰度增加或减少0,2倍或4倍。混合物之间DNA标准品丰度中的这种变化与天然DNA序列相似并包含可以测量DNA丰度中的倍数变化的定量量表或梯。
实施例19:
进行连接多个DNA标准品以产生单个,较大或“连结的”DNA标准品的一个示例性方法。连结的DNA标准品由使用上述实施例17中所述的方法制备的多个单独的DNA标准品组成。例如,连结的DNA标准品A由1拷贝的D_1_1_R;2拷贝的D_1_2_R;3拷贝的D_1_3_R,4拷贝的D_1_4_R;5拷贝的D_1_5_R;6拷贝的D_1_6_R组成。还注意到通过改变1(D_1_1_R)和6(D_1_6_R)之间的拷贝数,对应于个别D_1_1_R和D_1_6_R标准品之间的丰度增加6倍,如图16所示。如表7所示,我们组织了使用这种方法从总共90个DNA标准品组装的15个连结的DNA标准品(A-O)。因此,每个连结的DNA标准品包含1至6倍相对拷贝数的6个个别DNA标准品。
如下将个别DNA标准品以不同的拷贝数(1拷贝D_1_1_R;2拷贝D_1_2_R;3拷贝D_1_3_R)组装成连结的DNA标准品。首先将个别DNA标准品克隆到pUC19载体中。使用在接合区域具有20-bp重叠的寡核苷酸引物进行PCR扩增。使用Gibson Assembly Master Mix(NewEngland BioLabs,Ipswich,MA)根据制造商的说明将得到的PCR扩增子彼此连接。简言之,使用0.062pmol的质粒片段,0.187pmol的五个***片段和10ul的Gibson Assembly MasterMix(2x)至20ul终浓度来建立6-片段Gibson组装。最终的Gibson组装在50℃下温育2hr。在温育后,样品储存在-20℃用于后续转化和质粒纯化。使用Sanger测序来确认连结的DNA标准品***序列。
连结的DNA标准品在增加的相对浓度下滴定并组合以产生包含丰度增加15倍的组合物C,如表7所示。
实施例20:
进行了表示人工染色体之间遗传变异的DNA标准品的一个例子。如实施例5所述,遗传变异可以掺入在人工染色体之间。通过上述实施例17中所述的方法,我们制造了32对匹配等长(1000nt)人工染色体序列区域的DNA标准品(SEQ ID NOs:63-134)。每对包含与“参考”染色体(表示为_R)或变体人工染色体(表示为_V)相匹配的两个DNA标准品。例如,我们产生了DNA标准品对;一个DNA标准品匹配变体等位基因(称为D_1_1_V;SEQ ID NO:64)且另一个DNA标准品匹配参考D_1_1_R标准品(SEQ ID NO:63),如上述实施例20所述。D_1_1_V标准品序列与D_1_1_R标准品序列在7个位点处不同,这包括4个SNP,12nt缺失,6nt***和33nt缺失,如图6所示。在可能的情况下,在DNA序列中还有变异位点上游和下游侧翼的200nt序列,以最小化测序边缘效应的影响。总之,使用如上述实施例17所述的方法制造了含有252个SNP,小于50nt的***和缺失(每个DNA标准品5-8个SNPS,***或缺失)的30个DNA标准品对。
实施例21:
产生代表遗传变异的DNA标准品的不同混合物的一个实例。如实施例20所述,我们可以通过改变表示遗传变异的DNA标准对的相对丰度来表示不同的多倍体基因型。首先,将30个DNA标准品对以不同丰度添加以形成混合物A,如表5所示,从而DNA标准品对之间的成对比较指示了变异和参考DNA标准品之间的相对丰度的总变异,相等,3倍,9倍和30倍的变化。变异和参考DNA标准品之间的这种变化的相对丰度实现在多倍体基因组中纯合,杂合和异质变异的建模。例如,代表参考和变体人工染色体的DNA标准品的等同浓度将代表二倍体生物体如人类的杂合基因型。DNA标准品的不同相对浓度可以建立测量定量差异的量表或梯。我们然后组装了具有不同丰度范围的相同30个DNA标准品对以形成不同的混合物,我们称为混合物B,如表5所示。混合物B中DNA标准品的丰度使得参考与变异DNA标准品相对丰度之间的成对比较指示了混合物A和混合物B之间遗传变异丰度的倍数变化范围。这种变体丰度中的差异变化与DNA样品间等位基因频率的变化相似。
实施例22:
进行了表示特异性疾病相关遗传变异的DNA标准品的一个实例。我们产生了与实施例6中先前描述的参考和变体人工染色体对应的两个DNA标准品。因此,参考DNA标准品匹配参考序列(T对于Q139fs以及T对于V600E;SEQ ID NO:138)并且变体DNA标准品匹配疾病相关遗传变异(TG对于Q139fs并且A对于V600E;SEQ ID NO:139)。如前述实施例17所述制造DNA标准品。
以相等丰度组合DNA标准品从而模拟携带单个TP53Q136fs和BRAF V600E突变以及单个野生型等位基因的杂合基因型。如上述实施例21所述,通过相对于参考DNA标准品的10倍连续稀释,我们产生了变体DNA标准品的连续稀释。这可以模拟异质等位基因频率,其中越来越小的DNA样品亚群携带变体等位基因。
我们对含有参考和变体(含有突变)DNA标准品的不同混合物的文库进行了下一代测序(Illumina HiSeq 4000)。然后我们如下分析了测序读段:1.我们使用BWA将测序读段与人基因组比对;2.我们使用Picard工具进行比对;我们使用基因组分析工具试剂盒(GATK)鉴定了变体。我们鉴定了两个变体(结果取自来自杂合混合物的实例输出.vcf文件):
p53移码突变
p53Frameshift Mutation
B5_R 300.T TG 962.73.\
AC=1;AF=0.500;AN=2;BaseQRankSum=1.780;ClippingRankSum=0.008;\
DP=60;FS=2.250;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0;\
MQRankSum=0.472;QD=16.05;ReadPosRankSum=-0.008;SOR=0.430\
GT:AD:DP:GQ:PL 0/1:24,32:56:99:1000,0,677(GT 0/1指示杂合等位基因,0是参考等位基因并且1是变体等位基因)
BRAF V600E突变
B5_R 602.T A 130.77.\
AC=1;AF=0.500;AN=2;BaseQRankSum=0.306;ClippingRankSum=0.184;\
DP=15;FS=0.000;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0;\
MQRankSum=-0.429;QD=8.72;ReadPosRankSum=0.184;SOR=1.022\
GT:AD:DP:GQ:PL 0/1:10,5:15:99:159,0,364
本实施例证明了以不同纯合,杂合和较低突变等位基因频率在合成DNA标准品上呈现的临床重要突变的鉴定。这提供了一个例子,其中标准品的混合物已经用于在二倍体人基因组中表示杂合等位基因。这里模拟的突变(BRAF V600E突变)具有重要的临床相关性,表明了目前校准方法对临床诊断领域的价值。
实施例23:
进行了表示大规模遗传变异的DNA标准品的一个实例。如在实施例7中所示,我们制造了与之前掺入人工染色体中的结构变异的12个实例相重叠的DNA标准品。对于每个DNA标准品,至少包括600nt的上游和下游侧翼序列以防止可能影响测序和组装的终端效应。如以前在实施例17中所述制造DNA标准品对,并且可以在不同相对丰度上组合以形成使用实施例21中描述方法模拟不同基因型的混合物。
实施例23.1:
进行了表现拷贝数变异的DNA标准品的一个实例。我们产生了与掺入上述实施例7中人工染色体中的人工D4Z4重复阵列相重叠的6个DNA标准品(SEQ ID NO:167-172)。如图33所示,每个DNA标准品的长度总共为1,600nt并包括(i)约800nt长的单个D4Z4重复拷贝(ii)匹配半重复拷贝的400nt上游序列(iii)匹配半重复拷贝的400nt下游序列。为了区分每个DNA标准品,我们将六个“条形码”核苷酸序列(AGCTA,CGATC,CACTG,TCAGC,TAGAC,和GCAGT)之一纳入DNA序列中。注意,每个序列仅存在于一个DNA标准品上,而不存在于另一个DNA标准品上。如图17所示,条形码核苷酸在DNA标准品序列内具有40nt的居间距离,使得每个100nt的窗口将总是包含条形码序列的至少2个情况。
使用实施例17中所述的方法制备每个DNA标准品,并以下列相对浓度滴定DNA标准品;10倍,13倍,50倍和150倍,如图33所示。这包括人类受试者中观察到的大部分D4Z4拷贝数(Schaap,Lemmers et al.2013),从由95%FSMD患者展示的10拷贝,至不受影响的个体的超过100拷贝(van der Maarel and Frants 2005)。该过程产生代表重复DNA序列的不同拷贝数的DNA标准品的混合物。
实施例24:
进行了表示微生物基因组群落的DNA标准品的一个实例。我们生成了与实施例9中组装的人工微生物基因组中的所选序列匹配的12个DNA标准品(SEQ ID NO:149-160)。选择微生物基因组序列使得DNA标准品的长度和GC%与人工微生物基因组的长度和GC%成比例,并从而是代表性的。这在表9中示出并在图10中说明。例如,人工“粪肠球菌样(Enterococcus faecal-like)”基因组是3.2Mb并且具有平均38%的GC含量。通过比较,匹配“粪肠球菌样”基因组的代表性DNA标准品MG_1(SEQ ID NO:149)具有2.2kb长度(全基因组长度的6.875%)和38%GC含量,从而成比例地代表“粪肠球菌样”基因组的长度和GC含量。如先前实施例17所述制造DNA标准品。将12个DNA标准品分为4组,其中每组以浓度的10倍连续稀释度结合以形成包含浓度为104倍范围的混合物。
实施例25:
进行了表示哺乳动物免疫球蛋白序列多样性的DNA标准品的一个实例。我们产生了15个匹配人工TCRβ VDJ克隆型序列的750nt长度的DNA标准品,使用实施例10中描述的方法产生。如图13所示,DNA标准品与下述序列以及居间V,J和D片段重叠,所述序列与BIOMED-2引物互补。如前述实施例17所述制造DNA标准品。将DNA标准品分为5组(即每组3个标准品),其中每组以浓度为10倍的连续稀释度结合以形成包含105倍浓度范围的混合物。这种动态范围跨越健康样品(Zvyagin,Pogorelyy et al.2014)以及诸如最小残基疾病的疾病病患(Zvyagin,Pogorelyy et al.2014)中观察到的人类克隆型分布概貌。
在另一个实例中,产生DNA标准品以表现实施例10中描述的人工TCRG VJ克隆型序列。我们产生了750nt长度的匹配实施例10中产生的人工TCRG VγJγ克隆型序列的15个DNA标准品(SEQ ID NOS:186-202)。如图12所示,DNA标准品与下述序列以及***V,J和D片段重叠,所述序列与BIOMED-2引物互补。DNA标准品如先前在实施例17中所述制造,并结合以形成如上所述的混合物。
实施例26:
进行了将RNA标准品添加到天然RNA样品用于测序的方法的一个实例。首先,根据Coriell Cell Repositories生长方案和标准培养K562细胞。简言之,K562细胞在补充有10%胎牛血清(FBS)的RPMI 1640培养基中,在37℃,5%CO2下培养。根据制造商的说明书,使用TRIzol(Invitrogen)从K562细胞中提取总RNA。随后用TURBO DNase(LifeTechnologies)对每个样品进行DNA酶处理,随后用RNA Clean和Concentrator Kit(ZymoResearch)进行清理。在BioAnalyzer上运行总RNA以检查其完整性并测定浓度。仅使用具有RNA完整性数(RIN)>9.5的RNA用于文库制备。
将RNA标准品如前述实施例14和表1所述组合为混合物A。然后将RNA混合物A添加到含有K562总RNA的~1%的总体积(用NanoDrop,ThermoScientific测量)。使用TruSeqStranded Total RNA Sample Prep Kit(Illumina)根据制造商的说明来制备RNA文库。在合并样品用于测序前,将制备的文库在Qubit(Invitrogen)上进行定量,并在AgilentBioanalyzer(Agilent Technologies)上进行验证。使用HiSeq 2500仪器(Illumine)用125nt配对末端测序读段进行测序。
实施例27:
进行了评估比对和组装RNA标准品方法的一个实例。使用如上述实施例11和13所述的方法,我们产生了匹配包含2个可变同等型的30个基因的RNA标准品(总共60个RNA标准品)。我们将RNA标准品稀释至相等丰度,并以相等比例组合,形成混合物C的相等部分。然后使用TruSeq Stranded Total RNA Sample Prep Kit(Illumina)根据制造商的说明直接从RNA标准品混合物C来制备文库。在使用125nt配对末端读段在HiSeq 2500(Illumina)仪器上对样品进行测序前,将制备的文库在Qubit(Invitrogen)上进行定量,并在Agilent2100Bioanalyzer(Agilent Technologies)上进行验证。使用实施例28中描述的方法处理测序读段(.fastq)文件。我们然后使用Tophat2用以下参数比对序列读段与人工染色体(chrT):
>tophat2chrT_index MixtureC.R1.fq MixtureC.R2.fq
从得到的比对(.bam)文件,使用实施例28中所述的方法,我们确定了比对统计量(对于总比对和分开比对)。值得注意的是,所有RNA标准品都具有足够的丰度,使得它们获得了全序列读数倍数覆盖,且这因此实现当序列倍数叠覆盖是非限制性时比对的评估。这些结果总结在表2中。具体来说,从RNA标准品混合物C,我们测定了总读数比对的98%灵敏度,和剪接读数比对的0.99%灵敏度。因此我们组装了除缺失18个内含子和16个外显子以外的所有基因结构,从而确认了匹配编码在人工染色体上基因座(和同等型)的RNA标准品的性能。
为了比较,我们还模拟了可以从上述测序相同的60个RNA标准品产生的测序读段。将模拟读段与从上述RNA标准品产生的实验衍生的读段进行比较可以区分由于比对和组装产生的变量(这将影响模拟和实验衍生的读段两者)与由于文库制备和测序产生的变量(这将仅影响实验衍生的读段,而不影响模拟读段)的影响。
我们使用RNASeqReadSimulator(http://alumni.cs.ucr.edu/~liw/rnaseqreadsimulator.html)软件来模拟产生自RNA标准品的125-nt配对末端读段,所述RNA标准品掺入了Illumina测序技术(Bolotin,Mamedov et al.2012)通常报告的1%误差率。这将在HiSeq 2500仪器上生成一个.fastq文件每标准品测序。如上处理和比对序列读段文件并且使用实施例28中描述的方法测定比对统计量(用于全部和分开比对)。结果总结在表2中。具体来说,我们观察到对于比对的98%灵敏度,对于剪接比对的99%灵敏度,而最终组装中缺少6个内含子和8个外显子。.
用模拟的和实验来源的测序读段的基因座的比对和组装结果的比较验证了在测序实验中使用RNA标准品。值得注意的是,模拟的读段充分概括了用于RNA标准品比对和组装的实验衍生的测序读段的性能,这表明它们在设计,建模和分析匹配人工染色体转录特征的RNA标准品中的实用性。
实施例28:
进行了将构成RNA标准品和天然RNA样品库的读段比对到人工染色体和天然参照基因组的一个示例性方法。使用实施例26中描述的方法产生的测序文件(.fastq)经历去多路复用(de-multiplexing)。根据制造商的说明,使用trim_galore从测序文件中除去低质量读段和序列或接头污染物序列:
(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/).
将人基因组(hg19)序列与人工染色体(chrT)序列连环化(concatenate)形成单个文件(.fasta)。然后,我们使用bowtie-build根据制造商的说明(Langmead and Salzberg2012)从组合的测序文件中生成索引文件(hg19_chrT_index.*)。然后我们使用Tophat2(Kim,Pertea et al.2013)用以下参数将测序读段(.fastq)与索引文件(hg19_chrT_index.*)比对:
>tophat2hg19_chrT_index./K562.R1.fq./K562.R2.fq
这种方法不参与以前的基因注释来指导比对,并且经常对于发现新基因和从头组装转录物是需要的。我们接下来根据下面描述并总结在表2中的多个度量来评估测序的读段与人工染色体和天然基因组的比对。读段到基因组/人工染色体由与人工染色体(读段至ChrT)和人基因组(读段到Hg19)比对的读段数决定。对于K562,我们将1,091,683个读段与人工染色体比对,以及将65,778,796个读段与人基因组序列比对。
分数稀释是从比对到人工染色体的读段相对于基因组的分数计算的,表示标准品相对于样品库的稀释度。对于K562样品,1.63%的文库与人工染色体比对,表明为61倍稀释因子。
比对灵敏度定义为具有对齐(真阳性)的人工染色体上编码的基因座的人工基因碱基数除以人工基因碱基总数。对于K652样品1,我们观察到0.81的比对灵敏度。
比对特异性定义为具有对齐的人工基因碱基数除以具有对齐的总碱基数。对于K652样品1,我们观察到0.83的比对特异性。
剪接比对灵敏度定义为具有正确分开比对的人工基因内含子数除以人工基因内含子总数。对于K652样品,0.86的比对灵敏度,且描述于图22A中。
剪接比对特异性定义为匹配分开比对的人工基因内含子数除以独特分开比对数。对于K652样品,我们观察到0.85的比对特异性。
检测限对应于在测序文库内不可靠检测到并且没有重叠比对的最高丰度RNA标准品,并且如图24D所示。我们确定0.005阿托摩尔/ul的检测下限(未检测到的最高丰度RNA标准品R_8_2(SEQ ID NO:47,48)乘以稀释因子)。低于该浓度的相应K562RNA样品中的同等型可能不会在测序文库中被表示或检测到,并且文库测序尚未进行完全饱和。
实施例29:
进行将RNA标准品的读段组装到人工基因中的一个示例方法。使用Cufflink2(Trapnell,Williams et al.2010),根据默认参数,将从实施例28中描述的方法产生的比对文件(.bam)组装成全长转录物结构:
>cufflinks K562_1_mixA.bam
我们在人工染色体上组合了108个转录物结构,其例子如图23所示。注意,由于部分组装了一些RNA标准品作为多个片段化结构,这比RNA标准品的数量(60)高。
为了评估组装性能,我们根据默认参数使用Cuffcompare(Trapnell,Williams etal.2010)来比较组装的转录物相对于人工染色体上已知转录物注释。相对于所有水平的人工基因结构(核苷酸,外显子,内含子,转录物,基因)和从装配缺少的人工外显子,内含子以及基因的分数,我们根据组装的灵敏度和特异性评估了转录物组装。之前描述了与基因结构相关的灵敏度和特异性的测量的进一步细节(Burset and Guigo 1996)。在本实施例中,当结合K562RNA样品时,RNA标准品的组装结果总结在表2中。值得注意的是,基于人工染色体上基因组装的这些测量,指示了伴随的K562RNA样品中对匹配的从头组装的评估。
不能正确组装同型可以源自具有低丰度的RNA标准品的序列覆盖不足。因此,无法正确组装的最丰富的RNA标准品表明转录物组装的下限。这在图22A和图22B中通过以下说明:绘制每个同等型的已知浓度相对于组装了外显子,内含子和完全同等型结构的灵敏度。低于该浓度存在的伴随K562RNA样品的转录物将被预期为较差或仅部分组装。
实施例30:
进行了量化RNA标准品丰度的一个示例方法。我们首先使用实施例26中描述的方法将RNA标准品(如先前在实施例15中制备为混合物A)添加到三个生物重复K562RNA样品中用于文库制备和测序。
我们首先使用Tophat2(Kim,Pertea et al.2013)用以下参数比对测序的读段(.fastq)和索引文件(hg19_chrT_index.*):
>tophat2–G annotations.gtf hg19_chrT_index./K562.R1.fq./K562.R2.fq
这种方法使用基因注释来指导比对。对于人工基因组,注释文件(annotations.gtf)包含人工染色体上基因座的注释以及来自GENCODE v19的天然基因注释(Harrow,Frankish et al.2012)。使用Cufflink2(Trapnell,Williams et al.2010)根据默认参数针对RNA标准品和人类基因注释来量化比对文件(.bam)。
>cufflinks–G annotations.gtf K562_1_mixA.bam
丰度可以在两个水平上量化;测量每个人工基因(即,组合的两个DNA标准对)的丰度和每个同等型(即每个DNA标准同等型)的丰度。为了说明图24A中RNA标准品的定量,我们绘制了相对于每个人工基因的已知基因浓度(以阿托摩尔/ul计)的测量的基因丰度(以RPKM计)。定量准确性可以通过观察到的RNA标准品丰度(通过NG测序测得)与其预期丰度(对应于当组合成混合物A时它们的已知浓度)之间的相关性(Pearson's r)来测量。对于这个例子(RNA标准品混合物A与3个重复的K562RNA样品组合),相关系数为0.95。图24A所示的斜率测量增加的比例(由直线和1/Y2加权的非线性回归拟合确定)。这表明与RNA标准品的动态范围间的预期丰度相比,观察到的线性比例。对于这个例子,斜率是0.91。这些结果总结在表2中。
量化RNA标准品的准确性依赖于测序覆盖,并且具有低测序覆盖的低丰度RNA标准品的定量比高丰度RNA标准品更可变。为了说明这一点,我们在图22C中绘制了每个RNA标准品的定量测量中的变异系数(COV%)相对于每个RNA标准品的已知浓度。这说明,0.153阿托摩尔/ul的RNA标准品具有高变异97.07(CV%)的变异而1,250阿托摩尔/ul的基因显示3.24(CV%)的低变异。这说明使用RNA标准品来评估测定基因丰度的置信度。
我们可以使用RNA标准品将通过NG测序以每千碱基每百万的读段(reads perkilobase per million,RPKM)测量的天然基因(在伴随RNA样品中)的丰度转化为以摩尔单位(阿托摩尔/ul)计的浓度,如图24A所示。例如,在伴随K562RNA样品中,我们测量了断点簇区基因(BCR)的表达为20.9063RPKM。通过与类似丰度的RNA标准品比较,这对应于0.019阿托摩尔/ul的浓度。
实施例31:
进行了使用RNA标准品测量可变剪接的一个示例方法。个别同等型的准确量化由于与来自同一基因座的其他可变剪接同等型共享的变化的序列水平而复杂化。因此,为了评估同等型定量的准确性,我们绘制了相对于混合物A(在实施例15中制备)中RNA标准品的已知同等型丰度(以阿托摩尔/ul计)测量的同等型丰度(以RPKM计),如图24D所示。然后我们测定了添加有K562RNA样品的同等型RNA标准品的相关性为0.93(Pearson’s r)和斜率为0.86,从而提供了同等型定量的评估。这些结果总结在表2中。
我们接下来测量了多个个别的同等型RNA标准品之间的相对丰度,所述同等型RNA标准品在模拟可变剪接的方法中从单一共享人工基因座产生。我们绘制了观察到的配对同等型的相对丰度与配对同等型的已知的相对丰度相比较,如图25A所示,以指示测量可变剪接事件的定量准确性。对于这个样品,我们观察到添加到K562RNA样品的混合物A中RNA同等型对之间的相关系数为0.76(Pearson's r)和斜率为0.84。该评估通指示在伴随K562RNA样品中分析天然基因的可变剪接。
实施例32:
进行了使用RNA标准品测量多个RNA样品之间的差异的一个示例方法。首先,根据Coriell Cell Repositories生长方案和标准培养GM12878细胞。简言之,GM12878在补充有10%胎牛血清(FBS)的RPMI 1640培养基(Gibco)中,在37℃,5%CO2下培养。根据制造商的说明书,使用TRIzol(Invitrogen)从GM12878细胞中提取RNA。如之前实施例14描述并且如表1所示,将RNA标准品制备为混合物A和混合物B。将混合物A添加到K562RNA样品并且将RNA混合物B添加到GM12878RNA样品至最终样品的1%终体积(由NanoDrop,ThermoScientific测量)。制备文库,序列如上面的实施例26所述。使用上述在实施例28-30中描述的方法,用人工染色体和参考人基因组分析RNA标准品混合物B与伴随GM12878RNA样品的测序读段文件(.fastq)。结果总结在表2中,如图24B,F所示。
我们接下来比较混合物A(具有K562细胞样品)和混合物B(具有GM12878细胞样品)之间RNA标准品的丰度差异。我们绘制了与预期的倍数变化相比混合物A和B之间观察到的倍数变化,如图24C所示并表示在表3中。我们观察到预期的和观察到的倍数变化之间的相关性为0.70(Pearson’s r)和斜率为0.88,显示了在伴随RNA样品之间测量差异RNA丰度的准确性。
我们接下来测量样品之间的RNA标准品的相对同等型丰度的差异。我们绘制了混合物A和混合物B之间的同等型丰度的观察到的对预期的倍数变化,如图24F和25B所示。对于该样品,观察到的与预期的同等型倍数变化具有0.73的相关性(Pearson’s r)和0.75的斜率(在表3中总结),显示了在伴随RNA样品之间测量差异可变剪接的准确性。
同等型丰度中的倍数变化模拟定量可变剪接事件。我们使用R_10_2基因来说明图25C中标准品如何能够模拟可变剪接中的倍数变化。R_10_2基因包含由第5外显子的可变剪接产生的两个不同的同等型,以产生更长的同等型(_R)或更短的版本(_V)。由模拟测序读段(由先前在实施例27中描述的方法产生)的覆盖说明R_10_2同等型可以忠实地组装。将表示R_10_2基因的标准品添加到混合物A和B中使得(i)基因表达降低5倍和(ii)同等性表达变化,R_10_2_V同等型相对增加3倍,同时R_10_R同等型降低3倍。如图25C所示,这模拟外显子5的可变剪接的3倍变化。我们接下来定量了具有混合物A的K562细胞和具有混合物B的GM12878细胞之间R_10_2同等型丰度倍数变化,观察到基因表达降低4倍(这是基因丰度变化中5倍预期的倍数变化的估计不足)和相对同等型丰度的3倍变化,如图25C所示。该实例显示了同等型RNA标准品的变异丰度如何可以模拟RNA样品之间的可变剪接差异。
我们可以将上述分析限制在RNA标准品的特定子集上。例如,我们可以确定RNA标准品的可变剪接的准确性,其高于用户定义的组装阈值丰度限4.8阿托摩尔/ul,如图26B所示。因为RNA标准品的这个子集具有比所有RNA标准品的平均值更高的序列覆盖度,所以我们观察到同等型定量的更精确的测量(相关性,斜率)。
实施例33:
进行了使用RNA标准品校准疾病与正常RNA样品之间的差异的一个示例性方法。来自3个正常人肺样品和3个肺腺癌样品的总RNA样品购自Origene(样品IDs:CR560142,CR559185,CR560128,CR560083,CR560135,CR561324;Rockville,MD)。使用先前在实施例26中描述的方法,将RNA标准品混合物A以1%总体积加入每个肺腺癌样品并且将RNA混合物B以1%体积加入到每种肺正常RNA中。为了能够与先前公开的ERCC RNA Spike-Ins(Consortium 2005)相比较,我们还根据制造商的说明(tools.lifetechnologies.com/content/sfs/manuals/cms_086340.pdf),将ERCC Spike-In混合物1添加到每个肺腺癌样品中以及将ERCC Spike-In混合物2添加到每个肺正常样品中。制备组合的RNA样品作为测序的文库,并使用上述实施例28-30中所述的方法进行分析。结果总结在表2中。
我们接着比较了本文所述的RNA标准品与ERCC Spike-In序列的性能。我们根据制造商的说明测定了ERCC Spike-Ins的比对和表达倍数变化,并且如前所述(在实施例28-30中)测量了RNA标准品和ERCC Spike-Ins两者的比对的特异性和灵敏度,分数稀释,检测限和动态变化,以及定量准确性(相关性和斜率)。ERCC Spike-Ins和RNA标准品之间的比较总结在表2中。
我们在图26A,B中绘制了RNA标准品和ERCC Spike-Ins两者的预期的相对于已知的丰度。我们还比较了RNA标准品和ERCC Spike-Ins两者的混合物之间的倍数变化,如图26C所示。
与RNA标准品(0.81)相比,ERCC标准品表现出相似的比对灵敏度(0.84),但与RNA标准品相比更高的特异性(0.99)。ERCC比对的这种更高的特异性是仅包含单个RNA序列的ERCC Spike-Ins的结果。与本文所述的RNA标准品和内源性人类基因不同,ERCC Spike-Ins不是由多个外显子和内含子序列组成,并因此只能将非分开读段与ERCC Spike-In序列比对。
接下来我们定量了在正常肺RNA样品或肺腺癌RNA样品中与癌症致病相关的人类基因的表达(由Wellcome Trust Sanger Cancer Census s(Futreal,Coin et al.2004)管理)。我们连环化人工染色体上基因的464个基因坐标的基因组坐标(来自GENCODE v19注释(Harrow,Denoeud et al.2006))以形成单个注释文件(CancerGenes_RNA标准品.gtf)。然后我们使用Cuffdiff(Trapnell,Williams et al.2010)用以下参数测量癌症基因和RNA标准品的表达:
>Cuffdiff–g CancerGenes_RNAstandards.gtf\
LungCancer1.sam,LungCancer2.sam,LungCancer3.sam\
LungNormal1.sam,LungNormal2.sam,LungNormal3.sam
我们然后使用先前在实施例28-30中所述的方法进行比较分析以评估混合物A(肺正常)和混合物B(非腺癌)中RNA标准品的差异基因表达和可变剪接的定量准确性。结果总结在表3中。
我们绘制了测量的癌基因丰度相对于RNAs标准品的测量的丰度以说明在图26D中RNA标准品的观察的丰度(以RPKM计)如何能够被用于推测相应的癌症基因的浓度(以阿托摩尔/ul计)。
为了说明RNA标准品如何能够指示伴随RNA样品中的个别基因的分析,我们考虑了微小染色体维持2(mini-chromosome maintenance 2)(MCM2)基因的表达。MCM2是细胞增殖的标志物(Yang,Ramnath et al.2006,Simon and Schwacha 2014)并且以前在肺腺癌样品中报道了富集的MCM2表达(Zhang,Gong et al.2014)。因此,准确测量正常和匹配肿瘤样品之间MCM2表达的倍数变化是重要的。MCM2具有复杂的剪接结构(包含16个外显子)并因此使用RNA标准品进行了良好建模。我们观察到MCM2在肺正常样品中表现出约63.0RPKM的平均值表达,但在肺腺癌样品中富集2.07倍(到平均值170.1RPKM)。通过与RNA标准品比较,我们测定了对应于19.53阿托摩尔/ul浓度的MCM2表达。值得注意的是,类似浓度的RNA标准品(如R_6_1和R_6_2)是较差组装和定量的。这表明伴随肺正常和肺腺癌RNA测序之间的MCM2表达的测量应该谨慎地解释。
图26D中所示的测量的RNA标准丰度图表明在约0.005615阿托摩尔/ul处的检测限。我们观察到42.7%的癌症基因高于这个检测限,并适合进一步分析。注意到,由于该文库尚未测序到饱和,因此额外的癌症基因可以以低于该检测限的浓度存在,或经历可能无法准确检测的基因表达变化。
实施例34:
进行了将RNA标准品添加到小鼠RNA样品进行测序的一个示例性方法。我们首先从4月龄的野生型瑞士(Swiss)小鼠获得小鼠肝组织。根据制造商的说明书,使用TRIzol(Invitrogen)从小鼠肝脏样品中提取总RNA。随后用TURBO DNA酶(Life Technologies)对每个样品进行DNA酶处理,随后用RNA Clean和Concentrator Kit(Zymo Research)进行清洁。在BioAnalyzer上运行总RNA以检查完整性并测定浓度。仅使用具有RNA完整性数目(RIN)>9.5的RNA进行文库制备。将RNA标准品(之前在实施例15中制备的混合物A)以1%体积(由NanoDrop,ThermoFischer测定)添加到小鼠肝样品中。使用实施例26中所述的方法制备RNA样品并测序。
我们接下来将人工染色体(charT)序列与小鼠基因组(mm10)序列连环化以形成单个文件(.fasta)。我们然后使用bowtie-build根据制造商的说明(Langmead and Salzberg2012)从结合的序列生成了索引文件(mm10_chrT_index.*)。然后我们使用Tophat2(Kim,Pertea et al.2013)用以下参数将测序读段(.fastq)与索引文件(mm10_chrT_index.*)比对:
>tophat2mm10_chrT_index./MouseLiver.R1.fq./MouseLiver.R2.fq以提供比对文件(.bam)。使用之前在实施例28-30中描述的方法,进行了伴随小鼠肝样品的RNA标准品的比对、组装和定量的分析。结果总结在表2中,并在图27和28中示出。注意到,混合物A中与小鼠肝RNA样品一起添加的RNA标准品的分析展示出和与人类RNA样品一起使用的RNA标准品相似的灵敏度(0.56)和特异性(0.97),如表2中示出的。这证实了RNA标准品的性能不受对小鼠RNA样品的添加影响,也没有测序读段与小鼠基因组的伴随比对(concomitantalignment)。
实施例35:
进行了用非人基因组分析来自RNA标准品的测序读段的一个实例方法。当与来自一系列不同生物进化枝的不同天然基因组一起使用时,我们确定了RNA标准品是否与以前的实施例28-30和34所述的一样好运行。我们首先下载了以下生物体的基因组序列:智人(hg19),小家鼠(M.musculus)(mm10),秀丽隐杆线虫(C.elegans)(ce10),黑腹果蝇(D.melanogastor)(dm3),A.thalianis(tair9),大肠杆菌(eschColiK12)和M.kandleri(methKand1)以及酿酒酵母(S.cerevisae)(SacCer6)。将每个个别基因组序列与人工染色体序列(chrT)连环化以形成单个序列(.fasta)文件。然后根据制造商的说明,使用Bowtie2-build以建立对应于结合测序文件的索引。
我们接下来比对了来自文库的测序读段,所述文库从以相同浓度组合以形成实施例27中所述的混合物C的RNA标准品制备。使用以下参数将测序读段与每个包含人工染色体与生物基因组(用*表示)的个别索引相比对:
>tophat2*_chrT_index MixtureC.R1.fq MixtureC.R2.fq
其中*对应于生物体基因组(如Dm3,hg19等)
对于每个得到的比对(.bam),我们使用如上实施例28中描述的方法测定了比对统计量(对于总体和分开比对)。我们观察到与基因组比对的读段数,以及总体和剪接读段的特异性和灵敏度在很大程度上是不变的,不管伴随的基因组如何。这些结果总结在表4中并指示了RNA标准品表现得相当好而不论伴随基因组,以及RNA标准品可与来自广泛生物体的RNA样品结合使用。
实施例36:
实施使用RNA标准品测量融合基因表达的一个示例方法。我们使用之前对于RNA标准品在实施例27中描述的方法模拟了读段文库,所述RNA标准品代表正常(A1和B1)基因和由人工染色体易位所产生的融合基因(B1fA1),如实施例8描述的。读段丰度根据融合RNA标准品相对于两个正常RNA标准品(A1和B1基因)的10倍连续稀释度分配,以包含104倍的范围,如图9B所示。这导致融合RNA标准品的呈现,以读段的越来越小的比例。我们将RNA标准品序列读段与实验衍生的RNA测序文库连环化到终浓度1%,所述测序文库产生自上面详细描述的K562,GM12878,肺正常和肺癌RNA样品。产生的文库文件(.fastq)用于进一步分析。
接下来,我们使用Tophat2-fusion(Kim,Pertea et al.2013)用以下参数比对测序读段(.fastq)与索引文件(hg19_chrT_index.*):
>tophat2-fusion hg19_chrT_index./K562.R1.fq./K562.R2.fq
以生成指示与由转座产生的融合内含子重叠的读段数(每百万个;RPM)的比对文件(.bam)和融合文件(fusions.out)。我们绘制了每个融合RNA标准品稀释度的已知浓度相对于读段覆盖,如图9B所示。我们使用相关性(0.982)和斜率(0.927)评估了融合基因RNA标准品的定量准确性,这指示了相对于正常基因定量融合基因表达的相对高的准确性。另外,我们还绘制了归因于与RNA融合基因的相对丰度相比鉴定融合RNA标准品的置信度,如图9C所示。该分析表明可以在伴随的天然RNA样品内检测和定量相应覆盖的融合基因的准确性,灵敏度和置信度。
伴随K562RNA样品对于染色体9和22之间的BCR-ABL基因融合是杂合的(Grosveld,Verwoerd et al.1986)。接下来,我们使用RNA标准品来说明K562RNA样品中内源BCR-ABL1(p210)融合基因相对丰度的测量。我们用针对GM12878基因组DNA的10倍连续稀释液滴定来自K562细胞的基因组DNA以模拟针对野生型细胞(GM12878)背景的携带BCR-ABL1融合基因的增加的小细胞(K562)亚群。如图9B所示,我们以K562细胞分数的连续稀释液绘制了BCR-ABL1(p210)融合基因的读数(每百万)丰度。对应于BCR-ABL1(p210)融合基因丰度的RNA标准品指示了融合基因检测灵敏度的相对浅的限度(对应于~1:10稀释),其不足以监视最小残基病(minimal residual disease)。因此,使用代表融合基因的RNA标准品使我们能够评估RNA测序文库中检测融合基因的灵敏度和准确性,并可用于监测最小残基病(Mitterbauer,Nemeth et al.1999)。
实施例37:
进行了将DNA标准品添加到天然DNA样品进行测序的一个示例方法。将人GM12878细胞系(Coriell Cell Repositories)在37℃,5%CO2下,在补充有10%胎牛血清(FBS)的RPMI 1640培养基中培养。根据制造商的说明书,使用TRIzol(Invitrogen)从GM12878中提取DNA。用RNA酶A处理提取的DNA样品,然后用Genomic DNA Clean&Concentrator试剂盒(Zymo Research)进行清洗。在Nanodrop(Thermo Scientific)上定量纯化的DNA。如之前描述于实施例18和表5,将DNA标准品组合成混合物A。然后将DNA混合物A与GM12878基因组DNA一起添加到约1%总体积(用NanoDrop,ThermoScientific测量)。
使用TruSeq Stranded DNA Sample Prep Kit(Illumina)根据制造商的说明来制备DNA文库。在合并样品用于测序前,将制备的文库在Qubit(Invitrogen)上进行定量,并在Agilent Bioanalyzer(Agilent Technologies)上进行验证。使用HiSeq 2500仪器(Illumine)用125nt配对末端测序读段进行测序。
实施例38:
进行了评估DNA标准品的比对和组装的一个实例。我们使用如上述实施例17和20所述的方法,用两个等位基因(参考和变体)产生了匹配人工染色体的30个区域的DNA标准品。我们将DNA标准品稀释至相等的丰度并以相等的比例组合以形成混合物C的相等部分。使用TruSeq Stranded DNA Sample Prep Kit(Illumina)根据制造商的说明来制备DNA文库。在用HiSeq 2500仪器(Illumina)将样品作为125nt配对末端读段测序前,将制备的文库在Qubit(Invitrogen)上进行定量,并在Agilent Bioanalyzer(Agilent Technologies)上进行验证。使用实施例39中描述的方法处理并比对测序读段(.fastq)文件。我们使用实施例39中描述的方法从比对(.bam)文件评估比对。注意到,所有DNA标准品都具有足够的丰度,以达到全序列倍数覆盖。在表6中汇总了序列倍数覆盖是非限制性的比对测量。具体来说,我们测定了读数比对的99%灵敏度和97%的特异性,从而验证了DNA标准品代表人工染色体的区域的效用。
为了比较,我们还模拟了预期从同一个DNA标准品生成的读段。模拟读段与上面产生的实验衍生读段的比较可以将由于比对和组装而引起的变化(这将影响模拟和实验衍生的读段)与测序导致的变化(这将仅影响实验衍生的读段,而不是模拟读段)的影响区分开来。
我们使用Sherman(http://www.bioinformatics.babraham.ac.uk/projects/sherman/)根据制造商的说明以模拟按照HiSeq仪器上的测序由DNA样品作为.fastq文件所产生的125nt配对末端读段。测序读段掺入了Illumina测序技术(Bolotin,Mamedov etal.2012)已通常报告的1%误差率。我们比对了模拟测序读段与人工个染色体(使用bwa用如上相同的参数),并如上所述评估了比对。结果总结与表6中。具体来说,我们观察到DNA标准品的读段的比对的99%灵敏度和100%特异性,从而验证了匹配来自人工染色体的序列的DNA标准品的效用。注意到,模拟读段充分概括了用于DNA标准品比对和组装的实验衍生的测序读段的性能,显示了它们在设计,建模和分析匹配人工染色体特征的DNA标准品上的效用。
实施例39:
进行了将构成DNA标准品和天然DNA样品文库的读段比对到人工染色体和天然参考基因组的一个示例性方法。使用实施例37中的方法产生的测序文件(.fastq)经历去多路复用(de-multiplexing)。根据制造商的说明,使用trim_galore从测序文件中除去低质量读段和序列或接头污染物序列(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)。
将人基因组(hg19)序列与人工染色体(chrT)序列连环化以形成单个文件(.fasta)。我们然后使用bwa索引根据制造商的说明(Langmead and Salzberg2012)从合并的测序文件中生成索引文件(hg19_chrT_index.*)。我们然后使用bwa将读段与索引文件比对:>bwa mem-M hg19_chrt.bwa sequence.read1.fq sequence.read2.fa>alignments.sam以生成比对(.bam)文件。
测序误差可以在读段比对和人工染色体序列间产生碱基方式(base-wise)误差。我们可以分析序列误差比对以评估测序质量。例如,测序误差率指示每测序100nt的平均测序误差数。在这个实施例中,其中将DNA标准品与GM12878DNA样品一起添加,我们测定出0.67%的读段包含误差错配,如图29A所示。测序误差分布还描述了跨越读数的测序误差分布,如图29B所示。
我们接下来根据下面描述并总结于表6中的多个度量来评估测序读段与人工染色体和天然人(hg19)基因组的比对。
到基因组/人工染色体的读段是比对到人工染色体和人基因组的读段数。例如,对于GM12878样品,我们将2,029,597个读段与人工染色体相比对,和将458,521,347个读段与人基因组序列相比对。
稀释分数是相对于基因组比对到人工染色体的读段的分数,其指示了相对于样品文库的标准品的稀释(分数稀释)。对于GM12878样品,0.4%的文库比对人工染色体,指示了250倍稀释因子。
比对灵敏度定义为具有重叠比对的人工DNA标准品碱基大小(真阳性)除以人工DNA标准品碱基的总数(真阳性和假阴性)。对于GM12878样品,我们观察到0.849的碱基方式比对灵敏度。
比对特异性定义为具有重叠比对的人工DNA标准品碱基数(真阳性)除以具有重叠比对的碱基总数(真阳性和假阴性)。对于GM12878样品,我们观察到0.961的碱基方式比对特异性。
检测限对应于最高丰度DNA标准品,其没有读段比对且在测序文库内不能可靠地检测。对于GM12878,我们观察到0.0037阿托摩尔/ul的检测限。
实施例40:
如下进行了从连结的DNA标准品计算移液误差的一个示例性方法。在此,我们显示了如何用连结的DNA标准品计算移液误差,并演示了移液误差的计算准确度如何。这需要已知水平的由于移液产生的变异和由于其他来源的变异。为了完成这点,我们首先基于来自在相等组合中组合的DNA标准品的测序文库模拟了由于移液和其他来源导致的变异量,如先前在实施例38中所述。由于移液误差导致的变异定义为个别DNA标准品的丰度与所有DNA标准品的平均丰度之间的差异。这被称为由于移液而导致的预期变异,并且在一起构成单个连结的的DNA标准品的个别DNA标准品之间是依赖性和相同的。由于其他来源(如文库制备和测序)的变异通过分析由相同DNA标准品混合物C制备的技术重复序列文库来测定。变异对应于DNA平坦(Flat)混合的技术重复之间标准化丰度的差异。由于其他来源的预期的变异在一起构成单个连结的DNA标准品的个别DNA标准品之间是独立和不同的。我们根据以下,将变异的这两个来源掺入DNA标准品混合物的观察的丰度中:
观察的丰度=预期的丰度x由于移液的预期的变异x由于其他来源的预期的变异
对于此实施例,如先前在实施例38中所述来模拟衍生自DNA标准品的读段。如表7中所示将读段丰度根据连结的DNA标准品的已知丰度分配。如图31A所示,我们绘制了相对于对每个DNA标准品的预期丰度的观察到的丰度。这表明了一起构成单个连结的DNA标准品的个别DNA标准品所呈现的特征依赖性线性斜率分布。注意到,如图31B所示,连结在一起的展示了不规则但依赖性的丰度的多个DNA标准品能够更容易识别和省略由于移液引起的异常值。
我们如下计算了来自DNA标准品观察的丰度的移液变异(如图31B所示);对于每个连结的DNA标准品,我们首先通过6个个别DNA标准品绘制了最佳拟合线(Y线截距限于0并加权到1/Y2的非线性回归)。线斜率距1的偏差与移液不准确性成比例。例如,对于连结的的DNA标准品A,我们观察到1.188的斜率,这估计了由于移液误差,已经添加了连结的DNA标准品的额外的18%。所有连结的DNA标准品的计算总结在表7中。计算的移液变异与预期的移液变异的比较指示了使用该方法,我们估计由于移液造成的误差在3%的平均值之内。
接下来,我们可以如下通过标准化通过该计算变异得到的每个连结的DNA标准品测量来最小化移液带来的变异。我们首先迫使连结的DNA标准品的线性分布以显示1的斜率,如图31A,B所示。这改善了DNA标准品预期和观察的丰度之间的相关性(Pearson’s r)至0.99(相较于0.987(如果DNA标准品在不进行标准化的情况下独立测量的话);图31B)。通过连接DNA标准品的变异系数从16.13降低到0.73的约10倍来说明标准化移液误差而带来的定量准确性的改善(图31C所示)。这使用户能够计算由于移液变异所致的变异和不准确性的量以及来自其他来源的变异并改善测量置信度。
实施例41:
进行了定量DNA标准品丰度的一个示例性方法。我们首先测量了由DNA标准品表示的人工染色体的每个区域的比对频率。因此,在长度标准化后,以每百万个每千碱基的读段(RPKM)分配每个DNA标准品的观察到读段。如图28A所示,我们绘制了测量的DNA标准品丰度相较于每个DNA标准品的已知浓度(阿托摩尔/ul)来评估定量准确性。因此,可以使用相关性(Pearson’s r)测量DNA标准品定量以提供观察的和预期的DNA标准品丰度之间的一致性的指示。例如,我们观察到之前用实施例37中的GM12878基因组DNA样品制备的DNA标准品的相关性为0.94。斜率指示了跨越DNA标准品动态范围的的观察的相对于预期的丰度的线性比例。对于与GM12878样品组合为混合物A结合的DNA标准品,斜率是1.01。结果总结在表6中。
实施例42:
进行鉴定DNA标准品中遗传变异的一个示例方法。首先使用SAMtools(Li,Handsaker et al.2009)和Picard工具如下预处理使用实施例40中描述的方法制备的比对(.sam)文件。
>java-jar CreateSequenceDictionary.jar R=hg19_chrT.fa O=hg19_chrT.dict
>samtools faidx hg19_chrT.fa>hg19_chrT.fai
>java-jar SortSam.jar INPUT=alignments.sam OUTPUT=alignments.sort.bam\
SORT_ORDER=coordinate
>java-jar ReorderSam.jar INPUT=alignments.sort.bam\
OUTPUT=alignments.sort.reorder.bam REFERENCE=hg19_chrT.fa
>java-jar BuildBamIndex.jar INPUT=alignments.sort.reorder.bam
我们然后使用GATK toolkit(McKenna,Hanna et al.2010)根据发表最佳做法(http://www.broadinstitute.org/gatk/guide/best-practices),包括Unified GenomeHaplotype caller,以使用以下默认参数鉴定遗传变异:
>java-jar GenomeAnalysisTK.jar-T HaplotypeCaller-R hg19_chrT.fa\
-I alignments.sort.reorder.bam--genotyping_mode DISCOVERY\
--defaultBaseQualities 30-o variants.vcf
注意到,本文描述的方法同时鉴定人工染色体上的变异,还鉴定在GM12878基因组DNA和参考人基因组之间的变异。我们可以使用以下方法来评估人工染色体中变体识别的表现。
覆盖的变体对应于具有比对覆盖的遗传变异的比例。例如,比对与伴随GM12878DNA样品的DNA标准品中的490(88%)的变体实例重叠。
变体灵敏度定义为正确鉴定的变体数(真阳性)除以代表DNA标准品内的变体总数(真+假阴性)。这取决于测序深度和变体检测。例如,对于GM12878样品,我们实现了0.65的灵敏度变化。
变体检测定义为变异灵敏度除以覆盖的变体,提供了独立于测序深度或覆盖的变体检测的测量。例如,对于GM12878样品,我们实现了0.73的变体效率。
变体特异性是正确鉴定的变体数(真阳性)除以检测的变体总数(真+假阴性)。例如,对于GM12878样品,我们实现了0.57的变体特异性。
中值质量得分定义为变体存在于该位点的PHRED缩放概率(scaledprobability),可以分配给每个识别的变体。对于GM12878样品,正确变体调用的中值质量得分为1,803,同时误差变体调用的中值质量得分为61,如图28E中所示。
这些结果总结在表6中。描述性统计量可以限制在DNA标准品内表现的变异的特定子集中。例如,我们可以测定检测在DNA标准品内的***的灵敏度。
人工染色体上的误差变体调用(call)比正确调用显示更低的质量得分,如图30A所示,说明质量得分以在GM12878基因组中伴随变体鉴定中区分误差变体的质量得分的效用。类似地,我们观察到误差调用变异中特别富集特异性核苷酸取代(C到A和T到G),说明这些核苷酸变体应该加以额外小心解释,如图30B所示。
无法正确识别变异常常可以是由于序列覆盖不足造成的。图28B,E中显示了用于鉴定变异的此灵敏性限度,该图通过将每种DNA标准品的预期的浓度绘图到对每个DNA标准品正确分配的变异分数得到。没有检测到变异的最高浓度DNA标准品说明在伴随的GM12878基因组样品中可以可靠地检测到变异的下限。
我们然后分析了通过改变参考和变体DNA标准品的相对浓度所产生的相对等位基因频率。对于人工染色体上鉴定的115个变体,我们将预期的相对等位基因频率(即参考与变体DNA标准品的丰度比率)对观察的相对等位基因覆盖(通过GATK输出.vcf文件中的DP指示)绘图。如图28C所示,该图中指示了最小正确鉴定的等位基因频率为1%以及正确变异检测被限制在高于0.088阿托摩尔/ul的丰度的DNA标准品。将等位基因限于那些仅具有覆盖>8阿托摩尔/ul的等位基因改善了具有0.9574相关性和0.9043斜率的等位基因频率定量,这反应了足够的测序覆盖对于准确检测和定量稀有变体的重要性。
我们还可以将伴随GM12878基因组DNA中的变体鉴定与具有相似测序读段覆盖的DNA标准品中的变体鉴定比较。例如,基因组DNA变体的第25位-第75位百分位数展示了3至6倍之间覆盖的序列覆盖。该序列覆盖对应于具有0.15阿托摩尔/ul平均丰度的五个DNA标准品。将我们的分析限于此DNA子集表明用于鉴定GM12878基因组中变异的灵敏度为0.846,特异性为0.93。
实施例43:
进行了量化疾病与正常人类DNA样品之间的DNA标准品变异的一个示例性方法。来自正常肺和肺腺癌的商业DNA购自Origene(CD563993,CR563976;Rockville,MD)。将如实施例18中制备的DNA混合物A添加到肺腺癌DNA样品到1%总体积,以及将DNA混合物B添加到肺正常DNA样品到1%体积(由NanoDrop确定)。使用之前在实施例37中描述的方法制备DNA样品和文库并且测序。使用实施例41-42中描述的方法比对和分析了读段。在表6中总结了结果。
DNA样品可以在异质频率下携带突变(与先前讨论的纯合/杂合等位基因频率不同)。例如,携带特定突变的癌细胞可能仅占测序样品的一小部分。如图30C,D所示,我们绘制了相对于预期等位基因频率的观察等位基因频率以测定等位基因定量的准确性和灵敏度。例如,肺腺癌样品具有0.91的相关性(Pearson’s r)和0.95的斜率。检测限指示等位基因可以可靠鉴定的较低频率限制。例如,在该实施例中,较低的检测限是0.0019阿托摩尔/ul。类似地,等位基因频率提供样品纯度的估计,并使我们能够估计取样的肺腺癌组织内癌细胞的比例,其中我们可以将解析1:100等位基因降至13倍覆盖或者0.0082阿托摩尔/ul。
实施例44:
将DNA标准品与小鼠DNA样品一样添加的一个示例方法。从4个月龄的野生型瑞士SWR/J小鼠获得小鼠肝组织。使用TRIzol(Invitrogen)根据制造商的说明书提取小鼠肝脏样品的基因组DNA。提取的DNA样品用RNA酶A处理,然后用Genomic DNA Clean&Concentrator试剂盒(Zymo Research)进行清洗。在Nanodrop(Thermo Scientific)上定量纯化的DNA。将如实施例18中制备的DNA混合物A添加到小鼠DNA样品至1%总体积(如由NanoDrop确定)。使用先前在实施例37中描述的方法制备DNA样品和文库并对其进行测序。
将小鼠基因组(mm10)序列与人工染色体(chrT)序列连环化以形成单个文件(mm10_chrT.fa)。然后我们从组合的序列文件中使用bwa索引根据制造商的说明(Langmeadand Salzberg 2012)来生成索引文件(mm10_chrT_index.*)。我们使用bwa(Kim,Pertea etal.2013)用描述于实施例39中的方法将测序读段(.fastq)与索引文件(mm10_chrT_index.*)相比对。我们使用实施例41中描述的方法分析了DNA样品的比对,定量和变体检测,并在图28D所示。这些结果总结于表6中,指示了用人和小鼠基因组DNA两者的类似水平的比对特异性,灵敏度和定量,指示了DNA标准品的性能不受添加小鼠DNA样品或与小鼠基因组的伴随比对的影响。
实施例45:
进行了用非人基因组分析来自DNA标准品的测序读段的一个示例性方法。我们确定DNA标准品是否与在与来自一批不同生物体进化枝的不同天然基因组一起使用时一样表现得相当好。通过以前在实施例35中描述的方法产生一批具有伴随人工染色体的生物体基因组的索引版本(build)。我们接下来用使用如实施例38所述的方法制备为混合物C的DNA标准品比对测序读段。使用bowtie(Li and Durbin 2009)用以下默认参数将测序读段与每个生物体基因组/人工染色体序列比对:
>bowtie2–x*_chrT_index-1MixtureC.R1.fq-2MixtureC.R2.fq
其中*对应于生物基因组(例如Dm3,hg19等)
对于每个所得的比对(.bam),我们使用实施例40中描述的方法测量了比对灵敏度和特异性。总结于表4中的这些结果指示了DNA标准品比对在很大程度上是不变的,不管伴随的生物体基因组如何;以及显示了当与一批不同生物DNA样品一起使用时,DNA标准品表现得相当好。
实施例46:
进行了鉴定DNA标准品中疾病相关遗传变异的一个示例性方法。为了评估代表与实施例22所述方法产生的疾病相关变异的特定实例的DNA标准品的性能,我们使用先前在实施例38中描述的方法来模拟测序读段。根据基因型分配读段丰度(例如杂合或不同的异质尺度)。
K562细胞系携带TP53Q139fs突变,而不是BRAF V600E突变。我们将测序读数添加到实施例37中制备的来自K562基因组DNA的文库。读段以总体积的1%添加,使得DNA标准品建模杂合性实现与伴随的K562基因组相似的覆盖(即10.4倍)。使用以下参数将序列读段(来自K562和DNA标准品)与基因组比对:
>bwa mem-M hg19_chrAB K562.R1.fq K562.R2.fq>alignments.chrB5.sam
如实施例42一样准备比对,并且我们用以下参数使用Genome Analysis Toolkit(DePristo,Banks et al.2011):
>java-jar~/1000G/GenomeAnalysisTK.jar-T HaplotypeCaller-R hg19_chrAB\
-I alignments.chrB5.sam--genotyping_mode DISCOVERY
--defaultBaseQualities 30-o variants.vcf
我们接下来相对于变体覆盖将变体DNA标准品和伴随K562基因组DNA中每个变体的深度覆盖(如GATK输出.vcf文件中的DP所示)绘图,如图7B所示。另外,我们绘制分配每种基因型的置信度相对于每种DNA标准品的已知浓度,如图7C中显示,从而指示了在104倍动态范围内识别SNP的置信度。
为了相对于野生型细胞群模拟越来越小的携带突变的细胞亚群,我们针对GM12878基因组DNA文库(不含TP53Q139fs突变)背景滴定了K562细胞系DNA文库(含有TP53Q139fs突变)以形成包含105动态范围的10倍连续稀释。我们然后使用前面实施例39中所述的方法将这些稀释的文库与人基因组/人工染色体比对。DNA标准品和伴随基因组DNA样品中鉴定的疾病相关变体之间的比较显示于图7B中。我们观察到当变体与参考DNA标准品的丰度相等(即杂合基因型)时可以准确鉴定V600E和Q139fs突变,并且类似地,我们可以在伴随K562DNA样品中稳健地鉴定Q139fs突变。然而,当变体DNA标准品相对于参考DNA标准品以10倍稀释时或者当伴随DNA样品包含K562DNA的10倍或更高稀释时,我们无法检测到Q139fs突变。
实施例47:
进行了由DNA标准品代表的结构变体组装的一个示例性方法。将代表人工染色体上结构变异的DNA标准品(如先前在实施例23中所述)添加到K562基因组DNA样品至1%总体积。使用先前在实施例37中描述的方法制备和测序DNA样品和文库,并且使用先前在实施例39中描述的方法比对到人工染色体/人类基因组。
我们对人工染色体上的以下结构变异的序列覆盖进行序型分析;三个长度为1837,1824和1899的DNA标准品(SEQ ID NO:171-173),其含有相对于参考人工染色体的长度为635,624和699nt的颠倒DNA序列(图32A所示)。三个长度为1837,1824和1899的DNA标准品(SEQ ID NO:174-176),其含有相对于参考人工染色体的长度为698,665和696的大DNA序列***(图32B所示)。三个长度为1200nt的DNA标准品(SEQ ID NO:177-179),其含有相对于参考人工染色体的长度为651,634和683nt的大DNA序列缺失(图32C所示)。三个长度为1200nt的DNA标准品(SEQ ID NO:180-182),其含有相对于参考人工染色体的以下大DNA序列串联重复:4重复拷贝x 96nt(380nt),2拷贝x 202(438nt)拷贝和2拷贝x 621nt(图32D所示)。三个长度为1988,1580或1430nt的DNA标准品(SEQ ID NO:183-185),其含有相对于参考人工染色体的移动元件重复***。***的重复序列匹配如之前所述的AluSx,MIRb,L2a转座子的古代重复单元(图32E所示)。
实施例48:
进行了使用DNA标准品校准拷贝数重复测量的一个示例方法。为了评价代表D4Z4拷贝数变异的DNA标准品(通过实施例23所述的方法制备)的性能,我们使用先前在实施例38中描述的方法来模拟测序读段。如之前实施例23所述,根据拷贝数(10-150拷贝)分配读数丰度。
我们使用实施例37中描述的方法,将测序读段添加到来自K562,GM12878,肺腺癌和正常肺DNA样品的文库中。如之前实施例39所述,我们使用bwa(Langmead and Salzberg2012)将读段比对到人工染色体以及到人(hg19)基因组。DNA标准品的观察到的丰度(以每百万的读段计)针对已知重复拷贝数绘图,如图33B所示,实现重复拷贝数的定量的评估。我们将DNA标准品拷贝数与来自伴随人DNA样品的人基因组中的D4Z4重复序列的覆盖相比较。在D4Z4重复单元(约3,301nt)和DNA标准品的大小差异进行标准化后,我们通过与DNA标准品相比估计伴随患者基因组中D4Z4重复单元的数量。例如,我们估计GM12878基因组中的161个重复拷贝,如图33B所示。
实施例49:
将DNA标准品添加到环境DNA样品中的一个实例方法。土壤收集自澳大利亚昆士兰的Watsons Creek和Mangrove patch位置。在化学和生物学分析之前,将土壤样品储存在4℃。使用PowerSoilTMDNA试剂盒(MoBio Laboratories,Carlsbad,CA,USA)根据制造商的方案,从土壤样品中提取基因组DNA。所有基因组DNA通过Nanodrop(Thermo Scientific)定量。将如实施例18中制备的DNA混合物A添加到至土壤DNA样品到总体积的1%(通过NanoDrop测定)。
使用TruSeq DNA PCR-free Sample Prep Kit(Illumina),根据制造商的说明来制备DNA文库。合并样品前,将制备的文库在Qubit(Invitrogen)上定量并在Agilent2100Bioanalyzer(Agilent Technologies)上验证。使用HiSeq 2500仪器用125nt配对末端读段(Illumina)进行测序。
实施例50:
进行了将DNA标准品比对到微生物基因组的一个示例性方法。将HiSeq2500仪器生成的测序(.fastq)文件经受去多路复用。使用trim_galore根据制造商的说明除去低质量读段和序列或接头污染物序列
(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)
我们将实施例9中所述方法产生的所有人工微生物基因组组合,以使用之前在实施例39中描述的方法生成单个索引版本。我们使用bwa(Li and Durbin 2009)用以下参数将测序读段比对到人工微生物基因组:>bwa mem-M ArtChr.bwa sequence.read1.fqsequence.read2.fa\alignments.sam
我们根据与人工微生物基因组比对的读段评估了对人工微生物基因组的比对(.bam文件)。例如,在土壤样品1中,我们将4,317,629读段与人工微生物基因组比对。分数稀释是比对到人工微生物基因组的读段相对于总读段的分数。例如,在土壤样品1中,文库内5.6%的读段与人工微生物基因组比对,对应于17.1倍稀释分数。检测限对应于在测序文库内不能可靠检测到并且没有比对的最高丰度的DNA标准。对于土壤样品1,我们观察到1.0093的检测限。如图35C所示,灵敏度定义为具有重叠比对的DNA标准品碱基的数量。这依赖于测序深度和比对。例如,在土壤样品1中,80.2%的DNA标准品碱基具有重叠比对。结果总结于表10中。
实施例51:
如下进行了使用DNA读段以校准微生物基因组群落组装的一个示例性方法。我们使用Velvet(Zerbino and Birney 2008)根据制造商的说明实施了从头序列组装:
>velvet_1.2.10/velveth./output 91-sam soil.sam
>velvet_1.2.10/velvetg./output-exp_cov auto-cov_cutoff 0-scaffoldingno
我们根据以下评估了重叠群的组装;覆盖是由组装的重叠群重叠的DNA标准品的大小的比例。这依赖于测序深度和组装二者。例如,如图35D所示,在土壤样品1中,我们组装了覆盖31.9%DNA标准品的重叠群。节点是正确组装的不同重叠群(与DNA标准品相匹配)的数目。例如,在土壤样品1中,我们组装了20个(在36个中)节点。N50统计量是指相对于总组装(N50)的重叠群的中值质量(median mass)。例如,在土壤样品1中,我们测定了508的N50统计量。最大重叠群大小是正确组装的重叠群的最大大小。例如,在土壤样品1中,我们组装了重叠群对,对应于DNA标准品全长的92.1%的高达904nt。组装中的总碱基(total basesin assembly)是与正确组装的重叠群比对的读段数相对于与DNA标准品比对的总读段数。例如,在土壤样品1中,我们将22.1%的读段与组装的重叠群比对。这些结果总结于表10中。
实施例52:
进行了使用DNA标准品校准微生物基因组定量的一个示例性方法。为了评估定量准确性,我们将观察的丰度(以RPKM计)相对于每个组装的重叠群的已知浓度(以阿托摩尔/ul计)绘图(如图36A,B所示)。我们首先测量了由DNA标准品表示的人工微生物基因组的每个区域的比对频率。对长度标准化后,我们以每百万每千碱基的读段(RPKM)分配了每个DNA标准品的观察到的。如图35A所示,我们与每个DNA标准品的已知浓度(以阿托摩尔/ul计算)相比绘图测量的DNA标准品丰度以评估定量准确性。因此,可以用相关性(Pearson's r)来测量DNA标准品定量以提供观察的和预期的DNA标准品丰度之间的一致指示。例如,对于用土壤样品1中制备的DNA标准品,我们观察到0.96的相关性和斜率是1.061。结果总结于表10中。
如图35A所示,基因组组装依赖于足够的测序覆盖。如图35B所示,我们观察到高浓度的DNA标准品展现出全序列覆盖和组装,而与此相反,低预期浓度的DNA标准品显示出稀疏的序列覆盖和较差的组装。这使我们能根据伴随土壤样品中它们的相对丰度来测定微生物基因组的预期的覆盖和组装。
实施例53:
进行了使用DNA标准品以测量多个环境DNA样品之间的差异的一个示例性方法。使用之前描述于实施例49中的方法,我们首先从三种含有高有机含量的土壤样品提取DNA,土壤样品用于与三种具有低有机含量的土壤样品进行比较。将如实施例18中制备的DNA样品A添加到至具有高有机含量的三个土壤样品到总体积的1%,并且将DNA混合物B添加到至具有低有机含量的三个土壤样品到体积的1%。使用之前在实施例49中描述的方法制备并测序DNA样品和文库。使用描述于实施例50-52中的方法比对和分析读段。结果总结于表10中并描述于图36A,B中。
我们将在高有机含量土壤样品中形成混合物A的DNA标准品的观察的丰度相对于低有机含量土壤样品中形成混合物B的DNA标准品的观察的丰度绘图,以说明图36C中DNA标准品倍数的变化。如总结于表11中,我们观察到0.8328(Pearson’s r)的相关性和1.149的斜率,这说明测定了差异DNA丰度的准确性。
实施例54:
进行了使用DNA标准品对环境DNA样品中微生物基因组定量校准的一个示例性方法。从50mL聚丙烯管中的健康雄性收集粪样品。使用MoBio PowerFecalTMDNA IsolationKit(MoBio Laboratories,Carlsbad,CA,USA)根据制造商的方案从粪样品(0.25g)中提取DNA。
将如实施例18中制备的DNA混合物A添加到来自健康人受试者的两个重复粪样品到总体积的1%。使用之前描述于实施例49中的方法制备并测序DNA标准品和文库。使用描述于实施例50-52中的方法比对和分析读段。结果总结于表10中并描述于图36D-F中。
我们使用如上实施例51中所述的方法评估了DNA标准品的组装。例如在粪样品1中,DNA标准品包含总读段的0.89%(2.25亿中的200万)。将测序读段组装成涵盖DNA标准品的53.2%覆盖的14个重叠群。我们使用之前在实施例52中描述的方法测量了组装的DNA标准品重叠群的丰度。这为宏基因组定量提供了内部参考梯以告知微生物群落分析(Singh,Behal et al.2009),并且结果总结于表10中。例如,对于粪样品1,我们观察到0.97的相关性和1.041的斜率,显示了组装的DNA标准品的高定量准确性。
实施例55:
进行了使用DNA标准品作为PCR扩增模板的一个示例性方法。DNA标准品可用于扩增子测序的方法中,如免疫全集测序,其中对哺乳动物免疫球蛋白序列多样性扩增和测序。使用实施例25中描述的方法,我们之前制造了代表人工TCRγ克隆型的DNA。使用针对TCRγ基因座(存在于Tube A和B中)的通用BIOMED2引物序列(van Dongen,Langerak etal.2003)根据制造商的说明,我们将DNA标准品经受PCR扩增(KAPA Biosystems)。使用BioAnalyser(2100高灵敏度DNA测定;Agilent),分析了扩增产物。如图34所示,BioAnalyser迹线(traces)指示了从所有15个TCRγ克隆型DNA标准品扩增正确大小的750nt产品。这证实了DNA标准品作为免疫全集测序期间PCR扩增模板的效用。
接下来,我们产生来自克隆的T-ALL细胞的10%gDNA和来自健康成人PBMC的90%gDNA的基因组DNA混合物,以模拟TCRγ克隆型的克隆群体。克隆T-ALL细胞系,KARPAS 45(目录号06072602,人类T细胞白血病)购自Cell Bank Australia。根据EuropeanCollection of Cell Cultures生长方案和标准来培养KARPAS 45细胞。简言之,KARPAS 45细胞在补充有15%胎牛血清(FBS)的RPMI 1640培养基中,在37℃,5%CO2下培养。使用TRIzol(Invitrogen)根据制造商的说明,从KARPAS中提取基因组DNA。提取的DNA样品用RNA酶A处理,然后用Genomic DNA Clean&Concentrator试剂盒(Zymo Research)进行清洗。在Nanodrop(Thermo Scientific)上定量纯化的DNA。使用MoBio UltraClean试剂盒(目录号12334-250)提取来自健康成人PBMC的基因组DNA。gDNA在溶液TD3中洗脱并在Nanodrop(Thermo Scientific)上进行分析。
然后将人工TCRγ基因型DNA标准品以混合物的总基因组DNA浓度的1%添加。我们使用通用BIOMED2引物序列(如上所述)在组合的克隆型DNA标准品和T-ALL/PBMC基因组DNA混合物上进行PCR扩增(KAPA Biosystems)。使用SV Gel和PCR Clean-Up System(Promega)纯化PCR扩增子并在Nanodrop(Thermo Scientific)上定量和在Agilent2100Bioanalyzer(Agilent Technologies)上进行验证。
使用Nextera XT Sample Prep Kit(Illumina)根据制造商的说明来制备来自PCR扩增子的文库。在合并样品前,在Qubit(Invitrogen)定量制备的文库并在Agilent2100Bioanalyzer(Agilent Technologies)上进行验证。使用HiSeq2500仪器用125nt配对末端读段进行测序(Illumina)。
实施例56:
进行了在分析哺乳动物免疫球蛋白序列多样性中使用DNA标准品的一个示例性方法。为了评估代表人工TCRβ克隆型的DNA标准品(通过实施例25中所述的方法制备)的性能,我们首先用BIOMED-2TCRβ多重引物序列(Tubes A-C)(van Dongen,Langerak et al.2003)进行了DNA标准品的计算机PCR扩增(http://insilico.ehu.es/PCR/),以产生~750nt扩增子序列。引物结合位点需要具有精确的互补性,我们假定没有引物特异性扩增偏倚。我们接下来使用先前在实施例38中描述的方法从扩增子序列模拟测序读段。将读段丰度根据实施例25所述的DNA标准品的相对浓度进行分配。将读段以1%分数添加到之前公布的3个健康人受试者中的TCRβ基因座的实验扩增子测序文库(.fastq)(Zvyagin,Pogorelyy etal.2014)。该数据是从NCBI短读段档案(SRA)检索的,登录号为SRP028752。这三个文库代表健康成人受试者中的TCRβ克隆型谱。使用MiTCR根据制造商的推荐分析人文库文档(Bolotin,Mamedov et al.2012)。
对于每个文库,我们测定了表8中总结的以下量度。与人基因组/人工TCRβ克隆型比对的读段数,以及与DNA标准品比对的读段数。在对于人受试者A的该实施例中,我们观察到与人工TCRβ克隆型比对的25,191个读段。与人工TCRβ克隆型比对的读段的分数指示了人受试者A的稀释因子1%。检测限指示了通过文库中的测序读段检测不到的最高丰度的DNA标准品以及动态范围指示了通过在文库中的测序读段检测到的最高和最低丰度DNA标准品之间的倍数差异。克隆灵敏度指示正确分配人工TCRβ克隆型的DNA标准品的比例。这还可以包括Vβ,Dβ,Jβ片段分配和***/缺失检测的准确性。
我们将观察的人工TCRβ克隆型频率相对于已知浓度绘图,以通过相关和斜率确定TCRβ克隆型丰度测量的准确性(结果总结在表8中)。图13E中显示了人工TCRβ克隆型相对于健康人类受试者中天然TCRβ克隆型的丰度。图13F中显示了人工TCRβ V,J和D片段使用相对于健康人受试者中天然TCRβV,J和D片段的丰度。
实施例57:
进行了在分析16S rRNA***发育序型分析中使用DNA标准品的一个示例性方法。我们从6个不同的人工微生物基因组中产生了匹配16S rRNA基因的1018nt长度的6个DNA标准品(SEQ ID NO:161-166),所述人工微生物基因组代表如表9所示的分类群,大小,GC含量和rRNA操纵子计数的范围。设计DNA标准品以重叠16S rRNA基因中V3区域的两个通用16S引物,具有额外的侧翼250nt序列。16S DNA标准品形成用于PCR扩增的模板以生成独特的扩增子序列。我们用通用16S引物序列进行了计算机PCR扩增(http://insilico.ehu.es/PCR/)。这从每个DNA标准品生成了独特的和不同的扩增子。如图11所示,每个扩增子的丰度根据以下(i)和(ii)进行分配:(i)人工群落内的微生物基因组的初始丰度,和(ii)人工微生物基因组内的rRNA操纵子拷贝数。扩增子丰度也可能受引物结合效率的影响,其中使用16S DNA标准品能够识别和标准化差异引物结合效率。然而,对于该分析,我们假设PCR扩增没有偏倚。我们接下来使用先前在实施例38中描述的方法从16S DNA标准品生成测序读数据库。根据预期的扩增子浓度分配读数丰度,并且将测序读数文库与产生自人工微生物群落的16S序型分析的测序读数文库组合。如图11B所示,我们将观察的16S DNA标准品丰度相对于预期浓度绘图。如图11C中所述,注意到需要rRNA操纵子计数完全标准化人工微生物基因组丰度。这指示检测限,低于所述检测限,伴随样品中的任何微生物基因组可能无法被可靠地检测到。
实施例58:
如下进行了使用DNA标准品以校准测序中GC偏倚的一个示例性方法。我们设计和制造了9种DNA标准品,其区分成对应于约27%,68%和74%GC含量(SEQ ID NO:140-148)的3个不同组。所有DNA标准品是相似长度的(1,000nt)以最小化GC-宏标准品之间的长度特异性偏倚。使用先前在实施例38中描述的方法,我们以相同的浓度组合了9个DNA标准品以形成单个混合物。将该混合物添加到收获自土壤的DNA到总体积的1%,所述土壤收集自昆士兰的Watsons Creek和Mangrove patch位置。使用先前在实施例49中描述的方法将组合的DNA样品制备为文库并测序。
我们首先使用bwa(Li and Durbin 2009)将测序读段与人工微生物基因组比对:
>bwa mem-M chrt.bwa sequence.read1.fq sequence.read2.fa/>alignments.sam
如图37所示,我们接下来将比对读段的丰度相对于它们的GC含量绘图。为了比较,我们从DNA标准品生成了具有匹配长度和频率的模拟读段。如图37A-C,测序读段和模拟读段的比较指示了高富含GC的和富含AT的标准品的取样不足(under-sampling)。观察丰度和预期丰度的这种差异可以说明标准化以最小化GC依赖性偏倚在DNA定量中的影响。
实施例59:
如下进行了使用模拟TCRγ克隆型的合成DNA标准品校准免疫全集测序的一个示例性方法。TCRγ(TCRG)是克隆性分析的优选目标,由于它产生的克隆型的相对受限套(suite)所致。在本实施例中,在多重PCR和免疫受体测序过程中,我们设计,制造并使用了合成的TCRG标准品。
我们从参考人基因组中的TCRG基因座获取了10个Vγ片段,5个Jγ片段和2个Cγ片段以及侧翼内含子序列(hg19;图12)。除了与正向和反向引物序列互补的序列以外,每个片段或内含子序列分别倒置并改组以除去与已知天然序列的同源性,如描述于Carlsonet.al.2013。然后,我们将所有正向和反向引物组合中的合成TCRG片段组合。将片段连接在一起,其中每个都散布着设计用于延缓直读PCR扩增的单一富含GC的发夹序列。然后将序列组合为合成的4个大序列(SEQ ID NOs:203-206)。以四部分合成序列GeneArt(LifeTechnologies)并且***到pMA-RQ载体中。使用HiFi DNA Assembly MasterMix(New England Biolabs),将TCRG标准品的四个部分连接成为一个连续的序列进入pUC19。最终的14.4kb质粒在50mL培养物中生长,纯化并用于DNA序列验证。对于TCRG标准品合成,用SapI消化最终的质粒并且用ZymocleanTMGel DNA Recovery Kit(Zymo Research)凝胶提取12kb片段。
根据European Collection of Cell Cultures生长方案和标准来培养克隆T-ALL细胞系,KARPAS 45(目录号06072602,人类T细胞白血病)。简言之,KARPAS 45在补充有15%胎牛血清(FBS)的RPMI 1640培养基中,在37℃,5%CO2下培养。使用TRIzol(Invitrogen)根据制造商的说明,从KARPAS45中提取基因组DNA(gDNA)。提取的DNA样品用RNA酶A处理,然后用Genomic DNA Clean&Concentrator试剂盒(Zymo Research)进行清洗。使用BR dsDNA Qubit测定在Qubit 2.0荧光计(Life Technologies)上定量纯化的DNA。来自健康成人PBMC的gDNA用作背景。简言之,使用MoBio UltraClean试剂盒(目录号12334-250)根据制造商的说明提取gDNA,并在溶液TD3中洗脱。在Nanodrop(Thermo Scientific)上分析纯化的gDNA,并且在Qubit 2.0荧光计(Life Technologies)上使用BR dsDNA Qubit测定来定量纯化的gDNA。
为了在生物学背景下测试合成TCRG标准品的灵敏度,重现性和定量准确性,将来自克隆T-ALL细胞(KARPAS 45)的gDNA的混合物用来自健康成人的PBMC gDNA(其包含TCRG基因型的复杂背景)的gDNA稀释至10、1和0.1%终浓度,并且如表12所示创建10%合成的TCRG标准品。个别制备的混合物用作含有根据制造商推荐的等摩尔比的VF和JR引物合并物、KAPA HiFi HotStart Ready Mix(KAPA Biosystems)的多重PCR反应的模板。使用DNAClean&ConcentratorTM-5(Zymo Research)纯化来自多重PCR反应的PCR产物。使用BR dsDNAQubit测定在Qubit 2.0荧光计(Life Technologies)上定量纯化的PCR产物,并在Agilent2100Bioanalyzer上用Agilent高灵敏度试剂盒(Agilent Technologies)验证纯化的DNA产物。
使用Nextera XT Sample Prep Kit根据制造商的说明来制备DNA文库。在Qubit(Invitrogen)上定量制备的文库并在Agilent2100Bioanalyzer上用Agilent高灵敏度试剂盒(Agilent Technologies)验证制备的文库。在Kinghorn临床基因组学中心在HiSeq 2500上对文库测序。
收到测序文件后,使用以下参数将读段与包含所有可能真实和合成的TCRG的索引比对:
bowtie2-p 12-x tcrg_combs-1 10TALL_TCRGstds1.1.fq-2 10TALL_TCRGstds1.2.fq-S 10TALL_TCRGstds1.combs.sam
我们首先分析了合成的TCRG标准品。我们首先根据比对频率测定了每个合成标准品的相对丰度。我们首先注意到从所有引物组合中生成并测序了产品,提供了指示它们功能的阳性对照。
我们还可以使用测序扩增子的相对丰度以评估引物组合的定量效率。由于所有扩增子模板源自单个序列,初始模板丰度是均一的,并因此差异将反映多个混合物中引物效率和引物丰度的差异。因此,我们根据比对频率组装了每个合成标准品的相对丰度的矩阵(表12)。该矩阵指示了PCR反应内每个引物对的相对性能。例如,与J1反向引物组合的V11正向引物表现得较差,与平均值相比小于4.1倍,而与JP1反向引物的组合的V9正向引物表现出比平均值高超过2.15倍。这提供了可用于调整伴随样品中TCRG克隆型的定量的标准化因子。
注意到,该标准化分子是从经受相同条件的内部合成对照计算的;包括限定引物杂交的温度和多重引物混合物中的相对引物浓度。因此,我们接下来测定了伴随混合物中TCRG克隆型的相对丰度。虽然一些克隆型不在文库中,我们可以断定它们不在RNA样品中(因为我们以前用以上的合成标准品验证了每个引物)。我们然后根据计算自如上合成标准品的标准化因子调整了每个TCRG克隆型的相对浓度。因此,本文描述的合成的DNA标准品提供针对免疫全集序列分析的NGS方法的有用校准。
实施例60:
以下进行了使用连结的合成的DNA标准品作为定量DNA梯的一个示例性方法。如上所解释的,移液中的误差可以导致多个标准品丰度之间的变异。为了除去移液误差,可以将个别DNA标准品连接起来。在这种情况下,差异拷贝数实现差异丰度。个别标准品之间的依赖性变异可以用于计算由于移液变异所致的误差并用于确保可变标准品之间的精确频率。
我们以以下格式设计了连结的标准品(总结于图39中)。我们设计了多个个别DNA标准品(A,B,C和D),各600nt。然后将这些DNA标准品组织成ABB或CDD格式,其然后可以被一起连接成包含1个拷贝A;2个拷贝B;4个拷贝C和8个拷贝D的单个连续序列(SEQ ID NOs:207-290)。此外,我们还在个别DNA标准品之间添加了含有I-Sce I限制性消化位点的小接头序列。这使我们能够在移液后通过限制性消化从多个标准品中释放出个别标准品,并因此生成不含由于移液变异的个别标准品的混合物。
通过Gene Art(Life Technologies)个别合成包含ABB和CDD组织中合并的重复的序列。每个连结的标准品由一个ABB和四个CDD组成。使用HiFi DNA AssemblyMaster Mix根据制造商的方案将五个片段连接进pUC19-FAFB(具有FAFB填充序列的pUC19)。使用EcoRI和BamHI消化每个连结标准品的最终质粒,例如pUC19-FAFB-GA98,并接着用ZymocleanTMGel DNA Recovery Kit(Zymo Research)凝胶提取以获得10.4kb连结的DNA标准品。
使用BR dsDNA Qubit测定在Qubit 2.0荧光计(Life Technologies)上测量所有21个连结的DNA标准品的浓度。使用epMotion 5070epBlueTM软件程序(以机器制备最终混合物)将连结的DNA标准品混合物合并以形成跨越106倍浓度范围的混合物。
然后将混合物A与提取自GM12878细胞系的总gDNA一起添加到最终浓度10%。GM12878由Madhavi Maddugoda(表观遗传学研究组,Garvan医学研究所)提供。根据CoriellCell Repositories生长方案和标准来培养GM12878细胞。简言之,在37℃,5%CO2下,将GM12878在补充有10%胎牛血清(FBS)的RPMI 1640培养基中培养。使用TRIzol(Invitrogen)根据制造商的说明,从GM12878和小鼠中提取DNA。提取的DNA样品用RNase A处理,然后用Genomic DNA Clean&Concentrator试剂盒(Zymo Research)进行清洗。在Nanodrop(Thermo Scientific)上定量纯化的DNA。
使用Nextera XT Sample Prep Kit根据制造商的说明来制备DNA文库。在Qubit(Invitrogen)上定量制备的文库并在Agilent2100Bioanalyzer用Agilent高灵敏度DNA试剂盒(Agilent Technologies)验证制备的文库。在Kinghorn临床基因组学中心在HiSeq 2500上对文库测序。
我们如下分析了来自连结的合成的DNA标准品的测序读段。我们首先用以下参数将测序读段与索引(包含每个个别标准品)比对:
bowtie2–x conjoined_sequences-1NGSreads.1.fq-2NGSreads.2.fq–Soutput.sam
我们接下来根据比对频率测定了每个个别标准品的丰度。我们然后将每个个别标准品的权重的标准化的已知浓度(衍生自接纳的(hosting)连结的标准品浓度和连结的标准品内的拷贝数两者)相较于权重的标准化的测量的丰度绘图(图39)。这指示了移液中变异的程度。例如,我们观察到以比预期更高的浓度在混合物中组合的显著异常质连结的标准品(图39B所示)。鉴于这个异常值在连结的标准中同样影响到所有标准品,说明异常值是由于移液,而不是可变技术变量,并因此可以在进一步分析前除去。
我们测定了标准品的已知浓度和测定的丰度之间0.9451的相关性。我们接下来应用该调整以促使连结的标准品内的所有个别标准品展现出1的斜率(以上详细描述)。调整改进了标准品的分布,对异常值进行调整,并将相关性提高到0.9806(图39C),说明DNA标准品的提高的定量准确性。
实施例61:
以下进行了使用模拟融合基因事件的合成的标准品的一个示例性方法。融合基因事件导致许多人类癌症,然而,使用RNA测序方法难以鉴别它们。合成的RNA标准品可用于模拟融合基因,并因此评估检测融合基因的能力。在这个实施例中,我们设计,制造和使用合成的融合基因标准品以校准RNA测序方法。
我们选择了24个正常基因(从上述实施例36中所述的RNA标准品列表)。我们然后在每个基因的内含子内分配融合位点,和配对位点以模拟12个相互易位事件。这些12个事件然后生成用于24个融合基因的序列(每个易位形成两个相互融合基因;参见SEQ ID NOs:291-314和图40)。
为了产生表达载体中接纳的融合基因序列,我们采用HiFi DNAAssembly Master Mix(New England Biolabs)根据制造商的方案。简言之,将40μL等分试样的α选择银效率化学感受态大肠杆菌(Bioline)在冰上解冻并根据制造商的建议方案用2μL稀释的HiFi DNA组装产物转化。将转化的细胞接种在预热的100μg/mL氨苄青霉素平板上,并在37℃温育过夜(18小时)。使用每个板的一个菌落接种含有100μg/mL氨苄青霉素的5mL LB肉汤。将接种的管在37℃的振荡器上温育过夜。使用Qiagen SpinMiniprep Kit分离质粒。用Sanger测序验证纯化的质粒的序列。
为了生成合成RNA标准品,我们采用体外转录反应。对于RNA合成,每个质粒用EcoRI-HF(New England Biolabs)线性化,然后进行蛋白酶K处理。使用Zymo ChIP DCC柱(Zymo Research)清洁线性化质粒。进行体外转录反应以合成RNA转录物。使用Sp6试剂盒根据制造商的说明(Life Technologies)合成全长RNA转录物。使用RNA Clean&Concentrator-25柱,使用制造商的>200nt方案(Zymo Research)纯化RNA。在Agilent2100Bioanalyzer上用RNA Nano kit(Agilent Technologies)验证纯化的RNA转录物和包含储液库存(stock inventory)。
将合成融合基因标准品稀释成跨越106倍浓度的混合物,其包含在彼此和与正常亲本基因之间的表达动态范围。在Qubit 2.0荧光计(Life Technologies,Carlsbad,CA,USA)上测量所有RNA融合转录物的浓度。使用epMotion 5070epBlueTM软件程序合并RNA融合转录物,以自动组装最终混合物,其跨越106倍浓度范围。这形成了最终的混合物储液。
将融合基因合成标准品混合物掺入源自两种人类细胞类型的天然RNA样品中。K562和GM12878。根据Coriell Cell Repositories生长方案和标准培养K562和GM12878细胞。简言之,K562和GM12878细胞在补充有10%胎牛血清(FBS)的RPMI 1640培养基中,在37℃,5%CO2下培养。根据制造商的说明书,使用TRIzol(Invitrogen)从K562和GM12878细胞中提取总RNA。随后用TURBO DNase(Life Technologies)对每个样品进行DNA酶处理,随后用RNA Clean和Concentrator-25Kit(Zymo Research)进行清理。在AgilentBioAnalyzer 2100上运行总RNA以评估完整性,并且使用Nanodrop(ThermoScientific)和Qubit(Life Technologies)以测定浓度。仅使用具有RNA完整性数(RIN)>8.0的RNA用于文库制备。
K562RNA含有已知的BCR-ABL融合基因。我们以1:1,1:10和1:100倍的比例产生了连续稀释K562至GM12878RNA。文库制备前,以10%的K562和GM12878混合物的总RNA浓度添加RNA融合标准品。使用Ribo-ZeroTMMagnetic Kit(Human/Mouse/Rat)(Epicentre)对RNA混合物进行核糖耗尽。使用针对platforms(KAPA Biosystems)的KAPA StrandedRNA-Seq文库制备试剂盒根据制造商的方案使用核糖耗尽的RNA制备文库。在汇集样品用于测序前,使用HS dsDNA Qubit测定在Qubit 2.0荧光计(Life Technologies,Carlsbad,CA,USA)上定量并在Agilent2100Bioanalyzer(Agilent Technologies)上验证制备的文库。
我们如下分析了测序读段。首先,将测序读段与包含合成的染色体和人基因组序列(hg38)的索引相比对,其使用Tophat2aligner用如下启用的融合搜索选项进行:
tophat--fusion-search-G gencode.v23.annotation.chrT_rna.gtfhg38.chrT100K_RFMXA.1.fq 100K_RFMXA.2.fq
我们然后处理了所得的比对文件(accepted_hits.bam)和fusion.out文件以评估合成的基因性能。我们正确地确定了19个(24个中)融合基因,同时剩下的5个未鉴定的融合基因展现出低于7.557阿托摩尔/μl的丰度,指示了本实验中融合基因发现的灵敏度极限。
我们然后将跨越融合接合处的覆盖相对于混合物内融合基因的已知浓度绘图。我们观察到线性关系,Pearson’s相关性为0.9652和斜率为1.166,显示了融合基因覆盖提供融合基因表达的合适量度(见图40)。使用合成融合基因作为量度,我们发现~21读段与FG1_12_P2融合基因比对,其类似于与K562RNA样品中BCR-ABL基因比对的~16个读段,表明该融合基因在伴随样品(其中K562RNA稀释至~10%)中的表达低至约1.6阿托摩尔/μl。
实施例62:
如下进行了使用模拟种系变异的合成的标准品的一个示例性方法。二倍体人类基因组中的种系变异大部分在纯合和杂合等位基因频率上发生。纯合基因型可以用单个DNA标准品表示,而包含两个相等频率的等位基因的杂合变异需要两个DNA标准品。群体中可能存在两个以上的等位基因,并且需要新的DNA标准品来表示每个等位基因。然而,由于人类基因组是二倍体(即每个常染色体染色体有两个拷贝),任何时候只需要两个标准品来模拟个别人类的二倍体基因组。
为了说明这一点,我们以相等(即杂合)或单个(即纯合)浓度组合了代表138个可变单核苷酸变体(SNVs)的DNA标准品。使用epMotion 5070epBlueTM软件程序汇集了DNA标准品以机器制造最终混合物。然后,我们将DNA标准品添加到从GM12878人类细胞系提取的基因组DNA中。使用TRIzol(Invitrogen)根据制造商的说明从GM12878和小鼠中提取DNA。使用Nextera XT Sample Prep Kit根据制造商的说明制备DNA文库。在Qubit(Invitrogen)上定量制备的文库并在Agilent2100Bioanalyzer上用Agilent高灵敏度DNA试剂盒(Agilent Technologies)验证制备的文库。在Kinghorn临床基因组学中心在HiSeq2500上对文库测序。我们然后使用BWA MEM(Li and Durbin 2009)用默认参数将测序读段与人基因组(hg38)和合成的染色体相比对。然后使用基因组分析工具包(GATK)根据最佳做法分析所得比对。在30倍覆盖,我们在合成染色体中鉴定了89%的纯合和71%的杂合SNP(图41A)。注意到,变体检测的这种灵敏度类似于伴随的NA12878基因组,对于该基因组,通过与以前描述的变体注释相比,我们确定了86%的纯合和63%的杂合SNP(Zook,J.M.et al.,2014)。
实施例63:
如下进行了使用模拟体细胞突变的合成的标准品的一个示例性方法。体细胞突变可以支持许多病症,癌症中的致瘤突变是其中最重要的。不同于种系突变(其是纯合或杂合的并存在于给定个体的所有细胞中),体细胞突变可能存在于肿瘤样品的一小部分细胞(亚克隆群体)中并且也可能被肿瘤基因组中的频繁重排和拷贝数变异所混淆。例如,肿瘤可以包含根据其谱系具有不同基因型的多个克隆细胞群体。因此,体细胞突变可以在一大批不同频率间存在。
为了说明代表一系列频率间的138个体细胞突变的DNA标准品的用途,我们结合了相对于参考等位基因的跨越两倍连续稀释的DNA标准品以建立从1:2(即杂合)至1:4096的等位基因频率量表(图42A)。使用描述于实施例62中的方法,制备,混合DNA标准品和添加到NA12878基因组DNA并测序。在Kinghorn临床基因组学中心在HiSeq 2500上对文库测序。我们然后使用BWA MEM(Li and Durbin 2009)用默认参数将测序读段与人基因组(hg38)和合成的染色体相比对。然后使用VarScan2(Koboldt et al.2009)用默然参数分析所得的比对以鉴定DNA标准品代表的遗传变异,并定量它们的相对频率(即变体等位基因频率)。
我们将变体的已知浓度相对于它们测量的频率绘图(图42B)。这指示在不同等位基因频率上鉴定了变体的准确性,其中预期浓度与测量丰度之间的相关性表明我们测量变体等位基因频率的定量准确性,以及我们可以鉴定变体并已准确性测量它们的频率的灵敏度极限。等位基因频率的规模提供了可以评估的伴随样品内克隆亚群相对大小的参考。
在高25,000倍覆盖,我们能够鉴定除了2个变体外所有变体的至少一个支持读段,所述两个变体属于最稀有的等位基因部分(1/4096;图42B)。然而,在该覆盖,我们还在DNA标准品中发现>2000个由测序和比对误差创建的潜在假阳性变体调用,说明需要进一步过滤变体候选物。因此,我们接下来使用DNA标准品以根据必要的灵敏度和特异性来经验确定p值(在读段计数支持参照和变体等位基因上比较Fisher精确检验,如通过VarScan2进行)阈值。例如,1x 10-6p值阈值为鉴定体细胞变体提供了54%的灵敏度和82%的特异性。然而,应用这种严格性将测定的灵敏度限制在1/128的等位基因频率(即小于1%的频率;图42C,D)。
实施例64:
如下进行了使用模拟复合物基因型的合成的标准品的一个示例性方法。在染色体非整倍体病例中或当同时取样多个个别基因型时,可遇到更复杂的基因型。例如,如果我们考虑在怀孕母亲血液中循环的DNA,我们检测到两个重叠的基因型,胎儿(构成母体和父系等位基因)和母亲(构成两个母体等位基因)。根据纯合和杂合等位基因频率,结合来自胎儿的循环DNA的分数,可以在一定浓度范围内观察胎儿等位基因(这可能在妊娠期间从母体循环DNA的约1-40%变化)。等位基因频率可由染色体非整倍性进一步复杂化,其中常染色体染色体存在于非二倍体频率,例如使用三体性21(最常见的遗传性先天性异常)。例如,添加了代表染色体21上变体的DNA标准品,以比代表其他常染色体染色体变异的DNA标准品的频率高1.5倍添加,以模拟三体性21。因此,由DNA标准品所代表的等位基因频率代表组合的(i)基因型频率(即杂合或纯合)(ii)在循环中胎儿和母亲DNA的相对丰度和(iii)胎儿基因组中的拷贝数变异(例如染色体非整倍性)。
我们设计了代表大量胎儿和母亲基因型的120个DNA标准品(参考和变体;SEQ IDNOS:315-434)。每个标准品为~160nt长,对应于通常在循环中观察到的DNA片段大小。然后将DNA标准品以浓度范围组合以模拟怀孕母亲血液内循环的胎儿和母亲DNA的相对丰度(图42E)。例如,在将这两个标准品以10%的级份浓度组合到母体DNA标准品之前(其从而代表剩余90%的获得自血液的循环DNA),我们以相等浓度将两个胎儿DNA标准品结合在一起以表现杂合基因型。
为了进一步说明这一点,我们从代表120个不同的变体事件的DNA标准品的混合物中生成了模拟文库(使用上述该实施例中描述的方法)。该混合物涵盖了具有DNA标准品子集的不同胎儿DNA负载(0,1,10,25和50%)范围中4种不同基因型组合(胎儿和母体纯合和杂合)的范围,所述DNA标准品子集代表以另外的1.5倍富集添加以模拟三体性21的人染色体21的变异。我们使用BWA MEM(Li and Durbin 2009)用默认参数将测序读段与合成的染色体相比对。然后使用VarScan2(Koboldt et al.2009)用默认参数分析了所得的比对以鉴定由DNA标准品代表的遗传变异,并鉴定了它们的相对频率(即变异等位基因频率)。将预期的基因型频率相对于观察的基因型频率作图提供了可以测量伴随样品中可测量的胎儿变体的参考量表,以及指示胎儿基因型和染色体非整倍性的确定。
实施例65:
如下进行了通过颠倒模板序列生成标准品的一个示例性方法。特别地,以下实施例描述了如何设计DNA标准品以模拟发生在JAK2基因(COSM12600)中1,849nt处的取代突变(G>T),所述突变导致编码蛋白中的错义取代(V617E)并与癌症相关。
为了产生DNA标准品,我们首先沿着~200nt侧翼序列检索了参考和变体等位基因。为了防止与人基因组内原始基因座的同源性,我们颠倒了序列。代表COSM12600参考等位基因的DNA标准品的颠倒的DNA序列描述于SEQ ID NO:435中,并且变体等位基因描述于SEQ ID NO:436中。
我们接下来确定了DNA标准品内的亚序列,其由于偶然而与人基因组保留显著同源性。我们鉴定了具有显著(E-值>0.01)同源性的DNA标准品序列的35nt小区域(TTCTGATTCCTTTTTTTTTTCATGTTT CTTAACA(SEQ ID NO:437))。然后将序列通过以下修饰:(i)改组,其中将序列改组成新的顺序以除去同源性(例如CTTATTTTTTTCATTCTGTTCCTATATTTTCGAT(SEQ ID NO:438))(ii)取代,其中将所有G取代为C,所有C取代为G,所有A取代为T和所有T取代为A(例如GAATAAAAAAAGTAAG ACAAGGATATAAAAGCTA(SEQ ID NO:439))。在这种情况下,改组保持与原始序列相同的核苷酸含量,但是消除任何序列重复性,同时取代维持序列重复性,但修饰核苷酸组成(然而维持嘧啶和嘌呤的相对含量)。表示COSM12600参考等位基因的DNA标准品的最终DNA序列描述于SEQ ID NO:440并且变体等位基因描述于SEQ ID NO:441。
我们可以类似地使用该方法以设计用于任何突变的DNA标准品。作为说明性示例,我们已经生成DNA标准品以代表一系列具有临床重要性的突变,包括以下中的突变:BRAF(COSM476;SEQ ID NO:442,SEQ ID NO:443),KRAS(COSM521;SEQ ID NO:444,SEQ ID NO:445),IDH1(COSM28746;SEQ ID NO:446,SEQ ID NO:447),EGFR(COSM6224;SEQ ID NO:448,SEQ ID NO:449),FGFR3(COSM715;SEQ ID NO:450,SEQ ID NO:451),PIK3CA(COSM775;SEQID NO:452,SEQ ID NO:453),MYD88(COSM85940;SEQ ID NO:454,SEQ ID NO:455),KIT(COSM1314;SEQ ID NO:456,SEQ ID NO:457),CTNNB1(COSM5664;SEQ ID NO:458,SEQ IDNO:459),NRAS(COSM584;SEQ ID NO:460,SEQ ID NO:461),DNMT3A(COSM52944;SEQ ID NO:462,SEQ ID NO:463)和FOXL2(COSM33661;SEQ ID NO:464,SEQ ID NO:465)。
实施例66:
如下进行产生模拟通过颠倒模板序列得到的小规模或大规模遗传变异的标准品的一个示例性方法。在代表较大的结构性遗传事件(例如缺失或***)中,保持围绕突变序列的序列重复性和结构非常重要,因为局部读段比对对于允许大变体结构解析是非常重要的。因此,模板序列的颠倒和/或取代以产生DNA标准品表现出特别有利的方法来代表大的结构变体并保持在自然大结构变体中观察到的经常复杂的结构和重复序列结构。
本实施例描述了如何设计DNA标准品以模拟EGRF基因中17nt缺失(GAATTAAGAGAAGCAA(SEQ ID NO:466);COSM6223)。我们首先检索了参考和变体(即具有17nt缺失)EGFR序列的200nt侧翼序列。我们然后将序列颠倒至3'到5'并且进一步取代了偶然与人基因组保留同源性(尽管序列颠倒)的任何核苷酸。代表EGFR缺失(COSM6223)的最终DNA标准品序列提供于SEQ ID NO:467(参考)和SEQ ID NO:468(变体)中。
重要的是,需要代表***事件的DNA标准品以不仅颠倒(从3’至5’)***断裂位点的侧翼序列,而且还颠倒***到断裂点内的序列。为了说明这一点,我们设计了代表发生在ERBB2基因中的14nt***(COSM20959)的DNA标准品。在这种情况下,我们检索了突变以及变体***序列(CATACGTGATGGC(SEQ ID NO:469))侧翼的200nt序列。然后颠倒参考序列和变体序列(包含***),随后将核苷酸替换为偶然与人类基因组保持同源性的任何亚序列。代表ERBB2***的最终DNA标准品序列提供于SEQ ID NO:470(参考)和SEQ ID NO:471(变体)中。
作为说明性实例,我们已经生成了DNA标准品以代表一系列具有临床重要性的结构变体,包括以下基因中的***和缺失:EGFR(COSM6223;SEQ ID NO:472,SEQ ID NO:473),IL7R(COSM214586;SEQ ID NO:474,SEQ ID NO:475),IL6ST(COSM251361;SEQ ID NO:476,SEQ ID NO:477),KIT(COSM1326;SEQ ID NO:478,SEQ ID NO:479)。
本领域技术人员将理解,除了具体描述的那些之外,本文所述的公开内容易于进行变化和修改。应当理解,本公开包括所有这些变化和修改。本公开还包括本说明书中别或一并提及或指出的所有步骤,特征,组合物和化合物,以及任何和所有组合或所述步骤或特征中的任何两个或多个。本领域技术人员将理解,在不脱离本公开的广泛的整体范围的情况下,可以对上述实施例进行多种变化和/或修改。因此本实施例在所有方面都被认为是说明性的而不是限制性的。如本文所述,功能上等同的产品,组合物和方法显然在本公开的范围内。
表1:
为了形成混合物A和B添加的单独的RNA标准品的浓度。还指出混合物间的定量差异
表5.为了形成混合物A和B而添加的个别DNA标准品的浓度。还显示了混合物之间的定量差异。
表7.可以将多个个别DNA标准品连接在一起以形成连结的DNA标准品。对连接在一起的多个个别DNA标准品之间依赖性和非依赖性变异的分析能够识别移液错误和其他错误源。指示的是连结的DNA标准品的设计和移液/其他错误的计算
参考文献
·Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.&Lipman,D.J.Basic localalignment search tool.J Mol Biol 215,403-10(1990).
·Anders,S.,D.J.McCarthy,Y.Chen,M.Okoniewski,G.K.Smyth,W.Huber andM.D.Robinson(2013)."Count-based differential expression analysis of RNAsequencing data using R and Bioconductor."Nat Protoc8(9):1765-1786.
·Baker,S.C.et al.The External RNA Controls Consortium:a progressreport.Nat Methods 2,731-4(2005).
·Bentley,D.R.et al.Accurate whole human genome sequencing usingreversible terminator chemistry.Nature 456,53-9(2008).
·Bernstein,B.E.et al.Genomic maps and comparative analysis ofhistone modifications in human and mouse.Cell 120,169-81(2005).
·Bolotin,D.A.,I.Z.Mamedov,O.V.Britanova,I.V.Zvyagin,D.Shagin,S.V.Ustyugova,M.A.Turchaninova,S.Lukyanov,Y.B.Lebedev and D.M.Chudakov"Nextgeneration sequencing for TCR repertoire profiling:platform-specific featuresand correction algorithms."Eur J Immunol42(11):3073-3083(2012).
·Burset,M.and R.Guigo"Evaluation of gene structure predictionprograms."Genomics 34(3):353-367(1996).
·Carlson,C.,O'Emerson,R.,Sherwood,A.,Desmarais,C.,Chung,M-W.,Parsons,J.,Steen,M.,A LaMadrid-Herrmannsfeldt,M.,Williamson,D.,Livingston,R.,Wu,D.,Wood,B,Rieder,M.&Robins,H."Using synthetic templates to design anunbiased multiplex PCR assay."Nature Communications 4,Article number 2680(2013).
·Chen,K.,J.W.Wallis,M.D.McLellan,D.E.Larson,J.M.Kalicki,C.S.Pohl,S.D.McGrath,M.C.Wendl,Q.Zhang,D.P.Locke,X.Shi,R.S.Fulton,T.J.Ley,R.K.Wilson,L.Ding and E.R.Mardis(2009)."BreakDancer:an algorithm for high-resolutionmapping of genomic structural variation."Nat Methods 6(9):677-681.
·Chen,Y.C.,Liu,T.,Yu,C.H.,Chiang,T.Y.&Hwang,C.C.Effects of GC biasin next-generation-sequencing data on de novo genome assembly.PLoS One 8,e62856(2013).
·Clarke,J.et al.Continuous base identification for single-moleculenanopore DNA sequencing.Nat Nanotechnol 4,265-70(2009).
·Consortium,E.(2005)."Proposed methods for testing and selecting theERCC external RNA controls."BMC Genomics 6:150.
·Coward,E.(1999)."Shufflet:shuffling sequences while conserving thek-let counts."Bioinformatics 15(12):1058-1059.
·Davies,H.et al.Mutations of the BRAF gene in human cancer.Nature417,949-54(2002).
·DePristo,M.A.,E.Banks,R.Poplin,K.V.Garimella,J.R.Maguire,C.Hartl,A.A.Philippakis,G.del Angel,M.A.Rivas,M.Hanna,A.McKenna,T.J.Fennell,A.M.Kernytsky,A.Y.Sivachenko,K.Cibulskis,S.B.Gabriel,D.Altshuler and M.J.Daly(2011)."A framework for variation discovery and genotyping using next-generation DNAsequencing data."Nat Genet 43(5):491-498.
·Dobin,A.,C.A.Davis,F.Schlesinger,J.Drenkow,C.Zaleski,S.Jha,P.Batut,M.Chaisson and T.R.Gingeras(2013)."STAR:ultrafast universal RNA-seq aligner."Bioinformatics 29(1):15-21.
·Edwards,R.A.et al.Using pyrosequencing to shed light on deep minemicrobial ecology.BMC Genomics 7,57(2006).
·Eid,J.et al.Real-time DNA sequencing from single polymerasemolecules.Science 323,133-8(2009).
·Futreal,P.A.,L.Coin,M.Marshall,T.Down,T.Hubbard,R.Wooster,N.Rahmanand M.R.Stratton(2004)."A census of human cancer genes."Nat Rev Cancer 4(3):177-183.
·Grosveld,G.,T.Verwoerd,T.van Agthoven,A.de Klein,K.L.Ramachandran,N.Heisterkamp,K.Stam and J.Groffen(1986)."The chronic myelocytic cell lineK562 contains a breakpoint in bcr and produces a chimeric bcr/c-abltranscript."Mol Cell Biol 6(2):607-616.
·Haas,B.J.,A.Papanicolaou,M.Yassour,M.Grabherr,P.D.Blood,J.Bowden,M.B.Couger,D.Eccles,B.Li,M.Lieber,M.D.Macmanes,M.Ott,J.Orvis,N.Pochet,F.Strozzi,N.Weeks,R.Westerman,T.William,C.N.Dewey,R.Henschel,R.D.Leduc,N.Friedman and A.Regev(2013)."De novo transcript sequence reconstruction fromRNA-seq using the Trinity platform for reference generation and analysis."Nat Protoc 8(8):1494-1512.
·Harrow,J.,F.Denoeud,A.Frankish,A.Reymond,C.K.Chen,J.Chrast,J.Lagarde,J.G.Gilbert,R.Storey,D.Swarbreck,C.Rossier,C.Ucla,T.Hubbard,S.E.Antonarakis and R.Guigo(2006)."GENCODE:producing a reference annotationfor ENCODE."Genome Biol 7 Suppl 1:S4 1-9.
·Harrow,J.,A.Frankish,J.M.Gonzalez,E.Tapanari,M.Diekhans,F.Kokocinski,B.L.Aken,D.Barrell,A.Zadissa,S.Searle,I.Barnes,A.Bignell,V.Boychenko,T.Hunt,M.Kay,G.Mukherjee,J.Rajan,G.Despacio-Reyes,G.Saunders,C.Steward,R.Harte,M.Lin,C.Howald,A.Tanzer,T.Derrien,J.Chrast,N.Walters,S.Balasubramanian,B.Pei,M.Tress,J.M.Rodriguez,I.Ezkurdia,J.van Baren,M.Brent,D.Haussler,M.Kellis,A.Valencia,A.Reymond,M.Gerstein,R.Guigo and T.J.Hubbard(2012)."GENCODE:the reference human genome annotation for The ENCODEProject."Genome Res 22(9):1760-1774.
·Iqbal,Z.,M.Caccamo,I.Turner,P.Flicek and G.McVean(2012)."De novoassembly and genotyping of variants using colored de Bruijn graphs."Nat Genet44(2):226-232.
·Jiang,M.,J.Anderson,J.Gillespie and M.Mayne(2008)."uShuffle:auseful tool for shuffling biological sequences while preserving the k-letcounts."BMC Bioinformatics 9:192.
·Jiang,L.et al.Synthetic spike-in standards for RNA-seqexperiments.Genome Res 21,1543-51(2011).
·Johnson,D.S.,Mortazavi,A.,Myers,R.M.&Wold,B.Genome-wide mapping ofin vivo protein-DNA interactions.Science 316,1497-502(2007).
·Katz,Y.,E.T.Wang,E.M.Airoldi and C.B.Burge(2010)."Analysis anddesign of RNA sequencing experiments for identifying isoform regulation."Nat Methods 7(12):1009-1015.
·Kelley,D.R.,M.C.Schatz and S.L.Salzberg(2010)."Quake:quality-awaredetection and correction of sequencing errors."Genome Biol11(11):R116.
·Kim,D.,G.Pertea,C.Trapnell,H.Pimentel,R.Kelley and S.L.Salzberg(2013)."TopHat2:accurate alignment of transcriptomes in the presence ofinsertions,deletions and gene fusions."Genome Biol 14(4):R36.
·Koboldt,D.C.et al.(2009)"VarScan:variant detection in massivelyparallel sequencing of individual and pooled samples."Bioinformatics 25:2283-5.
·Lander,E.S.et al.Initial sequencing and analysis of the humangenome.Nature 409,860-921(2001).
·Langmead,B.and S.L.Salzberg(2012)."Fast gapped-read alignment withBowtie 2."Nat Methods 9(4):357-359.
·Langmead,B.,C.Trapnell,M.Pop and S.L.Salzberg(2009)."Ultrafast andmemory-efficient alignment of short DNA sequences to the human genome."Genome Biol 10(3):R25.
·Law,J.C.,Ritke,M.K.,Yalowich,J.C.,Leder,G.H.&Ferrell,R.E.Mutationalinactivation of the p53 gene in the human erythroid leukemic K562 cellline.Leuk Res 17,1045-50(1993).
·Li,H.and R.Durbin(2009)."Fast and accurate short read alignmentwith Burrows-Wheeler transform."Bioinformatics 25(14):1754-1760.
·Li,H.,B.Handsaker,A.Wysoker,T.Fennell,J.Ruan,N.Homer,G.Marth,G.Abecasis and R.Durbin(2009)."The Sequence Alignment/Map format andSAMtools."Bioinformatics 25(16):2078-2079.
·Li,H.,B.Handsaker,A.Wysoker,T.Fennell,J.Ruan,N.Homer,G.Marth,G.Abecasis,R.Durbin and S.Genome Project Data Processing(2009)."The SequenceAlignment/Map format and SAMtools."Bioinformatics 25(16):2078-2079.
·Lieberman-Aiden,E.et al.Comprehensive mapping of long-rangeinteractions reveals folding principles of the human genome.Science 326,289-93(2009).
·Logan,A.C.,H.Gao,C.Wang,B.Sahaf,C.D.Jones,E.L.Marshall,I.Buno,R.Armstrong,A.Z.Fire,K.I.Weinberg,M.Mindrinos,J.L.Zehnder,S.D.Boyd,W.Xiao,R.W.Davis and D.B.Miklos(2011)."High-throughput VDJ sequencing forquantification of minimal residual disease in chronic lymphocytic leukemiaand immune reconstitution assessment."Proc Natl Acad Sci U SA 108(52):21194-21199.
·MacDonald,J.R.,R.Ziman,R.K.Yuen,L.Feuk and S.W.Scherer(2014)."TheDatabase of Genomic Variants:a curated collection of structural variation inthe human genome."Nucleic Acids Res 42(Database issue):D986-992.
·McKenna,A.,M.Hanna,E.Banks,A.Sivachenko,K.Cibulskis,A.Kernytsky,K.Garimella,D.Altshuler,S.Gabriel,M.Daly and M.A.Depristo(2010)."The GenomeAnalysis Toolkit:A MapReduce framework for analyzing next-generation DNAsequencing data."Genome Res.
·Meacham,F.,D.Boffelli,J.Dhahbi,D.I.Martin,M.Singer and L.Pachter(2011)."Identification and correction of systematic error in high-throughputsequence data."BMC Bioinformatics 12:451.
·Mitterbauer,G.,P.Nemeth,S.Wacha,N.C.Cross,I.Schwarzinger,U.Jaeger,K.Geissler,H.T.Greinix,P.Kalhs,K.Lechner and C.Mannhalter(1999)."Quantification of minimal residual disease in patients with BCR-ABL-positiveacute lymphoblastic leukaemia using quantitative competitive polymerase chainreaction."Br J Haematol 106(3):634-643.
·Mortazavi,A.,Williams,B.A.,McCue,K.,Schaeffer,L.&Wold,B.Mapping andquantifying mammalian transcriptomes by RNA-Seq.Nat Methods 5,621-8(2008).
·Pearson,W.R.and D.J.Lipman(1988)."Improved tools for biologicalsequence comparison."Proc Natl Acad Sci USA 85(8):2444-2448.
·Piva,F.and G.Principato(2006)."RANDNA:a random DNA sequencegenerator."In Silico Biol 6(3):253-258.
·Robinson,M.D.,D.J.McCarthy and G.K.Smyth(2010)."edgeR:aBioconductor package for differential expression analysis of digital geneexpression data."Bioinformatics 26(1):139-140.
·Ronaghi,M.,Uhlen,M.&Nyren,P.A sequencing method based on real-timepyrophosphate.Science 281,363,365(1998).
·Rothberg,J.M.et al.An integrated semiconductor device enabling non-optical genome sequencing.Nature 475,348-52(2011).
·Schaap,M.,R.J.Lemmers,R.Maassen,P.J.van der Vliet,L.F.Hoogerheide,H.K.van Dijk,N.Basturk,P.de Knijff and S.M.van der Maarel(2013)."Genome-wideanalysis of macrosatellite repeat copy number variation in worldwidepopulations:evidence for differences and commonalities in size distributionsand size restrictions."BMC Genomics14:143.
·Sherry,S.T.,M.H.Ward,M.Kholodov,J.Baker,L.Phan,E.M.Smigielski andK.Sirotkin(2001)."dbSNP:the NCBI database of genetic variation."Nucleic Acids Res 29(1):308-311.
·Simon,N.E.and A.Schwacha(2014)."The Mcm2-7 Replicative Helicase:APromising Chemotherapeutic Target."Biomed Res Int 2014:549719.
·Simpson,J.T.,K.Wong,S.D.Jackman,J.E.Schein,S.J.Jones and I.Birol(2009)."ABySS:a parallel assembler for short read sequence data."Genome Res19(6):1117-1123.
·Singh,J.,A.Behal,N.Singla,A.Joshi,N.Birbian,S.Singh,V.Bali andN.Batra(2009)."Metagenomics:Concept,methodology,ecological inference andrecent advances."Biotechnol J 4(4):480-494.
·Trapnell,C.,B.A.Williams,G.Pertea,A.Mortazavi,G.Kwan,M.J.van Baren,S.L.Salzberg,B.J.Wold and L.Pachter(2010)."Transcript assembly andquantification by RNA-Seq reveals unannotated transcripts and isoformswitching during cell differentiation."Nat Biotechnol 28(5):511-515.
·van der Maarel,S.M.and R.R.Frants(2005)."The D4Z4 repeat-mediatedpathogenesis of facioscapulohumeral muscular dystrophy."Am J Hum Genet 76(3):375-386.
·van Dongen,J.J.,A.W.Langerak,M.Bruggemann,P.A.Evans,M.Hummel,F.L.Lavender,E.Delabesse,F.Davi,E.Schuuring,R.Garcia-Sanz,J.H.van Krieken,J.Droese,D.Gonzalez,C.Bastard,H.E.White,M.Spaargaren,M.Gonzalez,A.Parreira,J.L.Smith,G.J.Morgan,M.Kneba and E.A.Macintyre(2003)."Design andstandardization of PCR primers and protocols for detection of clonalimmunoglobulin and T-cell receptor gene recombinations in suspectlymphoproliferations:report of the BIOMED-2 Concerted Action BMH4-CT98-3936."Leukemia17(12):2257-2317.
·Villesen,P.(2007)."FaBox:an online toolbox for fasta sequences."Molecular Ecology Notes 7(6):965-968.
·Yang,J.,N.Ramnath,K.B.Moysich,H.L.Asch,H.Swede,S.J.Alrawi,J.Huberman,J.Geradts,J.S.Brooks and D.Tan(2006)."Prognostic significance ofMCM2,Ki-67 and gelsolin in non-small cell lung cancer."BMC Cancer 6:203.
·Zerbino,D.R.and E.Birney(2008)."Velvet:algorithms for de novo shortread assembly using de Bruijn graphs."Genome Res 18(5):821-829.
·Zhang,W.,W.Gong,H.Ai,J.Tang and C.Shen(2014)."Gene expressionanalysis of lung adenocarcinoma and matched adjacent non-tumor lung tissue."Tumori 100(3):338-345.
·Zook,J.M.et al.Integrating human sequence data sets provides aresource of benchmark SNP and indel genotype calls.Nat Biotechnol 32,246-51(2014).
·Zvyagin,I.V.,M.V.Pogorelyy,M.E.Ivanova,E.A.Komech,M.Shugay,D.A.Bolotin,A.A.Shelenkov,A.A.Kurnosov,D.B.Staroverov,D.M.Chudakov,Y.B.Lebedev and I.Z.Mamedov(2014)."Distinctive properties of identical twins'TCR repertoires revealed by high-throughput sequencing."Proc Natl Acad Sci U S A 111(16):5980-5985.

Claims (21)

1.包含人工多核苷酸序列的人工染色体,其中所述人工多核苷酸序列的任何片段与任何已知的天然存在的基因组序列是能区分的。
2.权利要求1的人工染色体,其中所述人工多核苷酸序列的任何1,000个连续的核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。
3.权利要求1的人工染色体,其中所述人工多核苷酸序列的任何100个连续的核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。
4.权利要求1的人工染色体,其中所述人工多核苷酸序列的任何21个连续的核苷酸与相同长度的任何已知天然存在的基因组序列具有小于100%的序列同一性。
5.前述权利要求中任一项的人工染色体,其中所述人工多核苷酸序列包含选自下组的天然存在的真核染色体的任何一个或多个特征:基因座、CpG岛、移动元件(mobileelements)、重复多核苷酸特征(repetitive polynucleotide features)、小规模遗传变异和大规模遗传变异。
6.权利要求5的人工染色体,其中:
i)所述人工多核苷酸序列包含多个基因座(multiple gene loci);
ii)所述重复多核苷酸特征包含下列任何一个或多个:末端重复、串联重复、反向重复和散在重复(interspersed repeats);
iii)所述基因座包含免疫受体基因座;
iv)所述小规模遗传变异包含一个或多个SNP、一个或多个***、一个或多个缺失、一个或多个微卫星和/或多个核苷酸多态性;和/或
v)所述大规模遗传变异包含一个或多个缺失、一个或多个重复、一个或多个拷贝数变体、一个或多个***、一个或多个倒位和/或一个或多个易位。
7.权利要求1至4中任一项的人工染色体,其包含天然存在的原核染色体的一个或多个特征。
8.前述权利要求中任一项的人工染色体的片段,其包含所述人工多核苷酸序列的20至10,000,000个连续的核苷酸。
9.权利要求8的片段,其是RNA片段或DNA片段。
10.人工多核苷酸序列,其包含连结的(conjoined)权利要求8的两个或更多个片段以形成连续的多核苷酸序列。
11.权利要求10的人工多核苷酸序列,其是RNA或DNA多核苷酸序列。
12.载体,其包含权利要求1至7中任一项的人工染色体的DNA片段,所述片段包含所述人工多核苷酸序列的20至10,000,000个连续的核苷酸。
13.载体,其包含权利要求10的人工多核苷酸序列,所述人工多核苷酸序列是DNA多核苷酸序列。
14.制备权利要求8或权利要求9的片段的方法,所述方法包含通过内切核酸酶消化从权利要求12的载体切出所述片段,扩增或转录包含于权利要求12的载体内的所述DNA片段。
15.制备权利要求10或权利要求11的人工多核苷酸序列的方法,所述方法包含通过内切核酸酶消化从权利要求13的载体切出人工多核苷酸序列,扩增,或转录包含于权利要求13的载体内的所述人工多核苷酸序列。
16.权利要求1至7中任一项的人工染色体和/或权利要求8或权利要求9的片段和/或权利要求10或权利要求11的人工多核苷酸序列在校准多核苷酸测序过程中的用途。
17.校准多核苷酸测序过程的方法,其包括:
i)向样品添加如权利要求8或权利要求9中定义的一个或多个片段和/或如权利要求10或权利要求11中定义的一个或多个人工多核苷酸序列,所述样品包含要测定的目标多核苷酸序列;
ii)测定所述目标多核苷酸的序列;
iii)测定如权利要求8或权利要求9中定义的一个或多个片段的序列和/或测定如权利要求10或权利要求11中定义的一个或多个人工多核苷酸序列的序列;并且
iv)将iii)中测定的序列与所述片段和/或所述人工多核苷酸序列的原始序列比较,所述原始序列存在于如权利要求1至7中任一项定义的人工染色体中;
其中在iii)中的序列测定的准确性用于校准ii)中的序列测定。
18.权利要求1至7中任一项的人工染色体和/或权利要求8或权利要求9的片段和/或权利要求10或权利要求11的人工多核苷酸序列在校准多核苷酸定量过程中的用途。
19.校准多核苷酸定量过程的方法,包含:
i)向样品添加已知量的如权利要求8或权利要求9中定义的一个或多个片段和/或如权利要求10或权利要求11中定义的一个或多个人工多核苷酸序列,所述样品包含要测定的目标多核苷酸序列;
ii)测定所述目标多核苷酸的量;
iii)测定如权利要求8或权利要求9中定义的一个或多个片段的量和/或测定如权利要求10或权利要求11中定义的一个或多个人工多核苷酸序列的量;并且
iv)将iii)中测定的一个或多个片段和/或一个或多个人工多核苷酸序列的量与i)中的一个或多个片段和/或一个或多个人工多核苷酸序列比较;
其中在iii)中的量测量的准确性用于校准ii)中的量测定。
20.试剂盒,其包含权利要求1至7中任一项的一个或多个人工染色体以及如权利要求8或权利要求9中定义的一个或多个片段或者如权利要求10或权利要求11中定义的一个或多个人工多核苷酸序列。
21.计算机可编程介质(medium),其含有其上储存的权利要求1至7中任一项的一个或多个人工染色体。
CN201580068605.7A 2014-12-16 2015-12-15 测序对照 Pending CN107250356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111427653.4A CN114381455A (zh) 2014-12-16 2015-12-15 测序对照

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
AU2014905092 2014-12-16
AU2014905092A AU2014905092A0 (en) 2014-12-16 Sequencing controls
AU2015903892A AU2015903892A0 (en) 2015-09-24 Sequencing controls
AU2015903892 2015-09-24
PCT/AU2015/050797 WO2016094947A1 (en) 2014-12-16 2015-12-15 Sequencing controls

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111427653.4A Division CN114381455A (zh) 2014-12-16 2015-12-15 测序对照

Publications (1)

Publication Number Publication Date
CN107250356A true CN107250356A (zh) 2017-10-13

Family

ID=56125446

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201580068605.7A Pending CN107250356A (zh) 2014-12-16 2015-12-15 测序对照
CN202111427653.4A Pending CN114381455A (zh) 2014-12-16 2015-12-15 测序对照

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111427653.4A Pending CN114381455A (zh) 2014-12-16 2015-12-15 测序对照

Country Status (9)

Country Link
US (2) US20180148778A1 (zh)
EP (1) EP3234128A4 (zh)
JP (1) JP2017537646A (zh)
KR (2) KR20240004617A (zh)
CN (2) CN107250356A (zh)
AU (2) AU2015367290A1 (zh)
CA (1) CA2965849A1 (zh)
HK (1) HK1245830A1 (zh)
WO (1) WO2016094947A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211636A (zh) * 2018-02-23 2019-09-06 暨南大学 优化基因组测序结果的分类方法
CN112823391A (zh) * 2019-06-03 2021-05-18 Illumina公司 基于检测限的质量控制度量
CN114078568A (zh) * 2020-09-14 2022-02-22 青岛欧易生物科技有限公司 基于iib型限制性内切酶特征的宏基因组测序数据处理***及处理方法
CN115810395A (zh) * 2022-12-05 2023-03-17 武汉贝纳科技有限公司 一种基于高通量测序动植物基因组t2t组装方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
WO2017165864A1 (en) * 2016-03-25 2017-09-28 Karius, Inc. Synthetic nucleic acid spike-ins
US10796000B2 (en) * 2016-06-11 2020-10-06 Intel Corporation Blockchain system with nucleobase sequencing as proof of work
CN111094583A (zh) 2017-08-04 2020-05-01 十亿至一公司 与生物靶相关的定量中利用靶相关分子的测序输出确定和分析
EP3681996A1 (en) * 2017-09-15 2020-07-22 King's College London Compositions and methods for enhancing gamma delta t cells in the gut
WO2019060716A1 (en) 2017-09-25 2019-03-28 Freenome Holdings, Inc. SAMPLE EXTRACTION METHODS AND SYSTEMS
WO2019147663A1 (en) * 2018-01-24 2019-08-01 Freenome Holdings, Inc. Methods and systems for abnormality detection in the patterns of nucleic acids
US20210180112A1 (en) * 2018-04-20 2021-06-17 Biofire Diagnostics, Llc Methods for normalization and quantification of sequencing data
KR102123922B1 (ko) * 2018-06-05 2020-06-24 연세대학교 산학협력단 차세대 염기서열 분석법의 정확도를 분석하는 방법
KR102191034B1 (ko) * 2018-06-05 2020-12-15 연세대학교 산학협력단 차세대 염기서열 분석법의 정확도 측정용 조성물
WO2020041449A1 (en) * 2018-08-21 2020-02-27 Zymo Research Corporation Methods and compositions for tracking sample quality
US11385215B2 (en) 2019-02-25 2022-07-12 Trace Genomics, Inc. Soil health indicators using microbial functional genes
WO2020174406A1 (en) * 2019-02-28 2020-09-03 Inivata Ltd. Method for quantifying the amount of a target sequence in a nucleic acid sample
JP2023513725A (ja) * 2020-02-13 2023-04-03 ガーヴァン インスティチュート オブ メディカル リサーチ 参照ラダー及びアダプター
CN114196744B (zh) * 2020-09-18 2024-04-09 赛纳生物科技(北京)有限公司 一种多碱基基因测序中信号归一化的方法
CN112662795B (zh) * 2021-01-26 2023-12-15 苏州***医学研究所 用于感染性病原体检测的阳性对照品及其制备方法与应用
US20240219400A1 (en) * 2021-04-29 2024-07-04 Seer, Inc. Peptide decorated nanoparticles for enrichment of specific protein subsets
CN113628683B (zh) * 2021-08-24 2024-04-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US590703A (en) * 1897-09-28 Car-coupling
US8A (en) * 1836-08-10 T Blanchard Machine for cutting scores around ships' tackle blocks and dead eyes
US3A (en) * 1836-08-11 Thomas blanchard
US5457027A (en) * 1993-05-05 1995-10-10 Becton, Dickinson And Company Internal controls for isothermal nucleic acid amplification reactions
CA2333852C (en) * 1998-07-21 2007-05-29 Cobra Therapeutics Limited A polynucleotide comprising a ubiquitous chromatin opening element (ucoe)
CA2457427A1 (en) * 2001-08-16 2003-02-27 Stratagene Compositions and methods comprising control nucleic acid
EP1682675A2 (en) * 2003-10-28 2006-07-26 Bayer HealthCare AG Methods and compositions for the response prediction of malignant neoplasia to treatment
US8825411B2 (en) * 2004-05-04 2014-09-02 Dna Twopointo, Inc. Design, synthesis and assembly of synthetic nucleic acids
EA200700751A1 (ru) * 2004-10-05 2008-06-30 Элан Фарма Интернэшнл Лимитед Способы и композиции для улучшения продуцирования рекомбинантного белка
JP2008523786A (ja) * 2004-10-18 2008-07-10 コドン デバイシズ インコーポレイテッド 高忠実度合成ポリヌクレオチドのアセンブリ方法
MX2009012722A (es) * 2007-05-25 2009-12-11 Decode Genetics Ehf Variantes geneticas sobre chr 5p12 y 10q26 como marcadores para el uso en la evaluacion del riesgo, diagnostico, pronostico y tratamiento del cancer de mama.

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211636A (zh) * 2018-02-23 2019-09-06 暨南大学 优化基因组测序结果的分类方法
CN112823391A (zh) * 2019-06-03 2021-05-18 Illumina公司 基于检测限的质量控制度量
CN114078568A (zh) * 2020-09-14 2022-02-22 青岛欧易生物科技有限公司 基于iib型限制性内切酶特征的宏基因组测序数据处理***及处理方法
CN114078568B (zh) * 2020-09-14 2022-07-05 青岛欧易生物科技有限公司 基于iib型限制性内切酶特征的宏基因组测序数据处理***及处理方法
CN115810395A (zh) * 2022-12-05 2023-03-17 武汉贝纳科技有限公司 一种基于高通量测序动植物基因组t2t组装方法
CN115810395B (zh) * 2022-12-05 2023-09-26 武汉贝纳科技有限公司 一种基于高通量测序动植物基因组t2t组装方法

Also Published As

Publication number Publication date
US20210317518A1 (en) 2021-10-14
US20180148778A1 (en) 2018-05-31
EP3234128A4 (en) 2018-06-27
KR20240004617A (ko) 2024-01-11
EP3234128A1 (en) 2017-10-25
WO2016094947A1 (en) 2016-06-23
HK1245830A1 (zh) 2018-08-31
CA2965849A1 (en) 2016-06-23
AU2022203184A1 (en) 2022-06-02
JP2017537646A (ja) 2017-12-21
KR20170099939A (ko) 2017-09-01
CN114381455A (zh) 2022-04-22
AU2015367290A1 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
CN107250356A (zh) 测序对照
Dietlein et al. Identification of cancer driver genes based on nucleotide context
Fernandes et al. A genetic history of the pre-contact Caribbean
Levy et al. Advancements in next-generation sequencing
Wang et al. Clonal evolution in breast cancer revealed by single nucleus genome sequencing
Fungtammasan et al. Accurate typing of short tandem repeats from genome-wide sequencing data and its applications
Strino et al. TrAp: a tree approach for fingerprinting subclonal tumor composition
Page et al. Insights into the evolution of cotton diploids and polyploids from whole-genome re-sequencing
Greenman et al. Estimation of rearrangement phylogeny for cancer genomes
Porubsky et al. Recurrent inversion toggling and great ape genome evolution
Bishara et al. Read clouds uncover variation in complex regions of the human genome
CN105814574A (zh) 遗传变异的非侵入性评估的方法和过程
CN105779280A (zh) 由母本生物样品鉴定新生胎儿突变
CN110770838A (zh) 用于确定体细胞突变克隆性的方法和***
JP2015531240A (ja) 腫瘍クローン性解析のためのシステムおよび方法
Rustagi et al. Extremely low-coverage whole genome sequencing in South Asians captures population genomics information
Kacmarczyk et al. “Same difference”: comprehensive evaluation of four DNA methylation measurement platforms
Luo et al. Estimating copy number and allelic variation at the immunoglobulin heavy chain locus using short reads
EP4095258A1 (en) Target-enriched multiplexed parallel analysis for assesment of tumor biomarkers
CN107889508A (zh) 使用环化的配对文库和鸟枪测序检测基因组变异的方法
Ku et al. Technological advances in DNA sequence enrichment and sequencing for germline genetic diagnosis
Daron et al. EpiTEome: Simultaneous detection of transposable element insertion sites and their DNA methylation levels
Wang et al. SMASH, a fragmentation and sequencing method for genomic copy number analysis
Liu et al. Targeted transcriptome analysis using synthetic long read sequencing uncovers isoform reprograming in the progression of colon cancer
CN109996894A (zh) 用于单基因疾病的基于通用单倍型的非侵入性产前测试

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171013