CN110832087A - 用于多核苷酸样品的索引的通用短衔接子 - Google Patents

用于多核苷酸样品的索引的通用短衔接子 Download PDF

Info

Publication number
CN110832087A
CN110832087A CN201880042758.8A CN201880042758A CN110832087A CN 110832087 A CN110832087 A CN 110832087A CN 201880042758 A CN201880042758 A CN 201880042758A CN 110832087 A CN110832087 A CN 110832087A
Authority
CN
China
Prior art keywords
index
sequence
sequences
nucleic acid
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880042758.8A
Other languages
English (en)
Inventor
塔加纳·辛格
瑞恩·凯利
戈登·比恩
埃里克·弗马斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN110832087A publication Critical patent/CN110832087A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

所公开的实施方案涉及被配置成鉴定核酸样品的来源的索引寡核苷酸,以及用于鉴定和制备索引寡核苷酸的方法、设备、***和计算机程序产品。在一些实施方式中,索引寡核苷酸包含索引序列集,该索引序列集中的任何两个索引序列之间的汉明距离满足一个或更多个标准。还提供了用于使用索引寡核苷酸确定感兴趣的序列的***、设备和计算机程序产品。

Description

用于多核苷酸样品的索引的通用短衔接子
相关申请的交叉引用
本申请根据35 U.S.C.§119(e)要求于2017年5月8日提交的题为UNIVERSAL SHORTADAPTERS FOR INDEXING OF POLYNUCLEOTIDE的美国临时专利申请号62/503,272的权益;本申请根据35 U.S.C.§119(e)还要求于2017年6月23日提交的题为OPTIMAL INDEXSEQUENCES FOR MULTIPLEX MASSIVELY PARALLEL SEQUENCING的美国临时专利申请号62/524,390的权益;出于所有目的,以上在先申请的全部通过引用以其整体并入本文。
通过引用并入序列表
本申请包括序列表,所述序列表已经以ASCII格式通过电子方式提交并且特此通过引用以其整体并入。于2018年5月3日创建的该ASCII副本被命名为ILMNP023_ST25.txt,并且大小为29,527字节。
背景
本公开内容除了其他方面以外涉及对来自多个文库的多核苷酸进行测序;并且更特别地,涉及增加测序正确地鉴定多核苷酸起源于其的文库的可能性。
下一代测序(NGS)技术的改进已经大大增加了测序速度和数据输出,这导致当前测序平台的大规模样品通量。大约10年前,Illumina基因组分析仪每次运行能够生成多达1千兆字节(gigabyte)的序列数据。现今,Illumina NovaSeqTM系列的***能够在两天内生成多达2万亿字节(terabyte)的数据,这代表了能力的大于2000x的增加。
实现该增加的能力的一个方面是多重化(multiplexing),其在文库制备期间向每一个DNA片段添加被称为索引(index)的独特序列。这允许大量的文库被汇集并在单一测序运行期间同时地被测序。来自多重化的通量增益伴随了额外的一层复杂性,因为在最终数据分析之前,来自汇集的文库的测序读段需要在被称为去多重化(demultiplexing)的过程中在计算上进行鉴定和分选。多重化的(multiplexed)文库之间的索引错误分配是已知的问题,其从开发样品多重化的时间开始已经影响NGS技术(Kircher等人,2012,NucleicAcids Res.,第40卷,第1期)。
概述
所公开的实施方式涉及被配置成在大规模平行多重测序中鉴定样品的来源的索引寡核苷酸。还提供了用于制备和使用索引寡核苷酸的方法、设备、***和计算机程序产品。
本公开内容的一个方面提供了用于对来源于多个样品的靶核酸进行测序的方法。所述方法包括:(a)使多个索引多核苷酸与来源于多个样品的靶核酸接触,以生成多个索引-靶多核苷酸,其中与来源于每个样品的靶核酸接触的索引多核苷酸包含与此样品独特地相关联的索引序列或索引序列的组合,该索引序列或索引序列的组合选自索引序列集,并且索引序列集中的任何两个索引序列之间的汉明距离(Hamming distance)不小于第一标准值(criterion value),其中所述第一标准值为至少2;(b)汇集多个索引-靶多核苷酸;(c)对汇集的索引-靶多核苷酸进行测序,以获得索引序列的多个索引读段和靶序列的多个靶读段,每一个靶读段与至少一个索引读段相关联;以及(d)使用索引读段来确定靶读段的样品来源。
在一些实施方式中,索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤(A)碱基或胞嘧啶(C)碱基,和(ii)鸟嘌呤(G)碱基、胸腺嘧啶(T)碱基或尿嘧啶(U)碱基。
在一些实施方式中,索引序列的组合是索引序列的有序组合。
在一些实施方式中,使用索引读段来确定靶读段的样品来源包括:对于每一个索引读段,获得关于索引序列集的比对评分,每一个比对评分指示该索引读段的序列和索引序列集的索引序列之间的相似性;基于比对评分确定特定索引读段与特定索引序列匹配;以及确定与特定索引读段相关联的靶读段来源于与特定索引序列独特地相关联的样品。
在一些实施方式中,多个索引多核苷酸包含多个索引引物,所述索引引物包含索引序列集的索引序列。在一些实施方式中,每一个索引引物还包含流动池扩增引物结合序列。在一些实施方式中,流动池扩增引物结合序列包括P5序列或P7′序列。
在一些实施方式中,来源于多个样品的靶核酸包含具有共价地附接至一个或两个末端的通用衔接子的核酸。在一些实施方式中,使多个索引多核苷酸与来源于多个样品的靶核酸接触包括:使多个索引引物与共价地附接至核酸的一个或两个末端的通用衔接子杂交;以及使多个索引引物延伸以获得多个索引-衔接子-靶多核苷酸。在一些实施方式中,通用衔接子和靶核酸是双链的,并且使多个索引引物与通用衔接子杂交包括使多个索引引物与通用衔接子的仅一条链杂交。
在一些实施方式中,通用衔接子包括双链衔接子。在一些实施方式中,通用衔接子包括Y形衔接子。在一些实施方式中,通用衔接子包括单链衔接子。在一些实施方式中,通用衔接子包括发夹衔接子。在一些实施方式中,通用衔接子中的每一个在被附接至核酸之前在待被附接至该核酸的一个末端处包含突出端。在一些实施方式中,通用衔接子中的每一个在被附接至核酸之前包含待被附接至该核酸的平末端。
在一些实施方式中,通用衔接子和靶核酸是双链的,并且使多个索引引物与通用衔接子杂交包括使多个索引引物与通用衔接子的两条链杂交。在一些实施方式中,与特定通用衔接子的第一链杂交的第一索引引物包含选自索引序列集中的第一子集的第一索引序列,并且与特定通用衔接子的第二链杂交的第二索引引物包含选自索引序列集的第二子集的第二索引序列。
在一些实施方式中,第一索引序列和第二索引序列分别为:SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11或SEQ ID NO:11的反向互补物中的第n个10聚体;SEQ ID NO:12中的第n个10聚体和SEQ ID NO:13或SEQ ID NO:13的反向互补物中的第n个10聚体;SEQ IDNO:14中的第n个10聚体和SEQ ID NO:15或SEQ ID NO:15的反向互补物中的第n个10聚体;SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17或SEQ ID NO:17的反向互补物中的第n个10聚体;或者SEQ ID NO:18中的第n个10聚体和SEQ ID NO:19或SEQ ID NO:19的反向互补物中的第n个10聚体。
在一些实施方式中,第一子集包含表1中列出的索引序列,并且第二子集包含表2中列出的索引序列。
在一些实施方式中,与通用衔接子的两条链杂交的索引引物包含选自索引序列集中的相同子集的索引序列。在一些实施方式中,索引序列的该子集选自表3中的索引序列的子集之一。
在一些实施方式中,所述方法还包括在步骤(a)之前,将通用衔接子附接至核酸的一个或两个末端。在一些实施方式中,附接包括通过转座体介导的片段化附接通用衔接子。在一些实施方式中,转座体介导的片段化包括:提供从多个样品获得的核酸分子和多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物,所述转座子末端组合物包含通用衔接子的序列;以及获得靶核酸,其中所述靶核酸在一个或两个末端处包含从转座子末端组合物转座的通用衔接子的序列。
在一些实施方式中,附接包括将通用衔接子连接至核酸的一个或两个末端。在一些实施方式中,连接包括酶促连接或化学连接。在一些实施方式中,化学连接包括点击化学反应连接。
在一些实施方式中,附接是通过用包含通用衔接子的序列的靶特异性引物的扩增进行的。
在一些实施方式中,多个索引多核苷酸包含样品特异性衔接子,该样品特异性衔接子包含索引序列集中的索引序列。在一些实施方式中,样品特异性衔接子包含具有两条链的衔接子。在一些实施方式中,样品特异性衔接子的仅一条链包含索引序列。在一些实施方式中,样品特异性衔接子的每条链包含索引序列。在一些实施方式中,每一个样品特异性衔接子的第一链包含选自索引序列集中的第一子集的第一索引序列,并且样品特异性衔接子的第二链包含选自索引序列集中的第二子集的第二索引序列。
在一些实施方式中,第一索引序列和第二索引序列分别为:SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11或SEQ ID NO:11的反向互补物中的第n个10聚体;SEQ ID NO:12中的第n个10聚体和SEQ ID NO:13或SEQ ID NO:13的反向互补物中的第n个10聚体;SEQ IDNO:14中的第n个10聚体和SEQ ID NO:15或SEQ ID NO:15的反向互补物中的第n个10聚体;SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17或SEQ ID NO:17的反向互补物中的第n个10聚体;或者SEQ ID NO:18中的第n个10聚体和SEQ ID NO:19或SEQ ID NO:19的反向互补物中的第n个10聚体。
在一些实施方式中,第一子集包含表1中列出的索引序列,并且第二子集包含表2中列出的索引序列。
在一些实施方式中,第一子集和第二子集是相同的。在一些实施方式中,索引序列的子集选自表3中的索引序列的子集之一。
在一些实施方式中,每一个样品特异性衔接子包含流动池扩增引物结合序列。在一些实施方式中,流动池扩增引物结合序列包括P5序列、P5′序列、P7序列或P7′序列。
在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括通过转座体介导的片段化将样品特异性衔接子附接至靶核酸。在一些实施方式中,转座体介导的片段化包括:提供从多个样品获得的核酸分子;提供多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物,所述转座子末端组合物包含样品特异性衔接子的序列;以及获得靶核酸,其中所述靶核酸在一个或两个末端处包含从转座子末端组合物转座的样品特异性衔接子的序列。
在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括将样品特异性衔接子连接至靶核酸。在一些实施方式中,连接包括酶促连接或化学连接。在一些实施方式中,化学连接包括点击化学反应连接。
在一些实施方式中,样品特异性衔接子包含具有互补的双链区域和错配的单链区域的Y形衔接子。在一些实施方式中,样品特异性衔接子的每条链在错配的单链区域处包含索引序列。在一些实施方式中,样品特异性衔接子的仅一条链在错配的单链区域处包含索引序列。
在一些实施方式中,样品特异性衔接子包括单链衔接子。
在一些实施方式中,样品特异性衔接子包括发夹衔接子。
在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括将多个索引多核苷酸附接至靶核酸的两个末端。
在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括将多个索引多核苷酸附接至靶核酸的仅一个末端。
在一些实施方式中,所述方法还包括在对汇集的索引-靶多核苷酸进行测序之前扩增汇集的索引-靶多核苷酸。
在一些实施方式中,所述方法还包括在步骤(a)之前,将从多个样品获得的核酸分子片段化以获得靶核酸。在一些实施方式中,片段化包括转座体介导的片段化。在一些实施方式中,转座体介导的片段化包括:提供核酸分子和多个转座子复合物,其中每一个转座子复合物包含转座酶和两个转座子末端组合物;以及获得靶核酸,所述靶核酸在一个或两个末端处包含从转座子末端组合物转座的序列。
在一些实施方式中,片段化包括与靶向感兴趣的序列的多个PCR引物接触,以获得包含感兴趣的序列的靶核酸。
在一些实施方式中,索引序列集包括索引序列的多个不重叠的子集,任何子集中的任何两个索引序列之间的汉明距离不小于第二标准值。在一些实施方式中,第二标准值大于第一标准值。在一些实施方式中,第一标准值为4,并且第二标准值为5。在一些实施方式中,第一标准值为3。在一些实施方式中,第一标准值为4。
在一些实施方式中,索引序列集中的任何两个索引序列之间的编辑距离(editdistance)不小于第三标准值。在一些实施方式中,编辑距离是修改的Levenshtein距离,其中末端空位不被分配罚分。在一些实施方式中,第三标准值为3。在一些实施方式中,索引序列集中的每一个索引序列具有10个碱基;第一标准值为4;并且第三标准值为3。
在一些实施方式中,索引序列集包含SEQ ID NO:9中的10聚体。
在一些实施方式中,每一个索引序列具有32个或更少的碱基。在一些实施方式中,每一个索引序列具有10个或更少的碱基。在一些实施方式中,每一个索引序列具有6个至8个碱基。
在一些实施方式中,索引序列集不包括凭经验被确定为在多重大规模平行测序中具有差的对核酸样品的来源进行索引的性能的索引序列。在一些实施方式中,不被包括的索引序列包含表4中的序列。
在一些实施方式中,索引序列集不包括测序平台中衔接子或引物的序列的任何子序列,或者所述子序列的反向互补物。在一些实施方式中,测序平台中衔接子或引物的序列包含SEQ ID NO:1(AGATGTGTATAAGAGACAG)、SEQ ID NO:3(TCGTCGGCAGCGTC)、SEQ ID NO:5(CCGAGCCCACGAGAC)、SEQ ID NO:7(CAAGCAGAAGACGGCATACGAGAT)、和SEQ ID NO:8(AATGATACGGCGACCACCGAGATCTACAC)。
在一些实施方式中,索引序列集中的每一个索引序列具有在25%和75%之间的鸟嘌呤/胞嘧啶(GC)含量。
在一些实施方式中,索引序列集包含至少12个不同的索引序列。在一些实施方式中,索引序列集包含至少20个不同的索引序列。在一些实施方式中,索引序列集包含至少24个、至少28个、至少48个、至少80个、至少96个、至少112个或至少384个不同的索引序列。
在一些实施方式中,索引序列集不包括具有四个或更多个连续相同的碱基的任何均聚物。
在一些实施方式中,索引序列集不包括与一个或更多个测序引物序列匹配或反向互补的索引序列。在一些实施方式中,测序引物序列被包含在多个索引多核苷酸的序列中。
在一些实施方式中,索引序列集不包括与一个或更多个流动池扩增引物序列匹配或反向互补的索引序列。在一些实施方式中,流动池扩增引物序列被包含在多个索引多核苷酸的序列中。
在一些实施方式中,索引序列集包含具有相同数目的碱基的索引序列。
在一些实施方式中,索引序列集中的每一个索引序列具有不小于2且不大于6的鸟嘌呤碱基和胞嘧啶碱基的组合数目。
在一些实施方式中,多个索引多核苷酸包含DNA或RNA。
本公开内容的另一个方面涉及用于对来源于多个样品的靶核酸进行测序的方法。所述方法包括:(a)提供来源于多个样品的多个双链核酸分子;(b)提供多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物;(c)将双链核酸分子与转座体复合物一起孵育以获得双链核酸片段,其中双链核酸片段在一个或两个末端处包含从转座子末端组合物转座的序列;(d)使多个索引引物与双链核酸片段接触以生成多个索引-片段多核苷酸,其中与来源于每个样品的双链核酸片段接触的索引引物包含与此样品独特地相关联的索引序列或索引序列的组合,并且该索引序列或索引序列的组合选自索引序列集;(e)汇集多个索引-片段多核苷酸;(f)对汇集的索引-片段多核苷酸进行测序,从而获得索引序列的索引读段和靶序列的多个靶读段,每一个靶读段与至少一个索引读段相关联;以及(g)使用索引读段来确定靶读段的样品来源。
在一些实施方式中,索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2。在一些实施方式中,索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤碱基或胞嘧啶碱基,和(ii)鸟嘌呤碱基、胸腺嘧啶碱基或尿嘧啶碱基。
在一些实施方式中,使多个索引引物与双链核酸片段接触包括:使多个索引引物与在双链核酸片段的一个或两个末端处的从转座子末端组合物转座的序列杂交;以及使多个索引引物延伸以获得索引-片段多核苷酸。在一些实施方式中,杂交包括使多个索引引物与双链核酸片段的仅一条链杂交。在一些实施方式中,杂交包括使多个索引引物与双链核酸片段的两条链杂交。
在一些实施方式中,与特定双链核酸片段的第一链杂交的第一索引引物包含选自索引序列集中的第一子集的第一索引序列,并且与特定双链核酸片段的第二链杂交的第二索引引物包含选自索引序列集中的第二子集的第二索引序列。在一些实施方式中,第一索引序列和第二索引序列分别为:SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11或SEQ IDNO:11的反向互补物中的第n个10聚体;SEQ ID NO:12中的第n个10聚体和SEQ ID NO:13或SEQ ID NO:13的反向互补物中的第n个10聚体;SEQ ID NO:14中的第n个10聚体和SEQ IDNO:15或SEQ ID NO:15的反向互补物中的第n个10聚体;SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17或SEQ ID NO:17的反向互补物中的第n个10聚体;或者SEQ ID NO:18中的第n个10聚体和SEQ ID NO:19或SEQ ID NO:19的反向互补物中的第n个10聚体。在一些实施方式中,第一子集包含表1中列出的索引序列,并且第二子集包含表2中列出的索引序列。
在一些实施方式中,第一子集和第二子集是相同的。在一些实施方式中,索引序列的第一子集或第二子集选自表3中的索引序列的子集之一。
在一些实施方式中,索引序列集包含至少6个不同的索引序列。
在一些实施方式中,每一个索引引物包含扩增引物结合序列。
在一些实施方式中,流动池扩增引物结合序列包括P5序列或P7′序列。
在一些实施方式中,转座体复合物中的至少一种包含Tn5转座酶和Tn5转座子末端组合物。
在一些实施方式中,转座体复合物中的至少一种包含Mu转座酶和Mu转座子末端组合物。
还提供了用于鉴定和制备索引寡核苷酸,以及使用所公开的索引序列确定DNA片段序列的***、设备和计算机程序产品。
本公开内容的另外的方面涉及计算机程序产品,该计算机程序产品包含存储程序代码的非瞬时性机器可读介质,该程序代码当被计算机***的一个或更多个处理器执行时使得计算机***实现用于对来源于多个样品的靶核酸进行测序的方法。所述程序代码包括:(a)用于接收从来源于多个样品的靶核酸获得的靶序列的多个索引读段和多个靶读段的代码。每一个靶读段包含从来源于多个样品中的样品的靶核酸获得的靶序列。每一个索引读段包含从来源于多个样品中的样品的靶核酸获得的索引序列,所述索引序列选自索引序列集。每一个靶读段与至少一个索引读段相关联。多个样品中的每个样品与索引序列集中的一个或更多个索引序列独特地相关联。索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2。所述程序代码还包含:(b)用于在多个靶读段中鉴定与索引读段相关联的靶读段的子集的代码,该索引读段与至少一个索引序列匹配,该至少一个索引序列与多个样品中的特定样品独特地相关联;以及(c)用于基于所鉴定的靶读段的子集来确定特定样品的靶序列的代码。
在一些实施方式中,索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤碱基或胞嘧啶碱基,和(ii)鸟嘌呤碱基、胸腺嘧啶碱基或尿嘧啶碱基。
在一些实施方式中,计算机程序产品包括存储程序代码的非瞬时性机器可读介质,该程序代码当被计算机***的一个或更多个处理器执行时使得计算机***实现上文的一种或更多种方法。
本公开内容的另外的方面涉及计算机***,该计算机***包含:一个或更多个处理器;***存储器;以及一个或更多个计算机可读存储介质,该计算机可读存储介质在其上存储有计算机可执行指令,该计算机可执行指令使得计算机***实现用于对多个样品中的核酸进行测序的方法。所述指令包含:(a)接收从来源于多个样品的靶核酸获得的靶序列的多个索引读段和多个靶读段。每一个靶读段包含从来源于多个样品中的样品的靶核酸获得的靶序列。每一个索引读段包含从来源于多个样品中的样品的靶核酸获得的索引序列,所述索引序列选自索引序列集。每一个靶读段与至少一个索引读段相关联。多个样品中的每个样品与索引序列集中的一个或更多个索引序列独特地相关联。索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2。所述指令还包含:(b)在多个靶读段中鉴定与索引读段相关联的靶读段的子集,该索引读段与至少一个索引序列匹配,该至少一个索引序列与多个样品中的特定样品独特地相关联;以及(c)基于所鉴定的靶读段的子集来确定特定样品的靶序列。在一些实施方式中,索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤碱基或胞嘧啶碱基,和(ii)鸟嘌呤碱基、胸腺嘧啶碱基或尿嘧啶碱基。
在一些实施方式中,一个或更多个计算机可读存储介质在其上存储有计算机可执行指令,该计算机可执行指令使得计算机***实现上文的一种或更多种方法。
尽管本文中的实例涉及人类,并且语言主要针对人类问题,但是本文中所描述的概念适用于来自任何病毒、植物、动物或其他生物体的核酸,以及其群体(宏基因组、病毒群体等)。本公开内容的这些和其他特征参考附图和所附权利要求根据以下描述将变得更充分明显,或者可以通过如在下文中陈述的本公开内容的实践而被了解。
通过引用并入
本文中所提及的所有专利、专利申请和其他出版物(包括这些参考文献内所公开的所有序列)通过引用明确地并入本文,其程度如同每个单独的出版物、专利或专利申请被特别地且单独地指明通过引用并入一样。所有引用的文件通过引用以其整体并入本文的相关部分中,以用于由本文对它们进行引用的上下文所指示的目的。然而,对任何文件的引用不应被解释为承认其是关于本公开内容的现有技术。
附图简述
图1A-1C图示出了使用索引寡核苷酸对核酸片段进行测序的示例工作流程。
图1D图示出了根据一些实施方式的用于对来源于多个样品的靶核酸进行测序的过程。
图1E和图1F示出了进行转座体(transposome)介导的片段化并且将索引引物应用于具有附接至两个末端的双链短通用衔接子的核酸的过程。
图1G示出了根据一些实施方式的具有附接至两个末端的双链短通用衔接子的靶核酸的序列。
图1H示出了根据一些实施方式的具有附接至两个末端的Y形短通用衔接子的靶核酸的序列。
图1I示出了根据一些实施方式的i7索引引物中的序列。
图1J示出了根据一些实施方式的i5索引引物中的序列。
图1K示出了根据一些实施方式向在两个末端上具有Y形短通用衔接子的核酸添加索引序列的过程。
图2A-2D示出了索引寡核苷酸的多个实施方式。
图3示意性地图示出了索引序列设计,该索引序列设计提供用于在测序过程期间检测索引序列中出现的错误的机制。
图4A-4C示意性地图示出了其中可以提供索引寡核苷酸的多孔板和索引寡核苷酸的示例性布局。
图5示出了用于制备索引寡核苷酸诸如加索引的衔接子的过程。
图6示出了用于从测试样品产生判定(call)或诊断的分散***(dispersedsystem)的一个实施方式。
图7图示出了根据某些实施方案的可以用作计算设备的计算机***。
详细描述
数值范围包括限定该范围的数值。预期的是,遍及本说明书中给出的每个最大的数值限制包含每个较低的数值限制,如同这样的较低数值限制在本文中被明确地写出。遍及本说明书中给出的每个最小的数值限制将包含每个较高的数值限制,如同这样的较高数值限制在本文中被明确地写出。遍及本说明书中给出的每个数值范围将包含落入这样的较宽数值范围内的每个较窄数值范围,如同这样的较窄数值范围在本文中被明确地写出。
本文中所提供的标题不意图限制本公开内容。
除非在本文中另有定义,否则本文中所使用的所有技术和科学术语具有如本领域普通技术人员所通常理解的相同的含义。包括本文中所包含的术语的各种科学词典是本领域技术人员熟知的并且可获得的。尽管与本文中所描述的那些方法和材料相似或等效的任何方法和材料可用于实践或测试本文中所公开的实施方案,但描述了一些方法和材料。
下文紧接着定义的术语通过参考本说明书整体而被更充分地描述。应当理解,本公开内容不限于所描述的特定方法学、方案和试剂,因为这些可以取决于本领域技术人员使用其的背景而变化。
定义
如本文中所使用的,单数形式“一(a)”、“一(an)”、和“该(the)”包括复数指代物,除非上下文另外清楚地指示。
如本文中所使用的,在上下文中适当的情况下并且除非另外指明,措辞“包括/包含/含有(include)”涵盖“包括/包含/含有(comprise)”、“由...组成(consist of)”或“主要由...组成(consist essentially of)”的含义。
除非另外指示,分别地,核酸以5′至3′方向从左到右书写,并且氨基酸序列以氨基至羧基方向从左到右书写。
编辑距离是通过对将一个字符串转换成另一个字符串所需的最小操作数目进行计数来定量两个字符串(例如,单词)彼此之间如何不同的度量。在生物信息学中,它可以用于定量DNA序列的相似性,DNA序列可以被看作是字母A、C、G和T的字符串。
不同形式的编辑距离使用不同的字符串操作集。Levenshtein距离是常见类型的编辑距离。Levenshtein距离的字符串操作解释了字符串中字符的缺失、***和取代的数目。在一些实施方式中,可以使用编辑距离的其他变体。例如,编辑距离的其他变体可以通过限制操作集来获得。最长共同子序列(LCS)距离是具有***和缺失作为仅有的两个编辑操作(两者均以单位成本计)的编辑距离。Jaro–Winkler距离可以从仅允许转座的编辑距离获得。类似地,通过仅允许取代,获得汉明距离,其被限制为相等长度字符串。相等长度的两个字符串之间的汉明距离是相应的符号是不同的位置的数目。换句话说,它测量将一个字符串转变成另一个字符串所需的最小取代数目,或者可以将一个字符串转换成另一个字符串所需的最小错误数目。
在一些实施方式中,对于编辑距离,不同的字符串操作可以具有不同的权重。例如,取代操作可以具有值3的权重,而***/缺失(indel)可以具有值2的权重。在一些实施方式中,不同种类的匹配可以具有不同的权重。例如,A-A匹配可以具有为G-G匹配的两倍的权重。
如本文中所使用,术语“通用序列”指的是两个或更多个核酸分子(例如衔接子-靶-衔接子分子)所共有的序列区域,其中所述分子也具有彼此不同的序列区域。存在于分子集合的不同成员中的通用序列可以允许使用与通用序列的部分(例如,通用延伸引物结合位点)互补的通用捕获核酸的群体来捕获多个不同的核酸。通用延伸引物结合位点的非限制性实例包括与P5引物和P7引物相同或互补的序列。类似地,存在于分子集合的不同成员中的通用序列可以允许使用与通用序列的部分(例如,通用引物结合位点)互补的通用引物的群体来复制或扩增多个不同的核酸。因此,通用捕获核酸或通用引物包括可以与通用序列特异性地杂交的序列。靶核酸分子可以被修饰为例如在不同靶序列的一个或两个末端处附接衔接子,如本文中所描述的。
当提及扩增引物,例如通用引物延伸引物时,可以使用术语“P5”和“P7”。术语“P5′”(P5引发物(prime))和“P7′”(P7引发物)分别地指的是P5和P7的互补物。将理解的是,任何合适的扩增引物可以用于本文所呈现的方法中,并且P5和P7的使用仅是示例性实施方案。扩增引物诸如P5和P7在流动池上的使用在本领域中是已知的,如通过WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容所例示的。例如,任何合适的正向扩增引物,无论被固定化还是在溶液中,可以在本文所呈现的方法中对于与互补序列杂交和序列的扩增是有用的。类似地,任何合适的反向扩增引物,无论被固定化还是在溶液中,可以在本文所呈现的方法中对于与互补序列杂交和序列的扩增是有用的。本领域技术人员将理解如何设计和使用适合于捕获和扩增如本文所呈现的核酸的引物序列。
关于核酸序列中的位置的术语“上游”和“在…的5′(5′-of)”可互换地使用,指的是核酸序列中进一步朝向序列的5′末端的相对位置。
关于核酸序列中的位置的术语“下游”和“在…的3′-(3′-of)”可互换地使用,指的是核酸序列中进一步朝向序列的3′末端的相对位置。
本公开内容的方法的一些实施方式中的一个步骤是使用体外转座反应使靶DNA片段化和加标签以生成加标签的DNA片段。体外转座反应需要转座酶、转座子末端组合物和合适的反应条件。
“转座酶”意指这样的酶,所述酶能够与含有转座子末端的组合物(例如转座子、转座子末端、转座子末端组合物)形成功能性复合物,并且在体外转座反应中催化含有转座子末端的组合物***或转座到与其一起孵育的双链靶DNA。转座酶还包括来自逆转录转座子(retrotransposon)和逆转录病毒的整合酶。
“转座反应(transposition reaction)”是其中一个或更多个转座子末端在随机位点或几乎随机位点处***到靶DNA的反应。在一些实施方式中,转座反应引起靶DNA或RNA在随机位置处被片段化。转座反应中的重要组分是转座酶和展现出转座子末端的核苷酸序列的DNA寡核苷酸(包括转移的转座子末端序列及其互补物、非转移的转座子末端序列)以及形成功能性转座复合物所需要的其他组分。本发明的方法通过采用通过超活性(hyperactive)Tn5转座酶和Tn5型转座子末端形成的转座复合物(Goryshin,I.和Reznikoff,W.S.,J.Biol.Chem.,273:7367,1998)或通过MuA转座酶和包含R1末端序列和R2末端序列的Mu转座子末端形成的转座复合物(Mizuuchi,K.,Cell,35:785,1983;Savilahti,H,等人,EMBO J.,14:4893,1995)来示例。然而,能够以随机或几乎随机的方式***转座子末端并且具有足够的效率以使靶DNA 5′加标签和片段化以用于其预期的目的的任何转座***可以用于本发明。可以被应用的本领域已知的转座***的实例包括但不限于金黄色葡萄球菌(Staphylococcus aureus)Tn552(Colegio O R等人,J Bacteriol.,183:2384-8,2001;Kirby C等人,Mol Microbiol.,43:173-86,2002)、Ty1(Devine S E和Boeke J D.,Nucleic Acids Res.,22:3765-72,1994以及国际专利申请号WO 95/23875)、转座子Tn7(Craig,N L,Science,271:1512,1996;Craig,N L,Review in:Curr TopMicrobiol Immunol.,204:27-48,1996)、Tn10和IS10(Kleckner N,等人,Curr TopMicrobiol Immunol.,204:49-82,1996)、Mariner转座酶(Lampe D J,等人,EMBO J.,15:5470-9,1996)、Tc1(Plasterk R H,Curr Top Microbiol Immunol,204:125-43,1996)、P元件(Gloor,G B,Methods Mol Biol.,260:97-114,2004)、Tn3(Ichikawa H,和Ohtsubo E.,JBiol Chem.265:18829-32,1990)、细菌***序列(Ohtsubo,F和Sekine,Y,Curr.Top.Microbiol.Immunol.204:1-26,1996)、逆转录病毒(Brown P O,等人,Proc NatlAcad Sci USA,86:2525-9,1989)和酵母的逆转录转座子(Boeke J D和Corces V G,AnnualRev Microbiol.43:403-34,1989)。
用于将转座子末端***到靶序列中的方法可以使用任何合适的转座子***在体外进行,对于所述合适的转座子***,合适的体外转座***是可获得的或可以基于本领域的知识被开发。通常,用于在本发明的方法中使用的合适的体外转座***要求:具有足够纯度、足够浓度和足够的体外转座活性的转座酶;以及转座酶与其一起形成功能性复合物的转座子末端,该功能性复合物具有各自的能够催化转座反应的转座酶。可以在本发明中使用的合适的转座子末端序列包括但不限制于,与转座酶形成复合物的野生型转座子末端序列、衍生的转座子末端序列或突变的转座子末端序列,该转座酶选自野生型转座酶、衍生形式的转座酶或突变形式的转座酶。示例性的转座酶包括野生型或突变形式的Tn5转座酶和MuA转座酶(尽管EZ-Tn5转座酶在本发明的方法中在生成5′-加标签的DNA片段方面比等效蛋白量的MuA转座酶显著更有效),但是在本发明方法中可以使用任何其他转座酶,对于这些转座酶,已知或随后开发出用于限定的转座子末端的有效体外转座的组合物和条件。由野生型或突变形式的Tn5转座酶或MuA转座酶识别的转座子末端序列在一些实施方式中是合适的,并且当与转座酶复合时导致最高转座效率的那些转座子末端序列连同与其复合的相应的最佳活性的转座酶,对于一些实施方案是有利的。在一些实施方式中,选择转座子,其中转座酶所需的用于转座的转座子末端序列不是太大的并且转座子末端序列具有可能的最小尺寸,这很好地起作用以用于预期的目的,并且具有足够的尺寸,使得相同的序列在靶DNA或样品DNA中仅很少地存在或根本不存在。举例来说,Tn5衍生的EZ-Tn5TM转座子末端序列的转座子末端序列仅包含19个核苷酸,而一些其他转座酶需要大得多的末端序列用于转座(例如,MuA转座酶需要大约51个核苷酸的转座子末端序列)。
可以用于将转座子末端***到靶核酸中的合适的体外转座***包括但不限于使用从EPICENTRE Technologies,Madison,WI可获得的EZ-Tn5TM超活性Tn5转座酶、或来自EPICENTRE的HyperMuTM超活性MuA转座酶、或者诸如从Finnzymes Oy,Espoo,Finland可获得的另一种MuA转座酶的那些体外转座***。
在一些实施方案中,根据本发明的将转座子末端***到靶DNA中也可以在体内进行。如果转座在体内进行,则转座到靶DNA中优选地通过将转座酶和合适的转座子末端组合物的联合复合物(synaptic complex)电穿孔到宿主细胞中来实现,如在美国专利号6,159,736(通过引入并入本文)中所描述的。该转座方法通过采用以下转座复合物来示例:使用与通过(Goryshin,I.和Reznikoff,W.S.,J.Biol.Chem.,273:7367,1998)所描述的方法相似的方法,由超活性Tn5转座酶和合适的Tn5型转座子末端组合物形成的转座复合物,或者通过HyperMuTM超活性MuA转座酶(EPICENTRE,Madison,Wis.)和合适的展现出由该转座酶识别的R1末端序列和R2末端序列的MuA转座子末端组合物形成的转座复合物。转座子末端组合物和转座酶之间的合适的联合复合物或“TransposomeTM复合物(EPICENTRE)”可以如在美国专利号6,159,736以及Goryshin和Reznikoff的相关专利所描述的制备,或者如针对来自EPICENTRE Technologies,Madison,Wis.的Tn5型EZ-Tn5TMTransposomeTM复合物或HyperMuTMMuA TransposomeTM复合物的产品文献中所描述的制备。
术语“转座子末端”意指仅展现出对于与在体外转座反应中是功能性的转座酶或整合酶形成复合物是必需的核苷酸序列(“转座子末端序列”)的双链DNA。转座子末端与识别并结合至转座子末端的转座酶或整合酶形成“复合物”或“联合复合物”或“转座体复合物”或“转座体组合物”,并且所述复合物能够将转座子末端***或转座到所述复合物在体外转座反应中与其一起孵育的靶DNA中。转座子末端展现出由“转移的转座子末端序列”或“转移链”和“非转移的转座子末端序列”或“非转移链”组成的两个互补序列。例如,与在体外转座反应中有活性的超活性Tn5转座酶(例如,EZ-Tn5TM转座酶,EPICENTREBiotechnologies,Madison,Wis.,USA)形成复合物的一个转座子末端包括展现出如下的“转移的转座子末端序列”的转移链:
Figure BDA0002336238860000181
和展现出如下的“非转移的转座子末端序列”的非转移链:
Figure BDA0002336238860000182
命名“pMETS”指的是19个碱基的含有5′-磷酸的单链转座子末端寡核苷酸,其展现出EZ-Tn5TM转座子末端序列:
Figure BDA0002336238860000183
命名“METS”指的是19个碱基的单链转座子末端寡核苷酸,其展现出EZ-Tn5TM转座子末端序列:
Figure BDA0002336238860000184
命名“pMENTS”指的是19个碱基的含有5′-磷酸的单链转座子末端寡核苷酸,其展现出EZ-Tn5TM转座子末端序列:
Figure BDA0002336238860000185
命名“pMEDS”指的是19个碱基对的双链EZ-Tn5TM转座子末端,其中两个5′末端包含磷酸:
Figure BDA0002336238860000186
pMEDS EZ-Tn5TM转座子末端通过将pMETS转座子末端寡核苷酸退火至pMENTS转座子末端寡核苷酸来制备。
命名“MEDS”指的是19个碱基对的双链EZ-Tn5TM转座子末端,其中仅非转移链(pMENTS)包含5′-磷酸:
Figure BDA0002336238860000191
MEDS EZ-Tn5TM转座子末端通过将METS转座子末端寡核苷酸退火至pMENTS转座子末端寡核苷酸来制备。
转移链的3′末端在体外转座反应中被连接或转移至靶DNA。展现出与转移的转座子末端序列互补的转座子末端序列的非转移链在体外转座反应中不被连接或转移至靶DNA。
在一些实施方式中,转移链和非转移链被共价地连接。例如,在一些实施方式中,转移链序列和非转移链序列在单个寡核苷酸上被提供,例如呈发夹构型的形式。这样,尽管非转移链的游离末端不通过转座反应直接地连接至靶DNA,但是非转移链变得间接地附接至DNA片段,因为非转移链通过发夹结构的环连接至转移链。
“转座子末端组合物”意指包含转座子末端(即,能够与转座酶作用以经历转座反应的最小双链DNA区段)、任选地加上在转移的转座子末端序列的5'和/或在非转移的转座子末端序列的3'的另外的一个或更多个序列的组合物。例如,附接至标签的转座子末端是“转座子末端组合物”。在一些实施方式中,转座子末端组合物包含由“转移的转座子末端寡核苷酸”或“转移链”和“非转移链末端寡核苷酸”或“非转移链”组成的两个转座子末端寡核苷酸或由所述两个转座子末端寡核苷酸组成,所述“转移的转座子末端寡核苷酸”或“转移链”和“非转移链末端寡核苷酸”或“非转移链”组合地展现出转座子末端的序列,并且其中一条或两条链包含另外的序列。
术语“转移的转座子末端寡核苷酸”和“转移链”可互换地使用,并且指的是“转座子末端”和“转座子末端组合物”两者的转移部分,即不管转座子末端是否被附接至标签或其他部分。类似地,术语“非转移的转座子末端寡核苷酸”和“非转移链”可互换地使用,并且指的是“转座子末端”和“转座子末端组合物”两者的非转移部分。在一些实施方式中,转座子末端组合物是“发夹转座子末端组合物”。
如本文中所使用的,“发夹转座子末端组合物”意指由单个寡脱氧核糖核苷酸组成的转座子末端组合物,该寡脱氧核糖核苷酸展现出在其5'末端处的非转移的转座子末端序列、在其3'末端处的转移的转座子末端序列、以及在非转移的转座子末端序列和转移的转座子末端序列之间的间插任意序列,该间插任意序列足够地长以允许分子内茎环形成,使得转座子末端部分可以在转座反应中起作用。在一些实施方式中,发夹转座子末端组合物的5'末端在5'核苷酸的5'位置中具有磷酸基团。在一些实施方式中,发夹转座子末端组合物的非转移的转座子末端序列和转移的转座子末端序列之间的间插任意序列为特定用途或应用提供标签(例如,包括一个或更多个标签结构域)。
在一些实施方式中,本公开内容的方法产生加标签的环状ssDNA片段。在一些实施方式中,加标签的环状ssDNA片段仅展现出转座子末端组合物的转移链的序列,而加标签的环状ssDNA片段不展现出转座子末端组合物的非转移链的序列。
在一些实施方案中,在本发明的方法中使用的转座子末端寡核苷酸仅展现出转座反应中所需的转座子末端序列。然而,在一些实施方案中,转座子末端寡核苷酸中的至少一个在转座子末端序列的5′另外地展现出一个或更多个其他核苷酸序列。因此,在一些实施方案中,所述方法使用具有3'部分和5'部分的转移链,其中3'部分展现出转移的转座子末端序列,并且5'部分展现出不参与与转座酶形成功能性复合物的一个或更多个另外的序列。对于哪些另外的序列可以被用于转移链的5'部分中的一个或更多个另外的序列不存在限制,这些序列可以用于实现任何期望的目的。例如,在一些实施方案中,转移链的5'部分展现出一个或更多个另外的标签序列。在一些实施方式中,标签序列可以是与特定样品相关的索引序列。在一些实施方式中,标签序列允许通过退火至表面上的特定序列而进行捕获。在一些实施方式中,标签序列允许5'加标签的靶片段被捕获在流动池基底上以用于下一代测序;例如用于被捕获在Illumina测序平台的流动池上的P5标签或P7'标签,或者用于被捕获在珠上的454A标签或454B标签序列以用于使用Roche 454下一代测序仪来测序。
在一些实施方式中,标签序列可以是用于所述方法的产物的鉴定、检测(例如,荧光检测)或分选的一个或更多个序列。在一些其他实施方案中,转移链的5'部分展现出一个或更多个另外的核苷酸或序列或者化学基团或部分,该化学基团或部分包含亲和结合分子或由亲和结合分子组成,该亲和结合分子例如允许通过退火至表面诸如珠上的特定序列或微芯片或阵列上的探针而进行捕获的标签序列。在一些优选的实施方案中,转移链的5'部分中的一个或更多个另外的序列的尺寸被最小化,以便在体外转座酶反应期间使转移链***到自身的概率或频率最小化。例如,在一些实施方案中,转移链的5'部分的尺寸小于约150个核苷酸、小于约100个核苷酸、小于约75个核苷酸、小于约50个核苷酸、小于约25个核苷酸或小于约15个核苷酸。
在一些实施方案中,转移链的5′末端具有5′单磷酸基团。在一些实施方案中,转移链和非转移链两者具有5′单磷酸基团。在一些优选实施方案中,仅非转移链的5′末端具有5′单磷酸基团。在一些其他实施方案中,在转移链的5′末端上不存在5'单磷酸基团。
在一些实施方式中,在本公开内容的方法中使用的转座子末端组合物包含转座子末端寡核苷酸,该转座子末端寡核苷酸仅展现出与转座酶或整合酶形成复合物的并且是转座反应所需的转座子末端序列;在这些实施方式中,使用所述方法生成的加标签的环状ssDNA片段中的标签仅展现出转移的转座子末端序列。然而,在一些实施方式中,转座子末端组合物包含至少一个转座子末端寡核苷酸或由至少一个转座子末端寡核苷酸组成,该转座子末端寡核苷酸除了转座子末端序列之外展现出一个或更多个其他核苷酸序列。因此,在一些实施方式中,转座子末端组合物包含转移链,该转移链在转移的转座子末端序列的5′展现出一个或更多个其他核苷酸序列,所述一个或更多个其他核苷酸序列也通过标签被展现出。因此,除了转移的转座子末端序列之外,标签可以具有一个或更多个其他标签部分或标签结构域。
如本文中所使用的,“标签”是与一个或更多个核酸分子缔合或可以与一个或更多个核酸分子缔合的核酸序列。
如本文中所使用的,“标签部分”或“标签结构域”意指展现出用于所需的期望的目的或应用的序列的标签的部分或结构域。一个标签部分或标签结构域是“转座子末端结构域”,所述标签部分或标签结构域展现出转移的转座子末端序列。在一些实施方式中,其中转移链还在转移的转座子末端序列的5'展现出一个或更多个其他核苷酸序列,标签还在所述5'部分中具有一个或更多个其他“标签结构域”,所述标签结构域中的每一个被提供用于任何期望的目的。例如,本公开内容的一些实施方式包含转座子末端组合物或由转座子末端组合物组成,该转座子末端组合物包含以下或由以下组成:(i)转移链,该转移链在转移的转座子末端序列的5′展现出一个或更多个序列,该一个或更多个序列包含标签结构域或由标签结构域组成,该标签结构域选自样品特异性索引序列、引物结合序列、限制性位点标签结构域、捕获标签结构域、测序标签结构域、扩增标签结构域、检测标签结构域和转录启动子结构域中的一个或更多个;和(ii)非转移链,该非转移链展现出非转移的转座子末端序列。本公开内容包括使用所述转座子末端组合物的任何一种或更多种的方法的实施方式。
在一些实施方式中,转座子末端组合物包含转移链,该转移链包含与PCR引物中的序列反向互补的引物结合序列。在一些实施方式中,PCR引物是包含样品特异性索引序列的索引引物。在一些实施方式中,在将转移链转座并附接至靶多核苷酸之后,样品特异性索引引物与附接至靶多核苷酸的转移链中的引物结合序列杂交。
如本文中所使用的,“限制性位点标签结构域”或“限制性位点结构域”意指展现出用于促进使用限制性内切核酸酶进行裂解的目的的序列的标签结构域。例如,在一些实施方式中,限制性位点结构域被用于生成加双标签的(di-tagged)线性ssDNA片段。在一些实施方式中,限制性位点结构域被用于生成标签结构域中的兼容性双链5'末端,使得该末端可以使用模板依赖性DNA连接酶被连接至另一个DNA分子。在一些优选的实施方式中,标签中的限制性位点结构域展现出在靶DNA中仅很少地存在(如果真会发生的话)的限制性位点(例如,稀有切割限制性内切核酸酶诸如NotI或AscI的限制性位点)的序列。在一些优选的实施方式中,限制性位点结构域中的限制性位点用于II型限制性内切核酸酶,诸如FokI限制性内切核酸酶。
在其中转座子末端组合物的转移链在转移的转座子末端序列的5′-包含一个或更多个限制性位点结构域的一些实施方式中,所述方法还包括:将与加标签的环状ssDNA片段的单链限制性位点互补的寡脱氧核糖核苷酸退火,并且然后使用识别限制性位点的限制性内切核酸酶在限制性位点处裂解加标签的环状ssDNA片段。因此,在一些实施方式中,所述方法包括使加标签的环状ssDNA片段线性化以生成加双标签的线性ssDNA片段。
在其中转座子末端组合物的转移链在转移的转座子末端序列的5′-包含一个或更多个限制性位点结构域的一些其他实施方式中,转座子末端组合物的转移链包含双链发夹,该双链发夹包含限制性位点,并且所述方法还包括使用识别限制性位点的限制性内切核酸酶在限制性位点处裂解加标签的线性ssDNA片段的步骤;然而,在一些实施方式中,该方法不是优选的,因为双链发夹提供了转座子末端组合物可以通过转座酶或整合酶被转座到其中的dsDNA的位点。
在一些优选的实施方式中,包括(i)通过将与单链限制性位点互补的寡脱氧核糖核苷酸退火或通过使用包含双链发夹的转移链,生成双链限制性位点,以及(ii)然后使用识别双链限制性位点的限制性内切核酸酶裂解限制性位点,所述方法还包括将限制性内切核酸酶裂解的加标签的线性ssDNA片段连接至具有兼容性3′末端的另一个DNA分子的步骤。
如本文中所使用的,“捕获标签结构域”或“捕获标签”意指展现出用于促进标签结构域连接至其的ssDNA片段的捕获的目的(例如,提供退火位点或亲和标签以用于将加标签的环状ssDNA片段或加双标签的线性ssDNA片段捕获在珠或其他表面上,例如其中标签结构域序列的退火位点允许通过退火至表面上的特定序列而进行捕获,所述特定序列诸如珠上、或微芯片或微阵列上、或测序珠上的探针)的序列的标签结构域。在一些实施方式中,“捕获标签”包含流动池扩增引物结合序列。在一些实施方式中,流动池扩增引物结合序列包括P5序列或P7′序列。在所述方法的一些实施方式中,在加标签的环状ssDNA片段或加双标签的线性ssDNA片段通过退火至表面上的互补探针被捕获之后,捕获标签结构域提供了用于使用所述加标签的环状ssDNA片段或所述加双标签的线性ssDNA片段(或所述加标签的环状ssDNA片段或加双标签的线性ssDNA片段的互补物)作为模板来引发DNA合成的位点。在一些其他实施方式中,捕获标签结构域包含转移链的5′部分,该转移链的5′部分被连接至包含亲和结合分子或由亲和结合分子组成的化学基团或部分(例如,其中转移链的5′部分被连接至第一亲和结合分子,诸如生物素、链霉亲和素、抗原或结合该抗原的抗体,这允许将环状加标签的ssDNA片段或加双标签的线性ssDNA片段捕获在第二亲和结合分子所附接的表面上,该第二亲和结合分子与第一亲和结合分子形成特异性结合对)。
如本文中所使用的,“测序标签结构域”、“测序标签”或“测序引物结合序列”意指用于促进对标签连接至其的ssDNA片段进行测序(例如,提供用于合成测序的引发位点,或提供用于连接测序的退火位点,或提供用于杂交测序的退火位点)的序列。例如,在一些实施方式中,测序标签结构域或测序引物结合序列提供了用于引发所述ssDNA片段或所述ssDNA片段的互补物的DNA合成的位点。在一些实施方式中,测序标签结构域或测序引物结合序列包含SBS3序列、SBS8′序列、SBS12′序列或SBS491′序列。
如本文中所使用的,“扩增标签结构域”意指展现出用于促进所述标签附加至其的核酸的扩增的目的的序列的标签结构域。例如,在一些实施方式中,扩增标签结构域提供了用于使用DNA聚合酶的核酸扩增反应(例如,PCR扩增反应或链置换扩增反应或滚环扩增反应)的引发位点,或者用于在核酸扩增反应(例如,连接链式反应)中使用模板依赖性连接酶连接探针的连接模板。
如本文中所使用的,“检测标签结构域”或“检测标签”意指展现出用于促进加标签的环状ssDNA片段或加双标签的线性ssDNA片段的检测的目的的序列或可检测的化学或生物化学部分(例如,其中序列或化学部分包含可检测的分子或被连接至可检测的分子;诸如选自以下的可检测的分子:可视染料、荧光染料、化学发光染料或其他可检测染料;在底物的存在下可检测的酶,例如在具有NBT加BCIP情况下的碱性磷酸酶,或在具有合适底物情况下的过氧化物酶;可检测蛋白,例如绿色荧光蛋白;以及与可检测部分结合或可以与另一种可检测的亲和结合分子形成亲和结合对或特异性结合对的亲和结合分子;或本领域已知的许多其他可检测的分子或***的任一种)的标签结构域。
如本文中所使用的,“转录启动子结构域”或“启动子结构域”意指展现出RNA聚合酶启动子的有义启动子序列或反义启动子序列的序列的标签结构域。
如本文中所使用的,“DNA片段”意指靶DNA的部分、片段(piece)或区段(segment),该DNA片段从较长的DNA分子裂解出或者从较长的DNA分子释放或断裂出,使得其不再被附接至亲本分子。DNA片段可以是双链的(“dsDNA片段”)或单链的(“ssDNA片段”),并且从靶DNA生成DNA片段的过程被称为使靶DNA“片段化”。在一些优选的实施方案中,所述方法用于生成包含加标签的DNA片段的集合或群体的“DNA片段文库”。
如本文中所使用的,“靶DNA”指的是经受处理,例如,以用于生成加标签的DNA片段(例如,5′-和3′-加标签或加双标签的线性ssDNA或dsDNA片段或者加标签的环状ssDNA片段)的文库的任何感兴趣的DNA。
“靶DNA”可以来源于任何体内或体外来源(包括来自一个或更多个无论是活的还是死的细胞、组织、器官或生物体),或者来源于任何生物或环境来源(例如水、空气、土壤)。例如,在一些实施方案中,靶DNA包含真核和/或原核dsDNA或者由真核和/或原核dsDNA组成,该真核和/或原核dsDNA起源于或来源于人类、动物、植物、真菌(例如,霉菌或酵母)、细菌、病毒、类病毒、支原体或其他微生物。在一些实施方案中,靶DNA包含以下或由以下组成:基因组DNA、亚基因组DNA、染色体DNA(例如,来自分离的染色体或染色体的部分,例如来自染色体的一个或更多个基因或基因座)、线粒体DNA、叶绿体DNA、质粒或其他游离型(episomal)来源的DNA(或其中包含的重组DNA)或双链cDNA,该双链cDNA通过使用RNA依赖性DNA聚合酶或逆转录酶逆转录RNA以生成第一链cDNA,并且然后使退火至第一链cDNA的引物延伸以生成dsDNA来制备。在一些实施方案中,靶DNA包含在核酸分子中的或由核酸分子制备的多个dsDNA分子(例如,在基因组DNA或由RNA制备的cDNA中的或由基因组DNA或由RNA制备的cDNA制备的多个dsDNA分子,该基因组DNA或该RNA在生物(例如,细胞、组织、器官、生物体)或环境(例如,水、空气、土壤、唾液、痰、尿液、粪便)来源中或来自生物(例如,细胞、组织、器官、生物体)或环境(例如,水、空气、土壤、唾液、痰、尿液、粪便)来源)。在一些实施方案中,靶DNA来自体外来源。例如,在一些实施方案中,靶DNA包含dsDNA或由dsDNA组成,该dsDNA在体外由单链DNA(ssDNA)或由单链或双链RNA制备(例如,使用本领域熟知的方法,诸如使用合适的DNA依赖性和/或RNA依赖性DNA聚合酶(逆转录酶)的引物延伸)。在一些实施方案中,靶DNA包含dsDNA或由dsDNA组成,该dsDNA使用本领域已知的任何方法由一个或更多个双链或单链DNA或RNA分子的全部或部分制备,所述方法包括用于以下的方法:DNA或RNA扩增(例如,PCR或逆转录酶-PCR(RT-PCR),转录介导的扩增方法,以及一个或更多个核酸分子的全部或部分的扩增);在质粒、福斯质粒(fosmid)、BAC或其他载体中一个或更多个核酸分子的全部或部分的分子克隆,随后在合适的宿主细胞中复制;或者通过杂交捕获一个或更多个核酸分子,诸如通过与阵列或微阵列上的DNA探针杂交(例如,通过“序列捕获”;例如,使用来自ROCHE NIMBLEGEN、AGILENT或FEBIT的试剂盒和/或阵列)。
在一些实施方案中,“靶DNA”意指在被用于生成加标签的DNA片段(例如,5′-和3′-加标签或加双标签的线性ssDNA或dsDNA片段或加标签的环状ssDNA片段)的文库之前被制备或修饰(例如,使用各种生物化学或分子生物学技术制备或修饰)的dsDNA或ssDNA。
如本文中所使用的,“扩增(amplify)”、“扩增(amplifying)”或“扩增反应”及其派生词通常指的是核酸分子的至少一部分藉以被复制或拷贝到至少一个另外的核酸分子的任何作用或过程。另外的核酸分子任选地包含与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可以是单链的或双链的,并且另外的核酸分子可以独立地是单链的或双链的。扩增任选地包括核酸分子的线性或指数复制。在一些实施方案中,这样的扩增可以使用等温条件进行;在其他实施方案中,这样的扩增可以包括热循环。在一些实施方案中,扩增是包括在单个扩增反应中同时扩增多个靶序列的多重扩增。在一些实施方案中,“扩增”包括单独地或以组合方式扩增基于DNA和RNA的核酸的至少一些部分。扩增反应可以包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中,扩增反应包括聚合酶链式反应(PCR)。
如本文中所使用的,术语“聚合酶链式反应”(“PCR”)指的是Mullis美国专利号4,683,195和4,683,202的方法,该Mullis美国专利描述了用于在未进行克隆或纯化的情况下增加基因组DNA的混合物中感兴趣的多核苷酸的区段的浓度的方法。用于扩增感兴趣的多核苷酸的该过程由以下步骤组成:将大量过量的两种寡核苷酸引物引入到包含期望的感兴趣的多核苷酸的DNA混合物中,随后是在DNA聚合酶的存在下进行一系列热循环。两种引物与它们相应的感兴趣的双链多核苷酸的链互补。首先将混合物在较高的温度变性,并且然后将引物退火至感兴趣的多核苷酸分子内的互补序列。在退火之后,用聚合酶使引物延伸以形成新的一对互补链。变性、引物退火和聚合酶延伸的步骤可以被重复许多次(被称为热循环),以获得高浓度的期望的感兴趣的多核苷酸的扩增区段。期望的感兴趣的多核苷酸的扩增区段(扩增子)的长度通过引物相对于彼此的相对位置来确定,并且因此,该长度是可控的参数。借助于重复该过程,所述方法被称为“聚合酶链式反应”(以下简称“PCR”)。由于期望的感兴趣的多核苷酸的扩增区段变成混合物中的主要核酸序列(在浓度方面),它们被称为“PCR扩增的”。在对上文所讨论的方法的修改中,靶核酸分子可以使用多个不同的引物对(在一些情况下,每个感兴趣的靶核酸分子使用一个或更多个引物对)进行PCR扩增,从而形成多重PCR反应。
如本文中所定义的,“多重扩增”指的是使用至少一种靶特异性引物选择性和非随机扩增样品中的两个或更多个靶序列。在一些实施方案中,进行多重扩增,使得靶序列中的一些或全部在单个反应容器中被扩增。给定的多重扩增的“重(plexy)”或“重(plex)”通常指的是在此单个多重扩增期间被扩增的不同靶特异性序列的数目。在一些实施方案中,重可以是约12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更高。通过若干种不同的方法学(例如,凝胶电泳,随后是密度测定法,用生物分析仪或定量PCR定量,与标记的探针杂交;生物素化引物的掺入,随后是亲和素-酶缀合物检测;将32P标记的脱氧核苷酸三磷酸(deoxynucleotide triphosphate)掺入到扩增的靶序列中)检测扩增的靶序列也是可能的。
如本文中所使用的,术语“引物”及其派生词通常指的是可以与感兴趣的靶序列杂交的任何多核苷酸。典型地,引物起基底的作用,核苷酸可以通过聚合酶被聚合在该基底上;然而,在一些实施方案中,引物可以变成被掺入到合成的核酸链中,并且提供另一个引物可以与其杂交以引发与合成的核酸分子互补的新链的合成的位点。引物可以包括核苷酸或其类似物的任何组合。在一些实施方案中,引物是单链的寡核苷酸或多核苷酸。
在多个实施方式中,引物具有可以通过核酸聚合酶被延伸的游离3′-OH基团。对于模板依赖性聚合酶,通常引物寡核苷酸的至少3'部分与模板核酸的部分互补,寡核苷酸通过与模板的氢键结合和其他分子力“结合”(或“络合”、“退火”或“杂交”)至所述模板核酸的部分,以给出用于起始通过DNA聚合酶的合成的引物/模板复合物,并且所述引物寡核苷酸在DNA合成的过程中通过添加与模板互补的共价结合的在其3'末端处连接的碱基而被延伸(即,“引物延伸”)。结果得到引物延伸产物。模板依赖性DNA聚合酶(包括逆转录酶)通常需要寡核苷酸引物与单链模板的络合来启动DNA合成(“引发”),但是RNA聚合酶通常不需要与DNA模板互补的用于RNA的合成(转录)的引物。
“模板”是通过核酸聚合酶诸如DNA聚合酶进行拷贝的核酸分子。无论核酸分子包含两条链(即,是“双链的”)还是仅包含一条链(即,是“单链的”),用于指定通过所合成的核酸展现出的核苷酸的序列的所述核酸分子的链是“模板”或“模板链”。通过核酸聚合酶所合成的核酸与模板互补。RNA和DNA两者总是从模板链的3'末端开始以5'-至-3'方向被合成,并且核酸双链体的两条链总是匹配,使得两条链的5'末端位于双链体的相对末端(并且必然地,然后3'末端也是如此)。对于RNA模板和DNA模板两者,需要引物来启动通过DNA聚合酶的合成,但是不需要引物来启动通过DNA依赖性RNA聚合酶的合成,该DNA依赖性RNA聚合酶通常被简单地称为“RNA聚合酶”。
术语“多核苷酸”和“寡核苷酸”在本文中可互换地使用,指的是任何长度的核苷酸的聚合形式,并且可以包含核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。在一些情况中,术语“多核苷酸”可以指的是具有相对大量的核苷酸单体的核苷酸聚合物,而术语“寡核苷酸”可以指的是具有相对少量的核苷酸单体的核苷酸聚合物。然而,除非指明,否则此区别在本文中不适用。而是,术语“多核苷酸”和“寡核苷酸”应当被理解为包括由核苷酸类似物制成的DNA或RNA的类似物作为等同物,并且适用于单链(诸如有义或反义)多核苷酸和双链多核苷酸。如本文所使用的术语也涵盖cDNA,即例如通过逆转录酶的作用从RNA模板产生的互补或拷贝DNA。该术语仅指分子的一级结构。因此,该术语包括三链、双链和单链脱氧核糖核酸(“DNA”),以及三链、双链和单链核糖核酸(“RNA”)。
此外,术语“多核苷酸”、“核酸”和“核酸分子”可互换地使用,并且指的是共价连接的核苷酸序列(即核糖核苷酸用于RNA,并且脱氧核糖核苷酸用于DNA),其中一个核苷酸的戊糖的3'位置通过磷酸二酯基团连接至下一个核苷酸的戊糖的5'位置。核苷酸包括任何形式的核酸的序列,包括但不限于RNA分子和DNA分子,诸如无细胞DNA(cfDNA)分子。术语“多核苷酸”包括但不限于单链多核苷酸和双链多核苷酸。
如本文中所使用的,术语“连接(ligating)”、“连接(ligation)”及其派生词通常指的是用于将两个或更多个分子共价连接在一起,例如将两个或更多个核酸分子彼此共价连接的过程。在一些实施方案中,连接包括连接核酸的相邻核苷酸之间的缺口。在一些实施方案中,连接包括在第一核酸分子的末端和第二核酸分子的末端之间形成共价键。在一些实施方案中,连接可以包括在一个核酸的5'磷酸基团和第二个核酸的3'羟基基团之间形成共价键,从而形成连接的核酸分子。通常为了本公开内容的目的,扩增的靶序列可以被连接至衔接子,以生成衔接子连接的扩增的靶序列。
如本文中所使用的,“连接酶”及其派生词通常指的是能够催化两个基底分子的连接的任何剂。在一些实施方案中,连接酶包括能够催化核酸的相邻核苷酸之间缺口的连接的酶。在一些实施方案中,连接酶包括能够催化一个核酸分子的5'磷酸与另一个核酸分子的3'羟基之间形成共价键,从而形成连接的核酸分子的酶。合适的连接酶可以包括但不限于T4 DNA连接酶、T4 RNA连接酶和大肠杆菌(E.coli)DNA连接酶。
如本文中所使用的,术语“衔接子”通常指的是可以被连接至核酸分子,从而生成可以在测序平台诸如各种Illumina测序平台上被测序的核酸产物的任何线性寡核苷酸。在一些实施方案中,衔接子包括形成双链结构的两种反向互补寡核苷酸。在一些实施方案中,衔接子包括两种寡核苷酸,该两种寡核苷酸在一个部分处互补并且在另一部分处错配,形成在互补部分处是双链的并且在错配部分处具有两个松软突出端的Y形衔接子或叉形衔接子。由于Y形衔接子具有互补的双链区域,所以它们可以被认为是双链衔接子的特殊形式。当本公开内容对比Y形衔接子和双链衔接子时,术语“双链衔接子”用于指具有完全地互补、基本上(例如,大于90%或95%)互补或部分地互补的两条链的衔接子。
在一些实施方式中,衔接子包含结合至测序引物(例如,SEQ ID NO:3和SEQ IDNO:5)的序列。在一些实施方式中,衔接子包含结合至流动池寡核苷酸诸如SEQ ID NO:7和SEQ ID NO:8(P7序列和P5序列)的序列或其反向互补物。
在一些实施方案中,衔接子与存在于样品中的任何靶序列的3'末端或5'末端基本上不互补。通常,衔接子可以包含核苷酸和/或核酸的任何组合。在一些方面中,衔接子可以在一个或更多个位置处包含一个或更多个可裂解的基团。在另一个方面中,衔接子可以包含与引物(例如通用引物)的至少一部分基本上相同或基本上互补的序列。在一些实施方案中,衔接子可以包含索引序列(也被称为条形码或标签),以帮助下游错误校正、鉴定或测序。
术语“通用衔接子”用于指具有一个或更多个通用序列的多个测序衔接子的衔接子。多个测序衔接子被配置成被附接至(例如,通过连接、杂交或转座)靶核酸,以在用于确定靶核酸的序列的测序过程中提供衔接子-靶多核苷酸。在一些实施方式中,测序过程中的所有通用衔接子是相同的,并且可以被附接至具有不同的特征诸如不同的样品来源、不同的生物体、不同的细胞类型等的靶核酸。在测序过程中,具有不同的索引序列的寡核苷酸或多核苷酸(例如,引物)在通用衔接子被附接至靶核酸之前、期间或之后被附接至通用衔接子。在一些实施方式中,将独特的索引序列或索引序列的独特组合应用于具有相同特征(例如,相同来源、相同生物体或相同细胞类型)的核苷酸并且与所述具有相同特征(例如,相同来源、相同生物体或相同细胞类型)的核苷酸相关联。当具有不同特征的靶核酸在测序过程中在测序反应中被合并/汇集时,索引序列提供了确定靶核酸的特征或对靶核酸的特征进行索引的机制。
用于对样品来源进行索引的索引序列是样品特异性序列。包含样品特异性索引序列的衔接子是样品特异性衔接子,而不是通用衔接子。在文献中,一些研究人员在其中将衔接子应用于多于一种类型的制备的文库的情况下使用通用衔接子,并且“通用”衔接子仍然具有样品特异性索引。除非如此指明,否则这样的“通用衔接子”的定义在本文中不适用。
如本文所使用的术语“流动池(flowcell)”或“流动池(flow cell)”指的是包含固体表面的室,一种或更多种流体试剂可以流过所述室。可以在本公开内容的方法中容易地使用的流动池和相关流体***和检测平台的实例在例如Bentley等人,Nature 456:53-59(2008);WO 04/018497;US 7,057,026;WO 91/06678;WO 07/123744;US 7,329,492;US 7,211,414;US 7,315,019;US 7,405,281和US 2008/0108082中描述,其每一个通过引用并入本文。
如本文中所使用的,术语“扩增子”当提及核酸使用时,意指拷贝核酸的产物,其中该产物具有与核酸的核苷酸序列的至少一部分相同或互补的核苷酸序列。扩增子可以通过使用核酸或其扩增子作为模板的多种扩增方法中的任何一种来产生,所述多种扩增方法包括例如聚合酶延伸、聚合酶链式反应(PCR)、滚环扩增(RCA)、连接延伸或连接链式反应。扩增子可以是具有特定核苷酸序列的单个拷贝(例如PCR产物)或核苷酸序列的多个拷贝(例如RCA的多联体(concatameric)产物)的核酸分子。靶核酸的第一扩增子典型地是互补拷贝。随后的扩增子是在生成第一扩增子之后从靶核酸或从第一扩增子产生的拷贝。随后的扩增子可以具有与靶核酸基本上互补或与靶核酸基本上相同的序列。
术语“配对末端(paired end)读段”指的是从配对末端测序获得的读段,该配对末端测序从核酸片段的每一个末端获得一个读段。配对末端测序涉及将DNA片段化成被称为***片段(insert)的序列。在一些方案诸如由Illumina使用的一些方案中,来自较短的***片段的读段(例如,约数十至数百bp)被称为短***片段配对末端读段或简单称为配对末端读段。相比之下,来自较长的***片段的读段(例如,约几千bp)被称为匹配对(matepair)读段。在本公开内容中,短***片段配对末端读段和长***片段匹配对读段都可以使用,并且关于用于确定DNA片段的序列的过程是没有区别的。因此,术语“配对末端读段”可以指短***片段配对末端读段和长***片段匹配对读段两者,这将在下文中进一步被描述。在一些实施方案中,配对末端读段包括约20bp至1000bp的读段。在一些实施方案中,配对末端读段包括约50bp至500bp、约80bp至150bp或约100bp的读段。
如本文中所使用的,术语“比对(alignment)”和“比对(aligning)”指的是将读段与参考序列进行比较,并且从而确定参考序列是否包含读段序列的过程。如本文中所使用的,比对过程试图确定读段是否可以被映射至参考序列,但是不总是导致与参考序列匹配的读段。如果参考序列包含读段,则该读段可以被映射至参考序列,或者在某些实施方案中,被映射至参考序列中的特定位置。在一些情况下,比对简单地判定读段是否是特定参考序列的成员(即,该读段是否存在或不存在于参考序列中)。例如,读段与人类染色体13的参考序列的比对将判定该读段是否存在于染色体13的参考序列中。
当然,比对工具具有生物信息学中的许多另外的方面和许多其他应用,其在本申请中没有被描述。例如,比对还可以用于确定来自两个不同物种的两个DNA序列的相似程度,从而提供它们在进化树上紧密相关程度的度量。
在一些情况下,比对另外地指示读段映射至参考序列中的位置。例如,如果参考序列是整个人类基因组序列,则比对可以指示读段存在于染色体13上,并且还可以指示读段处于染色体13的特定链和/或位点上。在一些情况下,比对工具是不完美的,因为a)没有找到所有有效的比对,以及b)一些获得的比对是无效的。这由于各种原因而发生,例如,读段可以包含错误,并且测序的读段可以由于单倍型差异而不同于参考基因组。在一些应用中,比对工具包括内置错配容忍度,该内置错配容忍度容忍一定程度的碱基对的错配,并且仍然允许读段与参考序列的比对。这可以有助于鉴定否则将错过的读段的有效比对。
本文所使用的术语“映射”指的是通过比对将读段序列分配到较大的序列,例如参考基因组。
术语“测试样品”在本文中指的是通常来源于生物流体、细胞、组织、器官或生物体的样品,该样品包含具有待被分析的至少一个核酸序列的核酸或核酸混合物。这样的样品包括但不限于痰/口腔液、羊水、血液、血液级分或细针活检样品、尿液、腹膜液、胸膜液等。尽管样品通常从人类受试者(例如,患者)获取,但是测定可以被用于来自任何哺乳动物(包括但不限于狗、猫、马、山羊、绵羊、牛、猪等)以及混合群体(如来自野生的微生物群体或来自患者的病毒群体)的样品。样品可以按从生物来源获得的原样直接地使用或在修改样品的特征的预处理之后使用。例如,这样的预处理可以包括从血液制备血浆、稀释粘性流体等。预处理的方法还可以包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、使干扰组分失活、试剂的添加、裂解等。如果关于样品采用这样的预处理的方法,则这样的预处理方法典型地使得感兴趣的核酸保留在测试样品中,有时以与未处理的测试样品(例如,也就是说未经受任何这样的预处理方法的样品)中的浓度成比例的浓度保留在测试样品中。关于本文中所描述的方法,这样的“处理的”或“加工的”样品仍然被认为是生物“测试”样品。
术语“下一代测序(NGS)”在本文中指的是允许克隆扩增的分子和单个核酸分子的大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止子的合成测序和连接测序。
术语“读段”指的是来自核酸样品的一部分的序列读段。典型地,尽管不是必需的,读段表示样品中连续的碱基对的短序列。读段可以通过样品部分的A、T、C和G的碱基对序列,连同碱基正确性的概率估计(质量评分)以符号方式表示。它可以被存储在存储器装置中,并且被酌情处理以确定它是否匹配参考序列或满足其他标准。读段可以从测序设备直接地获得,或者从存储的关于样品的序列信息间接地获得。在一些情况下,读段是足够长(例如,至少约20bp)的DNA序列,该DNA序列可以用于鉴定较大的序列或区域,例如,可以被比对和映射至染色体或基因组区域或基因。
术语“位点”和“比对位置”可互换地使用,指的是参考基因组上的独特位置(即染色体ID、染色***置和方向)。在一些实施方案中,位点可以是参考序列上的残基的位置、序列标签的位置或区段的位置。
如本文中所使用的,术语“参考基因组”或“参考序列”指的是任何生物体或病毒的任何特定已知的基因序列(无论是部分的还是完整的),所述基因序列可以用于作为来自受试者的鉴定的序列的参考。例如,用于人类受试者以及许多其他生物体的参考基因组可见于ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center forBiotechnology Information)。“基因组”指的是以核酸序列表示的生物体或病毒的完整遗传信息。然而,应当理解的是,“完整”是相对的概念,因为甚至金标准参考基因组被预期包含空位和错误。
在多个实施方案中,参考序列显著地大于与其比对的读段。例如,它可以大至少约100倍、或大至少约1000倍、或大至少约10,000倍、或大至少约105倍、或大至少约106倍、或大至少约107倍。
在一个实例中,参考序列是全长人类基因组的序列。这样的序列可以被称为基因组参考序列。在另一个实例中,参考序列被限于特定的人类染色体,诸如染色体13。在一些实施方案中,参考Y染色体是来自人类基因组版本hg19的Y染色体序列。这样的序列可以被称为染色体参考序列。参考序列的其他实例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。
当在核酸或核酸混合物的上下文中使用时,术语“来源于”在本文中指的是核酸藉以从其起源的来源获得的手段。例如,在一个实施方案中,来源于两种不同的基因组的核酸混合物意指核酸,例如cfDNA经由天然发生的过程诸如坏死或凋亡而由细胞天然地释放。在另一个实施方案中,来源于两种不同的基因组的核酸混合物意指核酸从来自受试者的两种不同类型的细胞提取。
术语“生物流体”在本文中指的是从生物来源获取的液体,并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、***、汗液、泪液、唾液等。如本文中所使用的,术语“血液”、“血浆”和“血清”明确地涵盖其级分或经处理的部分。类似地,在样品从活检、拭子、涂片等获取的情况下,“样品”明确地涵盖来源于活检、拭子、涂片等的经处理的级分或部分。
如本文所使用的术语“染色体”指的是活细胞的携带遗传特征的基因载体,其来源于包含DNA和蛋白质组分(特别是组蛋白)的染色质链。在本文中采用了常规的国际公认的个体人类基因组染色体编号***。
引言和背景
下一代测序(NGS)技术已经迅速地发展,为推进研究和科学以及依赖于遗传和相关的生物信息的医疗保健和服务提供了新的工具。NGS方法以大规模平行方式进行,提供了用于确定生物分子序列信息的越来越高的速度。索引序列已经在本领域中被用于对用于多重NGS测序的样品加标签或鉴定其来源。然而,许多NGS方法和相关的样品操作技术引入错误,使得所得到的序列具有相对高的错误率,范围为从几百个碱基对中的一个错误至几千个碱基对中的一个错误。当这样的错误在样品索引序列的读段中出现时,读段无法正确地与样品的来源相关联,并且可以引起读段和样品的来源之间的错误关联。
测序错误的一个来源与索引跳跃(index hopping)有关。当测序的DNA文库分子包含与文库制备期间文库衔接子中存在的索引序列不同的索引序列时,观察到索引跳跃或索引跳转(index jumping)。索引跳跃可以在样品制备期间或在汇集的多重文库的簇扩增期间出现。引起索引跳跃的一个机制涉及在文库制备之后呈现的游离未连接的衔接子分子的存在。
不意图受理论限制,索引跳转的问题具有多种模式,其中一些模式涉及从文库制备留下的残余未连接的衔接子分子的存在。一类索引跳转可以由文库池中存在的具有特定的通用引物延伸序列(例如,P7')的游离未连接的衔接子分子引起,这可以促成具有交换的索引物(indice)的文库的形成。该问题可以通过使用特异性地靶向P7'衔接子链的用于降解的5'外切核酸酶来预防。这样的措施使用生物化学方法解决了索引跳跃。一些实施方式使用如下文中进一步所描述的生物信息学方法校正索引跳跃。
一些测序平台使用一种颜色(例如,绿色激光)来测序两种碱基类型(例如,G/T),并且使用另一种颜色(例如,红色激光)来测序两种其他碱基类型(例如,A/C)。在这些平台中的一些平台上,在每个循环中,每个颜色通道的2个核苷酸中的至少1个需要被读取,以确保正确的图像配准。重要的是,维持正在被测序的索引读段的每个碱基的颜色平衡;否则索引读段测序可能由于配准失败而失败。这在低重测序期间尤其可能是一个问题,其中相对少量的索引序列使读取循环中的所有核苷酸更可能激活一种颜色。
在各种应用中,期望对索引板布局,使得用户可以在不牺牲流动池中寡核苷酸的颜色平衡的情况下,选择3个跨行的组(即,四分之一的行)或4个向下列的组(即,一半的列)或其他重布置诸如6重、8重和9重。
各种实施方式提供了以下优点中的至少一些优点。
使用短通用衔接子和索引引物的一些实施方式可以在不需要新的衔接子设计的情况下容易地放大规模至高样品数目。仅需要具有新的索引序列的新的索引引物。
使用短通用衔接子和索引引物的一些实施方式是成本有效的,在具有组合索引对的16x24多孔板中,对于384个样品涉及1个复杂部分而不是40个复杂部分。
因为寡核苷酸纯化是昂贵的,所以较短长度(例如,33bp相比于70bp)衔接子的处理更便宜并且提供更高的收率。此外,不同寡核苷酸的高效液相色谱(HPLC)纯化柱可以是跨项目共用的。
在一些实施方式中,通用衔接子可以用更简单的制造过程来制备。在涉及Y形衔接子和平末端衔接子的实施方式中,需要使2个寡核苷酸退火来制备一个通用衔接子。在涉及双链平末端A&B版本衔接子的实施方式中,需要使4个寡核苷酸退火以制备两个通用衔接子。
一些实施方式提供了更简单的质量控制(QC)过程。各种现有的过程和工具对于衔接子是全功能性的,包括重量分析法(寡核苷酸的称重)、OD、质谱法和用于索引引物的纯度测定。
测定性能可以由于较小的衔接子尺寸而被改善,导致增加的连接效率并且更有效地清除以去除二聚体(例如,使用SPRI珠)。
用于使用索引序列对核酸片段进行测序的工作流程
图1A-1C图示出了用于使用索引序列对核酸片段进行测序的示例性工作流程100和120。工作流程100和120仅是对一些实施方式的说明。应当理解的是,一些实施方式采用具有在这里未图示出的另外的操作的工作流程,而其他实施方式可以跳过在这里图示出的一些操作。例如,工作流程120被用于全基因组测序。在涉及靶向测序的一些实施方式中,杂交和富集某些区域的操作步骤可以在操作122和操作128之间被应用。此外,工作流程示出通过样品特异性的加索引的衔接子的连接来应用索引序列。可以应用转座体介导的衔接子。此外,可以替代地或另外地应用没有样品特异性序列的通用衔接子。
操作102将寡核苷酸应用于多个样品的核酸片段(或靶片段)的两个末端,寡核苷酸包含用于鉴定多个样品的来源的索引序列。在一些实施方式中,索引序列选自包括至少6个不同的索引序列的索引序列集,寡核苷酸的多个子集中的每一个子集包括索引序列集的多个索引序列。在一些实施方式中,索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2。索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤(A)碱基或胞嘧啶(C)碱基,和(ii)鸟嘌呤(G)碱基、胸腺嘧啶(T)碱基或尿嘧啶(U)碱基。
在一些实施方式中,操作102附接至从来源分离的双链靶片段的每一个末端,以产生衔接子-靶-衔接子分子。附接可以通过使用连接的标准文库制备技术,或者通过使用转座酶复合物的标签化(Gunderson等人,WO2016/130704)进行。在一些实施方式中,附接可以通过图1B中所示出的连接过程120来进行。
过程120涉及将多个样品的核酸片段化。在一些实施方式中,片段是尺寸例如小于1000bp的双链DNA。例如,DNA片段可以通过例如将基因组DNA片段化、收集天然片段化的DNA(例如,cfDNA或ctDNA)或从RNA合成DNA片段来获得。在一些实施方式中,为了从RNA合成DNA片段,将信使RNA或非编码RNA首先使用聚A(poly A)选择或核糖体RNA的耗尽来纯化,然后使用随机六聚体引发将所选择的mRNA化学地片段化并且转化成单链cDNA。生成cDNA的互补链以产生双链cDNA,该双链cDNA准备好用于文库构建。为了从基因组DNA(gDNA)获得双链DNA片段,将输入gDNA例如通过流体动力学剪切、雾化法(nebulization)、酶促片段化等进行片段化,以生成适当长度例如约1000bp、800bp、500bp或200bp的片段。例如,雾化法可以在短的时间段内将DNA分解成小于800bp的片段。该过程生成双链DNA片段。
在一些实施方式中,片段化或受损的DNA可以被处理而不需要另外的片段化。例如,***固定、石蜡包埋(FFPE)的DNA或某些cfDNA有时被足够地片段化,使得不需要另外的片段化步骤。
图1C示出了在图1B中的工作流程120的初始步骤中采用的DNA片段/分子和衔接子。尽管图1C中仅图示出一个双链片段,但是在工作流程中可以同时地制备样品的数千个至数百万个片段。通过物理方法的DNA片段化产生异质末端,包括3'突出端、5'突出端和平末端的混合物。突出端将具有变化的长度,并且末端可以被磷酸化或可以不被磷酸化。从将操作122的基因组DNA片段化获得的双链DNA片段的实例在图1C中显示为片段133。
片段133具有在左末端上的3'突出端和在右末端上所示的5'突出端两者。如果DNA片段通过物理方法来产生,则工作流程120继续进行末端修复操作124,这产生了具有5′-磷酸化末端的平末端片段。在一些实施方式中,该步骤使用T4 DNA聚合酶和克列诺酶(Klenowenzyme)将从片段化产生的突出端转化成平末端。这些酶的3′至5′外切核酸酶活性去除3′突出端,并且5′至3′聚合酶活性填充5′突出端。此外,T4多核苷酸激酶在该反应中使DNA片段的5′末端磷酸化。图1C中的片段135是末端修复的平末端产物的实例。
在末端修复之后,工作流程120继续进行操作126以将片段的3'末端腺苷酸化,这也被称为A-加尾或dA-加尾,因为单个dATP被添加至平末端片段的3'末端以防止它们在衔接子连接反应期间彼此连接。图1C的双链分子137示出了具有平末端的A-加尾的片段,该双链分子137具有3′-dA突出端和5′-磷酸末端。如图1C的条目139中所看到的,在两个测序衔接子的每一个的3'末端上的单个“T”核苷酸提供了与***片段的每一个末端上的3'-dA突出端互补的突出端,以用于将两个衔接子连接至***片段。
在将3'末端腺苷酸化之后,工作流程120继续进行操作128,以将寡核苷酸(例如衔接子)连接至多个样品的片段的两个末端。寡核苷酸包括用于鉴定多个样品的来源的索引序列。
图1C的条目139图示出了待被连接至双链片段的两个衔接子,该衔接子包含两个索引序列i5和i7。索引序列提供了鉴定多个样品的来源的手段,从而允许在测序平台上使多个样品多重化。可以应用其他索引序列。P5寡核苷酸和P7'寡核苷酸与结合至Illumina测序平台的流动池的表面的扩增引物互补,并且也被称为扩增引物结合位点。它们允许衔接子-靶-衔接子文库经历桥式扩增。衔接子和测序平台的其他设计可以被用于各种实施方式。衔接子和测序技术在以下的部分中进一步被描述。衔接子还包含两个序列引物结合序列SP1(例如,Illumina的SBS3引物,用于读取i5索引序列)和SP2(例如,SBS12’)。其他测序引物结合序列可以被包含在用于不同的反应和平台的衔接子中。
回到图1A,过程100继续进行以汇集来自多个样品的核酸片段以用于测序反应。参见模块104。包含索引序列的索引寡核苷酸被附接至该片段,所述索引序列以对作为样品的来源特异性的方式被应用。用于汇集样品的各种技术在下文中被进一步描述。
在一些实施方式中,该连接反应的产物通过琼脂糖凝胶电泳或磁珠进行纯化和/或尺寸选择。然后对经尺寸选择的DNA进行PCR扩增,以富集两个末端上具有衔接子的片段。参见模块106。如上文提及的,在一些实施方式中,杂交和富集DNA片段的某些区域的操作可以被应用以靶向用于测序的区域。
然后,工作流程100继续进行以例如在Illumina平台上对PCR产物进行簇扩增。参见操作108。通过PCR产物的聚簇,可以将文库汇集用于多重化,例如,每个泳道具有96个或更多个样品,在衔接子上使用不同的索引序列来追踪不同的样品。设想了1536种多重化技术。
在簇扩增之后,测序读段可以通过在Illumina平台上的合成测序来获得。参见操作110。所获得的读段包含靶序列和索引序列的读段。尽管在这里所描述的衔接子和测序过程基于Illumina平台,但是也可以使用其他测序技术,尤其是NGS方法代替Illumina平台或除了Illumina平台之外,也可以使用其他测序技术,尤其是NGS方法。最后,工作流程100基于与样品相关联的索引序列来确定靶序列的样品来源。参见操作112。
图1D图示出了用于对来源于多个样品的靶核酸进行测序的过程150。过程150涉及通过使多个索引多核苷酸与来源于样品的靶核酸接触来将索引序列应用于多个样品的靶核酸,以生成多个索引-靶多核苷酸。在一些实施方式中,多个索引多核苷酸包括DNA或RNA。每个样品与独特的索引序列或索引序列的独特组合相关联。参见模块152。在一些实施方式中,多个索引多核苷酸包含样品特异性衔接子,该样品特异性衔接子包含与每个样品独特地相关联的索引序列。图1C、图2A和图2B图示出了使用样品特异性衔接子的实施方式。在其他实施方式中,多个索引多核苷酸包含可以与附接至靶核酸的通用衔接子杂交的索引引物。图1C、图1K、图2C和图2D图示出了使用索引引物和通用衔接子的一些实施方式。
在一些实施方式中,将索引引物应用于多个样品的靶核酸可以通过图1F中所图示出的过程160或图1K中所图示出的过程199的后半部分来完成。图1E和图1F示出了进行转座体介导的片段化并且将索引引物应用于具有被附接至两个末端的双链短通用衔接子的核酸的过程。
过程160涉及提供来源于多个样品的多个双链核酸分子。双链核酸166(例如,DNA)是双链核酸分子中的一个的示意图。过程160还涉及提供多个转座体复合物。每一个转座体复合物包含转座酶和两个转座子末端组合物。元件161-165形成转座体复合物。在这里图示出了三个转座体复合物169a-169c。转座体复合物169a包含转座酶161和两个转座子末端组合物。转座子末端序列双链体162和5'标签163形成一个转座子末端组合物。转座子末端序列双链体164和5'标签165形成另一个转座子末端组合物。转座子末端序列双链体162和164包含共同地被称为MEDS的两条序列链。MEDS双链体的一条链包含SEQ ID NO:1的序列,其将从转座体复合物转移到靶DNA并且被称为转移链。MEDS的另一条链包含SEQ ID NO:2的转座子末端序列,其不被转移到靶核酸并且被称为非转移链。在转移链的5'末端处,转座子末端组合物包含5'标签165。在一些实施方式中,该5'标签是序列引物结合序列SP1,所述序列引物结合序列SP1在被转座到靶核酸之后在靶核酸上提供序列结合位点。转座子末端双链体MEDS 162和5'标签163形成另一个转座子末端组合物。转座子末端组合物的转移链的5'末端是5'标签序列163,所述5'标签序列163提供序列引物结合序列SP2。
类似地,转座体复合物169b和196c包含与转座体复合物169a相同的组分。例如,转座体复合物169b包含两个转座子末端组合物,其中一个包含转座子末端双链体162b和5'标签163b(SP2)。
过程160涉及在允许用合适浓度的转座子复合物和DNA分子的转座反应的条件下孵育DNA片段和转座体复合物。转座体复合物中的转座酶在由黑色三角形167a-167f所指示的随机位点处消化双链核酸166。消化将双链核酸分子166分成包括片段168a-168d的多个片段。
转座酶还将MEDS双链体的转移链转座到消化位点(167a-167f)中的核酸片段的5'末端。在片段化和转座之后,片段168b的顶部链的5'末端具有转座并附接至5'末端的MED双链体(164)的转移链。在转移链的5'末端存在对应于测序引物结合序列SP1的5'标签(165)。在双链靶片段168b的每一个3'末端,在MEDS转座子末端序列的非转移链和靶片段之间存在空位。在片段化和转座之后,形成四个片段(170a-170d)。四个片段中的两个,170b和170c,在两个末端上具有MEDS双链体,所述MEDS双链体具有5'标签。片段中的两个(170a和170d)仅在一个末端上具有转座子末端组合物,这在下游测序反应中不被处理。在一些实施方式中,在靶DNA片段被形成和被加标签之后,添加具有链置换或5′-至-3′外切核酸酶活性的DNA聚合酶,以延伸靶核酸的3′末端。
图1F示出了由转座体介导的片段化产生的DNA片段的另外的下游过程,以获得在两个末端上具有双链通用衔接子的靶核酸片段。该图还示出了索引序列(i5索引序列和i7索引序列)和流动池扩增引物结合序列(P5序列和P7序列)的添加。在添加具有链置换或5′-至-3′外切核酸酶活性的聚合酶之后,靶核酸的3′末端被延伸,并且MEDS双链体的非转移链被去除(参见箭头173a和173b,其指示靶核酸片段的3′末端的延伸)。延伸填补了靶核酸的3′末端和MEDS双链体的非转移链之间的空位。延伸还生成与5′标签互补的核苷酸。结果是,形成侧翼为MEDS序列和测序引物结合序列的双链靶核酸片段,其具有两条互补链174和175a。双链核酸包含两个双链短通用衔接子,每一个衔接子包含测序引物序列和MEDS序列。在一些实施方式中,双链核酸具有图1G中所示出的核苷酸。
图1G示出了具有附接至两个末端的双链短通用衔接子的靶核酸的序列。测序引物结合序列SP1具有在顶部链处的序列TCGTCGGCAGCGTC(SEQ ID NO:3)和在底部链处的反向互补物(GACGCTGCCGACGA(SEQ ID NO:4)。MEDS双链体具有SEQ ID NO:1和SEQ ID NO:2的序列。测序引物结合序列(SP2)具有在顶部链处的序列CCGAGCCCACGAGAC(SEQ ID NO:5)和在底部链处的反向互补物GTCTCGTGGGCTCGG(SEQ ID NO:6)。
图1I示出了i7索引引物中的序列。在一些实施方式中,i7索引引物(例如,178a)从5′至3′具有P7流动池扩增引物结合序列CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO:7)、i7索引序列和SP2测序引物结合序列GTCTCGTGGGCTCGG(SEQ ID NO:6)。
图1J示出了i5索引引物中的序列。在一些实施方式中,i5索引引物(例如,176a)从5′至3′具有P5流动池扩增引物结合序列AATGATACGGCGACCACCGAGATCTACAC(SEQ ID NO:8)、i5索引序列和SP1测序引物结合序列TCGTCGGCAGCGTC(SEQ ID NO:3)。
在其他实施方式中,具有Y形通用衔接子的靶***片段可以在诸如图1K中所示出的过程中被使用。图1H示出了根据一些实施方式的具有附接至两个末端的Y形短通用衔接子的靶核酸的序列。Y形通用衔接子具有在5′臂处的序列TCGTCGGCAGCGTC(SEQ ID NO:3)和在3′臂处的序列CCGAGCCCACGAGAC(SEQ ID NO:5)。
过程160还涉及使在两个末端上具有双链短通用衔接子的双链核酸片段变性。它还涉及添加与变性的核酸片段杂交的引物(176a)和核酸酶。如图中所示出的,底部链175a被进一步处理。引物(176a)包含在5′末端处的P5流动池扩增引物结合位点、在P5序列的下游的i5索引序列和SP1。该多核苷酸也被称为索引引物。索引引物在SP1引物结合位点处与单链核酸175b杂交。聚合酶使索引引物176a的3′末端延伸,以使用片段175b作为模板形成延伸的单链核酸片段。所得到的核酸片段被显示为176b。然后,所述过程进一步添加引物和聚合酶以进一步延伸片段176b。在该反应中添加的引物包含在5′的P5流动池扩增引物结合位点、在P7序列的3′的i7索引序列和SP2测序引物结合序列。然后索引引物序列178的3′末端使用单链核酸176b作为模板被延伸。此外,核酸176b的3′末端也使用索引引物178a作为模板被延伸。结果,形成双链核酸片段,其中一条链176c从片段176b延伸,并且另一条链178b从索引引物178a延伸。最终的双链核酸片段在顶部链(176c)中从5′至3′方向包含P5流动池扩增引物结合位点、i5序列、SP1测序引物结合序列、MEDS序列、靶序列、MEDS序列、SP2序列、i7序列和P7′序列。该最终的双链核酸片段形成用于测序平台诸如Illumina的SBS平台的文库片段。
根据过程160,一些实施方式提供了一种用于对来源于多个样品的靶核酸进行测序的方法。所述方法包括:(a)提供来源于多个样品的多个双链核酸分子;(b)提供多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物;(c)将双链核酸分子与转座体复合物一起孵育以获得双链核酸片段,其中双链核酸片段在一个或两个末端处包含从转座子末端组合物转座的序列;(d)使多个索引引物与双链核酸片段接触以生成多个索引-片段多核苷酸,其中与来源于每个样品的双链核酸片段接触的索引引物包含与该样品独特地相关联的索引序列或索引序列的组合,并且索引序列或索引序列的组合选自索引序列集;(e)汇集多个索引-片段多核苷酸;(f)对汇集的索引-片段多核苷酸进行测序,从而获得索引序列的索引读段和靶序列的多个靶读段,每一个靶读段与至少一个索引读段相关联;以及(g)使用索引读段来确定靶读段的样品来源。
在一些实施方式中,至少一种转座体复合物包含Tn5转座酶和Tn5转座子末端组合物。在一些实施方式中,至少一种转座体复合物包含Mu转座酶和Mu转座子末端组合物。一些实施方式包括Tn5转座酶和Mu转座酶两者以及转座子末端组合物。
图1K示出了向在两个末端具有Y形短通用衔接子的靶核酸添加索引序列的过程199。过程199类似于图1E的过程160,其使用具有附接至两个末端的双链短通用衔接子的靶核酸片段。在过程199中,使用具有附接至两个末端的Y形短衔接子的靶核酸。因为Y形衔接子的两条链具有两个不同的测序引物结合序列,所以核酸的两条链均可以被用于生成下游片段,该下游片段可以在测序平台上被测序。相比之下,在使用双链衔接子的实施方式中,双链核酸的产物的仅一条链可以被用于测序。
根据图1H-1J中所图示出的实施方式,示出Y形衔接子和索引引物的核酸序列。在该过程的开始示出了具有附接至两个末端的两个Y形短通用衔接子的双链核酸。双链核酸包含顶部链190和底部链191。在顶部链190的3′末端示出封闭部分198,当添加聚合酶时该封闭部分198阻断核酸延伸。尽管图中仅示出一个封闭基团,但是在一些实施方式中,另外的封闭基团可以被应用于双链核酸的其他末端。
可以实施各种封闭剂。一种可能的封闭剂形式包括硫代磷酸酯(PS)键。硫代磷酸酯(PS)键用硫原子取代寡核苷酸的磷酸骨架中的非桥氧。大约50%的时间(由于可以形成的2种所得到的立体异构体),PS修饰使得核苷酸间键合对核酸酶降解更耐受。因此,建议在5′寡核苷酸末端和3′寡核苷酸末端处至少包括3个PS键以抑制外切核酸酶降解。在整个寡核苷酸中包括PS键也将帮助减少被内切核酸酶攻击,但是也可能增加毒性。
另一种可能的封闭剂形式包括反向dT和反向ddT。反向dT可以在寡核苷酸的3′末端处被掺入,导致3′-3′键合,该3′-3′键合将抑制通过3′外切核酸酶的降解和通过DNA聚合酶的延伸。此外,在寡核苷酸的5′末端处放置反向的2′,3′双脱氧-dT碱基(5′反向ddT)防止假连接,并且可以保护免受一些形式的酶促降解。
另一种可能的封闭剂形式包括磷酸化。寡核苷酸的3′末端的磷酸化将抑制通过一些3′外切核酸酶的降解。
另一种可能的封闭剂形式包括LNA,其中xGen锁核酸修饰防止内切核酸酶消化和外切核酸酶消化。
顶部链190从5′至3′包含SP1序列、MEDS序列、靶***片段、MEDS序列和SP2序列。底部链191从3′至5′包含SP2序列、MEDS序列、靶***片段、MEDS序列和SP1序列。过程199使双链核酸变性,并且将引物和聚合酶添加至核酸。索引引物192a与SP2引物结合序列杂交,并且使用单链片段190作为模板进行延伸。单链核酸190的3′末端不延伸,因为它被封闭基团198封闭。在延伸之后,获得包含顶部链190和底部链192b的双链结构。然后,将双链核酸再次变性。过程199将引物和聚合酶添加至反应混合物。添加i5索引引物194a,其与SP1杂交。i5索引引物194a从5′至3′包含P5序列、i5索引序列和SP1引物结合序列。i5索引引物与单链核酸192C的SP1序列杂交。然后,PCR反应延伸i5索引引物194a的3′末端,以及单链片段192c的3′末端。在聚合酶延伸之后,获得双链核酸,该双链核酸包含顶部链194b和底部链192d。顶部链194b从5′至3′包含P5流动池扩增引物结合序列、i5索引序列、SP1测序引物结合序列、MEDS序列、靶序列、MEDS序列、SP2测序引物结合序列、i7索引序列和P7′流动池扩增引物结合序列。该双链核酸包含Illumina测序平台上的扩增和测序反应所需的序列。
回到图1D,过程150涉及将索引序列应用于多个样品的靶核酸。在一些实施方式中,这通过使多个索引多核苷酸与来源于多个样品的靶核酸接触以生成多个索引-靶多核苷酸来实现。在一些实施方式中,与来源于每个样品的靶核酸接触的索引多核苷酸包含与该样品独特地相关联的索引序列或索引序列的组合。索引序列或索引序列的组合选自索引序列集。索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2。
在一些实施方式中,索引序列集包括多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)A碱基或C碱基,和(ii)G碱基、T碱基或U碱基。在一些实施方式中,索引序列集包括至少六个不同的索引序列。
在一些实施方式中,多个索引多核苷酸包括可以与通用衔接子杂交的索引引物。在一些实施方式中,多个索引引物包含索引序列集的索引序列。在一些实施方式中,每一个索引引物还包含流动池扩增引物结合序列。在一些实施方式中,流动池扩增引物结合序列包括P5序列或P7′序列。参见图2C和图2D。在一些实施方式中,来源于多个样品的靶核酸包括具有共价地附接至一个或两个末端的通用衔接子的核酸。参见图1F中具有顶部链174和底部链175a的核酸和图1K中具有顶部链190和底部链191的核酸。
在一些实施方式中,使多个索引多核苷酸与来源于多个样品的靶核酸接触包括:使多个索引引物与共价地附接至核酸的一个或两个末端的通用衔接子杂交;以及使多个索引引物延伸以获得多个索引-衔接子-靶多核苷酸。在一些实施方式中,通用衔接子和靶核酸是双链的,并且使多个索引引物与通用衔接子杂交包括使多个索引引物与通用衔接子的仅一条链杂交。
在一些实施方式中,通用衔接子和靶核酸是双链的,并且使多个索引引物与通用衔接子杂交包括使多个索引引物与通用衔接子的两条链杂交。参见图1F和图1K。
在一些实施方式中,与通用衔接子的第一链杂交的索引引物包含选自索引序列集中的第一子集的索引序列,并且与通用衔接子的第二链杂交的索引引物包含选自索引序列集中的第二子集的序列,第一子集与第二子集不重叠。在一些实施方式中,第一子集包括表1中列出的索引序列,并且第二子集包括表2中列出的索引序列。在一些实施方式中,与通用衔接子的两条链杂交的索引引物包含选自索引序列集中的相同子集的索引序列。在一些实施方式中,索引序列的子集选自表3中的索引序列的子集之一。
在一些实施方式中,通用衔接子包括双链衔接子。参见,例如,图2D。在一些实施方式中,通用衔接子包括Y形衔接子。参见,例如,图2C。在一些实施方式中,通用衔接子包括单链衔接子。在一些实施方式中,通用衔接子包括发夹衔接子。在一些实施方式中,通用衔接子中的每一个在被附接至核酸之前在待被附接至该核酸的一个末端处包含突出端。在一些实施方式中,突出端是T突出端。参见图1C和图2A-2C。在一些实施方式中,通用衔接子中的每一个在被附接至核酸之前包含待被附接至该核酸的平末端。参见图2D。
在一些实施方式中,所述方法包括,在将索引序列应用于靶核酸之前,将通用衔接子附接至核酸的一个或两个末端。在一些实施方式中,附接包括通过转座体介导的片段化附接通用衔接子。
在一些实施方式中,附接包括将通用衔接子连接至核酸的一个或两个末端。在一些实施方式中,连接包括酶促连接或化学连接。
在一些实施方式中,附接是通过用包含通用衔接子序列的靶特异性引物的扩增进行的。在一些实施方式中,通用衔接子序列在引物的末端处。
一些实施方式应用包含样品特异性衔接子的多个索引多核苷酸。衔接子包含索引序列集的索引序列。参见图1C和图2A-2C。在一些实施方式中,样品特异性衔接子包含两条链。在一些实施方式中,仅一条链包含索引序列。在一些实施方式中,样品特异性衔接子的每条链包含索引序列。在一些实施方式中,样品特异性衔接子的第一链包含选自索引序列集的第一子集的索引序列,并且样品特异性衔接子的第二链包含选自索引序列集的第二子集的索引序列,第一子集与第二子集不重叠。在一些实施方式中,索引序列的第一子集包括表1中列出的索引序列,并且第二子集包括表2中列出的索引序列。在一些实施方式中,样品特异性通用衔接子的第一链和第二链包含选自索引序列集中的相同子集的索引序列。在一些实施方式中,索引序列的子集选自表3中的索引序列的子集之一。
在一些实施方式中,每一个样品特异性衔接子包含流动池扩增引物结合序列。参见图1C、图2A和图2B。在一些实施方式中,流动池扩增引物结合序列包括P5序列或P7′序列。
在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括通过转座体介导的片段化将样品特异性衔接子附接至靶核酸。在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括将样品特异性衔接子连接至靶核酸。在一些实施方式中,连接包括酶促连接或化学连接。在一些实施方式中,化学(chemical)连接包括化学反应(chemistry)连接。
在一些实施方式中,样品特异性衔接子包括具有互补的双链区域和错配的单链区域的Y形衔接子。在一些实施方式中,样品特异性衔接子的每条链在错配的单链区域处包含索引序列。在一些实施方式中,样品特异性衔接子的仅一条链在错配的单链区域处包含索引序列。在一些实施方式中,样品特异性衔接子包括单链衔接子。在一些实施方式中,样品特异性衔接子包括发夹衔接子。在一些实施方式中,使多个索引多核苷酸与靶核酸接触涉及将多个索引多核苷酸附接至靶核苷酸的两个末端。
在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括将多个索引多核苷酸附接至靶核酸的两个末端。在一些实施方式中,使多个索引多核苷酸与靶核酸接触包括将多个索引多核苷酸附接至靶核酸的仅一个末端。
在一些实施方式中,与样品独特地相关联的索引序列的组合是索引序列的有序组合。
在一些实施方式中,索引序列集包括索引序列的多个不重叠的子集,任何子集中的任何两个索引序列之间的汉明距离不小于第二标准值,其中第二标准值大于第一标准值。在一些实施方式中,第一标准值为4,并且第二标准值为5。在一些实施方式中,第一标准值为3。在一些实施方式中,第一标准值为4。索引序列集的各种其他设计可以如下文中进一步所描述的被应用。
在一些实施方式中,过程150包括在将索引序列应用于多个样品的靶核酸之前,将从多个样品获得的核酸分子片段化以获得靶核酸。在一些实施方式中,片段化包括转座体介导的片段化,诸如图1E中所示出的过程。
在一些实施方式中,片段化是与靶向感兴趣的序列的多个PCR引物接触,以获得包含感兴趣的序列的靶核酸。
过程150涉及在获得多个索引-靶多核苷酸之后,将多个索引-靶多核苷酸汇集。参见模块154。在一些实施方式中,过程150还包括在对多核苷酸进行测序之前扩增汇集的索引-靶多核苷酸。
在一些实施方式中,过程150还涉及对汇集的索引-靶多核苷酸进行测序,以获得索引序列的多个索引读段和靶序列的多个靶读段,每一个靶读段与至少一个索引读段相关联。参见模块156。
过程150还涉及使用索引读段来确定靶读段的样品来源。在一些实施方式中,这通过包括以下步骤的方法来实现:对于每一个索引读段,获得关于索引序列集的比对评分,每一个比对评分指示该索引读段的序列和索引序列集的索引序列之间的相似性;基于比对评分确定索引读段与特定索引序列的匹配;以及确定与特定索引读段相关联的靶读段来源于与特定索引序列独特地相关联的样品。
索引序列设计
在多个实施方式中,考虑到各种因素,包括但不限于用于检测索引序列内的错误的手段、转化效率、测定兼容性、GC含量、均聚物和制造考虑来鉴定索引序列或寡核苷酸。
例如,索引序列可以被设计成提供用于促进错误检测的机制。图3示意性地图示出了索引寡核苷酸设计,该索引寡核苷酸设计提供用于在测序过程期间检测索引序列中出现的错误的机制。根据该设计,索引序列中的每一个具有六个核苷酸,并且与所有其他索引序列相差至少两个核苷酸。如图3中所图示出的,索引序列344与索引序列342在从左侧起的前两个核苷酸中不同,如通过索引序列344中加下划线的核苷酸T和核苷酸G以及索引序列342中的核苷酸A和核苷酸C所示出的。索引序列346是被鉴定为读段的一部分的序列,并且它不同于该过程中提供的衔接子的所有其他索引序列。由于读段中的索引序列按照推测来源于衔接子中的索引序列,所以错误可能已经在测序过程期间诸如在扩增或测序期间发生。索引序列342和索引序列344被图示为与读段中的索引序列346最相似的两个索引序列。可以看到,索引序列346与索引序列342在从左侧起第一个核苷酸中相差一个核苷酸,该核苷酸是T而不是A。此外,索引序列346也与索引序列344相差一个核苷酸(尽管在从左侧起的第二个核苷酸中),该核苷酸是C而不是G。因为读段中的索引序列346与索引序列342和索引序列344两者均相差一个核苷酸,所以从所图示的信息中,不能够确定索引序列346是否来源于索引序列342或索引序列344。然而,在许多其他情况下,读段中的索引序列错误与两个最相似的索引序列不会具有同等地差异。如对于索引序列348的实例中所示出的,索引序列342和索引序列344也是与索引序列348最相似的两个索引序列。可以看出,索引序列348与索引序列342在从左侧起的第三个核苷酸中相差一个核苷酸,该核苷酸是A而不是T。相比之下,索引序列348与索引序列344相差三个核苷酸。因此,可以确定索引序列348来源于索引序列342而不是索引序列344,并且错误可能在从左侧起的第三个核苷酸中发生。通过控制索引序列之间的差异水平(例如,如通过汉明距离或编辑距离所度量的),一些实施方式提供用于鉴定多个样品来源的索引寡核苷酸,其中测序错误、样品处理错误和其他错误可以通过将索引序列读段分配给紧密匹配的索引序列和与紧密匹配的索引序列相关联的样品来校正。
一些实施方式将i5-i7索引对应用于多个样品,其中每一个有序的索引对是独特的。完整索引序列集中的任何两个索引序列之间的汉明距离被控制为高于阈值。在一些实施方式中,有序的索引对之间的汉明距离也被控制为高于阈值。此外,在一些实施方式中,索引序列之间的编辑距离也被控制。索引寡核苷酸的这些和其他要素允许通过鉴定错误来检测和校正索引跳跃,否则所述错误将是不明确的和不可校正的。
编辑距离的一个典型的计算是Levenshtein距离,其中每次***、缺失或取代将被视为单个编辑操作,并且相等地进行评分。考虑“ACTGACTA”和“ACTACTAA”的情况。在这种情况下,Levenshtein编辑距离将为2,如下面的比对中所示出的。
ACTGACTA-
ACT-ACTAA
然而,在索引序列的情况下,这可能低估了这两个序列之间的真实距离。实际上,索引序列将通过来自周围衔接子的碱基被延伸。如果来自周围衔接子的碱基恰巧匹配另一个索引序列,这实际上将仅需要单个缺失事件将一个索引序列转换成另一个索引序列。此外,索引可以以相反方向读取,在这种情况下,另外的衔接子序列可以在索引的5′末端处出现。虽然查看预期的衔接子序列以了解发生这种情况的可能性是可能的,但是这将使索引序列仅在特定衔接子的背景中有效。更确切地说,生成自定义编辑距离,该自定义编辑距离始终假定相邻的衔接子序列将匹配衔接子。在该自定义编辑距离中,仅允许单个***/缺失事件。编辑距离阈值为3意味着不允许索引对,其中单个缺失+取代可以将一个索引序列转换成另一个索引序列。
在一些实施方式中,编辑距离是修改的Levenshtein距离,其中末端空位不被分配罚分。通过引用以其整体并入本文的美国临时专利申请号62/447,851描述了确定核酸序列的修改的Levenshtein距离的多种方法。
索引寡核苷酸、衔接子和引物
除了参考上文的图1A-1C在示例工作流程100中所描述的衔接子设计之外,索引寡核苷酸的其他设计可以在本文所公开的方法和***的各个实施方式中使用。
图2A-2D示出了索引寡核苷酸的多个实施方式。尽管衔接子通过各种组分标记,但是它们可以包含未标记出的另外的组分,诸如另外的引物结合位点或者裂解或消化位点。图2A示出了标准Illumina双索引衔接子。该衔接子是部分双链的,并且通过将对应于两条链的两个寡核苷酸退火来形成。两条链具有许多互补的碱基对(例如,12-17bp或6-34bp),该互补的碱基对允许两个寡核苷酸在待与dsDNA片段连接的末端处退火。待在两个末端上被连接以获得配对-末端读段的dsDNA片段也被称为***片段。在两条链上的其他碱基对不匹配(不互补),导致具有两个松软突出端的叉形衔接子或Y形衔接子。
在具有5′松软突出端的链(顶部链)上,从5′至3′方向,衔接子具有P5序列、i5索引序列和测序引物结合序列SP1(例如,SBS3)。在具有3′松软突出端的链上,从3′至5′方向,衔接子具有P7′序列、i7索引序列和SP2测序引物结合序列(例如,SBS12’)。P5寡核苷酸和P7′寡核苷酸与结合至测序平台的流动池的固相的扩增引物互补。它们也被称为扩增引物结合位点、区域或序列。在一些实施方式中,索引序列提供追踪样品来源的手段,从而允许测序平台上多个样品的多重化。
互补碱基对是测序引物结合序列SP1和SP2的一部分。SP1引物序列(例如,SBS3)的下游是单核苷酸3′-T突出端,其提供与待被测序的dsDNA片段的单核苷酸3′-A突出端互补的突出端,这可以有助于两个突出端的杂交。测序引物结合序列SP2(例如,SBS12′)位于互补链上,磷酸基团被附接至该互补链的上游。磷酸基团有助于将SP2序列的5′末端连接至DNA片段的3′-A突出端。
如在其中索引序列选自索引序列集的一些实施方式中,衔接子的每条链包含选自该索引序列集诸如在表1-3中所示出的和在本文别处所描述的集的索引序列。在一些实施方式中,寡核苷酸集中的每一个双链测序衔接子包含第一链和第二链,所述第一链包含选自索引序列集中的第一子集的索引序列,所述第二链包含选自索引序列集中的第二子集的索引序列。第一子集与第二子集不重叠。在一些实施方式中,索引序列的第一子集包括表1中列出的索引序列,并且索引序列的第二子集包括表2中列出的索引序列。
表1.包括子集(索引组0-3)的I7索引集
Figure BDA0002336238860000531
Figure BDA0002336238860000551
表2.包括子集(索引组0-3)的I5索引集
Figure BDA0002336238860000552
Figure BDA0002336238860000561
在一些实施方式中,衔接子的第一链上的索引序列和衔接子的第二链上的索引序列都选自索引序列集的多个子集中的相同子集。在一些实施方式中,索引序列的子集是表3中索引序列的子集(通过板号标记)之一。
表3.包括子集的I5和I7索引集(板1-4)
Figure BDA0002336238860000571
Figure BDA0002336238860000581
Figure BDA0002336238860000591
被包含在寡核苷酸集中的索引序列集包括多个独特的索引序列。在一些实施方式中,索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为2或更大。索引序列集包含多对颜色平衡的索引序列。每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)A碱基或C碱基,和(ii)G碱基、T碱基或U碱基。在一些实施方式中,第一标准值为3。在一些实施方式中,第一标准值为4。
在一些实施方式中,索引序列集包括索引序列的多个不重叠的子集,诸如表1-3中所示出的子集。在这些子集中,任何两个索引序列之间的汉明距离不小于第二标准值。在一些实施方式中,第二标准值大于第一标准值。在一些实施方式中,第一标准值为4,并且第二标准值为5。
在一些实施方式中,寡核苷酸包含在其3′末端上的索引序列和在其5′末端上的索引序列。在这样的实施方式中,寡核苷酸可以是具有附接至两个末端的衔接子的单链核酸片段。它可以是例如从图1C中所示出的衔接子-靶-衔接子构建体140获得的变性片段。
在一些实施方式中,索引序列集中的任何两个索引序列之间的编辑距离不小于第三标准值。在一些实施方式中,第三标准值为3。在一些实施方式中,编辑距离是修改的Levenshtein距离,其中末端空位不被分配罚分。通过引用以其整体并入本文的美国专利申请号15/863,737描述了确定核酸序列的修改的Levenshtein距离的多种方法。
在一些实施方式中,索引序列集中的每一个索引序列具有8个碱基;第一标准值为3;并且第三标准值为2。在一些实施方式中,索引序列集包含在下文中在实施例2下列出的序列。在一些实施方式中,索引序列集中的每一个索引序列具有10个碱基;第一标准值为4;并且第三标准值为3。在一些实施方式中,索引序列集包含在下文中在实施例3下列出的序列。
从生物信息学的角度,较长的寡核苷酸可以提供满足各种感兴趣的约束诸如编辑距离或汉明距离的更多候选物。然而,较长的寡核苷酸更难以制造,并且将导致不期望的反应(诸如通过自杂交、交叉杂交、折叠的不期望的反应)和其他副作用。相比之下,较短的寡核苷酸虽然能够避免这些副作用中的一些,但是可能不能够满足生物信息学的约束,诸如提供足够大的汉明距离或编辑距离以允许错误校正。必需考虑生物信息学稳健性和生物化学功能之间的平衡。在一些实施方式中,寡核苷酸集中的每一个索引序列具有32个或更少的碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有16个或更少的碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有10个或更少的碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有8个或更少的碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有8个碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有7个或更少的碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有6个或更少的碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有5个或更少的碱基。在一些实施方式中,寡核苷酸集中的每一个索引序列具有4个或更少的碱基。
在一些实施方式中,被掺入到索引寡核苷酸中的索引序列集不包括凭经验被确定为在多重大规模平行测序中具有差的对核酸样品的来源进行索引的性能的索引序列。在一些实施方式中,所述索引序列包括表4中的序列。表4中未列出的其他序列也可以不被包括。
表4.不被包括的索引序列
索引标签 索引序列
>N501 TAGATCGC
>N504 AGAGTAGA
>N513 TCGACTAG
>N515 TTCTAGCT
>N516 CCTAGAGT
>N501-rc GCGATCTA
>N513-rc CTAGTCGA
>N515-rc AGCTAGAA
>N516-rc ACTCTAGG
>N504-rc TCTACTCT
>N704 TCCTGAGC
>N715 ATCTCAGG
>N710 CGAGGCTG
>N705 GGACTCCT
>N709 GCTACGCT
>N709-rc AGCGTAGC
>N715-rc CCTGAGAT
>N705-rc AGGAGTCC
>N704-rc GCTCAGGA
>N710-rc CAGCCTCG
在一些实施方式中,索引序列集包含至少12个不同的索引序列。在一些实施方式中,索引序列集包含至少20个不同的索引序列。在一些实施方式中,索引序列集包含至少24个不同的索引序列。在一些实施方式中,索引序列集包含至少28个不同的索引序列。在一些实施方式中,索引序列集包含至少48个不同的索引序列。在一些实施方式中,索引序列集包含至少80个或至少96个不同的索引序列。在一些实施方式中,索引序列集包含至少112个或至少384个不同的索引序列。在一些实施方式中,索引序列集包含至少734个、至少1,026个或至少1,536个不同的索引序列。
在一些实施方式中,索引序列集包含被分配为i5序列的8个独特的索引序列的4个子集和被分配为i8序列的12个独特的索引序列的4个子集。在一些实施方式中,子集中的索引序列是颜色平衡的序列对。在一些实施方式中,每一个子集包含两对或更多对索引序列以提供冗余,使得当任何索引需要被替换时,颜色平衡的索引对可以被子集中的冗余对一起替换。在一些实施方式中,索引序列集包含被分配为i5序列的12个独特的索引序列的4个子集和被分配为i8序列的16个独特的索引序列的4个子集,总计112个序列。
在一些实施方式中,索引序列集包含索引序列的4个子集,所述子集的每一个序列可以被应用为i5索引序列和i8索引序列二者。
在一些实施方式中,索引序列集不包括具有四个或更多个连续相同的碱基的任何均聚物。在一些实施方式中,索引序列集不包括与一个或更多个测序引物序列匹配或反向互补的索引序列。在一些实施方式中,测序引物序列被包含在寡核苷酸的序列,诸如图2A的双索引衔接子中所示出的序列中(SP1序列或SP2序列)。在一些实施方式中,索引序列集不包括与一个或更多个流动池扩增引物序列,诸如P5序列或P7序列(扩增引物序列)匹配或反向互补的索引序列。在一些实施方式中,流动池扩增引物序列被包含在寡核苷酸序列中,诸如Y形衔接子的分叉区域的5′末端和3′末端处的P5序列和P7′序列。
在一些实施方式中,索引序列集不包括Illumina测序平台中衔接子或引物的序列的任何子序列,或者所述子序列的反向互补物。在一些实施方式中,Illumina测序平台中衔接子或引物的序列包含SEQ ID NO:1(AGATGTGTATAAGAGACAG)、SEQ ID NO:3(TCGTCGGCAGCGTC)、SEQ ID NO:5(CCGAGCCCACGAGAC)、SEQ ID NO:7(CAAGCAGAAGACGGCATACGAGAT)、和SEQ ID NO:8(AATGATACGGCGACCACCGAGATCTACAC)。
在一些实施方式中,索引序列集包括具有相同数目的碱基的索引序列。
在一些实施方式中,索引序列集中的每一个索引序列具有在2个和6个之间的G碱基和C碱基的组合数目。在一些实施方式中,每一个索引序列具有在25%和75%之间的鸟嘌呤/胞嘧啶(GC)含量。在一些实施方式中,寡核苷酸集包括DNA寡核苷酸或RNA寡核苷酸。
图2B示出了不同的索引寡核苷酸设计,其中Y形衔接子的仅一条链包含索引序列。图2B中所示出的测序衔接子与图2A中的测序衔接子相似,除了该衔接子仅在Y形衔接子的P7′臂上包含i7索引序列之外。i7索引序列是索引序列集中的成员。衔接子在其P5臂上未包含索引序列。
图2C示出了索引寡核苷酸的另一个实施方式,其中索引序列被掺入到两种不同的索引引物——i5索引引物(204)和i7索引引物(206)中。i5索引引物(204)包含位于P5流动池扩增引物结合位点下游的i5索引序列。
i5索引引物包含i5索引序列(210)。i7索引引物206包含i7索引序列。i5索引引物204和i7索引引物206可以与短通用衔接子214杂交,短通用衔接子214具有与图2A和图2B中的Y形衔接子相似的Y形,除了衔接子202的不匹配的松软末端是较短的并且不包含索引序列或流动池扩增引物结合位点。相反,索引序列和流动池扩增引物结合位点通过i5索引引物204和i7索引引物206,通过例如如在美国专利号8,822,150中所描述的巢式PCR过程被添加至衔接子,该美国专利出于全部目的通过引用以其整体并入本文。
短通用衔接子202是不同的样品通用的且共有的,而图2A的双索引衔接子和图2B的单索引衔接子是样品特异性的。在将短通用衔接子附接或连接至靶核酸片段之后,可以以样品特异性的方式将包含索引的引物应用于衔接子-靶片段,以允许鉴定样品的来源。i5索引引物204包含位于5′末端的P5流动池扩增引物结合位点208、位于P5结合集下游的i5索引序列210和位于i5索引序列下游的引物序列212。i7索引引物206包含位于引物的3′末端的P7′流动池扩增引物结合位点216、位于P7′区域上游的i7索引序列和位于i7索引序列上游的引物序列220。当i5索引引物204和i7索引引物206被添加至包含附接至靶片段的短通用衔接子202的反应混合物时,索引序列和扩增引物结合位点可以通过PCR过程(例如,巢式PCR过程)被掺入到衔接子-靶片段中,以提供包含样品特异性索引序列的测序文库。
图2D示出了另一种索引寡核苷酸设计,该索引寡核苷酸设计涉及可以用于与双链短通用衔接子结合的索引引物。该设计类似于图2C中所示出的设计,但是图2D中的短通用衔接子212是双链的,而不是如图2C中衔接子202所示出的Y形。此外,衔接子252是平末端,而不是如衔接子202在223处具有的T突出端。i5索引引物234和i7索引引物236可以与短通用衔接子232杂交,从而将相关的索引序列和扩增引物结合位点添加至靶序列。i5索引引物234包含位于引物的5′末端的P5流动池扩增引物结合位点238、位于P5结合位点下游的i5索引序列240和位于i5索引序列下游的引物序列242。i5索引引物可以被附接至双链、短通用衔接子232的SP1序列引物结合位点244。i7索引引物236包含位于引物的3′末端的P7′流动池扩增引物结合位点246、和位于P7′扩增引物结合位点上游的i7索引序列248、以及位于i7索引序列上游的引物序列250。通过巢式PCR反应,i5索引引物234和i7索引引物236可以用于将索引引物和扩增引物结合位点掺入到靶序列中,以提供包含样品特异性索引序列的序列文库。
在一些实施方式中,索引寡核苷酸集被提供在包含多个单独的隔室的容器中。在一些实施方式中,容器包括多孔板。图4A-4C示意性地图示出了索引寡核苷酸可以被提供在其中的多孔板。在一些实施方式中,每一个隔室包含多个寡核苷酸,该多个寡核苷酸包含索引序列集中的一个索引序列。隔室中的一个索引序列不同于被包含在其他隔室中的索引序列。可以将每一个隔室中的寡核苷酸应用于来自不同的样品来源的核酸片段,以提供鉴定样品来源的机制。
在一些实施方式中,每一个隔室包含第一多个寡核苷酸,该第一多个寡核苷酸包含索引序列集中的第一索引序列。隔室还包含第二多个寡核苷酸,该第二多个寡核苷酸包含索引序列集中的第二索引序列。第一多个寡核苷酸和第二多个寡核苷酸的有序组合不同于任何其他隔室中的有序组合。多核苷酸集包含第一多个寡核苷酸和第二多个寡核苷酸。
图4A中所示出的多孔板包含以8行和12列形式的孔的阵列,总计96个隔室。在一些实施方式中,阵列可以具有16行和24列,总计384个隔室。在一些实施方式中,寡核苷酸集被提供在如图4A中所示出的多孔板中,其中每1/4行的隔室包含含有至少一对颜色平衡的索引序列的寡核苷酸,并且每1/4列的隔室包含含有至少一对颜色平衡的索引的寡核苷酸。在这样的配置中,每四分之一的行和每四分之一的列可以在多重测序工作流程中使用。因此,该配置使得能够在充分利用所述孔的情况下实现两重、三重、四重、六重、八重、九重和12重测序。
图4B示出了8×12多孔板中i5索引序列的布局。序列被标记为使得2n-1和2n(n是正整数)是颜色平衡对。i501-i508序列可以选自表1或表3中的任何子集。
图4C示出了i7索引序列的布局。i7序列也以如上文所描述的颜色平衡对来组织。i701-i712序列可以选自表2或表3中的任何子集。对于i5序列和i7序列两者,当一个序列由于各种原因诸如差的性能或实验性考虑需要被替换时,其颜色平衡对也应该被替换。所去除的颜色平衡对可以用来自表1-3中相同子集的另一个颜色平衡对替换。这样的替换将保持板的颜色平衡。图4B和图4C中所示出的索引序列布局用于组合双索引应用。换句话说,每一个孔包含第一多个寡核苷酸和第二多个寡核苷酸,所述第一多个寡核苷酸包含索引序列集的第一索引序列,所述第二多个寡核苷酸包含索引序列集的第二索引序列。每个隔室中第一寡核苷酸和第二寡核苷酸的有序组合不同于任何其他隔室的有序组合。
在一些实施方式中,诸如在图4B和图4C中所图示出的索引序列布局中,第一多个寡核苷酸包含P5流动池扩增引物结合位点。第二多个寡核苷酸包含P7′流动池扩增引物结合位点。在一些实施方式中,诸如在图4B和图4C所示出的实施方式中,第一多个寡核苷酸包含i5索引序列,并且第二多个寡核苷酸包含i7索引序列。
在一些实施方式中,寡核苷酸集(包括第一多个寡核苷酸和第二多个寡核苷酸)被实施为包含索引序列的Y形衔接子,诸如图2A和图2B中的那些Y形衔接子。在一些实施方式中,板中提供的寡核苷酸集包括包含索引序列的双链衔接子。在一些实施方式中,寡核苷酸集包括包含索引序列的引物,诸如图2C和图2D中所示出的引物。
在一些实施方式中,第一多个寡核苷酸中的每一个索引序列选自索引序列集中的第一子集,并且第二多个寡核苷酸中的每一个索引序列选自索引序列集中的第二子集,第一子集与第二子集不重叠。在一些实施方式中,第一子集中的任何两个索引序列之间或者第二子集中的任何两个索引序列之间的汉明距离不小于第二标准值。在一些实施方式中,第二标准值大于第一标准值。在一些实施方式中,第一标准值为4,并且第二标准值为5。换句话说,子集中的序列之间的汉明距离大于跨越子集的序列之间的汉明距离。在一些应用中,子集内较大的汉明距离可以增加鉴定出包含错误(诸如取代、***或缺失)的索引序列读段的概率。在一些实施方式中,第一子集是选自表1的子集,并且第二子集是选自表2的子集。在一些实施方式中,第一子集包含i5索引序列,并且第二子集包含i7索引序列。
在一些实施方式中,索引序列被掺入到测序衔接子中。在一些实施方式中,测序衔接子包括Y形测序衔接子,其中每一个测序衔接子包含第一链和第二链,所述第一链包含选自索引序列集中的第一子集的索引序列,所述第二链包含选自索引序列集中的第二子集的索引序列,第一子集与第二子集不重叠。
在一些实施方式中,被包含在第一多个寡核苷酸和第二多个寡核苷酸中的索引序列选自索引序列集中的相同子集。在一些实施方式中,相同子集中的任何两个索引序列之间的汉明距离不小于第二标准值。在一些实施方式中,第二标准值大于第一标准值。在一些实施方式中,第一标准值为4,并且第二标准值为5。在一些实施方式中,子集选自表3中列出的子集。在一些实施方式中,多孔板的多个单独的隔室以一行或更多行的隔室和一列或更多列的隔室的阵列形式被布置。在一些实施方式中,每1/n行和/或每1/m列的隔室包含含有至少一对颜色平衡的索引序列的寡核苷酸,其中n和m各自选自1至24的范围内的整数。在一些实施方式中,多个单独的隔室以8x12阵列形式被布置,如图4A中所示出的。
一些实施方式提供了主要由寡核苷酸的多个子集组成的寡核苷酸。寡核苷酸集被配置成在多重大规模平行测序中鉴定核酸样品的来源,所述核酸样品的每一个包含多个核酸分子。寡核苷酸的多个子集中的每一个子集包含独特的索引序列,多个子集的索引序列由索引序列集组成。索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2。索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤(A)碱基或胞嘧啶(C)碱基,和(ii)鸟嘌呤(G)碱基、胸腺嘧啶(T)碱基或尿嘧啶(U)碱基。
索引寡核苷酸的构建
一些实施方式提供了用于制备用于多重大规模平行测序的多个寡核苷酸的方法。所述方法包括从不同索引序列的汇集物选择索引序列集。索引序列集包括至少六个不同的序列。索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2。索引序列集包含多对颜色平衡的索引序列。每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)A碱基或C碱基,和(i)G碱基、T碱基或U碱基。
在一些实施方式中,用于从不同索引序列的汇集物选择索引序列集的过程根据图5中过程400的步骤402-416进行。在一些实施方式中,从不同索引序列的汇集物选择索引序列集包括从索引序列的汇集物选择索引序列的候选集;将所选择的候选集分离成颜色平衡的索引序列对的多个组;以及使用二分图匹配算法将每一组划分成颜色平衡对的两个亚组。每一个颜色平衡对是二分图中的一个节点。
图5示出了用于制备索引寡核苷酸诸如加索引的衔接子的过程400。过程400涉及提供所有可能的n聚体序列的汇集物。在一些实施方式中,n聚体是8聚体。在一些实施方式中,n聚体是9聚体。在一些实施方式中,n聚体是10聚体。本文所描述的其他尺寸的寡核苷酸可以类似地被生成。参见模块402。过程400还涉及从索引序列的汇集物去除索引序列的子集。参见模块404。在一些实施方式中,去除的索引序列的子集包括具有四个或更多个连续相同的碱基的索引序列。在一些实施方式中,去除的索引序列的子集包括具有小于两个的G碱基和C碱基的组合数目的索引序列以及具有大于六个的G碱基和C碱基的组合数目的寡核苷酸序列。在一些实施方式中,去除的索引序列的子集包括具有与一个或更多个测序引物序列匹配或反向互补的序列的索引序列。在一些实施方式中,测序引物序列被包含在索引寡核苷酸的序列,诸如图2A-2D中所示出的衔接子和引物的序列中。在一些实施方式中,去除的索引序列的子集包括具有与一个或更多个流动池扩增引物序列匹配或反向互补的序列的索引序列。在一些实施方式中,流动池扩增引物序列被包含在索引寡核苷酸的序列中,诸如图2A-2D中所示出的衔接子和引物中的P5序列和P7′序列。在一些实施方式中,去除的索引序列的子集包括凭经验被确定为在多重大规模平行测序中具有差的对核酸样品的来源进行索引的性能的索引序列。在一些实施方式中,去除的索引序列的子集包括表4中的序列。
过程400通过从序列汇集物随机地选择一对颜色平衡的序列来继续进行。参见模块406。过程400还涉及将该对颜色平衡的序列添加至候选集,并且从汇集物去除该对。参见模块408。过程410涉及基于与候选集中的成员的最小汉明距离,对在索引序列汇集物中剩余的索引序列进行分选。参见模块410。过程400还涉及去除与候选集中的成员的最小汉明距离小于第一标准值或者与候选集中的成员的最小编辑距离小于第三标准值的任何剩余的索引序列。在一些实施方式中,第一标准值为4,并且第三标准值为3。参见模块412。
过程410还涉及决定是否有任何序列留在汇集物中。参见模块44。如果是,该过程循环回到模块406,以从序列汇集物随机地选择一对颜色平衡的序列。参见决策模块414的“是”分支。如果不再有序列留在汇集物中,过程400继续进行以将候选集分离成颜色平衡对的多个组。参见模块416。在一些实施方式中,分离通过为多个组中的每一组随机地选择种子,并且贪婪地扩展多个组中的每一组来进行。贪婪方法涉及使每一组轮流获取汇集物中剩余的最远的颜色平衡对。
过程400还涉及使用二分图匹配算法将每一组划分成颜色平衡对的两个亚组,每一个颜色平衡的索引序列对是二分图中的一个节点。在二分图匹配算法中,如果两个节点之间的汉明距离小于第二标准值,则两个节点被连接,其中第二标准值大于第一标准值。匹配算法产生两组索引序列。在一些实施方式中,第一标准值为4,并且第二标准值为5。在一些实施方式中,一组可以被用作i5索引序列,并且另一组可以被用作i7索引序列。
然后,过程400涉及合成多个寡核苷酸,其中每一个寡核苷酸具有候选集中的至少一个索引序列。在一些实施方式中,多个寡核苷酸包含双链测序衔接子,其中每一个双链测序衔接子的每条链包含索引序列集的索引序列。在一些实施方式中,双链测序衔接子包含第一链和第二链,所述第一链包含选自索引序列集中的第一子集的索引序列,所述第二链包含选自索引序列集中的第二子集的索引序列,第一子集与第二子集不重叠。在一些实施方式中,每一个双链测序衔接子的第一链包含P5流动池扩增引物结合位点,并且每一个双链测序衔接子的第二链包含P7′流动池扩增引物结合位点。可以合成本文所描述的其他形式的寡核苷酸。
样品
被用于确定DNA片段序列的样品可以包括从任何细胞、流体、组织或器官获取的样品,所述样品包含其中待确定感兴趣的序列的核酸。在涉及癌症的诊断的一些实施方案中,循环肿瘤DNA可以从受试者的体液例如血液或血浆获得。在涉及胎儿的诊断的一些实施方案中,从母体体液获得无细胞核酸,例如无细胞DNA(cfDNA)是有利的。无细胞核酸(包括无细胞DNA)可以通过本领域已知的各种方法从生物样品获得,该生物样品包括但不限于血浆、血清和尿液(参见,例如,Fan等人,Proc Natl Acad Sci105:16266-16271[2008];Koide等人,Prenatal Diagnosis 25:604-607[2005];Chen等人,Nature Med.2:1033-1035[1996];Lo等人,Lancet 350:485-487[1997];Botezatu等人,Clin Chem.46:1078-1084,2000;和Su等人,J Mol.Diagn.6:101-107[2004])。
在各个实施方案中,存在于样品中的核酸(例如,DNA或RNA)可以在使用之前(例如,在制备测序文库之前)特异性地或非特异性地被富集。样品DNA的非特异性富集指的是样品的基因组DNA片段的全基因组扩增,该全基因组扩增可以用于在制备cfDNA测序文库之前增加样品DNA的水平。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引发的PCR(DOP)、引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的实例。在一些实施方案中,样品未针对DNA进行富集。
包含本文所描述的方法被应用于其的核酸的样品典型地包括如上文所描述的生物样品(“测试样品”)。在一些实施方案中,待被测序的核酸通过许多熟知的方法中的任何一种来纯化或分离。
因此,在某些实施方案中,样品包含纯化或分离的多核苷酸或主要由纯化或分离的多核苷酸组成,或者它可以包括诸如组织样品、生物流体样品、细胞样品等的样品。合适的生物流体样品包括但不限于血液,血浆,血清,汗液,泪液,痰,尿液,痰,耳流物(earflow),淋巴液,唾液,脑脊液,灌洗液,骨髓悬浮液,***流物,经宫颈灌洗液,脑液,腹水,乳汁,呼吸道、肠道和泌尿生殖道的分泌物,羊水,乳汁和白细胞单采术样品。在一些实施方案中,样品是通过非侵入性程序容易地可获得的样品,例如血液、血浆、血清、汗液、泪液、痰、尿液、粪便、痰、耳流物、唾液或***物(feces)。在某些实施方案中,样品是外周血液样品,或者外周血液样品的血浆和/或血清级分。在其他实施方案中,生物样品是拭子或涂片、活检样本或细胞培养物。在另一个实施方案中,样品是两种或更多种生物样品的混合物,例如,生物样品可以包括生物流体样品、组织样品和细胞培养物样品中的两种或更多种。如本文所使用的术语“血液”、“血浆”和“血清”明确地涵盖其级分或经处理的部分。类似地,在样品从活检、拭子、涂片等获取的情况下,“样品”明确地涵盖来源于活检、拭子、涂片等的经处理的级分或部分。
在某些实施方案中,样品可以从包括但不限于以下的来源获得:来自不同个体的样品,来自相同或不同个体的不同发育阶段的样品,来自不同患病个体(例如,怀疑患有遗传紊乱的个体)、正常个体的样品,在个体的疾病的不同阶段获得的样品,从经受不同疾病治疗的个体获得的样品,来自经受不同环境因素的个体的样品,来自具有病理倾向的个体的样品,暴露于传染性疾病病原体(infectious disease agent)的个体的样品等。
在一个说明性但非限制性的实施方案中,样品是从妊娠雌性,例如妊娠女性获得的母体样品。在这种情况下,样品可以使用本文所描述的方法来分析,以提供胎儿中潜在染色体异常的产前诊断。母体样品可以是组织样品、生物流体样品或细胞样品。作为非限制性实例,生物流体包括血液,血浆,血清,汗液,泪液,痰,尿液,痰,耳流物,淋巴液,唾液,脑脊液,灌洗液,骨髓悬浮液,***流物,经宫颈灌洗液,脑液,腹水,乳汁,呼吸道、肠道和泌尿生殖道的分泌物以及白细胞单采术样品。
在某些实施方案中,样品也可以从体外培养的组织、细胞或其他含多核苷酸的来源获得。培养的样品可以从包括但不限于以下的来源获取:维持在不同培养基和条件(例如,pH、压力或温度)中的培养物(例如,组织或细胞)、维持不同长度周期的培养物(例如,组织或细胞)、用不同因子或试剂(例如,候选药物或调节剂)处理的培养物(例如,组织或细胞)或者不同类型的组织和/或细胞的培养物。
从生物来源分离核酸的方法是熟知的,并且将取决于来源的性质而不同。本领域技术人员可以按照本文所描述的方法的需要容易地从来源分离核酸。在一些情况下,将核酸样品中的核酸分子片段化可以是有利的。片段化可以是随机的,或者其可以是特异性的,如例如使用限制性内切核酸酶消化所实现的。用于随机片段化的方法是本领域熟知的,并且包括例如有限的DNA酶消化、碱处理和物理剪切。
测序文库制备
在各个实施方案中,测序可以在要求制备测序文库的各种测序平台上进行。该制备典型地涉及将DNA片段化(声处理、雾化法或剪切),随后是DNA修复和末端平滑化(polishing)(平末端或A突出端),以及平台特异性衔接子的连接。在一个实施方案中,本文所描述的方法可以利用下一代测序技术(NGS),该下一代测序技术(NGS)允许多个样品作为基因组分子单独地被测序(即,单重测序)或作为包含加索引的基因组分子的汇集的样品在单一测序运行中被测序(例如,多重测序)。这些方法可以生成多达几十亿的DNA序列读段。在各个实施方案中,基因组核酸和/或加索引的基因组核酸的序列可以使用例如本文所描述的下一代测序技术(NGS)来确定。在各个实施方案中,使用NGS获得的大量序列数据的分析可以使用如本文所描述的一个或更多个处理器来进行。
在各个实施方案中,这样的测序技术的使用不涉及测序文库的制备。
然而,在某些实施方案中,本文所设想的测序方法涉及测序文库的制备。在一个说明性的方法中,测序文库制备涉及衔接子修饰的DNA片段(例如,多核苷酸)的随机集合的产生,该衔接子修饰的DNA片段(例如,多核苷酸)准备好进行测序。多核苷酸的测序文库可以由以下制备:DNA或RNA,包括DNA或cDNA的等同物、类似物,例如互补的DNA或cDNA或者通过逆转录酶的作用,由RNA模板产生的拷贝DNA。多核苷酸可以以双链形式(例如,dsDNA诸如基因组DNA片段、cDNA、PCR扩增产物等)起源,或者在某些实施方案中,多核苷酸可以以单链形式(例如,ssDNA、RNA等)起源,并且已经被转化成dsDNA形式。作为实例,在某些实施方案中,单链mRNA分子可以被拷贝为适合用于制备测序文库的双链cDNA。一级多核苷酸分子的精确序列通常对于文库制备的方法不重要,并且可以是已知的或未知的。在一个实施方案中,多核苷酸分子是DNA分子。更具体地,在某些实施方案中,多核苷酸分子代表生物体的整个基因互补物或生物体的基本上整个基因互补物,并且是基因组DNA分子(例如,细胞DNA、无细胞DNA(cfDNA)等),该基因组DNA分子典型地包含内含子序列和外显子序列(编码序列)两者,以及非编码调节序列诸如启动子序列和增强子序列。在某些实施方案中,一级多核苷酸分子包含人类基因组DNA分子,例如存在于妊娠受试者的外周血中的cfDNA分子。
通过使用包含特定范围的片段尺寸的多核苷酸来促进用于一些NGS测序平台的测序文库的制备。这样的文库的制备典型地涉及大的多核苷酸(例如细胞基因组DNA)的片段化,以获得在期望的尺寸范围中的多核苷酸。
配对末端读段可以被用于本文所公开的测序方法和***。片段或***片段长度长于读段长度,并且有时长于两个读段的长度的总和。
在一些说明性实施方案中,样品核酸作为基因组DNA获得,其被片段化为长于大约50个、100个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、2000个或5000个碱基对的片段,NGS方法可以被容易地应用于所述片段。在一些实施方案中,配对末端读段从约100-5000bp的***片段获得。在一些实施方案中,***片段的长度为约100-1000bp。这些有时被实现为常规的短***片段配对末端读段。在一些实施方案中,***片段的长度为约1000-5000bp。这些有时被实现为如上文所描述的长***片段匹配配对读段。
在一些实施方式中,长***片段被设计用于评估非常长的序列。在一些实施方式中,匹配对读段可以被应用以获得由数千个碱基对间隔开的读段。在这些实施方式中,***片段或片段在从数百个至数千个碱基对的范围内,在***片段的两个末端具有两个生物素连接衔接子。然后生物素连接衔接子连接***片段的两个末端,以形成环状分子,然后该环状分子被进一步片段化。选择包含生物素连接衔接子和原始***片段的两个末端的亚片段,用于在被设计为测序较短的片段的平台上进行测序。
片段化可以通过本领域技术人员已知的许多方法中的任何一种来实现。例如,片段化可以通过机械手段,包括但不限于雾化法、声处理和水切力(hydroshear)来实现。然而,机械片段化典型地在C-O键、P-O键和C-C键处裂解DNA骨架,产生具有断裂的C-O键、P-O键和C-C键的平末端以及3′-突出端和5′-突出端的异质混合物(参见,例如,Alnemri和Liwack,J Biol.Chem 265:17323-17333[1990];Richards和Boyer,J Mol Biol 11:327-240[1965]),该断裂的C-O键、P-O键和C-C键可能需要被修复,因为它们可能缺乏用于随后的酶促反应,例如,测序衔接子的连接所必需的5′-磷酸,所述测序衔接子是制备用于测序的DNA所需的。
相比之下,cfDNA典型地作为小于约300个碱基对的片段存在,并且因此,片段化对于使用cfDNA样品生成测序文库通常不是必需的。
典型地,无论多核苷酸是被强制地片段化(例如,体外片段化),还是天然地作为片段存在,它们被转化成具有5′-磷酸和3′-羟基的平末端化的DNA。标准方案,例如,使用例如如上文参考图1A和图1B的示例工作流程中所描述的Illumina平台测序的方案,指导用户对样品DNA进行末端修复,以在对3′末端进行腺苷酸化或dA-加尾之前纯化末端修复的产物,并且在文库制备的衔接子-连接步骤之前纯化dA-加尾产物。
本文所描述的序列文库制备的方法的各个实施方案消除了对进行由标准方案典型地强制执行以获得可以通过NGS测序的修饰的DNA产物的一个或更多个步骤的需求。简化方法(ABB方法)、1-步骤方法和2-步骤方法是用于制备测序文库的方法的实例,所述方法可见于美国专利公布号2013/0029852 A1,其通过引用以其整体并入本文。
测序方法
本文所描述的方法和设备可以采用下一代测序技术(NGS),这允许大规模平行测序。在某些实施方案中,克隆扩增的DNA模板或单个DNA分子在流动池中以大规模平行方式被测序(例如,如在Volkerding等人Clin Chem 55:641-658[2009];Metzker M Nature Rev11:31-46[2010]中所描述的)。NGS的测序技术包括但不限于焦磷酸测序、使用可逆染料终止子的合成测序、寡核苷酸探针连接测序和离子半导体测序。来自单个样品的DNA可以单独地被测序(即,单重测序),或者来自多个样品的DNA可以被汇集并且在单一测序运行中作为加索引的基因组分子被测序(即多重测序),以生成多达数亿个DNA序列读段。在这里进一步描述了根据本发明方法的可以被用于获得序列信息的测序技术的实例。
一些测序技术是商业上可获得的,诸如来自Affymetrix Inc.(Sunnyvale,CA)的杂交测序平台和来自454Life Sciences(Bradford,CT)、Illumina/Solexa(Hayward,CA)和Helicos Biosciences(Cambridge,MA)的合成测序平台,以及来自Applied Biosystems(Foster City,CA)的连接测序平台,如下面所描述的。除了使用Helicos Biosciences的合成测序进行的单分子测序之外,其他单分子测序技术包括但不限于Pacific Biosciences的SMRTTM技术、ION TORRENTTM技术和例如由Oxford Nanopore Technologies开发的纳米孔测序。
虽然自动化的Sanger方法被认为是“第一代”技术,但是包括自动化的Sanger测序的Sanger测序也可以被用于本文所描述的方法。另外的合适的测序方法包括但不限于核酸成像技术,例如原子力显微术(AFM)或透射电子显微术(TEM)。下面更详细地描述了说明性测序技术。
在一些实施方案中,所公开的方法涉及通过使用Illumina的合成测序和基于可逆终止子的测序化学反应(例如,如在Bentley等人,Nature 6:53-59[2009]中所描述的)对数百万个DNA片段进行大规模平行测序来获得测试样品中核酸的序列信息。模板DNA可以是基因组DNA,例如细胞DNA或cfDNA。在一些实施方案中,来自分离的细胞的基因组DNA被用作模板,并且其被片段化成几百个碱基对的长度。在其他实施方案中,cfDNA或循环肿瘤DNA(ctDNA)被用作模板,并且不需要片段化,因为cfDNA或ctDNA作为短片段存在。例如,胎儿cfDNA在血流中作为长度为大约170个碱基对(bp)的片段循环(Fan等人,Clin Chem 56:1279-1286[2010]),并且在测序之前不需要DNA的片段化。Illumina测序技术依赖于将片段化的基因组DNA附接至平面的、光学透明的表面上,寡核苷酸锚被结合在该表面上。对模板DNA进行末端修复以生成5′-磷酸化的平末端,并且将克列诺片段的聚合酶活性用于将单个A碱基添加至平末端的磷酸化的DNA片段的3′末端。该添加制备用于连接至寡核苷酸衔接子的DNA片段,该寡核苷酸衔接子在其3′末端处具有单个T碱基的突出端,以增加连接效率。衔接子寡核苷酸与流动池锚寡核苷酸互补。在限制性稀释条件下,将衔接子修饰的单链模板DNA添加至流动池,并且通过杂交固定到锚寡核苷酸。附接的DNA片段被延伸并被桥式扩增,以产生具有数以亿计的簇的超高密度测序流动池,每一个簇包含约1,000拷贝的相同模板。在一个实施方案中,随机片段化的基因组DNA在其经受簇扩增之前使用PCR来扩增。可选择地,使用无扩增基因组文库制品,并且单独地使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等人,Nature Methods 6:291-295[2009])。在一些应用中,模板使用稳健的四色DNA合成测序技术进行测序,该四色DNA合成测序技术采用具有可去除的荧光染料的可逆终止子。高灵敏度荧光检测使用激光激发和全内反射光学来实现。将约几十至几百个碱基对的短序列读段与参考基因组比对,并且短序列读段至参考基因组的独特映射使用专门开发的数据分析管道软件来鉴定。在完成第一次读取之后,模板可以原位再生,以使得能够从片段的相对末端实现第二次读取。因此,可以使用DNA片段的单末端测序或配对末端测序。
本公开内容的各个实施方案可以使用允许配对末端测序的合成测序。在一些实施方案中,通过Illumina的合成测序平台涉及将片段聚簇。聚簇是其中每一个片段分子被等温扩增的过程。在一些实施方案中,如这里所描述的实例,片段具有附接至片段的两个末端的两个不同的衔接子,衔接子允许片段与流动池泳道的表面上的两种不同寡核苷酸杂交。片段还包含位于所述片段的两个末端的两个索引序列或在所述片段的两个末端处被连接至两个索引序列,该索引序列提供标签以在多重测序中鉴定不同的样品。在一些测序平台中,待从两个末端测序的片段也被称为***片段。
在一些实施方式中,Illumina平台中用于聚簇的流动池是具有泳道的载玻片。每一个泳道是包被有大量的(a lawn of)两种类型的寡核苷酸(例如,P5寡核苷酸和P7′寡核苷酸)的玻璃通道。杂交通过表面上的两种类型的寡核苷酸中的第一类型来实现。该寡核苷酸与片段的一个末端上的第一衔接子互补。聚合酶产生杂交片段的互补链。将双链分子变性,并且将原始模板链洗掉。剩余的链,与许多其他剩余的链平行地,通过桥式扩增被克隆扩增。
在桥式扩增和其他涉及聚簇的测序方法中,链折叠,并且该链的第二末端上的第二衔接子区域与流动池表面上的第二类型的寡核苷酸杂交。聚合酶生成互补链,形成双链桥分子。将该双链分子变性,导致两个单链分子,该两个单链分子通过两种不同的寡核苷酸拴系到流动池。然后,该过程被一遍又一遍地重复,并且对于数百万个簇同时地发生,导致所有片段的克隆扩增。在桥式扩增之后,反向链被裂解并被洗掉,仅留下正向链。3′末端被封闭,以防止不希望的引发。
在聚簇之后,测序通过使第一测序引物延伸而开始,以生成第一读段。在每个循环的情况下,荧光地加标签的核苷酸竞争添加至生长的链。基于模板的序列,仅掺入一个核苷酸。在添加每一个核苷酸之后,该簇被光源激发,并且发射出特征性荧光信号。循环数目决定了读段的长度。发射波长和信号强度决定了碱基判定。对于给定的簇,所有相同的链被同时地读取。数以亿计的簇以大规模平行方式被测序。在完成第一读段之后,读段产物被洗掉。
在涉及两个索引引物的方案的下一步骤中,索引1引物被引入并且与模板上的索引1区域杂交。索引区域提供片段的鉴定,这对于在多重测序过程中将样品去多重化是有用的。类似于第一读段来生成索引1读段。在完成索引1读段之后,读段产物被洗掉,并且链的3′末端被去保护。然后,模板链折叠并结合至流动池上的第二寡核苷酸。以与索引1相同的方式读取索引2序列。然后索引2读段产物在该完成该步骤时被洗掉。
在读取两个索引物之后,读段2通过使用聚合酶以使第二流动池寡核苷酸延伸开始,形成双链桥。将该双链DNA变性,并且将3′末端封闭。原始正向链被裂解掉并且被洗掉,留下反向链。读段2从读段2测序引物的引入开始。与读段1一样,重复测序步骤,直到达到期望的长度。读段2产物被洗掉。该整个过程生成数百万个读段,代表所有片段。来自汇集的样品文库的序列基于在样品制备期间引入的独特索引物被分离。对于每个样品,相似链段的碱基判定的读段被局部地聚簇。正向读段和反向读段是配对的,产生连续的序列。将这些连续序列与参考基因组比对,用于变体鉴定。
上文所描述的合成测序的实例涉及配对末端读段,这在所公开的方法的许多实施方案中使用。配对末端测序涉及来自片段的两个末端的2个读段。配对末端读段用于分辨不明确的比对。配对末端测序允许用户选择***片段(或待测序的片段)的长度并且对***片段的任一末端测序,生成高质量、可比对的序列数据。因为每一个配对读段之间的距离是已知的,所以比对算法可以使用该信息以更精确地将读段映射在重复区域上。这导致读段的更好的比对,特别是跨越基因组中的难以测序的重复区域的读段的更好的比对。配对末端测序可以检测重排,包括***和缺失(***/缺失)以及倒位。
配对末端读段可以使用不同长度(即,不同的待测序片段尺寸)的***片段。作为本公开内容中的默认含义,配对末端读段用于指从各种***片段长度获得的读段。在一些情况下,为了区分短***片段配对末端读段与长***片段配对末端读段,后者具体地被称为匹配对读段。在一些涉及匹配对读段的实施方案中,两个生物素连接衔接子首先被附接至相对长的***片段(例如,几kb)的两个末端。然后,生物素连接衔接子连接***片段的两个末端,以形成环状分子。然后,涵盖生物素连接衔接子的子片段可以通过进一步片段化环状分子来获得。然后,包含以相反序列顺序的原始片段的两个末端的子片段可以通过与上文所描述的短***片段配对末端测序相同的程序测序。使用Illumina平台的匹配对测序的另外的细节在以下地址的在线出版物中示出,该在线出版物通过引用以其全文并入:wwwdot illumina dot com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf。
在对DNA片段进行测序之后,预定长度(例如,100bp)的序列读段通过映射至已知的参考基因组(与已知的参考基因组比对)来定位。映射的读段及其在参考序列上的相应位置也被称为标签。在该程序的另一个实施方案中,定位通过k聚体(k-mer)共享和读段-读段比对来实现。本文公开的许多实施方案的分析利用差的匹配或不能匹配的读段,以及匹配的读段(标签)。在一个实施方案中,参考基因组序列是NCBI36/hg18序列,其在genome dotucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105的万维网上可获得。可选择地,参考基因组序列是GRCh37/hg19或GRCh38,其在genome dot ucsc dotedu/cgi-bin/hgGateway的万维网上可获得。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室(European Molecular Biology Laboratory))和DDBJ(日本DNA数据库(DNA Databank of Japan))。许多计算机算法可用于比对序列,包括但不限于BLAST(Altschul等人,1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等人,Genome Biology 10:R25.1-R25.10[2009])、或ELAND(Illumina,Inc.,San Diego,CA,USA)。在一个实施方案中,对血浆cfDNA分子克隆扩增的拷贝的一个末端进行测序并通过Illumina基因组分析仪的生物信息学比对分析来处理,该Illumina基因组分析仪使用核苷酸数据库的有效大规模比对(EfficientLarge-Scale Alignment of Nucleotide Databases;ELAND)软件。
也可以使用其他测序方法来获得序列读段及其比对。另外的合适的方法被描述于美国专利公布号2016/0319345 A1中,其通过引用以其整体并入本文。
在本文所描述的方法的一些实施方案中,序列读段为约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预期技术进步将使得能够实现大于500bp的单末端读段,这当生成配对末端读段时使得能够实现大于约1000bp的读段。在一些实施方案中,配对末端读段被用于确定感兴趣的序列,其包含约20bp至1000bp、约50bp至500bp或80bp至150bp的序列读段。在多个实施方案中,配对末端读段用于评估感兴趣的序列。感兴趣的序列长于该读段。在一些实施方案中,感兴趣的序列长于约100bp、500bp、1000bp或4000bp。序列读段的映射通过将读段的序列与参考的序列进行比较以确定测序的核酸分子的染色体起源来实现,并且不需要特定的基因序列信息。可以允许小的错配程度(0-2个错配/读段)以解释可能存在于参考基因组和混合样品中的基因组之间的微小多态性。在一些实施方案中,与参考序列匹配的读段被用作锚读段,并且与锚读段配对但与参考不能匹配或差的匹配的读段被用作锚定的读段。在一些实施方案中,差的匹配的读段可以具有相对大量的错配百分比/读段,例如,至少约5%、至少约10%、至少约15%或至少约20%错配/读段。
每个样品通常获得多个序列标签(即,与参考序列匹配的读段)。在一些实施方案中,每个样品从将读段映射至参考基因组获得例如100bp的至少约3x106个序列标签、至少约5x106个序列标签、至少约8x106个序列标签、至少约10x106个序列标签、至少约15x106个序列标签、至少约20x106个序列标签、至少约30x106个序列标签、至少约40x106个序列标签、或至少约50x106个序列标签。在一些实施方案中,将所有序列读段映射至参考基因组的所有区域,提供全基因组读段。在其他实施方案中,读段映射至感兴趣的序列。
用于制备索引寡核苷酸的设备和***
如应当明显的是,本发明的某些实施方案采用在存储在一个或更多个计算机***中或通过一个或更多个计算机***传输的指令和/或数据的控制下起作用的过程。某些实施方案还涉及用于进行这些操作的设备。该设备可以出于所需的目的而被专门地设计和/或构造,或者它可以是由存储在计算机中或以其他方式为计算机可用的一个或更多个计算机程序和/或数据结构选择性地配置的通用计算机。特别地,各种通用机器可以与根据本文中的教导编写的程序一起使用,或者构造更专业的设备来进行所需的方法步骤可以是更方便的。下面示出和描述了各种各样的所述机器的特定结构。
某些实施方案还提供用于存储如本文所描述地生成的结果(例如,查询结果)或数据结构中的任何一种的功能(例如,代码和过程)。这样的结果或数据结构典型地至少暂时地存储在计算机可读介质上。结果或数据结构也可以以各种方式中的任何一种诸如显示、打印等输出。
适合用于本发明的计算机程序产品和计算设备的有形计算机可读介质的实例包括但不限于磁性介质,诸如硬盘、软盘和磁带;光学介质,诸如CD-ROM盘;磁光介质;半导体存储器装置(例如,闪速存储器)和专门地被配置成存储和执行程序指令的硬件装置,诸如只读存储器装置(ASIC)和随机存取存储器(ROM),并且有时专用集成电路(ASIC)、可编程逻辑装置(PLD)和用于传送计算机可读指令的信号传输介质,诸如局域网、广域网和互联网。本文提供的数据和程序指令也可以体现在载波或其他传输介质(包括电子或光传导路径)上。本发明的数据和程序指令也可以体现在载波或其他传输介质(例如,光线路、电气线路和/或无线电波)上。
程序指令的实例包括诸如由编译器产生的低级代码,以及可以使用解释器由计算机执行的高级代码。此外,程序指令可以是机器代码、源代码和/或直接地或间接地控制计算机器的操作的任何其他代码。代码可以指定输入、输出、计算、条件、分支、迭代循环等。
测序数据的分析和来源于其的诊断典型地使用各种计算机执行的算法和程序来进行。因此,某些实施方案采用涉及存储在一个或更多个计算机***或其他处理***中或通过一个或更多个计算机***或其他处理***传输的数据的过程。本文所公开的实施方案还涉及用于进行这些操作的设备。该设备可以出于所需的目的而被专门地构造,或者它可以是由计算机程序和/或存储在计算机中的数据结构选择性激活或重新配置的通用计算机(或计算机组)。在一些实施方案中,处理器组协作地(例如,经由网络或云计算)和/或平行地进行所列举的分析操作中的一些或全部。用于进行本文所描述的方法的处理器或处理器组可以是各种类型的处理器或处理器组,包括微控制器和微处理器,诸如可编程装置(例如,CPLD和FPGA)和不可编程的装置诸如门阵列ASIC或通用微处理器。
一个实施方式提供一种***,所述***用于确定包含核酸的多个测试样品中的序列,所述***包括用于接收核酸样品并且提供来自所述样品的核酸序列信息的测序仪;处理器;以及机器可读存储介质,该机器可读存储介质在其上存储有指令,所述指令用于在所述处理器上执行以通过上文所描述的方法确定测试样品中的感兴趣的序列。
在本文提供的任一种***的一些实施方案中,测序仪被配置成进行下一代测序(NGS)。在一些实施方案中,测序仪被配置成使用可逆染料终止子,使用合成测序来进行大规模平行测序。在其他实施方案中,测序仪被配置成进行连接测序。在又其他实施方案中,测序仪被配置成进行单分子测序。
另一个实施方式提供一种***,该***包括核酸合成仪、处理器和机器可读存储介质,该机器可读存储介质在其上存储有指令,所述指令用于在所述处理器上执行以制备测序衔接子。指令包括:(a)用于向索引序列的候选集添加从不同的索引序列的汇集物随机地选择的颜色平衡的索引序列对的代码,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤碱基或胞嘧啶碱基,和(ii)鸟嘌呤碱基、胸腺嘧啶碱基或尿嘧啶碱基;(b)用于基于与候选集中的成员的最小汉明距离对在索引序列的汇集物中剩余的索引序列进行分选的代码;(c)用于去除与候选集中的成员的最小汉明距离小于第一标准值或者与候选集中的成员的最小编辑距离小于第二标准值的任何剩余的索引序列的代码;(d)用于重复(a)-(c)以使候选集的尺寸最大化的代码;以及(e)用于从候选集选择待被掺入到寡核苷酸集中的索引序列集的代码,该寡核苷酸集被配置成用于多重大规模平行测序。
在一些实施方式中,指令包括:(a)用于接收从来源于多个样品的靶核酸获得的靶序列的多个索引读段和多个靶读段的代码,其中每一个靶读段包含从来源于多个样品的样品的靶核酸获得的靶序列,每一个索引读段包含从来源于多个样品的样品的靶核酸获得的索引序列,所述索引序列选自索引序列集,每一个靶读段与至少一个索引读段相关联,多个样品中的每个样品与索引序列集中的一个或更多个索引序列独特地相关联,并且索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中第一标准值为至少2;(b)用于在多个靶读段中鉴定与索引读段相关联的靶读段的子集的代码,该索引读段与至少一个索引序列匹配,所述至少一个索引序列与多个样品中的特定样品独特地相关联;以及(c)用于基于所鉴定的靶读段的子集来确定特定样品的靶序列的代码。
此外,某些实施方案涉及有形和/或非瞬时性计算机可读介质或计算机程序产品,其包括用于进行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的实例包括但不限于半导体存储器装置,磁性介质诸如磁盘驱动器、磁带,光学介质诸如CD,磁光介质,以及专门地被配置成存储和执行程序指令的硬件装置诸如只读存储器装置(ROM)和随机存取存储器(RAM)。计算机可读介质可以由终端用户直接控制,或者所述介质可以由终端用户间接控制。直接控制的介质的实例包括位于用户设施的介质和/或不与其他实体共享的介质。间接控制的介质的实例包括用户经由外部网络和/或经由提供共享资源诸如“云”的服务间接可访问的介质。程序指令的实例包括诸如由编译器产生的机器代码和包含可以使用解释器由计算机执行的高级代码的文件两者。
在各个实施方案中,在所公开的方法和设备中采用的数据或信息以电子格式被提供。这样的数据或信息可以包括来源于核酸样品的读段和标签、参考序列(包括仅或主要提供多态性的参考序列)、判定诸如癌症诊断判定、咨询建议、诊断等。如本文所使用的,以电子格式提供的数据或其他信息可用于存储在机器上以及在机器之间传输。常规地,电子格式的数据以数字方式被提供,并且可以作为比特和/或字节被存储在各种数据结构、列表、数据库等中。数据可以以电子方式、光学方式等被体现。
一个实施方案提供一种计算机程序产品,该计算机程序产品用于生成指示测试样品中感兴趣的DNA片段的序列的输出。计算机产品可以包含用于进行上文描述的用于确定感兴趣的序列的方法的任何一种或更多种的指令。如所解释的,计算机产品可以包括在其上记录有计算机可执行或可编译逻辑(例如,指令)的非瞬时性和/或有形计算机可读介质,用于使得处理器能够确定感兴趣的序列。在一个实例中,计算机产品包括在其上记录有计算机可执行或可编译逻辑(例如,指令)的计算机可读介质,用于使得处理器能够诊断状况或确定感兴趣的核酸序列。
应当理解的是,对于未受协助的人类,进行本文所公开的方法的计算操作是不实际的,或者甚至在大多数情况下是不可能的。例如,没有计算设备的帮助,将来自样品的单个30bp读段映射至人类染色体中的任何一个可能需要多年的努力。当然,问题是复杂的,因为低等位基因频率突变的可靠判定通常需要将数千个(例如,至少约10,000个)或甚至数百万个读段映射至一个或更多个染色体。
本文所公开的方法可以使用用于确定多个测试样品中的感兴趣的序列的***来进行。***可以包括:(a)测序仪,该测序仪用于接收来自测试样品的核酸和提供来自所述样品的核酸序列信息;(b)处理器;以及(c)一个或更多个计算机可读存储介质,该计算机可读存储介质在其上存储有指令,所述指令用于在所述处理器上执行以确定测试样品中感兴趣的序列。在一些实施方案中,所述方法由计算机可读介质来指示,该计算机可读介质在其上存储有计算机可读指令,所述计算机可读指令用于进行用于确定感兴趣的序列的方法。因此,一个实施方案提供一种计算机程序产品,该计算机程序产品包括存储程序代码的非瞬时性机器可读介质,该程序代码当由计算机***的一个或更多个处理器执行时使得计算机***实现用于确定多个测试样品中核酸片段的序列的方法。
在一些实施方案中,程序代码或指令还可以包括自动地记录与所述方法有关的信息。患者医疗记录可以由例如实验室、医师的办公室、医院、健康维护组织、保险公司或个人医疗记录网站来维护。此外,基于处理器实现的分析的结果,所述方法还可以涉及开处方、启动和/或改变从其获取测试样品的人类受试者的治疗。这可以涉及对从受试者获取的另外的样品进行一次或更多次另外的测试或分析。
所公开的方法也可以使用计算机处理***来执行,该计算机处理***适于或被配置成执行用于确定感兴趣的序列的方法。一个实施方案提供了一种计算机处理***,该计算机处理***适于或被配置成进行如本文所描述的方法。在一个实施方案中,所述设备包括测序装置,该测序装置适于或被配置用于对样品中的至少一部分核酸分子进行测序,以获得本文别处所描述的序列信息的类型。所述设备还可以包括用于处理样品的组件。这样的组件在本文别处被描述。
序列或其他数据可以直接地或间接地被输入到计算机或存储在计算机可读介质上。在一个实施方案中,计算机***被直接地连接至测序装置,该测序装置读取和/或分析来自样品的核酸的序列。来自这样的工具的序列或其他信息经由计算机***中的接口被提供。可选择地,通过***处理的序列从序列存储来源诸如数据库或其他储库提供。在对于处理设备是可用的之后,存储器装置或大容量存储器装置至少暂时地缓冲或存储核酸序列。此外,存储器装置可以存储各种染色体或基因组的标签计数等。存储器还可以存储用于分析呈现的序列或映射的数据的各种程序(routine)和/或程序(program)。这样的程序(program)/程序(routine)可以包括用于执行统计分析的程序等。
在一个实例中,用户将样品提供至测序设备。数据通过被连接至计算机的测序设备来收集和/或分析。计算机上的软件允许数据收集和/或分析。数据可以被存储、展示(经由监视器或其他类似装置),和/或发送到另一个位置。计算机可以被连接至互联网,该互联网用于将数据传输到由远程用户(例如,医师、科学家或分析师)使用的手持式装置。应当理解的是,可以在传输之前存储和/或分析数据。在一些实施方案中,收集原始数据并且将其发送到远程用户或将分析和/或存储数据的设备。传输可以经由互联网发生,但是也可以经由卫星或其他连接发生。可选择地,数据可以被存储在计算机可读介质上,并且该介质可以被运送到终端用户(例如,经由邮件)。远程用户可以处于相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或大陆。
在一些实施方案中,所述方法还包括收集关于多个多核苷酸序列(例如,读段、标签和/或参考染色体序列)的数据,并且将该数据发送到计算机或其他计算***。例如,计算机可以被连接至实验室设备,例如样品收集设备、核苷酸扩增设备、核苷酸测序设备或杂交设备。然后,计算机可以收集通过实验室装置收集的可适用的数据。可以在任何步骤将数据存储在计算机上,例如,在实时收集时、在发送之前、在发送期间或与发送联合或在发送之后。可以将数据存储在可以从计算机中提取出的计算机可读介质上。所收集或存储的数据可以从计算机传输到远程位置,例如经由局域网或广域网诸如互联网。在远程位置处,可以对传输的数据进行各种操作,如下面所描述的。
其中可以在本文所公开的***、设备和方法中存储、传输、分析和/或操纵的电子格式的数据的类型是以下类型:
a)通过对测试样品中的核酸进行测序获得的读段
b)通过将读段与参考基因组或一种或更多种其他参考序列比对获得的标签
c)参考基因组或序列
d)用于将测试样品判定为受影响、未受影响或无判定的阈值
e)与感兴趣的序列有关的医学状况的实际判定
f)诊断(与判定相关联的临床状况)
g)对来源于判定和/或诊断的进一步测试的建议
h)来源于判定和/或诊断的治疗和/或监测计划
这些不同类型的数据可以使用不同的设备在一个或更多个位置处获得、存储、传输、分析和/或操纵。处理选项跨越广谱。在该谱的一个末端处,该信息的全部或许多在其中测试样品被处理的位置(例如,医生的办公室或其他临床环境)处被存储并使用。在其他极端情况下,在一个位置处获得样品,在不同的位置处对该样品进行处理和任选地测序,在一个或更多个不同的位置处对读段进行比对和判定,并且在仍另一个位置(其可以是其中获得样品的位置)处准备诊断、建议和/或计划。
在各个实施方案中,读段通过测序设备生成,并且然后被传输到远程站点,在该远程站点处,该读段被处理以确定感兴趣的序列。作为实例,在该远程位置处,将读段与参考序列比对,以产生锚读段和锚定的读段。其中可以在不同的位置处采用的处理操作是以下操作:
a)样品收集
b)在测序之前的样品处理
c)测序
d)分析序列数据并且获得医疗判定
e)诊断
f)向患者或健康护理提供者报告诊断和/或判定
g)开发用于进一步治疗、测试和/或监测的计划
h)执行计划
i)咨询
这些操作中的任何一个或更多个可以是自动的,如本文别处所描述的。典型地,序列数据的测序和分析以及获得医疗判定将在计算上进行。其他操作可以手动地或自动地进行。
图6示出了用于从多个测试样品产生判定或诊断的分散***的一个实施方式。样品收集位置01用于获得测试样品。然后将样品提供至处理和测序位置03,在该处理和测序位置03处,测试样品可以如上文所描述的处理和测序。位置03包括用于处理样品的设备以及用于对经处理的样品进行测序的设备。如本文别处所描述的,测序的结果是读段的集合,该读段的集合典型地以电子格式被提供并且被提供至诸如互联网的网络,这通过图6中的附图标记05指示。
序列数据被提供至远程位置07,在该远程位置07处进行分析和判定生成。该位置可以包括一个或更多个强大的计算装置诸如计算机或处理器。在位置07处的计算资源已经完成它们的分析并且从所接收到的序列信息生成判定之后,该判定被传回网络05。在一些实施方式中,在位置07处不仅生成判定,而且还生成相关联的诊断。然后,判定和/或诊断通过网络被传输并且被传输回样品收集位置01,如图6中所图示出的。如所解释的,这仅仅是关于与生成判定或诊断相关联的各种操作如何被划分在各种位置中的许多变型中的一个。一种常见的变型涉及在单个位置提供样品收集、以及处理和测序。另一种变型涉及在与分析和判定生成相同的位置处提供处理和测序。
图7以简单的模块格式图示出典型的计算机***,当适当地配置或设计时,该计算机***可以根据某些实施方案用作计算设备。计算机***2000包括任何数目的处理器2002(也被称为中央处理单元或CPU),所述处理器2002连接至存储器装置,该存储器装置包括主存储器2006(典型地随机存取存储器或RAM)、主存储器2004(典型地只读存储器或ROM)。CPU2002可以是各种类型的,包括微控制器和微处理器,诸如可编程装置(例如,CPLD和FPGA)和不可编程装置诸如门阵列ASIC或通用微处理器。在所描绘的实施方案中,主存储器2004用于将数据和指令单向地传输到CPU,并且主存储器2006典型地用于以双向方式传输数据和指令。这两个主存储器装置可以包括任何合适的计算机可读介质,诸如上文所描述的计算机可读介质。大容量存储器装置2008也双向地连接至主存储器2006,并且提供另外的数据存储容量,并且可以包括上文所描述的计算机可读介质中的任何一种。大容量存储器装置2008可以用于存储程序、数据等,并且典型地是辅助存储介质诸如硬盘。这样的程序、数据等经常地被临时拷贝到主存储器2006,用于在CPU 2002上执行。将理解的是,在适当的情况下,保留在大容量存储器装置2008中的信息可以以标准的方式并入作为主存储器2004的一部分。特定的大容量存储器装置诸如CD-ROM 2014也可以单向地将数据传递到CPU或主存储器。
CPU 2002还被连接至接口2010,该接口2010连接至一个或更多个输入/输出装置,诸如核酸测序仪(2020)、核酸合成仪(2022)、视频监视器、跟踪球、鼠标、键盘、麦克风、触敏显示器、换能器读卡器、磁带或纸带读取器、平板电脑、唱针、语音或手写识别***设备、USB端口或其他熟知的输入装置,当然,诸如其他计算机。最后,CPU 2002任选地可以使用如在2012处一般性地所示出的外部连接部连接至外部装置,诸如数据库或计算机或电信网络。通过这样的连接部,设想了在进行本文所描述的方法步骤的过程中,CPU可以从网络接收信息,或者可以向网络输出信息。在一些实施方式中,核酸测序仪或核酸合成仪可以经由网络连接部2012而不经由接口2010或者除了经由接口2010之外经由网络连接部2012,被通信地连接至CPU 2002。
在一个实施方案中,诸如计算机***2000的***被用作能够进行本文所描述的任务中的一些或全部的数据导入、数据关联和查询***。包括数据文件的信息和程序可以经由网络连接部2012被提供,以用于由研究者访问或下载。可选择地,这样的信息、程序和文件可以在存储器装置上被提供至研究者。
在具体的实施方案中,计算机***2000被直接地连接至数据采集***诸如微阵列、高通量筛选***或从样品中捕获数据的核酸测序仪(2020)。来自这样的***的数据经由接口2010被提供,以用于通过***2000进行分析。可选择地,通过***2000处理的数据从数据存储来源诸如数据库或相关数据的其他储库提供。一旦在设备2000中,诸如主存储器2006或大容量存储器2008的存储器装置至少暂时地缓冲或存储相关数据。存储器还可以存储用于导入、分析和呈现数据的各种程序(routine)和/或程序(program),包括选择和/或验证索引序列、用于确定序列读段以及校正读段中的错误的代码等。
在某些实施方案中,本文所使用的计算机可以包括用户终端,该用户终端可以是任何类型的计算机(例如,台式计算机、膝上型计算机、平板电脑等)、媒体计算平台(例如,电缆、***机顶盒、数字录像机等)、手持式计算装置(例如,PDA、电子邮件客户端等)、手机或任何其他类型的计算或通信平台。
在某些实施方案中,本文所使用的计算机还可以包括与用户终端通信的服务器***,所述服务器***可以包括服务器装置或分散化的服务器装置,并且可以包括大型计算机、小型计算机、超级计算机、个人计算机或其组合。也可以使用多个服务器***,而不偏离本发明的范围。用户终端和服务器***可以通过网络相互通信。网络可以包括例如有线网络诸如LAN(局域网)、WAN(广域网)、MAN(城域网)、ISDN(综合业务数字网)等,以及无线网络诸如无线LAN、CDMA、蓝牙和卫星通信网络等,而不限制本发明的范围。
本公开内容可以以其他特定的形式来体现,而不偏离本公开内容的精神或本质特性。所描述的实施方案应在所有方面中均被认为仅是说明性的而非限制性的。因此,本公开内容的范围由所附权利要求而不是由前述描述来指示。在权利要求的等效形式的含义和范围内的所有变化均被包括在权利要求的范围内。
实验
实施例1
索引序列验证
进行计算机模拟实验以验证根据一些实施方式的索引序列的有效性和效力。索引序列满足以下条件。
●索引序列与测序平台测序衔接子或引物的8聚体子序列(或反向互补物)没有直接匹配
○SBS491
○P7
○P5
○SBS3
●没有出现四种核苷酸均聚物
●G/C含量为2至6
●没有使用表4中列出的序列(已知的差的执行者)
●设计1:索引序列选自表1和表2中的那些索引序列
○没有两个序列具有<4的汉明距离
●设计2:索引序列选自表3中的那些索引序列
○汉明距离
■在给定的板的I5序列或I7序列中,任何对之间的汉明距离>=5
■在跨越整个设计的所有序列(I5和I7)中,任何对之间的汉明距离>=4
○编辑距离
■在跨越整个设计的所有序列(I5和I7)中,任何对之间的“编辑”距离>=3
计算机模拟实验通过3次编辑操作生成100万个随机变化的索引序列,并且在所得到的序列中没有发现直接匹配。该实验生成100万个具有1个缺失和1个取代操作的随机变化的索引序列,并且在所得到的序列中没有发现直接匹配。
所得到的序列被分配至多孔板布局,如图4中所示出的。发现,没有i5/i7对出现多于一次。所设计的对是颜色平衡的。三元组(triple)(四分之一行)是颜色平衡的。四元组(quadruple)(半列)是颜色平衡的。六元组(hextuple)(半行)是颜色平衡的。八元组(octuple)(全列)是颜色平衡的。所设计的汇集物(双元组、三元组、四元组、六元组、八元组)不具有重复的对(即它们减轻了索引跳跃)。
实验结果证明,根据一些实施方式提供的索引序列和索引寡核苷酸可以检测和校正索引序列读段中的错误,从而在多重大规模平行测序中提供更准确的样品索引。
实施例2
8聚体索引集
本实施例描述了根据一些实施方式的8聚体索引序列集的设计考虑,并且列出了索引集中的序列。
该索引集支持更大量的索引物,并且将索引长度保持在8bp。与实施例1的索引设计相比,编辑距离阈值被降低到零,并且汉明距离阈值被降低到3。
设计策略的概述在下面给出。
●索引序列与测序平台衔接子或引物序列的8聚体子序列(或反向互补物)没有直接匹配,所述测序平台衔接子或引物序列例如,
○SBS491
○P7
○P5
○SBS3
●没有出现四种核苷酸均聚物
●GC含量在25%和75%(包含端点)之间
●没有使用表4中列出的序列(已知的差的执行者)
●最小汉明距离为3
●最小修改的编辑距离为2
●索引物作为颜色平衡对提供。每一对用数字2n-1和2n标记,其中n是正整数。
总计获得734个序列,如下面所列出的。它们包括实施例1中测试并且在表3中示出的所有序列。
Figure BDA0002336238860000931
Figure BDA0002336238860000951
Figure BDA0002336238860000961
实施例3
10聚体索引集
本实施例描述了根据一些实施方式的10聚体索引序列集的设计考虑,并且列出了索引集中的序列。该索引集支持更大量的索引物,并且将索引长度保持在10bp。设计策略的概述在下面给出。
●索引序列与测序平台衔接子或引物序列的10聚体子序列(或反向互补物)没有直接匹配,所述测序平台衔接子或引物序列例如,
○SBS491
○P7
○P5
○SBS3
●没有出现四种核苷酸均聚物
●GC含量在25%和75%(包含端点)之间
●没有使用表4中列出的序列(已知的差的执行者)
●最小汉明距离为4
●最小修改的编辑距离为3
●索引物作为颜色平衡对提供
总计获得1026个10聚体序列,并且它们被组合并显示在SEQ ID NO:9的组合序列中。第n个10聚体序列包括SEQ ID NO:9中的核苷酸10(n-1)+1、10(n-1)+2、10(n-1)+3、……、10(n-1)+10。SEQ ID NO:9中的第(2m-1)个10聚体和第2m个10聚体是颜色平衡的,其中m是在1和513之间的整数。在一些实施方式中,获得索引序列集。索引序列集包括SEQID NO:9的1026个10聚体序列。在一些实施方式中,寡核苷酸使用索引序列来生成。寡核苷酸包括双链的或Y形的测序衔接子。每一个双链的或Y形的测序衔接子的每条链包含对应于SEQ ID NO:9中的10聚体的索引序列。在其他实施方式中,寡核苷酸集包括单链寡核苷酸对,例如引物对。每一对单链寡核苷酸在试剂中一起被提供。一对中的每一个寡核苷酸包含对应于SEQ ID NO:9中的10聚体的索引序列。
十个子集选自SEQ ID NO:9中的1026个10聚体,作为索引序列的子集。为了选择10聚体的子集,使用双链测序衔接子进行测序。双链测序衔接子的每条链包含来自SEQ IDNO:9中的1026个序列的索引序列。不同的索引序列对用于生成不同的测序衔接子。测量衔接子的测序性能。基于所测量的测序性能,索引序列被排序。使用索引序列的排序作为标准,可以从1026个序列选择10聚体序列的一个或更多个子集。
在一些实施方式中,选择具有最高测序性能的索引序列的96个不同对的子集。在一个实施方式中,96个索引序列对中的每一对包含SEQ ID NO:10中的第n个10聚体和SEQID NO:11中的第n个10聚体。
十个子集中的每一个中的10聚体被组合并且以组合序列示出。十个子集分别地对应于十个组合序列:SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、和SEQ ID NO:19。组合序列中的第n个10聚体序列包括核苷酸10(n-1)+1、10(n-1)+2、10(n-1)+3、……、10(n-1)+10。SEQ ID NO:10至SEQ ID NO:19中的第(2m-1)个10聚体和第2m个10聚体是颜色平衡的,其中m是正整数。每一个10聚体不同于子集中的任何其他10聚体。五个子集(对应于SEQ IDNO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16和SEQ ID NO:18)中的任何一个中的每一个10聚体不同于在该五个子集中的任何一个中的所有其他10聚体。另外的五个子集(对应于SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17、和SEQ ID NO:19)中的任何一个中的每一个10聚体不同于在所述另外的五个子集中的任何一个中的所有其他10聚体。
在一些实施方式中,每一个Y形的或双链的测序衔接子包含第一链和第二链,所述第一链包含选自索引序列集中的第一子集的第一索引序列,所述第二链包含选自索引序列集中的第二子集(或第二子集的反向互补物)的第二索引序列。在一些实施方式中,每一对寡核苷酸(例如,引物)包含第一寡核苷酸和第二寡核苷酸,所述第一寡核苷酸包含选自索引序列集中的第一子集的第一索引序列,所述第二寡核苷酸包含选自索引序列集中的第二子集(或第二子集的反向互补物)的第二索引序列。
在一些实施方式中,第一索引序列和第二索引序列分别为:SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11(或SEQ ID NO:11的反向互补物)中的第n个10聚体;SEQ ID NO:12中的第n个10聚体和SEQ ID NO:13(或其反向互补物)中的第n个10聚体;SEQ ID NO:14中的第n个10聚体和SEQ ID NO:15(或其反向互补物)中的第n个10聚体;SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17(或其反向互补物)中的第n个10聚体;SEQ ID NO:18中的第n个10聚体和SEQ ID NO:19(或其反向互补物)中的第n个10聚体。
在一些实施方式中,第一索引序列和第二索引序列被包含在寡核苷酸中,该寡核苷酸被提供在包含多个单独的隔室的容器的一个反应隔室中。每一个隔室包含(a)包含第一索引序列的第一多个寡核苷酸和(b)包含第二索引序列的第二多个寡核苷酸,隔室中(a)和(b)的有序组合不同于任何其他隔室中(a)和(b)的有序组合。
在一些实施方式中,容器包括多孔板。在一些实施方式中,容器包含8x12隔室。在隔室被标记为A-H行和1-12列的情况下,它们可以被列为A1、A2、A3、……、A12、B1、B2、……、B12、……、H1、H2、……、H12。在一些实施方式中,在列表上的第n个隔室中,第一索引序列和第二索引序列分别为:SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11中的第n个10聚体(或SEQ ID NO:11中的第n个10聚体的反向互补物);SEQ ID NO:12中的第n个10聚体和SEQID NO:13中的第n个10聚体(或SEQ ID NO:13中的第n个10聚体的反向互补物);SEQ ID NO:14中的第n个10聚体和SEQ ID NO:15中的第n个10聚体(或其反向互补物);或者SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17中的第n个10聚体(或其反向互补物)。
序列表
<110> 伊鲁米那股份有限公司
<120> 用于多核苷酸样品的索引的通用短衔接子
<130> ILMNP023
<150> US 62/503,272
<151> 2017-05-08
<150> US 62/524,390
<151> 2017-06-23
<160> 19
<170> PatentIn version 3.5
<210> 1
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 1
agatgtgtat aagagacag 19
<210> 2
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 2
ctgtctctta tacacatct 19
<210> 3
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 3
tcgtcggcag cgtc 14
<210> 4
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 4
gacgctgccg acga 14
<210> 5
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 5
gtctcgtggg ctcgg 15
<210> 6
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 6
ccgagcccac gagac 15
<210> 7
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 7
caagcagaag acggcatacg agat 24
<210> 8
<211> 29
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 8
aatgatacgg cgaccaccga gatctacac 29
<210> 9
<211> 10260
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 9
tgttcaccat cacctgttgc gtaggtggtg acgaacaaca acgccttgtt gtattccacc 60
tgtaaggtgg cacggaacaa ctcaacgctt tctggtatcc gagtcatagg agactgcgaa 120
agctggaatg gatcaaggca tcagtctcgt ctgactctac cgaagattct taggagcctc 180
cctctacatg ttctcgtgca gcgttggtat ataccaacgc aatagctgag ggcgatcaga 240
caatataggt tggcgcgaac atggttgact gcaaccagtc tccattgccg cttgccatta 300
agcgaattag gataggccga gtgcagacag acatgagtga taaccgtaat cggttacggc 360
taccgcctcg cgttattcta ttcataaggt cctgcggaac aacactgtta ggtgtcaccg 420
acatatccag gtgcgcttga tggagtactt caagacgtcc attgcgcggt gccatataac 480
cagtggcact tgacaatgtc cgacctaacg tagttcggta gccgcactct attatgtctc 540
agaaccgagt gaggttagac gttaattacg accggccgta cctcgtgcgt ttctacatac 600
acttcaagcg gtcctggata aatcaccagc ggctgttgat caatcggctg tggctaatca 660
ttaagacaag ccggagtgga aacttatcct ggtccgcttc ctcgcttcgg tctatcctaa 720
gaacttcctt aggtccttcc tatggagatt cgcaagagcc accacgacat gttgtagtgc 780
tcatagattg ctgcgagcca cagcacggag tgatgtaaga ccgttcaagg ttacctggaa 840
aagcatcttg ggatgctcca aacagacggc ggtgagtaat ctagtgctct tcgacatctc 900
cgtctcatat tactctgcgc tcagaaggcg ctgaggaata gacaccatgt agtgttgcac 960
atgtaacgtt gcacggtacc tctaggcgcg ctcgaatata caagttattg tggaccgcca 1020
atcggcgaag gctaatagga aatgcgaaca ggcataggtg tggcctctgt caattctcac 1080
gattctgaat agcctcaggc atgttgttgg gcaccaccaa accaagcagg gttggatgaa 1140
tatcactctg cgctgtctca cgatgcggtt tagcataacc gtccaccgct acttgttatc 1200
gagaggttcg agagaaccta ctggcaagag tcaatggaga tccgccaatt cttattggcc 1260
actctattgt gtctcgccac atccaggtat gcttgaacgc aagttgacaa ggaccagtgg 1320
ttgtatcagg ccacgctgaa gaatacctat aggcgttcgc ctaataaccg tcggcggtta 1380
cgagaggcgt tagagaatac ccgacagact ttagtgagtc attggcttct gccaatcctc 1440
aattcttgga ggcctccaag taggctcgcg cgaatctata gttcggagtt acctaagacc 1500
gcgtgctgtg atacatcaca tgtggtccgg cacaacttaa cagcaatcgt tgatggctac 1560
catatgcgat tgcgcatagc gcgtccacct atacttgttc gctgacgttg atcagtacca 1620
ttaaccttcg ccggttccta tacgtgaagg cgtacaggaa aggtatggcg gaacgcaata 1680
tgtctggcct cactcaattc acagtaagat gtgacggagc ctgagccggt tcagattaac 1740
tgccggtcag cattaactga agtactcatg gacgtctgca ccgcgtatag ttatacgcga 1800
gtaacttggt acggtccaac cgcttagaat tatccgaggc aacgaggccg ggtagaatta 1860
cctaacacag ttcggtgtga tggtagagat caacgagagc aagcgcgctt ggatatatcc 1920
gtggtatctg acaacgctca attccataag gccttgcgga gctcttaact atctccggtc 1980
cggatgcttg taagcatcca aacggtctat ggtaactcgc gtggacaagt acaagtggac 2040
tcctggttgt cttcaaccac tcgctatgag ctatcgcaga cattagtgcg tgccgacata 2100
agtagagccg gacgagatta cgtgcttgct tacatccatc gactgagtag agtcagacga 2160
ataatccgtg gcggcttaca gagaatggtt agaggcaacc tcacaacagt ctgtggtgac 2220
gaactgagcg aggtcagata aaggccacgg ggaattgtaa cctgaccact ttcagttgtc 2280
cgcattccgt tatgccttac gtattgacgt acgccagtac aaccatagaa ggttgcgagg 2340
ttacgcacct ccgtatgttc aagatacacg ggagcgtgta attgatactg gccagcgtca 2400
caccgatgtg tgttagcaca ttggcagcgt ccaatgatac gcataagctt atgcggatcc 2460
gcttctctgg atcctctcaa cacggctagt tgtaatcgac tgattatacg cagccgcgta 2520
tataacagct cgcggtgatc catagtaagg tgcgacggaa gagcgacgat agatagtagc 2580
ttcttacttg cctccgtcca ctacacatgg tcgtgtgcaa acttacggat gtccgtaagc 2640
acagtgtatg gtgacacgca ttgctctatt ccatctcgcc ccaaggcctt ttggaattcc 2700
taatgtgtct cggcacactc actcggcaat gtctaatggc aggatgtgct gaagcacatc 2760
tatcttgtag cgctccacga ttcactcact cctgtctgtc ccatcattag ttgctgccga 2820
atgagatcat gcagagctgc tgtcgctggt cactatcaac ctctgcagcg tctcatgata 2880
aggataatgt gaagcggcac cgcacgactg tatgtagtca gttaccgtgg accgttacaa 2940
aacaagtaca ggtggacgtg aacatcgcgc ggtgctatat tcaccaactt ctgttggtcc 3000
aatggattga ggcaagccag ctccactaat tcttgtcggc ttgttgaatg ccaccaggca 3060
acacaggtgg gtgtgaacaa tccacgtgtt cttgtacacc gagcttgccg agatccatta 3120
cgccatatct tattgcgctc gtaactgaag acggtcagga aacgcacgag ggtatgtaga 3180
tgccaactgg cattggtcaa gacgtggtct agtacaactc caacgttcgg tggtacctaa 3240
gcgaactccg ataggtctta atagcggaat gcgataaggc taattagcgt cggccgatac 3300
gccacctact attgttcgtc catcgtcatt tgctactgcc cgtgtcgtgg tacactacaa 3360
accgtgtggt gttacacaac gcgtattaat atacgccggc tatcggaccg cgctaagtta 3420
ttgaatgttg ccaggcacca gaggcctatt agaattcgcc aattccatct ggccttgctc 3480
tccggactag cttaagtcga tcataccgtt ctgcgttacc aatctagaga ggctcgagag 3540
acaactactg gtggtcgtca tgtgataact cacagcggtc caataggaat tggcgaaggc 3600
atggcgcctg gcaatattca ttaacggtgt ccggtaacac cctcacgagg ttctgtagaa 3660
gaattacaag aggccgtgga ctagattgcg tcgagccata aagacattag ggagtgccga 3720
atatgcatgt gcgcatgcac gacgcatcgt agtatgctac cgcagtggct tatgacaatc 3780
tcactgtccg ctgtcactta aactcgccgg ggtctattaa aacgttagtt ggtaccgacc 3840
gcgtggatgg atacaagcaa tggtgttatg caacaccgca tgtggcgcat cacaatatgc 3900
aattggcgcc ggccaatatt acgttagccg gtaccgatta cctccggttg ttcttaacca 3960
gagatccgct agagcttatc cgaggccaag tagaattgga tccgttatgt cttaccgcac 4020
accacagtcg gttgtgacta ttacagttag ccgtgaccga cgcagcaatt tatgatggcc 4080
gaagaacgct aggaggtatc ccttcgtgat ttcctacagc ttcctcggtg ccttctaaca 4140
aggcagctct gaatgatctc gatattgtgt agcgccacac agctaagcgg gatcggataa 4200
ctctgtgtat tctcacacgc gtaccttccg acgttcctta gcaatacatt atggcgtgcc 4260
tgataacgag cagcggtaga cgtgtaccag tacacgttga gtaagcaacg acggatggta 4320
tgttccggct caccttaatc ttgtctacat ccactcgtgc actagatgtt gtcgagcacc 4380
attaacaagg gccggtggaa ctatagtctt tcgcgactcc aatattgcca ggcgccattg 4440
tggccggatt caattaagcc tagaactaag cgaggtcgga agcctatgat gattcgcagc 4500
atgtgtcaat gcacactggc ataagattgg gcggagccaa tccgtatact cttacgcgtc 4560
aatccaattg ggcttggcca ttatgcgtag ccgcatacga gcgattggag atagccaaga 4620
agtatcagtt gacgctgacc ctggaactgt tcaaggtcac cttgtgtgag tccacacaga 4680
gatcgtcgcg agctactata ctacatgcct tcgtgcattc gaagtgaatt aggacaggcc 4740
aaccttatgg ggttccgcaa tcttagctat ctccgatcgc agtggttaag gacaaccgga 4800
gtgctaggtt acatcgaacc cgtcaccttg tactgttcca tgacggccgt cagtaattac 4860
ttcgccaccg cctattgtta ccagtcgacg ttgactagta aaggacgcac ggaagtatgt 4920
gccatgtgcg attgcacata cagagtccat tgagacttgc gaatatgcgg aggcgcataa 4980
cctgcaacct ttcatggttc aagttctagt ggacctcgac cgtacatacg tacgtgcgta 5040
atacagtgct gcgtgacatc agcgctgtgt gatatcacac tcgcaggaag ctatgaagga 5100
tatgccggtg cgcattaaca gtgcattctt acatgcctcc gtatggttat acgcaaccgc 5160
cacacagtat tgtgtgacgc agagatagag gagagcgaga ctcttgcacg tctccatgta 5220
accagttcag gttgacctga ccggcgatgt ttaatagcac cggtaacctg taacggttca 5280
cattcttatg tgcctccgca tctattcagt ctcgcctgac gtgcgcgact acatatagtc 5340
tactactcgt cgtcgtctac tggtagttcg caacgaccta gtaacaatct acggtggctc 5400
aagccgcaag ggattatgga gccagcagag attgatgaga ctctggcgtt tctcaatacc 5460
atcctaatct gcttcggctc ccaggcttgg ttgaatccaa cattcacgct tgcctgtatc 5520
aaggttgtga ggaaccacag cggaagaagg taaggaggaa gtcgatatcg actagcgcta 5580
accgaaccat gttaggttgc tattcaacgg cgcctggtaa cggtgagacg taacagagta 5640
gcacttgatg atgtccagca cttgattcat tccagcctgc aaggtgcggc ggaacataat 5700
agattaagtg gagccggaca acacgttcct gtgtaccttc gtccaagcgt acttggatac 5760
tatctccaat cgctcttggc gacggtaatg agtaacggca aagatctctg ggagctctca 5820
caggccagct tgaattgatc ttgcgtacgg ccatacgtaa gttctacgag acctcgtaga 5880
cgtgtgtctt tacacactcc aaccagccac ggttgattgt ttgtccgctg ccacttatca 5940
caacgcgttg tggtatacca ccgaatctgg ttaggctcaa cggcagtgtt taatgacacc 6000
attatccact gccgcttgtc aagacaagtt ggagtggacc cctgtagagt ttcacgagac 6060
tctcctggcg ctcttcaata aaccgagttc ggttagacct gccagtcggt attgactaac 6120
agaaggacgg gaggaagtaa acatcacaat gtgctgtggc cacgcgcatg tgtatatgca 6180
cggactgtcg taagtcacta tcctattacg cttcgccgta atgcatatgt gcatgcgcac 6240
atatctgctt gcgctcatcc tggaggcaat caagaatggc accgtcgcct gttactattc 6300
cgtggaagat tacaaggagc gaacggccag aggtaattga gcctaacgtg attcggtaca 6360
ctggttgtag tcaaccacga tctgagtgtg ctcagacaca tgaggagtgt cagaagacac 6420
cgcttgaggt tatccagaac atcaccttat gctgttccgc aattggtagg ggccaacgaa 6480
atgagcggcg gcagataata actctcgatt gtctctagcc agagcgctgg gagatatcaa 6540
tgccacaacg cattgtggta tcgccgtcgt ctattactac taattctgct cggcctcatc 6600
attaagccat gccggattgc cacaccgacg tgtgttagta tcggcacgat ctaatgtagc 6660
gttcaattgg acctggccaa cgacgaacag tagtaggtga aagtgtaacg ggacacggta 6720
gtcggctctt actaatctcc ccgatcttat ttagctccgc cttgagagct tccagagatc 6780
gagttaactt agaccggtcc aactatgcat ggtcgcatgc gaagtcctcg aggacttcta 6840
tcttatagag ctccgcgaga gatccgtgtg agcttacaca ccaccggagt ttgttaagac 6900
tgaacacctg caggtgttca aatagaacgt ggcgaggtac ctatgttaag tcgcaccgga 6960
atcattggat gctgccaagc tgcgtcttcg catactccta aatctactcc ggctcgtctt 7020
gtgttacagt acaccgtgac tcttacgccg ctccgtatta tagtggcttg cgacaatcca 7080
taccaaggtt cgttggaacc accggaacgg gttaaggtaa ccgaagcgct ttaggatatc 7140
tgaagtgcag caggacatga caagctcaat tggatctggc ctcatcctgg tctgcttcaa 7200
cggccttgag taattccaga cctaaggatt ttcggaagcc gttgaggcgg accagaataa 7260
gagtctgttg agactcacca gttggccaat accaattggc tcaccgcgct ctgttatatc 7320
aggtgcgcag gaacatatga gccgttcttg attacctcca ccgcggttct ttataacctc 7380
cgatcgaatt tagctaggcc aatatgaagc ggcgcaggat tgacatgagg cagtgcagaa 7440
gccagaactt attgaggtcc gactccttcg agtcttccta ctacttagag tcgtccgaga 7500
ttcaagtatg cctggacgca cttacattgt tccgtgccac aatgaatacg ggcaggcgta 7560
cacctctctt tgttctctcc atgattccgg gcagccttaa gtatacagag acgcgtgaga 7620
gttctgtcat acctcactgc tgtcgagttg cactagacca agcggagact gataagagtc 7680
gtgatcgcgt acagctatac ttaccagatg ccgttgagca caggtataag tgaacgcgga 7740
gatagccttg agcgattcca ctggctcgtt tcaatctacc tacgcgatat cgtatagcgc 7800
aaccttcact ggttcctgtc gtgtaggacg acacgaagta tcggacgtat ctaagtacgc 7860
atagtgatag gcgacagcga agttaatgct gaccggcatc agcagcgtgg gatgatacaa 7920
cactctggag tgtctcaaga aagtggtgta ggacaacacg tataggtact cgcgaacgtc 7980
tcacgtaggt ctgtacgaac actgccgcag gtcattatga aggtggcctt gaacaattcc 8040
ttagtcggat ccgactaagc catggagcgg tgcaagataa ttgcaacgcg ccatggtata 8100
acctacaagt gttcgtggac tagctcacag cgatctgtga taggtatgtt cgaacgcacc 8160
gctctgacgg atctcagtaa agcacctgcg gatgttcata gagccactcg agattgtcta 8220
ctaccatcat tcgttgctgc cattgtacct tgccacgttc ttggcctagg ccaattcgaa 8280
agtcacgtgt gactgtacac gcttagtcag atccgactga acgaatagat gtaggcgagc 8340
atattaggct gcgccgaatc tcagctgcct ctgatcattc ccaagaggtg ttggagaaca 8400
aatccgcctt ggcttattcc aactacattg ggtcgtgcca gtcatgcaat actgcatggc 8460
cgtaggctgt tacgaatcac taaggtcgtt cggaactacc accttccgcg gttccttata 8520
gcagacacgg atgagtgtaa caatccttgt tggcttccac cgacaaggat tagtggaagc 8580
aatgtcggaa ggcactaagg gctagactat atcgagtcgc tgatgcactg cagcatgtca 8640
gcttcatatt atcctgcgcc actatgatcg gtcgcagcta tagagaccgg cgagagttaa 8700
agacgatgcg gagtagcata gacaattgag agtggccaga ccaagtaact ttggacggtc 8760
gccttcagtt attcctgacc agacctacat gagttcgtgc tcctcggact cttctaagtc 8820
actcaactag gtctggtcga ttagaccatg ccgagttgca tggttctcat caacctctgc 8880
agtgcgagtg gacatagaca atgtgactcg gcacagtcta cggctgcagt taatcatgac 8940
tacaagactt cgtggagtcc catatcttcg tgcgctccta acgagagaag gtagagagga 9000
ttacttctgg ccgtcctcaa gatactaccg agcgtcgtta aggtgtaggt gaacacgaac 9060
tggataggat caagcgaagc tatgaacttg cgcaggtcca aatcgcgtca ggctatactg 9120
agtccggagg gacttaagaa attctcacgt gcctctgtac tggtcatggt caactgcaac 9180
gtccgtcctg acttacttca gccgaggagt attagaagac tcgacgctag ctagtatcga 9240
ctgaattagt tcaggccgac cttggtctcg tccaactcta cggtcggcat taactaatgc 9300
atataatccg gcgcggctta ataaggcagt gcggaatgac aactgtcgtg ggtcactaca 9360
aggctgaacg gaatcaggta aaggaagagt ggaaggagac ccttgcctag ttccattcga 9420
ctcaagttct tctggacctc acagaattct gtgaggcctc gctaggaagt atcgaaggac 9480
atactctagg gcgtctcgaa gttccgaacg accttaggta aagagagtct ggagagactc 9540
ttcgaagagg cctaggagaa aaggcttcat ggaatcctgc tctacgaatg ctcgtaggca 9600
gatcagcact agctgatgtc ccgctccgtt ttatcttacc ttgtgtggtt ccacacaacc 9660
taggttacct cgaaccgttc aagcctaata ggattcggcg tgtacaatag cacgtggcga 9720
accgattatt gttagccgcc aagaggatga ggagaagcag tgttcgatgt cacctagcac 9780
cggttaatag taaccggcga tagcgttgct cgataccatc accatacctg gttgcgttca 9840
tgcaatgaat catggcaggc gcaggaccgt atgaagttac tctcgctaag ctctatcgga 9900
ttcagcattg cctgatgcca cacgtcagag tgtactgaga ctctcctcct tctcttcttc 9960
acggattcgg gtaagcctaa gcgaccgatg atagttagca gaatgtcagt aggcactgac 10020
gctcgcacat atctatgtgc cagacgtggt tgagtacaac acatctgagg gtgctcagaa 10080
attctagctg gcctcgatca aatgactggt ggcagtcaac tccttcgaag cttcctagga 10140
gactggagct agtcaagatc atgtcgtatt gcactacgcc aagattcgta ggagcctacg 10200
gatcgatcct agctagcttc agttcctcgg gaccttctaa aggagtcgag gaagactaga 10260
<210> 10
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 10
ggatatatcc aagcgcgctt caacgagagc tggtagagat ttcggtgtga cctaacacag 60
ggtagaatta aacgaggccg tatccgaggc cgcttagaat acggtccaac gtaacttggt 120
ttatacgcga ccgcgtatag gacgtctgca agtactcatg cattaactga tgccggtcag 180
tcagattaac ctgagccggt gtgacggagc acagtaagat cactcaattc tgtctggcct 240
gaacgcaata aggtatggcg cgtacaggaa tacgtgaagg ccggttccta ttaaccttcg 300
atcagtacca gctgacgttg atacttgttc gcgtccacct tgcgcatagc catatgcgat 360
tgatggctac cagcaatcgt cacaacttaa tgtggtccgg atacatcaca gcgtgctgtg 420
acctaagacc gttcggagtt cgaatctata taggctcgcg ggcctccaag aattcttgga 480
gccaatcctc attggcttct ttagtgagtc ccgacagact tagagaatac cgagaggcgt 540
tcggcggtta ctaataaccg aggcgttcgc gaatacctat ccacgctgaa ttgtatcagg 600
ggaccagtgg aagttgacaa gcttgaacgc atccaggtat gtctcgccac actctattgt 660
cttattggcc tccgccaatt tcaatggaga ctggcaagag agagaaccta gagaggttcg 720
acttgttatc gtccaccgct tagcataacc cgatgcggtt cgctgtctca tatcactctg 780
gttggatgaa accaagcagg gcaccaccaa atgttgttgg agcctcaggc gattctgaat 840
caattctcac tggcctctgt ggcataggtg aatgcgaaca gctaatagga atcggcgaag 900
tggaccgcca caagttattg ctcgaatata tctaggcgcg gcacggtacc atgtaacgtt 960
<210> 11
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 11
tgttcaccat cacctgttgc gtaggtggtg acgaacaaca acgccttgtt gtattccacc 60
tgtaaggtgg cacggaacaa ctcaacgctt tctggtatcc gagtcatagg agactgcgaa 120
agctggaatg gatcaaggca tcagtctcgt ctgactctac cgaagattct taggagcctc 180
cctctacatg ttctcgtgca gcgttggtat ataccaacgc aatagctgag ggcgatcaga 240
caatataggt tggcgcgaac atggttgact gcaaccagtc tccattgccg cttgccatta 300
agcgaattag gataggccga gtgcagacag acatgagtga taaccgtaat cggttacggc 360
taccgcctcg cgttattcta ttcataaggt cctgcggaac aacactgtta ggtgtcaccg 420
acatatccag gtgcgcttga tggagtactt caagacgtcc attgcgcggt gccatataac 480
cagtggcact tgacaatgtc cgacctaacg tagttcggta gccgcactct attatgtctc 540
agaaccgagt gaggttagac gttaattacg accggccgta cctcgtgcgt ttctacatac 600
acttcaagcg gtcctggata aatcaccagc ggctgttgat caatcggctg tggctaatca 660
ttaagacaag ccggagtgga aacttatcct ggtccgcttc ctcgcttcgg tctatcctaa 720
gaacttcctt aggtccttcc tatggagatt cgcaagagcc accacgacat gttgtagtgc 780
tcatagattg ctgcgagcca cagcacggag tgatgtaaga ccgttcaagg ttacctggaa 840
aagcatcttg ggatgctcca aacagacggc ggtgagtaat ctagtgctct tcgacatctc 900
cgtctcatat tactctgcgc tcagaaggcg ctgaggaata gacaccatgt agtgttgcac 960
<210> 12
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 12
agtgttgcac gacaccatgt ctgaggaata tcagaaggcg tactctgcgc cgtctcatat 60
tcgacatctc ctagtgctct ggtgagtaat aacagacggc ggatgctcca aagcatcttg 120
ttacctggaa ccgttcaagg tgatgtaaga cagcacggag ctgcgagcca tcatagattg 180
gttgtagtgc accacgacat cgcaagagcc tatggagatt aggtccttcc gaacttcctt 240
tctatcctaa ctcgcttcgg ggtccgcttc aacttatcct ccggagtgga ttaagacaag 300
tggctaatca caatcggctg ggctgttgat aatcaccagc gtcctggata acttcaagcg 360
ttctacatac cctcgtgcgt accggccgta gttaattacg gaggttagac agaaccgagt 420
attatgtctc gccgcactct tagttcggta cgacctaacg tgacaatgtc cagtggcact 480
gccatataac attgcgcggt caagacgtcc tggagtactt gtgcgcttga acatatccag 540
ggtgtcaccg aacactgtta cctgcggaac ttcataaggt cgttattcta taccgcctcg 600
cggttacggc taaccgtaat acatgagtga gtgcagacag gataggccga agcgaattag 660
cttgccatta tccattgccg gcaaccagtc atggttgact tggcgcgaac caatataggt 720
ggcgatcaga aatagctgag ataccaacgc gcgttggtat ttctcgtgca cctctacatg 780
taggagcctc cgaagattct ctgactctac tcagtctcgt gatcaaggca agctggaatg 840
agactgcgaa gagtcatagg tctggtatcc ctcaacgctt cacggaacaa tgtaaggtgg 900
gtattccacc acgccttgtt acgaacaaca gtaggtggtg cacctgttgc tgttcaccat 960
<210> 13
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 13
atgtaacgtt gcacggtacc tctaggcgcg ctcgaatata caagttattg tggaccgcca 60
atcggcgaag gctaatagga aatgcgaaca ggcataggtg tggcctctgt caattctcac 120
gattctgaat agcctcaggc atgttgttgg gcaccaccaa accaagcagg gttggatgaa 180
tatcactctg cgctgtctca cgatgcggtt tagcataacc gtccaccgct acttgttatc 240
gagaggttcg agagaaccta ctggcaagag tcaatggaga tccgccaatt cttattggcc 300
actctattgt gtctcgccac atccaggtat gcttgaacgc aagttgacaa ggaccagtgg 360
ttgtatcagg ccacgctgaa gaatacctat aggcgttcgc ctaataaccg tcggcggtta 420
cgagaggcgt tagagaatac ccgacagact ttagtgagtc attggcttct gccaatcctc 480
aattcttgga ggcctccaag taggctcgcg cgaatctata gttcggagtt acctaagacc 540
gcgtgctgtg atacatcaca tgtggtccgg cacaacttaa cagcaatcgt tgatggctac 600
catatgcgat tgcgcatagc gcgtccacct atacttgttc gctgacgttg atcagtacca 660
ttaaccttcg ccggttccta tacgtgaagg cgtacaggaa aggtatggcg gaacgcaata 720
tgtctggcct cactcaattc acagtaagat gtgacggagc ctgagccggt tcagattaac 780
tgccggtcag cattaactga agtactcatg gacgtctgca ccgcgtatag ttatacgcga 840
gtaacttggt acggtccaac cgcttagaat tatccgaggc aacgaggccg ggtagaatta 900
cctaacacag ttcggtgtga tggtagagat caacgagagc aagcgcgctt ggatatatcc 960
<210> 14
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 14
ggtaccgacc aacgttagtt ggtctattaa aactcgccgg ctgtcactta tcactgtccg 60
tatgacaatc cgcagtggct agtatgctac gacgcatcgt gcgcatgcac atatgcatgt 120
ggagtgccga aagacattag tcgagccata ctagattgcg aggccgtgga gaattacaag 180
ttctgtagaa cctcacgagg ccggtaacac ttaacggtgt gcaatattca atggcgcctg 240
tggcgaaggc caataggaat cacagcggtc tgtgataact gtggtcgtca acaactactg 300
ggctcgagag aatctagaga ctgcgttacc tcataccgtt cttaagtcga tccggactag 360
ggccttgctc aattccatct agaattcgcc gaggcctatt ccaggcacca ttgaatgttg 420
cgctaagtta tatcggaccg atacgccggc gcgtattaat gttacacaac accgtgtggt 480
tacactacaa cgtgtcgtgg tgctactgcc catcgtcatt attgttcgtc gccacctact 540
cggccgatac taattagcgt gcgataaggc atagcggaat ataggtctta gcgaactccg 600
tggtacctaa caacgttcgg agtacaactc gacgtggtct cattggtcaa tgccaactgg 660
ggtatgtaga aacgcacgag acggtcagga gtaactgaag tattgcgctc cgccatatct 720
agatccatta gagcttgccg cttgtacacc tccacgtgtt gtgtgaacaa acacaggtgg 780
ccaccaggca ttgttgaatg tcttgtcggc ctccactaat ggcaagccag aatggattga 840
ctgttggtcc tcaccaactt ggtgctatat aacatcgcgc ggtggacgtg aacaagtaca 900
accgttacaa gttaccgtgg tatgtagtca cgcacgactg gaagcggcac aggataatgt 960
<210> 15
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 15
gtggtatctg acaacgctca attccataag gccttgcgga gctcttaact atctccggtc 60
cggatgcttg taagcatcca aacggtctat ggtaactcgc gtggacaagt acaagtggac 120
tcctggttgt cttcaaccac tcgctatgag ctatcgcaga cattagtgcg tgccgacata 180
agtagagccg gacgagatta cgtgcttgct tacatccatc gactgagtag agtcagacga 240
ataatccgtg gcggcttaca gagaatggtt agaggcaacc tcacaacagt ctgtggtgac 300
gaactgagcg aggtcagata aaggccacgg ggaattgtaa cctgaccact ttcagttgtc 360
cgcattccgt tatgccttac gtattgacgt acgccagtac aaccatagaa ggttgcgagg 420
ttacgcacct ccgtatgttc aagatacacg ggagcgtgta attgatactg gccagcgtca 480
caccgatgtg tgttagcaca ttggcagcgt ccaatgatac gcataagctt atgcggatcc 540
gcttctctgg atcctctcaa cacggctagt tgtaatcgac tgattatacg cagccgcgta 600
tataacagct cgcggtgatc catagtaagg tgcgacggaa gagcgacgat agatagtagc 660
ttcttacttg cctccgtcca ctacacatgg tcgtgtgcaa acttacggat gtccgtaagc 720
acagtgtatg gtgacacgca ttgctctatt ccatctcgcc ccaaggcctt ttggaattcc 780
taatgtgtct cggcacactc actcggcaat gtctaatggc aggatgtgct gaagcacatc 840
tatcttgtag cgctccacga ttcactcact cctgtctgtc ccatcattag ttgctgccga 900
atgagatcat gcagagctgc tgtcgctggt cactatcaac ctctgcagcg tctcatgata 960
<210> 16
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 16
tctcatgata ctctgcagcg cactatcaac tgtcgctggt gcagagctgc atgagatcat 60
ttgctgccga ccatcattag cctgtctgtc ttcactcact cgctccacga tatcttgtag 120
gaagcacatc aggatgtgct gtctaatggc actcggcaat cggcacactc taatgtgtct 180
ttggaattcc ccaaggcctt ccatctcgcc ttgctctatt gtgacacgca acagtgtatg 240
gtccgtaagc acttacggat tcgtgtgcaa ctacacatgg cctccgtcca ttcttacttg 300
agatagtagc gagcgacgat tgcgacggaa catagtaagg cgcggtgatc tataacagct 360
cagccgcgta tgattatacg tgtaatcgac cacggctagt atcctctcaa gcttctctgg 420
atgcggatcc gcataagctt ccaatgatac ttggcagcgt tgttagcaca caccgatgtg 480
gccagcgtca attgatactg ggagcgtgta aagatacacg ccgtatgttc ttacgcacct 540
ggttgcgagg aaccatagaa acgccagtac gtattgacgt tatgccttac cgcattccgt 600
ttcagttgtc cctgaccact ggaattgtaa aaggccacgg aggtcagata gaactgagcg 660
ctgtggtgac tcacaacagt agaggcaacc gagaatggtt gcggcttaca ataatccgtg 720
agtcagacga gactgagtag tacatccatc cgtgcttgct gacgagatta agtagagccg 780
tgccgacata cattagtgcg ctatcgcaga tcgctatgag cttcaaccac tcctggttgt 840
acaagtggac gtggacaagt ggtaactcgc aacggtctat taagcatcca cggatgcttg 900
atctccggtc gctcttaact gccttgcgga attccataag acaacgctca gtggtatctg 960
<210> 17
<211> 960
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 17
aggataatgt gaagcggcac cgcacgactg tatgtagtca gttaccgtgg accgttacaa 60
aacaagtaca ggtggacgtg aacatcgcgc ggtgctatat tcaccaactt ctgttggtcc 120
aatggattga ggcaagccag ctccactaat tcttgtcggc ttgttgaatg ccaccaggca 180
acacaggtgg gtgtgaacaa tccacgtgtt cttgtacacc gagcttgccg agatccatta 240
cgccatatct tattgcgctc gtaactgaag acggtcagga aacgcacgag ggtatgtaga 300
tgccaactgg cattggtcaa gacgtggtct agtacaactc caacgttcgg tggtacctaa 360
gcgaactccg ataggtctta atagcggaat gcgataaggc taattagcgt cggccgatac 420
gccacctact attgttcgtc catcgtcatt tgctactgcc cgtgtcgtgg tacactacaa 480
accgtgtggt gttacacaac gcgtattaat atacgccggc tatcggaccg cgctaagtta 540
ttgaatgttg ccaggcacca gaggcctatt agaattcgcc aattccatct ggccttgctc 600
tccggactag cttaagtcga tcataccgtt ctgcgttacc aatctagaga ggctcgagag 660
acaactactg gtggtcgtca tgtgataact cacagcggtc caataggaat tggcgaaggc 720
atggcgcctg gcaatattca ttaacggtgt ccggtaacac cctcacgagg ttctgtagaa 780
gaattacaag aggccgtgga ctagattgcg tcgagccata aagacattag ggagtgccga 840
atatgcatgt gcgcatgcac gacgcatcgt agtatgctac cgcagtggct tatgacaatc 900
tcactgtccg ctgtcactta aactcgccgg ggtctattaa aacgttagtt ggtaccgacc 960
<210> 18
<211> 1160
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 18
aggaggtatc gtaccgatta tcgcgactcc cagcggtaga attgcacata accacagtcg 60
acatcgaacc ataagattgg ggaagtatgt gcgattggag cgaggtcgga ttcgccaccg 120
ccactcgtgc cttgtgtgag tcaaggtcac aggcagctct ccttcgtgat aaccttatgg 180
agctactata tggtgttatg tctcacacgc ccgtgaccga acggatggta cctgcaacct 240
gtaccttccg ttatgcgtag caccttaatc caattaagcc aattggcgcc gaatatgcgg 300
attaacaagg cagagtccat atgtgtcaat cacaatatgc aatccaattg cgaggccaag 360
agcctatgat ttcttaacca gcaatacatt agtggttaag gagatccgct ttgactagta 420
atacaagcaa aggacaggcc ctacatgcct cagtaattac actagatgtt ctccgatcgc 480
cttaccgcac cttacgcgtc ccttctaaca ggcgccattg cgcagcaatt gacgctgacc 540
gatcggataa cgtcaccttg cgtgtaccag agcgccacac ggttccgcaa ttcctacagc 600
caacaccgca gatcgtcgcg ttacagttag ctctgtgtat cctattgtta tccacacaga 660
ctggaactgt gaatgatctc ttgtctacat ccgcatacga tgttccggct ggccaatatt 720
tggccggatt acgttcctta gtaagcaacg ttcatggttc acgttagccg gccatgtgcg 780
ctatagtctt tgataacgag gaagaacgct gcggagccaa aaggacgcac atagccaaga 840
tagaactaag gttgtgacta gtgctaggtt tccgtatact tccgttatgt gtcgagcacc 900
tgacggccgt tcttagctat agctaagcgg gatattgtgt tacacgttga tactgttcca 960
aatattgcca ttcctcggtg agtatcagtt tatgatggcc tagaattgga tgtggcgcat 1020
ggcttggcca gccggtggaa aggcgcataa tgagacttgc gcacactggc gacaaccgga 1080
atggcgtgcc gcgtggatgg gaagtgaatt tcgtgcattc agagcttatc ccagtcgacg 1140
cctccggttg gattcgcagc 1160
<210> 19
<211> 1160
<212> DNA
<213> 人工序列
<220>
<223> 人工序列
<400> 19
aaccttatgg aaggacgcac aatattgcca aatccaattg aattggcgcc acatcgaacc 60
accacagtcg acggatggta acgttagccg acgttcctta actagatgtt agagcttatc 120
agcctatgat agcgccacac agctaagcgg agctactata aggacaggcc aggaggtatc 180
aggcagctct aggcgcataa agtatcagtt agtggttaag ataagattgg atacaagcaa 240
atagccaaga atggcgtgcc atgtgtcaat attaacaagg attgcacata caacaccgca 300
caattaagcc cacaatatgc caccttaatc cagagtccat cagcggtaga cagtaattac 360
ccactcgtgc ccagtcgacg ccgcatacga ccgtgaccga cctattgtta cctccggttg 420
cctgcaacct ccttcgtgat ccttctaaca cgaggccaag cgaggtcgga cgcagcaatt 480
cgtcaccttg cgtgtaccag ctacatgcct ctatagtctt ctccgatcgc ctctgtgtat 540
ctggaactgt cttaccgcac cttacgcgtc cttgtgtgag gaagaacgct gaagtgaatt 600
gaatatgcgg gaatgatctc gacaaccgga gacgctgacc gagatccgct gatattgtgt 660
gatcggataa gatcgtcgcg gattcgcagc gcaatacatt gcacactggc gccatgtgcg 720
gccggtggaa gcgattggag gcggagccaa gcgtggatgg ggaagtatgt ggccaatatt 780
ggcgccattg ggcttggcca ggttccgcaa gtaagcaacg gtaccgatta gtaccttccg 840
gtcgagcacc gtgctaggtt gttgtgacta tacacgttga tactgttcca tagaactaag 900
tagaattgga tatgatggcc tcaaggtcac tccacacaga tccgtatact tccgttatgt 960
tcgcgactcc tcgtgcattc tctcacacgc tcttagctat tgacggccgt tgagacttgc 1020
tgataacgag tggccggatt tggtgttatg tgtggcgcat tgttccggct ttacagttag 1080
ttatgcgtag ttcatggttc ttcctacagc ttcctcggtg ttcgccaccg ttcttaacca 1140
ttgactagta ttgtctacat 1160

Claims (112)

1.一种用于对来源于多个样品的靶核酸进行测序的方法,所述方法包括
(a)使多个索引多核苷酸与来源于所述多个样品的靶核酸接触,以生成多个索引-靶多核苷酸,其中
与来源于每个样品的靶核酸接触的索引多核苷酸包含与此样品独特地相关联的索引序列或索引序列的组合,
所述索引序列或所述索引序列的组合选自索引序列集,并且
所述索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中所述第一标准值为至少2;
(b)汇集所述多个索引-靶多核苷酸;
(c)对所汇集的索引-靶多核苷酸进行测序,以获得索引序列的多个索引读段和靶序列的多个靶读段,每一个靶读段与至少一个索引读段相关联;以及
(d)使用所述索引读段来确定所述靶读段的样品来源。
2.如权利要求1所述的方法,其中所述索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤(A)碱基或胞嘧啶(C)碱基,和(ii)鸟嘌呤(G)碱基、胸腺嘧啶(T)碱基或尿嘧啶(U)碱基。
3.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少6个不同的索引序列。
4.如前述权利要求中任一项所述的方法,其中使用所述索引读段来确定所述靶读段的样品来源包括:
对于每一个索引读段,获得关于所述索引序列集的比对评分,每一个比对评分指示所述索引读段的序列和所述索引序列集的索引序列之间的相似性;
基于所述比对评分确定特定索引读段与特定索引序列匹配;以及
确定与所述特定索引读段相关联的靶读段来源于与所述特定索引序列独特地相关联的样品。
5.如前述权利要求中任一项所述的方法,其中所述多个索引多核苷酸包含多个索引引物,所述索引引物包含所述索引序列集中的索引序列。
6.如权利要求5所述的方法,其中每一个索引引物还包含流动池扩增引物结合序列。
7.如权利要求6所述的方法,其中所述流动池扩增引物结合序列包括P5序列或P7′序列。
8.如权利要求5所述的方法,其中来源于所述多个样品的所述靶核酸包含具有共价地附接至一个或两个末端的通用衔接子的核酸。
9.如权利要求8所述的方法,其中使所述多个索引多核苷酸与来源于所述多个样品的所述靶核酸接触包括:
使所述多个索引引物与共价地附接至所述核酸的一个或两个末端的所述通用衔接子杂交;以及
使所述多个索引引物延伸以获得多个索引-衔接子-靶多核苷酸。
10.如权利要求9所述的方法,其中所述通用衔接子和所述靶核酸是双链的,并且使所述多个索引引物与所述通用衔接子杂交包括使所述多个索引引物与所述通用衔接子的仅一条链杂交。
11.如权利要求9所述的方法,其中所述通用衔接子和所述靶核酸是双链的,并且使所述多个索引引物与所述通用衔接子杂交包括使所述多个索引引物与所述通用衔接子的两条链杂交。
12.如权利要求11所述的方法,其中与特定通用衔接子的第一链杂交的第一索引引物包含选自所述索引序列集中的第一子集的第一索引序列,并且与所述特定通用衔接子的第二链杂交的第二索引引物包含选自所述索引序列集中的第二子集的第二索引序列。
13.如权利要求12所述的方法,其中所述第一索引序列和所述第二索引序列分别为:
SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11或SEQ ID NO:11的反向互补物中的第n个10聚体;
SEQ ID NO:12中的第n个10聚体和SEQ ID NO:13或SEQ ID NO:13的反向互补物中的第n个10聚体;
SEQ ID NO:14中的第n个10聚体和SEQ ID NO:15或SEQ ID NO:15的反向互补物中的第n个10聚体;
SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17或SEQ ID NO:17的反向互补物中的第n个10聚体;或者
SEQ ID NO:18中的第n个10聚体和SEQ ID NO:19或SEQ ID NO:19的反向互补物中的第n个10聚体。
14.如权利要求12所述的方法,其中所述第一子集包含表1中列出的索引序列,并且所述第二子集包含表2中列出的索引序列。
15.如权利要求11所述的方法,其中与所述通用衔接子的两条链杂交的所述索引引物包含选自所述索引序列集中的相同子集的索引序列。
16.如权利要求15所述的方法,其中索引序列的所述子集选自表3中的索引序列的子集之一。
17.如权利要求8所述的方法,所述方法还包括在步骤(a)之前,将所述通用衔接子附接至所述核酸的一个或两个末端。
18.如权利要求17所述的方法,其中所述附接包括通过转座体介导的片段化附接所述通用衔接子。
19.如权利要求18所述的方法,其中所述转座体介导的片段化包括:
提供从所述多个样品获得的核酸分子和多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物,所述转座子末端组合物包含所述通用衔接子的序列;以及
获得所述靶核酸,其中所述靶核酸在一个或两个末端处包含从所述转座子末端组合物转座的所述通用衔接子的序列。
20.如权利要求17所述的方法,其中所述附接包括将所述通用衔接子连接至所述核酸的一个或两个末端。
21.如权利要求20所述的方法,其中所述连接包括酶促连接或化学连接。
22.如权利要求21所述的方法,其中所述化学连接包括点击化学反应连接。
23.如权利要求17所述的方法,其中所述附接是通过用包含通用衔接子的序列的靶特异性引物的扩增进行的。
24.如权利要求8所述的方法,其中所述通用衔接子包括双链衔接子。
25.如权利要求8所述的方法,其中所述通用衔接子包括Y形衔接子。
26.如权利要求8所述的方法,其中所述通用衔接子包括单链衔接子。
27.如权利要求8所述的方法,其中所述通用衔接子包括发夹衔接子。
28.如权利要求8所述的方法,其中所述通用衔接子中的每一个在被附接至核酸之前在待被附接至所述核酸的一个末端处包含突出端。
29.如权利要求8所述的方法,其中所述通用衔接子中的每一个在被附接至核酸之前包含待被附接至所述核酸的平末端。
30.如前述权利要求中任一项所述的方法,其中所述多个索引多核苷酸包含样品特异性衔接子,所述样品特异性衔接子包含所述索引序列集中的索引序列。
31.如权利要求30所述的方法,其中所述样品特异性衔接子包含具有两条链的衔接子。
32.如权利要求31所述的方法,其中所述样品特异性衔接子的仅一条链包含索引序列。
33.如权利要求31所述的方法,其中所述样品特异性衔接子的每条链包含索引序列。
34.如权利要求33所述的方法,其中每一个样品特异性衔接子的第一链包含选自所述索引序列集中的第一子集的第一索引序列,并且所述样品特异性衔接子的第二链包含选自所述索引序列集中的第二子集的第二索引序列。
35.如权利要求34所述的方法,其中所述第一索引序列和所述第二索引序列分别为:
SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11或SEQ ID NO:11的反向互补物中的第n个10聚体;
SEQ ID NO:12中的第n个10聚体和SEQ ID NO:13或SEQ ID NO:13的反向互补物中的第n个10聚体;
SEQ ID NO:14中的第n个10聚体和SEQ ID NO:15或SEQ ID NO:15的反向互补物中的第n个10聚体;
SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17或SEQ ID NO:17的反向互补物中的第n个10聚体;或者
SEQ ID NO:18中的第n个10聚体和SEQ ID NO:19或SEQ ID NO:19的反向互补物中的第n个10聚体。
36.如权利要求34所述的方法,其中所述第一子集包含表1中列出的索引序列,并且所述第二子集包含表2中列出的索引序列。
37.如权利要求33所述的方法,其中所述第一子集和所述第二子集是相同的。
38.如权利要求37所述的方法,其中索引序列的所述子集选自表3中的索引序列的子集之一。
39.如权利要求30所述的方法,其中每一个样品特异性衔接子包含流动池扩增引物结合序列。
40.如权利要求39所述的方法,其中所述流动池扩增引物结合序列包括P5序列、P5′序列、P7序列或P7′序列。
41.如权利要求30所述的方法,其中使所述多个索引多核苷酸与所述靶核酸接触包括通过转座体介导的片段化将所述样品特异性衔接子附接至所述靶核酸。
42.如权利要求41所述的方法,其中所述转座体介导的片段化包括:
提供从所述多个样品获得的核酸分子;
提供多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物,所述转座子末端组合物包含所述样品特异性衔接子的序列;以及
获得所述靶核酸,其中所述靶核酸在一个或两个末端处包含从所述转座子末端组合物转座的所述样品特异性衔接子的序列。
43.如权利要求30所述的方法,其中使所述多个索引多核苷酸与所述靶核酸接触包括将所述样品特异性衔接子连接至所述靶核酸。
44.如权利要求43所述的方法,其中所述连接包括酶促连接或化学连接。
45.如权利要求44所述的方法,其中所述化学连接包括点击化学反应连接。
46.如权利要求30所述的方法,其中所述样品特异性衔接子包括具有互补的双链区域和错配的单链区域的Y形衔接子。
47.如权利要求46所述的方法,其中所述样品特异性衔接子的每条链在所述错配的单链区域处包含索引序列。
48.如权利要求46所述的方法,其中所述样品特异性衔接子的仅一条链在所述错配的单链区域处包含索引序列。
49.如权利要求30所述的方法,其中所述样品特异性衔接子包括单链衔接子。
50.如权利要求30所述的方法,其中所述样品特异性衔接子包括发夹衔接子。
51.如前述权利要求中任一项所述的方法,其中使所述多个索引多核苷酸与所述靶核酸接触包括将所述多个索引多核苷酸附接至所述靶核酸的两个末端。
52.如前述权利要求中任一项所述的方法,其中使所述多个索引多核苷酸与所述靶核酸接触包括将所述多个索引多核苷酸附接至所述靶核酸的仅一个末端。
53.如前述权利要求中任一项所述的方法,其中索引序列的组合是索引序列的有序组合。
54.如前述权利要求中任一项所述的方法,所述方法还包括在对所汇集的索引-靶多核苷酸进行测序之前扩增所汇集的索引-靶多核苷酸。
55.如前述权利要求中任一项所述的方法,所述方法还包括在步骤(a)之前,将从所述多个样品获得的核酸分子片段化,以获得所述靶核酸。
56.如权利要求55所述的方法,其中所述片段化包括转座体介导的片段化。
57.如权利要求56所述的方法,其中所述转座体介导的片段化包括:
提供所述核酸分子和多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物;以及
获得所述靶核酸,所述靶核酸在一个或两个末端处包含从所述转座子末端组合物转座的序列。
58.如权利要求55所述的方法,其中所述片段化包括与靶向感兴趣的序列的多个PCR引物接触,以获得包含所述感兴趣的序列的所述靶核酸。
59.如前述权利要求中任一项所述的方法,其中所述索引序列集包括索引序列的多个不重叠的子集,任何子集中的任何两个索引序列之间的汉明距离不小于第二标准值。
60.如权利要求59所述的方法,其中所述第二标准值大于所述第一标准值。
61.如权利要求60所述的方法,其中所述第一标准值为4,并且所述第二标准值为5。
62.如前述权利要求中任一项所述的方法,其中所述第一标准值为3。
63.如前述权利要求中任一项所述的方法,其中所述第一标准值为4。
64.如前述权利要求中任一项所述的方法,其中所述索引序列集中的任何两个索引序列之间的编辑距离不小于第三标准值。
65.如权利要求64所述的方法,其中所述编辑距离是修改的Levenshtein距离,其中末端空位不被分配罚分。
66.如权利要求65所述的方法,其中所述第三标准值为3。
67.如权利要求65所述的方法,其中:
所述索引序列集中的每一个索引序列具有10个碱基;
所述第一标准值为4;并且
所述第三标准值为3。
68.如前述权利要求中任一项所述的方法,其中所述索引序列集包含SEQ ID NO:9中的10聚体。
69.如前述权利要求中任一项所述的方法,其中每一个索引序列具有32个或更少的碱基。
70.如权利要求69所述的方法,其中每一个索引序列具有10个或更少的碱基。
71.如权利要求69所述的方法,其中每一个索引序列具有6个至8个碱基。
72.如前述权利要求中任一项所述的方法,其中所述索引序列集不包括凭经验被确定为在多重大规模平行测序中具有差的对核酸样品的来源进行索引的性能的索引序列。
73.如权利要求72所述的方法,其中不被包括的索引序列包含表4中的序列。
74.如前述权利要求中任一项所述的方法,其中所述索引序列集不包括测序平台中衔接子或引物的序列的任何子序列,或者所述子序列的反向互补物。
75.如权利要求74所述的方法,其中所述测序平台中衔接子或引物的序列包括SEQ IDNO:1(AGATGTGTATAAGAGACAG)、SEQ ID NO:3(TCGTCGGCAGCGTC)、SEQ ID NO:5(CCGAGCCCACGAGAC)、SEQ ID NO:7(CAAGCAGAAGACGGCATACGAGAT)、和SEQ ID NO:8(AATGATACGGCGACCACCGAGATCTACAC)。
76.如前述权利要求中任一项所述的方法,其中所述索引序列集中的每一个索引序列具有在25%和75%之间的鸟嘌呤/胞嘧啶(GC)含量。
77.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少12个不同的索引序列。
78.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少20个不同的索引序列。
79.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少24个不同的索引序列。
80.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少28个不同的索引序列。
81.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少48个不同的索引序列。
82.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少80个不同的索引序列。
83.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少96个不同的索引序列。
84.如前述权利要求中任一项所述的方法,其中所述索引序列集包含至少112个不同的索引序列。
85.如前述权利要求中任一项所述的方法,其中所述索引序列集不包括具有四个或更多个连续相同的碱基的任何均聚物。
86.如前述权利要求中任一项所述的方法,其中所述索引序列集不包括与一个或更多个测序引物序列匹配或反向互补的索引序列。
87.如权利要求86所述的方法,其中所述测序引物序列被包含在所述多个索引多核苷酸的序列中。
88.如前述权利要求中任一项所述的方法,其中所述索引序列集不包括与一个或更多个流动池扩增引物序列匹配或反向互补的索引序列。
89.如权利要求88所述的方法,其中所述流动池扩增引物序列被包含在所述多个索引多核苷酸的序列中。
90.如前述权利要求中任一项所述的方法,其中所述索引序列集包含具有相同数目的碱基的索引序列。
91.如前述权利要求中任一项所述的方法,其中所述索引序列集中的每一个索引序列具有不小于2且不大于6的鸟嘌呤碱基和胞嘧啶碱基的组合数目。
92.如前述权利要求中任一项所述的方法,其中所述多个索引多核苷酸包含DNA或RNA。
93.一种用于对来源于多个样品的靶核酸进行测序的方法,所述方法包括:
(a)提供来源于所述多个样品的多个双链核酸分子;
(b)提供多个转座体复合物,其中每一个转座体复合物包含转座酶和两个转座子末端组合物;
(c)将所述双链核酸分子与所述转座体复合物一起孵育以获得双链核酸片段,其中所述双链核酸片段在一个或两个末端处包含从所述转座子末端组合物转座的序列;
(d)使多个索引引物与所述双链核酸片段接触,以生成多个索引-片段多核苷酸,其中
与来源于每个样品的双链核酸片段接触的索引引物包含与此样品独特地相关联的索引序列或索引序列的组合,并且
所述索引序列或所述索引序列的组合选自索引序列集;
(e)汇集所述多个索引-片段多核苷酸;
(f)对所汇集的索引-片段多核苷酸进行测序,从而获得索引序列的索引读段和靶序列的多个靶读段,每一个靶读段与至少一个索引读段相关联;以及
(g)使用所述索引读段来确定所述靶读段的样品来源。
94.如权利要求93所述的方法,其中所述索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中所述第一标准值为至少2。
95.如权利要求93-94中任一项所述的方法,其中所述索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤碱基或胞嘧啶碱基,和(ii)鸟嘌呤碱基、胸腺嘧啶碱基或尿嘧啶碱基。
96.如权利要求93-95中任一项所述的方法,其中使所述多个索引引物与所述双链核酸片段接触包括:
使所述多个索引引物与在所述双链核酸片段的一个或两个末端处的从所述转座子末端组合物转座的序列杂交;以及
使所述多个索引引物延伸以获得所述索引-片段多核苷酸。
97.如权利要求93-96中任一项所述的方法,其中所述杂交包括使所述多个索引引物与所述双链核酸片段的仅一条链杂交。
98.如权利要求93-96中任一项所述的方法,其中所述杂交包括使所述多个索引引物与所述双链核酸片段的两条链杂交。
99.如权利要求98所述的方法,其中与特定双链核酸片段的第一链杂交的第一索引引物包含选自所述索引序列集中的第一子集的第一索引序列,并且与所述特定双链核酸片段的第二链杂交的第二索引引物包含选自所述索引序列集中的第二子集的第二索引序列。
100.如权利要求99所述的方法,其中所述第一索引序列和所述第二索引序列分别为:
SEQ ID NO:10中的第n个10聚体和SEQ ID NO:11或SEQ ID NO:11的反向互补物中的第n个10聚体;
SEQ ID NO:12中的第n个10聚体和SEQ ID NO:13或SEQ ID NO:13的反向互补物中的第n个10聚体;
SEQ ID NO:14中的第n个10聚体和SEQ ID NO:15或SEQ ID NO:15的反向互补物中的第n个10聚体;
SEQ ID NO:16中的第n个10聚体和SEQ ID NO:17或SEQ ID NO:17的反向互补物中的第n个10聚体;或者
SEQ ID NO:18中的第n个10聚体和SEQ ID NO:19或SEQ ID NO:19的反向互补物中的第n个10聚体。
101.如权利要求99所述的方法,其中所述第一子集包含表1中列出的索引序列,并且所述第二子集包含表2中列出的索引序列。
102.如权利要求99所述的方法,其中所述第一子集和所述第二子集是相同的。
103.如权利要求102所述的方法,其中索引序列的所述第一子集或所述第二子集选自表3中的索引序列的子集之一。
104.如权利要求93-103中任一项所述的方法,其中所述索引序列集包含至少6个不同的索引序列。
105.如权利要求93-104中任一项所述的方法,其中每一个索引引物包含扩增引物结合序列。
106.如权利要求105所述的方法,其中所述流动池扩增引物结合序列包括P5序列或P7′序列。
107.如权利要求93-106中任一项所述的方法,其中所述转座体复合物中的至少一种包含Tn5转座酶和Tn5转座子末端组合物。
108.如权利要求93-107中任一项所述的方法,其中所述转座体复合物中的至少一种包含Mu转座酶和Mu转座子末端组合物。
109.一种计算机程序产品,所述计算机程序产品包括存储程序代码的非瞬时性机器可读介质,所述程序代码当被计算机***的一个或更多个处理器执行时使得所述计算机***实现用于对来源于多个样品的靶核酸进行测序的方法,所述程序代码包括:
(a)用于接收从来源于所述多个样品的靶核酸获得的靶序列的多个索引读段和多个靶读段的代码,其中
每一个靶读段包含从来源于所述多个样品中的样品的靶核酸获得的靶序列,
每一个索引读段包含从来源于所述多个样品中的样品的靶核酸获得的索引序列,所述索引序列选自索引序列集,
每一个靶读段与至少一个索引读段相关联,
所述多个样品中的每个样品与所述索引序列集中的一个或更多个索引序列独特地相关联,并且
所述索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中所述第一标准值为至少2;
(b)用于在所述多个靶读段中鉴定与索引读段相关联的靶读段的子集的代码,所述索引读段与至少一个索引序列匹配,所述至少一个索引序列与所述多个样品中的特定样品独特地相关联;以及
(c)用于基于所鉴定的靶读段的子集来确定所述特定样品的靶序列的代码。
110.如权利要求109所述的计算机程序产品,其中所述索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤碱基或胞嘧啶碱基,和(ii)鸟嘌呤碱基、胸腺嘧啶碱基或尿嘧啶碱基。
111.一种计算机***,所述计算机***包括:
一个或更多个处理器;
***存储器;以及
一个或更多个计算机可读存储介质,所述计算机可读存储介质在其上存储有计算机可执行指令,所述计算机可执行指令使得计算机***实现用于对多个样品中的核酸进行测序的方法,所述指令包括:
(a)接收从来源于所述多个样品的靶核酸获得的靶序列的多个索引读段和多个靶读段,其中
每一个靶读段包含从来源于所述多个样品中的样品的靶核酸获得的靶序列,
每一个索引读段包含从来源于所述多个样品中的样品的靶核酸获得的索引序列,所述索引序列选自索引序列集,
每一个靶读段与至少一个索引读段相关联,
所述多个样品中的每个样品与所述索引序列集中的一个或更多个索引序列独特地相关联,并且
所述索引序列集中的任何两个索引序列之间的汉明距离不小于第一标准值,其中所述第一标准值为至少2;
(b)在所述多个靶读段中鉴定与索引读段相关联的靶读段的子集,所述索引读段与至少一个索引序列匹配,所述至少一个索引序列与所述多个样品中的特定样品独特地相关联;以及
(c)基于所鉴定的靶读段的子集来确定所述特定样品的靶序列。
112.如权利要求111所述的计算机***,其中所述索引序列集包含多对颜色平衡的索引序列,其中每一对颜色平衡的索引序列的相应序列位置处的任何两个碱基包括以下两者:(i)腺嘌呤碱基或胞嘧啶碱基,和(ii)鸟嘌呤碱基、胸腺嘧啶碱基或尿嘧啶碱基。
CN201880042758.8A 2017-05-08 2018-05-07 用于多核苷酸样品的索引的通用短衔接子 Pending CN110832087A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762503272P 2017-05-08 2017-05-08
US62/503,272 2017-05-08
US201762524390P 2017-06-23 2017-06-23
US62/524,390 2017-06-23
PCT/US2018/031459 WO2018208699A1 (en) 2017-05-08 2018-05-07 Universal short adapters for indexing of polynucleotide samples

Publications (1)

Publication Number Publication Date
CN110832087A true CN110832087A (zh) 2020-02-21

Family

ID=62245442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880042758.8A Pending CN110832087A (zh) 2017-05-08 2018-05-07 用于多核苷酸样品的索引的通用短衔接子

Country Status (7)

Country Link
US (2) US11028436B2 (zh)
EP (1) EP3622089A1 (zh)
CN (1) CN110832087A (zh)
AU (1) AU2018266377B2 (zh)
CA (1) CA3062174A1 (zh)
SG (2) SG11201910070PA (zh)
WO (1) WO2018208699A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022126750A1 (zh) * 2020-12-17 2022-06-23 厦门大学 一种检测受体样品中供体的存在或比例的方法和试剂盒

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3722442B1 (en) 2013-08-05 2023-04-05 Twist Bioscience Corporation De novo synthesized gene libraries
US10669304B2 (en) 2015-02-04 2020-06-02 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
WO2016172377A1 (en) 2015-04-21 2016-10-27 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
IL258164B (en) 2015-09-18 2022-09-01 Twist Bioscience Corp Methods to regulate the activity of proteins and cells and a method for the production of nucleic acids
KR20180058772A (ko) 2015-09-22 2018-06-01 트위스트 바이오사이언스 코포레이션 핵산 합성을 위한 가요성 기판
KR102217487B1 (ko) 2016-09-21 2021-02-23 트위스트 바이오사이언스 코포레이션 핵산 기반 데이터 저장
CA3054303A1 (en) 2017-02-22 2018-08-30 Twist Bioscience Corporation Nucleic acid based data storage
EP3619326A1 (en) 2017-05-01 2020-03-11 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
CA3062174A1 (en) 2017-05-08 2018-11-15 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
KR20240013290A (ko) 2017-06-12 2024-01-30 트위스트 바이오사이언스 코포레이션 심리스 핵산 어셈블리를 위한 방법
CA3075505A1 (en) 2017-09-11 2019-03-14 Twist Bioscience Corporation Gpcr binding proteins and synthesis thereof
JP7066840B2 (ja) 2017-10-20 2022-05-13 ツイスト バイオサイエンス コーポレーション ポリヌクレオチド合成のための加熱されたナノウェル
WO2019222706A1 (en) 2018-05-18 2019-11-21 Twist Bioscience Corporation Polynucleotides, reagents, and methods for nucleic acid hybridization
BR112021006038A2 (pt) 2019-01-11 2021-10-26 Illumina Cambridge Limited Complexos de stranspossomas ligados à superfície do complexo
US20210002710A1 (en) * 2019-02-25 2021-01-07 Twist Bioscience Corporation Compositions and methods for next generation sequencing
WO2020176680A1 (en) 2019-02-26 2020-09-03 Twist Bioscience Corporation Variant nucleic acid libraries for antibody optimization
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
AU2020298294A1 (en) 2019-06-21 2022-02-17 Twist Bioscience Corporation Barcode-based nucleic acid sequence assembly
CA3151485A1 (en) 2019-09-11 2021-03-18 Parlanca Limited A multiplex method of preparing a sequencing library
GB2589869A (en) * 2019-12-09 2021-06-16 Univ Oxford Innovation Ltd Method for whole genome sequencing of picogram quantities of DNA
CN111005075B (zh) * 2019-12-20 2023-04-21 北京科迅生物技术有限公司 用于双样本共建测序文库的y型接头和双样本共建测序文库的方法
WO2021168353A2 (en) 2020-02-20 2021-08-26 Illumina, Inc. Artificial intelligence-based many-to-many base calling
US20210265009A1 (en) 2020-02-20 2021-08-26 Illumina, Inc. Artificial Intelligence-Based Base Calling of Index Sequences
AU2021366658A1 (en) 2020-10-21 2023-06-22 Illumina Cambridge Limited Sequencing templates comprising multiple inserts and compositions and methods for improving sequencing throughput
EP4314279A1 (en) 2021-03-29 2024-02-07 Illumina, Inc. Improved methods of library preparation
EP4314282A1 (en) 2021-03-30 2024-02-07 Illumina, Inc. Improved methods of isothermal complementary dna and library preparation
AU2022252302A1 (en) * 2021-03-31 2023-09-14 Illumina, Inc. Blocking oligonucleotides for the selective depletion of non-desirable fragments from amplified libraries
KR20230164668A (ko) 2021-03-31 2023-12-04 일루미나, 인코포레이티드 오류 수정을 위한 고유 분자 식별자를 이용한 트랜스포존-기반 기술을 사용하는 방향성 태그먼트화 시퀀싱 라이브러리 제조 방법
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
US20230005253A1 (en) 2021-07-01 2023-01-05 Illumina, Inc. Efficient artificial intelligence-based base calling of index sequences

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120010091A1 (en) * 2009-03-30 2012-01-12 Illumina, Inc. Gene expression analysis in single cells
CN105063208A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法
WO2016176091A1 (en) * 2015-04-28 2016-11-03 Illumina, Inc. Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
JP2002503954A (ja) 1997-04-01 2002-02-05 グラクソ、グループ、リミテッド 核酸増幅法
US6159736A (en) 1998-09-23 2000-12-12 Wisconsin Alumni Research Foundation Method for making insertional mutations using a Tn5 synaptic complex
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
DE60131194T2 (de) 2000-07-07 2008-08-07 Visigen Biotechnologies, Inc., Bellaire Sequenzbestimmung in echtzeit
AU2002227156A1 (en) 2000-12-01 2002-06-11 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
SI3363809T1 (sl) 2002-08-23 2020-08-31 Illumina Cambridge Limited Modificirani nukleotidi za polinukleotidno sekvenciranje
EP3673986A1 (en) 2004-01-07 2020-07-01 Illumina Cambridge Limited Improvements in or relating to molecular arrays
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
CN101460953B (zh) 2006-03-31 2012-05-30 索雷克萨公司 用于合成分析的序列的***和装置
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
WO2008093098A2 (en) 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
US9080211B2 (en) * 2008-10-24 2015-07-14 Epicentre Technologies Corporation Transposon end compositions and methods for modifying nucleic acids
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US20110257031A1 (en) * 2010-02-12 2011-10-20 Life Technologies Corporation Nucleic acid, biomolecule and polymer identifier codes
US9957558B2 (en) 2011-04-28 2018-05-01 Life Technologies Corporation Methods and compositions for multiplex PCR
US20150087537A1 (en) 2011-08-31 2015-03-26 Life Technologies Corporation Methods, Systems, Computer Readable Media, and Kits for Sample Identification
PT2828218T (pt) 2012-03-20 2020-11-11 Univ Washington Through Its Center For Commercialization Métodos para baixar a taxa de erro da sequenciação paralela massiva de adn utilizando sequenciação duplex de consensus
AU2013267609C1 (en) 2012-05-31 2019-01-03 Board Of Regents, The University Of Texas System Method for accurate sequencing of DNA
WO2014201273A1 (en) * 2013-06-12 2014-12-18 The Broad Institute, Inc. High-throughput rna-seq
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
EP3174993B1 (en) * 2014-07-30 2023-12-06 President and Fellows of Harvard College Probe library construction
KR20170135834A (ko) 2015-02-10 2017-12-08 일루미나, 인코포레이티드 세포 성분을 분석하기 위한 방법 및 조성물
US11332784B2 (en) 2015-12-08 2022-05-17 Twinstrand Biosciences, Inc. Adapters, methods, and compositions for duplex sequencing
US11479807B2 (en) 2017-03-23 2022-10-25 University Of Washington Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
EP3619326A1 (en) 2017-05-01 2020-03-11 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
CA3062174A1 (en) 2017-05-08 2018-11-15 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
CA3081027A1 (en) 2017-11-08 2019-05-16 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
RU2020130024A (ru) 2018-02-13 2022-03-14 Твинстранд Биосайенсис, Инк. Способы и реагенты для обнаружения и оценки генотоксичности
EP3765063A4 (en) 2018-03-15 2021-12-15 Twinstrand Biosciences, Inc. METHODS AND REAGENTS FOR ENRICHMENT NUCLEIC ACID MATERIAL FOR SEQUENCING APPLICATIONS AND OTHER NUCLEIC ACID MATERIAL INTERROGATIONS
JP7497879B2 (ja) 2018-05-16 2024-06-11 ツインストランド・バイオサイエンシズ・インコーポレイテッド 核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途
EP3821004A4 (en) 2018-07-12 2022-04-20 Twinstrand Biosciences, Inc. METHODS AND REAGENTS FOR CHARACTERIZING GENOMIC EDITING AND CLONAL EXPANSION, AND RELATED APPLICATIONS
CA3115819A1 (en) 2018-10-16 2020-04-23 Twinstrand Biosciences, Inc. Methods and reagents for efficient genotyping of large numbers of samples via pooling
CA3146435A1 (en) 2019-08-01 2021-02-04 Jesse J. SALK Methods and reagents for nucleic acid sequencing and associated applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120010091A1 (en) * 2009-03-30 2012-01-12 Illumina, Inc. Gene expression analysis in single cells
WO2016176091A1 (en) * 2015-04-28 2016-11-03 Illumina, Inc. Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
CN105063208A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRANT C. FAIRCLOTH 等: "Not All Sequence Tags Are Created Equal: Designing and Validating Sequence Identification Tags Robust to Indels", PLOS ONE, vol. 7, no. 8, 10 August 2012 (2012-08-10), pages 1 - 11 *
ILLUMINA: "Nextera mate pair sample preparation guide", pages 1 - 84, Retrieved from the Internet <URL:https://www.encodeproject.org/documents/95ebdfee-474e-4b23-83f4-a6fcb9bbe235/@@download/attachment/nextera_mate_pair_sample_prep_guide_15035209_d.pdf> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022126750A1 (zh) * 2020-12-17 2022-06-23 厦门大学 一种检测受体样品中供体的存在或比例的方法和试剂盒

Also Published As

Publication number Publication date
SG11201910070PA (en) 2019-11-28
US11028436B2 (en) 2021-06-08
US11814678B2 (en) 2023-11-14
SG10202113017YA (en) 2021-12-30
WO2018208699A1 (en) 2018-11-15
AU2018266377B2 (en) 2024-06-20
EP3622089A1 (en) 2020-03-18
US20180334712A1 (en) 2018-11-22
AU2018266377A1 (en) 2019-11-14
US20210262026A1 (en) 2021-08-26
CA3062174A1 (en) 2018-11-15

Similar Documents

Publication Publication Date Title
US11814678B2 (en) Universal short adapters for indexing of polynucleotide samples
US11788139B2 (en) Optimal index sequences for multiplex massively parallel sequencing
AU2019250200B2 (en) Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs)
CA3063750C (en) Universal short adapters with variable length non-random unique molecular identifiers
CA3050247A1 (en) Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
AU2023219911A1 (en) Using cell-free DNA fragment size to detect tumor-associated variant
CN110997937B (zh) 具有可变长度非随机独特分子标识符的通用短衔接子

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination