CN108699505A - 用于形成连接产物的方法和组合物 - Google Patents

用于形成连接产物的方法和组合物 Download PDF

Info

Publication number
CN108699505A
CN108699505A CN201680081032.6A CN201680081032A CN108699505A CN 108699505 A CN108699505 A CN 108699505A CN 201680081032 A CN201680081032 A CN 201680081032A CN 108699505 A CN108699505 A CN 108699505A
Authority
CN
China
Prior art keywords
sequence
polynucleotides
section
single stranded
capture probe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680081032.6A
Other languages
English (en)
Inventor
翁莉
林盛榕
马利克·法哈姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Encore Economic Holdings Ltd
Accuragen Holdings Ltd
Original Assignee
Encore Economic Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Encore Economic Holdings Ltd filed Critical Encore Economic Holdings Ltd
Priority to CN202211379707.9A priority Critical patent/CN115927547A/zh
Publication of CN108699505A publication Critical patent/CN108699505A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6839Triple helix formation or other higher order conformations in hybridisation assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Sustainable Development (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

在一些方面,本公开内容提供了用于形成包含单链多核苷酸的连接产物的方法。由本公开内容的各个方面形成的连接产物可用于各种应用,包括但不限于序列分析。在一些实施方案中,所述连接产物包含无细胞多核苷酸。在一些方面,本公开内容提供了与本文方法一致的反应混合物、试剂盒和复合体。

Description

用于形成连接产物的方法和组合物
交叉引用
本申请要求于2015年12月3日提交的美国临时申请号62/262,883的权益,该美国临时申请通过引用并入本文。
背景技术
形成多核苷酸连接产物可以具有多种用途,诸如检查靶多核苷酸、生成表达载体的分子克隆方法、cDNA文库构建以及作为扩增和测序反应的前置步骤。连接产物可以由双链核酸和单链核酸二者形成。双链核酸可以通过“黏端”连接或“平端”连接来进行连接。在黏端连接中,包含末端突出端的交错末端可以与连接配偶体杂交。在平端连接中,末端突出端不存在,并且成功的连接依赖于5’端和3’端的瞬态缔合。一般而言,平端连接比黏端连接效率低,并且可以应用各种优化如调整浓度、温育时间和温度来提高效率。还可以连接单链多核苷酸。然而,缺乏实施这种反应的有效方法。现有的单链DNA连接方法可能会有动力学缓慢、产率不佳以及严重的核苷酸偏好的问题。
发明内容
鉴于上述情况,需要提高利用单链多核苷酸靶标生成连接产物的效率。本公开内容的方法和组合物满足了该需求,并且还提供了额外的益处。
在一个方面,本公开内容提供了一种用于鉴定包含多个无细胞DNA多核苷酸的核酸样品中的序列变体的方法。在一些实施方案中,该方法包括(a)形成多个连接产物,其中所述连接产物中的单独的成员通过将无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接而形成,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的捕获探针的第二区段,其中单独的衔接子包含独特的条形码序列;(b)将所述多个连接产物进行环化以产生多个环状靶多核苷酸;(c)生成多个多联体,其中所述多个多联体中的单独的多联体通过延伸根据序列互补性与靶多核苷酸杂交的第一引物而形成;(d)由所述多联体生成多个延伸产物,其中所述多个延伸产物中的单独的延伸产物通过延伸根据序列互补性与多联体杂交的第二引物而形成;(e)对多个延伸产物进行测序以产生测序读取;以及(f)当(i)在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异,并且(ii)该序列差异在具有不同的条形码序列的至少两个不同的测序读取中出现时,将测序读取与参考序列之间的序列差异鉴定为序列变体。
在一个方面,用于鉴定包含多个无细胞DNA多核苷酸的核酸样品中的序列变体的方法包括:(a)形成多个连接产物,其中所述连接产物中的单独的成员通过将无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接而形成,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的所述捕获探针的第二区段;(b)将所述多个连接产物进行环化以产生多个环状靶多核苷酸,其中单独的环状靶多核苷酸包含(i)无细胞DNA多核苷酸的5’端与单链衔接子的3’端之间的第一接点,以及(ii)所述无细胞DNA多核苷酸的3’端与所述单链衔接子的5’端之间的第二接点;(c)生成多个多联体,其中所述多个多联体中的单独的多联体通过延伸根据序列互补性与靶多核苷酸杂交的第一引物而形成;(d)由所述多联体生成多个延伸产物,其中所述多个延伸产物中的单独的延伸产物通过延伸根据序列互补性与所述多联体杂交的第二引物而形成;(e)对多个延伸产物进行测序以产生测序读取;(f)当(i)在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异,并且(ii)该序列差异在具有不同的第一接点和第二接点的至少两个不同的测序读取中出现时,将测序读取与参考序列之间的序列差异鉴定为序列变体。
在一些实施方案中,本文公开的用于鉴定序列变体的方法包括在(b)中进行环化之前降解所述捕获探针。在一些实施方案中,降解所述捕获探针包括酶促降解所述捕获探针。在一些实施方案中,酶促降解所述捕获探针通过内切核酸酶而实现。
在一些实施方案中,所述捕获探针包含标签。在一些实施方案中,用于鉴定序列变体的方法进一步包括通过将所述多核苷酸复合体直接或间接地固定到包含特异性结合所述标签的选择性结合剂的支持物上来分离所述多核苷酸复合体。在一些实施方案中,所述分离发生在步骤(c)之前。在一些实施方案中,所述支持物包含磁珠。
在一些实施方案中,所述序列变体包括单核苷酸多态性、单核苷酸变体、***、缺失、重复、倒位、易位、拷贝数变异、基因融合和指示甲基化的突变中的至少一种。
在一些实施方案中,本文公开的用于鉴定序列变体的方法包括使所述连接产物与亚硫酸氢盐相接触以将所述连接产物中的未甲基化的胞嘧啶修饰为尿苷。在一些实施方案中,所述序列变体包括C至T突变。
在一些实施方案中,所述第一引物包含不根据序列互补性与所述靶多核苷酸杂交的第一5’端。在一些实施方案中,所述第二引物包含不根据序列互补性与所述多联体杂交的第二5’端。在一些实施方案中,用于鉴定序列变体的方法进一步包括使用包含所述第一5’端的至少一部分的序列的第三引物和包含所述第二5’端的至少一部分的序列的第四引物来扩增(d)中的所述多个延伸产物。
在一些实施方案中,所述第一引物与所述无细胞DNA多核苷酸的至少一个区段的序列杂交。在一些实施方案中,所述第一引物包含基因特异性序列。在一些实施方案中,所述第一引物包含随机序列。在一些实施方案中,所述第二引物与同所述无细胞DNA多核苷酸的至少一个区段互补的序列杂交。在一些实施方案中,所述第二引物包含基因特异性序列。在一些实施方案中,所述第二引物包含随机序列。
在一些实施方案中,所述第一引物与所述单链衔接子的至少一个区段的序列杂交。在一些实施方案中,所述第二引物与同所述单链衔接子的至少一个区段互补的序列杂交。
在一些实施方案中,所述第一引物包含条形码序列。在一些实施方案中,所述第二引物包含条形码序列。
在一些实施方案中,所述捕获探针包含双链核酸,并且在形成多核苷酸复合体之前,将所述双链核酸分离成两个单链捕获探针。
在一些实施方案中,在(a)中的所述连接之前或与之同时,使用所述捕获探针作为模板延伸所述无细胞DNA,以补平无细胞DNA多核苷酸与单链衔接子之间的序列空隙。在一些实施方案中,在(a)中的所述连接之前或与之同时,使用所述捕获探针作为模板延伸所述单链衔接子,以补平无细胞DNA多核苷酸与单链衔接子之间的序列空隙。
在一些实施方案中,所述无细胞DNA多核苷酸在5’端包含与所述捕获探针缺乏序列互补性的区段。在一些实施方案中,所述方法进一步包括在(a)中的所述连接之前或与之同时,用内切核酸酶切割与所述捕获探针缺乏序列互补性的所述无细胞DNA多核苷酸的区段。
在一些实施方案中,所述无细胞DNA多核苷酸在3’端包含与所述捕获探针缺乏序列互补性的区段。在一些实施方案中,所述方法包括在(a)中的所述连接之前或与之同时,用内切核酸酶切割与所述捕获探针缺乏序列互补性的所述无细胞DNA多核苷酸的区段。
在一个方面,本公开内容提供了一种用于扩增无细胞DNA的方法,该方法包括(a)通过将无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接来形成连接产物,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的捕获探针的第二区段;(b)降解或选择性地去除所述捕获探针;(c)将所述连接产物进行环化以产生环状靶多核苷酸;(d)通过延伸根据序列互补性与靶多核苷酸杂交的第一引物生成包含来自所述环状靶多核苷酸的单链多核苷酸的多联体;以及(e)通过延伸根据序列互补性与所述多联体杂交的第二引物生成包含一个或多个拷贝的所述靶多核苷酸的多个延伸产物。
在一些实施方案中,所述第一引物包含不根据序列互补性与所述靶多核苷酸杂交的第一5’端。在一些实施方案中,所述第二引物包含不根据序列互补性与所述多联体杂交的第二5’端。在一些实施方案中,所述方法进一步包括使用包含第一5’端的至少一部分的序列的第三引物和包含第二5’端的至少一部分的序列的第四引物来扩增(d)中的所述多个延伸产物。
在一些实施方案中,所述第一引物与所述无细胞DNA多核苷酸的至少一个区段的序列杂交。在一些实施方案中,所述第一引物包含基因特异性序列。在一些实施方案中,所述第一引物包含随机序列。在一些实施方案中,所述第二引物与同所述无细胞DNA多核苷酸的至少一个区段互补的序列杂交。在一些实施方案中,所述第二引物包含基因特异性序列。在一些实施方案中,所述第二引物包含随机序列。
在一些实施方案中,所述第一引物与所述单链衔接子的至少一个区段的序列杂交。在一些实施方案中,所述第二引物与同所述单链衔接子的至少一个区段互补的序列杂交。
在一些实施方案中,所述第一引物包含条形码序列。在一些实施方案中,所述第二引物包含条形码序列。
在一些实施方案中,所述捕获探针包含双链核酸,并且在形成多核苷酸复合体之前,将所述双链核酸分离成两个单链捕获探针。
在一个方面,本公开内容提供了一种进行滚环扩增的方法,该方法包括(a)提供包含靶多核苷酸的环状多核苷酸,其中所述环状多核苷酸通过以下步骤形成:(i)将无细胞DNA多核苷酸和单链衔接子与捕获探针混合以形成多核苷酸复合体,其中所述捕获探针的第一区段根据序列互补性与无细胞DNA多核苷酸杂交,并且所述捕获探针的第二区段根据序列互补性与单链衔接子杂交;(ii)将所述无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接,从而形成连接产物;(iii)降解或选择性地去除所述捕获探针;以及(iv)将所述连接产物进行环化以产生环状靶多核苷酸;(b)使扩增反应混合物经历多个循环的滚环扩增以生成包含多联体的多个扩增产物,其中该扩增反应混合物包含(i)具有链置换活性的聚合酶,(ii)(a)中的环状靶多核苷酸,以及(iii)引物;其中所述多个循环的滚环扩增中的每个循环均包括在变性温度下的变性、在退火温度下的引物退火以及在延伸温度下持续给定延伸时间段的引物延伸,以生成包含多联体的多个扩增产物;并且其中所生成的多个扩增产物的特征在于,与通过利用变性和引物退火条件相当但延伸时间段相当于所述多个循环的延伸时间段之和的一个扩增循环生成的多个扩增产物相比,该扩增产物含有更高比例的具有至少两个拷贝的靶多核苷酸的多联体。
在一个方面,本公开内容提供了一种使用捕获探针形成第一单链多核苷酸和第二单链多核苷酸的连接产物的方法。在一些实施方案中,该方法包括:(a)将所述第一单链多核苷酸和所述第二单链多核苷酸与所述捕获探针混合以形成多核苷酸复合体,其中所述捕获探针的第一区段根据序列互补性与所述第一单链多核苷酸特异性杂交,并且所述捕获探针的第二区段根据序列互补性与所述第二单链多核苷酸特异性杂交;(b)将所述第一单链多核苷酸与所述第二单链多核苷酸连接,从而形成连接产物;以及(c)降解或选择性地去除所述捕获探针。在一些实施方案中,步骤(c)包括酶促降解所述捕获探针。在一些实施方案中,所述降解通过内切核酸酶而实现。在一些实施方案中,所述捕获探针包含标签。在一些实施方案中,步骤(c)包括用选择性结合标签的结合元件选择性地去除捕获探针。在一些实施方案中,所述标签为生物素。在一些实施方案中,所述第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与所述捕获探针特异性杂交,而所述第三区段根据序列互补性与所述捕获探针特异性杂交。在一些实施方案中,(i)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。在一些实施方案中,单一反应中的每个第一单链多核苷酸的条形码序列不同于每个其他条形码序列。在一些实施方案中,所述条形码序列唯一地与多个连接反应中的单个连接反应相关联。在一些实施方案中,所述方法包括使用第一引物对所述连接产物或所述连接产物的区段进行扩增,该第一引物根据序列互补性与所述第一单链多核苷酸的第一区段或第二区段或其互补体特异性杂交。在一些实施方案中,所述第一引物在5’端包含与所述连接产物缺乏序列互补性的第一测序衔接子或其互补体。在一些实施方案中,(i)所述第一引物与所述第一单链多核苷酸的第一区段特异性杂交,(ii)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(iii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。在一些实施方案中,使用第二引物对所述连接产物或所述连接产物的区段进行扩增,该第二引物根据序列互补性与第一引物的延伸产物特异性杂交。在一些实施方案中,所述第二引物在5’端包含与第一引物的延伸产物缺乏序列互补性的第二测序衔接子。在一些实施方案中,在步骤(b)之前或与之同时,使用捕获探针作为模板延伸所述第一单链多核苷酸,以补平第一单链多核苷酸与第二单链多核苷酸之间的序列空隙。在一些实施方案中,所述第二单链多核苷酸在5’端包含与捕获探针缺乏序列互补性的区段。在一些实施方案中,所述方法包括在步骤(b)之前或与之同时,用内切核酸酶切割与捕获探针缺乏序列互补性的第二单链多核苷酸的区段。在一些实施方案中,所述第一或第二单链多核苷酸中的至少一种为无细胞多核苷酸。在一些实施方案中,步骤(a)包括将所述第一单链多核苷酸、所述第二单链多核苷酸和所述捕获探针与根据序列互补性与序列变体杂交的阻断多核苷酸混合,其中所述序列变体与第二单链多核苷酸至少90%相同且小于100%相同。
在一个方面,本公开内容提供了一种用于使用捕获探针形成包含第一单链多核苷酸和第二单链多核苷酸的连接产物的反应混合物。在一些实施方案中,所述反应混合物包含:(a)所述第一单链多核苷酸、所述第二单链多核苷酸和所述捕获探针的混合物,其中所述捕获探针的第一区段根据序列互补性与所述第一单链多核苷酸特异性杂交,并且所述捕获探针的第二区段根据序列互补性与第二单链多核苷酸特异性杂交;以及(b)连接酶,以实现所述第一单链多核苷酸与所述第二单链多核苷酸的连接;其中(i)所述捕获探针包含RNA,并且第一和第二单链多核苷酸包含DNA,(ii)所述捕获探针包含脱氧尿苷,或者(iii)所述捕获探针包含选择性地与结合元件结合的标签。在一些实施方案中,所述捕获探针包含脱氧尿苷。在一些实施方案中,所述捕获探针包含选择性地与结合元件结合的标签。在一些实施方案中,所述标签为生物素。在一些实施方案中,所述反应混合物包含聚合酶。在一些实施方案中,所述聚合酶使用所述捕获探针作为模板延伸第一单链多核苷酸,以补平第一单链多核苷酸与第二单链多核苷酸之间的序列空隙。在一些实施方案中,所述反应混合物包含内切核酸酶。在一些实施方案中,所述内切核酸酶切割与所述捕获探针缺乏序列互补性的所述第二单链多核苷酸的区段。在一些实施方案中,所述内切核酸酶为瓣状内切核酸酶。在一些实施方案中,所述反应混合物容纳在容器中。在一些实施方案中,所述容器为孔、板、管、腔室、流动池或芯片。在一些实施方案中,所述第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与所述捕获探针特异性杂交,而所述第三区段根据序列互补性与所述捕获探针特异性杂交。在一些实施方案中,(i)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。在一些实施方案中,反应包含至少200个不同的第一单链多核苷酸,每个第一单链多核苷酸具有不同的条形码序列。在一些实施方案中,每个第一单链多核苷酸的条形码序列不同于所述反应混合物中的每个其他条形码序列。在一些实施方案中,所述条形码序列唯一地与多个连接反应中的单个连接反应相关联。在一些实施方案中,所述第一单链多核苷酸或所述第二单链多核苷酸为无细胞多核苷酸。在一些实施方案中,所述反应混合物包含根据序列互补性与序列变体杂交的阻断多核苷酸,其中所述序列变体与第二单链多核苷酸至少90%相同且小于100%相同。
在一个方面,本公开内容提供了一种用于捕获单链靶多核苷酸的试剂盒。在一些实施方案中,该试剂盒包含多个捕获探针、一个或多个第一单链多核苷酸以及关于使用所述多个捕获探针捕获一个或多个单链靶多核苷酸的说明书。在一些实施方案中,捕获探针在5’端包含显示出与第一单链多核苷酸的序列互补性的区段,并且在3’端包含显示出与单链靶多核苷酸的序列互补性的第二区段。在一些实施方案中,所述单链靶多核苷酸为无细胞靶多核苷酸。在一些实施方案中,所述捕获探针包含至少10个脱氧尿苷。在一些实施方案中,所述一个或多个第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与捕获探针特异性杂交,而所述第三区段根据序列互补性与捕获探针特异性杂交。在一些实施方案中,(i)每个第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)每个第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。在一些实施方案中,所述试剂盒包含一种或多种第一引物,该第一引物包含根据序列互补性与所述第一单链多核苷酸的第一区段或第二区段特异性杂交的3’端序列。在一些实施方案中,所述一种或多种第一引物在5’端包含与第一多核苷酸缺乏序列互补性的第一测序衔接子。在一些实施方案中,所述试剂盒包含一种或多种第二引物,该第二引物包含根据序列互补性与所述一种或多种第一引物的延伸产物特异性杂交的3’端序列。在一些实施方案中,所述一种或多种第二引物在5’端包含与所述一种或多种第一引物的延伸产物缺乏序列互补性的第二测序衔接子。在一些实施方案中,所述试剂盒包含尿嘧啶DNA-糖基化酶。在一些实施方案中,所述试剂盒包含内切核酸酶。在一些实施方案中,所述试剂盒包含聚合酶。在一些实施方案中,所述试剂盒包含连接酶。在一些实施方案中,所述试剂盒包含根据序列互补性与序列变体杂交的阻断多核苷酸,其中该序列变体与单链靶多核苷酸至少90%相同且小于100%相同。
在一个方面,本公开内容提供了一种多核苷酸复合体。在一些实施方案中,该多核苷酸复合体包含第一单链多核苷酸、第二单链多核苷酸和捕获探针,其中所述捕获探针在5’端与所述第一单链多核苷酸杂交并且在3’端与所述第二单链多核苷酸杂交,其中所述第一单链多核苷酸和所述第二单链多核苷酸是不连续的,并且其中所述捕获探针包含至少10个脱氧尿苷。在一些实施方案中,所述第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与捕获探针特异性杂交,而所述第三区段根据序列互补性与捕获探针特异性杂交。在一些实施方案中,(i)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。在一些实施方案中,所述第一或第二单链多核苷酸中的一种为无细胞多核苷酸。
援引并入
本说明书中所提及的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。
附图说明
本发明的新颖特征在所附权利要求书中进行了具体阐述。通过参考以下对利用了本发明原理的说明性实施方案加以阐述的详细描述及其附图,将会获得对本发明的特征和优点的更好的了解,在附图中:
图1图示了根据一些实施方案的可用于形成连接产物的多核苷酸的复合体。
图2图示了根据一个实施方案的用于形成连接产物的方法。
图3图示了根据一个实施方案的阻断多核苷酸的使用。
图4图示了根据一个实施方案的用于形成连接产物的方法。
图5图示了根据一个实施方案的用于形成连接产物的方法。
图6A和6B图示了根据一个实施方案的用于扩增多核苷酸的方法。
图7图示了使用双链捕获探针对双链靶多核苷酸进行的多核苷酸捕获、瓣状内切核酸酶切割和连接酶介导的连接。
图8A和图8B示出了具有由使用本公开内容的方法形成的连接产物所生成的扩增产物的琼脂糖凝胶。
具体实施方式
除非另有说明,否则本文公开的一些方法的实施采用了本领域技术范围内的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术。参见,例如,Sambrook和Green,Molecular Cloning:A Laboratory Manual,第四版(2012);Current Protocols in Molecular Biology系列(F.M.Ausubel等编著);Methods InEnzymology系列(Academic Press,Inc.),PCR 2:A Practical Approach(M.J.MacPherson,B.D.Hames和G.R.Taylor编著(1995));Harlow和Lane编著(1988)Antibodies,A Laboratory Manual,and Culture of Animal Cells:A Manual of BasicTechnique and Specialized Applications,第6版(R.I.Freshney编著(2010))。
术语“约”或“大约”意指如本领域普通技术人员所确定的特定值在可接受的误差范围内,其部分地取决于该值是如何测量或确定的,即测量***的限制。例如,“约”可以是指根据本领域的实践,在1个或大于1个标准差内。或者,“约”可以是指给定值的高达20%、高达10%、高达5%或高达1%的范围。或者,尤其是对于生物***或过程,该术语可以是指在数值的一个数量级内,优选地在5倍以内,更优选地在2倍以内。在本申请和权利要求书中描述特定值时,除另有说明外,否则术语“约”应该被认为是指在特定值的可接受的误差范围内。
术语“多核苷酸”、“核酸”和“寡核苷酸”是可以互换使用的。如本文所用的,其通常是指任意长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸)或其类似物的聚合形式。多核苷酸可以具有任意三维结构,并且可以行使任何已知的或未知的功能。多核苷酸的非限制性实例是:基因或基因片段的编码或非编码区、基因间DNA、通过连锁分析确定的一个(多个)基因座、外显子、内含子、信使RNA(mRNA)、转运RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、小核仁RNA、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任意序列的分离的DNA、任意序列的分离的RNA、核酸探针、衔接子和引物。多核苷酸可以包含修饰的核苷酸,例如甲基化核苷酸和核苷酸类似物。如果存在,对核苷酸结构的修饰可以在聚合物装配之前或之后赋予。核苷酸序列可以被非核苷酸组分打断。多核苷酸可以在聚合后被进一步修饰,例如,通过与标记组分偶联。
术语“靶多核苷酸”是指具有靶序列的核酸分子起始群体中的核酸分子或多核苷酸,该靶序列的存在、量和/或核苷酸序列或其中一个或多个的改变希望加以确定。靶多核苷酸可以是较大多核苷酸的一部分(例如待扩增、待测序或有待以其他方式分析的部分),或可用于指包含靶序列的较大多核苷酸。通常,术语“靶序列”是指在核酸单链上的核酸序列。靶序列可以是基因的一部分,调节序列,基因组DNA,cDNA,融合基因,包括mRNA、miRNA、rRNA在内的RNA,等等。靶序列可以是来自样品的靶序列或次级靶标如扩增反应的产物。
如本文所用的,术语“捕获探针”是指例如通过杂交与一个或多个靶多核苷酸相互作用的多核苷酸。捕获探针可部分或完全地与一个或多个靶多核苷酸杂交,并且任何比例的杂交区域可以是互补的。因此,捕获探针可与一个或多个多核苷酸杂交。捕获探针可包含一个或多个修饰的核苷酸,诸如甲基化的核苷酸和核苷酸类似物。可进一步修饰捕获探针,例如通过与标记组分、标签、反应性部分或结合配偶体偶联。
如本文所用的,术语“杂交”和“退火”通常是指这样的反应,在该反应中,一个或多个多核苷酸发生反应以形成复合体,该复合体通过在核苷酸残基的碱基之间的氢键键合而得到稳定。该氢键键合可以通过Watson Crick碱基配对、Hoogstein结合或以任意其他序列特异性方式而发生。该复合体可以包含形成双链体结构的两条链、形成多链复合体的三条或更多条链、自杂交的单链或其任意组合。杂交反应可以构成更广泛的过程中的步骤,例如PCR的起始,或核酶对多核苷酸的酶切。可以通过与第二序列的核苷酸残基的碱基发生氢键键合而稳定化的第一序列被称为可与第二序列“杂交”。在这种情况下,第二序列也可称为可与第一序列杂交。
如本文所用的,术语“互补体”、“互补”和“互补性”通常是指与给定序列完全互补且可杂交的序列。在一些情况下,如果给定区域上的碱基序列能够与其结合配偶体的碱基序列互补地结合,使得例如形成A-T、A-U、G-C和G-U碱基对,则与该给定核酸杂交的序列被称为给定分子的“互补体”或“反向互补体”。通常,可与第二序列杂交的第一序列与该第二序列特异性或选择性地杂交,使得在杂交反应期间,与第二序列或第二序列组的杂交相对于与非靶序列的杂交是优选的(例如,在给定的一组条件,如本领域常用的严格条件下更加热力学稳定)。一般而言,可杂交序列在其各自的全长或部分长度上具有一定程度的序列互补性,如25%-100%的互补性,包括至少25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%和100%的序列互补性。序列同一性,例如为了评估互补性百分比,可以通过任何合适的比对算法进行测量,包括但不限于Needleman-Wunsch算法(参见,例如,EMBOSS Needle比对器,可从www.ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.html获得,任选地具有默认设置)、BLAST算法(参见,例如,BLAST比对工具,可从blast.ncbi.nlm.nih.gov/Blast.cgi获得,任选地具有默认设置)或者Smith-Waterman算法(参见,例如,EMBOSS Water比对器,可从www.ebi.ac.uk/Tools/psa/emboss_water/nucleotide.html获得,任选地具有默认设置)。最优算法可以使用所选定算法的任意合适的参数(包括默认参数)进行评估。在一些实施方案中,捕获探针通过捕获探针的预定的非随机序列与靶序列之间的互补性与指定的靶序列特异性杂交。
如本文所用的,术语“连接”是指在两个多核苷酸末端之间形成核苷酸间连接的任何酶促或非酶促过程,这两个多核苷酸末端任选地与模板邻近杂交。例如,可通过在一个DNA末端的3’-羟基与另一个DNA末端的5’-磷酰基之间形成磷酸二酯键来连接DNA片段的末端。在一些情况下,核苷酸间连接可在两个多核苷酸片段之间(分子间)形成。在一些情况下,核苷酸间连接可在单个片段(分子内)的两个末端(5’端和3’端)之间形成。RNA片段的末端可类似地通过磷酸二酯键的形成而连接。可连接的多核苷酸可以是单链的或双链的。当在DNA或RNA分子的3’或5’端处存在未配对的核苷酸时,双链核酸可包含交错末端、突出端或黏端。当末端核苷酸在DNA或RNA分子的3’或5’端处配对时,双链核酸可包含平端。连接可包括使用酶,诸如连接酶。
如本文所用的,术语“衔接子”通常是指可附接至另一多核苷酸的核酸。例如,衔接子可以指可附接至单链多核苷酸(例如,无细胞多核苷酸、无细胞多核苷酸的片段、基因组DNA或基因组DNA片段)的单链多核苷酸。在一些情况下,衔接子可以指可附接至双链核酸的双链核酸。衔接子可附接至多核苷酸的5’端或3’端。在一些情况下,衔接子可附接至多核苷酸的两个末端,即一个衔接子附接至每一个末端。
如本文所用的,术语“连接产物”通常是指由连接反应产生的产物。在一些情况下,连接产物可以指由两个DNA多核苷酸的连接产生的DNA多核苷酸。在一些情况下,连接产物可以指由线性DNA多核苷酸的两个末端的连接产生的环状DNA多核苷酸。在一些情况下,连接产物可以指由两个RNA多核苷酸的连接产生的RNA多核苷酸。在一些情况下,连接产物可以指由线性RNA多核苷酸的两个末端的连接产生的环状RNA多核苷酸。在一些情况下,连接产物可以指由DNA多核苷酸和RNA多核苷酸的连接产生的多核苷酸产物。
如本文所用的,术语“扩增”通常是指由靶多核苷酸或其部分形成一个或多个拷贝的任意过程。多种扩增多核苷酸(例如DNA和/或RNA)的方法是可用的,本文描述了这些方法的一些实例。扩增可以是线性的,指数式的,或在多阶段扩增过程中涉及线性和指数阶段。扩增方法可包括温度的改变,例如热变性步骤,或者可以是不需要热变性的等温过程。在一些情况下,扩增借助于使用一对引物的PCR而实现。扩增产物可经历后续分析,包括但不限于解链曲线分析、核苷酸测序、单链构象多态性测定、等位基因特异性寡核苷酸杂交、Southern印迹分析和限制性内切核酸酶消化。
关于多核苷酸或多核苷酸复合体(包括但不限于连接产物和扩增产物)的术语“分离”通常是指制备缺乏至少一些其他组分的物质(例如,多核苷酸、多核苷酸复合体、其连接产物和扩增产物),这些其他组分在物质或类似物质天然存在或最初从例如生物样品、样品反应体积如连接反应体积、扩增反应体积等中获得时也可能存在。例如,可使用纯化技术来制备分离的物质以从源混合物中富集该分离的物质。可基于绝对水平上或在浓度方面(例如以每单位体积溶液的重量、每单位体积溶液的分子数或任意其他适当的量度)来测量富集。
如本文所用的,术语“支持物”通常是指具有可固定另一种类的表面的物质。支持物的非限制性实例包括颗粒(例如,珠子)、孔表面、容器表面、固体表面、平面表面、阵列表面、多孔表面(例如,多孔表面的微腔)、树脂(例如,柱中的树脂)和纤维(例如,膜或支持物中的纤维)。此外,支持物可包括任何合适的材料,其非限制性实例包括金属、金属氧化物、含碳材料和聚合物种类。固定有选择性结合剂的支持物可用于例如分离或富集包含特异性结合该结合剂的标签的种类,如多核苷酸或多核苷酸复合体。
在各个方面,本公开内容提供了用于使用捕获探针产生连接产物的方法、组合物、反应混合物、试剂盒和***。可使用核酸分析方法对本公开内容的连接产物进行进一步的处理和分析,例如进行测序以鉴定序列变体。在一些实施方案中,所述方法用于生成包含多核苷酸(包括但不限于无细胞DNA和基因组DNA)的连接产物。本公开内容的各个方面提供了用于下游分析(包括但不限于测序分析和序列变体鉴定)的连接产物。
在一个方面,本公开内容提供了用于形成连接产物的方法。在一些实施方案中,用于使用捕获探针形成第一单链多核苷酸和第二单链多核苷酸的连接产物的方法包括:(a)将第一单链多核苷酸和第二单链多核苷酸与捕获探针混合以形成多核苷酸复合体,其中捕获探针的第一区段可根据序列互补性与第一单链多核苷酸特异性杂交,并且捕获探针的第二区段可根据序列互补性与第二单链多核苷酸特异性杂交;(b)将第一单链多核苷酸与第二单链多核苷酸连接,从而形成连接产物;以及(c)降解或选择性地去除捕获探针。在一些实施方案中,第一和第二单链多核苷酸中的至少一种包含无细胞多核苷酸,例如无细胞DNA多核苷酸或基因组DNA。在一些实施方案中,第一和第二单链多核苷酸中的至少一种包含单链衔接子。
采用捕获探针形成包含第一单链多核苷酸和第二单链多核苷酸的多核苷酸的复合体(在本文中可与术语“多核苷酸复合体”互换使用),可取决于杂交部分的长度(以核苷酸计)、第一和第二单链多核苷酸与它们各自杂交的捕获探针的相应区段之间的序列互补性的程度以及进行混合的温度。包含第一单链多核苷酸和捕获探针的杂交部分的长度可以是任意合适的长度,如长度为至少20个碱基对(例如,至少25、30、35、50、100、150、200、250、300、350、400、450或500个碱基对或多于500个碱基对),其任何部分均可以是互补的。包含第一单链多核苷酸和捕获探针的杂交部分的长度可以是任意合适的长度,如长度为5-500个碱基对(例如,10-450个碱基对、30-400个碱基对、30-300个碱基对、30-200个碱基对、30-100个碱基对或30-50个碱基对),其任何部分均可以是互补的。在一些实施方案中,当最佳比对时,杂交部分为至少60%互补(例如,至少70%、75%、80%、85%、90%或95%互补或超过95%互补)。在一些实施方案中,当最佳比对时,杂交部分为50%-100%互补(例如,60%-90%、60%-80%或60%-70%互补)。包含第二单链多核苷酸和捕获探针的杂交部分的长度可以是任意合适的长度,如长度为至少20个碱基对(例如,至少20、25、30、35、50、100、150、200、250、300、350、400、450或500个碱基对或多于500个碱基对),其任何部分均可以是互补的。包含第二单链多核苷酸和捕获探针的杂交部分的长度可以是任意合适的长度,如长度为5-500个碱基对(例如,10-450个碱基对、30-400个碱基对、30-300个碱基对、30-200个碱基对、30-100个碱基对或30-50个碱基对),其任何部分均可以是互补的。在一些实施方案中,当最佳比对时,杂交部分为至少60%互补(例如,至少70%、75%、80%、85%、90%或95%互补或超过95%互补)。在一些实施方案中,当最佳比对时,杂交部分为50%-100%互补(例如,60%-90%、60%-80%或60%-70%互补)。多核苷酸复合体的形成也可能取决于混合物的温度(相对于杂交区域的解链温度)。解链温度(也被称为Tm)通常表示50%的由参考序列(其实际上可能是较大多核苷酸内的子序列)及其互补序列组成的寡核苷酸杂交(或分离)时的温度。Tm可基于本领域可用的标准计算、算法或测量。用于测量Tm的示例性工具OligoAnalyzer可由Integrated DNA Technologies在www.idtdna.com/calc/analyzer上获得,该工具可设置为使用默认参数。其他类似的工具是可用的。在一些实施方案中,当混合物的温度在包含第一单链多核苷酸和捕获探针的杂交区域的Tm的±15℃内或在包含第二单链多核苷酸和捕获探针的杂交区域的Tm的±15℃内时,多核苷酸复合体形成。在一些实施方案中,多核苷酸复合体的形成受到其他混合物条件(包括但不限于缓冲液组分和浓度)的影响。
在一些实施方案中,所述捕获探针包含双链核酸,并且在形成多核苷酸复合体之前,将双链核酸分离成两个单链捕获探针。可例如通过热变性或解链来分离双链核酸。在一些实施方案中,第一单链多核苷酸和第二单链多核苷酸在与捕获探针杂交时彼此邻近。这可以发生在例如第一单链多核苷酸在捕获探针的3’端处杂交且第二单链多核苷酸在捕获探针的5’端处杂交的排列中,以及包含3’末端核苷酸的第一单链多核苷酸的3’端与包含5’末端核苷酸的第二单链多核苷酸的5’端紧邻的排列中。在一些实施方案中,当第一单链多核苷酸与第二单链多核苷酸各自与捕获探针杂交时,二者之间存在序列空隙。这可以发生在例如第一单链多核苷酸在捕获探针的3’端处杂交且第二单链多核苷酸在捕获探针的5’端处杂交的排列中,以及包含3’末端核苷酸的第一单链多核苷酸的3’端不与包含5’末端核苷酸的第二单链多核苷酸的5’端紧邻(例如,被1、2、3、4、5、10个或更多个碱基的空隙隔开)的排列中。在一些实施方案中,在如步骤(b)中的连接之前或与之同时,使用捕获探针作为模板延伸第一单链多核苷酸,以补平第一单链多核苷酸与第二单链多核苷酸之间的序列空隙。在需要补平空隙时,可在延伸反应中使用捕获探针作为模板通过酶(例如,DNA聚合酶、逆转录酶或RNA聚合酶)延伸单链多核苷酸(例如,第一单链多核苷酸)。在本方法中有用的多种聚合酶是可获得的,本文中提供了该酶的非限制性实例。在一些实施方案中,第二单链多核苷酸在5’端包含与捕获探针缺乏序列互补性的区段。例如,在第一单链多核苷酸在捕获探针的3’端处杂交并且第二单链多核苷酸在捕获探针的5’端处杂交的排列中,在与捕获探针缺乏序列互补性的第二单链多核苷酸的5’端处的区段可能不会杂交并形成被称为“瓣(flap)”的结构。在需要时,可将该瓣去除。在一些实施方案中,如步骤(b)中,在连接之前或与之同时将该瓣切割。在一些实施方案中,该瓣通过内切核酸酶如瓣状内切核酸酶进行切割。在本方法中有用的多种内切核酸酶是可获得的,本文中提供了该酶的非限制性实例。
图1中示出了多核苷酸复合体的说明性实施方案。图1的(A)中示出了一种多核苷酸复合体,其中第一单链多核苷酸和第二单链多核苷酸在与捕获探针杂交时彼此邻近。图1的(B)中示出了一种多核苷酸复合体,其中在与捕获探针杂交的第一单链多核苷酸与第二单链多核苷酸之间存在序列空隙。图1的(C)中示出了一种多核苷酸复合体,其中第二单链多核苷酸在5’端包含瓣或与捕获探针缺乏序列互补性的区段。
在一些实施方案中,当第一和第二单链多核苷酸与多核苷酸复合体中的捕获探针杂交时,通过将第一单链多核苷酸与第二单链多核苷酸连接来形成连接产物。当第一单链多核苷酸和第二单链多核苷酸在多核苷酸复合体中彼此邻近时,可通过将第一单链多核苷酸的末端核苷酸与第二单链多核苷酸的末端核苷酸连接来形成连接产物。在一些实施方案中,将第一单链多核苷酸和第二单链多核苷酸连接以在对第一单链多核苷酸进行延伸从而补平序列空隙的同时或之后形成连接产物。在一些实施方案中,将第一单链多核苷酸与第二单链多核苷酸连接以在对瓣切割的同时或之后形成连接产物,该瓣包含与捕获探针缺乏序列互补性的第二单链多核苷酸的区段。将第一单链多核苷酸与第二单链多核苷酸连接可包括使用酶,如连接酶。在本方法中有用的多种连接酶是可获得的,本文中提供了该酶的非限制性实例。在一些实施方案中,反应混合物包含用于延伸、瓣切割和连接中的两种或更多种或全部的试剂。在一些实施方案中,在连接之前进行延伸和瓣切割中的一种或两种,其中任何一种或全部均可在单独的反应中进行。当将第一多核苷酸连接至沿第二多核苷酸的特定位置时,瓣切割和延伸的组合可能是特别有利的,其中第二多核苷酸的末端序列是未知的(诸如在天然存在的随机片段以及积极地经历随机片段化的多核苷酸中)。在一些实施方案中,第二多核苷酸的末端不是由留下具有已知序列的末端的内切核酸酶形成的。在一些实施方案中,第二多核苷酸的末端是由留下具有已知序列的末端的内切核酸酶形成的。
在一些实施方案中,在形成连接产物的同时或之后将捕获探针降解或选择性去除。优选地,在连接之后进行降解或去除。在一些实施方案中,降解捕获探针包括酶促或化学降解捕获探针。在一些实施方案中,降解通过内切核酸酶(例如,DNA内切核酸酶、RNA内切核酸酶)而实现。在一些实施方案中,第一单链多核苷酸和第二单链多核苷酸包含DNA,而捕获探针包含RNA。在这样的情况下,可以使用切割RNA的RNA内切核酸酶(诸如RNA酶H,其切割RNA-DNA双链体中的RNA)来选择性地降解RNA捕获探针而不降解第一和第二单链DNA多核苷酸。在一些实施方案中,第一单链多核苷酸和第二单链多核苷酸包含RNA,而捕获探针包含DNA。使用切割DNA的DNA内切核酸酶可选择性地降解DNA捕获探针而不降解第一和第二单链RNA多核苷酸。在一些实施方案中,捕获探针包含一个或多个脱氧尿苷,并且捕获探针通过尿嘧啶DNA-糖基化酶进行降解。本方法中有用的多种内切核酸酶是可获得的,本文中提供了该酶的非限制性实例。在一些实施方案中,捕获探针包含标签,并且该捕获探针用选择性结合该标签的结合元件选择性地去除。在一些实施方案中,该标签为生物素。在需要选择性去除包含生物素标签的捕获探针的情况下,可以使用包含抗生物素蛋白或修饰的抗生物素蛋白的结合元件。
在一些实施方案中,在降解或选择性去除捕获探针之前从样品体积中分离出多核苷酸复合体。可以分离多核苷酸复合体以产生基本上不含试剂的样品制剂,该试剂诸如但不限于包含第一和第二单链多核苷酸的未杂交的多核苷酸;诸如连接酶和核酸酶的酶,例如包括瓣状内切核酸酶的内切核酸酶;以及包括盐和其他离子的试剂。“基本上不含”意指起始量的至少50%(例如,至少60%、70%、80%、90%或更多)被去除或不存在于样品制剂中。可通过将多核苷酸复合体直接或间接地固定到支持物上而将该多核苷酸复合体从样品体积中分离出来,该支持物包含特异性地结合附接至捕获探针的标签的选择性结合剂。支持物可包含颗粒、孔表面、容器表面、固体表面、平面表面、阵列表面、多孔表面(例如,多孔表面的微腔)、树脂(例如,柱中的树脂)和纤维(例如,膜或支持物中的纤维)。在一些实施方案中,支持物为颗粒如珠子,例如磁珠。在一些实施方案中,支持物为树脂,如装载到纯化柱中的树脂。用于分离多核苷酸复合体的支持物可具有在其上固定的选择性结合剂,该选择性结合剂可特异性地与标签(诸如附接至捕获探针的标签)相互作用。例如,可通过将附接至多核苷酸复合体的捕获探针的标签选择性地结合到选择性结合剂(例如,固定到支持物上的结合剂)上并随后使用该支持物从样品溶液中去除多核苷酸复合体而将该多核苷酸复合体从样品反应体积中分离出来。以这种方式,可在另外的样品制备步骤之前将多核苷酸复合体与未连接的多核苷酸分离。
所述第一单链多核苷酸可从5’端至3’端包含第一区段、第二区段和第三区段,其中第一区段和第二区段不根据序列互补性与捕获探针特异性杂交,而第三区段根据序列互补性与捕获探针特异性杂交。通常,不与捕获探针特异性杂交的第一区段和第二区段被设计为在第三区段与捕获探针杂交的条件下不与捕获探针杂交。在一些实施方案中,(i)第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
包含多个不同的第一单链多核苷酸所共有的序列的第一单链多核苷酸的第一区段可用于连接产物的下游加工,包括但不限于用于序列分析的扩增反应和测序反应。例如,多个不同的第一单链多核苷酸所共有的序列可包含一个或多个扩增引物退火序列或其互补体以扩增多个连接产物。多个不同的第一单链多核苷酸所共有的序列可包含探针结合位点或测序衔接子。测序衔接子通常是指在多核苷酸的5’和/或3’端掺入以促进多核苷酸测序反应中的一个或多个步骤的寡核苷酸。在一些实施方案中,使用测序衔接子将包含测序衔接子的多核苷酸结合至流动池以用于下一代测序。下一代测序方法的非限制性实例为单分子实时测序、离子半导体测序、焦磷酸测序、合成测序、连接测序和链终止。用于流动池附接的测序衔接子可包括与下一代测序***(例如,454Sequencing、Ion Torrent Proton或PGM和Illumina X10)兼容的任何合适的序列。用于下一代测序方法的测序衔接子的非限制性实例包括适用于与Illumina测序***一起使用的P5和P7衔接子;TruSeq通用衔接子(TruSeq Universal Adapter);和TruSeq索引衔接子(TruSeq Indexed Adapter)。在一些实施方案中,使用测序衔接子例如通过扩增(例如通过聚合酶链反应(PCR))来富集包含衔接子序列的多核苷酸。测序衔接子还可包含条形码序列和/或样品索引序列。多个不同的第一单链多核苷酸所共有的序列还可包含一个或多个测序引物退火序列或其互补体;一个或多个限制酶识别位点;一个或多个随机或接近随机的序列;以及它们的组合。第一序列可具有任意合适的长度。在一些实施方案中,第一序列的长度为至少5、10、15、20、25、30、40、50个或更多个核苷酸(例如,5-30或10-20个核苷酸的长度)。
包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列的第一单链多核苷酸的第二区段可用于从多种连接产物中区分连接产物。条形码序列可以指允许鉴定与条形码相关联的多核苷酸的一些特征的已知核酸序列。这些条形码可各自具有4至35个核苷酸、6至30个核苷酸或8至20个核苷酸范围内的长度。在一些实施方案中,条形码的长度为至少3、4、5、6、7、8、9、10、11、12、13、14或15个核苷酸或更多个核苷酸。在一些实施方案中,条形码的长度为小于6个核苷酸。在一些实施方案中,与一些靶多核苷酸相关联的条形码具有不同于与其他靶多核苷酸相关联的条形码的长度。一组内的条形码的解链温度可以在彼此的±10℃内、彼此的±5℃内或彼此的±2℃内。条形码可以是最小交叉杂交组的成员。例如,这样的组的每个成员的核苷酸序列可以与该组中的每个其他成员的核苷酸序列明显不同,以致于在中等或严格杂交条件下,没有成员可以与任何其他成员的互补体形成稳定的双链体。最小交叉杂交组的每个成员的核苷酸序列可以与每个其他成员的核苷酸序列有至少两个核苷酸不同。在一些实施方案中,单一反应中的每个第一单链多核苷酸的条形码序列与每个其他条形码序列不同。在一些实施方案中,条形码序列唯一地与多个连接反应中的单个连接反应相关联。
在一些实施方案中,方法包括对连接产物或连接产物的区段进行扩增。对连接产物或连接产物的区段进行扩增可包括使用第一引物,该第一引物根据序列互补性与第一单链多核苷酸的第一区段或第二区段或其互补体特异性杂交。在需要对连接产物进行测序分析的情况下,使用包含第一测序衔接子的扩增引物可产生这样的扩增产物,其中第一测序衔接子的核苷酸序列附加至连接产物的核苷酸序列的一端。第一测序衔接子可例如用于通过测序引物结合或用于将扩增产物附接至流动池以用于下一代测序。在一些实施方案中,第一引物在5’端包含与连接产物缺乏序列互补性的第一测序衔接子或其互补体。用于核酸扩增的第一引物可具有任意合适的长度,如至少5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90或100个或多于100个核苷酸,其任何部分或全部可与相应的靶序列互补(例如,约5、10、15、20、25、30、35、40、45或50个核苷酸或多于50个核苷酸)。用于核酸扩增的第一引物的长度可以在5至100个核苷酸、10至85个核苷酸、15至70个核苷酸或20至60个核苷酸的范围内,其任何部分或全部可与相应的靶序列互补(例如,约5、10、15、20、25、30、35、40、45或50个核苷酸或多于50个核苷酸)。第一引物可包含另外的序列元件,该序列元件包括但不限于包含一个或多个扩增引物退火序列或其互补体的区段;一个或多个测序引物退火序列或其互补体;一个或多个条形码序列;一个或多个在多种不同引物之间共有的共同序列;一个或多个限制酶识别位点;一个或多个探针结合位点或测序衔接子(例如,用于附接至测序平台,如用于大规模平行测序的流动池);一个或多个随机或接近随机的序列(例如,在一个或多个位置处从一组两个或更多个不同核苷酸中随机选择的一个或多个核苷酸);以及它们的组合。
在一些实施方案中,(i)第一引物与第一单链多核苷酸的第一区段特异性杂交,(ii)第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(iii)第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
在一些实施方案中,使用第二引物扩增连接产物或连接产物的区段,该第二引物根据序列互补性与第一引物的延伸产物特异性杂交。在需要将第二测序衔接子附加至连接产物的情况下,可以使用包含第二测序衔接子的第二引物进行扩增。第一和第二测序衔接子可以是相同的或不同的。在一些实施方案中,第二引物在5’端包含与第一引物的延伸产物缺乏序列互补性的第二测序衔接子。使用包含第二测序衔接子的扩增引物可以从第一引物的延伸产物产生扩增产物,其中如果第一引物的测序衔接子附加在连接产物的5’端,则第二测序衔接子的核苷酸序列附加至连接产物序列的一端,例如连接产物的3’端。在一些实施方案中,如果第一引物的测序衔接子附加在连接产物的3’端,则另外的测序衔接子的序列附加在连接产物的5’端。通常,5’端是指多核苷酸中相对于3’端处于5’的部分,并且任选地可包含5’末端核苷酸。类似地,3’端通常是指多核苷酸中相对于5’端处于3’的部分,并且任选地可包含3’末端多核苷酸。用于核酸扩增的第二引物可具有任意合适的长度,如至少5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90或100个核苷酸,其任何部分或全部可与相应的靶序列互补(例如,约5、10、15、20、25、30、35、40、45或50个核苷酸或多于50个核苷酸)。用于核酸扩增的第二引物的长度可以在5至100个核苷酸、10至85个核苷酸、15至70个核苷酸或20至60个核苷酸的范围内,其任何部分或全部可与相应的靶序列互补(例如,约5、10、15、20、25、30、35、40、45或50个核苷酸或多于50个核苷酸)。
在一些实施方案中,所述第一或第二单链多核苷酸中的至少一种为无细胞多核苷酸,包括但不限于无细胞DNA或RNA(cfDNA或cfRNA)。第一和/或第二单链多核苷酸可以由双链多核苷酸形成,该双链多核苷酸经处理使得它们成为单链(例如,通过变性)。在一些实施方案中,无细胞多核苷酸为循环肿瘤DNA或RNA(ctDNA或ctRNA)。在一些实施方案中,无细胞多核苷酸包含胎儿DNA或RNA。在一些实施方案中,无细胞多核苷酸为来源于细胞但并非直接从细胞来源(例如,通过包括细胞裂解的提取步骤)获得的多核苷酸。无细胞多核苷酸可源自的来源的非限制性实例为正常细胞和组织、异常细胞和组织(例如,癌细胞或组织)、胎儿细胞和组织以及病原体。非细胞来源中存在的无细胞多核苷酸可由细胞死亡(例如,凋亡或坏死)或细胞脱落产生。无细胞多核苷酸的序列分析可用于表征无细胞DNA所源自的细胞或细胞群,诸如肿瘤细胞(例如,在癌症检测中)、胎儿细胞(例如,在产前诊断中)、来自移植组织的细胞(例如,在移植失败的早期检测中)或病原体(例如,细菌或病毒)。在一些实施方案中,第一或第二单链多核苷酸中的至少一种为基因组DNA的片段。在一些实施方案中,第一或第二单链多核苷酸中的至少一种包含由染色体重排产生的一个或多个序列。在一些实施方案中,该染色体重排为缺失、重复、倒位和易位中的至少一种。
图2示出了形成连接产物的方法的说明性实施方案。多个第二单链多核苷酸(例如无细胞DNA(cfDNA))可形成多核苷酸复合体,该多核苷酸复合体进一步包含第一单链多核苷酸(例如PCR衔接子)和包含脱氧尿苷的捕获探针。如图2的(A)所示,当第一单链多核苷酸和第二单链多核苷酸与捕获探针杂交时,两者可以彼此紧邻。连接酶可实现连接产物的形成。在与捕获探针杂交的第一单链多核苷酸与第二单链多核苷酸之间可能存在序列空隙。如图2的(B)所示,可以在连接(其可以通过连接酶实现)之前或与之同时用聚合酶补平该序列空隙。如图2的(C)所示,与捕获探针缺乏序列互补性的第二单链多核苷酸的区段可形成瓣。瓣可在连接(其可以通过连接酶实现)之前或与之同时用瓣状内切核酸酶进行切割。包含脱氧尿苷的捕获探针可以用尿嘧啶DNA-糖基化酶进行降解,并且连接产物可以用包含测序衔接子的第一和第二引物进行扩增。
在一些实施方案中,连接反应包含多个单链多核苷酸,该多个单链多核苷酸包含用于形成连接产物的多个序列。一些样品可含有序列相似性高的序列,例如包含相差至少一个碱基的突变序列和野生型序列的多核苷酸。期望的序列(例如突变序列)与不期望的序列(例如野生型序列)之间的高序列相似性可导致两种多核苷酸与捕获探针杂交并形成包含不期望的序列的连接产物。在一些实施方案中,不期望的序列变体与期望的序列至少90%相同(例如,至少95%或99%相同)且小于100%相同。在一些实施方案中,将另外的多核苷酸添加至反应中以阻止或减少捕获探针与不期望的序列变体(例如野生型序列)之间的杂交。在一些实施方案中,将第一单链多核苷酸、第二单链多核苷酸和捕获探针混合以形成多核苷酸复合体包括使用根据序列互补性与序列变体杂交的阻断多核苷酸,其中该序列变体与第二单链多核苷酸至少90%相同且小于100%相同。
图3示出了使用阻断多核苷酸的方法的说明性实施方案。将包含野生型(wt)和突变cfDNA的多核苷酸的混合物与包含生物素标签的捕获探针和可根据序列互补性与wtcfDNA杂交的阻断多核苷酸混合。突变cfDNA可以与捕获探针杂交,而与wt cfDNA杂交的阻断多核苷酸可以阻止wt cfDNA与捕获探针杂交。包含链霉亲和素珠子的结合元件可用于去除与突变cfDNA杂交的捕获探针。
在一些实施方案中,所述阻断多核苷酸与序列变体100%互补。在一些实施方案中,所述阻断多核苷酸不阻断所有序列变体与捕获探针杂交,但相对于在不存在阻断多核苷酸的情况下捕获的比例,确实富集靶序列的捕获。在一些实施方案中,使用阻断多核苷酸导致连接产物中约90%包含第一单链多核苷酸,而约10%包含序列变体。在一些实施方案中,使用阻断多核苷酸导致连接产物中约80%包含第一单链多核苷酸,而约20%包含序列变体。在一些实施方案中,使用阻断多核苷酸导致连接产物中60%至100%的连接产物包含第一单链多核苷酸,而40%至0%的连接产物包含序列变体。阻断多核苷酸的序列和长度可被设计成使其解链温度对错配碱基比捕获探针更敏感,从而允许阻断多核苷酸优先结合其靶序列(例如,序列变体)。阻断多核苷酸可包含修饰的碱基,以进一步增加完全匹配的靶标相对于错配靶标的Tm差异。阻断多核苷酸可具有任意合适的长度。在一些实施方案中,阻断多核苷酸的长度为至少5个核苷酸(例如,6、7、8、9、10、15、20、25、30、40、50、60、70、80或100个核苷酸或超过100个核苷酸)。阻断多核苷酸的长度可以在5至100个核苷酸、10至85个核苷酸、15至70个核苷酸或20至60个核苷酸的范围内。阻断多核苷酸可包含核苷酸如LNA(锁定核酸)、脱氧核糖核苷酸和核糖核苷酸。在一些实施方案中,阻断多核苷酸包含至少1个修饰的核苷酸(例如,至少2、3、4、5、6、7、8、9、10、15、20、25、30、40或50个修饰的核苷酸或超过50个修饰的核苷酸)。在一些实施方案中,阻断多核苷酸包含至少1%修饰的核苷酸(例如,至少2%、3%、4%、5%、6%、7%、8%、9%、10%、25%、20%、30%、40%、50%、60%、70%或80%修饰的核苷酸或超过80%修饰的核苷酸)。阻断多核苷酸可包含脱氧尿苷。在一些实施方案中,阻断多核苷酸包含至少1个脱氧尿苷(例如,至少2、3、4、5、6、7、8、9、10、20或30个脱氧尿苷或超过30个脱氧尿苷)。在一些实施方案中,阻断多核苷酸包含至少1%的脱氧尿苷(例如,至少2%、3%、4%、5%、6%、7%、8%、9%或10%的脱氧尿苷或超过10%的脱氧尿苷)。可进一步修饰阻断多核苷酸,诸如使用标签,其实例在本文其他地方描述。在一些实施方案中,降解阻断多核苷酸。降解阻断多核苷酸可包括酶促降解或化学降解。在一些实施方案中,阻断多核苷酸包含可用于选择性去除捕获探针的标签。在一些实施方案中,该标签包含生物素标签,该生物素标签可结合包含抗生物素蛋白、修饰的抗生物素蛋白或链霉亲和素蛋白的结合元件。在一些实施方案中,该标签包含洋地黄毒苷标签,该洋地黄毒苷标签可结合包含抗洋地黄毒苷抗体的结合元件。在一些实施方案中,该标签包含二硝基苯酚(DNP)标签,该DNP标签可结合包含抗DNP抗体的结合元件。在一些实施方案中,该标签包含荧光素标签,该荧光素标签可结合包含抗荧光素抗体的结合元件。
图4中示出了使用阻断多核苷酸形成连接产物的方法的说明性实施方案。包含PCR衔接子的第一单链多核苷酸、包含cfDNA的第二单链多核苷酸、包含生物素标签的捕获探针和被设计成与wt cfDNA结合的阻断多核苷酸的混合物可以形成包含突变cfDNA、PCR衔接子和捕获探针的多核苷酸的复合体。被设计成与wt cfDNA结合的阻断多核苷酸的存在可部分或完全地减少包含wt cfDNA的多核苷酸复合体的数目。连接酶可实现包含突变cfDNA和PCR衔接子的连接产物的形成。在与捕获探针杂交的PCR衔接子与突变cfDNA之间存在序列空隙的情况下,聚合酶可在连接之前或与之同时延伸PCR衔接子以补平序列空隙。在突变cfDNA在5’端包含与捕获探针缺乏序列互补性的区段的情况下,瓣状内切核酸酶可在连接之前或与之同时切割缺乏序列互补性的区段。可以使用包含链霉亲和素珠子的结合元件去除捕获探针,并且可以使用包含测序衔接子的引物(例如包含共同序列或基因特异性序列的PCR引物)扩增连接产物。在另一个说明性实施方案中,如图5所示,捕获探针包含脱氧尿苷,并且其可以通过尿嘧啶DNA-糖基化酶去除。
在一个方面,本公开内容提供了用于扩增多核苷酸如无细胞DNA、基因组DNA或其片段的方法。在一些实施方案中,该方法包括:(a)通过将无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子多核苷酸连接来形成连接产物,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的捕获探针的第二区段;(b)降解或选择性地去除所述捕获探针;(c)将连接产物进行环化以产生环状靶多核苷酸;(d)通过延伸根据序列互补性与靶多核苷酸杂交的第一引物生成包含来自环状靶多核苷酸的单链多核苷酸的多联体;以及(e)通过延伸根据序列互补性与多联体杂交的第二引物生成包含一个或多个拷贝的靶多核苷酸的多个延伸产物。
可将通过本公开内容的方法形成的连接产物进行环化以产生环状靶多核苷酸。环化可包括将多核苷酸的5’端连接到同一多核苷酸的3’端,连接到样品中的另一多核苷酸的3’端,或连接到来自不同来源的多核苷酸(例如,人工多核苷酸,如寡核苷酸衔接子)的3’端。在一些实施方案中,多核苷酸的5’端连接到同一多核苷酸的3’端(也称为“自连接”或“分子内连接”)。在一些实施方案中,选择环化反应的条件以利于在特定长度范围内的多核苷酸的自连接,以便生成具有特定平均长度的环化多核苷酸群体。例如,可以选择环化反应条件以利于长度短于约5000、2500、1000、750、500、400、300、200、150、100、50个或更少的核苷酸的多核苷酸的自连接。在一些实施方案中,偏向于长度为50-5000个核苷酸、100-2500个核苷酸或150-500个核苷酸的片段,以使得环化多核苷酸的平均长度落入各自的范围内。在一些实施方案中,80%或更多的环化片段的长度为50-500个核苷酸,例如长度为50-200个核苷酸。可以优化的反应条件包括分配给连接反应的时间长度、各种试剂的浓度和待连接的多核苷酸的浓度。在一些实施方案中,环化反应保持在环化前存在于样品中的片段长度的分布。例如,环化前样品中的片段长度以及环化多核苷酸的平均值、中值、众数(mode)和标准差中的一个或多个彼此在75%、80%、90%、95%或更高的百分比以内。
本文公开的环化连接产物可包含与单链衔接子的3’端连接的无细胞DNA多核苷酸的5’端和与单链衔接子的5’端连接的无细胞DNA多核苷酸的3’端。衔接子包括具有某种序列的任意寡核苷酸,该序列的至少一部分是已知的,它能够与样品多核苷酸连接。衔接子寡核苷酸可以包含DNA、RNA、核苷酸类似物、非典型核苷酸、标记的核苷酸、修饰的核苷酸或其组合。衔接子寡核苷酸可以是单链的、双链的或部分双链体。通常,部分双链体衔接子包含一个或多个单链区域和一个或多个双链区域。双链衔接子可包含彼此相互杂交的两个分离的寡核苷酸(也称作“寡核苷酸双链体”),并且杂交可留下一个或多个平端、一个或多个3’突出端、一个或多个5’突出端、一个或多个由错配的和/或不配对的核苷酸所导致的凸起,或其任意组合。在一些实施方案中,将相同的衔接子添加至靶多核苷酸的两个末端。例如,可将第一和第二衔接子添加至同一反应中。
衔接子可包含多种序列元件中的一个或多个,包括但不限于,一个或多个扩增引物退火序列或其互补体、一个或多个测序引物退火序列或其互补体、一个或多个条形码序列、一个或多个在多个不同衔接子或不同衔接子的子集之间共有的共同序列、一个或多个限制酶识别位点、一个或多个与一个或多个靶多核苷酸突出端互补的突出端、一个或多个探针结合位点(例如,用于附接至测序平台,如用于大规模平行测序的流动池,如Illumina,Inc.开发的流动池)、一个或多个随机的或接近随机的序列(例如,在一个或多个位置处从一组两个或更多个不同核苷酸中随机选择的一个或多个核苷酸,其中在一个或多个位置处选择的不同核苷酸中的每一个均表现在包含随机序列的一组衔接子中),或其组合。在一些情况下,衔接子可用于纯化这些含有衔接子的环,例如通过使用以包含衔接子互补序列的寡核苷酸涂覆的珠子(为了易于处理,特别是磁珠),该珠子可以通过与之杂交而“捕获”具有正确衔接子的闭合环,洗掉那些不包含衔接子和任何未连接的组分的环,然后从珠子上释放所捕获的环。此外,在一些情况下,杂交的捕获探针和目标环的复合体可直接用于生成多联体,例如通过直接滚环扩增(RCA)。在一些实施方案中,环中的衔接子还可用作测序引物。两个或更多个序列元件可以是彼此不邻近的(例如被一个或多个核苷酸隔开)、彼此邻近的、部分重叠的或完全重叠的。例如,扩增引物退火序列还可作为测序引物退火序列。序列元件可位于或靠近3’端、位于或靠近5’端或在衔接子内部。序列元件可以是任意合适的长度,例如约为或少于约3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或更多个核苷酸的长度。衔接子寡核苷酸可具有任意合适的长度,至少足以容纳其所包含的一个或多个序列元件。在一些实施方案中,衔接子的长度约为或少于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200个或更多个核苷酸。在一些实施方案中,衔接子寡核苷酸的长度在约12至40个核苷酸的范围内,例如长度为约15至35个核苷酸。
在一些实施方案中,与来自一个样品的单链多核苷酸(例如,无细胞DNA多核苷酸、基因组DNA或其片段)连接的衔接子寡核苷酸包含一个或多个所有衔接子寡核苷酸所共有的序列和对于与该特定样品的多核苷酸连接的衔接子而言独特的条形码,以使得该条形码序列可用于区分来源于一个样品或衔接子连接反应的多核苷酸与来源于另一个样品或衔接子连接反应的多核苷酸。在一些实施方案中,衔接子寡核苷酸包含与一个或多个靶多核苷酸突出端互补的5’突出端、3’突出端或此两者。互补突出端可以是一个或多个核苷酸的长度,包括但不限于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个核苷酸的长度。互补突出端可包含固定的序列。衔接子寡核苷酸的互补突出端可以包含一个或多个核苷酸的随机序列,以使得在一个或多个位置处从一组两个或更多个不同核苷酸中随机选择一个或多个核苷酸,其中在一个或多个位置处选择的不同核苷酸中的每一个都表现在包含随机序列的一组具有互补突出端的衔接子中。在一些实施方案中,衔接子突出端与通过限制性内切核酸酶消化产生的靶多核苷酸突出端互补。在一些实施方案中,衔接子突出端由腺嘌呤或胸腺嘧啶组成。
多种环化多核苷酸的方法是可用的。在一些实施方案中,环化包含酶促反应,例如使用连接酶(例如RNA或DNA连接酶)。多种连接酶是可用的,包括但不限于,CircLigaseTM(Epicentre;Madison,WI)、RNA连接酶、T4 RNA连接酶1(ssRNA连接酶,其作用于DNA和RNA两者)。此外,如果不存在dsDNA模板,T4 DNA连接酶也可以连接ssDNA,尽管这通常是缓慢的反应。连接酶的其他非限制性实例包括:NAD-依赖性连接酶,包括Taq DNA连接酶、丝状栖热菌(Thermus filiformis)DNA连接酶、大肠杆菌DNA连接酶、Tth DNA连接酶、水管致黑栖热菌(Thermus scotoductus)DNA连接酶(I和II)、热稳定的连接酶、Ampligase热稳定的DNA连接酶、VanC-型连接酶、9°N DNA连接酶、Tsp DNA连接酶和通过生物勘探发现的新型连接酶;ATP-依赖性连接酶,包括T4 RNA连接酶、T4 DNA连接酶、T3 DNA连接酶、T7 DNA连接酶、PfuDNA连接酶、DNA连接酶1、DNA连接酶III、DNA连接酶IV和通过生物勘探发现的新型连接酶;以及野生型、突变同工型,及其遗传工程变体。当需要自连接时,可调节多核苷酸和酶的浓度以促进分子内环而非分子间结构的形成。反应温度和时间也可调整。在一些实施方案中,使用60℃来促进分子内环的形成。在一些实施方案中,反应时间为12-16小时。反应条件可以是所选择的酶的制造商所规定的条件。在一些实施方案中,可以包括外切核酸酶步骤以在环化反应后消化任何未连接的核酸。也就是说,闭合环不含游离5’或3’端,因此引入5’或3’外切核酸酶不会消化闭合环但会消化未连接的组分。这尤其可用于多路***中。
环化后可直接对环化多核苷酸进行测序。或者,可在测序之前进行一个或多个扩增反应。在一些实施方案中,在扩增之前分离或富集多核苷酸复合体、连接产物或环化多核苷酸。分离可通过各种合适的纯化方法(包括亲和纯化)来实现。例如,可通过将固定在支持物上的选择性结合剂与附接至捕获探针的标签结合来分离多核苷酸复合体、连接产物或环化多核苷酸。然后可使用该支持物将捕获探针和与该捕获探针杂交的任意多核苷酸从样品反应体积的其他内容物中分隔或分离出来。分离的多核苷酸随后可用于扩增和进一步的样品制备步骤。在一些实施方案中,捕获探针在环状靶多核苷酸扩增之前被降解或选择性地去除。
通常,“扩增”是指由靶多核苷酸或其部分形成一个或多个拷贝的过程。多种扩增多核苷酸(例如DNA和/或RNA)的方法是可用的。扩增可以是线性的,指数式的,或在多阶段扩增过程中涉及线性和指数阶段。扩增方法可包括温度的改变,例如热变性步骤,或者可以是不需要热变性的等温过程。聚合酶链反应(PCR)采用变性、引物对与相反链的退火和引物延伸的多个循环,以指数式增加靶序列的拷贝数。退火的核酸链的变性可以通过施加热、提高局部金属离子浓度(例如,美国专利号6,277,605)、超声辐射(例如,WO/2000/049176)、施加电压(例如,美国专利号5,527,670、美国专利号6,033,850、美国专利号5,939,291和美国专利号6,333,157)和与结合到磁响应性材料上的引物相组合地施加电磁场(例如,美国专利号5,545,540)来实现。
等温扩增方法的一个实例是链置换扩增,通常称为SDA,其使用以下过程的循环:引物序列对与靶序列的相反链的退火,在dNTP存在下的引物延伸以生成双链体半硫代磷酸化的引物延伸产物,内切核酸酶介导的半修饰限制性内切核酸酶识别位点的切口形成,和聚合酶介导的从切口3’端的引物延伸以取代已存在的链并产生用于下一轮引物退火、切口形成和链置换的链,从而导致产物的几何扩增(例如,美国专利号5,270,184和美国专利号5,455,166)。嗜热SDA(tSDA)在基本相同的方法中在更高的温度下使用嗜热内切核酸酶和聚合酶(欧洲专利号0 684315)。其他扩增方法包括滚环扩增(RCA)(例如Lizardi,“RollingCircle Replication Reporter Systems”美国专利号5,854,033);解旋酶依赖性扩增(HDA)(例如,Kong等人,“Helicase Dependent Amplification Nucleic Acids”美国专利申请公开号US 2004-0058378 A1);和环介导的等温扩增(LAMP)(例如Notomi等人,“Process for Synthesizing Nucleic Acid”美国专利号6,410,278)。在一些情况下,等温扩增采用通过RNA聚合酶从启动子序列起进行转录,例如可以引入寡核苷酸引物中。基于转录的扩增方法包括基于核酸序列的扩增,也称为NASBA(例如美国专利号5,130,238);依赖于使用RNA复制酶(通常称为Qβ复制酶)扩增探针分子本身的方法(例如,Lizardi,P.等(1988)BioTechnol.6,1197-1202);自动维持序列复制(例如,Guatelli,J.等人(1990)Proc.Natl.Acad.Sci.USA 87,1874-1878;Landgren(1993)Trends in Genetics 9,199-202;和HELEN H.LEE等人,NUCLEIC ACID AMPLIFICATION TECHNOLOGIES(1997));和生成额外的转录模板的方法(例如,美国专利号5,480,784和美国专利号5,399,491)。另外的等温核酸扩增方法包括使用含有非典型核苷酸(例如,尿嘧啶或RNA核苷酸)的引物并结合使用在非典型核苷酸处切割核酸的酶(例如,DNA糖基化酶或RNaseH),以暴露针对额外的引物的结合位点(例如,美国专利号6,251,639、美国专利号6,946,251和美国专利号7,824,890)。等温扩增过程可以是线性的或指数式的。
滚环扩增可用于从连接产物生成多联体。可通过延伸第一引物来形成多联体,该第一引物根据序列互补性与环状靶多核苷酸杂交且在环状模板周围拷贝至少一次。在环状模板周围拷贝至少两次的引物可含有至少两个拷贝的靶多核苷酸。类似地,在环状模板周围拷贝至少三次的引物可含有至少三个拷贝的靶多核苷酸。通常,多联体为多核苷酸扩增产物,其包含来自模板多核苷酸的至少一个拷贝的靶序列(例如,约或大于约1、2、3、4、5、6、7、8、9、10个或更多个拷贝的靶序列;在一些实施方案中,约为或大于约2个拷贝)。
典型的RCA反应混合物包含一种或多种引物、聚合酶和dNTP,并且生成多联体。一般来说,RCA反应中的聚合酶是具有链置换活性的聚合酶。多种这样的聚合酶是可用的,其非限制性实例包括外切核酸酶-DNA聚合酶I大(Klenow)片段、Phi29 DNA聚合酶、Taq DNA聚合酶、Bsu DNA聚合酶、Vent聚合酶、Bst聚合酶、PyroPhage3173聚合酶等。
通过延伸与靶多核苷酸杂交的第一引物而生成的多联体可用作第二引物的引物延伸的模板。根据序列互补性与多联体杂交的第二引物可以在引物延伸反应中延伸,以产生含有一个或多个拷贝的靶多核苷酸的延伸产物。在多联体含有至少一个拷贝的靶多核苷酸序列的情况下,多个第二引物可以与多联体的各个区段杂交并通过引物延伸产生多个延伸产物。
扩增引物,例如第一引物和第二引物,可具有任意合适的长度,诸如约或至少约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100个或更多个核苷酸,其任何部分或全部可与该引物所杂交的相应靶序列互补(例如,约或至少约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸)。在一些实施方案中,用于生成多联体的第一引物与无细胞DNA多核苷酸的至少一个区段的序列杂交。第一引物可包含例如基因特异性序列,并且与包含需要进行分析的靶基因序列的连接产物杂交。在一些实施方案中,第一引物包含随机序列。通常,随机引物包含一个或多个随机或接近随机的序列(例如,在一个或多个位置处从一组两个或更多个不同核苷酸中随机选择的一个或多个核苷酸,其中在一个或多个位置处选择的不同核苷酸中的每一个均表现在包含随机序列的一组衔接子中)。以这种方式,多核苷酸(例如,全部或基本上全部的环化多核苷酸)可以以序列非特异性方式扩增。在一些实施方案中,用于生成多联体的第一引物与单链衔接子的至少一个区段的序列杂交,例如与多个连接产物的所有单链衔接子所共有的单链衔接子的序列杂交。以这种方式,可以使用相同的第一引物序列从所有连接产物生成多联体。
在一些实施方案中,用于从多联体生成延伸产物的第二引物与同无细胞DNA多核苷酸的至少一个区段互补的序列杂交。第二引物可包含例如基因特异性序列,并且与包含需要进行分析的靶基因序列(或其互补体)的多联体杂交。在一些实施方案中,第二引物包含随机序列。在一些实施方案中,用于从多联体生成延伸产物的第二引物与同单链衔接子的至少一个区段互补的序列杂交,例如与多个连接产物的所有单链衔接子所共有的单链衔接子的序列杂交。以这种方式,可以使用相同的第二引物序列从所有多联体生成延伸产物。
在一些实施方案中,在同一反应中使用针对多个靶标的多个靶标特异性引物。例如,可以在一个扩增反应中使用针对约为或至少约10、50、100、150、200、250、300、400、500、1000、2500、5000、10000、15000个或更多个不同靶序列的靶标特异性引物,以便平行地扩增相应数目的靶序列(如果存在)。多个靶序列可以对应于相同基因的不同部分、不同基因或非基因序列。当多个引物以单一基因中的多个靶序列为目标时,引物可以沿着基因序列间隔(例如,间隔开约或至少约50个核苷酸,每50-150个核苷酸,或每50-100个核苷酸),以覆盖靶基因的全部或指定部分。在一些实施方案中,使用具有基因特异性序列的引物和与衔接子的共同序列杂交的引物二者进行扩增。
在一些实施方案中,用于扩增的引物包含根据序列互补性与靶序列杂交的3’端和不根据序列互补性与靶序列杂交的5’端。例如,第一引物可包含根据序列互补性与靶多核苷酸杂交的第一3’端和不根据序列互补性与靶多核苷酸杂交的第一5’端。再例如,第二引物可包含根据序列互补性与多联体杂交的第二3’端和不根据序列互补性与多联体杂交的第二5’端。不根据序列互补性与靶序列(例如,靶多核苷酸或多联体)杂交的引物的5’端可包含序列元件,该序列元件包括但不限于一个或多个扩增引物退火序列或其互补体、一个或多个测序引物退火序列或其互补体、一个或多个条形码序列、一个或多个在多个不同引物之间共有的共同序列、一个或多个限制酶识别位点、一个或多个探针结合位点或测序衔接子(例如,用于附接至测序平台,如用于大规模平行测序的流动池)、一个或多个随机或接近随机的序列,以及它们的组合。在一些实施方案中,第一和第二引物的5’端包含一个或多个扩增引物退火序列或其互补体,并且所述方法进一步包括使用包含第一5’端的至少一部分的序列的第三引物和包含第二5’端的至少一部分的序列的第四引物来扩增多个延伸产物。
在一些实施方案中,扩增包括多个循环的滚环扩增(RCA)。扩增反应混合物可经历多个循环的滚环扩增以生成包含多联体的多个扩增产物。该扩增反应混合物可包含(i)具有链置换活性的聚合酶,(ii)根据本文公开的方法生成的环状靶多核苷酸,以及(iii)引物。多个循环的滚环扩增中的每个循环均可包含在变性温度下的变性、在退火温度下的引物退火和在延伸温度下持续给定延伸时间段的引物延伸。所生成的多个扩增产物的特征可以在于与通过利用变性和引物退火条件相当但延伸时间段相当于所述多个循环的延伸时间段之和的一个扩增循环生成的多个扩增产物相比,其含有更高比例的具有至少两个拷贝的靶多核苷酸的多联体。RCA的多个循环可导致多个线性多联体由环状模板形成。在变性期间,终止第一多联体从环状模板的延伸。通过重复引物结合和延伸,可以经多个循环从环状模板生成多个多联体。在一些实施方案中,使用三个温度阶段——用于变性的第一温度阶段、用于引物结合的第二温度阶段和用于引物延伸的第三温度阶段。在一些实施方案中,选择高于引物结合温度的引物延伸温度以使引物延伸期间的引物结合最小化。如在扩增反应混合物中包含反向引物的情况下,在引物延伸期间使引物结合最小化可减少较短扩增产物的形成并减少短片段的偏倚扩增,因为引物不太可能在扩增产物形成时与之杂交。在扩增产物形成时与之杂交的引物也可参与引物延伸,但可能导致小片段的优先扩增,因为在延伸期间,小环倾向于在给定时间段内比大片段生成更多拷贝的重复单元和更多引物结合位点。
图6A和图6B中示出了扩增多核苷酸的方法的说明性实施方案。如图6A所示,无细胞DNA多核苷酸、单链衔接子和捕获探针可形成多核苷酸复合体。在一些情况下,无细胞DNA多核苷酸和单链衔接子在与捕获探针杂交时可彼此紧邻,并且连接酶可实现连接产物的形成。在一些情况下,与捕获探针杂交的单链衔接子与无细胞DNA多核苷酸之间可存在序列空隙。该序列空隙可在连接(其可通过连接酶实现)之前或与之同时用聚合酶补平。在一些情况下,与捕获探针缺乏序列互补性的无细胞DNA多核苷酸的区段可形成瓣。该瓣可在连接(其可通过连接酶实现)之前或与之同时用内切核酸酶切割。捕获探针可在线性连接产物环化产生环状靶多核苷酸之前或与之同时被去除。如图6B所示,随后可使用第一和第二引物使该环状靶多核苷酸经历引物延伸反应以生成多联体和延伸产物。
根据本文所述的方法生成的扩增产物随后可与包括用于序列变体检测的核酸测序在内的核酸分析技术一起使用。在一个方面,本公开内容提供了一种用于鉴定包含多个无细胞DNA多核苷酸的核酸样品中的序列变体的方法。在一些实施方案中,该方法包括:(a)形成多个连接产物,其中所述连接产物中的单独的成员通过将无细胞多核苷酸(例如,无细胞DNA多核苷酸)与多核苷酸复合体的单链衔接子连接而形成,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的捕获探针的第二区段,其中单链衔接子包含独特的条形码序列;(b)将所述多个连接产物进行环化以产生多个环状靶多核苷酸;(c)生成多个多联体,其中所述多个多联体中的单独的多联体通过延伸根据序列互补性与靶多核苷酸杂交的第一引物而形成;(d)由所述多联体生成多个延伸产物,其中所述多个延伸产物中的单独的延伸产物通过延伸根据序列互补性与多联体杂交的第二引物而形成;(e)对多个延伸产物进行测序以产生测序读取;以及(f)当(i)在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异,且(ii)该序列差异在具有不同条形码序列的至少两个不同的测序读取中出现时,将测序读取与参考序列之间的序列差异鉴定为序列变体。
如本文先前所述,条形码序列可以指允许鉴定与条形码相关联的多核苷酸的一些特征的已知核酸序列。条形码可具有任意合适的长度(以核苷酸计),具有任何合适的解链温度,并且包含任何合适的核苷酸序列。例如,一组条形码中的每个成员的核苷酸序列可以与该组中的每个其他成员的核苷酸序列明显不同,使得在中等或严格杂交条件(例如,最小交叉杂交)下,没有成员可以与任何其他成员的互补体形成稳定的双链体。最小交叉杂交组的每个成员的核苷酸序列可以与每个其他成员的核苷酸序列有至少两个核苷酸不同。在一些实施方案中,单一反应中每个单链衔接子的条形码序列与每个其他条形码序列不同。在一些实施方案中,条形码序列唯一地与多个连接反应中的单个连接反应相关联。
在一个方面,一种用于鉴定包含多个无细胞DNA多核苷酸的核酸样品中的序列变体的方法包括:(a)形成多个连接产物,其中所述连接产物中的单独的成员通过将无细胞多核苷酸(例如,无细胞DNA多核苷酸)与多核苷酸复合体的单链衔接子连接而形成,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的该捕获探针的第二区段;(b)将所述多个连接产物进行环化以产生多个环状靶多核苷酸,其中单独的环状靶多核苷酸包含(i)无细胞DNA多核苷酸的5’端与单链衔接子的3’端之间的第一接点和(ii)该无细胞DNA多核苷酸的3’端与该单链衔接子的5’端之间的第二接点;(c)生成多个多联体,其中所述多个多联体中的单独的多联体通过延伸根据序列互补性与靶多核苷酸杂交的第一引物而形成;(d)由多联体生成多个延伸产物,其中所述多个延伸产物中的单独的延伸产物通过延伸根据序列互补性与多联体杂交的第二引物而形成;(e)对多个延伸产物进行测序以产生测序读取;以及(f)当(i)在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异,且(ii)该序列差异在具有不同的第一和第二接点(例如,连接序列)的至少两个不同的测序读取中出现时,将测序读取与参考序列之间的序列差异鉴定为序列变体。
通常,多核苷酸的末端彼此连接以形成环状多核苷酸(直接地,或者使用一个或多个居间衔接子寡核苷酸)会产生具有连接序列的接点。当多核苷酸的5’端和3’端通过衔接子多核苷酸连接时,术语“接点”可以指该多核苷酸与衔接子之间的接点(例如,5’端接点或3’端接点之一),或指通过衔接子多核苷酸形成并包含衔接子多核苷酸的该多核苷酸的5’端与3’端之间的接点。当多核苷酸的5’端和3’端在不使用间插衔接子的情况下连接时(例如,单链DNA的5’端和3’端),术语“接点”可以指这两个末端相连接的点。接点可通过包含接点的核苷酸的序列(也被称为“连接序列”)进行鉴定。在一些实施方案中,样品包含具有通过以下过程形成的末端混合物的多核苷酸:自然降解过程(如细胞裂解、细胞死亡和DNA从细胞释放到其周围环境的其他过程,DNA在该周围环境中可进一步降解,如在无细胞多核苷酸中)、作为样品处理的副产物的片段化(诸如固定、染色和/或储存过程),以及通过切割不限于特定靶序列的DNA的方法进行的片段化(例如,机械片段化,如通过超声处理;非序列特异性核酸酶处理,如DNA酶I、片段化酶(fragmentase))。当样品包含具有末端混合物的多核苷酸时,两个多核苷酸具有相同的5’端或3’端的可能性很低,并且两个多核苷酸独立地具有相同的5’端和3’端两者的可能性极低。因此,在一些实施方案中,甚至在两个多核苷酸包含具有相同靶序列或相同衔接子序列的部分时,可以使用接点来区分不同的多核苷酸。当多核苷酸末端在不使用间插衔接子的情况下连接时,连接序列可通过与参考序列进行比对来鉴定。例如,当两种组分序列的顺序相对于参考序列似乎反转时,显示发生反转的点可以指示在该点处的接点。当多核苷酸末端通过一个或多个衔接子序列连接时,接点可通过与已知衔接子序列的邻近进行鉴定,或者在测序读取的长度足以从环化多核苷酸的5’和3’端获得序列的情况下,则通过比对进行鉴定。在一些实施方案中,特定接点的形成是十分罕见的事件,使得其在样品的环化多核苷酸之间是独特的。
在一些实施方案中,如本文其他地方所述,在(b)的环化之前降解或选择性地去除捕获探针。在一些实施方案中,降解或去除在形成连接产物之后发生。在一些实施方案中,对捕获探针进行降解。在一些实施方案中,捕获探针例如通过内切核酸酶进行酶促降解。在一些情况下,捕获探针可以如本文进一步所述进行化学降解。在一些实施方案中,捕获探针包含标签并且捕获探针通过选择性结合该标签的结合元件而选择性地去除。例如,该标签可以是生物素,并且结合元件可包含抗生物素蛋白或修饰的抗生物素蛋白。本文其他地方描述了其他合适的标签和结合元件。在一些实施方案中,捕获探针包含标签,并且通过使该标签与固定到支持物上的选择性结合元件相结合来分离多核苷酸复合体。分离多核苷酸复合体可在降解或去除捕获探针之前进行。
环化多核苷酸(或其扩增产物,例如多联体和延伸产物,其可任选地被富集)可经历测序反应以生成测序读取。多种测序方法是可用的,尤其是高通量测序方法。实例包括但不限于Illumina制造的测序***(诸如的测序***)、LifeTechnologies制造的测序***(Ion 等)、Roche的454 LifeSciences***、Pacific Biosciences***等。在一些实施方案中,测序包括使用***产生长度约为或多于约50、75、100、125、150、175、200、250、300个或更多个核苷酸的读取。在一些实施方案中,测序包括合成测序过程,其中随着单独的核苷酸被添加至生长的引物延伸产物上,该核苷酸被迭代地鉴定。焦磷酸测序是合成测序法的一个实例,其通过分析所产生的合成混合物中测序反应副产物即焦磷酸的存在而鉴定核苷酸的掺入。特别是,引物/模板/聚合酶复合体与一种类型的核苷酸接触。如果该核苷酸掺入,则聚合反应切割三磷酸链的α和β磷酸之间的三磷酸核苷,从而释放焦磷酸。然后使用化学荧光酶报告***鉴定所释放的焦磷酸的存在,该***将含有AMP的焦磷酸转化为ATP,之后用萤光素酶测量ATP以生成可测量的光信号。当检测到光时,碱基已掺入,当未检测到光时,碱基未掺入。在适当的洗涤步骤后,使各种碱基周期性地与该复合体接触,以连续地鉴定模板序列中的后续碱基。参见,例如,美国专利号6,210,891。
在相关的测序过程中,将引物/模板/聚合酶复合体固定在基底上,并且该复合体与标记的核苷酸接触。复合体的固定可通过引物序列、模板序列和/或聚合酶进行,并且可以是共价的或非共价的。例如,复合体的固定可以通过聚合酶或引物与基底表面之间的连接而实现。在可替代的构型中,核苷酸具有以及不具有可去除的终止基团。在掺入后,标记物与复合体偶联,因此是可检测的。在携带终止子的核苷酸的情况下,携带可单独鉴定的标记物的全部四种不同的核苷酸与复合体相接触。标记的核苷酸的掺入由于终止子的存在而阻止了延伸,并将标记物添加到复合体中,从而允许鉴定掺入的核苷酸。然后将标记物和终止子从掺入的核苷酸上去除,并在适当的洗涤步骤后重复该过程。在未终止的核苷酸的情况下,如焦磷酸测序那样,将一种类型的标记的核苷酸添加到复合体中以确定其是否将会掺入。在去除核苷酸上的标记基团和适当的洗涤步骤之后,各种不同的核苷酸在同一过程中通过反应混合物进行循环。参见,例如,美国专利号6,833,246,其为了所有目的通过引用而整体并入本文。例如,Illumina基因组分析***(Illumina Genome Analyzer System)是基于WO 98/44151中描述的技术,其中DNA分子通过锚定探针结合位点(另外被也称为流动池结合位点)结合到测序平台(流动池)上,并且在载玻片上原位扩增。在其上扩增DNA分子的固体表面一般包含多个第一和第二结合寡核苷酸,第一个与靠近或位于靶多核苷酸的一个末端的序列互补,而第二个与靠近或位于靶多核苷酸的另一个末端的序列互补。这种排列允许进行桥式扩增,例如US20140121116中所描述的。DNA分子然后与测序引物退火,并且使用可逆终止子方法逐个碱基地平行测序。在测序引物的杂交之前,可在锚定双链桥的结合寡核苷酸之一中的切割位点处切割双链桥多核苷酸的一条链,从而留下一条单链不与固体基底结合,其可通过变性去除,而另一条链结合于并可用来与测序引物杂交。
在另一个合成测序过程中,随着模板依赖性合成的进行而实时观察不同标记的核苷酸的掺入。具体而言,随着荧光标记的核苷酸的掺入,观察单独的固定的引物/模板/聚合酶复合体,从而允许随着碱基的添加实时地鉴定每种添加的碱基。在该过程中,标记基团连接于在掺入过程中被切割的核苷酸的一部分上。例如,通过将标记基团连接于在掺入过程中去除的磷酸链的一部分,即,核苷多磷酸上的α、β、γ或其他末端磷酸基团上,该标记物不掺入新生链中,而是生成天然DNA。对单独的分子的观察一般涉及将复合体光学限制在非常小的照明体积内。通过对复合体进行光学限制,产生了受监测的区域,其中随机分散的核苷酸在非常短的时间内存在,而掺入的核苷酸在掺入时能够在观察体积内保留更久的时间。这产生了与掺入事件相关的特征信号,其还可通过所加入的碱基所特有的信号谱进行表征。在相关的方面,在聚合酶或复合体其他部分和掺入的核苷酸上提供相互作用的标记组分,例如荧光共振能量转移(FRET)染料对,从而掺入事件使得标记组分相互邻近,并产生特征信号,这也是所掺入的碱基所特有的(参见,例如,美国专利号6,917,726、7,033,764、7,052,847、7,056,676、7,170,050、7,361,466和7,416,844;和US 20070134128)。
在一些实施方案中,样品中的核苷酸可通过连接进行测序。该方法一般使用DNA连接酶来鉴定靶序列,例如,如在聚合酶克隆(polony)方法和在SOLiD技术(AppliedBiosystems,目前为Invirogen)中所使用的。通常,提供一组固定长度的所有可能的寡核苷酸,按照测序位置进行标记。将寡核苷酸退火并连接;DNA连接酶对匹配序列的优先连接会产生对应于该位点的互补序列的信号。
通过利用各种合适的测序技术对通过本文方法生成的扩增产物进行测序所产生的测序读取可用于序列变体检测。在一些实施方案中,鉴定真正的序列变体(也被称为“判定”或“作出判定”)包括将一个或多个测序读取与参考序列进行最优比对,以鉴定这二者之间的差异。通常,比对包括将一个序列沿另一个序列放置,迭代地沿每一个序列引入缺口,对两个序列匹配的好坏如何进行打分,并且优选地沿着参考序列对各个位置进行重复。具有最佳得分的匹配被视为对准(alignment),并且代表了关于序列间的关系程度的推断。在一些实施方案中,与测序读取进行比较的参考序列是参考基因组,例如与受试者属于同一种的成员的基因组。参考基因组可以是完整的或不完整的。在一些实施方案中,参考基因组仅由包含靶多核苷酸的区域组成,例如该区域源自参考基因组或源自所分析的测序读取生成的共有序列。在一些实施方案中,参考序列包含一个或多个生物体的多核苷酸序列,例如,来自一个或多个细菌、古细菌、病毒、原生生物、真菌、哺乳动物或其他生物体的序列,或由该序列组成。在一些实施方案中,参考序列仅由参考基因组的一部分,例如与一个或多个所分析的靶序列相对应的区域(例如,一个或多个基因,或其部分)组成。例如,为检测病原体(例如在检测污染的情况下),参考基因组是该病原体(例如HIV、HPV或有害的细菌菌株,如大肠杆菌)的完整基因组,或是其一部分,该部分可用于鉴定,例如鉴定特定的菌株或血清型。再例如,为检测与疾病或患病状态(包括但不限于癌症)相关的序列变体,参考基因组为受试者(例如哺乳动物,如人)的完整基因组或其部分,该部分可用于鉴定突变的基因。在一些实施方案中,测序读取与多个不同的参考序列进行比对。
在典型的比对中,测序读取中的碱基旁边有参考序列中的不匹配碱基指示在该点发生了置换突变。类似地,当一个序列在另一序列中的碱基旁边包括缺口时,推断发生了***或缺失突变(“***/缺失(indel)”)。当希望指明一个序列与另一个彼此比对时,该比对有时被称为配对比对(pairwise alignment)。多序列比对通常是指两个或更多个序列的比对,包括,例如通过一系列配对比对。在一些实施方案中,给比对打分涉及为置换和***/缺失的可能性设定数值。当单独的碱基进行比对时,匹配或不匹配导致根据置换可能性的比对得分,其可能是,例如,1为匹配而0.33为不匹配。***/缺失从比对得分中扣除空位罚分,其可以是,例如-1。空位罚分和置换可能性可以基于经验知识或基于关于序列如何突变的先验假设。它们的值影响产生的比对。用于进行比对的算法的实例包括但不限于Smith-Waterman(SW)算法、Needleman-Wunsch(NW)算法、基于Burrows-Wheeler转换的算法(BWT)以及散列函数比对器如Novoalign(Novocraft Technologies;可从www.novocraft.com获得)、ELAND(Illumina,San Diego,Calif)、SOAP(可从soap.genomics.org.cn获得)和Maq(可从maq.sourceforge.net获得)。执行BWT方法的一个示例性比对程序是Burrows-Wheeler比对器(BWA),其可从Geeknet(Fairfax,Va.)维护的SourceForge网站获得。BWT一般每个核苷酸占据2比特的内存,使得用典型的台式或膝上型计算机对长达4G碱基对的核苷酸序列进行索引化(index)成为可能。预处理过程包括BWT的构建(例如,参考序列的索引化)和支持辅助数据结构。BWA包括两个不同的算法,均基于BWT。通过BWT进行的比对能够使用bwa-短(bwa-short)算法进行,该算法是针对高达约200bp的短查询而设计的,具有低误差率(<3%)(Li H.和Durbin R.Bioinformatics,25:1754-60(2009))。第二个算法,BWA-SW,是针对长读取而设计的,具有更多的错误(Li H.和Durbin R.(2010).Fast andaccurate long-read alignment with Burrows-Wheeler Transform.Bioinformatics,Epub.)。bwa-sw比对器有时称为“bwa-长”、“bwa长算法”或类似的名称。执行Smith-Waterman算法版本的一个比对程序是MUMmer,其可从Geeknet(Fairfax,Va.)维护的SourceForge网站获得。MUMmer是一个用来快速比对完整基因组的***,无论它是完整的形式还是草图形式(Kurtz,S.等人,Genome Biology,5:R12(2004);Delcher,A.L.等,Nucl.Acids Res.,27:11(1999))。例如,MUMmer 3.0在2.4GHz Linux台式计算机上,使用78MB的内存,能够在13.7秒内找出在一对5兆碱基基因组之间的全部20-碱基对或更长的精确比配。MUMmer也可以比对不完整的基因组;它能够容易地处理来自鸟枪法测序项目的100s或1000s的叠连群,并且使用该***内包含的NUCmer程序将其与另一组叠连群或基因组进行比对。比对程序的其他非限制实例包括:来自Kent Informatics(Santa Cruz,Calif.)的BLAT(Kent,W.J.,Genome Research 4:656-664(2002));来自北京基因组研究所(北京,Conn.)或BGI Americas Corporation(Cambridge,Mass.)的SOAP2;Bowtie(Langmead等人,Genome Biology,10:R25(2009));高效大规模核苷酸比对数据库(ELAND)或序列及变异共同评估(CASAVA)软件的ELANDv2组件(Illumina,San Diego,Calif.);来自Real Time Genomics,Inc.(San Francisco,Calif.)的RTG Investigator;来自Novocraft(Selangor,Malaysia)的Novoalign;Exonerate,欧洲生物信息学研究所(Hinxton,UK)(Slater,G.和Birney,E.,BMC Bioinformatics 6:31(2005)),Clustal Omega,来自University College Dublin(Dublin,Ireland)(Sievers F.等人,Mol Syst Biol 7,文章539(2011));来自University College Dublin(Dublin,Ireland)的ClustalW或ClustalX(Larkin M.A.等人,Bioinformatics,23,2947-2948(2007));和FASTA,欧洲生物信息学研究所(Hinxton,UK)(Pearson W.R.等人,PNAS 85(8):2444-8(1988);Lipman,D.J.,Science227(4693):1435-41(1985))。
根据一些实施方案,当在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异并且该序列差异在具有不同条形码序列的至少两个不同的测序读取(例如两个不同的环状多核苷酸,其可以因具有不同或有区别的条形码序列而进行区分)中出现时,测序读取与参考序列之间的序列差异被判定为真正的序列变体(例如,存在于扩增或测序前的样品中,并且不是这些过程中的任何一个过程的结果)。在一些实施方案中,当在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异并且该序列差异在具有不同的第一和第二接点(例如,连接序列)的至少两个不同测序读取中出现时,测序读取与参考序列之间的序列差异被判定为真正的序列变体。因为作为扩增或测序错误的结果的序列变体不可能在包含相同靶序列的两个不同多核苷酸上准确地重复(例如,位置和类型),所以添加这些验证参数可减少错误序列变体的背景,同时伴有检测样品中的实际序列变异的灵敏度和准确性的提高。在一些实施方案中,频率约为或低于约5%、4%、3%、2%、1.5%、1%、0.75%、0.5%、0.25%、0.1%、0.075%、0.05%、0.04%、0.03%、0.02%、0.01%、0.005%、0.001%或更低的序列变体充分高于背景,从而允许准确地判定。在一些实施方案中,序列变体以约为或小于约0.1%的频率出现。在一些实施方案中,当序列变体的频率在统计学上显著地高于背景错误率(例如,p值约为或小于约0.05、0.01、0.001、0.0001或更低)时,该频率充分高于背景。在一些实施方案中,当序列变体的频率约为或至少约为背景错误率的2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、25倍、50倍、100倍或更多倍(例如,至少5倍)时,该频率充分高于背景。在一些实施方案中,在精确确定给定位置处的序列时的背景错误率约为或低于约1%、0.5%、0.1%、0.05%、0.01%、0.005%、0.001%、0.0005%或更低。在一些实施方案中,错误率低于0.001%。
在一些实施方案中,一般通过序列比对,分析序列以鉴定重复单元长度(例如单体长度)、通过环化形成的接点以及任何相对于参考序列的真正变异。鉴定重复单元长度可以包括计算重复单元的区域,找出序列的参考基因座(例如,当一个或多个序列尤其以扩增、富集和/或测序为目标时)、每一个重复区域的边界和/或每次测序运行中的重复序列的数目。序列分析可以包括分析双链体的两条链的序列数据。如上文所述,在一些实施方案中,出现来自样品的不同多核苷酸(例如,具有不同接点的环化多核苷酸)的读取序列的相同变体被认为是确认的变体。在一些实施方案中,如果序列变体在相同多核苷酸的多于一个重复单元中出现,则该序列变体也可被认为是确认的或真正的变体,因为相同的序列变体同样不可能在相同多联体内的重复靶序列的相同位置上出现。序列的质量得分可在鉴定变体和确认变体时考虑,例如,可以过滤掉质量得分低于阈值的序列和碱基。可以使用其他生物信息学方法进一步提高变体判定的灵敏度和特异性。
在一些实施方案中,可以使用统计学分析来确定变异(突变)及量化总DNA样品中的变异比。可使用测序数据计算特定碱基的总测量值。例如,从前面的步骤中计算的比对结果可以计算“有效读取”的数目,也即,针对每个基因座的确认读取的数目。变体的等位基因频率可用针对基因座的有效读取计数进行标准化。可计算总噪音水平,该总噪音水平是在所有基因座中观察到的变体的平均率。变体的频率和总噪音水平,结合其他因素,可用于确定变体判定的置信区间。可使用例如Poisson分布的统计模型来评估变体判定的置信区间。也可使用变体的等位基因频率作为总样品中变体的相对量的指标。
序列变体可以指序列中相对于一个或多个参考序列的任何变异。序列变异可以由单个核苷酸或多个核苷酸(例如,2、3、4、5、6、7、8、9、10个或更多个核苷酸)的变化、***或缺失组成。当序列变体包含两个或更多个核苷酸差异时,不同的核苷酸可以是彼此相邻近的,或不连续的。序列变体类型的非限制性实例包括单核苷酸多态性(SNP)、单核苷酸变体、缺失/***多态性(DIP)、拷贝数变体(CNV)、短串联重复(STR)、简单序列重复(SSR)、可变数目串联重复(VNTR)、扩增片段长度多态性(AFLP)、基于反转录转座子的***多态性、序列特异性扩增多态性和可检测为序列变体的表观遗传标记的差异(例如,甲基化差异)。
在一些实施方案中,分析多核苷酸的甲基化模式。为了分析甲基化模式,可在环化之前,以及在一些情况下,在去除捕获探针(例如,通过降解或选择性去除)之后,用亚硫酸氢盐处理连接产物。用亚硫酸氢盐处理连接产物(例如,亚硫酸氢盐处理)可导致未甲基化的胞嘧啶去氨基,从而在DNA中产生尿嘧啶。甲基化的胞嘧啶免于转化为尿嘧啶。在随后的扩增步骤中,尿嘧啶被扩增为胸腺嘧啶,而甲基化的胞嘧啶残基被扩增为胞嘧啶。测序和后续序列分析(例如,检测C至T突变)可用于在单核苷酸分辨率下确定未甲基化胞嘧啶和甲基化胞嘧啶的位置。
在另一方面,本公开内容提供了用于执行根据本公开内容的方法中的方法的反应混合物。反应混合物可包含如本文中针对本公开内容的各个方面和方法中的任一个所描述的各种组分中的一种或多种。在一些实施方案中,本公开内容提供了用于形成包含第一单链多核苷酸和第二单链多核苷酸的连接产物的反应混合物。在一些实施方案中,该反应混合物包含(a)第一单链多核苷酸、第二单链多核苷酸和捕获探针的混合物,其中捕获探针的第一区段可根据序列互补性与第一单链多核苷酸特异性杂交,并且捕获探针的第二区段可根据序列互补性与第二单链多核苷酸特异性杂交;以及(b)连接酶,其可以实现第一单链多核苷酸与第二单链多核苷酸的连接,其中(i)捕获探针包含RNA,且第一和第二单链多核苷酸包含DNA,(ii)捕获探针包含脱氧尿苷,或者(iii)捕获探针包含选择性地与结合元件结合的标签。本文中诸如针对本公开内容的各个方面中的任一个描述了第一单链多核苷酸、第二单链多核苷酸和捕获探针的实例。
在一些实施方案中,反应混合物中的第一单链多核苷酸、第二单链多核苷酸和捕获探针形成多核苷酸的复合体,其中捕获探针的第一区段根据序列互补性与第一单链多核苷酸特异性杂交,并且捕获探针的第二区段根据序列互补性与第二单链多核苷酸特异性杂交。如本文先前所述,包含第一单链多核苷酸、第二单链多核苷酸和捕获探针的多核苷酸复合体的形成可取决于杂交部分的长度(以核苷酸计)、第一和第二单链多核苷酸与它们各自杂交的捕获探针的相应区段之间的序列互补性程度以及进行混合时的温度。在一些实施方案中,第一单链多核苷酸或第二单链多核苷酸为无细胞多核苷酸,包括但不限于无细胞DNA或RNA(cfDNA或cfRNA)。
在一些实施方案中,如上所述,当第一单链多核苷酸和第二单链多核苷酸与捕获探针杂交时,二者彼此邻近。连接酶(本文提供了其非限制性实例)可实现第一单链多核苷酸和第二单链多核苷酸的连接以形成连接产物。在一些实施方案中,如本文先前所述,当第一单链多核苷酸和第二单链多核苷酸与捕获探针杂交时,二者之间存在序列空隙。在一些实施方案中,反应混合物包含聚合酶(本文提供了其非限制性实例),该聚合酶可使用捕获探针作为模板延伸第一单链多核苷酸,以补平第一单链多核苷酸与第二单链多核苷酸之间的序列空隙。在聚合酶通过延伸第一单链多核苷酸补平序列空隙之后或在该延伸反应期间,反应混合物中提供的连接酶可实现第一单链多核苷酸和第二单链多核苷酸的连接以形成连接产物。在一些实施方案中,第二单链多核苷酸在5’端包含与捕获探针缺乏序列互补性的区段。该区段可以不与捕获探针杂交,并且可形成被称为“瓣”的区段。在一些实施方案中,反应混合物包含内切核酸酶(本文中提供了其非限制性实例),该内切核酸酶可以切割瓣。在一些实施方案中,提供了瓣状内切核酸酶。在切割该瓣之后,反应混合物中提供的连接酶可实现第一单链多核苷酸和第二单链多核苷酸的连接以形成连接产物。
如果需要,可通过如上所述的降解或选择性去除来去除捕获探针。去除捕获探针可在形成连接产物的同时或之后进行。在一些实施方案中,第一单链多核苷酸和第二单链多核苷酸包含DNA,而捕获探针包含RNA。在一些实施方案中,反应混合物包含可以选择性降解包含RNA的捕获探针的RNA内切核酸酶。在一些实施方案中,第一单链多核苷酸和第二单链多核苷酸包含RNA,而捕获探针包含DNA。在一些实施方案中,反应混合物包含可选择性降解DNA捕获探针的DNA内切核酸酶。在一些实施方案中,捕获探针包含一个或多个脱氧尿苷。在一些实施方案中,反应混合物包含可降解包含一个或多个脱氧尿苷的捕获探针的尿嘧啶DNA-糖基化酶。在一些实施方案中,捕获探针包含选择性地与结合元件结合的标签。捕获探针可通过选择性结合该标签的结合元件去除。在一些实施方案中,该标签为生物素。在需要选择性去除包含生物素标签的捕获探针的情况下,可使用包含抗生物素蛋白、修饰的抗生物素蛋白或链霉亲和素的结合元件。
如本文其他地方所述,第一单链多核苷酸可从5’端至3’端包含第一区段、第二区段和第三区段,其中第一区段和第二区段不根据序列互补性与捕获探针特异性杂交,而第三区段根据序列互补性与捕获探针特异性杂交。在一些实施方案中,(i)第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。如本文所述方面的各种其他实施方案所述,包含多个不同的第一单链多核苷酸所共有的序列的第一单链多核苷酸的第一区段可用于连接产物的下游加工,包括但不限于扩增反应和测序反应以供序列分析。在一些实施方案中,单一反应中的每个第一单链多核苷酸的条形码序列不同于每个其他条形码序列。在一些实施方案中,该条形码序列唯一地与多个连接反应中的单个连接反应相关联。
在一些实施方案中,反应混合物包含根据序列互补性与序列变体杂交的阻断多核苷酸,其中该序列变体与第二单链多核苷酸至少90%相同且小于100%相同。如本文方法的实施方案中所述,阻断多核苷酸可用于部分或完全地阻止包含该序列变体的连接产物的形成。
在一些实施方案中,本公开内容的反应混合物容纳在容器内。每种组分可以被封装到不同的容器中,或者在交叉反应性和保质期允许的情况下,可在容器中提供组分的组合。容器的非限制性实例包括孔、板、管、腔室、流动池或芯片。
在另一方面,本公开内容提供了用于执行根据本公开内容的方法的方法的试剂盒。试剂盒可包含本文中针对各个方面中的任一个所公开的、任意组合的一个或多个元件。在一些实施方案中,该试剂盒用于捕获单链靶多核苷酸。在一些实施方案中,试剂盒包含多个捕获探针、一个或多个第一单链多核苷酸以及关于使用多个捕获探针捕获一个或多个单链靶多核苷酸的说明书。在一些实施方案中,(a)所述捕获探针在5’端包含展现出与第一单链多核苷酸的序列互补性的区段,并且在3’端包含展现出与单链靶多核苷酸的序列互补性的第二区段;(b)所述单链靶多核苷酸为无细胞靶多核苷酸;(c)所述捕获探针包含至少10个脱氧尿苷;并且(d)所述一个或多个第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中第一区段和第二区段不根据序列互补性与捕获探针特异性杂交,而第三区段根据序列互补性与捕获探针特异性杂交。
在一些实施方案中,(i)每个第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)每个第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。本文中诸如针对本公开内容的各个方面中的任一个提供了第一单链多核苷酸及其各个区段的实例。
在一些实施方案中,试剂盒包含一种或多种第一引物,该第一引物包含根据序列互补性与第一单链多核苷酸的第一区段或第二区段特异性杂交的3’端序列。在一些实施方案中,所述一种或多种第一引物在5’端包含与第一多核苷酸缺乏序列互补性的第一测序衔接子。在一些实施方案中,试剂盒包含一种或多种第二引物,该第二引物包含根据序列互补性与所述一种或多种第一引物的延伸产物特异性杂交的3’端序列。所述一种或多种第一和第二引物可用于在实践本文所述的方法时对连接产物或连接产物的区段进行扩增。
在一些实施方案中,试剂盒包含用于实践本文公开的各种实施方案的方法的尿嘧啶DNA-糖基化酶、内切核酸酶、聚合酶和/或连接酶。在一些实施方案中,试剂盒包含在一个或多个容器中提供的一个或多个捕获探针(例如,DNA探针和/或RNA探针);一个或多个用标签标记的捕获探针(例如,用生物素标记的捕获探针);一种或多种选择性结合标签的结合元件(例如,包含抗生物素蛋白或修饰的抗生物素蛋白或链霉亲和素的结合元件);一个或多个包含至少一个脱氧尿苷的捕获探针;一种或多种尿嘧啶DNA-糖基化酶;一个或多个第一单链多核苷酸;一个或多个第二单链多核苷酸;一种或多种连接酶和相关的缓冲液和试剂;一种或多种聚合酶和相关的缓冲液和试剂,包括例如dNTP;一种或多种内切核酸酶(例如,DNA内切核酸酶和/或RNA内切核酸酶);一个或多个阻断多核苷酸;及其组合。在一些实施方案中,试剂盒包含根据序列互补性与序列变体杂交的阻断多核苷酸,其中该序列变体与单链靶多核苷酸至少90%相同且小于100%相同。如本文方法的实施方案中所述,阻断多核苷酸可用于部分或完全地阻止包含序列变体的连接产物的形成。
在一个方面,本公开内容提供了可用于形成连接产物的多核苷酸复合体。该复合体可以是通过本文中诸如针对本公开内容的各个方面中的任一个所述的方法形成的任何复合体。在一些实施方案中,多核苷酸复合体包含第一单链多核苷酸、第二单链多核苷酸和捕获探针。在一些实施方案中,该捕获探针在5’端与第一单链多核苷酸杂交并在3’端与第二单链多核苷酸杂交;第一单链多核苷酸和第二单链多核苷酸是不连续的;并且该捕获探针包含至少10个脱氧尿苷。
在一些实施方案中,多核苷酸复合体的第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段。第一区段、第二区段和第三区段可包含序列元件。在一些实施方案中,第一区段和第二区段不根据序列互补性与捕获探针特异性杂交,而第三区段根据序列互补性与捕获探针特异性杂交。在一些实施方案中,第一区段不根据序列互补性与捕获探针特异性杂交,而第二区段和第三区段根据序列互补性与捕获探针特异性杂交。在一些实施方案中,第一区段、第二区段和第三区段根据序列互补性与捕获探针特异性杂交。
在一些实施方案中,(i)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
在一些实施方案中,第一或第二单链多核苷酸之一为无细胞多核苷酸,包括但不限于无细胞DNA或RNA(cfDNA或cfRNA)。在一些实施方案中,第一或第二单链多核苷酸之一为基因组DNA的片段。在一些实施方案中,第一或第二单链多核苷酸之一包含由染色体重排产生的序列。在一些实施方案中,该染色体重排为缺失、重复、倒位和易位中的至少一种。
本文所述方面(包括方法、反应混合物、试剂盒和多核苷酸复合体)的各种实施方案包含捕获探针。捕获探针可具有任意合适的长度。在一些实施方案中,捕获探针的长度为至少30个核苷酸(例如,至少50、60、70、80、90、100、150、200、250、300、350、400、450或500个核苷酸或超过500个核苷酸)。在一些实施方案中,捕获探针的长度为超过100个核苷酸。在一些实施方案中,捕获探针的长度为30至500个核苷酸(例如,40至400个核苷酸、50至300个核苷酸或75至200个核苷酸)。捕获探针可包含核苷酸,诸如脱氧核糖核苷酸、核糖核苷酸及其组合。在一些实施方案中,捕获探针包含一种或多种修饰的核苷酸,如甲基化的核苷酸和核苷酸类似物。在一些实施方案中,捕获探针包含氨基烯丙基、生物素和/或2’氟代修饰。在一些实施方案中,捕获探针包含修饰的核苷酸,其实例包括但不限于二磷酸、一系列单磷酸和ARCA、CAP和mCAP。捕获探针可包含氨基烯丙基修饰的核苷酸。氨基烯丙基修饰可以使胺反应性部分如荧光染料、生物素、半抗原或蛋白质与捕获探针偶联。氨基烯丙基核苷酸也可用于PCR中的间接DNA标记、切口平移、引物延伸和cDNA合成。在一些实施方案中,捕获探针包含1个修饰的核苷酸。在一些实施方案中,捕获探针包含至少1个修饰的核苷酸(例如,至少2、5、10、15、20、30、40、50个修饰的核苷酸或超过50个修饰的核苷酸)。在一些实施方案中,捕获探针包含至少1%修饰的核苷酸(例如,至少2%、3%、4%、5%、6%、7%、8%、9%、10%修饰的核苷酸或超过10%的修饰的核苷酸)。在一些实施方案中,捕获探针包含10%至100%修饰的核苷酸(例如,20%至90%修饰的核苷酸、30%至80%修饰的核苷酸或40%至70%修饰的核苷酸)。在一些实施方案中,捕获探针包含脱氧尿苷。在一些实施方案中,捕获探针包含至少1个脱氧尿苷(例如,至少2、5、10、20、30个脱氧尿苷或超过30个脱氧尿苷)。在一些实施方案中,捕获探针包含至少1%的脱氧尿苷(例如,至少2%、3%、4%、5%、6%、7%、8%、9%、10%的脱氧尿苷或超过10%的脱氧尿苷)。在一些实施方案中,捕获探针包含5%至50%的脱氧尿苷。
本公开内容的各个方面的某些实施方案包括降解捕获探针。降解捕获探针可包括酶促降解捕获探针。在一些实施方案中,包含脱氧尿苷的捕获探针通过尿嘧啶DNA-糖基化酶降解。在一些实施方案中,捕获探针通过核酸酶、内切核酸酶、外切核酸酶和/或核糖核酸酶(包括内切核糖核酸酶和外切核糖核酸酶)降解。DNA内切核酸酶可包括I型内切核酸酶和II型内切核酸酶。可降解多核苷酸和捕获探针的酶的非限制性实例包括DNA酶I、微球菌核酸酶、核酸酶S1、绿豆核酸酶、外切核酸酶II、外切核酸酶III、外切核酸酶IV、外切核酸酶V、外切核酸酶VI、外切核酸酶VII、外切核酸酶VIII、RNA酶A、RNA酶I、RNA酶III、RNA酶T1、磷酸二酯酶I、磷酸二酯酶II和RNA酶H。
在一些实施方案中,对捕获探针进行化学降解。化学降解可通过降解RNA的化学试剂如氢氧化钠来实现;或通过降解DNA的化学试剂如天然抗生素(例如,博来霉素、新制癌菌素)或合成试剂(例如,甲锭丙基-EDTA-铁(II)络合物)来实现。
本公开内容的各个方面的某些实施方案包含含有标签的捕获探针。标签可包含分子结构,该分子结构一旦附接至捕获探针就提供缺乏标签的捕获探针不固有的独特特征,诸如与结合元件的选择性结合。包含标签的捕获探针可通过选择性结合该标签的结合元件选择性地去除。在一些实施方案中,捕获探针在探针的一端或末端例如在3’端或5’端处修饰。在一些实施方案中,捕获探针在沿着捕获探针长度的任何核苷酸处修饰。在一些实施方案中,捕获探针在一个核苷酸处修饰。在一些实施方案中,捕获探针在超过一个核苷酸处修饰。标签可用于通过使用选择性结合该标签的结合元件选择性地去除捕获探针。在选择性去除捕获探针之前,还可以使用标签来分离多核苷酸的复合体,使得未杂交和/或未连接的多核苷酸可在进一步分析和扩增步骤之前从样品体积中去除。捕获探针可包含半抗原、生物素或其他蛋白质标签。在一些实施方案中,标签为化学或小分子标签。在本公开内容的各个方面的一些实施方案中,捕获探针包含生物素标签。生物素标签可结合包含抗生物素蛋白、修饰的抗生物素蛋白或链霉亲和素蛋白的结合元件。抗生物素蛋白可以是四聚体或二聚体。抗生物素蛋白可以是具有修饰的精氨酸的去糖基化形式,如中性抗生物素蛋白,并且相对于天然抗生物素蛋白可以表现出更为中性的等电点。去糖基化的中性形式的抗生物素蛋白的其他实例包括Extravidin(Sigma-Aldrich)、NeutrAvidin(Thermo Scientific)、NeutrAvidin(Invitrogen)和NeutraLite(Belovo)。在一些实施方案中,捕获探针在5’端包含生物素标签。在一些实施方案中,捕获探针在5’端包含超过一个生物素标签。在一些实施方案中,捕获探针在3’端包含生物素标签。在一些实施方案中,捕获探针在3’端包含超过一个生物素标签。在一些实施方案中,捕获探针在3’端和5’端均包含生物素标签。在一些实施方案中,捕获探针沿着捕获探针的长度包含至少一个生物素标签。在一些实施方案中,将包含抗生物素蛋白、修饰的抗生物素蛋白或链霉亲和素的结合配偶体附接至固体支持物,诸如颗粒或珠子。在一些实施方案中,附接至包含抗生物素蛋白、修饰的抗生物素蛋白或链霉亲和素的结合配偶体的颗粒或珠子是磁性的。在一些实施方案中,如图4所示,使用包含结合配偶体的磁性颗粒和/或磁珠通过将标签与该结合配偶体结合来选择性地去除捕获探针,并且使用磁体来去除珠子。在一些实施方案中,将附接至包含抗生物素蛋白、修饰的抗生物素蛋白或链霉亲和素的结合配偶体的多个颗粒或珠子装入柱中,并使用柱色谱法来去除捕获探针。在一些实施方案中,捕获探针包含洋地黄毒苷标签。捕获探针可沿着该捕获探针的长度包含至少一个洋地黄毒苷标签。洋地黄毒苷标签可结合包含抗洋地黄毒苷抗体的结合元件。在一些实施方案中,将包含抗洋地黄毒苷抗体的结合元件附接至固体支持物。在一些实施方案中,捕获探针包含二硝基苯酚(DNP)标签。捕获探针可沿着该捕获探针的长度包含至少一个二硝基苯酚标签。DNP标签可以结合包含抗DNP抗体的结合元件。在一些实施方案中,将包含抗DNP抗体的结合元件附接至固体支持物。在一些实施方案中,捕获探针包含荧光素标签。捕获探针可沿着该捕获探针的长度包含至少一个荧光素标签。荧光素标签可结合包含抗荧光素抗体的结合元件。在一些实施方案中,将包含抗荧光素抗体的结合元件附接至固体支持物。成对的结合配偶体的非限制性实例(其中之一可用作标签,而另一个可用作用于去除包含标签的探针的结合元件)包括抗原/抗体(例如,洋地黄毒苷/抗洋地黄毒苷、二硝基苯基(DNP)/抗DNP、丹酰-X-抗丹酰、荧光素/抗荧光素、萤光黄/抗萤光黄和罗丹明/抗罗丹明);生物素/抗生物素蛋白(或生物素/链霉亲和素);钙调蛋白结合蛋白(CBP)/钙调蛋白;激素/激素受体;外源凝集素/碳水化合物;肽/细胞膜受体;蛋白A/抗体;半抗原/抗半抗原;酶/辅因子;和酶/底物。
标签与捕获探针的偶联可使用多种方法进行。在一些实施方案中,标签通过直接附接或通过一个或多个连接体(例如连接体分子)的附接并形成共价键而与捕获探针偶联。在一些实施方案中,标签通过不涉及共价键的静电相互作用与捕获探针偶联。在一些实施方案中,标签在体外扩增(例如通过PCR)期间使用标记的引物进行化学附接。扩增可包括许多不同的分子复制或扩增方法,包括但不限于聚合酶链反应(PCR)、非对称PCR、多重PCR、巢式PCR、热启动PCR、递降PCR、RT-PCR和甲基化特异性PCR。扩增可以是等温的,包括但不限于环介导的等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)和切口酶扩增反应(NEAR)。在一些实施方案中,将标签附接至用于装配捕获探针的修饰的核苷酸。可使用多种DNA或RNA聚合酶,包括SP6、T7、AMV、M-MuLV、DNA聚合酶1、Taq、Pfu、Klenow片段和TdT,将半抗原标记的核苷酸(如洋地黄毒苷标记的核苷酸)和生物素标记的核苷酸掺入到捕获探针中。可使用多种DNA或RNA聚合酶,包括SP6、T7、AMV、M-MuLV、DNA聚合酶1、Taq、Pfu、Klenow片段和TdT,将生物素标记的核苷酸掺入到捕获探针中。
在本文各个方面的一些实施方案中,第一单链多核苷酸和第二单链多核苷酸之一包含无细胞多核苷酸,包括但不限于无细胞DNA或RNA(cfDNA或crRNA)。本公开内容的实施方案可使用任何无细胞多核苷酸。无细胞多核苷酸可从受试者如任何动物或活生物体获得。受试者的非限制性实例是哺乳动物,诸如人、非人灵长类动物、啮齿动物如小鼠和大鼠、狗、猫、猪、羊、兔等。在一些实施方案中,受试者是健康的,因此从该受试者获得的无细胞多核苷酸可能不包含与疾病或病症相关的序列变体。在一些实施方案中,受试者疑似患有疾病或病症,因此从该受试者获得的无细胞多核苷酸可能包含与疾病或病症相关的序列变体。在一些实施方案中,受试者怀孕,因此从该受试者获得的无细胞多核苷酸包括胎儿多核苷酸。
无细胞多核苷酸可从各种非细胞来源获得。可获得无细胞多核苷酸的非细胞来源的非限制性实例是血清、血浆、血液、汗液、唾液、尿液、粪便、***、粘膜***物、脊髓液、羊水和淋巴液。用于收集可获得无细胞多核苷酸的非细胞来源的样品的各种方法是可用的。在一些实施方案中,从受试者获得可获得无细胞多核苷酸的非细胞来源的样品。在一些实施方案中,通过静脉穿刺获得样品。在一些实施方案中,通过抽吸获得样品。
各种方法和商用试剂盒可用于从样品获得无细胞多核苷酸,如无细胞DNA。用于提取和分离无细胞多核苷酸(包括无细胞DNA)的方法和试剂盒的实例是苯酚/氯仿提取、苯酚/氯仿/异戊醇(PCI)-糖原提取、NaI(碘化钠)提取、胍树脂提取、带有载体RNA的QIAmpDNA Blood Midi试剂盒、ChargeSwitch血清试剂盒、ZR血清DNA试剂盒、QiagenQubitTMdsDNA HS Assay试剂盒、AgilentTMDNA 1000试剂盒、TruSeqTM Sequencing LibraryPreparation以及Puregene DNA纯化***Blood试剂盒。
无细胞多核苷酸(包括无细胞DNA)可以通过分隔步骤从体液中提取和分离,该分隔步骤中无细胞多核苷酸与体液的细胞和其他非可溶性组分相分离。分隔技术的实例是离心和过滤。在一些实施方案中,没有首先将细胞与无细胞多核苷酸相分隔,而是首先进行裂解。在一些实施方案中,通过选择性沉淀来分隔完整细胞的基因组DNA。无细胞多核苷酸(包括DNA)可保持可溶性,并可与不溶性基因组DNA相分离并被提取。根据一些程序,在添加缓冲液以及不同试剂盒特定的其他洗涤步骤后,可以使用异丙醇沉淀来沉淀DNA。可以使用进一步的清理步骤,如基于二氧化硅的柱来去除污染物或盐。通用步骤可针对特定应用进行优化。例如,可以在整个反应期间添加非特异性批量载体多核苷酸以优化该程序的某些方面,如产率。
在本文公开的各个方面中的任何方面的一些实施方案中,第一单链多核苷酸和第二单链多核苷酸之一包含基因组DNA。在一些实施方案中,第一单链多核苷酸和第二单链多核苷酸中的至少一个来源于基因组DNA。基因组DNA可使用可用的各种方法和商用试剂盒(如Qiagen DNeasy Tissue试剂盒)从细胞样品获得。可使用先前在本文其他地方描述的任何提取、分离和纯化方法从样品获得并纯化基因组DNA。提取技术的其他非限制性实例包括:(1)有机萃取然后乙醇沉淀,例如,使用苯酚/氯仿有机试剂(Ausubel等人,1993),使用或不使用自动核酸提取器,例如可从Applied Biosystems(Foster city,Calif)获得的341DNA型提取器;(2)固定相吸附法(美国专利号5,234,809;Walsh等人,1991);和(3)盐诱导核酸沉淀法(Miller等人,1988),该沉淀方法一般被称作“盐析”法。核酸分离和/或纯化的另一个实例包括使用核酸能够特异性或非特异性结合的磁性颗粒,然后使用磁体分离珠子,并洗涤和从珠子中洗脱核酸(参见,例如,美国专利号5,705,628)。例如,可使用固相可逆固定(SPRI)珠(Agencourt AMPure XP)将核酸分离和纯化。在一些实施方案中,上述分离方法之前可先进行酶消化步骤以帮助从样品中去除不需要的蛋白质,例如用蛋白酶K或其他类似的蛋白酶进行消化。如果需要,可向裂解缓冲液中添加RNA酶抑制剂。对于特定的细胞或样品类型,可能需要在方案中增加蛋白质变性/消化步骤。纯化方法可以针对分离DNA、RNA或此两者。当DNA和RNA在提取程序过程中或之后被一起分离时,可使用进一步的步骤来与另一种分开地纯化一种或两者。也可生成提取的核酸的亚级分,例如,根据大小、序列或其他物理或化学特性进行纯化。除了初始核酸分离步骤,核酸的纯化还可以在所公开的方法的任意步骤之后进行,例如用于去除过量的或不需要的试剂、反应物或产物。多种用来确定样品中的核酸量和/或核酸纯度的方法是可用的,例如通过吸光度(例如,在260nm、280nm处的光吸收,和其比值)和标记物的检测(例如,荧光染料和嵌入剂,例如SYBR绿、SYBR蓝、DAPI、碘化丙锭、Hoechst染色剂、SYBR金、溴化乙锭)。
在一些实施方案中,第一单链多核苷酸和第二单链多核苷酸中的至少一个包含片段化的无细胞DNA或片段化的基因组DNA。多种方法可用于对多核苷酸进行片段化,包括但不限于化学方法、酶促方法和机械方法,如超声处理、剪切和与限制酶接触。在一些实施方案中,无细胞DNA片段的长度大致均匀。在一些实施方案中,无细胞DNA片段的长度并非大致均匀。在一些实施方案中,无细胞DNA片段具有约50至约1000个核苷酸的平均长度。在一些实施方案中,无细胞DNA片段具有约50至约500个核苷酸的平均长度。在一些实施方案中,无细胞DNA片段具有约50至约250个核苷酸的平均长度。在一些实施方案中,无细胞DNA片段具有约50至约200个核苷酸的平均长度。在一些实施方案中,无细胞DNA片段具有约50至约100个核苷酸的平均长度。在一些实施方案中,基因组DNA被片段化为较短长度的多核苷酸。在一些实施方案中,基因组DNA片段的长度大致相同。在一些实施方案中,基因组DNA片段的长度几乎不同。在一些实施方案中,基因组DNA片段具有约50至约100个核苷酸的平均长度。在一些实施方案中,基因组DNA片段具有约50至250个核苷酸的平均长度。在一些实施方案中,基因组DNA片段具有约50至500个核苷酸的平均长度。在一些实施方案中,基因组DNA片段具有约50至750个核苷酸的平均长度。在一些实施方案中,基因组DNA片段具有约100至1000个核苷酸的平均长度。
本公开内容的一些实施方案包括引物延伸和扩增反应,如延伸第一单链多核苷酸以补平序列空隙并用一种或多种第一和第二引物对连接产物或连接产物的区段进行扩增。引物延伸反应可涉及温度变化(热循环)或恒温(等温)。在一些实施方案中,引物延伸反应包括聚合酶链反应(PCR)。PCR通常涉及通过多个阶段的变性、引物对与相反链退火,以及用于使靶序列拷贝数指数增加的引物延伸而进行的循环,这些阶段中的至少一些通常在不同的反应温度下发生。PCR扩增技术的非限制实例是定量PCR(qPCR或实时PCR)、逆转录PCR(RT-PCR)、数字PCR(dPCR或dePCR)、靶标特异性PCR以及定量逆转录PCR(qRT-PCR)。可用于PCR的聚合酶的实例为热稳定聚合酶,包括但不限于嗜热栖热菌HB8;突变Thermusoshimai;水管致黑栖热菌;嗜热栖热菌1B21;嗜热栖热菌GK24;水生栖热菌聚合酶( FS或Taq(G46D;F667Y),Taq(G46D;F667Y;E6811)和Taq(G46D;F667Y;T664N;R660G));激烈火球菌聚合酶;Thermococcus gorgonarius聚合酶;火球菌属物种GB-D聚合酶;栖热球菌属(菌株9°N-7)聚合酶;嗜热脂肪芽胞杆菌聚合酶;Tsp聚合酶;ThermalAceTM聚合酶(Invitrogen);黄栖热菌聚合酶;Thermus litoralis聚合酶;栖热菌属Z05聚合酶;δZ05聚合酶(例如,δZ05 Gold DNA聚合酶);以及其突变体、变体或其衍生物。可用于PCR的聚合酶的其他实例是非热稳定聚合酶,包括但不限于DNA聚合酶I;突变DNA聚合酶I,包括但不限于Klenow片段和Klenow片段(3’至5’外切核酸酶(-));T4 DNA聚合酶;突变T4 DNA聚合酶;T7 DNA聚合酶;突变T7 DNA聚合酶;phi29 DNA聚合酶;以及突变phi29 DNA聚合酶。在一些实施方案中,使用热启动聚合酶。热启动聚合酶是需要热激活的DNA聚合酶的修饰形式。这样的聚合酶可用于例如进一步提高敏感度、特异性和产率;并且/或者进一步改善低拷贝靶标扩增。通常,热启动酶以非活性状态提供。热活化后,释放修饰物或改性剂,从而生成活性酶。许多热启动聚合酶可从各种商业来源获得,如Applied Biosystems;Bio-Rad;eEnzyme LLC;Eppendorf North America;Finnzymes Oy;GeneChoice,Inc.;Invitrogen;Jena Bioscience GmbH;MIDSCI;Minerva Biolabs GmbH;New England Biolabs;Novagen;Promega;QIAGEN;Roche Applied Science;Sigma-Aldrich;Stratagene;Takara MirusBio;USB Corp.;Yorkshire Bioscience Ltd;等等。
在一些实施方案中,引物延伸和扩增反应包括等温反应。等温扩增技术的非限制性实例是连接酶链反应(LCR)(例如,美国专利号5,494,810和5,830,711);转录介导的扩增(TMA)(例如,美国专利号5,399,491、5,888,779、5,705,365、5,710,029);基于核酸序列的扩增(NASBA)(例如,Malek等人,美国专利号5,130,238);信号介导的RNA扩增技术(SMART)(例如,Wharam等人,Nucleic Acids Res.2001,29,e54);链置换扩增(SDA)(例如,美国专利号5,455,166);嗜热SDA(Spargo等人,Mol Cell Probes 1996,10:247-256;欧洲专利号0684315);滚环扩增(RCA)(例如,Lizardi,“Rolling Circle Replication ReporterSystems,”美国专利号5,854,033);环介导的DNA等温扩增(LAMP)(例如,Notomi等人,“Process for Synthesizing Nucleic Acid,”美国专利号6,410,278);解旋酶依赖性扩增(HDA)(例如,美国专利申请US 20040058378);单引物等温扩增(SPIA)(例如,WO2001020035和美国专利号6,251,639);以及环状解旋酶依赖性扩增(cHDA)(例如,美国专利申请US.10/594,095)。
在本公开内容的各个方面中的任何方面的一些实施方案中,引物可包含一个或多个部分或区段。例如,引物可包含一个或多个扩增引物退火序列或其互补体;一个或多个测序引物退火序列或其互补体;一个或多个条形码序列;一个或多个在多种不同引物之间共有的共同序列;一个或多个限制酶识别位点;一个或多个探针结合位点或测序衔接子(例如,用于附接至测序平台,如用于大规模平行测序的流动池);一个或多个随机或接近随机的序列(例如,从一个或多个位置处的一组两个或更多个不同核苷酸中随机选择的一个或多个核苷酸,其中在一个或多个位置处选择的不同核苷酸中的每一个均表现在包含随机序列的引物池中);以及它们的组合。在一些实施方案中,引物如第三引物包含测序衔接子元件,该元件通常指在多核苷酸的5’和/或3’端掺入以促进多核苷酸测序反应中的一个或多个步骤的寡核苷酸。在一些实施方案中,使用测序衔接子将包含测序衔接子的多核苷酸结合至流动池以供下一代测序。下一代测序方法的非限制性实例为单分子实时测序、离子半导体测序、焦磷酸测序、合成测序、连接测序和链终止。用于流动池附接的测序衔接子可包括与下一代测序***(例如,454测序、Ion Torrent Proton或PGM和Illumina X10)兼容的任何合适序列。用于下一代测序方法的测序衔接子的非限制性实例包括适合与Illumina测序***一起使用的P5和P7衔接子;TruSeq通用衔接子;和TruSeq索引衔接子。在一些实施方案中,可使用测序衔接子来例如通过扩增如聚合酶链反应(PCR)来富集包含衔接子序列的多核苷酸。测序衔接子可进一步包含条形码序列和/或样品索引序列。
在本公开内容的各个方面中的任何方面的一些实施方案中,连接酶形成包含第一单链多核苷酸和第二单链多核苷酸的连接产物。可用于连接反应的酶的非限制性实例是ATP依赖性双链多核苷酸连接酶、NAD+依赖性DNA或RNA连接酶和单链多核苷酸连接酶。连接酶的非限制性实例是大肠杆菌DNA连接酶、丝状栖热菌DNA连接酶、Tth DNA连接酶、水管致黑栖热菌DNA连接酶(I型和II型)、T3 DNA连接酶、T4 DNA连接酶、T4 RNA连接酶、T7 DNA连接酶、Taq连接酶、Ampligase( Technologies Corp.)、VanC-型连接酶、9°NDNA连接酶、Tsp DNA连接酶、DNA连接酶I、DNA连接酶III、DNA连接酶IV、Sso7-T3 DNA连接酶、Sso7-T4 DNA连接酶、Sso7-T7 DNA连接酶、Sso7-Taq DNA连接酶、Sso7-大肠杆菌DNA连接酶、Sso7-Ampligase DNA连接酶,以及热稳定连接酶。连接酶可以是野生型、突变同工型和基因工程变体。连接反应可含有缓冲液组分、小分子连接增强剂和其他反应组分。
在本公开内容的各个方面中的任何方面的一些实施方案中,内切核酸酶切割由第二单链多核苷酸的5’端形成的瓣。切割第二单链多核苷酸区段的内切核酸酶可被称为5’核酸酶或瓣状内切核酸酶。瓣状内切核酸酶可既充当5’-3’外切核酸酶又充当针对特定DNA结构的结构特异性内切核酸酶。瓣状内切核酸酶的实例包括但不限于大肠杆菌DNA聚合酶、Taq DNA聚合酶或其他真细菌DNA聚合酶的5’至3’外切核酸酶/内切核酸酶结构域,或者古菌(Archeal)或真核生物瓣状内切核酸酶1(FEN1),包括人FEN1、鼠FEN1、酵母FEN1、超嗜热火球菌(P.horikoshii)FEN1和Pfu FEN1。
在一个方面,本公开内容提供了用于设计在形成包含第一单链多核苷酸和第二单链多核苷酸的连接产物中使用的捕获探针、第一单链多核苷酸和/或阻断多核苷酸的***。捕获探针、第一单链多核苷酸和/或阻断多核苷酸可包含本文中针对本公开内容的各个方面中的任何方面所述的任何特征。在一些实施方案中,该***包含(a)计算机,其被配置为接收关于设计捕获探针、第一单链多核苷酸和/或阻断多核苷酸的客户请求;(b)包含代码的计算机可读介质,该代码在由一个或多个处理器执行时设计至少一个捕获探针、至少一个第一单链多核苷酸和/或至少一个阻断多核苷酸;以及(c)向接收者发送报告的报告生成器,其中该报告包含所述至少一个捕获探针、至少一个第一单链多核苷酸和/或至少一个阻断多核苷酸的序列。
在一些实施方案中,所述计算机包含一个或多个处理器。处理器可以与一个或多个控制器、计算单元和/或计算机***的其他单元相关联,或者根据需要植入固件中。如果在软件中实现,则例程可存储在任何计算机可读存储器中,诸如存储在RAM、ROM、闪速存储器、磁盘、激光盘或其他的存储介质中。同样地,该软件可经由任何已知的传送方法而传送至计算设备,所述传送方法例如包括通过诸如电话线、因特网、无线连接等通信信道,或者经由诸如计算机可读盘、闪存驱动器等可移动介质。各个步骤可实现为各个区块、操作、工具、模块或技术,而所述各个区块、操作、工具、模块和技术继而可在硬件、固件、软件或者其任何组合中实现。当在硬件中实现时,所述区块、操作、技术等之中的一些或全部区块、操作、技术可例如在定制集成电路(IC)、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、可编程逻辑阵列(PLA)等中实现。在一些实施方案中,所述计算机被配置为接收关于设计用于形成包含第二单链多核苷酸的连接产物(其序列可以由客户提供)的捕获探针、第一单链多核苷酸和/或阻断多核苷酸的客户请求。所述计算机可直接(例如,通过输入设备如由客户操作的键盘、鼠标或触摸屏,或通过用户输入客户请求)或间接地(例如,通过有线或无线连接,包括经互联网)接收客户请求。
在一些实施方案中,所述***包含向接收者发送报告的报告生成器,其中该报告包含至少一个捕获探针、至少一个第一单链多核苷酸和/或至少一个阻断多核苷酸的序列。该报告生成器可响应于客户请求而自动发送报告。或者,该报告生成器可以响应于来自操作者的指令而发送报告。可以使用任何合适的通信介质将报告传送给本地或远程位置的接收者。例如,该通信介质可以是网络连接、无线连接或互联网连接。报告可通过这样的网络或连接(或任何其他合适的传送信息的手段,包括但不限于邮寄体检报告,诸如打印输出)传送,以供接收和/或由接收者查阅。接收者可以是但不限于客户或电子***(例如,一个或多个计算机,和/或一个或多个服务器)。在一些实施方案中,报告生成器将报告发送给接收者的设备,诸如个人计算机、电话、平板电脑或其他设备。该报告可以被在线查看、保存在接收者的设备上或打印。
在一个方面,本公开内容提供了一种包含代码的计算机可读介质,该代码一旦由一个或多个处理器执行,就实现根据任意本文公开方法的方法。计算机可读介质可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质例如包括光盘或磁盘(诸如任何计算机中的任何存储设备)等,诸如可用于实现计算步骤、处理步骤的存储介质等。易失性存储介质包括动态存储器,例如计算机的主存储器。有形传输介质包括同轴线缆、铜线和光纤,包括构成计算机***内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间所生成的电信号或电磁信号或者声波或光波。因此,计算机可读介质的常见形式包括,例如:软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何具有孔洞图案的其他物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、载波传输数据或指令、传输此类载波的缆线或链路,或者任何可让计算机从中读取编程代码和/或数据的其他介质。这些计算机可读介质的形式中的许多形式可参与向处理器传送一个或多个序列的一个或多个指令以供执行。
实施例
实施例1:用可降解的捕获探针扩增靶多核苷酸
将多个第二单链多核苷酸(例如无细胞DNA(cfDNA))与酶、第一单链多核苷酸(例如PCR衔接子)和包含脱氧尿苷的捕获探针在扩增反应混合物中合并。包含靶序列的cfDNA与PCR衔接子和捕获探针形成复合体。PCR衔接子的3’端与cfDNA的5’端之间的关系可以变化,诸如在形成cfDNA的片段化事件的位置上的变化。如图2(A)所示,当衔接子和cfDNA与捕获探针杂交时,二者可以彼此紧邻,并且反应混合物中的连接酶实现连接产物的形成。与捕获探针杂交的cfDNA与衔接子之间可能存在序列空隙。该序列空隙用反应混合物中的聚合酶补平(参见例如图2(B)),随后将延伸的衔接子和cfDNA连接。cfDNA的区段可能与捕获探针缺乏序列互补性,这形成了瓣(参见例如图2(C))。该瓣可以与衔接子邻近,或者被空隙隔开。瓣还可以包含与捕获探针互补、但已经被延伸的衔接子置换的序列。用存在于反应混合物中的瓣状内切核酸酶切割瓣。如上所述,当切割产生空隙时,该空隙通过衔接子延伸来补平。切割(和延伸,如果需要的话)后,衔接子和cfDNA通过连接酶连接。例如在包含与捕获探针互补的序列但具有不同5’端的多个cfDNA的情况下,反应混合物可包含任何或所有这些末端排列。杂交也可以在阻断多核苷酸的存在下发生,从而减少非靶多核苷酸参与连接反应(参见例如图5)。连接后,包含脱氧尿苷的捕获探针用尿嘧啶DNA-糖基化酶降解。使用包含测序衔接子的第一和第二引物,通过PCR对连接产物进行扩增(参见例如图2)。一种引物与cfDNA杂交,优选地在沿着cfDNA相对于与捕获探针互补的cfDNA区段位于3’的位置。另一引物包含存在于多个PCR衔接子中的每一个中的共同序列。cfDNA特异性引物的延伸产生了共同序列的互补体。包含共同序列的引物与延伸产物杂交,并且是自延伸的。然后对扩增产物进行测序。
实施例2:用标记的捕获探针扩增靶多核苷酸
将多个第二单链多核苷酸(例如无细胞DNA(cfDNA))与酶、第一单链多核苷酸(例如PCR衔接子)和包含生物素标签的捕获探针合并。包含靶序列的cfDNA与PCR衔接子和捕获探针形成复合体。PCR衔接子的3’端与cfDNA的5’端之间的关系可以变化,诸如在形成cfDNA的片段化事件的位置上的变化。如图4(A)所示,当衔接子和cfDNA与捕获探针杂交时,二者可以彼此紧邻,并且反应混合物中的连接酶实现连接产物的形成。与捕获探针杂交的cfDNA与衔接子之间可能存在序列空隙。该序列空隙用反应混合物中的聚合酶补平(参见例如图4(B)),随后将延伸的衔接子和cfDNA连接。cfDNA的区段可能与捕获探针缺乏序列互补性,这形成了瓣(参见例如图2(C))。该瓣可以与衔接子邻近,或者被空隙隔开。瓣还可以包含与捕获探针互补、但已经被延伸的衔接子置换的序列。用存在于反应混合物中的瓣状内切核酸酶切割瓣。如上所述,当切割产生空隙时,该空隙通过衔接子延伸补平。切割(和延伸,如果需要的话)后,衔接子和cfDNA通过连接酶连接。如在包含与捕获探针互补的序列但具有不同5’端的多个cfDNA的情况下,反应混合物可包含任何或所有这些末端排列。杂交也可以在阻断多核苷酸的存在下发生,从而减少非靶多核苷酸参与连接反应(参见例如图4)。连接后,通过在链霉亲和素(steptavidin)涂覆的珠子上进行捕获而从反应中去除捕获探针。去除之前可进行变性,使得连接产物不被珠子捕获。或者,珠子捕获步骤可包括连接产物的捕获,以便将其从反应中的其他试剂中分离出来,随后进行变性步骤以释放连接产物以供进一步处理。使用包含测序衔接子的第一和第二引物,通过PCR对连接产物进行扩增(参见例如图4)。一种引物与cfDNA杂交,优选地在沿着cfDNA相对于与捕获探针互补的cfDNA区段位于3’的位置。另一引物包含存在于多个PCR衔接子中的每一个中的共同序列。cfDNA特异性引物的延伸产生了共同序列的互补体。包含共同序列的引物与延伸产物杂交,并且是自延伸的。然后对扩增产物进行测序。
实施例3:来自双链捕获的连接产物的扩增
包含脱氧尿苷(dU)的双链捕获探针和相应的双链靶多核苷酸通过PCR生成并纯化。双链靶多核苷酸被设计成当正向链与相应的捕获探针杂交时,在多核苷酸复合体中具有0个碱基的瓣,而当反向链与相应的捕获探针杂交时,在多核苷酸复合体中具有78个碱基的瓣;当正向链与相应的捕获探针杂交时,在多核苷酸复合体中具有10个碱基的瓣,而当反向链与其相应的捕获探针杂交时,在多核苷酸复合体中具有68个碱基的瓣;或者当正向链与其相应的捕获探针杂交时,在多核苷酸复合体中具有17个碱基的瓣,而当反向链与其相应的捕获探针杂交时,在多核苷酸复合体中具有61个碱基的瓣。
如图7所示,为了形成靶多核苷酸的正向链和反向链二者的多核苷酸复合体,将捕获探针、靶多核苷酸和衔接子的各10000个分子混合,并首先在90℃下变性1分钟以生成来自双链捕获探针的单链捕获探针和来自双链靶多核苷酸的单链靶多核苷酸。通过在30mMTris-HCl,pH 8.0,15mM MgCl2,0.1%BSA中于60℃下温育4小时形成多核苷酸复合体。使用Taq连接酶加Afu FEN1生成连接产物(在连接之前或与之同时切割瓣)。
连接后,用USER(尿嘧啶特异性切除试剂)酶处理反应以去除捕获探针。然后用针对正向链连接产物或反向链连接产物的引物扩增连接产物。图8A和图8B所示的凝胶电泳证实了由包含瓣的连接产物生成扩增产物。图8A显示了由正向链靶多核苷酸的连接产物生成的扩增产物。图8B显示了由反向链靶多核苷酸的连接产物生成的扩增产物。
尽管本文中已经示出并描述了本发明的优选实施方案,但对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下现将想到多种变化、改变和替代。应当理解,本文中所述的本发明实施方案的各种替代方案均可用于实施本发明。旨在由以下权利要求来限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims (101)

1.一种用于鉴定包含多个无细胞DNA多核苷酸的核酸样品中的序列变体的方法,其包括:
(a)形成多个连接产物,其中所述连接产物中的单独的成员通过将无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接而形成,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的所述捕获探针的第二区段,其中单独的衔接子包含独特的条形码序列;
(b)将所述多个连接产物进行环化以产生多个环状靶多核苷酸;
(c)生成多个多联体,其中所述多个多联体中的单独的多联体通过延伸根据序列互补性与靶多核苷酸杂交的第一引物而形成;
(d)由所述多联体生成多个延伸产物,其中所述多个延伸产物中的单独的延伸产物通过延伸根据序列互补性与多联体杂交的第二引物而形成;
(e)对多个所述延伸产物进行测序以产生测序读取;以及
(f)当(i)在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异,并且(ii)所述序列差异在具有不同条形码序列的至少两个不同的测序读取中出现时,将测序读取与参考序列之间的序列差异鉴定为所述序列变体。
2.一种用于鉴定包含多个无细胞DNA多核苷酸的核酸样品中的序列变体的方法,其包括:
(a)形成多个连接产物,其中所述连接产物中的单独的成员通过将无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接而形成,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的所述捕获探针的第二区段;
(b)将所述多个连接产物进行环化以产生多个环状靶多核苷酸,其中单独的环状靶多核苷酸包含(i)无细胞DNA多核苷酸的5’端与单链衔接子的3’端之间的第一接点,以及(ii)所述无细胞DNA多核苷酸的3’端与所述单链衔接子的5’端之间的第二接点;
(c)生成多个多联体,其中所述多个多联体中的单独的多联体通过延伸根据序列互补性与靶多核苷酸杂交的第一引物而形成;
(d)由所述多联体生成多个延伸产物,其中所述多个延伸产物中的单独的延伸产物通过延伸根据序列互补性与所述多联体杂交的第二引物而形成;
(e)对多个所述延伸产物进行测序以产生测序读取;
(f)当(i)在含有至少出现两次的序列差异的延伸产物的测序读取中检测到序列差异,并且(ii)所述序列差异在具有不同的第一接点和第二接点的至少两个不同的测序读取中出现时,将测序读取与参考序列之间的序列差异鉴定为所述序列变体。
3.根据权利要求1或2所述的方法,其进一步包括在(b)中进行环化之前降解所述捕获探针。
4.根据权利要求3所述的方法,其中降解所述捕获探针包括酶促降解所述捕获探针。
5.根据权利要求4所述的方法,其中酶促降解所述捕获探针通过内切核酸酶而实现。
6.根据权利要求1或2所述的方法,其中所述捕获探针包含标签。
7.根据权利要求6所述的方法,其进一步包括通过将所述多核苷酸复合体直接或间接地固定到包含特异性结合所述标签的选择性结合剂的支持物上来分离所述多核苷酸复合体。
8.根据权利要求7所述的方法,其中所述分离发生在步骤(c)之前。
9.根据权利要求1或2所述的方法,其中所述序列变体包括单核苷酸多态性、单核苷酸变体、***、缺失、重复、倒位、易位、拷贝数变异、基因融合和指示甲基化的突变中的至少一种。
10.根据权利要求1或2所述的方法,其进一步包括使所述连接产物与亚硫酸氢盐相接触以将所述连接产物中的未甲基化的胞嘧啶修饰为尿苷。
11.根据权利要求10所述的方法,其中所述序列变体包括C至T突变。
12.根据权利要求1或2所述的方法,其中所述第一引物包含不根据序列互补性与所述靶多核苷酸杂交的第一5’端。
13.根据权利要求12所述的方法,其中所述第二引物包含不根据序列互补性与所述多联体杂交的第二5’端。
14.根据权利要求13所述的方法,其进一步包括使用包含所述第一5’端的至少一部分的序列的第三引物和包含所述第二5’端的至少一部分的序列的第四引物来扩增(d)中的所述多个延伸产物。
15.根据权利要求1或2所述的方法,其中所述第一引物与所述无细胞DNA多核苷酸的至少一个区段的序列杂交。
16.根据权利要求15所述的方法,其中所述第一引物包含基因特异性序列。
17.根据权利要求15所述的方法,其中所述第一引物包含随机序列。
18.根据权利要求1或2所述的方法,其中所述第二引物与同所述无细胞DNA多核苷酸的至少一个区段互补的序列杂交。
19.根据权利要求18所述的方法,其中所述第二引物包含基因特异性序列。
20.根据权利要求18所述的方法,其中所述第二引物包含随机序列。
21.根据权利要求1或2所述的方法,其中所述第一引物与所述单链衔接子的至少一个区段的序列杂交。
22.根据权利要求1或2所述的方法,其中所述第二引物与同所述单链衔接子的至少一个区段互补的序列杂交。
23.根据权利要求1或2所述的方法,其中所述第一引物包含条形码序列。
24.根据权利要求1或2所述的方法,其中所述第二引物包含条形码序列。
25.根据权利要求1或2所述的方法,其中所述捕获探针包含双链核酸,并且在形成多核苷酸复合体之前,将所述双链核酸分离成两个单链捕获探针。
26.根据权利要求1或2所述的方法,其中在(a)中的所述连接之前或与之同时,使用所述捕获探针作为模板延伸所述无细胞DNA,以补平所述无细胞DNA多核苷酸与所述单链衔接子之间的序列空隙。
27.根据权利要求1或2所述的方法,其中在(a)中的所述连接之前或与之同时,使用所述捕获探针作为模板延伸所述单链衔接子,以补平所述无细胞DNA多核苷酸与所述单链衔接子之间的序列空隙。
28.根据权利要求1或2所述的方法,其中所述无细胞DNA多核苷酸在5’端包含与所述捕获探针缺乏序列互补性的区段。
29.根据权利要求28所述的方法,其进一步包括在(a)中的所述连接之前或与之同时,用内切核酸酶切割与所述捕获探针缺乏序列互补性的所述无细胞DNA多核苷酸的区段。
30.根据权利要求1或2所述的方法,其中所述无细胞DNA多核苷酸在3’端包含与所述捕获探针缺乏序列互补性的区段。
31.根据权利要求30所述的方法,其进一步包括在(a)中的所述连接之前或与之同时,用内切核酸酶切割与所述捕获探针缺乏序列互补性的所述无细胞DNA多核苷酸的区段。
32.一种用于扩增无细胞DNA的方法,其包括:
(a)通过将无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接来形成连接产物,其中所述多核苷酸复合体包含与无细胞DNA多核苷酸杂交的捕获探针的第一区段和与单链衔接子杂交的所述捕获探针的第二区段;
(b)降解或选择性地去除所述捕获探针;
(c)将所述连接产物进行环化以产生环状靶多核苷酸;
(d)通过延伸根据序列互补性与所述靶多核苷酸杂交的第一引物生成包含来自所述环状靶多核苷酸的单链多核苷酸的多联体;以及
(e)通过延伸根据序列互补性与所述多联体杂交的第二引物生成包含一个或多个拷贝的所述靶多核苷酸的多个延伸产物。
33.根据权利要求32所述的方法,其中所述第一引物包含不根据序列互补性与所述靶多核苷酸杂交的第一5’端。
34.根据权利要求33所述的方法,其中所述第二引物包含不根据序列互补性与所述多联体杂交的第二5’端。
35.根据权利要求34所述的方法,其进一步包括使用包含所述第一5’端的至少一部分的序列的第三引物和包含所述第二5’端的至少一部分的序列的第四引物来扩增(d)中的所述多个延伸产物。
36.根据权利要求32所述的方法,其中所述第一引物与所述无细胞DNA多核苷酸的至少一个区段的序列杂交。
37.根据权利要求36所述的方法,其中所述第一引物包含基因特异性序列。
38.根据权利要求36所述的方法,其中所述第一引物包含随机序列。
39.根据权利要求32所述的方法,其中所述第二引物与同所述无细胞DNA多核苷酸的至少一个区段互补的序列杂交。
40.根据权利要求39所述的方法,其中所述第二引物包含基因特异性序列。
41.根据权利要求39所述的方法,其中所述第二引物包含随机序列。
42.根据权利要求32所述的方法,其中所述第一引物与所述单链衔接子的至少一个区段的序列杂交。
43.根据权利要求32所述的方法,其中所述第二引物与同所述单链衔接子的至少一个区段互补的序列杂交。
44.根据权利要求32所述的方法,其中所述第一引物包含条形码序列。
45.根据权利要求32所述的方法,其中所述第二引物包含条形码序列。
46.根据权利要求32所述的方法,其中所述捕获探针包含双链核酸,并且在形成多核苷酸复合体之前,将所述双链核酸分离成两个单链捕获探针。
47.一种进行滚环扩增的方法,其包括:
(a)提供包含靶多核苷酸的环状多核苷酸,其中所述环状多核苷酸通过以下步骤形成:
(i)将无细胞DNA多核苷酸和单链衔接子与捕获探针混合以形成多核苷酸复合体,其中所述捕获探针的第一区段根据序列互补性与所述无细胞DNA多核苷酸杂交,并且所述捕获探针的第二区段根据序列互补性与所述单链衔接子杂交;
(ii)将所述无细胞DNA多核苷酸与多核苷酸复合体的单链衔接子连接,从而形成连接产物;
(iii)降解或选择性地去除所述捕获探针;以及
(iv)将所述连接产物进行环化以产生环状靶多核苷酸;
(b)使扩增反应混合物经历多个循环的滚环扩增以生成包含多联体的多个扩增产物,其中所述扩增反应混合物包含(i)具有链置换活性的聚合酶,(ii)(a)中的环状靶多核苷酸,以及(iii)引物;其中所述多个循环的滚环扩增中的每个循环均包括在变性温度下的变性、在退火温度下的引物退火以及在延伸温度下持续给定延伸时间段的引物延伸,以生成包含多联体的所述多个扩增产物;并且
其中生成的所述多个扩增产物的特征在于,与通过利用变性和引物退火条件相当但延伸时间段相当于所述多个循环的延伸时间段之和的一个扩增循环生成的多个扩增产物相比,该扩增产物含有更高比例的具有至少两个拷贝的所述靶多核苷酸的多联体。
48.一种使用捕获探针形成第一单链多核苷酸和第二单链多核苷酸的连接产物的方法,所述方法包括:
(a)将所述第一单链多核苷酸和所述第二单链多核苷酸与所述捕获探针混合以形成多核苷酸复合体,其中所述捕获探针的第一区段根据序列互补性与所述第一单链多核苷酸特异性杂交,并且所述捕获探针的第二区段根据序列互补性与所述第二单链多核苷酸特异性杂交;
(b)将所述第一单链多核苷酸与所述第二单链多核苷酸连接,从而形成所述连接产物;以及
(c)降解或选择性地去除所述捕获探针。
49.根据权利要求48所述的方法,其中步骤(c)包括酶促降解所述捕获探针。
50.根据权利要求49所述的方法,其中所述降解通过内切核酸酶而实现。
51.根据权利要求48所述的方法,其中所述捕获探针包含标签。
52.根据权利要求51所述的方法,其中步骤(c)包括用选择性结合所述标签的结合元件选择性地去除所述捕获探针。
53.根据权利要求52所述的方法,其中所述标签为生物素。
54.根据权利要求48所述的方法,其中所述第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与所述捕获探针特异性杂交,而所述第三区段根据序列互补性与所述捕获探针特异性杂交。
55.根据权利要求54所述的方法,其中(i)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
56.根据权利要求55所述的方法,其中单一反应中的每个第一单链多核苷酸的条形码序列不同于每个其他条形码序列。
57.根据权利要求55所述的方法,其中所述条形码序列唯一地与多个连接反应中的单个连接反应相关联。
58.根据权利要求54所述的方法,其进一步包括使用第一引物对所述连接产物或所述连接产物的区段进行扩增,该第一引物根据序列互补性与所述第一单链多核苷酸的第一区段或第二区段或其互补体特异性杂交。
59.根据权利要求58所述的方法,其中所述第一引物在5’端包含与所述连接产物缺乏序列互补性的第一测序衔接子或其互补体。
60.根据权利要求58所述的方法,其中(i)所述第一引物与所述第一单链多核苷酸的第一区段特异性杂交,(ii)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(iii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
61.根据权利要求58所述的方法,其中使用第二引物对所述连接产物或所述连接产物的区段进行扩增,该第二引物根据序列互补性与所述第一引物的延伸产物特异性杂交。
62.根据权利要求61所述的方法,其中所述第二引物在5’端包含与所述第一引物的延伸产物缺乏序列互补性的第二测序衔接子。
63.根据权利要求48所述的方法,其中在步骤(b)之前或与之同时,使用所述捕获探针作为模板延伸所述第一单链多核苷酸,以补平所述第一单链多核苷酸与所述第二单链多核苷酸之间的序列空隙。
64.根据权利要求48所述的方法,其中所述第二单链多核苷酸在5’端包含与所述捕获探针缺乏序列互补性的区段。
65.根据权利要求64所述的方法,其进一步包括在步骤(b)之前或与之同时,用内切核酸酶切割与所述捕获探针缺乏序列互补性的所述第二单链多核苷酸的区段。
66.根据权利要求48所述的方法,其中所述第一或第二单链多核苷酸中的至少一种为无细胞多核苷酸。
67.根据权利要求48所述的方法,其中步骤(a)进一步包括将所述第一单链多核苷酸、所述第二单链多核苷酸和所述捕获探针与根据序列互补性与序列变体杂交的阻断多核苷酸混合,其中所述序列变体与所述第二单链多核苷酸至少90%相同且小于100%相同。
68.一种用于使用捕获探针形成包含第一单链多核苷酸和第二单链多核苷酸的连接产物的反应混合物,所述反应混合物包含:
(a)所述第一单链多核苷酸、所述第二单链多核苷酸和所述捕获探针的混合物,其中所述捕获探针的第一区段根据序列互补性与所述第一单链多核苷酸特异性杂交,并且所述捕获探针的第二区段根据序列互补性与所述第二单链多核苷酸特异性杂交;以及
(b)连接酶,以实现所述第一单链多核苷酸与所述第二单链多核苷酸的连接;
其中(i)所述捕获探针包含RNA,并且所述第一和第二单链多核苷酸包含DNA,(ii)所述捕获探针包含脱氧尿苷,或者(iii)所述捕获探针包含选择性地与结合元件结合的标签。
69.根据权利要求68所述的反应混合物,其中所述捕获探针包含脱氧尿苷。
70.根据权利要求68所述的反应混合物,其中所述捕获探针包含选择性地与结合元件结合的标签。
71.根据权利要求70所述的反应混合物,其中所述标签为生物素。
72.根据权利要求68所述的反应混合物,其进一步包含聚合酶。
73.根据权利要求72所述的反应混合物,其中所述聚合酶使用所述捕获探针作为模板延伸所述第一单链多核苷酸,以补平所述第一单链多核苷酸与所述第二单链多核苷酸之间的序列空隙。
74.根据权利要求72所述的反应混合物,其中所述聚合酶具有链置换活性。
75.根据权利要求68所述的反应混合物,其进一步包含内切核酸酶。
76.根据权利要求75所述的反应混合物,其中所述内切核酸酶切割与所述捕获探针缺乏序列互补性的所述第二单链多核苷酸的区段。
77.根据权利要求75所述的反应混合物,其中所述内切核酸酶为瓣状内切核酸酶。
78.根据权利要求68所述的反应混合物,其中所述反应混合物容纳在容器中。
79.根据权利要求78所述的反应混合物,其中所述容器为孔、板、管、腔室、流动池或芯片。
80.根据权利要求68所述的反应混合物,其中所述第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与所述捕获探针特异性杂交,而所述第三区段根据序列互补性与所述捕获探针特异性杂交。
81.根据权利要求80所述的反应混合物,其中(i)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
82.根据权利要求81所述的反应混合物,其中每个第一单链多核苷酸的条形码序列不同于所述反应混合物中的每个其他条形码序列。
83.根据权利要求81所述的反应混合物,其中所述条形码序列唯一地与多个连接反应中的单个连接反应相关联。
84.根据权利要求68所述的反应混合物,其中所述第一单链多核苷酸或所述第二单链多核苷酸为无细胞多核苷酸。
85.根据权利要求68所述的反应混合物,其进一步包含根据序列互补性与序列变体杂交的阻断多核苷酸,其中所述序列变体与所述第二单链多核苷酸至少90%相同且小于100%相同。
86.一种用于捕获单链靶多核苷酸的试剂盒,其包含多个捕获探针、一个或多个第一单链多核苷酸以及关于使用所述多个捕获探针捕获一个或多个单链靶多核苷酸的说明书,其中:
(a)捕获探针在5’端包含显示出与第一单链多核苷酸的序列互补性的区段,并且在3’端包含显示出与单链靶多核苷酸的序列互补性的第二区段;
(b)所述单链靶多核苷酸为无细胞靶多核苷酸;
(c)所述捕获探针包含至少10个脱氧尿苷;并且
(d)所述一个或多个第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与所述捕获探针特异性杂交,而所述第三区段根据序列互补性与所述捕获探针特异性杂交。
87.根据权利要求86所述的试剂盒,其中(i)每个第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)每个第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
88.根据权利要求86所述的试剂盒,其进一步包含一种或多种第一引物,该第一引物包含根据序列互补性与所述第一单链多核苷酸的第一区段或第二区段特异性杂交的3’端序列。
89.根据权利要求88所述的试剂盒,其中所述一种或多种第一引物在5’端包含与所述第一多核苷酸缺乏序列互补性的第一测序衔接子。
90.根据权利要求88所述的试剂盒,其进一步包含一种或多种第二引物,该第二引物包含根据序列互补性与所述一种或多种第一引物的延伸产物特异性杂交的3’端序列。
91.根据权利要求90所述的试剂盒,其中所述一种或多种第二引物在5’端包含与所述一种或多种第一引物的延伸产物缺乏序列互补性的第二测序衔接子。
92.根据权利要求86所述的试剂盒,其进一步包含尿嘧啶DNA-糖基化酶。
93.根据权利要求86所述的试剂盒,其进一步包含内切核酸酶。
94.根据权利要求86所述的试剂盒,其进一步包含聚合酶。
95.根据权利要求94所述的试剂盒,其中所述聚合酶具有链置换活性。
96.根据权利要求86所述的试剂盒,其进一步包含连接酶。
97.根据权利要求86所述的试剂盒,其进一步包含根据序列互补性与序列变体杂交的阻断多核苷酸,其中所述序列变体与单链靶多核苷酸至少90%相同且小于100%相同。
98.一种多核苷酸复合体,其包含第一单链多核苷酸、第二单链多核苷酸和捕获探针,其中所述捕获探针在5’端与所述第一单链多核苷酸杂交并且在3’端与所述第二单链多核苷酸杂交,其中所述第一单链多核苷酸和所述第二单链多核苷酸是不连续的,并且其中所述捕获探针包含至少10个脱氧尿苷。
99.根据权利要求98所述的复合体,其中所述第一单链多核苷酸从5’端至3’端包含第一区段、第二区段和第三区段,其中所述第一区段和第二区段不根据序列互补性与所述捕获探针特异性杂交,而所述第三区段根据序列互补性与所述捕获探针特异性杂交。
100.根据权利要求98所述的复合体,其中(i)所述第一单链多核苷酸的第一区段包含多个不同的第一单链多核苷酸所共有的序列,并且(ii)所述第一单链多核苷酸的第二区段包含对于所述多个第一单链多核苷酸中的所有第一单链多核苷酸而言均不相同的条形码序列。
101.根据权利要求98所述的复合体,其中所述第一或第二单链多核苷酸中的一种为无细胞多核苷酸。
CN201680081032.6A 2015-12-03 2016-12-02 用于形成连接产物的方法和组合物 Pending CN108699505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211379707.9A CN115927547A (zh) 2015-12-03 2016-12-02 用于形成连接产物的方法和组合物

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562262883P 2015-12-03 2015-12-03
US62/262,883 2015-12-03
PCT/US2016/064853 WO2017096322A1 (en) 2015-12-03 2016-12-02 Methods and compositions for forming ligation products

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211379707.9A Division CN115927547A (zh) 2015-12-03 2016-12-02 用于形成连接产物的方法和组合物

Publications (1)

Publication Number Publication Date
CN108699505A true CN108699505A (zh) 2018-10-23

Family

ID=58798091

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680081032.6A Pending CN108699505A (zh) 2015-12-03 2016-12-02 用于形成连接产物的方法和组合物
CN202211379707.9A Pending CN115927547A (zh) 2015-12-03 2016-12-02 用于形成连接产物的方法和组合物

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211379707.9A Pending CN115927547A (zh) 2015-12-03 2016-12-02 用于形成连接产物的方法和组合物

Country Status (4)

Country Link
US (1) US20180363039A1 (zh)
EP (1) EP3383994A4 (zh)
CN (2) CN108699505A (zh)
WO (1) WO2017096322A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658982A (zh) * 2018-12-25 2019-04-19 人和未来生物科技(长沙)有限公司 一种用于基因测序的引物设计方法及***

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104946737B (zh) 2013-12-11 2019-02-22 安可济控股有限公司 用于检测罕见序列变体的组合物和方法
US11286519B2 (en) 2013-12-11 2022-03-29 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
US11859246B2 (en) 2013-12-11 2024-01-02 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
KR20180055905A (ko) 2015-10-09 2018-05-25 아큐라젠 홀딩스 리미티드 증폭 산물의 농축을 위한 방법 및 조성물
US11427866B2 (en) 2016-05-16 2022-08-30 Accuragen Holdings Limited Method of improved sequencing by strand identification
AU2017290237B2 (en) 2016-06-30 2020-10-22 Grail, Llc Differential tagging of RNA for preparation of a cell-free DNA/RNA sequencing library
SG11201901296TA (en) 2016-08-15 2019-03-28 Accuragen Holdings Ltd Compositions and methods for detecting rare sequence variants
US11203782B2 (en) 2018-03-29 2021-12-21 Accuragen Holdings Limited Compositions and methods comprising asymmetric barcoding
US20210254134A1 (en) * 2018-06-12 2021-08-19 Accuragen Holdings Limited Methods and compositions for forming ligation products
US11926821B2 (en) 2018-10-22 2024-03-12 The Chinese University Of Hong Kong Cell-free DNA quality
EP3650558A1 (en) * 2018-11-07 2020-05-13 Siemens Healthcare GmbH Liquid sample workflow for nanopore sequencing
EP3990548A4 (en) * 2019-06-25 2023-07-26 AccuraGen Holdings Limited DISEASE DETECTION METHODS AND SYSTEMS
EP4143336A1 (en) * 2020-04-28 2023-03-08 Cepheid Pseudo-complementary bases in genotyping and nucleic acid sequencing
CN115667511A (zh) * 2020-05-15 2023-01-31 科德斯Dna公司 多核苷酸序列的按需合成
CN115917062A (zh) * 2020-06-25 2023-04-04 生物辐射实验室股份有限公司 条码化方法和组合物
CN113913493B (zh) * 2020-07-07 2024-04-09 天昊基因科技(苏州)有限公司 一种靶基因区域快速富集方法
JP2023540016A (ja) * 2020-08-19 2023-09-21 アキュラーゲン ホールディングス リミテッド 選択的セルフリー核酸分析の方法
WO2024102761A1 (en) * 2022-11-09 2024-05-16 Accuragen Holdings Limited Tumor nucleic acid identification methods

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007024653A2 (en) * 2005-08-19 2007-03-01 Bioventures, Inc. Method and substances for isolating micro rnas
US20100291548A1 (en) * 2006-03-12 2010-11-18 Applera Corporation Methods of Detecting Target Nucleic Acids
US20110237444A1 (en) * 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
CN104946737A (zh) * 2013-12-11 2015-09-30 阿卡拉根公司 用于检测罕见序列变体的组合物和方法
US20150315636A1 (en) * 2012-10-31 2015-11-05 Becton, Dickinson And Company Selective amplification and real-time pcr detection of rare mutations

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
ES2091225T3 (es) 1989-07-11 1996-11-01 Gen Probe Inc Metodos para la amplificacion de las secuencias de acidos nucleicos.
CA2020958C (en) 1989-07-11 2005-01-11 Daniel L. Kacian Nucleic acid sequence amplification methods
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
US5527670A (en) 1990-09-12 1996-06-18 Scientific Generics Limited Electrochemical denaturation of double-stranded nucleic acid
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
US5270184A (en) 1991-11-19 1993-12-14 Becton, Dickinson And Company Nucleic acid target generation
KR960703174A (ko) 1993-06-09 1996-06-19 미안 알렉 자기장 순환식 반응방법(magnetic cycle reaction)
US5834252A (en) * 1995-04-18 1998-11-10 Glaxo Group Limited End-complementary polymerase reaction
US6033850A (en) 1994-03-15 2000-03-07 Affymetrix, Inc. Electrochemical denaturation of double-stranded nucleic acid
US5648211A (en) 1994-04-18 1997-07-15 Becton, Dickinson And Company Strand displacement amplification using thermophilic enzymes
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US5710029A (en) 1995-06-07 1998-01-20 Gen-Probe Incorporated Methods for determining pre-amplification levels of a nucleic acid target sequence from post-amplification levels of product
US5705365A (en) 1995-06-07 1998-01-06 Gen-Probe Incorporated Kits for determining pre-amplification levels of a nucleic acid target sequence from post-amplification levels of product
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
DK0862656T3 (da) * 1995-11-21 2001-04-09 Univ Yale Unimolekylær segmentamplifikation og -detektering
US5939291A (en) 1996-06-14 1999-08-17 Sarnoff Corporation Microfluidic method for nucleic acid amplification
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
EP2327797B1 (en) 1997-04-01 2015-11-25 Illumina Cambridge Limited Method of nucleic acid sequencing
GB9706654D0 (en) 1997-04-02 1997-05-21 Scient Generics Ltd Disassociation of interacting molecules
WO1998045474A1 (en) 1997-04-04 1998-10-15 Innogenetics N.V. Isothermal polymerase chain reaction by cycling the concentration of divalent metal ions
ATE426045T1 (de) 1998-11-09 2009-04-15 Eiken Chemical Prozess zur synthetisierung von nukleinsaure
GB9903906D0 (en) 1999-02-19 1999-04-14 Microbiological Res Authority Method and apparatus for nucleic acid strand separation
US20030207295A1 (en) * 1999-04-20 2003-11-06 Kevin Gunderson Detection of nucleic acid reactions on bead arrays
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
DK1218542T3 (da) 1999-09-13 2004-08-02 Nugen Technologies Inc Fremgangsmåder og sammensætninger til lineær isotermisk amplifikation af polynukleotidsekvenser
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
US6917726B2 (en) 2001-09-27 2005-07-12 Cornell Research Foundation, Inc. Zero-mode clad waveguides for performing spectroscopy with confined effective observation volumes
IL153504A0 (en) 2001-03-09 2003-07-06 Nugen Technologies Inc Methods and compositions for amplification of rna sequences
DE60324810D1 (de) 2002-09-20 2009-01-02 New England Biolabs Inc HELICASE-ABHuNGIGE AMPLIFIKATION VON NUKLEINSUREN
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
EP1866434B1 (en) 2005-02-19 2013-06-05 Avacta Group plc Isothermal nucleic acid amplification
DK1907583T4 (da) * 2005-06-15 2020-01-27 Complete Genomics Inc Enkeltmolekyle-arrays til genetisk og kemisk analyse
EP1969153A2 (en) 2005-11-28 2008-09-17 Pacific Biosciences of California, Inc. Uniform surfaces for hybrid material substrates and methods for making and using same
US20100028873A1 (en) * 2006-03-14 2010-02-04 Abdelmajid Belouchi Methods and means for nucleic acid sequencing
WO2008070352A2 (en) * 2006-10-27 2008-06-12 Complete Genomics, Inc. Efficient arrays of amplified polynucleotides
WO2010117817A2 (en) * 2009-03-30 2010-10-14 Life Technologies Corporation Methods for generating target specific probes for solution based capture
US10837879B2 (en) * 2011-11-02 2020-11-17 Complete Genomics, Inc. Treatment for stabilizing nucleic acid arrays
US9092401B2 (en) 2012-10-31 2015-07-28 Counsyl, Inc. System and methods for detecting genetic variation
US9365896B2 (en) * 2012-10-19 2016-06-14 Agilent Technologies, Inc. Addition of an adaptor by invasive cleavage
GB201321123D0 (en) * 2013-11-29 2014-01-15 Linea Ab Q Amplification of circular molecules
PT3889271T (pt) * 2014-06-06 2022-12-20 Univ Cornell Método para identificação e enumeração de alterações de sequência de ácidos nucleicos, expressão, cópia ou metilação de adn, utilizando reações de nuclease, ligase, polimerase e sequenciação combinadas
EP3298170B1 (en) * 2015-05-21 2021-12-29 Cofactor Genomics, Inc. Methods for generating circular dna from circular rna
KR20180055905A (ko) * 2015-10-09 2018-05-25 아큐라젠 홀딩스 리미티드 증폭 산물의 농축을 위한 방법 및 조성물

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007024653A2 (en) * 2005-08-19 2007-03-01 Bioventures, Inc. Method and substances for isolating micro rnas
US20100291548A1 (en) * 2006-03-12 2010-11-18 Applera Corporation Methods of Detecting Target Nucleic Acids
US20110237444A1 (en) * 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
US20150315636A1 (en) * 2012-10-31 2015-11-05 Becton, Dickinson And Company Selective amplification and real-time pcr detection of rare mutations
CN104946737A (zh) * 2013-12-11 2015-09-30 阿卡拉根公司 用于检测罕见序列变体的组合物和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658982A (zh) * 2018-12-25 2019-04-19 人和未来生物科技(长沙)有限公司 一种用于基因测序的引物设计方法及***
CN109658982B (zh) * 2018-12-25 2020-06-19 人和未来生物科技(长沙)有限公司 一种用于基因测序的引物设计方法及***

Also Published As

Publication number Publication date
CN115927547A (zh) 2023-04-07
EP3383994A1 (en) 2018-10-10
US20180363039A1 (en) 2018-12-20
WO2017096322A1 (en) 2017-06-08
EP3383994A4 (en) 2019-08-28

Similar Documents

Publication Publication Date Title
CN108699505A (zh) 用于形成连接产物的方法和组合物
US20210254134A1 (en) Methods and compositions for forming ligation products
CN104946737B (zh) 用于检测罕见序列变体的组合物和方法
CN110036118B (zh) 用于识别核酸分子的组合物和方法
JP6966052B2 (ja) 稀な配列変異体を検出するための組成物および方法
JP7008016B2 (ja) 増幅産生物の富化のための方法および組成物
CN109689888B (zh) 无细胞核酸标准品及其用途
US8986958B2 (en) Methods for generating target specific probes for solution based capture
JP7282692B2 (ja) ガイド核酸の作製および使用
CN109511265B (zh) 通过链鉴定改进测序的方法
CN110777195A (zh) 采用一组snp的人身份识别
CN111757934A (zh) 通过单向双重探针引物延伸的靶标富集
US11203782B2 (en) Compositions and methods comprising asymmetric barcoding
JP2021517556A (ja) 核酸ライブラリー作製のための組成物及び方法
WO2021163546A9 (en) Methods and materials for assessing nucleic acids
WO2019014218A2 (en) SEQUENCING METHOD FOR DETECTION OF GENOMIC REARRANGEMENTS
WO2022144003A1 (zh) 一种用于高通量靶向测序的多重pcr文库构建方法
EP4172357B1 (en) Methods and compositions for analyzing nucleic acid
JP2024515305A (ja) 核酸の濃縮及び検出
CN116615538A (zh) 单个细胞中的全转录组分析
JP2022546485A (ja) 腫瘍高精度アッセイのための組成物および方法
CN110468179A (zh) 选择性扩增核酸序列的方法
AU2017370655B2 (en) Compositions and methods for identifying nucleic acid molecules
WO2023158739A2 (en) Methods and compositions for analyzing nucleic acid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination