CN115516109A

CN115516109A - 条码化核酸用于检测和测序的方法

Info

Publication number: CN115516109A
Application number: CN202180028758.4A
Authority: CN
Inventors: 陈宙涛; D·普特; 龚海彪
Original assignee: Universal Sequencing Technology Corp
Current assignee: Universal Sequencing Technology Corp
Priority date: 2020-02-17
Filing date: 2021-02-17
Publication date: 2022-12-23
Also published as: EP4106769A4; WO2021168015A1; EP4106769A1

Abstract

本发明提供了对核酸进行条码化以供检测和测序的方法。所述方法将条形码模板应用在具有多种靶标(包括核酸片段、核和/或细胞)的隔室中。在隔室内克隆扩增后，条形码序列将在隔室被打破之前被整合到其靶标上，从而高效地条码化通过克隆方式来源于核酸片段、核或细胞的核酸片段。条形码信息可用于跟踪片段、核或细胞的来源，并可用于单倍型定相和多种基于单细胞的应用，包括全基因组测序、靶向测序、RNA测序和免疫组库测序。

Description

条码化核酸用于检测和测序的方法

交叉引用

本专利申请要求2020年2月17日提交的临时申请US62/977,618的优先权。其全部内容纳入本文。本文提到的所有出版物、专利和其他文件均通过引用其全文方式纳入本文。

技术领域

本发明一般涉及改进的核酸检测和测序的方法，用于单细胞分析、单倍型定相、从头组装和变体检测。

背景技术

本发明属于基因组学的技术领域。更具体地，本发明属于核酸测序的技术领域。核酸测序可以为很多种生物医学应用提供信息，包括诊断、预后、药物基因组学和法医生物学。测序可能涉及基础的低通量方法，包括Maxam-Gilbert测序(化学修饰的核苷酸)和Sanger测序(链终止)法，或高通量的下一代方法，包括大规模平行焦磷酸测序、合成测序、连接测序、半导体测序等。对于大多数测序方法，样品(如核酸靶标)在引入测序仪器之前需要被加工。例如，样品可以被片段化、扩增或附接至标识符。独特标识符通常被用来鉴定特定靶标的来源。大多数测序方法产生相对较短的测序读数，长度在几十个碱基至几百个碱基之间，并且由于测序读数长度限制，不能产生完整的单倍型相(haplotype phase)信息。大多数生物样品包含许多细胞。而且大多数检测都是测量大量细胞的反应，而不是在个体细胞水平进行测量。

发明内容

一方面，本文描述的是通过条形码加标来追踪核酸靶标来源的方法。该方法包括将至少一个独特条形码模板与至少一个靶标封装在隔室中；扩增条形码模板并修饰靶标，其中经修饰的靶标能够连接到隔室中的条形码；将条形码序列与经修饰的靶标连接，使得多个经修饰的靶标共有隔室中存在的相同的一个或多个条形码序列；移除隔室并收集条形码加标的经修饰靶标以用于下游应用。靶标选自下组：核酸、蛋白质(包括抗体)、配体、化合物、细胞核、细胞及其组合。细胞可以是原核的或真核的。对靶标的修饰选自下组：链转移反应、标签化反应、逆转录、扩增、引物延伸、限制性消化、杂交、连接、片段化及其组合。在一些实施方案中，在封装之前对靶标进行处理和/或修饰。处理方法选自下组：变性、透化、固定、标记、偶联、原位反应及其组合。在一些实施方案中，在同一隔室中存在的不同条形码序列的隔室来源可以基于它们共有的隔室内容来识别。

在一些实施方案中，条形码模板包含中心条形码序列，其侧接至少两个柄序列，所述柄序列可用作引发位点、杂交位点或结合位点。

一方面，本文描述的是通过条形码加标来追踪核酸片段来源的方法。该方法包括提供多种核酸靶标和多种转座体，每种转座体包含至少一个转座子和一个转座酶；将核酸靶标和转座体一起孵育以在核酸靶标上形成链转移复合物(STC)；提供多种独特的条形码模板；对带有STC的核酸靶标和条形码模板进行划分以产生两个或更多个隔室，其包含一种或多种核酸靶标和具有不同条形码序列的一种或多于一种条形码模板两者；扩增隔室中的条形码模板，通过破坏STC的方式使核酸靶标片段化，以形成标签化的核酸片段，并将条形码序列连接到加标核酸片段，从而使多个片段共有隔室中存在的相同的一种或多种条形码序列；移除隔室并收集条形码加标的核酸片段。

一方面，本文描述的是通过条形码加标来追踪核酸片段来源的方法。该方法包括提供多种核酸靶标和多种转座体，每种转座体包含至少一个转座子和一个转座酶；将核酸靶标和转座体一起孵育以在核酸靶标上形成链转移复合物(STC)；提供多种独特的条形码模板；对带有STC的核酸靶标和条形码模板进行划分以产生两个或更多个隔室，其包含一种或多种核酸靶标和具有不同条形码序列的一种或多于一种条形码模板两者；通过以下方式将条形码序列附连到隔室中的核酸靶标：i)通过破坏STC的方式使核酸靶标片段化，以形成标签化的核酸片段；ii)用非靶标特异性引物(即仅转座子特异性)扩增加标核酸片段，并扩增条形码模板；iii)将条形码模板连接到加标核酸片段，其中多个片段共有隔室中存在的相同的一种或多种条形码序列；去除隔室并收集条形码加标的核酸片段以供下游应用。其中一个应用是生成单倍型定相测序信息。

一方面，本文描述的是通过条形码加标来追踪靶核酸片段来源的方法。该方法包括提供多种核酸靶标、多种靶标特异性引物和多种转座体，每种转座体包含至少一个转座子和一个转座酶；将核酸靶标和转座体一起孵育以在核酸靶标上形成链转移复合物(STC)；提供多种独特的条形码模板；对带有STC的核酸靶标和条形码模板进行划分，以产生两个或更多个隔室，其包含一种或多种核酸靶标和具有不同条形码序列的一种或多于一种条形码模板两者；通过以下方式将条形码序列附连到隔室中的核酸靶标：i)通过破坏STC的方式使核酸靶标片段化，以形成标签化的核酸片段；ii)用转座子特异性引物和靶标特异性引物扩增加标核酸片段，并扩增条形码模板；iii)将条形码模板连接到加标核酸片段，其中多个片段共有隔室中存在的相同的一种或多种条形码序列；去除隔室并收集条形码加标的核酸片段。在一些实施方案中，核酸靶标在细胞或细胞核内，其中细胞或细胞核被透化或固定，然后在与靶标特异性引物和条形码模板进行划分之前与多种转座体一起孵育。

一方面，本文描述的是通过条形码加标来追踪靶核酸片段来源的方法。该方法包括提供多种核酸片段、多种独特的条形码模板和多种靶标特异性引物，其中至少一些所述靶标特异性引物能够直接或间接连接至条形码模板；对核酸片段、靶标特异性引物和条形码模板进行划分，以产生两个或更多个隔室，其包含一种或多种核酸片段、靶标特异性引物和具有不同条形码序列的一种或多于一种条形码模板；通过以下方式将条形码序列连接到隔室中的核酸片段：i)使用靶标特异性引物从核酸片段扩增靶标，并扩增条形码模板；iii)将条形码模板连接到隔室中扩增的核酸靶标，其中多个扩增的核酸靶标共有隔室中存在的相同的一种或多种条形码序列；去除隔室并收集条码化的核酸靶标，以进行包括测序在内的进一步分析。

一方面，本文所述的是单细胞ATAC-seq方法。该方法包括提供多个细胞或细胞核和多种转座体，每种转座体包含至少一个转座子和一个转座酶；将它们一起孵育以在细胞核中的可及染色质上形成链转移复合物(STC)；提供多个独特的条形码模板；对处理过的细胞或细胞核和条形码模板进行划分，以产生两个或更多个隔室，该隔室包括细胞或细胞核以及具有不同条形码序列的一种或多于一种条形码模板两者；扩增隔室中的条形码模板，打破细胞膜和/或核膜，通过破坏STC的方式将可及染色质片段化，以形成标签化的核酸片段，并将条形码序列连接到加标核酸片段，以使多个片段共有隔室中存在的相同的一种或更多种条形码序列；去除隔室并收集条形码加标的核酸片段；对条形码和条形码加标的核酸进行测序，以在单细胞的基础上表征可及染色质区域。

一方面，本文所述的是单细胞ATAC-seq方法。该方法包括提供多个细胞或细胞核和多种转座体，每种转座体包含至少一个转座子和一个转座酶；将它们一起孵育以在细胞核中的可及染色质上形成链转移复合物(STC)；提供多个独特的条形码模板；对处理过的细胞或细胞核和条形码模板进行划分，以产生两个或更多个隔室，该隔室包括细胞或细胞核以及具有不同条形码序列的一种或多于一种条形码模板；通过以下方式将条形码序列连接到隔室中的可及染色质片段：i)打破细胞膜和/或核膜，并通过破坏STC的方式来片段化可及染色质，以形成标签化的核酸片段；ii)扩增所述加标核酸片段并扩增条形码模板；iii)将条形码模板连接到加标核酸片段，其中多个片段共有隔室中存在的相同的一个或多个条形码序列；去除隔室并收集条形码加标的核酸片段；对条形码和条形码加标的核酸进行测序，以在单细胞的基础上表征可及染色质区域。

一方面，本文描述的是条码化单细胞的全基因组的方法。该方法包括提供多个细胞或细胞核并固定所述细胞或细胞核以从所述细胞或细胞核内的蛋白质解离DNA；提供多种转座体，每种转座体包含至少一个转座子和一个转座酶；将固定的细胞或细胞核与转座体一起孵育，以在固定细胞或细胞核内的DNA上形成链转移复合物(STC)；提供多种独特的条形码模板；划分处理过的细胞核和条形码模板以产生两个更或多个隔室，所述隔室包括细胞或细胞核以及具有不同条形码序列的一种或多于一种条形码模板两者；扩增隔室中的条形码模板，打破细胞膜和/或核膜，通过破坏STC的方式使DNA片段化，以形成标签化的核酸片段；将条形码序列连接到加标核酸片段，使得多个片段共有存在于隔室中的相同的一种或多种条形码序列；移除隔室并收集条形码加标的核酸片段。在一些实施方案中，链转移反应发生在细胞或细胞核与条形码模板被划分之后。这些细胞可以是原核的或真核的。

一方面，本文描述的是条码化单细胞的全基因组的方法。该方法包括提供多个细胞或细胞核并固定所述细胞或细胞核以从所述细胞或细胞核内的蛋白质解离DNA；提供多种转座体，每种转座体包含至少一个转座子和一个转座酶；孵育固定的细胞或细胞核和转座体以在固定的细胞或细胞核内的DNA上形成链转移复合物(STC)；提供多种独特的条形码模板；划分处理过的细胞核和条形码模板以产生两个或更多个隔室，所述隔室包括细胞或细胞核以及具有不同条形码序列的一种或多于一种条形码模板两者；通过以下方式将条形码序列连接到所述隔室种的细胞或细胞核中的所述基因组DNA：i)破坏核膜，并通过破坏STC的方式来使基因组DNA片段化，以形成标签化的核酸片段；ii)扩增所述加标核酸片段并扩增条形码模板；iii)将条形码模板连接到加标核酸片段，其中多个片段共有隔室中存在的相同的一种或多种条形码序列；移除隔室并收集条形码加标的核酸片段。在一些实施方案中，链转移反应发生在细胞或细胞核与条形码模板被划分之后。这些细胞可以是原核的或真核的。

一方面，本文所述的是用于单细胞靶向测序的方法。所述方法包括提供多个细胞和/或细胞核、提供多种独特的条形码模板和提供多种靶标特异性引物，其中至少一些靶标特异性引物还能够直接或间接地附接于条形码模板；对细胞和/或细胞核、条形码模板和靶标特异性引物进行划分，以产生两个或更多个隔室，所述隔室包含细胞和/或细胞核、具有不同条形码序列的一种或多于一种条形码模板和靶标特异性引物；扩增隔室中的条形码模板，将条形码序列连接到靶标特异性引物，破坏细胞膜/核膜，用靶标特异性引物引发靶标基因组区域以生成附接有条形码的靶标片段，从而使多个附接有条形码的靶标片段共有隔室中存在的相同的一种或多种条形码序列；移除隔室并收集附接有条形码的靶标片段；并对条形码和条码化的加标核酸进行测序，以表征每细胞基础的靶向区域。DNA或RNA或两者都可以是靶标。当RNA为靶标时，除DNA聚合酶外，还将包括逆转录酶。

一方面，本文所述的是用于单细胞靶向测序的方法。所述方法包括提供多个细胞和/或细胞核，提供多种独特的条形码模板，以及提供多种靶标特异性引物，其中所述靶标特异性引物能够直接或间接地附接于条形码模板；对细胞和/或细胞核、条形码模板和靶标特异性引物进行划分，以产生两个或更多个隔室，所述隔室包含细胞和/或细胞核、具有不同条形码序列的一种或多于一种条形码模板和靶标特异性引物；通过以下方式将条形码序列连接到隔室中的靶标核酸片段：i)破坏细胞和/或核膜以释放核酸；ii)扩增核酸靶标和扩增条形码模板；iii)将条形码模板连接至扩增的核酸靶标，其中多个核酸靶标共有隔室中存在的相同的一种或多种条形码序列；移除隔室并收集附接有条形码的靶标片段；并对条形码和条码化的加标核酸进行测序，以表征每细胞基础的靶向区域。DNA或RNA或两者都可以是靶标。当RNA为靶标时，除DNA聚合酶外，还将包括逆转录酶。

一方面，本文所述的是用于单细胞RNA测序的方法。所述方法包括提供多个细胞或细胞核、提供多种独特的条形码模板、提供逆转录酶和提供多种引物，其中所述引物能够作为引物用于cDNA合成，或用于条形码模板扩增，或用于cDNA引发，或用于其组合；独特的分子标识符(UMI)序列可以掺入引物中用于cDNA合成；划分细胞、条形码模板、逆转录酶和引物以产生两个或更多个隔室，所述隔室包含细胞、具有不同条形码序列的一种或多于一种条形码模板、逆转录酶和引物；在隔室中，裂解细胞，产生cDNA，扩增条形码模板，将所述条形码序列连接到cDNA片段或由cDNA产生的片段，使得多种附接有条形码的片段共有隔室中存在的相同的一种或多种条形码序列；移除隔室并收集附接有条形码的片段；并对条形码和条码化的加标核酸进行测序，以在单细胞的基础上表征cDNA概况(cDNA profile)。

一方面，本文所述的是用于单细胞RNA测序的方法。该方法包括原位进行RNA逆转录；原位标签化cDNA；划分处理过的细胞和条形码模板，每个隔室包括一个处理过的细胞和一种或多于一种条形码模板；扩增条形码模板和标签化的cDNA，并将扩增的条形码模板与隔室中的标签化的cDNA偶联；移除隔室并收集附接有条形码的片段；对条形码和条码化的加标核酸进行测序，以在单细胞的基础上表征RNA概况。在一些实施方案中，使用细胞核而不是细胞作为输入材料。

一方面，本文所述的是用于单细胞RNA测序的方法。该方法包括提供多个细胞、固定和/或透化细胞；提供逆转录酶，提供多种引物，所述引物能够作为cDNA合成的引物；独特的分子标识符(UMI)序列可以掺入引物中用于cDNA合成；原位生成第一链和第二链cDNA；提供多种转座体，每种转座体包含至少一个转座子和一个转座酶，原位标签化双链cDNA；提供多个独特的条形码模板；划分处理过的细胞、条形码模板和引物以产生两个或更多个隔室，该隔室包含细胞、具有不同条形码序列的一种或多于一种条形码模板和引物；在隔室中，扩增条形码模板和cDNA片段，将条形码序列附接到cDNA片段或由cDNA产生的片段，使得多个附接有条形码的片段共有隔室中存在的相同的一种或多种条形码序列；移除隔室并收集附接有条形码的片段；并对条形码和条码化的加标核酸进行测序，以在单细胞的基础上表征cDNA概况。在一些实施方案中，使用细胞核而不是细胞作为输入材料。

一方面，本文所述的是用于单细胞RNA测序的方法。该该方法包括提供多个细胞、固定和/或透化细胞；提供逆转录酶，提供多种引物，所述引物能够作为cDNA合成的引物；独特的分子标识符(UMI)序列可以纳入引物中用于cDNA合成；原位生成第一链cDNA；提供多种转座体，每种转座体包含至少一个转座子和一个转座酶，原位标签化RNA/cDNA杂合体；划分细胞、条形码模板和引物以产生两个或更多个隔室，所述隔室包含细胞或细胞核、具有不同条形码序列的一种或多于一种条形码模板和引物；在隔室中，扩增条形码模板和标签化的cDNA片段，将所述条形码序列附接到cDNA片段或由cDNA产生的片段，使得多个条形码连接片段共有隔室中存在的相同的一种或多种条形码序列；移除隔室并收集附接有条形码的片段；并对条形码和条码化的加标核酸进行测序，以在单细胞的基础上表征cDNA概况。在一些实施方案中，使用细胞核而不是细胞作为输入材料。

一方面，本文描述了同时分析单细胞中RNA和DNA的方法。该方法包括在细胞固定之前或之后对多个细胞进行原位逆转录；对这些固定的细胞进行原位链转移反应；将这些细胞以个体形式与一种或多于一种条形码模板封装在一个隔室中；扩增隔室中的条形码模板、cDNA和DNA片段；将扩增的条形码模板与隔室中的cDNA和DNA片段偶联；移除隔室并收集附接有条形码的片段；对条形码和条码化的加标核酸进行测序，以在单细胞的基础上表征RNA和DNA概况。在一些实施方案中，使用细胞核而不是细胞作为输入材料。

一方面，本文描述了同时分析单细胞中的基因表达和基因调控，或在单细胞中同时进行RNA-seq和ATAC-seq的方法。该方法包括对多个细胞进行原位逆转录；对这些细胞进行原位链转移反应；将这些细胞以个体形式与一种或多于一种条形码模板封装在隔室中；在一些实施方案中，细胞在封装之前是固定的；扩增隔室中的条形码模板、cDNA和可及染色质DNA片段；将扩增的条形码模板与隔室中的cDNA和染色质DNA片段偶联；移除隔室并收集附接有条形码的片段；对条形码和条码化的加标核酸进行测序，以在单细胞的基础上表征RNA和可及染色质DNA概况。在一些实施方案中，原位链转移反应在逆转录之前进行。

一方面，本文描述了使用封装的条形码扩增和条形码加标转录物和核酸标记的表位的CITE-seq方法。

在一个方面，本文描述了在划分条形码模板和条形码靶标时隔室中存在多于一种条形码时识别任意条形码的隔室来源的方法。提供隔室内容物的特定信息，识别靶标的条形码信息和条形码的隔室内容信息，并将具有相同隔室内容信息的条形码分组以收集与这些条形码相关联的所有靶标。

在一方面，隔室内容物信息是来自多于一个核酸片段的标签化片段的共有断点坐标，或来自多于一个靶标的共有UMI序列，或其组合。

附图简要说明

图1说明了一种用隔室化反应利用转座体和条形码模板进行核酸条码化的方法。BC表示条形码模板上的条形码。

图2说明了一种在隔室中将克隆扩增的条形码模板附接至标签化的核酸片段的方法。A.扩增的条形码模板被用作引物进一步扩增目靶标(200)，以便将条形码连接到隔室中的靶标。B.使用接头寡核苷酸(203)以将扩增的条形码与扩增靶标(200)间接偶联，以便在扩增后将条形码序列附接到靶标。C.分别在隔室(204、205)中对条形码模板和靶标(200)进行双扩增，并将扩增的条形码序列与扩增的靶标(206、207)偶联。D.在隔室(210、213)中分别对两个条形码模板和一个靶标(200)进行双扩增，并将扩增的条形码序列与扩增的靶标(214、215)偶联。BC表示条形码模板上的条形码。BC1和BC2是不同的条形码序列。

图3说明了一种用隔室化反应利用转座体加标核和条形码模板进行单细胞ATAC-seq文库制备的方法。

图4说明了单细胞全基因组条码化方法，该方法使用隔室化反应，利用转座体加标固定的核和条形码模板。

图5说明了使用条码化核酸片段和靶标特异性引物组富集靶向区域的方法。

图6说明了条码化单细胞可以显著改进体细胞突变的检测能力，具有用于个体细胞鉴定和用独特分子鉴定(UMI)的测序错误校正的组合能力。

图7说明了一种单细胞RNA-seq方法，其中既采用原位反应，也采用隔室化条形码扩增和偶联反应。

图8说明了隔室内单细胞核酸条码化反应用于靶向测序。

图9显示了相同细胞ATAC-seq和3'RNA-seq分析的测序文库制备工作流程。

图10说明了在液滴中通过一种或多种条形码模板和标签化的片段的双扩增和将扩增的条形码模板附接至标签化的片段的克隆条码化反应。

图11说明了相联的读数测序结果。A.同一条形码读数1与下一个读数1排列的读数距离的测序读数直方图，以证明来自大肠杆菌样品的全基因组连接读数测序的相联读数特征。B.来自4kb的HLA扩增子的池的连接读数测序中的相联的读数对每个基因组DNA分子的测序覆盖。

图12显示了经清理的单细胞ATAC-seq文库的TapeStation高灵敏度D1000ScreenTape谱。

图13显示了单细胞ATAC-seq实验的一些Cell Ranger分析结果。

图中的转座酶显示为仅用于说明目的的四聚体或二聚体。反应中可以使用不同的转座酶。

具体实施方案

大多数市售测序技术的测序读数长度有限。第二代高通量测序技术只能测序几百个碱基，很少达到上千个碱基。然而，基因的核酸序列可以跨越从几千碱基到几十千和几百千碱基，这意味着几十千碱基的测序读数长度对于成功确定所有基因的单倍型是必要的。

同时，尽管个体细胞是不同的，但现今大多数测序都是一次从许多细胞中提取DNA或RNA进行批量测序。通过使用细胞群体的平均分子或表型测量值来代表单个细胞的行为，大多数细胞组的表达概况或过度表达的异常值可能会使结论产生偏差；而且，我们将不具备从单个细胞中识别所有独特模式的敏感性，这些模式可能是细胞在给定位置和时间的独特功能行为。此外，由于来自正常细胞或组织的高背景野生型信号的存在，目前检测非常低频的体细胞突变的能力有限，这大大限制了早期肿瘤检测的能力。然而，随着鉴定每个单细胞能力的提高，我们将能够通过单细胞水平的基因分型将突变的肿瘤细胞与野生型细胞分开。这将几乎完全消除正常细胞产生的野生型背景信号，使体细胞突变检测与种系突变检测一样容易。

先前已经描述过Tn5转座体和MuA转座体在体外同时片段化DNA并以高频率引入衔接子，为下一代DNA测序创建测序文库(Adey等2010，Caruccio等2011，和Kavanagh等2013)。由于DNA的片段化，这些特定的方案去除了任何定相或相邻性信息。在这些方案中，DNA与转座体反应后，需要进行柱纯化、热处理步骤、蛋白酶处理或与SDS溶液或EDTA溶液孵育，以从链转移复合物(STC)中释放转座酶，使得DNA被标签化到片段。已知MuA转座体在攻击DNA靶标时可以形成非常稳定的STC(Surette等1987，Mizuuchi等1992，Savilahti等1995，Burton和Baker2003，Au等2004)。在转座反应期间，对于Tn5转座体也观察到了类似的稳定性(Amini等2014)。

本发明利用了STC的稳定性和通过隔室扩增产生克隆条形码，并提供了在单细胞中对核酸靶标亚片段和/或条码化核酸进行独特条码化的方法。

本文所用术语“衔接子”是指核酸序列，其可以包含引物结合序列、条形码、接头序列、与接头序列互补的序列、捕获序列、与捕获序列互补的序列、限制性位点、亲和部分、独特分子标识符及其组合。

这里所用的术语“扩增”是指产生原始模板的多个拷贝的过程。用于扩增的方法选自下组：PCR、RPA、MALBAC，和用于线性扩增和指数扩增的等温扩增法。

“条形码模板”，其包含一侧末端侧接至少一个柄序列或两侧末端侧接两个柄序列的条形码序列。条形码序列的长度范围为4个碱基到100个碱基。柄序列可用作杂交或退火的结合位点,在扩增期间作为引发位点,或作为测序引物或转座酶的结合位点。此外，条形码序列可以选自已知核苷酸序列库，或从随机合成的核苷酸序列中随机选择。条形码模板可以是DNA、RNA或DNA/RNA杂合体。

本文所用术语“转座酶”是指能够进行转座的功能性核酸蛋白质复合物的组分并介导转座的蛋白质，包括但不限于Tn、Mu、Ty和Tc转座酶。术语“转座酶”也指来自逆转录转座子(retrotransposon)或逆转录病毒来源的整合酶。它还指野生型蛋白、突变型蛋白和带标签的融合蛋白，如GST标签、His标签等及其组合。

如本文所用，术语“转座子”是指被转座酶或整合酶识别并且是能够转座的功能性核酸-蛋白质复合物的基本组分的核酸区段。它们与转座酶一起形成转座体并进行转座反应。它指的是野生型和突变型两种转座子。

如本文所用，“可转座的DNA”是指包含至少一个转座子单元的核酸区段。它还可以包含亲和部分、非天然核苷酸和其他修饰。可转座的DNA中除转座子序列外的序列可以包含衔接子序列。

本文所用的术语“转座体”是指由转座酶与转座子非共价结合形成的稳定的核酸和蛋白质复合物。它可以包含相同或不同的单体单元的多聚体单元。

如本文所用，“转座子接合链”是指通过转座酶在***位点接合至靶核酸的双链转座子DNA的链。

如本文所用，“转座子互补链”是指双链转座子DNA中转座子接合链的互补链。

如本文所用，“链转移复合物(STC)”是指转座子***其中的转座体及其靶核酸的核酸-蛋白质复合物，其中转座子连接链的3'端与其靶核酸共价连接。它是一种非常稳定的核酸和蛋白质复合物形式，可在体外抵抗极热和高盐(Burton和Baker，2003)。

本文所用的“链转移反应”是指核酸和转座体之间的反应，其中形成链转移复合物。

本文所用的“标签化反应”是指片段化反应，其中转座体通过链转移反应***靶核酸并形成链转移复合物，然后链转移复合物在某些条件下被破坏，例如，蛋白酶处理、高温处理或蛋白质变性剂(如SDS溶液、盐酸胍、尿素等或其组合)，使靶核酸断裂成带有转座子末端附接的小片段。

如本文所用，“反应容器”是指具有连续开放空间以容纳液体的物质；其选自下组：管、孔、板、多孔板中的孔、载玻片、载玻片上的点、液滴、管道、通道、瓶子、腔室和流动池。

将带有链转移复合物的核酸和条形码模板包封在油包水乳液液滴中

本发明提供了一种将带有STC的核酸靶标与条形码模板包封在油包水乳液液滴中，并进一步产生加条形码标签的核酸片段的方法。

核酸靶标与转座体(101)反应并形成稳定的链转移复合物(102)同时保持核酸靶标的相邻性(图1)。核酸靶标是双链的。在一些实施方案中，它们是双链DNA。在一些实施方案中，它们是DNA和RNA杂合体。在一个反应容器中链转移反应发生在多个核酸靶标。在一些实施方式中，使用一种类型的转座体；在其他实施方式中，同时或顺序地使用多于一种类型的转座体。带有STC(102)的核酸靶标在溶液中与多个条形码模板(103)混合。在一些实施方式中，每个条形码模板具有独特条形码序列且彼此不同。在一些实施方案中，对大部分条形码模板来说，每个条形码模板具有独特条形码序列且彼此不同。转座体中至少一个可转座DNA能够直接杂交(图2A)或通过接头和/或引物间接杂交(图2B)至条形码模板的一端。其他酶和底物，例如DNA聚合酶、dNTP和引物也以水性溶液的形式提供在同一反应容器中。在一些实施方案中，引物用于扩增条形码模板。在一些实施方案中，引物可用于扩增标签化的核酸靶片段。扩增包括指数扩增和线性扩增。在一些实施方案中，可以使用不同的引物来平行扩增条形码模板和标签化的核酸靶片段(图2C)，然后两组扩增产物能够通过两个内部引物之间共有的同源性(图2C，208和209)或通过能够将条形码模板和标签化的片段桥接在一起的附加接头合并/偶联成一体。油包水乳液液滴(104)是在这样的条件下产生的，即一到几个具有STC的核酸靶标与一个条形码模板在一个液滴中混合。此处可基于泊松分布使用STC和条形码模板对核酸靶标进行适当滴定。在一些实施方案中，可以在乳液液滴中使用具有不同条形码序列的多于一种条形码模板，这将显著增加乳液液滴中存在的条形码和具有阳性产物的液滴数量，从而显著提高反应产率。在一些实施方案中，当条形码模板和标签化的片段两者在将条形码序列附接至标签化的片段之前被扩增时，如果不同的条形码随机地附接至标签化的片段的扩增拷贝上，则同一乳液液滴中具有不同条形码序列的多于一种条形码模板不会影响核酸靶标的真实表现(图2D)。通过这种方式，大多数乳液液滴都将包含条形码模板，当靶标也存在于同一液滴中时，所述模板可供将条形码附连到核酸靶标。这使得获得几乎100％的液滴成为可行的，液滴中含有任何对反应有用的核酸靶标。乳液液滴的直径为1μm至200μm，优选5μm至30μm。当乳液液滴隔室中存在多于一种的条形码时，可以利用标签化片段的断点坐标将这些条形码追溯到一个原始隔室。具体而言，转座酶标签化产生的断点在不同的核酸靶标之间是不同的。如果带有条形码的DNA片段与带有一种或多种其他条形码的片段共享相同的断点坐标，则这些片段可能来自相同的原始隔室。对于实验中的多个核酸靶标，两个不同的核酸片段在转座酶标签化后有可能产生相同的断点。当使用多个断点进行区分时，发生这种冲突的机会要低得多。在一些实施方案中，UMI标记的转座体可以在链转移反应或标签化反应期间使用，以增加用于鉴定的片段的独特性。当不同的条形码除同一组片段断点之外还与同一组UMI群共有许多片段时，UMI信息可用于隔室识别。

热处理后，例如,在60℃到75℃处理约5-10分钟，转座酶将从STC释放出来，核酸靶标会断裂成更小的片段。当仍在油包水液滴中时，DNA聚合酶将填补转座反应过程中留下的缺口(gap)。进行乳液扩增以扩增液滴中的条形码模板。扩增的条形码模板将直接(图2A)或间接(图2B)地杂交至标签化的片段，并在扩增反应期间将条形码序列附接至片段(105、201和202)。在一些实施方案中，在乳液反应期间，独特分子标识符(UMI)被添加到条形码模板中。在一些实施方案中，UMI以图2中的接头(203)或引物(209和212)形式被整合。乳液扩增反应后，乳液液滴被高盐、去污剂、醇、有机化合物或其组合打破。收集水相溶液。在一些实施方案中，使用一种或多种生物素化引物，以便可以用链霉亲和素珠轻松拉出扩增的条码化片段。在一些实施方案中，一种或多种生物素化dNTP被用于乳液扩增。在一些实施方案中，在乳液扩增期间，具有样品特异性条形码的引物被用于乳液液滴，使得来自不同样品反应的乳液扩增产物可以被汇集在一起用于最终扩增或衔接子修饰，以制备测序用文库。

在一些实施方案中，核酸靶标是全基因组DNA。这种条码化方法可用于从头测序、全基因组单倍型定相和结构变体检测。在一些实施方案中，核酸靶标是DNA片段、cDNA或由杂交捕获、引物延伸或PCR扩增所捕获的部分DNA。该条码化方法将能够对这些DNA分子的变体进行相位分析。在一些实施方案中，靶向特异性引物可在隔室中用于扩增有或无转座体反应情形的特定核酸靶标。

将转座酶加标细胞或细胞核和条形码模板封装在油包水乳液液滴中

本发明提供了一种将链转移反应后的细胞或细胞核和条形码模板封装在油包水乳液液滴中的方法，并进一步产生条形码标签的核酸片段,用于单细胞水平分析。

ATAC-seq(用测序检测转座酶可及的染色质)作为评估全基因组染色质可及性的尖端分子生物学工具受到越来越多的欢迎(Buenrostro等，2013)。ATAC-seq通过用超活的(hyperactive)突变Tn5转座酶(其将测序衔接子整合到基因组的开放区域)给开放染色质加标签鉴定可及染色质区域。加标DNA片段被纯化，通过PCR扩增并测序。然后测序读数被用于推断可及性增加的区域以及绘制转录因子结合位点的区域和核小***置。虽然天然野生型转座酶的活性水平较低，但ATAC-seq采用突变的超活转座酶(Reznikoff等，2008)，其已成功适用于高效鉴定开放染色质和鉴定整个基因组的调控元件。此外，单细胞ATAC-seq是为了分开单核并单独地进行ATAC-seq反应(Buenrostro等，2015)。更高通量的单细胞ATAC-seq使用组合细胞标引以测量数千个个体细胞的染色质可及性。单细胞ATAC-seq能够鉴定细胞类型和状态用于发育谱系追踪。ATAC-seq可能将是综合表观基因组学工作流程的关键组分。

本发明使用乳液方法以包封经转座酶处理的核和独特条形码模板，然后克隆扩增在乳液液滴内的条形码模板并将克隆扩增的条形码附接至标签化的可及DNA片段(图3)。标签化DNA也可以在乳液液滴中扩增。这种条码化方法为单细胞ATAC-seq分析提供了高通量和低成本的细胞标引。

在一些实施方案中，从细胞或组织样品中收集核(302)并与转座体孵育以形成STC(304)，然后在批量反应中与多个不同的条形码模板混合(图3)。在一些实施方案中，用转座体处理全细胞以在细胞核内形成STC，而不分离细胞核。在一些实施方案中，转座体包含突变的超活TN5转座酶。在一些实施方案中，转座体包含MuA转座酶。其他酶和底物，例如DNA聚合酶、dNTP和引物也以水性溶液的形式提供在相同的批量反应中。通过限制滴定或基于泊松分布的分配，在大多数液滴中存在一个核和一种条形码模板的条件下产生油包水乳液液滴(307)。乳液液滴的直径为10μm至200μm，优选20μm至60μm。热处理后，例如，在60℃至75℃处理约5-10分钟，转座酶将从STC中释放出来，核酸靶标会断裂成更小的加标片段。当仍在油包水液滴中时，DNA聚合酶将在加标片段上填补转座反应过程中留下的缺口。将在乳液PCR变性步骤期间打破核膜，并进行乳液扩增以在液滴中扩增条形码模板。扩增的条形码模板能够直接或间接地杂交至标签化片段，并在扩增反应期间将条形码序列附接至片段。在一些实施方案中，条码化模板和标签化的片段二者首先被平行扩增，然后合并或偶联在一起以形成条码化标签化片段，如图2C和2D所示。乳液扩增反应后，乳液液滴被高盐、去污剂、醇、有机溶液或其组合打破。收集水相溶液。在一些实施方案中，使用一种或多种生物素化引物或一种或多种生物素化dNTP，以便可以用链霉亲和素珠轻松拉出扩增的条码化片段。从这些条码化片段中制备的测序文库将是单细胞ATAC-seq文库。

除了单细胞ATAC-seq应用之外，本发明还提供了一种修饰后的单细胞全基因组测序方法。其使用乳液方法以封装经转座酶处理的醇固定的核和独特条形码模板，并克隆扩增在乳液液滴内的条形码模板并将该条形码附接至标签化的基因组DNA片段(图4)。

在一些实施方案中，从细胞或组织样品中收集核(402)并用基于醇的固定方法固定。基于醇的固定剂或Hepes-谷氨酸缓冲剂介导的有机溶剂保护作用(HOPE)固定剂或其他类似的固定剂将能够使细胞核中的蛋白质变性，但保持核酸的完整性。通过这种方法，能够从染色质暴露所有的基因组DNA。在一些实施方案中，固定的细胞被直接使用，不需要分离细胞核。洗去固定溶液后，用转座体处理细胞核以在基因组DNA上形成STC(405)，然后在批量反应中与多种不同的条形码模板混合。其他酶和底物，例如DNA聚合酶、dNTP和引物也以水性溶液的形式提供在相同的批量反应中。通过限制滴定或基于泊松分布的分配，在液滴中存在一个核和一种条形码模板的条件下生成油包水乳液液滴(408)。乳液液滴的直径为10μm至200μm，优选20μm至60μm。热处理后，例如,在60℃到75℃处理约5-10分钟，转座酶将从STC中释放出来，核酸靶标会断裂成更小的标签化片段。当仍在油包水液滴中时，DNA聚合酶将填补转座反应过程中留下的缺口。在乳液扩增期间将打破核膜。进行乳液扩增以扩增液滴中的条形码模板。扩增的条形码模板能够直接或间接地杂交至标签化片段，并在扩增反应期间将条形码序列附接至片段。在一些实施方案中，条码化模板和标签化的片段二者首先被平行扩增，然后合并在一起以形成条码化标签化片段，如图2C和2D所示。乳液扩增反应后，乳液液滴被高盐、去污剂、醇、有机试剂或其组合打破。收集水相溶液。在一些实施方案中，使用一种或多种生物素化引物或一种或多种生物素化dNTP，以便可以用链霉亲和素珠轻松拉出扩增的条码化片段。在一些实施方案中，从这些条码化片段制备的文库可以直接用于单细胞全基因组测序和单细胞CNV分析。在一些实施方案中，从这些条码化片段制备的文库可用于进一步靶向捕获整个外显子组或更小的靶向区域以进行靶向测序(图5)。在一些实施方案中，来自宏基因组样品的细胞被直接用于该条码化反应。原核细胞壁可以通过酶促和/或化学方式进行透化。这种单细胞测序方法消除了基因组DNA制备(这是宏基因组样品制备的瓶颈)的需求，且直接将高分子量DNA完整地保存在细胞中，从而能够提高组装效率。该方法将很好地保留宏基因组样品中的生物体组成，并利用基于条形码的细胞水平信息来提高生物体组成测量的准确性，而不是仅使用基因组DNA水平信息，基因组DNA水平信息由于可及性、扩增或测序而含有更多偏差。

这种单细胞靶向测序的一个优点是它对低频率变体检测具有更高的灵敏度，例如体细胞突变检测(图6)。由于能够独特地条码化个体细胞，我们可以在单细胞水平上检测任何突变，这将有效地消除来自周围细胞的背景噪音。这使得能够以非常高的灵敏度检测非常低频率的体细胞突变，这是早期癌症检测所需要的。图6说明了在单细胞水平上进行基因分型的能力。有细胞含有突变的等位基因A(601)，但在同一个样品中，有许多野生型细胞含有正常的等位基因T(602)。在标签化反应期间，独特分子标识符(UMI)被添加。通过在单细胞条码化和测序期间纳入分子特异性UMI，测序读数可以首先基于其细胞ID被分组，并且对于每个细胞，我们能够基于UMI鉴定测序错误，并容易地进行正确的变体识别。这种方法可以应用于循环肿瘤细胞、组织活检样品或组织切片。

在一些实施方案中，具有多于一种条形码序列的多种条形码模板可存在于乳液液滴中以增加细胞捕获率。当乳液液滴中存在多于一种条形码，并由一个细胞核或细胞共有时，可以通过利用标签化片段的断点坐标将这些条形码追溯到其原始细胞核或细胞。具体而言，转座酶标签化产生的断点在不同的细胞核或细胞之间是不同的。如果带有条形码的DNA片段与带有一种或多种其他条形码的片段共有相同的断点坐标，则这些条形码可能来自相同的原始细胞核或细胞。在转座酶标签化后，两个细胞核或细胞可能会在某些片段中产生相同的断点。当使用多个断点进行区分时，发生这种冲突的的机会要低得多。两个条形码之间共有的断点坐标越多，这两个条形码来自同一个隔室(即同一个细胞或细胞核)的置信度就越高。在一些实施方案中，标签化断点的随机性被用作UMI函数，以跟踪由扩增引起的重复并提高独特靶标的计数准确性。

除上述单细胞基因组DNA分析外，本发明还可用于单细胞RNA分析。在一些实施方案中，逆转录酶和作为第一组引物的cDNA引物可以被包含于乳液反应中。在一些实施方案中，cDNA引物在3’端具有多聚T序列；在一些实施方案中，cDNA引物在3’端具有GGG；在一些实施方案中，cDNA引物在3’端具有靶标特异性引物。在一些实施方案中，使用mRNA作为模板合成cDNA；在一些实施方案中，使用其他RNA种类作为模板合成cDNA。在乳液反应的早期，逆转录酶会从单细胞或核中的mRNA生成cDNA或部分cDNA。除了cDNA作为输入DNA外，条码化反应将如前所述进行。使用不同的引物进行逆转录或cDNA引发，该方法可用于单细胞转录组分析、单细胞3'RNA-Seq分析、单细胞5'RNA-Seq分析、单细胞靶向-测序(target-seq)应用和免疫组库分析。

当将用于大量细胞的反应联合经处理个体细胞与一种或多种条形码模板封装用于隔室化扩增和条形码加标反应时，本发明提供了另一种高通量的单细胞RNA分析方法。细胞(701)被透化(702)。在一些实施方案中，透化细胞(702)中的RNA通过逆转录酶在原位(703)转录成cDNA。合成第二条DNA链以形成双链DNA，作为原位标签化的输入。在一些实施方案中，细胞中的RNA通过逆转录酶原位转录成第一链cDNA。RNA/cDNA杂交双链被用作原位标签化的输入(704)。在一些实施方案中，cDNA引物在3'端具有多聚T序列；在一些实施方案中，cDNA引物在3'端具有GGG；在一些实施方案中，cDNA引物在3'端具有靶向特异性引物；在一些实施方案中，使用mRNA作为模板合成cDNA；在一些实施方案中，使用其他RNA种类作为模板合成cDNA。含有原位标签化cDNA(704)的处理过的细胞将与一种或多种条形码模板(705)封装，用于克隆扩增反应。在克隆反应期间，标签化cDNA片段(706)将从细胞中释放出来，条形码模板和标签化cDNA都被扩增(双扩增)，并且扩增的条形码模板(707)与扩增的cDNA片段(708)偶联并且生成多个附接有条形码的片段，这些片段共有在隔室中存在的相同的一种或多种条形码序列(709)。使用不同的引物进行逆转录或cDNA引发，该方法可用于单细胞转录组分析、单细胞3'RNA-Seq分析、单细胞5'RNA-Seq分析、单细胞靶向-测序(target-seq)应用和免疫组库分析。

在一些实施方案中，乳液液滴中可存在具有不同条形码序列的多种条形码模板，以增加细胞捕获率。当一个乳液液滴中存在多于一种条形码模板，并由隔室中的一个细胞或细胞核共有时，可以通过逆转录引物上的UMI将这些条形码追踪到一个原始细胞/细胞核。

将细胞、条形码模板和靶标特异性引物包封在油包水乳液液滴中

本发明提供了用于单细胞靶向测序的高通量方法。分离的细胞或核(802)与独特条形码模板(803)和第一组靶标特异性引物(804)被包封在乳液液滴中(图8)。其他酶和底物，例如，DNA聚合酶、dNTP和通用引物(common primer)也以水性溶液的形式提供。油包水乳液液滴(801)在这样的条件下产生，即通过基于泊松分布的有限滴定或分区，使液滴中存在一个细胞或一个核和一种条形码模板。乳液液滴的直径为10μm至200μm，优选20μm至100μm。在乳液扩增期间打破细胞膜或核膜，并将基因组DNA释放到乳液液滴中。进行乳液扩增以扩增条形码模板并将靶标特异性引物附接至液滴中的条形码模板。在3’端具有靶标特异性序列的单链扩增条形码模板(805)能够杂交至基因组DNA靶标并在扩增反应期间产生靶向区域的拷贝。在一些实施方案中，在乳液液滴产生期间，第二组靶标特异性引物(806)被包含在水性溶液中。乳液扩增反应后，靶标的条形码加标扩增子(807)将被产生，可用于测序文库制备和测序分析。在一些实施方案中，为了减少在扩增期间产生的引物二聚体，可以使用含有dUTP的引物并与乳液扩增后的UDG/APE1/ExoI处理联用。清理引物二聚体后，测序文库衔接子可以通过连接来添加。

分析同一细胞的RNA和DNA的方法

目前，大多数单细胞方法只能对不同的单细胞进行分离RNA或DNA分析。换句话说，他们不能同时分析来自同一个细胞的RNA和DNA。

此处描述的发明可以很容易地用于同时监测RNA表达和确定同一细胞的DNA基因型。在一些实施方案中，在原位反转录反应生成cDNA后的细胞被固定，以从蛋白质解离DNA。在一些实施方案中，细胞在原位逆转录发生之前首先被固定。多聚T引物可用于捕获3'mRNA。在一些实施方案中，UMI序列与多聚T引物相关。链转移反应或标签化反应都可以在处理过的细胞内原位进行，或者在细胞与条形码模板封装在隔室中之后进行。在一些实施方案中，如果靶标都是特定的，则不必需进行链转移反应或标签化反应。在细胞封装过程中，cDNA特异性引物和DNA靶标特异性引物和/或转座子特异性引物与用于扩增条形码模板的引物同时被封装。在一些实施方案中，当使用多聚T引物时，cDNA扩增是针对3'mRNA。DNA扩增是靶标特异性或针对全基因组的。条形码模板、cDNA和DNA片段扩增后，条形码模板与隔室中扩增的cDNA或DNA片段相联(linked)。条形码加标的cDNA和DNA将从隔室中释放出来，并收集用于进一步分析基因表达和基因组变异。

本发明还提供了一种对同一细胞同时进行ATAC-seq和RNA-seq的方法。细胞被透化并使用多聚T引物在原位进行逆转录以产生cDNA。在一些实施方案中，cDNA只是第一链cDNA。在一些实施方案中，该cDNA是在第二链cDNA合成之后。将这些细胞与转座体一起孵育，以在细胞核内的开放染色质位点和细胞中的cDNA进行链转移反应。在一些实施方案中，在开放染色质位点的链转移反应在逆转录之前进行。将这些细胞个体地与一种或多种条形码模板封装在一个隔室中，用于条形码扩增和标签化RNA和DNA扩增。在一些实施方案中，这些细胞在封装前固定以变性细胞蛋白和外源逆转录酶和转座子酶。在一些实施方案中，在链转移反应和/或逆转录反应之前从细胞中分离细胞核(图9)。

通过测序的转录组和表位细胞索引(CITE-seq)是一种多模式单细胞表型分析方法，它使用DNA条码化抗体将蛋白质的检测转换为定量的、可测序的读取数。抗体结合的寡核苷酸作为合成转录物，在大多数大规模基于寡核苷酸-dT的单细胞RNA-seq文库制备方案中被捕获(Stoeckius等，2017)。对于我们上述的方法，当cDNA引物是多聚T型设计时，CITE-seq型文库将能够高效地产生。

在一些实施方案中，封装的靶标不是核酸、基因组、蛋白质、细胞核、细胞或微生物，而是蛋白质复合体、蛋白质和核酸复合体、小分子、大分子、化合物、配体、粒子、微粒或其组合，其中它们被标记或附接至核酸作为其识别物或标志物。

虽然本发明所述的隔室化方法是封装在油包水乳液中，但其他隔离方法也是可行的。某些类型的脂质体，例如，直径为1-200um的巨型单层脂质体囊泡(GUV)，已显示出非常高的热稳定性，并且能够在其外壳内进行PCR扩增(Kurihara等2011，Laouini等2012)。在一些实施方案中，本发明中用于隔室生成的乳液液滴可以被GUV代替。在一些实施方案中，隔室化是通过微孔实现的。在一些实施方案中，隔室化是通过开放阵列实现的。在一些实施方案中，通过微阵列、微量滴定板或其他物理分离的隔室化方法实现隔室化。

一个实施方案涉及一种分析和/或计数来自单细胞的核酸的方法，包括(a)提供包括多个细胞中的细胞的样品，其中该细胞包含多个样品核酸；(b)从所述细胞的多个样品核酸生成多种条码化多核苷酸，其中所述条码化多核苷酸包括条形码序列，其设为将所述样品核酸与其他细胞中的其他样品核酸区分开；和来自细胞中的样品核酸的样品序列，其中所述样品序列包括与所述细胞中其他样品核酸的其他样品序列可区分的序列；(c)对所述的条码化多核苷酸进行测序，以确定样品序列和条形码序列；(d)用所述的条形码序列和样品序列信息分析和/或计数所述细胞中的样品核酸。在一些实施方案中，该方法还包括产生多个隔室，其中在步骤(b)之前或在步骤(b)中，所述细胞被单独隔离在隔室中。在一些实施方案中，该方法进一步包括在步骤(c)之前扩增所述条码化多核苷酸以产生多个扩增的条码化多核苷酸。在一些实施方案中，所述隔室包括以下形式：液滴、乳液液滴、脂质体、微孔、孔、微阵列、开放阵列、微量滴定板或其组合。在一些实施方案中，样品核酸选自下组：所述细胞中的总DNA、DNA的部分、总RNA、RNA的部分及其组合。在一些实施方案中，多个条码化的多核苷酸通过选自下组的反应产生：连接、杂交、链转移反应、转座、标签化、引物延伸、逆转录、扩增及其组合。在一些实施方案中，在步骤(b)之前，原位预处理细胞中的样品核酸以进行逆转录、转座、标签化、链转移反应、连接、杂交、限制性内切酶消化、交联、固定或其组合。在一些实施方案中，具有可区分序列的样品序列通过链转移、转座、标签化、随机引发、随机逆转录、随机消化或其组合产生。在一些实施方案中，具有可区分序列的样品序列用作样品核酸的独特分子标识符。在一些实施方案中，具有可区分序列的所述样品序列中至少80％包括不同于所述细胞中其他样品序列的独特序列。在一些实施方案中，具有可区分序列的所述样品序列中至少90％包括不同于所述细胞中其他样品序列的独特序列。在一些实施方案中，步骤(d)进一步包括使用所述条形码序列来识别样品核酸的细胞来源，并使用所述样品序列来确定样品核酸相对于细胞中其他样品核酸的独特性。在一些实施方案中，细胞基本上由从细胞中分离出来的细胞核组成。

一个实施方案涉及一种基于细胞的DNA或RNA生成条码化多核苷酸的方法，包括(a)提供包含多个细胞的样品，其中所述细胞包含多个样品DNA或样品RNA；(b)从所述细胞的多个样品DNA生成多个第一条码化多核苷酸，以及从所述细胞的多个样品RNA生成多个第二条码化多核苷酸，其中来自样品DNA的第一条码化多核苷酸包括：来自细胞中样品DNA的样品序列；条形码序列，其用于区分所述样品DNA和不同细胞中的其他样品DNA；以及样品DNA特异性衔接子序列，其中所述衔接子序列包含来自所述样品DNA的相同的第一条码化多核苷酸；其中来自样品RNA的第二条码化多核苷酸包含来自细胞中样品RNA的样品序列；条形码序列，其用于将所述样品RNA与不同细胞中的其他样品RNA区分开；样品RNA特异性衔接子序列，其中所述衔接子序列包含来自所述样品RNA的相同的第二条码化多核苷酸；(c)对所述第一和第二条码化多核苷酸进行测序以确定样品序列和条形码序列；(d)利用所述条形码序列和样品序列信息分析所述细胞中的样品DNA和样品RNA。在一些实施方案中，该方法还包括产生多个隔室，其中在步骤(b)之前或在步骤(b)中将细胞单独分隔在隔室中。在一些实施方案中，方法还包括在步骤(c)之前扩增所述第一和第二条码化多核苷酸以生成多个扩增的第一和第二条码化多核苷酸。在一些实施方案中，所述隔室包括以下形式：液滴、乳液液滴、脂质体、微孔、孔、微阵列、开放阵列、微量滴定板或其组合。在一些实施方案中，样品DNA是所述细胞的总DNA、DNA的部分或可及染色质DNA。在一些实施方案中，样品RNA是所述细胞的总RNA、RNA的部分或mRNA。在一些实施方案中，多个第一和第二条码化多核苷酸通过选自下组的反应产生：连接、杂交、链转移反应、转座、标签化、引物延伸、逆转录、扩增及其组合。在一些实施方案中，细胞中的样品DNA在步骤(b)之前被原位预处理以供链转移反应、转座、标签化、连接、杂交、限制性酶消化、交联、固定或其组合。在一些实施方案中，在步骤(b)之前对细胞中的样品RNA进行原位预处理以供逆转录、链转移反应、转座、标签化、连接、杂交、限制性内切酶消化、交联、固定或其组合。在一些实施方案中，来自第一条码化多核苷酸的样品序列是与所述细胞中其他样品DNA的其他样品序列可区分的序列。在一些实施方案中，来自第二条码化多核苷酸的样品序列是与所述细胞中其他样品RNA的其他样品序列可区分的序列。在一些实施方案中，具有可区分序列的样品序列是通过链转移反应、转座、标签化、随机引发、随机逆转录、随机消化或其组合产生的。在一些实施方案中，具有可区分序列的样品序列用作样品DNA或样品RNA的独特分子标识符。在一些实施方案中，具有可区分序列的所述样品序列中至少80％包含不同于所述细胞中其他样本序列的独特序列。在一些实施例中，具有可区分序列的所述样品序列中至少90％包含不同于所述细胞中其他样本序列的独特序列。在一些实施方案中，在细胞中的第一和第二条码化多核苷酸之间的条形码序列是相同的。在一些实施方案中，步骤(d)还包括使用所述条形码序列来鉴定样品DNA或样品RNA的共同细胞来源，并使用所述样品序列来表征细胞中的所述样品DNA和所述样品RNA。在一些实施方案中，细胞基本上由从细胞中分离出来的细胞核组成。

一个实施方案涉及一种通过条形码加标来跟踪靶标来源的方法，包括(a)将一种或多种独特的条形码模板与靶标隔离在隔室中；(b)扩增所述条形码模板并修饰所述靶标，其中经修饰的靶标被设为连接隔室中的条形码模板；(c)产生条形码加标的经修饰靶标，其中多个经修饰靶标共有存在于所述隔室中的相同的一种或多种条形码序列；和(d)去除隔室之间的分隔并收集条形码加标的经修饰靶标用于测序表征。在一些实施方案中，该方法还包括基于共有隔室内容识别在相同隔室中存在的不同条形码序列的隔室来源。在一些实施方案中，靶标选自下组：核酸、蛋白质、蛋白质复合物、蛋白质和核酸复合物、配体、化合物、细胞核、细胞、微生物、小分子、大分子、颗粒、微粒及其组合。在一些实施方案中，对靶标的修饰选自下组：链转移反应、转座、标签化、反转录、扩增、引物延伸、限制性酶消化、杂交、连接、片段化、交联及其组合。在一些实施方案中，在隔离前对靶标进行处理和/或修饰，其中所述处理选自下组：变性、透化、固定、标签化、抗体偶联、原位反应及其组合；其中所述修饰选自下组：链转移反应、转座、标记、逆转录、扩增、引物延伸、限制性酶消化、杂交、连接、片段化、交联及其组合。在一些实施方案中，隔离隔室选自下组：液滴、乳液液滴、脂质体、微孔、开放阵列、微量滴定板及其组合。在一些实施方案中，条形码模板包括条形码序列和被设为用作引发位点、杂交位点或结合位点的至少一种柄序列。在一些实施方案中，条形码模板是DNA、RNA或DNA/RNA杂合体，并且所述条形码序列包含约5个碱基至约100个碱基的范围。在一些实施方案中，产生条形码标记的修饰靶标的方法是通过扩增、杂交、引物延伸、连接、链转移反应、转座、标签化或其组合。在一些实施方案中，被分析的靶标选自下组：单细胞、化合物、核酸、蛋白质、微生物组及其组合。尽管本发明已经就实施方案进行了解释，但应该理解，在不背离本文所述的本发明的精神和范围的情况下，可以进行许多其他可能的修改和变形。

此外，一般来说就本文所描述的过程、***、方法等而言，应当理解，尽管此类过程等的步骤被描述为按照一定的顺序发生，但此类过程可以按照本文所描述的顺序以外的顺序来实施所述步骤。还应理解的是，某些步骤可以同时进行，可以增加其他步骤，或者可以省略此处描述的某些步骤。换言之，本文对过程的描述是为了说明某些实施方案而提供的，而不应该被解释为限制所要求保护的发明。

此外，应理解，上述描述的目的是说明性的，而不是限制性的。除所提供的实施方案外，对于本领域的技术人员来说，许多实施方案和应用在阅读上述描述后将是显而易见的。在确定本发明的范围时，不应参照上述描述，而应参照所附的权利要求，以及这些权利要求所赋予的等同物的全部范围。在本文所讨论的技术中将会出现未来的发展，预期所公开的***和方法将被纳入这种未来的实施方案中。总之，应理解，本发明是能够修改和变化的，并且仅受以下权利要求的限制。

最后，本申请中使用的所有定义的术语旨在给予其与本文提供的定义一致的最广泛的合理解释。权利要求书中使用的所有未定义的术语，除非本文中有明确的相反指示，将按照本领域技术人员理解的普通含义给予其最广泛的合理解释。具体来说，单数冠词例如“一个”、“一种”、“所述”等应被理解为叙述一个或多个所述要素，除非权利要求明确表明相反的限制。

实施例

实施例1.在液滴中条码化长片段以产生相联读数

本实施例描述了在液滴中条码化DNA片段以产生相联读数的方法。

1ng大肠杆菌DH10b基因组DNA(图10，1006)通过与野生型转座体和突变的MuA转座体孵育被链转移(1007)，同时使用来自TELL-Seq WGS文库试剂盒(通用测序技术公司(Universal Sequencing Technology)，加利福尼亚州卡尔斯巴德)的1μL的条码化酶(野生型MuA转座体)和1μL加标签酶(突变的MuA转座体)，在1x有辅因子的反应缓冲液中以20μL反应体积在37℃下进行15分钟以形成链转移复合物(STC，1002)。在0.2mL PCR管中，取1μL的STC反应混合物加入到10μL的扩增水性溶液中，其含有1x Pfu聚合酶缓冲液、dNTP、条形码模板码1.2(5’-CAAGCAGAAGACGGCATACGAGATNNNatNNNNcaNNNNcgNNNTGGTCATGTGGAGACGCTGGGACAG-3’,1001)、引物[P7(5’-CAAGCAGAAGACGGCATACGAGAT-3’,1003)、T25(5'-CTGTCCCAGCGTCTCCACATGACCA-3',1004)、tsMU(5'-GCTGGGACAGGTCACTTTTCGTGCGCCGCTTCA-3',1008)、Bio-mP5(5'-生物素-ACACTCTTTCCCTACATTAACTGCA-3',1009)]和Pfu DNA聚合酶。加入90μL的在矿物油(西格玛奥德里奇公司(Sigma-Aldrich)，密苏里州圣路易斯)中的7％Abil EM90(赢创公司(Evonik Corporation)，弗吉尼亚州里士满)。将P200移液器设置为70μL，并在30秒内通过上下吹打30次以混合溶液。将50μL混合物转移到另一个0.2mL PCR管中并加入50μL 7％Abil EM90的矿物油溶液。通过在15秒内上下吹打15次混合溶液。如下进行扩增：72℃持续2分钟，94℃持续30秒，(94℃持续20秒，55℃持续1分钟，72℃持续1分钟)21个循环，(94℃持续30秒，35℃持续1分钟，72℃持续2分钟)12个循环，72℃持续3分钟，在4℃保持。在PCR结束时，加入100μL打破缓冲液(100mM NaCl、10mM Tris-HCl、pH 7.5、0.2％SDS、15％异丙醇)并在室温下孵育10分钟。以5,000g离心管10分钟以分离油和水性溶液。从顶层除去油。在结合缓冲液中，将70μL水性溶液转移到0.5mL低结合DNA管中并加入35μL MyOne^TM链霉亲和素T1珠(生命技术公司(Life Technologies)，加利福尼亚州卡尔斯巴德)。在室温下旋转孵育15分钟。用珠洗涤缓冲液洗涤珠三次。将珠重悬于15μL 0.02％Tween-20中。使用带有P7引物的Pfu DNA聚合酶和来自TELL-Seq文库多重引物(1-8)试剂盒(通用测序技术公司(Universal Sequencing Technology)，加利福尼亚州卡尔斯巴德)的多重引物之一，在40μL总体积中使用5μL珠进行PCR扩增。如下进行PCR扩增：94℃持续30秒，(94℃持续20秒，58℃持续1分钟，72℃持续1分钟)6个循环，72℃持续3分钟，在4℃保持。PCR扩增后，用0.9X AMPure XP珠清理文库产物并定量用于测序。测试了条形码模板分子与乳液液滴的不同比率。实施例中使用了3比1的比率，以确保大约95％的液滴包含至少一个条形码模板。

该文库在MiSeq***上以2x74配对末端运行进行测序。实验中使用的条形码模板包含20个碱基的条形码序列，并作为标引1读数被测序。表1显示了测序运行的总结。读数1和读数2的映射率分别为98.6％和97.0％。共鉴定了1,392,842个条形码。

表1.来自2x74配对末端MiSeq运行的大肠杆菌文库的测序统计数据

为了检验条码化反应对于加标片段是否是克隆性的，我们生成了一个读数距离图(11A)，其为共有相同条形码序列的那些R1读数的下一个比对读数距离的读数1读数计数直方图。如果条码化反应对于加标片段确实是克隆性的，则会有许多相同的条码化读数彼此相距短距离(通常小于50Kb)，其将显示为相联的读数群；而来自不同基因组DNA片段的相同条码化读数将以远距离读数群显示出很大的距离(通常大于100Kb)。图11A显示了该大肠杆菌文库非常好的克隆性条码化反应。我们使用TuringAssembler进一步从头组装这些相联读数，TuringAssembler是一个相联读数组装器，并且我们获得了4,591,903bp的N50重叠群(contig)大小，这非常接近大肠杆菌DH10B基因组的完整大小(4,686,137bp)，具有非常好的组装精度(表2)。

表2.使用TuringAssembler从头组装的QUAST结果与大肠杆菌DH10B基因组参考物(4,686,137bp)比较

实施例2.单细胞ATAC-seq

将大约100万个PBMC细胞添加到1.5mL蛋白质低结合离心管中，并以300xg离心3分钟。去除上清液，将沉淀重新悬浮在1mL的1x PBS中。然后将细胞以300xg再次离心3分钟。细胞沉淀被重悬于150μL冰冷的裂解缓冲液(10mM NaCl、10mM Tris pH 7.4、3mM MgCl₂、0.01％洋地黄素、0.1％tween和0.1％ NP40)中。用设置为100μL的P200移液器混合细胞5次并置于冰上3分钟。孵育3分钟后，用100μL的移液器将细胞混合10次。加入850μL洗涤缓冲液(10mM NaCl、10mM Tris pH 7.4、3mM MgCl₂、0.1％吐温)并用设置为850μL的P1000移液器混合5次。将细胞核以400xg离心3分钟并重悬于1mL洗涤缓冲液中。通过0.4μM flowmi过滤器过滤核以除去任何团块，然后以400xg离心3分钟。将核沉淀重悬于20μL的洗涤缓冲液中。2μL细胞核在98μL中稀释并计数两次以获得精确的细胞计数。将最终浓度调整为25,000核/μL，并将核保持在冰上。

5M Tn5ME转座体被组装，使用EZ-Tn5^TM转座酶(Lucigen，威斯康星州米德尔顿)和预退火的Tn5MEDS-A和Tn5MEDS-B寡核苷酸(Picelli等2014)。在20μL反应缓冲液(最终10％DMF、10mM Tris pH7.5和5mM MgCl₂、0.33x PBS、0.1％tween、0.01％洋地黄素)中，通过用0.35μM Tn5ME转座体处理50,000PBMC的核，进行链转移反应。混合物在37℃下在热循环仪上孵育1个小时。反应后，在核重悬缓冲液(10mM NaCl、10mM Tris pH 7.4、3mM MgCl₂)中，核被稀释到终浓度为500细胞核/μL。

在0.2mL PCR管中，大约900个加标核被用于20μL的扩增混合物中，其包含Pfu DNA聚合酶、dNTP、引物[Tn5-BC-R(5’-TCTCCGAGCCCACGAGAC-3’)、Tn5-R2-F28(5’-TGGGCTCGGAGATGTGTATAAGAGACAG-3’)、P7(5’-CAAGCAGAAGACGGCATACGAGAT–3’)和Tn5-R1-S(5’-TCGTCGGCAGCGTCAGATGT-3’)]、条形码模板码1.3(5’-GAAGACGGCATACGAGATNNNatNNNNcaNNNNcgNNNGTCTCGTGGGCTCGGAGA-3’)。矿物油(西格玛奥德里奇公司(Sigma-Aldrich)，密苏里州圣路易斯)中的80μL的油混合物[7％Abil EM90(赢创公司(Evonik Corporation)，弗吉尼亚州里士满)被加入到20μL扩增混合物的顶部。条形码模板数量与预期液滴数量的靶向比率为3比1，以使大约95％的液滴包含至少一个条形码模板。将P200移液器设置为70μL，并通过45秒内上下吹打30次以及30秒内额外吹打15次以混合溶液。执行以下PCR程序：72℃持续5分钟，95℃持续30秒，(95℃持续15秒，58℃持续30秒，和72℃持续20秒)20个循环，(95℃持续20秒，40℃持续2分钟，和72℃持续30秒)5个循环，72℃持续2分钟，20℃持续1分钟，并在4℃保持。

液滴扩增后，较大的液滴沉降到底部，在顶部留下较小的液滴和油。顶部的50μL被除去并丢弃，而不会干扰沉降液滴的底层。向乳液中加入50μL打破溶液(100mM NaCl、10mMTris-HCl、pH 7.5、0.2％SDS、15％异丙醇)并混合10次。将乳液在10k微型离心机上离心8分钟另除去并丢弃10-15μL顶部油层，确保不要除去任何底部水性层。慢慢地，从底部取出60μL底部水性溶液并置于新试管中，同时注意不要吸出顶层的任何残余油。向水性溶液中加入72μL AMPure XP珠，进行1.2X珠净化。将混合物在室温下孵育5分钟，然后置于磁体上2-3分钟(或直到澄清)。去除澄清的上清并使用200μL新鲜制备的80％乙醇进行两次洗涤。洗过的珠子被重新悬浮在33μL的低TE缓冲液中。取出30μL并置于新的PCR管中。15μL清理后的产物被用于在40μL混合物中进行最终PCR扩增，该混合物为1x Phusion热启动II高保真PCR主混合物，其含有P7引物和来自TELL-Seq文库多重引物(1-8)试剂盒(通用测序技术公司(Universal Sequencing Technology)，加利福尼亚州卡尔斯巴德)的多重引物之一，以产生Illumina测序文库。执行以下PCR程序：95℃持续30秒，5个循环(95℃持续20秒，63℃持续30秒，72℃持续30秒)，72℃持续2分钟，保持在4℃。在PCR产物中加入48μL AMPure XP珠，进行1.2X AMPure XP珠子清理。将混合物在室温下孵育5分钟，然后置于磁体上2-3分钟(或直到澄清)。去除澄清的上清并使用200μL新鲜制备的80％乙醇进行两次洗涤。洗过的珠子被重新悬浮在25μL的低TE缓冲液中。取出23μL并转移到新的PCR管中。使用TapeStation上的高灵敏度D1000屏幕录像对最终文库进行量化(图12)。该文库在NextSeq 500上测序。在进行标准的Cell Ranger分析之前，来自同一液滴的不同条形码根据它们的共享片段概况进行合并。总计产生了31,126,742个测序读数对。99.7％的读数对包含有效的条形码(图13A)。使用Cell Ranger v1.2.0进一步分析鉴定了733个细胞(图13B)，每个细胞有9533个中位数的片段。拐点图显示了清晰的单细胞特性(图13C)。文库***片段大小概况显示清晰的核小体条带模式(图13D)，测序读数显示转录起始位点周围的强富集(图13E)。

参考文献

Adey A.等人，2010年，《基因组生物学》(Genome Biol.)，11，R119。

Amini S.等人，2014，《自然遗传学》(Nature Genetics)，46(12)：1343-1349。

Au，T.等人，2004，欧洲分子生物学学会会刊(EMBO J.)，23:3408-3420.。

Buenrostro J.D.等人，2013，《自然方法》(Nature Methods)，10(12)：1213–1218。

Buenrostro J.D.等人，2015，《自然》(Nature)，523:486–490。

Burton B.M.和Baker T.A.，2003年，化学与生物学(Chemistry&Biology)10:463-472。

Caruccio N.2011.《分子生物学方法》(Methods Mol.Biol.)，733:241–255。

Kavanagh I、Kiiskinen L.L.和Haakana H，2013，美国专利申请公开文本US2013/0023423。

Kurihara K.等人，2011年，《自然化学》(Nat.Chem.)，3:775–781。

Laouini A.等人，2012年，《胶体科学》(Colloid Sci).生物技术(Biotechnol).1:147-168。

Mizuuchi M.、Baker T.A.和Mizuughi K.1992.细胞(Cell)，70，303–311。

Savilahti H.、P.A.Rice和K.MiZuuchi.1995年，欧洲分子生物学学会会刊(EMBOJ.)，14:4893-4903。

Stoeckius M.等人，2017，《自然方法》(Nature Methods)14:865–868。

Surette M.、Buch S.J.和Chaconas G.1987，细胞(Cell)，70:303-311。

Reznikoff W.S.2008.遗传学年度回顾(Annual Review of Genetics)42(1)：269-286。

Claims

1.一种分析和/或计数来自单细胞的核酸的方法，其包括：

a)提供包含多个细胞中的细胞的样品，其中该细胞包含多个样品核酸；

b)从所述细胞的多个样品核酸生成多个条码化多核苷酸，其中条码化多核苷酸包含：

i.条形码序列，其用于区分所述样品核酸和其他细胞中的其他样品核酸；

ii.来自细胞中样品核酸的样品序列，其中所述样品序列包括与所述细胞中其他样品核酸的其他样品序列可区分的序列；

c)对所述条码化多核苷酸进行测序以确定样品序列和条形码序列；

d)用所述条形码序列和样品序列信息分析和/或计数所述细胞中的样品核酸。

2.根据权利要求1所述的方法，其还包括产生多个隔室，其中在步骤(b)之前或在步骤(b)中，所述细胞被单独隔离在隔室中。

3.根据权利要求1所述的方法，其进一步包括在步骤(c)之前扩增所述条码化多核苷酸，以产生多个扩增的条码化多核苷酸。

4.根据权利要求2的方法，其中所述隔室包括以下形式：液滴、乳液液滴、脂质体、微孔、孔、微阵列、开放阵列、微量滴定板或其组合。

5.根据权利要求1所述的方法，其中所述样品核酸选自下组：所述细胞中的总DNA、DNA的部分、总RNA、RNA的部分及其组合。

6.根据权利要求1所述的方法，其中所述多个条码化多核苷酸通过选自下组的反应产生：连接、杂交、链转移反应、转座、标签化、引物延伸、逆转录、扩增及其组合。

7.根据权利要求1所述的方法，其中所述细胞中的样品核酸在步骤(b)前进行原位预处理，以供逆转录、转座、标签化、链转移反应、连接、杂交、限制性内切酶消化、交联、固定或其组合。

8.根据权利要求1的方法，其中具有可区分序列的所述样品序列通过链转移、转座、标签化、随机引物、随机反转录、随机消化或其组合产生。

9.根据权利要求1所述的方法，其中具有可区分序列的所述样品序列被用作样品核酸的独特分子标识符。

10.根据权利要求1所述的方法，其中具有可区分序列的所述样品序列中至少80％包含不同于所述细胞中其他样品序列的独特序列。

11.根据权利要求1所述的方法，其中具有可区分序列的所述样品序列中至少90％包含不同于所述细胞中其他样品序列的独特序列。

12.根据权利要求1所述的方法，其中步骤(d)还包括使用所述条形码序列来识别所述样品核酸的细胞来源，和使用所述样品序列来确定所述样品核酸相对于所述细胞中的其他样品核酸的独特性。

13.根据权利要求1所述的方法，其中所述细胞基本上由从细胞分离的细胞核组成。

14.一种基于细胞的DNA或RNA生成条码化多核苷酸的方法，其包括：

a)提供包含多个细胞的样品，其中该细胞包含多个样品DNA或样品RNA；

b)从所述细胞的多个样品DNA产生多个第一条码化多核苷酸，和从所述细胞的多个样品RNA产生多个第二条码化多核苷酸，其中来自样品DNA的第一条码化多核苷酸包含：

i.来自细胞中样品DNA的样品序列；

ii.条形码序列，其用于区分所述样品DNA和不同细胞中的其他样品DNA

iii.样品DNA特异性衔接子序列，其中所述衔接子序列包含来自所述样品DNA的相同的第一条码化多核苷酸；

其中来自样品RNA的第二条码化多核苷酸包含：

i.来自细胞中样品RNA的样品序列

ii.条形码序列，其用于区分所述样品RNA和不同细胞中的其他样品RNA；

iii.样品RNA特异性衔接子序列，其中所述衔接子序列包含来自所述样品RNA的相同的第二条码化多核苷酸序列；

c)对所述第一和第二条码化多核苷酸进行测序以确定样品序列和条形码序列；

d)用所述条形码序列和样品序列信息分析所述细胞中的样品DNA和样品RNA。

15.根据权利要求14所述的方法，其还包括产生多个隔室，其中在步骤(b)之前或在步骤(b)中，所述细胞被单独隔离在隔室中。

16.根据权利要求14所述的方法，其进一步包括在步骤(c)之前扩增所述第一和第二条码化多核苷酸以产生多个扩增的第一和第二条码化多核苷酸。

17.根据权利要求15所述的方法，其中所述隔室包括以下形式：液滴、乳液液滴、脂质体、微孔、孔、微阵列、开放阵列、微量滴定板或其组合。

18.根据权利要求14所述的方法，其中所述样品DNA是所述细胞的总DNA、DNA的部分或可及染色质DNA。

19.根据权利要求14所述的方法，其中，所述样品RNA是所述细胞的总RNA、RNA的部分或mRNA。

20.根据权利要求14所述的方法，其中所述多个第一和第二条码化多核苷酸通过选自下组的反应产生：连接、杂交、链转移反应、转座、标签化、引物延伸、逆转录、扩增及其组合。

21.根据权利要求14所述的方法，其中在步骤(b)之前对细胞中的所述样品DNA进行原位预处理，以供链转移反应、转座、标签化、连接、杂交、限制性酶消化、交联、固定或其组合。

22.根据权利要求14所述的方法，其中，在步骤(b)之前，对细胞中的所述样品RNA进行原位预处理，以供反转录、链转移反应、转座、标签化、连接、杂交、限制性酶消化、交联、固定或其组合。

23.根据权利要求14所述的方法，其中来自第一条码化多核苷酸的所述样品序列是与所述细胞中其他样品DNA的其他样品序列可区分的序列。

24.根据权利要求14所述的方法，其中来自第二条码化多核苷酸的所述样品序列是与所述细胞中其他样品RNA的其他样品序列可区分的序列。

25.根据权利要求23或24所述的方法，其中具有可区分序列的所述样品序列通过链转移反应、转座、标签化、随机引物、随机逆转录、随机消化或其组合产生。

26.根据权利要求23或24所述的方法，其中具有可区分序列的所述样品序列用作样品DNA或样品RNA的独特分子标识符。

27.根据权利要求23或24所述的方法，其中具有可区分序列的所述样品序列中至少80％包含不同于所述细胞中其他样品序列的独特序列。

28.根据权利要求23或24所述的方法，其中具有可区分序列的所述样品序列中至少90％包含不同于所述细胞中其他样品序列的独特序列。

29.根据权利要求14所述的方法，其中所述条形码序列在所述细胞中的第一和第二条码化多核苷酸之间是相同的。

30.根据权利要求14所述的方法，其中步骤(d)还包括使用所述条形码序列来识别样品DNA或样品RNA的共同细胞来源，以及使用所述样品序列来表征细胞中的所述样品DNA和所述样品RNA。

31.根据权利要求14所述的方法，其中所述细胞基本上由从细胞分离的细胞核组成。

32.一种通过条形码加标来追踪靶标来源的方法，其包括：

a)将带有靶标的一个或多个独特条形码模板隔离在隔室中；

b)扩增所述条形码模板并修饰所述靶标，其中经修饰的靶标被设为连接隔室中的条形码模板；

c)产生条形码加标的经修饰靶标，其中多个经修饰靶标共有所述隔室中存在的相同的一个或多个条形码序列；

d)去除隔室之间的分隔并收集条形码加标的经修饰靶标以供测序表征。

33.根据权利要求32所述的方法，其还包括基于共有的隔室内容，识别相同隔室中存在的不同条形码序列的隔室来源。

34.根据权利要求32所述的方法，其中所述靶标选自下组：核酸、蛋白质、蛋白质复合物、蛋白质和核酸复合物、配体、化学化合物、细胞核、细胞、微生物、小分子、大分子、颗粒、微粒及其组合。

35.根据权利要求32所述的方法，其中对靶标的修饰选自下组：链转移反应、转座、标签化、逆转录、扩增、引物延伸、限制性酶消化、杂交、连接、片段化、交联及其组合。

36.根据权利要求32所述的方法，其中所述靶标在隔离前接受处理和/或修饰，其中所述处理选自下组：变性、透化、固定、标记、抗体偶联、原位反应及其组合；并且其中所述修饰选自下组：链转移反应、转座、标签化、逆转录、扩增、引物延伸、限制性酶消化、杂交、连接、片段化、交联及其组合。

37.根据权利要求32的方法，其中所述隔离隔室选自下组：液滴、乳液液滴、脂质体、微孔、开放阵列、微量滴定板及其组合。

38.根据权利要求32所述的方法，其中所述条形码模板包含条形码序列和被设为用作引发位点、杂交位点或结合位点的至少一个柄序列。

39.根据权利要求32所述的方法，其中所述条形码模板是DNA、RNA或DNA/RNA杂合体，并且所述条形码序列包含约5个碱基至约100个碱基的范围。

40.根据权利要求32所述的方法，其中产生所述条形码加标的经修饰靶标的方法通过扩增、杂交、引物延伸、连接、链转移反应、转座、标签化或其组合进行。

41.根据权利要求32所述的方法，其中被分析的靶标选自下组：单细胞、化合物、核酸、蛋白质、微生物组及其组合。