CN115768884A

CN115768884A - 用于全基因组扩增的单细胞工作流程

Info

Publication number: CN115768884A
Application number: CN202180036475.4A
Authority: CN
Inventors: D·丁格拉; D·拉夫
Original assignee: Mission Biology
Current assignee: Mission Biology
Priority date: 2020-03-20
Filing date: 2021-03-19
Publication date: 2023-03-07
Also published as: WO2021188889A1; JP2023518250A; EP4121523A4; EP4121523A1; AU2021240092A1; US20230265497A1; CA3172238A1

Abstract

本文公开了用于开发单细胞全基因组DNA文库的涉及全基因组扩增的单细胞分析工作流程。所述单细胞分析工作流程涉及将细胞包封在单独的液滴中并使其在单独的液滴中裂解，然后在液滴内从染色质释放基因组DNA。转座酶接近释放的基因组DNA并将衔接子序列***经切割的核酸片段中，从而生成跨全基因组的经标签片段化的基因组DNA片段。所述经标签片段化的DNA经历核酸扩增和测序，以生成单细胞全基因组DNA文库。

Description

用于全基因组扩增的单细胞工作流程

交叉引用

本申请要求2020年3月20日提交的美国临时专利申请第62/992,772号的权益和优先权，该美国临时专利申请的全部公开内容据此全文以引用方式并入本文用于所有目的。

政府权利

本发明是在美国情报高级研究项目署(IARPA)授予的基金号：IAPRA-BAA-17-07(FELIX)的政府资助下完成的。美国政府对本发明拥有特定权利。

背景技术

单细胞的全基因组分析仍然难以实现，因为常规方法时常导致次佳的测序覆盖度和/或低文库复杂度。例如，常规方法导致重复读段数高，并且映射读段的百分比低。这妨碍了对该全基因组的多个部分的有效分析。次佳的测序覆盖度可能遗漏检测整个全基因组中存在的一个或多个突变。此外，许多常规方法是涉及对板中的细胞执行全基因组扩增的低通量方法。因此，需要对各个细胞进行高通量的全基因组分析，这种分析不但实现测序覆盖度提高，还实现适当的文库复杂度。

发明内容

本公开整体涉及用于在单细胞工作流程分析中执行全基因组扩增的方法和设备。所公开的单细胞工作流程分析实现了对全基因组(例如，包括22对常染色体和1对性染色体的人类全基因组)的测序覆盖。一般来讲，单细胞工作流程涉及将各个细胞包封在液滴内并使其在液滴内裂解。使用蛋白酶从染色质释放基因组DNA(gDNA)。释放的基因组DNA经历标签片段化，其涉及切割衔接子序列并将其***基因组DNA中。在各种实施方案中，标签片段化与基因组DNA释放同时发生。在各种实施方案中，标签片段化在基因组DNA释放之前发生。经标签片段化的DNA延伸，以填充由***衔接子序列所产生的任何缺口。在各种实施方案中，基因组DNA的标签片段化发生于该基因组DNA在其中从染色质释放的同一液滴中。在各种实施方案中，标签片段化发生在第二液滴中。经标签片段化的DNA进一步经历核酸扩增。对所得的扩增子测序，以生成全基因组测序文库。

本文公开了一种用于执行全基因组测序的方法，该方法包括：在第一液滴内提供细胞和试剂，这些试剂包括裂解试剂和蛋白酶；在第一液滴内使用裂解试剂来裂解细胞；通过将第一液滴暴露于介于30℃与60℃之间的温度，在第一液滴内使用蛋白酶释放基因组DNA；通过以下方式在第一液滴或第二液滴中对释放的基因组DNA进行标签片段化：在介于35℃与55℃之间的温度下使用转座酶，切割释放的基因组DNA并将衔接子序列结合到该释放的基因组DNA中，然后在介于40℃与100℃之间的温度下填充该释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口；以及在第二液滴中扩增经标签片段化的基因组DNA，以生成全基因组扩增子。

本文另外公开了一种用于执行全基因组测序的方法，该方法包括：将细胞和试剂包封在第一液滴内，这些试剂包括裂解试剂和蛋白酶；在第一液滴内使用裂解试剂来裂解细胞；在第一液滴内使用蛋白酶释放基因组DNA；将释放的基因组DNA和反应混合物包封在第二液滴中，该反应混合物包含转座酶和DNA聚合酶；通过以下方式在第二液滴中对释放的基因组DNA进行标签片段化：使用转座酶，切割释放的基因组DNA并将衔接子序列结合到该释放的基因组DNA中，使用DNA聚合酶，填充该释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口；以及在第二液滴中扩增经标签片段化的基因组DNA，以生成全基因组扩增子。

本文另外公开了一种用于执行全基因组测序的方法，该方法包括：将细胞和试剂包封在第一液滴内，这些试剂包括裂解试剂、蛋白酶，以及逆转录酶或DNA聚合酶两者中的任一者；在第一液滴内使用裂解试剂来裂解细胞；在第一液滴内使用蛋白酶释放基因组DNA；通过以下方式在第一液滴中对释放的基因组DNA进行标签片段化：使用转座酶，切割释放的基因组DNA并将衔接子序列结合到该释放的基因组DNA中；使用逆转录酶或DNA聚合酶中的任一者，填充该释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口；将经标签片段化的基因组DNA和反应混合物包封在第二液滴中；以及在第二液滴中，使用反应混合物扩增该经标签片段化的基因组DNA，以生成全基因组扩增子。

在各种实施方案中，对释放的基因组DNA进行标签片段化发生在第一液滴内。在各种实施方案中，对释放的基因组DNA进行标签片段化发生在第二液滴内。在各种实施方案中，转座酶是MuA转座酶或Tn5转座酶。在各种实施方案中，转座酶是pA-Tn5融合转座酶。在各种实施方案中，转座酶附接至衔接子序列。

在各种实施方案中，填充释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口包括使用逆转录酶或DNA聚合酶中的任一者来填充所述一个或多个缺口。在各种实施方案中，DNA聚合酶是热启动DNA聚合酶。在各种实施方案中，DNA聚合酶是嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)(Bst)DNA聚合酶。在各种实施方案中，填充释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口包括将释放的基因组DNA暴露于升高的温度。

在各种实施方案中，升高的温度为至少40℃。在各种实施方案中，升高的温度为至少50℃。在各种实施方案中，升高的温度为至少60℃。在各种实施方案中，使用逆转录酶填充一个或多个缺口，并且其中升高的温度介于40℃与50℃之间。在各种实施方案中，使用DNA聚合酶填充一个或多个缺口，并且其中升高的温度介于50℃与70℃之间。在各种实施方案中，将释放的基因组DNA暴露于升高的温度并持续介于3分钟与8分钟之间的时间。

在各种实施方案中，本文所公开的方法还包括将释放的基因组DNA暴露于进一步升高的温度。在各种实施方案中，进一步升高的温度为至少70℃。在各种实施方案中，进一步升高的温度介于70℃与80℃之间。在各种实施方案中，进一步升高的温度为约72℃。在各种实施方案中，进一步升高的温度为至少75℃。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续介于1分钟与20分钟之间的时间。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续约10分钟。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续介于40分钟与80分钟之间的时间。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续约60分钟。

在各种实施方案中，本文所公开的方法还包括将释放的基因组DNA暴露于更进一步升高的温度。在各种实施方案中，更进一步升高的温度介于90℃与100℃之间。在各种实施方案中，更进一步升高的温度为约95℃。在各种实施方案中，将释放的基因组DNA暴露于更进一步升高的温度并持续介于1分钟与40分钟之间的时间。在各种实施方案中，将释放的基因组DNA暴露于更进一步升高的温度并持续约20分钟。在各种实施方案中，在第一液滴内使用蛋白酶释放基因组DNA包括将第一液滴暴露于介于35℃与55℃之间的温度。在各种实施方案中，在第一液滴内使用蛋白酶释放基因组DNA包括将第一液滴暴露于约50℃的温度。

在各种实施方案中，释放基因组DNA与切割释放的基因组DNA并结合衔接子序列并行发生。在各种实施方案中，释放基因组DNA与切割释放的基因组DNA并结合衔接子序列包括：将第一液滴暴露于介于35℃与55℃之间的第一温度并持续介于20分钟与80分钟之间的时间；以及将第一液滴暴露于介于45℃与70℃之间的第二温度并持续介于1分钟与10分钟之间的时间。

在各种实施方案中，释放基因组DNA与切割释放的基因组DNA并结合衔接子序列包括：将第一液滴暴露于约37℃的第一温度并持续约30分钟；以及将第一液滴暴露于约65℃的第二温度并持续约5分钟。在各种实施方案中，扩增经标签片段化的基因组DNA发生在对释放的基因组DNA进行标签片段化之后。在各种实施方案中，扩增经标签片段化的基因组DNA包括执行变性、退火和核酸延伸的一个或多个循环。在各种实施方案中，扩增经标签片段化的基因组DNA包括执行等温核酸扩增反应。

在各种实施方案中，裂解试剂是NP40。在各种实施方案中，裂解试剂是10％NP40。在各种实施方案中，蛋白酶是蛋白酶K。在各种实施方案中，使用反应混合物扩增经标签片段化的基因组DNA以生成全基因组扩增子包括将细胞条形码结合到全基因组扩增子中。在各种实施方案中，本文所公开的方法还包括对全基因组扩增子进行测序。在各种实施方案中，本文所公开的方法还包括使用经测序的全基因组扩增子生成全基因组测序文库。

在各种实施方案中，映射该全基因组测序文库的至少20％的序列读段。在各种实施方案中，映射该全基因组测序文库的至少50％的序列读段。在各种实施方案中，映射该全基因组测序文库的至少80％的序列读段。在各种实施方案中，该全基因组测序文库的至少10％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少50％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少80％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库中少于40％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于10％的序列读段是重复的。

本文另外公开了一种用于执行全基因组测序的***，该***包括：被配置为执行多个步骤的装置，这些步骤包括：在第一液滴内提供细胞和试剂，这些试剂包括裂解试剂和蛋白酶；在第一液滴内使用裂解试剂来裂解细胞；通过将第一液滴暴露于介于30℃与60℃之间的温度，在第一液滴内使用蛋白酶释放基因组DNA；通过以下方式在第一液滴或第二液滴中对释放的基因组DNA进行标签片段化：在介于35℃与55℃之间的温度下使用转座酶，切割释放的基因组DNA并将衔接子序列结合到释放的基因组DNA中；以及在介于40℃与100℃之间的温度下填充释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口；以及在第二液滴中扩增经标签片段化的基因组DNA，以生成全基因组扩增子。

本文另外公开了一种用于执行全基因组测序的***，该***包括：被配置为执行多个步骤的装置，这些步骤包括：将细胞和试剂包封在第一液滴内，这些试剂包括裂解试剂和蛋白酶；在第一液滴内使用裂解试剂来裂解细胞；在第一液滴内使用蛋白酶释放基因组DNA；将释放的基因组DNA和反应混合物包封在第二液滴中，该反应混合物包含转座酶和DNA聚合酶；通过以下方式在第二液滴中对释放的基因组DNA进行标签片段化：使用转座酶，切割释放的基因组DNA并将衔接子序列结合到该释放的基因组DNA中；使用DNA聚合酶，填充释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口；在第二液滴中扩增经标签片段化的基因组DNA，以生成全基因组扩增子。

本文另外公开了一种用于执行全基因组测序的***，该***包括：被配置为执行多个步骤的装置，这些步骤包括：将细胞和试剂包封在第一液滴内，这些试剂包括裂解试剂、蛋白酶，以及逆转录酶或DNA聚合酶两者中的任一者；在第一液滴内使用裂解试剂来裂解细胞；在第一液滴内使用蛋白酶释放基因组DNA；通过以下方式在第一液滴中对释放的基因组DNA进行标签片段化：使用转座酶，切割释放的基因组DNA并将衔接子序列结合到该释放的基因组DNA中；使用逆转录酶或DNA聚合酶中的任一者，填充该释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口；将经标签片段化的基因组DNA和反应混合物包封在第二液滴中；以及在第二液滴中，使用反应混合物扩增该经标签片段化的基因组DNA，以生成全基因组扩增子。

在各种实施方案中，填充释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口包括使用逆转录酶或DNA聚合酶中的任一者来填充所述一个或多个缺口。在各种实施方案中，DNA聚合酶是热启动DNA聚合酶。在各种实施方案中，DNA聚合酶是嗜热脂肪芽孢杆菌(Bst)DNA聚合酶。在各种实施方案中，填充释放的基因组DNA中由于结合衔接子序列而产生的一个或多个缺口包括将释放的基因组DNA暴露于升高的温度。在各种实施方案中，升高的温度为至少40℃。在各种实施方案中，升高的温度为至少50℃。在各种实施方案中，升高的温度为至少60℃。在各种实施方案中，使用逆转录酶填充一个或多个缺口，并且其中升高的温度介于40℃与50℃之间。在各种实施方案中，使用DNA聚合酶填充一个或多个缺口，并且其中升高的温度介于50℃与70℃之间。在各种实施方案中，将释放的基因组DNA暴露于升高的温度并持续介于3分钟与8分钟之间的时间。在各种实施方案中，该装置被配置为执行还包括将释放的基因组DNA暴露于进一步升高的温度的多个步骤。在各种实施方案中，进一步升高的温度为至少70℃。在各种实施方案中，进一步升高的温度介于70℃与80℃之间。在各种实施方案中，进一步升高的温度为约72℃。在各种实施方案中，进一步升高的温度为至少75℃。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续介于1分钟与20分钟之间的时间。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续约10分钟。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续介于40分钟与80分钟之间的时间。在各种实施方案中，将释放的基因组DNA暴露于进一步升高的温度并持续约60分钟。

在各种实施方案中，该装置被配置为执行还包括将释放的基因组DNA暴露于更进一步升高的温度的多个步骤。在各种实施方案中，更进一步升高的温度介于90℃与100℃之间。在各种实施方案中，更进一步升高的温度为约95℃。在各种实施方案中，将释放的基因组DNA暴露于更进一步升高的温度并持续介于1分钟与40分钟之间的时间。在各种实施方案中，将释放的基因组DNA暴露于更进一步升高的温度并持续约20分钟。在各种实施方案中，在第一液滴内使用蛋白酶释放基因组DNA包括将第一液滴暴露于介于35℃与55℃之间的温度。在各种实施方案中，在第一液滴内使用蛋白酶释放基因组DNA包括将第一液滴暴露于约50℃的温度。在各种实施方案中，释放基因组DNA与切割释放的基因组DNA并结合衔接子序列并行发生。在各种实施方案中，释放基因组DNA与切割释放的基因组DNA并结合衔接子序列包括：将第一液滴暴露于介于35℃与55℃之间的第一温度并持续介于20分钟与80分钟之间的时间；以及将第一液滴暴露于介于45℃与70℃之间的第二温度并持续介于1分钟与10分钟之间的时间。

在各种实施方案中，释放基因组DNA与切割释放的基因组DNA并结合衔接子序列包括：将第一液滴暴露于约37℃的第一温度并持续约30分钟；以及将第一液滴暴露于约65℃的第二温度并持续约5分钟。在各种实施方案中，扩增经标签片段化的基因组DNA发生在对释放的基因组DNA进行标签片段化之后。在各种实施方案中，扩增经标签片段化的基因组DNA包括执行变性、退火和核酸延伸的一个或多个循环。在各种实施方案中，扩增经标签片段化的基因组DNA包括执行等温核酸扩增反应。在各种实施方案中，裂解试剂是NP40。在各种实施方案中，裂解试剂是10％NP40。在各种实施方案中，蛋白酶是蛋白酶K。在各种实施方案中，使用反应混合物扩增经标签片段化的基因组DNA以生成全基因组扩增子包括将细胞条形码结合到全基因组扩增子中。在各种实施方案中，该装置进一步被配置为执行还包括对全基因组扩增子进行测序的多个步骤。在各种实施方案中，该装置进一步被配置为执行还包括使用经测序的全基因组扩增子生成全基因组测序文库的多个步骤。

本文另外公开了一种全基因组测序文库，其包含来源于单个人类细胞的每个染色体上的基因组DNA的多个序列读段，其中映射该全基因组测序文库的多个序列读段中的至少20％。在各种实施方案中，映射该全基因组测序文库的多个序列读段中的至少50％。在各种实施方案中，映射该全基因组测序文库的多个序列读段中的至少80％。

本文另外公开了一种全基因组测序文库，其包含来源于单个人类细胞的每个染色体上的基因组DNA的多个序列读段，其中该全基因组测序文库的至少10％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少50％具有正确的结构。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少80％具有正确的结构。

本文另外公开了一种全基因组测序文库，其包含来源于单个人类细胞的每个染色体上的基因组DNA的多个序列读段，其中多个序列读段的少于40％是重复的。在各种实施方案中，多个序列读段的少于10％是重复的。

附图说明

参照以下具体实施方式和附图，将更好地理解本发明的这些和其他特征、方面和优点。应当注意，只要可行，在附图中可以使用类似或相同的附图标记，这些类似或相同的附图标记可以指示类似或相同的功能。例如，附图标记之后带字母(诸如“衔接子序列420A”)指示，正文具体指代具有该特定附图标记的要素。正文中后面不带字母的附图标记(诸如“衔接子序列420”)是指附图中带有该附图标记的任何或所有要素(例如，正文中的“衔接子序列420”是指附图中的附图标记“衔接子序列420A”、“衔接子序列420B”、“衔接子序列420C”和/或“衔接子序列420D”)。

图1A示出了根据一个实施方案的用于通过单细胞工作流程分析来对细胞进行分析的总体***环境。

图1B描绘了根据一个实施方案的生成用于测序的经扩增核酸分子的单细胞工作流程分析。

图2是根据一个实施方案的用于分析来源于单细胞分析物的核酸序列的流程图。

图3A至图3C描绘了根据在第二液滴中执行标签片段化的一个实施方案，在液滴中处理和释放单细胞分析物的过程。

图3D至图3G描绘了根据在第一液滴中执行标签片段化的一个实施方案，在液滴中处理和释放单细胞分析物的过程。

图4A描绘了根据一个实施方案的对基因组DNA进行标签片段化的过程。

图4B描绘了根据图4A所示的实施方案，对经标签片段化的基因组DNA进行扩增和加条形码的过程。

图5描绘了用于实现参照图1至图4B所述的***和方法的示例计算装置。

图6A描绘了根据第一轮实验(其中在第二液滴中执行标签片段化)，在标签片段化和扩增后的液滴的10x显微图像。

图6B描绘了根据第一轮实验(其中在第二液滴中执行标签片段化)，在整个全基因组上的归一化覆盖度。

图7A描绘了根据第二轮实验(其中在第二液滴中执行标签片段化)，在标签片段化和扩增后的液滴的10x显微图像。

图7B描绘了根据第二轮实验(其中在第二液滴中执行标签片段化)，在整个全基因组上的归一化覆盖度。

图8A描绘了根据第三轮实验(其中在第二液滴中执行标签片段化)，在标签片段化和扩增后的液滴的10x显微图像。

图8B描绘了根据第三轮实验(其中在第二液滴中执行标签片段化)，在整个全基因组上的归一化覆盖度。

图9描绘了在第一轮、第二轮和第三轮实验(其中在第二液滴中执行标签片段化)中生成的全基因组文库产物。

图10A和图10B描绘了根据第四轮实验(其中在第二液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。

图11A和图11B描绘了根据第五轮实验(其中在第二液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。

图12A和图12B描绘了根据第六轮实验(其中在第一液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。

图13A和图13B描绘了根据第七轮实验(其中在第一液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。

图14A和图14B描绘了根据第八轮实验(其中在第一液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。

图15A和图15B描绘了在第六轮、第七轮和第八轮实验(其中在第一液滴中执行标签片段化)中的文库指标。

具体实施方式

定义

除非另有规定，否则如下文所阐述的对权利要求书和说明书中使用的术语进行定义。

如本文所用，术语“约”是指高于或低于所描述的值不超过10％的值。例如，术语“约5℃”表示从4.5℃至5.5℃的范围。

术语“受试者”或“患者”可互换使用，并且涵盖有机体、人或非人哺乳动物或非哺乳动物雄性或雌性。

术语“样品”或“测试样品”可以包括通过包括静脉穿刺、***、***、按摩、活检、针吸、灌洗样品、刮片、外科切口、或介入或本领域已知的其他手段等方式从受试者获取的单个细胞或多个细胞或细胞碎片或体液等分试样诸如血液样品。

术语“分析物”是指细胞的组分。细胞分析物可以提供表征细胞的信息。因此，使用本文所述的***和方法执行对细胞的一种或多种分析物的单细胞分析为确定细胞的状态或行为提供信息。分析物的实例包括核酸(例如，RNA、DNA、cDNA)、蛋白质、肽、抗体、抗体片段、多糖、糖、脂质、小分子或其组合。在特定的实施方案中，单细胞分析涉及分析两种不同的分析物，诸如RNA和DNA。在此类实施方案中，单细胞分析可用于全基因组和转录组分析。在特定的实施方案中，单细胞分析涉及分析细胞的三种或更多种不同的分析物，诸如RNA、DNA和蛋白质。

在一些实施方案中，如本文所述的离散实体是液滴。术语“乳液”、“滴”、“液滴”和“微液滴”在本文中可互换使用，是指包含由与第一流体相不可混溶的第二流体相(例如油)所界定的至少第一流体相(例如，水相(例如水))的小的通常球状的结构。在一些实施方案中，根据本公开的液滴可以包含由第二不可混溶的流体相(例如，水相流体(例如水))所界定的第一流体相(例如油)。在一些实施方案中，第二流体相将是不可混溶相载体流体。因此，根据本公开的液滴可以作为油包水乳液或水包油乳液提供。对于离散实体，液滴的尺寸和/或形状可以如本文所述。例如，根据本公开的液滴的直径通常在1μm至1000μm的范围内(包含端值)。根据本公开的液滴可以用于包封细胞、核酸(例如，DNA)、酶、试剂、反应混合物和各种其他组分。术语乳液可以用于指在微流体装置中产生、在微流体装置上产生或由微流体装置产生和/或从微流体装置流出或由微流体装置施加的乳液。

“互补性”或“互补”是指核酸形成氢键或者通过传统的沃森-克里克(Watson-Crick)方式或其他非传统类型的方式与另一核酸序列杂交的能力。如本文所用，“杂交”是指分子在低、中或高度严格条件下仅与特定核苷酸序列结合、双重化或杂交，包括当所述序列存在于复杂混合物(例如，总细胞)DNA或RNA中时。参见例如Ausubel等人,CurrentProtocols In Molecular Biology,John Wiley&Sons,New York,N.Y.,1993。如果多核苷酸的特定位置处的核苷酸能够与反平行DNA或RNA链中相同位置处的核苷酸形成沃森-克里克配对，则所述多核苷酸和DNA或RNA分子在所述位置处彼此互补。当每个分子中足够数量的相应位置被可以彼此杂交或退火以影响所需过程的核苷酸占据时，多核苷酸和DNA或RNA分子彼此“基本互补”。互补序列是能够在严格条件下退火以提供用作互补链的合成起点的3'-末端的序列。

术语“扩增”、“扩增反应”及其变型通常是指核酸分子(称为模板核酸分子)的至少一部分凭借其被复制或拷贝到至少一个另外的核酸分子中的任何动作或过程。额外的核酸分子任选地包括与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可以是单链或双链的，并且另外的核酸分子可以独立地是单链或双链的。在一些实施方案中，扩增包括用于产生核酸分子的至少一些部分的至少一个拷贝或产生与核酸分子的至少一些部分互补的核酸序列的至少一个拷贝的模板依赖性体外酶催化反应。扩增任选地包括核酸分子的线性或指数复制。在一些实施方案中，使用等温条件执行这种扩增；在其他实施方案中，这种扩增可包括热循环。在一些实施方案中，扩增是包括在单个扩增反应中同时扩增多个靶序列的多重扩增。至少一些靶序列可以位于包括在单个扩增反应中的相同核酸分子或不同靶核酸分子上。在一些实施方案中，“扩增”包括单独或组合扩增基于DNA和RNA的核酸的至少一些部分。扩增反应可以包括单链或双链核酸底物，并且可以进一步包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链反应(PCR)。在一些实施方案中，扩增反应包括等温扩增反应，诸如LAMP。在本发明中，使用术语核酸的“合成”和“扩增”。本发明中的核酸合成是指核酸从用作合成起点的寡核苷酸伸长或延伸。如果不仅这种合成而且其他核酸的形成以及这种形成的核酸的伸长或延伸反应连续发生，则这一系列反应统称为扩增。通过所采用的扩增技术产生的多核酸通常称为“扩增子”或“扩增产物”。

可以利用任何核酸扩增方法，诸如基于PCR的测定，例如定量PCR(qPCR)，或者可以使用恒温扩增来检测存在于离散实体或者其一种或多种组分(例如包封在其中的细胞)中的某些感兴趣的核酸(例如基因)的存在。此类测定可应用于微流体装置或其一部分或任何其他合适位置内的离散实体。此类扩增或基于PCR的测定的条件可以包括随时间推移检测核酸扩增，并且可以以一种或多种方式变化。

多种核酸聚合酶可用于本文提供的某些实施方案中使用的扩增反应中，包括可催化核苷酸(包括其类似物)聚合成核酸链的任何酶。这种核苷酸聚合可以模板依赖性方式发生。这些聚合酶可包括但不限于天然存在的聚合酶及其任何亚基和截短物、突变体聚合酶、变体聚合酶、重组、融合或以其他方式工程化的聚合酶、化学修饰的聚合酶、合成分子或组装体，以及其保留催化这种聚合的能力的任何类似物、衍生物或片段。任选地，聚合酶可以是包含一个或多个突变的突变体聚合酶，所述突变涉及用其他氨基酸替换一个或多个氨基酸、从聚合酶中***或删除一个或多个氨基酸、或连接两个或更多个聚合酶的部分。通常，聚合酶包含一个或多个活性位点，在所述位点处可以发生核苷酸结合和/或对核苷酸聚合的催化。一些示例性的聚合酶包括但不限于DNA聚合酶和RNA聚合酶。如本文所用，术语“聚合酶”及其变体还包括融合蛋白，所述融合蛋白包含至少两个相互连接的部分，其中第一部分包含可催化核苷酸聚合成核酸链的肽并连接至包含第二多肽的第二部分。在一些实施方案中，第二多肽可包括报告酶或加工性增强结构域。任选地，聚合酶可以具有5'核酸外切酶活性或末端转移酶活性。在一些实施方案中，聚合酶可以任选地被重新激活，例如通过使用热量、化学物质或将新的量的聚合酶重新添加至反应混合物中。在一些实施方案中，聚合酶可以包括热启动聚合酶或基于适体的聚合酶，其任选地可以被重新激活。

“正向引物结合位点”和“反向引物结合位点”是指模板核酸和/或扩增子上正向引物和反向引物与之结合的区域。引物用于界定在扩增期间呈指数扩增的原始模板多核苷酸的区域。在一些实施方案中，额外引物可以与正向引物和/或反向引物的5'的区域结合。在使用此类额外引物的情况下，正向引物结合位点和/或反向引物结合位点可涵盖这些额外引物的结合区以及引物本身的结合区。例如，在一些实施方案中，所述方法可以使用一个或多个与位于正向和/或反向引物结合区的5'的区域结合的额外引物。例如，在WO0028082中公开了这种方法，其公开了“置换引物”或“外引物”的用途。

“条形码”核酸识别序列可以掺入核酸引物中或连接至引物以使得独立测序和识别能够经由条形码彼此关联，该条形码涉及源自存在于相同样品内的分子的信息和识别。有许多技术可以用于将条形码附着至离散实体内的核酸。例如，可以首先扩增靶核酸，然后将其片段化成较短的片段，也可以不这样做。可以将这些分子与含有条形码的离散实体(例如液滴)结合。然后可以使用例如重叠延伸剪接术将条形码附着至分子。在该方法中，初始靶分子可以具有添加的“衔接子”或“恒定”序列，这些序列是引物可以合成到其上的具有已知序列的分子。当与条形码结合时，可以使用与衔接子序列和条形码序列互补的引物，使得靶核酸和条形码两者的产物扩增子可以彼此退火，并且经由延伸反应(诸如DNA聚合)延伸到彼此上，从而产生包含附着至条形码序列的靶核酸的双链产物。替代性地，扩增该靶标的引物自身可以加上条形码，使得在退火并且延伸到靶标上时，产生的扩增子具有掺入其中的条形码序列。该扩增子可以与许多扩增策略一起应用，包括使用PCR的特异性扩增或使用例如MDA的非特异性扩增。可以用于将条形码附着至核酸的替代性酶促反应是连接，包括平端连接或粘端连接。在该方法中，将DNA条形码与靶核酸和连接酶一起孵育，导致条形码与靶标连接。核酸的末端可以根据连接的需要通过多种技术进行修饰，包括通过使用用连接酶或片段引入的衔接子，以使得能够加大对添加到分子末端的条形码的数量的控制。

如本文所用，术语“同一性”和“相同”及其变体，当用于提及两个或更多个序列时，指两个或更多个序列(例如，核苷酸或多肽序列)相同的程度。在两个或更多个序列的情形中，序列或其子序列的同一性或同源性百分比指示所有单体单元(例如，核苷酸或氨基酸)在序列的给定位置或区域相同(即约70％同一性，优选地75％、80％、85％、90％、95％、97％、98％或99％同一性)。当在比较窗口上进行最大对应性的比较和比对时，同一性百分比可以在规定的区域内，或者如使用BLAST或BLAST 2.0序列比较算法用下文描述的默认参数或通过手动比对和目视检查所测量的指定区域内。当在氨基酸水平或核苷酸水平上有至少85％同一性时，序列被称为“基本相同”。优选地，同一性存在于长度为至少约25、50或100个残基的区域内，或跨越至少一个比较序列的全长。确定序列同一性百分比和序列相似性百分比的典型算法是BLAST和BLAST 2.0算法，其描述于Altschul等人,Nuc.Acids Res.25:3389-3402(1977)中。其他方法包括Smith&Waterman,Adv.Appl.Math.2:482(1981)和Needleman&Wunsch,J.Mol.Biol.48:443(1970)等的算法。两个核酸序列基本上相同的另一个指示是两个分子或其互补物在严格杂交条件下彼此杂交。

术语“核酸”、“多核苷酸”和“寡核苷酸”是指核苷酸的生物聚合物，除非上下文另有说明，否则包括经修饰的和未经修饰的核苷酸，DNA和RNA两者，以及经修饰的核酸骨架。例如，在某些实施方案中，核酸是肽核酸(PNA)或锁核酸(LNA)。通常，本文所描述的方法使用DNA作为核酸模板以执行扩增。然而，其核苷酸被来自天然DNA或RNA的人工衍生物或修饰的核酸替换的核酸也包括在本发明的核酸中，只要其用作用于合成互补链的模板。本发明的核酸通常含于生物样品中。生物样品包括动物、植物或微生物组织、细胞、培养物和分泌物，或其提取物。在某些方面，生物样品包括细胞内寄生基因组DNA或RNA，例如病毒或支原体。核酸可以源自含于所述生物样品中的核酸。例如，基因组DNA或从mRNA合成的cDNA，或基于源自生物样品的核酸扩增的核酸优选用于所描述的方法中。除非另有说明，每当表示寡核苷酸序列时，应理解核苷酸呈从左到右的5'至3'顺序，“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，“T”表示脱氧胸苷，并且“U”表示尿苷。寡核苷酸被称为具有“5'端”和“3'端”，因为单核苷酸通常通过将一个核苷酸的5'磷酸或等效基团连接至其相邻核苷酸的3'羟基或等效基团上，任选地通过磷酸二酯或其他合适的键合而反应形成寡核苷酸。

模板核酸是在核酸扩增技术中充当用于合成互补链的模板的核酸。具有与模板互补的核苷酸序列的互补链具有与模板对应的链的含义，但两者之间的关系仅是相对的。也就是说，根据本文所描述的方法，合成为互补链的链可以再次充当模板。也就是说，互补链可以成为模板。在某些实施方案中，模板源自生物样品，例如植物、动物、病毒、微生物、细菌、真菌等。在某些实施方案中，动物是哺乳动物，例如人类患者。模板核酸通常包含一种或多种靶核酸。示例性实施方案中的靶核酸可包含可根据本公开扩增或合成的任何单链或双链核酸序列，包括怀疑或预期存在于样品中的任何核酸序列。

本文实施方案中使用的引物和寡核苷酸包含核苷酸。在一些实施方案中，核苷酸可以包括任何化合物，包括但不限于任何天然存在的核苷酸或其类似物，其可以选择性地结合到聚合酶，或者可以通过聚合酶聚合。通常，但不是必须地，核苷酸与聚合酶的选择性结合之后是核苷酸被聚合酶聚合成核酸链；然而，有时核苷酸可能会从聚合酶解离而不会并入核酸链中，此事件在本文中称为“非生产性”事件。此类核苷酸不仅包括天然存在的核苷酸，还包括任何类似物，无论其结构如何，其可以选择性地结合聚合酶或被聚合酶聚合。虽然天然存在的核苷酸通常包含碱基、糖和磷酸部分，但是本公开的核苷酸可以包括缺少任何一种、一些或全部此类部分的化合物。例如，核苷酸可以任选地包括包含三个、四个、五个、六个、七个、八个、九个、十个或更多个磷原子的磷原子链。在一些实施方案中，磷链可连接至糖环的任何碳，例如5'碳。磷链可以通过中间的O或S连接至糖。在一个实施方案中，链中的一个或多个磷原子可以是具有P和O的磷酸基团的一部分。在另一实施方案中，链中的磷原子可以与中间的O、NH、S、亚甲基、取代的亚甲基、亚乙基、取代的亚乙基、CNH2、C(O)、C(CH₂)、CH2CH₂或C(OH)CH2R(其中R可以是4-吡啶或1-咪唑)连接在一起。在一个实施方案中，链中的磷原子可以具有含O、BH3或S的侧基。在磷链中，具有除O之外的侧基的磷原子可以是取代的磷酸基团。在磷链中，具有除O之外的中间原子的磷原子可以是取代的磷酸基团。核苷酸类似物的一些实例描述于Xu的美国专利号7,405,281中。

在一些实施方案中，核苷酸包含标记并且在本文中称为“标记的核苷酸”；标记的核苷酸的标记在本文中称为“核苷酸标记”。在一些实施方案中，标记可以是连接到末端磷酸基团(即，离糖最远的磷酸基团)的荧光部分(例如，染料)、发光部分等的形式。可用于所公开的方法和组合物中的核苷酸的一些实例包括但不限于核糖核苷酸、脱氧核糖核苷酸、修饰的核糖核苷酸、修饰的脱氧核糖核苷酸、多磷酸核糖核苷酸、多磷酸脱氧核糖核苷酸、修饰的多磷酸核糖核苷酸、修饰的多磷酸脱氧核糖核苷酸、肽核苷酸、修饰的肽核苷酸、金属核苷、膦酸核苷和修饰的磷酸-糖骨架核苷酸、上述化合物的类似物、衍生物或变体等。在一些实施方案中，核苷酸可包含非氧部分，例如硫代或硼烷部分，以代替桥接核苷酸的α磷酸和糖、或核苷酸的α和β磷酸、或核苷酸的β和γ磷酸、或核苷酸的任何其他两种磷酸之间、或其任意组合的氧部分。“核苷酸5'-三磷酸”是指在5’位置处具有三磷酸酯基团的核苷酸，有时也表示为“NTP”或“dNTP”和“ddNTP”，以特别指出核糖的结构特征。三磷酸酯基可以包括对各种氧的硫取代，例如α-硫代核苷酸5'-三磷酸。有关核酸化学的综述，参见：Shabarova,Z.和Bogdanov,A.Advanced Organic Chemistry of Nucleic Acids,VCH,NewYork,1994。

短语“标签片段化”是指基因组DNA被切割、用衔接子序列加标签并延伸以填充由切割和加标签产生的缺口的过程。在各种实施方案中，细胞裂解、基因组DNA释放和标签片段化发生在单个液滴内。在各种实施方案中，标签片段化与核酸扩增发生在单个液滴内。短语“经标签片段化的DNA”或“经标签片段化的基因组DNA”是指在标签片段化后的基因组DNA片段。例如，经标签片段化的DNA是指包括衔接子序列并且已进一步经历核酸延伸以填充由切割和加标签产生的缺口的经切割的DNA片段。

概述

本文描述了用于开发覆盖全基因组的DNA文库的涉及全基因组扩增的单细胞分析工作流程的实施方案。一般来讲，该单细胞分析工作流程涉及将细胞包封在单独的液滴中并使其在单独的液滴中裂解，然后在液滴内从染色质释放基因组DNA。转座酶可以接近释放的基因组DNA(其代表细胞的全基因组)，从而切割该基因组DNA并将衔接子序列***跨全基因组的核酸片段中。因此，这些核酸片段可以经历核酸扩增和测序，以生成全基因组DNA文库。总而言之，本发明所公开的单细胞分析工作流程的实施方式实现了文库指标提高(例如，整个全基因组上的覆盖度提高、具有正确结构的读段的百分比提高、映射读段的百分比提高、文库复杂度增加、文库大小增加、经检查读段的数量增加，以及/或者重复读段的数量减少)。

图1A示出了根据一个实施方案的用于通过单细胞工作流程分析来对细胞进行分析的总体***环境。一般来讲，单细胞工作流程装置100被配置为处理细胞110并生成来源于各个细胞110的序列读段。下文参照图1B描述有关单细胞工作流程装置100的处理步骤的进一步细节。计算装置180可以分析序列读段，例如，用于构建文库(例如，全基因组DNA文库)和/或表征各个细胞。在各种实施方案中，单细胞工作流程装置100至少包括微流体装置，该微流体装置被配置为用试剂包封细胞以生成包含gDNA的细胞裂解物、对gDNA执行标签片段化，以及执行核酸扩增反应。例如，微流体装置可以包括流体地连接的一个或多个流体通道。因此，通过第一通道的水性流体和通过第二通道的载体流体的组合导致乳液液滴的产生。在各种实施方案中，微流体装置的流体通道可以具有毫米或更小量级(例如，小于或等于约1毫米)的至少一个横截面尺寸。在国际专利申请号PCT/US2016/016444和美国专利申请号14/420,646中描述了微通道设计和尺寸的另外细节，所述申请中的每一者据此以引用的方式整体并入。微流体装置的一个实例是Tapestri^TM平台。

在各种实施方案中，单细胞工作流装置100还可以包括以下中的一者或多者：(a)用于控制主题装置和/或其中的液滴的一个或多个部分的温度并且可操作地连接到微流体装置上的温度控制模块；(b)可操作地连接到微流体装置上的检测装置，即检测器，例如光学成像器；(c)可操作地连接到微流体装置上的孵育器，例如细胞孵育器；和(d)可操作地连接到微流体装置上的测序仪。所述一个或多个温度和/或压力控制模块提供对装置的一个或多个流动通道中的载体流体的温度和/或压力的控制。作为实例，温度控制模块可以是调节用于执行核酸扩增的温度的一个或多个热循环仪。所述一个或多个检测装置(即检测器，例如光学成像器)被配置成用于检测一种或多种液滴的存在、或其一个或多个特征(包括其组成)。在一些实施方案中，所述检测装置被配置成识别一个或多个流动通道中的一种或多种液滴的一种或多种组分。所述测序仪被配置成执行测序(诸如下一代测序)的硬件装置。测序仪的实例包括Illumina测序仪(例如，MiniSeq^TM、MiSeq^TM、NextSeq^TM 550系列或NextSeq^TM 2000)、Roche测序***454和Thermo Fisher Scientific测序仪(例如，IonGeneStudio S5***、Ion Torrent Genexus***)。

执行单细胞分析的方法

包封、分析物释放、加条形码和扩增

本文所述的实施方案涉及包封一个或多个细胞，以对所述一个或多个细胞执行单细胞分析。如本文所述，该单细胞分析可以涉及全基因组扩增以便测序，以及分析受试者或患者的全基因组。

现在参见图1B，其描绘了处理单细胞以生成用于测序的经扩增核酸分子的一个实施方案。这里，对单细胞的处理可以由单细胞工作流程装置(例如，图1A中所公开的单细胞工作流程装置100)来执行。具体地讲，图1B描绘了包括细胞包封160、分析物释放165、细胞加条形码170和靶核酸分子的靶标扩增175这些步骤的工作流程。

如本文所提到的，图1B中所示的工作流过程是两步骤工作流过程，其中从细胞的分析物释放165与细胞加条形码170和靶标扩增175的步骤分开发生。具体地讲，来自细胞的分析物释放165发生在第一液滴内，随后在第二乳液中发生细胞加条形码170和靶标扩增175。如下文进一步详细描述的，基因组DNA的标签片段化可以发生在第一液滴或第二液滴中。在各种实施方案中，可以采用替代性的工作流程(例如，除图1A所示的两步工作流程之外的工作流程)。例如，可以将细胞110、试剂120、反应混合物140和条形码145包封在单一乳液中。因此，分析物释放165可以发生在液滴内，随后在同一液滴内发生细胞加条形码170和靶标扩增175。这里，基因组DNA的标签片段化也可以发生在同一液滴中。此外，虽然图1B将细胞加条形码170和靶标扩增175描绘为两个单独的步骤，但是在各种实施方案中，靶核酸通过核酸扩增步骤用条形码145进行标记。

一般来讲，细胞包封步骤160涉及用试剂120将单细胞110包封到液滴中。在各种实施方案中，可以从获自受试者或患者的测试样品中分离单细胞110。在各种实施方案中，单细胞110是从健康受试者获取的健康细胞。因此，单细胞分析使得能够对健康受试者进行全基因组分析。

在各种实施方案中，单细胞110包括从先前被诊断患有疾病的受试者获取的细胞。因此，单细胞分析使得能够对患病受试者进行全基因组分析。在各种实施方案中，受试者先前被诊断患有癌症。这里，可以对获自被诊断患有癌症的受试者的一个或多个肿瘤细胞执行单细胞分析。因此，肿瘤细胞的单细胞分析使得能够对受试者的癌症进行全基因组分析。

在各种实施方案中，通过以下方式形成液滴：将含有细胞110和试剂120的水性流体分配到载流流体(例如，油115)中，从而得到水性油包流体乳液。在各种实施方案中，通过将包含细胞110和试剂120的水相与不可混溶的油相组合，来实现细胞110与试剂120的包封。在一个实施方案中，包含细胞110和试剂120的水相连同流动的不可混溶油相一起流动，使得形成多种油包水乳液，其中至少一种乳液包含单细胞和试剂。在各种实施方案中，不可混溶的油相包括氟油、非离子氟表面活性剂或两者。在各种实施方案中，乳液可以具有约0.001至1000微微升或更大的内部体积，并且直径可以在0.1至1000μm的范围内。

在各种实施方案中，包含细胞和试剂的水相不一定与不可混溶的油相同时流动。例如，水相可以流动以接触固定储存器(stationary reservoir)的不可混溶油相，从而使得油包水乳液在固定油储存器内萌发。

在各种实施方案中，可以在微流体装置中进行水相和不可混溶油相的组合。例如，水相可以流过微流体装置的微通道以接触不可混溶油相，该不可混溶油相同时流过单独的微通道或保持在微流体装置的固定储存器中。然后，在乳液内的包封的细胞和试剂可以流过微流体装置以进行细胞裂解。

将试剂和细胞添加到乳液中的进一步示例性实施方案可以包括合并单独含有细胞和试剂的乳液或将试剂显微注射到乳液中。在美国申请号14/420,646中描述了对示例性实施方案的进一步描述，所述申请据此以引用的方式整体并入。

该液滴包括包封的细胞125和试剂120。在步骤165，包封的细胞经历分析物释放。一般来讲，试剂导致细胞裂解，从而在液滴内生成细胞裂解物130。因此，细胞裂解物130包括细胞的内容物，其可以包括一种或多种不同类型的分析物(例如，RNA转录物、DNA、蛋白质、脂质或碳水化合物)。

在各种实施方案中，由于试剂包括一种或多种导致细胞裂解的裂解剂，所以细胞裂解。裂解剂的实例包括洗涤剂，诸如Triton X-100、NP-40(例如，Tergitol型NP-40或壬基苯氧基聚乙氧基乙醇)，以及细胞毒素。NP-40的实例包括Thermo Scientific NP-40Surfact-Amps洗涤剂溶液和Sigma Aldrich NP-40(TERGITOL型NP-40)。在一些实施方案中，细胞裂解也可以或者取而代之依赖于不涉及试剂中的裂解剂的技术。例如，裂解可以通过机械技术来实现，所述机械技术可以使用各种几何特征来实现细胞的穿孔、剪切、研磨等。也可以使用其他类型的机械破坏，诸如声学技术。此外，热能也可以用于裂解细胞。在本文所述的方法中可以使用任何实现细胞裂解的方便手段。

在各种实施方案中，这些试剂可以引起基因组DNA从染色质包装中释放。例如，这些试剂可以包括消化染色质包装的蛋白酶，从而释放基因组DNA用于随后的处理。在各种实施方案中，蛋白酶是蛋白酶K。

在各种实施方案中，试剂120包括用于对释放的基因组DNA执行标签片段化的作用剂。在此类实施方案中，在第一液滴中执行标签片段化。例如，试剂120可以包括将基因组DNA切割成跨全基因组的片段的转座酶。在各种实施方案中，转座酶与衔接子序列连接。因此，转座酶可以将衔接子序列***这些片段中。

在各种实施方案中，试剂120包括用于与细胞裂解物的核酸相互作用的酶。在各种实施方案中，试剂120包括逆转录酶。例如，逆转录酶可以逆转录存在于细胞裂解物130中的RNA转录物并生成cDNA分子。这里，生成cDNA使得能够随后分析来源于RNA转录物的扩增子，并进一步允许分析和表征单细胞转录组。作为另一个实例，在标签片段化在第一液滴中执行的实施方案中，逆转录酶可以使具有已通过转座酶***的衔接子序列的DNA片段延伸。因此，逆转录酶填充这些DNA片段中可能已经由于***衔接子序列而产生的任何缺口。在各种实施方案中，试剂120包括DNA聚合酶。例如，在标签片段化在第一液滴中执行的实施方案中，DNA聚合酶被包括在试剂120中，用于延伸具有衔接子序列的DNA片段。因此，DNA聚合酶填充这些DNA片段中可能已经由于***衔接子序列而产生的任何缺口。

图3A至图3C描绘了根据一个实施方案，在液滴中处理和释放单细胞分析物的过程。在图3A中，裂解细胞，如细胞膜的虚线所指示。在一些实施方案中，试剂包括洗涤剂，诸如NP40或Triton-X100，该洗涤剂导致细胞裂解。裂解的细胞包含包装的DNA 302，是指基因组DNA与作为染色质包装的组蛋白的组织。此外，包含在乳液300A中的试剂还包括消化包装的DNA 302的酶312。在各种实施方案中，酶312是蛋白酶K。

图3B描绘了处于第二状态的乳液300B，此时酶312在对包装的DNA 302进行消化，从而引起基因组DNA释放。图3C描绘了处于第三状态的乳液300C，其包含游离的gDNA 340。

在各种实施方案中，乳液300C可以暴露于使酶312失活的条件。在各种实施方案中，将乳液300C暴露于至少50℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300C暴露于至少60℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300C暴露于至少70℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300C暴露于至少80℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300C暴露于至少90℃的升高的温度，以使酶312失活。

与图3A至图3C相比，图3D至图3G描绘了根据在第一液滴中执行标签片段化的一个实施方案，在液滴中处理和释放单细胞分析物的过程。在图3D中，乳液300D包括细胞、细胞内的包装的DNA 302、用于释放gDNA的酶312、转座酶350和用于核酸合成的酶360(例如，酶360是逆转录酶或DNA聚合酶)。如图3D所示，细胞裂解，如细胞膜的虚线所指示。在一些实施方案中，试剂包括洗涤剂，诸如NP40或Triton-X100，该洗涤剂导致细胞裂解。

图3E描绘了处于第二状态的乳液300E，此时酶312在对包装的DNA 302进行消化。图3F描绘了处于第三状态的乳液300F，其包含游离的gDNA 340。这里，可以对游离的gDNA340执行标签片段化。例如，转座酶350可以切割游离的gDNA 340并***衔接子序列。酶360执行延伸，以填充经切割的基因组DNA中由于***衔接子序列所产生的缺口。尽管图3F描述了在gDNA 340上形成复合物的一对转座酶350，但是在各种实施方案中，单个游离的gDNA340可以被另外的转座酶识别，从而使得能够将gDNA 340切割成更小的片段。例如，单个游离的gDNA 340可以被数十个、数百个、数千个、数万个、数十万个或甚至数百万个转座酶识别。

如图3G所示，乳液300G包含经标签片段化的gDNA 370，其代表包含***的衔接子序列的经切割的基因组DNA。在各种实施方案中，乳液300G可以暴露于使酶312失活的条件。在各种实施方案中，将乳液300G暴露于至少50℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300G暴露于至少60℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300G暴露于至少70℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300G暴露于至少80℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300G暴露于至少90℃的升高的温度，以使酶312失活。在各种实施方案中，将乳液300G暴露于至少95℃的升高的温度，以使酶312失活。

回到图1B中的细胞加条形码步骤170，细胞加条形码步骤170涉及将细胞裂解物130与条形码145和/或反应混合物140一起包封到第二液滴中。在各种实施方案中，通过将包含反应混合物140和条形码145的水相与细胞裂解物130和不可混溶的油相135组合，来将细胞裂解物130与反应混合物140和条形码145一起包封。如图1B所示，反应混合物140和条形码145可以通过单独的水性流体流引入，从而将反应混合物140和条形码145连同细胞裂解物130一起分配到第二液滴中。在各种实施方案中，包含反应混合物140和条形码145的水相连同流动的细胞裂解物130和流动的不可混溶油相135一起流动，使得形成油包水乳液，其中至少一种乳液包含细胞裂解物130、反应混合物140和条形码145。在各种实施方案中，不可混溶的油相包括氟油、非离子氟表面活性剂或两者。在各种实施方案中，乳液可以具有约0.001至1000微微升或更大的内部体积，并且直径可以在0.1至1000μm的范围内。

在各种实施方案中，可以在微流体装置中进行水相和不可混溶油相的组合。例如，水相可以流过微流体装置的微通道以接触不可混溶油相，该不可混溶油相同时流过单独的微通道或保持在微流体装置的固定储存器中。然后，在乳液内的包封的细胞裂解物、反应混合物和条形码可以流过微流体装置以执行靶核酸的扩增。

将反应混合物和条形码添加到乳液中的进一步示例性实施方案可以包括将分别含有细胞裂解物和反应混合物和条形码的乳液合并，或者将反应混合物和/或条形码显微注射到乳液中。合并乳液或将物质显微注射到乳液中的示例性实施方案的进一步描述见于美国申请号14/420,646中，所述申请据此以引用的方式整体并入。

通常，反应混合物包含足以在细胞裂解物的分析物上进行反应(诸如核酸扩增)的反应物。在各种实施方案中，反应混合物140包括关于分析物进行核酸反应的组分，诸如引物。此类引物在被置于催化合成与核酸链互补的引物延伸产物的条件下时，能够沿互补链充当合成起始点。

在各种实施方案中，反应混合物140使得能够对细胞裂解物130中的基因组DNA进行标签片段化。这里，标签片段化在第二液滴中执行，而不在第一液滴(例如，涉及细胞裂解和基因组DNA释放的液滴)中执行。例如，反应混合物140可以包括将基因组DNA切割成跨全基因组的片段的转座酶。在各种实施方案中，转座酶与衔接子序列连接。因此，转座酶可以将衔接子序列***这些片段中。在各种实施方案中，反应混合物140包括DNA聚合酶。例如，在标签片段化在第二液滴中执行的实施方案中，DNA聚合酶被包括在反应混合物140中，用于延伸具有衔接子序列的DNA片段。因此，DNA聚合酶填充这些DNA片段中可能已经由于***衔接子序列而产生的任何缺口。

靶扩增步骤175涉及扩增靶核酸。例如，在第二液滴中使用反应混合物140对细胞裂解物的靶核酸进行扩增，从而生成来源于靶核酸的扩增子。在各种实施方案中，靶核酸包括具有衔接子序列的经标签片段化的基因组DNA。该经标签片段化的基因组DNA跨全基因组，因此，核酸扩增导致生成跨全基因组的扩增子。

乳液可以在促进核酸扩增反应的条件下孵育。在各种实施方案中，乳液可以在与用于添加反应混合物和/或条形码的相同微流体装置上孵育，或者可以在单独的装置上孵育。在某些实施方案中，在用于包封细胞和裂解细胞的相同微流体装置上在促进核酸扩增的条件下孵育乳液。乳液的孵育可以采取多种形式。在某些方面，含有反应混合物、条形码和细胞裂解物的乳液可以流过在对核酸扩增有效的条件下孵育乳液的通道。微液滴流过通道可能涉及一个通道，该通道蛇形穿过保持在对PCR有效的温度下的各种温度区。例如，此类通道可以在两个或更多个温度区上循环，其中至少一个区保持在约65℃，并且至少一个区保持在约95℃。当液滴移动通过此类区时，它们的温度根据核酸扩增的需要循环。区的数量和每个区的相应温度可以由本领域技术人员容易地确定，以实现所需的核酸扩增。此外，可以通过调节反应混合物中反应物的浓度来控制核酸扩增的程度。在一些情形中，这对于使用扩增产物的反应的微调是有用的。

在各种实施方案中，核酸扩增反应涉及将条形码145结合到扩增子诸如待分析的靶核酸(例如，经标签片段化的基因组DNA)中，这使得能够随后识别来源于该靶核酸的序列读段的起源。在各种实施方案中，多个条形码145可以标记多个扩增子(例如，细胞裂解物的靶核酸)，从而使得能够随后识别大量序列读段的起源。

混样、测序和读段比对

图2是根据一个实施方案的用于分析来源于单细胞分析物的核酸序列的流程图。具体地讲，图2描绘了下列步骤：在步骤205处对经扩增核酸进行混样、在步骤210处对经扩增核酸进行测序、在步骤215处进行读段比对，以及在步骤220处进行表征。通常，图2中所示的流程过程是图1B中所示的工作流过程的延续。

例如，在图1B的步骤175处的靶标扩增之后，在图2所示的步骤205处将经扩增核酸250A、250B和250C进行混样。例如，对含有经扩增核酸的单独的液滴进行混样并收集这些液滴，然后除去乳液中不可混溶的油。在各种实施方案中，将这些液滴收集到孔中，诸如微流体装置的孔中。在各种实施方案中，将这些液滴收集到贮液器或管(诸如Eppendorf管)中。在一个实施方案中，通过提供外部刺激汇集扩增的核酸来打破乳液。在一个实施方案中，给定在水相和不可混溶油相之间的密度差异，乳液随时间自然聚集。因此，可以将来自多个细胞的扩增核酸汇集在一起。

在各种实施方案中，这些混样的核酸可以经历进一步的测序准备。例如，可以向汇集的核酸中添加测序转接器(adapter)。示例性测序转接器是P5和P7测序转接器。测序转接器使得随后能够对核酸进行测序。在各种实施方案中，结合测序衔接子包括执行文库扩增步骤。

图2描绘了三个经扩增核酸250A、250B和250C。在各种实施方案中，混样的核酸可以包括数百个、数千个或数百万个来源于多细胞分析物的核酸。在各种实施方案中，混样中的经扩增核酸来源于经标签片段化的基因组DNA。在此类实施方案中，混样中的经扩增核酸可以跨全基因组。

在各种实施方案中，每种扩增的核酸250至少包括靶核酸240和条形码230的序列。在各种实施方案中，经扩增核酸250可以包括另外的序列，诸如通用引物序列、随机引物序列、基因特异性引物正向序列、基因特异性引物反向序列、恒定区或测序衔接子中的任一种。

在各种实施方案中，扩增的核酸250A、250B和250C来源于相同的单细胞，并且因此条形码230A、230B和230C是相同的。因此，条形码230的测序使得能够确定扩增的核酸250源自相同的细胞。在各种实施方案中，扩增的核酸250A、250B和250C被汇集并且源自不同的细胞。因此，条形码230A、230B和230C彼此不同，并且条形码230的测序使得能够确定扩增的核酸250源自不同的细胞。

在步骤210，对汇集的扩增核酸250进行测序以产生序列读数。对于一个或多个扩增子中的每个扩增子，该序列读段至少包括条形码和靶核酸的序列。源自各个细胞的序列读段根据扩增子中包括的条形码序列进行聚类。对扩增的核酸进行测序，以获得用于产生测序文库的序列读数。序列读数可以通过可商购获得的下一代测序(NGS)平台来实现，所述NGS平台包括执行通过合成测序、通过连接测序、焦磷酸测序、使用可逆终止子化学测序、使用连接磷的荧光核苷酸测序或实时测序中的任一者的平台。例如，扩增的核酸可以在Illumina MiSeq平台上进行测序。

在焦磷酸测序时，NGS片段文库是通过使用包被有与转接器互补的寡核苷酸的颗粒捕获一个基质分子来克隆原位扩增的。每个含有相同类型基质的颗粒被放置在“油包水”类型的微气泡中，并且使用称为乳液PCR的方法克隆扩增基质。扩增后，乳液被破坏，并且颗粒被堆放于在测序反应期间充当流动池的滴定微微板(picoplate)的单独孔中。在存在测序酶和发光报告剂诸如萤光素酶的情况下将四种dNTP试剂中的每一种有序地多次施用到流动池中。在将合适的dNTP添加到测序引物的3'末端的情况下，所得的ATP在孔内产生闪光，这是用CCD摄像机记录的。有可能实现大于或等于400个碱基的读数长度，并且可能获得10⁶个序列读取，从而产生高达5亿个碱基对(兆字节)的序列。焦磷酸测序的另外细节描述于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean et al.,NatureRev.Microbiol.,7:287-296；美国专利号6,210,891；美国专利号6,258,568；所述文献中的每一者据此以引用的方式整体并入。

在Solexa/Illumina平台上，以短读数的形式产生测序数据。在这种方法中，NGS片段文库的片段被捕获在包被有寡核苷酸锚定分子的流动池的表面上。锚定分子被用作PCR引物，但是由于基质的长度及其与附近其他锚定寡核苷酸的接近，通过PCR延伸导致分子与邻近锚定寡核苷酸杂交形成“拱形”，并在流动池表面形成桥接结构。这些DNA环被变性和切割。然后使用可逆染色终止子对直链进行测序。所述序列中包含的核苷酸通过检测包含之后的荧光来确定，其中在下一个dNTP添加循环之前去除每个荧光剂和封闭剂。使用Illumina平台进行测序的另外细节见于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean等人,Nature Rev.Microbiol.,7:287-296；美国专利号6,833,246；美国专利号7,115,400；美国专利号6,969,488；所述文献中的每一者据此以引用的方式整体并入。

使用SOLiD技术对核酸分子进行测序包括使用乳液PCR克隆扩增NGS片段文库。之后，将含有基质的颗粒固定在玻璃流动池的衍生化表面上，并且用与转接器寡核苷酸互补的引物退火。然而，代替使用指示的引物进行3'延伸，使用其获得5'磷酸基团用于连接含有两个探针特异性碱基和随后的6个简并碱基和四种荧光标记之一的测试探针。在SOLiD***中，测试探针具有在每个探针的3'末端的两个碱基和在5'末端的四种荧光染料之一的16种可能的组合。荧光染料的颜色和因此每个探针的身份对应于一定的颜色空间编码方案。在探针比对、探针连接和荧光信号检测的多个循环之后，变性后使用与原始引物相比移位一个碱基的引物进行第二个测序循环。以这种方式，可以通过计算重构矩阵的序列；对矩阵碱基检查两次，这导致准确性增加。使用SOLiD技术进行测序的另外细节见于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean等人,Nature Rev.Microbiol.,7:287-296；美国专利号5,912,148；美国专利号6,130,073；所述文献中的每一者以引用的方式整体并入。

在特定的实施方案中，使用来自Helicos BioSciences的HeliScope。通过添加聚合酶和连续添加荧光标记的dNTP试剂实现测序。接通导致出现与dNTP对应的荧光信号，并且在每个dNTP添加周期之前，CCD摄像机捕获到指定的信号。序列的读数长度从25-50个核苷酸变化，其中每个分析工作周期的总产量超过10亿个核苷酸对。使用HeliScope进行测序的另外细节见于Voelkerding等人,Clinical Chem.,55:641-658,2009；MacLean等人,Nature Rev.Microbiol.,7:287-296；美国专利号7,169,560；美国专利号7,282,337；美国专利号7,482,120；美国专利号7,501,245；美国专利号6,818,395；美国专利号6,911,345；美国专利号7,501,245；所述文献中的每一者以引用的方式整体并入。

在一些实施方案中，使用Roche测序***454。测序454涉及两个步骤。在第一步骤中，DNA被切割成大约300-800个碱基对的片段，并且这些片段具有钝端。然后将寡核苷酸转接器连接到片段的末端。转接器作为引物用于片段的扩增和测序。片段可以例如使用含有5'-生物素标签的转接器附接到DNA捕获珠粒上，例如链霉亲和素包被的珠粒。在油-水乳液的液滴内通过PCR扩增附接到颗粒上的片段。结果是克隆扩增的DNA片段在每个珠粒上有多个拷贝。在第二阶段，颗粒被捕获到孔中(几微微升的体积)。平行地对每个DNA片段进行焦磷酸测序。添加一个或多个核苷酸导致光信号的产生，其被记录在测序仪器的CCD摄像机上。信号强度与所包含的核苷酸数量成比例。焦磷酸测序使用焦磷酸(PPi)，其在添加核苷酸时被释放。在存在5'磷酸硫酸腺苷的情况下，使用ATP硫酸化酶将PPi转化为ATP。萤光素酶使用ATP将萤光素转化为氧化萤光素，并且作为这种反应的结果，产生进行检测和分析的光。进行测序454的另外细节见于Margulies等人(2005)Nature 437:376-380，所述文献据此以引用的方式整体并入。

离子激流技术是一种基于检测DNA聚合期间释放的氢离子的DNA测序方法。微孔含有待测序的NGS片段文库的片段。微孔层下是超灵敏离子传感器ISFET。所有层都包含在半导体CMOS芯片内，类似于电子工业中使用的芯片。当dNTP掺入到不断增长的互补链中时，释放出激发超灵敏离子传感器的氢离子。如果模板序列中存在均聚物重复，则在一个循环中将包含多个dNTP分子。这导致对应量的氢原子被释放，并且与更高的电信号成比例。此技术不同于其他不使用修饰的核苷酸或光学装置的测序技术。关于离子激流技术的另外细节见于Science 327(5970):1190(2010)；美国专利申请公开号20090026082、20090127589、20100301398、20100197507、20100188073和20100137143，所述文献中的每一者以引用的方式整体并入。

在各种实施方案中，可以使用本领域中已知的任何算法(例如Python脚本barcodeCleanup.py)按质量过滤从NGS方法获得的测序读数并按条形码序列分组。在一些实施方案中，如果超过约20％的碱基的质量分数(Q得分)小于Q20(其指示约99％的碱基调用精度)，则可以丢弃给定的测序读数。在一些实施方案中，如果超过约5％、约10％、约15％、约20％、约25％、约30％的Q得分小于Q10、Q20、Q30、Q40、Q50、Q60或更多(其分别指示约90％、约99％、约99.9％、约99.99％、约99.999％、约99.9999％或更多的碱基调用精度)，则可以丢弃给定的测序读数。

在一些实施方案中，可以丢弃与含有少于50个读数的条形码相关联的所有测序读数，以确保表示单细胞的所有条形码组含有足够数量的高质量读数。在一些实施方案中，可以丢弃与含有少于30、少于40、少于50、少于60、少于70、少于80、少于90、少于100或更多个读数的条形码相关联的所有测序读数，以确保表示单细胞的条形码组的质量。

在步骤215，比对每个单细胞的序列读数(例如，与参考基因组比对)。具有共有条形码序列的序列读数(例如，意味着序列读数源自同一细胞)可以使用本领域已知的方法与参考基因组比对以确定比对位置信息。比对位置信息可以指示参考基因组中与给定序列读数的开始核苷酸碱基和结束核苷酸碱基对应的区域的开始位置和结束位置。参考基因组中的区域可以与靶基因或基因区段相关联。示例性比对器算法包括BWA、Bowtie、与参考序列的拼接转录物比对(STAR)、Tophat或HISAT2。在美国申请号16/279,315中描述了用于将序列读数与参考序列比对的进一步细节，所述申请据此以引用的方式整体并入。在各种实施方案中，可以生成具有SAM(序列比对映射)格式或BAM(二进制比对映射)格式的输出文件，并且将其输出用于后续分析。

将序列读数与参考基因组比对使得能够确定序列读数源自基因组中的何处。例如，从来源于RNA转录物分子的扩增子生成的多个序列读段在与基因组位置比对时，可以揭示该基因组位置处的基因被转录。作为另一个实例，从来源于基因组DNA分子的扩增子生成的多个序列读段在与基因组位置比对时，可以揭示该基因组位置处的基因的序列。步骤215处对序列读段的比对生成了文库，诸如单细胞DNA文库或单细胞RNA文库。在各种实施方案中，这些文库是全基因组DNA文库。这里，步骤215处的经比对序列读段可以跨全基因组。

在步骤220处，可以执行对文库和/或单细胞的表征。在各种实施方案中，测序和读段比对导致生成核酸文库(例如，RNA文库和/或DNA文库)。在具体实施方案中，核酸文库是全基因组文库。在各种实施方案中，对文库(例如，DNA文库或RNA文库)的表征可以涉及确定文库指标，包括但不限于：整个全基因组上的读段覆盖度、具有正确结构的读段的百分比、映射读段的百分比、文库复杂度、文库大小、经检查读段的数量，以及重复读段的数量。在各种实施方案中，对单细胞的表征可以涉及识别存在于一个或多个单细胞中的一个或多个突变(例如，等位基因变体、点突变、单核苷酸变异/多态性、易位、DNA/RNA融合、杂合性丢失)。在PCT/US2020/026480和PCT/US2020/026482中描述了有关单细胞表征的进一步说明，这两件专利中的每一件据此全文以引用方式并入本文。

在具体实施方案中，该核酸文库是全基因组文库(例如，全基因组测序文库)，其包括来源于在单个人类细胞的多个染色体上的基因组DNA的全基因组扩增子。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少20％映射到参考基因组。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少50％映射到参考基因组。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少80％映射到参考基因组。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少90％映射到参考基因组。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少95％映射到参考基因组。在各种实施方案中，该全基因组测序文库的多个序列读段中的至少99％映射到参考基因组。

在各种实施方案中，该全基因组测序文库的至少10％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少30％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少50％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少60％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少70％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少80％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少90％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少95％的序列读段具有正确的结构。在各种实施方案中，该全基因组测序文库的至少99％的序列读段具有正确的结构。

在各种实施方案中，该全基因组测序文库中少于70％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于60％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于50％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于40％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于30％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于20％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于10％的序列读段是重复的。在各种实施方案中，该全基因组测序文库中少于5％的序列读段是重复的。

示例的标签片段化

图4A描绘了根据一个实施方案的对基因组DNA进行标签片段化的过程。在各种实施方案中，图4A所示的步骤在第一液滴中执行。例如，图4A的标签片段化步骤在图1B所示的细胞包封步骤160和分析物释放步骤165期间执行。因此，在此类实施方案中，基因组DNA的标签片段化在用于从染色质释放基因组DNA的酶的存在下发生。例如，基因组DNA的标签片段化在蛋白酶(诸如蛋白酶K)的存在下发生。在各种实施方案中，图4A所示的步骤在第二液滴中执行。例如，图4A的标签片段化步骤在图1B所示的细胞加条形码步骤170期间执行。因此，在此类实施方案中，基因组DNA的标签片段化在用于执行核酸扩增的核酸扩增试剂的存在下发生。

顶部居中小图400A描绘了双链的游离基因组DNA 340(例如，图3C中所示的游离gDNA 340或图3F中所示的游离gDNA 340)。居中小图400B示出了形成与游离基因组DNA 340结合的转座体突触复合物。这里，转座体突触复合体包括两个转座酶410。这两个转座酶410形成二聚体复合物。每个转座酶410可以与一个或多个衔接子序列420(例如，420A、420B、420C或420D)连接。这里，衔接子序列420可以被设计成使得它们的序列与实现核酸扩增和/或结合条形码序列的引物序列互补。

底部居中小图400C描绘了来源于游离基因组DNA 340的基因组DNA片段405(例如，405A和405B)。这里，基因组DNA片段405现在已经被转座酶410切割。在各种实施方案中，转座酶410可以切割基因组DNA 340，使得DNA片段405具有交错的切口。因此，DNA片段405可能具有一个或多个缺口，诸如缺口430A和430B，这是由于交错的切口引起的。衔接子序列420(例如，420A、420B、420C和/或420D)被***基因组DNA片段405中。如底部居中小图400C所示，衔接子序列420***DNA片段405的末端。这里，缺口430A和430B保留在DNA片段405内。

通过酶执行核酸延伸，以填充DNA片段405中由于切割和/或***衔接子序列420所引起的缺口。在各种实施方案中，酶是DNA聚合酶。如底部小图400D所示，存在于小图400C的DNA片段405中的缺口430A和430B此时已被填充。此外，对衔接子序列中的一者或多者进一步执行核酸延伸。例如，小图400C中的衔接子序列420A延伸为序列440，该序列与衔接子序列420B互补。作为另一个实例，衔接子序列420D延伸为序列445，该序列与衔接子序列420C互补。核酸延伸后，小图400D中所示的核酸产物在本文中被称为经标签片段化的基因组DNA480。

图4B描绘了根据图4A所示的实施方案，对经标签片段化的基因组DNA进行扩增和加条形码的过程。这里，顶部小图400E示出了在图4A的小图400D中的核酸延伸后生成的经标签片段化的基因组DNA 480。经标签片段化的基因组DNA 480经历加条形码与核酸扩增。

在各种实施方案中，DNA片段405A和DNA片段405B分别使用一种或多种引物引发，核酸扩增可以从引物位置开始发生。在各种实施方案中，DNA片段405A使用引物对(例如，正向引物和反向引物对)引发，DNA片段405B也使用引物对(例如，正向引物和反向引物对)引发。因此，DNA片段405A和DNA片段405B可以分别扩增。

在各种实施方案中，为了扩增DNA片段405A，反向引物可以与序列440杂交，正向引物可以与序列420C杂交。在各种实施方案中，正向引物还可以包括条形码序列，诸如加条形码的珠粒所提供的条形码序列，这将在下文进一步详细描述。因此，在随后的核酸扩增循环中，条形码序列可以结合到DNA扩增子中。例如，如底部小图400F所示，DNA扩增子可以包括DNA片段405A、序列440、衔接子序列420C和条形码序列430。

在各种实施方案中，为了扩增DNA片段405B，反向引物可以与序列420B杂交，正向引物可以与序列430杂交。在各种实施方案中，正向引物还可以包括条形码序列，诸如加条形码的珠粒所提供的条形码序列，这将在下文进一步详细描述。因此，在随后的核酸扩增循环中，条形码序列可以结合到DNA扩增子中。例如，如底部小图400F所示，DNA扩增子可以包括DNA片段405B、序列445、衔接子序列420B和条形码序列430。

因此，来源于经标签片段化的基因组DNA 480的DNA扩增子包括条形码序列430，从而使得能够随后确定这些扩增子源自单细胞。底部小图400F所示的这些DNA扩增子可以经历测序，诸如全基因组测序，并且被进一步分析以表征单细胞。

基因组DNA释放、标签片段化和扩增的示例方案

本文所述的实施方案是指从染色质释放基因组DNA、对游离基因组DNA进行标签片段化以及核酸扩增的方案。在各种实施方案中，释放基因组DNA和对游离基因组DNA进行标签片段化发生在同一液滴中。在此类实施方案中，方案可以涉及将该液滴暴露于不同的温度范围，以使得能够释放基因组DNA和对游离基因组DNA进行标签片段化。在各种实施方案中，对游离基因组DNA进行标签片段化和核酸扩增发生在同一液滴中。在此类实施方案中，方案可以涉及将该液滴暴露于不同的温度范围，以使得能够对游离基因组DNA进行标签片段化和进行核酸扩增。

基因组DNA释放方案

在各种实施方案中，通过将染色质暴露于酶而从染色质释放基因组DNA。在各种实施方案中，酶是温度敏感性酶。例如，酶可以是在第一温度范围内有活性、但在不同温度范围内失活的蛋白酶。例如，该蛋白酶可以是蛋白酶K。在各种实施方案中，将含有蛋白酶和染色质的液滴暴露于第一温度以活化蛋白酶，使得蛋白酶可以从染色质释放基因组DNA。在各种实施方案中，将液滴暴露于介于30℃与60℃之间的第一温度。在各种实施方案中，将液滴暴露于介于35℃与55℃之间的第一温度。在各种实施方案中，将液滴暴露于介于40℃与55℃之间的第一温度。在各种实施方案中，将液滴暴露于介于45℃与54℃之间的第一温度。在各种实施方案中，将液滴暴露于介于48℃与52℃之间的第一温度。在具体实施方案中，将液滴暴露于约50℃的第一温度。在各种实施方案中，将液滴暴露于第一温度并持续介于5分钟与100分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于10分钟与95分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于20分钟与90分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于30分钟与80分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于40分钟与80分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于50分钟与70分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于55分钟与65分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于57分钟与63分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续约60分钟。

在各种实施方案中，将含有蛋白酶和染色质的液滴暴露于比第一温度高的温度，以使蛋白酶失活。在各种实施方案中，将液滴暴露于介于70℃与90℃之间的较高温度。在各种实施方案中，将液滴暴露于介于75℃与85℃之间的较高温度。在各种实施方案中，将液滴暴露于介于78℃与82℃之间的较高温度。在各种实施方案中，将液滴暴露于约80℃的较高温度。在各种实施方案中，将液滴暴露于约90℃的较高温度。在各种实施方案中，将液滴暴露于较高温度并持续介于1分钟与20分钟之间的时间。在各种实施方案中，将液滴暴露于较高温度并持续介于5分钟与15分钟之间的时间。在各种实施方案中，将液滴暴露于较高温度并持续介于8分钟与12分钟之间的时间。在各种实施方案中，将液滴暴露于较高温度并持续约10分钟。在各种实施方案中，将液滴暴露于较高温度并持续介于30分钟与60分钟之间的时间。在各种实施方案中，将液滴暴露于较高温度并持续约30分钟。在各种实施方案中，将液滴暴露于较高温度并持续约45分钟。在各种实施方案中，将液滴暴露于较高温度并持续约60分钟。

在具体实施方案中，该基因组DNA释放方案涉及将液滴暴露于介于40℃与60℃之间的第一温度并持续介于50分钟与70分钟之间的时间，然后将液滴暴露于介于70℃与90℃之间的第二温度并持续介于1分钟与20分钟之间的时间。

标签片段化方案

在各种实施方案中，使用转座酶和用于执行核酸延伸的酶(诸如DNA聚合酶或逆转录酶)对基因组DNA进行标签片段化。在各种实施方案中，转座酶在第一温度范围内有活性(例如，能够切割基因组DNA)，而用于执行核酸延伸的酶在第二温度范围内有活性(例如，能够使核酸延伸)。在各种实施方案中，转座酶和用于执行核酸延伸的酶在不同的温度范围内有活性。在各种实施方案中，转座酶和用于执行核酸延伸的酶在重叠的温度范围内有活性。在各种实施方案中，转座酶在介于35℃与55℃之间的温度范围内有活性。在各种实施方案中，转座酶在介于35℃与50℃之间的温度范围内有活性。在各种实施方案中，转座酶在介于40℃与45℃之间的温度范围内有活性。

在各种实施方案中，用于执行核酸延伸的酶在介于60℃与80℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于62℃与78℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于65℃与75℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于68℃与72℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于62℃与70℃之间的温度范围内有活性。在此类实施方案中，用于执行核酸延伸的酶在介于65℃与68℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶是热启动DNA聚合酶。

在各种实施方案中，用于执行核酸延伸的酶在介于35℃与65℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于40℃与60℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于45℃与55℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于35℃与45℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于55℃与65℃之间的温度范围内有活性。在此类实施方案中，用于执行核酸延伸的酶是等温DNA聚合酶。等温DNA聚合酶的实例包括嗜热脂肪芽孢杆菌(Bst)DNA聚合酶，诸如Bst 2.0或Bst 3.0DNA聚合酶。

在各种实施方案中，用于执行核酸延伸的酶在介于40℃与50℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于42℃与48℃之间的温度范围内有活性。在各种实施方案中，用于执行核酸延伸的酶在介于44℃与46℃之间的温度范围内有活性。在此类实施方案中，用于执行核酸延伸的酶是逆转录酶。

在各种实施方案中，标签片段化方案涉及将液滴至少暴露于第一温度、第二温度和第三温度，以使得能够切割基因组DNA、***衔接子序列和发生核酸延伸。一般来讲，第一温度低于第二温度，第二温度低于第三温度。

在各种实施方案中，将液滴暴露于介于35℃与55℃之间的第一温度。在各种实施方案中，将液滴暴露于介于35℃与50℃之间的第一温度。在各种实施方案中，将液滴暴露于介于35℃与45℃之间的第一温度。在各种实施方案中，将液滴暴露于介于35℃与40℃之间的第一温度。在具体实施方案中，将液滴暴露于约37℃的第一温度。在各种实施方案中，将液滴暴露于第一温度并持续介于5分钟与120分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于10分钟与100分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于20分钟与80分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于25分钟与60分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于30分钟与50分钟之间的时间。在具体实施方案中，将液滴暴露于第一温度并持续约30分钟。在具体实施方案中，将液滴暴露于第一温度并持续约40分钟。在具体实施方案中，将液滴暴露于第一温度并持续约50分钟。在具体实施方案中，将液滴暴露于第一温度并持续约60分钟。

在具体实施方案中，将液滴暴露于介于35℃与40℃之间的第一温度并持续介于30分钟与50分钟之间的时间。在具体实施方案中，将液滴暴露于约37℃的第一温度并持续约30分钟。

在各种实施方案中，将液滴暴露于介于40℃与100℃之间的第二温度。在各种实施方案中，将液滴暴露于介于50℃与90℃之间的第二温度。在各种实施方案中，将液滴暴露于介于60℃与80℃之间的第二温度。在各种实施方案中，将液滴暴露于介于45℃与75℃之间的第二温度。在各种实施方案中，将液滴暴露于介于50℃与65℃之间的第二温度。在各种实施方案中，将液滴暴露于介于50℃与60℃之间的第二温度。在各种实施方案中，将液滴暴露于介于50℃与55℃之间的第二温度。在各种实施方案中，将液滴暴露于介于60℃与70℃之间的第二温度。在各种实施方案中，将液滴暴露于介于65℃与70℃之间的第二温度。在具体实施方案中，将液滴暴露于约50℃的第二温度。在具体实施方案中，将液滴暴露于约60℃的第二温度。在具体实施方案中，将液滴暴露于约65℃的第二温度。在各种实施方案中，将液滴暴露于第二温度并持续介于1分钟与20分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于1分钟与15分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于1分钟与10分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于3分钟与6分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续约5分钟。在一些实施方案中，将液滴暴露于第二温度并持续介于40分钟与80分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于50分钟与70分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于55分钟与65分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于57分钟与63分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续约60分钟。

在具体实施方案中，将液滴暴露于介于60℃与70℃之间的第二温度并持续介于1分钟与10分钟之间的时间。在具体实施方案中，将液滴暴露于介于60℃与70℃之间的第二温度并持续介于3分钟与6分钟之间的时间。

在各种实施方案中，将液滴暴露于介于68℃与85℃之间的第三温度。在各种实施方案中，将液滴暴露于介于70℃与82℃之间的第三温度。在各种实施方案中，将液滴暴露于介于70℃与80℃之间的第三温度。在各种实施方案中，将液滴暴露于介于72℃与80℃之间的第三温度。在各种实施方案中，将液滴暴露于介于74℃与78℃之间的第三温度。在具体实施方案中，将液滴暴露于约72℃的第三温度。在具体实施方案中，将液滴暴露于约75℃的第三温度。在具体实施方案中，将液滴暴露于约80℃的第三温度。在各种实施方案中，将液滴暴露于第三温度并持续介于1分钟与20分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于3分钟与15分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于5分钟与12分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于8分钟与12分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续约10分钟。在各种实施方案中，将液滴暴露于第三温度并持续介于1分钟与10分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于1分钟与5分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于2分钟与4分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续约3分钟。

在具体实施方案中，将液滴暴露于介于70℃与80℃之间的第三温度并持续介于2分钟与4分钟之间的时间。

在具体实施方案中，标签片段化方案涉及将液滴暴露于约37℃的第一温度并持续约30分钟，然后将液滴暴露于约65℃的第二温度并持续约5分钟，接着进一步将液滴暴露于约72℃的第三温度并持续约3分钟，以使得能够切割基因组DNA、***衔接子序列和发生核酸延伸。

液滴中基因组DNA释放和标签片段化的方案

在各种实施方案中，基因组DNA从染色质释放和对基因组DNA进行标签片段化在单个液滴(例如，第一液滴)中进行。在各种实施方案中，基因组DNA在标签片段化之前释放。在各种实施方案中，基因组DNA释放和标签片段化同时进行。例如，在特定温度下，蛋白酶与包装的基因组DNA相互作用以释放基因组DNA，转座酶与基因组DNA的可接近区域相互作用以进行切割和加标签。这里，当基因组DNA释放并且基因组DNA的更多区域变得可接近时，转座酶可以与这些另外的可接近区域相互作用，以进行切割和加标签。在各种实施方案中，标签片段化至少部分地发生在基因组释放之前。例如，标签片段化可以发生在基因组DNA的可接近区域(例如，基因组DNA的不与组蛋白结合和/或没有被包装的区域)上。接着，基因组DNA随后可以从染色质包装中释放，从而实现接近基因组DNA的另外的区域。因此，标签片段化可以进一步发生在基因组DNA的此时可接近的这些另外的区域上。

在各种实施方案中，用于执行基因组DNA释放和标签片段化的方案可以是以下任一种：用于执行基因组DNA释放的方案、用于对基因组DNA进行标签片段化的方案，或者用于对基因组DNA进行标签片段化的方案的改进版本。

在一些实施方案中，用于执行基因组DNA释放和标签片段化的方案可以是如上所述用于执行基因组DNA释放的方案。例如，用于执行基因组DNA释放和标签片段化的方案可以涉及将液滴暴露于介于40℃与60℃之间的第一温度并持续介于50分钟与70分钟之间的时间，然后将液滴暴露于介于70℃与90℃之间的第二温度并持续介于1分钟与20分钟之间的时间。作为另一个实例，用于执行基因组DNA释放和标签片段化的方案可以涉及将液滴暴露于约50℃的第一温度并持续约60分钟，然后将液滴暴露于约80℃的第二温度并持续约10分钟。

在一些实施方案中，用于执行基因组DNA释放和标签片段化的方案可以是如上所述用于对基因组DNA执行标签片段化的方案。例如，用于执行基因组DNA释放和标签片段化的方案可以涉及将液滴暴露于约37℃的第一温度并持续约30分钟，然后将液滴暴露于约65℃的第二温度并持续约5分钟，接着进一步将液滴暴露于约72℃的第三温度并持续约3分钟，以使得能够切割基因组DNA、***衔接子序列和发生核酸延伸。

在一些实施方案中，用于执行基因组DNA释放和标签片段化的方案可以是如上所述用于对基因组DNA进行标签片段化的方案的改进版本。在各种实施方案中，gDNA释放和标签片段化组合方案涉及将液滴至少暴露于第一温度、第二温度、第三温度和第四温度，以使得能够释放gDNA、切割gDNA、***衔接子序列和发生核酸延伸。一般来讲，第一温度低于第二温度，第二温度低于第三温度，第三温度低于第四温度。

在各种实施方案中，将液滴暴露于介于35℃与55℃之间的第一温度。在各种实施方案中，将液滴暴露于介于35℃与50℃之间的第一温度。在各种实施方案中，将液滴暴露于介于35℃与45℃之间的第一温度。在各种实施方案中，将液滴暴露于介于35℃与40℃之间的第一温度。在具体实施方案中，将液滴暴露于约37℃的第一温度。在各种实施方案中，将液滴暴露于第一温度并持续介于5分钟与120分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于10分钟与100分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于20分钟与80分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于25分钟与60分钟之间的时间。在各种实施方案中，将液滴暴露于第一温度并持续介于30分钟与50分钟之间的时间。在具体实施方案中，将液滴暴露于第一温度并持续约30分钟。

在各种实施方案中，将液滴暴露于介于40℃与70℃之间的第二温度。在各种实施方案中，将液滴暴露于介于50℃与65℃之间的第二温度。在各种实施方案中，将液滴暴露于介于50℃与60℃之间的第二温度。在各种实施方案中，将液滴暴露于介于50℃与55℃之间的第二温度。在各种实施方案中，将液滴暴露于介于60℃与70℃之间的第二温度。在各种实施方案中，将液滴暴露于介于65℃与70℃之间的第二温度。在具体实施方案中，将液滴暴露于约50℃的第二温度。在具体实施方案中，将液滴暴露于约60℃的第二温度。在具体实施方案中，将液滴暴露于约65℃的第二温度。在各种实施方案中，将液滴暴露于第二温度并持续介于1分钟与20分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于1分钟与15分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于1分钟与10分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续介于3分钟与6分钟之间的时间。在各种实施方案中，将液滴暴露于第二温度并持续约5分钟。

在各种实施方案中，将液滴暴露于介于68℃与85℃之间的第三温度。在各种实施方案中，将液滴暴露于介于70℃与82℃之间的第三温度。在各种实施方案中，将液滴暴露于介于70℃与80℃之间的第三温度。在各种实施方案中，将液滴暴露于介于72℃与80℃之间的第三温度。在各种实施方案中，将液滴暴露于介于72℃与78℃之间的第三温度。在各种实施方案中，将液滴暴露于介于72℃与75℃之间的第三温度。在各种实施方案中，将液滴暴露于介于74℃与78℃之间的第三温度。在一些实施方案中，将液滴暴露于第三温度并持续介于40分钟与80分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于50分钟与70分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于55分钟与65分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续介于57分钟与63分钟之间的时间。在各种实施方案中，将液滴暴露于第三温度并持续约60分钟。

在各种实施方案中，将液滴暴露于介于80℃与100℃之间的第四温度。在各种实施方案中，将液滴暴露于介于85℃与95℃之间的第四温度。在各种实施方案中，将液滴暴露于介于90℃与95℃之间的第四温度。在各种实施方案中，将液滴暴露于介于90℃与100℃之间的第四温度。在各种实施方案中，将液滴暴露于介于92℃与98℃之间的第四温度。在各种实施方案中，将液滴暴露于介于94℃与96℃之间的第四温度。在具体实施方案中，将液滴暴露于约95℃的第四温度。在一些实施方案中，将液滴暴露于第四温度并持续介于1分钟与40分钟之间的时间。在各种实施方案中，将液滴暴露于第四温度并持续介于10分钟与30分钟之间的时间。在各种实施方案中，将液滴暴露于第四温度并持续介于15分钟与25分钟之间的时间。在各种实施方案中，将液滴暴露于第四温度并持续介于18分钟与22分钟之间的时间。在各种实施方案中，将液滴暴露于第四温度并持续约20分钟。

在具体实施方案中，gDNA释放和标签片段化组合方案涉及将液滴暴露于约37℃约30分钟，然后将液滴暴露于约65℃约5分钟，进一步将液滴暴露于约75℃约60分钟，然后进一步将液滴暴露于约95℃约20分钟，以使得能够释放gDNA、切割gDNA、***衔接子序列和发生核酸延伸。

核酸扩增方案

在各种实施方案中，核酸扩增方案可以涉及变性、退火和核酸延伸的多个循环。例如，核酸扩增方案可以涉及将液滴暴露于介于90℃与100℃之间(例如，98℃)的变性温度，之后将液滴暴露于介于55℃与65℃之间(例如，61℃)的退火温度，之后将液滴暴露于介于65℃与75℃之间(例如，72℃)的延伸温度。在具体实施方案中，核酸扩增方案包括将液滴暴露于以下温度：1)98℃30秒；2)98℃10秒，之后72℃45秒，共10个循环；3)98℃30秒，之后61℃30秒，之后72℃45秒，共10个循环；以及3)72℃3分钟，1个循环。

在各种实施方案中，核酸扩增反应可以是等温扩增反应。在此类实施方案中，核酸扩增方案可以涉及将液滴暴露于两种温度。例如，第一温度可以介于60℃与70℃之间(例如，65℃)。在各种实施方案中，将液滴暴露于第一温度并持续约2小时。第二温度可以介于75℃与85℃之间。在各种实施方案中，将液滴暴露于第一温度并持续约30分钟。

液滴中标签片段化与核酸扩增的方案

在各种实施方案中，标签片段化与核酸扩增发生在单个液滴(例如，第二液滴)中。在各种实施方案中，标签片段化和扩增组合方案涉及将上述标签片段化方案与上述核酸扩增方案组合。在各种实施方案中，标签片段化和扩增组合方案涉及首先执行标签片段化(根据上述的标签片段化方案)，随后执行核酸扩增(根据上述的核酸扩增方案)。

在各种实施方案中，标签片段化方案涉及将液滴至少暴露于第一温度、第二温度和第三温度，以使得能够切割基因组DNA、***衔接子序列和发生核酸延伸。一般来讲，第一温度低于第二温度，第二温度低于第三温度。在具体实施方案中，将液滴暴露于介于35℃与40℃之间的第一温度并持续介于30分钟与50分钟之间的时间。在具体实施方案中，将液滴暴露于约37℃的第一温度并持续约30分钟。在具体实施方案中，将液滴暴露于介于60℃与70℃之间的第二温度并持续介于3分钟与6分钟之间的时间。在具体实施方案中，将液滴暴露于约65℃的第二温度并持续约5分钟。在具体实施方案中，将液滴暴露于介于70℃与80℃之间的第三温度并持续介于2分钟与4分钟之间的时间。在具体实施方案中，将液滴暴露于约72℃的第三温度并持续约3分钟。在具体实施方案中，标签片段化方案涉及将液滴暴露于约37℃的第一温度并持续约30分钟，然后将液滴暴露于约65℃的第二温度并持续约5分钟，接着进一步将液滴暴露于约72℃的第三温度并持续约3分钟，以使得能够切割基因组DNA、***衔接子序列和发生核酸延伸。

在标签片段化方案之后，经标签片段化的基因组DNA(例如，具有衔接子序列的DNA片段)经历核酸扩增。在一些实施方案中，核酸扩增方案涉及变性、退火和核酸延伸的多个循环，这在上文描述过。在一些实施方案中，核酸扩增方案涉及等温扩增反应，这在上文描述过。

条形码和加条形码的珠粒

本发明的实施方案涉及提供一个或多个条形码序列，用于在图1B所示的步骤170期间标记单细胞分析物以及/或者用于标记图4B所示的经标签片段化的基因组DNA 480。将一个或多个条形码序列包封在具有来源于单细胞的细胞裂解物的乳液中。因此，一个或多个条形码对该细胞的分析物(诸如经标签片段化的基因组DNA)进行标记，从而使得能够随后确定序列读段来源于源自该细胞的分析物。

在各种实施方案中，将多个条形码添加到具有细胞裂解物的乳液中。在各种实施方案中，添加到乳液中的多个条形码包括至少10²个、至少10³个、至少10⁴个、至少10⁵个、至少10⁵个、至少10⁶个、至少10⁷个或至少10⁸个条形码。在各种实施方案中，添加到乳液中的多个条形码具有相同的条形码序列。在各种实施方案中，添加到乳液中的多个条形码包含“唯一识别序列”(UMI)。UMI是具有可用于识别和/或区分与UMI缀合的一个或多个第一分子与一个或多个第二分子的序列的核酸。UMI通常很短，例如长度约为5至20个碱基，并且可以与一种或多种感兴趣的靶分子或其扩增产物缀合。UMI可以是单链或双链的。在一些实施方案中，条形码序列和UMI两者被掺入条形码中。通常，UMI用于区分群体或群组内相似类型的分子，然而条形码序列用于区分源自不同细胞的群体或分子群组。因此，UMI可以用于对特定分子的数量进行计数或定量(例如，对RNA转录物的数量进行定量)。在使用UMI和条形码序列两者的一些实施方案中，UMI的序列长度比条形码序列更短。在美国专利申请号15/940,850中进一步描述了条形码的使用，所述申请据此以引用的方式整体并入。

在一些实施方案中，条形码是单链条形码。可以使用多种技术产生单链条形码。例如，它们可以通过获得多个DNA条形码分子来产生，其中不同分子的序列至少部分不同。然后这些分子可以使用例如不对称PCR来扩增以便产生单链拷贝。替代性地，条形码分子可以被环化，并且然后进行滚动循环扩增。这将产生其中加条形码的原始DNA被串联多次成为单一的长分子的产物分子。

在一些实施方案中，可以通过对线性DNA进行环化来获得包含侧翼为任意数量的恒定序列的条形码序列的环状条形码DNA。与任何恒定序列退火的引物可以通过使用链置换聚合酶(诸如Phi29聚合酶)来启动滚动循环扩增，从而产生条形码DNA的长的线性串联体。

在各种实施方案中，条形码可以连接到引物序列，该引物序列使得条形码能够标记靶核酸。在一个实施方案中，条形码连接到正向引物序列上。在各种实施方案中，正向引物序列是与核酸的正向靶标杂交的基因特异性引物。在各种实施方案中，正向引物序列是与附接到基因特异性引物上的互补序列杂交的恒定区域，诸如PCR柄。可以在反应混合物(例如，图1B中的反应混合物140)中提供附接到基因特异性引物上的互补序列。在条形码上包括恒定的正向引物序列可能是优选的，因为条形码可以具有相同的正向引物，并且不需要单独设计成连接到基因特异性正向引物上。

在各种实施方案中，条形码可以可释放地附接到支撑结构(诸如珠粒)上。因此，具有多个拷贝条形码的单个珠粒可以被分配到具有细胞裂解物的乳液中，从而使得能够用珠粒的条形码标记细胞裂解物的分析物。示例性珠粒包括固体珠粒(例如，二氧化硅珠粒)、聚合物珠粒或水凝胶珠粒(例如，聚丙烯酰胺、琼脂糖或海藻酸盐珠粒)。珠粒可以使用多种技术合成。例如，使用混合-***技术，可以合成具有相同随机条形码序列的许多拷贝的珠粒。这可以通过例如产生多个包括DNA能够在其上合成的位点的珠粒来实现。可以将珠粒分为四个集合，并且每个集合都与将向其添加一个基底(诸如A、T、G或C)的缓冲液混合。通过将群体分成四个子群体，每个子群体可以具有添加到其表面上的碱基中的一种碱基。该反应能够以使得仅添加单一碱基而不添加另外的碱基的方式完成。可以将来自所有四个亚群的珠粒合并并混合在一起，然后第二次分成四个群体。在该分开步骤中，可以将来自前四个群体的珠粒随机地混合在一起。然后可以将它们添加到四种不同的溶液中，在每个珠粒的表面上添加另一种随机的碱基。可以重复该过程，以便在珠粒的表面上产生长度约等于群体被***和混合的次数的序列。例如，如果这样做10次，将得到这样的珠粒群体：其中每个珠粒都具有在其表面上合成的相同随机10碱基序列的许多拷贝。每个珠粒上的序列将由在每个混合-***循环中该珠粒粒所终止处的反应器特定序列决定。示例性珠粒及其合成的另外细节描述于国际申请号PCT/US2016/016444中，所述申请据此以引用的方式整体并入。

试剂

本文所述的实施方案包括在乳液内用试剂包封细胞。在各种实施方案中，试剂与包封的细胞在细胞裂解的条件下相互作用，从而释放细胞的靶标分析物。试剂可以进一步与靶标分析物相互作用，为随后的加条形码和/或扩增做准备。

在各种实施方案中，试剂包括一种或多种导致细胞裂解的裂解剂。裂解剂的实例包括洗涤剂，诸如Triton X-100、Nonidet P-40(NP40)以及细胞毒素。在各种实施方案中，包括0.01％、0.05％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、1.1％、1.2％、1.3％、1.4％、1.5％、1.6％、1.7％、1.8％、1.9％、2.0％、3.0％、3.1％、3.2％、3.3％、3.4％、3.5％、3.6％、3.7％、3.8％、3.9％、4.0％、4.1％、4.2％、4.3％、4.4％、4.5％、4.6％、4.7％、4.8％、4.9％或5.0％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％或10％NP40(v/v)。在各种实施方案中，所述试剂包括1％NP40。在各种实施方案中，所述试剂包括5％NP40。在具体实施方案中，所述试剂包括10％NP40。

在各种实施方案中，与细胞包封在一起的试剂包括ddNTP、抑制剂(诸如核糖核酸酶抑制剂)和稳定剂(诸如二硫苏糖醇(DTT))。在各种实施方案中，试剂还包括有助于细胞裂解和/或基因组DNA访问的蛋白酶。在各种实施方案中，试剂中的蛋白酶可以包括蛋白酶K、胃蛋白酶、蛋白酶-枯草杆菌蛋白酶Carlsberg、热溶蛋白芽孢杆菌X型蛋白酶或曲霉XIII型蛋白酶Saitoi中的任一者。在各种实施方案中，试剂包括脱氧核糖核苷三磷酸(dNTP)试剂，包括脱氧腺苷三磷酸、脱氧胞苷三磷酸、脱氧鸟嘌呤三磷酸和脱氧胸苷三磷酸。

在各种实施方案中，试剂包括与从单细胞释放的靶标分析物相互作用的药剂。例如，试剂包括逆转录酶，其将从细胞释放的mRNA转录物逆转录以生成相应的cDNA。作为另一个实例，试剂包括与mRNA转录物杂交的引物，从而使得逆转录反应能够发生。

在各种实施方案中，试剂包括使得能够对基因组DNA进行标签片段化的作用剂。在此类实施方案中，标签片段化与细胞裂解和基因组DNA释放发生在相同的液滴中。例如，试剂可以包括用于切割基因组DNA的转座酶。在各种实施方案中，转座酶包括MuA转座酶或Tn5转座酶(或突变转座酶Tn5)。转座酶Tn5的实例包括Illumina Tagment DNA酶(Illumina目录号20034197或20034198)和Nextera Tn5转座酶(Illumina目录号FC-121-1030)。

在各种实施方案中，试剂包括用于对由切割基因组DNA所产生的DNA片段执行核酸延伸的酶。在各种实施方案中，酶是逆转录酶。在各种实施方案中，酶是DNA聚合酶。DNA聚合酶的实例包括热启动聚合酶(例如，来自Qiagen的HotStarTaq DNA聚合酶或来自NewEngland Biolabs的

高保真DNA聚合酶)和等温DNA聚合酶(例如嗜热脂肪芽孢杆菌(Bst)DNA聚合酶，诸如Bst 2.0或Bst 3.0DNA聚合酶)。

反应混合物

如本文所述，向具有细胞裂解物的乳液中提供反应混合物(例如，参见图1B中的细胞加条形码步骤170)。通常，反应混合物包含足以在细胞裂解物的分析物上进行反应(诸如核酸扩增)的反应物。

在各种实施方案中，反应混合物包含当置于催化合成与核酸链互补的引物延伸产物的条件下时，能够沿互补链作为合成起始点的引物。在各种实施方案中，反应混合物包含四种不同的三磷酸脱氧核糖核苷(腺苷、鸟嘌呤、胞嘧啶和胸腺嘧啶)。在各种实施方案中，反应混合物包含用于核酸扩增的酶。用于核酸扩增的酶的实例包括DNA聚合酶、用于热循环扩增的热稳定聚合酶、或用于等温扩增的多置换扩增的聚合酶。也可以应用其他不太常见形式的扩增，诸如使用依赖于DNA的RNA聚合酶进行扩增，以从原始DNA靶标产生多个拷贝的RNA，所述多个拷贝的RNA其本身可以转换回DNA，从而导致实质上靶标的扩增。活的有机体也可以用于扩增靶标，例如通过将靶标转化到有机体中，所述有机体然后允许或诱导在有或没有有机体复制的情况下拷贝靶标。

在各种实施方案中，试剂包括脱氧核糖核苷三磷酸(dNTP)试剂，包括脱氧腺苷三磷酸、脱氧胞苷三磷酸、脱氧鸟嘌呤三磷酸和脱氧胸苷三磷酸。可以通过调节反应物在反应混合物中的浓度来控制核酸扩增的程度。在一些情形中，这对于使用扩增产物的反应的微调是有用的。

在各种实施方案中，反应混合物包括使得能够对基因组DNA进行标签片段化的作用剂。在此类实施方案中，标签片段化与细胞加条形码和核酸扩增发生在相同的液滴中。例如，反应混合物可以包括用于切割基因组DNA的转座酶。在各种实施方案中，转座酶包括MuA转座酶或Tn5转座酶(或突变转座酶Tn5)。转座酶Tn5的实例包括Illumina Tagment DNA酶(Illumina目录号20034197或20034198)和Nextera Tn5转座酶(Illumina目录号FC-121-1030)。

在各种实施方案中，反应混合物包括用于对由切割基因组DNA所产生的基因组DNA片段执行核酸延伸的酶。在各种实施方案中，酶是DNA聚合酶。DNA聚合酶的实例包括热启动聚合酶(例如，来自Qiagen的HotStarTaq DNA聚合酶或来自New England Biolabs的

高保真DNA聚合酶)和等温DNA聚合酶(例如嗜热脂肪芽孢杆菌(Bst)DNA聚合酶，诸如Bst2.0或Bst 3.0DNA聚合酶)。

引物

本文所述的本发明的实施方案使用引物来进行单细胞分析。例如，引物在图1B所示的工作流程期间生效。引物可以用于引发感兴趣核酸的特定序列(例如，与这些特定序列杂交)，使得感兴趣核酸可以被处理(例如，逆转录、加条形码和/或扩增)。此外，引物使得能够在测序后鉴定靶标区域。

在各种实施方案中，本文所述引物的长度介于5个核碱基与50个核碱基之间。在各种实施方案中，本文所述引物的长度介于7个核碱基与45个核碱基之间。在各种实施方案中，本文所述引物的长度介于10个核碱基与40个核碱基之间。在各种实施方案中，本文所述引物的长度介于12个核碱基与35个核碱基之间。在各种实施方案中，本文所述引物的长度介于15个核碱基与32个核碱基之间。在各种实施方案中，本文所述引物的长度介于18个核碱基与30个核碱基之间。在各种实施方案中，本文所述引物的长度介于18个核碱基与25个核碱基之间。

再次参考图1B，在各种实施方案中，引物可以包括在与细胞110一起包封的试剂120中。在各种实施方案中，包括在试剂中的引物可用于引发RNA转录物并使这些RNA转录物能够逆转录。在各种实施方案中，试剂120中的引物可以包括用于引发RNA和/或用于引发基因组DNA的RNA引物。

在各种实施方案中，引物可以包括在与细胞裂解物130一起包封的反应混合物140中。在各种实施方案中，包括在反应混合物中的引物可用于引发核酸(例如，cDNA、gDNA，和/或cDNA/gDNA的扩增子)并使这些核酸能够发生核酸扩增。反应混合物140中的此类引物可以包括用于引发已从RNA逆转录的cDNA的cDNA引物，以及/或者用于引发基因组DNA和/或用于引发已从基因组DNA生成的产物的DNA引物。在各种实施方案中，试剂的引物和反应混合物的引物形成针对核酸上的感兴趣区域的引物组(例如，正向引物和反向引物)。在各种实施方案中，引物可以包括在与细胞裂解物130一起包封的条形码145中或与其连接。在美国申请号16/749,731中描述了用于单细胞分析工作流过程中的引物的进一步描述和实例，所述申请据此以引用的方式整体并入。

在各种实施方案中，在试剂、反应混合物或条形码中任一者中的引物的数量可以在下列范围内：约1个至约500个或更多个引物，例如约2个至100个引物、约2个至10个引物、约10个至20个引物、约20个至30个引物、约30个至40个引物、约40个至50个引物、约50个至60个引物、约60个至70个引物、约70个至80个引物、约80个至90个引物、约90个至100个引物、约100个至150个引物、约150个至200个引物、约200个至250个引物、约250个至300个引物、约300个至350个引物、约350个至400个引物、约400个至450个引物、约450个至500个引物、或约500个引物或更多个引物。

在各种实施方案中，试剂或反应混合物中的引物被设计用于全基因组测序。具体地讲，引物被设计成引发经标签片段化的基因组DNA的衔接子序列。例如，再次参见图4B中的顶部小图400E，引物可以与序列420B、420C、440或445中的任一者杂交，从而使核酸能够从引物延伸出来。因此，考虑到经标签片段化的基因组DNA跨全基因组存在，这些引物使得能够发生全基因组核酸扩增。

在各种实施方案中，试剂或反应混合物中的引物是通用引物。示例的通用引物包括至少含有3个连续脱氧胸苷核碱基的引物(例如寡核苷酸dT引物)。在各种实施方案中，试剂中的引物是反向引物。在具体实施方案中，试剂中的引物仅为反向引物，而不包括正向引物。在各种实施方案中，对于靶标核酸(例如，靶标DNA或靶标RNA)测序，反应混合物(例如，图1B中的反应混合物140)中的引物包括与感兴趣核酸(例如，RNA或gDNA)上的正向靶标互补的正向引物。在具体实施方案中，反应混合物包括与cDNA链(由RNA转录物生成)上的正向靶标互补的正向引物，还包括与gDNA上的正向靶标互补的正向引物。在各种实施方案中，反应混合物中的引物是靶向感兴趣基因的正向靶标的基因特异性引物。

对于全转录组RNA测序，在各种实施方案中，试剂(例如，图1B中的试剂120)的引物可以包括随机引物序列。在各种实施方案中，随机引物与逆转录cDNA的序列杂交，从而使得能够引发cDNA。在各种实施方案中，试剂120包括各种不同的随机引物，其能够引发从整个转录组上的mRNA转录物生成的全部或大部分cDNA。这使得能够处理和分析全转录组上的mRNA转录物。在各种实施方案中，随机引物包含具有5个核碱基的序列。在各种实施方案中，随机引物包含具有6个核碱基的序列。在各种实施方案中，随机引物包含具有9个核碱基的序列。在各种实施方案中，随机引物包含至少具有5个核碱基的序列。在各种实施方案中，随机引物包含至少具有6个核碱基的序列。在各种实施方案中，随机引物包含至少具有9个核碱基的序列。在各种实施方案中，随机引物包含至少具有6个核碱基、至少具有7个核碱基、至少具有8个核碱基、至少具有9个核碱基、至少具有10个核碱基、至少具有11个核碱基、至少具有12个核碱基、至少具有13个核碱基、至少具有14个核碱基、至少具有15个核碱基、至少具有16个核碱基、至少具有17个核碱基、至少具有18个核碱基、至少具有19个核碱基、至少具有20个核碱基、至少具有21个核碱基、至少具有22个核碱基、至少具有23个核碱基、至少具有24个核碱基、至少具有25个核碱基、至少具有26个核碱基、至少具有27个核碱基、至少具有28个核碱基、至少具有29个核碱基、至少具有30个核碱基、至少具有31个核碱基、至少具有32个核碱基、至少具有33个核碱基、至少具有34个核碱基或至少具有35个核碱基的序列。

在各种实施方案中，随机引物包含一个或多个核糖核苷酸核碱基。在一些实施方案中，随机引物624在3’端包括一个核糖核苷酸核碱基。在一些实施方案中，随机引物624在3’端包括两个核糖核苷酸核碱基。在一些实施方案中，随机引物624在3’端包括三个、四个、五个、六个、七个、八个、九个或十个核糖核苷酸核碱基。在随机引物的3’端存在核糖核苷酸引物确保该随机引物仅能使cDNA延伸，而不能使RNA延伸。

在各种实施方案中，试剂包括与mRNA转录物的一部分互补的反向引物。在各种实施方案中，该反向引物是通用引物，诸如与信使RNA转录物的多聚腺苷酸尾杂交的寡核苷酸dT引物。因此，该反向引物与mRNA转录物的一部分杂交，并使得能够通过mRNA转录物的逆转录生成cDNA链。

在各种实施方案中，对于全转录组RNA测序，反应混合物(例如，图1B中的反应混合物140)的引物包括恒定正向引物和恒定反向引物。恒定的正向引物与使得能够从cDNA引发的随机正向引物杂交。恒定的反向引物与先前使得能够逆转录mRNA转录物的反向恒定区域(诸如PCR柄)的序列杂交。

在各种实施方案中，包括在试剂(例如，图1B中的试剂120)或反应混合物(例如，图1B中的反应混合物140)中的引物包括另外的序列。此类另外的序列可能具有功能性目的。例如，引物可以包括用于测序目的的读段序列。作为另一个实例，引物可以包括恒定区。一般来讲，引物的恒定区可以与另一个核酸序列上的互补恒定区杂交，以便在核酸扩增期间结合该核酸序列。例如，引物的恒定区可以与条形码序列的互补恒定区互补。因此，在核酸扩增期间，条形码序列结合到所生成的扩增子中。

在各种实施方案中，代替引物被包括在反应混合物(例如，图1B中的反应混合物140)中，此类引物可以被包括在条形码(例如，图1B中的条形码145)中或连接到其上。在特定的实施方案中，引物连接到条形码的末端，并且因此可用于与细胞裂解物中的核酸的靶序列杂交。

在各种实施方案中，反应混合物的引物、试剂的引物或条形码的引物可以在一个步骤中或在多于一个步骤中添加到乳液中。例如，可以在两个或更多个步骤、三个或更多个步骤、四个或更多个步骤或五个或更多个步骤中添加引物。无论引物是在一个步骤中还是一个以上步骤中添加，其都可以在添加裂解剂之后、在添加裂解剂之前或与添加裂解剂同时添加。当在添加裂解剂之前或之后添加时，反应混合物的引物可以在与添加裂解剂分开的步骤中添加(例如，如图1B所示的两步骤工作流过程中所示例的)。

用于扩增靶核酸的引物组通常包括与靶核酸或其互补物互补的正向引物和反向引物。在一些实施方案中，可以在单个扩增反应中使用多个靶标特异性引物对执行扩增，其中每个引物对包括正向靶标特异性引物和反向靶标特异性引物，其中每个引物包括至少一个与样品中的相应靶序列基本上互补或基本相同的序列，并且每个引物对具有不同的相应靶序列。因此，本文中的某些方法用于检测或识别来自单细胞样品的多个靶序列。

示例性***和/或计算机实施方案

图5描绘了用于实现参照图1至图4B所述的***和方法的示例计算装置(例如，图1A所示的计算装置180)。例如，示例计算装置180被配置为执行包括读段比对215和/或表征220的计算机模拟步骤。计算装置的实例可以包括个人计算机、台式计算机、膝上型计算机、服务器计算机、集群内的计算节点、信息处理器、手持装置、多处理器***、基于微处理器或可编程的消费者电子装置、网络PC、小型计算机、主机计算机、移动电话、PDA、平板电脑、传呼机、路由器、交换机等。

在一些实施方案中，计算装置180包括耦接至芯片组504的至少一个处理器502。芯片组504包括存储器控制器集线器520和输入/输出(I/O)控制器集线器522。存储器506和图形适配器512耦接至存储器控制器集线器520，且显示器518耦接至图形适配器512。存储装置508、输入接口514和网络适配器516耦接至I/O控制器集线器522。计算装置180的其他实施方案具有不同的架构。

存储装置508是非暂时性计算机可读存储介质，例如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器装置。存储器506保持由处理器502使用的指令和数据。输入接口514是触摸屏接口、鼠标、跟踪球或其他类型的输入接口、键盘或其一些组合，并且用于将数据输入到计算装置180中。在一些实施方案中，计算装置180可以被配置成经由来自用户的手势从输入接口514接收输入(例如命令)。图形适配器512在显示器518上显示图像和其它信息。例如，显示器518可以示出与所生成的文库(例如，DNA或RNA文库)和/或单细胞的任何表征有关的指标。网络适配器516将计算装置180耦接至一个或多个计算机网络。

计算装置180被调适来执行用于提供本文描述的功能的计算机程序模块。如本文中所使用，术语“模块”是指用于提供指定功能的计算机程序逻辑。因此，模块可以实施于硬件、固件和/或软件中。在一个实施方案中，程序模块存储于存储装置508上，载入至存储器506中且由处理器502执行。

计算装置180的类型可以不同于本文所述的实施方案。例如，计算装置180可以缺少上述组件中的一些，诸如图形适配器512、输入接口514和显示器518。在一些实施方案中，计算装置180可以包括处理器502，用于执行储存在存储器506上的指令。

这些比对序列读段和表征文库和/或细胞的方法可以在硬件、软件或这两者的组合中实现。在一个实施方案中，提供了一种非暂态机器可读存储介质(诸如上文所述的介质)，该介质包括用机器可读数据编码的数据存储材料，在操作用指令编程以便使用所述数据的机器时，该介质能够显示本发明的任何数据集，以及本发明的执行和结果。此类数据可以用于各种目的，诸如患者监测、治疗考虑等。上文所述的方法的实施方案可以在可编程计算机上执行的计算机程序中实现，所述可编程计算机包括处理器、数据存储***(包括易失性和非易失性存储器和/或存储元件)、图形适配器、输入接口、网络适配器、至少一个输入装置和至少一个输出装置。显示器耦接至图形适配器。程序代码被应用于输入数据以执行上文所述的功能并产生输出信息。以已知的方式将输出信息应用于一个或多个输出装置。计算机可以是例如传统设计的个人计算机、微型计算机或工作站。

每个程序可以用高级程序或面向对象的编程语言来实施以与计算机***通信。然而，如果期望的话，程序可以汇编或机器语言来实施。在任何情况下，语言都可以是编译的或解释的语言。每个这样的计算机程序优选地储存在可由通用或专用目的可编程计算机读取的存储介质或装置(例如，ROM或磁盘)上，用于当计算机读取存储介质或装置以执行本文所述的程序时配置和操作计算机。所述***还可以被认为作为配置有计算机程序的计算机可读存储介质实现，其中如此配置的存储介质使计算机以特定和预定义的方式操作以执行本文所述的功能。

可以在各种介质中提供签名模式及其数据库，以便于它们的使用。“介质”是指含有本发明的签名模式信息的制品。本发明的数据库可以记录在计算机可读介质(例如，计算机可以直接读取和访问的任何介质)上。此类介质包括但不限于：磁性存储介质，诸如软盘、硬盘存储介质和磁带；光存储介质，诸如CD-ROM；电存储介质，诸如RAM和ROM；以及这些类别的混合体，诸如磁/光存储介质。本领域技术人员可以容易地理解如何使用任何当前已知的计算机可读介质来创建包含记录当前数据库信息的制品。“记录的”是指使用如本领域中已知的任何此类方法在计算机可读介质上储存信息的过程。根据用于访问存储信息的手段，可以选择任何方便的数据存储结构。可以使用多种数据处理器程序和格式进行存储，例如文字处理文本文件、数据库格式等。

另外的实施方案

本文公开了用于在微液滴装置上进行全基因组测序扩增的方法、设备和***。作为一个实例，本公开涉及用于在Tapestri^TM装置上进行全基因组测序扩增的方法、设备和***。

在一个实施方案中，本公开涉及从单细胞形成全基因组文库的高通量方法、***和装置。本发明所公开的方法产生全基因组文库，其中来自细胞的每个片段含有相同的细胞条形码。为了产生这些单细胞全基因组文库，使用了Tapestri^TM***。在使用双液滴***的情况下，细胞被包封在第一液滴中，细胞在此处可以裂解，并进一步暴露于蛋白酶以从染色质中释放DNA。当来自每个单细胞的DNA仍包封在这些液滴中时，可以引入转座酶反应组分。在使用单液滴方法的情况下，可以进行转座酶反应，但DNA不从染色质中释放，因此这产生单细胞ATAC测序文库，而非单细胞全基因组文库。

使用Tapestri***时，在第二液滴中，转座酶反应可以与扩增反应连同包封的细胞裂解物和加条形码珠粒结合。转座酶反应可以在37℃至50℃左右的温度下进行。使用在60℃至70℃左右有活性的热启动聚合酶，可以在DNA片段变性之前填充3’端。许多热启动聚合酶在60℃至70℃左右确实具有一些活性，因此在一些实施方案中，仅需要一种聚合酶来进行填充和扩增。填充后，可以执行全基因组扩增，包括结合来自加条形码珠粒的细胞条形码序列。

一旦该乳液被打破，各自含有细胞条形码并且在两端具有已知序列的全基因组片段就可用于文库制备或进一步反应。例如，在此阶段，基于探针的捕获方法可以用于靶向测序文库。替代性地，靶向测序文库可以使用用于锚定PCR的单基因特异性引物或套叠基因特异性引物来捕获。此外，通过进行亚硫酸氢盐处理或酶促甲基测序，这些文库可以用于甲基化组分析。如果亚硫酸氢盐转化后需要更多的多样性，则细胞条形码可以具有结合的甲基化碱基。另外，利用已经附接的细胞条形码，可以进行简化的限制性酶亚硫酸氢盐测序。

实施例

实施例1:在第二液滴中包括标签片段化的单细胞分析

通过上文参照图1B所述的单细胞工作流程(例如，Tapestri^TM)对GM24385人类细胞进行处理。在该实施例中，细胞裂解和基因组DNA释放发生在第一液滴中，随后在第二液滴中进行标签片段化。试剂包括细胞裂解缓冲液和用于释放基因组DNA的蛋白酶K。在核酸扩增期间，另外将细胞条形码添加到第二液滴中，以便结合到扩增子中。

用不同的反应混合物进行了三轮不同的实验，以进行标签片段化。这三轮实验中每一者的反应混合物组分和相应体积在下表1至3中示出。所有三轮实验中的反应混合物均包括ted-CapALL酶混合物，该混合物还包括Tn5转座酶，用于切割基因组DNA并将衔接子***基因组DNA中。

特别地，第1轮的反应混合物包括含有Q5高保真DNA聚合酶的Q5主混合物。第2轮的反应混合物包括加标的Q5热启动DNA聚合酶。第3轮的反应混合物包括加标的Bst 2.0DNA聚合酶，该聚合酶是嗜热脂肪芽孢杆菌DNA聚合酶I的用计算机模拟设计的同源物。

表1:第1轮的反应混合物中各组分的体积。

<u>体积</u>	<u>反应混合物</u>
		30uL	ted-CapALL引物混合物
30uL	ted-CapALL酶混合物-Tn5转座酶
		90uL	2X Q5主混合物

表2:第2轮的反应混合物中各组分的体积。

<u>体积</u>	<u>反应混合物</u>
		30uL	ted-CapALL引物混合物
30uL	ted-CapALL酶混合物–试剂盒
		3uL	Q5 HS聚合酶
87uL	dH2O

表3:第3轮的反应混合物中各组分的体积。

<u>体积</u>	<u>反应混合物</u>
		30uL	ted-CapALL引物混合物
30uL	ted-CapALL酶混合物-试剂盒
		6uL	Bst 2.0
84uL	dH2O

对于第1轮、第2轮和第3轮中的每一者，根据以下预扩增循环方案处理包括反应混合物和细胞裂解物的液滴：1)37℃30分钟，1个循环；2)65℃5分钟，1个循环；以及3)72℃3分钟，1个循环。这里，预扩增循环方案使标签片段化和延伸能够发生。将液滴暴露于紫外线8分钟。

对于第1轮和第2轮，随后的核酸扩增循环方案如下：1)98℃30秒，1个循环；2)98℃10秒，之后72℃45秒，共10个循环；3)98℃30秒，之后61℃30秒，之后72℃45秒，共10个循环；4)72℃3分钟；以及5)保持在4℃。对于第3轮，随后的等温核酸扩增循环方案如下：1)65℃60分钟，1个循环。

扩增后，收集扩增子，测序、比对，并且根据细胞条形码的存在进行区分。

图6A描绘了根据第一轮实验(例如第1轮，其中在第二液滴中执行标签片段化)，在标签片段化和扩增后的液滴的10x显微图像。图7A描绘了根据第二轮实验(例如第2轮，其中在第二液滴中执行标签片段化)，在标签片段化和扩增后的液滴的10x显微图像。图8A描绘了根据第三轮实验(例如第3轮，其中在第二液滴中执行标签片段化)，在标签片段化和扩增后的液滴的10x显微图像。如图6A、图7A和图8A中的每一者所示，在标签片段化和扩增之后，液滴保持完整并且通常是单分散的。这表明该标签片段化方案没有破坏液滴，因此，单独的细胞裂解物保留在单独的液滴内。

图6B描绘了根据第一轮实验(例如第1轮，其中在第二液滴中执行标签片段化)，在整个全基因组上的归一化覆盖度。图7B描绘了根据第二轮实验(例如第2轮，其中在第二液滴中执行标签片段化)，在整个全基因组上的归一化覆盖度。图8B描绘了根据第三轮实验(例如第3轮，其中在第二液滴中执行标签片段化)，在整个全基因组上的归一化覆盖度。如图6B、图7B和图8B中的每一者所示，在整个全基因组上(例如，在所有23对染色体即常染色体和性染色体(染色体X和Y)以及线粒体DNA上)比对序列读段。

图9描绘了在第一轮、第二轮和第三轮实验(其中在第二液滴中执行标签片段化)中生成的全基因组文库产物。通常发现，感兴趣扩增子的大小介于150bp与2000bp之间。这里，在所有三轮实验中观察感兴趣的扩增子。下面示出的表4进一步记录了这三轮实验中的文库指标。

表4:第1轮、第2轮和第3轮中的文库指标

<u>指标</u>	<u>第1轮</u>	<u>第2轮</u>	<u>第3轮</u>
				过短(％)	5.31％	1.45％	0.73％
正确结构(％)	80.49％	60.01％	7.79％
				映射(％)	73.18％	38.97％	50.96％
中值***片段(bp)	304	266	236

实施例2:在第二液滴中包括标签片段化的另外的单细胞分析实施例

将小鼠细胞系(TIB-18)与人细胞系(K562)混合(50:50混合物)，通过上文参照图1B所述的单细胞工作流程(例如，Tapestri^TM)进行处理。在该实施例中，细胞裂解和基因组DNA释放发生在第一液滴中，随后在第二液滴中进行标签片段化。试剂包括细胞裂解缓冲液和用于释放基因组DNA的蛋白酶K。第一液滴中的细胞裂解方案包括：1)50℃1小时；2)80℃10分钟；以及3)保持在4℃。在核酸扩增期间，另外将细胞条形码添加到第二液滴中，以便结合到扩增子中。

用不同的反应混合物进行了两轮不同的实验，以进行标签片段化。这些轮次在本文中称为“第4轮”和“第5轮”。这两轮实验中每一者的反应混合物组分和相应体积在下表5和6中示出。这两轮实验中的反应混合物均包括ted-WGA酶混合物，该混合物还包括Tn5转座酶，用于切割基因组DNA并将衔接子***基因组DNA中。

特别地，第4轮的反应混合物包括含有Q5高保真DNA聚合酶的Q5主混合物。第5轮的反应混合物包括加标的Q5热启动DNA聚合酶。第3轮的反应混合物包括加标的Bst 3.0DNA聚合酶，该聚合酶是嗜热脂肪芽孢杆菌DNA聚合酶I的用计算机模拟设计的同源物。

表5:第4轮的反应混合物中各组分的体积。

<u>体积</u>	<u>反应混合物</u>
		30uL	ted-WGA缓冲液混合物
30uL	ted-CapALL酶混合物-酶混合物2
		90uL	2X Q5主混合物

表6:第5轮的反应混合物中各组分的体积。

<u>体积</u>	<u>反应混合物</u>
		30uL	ted-WGA缓冲液混合物
30uL	ted-CapALL酶混合物-酶混合物2
		6uL	Bst 3.0
84uL	dH2O

对于第4轮和第5轮中的每一者，根据以下预扩增循环方案处理包括反应混合物和细胞裂解物的液滴：1)37℃30分钟，1个循环；2)65℃5分钟，1个循环；以及3)72℃3分钟，1个循环。这里，预扩增循环方案使标签片段化和延伸能够发生。将液滴暴露于紫外线8分钟。

对于第4轮，随后的核酸扩增循环方案如下：1)98℃30秒，1个循环；2)98℃10秒，之后72℃45秒，共10个循环；3)98℃30秒，之后61℃30秒，之后72℃45秒，共10个循环；4)72℃3分钟，1个循环；以及5)保持在4℃。对于第5轮，随后的等温核酸扩增循环方案如下：1)65℃2小时，1个循环；以及2)80℃30分钟。

图10A和图10B描绘了根据第四轮实验(例如第4轮，其中在第二液滴中执行标签片段化)，在鼠类细胞系(balbc)和人类细胞系(hg38)的整个全基因组上的归一化覆盖度。图11A和图11B描绘了根据第五轮实验(例如第5轮，其中在第二液滴中执行标签片段化)，在鼠类细胞系(balbc)和人类细胞系(hg38)的整个全基因组上的归一化覆盖度。

如图10A和图11A中的每一者所示，在整个小鼠全基因组上(例如，在所有19对染色体即常染色体和性染色体(染色体X，因为仅测试了来自雌性小鼠的细胞)以及线粒体DNA上)比对序列读段。此外，如图10B和图11B中的每一者所示，在整个人类全基因组上(例如，在所有22对染色体即常染色体和性染色体(染色体X和Y)以及线粒体DNA上)比对序列读段。

下面示出的表7进一步记录了这两轮实验中的文库指标。

表7:第4轮和第5轮中的文库指标

实施例3:在第一液滴中包括标签片段化的另外的单细胞分析实施例

将小鼠细胞系(TIB-18)与人细胞系(GM24385)在DPBS中混合(50:50混合物)，通过上文参照图1B所述的单细胞工作流程(例如，Tapestri^TM)进行处理。在该实施例中，细胞裂解、基因组DNA释放和标签片段化发生在第一液滴中，随后在第二液滴中加条形码以及进行核酸扩增。对于这些轮次中的两轮，包括在第一液滴中的试剂包括细胞裂解缓冲液、用于释放基因组DNA的蛋白酶和标签片段化混合物(例如，包括转座酶)。对于这些轮次中的一轮，不包括蛋白酶。

用不同的试剂进行了三轮不同的实验，以进行标签片段化。这些轮次在本实施例中称为“第6轮”、“第7轮”和“第8轮”。这三轮实验中每一者的试剂组分和相应体积在下表8、9和10中示出。这三轮实验中的试剂均包括ted-CapALL酶混合物，该混合物还包括Tn5转座酶，用于切割基因组DNA并将衔接子***基因组DNA中。此外，ted-CapALL引物混合物还包括逆转录酶，用于在***衔接子后进行延伸。

特别地，第6轮的试剂不包括蛋白酶。这里，第6轮由不使用蛋白酶的示例常规单细胞工作流程建模。第7轮的试剂包括蛋白酶K(Roche PK)。第8轮的试剂包括prepGEM蛋白酶。

表8:第6轮(无蛋白酶)试剂中各组分的体积

表9:第7轮(蛋白酶K)试剂中各组分的体积

表10:第8轮(prepGEM蛋白酶)试剂中各组分的体积

对于第6轮，根据以下方案处理包括试剂和包封的细胞的液滴：1)37℃30分钟，1个循环；2)65℃5分钟，1个循环；3)72℃10分钟，1个循环；以及4)保持在4℃。这里，该方案使标签片段化和延伸能够发生。考虑到第1轮中不包括蛋白酶，所以不包括用于蛋白酶活化/失活的温度变化。

对于第7轮，根据以下方案处理包括试剂和包封的细胞的液滴：1)37℃30分钟，1个循环；2)65℃5分钟，1个循环；3)75℃60分钟，1个循环；4)95℃20分钟，1个循环；以及4)保持在4℃。

对于第8轮，根据以下方案处理包括试剂和包封的细胞的液滴：1)37℃30分钟，1个循环；2)50℃60分钟，1个循环；3)80℃10分钟，1个循环；以及4)保持在4℃。

对于第6轮、第7轮和第8轮中的每一者，将来自各个细胞的经标签片段化的基因组DNA与用于执行核酸扩增的反应混合物和细胞条形码一起包封在第二液滴中。因此，随后的核酸扩增生成已结合条形码的扩增子。扩增后，收集扩增子，测序、比对，并且根据细胞条形码的存在进行区分。

图12A和图12B描绘了根据第六轮实验(例如第6轮，其中在第一液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。图13A和图13B描绘了根据第七轮实验(例如第7轮，其中在第一液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。图14A和图14B描绘了根据第八轮实验(例如第8轮，其中在第一液滴中执行标签片段化)，在鼠类细胞系和人类细胞系的整个全基因组上的归一化覆盖度。

一般来讲，与不包括蛋白酶的第6轮(图12A/图12B)相比，包括用于释放基因组DNA的蛋白酶的第7轮和第8轮(图13A/图13B和图14A/图14B)在整个全基因组上实现了覆盖度提高。特别地，如图12A所示，第6轮在整个小鼠全基因组上实现了有限的覆盖度(例如，序列读段仅来自7对染色体)，而第7轮在16对染色体上实现了覆盖，第8轮在13对染色体上实现了覆盖。这证明通过在工作流程中结合蛋白酶，改善了对整个全基因组上的DNA的接近。

图15A和图15B描绘了在第六轮、第七轮和第八轮实验(其中在第一液滴中执行标签片段化)中的文库指标。这里，图15A和图15B中所示的文库指标是文库复杂度的度量(例如，文库大小、重复和经检查的读段对)。第6轮不包括蛋白酶，表现出最低的文库复杂度。具体地讲，如图15A所示，在这三轮实验中，第6轮实现了最低的文库大小和经检查读段对的最低数量。此外，第6轮具有第二高的重复数。图15B以百分比示出读段重复。这里，第6轮具有较高百分比的重复读段，这可能是由于缺乏蛋白酶而导致对整个全基因组上的DNA的接近。相比之下，如图15A和图15B所示，第8轮实现了最高的文库大小、经检查读段对的最高数量，以及最低的读段重复数和百分比。

下面示出的表11进一步记录了这三轮实验中的文库指标。与上面在图15A和图15B中描述的结果一致，与第7轮和第8轮相比，第6轮表现出最低的文库性能(例如，过短读段的百分比最高、具有正确结构的读段的百分比最低、映射读段的百分比最低)，从而表明将蛋白酶结合到工作流程中的价值。

表11:第6轮、第7轮和第8轮中的文库指标。

实施例4:在第一液滴或第二液滴中涉及标签片段化的单细胞分析的指标

总而言之，上述实施例1至3证明标签片段化可以(连同用于细胞裂解和基因组DNA释放的试剂一起)在第一液滴中执行或(连同用于加条形码与核酸扩增的反应混合物一起)在第二液滴中执行。

下表12示出了在第1液滴或第2液滴中对基因组DNA进行标签片段化所执行的多轮实验中的文库指标。两种方法均获得超过三百万个总读段，其中至少20％被成功映射。值得注意的是，在第2液滴中执行标签片段化导致较高的正确结构读段百分比。在第1液滴中执行标签片段化导致较高的文库复杂度(例如，较低的重复百分比)。

表12:将在第2液滴中或在第1液滴中的标签片段化进行比较的文库指标。

Claims

1.一种用于执行全基因组测序的方法，所述方法包括：

在第一液滴内提供细胞和试剂，所述试剂包括裂解试剂和蛋白酶；

在所述第一液滴内使用所述裂解试剂来裂解所述细胞；

通过将所述第一液滴暴露于介于30℃与60℃之间的温度，在所述第一液滴内使用所述蛋白酶释放基因组DNA；

通过以下方式在所述第一液滴或第二液滴中对释放的基因组DNA进行标签片段化：

在介于35℃与55℃之间的温度下使用转座酶，切割所述释放的基因组DNA并将衔接子序列结合到所述释放的基因组DNA中；然后

在介于40℃与100℃之间的温度下填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口；以及

在所述第二液滴中扩增经标签片段化的基因组DNA，以生成全基因组扩增子。

2.一种用于执行全基因组测序的方法，所述方法包括：

将细胞和试剂包封在第一液滴内，所述试剂包括裂解试剂和蛋白酶；

在所述第一液滴内使用所述裂解试剂来裂解所述细胞；

在所述第一液滴内使用所述蛋白酶释放基因组DNA；

将释放的基因组DNA和反应混合物包封在第二液滴中，所述反应混合物包含转座酶和DNA聚合酶；

通过以下方式在所述第二液滴中对所述释放的基因组DNA进行标签片段化：

使用所述转座酶，切割所述释放的基因组DNA并将衔接子序列结合到所述释放的基因组DNA中；

使用所述DNA聚合酶，填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口；以及

3.一种用于执行全基因组测序的方法，所述方法包括：

将细胞和试剂包封在第一液滴内，所述试剂包括裂解试剂、蛋白酶，以及逆转录酶或DNA聚合酶两者中的任一者；

在所述第一液滴内使用所述裂解试剂来裂解所述细胞；

在所述第一液滴内使用所述蛋白酶释放基因组DNA；

通过以下方式在所述第一液滴中对释放的基因组DNA进行标签片段化：

使用所述逆转录酶或所述DNA聚合酶中的任一者，填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口；

将经标签片段化的基因组DNA和反应混合物包封在第二液滴中；以及

在所述第二液滴中，使用所述反应混合物扩增所述经标签片段化的基因组DNA，以生成全基因组扩增子。

4.如权利要求1所述的方法，其中对所述释放的基因组DNA进行标签片段化发生在所述第一液滴内。

5.如权利要求1所述的方法，其中对所述释放的基因组DNA进行标签片段化发生在所述第二液滴内。

6.如权利要求2至5中任一项所述的方法，其中所述转座酶是MuA转座酶或Tn5转座酶。

7.如权利要求2至6中任一项所述的方法，其中所述转座酶是pA-Tn5融合转座酶。

8.如权利要求2至7中任一项所述的方法，其中所述转座酶附接至所述衔接子序列。

9.如权利要求1所述的方法，其中填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口包括使用逆转录酶或DNA聚合酶中的任一者来填充所述一个或多个缺口。

10.如权利要求2至9中任一项所述的方法，其中所述DNA聚合酶是热启动DNA聚合酶。

11.如权利要求2至9中任一项所述的方法，其中所述DNA聚合酶是嗜热脂肪芽孢杆菌(Bst)DNA聚合酶。

12.如权利要求2至11中任一项所述的方法，其中填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口包括将所述释放的基因组DNA暴露于升高的温度。

13.如权利要求12所述的方法，其中所述升高的温度为至少40℃。

14.如权利要求12所述的方法，其中所述升高的温度为至少50℃。

15.如权利要求12所述的方法，其中所述升高的温度为至少60℃。

16.如权利要求12所述的方法，其中使用逆转录酶填充一个或多个缺口，并且其中所述升高的温度介于40℃与50℃之间。

17.如权利要求12所述的方法，其中使用DNA聚合酶填充一个或多个缺口，并且其中所述升高的温度介于50℃与70℃之间。

18.如权利要求12至17中任一项所述的方法，其中将所述释放的基因组DNA暴露于所述升高的温度并持续介于3分钟与8分钟之间的时间。

19.如权利要求12至18中任一项所述的方法，其还包括将所述释放的基因组DNA暴露于进一步升高的温度。

20.如权利要求19所述的方法，其中所述进一步升高的温度为至少70℃。

21.如权利要求19所述的方法，其中所述进一步升高的温度介于70℃与80℃之间。

22.如权利要求19所述的方法，其中所述进一步升高的温度为约72℃。

23.如权利要求19所述的方法，其中所述进一步升高的温度为至少75℃。

24.如权利要求19至23中任一项所述的方法，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续介于1分钟与20分钟之间的时间。

25.如权利要求24所述的方法，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续约10分钟。

26.如权利要求19至23中任一项所述的方法，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续介于40分钟与80分钟之间的时间。

27.如权利要求26所述的方法，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续约60分钟。

28.如权利要求19至27中任一项所述的方法，其还包括将所述释放的基因组DNA暴露于更进一步升高的温度。

29.如权利要求28所述的方法，其中所述更进一步升高的温度介于90℃与100℃之间。

30.如权利要求28或29所述的方法，其中所述更进一步升高的温度为约95℃。

31.如权利要求28至30中任一项所述的方法，其中将所述释放的基因组DNA暴露于所述更进一步升高的温度并持续介于1分钟与40分钟之间的时间。

32.如权利要求28至31中任一项所述的方法，其中将所述释放的基因组DNA暴露于所述更进一步升高的温度并持续约20分钟。

33.如权利要求2至32中任一项所述的方法，其中在所述第一液滴内使用所述蛋白酶释放基因组DNA包括将所述第一液滴暴露于介于35℃与55℃之间的温度。

34.如权利要求2至33中任一项所述的方法，其中在所述第一液滴内使用所述蛋白酶释放基因组DNA包括将所述第一液滴暴露于约50℃的温度。

35.如权利要求1或3所述的方法，其中释放所述基因组DNA与切割所述释放的基因组DNA并结合衔接子序列并行发生。

36.如权利要求35所述的方法，其中释放所述基因组DNA与切割所述释放的基因组DNA并结合衔接子序列包括：

将所述第一液滴暴露于介于35℃与55℃之间的第一温度并持续介于20分钟与80分钟之间的时间；以及

将所述第一液滴暴露于介于45℃与70℃之间的第二温度并持续介于1分钟与10分钟之间的时间。

37.如权利要求36所述的方法，其中释放所述基因组DNA与切割所述释放的基因组DNA并结合衔接子序列包括：

将所述第一液滴暴露于约37℃的第一温度并持续约30分钟；以及

将所述第一液滴暴露于约65℃的第二温度并持续约5分钟。

38.如权利要求1至37中任一项所述的方法，其中扩增所述经标签片段化的基因组DNA发生在对所述释放的基因组DNA进行标签片段化之后。

39.如权利要求1至38中任一项所述的方法，其中扩增所述经标签片段化的基因组DNA包括执行变性、退火和核酸延伸的一个或多个循环。

40.如权利要求1至38中任一项所述的方法，其中扩增所述经标签片段化的基因组DNA包括执行等温核酸扩增反应。

41.如权利要求1至40中任一项所述的方法，其中所述裂解试剂是NP40。

42.如权利要求38所述的方法，其中所述裂解试剂是10％NP40。

43.如权利要求1至42中任一项所述的方法，其中所述蛋白酶是蛋白酶K。

44.如权利要求1至43中任一项所述的方法，其中使用所述反应混合物扩增所述经标签片段化的基因组DNA以生成全基因组扩增子包括将细胞条形码结合到所述全基因组扩增子中。

45.如权利要求1至44中任一项所述的方法，其还包括对所述全基因组扩增子进行测序。

46.如权利要求45所述的方法，其还包括使用经测序的全基因组扩增子生成全基因组测序文库。

47.如权利要求46所述的方法，其中映射所述全基因组测序文库的至少20％的序列读段。

48.如权利要求46所述的方法，其中映射所述全基因组测序文库的至少50％的序列读段。

49.如权利要求46所述的方法，其中映射所述全基因组测序文库的至少80％的序列读段。

50.如权利要求46所述的方法，其中所述全基因组测序文库的至少10％的序列读段具有正确的结构。

51.如权利要求46所述的方法，其中所述全基因组测序文库的至少50％的序列读段具有正确的结构。

52.如权利要求46所述的方法，其中所述全基因组测序文库的至少80％的序列具有正确的结构。

53.一种用于执行全基因组测序的***，所述***包括：

被配置为执行多个步骤的装置，所述步骤包括：

在所述第一液滴内使用所述裂解试剂来裂解所述细胞；

54.一种用于执行全基因组测序的***，所述***包括：

被配置为执行多个步骤的装置，所述步骤包括：

在所述第一液滴内使用所述裂解试剂来裂解所述细胞；

在所述第一液滴内使用所述蛋白酶释放基因组DNA；

使用所述DNA聚合酶，填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口；

55.一种用于执行全基因组测序的***，所述***包括：

被配置为执行多个步骤的装置，所述步骤包括：

在所述第一液滴内使用所述裂解试剂来裂解所述细胞；

在所述第一液滴内使用所述蛋白酶释放基因组DNA；

56.如权利要求54所述的***，其中对所述释放的基因组DNA进行标签片段化发生在所述第一液滴内。

57.如权利要求54所述的***，其中对所述释放的基因组DNA进行标签片段化发生在所述第二液滴内。

58.如权利要求54至57中任一项所述的***，其中所述转座酶是MuA转座酶或Tn5转座酶。

59.如权利要求54至58中任一项所述的***，其中所述转座酶是pA-Tn5融合转座酶。

60.如权利要求54至59中任一项所述的***，其中所述转座酶附接至所述衔接子序列。

61.如权利要求53所述的***，其中填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口包括使用逆转录酶或DNA聚合酶中的任一者来填充所述一个或多个缺口。

62.如权利要求54至61中任一项所述的***，其中所述DNA聚合酶是热启动DNA聚合酶。

63.如权利要求54至61中任一项所述的***，其中所述DNA聚合酶是嗜热脂肪芽孢杆菌(Bst)DNA聚合酶。

64.如权利要求54至63中任一项所述的***，其中填充所述释放的基因组DNA中由于结合所述衔接子序列而产生的一个或多个缺口包括将所述释放的基因组DNA暴露于升高的温度。

65.如权利要求64所述的***，其中所述升高的温度为至少40℃。

66.如权利要求64所述的***，其中所述升高的温度为至少50℃。

67.如权利要求64所述的***，其中所述升高的温度为至少60℃。

68.如权利要求64所述的***，其中使用逆转录酶填充一个或多个缺口，并且其中所述升高的温度介于40℃与50℃之间。

69.如权利要求64所述的***，其中使用DNA聚合酶填充一个或多个缺口，并且其中所述升高的温度介于50℃与70℃之间。

70.如权利要求64至69中任一项所述的***，其中将所述释放的基因组DNA暴露于所述升高的温度并持续介于3分钟与8分钟之间的时间。

71.如权利要求64至70中任一项所述的***，其还包括将所述释放的基因组DNA暴露于进一步升高的温度。

72.如权利要求71所述的***，其中所述进一步升高的温度为至少70℃。

73.如权利要求71所述的***，其中所述进一步升高的温度介于70℃与80℃之间。

74.如权利要求71所述的***，其中所述进一步升高的温度为约72℃。

75.如权利要求71所述的***，其中所述进一步升高的温度为至少75℃。

76.如权利要求71至75中任一项所述的***，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续介于1分钟与20分钟之间的时间。

77.如权利要求76所述的***，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续约10分钟。

78.如权利要求71至75中任一项所述的***，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续介于40分钟与80分钟之间的时间。

79.如权利要求78所述的***，其中将所述释放的基因组DNA暴露于所述进一步升高的温度并持续约60分钟。

80.如权利要求71至79中任一项所述的***，其还包括将所述释放的基因组DNA暴露于更进一步升高的温度。

81.如权利要求80所述的***，其中所述更进一步升高的温度介于90℃与100℃之间。

82.如权利要求80或81所述的***，其中所述更进一步升高的温度为约95℃。

83.如权利要求80至82中任一项所述的***，其中将所述释放的基因组DNA暴露于所述更进一步升高的温度并持续介于1分钟与40分钟之间的时间。

84.如权利要求80至83中任一项所述的***，其中将所述释放的基因组DNA暴露于所述更进一步升高的温度并持续约20分钟。

85.如权利要求54至84中任一项所述的***，其中在所述第一液滴内使用所述蛋白酶释放基因组DNA包括将所述第一液滴暴露于介于35℃与55℃之间的温度。

86.如权利要求54至85中任一项所述的***，其中在所述第一液滴内使用所述蛋白酶释放基因组DNA包括将所述第一液滴暴露于约50℃的温度。

87.如权利要求53或55所述的***，其中释放所述基因组DNA与切割所述释放的基因组DNA并结合衔接子序列并行发生。

88.如权利要求87所述的***，其中释放所述基因组DNA与切割所述释放的基因组DNA并结合衔接子序列包括：

89.如权利要求88所述的***，其中释放所述基因组DNA与切割所述释放的基因组DNA并结合衔接子序列包括：

将所述第一液滴暴露于约65℃的第二温度并持续约5分钟。

90.如权利要求53至89中任一项所述的***，其中扩增所述经标签片段化的基因组DNA发生在对所述释放的基因组DNA进行标签片段化之后。

91.如权利要求53至90中任一项所述的***，其中扩增所述经标签片段化的基因组DNA包括执行变性、退火和核酸延伸的一个或多个循环。

92.如权利要求53至90中任一项所述的***，其中扩增所述经标签片段化的基因组DNA包括执行等温核酸扩增反应。

93.如权利要求53至92中任一项所述的***，其中所述裂解试剂是NP40。

94.如权利要求93所述的***，其中所述裂解试剂是10％NP40。

95.如权利要求53至94中任一项所述的***，其中所述蛋白酶是蛋白酶K。

96.如权利要求53至95中任一项所述的***，其中使用所述反应混合物扩增所述经标签片段化的基因组DNA以生成全基因组扩增子包括将细胞条形码结合到所述全基因组扩增子中。

97.如权利要求53至96中任一项所述的***，其还包括对所述全基因组扩增子进行测序。

98.如权利要求97所述的***，其还包括使用所述经测序的全基因组扩增子生成全基因组测序文库。

99.如权利要求98所述的***，其中映射所述全基因组测序文库的至少20％的序列读段。

100.如权利要求98所述的***，其中映射所述全基因组测序文库的至少50％的序列读段。

101.如权利要求98所述的***，其中映射所述全基因组测序文库的至少80％的序列读段。

102.如权利要求98所述的***，其中所述全基因组测序文库的至少10％的序列读段具有正确的结构。

103.如权利要求98所述的***，其中所述全基因组测序文库的至少50％的序列读段具有正确的结构。

104.如权利要求98所述的***，其中所述全基因组测序文库的至少80％的序列读段具有正确的结构。

105.如权利要求98所述的***，其中所述全基因组测序文库中少于40％的序列读段是重复的。

106.如权利要求98所述的***，其中所述全基因组测序文库中少于10％的序列读段是重复的。

107.一种全基因组测序文库，其包含来源于单个人类细胞的每个染色体上的基因组DNA的多个序列读段，其中映射所述全基因组测序文库的所述多个序列读段中的至少20％。

108.如权利要求107所述的全基因组测序文库，其中映射所述全基因组测序文库的所述多个序列读段中的至少50％。

109.如权利要求107所述的全基因组测序文库，其中映射所述全基因组测序文库的所述多个序列读段中的至少80％。

110.一种全基因组测序文库，其包含来源于单个人类细胞的每个染色体上的基因组DNA的多个序列读段，其中所述全基因组测序文库的至少10％的序列读段具有正确的结构。

111.如权利要求110所述的全基因组测序文库，其中所述全基因组测序文库的所述多个序列读段中的至少50％具有正确的结构。

112.如权利要求110所述的全基因组测序文库，其中所述全基因组测序文库的所述多个序列读段中的至少80％具有正确的结构。

113.一种全基因组测序文库，其包含来源于单个人类细胞的每个染色体上的基因组DNA的多个序列读段，其中所述多个序列读段的少于40％是重复的。

114.如权利要求113所述的全基因组测序文库，其中所述多个序列读段的少于10％是重复的。