CN112654716A

CN112654716A - 分析细胞的方法

Info

Publication number: CN112654716A
Application number: CN201980058847.6A
Authority: CN
Inventors: 雅各布·博拉霍; 阿特拉·迪克西特
Original assignee: Coral Genomics Inc
Current assignee: Coral Genomics Inc
Priority date: 2018-07-13
Filing date: 2019-07-10
Publication date: 2021-04-13
Also published as: EP3821035A4; JP2021531823A; WO2020014331A1; EP3821035A1; US20210262010A1

Abstract

本公开内容提供了用于样品处理和分析的方法。分析多个细胞的方法可以包括提供多个细胞，所述多个细胞来源于多个受试者的细胞，所述多个细胞包含核酸分子，所述核酸分子包含将它们鉴定为来源于所述多个受试者中的受试者的条形码序列。可以对来源于多个细胞的多个核酸分子的核酸分子进行测序以提供多个测序读取，并且可以对所得的测序读取进行处理以将多个测序读取的子集与受试者相关联。

Description

分析细胞的方法

交叉引用

本申请要求于2018年7月13日提交的美国临时专利申请序列号62/697,972和于2018年7月27日提交的美国临时专利申请序列号62/711,444的权益，其各自通过引用整体并入本文。

背景技术

仅过去十年，核酸测序技术就将基因组成本降低了1,000倍以上。这些技术改进是通过将相机、合成测序和脱氧核糖核酸(DNA)在基底上的克隆扩增等进步结合起来实现的。这种高度可平行化的方法称为下一代测序(NGS)，它推动了从农业到成簇规律间隔短回文重复序列(CRISPR)领域的发现和创新。此类创新促进了遗传分析和基因型与表型之间的关联的鉴定。然而，此类分析的复杂性和费用仍然很高。

发明内容

本文认识到需要提供分析细胞和核酸分子的改进方法。本文所述的方法可以促进鉴定细胞和/或细胞所来源的受试者内的基因型与表型之间的关联。这些方法可能涉及分析来自多个受试者的细胞，这些细胞带来了代表性数量的遗传多样性。此类方法利用合并筛选测定法和计算稀疏推理中的实验进展来提高此类测定法的通量和多路复用能力，在一些情况下，它们提高几个数量级。本文提供的方法可允许同时进行多个过程，包括例如，细胞衍生、基因分型、微扰和表型分析。

一方面，本公开内容提供了一种分析多个细胞的方法，包括：(a)提供多个细胞，所述多个细胞来源于多个受试者的细胞，其中所述多个细胞包含多个核酸分子，并且其中所述多个核酸分子包含多个条形码序列；(b)对来源于所述多个细胞的所述多个核酸分子的核酸分子进行测序，从而产生与所述多个核酸分子相对应的多个测序读取，其中所述多个测序读取的一部分包括所述多个条形码序列；(c)处理所述多个测序读取，所述多个测序读取包括所述多个条形码序列；以及(d)使用所述多个条形码序列中的条形码序列将所述多个测序读取的子集与所述多个受试者中的受试者相关联，其中，在(b)之前，所述多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。

在一些实施方案中，所述多个核酸分子的子集包含所述多个条形码序列。在一些实施方案中，所述多个条形码序列相对于所述多个细胞是内源的。在一些实施方案中，所述方法还包括，在(a)之前，将所述多个条形码序列掺入所述多个细胞的所述多个核酸分子中。在一些实施方案中，所述多个条形码序列通过转导掺入所述多个细胞中。在一些实施方案中，使用病毒载体、转染、同源重组整合、农杆菌介导的基因转移、抗体缀合的寡核苷酸或游离型载体将所述多个条形码序列掺入所述多个细胞中。

在一些实施方案中，所述多个条形码序列中的所述条形码序列包含1个碱基至1000个碱基。在一些实施方案中，所述多个受试者包括多个人类受试者。在一些实施方案中，所述多个受试者的身份被加密或模糊化。

在一些实施方案中，所述多个细胞来源于体液。在一些实施方案中，所述体液包括血液、血浆、尿液、汗液或唾液。在一些实施方案中，所述多个细胞包括皮肤细胞或毛细胞。在一些实施方案中，所述多个细胞包括植物细胞。在一些实施方案中，所述植物细胞来源于植物的叶或根。

在一些实施方案中，所述多个细胞的增殖细胞通过生长速率分层。在一些实施方案中，所述多个细胞用羧基荧光素琥珀酰亚胺酯(carboxyfluorescein succinimidylester，CFSE)染色。在一些实施方案中，所述多个条形码序列的至少一个子集包括与多个微扰相关联的多个微扰条形码序列。在一些实施方案中，所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、RNAi、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。在一些实施方案中，所述多个微扰包括温度的变化或pH的变化。在一些实施方案中，所述多个微扰包括引入突变形式的基因。

在一些实施方案中，所述多个条形码序列的至少一个子集与多个测量相关联。在一些实施方案中，所述多个测量选自RNA-seq、ATAC-seq、原位测序和细胞形态学测量。在一些实施方案中，所述方法还包括：(e)将多个荧光探针引入所述多个细胞；(f)使所述多个细胞经受足以使所述多个荧光探针与所述多个条形码序列杂交的条件；以及(g)光学地检测与所述多个细胞中的所述多个条形码序列杂交的所述多个荧光探针。在一些实施方案中，所述方法还包括重复(e)-(g)一次或多次。在一些实施方案中，(c)或(d)包括使用外部数据库。在一些实施方案中，所述方法还包括，在(b)之前，处理所述多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。在一些实施方案中，所述处理包括产生所述多个核酸分子的拷贝。在一些实施方案中，所述处理包括从所述多个细胞回收所述多个核酸分子。

另一方面，本公开内容提供了一种分析多个细胞的方法，包括：(a)提供来源于多个受试者的细胞的第一多个细胞，其中所述第一多个细胞包含第一多个核酸分子，并且其中所述第一多个核酸分子包含第一多个条形码序列；(b)使所述第一多个细胞经受足以复制所述第一多个细胞中的细胞的条件，以提供包含所述第一多个细胞中的所述细胞及其复制品的第二多个细胞，其中所述第二多个细胞包含第二多个核酸分子，所述第二多个核酸分子包含第二多个条形码序列；(c)在多个分区之间划分所述第一多个细胞和所述第二多个细胞中的细胞，从而提供多个分区细胞；以及(d)对来源于所述多个分区细胞的核酸分子进行测序，从而产生与所述多个分区细胞的所述第二多个核酸分子相对应的多个测序读取，其中所述多个测序读取的一部分包括所述第二多个条形码序列；(e)处理所述多个测序读取，所述多个测序读取包括所述第二多个条形码序列；以及(f)使用所述第二多个条形码序列的条形码序列将所述多个测序读取的子集与所述多个受试者中的受试者相关联。

在一些实施方案中，所述第一多个核酸分子的子集包含所述第一多个条形码序列。在一些实施方案中，所述第一多个条形码序列相对于所述第一多个细胞是内源的。

在一些实施方案中，所述方法还包括，在(a)之前，将所述第一多个条形码序列掺入所述第一多个细胞的所述第一多个核酸分子中。在一些实施方案中，所述第一多个条形码序列通过转导掺入所述第一多个细胞中。在一些实施方案中，使用病毒载体、转染、同源重组整合、农杆菌介导的基因转移、抗体缀合的寡核苷酸或游离型载体将所述第一多个条形码序列掺入所述第一多个细胞中。

在一些实施方案中，所述第一多个条形码序列或所述第二多个条形码序列中的条形码序列包含1个碱基至1000个碱基。在一些实施方案中，所述多个分区包括多个孔。在一些实施方案中，所述多个孔中的孔包括一个或多个细胞。在一些实施方案中，(e)包括将所述多个测序读取中的测序读取鉴定为与所述多个分区细胞中的细胞相对应。在一些实施方案中，所述鉴定包括鉴定分布在所述多个分区中的分区之间的测序读取的共享序列。在一些实施方案中，所述多个分区包括多个微滴。在一些实施方案中，所述多个微滴中的微滴至多包含单个细胞。在一些实施方案中，所述多个微滴中的微滴还包含多个寡核苷酸，所述多个寡核苷酸包含一种或多种测序引物或其互补序列或一种或多种其他条形码序列。在一些实施方案中，(e)包括将所述多个测序读取中的测序读取鉴定为与所述多个分区细胞中的细胞相对应。

在一些实施方案中，所述多个受试者包括多个人类受试者。在一些实施方案中，所述多个受试者的身份被加密或模糊化。在一些实施方案中，所述第一多个细胞来源于体液。在一些实施方案中，所述体液包括血液、血浆、尿液、汗液或唾液。在一些实施方案中，所述第一多个细胞包括皮肤细胞或毛细胞。在一些实施方案中，所述第一多个细胞包括植物细胞。在一些实施方案中，所述植物细胞来源于植物的叶或根。在一些实施方案中，所述方法还包括，在(d)之前，所述第一多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。

在一些实施方案中，所述第一多个细胞及其所述复制品通过生长速率分层。在一些实施方案中，所述第一多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。在一些实施方案中，在(d)中测序的所述多个分区细胞的所述核酸分子的一部分包括与多个微扰相关联的多个微扰条形码序列。在一些实施方案中，所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、RNAi、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。在一些实施方案中，所述多个微扰包括温度的变化或pH的变化。在一些实施方案中，所述多个微扰包括引入突变形式的基因。

在一些实施方案中，在(d)中测序的所述多个分区细胞的所述核酸分子的一部分包括与多个测量相关联的多个条形码序列。在一些实施方案中，所述多个测量选自RNA-seq、ATAC-seq、原位测序和细胞形态学测量。在一些实施方案中，所述方法还包括：(g)将多个荧光探针引入所述第一多个细胞；(h)使所述第一多个细胞经受足以使所述多个荧光探针与所述第一多个条形码序列杂交的条件；以及(i)光学地检测与所述第一多个细胞中的所述第一多个条形码序列杂交的所述第一多个荧光探针。在一些实施方案中，所述方法还包括重复(g)-(i)一次或多次。在一些实施方案中，(e)或(f)包括使用外部数据库。在一些实施方案中，所述方法还包括，在(d)之前，处理所述第二多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。在一些实施方案中，所述处理包括产生所述第二多个核酸分子的拷贝。在一些实施方案中，所述处理包括从所述第二多个细胞回收所述第二多个核酸分子。

另一方面，本公开内容提供了一种分析多个细胞的方法，包括：(a)获得多个细胞，所述多个细胞来源于多个受试者的细胞；(b)根据所述多个细胞的受试者来源对其进行差异标记；(c)对来源于所述多个细胞的多个核酸分子的核酸分子进行测序以提供多个测序读取；以及(d)将所述多个测序读取的共同测序读取分配给所述多个受试者中的受试者，其中分配所述共同测序读取独立于所述多个细胞之间的变化进行，其中，在(c)之前，所述多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。

在一些实施方案中，所述差异标记所述多个细胞包括将多个条形码序列引入所述多个细胞。在一些实施方案中，所述多个条形码序列通过转导掺入所述多个细胞中。在一些实施方案中，使用病毒载体、转染、同源重组整合、农杆菌介导的基因转移、抗体缀合的寡核苷酸或游离型载体将所述多个条形码序列掺入所述多个细胞中。在一些实施方案中，所述多个条形码序列中的条形码序列包含1个碱基至1000个碱基。

在一些实施方案中，所述多个受试者包括多个人类受试者。在一些实施方案中，所述多个受试者的身份被加密或模糊化。在一些实施方案中，所述多个细胞来源于体液。在一些实施方案中，所述体液包括血液、血浆、尿液、汗液或唾液。在一些实施方案中，所述多个细胞包括皮肤细胞或毛细胞。在一些实施方案中，所述多个细胞包括植物细胞。在一些实施方案中，所述植物细胞来源于植物的叶或根。

在一些实施方案中，所述多个细胞通过生长速率分层。在一些实施方案中，所述多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。在一些实施方案中，在(c)中测序的所述多个细胞包含与多个微扰相关联的多个微扰条形码序列。在一些实施方案中，所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、RNAi、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。在一些实施方案中，所述多个微扰包括温度的变化或pH的变化。在一些实施方案中，所述多个微扰包括引入突变形式的基因。在一些实施方案中，所述多个细胞包含与多个测量相关联的多个条形码序列。在一些实施方案中，所述多个测量选自RNA-seq、ATAC-seq、原位测序和细胞形态学测量。在一些实施方案中，所述方法还包括：(e)将多个荧光探针引入所述多个细胞；(f)使所述多个细胞经受足以使所述多个荧光探针与所述多个条形码序列杂交的条件；以及(g)光学地检测与所述多个细胞中的所述多个条形码序列杂交的所述多个荧光探针。在一些实施方案中，所述方法还包括重复(e)-(g)一次或多次。在一些实施方案中，(d)包括使用外部数据库。在一些实施方案中，所述方法还包括，在(c)之前，处理所述多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。在一些实施方案中，所述处理包括产生所述多个核酸分子的拷贝。在一些实施方案中，所述处理包括从所述多个细胞回收所述多个核酸分子。

另一方面，本公开内容提供了一种分析多个细胞的方法，包括：(a)提供多个细胞，所述多个细胞来源于多个受试者的细胞，其中所述多个细胞包含多个核酸分子，并且其中所述多个核酸分子包含多个条形码序列；(b)对来源于所述多个细胞的所述多个核酸分子的核酸分子进行测序，从而产生与所述多个核酸分子相对应的多个测序读取，其中所述多个测序读取的一部分包括所述多个条形码序列；(c)处理所述多个测序读取，所述多个测序读取包括所述多个条形码序列；以及(d)使用所述多个条形码序列中的条形码序列将所述多个测序读取的子集与所述多个受试者中的受试者相关联，其中所述多个条形码序列通过转导或转染掺入所述多个细胞的所述多个核酸分子中。

在一些实施方案中，所述多个核酸分子的子集包含所述多个条形码序列。在一些实施方案中，所述多个条形码序列相对于所述多个细胞是内源的。在一些实施方案中，所述多个条形码序列中的条形码序列包含1个碱基至1000个碱基。在一些实施方案中，所述多个受试者包括多个人类受试者。在一些实施方案中，所述多个受试者的身份被加密或模糊化。

在一些实施方案中，所述多个细胞来源于体液。在一些实施方案中，所述体液包括血液、血浆、尿液、汗液或唾液。在一些实施方案中，所述多个细胞包括皮肤细胞或毛细胞。在一些实施方案中，所述多个细胞包括植物细胞。在一些实施方案中，所述植物细胞来源于植物的叶或根。在一些实施方案中，在(b)之前，所述多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。在一些实施方案中，所述多个细胞的增殖细胞通过生长速率分层。在一些实施方案中，所述多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。在一些实施方案中，所述方法还包括：(e)将多个荧光探针引入所述多个细胞；(f)使所述多个细胞经受足以使所述多个荧光探针与所述多个条形码序列杂交的条件；以及(g)光学地检测与所述多个细胞中的所述多个条形码序列杂交的所述多个荧光探针。在一些实施方案中，所述方法还包括重复(e)-(g)一次或多次。在一些实施方案中，(c)或(d)包括使用外部数据库。在一些实施方案中，所述方法还包括，在(b)之前，处理所述多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。在一些实施方案中，所述处理包括产生所述多个核酸分子的拷贝。在一些实施方案中，所述处理包括从所述多个细胞回收所述多个核酸分子。

另一方面，本公开内容提供了一种分析多个细胞的方法，包括：(a)提供来自多个受试者的多个细胞，其中所述多个细胞包含多个核酸分子，并且其中所述多个核酸分子包含多个条形码序列；(b)对所述多个细胞的所述多个核酸分子的核酸分子进行测序，从而产生与所述多个核酸分子相对应的多个测序读取，其中所述多个测序读取的一部分包括所述多个条形码序列；以及(c)处理所述多个测序读取以将所述多个测序读取中的每个测序读取与所述多个受试者中的给定受试者相关联。

在一些实施方案中，所述多个条形码序列是所述多个核酸分子的子集。

在一些实施方案中，所述多个条形码序列相对于所述多个细胞是内源的。

在一些实施方案中，所述方法还包括，在(a)之前，将所述多个条形码序列掺入所述第一多个核酸分子中。

在一些实施方案中，所述多个条形码序列通过转导掺入所述多个细胞中。在一些实施方案中，使用病毒载体、同源重组整合、农杆菌介导的基因转移或游离型载体将所述多个条形码序列掺入所述第一多个细胞中。

在一些实施方案中，所述多个条形码序列中的每个条形码序列包含1至1000个碱基。

在一些实施方案中，所述多个受试者包括多个人类受试者。在一些实施方案中，所述多个受试者的身份被加密。在一些实施方案中，所述第一多个细胞来源于体液。在一些实施方案中，所述体液包括血液、尿液或唾液。在一些实施方案中，所述多个细胞包括皮肤细胞或毛细胞。在一些实施方案中，所述多个细胞包括植物细胞。在一些实施方案中，所述植物细胞来源于叶或根。

在一些实施方案中，所述多个细胞在大量生长环境中增殖。在一些实施方案中，增殖细胞通过生长速率分层。在一些实施方案中，所述多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。

另一方面，本公开内容提供了一种分析多个细胞的方法，包括：(a)提供来自多个受试者的第一多个细胞，其中所述第一多个细胞包含第一多个核酸分子，并且其中所述第一多个核酸分子包含多个条形码序列；(b)使所述第一多个细胞经受足以复制所述第一多个细胞中的细胞的条件，以提供包含第一多个细胞中的所述细胞及其复制品的第二多个细胞，其中所述第二多个细胞包含第二多个核酸分子，所述第二多个核酸分子包含所述多个条形码序列；(c)在多个分区之间划分所述第一多个细胞和所述第二多个细胞中的细胞，从而提供多个分区细胞；(d)对所述多个分区细胞的核酸分子进行测序，从而产生与所述多个分区细胞的所述多个核酸分子相对应的多个测序读取，其中所述多个测序读取的一部分包括所述多个条形码序列；以及(e)处理所述多个测序读取以将所述多个测序读取中的每个测序读取与所述多个受试者中的给定受试者相关联。

在一些实施方案中，所述多个条形码序列是所述第一多个核酸分子的子集。

在一些实施方案中，所述多个条形码序列相对于所述第一多个细胞是内源的。

在一些实施方案中，所述多个条形码序列通过转导掺入所述第一多个细胞中。在一些实施方案中，使用病毒载体、同源重组整合、农杆菌介导的基因转移或游离型载体将所述多个条形码序列掺入所述第一多个细胞中。

在一些实施方案中，所述多个分区包括多个孔。在一些实施方案中，所述多个孔中的每个孔包括一个或多个细胞。在一些实施方案中，(e)包括将所述多个测序读取中的每个测序读鉴定为与所述多个分区细胞中的给定细胞相对应。在一些实施方案中，所述鉴定包括鉴定分布在所述多个分区中的分区之间的测序读取的共享序列。

在一些实施方案中，所述多个分区包括多个微滴。在一些实施方案中，所述多个微滴中的每个微滴包含一个或更少的细胞。在一些实施方案中，所述多个微滴中的每个微滴包含一个或多个细胞。在一些实施方案中，所述多个微滴中的每个微滴还包含多个寡核苷酸，所述多个寡核苷酸包含一种或多种测序引物或其互补序列和/或一种或多种其他条形码序列。在一些实施方案中，(e)包括将所述多个测序读取中的每个测序读鉴定为与所述多个分区细胞中的给定细胞相对应。

在一些实施方案中，所述第一多个细胞在大量生长环境中增殖。在一些实施方案中，所述第一多个细胞及其所述复制品通过生长速率分层。在一些实施方案中，所述第一多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。

在一些实施方案中，在(d)中测序的所述多个分区细胞的所述核酸分子的一部分包括与多个微扰相关联的多个微扰条形码序列。在一些实施方案中，所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、核糖核酸干扰(RNAi)、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。在一些实施方案中，所述多个微扰包括温度的变化和/或pH的变化。在一些实施方案中，所述多个微扰包括引入突变形式的基因。

在一些实施方案中，在(d)中测序的所述多个分区细胞的所述核酸分子的一部分包括与多个测量相关联的多个条形码序列。在一些实施方案中，所述多个测量选自核糖核酸测序(RNA-seq)、使用测序法的转座酶可及性染色质测定(ATAC-seq)、原位测序和细胞形态学测量。

另一方面，本公开内容提供了一种分析多个细胞的方法，包括：(a)获得来自多个受试者的多个细胞；(b)根据所述多个细胞的受试者来源对其进行差异标记；(c)对所述多个细胞的核酸分子进行测序以提供多个测序读取；以及(d)将所述多个测序读取的共同测序读取分配给所述多个受试者中的给定受试者，其中分配所述测序读取独立于所述多个细胞之间的变化进行，其中所述多个细胞在大量生长环境中增殖。

在一些实施方案中，差异标记所述多个细胞包括将多个条形码序列引入所述多个细胞。

在一些实施方案中，所述多个受试者包括多个人类受试者。在一些实施方案中，所述多个受试者的身份被加密。在一些实施方案中，所述多个细胞来源于体液。在一些实施方案中，所述体液包括血液、尿液或唾液。在一些实施方案中，所述多个细胞包括皮肤细胞或毛细胞。在一些实施方案中，所述多个细胞包括植物细胞。在一些实施方案中，所述植物细胞来源于叶或根。

在一些实施方案中，所述多个细胞通过生长速率分层。在一些实施方案中，所述多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。

在一些实施方案中，在(c)中测序的所述多个细胞包含与多个微扰相关联的多个微扰条形码序列。在一些实施方案中，所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、RNAi、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。在一些实施方案中，所述多个微扰包括温度的变化和/或pH的变化。在一些实施方案中，所述多个微扰包括引入突变形式的基因。

在一些实施方案中，所述多个细胞包含与多个测量相关联的多个条形码序列。在一些实施方案中，所述多个测量选自RNA-seq、ATAC-seq、原位测序和细胞形态学测量。

本公开内容的另一方面提供了包含机器可执行代码的非暂时性计算机可读介质，所述机器可执行代码在由一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。

本公开内容的另一方面提供了包含一个或多个计算机处理器和与之耦合的计算机存储器的***。所述计算机存储器包含机器可执行代码，所述机器可执行代码在由所述一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。

通过以下在其中仅示出和描述了本公开内容的说明性实施方案的详细描述，本公开内容的其他方面和优点对于本领域技术人员将变得显而易见。将会认识到，本公开内容能够具有其他和不同的实施方案，并且其若干细节能够在各种显而易见的方面进行修改，所有这些都不脱离本公开内容。因此，附图和具体实施方式应被视为本质上是说明性的，而非限制性的。

援引并入

说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，程度如同具体地和个别地指出要通过引用来并入每一个出版物、专利或专利申请。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相抵触的程度上，本说明书旨在取代和/或优先于任何此类矛盾的材料。

附图说明

本发明的新颖特征在所附权利要求中具体阐述。通过参考以下对其中利用到本发明原理的说明性实施方案加以阐述的详细描述以及附图(在本文也称为“图”)，将会获得对本发明特征和优点的更好理解，在这些附图中：

图1示出了合并筛选方案的概述，其中将来源于多个受试者的细胞一同条形码化(顶部)。可以以合并格式(通过与条形码相关联)执行表型分析，以建立基线状态(左下)以及响应于微扰的状态(右下)。受试者110的阴影对应于细胞111、条形码化细胞112、行113和行114的阴影。受试者120的阴影对应于细胞121、条形码化细胞122、行123和行124的阴影。受试者130的阴影对应于细胞131、条形码化细胞132、行133和行134的阴影。

图2示意性地示出了一种加密或模糊化方案，其中可以从供体中获取样品和遗传数据，保持供体对结果的访问，但对生成数据的那些人保持匿名。

图3示出了本文所述的方法的概述。子图A示出了示例性的合并方案，其中从大量供体中获取细胞的成本降低，如果样品被污染则可拒绝样品，并按生长速率分层。子图B示意性地示出了尽管来自许多供体的细胞混合在一起，但脱氧核糖核酸(DNA)/核糖核酸(RNA)条形码如何保持供体身份。子图C示意性地示出了条形码可如何与DNA测序数据共相关联，从而条形码被唯一地映射到基因型。子图D示意性地示出了用于将微扰映射到DNA条形码或将多个微扰彼此映射的组合式共关联方法。

图4示意性地示出了单细胞测序方案。

图5示意性地示出了去卷积测序方案。

图6示出了被编程或以其他方式配置以实现本文提供的方法的计算机***。

图7示出了经受一系列药物和条件的细胞的基因表达特征。

具体实施方式

尽管本发明已经示出和描述了本发明的各个实施方式，但对于本领域技术人员容易理解的是，这样的实施方式只是以示例的方式提供的。本领域技术人员可以在不偏离本发明的情况下想到许多更改、改变和替代。应当理解，可以采用对本文所描述的本发明实施方式的各种替代方案。

在将值描述为范围的情况下，应当理解，这种公开内容包括在这种范围内的所有可能的子范围的公开，以及落入这种范围内的特定数值，而无论是否明确说明了特定数值或特定子范围。

如本文所用，术语“样品”通常是指生物学样品。该样品可以是受试者的。样品可以包括一个细胞或多个细胞。样品可以包括一个核酸分子或多个核酸分子。核酸分子可以是核糖核酸(RNA)或脱氧核糖核酸(DNA)分子。样品可以包括细胞和核酸分子(例如，含有DNA和RNA的细胞)。样品可以是组织样品。样品可以是无细胞的样品。

如本文所用，术语“受试者”通常是指从其获得样品的个体。受试者可以是哺乳动物，诸如人或植物(例如，酵母)。受试者可以是原核生物(例如，细菌)或真核生物(例如，真菌或酵母)。受试者可以是动物，诸如农场动物(例如，山羊或猪)、狗、猫、鼠、松鼠或鸟。受试者可能对疾病(例如，癌症)有症状。受试者可能对疾病没有症状。受试者可以是患者。

如本文所用，术语“测序”通常是指用于确定一种或多种核酸分子(例如，多核苷酸)中核苷酸碱基的序列的方法和技术。核酸分子可以是例如，脱氧核糖核酸(DNA)或核糖核酸(RNA)，包括其变体或衍生物(例如，单链DNA)。测序可通过任何可获得的技术进行。例如，测序可通过高通量测序、焦磷酸测序、连接测序、合成测序、杂交测序、核糖核酸测序(RNA-Seq)(Illumina)、数字基因表达(Helicos)、下一代测序、单分子测序(例如，California的Pacific Biosciences和Oxfor Nanopore)、通过合成的单分子测序(SMSS)(Helicos)、大规模平行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Maxim-Gilbert测序、引物步移或Sanger测序来进行。测序可通过各种***进行，诸如但不限于Illumina、Pacific Biosciences(PacBio)、Oxford Nanopore或Life Technologies(Ion Torrent)的测序***。备选地或附加地，可以使用核酸扩增、聚合酶链反应(PCR)(例如，数字PCR、定量PCR或实时PCR)或等温扩增来进行测序。这样的***可以提供对应于细胞或受试者(例如，人)的遗传信息的多个原始遗传数据，如由***从由受试者提供的样品中产生的。在一些实例中，这样的***提供测序读取(在本文中也称为“读取”)。读取可包括与已测序的核酸分子序列相对应的一串核酸碱基。

每当术语“至少”、“大于”或“大于或等于”在一系列两个或更多个数值中的第一个数值之前时，术语“至少”、“大于”或“大于或等于”应用于该系列数值中的每个数值。例如，大于或等于1、2或3相当于大于或等于1、大于或等于2或者大于或等于3。

每当术语“至多”、“不超过”、“小于”或“小于或等于”在一系列两个或更多个数值中的第一个数值之前时，术语“不超过”、“小于”或“小于或等于”应用于该系列数值中的每个数值。例如，小于或等于3、2或1相当于小于或等于3、小于或等于2或者小于或等于1。

本文提供了分析多个细胞的方法。一种方法可以包括提供来自多个受试者(例如，人、植物或动物)的多个细胞，其中所述多个细胞包含多个核酸分子(例如，脱氧核糖核酸(DNA)或核糖核酸(RNA)分子)。多个细胞可以来源于多个受试者的细胞。多个核酸分子可包含多个条形码序列。例如，多个核酸分子中的(例如，每个)核酸分子可以包含多个条形码序列中的条形码序列。在一些情况下，多个条形码序列中的条形码序列可以与所有其他条形码序列不同。在其他情况下，多个条形码序列可以包括相同条形码序列的多个拷贝。多个条形码序列可以相对于多个细胞是内源的，或者可以经由例如，转导或转染被引入多个细胞中。然后可以对多个细胞的多个核酸分子中的核酸分子进行测序(例如，使用下一代测序)。然后可以对来源于多个细胞的多个核酸分子中的核酸分子进行测序(例如，使用下一代测序)。测序可以产生对应于多个核酸分子的多个测序读取。多个测序读取的一部分可以包括多个条形码序列中的条形码序列中的一些或全部条形码序列。多个测序读取可以被处理。多个测序读取可包括多个条形码序列。多个条形码序列中的条形码序列可以用于使多个测序读取中的测序读取或多个测序读取的子集与多个细胞衍生自的多个受试者中的受试者相关联。在一些情况下，多个细胞可以在大量生长环境中增殖。在一些情况下，多个细胞可以是在大量生长环境中增殖多个受试者的细胞时产生的。在一些情况下，在测序之前，可以对多个核酸分子进行处理以产生核酸分子。核酸分子可以随后被测序。该处理可以包括产生多个核酸分子的拷贝。该处理可以包括从多个细胞回收多个核酸分子。

在一些情况下，分析多个细胞的方法可以包括提供来自多个受试者(例如，人、植物或动物)的第一多个细胞，其中所述第一多个细胞包含第一多个核酸分子(例如，脱氧核糖核酸(DNA)或核糖核酸(RNA)分子)。第一多个细胞可以来源于多个受试者的细胞。第一多个核酸分子(例如，第一多个核酸分子的子集)可包括多个条形码序列(例如，第一多个条形码序列)。例如，多个核酸分子中的核酸分子可以包括多个条形码序列中的条形码序列。在一些情况下，多个条形码序列中的条形码序列可以与所有其他条形码序列不同。在其他情况下，多个条形码序列可以包括相同条形码序列的多个拷贝。多个条形码序列(例如，第一多个条形码序列)可以相对于第一多个细胞是内源的，或者可以经由例如，转导或转染被引入第一多个细胞中。可以使第一多个细胞经受足以复制第一多个细胞中的细胞的条件，以提供包括第一多个细胞中的细胞及其复制品的第二多个细胞。在一些情况下，细胞可以复制一次或多次。第二多个细胞可以包含第二多个核酸分子，该第二多个核酸分子包含多个条形码序列中的一些或全部条形码序列(例如，第二多个条形码序列)。第一多个细胞和第二多个细胞中的细胞可以在多个分区(例如，微滴或孔)之间被分区，从而提供多个分区细胞。在一些情况下，多个分区中的分区可以包含至多一个细胞。在其他情况下，多个分区中的分区可以包含至少一个细胞。然后可以对多个分区细胞的核酸分子进行测序(例如，使用下一代测序)。然后可以对来源于多个分区细胞的核酸分子进行测序(例如，使用下一代测序)。测序可产生对应于多个分区细胞的多个核酸分子(例如，第二多个核酸分子)的多个测序读取。多个测序读取的一部分可以包括多个条形码序列(例如，多个条形码序列)的条形码序列中的一些或全部条形码序列。多个测序读取可以被处理。多个测序读取可包括第二多个条形码序列。多个条形码序列中的条形码序列(例如，第二多个条形码序列)可以用于使多个测序读取中的测序读取或多个测序读取的子集与第一多个细胞衍生自的多个受试者中的受试者相关联。在一些情况下，在测序之前，可以对多个核酸分子(例如，第二多个核酸分子)进行处理以产生核酸分子。核酸分子可以随后被测序。该处理可以包括产生多个核酸分子(例如，第二多个核酸分子)的拷贝。该处理可以包括从多个细胞(例如，第二多个细胞)回收多个核酸分子(例如，第二多个核酸分子)。本文所述的方法可以允许以与分析来自单个供体的样品所需的成本和时间相似的成本和时间来分析来源于多个供体的多种细胞克隆，同时限制了由于污染引起的样品损失(参见例如，图3的子图A)。

样品

根据本文提供的方法的用于分析的多个细胞可以来源于单个受试者或多个受试者。在一些情况下，相同数目的细胞可以来源于多个受试者中的受试者。例如，可以为多个受试者中的受试者提供单个细胞。在其他情况下，不同数目的细胞可以来源于多个受试者中的受试者。在一些情况下，可以以一定体积的来源于受试者的材料提供细胞，并且相同体积的材料可以来源于多个受试者中的受试者。

受试者可以是具有潜在感兴趣的核酸分子的任何实体。例如，受试者可以包含生物，诸如单细胞或多细胞生物。受试者可以包括人、动物或植物。在一个实例中，受试者可以是人类。受试者可以是患者。多个受试者可以包括患者群体。例如，多个受试者中的一些或全部受试者可能患有或被怀疑患有疾病或病症。可以已知多个受试者中的一些或全部受试者先前曾患有疾病(例如，癌症或另一种疾病或病症)。备选地或附加地，多个受试者中的一些或全部受试者可能具有或被怀疑具有相似的遗传特征，诸如特定的遗传突变。备选地或附加地，多个受试者中的一些或全部受试者可能已经或可能被怀疑已经暴露于病原体诸如病毒或细菌。备选地，多个受试者中的一些或全部受试者可以是健康的或被认为是健康的。多个受试者中的一些或全部受试者可以共享特征，诸如身体特征(例如，身高、体重、体重指数或其他身体特征)、种族或种族传统、出生地或居住地、国籍、疾病或缓解状态或其他特征。无需根据共享特征选择受试者。例如，可以随机选择受试者和/或对人群的随机部分进行采样。

来源于受试者的细胞可以是任何有用的类型，并且可以从受试者的任何有用的特征或部分中采样。细胞可以是干细胞，或者可以将细胞重编程以产生干细胞系(例如，诱导多能干细胞(iPS))。植物细胞可以来源于例如，植物的叶或根。细胞(例如，除植物细胞以外的细胞)可以来源于生物(例如，人或动物)的体液，诸如血液(例如，全血、红细胞、白血球或白细胞、血小板)、血浆、血清、汗液、泪液、唾液、痰、尿液、粘液、***、滑液、母乳、初乳、羊水、胆汁、间质液或细胞外液、骨髓或脑脊髓液。细胞可以来源于组织样品，诸如皮肤样品或肿瘤样品，所述组织样品从例如，受试者的器官获得。可以通过例如，进入循环***(例如，静脉内或动脉内)、收集分泌的生物样品(例如，粪便、尿液、唾液、痰等)、通过手术提取组织(例如，活检)、擦拭、吸移和呼吸来从受试者获得细胞。包括细胞的样品可以经过处理以分离样品内的细胞。例如，可以对包含来自样品的一个或多个细胞的样品进行离心、选择性沉淀、过滤、透化、分离和/或其他过程。

来源于受试者的细胞可以包含一个或多个核酸分子。核酸分子可以包含单链或可以是双链的。核酸分子的实施例包括但不限于DNA、基因组DNA、质粒DNA、互补DNA(cDNA)、无细胞(例如，非包囊的)DNA(cfDNA)、无细胞胎儿DNA(cffDNA)、循环肿瘤DNA(ctDNA)、核小体DNA、染色体DNA、线粒体DNA(miDNA)、RNA、信使RNA(mRNA)、转移RNA(tRNA)、micro RNA(miRNA)、核糖体RNA(rRNA)、循环RNA(cRNA)、短发夹RNA(shRNA)、小干扰RNA(siRNA)、人工核酸类似物、重组核酸、质粒、病毒载体和染色质。来源于受试者的细胞可以包含一个或多个DNA分子和/或一个或多个RNA分子。可以使用例如，本文所述的方法选择感兴趣的核酸分子用于分析。例如，可以使用逆转录过程对RNA分子进行逆转录以生成cDNA，然后对其进行后续分析。

核酸分子可包含一种或多种突变(例如，体细胞或种系突变)。例如，核酸分子可以包括一种或多种修饰，诸如一种或多种添加或缺失。突变或修饰可能与疾病诸如癌症有关。突变的实例包括但不限于添加(例如，单个碱基或碱基对或其集合)、缺失(例如，单个碱基或碱基对或其集合)、碱基置换、重复(例如，单个碱基或碱基对或其集合)、拷贝数变异、单核苷酸多态性、基因融合、置换、易位、倒位、***/缺失、DNA损伤、非整倍性、多倍性、染色体融合、染色体结构改变、染色体损伤、基因扩增、基因重复、基因截短和碱基修饰(例如，甲基化)。

可以将来自多个受试者的细胞合并为一个或多个组(参见，例如，图1)。例如，可以将细胞合并成至少约1、2、3、4、5、6、7、8、9、10或更多个组。可以将细胞合并成小于或等于约10、9、8、7、6、5、4、3、2个或更少的组。通过合并来自不同受试者的细胞，细胞可与其来源的受试者“去身份化”或无关联。可以在合并之前将诸如标签或条形码(例如，单个条形码序列或多个条形码序列)的识别特征提供给来自受试者的细胞，以使细胞的细节可以与它们来源的受试者相关联。可以应用加密或模糊化方案来模糊受试者的身份并维持匿名性，同时仍然保留同时分析来自多个受试者的细胞的能力并提供受试者的单个细胞的细节(例如，参见图2)。这样的方案可用于同时保护患者的历史和身份，并且仍在多个受试者的基因型和表型之间产生有用的关联。可以将细胞可合并成的组的大小确定为使得该组被污染(例如，源自具有感染的患者)的可能性较低，同时仍可以通过合并分析节省大量成本，并减少了测试污染的需求。

在合并之前或之后，细胞可以进行处理以改变细胞的一种或多种特征或向细胞中添加一种或多种材料或从细胞中去除一种或多种材料。例如，可以对细胞进行处理以包括染料或荧光团，以促进例如，细胞的可视化。染料或荧光团可以选自但不限于SYBR绿、SYBR蓝、4′,6-二脒基-2-苯基吲哚(DAPI)、碘化丙锭、Hoechst、SYBR金、溴化乙锭、吖啶、原黄素、吖啶橙、吖啶黄、荧光香豆素(fluorcoumanin)、椭圆玫瑰树碱、道诺霉素、氯喹、偏端霉素D、色霉素、乙菲啶(homidium)、光神霉素、多吡啶钌、氨茴霉素、菲啶和吖啶、溴化乙锭、碘化丙锭、碘化己锭、二氢乙锭、乙锭同型二聚体-1和乙锭同型二聚体-2、单叠氮化乙锭、9-氨基-6-氯-2-甲氧基吖啶(ACMA)、Hoechst 33258、Hoechst33342、Hoechst 34580、DAPI、吖啶橙、7-氨基放线菌素D(7-AAD)、放线菌素D、喹啉鎓(LDS751)、羟脒(hydroxystilbamidine)、SYTOX Blue、SYTOX Green、SYTOX Orange、POPO-1、POPO-3、YOYO-1、YOYO-3、TOTO-1、TOTO-3、JOJO-1、LOLO-1、BOBO-1、BOBO-3、PO-PRO-1、PO-PRO-3、BO-PRO-1、BO-PRO-3、TO-PRO-1、TO-PRO-3、TO-PRO-5、JO-PRO-1、LO-PRO-1、YO-PRO-1、YO-PRO-3、PicoGreen、OliGreen、RiboGreen、SYBR Gold、SYBR Green I、SYBR Green II、SYBR DX、SYTO-40、-41、-42、-43、-44、-45(蓝)、SYTO-13、-16、-24、-21、-23、-12、-11、-20、-22、-15、-14、-25(绿)、SYTO-81、-80、-82、-83、-84、-85(橙)、SYTO-64、-17、-59、-61、-62、-60、-63(红)、荧光素、异硫氰酸荧光素(FITC)、四甲基异硫氰酸罗丹明(TRITC)、罗丹明、四甲基罗丹明、红藻植物-藻红蛋白(R-phycoerythrin)、花菁-2(Cy-2)、花菁-3(Cy-3)、花菁-3.5(Cy-3.5)、花菁-5(Cy-5)、花菁-5.5(Cy-5.5)、花菁-7(Cy-7)、德克萨斯红(Texas Red)、Phar-Red、别藻蓝蛋白(APC)、Sybr Green I、Sybr Green II、Sybr Gold、CellTracker Green、乙锭同型二聚体I、乙锭同型二聚体II、乙锭同型二聚体III、溴化乙锭、伞形酮、曙红、绿色荧光蛋白、赤藓红、香豆素、甲基香豆素、芘、孔雀绿、茋、萤光黄、级联蓝(cascade blue)、二氯三嗪胺荧光素、丹磺酰氯、荧光镧系络合物(诸如包括铕和铽的那些络合物)、羧基四氯荧光素、5-羧基荧光素和/或6-羧基荧光素(FAM)、VIC、5-碘乙酰胺基荧光素(或6-碘乙酰胺基荧光素)、羧基荧光素琥珀酰亚胺酯(CFSE)、5-((2(和3)-5-(乙酰基巯基)-琥珀酰基)氨基)荧光素(SAMSA-荧光素)、丽丝胺罗丹明B磺酰氯、5-羧基罗丹明和/或6-羧基罗丹明(ROX)、7-氨基-甲基-香豆素、7-氨基-4-甲基香豆素-3-乙酸(AMCA)、硼-二吡咯亚甲基(BODIPY)荧光团、8-甲氧基芘-1,3,6-三磺酸三钠盐、3,6-二磺酸-4-氨基-萘二甲酰亚胺、藻胆蛋白、AlexaFluor350、405、430、488、532、546、555、568、594、610、633、635、647、660、680、700、750和790染料、DyLight350、405、488、550、594、633、650、680、755和800染料、其他荧光团、黑洞(BH)染料和/或黑洞淬灭(BHQ)染料(Biosearch Technologies)(诸如BH1-0、BHQ-1、BHQ-3、BHQ-10)、QSY染料荧光猝灭剂(来自Molecular Probes/Invitrogen)诸如QSY7、QSY9、QSY21、QSY35、其他猝灭剂(诸如Dabcyl和Dabsyl、Cy5Q和Cy7Q和深色花菁染料(GE Healthcare)、Dy猝灭剂(Dyomics)(诸如DYQ-660和DYQ-661)和ATTO荧光淬灭剂(ATTO-TEC GmbH)(诸如ATTO 540Q、580Q、612Q)。例如，细胞可以用CFSE染色。用荧光团或染料染色的细胞可以促进克隆群体中不同代细胞的鉴定(例如，按生长速率分层)。染色因此可以减少由于克隆动力学引起的偏倚。

在另一个实例中，可以将多个荧光探针引入多个细胞中(例如，在合并来自不同的受试者或样品收集条件或预处理条件的细胞之前或之后)。多个细胞可以经受足以使多个荧光探针与细胞中包含的多个核酸分子(诸如与多个细胞中包括的多个条形码序列)杂交的条件。可以光学地检测(例如，经由成像)与多个核酸分子(例如，与多个条形码序列)杂交的多个荧光探针。该过程可以用相同或不同的荧光探针(例如，具有不同核酸序列和/或不同荧光部分的探针)重复一次或多次。该过程可用于通过其条形码序列鉴定细胞，并且对于包含两个或多个条形码区段的条形码序列特别有用。该过程可能包括荧光原位杂交(例如，荧光原位杂交(FISH)，诸如序贯荧光原位杂交(seqFISH))。在一些情况下，以这种方式询问的条形码序列可以属于多个条形码序列(例如，如本文所述的，多个细胞内源的或引入到多个细胞中的多个条形码序列)的第一组条形码序列，并且使用核酸测序(例如，如本文所述)处理的条形码序列可以属于多个条形码序列中的第二组条形码序列。第一组和第二组条形码序列可以重叠或可以彼此不同。

可以在合并来自多个受试者的细胞之前或之后对细胞进行条形码化，以区分来自不同受试者的细胞。相对于单供体分析，该条形码化方案可以有利于以大大降低的成本将基因型与表型关联(参见，例如，图3的子图B)。在随后的分析之前递送到细胞的条形码或包括内源变异的子集的条形码可以被称为“基因型条形码”。例如，条形码可包括重叠的修饰和变体，诸如单核苷酸多态性(SNP)、***/缺失和拷贝数变异。条形码可包含核酸序列。这样的序列可以包含任何有用数目的规范核苷酸(例如，包含腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶或尿嘧啶核碱基的核苷酸)或非规范核苷酸(例如，包含非规范核碱基、糖或接头部分的核苷酸类似物)。例如，核酸条形码序列可包含至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多核苷酸或碱基对。核酸条形码序列可包含小于或等于约20、19、18、17、16、15、14、13、11、10、9、8、7、6、5、4、3、2或更少核苷酸或碱基对。核酸条形码序列可包含例如，6-10个核苷酸或碱基对。核酸条形码序列可包含至少约10、50、100、1,000或更多核苷酸或碱基对。核酸条形码序列可包含少于或等于约1000、100、50、10或更少核苷酸或碱基对。核酸条形码序列可包含1个核苷酸或碱基对至1000个核苷酸或碱基对，诸如4至10、4至20、4至50、4至100、10至100、10至1,000或100至1,000个核苷酸或碱基对。条形码可以包括可以在相同或不同时间提供给细胞或核酸分子的一种或多种不同的条形码序列。例如，条形码可以包括与第一参数(例如，孔中的行或列位置)相对应的第一条形码序列和与第二参数相对应的第二条形码序列。条形码序列可以包含两个或更多个条形码区段，诸如可以相同或不同的两个或更多个条形码区段。这样的条形码序列可以使用组合式组装方法诸如***合并(split pool)方法来构建。条形码序列可以是细胞中存在的内源核酸的子集。条形码可以是例如，DNA条形码或RNA条形码。DNA条形码可以表示为RNA条形码。条形码可以使用例如转染或转导提供给细胞。条形码可以使用例如抗体(例如，缀合至条形码的抗体，诸如抗体缀合的寡核苷酸)、农杆菌介导的基因转移、同源重组(HR)整合、游离型载体或病毒载体提供给细胞。例如，条形码可以使用病毒(例如，慢病毒、逆转录病毒或腺病毒)提供给细胞。可以向来自多个受试者的多个细胞提供大量条形码(例如，比要被条形码化的细胞的数目大超过10倍)，使得来源于不同受试者的细胞具有相同条形码的可能性低。受试者可以具有与其他受试者不同的条形码序列(例如，受试者可以具有唯一的条形码序列)。在一些情况下，可以在第一时间、在第一组条件下和/或使用第一组条形码序列对来自第一受试者的多个细胞进行条形码化，而可以在第二时间、在第二组条件下和/或使用第二组条形码序列对来自第二受试者的多个细胞进行条形码化，该第二时间、第二组条件和/或第二组条形码序列可能与第一时间、第一组条件和/或第一组条形码序列不同。在一些情况下，可以在合并细胞之前将第一组条形码序列引入来自不同受试者的细胞，然后可以在合并细胞之后将第二组条形码序列引入细胞。引入到来自同一受试者的细胞的第一组条形码序列中的条形码序列可以具有相同的序列，而引入到来自同一受试者(例如，在包含来自一个或更多其他受试者的细胞的池中)的细胞的第二组条形码序列中的条形码序列可能具有不同的序列。条形码可以与一个或多个其他组分一起被提供给细胞。例如，可以为创建干细胞系(例如，诱导多能干细胞(iPS))的重编程因子提供条形码(例如，以相同的转染过程，或作为条形码的组分)。

本公开内容提供了用于增殖(例如，复制细胞或增加细胞数目)细胞的方法，其可以包括条形码化的核酸分子(例如，DNA和/或RNA)。此方法可包括使细胞经受一个或多个细胞***循环(例如，克隆)。此方法可包括使细胞经受细胞生长(例如，遗传物质的复制)。

可以使条形码化细胞经受足以进行复制的条件。条形码化细胞的复制品可以包含与亲代细胞相同的条形码，从而丰富了样品群体以供进一步分析。可以在合并来自不同受试者的细胞之前，使条形码化细胞经受复制条件。备选地(例如，在进行条形码之前已经合并细胞的情况下)，条形码化细胞可以在合并来自不同受试者的细胞之后经受复制条件。条形码化细胞可以在恒温箱、平板(例如，微孔板)、生物反应器、微滴或任何其他容器或隔室中培养。可以选择温度、气体混合物、pH、铺板密度、生长培养基和/或其他条件以优化细胞类型的生长。用诸如CFSE的染料染色细胞可以促进细胞按生长速率分层。然后可以从特定代(例如，最初提取的细胞、第一代、第二代、第三代等)中选择细胞用于进一步分析，从而减少由于克隆动力学而引起的偏倚。可以合并细胞及其复制品。包括细胞及其复制品的合并样品可包含至少约1、2、3、4、5、6、7、8、9、10、20、30、40、50、100或更多个来源于多个受试者中的受试者的原始细胞的拷贝。包括细胞及其复制品的合并样品可包含少于或等于约100、50、40、30、20、10、9、8、7、6、5、4、3、2或更少个来源于多个受试者中的受试者的原始细胞的拷贝。在一些情况下，合并的样品可包含1个拷贝的原始细胞至10,000个拷贝的原始细胞，诸如1至10、1至100、1至1,000、1至5,000、10至100、10至1,000、10至10,000、100至1,000、100至10,000或1,000至10,000个拷贝的原始细胞。可以对包括细胞及其复制品的合并样品进行采样，以对原始细胞的几个成员进行采样。例如，可以采样1个拷贝的原始细胞到1,000个拷贝的原始细胞。在一些情况下，所有合并的样品都可进行后续分析。在其他情况下，一部分合并样品可以进行第一分析，而另一部分合并样品可以进行第二分析。例如，第一部分合并样品可进行核酸测序，而第二部分合并样品可使用显微术进行询问或经受一个或多个测定或筛选。例如，细胞(例如，合并样品的细胞)可以进行药物筛选、基因表达筛选(例如，使用荧光激活细胞分选(FACS))或其他筛选，使得与表型相关联的条形码的丰度可用于大规模地将基因型与表型相关联。类似地，可以使用例如显微术或单细胞测序大规模地进行筛选以鉴定条形码化基因型与单细胞表型之间的关联。

在第一实例中，可以从多个受试者获得多个细胞。可以向来自受试者的细胞提供多个独特的条形码，以使得来自受试者的细胞被提供相同的条形码，而来自不同受试者的细胞被提供不同的条形码。条形码(例如，核酸条形码序列)可以使用例如，病毒载体诸如慢病毒载体提供给细胞。然后可使条形码化细胞经受足以复制条形码化细胞的条件，并且可以使用染料通过生长速率使细胞分层(如本文其他地方所述)。备选地，荧光蛋白的瞬时表达可以用于通过生长速率使细胞分层。瞬时表达的实例包括但不限于通过dox-可诱导的或cumate-可诱导的启动子***的瞬时转染和瞬时诱导的表达。然后合并来自多个受试者中的不同受试者的条形码化细胞及其复制品，用于随后的分析。

在第二实例中，可以从多个受试者获得多个细胞。然后可以合并来源于多个受试者中的受试者的细胞。可以将多个唯一的条形码提供给合并的细胞。唯一条形码的数目可以使得应当为细胞提供不同的条形码。条形码(例如，核酸条形码序列)可以使用例如，病毒载体诸如慢病毒载体提供给细胞。然后可以使合并的条形码化细胞经受足以复制条形码化细胞的条件，并且可以使用染料通过生长速率使细胞分层。然后可以对条形码化细胞及其复制品进行后续分析。

在第三实例中，可以从多个受试者获得多个细胞。可以向来自受试者的细胞提供多个独特的条形码，使得来自受试者的细胞被提供相同的条形码，而来自不同受试者的细胞被提供不同的条形码。条形码(例如，核酸条形码序列)可以使用例如，病毒载体诸如慢病毒载体提供给细胞。然后可以合并条形码化细胞。然后可以使合并的条形码化细胞经受足以复制条形码化细胞的条件，并且可以使用染料通过生长速率使细胞分层。然后可以对条形码化细胞及其复制品进行后续分析。

单细胞分析

条形码化细胞可以进行测序以分析其中包括的核酸分子。对多个合并的细胞进行测序可能在计算和实验上都是昂贵的。因此，本公开内容提供了以实质上减少的计算和实验成本来获得单个细胞水平的测序信息的方法。

条形码化细胞(例如，来自包括条形码化细胞的合并样品，以及来自多个受试者的复制品)可以在多个分区之间分区。在一些情况下，多个分区可以包括多个孔。在其他情况下，多个分区可以包括多个微滴(例如，水性微滴)。多个分区可包括例如，至少约2个分区，诸如至少约10、20、30、40、50、60、70、80、90、100、1,000、10,000、100,000、1,000,000、10,000,000、100,000,000、1,000,000,000或更多分区。多个分区可以包括例如，小于或等于约1,000,000,000个分区，诸如小于或等于约100,000,000、10,000,000、1,000,000、100,000、10,000、1,000、100、90、80、70、60、50、40、30、20、10、5个或更少的分区。在一些情况下，多个分区可以包括96个分区(例如，96个孔)或96个分区的多个(例如，多个96孔板)。在一些情况下，多个分区可包括至少约1,000个分区，诸如至少约1,000个水性乳液微滴。分区可以包含一个或多个细胞。例如，多个分区中的分区可以包含单个细胞。或者，多个分区中的分区可以包含一个以上的细胞。在一些情况下，分区可以不包含细胞。例如，多个微滴中的微滴可以不包含细胞。在一些情况下，多个微滴中的微滴可包含至多一个细胞(例如，0或1个细胞)。在一些情况下，多个微滴中的微滴可包含细胞的一部分(例如，在0-1个细胞之间)。在其他情况下，多个微滴中的微滴可以包含一个或多个细胞。在另一个实例中，多个孔中的孔可以不包含细胞。在一些情况下，多个孔中的孔可以包含至少约2、3、4、5、6、7、8、9、10个或更多个细胞。多个孔中的孔可包含少于或等于约10、9、8、7、6、5、4、3、2个或更少的细胞。

分布在多个分区中的细胞可以与一种或多种试剂共分区。例如，细胞可以与一种或多种选自以下的试剂共分区：透化剂、裂解剂或缓冲液、酶(例如，聚合酶、逆转录酶或其他酶)、荧光团、荧光探针、标记部分、引物分子、衔接子、条形码(例如，核酸条形码分子)、寡核苷酸、缓冲液、三磷酸脱氧核苷酸、还原剂、氧化剂、螯合剂、去污剂、稳定剂、纳米颗粒、珠子和抗体。在一些情况下，可将细胞转移至已经包含一种或多种试剂的分区中。在一些情况下，可将细胞转移至分区，然后可将一种或多种试剂提供至分区。在其他情况下，可将细胞和试剂同时(例如，在微滴形成期间)提供至分区。分区的细胞可以经历包括透化和/或裂解的处理，以提供对其中包含的核酸分子的接近。例如，可以使包含在分区内的细胞与裂解剂接触，以从细胞释放核酸分子并使它们可用于进一步处理。或者，可以使细胞透化以提供对其中的核酸分子的接近。在一些情况下，RNA分子可以经历逆转录。例如，可使RNA分子与逆转录酶接触以提供cDNA分子。在一些情况下，可通过例如，核酸延伸或扩增反应来复制包含在分区内的核酸分子。引物分子可以与核酸分子杂交，并且所得的复合物可以经历引物延伸反应。聚合酶(例如，DNA或RNA聚合酶)和核苷酸(例如，脱氧核糖核苷酸三磷酸(dNTP))可以用于引物延伸反应。或者，可以将引物分子或衔接子连接至核酸分子的末端，并用作扩增反应的基础。可以使用任何有用的核酸扩增反应。在一些情况下，聚合酶链反应(PCR)(例如，数字PCR、实时PCR或定量PCR)可用于扩增包含在分区中的核酸分子。在一些情况下，等温扩增反应可以用于扩增包含在分区中的核酸分子。

核酸复制反应中使用的引物分子和衔接子可包含随机Nmer序列。这样的序列的使用可以促进扩增分区中包含的核酸分子的潜在未知序列。备选地或附加地，引物分子和衔接子可以包含靶向的Nmer序列(例如，poly(T)序列)。在一些情况下，可以使用随机Nmer序列和靶向Nmer序列二者。引物分子和衔接子可以具有任何有用的长度并且具有任何有用的特征。例如，引物分子或衔接子可包含荧光团或其他标记部分，该荧光团或其他标记部分可以被光学地检测或以其他方式用于鉴定引物分子或衔接子所附接的序列。在一些情况下，引物分子或衔接子可以包含条形码序列(例如，如本文所述)或独特的分子标识符(UMI)序列。这样的序列在本文中可以可替代地称为“细胞条形码”。引物分子或衔接子还可包含一个或多个另外的序列，包括一个或多个测序引物(例如，可用于测序平台的序列，诸如Illumina P5和P7序列)或其他功能性序列，以促进通过例如测序来分析核酸分子。

核酸分子可以经历单细胞测序(例如，RNA测序，RNA-seq)和/或其他处理，诸如其他单细胞测定。例如，还可采用使用测序法的转座酶可及性染色质测定(ATAC-seq)来分析核酸分子。

单细胞测序

在一些情况下，可以对分区的细胞进行单细胞测序。可以为分区的细胞提供对于该细胞唯一的细胞条形码。在一些情况下，与细胞条形码相关的细胞数目可以大于一个，使得至少约2、3、4、5、6、7、8、9、10或更多个细胞可以与细胞条形码相关。在一些情况下，与细胞条形码相关的细胞数目可以少于20个，使得少于或等于约10、9、8、7、6、5、4、3、2个或更少的细胞可以与细胞条形码相关。可以进行测序以使分区细胞的核酸分子的序列(例如，基因组DNA序列)与细胞条形码相关联。在一个实例中，可以在多个分区(例如，微滴)之间划分细胞，使得分区包含不超过一个细胞。可以将细胞与可用于条形码化和/或进一步处理细胞的试剂共分区。例如，可以将细胞与包含附接于其上的多个核酸条形码分子的珠子共分区。核酸条形码分子可包含引发序列以及对该珠子唯一的条形码序列，并且该条形码序列在附接于该珠子的多个核酸条形码分子的所有核酸条形码分子中是相同的。以这种方式，可以为不同分区内的不同细胞提供唯一的细胞条形码。可以通过例如，转导或转染(例如，如本文其他地方所述)或作为与细胞的核酸分子杂交或连接的引物分子或衔接子的组分将细胞条形码提供给细胞。在后一种情况下，附接在珠子上的核酸条形码分子可以从珠子释放(例如，通过施加刺激，诸如光、热或化学刺激)，以促进核酸条形码分子与细胞的核酸分子之间的相互作用。随机引发序列(例如，随机Nmer)的使用可以允许对广泛范围的核酸分子序列进行采样。核酸分子的全部或部分(例如，具有与其杂交或连接的引物或衔接子的核酸分子)可以在它们各自的分区内复制(例如，通过引物延伸反应)。在分区的细胞的核酸分子和与细胞共分区的核酸条形码分子(例如，附接于珠子)相互作用之后，分区可包含多个条形码化的核酸序列。条形码化核酸序列可以包含分区细胞的核酸分子的序列或其互补序列；细胞条形码或其互补序列；和在一些情况下的一种或多种测序引物。分区的一些但不是全部的条形码化核酸序列可以包含基因型条形码。在一些情况下，条形码化核酸序列可以在第一端包含第一测序引物，在第二端包含第二测序引物。可以将分区细胞的核酸分子的序列和细胞条形码序列，或其互补序列，置于第一和第二测序引物之间。可以合并多个分区中不同分区的条形码化核酸序列(例如，通过将微滴组合)，并提供给测序仪(例如，Illumina测序仪)。在一些情况下，可在条形码化核酸序列从其各自的分区释放后，向条形码化核酸序列提供测序引物和/或其他功能序列，之后可对经过进一步处理的条形码化核酸序列进行测序。

可将条形码化核酸序列测序以产生多个测序读取(例如，图4)。然后可以处理多个测序读取以使基因组DNA序列与细胞条形码相关联。可以应用重建方法，使得来自细胞的部分或不完整的基因组可以被组合成与基因型条形码相关联的原始细胞的完整或更完整的基因组序列(参见，例如，图4)。在图4中，阴影410对应于阴影411，阴影420对应于阴影421，阴影430对应于阴影431。重建方法可以鉴定基因型条形码与细胞条形码之间的重叠，并使用此信息来确定包括来源于共同祖先细胞的细胞条形码的某些或所有测序读取。重叠的修饰和变体(例如，单核苷酸多态性(SNP)、***/缺失和与不同细胞条形码相关联的拷贝数变异)也可用于确定某些或所有具有此类特征的测序读取源自共同的祖先细胞。值得注意的是，重叠的修饰和变体本身可以用作内源的“基因型条形码”。例如，第一细胞可能具有与其相关联的第一基因型条形码和第一细胞条形码，而作为第一细胞的复制品的第二细胞可能具有与其相关联的相同的第一基因型条形码和不同于第一细胞条形码的第二细胞条形码。通过确定与第一和第二细胞条形码相关的基因型条形码，可以确定第一和第二细胞具有相同的起源。如果基因型条形码已经与受试者相关联，则第一和第二细胞可以进一步归属于受试者。在另一个实例中，包括第一细胞条形码的第一测序读取和包括与第一细胞条形码不同的第二细胞条形码的第二测序读取可以包含相同的SNP。重叠的SNP可以用于确定两个测序读取与相同的祖细胞相关，并因此与同一受试者相关。在一些情况下，重建方法可以使用或建立阈值来确定DNA变体中是否存在大量重叠。例如，重建方法可以使用阈值，在该阈值处，基于两个相同基因型条形码正确配对的可能性来确定DNA变体中的大量重叠。在一些情况下，基因型条形码可以针对一种或多种修饰(例如，一种或多种突变，诸如至少约1、2、3、4、5、6、7、8、9、10或更多种突变)进行校正，例如，使用上述重建方法。在一些情况下，基因型条形码可以针对修饰(例如，突变，诸如少于或等于约10、9、8、7、6、5、4、3、2或更少的突变)进行校正，例如，使用上述重建方法。类似地，在一些情况下，细胞条形码可以针对一种或多种修饰(例如，一种或多种突变，诸如1、2、3、4、5、6、7、8、9、10或更多种突变)进行校正，例如，使用上述重建方法。细胞条形码可以针对修饰(例如，突变，诸如少于或等于约10、9、8、7、6、5、4、3、2或更少的突变)进行校正，例如，使用上述重建方法。此外，单细胞测序方法可以用于同时处理多个细胞，例如，至少约2、5、10、50、100、1,000或更多个细胞。单细胞测序方法可用于同时处理多个细胞，例如，少于或等于约1000、100、50、10、5、2或更少个细胞。例如，可以同时处理2个细胞至10个细胞、10个细胞至100个细胞或100个细胞至1,000个细胞。因此，本文提供的方法有利于大规模的单细胞测序。

在一些情况下，可以使用外部数据集来促进重建。例如，如果在样品中仅观察到100个单核苷酸多态性(SNP)，则两个样品之间的重叠量可能接近0。然而，当与SNP的外部数据库(诸如外显子组聚集联盟(ExAC)或1,000个基因组)进行比较时，重建仍然可能。

在一些情况下，可以使用在RNA测序过程中检测到的DNA变体来确定有关基因组DNA序列的信息。DNA区域(基因组或其他)的变体频率可以用作条形码或条形码的组成部分。例如，线粒体DNA中等位基因的频率和/或多个外源条形码的***可以用作条形码或条形码的组成部分。

涉及去卷积的测序

在一些情况下，分区的细胞可以经历包括去卷积过程的多重测序方法(参见，例如，图5)。可以在多个分区(例如，10个或更多分区，诸如至少约10、20、100、1,000、10,000、100,000或更多分区)之间划分细胞，使得多个分区中的分区包含一个或多个细胞。可以在多个分区(例如，小于或等于约100,000、10,000、1,000、100、20、10或更少分区)之间划分细胞，使得多个分区中的分区包含一个或多个细胞。与不同的原始(例如，祖先)细胞相对应的细胞可存在于相同的分区组合中的可能性可能较低。例如，存在于96孔板中的7孔中的细胞出现在同一组孔中的概率可能少于1/10,000,000,000。可以允许包含在分区(例如，孔)内的细胞在分区内***，以提供更多的材料用于随后的分析。细胞可以在其各自的分区内裂解或透化以提供进入其中的核酸分子的接近。然后可以处理所得的分区内容物(例如，裂解物)以进行测序，从而可以用唯一的分区条形码标记分区。如果细胞不被裂解，则可以以与基因型条形码相同的方式提供分区条形码(例如，如本文其他地方所述)。备选地，可以通过例如核酸条形码分子提供分区条形码，所述核酸条形码分子可以包括分区条形码并在一些情况下还包括其他序列。此核酸条形码分子可以在溶液中提供或附接到诸如珠子的基底上。在一些情况下，包含分区条形码序列的核酸条形码分子可在添加细胞之前被包含在分区内(例如，在溶液内或固定在分区表面，诸如多孔板的孔的一部分上)。在一些情况下，核酸条形码分子可以包括分区条形码以及引发序列(例如，靶向或随机引发序列，如本文其他地方所述)。核酸条形码分子的引发序列可与分区中包含的核酸分子杂交或连接。分区内包含的核酸分子(例如，与核酸条形码分子杂交或连接的核酸分子)可以经历一个或多个复制过程，诸如一个或多个引物延伸反应或核酸扩增反应。在分区的核酸分子与提供给该分区的核酸条形码分子相互作用之后，该分区可以包含多个条形码化的核酸序列。条形码化核酸序列可以包含在分区内被分区的细胞之一的核酸分子的序列或其互补序列；分区条码或其互补序列；和在一些情况下，一种或多种测序引物。分区的一些但不是全部的条形码化核酸序列可以包含基因型条形码。在一些情况下，条形码化核酸序列可以在第一端包含第一测序引物，在第二端包含第二测序引物。可以将分区细胞的核酸分子的序列和分区条形码序列，或其互补序列，置于第一和第二测序引物之间。可以合并多个分区中不同分区的条形码化核酸序列，并提供给测序仪(例如，Illumina测序仪)。在一些情况下，可在条形码化核酸序列从其各自的分区释放后，向条形码化核酸序列提供测序引物和/或其他功能序列，之后可对经过进一步处理的条形码化核酸序列进行测序。

可将条形码化核酸序列测序以产生多个测序读取。然后可以处理多个测序读取，以使来自分区(例如，孔)的基因组DNA序列与其相应的分区条形码相关联。在一些情况下，可以采用长读取测序来促进基因组信息的更准确重建。还可以确定修饰和变体的频率，例如，单核苷酸多态性(SNP)、***/缺失和与分区相关的测序读取的拷贝数变异。可以应用重建方法，其中可以以将跨多个分区中的分区的DNA变体的观察频率最大化的方式确定与基因型条形码相关的序列。重建方法可以包括使用最大似然、多元回归、聚类和/或神经网络。关于遗传相关变异的任何先前信息都可以用于提高重建准确性。可以通过使用长读取测序来更准确地确定修饰和变体的共现，从而提高重建方法的准确性。在一些情况下，涉及短读取测序的重建方法可以使用条形码进行定相。重建方法可以提供基因型条形码与分区条形码之间的关联的确定，并且因此可以促进构建与基因型条形码相关联的原始细胞的完整或部分完整的基因组序列。例如，来源于第一分区的第一细胞的第一测序读取可具有与其相关联的第一基因型条形码和第一分区条形码，而来源于第二分区的第二细胞的第二测序读取可具有与其相关联的相同的第一基因型条形码(例如，第二细胞可以是第一细胞的复制品，或反之亦然)和不同于第一分区条形码的第二分区条形码。可以有两个、一个或零个测序读取包含其各自的基因型条形码。可以采用重建技术来将第一分区的第一测序读取的特征和第二分区的第二测序读取的特征鉴定为相同，然后将第一和第二测序读取鉴定为与相同的祖先细胞相关联。在一些情况下，基因型条形码可以针对一种或多种修饰(例如，一种或多种突变，诸如至少约1、2、3、4、5、6、7、8、9、10或更多种突变)进行校正，例如，使用上述重建方法。在一些情况下，基因型条形码可以针对修饰(例如，突变，诸如少于或等于约10、9、8、7、6、5、4、3、2或更少的突变)进行校正，例如，使用上述重建方法。类似地，在一些情况下，分区条形码可以针对一种或多种修饰(例如，一种或多种突变，诸如至少约1、2、3、4、5、6、7、8、9、10或更多种突变)进行校正，例如，使用上述重建方法。分区条形码可以针对修饰(例如，突变，诸如少于或等于约10、9、8、7、6、5、4、3、2或更少的突变)进行校正，例如，使用上述重建方法。此外，基于去卷积的测序方法可以用于同时处理多个细胞，例如，至少约2、5、10、50、100、1,000或更多个细胞。基于去卷积测序方法可用于同时处理多个细胞，例如，少于或等于约1000、100、50、10、5、2或更少个细胞。例如，可以同时处理2个细胞至10个细胞、10个细胞至100个细胞或100个细胞至1,000个细胞。因此，本文提供的方法有利于大规模的单细胞测序。

微扰

在一些情况下，微扰可以与跨多个细胞的基因型偶联(参见，例如，图3的子图C)。例如，遗传、药物或环境微扰可以与条形码(例如，可以表达为RNA条形码的DNA条形码)偶联，并如先前部分所述地整合到多个细胞的细胞基因组中。微扰可包括，例如，添加小分子、敲除、开放读码框(ORF)或成簇规律间隔短回文重复序列(CRISPR)单指导RNA(sgRNA)。在一些情况下，微扰可包括温度或pH值的变化。通过将基因型条形码(例如，与受试者相关联的条形码)与微扰条形码相关联，可以确定基因型与微扰之间的关联。该关联可用于鉴定细胞应答，诸如转录组变化(通过RNA测序)和/或形态(如果在原位进行测序)。

微扰条形码可以是核酸条形码。在一些情况下，微扰条形码可包含鉴定另一种转导元件的核酸序列，诸如开放读码框(ORF)、指导RNA(例如，sgRNA)或短发夹RNA。在一些情况下，微扰条形码可以使用例如，转染或转导提供给细胞。在一些情况下，微扰条形码可以使用抗体(例如，缀合至条形码的抗体，诸如抗体缀合的寡核苷酸)、农杆菌介导的基因转移、同源重组(HR)整合、游离型载体或病毒载体提供给细胞。例如，微扰条形码可以使用病毒(例如，慢病毒、逆转录病毒或腺病毒)提供给细胞。在一些情况下，除了基因型条形码外，还可以使用微扰条形码。单细胞测序(例如，如上所述)可用于使基因型条形码与一个或多个微扰条形码和细胞条形码两者相关联，以在基因型与微扰之间建立关联。备选地，可以使用去卷积方法，其中在克隆扩展之后可以是多个分区之间(例如，跨多孔板)的细胞的随机分类以及使用去卷积/重建方法得出的条形码之间的相关性。一个或多个微扰条形码的测序可以以使其与分区条形码相关联的方式执行。基因型条形码也可以被测序，使得其可以与分区条形码相关联以建立基因型与微扰之间的关联。单细胞测序和去卷积方法的细节包括在本文的其他地方。

计算机***

本公开内容提供了被编程用于实现本公开内容的方法的计算机***。图6示出了被编程或以其他方式配置以执行本文提供的方法的计算机***601。计算机***601可调节本公开内容的方法的各个方面，例如，合并来自不同样品的细胞，在多个分区之间划分细胞，向在分区内或分区外的细胞提供条形码，对测序读取进行测序以及确定基因型与表型之间的关联。计算机***601可以是用户的电子设备或者是相对于该电子设备远程定位的计算机***。该电子设备可以是移动电子设备。

计算机***601包括中央处理单元(CPU，本文也称为“处理器”和“计算机处理器”)605，其可以是单核或多核处理器，或者是用于并行处理的多个处理器。计算机***601还包括存储器或存储位置610(例如，随机存取存储器、只读存储器、闪存)、电子存储单元615(例如，硬盘)、用于与一个或多个其他***通信的通信接口620(例如，网络适配器)以及***设备625，例如，高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器610、存储单元615、接口620和***设备625通过通信总线(实线)如主板与CPU 605通信。存储单元615可以是用于存储数据的数据存储装置(或数据存储库)。借助通信接口620，计算机***601可以可操作地耦合至计算机网络(“网络”)630。网络630可以是因特网、互联网和/或外联网，或与互联网通信的内联网和/或外联网。在一些情况下，网络630是远程通信和/或数据网络。网络630可以包括一个或多个计算机服务器，其可以实现分布式计算，诸如云计算。在一些情况下，网络630可以借助于计算机***601实现对等网络，这可以使得与计算机***601耦合的设备能够作为客户端或服务器。

CPU 605可以执行一系列机器可读指令，该指令可以体现在程序或软件中。该指令可以存储在存储位置，诸如存储器610中。指令可以针对CPU 605，其可以随后对CPU 605进行编程或以其他方式配置CPU605以实现本公开内容的方法。由CPU 605执行的操作的实例可包括提取、解码、执行和回写。

CPU 605可以是电路如集成电路的一部分。***601的一个或多个其他组件可以包含在电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元615可以存储文件，例如驱动程序、库和保存的程序。存储单元615可以存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机***601可包括一个或多个附加数据存储单元，所述附加数据存储单元位于计算机***601外部，诸如位于通过内联网或因特网与计算机***601通信的远程服务器上。

计算机***601可以通过网络630与一个或多个远程计算机***通信。例如，计算机***601可以与用户的远程计算机***通信。远程计算机***的示例包括个人计算机(PC)(例如，便携式PC)、平板或平板型PC(例如，

iPad、

Galaxy Tab)、电话、智能电话(例如，

iPhone、支持Android的设备、

)或个人数字助理。用户可以经由网络630访问计算机***601。

本文所述的方法可以通过存储在计算机***601的电子存储位置上(例如，存储在存储器610或电子存储单元615上)的机器(例如，计算机处理器)执行代码的方式来实现。该机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器605执行。在一些情况下，可以从存储单元615检索代码并将其存储在存储器610上，以供处理器605迅速存取。在一些情况下，可以排除电子存储单元615，而将机器可执行指令存储在存储器610上。

代码可以预编译和配置用于与具有适于执行该代码的处理器的机器一起使用，或者可以在运行时期间编译。该代码可以以编程语言提供，可以选择该编程语言以使该代码能够以预编译或即时编译(as-compiled)的方式执行。

本文提供的***和方法的各方面(诸如计算机***601)可以在编程中体现。技术的各个方面可被认为是“产品”或“制品”，其形式通常为承载或体现于某种类型的机器可读介质上的机器(或处理器)可执行代码和/或关联数据。机器可执行代码可存储在电子存储单元如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可包括计算机的任何或全部有形存储器、处理器等，或其相关模块，如各种半导体存储器、磁带驱动器、磁盘驱动器等，其可在任何时候为软件编程提供非暂时性存储。该软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。这样的通信，例如，可使软件能够从一个计算机或处理器加载到另一个计算机或处理器中，例如，从管理服务器或主机加载到应用服务器的计算机平台中。因此，可承载软件元素的另一类型的介质包括光波、电波和电磁波，如跨本地设备之间的物理接口、通过有线和光学陆线网络以及通过各种空中链路而使用的。携带这类波的物理元件，如有线或无线链路、光学链路等，也可以被认为是承载软件的介质。如本文所用，除非限于非暂时性有形的“存储”介质，否则诸如计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。

因此，诸如计算机可执行代码等机器可读介质可采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如，光盘或磁盘，如任何计算机中的任何存储设备等，例如，可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，如这样的计算机平台的主存储器。有形传输介质包括：同轴电缆、铜线和光纤，包括导线，该导线构成计算机***内的总线。载波传输介质可采取电信号或电磁信号或者声波或光波的形式，如在射频(RF)和红外(IR)数据通信过程中生成的那些电信号或电磁信号或者声波或光波。因此，计算机可读介质的常见形式例如包括：软盘、柔性盘、硬盘、磁带、任何其他磁介质、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或数字通用磁盘-只读存储器(DVD-ROM)、任何其他光介质、穿孔卡片纸带、任何其他具有孔洞图案的物理存储介质、随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)和可擦可编程只读存储器(EPROM)、FLASH-EPROM、任何其他存储器芯片或盒带、传输数据或指令的载波、传输这样的载波的线缆或链路或者任何其他计算机可从中读取编程代码和/或数据的介质。这些计算机可读介质形式中的许多形式可以参与将一个或多个指令的一个或多个序列载送至处理器以供执行。

计算机***601可包括电子显示器635或与电子显示器635通信，电子显示器635包括用户界面(UI)640，该用户界面(UI)640用于提供例如多个分区中条形码和变体的可视化和/或基因型与表型之间的关联。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

可以通过一种或多种算法来实现本公开内容的方法和***。可以通过软件在由中央处理单元605执行时来实现算法。该算法可例如，为采样方案设计适当数目和复杂度的条形码。

实施例

实施例1：新型治疗候选物的临床试验结果预测：基因型特异性应答

使用所描述的方法建立库，该库包含来自数千名白血病患者的癌细胞。将新型治疗候选物以各种剂量应用于细胞，并在有或没有应用治疗剂的情况下测量基因型条形码的相对生长速率。这两个数字的比率用于确定与基因型相关的治疗应答(和治疗剂量)是否存在变化。

在对特定基因型和/或其他细胞生物标志物重新分层后，该方法也可用于现有治疗方法。

实施例2：新型治疗候选物的临床试验结果预测：基因型特异性毒性

使用所描述的方法建立库，该库包含来自数千名健康患者的正常成纤维细胞。可将细胞重编程，并以合并的方式分化为对治疗敏感的细胞类型(例如：肝细胞)。将新型治疗候选物以各种剂量应用于细胞，并通过单细胞表型测定法(诸如RNA-seq、显微术或流式细胞术)确定与毒性相关的生物标志物的表达水平。在流式细胞术的情况下，根据毒性标志物对细胞进行分类。高毒性箱元中基因型条形码的存在可用于对患者进行分层，以在I期临床试验中进行选择。

本文描述的方法还可以促进个性化给药，例如，在使用治疗剂治疗疾病或病况中的个性化给药。

实施例3：新型治疗候选物的临床试验结果预测：基因型特异性辅助疗法

使用所描述的方法建立库，其中包含来自阿尔茨海默氏病患者的重编程神经元。将新型治疗候选物应用于细胞。另外，对细胞进行遗传筛选，其中对应于微扰的敲除/敲减/过表达映射到靶向疗法或基因疗法。通过单细胞表型测定法(诸如RNA-seq、显微术或流式细胞术)确定治疗应答、遗传微扰和基因型之间的协同作用。例如，α突触核蛋白的表达水平可以用作应答的生物标志物。

图7示出了经受一系列药物和条件的患者细胞的基因表达特征。基于相对于与治疗条件相关的基线的平均变化来定义基因表达特征。列对应于不同的患者，行对应于不同的治疗条件。第一行对应于其中细胞经受老化模型的条件。其他行对应于食品和药物管理局(FDA)批准的药物化合物的治疗。所有患者的治疗条件均按Z归一化。阴影范围代表六个标准偏差动态范围。此方法可用于对患者进行分层，以使用新的生物标志物和新的药物发现靶标来选择最佳疗法。

实施例4：新型治疗候选物

使用所描述的方法从来自随机人群的毛发样品的重编程干细胞建立库，所述随机人群包括在性别、种族、年龄和医学状况方面的显著差异。将细胞分化为多种细胞类型(例如：心肌细胞、造血干细胞、γ-氨基丁酸能(GABA能)神经元)并使用单细胞测定(例如，RNA-seq、ATAC-seq等)进行分子分析。遗传变体与表型变异有关。在细胞上预测并测试了遗传微扰的候选物，以产生用于治疗的引线。

实施例5：农业应用：植物

使用所描述的方法从遗传多样的原生质体种群(通过自然变异或诱变产生)建立库。通过测量途径中基因的表达水平来确定细胞的光合作用活性。确定与表型变异相关的遗传变体，并在细胞上预测和测试遗传微扰的候选物。最好的候选物开始成长为成年植物。

实施例6：农业应用：动物

使用所描述的方法从遗传多样的动物种群(通过自然变异或诱变产生)建立库。通过测量途径中基因的表达水平来确定与细胞相关的度量。确定与表型变异相关的遗传变体，并在细胞上预测和测试遗传微扰的候选物。最好的候选物开始成长为具有所需特征的成年动物。

实施例7：微扰分析

提供了与受试者(例如，人或动物受试者)相对应的多个细胞。对多个细胞进行微扰以例如，用基因的不同基因型集替换该基因或其一部分。该微扰与第一微扰条形码相关联。还向细胞提供基因型条形码(例如，如本文其他地方所述)。因此，被微扰的细胞包含与细胞的微扰相关联的第一微扰条形码以及该细胞特有的基因型条形码。然后对细胞进行第二次微扰，并且可以将第二次微扰条形码提供给细胞。经两次微扰的细胞包含第一微扰条形码、第二微扰条形码和基因型条形码。使经两次微扰的细胞增殖以产生经两次微扰的细胞的一个或多个复制品。然后使用例如，本文其他各处所述的单细胞测序和/或去卷积方法，对经两次微扰的细胞进行测序。以这种方式，可以鉴定不同微扰之间的关联。在一个实例中，第一微扰改变了与编码G蛋白偶联受体的基因相关的遗传多样性。

虽然本文已经示出和描述了本发明的优选实施方式，但对于本领域技术人员容易理解的是，这样的实施方式只是以示例的方式提供的。并非旨在通过说明书中提供的具体实例来限制本发明。尽管已经参考前述说明书描述了本发明，但是本文实施方案的描述和说明并不意味着以限制性的意义来解释。本领域技术人员在不脱离本发明的情况下现将想到多种变化、改变和替代。此外，应当理解，本发明的所有方面不限于本文阐述的具体描述、配置或相对比例，其取决于各种条件和变量。应当理解，本文所述的本发明实施方案的各种替代方案可用于实施本发明。因此，考虑到本发明还应当涵盖任何这样的替代、修改、变化或等同物。以下权利要求旨在限定本发明的范围，并由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims

1.一种分析多个细胞的方法，包括：

(a)提供多个细胞，所述多个细胞来源于多个受试者的细胞，其中所述多个细胞包含多个核酸分子，并且其中所述多个核酸分子包含多个条形码序列；

(b)对来源于所述多个细胞的所述多个核酸分子的核酸分子进行测序，从而产生与所述多个核酸分子相对应的多个测序读取，其中所述多个测序读取的一部分包括所述多个条形码序列；

(c)处理所述多个测序读取，所述多个测序读取包括所述多个条形码序列；以及

(d)使用所述多个条形码序列中的条形码序列将所述多个测序读取的子集与所述多个受试者中的受试者相关联，

其中，在(b)之前，所述多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。

2.根据权利要求1所述的方法，其中所述多个核酸分子的子集包含所述多个条形码序列。

3.根据权利要求1所述的方法，其中所述多个条形码序列相对于所述多个细胞是内源的。

4.根据权利要求1所述的方法，还包括，在(a)之前，将所述多个条形码序列掺入所述多个细胞的所述多个核酸分子中。

5.根据权利要求4所述的方法，其中所述多个条形码序列通过转导掺入所述多个细胞中。

6.根据权利要求4所述的方法，其中使用病毒载体、转染、同源重组整合、农杆菌介导的基因转移、抗体缀合的寡核苷酸或游离型载体将所述多个条形码序列掺入所述多个细胞中。

7.根据权利要求1-6中任一项所述的方法，其中所述多个条形码序列中的所述条形码序列包含1个碱基至1000个碱基。

8.根据权利要求1-7中任一项所述的方法，其中所述多个受试者包括多个人类受试者。

9.根据权利要求1-8中任一项所述的方法，其中所述多个受试者的身份被加密或模糊化。

10.根据权利要求1-9中任一项所述的方法，其中所述多个细胞来源于体液。

11.根据权利要求10所述的方法，其中所述体液包括血液、血浆、尿液、汗液或唾液。

12.根据权利要求1-11中任一项所述的方法，其中所述多个细胞包括皮肤细胞或毛细胞。

13.根据权利要求1-12中任一项所述的方法，其中所述多个细胞包括植物细胞。

14.根据权利要求13所述的方法，其中所述植物细胞来源于植物的叶或根。

15.根据权利要求1-14中任一项所述的方法，其中所述多个细胞的增殖细胞通过生长速率分层。

16.根据权利要求15所述的方法，其中所述多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。

17.根据权利要求1-16中任一项所述的方法，其中所述多个条形码序列的至少一子集包括与多个微扰相关联的多个微扰条形码序列。

18.根据权利要求17所述的方法，其中所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、RNAi、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。

19.根据权利要求17所述的方法，其中所述多个微扰包括温度的变化或pH的变化。

20.根据权利要求17所述的方法，其中所述多个微扰包括引入突变形式的基因。

21.根据权利要求1-20中任一项所述的方法，其中所述多个条形码序列的至少一子集与多个测量相关联。

22.根据权利要求21所述的方法，其中所述多个测量选自RNA-seq、ATAC-seq、原位测序和细胞形态学测量。

23.根据权利要求1-22中任一项所述的方法，还包括：

(e)将多个荧光探针引入所述多个细胞；

(f)使所述多个细胞经受足以使所述多个荧光探针与所述多个条形码序列杂交的条件；以及

(g)光学地检测与所述多个细胞中的所述多个条形码序列杂交的所述多个荧光探针。

24.根据权利要求23所述的方法，还包括重复(e)-(g)一次或多次。

25.根据权利要求1-24中任一项所述的方法，其中(c)或(d)包括使用外部数据库。

26.根据权利要求1所述的方法，还包括，在(b)之前，处理所述多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。

27.根据权利要求26所述的方法，其中所述处理包括产生所述多个核酸分子的拷贝。

28.根据权利要求26所述的方法，其中所述处理包括从所述多个细胞回收所述多个核酸分子。

29.一种分析多个细胞的方法，包括：

(a)提供来源于多个受试者的细胞的第一多个细胞，其中所述第一多个细胞包含第一多个核酸分子，并且其中所述第一多个核酸分子包含第一多个条形码序列；

(b)使所述第一多个细胞经受足以复制所述第一多个细胞中的细胞的条件，以提供包含所述第一多个细胞中的所述细胞及其复制品的第二多个细胞，其中所述第二多个细胞包含第二多个核酸分子，所述第二多个核酸分子包含第二多个条形码序列；

(c)在多个分区之间划分所述第一多个细胞和所述第二多个细胞中的细胞，从而提供多个分区细胞；以及

(d)对来源于所述多个分区细胞的核酸分子进行测序，从而产生与所述多个分区细胞的所述第二多个核酸分子相对应的多个测序读取，其中所述多个测序读取的一部分包括所述第二多个条形码序列；

(e)处理所述多个测序读取，所述多个测序读取包括所述第二多个条形码序列；以及

(f)使用所述第二多个条形码序列的条形码序列将所述多个测序读取的子集与所述多个受试者中的受试者相关联。

30.根据权利要求29所述的方法，其中所述第一多个核酸分子的子集包含所述第一多个条形码序列。

31.根据权利要求29所述的方法，其中所述第一多个条形码序列相对于所述第一多个细胞是内源的。

32.根据权利要求29所述的方法，还包括，在(a)之前，将所述第一多个条形码序列掺入所述第一多个细胞的所述第一多个核酸分子中。

33.根据权利要求32所述的方法，其中所述第一多个条形码序列通过转导掺入所述第一多个细胞中。

34.根据权利要求32所述的方法，其中使用病毒载体、转染、同源重组整合、农杆菌介导的基因转移、抗体缀合的寡核苷酸或游离型载体将所述第一多个条形码序列掺入所述第一多个细胞中。

35.根据权利要求29-34中任一项所述的方法，其中所述第一多个条形码序列或所述第二多个条形码序列中的条形码序列包含1个碱基至1000个碱基。

36.根据权利要求29-35中任一项所述的方法，其中所述多个分区包括多个孔。

37.根据权利要求36所述的方法，其中所述多个孔中的孔包括一个或多个细胞。

38.根据权利要求36或37所述的方法，其中(e)包括将所述多个测序读取中的测序读取鉴定为与所述多个分区细胞中的细胞相对应。

39.根据权利要求38所述的方法，其中所述鉴定包括鉴定分布在所述多个分区中的分区之间的测序读取的共享序列。

40.根据权利要求29-35中任一项所述的方法，其中所述多个分区包括多个微滴。

41.根据权利要求40所述的方法，其中所述多个微滴中的微滴至多包含单个细胞。

42.根据权利要求40或41所述的方法，其中所述多个微滴中的微滴还包含多个寡核苷酸，所述多个寡核苷酸包含一种或多种测序引物或其互补序列或一种或多种其他条形码序列。

43.根据权利要求40-42中任一项所述的方法，其中(e)包括将所述多个测序读取中的测序读取鉴定为与所述多个分区细胞中的细胞相对应。

44.根据权利要求29-43中任一项所述的方法，其中所述多个受试者包括多个人类受试者。

45.根据权利要求29-44中任一项所述的方法，其中所述多个受试者的身份被加密或模糊化。

46.根据权利要求29-45中任一项所述的方法，其中所述第一多个细胞来源于体液。

47.根据权利要求46所述的方法，其中所述体液包括血液、血浆、尿液、汗液或唾液。

48.根据权利要求29-47中任一项所述的方法，其中所述第一多个细胞包括皮肤细胞或毛细胞。

49.根据权利要求29-43中任一项所述的方法，其中所述第一多个细胞包括植物细胞。

50.根据权利要求49所述的方法，其中所述植物细胞来源于植物的叶或根。

51.根据权利要求26-47中任一项所述的方法，其中，在(d)之前，所述第一多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。

52.根据权利要求29-51中任一项所述的方法，其中所述第一多个细胞及其所述复制品通过生长速率分层。

53.根据权利要求52所述的方法，其中所述第一多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。

54.根据权利要求29-53中任一项所述的方法，其中在(d)中测序的所述多个分区细胞的所述核酸分子的一部分包括与多个微扰相关联的多个微扰条形码序列。

55.根据权利要求54所述的方法，其中所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、RNAi、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。

56.根据权利要求54所述的方法，其中所述多个微扰包括温度的变化或pH的变化。

57.根据权利要求54所述的方法，其中所述多个微扰包括引入突变形式的基因。

58.根据权利要求29-57中任一项所述的方法，其中在(d)中测序的所述多个分区细胞的所述核酸分子的一部分包括与多个测量相关联的多个条形码序列。

59.根据权利要求58所述的方法，其中所述多个测量选自RNA-seq、ATAC-seq、原位测序和细胞形态学测量。

60.根据权利要求29-59中任一项所述的方法，还包括：

(g)将多个荧光探针引入所述第一多个细胞；

(h)使所述第一多个细胞经受足以使所述多个荧光探针与所述第一多个条形码序列杂交的条件；以及

(i)光学地检测与所述第一多个细胞中的所述第一多个条形码序列杂交的所述第一多个荧光探针。

61.根据权利要求60所述的方法，还包括重复(g)-(i)一次或多次。

62.根据权利要求29-61中任一项所述的方法，其中(e)或(f)包括使用外部数据库。

63.根据权利要求29所述的方法，还包括，在(d)之前，处理所述第二多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。

64.根据权利要求63所述的方法，其中所述处理包括产生所述第二多个核酸分子的拷贝。

65.根据权利要求63所述的方法，其中所述处理包括从所述第二多个细胞回收所述第二多个核酸分子。

66.一种分析多个细胞的方法，包括：

(a)获得多个细胞，所述多个细胞来源于多个受试者的细胞；

(b)根据所述多个细胞的受试者来源对其进行差异标记；

(c)对来源于所述多个细胞的多个核酸分子的核酸分子进行测序以提供多个测序读取；以及

(d)将所述多个测序读取的共同测序读取分配给所述多个受试者中的受试者，其中分配所述共同测序读取独立于所述多个细胞之间的变化进行，

其中，在(c)之前，所述多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。

67.根据权利要求66所述的方法，其中所述差异标记所述多个细胞包括将多个条形码序列引入所述多个细胞。

68.根据权利要求67所述的方法，其中所述多个条形码序列通过转导掺入所述多个细胞中。

69.根据权利要求67所述的方法，其中使用病毒载体、转染、同源重组整合、农杆菌介导的基因转移、抗体缀合的寡核苷酸或游离型载体将所述多个条形码序列掺入所述多个细胞中。

70.根据权利要求67-69中任一项所述的方法，其中所述多个条形码序列中的条形码序列包含1个碱基至1000个碱基。

71.根据权利要求66-70中任一项所述的方法，其中所述多个受试者包括多个人类受试者。

72.根据权利要求66-71中任一项所述的方法，其中所述多个受试者的身份被加密或模糊化。

73.根据权利要求66-72中任一项所述的方法，其中所述多个细胞来源于体液。

74.根据权利要求73所述的方法，其中所述体液包括血液、血浆、尿液、汗液或唾液。

75.根据权利要求66-74中任一项所述的方法，其中所述多个细胞包括皮肤细胞或毛细胞。

76.根据权利要求66-70中任一项所述的方法，其中所述多个细胞包括植物细胞。

77.根据权利要求76所述的方法，其中所述植物细胞来源于植物的叶或根。

78.根据权利要求66-77中任一项所述的方法，其中所述多个细胞通过生长速率分层。

79.根据权利要求78所述的方法，其中所述多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。

80.根据权利要求66-79中任一项所述的方法，其中在(c)中测序的所述多个细胞包含与多个微扰相关联的多个微扰条形码序列。

81.根据权利要求80所述的方法，其中所述多个微扰选自：添加小分子、敲除、抗体、细胞-细胞相互作用、RNAi、开放读码框(ORF)和成簇规律间隔短回文重复序列(CRISPR)单指导核糖核酸(sgRNA)。

82.根据权利要求80所述的方法，其中所述多个微扰包括温度的变化或pH的变化。

83.根据权利要求80所述的方法，其中所述多个微扰包括引入突变形式的基因。

84.根据权利要求66-83中任一项所述的方法，其中所述多个细胞包含与多个测量相关联的多个条形码序列。

85.根据权利要求84所述的方法，其中所述多个测量选自RNA-seq、ATAC-seq、原位测序和细胞形态学测量。

86.根据权利要求67所述的方法，还包括：

(e)将多个荧光探针引入所述多个细胞；

87.根据权利要求86所述的方法，还包括重复(e)-(g)一次或多次。

88.根据权利要求66-87中任一项所述的方法，其中(d)包括使用外部数据库。

89.根据权利要求66所述的方法，还包括，在(c)之前，处理所述多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。

90.根据权利要求89所述的方法，其中所述处理包括产生所述多个核酸分子的拷贝。

91.根据权利要求89所述的方法，其中所述处理包括从所述多个细胞回收所述多个核酸分子。

92.一种分析多个细胞的方法，包括：

其中所述多个条形码序列通过转导或转染掺入所述多个细胞的所述多个核酸分子中。

93.根据权利要求92所述的方法，其中所述多个核酸分子的子集包含所述多个条形码序列。

94.根据权利要求92所述的方法，其中所述多个条形码序列相对于所述多个细胞是内源的。

95.根据权利要求92-94中任一项所述的方法，其中所述多个条形码序列中的条形码序列包含1个碱基至1000个碱基。

96.根据权利要求92-95中任一项所述的方法，其中所述多个受试者包括多个人类受试者。

97.根据权利要求92-96中任一项所述的方法，其中所述多个受试者的身份被加密或模糊化。

98.根据权利要求92-97中任一项所述的方法，其中所述多个细胞来源于体液。

99.根据权利要求98所述的方法，其中所述体液包括血液、血浆、尿液、汗液或唾液。

100.根据权利要求92-99中任一项所述的方法，其中所述多个细胞包括皮肤细胞或毛细胞。

101.根据权利要求92-95中任一项所述的方法，其中所述多个细胞包括植物细胞。

102.根据权利要求101所述的方法，其中所述植物细胞来源于植物的叶或根。

103.根据权利要求92-102中任一项所述的方法，其中，在(b)之前，所述多个细胞是在大量生长环境中增殖所述多个受试者的所述细胞时产生的。

104.根据权利要求92-103中任一项所述的方法，其中所述多个细胞的增殖细胞通过生长速率分层。

105.根据权利要求104所述的方法，其中所述多个细胞用羧基荧光素琥珀酰亚胺酯(CFSE)染色。

106.根据权利要求92-105中任一项所述的方法，还包括：

(e)将多个荧光探针引入所述多个细胞；

107.根据权利要求106所述的方法，还包括重复(e)-(g)一次或多次。

108.根据权利要求92-107中任一项所述的方法，其中(c)或(d)包括使用外部数据库。

109.根据权利要求92所述的方法，还包括，在(b)之前，处理所述多个核酸分子以产生所述核酸分子，随后对所述核酸分子进行测序。

110.根据权利要求109所述的方法，其中所述处理包括产生所述多个核酸分子的拷贝。

111.根据权利要求109所述的方法，其中所述处理包括从所述多个细胞回收所述多个核酸分子。