CN117056774A

CN117056774A - 用于细胞标记分类的方法

Info

Publication number: CN117056774A
Application number: CN202310996650.5A
Authority: CN
Inventors: 胡静; 克里斯蒂娜·范; 大卫·罗森菲尔德; 范珏; 伊丽莎白·玛丽·瓦尔扎克
Original assignee: Becton Dickinson and Co
Current assignee: Becton Dickinson and Co
Priority date: 2016-11-08
Filing date: 2017-11-07
Publication date: 2023-11-14
Also published as: EP3538672A1; JP7228510B2; US20230295609A1; KR20190077061A; CN109906274A; SG11201903158RA; US20180127744A1; JP2023071726A; US11608497B2; CN109906274B; WO2018089377A1; AU2017359047A1; JP2020500017A

Abstract

本申请涉及用于细胞标记分类的方法。本文中公开了用于对细胞标记进行分类例如对信号细胞标记进行鉴定的方法和***。在一些实施例中，该方法包括：获得使用细胞中的利用条形码被条形码化的靶创建的经条形码化的靶的测序数据，其中条形码包含细胞标记和分子标记。在对这些细胞标记分等级后，可以确定累积和图的二阶导数图的最小值。使用这些方法，基于与细胞标记相关联的具有不同序列的分子标记的数目和细胞标记阈值，可以将该细胞标记分类为信号细胞标记或噪声细胞标记。

Description

用于细胞标记分类的方法

本申请是申请日为2017年11月07日，申请号为201780068299.6，发明名称为“用于细胞标记分类的方法”的申请的分案申请。

相关申请的交叉引用

本申请要求于2016年11月8日提交的美国临时专利申请号62/419194、和2017-01-12提交的美国临时专利申请号62/445546的优先权。这些相关申请中每个申请的内容在此通过引用以其全文明确地并入本文中。

发明背景

技术领域

本公开总体上涉及分子条形码编码的领域，并更具体地涉及鉴定和校正噪声细胞标记。

背景技术

如随机条形码化的方法和技术对于细胞分析有用，特别是使用例如逆转录、聚合酶链反应(PCR)扩增、和下一代测序(NGS)以解密基因表达谱来确定细胞的状态。然而，这些方法和技术可能引入误差，如果不校正的话，可能导致估计过高的细胞计数。

发明内容

本文中公开了用于鉴定信号细胞标记的方法。在一些实施例中，该方法包括：(a)使用多个条形码(例如随机条形码)使细胞样品中的多个靶条形码化(例如随机条形码化)以创造多个经条形码化的靶(例如经随机条形码化的靶)，其中该多个条形码的每个包含细胞标记和分子标记；(b)获得该多个经条形码化的靶的测序数据；(c)确定与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目；(d)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个条形码的细胞标记中的每个的等级；(e)基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的细胞标记中的每个的等级，生成累积和图；(f)生成该累积和图的二阶导数图；(g)确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值；和(h)基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(g)中确定的细胞标记阈值，将细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

在一些实施例中，该方法包括，如果在(h)中将多个条形码的细胞标记鉴定为噪声细胞标记，则从(b)中获得的测序数据中去除与该鉴定的细胞标记相关的测序信息。该方法可以包括，如果与多个靶中的靶相关联的具有不同序列的分子标记的数目高于分子标记出现阈值的话，则从(b)中获得的测序数据中去除与多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。

在一些实施例中，其中(c)中确定与细胞标记中的每个相关联的具有不同序列的分子标记的数目包括，从测序数据中除去与细胞标记中的每个相关联的非独特分子标记相关的测序信息。累积和图可以是对数-对数图。对数-对数图可以是log10-log10图。

在一些实施例中，基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的细胞标记中的每个的等级来生成累积和图包括：确定细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和。生成该累积和图的二阶导数图可以包括相对于细胞标记的第一等级和细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。该第一等级和该第二等级之间的差异可以是1。

在一些实施例中，最小值是全局最小值。确定二阶导数图的最小值包括确定高于与细胞标记中的每个相关联的分子标记的最小数目的阈值的二阶导数图的最小值。

在一些实施例中，与细胞标记中的每个相关联的分子标记的最小数目的阈值是百分位阈值。与细胞标记中的每个相关联的分子标记的最小数目的阈值是基于细胞样品中的细胞数目确定的。

在一些实施例中，确定二阶导数图的最小值包括确定低于与细胞标记中的每个相关联的分子标记的最大数目的阈值的二阶导数图的最小值。与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是百分位阈值。与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是基于细胞样品中的细胞数目确定的。

在一些实施例中，如果(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目大于细胞标记阈值，则将细胞标记中的每个鉴定为信号细胞标记。如果(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目不大于细胞标记阈值，则可以将细胞标记中的每个鉴定为噪声细胞标记。

在一些实施例中，该方法包括：(i)对于该多个靶中的一个或多个：(1)对该测序数据中与该靶相关联的具有不同序列的分子标记的数目进行计数；和(2)基于(1)中计数的测序数据中与该靶相关联的具有不同序列的分子标记的数目，估算该靶的数目。

本文中公开了用于确定信号细胞标记的方法。在一些实施例中，该方法包括：(a)获得多个经条形码化的靶(例如经随机条形码化的靶)的测序数据，其中使用多个条形码(例如随机条形码)使细胞样品中的多个靶条形码化(例如随机条形码化)来创建该多个经条形码化的靶，且其中该多个条形码的每个包括细胞标记和分子标记；(b)基于与该多个经条形码化的靶(或条形码)的细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个经条形码化的靶(或条形码)的细胞标记中的每个的等级；(c)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的该多个经条形码化的靶(或条形码)中细胞标记中的每个的等级，确定细胞标记阈值；以及基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(c)中确定的细胞标记阈值，将细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

在一些实施例中，该方法包括确定与细胞标记中的每个相关联的具有不同序列的分子标记的数目。确定与细胞标记中的每个相关联的具有不同序列的分子标记的数目可包括从测序数据中除去与细胞标记中的每个相关联的非独特分子标记相关的测序信息。

在一些实施例中，基于与多个经条形码化的靶中细胞标记中的每个相关联的具有不同序列的分子标记的数目确定细胞标记阈值包括：确定等级n的细胞标记的累积和以及下一等级n+1的细胞标记的累积和中具有最大变化的细胞标记，其中与该细胞标记相关联的具有不同序列的分子标记的数目对应于细胞标记阈值。

在一些实施例中，基于与多个经条形码化的靶中细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的多个经条形码化的靶的细胞标记中的每个的等级确定细胞标记阈值包括：确定细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和；以及确定在等级n的累积和和下一等级n+1的累积和中具有最大变化的细胞标记的等级n，其中在累积和以及下一等级n+1的累积和中具有最大变化的细胞标记的等级n对应于细胞标记阈值。

在一些实施例中，基于与多个经条形码化的靶中细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的多个经条形码化的靶的细胞标记中的每个的等级确定细胞标记阈值包括：基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的细胞标记中的每个的等级，生成累积和图；生成该累积和图的二阶导数图；以及确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值。基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的细胞标记中的每个的等级生成累积和图可包括：确定细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和。生成该累积和图的二阶导数图可以包括相对于细胞标记的第一等级和细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。

在一些实施例中，第一等级和第二等级之间的差异是1。在一些实施例中，该方法包括，如果在(d)中将多个经条形码化的靶的细胞标记鉴定为噪声细胞标记，则从(a)中获得的测序数据中去除与该鉴定的细胞标记相关的测序信息。该方法可以包括，如果与多个靶中的靶相关联的具有不同序列的分子标记的数目高于分子标记出现阈值的话，则从(a)中获得的测序数据中去除与多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。累积和图可以是对数-对数图。对数-对数图可以是log10-log10图。

在一些实施例中，最小值是全局最小值。确定二阶导数图的最小值可包括确定二阶导数图的最小值高于与细胞标记中的每个相关联的分子标记的最小数目的阈值。与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是百分位阈值。与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是基于细胞样品中的细胞数目确定的。

在一些实施例中，该方法包括：(e)对于该多个靶中的一个或多个：(1)对该测序数据中与该靶相关联的具有不同序列的分子标记的数目进行计数；和(2)基于(1)中计数的测序数据中与该靶相关联的具有不同序列的分子标记的数目，估算该靶的数目。

本文中公开了用于鉴定信号细胞标记的实施例。在一些实施例中，该方法包括：(a)获得细胞的多个靶的测序数据，其中每个靶跟与多个细胞标记中的每个细胞标记相关联的具有不同序列的分子标记的数目相关；(b)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定细胞标记阈值；以及(c)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和细胞标记阈值，将细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

在一些实施例中，获得测序数据包括：使用多个条形码使细胞的多个靶条形码化，以创建多个经条形码化的靶，其中该多个条形码中的每个包括多个细胞标记中的细胞标记、和分子标记；和确定与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目。在一些实施例中，该方法包括：对于该多个靶中的一个或多个：(1)对该测序数据中与该靶相关联的具有不同序列的分子标记的数目进行计数；和(2)基于(1)中计数的测序数据中与该靶相关联的具有不同序列的分子标记的数目，估算该靶的数目。该方法可包括，如果该多个条形码的细胞标记被鉴定为噪声细胞标记：则从测序数据去除与该鉴定的细胞标记相关的测序信息。该方法可以包括：如果与多个靶中的靶相关联的具有不同序列的分子标记的数目高于分子标记出现阈值的话，则从测序数据中去除与多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。在一些实施例中，(c)中确定与细胞标记中的每个相关联的具有不同序列的分子标记的数目包括，从测序数据中除去与细胞标记中的每个相关联的非独特分子标记相关的测序信息。

在一些实施例中，确定细胞标记阈值包括：确定累积和图的拐点，其中该累积和图基于与多个细胞标记中的每个相关联的具有不同序列的分子标记的数目和细胞标记中的每个的等级，并且其中该拐点对应于细胞标记阈值。确定累积和图的拐点可包括：基于与多个细胞标记中的每个相关联的具有不同序列的分子标记的数目和细胞标记中的每个的等级，生成累积和图；生成该累积和图的二阶导数图；以及确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值。确定细胞标记阈值可包括：基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定多个细胞标记中的每个的等级。累积和图可以是对数-对数图，例如log10-log10图。

在一些实施例中，基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和细胞标记中的每个的等级来生成累积和图包括：确定细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和。生成该累积和图的二阶导数图可以包括相对于细胞标记的第一等级和细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。该第一等级和该第二等级之间的差异可以是1。最小值可以是全局最小值。确定二阶导数图的最小值可包括：确定二阶导数图的最小值高于与细胞标记中的每个相关联的分子标记的最小数目的阈值。与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是百分位阈值。与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是基于多个细胞的数目确定的。

在一些实施例中，确定二阶导数图的最小值包括确定低于与细胞标记中的每个相关联的分子标记的最大数目的阈值的二阶导数图的最小值。与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是百分位阈值。与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是基于多个细胞的数目确定的。

在一些实施例中，如果与细胞标记中的每个相关联的具有不同序列的分子标记的数目大于细胞标记阈值，则可以将细胞标记中的每个鉴定为信号细胞标记。如果与细胞标记中的每个相关联的具有不同序列的分子标记的数目不大于细胞标记阈值，则可以将细胞标记中的每个鉴定为噪声细胞标记。

本文中公开了用于鉴定信号细胞标记的方法。在一些实施例中，该方法包括：(a)使用多个条形码(例如随机条形码)使细胞样品中的多个靶条形码化(例如随机条形码化)以创建多个经条形码化的靶(例如经随机条形码化的靶)，其中该多个条形码中的每个包含细胞标记和分子标记，其中从该多个细胞中不同细胞的靶创建的经条形码化的靶具有不同的细胞标记，并且其中从该多个细胞中相同细胞的靶创建的经条形码化的靶具有不同的分子标记；(b)获得该多个经条形码化的靶的测序数据；(c)确定该多个条形码(或经条形码化的靶)的每个细胞标记的特征向量，其中该特征向量包含与每个细胞标记相关联的具有不同序列的分子标记的数目；(d)基于该特征向量确定该多个条形码(或经条形码化的靶)的每个细胞标记的聚类；和(e)基于该聚类中细胞标记的数目和聚类大小阈值将该多个随机条形码(或经条形码化的靶)的每个细胞标记鉴定为信号细胞标记或噪声细胞标记。

在一些实施例中，基于特征向量确定多个经条形码化的靶的每个细胞标记的聚类包括基于特征向量与聚类在特征向量空间中的距离将多个经条形码化的靶的每个细胞标记聚类成聚类。基于特征向量确定多个经条形码化的靶的每个细胞标记的聚类可包括：将特征向量从特征向量空间投影到更低维空间；并且基于特征向量与聚类在更低维空间中的距离将每个细胞标记聚类成聚类。

在一些实施例中，更低维空间是二维空间。将特征向量从特征向量空间投影到更低维空间可包括使用t分布随机邻域嵌入(tSNE)方法将特征向量从特征向量空间投影到更低维空间。基于特征向量与聚类在更低维空间中的距离将每个细胞标记聚类成聚类可以包括使用基于密度的方法基于特征向量与聚类在更低维空间中的距离将每个细胞标记聚类成聚类。基于密度的方法可包括具有噪声的应用的基于密度的空间聚类(DBSCAN)方法。

在一些实施例中，如果聚类中的细胞标记的数目低于聚类大小阈值，则将细胞标记鉴定为信号细胞标记。如果聚类中的细胞标记的数目不低于聚类大小阈值，则可将细胞标记鉴定为噪声细胞标记。该方法可以包括：(f)对于该多个靶中的一个或多个：(1)对该测序数据中与该靶相关联的具有不同序列的分子标记的数目进行计数；和(2)基于(1)中计数的测序数据中与该靶相关联的具有不同序列的分子标记的数目，估算该靶的数目。

在一些实施例中，该方法包括基于多个经条形码化的靶的细胞标记的数目确定聚类大小阈值。聚类大小阈值可以是多个经条形码化的靶的细胞标记数目的百分数。在一些实施例中，该方法包括基于多个条形码的细胞标记的数目确定聚类大小阈值。聚类大小阈值是多个条形码的细胞标记数目的百分数。在一些实施例中，方法包括基于与多个条形码的每个细胞标记相关联的具有不同序列的分子标记的数目确定聚类大小阈值。

本文中公开了用于鉴定信号细胞标记的方法。在一些实施例中，该方法包括：(a)获得多个经条形码化的靶(例如经随机条形码化的靶)的测序数据，其中该多个经条形码化的靶从细胞样品中的多个靶创建，该多个靶使用多个条形码(例如随机条形码)被条形码化(例如随机条形码化)，其中该多个条形码中的每个包含细胞标记和分子标记，其中从该多个细胞中不同细胞的靶创建的经条形码化的靶具有不同的细胞标记，并且其中从该多个细胞中相同细胞的靶创建的经条形码化的靶具有不同的分子标记；(b)确定该多个经条形码化的靶的每个细胞标记的特征向量，其中该特征向量包含与每个细胞标记相关联的具有不同序列的分子标记的数目；(c)基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类；和(d)基于该聚类中细胞标记的数目和聚类大小阈值将该多个经条形码化的靶的每个细胞标记鉴定为信号细胞标记或噪声细胞标记。

在一些实施例中，基于特征向量确定多个经条形码化的靶的每个细胞标记的聚类包括基于特征向量与聚类在特征向量空间中的距离将多个经条形码化的靶的每个细胞标记聚类成聚类。基于特征向量确定多个经条形码化的靶的每个细胞标记的聚类包括：将特征向量从特征向量空间投影到更低维空间；并且基于特征向量与聚类在更低维空间中的距离将每个细胞标记聚类成聚类。更低维空间可以是二维空间。

在一些实施例中，将特征向量从特征向量空间投影到更低维空间包括使用t分布随机邻域嵌入(tSNE)方法将特征向量从特征向量空间投影到更低维空间。基于特征向量与聚类在更低维空间中的距离将每个细胞标记聚类成聚类可以包括使用基于密度的方法基于特征向量与聚类在更低维空间中的距离将每个细胞标记聚类成聚类。基于密度的方法可包括具有噪声的应用的基于密度的空间聚类(DBSCAN)方法。

在一些实施例中，如果聚类中的细胞标记的数目低于聚类大小阈值，则可将细胞标记鉴定为信号细胞标记。如果聚类中的细胞标记的数目不低于聚类大小阈值，则可将细胞标记鉴定为噪声细胞标记。

在一些实施例中，该方法包括基于多个经条形码化的靶的细胞标记的数目确定聚类大小阈值。聚类大小阈值可以是多个经条形码化的靶的细胞标记数目的百分数。在一些实施例中，基于多个条形码的细胞标记的数目确定聚类大小阈值。聚类大小阈值可以是多个条形码的细胞标记数目的百分数。在一些实施例中，方法包括基于与多个条形码的每个细胞标记相关联的具有不同序列的分子标记的数目确定聚类大小阈值。

本文中公开了用于鉴定信号细胞标记的实施例。在一些实施例中，该方法包括：(a)获得细胞的多个第一靶的测序数据，其中每个第一靶跟与多个细胞标记中的每个细胞标记相关联的具有不同序列的分子标记的数目相关；(b)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和鉴定阈值，将细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记；和(c)将多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记，或将(b)中鉴定为信号细胞标记的至少一个细胞标记重新鉴定为噪声细胞标记。鉴定细胞标记中的每个，将多个细胞标记中的至少一个重新鉴定为信号细胞标记，或将多个细胞标记中的至少一个重新鉴定为噪声细胞标记可以基于与本公开中相同的细胞标记鉴定方法或不同的细胞标记鉴定方法。鉴定阈值可包括细胞标记阈值、聚类大小阈值、或其任意组合。该方法可以包括：去除多个细胞标记中的各自与低于分子标记数目阈值的具有不同序列的分子标记的数目相关联一个或多个细胞标记。

在一些实施例中，将多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记包括：在多个第一靶中确定多个第一靶中的各自具有高于变化性阈值的一个或多个变化性指标的多个第二靶；和对于多个细胞标记中的每个，基于与多个第二靶相关联的具有不同序列的分子标记的数目和鉴定阈值将多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记。第二靶的一个或多个变化性指标可包括测序数据中与第二靶和多个细胞标记中的细胞标记相关联的具有不同序列的分子标记的数目的平均值、最大值、中值、最小值、离差(dispersion)、或其任何组合。第二靶的一个或多个变化性指标可包括标准偏差、归一化离差、或其任何组合、多个第二靶的子集的变化性指标。变化性阈值可以小于或等于多个第二靶的子集的大小。

在一些实施例中，将多个细胞标记中的在(b)中鉴定为信号细胞标记的至少一个重新鉴定为噪声细胞标记包括：确定多个第一靶中的各自具有高于关联阈值的与在(c)中鉴定为噪声细胞标记的细胞标记的关联的多个第三靶；和对于多个细胞标记中的每个，基于与多个第三靶相关联的具有不同序列的分子标记的数目和鉴定阈值将(b)中鉴定为信号细胞标记的至少一个细胞标记重新鉴定为噪声细胞标记。确定多个第一靶中的各自具有高于关联阈值的与在(c)中鉴定为噪声细胞标记的细胞标记的关联的多个第三靶可包括：在将(b)中鉴定为噪声细胞标记的至少一个细胞标记重新鉴定为信号细胞标记之后，确定鉴定为信号细胞标记的多个剩余细胞标记；对于多个细胞标记中的每个基于与多个靶相关联的具有不同序列的分子标记的数目，和对于多个剩余细胞标记的中的每个基于与多个靶相关联的具有不同序列的分子标记的数目，确定多个第三靶。

本文中公开了用于鉴定信号细胞标记的***。在一些实施例中，该***包含：硬件处理器；和具有存储在其上的指令的非暂时性存储器，这些指令当通过该硬件处理器执行时使得该处理器执行本文公开的任何方法。本文中公开了用于鉴定信号细胞标记的计算机可读介质。在一些实施例中，该计算机可读介质包含用于实施本文中公开的任何方法的代码。

本文中还公开了以下项目：

1.一种用于鉴定信号细胞标记的方法，该方法包括：

(a)使用多个条形码使多个细胞中的多个靶条形码化以创建多个经条形码化的靶，其中该多个条形码中的每个包含细胞标记和分子标记；

(b)获得该多个经条形码化的靶的测序数据；

(c)确定与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目；

(d)基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个条形码的细胞标记中的每个的等级；

(e)基于(c)中确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的这些细胞标记中的每个的等级，生成累积和图；

(f)生成该累积和图的二阶导数图；

(g)确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值；和

(h)基于(c)中确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(g)中确定的细胞标记阈值，将这些细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

2.如项目1所述的方法，该方法包括：如果在(h)中将该多个条形码的细胞标记鉴定为噪声细胞标记，则从(b)中获得的测序数据中去除与该鉴定的细胞标记相关的测序信息。

3.如项目1-2中任一项所述的方法，该方法包括：如果与该多个靶中的靶相关联的具有不同序列的分子标记的数目高于分子标记出现阈值的话，则从(b)中获得的测序数据中去除与该多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。

4.如项目1-3中任一项所述的方法，其中在(c)中确定与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目包括从测序数据中除去与这些细胞标记中的每个相关联的非独特分子标记相关的测序信息。

5.如项目1-4中任一项所述的方法，其中该累积和图是对数-对数图。

6.如项目5所述的方法，其中该对数-对数图是log₁₀-log₁₀图。

7.如项目1-6中任一项所述的方法，其中基于(c)中确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的这些细胞标记中的每个的等级生成该累积和图包括：

确定这些细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和。

8.如项目7所述的方法，其中生成该累积和图的二阶导数图包括相对于这些细胞标记的第一等级和这些细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。

9.如项目8所述的方法，其中该第一等级和该第二等级之间的差异是1。

10.如项目1-9中任一项所述的方法，其中该最小值是全局最小值。

11.如项目1-10中任一项所述的方法，其中确定该二阶导数图的最小值包括确定高于与这些细胞标记中的每个相关联的分子标记的最小数目的阈值的该二阶导数图的最小值。

12.如项目11所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最小数目的阈值是百分位阈值。

13.如项目11-12中任一项所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最小数目的阈值是基于该多个细胞中的细胞数目确定。

14.如项目1-13中任一项所述的方法，其中确定该二阶导数图的最小值包括确定低于与这些细胞标记中的每个相关联的分子标记的最大数目的阈值的该二阶导数图的最小值。

15.如项目14所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最大数目的阈值是百分位阈值。

16.如项目14-15中任一项所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最大数目的阈值是基于该多个细胞中的细胞数目确定。

17.如项目1-16中任一项所述的方法，其中如果(c)中确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目大于该细胞标记阈值，则将这些细胞标记中的每个鉴定为信号细胞标记。

18.如项目1-17中任一项所述的方法，其中如果(c)中确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目不大于该细胞标记阈值，则将这些细胞标记中的每个鉴定为噪声细胞标记。

19.如项目1-18中任一项所述的方法，该方法包括：

(i)对于该多个靶中的一个或多个：

(1)对该测序数据中与该靶相关联的具有不同序列的分子标记的数目进行计数；和

(2)基于(1)中计数的测序数据中与该靶相关联的具有不同序列的分子标记的数目，估算该靶的数目。

20.一种用于确定信号细胞标记的方法，该方法包括：

(a)获得多个经条形码化的靶的测序数据，其中使用多个条形码使多个细胞中的多个靶条形码化来创建该多个经条形码化的靶，且其中该多个条形码中的每个包括细胞标记和分子标记；

(b)基于与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个条形码的细胞标记中的每个的等级；

(c)基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的该多个条形码的细胞标记中的每个的等级，确定细胞标记阈值；和

(d)基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(c)中确定的细胞标记阈值，将这些细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

21.如项目20所述的方法，该方法包括：确定与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目。

22.如项目21所述的方法，其中确定与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目包括从测序数据中除去与这些细胞标记中的每个相关联的非独特分子标记相关的测序信息。

23.如项目20-22中任一项所述的方法，其中基于与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的该多个条形码的细胞标记中的每个的等级确定该细胞标记阈值包括：

确定这些细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和；和

确定在等级n的累积和以及下一等级n+1的累积和中具有最大变化的细胞标记的等级n，其中在累积和以及下一等级n+1的累积和中具有最大变化的细胞标记的等级n对应于该细胞标记阈值。

24.如项目20-22中任一项所述的方法，其中基于与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目确定该细胞标记阈值包括：

确定在等级n的细胞标记的累积和以及下一等级n+1的细胞标记的累积和中具有最大变化的细胞标记，其中与该细胞标记相关联的具有不同序列的分子标记的数目对应于该细胞标记阈值。

25.如项目20-22中任一项所述的方法，其中基于与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的该多个条形码的细胞标记中的每个的等级确定该细胞标记阈值包括：

基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的细胞标记中的每个的等级，生成累积和图；

生成该累积和图的二阶导数图；和

确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于该细胞标记阈值。

26.如项目25所述的方法，其中基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的细胞标记中的每个的等级生成累积和图包括：

27.如项目25-26中任一项所述的方法，其中生成该累积和图的二阶导数图包括相对于这些细胞标记的第一等级和这些细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。

28.如项目27所述的方法，其中该第一等级和该第二等级之间的差异是1。

29.如项目20-28中任一项所述的方法，该方法包括：如果在(d)中将该多个条形码的细胞标记鉴定为噪声细胞标记，则从(a)中获得的测序数据中去除与该鉴定的细胞标记相关的测序信息。

30.如项目20-29中任一项所述的方法，该方法包括：如果与该多个靶中的靶相关联的具有不同序列的分子标记的数目高于分子标记出现阈值的话，则从(a)中获得的测序数据中去除与该多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。

31.如项目20-30中任一项所述的方法，其中该累积和图是对数-对数图。

32.如项目31所述的方法，其中该对数-对数图是log₁₀-log₁₀图。

33.如项目25-32中任一项所述的方法，其中该最小值是全局最小值。

34.如项目25-33中任一项所述的方法，其中确定该二阶导数图的最小值包括确定高于与这些细胞标记中的每个相关联的分子标记的最小数目的阈值的该二阶导数图的最小值。

35.如项目34所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最小数目的阈值是百分位阈值。

36.如项目34-35中任一项所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最小数目的阈值是基于该多个细胞中的细胞数目确定。

37.如项目25-36中任一项所述的方法，其中确定该二阶导数图的最小值包括确定低于与这些细胞标记中的每个相关联的分子标记的最大数目的阈值的该二阶导数图的最小值。

38.如项目37所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最大数目的阈值是百分位阈值。

39.如项目37-38中任一项所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最大数目的阈值是基于该多个细胞中的细胞数目确定。

40.如项目20-39中任一项所述的方法，其中如果确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目大于该细胞标记阈值，则将这些细胞标记中的每个鉴定为信号细胞标记。

41.如项目20-40中任一项所述的方法，其中如果确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目不大于该细胞标记阈值，则将这些细胞标记中的每个鉴定为噪声细胞标记。

42.如项目20-41中任一项所述的方法，该方法包括：

(e)对于该多个靶中的一个或多个：

43.一种用于鉴定信号细胞标记的方法，该方法包括：

(a)获得细胞的多个靶的测序数据，其中每个靶跟与多个细胞标记中的每个细胞标记相关联的具有不同序列的分子标记的数目相关；

(b)基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定细胞标记阈值；和

(c)基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和该细胞标记阈值，将这些细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

44.如项目43所述的方法，其中获得测序数据包括：

使用多个条形码使这些细胞的多个靶条形码化，以创建多个经条形码化的靶，其中该多个条形码中的每个包括该多个细胞标记中的细胞标记、和分子标记；和

确定与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目。

45.如项目43-44中任一项所述的方法，该方法包括：

对于该多个靶中的一个或多个：

46.如项目43-45中任一项所述的方法，该方法包括：如果将该多个条形码的细胞标记鉴定为噪声细胞标记，则从测序数据中去除与该鉴定的细胞标记相关的测序信息。

47.如项目43-46中任一项所述的方法，该方法包括：如果与该多个靶中的靶相关联的具有不同序列的分子标记的数目高于分子标记出现阈值的话，则从测序数据中去除与该多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。

48.如项目43-47中任一项所述的方法，其中在(c)中确定与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目包括从测序数据中除去与这些细胞标记中的每个相关联的非独特分子标记相关的测序信息。

49.如项目43-48中任一项所述的方法，其中确定该细胞标记阈值包括：

确定累积和图的拐点，

其中该累积和图基于与该多个细胞标记中的每个相关联的具有不同序列的分子标记的数目和这些细胞标记中的每个的等级，并且

其中该拐点对应于该细胞标记阈值。

50.如项目49所述的方法，其中确定该累积和图的拐点包括：

基于与该多个细胞标记中的每个相关联的具有不同序列的分子标记的数目和这些细胞标记中的每个的等级，生成累积和图；

生成该累积和图的二阶导数图；和

确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值。

51.如项目49-50中任一项所述的方法，其中确定该细胞标记阈值包括：基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个细胞标记中的每个的等级。

52.如项目43-51中任一项所述的方法，其中该累积和图是对数-对数图。

53.如项目52所述的方法，其中该对数-对数图是log₁₀-log₁₀图。

54.如项目50-53中任一项所述的方法，其中基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和细胞标记中的每个的等级生成累积和图包括：

55.如项目54所述的方法，其中生成该累积和图的二阶导数图包括相对于这些细胞标记的第一等级和这些细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。

56.如项目55所述的方法，其中该第一等级和该第二等级之间的差异是1。

57.如项目43-56中任一项所述的方法，其中该最小值是全局最小值。

58.如项目43-57中任一项所述的方法，其中确定该二阶导数图的最小值包括确定高于与这些细胞标记中的每个相关联的分子标记的最小数目的阈值的该二阶导数图的最小值。

59.如项目58所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最小数目的阈值是百分位阈值。

60.如项目58-59中任一项所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最小数目的阈值是基于该多个细胞的数目确定。

61.如项目43-60中任一项所述的方法，其中确定该二阶导数图的最小值包括确定低于与这些细胞标记中的每个相关联的分子标记的最大数目的阈值的该二阶导数图的最小值。

62.如项目61所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最大数目的阈值是百分位阈值。

63.如项目61-62中任一项所述的方法，其中与这些细胞标记中的每个相关联的分子标记的最大数目的阈值是基于该多个细胞的数目确定。

64.如项目43-63中任一项所述的方法，其中如果与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目大于该细胞标记阈值，则将这些细胞标记中的每个鉴定为信号细胞标记。

65.如项目43-64中任一项所述的方法，其中如果与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目不大于该细胞标记阈值，则将这些细胞标记中的每个鉴定为噪声细胞标记。

66.一种用于鉴定信号细胞标记的方法，该方法包括：

(a)使用多个条形码使多个细胞中的多个靶条形码化以创建多个经条形码化的靶，其中该多个条形码中的每个包括细胞标记和分子标记，其中从该多个细胞中的不同细胞的靶创建的经条形码化的靶具有不同的细胞标记，并且其中从该多个细胞中的相同种细胞的靶创建的经条形码化的靶具有不同的分子标记；

(b)获得该多个经条形码化的靶的测序数据；

(c)确定该多个经条形码化的靶的每个细胞标记的特征向量，其中该特征向量包含与每个细胞标记相关联的具有不同序列的分子标记的数目；

(d)基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类；和

(e)基于该聚类中细胞标记的数目和聚类大小阈值将该多个经条形码化的靶的每个细胞标记鉴定为信号细胞标记或噪声细胞标记。

67.如项目66所述的方法，其中基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类包括基于该特征向量与该聚类在特征向量空间中的距离将该多个经条形码化的靶的每个细胞标记聚类成聚类。

68.如项目66所述的方法，其中基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类包括：

将该特征向量从特征向量空间投影到更低维空间；和

基于该特征向量与该聚类在更低维空间中的距离将每个细胞标记聚类成聚类。

69.如项目68所述的方法，其中该更低维空间是二维空间。

70.如项目68-69中任一项所述的方法，其中将该特征向量从该特征向量空间投影到该更低维空间包括使用t分布随机邻域嵌入(tSNE)方法将该特征向量从该特征向量空间投影到该更低维空间。

71.如项目68-70中任一项所述的方法，其中基于该特征向量与该聚类在该更低维空间中的距离将每个细胞标记聚类成聚类包括使用基于密度的方法基于该特征向量与该聚类在该更低维空间中的距离将每个细胞标记聚类成聚类。

72.如项目71所述的方法，其中该基于密度的方法包括具有噪声的应用的基于密度的空间聚类(DBSCAN)方法。

73.如项目66-72中任一项所述的方法，其中如果该聚类中的细胞标记的数目低于该聚类大小阈值，则将该细胞标记鉴定为信号细胞标记。

74.如项目66-73中任一项所述的方法，其中如果该聚类中的细胞标记的数目不低于该聚类大小阈值，则将该细胞标记鉴定为噪声细胞标记。

75.如项目66-74中任一项所述的方法，该方法包括：基于该多个经条形码化的靶的细胞标记的数目确定该聚类大小阈值。

76.如项目75所述的方法，其中该聚类大小阈值是该多个经条形码化的靶的细胞标记的数目的百分数。

77.如项目66-74中任一项所述的方法，该方法包括：基于该多个经条形码化的靶的细胞标记的数目确定该聚类大小阈值。

78.如项目77所述的方法，其中该聚类大小阈值是该多个经条形码化的靶的细胞标记的数目的百分数。

79.如项目66-78中任一项所述的方法，该方法包括：基于与该多个条形码的每个细胞标记相关联的具有不同序列的分子标记的数目确定该聚类大小阈值。

80.如项目66-79中任一项所述的方法，该方法包括：

(f)对于该多个靶中的一个或多个：

81.一种用于鉴定信号细胞标记的方法，该方法包括：

(a)获得多个经条形码化的靶的测序数据，其中使用多个条形码使多个细胞中的多个靶条形码化来创建该多个经条形码化的靶，其中该多个条形码中的每个包含细胞标记和分子标记，其中从该多个细胞中不同细胞的靶创建的经条形码化的靶具有不同的细胞标记，并且其中从该多个细胞中相同细胞的靶创建的经条形码化的靶具有不同的分子标记；

(b)确定该多个经条形码化的靶的每个细胞标记的特征向量，其中该特征向量包含与每个细胞标记相关联的具有不同序列的分子标记的数目；

(c)基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类；和

(d)基于该聚类中细胞标记的数目和聚类大小阈值将该多个经条形码化的靶的每个细胞标记鉴定为信号细胞标记或噪声细胞标记。

82.如项目80所述的方法，其中基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类包括基于该特征向量与该聚类在特征向量空间中的距离将该多个经条形码化的靶的每个细胞标记聚类成聚类。

83.如项目80所述的方法，其中基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类包括：

将该特征向量从特征向量空间投影到更低维空间；和

84.如项目83所述的方法，其中该更低维空间是二维空间。

85.如项目83-84中任一项所述的方法，其中将该特征向量从该特征向量空间投影到该更低维空间包括使用t分布随机邻域嵌入(tSNE)方法将该特征向量从该特征向量空间投影到该更低维空间。

86.如项目83-85中任一项所述的方法，其中基于该特征向量与该聚类在该更低维空间中的距离将每个细胞标记聚类成聚类包括使用基于密度的方法基于该特征向量与该聚类在该更低维空间中的距离将每个细胞标记聚类成聚类。

87.如项目86所述的方法，其中该基于密度的方法包括具有噪声的应用的基于密度的空间聚类(DBSCAN)方法。

88.如项目83-87中任一项所述的方法，其中如果该聚类中的细胞标记的数目低于该聚类大小阈值，则将该细胞标记鉴定为信号细胞标记。

89.如项目83-88中任一项所述的方法，其中如果该聚类中的细胞标记的数目不低于该聚类大小阈值，则将该细胞标记鉴定为噪声细胞标记。

90.如项目83-89中任一项所述的方法，该方法包括：基于该多个经条形码化的靶的细胞标记的数目确定该聚类大小阈值。

91.如项目90所述的方法，其中该聚类大小阈值是该多个经条形码化的靶的细胞标记的数目的百分数。

92.如项目83-91中任一项所述的方法，该方法包括：基于该多个经条形码化的靶的细胞标记的数目确定该聚类大小阈值。

93.如项目92所述的方法，其中该聚类大小阈值是该多个经条形码化的靶的细胞标记的数目的百分数。

94.如项目83-93中任一项所述的方法，该方法包括：基于与该多个经条形码化的靶的每个细胞标记相关联的具有不同序列的分子标记的数目确定该聚类大小阈值。

95.如项目83-94中任一项所述的方法，该方法包括：

(e)对于该多个靶中的一个或多个：

96.一种用于鉴定信号细胞标记的方法，该方法包括：

(a)获得细胞的多个第一靶的测序数据，其中每个第一靶跟与多个细胞标记中的每个细胞标记相关联的具有不同序列的分子标记的数目相关；

(b)基于与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和鉴定阈值，将这些细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记；和

(c)将该多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记，或将(b)中鉴定为信号细胞标记的至少一个细胞标记重新鉴定为噪声细胞标记。

97.如项目96所述的方法，其中该鉴定阈值包括细胞标记阈值、聚类大小阈值、或其任意组合。

98.如项目96-97中任一项所述的方法，该方法包括：去除该多个细胞标记中的各自与低于分子标记数目阈值的具有不同序列的分子标记的数目相关联一个或多个细胞标记。

99.如项目96-98中任一项所述的方法，其中将该多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记包括：

在该多个第一靶中确定该多个第一靶中的各自具有高于变化性阈值的一个或多个变化性指标的多个第二靶；和

对于该多个细胞标记中的每个，基于与该多个第二靶相关联的具有不同序列的分子标记的数目和该鉴定阈值将该多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记。

100.如项目99所述的方法，其中该第二靶的一个或多个变化性指标包括测序数据中与该第二靶和该多个细胞标记中的细胞标记相关联的具有不同序列的分子标记的数目的平均值、最大值、中值、最小值、离差、或其任何组合。

101.如项目99-100中任一项所述的方法，其中该第二靶的一个或多个变化性指标包括标准偏差、归一化离差、或其任何组合、该多个第二靶的子集的变化性指标。

102.如项目101所述的方法，其中该可变性阈值小于或等于该多个第二靶的子集的大小。

103.如项目96-102中任一项所述的方法，其中将该多个细胞标记中的在(b)中鉴定为信号细胞标记的至少一个重新鉴定为噪声细胞标记包括：

确定该多个第一靶中的各自具有高于关联阈值的与在(c)中鉴定为噪声细胞标记的细胞标记的关联的多个第三靶；和

对于该多个细胞标记中的每个，基于与该多个第三靶相关联的具有不同序列的分子标记的数目和该鉴定阈值将(b)中鉴定为信号细胞标记的至少一个细胞标记重新鉴定为噪声细胞标记。

104.如项目103所述的方法，其中确定该多个第一靶中的各自具有高于关联阈值的与在(c)中鉴定为噪声细胞标记的细胞标记的关联的多个第三靶包括：

在将(b)中鉴定为噪声细胞标记的至少一个细胞标记重新鉴定为信号细胞标记之后，确定鉴定为信号细胞标记的多个剩余细胞标记；

基于以下确定该多个第三靶

对于该多个细胞标记的每个，与该多个靶相关联的具有不同序列的分子标记的数目，和

对于该多个剩余细胞标记的每个,与该多个靶相关联的具有不同序列的分子标记的数目。

105.一种用于确定靶的数目的计算机***，该计算机***包含：

硬件处理器；和

具有存储在其上的指令的非暂时性存储器，这些指令当通过该硬件处理器执行时使得该处理器执行如项目1-104中任一项所述的方法。

106.一种计算机可读介质，其包含用于执行如项目1-104中任一项所述的方法的代码。

附图简要说明

图1说明了非限制性示例性条形码(例如随机条形码)。

图2显示了进行条形码化和数字计数(例如进行随机条形码化和数字计数)的非限制性示例性工作流程。

图3是显示用于从多个靶产生经(例如经条形码化的靶随机经条形码化的靶)的索引文库的非限制性示例性过程的示意图。

图4是显示鉴定细胞为信号细胞标记或噪声细胞标记的非限制性示例性方法的流程图。

图5是显示鉴定细胞为信号细胞标记或噪声细胞标记的另一个非限制性示例性方法的流程图。

图6A是显示用于将与真细胞相关联的标记与噪声细胞的进行区分的非限制性示例性方法的流程图。图6B是显示用于将与真细胞有关的标记与噪声细胞的进行区分的另一个非限制性示例性方法的流程图。

图7是显示最可变基因的鉴定的非限制性示例图。用于将与真细胞有关的标记与噪声细胞的进行区分的方法(例如参照图6A描述的方法600a，在实例4中例示)可包括最可变基因的鉴定。

图8A-8B是例示基因的鉴定的非限制性示例图，对于每个基因而言其在相关联的具有不同序列的分子标记的数目方面损失最大。用于将与真细胞相关联的标记与噪声细胞的进行区分的方法(例如参照图6A描述的方法600a，在实例4中例示)可包括鉴定基因，对于每个基因而言其在与不同序列相关联的分子标记的数目方面损失最大。

图9是配置为执行本公开的方法的例示性计算***的方框图。

图10显示了非限制性示例性累积和图。

图11显示了图10中的累积和图的非限制性二阶导数图。

图12显示了信号或噪声细胞标记的非限制性tSNE图。

图13A-13B是非限制性示例图，例示了对于使用BD^TM乳腺癌基因板(具有三种不同的乳腺癌细胞系和供体分离的PBMC)处理的样品，由参照图4说明的方法400(图13A)和由参照图6A说明的方法600a(图13B)鉴定的细胞的比较。图13A-13B中均标记为蓝色的点是两种方法都检测到的共有细胞。在图13A中标记为红色的点是由方法600a鉴定为噪声的细胞。在图13B中标记为红色的点是由方法600a鉴定的另外的真细胞。

图14A是非限制性示例图，显示了由方法600a鉴定的细胞，其中标记为红色的细胞是鉴定的另外的细胞(相比于由参照图4例示的方法400鉴定的细胞)。通过表达PBMC，例如B细胞(图14B)、NK细胞(图14C)和T细胞(图14D)来将细胞着色。图14B-14D显示由方法600a鉴定的另外的细胞确实是真细胞。

图15A-15B是非限制性示例图，例示了对于使用具有健康供体分离的PBMC的BD^TM血液基因板处理的样品，由参照图4说明的方法400(图15A)和由参照图6A说明的方法600a(图15B)鉴定的细胞的比较。图15A-15B中均标记为蓝色的点是两种方法都检测到的共有细胞。在图15A中标记为红色的点是由方法600a鉴定为噪声的细胞。在图15B中标记为红色的点是由方法600a鉴定的另外的细胞。

图16A-16B是非限制性示例图，显示了由方法400鉴定的细胞。在图16A中，标记为红色的细胞是由方法600a鉴定为噪声的细胞。在图16B中，通过表达一组单核细胞标志基因，例如CD14和S100A6来将细胞着色。由改进的算法鉴定的“噪声”细胞大多是单核细胞的低表达者。

图17A是非限制性示例图，显示了由方法600a鉴定的细胞，其中标记的细胞是鉴定的另外的细胞。通过T细胞的表达(图17B)，重要基因LAT的表达(图17C)和IL7R的表达(图17D)来将细胞着色。

具体实施方式

在以下详细说明中参考了形成本文的一部分的附图。在附图中，除非上下文另有指示，否则相似的符号通常标识相似的组件。在具体实施例、附图和权利要求中描述的说明性实施例不意味着是限制性的。在不脱离本文提出的主题的精神或范围的情况下，可以利用其他实施例，并且可以做出其他改变。容易理解的是，如本文一般描述的以及图中说明的本披露的方面能以各种不同的配置来布置、替换、组合、分离和设计，所有这些都在本文中明确考虑并且构成本披露内容的一部分。

来自GenBank的所有专利、公开的专利申请、其他出版物、和序列，以及本文提及的其他数据库关于相关技术通过引用以其整体并入。

对少量核酸或靶(例如信使核糖核苷酸(mRNA)分子)进行量化对于确定例如在不同发育阶段或在不同环境条件下在细胞中表达的基因是临床上重要的。然而，确定核酸分子(例如，mRNA分子)的绝对数目也是非常具有挑战性的，尤其是当分子数目非常小时。确定样品中分子的绝对数目的一种方法是数字聚合酶链式反应(PCR)。理想地，PCR在每个循环中产生分子的相同拷贝。然而，PCR可具有缺点使得每个分子复制具有随机概率，且此概率根据PCR循环和基因序列而变化，这导致扩增偏差和不准确的基因表达测量。

可以将具有独特分子标记(ML，也称为分子指数(MI))的条形码(例如随机条形码)用于计数分子数目。对每个细胞标记独特的具有分子标记的条形码可用于计数每个细胞中的分子数目。条形码化的非限制性示例测定法包括Precise^TM测定法(Cellular Research,Inc.(Palo Alto,CA))、Resolve^TM测定法(Cellular Research,Inc.(Palo Alto,CA))、或Rhapsody^TM测定法(Cellular Research,Inc.(Palo Alto,CA))。然而，这些方法和技术可能引入误差，如果不校正的话，可能导致估计过高的细胞计数。

Rhapsody^TM测定法可利用具有大量的(例如6561至65536个)条形码(例如随机条形码)的非耗尽性池、聚(T)寡核苷酸上的独特分子标记，以在RT步骤期间与样品中的所有聚(A)-mRNA杂交。除了分子标记，可以使用条形码的细胞标记来鉴定微孔板的每个孔中的每个单细胞。条形码可包括通用PCR引发位点。在RT期间，靶基因分子与条形码随机地反应。每个靶分子可以与条形码(例如随机条形码)杂交，从而产生经条形码化的互补核糖核苷酸(cDNA)分子(例如经随机条形码化的cDNA分子)。在标记后，可将来自微孔板微孔的经条形码化的cDNA分子合并到单个管中用于PCR扩增和测序。可以分析原始测序数据来得到具有独特分子标记的条形码的数目。

本文中公开了用于鉴定信号细胞标记的方法和***。在一些实施例中，该方法包括：(a)使用多个条形码(例如随机条形码)使细胞样品中的多个靶条形码化(例如随机条形码化)以创造多个经条形码化的靶(例如经随机条形码化的靶)，其中该多个条形码的每个包含细胞标记和分子标记；(b)获得该多个经条形码化的靶的测序数据；(c)确定与该多个条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目；(d)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个条形码的细胞标记中的每个的等级；(e)基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的细胞标记中的每个的等级，生成累积和图；(f)生成该累积和图的二阶导数图；(g)确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值；和(h)基于(c)中确定的与该细胞标记相关联的具有不同序列的分子标记的数目和细胞标记阈值，将该细胞标记鉴定为信号细胞标记或噪声细胞标记。

在一些实施例中，该方法包括：(a)获得多个经条形码化的靶(例如经随机条形码化的靶)的测序数据，其中多个经条形码化的靶的测序数据来自细胞样品中的多个靶，该多个靶使用多个条形码(例如随机条形码)条形码化(例如随机条形码化)以创建多个经条形码化的靶(例如经随机条形码化的靶)，其中该多个条形码中的每个包含细胞标记和标记；(b)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个条形码的细胞标记中的每个的等级；(c)确定累积和图的二阶导数图的最小值，其中该累积和图基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的细胞标记中的每个的等级，并且其中该二阶导数图的最小值对应于细胞标记阈值；和(d)基于与细胞标记相关联的具有不同序列的分子标记的数目和细胞标记阈值，将细胞标记鉴定为信号细胞标记(与细胞相关联)或噪声细胞标记(不与细胞相关联)。

本文中公开了用于鉴定信号细胞标记的方法。在一些实施例中，该方法包括：(a)使用多个条形码(例如随机条形码)使细胞样品中的多个靶条形码化(例如随机条形码化)以创建多个经条形码化的靶(例如经随机条形码化的靶)，其中该多个条形码中的每个包含细胞标记和分子标记，其中从多个细胞的靶创建的经条形码化的靶具有不同的细胞标记，并且其中从该多个细胞中的一个细胞的靶创建的经条形码化的靶具有不同的分子标记；(b)获得这些条形码化的靶的测序数据；(c)确定该细胞标记的特征向量，其中该特征向量包含与该细胞标记相关联的具有不同序列的分子标记的数目；(d)基于该特征向量确定该细胞标记的聚类；和(e)基于该聚类中细胞的数目和聚类大小阈值将该细胞标记鉴定为信号细胞标记或噪声细胞标记。

定义

除非另外定义，本文所用的技术术语和科学术语具有与本披露所属领域的普通技术人员通常所理解的相同意义。参见，例如，Singleton等人，Dictionary of Microbiologyand Molecular Biology[微生物学和分子生物学词典]，第2版，约翰·威利父子出版公司(J.Wiley&Sons)，(纽约，纽约州1994)；Sambrook等人,Molecular Cloning,A LaboratoryManual[分子克隆：实验室手册],冷泉港实验室出版社(冷泉港，纽约州1989)。出于本披露的目的，以下术语定义如下。

如本文所用的，术语“衔接子”可以意指促进相关联的核酸的扩增或测序的序列。相关联的核酸可包括靶核酸。相关联的核酸可包含空间标记、靶标记、样品标记、索引标记、条形码、随机条形码、或分子标记中的一个或多个。衔接子可以是线性的。衔接子可以是预腺苷酸化的衔接子。衔接子可以是双链或单链的。一个或多个衔接子可以位于核酸的5’或3’端。当衔接子在5'和3'端包括已知序列时，已知序列可以是相同或不同的序列。位于多核苷酸的5'和/或3'端的衔接子能够与固定在表面上的一个或多个寡核苷酸杂交。在一些实施例中，衔接子可包括通用序列。通用序列可以是两个或更多个核酸分子共有的核苷酸序列的区域。两个或更多个核酸分子可具有不同序列的区域。因此，例如，5’衔接子可包括相同和/或通用核酸序列，且3’衔接子可包括相同和/或通用序列。可存在于多个核酸分子的不同成员中的通用序列可允许使用与通用序列互补的单个通用引物复制或扩增多个不同序列。相似地，可以存在于核酸分子的集合中的不同成员中的至少一个、两个(例如，一对)或更多个通用序列可以允许使用与通用序列互补的至少一个、两个(例如，一对)或更多个单个通用引物复制或扩增多个不同序列。因此，通用引物包括可与此类通用序列杂交的序列。可以修饰携带靶核酸序列的分子以将通用衔接子(例如，非靶核酸序列)附接至不同靶核酸序列的一端或两端。与靶核酸附接的一个或多个通用引物可以提供通用引物杂交的位点。与靶核酸附接的一个或多个通用引物可以彼此相同或不同。

如本文使用的，术语“关联”或“与……相关联”可意指两个或更多个种类可以被鉴定为在某个时间点处共定位。关联可意指两个或更多个种类在或曾经在相似的容器内。关联可以是信息学关联，其中例如关于两个或更多个种类的数字信息被存储并且可以用于确定所述种类中的一个或多个在某个时间点处共定位。关联可以是物理关联。在一些实施例中，两个或更多个相关联的种类彼此之间或与共同的固体或半固体表面是“连接的”、“附接的”或“固定的”。关联可以指用于将标记附接到固体或半固体支持物(如珠)上的共价或非共价方式。关联可以是靶与标记之间的共价键。

如本文使用的，术语“互补性”可以指两个核苷酸之间精确配对的能力。例如，如果核酸的在给定位置的核苷酸能够与另一个核酸的核苷酸以氢键结合，则两个核酸被认为在所述位置处是彼此互补的。两单链核酸分子之间的互补性可以是“部分的”，其中该核苷酸中仅一些结合，或者当该单链分子之间存在完全互补性时，这种互补性可以是完全的。如果第一核苷酸序列与第二核苷酸序列互补，则可以认为第一核苷酸序列是第二序列的“互补体”。如果第一核苷酸序列互补于和第二序列相反的序列(即，核苷酸顺序相反)，则可以认为第一核苷酸序列是第二序列的“反向互补体”。如本文使用的，术语“互补体”、“互补”和“反向互补体”可以互换使用。从本披露可以理解，如果一个分子可以与另一个分子杂交，则其可以是杂交的分子的互补体。

如本文使用的，术语“数字计数”可以指用于估计样品中靶分子数目的方法。数字计数可以包括确定已经与样品中的靶相关联的独特标记的数目的步骤。这种随机方法将计数分子的问题从相同分子的定位和鉴定之一转化为有关检测到一组预定义标记的一系列是/否数字问题。

如本文使用的，术语(多个)“标记”可以指与样品中的靶相关联的核酸代码。标记可以是例如核酸标记。标记可以是完全或部分可扩增的标记。标记可以是完全或部分可测序的标记。标记可以是可鉴定为有区别的天然核酸的一部分。标记可以是已知的序列。标记可以包括核酸序列的接点，例如天然和非天然序列的接点。如本文使用的，术语“标记”可以与术语“索引”、“标签”或“标记-标签”互换使用。标记可以传达信息。例如，在各种实施例中，可以使用标记来确定样品的身份、样品的来源、细胞的身份和/或靶。

如本文使用的，术语“非耗尽性储库(non-depleting reservoir)”可以指由许多不同标记组成的随机条形码池。非耗尽性储库可以包括大量不同的随机条形码，使得当非耗尽性储库与靶池相关联时，每个靶可能与独特的随机条形码相关联。每个经标记的靶分子的独特性可以通过随机选择的统计来确定，并且取决于与多样的标记相比在集合中相同的靶分子的拷贝数。所得的经标记的靶分子集合的大小可以通过条形码化处理的随机性质来确定，然后对检测到的随机条形码的数目的分析允许计算原始集合或样品中存在的靶分子的数目。当存在的靶分子的拷贝数与独特的随机条形码的数目的比率低时，经标记的靶分子是高度独特的(即，用给定的标记来标记多于一个靶分子的概率非常低)。

如本文所用的，术语“核酸”是指多核苷酸序列、或其片段。核酸可包括核苷酸。核酸对于细胞可以是外源的或内源的。核酸可以存在于无细胞环境中。核酸可以是基因或其片段。核酸可以是DNA。核酸可以是RNA。核酸可以包括一种或多种类似物(例如改变的骨架、糖或核碱基)。类似物的一些非限制性实例包括：5-溴尿嘧啶、肽核酸、外来核酸、吗啉代、锁核酸、二醇核酸、苏糖核酸、二脱氧核苷酸、虫草菌素、7-脱氮-GTP、荧光团(例如，罗丹明或与糖连接的荧光黄素)、含有核苷酸的硫醇、生物素连接的核苷酸、荧光基类似物、CpG岛、甲基-7-鸟苷、甲基化的核苷酸、肌苷、硫代尿苷、假尿苷、二氢尿苷、辫苷、以及怀俄苷。“核酸”、“多核苷酸”、“靶多核苷酸”和“靶核酸”可以互换使用。

核酸可以包括一种或多种修饰(例如，碱基修饰、骨架修饰)，以为核酸提供新的或增强的特征(例如，改进的稳定性)。核酸可以包括核酸亲和标签。核苷可以是碱基-糖组合。核苷的碱基部分可以是杂环碱基。此类杂环碱基的两个最常见的类别是嘌呤和嘧啶。核苷酸可以是还包括与核苷的糖部分共价连接的磷酸基团的核苷。对于包括呋喃戊糖的那些核苷，磷酸基团可以连接到糖的2'、3'或5'羟基部分。在形成核酸中，磷酸基团可以将相邻的核苷彼此共价连接以形成线性高分子化合物。转而此线性高分子化合物的各自端可以进一步接合而形成环状化合物；然而，线性化合物通常是合适的。此外，线性化合物可以具有内部核苷酸碱基互补性，并且因此可以按产生完全或部分双链化合物的方式折叠。在核酸中，该磷酸基团通常可以被称为形成核酸的核苷间骨架。连键或骨架可以是3’到5'磷酸二酯键。

核酸可以包括修饰的骨架和/或修饰的核苷间键。修饰的骨架可以包括在骨架中保留磷原子和在骨架中不具有磷原子的那些。其中含有磷原子的合适修饰的核酸骨架可以含有例如硫代磷酸酯；手性硫代磷酸酯；二硫代磷酸酯；磷酸三酯；氨基烷基磷酸三酯；甲基膦酸酯和其他烷基膦酸酯，如3'-亚烷基膦酸酯、5'-亚烷基膦酸酯；手性膦酸酯；亚磷酸酯；包括3'-氨基磷酰胺酯和氨基烷基磷酰胺酯的磷酰胺酯；磷二酰胺酯；硫代羰基磷酰胺酯；硫代羰基烷基膦酸酯；硫代羰基烷基磷酸三酯；硒代磷酸酯；以及具有正常3'-5'键的硼烷磷酸酯，2'-5'连接的类似物和具有反向极性的那些，其中一个或多个核苷酸间键是3'至3'、5'至5'或2'至2'键。

核酸可以包括由短链烷基或环烷基核苷间键、混合杂原子、和烷基或环烷基核苷间键或者一个或多个短链杂原子的或杂环的核苷间键形成的多核苷酸骨架。这些可包括具有以下结构的那些：吗啉代键(从核苷的糖部分部分地形成)；硅氧烷骨架；硫化物、亚砜和砜骨架；甲酰乙酰基和硫代甲酰乙酰基骨架；亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架；核糖乙酰基骨架；含烯的骨架；氨基磺酸盐骨架；亚甲亚氨基和亚甲肼基骨架；磺酸酯和磺酰胺骨架；酰胺骨架；和具有混合的N、O、S和CH2组分部分的其他骨架。

核酸可以包括核酸模拟物。术语“模拟物”可以旨在包括其中只有呋喃糖环或呋喃糖环和核苷酸间键两者被非呋喃糖基团替代的多核苷酸，仅替代呋喃糖环可以称为糖替代物。可以保持杂环碱基部分或修饰的杂环碱基部分以便与适当的靶核酸杂交。一种这样的核酸可以是肽核酸(PNA)。在PNA中，多核苷酸的糖骨架可以被含酰胺的骨架(特别是氨基乙基甘氨酸骨架)替代。核苷酸可以被保持并且直接或间接地结合至骨架的酰胺部分的氮杂氮原子上。PNA化合物中的骨架可以包括两个或更多个连接的氨基乙基甘氨酸单元，其给予PNA含酰胺的骨架。杂环碱基部分可以直接或间接地结合到骨架的酰胺部分的氮杂氮原子上。

核酸可以包括吗啉代骨架结构。例如，核酸可以包括代替核糖环的6元吗啉代环。在这些实施例的一些中，磷二酰胺酯或其他非磷酸二酯核苷间键可替代磷酸二酯键。

核酸可以包括具有附接到吗啉代环上的杂环碱基的连接的吗啉代单元(即吗啉代核酸)。连接基团可以连接吗啉代核酸中的吗啉代单体单元。非离子型基于吗啉代的寡聚化合物可以与细胞蛋白具有较少的不希望的相互作用。基于吗啉代的多核苷酸可以是核酸的非离子模拟物。吗啉代类别中的多种化合物可以使用不同的连接基团连接。另一类多核苷酸模拟物可称为环己烯基核酸(CeNA)。通常存在于核酸分子中的呋喃糖环可以被环己烯基环替代。可以制备CeNA DMT保护的亚磷酰胺单体，并用于使用亚磷酰胺化学的寡聚化合物合成。将CeNA单体并入核酸链可以增加DNA/RNA杂交体的稳定性。CeNA寡聚腺苷酸可以与具有和天然复合物相似的稳定性的核酸互补体形成复合物。另外的修饰可以包括锁核酸(LNA)，其中2'-羟基基团连接到糖环的4'碳原子，从而形成2'-C,4'-C-氧亚甲基键，由此形成双环糖部分。该键可以是桥连2'氧原子和4'碳原子的基团亚甲基(-CH2-)，其中n是1或2。LNA和LNA类似物可以表现出与互补性核酸非常高的双链体热稳定性(Tm＝+3℃至+10℃)、对3′-外切核苷酸降解的稳定性以及良好的溶解度特性。

核酸还可以包括核碱基(通常简称为“碱基”)修饰或取代。如本文使用的，“未修饰的”或“天然的”核碱基可以包括嘌呤碱基(例如腺嘌呤(A)和鸟嘌呤(G))、以及嘧啶碱基(例如胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U))。经修饰的核碱基可以包括其他合成以及天然的核碱基，如5-甲基胞嘧啶(5-me-C)，5-羟甲基胞嘧啶，黄嘌呤，次黄嘌呤，2-氨基腺嘌呤，腺嘌呤和鸟嘌呤的6-甲基以及其他烷基衍生物，腺嘌呤和鸟嘌呤的2-丙基以及其他烷基衍生物，2-硫尿嘧啶，2-硫胸腺嘧啶以及2-硫胞嘧啶，5-卤代尿嘧啶以及胞嘧啶，5-丙炔基(-C＝C-CH3)尿嘧啶及胞嘧啶以及嘧啶碱基的其他炔基衍生物，6-偶氮基尿嘧啶，胞嘧啶以及胸腺嘧啶，5-尿嘧啶(假尿嘧啶)，4-硫尿嘧啶，8-卤基、8-氨基、8-巯基、8-硫烷基、8-羟基以及其他8-取代的腺嘌呤和鸟嘌呤，5-卤基特别是5-溴、5-三氟甲基以及其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮杂鸟嘌呤和7-脱氮杂腺嘌呤、以及3-脱氮杂鸟嘌呤和3-脱氮杂腺嘌呤。经修饰的核碱基可以包括三环嘧啶如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)，G-夹(clamp)如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)，G-夹(clamp)如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H吡啶并(3’,2’:4,5)吡咯并[2,3-d]嘧啶-2-酮)。

如本文使用的，术语“样品”可以指包括靶的组合物。用于通过披露的方法、装置、和***进行分析的合适样品包括细胞、组织、器官、或生物体。

如本文使用的，术语“采样装置”或“装置”可以指可以取一部分样品和/或将所述部分放置在基底上的装置。采样装置可以指例如荧光激活细胞分选(FACS)机、细胞分选机、活检针、活检装置、组织切片装置、微流体装置、叶栅和/或超薄切片机。

如本文使用的，术语“固体支持物”可以指可以附接多个随机条形码的离散固体或半固体表面。固体支持物可以包括任何类型的实心的、多孔的或空心的球体、球、承座、圆柱体或其他类似配置，其由塑料、陶瓷、金属或高分子材料(例如，水凝胶)构成，其上可以固定核酸(例如，共价地或非共价地)。固体支持物可以包括可以是球形的(例如，微球)或具有非球形或不规则形状的离散颗粒，所述形状是如立方形、长方形、锥形、圆柱形、圆锥形、椭圆形或圆盘形等。以阵列间隔开的多个固体支持物可以不包括基底。固体支持物可以与术语“珠”互换使用。

固体支持物可以指“基底”。基底可以是一种固体支持物。基底可以指可以在其上进行本披露的方法的连续的固体或半固体表面。例如，基底可以指阵列、盒、芯片、装置和载玻片。

如本文使用的，术语“空间标记”可以指其可以在空间中与位置相关联的标记。

如本文使用的，术语“随机条形码”可以指包含标记的多核苷酸序列。随机条形码可以是可用于随机条形码化的多核苷酸序列。随机条形码可用于对样品中的靶定量。随机条形码可用于控制标记与靶相关联后可能发生的错误。例如，随机条形码可用于评估扩增或测序错误。与靶相关联的随机条形码可以称为随机条形码-靶或随机条形码-标签-靶。

如本文所用，术语“基因特异性随机条形码”可以指包含标记和基因特异性的靶结合区的多核苷酸序列。随机条形码可以是可用于随机条形码化的多核苷酸序列。随机条形码可用于对样品中的靶定量。随机条形码可用于控制标记与靶相关联后可能发生的错误。例如，随机条形码可用于评估扩增或测序错误。与靶相关联的随机条形码可以称为随机条形码-靶或随机条形码-标签-靶。

如本文使用的，术语“随机条形码化”可以指核酸的随机标记(例如，条形码化)。随机条形码化可以利用递归泊松策略来关联并对与靶相关联的标记进行定量。如本文所用的，术语“随机条形码化”可以与“基因特异性随机条形码化”互换地使用。

如本文使用的，术语“靶”可以指可与随机条形码相关联的组合物。用于通过披露的方法、装置和***进行分析的示例性合适的靶包括寡核苷酸、DNA、RNA、mRNA、微小RNA、tRNA等。靶可以是单链的或双链的。在一些实施例中，靶可以是蛋白质。在一些实施例中，靶是脂质。

如本文所用的，术语“逆转录酶”可以指具有逆转录酶活性(即，催化从RNA模板合成DNA)的一组酶。通常，这样的酶包括但不限于逆转录病毒逆转录酶、逆转录转座子逆转录酶、逆转录质粒逆转录酶、逆转录子逆转录酶、细菌逆转录酶、II型内含子衍生的逆转录酶，及其突变体、变体或衍生物。非逆转录病毒逆转录酶包括非LTR逆转录转座子逆转录酶、逆转录质粒逆转录酶、逆转录子逆转录酶和II型内含子逆转录酶。II型内含子逆转录酶的实例包括乳酸乳球菌LI.LtrB内含子逆转录酶、细长嗜热聚球藻(Thermosynechococcuselongatus)TeI4c内含子逆转录酶或嗜热脂肪土芽孢杆菌GsI-IIC内含子逆转录酶。其他类别的逆转录酶可以包括许多类型的非逆转录病毒逆转录酶(即，逆转录子、II型内含子、以及多样性产生型逆转录元件等等)。

本文中公开了用于鉴定信号细胞标记的***和方法。在一些实施例中，该方法包括：(a)使用多个随机条形码使细胞样品中的多个靶条随机条形码化以创造多个经随机条形码化的靶，其中该多个随机条形码中的每个包含细胞标记和分子标记；(b)获得该多个经随机经条形码化的靶的测序数据；(c)确定与该多个随机条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目；(d)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个随机条形码的细胞标记中的每个的等级；(e)基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的细胞标记中的每个的等级，生成累积和图；(f)生成该累积和图的二阶导数图；(g)确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值；和(h)基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(g)中确定的细胞标记阈值，将细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

条形码

条形码化(如，随机条形码化)已描述于例如US20150299784、WO 2015031691、以及Fu等人,Proc Natl Acad Sci[美国国家图书馆院刊]U.S.A.2011年5月31日；108(22):9026-31和Fan等人,Science[科学](2015)347(6222):1258367中；这些出版物的内容通过引用以其整体结合在此。在一些实施例中，本文披露的条形码可以是随机条形码，该随机条形码可以是可用于对靶进行随机标记(例如，条形码，标签)的多核苷酸序列。如果随机条形码的不同的条形码序列的数目与待标记的任何靶的出现次数的比率可以是、或约1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或在这些值的任何两个之间的数字或范围，则条形码可以称为随机条形码。靶可以是，例如包括具有相同或几乎相同序列的mRNA分子的mRNA种类。如果随机条形码的不同的条形码序列的数目与待标记的任何靶的出现次数的比率是至少、或至多1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、或100:1，则条形码可以称为随机条形码。随机条形码的条形码序列可以称为分子标记。

条形码(例如随机条形码)可以包括一个或多个标记。示例性标记可包括通用标记、细胞标记、条形码序列(例如，分子标记)、样品标记、板标记、空间标记、和/或前空间(pre-spatial)标记。图1说明了具有空间标记的示例性条形码104。条形码104可包括可将条形码与固体支持物105连接的5’胺。条形码可包括通用标记、维度标记、空间标记、细胞标记、和/或分子标记。条形码中不同标记(包括但不限于通用标记、维度标记、空间标记、细胞标记、和分子标记)的顺序可以改变。例如，如图1中显示，通用标记可以是5’-末端标记，且分子标记可以是3’-末端标记。空间标记、维度标记、和细胞标记能以任何顺序。在一些实施例中，通用标记、空间标记、维度标记、细胞标记、和分子标记是以任何顺序的。条形码可以包括靶结合区。靶结合区可以与样品中的靶(例如，靶核酸、RNA、mRNA、DNA)相互作用。例如，靶结合区可以包括可以与mRNA的聚(A)尾相互作用的寡聚(dT)序列。在一些情况下，条形码的标记(例如，通用标记、维度标记、空间标记、细胞标记和条形码序列)可以由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个或更多个核苷酸分开。

标记(例如细胞标记)可包括一组独特的定义长度的核酸子序列，例如每个七个核苷酸(相当于一些汉明错误校正代码中使用的比特数目)，其可以设计为提供错误校正能力。可以设计包括七个核苷酸序列的错误校正子序列组，使得所述组中的序列的任何成对组合展现出定义的“遗传距离”(或错配碱基数)，例如一组纠错子序列能被设计为展现三个核苷酸的遗传距离。在这种情况下，对于经标记的靶核酸分子的序列数据组中的错误校正序列的审查(在下面更全面地描述)能允许检测或校正扩增或测序误差。在一些实施例中，用于产生错误校正代码的核酸子序列的长度可以变化，例如，它们可以是、或是约1、2、3、4、5、6、7、8、9、10、15、20、30、31、40、50个、或在这些值的任何两个之间的数字或范围的核苷酸长度。在一些实施例中，其他长度的核酸子序列可以用来产生错误校正代码。

条形码可以包括靶结合区。靶结合区可以与样品中的靶相互作用。该靶可以是、或包括核糖核酸(RNA)、信使RNA(mRNA)、微小RNA、小干扰RNA(siRNA)、RNA降解产物、各自含有聚(A)尾的RNA、或其任何组合。在一些实施例中，多个靶可包括脱氧核糖核酸(DNA)。

在一些实施例中，靶结合区可以包括可以与mRNA的聚(A)尾相互作用的寡聚(dT)序列。条形码的一个或多个标记(例如，通用标记、维度标记、空间标记、细胞标记、和条形码序列(例如，分子标记))可以通过间隔物与条形码的剩余标记的另一个或两个分开。间隔物可以是例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个或更多个核苷酸。在一些实施例中，条形码的标记中没有标记被间隔物分开。

通用标记

条形码可以包括一个或多个通用标记。在一些实施例中，对于条形码组中的所有条形码(附接到给定的固体支持物上的)，一个或多个通用标记可以是相同的。在一些实施例中，对于附接到多个珠上的所有条形码，一个或多个通用标记可以是相同的。在一些实施例中，通用标记可以包括能够与测序引物杂交的核酸序列。测序引物可以用于对包括通用标记的条形码进行测序。测序引物(例如，通用测序引物)可以包括与高通量测序平台相联系的测序引物。在一些实施例中，通用标记可以包括能够与PCR引物杂交的核酸序列。在一些实施例中，通用标记可以包括能够与测序引物和PCR引物杂交的核酸序列。能够与测序或PCR引物杂交的通用标记的核酸序列可以被称为引物结合位点。通用标记可以包括可用于引发条形码转录的序列。通用标记可以包括可用于延伸条形码或条形码内的区域的序列。通用标记的长度可以是或是约1、2、3、4、5、10、15、20、25、30、35、40、45、50个核苷酸、或在这些值的任何两个之间的数字或范围的核苷酸。例如，通用标记可包括至少约10个核苷酸。通用标记的长度可以是至少、或至多1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、或300个核苷酸。在一些实施例中，可切割接头或修饰的核苷酸可以是通用标记序列的一部分，以使条形码能够从支持物上被切割下来。

维度标记

条形码可以包括一个或多个维度标记。在一些实施例中，维度标记可以包括提供关于标记(例如，随机标记)发生的维度的信息的核酸序列。例如，维度标记可以提供关于对靶进行随机条形码化的时间的信息。维度标记可以与样品中条形码化(例如，随机条形码化)的时间相关联。维度标记可以在标记的时间处被激活。不同的维度标记可以在不同的时间被激活。该维度标记提供关于靶、靶组和/或样品被随机条形码化的顺序的信息。例如，在细胞周期的G0期可以对细胞群进行随机条形码化。在细胞周期的G1期，可以用条形码(例如，随机条形码)对这些细胞再次进行脉冲处理。在细胞周期的S期，可以用条形码对所述细胞再次进行脉冲处理，等等。每个脉冲(例如，细胞周期的每个阶段)处的条形码可以包括不同的维度标记。以这种方式，该维度标记提供关于哪些靶在细胞周期的哪个时期被标记的信息。维度标记可以探询许多不同的生物阶段。示例性的生物学时间可以包括但不限于细胞周期、转录(例如，转录起始)和转录物降解。在另一个实例中，样品(例如，细胞、细胞群)可以在用药物和/或疗法治疗之前和/或之后随机标记。不同靶的拷贝数的变化可以指示样品对药物和/或疗法的反应。

维度标记可以是可激活的。可以在特定时间点激活可激活的维度标记。可激活的标记可以被例如组成性地激活(例如，不关闭)。该可激活的维度标记可以被例如可逆地激活(例如，该可激活的维度标记可以打开和关闭)。该维度标记可以被例如可逆地激活至少1、2、3、4、5、6、7、8、9或10次或更多次。该维度标记可以被可逆地激活例如至少1、2、3、4、5、6、7、8、9或10次或更多次。在一些实施例中，可以用荧光；光；化学事件(例如，切割，另一种分子的连接，修饰的添加(例如，聚乙二醇化、sumo化、乙酰化、甲基化、去乙酰化、去甲基化)；光化学事件(例如，光锁定)；以及引入非天然的核苷酸将该维度标记激活。

在一些实施例中，该维度标记对于附接到给定的固体支持物(例如，珠)上的所有条形码(例如，随机条形码)可以是相同的，但对于不同的固体支持物(例如，珠)是不同的。在一些实施例中，相同固体支持物上的至少60％、70％、80％、85％、90％、95％、97％、99％或100％的条形码可以包括相同的维度标记。在一些实施例中，相同固体支持物上的至少60％的条形码可以包括相同的维度标记。在一些实施例中，相同固体支持物上的至少95％的条形码可以包括相同的维度标记。

多个固体支持物(例如，珠)可以表现多达10⁶个或更多个独特维度标记序列。维度标记的长度可以是或是约1、2、3、4、5、10、15、20、25、30、35、40、45、50个核苷酸、或在这些值的任何两个之间的数字或范围的核苷酸。维度标记的长度可以是至少、或至多1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、或300个核苷酸。维度标记可包括在约5至约200个之间的核苷酸。维度标记可包括在约10至约150个之间的核苷酸。维度标记可包括长度在约20至约125个之间的核苷酸。

空间标记

条形码可以包括一个或多个空间标记。在一些实施例中，空间标记可以包括提供与条形码相关联的靶分子的空间取向的信息的核酸序列。空间标记可以与样品中的坐标相关联。该坐标可以是固定的坐标。例如可以参考基底固定坐标。空间标记可以参考二维或三维网格。可以参考界标固定坐标。在空间中界标是可被鉴定的。界标可以是可被成像的结构。界标可以是生物学结构，例如解剖学界标。界标可以是细胞界标，例如细胞器。界标可以是非天然界标，如具有可鉴定标识(如色码、条形码、磁性、荧光、放射性或独特尺寸或形状)的结构。空间标记可以与物理分区(例如，孔、容器或液滴)相关联。在一些实施例中，将多个空间标记一起用于编码在空间中的一个或多个位置。

所述空间标记对于附接到给定的固体支持物(例如，珠)上的所有条形码可以是相同的，但对于不同的固体支持物(例如，珠)是不同的。在一些实施例中，包括相同空间标记的相同固体支持物上的条形码的百分比可以是、或是约60％、70％、80％、85％、90％、95％、97％、99％、100％、或在这些值的任何两个之间的数字或范围。在一些实施例中，包括相同空间标记的相同固体支持物上的条形码的百分比可以是至少、或至多60％、70％、80％、85％、90％、95％、97％、99％、或100％。在一些实施例中，相同固体支持物上的至少60％的条形码可以包括相同的空间标记。在一些实施例中，相同固体支持物上的至少95％的条形码可以包括相同的空间标记。

多个固体支持物(例如，珠)可以表现多达10⁶个或更多个独特空间标记序列。空间标记的长度可以是或是约1、2、3、4、5、10、15、20、25、30、35、40、45、50个核苷酸、或在这些值的任何两个之间的数字或范围的核苷酸。空间标记的长度可以是至少、或至多1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、或300个核苷酸。空间标记可包括在约5至约200个之间的核苷酸。空间标记可包括在约10至约150个之间的核苷酸。空间标记可包括长度在约20至约125个之间的核苷酸。

细胞标记

条形码可以包括一个或多个细胞标记。在一些实施例中，细胞标记可以包括提供用于确定哪个靶核酸来自哪个细胞的信息的核酸序列。在一些实施例中，该细胞标记对于附接到给定的固体支持物(例如，珠)上的所有条形码是相同的，但对于不同的固体支持物(例如，珠)是不同的。在一些实施例中，包括相同细胞标记的相同固体支持物上的条形码的百分比可以是、或是约60％、70％、80％、85％、90％、95％、97％、99％、100％、或在这些值的任何两个之间的数字或范围。在一些实施例中，包括相同细胞标记的相同固体支持物上的条形码的百分比可以是、或是约60％、70％、80％、85％、90％、95％、97％、99％、或100％。例如，相同固体支持物上的至少60％的条形码可以包括相同的细胞标记。作为另一个实例，相同固体支持物上的至少95％的条形码可以包括相同的细胞标记。

多个固体支持物(例如，珠)可以表现多达10⁶个或更多个独特细胞标记序列。细胞标记的长度可以是或是约1、2、3、4、5、10、15、20、25、30、35、40、45、50个核苷酸、或在这些值的任何两个之间的数字或范围的核苷酸。细胞标记的长度可以是至少、或至多1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、或300个核苷酸。例如，细胞标记可以包括约5至约200个之间的核苷酸。作为另一个实例，细胞标记可以包括约10至约150个之间的核苷酸。还作为另一个实例，细胞标记可包括长度在约20至约125个之间的核苷酸。

条形码序列

条形码可以包括一个或多个条形码序列。在一些实施例中，条形码序列可以包括为与条形码杂交的特定类型的靶核酸种类提供鉴定信息的核酸序列。条形码序列可以包括如下核酸序列，该核酸序列为与条形码(例如，靶结合区)杂交的靶核酸种类的特定出现提供计数器(例如，提供粗略近似)。

在一些实施例中，将一组不同的条形码序列附接到给定的固体支持物(例如，珠)上。在一些实施例中，可以有、或约有10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹个、或在这些值的任何两个之间的数字或范围的独特分子标记序列。例如，多个条形码可以包括具有不同序列的约6561个条形码序列。作为另一个实例，多个条形码可以包括具有不同序列的约65536个条形码序列。在一些实施例中，可以有至少、或至多10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、或10⁹个独特条形码序列。独特分子标记序列可以附接至给定的固体支持物(例如，珠)上。

条形码的长度可以是、或是约1、2、3、4、5、10、15、20、25、30、35、40、45、50个、或在这些值的任何两个之间的数字或范围的核苷酸。条形码的长度可以是至少、或至多1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、或300个核苷酸。

分子标记

条形码可以包括一个或多个分子标记。分子标记可以包括条形码序列。在一些实施例中，分子标记可以包括为与随机条形码杂交的特定类型的靶核酸种类提供鉴定信息的核酸序列。分子标记可以包括如下核酸序列，该核酸序列为与随机条形码(例如，靶结合区)杂交的靶核酸种类的特定出现提供计数器。

在一些实施例中，将一组不同的分子标记附接到给定的固体支持物(例如，珠)上。在一些实施例中，可以有、或约有10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹个、或许多或一定范围的独特分子标记序列。例如，多个随机条形码可包括具有不同序列的约6561个分子标记。作为另一个实例，多个随机条形码可包括具有不同序列的约65536个分子标记。在一些实施例中，可以有至少、或至多10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、或10⁹个独特分子标记序列。具有独特分子标记序列的随机条形码可以附接至给定固体支持物(例如，珠)上。

对于使用多个随机条形码的随机条形码化，不同分子标记序列的数目与任何靶的出现次数的比率可以是、或约1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或在这些值的任何两个之间的数字或范围。靶可以是包括具有相同或几乎相同序列的mRNA分子的mRNA种类。在一些实施例中，不同分子标记序列的数目与任何靶的出现次数的比率是至少、或至多1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、或100:1。

分子标记的长度可以是或是约1、2、3、4、5、10、15、20、25、30、35、40、45、50个、或在这些值的任何两个之间的数字或范围的核苷酸。分子标记的长度可以是至少、或至多1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、或300个核苷酸。

靶结合区

条形码可以包括一个或多个靶结合区，如捕获探针。在一些实施例中，靶结合区可以与目的靶杂交。在一些实施例中，该靶结合区可包括与靶(例如，靶核酸、靶分子，例如待分析的细胞核酸)特异性杂交(例如与特定基因序列杂交)的核酸序列。在一些实施例中，靶结合区可以包括可附接(例如，杂交)至特定靶核酸的特定位置的核酸序列。在一些实施例中，靶结合区可以包括能够与限制性酶位点突出端(例如EcoRI粘性末端突出端)进行特异性杂交的核酸序列。然后条形码可以连接到包括与限制性位点突出端互补的序列的任何核酸分子。

在一些实施例中，靶结合区可以包括非特异性靶核酸序列。非特异性靶核酸序列可以指独立于靶核酸的特定序列可与多个靶核酸结合的序列。例如，靶结合区可以包括与mRNA分子上的聚(A)尾杂交的随机多聚体序列或寡聚(dT)序列。随机多聚体序列可以是例如随机二聚体、三聚体、四聚体、五聚体、六聚体、七聚体、八聚体、九聚体、十聚体或任何长度的更高多聚体序列。在一些实施例中，对于附接至给定珠的所有条形码，所述靶结合区是相同的。在一些实施例中，对于附接到给定珠上的多个条形码，靶结合区可以包括两个或更多个不同的靶结合序列。靶结合区的长度可以是或是约5、10、15、20、25、30、35、40、45、50个核苷酸、或在这些值的任何两个之间的数字或范围的核苷酸。靶结合区的长度可以是至多约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸。

在一些实施例中，靶结合区可以包括寡聚(dT)，该寡聚(dT)可以与包括聚腺苷酸化端的mRNA杂交。靶结合区可以是基因特异性的。例如，可以将靶结合区配置为与靶的特定区域杂交。靶结合区的长度可以是或是约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个核苷酸、或在这些值的任何两个之间的数字或范围的核苷酸。靶结合区的长度可以是至少、或至多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30个核苷酸。靶结合区的长度可以是约5-30个核苷酸。当条形码包括基因特异性靶结合区时，该条形码可以称为基因特异性条形码。

定向特性

条形码可以包括一种或多种可用于定向(例如，比对)条形码的定向特性。条形码可以包括用于等电聚焦的部分。不同的条形码可以包括不同的等电聚焦点。当将这些条形码被引入样品中时，该样品可以经历等电聚焦，以便于将所述条形码定位成已知的方式。以这种方式，该定向特性可以用于开发样品中条形码的已知的映射。示例性定向特性可以包括电泳迁移率(例如，基于条形码的尺寸)、等电点、自旋、电导率和/或自组装。例如，条形码具有自组装的定向特性，当激活时可以自组装成特定定向(例如，核酸纳米结构)。

亲和特性

条形码可以包括一种或多种亲和特性。例如，空间标记可以包括亲和特性。亲和力特性可包括在化学和/或生物部分中，该特性可以促进该条形码与另一种实体(例如，细胞受体)的结合。例如，亲和特性可包括抗体，例如，对于样品上的具体部分(例如，受体)特异性的抗体。在一些实施例中，抗体可以将条形码引导到特定细胞类型或分子上。在特定细胞类型或分子处的和/或附近的靶可以被随机标记。在一些实施例中，除了空间标记的核苷酸序列，亲和力特性可以提供空间信息，因为该抗体可以将该条形码引导至特定位置。抗体可以是治疗性抗体，例如单克隆抗体或多克隆抗体。抗体可以是人源化的或嵌合的。抗体可以是裸抗体或融合抗体。

抗体可以是全长(即，天然存在的或通过正常免疫球蛋白基因片段重组过程形成的)免疫球蛋白分子(例如，IgG抗体)或免疫球蛋白分子的免疫活性(即，特异性结合)部分(像抗体片段)。

抗体片段可以是例如抗体的一部分，如F(ab’)2、Fab'、Fab、Fv、sFv等。在一些实施例中，抗体片段可以与由全长抗体识别的相同的抗原结合。抗体片段可以包括由抗体的可变区组成的分离的片段，如由重链和轻链的可变区组成的“Fv”片段和其中轻链和重链可变区通过肽接头连接的重组单链多肽分子(“scFv蛋白”)。示例性抗体可以包括但不限于癌细胞抗体、病毒抗体、结合至细胞表面受体(CD8、CD34、CD45)的抗体、和治疗性抗体。

通用衔接子引物

条形码可包括一个或多个通用衔接子引物。例如，基因特异性条形码(如，基因特异性随机条形码)可以包括通用衔接子引物。通用衔接子引物可以指在所有条形码上通用的核苷酸序列。通用衔接子引物可以用于构建基因特异性条形码。通用衔接子引物的长度可以是、或是约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个核苷酸、或在这些值的任何两个之间的数字或范围的核苷酸。通用衔接子引物的长度可以是至少、或至多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30个核苷酸。通用衔接子引物的长度可以是从5-30个核苷酸。

接头

当条形码包括多于一个类型的标记(例如，多于一个细胞标记或多于一个条形码序列，如一个分子标记)时，这些标记可以穿插着接头标记序列。接头标记序列的长度可以是至少约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸。接头标记序列的长度可以是至多约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸。在一些情况下，接头标记序列的长度是12个核苷酸。可以将接头标记序列用于促进条形码的合成。该接头标记可以包括错误校正(例如，汉明)代码。

固体支持物

在一些实施例中，本文披露的条形码(如随机条形码)可以与固体支持物关联。例如，固体支持物可以是合成颗粒。在一些实施例中，固体支持物上的多个条形码(例如，第一多个条形码)的一些或所有条形码序列(如，随机条形码(例如，第一条形码序列)的分子标记)具有至少一个核苷酸的差异。相同固体支持物上的条形码的细胞标记可以是相同的。不同的固体支持物上的条形码的细胞标记可以具有至少一个核苷酸的差异。例如，第一固体支持物上的第一多个条形码的第一细胞标记可以具有相同的序列，且第二固体支持物上的第二多个条形码的第二细胞标记可以具有相同的序列。第一固体支持物上的第一多个条形码的第一细胞标记和第二固体支持物上的第二多个条形码的第二细胞标记可以具有至少一个核苷酸的差异。细胞标记例如可以约5-20个核苷酸长。条形码序列例如可以约5-20个核苷酸长。合成颗粒例如可以是珠。

珠可以例如是硅胶珠、可控孔径玻璃珠、磁珠、Dynabead、交联葡聚糖/琼脂糖珠、珠状纤维素、聚苯乙烯珠、或其任何组合。珠可包括如聚二甲基硅氧烷(PDMS)、聚苯乙烯、玻璃、聚丙烯、琼脂糖、明胶、水凝胶、顺磁物质、陶瓷、塑料、玻璃、甲基苯乙烯、丙烯酸聚合物、钛、乳胶、琼脂糖凝胶、纤维素、尼龙、硅酮、或其任何组合的材料。

在一些实施例中，珠可以是高分子微球(例如可变形的珠或凝胶珠)，其用条形码或随机条形码功能化(如来自10X基因组公司(10X Genomics)(旧金山，加利福尼亚)的凝胶珠)。在一些实现方式中，凝胶珠可包括基于聚合物的凝胶。例如，可以通过将一种或多种聚合物前体包封进液滴来产生凝胶珠。在将聚合物前体暴露于促进剂(例如，四甲基乙二胺(TEMED))后，可以产生凝胶珠。

在一些实施例中，颗粒可以是可降解的。例如，高分子微球可以例如在所希望的条件下溶解、熔化或降解。所希望的条件可包括环境条件。所希望的条件可导致高分子微球以受控方式溶解、熔化或降解。由于化学刺激、物理刺激、生物刺激、热刺激、磁刺激、电刺激、光刺激或其任何组合，凝胶珠可以溶解、融化或降解。

分析物和/或试剂(如寡核苷酸条形码)例如可以偶联/固定到凝胶珠的内表面(寡核苷酸条形码和/或用于产生寡核苷酸条形码的材料的扩散的可接近内部)和/或凝胶珠的外表面或本文描述的任何其他微胶囊。偶联/固定可以经由任何形式的化学键(例如，共价键、离子键)或物理现象(例如，范德华力、偶极-偶极相互作用等)。在一些实施例中，试剂与凝胶珠或本文描述的任何其他微胶囊的偶联/固定可以是可逆的，例如经由不稳定部分(例如，经由化学交联剂，包括本文描述的化学交联剂)。在施加刺激后，不稳定部分可以被切割并释放固定化的试剂。在一些实施例中，不稳定部分是二硫键。例如，在经由二硫键将寡核苷酸条形码固定到凝胶珠上的情况下，将二硫键暴露于还原剂可以切割二硫键并从珠释放寡核苷酸条形码。不稳定部分可以作为凝胶珠或微胶囊的一部分、作为将试剂或分析物与凝胶珠或微胶囊连接的化学接头的一部分、和/或作为试剂或分析物的一部分包括在内。在一些实施例中，多个条形码的至少一个条形码可固定在颗粒上、部分固定在颗粒上、包封在颗粒中、部分包封在颗粒中、或其任何组合。

在一些实施例中，凝胶珠可包括广泛多种不同的聚合物，包括但不限于：聚合物、热敏聚合物、光敏聚合物、磁性聚合物、pH敏感聚合物、盐敏感聚合物、化学敏感聚合物、聚电解质、多糖、肽、蛋白质和/或塑料。聚合物可包括但不限于以下材料：如聚(N-异丙基丙烯酰胺)(PNIPAAm)、聚(苯乙烯磺酸酯)(PSS)、聚(烯丙基胺)(PAAm)、聚(丙烯酸)(PAA)、聚(乙烯亚胺)(PEI)、聚(双烯丙基二甲基-氯化铵)(PDADMAC)、聚(吡咯)(PPy)、聚(乙烯基吡咯烷酮)(PVPON)、聚(乙烯基吡啶)(PVP)、聚(甲基丙烯酸甲酯)(PMAA)、聚(甲基丙烯酸甲酯)(PMMA)、聚苯乙烯(PS)、聚(四氢呋喃)(PTHF)、聚(邻苯二甲醛)(PTHF)、聚(己基紫精)(PHV)、聚(L-赖氨酸)(PLL)、聚(L-精氨酸)(PARG)、聚(乳酸-聚羟基乙酸)(PLGA)。

许多化学刺激可用于触发珠的破坏、溶解、或降解。这些化学改变的实例可包括但不限于pH介导的珠壁改变、经由交联键的化学裂解使珠壁分解、珠壁的触发解聚、和珠壁转换反应。批量改变也可用于触发珠的破坏。

通过各种刺激对微胶囊的批量或物理变化在设计胶囊以释放试剂方面也提供了许多优点。在宏观尺度上发生批量或物理变化，其中珠破裂是由刺激引起的机械-物理力的结果。这些过程可包括但不限于压力引起的破裂、珠壁熔化、或珠壁的孔隙率的改变。

生物刺激也可用于触发珠的破坏、溶解、或降解。通常，生物触发剂类似于化学触发剂，但是许多实例使用生物分子、或生命***中常见的分子，如酶、肽、糖、脂肪酸、核酸等。例如，珠可包括具有肽交联的聚合物，该肽交联通过特定蛋白酶对切割敏感。更具体地，一个实例可包括含有GFLGK肽交联的微胶囊。在添加生物触发物(如蛋白酶组织蛋白酶B)后，壳孔的肽交联被切割且珠的内容物被释放。在其他情况下，蛋白酶可以是热激活的。在另一个实例中，珠包括含有纤维素的壳壁。水解酶壳聚糖的添加用作纤维素键裂解、壳壁解聚、和内部内容物释放的生物触发剂。

还可以在施加热刺激后诱导珠释放其内容物。温度的变化可导致珠的各种变化。热量的变化可能导致珠熔化，使得珠壁崩解。在其他情况下，热量可能增加珠内部组分的内部压力，使得珠破裂或***。在仍其他情况下，热量可以使珠变成收缩的脱水状态。热量还可以作用于珠壁内的热敏聚合物，从而引起珠的破坏。

将磁性纳米颗粒包括在微胶囊的珠壁中可以允许珠的触发破裂以及将珠引导成阵列。本披露的装置可包括用于任一感兴趣的磁珠。在一个实例中，将Fe₃O₄纳米颗粒并入含聚电解质的珠中在振荡磁场刺激的存在下触发破裂。

由于电刺激的结果，珠也可能被破坏、溶解、或降解。与先前部分中描述的磁性颗粒相似，电敏珠可以允许珠的触发破裂以及其他功能，如电场中的对准、电导率或氧化还原反应。在一个实例中，含有电敏材料的珠在电场中排列，从而可以控制内部试剂的释放。在其他实例中，电场可以在珠壁本身内引起氧化还原反应，这可以增加孔隙率。

也可用光刺激来破坏珠。许多光触发是可能的，并可以包括使用各种分子(如能够吸收特定波长范围的光子的纳米颗粒和发色团)的***。例如，金属氧化物涂层可用作胶囊触发剂。涂覆有SiO₂的聚电解质胶囊的UV照射可导致珠壁的崩解。在又另一个实例中，可以将可光切换材料(如偶氮苯基团)并入珠壁中。在施加UV或可见光后，如这些的化学物质在吸收光子后经历可逆的顺式-反式异构化。在此方面，光子切换的并入导致珠壁在施加光触发剂后可崩解或变得更多孔。

例如，在图2中说明的条形码化(随机条形码化)的非限制性实例中，在框208处将细胞(如单个细胞)引入微孔阵列的多个微孔之后，在框212处可以将珠引入微孔阵列的多个微孔上。每个微孔可包括一个珠。珠可包括多个条形码。条形码可包括附接至珠的5’胺区域。条形码可以包括通用标记、条形码序列(例如，分子标记)、靶结合区、或其任何组合。

本文披露的条形码可以与固体支持物(例如，珠)关联(例如，附接)。与固体支持物关联的条形码每个可包括选自下组的条形码序列，该组由以下组成：具有独特序列的至少100或1000个条形码序列。在一些实施例中，与固体支持物关联的不同条形码可包括不同序列的条形码序列。在一些实施例中，与固体支持物关联的条形码的百分比包括相同的细胞标记。例如，该百分比可以是、或是约60％、70％、80％、85％、90％、95％、97％、99％、100％、或在这些值的任何两个之间的数字或范围。作为另一个实例，该百分比可以是至少、或至多60％、70％、80％、85％、90％、95％、97％、99％、或100％。在一些实施例中，与固体支持物关联的条形码可以具有相同的细胞标记。与不同固体支持物关联的条形码可以具有选自下组的不同的细胞标记，该组由以下组成：具有独特序列的至少100或1000个细胞标记。

本文披露的条形码可以与固体支持物(例如，珠)关联(例如，附接)。在一些实施例中，可以用包括与多个条形码关联的多个合成的颗粒的固体支持物对样品中的多个靶进行随机地条形码化。在一些实施例中，固体支持物可包括与多个条形码关联的多个合成的颗粒。不同固体支持物上的多个条形码的空间标记可以具有至少一个核苷酸的差异。固体支持物例如可以包括处于二维或三维的多个条形码。合成的颗粒可以是珠。珠可以是硅胶珠、可控孔径玻璃珠、磁珠、Dynabead、交联葡聚糖/琼脂糖珠、珠状纤维素、聚苯乙烯珠、或其任何组合。固体支持物可包括聚合物、基质、水凝胶、针阵列装置、抗体、或其任何组合。在一些实施例中，固体支持物可以自由浮动。在一些实施例中，固体支持物可嵌入半固体或固体阵列中。条形码可以不与固体支持物关联。条形码可以是单独的核苷酸。条形码可与基底相关联。

如本文使用的，术语“拴系”、“附接”和“固定”可互换使用，并且可以指用于将条形码附接到固体支持物上的共价或非共价方式。可以将多种不同的固体支持物中的任何一种用作固体支持物，以用于附接预先合成的条形码或用于条形码的原位固相合成。

在一些实施例中，固体支持物是珠。珠可以包括一种或多种类型的实心的、多孔的或空心的球体、球、承座、圆柱体或其他相似配置，其上可以固定核酸(例如，共价地或非共价地)。珠可以例如由塑料、陶瓷、金属、聚合物材料、或其任何组合构成。珠可以是、或包括球形的(例如，微球)或具有非球形或不规则形状的离散颗粒，该形状是如立方形、长方形、锥形、圆柱形、圆锥形、椭圆形或圆盘形等。在一些实施例中，珠的形状可以是非球形的。

珠可以包含多种材料，包括但不限于顺磁性材料(例如镁、钼、锂和钽)、超顺磁性材料(例如铁氧体(Fe₃O₄；磁铁矿)纳米颗粒)、铁磁材料(例如，铁、镍、钴，其一些合金，以及一些稀土金属化合物)、陶瓷、塑料、玻璃、聚苯乙烯、二氧化硅、甲基苯乙烯、丙烯酸聚合物、钛、胶乳、交联琼脂糖、琼脂糖、水凝胶、聚合物、纤维素、尼龙、或其任何组合。

在一些实施例中，珠(例如，标记所附接的珠)是水凝胶珠。在一些实施例中，珠包括水凝胶。

本文披露的一些实施例包括一个或多个颗粒(例如珠)。颗粒的每个可包括多个寡核苷酸(例如，条形码)。多个寡核苷酸的每个可包括条形码序列(例如，分子标记)、细胞标记、和靶结合区(例如，寡聚(dT)序列、基因特异性序列、随机多聚体、或其组合)。该多个寡核苷酸的每个的细胞标记序列可以是相同的。不同颗粒上的寡核苷酸的细胞标记序列可以是不同的，使得可以鉴定不同颗粒上的寡核苷酸。在不同实现方式中，不同细胞标记序列的数目可以是不同的。在一些实施例中，细胞标记序列的数目可以是、或是约10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、10⁶、10⁷、10⁸、10⁹、在这些值的任何两个之间的数字或范围、或更多。在一些实施例中，细胞标记序列的数目可以是至少、或至多10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、10⁶、10⁷、10⁸、或10⁹。在一些实施例中，多个颗粒中不超过1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、或更多个包括具有相同细胞序列的寡核苷酸。在一些实施例中，包括具有相同细胞序列的寡核苷酸的多个颗粒可以是至多0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％或更多。在一些实施例中，多个颗粒中没有颗粒具有相同的细胞标记序列。

在每个颗粒上的多个寡核苷酸可以包括不同的条形码序列(例如，分子标记)。在一些实施例中，条形码序列的数目可以是、或约10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、10⁶、10⁷、10⁸、10⁹、或在这些值的任何两个之间的数字或范围。在一些实施例中，条形码序列的数目可以是至少、或至多10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、10⁶、10⁷、10⁸、或10⁹。例如，多个寡核苷酸中的至少100个包括不同的条形码序列。作为另一个实例，在单个颗粒中，多个寡核苷酸中的至少100、500、1000、5000、10000、15000、20000、50000个、这些值的任何两个之间的数字或范围、或更多个包括不同的条形码序列。一些实施例提供了包括条形码的多个颗粒。在一些实施例中，待标记的靶和不同条形码序列的出现(或拷贝或数目)的比率可以是至少1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、1:10、1:11、1:12、1:13、1:14、1:15、1:16、1:17、1:18、1:19、1:20、1:30、1:40、1:50、1:60、1:70、1:80、1:90、或更高。在一些实施例中，多个寡核苷酸的每个进一步包括样品标记、通用标记、或两者。颗粒例如可以是纳米颗粒或微颗粒。

珠的尺寸可以改变。例如，珠的直径范围可以从0.1微米至50微米。在一些实施例中，珠的直径可以是或是约0.1、0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50微米、或在这些值的任何两个之间或数字或范围。

珠的直径可以与基底的孔的直径相关。在一些实施例中，相比孔的直径，珠的直径可以更长或更短、或约10％、20％、30％、40％、50％、60％、70％、80％、90％、100％、或在这些值的任何两个之间的数字或范围。珠的直径可以与细胞(例如，由基底的孔截留的单个细胞)的直径有关。在一些实施例中，相比孔的直径，珠的直径可以是至少、或至多10％、20％、30％、40％、50％、60％、70％、80％、90％、或100％更长或更短。珠的直径可以与细胞(例如，由基底的孔截留的单个细胞)的直径有关。在一些实施例中，相比细胞的直径，珠的直径可以更长或更短、或约10％、20％、30％、40％、50％、60％、70％、80％、90％、100％、150％、200％、250％、300％、或在这些值的任何两个之间的数字或范围。在一些实施例中，相比孔的直径，珠的直径可以是至少、或至多10％、20％、30％、40％、50％、60％、70％、80％、90％、100％、150％、200％、250％、或300％更长或更短。

珠可以附接到和/或包埋在基底中。可以将珠附接和/或嵌入凝胶、水凝胶、聚合物，和/或基质中。使用存在于珠中可以充当位置地址的条形码上的空间标记，可以鉴定在基质(例如，凝胶、基质、支架，或聚合物)中珠的空间位置。

珠的实例可以包括但不限于链霉亲和素珠、琼脂糖珠、磁珠、微珠、缀合抗体的珠(例如，抗免疫球蛋白微珠)、缀合A蛋白的珠、缀合G蛋白的珠、缀合A/G蛋白的珠、缀合L蛋白的珠、缀合寡聚(dT)的珠、二氧化硅珠、二氧化硅样珠、抗生物素微珠、抗荧光染料微珠以及BcMag^TM羧基封端的磁珠。

珠可以关联有(例如浸渍有)量子点或荧光染料，以使其在一个荧光光通道或多个光通道中是荧光的。珠可以关联有氧化铁或氧化铬，以使其具有顺磁性或铁磁性。珠是可被鉴定的。例如，使用照相机可以将珠成像。珠可以具有与所述珠相关联的可检测的代码。例如，珠可包括条形码。珠的尺寸可以变化，例如由于在有机或无机溶液中的溶胀。珠可以是疏水的。珠可以是亲水的。珠可以是生物相容的。

可以使固体支持物(例如，珠)可视化。固体支持物可以包括可视化标签(例如，荧光染料)。可以用标识(例如，数字)将固体支持物(例如，珠)蚀刻。通过对珠成像可以将所述标识可视化。

固体支持物可以包括不溶性、半溶性或不溶性材料。当固体支持物包括接头、支架、结构单元或附接至其上的其他反应性部分时，它可以被称为“官能化的”，而当固体支持物缺少附接至其上的这样一个反应性部分时，它可以被称为“非官能化的”。固体支持物可以在溶液中不受约束地利用，如以微量滴定孔形式；以流通形式，如在柱中；或在试纸条(dipstick)中。

固体支持物可以包括膜、纸、塑料、涂覆的表面、平表面、玻璃、载玻片、芯片、或其任何组合。固体支持物可以采用树脂、凝胶、微球或其他几何构型的形式。固体支持物可以包括二氧化硅芯片；微颗粒；纳米颗粒；平板；阵列；毛细管；平支持物，如玻璃纤维过滤器，玻璃表面，金属表面(钢、金、银、铝、硅以及铜)，玻璃支持物，塑料支持物，硅支持物，芯片，过滤器，膜，微孔板，载玻片；塑料材料包括多孔板或膜(例如，由聚乙烯、聚丙烯、聚酰胺、聚偏二氟乙烯形成)；和/或晶片；梳状物(comb)；针或针头(例如，适于组合合成或分析的针阵列)；或平表面(如晶片(例如，硅晶片)、带有具有或不具有滤底的凹陷的晶片)的凹陷或纳升孔的阵列中的珠。

所述固体支持物可以包括聚合物基质(例如，凝胶、水凝胶)。该聚合物基质可能能够渗透细胞内间隙(例如，细胞器周围)。该聚合物基质可能能够贯穿循环***进行泵送。

固体支持物可以是生物分子。例如，固体支持物可以是核酸、蛋白质、抗体、组蛋白、细胞区室、脂质、碳水化合物等。作为生物分子的固体支持物可被扩增、翻译、转录、降解和/或修饰(例如，聚乙二醇化、sumo化、乙酰化、甲基化)。除了附接至生物分子的空间标记之外，作为生物分子的固体支持物可以提供空间和时间信息。例如，生物分子可以在未修饰时包括第一构象，但是在修饰时可以改变为第二构象。这些不同的构象可以将本披露的条形码(例如，随机条形码)暴露给靶。例如，生物分子可以包括由于生物分子的折叠而不可接近的条形码。在修饰生物分子(例如，乙酰化)时，这些生物分子可以改变构象以暴露这些条形码。修饰的时间设置可以为本披露的条形码化的方法提供另一时间维度。

在一些实施例中，包括本披露的条形码试剂的生物分子可以位于细胞的细胞质中。激活时，该生物分子可以移动到细胞核，于此可以进行条形码化。以这种方式，所述生物分子的修饰可以编码由条形码鉴别的靶的另外的空间-时间信息。

基底和微孔阵列

如本文所用，基底可以指一种固体支持物。基底可以指可包括本披露的条形码和随机条形码的固体支持物。例如，基底可以包括多个微孔。例如，基底可以是包括两个或更多个微孔的孔阵列。在一些实施例中，微孔可以包括具有确定体积的小反应室。在一些实施例中，微孔可以截留一个或多个细胞。在一些实施例中，微孔只能截留一个细胞。在一些实施例中，微孔可以截留一个或多个固体支持物。在一些实施例中，微孔只能截留一个固体支持物。在一些实施例中，微孔截留单个细胞和单个固体支持物(例如，珠)。微孔可以包括本披露的组合条形码试剂。

条形码化的方法

本披露提供了用于估计身体样品(例如，组织、器官、肿瘤、细胞)中的不同位置处的不同靶的数目的方法。这些方法可以包括将条形码(例如，随机条形码)靠近样品放置，裂解样品，将不同靶与条形码相关联，对这些靶进行扩增和/或对靶进行数字计数。该方法可以进一步包括对获得自条形码上的空间标记的信息进行分析和/或可视化。在一些实施例中，该方法包括使样品中的多个靶可视化。将多个靶映射到样品的映射图上可以包括产生样品的二维映射图或三维映射图。可以在对样品中的多个靶进行条形码化(例如，随机条形码化)之前或之后产生二维映射图和三维映射图。将样品中的多个靶可视化包括将多个靶映射到样品的映射图上。将多个靶映射到样品的映射图上可以包括产生样品的二维映射图或三维映射图。可以在对样品中的多个靶进行条形码化之前或之后产生二维映射图和三维映射图。在一些实施例中，可以在裂解样品之前或之后产生二维映射图和三维映射图。在产生二维映射图或三维映射图之前或之后裂解样品可包括加热样品、使样品与洗涤剂接触、改变样品的pH、或其任何组合。

在一些实施例中，对多个靶进行条形码化包括将多个条形码与多个靶杂交以创建经条形码化的靶(例如，经随机条形码化的靶)。对多个靶进行条形码化可包括产生经条形码化的靶的索引文库。产生经条形码化的靶的索引文库可以用包括多个条形码(例如，随机条形码)的固体支持物进行。

使样品和条形码接触

本披露提供了用于使样品(例如，细胞)与本披露的基底接触的方法。可以使包括例如细胞、器官或组织薄片的样品与条形码(例如，随机条形码)接触。例如，通过重力流可以使这些细胞接触，其中可以使这些细胞沉淀并且产生单层细胞。该样品可以是组织薄切片。可以将薄切片置于基底上。该样品可以是一维的(例如，形成平面)。可以将该样品(例如，细胞)涂布于基底上，例如，通过在基底上生长/培养这些细胞。

当条形码靠近靶时，靶可以与条形码进行杂交。条形码可以按不可耗尽的比率接触，使得每个不同的靶可以与本披露的不同条形码相关联。为了确保靶与条形码之间的有效关联，可以将靶与条形码交联。

细胞裂解

在细胞和条形码的分布之后，可以裂解细胞以释放靶分子。细胞裂解可以通过多种手段中的任何一种来完成，例如通过化学或生化手段，通过渗透冲击，或通过热裂解、机械裂解或光学裂解。可以通过添加包括洗涤剂(例如SDS、十二烷基硫酸锂、Triton X-100、Tween-20或NP-40)的细胞裂解缓冲液、有机溶剂(例如甲醇或丙酮)或消化酶(例如蛋白酶K、胃蛋白酶或胰蛋白酶)或其任何组合来裂解细胞。为了增加靶和条形码的关联，可通过例如降低裂解物的温度和/或增加裂解物的粘度来改变靶分子的扩散速率。

在一些实施例中，可以使用滤纸将样品裂解。可以用在滤纸上部的裂解缓冲液浸渍该滤纸。在压力下可以将滤纸应用于样品，该压力可以促进样品的裂解，以及样品的靶与基底的杂交。

在一些实施例中，裂解可以通过机械裂解、热裂解、光学裂解、和/或化学裂解来进行。化学裂解可以包括使用消化酶类，如蛋白酶K、胃蛋白酶、以及胰蛋白酶。可以通过将裂解缓冲液添加到基底中进行裂解。裂解缓冲液可以包括Tris HCl。裂解缓冲液可包括至少约0.01M、0.05M、0.1M、0.5M、或1M或更多Tris HCl。裂解缓冲液可包括至多约0.01M、0.05M、0.1M、0.5M、或1M或更多Tris HCL。裂解缓冲液可以包括约0.1M Tris HCl。裂解缓冲液的pH可以是至少约1、2、3、4、5、6、7、8、9、或10，或更高。裂解缓冲液的pH可以是至多约1、2、3、4、5、6、7、8、9、或10，或更高。在一些实施例中，该裂解缓冲液的pH是约7.5。该裂解缓冲液可以包括盐(例如，LiCl)。在裂解缓冲液中盐的浓度可以是至少约0.1M、0.5M、或1M、或更高。在裂解缓冲液中盐的浓度可以是至多约0.1M、0.5M、或1M、或更高。在一些实施例中，在裂解缓冲液中盐的浓度是约0.5M。裂解缓冲液可以包括洗涤剂(例如，SDS、十二烷基硫酸锂、曲通X、tween、NP-40)。在裂解缓冲液中洗涤剂的浓度可以是至少约0.0001％、0.0005％、0.001％、0.005％、0.01％、0.05％、0.1％、0.5％、1％、2％、3％、4％、5％、6％、或7％、或更高。在裂解缓冲液中洗涤剂的浓度可以是至多约0.0001％、0.0005％、0.001％、0.005％、0.01％、0.05％、0.1％、0.5％、1％、2％、3％、4％、5％、6％、或7％、或更高。在一些实施例中，在裂解缓冲液中洗涤剂的浓度是约1％十二烷基硫酸锂。该裂解方法中所用时间可以依赖于所用洗涤剂的量。在一些实施例中，所用洗涤剂越多，裂解所需时间越短。裂解缓冲液可以包括螯合剂(例如，EDTA、EGTA)。在裂解缓冲液中螯合剂的浓度可以是至少约1mM、5mM、10mM、15mM、20mM、25mM、或30mM或更高。在裂解缓冲液中螯合剂的浓度可以是至多约1、5、10、15、20、25、或30mM或更高。在一些实施例中，在裂解缓冲液中的螯合剂的浓度是约10mM。裂解缓冲液可以包括还原剂(例如，β-巯基乙醇、DTT)。在裂解缓冲液中还原剂的浓度可以是至少约1、5、10、15、或20mM或更高。在裂解缓冲液中还原剂的浓度可以是至多约1、5、10、15、或20mM或更高。在一些实施例中，在裂解缓冲液中还原剂的浓度是约5mM。在一些实施例中，裂解缓冲液可以包括约0.1M Tris HCl、约pH 7.5、约0.5M LiCl、约1％十二烷基硫酸锂、约10mM EDTA，以及约5mM DTT。

可以在约4℃、10℃、15℃、20℃、25℃、或30℃的温度进行裂解。裂解可以进行约1分钟、5分钟、10分钟、15分钟、或20分钟或更多分钟。裂解的细胞可以包括至少约100000、200000、300000、400000、500000、600000、或700000个靶核酸分子，或更多。裂解的细胞可以包括至多约100000、200000、300000、400000、500000、600000、或700000个靶核酸分子，或更多。

将条形码附接至靶核酸分子

在细胞裂解和核酸分子从释放之后，核酸分子可以随机地与共定位的固体支持物的条形码相关联。关联可以包括将条形码的靶识别区与靶核酸分子的互补部分的杂交(例如，条形码的寡聚(dT)可与靶的聚(A)尾相互作用)。可以选择用于杂交的测定条件(例如缓冲液pH、离子强度、温度等)以促进形成特定的稳定的杂交体。在一些实施例中，可以将从裂解的细胞释放出的核酸分子与基底上的多个探针(例如，与基底上的探针杂交)相关联。当该探针包括寡聚(dT)时，可以将mRNA分子与探针杂交，并且进行逆转录。可以将寡核苷酸的寡聚(dT)部分充当用于cDNA分子的第一链合成的引物。例如，图2中(在框216上)说明的条形码化的非限制性实例中，mRNA分子可以与珠上的条形码杂交。例如，单链的核苷酸片段可以与条形码的靶结合区杂交。

附接可以进一步包括将条形码的靶识别区与靶核酸分子的一部分连接。例如，靶结合区可以包括可能够与限制性位点突出端(例如EcoRI粘性末端突出端)进行特异性杂交的核酸序列。测定程序还可以包括用限制性酶(例如EcoRI)处理靶核酸以产生限制性位点突出端。然后条形码可以连接到包括与限制性位点突出端互补的序列的任何核酸分子。连接酶(例如，T4 DNA连接酶)可用于连接两个片段。

例如，在图2(在框220处)中说明的条形码化的非限制性实例中，随后可以将来自多个细胞(或多个样品)的经标记的靶(例如，靶-条形码分子)例如池化至管中。经标记的靶可以通过例如回收条形码和/或附接靶-条形码分子的珠来池化。

可以通过使用磁珠和外部施加的磁场来实现附接的靶-条形码分子的基于固体支持物的集合的检索。一旦该靶-条形码分子已经池化，所有进一步的处理可以在单个反应容器中进行。进一步的处理可以包括例如逆转录反应、扩增反应、切割反应、解离反应和/或核酸延伸反应。进一步的处理反应可以在微孔内进行，即，不首先池化来自多个细胞的经标记的靶核酸分子。

逆转录

本披露提供了使用逆转录来产生靶-条形码缀合物的方法(在图2的框224中)。靶-条形码缀合物可以包括条形码以及靶核酸(即，条形码化的cDNA分子，如随机条形码化的cDNA分子)的全部或部分的互补性序列。关联的RNA分子的逆转录可以通过添加逆转录引物连同逆转录酶一起而发生。逆转录引物可以是寡聚dT引物、随机六核苷酸引物或靶特异性寡核苷酸引物。寡聚(dT)引物的长度可以是、或可以是约12-18个核苷酸，并与哺乳动物mRNA的3'端的内源性聚(A)尾结合。随机六核苷酸引物可在多个互补位点处结合至mRNA。靶特异性寡核苷酸引物通常选择性地引发目的mRNA。

在一些实施例中，标记的RNA分子的逆转录可通过添加逆转录引物而进行。在一些实施例中，该逆转录引物是寡聚(dT)引物、随机六核苷酸引物或靶特异性寡核苷酸引物。通常，寡聚(dT)引物的长度为12-18个核苷酸，并结合至在哺乳动物mRNA的3’端的内源性聚(A)+尾。随机六核苷酸引物可在多个互补位点处结合至mRNA。靶特异性寡核苷酸引物通常选择性地引发目的mRNA。

逆转录可以重复地发生以产生多个经标记的cDNA分子。本文披露的方法可包括进行至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20次逆转录反应。该方法可包括进行至少约25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100次逆转录反应。

扩增

可以进行一个或多个核酸扩增反应(例如，在图2的框228中)以产生经标记的靶核酸分子的多个拷贝。扩增能以多路方式进行，其中多个靶核酸序列同时进行扩增。扩增反应可用于向核酸分子添加测序衔接子。扩增反应可以包括扩增样品标记(如果存在)的至少一部分。扩增反应可以包括扩增细胞标记和/或条形码序列(例如，分子标记)的至少一部分。扩增反应可以包括扩增样品标签、细胞标记、空间标记、条形码(例如，分子标记)、靶核酸或其组合的至少一部分。扩增反应可包括扩增多个核酸的0.5％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、97％、100％、或在这些值的任何两个之间的数字或范围。该方法可以进一步包括进行一个或多个cDNA合成反应以产生包括样品标记、细胞标记、空间标记和/或条形码序列(例如，分子标记)的靶-条形码分子的一个或多个cDNA拷贝。

在一些实施例中，可以使用聚合酶链式反应(PCR)进行扩增。如本文使用的，PCR可以指用于通过DNA的互补链的同时引物延伸使特异性DNA序列体外扩增的反应。如本文使用的，PCR可包括所述反应的派生形式，包括但不限于RT-PCR、实时PCR、巢式PCR、定量PCR、多重PCR、数字PCR、和组装PCR。

经标记的核酸的扩增可以包括基于非PCR的方法。非基于PCR的方法的实例包括但不限于多重置换扩增(MDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、实时SDA、滚环扩增或环到环扩增(circle-to-circle amplification)。其他非基于PCR的扩增方法包括DNA依赖性RNA聚合酶驱动的RNA转录扩增或RNA指导的DNA合成和转录的多个循环以扩增DNA或RNA靶、连接酶链式反应(LCR)、和Qβ复制酶(Qβ)方法、回文探针的使用、链置换扩增、使用限制性内切核酸酶的寡核苷酸驱动的扩增、使引物与核酸序列杂交并且将所得双链体在延伸反应和扩增之前切割的扩增方法、使用缺乏5’外切核酸酶活性的核酸聚合酶的链置换扩增、滚环扩增和分支延伸扩增(RAM)。在一些实施例中，扩增不产生环化转录物。

在一些实施例中，本文披露的方法进一步包括对经标记的核酸(例如，经标记的RNA、经标记的DNA、经标记的cDNA)进行聚合酶链式反应，以产生经标记的扩增子(例如，经随机标记的扩增子)。经标记的扩增子可以是双链分子。双链分子可包括双链RNA分子、双链DNA分子或者与DNA分子杂交的RNA分子。双链分子的一条或两条链可以包括样品标记、空间标记、细胞标记、和/或条形码序列(例如，分子标记)。经标记的扩增子可以是单链分子。单链分子可包括DNA、RNA或其组合。本披露的核酸可以包括合成的或改变的核酸。

扩增可以包括使用一个或多个非天然核苷酸。非天然核苷酸可包括光不稳定或可触发的核苷酸。非天然核苷酸的实例可以包括但不限于肽核酸(PNA)、吗啉代和锁核酸(LNA)、以及二醇核酸(GNA)与苏糖核酸(TNA)。可以将非天然核苷酸添加至扩增反应的一个或多个循环中。添加非天然核苷酸也可以用于鉴别扩增反应中特定循环或时间点的产物。

进行一个或多个扩增反应可以包括使用一个或多个引物。一个或多个引物可以包括例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15个或更多个核苷酸。一个或多个引物可以包括至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15个或更多个核苷酸。一个或多个引物可以包括少于12-15个核苷酸。一个或多个引物可以退火至多个经标记的靶(例如，随机地经经标记的靶)的至少一部分。一个或多个引物可以退火至多个经标记的靶的3'端或5'端。一个或多个引物可以退火至多个经标记的靶的内部区域。内部区可以是从该多个经标记的靶的3’端的至少约50、100、150、200、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、650、700、750、800、850、900或1000个核苷酸。一个或多个引物可以包括一组固定的引物。一个或多个引物可以包括至少一个或多个定制引物。一个或多个引物可以包括至少一个或多个对照引物。一个或多个引物可以包括至少一个或多个基因特异性引物。

一个或多个引物可以包括通用引物。通用引物可以退火至通用引物结合位点。一个或多个定制引物可以退火至第一样品标记、第二样品标记、空间标记、细胞标记、条形码序列(例如，分子标记)、靶、或其任何组合。一个或多个引物可以包括通用引物和定制引物。定制引物可以设计用于扩增一个或多个靶。靶可以包括一个或多个样品中总核酸的子集。靶可以包括一个或多个样品中总的经标记的靶的子集。一个或多个引物可以包括至少96个或更多个定制引物。一个或多个引物可以包括至少960个或更多个定制引物。一个或多个引物可以包括至少9600个或更多个定制引物。一个或多个定制引物可以退火至两个或更多个不同的经标记的核酸。两个或更多个不同的经标记的核酸可以对应于一个或多个基因。

可以在本披露的方法中使用任何扩增方案。例如，在一个方案中，第一轮PCR可以使用基因特异性引物和针对通用亿明达(Illumina)测序引物1序列的引物来扩增附接到珠上的分子。第二轮PCR可以使用侧翼于亿明达测序引物2序列的巢式基因特异性引物和针对通用亿明达测序引物1序列的引物扩增第一PCR产物。第三轮PCR添加P5和P7以及样品索引，以便使PCR产物进入亿明达测序文库。使用150bp x 2测序的测序可以揭示读数1上的细胞标记和条形码序列(例如，分子标记)、读数2上的基因、以及索引1读数上的样品索引。

在一些实施例中，使用化学切割可以将核酸从基底中去除。例如，可以将存在于核酸中的化学基团或经修饰的碱基用于促进将其从固体支持物中去除。例如，酶可以用于从基底中去除核酸。例如，通过限制性内切核酸酶消化，可以将核酸从基底中去除。例如，使用尿嘧啶-d-糖基化酶(UDG)处理含有dUTP或ddUTP的核酸可以从基底中去除核酸。例如，可以使用用于核苷酸切除(例如，碱基切除修复酶(例如，脱嘌呤/脱嘧啶(AP)核酸内切酶))的酶将核酸从基底中去除。在一些实施例中，可以使用可光解(photocleavable)基团以及光将核酸从基底中去除。在一些实施例中，可以使用可切割接头从基底中去除核酸。例如，可切割接头可以包括以下中的至少一种：生物素/亲和素、生物素/链霉抗生物素蛋白、生物素/中性链亲和素、Ig蛋白A、光不稳定性接头、酸或碱不稳定性接头基团、或适配体。

当探针是基因特异性时，可以将这些分子与探针杂交，并且进行逆转录和/或扩增。在一些实施例中，在核酸已经合成(例如，逆转录)之后，可以将其扩增。扩增能以多重方式进行，其中多个靶核酸序列同时进行扩增。扩增可以将测序衔接子添加至核酸。

在一些实施例中，例如，用桥接扩增可以将扩增在基底上进行。cDNA可以是同聚物尾部，使用基底上的寡聚(dT)探针，以产生用于桥接扩增的相容端。在桥接扩增中，与模板核酸的3'端互补的引物可以是共价附接至固体颗粒的每对引物的第一引物。当含有模板核酸的样品与颗粒接触并进行单个热循环时，可以将模板分子退火至第一引物，并且第一引物通过添加核苷酸而向前延伸以形成双链体分子，该双链体分子由模板分子和与模板互补的新形成的DNA链构成。在下一循环的加热步骤中，双链体分子可以变性，从颗粒释放模板分子，并通过第一引物将互补性DNA链附接至颗粒。在随后的退火和延伸步骤的退火阶段中，互补链可以与第二引物杂交，该第二引物在从第一引物去除的位置处与互补链的片段互补。该杂交可导致互补链在通过共价键固定到第一引物的第一和第二引物之间形成桥接，并通过杂交形成第二引物。在延伸阶段，通过在相同的反应混合物中添加核苷酸，第二引物可以按相反方向延伸，从而将桥转化为双链桥。然后开始下一个循环，并且该双链桥可以变性以产生两个单链核酸分子，每个单链核酸分子的一端分别经第一和第二引物附接至颗粒表面，其中每个单链核酸分子的另一端是未附接的。在该第二个循环的退火和延伸步骤中，每条链可以与先前未使用的另外的互补引物杂交在相同的颗粒上，以形成新的单链桥。将现在杂交的两个先前未使用的引物延伸从而将两个新桥转换成双链桥。

扩增反应可以包括扩增多个核酸的至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、97％或100％。

对经标记的核酸的扩增可以包括基于PCR的方法或非基于PCR的方法。对经标记的核酸的扩增可以包括对经标记的核酸的指数式扩增。对经标记的核酸的扩增可以包括对经标记的核酸的线性扩增。扩增可以通过聚合酶链式反应(PCR)来进行。PCR可指用于通过DNA的互补链的同时引物延伸使特异性DNA序列体外扩增的反应。PCR可涵盖该反应的派生形式，包括但不限于，RT-PCR、实时PCR、巢式PCR、定量PCR、多重PCR、数字PCR、抑制PCR、半抑制PCR以及装配PCR。

在一些实施例中，所述经标记的核酸的扩增包括非基于PCR的方法。非基于PCR的方法的实例包括但不限于多重置换扩增(MDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、实时SDA、滚环扩增或环到环扩增(circle-to-circleamplification)。其他非基于PCR的扩增方法包括DNA依赖性RNA聚合酶驱动的RNA转录扩增或RNA指导的DNA合成和转录的多个循环以扩增DNA或RNA靶、连接酶链式反应(LCR)、Qβ复制酶(Qβ)、回文探针的使用、链置换扩增、使用限制性内切核酸酶的寡核苷酸驱动的扩增、使引物与核酸序列杂交并且将所得双链体在延伸反应和扩增之前切割的扩增方法、使用缺乏5’外切核酸酶活性的核酸聚合酶的链置换扩增、滚环扩增和分支延伸扩增(RAM)。

在一些实施例中，本文披露的这些方法进一步包括对扩增的扩增子(例如，靶)进行巢式聚合酶链式反应。扩增子可以是双链分子。双链分子可包括双链RNA分子、双链DNA分子或者与DNA分子杂交的RNA分子。双链分子的一条或两条链可包括样品标签或分子鉴定物标记。可替代地，该扩增子可以是单链分子。单链分子可包括DNA、RNA或其组合。本发明的核酸可以包括合成的或改变的核酸。

在一些实施例中，该方法包括反复扩增经标记的核酸以产生多个扩增子。本文披露的方法可包括进行至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20次扩增反应。可替代地，该方法包括进行至少约25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100次扩增反应。

扩增可进一步包括将一个或多个对照核酸添加至一个或多个包括多个核酸的样品中。扩增可进一步包括将一个或多个对照核酸添加至多个核酸中。对照核酸可以包括对照标记。

扩增可以包括使用一个或多个非天然核苷酸。非天然核苷酸可以包括光不稳定和/或可触发的核苷酸。非天然核苷酸的实例包括但不限于肽核酸(PNA)、吗啉代和锁核酸(LNA)以及二醇核酸(GNA)与苏糖核酸(TNA)。可以将非天然核苷酸添加至扩增反应的一个或多个循环中。添加非天然核苷酸也可以用于鉴别扩增反应中特定循环或时间点的产物。

进行一个或多个扩增反应可以包括使用一个或多个引物。一个或多个引物可以包括一个或多个寡核苷酸。一个或多个寡核苷酸可以包括至少约7至9个核苷酸。一个或多个寡核苷酸可包括少于12-15个核苷酸。一个或多个引物可以退火至多个经标记的核酸的至少一部分。一个或多个引物可以退火至多个经标记的核酸的3’端和/或5’端。一个或多个引物可以退火至多个经标记的核酸的内部区。内部区可以是从该多个经标记的核酸的3’端的至少约50、100、150、200、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、650、700、750、800、850、900或1000个核苷酸。一个或多个引物可以包括一组固定的引物。一个或多个引物可以包括至少一个或多个定制引物。一个或多个引物可以包括至少一个或多个对照引物。一个或多个引物可以包括至少一个或多个管家基因引物。一个或多个引物可以包括通用引物。通用引物可以退火至通用引物结合位点。一个或多个定制引物可以退火至第一样品标签、第二样品标签、分子鉴定物标记、核酸或它们的产物。一个或多个引物可以包括通用引物和定制引物。定制引物可以被设计成扩增一个或多个靶核酸。靶核酸可以包括一个或多个样品中总核酸的子集。在一些实施例中，这些引物是附接至本披露的阵列的探针。

在一些实施例中，条形码化(例如，随机地条形码化)在样品中的多个靶进一步包括产生条形码化的片段的索引文库。不同的条形码的条形码序列(例如，不同的随机条形码的分子标记)可以彼此不同。产生经条形码化的靶(例如，经随机条形码化的靶)的索引文库包括从样品中的多个靶产生多个索引多核苷酸。例如，对于包括第一索引靶和第二索引靶的经条形码化的靶的索引文库，第一索引多核苷酸的标记区与第二索引多核苷酸的标记区可以具有、具有约、具有至少、或具有至多1、2、3、4、5、6、7、8、9、10、20、30、40、50个核苷酸的差异、或在这些值的任何两个之间的数字或范围的核苷酸差异。在一些实施例中，产生经条形码化的靶的索引文库包括使多个靶(例如mRNA分子)与包括聚(T)区和标记区的多个寡核苷酸接触；以及使用逆转录酶进行第一链合成以产生单链标记的cDNA分子(每个包括cDNA区和标记区)，其中多个靶包括不同序列的至少两个mRNA分子，且多个寡核苷酸包括不同序列的至少两个寡核苷酸。产生经条形码化的靶的索引文库可进一步包括扩增单链标记的cDNA分子以产生双链标记的cDNA分子；以及在双链标记的cDNA分子上进行巢式PCR以产生标记的扩增子。在一些实施例中，该方法可包括产生衔接子标记的扩增子。

随机条形码化可以使用核酸条形码或标签以标记单个核酸(例如，DNA或RNA)分子。在一些实施例中，其涉及将DNA条形码或标签添加至cDNA分子，因为它们是从mRNA产生的。可以进行巢式PCR以最小化PCR扩增偏差。可以使用例如下一代测序(NGS)添加衔接子用于测序。例如在图2的框232处，可以使用测序结果以确定靶的一个或多个拷贝的细胞标记、条形码序列(例如，分子标记)、和核苷酸片段的序列。

图3是显示产生经条形码化的靶(例如，经随机条形码化的靶)例如mRNA的索引文库的非限制性示例性过程的示意图。如步骤1显示，逆转录过程可以编码具有独特条形码序列(例如，分子标记)、细胞标记和通用PCR位点的每个mRNA分子。例如，通过将一组条形码(例如随机条形码)310杂交(例如随机杂交)到RNA分子302的聚(A)尾区308，可以将RNA分子302逆转录以产生经标记的cDNA分子304(包括cDNA区306)。每个条形码310可包括靶结合区，例如聚(dT)区312、条形码序列或分子标记314、和通用PCR区316。

在一些实施例中，细胞标记可包括3至20个核苷酸。在一些实施例中，条形码序列(例如，分子标记)可包括3至20个核苷酸。在一些实施例中，多个随机条形码的每个进一步包括通用标记和细胞标记的一个或多个，其中通用标记对于固体支持物上的多个随机条形码是相同的且细胞标记对于固体支持物上的多个随机条形码是相同的。在一些实施例中，通用标记可包括3至20个核苷酸。在一些实施例中，细胞标记包括3至20个核苷酸。

在一些实施例中，标记区314可包括条形码序列或分子标记318和细胞标记320。在一些实施例中，标记区314可包括通用标记、维度标记、和细胞标记的一个或多个。条形码序列或分子标记318的长度可以是、可以是约、可以是至少、或可以是至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸、或在这些值的任何之间的数目或范围的核苷酸。细胞标记320的长度可以是、可以是约、可以是至少、或可以是至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸、或在这些值的任何之间的数字或范围的核苷酸。通用标记的长度可以是、可以是约、可以是至少、或可以是至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸、或在这些值的任何之间的数字或范围的核苷酸。对于固体支持物上的多个随机条形码，通用标记可以是相同的，且对于固体支持物上的多个随机条形码，细胞标记是相同的。维度标记的长度可以是、可以是约、可以是至少、或可以是至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸、或在这些值的任何之间的数字或范围的核苷酸。

在一些实施例中，标记区314可包含、包含约、包含至少、或包含至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000个不同标记、或在这些值的任何之间的数字或范围的不同标记，如条形码序列或分子标记318和细胞标记320。每个标记的长度可以是、可以是约、可以是至少、或可以是至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸、或在这些值的任何之间的数字或范围的核苷酸。一组条形码或随机条形码310可以含有、含有约、含有至少、或可以是至多10、20、40、50、70、80、90、10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴、10¹⁵、10²⁰个条形码或随机条形码310、或在这些值的任何之间的数字或范围的条形码或随机条形码310。并且条形码或随机条形码310的组可以例如，各自含有独特标记区314。经标记的cDNA分子304可以进行纯化以去除过量条形码或随机条形码310。纯化可以包括Ampure珠纯化。

如步骤2所示，来自逆转录过程的产物在步骤1中可以池化至1管中，且用第1PCR引物池和第1通用PCR引物进行PCR扩增。因为独特标记区314，池化是可能的。特别地，可以将标记的cDNA分子304扩增以产生巢式PCR标记的扩增子322。扩增可包括多重PCR扩增。扩增可以包括在单一反应体积中用96种多重引物进行的多重PCR扩增。在一些实施例中，在单一反应体积中，多重PCR扩增可以利用、利用约、利用至少、或利用至多10、20、40、50、70、80、90、10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴、10¹⁵、10²⁰个多重引物、或在这些值的任何之间的数字或范围的多重引物。扩增可包括靶向特异性基因的定制引物326A-C和通用引物328的第1PCR引物池324。定制引物326可以与经标记的cDNA分子304的cDNA部分306’内的区域杂交。通用引物328可以与经标记的cDNA分子304的通用PCR区域316杂交。

如图3的步骤3中显示，来自步骤2中的PCR扩增的产物可以用巢式PCR引物池和第2通用PCR引物进行扩增。巢式PCR可以最小化PCR扩增偏差。例如，巢式PCR标记的扩增子322可通过巢式PCR进行进一步扩增。巢式PCR可以包括在单个反应体积中用巢式PCR引物332a-c的巢式PCR引物池330和第2通用PCR引物328'的多重PCR。巢式PCR引物池328可含有、含有约、含有至少、或含有至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000个不同巢式PCR引物330、或在这些值的任何之间的数字或范围的不同巢式PCR引物330。巢式PCR引物332可含有衔接子334，并与经标记的扩增子322的cDNA部分306”内的区域杂交。通用引物328’可含有衔接子336，并与经标记的扩增子322的通用PCR区域316杂交。因此，步骤3产生衔接子标记的扩增子338。在一些实施例中，巢式PCR引物332和第2通用PCR引物328’可以不含有衔接子334和336。相反，衔接子334和336可以连接到巢式PCR的产物以产生衔接子标记的扩增子338。

如步骤4中显示，可以使用文库扩增引物将来自步骤3的PCR产物进行PCR扩增用于测序。特别地，可以将衔接子334和336用于对衔接子标记的扩增子338执行一个或多个另外的测定。衔接子334和336可以与引物340和342杂交。一个或多个引物340和342可以是PCR扩增引物。一个或多个引物340和342可以是测序引物。一个或多个衔接子334和336可以用于衔接子标记的扩增子338的进一步扩增。一个或多个衔接子334和336可以用于对衔接子标记的扩增子338进行测序。引物342可含有板索引344，使得使用同一组条形码或随机条形码310产生的扩增子可以使用下一代测序(NGS)在一轮测序反应中测序。

细胞标记鉴定中的误差

条形码化，如随机条形码化，例如Rhapsody^TM测定法(Cellular Research,Inc.(Palo Alto,CA))，可以基于珠进行。分子或靶如来自不同细胞的mRNA可与不同珠上的条形码(例如随机条形码)杂交。在不同珠上的条形码可具有不同的细胞标记，而在相同珠上的条形码可具有细胞标记。例如，可将单细胞和单珠添加到微孔板的微孔，以在一个珠与一个细胞成对之前。如此，对于在珠上的所有寡核苷酸细胞标记是相同的，而在不同的珠之间不同，从而使得可用测序数据中的相同细胞标记鉴定来自一个细胞的所有分子。在一些实施例中，来自条形码化(例如随机条形码化)的原始测序数据可包含比实验的细胞输入的数目更高的细胞标记的数目。例如，可以使1000个细胞的一些分子条形码化(例如随机条形码化)；然而，原始测序数据可指示20000-200000个细胞标记。

在不同实现方式中，分子标记的更高数目的来源可以是不同的。不受任何特定理论约束地，认为在一些实施例中，可以裂解没有与珠配对的细胞，并且它们的核酸内容物可以扩散并与未与任何细胞配对的珠相关联，从而产生假细胞标记信号。在一些实施例中，在珠的制造过程中，细胞标记中可能具有突变，其将一个细胞标记转化为另一个细胞标记。在这种情况下，来自相同细胞的分子可能看起来来自两个不同的细胞(例如，似乎它们来自两个不同的珠，因为细胞标记已经发生突变)。此外，在测序之前的PCR扩增过程中，细胞标记中可能发生取代错误和非取代错误。在一些实施例中，核酸外切酶处理(例如，图2中的步骤216)可能不是有效的，使得珠上的单链DNA可在PCR过程中杂交并形成PCR嵌合体。

如果未校正，则原始测序数据中过量的细胞标记可能导致高估的细胞计数。本文公开的方法可以将信号细胞标记(也称为真细胞标记)与噪声细胞标记分开或区分开。

基于二阶导数将细胞标记鉴定为信号细胞标记或噪声细胞标记

本文中公开了用于鉴定信号细胞标记的方法。在一些实施例中，该方法包括：(a)使用多个随机条形码使细胞样品中的多个靶条随机条形码化以创造多个经随机条形码化的靶，其中该多个随机条形码中的每个包含细胞标记和分子标记；(b)获得该多个经随机经条形码化的靶的测序数据；(c)确定与该多个随机条形码的细胞标记中的每个相关联的具有不同序列的分子标记的数目；(d)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个随机条形码的细胞标记中的每个的等级；(e)基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的细胞标记中的每个的等级，生成累积和图；(f)生成该累积和图的二阶导数图；(g)确定该累积和图的二阶导数图的最小值，其中该二阶导数图的最小值对应于细胞标记阈值；和(h)基于(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(g)中确定的细胞标记阈值，将细胞标记中的每个鉴定为信号细胞标记(与细胞相关联)或噪声细胞标记(不与细胞相关联)。

在不同的实现方式中，噪声细胞标记的起因可以是不同的。在一些实施例中，噪声细胞标记可能来自一个或多个PCR或测序错误。在一些实施例中，噪声细胞标记可能来自从死细胞释放的RNA分子。在一些实施例中，噪声细胞标记可能来自未与珠关联的细胞附接到未与细胞关联的珠而释放的RNA分子。

在一些实施例中，该方法包括：(a)获得多个经条形码化的靶(例如经随机条形码化的靶)的测序数据，其中使用多个条形码(例如随机条形码)使细胞样品中的多个靶条形码化(例如随机条形码化)来创建该多个经条形码化的靶，且其中该多个条形码的每个包括细胞标记和分子标记；(b)基于与该多个经条形码化的靶(或条形码)的细胞标记中的每个相关联的具有不同序列的分子标记的数目，确定该多个经条形码化的靶(或条形码)的细胞标记中的每个的等级；(c)基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(b)中确定的该多个经条形码化的靶(或条形码)中细胞标记中的每个的等级，确定细胞标记阈值；以及基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和(c)中确定的细胞标记阈值，将细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记。

图4是显示鉴定细胞为信号细胞标记或噪声细胞标记的非限制性示例性方法400的流程图。在方框404处，方法400可以任选地使用条形码(例如随机条形码)使细胞中的靶条形码化(例如随机条形码化)以创建经条形码化的靶(例如经随机条形码化的靶)，如参考图2-3描述的。每个条形码可包含细胞标记和分子标记。从该多个细胞中不同细胞的靶创建的经条形码化的靶可具有不同的细胞标记。从该多个细胞中相同细胞的靶创建的经条形码化的靶可具有不同的分子标记。

在方框408处，方法400可以获得经条形码化的靶(例如经随机条形码化的靶)的测序数据，如本文在标题为测序的部分中描述的。在框412处，方法400可任选地确定与条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目。确定与条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目可以包括：(1)对该测序数据中与该靶相关联的具有不同序列的分子标记的数目进行计数；和(2)基于(1)中计数的测序数据中与该靶相关联的具有不同序列的分子标记的数目，估算该靶的数目。在一些实施例中，在方框408处获得的测序数据包含与条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目。

在一些实施例中，该方法可以包括，如果与多个靶中的靶相关联的具有不同序列的分子标记的数目高于或低于分子标记出现阈值的话，则从方框408中获得的测序数据中去除与多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。在不同实现方式中，分子标记出现阈值可以是不同的。在一些实施例中，分子标记出现阈值可以是、或是约1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、或在这些值的任何两个之间的数字或范围。在一些实施例中，分子标记出现阈值可以是至少、或至多1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、或100000。在一些实施例中，分子标记出现阈值可以是、或是约1％，2％，3％，4％，5％，6％，8％，9％，10％，20％，30％，40％，50％，60％，80％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％，或在这些值的任何两个之间的数字或范围。在一些实施例中，分子标记出现阈值可以是至少、或至多10％，20％，30％，40％，50％，60％，80％，90％，91％，92％，93％，94％，95％，96％，97％，98％，或99％。

在方框416处，方法400可确定条形码(或经条形码化的靶)的细胞标记中的每个的等级。基于与多个条形码(或经条形码化的靶)中细胞标记的每个相关联的具有不同序列的分子标记的数目，确定条形码(或经条形码化的靶)的细胞标记中的每个的等级。

在方框420处，方法400可以确定与多个条形码(或经条形码化的靶)的细胞标记中的每个相关的细胞标记阈值和方框416处确定的多个条形码(或经条形码化的靶)的细胞标记中的每个的等级。在一些实施例中，基于与多个条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目确定细胞标记阈值包括：确定等级n的细胞标记的累积和以及下一等级n+1的细胞标记的累积和中具有最大变化的细胞标记，其中与该细胞标记相关联的具有不同序列的分子标记的数目对应于细胞标记阈值。

在一些实施例中，基于与多个条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目和方框416处确定的多个条形码(或经条形码化的靶)的细胞标记中的每个的等级确定细胞标记阈值包括：确定细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和；以及确定在等级n的累积和和下一等级n+1的累积和中具有最大变化的细胞标记的等级n，其中在累积和以及下一等级n+1的累积和中具有最大变化的细胞标记的等级n对应于细胞标记阈值。

在一些实施例中，确定细胞标记阈值可包括：基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和416中确定的细胞标记中的每个的等级，生成累积和图；确定细胞标记阈值可进一步包括：生成该累积和图的二阶导数图并确定该累积和图的二阶导数图的最小值。该二阶导数图的最小值可对应于细胞标记阈值。

在一些实施例中，基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和方框416处确定的细胞标记中的每个的等级来生成累积和图可包括：确定细胞标记中的每个等级的累积和，其中该等级的累积和包括与更低等级的细胞标记中的每个相关联的具有不同序列的分子标记的数目的总和。生成该累积和图的二阶导数图可以包括相对于细胞标记的第一等级和细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。在一些实施例中，第一等级和第二等级之间的差异是1。累积和图可以是对数-对数图。对数-对数图可以是log10-log10图。

在一些实施例中，最小值是全局最小值。确定二阶导数图的最小值可包括确定二阶导数图的最小值高于与细胞标记中的每个相关联的分子标记的最小数目的阈值。与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是百分位阈值。与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是基于细胞样品中的细胞数目确定的。例如，如果细胞样品中的细胞数目越大，则与细胞标记中的每个相关联的分子标记的最小数目的阈值越大。

在不同的实现方式中，与细胞标记中的每个相关联的分子标记的最小数目的阈值可以不同。在一些实施例中，与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是、或是约1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、或在这些值的任何两个之间的数字或范围。在一些实施例中，与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是至少、或至多1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、或100000。在一些实施例中，与细胞标记中的每个相关联的分子标记的最小数目的阈值可以是、或是约1％、10％、20％、30％、40％、45％、50％、60％、80％、90％、或在这些值的任何两个之间的数字或范围。在一些实施例中，分子标记出现阈值可以是至少、或至多1％、10％、20％、30％、40％、45％、50％、60％、80％、或90％。

在一些实施例中，确定二阶导数图的最小值包括确定低于与细胞标记中的每个相关联的分子标记的最大数目的阈值的二阶导数图的最小值。与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是百分位阈值。与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是基于细胞样品中的细胞数目确定的。例如，如果细胞样品中的细胞数目越大，则与细胞标记中的每个相关联的分子标记的更大数目的阈值越大。

在不同的实现方式中，与细胞标记中的每个相关联的分子标记的最大数目的阈值可以不同。在一些实施例中，与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是、或是约1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、或在这些值的任何两个之间的数字或范围。在一些实施例中，与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是至少、或至多1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、或100000。在一些实施例中，与细胞标记中的每个相关联的分子标记的最大数目的阈值可以是、或是约10％，20％，30％，40％，45％，50％，60％，80％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％，或在这些值的任何两个之间的数字或范围。在一些实施例中，分子标记出现阈值可以是至少、或至多10％，20％，30％，40％，45％，50％，60％，80％，90％，91％，92％，93％，94％，95％，96％，97％，98％，或99％。

在方框432处，基于与细胞标记相关联的具有不同序列的分子标记的数目和细胞标记阈值，方法400可将细胞标记鉴定为信号细胞标记或噪声细胞标记。如果(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目大于细胞标记阈值，则将细胞标记中的每个鉴定为信号细胞标记。如果(c)中确定的与细胞标记中的每个相关联的具有不同序列的分子标记的数目不大于细胞标记阈值，则可以将细胞标记中的每个鉴定为噪声细胞标记。在一些实施例中，该方法包括，如果在432中将多个条形码(或经条形码化的靶)的细胞标记鉴定为噪声细胞标记，则从方框408处获得的测序数据中去除与该鉴定的细胞标记相关的测序信息。

基于聚类将细胞标记鉴定为信号细胞标记或噪声细胞标记

本文中公开了用于鉴定信号细胞标记的方法。在一些实施例中，该方法包括：(a)使用多个条形码(例如随机条形码)使细胞样品中的多个靶条形码化(例如随机条形码化)以创建多个经条形码化的靶(例如经随机条形码化的靶)，其中该多个条形码中的每个包含细胞标记和分子标记，其中从多个细胞中的不同细胞的靶创建的经条形码化的靶具有不同的细胞标记，并且其中从多个细胞中的相同细胞的靶创建的经条形码化的靶具有不同的分子标记；(b)获得该多个经条形码化的靶的测序数据；(c)确定该多个条形码(或经条形码化的靶)的每个细胞标记的特征向量，其中该特征向量包含与每个细胞标记相关联的具有不同序列的分子标记的数目；(d)基于该特征向量确定该多个条形码(或经条形码化的靶)的每个细胞标记的聚类；和(e)基于该聚类中细胞标记的数目和聚类大小阈值将该多个条形码(或经条形码化的靶)的每个细胞标记鉴定为信号细胞标记或噪声细胞标记。

本文中公开了用于鉴定信号细胞标记的方法。在一些实施例中，该方法包括：(a)获得多个经条形码化的靶(例如经随机条形码化的靶)的测序数据，其中该多个经条形码化的靶(例如经随机条形码化的靶)从细胞样品中的多个靶创建，该多个靶使用多个条形码(例如随机条形码)被条形码化(例如随机条形码化)，其中该多个条形码中的每个包含细胞标记和分子标记，其中从该多个细胞中不同细胞的靶创建的经条形码化的靶具有不同的细胞标记，并且其中从该多个细胞中相同细胞的靶创建的经条形码化的靶具有不同的分子标记；(b)确定该多个经条形码化的靶的每个细胞标记的特征向量，其中该特征向量包含与每个细胞标记相关联的具有不同序列的分子标记的数目；(c)基于该特征向量确定该多个经条形码化的靶的每个细胞标记的聚类；和(d)基于该聚类中细胞标记的数目和聚类大小阈值将该多个经条形码化的靶的每个细胞标记鉴定为信号细胞标记或噪声细胞标记。

图5是显示鉴定细胞为信号细胞标记或噪声细胞标记的另一个非限制性示例性方法的流程图。在方框504处，方法500可以任选地使用随机条形码使细胞中的靶条形码化(例如随机条形码化)以创建经条形码化的靶(例如经随机条形码化的靶)，如参考图2-3描述的。每个条形码包含细胞标记和分子标记。从该多个细胞中不同细胞的靶创建的经条形码化的靶可具有不同的细胞标记。从该多个细胞中相同细胞的靶创建的经条形码化的靶可具有不同的分子标记。

在方框508处，方法500可获得经条形码化的靶的测序数据。在框508处，方法500可任选地确定与条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目。确定与条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目可以包括：(1)对该测序数据中与该靶相关联的具有不同序列的分子标记的数目进行计数；和(2)基于(1)中计数的测序数据中与该靶相关联的具有不同序列的分子标记的数目，估算该靶的数目。在一些实施例中，在方框508处获得的测序数据包含与条形码(或经条形码化的靶)的细胞标记中的每个相关联的具有不同序列的分子标记的数目。

在方框512处，方法500可确定细胞标记的特征向量。特征向量可包含与细胞标记相关联的具有不同序列的分子标记的数目。例如，特征向量的每个元素可包含与细胞标记相关联的分子标记的数目。再例如，特征向量的一个元素可包含与细胞标记相关联的分子标记的数目，而该特征向量的另一个元素可包含与细胞标记相关联的另一个分子标记的数目。

在方框516处，方法500可基于特征向量确定细胞标记的聚类。在一些实施例中，基于特征向量确定条形码或经条形码化的靶的每个细胞标记的聚类包括基于特征向量与聚类在特征向量空间中的距离将条形码或经条形码化的靶的每个细胞标记聚类成聚类。基于特征向量确定多个经条形码化的靶的每个细胞标记的聚类包括：将特征向量从特征向量空间投影到更低维空间；并且基于特征向量与聚类在更低维空间中的距离将每个细胞标记聚类成聚类。更低维空间可以是二维空间。

在方框520处，方法500可基于聚类中细胞的数目和聚类大小阈值将细胞标记鉴定为信号细胞标记或噪声细胞标记。在一些实施例中，如果聚类中的细胞标记的数目低于聚类大小阈值，则可将细胞标记鉴定为信号细胞标记。如果聚类中的细胞标记的数目不低于聚类大小阈值，则可将细胞标记鉴定为噪声细胞标记。

在一些实施例中，该方法包括基于多个条形码(或经条形码化的靶)的细胞标记的数目确定聚类大小阈值。聚类大小阈值可以是多个经条形码化的靶的细胞标记数目的百分数。在一些实施例中，基于多个条形码(或经条形码化的靶)的细胞标记的数目确定聚类大小阈值。聚类大小阈值可以是多个条形码(或经条形码化的靶)的细胞标记数目的百分数。在一些实施例中，方法包括基于与多个条形码(或经条形码化的靶)的每个细胞标记相关联的具有不同序列的分子标记的数目确定聚类大小阈值。

将与真细胞相关联的细胞标记与噪声细胞相关联的细胞标记区分

本文中公开了用于在与真细胞和噪声细胞相关联的标记(例如细胞标记)之间进行可靠地区分的方法的实施例。与真细胞相关联的细胞标记在本文中被称为信号细胞标记。噪声细胞在本文中被称为噪声细胞标记。对应于一些实施例中的不同细胞类型/聚类，该方法可以检测或鉴别大多数真细胞(或信号细胞标记)。该方法可以能自动去除在某些细胞类型(如单核细胞和血浆)中为低表达者的噪声细胞。

图6A是显示用于将与真细胞相关联的标记与噪声细胞的进行区分的非限制性示例性方法600a的流程图。方法600a可基于一个或多个细胞标记鉴定或分类方法(例如参照图4或5描述的方法400或500)。在一些实施例中，方法600a能在这些细胞标记鉴定方法上改进。该方法可用于将Rhapsody^TM流水线中的细胞标记分类。

方法600a包括多个步骤或行为。在方框604处，方法600a包括实施(或运行)细胞标记鉴定方法(例如参照图4或5描述的方法400或500)以确定多个真细胞(或信号细胞标记，在图6A-图6B中称为过滤的细胞(A))。例如，细胞标记鉴定方法可以基于经log10转换的累积读数曲线。细胞标记鉴定方法可用于确定曲线开始平稳的拐点。例如，主要拐点可以是真细胞和噪声细胞之间的分离。

方法600a可包括，通过例如限定到跨大多数细胞(例如所有细胞)高度可变(例如最可变)的基因并实施细胞标记鉴定方法来去除噪声细胞。例如，方法600a可包括，在跨所有细胞的最可变基因上重新运行在方框604处运行的细胞标记鉴定方法。方法600a可包括在方框608处鉴定跨大多数细胞(例如所有细胞)的高度可变基因。在方框612处，可以对在方框608处鉴定的最可变基因实施细胞标记鉴定方法，以确定一个或多个真细胞(或信号细胞标记，其中在图6A-图6B中称为噪声细胞(B))。为了鉴定高度可变的基因，方法600a可任选地包括：将每个细胞内每个基因的读数计数(例如，对于每个细胞标记与每个基因相关联的具有不同序列的分子标记的数目)对数转换以确定基因表达。例如，可以使用下面的等式[1]对读数计数进行对数转换。

log10(计数+1) 等式[1]

在方框608处，方法600a可包括：确定每个基因的表达的一种或多种量度或指标，如平均表达(或最大、中值、或最小表达)和离差(例如方差/均值)。方法600a可包括：将每个基因(或每个基因的表达谱)分到多个仓(bin)之一中。例如，可基于每个基因的平均(或最大、中值、或最小)表达将基因分到20个仓中。在不同实现方式中，仓的数目可以是不同的。在一些实施例中，仓的数目可以是、或约2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，40，50，60，70，80，90，100，110，120，130，140，150，160，170，180，190，200，300，400，500，600，700，800，900，1000，或在这些值的任何两个之间的数字或范围。在一些实施例中，仓的数目可以是至少、或至多2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，40，50，60，70，80，90，100，110，120，130，140，150，160，170，180，190，200，300，400，500，600，700，800，900，或1000。

在方框608处，方法600a可包括：在每个仓内，确定所有基因的离差量度的一种或多种量度或指标。例如，可以确定所有基因的离差量度的均值和标准偏差(STD)。方法600a可包括使用例如等式[2]来确定每个基因的归一化离差量度。

归一化的离差＝(离差-均值)/标准偏差等式[2]

在方框608处，方法600a可包括：将一个或多个不同的截断值应用到归一化的离差以鉴定其表达值高度可变(例如具有高于阈值的变化性)的基因(甚至与具有相似平均表达的基因相比时)。在不同实现方式中，截断值的数目可以是不同的。在一些实施例中，截断值的数目可以是、或约2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，40，50，60，70，80，90，100，110，120，130，140，150，160，170，180，190，200，300，400，500，600，700，800，900，1000，或在这些值的任何两个之间的数字或范围。在一些实施例中，截断值的数目可以是至少、或至多2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，40，50，60，70，80，90，100，110，120，130，140，150，160，170，180，190，200，300，400，500，600，700，800，900，或1000。

在一些实施例中，方法600a可在或仅在细胞在截断值的阈值数目或所有截断值的阈值百分比(例如少数、多数或所有截断值)中被鉴定为噪声细胞时，将该细胞鉴定为噪声细胞(或细胞标记或噪声细胞标记)。在一些实施例中，截断值的阈值数目可以是、或约2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，40，50，60，70，80，90，100，110，120，130，140，150，160，170，180，190，200，300，400，500，600，700，800，900，1000，或在这些值的任何两个之间的数字或范围。在一些实施例中，截断值的阈值数目可以是至少、或至多2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，40，50，60，70，80，90，100，110，120，130，140，150，160，170，180，190，200，300，400，500，600，700，800，900，或1000。在一些实施例中，所有截断值的阈值百分比可以是、或约1％，2％，3％，4％，5％，6％，7％，8％，9％，10％，11％，12％，13％，14％，15％，16％，17％，18％，19％，20％，21％，22％，23％，24％，25％，26％，27％，28％，29％，30％，31％，32％，33％，34％，35％，36％，37％，38％，39％，40％，41％，42％，43％，44％，45％，46％，47％，48％，49％，50％，51％，52％，53％，54％，55％，56％，57％，58％，59％，60％，61％，62％，63％，64％，65％，66％，67％，68％，69％，70％，71％，72％，73％，74％，75％，76％，77％，78％，79％，80％，81％，82％，83％，84％，85％，86％，87％，88％，89％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％，99.9％，100％，或在这些值的任何两个之间的数字或范围。在一些实施例中，所有截断值的阈值百分比可以是至少、或至多1％，2％，3％，4％，5％，6％，7％，8％，9％，10％，11％，12％，13％，14％，15％，16％，17％，18％，19％，20％，21％，22％，23％，24％，25％，26％，27％，28％，29％，30％，31％，32％，33％，34％，35％，36％，37％，38％，39％，40％，41％，42％，43％，44％，45％，46％，47％，48％，49％，50％，51％，52％，53％，54％，55％，56％，57％，58％，59％，60％，61％，62％，63％，64％，65％，66％，67％，68％，69％，70％，71％，72％，73％，74％，75％，76％，77％，78％，79％，80％，81％，82％，83％，84％，85％，86％，87％，88％，89％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％，99.9％，或100％。在一些实施例中，这类噪声细胞鉴定可改进鉴定的噪声细胞的准确性(例如，降低将真细胞鉴定成噪声细胞的可能性)。图7是显示最可变基因的鉴定的非限制性示例图。

参照图6A，在方框616处，方法600a可包括：确定或鉴定可能在方框604处被错误确定的(例如未鉴定的)真细胞(或信号细胞标记)，例如通过确定是否有任何丢失的基因。如果有，则方法600a可包括，在方框620处，运行或重新运行细胞标记鉴定方法(例如在方框604或612处使用的细胞标记鉴定方法)以确定一个或多个在方框604处未鉴定的丢失的真细胞(或丢失的信号细胞标记)。在620处确定的丢失的真细胞在图6A中被称为丢失的细胞(D)。鉴定丢失的基因可包括：对于每个基因，确定来自所有细胞以及来自方框625处确定的清理细胞的总读数计数。可以使用等式[3a]或等式[3b]来确定清理细胞，其中C指示清理细胞，A指示在方框604处确定的过滤的细胞或真细胞，且B指示在方框612处确定的损失细胞。

C＝set_difference(A,set_difference(A,B) 等式[3a]

C＝A-(A-B) 等式[3a]

鉴定丢失的基因可包括：鉴定与来自所有细胞的计数相比在来自清理细胞的计数方面具有大损失(例如，最大损失)的基因。例如，具有最大损失的基因可以通过对总计数绘图，并找到确定具有较大残差(例如，最大残差)的基因的最佳拟合线来确定，例如与来自所有基因残差的中值相距标准偏差的至少一个阈值数目(参见图8A-8B)。在一些实施例中，可以使用中值代替均值来最小化异常值的影响。在不同实现方式中，标准偏差的阈值数目可以是不同的。在一些实施例中，标准偏差的阈值数目可以是、或约0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10，或在这些值的任何两个之间的数字或范围。在一些实施例中，标准偏差的阈值数目可以是至少、或至多0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、或10。

在方框624处，方法600a可包括将在方框620和方框624处鉴定的细胞(或细胞标记)组合以确定真细胞(在图6A-图6B中称为过滤的细胞)的最终集合。

图6B是显示用于将与真细胞有关的标记与噪声细胞的进行区分的另一个非限制性示例性方法600b的流程图。在图6B中方框604-628处实施的行为可以与参照图6A描述的方法600a的对应方框中实施的行为相似。方法600b可包括基于log10转换的累积读数曲线并在方框604处找到其中该曲线开始平稳的拐点来运行算法。主要拐点是细胞和噪声之间的分离。方法600b可包括以下一个或多个步骤。从所有细胞开始，使用基因的离差量度的z得分截断得到最可变的基因。仅关注最可变的基因，并运行当前算法推断真细胞，将该集合表示为B。将使用面板中的所有基因通过其他细胞标记鉴定方法检测到、但仅使用最可变基因的算法(即setdiff(A，B))却未检测到的细胞确定为噪声细胞。在一些实施例中，更保守地，尝试多个离差z截断值，并且仅当细胞对于一些、多数或所有截断值被归类为噪声时才将细胞确定为噪声。使用上面的等式[3a]或[3b]从集合A中移除噪声细胞并获得更新后的细胞集合。

方法600b可包括，通过在方框608处限定到跨所有细胞最可变或高度可变的基因并在方框612处重新运行算法(例如在方框604处运行)来去除噪声细胞。例如，该方法可包括以下一个或多个步骤。取得真细胞。对于每个基因，计算所有细胞以及来自集合C中细胞的总读数计数。发现在集合C中大部分丢失的基因。关注丢失的基因，并运行在方框604处运行的方法以取回任何可能被丢失的真细胞，将此步骤鉴定的细胞指定为D。

方法600b可以包括，通过在方框616处检查是否存在任何丢失基因来恢复在方框604处可能被错误检测或错误确定的真细胞。如果是这样，则方法600b可以包括限定到丢失的基因(也称为代表数不足的基因)并重新运行算法(例如，在方框604处运行)以在方框620处拾取损失的真细胞。最终的细胞列表F可以使用等式[4]来确定。

F＝union(C,D)等式[4]

在一些实施例中，在方框632处，可以通过去除未携带足够高数目的分子的细胞来清理或改善来自方框628的细胞。例如，分子计数的最小阈值可以通过以下规则确定。步骤(a)找出位于底部四分之一的细胞的总分子计数的较大差距(例如，最大差距，第二大差距，第三大差距等)，并确定截断值作为该差距的值。步骤(b)找到具有的分子计数小于步骤(a)中确定的截断值的细胞，并且任选地，计算由于低分子计数而去除的细胞百分比。步骤(c)在以下两个条件之一或两者下，不要使用上面确定的适应性截断值，而是使用例如20个分子的固定截断值：条件(i)由于低分子计数而去除的细胞百分比大于或至少为阈值百分比(例如，20％)和/或差距小于阈值数目(例如500)；和条件(ii)所有细胞的总分子计数中的最大差距是例如1。清理后的细胞是通过方法600b检测到的过滤细胞的最终集合的一部分。

在不同实现方式中，步骤(c)的固定截断值可以是不同的。在一些实施例中，该截断值可以是、或约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、100、或在这些值的任何两个之间的数字或范围。在一些实施例中，该截断值可以是至少、或至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、或100。在不同实现方式中，条件(i)中的阈值百分比可以是不同的。在一些实施例中，阈值百分比可以是、或约5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48％、49％、50％、或在这些值的任何两个之间的数字或范围。在一些实施例中，阈值百分比可以是至少、或至多5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48％、49％、或50％。在不同实现方式中，条件(i)中的差距的阈值数目可以是不同的。在一些实施例中，差距的阈值数目可以是、或是约50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、或在这些值的任何两个之间的数字或范围。在一些实施例中，差距的阈值数目可以是至少、或至多50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、或在这些值的任何两个之间的数字或范围。在不同实现方式中，条件(ii)中的最大差距可以是不同的。在一些实施例中，该最大差距可以是、或是约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、或在这些值的任何两个之间的数字或范围。在一些实施例中，该最大差距可以是至少、或至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、或100。

本文中公开了用于鉴定信号细胞标记的实施例。在一些实施例中，该方法包括：(a)获得细胞的多个第一靶的测序数据，其中每个第一靶跟与多个细胞标记中的每个细胞标记相关联的具有不同序列的分子标记的数目相关；(b)例如在方法600a或600b的方框604处，使用方法400或500，基于与细胞标记中的每个相关联的具有不同序列的分子标记的数目和鉴定阈值，将细胞标记中的每个鉴定为信号细胞标记或噪声细胞标记；和(c)例如在方法600a或600b的方框608、612处，使用方法400或500，将多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记，或者例如在方法600a或600b的方框616、620处，使用方法400或500，将(b)中鉴定为信号细胞标记的多个细胞标记的至少一个重新鉴定为噪声细胞标记。鉴定细胞标记中的每个，将多个细胞标记中的至少一个重新鉴定为信号细胞标记，或将多个细胞标记中的至少一个重新鉴定为噪声细胞标记可以基于与本公开中(如参照图4或图5描述的方法400或500)相同的细胞标记鉴定方法或不同的细胞标记鉴定方法。鉴定阈值可包括细胞标记阈值、聚类大小阈值、或其任意组合。该方法可以包括：去除多个细胞标记中的各自与低于分子标记数目阈值的具有不同序列的分子标记的数目相关联一个或多个细胞标记，例如在参照图6A描述的方法600b的方框628处。

在一些实施例中，将多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记包括：在多个第一靶中确定多个第一靶中的各自具有高于变化性阈值的一个或多个变化性指标的多个第二靶，例如在方法600a或600b的方框608处；和对于多个细胞标记中的每个，基于与多个第二靶相关联的具有不同序列的分子标记的数目和鉴定阈值将多个细胞标记中的在(b)中鉴定为噪声细胞标记的至少一个重新鉴定为信号细胞标记，例如在方法600a或600b的方框612处。第二靶的一个或多个变化性指标可包括测序数据中与第二靶和多个细胞标记中的细胞标记相关联的具有不同序列的分子标记的数目的平均值、最大值、中值、最小值、离差(dispersion)、或其任何组合。第二靶的一个或多个变化性指标可包括标准偏差、归一化离差、或其任何组合、多个第二靶的子集的变化性指标。变化性阈值可以小于或等于多个第二靶的子集的大小。

在一些实施例中，将多个细胞标记中的在(b)中鉴定为信号细胞标记的至少一个重新鉴定为噪声细胞标记包括：确定多个第一靶中的各自具有高于关联阈值的与在(c)中鉴定为噪声细胞标记的细胞标记的关联的多个第三靶，例如在方法600a或600b的方框616处；和对于多个细胞标记中的每个，基于与多个第三靶相关联的具有不同序列的分子标记的数目和鉴定阈值将(b)中鉴定为信号细胞标记的至少一个细胞标记重新鉴定为噪声细胞标记，例如在方法600a或600b的方框620处。确定多个第一靶中的各自具有高于关联阈值的与在(c)中鉴定为噪声细胞标记的细胞标记的关联的多个第三靶可包括：在将(b)中鉴定为噪声细胞标记的至少一个细胞标记重新鉴定为信号细胞标记之后，确定鉴定为信号细胞标记的多个剩余细胞标记；对于多个细胞标记中的每个基于与多个靶相关联的具有不同序列的分子标记的数目，和对于多个剩余细胞标记的中的每个基于与多个靶相关联的具有不同序列的分子标记的数目，确定多个第三靶。

测序

在一些实施例中，估算不同的经条形码化的靶(例如经随机条形码化的靶)的数目可以包括确定经标记的靶、空间标记、分子标记、样品标记、细胞标记、或其任何产物(例如经标记的扩增子、或经标记的cDNA分子)的序列。扩增的靶可以经受测序。确定经条形码化的靶(例如经随机条形码化的靶)或其任何产物的序列可以包括进行测序反应以确定样品标记、空间标记、细胞标记、分子标记的至少一部分的序列，经标记的靶(例如经随机标记的靶)、其互补体、其反向互补体的至少一部分的序列，或其任何组合的序列。

可以使用多种测序方法确定经条形码化的靶或经随机条形码化的靶的序列(例如，扩增的核酸、标记的核酸、标记的核酸的cDNA拷贝等)，这些方法包括但不限于杂交测序(SBH)、连接法测序(SBL)、量化增量荧光核苷酸附加测序(quantitative incrementalfluorescent核苷酸addition sequencing)(QIFNAS)、分段连接与断裂、荧光共振能量转移(FRET)、分子信标、TaqMan报告探针消化、焦磷酸测序、荧光原位测序(FISSEQ)、FISSEQ珠、摆动测序(wobble sequencing)、多重测序、聚合集群(polymerized colony)(POLONY)测序；纳米格滚环测序(nanogrid rolling circle sequencing，ROLONY)、等位基因特异性寡核苷酸连接检验(allele-specific oligo ligation assay)(例如，寡核苷酸连接检验(OLA)、使用连接的线性探针和滚环扩增(RCA)读出、连接的持锁探针的单模板分子(singletemplate molecule)OLA、或使用连接的环形持锁探针和滚环扩增(RCA)读出的单模板分子OLA)等。

在一些实施例中，确定经条形码化的靶(例如经随机条形码化的靶)或其任何产物的序列包括配对端测序、纳米孔测序、高通量测序、鸟枪法测序、染料终止剂测序、多重引物DNA测序、引物步移、桑格双脱氧测序法、马克西姆-吉尔伯特(Maxim-Gilbert)测序、焦磷酸测序、真正的单分子测序或其任何组合。可替代地，可以通过电子显微镜分析法或化学敏感场效应晶体管(chemFET)阵列来确定经条形码化的靶或其任何产物的序列。

可以使用高通量测序方法，如使用平台(如Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent、Complete Genomics、Pacific Bioscience、Helicos、或Polonator平台)的循环阵列测序。在一些实施例中，测序可以包含MiSeq测序。在一些实施例中，测序可以包含HiSeq测序。

经标记的靶(例如经随机标记的靶)可以包括代表来自生物体基因组基因的约0.01％至生物体基因组基因的约100％的核酸。例如，可以使用包括多个多聚体的靶标互补区域，通过从所述样品中捕获含有互补序列的基因，对约0.01％的生物体基因组基因至约100％的生物体基因组基因进行测序。在一些实施例中，经条形码化的靶包括代表从约0.01％的生物体转录组转录物至约100％的生物体转录组转录物的核酸。例如，可以使用包括聚(T)尾的靶标互补区域，通过从所述样品中捕获mRNA，对约0.501％的生物体转录组转录物至约100％的生物体转录组转录物进行测序。

确定多个条形码(例如随机条形码)的空间标记和分子标记的序列可包括对多个条形码的0.00001％、0.0001％、0.001％、0.01％、0.1％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、20％、30％、40％、50％、60％、70％、80％、90％、99％、100％、或在这些值的任何两个之间的数字或范围进行测序。确定多个条形码的标记(例如样品标记、空间标记、和分子标记)的序列可包括对多个条形码中的1、10、20、30、40、50、60、70、80、90、100、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴、10¹⁵、10¹⁶、10¹⁷、10¹⁸、10¹⁹、10²⁰个、或在这些值的任何两个之间的数字或范围进行测序。对多个条形码中的一些或所有进行测序可包括产生具有、具有约、具有至少、或具有至多10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000个、或在这些值的任何两个之间的数字或范围内的核苷酸或碱基的读数长度的序列。

测序可包括对经条形码化的靶的至少或至少约10、20、30、40、50、60、70、80、90、100个或更多个核苷酸或碱基对进行测序。例如，测序可包括通过对多个经条形码化的靶进行聚合酶链式反应(PCR)扩增，产生测序数据，其中序列具有50、75、或100个、或更多个核苷酸的读数长度。测序可包括对经条形码化的靶的至少或至少约200、300、400、500、600、700、800、900、1,000个或更多个核苷酸或碱基对进行测序。测序可包括对经条形码化的靶的至少或至少约1500、2000、3000、4000、5000、6000、7000、8000、9000、或10000个或更多个核苷酸或碱基对进行测序。

测序可以包括至少约200、300、400、500、600、700、800、900、1,000个或更多个测序读数/运行。在一些实施例中，测序包括每次运行对至少或至少约1500、2000、3000、4000、5000、6000、7000、8000、9000、或10000个或更多个测序读数进行测序。测序可以包括小于或等于约1,600,000,000个测序读数/运行。测序可以包括小于或等于约200,000,000个读数/运行。

样品

在一些实施例中，多个靶可以包含在一个或多个样品中。样品可包含一个或多个细胞、或者来自一个或多个细胞的核酸。样品可以是单细胞或来自单细胞的核酸。一个或多个细胞可以是一种或多种细胞类型。一种或多种细胞类型中的至少一种可以是脑细胞、心脏细胞、癌细胞、循环肿瘤细胞、器官细胞、上皮细胞、转移性细胞、良性细胞、原代细胞、循环细胞或其任何组合。

用于在本披露的方法中使用的样品可以包括一个或多个细胞。样品可以指一个或多个细胞。在一些实施例中，多个细胞可包括一种或多种细胞类型。一种或多种细胞类型中的至少一种可以是脑细胞、心脏细胞、癌细胞、循环肿瘤细胞、器官细胞、上皮细胞、转移性细胞、良性细胞、原代细胞、循环细胞或其任何组合。在一些实施例中，该细胞是从癌组织切除的癌细胞，例如乳腺癌、肺癌、结肠癌、***癌、卵巢癌、胰腺癌、脑癌、黑素瘤和非黑素瘤皮肤癌等。在一些实施例中，该细胞源自癌症，但是从体液收集(例如，循环肿瘤细胞)。癌症的非限制性实例可以包括腺瘤、腺癌、鳞状细胞癌、基底细胞癌、小细胞癌、大细胞未分化癌、软骨肉瘤、以及纤维肉瘤。样品可包括组织、单层细胞、固定的细胞、组织切片、或其任何组合。样品可包括生物学样品、临床样品、环境样品、生物学流体、来自受试者的组织或细胞。样品可以获得自人、哺乳动物、狗、大鼠、小鼠、鱼、蝇、蠕虫、植物、真菌、细菌、病毒、脊椎动物、或无脊椎动物。

在一些实施例中，该细胞是已经被病毒感染并含有病毒寡核苷酸的细胞。在一些实施例中，病毒感染可以由如单链(+链或“有义”)DNA病毒(例如，细小病毒)、或双链RNA病毒(例如，呼吸道肠道病毒)的病毒引起。在一些实施例中，所述细胞是细菌。这些可以包括***或革兰氏阴性细菌。在一些实施例中，所述细胞是真菌。在一些实施例中，所述细胞是原生动物或其他寄生虫。

如本文使用的，术语“细胞”可以指一个或多个细胞。在一些实施例中，细胞是正常细胞，例如，处于不同发育阶段的人细胞，或来自不同器官或组织类型的人细胞。在一些实施例中，该细胞是非人类细胞，例如其他类型的哺乳动物细胞(例如小鼠、大鼠、猪、狗、牛或马)。在一些实施例中，所述细胞是其他类型的动物或植物细胞。在其他实施例中，细胞可以是任何原核或真核细胞。

在一些实施例中，在将细胞与珠关联之前对所述细胞进行分选。例如，所述细胞可以通过荧光活化细胞分选或磁活化细胞分选进行分选，或更普遍地通过流式细胞术进行分选。可以按尺寸过滤细胞。在一些实施例中，滞留物包含有待与珠相关联的细胞。在一些实施例中，流过物(flow through)包含有待与珠相关联的细胞。

样品可以指多个细胞。样品可以指单层细胞。样品可以指薄切片(例如，组织薄切片)。样品可以指细胞的固体或半固体集合，其可以放置在阵列上的一个维度上。

执行环境

本公开提供了程序化设定为执行本公开的方法(例如方法400、方法500、方法600a或方法600b，参照图4、5、6A和6B描述的)的计算机***。图9显示了计算机***900，其程序化设定为或另外配置为执行本文中公开的任何方法。计算机***900可以是用户的电子设备或相对于电子设备远程定位的计算机***。电子设备可以是移动电子设备。

计算机***900包括中央处理单元(CPU，本文也称为“处理器”和“计算机处理器”)905，其可以是单核或多核处理器，或者是用于并行处理的多个处理器。计算机***900还包括存储器或存储器位置910(例如，随机存取存储器、只读存储器、闪存)，电子存储单元915(例如，硬盘)，用于与一个或多个其他***通信的通信接口920(例如，网络适配器)，以及***设备925，例如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器910，存储单元915，接口920和***设备925通过通信总线(实线)如母板与CPU 905通信。存储单元915可以是用于存储数据的数据存储单元(或数据存储库)。计算机***900可以借助于通信接口920可操作地耦合到计算机网络(“网络”)930。网络930可以是因特网、因特网和/或外联网、或者与因特网通信的内联网和/或外联网。在某些情况下，网络930是电信和/或数据网络。网络930可以包括一个或多个计算机服务器，其可以实现分布式计算，例如云计算。在一些情况下借助于计算机***900，网络930可以实现对等网络(peer-to-peer network)，其可以使耦合到计算机***900的设备能够充当客户端或服务器。

CPU 905可以执行一系列机器可读指令，其可以具体化在程序或软件中。指令可以存储在存储器位置中，例如存储器910中。可以将指令引导到CPU 905，CPU 905随后可以程序化设定为或另外配置CPU 905以执行本公开的方法。由CPU 905执行的操作的例子可以包括获取，解码，执行和回写。CPU 905可以是电路例如集成电路的一部分。***900的一个或多个其他组件可以包括在电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元915可以存储文件，例如驱动程序、库和保存的程序。存储单元915可以存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机***900可以包括在计算机***900外部的一个或多个附加数据存储单元，例如位于通过内联网或因特网与计算机***900通信的远程服务器上。

计算机***900可以通过网络930与一个或多个远程计算机***通信。例如，计算机***900可以与用户(例如，微生物学家)的远程计算机***通信。远程计算机***的例子包括个人计算机(例如便携式PC)，触屏电脑或平板电脑(例如，iPad、/>GalaxyTab)，电话，智能电话(例如，/>iPhone、支持Android的设备、/>))，或个人数字助理。用户可以经由网络930访问计算机***900。

计算机***900可包括电子显示器935或与电子显示器935通信，电子显示器935包括用户界面(UI)940，用于提供例如指示多个微生物类群的串共现(string co-occurrence)或相互作用的输出，如字符串表示的。UI的例子包括但不限于图形用户界面(GUI)和基于web的用户界面。

本文中描述的方法可以通过存储在计算机***900的电子存储位置上，如例如在存储器910或电子存储单元915上的机器(例如，计算机处理器)可执行代码来实现。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器905执行。在一些情况下，可以从存储单元915取回代码并将其存储在存储器910上以供处理器905随时访问。在一些情况下，可以排除电子存储单元915，并且机器可执行指令存储在存储器910上。

可以预编译和配置代码以用于具有适于执行代码的处理器的机器，或者可以在运行时期间编译。代码可以以编程语言提供，可以选择该编程语言使代码能够以预编译或如编译的方式执行。

本文提供的***和方法的各方面，例如计算机***900，可以具体化在编程中。该技术的各个方面可以被认为是通常以一种类型的机器可读介质中承载或具体化的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元，例如存储器(例如，只读存储器，随机存取存储器，闪存)或硬盘上。“存储”型介质可以包括计算机的有形存储器、处理器等、或其相关模块，例如各种半导体存储器、磁带驱动器、磁盘驱动器等的任何一个或全部，其可以随时提供非暂时性存储用于软件编程。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如，这类通信可以使软件从一个计算机或处理器加载到另一个计算机或处理器，例如，从管理服务器或主计算机加载到应用服务器的计算机平台。因此，可以承载软件元件的另一种类型的介质包括光波、电波和电磁波，例如跨本地设备之间的物理接口，通过有线和光学陆线网络以及通过各种空中链路使用的。携带这类波的物理元件，例如有线或无线链路、光链路等，也可以被认为是承载软件的介质。如本文所使用的，除非限定为非暂时性的有形“存储”介质，诸如计算机或机器“可读介质”之类的术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质如计算机可执行代码可以采用许多形式，包括但不限于，有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，如任何计算机等中的任何存储设备，如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，例如这类计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括在计算机***内构成总线的线。载波传输介质可以采用电或电磁信号，或声波或光波的形式，例如在射频(RF)和红外(IR)数据通信期间产生的那些。因此，计算机可读介质的常见形式包括，例如：软盘(floppy disk)，软磁盘(flexibledisk)，硬盘，磁带，任何其他磁介质，CD-ROM，DVD或DVD-ROM，任何其他光学介质，穿孔卡纸带，任何其他带孔图案的物理存储介质，RAM，ROM，PROM和EPROM，FLASH-EPROM，任何其他存储器芯片或盒式磁带，传输数据或指令的载波，传输此类载波的电缆或链路，或计算机可从中读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。

在一些实施例中，计算机***900的一些或全部分析功能性可包装在单个软件包内。在一些实施例中，完整的数据分析能力集合可以包括一套软件包。在一些实施例中，数据分析软件可以是独立于测定仪器***使用户可用的独立包。在一些实施例中，软件可以是基于网络的，并且可以允许用户共享数据。在一些实施例中，可商购的软件可用于执行数据分析的全部或一部分，例如，可以使用七桥(Seven Bridges，https://www.sbgenomics.com/)软件来编译在整个细胞集合中每个细胞中出现的一个或多个基因的拷贝数目表。

可以通过一种或多种算法或方法来执行本公开的方法和***。可以在由中央处理单元905执行时通过软件实现方法。通过软件执行的算法或方法的示例性应用包括，用于序列读取处理(例如，合并、过滤、修剪、聚类)，对齐和调用，以及串数据和光密度数据的处理(例如，最可能的数目和可培养的丰度测定)的生物信息学方法。

在示例性实施例中，计算机***900可以对通过实施单细胞、随机条形码化测定而生成的序列数据集实施数据分析。数据分析功能的实例包括但不限于(i)用于解码/多路解编通过对在运行测定中产生的随机条形码文库进行测序所提供的样品标记、细胞标记、空间标记和分子标记以及靶序列数据的算法，(ii)用于基于数据确定每个细胞每个基因的读段数目和每个细胞每个基因的独特转录物分子数目、并且创建汇总表的算法，(iii)对序列数据的统计分析，例如用于通过基因表达数据对细胞聚类，或用于预测确定每个细胞每个基因的转录物分子数目的置信区间等，(iv)用于鉴定罕见细胞亚群的算法，例如使用主成分分析、分层聚类、k均值聚类、自组织映射、神经网络等，(v)基因序列数据与已知参考序列比对以及突变、多态性标记物和剪接变体的检测的序列比对能力，以及(vi)分子标记的自动聚类，以补偿扩增或测序错误。在一些实施例中，计算机***900可以以有用的图形格式输出测序结果，例如，指示在细胞集合的每个细胞中存在的一个或多个基因的拷贝数的热图。在一些实施例中，计算机***900可以执行用于从测序结果提取生物学意义的算法，例如通过将在细胞集合的每个细胞中存在的一个或多个基因的拷贝数与一种类型的细胞、一种类型的稀有细胞、或来源于具有特定疾病或病症的受试者的细胞相关联。在一些实施例中，计算机***900可以执行用于比较跨不同生物样品的细胞群的算法。

实例

以上讨论的实施例的一些方面在以下实例中进一步详细披露，其不是旨在以任何方式限制本披露的范围。

实例1

信号细胞标记和噪声细胞标记的分离——二阶导数

本实例描述了基于与细胞标记相关的读数(或分子)的数目将信号细胞标记(也称为真细胞标记)与噪声细胞标记分离。

在一些情况下，噪声细胞标记可具有比信号细胞标记更少的与其相关的读数(或分子)。例如，噪声细胞标记可以由未与珠配对的细胞被裂解且其核酸内容物扩散并与未与任何细胞配对的珠相关联而产生。这种类型的噪声细胞标记可含有细胞总核酸内容物的一部分。因此，来自相同细胞的分子可能看起来来自两个不同的细胞(例如，似乎它们来自两个不同的珠，因为细胞标记已经发生突变)。

再例如，噪声细胞标记可以由珠制造过程中的突变引起。而且，噪声细胞标记可以由不充分的核酸外切酶处理(例如，在图2中所示的步骤216)使得珠上的单链DNA可以在PCR过程中杂交并形成PCR嵌合体而产生。这两种类型的噪声细胞标记可以随机且很少地发生。

图10显示了非限制性示例性累积和图。对数-对数标度上的累积读数数目相对于排序的细胞标记索引。红线显示真细胞标记和噪声细胞标记之间的截断。在图10中，当基于读数的数目对所有细胞标记进行排序时，观察到读数(或分子)的累积数目的突然斜率变化。为了找到真细胞标记和噪声细胞标记之间的截断，计算了对数-对数图的二阶导数。图11显示了图10中的累积和图的非限制性二阶导数图。log10转换的读数累积数目的二阶导数相对于log10转换的排序的细胞标记索引。全局最小值推断为是真细胞标记和噪声细胞标记之间的截断。

在一些实施例中，推断的细胞数目可能与细胞数目输入和在图像分析中观察到的细胞数目不一致。相反，使用图11确定的截断可以反映高和低表达水平的信号细胞之间的分离，或者不同类型的噪声标记之间的分离。为了在这些情况下正确地推断细胞数目，基于经验数据，将信号细胞标记中的读数(或分子)百分比的约束设定在45％至92％的范围内。任选地当从图像分析中观察到的细胞数目可获时，可以将该值设置为约束。

总之，这些数据证明了鉴定真细胞标记(也称为信号细胞标记)和噪声细胞标记可以通过确定二阶导数图的最小值来实现，该最小值对应于用于区分真细胞标记和噪声细胞标记的细胞标记阈值。

实例2

信号细胞标记和噪声细胞标记的分离——聚类

本实例描述了基于其表达模式(也称为特征向量)将信号细胞标记(也称为真细胞标记)与噪声细胞标记分离。

在一些实施例中，用于随机条形码化实验的样品可含有具有广范围的表达水平的细胞类型。在这类实验中，一些细胞类型可具有与噪声细胞标记非常相似数目的分子。当相关分子的数目难以区分时，为了将真细胞标记与噪声细胞标记分开，可以使用聚类技术来将噪声细胞标记和具有低表达水平的每种细胞类型分类。该方法可基于以下假设：相同细胞类型内的细胞标记将具有比不同细胞类型之间的细胞标记更相似的表达模式，并且噪声细胞标记也将彼此之间具有比与真细胞标记更相似的特征向量。

图12显示了信号或噪声细胞标记的非限制性tSNE图。PBMC细胞被随机条形码化。图12中的5450个细胞标记包含240个具有低表达水平的真细胞标记和5210个噪声细胞标记。具体地，通过首先使用t分布随机邻域嵌入(tSNE)将表达向量投影到二维(2D)空间中，并通过具有噪声的应用的基于密度的空间聚类(DBScan)方法将2D坐标聚类来完成分类。在知晓5450个细胞标记的大多数是噪声细胞标记的情况下，推断主要的聚类是噪声标记聚类，而其他三个紧凑的聚类被推断为是三种不同细胞类型的真细胞标记。

总之，这些数据证实了鉴定真细胞标记和噪声细胞标记可通过将与细胞标记相关的表达模式聚类来实现。

实例3

真细胞和噪声细胞标记的鉴定——二阶导数

本实例描述了基于与细胞(或细胞标记)相关的读数(或分子)的数目将真细胞(也称为信号细胞标记或真细胞标记)与噪声(也称为噪声细胞或噪声细胞标记)分离。

实例数据集1.使用具有三种不同的乳腺癌细胞系和供体分离的PBMC(外周血单核细胞)的BD^TM乳腺癌基因板(BrCa400)处理该数据集。参考图4描述的方法400b鉴定了8017个细胞，其中通过参考图6A-图6B描述的方法600a将其中186个细胞鉴定为噪声细胞。方法600a检测到另外的1263个细胞，其被证实主要是PBMC，参见图13A-13B、14A-14D。图13A-13B是非限制性示例图，例示了对于使用BD^TM乳腺癌基因板(具有三种不同的乳腺癌细胞系和供体分离的PBMC)处理的样品，由参照图4说明的方法400(图13A)和由参照图6A说明的方法600a(图13B)鉴定的细胞的比较。图13A-13B中均标记为蓝色的点是两种方法都检测到的共有细胞。在图13A中标记为红色的点是由方法600a鉴定为噪声的细胞。在图13B中标记为红色的点是由方法600a鉴定的另外的真细胞。图14A是非限制性示例图，显示了由方法600a鉴定的细胞，其中标记为红色的细胞是鉴定的另外的细胞(相比于由参照图4例示的方法400鉴定的细胞)。通过表达PBMC，例如B细胞(图14B)、NK细胞(图14C)和T细胞(图14D)来将细胞着色。图14B-14D显示由方法600a鉴定的另外的细胞确实是真细胞。

实例数据集2.使用具有健康供体分离的PBMC的BD^TM血液基因板(Blood500)处理该数据集。参考图4描述的方法400b鉴定了13,950个细胞，其中通过参考图6A-图6B描述的方法600a将其中1,333个细胞鉴定为噪声细胞。方法600a检测到另外的3,842个细胞，其被确认为大多数是T细胞，以及重要基因如LAT(用于T细胞活化的连接子，Linker forActivation of T cells)和IL7R(白介素7受体)表达，参见图15A-15B、16A-16B、和17A-17D。图15A-15B是非限制性示例图，例示了对于使用具有健康供体分离的PBMC的BD^TM血液基因板处理的样品，由参照图4说明的方法400(图15A)和由参照图6A说明的方法600a(图15B)鉴定的细胞的比较。图15A-15B中均标记为蓝色的点是两种方法都检测到的共有细胞。在图15A中标记为红色的点是由方法600a鉴定为噪声的细胞。在图15B中标记为红色的点是由方法600a鉴定的另外的细胞。图16A-16B是非限制性示例图，显示了由方法400鉴定的细胞。在图16A中，标记为红色的细胞是由方法600a鉴定为噪声的细胞。在图16B中，通过表达一组单核细胞标志基因，例如CD14和S100A6来将细胞着色。由改进的算法鉴定的“噪声”细胞大多是单核细胞的低表达者。图17A是非限制性示例图，显示了由方法600a鉴定的细胞，其中标记为红色的细胞是鉴定的另外的细胞。通过T细胞的表达(图17B)，重要基因LAT的表达(图17C)和IL7R的表达(图17D)来将细胞着色。

总之，鉴定细胞细胞标记或真细胞的方法的不同实施例的数据具有不同的性能且可能彼此互补。

在至少一些先前描述的实施例中，在一个实施例中使用的一个或多个元素可以互换地用于另一个实施例中，除非这种替换在技术上不可行。本领域技术人员将理解，在不脱离所要求保护的主题的范围的情况下，可以对上述方法和结构进行各种其他的省略、添加和修改。所有此类修改和改变都旨在落在由所附权利要求书限定的主题的范围内。

关于本文中使用基本上任何复数和/或单数术语，在对于背景和/或应用适当的情况下，本领域技术人员可以从复数转换为单数和/或从单数转换为复数。为了清楚起见，可以在本文明确阐述各种单数/复数排列。如本说明书和所附权利要求书中使用的，除非上下文另有明确指示，否则单数形式“一个/一种(a/an)”和“所述(the)”包括复数的提及物。除非另外说明，在本文中对“或”的任何提及旨在涵盖“和/或”。

本领域技术人员将理解，一般来说，本文使用的术语，尤其是所附权利要求书(例如，所附权利要求书的主体)中的术语，通常旨在作为“开放性的”术语(例如，术语“包括(including)”应解释为“包括但不限于(including but not limited to)”，术语“具有(having)”应解释为“具有至少(having at least)”，术语“包括(includes)”应解释为“包括但不限于(includes but is not limited to)”等)。本领域技术人员将进一步理解，如果预期到所介绍的权利要求陈述的特定数目，这样的预期将明确地陈述于权利要求中，并且在不存在这种陈述的情况下没有这种意图存在。例如，作为对理解的帮助，以下所附权利要求书可以包含介绍性短语“至少一个”和“一个或多个”的使用，以介绍权利要求陈述。然而，此类短语的使用不应解读为意味着由不定冠词“一个”或“一种”介绍权利要求陈述会将任何包含这种介绍的权利要求陈述的具体权利要求限制到包含仅一个这种陈述的实施例中，甚至当相同的权利要求包括介绍性短语“一个或多个”或“至少一个”以及不定冠词如“一个”或“一种”时也是如此(例如，“一个”和/或“一种”应解释为意指“至少一个”或“一个或多个”)；这对于使用定冠词来介绍权利要求陈述同样适用。此外，即使明确地陈述了介绍的权利要求陈述的特定数目，本领域技术人员将认识到，这种陈述应解释为意指至少所陈述的数字(例如，仅陈述“两个陈述”而没有其他修饰词意指至少两个陈述、或两个或更多个陈述)。此外，在使用类似于“A、B和C等中的至少一个”的惯例的那些情况下，通常这种句法结构是在本领域技术人员将理解该惯例的意义上预期(例如，“具有A、B和C中的至少一个的***”将包括但不限于仅具有A，仅具有B，仅具有C，A和B一起，A和C一起，B和C一起，和/或A、B、和C一起等的***)。在使用类似于“A、B或C等中的至少一个”的惯例的那些情况下，通常这种句法结构是在本领域技术人员将理解该惯例的意义上预期(例如，“具有A、B或C中的至少一个的***”将包括但不限于仅具有A，仅具有B，仅具有C，A和B一起，A和C一起，B和C一起，和/或A、B、和C一起等的***)。本领域技术人员将进一步理解，实际上，无论在说明书、权利要求书还是在附图中，呈现两个或更多个替代术语的任何分离性词语和/或短语应被理解为考虑到包括术语之一、任一术语或两个术语的可能性。例如，短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。

此外，当本披露的特征或方面以马库什组(Markush group)描述时，本领域技术人员将意识到本披露还由此以马库什组的任何单独的成员或成员子组描述。

如本领域技术人员将理解的，出于任何和所有目的，如在提供书面描述方面，本文披露的所有范围还包括任何和所有可能的它的子范围和子范围组合。任何列出的范围都可以很容易地被识别为充分描述并使相同的范围能被分解为至少相等的一半，三分之一，四分之一，五分之一，十分之一等。作为非限制性示例，这里讨论的每个范围可以容易地分解为下三分之一，中三分之一和上三分之一等。如本领域技术人员还将理解的，所有语言，如“多至”、“至少”、“大于”、“小于”等包括所陈述的数字，并且指代可以随后分解为如上讨论的子范围的范围。最后，如本领域技术人员将理解的，范围包括每个单独的成员。因此，例如，具有1-3个物品的组是指具有1、2或3个物品的组。类似地，具有1-5个物品的组指代具有1、2、3、4或5个物品的组，等等。

尽管本文已经披露了各种方面和实施例，但其他方面和实施例对本领域技术人员将是明显的。本文披露的各种方面和实施例用于说明的目的而并不意于限制由所附权利要求所指出的真实范围和精神。

Claims

1.一种用于鉴定信号细胞标记的方法，该方法包括：

(b)获得该多个经条形码化的靶的测序数据；

(f)生成该累积和图的二阶导数图；

2.如权利要求1所述的方法，该方法包括：如果在(h)中将该多个条形码的细胞标记鉴定为噪声细胞标记，则从(b)中获得的测序数据中去除与该鉴定的细胞标记相关的测序信息。

3.如权利要求1-2中任一项所述的方法，该方法包括：如果与该多个靶中的靶相关联的具有不同序列的分子标记的数目高于分子标记出现阈值的话，则从(b)中获得的测序数据中去除与该多个靶中的该靶相关联的具有不同序列的分子标记相关的测序信息。

4.如权利要求1-3中任一项所述的方法，其中在(c)中确定与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目包括从测序数据中除去与这些细胞标记中的每个相关联的非独特分子标记相关的测序信息。

5.如权利要求1-4中任一项所述的方法，其中该累积和图是对数-对数图。

6.如权利要求5所述的方法，其中该对数-对数图是log₁₀-log₁₀图。

7.如权利要求1-6中任一项所述的方法，其中基于(c)中确定的与这些细胞标记中的每个相关联的具有不同序列的分子标记的数目和(d)中确定的这些细胞标记中的每个的等级生成该累积和图包括：

8.如权利要求7所述的方法，其中生成该累积和图的二阶导数图包括相对于这些细胞标记的第一等级和这些细胞标记的第二等级之间的差异确定该第一等级的累积和与该第二等级的累积和之间的差异。

9.如权利要求8所述的方法，其中该第一等级和该第二等级之间的差异是1。

10.如权利要求1-9中任一项所述的方法，其中该最小值是全局最小值。