CN107969138B

CN107969138B - 条形码序列和有关***与方法

Info

Publication number: CN107969138B
Application number: CN201680027931.8A
Authority: CN
Inventors: C.科勒; M.D.艾伦
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2015-05-14
Filing date: 2016-05-13
Publication date: 2022-04-12
Anticipated expiration: 2036-05-13
Also published as: EP3295345B1; EP4220645A3; CN114540475A; US10978174B2; WO2016183478A1; US20160333402A1; EP3295345A1; US20210304843A1; EP4220645A2; CN107969138A

Abstract

本发明提供了样本鉴定的方法、***和套件，具体而言，提供了样本区分码的设计和/或制作和/或使用的方法、***和套件，用于鉴定样本核酸或其它生物分子或聚合物。例如，可生成多个流空间码字，所述码字由一串字符组成。可确定所述流空间码字内至少一个填充字符的位置。可将所述填充字符***所述流空间码字的确定位置。***后，在满足预定最小距离准则的基础上，可选定多个流空间码字，其中，所选码字按预定流序对应于有效的碱基空间序列。并可制备对应于所选码字的条形码序列。

Description

条形码序列和有关***与方法

优先权

本申请书主张62/161,309号美国临时专利申请中的权益，该临时专利申请于2015年5月14日提交，并通过整体引用而成为本文的一部分。

序列表

本申请含有序列表，所述序列表已经以ASCII格式以电子方式提交并且以全文引用的方式并入本文中。创建于2016年5月12日的所述ASCII拷贝的名称为LT01016_SL.txt且大小为18,815个字节。

领域

本公开一般涉及样本鉴定的方法、***和套件，具体涉及样本区分码或样本区分条形码的设计和/或制作和/或使用的方法、***和套件，所述样本区分码或样本区分条形码被用于鉴定样本核酸或其它生物分子或聚合物。

技术领域

各仪器、装置和/或***采用边合成边测序的方式进行核酸测序，例如包括基因组分析仪/HiSeq/MiSeq平台(Illumina公司；例如参见美国专利6,833,246号和5,750,341号)；GS FLX、GS FLX Titanium和GS Junior平台(罗氏/454生命科学公司；例如参见Ronaghi et al.,SCIENCE,281:363-365(1998)和Margulies et al.,NATURE,437:376-380(2005))；以及Ion PGM^TM测序仪和Ion Proton^TM测序仪(生命科学公司/Ion Torrent；例如参见美国专利7,948,015号和美国专利申请公开说明书2010/0137143号、2009/0026082号和2010/0282617号，这些专利均通过整体引用的方式并入本文作为参考)。为增加测序通量和/或降低边合成边测序(和其它测序方法，诸如边杂交边测序、边连接边测序等)的成本，需要新的方法、***、可机读介质和套件需允许高效制备和/或鉴定可能高度复杂的样本。

发明概述

本公开一般涉及样本鉴定的方法、***和套件，具体涉及样本区分码或样本区分条形码的设计和/或制作和/或使用的方法、***和套件，所述样本区分码或样本区分条形码被用于鉴定样本核酸或其它生物分子或聚合物。一个实施例提供了一种方法，用于设计与流空间码字对应的条形码序列。可生成多个由一串字符组成的流空间码字。可确定所述流空间码字内至少一个填充字符的位置。可将所述填充字符***所述流空间码字的确定位置。***后，在满足预定最小距离准则的基础上，可选定多个流空间码字，其中，所选码字按预定流序对应于有效的碱基空间序列。并可制备对应于所选码字的条形码序列。

若干实施例中，在***填充字符后，按预定流序至少可过滤一个码字，包括一个无效碱基空间平移。若干实施例中，所选码字全体包括一个符合预定最小距离准则的容错码。

若干实施例中，流空间码字内的填充字符的位置确定还可包括在码字内该填充字符的多个位置迭代。此外，每次迭代时，可计算按预定流序对应于某一有效碱基空间序列的码字的数量。然后可在所述多个位置中选定对应于某一有效碱基空间序列的码字的计算数量最高的位置。

若干实施例中，流空间码字内的填充字符的位置确定还可包括，每次迭代时确定对应于流空间码字的碱基空间序列，当把该填充字符***到所述码字的迭代位置处后，所述碱基空间序列对应于有效碱基空间序列。每次迭代时，根据所定序列的至少一个长度准则，可过滤所定的碱基空间序列。并可计算过滤后迭代位置的有效碱基空间序列的数量。若干实施例中，每次迭代时的过滤还包括，根据核苷酸百分含量准则，过滤所定的碱基空间序列。

若干实施例中，***至少一个填充字符后，容错码的码字在流空间内同步。

若干实施例中，生成的流空间码字包括码字间的一个初始距离，如此使得所选码字间的最小距离大于所生成的码字间的最小距离。***填充字符后，可保持码字间的该初始距离。

若干实施例中，多个码字的选择还包括码字分组，如此使得各组内的码字间的组内最小距离由一个第一值构成，且不同组间的码字组外最小距离由一个第二值构成，第一值大于第二值。

若干实施例中，可确定所选码字的一个子集，包含一个不表示合并的终止流。

可制得对应于所选码字子集的条形码序列子集，如此使得根据不表示合并的码字子集所对应的终止流，选定所述条形码序列子集的一个接头。

若干实施例中，条形码序列的制备还包括给该条形码序列附加一系列关键碱基，其中，对于此条形码序列的首段，所附加的关键碱基以一个重复碱基终止。例如，首段可包含一半的条形码序列。若干实施例中，对于条形码序列的第二段，所附加的关键碱基可由一个非重复碱基终止。若干实施例中，所选码字全体包含一个容错码，由码字间的最小距离构成，如此使得对应于所选码字的所制条形码所附加的终止关键碱基的变化增大码字间的最小距离。

一个实施例提供了一种方法，用于对包含条形码序列的多核苷酸样本进行测序。多个条形码中至少有若干可并入多个目标核酸中，形成多核苷酸，其中，多个条形码的设计使得这些条形码按某一预定流序对应于某一流空间码字，该流空间码字由一个或多个容错码组成，且所述多个条形码至少包括1000个条形码。按照预定流序，在多核苷酸中，可引入一系列核苷酸。由于往目标核酸中引入核苷酸，可获得一系列信号。该系列信号可在条形码范围内解析，呈递流空间字符串，使得所呈递的流空间字符串匹配码字，其中，在存在一个或多个错误的情况下，至少一个呈递的流空间字符串匹配至少一个码字。若干实施例中，在存在一个或多个错误的情况下，至少匹配一个流空间码字的至少一个呈递的流空间字符串被用于鉴定从多个目标核酸序列之一所获得的信号，关联于对应所匹配流空间码字的码字。

若干实施例中，提供了一个与核酸测序仪器配套的使用套件。该套件可由多个符合以下准则的条形码序列组成：按某一预定流序，条形码序列对应于流空间码字，如此使得所对应的码字包括最小距离至少为三的一个容错码；该条形码序列的长度位于某一预定长度范围内；该条形码序列在流空间里同步；且所述多个条形码序列至少是500个不同的条形码序列。若干实施例中，所述多个条形码序列至少是1000个不同的条形码序列。

附图简略说明

并入到说明书中并且形成说明书的一部分的随附图式说明一个或多个示例性实施例并且用以解释各个示例性实施例的原理。附图仅是示例性和解释性的，并且不应解释为以任何方式限制或约束。

图1为说明某一示例性核酸测序***的组件的框图。

图2A说明了某一示例性核酸测序流通池的横截面视图和详细视图。

图2B说明了流过一个示例性反应室阵列一部分的连续试剂之间的一个示例性均匀流锋。

图3说明了一个示例性无标记、基于pH的测序过程。

图4为说明一个用于获取、处理和/或分析多重核酸测序数据的示例性***的框图。

图5显示一个表示可实现碱基响应的信号的示例性电离图。

图6A和6B演示了一个碱基空间序列与一个流空间矢量之间的关系。

图7说明了一个用于设计对应于流空间码字的条形码序列的示例性方法。

图8说明了一个用于测序含有一个条形码序列的多核苷酸样本的示例性方法。

图9说明了一组各不相同的多核苷酸链，各链均有一个唯一的条形码序列。

图10A-10C说明了一个用于制备一个多重样本的示例性工作流程。

图11说明了一个包含一个条形码序列的示例性微珠模板。

图12说明了另一个包含一个条形码序列的示例性微珠模板。

详细说明

以下说明和本文件所述的各种实施例仅是示例性和解释性的，并且不应理解为以任何方式限制或约束。通过说明书、附图和权利要求，本资料的其它实施例、功能、对象及优点显而易见。

根据所述各种实施例，提供了允许有效制备和/或鉴定样本的方法、***和套件。若干实例中，所述方法、***和套件可通过允许多个样本同时测序和/或分析(如多重测序)，用样本区分码或编码分子构想促进所述测序分析，从而有助于增加通量。多重测序可允许在单次测序运行中(如某一普通玻片、芯片、底物或其它样本夹持装置上)或在基本上同时测序运行中(如多个玻片、芯片、底物或样本夹持器上)基本同时分析多个编码样本(例如不同样本或来源不同的样本)。

若干实施例中，所公开的方法、***和套件可用于鉴定多重测序中所用样本的一个来源。所述鉴定可涉及对样本测序数据的分析。测序数据源可以是唯一被标记、编码或鉴定(如，为了分辨与某一特定样本总体相关联的某种特定核酸种类)。通过使用独特的可内嵌于样本或跟样本相关的样本区分码或序列(也叫条形码，如合成核酸条形码)，促进所述鉴定。样本区分码的使用仍受限于测序过程中可发生的错误或误读。例如，一次错误的条码解读可能改变条形码信息的解释，使该条形码不可识别并妨碍样本的正确鉴定。一次错误的条码解读还可导致某一样本关联至一个错误的样本源或源总体。

不过，公开的各实施例可缓解检出和/或纠正含条形码样本的测序过程中可出现的错误的问题。例如，提供了样本区分码或序列或条形码和开发稳健样本区分码或序列或条形码的方法，所述样本区分码或序列或条形码均结合了一个容错码(如，一个纠错码或一个检错码)。

公开的各实施例还可生成大量潜在条形码，如可用于互相区分样本的条形码，这些条形码还可对应于包含一个容错码的码字(如，一个纠错码或一个检错码)。比如，对所生成的条形码进行测序时，一个测序仪器可接收信号，而所接收的最终信号可代表某一容错码的一个码字。若干实施例中，结合了条形码容错设计的大量潜在条形码可改进多重分析的效率(如，可测序的同步目标的数量)、准确度(如，容错)和灵活性及定制化。

除非本文中另外具体指定，本文所用的生物化学、细胞生物学、细胞和组织培养、遗传学、分子生物学、核酸化学和有机化学方面(包括聚合物颗粒的化学物理分析、酶反应和纯化、核酸纯化和制备、核酸测序和分析、聚合技术、合成多核苷酸的制备、重组技术等)的术语、技术和符号均遵循有关领域的标准协议和文本。参见Kornberg and Baker,DNAR_EPLICATION,2nd ed.(W.H.Freeman,New York,1992)(Kornberg和Baker，《DNA复制》，第2版，W.H.Freeman出版社，纽约，1992年)；Lehninger,B_IOCHEMISTRY,2nd ed.(Worth Publishers,New York,1975)(Lehninger，《生物化学》，第2版，Worth Publishers出版社，纽约，1975年)；Strachan and Read,H_UMAN M_OLECULAR G_ENETICS,2nd ed.(Wiley-Liss,New York,1999)(Strachan和Read，《人类分子遗传学》，第2版，Wiley-Liss出版社，纽约，1999年)；Birrenet al.(eds.),G_ENOME A_NALYSIS:A L_ABORATORY M_ANUAL S_ERIES(Vols.I-IV),Dieffenbach andDveksler(eds.),PCR P_RIMER:A L_ABORATORY M_ANUAL,and Green and Sambrook(eds.),M_OLECULARC_LONING:A L_ABORATORY M_ANUAL(all from Cold Spring Harbor Laboratory Press)(Birren等编，《基因组分析：实验室手册系列》(I-IV卷)，Dieffenbach和Dveksler编，《PCR引物：实验室手册》，和Green和Sambrook编，《分子克隆：实验室手册》(均由冷泉港实验室出版社出版)；及Hermanson,B_IOCONJUGATE T_ECHNIQUES,2nd ed.(Academic Press,2008)(Hermanson，《生物共轭技术》，第2版，美国学术出版社，2008年)。

本文所用的“扩增”一般指进行一次扩增反应。本文所用的“扩增子”一般指一个多核苷酸扩增反应的产物，包括多核苷酸的一个克隆群体，扩增子可以是单链也可以是双链，且可从一个或多个起始序列复制而成。一个实例中，所述一个或多个起始序列可以是同一序列的一个或多个拷贝，也可以是含有一个扩增的共同区的不同序列的混合物，例如在从某一样本提取的DNA片段的混合物中所存在的一个特异性外显子序列。也可通过单个起始序列的扩增而形成扩增子。通过多个扩增反应可产生扩增子，反应产物包括一个或多个起始核酸或目标核酸的复制物。产生扩增子的扩增反应可能是“模板驱动”，依据是反应物(核苷酸或寡核苷酸)的碱基配对在一个模板多核苷酸上有补体，这是形成反应产物的必要条件。模板驱动型反应可以是用一个核酸聚合酶延伸引物，也可以是用一个核酸连接酶连接寡核苷酸。这种反应的实例有聚合酶链式反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)、滚环扩增或利用滚环扩增形成一个单体，可专门占据一个微孔，如在Drmanac等人的美国专利中公开的。申请公开说明书2009/0137404号所公开，该说明书通过整体引用而成为本文的一部分。本文所用的“固相扩增子”一般指一种固相载体，如一个颗粒或微珠，核酸序列的一个克隆群体被附接至此载体上，该群体可通过乳液PCR之类的方法产生。

本文所用的“分析物”一般指一个分子或生物学样本，可直接影响某一区的一个电子传感器(例如，一个限定空间或反应限制区或微孔)或通过涉及位于此区的所述分子或生物细胞的一个反应的某一副产物，可间接影响这样一个电子传感器。一个实施例中，分析物可以是一种样本核酸或模板核酸，可经历一个测序反应，反过来，又可生成一种反应副产物，如一个或多个氢离子，可影响一个电子传感器。术语“分析物”还可以涵盖蛋白质、肽、核酸等分析物的多个拷贝，所述分析物被附接到固体载体，如微珠或颗粒。一个实施例中，一个分析物可以是一种核酸扩增子，也可以是一个固相扩增子。样本核酸模板可通过共价键合或某一特异性结合或偶联反应与某一表面缔合，且可衍生于一个***法片段化DNA扩增子文库(本文后续探讨的文库片段实例)或一个样本乳液PCR过程，在IonSphere^TM之类的微粒上形成克隆扩增的样本核酸模板。分析物可包括已附接到DNA片段的克隆群体上的微粒，所述DNA片段比如有基因组DNA片段、cDNA片段。

本文所用的“引物”一般指一种天然或合成的寡核苷酸，当与某一多核苷酸模板形成一个双链体后，即能作为核酸合成的一个起始点并延伸，如从其3’端沿着模板延伸，使之形成一个延伸双链体。可用一种核酸聚合酶进行引物延伸，如DNA或RNA聚合酶。所述延伸过程中所添加的核苷酸序列可取决于所述模板多核苷酸的序列。引物体长可介于14至40个核苷酸，比如介于18至36个核苷酸，或介于N至M个核苷酸，其中，N是大于18的一个整数，而M是大于N且小于36的一个整数。各实施例可应用其它合适的引物长度。在多个扩增反应中可应用引物，例如，线性扩增反应采用单一引物，聚合酶链式反应采用两种或两种以上的引物。引物长度和序列的选择指南可见于Dieffenbach and Dveksler(eds.),PCR P_RIMER:AL_ABORATORY M_ANUAL,2nd ed.(Cold Spring Harbor Laboratory Press,New York,2003)(Dieffenbach和Dveksler编，《PCR引物：实验室手册》，第2版，冷泉港实验室出版社，纽约，2003年)。

本文所用的“多核苷酸”或“寡核苷酸”一般指核苷酸单体的一种线性聚合物，可以是DNA也可以是RNA。通过单体-单体相互作用的一种规律，组成多核苷酸的单体能特异性结合一个天然多核苷酸，这种相互作用有Watson-Crick型碱基配对、碱基堆积、Hoogsteen或反Hoogsteen型碱基配对。这样的单体及其核苷间键可以是天然存在的，也可以是其类似物(如，天然存在或非天然存在的类似物)。非天然类似物的实例有PNA、硫代磷酸核苷间键、含有键合基团允许附接荧光团之类的标记或半抗原的碱基。一个实施例中，寡核苷酸指(相对)较小的多核苷酸，如有5–40个单体单元的多核苷酸。若干实例中，多核苷酸包括由磷酸二酯键键合的天然脱氧核苷(如，DNA的脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷，或RNA的核糖对应物)。不过，它们也可包括非天然核苷酸类似物(如改性碱基、糖或核苷间键)。一个实施例中，可用一系列字母(大写或小写)表示一种多核苷酸，如“ATGCCTG”，该核苷酸被理解为5’→3’从左至右顺序，且“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，“T”表示脱氧胸苷，“I”表示脱氧肌苷，“U”表示脱氧尿苷，除非另外注明或上下文暗示。每当寡核苷酸或多核苷酸的使用跟酶处理有关时，如通过聚合酶延伸或通过连接酶连接，则所述实例中的寡核苷酸或多核苷酸不可含有核苷间键的一些类似物、糖单元或任何或若干位置的碱基。除非另外注解，术语和原子编号惯例遵循以下文献的***息：Strachan andRead,H_UMAN M_OLECULAR G_ENETICS,2nd ed.(Wiley-Liss,New York,1999)(Strachan和Read，《人类分子遗传学》，第2版，Wiley-Liss出版社，纽约，1999年)。多核苷酸的大小可介于几个单体单元(如5–40)至几千个单体单元之间。

例如，本文所用的“限定空间”(或“反应空间”，与“限定空间”可互用)一般指某一分子、液体和/或固体的至少若干部分可在其中受限、保留和/或定位的任何空间或区域(可为一维、二维或三维)。各实施例中，所述空间可以是一个预定面积(平坦区域)或容积，且可限定于一块微孔板、微量滴定板、酶标仪或芯片中或与之相关的一个凹陷或一个微加工孔。根据液体或固体的一个量，还可确定所述面积或容积，例如，沉积于一块面积或容积上的液体或固体，该液体或固体另外限定一个空间。例如，大体上憎水性表面上的孤立憎水区可提供限定空间。一个实施例中，限定空间可以是一个反应腔，如一个孔或微孔，该反应腔可在芯片里。一个实施例中，限定空间可以是无孔基材上的一块基本平坦的区域。限定空间可包含或暴露于核苷酸结合中所用的酶和试剂。

本文所用的“反应局限区”或“反应腔”一般指某一反应受限的任何区域，且包括一个“反应腔”、一个“孔”或一个“微孔”(均可互用)。反应局限区可包括这样一个区域，其中一种固体基材的某一物理或化学属性可允许某一目标反应的定位。若干实施例中，反应局限区可包括某一基材表面的一块不连续区域，可特异性地结合一种目标分析物(如具有跟该表面共价键合的寡核苷酸或抗体的一块不连续区)。反应局限区可以是中空的，也可以有边界分明的形状和容积，可制成基材。若干实施例中，上述后几类反应局限区在本文中可指微孔或反应腔，可采用任何合适的显微制作技术制作，且可具有容积、形状、宽深比(如底面宽度与孔深之比)及其它可根据特定应用而选择的尺寸特征，包括所发生的反应的性质以及所用的试剂、副产物和标记技术(如有)。例如，反应局限区还可以是无孔基材上的基本平坦的区域。各实施例中，可采用任何合适的业内已知的制作技术制作微孔。以下专利公开了微孔或反应腔的示例性构型(如间距、外形和容积)：Rothberg等人，美国专利公开说明书2009/0127589号和2009/0026082号；Rothberg等人，英国专利申请公开说明书GB 2461127号；和Kim等人，美国专利7,785,862号，这些专利均通过整体引用而成为本文的一部分。

可将限定空间或反应局限区排列为一个阵列，所述阵列基本上是一个传感器或孔之类的单元的一维或二维平面排列。二维阵列的列(或行)数可以相同也可以不同。若干实施例中，所述阵列至少由100000个腔组成。例如，反应腔可有一个横向宽度和一个竖向深度，其宽深比约为1:1或更小。若干实施例中，反应腔的间距不大于约10微米，且每一反应腔的容积不大于10立方微米(即1皮升))，或不大于0.34皮升，或不大于0.096皮升，或在若干实例中，不大于0.012皮升。例如，一个反应腔顶部的横截面面积可以是2²、3²、4²、5²、6²、7²、8²、9²或10²平方微米。若干实施例中，所述阵列可以至少有10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹或更多个反应腔。所述反应腔可与chemFET偶联。

限定空间或反应局限区，无论是排成一个阵列还是排成其它构型，均可与至少一个传感器有电气接触，以便检测或测量一个或多个可检出或可测量的参数或特征。所述传感器可将反应副产物的有无、浓度或含量的变化(或反应物的离子特性的变化)转化为一个输出信号，该信号可被电子记录为电压或电流的变化，反过来，所述电压或电流变化又可经过处理，提取某一化学反应或理想缔合事件的有关信息，所述事件的一个例子就是核苷酸结合事件。所述传感器至少包括一个化学敏感场效应晶体管(“chemFET”)，所述晶体管经配置可生成至少一个跟某一化学反应的特性或邻近的目标分析物有关的输出信号。所述特性可包括某一反应物、产物或副产物的浓度(或浓度变化)，或某一物理特性如离子浓度的值(或该值的一个变化)。例如，某一限定空间或反应局限区的酸碱度的一次初始测量或检测可以表示为可数字化的一个电信号或一个电压(如，转化为该电信号或电压的一个数字表达形式)。各实施例中，可认为这些测量和表达形式是原始数据或一个原始信号。

本文所用的“核酸模板”(或“测序模板”，可与“核酸模板”互用)一般指一个核酸序列，所述序列是一个或多个核酸测序反应的靶物。一个核酸模板序列可包括一个天然或合成的核酸序列。一个核酸模板序列还可包括来自某一目标样本的一个已知或未知的核酸序列。各实施例中，核酸模板可以附接至一个固体载体，如微珠、微粒、流通池或其它任何表面、支架或对象。

本文所用的“片段文库”一般指一系列核酸片段，其中的一个或多个片段被用作一个测序模板。有很多方式可生成一个片段文库(如通过切割、剪切、限制或将一个较大的核酸分解成较小的片段)。片段文库都可以由天然核酸生成或获取，比如来自细菌、癌细胞、正常细胞、固体组织等等。还可生成由合成核酸序列构成的文库，以形成一个合成片段文库。

本文所用的一个“分子样本区分码”(或“分子条形码”，可与“分子样本区分码”互用)一般指一个可识别或可分辨的分子标志物，可被唯一分辨并可附接至某一样本核酸、生物分子或聚合物。所述分子样本区分码可用于跟踪、整理、分离和/或识别样本核酸、生物分子或聚合物，且可设计成具有对操作核酸、生物分子、聚合物或其它分子有用的特性。分子样本区分码可由与其旨在识别的核酸、生物分子或聚合物同一种/类的物质或亚基构成，也可以由一个或多个不同的物质或亚基构成。一个分子样本区分码可由一个短链核酸构成，该核酸包括一个已知的、预定的或设计的序列。一个分子样本区分码可以是一个核酸样本区分码(或核酸条形码)，该区分码可以是一个可识别或可分辨的核苷酸序列(如，一个寡核苷酸或多核苷酸序列)。若干分子样本区分码可包括一个或多个限制性核酸内切酶识别序列或切割位点、突出端、接头序列、引物序列等等(包括特征或特性的组合)。分子样本区分码可以是一个生物聚合物样本区分码，所述区分码可包括一个或多个抗体识别位点、限制位点、分子内或分子间结合位点等等(包括特征或特性的组合)。多个不同的分子样本区分码可用于鉴别或表征同属一个公共组的样本，且可附接至、偶联或关联到核酸、生物分子、聚合物或其它分子的文库(如片段文库)。各实施例中，一个样本区分码或序列或条形码可代表一个分子样本区分码或分子条形码，可包括一组符号、组件或字符，用于代表或定义一个分子样本区分码或条形码。例如，一个样本区分码或条形码可由一个字母序列组成，所述系列定义了一个已知或预定的核酸碱基或其它生物分子或聚合物组分的序列。其它实施例可采用其它任何合适的符号和/或非字母的字母数字混排的字符。样本区分码或条形码可用于多个集合、子集和分组，例如作为一个测序循环的一部分或为了完成多重测序。样本区分码或条形码可被解读、识别、鉴别或诠释为一个序列或其它排列或共同形成单码的亚基的关系的一个函数。若干实施例中，所述样本区分码可由一系列信号组成，这些信号是由一台测序仪器按预定流序(如一个条形码对应的一个流空间)进行条形码测序时输出的，详见下文。若干实施例中，样本区分码或条形码也可包含一个或多个附加功能要素，包括质控和样本检测的关键序列、引物位点、连接接头、底物附接连接体、***体及其它任何合适的要素。

图1说明了一个可用各实施例实现的示例性核酸测序***的组件。所述组件包括由一个传感器阵列100组成的流通池、一个参比电极108、多种试剂114、一个阀组116、一种清洗液110、一个阀112、一个射流控制器118、管线120/122/126、通道104/109/111、一个废液容器106、一个阵列控制器124和一个用户界面128。所述流通池和传感器阵列100包括一个进口102、一个出口103、一个反应腔阵列107和一个流动腔105，限定试剂在反应腔阵列107上的一个流路。参比电极108可能是任何适当的类型或形状，包括具有流体通道的同心圆柱体或***通道111内腔的导线。试剂114可在泵、气体压力或其它适当方法的驱动下通过流体通道、阀和流通池，并可在流出流通池和传感器阵列100之后弃置于废液容器106内。

例如，若干实施例中，试剂114可含有dNTP，将流经通道130和阀组116，该阀组可控制试剂114经由通道109向流动腔105的流动。例如，该***可包括一个含有一种清洗液的储液器110，所述清洗液可用于洗去事先已流出的dNTP。反应腔阵列107可包括诸如孔或微孔等限定空间或反应局限区的一个阵列，通过操作，该阵列可与一个传感器阵列关联，使得各反应腔均有一个适合探测分析物或目标反应特性的传感器。反应腔107可作为单个器件或芯片与所述传感器阵列集成。该流通池可有多种设计，用于控制试剂在反应腔阵列107内的路径和流速，且可为一个微流控器件。阵列控制器124可向传感器提供偏压和定时及控制信号，并收集和/或处理输出信号。用户界面128可显示来自流通池和传感器阵列100的信息以及仪器设置和控制，并允许用户输入或设定仪器设置和控制。

若干实施例中，可配置该***，让单一流体或试剂在某一多步反应期间接触参比电极108。可关闭阀112以防在试剂流动时清洗液110流入通道109。尽管可以停止清洗液的流动，但参比电极108、通道109和微孔阵列107之间仍然可能存在不间断的流体和电连通。可能选择参比电极108以及通道109与111间接合点之间的距离，以使通道109中流动的可能扩散至通道111内的试剂几乎或者完全不会到达参比电极108。一个实施例中，可选择清洗液110连续接触参比电极108。一个实例中，这样一个构型可用于含频繁清洗步骤的多步反应。各实施例中，利用任一合适的仪器控制软件，如LabView(美国德克萨斯州奥斯汀市美国国家仪器有限公司)，射流控制器118可程控试剂114流动的驱动力和阀112与阀组116的操作，按某一预定的试剂流序将试剂输送至流通池和传感器阵列100。在预定持续时间内，以预定流速可输送试剂，并可测量物理和/或化学参数，提供有关限定空间或反应局限区如孔或微孔内发生的一个或多个反应的状态的信息。

图2A说明各实施例中某一示例性核酸测序流通池200的横截面视图和详细视图。流通池200可包括一个反应腔阵列202、一个传感器阵列205、一个流动腔206，试剂流208可在此流动腔中通过反应腔阵列202的一个表面，穿越某一反应腔的开口端。试剂流(如核苷酸种类)可有任一合适方式，包括吸移管输送、或通过跟某一反应腔相连的管道或通道输送。各试剂流的持续时间、浓度和/或其它流动参数可以相同，也可以不同。类似地，各清洗流的持续时间、成分和/或浓度可以相同，也可以不同。

反应腔阵列202中的反应腔201可以有任一合适的体积、形状和宽深比，根据一种或多种试剂、副产物、所用标记技术，可选择所述体积、形状和宽深比，而采用任一合适的制作或显微制作技术，可在层210中形成反应腔201。反应腔的形状可以是孔、微孔、通孔、比较亲和液体且作为局限区的表面部分、或任何其它合适的局限结构。传感器阵列205中的传感器214可为离子敏感性(ISFET)或化学敏感性(chemFET)传感器，带浮栅218，有一块感测板220，通过一个钝化层216与反应腔内部隔开，可响应(并生成一个相关的输出信号)与感测板220相对的钝化层216上存在的电荷量224。电荷量224的变化引起传感器214的源极221与漏极222之间的电流变化，此变化可直接用于提供一个电流输出信号，或借助附加电路间接用于提供一个电压输出信号。反应物、清洗液和其它试剂均可移入反应腔，比如通过扩散240。在反应腔阵列202的一个或多个反应腔里，可进行一次或多次分析反应，以鉴定或确定某一目标分析物的特征或特性。

若干实施例中，所述反应直接或间接生成副产物，该副产物影响感测板220的感测接近区(如邻近区)的电荷量224。一个实施例中，参比电极204可通过流体经由流动通道203连接至流动腔206。反应腔阵列202和传感器阵列205一起可形成集成单元，其形成流槽200的底壁或底板。一个实施例中，例如，固相载体212上可附接某一分析物的一个或多个拷贝，该载体可包括微米颗粒、纳米颗粒、微珠、凝胶，可为多孔固体。所述分析物可包括一种核酸分析物，含一个和多个拷贝，可通过滚环扩增法(RCA)、指数式RCA法或其它合适技术制得，以产生一个扩增子，而无需固体载体。

图2B说明了连续试剂运动之间的一个示例性均匀流锋，该运动经过各实施例中的一个示例性反应腔阵列的一个截面234。第一试剂232与第二试剂230之间的“均匀流锋”可意味着，试剂移动时，试剂未经或几乎未经混合，从而使其间的边界236狭窄。对于其流动腔的相对端有进口和出口的流通池，所述边界可以是直线，而对于具有中心进口(或出口)和外周出口(或进口)的流通池，所述边界可以是曲线。一个实施例中，可选择流通池的设计和试剂流速，使得切换试剂的过程中，新引入的每种试剂在通过流动腔时，其流动均有一个均匀流锋。

图3说明了各实施例中的一个示例性无标记、基于pH的测序过程。含序列685的模板682和引物结合位点681被附接至固相载体680。模板682可作为克隆群体附接至微粒或微珠等固相载体上，且可按以下Leamon等人的美国专利的***息制备：专利号7,323,305，通过整体引用而成为本文的一部分。一个实施例中，所述模板可与底物表面缔合，或存在于偶联或未偶联至某一载体的一种液相里。通过操作，引物684和DNA聚合酶686可结合至模板682上。本文所用的“通过操作而结合”一般意味着，某种引物在某一模板上退火，使得该引物的3'端可通过某一聚合酶而延伸，以及某一聚合酶被结合到此类引物-模板双链体上(或在其附近)，使得添加dNTP时，可发生结合和/或引物延伸。

步骤688中，添加了dNTP(显示为dATP)，而DNA聚合酶686合并一个核苷酸“A”(由于“T”是模板682中的下一个核苷酸并与流出的dATP核苷酸互补)。步骤690中，按本文说明，进行一次清洗。步骤692中，添加了下一个dNTP(显示为dCTP)，而DNA聚合酶686合并一个核苷酸“C”(由于“G”是模板682中的下一个核苷酸)。通过测量作为聚合酶催化延伸反应的天然副产物而生成的氢离子，可决定基于pH的核酸测序中的碱基掺入，进行这种碱基掺入时，至少可部分采用以下文献的一个或多个特征：Anderson et al.,A S_{YSTEM FOR} M_ULTIPLEXED D_IRECTE_LECTRICAL D_{ETECTION OF} DNA S_YNTHESIS,Sensors and Actuators B:Chem.,129:79-86(2008)(Anderson等，一种用于DNA合成的多重直接电导检测***，《传感器和执行器B：化学》，129期，79-86页，2008年)；Rothberg等，美国专利申请公开说明书2009/0026082号；和Pourmandet al.,D_IRECT E_LECTRICAL D_{ETECTION OF} DNA S_YNTHESIS,Proc.Natl.Acad.Sci.,103:6466-6470(2006)(Pourmand等，DNA合成的直接电导检测，《美国科学院学报》，103期，6466-6470页，2006年)，这些文献通过整体引用而成为本文的一部分。一个实施例中，每次添加dNTP后，可以增加一个步骤，用一种dNTP破坏剂(如三磷酸腺苷双磷酸酶)处理反应腔，以消除任何残留在腔室中的dNTP，而dNTP残留可能导致后续循环中的假延伸。

一个实施例中，按预定或已知的序列或排序，引物-模板-聚合酶复合体可接触一系列不同的核苷酸。当掺入一个或多个核苷酸时，可检出掺合反应产生的信号，而且经过添加核苷酸、延伸引物和采集信号等几次循环后，可确定模板链的核苷酸序列。一个实例中，这一过程全程测量的输出信号取决于核苷酸掺入的次数。尤其在每个附加测序步骤中，当模板中的下一个碱基与所添加的dNTP互补时，聚合酶通过掺入所添加的dNTP而延伸引物。有一个互补碱基，就有一次掺入；有两个互补碱基，则有两次掺入；有三个互补碱基，则有三次掺入，以此类推。随着每次掺入，氢离子被释放，且所释放的氢离子群体共同地改变反应腔的局部pH。

一个实施例中，氢离子的产生与模板中的连续互补碱基的数目(以及具有参与延伸反应的引物和聚合酶的模板分子的总数)单调相关。因而，当模板中有一系列连续一样的互补碱基(可代表一个均聚物区)时，所生成的氢离子的数目和局部pH变化幅度正比于连续等同的互补碱基的数目(而对应的输出信号有时被称为“单聚体”、“二聚体”、“三聚体”输出信号等)。若模板中的下一个碱基不是所添加的dNTP的互补物，则不发生掺入，也不释放氢离子(且此时的输出信号有时被称为“零聚体”输出信号)。若干实例中，所述循环的每一清洗步骤里，可用预定pH的未缓冲清洗液除去上一步的dNTP，以防后续循环中发生误掺入。核苷酸至某一反应容器或反应腔的输送可被称为核苷酸三磷酸酯(即dNTP)的“流动”。为方便起见，有时将dATP流称为“A的流动”或“A流”，而一系列流动可表示为一个字母序列，如“ATGT”表示“dATP流，随后依次为dTTP流、dGTP流和dTTP流”。

一个实施例中，将四种不同的dNTP依次添加到反应腔中，使得每个反应暴露于这四种不同的dNTP中，一次一种。一个实施例中，按以下顺序添加这四种不同的dNTP：dATP、dCTP、dGTP、dTTP、dATP、dCTP、dGTP、dTTP等，而暴露、掺入和检测步骤之后是一次清洗步骤。暴露于核苷酸，随即一步清洗，此过程可视为一次“核苷酸流”。若干实例中，连续四次核苷酸流可视为一个“循环”。例如，两循环的核苷酸流序可如下表示：dATP、dCTP、dGTP、dTTP、dATP、dCTP、dGTP、dTTP，而每次暴露的后续步骤是清洗。可实施不同流序，详见下文。各实施例中，预定序列或排序可依据预定试剂流序的连续重复的循环反复规律(如四种核苷酸试剂的预定序列的连续反复，如“TACG TACG.。.”)，也可依据随机试剂流序，或者依据全部或部分由以下文献所述的一种保相试剂流序构成的排序：Hubbell等，美国专利申请号13/440,849，2012年10月28日作为美国专利公开号2012/0264621发布，题为PHASE-PROTECTINGREAGENT FLOW ORDERINGS FOR USE IN SEQUENCING-BY-SYNTHESIS(《用于边合成边测序的保相试剂流序》)，通过整体引用或其若干组合的引用而成为本文的一部分。其它实施例中，可用类似方式实施有标记的、基于pH的测序。

图4说明了各示例性实施例中用于获得、处理和/或分析多重核酸测序数据的一个示例性***。该***包括一台测序仪器601、一台服务器402和一台或多台终端用户计算机405。经配置，测序仪器401可处理含条形码的样本或按本文详述的预定顺序输送试剂。所述预定顺序可依据预定试剂流序的连续重复的循环反复规律(如四种核苷酸试剂的预定序列的连续反复，如“TACG TACG.。.”)，也可依据随机试剂流序，或者依据全部或部分一种保相试剂流序构成的排序，或依据其若干组合。一个实施例中，条形码至少可部分地确定为所述排序的一个函数。例如，条形码可由流空间设计的条形码组成，按预定流序设计，详见下文。可连同本公开说明书的条形码一起使用的示例性测序仪器包括但不限于Ion PGM^TM、IonProton^TM、Ion S5^TM和Ion S5 XL Next Generation^TM测序***。具备业内普通技术的人士会对以下事实感到欣慰：其它测序仪器和平台，如各种荧光团标记的核苷酸测序平台，也可同本公开说明书的条形码一起使用。

服务器402可包括一个处理器403和一个存储器和/或数据库404。测序仪器401和服务器402可包括一种或多种可机读的介质，用于获取、处理和/或分析多重核酸测序数据。一个实施例中，所述仪器和服务器或其它计算手段或资源可经配置，作为单一组件。这些组件中的一个或多个可用于执行本文所述的全部或部分实施例。

若干实施例中，按本公开说明书，条形码由某一容错码的码字组成，其中的码字表现于流空间(如包括数字、字符或对应于核苷酸掺入次数的若干其它符号，该掺入是预定核苷酸流的响应)而非碱基空间。

各示例性实施例中，采用边合成边测序的方法可确定一个序列且/或鉴定一个或多个核酸样本。边合成边测序过程中，通过在某一目标核酸(其序列和/或一致度待定)上逐步合成互补性核酸链，可确定该目标核酸的序列，所述核酸链被用作合成反应的一个模板，例如，借助一个聚合酶延伸反应，该反应一般包括形成含有一个模板(或目标多核苷酸)、一种退火引物和一种聚合酶的一种复合体，通过操作，该聚合酶与引物-模板混合体偶联或缔合，以便能够往引物掺入一种核苷酸(如，核苷三磷酸酯、核苷酸三磷酸酯、前体核苷或核苷酸)。边合成边测序过程中，跟模板多核苷酸分子或链互补的位置处，可依次添加核苷酸至在那里生长中的多核苷酸分子或链。可用多种方法(如，焦磷酸测序、荧光检测、无标记电子探测等等)检测生长中的互补链，向其中添加核苷酸，可用于鉴定所述模板核酸的序列组成。可迭代这一过程，直至已合成一种全长或选定长度的模板互补序列。

如上所提，各实施例中，对于可生成、处理和/或分析的数据和信号，可用电子或电荷型核酸测序获得。在基于电子或电荷的测序(例如基于pH的测序)中，可通过检测作为聚合酶催化的核苷酸延伸反应的天然副产物而产生的离子(例如氢离子)来确定核苷酸掺入事件。这可用于对样本或模板核酸进行测序，所述样本或模板核酸可以是目标核酸序列的一个片段，并且可作为克隆群体直接或间接地附接到一种固相载体，如颗粒、微粒、微珠等等。通过操作，所述样本或模板核酸可跟某一引物和聚合酶缔合，并可经历脱氧核苷三磷酸酯(“dNTP”)的添加和清洗的反复循环或“流动”。引物可退火到样本或模板，以便只要加入与模板中下一个碱基互补的dNTP，该引物的3'末端即可通过某一聚合酶得到延伸。根据核苷酸流的已知序列以及每个核苷酸流中的离子浓度的实测指示信号，可确定与反应腔中的样本核酸缔合的核苷酸的类型、序列和数量的一致度。

图5显示一个表示可实现碱基响应的信号的示例性电离图。本例中，x轴显示的是流出的核苷酸，而通过将y轴示值四舍五入取整，可估计对应的核苷酸掺入次数。在建立碱基响应和确定测序数据(如流空间矢量)中所用的信号可来自对测序操作所接收的数据信号进行采集或处理的过程中的任何合适时间点。例如，所述信号可以是原始采集数据或已被处理过的数据(如，通过背景过滤、归一化、信号衰减修正、以及/或者相差或相效修正等等)。通过分析任何合适的信号特征(如信号幅度、强度等等)可建立碱基响应。

各实施例中，若知道流出的预定核苷酸和获取这些信号的顺序，则可进一步处理因核苷酸掺入而产生的输出信号，以建立针对流动的碱基响应，并将跟某一样本核酸模板相关联的连续碱基响应编译为读数。碱基响应指特定的核苷酸鉴定，如，dATP(“A”)、dCTP(“C”)、dGTP(“G”)或dTTP(“T”)。碱基响应可包括执行一次或多次信号归一化、估计信号相位和信号软化(如，酶失效)及修正信号，且可鉴定或估计每一限定空间的每个流动的碱基响应。碱基响应可包括执行或实施以下文献所公开的资料的一项或多项：Davey等，美国专利申请号13/283,320，2012年5月3日作为美国专利公开号2012/0109598发布，题为PREDICTIVE MODEL FOR USE IN SEQUENCING-BY-SYNTHESIS(《用于边合成边测序的预测模型》)，通过整体引用而成为本文的一部分。信号处理和碱基响应的其它方面可包括执行或实施以下文献所公开的资料的一项或多项：Davey等，美国专利申请号13/340,490，2012年7月5日作为美国专利公开号2012/0173159发布，题为METHOD,SYSTEM,AND COMPUTERREADABLE MEDIA FOR NUCLEIC ACID SEQUENCING(《用于核酸测序的方法、***和可机读介质》)；Sikora等，美国专利申请号13/588,408，2013年3月7日作为美国专利公开号2013/0060482发布，题为METHOD,SYSTEM,AND COMPUTER READABLE MEDIA FOR MAKING BASECALLS IN NUCLEIC ACID SEQUENCING(《核酸测序中用于建立碱基响应的方法、***和可机读介质》)，上述文献均通过整体引用而成为本文的一部分。

图6A和6B演示了一个碱基空间序列与一个流空间矢量之间的关系。代表掺入次数(如，流出dNTP至多聚核苷酸的掺入)或缺少掺入(如，零聚体、单聚体、二聚体等)的一系列信号(如，有多核苷酸时，流动dNTP产生)可被称为一个流空间矢量、序列或字符串。一个实施例中，流空间矢量、序列或字符串可包括一系列代表掺入的符号(如，0、1、2、3等等)。当预定流序连同一个流空间矢量为已知时，可产生至碱基空间的翻译。例如，给定掺入数(如，0、1、2或3)和特定的流出dNTP(如A、G、T、C)，则所翻译的碱基空间可包括一个跟流出并掺入的dNTP互补的碱基，其中连续重复碱基的个数可跟流空间矢量指示的掺入数(如2或更多)一致。

一个实施例中，采用任一合适的核苷酸流序可产生流空间矢量，该流序包括基于预定试剂流序的连续重复的循环反复规律、基于一个随机试剂流序、或基于全部或部分包括一个保相试剂流序的一个排序的一个预定排序，或其若干组合。图6A和6B中，示例性碱基空间AGTCCA经历采用TACG循环流序的测序操作。流动产生一系列信号，信号振幅(如信号强度)与核苷酸掺入数(如，零聚体、单聚体、二聚体等)有关。该系列信号生成流空间矢量101001021。如图6A所示，在TACG--循环排序下，碱基空间序列AGTCCA可翻译成流空间矢量101001021。如图6B和本文详述，流空间矢量可映射回碱基空间序列，预定流序下，该序列跟样本有关联。

条形码

各实施例中，样本区分码或条形码可包括或对应于(无论直接还是间接)核苷酸序列、生物分子成分和/或亚基的序列、或聚合物成分和/或亚基的序列。一个实施例中，样本区分码或条形码可对应于核酸中的单一核苷酸的一个序列，或生物分子或聚合物的亚基，或对应于这些核苷酸或亚基的集合、组或连续或不连续序列。一个实施例中，样本区分码或条形码也可对应于(无论直接还是间接)核苷酸、生物分子亚基或聚合物亚基之间的转换，或用于形成样本区分码或条形码的亚基(如接头、关键碱基等等)之间的其它关系。

各实施例中，样本区分码或条形码可具有这样的特性，使其被测序、识别、鉴定或解读，对给定的码型、长度或复杂度有更高准确度和/或更小出错率。一个实施例中，可将样本区分码或条形码设计为单一样本区分码或条形码的一个集合(可包括子集)。若干实施例中，某一集合(或该集合的一个子集)中的一个或多个样本区分码或条形码的选择可基于一个或多个准则，以便在这些码的读序、识别、鉴定、区分或解读方面提高准确度和/或减小出错率。

各实施例中，可设计样本区分码或条形码，呈现高逼真度读序，根据经验测序量值可评估此读序。逼真度可基于对具有特定核苷酸序列的样本区分码或条形码的读序准确度的预测。可避免一些已知会引起读序不清、错误或测序偏差的核苷酸序列。设计可基于对样本区分码或条形码(和相关样本或核酸群体)的准确响应，即使有一个或多个错误。各实施例中，逼真度可基于对样本区分码或条形码正确测序的概率，此概率至少为82％、85％、90％、95％、99％或更大。

各实施例中，可设计样本区分码或条形码，对采用边合成边测序平台的测序(如前探讨)呈现较高的读序准确度，此类平台可包括荧光团标记的核苷酸测序平台或无标记的测序平台，诸如Ion PGM^TM和Ion Proton^TM测序仪、Ion S5^TM和Ion S5XLNext Generation^TM测序***。不过，样本区分码或条形码和特异性序列的设计不限于任何特定的仪器平台或测序技术。就非核酸码而言，可用业内已知的方法对样本区分码或条形码进行测序、鉴定、解读或识别，此类方法包括蛋白样本区分码的氨基酸测序。

各实施例中，设计手段可包括运用一系列样本区分码或条形码约束或准则，实现理想特性或性能。这样的约束或准则可包括一个或多个核酸条形码序列的唯一性，和其与其它核酸条形码序列的分离度。一个条形码集合可以是条形码的一个嵌套集合，可基于一个或多个设计准则。一个实施例中，嵌套条形码集合的设计可类似于Matryoshka嵌套，使得某一子集的特性完全包含于一个种属集合的特性。例如，符合一定特性(如较高的测序逼真度)的首个条形码子集可从符合同样特性的某一较大的条形码集合中选择。例如，若一个条形码集合由96个可唯一鉴别的条形码组成，则对于仅含16个多重测序样本的一个测序试验，可从96个可用条形码中选择一个含16个条形码的子集。从而可将这一含16个条形码的子集优化至类似于从96个条形码组成的全集中选出的一个含32或48个条形码的较大子集。一个实施例中，可将条形码设计为一列有序的嵌套条形码。一个实施例中，可将条形码(如一个96码集合)如下排序：具有一个首码，一个在合适距离度量下离首码最远的次码(剩余95码中的一码)，一个在合适距离度量下离首码和次码最远的第三码(剩余94码中的一码)，依此类推，直至所述条形码都已排好序。

各实施例中，样本区分码或条形码可与某一目标序列结合，这种情况下有助于唯一鉴定或区分不同的目标序列。例如，目标序列可为来自任何目标源的任一类序列，包括扩增子、候选基因、突变热点、单核苷酸多态性、基因组文库片段等。例如，在样本制备过程中的任一时间点，采用PCR扩增、DNA连接、细菌克隆等技术，通过操作，可将样本区分码或条形码序列偶联至目标序列。样本区分码或条形码序列可包含于寡核苷酸，并采用任一合适的DNA连接技术与基因组文库片段连接。

各实施例中，样本区分码或条形码的长度可各异。例如，基于待鉴定的样本数量，可选择样本条形码的长度。各实施例中，对于样本数为16的多重测序试验，16个可唯一鉴定的条形码可足以唯一鉴定各样本。类似地，对于样本数为64或96的多重测序试验，64或96个条形码可分别足够。

若干组态可利用较长的码或较大的条形码，以便得到较大的多重测序数。虽然较长的条形码会允许鉴定较多的样本，但若干情形下，这些较长的条形码可能有不足。例如，边合成边测序中，较长条形码需要额外的核苷酸流，若较早的流动中的测序趋于最准，则这可降低准确度。此外，若某一测序***有一个长度准则(如200个碱基对)，则较长的条形码可占据较多的测序空间。因此，可要求附加于条形码的目标片段符合较小长度准则(如，较长的条形码更适用于对较短的靶标进行测序)。

各实施例中，可基于上述一个或多个准则(可单选或组合)，设计样本区分码或条形码。基于测序试验，可选取不同的准则组合。例如，若较少的样本需用到条形码，则不一定要将此条形码设计为具有嵌套子集。基于样本数、目标准确度、测序仪器的单样本检测灵敏度、测序仪器的准确度等等，可选择设计准则。

各实施例中，本文所述样本区分码或条形码可以任何适当方式用于帮助鉴定或分辨样本。例如，可单用条形码，也可组合使用两个或两个以上的条形码。一个实施例中，单个条形码可鉴定一个或多个目标序列。例如，单个条形码可鉴定一组目标序列。一个条形码的读序可与目标序列分开，或作为涵盖条形码和目标序列的较大的读序操作的一部分。条形码可定位于样本内的任一适当位置，包括某一目标序列的前后。

条形码设计和流空间

各实施例中，可基于一个流空间，设计样本区分码或条形码。换言之，可至少部分基于流空间矢量(如作为一个流序函数)，设计条形码。例如，样本区分码或条形码的设计可基于对流空间内的投射，作为选定或预定核苷酸流序下的一个流空间矢量。另一实例中，可生成一系列流空间矢量，然后可将这些矢量翻译成碱基空间(如按预定流序)，以便产生条形码序列。

一个实施例中，一个条形码流空间矢量可由一串符号组成(如一串数字或字符，如0、1、2等等，分别代表无掺入、单聚体掺入、二聚体掺入等等)，是对按预定排序流出或引入的核苷酸流的响应。各实施例中，流空间串或矢量可代表或对应于某一容错码(如一个纠错码)的一个码字。一个纠错码中，一串字符可使得被引入该串(如测序期间)的错误可基于该串中的剩余字符被检出和/或纠正。一个纠错码可由给定的字符单元的有限字母表Σ上可被称为码字的不同字符串的一个集合组成。一个码字可被视为包括一个报文加上若干冗余数据或奇偶校验数据，让解码器正确解码某一含有一个或多个错误的码字。码字可设计为足够相互区分，允许在一个码字的传输中检测到容许数量的错误，而且在若干情形下，通过计算哪个实际码字离接收的码字最近而纠正这些错误。

各实施例中，可采用任一合适类型的纠错码设计样本区分码或条形码。纠错码可为一个采用字符单元字母表Σ的线性块码，其每一码字均有n个编码字符单元。可将冗余和/或奇偶校验数据添加至某一报文(如该码字的子集)中，让接收器检测和/或纠正所传输的一个码字中的错误，并采用某一合适的解码算法恢复原有报文。例如，在边合成边测序中，当某一条形码已被测序且作为一个流空间串被投射进流空间内时，可认为一个报文串被“传输过”。

各实施例中，可采用码字母表中的不同数量的字符单元，设计样本区分码或条形码，该字母表可因特定应用而异。纠错码可为一个二进制码，采用两字符单元的一个字母表。纠错码可为一个三进制码，采用三字符单元的一个字母表。一个实施例中，字符单元数可取决于条形码序列中所允许的最长均聚物序列的长度。例如，若一个条形码仅有单聚体(无重复碱基)，则纠错码可为一个二进制码，含一个代表无掺入的字符和另一个代表单碱基掺入的字符(如，这样一个二进制码的字母表Σ可为{0,1})。另一例中，若所述条形码仅有单聚体和二聚体，则纠错码可为一个三进制码，含同样的代表无掺入的字符和代表单碱基掺入的字符以及第***双碱基掺入的字符(如，这样一个三进制码的字母表Σ可为{0,1,2})。若条形码序列有三聚体、四聚体等等，则对其它码字母表所用字符的大小和集合，可适当修改。

各实施例中，可采用一个至少部分基于汉明码、格雷码和或tetracode码的纠错码设计样本区分码或条形码。一个实施例中，纠错码可为一个二进制汉明码、一个二进制格雷码、三进制汉明码、一个三进制格雷码及/或其它任何合适的码。参见Hoffman et al.,Coding Theory:The Essentials,Marcel Dekker,Inc.(1991)(Hoffman等，《基础编码原理》，Marcel Dekker出版社，1991年；和Lin et al.,Error Control Coding:FundamentalsAnd Applications,Prentice Hall,Inc.(1983)(Lin等，《控错编码：基本原理和应用》，Prentice Hall出版社，1983年)。

各实施例中，可将样本区分码或条形码设计成具有流空间内表达的容错特性。换言之，测序错误可与条形码按预定流序进行的流空间表现形式中的错误数字或字符有关(如，本该位于流空间表现形式中的“1”或“单聚体”却出现了错误的“0”或“零聚体”)。例如，可这样设计一个单碱基(流空间内)容错条形码集合，使得如果在该集合的一个或多个条形码的流空间表现形式中的任一位置遇到一个测序错误，则每个条形码仍可与该集合中的其它条形码分辨开来，因为它们的流空间表现形式至少在两个数字位均不同于该错误条形码的流空间表现形式；这样一来，若这两个数字位中有一处出错，则其它数字位仍然可用，允许区别条形码。也可这样设计该集合，使得即使在流空间内有多个错误(如2、3等)，也能够区分其中的条形码。在有潜在的测序错误的情况下分辨复杂的多重测序样本的时候，这样的容错特性有助于提供较高的置信度(如准确度)。可比较一个集合中的候选条形码，以确证流空间内的容错性。例如，可比较这样的条形码(如通过计算机分析或模拟)，以确定若流空间内发生任一错误(或2、3等，因准则而异)是否仍可分辨这些码。另一例中，可比较候选的流空间码字(如按某一预定流序翻译为候选条形码序列的码字)，以确证容错性。

可用各种算法和/或软件工具帮助生成纠错码。编码策略开发中可纳入一系列不同的设计思路。如本文解释，对给定流序，条形码序列与流空间码字有相互映射关系。因而，跟条形码序列有关的设计或选择准则可被翻译成对应的流空间编码设计/选择准则。同样，跟流空间编码有关的设计/选择准则可被翻译成对应的条形码序列设计/选择准则。

各实施例中，可采用能评价码字间距的一个或多个距离度量，设计样本区分码或条形码。一个实施例中，距离度量可为汉明距离，对应于两码字相异的位置的数量。从数学角度看，若一个码字集中的每一个码字跟该集的其它所***字之间的汉明距离至少为d，那么该码可纠正至多(d-1)/2个错误，反之，至多可解码x个错误的汉明距离d为2x+1。可将量d称为最小码距。记号[n,k,d]可用于表征长为n位的纠错码，该码对k个信息位进行编码且有最小距离d。例如，可用其它距离度量，包括欧几里得距离度量、两码字的对应输入项之差的绝对值之和、两码字的对应输入项的平方差之和。各实施例中，采用这样的距离度量，可让码字间距得以在流空间内评价。

各实施例中，可设计样本区分码或条形码，使之有一个最小距离为五的纠错码，最多能纠正码字内的两位错误。另一个实施例中，纠错码可有的最小距离为三且能纠正码字内的个位错误。若干实例中，某一软件算法或方法将某一候选组内的每个码字与该组内其它所***字进行比较，以构建一个维持理想的最小距离且有理想的纠错能力的最大码字集，可用这样的算法或方法选择或组合包括纠错码的码字。可将码字(或对应条形码)进一步分成子集，单独使用时，这些子集可纠正多个流空间错误(如，两个或两个以上的错误)。这使得一个条码集至少可纠正两个流空间错误。采用三进制编码方案可在流空间内生成条码集(如在流空间内的给定流中，可视条形码有0、1或2个掺入)。

各实施例中，可设计样本区分码或条形码，使之鉴别流空间而非碱基空间内的读序，这对边合成边测序有效，且有助于避免过多的流，从而减少错误积累和测序能力的损耗。若干情形下，汉明距离在碱基空间内的效果不差。例如，序列起始端的单碱基***(如ACGT至AACGT)将得到汉明距离3(尽管***/缺失距离仅为1)。而且，当配对位元把一个二进制码翻译为4个字母时，错误自动地同时影响两个位元，且不保证1位的一次纠错可纠正碱基读序中的1个错误。而且，常规的条形码设计未必适当地对测序错误模体寻址。一个实施例中，可为了有用的生物学特性而选择码字。

若干实施例中，可围绕一个被映射到特定的预定流序中的三进制汉明码，设计样本区分码或条形码。例如，此码可为一个[n＝13,k＝10,d＝3]三进制汉明码；此映射可取头10个“三进位”(如三进制码符号0、1和2)并将它们分配给预定流序(如，流9-18)的若干流，再取三个“奇偶校验”三进位并将它们分配给其它流(如19-21)。若干实施例中，最终同步流就是一个单聚体(如流22处的一个‘C’)，结果，若被指定为零，则码字的终止流为零。汉明码下生成的若干码字可以不是可容许的流空间表示形式(如，它们可以是流空间内有效的数学码字，按一定的预定流序，不对应碱基空间内的一个可能的核酸序列)。可将这些码字过滤。若干实施例中，可进一步过滤码字，使之仅包括理想长度(如9-15个碱基)的码字。

若干构型中，一个多重测序应用利用一个可纠正流空间串中的两个错误的含96个条形码的集合，有若干空间容许因有问题的条形码而造成的潜在损失，并有一个预定流序TACG，然后依次为TACG、TCTG、AGCA、TCGA、TCGA、TGTA、CAGC；对于这样的应用，可采用一个13位长的三进制汉明码生成一个条形码序列集，该码的十个位被当成数据，该码的三个位被当成码字奇偶校验。此特定编码方案得到可纠正最多两个错误的大约140个码字。

一个实例中，可这样选择条形码，使之长9-11个碱基，并设计用于Ion PGM^TM测序仪多重测序所用的寡核苷酸。本例寡核苷酸含有如下顺序的成分：一个引物位点、一个用于质控和样本检测的TCAG关键序列(如关键碱基)、一个唯一的条形码序列、条形码序列的3’端的一个同步共用C碱基(以确保，若被指定为零时，码字终止流为零)、条形码与***体之间的一个GAT缓冲区(以最大限度减小可变条码区对接头连接的影响)。同用于Ion PGM^TM测序仪的P1接头一样，该GAT缓冲区是后三个碱基。下面表1的信息是按所生成的条形码的序列号整理的。第二列显示关键序列、条形码序列和共用C碱基。第三列显示条形码序列和共用C碱基。第四列显示组合序列单元对流空间内的投射。表中，碱基和对应于条形码的流空间矢量单元均用粗体显示。流空间映射中，流1-8被分配给关键序列(即，流1＝T、流2＝A、流3＝C、流4＝G、流5-8重复流1-4)，流9-18被分配给条形码的数据位(即，流9＝T、流10＝C、流11＝T、流12＝G、流13＝A、流14＝G、流15＝C、流16＝A、流17＝T、流18＝C)，而流19-21被分配给奇偶校验位(即，流19＝G、流20＝A、流21＝T)。因为在本例中，所有条形码的后面都紧接着一个共用C碱基，流22(即，流22＝C)用作同步。一个实施例中，预定流序可包括这些22个流和附加的流，使得流序由32个流的一个重复系列组成(即，流23＝G、流24＝A、流25＝T、流26＝G、流27＝T、流28＝A、流29＝C、流30＝A、流31＝G、流32＝C)。也可实行本文所述的其它合适的流序。其它实施例中，密钥、同步碱基和/或缓冲区可不同。

表1–示例性条形码和空间内的投射。

各实施例中，可围绕采用值0、1、2的一个[n＝11,k＝6,d＝5]三进制格雷码，设计样本区分码或条形码。该码有729(即3⁶)个不同的码字，长度为11，码字间距为5，纠正2个错误。可线性、循环或采用任一合适方法，如通过一个生成器矩阵或一个生成器多项式，生成所述码字。其它实施例中，用于条形码(或流空间码字)的关键碱基(或流)的变化和终止碱基(如终止“C”碱基和/或对应的终止“1”流)的变化可生成用于多重反应的额外条形码。例如，若共用关键碱基(或流)和一个终止静态碱基的使用限制了用于多重测序的合格条形码序列的个数(如，至多为96或384个条形码序列)，则这些特性的变化可生成较多的用于多重测序的条形码序列(如，至少1000个条形码序列)。

图7说明了一个用于设计对应于流空间码字的条形码序列的示例性方法。步骤7002中，可生成多个潜在的流空间码字。例如，一个生成器函数可生成一个潜在的流空间码字集，采用一个长度为13位的三进制[n＝13,k＝10,d＝3]汉明码，其中十位被当成数据，而其中的三位被当成码字奇偶校验。所生成的潜在码字数可包括n^k，本例中为3^10。所生成的流空间码字可包括一个有序的字符系列，如字母数字混排的字符或其它符号。对汉明码或格雷码的其它组态，可类似实施。可线性、循环或采用任一合适方法，如通过一个生成器矩阵或一个生成器多项式，生成所述码字。

步骤7004中，可确定一个位置，用于潜在流空间码字内的一个填充字符。例如，若干构型中，可将一个碱基，如一个填充碱基，附接到条形码末端，以辅助测序。流空间内，按预定流序，填充碱基可对应于一个填充流。例如，填充碱基可包括一个“C”碱基，按预定流序，对应的填充流(或字符)可包括一个“1”。这些构型中，流空间码字末尾可附接一个终止“1”，类似地，对应的条形码序列的末端可附接一个终止C碱基。例如，若所生成的流空间码字由13个字符组成，那么在加入填充字符后，该码字可包括14个字符。一个实施例中，预定流序可包括基于一个流序循环反复规律、基于一个随机流序、或基于全部或部分包括一个保相流序的一个排序的一个顺序，或其若干组合。

若干实施例中，可移动填充字符，使其不在某一码字的终止流(且对应的填充碱基不是某一条形码序列的终止碱基)。重新定位填充字符/碱基这一灵活性将产生一系列潜在的位置选择，使之可获得设计效益。例如，将填充字符***选定位置的一个13-字符的流空间码字，可增加按预定流序映射到一个有效碱基空间序列的码字的个数。根据流出的已知dNTP试剂和试剂掺入状态(如，0、1、2等)，按预定流序可确定对应的用于流空间码字的碱基空间序列。虽然所翻译的序列可有不同的碱基长度，但基于对应的同步流空间码字，它们仍可在流空间内同步。

一个实施例中，按预定流序，若干码字未能翻译成一个有效的碱基空间序列。一个实例中，给定流序“A”“G”“A,”，一个流空间串(或矢量)101不会翻译成一个有效的碱基空间。这里，第二次掺入(如101中的1的第二次出现)不会翻译成有效的碱基序列。例如，若条形码中出现两个“A”而无一个间隔碱基，则“A”的首流将展现一个二聚体(如，会呈递一个流空间值2)，因而不可能呈递第二次掺入。可实施其它方法，以确定无效的碱基空间翻译。

一个实施例中，在码字的不同位置***填充字符，可提供一个调整，使得先前未能映射到一个有效的碱基空间序列的多个码字在***后成功映射至一个有效的碱基空间序列。若干实例中，可选择导致最多码字的位置，该码字对应于有效的碱基空间序列。这里，对于所生成的码字，所选的填充碱基***位置可一致，以便保留码字的距离性(如，保留用于生成码字的距离性)。

一个实施例中，确定填充字符在流空间码字内的位置，可包括在填充字符在码字内的多个位置处的迭代，使得在迭代位置将填充字符***到码字的基础上，可计算每一位置的码字数量，按预定流序，该码字对应于有效的碱基空间序列。例如，给定一个长度为13的码字，存在14个可能的填充字符位置(即，第一个字符前，第一和第二个字符之间，依此类推)。这里，可设计一个算法，使得填充字符被迭代***这14个可能位置，而且对每次迭代，可计算在迭代位置***填充流后的码字的数目，所述码字映射至有效的碱基空间序列。例如，此算法可确定在迭代位置***后，码字是否按预定流序映射到一个有效的碱基空间序列。接着针对每个迭代位置，可计算映射至有效的碱基空间序列的这些码字的个数。

一个实施例中，对给定迭代位置的流空间码字(按预定流序映射至一个有效的碱基空间序列)数量的计算，还包括确定对应于流空间码字(在迭代位置***填充字符后，映射至有效的碱基空间序列)的碱基空间序列。若干实施例中，所计算的码字数量可包括所确定的碱基空间序列的数量。其它实施例中，可进一步过滤所确定的碱基空间序列。例如，按照一个或多个序列长度准则和核苷酸百分含量(如GC含量)及其它合适准则，可过滤所确定的碱基空间序列。例如，一个序列长度准则可包括9-11或9-14个碱基，且可过滤所确定的大于准则要求的碱基空间序列。也可实施其它合适的长度范围。

另一个实例中，可设计或选择条形码序列，避免一些已知会引起测序错读或测序偏差的核苷酸序列。这可增强PCR和/或测序性能。若干实施例中，因为一个序列的GC(鸟嘌呤/胞嘧啶)含量可影响测序质量，所以过滤准则可包括一个GC含量40-60％范围。也可类似处理AT含量。一个实例中，所确定的碱基空间序列如不符合GC和/或AT含量准则，则可过滤。

一个实施例中，所计算的一定迭代位置的流空间码字(按预定流序映射至一个有效的碱基空间序列)数量可包括过滤后确定的碱基空间序列数量。

一个实例中，在填充字符的可能位置迭代后，如对一个13-字符的流空间迭代，可选择对应于最高计算数量的位置。该选定位置会生成一个较大的流空间码字数量，该码字映射至一个有效的碱基空间序列，因而对应的条形码序列数也较大(如，可用于多重测序)。

介绍下例，以说明以上原理。本例中，所选位置可包括流空间码字的流5(如，根据对应于最高计算数量的这一位置而选择)。本例将说明如何利用填充字符重定位(从终止流至某一选定位置)的灵活性调整一个码字(未曾翻译至一个有效的碱基空间)，使得在所选位置***填充字符后，该码字成功映射到一个有效的碱基空间序列。采用一个样本生成的流空间码字“20012220010121”和一个样本流序“T C T G A G C A T C G A T C”(SEQI.D.NO.19)，流空间码字可包括一个填充终止符“1”。按照样本流序，虽然填充字符位于终止流，但样本流空间码字不映射到一个有效碱基空间序列，至少是因为发生连续的两次掺入而中间没有碱基掺入。例如，当考虑一个假设性同步流时，码字20012220010121中有下划线的流空间符号会对应于样本流序T C T G A G C A T C G A T C中有下划线的流(SEQI.D.NO.19).这里，起始的“2”代表起始“C”流出时的一次二聚体掺入。随后的“00”代表后续的“A”和“T”流出时的两个零聚体。不过，流空间码字中的后续“1”代表一个单聚体，不能在样本流序的对应“C”流的基础上生成。这至少是因为，若存在这样一个互补碱基，则因起始“C”流而掺入的起始“2”本当作为一个“3”或三聚体而掺入。本例中，填充字符从第14流重新定位至第5流，将按样本流序产生一个有效的碱基空间序列。这一重定位得到码字“20011222001012”。然后，已调整的流空间码字会按相同的样本流序映射到一个有效的碱基空间翻译。基于本公开说明书的资料，业内普通技术人员会对以下事实感到欣慰：可类似地实施其它可能的重定位位置，也会导致一个有效的碱基空间翻译。

另一例也说明了如何利用填充字符从终止流重新定位至某一选定位置(如上文，也是第5流)的灵活性调整一个码字(未曾翻译至一个有效的碱基空间)，使得在所选位置***填充字符后，该码字成功映射到一个有效的碱基空间序列。采用一个样本生成的流空间码字“00000210220211”和一个样本流序“T C T G A G C A T C G A T C”(SEQI.D.NO.19)，流空间码字也可包括一个填充终止符“1”。本例中，也可利用一系列关键流。例如，一系列关键碱基可置于某一条形码前面，以跟踪条形码和/或所附接的靶标。样本排序中的关键流(如，直接置前于样本排序的系列流)可包括“T A C G”，继之以一个重复流序“T A C G”。按照样本流序和密钥流，虽然填充字符位于终止流，但样本流空间码字未映射至一个有效的碱基空间序列，至少因为太多的流导致关键流后有一个零聚体。例如，对于一个假设性同步流时，码字00000210220211中有下划线的流空间符号会对应于样本流序TC T G A G C A T C G A T C中有下划线的流(SEQ.I.D.NO.19).这里，最后的关键流包括一个“G”。在高亮显示的流系列中，所有其它三个非G的可能的dNTP在5流系列中流出，因而为了让该码字映射至一个有效的流空间，这些流中至少一个将不得不产生一个掺入。本例中，填充字符从第14流重新定位至第5流，将按样本流序产生一个有效的碱基空间序列。这一重定位得到码字“0000121022021”。然后，已调整的流空间码字会按相同的样本流序映射到一个有效的碱基空间翻译。基于本公开说明书的资料，业内普通技术人员会对以下事实感到欣慰：可类似地实施其它可能的重定位位置，也会导致一个有效的碱基空间翻译。

本实施例中，***填充字符后，流空间码字保持同步。例如，***后的流空间码字将包括长度X加上被***的字符(如X+1)。因而，相对于流长和预定流序，码字仍会是同步的。

步骤7006中，可将填充字符***到流空间码字的确定位置。例如，可基于本文所述的可能位置的计算数目，为填充字符选择一个位置。然后通过把填充字符***到码字的选定位置，可调整流空间码字，如本文所述。一个实施例中，可对生成的码字集进行***，使得码字的容错性得以保持(如，保持最小距离特性)。

步骤7008中，可过滤潜在的流空间码字。例如，可过滤未按预定流序映射至某一有效碱基空间的流空间码字。把一个填充碱基***到码字的某一选定位置后，可发生潜在流空间码字的过滤。这里，对若干未曾映射至有效的碱基空间序列的码字(如，未经过滤)，可基于选定位置处的填充碱基***而予以保留。例如，关于一个填充碱基从一个终止流至一个选定流(如，流5)的重定位如何得到一个映射至有效碱基空间序列的码字，本文进一步描述了多个实例。

若干实施例中，也可按碱基空间序列长度过滤流空间码字。例如，潜在的流空间码字若包括遵循大于某一门限长度的预定流序的碱基空间翻译，则可予以过滤。例如，一个序列长度准则可为9-11或9-14个碱基，且可过滤跟大于准则要求的碱基空间序列对应的流空间码字。也可实施其它合适的长度范围。

若干实施例中，也可按最小距离过滤潜在的流空间码字。例如，可实施分类算法，该算法选择一个有预定最小距离的潜在的流空间码字子集。一个实例中，可选择码字组，使得它们实现一个相互之间的最小距离和与其它组的其它码字之间的第二最小距离。对未用这样的分类算法选定的潜在码字，可类似地予以过滤。

若干实施例中，可按核苷酸百分含量(如GC含量)，过滤潜在码字。例如，可设计或选择条形码序列，避免一些已知会引起测序错读或测序偏差的核苷酸序列。这可增强PCR和/或测序性能。若干实施例中，因为一个序列的GC(鸟嘌呤/胞嘧啶)含量可影响测序质量，所以过滤准则可包括一个GC含量40-60％的范围。也可类似处理AT含量。一个实例中，翻译成碱基空间序列的潜在码字如不符合GC和/或AT含量准则，则可予以过滤。

若干实施例中，可按试验中的次级结构或性能，过滤潜在码字。例如，自补或与某一引物序列(偶联至该条形码)互补的条形码序列的试验性能可能不佳。相应地，对翻译成碱基空间序列(自补或与偶联至该条形码的某一引物序列互补)的潜在码字，可予以过滤。

步骤7010中，已过滤的码字后面可附接关键流。例如，在跟踪条形码或对应核酸片段(如目标核酸)时，可用关键流。关键流可按预定流序对应于关键碱基。若干实施例中，可用静态关键碱基(如“T”、“C”、“A”、“G”)附接于条形码序列。本例中，按预定流序对应的流空间串可类似地包括可附接于流空间码字的静态关键流(如10100101)。

若干实施例中，可实施可变关键流(或碱基)，以进一步相互隔开流空间码字。例如，可用两个不同的关键碱基的可能集合，它们基于一个重复终止碱基而异(如“T”、“C”、“A”、“G”和“T”、“C”、“A”、“G”、“G”)。本例中，按预定流序对应的流空间的变化可包括在最末的关键流中，要么是“1”要么是“2”(如10100101和10100102)。一个实施例中，流空间码字末尾可附接两个不同的关键流，进一步相互隔开码字。

若干实施例中，可复制已过滤的码字的集合，其中第一个码字集被附接上第一个关键流，而复制的码字集被附接上第二个关键流。这里，同一码字的两个版本可因码字末尾附接的关键流而异(如因为针对终止关键流的“1”或“2”)。关键流的变化可有效地增大码字间的最小距离，至少增加一个单位。

其它实施例中，可类似地实施其它可变关键流(或碱基)。例如，终止流可包括一个“1”、“2”或“3”，使得可生成三个不同的关键流并附接至码字末尾。其它实施例中，可类似地实施关键流的其它差异，以增大码字间距。

步骤7012中，可选择和组合已过滤的码字。例如，可按最小距离组合码字。一个实施例中，可实施分类算法，该算法选择一个有预定最小距离的码字子集。一个实例中，可选择码字组，使得它们实现一个相互之间的最小距离和与其它组的其它码字之间的第二最小距离。若干实施例中，分类算法所用的最小距离可包括，因向码字末尾附接可变关键流而有效增大最小距离。一个实施例中，第一最小距离可大于第二最小距离。例如，第一最小距离可包括6，而第二最小距离可包括4。若干实施例中，一个或多个码字组可包括一个通用组，使得该通用组中的码字包括相对于所有其它码字的第一最小距离(如组内和组间)。可实施其它合适的最小距离值。

一个实施例中，单一码字组可包括第一容错码，而选定的条形码可共同(如各组联合)包括一个第二容错码。例如，同一组内的码字间的最小距离可定义第一容错码，而不同组的码字间的最小距离可定义第二容错码。基于不同的最小距离，比起第二容错码，第一容错码能够分辨和/或纠正较多测序错误。

一个实施例中，过滤和分类后，分组流空间码字至少可包括500、1000、3000、5000、7000或9000个码字。按照本公开说明书，采用参考图7的上述技术对应于这些分组码字的一个代表性条形码列表可见于下面的表2和以下美国专利的附录A：申请号62/161,309，2016年5月14日提交，本应用对其主张优先权，且其通过整体引用而成为本文的一部分。

步骤7014中，可制造或得以制造对应于分组流空间码字的条形码。例如，按预定流序对应于分组流空间码字的条形码可按本文提供的详情制造。若干实例中，制造可包括使所述条形码得以制造。一个实施例中，分组并制造的条形码至少可包括500、1000、3000、5000、7000或9000个条形码。

一个实施例中，对应于分组码字的条形码可由平板组织。例如，如本文所述，为某组选定的码字可对应于一组条形码。该组条形码可由平板组织(如贮存分组条形码的结构)。因此，某一特定平板的条形码可包括对应于那些条形码的分组码字的容错性(如最小距离特性)，且平板间条形码可包括对应于那些条形码的非分组码字的容错性(如最小距离特性)。

各示例性实施例中，当制造条形码时，条形码序列后可附接多个条形码接头。不过，当正按预定流序测序时，对应于已调整过(如，一个终止静态或填充流的情况下，对应碱基已被重定位)的码字的条形码不再包括一个静态终止输出信号(如，流空间内)。这里，可基于预定流序和流空间码字，预测终止输出信号(如，流空间内)。一个实施例中，条形码可分为两个类别，比如，第一类别包括按预定流序以一个正掺入信号结尾的条形码(如流空间内的一个“1”或“2”)，而第二类别包括不一个正掺入信号结尾的条形码(如流空间内的一个“0”)。若干实施例中，第一类别的条形码可使用任一合适的接头(如一个通用接头)。不过，第二类别的条形码可使用以一个特定碱基(如G)起头的接头，因缺少一个掺入信号而这样做，以便缓解潜在的测序错误。按预定流序，特定碱基可包括一个预定碱基。例如，可这样预定特定碱基，使得基于预定流序的一个预期dNTP流产生一次掺入(如，生成一个掺入信号)。

一个实施例中，条形码制造可包括正向条形码、正向引物(P1a)、反向条形码和反向引物(P1b)的制造。一个实施例中，一个初始步骤可纯化这些寡核苷酸，其中的全部核苷酸都被归一至100-400μM的TE或低TE缓冲液。一个实施例中，非连接型寡核苷酸(如反向条形码和P1b)可用高效液相色谱法(HPLC)纯化，而连接型寡核苷酸(如正向条形码和P1a)可用一种脱盐技术纯化。具备业内普通技能的人士熟悉可用于条形码制造的各种脱盐技术。

例如，对反向条形码和P1b采用HPLC，有助于减轻测序错误。寡核苷酸是从3'至5'合成的，因而源于反向条形码和P1b的合成失败可能是在5'端截断的。对这些链缺乏HPLC处理，可增加接头二聚体(如从大体0％至大体5-15％)。此外，正向条形码和P1a直接连接扩增子，任何交叉污染都可导致碱基误响应。此外，由于序列数较大，HPLC既成本高昂(或成本效益低)又易受交叉污染。将这些链脱盐而不进行HPLC，成本低些，而且不要求在普通实验室设备(即HPLC仪)上使用这些链，从而消除了一个交叉污染源。而且在缺口平移期间，以正向条形码和P1a为一模板，DNA聚合酶重写反向条形码和P1b，从而除去任何源于P1b和反向条形码序列的HPLC污染的污染。这进一步降低了进行HPLC分析的链的污染风险。

一个实施例中，纯化后，等量的正向和反向条形码寡核苷酸与P1a和P1b寡核苷酸可组合在一起并用一定的退火条件在不同的试管中退火。例如，退火条件可包括：95℃变性5分钟；开始在89℃保温2分钟，随后每2分钟降低1℃，这样进行64个循环；4℃保温1小时，至多过夜(如，介于6至12小时)。

退火后，可组合等量的退火条形码接头和P1接头。可用一种低TE缓冲液将样本稀释5倍。可增加2μL的稀释混合物/AmpliSeq反应。可类似地实施条形码制造的其它变通方法。

一个实施例中，条形码制造步骤可包括合成多核苷酸。采用业内已知的常规多核苷酸合成技术，可制造一个含有条形码序列的多核苷酸。

按照各示例性实施例，可组合所制造的条形码，形成一个测序用的条形码套件。例如，可将分组条形码划拨至一个或多个平板或其它用于核酸测序(包括多重测序)的平台。例如，与某一特定平板内的条形码对应的码字可离该特定平板内的条形码的对应码字有一个第一最小距离，而离其它平板的条形码的对应码字有一个第二最小距离。若干实施例中，一个条形码平板可由一个柔性平板构成，使得该柔性平板内的条形码的对应码字包括相对于该包的其它所有条形码的对应码字的第一最小距离。这里，考虑到条形码的对应流空间码字的最小距离特性，柔性平板的条形码可用作其它所有平板的替代条形码。通过选择若干有效的条形码，可基于目标应用而定制条形码套件，该条形码套件也可包括条形码的一个全集。

测序套件还可包括一个聚合酶。测序套件还可包括容纳不同多核苷酸的多个容器，各个不同的多核苷酸可存放在各个不同的容器内。所述多核苷酸可为长度为5–40个碱基的寡核苷酸。测序套件还可包括多个不同种的核苷酸单聚体。测序套件还可包括一个连接酶。

若干实施例中，测序套件可包括多个不同的多核苷酸(如，可存放在西林瓶中)，各个不同的多核苷酸包括本文所述的不同的一个条形码序列。所述多核苷酸可为有5–40个碱基的寡核苷酸。所述多核苷酸本身可为条形码序列，它们还可包括其它单元，如引物位点、接头、连接位点、连接体等。测序套件也可包括前体核苷酸单聚体的一个集合(以执行边合成边测序操作)和/或用于样本制备和/或测序的某一工作流程涉及的其它各种试剂。

一个实施例中，条形码或条形码组可用于进行多重测序。例如，多个目标核酸后面可附接独特的条形码，使得该独特条形码序列(或流空间表现形式)测序后可鉴定此目标核酸。

图8说明了一个按本公开说明书的示例性实施例用条形码序列对多核苷酸样本进行测序的方法。例如，根据本文所述的示例性实施例，按预定流序与流空间码字对应的多个条形码。

步骤8002中，可将多个条形码掺入多个目标核酸，以创建多核苷酸。例如，用任何常规手段可将条形码附接至目标核酸，使得测序期间从该条形码获得的信号可鉴别附接于该条形码的特定目标核苷酸。

一个实施例中，提供了多个不同的目标核酸，用于通过预定的核苷酸流进行多重测序，各个不同的目标核酸都被附接到各个不同的所供条形码序列，该条形码序列对应于不同的流空间串，而各个不同的流空间串是容错码或纠错码的不同码字。一个实施例中，所利用的条形码至少可包括500、1000、3000、5000、7000或9000个条形码。类似地，一个实施例中，不同的目标核酸至少可为500、1000、3000、5000、7000或9000个。

步骤8004中，可按预定流序，往多核苷酸中引入一系列核苷酸。例如，dNTP试剂流可按预定流序流出，使得多核苷酸暴露于试剂流中，且可发生掺入事件。

步骤8006中，因引入所述系列核苷酸，可获得一系列信号。例如，可检出因核苷酸掺入到多聚核苷酸而释放的氢离子，其中，信号振幅可跟所检出的氢离子的量有关。另一例中，可检出因核苷酸掺入到多核苷酸而释放的无机焦磷酸盐，其中，信号振幅跟所检出的无机焦磷酸盐的量有关。

步骤8008中，可分辨条形码序列的一系列信号，以呈递流空间串，使得所呈递的流空间串匹配所述码字，其中，在存在一个或多个错误的情况下，至少一个呈递的流空间串至少匹配一个码字。一个实施例中，所述系列信号可包括一个流空间矢量或由符号组成的串(如0、1、2等)，代表了一定流的掺入数(如，零聚体、单聚体、二聚体等等)。

一个实施例中，任何合适的解码算法和/或软件工具可用于条形码序列的流空间串的解码，以纠正和/或检出错误。例如，可采用一个穷举算法进行解码，该算法将一个有一错误的码字与该码的所有其它成员对比，并解码为最近匹配的码字。若有错码字与两个码字等距或离任何码字远于一半的最小距离，则该算法提示检出一个错误，而不做纠正。另一例中，解码可涉及反向执行编码操作。另一例中，解码算法可运用线性代数技术将码字解码。

一个实施例中，一旦至少一个有错码字匹配容错码或纠错码的一个码字，就可鉴定从目标核酸序列之一(与所匹配的流空间码字的对应条形码相关)获得的信号。例如，对基于所匹配的码字的目标核酸，可鉴定一个呈递的流空间串和对应的碱基空间序列。

若干实施例中，因所供条形码的数目较大而促成的多重测序的规模可方便一些测序应用。例如，利用促成高度多重测序的大量条形码，可更有效地进行边测序边基因分型、克隆验证和其它检测合成验证(如验证某一合成序列正确)。若干实施例中，还提供了一种包括指令的非暂态可机读的存储介质，当处理器执行该指令时，该指令促使该处理器执行本文详述的方法及其变通方式。还提供了一个***，包括：一个可机读的内存；一个经配置可执行可机读的指令的处理器，当处理器执行该指令时，该指令促使该***执行本文详述的方法及其变通方式。

按照一个示例性实施例，提供了一组不同的多核苷酸链，多核苷酸链的条形码序列各异；其中，各条形码序列按预定流序的流空间投射给出不同的流空间串，这些串是本文详述的某一容错码的码字。图9说明了一组各自与一个唯一的条形码序列相关的七个不同的多核苷酸链。各实施例包括较大量的条形码序列和多核苷酸链，所述七个多核苷酸就是代表性实例。每个多核苷酸链可有一个引物位点、一个标准关键序列和一个唯一的条形码序列。每个多核苷酸链还可有一个不同的目标序列。对这样一组多核苷酸链，可进行多重测序，而条形码有助于鉴定某一多重样本所衍生的序列数据源。

按照一个示例性实施例，提供了一个样本鉴定套件，包括：多个样本区分码，其中：a)每个样本区分码由单个亚基的一个序列组成；b)每个样本区分码的亚基序列可与多个样本区分码当中的其它每一成员的单一亚基的序列相区分；c)每个样本区分码容忍一个或多个错误，以便可独立地分辨其它样本区分码。

按照一个示例性实施例，提供了一个样本鉴定套件，包括：多个样本区分码，其中：a)每个样本区分码由单个亚基的一个序列组成；b)一个可检出的信号与每个亚基或亚基对或亚基集相关，使得每个样本区分码与可检出信号的一个序列相关；c)每个可检出信号序列可与多个样本区分码当中的其它每一成员的可检出信号的序列相区分；及d)每个样本区分码的可检出信号序列至少容忍一个错误，以便可独立地分辨其它样本区分码。

图10A-10C说明了一个用于制备一个多重样本的示例性工作流程。图10A显示了一个某一基因组DNA片段文库的构建实例。采用任何合适技术，如超声、机械剪切或酶切，可将一个细菌基因组DNA 10破碎成许多DNA片段12。然后可将平台专用接头14连接到片段12上面。参考图10B，接着可分离出每个片段样本18，并与一个微珠16组合。考虑到片段18的鉴定，可将一个条形码序列(图中未显示)连接至片段18。然后可将片段18通过克隆扩增到微珠16上，在微珠16上得到片段18的许多克隆拷贝。对文库中的不同片段12，可重复这一过程，得到许多微珠，每个微珠均有单个文库片段12多次扩增的产物。参考图10C，接着可将微珠16加载到一个反应腔阵列上(如，微孔阵列)。图10C显示了某一反应腔内正经历测序反应的一个DNA片段的部分视图。一个模板链20可与一个生长中的互补链22配对。左屏里，一个A核苷酸被添加至反应腔，产生一个单碱基掺入事件，生成一个氢离子。右屏里，一个T核苷酸被添加至反应腔，产生一个双碱基掺入事件，生成两个氢离子。氢离子产生的信号在电离图中显示为峰26。各实施例中，一个测序包可含有上述样本制备和测序流程所需的物质当中的一种或多种，包括DNA破碎试剂、接头、引物、连接酶、微珠或其它固相载体、聚合酶或用于掺入反应的前体核苷酸单聚体。

按照一个示例性实施例，提供了一个***，由多个可鉴定的核酸条形码组成。核酸条形码可附接或缔合目标核酸片段，形成加有条形码的目标片段(如多核苷酸)。一个加有条形码的目标片段文库可包括多个第一条形码，附接于来自第一源的目标片段。一个加有条形码的目标片段文库也可包括不同的可鉴定条形码，附接于不同源的目标片段，以建立一个多重文库。例如，一个多重文库可包括多个第一条形码和多个第二条形码的一种混合体，第一条形码附接于第一源的目标片段，而第二条形码附接于第二源的目标片段。该多重文库中，第一和第二条形码可分别用于鉴定第一和第二目标片段的来源。任意数量的不同条形码可附接于任意数量的不同来源的目标片段。一个加有条形码的目标片段文库中，条形码部分可用于鉴定：单个目标片段；目标片段的单个来源；一组目标片段；来自单个来源的目标片段；来自不同源的目标片段；来自一个用户自定义组的目标片段；或要求或受益于鉴定的其它任何组。一个加有条形码的目标片段的条码标记部分序列可与目标片段分开读序，或作为涵盖所述条形码和所述目标片段的较大读序的一部分进行读序。一个测序试验中，可用目标片段对核酸条形码测序，然后在测序数据的处理过程中用算法进行句法分析。各实施例中，一个核酸条形码可包括一个合成或天然的核酸序列、DNA、RNA或其它核酸和/或衍生物。例如，一个核酸条形码可包括核苷酸碱基腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷或其类似物。这些条形码可用于鉴定一个多核苷酸链和/或将其与其它多核苷酸链(如含有一个不同的感兴趣的目标序列的多核苷酸链)相区分，且可用于各种目的，如跟踪、分类和/或鉴定样本。由于不同条形码序列可以与不同多核苷酸链相关，这些条码序列可以适用于不同样品的多重测序。

多重文库

各实施例中，提供了样本区分码或条形码(如核酸条形码)，它们可附接或缔合靶标(如核酸片段)，生成带条形码的文库(如加有条形码的核酸文库)。可采用一个或多个合适的核酸或生物分子操作程序制备这样的文库，所述程序包括：破碎；尺寸选择；末端修复；拖尾；接头拼合；缺口平移；纯化。各实施例中，采用一个或多个合适程序，包括连接、粘性末端混杂、缺口平移、引物延伸或扩增，核酸条形码可附接或缔合某一目标核酸样本的片段。若干实施例中，采用具有一个特定条形码序列的扩增引物，核酸条形码可附接于一个目标核酸。

各实施例中，一个目标核酸或生物分子(如蛋白质、多糖和核酸及其聚合物亚基等)样本可从任一合适来源中分离出来，该源的例子有固体组织、组织、细胞、酵母菌、细菌或类似来源。可用任何合适方法，从这些源中分离样本。例如，可将固体组织或组织称重、切割、捣碎、匀化，再从匀化的样本中分离出样本。分离出的核酸样本可为染色质，在ChIP(染色质免疫沉淀)程序中，该染色质可与DNA结合蛋白交联。若干实施例中，可用任一合适程序破碎样本，包括酶法或化学法切割，或剪切。酶促切割可包括限制性核酸内切酶、核酸内切酶或转座酶介导的切割。

片段文库

各实施例中，提供了片段文库，可包括：一个第一引发位点(P1)、一个第二引发位点(P2)、一个***体、一个内部接头(IA)和一个条形码(BC)。若干实施例中，一个片段文库可包括具有一定排列的框架，如：一个P1引发位点、一个***体、一个内部接头(IA)、一个条形码(BC)和一个P2引发位点。若干实施例中，片段文库可附接于一个固相载体，如微珠。

图11说明了根据一个片段文库实施例的一个示例性微珠模板。它显示了一个附接于一个固相载体(如微珠)的示例性核酸。一个微珠模板700包括一个有接头序列720的微珠710，该接头序列将模板730附接到固相载体。模板730可包括第一或P1引发位点740、一个***体750和第二或P2引发位点760。模板730可为合成模板。模板730可代表一个片段文库。模板730可包括一个核酸条形码BC，该条形码可定位于P1引发位点740和***体750之间。一个内部接头可置于P1引发位点740和条形码BC之间，或条形码BC和***体750之间，或***体750和P2引发位点760之间。

图12说明了根据一个片段文库实施例的另一个示例性微珠模板。核酸条形码BC可定位于***体750和P2引发位点760之间。一个内部接头可置于P1引发位点740和***体750之间，或***体750和条形码BC之间，或条形码BC和P2引发位点760之间。

各实施例中，接头序列720和模板730的长度可各异。例如，接头序列720的长度可介于10至100个碱基，或15至45个碱基，且可为18个碱基(18b)。模板730由P1引发位点740、***体750和P2引发位点760组成，其长度也可不同。例如，P1引发位点740和P2引发位点760的各自长度可介于10至100个碱基，或15至45个碱基，且可为23个碱基(23b)。***体750的长度可介于2个碱基(2b)至20,000个碱基(20kb)，且可为60个碱基(60b)。一个实施例中，***体750可包括100多个碱基，如1,000个或更多的碱基。各实施例中，***体可为连接体形式，这种情况下，***体750可由多达100,000个碱基(100kb)或更多碱基组成。

各实施例中，可基于不同思路，如***体长度、信噪比问题和/或测序偏差问题，选择条形码BC的位置。例如，若信噪比有问题时(如，边连接边测序过程中进行额外的连接循环时，信噪比可下降)，条形码BC可定位于P1引发位点740附近，以减轻因信噪比下降造成的潜在错误。若信噪比不是一个显著问题，则可将条形码BC置于P1引发位点740或P2引发位点760附近。若干情况下，模板序列与测序试验期间所用的探针序列的相互作用可不同。将条形码BC放在***体750前面，可影响***体750的测序结果。将条形码BC放在***体750后面，可减少因偏差导致的测序错误。总之，条形码位置可受到测序的影响或者影响测序，可选择基于测序过程的条件所获得的结果最好的位置。

各实施例中，可利用一个正向序列读序(如，沿着模板的5’–3’方向)进行某一核酸条形码的测序和解码，如，一次读序中，读取条形码BC和***体750。一个实施例中，通过算法，可将正向读序解析为条形码部分和***体部分。

除了片段文库和对应的本文所述的微珠模板，也可利用公开的条形码构建额外的文库和/或微珠模板。例如，美国专利申请号13/599,876，2015年2月28日作为美国专利公开号2013/0053256发布，专利权人Hubbell，专利名为METHODS,SYSTEMS,AND KITS FORSAMPLE IDENTIFICATION(用于样本鉴定的方法、***和套件)，通过整体引用而成为本文的一部分，该专利还公开了Mate Pair文库、Paired End文库、SAGE^TM文库、酵母菌测序文库和ChIP-Seq文库，可用各种公开的实施例进行构建。

按照各实施例，对以上讨论的资料和/或实施例之中的一项或多项的一个或多个功能，均可采用适当配置且/或编程的硬件和/或软件单元执行或实施。确定是否采用硬件和/或软件单元实施了某一实施例，这可基于任意多的因素，如理想的运算速率、功率电平、耐热性、处理循环预算、输入数据率、输出数据率、内存资源、数据总线速度等，以及其它设计约束或性能约束。

硬件单元的实例有处理器、微处理器、通过一个本地接口电路相互偶联的输入和/或输出(I/O)器件(或外设)、电路单元(如晶体管、电阻器、电容器、电感器等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。本地接口可包括一条或多条总线或其它有线或无线连接、控制器、缓冲器(缓存)、驱动器、中继器和接收器等，以允许在硬件元件之间进行适当通信。处理器是一个硬件设备，用于执行软件特别是内存中存储的软件。处理器可以是任何定制的也可以是可市售的处理器、中央处理单元(CPU)、计算机相关的几个处理器之中的辅助处理器、半导体型微处理器(如微芯片或芯片组)、宏处理器、或通常用于执行软件指令的任何器件。处理器也可代表一个分布式处理架构。I/O器件可包括输入器件，例如键盘、鼠标、扫描仪、麦克风、触摸屏、医疗器械和/或实验室仪器的使用接口、条形码读码器、手写笔、激光读码器、射频器件读码器等。而且，I/O器件还可包括输出器件，例如打印机、条码打印机、显示屏等。最后，I/O器件还可包括输入输出通信器件，例如调制器/解调器(调制解调器；以便访问其它器件、***或网络)、射频(RF)收发器或其它收发器、电话接口、桥接器、路由器等。

软件实例可包括软件组件、程序、应用、计算机程序、应用程序、***程序、机器程序、操作***软件、中间件、固件、软件模块、例程、子例程、函数、方法、段程序、软件接口、应用程序接口(API)、指令集、运算代码、代码段、计算机代码段、字、值、符号或它们的任意组合。内存软件可包括一个或多个独立程序，此程序可包括可执行指令的有序列表，用于实施逻辑功能。内存软件可包括一个用于按现有资料鉴定数据流的***和任何合适的定制或可市售的操作***(O/S)，此操作***可控制其它计算机程序如***的执行，并提供排程、输入输出控制、文件和数据管理、内存管理、通信控制等。

按照各实施例，对以上讨论的资料和/或实施例当中的任何一项或多项的一个或多个功能，均可采用适当配置且/或编程的非暂态可机读介质或物品来执行或实施，该介质或物品可储存一个指令或指令集，此指令或指令集若被机器执行，则可促使该机器执行实施例中的某一方法和/或操作。此机器可包括任何合适的处理平台、运算平台、运算器件、处理器件、运算***、处理***、计算机、处理器、科学仪器或实验室仪器等，且可采用任何合适的硬件和/或软件的组合来实施。可机读的介质或物品可包括任何合适类型的记忆单元、记忆器件、记忆品、记忆介质、存储器件、存储品、存储介质和/或存储单元，如内存、可移动或不可移动介质、可擦或不可擦介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、压缩式光盘只读存储器(CD-ROM)、可记录压缩光盘(CD-R)、可写压缩光盘(CD-RW)、光盘、磁性介质、光磁介质、可移除内存卡或盘、各类数字光盘(DVD)、磁带、磁盒等，包括任何适用于计算机的介质。内存可包括任一个易失性记忆单元或其任一组合(如随机存取内存RAM,诸如DRAM、SRAM、SDRAM等)和非易失性记忆单元(如ROM、EPROM、EEROM、闪存、硬盘驱动器、磁带、CDROM等)。而且，内存可结合电子、磁性、光学和/或其它类型的存储介质。内存可有一个分布式架构，其中的各个组件相距较远，但仍可由处理器存取。指令可包括任何合适类型的代码，如源代码、汇编码、解释码、可执行码、静态码、动态码、加密码等，采用任何合适的高级、低级、面向对象的、直观、汇编和/或解释的编程语言实施。

按照各实施例，对以上讨论的资料和/或实施例之中的任一项或多项的一个或多个功能，均可至少部分采用一个分布式、集群式、远程或云计算资源。

按照各实施例，对以上讨论的资料和/或实施例之中的任一项或多项的一个或多个功能，均可采用一个源程序、可执行程序(对象代码)、脚本或其它任何由一个指令集组成的实体执行或实施。通过一个编译器、汇编器、解释器等(内存里可含或可不含)翻译源程序，以便连同O/S一起正确操作。可用以下工具写指令：a)一种面向对象的编程语言，有多类数据和方法，或(b)一种程序性编程语言，有例程、子例程和/或函数，可包括C、C++、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。

按各实施例，以上讨论的实施例当中的一例或多例可包括向用户接口器件、计算机可读的存储介质、本地计算机***或远程计算机***传输、显示、存储、打印或输出与所述实施例生成、存取或使用的任何信息、信号、数据和/或中间结果或最终结果有关的信息。这样传输、显示、存储、打印或输出的信息可采取可搜索和或可过滤的运行列表形式，和报告、图片、表格、数据图、曲线图、电子表格、相互关系、序列及其组合。

通过重复、添加或替代任何笼统或具体描述的功能和/或上述实施例当中的一个或多个里所阐述的组件和/或物质和/或步骤和/或操作条件，可派生出其它各实施例。而且宜理解，只要步骤或动作的目标仍可实现，则用于执行一定动作的某一步骤顺序或命令是无关紧要的，除非另外具体说明。而且，只要步骤或动作的目标仍可实现，则可同时进行两个或多个步骤或动作，除非另外具体说明。而且，只要上文讨论的实施例中的其它任何一例的目标仍可实现，则上文讨论的实施例之一里提及的任何一个或多个功能、组件、方面、步骤或其它特点可视为上文讨论的实施例中的其它任何一例的一个潜在的可选功能、组件、方面、步骤或其它特点，除非另外具体说明。

虽然利用边合成边测序的方式可有效使用本资料的各实施例，如本文和以下文献所述：Rothberg等，美国专利公开说明书号2009/0026082；Anderson等，S_{ENSORS AND} A_CTUATORS BC_HEM.(传感器和执行器B：化学),129期，79-86页，2008年；Pourmand等，P_ROC.N_AT1A_CAD.S_CI.(美国科学院院报)，103期，6466-6470页，2006年，均通过整体引用而成为本文的一部分，但是，还可用其它方式使用本资料，如边合成边测序的变通方法，包括将核苷酸前体或核苷酸三磷酸酯前体改性为可逆终止子的方法【有时叫循环可逆终止(CRT)法)】和对核苷酸前体或核苷酸三磷酸酯前体不改性的方法【有时叫循环单碱基传递(CSD)】，或更通用的方法，包括传递核苷酸(至聚合酶-引物-模板复合体)并采集信号(或直接或间接检测掺入)的重复步骤(或响应传递的延伸)。

虽然可连同基于pH的序列检测一起有效使用本资料的各实施例，如本文和以下文献所述：Rothberg等，美国专利申请公开说明书号2009/0127589和2009/0026082，以及Rothberg等，英国专利申请公开说明书号GB2461127，均通过整体引用而成为本文的一部分，但是，用其它检测方式也可使用本资料，包括对掺入反应所释放的焦磷酸根离子(PPi)的检测(参见美国专利号6,210,891、6,258,568和6,828,100)、各种荧光测序仪器法(参见美国专利号7,211,390、7,244,559和7,264,929)、若干边合成边测序技术【可检测与核苷酸相关的标记，如质量标签、荧光和/或化学发光标签，这种情况下，一个钝化步骤可纳入下一个合成检测循环之前的工作流程(如，通过化学切割或光漂白)】、以及更通用的方法，其中，一个掺入反应生成或导致一个具有某一特性的产物或组分，该特性就是能被监测和用于检测掺入事件，包括幅度(如热量)或浓度(如焦磷酸根离子和/或氢离子)和信号(如荧光、化学发光、光发生)的变化，这些情况下，所检出的产物或组分的量可与掺入事件的数目单调相关。

虽然本说明书详述了一些实施例，但是其它实施例也是可能的，且属于本发明的范围内。例如，本领域的技术人员可能对本说明感到欣慰：本资料可用多种形式实施，如采用各种测序仪器，而且各实施例均可单独或组合实施。对于本领域的技术人员而言，考虑到说明书和附图以及权利要求书中所述的说明、图和专利实践，变化和修改都会是显而易见的。

表2 显示了按照本文所述的各实施例的代表性条形码序列。

序列表

<110> 生命技术有限公司

<120> 条形码序列和有关***及方法

<130> LT01064 PCT

<140>

<141>

<150> 62/161,309

<151> 2015-05-14

<160> 79

<170> 专利版本 3.5

<210> 1

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 1

tcagtcctcg aatc 14

<210> 2

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 2

tcagcttgcg gatc 14

<210> 3

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 3

tcagtctaac ggac 14

<210> 4

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 4

tcagttctta gcgc 14

<210> 5

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 5

tcagtgagcg gaac 14

<210> 6

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 6

tcagttaagc ggtc 14

<210> 7

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 7

tcagctgacc gaac 14

<210> 8

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 8

tcagtctaga ggtc 14

<210> 9

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 9

tcagaagagg attc 14

<210> 10

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 10

tcctcgaatc 10

<210> 11

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 11

cttgcggatc 10

<210> 12

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 12

tctaacggac 10

<210> 13

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 13

ttcttagcgc 10

<210> 14

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 14

tgagcggaac 10

<210> 15

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 15

ttaagcggtc 10

<210> 16

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 16

ctgaccgaac 10

<210> 17

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 17

tctagaggtc 10

<210> 18

<211> 10

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 18

aagaggattc 10

<210> 19

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 19

tctgagcatc gatc 14

<210> 20

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 20

ttccggagga tgcc 14

<210> 21

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 21

ttgaggccaa gtcc 14

<210> 22

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 22

gaccaccggt tc 12

<210> 23

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 23

gtggacctcc gttc 14

<210> 24

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 24

tggaccacga attc 14

<210> 25

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 25

ttctggacat ccgc 14

<210> 26

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 26

ttaggcctcc attc 14

<210> 27

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 27

gttgaggaac cacc 14

<210> 28

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 28

ccggacaaga attc 14

<210> 29

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 29

cggagttccg gttc 14

<210> 30

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 30

gtccaccaac cacc 14

<210> 31

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 31

gttccagcca tctc 14

<210> 32

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 32

gttagcggat tc 12

<210> 33

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 33

gccacaactt cc 12

<210> 34

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 34

gttccttaga agac 14

<210> 35

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 35

gccagcacca attc 14

<210> 36

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 36

gcttggagcc gttc 14

<210> 37

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 37

tccaggcacc ttcc 14

<210> 38

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 38

gttcctacgt tc 12

<210> 39

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 39

ccagaacgga atcc 14

<210> 40

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 40

gtcaggacca ac 12

<210> 41

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 41

cttaccatcc ttcc 14

<210> 42

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 42

gctgacacca cc 12

<210> 43

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 43

tcaccaacgg ac 12

<210> 44

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 44

ctgagaatcc aacc 14

<210> 45

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 45

ttcctacaat ctcc 14

<210> 46

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 46

gtcttgacaa gaac 14

<210> 47

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 47

gttcttagag aacc 14

<210> 48

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 48

gtccaggagg tc 12

<210> 49

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 49

tcggaccaat tgcc 14

<210> 50

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 50

ccttaccaat aacc 14

<210> 51

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 51

tcgaggccat cgac 14

<210> 52

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 52

ttccttacct tatc 14

<210> 53

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 53

ttctgagccg ac 12

<210> 54

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 54

gtcctaccaa tgac 14

<210> 55

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 55

tagccaattg aacc 14

<210> 56

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 56

gccttagcaa cacc 14

<210> 57

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 57

gtcctgagca gaac 14

<210> 58

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 58

gtctacctcg gc 12

<210> 59

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 59

gtctgaccgg atcc 14

<210> 60

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 60

ccagaattcg gacc 14

<210> 61

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 61

ttccggagtt catc 14

<210> 62

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 62

ccttagatcc ttcc 14

<210> 63

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 63

gccttaggat cgcc 14

<210> 64

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 64

gccaggattg gtcc 14

<210> 65

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 65

gtccggagat gaac 14

<210> 66

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 66

gccttattcc aacc 14

<210> 67

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 67

gttctaggat tcac 14

<210> 68

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 68

tcctagtccg gtcc 14

<210> 69

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 69

gtcttggagt taac 14

<210> 70

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 70

gttctatcgt tc 12

<210> 71

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 71

ttcgagtgtt cc 12

<210> 72

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 72

tcttgattgg tc 12

<210> 73

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 73

gcttactccg gtcc 14

<210> 74

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 74

gattcggatt cc 12

<210> 75

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 75

gttcctgagt tctc 14

<210> 76

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 76

gtcggaccat gaac 14

<210> 77

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 77

cagatccgtt cc 12

<210> 78

<211> 12

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 78

gttctgacgt cc 12

<210> 79

<211> 14

<212> DNA

<213> 人工序列

<220>

<221> 源

<223> /注="人工序列说明：合成

寡核苷酸"

<400> 79

tccgaggatg aatc 14

Claims

1.用于设计对应于流空间码字的条形码序列的方法，包括：

生成多个流空间码字，所述码字包含一串字符；

通过移动填充字符，使其不在某一码字的终止流且对应的填充碱基不是某一条形码序列的终止碱基，而确定位于所述流空间码字内的至少一个填充字符的位置；

在所确定位置将所述填充字符***所述流空间码字，其中所确定的填充字符的位置防止在预定流序中连续的两次掺入相同碱基而中间没有其他碱基掺入，并且确定所述填充字符在所述流空间码字内的位置，还包括：

在所述填充字符在所述流空间码字内的多个位置处迭代；

每次迭代时，计算按所述预定流序对应于有效碱基空间序列的码字的数量；

在所述多个位置中选择对应于有效碱基空间序列的码字的计算数量最高的位置；

***后，根据满足预定最小距离准则选择多个流空间码字，其中，所选码字按预定流序对应于有效碱基空间序列，其中所述有效碱基空间序列按所述预定流序，对应碱基空间内的可能的核酸序列；以及

制备对应于所选码字的条形码序列。

2.根据权利要求1所述的方法，还包括，***后，过滤至少一个码字，其包括按所述预定流序的无效的碱基空间翻译。

3.根据权利要求1所述的方法，其中，所选码字全体包含符合所述预定最小距离准则的容错码。

4.根据权利要求1所述的方法，其中，确定所述填充字符在所述流空间码字内的位置，还包括：

在所述迭代的位置将所述填充字符***所述码字后，确定对应于所述流空间码字的每次迭代的碱基空间序列，所述流空间码字对应于有效碱基空间序列；

每次迭代时，根据针对所确定序列的至少一个长度准则，过滤所确定的碱基空间序列；以及

过滤后，计算所迭代的位置处的有效碱基空间序列的数量。

5.根据权利要求4所述的方法，其中，每次迭代时的过滤还包括：根据核苷酸百分含量准则，过滤所确定的碱基空间序列。

6.根据权利要求3所述的方法，其中，至少***一个填充字符后，所述容错码的码字在流空间内同步。

7.根据权利要求3所述的方法，其中，所生成的流空间码字包括码字间的初步距离，这使得所选码字间的最小距离大于所生成的码字间的最小距离。

8.根据权利要求7所述的方法，其中，在***所述填充字符后，保持所述码字间的初步距离。

9.根据权利要求8所述的方法，其中，选择多个码字还包括：

将所述码字分组，这使得组内的码字间的组内最小距离包括第一值，而不同组间的码字的组外最小距离包括第二值，所述第一值大于所述第二值。

10.根据权利要求1所述的方法，还包括

确定所选码字的子集，所述码字包含不表示合并的终止流；以及

制备对应于所述所选码字子集的条形码序列的子集，这使得根据对应于不表示合并的码字子集的所述终止流，为所述条形码序列子集选定接头。

11.根据权利要求1所述的方法，其中，制备所述条形码序列，还包括给所述条形码序列附加一系列关键碱基，其中，对于所述条形码序列的首段，所附加的关键碱基用重复碱基终止。

12.根据权利要求11所述的方法，其中，所述首段包括一半的所述条形码序列。

13.根据权利要求11所述的方法，其中，对于所述条形码序列的次段，所附加的关键碱基用非重复碱基终止。

14.根据权利要求13所述的方法，其中，所选码字全体包含容错码，所述容错码包含码字间的最小距离，这使得所选码字所附加的终止关键碱基的变化增大码字间的最小距离。

15.包含条形码序列的多核苷酸样本的测序方法，所述方法包括：

将多个条形码中的至少若干条形码并入多个目标核酸，形成多核苷酸，其中，根据权利要求1-14中任一项的方法设计所述多个条形码，使得所述条形码按预定流序对应流空间码字，所述流空间码字包含一个或多个容错码，且所述多个条形码至少包括1000个条形码；

按所述预定流序，向所述多核苷酸中引入一系列核苷酸；

获取一系列因为往目标核酸中引入核苷酸而产生的信号；以及

解析所述条形码序列上面的系列信号，呈递流空间字符串，这使得所呈递的流空间字符串匹配所述码字，其中，在存在一个或多个错误的情况下，至少一个呈递的流空间字符串至少匹配一个码字。

16.根据权利要求15所述的方法，其中，使用在存在一个或多个错误的情况下至少匹配一个流空间码字的至少一个呈递的流空间字符串，鉴定从目标核酸序列之一所获取的信号，所述信号与对应于所匹配的流空间码字的条形码相关联。