CN110024037B

CN110024037B - 经由连接的dna随机存取存储***

Info

Publication number: CN110024037B
Application number: CN201780073909.1A
Authority: CN
Inventors: K·施特劳斯; 陈圆觉
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-11-30
Filing date: 2017-10-30
Publication date: 2023-06-27
Anticipated expiration: 2037-10-30
Also published as: EP3513346A1; US20190376120A1; EP3513346B1; US11783918B2; WO2018102064A1; CN110024037A; US20230395198A1

Abstract

描述了用于来自DNA链的混合物的特定DNA链的随机存取的技术。对相同数字文件的片段进行编码的DNA链利用相同的标识序列来标记。标识序列被用来选择性地分离包含来自其他DNA链的相同数字文件的各部分的DNA链。DNA短链定位具有相邻于测序衔接子的标识序列的DNA链。DNA连接酶接入分子，以创建具有对数字文件进行编码的区域的更长的分子，数字文件的两侧是测序衔接子。包括测序衔接子的DNA链被测序，并且序列数据可用于进一步分析。没有标识序列的DNA链没有被接入测序衔接子，并且因此没有被测序。结果，DNA测序器所产生的测序数据来自包含于标识序列的那些DNA链。

Description

经由连接的DNA随机存取存储***

优先申请

本申请要求于2016年11月30日提交的美国临时申请序列号62/428,431的优先权，该申请以整体内容通过引用并入本文。

背景技术

脱氧核糖核酸(DNA)的聚合物能够以高密度存储信息。一克DNA包含约10²¹个DNA核苷酸(nt)，其可以对约10⁸兆字节的数据进行编码。DNA的信息密度比其他类型的存储介质紧凑约10⁸倍。不到100克的DNA可以存储世界上所有的人造数据。因此，由于其高信息密度，DNA作为信息存储技术具有吸引力。在以人类可读形式呈现之前，由DNA编码的信息首先被转换成可以由数字计算技术处理的格式。每当期望来自数字数据存储池的任何信息时，将该池的DNA中的所有内容转换成电子格式将是低效的，并且否定将信息作为DNA存储的多数优势。标识包含感兴趣信息的特定DNA链的技术减少了被转换成电子格式的信息量，并且可以提高DNA作为信息存储介质的可用性。

发明内容

本发明内容被提供以简化形式介绍概念的选择，这些概念将在下面的具体实施方式中进一步描述。本发明内容并非旨在标识所要求保护的主题内容的关键特征或必要特征，也非旨在被用来限制所要求保护的主题内容的范围。

选择性地仅将期望的DNA链从存储装置中取出需要区分一条DNA链与另一条DNA链的某种方法。此处所述的技术使用包含于DNA链上的标识(ID)序列，DNA链共享一些共性，诸如例如，全部对相同的数字文件的部分进行编码。给定的DNA的池可以包括具有不同ID序列的成千或上百万的DNA链。此处被称为“短链”的相对短的DNA链包括杂交于特定ID序列的一个部分和杂交于测序衔接子的部分的另一部分。测序衔接子是被用来衔接感兴趣的DNA链的另一DNA链，以便它可以被DNA测序器所读取。

由于短链与包括特定ID序列的DNA链的部分杂交，并且与测序衔接子的部分杂交，因此，短链用于使具有特定ID序列的DNA链与测序衔接子相邻。DNA连接酶在DNA链和测序衔接子之间形成共价键。这创建了包括有效负载和测序衔接子的、新的更长的DNA链，有效负载可以表示数字文件的一部分。由于短链的特异性和ID序列的不同，不包括相同ID序列的其他DNA链将不会添加测序衔接子。在这一点上，各种DNA链仍可以是无差别的并且在DNA存储库中被混合在一起。然而，只有那些具有已知ID序列的DNA链被添加测序衔接子。因此，当DNA存储库的全部内容被测序时，没有序列衔接子的分子将被DNA测序器所忽略，并且DNA测序器的输出将只包括具有特定ID序列的那些DNA链的序列。

这提供了对来自多个不同DNA链的池内共享相同ID序列的DNA链的任何群组的任意和随机存取。

附图说明

详细说明参考附图进行阐述。在附图中，附图标记的最左侧的(多个)数字标识该附图标记首次出现的图。在不同图中使用相同的附图标记指示相似或相同的项目。

图1示出用于提供对被存储在DNA池中的DNA链的任意、随机存取的***的示意图。

图2示出使用短链将测序衔接子附接到DNA链的示意表示。

图3示出使用短链将利用与短链互补的区域修饰的测序衔接子附接到DNA链的示意表示。

图4示出选择性地仅将测序衔接子添加到某些DNA链。

图5示出互补的短序列的使用，以防止短链用作PCR扩增位点。

图6示出用于选择性地将衔接子添加到DNA链的过程。

具体实施方式

如果数字信息被存储在DNA中，则随机存取该信息的特定片段而不需要首先将所有的DNA编码的信息转换为数字数据的能力，在DNA测序器带宽上提供更高的效率，并且提供当前从信息存储***预期的存取类型。具体地，“随机存取”指的是在用户所指定的存储器的任何任意部分存取数据的能力。与随机存取相对的是顺序存取。为了在顺序存取***中从A点到Z点，***必须存取所有的中间点。在随机存取***中，***可以直接跳至Z点。磁盘是随机存取介质，而磁带是顺序存取介质。DNA测序器读取单个DNA链是顺序存取。然而，当数字信息被存储在大量DNA链中时，只对包含期望信息的那些DNA链选择性地取出和测序是随机存取。

一种用于提供对存储数字信息的DNA链的随机存取的技术用以通过ID序列来标识DNA链，ID序列是用于聚合酶链反应(PCR)扩增的引物位点。存储有关的数字信息(例如被存储为DNA的相同的数字文件的各部分)的DNA链可以共享相同的引物位点，因此，利用给定的引物对的扩增选择性地增加那些DNA链的数目，而具有不同的引物位点的DNA链不会增加。DNA测序器将检测更多的DNA链，并生成包括所选择的信息的序列输出。基于引物的随机存取的一些挑战包括通过引物形成二级结构，可能导致不正确的DNA链的扩增的非特定退火，以及由于引物效率差异所引起的扩增偏差。用于实现在本公开中所描述的随机存取的基于连接的方法是不同的，并且解决基于引物的随机存取的挑战。

此处所用的术语“引物”指的是当被置于诱导与核酸链互补的引物产物的合成的条件下(即，在合适的温度和盐浓度下，在四种不同的三磷酸核苷酸的存在下，利用适当的酶)能够用作核酸合成的起始点的寡核苷酸。具体的长度和序列将取决于所需的引物目标的复杂度、以及使用诸如温度和离子强度的引物的条件。在一些实施方式中，引物在长度上可以是5-50nt、10-25nt或者15-20nt。扩增引物不必与对应的模板序列精确匹配以保证适当扩增的事实在文献中被充分记载。通常可以被接受的是PCR引物的典型长度为18-22nt。该长度足够长以获得足够的特异性，并且足够短以使引物在退火温度下容易地与模板结合。

天然存在的DNA链由四种类型的核苷酸组成：腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。DNA链或多核苷酸是这些核苷酸的线性序列。DNA链的两端被称为5’端和3’端，在化学上不同。DNA序列在常规上以左侧的5’核苷酸端开始来表示。不同的链之间的交互是基于如下序列可预测的：如果两个单链互补：一个链上的A与另一个链上的T对齐，并且对于C和G类似，那么它们可以相互结合并形成双螺旋。双螺旋的两个链具有相反的方向性(5’端附接于另一个链的3’端)，并且因此，两个序列彼此“反向互补”。两个链不需要完全互补以彼此结合。核糖核酸(RNA)具有与DNA相似的结构，并且天然存在的RNA由四个核苷酸A、C、G和尿嘧啶(U)(而不是T)组成。出于简洁和可读性目的，本公开中的讨论仅提到了DNA，但是RNA可以被用于替代DNA或者与DNA相结合。RNA也可以结合DNA形成杂合分子。

术语“互补的”和“互补性”指通过碱基配对规则相关的多核苷酸(即，核苷酸序列)。例如，序列“A-G-T”与序列“T-C-A”互补。互补性可以是“局部的”，根据碱基配对规则，在该互补性中只有一些核酸的碱基是相匹配的。或者，在核酸之间可以存在“完全的”或者“全部的”互补性。在核酸链之间的互补性程度对于核酸链之间的杂交的效率和强度具有显著效应。

此处所用的“杂交”意味着在允许杂交的条件下放置两个互补的单链(ss)DNA链以形成双链(ds)DNA链，或者使得两个互补ssDNA链杂交并形成dsDNA链。杂交可以在高严格条件下被执行。

DNA的人工合成允许具有任意系列核苷酸的DNA链的创建。将这四种核苷酸的各个单体一起组装成聚合物的顺序可以以类似于在数字计算机中0和1的方式来表示信息。因此，多条DNA链可以利用这四种DNA核苷酸的特定顺序来合成，并对大量信息进行编码。信息被编码为一系列DNA核苷酸，但是可以表示任何类型的数据，诸如文本、音频文件、视频文件或者可以通过电子计算机中的常规二进制数据记录进行编码的任何其他内容。用于将信息从数字文件转换成DNA的多种技术在别处被讨论，诸如在美国专利申请号15/004,827中。

图1示出可以将数字文件102转换成DNA链的***100，DNA链将等效的信息编码为数字文件。数字或计算机文件是对计算机程序可用的所存储的信息片段或信息块。计算设备104可以将0和1的二进制信息转换成表示在DNA中找到的核苷酸的字母字符串。计算设备104生成对应于DNA核苷酸的一系列字母的序列数据，DNA核苷酸表示来自数字文件102的数据。在该阶段，序列数据仍然是表示一系列字母的电子数据。除了表示数字文件102的部分的序列数据之外，序列数据还可以包括短链序列、引物序列和测序衔接子序列。

寡核苷酸合成器106将接收自计算设备104的序列数据转换成合成的DNA链。用于DNA合成的多种方法和商用寡核苷酸合成器对本领域人员是可获得的和已知的。用于DNA合成的方法包括固相亚磷酰胺合成、基于微芯片的寡核苷酸合成、连接介导组装、PCR介导组装等。寡核苷酸合成器的示例包括ABI 394 DNA合成器(加利福尼亚州福斯特市的AppliedBiosystems)，压电寡核苷酸合成器和点样仪(POSAM)，光刻寡核苷酸合成器等。

合成的DNA链被放置于DNA存储库108中。DNA存储库108可以被划分为一个或多个DNA池110。每个DNA池110表示物理位置，在该物理位置内的DNA链之间没有进一步物理或结构分部。将不同的文件102的内容分离进入不同的DNA池110中是用于提供对各个文件的随机存取的一项技术。在该示例中，随机存取由多个DNA池110的物理位置所提供。然而，由于DNA的高信息密度，有可能以非常小的体积存储来自许多不同数字文件102的信息。相应地，不混合来自不同的数字文件102的DNA将级大限制信息可以在DNA中被存储所使用的密度。

考虑到包含大量DNA链的DNA池110，DNA链表示来自若干不同数字文件102的数据，检索对应于一个或若干所选择的数字文件102的数据需要使用DNA链自身以确定给定的DNA链对应于哪个数字文件102的技术。

每个DNA链可以出现在DNA池110中作为单链的分子，或者可以杂交于互补的ssDNA链，以形成双链的DNA。若有需要，通过使用非对称的PCR或另一技术，dsDNA可以被转换为ssDNA。非对称的PCR使用不等量的两个引物。大量过剩的引物中的一个被添加到创建过剩的ssDNA的反应。从dsDNA创建ssDNA对于本领域技术人员是已知的。参见Gyllensten,U.B.，和H.A.Erlich的Generation of single-stranded DNA by the polymerase chainreaction and its application to direct sequencing of the HLA-DQA locus。85美国国家科学院院刊7652-7656(1988)；McCabe,P.C.的Production of single-stranded DNAby asymmetric PCR。在M.A.Innis,D.H.Gelfand和J.J.Sninsky(Eds)的PCR Protocols,AGuide to Methods and Applications，学术出版社，纽约：76(1990)中；和XS，DYZhang，和G.Seelig的Conditionally fluorescent molecular probes for detecting singlebase changes in double-stranded DNA，5自然化学782(2013)。

DNA链可以以溶液或者另一格式被存储，诸如冻干的、在石英玻璃球体中等。基于DNA链中所包含的ID序列，对应于特定数字文件102的DNA从DNA池110中被检索到。ID序列和特定的数字文件102之间的对应性可以被存储在计算设备104的存储器118中，诸如例如在查找表中。现有技术已经使用PCR引物位点作为ID序列。适当的引物的添加和利用PCR的扩增极大增加了包括引物位点的那些DNA链的拷贝的数目。DNA测序读取经扩增的拷贝，并且由于数目上的巨大差异，未经扩增的拷贝不被表示在测序输出中。如将在以下详细所讨论的，本公开的技术以不同的方式在DNA链上使用ID序列。代替向DNA池110中引入引物，寡核苷酸合成器106可以被用来引入被称为“短链”的DNA的短片段，“短链”持有具有与促进DNA测序的测序衔接子相邻的ID序列的DNA链。酶DNA连接酶被用来将DNA链与测序衔接子连接成单个较长的DNA链，其包括表示两侧为测序衔接子的数字文件102的一部分的DNA序列。这被称为连接产物，因为它是作为将多条DNA链连接在一起的结果而产生的。

连接产物存在于DNA池110或另一器皿或容器中，来自DNA池110的DNA链可以被转移至该器皿或容器中。例如，器皿或容器，可以是Eppendorf管，热循环器/PCR管，微流体室等。连接产物是包括供DNA测序器112使用的测序衔接子的DNA链。测序衔接子对于本领域技术人员是已知的。不同的测序技术和机器使用不同的衔接子。Head，Steven R.等人的“Library Construction for next-Generation Sequencing:Overviews andChallenges”生物技术56.2(2014)：61-passim”。

一旦测序衔接子通过连接被附接于感兴趣的DNA链，连接产物就可以被直接提供至DNA测序器112以用于测序，如从DNA存储库108至DNA测序器112的虚线所示。DNA库110中的其他DNA链将不会具有测序衔接子，因为那些DNA链没有允许用于短链的杂交的ID序列。DNA测序器112可以使用利用测序衔接子的、用于测序的任何技术。例如，DNA测序器112可以使用通过合成的测序、平行的焦磷酸测序、单分子实时测序(SMRT)、SOLiD(通过寡核苷酸连接和检测进行的测序)、或本领域技术人员已知的其他测序技术。

备选地，在DNA测序器112中测序之前，DNA链可以被扩增。若干方法中的任何方法可以被用来扩增来自样本的目标核酸。术语“扩增”通常指在目标核酸的拷贝的数目上的“指数的”增加，“扩增”在本文中被用来描述核酸的选择目标序列的数目的线性增加和指数的增加两者。术语“扩增反应混合物”指包括被用来扩增目标核酸的各种试剂的水溶液。这些包括酶(包括聚合酶和热稳定聚合酶(诸如DNA聚合酶、RNA聚合酶和反转录酶))、水缓冲剂、盐、扩增引物、目标核酸和三磷酸核苷酸。根据上下文，混合物可以是完整的或不完整的扩增反应混合物。用以扩增目标核酸的方法可以是对本领域技术人员可用的任何方法。

用于扩增的一项技术是PCR，可以使用PCR热循环器114。各种PCR技术是已知的，并且可以与此处所述的技术一起使用。PCR技术通常被用于寡核苷酸的至少一部分的扩增。将针对分析特异性序列的存在而被测试的样品与以下各项接触：第一和第二寡核苷酸引物；核酸聚合酶；以及与将在PCR期间被添加的核苷酸相对应的三磷酸核苷酸。天然碱基三磷酸核苷酸包括dATP、ciCTP、dGTP、dTTP和dUTP。如果期望或需要，也可以添加非标准碱基的三磷酸核苷酸。用于PCR的合适的聚合酶是已知的，并且包括，例如，热稳定的聚合酶，诸如栖热菌属的天然和改变的聚合酶，包括但不限于栖热水生菌(Taq)、黄曲霉栖热菌(Tfl)、和嗜热生物栖热菌(Tth)，以及DNA聚合酶I和HIV-1聚合酶的克列诺夫(Klenow)片段。

DNA池110或者包含待分析的DNA的其他器皿的全部内容，可以被放置于PCR热循环器114中。PCR的过程对于本领域技术人员是已知的，并且已经被广泛地描述。PCR包括以下三个步骤：变性、退火和扩展。首先，任何dsDNA被变性，转换为单链。然后，引物被退火至单链分子的互补区域。在第三步中，引物被DNA聚合酶的动作扩展。所有这些步骤是温度敏感的，并且温度的常用选择分别是94℃、60℃和70℃。为了一起扩增测序衔接子与编码数字文件102的部分的DNA，引物被设计为与测序衔接子的端杂交，以便创建连接产物的多个拷贝。根据定义，熔化温度(T_m)是DNA双螺旋的二分之一将分离变成单链的温度，并指示双螺旋稳定性。具有范围在52℃-58℃的熔化温度的引物通常产生最佳结果。具有高于65℃的熔化温度的引物具有二级退火的趋势。序列的GC含量给出了引物T_m的合理指示。来自DNA池110的其他DNA链仍将在PCR期间出现，但是出现在PCR混合物中的引物将不可能与那些DNA链杂交。PCR热循环器114所生成的选择性地扩增的DNA可以被提供给DNA测序器112。在测序之前的PCR扩增改善了产量，并可以将ssDNA转换为dsDNA，这将改善存储装置中的DNA的稳定性和寿命。

来自DNA测序器112的输出是包括一系列字母的电子数据，该系列字母表示被提供给DNA测序器112的DNA链中的核苷酸。该电子数据被返回至计算设备104，或者至不同的计算设备，被转换为二进制数据，进一步被分析，校正错误，并最终被重新组装成数字文件102。

计算设备104可以包括一个或多个处理单元116和存储器118，处理单元116和存储器118两者可以被分布跨越一个或多个物理的或逻辑的位置。(多个)处理单元116可以包括中央处理单元(CPU)、图形处理单元(GPU)、单核处理器、多核处理器、处理器簇、专用集成电路(ASIC)、诸如现场可编程门阵列(FPGA)的可编程电路等。除了硬件实施方式以外，(多个)处理单元116的一个或多个可以被实施为软件或固件。(多个)处理单元116的软件或固件实施方式可以包括以任何合适的编程语言编写的计算机可执行的或机器可执行的指令，其用以执行上述各种功能。(多个)处理单元116的软件实施方式可以全部或部分地被存储于存储器118中。

备选地或附加地，计算设备104的功能可以至少部分地被一个或多个硬件逻辑组件执行。例如并不限于，可以被使用的硬件逻辑组件的图示类型包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产物(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD)等。

计算设备104的存储器118可以包括可移除的存储装置，不可移除的存储装置、本地存储装置或远程存储装置，用以提供计算机可读指令、数据结构、程序模块及其他数据的存储。存储器118可以被实施为计算机可读介质。计算机可读介质包括至少两种类型的介质：计算机可读存储介质和通信介质。计算机可读存储介质包括以任何方法或技术实施的易失性和非易失性介质、可移除的和不可移除的介质，以用于诸如计算机可读指令、数据结构、程序模块或其他数据的信息的存储。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、或可以被用来存储供计算设备存取的信息的任何其他非传输介质。

相比之下，通信介质可以实施计算机可读指令、数据结构、程序模块或经调制的数据信号(诸如载波或其他传输机制)中的其他数据。如此处所定义的，计算机可读存储介质和通信介质是互斥的。

存储器118可以存储指令，这些指令使得计算设备104接收来自数字文件102的指示，数字文件102诸如，例如，文件1。指示可以响应于由用户在输入设备上生成的输入而被接收。例如，输入可以是用户在显示屏幕上选择表示数字文件102的图标，或者在键盘上键入数字文件102的名称。一旦数字文件102被标识至计算设备104，计算设备104就可以标识DNA核苷酸的序列，DNA核苷酸的序列是用于数字文件102的ID序列。例如，存储在存储器118中的指令可以使得计算设备104存取将数字文件102的标识与As、Gs、Cs和Ts的特定字符串相关的查找表。如以下更加详细所述，本ID序列可以出现在包含来自数字文件102的数据的DNA链上。计算设备104还可以接收测序技术的指示。在一个实施方式中，本指示作为响应于来自用户至输入设备的输入而生成的电信号而被接收。例如，所选择的测序技术可以是通过合成的

测序、SMRT测序、SOLiD测序、454测序等。

存储在存储器118中的指令可以使得计算设备104标识在所选择的测序技术中所使用的测序衔接子的端序列。在一个实施方式中，存储器118可以存储不同类型的测序衔接子的序列，测序衔接子可以被用于针对测序技术的各种选项。端序列也可以被预定义和存储。在一个实施方式中，用户可以选择叠加的期望长度(例如，20nt)，并且计算设备104可以标识在匹配期望长度的测序衔接子的端处的序列。使用存储器118中的指令的计算设备104和(多个)处理单元116可以设计与ID序列部分互补并且与测序衔接子的端序列部分互补的短链。计算设备104可以随着指令发送短链序列，以合成具有序列的寡核苷酸至寡核苷酸合成器106。测序衔接子可以通过从计算设备104向寡核苷酸合成器106发送的指令类似地被创建。附加地或者备选地，测序衔接子可以从那些分子的已有的存储库中获得。例如，通过合成测序的过程可以使用包括直接相邻于第一测序引物(例如，长度为33nt)的第一测序衔接子序列(例如，长度为29nt)的第一测序衔接子区域，和包括直接相邻于第二测序引物的第二测序衔接子序列的第二测序衔接子区域。第一测序衔接子序列和第二测序衔接子序列可以与附接至被用于通过合成测序的测序器的流动室的DNA序列杂交。

存储器118可以包括指令，该指令使得***100将DNA池110的全部或部分与短链和测序衔接子相组合。在各实施方式中，该组合可以由一个或更多机器人/微流体***120所执行。***100还可以发送指令以将DNA链与测序衔接子相连接，DNA链对数字文件102的部分编码。例如，这些指令可以使用指令的形式至机器人/微流体***120，以将DNA连接酶添加至包括短链和测序衔接子的DNA池110。响应于来自存储器118的指令的计算设备104可以接收来自DNA测序器112的DNA测序器读取数据，并在DNA测序器读取数据内标识读取，该DNA序列器读取数据对数字文件102的部分编码。至少部分基于那些读取内的ID序列的存在，该读取可以被标识。

经由一个或多个直接的连接或可以是有线或无线网络连接的网络的连接，一个或多个机器人/微流体***120可以与计算设备104、寡核苷酸合成器106、DNA存储库108、DNA测序器112和PCR热循环器114的一个或多个接口连接。机器人/微流体***120可以控制寡核苷酸合成器106、DNA测序器112和PCR热循环器114的操作，以及通过***100的不同阶段移动样本，以创建全部或部分自动的***。

一个或多个机器人/微流体***120可以包括一个或多个机器人设备，诸如，例如，安德鲁液体处理机器人(Andrew Alliance,瑞士日内瓦)或者SOLO^TM液体处理器(哈德逊机器人，新泽西州斯普林菲尔德)等。

微流体是一个跨工程，物理，化学，生物化学，纳米技术和生物技术相互交叉的多学科领域，具有***的设计的实际应用，其中将处理少量流体。通常，流体被移动，混合，分离或以其他方式处理。许多应用采用被动流体控制技术，如毛细管力。在一些应用中，外部致动被附加地用于介质的直接的传输。外部致动的示例包括旋转驱动器，其施加离心力以用于无源芯片上的流体运输。活性微流体是指通过有源(微)组件对工作流体的限定操纵，有源(微)组件诸如微型泵或微型阀门。微型泵以连续的方式供应流体或者被用于定量给料。微阀门确定泵入的液体的流动的方向或者移动模式。通常在实验室中进行的过程经常在单个芯片上被小型化，以便提高效率和移动性，以及减少样品和试剂量。

例如，机器人/微流体***120可以被配置为响应于来自计算设备104的一系列指令，将一定体积的液体从第一腔室移动到第二腔室。一种类型的操纵是样本分割。多种方法可以被用来将样本划分为分立的分区(例如，水滴)。分割方法和***的示例包括乳化，液滴致动，微流体平台，连续流动微流体，试剂固定及其组合中的一个或多个。在一些实施例中，分割被执行以将样本划分为足够数目的分区，使得每个分区包含一个或零个核酸分子。在一些实施例中，分区的数目和大小是基于体样本的浓度和体积。

将总体积划分为分区的微流体***和方法包括乳化、“油包水”液滴的生成、和单分散液滴的生成，以及使用通道、阀门和泵。分割方法可以利用液滴操纵技术被扩增，包括电学手段(例如，静电致动、双向电泳)、磁性手段、热学手段(例如，热Marangoni效应、热毛细血管)、机械的手段(例如，表面声波，微泵，蠕动)、光学的手段(例如，光电湿润、光学钳)，以及化学手段(例如，化学梯度)。在一些实施例中，液滴微致动器补充有微流体平台(例如，连续流动组件)。微流体***的一些实施方式使用液滴微致动器。液滴微致动器能够实现液滴操纵或操作，诸如分配，***，运输，合并，混合，搅拌等。

图2示出用于使用连接来添加测序衔接子的技术的示意实施方式200。DNA链202是可以存在于DNA池110中的DNA链的示例。DNA链202的中间是有效负载序列204，其包含对应于数字文件102的部分的核苷酸编码数据。有效负载序列204的两侧是用作用于唯一标识的ID序列或密钥的5’端序列206和3’端序列208。因此，DNA链202的结构可以是密钥-数据-密钥。5’端序列206和3’端序列208可以具有相同或不同的核苷酸序列。可以通过寡核苷酸合成技术来创建的合成的DNA链的大小限制大约是200nt。该长度被预期将在未来增加，并且本公开的技术对于不同长度的DAN链同样工作良好。在实施方式中，端序列的长度可以是在15-20nt之间。5’端序列206和3’端序列在长度上可以相同或不同。因此，取决于寡核苷酸合成技术，有效负载序列204的长度可以在大约160-170nt之间。其他长度和密钥与数据区域的其他比率也是可能的。随着ID序列/密钥的长度增加，可以被用来唯一标记DNA链的ID序列的种类将更多，但是可用于有效负载序列204的DNA链将更少。

5’端序列206和3’端序列208的唯一性可以被用来标识与有效负载序列204中的数据相关联的任何特性。例如，每个唯一的DNA链可以与唯一的ID序列相关联。这样做将导致对于检索大量DNA链所必需的非常高数目的ID序列。在一个实施方式中，每个ID序列可以与数字文件102相关联，以便对来自数字文件102的数据编码的每个有效负载序列204的两侧是相同的唯一ID序列。这是将通过本公开的剩余部分讨论的实施方式；然而，此处讨论的DNA链和技术同样适用于ID序列和经编码的数据之间的其他关系。作为示例，ID序列可以与数字文件102的集合相关联(例如，“文件夹”中的所有文件，由“John Smith”发送的所有邮件，在10/1/2016生成的所有视频等)，使得检索具有给定的ID序列集合的所有DNA链将致使检索与多于一个数字文件102相关联的数据。

5’端序列206和3’端序列208可以是PCR引物位点，PCR引物位点被用来选择性地仅扩增那些具有那些引物站点的DNA链。通过为不同的有效负载序列204分配不同的引物，有可能从DNA池110中选择DNA链的子集。随机存取可以通过将ID序列映射至PCR引物来提供，然后，PCR引物被用于由PCR热循环器114所执行的PCR扩增反应，PCR热循环器114仅扩增具有期望数据的链。为了从溶液中读取特定ID序列的值，PCR使用ID序列的引物来执行，这扩增了所选择的链。然后，测序过程仅读取那些链，而不是全部DNA池110。用于实现DNA池110中的DNA链的随机存取的本技术在其他地方进行了更加详细的描述，诸如在美国临时专利申请号62/255,269中。

本公开的技术通过使用短DNA“短链”分子210和212不同地进行，短DNA“短链”分子210和212与DNA链202的ID序列(端序列206、208)部分地杂交，并且与测序衔接子214和216部分地杂交。5’端短链210保持DNA链202与第一测序衔接子214相邻，并且3’端短链212保持DNA链202与第二测序衔接子216相邻。因此，有了标签“短链”。DNA短链也被用于DNA折纸。DNA折纸是DNA的纳米级折叠，用以创建在纳米级上的非任意的二维和三维形状。通过其核苷酸序列，互补的碱基对之间的交互的特异性使得DNA成为有用的构建材料。DNA折纸的过程包括多个小“短链”链所辅助的DNA的长单链的折叠。这些较短的链在各种位置结合较长的链，产生各种形状。尽管本公开不涉及将DNA链折叠成各种形状，但是短链的功能和使用是相似的。

在一个实施方式中，短链210和212与DNA链202之间的重叠的长度可以是大约15-20nt。类似地，短链210和212与测序衔接子214、216之间的重叠的长度也可以是大约15-20nt。因此，在一个实施方式中，短链210、212可以是大约30-40nt。与DNA链202重叠的短链210、212的部分和与测序衔接子214、216重叠的部分之间的划分，可以是在短链210、212的中间或者在某个其他的点处。

一旦测序衔接子214、216和DNA链202全部被附接于短链210、212，DNA连接酶就可以被用来将测序衔接子214、216的DNA主链共价键合到DNA链202。DNA连接酶是一种特定类型的酶，通过催化磷酸二酯键的形成促进DNA链连接在一起的连接酶。DNA连接酶的机制是在一个核苷酸的3’羟基端(“受体”)与另一个核苷酸5’磷酸端(“供体”)之间形成两个共价磷酸二酯键。当分子通过寡核苷酸合成器106进行合成或者通过利用激酶(诸如T4多核苷酸激酶)处理DNA而被添加时，连接使用可以被添加至分子的5’磷酸。一种辅助因子通常被包含在反应中，并且通常为ATP或NAD⁺。任何类型的DNA连接酶可以被使用，诸如大肠杆菌DNA连接酶、来自噬菌体T4的DNA连接酶、来自嗜热细菌的热稳定性连接酶、哺乳动物连接酶等。对于诸如由具有延伸的短链的使用所创建的粘合端部碎片的最佳连接效率，最佳的酶温度(例如，对于T4 DNA连接酶为37℃)是使用被连接的链的熔化温度T_m来均衡的。若温度足够高以打断DNA链之间的氢键，则短链210、212和DNA链202加上测序衔接子214、216之间的杂交将不稳定。当DNA链已经稳定退火，则连接反应是最有效的，并且退火端的断裂将因此导致低连接效率。通常，延伸越短，T_m越低。

在连接之后，测序衔接子214、216和DNA链202之间的“缺口”被封闭。封闭缺口创建包括原始DNA链202和测序衔接子214、216的单DNA链的连接产物218。该连接产物218现在被准备用于通过利用与测序衔接子214、216相兼容的测序技术来测序。

一旦DNA测序器112已经接收到连接产物218和所生成的测序读取，则DNA链级别上的处理可以停止。然而，在一个实施方式中，连接产物218可以在测序之前由PCR扩增。扩增增加了每个连接产物218的拷贝的数目，每个连接产物218为DNA测序器112提供更多待分析的分子，并且可以导致更准确的测序读取。在使用PCR的实施方式中，前向PCR引物220被引入，其与连接产物218的单链的3’端相结合。在连接之后，连接产物218可以仅作为ssDNA存在，而无需互补链。由于DNA聚合酶的方向性，在PCR期间互补链的创建从DNA链的3’端前进至5’端。因此，被设计为扩增与单链连接产物218互补的DNA链的反向引物222将没有结合位点，直至互补的DNA链被合成为止。

在PCR扩增期间，反向互补的DNA链从连接产物218被合成。该分子包括有效负载序列204R的反向互补，5’端序列206R的反向互补，3’端序列208R的反向互补，第一测序衔接子214R的反向互补和第二测序衔接子216R的反向互补。连接产物的前向链和反向链两者形成双链的DNA链224。前向引物220和反向引物222两者被设计为与双链的DNA链224的端互补。这提供了连接产物218的完整长度的PCR扩增，这产生多个拷贝，均包括第一测序衔接子214和第二测序衔接子216的全部。因此，在一个实施方式中，PCR引物的序列由测序衔接子214、216的序列决定。这使得相同的引物220、222有可能被用于多个不同DNA链的扩增，甚至是包括不同的端序列206、208的DNA链，只要连接具有至DNA链的端的相同的测序衔接器214、216。因此，PCR可以被用来扩增同时且均匀地对应于多个不同文件的有效负载序列204，因为相同的引物220、222被使用。

注意，未经修饰的短链210、212可以在该PCR富集中用作引物，这可以导致不可预测的PCR偏差。为了避免这种情况，短链210、212可以在PCR之前使用大小可选择的胶体来移除，或者在3’端上进行化学修饰，以避免在PCR期间的链扩展。这使得引物220、222成为PCR扩增发生的仅有的位置。

随着PCR的进行，dsDNA链224的两个链的拷贝的数目将增加。反向互补的DNA链可以被DNA测序器112忽略，因为反向互补的DNA链不包括测序衔接子214、216，但是包括那些测序衔接子的反向互补的序列。因此，反向互补的DNA链用作用于在PCR期间制作连接产物218的更多拷贝的模板。因此，不像使用与DNA链202的端序列206、208杂交的PCR引物的其他随机存取技术，该技术使用通过连接进行的测序衔接子214、216的添加以实现随机存取，而PCR引物中的PCR的使用增加了已经包括测序衔接子214、216的那些DNA链的拷贝的数目。

图3示出了用于使用连接来添加测序衔接子的技术的示意实施方式300。类似于图2中所引入的技术，DNA链302包括有效负载序列304、5’端序列306和3’端序列308。短链分子310、312与上述图2功能相同。包括测序衔接子318、320的分子314、316是不同的。相对于仅作为图2中的测序衔接子本身，这些分子314、316也包括与相应的短链310、312的部分杂交的附加的“短链匹配序列”322、324。这允许将测序衔接子318、320连接至DNA链302，而无需短链310、312杂交于测序衔接子318、320自身的一部分。这可以是有益的，例如，若测序衔接子318、320的序列在将被用于处理的反应条件下对于与互补的DNA链的杂交无益。附加地，该技术可以允许针对自动化的更高级别的模块化和适合性，因为基于与短链匹配序列322、324相杂交的能力，相同的短链310、312可以被用于任何给定的ID序列对(5’端序列306、3’端序列308)，无论出现哪种类型的测序衔接子318、320。因此，在一个实施方式中，不同版本的分子314/316可以被准备，以便每个不同版本具有测序衔接子318、320，以用于不同t测序技术，但是均共享相同的短链匹配序列322、324。

DNA链302、短链310、312和包括测序衔接子314、316(或者如图2所示没有短链匹配序列的测序衔接子214、216)的分子之间的退火可以通过遵循逐渐冷却渐变而更加具体。通过将温度从第一较暖的温度逐渐降低至第二较冷的温度，短链310、312更有可能与正确的目标位点退火，因为有用于在更高温度上退火的更高特异性。例如，冷却渐变可以从100℃左右的第一温度前进至25℃左右的较低温度，在该100℃左右的第一温度下，各种DNA链的全部是分离的，在该25℃左右的较低温度下，短链310、212已经部分地退火至DNA链302，并且部分地退火至包括测序衔接子314、316的分子。温度改变可以通过可以改变DNA链的温度和他们被包含的介质的任何技术来实现。在一个实施方式中，PCR热循环器114可以被用来控制温度。因此，在实践中，DNA池110或其部分可以被放置于PCR热循环器114中，以便实现特定温度并实施冷却渐变，无论PCR是否被用来选择性地扩增DNA。

在一个实施方式中，将第一温度降低至第二温度是在大约一小时的过程中缓慢执行的。在较高的温度，例如100℃左右，相应的DNA链由于高温而无法退火。随着温度逐渐降低，热动力学上最有利的退火首先发生，其通常是在彼此精确匹配的互补链之间的退火。因此，从第一温度至第二温度的缓慢的冷却过程增加退火的特异性，这增加了短链310、312将与5’端序列306、3’端序列308和短链匹配序列322、324的互补区域退火的可能性。

连接可以在冷却至第二较低温度之后被执行。在实施方式中，温度可以被提升至不同的第三温度，第三温度是用于DNA连接酶操作的最有效的温度，诸如，例如，用于T4DNA连接酶的37℃。连接创建连接产物326，连接产物326包括有效负载序列304、用作唯一ID序列的端序列306、308、短链匹配序列322、324和测序衔接子318、320。这类似于图2所示的连接产物218。

即便短链310、312形成二级结构或非特定退火，这也不可能负面影响由DNA测序器112生成的读取输出。二级结构可以包括发夹结构、自身二聚体和交叉二聚体。短链310、312与诸如(例如)有效负载序列304的位置的非特定退火将不会在连接可能的位置上创建定位包括测序衔接子314、316(或图2的测序衔接子214、216)的分子所必需的结构。在5’端和3’端上没有适当的测序衔接子318、320的被提供给DNA测序器112的DNA链将不会被测序。因此，误退火将不会影响连接产物326的序列的准确性。附加地，过度的短链310、312可以被添加至反应混合物，使得有充裕的短链310、312来退火至另一DNA链。在测序期间维持退火至连接产物326的任何短链310、312作为测序过程的部分而被替换。

图4示出了用于基于ID序列使用连接来选择性地将测序衔接子添加至某些DNA链的技术的示意实施方式400。该示意实施方式400使用与图2和图3所示的示意实施方式200和300相同的通用格式。回顾一下，DNA池110可以包括多条DNA链402、404和406，其中各个DNA链与来自不同的数字文件102的数据相关联。这些各种DNA链402、404、406可以在DNA池110内被混合，并可以在DNA链402、404、406的5’端和3’端上通过ID序列408、410、412、414、416、418进行区分。

DNA链402包括来自第一数字文件的有效负载序列420，有效负载序列420的两侧是5’端序列408和3’端序列410。DNA链404包括来自第二数字文件的有效负载序列422，有效负载序列422的两侧是5’端序列412和3’端序列414。DNA链406包括来自第三数字文件的有效负载序列424，有效负载序列424的两侧是5’端序列416和3’端序列418。这些有效负载序列420、422、424中的每个可以是(但是不一定必须是)不同的，因为它们包括不同的数字文件的不同部分。然而，相应的端序列408、410、412、414、416、418足够不同，以允许每个DNA链402、404、406与其他的区别不共享相同的端序列。

DNA链402、404、406可以与短链的集合426组合，短链的集合426包括多个短链对，其可以与一些但是少于全部的DNA链402、404、406结合。在此，第一短链428可以部分地退火至DNA链402的5’端序列408，并且第二短链430可以退火至3’端序列410。类似地，第三短链432可以退火至DNA链406的5’端序列416，而第四短链434可以退火至3’端序列418。在该示例中，没有退火至DNA链404的端序列的短链。随机存取是通过选择哪些短链序列与DNA池110中的DNA链组合来实现的。因此，可以使用短链的集合426的组合，短链的集合426可以退火至与多于一个数字文件相关联的DNA链。短链428、430、432、434的序列的差异使得短链退火至DNA链402、404、406的互补区域。将包括DNA链402、404、406，短链的集合426和测序衔接子对436的混合物从不会发生退火的第一较高温度缓慢冷却至退火可以发生的较低温度增强了退火特异性。可以通过退火有效地区分的不同短链序列的数目提供了唯一的ID或密钥的数目，这些唯一的ID或密钥可以被分配至给定的DNA池110。

可能的唯一ID的数目由“地址空间”的概念表示。地址空间是许多可以被创建地不同的端序列的数目的指示，该地址空间又标识有多少分离的数字文件102或其他信息分组可以在单个DNA池110内被唯一地标识。地址空间主要受限于被用来生成ID序列的核苷酸的数目。如上所述，端序列408、410、412、414、416、418可以是任何长度但是在一些实施方式中为15-20nt。在四个字母的字母表(即，A，G，C，T)情况下的最大地址空间是4ⁿ，其中n是被用于标识的序列的长度。因此在15nt的ID序列的情况下，理论上最大地址空间为4¹⁵或1,073,741,824。无论什么原因，不能够用作端序列或者其互补不能够用作短链序列的一部分的所有序列被排除，并且剩余数目是用于长度为n的ID序列的地址空间。形成二级结构的序列可以被排除，以避免退火至有效负载序列的端序列、在自身之上折叠的短链等。例如，由于倾向于形成长茎发夹结构，所有的短链可以具有二级结构，该二级结构具有超过六个碱基自配对。高度相似的序列(例如，以汉明(Hamming)距离的形式)也可以被排除，以避免导致错误文件的检索的误退火。

用于短链的序列空间远大于针对执行提供随机存取的角色的PCR引物的序列空间。引物的设计必须涉及与DNA链的区域(诸如有效负载区域)的非特定退火。尽管存在设计具有相似T_m、避免二级结构并避免非特定结合的引物的软件，但是这些可能的引物序列的排除极大地限制了序列空间。然而，利用短链，不会导致测序衔接子的连接的非特定退火不会负面影响测序的结果。附加地，由于冷却渐变的使用，因此与熔化温度T_m有关的问题对于短链设计比对于引物设计更少。具有在52-58℃范围内的熔化温度的引物通常产生最佳结果。具有超过65℃的熔化温度的引物具有进行二次退火的趋势。具有甚至更弱二级结构(例如，三个碱基自配对)的引物可以具有PCR有效性上的效应，因为二级结构可以形成动力学陷阱，动力学陷阱在相对短(例如，少于一分钟)的杂交步骤期间减少引物杂交。由于相对缓慢的冷却渐变，因此动力学陷阱是针对短链的较小问题。在相同的PCR反应期间所使用的所有引物应当具有近似相同的T_m。然而，当短链被特别与引入了冷却渐变的过程一起使用时，具有不同T_m的范围的多种短链可以一起被使用。

测序衔接子对436还可以与DNA链402、404、406和短链的集合426相结合。测序衔接子对436包括第一测序衔接子438和第二测序衔接子440。取决于所用测序技术的细节，第一测序衔接子438和第二测序衔接子440都可以具有与被附接于DNA测序器112中的流动室的互补序列结合的流动室结合位点。注意，与不同端序列部分互补的两条短链(例如，428、432)也都与相同的测序衔接子(例如，438)部分互补。因此，不同的DNA链402、404、406之间的区别通过短链而非测序衔接子438、440来实现。

在退火和连接之后，DNA链404保持不修饰，因为短链的集合426中没有包括退火至5’端序列412和3’端序列414的部分。通过对应短链428、430的使用，DNA链402被连接至测序衔接子438、440。这创建第一连接产物442，使得可能对有效负载序列420进行测序。类似地，通过对应短链432、434的使用，DNA链406被连接至测序衔接子438、440。这创建第二连接产物444，使得可能对有效负载424进行测序。应当理解，在典型的反应条件中，将有彼此交互的许多成千的或者上百万的每种类型的分子，最终导致大量连接产物442、444。

连接产物442、444的每个可以通过DNA测序器112进行测序。连接产物442、444在端上具有相同的测序衔接子438、440，因此，连接产物442、444将通过DNA测序器112进行相同处理。因此，在对应于来自多个不同文件的数字数据的DNA链通过DNA测序器112被一起测序的实例中，对应于分离的多个不同文件的每个的数据在测序之后被从其他数字文件数据分离。该分离是在由DNA测序器112输出的读取序列的基础上完成的。测序捕获测序衔接子438、440之间的核苷酸序列，因此，来自DNA测序器112的输出还包括序列连接产物442、444的相应的5’端序列408、416和相应的3’端序列410、418的核苷酸序列。因此，在端序列中找到的不同的序列可以被用于计算机分析(in silico analysis)，以将源自DNA链402的测序读取与源自DNA链406的测序读取分离。在计算机分离之后，根据其他地方描述的技术，不同的数字文件的相应片段可以被重新组合。

图5示出了短链匹配序列如何可以被用来防止短链用作PCR扩增位点的示意表示500。在连接产物被PCR扩增的实现期间，短链自身以及PCR引物可以是用作叠加扩展的PCR(OE-PCR)的起始点。此类PCR也被称为“通过叠加扩展的拼接”或者SOEing。

DNA连接酶不是100％有效的。在DNA链之间有一些与DNA连接酶不相连的缺口。因此，利用具有大量不同DNA链、短链和测序衔接子的群体，将存在一些不发生或不完全发生连接的情况。如前所述，具有有效负载序列504、5’端序列506和3’端序列508的DNA链502可以退火至第一短链510的部分和第二短链512的部分。第一测序衔接子514可以退火至第一短链510的部分，并且第二测序衔接子516可以退火至第二短链512的部分。若连接进行完毕，则如图2-图4所图示的连接产物将产生。然而，对于连接无法在一个或多个可能的连接位点上发生的那些DNA链，备选的退火有可能创建不需要的副产物。

不需要的副产物可以包括诸如第一短链510、DNA短链502、第二测序衔接子516等的结构，第一短链510被退火至第一测序衔接子514，DNA链502被退火至第二短链512，第二测序衔接子被退火至测序引物518等。OE-PCR将在相同的反应混合物中进行，并进行包括测序衔接子514、516和DNA链502的全长度的连接产物的期望PCR扩增。出现过多短链510、512的PCR的重复周期、前向引物518和反向引物520可以创建附加的全长度连接产物。

附加的全长度连接产物本身并不成问题，但是通过OE-PCR创建附加的全长度连接产物可以只针对那些短链510、512的集合发生，短链510、512的集合不形成二级结构。确实形成二级结构的短链将不太可能以创建用于DNA聚合酶的初始化的位点的方式退火。因此，在存在具有多个不同ID区域(例如，用作ID区域的数百万不同的DNA序列)的多个不同DNA链的实施方式中，许多不同短链对的使用(诸如图4所示)，可能一些短链对将支持OE-PCR，而通过二级结构的形成的短链对其他将不会。由于PCR扩增的指数性质，这将导致连接产物的不断增长的数量，对于连接产物相关联的短链对可以支持OE-PCR。PCR扩增的不平等数量引入一类PCR偏差，该偏差将导致来自DNA测序器112的读取有可能不会准确地反映DNA池110的内容。当一个文件主导测序读取时，其他文件将具有数量大大减少的测序读取。测序读取的数量降低可以使得有效负载下降，并防止那些文件的恢复。

为了防止OE-PCR和可能的PCR偏差，短链510、512可以包括附加的非互补区域522、524，其不退火至DNA链502上的对应位置或者至测序衔接子514、516。在作为正常连接期间，这些附加的非互补区域522、524作为ssDNA存在，ssDNA挂在连接产物的旁边。在一些实施方式中，非互补区域522、524可以是近似15-20nt长。当然他们可以更短或更长。图2-图4所图示的短链未被示出非互补区域，但是这种区域可以在不改变图2-图4所图示的交互的情况下出现。

在连接之后，短链510、512可以从连接产物中被替换，并通过短链互补的序列510C、512C(即“C”表示互补的)的添加被去激活，短链互补的序列是包括非互补区域522、524的短链510、512的反向互补。短链互补的序列510C、512C不一定必须完全互补于短链510、512，它们也不需要是准确的相同长度。然而，与短链510、512和DNA链502和相应地测序衔接子514、516所具有的结合能相比，短链互补的序列510C、512C被设计成具有与DNA链502的更强的结合能。两个单链的DNA链之间的结合能与配对的碱基的数目近似成比例。本领域技术人员将理解，通过诸如最近的相邻模型以及在不匹配和相邻碱基对之间包含交互的技术，如何估计结合能。参见Breslauer等人的Predicting DNA Duplex Stability from theBase Sequence，***合众国国家科学院学报83.11(1986):3746-3750。

因为非互补区域522、524与短链互补序列510C、512C的部分互补，但是不与可用于在DNA链502或测序衔接子514、516中退火的序列互补，相较于在短链和标准连接产物之间的配对，在短链510、512和短链互补序列510C、512C之间的配对，存在更大数目的碱基。因此，利用短链互补序列510C、512C的更高结合亲和力将使得短链与连接产物断开关联，并且利用其互补序列形成dsDNA产物526、528。这些sdDNA产物526、528的形成防止短链510、512用作DNA合成初始化位点，并且因而防止OE-PCR产物在PCR期间导致更多平等的扩增，以及可以被PCR引入的偏差的减小。

在实施方式中，短链互补的序列510C、512C可以包括3’修饰，以避免这些序列用作DNA合成初始化位点以及创建不期望的扩增。3’修饰可以是3’间隔区C3。该修饰是短3-碳链(C3)，其可以被附接于末端3’的羟基。3’间隔区C3的添加可以被用于多个分子方法中，其中非核苷类阻隔剂防止寡核苷酸的3’端与酶反应。对寡核苷酸的3’端添加该修饰防止在PCR期间延伸，而不会显著影响其退火特性。参见Vestheim，Hege，和Simon N Jarman的“Blocking Primers to Enhance PCR Amplification of Rare Sequences in MixedSamples–a Case Study on Prey DNA in Antarctic Krill Stomachs”，动物学前沿5(2008):12。

说明性过程

为了易于理解，本公开中所讨论的操作被描绘为独立框的单独操作。然而，这些分离地描绘的操作不应当被解释为其执行中所依赖的必需顺序。过程被描述的顺序不旨在被解释为限制，任何数目的所述过程框可以以任何顺序相组合来实施过程或备选过程。此外，还有可能所提供的操作的一个或多个被修改或省略。

图6示出了用于随机地存取在DNA池中的DNA链的图示性方法600。方法600可以在DNA池上实现任意的、随机的存取，以获得多条DNA链，通过选择性地准备用于测序的某些DNA链，每个DNA链存储相同数字文件的部分。方法600可以在图1所示的***100中全部或者部分地被实施。附加地，方法600的各部分可以以图2-图5所图示的示意表示200、300、400和500的视角来理解。

在602处，一条或多条短链和一个或多个测序衔接子被添加至DNA链。DNA链可以是在DNA池110中的DNA链，或者在包含DNA池110的部分的器皿中的DNA链。短链可以是互补的，并且部分地退火至DNA链，部分地退火至测序衔接子。例如，第一短链可以与在DNA链上出现的5’端序列部分互补，并且与第一测序衔接子的端序列部分互补。第二短链可以与在DNA链上出现的3’端序列部分互补，并与第二测序衔接子的端序列部分互补。第一测序衔接子和第二测序衔接子均可以被添加。

在实施方式中，DNA链的端序列的之一可以是ID序列，ID序列指示在DNA链的有效负载序列中的核苷酸编码数字文件的一部分。DNA池可以包含多条DNA链，这些DNA链全部都具有相同的ID序列但是不同的有效负载序列(例如，当许多DNA链被用来存储来自单个数字文件的数据时)。

在实施方式中，序列衔接子可以包括不通常被包含在标准测序衔接子上但与短链的部分互补的短链匹配序列。在没有短链匹配序列的备选的实施方式中，短链与标准测序衔接子的核苷酸的部分互补。

在实施方式中，多于一个数字文件可以从DNA池中被同时检索。例如，与在存储第二数字文件的部分的DNA链上出现的第二5’端序列部分互补并与第一测序衔接子部分互补的第三短链，以及与在存储第二数字文件的部分的DNA链上的第二3’端序列部分互补并与第二测序衔接子部分互补的第四短链也可以被添加。这将使得测序衔接子被连接至存储第二数字文件的部分以及第一数字文件的部分的DNA链。

在604处，热量被施加于DNA链、短链和测序衔接子。该热量可以通过对器皿或DNA池自身加热来施加。该热量可以通过使用PCR热循环器114或其他热源来施加。在实施方式中，温度可以被提升至dsDNA有可能完全变性的第一温度。例如，该温度可以是80℃，85℃，90℃，95℃，100℃，105℃，110℃，115℃或另一温度。

在606处，之前被加热的产物被冷却。这可以包括将DNA链、短链和测序衔接子冷却至低于第一温度的第二温度。冷却可以由PCR热循环器114或另一冷却设备来执行。例如，第二温度可以是室温，室温可以是15℃、20℃、25℃、30℃、35℃、40℃或另一温度。

从加热到冷却的改变可以被逐渐做出。例如，冷却渐变可以在一段时间上(诸如，例如，30分钟，40分钟，50分钟，60分钟，70分钟，80分钟，90分钟，或另一段时间)将温度从第一较暖的温度逐渐降低至第二较冷的温度。因此，冷却的速率可以近似于2.5℃/min，1.9℃/min，1.5℃/min，1.3℃/min，1.1℃/min，0.9℃/min，0.8℃/min或不同的冷却速率。

在608处，一个或多个测序衔接子被连接至DNA链。连接可以通过添加DNA连接酶来执行，以创建连接产物，DNA连接酶诸如T4DNA连接酶，大肠杆菌DNA连接酶，哺乳动物的DNA连接酶(I，III或IV)，或其他类型的DNA连接酶。能量源也可以被添加，诸如ATP或NAD+。连接将DNA链的磷酸骨架接入测序衔接子，创建被准备用于测序的新的更长的DNA链。在实施方式中，DNA连接酶可以仅在冷却至第二较低温度之后被添加。连接产物可以包括DNA链，该DNA链具有包括第一测序衔接子、5’端序列、存储数字文件的部分的有效负载序列、3’端序列和第二测序衔接子的序列。

在610处，短链可以在PCR扩增之前被移除。用于移除短链的一项技术是，在添加DNA连接酶之后，添加与第一短链杂交的第一短链互补序列和与第二短链杂交的第二短链互补序列，第一短链具有高于连接产物的结合能，第二短链具有高于连接产物的结合能。

在612处，DNA链通过PCR或其他扩增技术来扩增。PCR可以使用与第一测序衔接子或第二测序衔接子的部分互补的至少一个引物。引物可以与测序衔接子的端序列互补，测序衔接子位于相对于有效负载内容的远端。在引物仅与测序衔接子区域内找到的序列结合的实施方式中，没有测序衔接子区域的DNA链将不会被扩增。

在614处，被连接至测序衔接子、连接产物的DNA链如上所述进行测序。测序技术使用被连接至DNA链的测序衔接子。例如，若测序衔接子用于以通过合成测序的方式与流动室结合，则测序技术将使用与测序衔接子结合的流动室的类型。

在616处，通过测序生成的DNA序列读取数据是基于3’端序列或5’端序列数据被分离的。若测序衔接子被连接于分别对应于多于一个数字文件的DNA链，则该分离可以被执行。因此，具有存储第一数字文件的部分的有效负载序列的连接产物的序列读取可以从具有存储第二数字文件的部分的有效负载序列的连接产物中被分离。

说明性实施例

以下条款描述用于实施在本公开中所述的特征的多个可能的实施例。此处所述的各种实施例不限于也不是来自任何给定实施例而被要求出现在另一实施例中的每个特征。实施例的任何两个或更多个可以被组合在一起，除非上下文另有明确说明。如此处所使用的，“包括”意味着包括所有所列出的特征，并且潜在地包括未经列出的其他特征的添加。“基本上由...构成”意味着包括所列出的特征和那些附加特征，附加特征不会实质上影响所列出特征的基本的和新颖的特性。“由...构成”意味着只有所列出的特征，排除没有列出的特征。

条款1.一种在DNA池上执行任意随机存取以获得多条DNA链的方法，多条DNA链各自存储相同的数字文件的部分，该方法包括：

向包含来自DNA池的DNA链的器皿添加：

第一短链，其与出现在多条DNA链上的5’端序列部分地互补并且与第一测序衔接子区域部分地互补，第一测序衔接子区域包括第一测序衔接子序列和第一测序引物结合区域，

第二短链，其与出现在多条DNA链上的3’端序列部分地互补并且与第二测序衔接子区域部分地互补，第二测序衔接子区域包括第二测序衔接子序列和第二引物结合区域，

第一测序衔接子区域，以及

第二测序衔接子区域；

将器皿加热至第一温度；

将器皿冷却至低于所述第一温度的第二温度；以及

向器皿添加DNA连接酶以创建连接产物，连接产物包括多条DNA链的子集，子集具有包括第一测序衔接子区域、5’端序列、对数字文件的部分进行编码的有效负载序列、3’端序列和第二测序衔接子区域的序列。

条款2.根据条款1的方法，其中第一测序衔接子区域进一步包括短链匹配序列，并且第一短链与第一测序衔接子区域的短链匹配序列部分地互补。

条款3.根据条款1或条款2的方法，其中第一测序衔接子区域不包括短链匹配序列，并且第一短链与第一测序衔接子序列或第一测序引物部分地互补。

条款4.根据条款1-3中任一项的方法，进一步包括：使用与第一测序衔接子区域的部分或第二测序衔接子区域的部分互补的至少一个引物，通过聚合酶链式反应(PCR)扩增连接产物。

条款5.根据条款1-4中任一项的方法，进一步包括：通过DNA测序技术对连接产物进行测序，DNA测序技术使用第一测序衔接子区域和第二测序衔接子区域。

条款6.根据条款1-5中任一项的方法，进一步包括：在添加DNA连接酶之后，添加与第一短链杂交的第一短链互补序列和与第二短链杂交的第二短链互补序列，第一短链具有高于连接产物的结合能，第二短链具有高于连接产物的结合能。

条款7.根据条款1-6中任一项的方法，进一步包括：

向器皿添加：

第三短链，其与出现在DNA链上的第二5’端序列部分地互补并且与第一测序衔接子区域部分地互补，DNA链存储第二数字文件的部分，以及

第四短链，其与出现在DNA链上的第二3’端序列部分地互补并且与第二测序衔接子区域部分地互补，DNA链存储第二数字文件的部分。

条款8.根据条款7的方法，进一步包括：

通过测序技术对连接产物进行测序，测序技术使用第一测序衔接子区域和第二测序衔接子区域，其中连接产物进一步包括多条DNA链的第二子集，第二子集具有包括第一测序衔接子、第二5’端序列、对第二数字文件的部分进行编码的有效负载序列、第二3’端序列和第二测序衔接子区域的序列；以及

基于以下至少一个，从具有存储第二数字文件的部分的有效负载序列的连接产物中分离具有存储第一数字文件的部分的有效负载序列的连接产物的序列读取：

与文件相关联的5’端序列，和与第二文件相关联的第二5’端序列，或者

与文件相关联的3’端序列，和与第二文件相关联的第二3’端序列。

条款9.一种选择性地准备用于测序的DNA链的方法，该方法包括：

将DNA链与测序衔接子相接触；

将DNA链与短链相接触，短链与DNA链的端序列部分地互补并且与测序衔接子的第一端序列部分地互补；以及

将DNA链与DNA连接酶相接触。

条款10.根据条款9的方法，其中DNA链的端序列是标识(ID)序列，ID序列指示DNA链的有效负载序列中的核苷酸对数字文件的部分进行编码，其中DNA池包含具有相同的ID序列但是不同的有效负载序列的多条DNA链。

条款11.根据条款9或条款10的方法，进一步包括：将DNA链加热至第一温度，并且在将DNA链与DNA连接酶接触之前，将DNA链冷却至低于第一温度的第二温度。

条款12.根据条款11的方法，其中冷却在大约一个小时上逐渐被执行。

条款13.根据条款9-12的方法，进一步包括：

将DNA链与引物相接触，引物与测序衔接子的第二端序列互补；以及

使用引物通过PCR来扩增DNA链。

条款14.根据条款13的方法，进一步包括：在通过PCR扩增DNA之前，从DNA链上移除短链。

条款15.根据条款9-14中任一项的方法，进一步包括：利用DNA测序技术对DNA链进行测序，DNA测序技术使用测序衔接子。

条款16.一种***，包括：

一个或多个处理单元；

存储器，被耦合于一个或多个处理单元；

指令，被存储在存储器中并且在一个或多个处理单元上被执行，该指令使得***：

接收数字文件的指示；

标识DNA核苷酸的序列，DNA核苷酸的序列是用于数字文件的标识(ID)序列，ID序列出现在多条DNA链的5’端或3’端的至少一个上，5’端或3’端分别对数字文件的多个部分中的一个部分进行编码；

接收测序技术的指示；

标识在测序技术中所使用的测序衔接子的端序列；以及

设计与ID序列部分地互补并且与测序衔接子的端序列部分地互补的短链。

条款17.根据条款16的***，其中指令进一步使得***向寡核苷酸合成器发送指令，以合成短链的多个拷贝。

条款18.根据条款16或17的***，其中指令进一步使得***发送指令，以组合具有短链的DNA池和测序衔接子，其中DNA池包含对数字文件的部分进行编码的多条DNA链和对一个或多个不同的数字文件的各部分进行编码的其他DNA链。

条款19.根据条款16-18的***，其中指令进一步使得***发送指令以将测序衔接子连接至DNA链，DNA链对数字文件的多个部分中的一个部分进行编码。

条款20.根据条款16-19的***，其中指令进一步使得***：

接收来自DNA测序器的DNA序列读取数据；以及

至少部分地基于读取中ID序列的出现，在DNA序列读取数据内标识读取，这些读取对数字文件的多个部分中的一个部分进行编码。

条款21.计算机可读介质，其编码指令，指令在由处理单元执行时使得计算设备执行条款1-15中任一项的方法。

条款22.一种***，包括被配置为实施条款1-15中任一项的方法的一个或多个处理单元和存储器。

条款23.一种***，包括：

用于处理数字信息的部件；

用于在存储器中存储数据的部件，存储器被耦合至一个或多个处理单元；

用于接收数字文件的指示的部件；

用于标识DNA核苷酸序列的部件，DNA核苷酸的序列是用于数字文件的标识(ID)序列，ID序列出现在多条DNA链的5’端或3’端的至少一个上，5’端或3’端分别对数字文件的多个部分中的一个部分进行编码；

用于接收测序技术的指示的部件；

用于标识在测序技术中所使用的测序衔接子的端序列的部件；

用于设计与ID序列部分地互补并且与测序衔接子的端序列部分地互补的短链。

结论

尽管主题内容已经以特定于结构特征或方法动作的语言进行了描述，但是应当理解，在所附的权利要求中所限定的主题内容并不必然受限于上述的特定特征或动作。而是，特定的特征和动作作为实施权利要求的示例的形式而被公开。

在描述本发明(特别是在以下权利要求的上下文中)的上下文中所使用的术语“一(a)”，“一(an)”，“该”和类似的参照将被解释为覆盖单数和复数两者，除非本文另有说明或与上下文有明显的矛盾。如在本文档中所使用的，“或”意味着和/或。例如，“A或B”意味着A没有B，B没有A，或A和B。

某些实施例在本文中被描述，包括用于执行本发明的、对于发明人已知的最佳模式。当然，在阅读以上描述之后，本领域技术人员将清楚这些所描述的实施例的变形。本领域技术人员将知晓如何使用合适的此类变形，并且本文所公开的实施例可以除了所具体描述的以外以其他方式来实践。相应地，在此处所附的权利要求中所叙述的主题内容的所有修改及等同物被包含于本公开的范围内。此外，在其所有可能的变形中，上述元素的任何组合被本发明所涵盖，除非本文另有说明或与上下文有明显的矛盾。

Claims

1.一种在DNA池上执行任意随机存取以获得多条DNA链的方法，所述多条DNA链各自存储数字文件的部分，所述方法包括：

向包含所述DNA池的器皿添加以下项，其中所述DNA池包括DNA链的第一子集和DNA链的第二子集：

第一短链，所述第一短链与出现在所述DNA链的第一子集上的5’端序列部分地互补并且与第一测序衔接子部分地互补，所述第一测序衔接子包括第一测序衔接子序列，其中所述第一短链与所述DNA链的第二子集不互补，

第二短链，所述第二短链与出现在所述DNA链的第一子集上的3’端序列部分地互补并且与第二测序衔接子部分地互补，所述第二测序衔接子包括第二测序衔接子序列，其中所述第二短链与所述DNA链的第二子集不互补，

所述第一测序衔接子，以及

所述第二测序衔接子；

将所述器皿加热至第一温度；

将所述器皿冷却至低于所述第一温度的第二温度；以及

向所述器皿添加DNA连接酶以创建连接产物，所述连接产物具有包括所述第一测序衔接子、所述5’端序列、所述DNA链的第一子集中对所述数字文件的部分进行编码的有效负载序列、所述3’端序列和所述第二测序衔接子的序列。

2.根据权利要求1所述的方法，其中所述第一测序衔接子进一步包括短链匹配序列，并且所述第一短链与所述第一测序衔接子的所述短链匹配序列部分地互补。

3.根据权利要求1所述的方法，其中所述第一测序衔接子不包括短链匹配序列，并且所述第一短链与所述第一测序衔接子序列部分地互补。

4.根据权利要求1所述的方法，进一步包括：使用与所述第一测序衔接子的部分或所述第二测序衔接子的部分互补的至少一个引物，通过聚合酶链式反应(PCR)扩增所述连接产物。

5.根据权利要求1所述的方法，进一步包括：在所述添加DNA连接酶之后，添加与所述第一短链杂交的第一短链互补序列和与所述第二短链杂交的第二短链互补序列，所述第一短链具有高于所述连接产物的结合能，所述第二短链具有高于所述连接产物的结合能。

6.根据权利要求1所述的方法，进一步包括：

向所述器皿添加：

第三短链，所述第三短链与出现在所述DNA链的第二子集上的第二5’端序列部分地互补并且与所述第一测序衔接子部分地互补，所述DNA链存储第二数字文件的部分，以及

第四短链，所述第四短链与出现在所述DNA链的第二子集上的第二3’端序列部分地互补并且与所述第二测序衔接子部分地互补，所述DNA链存储所述第二数字文件的所述部分。

7. 根据权利要求6所述的方法，进一步包括：

通过测序技术对所述连接产物进行测序，所述测序技术使用所述第一测序衔接子和所述第二测序衔接子，其中所述连接产物进一步具有包括所述第一测序衔接子、所述第二5’端序列、所述DNA链的第二子集中对所述第二数字文件的部分进行编码的有效负载序列、所述第二3’端序列和所述第二测序衔接子的序列；以及

基于以下至少一个，从具有存储所述第二数字文件的部分的所述有效负载序列的所述连接产物中分离具有存储所述数字文件的部分的所述有效负载序列的所述连接产物的序列读取：

与所述数字文件相关联的所述5’端序列，和与所述第二数字文件相关联的所述第二5’端序列，或者

与所述数字文件相关联的所述3’端序列，和与所述第二数字文件相关联的所述第二3’端序列。

8.根据权利要求1所述的方法，进一步包括通过DNA测序技术对所述连接产物进行测序，所述DNA测序技术使用所述第一测序衔接子和所述第二测序衔接子。

9. 根据权利要求8所述的方法，进一步包括：

接收来自DNA测序器的DNA序列读取数据，所述DNA测序器实施所述DNA测序技术；以及

至少部分地基于读取中所述5’端序列或所述3’端序列的出现，在所述DNA序列读取数据内标识所述读取，所述读取对所述数字文件的部分进行编码。

10.根据权利要求1所述的方法，其中所述冷却在约一个小时上逐渐被执行。

11.根据权利要求4所述的方法，进一步包括在通过PCR扩增所述连接产物之前从所述连接产物移除所述第一短链和所述第二短链。

12.一种选择性地准备用于测序的DNA链的方法，所述方法包括：

在包括具有第一标识序列的第一DNA链和具有第二标识序列的第二DNA链的DNA池中：

将所述DNA池与测序衔接子相接触；

将所述DNA池与短链相接触，所述短链与所述第一DNA链的所述第一标识序列部分地互补并且与所述测序衔接子的第一端序列部分地互补，其中所述短链与所述第二DNA链的所述第二标识序列不互补；以及

将所述DNA池与DNA连接酶相接触，由此在不将所述测序衔接子附接至所述第二DNA链的情况下将所述测序衔接子附接至所述第一DNA链。

13.根据权利要求12所述的方法，其中所述第一标识序列指示所述第一DNA链的有效负载序列中的核苷酸对数字文件的部分进行编码，其中所述DNA池包含具有相同的所述标识序列但是不同的有效负载序列的多条DNA链。

14. 根据权利要求12所述的方法，进一步包括：

将所述第一DNA链与引物相接触，所述引物与所述测序衔接子的第二端序列互补；以及

使用所述引物通过PCR来扩增所述第一DNA链。

15.根据权利要求14所述的方法，进一步包括在通过PCR扩增所述第一DNA链之前从所述第一DNA链移除所述短链。

16.根据权利要求12的方法，进一步包括将所述第一DNA链加热至第一温度，并且在将所述第一DNA链与所述DNA连接酶接触之前，将所述DNA链冷却至低于所述第一温度的第二温度。

17.根据权利要求16所述的方法，其中所述冷却在约一个小时上逐渐被执行。

18.根据权利要求12所述的方法，进一步包括用使用所述测序衔接子的DNA测序技术对所述第一DNA链进行测序。

19.根据权利要求12所述的方法，进一步包括：在使所述DNA池与DNA连接酶接触之后，添加与所述短链杂交的短链互补序列，所述短链具有高于从所述测序衔接子和所述第一DNA链形成的连接产物的结合能。

20.一种方法，包括：

向包含来自DNA池的DNA链的器皿添加：

第一短链，所述第一短链与出现在所述DNA池中的多条DNA链上的5’端序列部分地互补并且与第一测序衔接子区域部分地互补，所述第一测序衔接子区域包括第一测序衔接子序列和第一测序引物结合区域，

第二短链，所述第二短链与出现在所述DNA池中的所述多条DNA链上的3’端序列部分地互补并且与第二测序衔接子区域部分地互补，所述第二测序衔接子区域包括第二测序衔接子序列和第二引物结合区域，

所述第一测序衔接子区域，以及

所述第二测序衔接子区域；

将所述器皿加热到第一温度；

将所述器皿冷却至低于所述第一温度的第二温度；以及

向所述器皿添加DNA连接酶以创建连接产物，所述连接产物包括来自所述DNA池的所述DNA链的子集，所述子集具有包括所述第一测序衔接子区域、所述5’端序列、所述3’端序列和所述第二测序衔接子区域的序列；以及

在添加所述DNA连接酶之后，添加与所述第一短链杂交的第一短链互补序列和与所述第二短链杂交的第二短链互补序列，所述第一短链具有高于所述连接产物的结合能，所述第二短链具有高于所述连接产物的结合能。