CN103443338B

CN103443338B - 大规模平行邻接作图

Info

Publication number: CN103443338B
Application number: CN201280012945.4A
Authority: CN
Inventors: 杰·阿肖克·申杜雷; 杰罗德·约瑟夫·施瓦兹; 安德鲁·科林·阿迪; 卓立·李; 约瑟夫·布莱恩·海特; 雅各布·奥托·基茨曼; 阿卡什·库马尔
Original assignee: University of Washington Center for Commercialization
Current assignee: University of Washington Center for Commercialization
Priority date: 2011-02-02
Filing date: 2012-02-02
Publication date: 2017-09-22
Anticipated expiration: 2032-02-02
Also published as: JP6017458B2; AU2012212148B2; AU2012212148A1; EP2670894A4; US20200216839A1; US20220315918A1; WO2012106546A3; US11299730B2; US20130203605A1; EP2670894A2; CA2826131C; CN103443338A; JP2014506788A; CA2826131A1; EP2670894B1; WO2012106546A2; US10457936B2; AU2012212148B8

Abstract

本发明公开了邻接信息对于实现哺乳动物基因组的高质量从头装配和人基因组的单元型分辨的重测序是重要的。本文描述的方法寻求在不同规模上的邻接信息的成本有效的、大规模平行捕获。

Description

大规模平行邻接作图

优先权声明

本申请要求于2011年2月2日提交的美国临时专利申请号61/438,935和于2011年4月7日提交的美国临时专利申请号61/473,083的优先权，所述两个美国临时专利申请的主题在此通过引用合并，如同它在本文中完全阐述一样。

政府支持的声明

本发明在由美国国立卫生研究院(National Institutes of Health)授予的授权号3U54AI057141-06S1880509和1R01HG006283-01下由政府支持进行。政府拥有本发明中的一定权利。

背景技术

经过过去几年，大规模平行测序平台已使DNA测序的成本/碱基减少了几个数量级（Shendureh和Ji2008）。在商购可得的“下一代”技术中，几乎全部都依赖测序特征的致密阵列的生物化学和成像的迭代循环，以生成相对短的读数，即“循环阵列”法（Shendure等人2005；Margulies等人2005；Drmanac等人2009；Braslavsky等人2003；Bentley等人2008）。这些平台的广泛散布代表开发电泳测序的实际替代物的数十年努力的巅峰（Shendure等人2004）。

在这个成功的背景下，许多开发中的技术具有改善当今已可行的那种的技术能力的潜力。此类改善可通过循环阵列法的进一步开发，或通过其他有希望的策略的成熟来实现，所述策略例如纳米孔测序（Branton等人2008）、DNA合成的实时观察（Eid等人2009）和通过电子显微镜检查的测序。大规模平行测序平台也已产生几个类型的测序应用，包括重测序、从头装配、外显子组(exome)测序（Ng等人2009）、RNA-Seq（Mortazavi等人2008）、ChIP-Seq（Johnson等人2007）、和全基因组染色质相互作用作图（Lieberman-Aiden等人2009；Duan等人2010）。

尽管DNA测序技术平台已快速改善，但DNA测序的成本对于一些目标仍是价格高得惊人的。因此，期望产生与DNA测序技术相关的方法，其不仅改善现有和开发中的技术的应用，还减少成本。

发明内容

短读测序限制于区段重复和结构上复杂的基因组区域的重测序、单元型信息的分辨、和哺乳动物尺寸的基因组的从头装配。此外，测序的成本/碱基中的更多减少对解决这些局限性帮助很少。即使随着DNA测序的新方法成熟且优于目前技术，技术仍可能继续在它们生成的邻接信息方面是有限的。因此，本文提供了用于获得在不同规模上的邻接信息的低成本方法。

在一些实施例中，本文提供了用于捕获包含的邻接信息的方法。此类方法可包括用转座酶处理靶DNA序列，从而导致一个或多个断裂或***事件；(i)在转座酶处理过程中或(ii)在后续扩增过程中，将一个或多个识别序列加入或***靶DNA序列；将所述经处理的DNA测序；和通过鉴定具有共享性质的靶DNA序列或识别序列来捕获邻接信息。

在一个实施例中，一个或多个断裂或***事件导致源自靶DNA的靶核酸分子文库的生成。在此类方法中，一个或多个识别序列是一个或多个条形码，其被对称地标记至与每个断裂或***事件邻近的序列，并且一个或多个条形码的共享性质是等同或互补的条形码序列。

在另一个实施例中，靶DNA序列包含一组靶DNA片段。此类实施例还可包括用乳状液或稀释物(dilution)区室化靶DNA片段，从而在用转座酶处理前或后生成靶DNA片段的两个或更多个区室。在这个实施例中，一个或多个识别序列是一个或多个区室特异性条形码，其每一个均对应于在区室化步骤中生成的一个或多个区室，并且一个或多个引物序列的共享性质是等同的区室特异性条形码。

在另一个实施例中，一个或多个识别序列是一个或多个衔接子序列，其修饰靶DNA序列的末端或在靶DNA序列内***。在此类实施例中，一个或多个衔接子序列可与一个或多个表面结合的引物互补。在一些方面，转座酶与核酸结合，所述核酸与第二表面结合的引物互补。进一步地，此类方法可包括使一个或多个衔接子序列与一个或多个表面结合的引物杂交。在一些实施例中，共享性质是受约束的物理位置，其可通过流动池上的x,y坐标指示，并且转座酶与表面结合的识别序列结合，以形成表面结合的转座酶复合物。在一些实施例中，处理靶DNA序列包括使多个表面结合的转座酶复合物暴露于靶DNA序列。

在一些实施例中，提供了亚硫酸氢盐测序的方法。此类方法可包括用转座酶复合物执行体外转座到靶DNA分子内，每个转座酶复合物包含双链DNA转座酶识别序列和具有甲基化胞嘧啶(C)残基的单链DNA衔接子突出端；使转座的靶DNA分子进行亚硫酸氢盐处理；执行核酸扩增；和将所得的核酸文库测序。

在其他实施例中，提供了用于推导染色体构象的方法。此类方法可包括使细胞内的DNA交联；从细胞中分离交联DNA；将交联DNA断裂；用衔接子末端修饰断裂的交联DNA分子，所述衔接子与第一表面结合的引物互补或对应于第一表面结合的引物；e)使断裂的、末端修饰的靶DNA分子的末端与第一表面结合的引物杂交；f)用非表面结合的转座酶复合物执行转座，每个非表面结合的转座酶复合物包含DNA转座酶和对应于第二表面结合的引物的一个或多个序列；g)执行簇扩增，以产生以克隆方式得到的(clonally derived)核酸的簇；h)将以克隆方式得到的核酸的簇测序；和i)通过一起消减邻近的簇来测定在染色***置之间的物理相互作用。

附图说明

图1示出不连续寡核苷酸的高密度、随机、体外转座使得基因组DNA能够高效率转换成衔接子侧接的、鸟枪法片段。淡灰色区域(1)=转座酶；深灰色条(2)=镶嵌式末端(ME)；黄色和红色(3a，3b)=不对称的5’突出端；蓝色(4)=基因组DNA。

图2是通过标准方法（‘超声处理’）相对于转座组(transposome)方法（‘转座酶’），生成的来自男性人类的文库的全基因组测序的覆盖倍数直方图（x轴=覆盖倍数；y轴=基因组%），其中分别标绘常染色体(‘Aut.’)和性染色体(‘Sex’)。

图3是起因于用合成、不连续转座子的高密度、体外断裂的片段大小（x轴=碱基对；y轴=计数）的直方图。插图显示对于在～35bp处的暴跌与空间阻碍模型一致的关于转座组占据的模型。

图4显示了具有简并的、单链“泡”(A/B)的转座组对基因组DNA的体外、高密度***（深灰色，(1)）随后为全基因组扩增(WGA)，以分辨简并段的每条链（至A/A或B/B）。产生切口（在中灰色位点处，(2)）和链置换聚合完成断裂，还留下用相同条形码（A/A（显示的）或B/B）对称地标记的连接点。

图5显示了源自基于转座酶的鸟枪法文库的限制性测序的独立读数显示关于以9bp间隔作图的富集。这个现象相对于低输入（50ng，无箭头）对于超低输入（10pg，箭头）显著得多，从而反映较低数目的不连续断裂事件的更大取样。

图6是基于实际数据中观察到的例子的示意图，显示对具有9bp重叠的邻近位置作图的读数对可能是自邻近断裂事件得到。在基于源自‘超低输入’样品的文库的复杂性有限的数据中，可鉴定总共跨越～1Kb至～2Kb的4-6个局部得到的读数对的链。

图7是显示根据鉴定各个‘连接点(join)’的效率（x轴，百分比；注明以99%在比例中的跃迁），读数对的链的总跨度（y轴）的预期N10、N50、N90长度的图，所述读数对鉴定为起因于沿着相同基因组DNA分子的连续系列的断裂事件。

图8是显示由侧接简并区(A)的共有区((1)，(2))组成的模板的乳滴PCR生成以克隆方式加条形码的珠子的示意图。珠子拴系的链(2)的共有3’末端自身可充当后续乳滴PCR反应中的引物。

图9是显示HMW基因组DNA分子（蓝色）的示意图，使所述HMW基因组DNA分子进行用具有衔接子((1)，(2))的转座组的体外断裂，所述衔接子通过互补子序列（褐色）的杂交进行连接。由这些连接的衔接子密集点缀的DNA随后经由微流体乳化，然后进行用具有小滴特异性条形码(A)的引物的乳滴PCR。来自相同HMW基因组DNA片段的序列读数可与最终文库中的相同条形码相关。

图10是显示可用于支持HMW DNA(1)的克隆、等温、多重置换扩增的乳滴(emulsion)的示意图。这些与含有用于转座组断裂和乳滴PCR的试剂的小滴融合（色彩设计等同于图8和9），所述乳滴PCR使用含有小滴特异性条形码的引物。

图11的图显示，对于相同个体，针对多个LD值，实验定相(phased)装配与通过HapMap的基于群体的HapMap预测的比较。与HapMap推导形成对比，实验定相的单元型通过LD不依赖性方法得到，使得差异主要反映基于推导的单元型中的误差。

图12示出了促进与光学测序相关的方法的原位转座的使用。(A)单个模板在流动池上伸展且断裂，以生成在与其基因组距离成比例的物理距离处在空间上分离的簇。(B)不规则卷曲的DNA在其末端处断裂，以生成在空间上约束于卷曲下的区域的簇。来自任一末端的读数可通过使用两种不同的测序引物去卷积。

图13示出了以下的代表性图像：经过四个测序循环关于“簇对”的原始图像在空间上分离的“簇对”(A)；和经过四个循环两个模板的原始整合的碱基读出(basecalling)强度(B)。

图14显示了以下的代表性图像：(A)48.5Kbλ基因组，其用JOJO-1染色，拴系至经修饰的Illumina流动池，并且用15V/cm电场拉伸，和(B)如(A)中那种的拉伸DNA，其在55℃下用转座组处理5分钟并且再次成像。成像在Illumina GA2x上执行。比例尺=20μm。

图15是示出文库预处理的示意图，所述文库预处理***流动池相容衔接子，而无需断裂，从而允许沿着拉伸分子的轴生成多个读数对。

图16示出了含有单链泡的合成转座子的高密度***基因组DNA内。泳道1=梯子(kb)；泳道2=未断裂的基因组DNA；泳道3=***后、PCR后材料。

图17示出了对称标记的、5’至5’连接的转座子试剂的构建。

图18显示了对称标记的、5’-5’衔接子的物种匹配的预期大小(194bp)(a)，并且转座后、PCR后片段扩增子的大小分布与～100-200bp基因组DNA和～200bp总衔接子/条形码一致(b)。

图19示出了无需介入操作在单个反应容积中的转座和聚合酶延伸。转座酶驱动断裂。聚合酶驱动经由切口平移的缺口关闭和引物延伸的有效循环，以附加具有条形码(A)的衔接子。

图20示出了无需介入操作在单个反应容积中的转座和聚合酶延伸获得可在柱子净化后通过PCR回收的产物。在PCR中使用的引物对应于在延伸步骤过程中加入的序列。泳道1=100bp梯子；泳道2=无基因组DNA(gDNA)对照；泳道3=50gDNA输入。

图21示出了生成鸟枪法HMW基因组DNA片段的两种方法，所述DNA片段具有合适的衔接子和对应于流动池序列的3’ssDNA尾。

图22显示了由源自原位转座方法的读数的大肠杆菌(E.coli)基因组的覆盖。X轴=基因组坐标。Y轴=读数数目（10Kb框）。

图23示出了根据一些实施例用于文库制备的Y衔接子方法。

图24示出了根据一些实施例的多重置换分支滚环扩增的产生和聚合酶克隆(polony)（即聚合酶集落(colony)）形成。

图25示出了根据一些实施例用于含有流动池引物的转座子泡的直接测序的方法。

图26示出了根据一些实施例使用处于相反取向的两个相同衔接子的转座子***方法，以维持所得的“泡”结构，随后为乳化和扩增。

图27示出了根据一些实施例通过使用在重复区内的独特条形码或***位点的转座子修饰的F粘粒文库集合测序方法。

图28示出了用于在流动池上生成簇的方法：四个臂的任何组合均可与流动池杂交且生成文库。在这种情况下，仅两个臂如此。

图29示出了使用“infinipair”鉴定在转录因子结合位点之间的相互作用的方法。细胞可用甲醛交联进行ChIP，以破坏DNA:蛋白质复合物。经修饰的测序衔接子可连接到复合物上且用于生成infinipair簇。读数可使用“infinipair”技术聚集且用于匹配簇。新顺式和反式相互作用的鉴定可使用先前描述的方法进行鉴定(16)。

图30示出了使用infinipair对小数目细胞中的染色体构象建模的方法。

图31示出了用于原位文库构建的样品制备。a)尺寸选择的HMW基因组DNA进行末端修复且随后连接至在环区附近含有尿嘧啶核苷酸的发夹衔接子。蓝色和红色指示不同引发序列且每个模板分子具有连接至两个不同引物序列的50%机会。用核酸外切酶III和VII处理连接产物去除未连接的DNA分子，所述未连接的DNA分子已暴露3’或5’末端。尿嘧啶特异性切除试剂(USER^TM)处理切除尿嘧啶碱基，以打开发夹且生成具有单链3’-尾的流动池现成文库。b)将文库装载到标准Illumina流动池上且允许两个末端杂交。极端活跃的转座酶用于在HMW杂交的文库中随机断裂且***共有流动池衔接子，以生成LMW簇现成模板。在簇生成后，来自任一末端的读数可通过使用两种不同的测序引物（以红色和蓝色显示）去卷积。

图32显示了在彼此1.5um内的最近邻对，并且通过比较下述鉴定4,000bp作图距离：a)读数1针对读数1，b)读数2针对读数2，c)读数1针对读数2，和d)读数2针对读数1。三种颜色代表三个不同尺寸的文库：蓝色=1kb，绿色=2kb，红色=3kb。累积数目的簇对针对每个对的数字分类作图距离进行标绘。

图33显示了关于不同最近邻搜索的1、2和3kb文库的最近邻簇对数据。白色条是具有<1.5μm物理分离和<4000bp作图分离的簇对的总数目。灰色条是在关于那个文库大小的靶向大小范围（分别为800-1200、1500-2300和2500-3500bp）内的对的数目。彩色条是在靶向大小范围内且具有在相反方向上的相反链上的读数的对。

图34是根据一个实施例示出在读数1和2中的簇分离的一系列数据。a)对于三个文库（蓝色=1kb，绿色=2kb，红色=3kb）在读数1内鉴定每个簇，所述每个簇具有在1.5μm和4,000bp作图分离内的最近邻。作图距离针对簇分离距离进行标绘，并且显示了沿着每个轴的直方图。注意到，原本的Illumina图像处理软件不区分比～0.9μm更紧密的两个簇。b)关于读数1中的每个簇的最近邻在读数2中鉴定且如上标绘。

图35显示了根据一个实施例的拉伸DNA的示例图像。(a)48.5kbλ基因组用JOJO-1染色，拴系至经修饰的Illumina流动池，并且用15V/cm电场拉伸。成像在Illumina GA2x上执行。(b)拉伸DNA随后在55℃下用转座组处理5分钟并且再次成像。比例尺=20μm。

图36显示了根据一个实施例的tn5mC-seq方法和所得的甲基化概况。(a)基于标签化(tagmentation)的DNA-seq文库构建。由装载有合成、不连续的寡核苷酸（黄色、紫色）的转座酶同二聚体攻击基因组DNA，其允许在单个步骤中的断裂和衔接子掺入。后续PCR附加外部流动池相容引物（粉色、绿色）。(b)tn5mC-seq文库构建。装载的转座酶攻击具有单个甲基化衔接子（黄色）的基因组DNA。寡核苷酸替换方法退火第二个甲基化的衔接子（紫色），随后使所述衔接子进行缺口修复。亚硫酸氢盐处理随后将未甲基化的胞嘧啶转换为尿嘧啶（橙色），随后为PCR，以附加外部流动池相容引物（粉色、绿色）。甲基化表示为黑色棒棒糖(lollipop)。(c)全基因组的胞嘧啶位置的覆盖。在所有三个背景下的>96%胞嘧啶(Cs)至少覆盖一次。CpG覆盖中的轻微降低是由于在具有高密度甲基化的区域处减少的阅读比对能力。(d)在染色体12上在10kb窗中的总胞嘧啶位置上的标准化的甲基化的胞嘧啶（最大设为1.0），黑色框指示着丝粒。(e)在注释的基因座处的总CpG残基上的标准化的甲基化的CpG。启动子定义为TSS上游的2kb区域。(f)与基因间隔区相比较在基因主体（内含子、外显子）中升高的CpG甲基化水平。

图37示出了关于在3kb文库中所有未作图的读数1(a)和由一个大肠杆菌和一个未作图读数组成的所有最近邻(NN)对的平均原始质量评分的分布，关于未作图读数的平均原始质量得分显示于直方图中。

图38示出了在3kb文库中关于读数1(A)和读数2(B)的所有碱基的平均原始质量得分。读数是在最近邻对中发现的那些，所述最近邻对对大肠杆菌作图，分离<1.5μm，并且在2500-3500bp之间作图。

图39显示了关于端到端载体的x、y和z组分的G_surf的图，所述端到端载体的x、y和z组分对于与表面拴系的DNA显示(a，b)。(c)显示了在簇形成过程中可发生的事情的图解。当两个种子模板在表面上紧密接近定位时，随着簇扩增前进，存在可获得的表面引物的局部缺失。这迫使簇彼此远离生长。在碱基读出过程中，簇中心在x-y位置处调用，其与原始种植模板不一致。

图40是在本文中描述的原位拉伸过程的示意性图解(a)。HMW分子的一个末端在电场施加前与表面杂交。当施加该电场时，具有游离末端的分子在电流的方向上拉伸。游离末端随后能够杂交并且测序照例前进。(b)显示了通过选择离阳极最远的簇作为参考(r)测定的在簇之间的角度。随后计算与另一个簇(oc)的角度。

图41是显示在不存在施加的外部电场的情况下，关于3kb大肠杆菌文库的作图距离与物理分离相比较的一组散点图(a)。对于框中所示的点，在对之间的相对角度（以弧度）的直方图显示于右侧。(b)显示了如在(a)中的图，但在28V/cm电场的存在下执行下杂交(under-hybridization)。由至少4.5像素分开的簇对看起来沿着流动池的轴排列且与电场平行（右下）。

具体实施方式

本文提供了捕获邻接信息的方法。邻接信息和用于接受此类信息的实施例可与任何合适的常规或第二代DNA测序技术一起使用，以改善技术及相关用途和应用的效率和准确度；且增加其成本效益。可依照本文描述的方法使用的合适DNA测序技术可包括但不限于“环状阵列”方法（例如454焦磷酸测序，Illumina Genome Analyzer、AB SOLiD和HeliScope）、纳米孔测序方法、DNA合成的实时观察、通过电子显微镜检查的测序、双脱氧终止和电泳、微电泳方法、通过杂交测序、和质谱法。

这些测序方法中的许多包括长链DNA（或“靶DNA序列”）测序的几个共同程序概念。首先，将靶DNA序列分解为众多小序列片段（或“DNA片段”）。这可通过用转座酶处理靶DNA来完成。在一些实施例中，众多DNA片段可视为DNA片段文库（或“鸟枪法文库”）。接下来，DNA片段可进行扩增或克隆，从而导致克隆拷贝或簇的生成。克隆拷贝或簇随后通过测序平台例如上文描述的那些进行测序。在测序后，测序的DNA片段可再装配，以重构原始序列，或对参考基因组作图，以鉴定序列变异。

捕获邻接信息

如上所述，当靶DNA序列用转座酶处理时，靶DNA可分解为两个或更多个DNA片段，其在转座酶处理前（即在断裂前），经由一种或多种空间关系连接。在一个实施例中，空间关系是邻近关系，其中DNA片段直接彼此邻近（即一个DNA片段的末端与第二个DNA片段的末端连接）。在另一个实施例中，空间关系可以是区室关系，其中靶DNA包含分类为区室的两个或更多个序列区段。在此类实施例中，在通过转座酶断裂前的DNA片段可在靶DNA的相同区段内，但不一定彼此邻近。在另一个实施例中，空间关系是距离关系，其中DNA片段在断裂前不连续且不邻近，但通过彼此间的特定距离或序列长度相关。这些空间关系可通过使用本文描述的方法捕获邻接信息进行测定。

邻接信息指基于共享信息在两个或更多个DNA片段之间的空间关系。信息的共享方面可以是就邻近、区室和距离空间关系而言。关于这些关系的信息依次促进源自DNA片段的序列读数的分层装配或作图。这种邻接信息改善此类装配或作图的效率和准确度，因为与常规鸟枪法测序结合使用的常规装配或作图方法不考虑各个序列读数的相对基因组起源或坐标，因为它们与由其得到各个序列读数的两个或更多个DNA片段之间的空间关系相关。因此，根据本文描述的实施例，捕获邻接信息的方法可通过下述来实现：测定邻近空间关系的小范围邻接法，测定区室空间关系的中等范围邻接法或测定距离空间关系的大范围邻接法。这些方法促进DNA序列装配或作图的准确度和质量，并且可与任何测序方法例如上文描述的那些一起使用。

根据本文描述的实施例，用于捕获邻接信息的方法可包括用转座酶处理靶DNA序列，从而导致一个或多个断裂或***事件。在一些实施例中，这个步骤导致源自靶DNA序列的鸟枪法核酸分子文库的生成。在替代实施例中，断裂或***甚至可通过如下所述的Y衔接子方法完成。一个或多个转座酶分子可以是可溶性游离转座酶或可与表面结合的识别序列结合。

在用转座酶处理后，靶DNA可包含两个或更多个DNA片段或多个DNA片段（也称为“断裂的靶DNA”）或可包含***序列（“***靶DNA”）。

在一些实施例中，用于捕获邻接信息的方法可包括扩增DNA或鸟枪法文库的步骤，以生成读数的克隆拷贝或簇。扩增步骤可包括但不限于任何合适的扩增方法，例如聚合酶克隆、乳滴PCR和桥式PCR。

在一些实施例中，在用转座酶处理后或在后续扩增后，一个或多个识别序列可加入或***断裂或***靶DNA内。一个或多个识别序列可包括但不限于在断裂或***位点处的条形码、引物或衔接子DNA序列，其将DNA片段标记为就邻近、区室或距离空间关系而言是独特的。

在标记后，鸟枪法核酸分子可使用上文描述的测序平台进行测序，通过鉴定具有共享性质的识别序列捕获邻接信息。在一些实施例中，共享性质是等同或互补的条形码序列。例如，邻近起源的读数序列可经由共享的条形码序列进行鉴定；或读数可基于源自相同靶DNA区段的共享区室特异性条形码而通过区室进行限定。在其他实施例中，共享性质是共享或受约束的物理位置，其可通过流动池上的一个或多个x,y坐标指示。“受约束的”物理位置可指紧密、等同或接近等同的物理位置或一组两个或更多个物理位置，其相对物理坐标与靶DNA序列上的相对序列坐标关联，DNA片段由所述靶DNA序列得到。例如，在与大范围邻接相关的方法中，使用衔接子序列执行原位转座到测序流动池表面上的拉伸的、HMW基因组DNA内，以通过鉴定衔接子序列、杂交DNA片段或其组合的受约束的物理位置（即在该处固定物理连接的测序模板的相对坐标）获得距离空间关系。关于捕获小范围、中等范围和大范围邻接的另外的实施例和细节在下文进一步描述。

小范围邻接。为了捕获关于小范围邻接的信息，提供了用于体外转座的修饰方案，其中在合成转座子内的简并条形码在方法中用于对称且独特标记源于任何给定断裂事件的每个侧面的鸟枪法文库分子，使得随后可指定在独立、起源邻近的读数对之间的计算机“连接点”。在测序鸟枪法文库和相应条形码后，邻近断裂事件可经由共享条形码序列进行鉴定。重要的是，这个策略允许以几乎完全不依赖一级序列内容的方式测定局部邻接。

中等范围邻接。即使对于长、高准确度的Sanger读数，进行BAC克隆测序的分层方法对于达到人基因组的高质量参考装配也是重要的，特别是在区段复制和结构上复杂的区域中（Lander等人2001；Waterston等人2003；Waterston等人2002）。因此，在一些实施例中，提供了使得源自基因组的相同F粘粒/BAC规模区域（例如20-200Kb)的短（或“鸟枪法”）读数的分组成为可能的方法，以捕获关于中等范围邻接的信息。这些方法在下文实例2中详细讨论。

如下文和Kitzman等人（Kitzman等人2011）中所述，这类信息足以广泛单元型分辨个体人基因组序列。这个中等范围的邻接信息也可促进从头基因组装配。例如，Gnerre等人（Gnerre等人2010）近期描述了仅使用短读序列数据将人和小鼠基因组从头装配至适当高的质量。正如同由Kitzman等人（Kitzman等人2011）达到的单元型邻接一样，这个结果需要使用F粘粒文库构建，以便将基因组分隔成～40Kb区段。在这些方法中，乳状液用于区室化高分子量(HMW)基因组DNA片段，随后为用具有小滴特异性条形码的引物的乳滴PCR。在回收后，用限定鸟枪法读数的组的条形码标记扩增子，其中每个组源自相同20–200Kb区域。在依赖源自F粘粒克隆的复杂库的鸟枪法文库的初步工作中，下文证实了这类信息用下一代测序广泛单元型分辨个体人基因组的充分性。

类似于近期报道的“子装配”策略（Hiatt等人2010），将长片段文库转换为嵌套子文库群体，并且标记序列指导源自相同长片段的短读数的计算机分组，从而致使长片段序列即“子装配”读数的局限性装配成为可能。子装配延伸短读测序平台对于通常需要或获益于长读数的应用的效用，所述应用例如宏基因组学和从头基因组装配。然而，根据本文描述的实施例的方法致使超过20–200Kb而不是如先前描述的～1Kb区域的子装配成为可能。

大范围邻接。包括大范围平行、短读测序技术的高通量方法相对于几个重要目标固有地受限制，包括人基因组的区段重复和结构上复杂的区域的重测序、在二倍体和多倍体基因组中的单元型信息的分辨、和复杂基因组的从头装配。测序的成本/碱基的更多减少对促进这些目标帮助很少。相反，需要的是获得在不同规模上的邻接信息的相等平行方法。例如，尽管比基于单独的短读数的更低质量装配更少数量级的序列覆盖，但人和小鼠基因组的原始从头装配达到高质量的这一事实（Lander等人2001；MSGC2002），主要是包括邻接信息的广谱补充来源的结果，包括：(a)长一级读数长度，(b)来自质粒、F粘粒和BAC的配对读数，(c)分层按克隆(clone-by-clone)测序，和(d)基因图。

尽管DNA测序的新方法可继续成熟且优于目前技术，但最成本有效的技术（就成本/碱基而言）可继续是阅读长度限制的。因此，邻接信息可通过用下文描述的其他技术获得的邻接信息补充低成本、短读序列而获得。用于以这种方式获得邻接信息的方法的例子可包括：1)大范围“配对”方案致使能够获得通过控制距离分开的读数对。然而，所有目前体外方案采用环化步骤，使得该方法仅在几千碱基的分离方面是有效的。2)克隆稀释库（或其体外等价物）的加条形码和测序可获得在全基因组规模上的单元型信息。然而，方法的分辨限制于片段类型（例如F粘粒）和可有效加工的库的数目。3)使用限制性酶的光学作图已成功生成用于从头基因组装配的大范围邻接图（Schwartz等人1993；Zhou等人2007；Zhou等人2009）。然而，由于星号活性和无效切割，这个过程受假阳性和阴性切割位点限制，从而迫使来自相同区域的多个光学图生成共有的图。此外，限制性酶识别位点的非一致分布可限制源自重复或低复杂性区域的有用信息的量。4)对拉伸的单个DNA分子（非断裂的）的光学测序已获得沿着相同分子来自多个位置的高达3bp连续序列信息（Ramanathan等人2004）。因为读数直接由单个分子生成，所以在很大程度上避免了样品数量和PCR偏差的问题。

如下文实例3中所述，在下一代测序仪器的流动池内的原位文库构建和光学测序代表朝向单个技术的改善和有效途径，所述单个技术同时捕获在不同规模上的邻接信息和一级序列。基本前提是采用DNA的物理性质（通过高分子量(HMW)DNA的不规则卷曲或拉伸）、原位文库构建（经由在流动池内衔接子对HMW DNA的体外转座）、和操作实现的下一代测序仪器的充分开发方面（聚合酶克隆扩增、边合成边测序、成像和数据处理），以生成多个空间上相关的读数，所述读数的物理分离是已知的或可由读数在该处在流动池上起源的相对坐标推导。在一种方法中，在溶液中由DNA采用的不规则卷曲构型用于在空间上限定末端且生成在受约束的表面区域内的两个读数。在相关方法中，还可执行对在天然流动池内的拉伸DNA分子的光学测序。

这些方法在下文详细讨论，并且根据一些实施例，示出不依赖任何环化步骤用于长距离配对的体外方法。获得来自未拉伸的2.7Kb分子的成对末端读数的成功显示于图12b中。简言之，流动池相容的衔接子(FCA1)末端连接至线性化的双链puc19。将这个模板引入流动池(Illumina)，并且允许单链末端与引物包被的表面杂交。模板随后用预装载有FCA2衔接子的转座酶原位处理。接下来，执行标准簇PCR，随后为边合成边测序。基于使用的引物和pUC19的已知序列，前4bp可能是AGCT或CGAG，这依赖于读数来自分子的哪个末端。图13A（上）显示了对于前4个循环在空间上分离的“簇对”的代表性图像，并且关于两个模板的原始整合的碱基读出强度显示于图13B中（下）。在否则稀疏的领域中许多此类紧密定位的对的观察结果与来自相同2.7Kb分子末端的共同来源一致。进一步稀释模板仍产生簇对，从而强烈暗示这些不源自在附近偶然杂交的两个不同模板。此外，仅～20%的模板显示可见的物理簇分离（如图13中），而剩下80%的成对末端共定位且给出混合读数。然而，所提议的使用两种不同的测序引物的方法允许将来自此类立即共定位的簇对的混合读数去卷积成两个分开的读数。

在其他实施例中，线性化拉伸的48.5Kb DNA分子的原位断裂也对于转座组得到证实。简言之，使用Piranha溶液清洁流动池，用2%3-氨基丙基三乙氧基硅烷(APTES)处理，且装载有JOJO-1染色的λDNA。随后使流动池装载有6M KCl，并且在输入和输出口施加15V/cm的电场90秒。表面直接在Illumina GA2测序仪上成像（图14A），以证实单个48.5Kb分子的末端可物理拉伸超过～30像素。表面随后用转座组原位处理且再成像（图14B）。各个分子在多个位置中断裂，从而证实酶即使对表面固定的模板也维持高活性的能力。这些方法还可用于在断裂前在“锁定(lock-down)”桥中掺入流动，使得簇可在长模板末端处生成。

基于本文描述的小、中等范围和大范围邻接实施例的方法，下文提供了用于捕获邻接的几个另外实施例。

根据一些实施例，提供了用于捕获邻接信息的方法。在一个实施例中，此类方法可包括构建源自靶DNA的鸟枪法核酸分子的文库，其中与每个断裂或***事件邻近的序列由条形码对称标记，将鸟枪法文库分子和相应条形码测序；且经由共享的条形码序列鉴定邻近起源的序列。

在另一个实施例中，用于捕获邻接信息的方法可包括用乳状液或稀释物区室化靶DNA片段；在区室化前或后，用转座酶修饰靶DNA片段，以***引物序列；使用具有区室特异性条形码的引物执行核酸扩增；且将所得的源自靶DNA的鸟枪法核酸分子文库和相应条形码测序，以限定鸟枪法序列读数的组。在一个方面，共享条形码的读数组源自相同高分子量基因组DNA片段。

在进一步实施例中，用于捕获邻接信息的方法可包括用对应于一个表面结合的引物的衔接子末端修饰靶DNA分子；使末端修饰的靶DNA分子的两个末端与表面结合的引物杂交，连同或不连同拉伸；用非表面结合的转座酶复合物执行转座，所述转座酶复合物包括DNA转座酶和对应于第二表面结合的引物的序列；执行簇扩增以产生以克隆方式得到的核酸的簇；将以克隆方式得到的核酸的簇测序；且测定重叠或紧密定位的簇是否源自相同靶DNA分子的末端。在一个方面，此类方法包括用对应于一种流动池引物的衔接子末端修饰高分子量DNA分子；使末端修饰的高分子量DNA分子的两个末端与流动池杂交，连同或不连同拉伸；用装载有衔接子的转座酶执行原位转座，所述衔接子对应于第二流动池引物；执行簇PCR以产生可见重叠或紧密定位的簇；且测定重叠或紧密定位的簇是否源自相同高分子量DNA分子的末端。

在另一个实施例中，用于捕获邻接信息的方法可包括用转座酶修饰靶DNA分子，以***对应于一个或几个表面结合的引物的核酸序列；使内部修饰的靶DNA分子与表面结合的引物杂交，连同或不连同拉伸；执行簇扩增以产生以克隆方式得到的核酸的簇；将以克隆方式得到的核酸的簇测序；且测定重叠或紧密定位的簇是否源自相同靶DNA分子。在一个方面，此类方法包括用转座酶修饰高分子量基因组DNA，以***对应于一个或两个流动池引物的引物序列；使内部修饰的高分子量DNA分子与流动池杂交，连同或不连同拉伸；执行簇PCR以产生可见重叠或紧密定位的簇；且测定重叠或紧密定位的簇是否源自相同高分子量DNA分子，如图25中。

在另一个实施例中，用于捕获邻接信息的方法包括步骤：(a)生成核酸序列与之结合的表面，所述核酸序列包括对应于DNA转座酶的识别序列的双链DNA序列；(b)装配复合物，所述复合物包含与表面结合的识别序列结合的DNA转座酶；(c)使复合物暴露于靶DNA，连同或不连同靶DNA的拉伸，且允许通过表面结合的转座酶复合物内部修饰靶DNA；(d)执行簇扩增以产生以克隆方式得到的核酸的簇；(e)将以克隆方式得到的核酸的簇测序；和(f)测定重叠或紧密定位的簇是否源自相同靶DNA分子。在一个方面，另外的步骤可包括在步骤(c)前的任何点上，其中靶DNA通过暴露于非表面结合的转座酶复合物进行修饰，所述转座酶复合物包括DNA转座酶和对应于表面结合的引物的序列。在另一个方面，可包括在步骤(c)后和在步骤(d)前的另外的步骤，其中靶DNA通过暴露于非表面结合的转座酶复合物进一步修饰，所述转座酶复合物包括DNA转座酶和对应于表面结合的引物的序列。

测序技术的应用

本文描述的捕获邻接信息的方法在改善上文描述的测序技术的用途和应用中是有用的。可依照本文描述的方法使用的DNA测序技术的合适应用可包括但不限于用于测定DNA甲基化的亚硫酸氢盐测序、重测序、从头装配、外显子组测序、RNA-Seq、ChIP-Seq、推导染色体构象和全基因组染色质相互作用作图。在一些实施例中，用于捕获邻接信息的方法可与“环状阵列”法一起使用，用于例如重测序、从头装配或两者的应用，如下文实例中详细描述的。

重测序。重测序人基因组已变得相对直接了当。例如，Bentley等人(2008)将约鲁巴人(Yoruba)男性的基因组测序至～40x覆盖，以在Illumina GA平台上鉴定～4百万SNP（Branton等人2008），即在无序PCR集落的致密阵列上的大规模平行边合成边测序。当今，Illumina HiSeq平台能够在8天内在7个测序泳道上生成相同数量的数据（135千兆碱基(gigabase)(Gb)），所述测序泳道各自获得～100,000,000可作图的、成对末端、100bp读数(PE100)。对于$3,700/泳道的试样成本，关于～40x人基因组重测序的估计成本仅超过$25,000。

此外，尽管短读数长度和适度原始准确度与～94%人基因组的高度准确的重测序相容，但这些技术在至少两个重要方面继续不合格。首先，约6%的人基因组由易于再现重排的富含基因的区段重复或结构上复杂的区域组成。对在这个空间内的短测序读数独特作图是不太可能的，并且译解复杂结构变异是非常有挑战性的。其次，用于基因组重测序的目前技术对于单元型（即沿着单个染色体出现关于其的多态性的相(phase)）几乎是完全不知情的。单元型信息对于基因疾病关联的研究以及对于群体遗传分析是非常有用的。这些缺陷无一可通过用相同技术的更多测序进行补救。相反，这些缺陷反映出短读测序的基础局限性。

从头装配。与重测序形成对比，关于使用相同技术生成哺乳动物基因组的高质量的从头装配还有很长的路要走。在2002年生成用于装配2.5Gb小鼠基因组的20Gb，即～8x覆盖(Sanger)（Waterston等人2002）目前在单个Illumina HiSeq泳道上是可能的(PE100，$3,700)。然而，即使对于～90x覆盖，同样复杂的人基因组的最佳“下一代”从头装配获得7.4Kb的N50重叠群长度，446Kb的N50支架长度，和仅87%基因组的序列覆盖（Li等人2010）。由短读数据在覆盖中的更多增加可能仅最低限度改善装配质量（Li等人2010）。通过比较，基于超过一个数量级的较少数据，小鼠基因组的最初装配具有25.9Kb的N50重叠群长度，18.6兆碱基(Mb)的N50支架长度，和95%基因组的序列覆盖（Waterston等人2002）。

亚硫酸氢盐测序。本文提供了用于测量DNA甲基化的亚硫酸氢盐测序的方法。DNA甲基化是广泛的后天修饰，其在不同生物的基因组的调节中起关键作用。在哺乳动物基因组中最流行和广泛研究形式的DNA甲基化在胞嘧啶残基的5碳位置处出现，通常在CpG二核苷酸的背景下。微阵列和更近期的大规模平行测序已致使在全基因组规模上的胞嘧啶甲基化(5mC)的查询成为可能（Zilberman和Henikoff2007）。然而，DNA甲基化和其他后天标记例如在特异性细胞类型或解剖结构中的体内研究强烈地受同时代方案所需的相对高量的输入材料限制。

用于甲基化模式的基因组规模查询的方法包括基因组的限定子集的富集之后的几个（Meissner等人2005；Down等人2008；Deng等人2009），例如简化表达亚硫酸氢盐测序(RRBS)（Meissner等人2005）和抗甲基胞嘧啶DNA免疫沉淀后测序(MeDIP-seq)（Down等人2008）。此类方法的优点在于它们可用有限数量的起始DNA执行（Gu等人2011）。然而，它们是受约束的，因为它们并非真实广泛的。例如，基于消化的RRBS法仅查询～12%的CpG，主要在CpG岛中（Harris等人2010），具有在基因主体（Ball等人2009）和其他地方中的甲基化的弱覆盖。此外，RRBS不靶向CHG或CHH(H=A,C,T)背景下的胞嘧啶，所述胞嘧啶已显示在哺乳动物发育的早期阶段以升高水平甲基化（Lister等人2009）。

用于检测5mC的最广泛、最高分辨率的方法是全基因组亚硫酸氢盐测序(WGBS)（Cokus等人2008；Lister等人2009；Harris等人2010）。用亚硫酸氢钠处理基因组DNA以化学方法使胞嘧啶比5mC快速得多地脱氨基，从而将其优先转换为尿嘧啶（Clark等人1994）。对于大规模平行测序，这些可以单碱基对分辨率在全基因组规模上进行检测。这种方法已揭示复杂和意外的甲基化模式和变异，特别是在CHG和CHH背景下。此外，随着大规模平行测序的成本继续下降，全基因组亚硫酸氢盐测序是越来越能承受的。然而，WGBS是有限的，因为目前的方案要求5微克基因组DNA作为输入（Cokus等人2008；Lister等人2009；Li等人2010），其对于体内获得的许多样品基本上是价格高得惊人的。

在一些实施例中，用于全基因组亚硫酸氢盐测序的基于转座酶的体外鸟枪法文库构建（“标签化”）如下所述修改。在本文中称为tn5mC-seq的这种方法致使相对于常规方案的原材料的>100倍减少，使得高度复杂的亚硫酸氢盐测序文库由少至10纳克输入DNA和来自1纳克输入DNA的丰富有用序列生成。通过对人类淋巴母细胞细胞系的甲基化组(methylome)测序，证实tn5mC-seq至每条链的约8.6X高质量覆盖。

进一步地，提供了用于甲基化不连续合成转座子的方法，其使用Tn5识别序列的双链DNA部分以及含有衔接子序列1或2的单链DNA突出端，其中所有胞苷或胞嘧啶残基均是甲基化的。在一个实施例中，执行切口平移步骤。在切口平移后，所得的转座生成衔接子侧接的DNA片段，其中每条链具有两个衔接子，其中一个是甲基化的。随后对切口平移的材料执行PCR，其中由切口平移生成的衔接子的未甲基化链具有公认的更低效率。

在另一个实施例中，未执行切口平移步骤，并且如下所述以后加入第二衔接子。随后使片段文库进行亚硫酸氢盐处理，以将所有未甲基化的胞苷转换为尿嘧啶残基。随后以两种方法之一加入第二衔接子：(1)通过加入A-尾且随后使用含有聚-T的引物和衔接子突出端，或(2)通过用5’衔接子突出端延伸含有3’封闭的N6的模板（以亚硫酸氢盐处理的核苷酸比），所述5’衔接子突出端将从片段的3’末端延伸通过。在加入第二衔接子后，随后执行PCR和测序。这种方法的一个优点是gDNA转换为衔接子修饰的片段的高效率允许在构建要进行亚硫酸氢盐处理的文库中使用少得多的DNA。

简言之，程序如下。首先，使具有含dsDNA转座酶识别序列的衔接子的转座酶装载有ssDNA衔接子突出端，其中所有胞嘧啶(C)残基均是甲基化的。接下来，执行转座到基因组DNA内，从而断裂DNA且附加甲基化的C，5’突出端衔接子。如果执行切口平移，那么衔接子延伸至分子的两个末端，然而，3’衔接子将不是甲基化的。随后使该文库进行亚硫酸氢盐处理，以将所有未甲基化的C残基转换为U残基。如果在先前步骤中未执行切口平移，那么可通过两种方法之一加入第二3’衔接子：(i)DNA片段是有A-尾的，并且使用3’聚-T5’衔接子引物将3’衔接子附加至片段，或(ii)允许DNA片段在由3’封闭的N6（以补充亚硫酸氢盐处理的核苷酸组成）和5’衔接子突出端组成的寡核苷酸上延伸。最后，执行PCR，随后为测序。

根据其他实施例，亚硫酸氢盐测序的方法可包括步骤：(a)用转座酶复合物执行体外转座到靶DNA分子内，所述转座酶复合物包括具有含甲基化胞嘧啶残基的单链DNA衔接子突出端的双链DNA转座酶识别序列；(b)使修饰的靶DNA分子进行亚硫酸氢盐处理；(c)执行核酸扩增以产生核酸文库；和(d)将所得的核酸文库测序。在一些方面，在步骤(a)后和在步骤(b)前，可将第二衔接子掺入源自靶DNA的核酸片段，其中所述第二衔接子设计为促进步骤(c)中的核酸扩增。在其他方面，在步骤(b)后和在步骤(c)前，可将第二衔接子掺入源自靶DNA的核酸片段，其中所述第二衔接子设计为促进步骤(c)中的核酸扩增。

在其他实施例中，亚硫酸氢盐的方法可包括步骤：(a)用具有含甲基化胞嘧啶残基的单链DNA(ssDNA)衔接子突出端修饰双链DNA(dsDNA)转座酶识别序列；(b)用装载有含有修饰的dsDNA转座酶识别序列的衔接子的转座酶执行体外转座，以生成DNA片段的文库；(c)使DNA片段的文库进行亚硫酸氢盐处理；(d)执行PCR方法以扩增靶；和(c)进行靶的测序。在一些实施例中，可在步骤b)后和在步骤(c)前执行另外的切口平移步骤。在其他实施例中，不执行切口平移。在这种情况下，在步骤(c)后和在步骤(d)前加入第二衔接子。第二衔接子可通过下述加入：(i)将腺苷(A)尾加入DNA片段且使用3’聚-T5’衔接子引物将3’衔接子附加至片段；或(ii)允许DNA片段在包含3’封闭的N6和5’衔接子突出端的寡核苷酸上延伸。

推导染色体构象。根据一些实施例，提供了用于推导染色体构象的方法。这些方法可包括使细胞内的DNA交联；分离染色质纤维；取出且消化染色质片段；纯化染色质DNA片段；将衔接子连接至染色质DNA片段，从而形成染色质DNA片段复合物；且通过使染色质DNA片段复合物的邻近的簇成对来生成染色***置的三维模型。在一个实施例中，该方法可包括步骤：(a)使细胞内的DNA交联；(b)从细胞中分离交联DNA；(c)将交联DNA断裂；(d)用衔接子末端修饰断裂的交联DNA分子，所述衔接子对应于一个表面结合的引物；(e)使断裂的、末端修饰的靶DNA分子的末端与表面结合的引物杂交；(f)用非表面结合的转座酶复合物执行转座，所述转座酶复合物包括DNA转座酶和对应于第二表面结合的引物的序列；(g)执行簇扩增，以产生以克隆方式得到的核酸的簇；(h)将以克隆方式得到的核酸的簇测序；和(i)通过一起消减邻近的簇来测定在染色***置之间的物理相互作用。在一些方面，分离的交联DNA可以是交联DNA-蛋白质复合物的部分。在这种情况下，用于推导染色体进一步构象的方法可另外包括通过在步骤(c)后和在步骤(d)前的免疫沉淀来富集一种或多种特异性的交联DNA-蛋白质复合物的步骤。

在其他实施例中，提供了用于鉴定在转录因子结合位点之间的相互作用的方法。此类方法可包括用激素诱导细胞群；免疫沉淀细胞以分离染色质纤维；通过交联细胞且破坏染色质纤维产生染色质片段；修复染色质片段的末端且将末端连接至衔接子，从而产生染色质复合物；生成对应于染色质复合物的簇；且通过一起消减邻近的簇来测定在染色***置之间的相互作用。

下述实例预期示出本发明的多个实施例。像这样，讨论的具体实施例不应解释为对本发明的范围的限制。对于本领域技术人员显而易见的是，可作出多个等价物、改变和修饰，而不背离本发明的范围，并且应当理解此类等价实施例包括在本文中。进一步地，公开内容中引用的所有参考文献在此通过引用整体合并，如同它们在本文中完全阐述一样。

实例

体外转座的几个性质可用于开发超低成本、大规模平行测序法以用于捕获在不同规模上的邻接信息。首先，经修饰的Tn5转座组在体外在催化共有序列的***的反应中以高效率和高密度攻击DNA，连同或不连同断裂，这取决于合成转座子是连续还是不连续的。其次，转座组攻击的模式关于序列内容是相对随机的。第三，简并子序列加上共有衔接子序列可容易地包括在合成转座子内。第四，体外转座作为单体积、水相、酶促反应是廉价的。实例1-3涉及大规模平行方法的开发，所述方法采用体外转座以分别告知小范围、中等范围和大范围邻接。实例4涉及采用体外甲基化的转座捕获邻接信息的方法的开发。实例5涉及用于测量较小细胞群内的DNA-DNA和DNA-蛋白质相互作用的方法的开发，所述方法采用infinipair技术以直接测序已交联的免疫沉淀的DNA的多个片段。实例6涉及整合这些方法以证实高质量的从头基因组装配和单元型分辨的基因组重测序。

一般方法

邻接信息是主要目标。下文所述的实例中的方法解决下一代测序领域中的“盲点”。具体地，该方法解决用于测定在更广泛规模上的邻接信息的超低成本方法的缺乏问题。

这些方法及其相关成本依赖它们与之整合的测序技术，因为这是通过其解码与邻接信息偶联的一级序列的方法。下文的方法使用商购可得的、环状阵列平台（例如IlluminaGA2x或HiSeq）执行。然而，本文描述的所有方法均可与其他DNA测序方法整合，例如纳米孔测序、其他环状阵列平台。广泛相容性将确保这些方法可与作为在成本/碱基方面最佳出现的任何技术组合。

材料与方法

用于捕获邻接信息的体外转座。尽管实例1-6在技术上不同，但共同思路是它们依赖高密度、随机、体外转座作为以创造性方式物理粉碎基因组DNA的新型方法，所述创造性方式促进回收在不同规模上的邻接信息。这种技术中的最初兴趣基于其用于鸟枪法文库的低成本、低输入、体外制备的潜在效用。如图1中所示，经修饰的Tn5转座酶在单个、5分钟步骤中催化断裂和衔接子掺入。在常规体外转座中，通过转座酶识别侧接转座子DNA的反向19bp镶嵌式末端(ME)序列，且所述序列在溶液中形成稳定的同二聚体突触复合体。这种“转座组”将转座子***靶DNA内。当应用于文库制备时，转座组相反由酶和具有衔接子突出端的游离ME序列组成。不连续转座子的***导致经由具有不对称5’衔接子突出端的ME序列的对称***的断裂。用与衔接子互补的引物的PCR扩增获得鸟枪法片段文库。

为了解决关于***偏差和文库复杂性的关注，用体外鸟枪法文库构建的传统方法(Adey等人2010)执行广泛比较。分析揭示用基于转座组的方法在断裂位点处关于序列内容的略微更大的偏差。然而，这在全人基因组重测序过程中的覆盖分布方面具有可忽略不计的影响（图2），并且该方法显示出等价的G+C偏差。关键的是，注意到，由少至400纳克制成的转座组文库的复杂性等价于或大于由量大得多的输入DNA制成的标准文库的复杂性。

用这种方法观察到的文库复杂性暗示基因组DNA大量转换成衔接子侧接的文库的效率很高，因为断裂事件可沿着基因组DNA的任何给定段紧密接连出现，以便生成测序相容的几百个碱基对的片段。事实上，在分析起因于这种方法的片段长度的分布中，我们观察到可能是来自邻近、攻击转座组的立体阻碍继发的在～35bp处的暴跌（图3）。即使对于方案的无PCR版本（为了避免扭曲片段大小分布），数据也暗示大量邻近转座组反应(>95%)通过35-600bp分离。原则上，大量转换的这种高效率应转化为低输入需求。与这一致，即使对于低至100皮克（人基因组的30单倍体当量）的输入，可获得复杂文库。在10皮克（3单倍体当量时，复杂性开始进入瓶颈，但仍可观察到数百万独特作图的读数对。

实例1：小范围邻接

1.A.对称且独特标记断裂事件

基因组DNA断裂，无论是通过机械还是酶促方法，均导致关于分子成对的信息的完全损失，所述分子源自任何单独“中断”的任一侧。为了保存这个信息，设计方法以使独特条形码与源自通过体外转座引入的每个中断的片段的两个末端结合（图4）。简言之，转座酶可用于催化合成转座子的体外***极低量的基因组DNA内，即小于5单倍体人基因组当量，所述合成转座子含有被切口限制性核酸内切酶位点侧接的简并单链“泡”。与图1中所述的方法形成对比，合成转座子是连续的，含有19bp ME序列连同侧接25bp简并序列的两个核酸内切酶切口位点。因为简并区在上和下链之间不是互补的，所以存在单链泡，从而增加帮助形成具有两个转座酶单体的突触复合体的灵活性。在***这些合成转座子至高密度（每35-600bp）后，经由缺口填充和连接反应修复起因于转座机制的9bp损伤(lesion)。

随后使构建体进行基于引发酶的全基因组扩增(pWGA)，其分解在简并区处的泡，同时获得相对均匀的扩增（Li等人2008）。随后通过两种切口核酸内切酶将这种材料消化完全，所述切口核酸内切酶在侧接简并区的相反链上引入切口。最后，用链置换聚合酶的延伸使靶DNA断裂，从而获得以等同条形码序列即对称标记终止的分子。在这个点上，出于与大规模平行边合成边测序的相容性可应用标准方案（有A-尾，衔接子连接，PCR）。分开的读数可用于获取在每个文库分子的每个末端处的条形码和一级序列。

本文使用的条形码应是对每个断裂事件独特的，因为它们源自25bp简并段且可在计算机上用于接连连接源自邻近转座组***的读数对的串。这些“连接点”基于单独的条形码，因此它们完全不依赖一级序列内容。

为了测试这种方法的可行性，设计含有单链泡的合成转座子（如图4的第一个步骤中所示，但具有用于A和B而不是简并序列的固定非互补序列），所述单链泡具有对应于两个引物的固定、非互补序列。这些合成转座子装载至EZ-Tn5转座酶且在合适条件下与基因组DNA反应。在起因于转座事件的预期的9碱基对损伤的缺口填充和修复后，用对应于非互补合成泡序列的引物的PCR获得具有范围为～0.5至～3Kb的广泛大小分布的扩增子（图16）。这个实验证实，含有单链泡的合成、连续转座子可以合理效率***。为了达到***位点的更致密分布，这种方法应进行最佳化。特别地，可改善转座酶装载上合成转座子的效率。因为邻近、攻击转座酶复合物的立体阻碍对***密度施加上限（图3），大摩尔过量的适当装载的转座组复合物可能达到更致密的***分布。

1.B.邻近事件是可检测的证据

为了评估邻近断裂事件是否潜在地可通过测序检测，从源自10皮克人基因组DNA（3单倍体当量）的转座组断裂的鸟枪法文库的测序挖掘出～2百万独特作图的读数对。因为9bp重复在每个断裂事件的每个末端处出现，所以源自每个事件的任一侧的分子应以9bp重叠对基因组作图。因此，距离其他读数对的“读数1”起始位点9bp观察到在“读数2”作图位置中的明确增加（图5）。与由更大量的原材料生成的文库相比较，这个标记在这个超低输入文库中明显更显著。使用这个9bp重叠作为源于相同断点的片段的证据，鉴定源自总共跨越～1Kb至～2Kb的接连、邻近片段的4-6个读数对的链（图6）。

1.C.方法开发和性能参数

上文描述的策略（参见1.A）是几种相关方法之一，所述方法已设计为(1)获得对称且独特标记的断裂事件和(2)通过在分析过程中采用这些标记接连连接源自邻近转座组***的序列读数对的串。用于对称标记的替代方法也已得到开发，其中各个转座酶装载有对称标记但形式上不连续的寡核苷酸(oligonucleotide)（或“寡核苷酸(oligo)”），使得标记和断裂均可在单个步骤中发生。

基于这种替代方法的方法设计为构建对称标记的、5’至5’连接的转座子试剂（图17）。为了生成这种试剂，连接两个引物，其中之一含有5’-5’反向腺嘌呤RNA部分和3’磷酸阻断基。用T4RNA连接酶执行在末端RNA碱基与另一个寡核苷酸的5’磷酸化DNA碱基之间的单链连接。5’-5’连接的引物随后与寡核苷酸杂交，所述寡核苷酸含有关于两个引物的合适互补序列、充当标记的简并段（例如20个随机化核苷酸–图17中以黑色显示）和由转座子识别的19bp镶嵌式末端(ME)序列。延伸5’-5’对中的第一引物，同时另一个末端被3’磷酸盐封闭。接下来，T4多核苷酸激酶(T4PNK)用于去除3’阻断磷酸盐，并且用链置换聚合酶延伸第二引物。所得的物质(species)的每个单一分子包括通过反向腺嘌呤部分5’至5’连接的两个寡核苷酸，其在整个简并段上是等同的并且各自以19bp镶嵌式末端(ME)序列终止。基于凝胶的纯化用于去除延伸副产物，并且随后杂交合适的寡核苷酸以使每个末端处的ME子序列双链化。所得的物质在单一分子水平均对称地标记，并且可容易装载至Tn5转座酶。

如所述地构建5’-5’连接的、对称标记的转座子物质。在凝胶纯化去除延伸副产物前，所述转座子的全长产物(194bp)显示于图18a中。用所述转座子的基因组DNA的成功断裂显示于图18b中。

这种方法的成功依赖至少两个参数：(1)文库复杂性的维持：当链的任一末端上的邻近片段在测序中无法检测时，读数对的链接终止。例如，在极端时，如果源自合成转座的100%片段连同相应标记成功测序，那么原则上可能从整个染色体的端到端链接。(2)表示(representation)的均匀度：对来自大部分断裂事件的两个末端的标记和一级序列取样所需的测序程度很大程度上依赖文库均匀度。相对表示的显著扭曲可能需要克服相应大量的测序。因此此类扭曲降到最低是重要的。

通过模拟，基于转座组断裂的经验大小分布（图3上），并且根据成功测序的源自转座酶的片段的部分（其依次根据测序深度和上述性能参数），测定链接读数对的N10、N50和N90跨度。如图7中所示，邻接以超过90%的效率骤升。在95%效率时，N50是1.4Kb，并且N10是4.7Kb。在99%效率时，N50是8Kb，并且N10是24Kb。在99.9%效率时，N50是71Kb，并且N10是237Kb。

这种技术的重要方面是在独立读数对之间的计算机“连接点”几乎完全不依赖一级序列内容（如很大程度上对于常规从头装配的情况，它不被紧密相关序列的遍在性混淆）。相反，连接点基于共享的条形码序列，其起因于用于对称标记断裂事件的合成转座子。注意到，25bp条形码（相对于PE100运行，其仅需要测序量中的25%增加）不太可能是偶然等同的，即使当将数百万个独立标记测序且允许合理编辑距离时。此外，在一级序列之间的预期的9bp重叠可充当关于正确连接点的“验证密钥”。因此，导致不正确连接点的一致或误差的机会极低。

这种方法可致使“选通读数”（即来自单个、长连续片段的多个子读数（Ritz等人2010））的等价物成为可能，同时使用短读技术。当沿着链的任何给定基因组片段太长而不能通过单末端或成对末端测序跨越时，产生缺口。缺口的频率和长度分布根据这种方法与之整合的短读技术的读数长度。例如，假定：1)基因组片段通过成对末端、100bp读数(PE100)查询；2)20bp的末端重叠足以合并从任一末端对相同片段测序的读数对；3)图3中所示的断裂大小分布保留，随后模拟显示0.7缺口/Kb的平均值，其中缺口大小平均为53±48bp（小于5%的总体支架长度）。

1.D.经由转座酶的LoxP***随后为Cre重组

在另一个实施例中，细菌转座酶Tn5可用于***含有被反向镶嵌式末端(ME)序列侧接的34bp定向LoxP位点的转座子，以及内部生物素化和潜在的替代测序引物。靶标***密度大致是每10个千碱基一个***事件。

所得的分子群体具有以相同次序或反向方式的***事件。用Cre重组酶的重组切除DNA的10kb环形段，其中两个LoxP位点以相同取向串联***。当串联LoxP位点反向时，10kb区域将是反向的，而DNA将保持线性。最后，链间LoxP位点将重组且交换链，这也将导致线性DNA。

线性分子随后可使用质粒安全的(plasmid safe)核酸外切酶进行消化，留下起因于在处于相同取向的两个串联LoxP位点之间的重组的环化DNA。

环化DNA随后可用于通过任何方法的文库制备，并且侧接LoxP转座子的DNA可通过链霉抗生物素蛋白珠子下拉富集。PCR随后为来自LoxP位点内或分子终末端的测序将获得～10kb配对读数。

1.E.Y-转座子

在另一个实施例中，Y-衔接子方法（图23）可代替常规转座酶催化的衔接子***作为用于文库制备的方法使用，其中所得的物质是A-B(50%)、A-A(25%)或B-B(25%)，其中A和B是两个不同衔接子并且仅50%分子对于测序是可行的。

在这种情况下，Tn5可装载有对于19bp镶嵌式末端识别序列互补的寡核苷酸，连同提供更高的解链温度的互补性延伸，随后为A和B’的非互补单链DNA(ssDNA)衔接子突出端。转座将导致衔接子之一（在3’末端处的ME）经由杂交与保持结合的另一个直接连接。

非置换聚合和切口修复可导致其中每个***事件可导致可行的测序扩增子的分子。

替代实施例涉及含有U（或用于降解或聚合酶不连续性的其他接头或可靶向位点）的发夹转座子，所述U连接Y-衔接子的末端以阻止由于解链造成的另一条链的丧失，如图23中。

1.F.双泡条形码转座子

在另一个实施例中，含有两个简并条形码（在每条链上）和两组引物位点以及几个限制性位点的合成转座子可通过高频率***基因组DNA内，如下文实例中所示：

ES–SbfI/AsiSI–N1/N2–条形码–X/Y–NotI–X/Y–条形码–N1/N2–SbfI/AsiSI–ES

所得的转座和缺口修复随后为全基因组扩增(WGA)分辨简并区。使用最外部的限制性位点（上文实例中的SbfI、AsiSI）的消化随后为使用N1/N2和突出端流动池引物的PCR允许测序运行，以结合在每个***的转座子内的两个简并条形码。

在转座子中间（上文实例中的NotI）的其他消化以及来自X/Y以及N1/N2的扩增和测序给出外部条形码序列和间插基因组DNA。

1.G.用***条形码的转座酶的子装配

在另一个实施例中，可***不连续转座子，其中每个装载的DNA序列由外部流动池引物、简并条形码、内部测序引物和双链转座酶识别序列组成。靶标***密度可是每1-2kb。

在转座后，具有测序或流动池引物突出端的简并序列引物可用于对沿着分子的不同位置退火，且在稀释模板下，或更可能地在乳化条件下，延伸回到终止转座酶加入的序列。

测序允许条形码与每一个读数结合，所述读数来自遍及长分子出现的简并引物延伸。

1.H.基于配对（ssDNA环化）转座酶的文库制备物

在另一个实施例中，具有约1-2kb的片段大小的标准、基于加条形码的转座酶的文库制备物可用于形成配对文库，其中可能需要大小选择。

使大片段基于加条形码的转座酶的文库制备物进行使用5’磷酸化流动池（最外部的）引物的PCR，其中还具有内部生物素以及接近5’末端的尿嘧啶。

将所得的PCR产物环化，随后为机械剪切。随后将断裂DNA变性且以单链方式环化。使用链霉抗生物素蛋白包被的珠子选择含有内部环化的末端的片段。环随后通过在尿嘧啶处的消化成为线性的，所述尿嘧啶翻出分子外。测序允许来自原始文库末端的配对读数，也保存条形码。

1.I.转座子修饰的F粘粒或质粒文库库测序

在另一个实施例中，连续、合成转座子可***基因组DNA(gDNA)内，随后为缺口修复。DNA随后剪切至40kb（或大致5kb）且分别用于制备复杂的F粘粒文库（或质粒）文库。这允许基因组的重复区被转座子破坏，所述转座子具有独特条形码，或通过其在重复区内的独特***位点而鉴定（图27）。

简言之，使用体外转座法将合成、连续转座子***基因组或高分子量DNA至在100-1000个碱基对(bp)之间的密度。转座子或者都是相同的，或者含有独特条形码。随后修复起因于转座机制在长度中9bp的损伤。接下来，将DNA剪切至约～40kb（或～5kb），并且执行大小选择，随后为末端修复。接下来，使用经修饰的、剪切且修复的DNA生成复杂的F粘粒（或质粒）文库。最后，将F粘粒（或质粒）文库库测序，以提供定相信息以及关于转座子***的信息，所述转座子***允许使用独特的条形码和/或独特的转座子***位点区分基因组的相似区域。

实例2：中等范围邻接

2.A.用小滴特异性条形码的乳滴PCR

乳滴PCR是广为接受的，但下文的方法要求含有试剂的小滴，所述试剂包括具有小滴特异性条形码的引物。这些试剂可通过侧接简并子序列的共同序列的乳滴PCR生成，伴随产物至微米规模珠子的回收（图8）（Dressman等人2003）。具体地，大量以克隆方式扩增的珠子（各自具有推测独特的条形码）可通过乳滴PCR用有限稀释生成，随后为通过杂交富集“扩增的”珠子（Shendure等人2005）。这些珠子可再次乳化以用于在下文方法中使用。单个以克隆方式扩增的珠子/小滴的包括连同共同序列和乳滴PCR引物的合适设计将导致加条形码的扩增子捕获至珠子自身以用于方便回收。

2.B.“预转座的”HMW基因组DNA的加条形码

在一个实施例中（图9），转座组装载有含有转座酶识别序列的衔接子与具有互补末端的两个不同子序列的5’ssDNA延伸物。这导致由连接的衔接子序列密集点缀的HMW基因组DNA。这些“预转座的”分子随后用有限稀释区室化至乳滴，其中使用微流体以使剪切降到最低且控制大小，同时维持小滴生产的高通量（Zeng等人2010）。用具有小滴特异性条形码的引物的乳滴PCR（上文2.A）将扩增源自在每个小滴内的相同HMW分子的许多片段。源自相同小滴的序列读数将与最终文库中的相同条形码结合，由此促进每个祖先20–200Kb分子的计算机分组和局限性装配。

2.C.“预扩增的”HMW基因组DNA的加条形码

在另一个实施例中（图10），HMW DNA直接区室化至具有试剂的乳滴，其中再次使用微流体以使剪切降到最低，所述试剂支持小滴内的克隆、等温多重置换扩增(MDA)（Mazutis等人2009）。这些小滴随后与含有标准转座组以及用于乳滴PCR的试剂的小滴融合（用相对直接了当和成本有效的微流体装置），其中使用具有小滴特异性条形码的引物（上文2.A）。关于上文描述的先前实施例，所得的文库的回收和测序可查询在每个分子上的鸟枪法一级序列和条形码序列，其中预期共享相同条形码的读数源自相同祖先20–200Kb分子。

这种方法可用于转座组断裂，随后为在单个乳滴内的PCR。当“单步”法用于生成来自细菌菌落的测序文库时，可执行转座随后为不含清除步骤的PCR。在一些方面，通过加入PCR试剂稀释转座组反应（Adey等人2010）。值得注意的是，在这种方法中是PCR聚合酶促进通过切口平移修复起因于转座的9bp损伤。最低限度，这些数据示出MDA小滴可与支持转座组反应的小滴融合，并且这些随后可与含有PCR试剂和加条形码引物的较大小滴融合。

相同有效末端结果可用体外方法唯一地达到。本文描述的每种方法(2.B，2.C)依赖将在每个乳滴小滴内的转座组断裂产物捕获至独特加条形码的珠子。为了使这些方法之一（例如，2.C.中所述的方法；“预扩增的”HMW基因组DNA”的“加条形码”）成功，基于转座酶的断裂和基于聚合酶的延伸均必须在相同乳滴区室内即在相同缓冲液内发生。最初实验已集中于这个具体步骤，并且在非乳滴反应体积中进行，以促进最佳化（图19中示意性的）。近来证实了在所选缓冲液中的这种相容性。简言之，制备反应体积，其含有在Nextera HMW缓冲液中的50ng基因组DNA、dNTP、衔接子1和2、装载的转座酶和PCR聚合酶。衔接子1和2设计为包括与合成转座子互补的两种序列，以及在其5’末端处的独特序列（P1和P2）。转座酶+延伸反应在55C下执行5:00以促进转座，随后立即为单轮热循环，以促进切口平移且附加衔接子1和2（72C进行10:00、95C进行0:30、62C进行0:30、72C进行10:00）。使反应物进行基于柱的清除且随后将其用作仅使用外部引物P1/P2的PCR中的模板。所得的扩增子大小分布（图20）与在相同缓冲液中发生的基于转座酶的断裂和聚合酶延伸一致，尽管具有有限的***密度。在油包水乳剂的背景下，延伸产物或装载有加条形码的寡核苷酸的珠子的捕获，可以证实这种反应。

中等范围的邻接信息可能足以广泛支持个体人基因组的重测序中的单元型分辨。为了测试这点，通过对大***（F粘粒）克隆的复杂库的加条形码且测序，实现直接了当的“捷径”方案。具体地，从单个个体克隆随机剪切的人基因组DNA(～35Kb)，以获得复杂的F粘粒文库（>2x10^6个克隆）。随后将这个文库转化至培养的大肠杆菌(E.coli)。将所得的转化的大肠杆菌培养物分成115个部分，且选择转化体。滴定最初转化，以获得～5,000个克隆/库。考虑到～35Kb的均匀***大小，这对应于二倍体人基因组/库的～3%物理覆盖。随后执行转座组断裂，以由115个库中的每一个生成加条形码的文库。对于总共120Gb的序列（PE76或PE101+条形码），在Illumina GA2x上的18个泳道上将这个文库测序。对于总共86Gb的序列(PE50)，或单倍体基因组的28倍覆盖，还在Illumina HiSeq上的7个泳道上将来自这个相同个体的鸟枪法文库测序。后面的数据单独获得3.6百万SNP和***/缺失调用，但就迄今为止的所有个体人基因组序列，这些调用对单元型是不知情的。

在去卷积条形码且对读数作图后，通过读数深度容易地鉴定在每个库内的各个克隆的大致边界。鉴定对于二倍体基因组～3x物理覆盖的总共538,009个克隆（4678±1229/库）。98.6%的基因组由1+个克隆覆盖，并且93.6%由3+个克隆覆盖。避免克隆库的长期长出，以使生长效应对表示的影响降到最低。这是成功的，因为平均起来82%的克隆/库具有在一个数量级内的读数深度。因为每个库仅稀疏地对整体而言的基因组取样，但在任何给定库内的重叠或‘克隆-碰撞’的比率很低。因此，源自每个库的短读数压倒性地代表在任何给定位置处的来自两个同源染色体中仅一个的等位基因。使用极度节省最大化方法在所有库上装配来自克隆的单倍体基因型调用（Bansal和Bafna2008）。所得的单元型装配覆盖93%的确定杂合SNPs，具有386Kb的N50。在所有RefSeq基因中，63%完全由单个定相单元型框包含，而75%至少一半由单个框包含。

将这个定相装配与关于这个相同个体的HapMap预测相比较（图11）。在非常高LD的区域内(D’>0.90)，观察到与HapMap预测几乎完美的一致性（>99.5%一致）。因为选择的样品不是三个一组(trio)的部分，所以HapMap预测依赖等位基因之间的LD，以预测来自基因型调用的相。相应地，一致性在更高度重组基因的区域(D’<0.10)中减少至～71%，其包括大多数(66%)成对SNP组合。这个基因组的单元型分辨的重测序是直接和实验性的，并且因此对基于群体的测量例如LD和等位基因频率是完全互不相关的。因此，这个趋势可能反映关于HapMap定相部分的误差（Lecy等人2007）。

与基于群体的推论性方法形成对比，直接单元型分析允许罕见等位基因和结构变体的定相，包括在复杂的重复基因座处（Kidd等人2008）。例如，在这些数据中，观察到含有在染色体7q11上的共同倒位多态性的克隆以及含有在染色体1p36上的罕见缺失多态性的克隆。类似方法可通过本文描述的方法用于将短序列读数的明确指定影响至20–200Kb区域。无论是依赖克隆还是完全体外的，中等范围邻接信息促进个体人基因组的大范围单元型分辨。进一步地，中等范围邻接信息还可促进大的复杂基因组的从头装配。

2.D.用珠子固定的转座组的乳滴转座

在另一个实施例中，可用高分子量基因组DNA和游离转座酶来乳化珠子，所述珠子在以双链DNA(dsDNA)转座酶识别序列终止且以流动池引物开始的引物侧接的、简并、单克隆条形码寡核苷酸(oligonucleotide)（或“寡核苷酸(oligo)”）中包被。珠子固定的寡核苷酸和攻击基因组DNA可在乳状液内装载转座酶。所得的片段是PCR现成的且能够连同其条形码一起测序。条形码结合随后可用于将来自相同祖先分子的读数分组。

这种方法包含几个变体。例如，以镶嵌式末端序列(ME)终止的加条形码的寡核苷酸的许多克隆拷贝以其5’末端固定到每个珠子上。这些珠子可通过乳滴PCR用5’生物素化的引物和简并区生成，或作为另外一种选择，可合成较小组的加条形码的寡核苷酸且固定至珠子。包含ME的反向互补体(ME’)的短寡核苷酸存在于乳滴混合物中，以支持转座酶装载。作为另外一种选择，ME’可在乳化前退火且装载到转座酶上。可设计具有可酶促切割的部分的珠子结合的寡核苷酸，以允许装载的转座组分散在小滴内。

2.E.乳滴转座和珠子捕获

在另一个实施例中，由具有内部反向碱基的寡核苷酸包被珠子，由此具有两个3’末端。在反向碱基的珠子远端3’侧的是引物位点侧接的、简并、单克隆条形码和固定的衔接子序列（“N1引发”）。这些用底物（例如HMW gDNA）和预装载有寡核苷酸5’-N1-ME的转座酶乳化。转座随后在每个小滴内进行，从而生成与5’-N1-ME序列共价连接的片段。随后将混合物加热，从而灭活转座酶且使断裂的底物变性。在缓慢冷却后，通过转座生成的5’-N1侧接的片段对珠子结合的寡核苷酸的游离末端退火。随后使用在每个小滴中或在破坏乳滴后存在的耐热的聚合酶延伸珠子结合的寡核苷酸。条形码结合随后用于将源于相同祖先分子的读数分组。

在替代方法中，在引物侧接的、简并、单克隆条形码寡核苷酸中包被珠子。随后，具有3’-封闭部分的随机六聚体（DNA或LNA）的库通过ssDNA或RNA连接酶附着至每个珠子固定的寡核苷酸的3’末端。随后将珠子、底物（例如HMW gDNA）和预装载的转座组乳化。转座导致具有共价附着的5’接头的片段。将这些片段变性且允许其对珠子结合的寡核苷酸的随机3’部分退火。随后通过每个小滴中存在的聚合酶或通过破坏乳滴且加入聚合酶，将杂交的片段延伸到条形码内。条形码结合随后用于将源于相同祖先分子的读数分组。

2.F.使用转座酶末端捕获长分子和乳化

在另一个实施例中，可使具有与末端连接的衔接子B’的长基因组DNA分子进行泡转座子的转座子***，其中反向衔接子A序列构成被转座子识别序列侧接的泡。分子随后可乳化，其中微量反应物的一部分含有大分子、在以衔接子B终止的单克隆简并条形码中包被的珠子、和衔接子A。随后执行PCR，这导致用在珠子上连接的B衔接子扩增最外部的末端，从而附加独特条形码。

在使用洗涤的珠子执行后续PCR后，可将文库测序且条形码可用于结合来自原始长分子的末端中每一个的两个末端序列，从而有效产生原始长分子无论是何种大小的跳查文库。

2.G.经由转座酶的T7启动子***

在另一个实施例中，转座组装载有泡结构，被对于一侧的T7终止子和对于另一侧的T7启动子侧接。这个结构通过以至少一个整合/千碱基的密度的大量转座整合到底物（例如HMW gDNA）内。所得的材料随后用T7RNA聚合酶和珠子乳化，所述珠子含有被引发位点侧接的单克隆简并条形码且以与在T7终止子前的整合泡结构部分互补的序列(X)终止。在每个小滴内执行体外转录，并且以X’终止的所得的RNA分子与其珠子结合的互补序列杂交。随后执行逆转录，以在每个小滴内或在破坏乳滴后延伸珠子结合的寡核苷酸。条形码结合随后用于将源于相同祖先分子的读数分组。

2.H.在衔接子泡***的高分子量片段上乳滴PCR的延伸，以允许子装配

在另一个实施例中，可***形成“泡”的转座子，其中在转座子内的泡包括处于相反取向的两个相同衔接子。使用处于相反取向的相同衔接子维持“泡”结构。泡可以约1,000bp的频率***。

如图26中所示，随后将大片段乳化，其中微量反应物的一部分将含有单个长DNA片段，在其5’末端经由生物素结合且由外部引物、简并条形码（对于每个珠子单克隆的）和经由转座***的针对衔接子的互补体组成的引物中包被的单个珠子。多重置换PCR(MDPCR)随后生成从每个衔接子***位点延伸出的许多拷贝。

随后破坏乳滴并且拉出珠子。用在不连续转座子上的第二衔接子的转座以对于扩增片段的每个拷贝远离珠子的随机距离出现。非珠子结合的产物的去除和扩增将产生其中来自大片段的所有扩增子均可彼此结合的文库。文库还保留使用通过来自原始条形码衔接子的基因组DNA的测序而获得的序列作为锚以结合读数的能力，其中关于所有局部结合的读数的成对读数可用于子装配，因为它们起于不同次级（乳滴PCR后）转座事件。

2.I.在纳升反应器中克隆有条形码尾、随机引发的扩增

在另一个实施例中，在具有对于每个珠子单克隆的简并条形码以及非克隆、完全简并的短k聚体（k=5-9）的引物序列或其模板中包被珠子。通过从珠子中切除固定的DNA寡核苷酸或替代地通过固定的DNA寡核苷酸体外转录成RNA引物而释放这些引物。设计固定在珠子上的寡核苷酸，使得所得的DNA或RNA引物如下组构：

5’—[共同1]—[克隆条形码]—[共同2]—[随机_k-聚体]—3’OH

可通过将这些完全序列（例如以96个不同条形码的组）直接固定至珠子或通过乳滴PCR制备珠子固定的寡核苷酸。

因此制备的珠子用下述乳化：(i)以一个底物片段/小滴的靶浓度的底物DNA（例如高分子量基因组DNA），(ii)用于引物释放/合成的试剂，包括但不限于T7RNAP和NTP、任何合适的限制性酶、或尿嘧啶N-糖基化酶和DNA糖基化酶-分解酶，和(iii)支持来自切割/合成的引物的DNA聚合的试剂（例如phi29或Bst DNA聚合酶、dNTP）。

在其释放或合成后，引物通过随机引发对遍及底物分子的位点退火。包括的DNA聚合酶沿着模板延伸退火的引物，从而导致多个、随机间隔的dsDNA片段，所述片段含有在5’末端处对给定小滴克隆的标记和源自沿着底物的多个点的3’末端序列。在一个方面，DNA聚合酶具有强链置换活性（例如phi29DNAP）。

在这个DNA聚合后，破坏乳滴。如果使用RNA引物，那么通过本领域已知的方法将每个引物中编码的条形码逆转录成DNA。最后，使所得的片段进行标准文库构建技术（基于转座酶或以其他方式），且使用由共同1组成的左引物和对应于通过转座或连接加入的衔接子的右引物扩增。条形码结合随后可用于将源于相同祖先分子的读数分组。

实例3：大范围邻接

使用空间信息（即在该处固定物理连接的测序模板的相对坐标）开发通过原位转座到测序流动池表面上的非常高分子量(very HMW)基因组DNA内用于大范围邻接（例如100Kb–10Mb）的方法，与如上所述的将邻接信息捕获至条形码相反。

此类方法通过下述完成：(1)采用原位转座，以获得来自任意大的单个DNA分子的成对末端读数，和(2)开发相关方法，由此获得沿着任意大的单个DNA分子的全长的多个读数。

在一种方法中（图12b），HMW DNA分子可用衔接子(FCA1)末端修饰，但随后与流动池杂交，不连同拉伸。长DNA分子一般在溶液中采用不规则卷曲构型。一个末端杂交，而另一个末端在空间上受约束至与模板伸直长度的平方根成比例的面积。这增加它将在紧密或接近等同的物理位置（或“受约束的”物理位置）处杂交的可能性。随后使固定的模板进行用转座组的原位转座，所述转座组装载有对应于第二流动池引物的杂种衔接子(FCA2)，但还含有对应于两个可能的测序引物之一的序列（p1或p2）。在簇PCR后，约～50%的原始模板将可能产生两个可见重叠或紧密定位的簇，其各自含有源自与p1或p2邻近的非常HMW分子的一个或另一个末端的鸟枪法序列。源于具有相同或紧密定位的物理坐标的p1/p2的读数高度可能已自相同非常HMW分子的末端得到。

对于这种方法（图12b），分子应具有3’单链尾，其与流动池序列（即，簇PCR引物）之一互补。为了实现这点，流动池衔接子A（或B）可附加至溶液中的HMW DNA分子的末端，且随后经由原位转座***衔接子B（或A）。在实践中，对于这些步骤之一需要两个不同种类的衔接子，即A1和A2（或B1和B2）。这是因为源自在任何给定HMW DNA分子的任一末端处的片段的簇将紧密接近定位，具有干扰另一个的测序的潜力，除非使用不同测序引物。这可通过使用两种不同衔接子（即A1和A2（或B1和B2））来实现，所述衔接子均含有流动池衔接子序列（A（或B）），但还在其3’末端处含有独特序列，以促进不同、无法交叉杂交的测序引物的设计。在一个实施例中，将A1和A2加入溶液中的HMW DNA的末端，并且B经由转座加入。这个方案致使HMW分子末端（与A1和A2邻近）、而不是转座连接点（与B邻近）的测序成为可能。转座连接点必须包括19bp镶嵌式末端(ME)序列，其使具有不同特异性的两个测序引物的设计复杂化。然而，替代方案（通过19bp ME测序）将是不必要的浪费。

注意到光学作图照常规用于分析长达1Mb的分子。本文描述的***可应用于相似长度的分子。

在另一种方法中，对拉伸的单个DNA分子的光学测序已显示能够获得来自沿着相同分子的多个位置的高达3bp连续序列信息（Ramanathan等人2004）。因为读数直接由单个分子生成，所以在很大程度上避免了样品数量和PCR偏差的问题。然而，为了使这种方法在促进从头基因组装配中是实用的，读数长度必须得到显著改善。

此处，原位转座可用于促进与光学测序相关但使用现有的下一代测序硬件、软件和试剂的方法。在一种方法中（图12a），非常HMW DNA分子的文库(10⁵-10⁷bp)用衔接子(FCA1)末端修饰，与引物包被的流动池的表面杂交，并且使用电场物理拉伸。在仍应用场时，将第二衔接子冲洗到流动池内且允许杂交（类似于（Geiss等人2008））。这锁定每个模板的游离末端且使其保留在拉伸位置中。随后可引入预装载有第二流动池相容衔接子(FCA2)的转座组，以随机断裂拉伸的分子，同时***这些衔接子。大多数片段将接受两个FCA2衔接子，除了具有FCA1和FCA2的末端外。经由这些衔接子的簇PCR仅在拉伸分子的末端处产生簇。以这种方式，我们获得空间上共线性的簇，其已知源自相同亲本分子且通过簇之间的物理距离相关。

3.A.光学测序和原位文库构建

使用限制性酶的光学作图已成功生成用于基因组装配的大范围邻接图（Zhou等人2009；Zhou等人2007；Lin等人1999；Lim等人2001；Lai等人1999；Schwartz等人1993）。然而，由于星号活性和无效切割，这个过程受假阳性和阴性切割位点限制，从而迫使来自相同区域的多个光学图生成共有的图。限制性酶识别位点的非一致分布还可限制源自重复或低复杂性区域的有用信息的量。

如上所述，与最成本有效的DNA测序技术结合的相对短的读数长度已限制了从头基因组装配以及人基因组测序的质量和完全性。目前存在很少或不存在这样的稳固方法：所述方法以与大规模平行测序的目前规模相称的通量捕获中等范围和大范围邻接信息。为了解决这个局限性，构建原位文库且在目前可获得的下一代测序平台的流动池上执行光学测序。通过使用在标准Illumina流动池上的原位文库构建生成通过1、2和3kb分离的>30,000大肠杆菌成对末端读数，这产生用单一技术捕获邻接信息和一级序列的有效方法。

表面介导的桥式PCR对于>=1kb的***表现不佳，这限制Illumina平台生成来自高分子量(HMW)DNA的天然长成对末端读数的能力。为了避免这点，受约束至特定大小范围的HMW DNA分子用两种流动池相容的衔接子序列（FCA1和FCA2）末端修饰，所述衔接子序列各自含有两种可能的引发测序引物之一（p1或p2）。模板随后在稳流下与流动池表面杂交，在其过程中它们一般采用不规则卷曲构型。当一个模板末端杂交时，它在空间上约束另一个模板末端，由此增加它将在紧密物理接近中杂交的可能性。随后使固定的模板进行用转座组的原位转座，所述转座组装载有对应于第二种流动池衔接子(FCB1)的杂合衔接子。如果没有转座事件，每个模板分子仅含有生成簇所需的两种所需流动池衔接子之一。对于转座的模板，这个过程生成两个低分子量(LMW)模板，其均能够簇形成且在紧密接近中与表面杂交。在桥式PCR扩增后，50%的模板应产生两个重叠或紧密定位的簇，其各自含有源自HMW分子的一个或另一个末端的鸟枪法序列。p1随后连续用于将一个末端测序并且p2用于将模板的另一个末端测序，并且源于紧密定位的物理坐标的读数可能已从相同HMW亲本分子的末端得到。以这种方式，通过在该处生成簇的空间坐标提供了信息，以推导大范围邻接。以相似方法，在一个末端拴系且使用流或电场拉伸的HMW DNA分子可用合适的衔接子原位转座，以生成源自相同亲本分子的多个共线性簇。

材料与方法

文库合成。来自大肠杆菌B型细胞的基因组DNA得自USB（部分#14380）且在Bioruptor(Diagenode)上物理剪切30秒。DNA随后在以100V运行2小时的1%琼脂糖凝胶上进行大小选择，纯化(Qiagen QIAquick Gel Extraction Kit)，且末端修复(End-It，Epicentre)。将发夹衔接子自退火，且随后使用Fast-Link连接酶(Epicentre)平端连接过夜。通过用核酸外切酶III(NEB)和VII(Epicentre)处理来去除未连接的基因组DNA和衔接子。分子随后用尿嘧啶特异性切除试剂(USER^TM)(NEB)处理，以生成单链流动池互补3’尾。

转座组装载。含有转座酶镶嵌式、引物位点和流动池衔接子序列的合成DNA寡核苷酸得自IDT。将衔接子退火且通过混合且在室温下温育20分钟装载到转座酶(Tn5，Epicentre)上。

原位流动池文库构建和测序。书写定制簇生成方案以容纳在标准Illumina簇站上装载的模板和转座组。流动池首先用杂交缓冲液引发且随后以1℃/秒的速率加热至96℃。在96℃下，将标准Illumina测序文库作为对照装载到分离泳道内，而另外七个泳道接受杂交缓冲液。在2分钟温育后，将温度以0.05℃/秒降低至65℃，以杂交对照文库。在这个点上，在流动池的输入和输出侧上去除在用于对照泳道的歧管上的管道***。将大肠杆菌文库以15μL/分钟加入每个泳道2.5分钟，随后以0.02℃/秒将流动池缓慢冷却至40℃。在5分钟温育后，将流动池以1℃/秒加热至55℃。随后将装载的转座组以15μL/分钟加入含有大肠杆菌的泳道。流动池在55℃下温育5分钟，以允许转座发生且随后冷却至40℃。随后将新歧管安装到簇站上，并且将Illumina洗涤/扩增缓冲液注射到整个流动池上。第一链合成在65℃下执行5分钟和在74℃下执行5分钟，其中使用文库特异性DNA聚合酶。随后根据制造商的方案，使标准人对照文库与每个大肠杆菌泳道杂交。用桥式扩增的35个循环生成簇。根据制造商的方案，用RTA1.8和SBS v5在Illumina Genome Analyzer Iix上获得两个分离的单个末端36bp(SE36)读数。

数据收集和分析。使用定制Perl脚本从fastq文件中提取来自读数1和读数2的每个簇的X-Y坐标。这个数据使用MATLAB中的normxcorr2函数用于计算成像偏移，并且相应地校正关于读数2的X-Y坐标。读数随后使用Burrows-Wheeler Aligner(BWA)分别对大肠杆菌基因组作图，并且使用定制Perl脚本测定在读数1和读数2之间的邻近的簇的同一性。

结果

体外和原位文库构建和测序。本文提供了用于生成含有单链流动池相容3’尾的HMW DNA文库的有效方法。简言之，将来自大肠杆菌的基因组DNA物理剪切，就1、2或3kb尺寸分子进行大小选择，纯化且末端修复。将含有接近发夹的环的三个尿嘧啶碱基的发夹衔接子（图31a）自退火，且随后平端连接至经大小选择的文库。通过用核酸外切酶III和VII处理来去除未连接的基因组DNA和衔接子，以获得在两个末端上均具有发夹衔接子的分子的富集群体。分子随后用USER^TM处理，以打开发夹环且释放单链流动池互补3’尾。随后使用略微修改的热循环方案，使分子的两个末端均与标准Illumina流动池表面杂交。将装载有流动池相容衔接子的Tn5转座酶加入流动池，以随机断裂且将衔接子加入HMW分子，由此生成LMW测序现成模板（图31b）。将每个大肠杆菌文库与人对照文库合并，装载到分离的泳道上，并且在Illumina GAIIx上获得两个分离的单末端36pb读数(SE36)。

重构邻接信息。下表1示出了关于如上所述构建的1、2和3kb文库的作图读数的分布。

表1

在三个泳道的每一个中获得对大肠杆菌作图的平均3.5M读数（表1）。在每个板(tile)中的簇的X-Y坐标用于计算在读数1和读数2X-Y坐标之间的空间偏移。关于读数1和读数2中对大肠杆菌作图的每个簇，在相同读数内鉴定它在1.5μm内的大肠杆菌物理作图最近邻，并且将所有对的作图距离数字排序（图32a和b）。下表2显示了最近邻簇对数据。

表2.当大肠杆菌读数针对大肠杆菌读数相比较时，关于1、2和3kb文库的最近邻簇对数据。预期的大小范围分别设为800-1200、1500-2300和2500-3500bp。

对于每个文库观察到具有预期作图距离的766-3,402簇对（图32a和b）。在单个读数内可见低数目的簇对，因为簇通常在表面上物理重叠，并且Illumina的图像分析软件不能区分它们。根据物理分离标绘作图距离（图34a）揭示在单个读数中的两个簇之间的缺省分辨下限是～0.94μm。

通过在读数1和2之间寻找<1.5μm的簇对来重复最近邻查找。在预期的作图分离范围内鉴定出高达37,916个不同的簇对（表2；图33和图32c和d）。在这些中，超过99%是给出在进入相反方向的相反模板链上的读数的簇对，所述相反方向是基于原位文库制备的设计的预期取向。用连续获得成对读数的这种方法，明确区分比0.94μm更紧密的簇对，包括几乎完全重叠的一些（图34b）。关于簇对文库的平均作图分离对于1、2和3kb文库分别是946bp、1,770bp和2,995bp（图34b，上直方图）。由于更广泛的大小选择，2kb文库可能略微低一些。

基于拴系至表面的DNA的自由连接链模型计算分离距离。使用自由连接链模型，关于DNA分子的端到端载体的自由空间分布函数是高斯的。它通过下式描述：

其中L是伸直长度，b是库恩长度（持续长度的两倍），并且C₀是标准化常数。在其中具有以z=0的表面和在[0，0，z₀]处开始的分子的情况下，分布函数变成

其中C₀’是新标准化常数，并且第二项代表来自表面的熵排斥。当z₀->0时，差异变成导数，其给出

其中C₀’’是标准化常数。关于的x,y和z组分的G_surf图显示于图39a和39b中。

关于1kb对的模型物理簇分离是0.44μm，并且对于2kb和3kb对，它是0.67μm，其中分布的尾部显示通过>1.0μm分离的一些簇对。在Infinipair读数之间的这些观察到的物理分离距离显著大于（3-4倍）预期的（图39a）。例如，在3kb簇对之间的平均物理距离是～1000nm，其大致对应于分子的伸直长度。对于这个不一致考虑至少两个可能的解释：1)图像偏移轻微离开，由此引起真实物理距离的评价过高，或2)大分离距离作为在簇形成过程中的假象出现。为了验证偏移，生成显示在每个簇对之间的角度分布的直方图，并且计算关于所有对的累积方向向量。如果图像适当对齐和净零向量和，那么将预期在对之间的角度的随机分布；针对在给定板内的角度子集的偏差或非零向量和暗示偏移轻微离开。这看起来不是误差的显著来源。因此，这些大分离距离作为在簇形成过程中的假象出现。因此，这种观察到的不一致由于其中在流动池上生成簇的方式而出现（图39c）。如果两个能够成簇的分子在彼此50-100nm内杂交，那么将存在在桥式PCR的最初循环过程中在模板之间可获得的衔接子的高度局限性耗尽。这有效迫使簇彼此远离。因此，每个簇的X-Y坐标将并不准确地反映最初种子模板的X-Y坐标。

使用读数1作为参考，从读数1和读数2中筛选最接近的最近邻（图33）。对于在预期作图距离内和在正确取向中的对，少于1%具有在组合的数据集中的不同最近邻，并且当使用读数2作为参考时，这个观察仍是真实的。应用需要相互排斥性的更限制性的过滤器（即，簇A的最近邻是B，并且B的最近邻是A）将候选对数目减少高达10%，但不获得在灵敏度中的任何显著增长。还注意到随着文库大小增加，总簇对的更大部分引起读数在正确方向中的在靶大小范围内的对。这可能是由于立体效应，由此更大的分子占据更大的体积，并且由此阻止其他分子与附近表面杂交。

尽管代表的相关簇对数目仅占对大肠杆菌作图的总读数的大约1%，但证实原位转座和文库制备是技术上可行的。至少两个因素可能促成低效率：1)DNA采取合适构象以有利于两个末端均对表面退火的低概率；和2)在紧密接近中转座***连接的衔接子序列。关于其中一个末端拴系至表面的DNA分子的端到端载体的3D概率分布指示游离末端具有高得多的远离表面而不是接近表面的概率。这个问题随着DNA长度增加而恶化。当仅一个末端杂交且分子经历转座时，它生成单独读数且不具有相关最近邻。进一步地，因素(2)通过9,294个最近邻簇对的发现得到证明，其中读数1对大肠杆菌作图，并且读数1对转座酶镶嵌式和/或流动池衔接子序列作图。转座酶浓度和温育时间的细调可帮助改善这点，但可能难以完全消除它。

令人惊讶的是，关于所有三个文库的大多数读数不对人、大肠杆菌或衔接子序列作图（表1）。关于未作图读数的平均质量得分一般很低：仅8%具有>30的平均原始质量得分，并且69%具有最低的可能平均原始质量得分2（图37a）。当考虑所有读数而不仅仅是由于最近邻接近对大肠杆菌作图的那些时，15.7%的最近邻对具有对大肠杆菌作图的一个读数和一个未作图读数，并且6.8%已均对大肠杆菌作图。对于具有一个未作图读数的对，其中仅6%具有未作图读数伴随>30的平均原始质量得分，并且78%具有最低的可能原始质量得分（图37b）。尽管这些未作图读数的来源不明了，但它们在很大程度上可仅仅基于单独的质量得分过滤掉。

HMW分子的原位拉伸和标记。在改善杂交效率且探究这个测序范例的更多应用的努力中，在Illumina流动池内成功执行HMW分子的原位拉伸和断裂。简言之，使用Piranha溶液清洁流动池，用2%3-氨基丙基三乙氧基硅烷(APTES)处理，且装载有JOJO-1染色的λDNA。随后使流动池装载有6MKCl，并且在输入和输出口应用15V/cm的电场90秒。表面直接在Illumina GA2测序仪上成像（图35a），以证实单个48.5Kb分子的末端可物理拉伸超过成像空间的～40像素。表面随后用转座组原位处理且再成像（图35b）。各个分子在多个位置中明确断裂，从而证实酶即使对表面固定的模板也维持高活性水平的能力。在天然流动池上断裂前依赖这些方法在“锁定”桥中掺入流动应是直接了当的，使得簇可在长模板末端生成。

使用上文描述的3kb大肠杆菌文库，拉伸分子的末端的原位拉伸和测序也在Illumina流动池内成功执行（图40a）。在75℃下将模板文库装载到流动池内，并且将室以0.1℃/秒缓慢冷却至55℃。接下来，将含有5X SSC和200mM KCl的杂交缓冲液流动到室内，并且应用28V/cm电场共0或2秒。洗涤缓冲液随后在原位转座和测序前冲洗通过室。在不存在应用的电场的情况下，在对中的簇之间的角度随机分布并且不与簇间的距离关联。对于通过至少十分之45像素(～1.6μm)分离的簇对，46%具有相对于在室中的电流轴（图41a）在-π/4和π/4之间的角度（图40b）。然而，在电场的存在下，通过>十分之45像素分离的78%的簇对具有在这个范围内的角度（图41b）。这强烈暗示这些对具有在应用场时杂交的分子的至少一个末端，在所述点处另一个末端在它与表面杂交前通过电场拉伸。这些结果证实HMWDNA的原位拉伸和测序可在天然流动池内完成。

讨论

目前存在用于测定在多种长度规模上的邻接信息的不同技术，包括光学作图（Schwartz等人1993）、在纳米通道中拉伸单个分子（Riehn等人20057）、单染色体分选（Fan等人2011）、长读单个分子测序（Eid等人2009）、大***克隆（Kitzman等人2011）、和透射电子显微镜检查。然而，由于仪器所需的资本设备成本或专业知识，所有这些技术对于大规模使用仍是价格高得惊人的。在上文描述的实验中，成功证实HMW DNA分子的原位文库制备致使能够在现有测序平台上捕获分开高达3kb的大范围序列信息。通过利用现有测序硬件和单步基于酶的原位文库制备，本文描述的方法可克服这些局限性。进一步地，所述方法已显示成对末端测序可无需环化而完成。

存在影响相关最近邻簇的生成的至少四个因素：1)具有均匀的单链流动池相容3’衔接子的HMW文库的产生，2)两个末端均与流动池表面的杂交，3)桥接分子的均匀和非破坏性原位转座，和4)很大程度上重叠的簇的生成。对照实验暗示，使用发夹衔接子随后为ExoIII/VII处理的上述方法在消除不具有两个发夹衔接子的任何文库分子方面是高度有效的。另外的对照实验已显示USER^TM处理在用于使衔接子成为单链的尿嘧啶切除方面也是非常有效的，从而暗示最初文库构建是稳固的。尽管可能认为由于熵自变量使分子的两个末端位于表面附近是不利的，但由于每个末端可与数千个流动池衔接子中的任何一个杂交的事实，它比相同长度的单一分子的环化更有利。还可存在迫使两个末端均更接近于表面以改善杂交效率的方式，例如使用拴系的磁珠或电场。对于原位转座步骤，一系列转座酶浓度和温育时间用于鉴定在太少活性和太多活性之间的最佳平衡，所述太少活性和太多活性均导致生成簇的失败。

对有意生成很大程度上重叠的簇的序列质量的作用较难以查询。例如，当存在两个簇现成模板在表面上紧密接近杂交时，其中之一在桥式扩增过程中将在竞争中超过另一个是可能的，如在常规本体溶液PCR过程中通常发生的。这可以是由于在序列组成、解链温度、长度和聚合酶结合事件的随机性(stochasticity)中的差异。在本文描述的方法中，相关附近模板的最终长度的控制已在转座后受到限制（一个可以是200bp，并且另一个可以是800bp）。虽然簇太紧密在一起可以是个问题，但这看起来不是此处的情况。在此类情况下，由于具有在簇内更少数目的分子和/或关于混合读数的潜力，质量得分将随着最近邻簇距离而降低。此处，然而，关于读数2的质量得分一般优于读数1，并且看起来在平均质量得分和最近邻簇距离之间不存在关联（图38）。

尽管高本底目前使得该方法对于从头装配使用不实际，但对文库制备的更多改善和原位转座方法可导致信噪比中的伴随改善。最后，原位文库制备法可致使读数的生成成为可能，所述读数在流动池上与彼此的物理关系与基因组距离关联，从而致使如下所述来自许多单个HMW分子的多个、有序读数的常规光学测序成为可能。

3.B.实现多个原位读数/单个DNA分子

在原位转座前拉伸提供超过不规则卷曲法的许多优点。首先，伴随拉伸，在共线性簇之间的物理距离预期与读数间的距离直接成比例，而不是与平方根成比例，由此提供更大的分辨率。其次，拉伸更容易顺应这个目的的第二个目标，其为生成沿着任意长的单个DNA分子全长的大量独立读数。在图15中图解的一个方案中，使拉伸的单个分子进行用合成、连续转座子的体外转座，所述转座子含有通过包括单链泡的序列连接的19bp ME序列。这类似于图4中的策略的首个步骤，除了不是简并序列，而是泡的每个臂对应于包被流动池的引物的正向或反向序列外。一旦这些合成、连续转座子***至高密度（每35-600bp），高度点缀的单个分子就在流动池上用电流拉伸（无需去除转座组复合物，使得不需要修复9bp损伤）。假定来自每个泡的杂交和簇PCR起始的中等效率，这可能获得沿着每个拉伸分子的长度的多个测序读数。

根据上文描述的大范围邻接法使用的流动池的每个泳道的全面积在流动尺度中是245,760像素(2.5cM)和在垂直尺度中是3,776像素。随着λDNA(48.5Kb)拉伸至～30像素，多达400x1Mb分子可沿着整个泳道端到端拉伸。在～1/20^th密度时，单个泳道将足以支持二倍体人基因组的14x物理覆盖。对于数据分析，可使用公开的用于光学作图的算法（Zhou等人2009；Zhou等人2007；Lin等人1999；Lim等人2001；Lai等人1999；Schwartz等人1993），以及用于测序应用的图像分析中的先前经验（Shendure等人2005；Mitra等人2003）。此类分析可直接由图像执行，或作为另外一种选择，由起点位置信息注释的平台生成的序列读数执行。位置信息可与由共线性或重叠簇生成的序列数据关联。

所得的数据应类似于通过光学图生成的那种，但具有下述优点：

1）序列读数代表具有比限制性酶位点大得多的信息含量，以用于从头装配和单元型分辨；

2）影响光学成像的问题例如限制性酶星号活性和不完全消化对于这种方法不存在；和

3）沿着拉伸的DNA分子长度的数据点的位置将是随机的，而不是依赖限制性酶切割位点分布。

额外模板接近于拉伸或卷曲模板杂交的效应（其可混淆物理坐标的解释）可通过大小限制单个DNA分子群体和/或调节模板浓度得到减轻。然而，这些方法可无需对簇密度的较大牺牲而实现，因为测序应与相同平台上通常的情况一样致密。

为了生成具有对应于附加至每个末端的A1和A2的单链尾的HMW DNA，寻求两个策略。在第一个中（图21，左），将基因组DNA物理剪切（例如用HydroShear），且随后末端修复，加A尾且连接至对应于A1和A2的衔接子序列。文库随后使用对应于A1和A2的引物进行PCR扩增，其中将所有胸腺嘧啶碱基替换为尿嘧啶。用USER^TM的PCR后处理预期获得侧接双链HMWDNA分子的所需3’单链、流动池相容的尾。这种方法的一个优点是末端序列的自互补性预期限制A1-A1和A2-A2产物的累积，而缺点是它对于与PCR在很大程度上不相容的HMW片段大小（即>10Kb）可能是不实用的。作为替代方案，生成其中含有单链、流动池相容尾的A1和A2衔接子直接连接至平头末端或限制性消化的HMW基因组DNA的文库（图21，右）。这种方法的优点是它不依赖HMW分子的长度。然而，仅50%的产物将是A1-A2侧接的（剩余部分是A1-A1或A2-A2）。

图21中所示的两种文库制备法均应用于生成来自大肠杆菌基因组DNA的衔接子A(A1/A2)侧接的鸟枪法HMW分子。随后，使用装载有合成转座子的转座酶，所述合成转座子包括用于在流动池表面上的原位断裂的衔接子B（即图12b中所示的方法）。

结果显示原位转座可成功执行，以将衔接子B引入鸟枪法、A1/A2衔接子侧接的HMW基因组DNA分子内，所述分子与流动池预杂交。这是超过上文和图13中所述的实验的改善，其仅涉及单个puc19片段。代表性实验的跨越大肠杆菌基因组的作图密度显示于图22中。分布在很大程度上是均匀的，从而指示经由原位转座引入簇PCR相容的衔接子不导致基因组代表中的明显偏差。

进一步地，文库分子转换成有用的测序模板目前是非常无效的。图22中所示的数据来自装载有10x量的通常模板的单个Illumina GA2x泳道，但生成是预期100倍少的簇。几个原因可解释这种无效性，包括：(a)适当加尾的分子的无效生成：这些方法（图21）在其将靶标材料转换为适当修改的分子方面可能是显著小于100%有效的，并且需要进一步最佳化；(b)有3’尾的dsDNA分子对流动池引物的无效捕获：可能在簇PCR前流动池的另外操作（例如转座酶反应；包括SDS的洗涤以去除转座酶等）去除大量部分的文库分子。(c)在流动池上的第一链合成的失败：通常用于在Illumina平台上的第一链合成的Phusion DNA聚合酶具有极低的链置换活性。在这个第一个循环过程中的链置换是该方法所需的，但对于在这个平台上的常规测序则不是。替代方案已显示例如Bst聚合酶可替代Phusion用于在流动池上的第一链合成。(d)转座酶装载和/或原位转座是无效的：即使分子适当杂交且第一链合成是成功的，它也不形成簇对，除非它接受对末端相对近端的至少一个转座酶***。

最后，尽管图22中所示的数据代表来自单个泳道的超过200,000个读数，但仅可忽略不计部分的这些读数来自具有来自邻近的簇的“成对读数”的簇（如图13中）。这个问题可能与低于预期密度的簇形成有关（即在两个末端处均具有适当尾的分子的无效生成、无效原位转座）。作为另外一种选择，这可以是双链DNA的相对刚性限制具有单链尾的分子的两个末端与表面杂交的结果。

3.C.转座酶随后为ssDNA环化和多重置换、分支RCA

在另一个实施例中，如图24中所示，转座酶可装载有不连续的寡核苷酸，所述寡核苷酸以5’磷酸化的A’终止，随后为B和dsDNA转座酶识别序列。转座随后变性将导致以5’磷酸终止、A’、B、ME和随后为基因组DNA的ssDNA。接下来，可执行ssDNA环化，并且随后使用流动池结合的A和B引物的滚环扩增(RCA)将导致多重置换分支滚环扩增和聚合酶克隆（即聚合酶集落）形成。

在替代实施例中，可使用F粘粒代替ssDNA，这可导致大范围扩增且可允许产生40kb配对文库。

3.D.使用长ssDNA主链的有序转座用于DNA纳米球形成或条形码结合

在另一个实施例中，环化的ssDNA模板可使用由～100bp填充DNA序列点缀的四种引物（A、B、C和D）制备且环化（dsDNA粘性末端环化，随后为一条链的选择性消化）。滚环扩增(RCA)随后导致具有间插填充DNA序列的重复A、B、C和D引物位点的长ssDNA分子。

接下来，可合并一组四个不同装载的转座酶复合物，其中第一个具有针对A序列的互补性且包括中间位置的切割位点，并且另外三个与B、C和D序列互补。转座到基因组DNA内可能允许以A、B、C和D次序出现的部分或完全***。在缺口修复后，A限制性位点可被消化且分子环化，其导致A、gDNA、B、gDNA、C、gDNA、D、gDNA的环化分子。这些分子随后可用作RCA中的模板，其将生成含有4个衔接子位点的DNA纳米球。

在替代实施例中，原始主链模板可由具有～100bp填充序列的衔接子侧接的简并条形码组成，所述简并条形码是环化、变性且进行RCA。所得的主链包括原始模板接连的许多重复。转座酶复合物装载有以与侧接条形码的衔接子互补的序列终止的寡核苷酸，其中转座酶衔接子将在挂锁(padlock)形成中退火。简并区的缺口修复允许与任何给定主链结合的每个转座组具有相同条形码。转座导致邻近转座事件，可能由相同条形码的转座组发生，由此允许众多读数与一个原始大祖先分子的结合。

3.E.含有流动池引物的转座子泡的直接测序

在另一个实施例中，可***形成“泡”的转座子例如上文描述的那些，其中在转座子内的泡包括与流动池结合的引物互补的引物作为泡衔接子。

在***和后续缺口修复后，这些长分子可直接与流动池杂交，连同或不连同拉伸。某一部分的串联转座子将是A和B’或A’和B，其能够经由标准桥式PCR法形成簇。这将允许起源彼此接近的簇将可能已起于相同的高分子量祖先分子。

作为另外一种选择，已知（以允许预期距离）或未知长度的长分子可具有连接至两个末端的衔接子，所述末端含有与流动池引物之一互补的5’突出端。含有另一个流动池引物的泡转座子的转座随后缺口修复将导致以针对一个流动池引物的互补体终止且由另一个点缀的分子。与流动池杂交连同或不连同拉伸将允许分子的末端退火。最初置换延伸将拷贝通过转座子***的第二衔接子且产生反向互补体。随后，可执行标准桥式PCR，且在测序后，一部分近端簇已起于原始长分子的终末端。

3.F.在流动池上装配的转座组

在另一个实施例中，将流动池重编程为包括(1)以转座酶识别序列终止的寡核苷酸，或(2)以转座酶识别序列终止的杂交的桥接寡核苷酸。随后将转座酶加入装载缓冲液中且允许装载流动池结合的寡核苷酸。

随后将基因组DNA加入转座酶反应缓冲液中，并且分子无论在何处与流动池接触，固定的转座酶将在沿着其长度的多个位置处攻击。在最初延伸后，可对所得的片段执行桥式PCR。测序导致一部分近端簇已起于相同的大祖先分子。

在替代实施例中，可加入其中已连接衔接子的含有引物序列之一的长分子，所述引物序列之一不是流动池固定的转座组的部分。在转座后，一条链可变性且去除且另一条能够形成簇。一部分所得的近端簇源于相同的大祖先分子的末端。

实例4：用于亚硫酸氢盐测序的低输入转座酶文库制备

如上所述，基于转座酶的体外鸟枪法文库构建法（“标签化”）允许构建来自极大减少量的DNA的测序文库（图36a）（Adey等人2010）。简言之，该方法利用装载有不连续的合成寡核苷酸的Tn5转座酶极端活跃的衍生物，以同时断裂且将衔接子附加至基因组DNA。使所得的产物进行PCR扩增，随后为高通量测序。基因组DNA转换为切实可行的扩增子的增加效率和极大减少的步骤数目允许构建来自小于50纳克基因组DNA的低偏差、高度复杂的文库。

在本文中描述本文称为tn5mC-seq的方法，所述方法在全基因组亚硫酸氢盐测序的背景下保留基于转座酶的文库制备的优点。因为转座反应的靶标是双链DNA，而亚硫酸氢盐处理获得单链DNA，所以该方法进行广泛改变，使得标签化反应可在亚硫酸氢盐处理前发生（图36b）。首先，待掺入的衔接子在所有胞嘧啶残基上进行甲基化，以维持在亚硫酸氢盐处理过程中的胞嘧啶同一性，除了19碱基对转座酶识别序列外（为了使转座组装配过程中的差异结合降到最低）。其次，寡核苷酸替换方案（Grunenwald等人2011）用于确保每条链将具有与分子的两个末端共价附着的衔接子。具体地，这致使由单个衔接子的最初转座成为可能，其中双链转座酶识别序列截短至16碱基对(Tm=36℃)，由此促进其通过变性的掺入后去除。随后使第二衔接子退火且缺口修复，从而导致每条链被3’和5’衔接子二者共价侧接。随后使断裂、修改的双链基因组DNA进行标准亚硫酸氢盐处理，以用于将未甲基化的胞嘧啶转换为尿嘧啶。这获得单链、转换的DNA，将所述DNA进行PCR扩增且测序。

材料与方法

tn5mC-seq文库构建和测序。通过使2.5μl10μM tn5mC-A1（tn5mC-A1top:5’-GAT[5mC]TA[5mC]A[5mC]G[5mC][5mC]T[5mC][5mC][5mC]T[5mC]G[5mC]G[5mC][5mC]AT[5mC]AGA GAT GTG TAT AAG AGA CAG-3’,IDT(SEQ ID NO:1)，对tn5mC-A1bot:5’-[Phos]-CTGTCT CTT ATA CAC A-3’,IDT(SEQ ID NO:2)退火，通过将以100μM的10μl每种寡核苷酸和80μl EB(QIAGen)在95℃下温育2分钟，随后以0.1℃/秒冷却至RT）与2.5μl100%甘油和5μlEz-Tn5转座酶(Epicentre–Illumina)一起在室温下温育20分钟，生成转座组复合物。

由NA20847细胞系制备的基因组DNA以各自的输入数量与4μlHMW缓冲液(Epicentre–Illumina)、无核酸酶水(Ambion)一起用于17.5μl和2.5μl制备的tn5mC转座组（与使用的DNA数量无关）。将反应在55℃下在热循环仪中温育8分钟，随后为使用36μl珠子和推荐方案的SPRI珠子清除(AMPure)，伴随在14μl无核酸酶水中的洗脱(Ambion)。随后通过将2μl10X Ampligase反应缓冲液(Epicentre–Illumina)、2μl10X dNTP（各2.5mM，Invitrogen）和2μl10μM tn5mC-A2top(IDT)加入每个反应中，并且在50℃下温育2分钟，随后为45℃10分钟，且以0.1℃/秒冷却至37℃和后续温育10分钟，执行衔接子2退火。随后通过加入以5U/μl的3μl Ampligase(Epicentre–Illumina)和1μl T4DNA聚合酶（tn5mC文库A-G，NEB）或Sulfolobus DNA聚合酶IV（tn5mC文库H-J，NEB）且另外在37℃下温育30分钟，执行缺口修复。随后根据推荐方案使用36μl珠子和在50μl无核酸酶水(Ambion)中的洗脱，使用SPRI珠子(AMPure)清除反应。

根据推荐方案使用EZ DNA Methylation^TM试剂盒(Zymo)执行亚硫酸氢盐处理，伴随14小时50℃温育和10μl洗脱。洗脱物随后用作用于PCR的模板，所述PCR使用12.5μlKapa2G Robust HotStart ReadyMix(Kapa Biosystems)、1μl10μM tn5mC-P1(5’-[Phos]-CTG TCT CTT ATA CAC ATC TCT GAG[5mC]GGG[5mC]TGG[5mC]AAG G[5mC]AGA[5mC][5mC]GAT[5mC]-3’,IDT)(SEQ ID NO:3)、1μl10μM加条形码的P2（根据Adey等人(2010)）、0.15μl100X SYBR Green(Invitrogen)和0.35μl无核酸酶水(Ambion)。在BioRad Opticon小型实时计算机(real-time machine)上使用下述参数执行热循环：95℃下5:00；(95℃下0:15；62℃下0:15；72℃下0:40；板阅读；72℃下0:10)X99。监控反应且只要达到平台就从热循环仪中取出（12-15个循环）。

使用在Illumina HiSeq2000上的完全或部分泳道执行测序，其中使用定制测序引物：读数1：tn5mC-R1(5’-GCC TCC CTC GCG CCA TCA GAG ATG TGT ATA AGA GAT AG-3’,IDT)(SEQ ID NO:4)，指数阅读：tn5mC-Ix(5’-TTG TTT TTT ATA TAT ATT TCT GAG CGGGCT GGC AAG GC-3’,IDT)(SEQ ID NO:5)，读数2：tn5mC-R2(5’-GCC TTG CCA GCC CGC TCAGAA ATA TAT ATA AAA AAC AA-3’,IDT)(SEQ ID NO:6)。读数长度是具有9bp指数以36bp的单读数（SE36，文库A和B，不包括在表中）或具有9bp指数的101bp成对末端（PE101，文库C-J）。由于在测序引物之间的相似性，文库仅在不具有含有文库作为预防措施的泳道的运行上进行测序。

读数比对。hg19参考基因组首先对于上（C变成T，C2T）和下（G变成A，G2A）链进行计算机亚硫酸氢盐转换。在比对前，读数首先基于运行度量进行过滤，因为几个文库在这样的泳道中运行：在所述泳道中仪器阀失灵导致质量不佳或主要由“N”碱基组成的读数。接下来，将读数过滤为在前75个碱基中含有不超过3个“N”，且随后使用具有缺省参数的BWA与C2T和G2A链比对。去除与两条链比对上的读数。随后拉出其中无一与任一链比对上的读数对，并且修剪至76bp（除了SE36运行外）且再次与C2T和G2A链比对。对于文库F，由于在那些循环过程中的仪器阀失灵，执行从读数2起始的25bp的最初修剪。去除重复读数（对于读数1和2共享相同起始位置的对）且测定复杂性。随后在二次分析前过滤掉具有比对得分<10的读数。使用在基因组的总可比对碱基（轻微低于3Gb/链）上由独特读数比对的总碱基计算总覆盖倍数。

5mC调用。使用如Lister等人(2009)中的二项式分布调用甲基化胞嘧啶，由此对于每个甲基化(CpG、CHG、CHH)背景计算概率质量函数，其中使用覆盖位置的读数数目作为试验数目和保持胞嘧啶状态的读数作为基于总误差率具有成功概率的成功，所述总误差率通过组合的非转换率和测序误差率进行测定。最初通过未甲基化的λDNA掺料(spike-in)测定总误差率，然而，我们发现来自读数的缺口修复部分的误差率估计（如主要正文中描述的）给出更综合的估计量，其略微高于λ估计量的那种，因此是保守的，我们使用以0.009的最高测定的误差率。如果概率低于M值，其中M*（未甲基化的CpG总数）<0.01*（甲基化的CpG总数），那么将该位置调用为甲基化的，从而迫使不超过1%的位置将是由于误差率。

结果

超低输入的基于转座酶的WGBS文库性能。执行tn5mC-seq以进行类淋巴母细胞细胞系(NA20847)的甲基化组的测序，其中使用由1纳克到200纳克输入基因组DNA构建的文库。每个文库在PCR扩增过程中加条形码，且使其进行掺料(5%)或在Illumina HiSeq2000（PE100；v2化学）上的大多数(80-90%)测序泳道。这些数据概括于下表3中。

表3tn5mC-seq文库和测序的概括

*在读数2中的阀失灵导致广泛的读数修剪(50-70bp)

**在读数2上的完全阀失灵。

原始读数最初对于在读数的特定位置处的仪器阀失灵进行过滤，随后去除在前50个碱基中含有超过三个N或极低质量碱基（phred得分<=2）的读数。随后使用BWA（Li和Durbin2009）执行与计算机转换hg19(GRC37)的上和下链参考的比对，随后为修剪和再比对。鉴定重复读数且根据其起始位置和***大小去除。显示了对于每个文库比对的过滤后读数百分比，因为这些的百分比是非重复的。

使用BWA（Li和Durbin2009）将读数与计算机转换的hg19(GRC37)上(C=>T)和下(G=>A)链比对，随后为未作图读数的读数修剪和使用相同参数的二次比对。因为未甲基化的核苷酸在缺口修复步骤过程中掺入（第二个读数的前9个碱基对和在衔接子前的末9个碱基对，如通过在第一个读数上的***大小测定的），缺口修复区必须从甲基化分析中排除。然而，这些碱基还充当关于亚硫酸氢盐处理的转换率的内部对照。发现这对于所有文库均为>99%，并且这使用未甲基化的λDNA掺料到两个文库而得到独立证实。

对于使用≥10纳克基因组DNA构建的每个文库，获得具有高复杂性（90-97%非重复的）的超过100,000,000个比对的读数（60-75%的总过滤读数；参见“方法”）。尽管由1纳克制备的文库显著减少的性能，但仍比对了约12,000,000个读数且文库具有合理的复杂性（78%非重复的）。将比对后读数合并且对于总共51.7千兆碱基的比对的独特序列进行质量过滤。平均读数深度是8.6X/链，其中在全基因组覆盖>96%CpG和>98%非-CpG胞嘧啶（图36c）。

类淋巴母细胞细胞系甲基化。检测到约46,000,000个5mC位置（1%FDR；参见“方法”），占覆盖的4.2%总胞嘧啶。观察到的大多数甲基化在CpG背景下(97.1%)，并且总体CpG甲基化水平是69.1%。这个水平类似于由Lister和同事（Lister等人2009）测序的胎儿成纤维细胞系IMR90的水平(67.7%)，并且与CpG甲基化水平在分化细胞类型中减少的观察一致。另外，CHG和CHH甲基化水平显著低于ES细胞中，分别为0.36%和0.37%，再次与分化细胞类型一致。在染色体规模上，甲基化在亚端粒区中更大（图36d），如通过作用于控制端粒长度的miRNA介导的途径预期的（Benetti等人2008）。功能注释的基因区的分析揭示了在CpG甲基化中通过启动子区的暴跌，随后为在5’UTR中的较小增加和随后遍及基因主体的升高水平的甲基化，特别是在内含子处（图36e、f），与先前描述的CpG甲基化概况一致（Lister等人2009）。

讨论

开发tn5mC-seq作为用于快速制备复杂的鸟枪法WGBS亚硫酸氢盐测序文库的新型方法。简言之，该方法利用极端活跃的Tn5转座酶衍生物，以在单个步骤中断裂基因组DNA且附加衔接子，如先前对于DNA-seq文库构建表征的（Adey等人2010）。为了使文库分子经受住亚硫酸氢盐处理，将衔接子在所有胞嘧啶残基处甲基化，并且寡核苷酸替换策略用于制备由衔接子共价侧接的每条单链。转座酶的高效率和损失相关步骤中的总体减少允许由少至10ng以及来自1ng输入DNA的有用序列构建高质量的亚硫酸氢盐测序文库。

这些结果示出了用于DNA-Seq文库制备的基于转座酶的方法的衍生方法如何使下一代测序在其中它的优点可能甚至更相关的重要应用成为可能。由极低量的输入基因组DNA生成此类文库的能力显著改善全甲基化组测序的实用性，且去除较不综合的方法例如RRBS的重要优点（Meissner等人2005；Harris等人2010）。具体地，伴随tn5mC-seq的低输入WGBS可能使得在其中DNA数量是瓶颈的许多背景下的甲基化的综合查询成为可能，所述背景例如发育中的解剖结构、微解剖组织或病理状态例如癌症，在这些情况其后生景观是感兴趣的但组织数量限制分辨率。

实例5：鉴定远侧调节位点且测量染色体构象

近期研究已显示在基因组内的遗传元件之间的物理相互作用的重要性和复杂性。测量这些相互作用可帮助解释远侧顺式和反式调节DNA如何在基因调节中起作用（包括何种基因受何种增强子影响，染色体如何在细胞内排列，特定转录因子如AR和ER如何结合且影响基因表达）。它还可提供关于在癌症和其他遗传疾病中涉及的重排和倒转的形成的线索。

使用高通量测序测定物理相互作用的目前方法包括使用成对末端标记测序（ChIA-PET；转录因子-结合位点的相互作用）和Hi-C（产生基因组图的方法）的染色质相互作用分析。两种方法均具有可归于分子内连接的低效率和特异性的局限性，所述方法使用该分子内连接将DNA的远侧区成对在一起以用于测序。此类连接步骤需要大量输入DNA(100+ug)且可导致技术假象，在所述技术假象中即使当DNA片段一般不彼此结合时，它们也彼此连接。

当尝试理解小细胞群如胚胎干细胞和癌细胞的基因组体系结构时，这些问题是重要的。它还意指起因于测量的转录因子结合的DNA相互作用的任何推导均是极大细胞群的平均（例如10⁸细胞或～500微克DNA）。考虑到不同细胞可具有不同基因组体系结构或转录因子结合模式，需要更少起始DNA的方法可以是有用的。

因此，下文提供了用于测量在较小细胞群内的DNA-DNA和DNA-蛋白质相互作用的方法。此类方法使用“infinipair”技术（在上文实例3A中描述），以直接将已交联的免疫沉淀的DNA的多个片段测序（图28）。这些方法不同于CHIA-PET和Hi-C法，因为它们直接测定DNA的交联片段，而无需分子内连接的额外步骤。

5.A.远侧调节结合位点的鉴定

在一个实施例中，在实例3A中所述的技术的修饰（在本文中称为“infinipair”技术）可用于鉴定在转录因子(TF)结合位点例如在***受体上发现的那些之间的相互作用。如图29中所示，用激素(～10ng)诱导大约10⁴细胞，随后为细胞的染色质免疫沉淀。接下来，通过用1%甲醛交联细胞随后超声处理来破坏染色质纤维。ER/AR/受体特异性抗体随后用于富集结合染色质片段。

接下来，使用T4聚合酶执行末端修复，以连接至A+B衔接子。磷酸化、半接头的连接或连接的稀释在这种方法中均为不需要的。infinipair技术随后用于生成对应于免疫沉淀的复合物的簇。邻近的簇成对在一起以产生在染色***置之间的一系列的相互作用。

为了缩减该系列的假定相互作用，收集的数据随后用CHIP-Seq信息分割，所述CHIP-Seq信息提供关于转录因子的已知结合位点的信息。将来自多个文库的信息重叠，以增加调用的相互作用中的置信度。染色质相互作用的结构使用这种数据进行表征，且还用于将调节区连接至DNA（即将基因连接至增强子）。

使用这种方法的一些利益可包括但不限于：(1)成对相互作用中的更高准确度-（无片段间连接），(2)需要更低的输入DNA，从而导致可使用更多应用（即，可鉴定在更小的样品集合内的相互作用（ES细胞/癌细胞/更小组的健康细胞，(3)更容易的工作流–无稀释连接、无PCR、无MmeI消化等，和(4)需要更少的测序。

5.B.推导染色体构象

在另一个实施例中，infinipair技术用于对小数目细胞中的染色体构象建模。先前方法例如Hi-C法需要更大数目的细胞（～10⁷细胞；～50ug DNA）。如图30中所示，将基因组DNA交联。使用匀浆器将细胞裂解且随后将染色质向下旋转。通过在1%SDS中随后在Triton X-100中温育来去除染色质蛋白质。随后通过在HindIII中温育过夜消化染色质。

使用柱子伴随针对抗染色质抗体的珠子纯化染色质。随后将A和B衔接子连接至DNA片段，而无需生物素化。接下来，infinipair技术用于生成对应于复合物的infinipair簇。将邻近的簇成对在一起，以产生在染色***置之间的一系列相互作用。生成的信息随后用于生成三维模型且更好地理解特定细胞类型的构象。

实例6：小范围、中等范围和大范围邻接的整合用于更成本有效的测序方法

这个实例的焦点包括1)整合实例1-3中开发的方法用于小鼠基因组的高质量从头装配；2)整合这些相同方法用于人基因组的单元型分辨的重测序；和3)将相容性延伸至其他下一代测序范例。

6.A.对$1,000标记的成本分析和途径

本文描述的方法的重要方面是成本几乎完全依赖它们与之整合的测序平台的成本。如果“X”是基因组重测序的成本，那么本文描述的方法的成本可抽象化为“a+bX”，其中“a”是固定成本/捕获邻接信息的样品（例如原位转座反应的成本），并且“b”是相对于基因组重测序获得那种信息所需的测序比例。关于“a”的估计量很低，即小于$30/方法。这是因为例如原位转座和PCR的反应在单个试剂体积中共同操作基因组DNA。此外，试剂例如简并寡核苷酸和微流体装置是相对廉价的，并且它们的成本可摊销在许多用途上。“b”的值更难以预测，并且依赖实现且最佳化每种方法的成功程度。然而，注意到与条形码与之在顺式中(in cis)的一级读数相比较，条形码自身很短（例如SE25条形码与PE76一级相比较）。

与本文描述的方法的下述应用各自相关的测序成本应大致与用相同平台40x重测序哺乳动物基因组的成本相同，即“b≈1”。如通过小鼠和人基因组的原始装配证实的，使用比目前用于基因组重测序显著更少的取样能够达到哺乳动物基因组的高质量的从头装配，前提是还获得足够的邻接信息。

6.B.小鼠基因组的从头装配

使用得自上文描述的方法的邻接信息，可从头获得哺乳动物基因组的高质量从头装配。为了实现这点，将再利用(repurposed)用于常规或‘下一代’从头装配的现有工具（Schatz等人2010）且应用于这些数据，并且将根据需要开发另外的软件。为了使成本降到最低而无需显著损害质量，将测定邻接作图法的最佳混合（即在不同规模上）。这可能需要例如用每种邻接作图法过采样基因组，且随后缩减采样以包括来自每种方法的不同比例的数据，且评估对从头装配的质量的影响。集中于小鼠基因组的从头装配作为测试实例，原始装配的邻接（即24.8Kb的重叠群N50；16.9Mb的超重叠群N50）将由与对于40x重测序所需的相同量(2.5Gb x40=～100Gb)的数据超过，即“b≈1”。最初，测序成本将占优势，即“bX>>a”，但即使当这改变时，初步反应的总成本(“a”)也应保持为<$100，即使使用所有规模的邻接作图法（即小范围、中等范围和大范围邻接）。

6.C.人基因组的单元型分辨的重测序

初步数据(2.D)显示，适度量的邻接信息可提供广泛的单元型分辨力。对于这种数据，单元型分辨的基因组重测序所需的软件已得到开发或将得到开发。另外，使用相同数据开发发现SNP分辨单元型的算法，因为准确调用单倍体基因型需要调用二倍体基因型测序所需的小于一半。邻接作图法将整合至重测序且同时单元型分辨人基因组，其中在单元型分辨的框中具有>95%覆盖的靶标（所述框具有至少1Mb的N50），同时在D’>0.90时维持与HapMap数据的>99.5%一致性。如同小鼠基因组的从头装配一样，这可用与对于人基因组的40x单元型不知情重测序所需的相同量的测序(3Gb x40=～120Gb)来实现，即“b≈1”。

6.D.将邻接作图法的相容性延伸至其他测序范例

尽管如本文描述的用于捕获邻接信息的方法涉及与它们与之整合的测序技术一起使用，但此类方法可开发用于其他测序技术和其他测序平台。这些包括其他环状阵列平台（例如Polonator、SOLiD），以及新出现的范例例如纳米孔测序。

参考文献

下文列出的参考文献、专利和公开的专利申请和上文说明书中引用的所有参考文献在此通过引用合并，如同它们在本文中完全阐述一样。

Adey A,Morrison HG,Asan,Xun X,Kitzman JO,Turner EH,Stackhouse B,MacKenzie AP,Caruccio NC,Zhang X等人2010.Rapid,low-input,low-biasconstruction of shotgun fragment libraries by high-density in vitrotransposition.Genome Biol11(12):R119.

Ball MP,Li JB,Gao Y,Lee JH,LeProust EM,Park IH,Xie B,Daley GQ,ChurchGM.2009.Targeted and genome-scale strategies reveal gene-body methylationsignatures in human cells.Nat Biotechnol27(4):361-368.

Bansal V,Bafna V.HapCUT:an efficient and accurate algorithm for thehaplotype assembly problem.Bioinformatics.2008;24(16):i153-9.

Benetti R,Gonzalo S,Jaco I,Munoz P,Gonzalez S,Schoeftner S,MurchisonE,Andl T,Chen T,Klatt P等人2008.A mammalian microRNA cluster controls DNAmethylation and telomere recombination via Rbl2-dependent regulation of DNAmethyltransferases.Nat Struct Mol Biol 15(3):268-279.

Bentley DR,Balasubramanian S,Swerdlow HP,Smith GP,Milton J,Brown CG，等人Accurate whole human genome sequencing using reversible terminatorchemistry.Nature.2008;456(7218):53-9.PMCID:PMC2581791.

Branton D,Deamer DW,Marziali A,Bayley H,Benner SA,Butler T，等人Thepotential and challenges of nanopore sequencing.Nat Biotechnol.2008;26(10):1146-53.PMCID:PMC2683588.

Braslavsky I,Hebert B,Kartalov E,Quake SR.Sequence information can beobtained from single DNA molecules.Proc Natl Acad Sci U S A.2003;100(7):3960-4.PMCID:PMC153030.

Clark SJ,Harrison J,Paul CL,Frommer M.1994.High sensitivity mappingof methylated cytosines.Nucleic Acids Res22(15):2990-2997.

Cokus SJ,Feng S,Zhang X,Chen Z,Merriman B,Haudenschild CD,Pradhan S,Nelson SF,Pellegrini M,Jacobsen SE.2008.Shotgun bisulphite sequencing of theArabidopsis genome reveals DNA methylation patterning.Nature452(7184):215-219.

Deng J,Shoemaker R,Xie B,Gore A,LeProust EM,Antosiewicz-Bourget J,Egli D,Maherali N,Park IH,Yu J等人2009.Targeted bisulfite sequencing revealschanges in DNA methylation associated with nuclear reprogramming.NatBiotechnol27(4):353-360.

Down TA,Rakyan VK,Turner DJ,Flicek P,Li H,Kulesha E,Graf S,Johnson N,Herrero J,Tomazou EM等人2008.A Bayesian deconvolution strategy forimmunoprecipitation-based DNA methylome analysis.Nat Biotechnol26(7):779-785.

Dressman D,Yan H,Traverso G,Kinzler KW,Vogelstein B.Transformingsingle DNA molecules into fluorescent magnetic particles for detection andenumeration of genetic variations.Proc Natl Acad Sci U S A.2003;100(15):8817-22.PMCID:PMC166396.

Drmanac R,Sparks AB,Callow MJ,Halpern AL,Burns NL,Kermani BG，等人Human genome sequencing using unchained base reads on self-assembling DNAnanoarrays.Science.2009;327(5961):78-81.

Duan Z,Andronescu M,Schutz K,McIlwain S,Kim YJ,Lee C，等人Athree-dimensional model of the yeast genome.Nature2010;465(7296):363-7.PMCID:PMC2874121.

Eid J,Fehr A,Gray J,Luong K,Lyle J,Otto G，等人Real-time DNAsequencing from single polymerase molecules.Science.2009;323(5910):133-8.

Fan HC,Wang J,Potanina A,&Quake SR(2011)Whole-genome molecularhaplotyping of single cells.Nat Biotech29(1):51-57.

Fullwood,M.J.等人An oestrogen-receptor-α-bound human chromatininteractome.Nature462,58–64(2009).

Geiss GK,Bumgarner RE,Birditt B,Dahl T,Dowidar N,Dunaway DL，等人Direct multiplexed measurement of gene expression with color-coded probepairs.Nat Biotechnol.2008;26(3):317-25.

Gnerre S,Maccallum I,Przybylski D,Ribeiro FJ,Burton JN,Walker BJ,Sharpe T,Hall G,Shea TP,Sykes S,Berlin AM,Aird D,Costello M,Daza R,WilliamsL,Nicol R,Gnirke A,Nusbaum C,Lander ES,Jaffe DB.High-quality draft assembliesof mammalian genomes from massively parallel sequence data.Proc Natl Acad SciU S A.2010Dec27.[Epub ahead of print]PubMed PMID:21187386.

Grunenwald H,Baas B,Goryshin I,Zhang B,Adey A,Hu S,Shendure J,Caruccio N,Maffitt M.2011.Nextera PCR-Free DNA Library Preparation for Next-Generation Sequencing..(Poster Presentation,AGBT).

Gu H,Smith ZD,Bock C,Boyle P,Gnirke A,Meissner A.2011.Preparation ofreduced representation bisulfite sequencing libraries for genome-scale DNAmethylation profiling.Nat Protoc6(4):468-481.

Harris RA,Wang T,Coarfa C,Nagarajan RP,Hong C,Downey SL,Johnson BE,Fouse SD,Delaney A,Zhao Y等人2010.Comparison of sequencing-based methods toprofile DNA methylation and identification of monoallelic epigeneticmodifications.Nat Biotechnol28(10):1097-1105.

Hiatt JB,Patwardhan RP,Turner EH,Lee C,Shendure J.Parallel,tag-directed assembly of locally derived short sequence reads.Nat Methods.2010;7(2):119-22.PMCID:2848820.

http://www.epibio.com/nextera/nmeth_f_269.pdf.

Johnson DS,Mortazavi A,Myers RM,Wold B.Genome-wide mapping of in vivoprotein-DNA interactions.Science.2007;316(5830):1497-502.

Kidd JM,Cooper GM,Donahue WF,Hayden HS,Sampas N,Graves T，等人Mappingand sequencing of structural variation from eight human genomes.Nature.2008;453(7191):56-64.PMCID:PMC2424287.

Kitzman JO,Mackenzie AP,Adey A,Hiatt JB,Patwardhan RP,Sudmant PH,NgSB,Alkan C,Qiu R,Eichler EE,Shendure J.Haplotype-resolved genome sequencingof a Gujarati Indian individual.Nat Biotechnol.2011Jan;29(1):59-63.Epub2010Dec19.PubMed PMID:21170042.

Kitzman JO，等人(2011)Haplotype-resolved genome sequencing of aGujarati Indian individual.Nat Biotech29(1):59-63.

Lai Z,Jing J,Aston C,Clarke V,Apodaca J,Dimalanta ET，等人A shotgunoptical map of the entire Plasmodium falciparum genome.Nat Genet.1999;23(3):309-13.

Lander ES,Linton LM,Birren B,Nusbaum C,Zody MC,Baldwin J，等人Initialsequencing and analysis of the human genome.Nature.2001;409(6822):860-921.

Levy S,Sutton G,Ng PC,Feuk L,Halpern AL,Walenz BP，等人The diploidgenome sequence of an individual human.PLoS Biol.2007;5(10):e254.PMCID:PMC1964779.

Li R,Zhu H,Ruan J,Qian W,Fang X,Shi Z，等人De novo assembly of humangenomes with massively parallel short read sequencing.Genome Res.2010;20(2):265-72.PMCID:PMC2813482.

Li Y,Kim HJ,Zheng C,Chow WH,Lim J,Keenan B，等人Primase-based wholegenome amplification.Nucleic Acids Res.2008;36(13):e79.PMCID:PMC2490742.

Li H,Durbin R.2009.Fast and accurate short read alignment withBurrows-Wheeler transform.Bioinformatics25(14):1754-1760.

Li Y,Zhu J,Tian G,Li N,Li Q,Ye M,Zheng H,Yu J,Wu H,Sun J等人2010.TheDNA methylome of human peripheral blood mononuclear cells.PLoS Biol8(11):e1000533.

Lieberman-Aiden E,van Berkum NL,Williams L,Imakaev M,Ragoczy T,Telling A，等人Comprehensive mapping of long-range interactions revealsfolding principles of the human genome.Science.2009;326(5950):289-93.PMCID:PMC2858594.

Lim A,Dimalanta ET,Potamousis KD,Yen G,Apodoca J,Tao C，等人Shotgunoptical maps of the whole Escherichia coli O157:H7genome.Genome Res.2001;11(9):1584-93.PMCID:PMC311123.

Lin J,Qi R,Aston C,Jing J,Anantharaman TS,Mishra B，等人Whole-genomeshotgun optical mapping of Deinococcus radiodurans.Science.1999;285(5433):1558-62.

Lister R,Pelizzola M,Dowen RH,Hawkins RD,Hon G,Tonti-Filippini J,NeryJR,Lee L,Ye Z,Ngo QM等人2009.Human DNA methylomes at base resolution showwidespread epigenomic differences.Nature462(7271):315-322.

Margulies M,Egholm M,Altman WE,Attiya S,Bader JS,Bemben LA，等人Genomesequencing in microfabricated high-density picolitre reactors.Nature.2005;437(7057):376-80.PMCID:PMC1464427.

Mazutis L,Araghi AF,Miller OJ,Baret JC,Frenz L,Janoshazi A，等人Droplet-based microfluidic systems for high-throughput single DNA moleculeisothermal amplification and analysis.Anal Chem.2009;81(12):4813-21.

Meissner A,Gnirke A,Bell GW,Ramsahoye B,Lander ES,JaenischR.2005.Reduced representation bisulfite sequencing for comparative high-resolution DNA methylation analysis.Nucleic Acids Res33(18):5868-5877.

Mitra RD,Shendure J,Olejnik J,Edyta Krzymanska O,ChurchGM.Fluorescent in situ sequencing on polymerase colonies.Anal Biochem.2003;320(1):55-65.

Mortazavi A,Williams BA,McCue K,Schaeffer L,Wold B.Mapping andquantifying mammalian transcriptomes by RNA-Seq.Nat Methods.2008;5(7):621-8.

MGSC(2002)Initial sequencing and comparative analysis of the mousegenome.Nature420(6915):520-562.

Ng SB,Turner EH,Robertson PD,Flygare SD,Bigham AW,Lee C，等人Targetedcapture and massively parallel sequencing of12human exomes.Nature.2009;461(7261):272-6.PMCID:PMC2844771.

Ramanathan A,Huff EJ,Lamers CC,Potamousis KD,Forrest DK,SchwartzDC.An integrative approach for the optical sequencing of single DNAmolecules.Anal Biochem.2004;330(2):227-41.

Riehn R，等人(2005)Restriction mapping in nanofluidicdevices.Proceedings of the National Academy of Sciences of the United Statesof America102(29):10012-10016.Schatz MC,Delcher AL,Salzberg SL.Assembly oflarge genomes using second-generation sequencing.Genome Res.2010;20(9):1165-73.PMCID:PMC2928494.

Ritz A,Bashir A,Raphael BJ.Structural variation analysis with strobereads.Bioinformatics.2010;26(10):1291-8.

Schwartz DC,Li X,Hernandez LI,Ramnarain SP,Huff EJ,Wang YK.Orderedrestriction maps of Saccharomyces cerevisiae chromosomes constructed byoptical mapping.Science.1993;262(5130):110-4.

Shendure J,Ji H.Next-generation DNA sequencing.Nat Biotechnol.2008;26(10):1135-45.

Shendure J,Mitra RD,Varma C,Church GM.Advanced sequencingtechnologies:methods and goals.Nat Rev Genet.2004;5(5):335-44.

Shendure J,Porreca GJ,Reppas NB,Lin X,McCutcheon JP,Rosenbaum AM，等人Accurate multiplex聚合酶克隆sequencing of an evolved bacterialgenome.Science.2005;309(5741):1728-32.

Steensel B and Dekker J.Genomics tools for unraveling chromosomearchitecture.Nature Bitoechnology13October2010.

van Berkum,N.L.,Lieberman-Aiden,E.,Williams,L.,Imakaev,M.,Gnirke,A.,Mirny,L.A.,Dekker,J.,Lander,E.S.,Hi-C:A Method to Study the Three-dimensionalArchitecture of Genomes.http://www.jove.com/details.stp?id=1869doi:10.3791/1869.J Vis Exp.39(2010).

Waterston RH,Lander ES,Sulston JE.More on the sequencing of the humangenome.Proc Natl Acad Sci U S A.2003;100(6):3022-4;author reply5-6.PMCID:PMC152236.

Waterston RH,Lander ES,Sulston JE.On the sequencing of the humangenome.Proc Natl Acad Sci U S A.2002;99(6):3712-6.PMCID:PMC122589.

Waterston RH,Lindblad-Toh K,Birney E,Rogers J,Abril JF，等人Initialsequencing and comparative analysis of the mouse genome.Nature.2002;420(6915):520-62.

Zeng Y,Novak R,Shuga J,Smith MT,Mathies RA.High-performance singlecell genetic analysis using microfluidic emulsion generator arrays.AnalChem.2010;82(8):3183-90.PMCID:PMC2859697.

Zhou S，等人(2007)Validation of rice genome sequence by opticalmapping.BMC Genomics8(1):278.

Zhou S，等人(2009)A Single Molecule Scaffold for the Maize Genome.PLoSGenet5(11):e1000711.

Zilberman D,Henikoff S.2007.Genome-wide analysis of DNA methylationpatterns.Development134(22):3959-3965.

Claims

1.一种用于捕获邻接信息的方法，其特征在于，所述方法包括：

(a)通过以下方法生成多个带标签的核酸分子

(i)用转座酶处理靶DNA序列，从而导致一个或多个断裂或***事件，进而限定两个或更多个靶DNA序列片段；

(ii)将一个或多个识别序列加入或***所述靶DNA序列，其中，所述一个或多个识别序列为条形码序列或衔接子序列；

(iii)区室化或物理上限制所述靶DNA序列的位置，从而建立多个带标签的核酸分子，各个带标签的核酸分子带有对应于加入或***的识别序列的所述靶DNA序列的共享性质，其中，所述共享性质为所述多个带标签的核酸分子的等同的或互补的条形码序列、或受约束的物理位置；

(b)对所述多个带标签的核酸分子进行测序；和

(c)通过鉴定所述多个带标签的核酸分子中所述加入或***的识别序列的存在来捕获邻接信息，其中所述加入或***的识别序列的存在对应于所述靶DNA序列的共享性质；

其中所述邻接信息是在两个或更多个靶DNA序列片段之间的空间关系，所述空间关系为：

(i)邻近关系，其中所述两个或更多个靶DNA序列片段直接彼此邻近，

(ii)区室关系，其中所述两个或更多个靶DNA序列片段在所述一个或多个断裂或***事件之前在靶DNA序列的相同区段内，但不一定彼此邻近，或

(iii)距离关系，其中所述两个或更多个靶DNA序列片段在所述一个或多个断裂或***事件之前不连续且不邻近，但通过彼此间的特定距离或序列长度相关。

2.根据权利要求1所述的方法，其特征在于，所述一个或多个断裂或***事件导致源自所述靶DNA的靶核酸分子文库的生成。

3.根据权利要求2所述的方法，其特征在于，所述一个或多个识别序列是一个或多个条形码，所述一个或多个条形码被对称地标记至与每个断裂或***事件邻近的序列。

4.根据权利要求3所述的方法，其特征在于，所述一个或多个条形码的共享性质是等同或互补的条形码序列。

5.根据权利要求1所述的方法，其特征在于，所述靶DNA序列包含一组靶DNA片段。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括用乳状液或稀释物区室化所述靶DNA片段，从而在用所述转座酶处理前或后生成靶DNA片段的两个或更多个区室。

7.根据权利要求6所述的方法，其特征在于，所述一个或多个识别序列是一个或多个区室特异性条形码，所述一个或多个区室特异性条形码中的每一个对应于在区室化步骤中生成的一个或多个区室。

8.根据权利要求7所述的方法，其特征在于，一个或多个引物序列的共享性质是等同的区室特异性条形码。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括使用具有区室特异性条形码的引物执行核酸扩增。

10.根据权利要求1所述的方法，其特征在于，所述一个或多个识别序列是一个或多个衔接子序列，所述一个或多个衔接子序列修饰所述靶DNA序列的末端或在所述靶DNA序列内***。

11.根据权利要求10所述的方法，其特征在于，所述一个或多个衔接子序列与一个或多个表面结合的引物互补。

12.根据权利要求11所述的方法，其特征在于，所述转座酶与核酸结合，所述核酸与第二表面结合的引物互补。

13.根据权利要求11所述的方法，其特征在于，所述方法还包括使所述一个或多个衔接子序列与所述一个或多个表面结合的引物杂交。

14.根据权利要求13所述的方法，其特征在于，所述共享性质是受约束的物理位置。

15.根据权利要求1所述的方法，其特征在于，所述转座酶与表面结合的识别序列结合，以形成表面结合的转座酶复合物。

16.根据权利要求15所述的方法，其特征在于，所述共享性质是受约束的物理位置。

17.根据权利要求15所述的方法，其特征在于，处理所述靶DNA序列包括使多个表面结合的转座酶复合物暴露于所述靶DNA序列。

18.一种亚硫酸氢盐测序的方法，其特征在于，所述方法包括：

a)用转座酶复合物执行体外转座到靶DNA分子内，每个转座酶复合物包含双链DNA转座酶识别序列和具有甲基化胞嘧啶(C)残基的单链DNA衔接子突出端；

b)区室化或物理上限制转座的靶DNA分子的位置，从而建立对应于识别序列的靶DNA分子的共享性质，其中，所述共享性质为靶DNA分子的等同的或互补的条形码序列、或受约束的物理位置；

c)使转座的靶DNA分子进行亚硫酸氢盐处理；

d)执行核酸扩增；

e)将所得的核酸文库测序；和

f)通过鉴定转座的靶DNA序列中所***的识别序列的存在来捕获邻接信息，其中所***的识别序列的存在对应于所述靶DNA分子的共享性质；

19.根据权利要求18所述的方法，其特征在于，所述方法还包括在步骤(a)后和在步骤(c)前，将第二衔接子掺入源自靶DNA的核酸片段，其中所述第二衔接子设计为促进步骤(d)中的核酸扩增。

20.根据权利要求18所述的方法，其特征在于，所述方法还包括在步骤(c)后和在步骤(d)前，将第二衔接子掺入源自靶DNA的核酸片段，其中所述第二衔接子设计为促进步骤(d)中的核酸扩增。