CN111052250A

CN111052250A - 高分辨率的微生物分析方法

Info

Publication number: CN111052250A
Application number: CN201880055371.6A
Authority: CN
Inventors: G·方; J·博劳里埃
Original assignee: Icahn School of Medicine at Mount Sinai
Current assignee: Icahn School of Medicine at Mount Sinai
Priority date: 2017-06-28
Filing date: 2018-06-27
Publication date: 2020-04-21
Also published as: US20200160936A1; EP3646326A4; WO2019005913A1; EP3646326A1

Abstract

提出了一种对宏基因组序列进行分箱的方法，该方法利用来自单分子长读长测序技术的长读长，并利用由这些读长推测出的DNA甲基化标志物，以将单个读长和重组重叠群分辨为物种水平和品系水平的聚类。提出了一种对微生物组样品中的原核生物进行去卷积的方法。还提出了一种将微生物基因组中的可移动遗传元件映射至其宿主生物的方法。

Description

高分辨率的微生物分析方法

相关申请的交叉引用

本专利申请根据35U.S.C.§119(e)要求2017年6月28日提交的美国临时专利申请号62/525,908的优先权，其全部内容通过引用并入本文。

关于联邦资助研究的声明

本发明是在美国国立卫生研究院(National Institute of Health)授予的政府支持GM114472的帮助下完成的。政府对本发明享有某些权利。

序列表

本申请包含序列表，该序列表已以ASCII格式电子提交，并且通过引用整体并入本文。所述ASCII副本创建于2018年7月19日，名为242096_000034_SL.txt，大小为17,725字节。

技术领域

整体上，本发明主题涉及基因组学和宏基因组学领域，尤其涉及使用DNA甲基化和单分子长读长的宏基因组分箱(binning)。

背景技术

人们越来越认识到人类微生物组(microbiome)可以深刻地影响我们的健康，但是对这些微生物种群的全面表征仍然很困难。16S rRNA基因的扩增子测序提供了一种鉴别宏基因组样品中存在的许多类群(taxa)的无需培养的方法，但该技术的***发育分辨率(phylogenetic resolution)受到限制，并且该单一基因之外的微生物基因组结构未被研究或仅间接推测出。完整宏基因组的鸟枪法测序(shotgun sequencing)用扩展到菌株水平的***发育分辨率可以获得组成生物的所有基因组特征，包括细菌和古细菌的染色体、质粒、转座子，甚至噬菌体。但是，多种技术挑战阻碍了对短读长(short read)新一代测序(NGS，next-generation sequencing)方法收集的宏基因组测序数据的解释。

NGS数据通常由数百万个长度＜200bp的读长(read)组成，提供了可观的测序深度，但是分辨复杂重复序列和存在于多个基因组中的相似序列的能力有限。这对于从头(denovo)宏基因组组装(metagenomic assembly)和对由此产生的成千上万的小的组装序列(称为重叠群(contig))的解释提出了严峻挑战，对这些小的组装序列的解释严重依赖于基于参考的注释方法或通过称为宏基因组分箱的过程分离为假定的类群。无监督(无参考)方法具有识别新物种的潜力，这不同于需要将现有参考用于训练分箱算法的有监督的分箱方法。几种无参考方法尝试通过使用k-mer频次度量来评估序列组成分布或通过跟踪多个样品之间的k-mer协方差，在从头组装前对宏基因组读长进行分箱。这些方法不依赖于从头组装的结果，但分箱分辨率受到标准NGS技术的短读长中发现的信息内容的限制。

由于短读长中有限的信息内容，大多数无参考的分箱方法转而利用组装的重叠群的较长序列。基于组成的重叠群分箱方法不仅依赖于成功的从头组装，而且当样品包含多个高度相似的细菌基因组时，也常常无法分离序列。差异覆盖(或覆盖协方差)方法基于序列在多个样品上的相似丰度分布来划分序列，这为研究大量复杂样品的项目中的序列分箱提供了强大的手段。但是，它们有时无法分开(untangle)样品中具有相似丰度的生物体基因组，并且无法有效地将独立复制的可移动遗传元件(MGE，mobile genetic element)(例如，质粒、转座子、噬菌体以及I组内含子和II组内含子)进行分箱，这些可移动遗传元件的丰度水平与其宿主染色体的差异可能很大。一种替代方法涉及使用Hi-C染色体相互作用图来连接组装的重叠群，包括MGE，但是这些方法也因难以区分密切相关的生物而受到限制(由于高度序列相似性和不均匀的Hi-C连接密度)。

DNA的信息含量不限于主要核苷酸序列(A、C、G和T)，还通过单个核苷酸的化学修饰(包括DNA甲基化)来传达。在细菌(和古细菌)界，DNA甲基化由DNA甲基转移酶(MTase)催化，该酶以高度序列特异性的方式将甲基加到DNA碱基上，使得某些序列基序几乎100％被甲基化而其他基序保持非甲基化。天然(无扩增)DNA的单分子实时(SMRT，single-molecule,real-time)测序使检测原核基因组中的甲基化碱基和基序成为可能。最近对230个不同的细菌和古细菌基因组进行的调查发现，在种类繁多的甲基化基序(834种不同基序；平均每个生物体3种基序)中，有93％的基因组存在DNA甲基化。重要的是，细胞的遗传成分(染色体和染色体外DNA元件)均具有相同的甲基化基序集，但这些基序在物种和品系之间通常差异很大。甲基化基序如此广泛多样性的主要原因是通过可移动遗传元件进行的水平基因转移(HGT，horizontal gene transfer)。由于MTase通常被HGT穿梭，该过程在重新配置细菌甲基化组中起关键作用。此外，突变事件可能发生在MTase基因的目标识别结构域中，从而修饰靶向甲基化的序列基序，从而为细菌甲基化基因组的进一步多样化提供途径。

这增加了使用SMRT测序获取这些群落中DNA甲基化的可能性，其实质上提供了正交数据维度(内源性表观遗传条码)，该维度可用于基因组分离，以支持互补性(例如，覆盖度和序列组成)。

整个宏基因组鸟枪法测序是表征复杂微生物群落的综合方法。然而，宏基因组序列的分析中出现了重大挑战，通常是由于存在高度相似且相对丰度不同的细菌品系所致。尽管已开发出许多宏基因组分箱方法(这些方法利用捕获序列组成、生物体丰度和染色体组织的特征)，许多应用仍遭受区分能力不足、无法区分具有高度序列相似性的密切相关的物种和品系的困扰。单分子长读长(long-read)测序技术可全面检测细菌内的DNA甲基化事件，这是宏基因组分析尚未利用的除DNA序列之外的丰富区分特征。

提出前述讨论仅为了更好地理解本领域所面临问题的性质，并且不应以任何方式解释为对现有技术的认可，也不应将本文中对任何参考文献的引用解释为对此种参考文献构成本申请的“现有技术”的承认。

发明内容

提出了一种用于宏基因组序列分箱的新方法，该方法利用来自单分子长读长测序技术的长读长，并且首次地利用从这些读长中推测出的DNA甲基化标志物来将单个读长和组装的重叠群分辨为物种(species)水平的甚至品系(strain)水平的聚类。此种基于甲基化的分箱新方法还能够将微生物组样品中的可移动遗传元件(例如，质粒；转座子，包括逆转座子、DNA转座子和***序列；噬菌体；I组内含子和II组内含子)直接映射(mapping)至其宿主物种。

描述了一种新方法，其使用SMRT读长的读长水平聚合酶动力学鉴定宏基因组学数据中存在的DNA甲基化模式，并展示了如何利用该数据来获得不依赖于序列的内源性表观遗传条码，从而改善宏基因组分箱的分辨率。因为即使在密切相关的物种和品系之间，甲基化的基序也常常会有所不同，所以SMRT读长及其组装的重叠群中存在的甲基化模式(基序集)为更好地区分来自具有高度序列相似性的类群的序列提供了一种手段。

在一个实施方式中，描述了一种方法，该方法使用DNA甲基化图谱(profiles)，将组装的重叠群整理为类群特异性的(taxon-specific)聚类，并且证明了该方法与依赖于序列组成和覆盖-协方差特征的现有分箱方法的互补性。

在另一个实施方式中，该方法被扩展用于发现微生物组样品中的MGE(例如，质粒)与其宿主生物之间的映射。

为完善基于DNA甲基化的重叠群水平的分箱，已开发了一种方法并将该方法用于利用SMRT测序的长读长长度来直接使用序列组成和DNA甲基化图谱对单个单分子读长进行分箱，从而有助于检测低丰度生物体，并将多品系的从头(de novo)组装分辨为分离的单品系。

在本发明的一个方面，提供了一种使微生物组样品中的原核生物的基因组去卷积(deconvolution)的方法，所述方法包括以下步骤：

a)获得包含多种原核生物的微生物组样品；

b)使用单分子长读长测序技术对原核生物的核酸进行测序，其中，所述测序包括鉴别甲基化核苷酸的步骤以及以下步骤中的至少一个：

i.对核酸的单分子读长进行测序；

ii.由核酸的单分子读长组装重叠群；以及

c)分配甲基化得分，该得分反映了组装的重叠群和/或单分子读长上核酸的序列基序的甲基化程度；

d)应用基序过滤，鉴别具有甲基化得分的序列基序，该甲基化得分指示组装的重叠群和/或单分子读长上的甲基化；

e)基于步骤(d)中鉴别的基序，确定微生物组样品中组装的重叠群或单分子读长的核酸甲基化图谱；

f)基于步骤(e)的甲基化图谱，将组装的重叠群和/或单分子读长分离到对应于不同原核生物的箱(bin)中；

g)对步骤(f)的箱进行组装，从而获得微生物组样品中不同细菌生物的组装的基因组；

使微生物组样品中原核生物的基因组去卷积。

在一些实施方式中，微生物组样品中的两种以上原核生物具有高序列相似性。在一些实施方式中，微生物组样品中的两种以上原核生物的平均核苷酸一致性大于约75％、大于约80％、大于约85％、大于约90％、大于约95％、大于约97％、大于约98％或大于约99％。

在另一方面，提供了一种将包含多种原核生物的微生物组样品中的可移动遗传元件映射至原核宿主生物的方法，所述方法包括以下步骤：

a)获得包含多种原核生物的微生物组样品；

i.对核酸的单分子读长进行测序；以及

ii.由核酸的单分子读长组装重叠群；

d)应用基序过滤，鉴别具有甲基化得分的基序，该甲基化得分指示组装的重叠群和/或单分子读长上的甲基化；

e)基于步骤(d)中鉴别的基序，确定微生物组样品中至少一种原核宿主生物和至少一种可移动遗传元件的组装的重叠群或单分子读长的核酸甲基化图谱；

f)比较微生物组样品中的至少一种原核宿主生物和微生物组样品中的至少一种可移动遗传元件的核酸甲基化图谱，确定所述甲基化图谱之间是否存在匹配；以及

g)重复步骤(e)和(f)，直至识别到可移动遗传元件和原核宿主生物之间的匹配；

将可移动遗传元件映射至原核宿主生物。

在上述方法的一些实施方式中，核酸甲基化图谱为DNA甲基化图谱。

在一个实施方式中，可移动遗传元件为质粒或转座子或噬菌体或内含子。

使用本发明的方法可以映射任何大小的可移动遗传元件。在一些实施方式中，可移动遗传元件的长度大于约1kbp，或大于约2kbp，或大于约5kbp，或大于约10kbp，或大于约20kbp，或大于约30bp。在一个非限制性实施方式中，可移动遗传元件的长度大于10kbp。

在一些实施方式中，可移动遗传元件赋予宿主生物某些特性。例如，在一个实施方式中，可移动遗传元件赋予原核宿主生物耐抗生素性。在另一个实施方式中，可移动遗传元件编码原核宿主生物中的毒力因子(virulence factor)。在又一个实施方式中，可移动遗传元件提供原核宿主生物的代谢功能。

任何大小或复杂性的微生物组样品均在通过本发明的方法分析的范围内。在一个实施方式中，通过本发明的方法分析的微生物组样品包含大于3，或大于5，或大于10，或大于20，或大于50，或大于75，或大于100，或大于200，或大于300，或大于400，或大于500，或大于700，或大于1000，或大于2000，或大于5000，或大于10,000种原核宿主生物。

在一个实施方式中，甲基化核苷酸选自：N⁶-甲基腺嘌呤、N⁴-甲基胞嘧啶和5-甲基胞嘧啶及它们的组合。

本领域技术人员已知的任何原核生物均在本发明的范围内。在一个非限制性实施方式中，原核生物为细菌生物、古细菌生物及它们的组合。在一些非限制性实施方式中，原核生物为细菌生物、细菌物种或细菌物种的菌株。在其他非限制性实施方式中，原核生物为古细菌生物、古细菌物种或古细菌物种的菌株。

在一些非限制性实施方式中，细菌生物包括细菌目的生物：拟杆菌目(Bacteroidales)、芽孢杆菌目(Bacillales)、双歧杆菌目(Bifidobacteriales)、伯克氏菌目(Burkholderiales)、梭菌目(Clostridiales)、噬纤维菌目(Cytophagales)、Eggerthallales、肠杆菌目(Enterobacterales)、丹毒丝菌目(Erysipelotrichales)、黄杆菌目(Flavobacteriales)、乳杆菌目(Lactobacillales)、根瘤菌目(Rhizobiales)或疣微菌目(Verrucomicrobiales)及它们的组合。

在一些非限制性的实施方式中，细菌生物为以下菌株：多氏拟杆菌(Bacteroidesdorei)、脆弱拟杆菌(Bacteroides fragilis)、多形拟杆菌(Bacteroidesthetaiotaomicron)、短双歧杆菌(Bifidobacterium breve)、长双歧杆菌(Bifidobacterium longum)、细齿别样杆菌(Alistipes finegoldii)或沙氏别样杆菌(Alistipes shahii)。

通过本发明的方法分析的微生物组样品可从本领域技术人员已知的任何来源获得。在一个非限制性实施方式中，微生物组样品获自：土壤、空气、水(包括但不限于海水、淡水和雨水)、沉积物、油及它们的组合。在另一个非限制性实施方式中，微生物组样品获自以下受试者：原生动物、动物(例如，哺乳动物，例如人)或植物。受试者(例如，哺乳动物，例如人)可为任何年龄(例如，婴儿、儿童、青少年、成人或老年人)。

在一些实施方式中，所述受试者有患疾病(例如糖尿病，例如I型糖尿病)的遗传风险。在其他实施方式中，所述受试者可能具有患有细菌感染(例如，肺炎感染)的风险或患有细菌感染(例如，肺炎感染)。

在本发明的方法中可使用任何单分子测序技术。在一些实施方式中，使用单分子实时(SMRT)技术或纳米孔(例如，Oxford Nanopore)测序技术来完成对原核生物的核酸测序。

在一些实施方式中，上述方法包括另外的步骤。在一个实施方式中，上述方法还包括以下步骤：在将组装的重叠群和/或单分子读长分离到箱中之前，将步骤(e)的甲基化图谱与微生物组样品中原核生物的核酸的其他序列特征相结合。

在一个实施方式中，上述方法包括其他序列特征，例如跨多个样品的k-mer频数分布(k-mer frequency profile)和覆盖度分布(coverage profile)。

在另一个实施方式中，上述方法还包括以下步骤：将来自其他工具(例如基于交叉覆盖(cross-coverage)和组成的分箱工具)的重叠群分箱分配(assignment)与各个箱中的甲基化得分相结合，检测各个箱中的甲基化基序和微生物组样品中的箱水平甲基化得分的分配。

在另一个实施方式中，上述方法还包括以下步骤：在分配甲基化得分的步骤之前，将单分子读长与由步骤b)的核酸的单分子读长组装而成的重叠群进行比对。

附图说明

本专利或申请文件包含至少一个彩色附图。经请求和支付必要的费用后，专利局将提供带有彩色附图的本专利或专利申请公开的副本。

图1描述了基于DNA甲基化和单分子长读长的宏基因组分箱方法的总览。给定一组宏基因组鸟枪法SMRT测序读长，可将它们组装到重叠群中以进行重叠群水平(contig-level)分箱，也可直接进行读长水平(read-level)分箱而不进行从头组装。一种广泛使用的宏基因组重叠群的无监督分箱方法利用覆盖度(及跨多个样品的覆盖度协方差)图谱和序列组成图谱，但这些可通过甲基化图谱加以补充，以更好地分离具有相似序列组成和覆盖度协方差的重叠群，并将可移动遗传元件映射到来自微生物组样品中宿主细菌的重叠群。通过序列组成进行的读长水平分箱可从未组装成重叠群的低丰度物种中分离出读长，而通过甲基化图谱进行的读长分箱可将多个品系的读长分开，用于实现单独品系特异性的从头基因组组装的目的。这四种不同的分箱方法也可组合起来，以利用每种方法的优势。

图2A至2F通过甲基化图谱描述了宏基因组分箱。图2A显示了受试者操作特性(ROC，receiver operating characteristic)曲线，该曲线说明了针对特定序列基序将重叠群分箱为甲基化还是非甲基化的能力，作为重叠群上基序位点可用的IPD值数量的函数(参见实施例)。图2B显示了来自八个细菌物种的宏基因组组装的一组重叠群上的十四个基序的重叠群水平甲基化得分的热图(heatmap)。各个物种的重叠群的所选基序具有不同的甲基化图谱。图2B按出现顺序分别公开了SEQ ID NO：59至SEQ ID NO：64。图2C显示，14个所选基序的重叠群水平甲基化得分进行t-SNE降维并作图，从而显示组装的重叠群的高度物种特异性聚类。图2D显示了通过QIIME85从成年小鼠肠道微生物组中读取16S的科水平(family-level)注释。图2E显示了根据成年小鼠肠道微生物组的SMRT读长组装的宏基因组重叠群的t-SNE投影，其根据样品中38个序列基序的不同甲基化图谱进行组织。标记的箱表示具有不同甲基化图谱的基因组水平组装(参见表5)。图2F显示了通过甲基化分箱识别的9个箱中的每个箱的重叠群(>100kp，不包括小的MGE)的覆盖度值。

图3A至3E描绘了微生物组样品中质粒与它们的宿主物种的染色体DNA之间的基于甲基化图谱的映射。图3A是质粒和染色体序列的5-mer频数载体之间基于序列的欧氏距离(Euclidian distance)的直方图，显示了质粒与其宿主染色体之间的距离(蓝色；基于2,278个细菌质粒及其已知宿主)以及质粒和其他物种的随机采样染色体之间的距离(红色)。图3B显示了热图，其显示了pHel3质粒及其三个宿主：大肠杆菌(E.coli)CFT073\大肠杆菌DH5α和幽门螺杆菌(H.pylori)JP26的甲基化图谱。pHel3跨越二十个基序的甲基化图谱与分离出pHel3的宿主匹配。图3B按出现顺序分别公开了SEQ ID NO：35至SEQID NO：36。图3C显示了使用REBASE数据库中878个SMRT测序的细菌基因组进行的模拟分析，其显示了具有独特6mA甲基化组的预期基因组数目与群落大小和群落中多品系物种的存在有关。图3D显示了使用REBASE数据库中155个质粒已知的SMRT测序的基因组进行的模拟分析，其显示了具有独特6mA甲基化组的预期基因组数量与群落大小和群落中多品系物种的存在有关。图3E显示了使用REBASE数据库中878个SMRT测序的基因组的模拟分析，其显示了捕获基因组中至少一个甲基化基序实体(instance)所需的预期序列长度。如预期的，捕获一些但不是全部甲基化基序的至少一个实体减少了所需的序列长度。

图4A至4H描述了使用组成和DNA甲基化图谱的单分子读长水平的分箱。图4A显示了组装重叠群基于5-mer频数的分箱以及来自HMP模拟群落(mock community)的原始读长(长度>15kb)，其中仅标记了未比对的读长。低丰度物种类球红细菌(R.sphaeroides)的读长在坐标(-8，-22)附近形成一个明显的聚类。图4B显示了重叠群和未比对的读长的2D直方图，对应于图4A；此2D直方图包含许多高物种特异性的亚群。图4C显示，幽门螺杆菌(H.pylori)品系J99和26995的读长的合成混合物的组合组装得到一个小重叠群(该重叠群主要包含品系26695的读长)和一个大的高度嵌合的重叠群。图4D显示了来自合成混合物的未比对读长的读长水平的甲基化图谱，通过主成分分析(PCA，principal componentanalysis)分离为离散的、品系特异性的聚类。图4E显示了使用甲基化图谱分离的读长的单独组装，得到大的、高度品系特异性的重叠群。图4F显示了来自大肠杆菌品系BAA-2196O26：H11、BAA-2215O103：H11和BAA-2440O111的读长的合成混合物的组合组装，得到许多包含来自所有三个品系的读长的嵌合重叠群。图4G显示了合成混合物的读长，其与大肠杆菌K12MG1655参照物进行比对，以校正原始SMRT序列错误和通过PCA分离成品系特异性聚类的读长水平的甲基化图谱。图4H显示了如图4G所示通过甲基化图谱分开的读长的单独组装，使得组装的读长中的嵌合现象显著降低。

图5A至5D描述了合成长读长和SMRT长读长的比较。图5A按基因组中GC含量降序显示了人类微生物组计划(Human Microbiome Project)模拟群落B成员。合成长读长(SLR，synthetic long read)所覆盖的参考位置百分比始终低于丰度匹配的SMRT读长所覆盖的百分比。图5B显示了在无乳链球菌(S.agalactiae)基因组的40kbp区域中合成长读长的不均匀覆盖。图5C显示了在金黄色葡萄球菌(S.aureus)基因组的40kbp区域中合成长读长的不均匀覆盖，并且图5D显示了在绿脓杆菌(P.aeruginosa)基因组的50kbp区域中的合成长读长的不均匀覆盖。

图6描述了来自八个物种模拟群落的重叠群的5-mer组成图的t-SNE散点图。

图7描述了来自八个物种模拟群落的重叠群的5-mer组成图和重叠群覆盖图的t-SNE散点图。

图8描述了从头组装来自八种细菌物种的读长后的属于鲍氏梭菌(C.bolteae)的分离的重叠群。随着重叠群长度减少，重叠群包含来自鲍氏梭菌的全部甲基化基序位点的IPD值的情况越来越少见，使得仅基于重叠群甲基化模式分离较小的重叠群变得越来越困难。

图9描述了使用mummerplot创建的点图可视化，其显示了仅使用甲基化图谱从小鼠肠微生物组宏基因组组装分离的箱的最高参考比对。有关这些比对和匹配参考序列的详细信息，参见图10。

图10描述了在小鼠肠道宏基因组组装中由CONCOCT鉴定的29个箱的分类学组成。分类学基于Kraken的重叠群水平注释。

图11描述了来自Xiao等[Xiao等，Nature Biotechnology，2015]的100个公众可获得的小鼠肠道微生物组样品的覆盖度图。各条线代表从小鼠肠道微生物组宏基因组组装中分离出的9个箱中的各个箱的最大重叠群的覆盖度。覆盖度值仅根据独特的序列进行计算，以避免模糊映射和错误的覆盖度值(参见实施例)。

图12描述了人类微生物组计划模拟群落B中的20个物种的相对丰度，对其进行变换以遵循log曲线分布。

图13描述了log丰度HMP模拟群落的组装重叠群的基于5-mer频数的分箱和原始读长(长度>15kb)。仅对重叠群进行标记(原始读长由重叠群下方的密度图表示)，并且各个Kraken注释的物种的组装碱基总数也包括在图例中。

图14描述了均匀丰度HMP模拟群落的组装重叠群的基于5-mer频数的分箱和原始读长(长度>15kb)。仅对重叠群进行标记(原始读长由重叠群下方的密度图表示)，并且各个Kraken注释的物种的组装碱基总数也包括在图例中。

图15描述了log丰度HMP模拟群落的未比对读长(5kb<长度<10kb)的基于5-mer频数的分箱。较短的读长长度会导致更多分散和重叠的聚类，这是由于这些较短读长的5-mer频数度量差异增加。

图16描述了log丰度HMP模拟群落的未比对读长(10kb<长度<15kb)的基于5-mer频数的分箱。较短的读长长度会导致更多分散和重叠的聚类，这是由于这些较短读长的5-mer频数度量差异增加。

图17描述了分析的多品系合成混合物中的来自各幽门螺杆菌品系(即26695和J99)的读长的2D图。使用t-SNE生成2D图，其中降维唯一使用的特征为读长的甲基化图谱。

图18描述了用于丰度匹配的SLR和SMRT读长的比对的覆盖度变化。SLR的大量碱基在同一区域进行比对，产生明显的覆盖度峰值。SMRT读长在很大程度上没有这些峰值，而是具有更一致的覆盖度。

图19描述了丰度匹配的合成长读长(红线)和SMRT读长(蓝线)的全基因组覆盖度。突出显示了合成长读长(粉红色)和SMRT读长(浅蓝色)的覆盖度为零的区域。

图20描述了由两个婴儿微生物组样品的混合物组装的重叠群的基于5-mer频数的分箱。几个聚类包含来自同一属的物种混合物。基于Kraken的注释依赖于现有的参考数据库，因此不完整；未生成数据库hit的重叠群记为“未标记”。

图21描述了婴儿肠道微生物组(样品A和B的组合)组装的重叠群的t-SNE图。(选自基序过滤方法的)基序的甲基化得分是用于降维的唯一特征。基于Kraken的注释依赖于现有的参考数据库，因此不完整。未生成数据库hit的重叠群记为“未标记”。

图22描述了婴儿肠微生物组(样品A和B的组合)组装的重叠群的t-SNE图，该重叠群通过5-mer频数和甲基化图谱图两者进行分箱，将重叠群分辨为大部分物种特异性的聚类。基于Kraken的注释依赖于现有的参考数据库，因此不完整。未生成数据库hit的重叠群记为“未标记”。

图23描述了热图，该热图显示了克雷伯氏肺炎杆菌(K.pneumoniae)品系234-12和九种其他品系(其染色体与克雷伯氏肺炎杆菌品系234-12质粒(水平红条)的序列距离比其自身宿主染色体小)的REBASE中所有已知甲基化基序的分层聚类(hierarchicalclustering)。图23按出现顺序分别公开了SEQ ID NO：37至SEQ ID NO：41、SEQ ID NO：8、SEQ ID NO：42至SEQ ID NO：44、SEQ ID NO：1和SEQ ID NO：45至SEQ ID NO：47。

图24描述了热图，该热图显示了克雷伯氏肺炎杆菌的25个品系的REBASE中所有基序的分层聚类。该品系含有17个独特的甲基化基序，包括CCAYNNNNNTCC(SEQ ID NO：1)(其仅在克雷伯氏肺炎杆菌品系234-12中观察到)。图24按出现顺序分别公开了SEQ ID NO：48至SEQ ID NO：53、SEQ ID NO：1和SEQ ID NO：54至SEQ ID NO：58。

具体实施方式

本文公开了本发明的具体实施方式；然而，应当理解，所公开的实施方式仅用于说明以各种形式实施的本发明。此外，结合本发明的各个实施方式给出的各个实例旨在说明而非限制。因此，本文公开的特定结构和功能细节不应被解释为限制性的，而仅仅是作为教导本领域技术人员以各种方式使用本发明的代表基础。

定义

除非另有定义，否则本文所用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。

如本说明书和所附权利要求书中所使用的，单数形式“一个”、“一种”和“该”包括复数引用，除非上下文另外明确地指出。因此，例如，对“一种方法”的引用包括本文所述类型的一种以上方法和/或步骤；和/或在阅读本公开后对本领域技术人员而言变得显而易见的那些。

状态、病症或病状的“治疗(treat)”或“治疗(treatment)”包括：(1)预防、延迟或减少受试者的状态、病症或病状的至少一种临床或亚临床症状出现的发生率和/或可能性，该受试者可能患有或易患该状态、病症或病状，但尚未经历或显示出该状态、病症或病状的临床或亚临床症状；(2)抑制状态、病症或病状，即，阻止、减少或延迟疾病或疾病的复发或疾病的至少一种临床或亚临床症状的发展；或(3)缓解疾病，即引起状态、病症或病状或至少一种临床或亚临床症状的消退。对待治疗的受试者的益处在统计学上是显著的，或者至少对于患者或医师是可察觉的。

在本发明的一个方面，提供了一种方法，该方法能够通过SMRT测序描绘未扩增原核基因组中的DNA甲基化标志物，并将其用作内源表观条码，该条码呈现能够提供高分辨率宏基因组学分析的区分特征的丰富但尚未探索的维度。

在本发明的另一个方面，甲基化图谱被用作一般的区分特征以分离组装的重叠群，并且该方法学优于基于序列组成图谱和覆盖度协方差的现有方法。

在另一方面，甲基化图谱用于在微生物组样品中将MGE(例如，质粒)映射至其细菌宿主物种，这一进展使得可以直接通过宏基因组测序来鉴定可显著影响其宿主细菌的致病性和抗生素敏感性的染色体外基因。

此外，在又一个实施方式中，公开了如何将所提出的长SMRT读长的单分子读长水平的分箱用于解决宏基因组学从头组装中的多个挑战，例如帮助鉴定低丰度生物、简化具有高度序列相似性的多个共存品系的从头基因组组装。

通过DNA甲基化图谱进行序列分箱使多种其他应用成为可能。首先，甲基化图谱可成为追踪质粒和噬菌体在地理位置、时间点或条件(例如抗生素治疗)下传送的工具。由于质粒或噬菌体的甲基化标志物反映了其复制所在的最新细菌宿主，因此可通过比较两种条件下特定质粒或噬菌体(和细菌群落)的甲基化图谱来检测传送事件。其次，除用作宏基因组分箱的内源性表观遗传条码之外，细菌DNA甲基化事件在调节基因表达和致病性方面也起着重要作用。尽管现有方法需要使用克隆样品进行甲基化分析，但所提出的方法将DNA甲基化动力学和表观遗传调控的研究推向了广阔的未培养细菌的研究空间。最后，宏基因组学领域的甲基化基序的从头检测也有望发现新的MTase和限制性内切酶，从而扩大可用于生物医学研究的酶的种类。

本研究集中于DNA甲基化6mA(N⁶-甲基腺嘌呤)的三种形式之一，因为它是原核生物中最丰富的DNA甲基化，并且它在SMRT聚合酶动力学中具有很强的信噪比。细菌中DNA甲基化的其他较不普遍的类型，例如N⁴-甲基胞嘧啶(4mC，中至高信号)和5-甲基胞嘧啶(5mC，低至中信号)也在本发明的范围内。随着单分子长读长测序技术的不断成熟，产生更高的产量和更长的读长、更长的读长长度将提供更具有鲁棒性的组成和甲基化标志物，可用于更有效地分离宏基因组读长，同时还得到更高质量的更长的重叠群。

尽管本发明的实施方式关注于SMRT测序，但是本发明的分箱框架普遍地适用于其他第三代技术，例如Oxford Nanopore。通过将第二代和第三代测序的特征与互补方法(例如Hi-C染色体内图谱、重叠群覆盖协方差或单细胞技术)整合在一起，微生物组和宏基因组学领域的从业人员将对复杂微生物群落的基因组和表观基因组格局都有更全面的了解。

在本发明的一方面，提供了一种使微生物组样品中的原核生物的基因组去卷积的方法，所述方法包括以下步骤：

a)获得包含多种原核生物的微生物组样品；

i.对核酸的单分子读长进行测序；

ii.由核酸的单分子读长组装重叠群；以及

f)基于步骤(e)的甲基化图谱，将组装的重叠群和/或单分子读长分离到对应于不同原核生物的箱中；

使微生物组样品中原核生物的基因组去卷积。

在上述方法的一些实施方式中，核酸甲基化图谱是DNA甲基化图谱。

在一些实施方式中，微生物组样品中的原核生物不具有高度序列相似性。在一些实施方式中，微生物组样品中的两种以上原核生物具有高度序列相似性。在一些实施方式中，微生物组样品中的两种以上原核生物的平均核苷酸一致性大于约75％、大于约80％、大于约85％、大于约90％、大于约95％、大于约97％、大于约98％或大于约99％。

a)获得包含多种原核生物的微生物组样品；

i.对核酸的单分子读长进行测序；以及

ii.由核酸的单分子读长组装重叠群；

将可移动遗传元件映射至原核宿主生物。

使用本发明的方法可以映射任何大小的可移动遗传元件。在一些实施方式中，可移动遗传元件的长度大于约1kbp，或大于约2kbp，或大于约5kbp，或大于约10kbp，或大于约20kbp，或大于约30kbp。在一个非限制性实施方式中，可移动遗传元件的长度大于10kbp。

在一些实施方式中，可移动遗传元件赋予宿主生物某些特性。例如，在一个实施方式中，可移动遗传元件赋予原核宿主生物耐抗生素性。在另一个实施方式中，可移动遗传元件编码原核宿主生物中的毒力因子。在又一个实施方式中，可移动遗传元件提供原核宿主生物的代谢功能，例如，在极端恶劣的环境下生存的能力。

任何大小或复杂度的微生物组样品均在通过本发明方法分析的范围内。在一个实施方式中，通过本发明的方法分析的微生物组样品包含大于3种，或大于5种，或大于10种，或大于20种，或大于50种，或大于75种，或大于100种，大于或等于200种，或大于300种，或大于400，或大于500种，或大于700种，或大于1000种，或大于2000种，或大于5000种，或大于10,000种原核宿主生物。

任何甲基化核苷酸均在本发明方法的范围内。在一个实施方式中，甲基化核苷酸选自但不限于：N⁶-甲基腺嘌呤、N⁴-甲基胞嘧啶和5-甲基胞嘧啶及它们的组合。

任何单分子测序技术均可用于本发明的方法。在一些实施方式中，使用单分子实时(SMRT)技术或纳米孔(例如，Oxford Nanopore)测序技术来完成对原核生物的核酸测序。

在一个实施方式中，上述方法包括其他序列特征，例如跨多个样品的k-mer频数分布和覆盖度分布。

在另一个实施方式中，上述方法还包括以下步骤：将来自其他工具(例如，基于交叉覆盖和组成的分箱工具)的重叠群分箱分配与各个箱中的甲基化得分相结合，检测各个箱中的甲基化基序和微生物组样品中的箱水平甲基化得分的分配。

用于本文所提供方法的微生物组样品可为任何类型的，包括包含原核生物的微生物群落。原核生物包括但不限于细菌生物和古细菌生物。样品可包括来自一个以上域(domain)的微生物。例如，在一个实施方式中，样品包含细菌和/或古细菌的异质种群。

在一个实施方式中，用于本文所提供方法的微生物组样品包括但不限于从环境中获得的样品，包括土壤(例如，根际)、空气、水(例如，海水、淡水、雨水、废水污泥)、沉积物、油、极端环境样品(例如，酸性矿山排水、水热***)及它们的组合。对于海洋或淡水样品，样品可来自水体表面或水体任何深度，例如深海样品。在一个实施方式中，水样品是洋、海、河流或湖泊样品。

在一个实施方式中，样品为土壤样品(例如，散装土壤或根际样品)。据估计，每1克土壤包含成千上万的细菌类群，多达10亿个细菌细胞以及约2亿个真菌菌丝(Wagg等(2010)，ProcNatl.Acad.Sci.USA 111，第5266-5270页)。细菌、古细菌(archaea)、放线菌、真菌、藻类、原生动物和病毒均发现于土壤中。土壤微生物群落多样性与土壤微环境的结构和肥力、植物获取养分、植物多样性和生长以及地上和地下群落之间的资源循环有关。因此，评估土壤样品随时间变化的微生物含量可深入了解与环境元数据参数(例如养分获取和/或植物多样性)相关的微生物。

在一个实施方式中，土壤样品为根际样品，即直接受根分泌物和相关土壤微生物影响的土壤的狭窄区域。当植物将许多化合物分泌到根际中时，对根际中生物类型的分析可能有助于确定在其中生长的植物的特征。

在另一个实施方式中，样品为海水或淡水样品。海水每毫升包含高达一百万个微生物和数千种微生物类型。这些数字在沿海水域中可能更高，因为它们具有更高的生产力以及更高的有机物和养分含量。海洋微生物对于海洋生态***的功能至关重要；保持生产的二氧化碳与固定的二氧化碳之间的平衡；通过海洋光养微生物(例如蓝细菌、硅藻以及皮和纳米浮游植物)在地球上产生超过50％的氧气；提供新的生物活性化合物和代谢途径；通过占据海洋食物网中的关键底部营养层来确保海鲜产品的可持续供应。在海洋环境中发现的生物包括：病毒、细菌、古细菌和一些真核生物。海洋细菌作为其他小微生物的食物来源以及有机物的生产者，均很重要。在整个海洋水柱中发现的古细菌为浮游古细菌，其丰度可与海洋细菌相当。

在另一个实施方式中，样品包括来自极端环境(即对地球上大多数生命有害的条件的环境)的样品。在极端环境中成长的生物被称为极端微生物(extremophile)。尽管古细菌域包含熟知的极端微生物实体，但细菌域也可具有这些微生物的代表。极端微生物包括：在pH 3以下生长的嗜酸菌；在pH 9以上生长的嗜碱菌；无需氧气即可生长的厌氧菌(例如Spinoloricus Cinzia)；生活在深地下的充满地下水的岩石、裂缝、含水层和断层的微观空间内的岩内生物(cryptoendolith)；在盐浓度为至少约0.2M条件下生长的嗜盐菌；在高温(约80℃至122℃)下生长的嗜热菌，例如发现于水热***；生活在寒冷沙漠中的岩石下面的石下生物(hypolith)；从还原的矿物化合物(例如黄铁矿)中获取能量并在地球化学循环中活跃的无机自养型微生物(lithoautotroph)(例如欧洲亚硝化单胞菌(Nitrosomonaseuropaea))；耐受高水平的溶解的重金属(例如铜、镉、砷和锌)的耐金属生物(metallotolerant微生物)；在营养有限的环境中生长的寡营养生物(oligotroph)；在高糖浓度环境中生长的嗜高渗菌(osmophile)；在高压下生长的嗜压微生物(piezophile)，例如发现于海底或地下深处；在约-15℃以下温度下存活、生长和/或繁殖的嗜冷菌(psychrophile)/低温菌(cryophile)；能够抵抗高水平电离辐射的耐辐射生物；在45℃至122℃温度下生长的嗜热菌；可在极其干燥的条件下生长的耐旱生物(xerophile)。多嗜极端微生物(polyextremophile)为符合一种以上类别的极端微生物资格的生物，其包括嗜热嗜酸菌(thermoacidophile)(优选地，温度为70℃至80℃且pH为2至3)。古细菌的泉古菌门(Crenarchaeota group)包括嗜热嗜酸菌。

在另一个实施方式中，用于本文所提供方法的微生物组样品包括但不限于：获自受试者(例如动物受试者、原生动物受试者或植物受试者)的样品。例如，受试者可为人、哺乳动物、灵长目动物、牛科动物、猪科动物、犬科动物、猫科动物、啮齿动物(例如小鼠或大鼠)或鸟科动物。在一个实施方式中，动物受试者为哺乳动物，例如人。在一个实施方式中，人类受试者为成年人、儿童、青少年、成年人或老年人。

在一些实施方式中，所述受试者有患疾病(例如，糖尿病，例如I型糖尿病)的遗传风险。在其他实施方式中，所述受试者可能处于患有(例如肺炎)的风险中或患有细菌感染。

在一个实施方式中，获自动物受试者的样品为体液。在另一个实施方式中，获自动物受试者的样品为组织样品。从动物受试者获得的非限制性样品包括：牙齿、汗液、指甲、皮肤、毛发、粪便、尿液、***、粘液、唾液和胃肠道样品。人类微生物组包括在皮肤的表面和深层、乳腺、唾液、口腔粘膜、结膜和胃肠道中发现的微生物集。在微生物组中发现的微生物包括：细菌、真菌、原生动物、病毒和古细菌。人体的不同部位表现出不同的微生物多样性。微生物的数量和类型可表明个体的健康或疾病状态。细菌类群的数量为数千种，并且病毒可能同样丰富。人体上给定部位的细菌组成(不仅类型，而且数量或数量)因人而异。

在本文所提供方法中，一种以上原核生物可为任何类型。例如，一种以上原核生物可来自细菌域、古细菌域及它们的组合。细菌和古细菌是原核生物，具有非常简单的细胞结构，没有内部细胞器。细菌可分为革兰氏阳性/无外膜、革兰氏阴性/存在外膜和未分组的门。古细菌构成单细胞微生物的域(domain)或界(kingdom)。尽管古细菌在视觉上与细菌相似，但古细菌具有与真核生物更接近的基因和几种代谢途径，特别是参与转录和翻译的酶。古细菌生物化学的其他方面是独特的，例如古细菌的细胞膜中存在醚脂质。古细菌分为四个公认的门：奇古菌门(Thaumarchaeota)、曙古菌门(Aigarchaeota)、泉古菌门(Crenarchaeota)和初古菌门(Korarchaeota)。

使用甲基化图谱对组装的重叠群进行分箱

从SMRT测序推测的DNA甲基化图谱提供了可改善重叠群聚类的信息丰富的正交表观基因组特征。DNA甲基化图谱类似于序列组成图谱和差异覆盖图谱，其中，跨k-mer的归一化k-mer频次和跨样品的归一化覆盖度值分别提供了用于差异化分箱的特征。

在重叠群甲基化图谱的情况下，各个重叠群具有由跨序列基序的重叠群水平DNA甲基化得分组成的特征集(参见实施例)。

重叠群上给定基序的甲基化得分反映了重叠群上该基序的所有实体被甲基化的程度。它使用脉冲间持续时间(IPD)值进行计算，该值记录了在实时DNA合成过程中DNA聚合酶从一个核苷酸转移到另一个核苷酸所需的时间，通常称为聚合酶动力学。重叠群上基序的甲基化得分随着以下两个值的增加而可以更可靠地预测DNA甲基化：(1)重叠群上基序位点的数量，通常较短基序的该数量更大；以及(2)比对到重叠群的读长数量，因为各个读长均有助于基序位点的甲基化可能性的独立IPD测量。基于具有一组特征明确的N⁶-甲基腺嘌呤(6mA)的细菌的甲基化数据的评估表明：用于检测甲基化基序的甲基化得分的特异性和灵敏度随着用于计算该得分的各IPD值的数量增加而显著提高(图2A；参见实施例)。

使用甲基化图谱进行分箱的关键的第一步是鉴别宏基因组组装中的甲基化基序，因为只有那些在一个以上重叠群上的经甲基化的基序才有助于分箱的区分能力。因此，设计了一种基序过滤方法，用于鉴别相对较小数量的具有表明可能存在甲基化的分数的基序，从下游分析中排除了在组装体中任何重叠群上均没有甲基化迹象的绝大多数基序(参见实施例)。在下文显示的实施例中，基序过滤将宏基因组组装体中的基序特征空间由超过204,000个简化为7至38个基序。通常，只要过滤后剩余的基序集共同捕获重叠群甲基化图谱之间的最显著的差异，过滤后剩余的基序的精确数量并不是很重要。此特性与用于研究甲基化基序的现有方法形成鲜明对比，后者试图严格鉴别基序的最简约形式。所提出的基序过滤对于噪声和不同阈值的选择更加具有鲁棒性，从而使其在宏基因组学设置中更有效、更灵活地利用SMRT测序聚合酶动力学。

为评估该方法仅基于DNA甲基化图谱分离重叠群的能力，创建了合成的宏基因组混合物，该混合物由来自八种单独测序的细菌物种的SMRT测序读长组成(下表1)，其中四个属于拟杆菌属(genus Bacteroides)(见实施例)。

表1：产生合成混合物的八种细菌物种的SMRT测序细节

使用分层基因组组装过程(HGAP3)，将读长组合并完成从头组装。本发明的基序过滤程序从头开始从宏基因组重叠群中鉴别出16个基序，其中14个(87.5％)与真实甲基化基序完全匹配(通过对各个物种的单独甲基化分析来确定，独立于合成混合物的产生或分析)；(下表2)。其余两个基序与真实基序密切相关并提供相似的甲基化信号。各物种中最大重叠群的分层聚类及其基序甲基化得分表明，在通过基序过滤选择的16个基序中，混合物中的每个物种都具有独特的甲基化图谱(图2B)。

表2：来自八个细菌物种的混合物的基序，这些基序使用基于重叠群范围的甲基化图谱图的基序过滤程序来鉴别。鉴别的十六个基序中有十四个通过SMRT Portal甲基化组分析得到确认，其余两个基序是两个已确认基序的部分版本。

为了许多宏基因组重叠群的高维特征的简化可视化和解释，使用降维将特征空间缩小为适合绘制的二维。本研究中主要使用的降维算法是t分布随机邻域嵌入(t-SNE，t-distributed stochastic neighbor embedding)的Barnes-Hut近似(参见实施例)，该算法已被证明可有效地基于k-mer频次分离宏基因组重叠群。由于t-SNE旨在保留局部两两距离的非线性降维算法，因此它不同于线性方法(例如捕获全局差异的主成分分析(PCA))，这使得t-SNE非常适合复杂的微生物组群落具有PCA无法有效捕获的亚种群结构。

通过将t-SNE应用于甲基化图谱的矩阵(每个重叠群16个基序)产生的2D图显示了基于其已知物种被大体上良好分离的重叠群(图2C)。具体地，尽管基因组具有显著的序列相似性，来自拟杆菌属的四个物种彼此之间表现出明显清晰的分离(见下表3)。四种拟杆菌属的这种分离比仅使用组成方法(图6)更清晰，并且当组成包含重叠群覆盖度值时相比，四种拟杆菌属的这种分离更干净(图7)。基于甲基化的图谱得到的聚类轮廓系数(silhouettecoefficient)为0.53(轮廓系数在-1(明显混合)和1(完全分离)之间)，而基于组成的聚类得到的轮廓系数为0.14。

表3：八种细菌混合物的成员的平均核苷酸一致性(ANI)。最小可检测一致性为75％。

有趣的是，有一些小重叠群的混合，这些重叠群可能太短而无法包含物种的全套甲基化基序的IPD值。这得到了观察的支持：属于鲍氏梭菌的几个重叠群(其太小而不能包含全部的鲍氏梭菌甲基化基序(图8))与活泼瘤胃球菌(一种无任何可检测的甲基化基序的物种)更紧密地聚集。尽管某些生物(例如活泼瘤胃球菌)无任何可检测到的甲基化，但这些生物相对较少。

甲基化分箱补充了(complement)复杂微生物组的现有方法

已证明了如何在模拟的宏基因组学群落中将甲基化图谱用于重叠群，接下来将该方法应用于检验从成年小鼠肠道中采样的微生物群落。16S rRNA测序(参见实施例)表明该样品很复杂，且主要为来自拟杆菌目S24-7科的数量不确定的生物体(图2D)。使用HGAP3组装软件组装SMRT测序读长(表4)。

表4：成年小鼠肠道微生物组的SMRT测序细节和宏基因组的组装统计

从组装的重叠群中检测到38个甲基化的基序，并通过使用t-SNE将38维降维为二维散点图来可视化样品的甲基化特征图谱(图2E)。产生的散点图显示了重叠群的九个不同箱，它们具有一致的甲基化图谱。在九个箱中的八个箱中，每个箱中的一致重叠群覆盖度值支持了重叠群对应于八个单一生物体，而箱7中的分离开的覆盖度值表明它可能包含来自两个不同基因组的重叠群(图2F)。

接下来，使用CheckM基于单拷贝基因计数来评估基因组完整度和各个箱的污染率。九个箱中的八个箱具有>97％的完整度，仅箱7有明显的污染，污染很可能来自该箱中的第二个基因组(下表5)。

表5：使用DNA甲基化图谱从成年小鼠肠道微生物组中发现的九个不同的箱。使用CheckM[Parks等，Genome Research，2015]进行组装验证，组装验证反映了根据检测到的分类注释选择的一组单拷贝标记基因的存在与否。显著的基序是在分箱的重叠群中平均甲基化得分大于1.6的基序。映射的可移动遗传元件(MGE)是具有与指定甲基化箱相匹配的甲基化图谱的那些(参见实施例)。

相对于手动整理的591个可公开获得的小鼠肠道微生物参考的集合，查询各个箱中的重叠群序列，发现九个箱中有八个箱具有显著的参考命中率(hit)(图9；下表6)，从而进一步支持了使用甲基化图谱鉴别的箱代表不同生物体的基因组。

表6：使用甲基化图谱从小鼠肠道中鉴别出的九个箱的注释细节。来自Ormerod等和Xiao等的参考序列是高度碎片化的组装体。有关比对过程的说明，参见实施例。

箱4和箱5分别与嗜粘蛋白-艾克曼菌(Akkermansia mucinophilia)(平均核苷酸一致性(ANI)＝98.94％)和副拟杆菌属YL-27(ANI＝98.43％)的完成的基因组具有高质量、近乎全长匹配。其余的六个箱与已在其他研究中在小鼠肠道中鉴别出但缺少完成的参考序列的物种的基因组组装具有高质量匹配。这六个箱中的三个与拟杆菌目S24-7科未培养成员的三个草图组装(draft assembly)具有全长匹配：箱1与拟杆菌目细菌M1(ANI＝98.63％)匹配，箱3与拟杆菌目细菌M12(ANI＝98.45％)匹配，以及箱8与拟杆菌目细菌M2(ANI＝98.24％)匹配。最后三个箱与先前在大型小鼠肠道微生物群研究中分箱的三个未识别的宏基因组物种(MGS)具有高质量匹配：箱2匹配MGS：0161(ANI＝99.41％)，箱8匹配MGS：0004(ANI＝99.38％)，箱9匹配MGS：0305(ANI＝99.96％)。拟杆菌目的七个箱彼此之间均享有高ANI(81-91％ANI)，但其值表明种间关系而非种内关系(表7)。

表7：来自小鼠肠道微生物组的九个甲基化箱中的每个箱中包含的重叠群的平均核苷酸一致性(ANI)值。

因为通过16S测序在样品中鉴别出的拟杆菌目的唯一其他科为丰度为2.12％的理研菌科(Rikenellaceae)，所以这七个高度连续的基因组箱可能均属于特征不佳的拟杆菌目S24-7科(其主导样品的16S丰度分布)(图2D)。观察到箱5重叠群与参考的副拟杆菌属(Parabacteroides sp.)YL-27具有质量比对，其被归类为属于紧密相关的拟杆菌目坦纳菌科(family Tannerellaceae)，但是在比对中存在一些明显的差异，这使人们怀疑它是否精确匹配(图9)。总言之，这些全面的评估表明，使用甲基化图谱图分离出的九个箱代表了生物体的高度连续的草图组装体，该生物体先前未被表征或仅由零散的WGS组装体所代表。

接下来，通过基于甲基化的分箱与利用差异覆盖度和序列组成的现有方法(例如CONCOCT、GroopM和MetaBAT，这些方法已被证明是分离复杂宏基因组样品中的基因组的强大方法)的互补性，探索了小鼠肠道微生物组群落。将来自100个公共可获取的小鼠肠道样品的Illumina WGS数据与组装的重叠群进行比对，以生成各个样品的覆盖度值。然后应用CONCOCT，它将重叠群4-mer频数图谱与覆盖图谱结合起来，以调用基因组箱。该分析为几种生物体生成了高质量的接近完整基因组的箱，这几种生物体包括：梭菌目(映射至MGS：0305)、疣微菌目(映射至嗜粘蛋白-艾克曼菌YL-44)和两个无甲基化箱的生物体：伯克氏菌目和乳杆菌目(图10；下表8)。但是，CONCOCT将多个拟杆菌目基因组分配给一个包含28Mbp序列的单个箱。进一步的分析显示，CONCOCT对多个拟杆菌目基因组的共分箱(co-binning)是由于，即使排除了可能因序列相似性而导致读长映射至多个拟杆菌目基因组的基因组区域之后，它们在微生物组样品中的丰度分布具有高度相似性(图11和实施例)。因此，尽管差异覆盖度分箱被证明对样品中许多生物的分箱非常有效，但它不能有效地处理具有相似的覆盖度协方差分布的生物体。

表8：小鼠肠道微生物组宏基因组组装的CONCOCT分箱结果。使用CheckM和通过mBin pipeline发现的甲基化基序完成组装验证，以基于CONCOCT分箱分配发现箱水平基序。

总体上，以上分析突出了基于甲基化的分箱的巨大区分能力及其对现有方法的互补性，用于提高复杂微生物组样品中的分箱分辨率。认识到这一点，当前的分析流程已扩展到在读长、重叠群和箱水平评估甲基化图谱，其中分箱分配可来自各种差异覆盖度分箱软件。本方法使得可以在箱水平别上发现八个另外的基序，而这些基序是通过专注于单个重叠群而无法检测到的(上表8)。

还进行了婴儿肠道微生物组的分析，以说明甲基化图谱可与序列组成特征整合的其他方式(参见实施例1)。

使用甲基化图谱将MGE连接至其宿主物种

细菌群落通常以可移动遗传元件(MGE)的形式包含显著的染色体外遗传潜力。MGE可包括但不限于质粒、转座子(包括I类或反转录转座子、II类或DNA转座子和***序列)、噬菌体(包括噬菌体元件(例如Mu))和内含子(包括I组内含子和II组内含子)。

转座子(转座因子或TE)是DNA序列，其可改变其在基因组中的位置，有时产生或逆转突变并改变细胞的遗传特性和基因组大小。已表明转座子在基因组功能和进化中很重要。转座子对研究人员也有用，可作为一种改变生物体内DNA的方法。至少有两类TE：I类TE或逆转座子，通常通过逆转录起作用；II类TE或DNA转座子编码蛋白质转座酶(***和切除需要该酶)，一些TE也编码其他蛋白质。

细菌噬菌体(噬菌体)是在细菌内感染并复制的病毒。噬菌体由包裹DNA或RNA基因组的蛋白质组成，可能具有相对简单或复杂的结构。它们的基因组可能只编码四个基因，也可能编码多达数百个基因。将噬菌体基因组注入细菌细胞质后，噬菌体在细菌内复制。噬菌体是普遍存在的病毒，可在任何细菌存在的地方发现。据估计，地球上有超过10³¹种噬菌体。

质粒是小(通常为1-200kbp)的、圆形且高度可移动性的DNA元件，质粒可在缀合过程中或通过细胞外质粒自然转化为感受态细胞而在宿主细菌之间转移，这使得质粒成为细菌中HGT的重要介体。质粒编码的基因可赋予耐抗生素性、编码毒力因子或提供特定的代谢功能，这些功能使宿主细胞可在原本可能具有敌意的条件下存活。如果质粒具有广泛的可接受宿主物种，则可将该质粒编码的基因(例如，那些赋予耐抗生素性的基因)添加到大量物种的遗传库中。因此，关键是确定微生物组中质粒的宿主种类，因为该信息不仅反映了宿主的完整遗传目录，而且还可用于追踪耐抗生素性元件在细菌群落不同成员之间的传递。

MGE复制可独立于染色体复制，这意味着，例如质粒的测序覆盖度可能与其宿主的染色体重叠群的测序覆盖度明显不同。此外，经验证据支持这样的假说，即在宏基因组学背景下，单独的序列组成通常不能将质粒映射于其宿主。通过检查REBASE数据库中来自2278个质粒的WGS测序数据及其宿主物种的染色体，可观察到质粒序列组成图谱(即5-mer频数的载体)可能与宿主染色体的图谱显著不同(图3A)。尽管质粒组成图谱与其宿主染色体之间的大多数欧氏距离(d)在5至10之间，但许多距离大大超过了该距离，并落在通过计算质粒与随机采样染色体之间的序列距离而产生的经验分布中(参见实施例)。宿主和质粒之间高度不同的组成可能表明近期HGT事件，其中质粒从遥远的供体物种获得。但是，即使在宿主染色体和质粒序列组成之间存在中等差异的情况下，也没有明确的策略来确定哪种生物体可能是特定质粒的宿主。

由于难以分辨复杂的重复序列和可移动遗传元件，使用短读长技术组装完整的质粒序列被证明具有挑战性。虽然SMRT测序能够从临床分离物中产生高质量的封闭质粒组装体，但从宏基因组学样品产生完整质粒序列并将该质粒与其群落中宿主细菌的关联方面所做的工作很少。为此，本发明利用了细菌宿主的质粒DNA和染色体DNA均被同一组MTase甲基化的事实。结果是质粒的甲基化图谱与其宿主细菌的甲基化图谱相匹配。通过将大肠杆菌DH5α的5.5kbp质粒pHel3转化为大肠杆菌CFT073和幽门螺杆菌JP26，证明了此种现象。在每种情况下，均使用SMRT测序(下表9)显示pHel3的甲基化图谱继承了其新宿主品系的甲基化图谱(图3B)。

表9：幽门螺杆菌JP26、大肠杆菌DH5a和大肠杆菌CFT073染色体和质粒DNA样品的SMRT测序细节。

为评估使用甲基化图谱在群落中映射质粒的整体潜力，接下来调查了REBASE数据库中大量可公开获得的SMRT测序细菌，其由878个基因组和232个质粒的组装的序列和观察到的甲基化基序组成。由于将质粒成功映射至其宿主需要特定群落内足够丰富的甲基化基序，通过随机选择REBASE数据库中的条目来模拟不同大小的群落，并评估各个模拟群落中的甲基化多样性。随着群落中生物数量的增加，具有独特甲基化组的生物数量(以群落规模的一小部分表示)减少，但即使在由100个物种组成的群落中也仍然相当高(图3C)。如所预期的，当一个物种的多个品系被添加到一个群落中时，此种减少更为明显。当仅调查REBASE中具有至少一个已知质粒的生物时，观察到甲基化组唯一性的相似值(图3D)。

质粒的大小是基于甲基化的宿主映射的另一个考虑因素，因为较短的质粒不太可能具有全套甲基化基序的实体，这些实体可帮助决定性地证明与宿主基因组的匹配的甲基化图谱。从REBASE基因组中模拟了不同长度的序列，并评估了这些序列包含源基因组的全套甲基化基序的频数(图3E)。已发现，平均而言，35kbp序列中的90％将包含至少四分之三的6mA基序的实体，而60kbp序列中的90％将捕获所有6mA基序的实体。因此，映射到宿主基因组所需的丰富的甲基化图谱更可能发生在较大的质粒而不是较小的质粒。但是，如果质粒序列中包含的甲基化基序被特定微生物组样品中的宿主细菌唯一地甲基化，则部分完整的甲基化图谱(即缺少一个以上甲基化基序)可能足以将质粒明确地映射于其宿主。克雷伯氏肺炎杆菌的暴发(outbreak)品系中甲基化基序的其他分析强调了甲基化图谱分析如何帮助鉴别宏基因组学样品中携带13个耐抗生素性基因的362kb质粒的宿主(参见实施例2)。

基于从以上分析中得到的重要考虑，基于甲基化的质粒-宿主映射方法首先使用八个细菌物种的模拟群落来进行，其中真实的映射是已知的。通过HGAP3从模拟群落组装的SMRT重叠群中识别出六个闭合的循环序列(参见实施例)。如果占宿主基因组>75％的重叠群含有：(1)在质粒上发现的相同的甲基化基序(即从≥10个IPD值计算得出的甲基化得分≥1.6的基序)和(2)无另外的甲基化基序，则定义质粒对宿主的可靠映射。使用此种方法，利用甲基化图谱图在六个环状重叠群中的四个重叠群中(67％)找到了正确的宿主，包括该组中唯一已知的质粒，即多形拟杆菌(B.thetaiotaomicron)质粒p5482(GenBank登录号AY171301.1)。剩余的两个圆形重叠群没有被映射至错误的宿主，但是它们太短了(<10kbp)以至于不能包含足够的基序位点来进行决定性的映射，这与上述模拟分析得到的判断相符(图3E)。

接下来，将基于甲基化的质粒-宿主映射方法应用于成年小鼠肠道微生物组样品。鉴别出7-132kbp之间的19个重叠群，其中，11个被完全环化，9个是接合转座子元件(编码至少5个被注释为与接合转座子相关的基因)。这些可移动遗传元件(MGE)中的13个没有使用原始的复杂宏基因组读长进行组装，而是仅通过分离映射至各个甲基化箱中重叠群的读长而被找出并在单个基因组集合中将它们重新组装(参见实施例)。使用与上面定义的相同的基于甲基化的标准，将19个找到的MGE中的8个确信地映射至含有来自拟杆菌目基因组的不同甲基化箱(上表5)。这八个映射的MGE包括五种高度可能的质粒(包含复制起点的<50kb环状重叠群)和三种接合转座子。已知接合转座子在HGT和抗生素在拟杆菌目中的传播中起着重要作用，并且它们与人类肠道中多个拟杆菌目之间的序列共享有关。总言之，这些分析表明，DNA甲基化可作为一种新的鉴别特征以用于复杂微生物组样品中MGE-宿主(例如，质粒-宿主)映射。

利用组成和甲基化对单分子长读长进行分箱

宏基因组学样品中高度可变的生物丰度通常对从头组装工具提出重大挑战，特别是对于低丰度物种而言。因为可预期在组装的重叠群中不会出现某些群落成员，所以可通过将未组装的宏基因组测序读长分箱在组装的重叠群旁边，来获得更完整的群落表示。多种工具使用宏基因组短读长的无监督分箱，但短读长中序列含有的序列信息不足，限制了它们在非常低复杂性宏基因组样品之外的准确性和实用性。虽然第三代测序平台可产生更长长度的无扩增读长，但原始读长却因高单次(single-pass)错误率(对于SMRT测序通常为约13％)而混杂。尽管已显示更长的重叠群序列使用5-mer频数载体和t-SNE会得到更大的分离，但仍然存在一个基本问题，即这是否也适用于高错误率未比对SMRT读长。

为评估5-mer频数度量分箱未组装的SMRT读长和组装的重叠群的能力，首先分析了作为人类微生物组计划(HMP)的一部分创建的合成的微生物组(来自20个成员的模拟群落B的混合DNA)。最初的模拟群落包含各个成员的比例大致相等，这使其成为不切实际的混合体。因此，对读长进行下采样(参见实施例)以创建遵循log曲线的相对丰度的分布，其中最主要的物种即变形链球菌(Streptococcus mutans)(294×覆盖度)的丰度是最次要的物种即类球红细菌(Rhodobacter sphaeroides)(2×覆盖度)的丰度的147倍(图12；表10)。

表10：人类微生物组计划模拟群落B样品的SMRT测序细节，该样品进行选择性下采样，使得物种相对丰度遵循log曲线(参见图9和实施例)。

对所有HMP模拟群落序列(未组装的SMRT读长和组装的重叠群)的5-mer频数度量进行t-SNE。在生成的2D图中，只有重叠群首先使用Kraken进行可视化和注释，揭示出重叠群与存在大量已组装碱基的物种的清晰分离(图13)。为确保2D映射中的重叠群分离不因下采样群落的低丰度成员的不良组装结果而产生偏差，使用均匀丰度群落对这些结果进行了确认，找到一致的结果(图14)。接下来，评估了未组装的SMRT长读长的分箱质量。值得注意的是，5-mer频数分布可抵抗长读长中的随机误差。未组装读长的聚类具有高度的物种特异性。类球红细菌虽然在组装的重叠群的集合中呈现度不佳(图13)，但在未组装读长中显示为独特的聚类(图4A)，突出了在基于组成的分箱中包括未组装的读长的好处，从而显示宏基因组组装无法捕获的非常低丰度的物种的存在。与较短读长的聚类相比，较长读长中的附加序列信息可提供更稳定的5-mer频数分布和更紧密的聚类(图15和16)。此外，即使没有任何序列注释，二维直方图也提供了全球群落复杂性的概览(图4B)，从而有可能从特定类群中识别出一组新序列，并对其进行进一步研究。该分析突出显示了即使原始错误率很高，也可直接分箱单分子长读长的可行性，并有望对未组装的长读长和已组装的重叠群进行联合分箱，以更完整地表示低丰度物种的微生物组。

接下来，也使用单分子长读长的读长水平甲基化图谱，将来自第三代测序的单分子长读长进行分箱。这可帮助避免或分辨嵌合重叠群，当将混合物中的多个品系组装到由源自不同品系的读长构建的重叠群中时，嵌合重叠群就会发生。关于嵌合重叠群的重大挑战影响了基于覆盖度和基于k-mer的分箱方法，阻碍了品系特异性变体调用，并且，在单分子长读长测序的情况下，混淆了各个重叠群上品系特异性甲基化的鉴别。重要的是，由于MTase通常通过HGT跨物种和品系遗传，因此具有高度序列相似性的密切相关的品系通常编码靶向甲基化基序独特组合的不同MTase，并提供了使微生物组样品中共存的品系去卷积的新机会。建立了一种用于研究单个生物体表观遗传异质性的读长水平甲基化方法，并将其扩展到评估宏基因组学环境下的读长水平表观遗传异质性(参见实施例)。

为展示这如何改善多品系组装，由(1)两种幽门螺杆菌品系(表11)和(2)三种大肠杆菌品系(表12)构建两个合成的读长混合物。

表11：幽门螺杆菌品系J99和26695的合成混合物的SMRT测序细节。

表12：购自ATCC的三种大肠杆菌品系的SMRT测序细节。

尽管品系在各混合物中具有高度序列相似性(表13和14)，但是它们编码产生不同甲基化基序集的不同MTase。

表13：两种幽门螺杆菌品系(品系J99和26695)的平均核苷酸一致性(ANI)。

生物体	NCBI参考序列	幽门螺杆菌品系J99	幽门螺杆菌品系26695
				幽门螺杆菌品系J99	NC_000921	1
幽门螺杆菌品系26695	NC_000915	93.65％	1

表14：三种大肠杆菌品系的平均核苷酸一致性(ANI)。

第一混合物包含来自幽门螺杆菌品系J99和26695的读长，这些读长被一起组装成一个来自品系26695的小重叠群和另一个大的、高度嵌合的重叠群(图4C)。为减少组装中的嵌合现象，采用了类似于Cleary等所述的预组装分箱策略，但不是使用k-mer共丰度分箱读长，而是根据单分子长读长的甲基化分布将其分为两个分箱，然后组装各个箱。四种高密度基序(GATC，GAGG，TGCA，CATG)的小集合足以区分这两个幽门螺杆菌品系(表15)，并被选择用于生成各个单分子读长的甲基化图谱。

表15：两种幽门螺杆菌品系中的甲基化基序。虽然这两个品系之间共享一些基序，但许多基序是一个或另一个品系特有的(加粗显示)。

然后将主成分分析(PCA)用于降维步骤，以生成每种混合物的二维图，揭示了仅由读长的甲基化图谱组织的读长的双峰浓度(图4D)。使用t-SNE进行的降维也显示了两个品系特异性的聚类，但是所得聚类不遵循高斯分布，因此与PCA相比，它们的描绘不那么直接(图17)。由于特征数量少(即四个基序)，因此与t-SNE相比，PCA在此应用中提供了更清晰的高斯亚群分离；这也表明不同的降维方法可能在不同的应用中相互补充。最后，使用HGAP3将外成地分箱的读长进行分别组装，并使用与混合组装相同的参数，从而产生具有改善的连续性的单独组装的重叠群，包括两个品系的染色体规模重叠群，以及最小的嵌合现象(图4E)。

接下来将读长水平甲基化分箱程序应用于另一种数据集，该数据集由来自三种不同血清型(O26：H11、O103：H11和O111)的三种大肠杆菌品系的SMRT读长组成(参见实施例)。这些混合读长的组装产生了许多高度嵌合的重叠群和很少的特定于品系的重叠群(图4F)。区分这些品系的基序(AGCACY、CRARCAG、GGNTACC和CTGCAG)较长(表16)，在未比对的单分子长读长序列中，这些基序更容易被测序错误的随机性破坏，从而导致各个长基序的IPD值不正确。

表16：用于构建读长水平甲基化图谱的三种大肠杆菌品系中的甲基化基序。

解决这个问题需要另外的比对步骤，以在计算甲基化图谱图的得分之前对读长进行错误校正。具体地，将来自各个品系的读长与标准大肠杆菌K12 MG1655参考序列(RefSeq登录号NC_000913.3)进行比对，然后计算各个基序的读长水平甲基化得分。再次使用PCA可视化甲基化图谱，并基于可见的亚群将读长分箱(图4G)。最终，各个箱的读长的分别组装导致重叠群嵌合现象的显著降低和包含各大肠杆菌品系特异性序列的重叠群的增加(图4H)。

与使用合成长读长的宏基因组测序的比较

用于Illumina测序的文库制备方案的最新进展使得产生几千碱基长度的合成长读长成为可能。合成长读长的读长可接近SMRT测序产生的读长，但是技术之间的重要差异对其在宏基因组学中的特定应用有影响，因此需要进行详细的研究。如上所述，由于推测甲基化事件的能力是SMRT测序的独特优势，因此在此强调两种技术的其他方面及它们潜在的互补性。

合成长度的读长长度和高精度已使研究人员能够在宏基因组学样品中对亚品系水平的细菌单倍型进行阶段化。通过使合成长读长与从头宏基因组组装产生的重叠群比对，该研究揭示了同一品系中存在多种基因型。使用合成长读长进行亚型单倍型分析的先决条件是宏基因组组装，可作为读长比对的参考。Kuleshov等承认SMRT读长更有可能导致较大的草图组装，并且确实指出，从SMRT读长组装的重叠群比使用合成长读长组装的重叠群要大得多，即使后者由传统的短读长段补充。

考虑到多kb读长长度和合成长读长的高准确性，试图了解为什么它们导致比SMRT读长更多的片段和更不全面的组装。为此，将从20个成员的HMP模拟群落B(交错的丰度；HM-277D)测序的合成长读长和来自同一群落的SMRT读长均与它们的参考基因组进行比对。因为SMRT读长是从不同版本的HMP模拟群落B(甚至是丰度；HM-276D)进行测序的，所以对比对的读长进行了下采样，因此两种测序技术对每种生物的比对碱基总数大致相等(参见实施例；上表10)。

尽管对于每种技术考虑了大约相同数目的比对碱基，但SMRT读长在20个物种中的17个物种中覆盖了较高的基因组位置百分比，并且与其余三个物种中合成长读长所覆盖的基因组位置的百分比匹配(图5A；表17)。

表17：用于比较人类微生物组计划模拟群落B的合成长读长(SLR)和SMRT测序的参考比对的概要。出于比较的目的，进行比对的下采样以使SLR和SMRT读长的比对碱基总数大致相等(参见实施例)。

在一些情况下，基因组覆盖度比合成长读长显著增加：耐辐射球菌(D.radiodurans)、解齿放线菌(A.odontolyticus)、粪肠球菌(E.faecalis)和克雷伯氏肺炎杆菌(K.pneumoniae)的SMRT测序分别覆盖了其基因组的另外67.1％、69.2％、90.0％以及91.2％。观察到与合成的长读长相比，SMRT读长的基因组覆盖度显著增加，具有最高GC含量的基因组(类球红细菌(R.sphaeroides)，GC为68.8％；耐辐射球菌(D.radiodurans)，GC为66.6％；绿脓杆菌(P.aeruginosa)，GC为66.6％；解齿放线菌(A.odontolyticus)，GC为65.4％)也在其中(表17)。该观察结果与先前的研究一致，表明合成长读长测序所需的DNA片段的PCR扩增对基因组GC含量敏感，并可能导致显著的覆盖度偏差(即高度不均匀的序列覆盖度)。

然而，SMRT测序是无扩增方案并且不受GC偏倚的影响，从而导致跨基因组的更均匀的覆盖度图谱(图18)。无乳链球菌(S.agalactiae)、金黄色葡萄球菌(S.aureus)和绿脓杆菌(P.aeruginosa)的基因组中的三个小区域进一步说明了这一现象(图5B至图5D)，它们代表了模拟群落中的许多基因组(图19)。合成长读长覆盖度由峰和谷组成，分别代表扩增过度和扩增不足的DNA片段。一些谷导致完全的覆盖缺失(coveragedropout)，跨基因组组装成为不可能。另一方面，SMRT测序方案可实现更均匀的覆盖度分布和更少的覆盖缺失，使之更适合宏基因组组装，并更有可能得到染色体规模的重叠群。

由于方案中稀释和子组装步骤而导致的合成长读长中***错误的另外两个来源，使得组装高丰度物种和含有串联重复序列的区域更加困难。这些步骤对于合成长读长是唯一的且不适用于SMRT测序，这可能进一步有助于SMRT读长在生成大型宏基因组组装中的优越性。但是，合成长读长的优势在于它们能够调用(和定相)局部基因组特征，例如单核苷酸变异(SNV)或短***和缺失。总体而言，这表明了一种补充策略，可通过SMRT测序最大化组装质量，并利用合成长读长进行变体检出和单倍型分析。

在一些情况下，对于高复杂度样品中低丰度存在的生物体，仅重叠群的甲基化分箱可能是具有挑战性的，因为难以从通常由低丰度生物体组装而成的小重叠群中检测甲基化的基序。但是，这可通过基于交叉覆盖和组成的分箱工具(例如，CONCOCT)的分箱分配来补充，因为重叠群可根据第三方分箱分配分阶段进行，以帮助发现甲基化的基序，例如在小鼠肠道微生物组分析。从头甲基化基序检测在重叠群或箱水平上功能强大，但由于需要较长的读长长度(尤其是对于大而稀疏的基序)，因此在单次读长水平上具有挑战性。然而，如本研究所示，通过甲基化图谱进行的读长水平分箱可建立在感兴趣物种中甲基化基序的先验知识上，以使多种共存品系去卷积。第三代测序的读长长度的持续增加也增加了在不久的将来在单个读长水平上更可靠地从头检测甲基化基序的前景。

长***物大小的SMRT测序文库的选择可改善宏基因组组装中的连续性，但是大小选择程序可滤出短的MGE如质粒和噬菌体。文库规模的选择将取决于特定研究的目标。在资源允许的情况下，可合并长和短库的组合以实现良好的组装连续性和短MGE的良好覆盖度，尽管目前在从较短的读长中组装复杂的MGE方面存在挑战。整合来自滚环扩增文库的其他序列数据可能有助于突出显示从标准SMRT文库中排除或未在SMRT组装中完全环化的质粒。

尽管通过SMRT测序(和其他第三代测序技术)可以得到的长读长和甲基化图谱对于研究微生物群落具有广阔的前景，但与第二代测序技术相比，它们目前需要更多的输入DNA。但是，这一要求随着SMRT技术的成熟在近期有所下降，并且鉴于技术发展的积极发展和步伐，预期这一要求在未来会进一步降低。

实施例

以下实施例说明了本说明书的具体方面。实施例不应被解释为限制性的，因为实施例仅提供对实施方案及其各个方面的具体理解和实施。

使用来自几个合成的和真实的微生物组样品的宏基因组测序数据，对所提出的方法进行了全面的评估，并且证明了DNA甲基化是一种新颖且丰富的特征，其提供了显著的鉴别能力，能够补充用于高分辨率宏基因组分箱的现有方法。

代码获得。支持所有提出的方法的软件均以Python实现，可在github.com/fanglab/mbin上获得Python的完整文档。

实施例1：整合甲基化和组成以通过品系对重叠群进行分箱

表观遗传信息被用于分离由高度相似的品系组装的重叠群，这些重叠群使用基于k-mer频次的方法无法区分。检查了两组儿童肠道菌群，这些菌群从儿童的粪便样品中获得，这些样品根据发生T1D的高遗传风险而选择进行测序。

有趣的是，已观察到，在儿童的T1D发作之前，通常主导两个样品的组成的拟杆菌属的具体种(即多氏拟杆菌)的相对丰度常常升高，使其成为可在***理解和监测的重要物种。16S测序表明，两个样品均含有两个不同的多氏拟杆菌品系：样品A由63.7％的多氏拟杆菌品系105(CP007619)组成，而样品B由47.9％的多氏拟杆菌(B.dorei)品系439(CP008741)组成。尽管两个多氏拟杆菌品系之间具有高序列相似性(表18)，但各个品系均具有独特的甲基化序列基序集，因此具有独特的甲基化图谱。

表18：在婴儿肠道微生物组样品A(品系105)和B(品系439)中发现的多氏拟杆菌两个品系的平均核苷酸一致性(ANI)。

生物体	NCBI参考序列	多氏拟杆菌品系105	多氏拟杆菌品系439
				多氏拟杆菌品系105	CP007619	1
多氏拟杆菌品系439	CP008741	99.43％	1

从先前的研究中收集了两个微生物组样品的SMRT测序数据(表19)，并使用两个肠样品的组合进行了宏基因组从头组装，以在宏基因组重叠群的输出集中由两种多氏拟杆菌品系生成重叠群的混合物。在缺少这些重叠群的标记的情况下，序列注释工具Kraken应用于所有非多氏拟杆菌重叠群的标记，并使用基于比对的标记方法来区分两种多氏拟杆菌品系(参见实施例)。

表19：两个婴儿肠道微生物组样品的SMRT测序细节。

样品	#SMRT细胞	#测序的碱基	#读长	平均读长长度(bp)
					A	10	2600873639	434396	5987
B	13	2984063756	472788	6312
					A+B	23	5584937395	907184	6156

首先使用5-mer频数分布图进行基于组成的分箱，然后进行t-SNE降维(图20)。该图具有五个不同的重叠群，其中，四个主要由来自多个物种或品系的重叠群组成。这表明基于组成的分箱不足以分离多氏拟杆菌的两个品系，这是由于它们具有高度序列相似性。值得注意的是，基于组成的分箱方法也无法分离多形拟杆菌(Bacteroidesthetaiotaomicron)与脆弱拟杆菌(Bacteroides fragilis)，长双歧杆菌(Bifidobacterium longum)与短双歧杆菌(Bifidobacterium breve)，沙氏别样杆菌(Alistipes shahii)与细齿别样杆菌(Alistipes finegoldii)。

基序过滤在组装体中的至少一个重叠群上鉴别出七个具有显著甲基化得分的基序：GGATCA、GATCA、TTCGAA、GATC、CTCAT、GAATC和GGATC。仅使用甲基化图谱构建的结果t-SNE图(图21)将重叠群分离为四个聚类。与基于k-mer频次的图谱不同，由于其独特的甲基化图谱，多氏拟杆菌的两个品系在基于甲基化的分箱分析中均很好地分离。但是，仅进行基于甲基化的分箱并不能完全分离所有其他物种，原因是它们之间甲基化基序的多样性不足。这表明基于甲基化的分箱方法和基于组成的分箱方法均可相互补充，以弥补每种方法的缺点。通过将k-mer频次和甲基化图谱图组合在一起，将二者分别通过t-SNE降为2D，形成一个具有四个柱的单一矩阵，再次使用t-SNE降维矩阵并生成2D散点图(图22)。该方法成功地分离多氏拟杆菌的两种品系、脆弱拟杆菌与多形拟杆菌、短双歧杆菌与长双歧杆菌。由于高度序列相似性和可能的相同甲基化组，仅来自别样杆菌(Alistipes)属的两个种在组合图中仍然是缠绕的。再次使用轮廓系数评估重叠群聚类，发现虽然仅基于组成的分箱会产生0.03的轮廓系数，但与基于甲基化的分箱的集成会将系数提高到0.41，这表明重叠群甲基化图谱图有助于去卷积具有高度序列相似性的重叠群。

实施例2：致病性强的克雷伯氏肺炎杆菌(Klebsiella pneumoniae)品系的甲基化组分析

为评估临床相关细菌物种的菌株之间的甲基化组多样性，分析了BASET数据库中通过SMRT测序鉴别出甲基化基序的878个细菌品系。其中包括从2011年德国暴发期间的患者分离的强致病性且耐抗生素的克雷伯氏肺炎杆菌品系(234-12品系)。由该品系携带的单个362kb质粒(pKpn23412-362)包含13种耐抗生素的基因，包括负责赋予细菌扩展谱β-内酰胺酶(ESBL)表型的blaCTX-M-15(Kpn23412_5431)基因。质粒还包含多个复制子，其有助于扩大质粒可成功复制的生物的范围。

该质粒和克雷伯氏肺炎杆菌染色体的序列组成图谱在一定程度上不同(欧氏距离，d＝10.6)，这将禁止在宏基因组学样品中质粒对宿主的任何基于序列的映射。然而，包括GATC和CCAYNNNNNTCC(SEQ ID NO：1)在内的甲基化基序为将质粒与宿主表观遗传链接提供了机会。为证明这一点，检验了REBASE数据库中包含的其他9个物种的甲基化基序，所有这9个物种的染色体序列组成图谱均比真实宿主染色体更接近克雷伯氏肺炎杆菌质粒pKpn23412-362(d<10.6)。尽管一些组成图谱与质粒相对相似，但是甲基化图谱是不同的，使得可以将质粒pKpn23412-362与其克雷伯氏肺炎杆菌宿主相匹配(图23)。最后，检验了Rebase数据库中包含的所有25个克雷伯氏肺炎杆菌品系，发现质粒pKpn23412-362的序列与各个品系的染色体具有大致相同的欧氏距离(图24)。然而，这25个品系包括17个不同的甲基化图谱(即甲基化基序的不同组合)，其中，其中之一仅在品系234-12中发现。这意味着，如果在同一宏基因组学样品中存在多个克雷伯氏肺炎杆菌品系，DNA甲基化图谱图可能能够有助于直接从宏基因组学数据将质粒pKpn23412-362映射至其真正的宿主品系。此种表观遗传质粒-宿主映射方法突出了广泛的应用范围，在这些应用中，可利用表观遗传概况解决各种临床相关情况下的难题。

实施例3：来自八种物种混合物的细菌的培养条件和纯化

粪拟杆菌(Bacteroides caccae)ATCC 43185、卵形拟杆菌(Bacteroides ovatus)ATCC 8483、多形拟杆菌(Bacteroides thetaiotaomicron)VPI-5482、普通拟杆菌(Bacteroides vulgatus)ATCC 8492、产气柯林斯菌(Collinsella aerofaciens)ATCC25986、鲍氏梭菌(Clostridium bolteae)ATCC BAA-613和活泼瘤胃球菌(Ruminococcusgnavus)ATCC 29149分别在来自Coy Laboratory Products的厌氧室内的10ml补充脑心浸液中培养。大肠杆菌(Escherichia coli)MG1655在5ml LB肉汤中需氧培养。根据制造商的说明，构建了用于SMRT测序的10kb DNA文库。

实施例4：小鼠肠道微生物组DNA纯化和文库制备

将一只六周大的雄性NOD/shiltj小鼠(001976，Jackson Labs)安置在纽约大学兰根医疗中心(NYUMC)的无特定病原体(SPF)房间中。在生命的第12周时，将小鼠放入通风橱中的干净塑料容器中，并将其新鲜的粪便颗粒收集在灭菌的微量离心管中，并在-80℃下冷冻。使用PowerSoil DNA分离试剂箱(MoBio Labs，卡尔斯巴德，加利福尼亚)提取粪便DNA。根据制造商的说明进行了10kb的SMRT测序文库制备。如先前由Livanos等所述，扩增细菌16S rRNA基因V4区并构建文库。

实施例5：pHel3质粒转化为三个物种

按照制造商(Bio-Rad Lab.，Hercules，加利福尼亚)推荐的程序，使用MicroPulser将大肠杆菌-幽门螺杆菌穿梭质粒pHel3从大肠杆菌DH5α品系电穿孔到品系CFT073。如前所述，也通过自然转化将相同质粒从大肠杆菌品系DH5α引入幽门螺杆菌JP26品系中。使携带pHel3的大肠杆菌DH5α和携带pHel3的CFT073在具有卡那霉素(Km；50μg/ml)的Luria-Bertani(LB)培养基中于37℃生长24小时。携带pHel3的幽门螺杆菌JP26在微需氧条件下于37℃的布鲁切拉肉汤(BB)培养基中培养，该培养基添加了10％的新生牛血清(NBCS)和Km(10μg/ml)。通过离心收集大肠杆菌或幽门螺杆菌培养物的细菌细胞沉淀，使用Wizard Genomic DNA Purification Kit(Promega，Madison，WI)纯化每种培养物的基因组DNA，并使用QIAprep Spin Miniprep Kit(QIAgen，巴伦西亚，加利福尼亚州)纯化每种培养物的质粒DNA。根据制造商的说明，每种培养物的SMRT测序基因组和质粒DNA进行了2kb的文库制备。

实施例6：用于合成混合物的三种大肠杆菌品系

从ATCC购买了大肠杆菌的三种品系BAA-2196、BAA-2215和BAA-2440的基因组DNA，并根据制造商的说明书进行了用于SMRT测序的10kb DNA文库的构建。

实施例7：SMRT测序

将引物与全长文库一起退火至大小选择的SMRTbell(80℃持续2分钟30秒，然后以0.1℃将温度降低至25℃)。然后，在测序之前，将聚合酶-模板复合物以10：1(聚合酶与SMRTbell)的比例在0.5nM的P6酶上于30℃结合4小时，然后在4℃下保持直至进行磁珠负载。根据制造商的指南，磁珠负载步骤在4℃下进行60分钟。将磁珠负载的、聚合酶结合的SMRTbell文库以125pM至175pM的测序浓度放置在RSII机器上，并设置进行240分钟的连续测序。

实施例8：16s rRNA测序

如先前由Livanos等所述，使用Illumina MiSeq平台进行16S V4区域的测序。

实施例9：基于序列组成的聚类

本研究中所有k-mer频次度量均使用大小为5的k-mer。相互反向互补的五聚体对的计数相加，从而得到一组512个5-mer作为各个序列的组成特征(重叠群或单分子读长)。按照Alneberg等描述的程序，向各个5-mer计数中添加一个小的伪计数，以确保所有计数均非零，然后通过序列中5-mer的总数进行归一化，并对归一化的值进行log₂转换。

实施例10：基序甲基化得分

使用SMRT测序读长中提供的脉冲间持续时间(IPD)值，计算重叠群水平和读长水平的聚合酶动力学得分。通过将各个子读长IPD值与该子读长中所有IPD值的平均值的比率进行log转换，来完成子读长归一化，可校正整个读长(可由多个子读长组成)中聚合酶动力学的任何潜在减慢。子读长中的各个归一化IPD(nIPD)值的计算方式如下：

其中，子读长的长度为N个碱基，因此包含N个IPD值。为计算在读长j上观察到的基序i的读长水平甲基化得分(R°)，计算读长j的所有子读长的基序i所有位点的所有nIPD值的平均值

其中，读长中的各个S子读长均包含M_s个基序位点。较长的子读长通常包含给定基序的更多不同位点，并产生更可靠的甲基化得分。

甚至在不含甲基化碱基的情况下，聚合酶活性也存在动力学变化，并且与沿模板加工的聚合酶周围的局部核苷酸环境高度相关。为说明该基线变化并将其从最终甲基化得分中除去，从观察到的动力学分数

中减去相应的一组对照动力学分数

这些控制动力学得分是基序匹配的，并使用已知无任何甲基化的SMRT测序未比对读长(N＝20,000)进行采样，类似于

进行计算：

由于在对活泼瘤胃球菌(Ruminococcus gnavus)的分离物进行测序之后未检测到甲基化的基序，因此该数据用作用于计算

的值的非甲基化的对照集。这些非甲基化的对照值用于基序过滤过程，但不用于甲基化图谱的最终计算。因为使用t-SNE进行的降维计算了两个点之间的欧氏距离(即两个甲基化图谱图)，所以从两个甲基化图谱图减去常数(对照)载体对其成对距离没有影响。

以相似的方式计算重叠群j上的基序i的重叠群甲基化得分C_ij。区别在于，分数不仅考虑了单个读长的子读长，还考虑了与重叠群比对的所有子读长：

与重叠群比对的各个S*子读长均包含M_s基序位点。与读长水平的甲基化得分相似，使用已知不含甲基化的比对读长(N＝20,000)生成匹配的对照动力学得分

并从中减去观察到的动力学得分

以消除源自局部序列背景的基线动力学变化：

与读长水平的甲基化得分一样，非甲基化的对照值仅在基序过滤程序中使用，而不在最终重叠群水平的甲基化得分中使用。与读长水平甲基化评估非常相似，重叠群上基序得分的可靠性随重叠群上基序位点的数量的增加而增加。通常，尽管存在例外，短基序在基因组中的密度高于更长、更复杂的基序。因此，即使在组装体中最短的重叠群也能够为短基序返回可靠的甲基化得分，但通常仍需要较长的重叠群才能准确评估更复杂基序的甲基化状态。如果在读长或重叠群上没有基序的实体出现，则分配的默认甲基化得分为零。

mBin程序中的可选参数--cross_cov_bins接受一个文件，该文件包含箱的重叠群分配(格式为重叠群_名称，箱_编号)，这些分配是从基于重叠群和基于组成的分箱工具中识别的。如果指定了此参数，则根据分箱分配，将用于计算各个重叠群水平的甲基化得分的IPD值合计，并计算出分箱水平的甲基化得分。

实施例11：用于基于甲基化的聚类的基序过滤

初始的基序过滤步骤是必要的，以将基序的空间减小到仅在宏基因组学混合物中具有显著甲基化得分的基序。首先，由于内存方面的考虑，并且由于一个基序理论上可描述任意的碱基序列，因此在初始查询空间中定义了最大基序长度和基序的允许基序配置。考虑了所有可能的4-mer、5-mer和6-mer，共有7,680个连续基序。对于二分体基序，其中一串非特异性Ns被特定碱基集(例如，CCANNNNNNCAT(SEQ ID NO：2))固定(bookend)，考虑了原核生物中经常发现的几种常见构型。考虑以下所有组合：3个或4个特定碱基(开始)、5个或6个非特定Ns(中间)和3个或4个特定碱基(结束)。这将194,560个可能的二分基序添加到基序空间中以考虑进行初始过滤步骤，总共202,240个基序。可使用完全相同的方法进一步整合7-mer和8-mer基序。

接下来，通过从混合物中随机采样少量读长(N＝20,000)，并从进一步的分析中去除组装体中的至少一个重叠群上(或用于读长水平分箱的至少20个未比对的读长)上返回未高于所选阈值(1.7)的甲基化得分的所有基序，从而显著减少了基序查询空间。尽管选择宽大的阈值以包括真正修饰的基序的许多变体，但这通常会将要进一步分析中包含的基序数量减少多个数量级。进一步的步骤搜寻代表单个简并基序的多个规格，如果确定，则替换最终基序集中的各个规格。其余基序不必完全匹配甲基化基序的最大简约形式，但是它们仍将带有一些甲基化标志物，可用于通过后续的降维分析对序列进行分箱。换言之，只要保留的基序集捕获了甲基化图谱之间最显著的差异，过滤后仍保留的基序的精确数量通常并不至关重要。此属性与现有的甲基化基序发现方法(其试图识别基序的最大简约形式)相反。

实施例12：k-mer频次和甲基化得分矩阵的组合使用

用于分离组合的婴儿肠道微生物组样品A和B中的相似物种和品系的k-mer频数和甲基化得分的组合(图22)是通过将两个特征矩阵利用t-SNE降维为2D后对两个特征矩阵进行z得分(z-score)变换而完成的。然后将两个z得分的2D矩阵合并，并将所得的z得分的4D矩阵进行第二轮t-SNE，以得到最终的2D矩阵。

实施例13：基因组-基因组相似性

为评估两个参考基因组之间的序列相似性，使用位于万维网enve-omics.ce.gatech.edu/ani/的基于网络的门户来计算平均核苷酸一致性(ANI)。

实施例14：甲基化箱中重叠群的注释

从四项最近的研究中收集了从小鼠肠道分离的591个参考基因组的数据库。首先运行Blastn来鉴别哪个参考序列与使用甲基化图谱鉴定的九个箱中的重叠群具有显著匹配。显著命中(hit)被认为是长度>100bp的比对(alignment)且>97％的一致性。对于各个箱，根据被参照的显著命中所覆盖的分箱的总重叠群序列的百分比，来进行参照基因组的排序。然后，使用mummer软件将排名最高的匹配参考与各个箱中的重叠群进行比对，并使用mummer软件将比对可视化(图9)。

实施例15：拟杆菌目重叠群的独特区域的覆盖度分布图

在将来自100个公开可获得的小鼠肠道微生物组测序数据集的读长与九个甲基化箱中的每一个中的最大重叠群进行比对后，根据CONCOCT所采用的标准归一化程序对覆盖值进行归一化。为排除与其他重叠群的高度序列相似性可能导致模棱两可的映射和不可靠的覆盖值的区域，将各个重叠群划分为10kb的子序列，并排除使用nucmer显示任何比对的任何子序列。计算出唯一剩余子序列的平均覆盖度值，并将其用于构建所有100个样品的覆盖度分布图(图11)。

实施例16：大的重叠群的长度加权处理

本研究中使用的长读长经常导致细菌基因组由少量非常大的重叠群代表。t-SNE降维算法基于原始高维空间中的局部相似性将数据点放置在低维空间中。在高维空间中仅由几个点表示的大重叠群的物种对t-SNE算法的目标功能没有显著贡献。要针对不同重叠群大小的偏倚进行调整，使用长度超过50kbp的所有大型重叠群的长度加权表示，以使各个大型重叠群在特征矩阵中的排列方式不是一行，而是N行，其中，N是重叠群长度除以50kbp。各个50kbp亚重叠群的特征(列值)(k-mer频数或甲基化得分)与为原始大重叠群计算的值相同。

实施例17：重叠群甲基化分箱的能力分析

为评估甲基化得分区分在基序位点处甲基化的重叠群(实例)与在该基序处未甲基化的重叠群(对照)的能力，在八个细菌物种混合物的两个大型组装重叠群中的每一个上，从GATC位点采样了15,000个归一化IPD(nIPD)值。实例是代表大肠杆菌染色体的4.6Mb重叠群，而第二个0.7Mb重叠群(对照)代表活泼瘤胃球菌基因组的大的组装部分，根据SMRT测序数据，该部分不包含任何甲基化基序(参见表2)。然后将两组15,000个nIPD值用作池，从中分别为实例和对照采样2、4、6和8个值。对于四个指定的nIPD采样编号(2、4、6和8)中的每一个，使用nIPD值构建实例和对照重叠群上GATC的甲基化得分。重复此过程10,000次，以创建受试者操作特性(ROC)曲线(图2A)，显示nIPD值数量对创建可以区分甲基化的重叠群/基序与非甲基化的重叠群/基序的甲基化得分的影响。

实施例18：REBASE质粒和染色体的距离

当计算质粒与其宿主细菌的染色体之间的欧氏距离时，当细菌包含一个以上的染色体时，选择最大的染色体。通过遍历REBASE中的所有质粒，为每种质粒随机选择细菌，并计算质粒5-mer频数载体与所选细菌的最大染色体之间的距离，来构建质粒与随机选择的细菌之间的欧氏距离的经验分布。

实施例19：在模拟群落中对甲基化组唯一性进行REBASE调查

为存储在REBASE数据库中的878种SMRT测序细菌基因组的每一个收集甲基化基序，并构建了N种的模拟群落，其中，N＝20、40、60，…，200，并且通过从878种生物中随机选择，各个群落被创建1000次。对于各个模拟群落，分析了各构成生物的甲基化基序，并将在群落中具有唯一甲基化组的生物的数量返回、报告为群落中全部生物的分数。图3C中的多条曲线表示通过更改模拟群落的多品系内容而获得的不同结果。再次使用相同的方法分析REBASE中已知具有至少一个质粒序列的那155种生物。再次构建了N个物种的模拟群落，其中，N＝20、40、60，通过从155种生物中随机选择，各个群落被创建了1000次。图3D中的多条曲线表示通过更改模拟群落的多品系内容而获得的不同结果。

实施例20：模拟序列中甲基化基序含量的REBASE调查

对于REBASE数据库中的各个SMRT测序的基因组，模拟了500个长度为L的随机序列，其中，L＝5、10、15，…，100kb。给定各个基因组的已知甲基化基序，返回包含基序的序列数，报告为500个总模拟序列的分数。图3E中的多条曲线表示通过改变各个序列上必须存在的基因组甲基化基序的百分比而获得的不同结果。例如，75％曲线代表模拟序列的数量，该序列包含基因组总甲基化基序中至少四分之三的至少一个实体。

实施例21：在各个甲基化箱中重新组装序列

在各个甲基化箱中，利用经修改以反映各个箱中重叠群碱基总数的基因组尺寸(genomeSize)参数，使用HGAP3组装体，将比对到各个分箱的重叠群的读长重新组装。

实施例22：宏基因组组装体中的质粒鉴定

使用两种方法的组合来识别宏基因组组装体中的圆形重叠群：(1)自定义脚本在重叠群的开始和末端比对20kb序列以寻找循环化的证据，以及(2)免费提供的程序Circlator，用默认参数。然后使用Gepard手动检查被识别为环化的重叠群，以寻找环化(与错误组装的迹象相反)的视觉证据。

实施例23：接合转座子的鉴定

如果小的重叠群(＜200kb)包含至少五个编码接合转座子相关基因的基因，则将它们分箱为接合转座子。通过提交到RAST服务器来注释来自各个甲基化箱(#1-9)的重叠群。

实施例24：合成的宏基因组学群落

八个物种的合成混合物。SMRT读长分别从八个单独的细菌物种中获得(表1)，并且通过组合各个物种的一个SMRT测序细胞，以相似的相对丰度，产生合成的宏基因组学混合物，将这些读长混合而无任何标记。仅在完成所有分箱程序之后，才将读长的标签用于评估目的。

人类微生物组计划模拟群落B。从二十种不同的物种中提取等摩尔量的基因组DNA(表10)，然后使用Pacific Biosciences RSII仪器进行组合和测序。49个SMRT读长单元可在万维网上的GitHub链接上公开获得，网址为github.com/PacificBiosciences/DevNet/wiki/Human_Microbiome_Project_MockB_Shotgun。为模拟具有变化广泛的相对丰度的更实际的混合物，对原始测序读长进行下采样以施加遵循自然log衰减曲线的相对物种丰度(图12)。首先，对于二十种物种中每一种，通过将读长与参考组装体比对确定所有读长的物种同一性。在确定所有读长(不包括具有模糊比对的那些)的物种映射后，然后选择各个物种的读长以施加所需的相对丰度。比对和标记程序严格用于数据下采样，并且不属于读长水平分箱程序的一部分。

幽门螺杆菌的多品系混合物。作为先前研究的一部分，使用PacificBiosciencesRSII仪器分别对幽门螺杆菌的两个品系(品系26695和品系J99)进行测序。为了创建多品系混合物，将各个品系一个SMRT细胞的读长合并在一起。使用SMRT细胞标记对这些品系特异性的读长集进行下采样，然后合并到包含两种品系的混合物中，覆盖度均为150×(表11)。分箱过程未使用标签中的任何信息。

大肠杆菌的多品系混合物。使用Pacific Biosciences RSII仪器分别对三种大肠杆菌品系BAA-2196O26：H11，BAA-2215O103：H11和BAA-2440O111进行测序(参见标题为“用于合成混合物的三种大肠杆菌品系”的实施例部分)。合成的多品系混合物是通过组合来自各个单独测序操作的单个SMRT细胞(表12)创建的。分箱过程未使用标签中的任何信息。

实施例25：合成的长读长数据

微生物DNA HM-277D获自BEI Resources，并在Kuleshov等的先前的研究中使用Illumina TruSeq方案对其进行了测序。使用SRA登录号SRR2822454将这些测序结果下载到本研究中。

实施例26：SMRT和合成的长读长的比对

将合成长读长和SMRT读长与HMP Mock Community B中包含的基因组的20个参考序列进行比对。使用SMRT读长比对软件blasr的默认参数和“-bestn 1-sam”选项，对合成长读长进行比对。使用bwa-mem的默认参数，对合成长读长进行比对。

实施例27：SMRT和合成长读长序列比对下采样

分析了包含HMP模拟群落B中的20个物种的比对的合成长读长和SMRT读长的*.bam文件，以计算各个中比对的碱基的总数。对于各个参考，选择较少比对碱基数作为目标比对碱基数，并选择具有较大比对碱基数的文件进行下采样。通过将比对碱基的目标数除以原始碱基数来计算目标分数。以下samtools命令用于生成下采样的文件：

amtools view-s 1.[target_frac]-h-b original.bam>downsampled.bam

表17总结了该下采样的结果。

实施例28：婴儿肠道微生物组样品

从两个芬兰儿童的粪便样品中分离出DNA。样品A(包含多氏拟杆菌品系105)的供体年龄为13.5个月，而样品B(包含多氏拟杆菌品系439)的供体是从3.3个月大的儿童处获得的。Leonard等提供了有关样品分离和DNA提取的详细信息。表19中提供了SMRT测序统计信息的总结。

实施例29：用于降维的t-SNE嵌入

所有序列的特征(例如，k-mer频数、甲基化得分或组合)的高维矩阵均经过t分布随机邻域嵌入(t-SNE)的Barnes-Hut实现。t-SNE的Barnes-Hut逼近将计算复杂度从

降低至

使得生成包含数百个特征的成千上万个宏基因组序列的二维图变得可行。所有运行均使用perplexity(30)和theta(0.5)的默认参数。

实施例30：宏基因组组装体

本研究中的所有宏基因组组装均使用分层基因组组装过程(HGAP3)。除指定要组装的预期基因组大小的参数之外，均使用所有默认参数。预期的基因组大小参数用于确定长子读长的最佳数量，并根据预期的宏基因组复杂性进行了调整。具体来说，将八个细菌物种组装的合成混合物的基因组大小设置为40Mb，将20个成员的HMP组装设置为66Mb，将组合的婴儿肠道微生物组样品A和B组装设置为20Mb，将组合的和分离的H设置为1.6Mb。幽门螺杆菌品系组装，婴儿肠道微生物组样品A组装为20Mb。

实施例31：使用Kraken进行宏基因组注释

Kraken版本0.10.5-beta被配置为使用两个数据库。用于注释人类微生物组计划(HMP)模拟群落B的序列的数据库由模拟群落中包含的二十种已知物种的参考序列组成(表10)。所有其他Kraken注释均使用了一个数据库，该数据库由RefSeq完整的细菌/古细菌基因组集(使用“--下载-细菌文库”组成)和五种多氏拟杆菌品系的草图组装体组成。这些库和所有Kraken注释的数据库构造均使用默认参数。

实施例32：通过品系标记多氏拟杆菌重叠群

在显示样品A和B的组合组装体的婴儿肠道微生物组t-SNE图中(图20至图22)，使用Kraken注释了除标为多氏拟杆菌的那些重叠群之外的所有重叠群。然而，通过首先将来自合并样品的读长与各个多氏拟杆菌品系的完全组装的参照物比对(品系105：CP007619；品系439：CP008741)，来手动标记属于两个多氏拟杆菌(B.dorei)品系的重叠群。重叠群标签的分配是通过检查与多氏拟杆菌(B.dorei)参照物中的任一个比对的读长并计数与各个组装的重叠群重叠的这些读长中的多少来确定的。例如，如果大多数读长与对应于品系105参考的重叠群比对，则该重叠群被标记为属于品系105。但是，如果大多数读长与参照品系439比对，则重叠群被标记为属于品系439。

***

由于可在不脱离本发明的范围和精神的情况下对上述主题进行各种改变，因此旨在将以上描述中包含的或所附权利要求书中定义的所有主题解释为对本发明的描述和说明。根据上述教导，可以对本发明进行许多修改和变化。因此，本说明书旨在涵盖落入所附权利要求的范围内的所有此种替代、修改和变化。

本文中引用的所有专利、申请、出版物、测试方法、文献和其他材料在此通过引用全文并入本文，就如同其物理存在于本说明书中一样。

参考文献

1.Turnbaugh,P.J.et al.The Human Microbiome Project.Nature 449,804–810(2007).

2.Consortium,T.H.M.P.Structure,function and diversity of the healthyhuman microbiome.Nature 486,207–214(2012).

3.Cho,I.&Blaser,M.J.The human microbiome:at the interface of health anddisease.Nat.Rev.Genet.13,260–270(2012).

4.Vangay,P.,Ward,T.,Gerber,J.S.&Knights,D.Antibiotics,pediatricdysbiosis,and disease.Cell Host Microbe 17,553–564(2015).

5.Luo,C.et al.ConStrains identifies microbial strains in metagenomicdatasets.Nat.Biotechnol.33,1045–1052(2015).

6.Faith,J.J.,Colombel,J.-F.&Gordon,J.I.Identifying strains thatcontribute to complex diseases through the study of microbial inheritance.Proc.Natl.Acad.Sci.U.S.A.112,633–40(2015).

7.Langille,M.G.et al.Predictive functional profiling of microbialcommunities using 16S rRNA marker gene sequences.Nat.Biotechnol.31,814–821(2013).

8.Greenblum,S.,Carr,R.&Borenstein,E.Extensive strain-level copy-numbervariation across human gut microbiome species.Cell 160,583–594(2015).

9.Qin,J.et al.A human gut microbial gene catalogue established bymetagenomic sequencing.Nature 464,59–65(2010).

10.Li,J.et al.An integrated catalog of reference genes in the human gutmicrobiome.Nat Biotech 32,834–41(2014).

11.Venter,J.C.et al.Environmental genome shotgun sequencing of theSargasso Sea.Science 304,66–74(2004).

12.Tyson,G.W.et al.Community structure and metabolism throughreconstruction of microbial genomes from the environment.Nature 428,37–43(2004).

13.Modi,S.R.,Lee,H.H.,Spina,C.S.&Collins,J.J.Antibiotic treatment expandsthe resistance reservoir and ecological network of the phagemetagenome.Nature 499,219–22(2013).

14.Cleary,B.et al.Detection of low-abundance bacterial strains inmetagenomic datasets by eigengenome partitioning.Nat.Biotechnol.33,1053–1060(2015).

15.Kuleshov,V.et al.Synthetic long-read sequencing reveals intraspeciesdiversity in the human microbiome.Nat.Biotechnol.34,64–69(2015).

16.Meyer,F.,Paarmann,D.,D’Souza,M.&Etal.The metagenomics RAST server—apublic resource for the automatic phylo-genetic and functional analysis ofmetagenomes.BMC Bioinformatics 9,386(2008).

17.Brady,A.&Salzberg,S.L.Phymm and PhymmBL:metagenomic phylogeneticclassification with interpolated Markov models.Nat.Methods 6,673–6(2009).

18.Wood,D.E.&Salzberg,S.L.Kraken:ultrafast metagenomic sequenceclassification using exact alignments.Genome Biol.15,R46(2014).

19.Borozan,I.&Ferretti,V.CSSSCL:a python package that uses CombinedSequence Similarity Scores for accurate taxonomic CLassification of long andshort sequence reads.Bioinformatics 1–3(2015).doi:10.1093/bioinformatics/btv587

20.Sunagawa,S.et al.Metagenomic species profiling using universalphylogenetic marker genes.Nat.Methods 10,1196–1199(2013).

21.Bazinet,A.L.&Cummings,M.P.A comparative evaluation of sequenceclassification programs.BMC Bioinformatics 13,92(2012).

22.Segata,N.et al.Metagenomic microbial community profiling using uniqueclade-specific marker genes.Nat.Methods 9,811–4(2012).

23.Truong,D.T.et al.MetaPhlAn2 for enhanced metagenomic taxonomicprofiling.Nat.Methods 12,902–903(2015).

24.Chatterji,S.,Yamazaki,I.,Bai,Z.&Eisen,J.a.CompostBin:A DNAcomposition-based algorithmfor binning environmental shotgun reads.Lect.NotesComput.Sci.(including Subser.Lect.Notes Artif.Intell.Lect.NotesBioinformatics)4955 LNBI,17–28(2008).

25.Kislyuk,A.,Bhatnagar,S.,Dushoff,J.&Weitz,J.S.Unsupervised statisticalclustering of environmental shotgun sequences.BMC Bioinformatics 10,316(2009).

26.Scholz,M.et al.Strain-level microbial epidemiology and populationgenomics from shotgun metagenomics.Nat.Methods 13,(2016).

27.Saeed,I.,Tang,S.L.&Halgamuge,S.K.Unsupervised discovery of microbialpopulation structure within metagenomes using nucleotide basecomposition.Nucleic Acids Res.40,(2012).

28.Iverson,V.et al.Untangling genomes frommetagenomes:revealing anuncultured class of marine Euryarchaeota.Science 335,587–90(2012).

29.Laczny,C.,Pinel,N.,Vlassis,N.&Wilmes,P.Alignment-free Visualization ofMetagenomic Data by Nonlinear Dimension Reduction.Sci.Rep.1–12(2014).doi:10.1038/srep04516

30.Laczny,C.C.et al.VizBin-an application for reference-independentvisualization and human-augmented binning of metagenomic data.Microbiome 1–7(2015).doi:10.1186/s40168-014-0066-1

31.Gisbrecht,A.,Hammer,B.,Mokbel,B.&Sczyrba,A.Nonlinear dimensionalityreduction for cluster identification in metagenomic samples.Proc.Int.Conf.Inf.Vis.174–179(2013).doi:10.1109/IV.2013.22

32.Carr,R.,Shen-Orr,S.S.&Borenstein,E.Reconstructing the Genomic Contentof Microbiome Taxa through Shotgun Metagenomic Deconvolution.PLoSComput.Biol.9,(2013).

33.Sharon,I.et al.Time series community genomics analysis reveals rapidshifts in bacterial species,strains,and phage during infant gutcolonization.Genome Res.23,111–20(2013).

34.Albertsen,M.et al.Genome sequences of rare,uncultured bacteriaobtained by differential coverage binning of multiplemetagenomes.Nat.Biotechnol.31,533–8(2013).

35.Nielsen,H.B.et al.Identification and assembly of genomes and geneticelements in complex metagenomic samples without using referencegenomes.Nat.Biotechnol.32,(2014).

36.Alneberg,J.et al.Binning metagenomic contigs by coverage andcomposition.Nat.Methods 11,(2014).

37.Tsai,Y.-C.et al.Resolving the Complexity of Human Skin MetagenomesUsing Single-Molecule Sequencing.MBio 7,1–13(2016).

38.Marbouty,M.et al.Metagenomic chromosome conformation capture(meta3C)unveils the diversity of chromosome organization in microorganisms.Elife 3,e03318(2014).

39.Flot,J.F.,Marie-Nelly,H.&Koszul,R.Contact genomics:scaffolding andphasing (meta)genomes using chromosome 3D physical signatures.FEBS Lett.589,2966–2974(2015).

40.Burton,J.N.,Liachko,I.,Dunham,M.J.&Shendure,J.Species-LevelDeconvolution of Metagenome Assemblies with Hi-C-Based Contact ProbabilityMaps.G3(Bethesda).4,1339–1346(2014).

41.Beitel,C.W.et al.Strain-and plasmid-level deconvolution of a syntheticmetagenome by sequencing proximity ligation products.PeerJ 2,e415(2014).

42.Flusberg,B.a et al.Direct detection of DNA methylation during single-molecule,real-time sequencing.Nat.Methods 7,461–5(2010).

43.Eid,J.et al.Real-time DNA sequencing fromsingle polymerasemolecules.Science(80-.).323,133–138(2009).

44.Casadesús,J.&Low,D.Epigenetic gene regulation in the bacterialworld.Microbiol.Mol.Biol.Rev.70,830–56(2006).

45.Blow,M.J.et al.The Epigenomic Landscape of Prokaryotes.PLOS Genet.12,e1005854(2016).

46.Kobayashi,I.,Nobusato,a,Kobayashi-Takahashi,N.&Uchiyama,I.Shaping thegenome--restriction-modification systems as mobile geneticelements.Curr.Opin.Genet.Dev.9,649–656(1999).

47.Conlan,S.et al.Single-molecule sequencing to track plasmid diversityof hospital-associated carbapenemase-producing Enterobacteriaceae.Sci.Transl.Med.6,254ra126(2014).

48.Furuta,Y.et al.Methylome diversification through changes in DNAmethyltransferase sequence specificity.PLoS Genet.10,e1004272(2014).

49.Fang,G.et al.Genome-wide mapping of methylated adenine residues inpathogenic Escherichia coli using single-molecule real-timesequencing.Nat.Biotechnol.30,1232–9(2012).

50.Leonard,M.T.et al.The methylome of the gut microbiome:disparateDammethylation patterns in intestinal Bacteroides dorei.Front.Microbiol.5,361(2014).

51.Schadt,E.E.et al.Modeling kinetic rate variation in third generationDNA sequencing data to detect putative modifications to DNA bases.GenomeRes.23,129–41(2013).

52.Beaulaurier,J.et al.Single molecule-level detection and long read-based phasing of epigenetic variations in bacterial methylomes.Nat.Commun.6,7438(2015).

53.Chin,C.-S.et al.Nonhybrid,finished microbial genome assemblies fromlong-read SMRT sequencing data.Nat.Methods 10,563–9(2013).

54.van der Maaten,L.&Hinton,G.Visualizing Data using t-SNE.J.Mach.Learn.Res.9,2579–2605(2008).

55.Van Der Maaten,L.Accelerating t-sne using tree-basedalgorithms.J.Mach.Learn.Res.15,3221–3245(2014).

56.Rousseeuw,P.J.Silhouettes:A graphical aid to the interpretation andvalidation of cluster analysis.J.Comput.Appl.Math.20,53–65(1987).

57.Parks,D.H.,Imelfort,M.,Skennerton,C.T.,Hugenholtz,P.&Tyson,G.W.CheckM:assessing the quality of microbial genomes recovered fromisolates,singlecells,and metagenomes.Genome Res.25,1043–55(2015).

58.Xiao,L.et al.A catalog of the mouse gut metagenome.Nat.Biotechnol.33,1103–8(2015).

59.Ormerod,K.L.et al.Genomic characterization of the unculturedBacteroidales family S24-7 inhabiting the guts of homeothermicanimals.Microbiome 4,36(2016).

60.Uchimura,Y.et al.Complete Genome Sequences of 12 Species of StableDefined Moderately Diverse Mouse Microbiota 2.Genome Announc.4,4–5(2016).

61.Wannemuehler,M.J.,Overstreet,A.,Ward,D.V&Phillips,J.Draft GenomeSequences of the Altered Schaedler Flora,a Defined Bacterial Community fromGnotobiotic Mice.Genome Announc.2,1–2(2014).

62.Kim,M.,Oh,H.,Park,S.&Chun,J.Towards a taxonomic coherence betweenaverage nucleotide identity and 16S rRNA gene sequence similarity for speciesdemarcation of prokaryotes.Int J Syst Evol Microbiol 64,346–351(2014).

63.Imelfort,M.et al.GroopM:An automated tool for the recovery ofpopulation genomes fromrelated metagenomes.PeerJ 2,e409v1(2014).

64.Kang,D.D.,Froula,J.,Egan,R.&Wang,Z.MetaBAT,an efficient tool foraccurately reconstructing single genomes fromcomplex microbialcommunities.PeerJ 3,e1165(2015).

65.Slater,F.R.,Bailey,M.J.,Tett,A.J.&Turner,S.L.Progress towardsunderstanding the fate of plasmids in bacterial communities.FEMSMicrobiol.Ecol.66,3–13(2008).

66.Thomas,C.M.&Nielsen,K.M.Mechanisms of,and barriers to,horizontal genetransfer between bacteria.Nat.Rev.Microbiol.3,711–721(2005).

67.Roberts,R.J.,Vincze,T.,Posfai,J.&Macelis,D.REBASE-a database for DNArestriction and modification:Enzymes,genes and genomes.Nucleic Acids Res.43,D298–D299(2015).

68.Norberg,P.,

M.,Jethava,V.,Dubhashi,D.&Hermansson,M.The IncP-1plasmid backbone adapts to different host bacterial species and evolvesthrough homologous recombination.Nat.Commun.2,268(2011).

69.Heuermann,D.&Haas,R.A stable shuttle vector systemfor efficientgenetic complementation of Helicobacter pylori strains by transformation andconjugation.Mol.Gen.Genet.257,519–528(1998).

70.Coyne,M.J.et al.Evidence of Extensive DNA Transfer betweenBacteroidales Species within the Human Gut.MBio 5,e01305-14(2014).

71.Nagarajan,N.&Pop,M.Sequence assembly demystified.Nat.Rev.Genet.14,157–67(2013).

72.

J.&Mchardy,A.C.Taxonomic binning of metagenome samples generatedby next-generation sequencing technologies.Brief.Bioinform.13,646–655(2012).

73.Dutilh,B.E.et al.A highly abundant bacteriophage discovered in theunknown sequences of human faecal metagenomes.Nat.Commun.5,1–11(2014).

74.Krebes,J.et al.The complex methylome of the human gastric pathogenHelicobacter pylori.Nucleic Acids Res.1–18(2013).doi:10.1093/nar/gkt1201

75.Kuleshov,V.et al.Whole-genome haplotyping using long reads andstatistical methods.Nat.Biotechnol.32,(2014).

76.McCoy,R.C.et al.Illumina TruSeq synthetic long-reads empower de novoassembly and resolve complex,highly-repetitive transposable elements.PLoS One9,(2014).

77.Shin,S.C.et al.Advantages of Single-Molecule Real-Time Sequencing inHigh-GC Content Genomes.PLoS One 8,(2013).

78.Chaisson,M.J.P.et al.Resolving the complexity of the human genomeusing single-molecule sequencing.Nature 517,608–611(2015).

79.Wu,D.et al.A phylogeny-driven genomic encyclopaedia of Bacteria andArchaea.Nature 462,1056–1060(2009).

80.Luef,B.et al.Diverse uncultivated ultra-small bacterial cells ingroundwater.Nat.Commun.6,6372(2015).

81.Clarke,J.et al.Continuous base identification for single-moleculenanopore DNA sequencing.Nat.Nanotechnol.4,265–270(2009).

82.Manrao,E.a et al.Reading DNA at single-nucleotide resolution with amutant MspA nanopore and phi29 DNA polymerase.Nat.Biotechnol.30,349–53(2012).

83.Laszlo,A.H.et al.Detection and mapping of 5-methylcytosine and 5-hydroxymethylcytosine with nanopore MspA.Proc.Natl.Acad.Sci.U.S.A.110,18904–9(2013).

84.Lasken,R.S.&McLean,J.S.Recent advances in genomic DNA sequencing ofmicrobial species from single cells.Nat.Rev.Genet.15,577–84(2014).

85.Caporaso,J.G.et al.QIIME allows analysis of high-throughput communitysequencing data.Nat.Publ.Gr.7,335–336(2010).

86.Kukko,M.et al.Dynamics of diabetes-associated autoantibodies in youngchildren with human leukocyte antigen-conferred risk of type 1 diabetesrecruited fromthe general population.J.Clin.Endocrinol.Metab.90,2712–2717(2005).

87.Davis-Richardson,A.G.et al.Bacteroides dorei dominates gut microbiomeprior to autoimmunity in Finnish children at high risk for type 1diabetes.Front.Microbiol.5,1–11(2014).

88.Becker,L.et al.Complete genome sequence of a CTX-M-15-producingKlebsiella pneumoniae outbreak strain from multilocus sequence type514.Genome Announc.3,e00742-15(2015).

89.Villa,L.,García-Fernández,A.,Fortini,D.&Carattoli,A.Replicon sequencetyping of IncF plasmids carrying virulence and resistance determinants.J.Antimicrob.Chemother.65,2518–2529(2010).

90.Sokol,H.et al.Faecalibacterium prausnitzii is an anti-inflammatorycommensal bacterium identified by gut microbiota analysis of Crohn disease patients.Proc.Natl.Acad.Sci.U.S.A.105,16731–6(2008).

91.Livanos,A.E.et al.Antibiotic-mediated gut microbiome perturbationaccelerates development of type 1 diabetes in mice.Nat.Microbiol.1,16140(2016).

92.Zhang,X.S.&Blaser,M.J.Natural transformation of an engineeredhelicobacter pylori strain deficient in type II restrictionendonucleases.J.Bacteriol.194,3407–3416(2012).

93.Feng,Z.et al.Detecting DNA modifications from SMRT sequencing data bymodeling sequence context dependence of polymerase kinetic.PLoSComput.Biol.9,e1002935(2013).

94.Rodriguez-r,L.M.&Konstantinidis,K.T.The enveomics collection:a toolboxfor specialized analyses of microbial genomes and metagenomes microbialgenomes and metagenomes.PeerJ Prepr.(2016).

95.Kurtz,S.et al.Versatile and open software for comparing largegenomes.Genome Biol.5,R12(2004).

96.Hunt,M.et al.Circlator:automated circularization of genome assembliesusing long sequencing reads.Genome Biol.16,294(2015).

97.Krumsiek,J.,Arnold,R.&Rattei,T.Gepard:A rapid and sensitive tool forcreating dotplots on genome scale.Bioinformatics 23,1026–1028(2007).

98.Aziz,R.K.et al.The RAST Server:Rapid Annotations using SubsystemsTechnology.BMC Genomics 9,75(2008).

99.Chaisson,M.&Tesler,G.Mapping single molecule sequencing reads usingbasic local alignment with successive refinement(BLASR):application andtheory.BMC Bioinformatics(2012).

100.Li,H.&Durbin,R.Fast and accurate long-read alignment with Burrows-Wheeler transform.Bioinformatics 26,589–95(2010).

101.Li,H.et al.The Sequence Alignment/Map format andSAMtools.Bioinformatics 25,2078–9(2009).

Claims

1.一种使微生物组样品中的原核生物的基因组去卷积的方法，其中，所述方法包括以下步骤：

a)获得包含多种原核生物的微生物组样品；

i.对核酸的单分子读长进行测序；

ii.由核酸的单分子读长组装重叠群；以及

c)分配甲基化得分，所述得分反映了组装的重叠群和/或单分子读长上核酸的序列基序的甲基化程度；

d)应用基序过滤，鉴别具有甲基化得分的序列基序，所述甲基化得分指示组装的重叠群和/或单分子读长上的甲基化；

使微生物组样品中原核生物的基因组去卷积。

2.根据权利要求1所述的方法，其中，所述方法还包括以下步骤：在将组装的重叠群和/或单分子读长分离到箱中之前，将步骤(e)的甲基化图谱与微生物组样品中原核生物的核酸的其他序列特征相结合。

3.根据权利要求2所述的方法，其中，所述其他序列特征包括：跨多个样品的k-mer频数分布和覆盖度分布。

4.根据权利要求1至3中任一项所述的方法，其中，所述方法还包括以下步骤：将来自基于交叉覆盖和组成的分箱工具的重叠群分箱分配与各个箱中的甲基化得分相结合，检测各个箱中的甲基化基序和微生物组样品中的箱水平甲基化得分的分配。

5.根据权利要求1至4中任一项所述的方法，其中，所述方法还包括以下步骤：在分配甲基化得分的步骤之前，将单分子读长与由步骤b)的核酸的单分子读长组装而成的重叠群进行比对。

6.根据权利要求1至5中任一项所述的方法，其中，所述甲基化核苷酸选自：N⁶-甲基腺嘌呤、N⁴-甲基胞嘧啶和5-甲基胞嘧啶及它们的组合。

7.根据权利要求1至6中任一项所述的方法，其中，所述原核生物包括细菌生物、古细菌生物及它们的组合。

8.根据权利要求1至7中任一项所述的方法，其中，所述原核生物为细菌生物。

9.根据权利要求8所述的方法，其中，所述细菌生物为细菌物种。

10.根据权利要求8至9中任一项所述的方法，其中，所述细菌生物为细菌物种的菌株。

11.根据权利要求8至10中任一项所述的方法，其中，所述细菌生物包括拟杆菌目(Bacteroidales)、芽孢杆菌目(Bacillales)、双歧杆菌目(Bifidobacteriales)、伯克氏菌目(Burkholderiales)、梭菌目(Clostridiales)、噬纤维菌目(Cytophagales)、Eggerthallales、肠杆菌目(Enterobacterales)、丹毒丝菌目(Erysipelotrichales)、黄杆菌目(Flavobacteriales)、乳杆菌目(Lactobacillales)、根瘤菌目(Rhizobiales)或疣微菌目(Verrucomicrobiales)及它们的组合。

12.根据权利要求8至11中任一项所述的方法，其中，所述细菌生物为以下菌株：多氏拟杆菌(Bacteroides dorei)、脆弱拟杆菌(Bacteroides fragilis)、多形拟杆菌(Bacteroides thetaiotaomicron)、短双歧杆菌(Bifidobacterium breve)、长双歧杆菌(Bifidobacterium longum)、细齿别样杆菌(Alistipes finegoldii)或沙氏别样杆菌(Alistipes shahii)。

13.根据权利要求1至7中任一项所述的方法，其中，所述原核生物为古细菌生物。

14.根据权利要求11所述的方法，其中，所述古细菌生物为古细菌物种。

15.根据权利要求11至12中任一项所述的方法，其中，所述古细菌生物为古细菌物种的菌株。

16.根据权利要求1至15中任一项所述的方法，其中，所述微生物组样品获自：土壤、空气、水、沉积物、油及它们的组合。

17.根据权利要求1至16中任一项所述的方法，其中，所述微生物组样品获自水，所述水选自海水、淡水和雨水。

18.根据权利要求1至17中任一项所述的方法，其中，所述微生物组样品获自受试者，所述受试者选自原生动物、动物或植物。

19.根据权利要求18所述的方法，其中，所述受试者为哺乳动物。

20.根据权利要求18至19中任一项所述的方法，其中，所述受试者为人类。

21.根据权利要求18至20中任一项所述的方法，其中，所述受试者为婴儿。

22.根据权利要求18至21中任一项所述的方法，其中，所述受试者有患糖尿病的遗传风险。

23.根据权利要求22所述的方法，其中，所述糖尿病为I型糖尿病。

24.根据权利要求1至23中任一项所述的方法，其中，所述核酸甲基化图谱为DNA甲基化图谱。

25.根据权利要求1至24中任一项所述的方法，其中，步骤(b)包括使用单分子实时(SMRT)技术或纳米孔测序技术对原核生物的核酸进行测序。

26.根据权利要求1至25中任一项所述的方法，其中，所述微生物组样品中的两种以上原核生物具有高度序列相似性。

27.根据权利要求1至26中任一项所述的方法，其中，所述微生物组样品中的两种以上原核生物具有大于75％的平均核苷酸一致性。

28.根据权利要求1至26中任一项所述的方法，其中，所述微生物组样品中的两种以上原核生物具有大于85％的平均核苷酸一致性。

29.一种在包含多种原核生物的微生物组样品中将可移动遗传元件映射至原核宿主生物的方法，所述方法包括以下步骤：

a)获得包含多种原核生物的微生物组样品；

i.对核酸的单分子读长进行测序；以及

ii.由核酸的单分子读长组装重叠群；

c)分配甲基化得分，所述甲基化得分反映了组装的重叠群和/或单分子读长上核酸的序列基序的甲基化程度；

d)应用基序过滤，鉴别具有甲基化得分的基序，所述甲基化得分指示组装的重叠群和/或单分子读长上的甲基化；

将可移动遗传元件映射至原核宿主生物。

30.根据权利要求29所述的方法，其中，所述可移动遗传元件为质粒。

31.根据权利要求29所述的方法，其中，所述可移动遗传元件为转座子。

32.根据权利要求29所述的方法，其中，所述可移动遗传元件为噬菌体。

33.根据权利要求29至32中任一项所述的方法，其中，所述可移动遗传元件的长度大于10kbp。

34.根据权利要求29至33中任一项所述的方法，其中，所述可移动遗传元件赋予原核宿主生物耐抗生素性。

35.根据权利要求29至34中任一项所述的方法，其中，所述可移动遗传元件编码原核宿主生物中的毒力因子。

36.根据权利要求29至35中任一项所述的方法，其中，所述可移动遗传元件向所述原核宿主生物提供代谢功能。

37.根据权利要求29至36中任一项所述的方法，其中，所述核酸甲基化图谱为DNA甲基化图谱。

38.根据权利要求29至37中任一项所述的方法，其中，所述微生物组样品获自：土壤、空气、水、沉积物，油及它们的组合。

39.根据权利要求29至38中任一项所述的方法，其中，所述微生物组样品获自水，所述水选自：海水、淡水和雨水。

40.根据权利要求29至39中任一项所述的方法，其中，所述微生物组样品获自受试者，所述受试者选自：原生动物、动物或植物。

41.根据权利要求40所述的方法，其中，所述受试者为哺乳动物。

42.根据权利要求40至41中任一项所述的方法，其中，所述受试者为人类。

43.根据权利要求29至42中任一项所述的方法，其中，所述原核生物选自细菌生物、古细菌生物及它们的组合。

44.根据权利要求29至43中任一项所述的方法，其中，所述原核生物为细菌生物。

45.根据权利要求29至44中任一项所述的方法，其中，所述微生物组样品包含大于10种的原核宿主生物。

46.根据权利要求29至45中任一项所述的方法，其中，所述微生物组样品包含大于20种的原核宿主生物。

47.根据权利要求29至46中任一项所述的方法，其中，所述微生物组样品包含大于50种的原核宿主生物。

48.根据权利要求29至47中任一项所述的方法，其中，所述微生物组样品包含大于100种的原核宿主生物。

49.根据权利要求29至48中任一项所述的方法，其中，所述微生物组样品包含大于500种的原核宿主生物。

50.根据权利要求29至49中任一项所述的方法，其中，所述微生物组样品包含大于1000种的原核宿主生物。

51.根据权利要求29至50中任一项所述的方法，其中，步骤(b)包括使用单分子长读长实时(SMRT)技术或纳米孔测序技术对原核宿主生物和可移动遗传元件的核酸进行测序。

52.根据权利要求29至51中任一项所述的方法，其中，所述甲基化核苷酸选自：N⁶-甲基腺嘌呤、N⁴-甲基胞嘧啶和5-甲基胞嘧啶及它们的组合。

53.根据权利要求29至51中任一项所述的方法，所述方法还包括以下步骤：在分配甲基化得分的步骤之前，将单分子读长与由步骤b)的核酸的单分子读长组装而成的重叠群进行比对。