CN116564413A

CN116564413A - 一种用于检测不同固碳途径微生物种类和丰度的方法

Info

Publication number: CN116564413A
Application number: CN202310500015.3A
Authority: CN
Inventors: 张晓华; 陈星�; 薛春旭; 刘吉文
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-08

Abstract

本发明提供一种用于检测不同固碳途径微生物种类和丰度的方法，即一种精确分析海水环境中非培养自养微生物类群及其CO₂固定通路的方法。本发明的方法克服了自养微生物传统培养和单基因途径构建文库方法的缺点，基于宏基因组测序技术能更加全面的获得自养微生物的类群。避免常规宏基因组相对复杂繁琐的分析流程，Diting软件能更简单高效地分析和评估固碳途径在海洋不同区域和不同深度下的分布和重要程度。能够获得高质量的微生物基因组MAGs能够更精确地提供固碳标志基因群在自养微生物类群中存在的证据，还能发掘出新颖的固碳微生物类群。

Description

一种用于检测不同固碳途径微生物种类和丰度的方法

技术领域

本发明属于海洋微生物检测技术领域，具体涉及一种用于检测不同固碳途径微生物种类和丰度的方法。

背景技术

海洋是地球上最大的碳库，海洋微生物虽个体小，但种类繁多，生物量更是巨大，在全球碳循环过程中有着重要的地位。单是海洋中光合自养微生物每天固定CO₂产生的有机碳量就可与陆地上所有植物固定的有机碳量相当。目前，在陆地各类生态***中参与固碳的微生物被广泛研究，但海洋中固定CO₂的自养微生物类群及其通路检测还需要进一步深入探索。

迄今为止，已经确定了以下六种微生物自养碳固定通路：卡尔文(CBB)循环、还原性三羧酸(rTCA)循环、Wood-Ljungdahl(W-L)途径、3-羟基丙酸/4-羟基丁酸(3HP-4HB)循环、3-羟基丙酸循环(3HP)和二羧酸/4-羟基丁酸(DC-4-HB)循环途径。现有技术中多基于传统纯培养或单细胞测序技术，以及高通量测序的方式获得自养微生物类群的信息。但是现有方法基于纯培养方法获取的自养微生物种类很有限，往往会忽略掉很多不可培养和难以分离的自养微生物类群，导致无法获得更全面和真实的自养微生物群落组成；基于单细胞测序技术不易独立获取多个自养微生物基因组信息，且成本高；常规宏基因组测序虽然可以获取混合样本中所有微生物信息，但无法组装出长且连续的基因组片段来获得高质量的自养微生物基因组信息。

发明内容

本发明的目的是提供一种用于检测不同固碳途径微生物种类和丰度的方法，即一种精确分析海水环境中非培养自养微生物类群及其CO₂固定通路的方法。

本发明首先提供用于检测微生物自养碳固定通路的标志基因群，所述的标志基因群，其中包含有：

用于检测卡尔文循环固碳通路微生物的标志基因群，其包含有磷酸核糖酮磷酸激酶(phosphoribulokinase,prkB)、核糖-1,5-二磷酸羧化酶大亚基(ribulose-bisphosphate carboxylase large chain,rbcL)和核糖-1,5-二磷酸羧化酶小亚基(ribulose-bisphosphate carboxylase small chain,rbcS)；

用于检测还原性三羧酸循环固碳通路微生物的标志基因群，其包含有ATP-柠檬酸裂解酶α亚基(ATP-citrate lyase alpha-subunit,aclA)和ATP-柠檬酸裂解酶β亚基(ATP-citrate lyase beta-subunit,aclB)；

用于检测Wood-Ljungdahl途径固碳通路微生物的标志基因群，其包含有一氧化碳脱氢酶催化亚基(carbon-monoxide dehydrogenase catalytic subunit,acsA)和乙酰辅酶A合酶(acetyl-CoA synthase,acsB)；

用于检测3-羟基丙酸/4-羟基丁酸循环固碳通路微生物的标志基因群，其包含有3-羟酰辅酶A脱氢酶(3-hydroxyacyl-CoA dehydrogenase)、4-羟丁酰辅酶A脱水酶(4-hydroxybutyryl-CoA dehydratase)和3-羟基丙酸脱氢酶(3-hydroxypropionatedehydrogenase)；

用于检测3-羟基丙酸循环固碳通路微生物的标志基因群，其包含有丙二酰辅酶A还原酶(malonyl-CoA reductase)、(S)-柠檬酰-辅酶A裂解酶((S)-citramalyl-CoAlyase)、3-甲基富马酸辅酶A水合酶(3-methylfumaryl-CoA hydratase)和2-甲基富马酸辅酶A异构酶(2-methylfumaryl-CoA isomerase)；

用于检测二羧酸/4-羟基丁酸循环途径固碳通路微生物的标志基因群，其包含有3-hydroxyacyl-CoA dehydrogenase和4-hydroxybutyryl-CoA dehydratase；

本发明所提供的标志基因群用于检测不同固碳途径微生物的类别和丰度；

其一种方法，包括如下的步骤：

1)收集待检测海水样品的环境DNA样品后，进行宏基因组测序，得到原始宏基因组数据集；

2)在Linux操作平台上，首先利用metaWRAP程序对个样本宏基因组原始reads数据进行修剪，过滤和质控得到clean reads的宏基因组数据；再使用DiTing软件来对输入的clean reads的宏基因组数据进行分析和KEGG数据库功能注释，获得标志基因群中对应基因在样品宏基因组中的丰度信息。

具体操作步骤如下：使用DiTing软件中的Megahit程序对得到的clean reads的宏基因组数据进行组装成contig；使用Prodigal程序从contig中预测基因得到开放阅读框ORF；使用BWA-MEM程序去预测基因；同时使用hmmsearch程序将预测基因翻译的蛋白序列与KOfam数据库进行比对，KofamKOALA程序将为蛋白序列分配比对到KO编号；进而得到每条蛋白序列对应的KO编号在每个样品中的丰度信息，最后根据公式标准化计算各固碳通路在样品中的丰度信息：

其中A_i是各固碳通路的相对丰度，a_{m_n}是固碳通路中每一步中的基因相对丰度，m是完成固碳通路的步骤，n是同一步骤中的基因数量。

3)为了在基因组水平上进一步提高本发明方法检测的准确性，首先使用MetaBAT，MaxBin和MetaWRAP程序从上述步骤得到的组装contigs出发获得高质量微生物宏基因组装基因组(metagenome-assembled genomes,MAGs)，从MAGs中搜索并确定标志基因群的存在，得到精细的标志基因群中对应基因在宏基因组装基因组的丰度信息。

4)更进一步的，本发明的方法为了确定微生物基因组MAGs是否具有自养的、近乎完整的固碳通路，使用KEGG-Decoder程序评估特定固碳途径在MAGs中的百分比完整程度，定义含有标志基因群且通路完成度大于70％即说明该微生物具有近乎完整的某一固碳通路。

本发明方法与现有技术相比，具有以下优点：

1.克服了自养微生物传统培养和单基因途径构建文库方法的缺点，基于宏基因组测序技术能更加全面的获得自养微生物的类群。

2.避免常规宏基因组相对复杂繁琐的分析流程，Diting软件能更简单高效地分析和评估六大固碳途径在海洋不同区域和不同深度下的分布和重要程度。

3.获得高质量的微生物基因组MAGs能够更精确地提供固碳标志基因群在自养微生物类群中存在的证据，还能发掘出新颖的固碳微生物类群。

4.能进一步判断自养微生物基因组MAGs，并评估具体固碳通路的完整性情况。

5.此外，基于KEGG功能数据库，本方法还能额外提供与固碳途径联系的氮、硫相关的氧化还原反应信息，例如硫氧化反应、硝化反应和硫酸盐还原反应、反硝化反应是分别作为电子供体和受体耦合固碳通路进行供能合成有机物。

附图说明

图1是本发明一种用于精确分析非培养自养微生物CO₂固定通路的方法的流程图。

图2是海洋蓝洞中六大固碳通路在不同深度水层中的分布特征热图。图的左侧是在0-170m深度，固碳通路在每个样本中的丰度信息，图的右侧是在宏基因组水平上，含有潜在固碳通路的，且丰度排前四的微生物类群。

图3是海洋蓝洞中重建的MAGs中标志基因群的有无以及通过GTDB数据库注释到的精细物种分类。

图4是海洋蓝洞中自养微生物基因组的固碳通路完整性验证热图。图的上方是自养微生物基因组MAGs的编号，图的下方是基因组物种分类信息，图的右侧是基因组中具有的固碳通路的完整性情况，以及耦合的常见氧化还原反应的完整性情况。

具体实施方式

本发明通过选定代表性的固碳标志基因群，重建海洋中自养微生物类群的高质量宏基因组装基因组(metagenome-assembled genomes,MAGs)MAGs，结合基因组中固碳通路的完整性分析，能够精准的检测海洋中自养微生物的类群和相关的CO₂固定通路。

本发明基于海洋宏基因组数据集和独特分析方法高效精确地分析自养微生物CO₂固定通路。为方便于本领域的技术研究人员理解本发明，下面结合附图对本发明的方法进行详细的描述。

实施例1：确定用于检测微生物自养碳固定通路的标志基因群

基于KEGG功能数据库，汇总微生物六大固碳通路中的代表性标志基因群及对应的蛋白KO编号。

每条微生物固碳通路中的一系列功能基因能够协同合作完成CO₂固定过程。然而，某些编码关键酶或限速酶的独特功能基因往往仅存于特定的固碳通路中，本发明把这些必不可少且具有代表性的功能基因定义为标志基因群。因此，在研究微生物碳固定通路前，需要准确地发掘出能够代表特定固碳通路的标志基因群来指示潜在通路存在的可能性。后续利用BLASTp程序在宏基因组数据集及MAGs序列中搜索固碳标志基因序列，并通过分别检查标志基因中存在的保守序列来证实固碳通路在各样品中的存在和丰度变化，以及对应的具体微生物类群。

最后整合了六大固碳途径中代表性的标志基因群和在KEGG数据库中对应的蛋白KO编号(表1)。

表1：微生物固碳通路的标志基因群基因及对应的蛋白KO号表

实施例2：构建检测不同固碳途径微生物种类和丰度的方法

下面以海洋蓝洞的具体实例来简单高效地实现微生物固碳通路的研究。

步骤1：海水样品的采集和环境DNA的提取

在不同水深用Niskin瓶采集海水样品，并使用聚碳酸酯滤膜过滤，收集环境微生物滤膜样本。滤膜样本首先在液氮中进行研磨。再使用苯酚-氯仿方法提取DNA：使用15ml提取缓冲液(100mM Tris-HCl[pH8.0],100mM EDTA钠[pH8.0],100mM磷酸钠[pH8.0],1.5MNaCl，1％ CTAB)，然后以5000×g离心20分钟。依次加入蛋白酶K和SDS，然后用苯酚-氯仿萃取。用异丙醇沉淀DNA，之后用70％乙醇洗涤，静置干燥并溶解在TE缓冲液中。分别用Qubit荧光计和琼脂糖凝胶电泳分析基因组DNA的浓度和完整性。提取的核酸送往华大基因(BGI,Wuhan,China)进行宏基因组测序，得到原始宏基因组数据集。

步骤2：在宏基因组数据集中获取固碳通路在样本中的分布和丰度信息

在Linux操作平台上，首先利用metaWRAP程序对每个样本宏基因组原始reads数据进行修剪，过滤和质控得到clean reads的宏基因组数据；再使用DiTing软件来对输入的clean reads的宏基因组数据进行分析和KEGG数据库功能注释，具体操作如下：在Linux平台上下载安装Diting软件，输入运行代码“diting.py-rClean-reads-o Clean-reads.diting.out”，程序将自动使用Megahit程序对得到的clean reads进行组装成contig；使用Prodigal程序从contig中得到开放阅读框ORF基因；使用BWA-MEM程序将输入的clean reads映射到ORF中，并计算ORF基因在样品中的相对丰度；同时使用hmmsearch程序将ORF基因转录的蛋白序列与KOfam数据库进行比对，KofamKOALA程序将为每条蛋白序列分配比对到KO编号；进而得到每条蛋白序列(每个KO号对应一个功能基因)在每个样品中的丰度信息(表2)。

表2：Diting软件输出的ko号在不同深度水层的丰度分布信息

最后搜索微生物六大固碳通路的标志基因群，根据建立的公式标准化，最终能够定义出每条固碳通路在各海水样品中的相对丰度特征(图2)。例如， A_W-L＝a_K00198+a_K14138；A_3HP/4HB＝a_K15016+a_K14534+a_K15039；A_DC/4HB＝a_K15016+a_K14534；/>

在图2的海洋蓝洞样品中，挑选了六大固碳通路在不同深度的分布和丰度特征，以及包含这些固碳通路的潜在微生物种群，发现在蓝洞表层微生物主要CBB循环途径为主，而在深层则主要以Wood-Ljungdahl途径为主，3HP途径则由于缺乏丙二酰辅酶A还原酶标志基因(K14468)而可能不存在(表2和图2)。

步骤3：Binning分箱进一步获取微生物基因组(MAGs)，从基因组水平检测标志基因群

上述常规宏基因组测序注释到的物种信息只提供了零散的基因片段，注释到的物种信息受到序列库的限制。

然而宏基因组装分箱技术可以获得更长的连续序列，识别出未被培养或已知程度较低的微生物，从而提供更完整和准确的基因组信息。获得的MAGs可以被用来研究更精细的微生物群落代谢潜力、生态功能。

首先使用MetaBAT，MaxBin和MetaWRAP程序对上述步骤得到的组装contigs进行分析、合并和改进，回收得到MAGs；

为了进一步提高MAGs的质量，将宏基因组reads重新映射到每个MAG上，用SPAdes程序进行重新组装；再使用CheckM程序检查MAGs的质量；

然后使用GTDB-Tk程序，根据GTDB物种数据库对每个基因组MAGs进行物种分类预测，得到每个MAGs的精细微生物分类；基因组MAGs注释用Prokka程序进行；

最后使用BlastKOALA程序，并基于KEGG功能数据库预测MAG中的固碳通路。经过上述分析重建得到海洋蓝洞中的64个高质量MAGs(completeness>75％,contamination<5％),以及在基因组上包含不同固碳通路的标志基因群分布信息(图3)。

对比步骤2中通过从环境中标志基因小片段注释到的物种，发现其中有些物种在基因组水平上其实是缺乏相关的标志基因的，例如，3HP通路的标志基因(K14468和K14470)在Desulfobacterales和Acidimicrobiales基因组上其实并不存在，后续事实也证明这两类微生物具有的是几乎完整W-L通路(图2、图3和图4)。

步骤4：KEGG-Decoder程序进一步评估微生物基因组固碳通路的完整度，并筛选出真正的自养MAGs。

仅仅基于单个固碳标志基因的通路识别可能是不准确的，不完整的。为了进一步验证微生物基因组MAGs是否具有自养的，近乎完整的固碳通路，使用KEGG-Decoder程序评估特定固碳途径在含有标志基因群的MAGs中的百分比完整程度，通路完成度大于70％即说明该微生物具有近乎完整的某一固碳通路。从基因组MAGs的蛋白质fasta文件(INPUT_PROTEIN.fasta)开始，根据KEGG数据库中KEGG-Koala输出(包括blastKOALA，ghostKOALA，KOFAMSCAN)的KO分配文本文件(KOALA_OUTPUT.txt)作为输入文件，再在Linux平台上运行代码“KEGG-decoder--input(-i)<KOALA_OUTPUT.txt>--output(-o)<FUNCTION_OUT.list>--vizoption(-v)<static/interactive/tanglegram>”，最后输出多个交互式热图。因此，图4海洋蓝洞实例中展示了自养微生物基因组上具有的近乎完整固碳通路，以及与CO₂固定相耦合的一系列其他完整氧化还原途径。从中可以发现CBB循环和W-L途径在自养基因组中的通路完成度最高，并主要耦合硫氧化和硫酸盐还原途径进行供能固碳，例如，脱硫杆菌利用近乎完整的W-L通路、完整的羟胺氧化和硫酸盐还原反应进行能量代谢；变形菌则利用完整的CBB循环、硫氧化和硫酸盐还原反应合成有机碳。

因此，本发明的方法通过选定代表性的固碳标志基因群，重建海洋中自养微生物类群的高质量MAGs，结合基因组中固碳通路的完整性分析，能够精准的检测海洋中自养微生物的类群和相关的CO₂固定通路。

Claims

1.一种用于检测微生物自养碳固定通路的标志基因群，其特征在于，所述的标志基因群中包含有：

用于检测卡尔文循环固碳通路微生物的标志基因群，其包含有磷酸核糖酮磷酸激酶、核糖-1,5-二磷酸羧化酶大亚基和核糖-1,5-二磷酸羧化酶小亚基；

用于检测还原性三羧酸循环固碳通路微生物的标志基因群，其包含有ATP-柠檬酸裂解酶α亚基和ATP-柠檬酸裂解酶β亚基；

用于检测Wood-Ljungdahl途径固碳通路微生物的标志基因群，其包含有一氧化碳脱氢酶催化亚基和乙酰辅酶A合酶；

用于检测3-羟基丙酸/4-羟基丁酸循环固碳通路微生物的标志基因群，其包含有3-羟酰辅酶A脱氢酶、4-羟丁酰辅酶A脱水酶和3-羟基丙酸脱氢酶；

用于检测3-羟基丙酸循环固碳通路微生物的标志基因群，其包含有丙二酰辅酶A还原酶、(S)-柠檬酰-辅酶A裂解酶、3-甲基富马酸辅酶A水合酶和2-甲基富马酸辅酶A异构酶；

用于检测二羧酸/4-羟基丁酸循环途径固碳通路微生物的标志基因群，其包含有3-hydroxyacyl-CoA dehydrogenase和4-hydroxybutyryl-CoA dehydratase。

2.权利要求1所述的标志基因群在检测不同固碳途径微生物的类别和丰度中的应用。

3.一种检测不同固碳途径微生物的类别和丰度的方法，其特征在于，所述方法是检测权利要求1所述的标志基因群中的对应基因在样品中的类别和丰度。

4.如权利要求3所述的方法，其特征在于，所述的方法包括如下的步骤：

步骤1：收集待检测海水样品的环境DNA样品后，进行宏基因组测序，得到原始宏基因组数据集；

步骤2：在Linux操作平台上，首先利用metaWRAP程序对个样本宏基因组原始reads数据进行修剪，过滤和质控得到clean reads的宏基因组数据；再使用DiTing软件来对输入的clean reads的宏基因组数据进行分析和KEGG数据库功能注释，获得标志基因群中对应基因在样品宏基因组中的丰度信息。

5.如权利要求4所述的方法，其特征在于，所述的方法，其中步骤2中，是使用DiTing软件中的Megahit程序对得到的clean reads的宏基因组数据进行组装成contig；使用Prodigal程序从contig中预测基因得到开放阅读框ORF；使用BWA-MEM程序去预测基因；同时使用hmmsearch程序将预测基因翻译的蛋白序列与KOfam数据库进行比对，KofamKOALA程序将为蛋白序列分配比对到KO编号；进而得到每条蛋白序列对应的KO编号在每个样品中的丰度信息，最后根据公式标准化计算各固碳通路在样品中的丰度信息。

6.如权利要求5所述的方法，其特征在于，所述的公式如下：

其中A_i是各固碳通路的相对丰度，a_mn是固碳通路中每一步中的基因相对丰

度，m是完成固碳通路的步骤，n是同一步骤中的基因数量。

7.如权利要求4所述的方法，其特征在于，所述的方法使用MetaBAT，MaxBin和MetaWRAP程序从组装的contigs出发获得微生物宏基因组装基因组MAGs，从MAGs中搜索并确定权利要求1所述的标志基因群的基因，得到标志基因群中对应基因在宏基因组装基因组的丰度信息。

8.如权利要求4所述的方法，其特征在于，所述的方法使用KEGG-Decoder程序评估固碳途径在MAGs中的百分比完整程度。

9.如权利要求8所述的方法，其特征在于，含有标志基因群且通路完成度大于70％为具有近乎完整的某一固碳通路。