CN116564413A - 一种用于检测不同固碳途径微生物种类和丰度的方法 - Google Patents
一种用于检测不同固碳途径微生物种类和丰度的方法 Download PDFInfo
- Publication number
- CN116564413A CN116564413A CN202310500015.3A CN202310500015A CN116564413A CN 116564413 A CN116564413 A CN 116564413A CN 202310500015 A CN202310500015 A CN 202310500015A CN 116564413 A CN116564413 A CN 116564413A
- Authority
- CN
- China
- Prior art keywords
- carbon
- pathway
- marker gene
- abundance
- detecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910052799 carbon Inorganic materials 0.000 title claims abstract description 61
- 244000005700 microbiome Species 0.000 title claims abstract description 61
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 35
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 83
- 239000003550 marker Substances 0.000 claims abstract description 49
- 230000001651 autotrophic effect Effects 0.000 claims abstract description 34
- 230000000813 microbial effect Effects 0.000 claims abstract description 15
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 239000013535 sea water Substances 0.000 claims abstract description 7
- 230000037361 pathway Effects 0.000 claims description 67
- 230000009919 sequestration Effects 0.000 claims description 23
- ALRHLSYJTWAHJZ-UHFFFAOYSA-N 3-hydroxypropionic acid Chemical compound OCCC(O)=O ALRHLSYJTWAHJZ-UHFFFAOYSA-N 0.000 claims description 12
- 102000004169 proteins and genes Human genes 0.000 claims description 12
- 102000004146 ATP citrate synthases Human genes 0.000 claims description 6
- 108090000662 ATP citrate synthases Proteins 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- SJZRECIVHVDYJC-UHFFFAOYSA-M 4-hydroxybutyrate Chemical compound OCCCC([O-])=O SJZRECIVHVDYJC-UHFFFAOYSA-M 0.000 claims description 4
- 108030001569 3-hydroxypropionate dehydrogenases Proteins 0.000 claims description 3
- BAMBWCGEVIAQBF-CITAKDKDSA-N 4-hydroxybutyryl-CoA Chemical compound O[C@@H]1[C@H](OP(O)(O)=O)[C@@H](COP(O)(=O)OP(O)(=O)OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCSC(=O)CCCO)O[C@H]1N1C2=NC=NC(N)=C2N=C1 BAMBWCGEVIAQBF-CITAKDKDSA-N 0.000 claims description 3
- 101710088194 Dehydrogenase Proteins 0.000 claims description 3
- 108090000769 Isomerases Proteins 0.000 claims description 3
- 102000004195 Isomerases Human genes 0.000 claims description 3
- OFOBLEOULBTSOW-UHFFFAOYSA-N Malonic acid Chemical compound OC(=O)CC(O)=O OFOBLEOULBTSOW-UHFFFAOYSA-N 0.000 claims description 3
- 108700026244 Open Reading Frames Proteins 0.000 claims description 3
- 108010031234 carbon monoxide dehydrogenase Proteins 0.000 claims description 3
- 230000003197 catalytic effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 108010008386 malonyl-Coa reductase Proteins 0.000 claims description 3
- HNEGQIOMVPPMNR-NSCUHMNNSA-N mesaconic acid Chemical compound OC(=O)C(/C)=C/C(O)=O HNEGQIOMVPPMNR-NSCUHMNNSA-N 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims description 3
- 102000052553 3-Hydroxyacyl CoA Dehydrogenase Human genes 0.000 claims description 2
- 108700020831 3-Hydroxyacyl-CoA Dehydrogenase Proteins 0.000 claims description 2
- 108010035023 4-hydroxybutyryl-CoA dehydratase Proteins 0.000 claims description 2
- 108090000856 Lyases Proteins 0.000 claims description 2
- 102000004317 Lyases Human genes 0.000 claims description 2
- -1 phosphoribosyl Chemical group 0.000 claims description 2
- 230000004102 tricarboxylic acid cycle Effects 0.000 claims description 2
- AAAFZMYJJHWUPN-SOOFDHNKSA-N D-ribose 1,5-bisphosphate Chemical compound O[C@H]1[C@@H](O)C(OP(O)(O)=O)O[C@@H]1COP(O)(O)=O AAAFZMYJJHWUPN-SOOFDHNKSA-N 0.000 claims 2
- 108020004414 DNA Proteins 0.000 claims 1
- 125000000218 acetic acid group Chemical group C(C)(=O)* 0.000 claims 1
- HNEGQIOMVPPMNR-UHFFFAOYSA-N methylfumaric acid Natural products OC(=O)C(C)=CC(O)=O HNEGQIOMVPPMNR-UHFFFAOYSA-N 0.000 claims 1
- 241000894007 species Species 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 241000736262 Microbiota Species 0.000 description 5
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 4
- 241001366278 Leptotes marina Species 0.000 description 4
- QAOWNCQODCNURD-UHFFFAOYSA-L Sulfate Chemical compound [O-]S([O-])(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-L 0.000 description 4
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000007254 oxidation reaction Methods 0.000 description 4
- 238000006722 reduction reaction Methods 0.000 description 4
- 239000010410 layer Substances 0.000 description 3
- 230000003647 oxidation Effects 0.000 description 3
- 229910052717 sulfur Inorganic materials 0.000 description 3
- 239000011593 sulfur Substances 0.000 description 3
- SJZRECIVHVDYJC-UHFFFAOYSA-N 4-hydroxybutyric acid Chemical compound OCCCC(O)=O SJZRECIVHVDYJC-UHFFFAOYSA-N 0.000 description 2
- 229940006015 4-hydroxybutyric acid Drugs 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- ZSLZBFCDCINBPY-ZSJPKINUSA-N acetyl-CoA Chemical compound O[C@@H]1[C@H](OP(O)(O)=O)[C@@H](COP(O)(=O)OP(O)(=O)OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCSC(=O)C)O[C@H]1N1C2=NC=NC(N)=C2N=C1 ZSLZBFCDCINBPY-ZSJPKINUSA-N 0.000 description 2
- 101150081706 acsAB gene Proteins 0.000 description 2
- AAAFZMYJJHWUPN-TXICZTDVSA-N alpha-D-ribose 1,5-bisphosphate Chemical compound O[C@H]1[C@@H](O)[C@@H](OP(O)(O)=O)O[C@@H]1COP(O)(O)=O AAAFZMYJJHWUPN-TXICZTDVSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 108091008053 gene clusters Proteins 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 101150040063 orf gene Proteins 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006479 redox reaction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- 101100378183 Aspergillus oryzae (strain ATCC 42149 / RIB 40) aclA gene Proteins 0.000 description 1
- 101100215125 Aspergillus oryzae (strain ATCC 42149 / RIB 40) aclB gene Proteins 0.000 description 1
- 241000193830 Bacillus <bacterium> Species 0.000 description 1
- 239000002028 Biomass Substances 0.000 description 1
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 101100056763 Dictyostelium discoideum arpC gene Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 230000005526 G1 to G0 transition Effects 0.000 description 1
- AVXURJPOCDRRFD-UHFFFAOYSA-N Hydroxylamine Chemical compound ON AVXURJPOCDRRFD-UHFFFAOYSA-N 0.000 description 1
- 241000588769 Proteus <enterobacteria> Species 0.000 description 1
- 101100000272 Rhizobium meliloti (strain 1021) acsA2 gene Proteins 0.000 description 1
- 239000005864 Sulphur Substances 0.000 description 1
- 239000007984 Tris EDTA buffer Substances 0.000 description 1
- 101150116076 acsA gene Proteins 0.000 description 1
- 101150083305 acsA2 gene Proteins 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- YTRQFSDWAXHJCC-UHFFFAOYSA-N chloroform;phenol Chemical compound ClC(Cl)Cl.OC1=CC=CC=C1 YTRQFSDWAXHJCC-UHFFFAOYSA-N 0.000 description 1
- 238000010668 complexation reaction Methods 0.000 description 1
- 108091036078 conserved sequence Proteins 0.000 description 1
- 238000012136 culture method Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 229960004419 dimethyl fumarate Drugs 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000037149 energy metabolism Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000011536 extraction buffer Substances 0.000 description 1
- 101150032444 gadC gene Proteins 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000002906 microbiologic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000006396 nitration reaction Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000002205 phenol-chloroform extraction Methods 0.000 description 1
- 108010080971 phosphoribulokinase Proteins 0.000 description 1
- 230000000243 photosynthetic effect Effects 0.000 description 1
- 229920000515 polycarbonate Polymers 0.000 description 1
- 239000004417 polycarbonate Substances 0.000 description 1
- 101150039599 prkB gene Proteins 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 229910000162 sodium phosphate Inorganic materials 0.000 description 1
- 239000001488 sodium phosphate Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 229910021653 sulphate ion Inorganic materials 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- UEUXEKPTXMALOB-UHFFFAOYSA-J tetrasodium;2-[2-[bis(carboxylatomethyl)amino]ethyl-(carboxylatomethyl)amino]acetate Chemical compound [Na+].[Na+].[Na+].[Na+].[O-]C(=O)CN(CC([O-])=O)CCN(CC([O-])=O)CC([O-])=O UEUXEKPTXMALOB-UHFFFAOYSA-J 0.000 description 1
- 150000003627 tricarboxylic acid derivatives Chemical class 0.000 description 1
- RYFMWSXOAZQYPI-UHFFFAOYSA-K trisodium phosphate Chemical compound [Na+].[Na+].[Na+].[O-]P([O-])([O-])=O RYFMWSXOAZQYPI-UHFFFAOYSA-K 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- Zoology (AREA)
- Biochemistry (AREA)
- Wood Science & Technology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Food Science & Technology (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种用于检测不同固碳途径微生物种类和丰度的方法,即一种精确分析海水环境中非培养自养微生物类群及其CO2固定通路的方法。本发明的方法克服了自养微生物传统培养和单基因途径构建文库方法的缺点,基于宏基因组测序技术能更加全面的获得自养微生物的类群。避免常规宏基因组相对复杂繁琐的分析流程,Diting软件能更简单高效地分析和评估固碳途径在海洋不同区域和不同深度下的分布和重要程度。能够获得高质量的微生物基因组MAGs能够更精确地提供固碳标志基因群在自养微生物类群中存在的证据,还能发掘出新颖的固碳微生物类群。
Description
技术领域
本发明属于海洋微生物检测技术领域,具体涉及一种用于检测不同固碳途径微生物种类和丰度的方法。
背景技术
海洋是地球上最大的碳库,海洋微生物虽个体小,但种类繁多,生物量更是巨大,在全球碳循环过程中有着重要的地位。单是海洋中光合自养微生物每天固定CO2产生的有机碳量就可与陆地上所有植物固定的有机碳量相当。目前,在陆地各类生态***中参与固碳的微生物被广泛研究,但海洋中固定CO2的自养微生物类群及其通路检测还需要进一步深入探索。
迄今为止,已经确定了以下六种微生物自养碳固定通路:卡尔文(CBB)循环、还原性三羧酸(rTCA)循环、Wood-Ljungdahl(W-L)途径、3-羟基丙酸/4-羟基丁酸(3HP-4HB)循环、3-羟基丙酸循环(3HP)和二羧酸/4-羟基丁酸(DC-4-HB)循环途径。现有技术中多基于传统纯培养或单细胞测序技术,以及高通量测序的方式获得自养微生物类群的信息。但是现有方法基于纯培养方法获取的自养微生物种类很有限,往往会忽略掉很多不可培养和难以分离的自养微生物类群,导致无法获得更全面和真实的自养微生物群落组成;基于单细胞测序技术不易独立获取多个自养微生物基因组信息,且成本高;常规宏基因组测序虽然可以获取混合样本中所有微生物信息,但无法组装出长且连续的基因组片段来获得高质量的自养微生物基因组信息。
发明内容
本发明的目的是提供一种用于检测不同固碳途径微生物种类和丰度的方法,即一种精确分析海水环境中非培养自养微生物类群及其CO2固定通路的方法。
本发明首先提供用于检测微生物自养碳固定通路的标志基因群,所述的标志基因群,其中包含有:
用于检测卡尔文循环固碳通路微生物的标志基因群,其包含有磷酸核糖酮磷酸激酶(phosphoribulokinase,prkB)、核糖-1,5-二磷酸羧化酶大亚基(ribulose-bisphosphate carboxylase large chain,rbcL)和核糖-1,5-二磷酸羧化酶小亚基(ribulose-bisphosphate carboxylase small chain,rbcS);
用于检测还原性三羧酸循环固碳通路微生物的标志基因群,其包含有ATP-柠檬酸裂解酶α亚基(ATP-citrate lyase alpha-subunit,aclA)和ATP-柠檬酸裂解酶β亚基(ATP-citrate lyase beta-subunit,aclB);
用于检测Wood-Ljungdahl途径固碳通路微生物的标志基因群,其包含有一氧化碳脱氢酶催化亚基(carbon-monoxide dehydrogenase catalytic subunit,acsA)和乙酰辅酶A合酶(acetyl-CoA synthase,acsB);
用于检测3-羟基丙酸/4-羟基丁酸循环固碳通路微生物的标志基因群,其包含有3-羟酰辅酶A脱氢酶(3-hydroxyacyl-CoA dehydrogenase)、4-羟丁酰辅酶A脱水酶(4-hydroxybutyryl-CoA dehydratase)和3-羟基丙酸脱氢酶(3-hydroxypropionatedehydrogenase);
用于检测3-羟基丙酸循环固碳通路微生物的标志基因群,其包含有丙二酰辅酶A还原酶(malonyl-CoA reductase)、(S)-柠檬酰-辅酶A裂解酶((S)-citramalyl-CoAlyase)、3-甲基富马酸辅酶A水合酶(3-methylfumaryl-CoA hydratase)和2-甲基富马酸辅酶A异构酶(2-methylfumaryl-CoA isomerase);
用于检测二羧酸/4-羟基丁酸循环途径固碳通路微生物的标志基因群,其包含有3-hydroxyacyl-CoA dehydrogenase和4-hydroxybutyryl-CoA dehydratase;
本发明所提供的标志基因群用于检测不同固碳途径微生物的类别和丰度;
其一种方法,包括如下的步骤:
1)收集待检测海水样品的环境DNA样品后,进行宏基因组测序,得到原始宏基因组数据集;
2)在Linux操作平台上,首先利用metaWRAP程序对个样本宏基因组原始reads数据进行修剪,过滤和质控得到clean reads的宏基因组数据;再使用DiTing软件来对输入的clean reads的宏基因组数据进行分析和KEGG数据库功能注释,获得标志基因群中对应基因在样品宏基因组中的丰度信息。
具体操作步骤如下:使用DiTing软件中的Megahit程序对得到的clean reads的宏基因组数据进行组装成contig;使用Prodigal程序从contig中预测基因得到开放阅读框ORF;使用BWA-MEM程序去预测基因;同时使用hmmsearch程序将预测基因翻译的蛋白序列与KOfam数据库进行比对,KofamKOALA程序将为蛋白序列分配比对到KO编号;进而得到每条蛋白序列对应的KO编号在每个样品中的丰度信息,最后根据公式标准化计算各固碳通路在样品中的丰度信息:
其中Ai是各固碳通路的相对丰度,am_n是固碳通路中每一步中的基因相对丰度,m是完成固碳通路的步骤,n是同一步骤中的基因数量。
3)为了在基因组水平上进一步提高本发明方法检测的准确性,首先使用MetaBAT,MaxBin和MetaWRAP程序从上述步骤得到的组装contigs出发获得高质量微生物宏基因组装基因组(metagenome-assembled genomes,MAGs),从MAGs中搜索并确定标志基因群的存在,得到精细的标志基因群中对应基因在宏基因组装基因组的丰度信息。
4)更进一步的,本发明的方法为了确定微生物基因组MAGs是否具有自养的、近乎完整的固碳通路,使用KEGG-Decoder程序评估特定固碳途径在MAGs中的百分比完整程度,定义含有标志基因群且通路完成度大于70%即说明该微生物具有近乎完整的某一固碳通路。
本发明方法与现有技术相比,具有以下优点:
1.克服了自养微生物传统培养和单基因途径构建文库方法的缺点,基于宏基因组测序技术能更加全面的获得自养微生物的类群。
2.避免常规宏基因组相对复杂繁琐的分析流程,Diting软件能更简单高效地分析和评估六大固碳途径在海洋不同区域和不同深度下的分布和重要程度。
3.获得高质量的微生物基因组MAGs能够更精确地提供固碳标志基因群在自养微生物类群中存在的证据,还能发掘出新颖的固碳微生物类群。
4.能进一步判断自养微生物基因组MAGs,并评估具体固碳通路的完整性情况。
5.此外,基于KEGG功能数据库,本方法还能额外提供与固碳途径联系的氮、硫相关的氧化还原反应信息,例如硫氧化反应、硝化反应和硫酸盐还原反应、反硝化反应是分别作为电子供体和受体耦合固碳通路进行供能合成有机物。
附图说明
图1是本发明一种用于精确分析非培养自养微生物CO2固定通路的方法的流程图。
图2是海洋蓝洞中六大固碳通路在不同深度水层中的分布特征热图。图的左侧是在0-170m深度,固碳通路在每个样本中的丰度信息,图的右侧是在宏基因组水平上,含有潜在固碳通路的,且丰度排前四的微生物类群。
图3是海洋蓝洞中重建的MAGs中标志基因群的有无以及通过GTDB数据库注释到的精细物种分类。
图4是海洋蓝洞中自养微生物基因组的固碳通路完整性验证热图。图的上方是自养微生物基因组MAGs的编号,图的下方是基因组物种分类信息,图的右侧是基因组中具有的固碳通路的完整性情况,以及耦合的常见氧化还原反应的完整性情况。
具体实施方式
本发明通过选定代表性的固碳标志基因群,重建海洋中自养微生物类群的高质量宏基因组装基因组(metagenome-assembled genomes,MAGs)MAGs,结合基因组中固碳通路的完整性分析,能够精准的检测海洋中自养微生物的类群和相关的CO2固定通路。
本发明基于海洋宏基因组数据集和独特分析方法高效精确地分析自养微生物CO2固定通路。为方便于本领域的技术研究人员理解本发明,下面结合附图对本发明的方法进行详细的描述。
实施例1:确定用于检测微生物自养碳固定通路的标志基因群
基于KEGG功能数据库,汇总微生物六大固碳通路中的代表性标志基因群及对应的蛋白KO编号。
每条微生物固碳通路中的一系列功能基因能够协同合作完成CO2固定过程。然而,某些编码关键酶或限速酶的独特功能基因往往仅存于特定的固碳通路中,本发明把这些必不可少且具有代表性的功能基因定义为标志基因群。因此,在研究微生物碳固定通路前,需要准确地发掘出能够代表特定固碳通路的标志基因群来指示潜在通路存在的可能性。后续利用BLASTp程序在宏基因组数据集及MAGs序列中搜索固碳标志基因序列,并通过分别检查标志基因中存在的保守序列来证实固碳通路在各样品中的存在和丰度变化,以及对应的具体微生物类群。
最后整合了六大固碳途径中代表性的标志基因群和在KEGG数据库中对应的蛋白KO编号(表1)。
表1:微生物固碳通路的标志基因群基因及对应的蛋白KO号表
实施例2:构建检测不同固碳途径微生物种类和丰度的方法
下面以海洋蓝洞的具体实例来简单高效地实现微生物固碳通路的研究。
步骤1:海水样品的采集和环境DNA的提取
在不同水深用Niskin瓶采集海水样品,并使用聚碳酸酯滤膜过滤,收集环境微生物滤膜样本。滤膜样本首先在液氮中进行研磨。再使用苯酚-氯仿方法提取DNA:使用15ml提取缓冲液(100mM Tris-HCl[pH8.0],100mM EDTA钠[pH8.0],100mM磷酸钠[pH8.0],1.5MNaCl,1% CTAB),然后以5000×g离心20分钟。依次加入蛋白酶K和SDS,然后用苯酚-氯仿萃取。用异丙醇沉淀DNA,之后用70%乙醇洗涤,静置干燥并溶解在TE缓冲液中。分别用Qubit荧光计和琼脂糖凝胶电泳分析基因组DNA的浓度和完整性。提取的核酸送往华大基因(BGI,Wuhan,China)进行宏基因组测序,得到原始宏基因组数据集。
步骤2:在宏基因组数据集中获取固碳通路在样本中的分布和丰度信息
在Linux操作平台上,首先利用metaWRAP程序对每个样本宏基因组原始reads数据进行修剪,过滤和质控得到clean reads的宏基因组数据;再使用DiTing软件来对输入的clean reads的宏基因组数据进行分析和KEGG数据库功能注释,具体操作如下:在Linux平台上下载安装Diting软件,输入运行代码“diting.py-rClean-reads-o Clean-reads.diting.out”,程序将自动使用Megahit程序对得到的clean reads进行组装成contig;使用Prodigal程序从contig中得到开放阅读框ORF基因;使用BWA-MEM程序将输入的clean reads映射到ORF中,并计算ORF基因在样品中的相对丰度;同时使用hmmsearch程序将ORF基因转录的蛋白序列与KOfam数据库进行比对,KofamKOALA程序将为每条蛋白序列分配比对到KO编号;进而得到每条蛋白序列(每个KO号对应一个功能基因)在每个样品中的丰度信息(表2)。
表2:Diting软件输出的ko号在不同深度水层的丰度分布信息
最后搜索微生物六大固碳通路的标志基因群,根据建立的公式标准化,最终能够定义出每条固碳通路在各海水样品中的相对丰度特征(图2)。例如, AW-L=aK00198+aK14138;A3HP/4HB=aK15016+aK14534+aK15039;ADC/4HB=aK15016+aK14534;/>
在图2的海洋蓝洞样品中,挑选了六大固碳通路在不同深度的分布和丰度特征,以及包含这些固碳通路的潜在微生物种群,发现在蓝洞表层微生物主要CBB循环途径为主,而在深层则主要以Wood-Ljungdahl途径为主,3HP途径则由于缺乏丙二酰辅酶A还原酶标志基因(K14468)而可能不存在(表2和图2)。
步骤3:Binning分箱进一步获取微生物基因组(MAGs),从基因组水平检测标志基因群
上述常规宏基因组测序注释到的物种信息只提供了零散的基因片段,注释到的物种信息受到序列库的限制。
然而宏基因组装分箱技术可以获得更长的连续序列,识别出未被培养或已知程度较低的微生物,从而提供更完整和准确的基因组信息。获得的MAGs可以被用来研究更精细的微生物群落代谢潜力、生态功能。
首先使用MetaBAT,MaxBin和MetaWRAP程序对上述步骤得到的组装contigs进行分析、合并和改进,回收得到MAGs;
为了进一步提高MAGs的质量,将宏基因组reads重新映射到每个MAG上,用SPAdes程序进行重新组装;再使用CheckM程序检查MAGs的质量;
然后使用GTDB-Tk程序,根据GTDB物种数据库对每个基因组MAGs进行物种分类预测,得到每个MAGs的精细微生物分类;基因组MAGs注释用Prokka程序进行;
最后使用BlastKOALA程序,并基于KEGG功能数据库预测MAG中的固碳通路。经过上述分析重建得到海洋蓝洞中的64个高质量MAGs(completeness>75%,contamination<5%),以及在基因组上包含不同固碳通路的标志基因群分布信息(图3)。
对比步骤2中通过从环境中标志基因小片段注释到的物种,发现其中有些物种在基因组水平上其实是缺乏相关的标志基因的,例如,3HP通路的标志基因(K14468和K14470)在Desulfobacterales和Acidimicrobiales基因组上其实并不存在,后续事实也证明这两类微生物具有的是几乎完整W-L通路(图2、图3和图4)。
步骤4:KEGG-Decoder程序进一步评估微生物基因组固碳通路的完整度,并筛选出真正的自养MAGs。
仅仅基于单个固碳标志基因的通路识别可能是不准确的,不完整的。为了进一步验证微生物基因组MAGs是否具有自养的,近乎完整的固碳通路,使用KEGG-Decoder程序评估特定固碳途径在含有标志基因群的MAGs中的百分比完整程度,通路完成度大于70%即说明该微生物具有近乎完整的某一固碳通路。从基因组MAGs的蛋白质fasta文件(INPUT_PROTEIN.fasta)开始,根据KEGG数据库中KEGG-Koala输出(包括blastKOALA,ghostKOALA,KOFAMSCAN)的KO分配文本文件(KOALA_OUTPUT.txt)作为输入文件,再在Linux平台上运行代码“KEGG-decoder--input(-i)<KOALA_OUTPUT.txt>--output(-o)<FUNCTION_OUT.list>--vizoption(-v)<static/interactive/tanglegram>”,最后输出多个交互式热图。因此,图4海洋蓝洞实例中展示了自养微生物基因组上具有的近乎完整固碳通路,以及与CO2固定相耦合的一系列其他完整氧化还原途径。从中可以发现CBB循环和W-L途径在自养基因组中的通路完成度最高,并主要耦合硫氧化和硫酸盐还原途径进行供能固碳,例如,脱硫杆菌利用近乎完整的W-L通路、完整的羟胺氧化和硫酸盐还原反应进行能量代谢;变形菌则利用完整的CBB循环、硫氧化和硫酸盐还原反应合成有机碳。
因此,本发明的方法通过选定代表性的固碳标志基因群,重建海洋中自养微生物类群的高质量MAGs,结合基因组中固碳通路的完整性分析,能够精准的检测海洋中自养微生物的类群和相关的CO2固定通路。
Claims (9)
1.一种用于检测微生物自养碳固定通路的标志基因群,其特征在于,所述的标志基因群中包含有:
用于检测卡尔文循环固碳通路微生物的标志基因群,其包含有磷酸核糖酮磷酸激酶、核糖-1,5-二磷酸羧化酶大亚基和核糖-1,5-二磷酸羧化酶小亚基;
用于检测还原性三羧酸循环固碳通路微生物的标志基因群,其包含有ATP-柠檬酸裂解酶α亚基和ATP-柠檬酸裂解酶β亚基;
用于检测Wood-Ljungdahl途径固碳通路微生物的标志基因群,其包含有一氧化碳脱氢酶催化亚基和乙酰辅酶A合酶;
用于检测3-羟基丙酸/4-羟基丁酸循环固碳通路微生物的标志基因群,其包含有3-羟酰辅酶A脱氢酶、4-羟丁酰辅酶A脱水酶和3-羟基丙酸脱氢酶;
用于检测3-羟基丙酸循环固碳通路微生物的标志基因群,其包含有丙二酰辅酶A还原酶、(S)-柠檬酰-辅酶A裂解酶、3-甲基富马酸辅酶A水合酶和2-甲基富马酸辅酶A异构酶;
用于检测二羧酸/4-羟基丁酸循环途径固碳通路微生物的标志基因群,其包含有3-hydroxyacyl-CoA dehydrogenase和4-hydroxybutyryl-CoA dehydratase。
2.权利要求1所述的标志基因群在检测不同固碳途径微生物的类别和丰度中的应用。
3.一种检测不同固碳途径微生物的类别和丰度的方法,其特征在于,所述方法是检测权利要求1所述的标志基因群中的对应基因在样品中的类别和丰度。
4.如权利要求3所述的方法,其特征在于,所述的方法包括如下的步骤:
步骤1:收集待检测海水样品的环境DNA样品后,进行宏基因组测序,得到原始宏基因组数据集;
步骤2:在Linux操作平台上,首先利用metaWRAP程序对个样本宏基因组原始reads数据进行修剪,过滤和质控得到clean reads的宏基因组数据;再使用DiTing软件来对输入的clean reads的宏基因组数据进行分析和KEGG数据库功能注释,获得标志基因群中对应基因在样品宏基因组中的丰度信息。
5.如权利要求4所述的方法,其特征在于,所述的方法,其中步骤2中,是使用DiTing软件中的Megahit程序对得到的clean reads的宏基因组数据进行组装成contig;使用Prodigal程序从contig中预测基因得到开放阅读框ORF;使用BWA-MEM程序去预测基因;同时使用hmmsearch程序将预测基因翻译的蛋白序列与KOfam数据库进行比对,KofamKOALA程序将为蛋白序列分配比对到KO编号;进而得到每条蛋白序列对应的KO编号在每个样品中的丰度信息,最后根据公式标准化计算各固碳通路在样品中的丰度信息。
6.如权利要求5所述的方法,其特征在于,所述的公式如下:
其中Ai是各固碳通路的相对丰度,amn是固碳通路中每一步中的基因相对丰
度,m是完成固碳通路的步骤,n是同一步骤中的基因数量。
7.如权利要求4所述的方法,其特征在于,所述的方法使用MetaBAT,MaxBin和MetaWRAP程序从组装的contigs出发获得微生物宏基因组装基因组MAGs,从MAGs中搜索并确定权利要求1所述的标志基因群的基因,得到标志基因群中对应基因在宏基因组装基因组的丰度信息。
8.如权利要求4所述的方法,其特征在于,所述的方法使用KEGG-Decoder程序评估固碳途径在MAGs中的百分比完整程度。
9.如权利要求8所述的方法,其特征在于,含有标志基因群且通路完成度大于70%为具有近乎完整的某一固碳通路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310500015.3A CN116564413A (zh) | 2023-05-06 | 2023-05-06 | 一种用于检测不同固碳途径微生物种类和丰度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310500015.3A CN116564413A (zh) | 2023-05-06 | 2023-05-06 | 一种用于检测不同固碳途径微生物种类和丰度的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564413A true CN116564413A (zh) | 2023-08-08 |
Family
ID=87490987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310500015.3A Pending CN116564413A (zh) | 2023-05-06 | 2023-05-06 | 一种用于检测不同固碳途径微生物种类和丰度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564413A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020253224A1 (zh) * | 2019-06-21 | 2020-12-24 | 广东省生态环境技术研究所 | 一种判别土壤中参与锑还原过程的菌种及其关键功能基因的方法 |
CN112786102A (zh) * | 2021-01-25 | 2021-05-11 | 北京大学 | 一种基于宏基因组学分析精准识别水体中未知微生物群落的方法 |
CN114509811A (zh) * | 2022-01-28 | 2022-05-17 | 中国地震局地球物理研究所 | 一种基于深度学习的单台站后方位角估计方法与装置 |
CN114717294A (zh) * | 2022-04-08 | 2022-07-08 | 山东科技大学 | 一种近海沉积物自养微生物菌群及固碳途径解析方法 |
-
2023
- 2023-05-06 CN CN202310500015.3A patent/CN116564413A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020253224A1 (zh) * | 2019-06-21 | 2020-12-24 | 广东省生态环境技术研究所 | 一种判别土壤中参与锑还原过程的菌种及其关键功能基因的方法 |
CN112786102A (zh) * | 2021-01-25 | 2021-05-11 | 北京大学 | 一种基于宏基因组学分析精准识别水体中未知微生物群落的方法 |
CN114509811A (zh) * | 2022-01-28 | 2022-05-17 | 中国地震局地球物理研究所 | 一种基于深度学习的单台站后方位角估计方法与装置 |
CN114717294A (zh) * | 2022-04-08 | 2022-07-08 | 山东科技大学 | 一种近海沉积物自养微生物菌群及固碳途径解析方法 |
Non-Patent Citations (2)
Title |
---|
CHUN-XU XUE等: "DiTing: A Pipeline to Infer and Compare Biogeochemical Pathways From Metagenomic and Metatranscriptomic Data", FRONTIERS IN MICROBIOLOGY, pages 1 - 15 * |
QIUYUN JIANG等: "Insights into carbon-fixation pathways through metagonomics in the sediments of deep-sea cold seeps", MARINE POLLUTION BULLETIN, pages 1 - 13 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taş et al. | Metagenomic tools in microbial ecology research | |
Vanwonterghem et al. | Methylotrophic methanogenesis discovered in the archaeal phylum Verstraetearchaeota | |
EP2694669B1 (en) | Methods for making or creating a synthetic microbial consortium identified by computational analysis of amplicon sequences | |
Lutz et al. | Protein engineering handbook | |
Wong et al. | Microbial dark matter filling the niche in hypersaline microbial mats | |
Johnson et al. | Techniques for quantifying phytoplankton biodiversity | |
WO2012142591A2 (en) | Compositions, methods and uses for multiplex protein sequence activity relationship mapping | |
CN112349350B (zh) | 基于一种杜氏藻核心基因组序列进行品系鉴定的方法 | |
Castelle et al. | Protein family content uncovers lineage relationships and bacterial pathway maintenance mechanisms in DPANN archaea | |
Dick | Genomic approaches in earth and environmental sciences | |
Kohtz et al. | Culexarchaeia, a novel archaeal class of anaerobic generalists inhabiting geothermal environments | |
Ghiotto et al. | Strain-resolved metagenomics approaches applied to biogas upgrading | |
Dick et al. | Omic approaches to microbial geochemistry | |
Garg et al. | Cutting edge tools in the field of soil microbiology | |
CN112342284A (zh) | 一种分析微生物群落功能基因转录和翻译活性的方法 | |
Bornemann et al. | Geological degassing enhances microbial metabolism in the continental subsurface | |
Drenovsky et al. | New and current microbiological tools for ecosystem ecologists: towards a goal of linking structure and function | |
CN116564413A (zh) | 一种用于检测不同固碳途径微生物种类和丰度的方法 | |
CN114717294A (zh) | 一种近海沉积物自养微生物菌群及固碳途径解析方法 | |
Komives et al. | Bioprocessing technology for production of biopharmaceuticals and bioproducts | |
Gold et al. | Sterol methyltransferases in annelid worms rewrite the molecular fossil record | |
Thangavelu et al. | Marine microbial community studies using recent tools and techniques | |
Kust et al. | Model cyanobacterial consortia reveal a consistent core microbiome independent of inoculation source or cyanobacterial host species | |
Karaoz et al. | Molecular and associated approaches for studying soil biota and their functioning | |
CN116334266B (zh) | 一种海洋链霉菌次级代谢产物基因鉴定和筛选的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |