CN116153410B - 微生物基因组参考数据库及其构建方法和应用 - Google Patents

微生物基因组参考数据库及其构建方法和应用 Download PDF

Info

Publication number
CN116153410B
CN116153410B CN202211644956.6A CN202211644956A CN116153410B CN 116153410 B CN116153410 B CN 116153410B CN 202211644956 A CN202211644956 A CN 202211644956A CN 116153410 B CN116153410 B CN 116153410B
Authority
CN
China
Prior art keywords
genome
genomes
constructing
quality
microbial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211644956.6A
Other languages
English (en)
Other versions
CN116153410A (zh
Inventor
周袁杰
李少川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruiyinmaituo Technology Guangzhou Co ltd
Original Assignee
Ruiyinmaituo Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruiyinmaituo Technology Guangzhou Co ltd filed Critical Ruiyinmaituo Technology Guangzhou Co ltd
Priority to CN202211644956.6A priority Critical patent/CN116153410B/zh
Publication of CN116153410A publication Critical patent/CN116153410A/zh
Application granted granted Critical
Publication of CN116153410B publication Critical patent/CN116153410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供了微生物基因组参考数据库,所述微生物基因组参考数据库按照包括以下步骤的方法构建而成:(1)数据获取;(2)数据质控;(3)构建典型代表基因组集合;(4)基因组筛选;(5)构建参考集和(6)构建泛基因组。本申请优化后的微生物基因组参考数据库结合了代表菌分类特异性和全部基因组敏感性的优势,在可承受的计算资源前提下保证了最终结果的准确性。

Description

微生物基因组参考数据库及其构建方法和应用
技术领域
本申请属于微生物检测领域和生物信息学领域,具体地,本申请提供了一种微生物基因组参考数据库及其构建方法和应用。
背景技术
基于宏基因组测序(mNGS)的病原微生物检测技术是通过对临床样本、食品样本、环境样本、作物样本、培养物样本等的 DNA 或 RNA 进行鸟枪 (shotgun) 法测序,可以无偏倚地检测多种病原微生物 (病毒/细菌/真菌/寄生虫) 的一种技术。该检测技术得到的数据中,>90%的数据都来源于宿主/样本主体基因组,微生物序列只占很少一部分。
病原mNGS检测中,测序结果与病原微生物基因组参考数据比对是该技术分析的核心步骤,目前暂时没有公开可获取的物种完整且高质量的专门用于mNGS分析的参考数据库。高质量数据库仅有FDA-ARGOS,是美国FDA针对微生物检测专门发布的监管级微生物数据库,其中仅包含487种物种。
因此,病原mNGS检测中获得病原微生物基因组参考数据库经常需要单独构建,常用的通用构建方法包括:1)从公开参考基因组数据库例如NCBI RefSeq中下载部分微生物基因组构建一个相对较小的数据库用于mNGS测序数据分析;2)从公开基因组数据库例如NCBI GenBank中下载全部微生物基因组构建一个相对完整的数据库用于mNGS测序数据分析。
由于微生物在菌株之间基因组差异较大,同一物种内存在约5%的碱基差异,即针对4 M的细菌基因组,存在约200 K碱基差异;因此方法1)可能导致mNGS分析中存在假阴性。得益于高通量测序技术迅猛发展,现在可以快速获得一个微生物的全基因组,截止2022年9月26日,NCBI Genome数据库中收录174,258基因组。如果将这些基因组全部加在一起,按平均5.11 Mb计算,总共约890 Gb碱基;而这其中必然存在大量序列冗余,影响mNGS测序数据分析效率;公开发表的测序的基因组中,存在大量序列污染和错误物种注释的基因组,直接基于公开发表的基因组集合进行mNGS病原微生物分析会增加检测假阳性,影响最终检测结果准确性。
此外,公共数据库中的大部分数据由不同的人进行序列提交,提交序列的质量各不相同,以NCBI为例,RefSeq虽然是相对质量高的基因组参考数据库,但仍有不少序列的物种注释存在疑问。典型代表株原本就是用来做物种代表的,因为基因组测序有先后关系,典型菌基因组未必是代表菌基因组,因此重头基于典型菌基因组界定物种分类边界,利用边界类高质量基因组作为参考基因组能最大程度上避免物种分类边界模糊或者错误。
mNGS检测技术对检测全流程有很高的时限要求,同时对灵敏度和准确性要求也非常高。单一的代表基因组不能很好覆盖物种全部多样性,全部基因组一方面会引入分类错误,另外一方面会极大程度增加计算资源消耗,不利于该技术的广泛应用。
发明内容
针对以上问题,本申请提供了一种微生物基因组参考数据库及其构建方法和应用。
一方面,本申请提供了微生物基因组参考数据库,所述微生物基因组参考数据库按照包括以下步骤的方法构建而成:
(1)数据获取:获取微生物物种基因组数据;
(2)数据质控:评估基因组数据质量,设定高质量基因组;
(3)构建典型代表基因组集合:使用(2)中获得的高质量基因组构建典型代表基因组集合;
(4)基因组筛选:按照预定规则筛选微生物物种基因组,去除分类不明确、分类错误及质量低的基因组;
(5)构建参考集:挑选部分高质量基因组组成参考基因组;
(6)构建泛基因组:将剩余高质量基因组与参考基因组比对,去掉冗余部分,得到泛基因组数据库。
另一方面,本申请提供了上述微生物基因组参考数据库的构建方法,所述构建方法,包括以下步骤:
(1)数据获取:获取微生物物种基因组数据;
(2)数据质控:评估基因组数据质量,设定高质量基因组;
(3)构建典型代表基因组集合:使用(2)中获得的高质量基因组构建典型代表基因组集合;
(4)基因组筛选:按照预定规则筛选微生物物种基因组,去除分类不明确、分类错误及质量低的基因组;
(5)构建参考集:挑选部分高质量基因组组成参考基因组;
(6)构建泛基因组:将剩余高质量基因组与参考基因组比对,去掉冗余部分,得到泛基因组数据库。
进一步地,所述(1)数据获取步骤中,所述基因组数据来源可选自有基因组,IMG/M数据库,EMBL 数据库,FDA-ARGOS数据库,EuPathDB数据库,NCBI GenBank和NCBI RefSeq中微生物基因组数据中的一个或多个。
进一步地,所述(2)数据质控包括:利用质控工具评估基因组数据完整性和污染度,将完整性≥Cp%且污染度≤Cm%的基因组定为高质量基因组;其中Cp为85-100,Cm为0-10。
进一步地,质控工具为CheckM,Cp为95,Cm为5。
进一步地,(3)构建典型代表基因组集合包括:
如果微生物物种有多个高质量基因组,选择完整度最高的基因组为该微生物物种的典型代表基因组;并将其与其他物种基因组比对:如果没有发现基因组一致性≥S1%的物种基因组,则不存在分类错误,如果发现基因组一致性≥S1%的物种基因组,则存在分类错误,重新选取该微生物物种典型代表基因组;其中S1为85-100。
进一步地,S1为95。
进一步地,(4)基因组筛选包括将典型代表基因组之外的其他基因组与对应的典型代表基因组比对,基因组一致性≥S2%代表分类正确;其中S2为85-100。
进一步地,S2为95。
进一步地,(5)构建参考集包括:
(5-1)将微生物的典型代表基因组划定为参考基因组;
(5-2)将未被划分为参考基因的组基因组与微生物的典型代表基因组进行相似性分析,一致性≥S3%且相似性≥O1%的划分为被代表基因组;其中S3为85-100,O1为75-100;
(5-3)未被划分为被代表基因组的基因组按照基因组组装级别:完成图、染色体、骨架序列和连续交叠群序列级别挑选一株加入参考基因组,将其余基因组分别对新加入的参考基因组比对,其中基因组一致性≥S4%且相似性≥O2%为划分为被代表菌;其中S4为85-100,O2为75-100;
(5-4)重复(5-3)直至所有基因组都划分为参考基因组或被代表基因组。
进一步地,S3和S4为94,O1和O2为80。
进一步地,(6)构建泛基因组包括:
(6-1)将参考基因组设定为泛基因组;
(6-2)将被代表基因组按照基因组序列平均长度依次与物种泛基因组比对,将与泛基因组中一致性≤S5%且长度≥L bp的基因组加入泛基因组中;其中S5为85-100,L为50-5000;
(6-3)重复(6-1)和(6-2),直至所有参考基因组都完成相应的泛基因组构建。
进一步地,S5为95,L为1000。
另一方面,本申请提供了上述微生物基因组参考数据库或者上述微生物基因组参考数据库的构建方法在微生物检测中的应用,所述应用为非诊断用途,所述应用包括对样本进行测序以及将测序结果与微生物基因组参考数据库进行比对的步骤。
另一方面,本申请提供了执行上述方法的计算设备,所述设备包括以下模块:
(1)数据获取模块:用于获取微生物物种基因组数据;
(2)数据质控模块:用于评估基因组数据质量,设定高质量基因组;
(3)构建典型代表基因组集合模块:用于使用(2)中获得的高质量基因组构建典型代表基因组集合;
(4)基因组筛选模块:用于按照预定规则筛选微生物物种基因组,去除分类不明确、分类错误及质量低的基因组;
(5)构建参考集模块:用于挑选部分高质量基因组组成参考基因组;
(6)构建泛基因组模块:用于将剩余高质量基因组与参考基因组比对,去掉冗余部分,得到泛基因组数据库。
本申请中的微生物基因组参考数据库可以包含一种或多种微生物的基因组参考数据库,本领域技术人员可以通过多次执行上述方法的全部或步骤获得包含这样的涉及多种微生物的微生物基因组参考数据库。
本申请的方法和产品可用于各种微生物基因组参考数据库,优选用于病原微生物基因组参考数据库。
本申请中的比对可以使用本领域中已知的各种比对工具和算法,包括但不限于blast、fastANI等,比对可以是全局比对或者代表性区域,如16s rDNA比对。
附图说明
图1为本申请微生物基因组参考数据库构建流程图。
图2为三种基因组数据库所占文件大小、索引文件大小和基因组碱基长度分布图。
图3为8株基因组模拟数据比对三种基因组数据库比对比例分布柱形图。
图4为8株基因组模拟数据对比三种基因组数据库正确比对和错误比对分布箱型图。
具体实施方式
实施例1病原微生物基因组参考数据库的构建
(1)数据获取:
从NCBI RefSeq下载基因组数据,具体如下:
NCBI RefSeq是美国国家生物技术中心的参考序列数据库,其中收集了完整、非冗余且注释清楚的基因组序列,包含基因组DNA,转录组,蛋白质组序列。该数据库序列可以通过其FTP服务器进行序列下载。
在NCBI RefSeq数据库FTP(ftp.ncbi.nlm.nih.gov/genomes/refseq/),共收录基因组265,430条,其中基因组相关数据信息整理文件assembly_summary_refseq.txt。
根据assembly_summary_refseq.txt文件中表头列为species_taxid的物种分类ID选取约翰逊不动杆菌(Acinetobacter johnsonii)分类ID为40214的全部基因组总共43条。
根据assembly_summary_refseq.txt文件中表头列为ftp_path的数据路径下载43条基因组序列。
(2)数据质控:
利用CheckM评估约翰逊不动杆菌43条基因组序列的质量,其中完整度≥Cp,污染率≤Cm的基因组为43条。
(3)构建典型代表基因组集合:
将约翰逊不动杆菌基因组中来源为典型代表菌的基因组共四株,其中一株为完成图,该菌株作为典型代表基因组;
将该约翰逊不动杆菌典型代表菌基因组与其它物种代表序列(参考基因组或代表基因组)比对,没有发现基因组一致性≥95%的物种;
该约翰逊不动杆菌和其它物种代表序列组成物种典型基因组集合。
(4)基因组筛选
将余下42条约翰逊不动杆菌基因组分别与典型基因组集合菌株比对,按照基因组一致性≥95%条件的菌株仅为约翰逊不动杆菌,即所有43约翰逊不动杆菌物种分类正确,通过筛选条件;
(5)构建参考集:
典型代表菌基因组集合中的约翰逊不动杆菌为参考基因组;
将余下42条约翰逊不动杆菌基因组分别与参考基因组比对,其中基因组一致性≥94%且相似性≥80%的划分为被代表基因组;
剩下基因组依次按照基因组组装级别:完成图、染色体、骨架序列和连续交叠群序列级别挑选一株作为候选参考基因组,将其余基因组分别对候选参考基因组比对,其中基因组一致性≥94%且相似性≥80%为划分为被代表基因组;
重复上述步骤,直至所有基因组都划分为参考基因组或被代表基因组;
(6)构建泛基因组
参考基因组分别设定泛基因组;
被代表基因组逐一与对应的泛基因组比对,序列一致性≤95%且长度≥1000bp的序列加入到泛基因组中,并更新泛基因组;
重复上面的步骤,直至该参考基因组的全部被代表菌株全部完成与泛基因组比对;
重复该步骤,直到所有参考基因组都完成相应的泛基因组构建;
将全部得到的泛基因组合并,作为约翰逊不动杆菌的泛基因组;
(7)微生物泛基因组构建
重复以上所有步骤,分别构建全部微生物物种的泛基因组,组成微生物泛基因组。
实施例2比较本申请方法与传统方法:
选取一个物种的单一个参考基因组或代表基因组(传统方法一),约翰逊不动杆菌选取其代表基因组作为数据库,基因组大小为3.5 Mb,文件大小为3.5 MB;
选取一个物种的全部基因组构建该物种的比对数据库(传统方法二),选取NCBIRefSeq总共43株约翰逊不动杆菌基因组,基因组大小为154.3 Mb,文件大小为150 MB,结果见图2;
本申请实施例1方法所建约翰逊不动杆菌泛基因组数据库,基因组大小为41.1Mb,文件大小为40 MB;
分别利用序列比对软件Bowtie2对三个基因组数据库构建比对索引,传统方法一所构建的索引文件大小为13 MB,传统方法二所构建的索引文件大小为217 MB,本申请实施例1方法所构建的索引文件大小为64 MB;
分别选取NCBI RefSeq中6株约翰逊不动杆菌(Acinetobacter johnsonii)和2株包氏不动杆菌(Acinetobacter bouvetii)基因组利用测序模拟软件模拟30倍基因组大小的读长为150 bp的单端测序结果;
将8株菌分别与实例1中典型代表库比较分析,前5株与典型代表库中约翰逊不动杆菌序列一致性>95%,而后3株与约翰逊不动杆菌序列一致性<85%;后3株与包氏不动杆菌一致性>95%;基于该典型代表库分类界定,确定前5株为约翰逊不动杆菌,后3株均为包氏不动杆菌;
将8株菌株的模拟数据分别与三种方法构建的索引进行bowtie2序列比对,统计有效比对比例,结果见图3(比对率百分比柱形图),前五个菌株比对比例方法二和本方法类似,方法一偏低,后三个菌株比对比例方法一和本方法类似,方法二较高;
将8株菌株的模拟数据分别与三种方法构建的索引进行bowtie2序列比对,统计正确比对率和错误比对率,结果见图4(比对率百分比箱型图)。约翰不动杆菌(前5株)模拟数据比对上约翰逊不动杆菌为正确比对,方法一正确比对率偏低,方法二和本方法比对率相当,接近100%;包氏不动杆菌(后3株,其中一株在NCBI RefSeq中物种错误,基于典型代表库纠正)模拟数据比对上约翰逊不动杆菌为错误比对,方法二较高,方法一与本方法比对率相当,不超过10%;
约翰逊不动杆菌与包氏不动杆菌属于同属不同种的微生物,利用本方法构建的泛基因组数据库,在数据库构建的步骤中排除错误分类的基因组(将包氏不动杆菌错误分类成约翰逊不动杆菌),可以准确的区分两种不同的微生物,保持了与传统方法一的相似的特异性;同时泛基因组方法有效保持了物种内的序列多样性,使得方法一与传统方法二相似的敏感性;
综合前面模拟数据的分析结果,本方法构建的泛基因组数据库敏感性与方法二相当,高于方法一;特异性与方法一相当,高于方法二;即准确性高于方法一和方法二。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (19)

1.微生物基因组参考数据库的构建方法,其特征在于,所述构建方法,包括以下步骤:
(1)数据获取:获取微生物物种基因组数据;
(2)数据质控:评估基因组数据质量,设定高质量基因组;
(3)构建典型代表基因组集合:使用步骤(2)中获得的高质量基因组构建典型代表基因组集合;
(4)基因组筛选:按照预定规则筛选微生物物种基因组,去除分类不明确、分类错误及质量低的基因组;
(5)构建参考集:挑选部分高质量基因组组成参考基因组;
(6)构建泛基因组:将剩余高质量基因组与参考基因组比对,去掉冗余部分,得到泛基因组数据库;
其中步骤(3)构建典型代表基因组集合包括:
如果微生物物种有多个典型菌来源的高质量基因组,选择完整度最高的基因组为该微生物物种的典型代表基因组;并将其与其他物种基因组比对:如果没有发现基因组一致性≥S1%的物种基因组,则不存在分类错误,如果发现基因组一致性≥S1%的物种基因组,则存在分类错误,重新选取该微生物物种典型代表基因组;其中S1为85-100;
其中步骤(5)构建参考集包括:
(5-1)将微生物的典型代表基因组划定为参考基因组;
(5-2)将未被划分为参考基因的组基因组与微生物的典型代表基因组进行相似性分析,一致性≥S3%且相似性≥O1%的划分为被代表基因组;其中S3为85-100,O1为75-100;
(5-3)未被划分为被代表基因组的基因组按照基因组组装级别:完成图、染色体、骨架序列和连续交叠群序列级别挑选一株加入参考基因组,将其余基因组分别对新加入的参考基因组比对,其中基因组一致性≥S4%且相似性≥O2%为划分为被代表菌;其中S4为85-100,O2为75-100;
(5-4)重复步骤(5-3)直至所有基因组都划分为参考基因组或被代表基因组。
2. 根据权利要求1所述的微生物基因组参考数据库的构建方法,其特征在于:
S1为95;和/或
S3和S4为94,O1和O2为80。
3. 根据权利要求1所述的微生物基因组参考数据库的构建方法,其中所述步骤(1)数据获取步骤中,所述基因组数据来源可选自由基因组,IMG/M数据库,EMBL 数据库,FDA-ARGOS数据库,EuPathDB数据库,NCBI GenBank和NCBI RefSeq中微生物基因组数据中的一个或多个;所述步骤(2)数据质控包括:利用质控工具评估基因组数据完整性和污染度,将完整性≥Cp%且污染度≤Cm%的基因组定为高质量基因组;其中Cp为85-100,Cm为0-10。
4.根据权利要求1所述的微生物基因组参考数据库的构建方法,其中步骤(4)基因组筛选包括将典型代表基因组之外的其他基因组与对应的典型代表基因组比对,基因组一致性≥S2%代表分类正确;其中S2为85-100。
5.根据权利要求4所述的微生物基因组参考数据库的构建方法,其中S2为95。
6.根据权利要求1所述的微生物基因组参考数据库的构建方法,其中步骤(6)构建泛基因组包括:
(6-1)将参考基因组设定为泛基因组;
(6-2)将被代表基因组按照基因组序列平均长度递减依次与物种泛基因组比对,将与泛基因组中一致性≤S5%且长度≥L bp的基因组加入泛基因组中;其中S5为85-100,L为50-5000;
(6-3)重复(6-1)和(6-2),直至所有参考基因组都完成相应的泛基因组构建。
7.根据权利要求6所述的微生物基因组参考数据库的构建方法,其中S5为95,L为500。
8.根据权利要求1-7任一项所述的微生物基因组参考数据的构建方法,其中所述微生物基因组参考数据库包含多种微生物基因组参考数据库。
9.根据权利要求1-8任一项所述的微生物基因组参考数据库的构建方法在微生物检测中的应用,所述应用为非诊断用途,其特征在于,所述应用包括对样本进行测序以及将测序结果与微生物基因组参考数据库进行比对的步骤。
10.微生物基因组参考数据库的构建装置,其特征在于,包括:
数据获取模块,用于获取微生物物种基因组数据;
数据质控模块,用于评估基因组数据质量,设定高质量基因组;
典型代表基因组集合构建模块,用于使用所述数据质控模块获得的高质量基因组来构建典型代表基因组集合;其中,所述典型代表基因组集合构建模块具体执行如下控制逻辑:
如果微生物物种有多个典型菌来源的高质量基因组,则选择完整度最高的基因组为所述微生物物种的典型代表基因组;
将其与其它物种基因组比对:如果没有发现基因组一致性≥S1%的物种基因组,则不存在分类错误;如果发现基因组一致性≥S1%的物种基因组,则存在分类错误,重新选取该微生物物种典型代表基因组;其中,S1为85-100;
基因组筛选模块,用于按照预定规则筛选微生物物种基因组,去除分类不明确、分类错误及质量低的基因组;
参考集构建模块,用于从所述数据质控模块获得的高质量基因组中挑选部分高质量基因组组成参考基因组;其中,所述参考集构建模块具体执行如下控制逻辑:
(1)将微生物的典型代表基因组划定为参考基因组;
(2)将未被划分为参考基因的组基因组与微生物的典型代表基因组进行相似性分析,一致性≥S3%且相似性≥O1%的划分为被代表基因组;其中,S3为85-100,O1为75-100;
(3)未被划分为被代表基因组的基因组按照基因组组装级别:完成图、染色体、骨架序列和连续交叠群序列级别挑选一株加入参考基因组,将其余基因组分别对新加入的参考基因组比对,其中基因组一致性≥S4%且相似性≥O2%的划分为被代表菌;其中,S4为85-100,O2为75-100;
(4)重复(3)直至所有基因组都划分为参考基因组或被代表基因组;
泛基因组构建模块,用于将从所述数据质控模块获得的高质量基因组中挑选剩余的高质量基因组与参考基因组比对,去掉冗余部分,得到泛基因组数据库。
11.根据权利要求10所述的微生物基因组参考数据库的构建装置,其特征在于:
S1为95;和/或
S3和S4为94,O1和O2为80。
12. 根据权利要求10所述的微生物基因组参考数据库的构建装置,其特征在于,所述数据获取模块获取的基因组数据选自自有基因组、IMG/M数据库、EMBL 数据库、FDA-ARGOS数据库、EuPathDB数据库、NCBI GenBank和NCBI RefSeq中的微生物基因组数据中的一个或多个;所述数据质控模块具体执行如下控制逻辑:利用质控工具评估基因组数据完整性和污染度,将完整性≥Cp%且污染度≤Cm%的基因组定为高质量基因组;其中,Cp为85-100,Cm为0-10。
13.根据权利要求10所述的微生物基因组参考数据库的构建装置,其特征在于,所述基因组筛选模块将典型代表基因组之外的其它基因组与对应的典型代表基因组比对,基因组一致性≥S2%代表分类正确;其中,S2为85-100。
14.根据权利要求13所述的微生物基因组参考数据库的构建装置,其特征在于,S2为95。
15.根据权利要求10所述的微生物基因组参考数据库的构建装置,其特征在于,所述泛基因组构建模块具体执行如下控制逻辑:
(1)将参考基因组设定为泛基因组;
(2)将被代表基因组按照基因组序列平均长度递减依次与物种泛基因组比对,将与泛基因组中一致性≤S5%且长度≥L bp的基因组加入泛基因组中;其中,S5为85-100,L为50-5000;
(3)重复(1)和(2),直至所有参考基因组都完成相应的泛基因组构建。
16.根据权利要求15所述的微生物基因组参考数据库的构建装置,其特征在于,S5为95,L为500。
17.根据权利要求10-16任一项所述的微生物基因组参考数据库的构建装置,其特征在于,所述微生物基因组参考数据库包含多种微生物基因组参考数据库。
18. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202211644956.6A 2022-12-20 2022-12-20 微生物基因组参考数据库及其构建方法和应用 Active CN116153410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211644956.6A CN116153410B (zh) 2022-12-20 2022-12-20 微生物基因组参考数据库及其构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211644956.6A CN116153410B (zh) 2022-12-20 2022-12-20 微生物基因组参考数据库及其构建方法和应用

Publications (2)

Publication Number Publication Date
CN116153410A CN116153410A (zh) 2023-05-23
CN116153410B true CN116153410B (zh) 2023-12-19

Family

ID=86349929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211644956.6A Active CN116153410B (zh) 2022-12-20 2022-12-20 微生物基因组参考数据库及其构建方法和应用

Country Status (1)

Country Link
CN (1) CN116153410B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201518364D0 (en) * 2015-10-16 2015-12-02 Genome Res Ltd Methods associated with a database that stores a plurality of reference genomes
CN111009286A (zh) * 2018-10-08 2020-04-14 深圳华大因源医药科技有限公司 对宿主样本进行微生物分析的方法和装置
CN112863606A (zh) * 2021-03-08 2021-05-28 杭州微数生物科技有限公司 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法
CN112992277A (zh) * 2021-03-18 2021-06-18 南京先声医学检验有限公司 一种微生物基因组数据库构建方法及其应用
CN114974411A (zh) * 2022-06-28 2022-08-30 杭州杰毅医学检验实验室有限公司 宏基因组病原微生物基因组数据库及其构建方法
CN115148288A (zh) * 2022-06-29 2022-10-04 慕恩(广州)生物科技有限公司 一种微生物识别的方法、识别装置及相关设备
CN115394361A (zh) * 2022-08-15 2022-11-25 中国科学院心理研究所 用于构建微生物基因组数据库的方法、设备和介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11830580B2 (en) * 2018-09-30 2023-11-28 International Business Machines Corporation K-mer database for organism identification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201518364D0 (en) * 2015-10-16 2015-12-02 Genome Res Ltd Methods associated with a database that stores a plurality of reference genomes
CN111009286A (zh) * 2018-10-08 2020-04-14 深圳华大因源医药科技有限公司 对宿主样本进行微生物分析的方法和装置
CN112863606A (zh) * 2021-03-08 2021-05-28 杭州微数生物科技有限公司 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法
CN112992277A (zh) * 2021-03-18 2021-06-18 南京先声医学检验有限公司 一种微生物基因组数据库构建方法及其应用
CN114974411A (zh) * 2022-06-28 2022-08-30 杭州杰毅医学检验实验室有限公司 宏基因组病原微生物基因组数据库及其构建方法
CN115148288A (zh) * 2022-06-29 2022-10-04 慕恩(广州)生物科技有限公司 一种微生物识别的方法、识别装置及相关设备
CN115394361A (zh) * 2022-08-15 2022-11-25 中国科学院心理研究所 用于构建微生物基因组数据库的方法、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A human gut microbial gene catalogue established by metagenomic sequencing.";Qin Junjie 等;《Nature》;第464卷(第7285期);59-65 *
"宏基因组基因集构建方法及其应用研究";王恒超;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;第2019年卷(第15期);A006-337 *

Also Published As

Publication number Publication date
CN116153410A (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Steinegger et al. Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold
Monzoorul Haque et al. SOrt-ITEMS: Sequence orthology based approach for improved taxonomic estimation of metagenomic sequences
Piro et al. DUDes: a top-down taxonomic profiler for metagenomics
Cornet et al. Contamination detection in genomic data: more is not enough
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
JP2019537780A (ja) メタゲノム試料中の病原体の同定と抗生物質の特徴づけ
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和***
Saheb Kashaf et al. Recovering prokaryotic genomes from host-associated, short-read shotgun metagenomic sequencing data
CN114121160B (zh) 一种检测样本中宏病毒组的方法和***
CN105740650A (zh) 一种快速准确鉴定高通量基因组数据污染源的方法
CN115719616B (zh) 一种病原物种特异性序列的筛选方法及***
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及***
Ochoa et al. Beyond the E-value: stratified statistics for protein domain prediction
Yang et al. A robust and generalizable immune-related signature for sepsis diagnostics
Huang et al. Simultaneously identify three different attributes of proteins by fusing their three different modes of Chou's pseudo amino acid compositions
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
Hickl et al. binny: an automated binning algorithm to recover high-quality genomes from complex metagenomic datasets
Pratas et al. Metagenomic composition analysis of sedimentary ancient DNA from the Isle of Wight
CN116153410B (zh) 微生物基因组参考数据库及其构建方法和应用
US20220270710A1 (en) Novel method for processing sequence information about single biological unit
CN109997193B (zh) 一种对特定群中的亚群进行定量分析的方法
CN115938491B (zh) 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及***
CN114496089B (zh) 一种病原微生物鉴定方法
Holstein et al. PepGM: a probabilistic graphical model for taxonomic inference of viral proteome samples with associated confidence scores
Ha et al. Automated classification of giant virus genomes using a random forest model built on trademark protein families

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant