CN115346608B - 一种构建病原生物基因组数据库的方法及装置 - Google Patents

一种构建病原生物基因组数据库的方法及装置 Download PDF

Info

Publication number
CN115346608B
CN115346608B CN202210743555.XA CN202210743555A CN115346608B CN 115346608 B CN115346608 B CN 115346608B CN 202210743555 A CN202210743555 A CN 202210743555A CN 115346608 B CN115346608 B CN 115346608B
Authority
CN
China
Prior art keywords
genome
sequence
database
shielding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210743555.XA
Other languages
English (en)
Other versions
CN115346608A (zh
Inventor
黄毅
杨振宇
刘久成
黄靖传
易鑫
杨玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Guiinga Medical Laboratory
Geneplus-Beijing
Original Assignee
Shenzhen Guiinga Medical Laboratory
Geneplus-Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Guiinga Medical Laboratory, Geneplus-Beijing filed Critical Shenzhen Guiinga Medical Laboratory
Priority to CN202210743555.XA priority Critical patent/CN115346608B/zh
Publication of CN115346608A publication Critical patent/CN115346608A/zh
Application granted granted Critical
Publication of CN115346608B publication Critical patent/CN115346608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种构建病原生物基因组数据库的方法及装置,该方法包括:获取基因组数据步骤,包括从数据库获取选定的病原生物的基因组数据;同源区域屏蔽步骤,包括对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;融合基因组构建步骤,包括对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;组库步骤,包括重复所述获取基因组数据步骤、同源区域屏蔽步骤、融合基因组构建步骤,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。该方法构建的数据库具有准确度高,分析时间短的优点。

Description

一种构建病原生物基因组数据库的方法及装置
技术领域
本发明涉及生物信息学领域,具体涉及一种构建病原生物基因组数据库的方法及装置。
背景技术
mNGS是一种可以应用于临床检测病原微生物的一项新技术,在不需要先验知识的情况下可以很好地检测罕见的、新的和共感染的病原体,并且在耐药性预测方面具有优势,从而为危重病或免疫缺陷患者的难诊断感染提供了新的诊断线索。而mNGS的微生物数据库是其技术核心之一,数据库直接影响了mNGS检测的物种数和准确度。
构建病原生物数据库中的数据大部分来自公共数据库,而公共数据库中每个物种都可能有多个组装版本或者菌株,并且公共数据库中对于细菌、病毒等类型的物种,增加新的组装版本和新菌株的速度非常快,以肺炎克雷伯菌为例,仅2021年就增加了4732个肺炎克雷伯菌的基因组,占总数的16.5%。所以如何构建一个全面、时效性高的病原生物数据库是一个很大的难题。
发明内容
根据第一方面,一种实施例中提供一种构建病原生物基因组数据库的方法,包括:
获取基因组数据步骤,包括从数据库获取选定的病原生物的基因组数据;
同源区域屏蔽步骤,包括对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
融合基因组构建步骤,包括对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;
组库步骤,包括重复所述获取基因组数据步骤、同源区域屏蔽步骤、融合基因组构建步骤,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
根据第二方面,在一实施例中,提供第一方面任意一项的方法构建得到的数据库。
根据第三方面,在一实施例中,提供一种构建病原生物基因组数据库的装置,包括:
获取基因组数据模块,用于从数据库获取选定的病原生物的基因组数据;
同源区域屏蔽模块,用于对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
融合基因组构建模块,用于对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;
组库模块,用于重复所述获取基因组数据模块、同源区域屏蔽模块、融合基因组构建模块的方法,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
根据第四方面,在一实施例中,提供一种构建生物基因组数据库的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面任意一项的方法。
根据第五方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面任意一项的方法。
依据上述实施例的一种构建病原生物基因组数据库的方法及装置,该方法构建的数据库具有准确度高,分析时间短的优点。
附图说明
图1为5个高质量基因组库挑选基因组的模拟测试数据的比对率结果图;
图2为5个不在高质量基因组库的基因组的模拟测试数据的比对率结果图;
图3为一种实施例的分析时间结果图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
本文中,“mNGS”(metagenomics next generation sequencing)是指对样本(主要是临床样本)中的核酸进行高通量测序,检测样本中至少一种病原生物(例如病原微生物)的方法。可用于危急重症、疑难感染等疾病的诊断。
本文中,“病原生物”是指可造成人或动植物感染疾病的微生物(包括细菌、病毒、立克次氏体、真菌)、寄生虫或其他媒介(例如微生物重组体,包括杂交体或突变体)。
本文中,“病原微生物”是指可以侵犯人体,引起感染甚至传染病的微生物,或称病原体。病原体中,以细菌和病毒的危害性最大。病原微生物包括但不限于朊毒体、真菌、细菌、螺旋体、支原体、立克次体、衣原体、病毒。
本文中,“细菌”(英文:germs;学名:bacteria)是生物的主要类群之一,属于细菌域。广义的细菌即为原核生物,是指一大类细胞核无核膜包裹,只存在拟核区(nuclearregion)或拟核的裸露DNA的原始单细胞生物,包括真细菌(eubacteria)和古生菌(archaea)两大类群。其中除少数属古生菌外,多数的原核生物都是真细菌。本文的细菌包括古生菌、真细菌。
本文中,“病毒”(Biological virus)是一种个体微小,结构简单,只含一种核酸(DNA或RNA),必须在活细胞内寄生并以复制方式增殖的非细胞型生物。
本文中,“寄生虫”(parasite)指具有致病性的低等真核生物,可作为病原体,也可作为媒介传播疾病。寄生虫包括在宿主或寄主(host)体内或附着于体外以获取维持其生存、发育或者繁殖所需的营养或者庇护的一切生物。许多小动物以寄生的方式生存,依附在比它们更大的动物身上。
对于病原微生物,目前大多数宏基因组的数据库构建流程仅挑选一个微生物代表的基因组,或者把一个物种高质量菌株全部纳入到数据库中,或者通过将选定的物种基因组打断重新组装的方法纳入到数据库中,前述三种方法各有优缺点。
只选取一株代表的基因组优点是数据库小和分析时间快,但是由于微生物等病原生物基因组进化较快,部分进化较快的物种基因组差异可达3%以上,并且根据临床实际应用的情况,大部分病原微生物等病原生物检出的序列数在几十或者是几百之间,如果仅选取一个代表基因组的方法常常会出现漏检的情况。
而将一个物种所有高质量菌株全部纳入数据库的方法优点是可以避免漏检的情况,但是会使分析时间增长,而mNGS多应用于危重病中,在临床应用中时效性是非常重要的,现有的数据库无法满足危重病等情形下的快速分析需求。
对于通过将选定的物种基因组打断重新组装的方法纳入到数据库中这一方法,要实现数据库更新,只能对所有基因组(包括之前纳入的基因组)重新进行基因组打断、序列集去冗杂、非冗杂序列集组装、基因组Contigs拼接步骤,造成数据库更新困难,而且耗费的计算机资源较多。
根据第一方面,在一实施例中,提供一种构建病原生物基因组数据库的方法,包括:
获取基因组数据步骤,包括从数据库获取选定的病原生物的基因组数据;
同源区域屏蔽步骤,包括对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
融合基因组构建步骤,包括对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;
组库步骤,包括重复获取基因组数据步骤、同源区域屏蔽步骤、融合基因组构建步骤,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
在一实施例中,质粒同源区域屏蔽、宿主源同源区域屏蔽无先后顺序之分,可以先进行质粒同源区域屏蔽步骤,再进行宿主源同源区域屏蔽步骤;在另一实施例中,也可以先进行宿主源同源区域屏蔽步骤,再进行质粒同源区域屏蔽步骤。
质粒同源区域屏蔽步骤旨在屏蔽所选定的病原生物的基因组中与质粒同源的区域序列,宿主源同源区域屏蔽步骤旨在屏蔽所选定的病原生物的基因组中与宿主同源的区域序列。
由于病原数据库通常都会包含多种病原生物的数据,因此,组库步骤需要重复前面的获取基因组数据步骤、质粒同源区域屏蔽步骤、宿主同源区域屏蔽步骤、融合基因组构建步骤。
在一实施例中,获取基因组数据步骤中的“物种”是指生物分类学中的阶元“种”。
在一实施例中,质粒同源区域屏蔽步骤中,包括将基因组数据中含有“Plasmid”或“plasmid”关键词的序列去掉,获得除去质粒的基因组序列。
在一实施例中,质粒同源区域屏蔽步骤中,包括将除去质粒的基因组序列打断,获得序列集,将序列集中每条序列与质粒数据库比较,如果100%匹配,则将该序列在融合基因组上的相应位置的碱基用N进行替换,获得屏蔽质粒同源区域后的基因组数据。由于该步骤是基于比较进行,因此,100%匹配才能识别。
在一实施例中,质粒同源区域屏蔽步骤中,打断后获得的序列集中,序列长度为31~50bp。鉴于质粒同源区域屏蔽步骤中,在将序列集中每条序列与质粒数据库比较时,是在100%匹配后,再将该序列在融合基因组上的相应位置的碱基用N进行替换。因此,将序列打断至31~50bp,有利于提高兼容性。
在一实施例中,质粒同源区域屏蔽步骤中,打断后获得的序列集中,序列的移步步长≤10bp,优选为1bp。
在一实施例中,宿主源同源区域屏蔽步骤中,包括将基因组打断,获得打断的序列集,将序列集中每条序列与宿主参考基因组比较,如果100%匹配,则将该序列在基因组上的相应位置的碱基用N进行替换,获得屏蔽宿主源同源区域后的序列集。该步骤达到屏蔽宿主同源区域序列的目的,降低宿主同源区的干扰。
在一实施例中,宿主同源区域屏蔽步骤中,打断的序列集中,序列长度为31~50bp。
在一实施例中,宿主同源区域屏蔽步骤中,打断的序列集中,序列的移步步长≤10bp,优选为1bp。
在一实施例中,融合基因组构建步骤中,从屏蔽同源区域后的基因组数据中选取一基因组作为代表基因组,对屏蔽同源区域序列后的基因组数据中的其他基因组依次进行如下步骤:1)基因组打断;2)序列集比对;3)过滤同源区域;4)获取特异区域序列;5)构建融合基因组,将得到的融合基因组作为代表基因组,重复进行前述步骤1)至5),直至遍历屏蔽同源区域后的基因组数据中的所有基因组。
在一实施例中,步骤1)中,将基因组打断成长度为第一预设长度且不重叠的序列集,并在序列ID上记录序列集里每条序列在基因组上的起始位置与结束位置。
在一实施例中,步骤1)中,第一预设长度可以为500bp。此处的预设长度仅仅是示例性列举,也可以打断为其他的长度。
在一实施例中,步骤2)中,对序列集与代表基因组进行比对,得到序列集中每条序列与代表基因组的比对结果,并根据位置信息,将比对结果的位置修改成原基因组的位置。
在一实施例中,步骤3)中,将相似性≥第一预设值,比对长度大于第二预设值的比对结果区域对应的序列碱基用碱基N替代,得到新基因组序列,新基因组序列与代表基因组同源的区域都用N表示。
在一实施例中,步骤3)中,第一预设值可以为97%。
在一实施例中,步骤3)中,第二预设值可以为50bp。
此处的第一预设值、第二预设值仅仅是示例性列举,也可以设定其他的预设值。
在一实施例中,步骤4)中,将步骤3)获得的新基因组序列的非N区作为特异区,对特异区往前取第二预设长度和往后取第三预设长度,得到特异序列集。
在一实施例中,步骤4)中,第二预设长度、第三预设长度独立地为50bp。第一预设长度、第二预设长度可以相同,也可以不同。此处的第二预设长度、第三预设长度具体值仅仅是示例性列举,也可以设置其他的长度。
在一实施例中,步骤5)中,使用至少10个连续的N连接步骤4)获得的特异序列集,并使用至少10个连续的N连接代表基因组(即,使用至少10个连续的N将N连接后的特异序列集与代表基因组连接起来),得到融合基因组,将得到的融合基因组作为代表基因组重复步骤1)~5),直至遍历基因组库中的所有基因组。
在一实施例中,用于连接特异序列集与代表基因组的N的数量最好和连接特异序列集的每一个N连续序列的N数量一致或者接近。
在一实施例中,步骤5)中,使用10个连续的N连接步骤4)获得的特异序列集。
在一实施例中,步骤5)中,使用10个N连接代表基因组。
在一实施例中,还包括数据库更新步骤,包括对新挑选的基因组执行同源区域屏蔽步骤,然后将当前数据库中该病原生物的融合基因组作为代表基因组,执行融合基因组构建步骤,最后执行组库步骤,获得更新后的数据库。
在一实施例中,如某种病原生物有新的基因组发布或者需要纳入更多的基因组,则对新挑选的基因组执行同源区域屏蔽步骤,然后将当前数据库中该病原生物的融合基因组作为代表基因组执行“融合基因组构建”步骤,最后执行“组库步骤,”即可达到数据库更新的功能。
在一实施例中,获取基因组数据步骤中,数据库可以包括但不限于NCBI网站上的Genbank数据库。
在一实施例中,获取基因组数据步骤中,选定的病原生物包括但不限于细菌、真菌、病毒。
在一实施例中,获取基因组数据步骤中,选定的病原生物包括寄生虫。
在一实施例中,如果所选定的病原生物为细菌,质粒同源区域屏蔽步骤中,屏蔽基因组数据中的细菌质粒同源序列。
在一实施例中,获取基因组数据步骤中,从数据库获取选定的病原生物的完整基因组。
在一实施例中,选定的病原生物为不含有质粒的微生物时,不进行质粒同源区域屏蔽步骤,在获取基因组数据后,执行宿主源同源区域屏蔽步骤、融合基因组构建步骤、组库步骤。
在一实施例中,获取基因组数据步骤中,选定的病原生物包括但不限于病原微生物。
在一实施例中,宿主源同源区域屏蔽步骤中,宿主包括人或动物,包括所有哺乳动物诸如灵长类(特别是高等灵长类)、绵羊、犬、啮齿动物(例如小鼠或大鼠)、豚鼠、山羊、猪、猫、兔和牛。
根据第二方面,在一实施例中,提供第一方面任意一项的方法构建得到的数据库。
在一实施例中,构建得到的数据库可以包含一个、两个或者更多种病原生物的融合基因组,在组库步骤对多个选定的病原生物基因组数据重复前面的步骤,即可构建得到包含多种病原生物的融合基因组的数据库。例如,构建的数据库可以包含肠道病菌、呼吸道病菌等等多种微生物的融合基因组。
根据第三方面,在一实施例中,提供一种构建病原生物基因组数据库的装置,包括:
获取基因组数据模块,用于从数据库获取选定的病原生物的基因组数据;
同源区域屏蔽模块,用于对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
融合基因组构建模块,用于对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;
组库模块,用于重复获取基因组数据模块、同源区域屏蔽模块、融合基因组构建模块的方法,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
在一实施例中,该装置还包括数据库更新模块,用于对新挑选的基因组执行同源区域屏蔽模块的方法,然后将当前数据库中该病原生物的融合基因组作为代表基因组,执行融合基因组构建模块的方法,最后执行组库模块的方法,获得更新后的数据库。
根据第四方面,在一实施例中,提供一种构建病原生物基因组数据库的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行存储器存储的程序以实现如第一方面任意一项的方法。
根据第五方面,在一实施例中,提供一种计算机可读存储介质,介质上存储有程序,程序能够被处理器执行以实现如第一方面任意一项的方法。
在一实施例中,本发明提供一种病原生物基因组数据库的构建方法,既有准确度高,分析时间短的优点,又具有可迭代,维护简单等优点。
在一实施例中,本发明的数据库的构建步骤如下:获取基因组数据、屏蔽质粒同源区域序列与过滤、构建病原生物融合基因组、屏蔽人源同源区、组库。
在一实施例中,本发明构建数据库的方法包括:
通过一定的筛选规则,获得高质量基因组库;
对高质量基因组库中的基因组去除质粒序列和质粒同源区;
与宿主(例如人类)基因组比较,屏蔽人源同源区域;
然后通过不断把单个高质量基因组与参考基因组比对的方法,增加病原生物(例如微生物)的特异序列,从而得到该病原生物的融合基因组;
然后汇总得到病原生物基因组数据库。
在一实施例中,本发明构建的数据库既有准确度高,分析时间短的优点,又具有可迭代,维护简单等优点。
现有技术中,要实现数据库更新,只能对所有基因组(包括之前纳入的基因组)重新进行基因组打断、序列集去冗杂、非冗杂序列集组装、基因组Contigs拼接步骤。在一实施例中,本发明只需要对新纳入的基因组进行去除质粒序列、过滤、构建融合基因组步骤即可。
在一实施例中,本发明准确率高的主要原因在于更严格的屏蔽质粒和人源同源区域,排除更多的假阳性序列(Reads)比对上的可能性。本发明构建融合基因组步骤的好处在于可以版本迭代,不需要在公共数据库发布新的同样物种的基因组后重新对所有基因组构建融合基因组步骤,只需要对新发布的基因组进行融合基因组步骤,而现有的方法需要重新进行基因组打断、序列集去冗杂、非冗杂序列集组装、基因组Contigs拼接,难以实现版本迭代。
在一实施例中,本发明组库完成后,最终获得的基因组数据量更小,实施例1中,1239个基因组融合后的大小仅仅为62M,耗费的计算机资源更少。
在一实施例中,本发明构建融合基因组的方法可以在8CPU、16G内存的计算机上运行,而现有方法不能,现有技术中仅仅“序列集去冗余”步骤就需要较大的内存,还有后续组装的步骤也需要耗费较大的计算机资源。
实施例1
本实施例提供一种病原微生物基因组数据库的构建方法,包括如下步骤:
获取基因组数据
从NCBI网站上的Genbank数据库中下载描述文件“assembly_summary_genbank.txt”,描述文件下载地址为:(https://ftp.ncbi.nih.gov/genomes/genbank/assembly_summary_genbank.txt),选取组装状态为“Complete Genome”的基因组,本实施例以肺炎克雷伯菌为例,共筛选出1239个肺炎克雷伯完整基因组,得到肺炎克雷伯的高质量基因组库。
如某些物种无组装状态为“Complete Genome”的基因组,就代表该物种没有完整的基因组,则挑选组装状态为“Chromosome”、“Scaffold”、“Contig”的基因组。
屏蔽质粒同源区域序列
PLSDB数据库(https://ccb-microbe.cs.uni-saarland.de/plsdb/)收纳了如今公布的几乎所有细菌质粒序列,通过PLSDB数据库将高质量基因组库中的细菌质粒同源区屏蔽,真菌、病毒和寄生虫等分类的物种是不含有质粒序列的,所以不需要去除质粒同源序列。
具体步骤如下:
1.先将基因组fasta文件序列名称描述信息中含有“Plasmid”或“plasmid”关键词的序列去掉。鉴于非完整的基因组没有“Plasmid”或“plasmid”关键词,并且有部分完整基因组序列命名不规范的情况下,也没有“Plasmid”或“plasmid”关键词,因此,仅仅去除含有“Plasmid”或“plasmid”关键词的序列并不彻底,所以要进行下一步的比对、替换。
2.将去掉质粒后的基因组序列打断成31bp(31bp-50bp)且移步步长为1bp的序列集,将序列集中每条序列与质粒数据库比较,如果100%匹配,则将该序列在去掉质粒后的基因组上的相应位置的碱基用N进行替换,从而达到屏蔽质粒同源区域序列的目的,获得屏蔽质粒同源区域序列的基因组数据。
屏蔽人源同源区域序列
将上述得到的屏蔽质粒同源区域序列的基因组打断成31bp且移步步长为1bp的序列集,将序列集中每条序列与人类参考基因组比较,如果100%匹配则将该序列在融合基因组上的相应位置的碱基用N进行替换,从而达到屏蔽人源同源区域序列的目的,降低人源同源区的干扰。获得屏蔽人源同源区域序列后的高质量基因组库。
选取的人类参考基因组为全长无空隙的T2TCHM13v2.0人细胞系参考基因组,该组装版本信息全,无模棱两可的碱基(N),该基因组下载地址为:https://www.ncbi.nlm.nih.gov/assembly/GCA_009914755.4/。
构建微生物融合基因组
从屏蔽质粒同源区域以及人源同源区域序列后的高质量基因组库中随机挑选一个基因组作为该物种的代表基因组,并通过软件makeblastdb建立索引,然后把高质量基因组库中的其他基因组重复执行以下步骤,直至遍历高质量基因组库:
1.基因组打断:将基因组打断成长度为500bp不重叠的序列集,并在序列ID上记录序列集里每条序列在基因组上的起始位置与结束位置,如(>SeqID_Start-End)。
2.序列集比对:通过软件blastn,对序列集与代表基因组进行比对,得到序列集中每条序列与代表基因组的比对结果,并根据位置信息,将比对结果的位置修改成原基因组的位置。
3.过滤同源区域:将相似性97%以上,且比对长度大于50bp的比对结果区域对应的序列碱基用碱基N替代,得到一个新基因组序列,该基因组序列与代表基因组同源的区域都用N表示。
4.获取特异区域序列:将上述得到的新基因组序列非N区作为特异区,对特异区往前取50bp和往后取50bp,得到特异序列集。
5.融合基因组:使用10个连续的N连接上述特异序列集,并使用10个N连接代表基因组,得到融合基因组,将得到的融合基因组作为代表基因组重复上述步骤1~5,直至遍历高质量基因组库。
组库
对选定的微生物物种重复上述获取基因组数据、屏蔽质粒同源区域序列、屏蔽人源同源区域序列、构建微生物融合基因组的步骤,汇总得到病原微生物基因组数据库。
数据库更新
如该数据库的物种有新的基因组发布或者需要纳入更多的基因组,则对新挑选的基因组执行步骤“屏蔽质粒同源区域序列”、“屏蔽人源同源区域序列,”然后将当前数据库中该物种的融合基因组作为代表基因组执行步骤“构建微生物融合基因组,”最后执行“组库”步骤,即可达到数据库更新的功能。
对比方法如下:
在NCBI Genome数据库查询下载肺炎克雷伯的参考基因组(reference genome),按照一个物种只选取一株菌株基因组的方法(方法一)构建数据库。
将实施案例1“获取基因组数据”步骤中得到的1239个肺炎克雷伯菌菌株的高质量基因组库作为一个物种高质量菌株(方法二)的数据库。
一、数据库大小比较
上述方法一得到的数据库大小为5.5M,方法二得到的数据库大小为6.1G,本实施例1得到的数据库大小为62M。从数据库大小可以看出,实施例1的方法构建的数据库显著小于方法二。
二、比对率比较
从上述高质量基因组库中随机挑选5个肺炎克雷伯基因组,从“assembly_summary_genbank.txt”中随机挑选5个染色体级别且不在高质量基因库的基因组,对这10个基因组生成长度为50bp,深度为5×的模拟测序数据,用于测试分析效果。使用bwa-mem2软件,线程数为4,将模拟测试数据分别比对到上述构建的三种数据库中,分别统计三种数据库的比对率与分析时间。
比对率结果如图1和图2所示,图1和图2分别是“5个高质量基因组库挑选基因组的模拟测试数据”和“5个不在高质量基因组库的基因组的模拟测试数据”比对到三种方法构建的数据库的比对率结果图,从图中可以看出,方法一构建的数据库的比对率平均值为89.51%(此为图1、2中方法一的比对率平均值),方法二构建的数据库的比对率平均值为98.9%(此为图1、2中方法二的比对率平均值),实施例1的方法构建的数据库的比对率平均值为98.8%(此为图1、2中实施例1的比对率平均值),实施例1的方法构建的数据库的准确率与方法二几乎一致,且显著高于方法一。
三、分析时间比较
分析时间结果如图3所示,可见,方法一构建的数据库平均分析时间是3.72s,方法二构建的数据库平均分析时间是176.27s,本实施例构建的数据库平均分析时间是6.38s。由于分析时间还与模拟的数据量以及设备的CPU等因素有关,单独根据分析时间来衡量分析速度缺乏客观性,则可进一步通过时间倍数来衡量各个数据库的分析速度,具体地,方法二相对于方法一的时间倍数为176.27/3.72≈47.384,实施例1的方法相对于方法一的时间倍数为6.38/3.72≈1.715。可见,实施例1相对于方法二显著提高了分析速度。同时,结合图1、2的结果可知,实施例1构建的数据库的准确率与方法二几乎一致,因此,实施例1在不降低准确率的前提下,显著提高了分析速度。
因此,从数据库大小,比对率和分析时间三方面比较三种方法构建的数据库,实施例1的比对率显著高于方法一,与方法二相近,但数据库大小仅有方法二的百分之一左右,分析时间仅是方法一的1.7倍,具有较高的分析速度。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的***进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (11)

1.一种构建病原生物基因组数据库的方法,其特征在于,包括:
获取基因组数据步骤,包括从数据库获取选定的病原生物的基因组数据;
同源区域屏蔽步骤,包括对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
融合基因组构建步骤,包括对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;具体地,从屏蔽同源区域后的基因组数据中选取一基因组作为代表基因组,对屏蔽同源区域序列后的基因组数据中的其他基因组依次进行如下步骤:1)基因组打断;2)序列集比对;3)过滤同源区域;4)获取特异区域序列;5)构建融合基因组,将得到的融合基因组作为代表基因组,重复进行前述步骤1)至5),直至遍历屏蔽同源区域后的基因组数据中的所有基因组;所述步骤1)中,将基因组打断成长度为第一预设长度且不重叠的序列集,并在序列ID上记录序列集里每条序列在基因组上的起始位置与结束位置;所述步骤2)中,对序列集与代表基因组进行比对,得到序列集中每条序列与代表基因组的比对结果,并根据位置信息,将比对结果的位置修改成原基因组的位置;所述步骤3)中,将相似性≥第一预设值,且比对长度大于第二预设值的比对结果区域对应的序列碱基用碱基N替代,得到新基因组序列,所述新基因组序列与代表基因组同源的区域都用N表示;所述步骤4)中,将所述步骤3)获得的新基因组序列的非N区作为特异区,对特异区往前取第二预设长度和往后取第三预设长度,得到特异序列集;所述步骤5)中,使用至少10个连续的N连接所述步骤4)获得的特异序列集,并使用至少10个连续的N连接代表基因组,得到融合基因组,将得到的融合基因组作为代表基因组,重复所述步骤1)~5),直至遍历屏蔽宿主源同源区域序列后的基因组数据中的所有基因组;
组库步骤,包括重复所述获取基因组数据步骤、同源区域屏蔽步骤、融合基因组构建步骤,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
2.如权利要求1所述的方法,其特征在于,所述质粒同源区域屏蔽步骤中,包括将基因组数据中含有“Plasmid”或“plasmid”关键词的序列去掉,获得除去质粒后的基因组序列;
将所述除去质粒的基因组序列打断,获得序列集,将所述序列集中每条序列与质粒数据库比较,如果100%匹配,则将该序列在融合基因组上的相应位置的碱基用N进行替换,获得屏蔽质粒同源区域后的基因组数据;
或,质粒同源区域屏蔽步骤中,打断后获得的序列集中,序列长度为31~50bp;
或,质粒同源区域屏蔽步骤中,打断后获得的序列集中,序列的移步步长≤10bp;
或,所述宿主源同源区域屏蔽步骤中,包括将基因组打断,获得打断的序列集,将所述序列集中每条序列与宿主参考基因组比较,如果100%匹配,则将该序列在基因组上的相应位置的碱基用N进行替换,获得屏蔽宿主源同源区域后的序列集;
或,所述宿主源同源区域屏蔽步骤中,所述打断的序列集中,序列长度为31~50bp;
或,所述宿主源同源区域屏蔽步骤中,所述打断的序列集中,序列的移步步长≤10bp。
3.如权利要求1所述的方法,其特征在于,所述宿主源同源区域屏蔽步骤中,所述打断的序列集中,序列的移步步长为1bp。
4.如权利要求1所述的方法,其特征在于,所述第一预设长度包括500bp;
或,所述步骤3)中,第一预设值为97%;
或,所述步骤3)中,第二预设值为50bp。
5.如权利要求4所述的方法,其特征在于,
所述步骤4)中,所述第二预设长度、第三预设长度独立地为50bp;
或,所述步骤5)中,使用至少10个N连接代表基因组。
6.如权利要求1所述的方法,其特征在于,还包括数据库更新步骤,包括对新挑选的基因组执行所述同源区域屏蔽步骤,然后将当前数据库中该病原生物的融合基因组作为代表基因组,执行所述融合基因组构建步骤,最后把新得到的融合基因组替换数据库中该病原生物原来的融合基因组,获得更新后的数据库;
或,所述获取基因组数据步骤中,所述选定的病原生物包括细菌、真菌、病毒;
或,所述获取基因组数据步骤中,所述选定的病原生物包括寄生虫;
或,如果所述选定的病原生物为细菌,质粒同源区域屏蔽步骤中,屏蔽所述基因组数据中的细菌质粒同源序列;
或,获取基因组数据步骤中,从数据库获取所述选定的病原生物的完整基因组;
或,所述选定的病原生物为不含有质粒的微生物时,不进行质粒同源区域屏蔽步骤,在获取基因组数据后,执行宿主源同源区域屏蔽步骤、融合基因组构建步骤、组库步骤;
或,获取基因组数据步骤中,选定的病原生物包括病原微生物;
或,宿主源同源区域屏蔽步骤中,所述宿主包括人或动物。
7.如权利要求1~6任意一项的方法构建得到的数据库。
8.一种构建病原生物基因组数据库的装置,其特征在于,包括:
获取基因组数据模块,用于从数据库获取选定的病原生物的基因组数据;
同源区域屏蔽模块,用于对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
融合基因组构建模块,用于对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;具体地,从屏蔽同源区域后的基因组数据中选取一基因组作为代表基因组,对屏蔽同源区域序列后的基因组数据中的其他基因组依次进行如下步骤:1)基因组打断;2)序列集比对;3)过滤同源区域;4)获取特异区域序列;5)构建融合基因组,将得到的融合基因组作为代表基因组,重复进行前述步骤1)至5),直至遍历屏蔽同源区域后的基因组数据中的所有基因组;所述步骤1)中,将基因组打断成长度为第一预设长度且不重叠的序列集,并在序列ID上记录序列集里每条序列在基因组上的起始位置与结束位置;所述步骤2)中,对序列集与代表基因组进行比对,得到序列集中每条序列与代表基因组的比对结果,并根据位置信息,将比对结果的位置修改成原基因组的位置;所述步骤3)中,将相似性≥第一预设值,且比对长度大于第二预设值的比对结果区域对应的序列碱基用碱基N替代,得到新基因组序列,所述新基因组序列与代表基因组同源的区域都用N表示;所述步骤4)中,将所述步骤3)获得的新基因组序列的非N区作为特异区,对特异区往前取第二预设长度和往后取第三预设长度,得到特异序列集;所述步骤5)中,使用至少10个连续的N连接所述步骤4)获得的特异序列集,并使用至少10个连续的N连接代表基因组,得到融合基因组,将得到的融合基因组作为代表基因组,重复所述步骤1)~5),直至遍历屏蔽宿主源同源区域序列后的基因组数据中的所有基因组;
组库模块,用于重复所述获取基因组数据模块、同源区域屏蔽模块、融合基因组构建模块的方法,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
9.如权利要求8所述的装置,其特征在于,所述装置还包括数据库更新模块,用于对新挑选的基因组执行所述同源区域屏蔽模块的方法,然后将当前数据库中该病原生物的融合基因组作为代表基因组,执行所述融合基因组构建模块的方法,最后执行所述组库模块的方法,获得更新后的数据库。
10.一种构建病原生物基因组数据库的装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1~6任意一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1~6任意一项所述的方法。
CN202210743555.XA 2022-06-27 2022-06-27 一种构建病原生物基因组数据库的方法及装置 Active CN115346608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210743555.XA CN115346608B (zh) 2022-06-27 2022-06-27 一种构建病原生物基因组数据库的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210743555.XA CN115346608B (zh) 2022-06-27 2022-06-27 一种构建病原生物基因组数据库的方法及装置

Publications (2)

Publication Number Publication Date
CN115346608A CN115346608A (zh) 2022-11-15
CN115346608B true CN115346608B (zh) 2023-05-09

Family

ID=83947561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210743555.XA Active CN115346608B (zh) 2022-06-27 2022-06-27 一种构建病原生物基因组数据库的方法及装置

Country Status (1)

Country Link
CN (1) CN115346608B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690485B (zh) * 2024-02-04 2024-05-28 北京诺禾致源科技股份有限公司 用于寄生虫鉴定的基因组的处理方法和处理装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5225336A (en) * 1989-03-08 1993-07-06 Health Research Incorporated Recombinant poxvirus host range selection system
WO2001038504A2 (en) * 1999-11-23 2001-05-31 Maxygen, Inc. Homologous recombination in plants
CA2471198A1 (en) * 2001-12-20 2003-07-03 Merck & Co., Inc. Identification of novel polymorphic sites in the human mglur8 gene and uses thereof
EP2133807A4 (en) * 2007-03-02 2010-12-15 Res Org Information & Systems HOMOLOGOUS SEARCH SYSTEM
CA2908512C (en) * 2013-04-05 2023-10-24 Dow Agrosciences Llc Methods and compositions for integration of an exogenous sequence within the genome of plants
US20140310214A1 (en) * 2013-04-12 2014-10-16 International Business Machines Corporation Optimized and high throughput comparison and analytics of large sets of genome data
CN106574286A (zh) * 2013-11-26 2017-04-19 Lc科学有限责任公司 选择性扩增核酸序列
CN110199031A (zh) * 2016-11-29 2019-09-03 基因组影像公司 设计用于分析感兴趣的遗传区域中的特定事件的一组多核苷酸序列的方法
CN111009286B (zh) * 2018-10-08 2023-04-28 深圳华大因源医药科技有限公司 对宿主样本进行微生物分析的方法和装置
CN110473594B (zh) * 2019-08-22 2020-05-05 广州微远基因科技有限公司 病原微生物基因组数据库及其建立方法
CN111462821B (zh) * 2020-04-10 2022-02-22 广州微远医疗器械有限公司 病原微生物分析鉴定***及应用
CN112992277B (zh) * 2021-03-18 2021-10-26 南京先声医学检验实验室有限公司 一种微生物基因组数据库构建方法及其应用

Also Published As

Publication number Publication date
CN115346608A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Turner et al. Integrating long-range connectivity information into de Bruijn graphs
Li et al. Rooting the animal tree of life
Muggli et al. Succinct colored de Bruijn graphs
Wick et al. Benchmarking of long-read assemblers for prokaryote whole genome sequencing
Li Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences
Li et al. Fast and accurate short read alignment with Burrows–Wheeler transform
Ballesteros et al. A new orthology assessment method for phylogenomic data: unrooted phylogenetic orthology
Liu et al. deBGA: read alignment with de Bruijn graph-based seed and extension
Akiyoshi et al. Genomic survey of the non-cultivatable opportunistic human pathogen, Enterocytozoon bieneusi
Skennerton et al. Crass: identification and reconstruction of CRISPR from unassembled metagenomic data
Yang et al. Reptile: representative tiling for short read error correction
Su et al. Evolution of alternative splicing after gene duplication
Domazet-Lošo et al. Alignment-free detection of local similarity among viral and bacterial genomes
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
Pollastro et al. HS3D, a dataset of Homo Sapiens splice regions, and its extraction procedure from a major public database
Nowak et al. Hybrid de novo whole-genome assembly and annotation of the model tapeworm Hymenolepis diminuta
CN115346608B (zh) 一种构建病原生物基因组数据库的方法及装置
Mahadevan et al. CGUG: in silico proteome and genome parsing tool for the determination of" core" and unique genes in the analysis of genomes up to ca. 1.9 Mb
Whitacre et al. What’s in your next-generation sequence data? An exploration of unmapped DNA and RNA sequence reads from the bovine reference individual
Wu et al. Rapid and accurate interpretation of clinical exomes using Phenoxome: a computational phenotype-driven approach
Simon et al. MetaMap: an atlas of metatranscriptomic reads in human disease-related RNA-seq data
Hu et al. Living trees: high-quality reproducible and reusable construction of bacterial phylogenetic trees
Vancaester et al. Phylogenomic analysis of Wolbachia genomes from the Darwin Tree of Life biodiversity genomics project
Bick et al. Mammalian Annotation Database for improved annotation and functional classification of Omics datasets from less well-annotated organisms
CN111477281A (zh) 基于***进化树的泛基因组构建方法和构建装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant