CN114334004B - 一种病原微生物快速比对鉴定方法及其应用 - Google Patents
一种病原微生物快速比对鉴定方法及其应用 Download PDFInfo
- Publication number
- CN114334004B CN114334004B CN202111472221.5A CN202111472221A CN114334004B CN 114334004 B CN114334004 B CN 114334004B CN 202111472221 A CN202111472221 A CN 202111472221A CN 114334004 B CN114334004 B CN 114334004B
- Authority
- CN
- China
- Prior art keywords
- species
- classification
- comparison
- sequences
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 244000000010 microbial pathogen Species 0.000 title abstract description 13
- 238000012163 sequencing technique Methods 0.000 claims abstract description 29
- 241000894007 species Species 0.000 claims description 121
- 244000005700 microbiome Species 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007481 next generation sequencing Methods 0.000 claims description 4
- 230000004069 differentiation Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 2
- 230000000052 comparative effect Effects 0.000 claims 1
- 238000002405 diagnostic procedure Methods 0.000 claims 1
- 230000002906 microbiologic effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 13
- 238000011084 recovery Methods 0.000 description 14
- 241001386813 Kraken Species 0.000 description 8
- 244000052769 pathogen Species 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000001717 pathogenic effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 241000588724 Escherichia coli Species 0.000 description 2
- 241000588747 Klebsiella pneumoniae Species 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007671 third-generation sequencing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 241000191967 Staphylococcus aureus Species 0.000 description 1
- 241001147736 Staphylococcus capitis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical group [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生信分析领域,具体涉及一种病原微生物测序数据快速比对鉴定方法及其应用,所述方法基于自研分类算法分组快速比对,通过复分类算法统计分析获得病原微生物鉴定和相对定量。
Description
技术领域
本发明属于生信分析领域,具体涉及一种微生物测序数据快速比对鉴定方法及其应用。
背景技术
快速准确的微生物鉴定技术始终是临床微生物关注的重点,传统微生物检验方法(形态学、培养、抗原抗体)在解决疑难及未知微生物上存在局限性。宏基因组下一代测序(metagenomic next-generation sequencing,mNGS)技术针对样本中所有核酸进行无偏测序,结合病原微生物数据库及生信算法,检测样本中含有的可能病原微生物序列。随着检出灵敏度的需求以及测序成本大下降,mNGS产出大量的数据,增加了生信病原鉴定分析时间。由于感染患者病情特殊性,需要在极短时间内准确鉴定出病原微生物,这个对病原比对算法提出了挑战。
目前做mNGS常见的病原比对算法分为两大类:一种是以Blast(Basic LocalAlignment Search Tool)为代表的全局比对方法,另一种是以Kraken为代表的基于Kmer比对策略;但两者各有优缺点:
Blast基于全局比对,基本策略是用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。Blast是物种鉴定的金标准,但是由于循环比对的策略导致其速度非常慢。
Kraken是一种基于kmer超快速的程序,可为宏基因组DNA序列分配分类标签。为了对序列进行分类,序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先(lowest common ancestor,LCA)。与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树,用于分类。在分类树中,每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。通过在路径中添加所有权重来对分类树中的每个根到叶路径进行评分,并且分类树中的最大RTL路径是分类路径。Kraken速度快,但是由于基于kmer的的kmer的权重分类,并非完整序列的全局比对,会产生比对误差,另外Kraken无法准确体现物种丰度。
有鉴于此,特提出本发明。
发明内容
针对上述技术问题,本发明所采用的技术方案如下:
本发明首先提供一种微生物测序数据快速比对方法,包括如下步骤
步骤1)测序数据比对预分类;
步骤2)待分析数据分组;
步骤3)分组重比对。
进一步的,所述步骤1)的预分类采用Kraken2进行预分类,
进一步的,所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;
优选的,所述测序数据为为去宿主后的测序数据。
进一步的,所述步骤2)待分析数据分组为:
基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
优选的,所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。
进一步的,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
优选的,使用Blast算法。
本发明还提供一种微生物测序数据快速比对鉴定方法,包括上述任一所述微生物快速比对方法,并进一步包括如下步骤:
步骤4)比对结果复分类统计。
进一步的,所述步骤4)比对结果复分类统计具体为:
针对于步骤3)重比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
优选的,
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
本发明还提供一种微生物测序数据快速比对鉴定***,所述***包括如下模块:
模块1)测序数据比对预分类模块;
模块2)待分析数据分组模块;
模块3)分组重比对模块;
模块4)比对结果复分类统计模块。
进一步的,所述模块1)的预分类采用Kraken2进行预分类,
进一步的,所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;
优选的,所述测序数据为为去宿主后的测序数据。
进一步的,所述模块2)待分析数据分组为:
基于模块1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
优选的,所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。
进一步的,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
优选的,使用Blast算法。
进一步的,所述模块4)比对结果复分类统计具体为:
针对于步骤3)重比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
优选的,
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
本发明还提供一种电子设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如上任一项所述的方法。
本发明还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如上任一项所述的方法。
进一步的,上述所述微生物优选为为病原微生物,更优选的微宏基因组病原微生物;
进一步的,所述数据来自一代、二代、三代或四代测序数据,优选来自NGS平台。
本发明的有益技术效果:
1)本发明预分类算法可快速准确将待测样本数据和病原列表最优分组,将病原比对的数据和数据库比对范围缩减到最优最小。
2)本发明基于上述分组比对算法,病原鉴定速度比相同准确性软件速度更快,资源消耗更少。
3)本发明对比对结果复分类算法,多重比对序列,分层按物种唯一比对序列比例统计,检出物种和丰都更接近真实值。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1数据分组示意图;
图2等比混合样本回收率统计比较图;
图3梯度混合样本回收率统计结果;
图4Blast运行过程中内存消耗CPU占用情况;
图5本发明运行过程中的内存和CPU的消耗情况;
图6检出物种可视化统计图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
除非在下文中另有定义,本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本发明。
如本发明中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。
本发明的微生物测序数据快速比对方法,大体包括如下步骤:
步骤1)测序数据比对预分类;
步骤2)待分析数据分组;
步骤3)分组重比对。
在一些实施方式中,所述步骤1)的预分类采用Kraken2进行预分类,
在一些实施方式中,具体为步骤为:测序reads数据使用Kraken2进行比对预分类,得到待分析样本的分类树,统计预分类信息,包括:分类树中每个节点总reads数、可再分reads数及每条reads所属分类节点信息;
优选的,所述测序reads可以为去宿主后的reads。
在一些实施方式中,所述步骤2)待分析数据分组为:
基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
优选的,所述步骤2)的具体分析如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,也代表这个节点以下物种区分度较低;从分类树物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据。
在一些实施方式中,所述步骤3)分组重比可采用包括但不限于:Blast、bwa、bowtie2比对算法。
在一些实施方式中,使用Blast算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
本发明的一种微生物快速比对鉴定方法,包括上述任一所述微生物快速比对方法,并进一步包括如下步骤:
步骤4)比对结果复分类统计。
在一些实施方式中,所述步骤4)比对结果复分类统计具体为:
对于步骤3)比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
可以理解,基于本发明的核心思想可知,其对于微生物的种类并不限定,任何类类型的微生物测序数据理论上都是适用的;作为一些特定实施方式中,上述所述微生物优选为病原微生物,更优选的是来自宏基因组的病原微生物。
可以理解,基于本发明的核心内容可知,其对于测序数据的来源或形式也不限制;在一些实施方式中,所述数据可以来自一代、二代、三代或四代测序数据,优选来自NGS平台。
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
实验例本发明方法及体系建立
本发明通过前期的探索和优化,最终确立如下一套病原微生物快速比对鉴定方法
1.数据预分类
去宿主后的reads使用Kraken2进行预分类,获取到待分析样本的分类树,并统计每个节点(node)总reads数(node_reads)与可再分reads数(class_reads),以及每条reads所属分类节点信息。
2.待分析数据与比对数据库分组
基于上述预分类信息,对于每个节点定义了一个未分类reads占比(UCR),定义计算公式如下:
其中:NodeReads为节点总reads数,ClassReads为节点可再分类reads数
定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,也代表这个节点以下物种区分度较低;从分类树物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据,具体参见图1。
3.分组重比对
使用Blast算法,对上述分组数据与共有数据库进行比对,并进行初步的比对质量过滤。
4.比对结果复分类统计
对于上述比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列(MR),对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN。分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
所述多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述物种序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集;
上述比对结果复分类统计中,首先获取了该样本中代表实际物种丰都比例的唯一比对序列数,根据该信息对于多重比对序列按照共比对物种的唯一比对比例进行再分配,不仅保证了物种的丰都比例的合理同时又让序列的丰都更加接近真实值,避免了其他软件对多重比对序列处理不合理导致的物种丰都偏差或者导致的物种鉴定错误。
实施例 本发明方法的效果验证
在宏基因组领域中,Kraken作为最常用的快速分类软件,Blast作为业内“金标准”。本发明结开发的算法策略兼顾分析速度和优势,弥补两款软件的劣势。为了证明本发明的性能,本发明方法将同Kraken和Blast以及其他同类软件进行比较分析速度和准确性,以阐明本发明的优势。
实施例1、数据评估
为避免未知因素干扰,本评估使用模拟数据方法进行。从呼吸道,脑脊液,血液中常见的9个物种的代表基因组随机抽取模拟序列进行等比混合,为了体现不同物种数量及差异导致的比对软件的错误分类同时做了梯度交叉混合,每个组合有三个随机重复。
其中等比混合样本信息如下表:
其中样本混合比例如下表:
实施例2、等比混合样本准确性评估
为了评估本发明的准确性,模拟数据等比混合后,用不同的软件进行比对分析计算回收率:
回收率计算公式如下:
并对重复及不同数据量的物种回收率进行统计分析,结果如图2。
从结果中可看出与Blast相比本发明的回收率基本一致,头状葡萄球菌Blast仅有71%,而本发明回收率达到了93%更加接近真实值。Kraken的回收率严重偏离真实值,大肠杆菌的回收率只有7.46%;Braken是基于kraken的基础做的基于统计学的优化,大多数物种可接近真实值,但是对于同科的大肠杆菌和肺炎克雷伯存在分配错误的问题,大肠杆菌只有46%的回收率,肺炎克雷伯回收率140%。
综合来看,本发明方法的准确性更高。
实施例3、梯度混合样本准确性评估
由于感染样本数据的复杂性,经常会出现丰都显著差异,同属物种难以区分的问题,高丰度会影响到低丰度物种的检出,因此设计了梯度混合样本呈数量级差异,如图3所示,从结果可看出不论哪个混合梯度回收率最接近100%,其他方法的回收率都存在明显偏离问题,尤其Kraken偏离最为明显,大多回收率都低于50%
实施例4、分析速度与资源消耗比较
本发明除了解决检出准确性方面,同时加快分析速度,减少资源开支,具体验证如下:
1.分析速度比较
在病原微生物比对过程中影响分析速度主要是序列数和物种复杂程度,从下表中可以看出随着数据量的增加,物种数的增加分析时间加长,本发明的分析速度比Blast快了10倍,在数据量达到4.5M比Blast快了20多倍。
2.资源开支比较
本实例通过比较本发明方法和Blast方法运行过程中的内存消耗CPU占用情况,来分析资源开支差异,具体结如图4-5所示。
从图中可看出,本发明的在比对过程中只用了30G的内存,比Blast少了一半,显著减低了集群资源的消耗。
实施例5、检出物种可视化统计
病原微生物鉴定过程,为了确定物种鉴定的准确性一般需要查看序列在基因组上的比对情况,本实例对检出物种绘制了覆盖图,同时展现了序列分布,覆盖度,平均深度信息,具体如图6。
从图中可以看出待分析样本中Staphylococcus aureus在整个基因组上分布均匀,平均覆盖度大于70%,且平均深度在2X,可判定此物种检出为真阳。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (4)
1.一种微生物测序数据快速比对鉴定方法,所述鉴定方法为非疾病诊断方法,包括如下步骤:
步骤1)测序数据比对预分类;
步骤2)待分析数据分组;
步骤3)分组重比对;
步骤4)比对结果的复分类统计;
所述步骤1)的比对预分类采用Kraken2进行比对预分类,并统计预分类信息;
所述统计为:将测序reads数据使用Kraken2比对预分类,得到待分析样本的分类树,统计预分类信息,所述分类信息包括:分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息;所述测序数据为去宿主后的测序数据;
所述步骤2)待分析数据分组为:
基于步骤1)获得的预分类信息,对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据,
所述UCR计算如下:
其中,NodeReads为节点总reads数,ClassReads为节点可再分类reads数;
所述通过计算UCR形成分组数据具体如下:定义UCR设定阈值CutOff,若某个节点UCR<CutOff,则认为该节点以下未分类reads过多,代表该节点以下物种区分度较低;从分类树的物种S溯源到根R,寻找该R分支上UCR大于阈值且最接近R的节点Pnode;若某分支全节点上不存在UCR>CutOff的Pnode,则定义种的上层分类节点为Pnode;每个Pnode以下的所有物种归属为一个分组,形成分组数据;
所述测序数据来自NGS测序数据;
所述步骤4)比对结果的复分类统计具体为:
针对于步骤3)重比对结果,统计每个物种的唯一比对序列数URN,即该序列比对数据库中过滤质量后只能比对到一个物种;对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类,并按照该分类物种的UR比例进行分配,得到所述分类中所有物种MR序列数MRN;分别对每个物种URN和分配到该物种的MRN进行求和,即得到比对到该物种的总序列数RN;
多重比对序列数MRN计算公式如下:
其中:m为i物种MR序列某物种合集中的物种数,k代表合集中的物种;
所述该物种的总序列数RN计算如下:
其中:n为i物种MR序列共比对物种合集种类数,h为存在i物种的MR序列的合集。
2.权利要求1所述的微生物测序数据快速比对鉴定方法,其特征在于,所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对,并进行初步的比对质量过滤。
3.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-2任一项所述的方法。
4.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-2任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472221.5A CN114334004B (zh) | 2021-12-04 | 2021-12-04 | 一种病原微生物快速比对鉴定方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472221.5A CN114334004B (zh) | 2021-12-04 | 2021-12-04 | 一种病原微生物快速比对鉴定方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114334004A CN114334004A (zh) | 2022-04-12 |
CN114334004B true CN114334004B (zh) | 2024-03-15 |
Family
ID=81049135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111472221.5A Active CN114334004B (zh) | 2021-12-04 | 2021-12-04 | 一种病原微生物快速比对鉴定方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114334004B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090324A (zh) * | 2018-01-16 | 2018-05-29 | 深圳市泰康吉音生物科技研发服务有限公司 | 基于高通量基因测序数据的病原微生物鉴定方法 |
CN108334750A (zh) * | 2018-04-19 | 2018-07-27 | 江苏先声医学诊断有限公司 | 一种宏基因组数据分析方法及*** |
CN109082479A (zh) * | 2017-06-14 | 2018-12-25 | 深圳华大基因研究院 | 从样本中鉴定微生物物种的方法和装置 |
CN111462821A (zh) * | 2020-04-10 | 2020-07-28 | 广州微远基因科技有限公司 | 病原微生物分析鉴定***及应用 |
CN111599413A (zh) * | 2020-05-12 | 2020-08-28 | 江苏先声医学诊断有限公司 | 一种测序数据的分类单元组分计算方法 |
CN111951895A (zh) * | 2020-07-09 | 2020-11-17 | 苏州协云基因科技有限公司 | 基于宏基因组学的病原分析方法、分析装置、设备及存储介质 |
CN112530519A (zh) * | 2020-12-14 | 2021-03-19 | 广东美格基因科技有限公司 | 一种检测样本中微生物和耐药基因的方法和*** |
WO2021180771A1 (fr) * | 2020-03-12 | 2021-09-16 | bioMérieux | Technologie moleculaire de prediction d'un caractere phenotypique d'une bacterie a partir de son genome |
US11139063B1 (en) * | 2020-12-29 | 2021-10-05 | Kpn Innovations, Llc. | Systems and methods for generating a microbiome balance plan for prevention of bacterial infection |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9970061B2 (en) * | 2011-12-27 | 2018-05-15 | Ibis Biosciences, Inc. | Bioagent detection oligonucleotides |
AU2016245213A1 (en) * | 2015-04-09 | 2017-11-23 | Koninklijke Philips N.V. | Method and apparatus for estimating the quantity of microorganisms within a taxonomic unit in a sample |
KR102349921B1 (ko) * | 2018-09-05 | 2022-01-12 | 주식회사 천랩 | 시료 미생물의 동정 및 분류 방법 |
US11830580B2 (en) * | 2018-09-30 | 2023-11-28 | International Business Machines Corporation | K-mer database for organism identification |
US11830581B2 (en) * | 2019-03-07 | 2023-11-28 | International Business Machines Corporation | Methods of optimizing genome assembly parameters |
US11809498B2 (en) * | 2019-11-07 | 2023-11-07 | International Business Machines Corporation | Optimizing k-mer databases by k-mer subtraction |
-
2021
- 2021-12-04 CN CN202111472221.5A patent/CN114334004B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109082479A (zh) * | 2017-06-14 | 2018-12-25 | 深圳华大基因研究院 | 从样本中鉴定微生物物种的方法和装置 |
CN108090324A (zh) * | 2018-01-16 | 2018-05-29 | 深圳市泰康吉音生物科技研发服务有限公司 | 基于高通量基因测序数据的病原微生物鉴定方法 |
CN108334750A (zh) * | 2018-04-19 | 2018-07-27 | 江苏先声医学诊断有限公司 | 一种宏基因组数据分析方法及*** |
CN109686408A (zh) * | 2018-04-19 | 2019-04-26 | 江苏先声医学诊断有限公司 | 一种鉴定耐药基因和/或耐药基因突变位点的宏基因组数据分析方法及*** |
WO2021180771A1 (fr) * | 2020-03-12 | 2021-09-16 | bioMérieux | Technologie moleculaire de prediction d'un caractere phenotypique d'une bacterie a partir de son genome |
CN111462821A (zh) * | 2020-04-10 | 2020-07-28 | 广州微远基因科技有限公司 | 病原微生物分析鉴定***及应用 |
CN111599413A (zh) * | 2020-05-12 | 2020-08-28 | 江苏先声医学诊断有限公司 | 一种测序数据的分类单元组分计算方法 |
CN111951895A (zh) * | 2020-07-09 | 2020-11-17 | 苏州协云基因科技有限公司 | 基于宏基因组学的病原分析方法、分析装置、设备及存储介质 |
CN112530519A (zh) * | 2020-12-14 | 2021-03-19 | 广东美格基因科技有限公司 | 一种检测样本中微生物和耐药基因的方法和*** |
US11139063B1 (en) * | 2020-12-29 | 2021-10-05 | Kpn Innovations, Llc. | Systems and methods for generating a microbiome balance plan for prevention of bacterial infection |
Non-Patent Citations (1)
Title |
---|
基于CRISPR数据库的病原菌 CRISPR结构分析;尹随随等;《扬州大学学报》;第38卷(第2期);第96-99页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114334004A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rautiainen et al. | GraphAligner: rapid and versatile sequence-to-graph alignment | |
CN111462821B (zh) | 病原微生物分析鉴定***及应用 | |
CN113160882B (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
CN106294762B (zh) | 一种基于学习的实体识别方法 | |
CN107292330A (zh) | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 | |
CN111599413B (zh) | 一种测序数据的分类单元组分计算方法 | |
CN111710364B (zh) | 一种菌群标记物的获取方法、装置、终端及存储介质 | |
CN109272056B (zh) | 基于伪负样本的数据平衡方法及提高数据分类性能的方法 | |
Rachtman et al. | The impact of contaminants on the accuracy of genome skimming and the effectiveness of exclusion read filters | |
Bonnici et al. | PanDelos: a dictionary-based method for pan-genome content discovery | |
CN114334004B (zh) | 一种病原微生物快速比对鉴定方法及其应用 | |
Liao et al. | High-resolution strain-level microbiome composition analysis from short reads | |
CN113539369B (zh) | 一种优化的kraken2算法及其在二代测序中的应用 | |
Scornavacca et al. | Building species trees from larger parts of phylogenomic databases | |
Wei et al. | Comparison of methods for biological sequence clustering | |
CN106557668A (zh) | 基于lf熵的dna序列相似性检验方法 | |
CN113392086B (zh) | 基于物联网的医疗数据库构建方法、装置及设备 | |
Chandrasekhar et al. | Performance analysis of enhanced clustering algorithm for gene expression data | |
Liao et al. | Accurate strain-level microbiome composition analysis from short reads | |
Zhu et al. | cgMSI: pathogen detection within species from nanopore metagenomic sequencing data | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN115732031A (zh) | 一种针对生信噪音的基于隐藏亚组的生信降噪分析方法及*** | |
CN115719614A (zh) | 一种基于隐藏亚组的生信降噪分析方法及*** | |
Du et al. | ImputeCC Enhances Integrative Hi-C-Based Metagenomic Binning Through Constrained Random-Walk-Based Imputation | |
CN116705160A (zh) | 一种基于纳米孔测序数据的病原宏基因组分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |