CN114334004B

CN114334004B - 一种病原微生物快速比对鉴定方法及其应用

Info

Publication number: CN114334004B
Application number: CN202111472221.5A
Authority: CN
Inventors: 郭刚; 邓望龙; 尹随随; 丁然; 陆光华; 卜范峰; 任用; 李诗濛
Original assignee: Nanjing Xiansheng Diagnostic Technology Co ltd; Nanjing Xiansheng Medical Laboratory Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Current assignee: Nanjing Xiansheng Diagnostic Technology Co ltd; Nanjing Xiansheng Medical Laboratory Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date: 2021-12-04
Filing date: 2021-12-04
Publication date: 2024-03-15
Anticipated expiration: 2041-12-04
Also published as: CN114334004A

Abstract

本发明属于生信分析领域，具体涉及一种病原微生物测序数据快速比对鉴定方法及其应用，所述方法基于自研分类算法分组快速比对，通过复分类算法统计分析获得病原微生物鉴定和相对定量。

Description

一种病原微生物快速比对鉴定方法及其应用

技术领域

本发明属于生信分析领域，具体涉及一种微生物测序数据快速比对鉴定方法及其应用。

背景技术

快速准确的微生物鉴定技术始终是临床微生物关注的重点，传统微生物检验方法(形态学、培养、抗原抗体)在解决疑难及未知微生物上存在局限性。宏基因组下一代测序(metagenomic next-generation sequencing,mNGS)技术针对样本中所有核酸进行无偏测序，结合病原微生物数据库及生信算法，检测样本中含有的可能病原微生物序列。随着检出灵敏度的需求以及测序成本大下降，mNGS产出大量的数据，增加了生信病原鉴定分析时间。由于感染患者病情特殊性，需要在极短时间内准确鉴定出病原微生物，这个对病原比对算法提出了挑战。

目前做mNGS常见的病原比对算法分为两大类：一种是以Blast(Basic LocalAlignment Search Tool)为代表的全局比对方法，另一种是以Kraken为代表的基于Kmer比对策略；但两者各有优缺点：

Blast基于全局比对，基本策略是用目标序列建数据库(这种数据库称为database，里面的每一条序列称为subject)，然后用待查的序列(称为query)在database中搜索，每一条query与database中的每一条subject都要进行双序列比对，从而得出全部比对结果。Blast是物种鉴定的金标准，但是由于循环比对的策略导致其速度非常慢。

Kraken是一种基于kmer超快速的程序，可为宏基因组DNA序列分配分类标签。为了对序列进行分类，序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先(lowest common ancestor,LCA)。与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树，用于分类。在分类树中，每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。通过在路径中添加所有权重来对分类树中的每个根到叶路径进行评分，并且分类树中的最大RTL路径是分类路径。Kraken速度快，但是由于基于kmer的的kmer的权重分类，并非完整序列的全局比对，会产生比对误差，另外Kraken无法准确体现物种丰度。

有鉴于此，特提出本发明。

发明内容

针对上述技术问题，本发明所采用的技术方案如下：

本发明首先提供一种微生物测序数据快速比对方法，包括如下步骤

步骤1)测序数据比对预分类；

步骤2)待分析数据分组；

步骤3)分组重比对。

进一步的，所述步骤1)的预分类采用Kraken2进行预分类，

进一步的，所述统计为：将测序reads数据使用Kraken2比对预分类，得到待分析样本的分类树，统计预分类信息，所述分类信息包括：分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息；

优选的，所述测序数据为为去宿主后的测序数据。

进一步的，所述步骤2)待分析数据分组为：

基于步骤1)获得的预分类信息，对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据，

所述UCR计算如下：

其中，NodeReads为节点总reads数，ClassReads为节点可再分类reads数；

优选的，所述通过计算UCR形成分组数据具体如下：定义UCR设定阈值CutOff，若某个节点UCR<CutOff,则认为该节点以下未分类reads过多，代表该节点以下物种区分度较低；从分类树的物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode；若某分支全节点上不存在UCR>CutOff的Pnode，则定义种的上层分类节点为Pnode；每个Pnode以下的所有物种归属为一个分组，形成分组数据。

进一步的，所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对，并进行初步的比对质量过滤。

优选的，使用Blast算法。

本发明还提供一种微生物测序数据快速比对鉴定方法，包括上述任一所述微生物快速比对方法，并进一步包括如下步骤：

步骤4)比对结果复分类统计。

进一步的，所述步骤4)比对结果复分类统计具体为：

针对于步骤3)重比对结果，统计每个物种的唯一比对序列数URN，即该序列比对数据库中过滤质量后只能比对到一个物种；对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类，并按照该分类物种的UR比例进行分配，得到所述分类中所有物种MR序列数MRN；分别对每个物种URN和分配到该物种的MRN进行求和，即得到比对到该物种的总序列数RN；

优选的，

所述多重比对序列数MRN计算公式如下：

其中：m为i物种MR序列某物种合集中的物种数，k代表合集中的物种；

所述物种序列数RN计算如下：

其中：n为i物种MR序列共比对物种合集种类数，h为存在i物种的MR序列的合集。

本发明还提供一种微生物测序数据快速比对鉴定***，所述***包括如下模块：

模块1)测序数据比对预分类模块；

模块2)待分析数据分组模块；

模块3)分组重比对模块；

模块4)比对结果复分类统计模块。

进一步的，所述模块1)的预分类采用Kraken2进行预分类，

优选的，所述测序数据为为去宿主后的测序数据。

进一步的，所述模块2)待分析数据分组为：

基于模块1)获得的预分类信息，对于每个节点定义一个未分类reads占比UCR,通过计算UCR形成分组数据，

所述UCR计算如下：

优选的，使用Blast算法。

进一步的，所述模块4)比对结果复分类统计具体为：

优选的，

所述多重比对序列数MRN计算公式如下：

所述物种序列数RN计算如下：

本发明还提供一种电子设备，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如上任一项所述的方法。

本发明还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如上任一项所述的方法。

进一步的，上述所述微生物优选为为病原微生物，更优选的微宏基因组病原微生物；

进一步的，所述数据来自一代、二代、三代或四代测序数据，优选来自NGS平台。

本发明的有益技术效果：

1)本发明预分类算法可快速准确将待测样本数据和病原列表最优分组，将病原比对的数据和数据库比对范围缩减到最优最小。

2)本发明基于上述分组比对算法，病原鉴定速度比相同准确性软件速度更快，资源消耗更少。

3)本发明对比对结果复分类算法，多重比对序列，分层按物种唯一比对序列比例统计，检出物种和丰都更接近真实值。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1数据分组示意图；

图2等比混合样本回收率统计比较图；

图3梯度混合样本回收率统计结果；

图4Blast运行过程中内存消耗CPU占用情况；

图5本发明运行过程中的内存和CPU的消耗情况；

图6检出物种可视化统计图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。

除非在下文中另有定义，本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本发明。

如本发明中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。

本发明的微生物测序数据快速比对方法，大体包括如下步骤：

步骤1)测序数据比对预分类；

步骤2)待分析数据分组；

步骤3)分组重比对。

在一些实施方式中，所述步骤1)的预分类采用Kraken2进行预分类，

在一些实施方式中，具体为步骤为：测序reads数据使用Kraken2进行比对预分类，得到待分析样本的分类树，统计预分类信息，包括：分类树中每个节点总reads数、可再分reads数及每条reads所属分类节点信息；

优选的，所述测序reads可以为去宿主后的reads。

在一些实施方式中，所述步骤2)待分析数据分组为：

所述UCR计算如下：

优选的，所述步骤2)的具体分析如下：定义UCR设定阈值CutOff，若某个节点UCR<CutOff,则认为该节点以下未分类reads过多，也代表这个节点以下物种区分度较低；从分类树物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode；若某分支全节点上不存在UCR>CutOff的Pnode，则定义种的上层分类节点为Pnode；每个Pnode以下的所有物种归属为一个分组，形成分组数据。

在一些实施方式中，所述步骤3)分组重比可采用包括但不限于：Blast、bwa、bowtie2比对算法。

在一些实施方式中，使用Blast算法对步骤2)分组数据与公有数据库进行比对，并进行初步的比对质量过滤。

本发明的一种微生物快速比对鉴定方法，包括上述任一所述微生物快速比对方法，并进一步包括如下步骤：

步骤4)比对结果复分类统计。

在一些实施方式中，所述步骤4)比对结果复分类统计具体为：

对于步骤3)比对结果，统计每个物种的唯一比对序列数URN，即该序列比对数据库中过滤质量后只能比对到一个物种；对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列MR,对MR序列按照共同比对到相同的多个物种类别进行分类，并按照该分类物种的UR比例进行分配，得到所述分类中所有物种MR序列数MRN；分别对每个物种URN和分配到该物种的MRN进行求和，即得到比对到该物种的总序列数RN；

所述多重比对序列数MRN计算公式如下：

所述物种序列数RN计算如下：

可以理解，基于本发明的核心思想可知，其对于微生物的种类并不限定，任何类类型的微生物测序数据理论上都是适用的；作为一些特定实施方式中，上述所述微生物优选为病原微生物，更优选的是来自宏基因组的病原微生物。

可以理解，基于本发明的核心内容可知，其对于测序数据的来源或形式也不限制；在一些实施方式中，所述数据可以来自一代、二代、三代或四代测序数据，优选来自NGS平台。

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场购买获得的常规产品。

实验例本发明方法及体系建立

本发明通过前期的探索和优化，最终确立如下一套病原微生物快速比对鉴定方法

1.数据预分类

去宿主后的reads使用Kraken2进行预分类，获取到待分析样本的分类树，并统计每个节点(node)总reads数(node_reads)与可再分reads数(class_reads)，以及每条reads所属分类节点信息。

2.待分析数据与比对数据库分组

基于上述预分类信息，对于每个节点定义了一个未分类reads占比(UCR),定义计算公式如下：

其中：NodeReads为节点总reads数，ClassReads为节点可再分类reads数

定义UCR设定阈值CutOff，若某个节点UCR<CutOff,则认为该节点以下未分类reads过多，也代表这个节点以下物种区分度较低；从分类树物种S溯源到根R,寻找该分支上UCR大于阈值且最接近R的节点Pnode；若某分支全节点上不存在UCR>CutOff的Pnode，则定义种的上层分类节点为Pnode；每个Pnode以下的所有物种归属为一个分组，形成分组数据，具体参见图1。

3.分组重比对

使用Blast算法，对上述分组数据与共有数据库进行比对，并进行初步的比对质量过滤。

4.比对结果复分类统计

对于上述比对结果，统计每个物种的唯一比对序列数URN，即该序列比对数据库中过滤质量后只能比对到一个物种；对于上述比对结果若某条序列比对到两个以上物种的参考序列则定义为多重比对序列(MR),对MR序列按照共同比对到相同的多个物种类别进行分类，并按照该分类物种的UR比例进行分配，得到所述分类中所有物种MR序列数MRN。分别对每个物种URN和分配到该物种的MRN进行求和，即得到比对到该物种的总序列数RN；

所述多重比对序列数MRN计算公式如下：

所述物种序列数RN计算如下：

其中：n为i物种MR序列共比对物种合集种类数，h为存在i物种的MR序列的合集；

上述比对结果复分类统计中，首先获取了该样本中代表实际物种丰都比例的唯一比对序列数，根据该信息对于多重比对序列按照共比对物种的唯一比对比例进行再分配，不仅保证了物种的丰都比例的合理同时又让序列的丰都更加接近真实值，避免了其他软件对多重比对序列处理不合理导致的物种丰都偏差或者导致的物种鉴定错误。

实施例本发明方法的效果验证

在宏基因组领域中，Kraken作为最常用的快速分类软件，Blast作为业内“金标准”。本发明结开发的算法策略兼顾分析速度和优势，弥补两款软件的劣势。为了证明本发明的性能，本发明方法将同Kraken和Blast以及其他同类软件进行比较分析速度和准确性，以阐明本发明的优势。

实施例1、数据评估

为避免未知因素干扰，本评估使用模拟数据方法进行。从呼吸道，脑脊液，血液中常见的9个物种的代表基因组随机抽取模拟序列进行等比混合，为了体现不同物种数量及差异导致的比对软件的错误分类同时做了梯度交叉混合，每个组合有三个随机重复。

其中等比混合样本信息如下表：

其中样本混合比例如下表：

实施例2、等比混合样本准确性评估

为了评估本发明的准确性，模拟数据等比混合后，用不同的软件进行比对分析计算回收率：

回收率计算公式如下：

并对重复及不同数据量的物种回收率进行统计分析，结果如图2。

从结果中可看出与Blast相比本发明的回收率基本一致，头状葡萄球菌Blast仅有71％，而本发明回收率达到了93％更加接近真实值。Kraken的回收率严重偏离真实值，大肠杆菌的回收率只有7.46％；Braken是基于kraken的基础做的基于统计学的优化，大多数物种可接近真实值，但是对于同科的大肠杆菌和肺炎克雷伯存在分配错误的问题，大肠杆菌只有46％的回收率，肺炎克雷伯回收率140％。

综合来看，本发明方法的准确性更高。

实施例3、梯度混合样本准确性评估

由于感染样本数据的复杂性，经常会出现丰都显著差异，同属物种难以区分的问题，高丰度会影响到低丰度物种的检出，因此设计了梯度混合样本呈数量级差异，如图3所示，从结果可看出不论哪个混合梯度回收率最接近100％，其他方法的回收率都存在明显偏离问题，尤其Kraken偏离最为明显，大多回收率都低于50％

实施例4、分析速度与资源消耗比较

本发明除了解决检出准确性方面，同时加快分析速度，减少资源开支，具体验证如下：

1.分析速度比较

在病原微生物比对过程中影响分析速度主要是序列数和物种复杂程度，从下表中可以看出随着数据量的增加，物种数的增加分析时间加长，本发明的分析速度比Blast快了10倍，在数据量达到4.5M比Blast快了20多倍。

2.资源开支比较

本实例通过比较本发明方法和Blast方法运行过程中的内存消耗CPU占用情况，来分析资源开支差异，具体结如图4-5所示。

从图中可看出，本发明的在比对过程中只用了30G的内存，比Blast少了一半，显著减低了集群资源的消耗。

实施例5、检出物种可视化统计

病原微生物鉴定过程，为了确定物种鉴定的准确性一般需要查看序列在基因组上的比对情况，本实例对检出物种绘制了覆盖图，同时展现了序列分布，覆盖度，平均深度信息，具体如图6。

从图中可以看出待分析样本中Staphylococcus aureus在整个基因组上分布均匀，平均覆盖度大于70％，且平均深度在2X,可判定此物种检出为真阳。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种微生物测序数据快速比对鉴定方法，所述鉴定方法为非疾病诊断方法，包括如下步骤：

步骤1)测序数据比对预分类；

步骤2)待分析数据分组；

步骤3)分组重比对；

步骤4)比对结果的复分类统计；

所述步骤1)的比对预分类采用Kraken2进行比对预分类，并统计预分类信息；

所述统计为：将测序reads数据使用Kraken2比对预分类，得到待分析样本的分类树，统计预分类信息，所述分类信息包括：分类树中每个节点总reads数、可再分reads数、每条reads所属分类节点信息；所述测序数据为去宿主后的测序数据；

所述步骤2)待分析数据分组为：

所述UCR计算如下：

所述通过计算UCR形成分组数据具体如下：定义UCR设定阈值CutOff，若某个节点UCR<CutOff,则认为该节点以下未分类reads过多，代表该节点以下物种区分度较低；从分类树的物种S溯源到根R,寻找该R分支上UCR大于阈值且最接近R的节点Pnode；若某分支全节点上不存在UCR>CutOff的Pnode，则定义种的上层分类节点为Pnode；每个Pnode以下的所有物种归属为一个分组，形成分组数据；

所述测序数据来自NGS测序数据；

所述步骤4)比对结果的复分类统计具体为：

多重比对序列数MRN计算公式如下：

所述该物种的总序列数RN计算如下：

2.权利要求1所述的微生物测序数据快速比对鉴定方法，其特征在于，所述步骤3)分组重比对采用包括但不限于Blast、bwa、bowtie2比对算法对步骤2)分组数据与公有数据库进行比对，并进行初步的比对质量过滤。

3.一种电子设备，其特征在于，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-2任一项所述的方法。

4.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-2任一项所述的方法。