CN114496089B

CN114496089B - 一种病原微生物鉴定方法

Info

Publication number: CN114496089B
Application number: CN202210344311.4A
Authority: CN
Inventors: 王辉; 郭一凡; 孙世俊; 尹玉瑶
Original assignee: Peking University Peoples Hospital
Current assignee: Peking University Peoples Hospital
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-15
Anticipated expiration: 2042-04-02
Also published as: CN114496089A

Abstract

本发明提供一种微生物鉴定方法，所述方法通过对测序数据进行数据获取、数据过滤、数据聚类、序列选取、数据比对、物种比对和多重比对结果分析等步骤，实现缩短微生物鉴定分析时间，同时保证鉴定准确性。

Description

一种病原微生物鉴定方法

技术领域

本发明属于生信分析领域，具体涉及一种病原微生物鉴定方法。

背景技术

宏基因组学是由Handelman最先提出的一种直接对微生物群体中包含的全部基因组信息进行研究的手段。之后，Kevin等对Metagenomics进行了定义，即“绕过对微生物个体进行分离培养，应用基因组学技术对自然环境中的微生物群落进行研究的学科”。它规避了对样品的微生物进行分离培养，提供了一种对不可分离培养的微生物进行研究的路径，更真实的反应了样本中微生物的组成。

在危急重症感染中，患者往往因为遗传性疾病,肿瘤，营养不良，器官移植，药物等因素导致免疫缺陷，除了遭受普通感染外，尤其容易受到机会性感染，即条件致病菌引起的感染。这类感染涉及的微生物种类复杂，不能根据经验提前预判，常规检测方法无法覆盖，相比之下宏基因组可以报告所有已知基因组序列的病原体，为危急和疑难感染患者的临床诊断提供了行之有效的技术手段。

大多数宏基因组病原鉴定的策略是与数据库比对，大量的算法和工具均可以用于这个场景。如blast，bowtie2，minimap2等比对软件，通过比对结果可以找出每条序列与数据库中相似性以此来推测样本中的病原。在病原鉴定的整个生信分析中，分析的时效性和准确性是非常关键的，能够快速，准确地鉴定出病原可以有效地帮助医生对患者进行治疗。传统比对的算法准确度是非常高的，但将百万条的reads与上百G的数据库比对对计算资源的消耗太大分析时间太长。

虽然现有的比对软件通过与数据库比对可以达到鉴定病原的目的，然而，宏基因组数据量和比对数据库是非常大的，如果直接将其与数据库进行比对是非常耗时的，在比对前采用UMAP算法将测序数据进行聚类筛选代表性序列以减少参与后续比对的reads数目，然后计算数据库序列与代表性序列的距离值以筛选后续参与比对的数据库序列，这样可以大大减少比对过程的时间同时保证鉴定的准确性。

有鉴于此，提出本发明。

发明内容

本发明的目的是提供一种病原微生物鉴定的方法，采用此方法可以快速、准确地鉴定出病原微生物。

具体提供如下技术方案。

本发明首先提供一种宏基因组微生物测序数据的比对方法，包括如下步骤

1）数据获取：获取高通量测序得到的基因组测序数据；

2）数据过滤：将上述得到的测序数据依次进行低质量过滤和宿主过滤，得到过滤后的序列；

3）数据聚类：将上述过滤后的序列进行聚类得到聚类结果；

4）代表性序列获取：基于所述聚类结果获取代表性序列；

5）数据库序列选取：用计算数据库中每条序列与上述代表性序列的距离值，依据距离值来筛选数据库中的序列；

6）物种比对：将步骤4）所选代表性序列与步骤5）中选取的数据库中的序列进行比对，并统计比对结果：当一序列唯一比对一个物种定义为该物种的唯一比对序列，当一序列比对至少两个物种定义为多重比对序列；

7）多重比对结果分析：对于每条多重比对序列，统计其与各个物种的核苷酸相似度，比较其与各个物种之间的核苷酸相似度值，优先将该多重比对序列分配到最大核苷酸相似度的物种，如果核苷酸相似度相等，舍弃该多重比对序列。

步骤1）中所述的测序数据是一代、二代、三代测序数据，优选的是三代测序数据；优选的为ONT测序数据。

进一步的，步骤3）中，所述聚类基于UMAP算法进行聚类，根据聚类结果将测序数据分成相应数目的cluster。

进一步的，步骤4）中，对每个cluster选取一条reads代表整个cluster；优选的，选取规则为cluster内平均ANI值最大的reads。

进一步的，步骤5）中所计算的距离值代表数据库中的序列与测序数据的相似性，当距离值大于阈值时，认为基因组对应的物种不存在于测序数据中，舍弃该序列；

优选的，所述数据库构建为NCBI中的Refseq数据库。

进一步的，所述微生物包括但不限于病原微生物。

本发明还提供一种宏基因组微生物鉴定方法，包括上述方法，且进一步包括如下步骤：

8）结果输出：统计各个物种的总序列比对reads数，即得到病原微生物的分析鉴定结果；

优选的，所述总序列比对reads数为cluster对应的reads之和。

本发明还提供一种宏基因组微生物鉴定***，其特征在于，所述***包括如下模块：

1）数据获取模块：用于获取高通量测序得到的基因组测序数据；

2）数据过滤模块：用于将上述得到的测序数据依次进行低质量过滤和宿主过滤，得到过滤后的序列；

3）数据聚类模块：用于将上述过滤后的序列进行聚类得到聚类结果；

4）代表性序列获取模块：用于基于所述聚类结果获取代表性序列；

5）数据库序列选取模块：用于用计算数据库中每条序列与上述代表性序列的距离值，依据距离值来筛选数据库中的序列；

6）物种比对模块：用于将步骤4）所选代表性序列与步骤5）中选取的数据库中的序列进行比对，并统计比对结果：当一序列唯一比对一个物种定义为该物种的唯一比对序列，当一序列比对至少两个物种定义为多重比对序列；

7）多重比对结果分析模块：用于对于每条多重比对序列，统计其与各个物种的核苷酸相似度，比较其与各个物种之间的核苷酸相似度值，优先将该多重比对序列分配到最大核苷酸相似度的物种，如果核苷酸相似度相等，舍弃该多重比对序列；

8）结果输出模块：用于统计各个物种的总序列比对reads数，即得到病原微生物的分析鉴定结果。

进一步的，步骤4）中，对每个cluster选取一条reads代表整个cluster；优选的，选取规则为cluster内ANI值最大的reads。

进一步的，步骤5）中所计算的距离值反应数据库中的序列与测序数据的相似性，距离越大相似性越低，当距离值大于阈值时，认为基因组对应的物种不存在于测序数据中，舍弃该序列；

优选的，所述数据库构建为NCBI中的Refseq数据库。

进一步的，8）结果输出：统计各个物种的总序列比对reads数，即得到病原微生物的分析鉴定结果；

优选的，所述总序列比对reads数为cluster对应的reads数之和。

进一步的，所述微生物包括但不限于病原微生物。

本发明还提供一种电子设备，其特征在于，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如上任一项所述的方法。

本发明还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如上任一项所述的方法。

与现有技术相比，本发明至少具有如下优势：

1.本发明能够快速准确地鉴定病原微生物，适用于一代、二代、三代测序数据，尤其适用于三代宏基因组测序；

2.本发明所述方法采用聚类（尤其采用UMAP算法对序列进行聚类），根据结果筛选出参与比对的代表性序列，然后计算数据库中的序列与代表性序列之间的距离值筛选参与比对的数据库序列，可以有效地减少比对的时间同时保证了准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1、本发明的基础流程图；

图2 本发明在分析中的聚类图；

图3、本发明和传统BLAST方法进行用时分析分析比较图；

图4、本发明和传统BLAST方法进行准确率统计分析比较图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。

除非在下文中另有定义，本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本发明。

如本发明中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。

本发明所述的宏基因组微生物鉴定方法大体包括如图1所示：

1）数据获取：获取高通量测序得到的基因组测序数据；2）数据过滤：将上述得到的测序数据依次进行低质量过滤和宿主过滤，得到过滤后的序列；3）数据聚类：将上述过滤后的序列进行聚类得到聚类结果；4）代表性序列获取：基于所述聚类结果获取代表性序列；5）数据库序列选取：计算数据库中每条序列与上述代表性序列的距离值，依据距离值来筛选数据库中的序列；6）物种比对：将步骤4）所选代表性序列与步骤5）中选取的数据库中的序列进行比对，并统计比对结果：当一序列唯一比对上一个物种定义为该物种的唯一比对序列，当一序列比对上至少两个物种定义为多重比对序列；7）多重比对结果分析：对于每条多重比对序列，统计其与各个物种之间的核苷酸相似度，比较其与各个物种的核苷酸相似度值，优先将该多重比对序列分配到最大核苷酸相似性的物种，如果核苷酸相似性相等，舍弃该序列；8）结果输出。

本申请所述距离值指能代表数据库中的序列与测序数据的相似性的指标，例如编辑距离、进化距离等。

在一些实施方式中，步骤1）中所述的测序数据是一代、二代、三代测序数据，优选的是三代测序数据；优选的为ONT测序数据。

在一些实施方式中，步骤2）中低质量过滤可采用Filtlong软件，宿主过滤可采用minimap2软件；

在一些实施方式中，步骤3）中，聚类后根据聚类结果将测序数据分成相应数目的cluster；优选的，所述聚类基于UMAP算法进行聚类。

在一些实施方式中，步骤4）中，对每个cluster选取一条reads代表整个cluster；优选的，选取规则为cluster内平均ANI值最大的reads；优选的，所述ANI值计算采用fastANI软件。

在一些实施方式中，步骤5）中所计算的距离值代表数据库中的序列与测序数据的相似性，当距离值大于阈值时，认为基因组对应的物种不存在于测序数据中，舍弃该序列；在一些实施方式中，距离值计算可采用skmer软件；本领域技术人员可根据分析条件合理设置和调整阈值，例如，将阈值设置为0.3，或者0.4，或者0.5，或者0.6，或者0.7。

在一些实施方式中，步骤6）中比对所采用用软件为minimap2软件;

在一些实施方式中，所述数据库构建为NCBI中的Refseq数据库；

在一些实施方式中，8）结果输出：统计各个物种的总序列比对reads数，即得到病原微生物的分析鉴定结果；优选的，所述总序列比对reads数为cluster对应的reads之和。

在一些实施方式中，本发明所述微生物包括但不限于病原微生物。

本申请还公开了一种宏基因组微生物鉴定***，所述***包括如下模块：1）数据获取模块：用于获取高通量测序得到的基因组测序数据；2）数据过滤模块：用于将上述得到的测序数据依次进行低质量过滤和宿主过滤，得到过滤后的序列；3）数据聚类模块：用于将上述过滤后的序列进行聚类得到聚类结果；4）代表性序列获取模块：用于基于所述聚类结果获取代表性序列；5）数据库序列选取模块：用于用计算数据库中每条序列与上述代表性序列的距离值，依据距离值来筛选数据库中的序列；6）物种比对模块：用于将步骤4）所选代表性序列与步骤5）中选取的数据库中的序列进行比对，并统计比对结果：当一序列唯一比对上一个物种定义为该物种的唯一比对序列，当一序列比对上至少两个物种定义为多重比对序列；7）多重比对结果分析模块：用于对于每条多重比对序列，统计其与各个物种的核苷酸相似度，比较其与各个物种之间的核苷酸相似度值，优先将该多重比对序列分配到最大核苷酸相似度的物种，如果核苷酸相似度相等，舍弃该多重比对序列；8）结果输出模块：用于统计各个物种的总序列比对reads数，即得到病原微生物的分析鉴定结果。

本申请还公开了一种电子设备，其包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行任一前述的方法。

本申请还公开了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行任一前述的方法。

下面为具体的实施例。

实施例1病原微生物数据库构建

1. 宿主数据库构建：

在NCBI网站下载人类参考基因组(登录号：GCF_000001405 .39)即为宿主基因组数据库。

2.微生物基因组数据库构建；

下载NCBI RefSeq genome(https://ftp .ncbi .nlm .nih .gov/genomes/refseq)数据库中分类为“bacteria”、“fungi”、“viral”、“archaea”、“protozoa”的全部基因组。

每一个物种可能有多个基因组序列，对于有多个基因组序列的物种，筛选标记为“reference genome”或“representative genome”的基因组序列作为该物种的参考基因组。

3.物种分类信息构建

针对上述构建的微生物基因组数据库，进行物种分类层级信息注释，从NCBItaxonomy (ftp://ftp.ncbi.nih. gov/pub/taxonomy)数据库中下载分类信息文件(taxdump.tar.gz)，从信息文件中按照物种分类号(taxid)构建每个物种的分类层级数据库，数据库的字段格式为“taxid；界；门；纲；目；科；属；种”。所构建数据库中的每条序列对应一个taxID以确定对应的物种信息。

实施例2 混合模拟样本检测

1.数据获取

通过badread软件模拟Poliovirus，Escherichia coli,Candida albicans三个物种的混合ONT序列，具体的样本及模拟序列数见下表1：

表1 样本及模拟序列数

2.低质量过滤

原始序列采用Filtlong软件过滤掉质量后最终得到14,802条reads用于后续分析。

3.宿主过滤

使用软件minimap2将低质量过滤后的序列与实例1已经建好的宿主数据库比对，过滤掉比对上的序列得到非宿主序列14,802条。

4.序列聚类

使用UMAP算法对宿主过滤后的序列聚类分析，聚类后总共得到7个cluster，如图2所示。

5.代表性序列选取

提取4中聚类得到的cluster对应的序列，采用fastANI计算cluster内的ANI值，ANI值最大那条reads作为此cluster的代表性序列，最终我们得到7条代表性序列。

6.数据库序列选取

用软件skmer计算数据库中的基因组序列与步骤5中获得的7条代表性序列的距离，在这里我们将距离值大于0.5的基因组序列过滤掉，过滤后剩下568条基因组序列，而整个数据库的序列为13947多条序列，大大降低了后续参与比对的基因组序列数目。

7.将步骤5中得到的代表性序列与步骤6中选取的候选基因组序列用minimap2比对，采用参数minimap2 -ax map-ont得到比对结果。

8. 物种统计

将步骤7中的比对结果根据比对的信息提取唯一比对序列共有2条，多重比对序列5条，对于多重比对序列统计该序列与各个物种之间的核苷酸相似度，选取最大的相似性物种为最终比对物种，每个物种的最终比对reads数目为相应cluster对应的reads数目。

9.物种报出

最终的检测结果见下表2：

表2 检测结果

实施例3数据分析效果比较

在宏基因组分析鉴定领域，通常使用BLAST软件比对到NCBI核酸数据库。为了评估本方法的分析性能，本发明方法将从分析用时和准确度方面与常规BLAST软件分析方法对比。

数据来源

本评估采用模拟样本的策略进行。从8种常见的病原体的基因组模拟10000条序列生成FASTQ文件。每个病原体的模拟样本当作一个模拟样本，命名为S1-S8,具体信息如下表3所示：

表3 模拟样本信息

1.分析鉴定用时分析

将上述8个病原体样本采用本发明方法和BLAST方法在同一台服务器并保证相同的CPU下分析。

分析时间如下表4和图3所示，本发明方法平均用时508.44s，BLAST方法平均用时2128.85s。本发明方法的平均用时明显优于BLAST的方法。

表4 本发明方法和BLAST方法分析时间（s）

2.准确率分析

对8个病原体样本分别采用本发明和BLAST方法进行分析，统计准确率。这里的准确率定义为“正确检出的序列/样本含有的序列 × 100%”。

分析时间如下表所示，本发明的平均准确率为98.04%，BLAST方法的平均准确率为97.62%。本发明方法在准确率方面与BLAST相当。具体统计结果如下表5和图4所示。

表5 本发明方法和BLAST方法平均准确率（%）

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种宏基因组微生物测序数据的比对方法，其特征在于，包括如下步骤

1）数据获取：获取高通量测序得到的基因组测序数据；

3）数据聚类：将上述过滤后的序列进行聚类得到聚类结果；

4）代表性序列获取：基于所述聚类结果获取代表性序列；

5）数据库序列选取：计算数据库中每条序列与上述代表性序列的距离值，依据距离值来筛选数据库中的序列；

6）物种比对：将步骤4）所选代表性序列与步骤5）中选取的数据库中的序列进行比对，并统计比对结果：当一序列唯一比对上一个物种定义为该物种的唯一比对序列，当一序列比对上至少两个物种定义为多重比对序列；

7）多重比对结果分析：对于每条多重比对序列，统计其与各个物种的核苷酸相似度，比较其与各个物种之间的核苷酸相似度值，优先将该多重比对序列分配到最大核苷酸相似度的物种；如果各个物种的核苷酸相似度相等，舍弃该多重比对序列。

2.权利要求1所述的比对方法，其特征在于，步骤1）中所述的测序数据是一代、二代、三代测序数据。

3.权利要求1-2任一所述的比对方法，其特征在于，步骤3）中，聚类后根据聚类结果将测序数据分成相应数目的cluster。

4.权利要求1-2任一所述的比对方法，其特征在于，步骤4）中，对每个cluster选取一条reads代表整个cluster。

5.权利要求1-2任一所述的比对方法，其特征在于，步骤5）中所计算的距离值反应数据库中的序列与测序数据的相似性，距离越大相似性越低，当距离值大于阈值时，舍弃该序列。

6.权利要求1-2任一所述的比对方法，其特征在于，所述微生物包括但不限于病原微生物。

7.权利要求1-2任一所述的比对方法，其特征在于，所述测序数据为ONT测序数据。

8.权利要求3所述的比对方法，其特征在于，步骤3）中，所述聚类基于UMAP算法进行聚类。

9.权利要求4所述的比对方法，其特征在于，选取规则为cluster内ANI值最大的reads。

10.一种宏基因组微生物鉴定方法，其特征在于，包括权利要求1-9任一所述的方法，且进一步包括如下步骤：

8）结果输出：统计各个物种的总序列比对reads数，即得到病原微生物的分析鉴定结果。

11.权利要求10所述的宏基因组微生物鉴定方法，其特征在于，所述总序列比对reads数为cluster对应的reads之和。

12.一种宏基因组微生物鉴定***，其特征在于，所述***包括如下模块：

6）物种比对模块：用于将步骤4）所选代表性序列与步骤5）中选取的数据库中的序列进行比对，并统计比对结果：当一序列唯一比对上一个物种定义为该物种的唯一比对序列，当一序列比对上至少两个物种定义为多重比对序列；

13.一种电子设备，其特征在于，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-10任一项所述的方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-10任一项所述的方法。