CN113539378A

CN113539378A - 一种病毒数据库的数据分析方法、***、设备及存储介质

Info

Publication number: CN113539378A
Application number: CN202110804370.0A
Authority: CN
Inventors: 刘国琦; 韩长春; 陈华
Original assignee: Mingke Biotechnology Hangzhou Co ltd
Current assignee: Mingke Biotechnology Hangzhou Co ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-10-22

Abstract

本发明公开了一种病毒数据库的数据分析方法、***、设备及存储介质，包括以下步骤：基于样品的病毒数据，对所述病毒数据通过质控后对比宿主基因组，去除宿主污染，得到筛选后的待分析病毒数据；对所述待分析病毒数据组装宏病毒，得到病毒contig；对所述病毒contig评估筛选，去除假阳性病毒，得到病毒contig筛选结果；对所述病毒contig筛选结果进行病毒分类，得到病毒contig类群；对所述病毒contig类群比对到已知病毒数据库上，判断所述病毒contig类群是否在已知的病毒数据库内；若否，则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库。本发明的数据分析方法能够提升病毒数据有效性和准确性并扩充已知病毒数据库。

Description

一种病毒数据库的数据分析方法、***、设备及存储介质

技术领域

本发明涉及基因检测技术领域，尤其涉及一种病毒数据库的数据分析方法、***、设备及存储介质。

背景技术

宏病毒组，是在宏基因组学的一个新的学科分支，以环境中所有病毒的遗传物质为研究对象，鉴定出环境中所有的病毒组成，研究范围在人或动物肠道或者海洋、土壤等，用以挖掘潜在的对人类和环境的危害。

但是病毒不同于细菌或者真菌等其他微生物那样有通用的标记基因可以将其作为一个整体进行研究，因此，并不能通过标签序列扩增子测序的手段进行相应的病毒群落分类和解析，不能***的得到样品内病毒组成多样性以及执行的功能。现有的基因宏病毒的分析方法是按照宏基因组的分析方法来分析的，部分按照自己开发的软件来进一步病毒识别，比对的数据库也是基于NR总数据库来比对的，这就造成病毒分类不准确，可靠性不高，出现结果的偏差。

发明内容

本发明针对现有技术中的缺点，提供了一种病毒数据库的数据分析方法、***、设备及存储介质。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种病毒数据库的数据分析方法，包括以下步骤：

基于样品的病毒数据，对所述病毒数据通过质控后对比宿主基因组，去除宿主污染，得到筛选后的待分析病毒数据；

对所述待分析病毒数据组装宏病毒，得到病毒contig；

对所述病毒contig评估筛选，去除假阳性病毒，得到病毒contig筛选结果；

对所述病毒contig筛选结果进行病毒分类，得到病毒contig类群；

对所述病毒contig类群比对到已知病毒数据库上，判断所述病毒contig类群是否在已知的病毒数据库内；

若否，则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库。

优选的，采用trimmomatic软件做质控，则对所述病毒数据进行预处理，包括下列步骤：

过滤所述病毒数据reads尾部质量值20以下的碱基,具体方法如下：设置50bp的窗口，从头部开始移动窗口，如果窗口内的平均质量值低于20，则从窗口处截去后端碱基；

去除包含N碱基数目2以上的reads，去除含有adaptor接头污染的reads，去除50bp以下的reads，此质控的方法筛选出高质量的病毒数据以提高分析病毒数据的有效性；

用bwa把测序reads比对到宿主基因组，去除与宿主基因组相似度＞90％的reads，去除宿主污染，防止宿主污染导致分析结果不准确。

优选的，采用metaSPAdes软件下的MetaviralSPAdes模块，通过不同kmer组装以及病毒结构特征，得到病毒contig。

优选的，采用Virsorter、Virfinder、CheckV软件对所述病毒contig评估筛选，去除假阳性病毒数据，包括以下步骤：

Virsorter软件把病毒contig归为6大类，取可信度最高的第一类和第二类；

Virfinder软件把所述第一类和第二类中的每条进行打分，设置阈值：score＞0.9并且p-value＜0.05，满足阈值的contig是病毒，若不满足则筛除，得到待判断的病毒contig；

CheckV软件根据病毒基因组的结构特征，对所述待判断的病毒contig的完整度和污染度进行判断，筛选并去除病毒contig中的假阳性病毒，防止样本污染或者检测过程中的污染导致的假阳性病毒影响分析结果，提高数据分析的可靠性。

优选的，采用Vcontact和vpf软件对所述病毒contig筛选结果进行病毒分类，得到所述病毒contig类群并构建***发育树，具体为：

采用Vcontact软件对所述病毒contig筛选结果自动化聚类算法；

使用Vcontact软件的ClusterONE定义病毒簇；

采用vpf软件中的hmmsearch软件鉴定病毒簇得到病毒分类信息及病毒contig类群；

根据病毒基因组序列作全局对比的相似程度构建***发育树，直观上对病毒之间的关系脉络更加清晰。

优选的，病毒丰度的计算采用Salmon软件将clean data mapping到各病毒基因序列上，得到病毒contig在样品中的病毒丰度，采用以下公式：

Ng是比对上的reads数目，j是所有基因，计算病毒丰度作为后续定量分析病毒功能的基础。

优选的，采用blast软件对所述病毒contig类群比对到已知数据库上，判断所述病毒contig类群是否在已知的数据库内，具体步骤如下：

采用所述blast软件将所述病毒contig类群比对到已知病毒库上，将比对相似度＞60％，evalue＜1e-5的这些contig，定义为已知病毒；

将未判定为已知病毒的病毒contig序列分别与NT库和NR库用blast软件做比对，分别筛选出evalue＜1e-5和evalue＜1e-3的比对结果；

使用NCBI Taxonomy数据对两种比对结果进行注释，如果在前50个比对结果中有20％以上的比对结果为非病毒序列，则该序列为非病毒序列，否则是病毒序列；所述病毒序列就是新的病毒类群，该方法可以有效筛选出已知病毒类群和未知病毒类群。

优选的，基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库，包括以下步骤：

基于NR库下载已有明确病毒拉丁文名字的病毒信息，将NR库内的病毒信息作为整理的病毒数据库的基础信息；

基于gbff文件中source进行分类，对每个病毒分类，一个病毒有多个来源的，划分到多个不同的类别中；

基于expasy病毒数据库上的信息对所述病毒库进行扩充更新，建立已知病毒数据库；

采用blast软件对获得的待分析的未知病毒序列与KEGG数据库比对，得到病毒在KEGG orthology、pathway层面上的功能分类；结合所述病毒丰度可以得到该未知病毒的KEGG功能丰度；

采用blast软件对获得的待分析的未知病毒序列与uniprot数据库比对，得到病毒在DNA聚合酶、RNA聚合酶上的功能信息；结合所述病毒丰度可以得到该未知病毒的聚合酶丰度信息；

由此获得的未知病毒contig类群功能信息扩充到已知病毒数据库中更新已知病毒数据库。

一种病毒数据库的数据分析***，包括预处理模块、组装模块、筛选模块、分类模块、对比模块和更新模块；

所述预处理模块，基于样品的病毒数据，对所述病毒数据进行预处理，去除宿主污染的病毒数据，得到待分析病毒数据；

所述组装模块，用于对待分析病毒数据组装宏病毒，得到病毒contig；

所述筛选模块，用于对病毒contig进行评估筛选，去除假阳性病毒，得到病毒contig筛选结果；

所述分类模块，用于对病毒contig筛选结果进行分类，得到病毒contig类群；

所述对比模块，用于将病毒contig类群与已知病毒库进行对比，判断病毒contig类群是否存在于已知病毒库内；

所述更新模块，被设置为：若否，则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒库中以更新已知病毒库。

一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现病毒数据库的数据分析方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现病毒数据库的数据分析方法。

本发明所实现的一种病毒数据库的数据分析方法、***、设备及存储介质，通过对样品的病毒数据严格筛选和去除污染的预处理后组装宏病毒得到病毒contig，对评估筛选后去除假阳性病毒后的病毒contig才能继续进行分类对比病毒的contig类群，对比判断病毒contig类群是否存在已知病毒库，若已存在，则分析结束；若不存在，则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒库中以更新已知病毒库。此分析方法能有效提高数据的准确性和有效性，并且能评估和鉴定大量的未知病毒，扩充已知的病毒库，在疾病预防和环境治理方面提供有效的理论指导。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的流程示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例1

本实施例提供一种病毒数据库的数据分析方法，请参照图1，包括下列步骤：

步骤S101，基于样品的病毒数据，对所述病毒数据通过质控后对比宿主基因组，去除宿主污染，得到筛选后高质量的待分析病毒数据；

步骤S102，对待分析病毒数据组装宏病毒，得到病毒contig；

步骤S103，对病毒contig评估筛选，去除假阳性病毒，得到病毒contig筛选结果；

步骤S104，对病毒contig筛选结果进行病毒分类，得到病毒contig类群；

步骤S105，对病毒contig类群比对到已知数据库上，判断所述病毒contig类群是否在已知的数据库内；若是则结束分析；若否，则进行步骤S106；

步骤S106，若否，则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒库中以更新已知病毒库。

步骤S101采用trimmomatic软件做质控，则对病毒数据进行预处理，包括下列步骤：

过滤所述病毒数据reads尾部质量值20以下的碱基，具体方法如下：设置50bp的窗口，从头部开始移动窗口，如果窗口内的平均质量值低于20，则从窗口处截去后端碱基；

去除包含N碱基数目＞2的reads，去除含有adaptor接头污染的reads，去除50bp以下的reads，此质控的方法筛选出高质量的病毒数据以提高分析病毒数据的有效性；

通常情况下测序数据里会混有宿主的基因组片段，在组装之前就需要先去掉这些宿主来源的序列，用bwa把测序reads比对到宿主基因组，去除与宿主基因组相似度＞90％的reads，防止宿主污染导致分析结果不准确。

在得到筛选后的病毒数据后根据所述步骤S102采用metaSPAdes软件下的MetaviralSPAdes模块，所述MetaviralSPAdes是最新开发的metaSPAdes软件下的一个模块，专门用于从环境样品中组装病毒contig；通过不同kmer组装以及病毒结构特征，得到尽可能长的、覆盖度深的病毒contig。

下一步所述步骤S103采用Virsorter、Virfinder、CheckV软件得到的对所述病毒contig评估筛选，去除假阳性病毒数据，包括以下步骤：

Virsorter软件将所述病毒contig归为6大类，取可信度最高的第一类和第二类；

Virfinder软件把所述第一类和第二类中的每条进行打分，设置阈值：score＞0.9且p-value＜0.05，满足阈值的contig是病毒，若不满足则筛除，得到待判断的病毒contig；

CheckV软件根据病毒基因组的结构特征，对所述待判断的病毒contig的完整度和污染度进行判断，筛选并去除contig中的假阳性病毒，经过三步筛选有效地防止了样本污染或者检测过程中的污染导致的假阳性病毒影响分析结果，提高数据分析的可靠性。

所述步骤S104采用Vcontact和vpf软件对所述病毒contig筛选结果进行病毒分类，得到所述病毒contig类群并构建***发育树，具体为：

采用Vcontact软件对所述病毒contig筛选结果自动化聚类算法：运用了Vcontact软件新的集群算法、集群的置信度评分和网络分析，对病毒氨基酸序列自动化聚类并且此算法改进了分类分配，以及可应用于更大的数据集。这个算法，为分级分类建立基于置信度评分和距离的分类分离单元，并使用一个大规模病毒宏基因组数据集对可扩展性和稳定性进行优化和评估。在形成马尔科夫算法聚类蛋白集成群后，软件优化了蛋白簇，建立了自动化的两步过程，接着使用ClusterONE来定义病毒簇，然后使用层次聚类对网络中有问题的区域进行细分，此方法对病毒的聚类更准确和方便；

采用vpf软件中的hmmsearch软件把prodigal预测到的蛋白序列，和数据库中的病毒序列做比对，设置阈值1e-3，得到病毒分类信息及病毒contig类群，根据各病毒的基因组序列作全局对比构建***发育树，通过***发育树上各病毒的进化关系，得到病毒间的亲缘关系，使直观上对病毒之间的关系脉络更加清晰并且在病毒数据库的分类更清楚。

病毒丰度的计算采用Salmon软件将clean data mapping到各病毒基因序列上，得到病毒contig在样品中的病毒丰度，采用以下公式：

Ng是比对上的reads数目，j是所有基因。计算病毒丰度是为后续定量分析病毒功能作基础。

所述步骤S105采用blast软件对所述病毒contig类群比对到已知数据库上，判断所述病毒contig类群是否在已知的数据库内，具体步骤如下：

采用所述blast软件将获得的所述病毒contig类群比对到已知病毒库上，将比对相似度＞60％，evalue＜1e-5的这些contig，定义为已知病毒；

使用NCBI Taxonomy数据对两种比对结果进行注释，注释结果为Eukaryota、Bacteria、Archaea，如果在前50个比对结果中有20％以上的比对结果为非病毒序列，则该序列为非病毒序列，否则是病毒序列；该病毒序列就是新的病毒类群，该方法可以有效筛选出已知病毒类群和待分析的未知病毒类群。

所述步骤S106基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库，包括：

基于expasy病毒数据库上的信息对所述病毒库进行扩充更新，这个数据库主要是已知动植物病毒，包括病毒序列和分类。加入进来，对已知病毒数据库最大程度上的补充更新；

采用blast软件对获得的待分析的未知病毒类群与KEGG数据库比对，得到病毒在KEGG orthology、pathway层面上的功能分类；结合所述病毒丰度可以得到该未知病毒的KEGG功能丰度；

采用blast软件对获得的待分析的未知病毒类群与uniprot数据库比对，得到病毒在DNA聚合酶、RNA聚合酶上的功能信息；结合所述病毒丰度可以得到该未知病毒的聚合酶丰度信息；

由此获得的该未知病毒contig类群功能信息扩充到已知病毒数据库中更新已知病毒数据库。

实施例2

实施例2公开了一种实施例1的一种病毒数据库的数据分析***，包括：

预处理模块，基于样品的病毒数据，对所述病毒数据进行预处理，去除宿主污染的病毒数据，得到待分析病毒数据；

组装模块，用于对待分析病毒数据组装宏病毒，得到病毒contig；

筛选模块，用于对病毒contig进行评估筛选，去除假阳性病毒，得到病毒contig筛选结果；

分类模块，用于对病毒contig筛选结果进行分类，得到病毒contig类群；

对比模块，用于将病毒contig类群与已知病毒库进行对比，判断病毒contig类群是否存在于已知病毒库内；

更新模块，被设置为：若否，则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒库中以更新已知病毒库。

实施例3

实施例3提供了一种实施例1的病毒数据库的数据分析电子设备，包括：处理器、存储器、输入装置和输出装置；计算机设备中处理器的数量可以是一个或多个，此实施例中采用一个处理器；电子设备中的处理器、存储器、输入装置和输出装通过总线或其他方式连接，此实施例中以通过总线连接为例。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的病毒数据库的数据分析方法对应的程序指令。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现实施例1的病毒数据库的数据方法。

存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置可用于输入病毒数据等。输出装置用于输出并显示病毒数据处理、筛选分类、对比等结果。

实施例4

本发明实施例4还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于实现病毒数据库的数据分析方法，该方法包括：

对所述待分析病毒数据组装宏病毒，得到病毒contig；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的病毒数据库的数据分析方法中的相关操作。

值得注意的是，上述一种病毒数据库的数据分析方法的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

此外，需要说明的是，本说明书中描述了本发明的基本原理、主要特征及本发明的优点。其的形状、所取名称等可以不同。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种病毒数据库的数据分析方法，其特征在于，包括以下步骤：

对所述待分析病毒数据组装宏病毒，得到病毒contig；

2.根据权利要求1所述的一种病毒数据库的数据分析方法，其特征在于，采用trimmomatic软件做质控，则对所述病毒数据进行预处理，包括以下步骤：

过滤所述病毒数据reads尾部质量值20以下的碱基,设置50bp的窗口，从头部开始移动窗口，如果窗口内的平均质量值低于20，则从窗口处截去后端碱基；

去除包含N碱基数目2以上的reads，去除含有adaptor接头污染的reads，去除50bp以下的reads；

用bwa把测序reads比对到宿主基因组，去除与宿主基因组相似度＞90％的reads。

3.根据权利要求1所述的一种病毒数据库的数据分析方法，其特征在于，采用Virsorter、Virfinder、CheckV软件对所述病毒contig评估筛选，去除假阳性病毒数据，包括以下步骤：

Virfinder软件把所述第一类和第二类中的每条进行打分，设置阈值：score＞0.9并且p-value＜0.05，满足阈值的contig是病毒，若不满足则筛除；

CheckV软件根据病毒基因组的结构特征，判断组装出的contig的完整度和污染度，则去除contig中的假阳性病毒。

4.根据权利要求1所述的一种病毒数据库的数据分析方法，其特征在于，采用Vcontact和vpf软件对所述病毒contig筛选结果进行病毒分类，得到所述病毒contig类群并构建***发育树，具体为：

采用Vcontact软件对所述病毒contig筛选结果自动化聚类算法；

使用Vcontact软件的ClusterONE定义病毒簇；

根据病毒基因组序列作全局对比的相似程度构建***发育树。

5.根据权利要求1所述的一种病毒数据库的数据分析方法，其特征在于，病毒丰度的计算采用Salmon软件将clean data mapping到各病毒基因序列上，得到病毒contig在样品中的病毒丰度。

6.根据权利要求1所述的一种病毒数据库的数据分析方法，其特征在于，采用blast软件对所述病毒contig类群比对到已知数据库上，判断所述病毒contig类群是否在已知的数据库内，具体步骤如下：

采用所述blast软件将获得的所述病毒contig类群比对到已知病毒库上，将比对相似度＞60％，evalue＜1e-5的contig，定义为已知病毒；

通过筛选后的比对结果得到待分析的未知病毒序列。

7.根据权利要求1所述的一种病毒数据库的数据分析方法，其特征在于，则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库，包括以下步骤：

基于NR库下载已有明确病毒拉丁文名字的病毒信息；

基于gbff文件中source进行分类；

基于expasy病毒数据库上的信息对病毒数据库进行扩充更新，建立已知病毒数据库；

采用blast软件对获得的待分析的未知病毒序列与KEGG数据库比对，得到病毒在KEGGorthology、pathway层面上的功能分类，结合所述病毒丰度得到病毒的KEGG功能丰度；

采用blast软件对获得的待分析的未知病毒序列与uniprot数据库比对，得到病毒在DNA聚合酶、RNA聚合酶上的功能信息，结合所述病毒丰度得到病毒的聚合酶丰度信息。

8.一种病毒数据库的数据分析***，其特征在于，包括预处理模块、组装模块、筛选模块、分类模块、对比模块和更新模块；

9.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的一种病毒数据库的数据分析方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的一种病毒数据库的数据分析方法。