CN112863603A

CN112863603A - 细菌全基因组测序数据的自动化分析方法及***

Info

Publication number: CN112863603A
Application number: CN202110271336.1A
Authority: CN
Inventors: 刘健; 孙嘉良; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-05-28

Abstract

本公开提供了一种细菌全基因组测序数据的自动化分析方法，包括：获取细菌基因组测序数据，判断测序数据类型；根据测序数据的类型分别进行相应预处理；根据用户选择的分析类型及预设的工具软件和软件参数，对预处理后的测序数据进行重测序分析和从头测序分析；实现细菌全基因组的鉴定和注释。所述方案提供了一种用户友好的自动化分析方法，对于没有专业生物信息学知识的研究人员和临床医生，自动化了生物信息学分析步骤，包括测序质量控制、重测序和从头组装、相似细菌参考基因组鉴定、细菌基因组注释，同时，能够针对不同平台产生的短读长和长读长测序数据进行定制的生物信息学分析，获得准确的分析结果。

Description

细菌全基因组测序数据的自动化分析方法及***

技术领域

本公开属于基因测序技术领域，尤其涉及一种细菌全基因组测序数据的自动化分析方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

细菌基因组信息的广泛应用要求基因组测序分析的自动化流程。细菌基因组分析工作流的研究已经取得了一定的成果。

发明人发现，现有的对于细菌全基因组的工作流通常专注于二代的细菌测序数据分析，无法满足目前快速发展的特点是长读长的三代甚至某些被称为***的测序技术所生成的测序数据的分析需求。并且它们涉及的方面通常不够全面，仅专注于从头测序或者重测序的单个方面。

而现有的宏基因组工作流通常侧重于宏基因组装箱、丰度计算等，并在宏基因组水平上提供良好的分析(宏基因组学通常侧重于环境中整个微生物群落的物种多样性和功能潜力)，但忽视了菌株分离筛选后对单个细菌基因组的深入分析，如单个细菌基因组的鉴定(精确到菌株水平)及相应的注释，这在工业微生物菌种选育和改良中有着重要的应用。

此外，现有的工作流通常为序列预处理和组装提供较少的分析工具选择，其用户友好性较差。

发明内容

本公开为了解决上述问题，提供了一种细菌全基因组测序数据的自动化分析方法及***，所述方案提供了一种用户友好的自动化分析方法，对于没有专业生物信息学知识的研究人员和临床医生，自动化了生物信息学分析步骤，包括测序质量控制、重测序和从头组装、相似细菌参考基因组鉴定、细菌基因组注释，同时，能够针对不同平台产生的短读长和长读长测序数据进行定制的生物信息学分析，获得准确的分析结果。

根据本公开实施例的第一个方面，提供了一种细菌全基因组测序数据的自动化分析方法，包括：

获取细菌基因组测序数据，判断测序数据类型；

根据测序数据的类型分别进行相应预处理；

根据用户选择的分析类型及预设的工具软件和软件参数，对预处理后的测序数据进行重测序分析和从头测序分析；

实现细菌全基因组的鉴定和注释。

进一步的，所述用户选择的分析类型及预设的工具软件和软件参数，通过配置文件进行保存，用户通过修改配置文件实现相关自定义设置。

进一步的，所述重测序分析具体为：

对预处理的测序数据进行组装，利用预选的工具软件将产生的contigs与本地细菌数据库中的参考基因组序列进行比对，确定相似度最高的全基因组序列；将contigs与所述相似度最高的全基因组序列进行比对，实现细菌全基因组的鉴定和注释；

或，使用预选的工具软件将预处理的测序数据与参考基因组对齐，利用预选的工具软件将产生的contigs与本地细菌数据库中的参考基因组序列进行比对，确定相似度最高的全基因组序列；将contigs与所述相似度最高的全基因组序列进行比对，实现细菌全基因组的鉴定和注释；

进一步的，所述从头测序分析具体为：

对预处理的测序数据进行组装，然后执行组装质量评估操作，将组装好的Contigs与细菌数据库中的基因组进行比对，从对比结果中获得注释信息。

根据本公开实施例的第二个方面，提供了一种细菌全基因组测序数据的自动化分析***，包括：

数据获取单元，其用于获取细菌基因组测序数据，判断测序数据类型；

预处理单元，其用于根据测序数据的类型分别进行相应预处理；

分析单元，其用于根据用户选择的分析类型及预设的工具软件和软件参数，对预处理后的测序数据进行重测序分析和从头测序分析；实现细菌全基因组的鉴定和注释。

根据本公开实施例的第三个方面，提供了一种计算机可读指令，该指令被处理器执行时实现所述的一种细菌全基因组测序数据的自动化分析***。

与现有技术相比，本公开的有益效果是：

本公开所述方案可以有效处理具有不同读长的细菌基因组的二代测序数据和三代测序数据；对于细菌的全基因组实现了可以细致到亚种的精确的鉴定和在注释分析；同时，所述方案提供了用户友好的处理方式，通过组合了多种性能、需求不同的软件，用户通过配置文件的修改，在每个处理步骤中可以实现对工具软件的自由选择和对工具软件参数的自定义设置。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的细菌全基因组测序数据的自动化分析方法的整体流程图；

图2为本公开实施例一中所述的细菌全基因组重测序流程图；

图3为本公开实施例一中所述的细菌全基因组从头测序流程图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种细菌全基因组测序数据的自动化分析方法。

一种细菌全基因组测序数据的自动化分析方法，包括：

获取细菌基因组测序数据，判断测序数据类型；

根据测序数据的类型分别进行相应预处理；

实现细菌全基因组的鉴定和注释。

进一步的，所述重测序分析具体为：

对预处理的测序数据进行组装，利用预选的工具软件将产生的contigs与本地细菌数据库中的参考基因组序列进行比对，确定相似度最高的参考基因组序列；将contigs与所述相似度最高的参考基因组序列进行比对，实现细菌全基因组的鉴定和注释；

进一步的，所述从头测序分析具体为：

具体的，为了便于理解，以下结合附图对本公开所述方案进行详细说明：

首先，本公开所述方案主要解决以下技术问题：

(1)对二代短读长和三代长读长细菌基因组测序数据均能够进行有效分析。

(2)实现针对细菌全基因组测序数据的鉴定和注释分析。

(3)提供可供用户自由选择的分析工具组合。

为了解决这些技术问题，本专利开发了一个用户友好的自动化工作流。对于没有专业生物信息学知识的研究人员和临床医生，所述方案自动化了生物信息学分析步骤，包括测序质量控制、重测序和从头组装、相似细菌参考基因组鉴定、细菌基因组注释，所述方案利用Illumina、Ion Tor rent、PacBio和Oxford Nanopore等多个平台产生的短读长和长读长测序数据进行定制的生物信息学分析，能够提供准确的分析结果。

如图1所示，给出了细菌全基因组测序数据的自动化分析方法的流程图，所述方案由各环节不同的分析工具软件(所述分析软件均提供有调用接口)以及编写的本地脚本组成，用于短读长序列和长读长序列数据的序列预处理、重测序和从头测序。在用FASTQ格式获取输入的原始细菌基因组测序数据之后，所述方案首先检查输入数据是短读长序列数据还是长读长序列数据，然后再选择是执行重测序分析还是从头测序分析。此处设置了一个excel文件(配置文件)，用户可以通过修改它来配置他们的自定义设置。在读取全部的配置信息后，所述方案执行相应的序列预处理、组装、比对和注释方法，并生成相关的注释结果，以下进行详细说明：

(1)序列预处理

序列预处理首先进行质量评估操作，生成一个评估细菌测序数据质量的报告。在质量控制过程中没有足够质量的输入原始序列数据将在序列比对/组装前移除，以确保准确分析。所述方案在质量控制过程中删除了测序接头序列和引物序列，并从要比对/组装的原始测序数据队列中过滤出低质量的数据。我们还开发了一个外部参数脚本，供用户在预处理阶段设置所选软件的参数。

(2)重测序分析

重测序分析侧重于不同个体与参考基因组的基因组测序分析。

在预处理之后，一种方法是首先对输入数据进行组装，然后将产生的contigs与参考基因组序列进行比对。在这种情况下，所述方案中需要进行组装来完成分析。另一种方法是使用BLAT软件将输入数据与参考基因组对齐。这样，就不需要用到组装。考虑到BLAT基于在内存中的索引加速了比对的处理，运行BLAT可能需要大量的内存资源。考虑到用户可能没有足够内存资源，所述方案将第一种方式设置为默认方式进行重测序分析。

具体来说，对于默认方式，所述方案将输入序列进行组装，然后将组装生成的contigs与本地细菌数据库中的参考基因组序列进行比对以确定最相似的全基因组序列，该数据库从NCBI Refseq细菌基因组数据集中提取并包含7516个完整基因组。所述方案随后进一步将contigs与所识别到的最相似的参考基因组比对，以获得用于产生注释的更详细的比对信息，例如MAPQ(比较质量)和CIGAR(比较结果信息)，所述方案还支持通过使用PATRIC、CARD和DrugBank的数据库来支持抗生素耐药性和敏感性标记。重测序分析的过程如图2所示。

在默认的序列比对部分，所述方案首先组装输入序列，并生成contigs。然后，所述方案使用BLAST将contigs与细菌数据库比对。具体来说，所述方案使用了其子工具blastn将contigs与细菌数据库中的数据进行比较，然后获得参考序列的accession version列表。对于没有组装的序列比对，工作流可以使用BLAT进行比对。然后工作流使用biopython中的Entrez模块，根据accession version从细菌数据库下载相应的参考基因组序列。接下来，对于测序数据中最相似的参考基因组的识别，我们使用MinHash计算下载的参考基因组和输入序列之间的相似度，然后比较相似度来识别最相似的参考基因组

在下面，所述方案将contigs(如果没有组装，则直接输入测序序列)与最相似的参考基因组比对。对于短读测序数据，所述方案使用SNAP或Bowtie2将contigs与最相似的参考基因组对齐。对于长时间读取的序列数据，所述方案使用minimap2将输入序列与最相似的参考基因组比对。完成比对过程后，所述方案生成存储在SAM文件中的对齐结果，包括QNAME(the sequence name of the alignment),FLAG(match type),RENAME(referencesequence name),POS(the leftmost position of the matched sequence),MAPQ(comparative quality)and CIGAR(comparison result information)等。

最后，我们开发了一个运行在生成的比对结果基础上的内部脚本，并生成注释信息。我们在重测序分析过程中标记抗生素耐药性、敏感性和CDS信息，并且可以通过添加更多注释数据库资源来生成更多注释信息。对于抗生素耐药性和敏感性注释，所述方案使用blastn将contigs(如果没有组装，则直接输入测序序列)与包含PATRIC、CARD和DrugBank的数据库比对，然后使用内部脚本生成抗生素耐药性和敏感性注释。还可以使用注释软件Prokka和Prodigal。对于CDS信息的标注，所述方案首先把比对结果的记录按成功对齐的contigs的起始位置和结束位置进行升序排序。然后所述方案根据accession version访问CDS数据集(以GFF格式存储)，并利用CDS记录的起始点大于匹配成功的起始点、CDS记录的结束点小于匹配成功的结束点的条件，将比对结果与CDS数据集的信息进行对比。比对过所有记录后，所述方案生成相应的CDS注释信息。

(3)从头测序分析

从头测序分析不需要参考基因组信息来分析一个物种的基因组。预处理完成后，所述方案首先对输入序列进行组装，然后执行组装质量评估操作，生成包含质量评估参数(如总长度、N50等)的质量评估报告。然后，将组装好的Contig与数据库(如PATRIC、CARD和DrugBank)比对，比对结果包含一些以XML格式存储的HSP(High-scoring Segment Pair)信息的结果。最后，从比对结果中提取注释信息并输出到注释文件。从头测序分析的过程如图3所示。

在组装部分，所述方案使用了四种可选的组装软件：Megahit、velvet、SPAdes、canu。其中，Megahit和Velvet用于短读长测序数据，Canu用于长读长测序数据，SPAdes可用于短读长和长读长测序数据。所述方案使用内部脚本提供灵活的参数配置选项，以便用户可以控制参数值或选择要使用的软件。在读取组装参数后，所述方案将输入序列组装，然后将组装后的contigs输出到以FASTA格式存储的结果文件中进行进一步分析。

接下来，工作流执行质量评估操作来验证组装质量。工作流使用组装质量验证软件QUAST用于检查组装得到的contigs的质量，并生成包含总长度、N50和平均长度等参数的报告，这些参数是装配质量评估的重要评估标准。

最后，所述方案可以使用blastn将组装好的contigs与细菌数据库、PATRIC数据库、CARD数据库和DrugBank数据库中的基因组序列进行比对，然后生成并输出包含匹配序列信息的注释，如hit_id、hit_len、HSP等，也可以使用Prokka或Prodigal软件来生成注释。用户可以通过内部脚本和外部参数接口自定义这些软件(blastn、Prokka或Prodigal)的参数来自定义想要的结果格式和选择注释数据库。

实施例二：

本实施例的目的是提供一种细菌全基因组测序数据的自动化分析***。

一种细菌全基因组测序数据的自动化分析***，包括：

在更多实施例中，还提供：

一种计算机可读指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为用硬件及软件模块组合执行完成。该指令位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种细菌全基因组测序数据的自动化分析方法及***可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种细菌全基因组测序数据的自动化分析方法，其特征在于，包括：

获取细菌基因组测序数据，判断测序数据类型；

根据测序数据的类型分别进行相应预处理；

实现细菌全基因组的鉴定和注释。

2.如权利要求1所述的一种细菌全基因组测序数据的自动化分析方法，其特征在于，所述用户选择的分析类型及预设的工具软件和软件参数，通过配置文件进行保存，用户通过修改配置文件实现相关自定义设置。

3.如权利要求1所述的一种细菌全基因组测序数据的自动化分析方法，其特征在于，所述重测序分析具体为：

或，使用预选的工具软件将预处理的测序数据与参考基因组比对，利用预选的工具软件将产生的contigs与本地细菌数据库中的参考基因组序列进行比对，确定相似度最高的全基因组序列；将contigs与所述相似度最高的全基因组序列进行比对，实现细菌全基因组的鉴定和注释。

4.如权利要求1所述的一种细菌全基因组测序数据的自动化分析方法，其特征在于，所述从头测序分析具体为：

5.如权利要求1所述的一种细菌全基因组测序数据的自动化分析方法，其特征在于，所述对预处理的测序数据进行组装，供选择的组装工具软件包括：Megahit、Velvet、SPAdes和Canu，其中，Megahit和Velvet用于短读长测序数据，Canu用于长读长测序数据，SPAdes可用于短读长和长读长测序数据。

6.如权利要求1所述的一种细菌全基因组测序数据的自动化分析方法，其特征在于，所述预处理具体包括：序列质量评估、序列质量控制和质量控制后的序列质量评估，其中，所述序列质量控制过程中删除了测序接头序列和引物序列，并从要对齐或组装的原始测序数据队列中过滤出低质量的数据。

7.如权利要求1所述的一种细菌全基因组测序数据的自动化分析方法，其特征在于，所述数据类型包括短读长测序数据和长读长测序数据。

8.一种细菌全基因组测序数据的自动化分析***，其特征在于，包括：

9.如权利要求8所述的一种细菌全基因组测序数据的自动化分析***，其特征在于，所述自动化分析***还包括配置单元，其用于将所述用户选择的分析类型及预设的工具软件和软件参数，通过配置文件进行保存，用户通过修改配置文件实现相关自定义设置。

10.一种计算机可读指令，其特征在于，该指令被处理器执行时实现如权利要求1-7任一项所述的一种细菌全基因组测序数据的自动化分析***。