CN115295083A

CN115295083A - 一种RNA-Seq测序数据分析方法

Info

Publication number: CN115295083A
Application number: CN202210827656.5A
Authority: CN
Inventors: 叶本晨; 昝明辉; 王东; 安帅; 刘莹; 吴再辉; 李潇亮; 刘树然
Original assignee: Zhengzhou Zhongke Biomedical Engineering Technology Research Institute
Current assignee: Zhengzhou Zhongke Biomedical Engineering Technology Research Institute
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-11-04

Abstract

本发明公开一种RNA‑Seq测序数据分析方法，包括步骤：安装一个可移植的应用容器，其封装有数据分析所需的所有脚本、依赖资源、软件组件；以应用容器为平台拉取构建的容器镜像构建一流程容器；载入所需运行环境，调用封装的全局脚本，生成数据分析项目：运行全局脚本，创建数据分析项目文件夹；导入待分析的RNA‑Seq测序数据，根据需要可选的修改配置文件；启动分析自动化流程，开展运行前检测、模块化分析以及分析报告自动生成；模块化分析包括质控、比对、计数、差异表达分析、分组比较、富集分析中的一个。本发明提供一种模块化、高移植性的RNA‑Seq数据分析流程，减少研究人员使用门槛，提高研究人员从RNA‑Seq数据中获取知识的效率。

Description

一种RNA-Seq测序数据分析方法

技术领域

本发明涉及生物信息技术领域，更具体地说，本发明涉及一种转录组学二代测序RNA-Seq数据的生物信息分析方法。

背景技术

转录组学是组织、细胞在某种特定条件下转录出的全部RNA。转录组学分析是从RNA水平探究基因表达情况，通过对这些RNA的分析可以探究基因的转录情况和转录调控的规律，它是探究特定条件下细胞表型与功能的一个重要方法。近些年，随着测序技术的不断发展，下一代测序成本不断降低，使得越来越多的研究单位开始将RNA-Seq技术应用到转录组学的研究，从而获取全转录本的基因表达信息。

随着RNA-Seq技术应用的大量增多，如何高效、快捷、方便地分析处理这些测序下机数据，从中挖掘有价值的知识成为当前急需解决的问题。由于从下机数据预处理到获取基因表达信息，以及下游一些常规数据处理涉及大量不同软件、程序包，这些软件和包的安装以及依赖的运行环境安装比较复杂，对于它们的使用也需要足够的生物信息基础和编程能力，这对于很多刚接触RNA-Seq的研究人员具有很大挑战。另外，出于高效运行的目的也需要搭建一个流程将不同的软件、包进行整合。目前，虽然已经出现几个RNA-seq的数据分析流程，如RASflow、snakePipes，但是这些流程存在以下一些问题：1.技术门槛高，不利于没有较多生物信息学基础人员使用；2.环境配置复杂，数据分析各阶段软件所需运行环境配置较为复杂，可移植性差，在不同***、设备、软件版本的情况可能存在运行问题；3.对转录组学下游分析仅停留在差异表达分析，且为软件默认结果图，可视化效果差，图片不能作为正式报告使用；4.缺少对测序数据质量的汇总统计。

针对以上问题，研究一种简单、易用、模块化、高移植性的RNA-Seq测序数据分析方法，减少研究人员使用门槛，提高他们从RNA-Seq数据中获取知识的效率，是非常有必要的。

发明内容

针对上述技术中存在的不足之处，本发明提供一种RNA-Seq测序数据分析方法，通过封装了RNA-Seq数据预处理、基因差异表达分析及可视化、富集分析等常用分析运行环境设置，开箱即用，方便部署，简单、易用、模块化、高移植性的RNA-Seq数据分析流程，减少研究人员使用门槛，提高研究人员从RNA-Seq数据中获取知识的效率。

为了实现根据本发明的这些目的和其它优点，本发明通过以下技术方案实现：

本发明实施例提供一种RNA-Seq测序数据分析方法，其包括以下步骤：

安装一个可移植的应用容器，其封装有RNA-Seq数据分析所需的所有脚本、依赖资源、软件组件；

以所述应用容器为平台拉取构建的容器镜像并根据其构建一流程容器；

载入所述流程容器运行所需的运行环境，调用所述流程容器中封装的全局脚本，生成一个数据分析项目对RNA-Seq数据进行数据分析；

其中，生成一个数据分析项目对RNA-Seq数据进行数据分析包括步骤：

运行全局脚本，创建一个数据分析项目文件夹，其设有一一对应存放原始测序数据、流程各步骤分析的结果和中间文件、流程运行日志信息以及最终生成报告的若干个数据分析项目子文件夹；所述数据分析项目文件夹还生成有流程运行依赖的配置文件、样本信息表和流程脚本；

导入待分析的RNA-Seq测序数据，根据其填充所述样本信息表，根据需要可选的修改所述配置文件；

启动分析自动化流程，开展运行前检测、模块化分析以及分析报告自动生成；所述模块化分析的分析模块至少包括质控、比对、计数、差异表达分析、分组比较、富集分析中的一个。

优选的是，调用所述流程容器中封装的全局脚本时，还传入一个位置参数，用于定义数据分析项目工作区的存放位置。

优选的是，运行全局脚本，创建一个数据分析项目文件夹时，所述全局脚本需要提供数据分析项目名称和分析数据类型，所述分析数据类型是双端测序或单端测序。

优选的是，所述样本信息表的第一列为对应输入的RNA-Seq测序数据的样本名，第二列为每个样本对应的分组名。

优选的是，修改所述配置文件包括更换不同的比对方法和/或差异表达分析方法，和/或指定运行的至少一个所述分析模块。

优选的是，所述运行前检查包括步骤：

根据自定义检查所述全局脚本，检查所述配置文件的运行参数与样本是否匹配、运行参数是否符合运行逻辑条件，并根据样本分组信息将所述样本名和对应所述分组名自动写入所述配置文件。

优选的是，所述质量控制包括步骤：

统计原始RNA-Seq测序数据质量，使用自定义脚本统计各样本测序质量情况汇总表；

比对NCBI rRNA序列，去除所述原始RNA-Seq测序数据中rRNA污染；

对去污后的RNA-Seq测序数据进行质量控制，使用自定义脚本统计各样本质控后测序质量情况汇总表；

其中，所述样本测序质量情况汇总表至少包括样本名、读段长度、读段数、GC比例、Q20比例、Q30比例的统计；

所述质量控制包括过滤低质量的碱基和序列、去除接头污染；

所述样本质控后测序质量情况汇总表至少包括样本名、读段数、碱基数、读段长度、Q20比例、Q30比例、GC比例和读段通过比例的统计。

优选的是，所述比对包括：

将质控后测序数据的各个读段比对到参考基因组或者转录组；

对比对的结果进行排序；

生成BAM文件；

其中，所述比对的数据库和比对方法，在所述配置文件中可选择和可修改，首次使用所述比对的数据库进行分析时，流程在线下载并部署。

优选的是，所述计数包括如下步骤：

将比对后各样本BAM文件各转录本读段数进行计数汇总，生成前表达矩阵；

根据自定义脚本，使用对应gtf文件中基因映射关系将转录本编码转换为基因编码，得到最终的表达矩阵；

根据所述配置文件选择需要在后续分析中保留的基因类型，剔除与分析无关的基因。

优选的是，所述差异表达分析包括如下步骤：

对所述最终的表达矩阵进行差异表达分析，生成一个过滤的差异表达基因集和一个未过滤的分析结果；

使用火山图和热图分别可视化基因差异表达结果；

其中，过滤条件为pvalue<0.05且|logFC|>1；

所述热图用于可视化差异表达基因在各样本表达情况，所述火山图用于可视化差异表达基因倍数变化与P值的情况。

本发明至少包括以下有益效果：

1.本发明通过安装一个可移植的、封装有RNA-Seq数据分析所需的所有脚本、依赖资源、软件组件的应用容器，以应用容器为平台拉取构建的容器镜像构建一流程容器，构建了一体化RNA-Seq测序数据的数据分析流程，该流程对RNA-Seq测序数据质控、比对、计数、差异表达分析、多种样本或基因差异可视化展示、富集分析及可视化进行模块化封装，支持断点分析，并行运行等功能，解决RNA-Seq测序数据分析各种软件、包环境的安装、配置、迁移部署以及不同计算资源差异的问题，可以实现简单配置后一键自动化运行，即满足测序下机文件输入，简单配置运行设置后，直接输出满足科研与产业要求结果，并生成专业的分析报告，极大降低RNA-Seq数据分析门槛，提高RNA-Seq数据分析效率，简单、易用；

2.各分析内容采用模块化方式管理，方便后续增加新的分析内容，并且也可以直接将其中的RNA-Seq下游的分析(差异表达分析及可视化、富集分析等)应用到其他转录组测序的下游分析，如空间转录组或者单细胞转录组，这种整合常用转录组学下游分析方法，并对分析结果可视化展示进行优化，促使本发明具有高移植性的特点，提高研究人员从RNA-Seq数据中获取知识的效率；

3.在RNA-Seq测序数据质控过程中加入了去除rRNA污染步骤，可去除某些RNA-Seq测序数据中的rRNA的污染，提高后续分析的准确性。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为发明提供的一种RNA-Seq测序数据分析方法的流程图；

图2为本发明数据分析项目对RNA-Seq数据进行数据分析的方法流程示意图；

图3为本发明质量控制的方法流程示意图；

图4为本发明比对的方法流程示意图；

图5为本发明计数的方法流程示意图；

图6为本发明差异表达分析的方法流程示意图；

图7为本发明RNA-Seq测序数据分析方法的流程示例图；

图8为本发明的主成分分析仿真图；

图9为本发明的非度量多维尺度分析仿真图；

图10为本发明的火山图；

图11为本发明的热图；

图12为本发明的KEGG通路富集分析仿真图；

图13为本发明的基因本体论生物过程富集分析仿真图。

具体实施方式

下面将结合附图对本发明实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面所述的本发明不同实施方式中使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加；所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

<实施方式1>

如图1和7所示，本发明实施方式提供一种RNA-Seq测序数据分析方法，其包括以下步骤：

S10，安装一个可移植的应用容器，其封装有RNA-Seq数据分析所需的所有脚本、依赖资源、软件组件；

S20，以应用容器为平台拉取构建的容器镜像并根据其构建一流程容器；

S30，载入流程容器运行所需的运行环境，调用流程容器中封装的全局脚本，生成一个数据分析项目对RNA-Seq数据进行数据分析；

其中，如图2所示，生成一个数据分析项目对RNA-Seq数据进行数据分析包括步骤：

S31，运行全局脚本，创建一个数据分析项目文件夹，其设有一一对应存放原始测序数据、流程各步骤分析的结果和中间文件、流程运行日志信息以及最终生成报告的若干个数据分析项目子文件夹；数据分析项目文件夹还生成有流程运行依赖的配置文件、样本信息表和流程脚本；

S32，导入待分析的RNA-Seq测序数据，根据其填充样本信息表，根据需要可选的修改配置文件；

S33，启动分析自动化流程，开展运行前检测、模块化分析以及分析报告自动生成；模块化分析的分析模块至少包括质控、比对、计数、差异表达分析、分组比较、富集分析中的一个。

上述步骤S10中，依赖资源包括数据分析所需的所有的运行环境依赖以及其他依赖资源；可移植的应用容器，即Docker容器，是独立于用户的硬件与***，可移植到任何设备、***上运行。使用人员根据步骤S20简单地从docker容器仓库中拉取封装的该docker容器镜像，然后根据该docker容器镜像构建一个流程容器，再根据步骤S30，载入流程容器运行所需的运行环境，调用流程容器中封装的全局脚本，生成一个数据分析项目就可以对RNA-Seq数据进行数据分析，无需了解底层复杂软件运行环境配置细节。

上述步骤S30中，通过conda activate RSAP命令载入流程容器运行所需的运行环境，conda管理流程容器运行的各种软件及依赖包环境，在运行流程前需要先将依赖的环境载入。

上述步骤S31中，数据分析项目文件夹中设有一一对应存放原始测序数据、流程各步骤分析的结果和中间文件、流程运行日志信息以及最终生成报告的若干个数据分析项目子文件夹，如Data、Result、Log、Report等子文件夹。数据分析项目文件夹中也会生成一个流程运行依赖的配置文件project_run_config.yaml、样本信息表metadata.xls和流程脚本RSAP_running.py。

上述步骤S32中，设置配置文件可修改、可选，满足个性化需求。

上述步骤S33中，通过运行命令python RSAP_running.py，启动分析自动化流程。分析自动化流程支持模块化分析，支持从任何模块开始分析，只需要按照相应要求准备输入数据，支持断点分析、并行运行功能。默认全流程的分析只需要将RNA-Seq测序下机数据导入Data目录，并根据指定命名规则重命名。然后，根据输入数据填充样本信息表，即可根据需要可选的修改配置文件，如更换不同的比对方法、差异表达分析方法，指定运行的分析模块等。因此，该实施方式通过封装了RNA-Seq数据预处理、基因差异表达分析及可视化、富集分析等常用分析运行环境设置，开箱即用，方便部署。

总结上述，本发明具有如下优点：

一方面，本发明通过安装一个可移植的、封装有RNA-Seq数据分析所需的所有脚本、依赖资源、软件组件的应用容器，拉取镜像构建一流程容器，构建了一体化RNA-Seq测序数据的数据分析流程，该流程对RNA-Seq测序数据质控、比对、计数、差异表达分析、多种样本或基因差异可视化展示、富集分析及可视化进行模块化封装，支持断点分析，并行运行等功能，解决RNA-Seq测序数据分析各种软件、包环境的安装、配置、迁移部署以及不同计算资源差异的问题，可以实现简单配置后一键自动化运行，即满足测序下机文件输入，简单配置运行设置后，直接输出满足科研与产业要求结果，并生成专业的分析报告，极大降低RNA-Seq数据分析门槛，提高RNA-Seq数据分析效率，简单、易用，

另一方面，各分析内容采用模块化方式管理，方便后续增加新的分析内容，并且也可以直接将其中的RNA-Seq下游的分析(差异表达分析及可视化、富集分析等)应用到其他转录组测序的下游分析，如空间转录组或者单细胞转录组，这种整合常用转录组学下游分析方法，并对分析结果可视化展示进行优化，促使本发明具有高移植性的特点，提高研究人员从RNA-Seq数据中获取知识的效率。

作为上述实施方式的进一步优选，在首次进入构建的流程容器后，需要调用流程容器中封装的全局脚本，该全局脚本需要传入一个位置参数，用于定义数据分析项目工作区的存放位置。

作为上述实施方式的进一步优选，运行全局脚本，创建一个数据分析项目文件夹时，全局脚本需要提供数据分析项目名称和分析数据类型，分析数据类型是双端测序或单端测序。该实施方式中，运行该全局脚本将在工作区为每个数据分析项目创建一个独立的用户指定的数据分析项目名称的数据分析项目文件夹，用于明确分析数据类型是pair/single，便于后续搜索、识别。

作为上述实施方式的进一步优选，样本信息表的第一列为对应输入的RNA-Seq测序数据的样本名，第二列为每个样本对应的分组名，为样本信息表提供搜索、识别功能。

作为上述实施方式的进一步优选，修改配置文件包括更换不同的比对方法和/或差异表达分析方法，和/或指定运行的至少一个分析模块，促使配置过程可自定义，满足个性化需求。

<实施方式2>

在实施方式1提供的RNA-Seq测序数据分析方法基础上，如图3-7所示，本实施方式具体给出步骤S33中启动分析自动化流程后的一系列优选实施方式。

优选的，在样本信息表的第一列为对应输入的RNA-Seq测序数据的样本名，第二列为每个样本对应的分组名的基础上，运行前检查包括步骤：根据自定义检查全局脚本，检查配置文件的运行参数与样本是否匹配、运行参数是否符合运行逻辑条件，并根据样本分组信息将样本名和对应分组名自动写入配置文件。

优选的，如图3所示，质量控制包括步骤：

S3311，统计原始RNA-Seq测序数据质量，使用自定义脚本统计各样本测序质量情况汇总表；

S3312，比对NCBI rRNA序列，去除原始RNA-Seq测序数据中rRNA污染；

S3313，对去污后的RNA-Seq测序数据进行质量控制，使用自定义脚本统计各样本质控后测序质量情况汇总表；

上述步骤S3311中，优选采用fastqc统计原始RNA-Seq测序数据质量，样本测序质量情况汇总表至少包括样本名、读段长度、读段数、GC比例、Q20比例、Q30比例的统计；

上述步骤S3313中，质量控制包括过滤低质量的碱基和序列、去除接头污染；样本质控后测序质量情况汇总表至少包括样本名、读段数、碱基数、读段长度、Q20比例、Q30比例、GC比例和读段通过比例的统计。该步骤在RNA-Seq测序数据质控过程中加入了去除rRNA污染步骤，可去除某些RNA-Seq测序数据中的rRNA的污染，提高后续分析的准确性。

优选的，如图4所示，比对包括：

S3321，将质控后测序数据的各个读段比对到参考基因组或者转录组；

S3322，对比对的结果进行排序；

S3323，生成BAM文件；

上述步骤S3322，本发明优选采用常用的hisat2和STAR两种比对方法，默认使用hisat2比对方法，它可以在线下载index比对数据库，而无需自己构建需要大量的等待时间和内存资源消耗，适合于一些低配置电脑运行分析。STAR运行速度很快，但是在构建index参考数据库时，需要消耗大量的内存资源。对于比对的数据库和比对方法选择，可以在配置文件中进行选择和修改，在首次使用数据库进行分析时，流程将在线下载并部署。

优选的，如图5所示，计数包括如下步骤：

S3331，将比对后各样本BAM文件各转录本读段数进行计数汇总，生成前表达矩阵；

S3332，根据自定义脚本，使用对应gtf文件中基因映射关系将转录本编码转换为基因编码，得到最终的表达矩阵；

S3333，根据配置文件选择需要在后续分析中保留的基因类型，剔除与分析无关的基因。

上述步骤S3331中，使用featureCounts将比对后各样本BAM文件各转录本读段数进行计数汇总，生成前表达矩阵。步骤S3333中，根据配置文件中reservedItem选择需要在后续分析中保留的基因类型，剔除与分析无关的基因，如假基因等。

优选的，如图6所示，差异表达分析包括如下步骤：

S3341，对最终的表达矩阵进行差异表达分析，生成一个过滤的差异表达基因集和一个未过滤的分析结果；

S3342，使用火山图和热图分别可视化基因差异表达结果；

上述步骤S3341中，过滤条件为pvalue<0.05且|logFC|>1；差异表达分析模块默认封装了两种RNA-Seq测序数据差异表达分析常用方法：DESeq2和EdgeR，本发明默认使用edgeR的方法进行分析。

上述步骤S3342中，热图用于可视化差异表达基因在各样本表达情况，火山图用于可视化差异表达基因倍数变化与P值的情况。

优选的，分组可视化包括NMDS和PCA分析，并可视化分析结果。该实施方式中，NMDS和PCA分析是用于根据样本间的距离来评估所有样本不同分组之间的差异，具体地，NMDS与PCA图通过将高维的基因表达特征进行降维，提取样本数据中的主要特征，用于分析各分组样本的内部和外部之间是否存在较大差异。

优选的，富集分析及可视化包括Gene Ontology富集分析、KEGG通路富集分析。该实施方式通过分析差异表达基因在功能基因集中的富集情况，可以推断差异表达基因的生物学意义。

为了更好地说明本发明的应用效果，本发明给出了图8-图13仿真图进行示例。由于说明书附图不能是彩色，所有附图均灰度化处理，具体颜色区分将在下列示例说明中补充说明。

图8是PCA主成分分析仿真图，选取在变差总信息量中比例大的前两个主成分来分析两类样本的总体差异情况，以不同的颜色区分不同分组的样品，各个样本在第一维度和第二维度上投影的距离差体现了它们之间差异大小。

图9是NMDS非度量多维尺度分析仿真图，本发明选择第一维度和第二维度来衡量样本间的差异大小，以不同的颜色区分不同的分组样品，各个样本在第一维度和第二维度上投影的距离差体现了它们之间差异大小。

图10是火山图，横坐标用log2FC(fold change)表示，以logFC的绝对值大于1为阈值；纵坐标用矫正后P值表示，以FDR<0.05为阈值。图10中差异倍数绝对值大于1且矫正后P值小于0.05的基因被识别为显著差异表达基因。

图11是热图，通过使用颜色的深浅来展示多个样本多个基因的表达量高低，横坐标表示样本，纵坐标对应于基因，每个色块颜色深浅对应于样本中基因的表达量大小。

图12是KEGG通路富集分析仿真图，用于展示差异表达基因显著富集的生物通路。图12中X轴表示差异表达基因在通路中的比率，Y轴表示映射到最显著的通路，点的大小对应于映射到该通路的差异表达基因的数目，颜色深浅对应于P值的大小。

图13是基因本体论生物过程富集分析仿真图，用于展示差异表达基因显著富集的基因本体论生物过程的条目。图13中X轴表示差异表达基因在相应生物过程条目中的比率，Y轴表示映射到最显著的生物过程条目，点的大小对应于映射到该生物过程条目的差异表达基因的数目，颜色深浅对应于P值的大小。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种RNA-Seq测序数据分析方法，其特征在于，其包括以下步骤：

2.如权利要求1所述的RNA-Seq测序数据分析方法，其特征在于，调用所述流程容器中封装的全局脚本时，还传入一个位置参数，用于定义数据分析项目工作区的存放位置。

3.如权利要求1所述的RNA-Seq测序数据分析方法，其特征在于，运行全局脚本，创建一个数据分析项目文件夹时，所述全局脚本需要提供数据分析项目名称和分析数据类型，所述分析数据类型是双端测序或单端测序。

4.如权利要求1所述的RNA-Seq测序数据分析方法，其特征在于，所述样本信息表的第一列为对应输入的RNA-Seq测序数据的样本名，第二列为每个样本对应的分组名。

5.如权利要求1所述的RNA-Seq测序数据分析方法，其特征在于，修改所述配置文件包括更换不同的比对方法和/或差异表达分析方法，和/或指定运行的至少一个所述分析模块。

6.如权利要求4所述的RNA-Seq测序数据分析方法，其特征在于，所述运行前检查包括步骤：

7.如权利要求4所述的RNA-Seq测序数据分析方法，其特征在于，所述质量控制包括步骤：

比对NCBI rRNA序列，去除所述原始RNA-Seq测序数据中rRNA污染；

8.如权利要求1所述的RNA-Seq测序数据分析方法，其特征在于，所述比对包括：

对比对的结果进行排序；

生成BAM文件；

9.如权利要求8所述的RNA-Seq测序数据分析方法，其特征在于，所述计数包括如下步骤：

10.如权利要求8所述的RNA-Seq测序数据分析方法，其特征在于，所述差异表达分析包括如下步骤：

使用火山图和热图分别可视化基因差异表达结果；

其中，过滤条件为pvalue<0.05且|logFC|>1；