CN107391963A - 基于计算云平台的真核无参转录组交互分析***及其方法 - Google Patents
基于计算云平台的真核无参转录组交互分析***及其方法 Download PDFInfo
- Publication number
- CN107391963A CN107391963A CN201710598315.4A CN201710598315A CN107391963A CN 107391963 A CN107391963 A CN 107391963A CN 201710598315 A CN201710598315 A CN 201710598315A CN 107391963 A CN107391963 A CN 107391963A
- Authority
- CN
- China
- Prior art keywords
- analysis
- module
- project
- result
- eucaryon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于计算云平台的真核无参转录组交互分析***及其方法,该***包括项目管理模块、基础分析任务提交模块和交互式结果分析模块;首先,向本地集群服务器上传测序数据,在项目管理模块中建立项目,同时在本地集群服务器上传客户的数据库或者选择使用线上的数据库,并且在该项目管理模块中可以进行项目锁定或者共享给他人操作;然后,在基础分析任务提交模块中,用户可以通过可视化界面对测序数据进行参数分析,分析之后产生项目文件;分析之前,先进行判定数据质控是否合格,若合格则进行参数分析;若不合格则直接返回报错;产生的项目文件传送至交互式结果分析模块中进行交互式分析,得到直观呈现的报告。
Description
技术领域
本发明涉及生物信息分析技术领域,尤其涉及一种基于计算云平台的真核无参转录组交互分析***及其方法。
背景技术
转录组又称转录物组或表达谱,指特定物种、组织或细胞类型在某一时期内表达的所有RNA的总和,包括编码蛋白质的mRNA和各种非编码的RNA(rRNA、tRNA、snoRNA、snRNA、microRNA等)。转录组包含了时间和空间的限定,它是基因组与外部物理特征的动态联系,转录组反映的是特定条件下活跃表达的基因,是研究细胞表型和功能的一个重要手段。转录组学是从RNA水平研究基因表达变化的学科,对于尚不能得到全基因组序列的物种而言,进行转录组测序,已成为沟通表型和基因型的重要桥梁。
转录组的研究可以提供特定条件下基因的表达信息,从而推断未知基因的功能,揭示特定调节基因的作用机制,还可以确定不同种类的细胞和组织的基因在何时何地被激活或进入休眠,对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗。
相对于真核生物全基因组而言,转录组序列不含有内含子及其它非编码序列,能给出更高效的有用信息。转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、代谢途径确定、基因家族鉴定及进化分析等各方面的问题。而无参考基因组的真核生物转录组测序无需设计探针,不但能检测已知基因还能够发现新的转录本,在测序覆盖率足够大时还能检测到低丰度转录本。
生物信息学数据分析是高通量测序应用于转录组研究的最关键步骤。IlluminaHiSeq运行一次产生的数据量高达1000G,个人计算机和工作站显然无法完成这些数据的处理工作。
高通量数据处理时要对数据进行调整、筛选、比对,需要生物信息学工作者掌握脚本程序编写能力。现有真核无参转录组生物信息分析主要由三部分组成。标准生物信息学分析是整个转录组分析的基础,其结果呈现包括数据产出统计、数据质控、转录组拼接、拼接转录本/Unigene长度统计、序列分析和表达量分析。其中序列分析包括ORF预测、基因功能注释,SNP分析和SSR分析。而基因功能注释将比对NR、Pfam、Swissprot、String、KEGG、GO、COG等数据库。表达量分析包括重复样本间相关性分析、基因表达差异分析、差异基因GO/KEGG富集分析、差异基因表达模式聚类分析、差异基因Venn分析和显著性GO有向无环图分析。高级生物信息学分析呈现方式包括:基因共表达网络构建、Ipath整合分析、蛋白互作网络分析、转录因子分析等。个性化生物信息学分析包括:模式物种同源注释分析、基于时间序列的基因表达分析、利用转录组数据构建***发育树、近缘物种直系同源分析、Divergent同源基因GO/KEGG分析、Conserved同源基因GO/KEGG分析、GO分类水平的选择压力分析、树假设检验分析等。
现有技术的业务流程采用手动的方式,工作效率较低,因此无法满足市场的需求。
发明内容
为解决上述问题,本发明提供一种基于计算云平台的真核无参转录组交互分析***及其方法,以解决个人计算机和工作站无法完成数据处理和现有手动业务流程效率低的问题。
为实现上述目之一,本发明提供一种基于计算云平台的真核无参转录组交互分析***,包括
项目管理模块,用于对项目信息进行查看和管理,通过项目、任务、应用和文件对所有状态的分析项目进行综合管理;
基础分析任务提交模块,用于设置基础参数运行任务,并将结果以及原始数据按照预设格式整合封装成相应的项目文件,基础参数运行任务包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析;
交互式结果分析模块,用于根据用户请求生成分析结果,并将结果可视化展示,包括高级生物信息学分析和个性化生物信息学分析;
所述项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接;
首先,向本地集群服务器上传测序数据,在项目管理模块中建立项目在该项目管理模块中可以进行项目锁定或者共享给他人操作;
然后,在基础分析任务提交模块中,用户可以通过可视化界面对测序数据进行参数分析,分析之后产生项目文件;分析之前,先进行判定数据质控是否合格,若合格则进行参数分析;若不合格则直接返回报错;
最后,产生的项目文件传送至交互式结果分析模块中进行交互式分析,根据用户需求对项目文件进行二次分析和统计,得到直观呈现的报告。
具体地,所述交互式结果分析模块中高级生物信息学分析和个性化生物信息学分析,包括基因共表达网络构建、Ipath整合分析、蛋白互作网络分析、转录因子分析、模式物种同源注释分析、基于时间序列的基因表达分析、利用转录组数据构建***发育树、近缘物种直系同源分析、Divergent同源基因GO/KEGG分析、Conserved同源基因GO/KEGG分析、GO分类水平的选择压力分析、树假设检验分析。
为实现上述目之一,本发明提供一种基于计算云平台的真核无参转录组交互分析方法,包括以下步骤:
步骤1,创建项目;
步骤2,向本地集群服务器上传测序数据,在项目管理模块中建立项目,在该项目管理模块中可以进行项目锁定或者共享给他人操作;
步骤3,建立任务;
步骤4,在基础分析任务提交模块中,用户可以通过可视化界面对测序数据进行参数分析,分析之后产生项目文件;分析之前,先进行判定数据质控是否合格,若合格则进行参数分析;若不合格则直接返回报错;参数分析包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析;
步骤5,产生的项目文件传送至交互式结果分析模块中进行交互式分析,根据用户需求对项目文件进行二次分析和统计,得到直观呈现的报告,包括高级生物信息学分析和个性化生物信息学分析。
具体地,所述项目管理模块,还可用于查看和管理上传的相关文件或由分析产生的相关文件,可对相关文件进行上传、查找、复制、移动、删除和下载操作;项目管理模块还用于标记项目状态进度,项目状态进度可为未开始、进行中、已完成、已终止和问题;项目管理模块还用于查看任务运行的状态与日志信息;且项目管理模块,还用于共享项目,并管理成员权限。
具体地,所述交互式结果分析模块包括图表工具,可实现更改颜色方案、形状方案、柱形方向;可实现显示图例、点名称以及合并或排序功能;交互式结果分析模块分析结果可存入报告,在报告中展示;交互式结果分析模块分析结果图可以PNG、JPEG、PDF、SVG格式下载;交互式结果分析模块的报告格式可为html和pdf。
具体地,所述项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于html+Css+jquery的前端页面和PHP+Alpha的服务器后台,交互分析模块接收到任务执行命令后调动Perl、C、python、R等计算机语言的服务器端脚本对测序数据进行基本分析。
具体地,所述基础分析任务提交模块在对所述测序数据进行分析的不同阶段,从其存储的分析软件中选取相应的分析软件对所述测序数据进行分析。
本发明的有益效果在于:本发明提供的基于计算云平台的真核无参转录组交互分析***及其方法,主要包括项目管理模块、基础分析任务提交模块和交互式结果分析模块三大模块,该***及方法借助云计算技术,通过网络方便的获取大量测序数据分析所需要的基础计算资源,满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时,基于计算云平台的真核无参转录组交互分析方法提供了高集成化的数据分析平台,无需用户自己整合各类分析软件,搭建分析流程,真正意义上实现了一键化生物信息分析。此外,基于计算云平台的真核无参转录组分析可比对多个数据库,支持多种算法,呈现可视化的结果和交互式的报告。最后,基于计算云平台的真核无参转录组分析内容全面,不仅涵盖真核无参转录组分析的标准分析和高级分析,还包括部分个性化分析,更好满足用户需求。
附图说明
图1为本发明的基于计算云平台的真核无参转录组交互分析***方框图;
图2为本发明的基于计算云平台的真核无参转录组交互分析方法流程图;
图3为本发明中基础分析任务提交模块的真核无参转录组分析的示意图;
图4为本发明中真核无参转录组分析新建项目示意图;
图5为本发明中真核无参转录组分析基础任务参数提交示意图;
图6为本发明中真核无参转录组交互分析示意图;
图7为本发明中真核无参转录组样本间表达量评估PCA图表工具示意图;
主要元件符号说明如下:
10、项目管理模块 11、基础分析任务提交模块
12、交互式结果分析模块。
具体实施方式
为了更清楚地表述本发明,下面结合附图对本发明作进一步地描述。
请参阅图1,本发明的基于计算云平台的真核无参转录组交互分析***,包括
项目管理模块10,用于对项目信息进行查看和管理,通过项目、任务、应用和文件对所有状态的分析项目进行综合管理;
基础分析任务提交模块11,用于设置基础参数运行任务,并将结果以及原始数据按照预设格式整合封装成相应的项目文件;
交互式结果分析模块12,用于根据用户请求生成分析结果,并将结果可视化展示;
项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接;
首先,向本地集群服务器上传测序数据,在项目管理模块中建立项目,在该项目管理模块中可以进行项目锁定或者共享给他人操作;然后,在基础分析任务提交模块中,用户可以通过可视化界面对测序数据进行参数分析,分析之后产生项目文件;分析之前,先进行判定数据质控是否合格,若合格则进行参数分析;若不合格则直接返回报错;
最后,产生的项目文件传送至交互式结果分析模块中进行交互式分析,根据用户需求对项目文件进行二次分析和统计,得到直观呈现的报告。
请进一步参阅图2,本发明还提供一种基于计算云平台的微生物多样***互分析方法,包括以下步骤:
步骤1,创建项目;
步骤2,向本地集群服务器上传测序数据,在项目管理模块中建立项目,并且在该项目管理模块中可以进行项目锁定或者共享给他人操作;
步骤3,建立任务;
步骤4,在基础分析任务提交模块中,用户可以通过可视化界面对测序数据进行参数分析,分析之后产生项目文件;分析之前,先进行判定数据质控是否合格,若合格则进行参数分析;若不合格则直接返回报错;
步骤5,产生的项目文件传送至交互式结果分析模块中进行交互式分析,根据用户需求对项目文件进行二次分析和统计,得到直观呈现的报告。
相较于现有技术的情况,本发明提供的基于计算云平台的真核无参转录组交互分析***及其方法,该发明主要包括项目管理模块10、基础分析任务提交模块11和交互式结果分析模块12三大模块,该***及方法借助云计算技术,通过网络方便的获取大量测序数据分析所需要的基础计算资源,满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时,基于计算云平台的真核无参转录组交互分析方法提供了高集成化的数据分析平台,无需用户自己整合各类分析软件,搭建分析流程,真正意义上实现了一键化生物信息分析。此外,基于计算云平台的真核无参转录组分析可比对多个数据库,支持多种算法,呈现可视化的结果和交互式的报告。最后,基于计算云平台的真核无参转录组分析内容全面,不仅涵盖真核无参转录组分析的基础分析和高级分析,还包括部分个性化分析,更好满足用户需求。
在本实施例中,项目管理模块,还可用于查看和管理上传的相关文件或由分析产生的相关文件,可对相关文件进行上传、查找、复制、移动、删除和下载操作;项目管理模块还用于标记项目状态进度,项目状态进度可为未开始、进行中、已完成、已终止和问题;项目管理模块还用于查看任务运行的状态与日志信息;且项目管理模块,还用于共享项目,并管理成员权限。
请进一步参阅图3,基础分析任务提交模块可用于测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析。测序质量优劣的重要判断指标是测序的数据产量,测序数据质控包括测序的数据量统计以及质量控制后的数据量统计;转录组拼接是将所获得的RNA-seq高质量测序读段(reads)通过从头组装生成重叠群和单一序列;基因功能注释是将组装序列比对各个数据库的结果进行综合统计;表达量分析则是进行表达量统计,再根据计算得到的基因表达量,进行两两样本间或分组间的基因差异表达分析,最后再运用不同的分析方法对差异基因进行多方面的研究;基因结构分析包括单核苷酸多态性分析(SNP分析)、简单重复序列分析(SSR分析)和开放阅读框预测(ORF预测)。
在此生成的结果可在交互式分析模块中可视化查看,也可在项目文件中查看对应结果文件。
在本实施例中,交互式结果分析模块还用于高级生物信息学分析和个性化生物信息学分析,包括基因共表达网络构建、Ipath整合分析、蛋白互作网络分析、转录因子分析、模式物种同源注释分析、基于时间序列的基因表达分析、利用转录组数据构建***发育树、近缘物种直系同源分析、Divergent同源基因GO/KEGG分析、Conserved同源基因GO/KEGG分析、GO分类水平的选择压力分析、树假设检验分析等;交互式结果分析模块还用于更改对照组方案和挑选分析样品。
交互式结果分析模块包括图表工具,可实现更改颜色方案、形状方案、柱形方向;可显示图例、点名称、合并或排序功能;交互式结果分析模块分析结果可存入报告,在报告中展示;交互式结果分析模块分析结果图可以PNG、JPEG、PDF、SVG格式下载;交互式结果分析模块的报告格式可为html和pdf。
项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于html+Css+jquery的前端页面和PHP+Alpha的服务器后台,交互分析模块接收到任务执行命令后调动Perl、C、python、R计算机语言的服务器端脚本对测序数据进行基本分析。基础分析任务提交模块在对测序数据进行分析的不同阶段,从其存储的分析软件中选取相应的分析软件对测序数据进行分析。
请进一步参阅图4,为基于本发明创建项目和任务步骤,点击分析平台进入我的项目,点击新建项目,填写项目名称,项目描述,选择领域标签,物种标签。点击已建立的项目名称,新建任务。
请参阅图5,参数的设置主要包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析参数设置。在此可选择输入fastq格式的序列文件夹。
测序数据质控对所选fastq文件中的每一个样本的原始测序数据进行测序相关质量评估,包括A/T/G/C碱基含量分布统计,碱基质量分布统计和碱基错误率分布统计。然后对原始测序数据进行质控过滤,需要设置测序类型、最小质量值、最小长度等参数去除测序接头序列、低质量读段、不确定碱基信息率较高的序列及长度过短序列,对质控后的数据再次进行统计,同样包括A/T/G/C碱基含量分布统计,碱基质量分布统计和碱基错误率分布统计。
转录组拼接需要将所有测序读段通过从头组装生成重叠群(contig)和单一序列(singleton),此项分析是后续处理及生物学功能分析的基础。需要设置的参数有最短contig长度、reads方向、kmer长度及kmer最小计数值,组装拼接的可视化展示包括组装结果统计表、序列长度分布、样本与组装结果比对表。
基因功能注释将组装序列比对NR、Pfam、Swissprot、String、KEGG、GO、COG等数据库,并将比对结果进行分别统计和综合统计及自定义筛选。
表达量分析先进行表达量统计,再根据计算得到的基因表达量进行两两样本间或分组间的基因差异表达分析,最后再运用不同的分析方法对差异基因进行多方面的研究。可设置的参数有样本分组文件,对照组方案,表达量指标和显著性水平。可选择差异基因研究的各项分析,包括聚类分析,KEGG富集分析,GO富集分析,KEGG统计分析,GO统计分析等。
基因结构分析包括SNP分析、SSR分析和ORF预测,需选择是否设置SSR引物和是否比对Pfam数据库。
交互式结果分析模块的分析参阅图6,主要包括测序数据质控、转录组拼接、表达量及差异基因分析以及基因结构分析等。
其中测序数据质控包括原始数据统计和质控数据统计两个模块。
原始数据统计表统计了每个样本测序得到的全部原始reads、总碱基数、测序错误率、测序错误率≤1%的碱基数目比例、测序错误率≤0.1%的碱基数目比例、G/C碱基数量和占总监级数量的百分比,并可通过碱基质量分布图、碱基错误率分布图和碱基分布图来查看相关信息。该表格可在交互页面直接进行下载也可在项目文件中进行查看和下操作。在图表工具中可选择颜色,更改主标题、X轴标题、Y轴标题。在分布图上可以通过选中实现图形部分区域的放大,也可使用图形右下角的拖拽放大工具对整个图形进行放大。点击存入报告按钮,可将该图片存到报告的相应位置。
质控数据统计则统计了原始测序数据质量控制后的上述各项信息。
转录组拼接包括序列组装和与组装结果比对两个模块。
其中序列组装结果显示分为组装结果统计表、序列长度分布表和序列长度分布图。序列长度分布表和图可切换步长显示,可根据用户需求显示一定步长范围内的序列数目,也可将大于某步长的序列进行求和展示。与
组装结果比对则生成比对结果统计表。
表达量及差异基因分析包括功能注释、表达量分析、差异基因研究和基因共表达网络分析四个模块,
其中功能注释包括功能注释概览和功能注释查询两个模块,而功能注释概览又包括总览和NR、Pfam、Swissplot、String、GO、COG、KEGG比对结果信息展示。总览主要是对结果进行综合统计和自定义筛选,包括注释概况统计表,注释统计柱状图和注释统计Venn图。注释统计柱状图可查看基因或转录本的注释情况,注释统计Venn图可点击图上的数字显示关联元素,也可输入元素进行查找。通过与NR库的比对,可以查看本物种转录本序列与相近物种的相似情况,以及同源序列的功能信息。与NR数据库进行比对后,统计比对上的物种类别,E-value分布及序列相似度分布情况,从物种、E-value和序列相似度分布三方面体现注释结果的可信度。结果展示为物种分类统计表、物种分类统计饼图、物种分类统计柱状图、NRE-value分布饼图和NR相似度分布饼图。其中物种分类统计表可根据物种分类水平进行筛选。Pfam数据库是一个蛋白质家族大集合,可对组装出来的转录本进行蛋白家族的注释。利用Swiss-Prot蛋白质组序列比对结果,对基因进行GO分类。GO数据库对基因和蛋白功能进行统一的限定和描述,利用GO数据库可以对于一个或一组基因按照其参与的生物过程、分子功能及细胞组分三个方面进行分类注释,在这三个大分支下面又有很多小层级(level),level级别数字越大,功能越细致。基因或蛋白质可以通过ID对应或者序列注释的方法找到与之对应的GO编号,而GO编号可用于功能类别或者细胞定位。GO比对信息可展示为GO注释概况统计表、GO二三四层级统计表和GO分类统计图。其中GO二三四层级统计表可根据序列类型(基因、转录本)和GO层级水平进行筛选。而GO分类统计图则可按丰度由高到低筛选物种展示。String数据库可用于预测蛋白质的相互作用,通过比对String数据库可以得到蛋白编码基因的COG分类信息,对结果进行COG注释,对所有转录本进行功能归类。COG比对的结果展示为COG分类统计表和COG分类统计柱状图,可根据不同的序列类型(基因、转录本)进行查看。KEGG数据库是***分析基因功能、联系基因组信息和功能信息的大型知识库。与KEGG数据库比对,获得转录本对应的KO编号,根据KO编号可以获得某转录本可能参与的具体生物学通路。KEGG比对的结果展示为Pathway分布柱状图、Pathway分类统计表、Pathway信息统计表、Pathway通路图和Pathway分类统计柱状图,可根据序列类型(基因、转录本)进行查看,也可筛选转录组或基因数目排名靠前的pathway显示。功能注释查询可根据转录本长度、序列名、物种、COG ID、GO ID、KO ID和KO名进行,结果展示为功能注释信息表,包含各个数据库的比对注释结果。
表达量分析包括表达量统计、样本间相关性分析和PCA分析,表达量统计展示的结果有单样本表达量分布表、表达量分布图和表达量统计表,其中表达量统计表可根据基因表达量矩阵、转录本表达量矩阵、基因计数矩阵和转录本计数矩阵查找转录本并可查看注释详细信息。样本间相关性分析的结果展示包括相关性系数矩阵聚类树、相关性系数矩阵热图和样本间相关性系数表。PCA分析结果展示包括PCA图、主成分解释度表和PCA分析相关数据。请参阅图7,PCA分析图的图表工具可自由选择X轴和Y轴显示的主成分,也可根据是否选择Z轴来决定是呈现平面图形还是三维图形,还可通过颜色方案决定图上点的颜色,通过形状方案来决定图上点的形状,可以选择是否显示点名称,是否显示主标题,也可自定义主标题,X、Y或Z轴标题名称。
差异基因研究包括差异基因统计、差异基因分析、差异基因GO注释富集分析、差异基因KEGG注释富集分析。其中差异基因统计的结果展现为差异基因统计表和差异基因统计图(散点图和火山图)。此分析可选择显著性水平、分组方案、对照组方案进行计算。差异基因分析包括差异基因筛选、表达模式聚类和Venn分析,其中差异基因筛选可根据基因表达差异统计表选择两两组合和合成方式(并集筛选、交集筛选)进行计算,产生的结果为差异基因筛选结果表,可根据该表查找基因,查看注释详细信息。表达模式聚类可根据差异基因表达量表,选择聚类方法(hclust、kmeans),距离算法(manhattan、eculidean),log底数值(10、2),子聚类数目,基因选择方案进行运算,结果以差异基因表达量热图、差异基因heatmap分析表和子聚类heatmap分析表、基因子聚类趋势图展示。Venn分析可根据差异基因表达量表,选择或新建分组方案进行运算,结果以差异基因Venn统计数据表和差异基因Venn图表示。差异基因GO注释富集分析包括GO分类统计和GO富集分析,GO分类统计可根据基因表达差异统计表选择两两组合进行运算,结果呈现为差异基因GO注释柱形图和GO分析分类统计表。GO富集分析可根据基因表达差异统计表,选择两两组合调控类型(上调、下调),显著性水平、多重检验校正方法(BH、FDR)进行运算,结果呈现为GO富集统计表、GO富集分析柱状图、显著性GO有向无环图和GO富集分析气泡图。差异基因KEGG注释富集分析包括KEGG统计分析和KEGG富集分析,其中KEGG统计分析可根据基因表达差异统计表,选择两两组合进行运算,结果展示为KEGG统计分析表和差异基因KEGG通路图。KEGG富集分析可根据基因表达差异统计表,选择两两组合,选择调控类型(上调、下调)和多重检验校正方法(BY、BH、None、Qvalue)进行运算,结果分为KEGG富集分析柱状图和KEGG富集分析散点图。
基因共表达网络分析可根据差异基因表达量表,设置β软阈值和module相似阈值进行运算,结果展示为差异基因网络表、网络图、差异基因module表、单module网络图、softpower分布图和module树图。
基因结构分析包括SSR分析、SNP分析、ORF分析等三个模块。其中SSR分析可根据基因序列、转录本文件以及是否设计引物进行运算,结果包括SSR统计表、SSR类型统计表、SSR类型统计柱状图和SSR引物统计表。SNP分析的结果展现形式有SNP类型统计表、SNP类型分布图、SNP位置统计表、SNP位置统计饼图以及SNP结果统计表,其中SNP统计表可根据样本或SNP类型进行筛选(A/T、A/C、A/G、C/T、C/G)。ORF预测结果展现为ORF预测结果表、ORF序列长度分布表、序列长度分布图和ORF蛋白结构域注释表。
在交互分析页面点击存入报告按钮,即可将分析所得结果存入报告相应位置。在报告中可查看使用软件及方法,以及生物学意义上的解释。在交互分析的右上角还有问题与解答,进一步解答可能遇到的参数设置或生物学意义类问题。
本发明所述的一种基于计算云平台的真核无参转录组交互分析方法,交互分析所产生的结果文件按照预设格式整合封装成相应的项目文件。产生的结果文件可下载,供进一步的分析。
本发明所述的一种基于计算云平台的真核无参转录组交互分析方法,用户可以自由选择测序数据,自定义所需参数,利用所述配置文件对所述测序数据进行基本分析,并以图表和报告的形式呈现,因而相较于采用手动方式进行分析的现有技术,本发明采用自动的方式进行分析,能够提高真核无参转录组分析的效率。
本发明实施例中,还包括高级生信分析和个性化生信分析,高级生信分析和个性化生信分析是在标准分析的基础上做进一步分析,提高标准分析所得数据的利用效率,有针对的、更深层的挖掘数据信息,使得真核无参转录组分析方式不再局限于传统业务线流程的单一性,提高了真核无参转录组分析的效率和数据利用率,一个基本数据可做无限次高级分析和个性化分析,节省了时间和实验成本。
本实施例中,基于计算云平台的真核无参转录组交互分析方法利用业内普遍认可的Trinity对测序数据进行分析,生成的图表符合专业期刊的要求。在工作流程界面,按照步骤一到步骤五的顺序,选择感兴趣的Fastq格式的文件,选择测序类型,设定分析参数,点击保存并运行,即可实现真核无参转录组项目的交互分析。在交互分析页面中,用户可以自由执行挑选样本、更改分组、改变配色等操作,不必和分析员反复沟通等待,大大缩短了项目周期。
以上实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (7)
1.一种基于计算云平台的真核无参转录组交互分析***,其特征在于:包括
项目管理模块,用于对项目信息进行查看和管理,通过项目、任务、应用和文件对所有状态的分析项目进行综合管理;
基础分析任务提交模块,用于设置基础参数运行任务,并将结果以及原始数据按照预设格式整合封装成相应的项目文件,基础参数运行任务包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析;
交互式结果分析模块,用于根据用户请求生成分析结果,并将结果可视化展示,包括高级生物信息学分析和个性化生物信息学分析;
所述项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接。
2.根据权利要求1所述的基于计算云平台的真核无参转录组交互分析***,其特征在于,所述交互式结果分析模块中高级生物信息学分析和个性化生物信息学分析,包括基因共表达网络构建、Ipath整合分析、蛋白互作网络分析、转录因子分析、模式物种同源注释分析、基于时间序列的基因表达分析、利用转录组数据构建***发育树、近缘物种直系同源分析、Divergent同源基因GO/KEGG分析、Conserved同源基因GO/KEGG分析、GO分类水平的选择压力分析、树假设检验分析。
3.一种如权利要求1所述基于计算云平台的真核无参转录组交互分析***的分析方法,其特征在于,包括以下步骤:
步骤1,创建项目;
步骤2,向本地集群服务器上传测序数据,在项目管理模块中建立项目,在该项目管理模块中可以进行项目锁定或者共享给他人操作;
步骤3,建立任务;
步骤4,在基础分析任务提交模块中,用户可以通过可视化界面对测序数据进行参数分析,分析之后产生项目文件;分析之前,先进行判定数据质控是否合格,若合格则进行参数分析;若不合格则直接返回报错;参数分析包括测序数据质控、转录组拼接、基因功能注释、表达量分析和基因结构分析;
步骤5,产生的项目文件传送至交互式结果分析模块中进行交互式分析,根据用户需求对项目文件进行二次分析和统计,得到直观呈现的报告,包括高级生物信息学分析和个性化生物信息学分析。
4.根据权利要求2所述的基于计算云平台的真核无参转录组交互分析方法,其特征在于,所述项目管理模块,还可用于查看和管理上传的相关文件或由分析产生的相关文件,可对相关文件进行上传、查找、复制、移动、删除和下载操作;项目管理模块还用于标记项目状态进度,项目状态进度可为未开始、进行中、已完成、已终止和问题;项目管理模块还用于查看任务运行的状态与日志信息;且项目管理模块,还用于共享项目,并管理成员权限。
5.根据权利要求2所述的基于计算云平台的真核无参转录组交互分析方法,其特征在于,所述交互式结果分析模块包括图表工具,可实现更改颜色方案、形状方案、柱形方向;可实现显示图例、点名称以及合并或排序功能;交互式结果分析模块分析结果可存入报告,在报告中展示;交互式结果分析模块分析结果图可以PNG、JPEG、PDF、SVG格式下载;交互式结果分析模块的报告格式可为html和pdf。
6.根据权利要求2所述的基于计算云平台的真核无参转录组交互分析方法,其特征在于,所述项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于html+Css+jquery的前端页面和PHP+Alpha的服务器后台,交互分析模块接收到任务执行命令后调动Perl、C、python、R等计算机语言的服务器端脚本对测序数据进行基本分析。
7.根据权利要求2所述的基于计算云平台的真核无参转录组交互分析方法,其特征在于,所述基础分析任务提交模块在对所述测序数据进行分析的不同阶段,从其存储的分析软件中选取相应的分析软件对所述测序数据进行分析。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710598315.4A CN107391963A (zh) | 2017-07-21 | 2017-07-21 | 基于计算云平台的真核无参转录组交互分析***及其方法 |
CN201810797352.2A CN109243532A (zh) | 2017-07-21 | 2018-07-19 | 基于计算云平台的真核无参转录组交互分析***及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710598315.4A CN107391963A (zh) | 2017-07-21 | 2017-07-21 | 基于计算云平台的真核无参转录组交互分析***及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107391963A true CN107391963A (zh) | 2017-11-24 |
Family
ID=60336487
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710598315.4A Pending CN107391963A (zh) | 2017-07-21 | 2017-07-21 | 基于计算云平台的真核无参转录组交互分析***及其方法 |
CN201810797352.2A Pending CN109243532A (zh) | 2017-07-21 | 2018-07-19 | 基于计算云平台的真核无参转录组交互分析***及其方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810797352.2A Pending CN109243532A (zh) | 2017-07-21 | 2018-07-19 | 基于计算云平台的真核无参转录组交互分析***及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN107391963A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537008A (zh) * | 2018-03-20 | 2018-09-14 | 常州大学 | 高通量基因测序大数据分析云平台*** |
CN108694305A (zh) * | 2018-03-30 | 2018-10-23 | 武汉光谷创赢生物技术开发有限公司 | 基于云计算的生物信息分析平台 |
CN108835028A (zh) * | 2018-06-08 | 2018-11-20 | 江口县旭辉生态农业科技有限公司 | 一种江口萝卜猪快速保种提纯方法 |
CN109032586A (zh) * | 2018-07-09 | 2018-12-18 | 中国银行股份有限公司 | 一种数据可视化方法及装置 |
CN109215742A (zh) * | 2018-08-30 | 2019-01-15 | 武汉古奥基因科技有限公司 | 生物信息可视化装置及方法 |
CN109300501A (zh) * | 2018-09-20 | 2019-02-01 | 国家卫生计生委科学技术研究所 | 蛋白质三维结构预测方法及用其构建的预测云平台 |
CN109584964A (zh) * | 2018-11-29 | 2019-04-05 | 江苏医联生物科技有限公司 | 基因数据多维度注释的数据管理*** |
CN109637592A (zh) * | 2018-12-21 | 2019-04-16 | 深圳晶泰科技有限公司 | 分子力场参数生成的计算任务管理分析***及其运行方法 |
CN110659252A (zh) * | 2019-08-12 | 2020-01-07 | 安诺优达生命科学研究院 | 基于云的生物信息数据交付方法、装置和电子设备 |
CN110838338A (zh) * | 2018-08-15 | 2020-02-25 | 上海美吉生物医药科技有限公司 | 生物分析项目的建立***、方法、存储介质、及电子设备 |
CN114023384A (zh) * | 2022-01-06 | 2022-02-08 | 天津金域医学检验实验室有限公司 | 一种全外显子组测序注释表自动生成标准化报告方法 |
CN114333994A (zh) * | 2020-09-30 | 2022-04-12 | 天津现代创新中药科技有限公司 | 基于无参转录组测序来确定差异基因通路的方法及*** |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109880894A (zh) * | 2019-03-05 | 2019-06-14 | 杭州西合森医学检验实验室有限公司 | 基于RNAseq的肿瘤免疫微环境预测模型的构建方法 |
CN111276190B (zh) * | 2020-01-07 | 2023-09-12 | 广州基迪奥生物科技有限公司 | 一种基于生物云平台的动态交互富集分析方法及*** |
CN112967756B (zh) * | 2021-03-30 | 2022-07-26 | 上海欧易生物医学科技有限公司 | 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324866A (zh) * | 2013-03-26 | 2013-09-25 | 张弘 | Ripple*** |
US10208354B2 (en) * | 2013-08-07 | 2019-02-19 | Universität Zu Köln | NRG1 fusion genes in cancer |
CN104331640B (zh) * | 2014-10-17 | 2018-04-17 | 北京百迈客生物科技有限公司 | 基于生物云平台的项目结题报告分析***和方法 |
CN105653900B (zh) * | 2015-12-25 | 2019-03-26 | 北京百迈客生物科技有限公司 | 无参转录组分析***及方法 |
CN105447336B (zh) * | 2015-12-29 | 2018-06-19 | 北京百迈客生物科技有限公司 | 基于生物云平台的微生物多样性分析*** |
-
2017
- 2017-07-21 CN CN201710598315.4A patent/CN107391963A/zh active Pending
-
2018
- 2018-07-19 CN CN201810797352.2A patent/CN109243532A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537008A (zh) * | 2018-03-20 | 2018-09-14 | 常州大学 | 高通量基因测序大数据分析云平台*** |
CN108694305A (zh) * | 2018-03-30 | 2018-10-23 | 武汉光谷创赢生物技术开发有限公司 | 基于云计算的生物信息分析平台 |
CN108694305B (zh) * | 2018-03-30 | 2021-06-11 | 武汉生物样本库有限公司 | 基于云计算的生物信息分析*** |
CN108835028A (zh) * | 2018-06-08 | 2018-11-20 | 江口县旭辉生态农业科技有限公司 | 一种江口萝卜猪快速保种提纯方法 |
CN109032586A (zh) * | 2018-07-09 | 2018-12-18 | 中国银行股份有限公司 | 一种数据可视化方法及装置 |
CN110838338A (zh) * | 2018-08-15 | 2020-02-25 | 上海美吉生物医药科技有限公司 | 生物分析项目的建立***、方法、存储介质、及电子设备 |
CN110838338B (zh) * | 2018-08-15 | 2023-09-29 | 上海美吉生物医药科技有限公司 | 生物分析项目的建立***、方法、存储介质、及电子设备 |
CN109215742A (zh) * | 2018-08-30 | 2019-01-15 | 武汉古奥基因科技有限公司 | 生物信息可视化装置及方法 |
CN109300501A (zh) * | 2018-09-20 | 2019-02-01 | 国家卫生计生委科学技术研究所 | 蛋白质三维结构预测方法及用其构建的预测云平台 |
CN109300501B (zh) * | 2018-09-20 | 2021-02-02 | 国家卫生健康委科学技术研究所 | 蛋白质三维结构预测方法及用其构建的预测云平台 |
CN109584964A (zh) * | 2018-11-29 | 2019-04-05 | 江苏医联生物科技有限公司 | 基因数据多维度注释的数据管理*** |
CN109637592A (zh) * | 2018-12-21 | 2019-04-16 | 深圳晶泰科技有限公司 | 分子力场参数生成的计算任务管理分析***及其运行方法 |
CN109637592B (zh) * | 2018-12-21 | 2022-04-12 | 深圳晶泰科技有限公司 | 分子力场参数生成的计算任务管理分析***及其运行方法 |
CN110659252A (zh) * | 2019-08-12 | 2020-01-07 | 安诺优达生命科学研究院 | 基于云的生物信息数据交付方法、装置和电子设备 |
CN114333994A (zh) * | 2020-09-30 | 2022-04-12 | 天津现代创新中药科技有限公司 | 基于无参转录组测序来确定差异基因通路的方法及*** |
CN114023384B (zh) * | 2022-01-06 | 2022-04-05 | 天津金域医学检验实验室有限公司 | 一种全外显子组测序注释表自动生成标准化报告方法 |
CN114023384A (zh) * | 2022-01-06 | 2022-02-08 | 天津金域医学检验实验室有限公司 | 一种全外显子组测序注释表自动生成标准化报告方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109243532A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391963A (zh) | 基于计算云平台的真核无参转录组交互分析***及其方法 | |
CN107368704A (zh) | 基于云计算平台的有参考基因组的转录组项目的交互式分析***及方法 | |
Palit et al. | Meeting the challenges of high-dimensional single-cell data analysis in immunology | |
US10223498B2 (en) | Discovering population structure from patterns of identity-by-descent | |
CN107368700A (zh) | 基于计算云平台的微生物多样***互分析***及其方法 | |
CN108198621B (zh) | 一种基于神经网络的数据库数据综合诊疗决策方法 | |
US10573406B2 (en) | Method, apparatus and computer program product for metabolomics analysis | |
Pehkonen et al. | Theme discovery from gene lists for identification and viewing of multiple functional groups | |
Alexander et al. | Quantifying age-dependent extinction from species phylogenies | |
Lopez et al. | Bayesian inference for a generative model of transcriptome profiles from single-cell RNA sequencing | |
CA3154621A1 (en) | Single cell rna-seq data processing | |
Walther et al. | Automatic clustering of flow cytometry data with density‐based merging | |
Carter et al. | A systems-biology approach to modular genetic complexity | |
Espinoza et al. | Interrogation of clonal tracking data using barcodetrackR | |
Overall et al. | Rtrack: a software package for reproducible automated water maze analysis | |
Zhao et al. | Intelligent upgrading of plant breeding: Decision support tools in the golden seed breeding cloud platform | |
CN108320797B (zh) | 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
CN109308934A (zh) | 一种基于集成特征重要性和鸡群算法的基因调控网络构建方法 | |
Wang et al. | Learning dynamics by computational integration of single cell genomic and lineage information | |
WO2012158897A1 (en) | Computer-implemented method and system for detecting interacting dna loci | |
Mu et al. | Investigation on tree molecular genome of Arabidopsis thaliana for internet of things | |
CN116153424B (zh) | 单基因泛癌预后分析***及分析方法 | |
Miyagi et al. | How many ecological niches are defined by the superabundant marine microbe Prochlorococcus? | |
van Beek | Channeling the data flood: handling large-scale biomolecular measurements in silico | |
Hejblum | Statistical methods for leveraging high-dimensional data from high-throughput measurements in vaccine clinical development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171124 |
|
WD01 | Invention patent application deemed withdrawn after publication |