CN105095686A - 基于多核cpu硬件的高通量转录组测序数据质量控制方法 - Google Patents

基于多核cpu硬件的高通量转录组测序数据质量控制方法 Download PDF

Info

Publication number
CN105095686A
CN105095686A CN201410205571.9A CN201410205571A CN105095686A CN 105095686 A CN105095686 A CN 105095686A CN 201410205571 A CN201410205571 A CN 201410205571A CN 105095686 A CN105095686 A CN 105095686A
Authority
CN
China
Prior art keywords
sequence
core cpu
transcript profile
quality control
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410205571.9A
Other languages
English (en)
Other versions
CN105095686B (zh
Inventor
周茜
宁康
苏晓泉
徐健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Original Assignee
Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Institute of Bioenergy and Bioprocess Technology of CAS filed Critical Qingdao Institute of Bioenergy and Bioprocess Technology of CAS
Priority to CN201410205571.9A priority Critical patent/CN105095686B/zh
Publication of CN105095686A publication Critical patent/CN105095686A/zh
Application granted granted Critical
Publication of CN105095686B publication Critical patent/CN105095686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明是一种基于多核CPU硬件的高通量转录组测序数据质量控制方法。包括:利用多核CPU对高通量转录组测序数据进行并行处理,得到去除低测序质量序列的数据;利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定;对序列比对结果进行统计和评价。本发明基于多核CPU计算机,克服了基于单核CPU硬件计算机的计算效率瓶颈,可以使高通量转录组数据质量控制效率提高7倍以上;本发明的应用将会显著提高高通量转录组数据质量控制的准确度和速度,广泛有助于转录组测序相关研究的迅速发展。

Description

基于多核CPU硬件的高通量转录组测序数据质量控制方法
技术领域
本发明专利涉及生物信息学,具体的说是一种基于多核CPU硬件的高通量转录组测序数据质量控制方法,能够快速的对高通量转录组测序数据进行质量控制。
背景技术
高通量测序技术又称“下一代”测序技术,是对传统测序一次革命性的改变,能够一次对几十万到几百万条DNA/RNA分子进行序列测定,已经越来越广泛地应用于生物学相关研究中。与传统的Sanger测序技术相比,新一代测序技术的通量提高了一到两个数量级,数据量更多(100MB至数G)。转录组测序是基于高通量测序技术的一项深入应用,能够对一个物种的转录图谱进行细致、深入而全面的分析。然而,由于高通量测序技术本身的限制及转录组提取等人为实验的操作误差,原始生成的转录组数据往往含有部分低质量序列,包括低质量碱基、污染序列和核RNA序列(rRNA)等。这些低质量序列的存在将会极大地影响后续转录组数据分析的准确性,甚至导致错误的结论。此外,由于后续的转录组分析结果依赖于将序列与参考基因组进行比对(alignment)后得出,因此转录组序列的比对质量也是衡量转录组测序数据整体质量的关键因素之一。综上所述,质量控制是进行高通量转录组测序数据分析必须的关键步骤。目前已有的转录组数据质量控制方法主要集中于完成序列比对层面的质量评价,而无法全面的对于碱基、序列、污染和比对质量同时进行质量控制。
由于高通量转录组测序数据一般需要测定不同条件或不同时间点采集的多个样本,每个样本一般分别需要三个或以上生物学重复和技术重复,因此测序的样本量巨大,导致每次测序往往获得超过二十个样本和几十G的数据量,所以对应于高通量转录组数据的质量控制,必须有具有相当运算能力的超级计算机和相应的分析软件来实现。采用目前的普通分析方法利用单一的CPU计算机对几亿条序列进行逐条扫描并分别处理,可能需要数天甚至一个月的时间,使数据分析的效率亦成为了相关研究中的一大瓶颈。
发明内容
为了解决传统分析方法和计算***无法全面、精确而高效地满足高通量转录组测序数据质量控制的要求的问题,本发明根据高通量转录组测序数据可并行处理的特点,提出一种基于多核CPU硬件的高通量转录组测序数据质量控制方法。
本发明为实现上述目的所采用的技术方案是:一种基于多核CPU硬件的高通量转录组测序数据质量控制方法,包括以下步骤:
利用多核CPU对高通量转录组测序数据进行并行处理,得到去除低测序质量序列的数据;
利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定;
对序列比对结果进行统计和评价。
所述利用多核CPU对高通量转录组测序数据进行低测序质量序列的去除,包括以下步骤:
利用Parallel-QC工具将输入文件分割成若干个小规模子数据;
将各个子数据分配到不同的CPU内核上;
同时在多个CPU内核上检测其子数据中每个序列的碱基质量和接头序列,并根据用户指定的长度依次切除每个序列两端的低质量碱基,过滤含有用户指定比例的低质量碱基的序列,删除其中的接头序列;
将上述处理后的序列合并到一起,从而得到去除低测序质量序列的数据。
所述利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定,包括以下步骤:
将数据库SILVA中所有的rRNA序列构建隐马尔科夫模型;基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除;
将所预测和提取的16S或18SrRNA,映射到已知rRNA序列数据库SILVA上,获得所有序列的物种来源信息,分别将16S和18SrRNA特征序列的注释结果汇总到一起,生成物种结构组成结果,从而获得转录组测序数据中所有可能存在的物种及污染信息;
所述基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除,包括以下步骤:
将经过Parallel-QC处理过的去除低质量测序序列的数据文件分割成小规模子数据;
将不同的子数据分配到不同的CPU内核上;
在众多CPU内核上同时预测子序列的16S、18S、23S或28SrRNA特征序列;
将各类特征序列预测结果合并到一起;
根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取,最后将搜索结果合并。
所述对序列比对到参考基因组上的结果进行统计和评价,包括统计序列的数目、计算序列覆盖度、汇总双端序列比对信息。
所述统计序列的数目包括全部序列、比对成功的序列、比对到某些特定基因组区域的序列以及上述序列在全部序列中所占的比例。
所述计算序列覆盖度包括有序列成功比对的基因的数目、每个基因的碱基覆盖度、成功比对的序列在基因组结构上的分布。
所述包括双端均成功比对的序列数目、只有一端成功比对的序列的数目、双端比对序列的的***片段长度。
本发明具有以下优点及有益效果:
1.实现了全面、高效的转录组数据质量控制,包括对于测序质量、rRNA序列、污染序列和比对结果等多方面的综合分析和质控;
2.与基于多核CPU计算机相配合,克服了基于单核CPU硬件计算机的计算效率瓶颈,可以使高通量转录组数据质量控制效率提高7倍以上;
3.本发明的应用将会显著提高高通量转录组数据质量控制的准确度和速度,广泛有助于转录组测序相关研究的迅速发展。
附图说明
图1为本发明的硬件架构图;其中,①为DMI与PCIe2.0总线;②为三通道DDR3内存总线;③为SATA总线;
图2为本发明的软件流程图;其中,(1)为低测序质量数据处理;(2)为rRNA序列和污染序列的定性鉴定;(3)为序列对比结果的评价和质量控制;
图3为采用16核CUP应用本发明和应用单核CPU对于同一个转录组测序数据的测试结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
本发明采用的技术方案是多核CPU计算机以及构筑于其上的高效、统一的软件平台。其特点是(1)高性能并行计算和存储硬件***;(2)功能全面、高性能、统一、可配置的并行化软件平台。
(1)高性能并行计算和存储硬件
该硬件***采用多路多核CPU进行大规模并行化计算。图1是计算服务器的***结构图:
首先,多路多核CPU并行化计算,采用4路处理器,处理器之间采用QPI总线连接。每路处理器具有8个独立计算核心,配备三通道DDR3RDIMM内存,同时也适应于云计算服务器的计算要求。
其次,高速缓存和高速总线:适应于并发式的测序数据分析任务的调配和协同工作环境在大规模任务分配上的需要。
最后,RAID磁盘阵列:通过RAID磁盘阵列存储,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。同时可应付云计算服务器的备份和升级需要。
(2)功能全面、高性能、统一、可配置的软件平台
高性能的软件平台包括低测序质量数据处理、污染序列的定性鉴定、rRNA污染序列的定性定量鉴定和序列比对质量的检测等(图2)。此***被命名为RNA-QC-Chain软件***(http://www.computationalbioenergy.org/rna-qc-chain.html,自主知识产权),其数据质量控制步骤是:
第一,基于多核CPU并行计算的低测序质量数据处理。利用Parallel-QC工具(http://www.computationalbioenergy.org/parallel-qc.html,自主知识产权),将输入文件分割成小规模子数据,将不同的子数据分配到不同的CPU内核上,然后同时在多个CPU内核上预测每个序列的碱基质量和接头序列,并根据用户指定的长度依次切除序列两端的低质量碱基,过滤含有一定比例低质量碱基的序列,删除其中的接头序列,最后将过滤后的序列合并到一起,从而得到去除低测序质量序列的数据结果。
第二,基于多核CPU并行计算的污染序列的定性鉴定。首先利用rRNA-filter工具去除数据中的rRNA序列。将公开的rRNA数据库SILVA中所有的rRNA序列(包括16S、18S、23S和28SrRNA序列)构建隐马尔科夫模型(HMM),并基于HMM搜索对于转录组序列进行rRNA预测,然后将预测的rRNA序列从转录组数据中去除。SILVA数据库是目前世界上收录最全面rRNA序列的核RNA数据库之一,涵盖了细菌、真菌和真核生物三大领域的rRNA序列。因此,我们的方法能够尽可能多的去除转录组序列中所含有的rRNA序列。rRNA-filter将输入文件分割成小规模子数据,将不同的子数据分配到不同的CPU内核上,然后在众多CPU内核上同时预测子序列的16S、18S、23S或28SrRNA特征序列,最后将各类特征序列预测结果合并到一起;然后,根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取,最后将搜索结果合并。
然后,16S或18SrRNA序列是一种较短的生物标记特征序列,广泛应用于原核和真核物种的鉴定。rRNA-filter基于对所预测和提取16S或18SrRNA进行注释的结果,定性地获得高通量测序数据中所有序列的物种来源信息,并分别将16S和18SrRNA特征序列的搜索结果汇总到一起,生成图形化的物种结构组成结果,从而获得转录组测序数据中所有可能存在的物种及污染信息。
第三,全面、精确的序列比对结果的评价和质量控制。利用自主开发的SAM-stats工具,基于SAM格式的序列比对结果文件,对转录组序列与基因组数据(已知)的比对结果进行精确、全面的统计和评价,其功能包括:
 统计序列的数目,包括全部序列、比对成功的序列、比对到某些特定基因组区域的序列以及上述序列在全部序列中所占的比例等;
 计算序列覆盖度,包括有序列成功比对的基因的数目、每个基因的碱基覆盖度、成功比对的序列在基因组结构上的分布等;
 汇总双端序列比对信息,包括双端均成功比对的序列数目、只有一端成功比对的序列的数目、双端比对序列的的***片段长度等。
综上所述,本软件平台依赖于多核CPU硬件平台,只有相互配合才能够发挥高效率转录组测序数据质量控制的功能。
如图1所示,基于多核CPU硬件的高通量转录组测序数据质量控制方法,其主要部分是:第一,4路多核心CPU的多尺度并行化计算能力,每路CPU具备独立8个计算核心,并具有三通道内存。第二,高速缓存和高速总线。第三,RAID磁盘阵列,不但提高中心服务器的响应速度和稳定性,而且有利于不定期的中心服务器更新。计算和存储硬件基本配置是:单路CPU至少具备4个独立物理计算核心,双通道内存2GB以上,硬盘至少50G以上,CPU和存储之间高速互联。
如图2所示,其流程主要步骤是:首先,使用Parallel-QC软件工具,利用多核CPU对转录组序列进行处理,依次切除输入数据序列两端的低质量碱基,过滤含有一定比例低质量碱基的序列,删除其中的接头序列,然后将结果合并起来,作为高测序质量序列数据。然后,利用rRNA-filter工具,对于上一步得到的数据进行rRNA序列的预测和污染序列的定性检测,使用并行化多线程计算工具,提取并去除预测的rRNA序列(16S/18S或23S/28S),并将其中的16S或18S序列映射到已知rRNA序列数据库SILVA上,获得所有序列的物种来源(包括可能得污染物种)信息。最后,针对序列比对到参考基因组上的结果(SAM格式的文件),利用SAM-stats软件工具,从序列比对的角度统计和评价转录组数据的质量,包括比对成功序列的数目、基因的覆盖度和双端比对序列的效果等。综合上述结果,生成图形化分析结果和分析报告。软件平台基本配置是:Linux操作***,预装GCC运行环境、CUDA运行环境(3.0以上)、RNA-QC-Chain软件***版本1.0以上,Parallel-META软件版本2.0以上。RNA-QC-Chain软件***与Parallel-META软件***的运行界面为命令行形式,配电子版使用说明。同时官方网站(http://www.computationalbioenergy.org/software.html)提供长期软件更新服务。
本发明的方法,克服了基于单核CPU硬件计算机的计算效率瓶颈,使高通量转录组数据质量控制效率提高7倍以上。如图3所示,对于同一个转录组测序数据的测试表明,使用16核CPU可在23分钟内完成整个质量控制过程,而使用单核CPU时耗时为180分钟。

Claims (8)

1.一种基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,包括以下步骤:
利用多核CPU对高通量转录组测序数据进行并行处理,得到去除低测序质量序列的数据;
利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定;
对序列比对结果进行统计和评价。
2.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述利用多核CPU对高通量转录组测序数据进行低测序质量序列的去除,包括以下步骤:
利用Parallel-QC工具将输入文件分割成若干个小规模子数据;
将各个子数据分配到不同的CPU内核上;
同时在多个CPU内核上检测其子数据中每个序列的碱基质量和接头序列,并根据用户指定的长度依次切除每个序列两端的低质量碱基,过滤含有用户指定比例的低质量碱基的序列,删除其中的接头序列;
将上述处理后的序列合并到一起,从而得到去除低测序质量序列的数据。
3.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定,包括以下步骤:
将数据库SILVA中所有的rRNA序列构建隐马尔科夫模型;基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除;
将所预测和提取的16S或18SrRNA,映射到已知rRNA序列数据库SILVA上,获得所有序列的物种来源信息,分别将16S和18SrRNA特征序列的注释结果汇总到一起,生成物种结构组成结果,从而获得转录组测序数据中所有可能存在的物种及污染信息。
4.根据权利要求3所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除,包括以下步骤:
将经过Parallel-QC处理过的去除低质量测序序列的数据文件分割成小规模子数据;
将不同的子数据分配到不同的CPU内核上;
在众多CPU内核上同时预测子序列的16S、18S、23S或28SrRNA特征序列;
将各类特征序列预测结果合并到一起;
根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取,最后将搜索结果合并。
5.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述对序列比对到参考基因组上的结果进行统计和评价,包括统计序列的数目、计算序列覆盖度、汇总双端序列比对信息。
6.根据权利要求5所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述统计序列的数目包括全部序列、比对成功的序列、比对到某些特定基因组区域的序列以及上述序列在全部序列中分别所占的比例。
7.根据权利要求5述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述计算序列覆盖度包括有序列成功比对的基因的数目、每个基因的碱基覆盖度、成功比对的序列在基因组结构上的分布。
8.根据权利要求5述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述包括双端均成功比对的序列数目、只有一端成功比对的序列的数目、双端比对序列的的***片段长度。
CN201410205571.9A 2014-05-15 2014-05-15 基于多核cpu硬件的高通量转录组测序数据质量控制方法 Active CN105095686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410205571.9A CN105095686B (zh) 2014-05-15 2014-05-15 基于多核cpu硬件的高通量转录组测序数据质量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410205571.9A CN105095686B (zh) 2014-05-15 2014-05-15 基于多核cpu硬件的高通量转录组测序数据质量控制方法

Publications (2)

Publication Number Publication Date
CN105095686A true CN105095686A (zh) 2015-11-25
CN105095686B CN105095686B (zh) 2018-08-14

Family

ID=54576104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410205571.9A Active CN105095686B (zh) 2014-05-15 2014-05-15 基于多核cpu硬件的高通量转录组测序数据质量控制方法

Country Status (1)

Country Link
CN (1) CN105095686B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740650A (zh) * 2016-03-02 2016-07-06 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN106407743A (zh) * 2016-08-31 2017-02-15 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
CN106701995A (zh) * 2017-02-20 2017-05-24 元码基因科技(北京)有限公司 通过单细胞转录组测序进行细胞质量控制的方法
CN106777262A (zh) * 2016-12-28 2017-05-31 上海华点云生物科技有限公司 高通量测序数据质量过滤方法和过滤装置
CN107194204A (zh) * 2017-05-22 2017-09-22 人和未来生物科技(长沙)有限公司 一种全基因组测序数据计算解读方法
CN107203703A (zh) * 2017-05-22 2017-09-26 人和未来生物科技(长沙)有限公司 一种转录组测序数据计算解读方法
CN107451424A (zh) * 2017-07-31 2017-12-08 浙江绍兴千寻生物科技有限公司 大批量单细胞RNA‑seq数据质量控制和分析方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN111326216A (zh) * 2020-02-27 2020-06-23 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
CN112927756A (zh) * 2019-12-06 2021-06-08 深圳华大基因科技服务有限公司 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
CN115495299A (zh) * 2022-11-15 2022-12-20 深圳市江元科技(集团)有限公司 一种智能qc软件检测与标识上传的方法、***和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914619A (zh) * 2010-07-22 2010-12-15 深圳华大基因科技有限公司 关于基因表达的rna测序质控方法及装置
WO2012125848A2 (en) * 2011-03-16 2012-09-20 Baylor College Of Medicine A method for comprehensive sequence analysis using deep sequencing technology

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914619A (zh) * 2010-07-22 2010-12-15 深圳华大基因科技有限公司 关于基因表达的rna测序质控方法及装置
WO2012125848A2 (en) * 2011-03-16 2012-09-20 Baylor College Of Medicine A method for comprehensive sequence analysis using deep sequencing technology

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
QIAN ZHOU 等: "Meta-QC-Chain: Comprehensive and Fast Quality Control Method for Metagenomic Data", 《GENOMICS PROTEOMICS BIOINFORMATICS》 *
QIAN ZHOU 等: "QC-Chain: Fast and Holistic Quality Control Method for Next-Generation Sequencing Data", 《PLOS ONE》 *
RAVI K. PATEL 等: "NGS QC Toolkit: A Toolkit for Quality Control of Next Generation Sequencing Data", 《PLOS ONE》 *
宋琳琳 等: "Illumina-Solexa测序数据质量评估***的构建", 《现代生物医学进展》 *
苏晓泉 等: "Meta-Mesh——元基因组数据分析***", 《生物工程学报》 *
苏晓泉 等: "服务于微生物群落研究的高性能元基组数据分析平台", 《E-SCIENCE应用》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740650B (zh) * 2016-03-02 2019-04-05 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN105740650A (zh) * 2016-03-02 2016-07-06 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN106407743B (zh) * 2016-08-31 2019-03-05 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
CN106407743A (zh) * 2016-08-31 2017-02-15 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
CN106777262A (zh) * 2016-12-28 2017-05-31 上海华点云生物科技有限公司 高通量测序数据质量过滤方法和过滤装置
CN106777262B (zh) * 2016-12-28 2020-07-03 上海华点云生物科技有限公司 高通量测序数据质量过滤方法和过滤装置
CN106701995A (zh) * 2017-02-20 2017-05-24 元码基因科技(北京)有限公司 通过单细胞转录组测序进行细胞质量控制的方法
CN107203703A (zh) * 2017-05-22 2017-09-26 人和未来生物科技(长沙)有限公司 一种转录组测序数据计算解读方法
CN107194204A (zh) * 2017-05-22 2017-09-22 人和未来生物科技(长沙)有限公司 一种全基因组测序数据计算解读方法
CN107451424A (zh) * 2017-07-31 2017-12-08 浙江绍兴千寻生物科技有限公司 大批量单细胞RNA‑seq数据质量控制和分析方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN112927756A (zh) * 2019-12-06 2021-06-08 深圳华大基因科技服务有限公司 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
CN111326216A (zh) * 2020-02-27 2020-06-23 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
CN111326216B (zh) * 2020-02-27 2023-07-21 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
CN115495299A (zh) * 2022-11-15 2022-12-20 深圳市江元科技(集团)有限公司 一种智能qc软件检测与标识上传的方法、***和介质

Also Published As

Publication number Publication date
CN105095686B (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN105095686A (zh) 基于多核cpu硬件的高通量转录组测序数据质量控制方法
Jin et al. GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes
Liu et al. CpGAVAS, an integrated web server for the annotation, visualization, analysis, and GenBank submission of completely sequenced chloroplast genome sequences
Garber et al. Computational methods for transcriptome annotation and quantification using RNA-seq
Nikolayeva et al. edgeR for differential RNA-seq and ChIP-seq analysis: an application to stem cell biology
EP2759952B1 (en) Efficient genomic read alignment in an in-memory database
CN103838985A (zh) 基于多核cpu和gpgpu硬件的高通量测序数据质量控制***
Pireddu et al. MapReducing a genomic sequencing workflow
US20090182994A1 (en) Two-level representative workload phase detection method, apparatus, and computer usable program code
Wang et al. GAMUT: GPU accelerated microRNA analysis to uncover target genes through CUDA-miRanda
CN106021992A (zh) 位置相关变体识别计算流水线
Vineetha et al. SPARK-MSNA: Efficient algorithm on Apache Spark for aligning multiple similar DNA/RNA sequences with supervised learning
Chimani et al. Algorithm engineering: Concepts and practice
Sarwar et al. Database search, alignment viewer and genomics analysis tools: big data for bioinformatics
CN111312342B (zh) 一种电子结构计算机辅助药物设计***
CN112016636A (zh) 一种基于Hadoop框架的作物光谱聚类分析处理方法
Nguyen et al. Efficient agglomerative hierarchical clustering for biological sequence analysis
Metsker et al. Performance improvement algorithms in big data analysis
Wu et al. TIGER: tiled iterative genome assembler
CN103310125A (zh) 基于gpgpu和多核cpu硬件的高性能元基因组数据分析***
Khan et al. MSuPDA: A memory efficient algorithm for sequence alignment
Karimi et al. Binos4dna: Bitmap indexes and nosql for identifying species with dna signatures through metagenomics samples
Han et al. HycDemux: a hybrid unsupervised approach for accurate barcoded sample demultiplexing in nanopore sequencing
Rehman et al. Need and role of scala implementations in bioinformatics
Muhammadzadeh MR-CUDASW-GPU accelerated Smith-Waterman algorithm for medium-length (meta) genomic data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant