CN106021985A - 一种基因组数据压缩方法 - Google Patents

一种基因组数据压缩方法 Download PDF

Info

Publication number
CN106021985A
CN106021985A CN201610327658.2A CN201610327658A CN106021985A CN 106021985 A CN106021985 A CN 106021985A CN 201610327658 A CN201610327658 A CN 201610327658A CN 106021985 A CN106021985 A CN 106021985A
Authority
CN
China
Prior art keywords
mer
data
high frequency
compression method
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610327658.2A
Other languages
English (en)
Other versions
CN106021985B (zh
Inventor
詹东亮
范崇仪
王鹏飞
刘夏阳
沈仲佶
郝美荣
苏莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU HEYI GENE TECHNOLOGY Co Ltd filed Critical HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority to CN201610327658.2A priority Critical patent/CN106021985B/zh
Publication of CN106021985A publication Critical patent/CN106021985A/zh
Application granted granted Critical
Publication of CN106021985B publication Critical patent/CN106021985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种基因组数据压缩方法,它使用二代Illumina测序数据进行建模,提取关键信息,利用这些关键信息,在不影响基因组的覆盖度前提下,压缩DNA的数据量。本发明在对数据进行分析之前,对其自身进行数据量压缩,从而大大降低后续分析的资源消耗。

Description

一种基因组数据压缩方法
技术领域
本发明涉及生物信息技术领域,具体涉及DNA序列的数据压缩。
背景技术
目前的二代测序技术,产量不断提高,产生的数据量越来越大,而对这些数据的存储需要消耗大量的计算机资源。在基因组装方面,由于二代测序得到的数据量太大,之前基于传统OLC算法的组装方法因消耗计算机资源太大而基本被放弃。在重测序领域,由于数据量的增加,数据比对时间也随之增加。
目前为止,传统的数据压缩,只是将数据压缩成二进制,比如使用gzip,tar这样的压缩工具,并没有对数据量进行压缩,对计算机资源的消耗并没有减少。
发明内容
本发明的目的是在对数据进行分析之前,对其自身进行数据量压缩,从而大大降低后续分析的资源消耗,提供一种基因组数据压缩方法,它使用二代Illumina测序数据进行建模,提取关键信息,利用这些关键信息,在不影响基因组的覆盖度前提下,压缩DNA的数据量。
本发明是通过以下技术方案实现的:
本发明是一种基因组数据压缩方法,所述压缩方法包括以下步骤:
(1)从二代Illumina测序数据中提取高频k-mer表;
(2)使用高频k-mer表对数据进行压缩。
作为优化,在步骤(1)中,使用Jellyfish软件对二代Illumina测序数据进行k-mer统计,把频数大于一定频数值的k-mer作为高频k-mer,使用比特文件或GATB开源包,对这些高频k-mer进行存储。
作为优化,所述频数值为3。
作为优化,对于k≤17的情况,使用一个大小为2G的比特文件(*.bit)来存储高频kmer;而对于k>17的情况,使用GATB开源框架把高频kmer存入文件中(*.h5)。
作为优化,所述步骤(2)包括以下步骤:
2.1在对数据进行压缩之前,读入高频k-mer表(table A);
2.2建立一张新的k-mer表(table B);
2.3对每条数据进行分析,方法如下:
2.3.1将一条数据中所有的k-mer与table A进行比较,如果存在于table A,则为高频k-mer,记录下它的高频k-mer数,记为a;
2.3.2判断这条数据中的高频k-mer,属于table B的数量,记为b;
2.3.3如果b/a>c,c为设置的域值,则认为这条数据为冗余,抛弃这条数据,反之,则认为这条数据可用,则将这条数据中所有的高频k-mer,记录到table B中。
作为优化,所述域值为0.9。
本发明的有益效果如下:
1、使用二代Illumina测序数据,获取高频k-mer表,节省存储空间,实现高效读取。
本方法通过统计k-mer频数,对高频k-mer进行存储,实现了节省存储空间,高效读取的目的。因为二代Illumina数据的质量非常高,在测序深度足够随机的情况下(一般为大约40x基因组大小的数据量),使用Jellyfish软件对数据进行kmer统计,可以得到k-mer的分布图(图1)。将频数大于一定值的k-mer(通常取频数大于3),作为高频kmer。对于k≤17的情况,使用一个大小为2G的比特文件(*.bit)来存储高频kmer;而对于k>17的情况,使用GATB开源框架把高频kmer存入文件中(*.h5)。
2、使用高频k-mer表,对数据进行压缩,降低对计算机的资源消耗。
数据压缩的核心,是判断这条数据是否在之前的数据里出现过,如果出现过,则这条数据为冗余序列,需要抛弃这条数据,从而节约后续的分析资源。
附图说明
图1:k-mer分布图;
将所有的数据打断成长度为k的片断(称为k-mer),横坐标为k-mer频数,纵坐标为该频数的k-mer比例。
图2:本发明流程图。
具体实施方式
下面结合附图对本发明的实施例进行进一步详细说明:
实施例:
1、从二代Illumina测序数据中提取高频k-mer表,使用Jellyfish软件对二代Illumina测序数据进行k-mer统计,把频数大于3的k-mer作为高频k-mer,对于k≤17的情况,使用一个大小为2G的比特文件(*.bit)来存储高频kmer;而对于k>17的情况,使用GATB开源框架把高频kmer存入文件中(*.h5)。其中,二代Illumina测序数据表示Illumina公司的测序仪测出的测序数据。
根据上述方法,编写了一个用来提取高频kmer的程序(Graph.pl),该程序的具体操作使用说明如下:
假如有很多二代的Illumina测序数据,筛选大约40X的数据,把它们写入一个叫fq.lst文件中:
然后运行程序,来获取高频kmer:
将结果存入文件:kmer_17.h5
2、使用高频k-mer表对数据进行压缩:
2.1在对数据进行压缩之前,读入高频k-mer表(table A);
2.2建立一张新的k-mer表(table B);
2.3对每条数据进行分析,方法如下:
2.3.1将一条数据中所有的k-mer与table A进行比较,如果存在于table A,则为高频k-mer,记录下它的高频k-mer数,记为a;
2.3.2判断这条数据中的高频k-mer,属于table B的数量,记为b;
2.3.3如果b/a>c,c为设置的域值,c为0.9,则认为这条数据为冗余,抛弃这条数据,反之,则认为这条数据可用,则将这条数据中所有的高频k-mer,记录到table B中。
根据上述的方法,编写了一个数据压缩程序(Compress.pl),具体使用说明如下:
使用上步中生成的高频k-mer表:kmer_17.h5,对所有的数据进行压缩,运行以下命令:
以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基因组数据压缩方法,其特征在于,所述压缩方法包括以下步骤:
(1)从二代Illumina测序数据中提取高频k-mer表;
(2)使用高频k-mer表对数据进行压缩。
2.根据权利要求书1所述基因组数据压缩方法,其特征在于,在步骤(1)中,使用Jellyfish软件对二代Illumina测序数据进行k-mer统计,把频数大于一定频数值的k-mer作为高频k-mer,使用比特文件或GATB开源包,对这些高频k-mer进行存储。
3.根据权利要求书2所述基因组数据压缩方法,其特征在于,所述频数值为3。
4.根据权利要求书2所述基因组数据压缩方法,其特征在于,对于k≤17的情况,使用一个大小为2G的比特文件(*.bit)来存储高频k-mer;而对于k>17的情况,使用GATB开源框架把高频k-mer存入文件中(*.h5)。
5.根据权利要求书1所述基因组数据压缩方法,其特征在于,所述步骤(2)包括以下步骤:
2.1在对数据进行压缩之前,读入高频k-mer表(table A);
2.2建立一张新的k-mer表(table B);
2.3对每条数据进行分析,方法如下:
2.3.1将一条数据中所有的k-mer与table A进行比较,如果存在于table A,则为高频k-mer,记录下它的高频k-mer数,记为a;
2.3.2判断这条数据中的高频k-mer,属于table B的数量,记为b;
2.3.3如果b/a>c,c为设置的域值,则认为这条数据为冗余,抛弃这条数据,反之,则认为这条数据可用,则将这条数据中所有的高频k-mer,记录到table B中。
6.根据权利要求书5所述基因组数据压缩方法,其特征在于,所述域值为0.9。
CN201610327658.2A 2016-05-17 2016-05-17 一种基因组数据压缩方法 Active CN106021985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610327658.2A CN106021985B (zh) 2016-05-17 2016-05-17 一种基因组数据压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610327658.2A CN106021985B (zh) 2016-05-17 2016-05-17 一种基因组数据压缩方法

Publications (2)

Publication Number Publication Date
CN106021985A true CN106021985A (zh) 2016-10-12
CN106021985B CN106021985B (zh) 2019-03-29

Family

ID=57097823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610327658.2A Active CN106021985B (zh) 2016-05-17 2016-05-17 一种基因组数据压缩方法

Country Status (1)

Country Link
CN (1) CN106021985B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614954A (zh) * 2016-12-12 2018-10-02 深圳华大基因科技服务有限公司 一种二代序列的短序列纠错的方法和装置
WO2019076177A1 (zh) * 2017-10-20 2019-04-25 人和未来生物科技(长沙)有限公司 基因测序数据压缩预处理、压缩、解压方法、***及计算机可读介质
CN109979537A (zh) * 2019-03-15 2019-07-05 南京邮电大学 一种面向多条序列的基因序列数据压缩方法
CN110066862A (zh) * 2019-05-22 2019-07-30 中南大学 一种基于高通量测序读数的重复dna序列识别方法
CN112241005A (zh) * 2019-07-19 2021-01-19 杭州海康威视数字技术股份有限公司 雷达探测数据的压缩方法、装置及存储介质
US11515011B2 (en) 2019-08-09 2022-11-29 International Business Machines Corporation K-mer based genomic reference data compression

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和***
CN104164479A (zh) * 2014-04-04 2014-11-26 深圳华大基因科技服务有限公司 杂合基因组处理方法
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和***
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104164479A (zh) * 2014-04-04 2014-11-26 深圳华大基因科技服务有限公司 杂合基因组处理方法
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和***
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和***
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KONSTANTINOS PATIS等: "Evaluation of DNA scaffolding techniques using pacbio long reads", 《网站在线公开:HTTPS://WWW.MYSCIENCEWORK.COM/PUBLICATION/SHOW/EVALUATION-DNA-SCAFFOLDING-TECHNIQUES-USING-PACBIO-LONG-READS-DC66B81E》 *
任毅鹏等: "基于Pacbio平台的全长转录组测序", 《中国科学》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614954A (zh) * 2016-12-12 2018-10-02 深圳华大基因科技服务有限公司 一种二代序列的短序列纠错的方法和装置
CN108614954B (zh) * 2016-12-12 2020-07-28 深圳华大基因科技服务有限公司 一种二代序列的短序列纠错的方法和装置
WO2019076177A1 (zh) * 2017-10-20 2019-04-25 人和未来生物科技(长沙)有限公司 基因测序数据压缩预处理、压缩、解压方法、***及计算机可读介质
US11551785B2 (en) 2017-10-20 2023-01-10 Genetalks Bio-Tech (Changsha) Co., Ltd. Gene sequencing data compression preprocessing, compression and decompression method, system, and computer-readable medium
CN109979537A (zh) * 2019-03-15 2019-07-05 南京邮电大学 一种面向多条序列的基因序列数据压缩方法
CN110066862A (zh) * 2019-05-22 2019-07-30 中南大学 一种基于高通量测序读数的重复dna序列识别方法
CN110066862B (zh) * 2019-05-22 2021-02-12 中南大学 一种基于高通量测序读数的重复dna序列识别方法
CN112241005A (zh) * 2019-07-19 2021-01-19 杭州海康威视数字技术股份有限公司 雷达探测数据的压缩方法、装置及存储介质
CN112241005B (zh) * 2019-07-19 2024-05-31 杭州海康威视数字技术股份有限公司 雷达探测数据的压缩方法、装置及存储介质
US11515011B2 (en) 2019-08-09 2022-11-29 International Business Machines Corporation K-mer based genomic reference data compression

Also Published As

Publication number Publication date
CN106021985B (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN106021985A (zh) 一种基因组数据压缩方法
CN107193805A (zh) 基于人工智能的文章价值评估方法、装置及存储介质
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN100590603C (zh) 一种处理日志文件的方法及装置
CN101770446A (zh) 一种版式文件中表格识别方法及***
CN107797916A (zh) Ddl语句审核方法和装置
CN107168868B (zh) 一种基于采样和集成学习的软件更改缺陷预测方法
CN107480466A (zh) 基因组数据存储方法及电子设备
CN103136244A (zh) 基于云计算平台的并行数据挖掘方法及***
CN109901978A (zh) 一种Hadoop日志无损压缩方法和***
CN104603779A (zh) 文本挖掘设备、文本挖掘方法和计算机可读记录介质
CN101639851B (zh) 一种数据存储、查询的方法和装置
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN103336800A (zh) 基于行为分析的指纹存储比对的方法
JP6244274B2 (ja) 相関ルール分析装置および相関ルール分析方法
CN105988980A (zh) 信息处理设备和数据管理方法
CN104391927A (zh) 一种多维数据模型的维度重构实现方法
CN108763871B (zh) 基于第三代测序序列的补洞方法及装置
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
CN109660576B (zh) 用户数据实时迁移方法、存储介质、电子设备及***
CN110502731B (zh) 一种基于精化单元格聚类的电子表格缺陷检测方法
CN110196974B (zh) 一种用于大数据清洗的快速数据聚合方法
CN103440325B (zh) 高效、多并发、自适用数据库的运行方法
CN102346814A (zh) 表格式片段结构化电子病历的录入方法
CN111324625A (zh) 一种上位机数据报表应用方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant