CN106021985A

CN106021985A - 一种基因组数据压缩方法

Info

Publication number: CN106021985A
Application number: CN201610327658.2A
Authority: CN
Inventors: 詹东亮; 范崇仪; 王鹏飞; 刘夏阳; 沈仲佶; 郝美荣; 苏莎
Original assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Current assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date: 2016-05-17
Filing date: 2016-05-17
Publication date: 2016-10-12
Anticipated expiration: 2036-05-17
Also published as: CN106021985B

Abstract

本发明提供一种基因组数据压缩方法，它使用二代Illumina测序数据进行建模，提取关键信息，利用这些关键信息，在不影响基因组的覆盖度前提下，压缩DNA的数据量。本发明在对数据进行分析之前，对其自身进行数据量压缩，从而大大降低后续分析的资源消耗。

Description

一种基因组数据压缩方法

技术领域

本发明涉及生物信息技术领域,具体涉及DNA序列的数据压缩。

背景技术

目前的二代测序技术，产量不断提高，产生的数据量越来越大，而对这些数据的存储需要消耗大量的计算机资源。在基因组装方面，由于二代测序得到的数据量太大，之前基于传统OLC算法的组装方法因消耗计算机资源太大而基本被放弃。在重测序领域，由于数据量的增加，数据比对时间也随之增加。

目前为止，传统的数据压缩，只是将数据压缩成二进制，比如使用gzip，tar这样的压缩工具，并没有对数据量进行压缩，对计算机资源的消耗并没有减少。

发明内容

本发明的目的是在对数据进行分析之前，对其自身进行数据量压缩，从而大大降低后续分析的资源消耗，提供一种基因组数据压缩方法，它使用二代Illumina测序数据进行建模，提取关键信息，利用这些关键信息，在不影响基因组的覆盖度前提下，压缩DNA的数据量。

本发明是通过以下技术方案实现的：

本发明是一种基因组数据压缩方法，所述压缩方法包括以下步骤：

(1)从二代Illumina测序数据中提取高频k-mer表；

(2)使用高频k-mer表对数据进行压缩。

作为优化，在步骤(1)中，使用Jellyfish软件对二代Illumina测序数据进行k-mer统计，把频数大于一定频数值的k-mer作为高频k-mer，使用比特文件或GATB开源包，对这些高频k-mer进行存储。

作为优化，所述频数值为3。

作为优化，对于k≤17的情况，使用一个大小为2G的比特文件(*.bit)来存储高频kmer；而对于k＞17的情况，使用GATB开源框架把高频kmer存入文件中(*.h5)。

作为优化，所述步骤(2)包括以下步骤：

2.1在对数据进行压缩之前，读入高频k-mer表(table A)；

2.2建立一张新的k-mer表(table B)；

2.3对每条数据进行分析，方法如下：

2.3.1将一条数据中所有的k-mer与table A进行比较，如果存在于table A，则为高频k-mer，记录下它的高频k-mer数，记为a；

2.3.2判断这条数据中的高频k-mer，属于table B的数量，记为b；

2.3.3如果b/a＞c，c为设置的域值，则认为这条数据为冗余，抛弃这条数据，反之，则认为这条数据可用，则将这条数据中所有的高频k-mer，记录到table B中。

作为优化，所述域值为0.9。

本发明的有益效果如下：

1、使用二代Illumina测序数据，获取高频k-mer表，节省存储空间，实现高效读取。

本方法通过统计k-mer频数，对高频k-mer进行存储，实现了节省存储空间，高效读取的目的。因为二代Illumina数据的质量非常高，在测序深度足够随机的情况下(一般为大约40x基因组大小的数据量)，使用Jellyfish软件对数据进行kmer统计，可以得到k-mer的分布图(图1)。将频数大于一定值的k-mer(通常取频数大于3)，作为高频kmer。对于k≤17的情况，使用一个大小为2G的比特文件(*.bit)来存储高频kmer；而对于k＞17的情况，使用GATB开源框架把高频kmer存入文件中(*.h5)。

2、使用高频k-mer表，对数据进行压缩，降低对计算机的资源消耗。

数据压缩的核心，是判断这条数据是否在之前的数据里出现过，如果出现过，则这条数据为冗余序列，需要抛弃这条数据，从而节约后续的分析资源。

附图说明

图1：k-mer分布图；

将所有的数据打断成长度为k的片断(称为k-mer)，横坐标为k-mer频数，纵坐标为该频数的k-mer比例。

图2：本发明流程图。

具体实施方式

下面结合附图对本发明的实施例进行进一步详细说明：

实施例：

1、从二代Illumina测序数据中提取高频k-mer表，使用Jellyfish软件对二代Illumina测序数据进行k-mer统计，把频数大于3的k-mer作为高频k-mer，对于k≤17的情况，使用一个大小为2G的比特文件(*.bit)来存储高频kmer；而对于k＞17的情况，使用GATB开源框架把高频kmer存入文件中(*.h5)。其中，二代Illumina测序数据表示Illumina公司的测序仪测出的测序数据。

根据上述方法，编写了一个用来提取高频kmer的程序(Graph.pl)，该程序的具体操作使用说明如下：

假如有很多二代的Illumina测序数据，筛选大约40X的数据，把它们写入一个叫fq.lst文件中：

然后运行程序，来获取高频kmer：

将结果存入文件：kmer_17.h5

2、使用高频k-mer表对数据进行压缩：

2.1在对数据进行压缩之前，读入高频k-mer表(table A)；

2.2建立一张新的k-mer表(table B)；

2.3对每条数据进行分析，方法如下：

2.3.2判断这条数据中的高频k-mer，属于table B的数量，记为b；

2.3.3如果b/a＞c，c为设置的域值，c为0.9，则认为这条数据为冗余，抛弃这条数据，反之，则认为这条数据可用，则将这条数据中所有的高频k-mer，记录到table B中。

根据上述的方法，编写了一个数据压缩程序(Compress.pl)，具体使用说明如下：

使用上步中生成的高频k-mer表：kmer_17.h5，对所有的数据进行压缩，运行以下命令：

以上所述的仅是本发明的优选实施方式，应当指出，对于本技术领域中的普通技术人员来说，在不脱离本发明核心技术特征的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基因组数据压缩方法，其特征在于，所述压缩方法包括以下步骤：

(1)从二代Illumina测序数据中提取高频k-mer表；

(2)使用高频k-mer表对数据进行压缩。

2.根据权利要求书1所述基因组数据压缩方法，其特征在于，在步骤(1)中，使用Jellyfish软件对二代Illumina测序数据进行k-mer统计，把频数大于一定频数值的k-mer作为高频k-mer，使用比特文件或GATB开源包，对这些高频k-mer进行存储。

3.根据权利要求书2所述基因组数据压缩方法，其特征在于，所述频数值为3。

4.根据权利要求书2所述基因组数据压缩方法，其特征在于，对于k≤17的情况，使用一个大小为2G的比特文件(*.bit)来存储高频k-mer；而对于k＞17的情况，使用GATB开源框架把高频k-mer存入文件中(*.h5)。

5.根据权利要求书1所述基因组数据压缩方法，其特征在于，所述步骤(2)包括以下步骤：

2.1在对数据进行压缩之前，读入高频k-mer表(table A)；

2.2建立一张新的k-mer表(table B)；

2.3对每条数据进行分析，方法如下：

2.3.2判断这条数据中的高频k-mer，属于table B的数量，记为b；

6.根据权利要求书5所述基因组数据压缩方法，其特征在于，所述域值为0.9。