CN105243297A

CN105243297A - 一种参考基因组上基因序列片段的快速比对定位方法

Info

Publication number: CN105243297A
Application number: CN201510648108.6A
Authority: CN
Inventors: 宋卓; 李�根
Original assignee: Human And Future Biotechnology (changsha) Co Ltd
Current assignee: Human And Future Biotechnology (changsha) Co Ltd
Priority date: 2015-10-09
Filing date: 2015-10-09
Publication date: 2016-01-13

Abstract

本发明公开了一种参考基因组上基因序列片段的快速比对定位方法，步骤包括：从参考基因组上提取基因序列片段；针对每一个基因序列片段，以基因序列片段作为key部分及其目标信息作为Value部分建立键值对，将基因序列片段采用哈希函数映射确定数据库中的目标存储位置，并将键值对写入目标存储位置，完成参考基因组的建库；当需要对待匹配基因序列片段进行快速比对定位时，首先将所述待匹配基因序列片段采用哈希函数映射确定数据库中的目标存储位置，然后从目标存储位置读取匹配基因序列片段对应键值对的基因序列片段的目标信息。本发明具有时间复杂度低、比对定位速度快、定位效率高、应用范围广、能够适用于跨物种的混合快速分析的优点。

Description

一种参考基因组上基因序列片段的快速比对定位方法

技术领域

本发明涉及基因测序数据的生物信息学分析技术，具体涉及一种参考基因组上基因序列片段的快速比对定位方法。

背景技术

随着基因测序技术的发展，测序价格呈指数下降，速度甚至超过摩尔定律。伴随而来的大量测序数据为快速准确的计算分析提出了巨大挑战。分析测序数据的第一步是序列比对，即把序列片段比对定位到参考基因组上，往往需要消耗大量的计算资源与时间。比对定位序列片段正成为一个加速数据分析流程的瓶颈。

为了解决序列片段在参考基因组上的比对定位问题，人们已经发展了很多算法并开发了应用广泛的具体实现，其中比较知名的有BWA，Bowtie，SOAP等软件。现有的比对算法和对软件都是针对在参考基因组上寻找和定位序列片段的最佳比对位置而设计的。因为在比对时考虑了位点突变的容错情况，往往序列片段上的突变越多，在参考基因组上的可能比对上的位置越多，需要的计算量也越大。人类基因组上有大量组成唯一的序列片段。以36个碱基(36bp)的片段为例，30亿个碱基组成的基因组上至少有2/3的区域上的36bp的片段是唯一的。目前的比对算法和软件并不是针对这些唯一片段区域而设计的，它们解决的是一个更普遍的序列比对和定位问题，因此其算法和实现方法针对某类具体问题都存在优化空间。而对于那些不关注突变分析，只关注唯一比对片段的测序流程来说，比对方法的设计有很大的优化空间，通过重新设计，可以节省比对时间，进一步提高效率。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种时间复杂度低、比对定位速度快、定位效率高、应用范围广、能够适用于跨物种的混合快速分析的参考基因组上基因序列片段的快速比对定位方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种参考基因组上基因序列片段的快速比对定位方法，步骤包括：

1)从参考基因组上提取基因序列片段；

2)针对参考基因组上的每一个基因序列片段，以基因序列片段作为key部分、基因序列片段的目标信息作为Value部分建立键值对，将基因序列片段采用哈希函数映射确定数据库中的目标存储位置，并将键值对写入目标存储位置，最终完成参考基因组的建库；

3)当需要对待匹配基因序列片段进行快速比对定位时，首先将所述待匹配基因序列片段采用哈希函数映射查找数据库中的目标存储位置，如果查找成功，则从目标存储位置读取匹配基因序列片段对应键值对的基因序列片段的目标信息；否则返回查找失败信息。

优选地，所述步骤1)的详细步骤包括：

1.1)设定基因序列片段的长度L；

1.2)计算参考基因组上唯一的基因序列片段的位置和目标信息；

1.3)根据基因序列片段的位置分别提取基因序列片段及其目标信息。

优选地，所述步骤1.2)中唯一的基因序列片段具体是指任意两个基因序列片段之间的编辑距离大于等于设定的阈值n。

优选地，所述目标信息包括染色体、染色***置、GC含量、物种分类中的至少一种。

优选地，所述步骤2)的详细步骤包括：

2.1)从提取得到的所有基因序列片段中取出一个基因序列片段作为当前基因序列片段；

2.2)以当前基因序列片段作为key部分、当前基因序列片段的目标信息作为Value部分建立键值对(Key,Value)以描述当前基因序列片段及其目标信息之间的映射关系；

2.3)将当前基因序列片段的键值对(Key,Value)中的Key部分和Value部分进行编码，选用指定的哈希函数将当前基因序列片段映射到d个数据库中的数据库i中；

2.4)将当前基因序列片段采用哈希函数映射确定其在数据库i中的目标存储位置，并将编码后的键值对(Key,Value)写入数据库i的目标存储位置；

2.5)判断提取得到的所有基因序列片段是否已经处理完毕，如果已经处理完毕，则跳转执行步骤2.1)；否则，判定已经完成参考基因组的建库。

优选地，所述步骤2.3)中将当前基因序列片段映射到d个数据库中的数据库i中的详细步骤包括：

2.3.1)设定数据库个数d；

2.3.2)取当前基因序列片段Key部分长度为m的前缀子串，选用指定的哈希函数并采用如式(1)所示函数式计算当前基因序列片段在d个数据库中对应的数据库编号i，从而将当前基因序列片段映射到d个数据库中的数据库i中；

i＝f(Key_[1:m])％d(1)

式(1)中，i为当前基因序列片段在d个数据库中对应的数据库编号，Key_[1:m]为当前基因序列片段Key部分长度为m的前缀子串，d为预先设定的数据库个数，f为指定的哈希函数。

优选地，所述步骤3)的详细步骤包括：

3.1)当需要对待匹配基因序列片段进行快速比对定位时，首先计算待匹配基因序列片段的反向互补序列，将待匹配基因序列片段及其反向互补序列分别进行编码，然后将编码后长度为m的前缀子串选用指定的哈希函数并采用式(1)所示函数式分别计算待匹配基因序列片段及其反向互补序列在d个数据库中对应的数据库编号i；

3.2)针对待匹配基因序列片段及其反向互补序列，分别在计算得到的数据库编号i对应目标数据库中并行查找待匹配基因序列片段及其反向互补序列，如果待匹配基因序列片段及其反向互补序列两者中的任意一个在目标数据库中找到匹配记录，则将匹配键值对中的Value部分的目标信息作为比对定位的结果返回；否则待匹配基因序列片段及其反向互补序列两者在目标数据库中均未找到匹配记录，则返回查找失败信息。

优选地，所述步骤3.1)中计算待匹配基因序列片段的反向互补序列具体是指首先将待匹配基因序列片段反转，然后分别将反转后的基因序列片段中碱基A和碱基T互换、碱基C和碱基G互换，得到待匹配基因序列片段的反向互补序列。

优选地，所述步骤2.3)将当前基因序列片段的键值对(Key,Value)中的Key部分和Value部分进行编码具体是指：针对Key部分依次以00替换碱基A、以01替换碱基C、以10替换碱基G、以11替换碱基T进行编码，针对Value部分采用可变长编码；所述步骤3.1)将所述待匹配基因序列片段进行编码具体是指：依次以00替换碱基A、以01替换碱基C、以10替换碱基G、以11替换碱基T进行编码。

优选地，所述指定的哈希函数为MurmurHash函数。

本发明参考基因组上基因序列片段的快速比对定位方法具有下述优点：

1、本发明针对参考基因组上的每一个基因序列片段，以基因序列片段作为key部分、基因序列片段的目标信息作为Value部分建立键值对，将基因序列片段采用哈希函数映射确定数据库中的目标存储位置，用键值对的搜索代替比对算法，快速获得序列片段的比对结果(即是否比对上，如果比对上则可以获取其目标信息)，键值对搜索具有最低的时间复杂度，与现有序列比对方法相比，具有最快的比对定位速度，具有时间复杂度低、比对定位速度快、定位效率高的优点。

2、本发明针对参考基因组上的每一个基因序列片段，以基因序列片段作为key部分、基因序列片段的目标信息作为Value部分建立键值对，将基因序列片段采用哈希函数映射确定数据库中的目标存储位置，因此可以通过将多个基因组的唯一独特序列片段放在一起的方式，同时搜索比对多个基因组，可以将不同物种基因组上的唯一比对区域放到一起，同时在多物种基因组上比对定位序列片段，适合跨物种的混合快速分析。

3、对于大多数物种的参考基因组来说，其上的大部分区域里的片段都是独一无二的，正因为如此，本发明能够显著加速那些不关注非唯一比对序列片段的分析流程。

4、本发明以基因序列片段作为key部分、基因序列片段的目标信息作为Value部分建立键值对，基于目标信息的具体内容不同，能够应用于各类基因序列片段快速比对定位的基因分析应用中，例如CNV分析、菌种检定等，具有应用范围广的优点。

附图说明

图1为本发明实施例一中快速比对定位方法的基本流程示意图。

图2为本发明实施例一CNV分析得到的CNV分析结果示意图。

具体实施方式

实施例一：

下文以通过快速序列比对进行CNV分析(CopyNumberVariation分析/拷贝数变异分析)为例，对本发明参考基因组上基因序列片段的快速比对定位方法进行进一步的说明。

如图1所示，本实施例参考基因组上基因序列片段的快速比对定位方法的步骤包括：

1)从参考基因组上提取基因序列片段；

3)当需要对待匹配基因序列片段进行快速比对定位时，将所述待匹配基因序列片段采用哈希函数映射查找数据库中的目标存储位置，如果查找成功，则从目标存储位置读取匹配基因序列片段对应键值对的基因序列片段的目标信息；否则返回查找失败信息。

本实施例中，参考基因组来自在UCSC网站的人类基因组(版本hg19)36bp唯一基因序列片段的位置信息来自网址：

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeMapability/wgEncodeCrgMapabilityAlign36mer.bigWig

该文件为人类基因组(版本hg19)36mermappability文件，将上述文件下载后使用工具bigWigToBedGraph将bigWig文件转换为BED格式文件，BED格式文件包括四列，第1列为染色体编号，第2列为染色体起始位置(以0开始计算)，第3列为染色体终止位置(以1开始计算)，第4列为染色体起始位置至染色体终止位置(不包括终止位置)区间中每个位置开始计算的36bp序列的mappability值,mappabilit为1表示基因序列片段在基因组上唯一，本实施例中在BED格式文件中选取mappability为1的记录，并根据BED文件提供的位置信息提取出hg19参考基因组上的唯一基因序列片段，提取出的目标基因序列片段集合将作为构建数据库所使用Key的集合，各个染色体上的唯一覆盖度如表1所示。

表1：各个染色体上的唯一覆盖度数据表。

染色体	碱基数目	唯一比对碱基数目	唯一覆盖度
				1	249,250,621	171,109,348	0.69
2	243,199,373	187,599,789	0.77
				3	198,022,430	155,568,147	0.79
4	191,154,276	148,235,325	0.78
				5	180,915,260	139,351,070	0.77
6	171,115,067	132,615,985	0.78
				7	159,138,663	115,076,932	0.72
8	146,364,022	113,561,421	0.78
				9	141,213,431	85,976,834	0.61
10	135,534,747	100,580,972	0.74
				11	135,006,516	101,426,392	0.75
12	133,851,895	101,134,431	0.76
				13	115,169,878	77,517,018	0.67
14	107,349,540	68,732,800	0.64
				15	102,531,392	59,987,912	0.59
16	90,354,753	56,576,358	0.63
				17	81,195,210	55,582,856	0.68
18	78,077,248	60,876,802	0.78
				19	59,128,983	35,479,931	0.6
20	63,025,520	47,555,303	0.75
				21	48,129,895	26,757,998	0.56
22	51,304,566	24,675,505	0.48
				X	155,270,560	103,355,975	0.67
Y	59,373,566	7,016,301	0.12

参见表1，第一列为染色体编号，第二列为每个染色体包含的碱基数目，第三列为唯一基因序列片段所包含的碱基数目，第四列为唯一基因序列片段所包含的碱基数目占每个染色体碱基数目的比例，本实施例中，36bp的唯一基因序列片段总计2,176,351,405，碱基总数占参考基因组的70.3％，染色体的平均覆盖度为67.1％。

本实施例中，步骤1)的详细步骤包括：

1.1)设定基因序列片段的长度L；本实施例中，基因序列片段的长度L为36；

本实施例中，步骤1.2)中唯一的基因序列片段具体是指任意两个基因序列片段之间的编辑距离大于等于设定的阈值n，阈值n具体取值为2，此外也可以根据需要设置为其他值。

需要说明的是，目标信息具体和基因序列片段的快速比对定位应用相关，目标信息可以包括染色体、染色***置、GC含量、物种分类中的至少一种。本实施例中，目标信息具体包括：(1)基因序列片段的染色体编号{1,2,...,22,X,Y}；(2)基因序列片段在染色体上的起始位置(从0开始计算)；(3)基因序列片段的GC含量(即基因序列片段中碱基G、碱基C的总数目)。

本实施例中，步骤2)的详细步骤包括：

2.3)将当前基因序列片段的键值对(Key,Value)中的Key部分和Value部分进行编码，选用指定的哈希函数将当前基因序列片段映射到d个数据库中的数据库i(1≤i≤d)中；

本实施例中，步骤2.3)中将当前基因序列片段映射到d个数据库中的数据库i中的详细步骤包括：

2.3.1)设定数据库个数d；本实施例中数据库个数d具体取值为12；

i＝f(Key_[1:m])％d(1)

指定的哈希函数f用于实现将所有基因序列片段映射到d个数据库中，本实施例中哈希函数f具体采用MurmurHash函数，能够将所有基因序列片段均匀地映射到d个数据库中。

本实施例中，步骤3)的详细步骤包括：

3.1)当需要对待匹配基因序列片段进行快速比对定位时，首先计算待匹配基因序列片段的反向互补序列，将待匹配基因序列片段及其反向互补序列分别进行编码，然后将编码后长度为m的前缀子串选用指定的哈希函数并采用式(1)所示函数式分别计算待匹配基因序列片段及其反向互补序列在d个数据库中对应的数据库编号i(参考基因组的建库时确定的编号)；本实施例中，前缀子串m具体取值为3；

本实施例中，步骤3.1)中计算待匹配基因序列片段的反向互补序列具体是指首先将待匹配基因序列片段反转，然后分别将反转后的基因序列片段中碱基A和碱基T互换、碱基C和碱基G互换，得到待匹配基因序列片段的反向互补序列。例如，对于36位的待匹配基因序列片段AC…ACGT而言，反转后得到TGCA…CA，再进行碱基A和碱基T互换、碱基C和碱基G互换后，得到ACGT…GT。

本实施例中，步骤2.3)将当前基因序列片段的键值对中的Key部分和Value部分进行编码时，针对当前基因序列片段的键值对中的Key部分依次以00替换碱基A、以01替换碱基C、以10替换碱基G、以11替换碱基T进行编码，针对当前基因序列片段的键值对中的Value部分采用可变长编码；步骤3.1)将待匹配基因序列片段进行编码时，具体是指依次以00替换碱基A、以01替换碱基C、以10替换碱基G、以11替换碱基T进行编码；本实施例中，步骤2.3)将当前基因序列片段的键值对中的Key部分和Value部分进行编码时，编码字符采用ASCII码，编码后Key部分的长度为9，Value部分的长度介于3～6个字符之间；步骤3.1)将待匹配基因序列片段进行编码时，编码后Key部分的长度为9。步骤2.3)针对Value部分采用可变长编码时，编码的顺序依次为染色体编号、基因序列片段的GC含量、基因序列片段在染色体上的起始位置，染色体编号、基因序列片段的GC含量各占一个字符，基因序列片段在染色体上的起始位置部分采用可变长编码，即当位置位于区间[0,2⁸-1)时用一个字符编码，当位置位于区间[2⁸,2¹⁶-1)时用两个字符编码，当位置位于区间[2¹⁶,2²⁴-1)时用三个字符编码，当位置位于区间[2²⁴,2³²-1)时用四个字符编码，从而能够节约存储空间的占用。

本实施例中，待匹配基因序列片段数据集为真实人类血液样本的测序结果，测序片段长度为36bp，序列片段的数目为4,929,709，用本发明方法进行快速序列比对定位并统计比对结果如下表2所示。

表2：各个染色体上的序列数据表。

染色体	比对序列数目	唯一比对序列数目	唯一比对序列GC含量
				1	279880	277196	0.40525
2	299817	296786	0.390581
				3	248322	245823	0.385119
4	234336	231968	0.369009
				5	220284	218086	0.383703
6	213813	211737	0.384034
				7	185199	183429	0.392871

8	180296	178557	0.389799
				9	137702	136404	0.403912
10	164105	162531	0.404724
				11	161240	159706	0.407018
12	163420	161837	0.394989
				13	122829	121550	0.372917
14	110550	109441	0.397038
				15	99286	98357	0.409776
16	91390	90550	0.437317
				17	91902	91116	0.444336
18	95782	94852	0.387118
				19	57913	57502	0.477258
20	76343	75659	0.432834
				21	44167	43733	0.402295
22	40754	40440	0.47358
				X	164658	163060	0.382272
Y	481	476	0.394771

参见表2，第一列为染色体编号，第二列为匹配数据库基因序列片段的数目，第三列为匹配数据库中基因序列片段中唯一基因序列片段的数目，第四列为匹配数据库基因序列片段中唯一基因序列片段的GC含量，具体是指匹配数据库基因序列片段中碱基C和G所占的比例。本实施例中匹配数据库的基因序列片段有3,484,469条，唯一匹配的基因序列片段有3,450,796条，唯一匹配基因序列片段占待匹配基因序列片段总数目的比例为70％，与表1中所述的唯一基因序列片段碱基数目占参考基因组总碱基数目的比例一致。

在得到表2的基础上，标准化比对到各染色体的序列并进行GC校正和mappability校正，选取正常的样本做参照分析染色体拷贝数变异，最终在2号染色体q(Chr2)端准确发现已知CNV突变，CNV分析结果如附图2所示。参见图2，x坐标为2号染色体上以5K距离间隔滑动的60K窗口的位置；y坐标为log2ratio，log2ratio显著偏离0，表示本实施例样本在对应染色***置存在拷贝数变异。y坐标log2ratio的具体计算方法如式(2)所示；

l o g 2 r a t i o = \log_{2} \frac{x_{60 K}}{{\overset{&OverBar;}{x}}_{60 K}} - - - (2)

式(2)中，x_60K为本实施例样本数据中对唯一比对到2号染色体每一个60K窗口内的基因序列片段数目作标准化后的值，为正常样本数据中对唯一比对到2号染色体每一个60K窗口内的基因序列片段数目作标准化后的均值。

以本实施例36bp序列为例，快速比对算法的比对效率为1Million序列/s，与传统的基于BWT的通用型比对软件相比，省掉了耗时的SmithWaterman比对过程，比对效率大幅提高。

实施例二：

除了进行CNV分析以外，本发明参考基因组上基因序列片段的快速比对定位方法还可以用于进行菌种鉴定。本实施例中，参考基因组为跨物种参考基因组，步骤2)进行参考基因组的建库时，参考基因组为在NCBIRefSeq数据库中(http://www.ncbi.nlm.nih.gov/refseq/)下载的人参考基因组和所有细菌、病毒基因组序列。用gem-mappability软件计算(人、细菌、病毒)参考序列31mer的mappability图谱，从中选取mappability为1的唯一序列片段；在NCBI物种分类数据库(http://www.ncbi.nlm.nih.gov/taxonomy)下载物种的详细分类信息。针对参考基因组上的每一个基因序列片段，以基因序列片段作为key部分、基因序列片段的目标信息(物种分类)作为Value部分建立键值对，将基因序列片段采用哈希函数映射确定数据库中的目标存储位置，并将键值对写入目标存储位置，最终完成参考基因组的建库。在HMP网站(http://hmpdacc.org/)下载正常人粪便样本的测序数据来分析人类肠道微生物的组成，针对其中的待匹配基因序列片段使用步骤3)进行快速序列比对分析在属水平上的微生物组成，最终得到的结果如表3所示。

表3：微生物组成分析结果数据表。

属	分类序列数目	标准化分类序列数目	百分比
				Bacteroides	3345216	153556.7	15.36
Eubacterium	1597681	73338.94	7.33
				Roseburia	224359	10298.83	1.03
Alistipes	197067	9046.04	0.9
				Odoribacter	174594	8014.45	0.8
Others	505842	23219.85	2.32

参见表3，第一列为属水平的微生物名称，第二列为比对到相应微生物属水平的基因序列片段的数目，第三列为每1,000,000序列片段中比对到相应微生物属水平的序列片段的数目，第四列为标准化后的分类序列数目占1,000,000序列片段的百分比，用来衡量样本中微生物的丰度，该值越高表明样本中对应微生物的组成比例越高。最终，根据定位到不同菌种的唯一序列片段来判断所分析样本中的菌种丰度，该分析结果与HMP网站给出的分析结果一致。本实施例参考基因组上基因序列片段的快速比对定位方法可针对各种具体的应用对参考基因组、目标信息进行高度化定制，灵活多变；对参考基因组的定制和简化极大提高了序列比对的效率；本实施例参考基因组上基因序列片段的快速比对定位方法在加速比对分析的同时，并未牺牲分析准确性，极其适用于大规模海量数据分析和对实时性要求较高的应用场景，应用前景广阔。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种参考基因组上基因序列片段的快速比对定位方法，其特征在于步骤包括：

1)从参考基因组上提取基因序列片段；

2.根据权利要求1所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述步骤1)的详细步骤包括：

1.1)设定基因序列片段的长度L；

3.根据权利要求2所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述步骤1.2)中唯一的基因序列片段具体是指任意两个基因序列片段之间的编辑距离大于等于设定的阈值n。

4.根据权利要求3所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述目标信息包括染色体、染色***置、GC含量、物种分类中的至少一种。

5.根据权利要求1～4中任意一项所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述步骤2)的详细步骤包括：

6.根据权利要求5所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述步骤2.3)中将当前基因序列片段映射到d个数据库中的数据库i中的详细步骤包括：

2.3.1)设定数据库个数d；

i＝f(Key_[1:m])％d(1)

7.根据权利要求6所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述步骤3)的详细步骤包括：

8.根据权利要求7所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述步骤3.1)中计算待匹配基因序列片段的反向互补序列具体是指首先将待匹配基因序列片段反转，然后分别将反转后的基因序列片段中碱基A和碱基T互换、碱基C和碱基G互换，得到待匹配基因序列片段的反向互补序列。

9.根据权利要求8所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述步骤2.3)将当前基因序列片段的键值对(Key,Value)中的Key部分和Value部分进行编码具体是指：针对Key部分依次以00替换碱基A、以01替换碱基C、以10替换碱基G、以11替换碱基T进行编码，针对Value部分采用可变长编码；所述步骤3.1)将所述待匹配基因序列片段进行编码具体是指：依次以00替换碱基A、以01替换碱基C、以10替换碱基G、以11替换碱基T进行编码。

10.根据权利要求9所述的参考基因组上基因序列片段的快速比对定位方法，其特征在于，所述指定的哈希函数为MurmurHash函数。