CN105320850A

CN105320850A - 一种高通量测序数据匹配方法

Info

Publication number: CN105320850A
Application number: CN201410376285.9A
Authority: CN
Inventors: 张艺; 何飞; 马丰收; 邹晓文
Original assignee: Crystal Energy Biotechnology (shanghai) Co Ltd
Current assignee: Crystal Energy Biotechnology (shanghai) Co Ltd
Priority date: 2014-08-03
Filing date: 2014-08-03
Publication date: 2016-02-10

Abstract

本发明属于在分子生物学技术领域，本发明属于分子生物信息检测领域，具体涉及在已有高通量DNA测序数据匹配基础上，基于环境平台修正因子增加测序数据的匹配数量，以提高测序数据的利用率的一种高通量DNA测序数据匹配方法。本发明包括：获取测序数据；初步匹配高通量DNA测序数据得到匹配成功数据集和匹配失败数据集；设置基于实验平台和环境的匹配修正因子k；用基于修正因子k的模型对匹配失败集中数据重新匹配；提取测序数据匹配失败集中成功匹配数据。本发明在原有高通量DNA测序数据匹配映射基础上，通过评估匹配失败测序数据集中数据发生成功匹配的可能，进一步增加成功匹配映射的数据数量，以提高测序数据的利用率。

Description

一种高通量测序数据匹配方法

技术领域

本发明属于分子生物学技术领域以及信息技术领域，特别涉及染色质测序数据分析技术领域，具体是指一种高通量测序数据匹配方法。

背景技术

DNA测序（DNAsequencing，或译DNA定序）是指分析特定DNA片段的碱基序列，也就是腺嘌呤（A）、胸腺嘧啶（T）、胞嘧啶（C）与鸟嘌呤的（G）排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。

高通量DNA测序技术直接对靶核苷酸序列进行测序，然后通过测序结果与参考基因组序列匹配的方式找到靶核苷酸序列在DNA上的出处，从而获取相关基因的检测信息。高通量DNA测序技术大幅度地提高了基因信息的检测精度。然而，由于检测过程中存在序列匹配环节，其序列匹配环节直接影响着信息检测的最终效果。此外，高通量DNA测序技术有能力一次性地检测全基因组的基因信息，因此，高通量DNA测序技术在生物信息检测领域正得到越来越广泛的应用。但是，高通量DNA测序技术为了保证检测数据有效覆盖全基因组上的所有信息，必须产生更高通量的检测数据。因此，对高通量DNA测序技术而言，其序列匹配环节的成功率更是与信息检测效果密切相关。

由于个体间差异和测序误差的存在，当前的高通量DNA测序数据序列匹配方法，都无法将所有的高通量DNA测序数据一丝不差地通过与参考基因组序列的匹配而映射回基因组。因此，在序列匹配过程中，都允许测量序列和参考基因组中的参考序列间存在一定数量的误配。当误配过量出现时，才认为测量序列和参考序列不匹配。但是，仍有部分数据因找不到相匹配的参考序列而被放弃，影响了测序数据的利用率。

实际上，高通量DNA测序数据中测序误差的发生是有规律的，即每个测序读数中，越往后的位置，发生测序错误的概率越高；不同测序位置上，发生不同种类测序错误的概率不同。而上述规律是随着测序平台的不同，实验环境的不同而变化的。因此，针对特定的测序实验，可以设置基于实验平台和环境的修正因子，以提高测序数据的利用率。

发明内容

本发明的目的在于提供一种基于环境平台修正因子对匹配模式进行调整，以提高测序数据的匹配映射成功率和测序数据的利用率的高通量DNA测序数据匹配增强方法。本发明是通过以下方案来实现上述发明目的：

一种高通量测序数据匹配方法，其特征在于，包括如下步骤：

1）获取测序数据；

2）初步匹配高通量DNA测序数据

利用常规高通量DNA测序数据匹配方法，对测序实验获得的高通量DNA测序数据进行初步匹配，将测序数据分为匹配成功和匹配失败两个数据集合；

3）设置基于实验平台和环境的匹配修正因子k；

对于不同的实验平台和不同的实验环境，设置不同的修正因子k，用于修正匹配规则；

4）用基于修正因子k的模型对匹配失败集中数据重新匹配；

用修正因子k修正匹配规则，对匹配失败数据集中的数据进行匹配。

5）将步骤4中匹配成功的数据集合加入匹配成功数据集合中。

本发明的有益效果在于：本发明基于环境平台修正因子对匹配模式进行调整技术，在原有高通量DNA测序数据匹配映射基础上，通过评估匹配失败测序数据集中数据发生成功匹配的可能，进一步增加成功匹配映射的数据数量，以提高测序数据的利用率。具体实施方式

以下结合实施例对本发明技术方案做进一步说明，所述的实施例是对本发明的解释而不是限定。

本发明方法具体实施方式具体如下：

基于概率的一种高通量测序数据匹配方法，包括下列步骤：

1）获取测序数据；

高通量测序数据的获得，可以采用现有的各种方法（如双脱氧链终止法）,454生物科学的方法或者焦磷酸测序法来获得；

2）初步匹配高通量DNA测序数据

利用常规高通量DNA测序数据匹配方法，对测序实验获得的高通量DNA测序数据进行初步匹配，将测序数据分为匹配成功和匹配失败两个数据集合；这里的常规方法包括其中的匹配模型和参数设置均采用常规设置。

3）设置基于实验平台和环境的匹配修正因子k；

对于不同的实验平台和不同的实验环境，设置不同的修正因子k，用于修正匹配规则；这个因子可以基于各种平台的公开数据或者原先的经验数据获得。

4）用基于修正因子k的模型对匹配失败集中数据重新匹配；

5）将步骤4中匹配成功的数据集合加入匹配成功数据集合中。扩大匹配成功数据集。

本发明的有益效果在于：本发明基于环境平台修正因子对匹配模式进行调整，在原有高通量DNA测序数据匹配映射基础上，通过评估匹配失败测序数据集中数据发生成功匹配的可能，进一步增加成功匹配映射的数据数量，以提高测序数据的利用率。

Claims

1.一种高通量测序数据匹配方法，其特征在于，包括如下步骤：

1）获取测序数据；

2）初步匹配高通量DNA测序数据；

3）设置基于实验平台和环境的匹配修正因子k；

4）用基于修正因子k的模型对匹配失败集中数据重新匹配；

用修正因子k修正匹配规则，对匹配失败数据集中的数据进行匹配；