CN105320850A - 一种高通量测序数据匹配方法 - Google Patents
一种高通量测序数据匹配方法 Download PDFInfo
- Publication number
- CN105320850A CN105320850A CN201410376285.9A CN201410376285A CN105320850A CN 105320850 A CN105320850 A CN 105320850A CN 201410376285 A CN201410376285 A CN 201410376285A CN 105320850 A CN105320850 A CN 105320850A
- Authority
- CN
- China
- Prior art keywords
- data
- matching
- sequencing data
- match
- dna sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于在分子生物学技术领域,本发明属于分子生物信息检测领域,具体涉及在已有高通量DNA测序数据匹配基础上,基于环境平台修正因子增加测序数据的匹配数量,以提高测序数据的利用率的一种高通量DNA测序数据匹配方法。本发明包括:获取测序数据;初步匹配高通量DNA测序数据得到匹配成功数据集和匹配失败数据集;设置基于实验平台和环境的匹配修正因子k;用基于修正因子k的模型对匹配失败集中数据重新匹配;提取测序数据匹配失败集中成功匹配数据。本发明在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。
Description
技术领域
本发明属于分子生物学技术领域以及信息技术领域,特别涉及染色质测序数据分析技术领域,具体是指一种高通量测序数据匹配方法。
背景技术
DNA测序(DNAsequencing,或译DNA定序)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。
高通量DNA测序技术直接对靶核苷酸序列进行测序,然后通过测序结果与参考基因组序列匹配的方式找到靶核苷酸序列在DNA上的出处,从而获取相关基因的检测信息。高通量DNA测序技术大幅度地提高了基因信息的检测精度。然而,由于检测过程中存在序列匹配环节,其序列匹配环节直接影响着信息检测的最终效果。此外,高通量DNA测序技术有能力一次性地检测全基因组的基因信息,因此,高通量DNA测序技术在生物信息检测领域正得到越来越广泛的应用。但是,高通量DNA测序技术为了保证检测数据有效覆盖全基因组上的所有信息,必须产生更高通量的检测数据。因此,对高通量DNA测序技术而言,其序列匹配环节的成功率更是与信息检测效果密切相关。
由于个体间差异和测序误差的存在,当前的高通量DNA测序数据序列匹配方法,都无法将所有的高通量DNA测序数据一丝不差地通过与参考基因组序列的匹配而映射回基因组。因此,在序列匹配过程中,都允许测量序列和参考基因组中的参考序列间存在一定数量的误配。当误配过量出现时,才认为测量序列和参考序列不匹配。但是,仍有部分数据因找不到相匹配的参考序列而被放弃,影响了测序数据的利用率。
实际上,高通量DNA测序数据中测序误差的发生是有规律的,即每个测序读数中,越往后的位置,发生测序错误的概率越高;不同测序位置上,发生不同种类测序错误的概率不同。而上述规律是随着测序平台的不同,实验环境的不同而变化的。因此,针对特定的测序实验,可以设置基于实验平台和环境的修正因子,以提高测序数据的利用率。
发明内容
本发明的目的在于提供一种基于环境平台修正因子对匹配模式进行调整,以提高测序数据的匹配映射成功率和测序数据的利用率的高通量DNA测序数据匹配增强方法。本发明是通过以下方案来实现上述发明目的:
一种高通量测序数据匹配方法,其特征在于,包括如下步骤:
1)获取测序数据;
2)初步匹配高通量DNA测序数据
利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;
3)设置基于实验平台和环境的匹配修正因子k;
对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;
4)用基于修正因子k的模型对匹配失败集中数据重新匹配;
用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配。
5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。
本发明的有益效果在于:本发明基于环境平台修正因子对匹配模式进行调整技术,在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。具体实施方式
以下结合实施例对本发明技术方案做进一步说明,所述的实施例是对本发明的解释而不是限定。
本发明方法具体实施方式具体如下:
基于概率的一种高通量测序数据匹配方法,包括下列步骤:
1)获取测序数据;
高通量测序数据的获得,可以采用现有的各种方法(如双脱氧链终止法),454生物科学的方法或者焦磷酸测序法来获得;
2)初步匹配高通量DNA测序数据
利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;这里的常规方法包括其中的匹配模型和参数设置均采用常规设置。
3)设置基于实验平台和环境的匹配修正因子k;
对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;这个因子可以基于各种平台的公开数据或者原先的经验数据获得。
4)用基于修正因子k的模型对匹配失败集中数据重新匹配;
用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配。
5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。扩大匹配成功数据集。
本发明的有益效果在于:本发明基于环境平台修正因子对匹配模式进行调整,在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。
Claims (1)
1.一种高通量测序数据匹配方法,其特征在于,包括如下步骤:
1)获取测序数据;
2)初步匹配高通量DNA测序数据;
利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;
3)设置基于实验平台和环境的匹配修正因子k;
对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;
4)用基于修正因子k的模型对匹配失败集中数据重新匹配;
用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配;
5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410376285.9A CN105320850A (zh) | 2014-08-03 | 2014-08-03 | 一种高通量测序数据匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410376285.9A CN105320850A (zh) | 2014-08-03 | 2014-08-03 | 一种高通量测序数据匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105320850A true CN105320850A (zh) | 2016-02-10 |
Family
ID=55248225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410376285.9A Pending CN105320850A (zh) | 2014-08-03 | 2014-08-03 | 一种高通量测序数据匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320850A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650308A (zh) * | 2016-11-07 | 2017-05-10 | 为朔医学数据科技(北京)有限公司 | 一种线粒体高通量测序数据处理方法及*** |
CN106778072A (zh) * | 2016-12-30 | 2017-05-31 | 西安交通大学 | 针对第二代肿瘤基因组高通量测序数据的流程校正方法 |
CN107153776A (zh) * | 2017-03-30 | 2017-09-12 | 深圳市早知道科技有限公司 | 一种y单倍群检测方法 |
-
2014
- 2014-08-03 CN CN201410376285.9A patent/CN105320850A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650308A (zh) * | 2016-11-07 | 2017-05-10 | 为朔医学数据科技(北京)有限公司 | 一种线粒体高通量测序数据处理方法及*** |
CN106778072A (zh) * | 2016-12-30 | 2017-05-31 | 西安交通大学 | 针对第二代肿瘤基因组高通量测序数据的流程校正方法 |
CN106778072B (zh) * | 2016-12-30 | 2019-05-21 | 西安交通大学 | 针对第二代肿瘤基因组高通量测序数据的流程校正方法 |
CN107153776A (zh) * | 2017-03-30 | 2017-09-12 | 深圳市早知道科技有限公司 | 一种y单倍群检测方法 |
CN107153776B (zh) * | 2017-03-30 | 2020-05-12 | 深圳市早知道科技有限公司 | 一种y单倍群检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240120021A1 (en) | Methods and systems for large scale scaffolding of genome assemblies | |
Song et al. | Capturing the phylogeny of Holometabola with mitochondrial genome data and Bayesian site-heterogeneous mixture models | |
Landan et al. | Local reliability measures from sets of co-optimal multiple sequence alignments | |
El-Metwally et al. | Next generation sequencing technologies and challenges in sequence assembly | |
Hansen et al. | BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions | |
García-López et al. | Fragmentation and coverage variation in viral metagenome assemblies, and their effect in diversity calculations | |
CN107944225B (zh) | 基因高通量测序数据突变检测方法 | |
Karamichalis et al. | An investigation into inter-and intragenomic variations of graphic genomic signatures | |
CN105320850A (zh) | 一种高通量测序数据匹配方法 | |
Kremer et al. | Approaches for in silico finishing of microbial genome sequences | |
KR20130047382A (ko) | Ngs를 위한 서열 재조합 방법 및 장치 | |
Haimovich | Methods, challenges, and promise of next-generation sequencing in cancer biology | |
Katz et al. | SummonChimera infers integrated viral genomes with nucleotide precision from NGS data | |
Coutinho et al. | Homology-independent metrics for comparative genomics | |
Koh et al. | EBprot: Statistical analysis of labeling‐based quantitative proteomics data | |
Lupo et al. | Pairing interacting protein sequences using masked language modeling | |
Muralidharan et al. | Detecting mutations in mixed sample sequencing data using empirical Bayes | |
Miller | Assembling full-length rRNA genes from short-read metagenomic sequence datasets using EMIRGE | |
US11808701B2 (en) | Systems and methods for identifying sequence information from single nucleic acid molecule measurements | |
Cruz et al. | Identification and annotation of noncoding RNAs in Saccharomycotina | |
Amrine et al. | tRNA signatures reveal a polyphyletic origin of SAR11 strains among alphaproteobacteria | |
CN103810404A (zh) | 基于贝叶斯的高通量dna测序数据匹配增强方法 | |
Harris et al. | Whole-genome sequencing for rapid and accurate identification of bacterial transmission pathways | |
McHardy et al. | Finding Genes in Genome Sequence | |
Wang et al. | FineFDR: Fine-grained Taxonomy-specific False Discovery Rates Control in Metaproteomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160210 |
|
WD01 | Invention patent application deemed withdrawn after publication |