CN105320850A - 一种高通量测序数据匹配方法 - Google Patents

一种高通量测序数据匹配方法 Download PDF

Info

Publication number
CN105320850A
CN105320850A CN201410376285.9A CN201410376285A CN105320850A CN 105320850 A CN105320850 A CN 105320850A CN 201410376285 A CN201410376285 A CN 201410376285A CN 105320850 A CN105320850 A CN 105320850A
Authority
CN
China
Prior art keywords
data
matching
sequencing data
match
dna sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410376285.9A
Other languages
English (en)
Inventor
张艺
何飞
马丰收
邹晓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crystal Energy Biotechnology (shanghai) Co Ltd
Original Assignee
Crystal Energy Biotechnology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crystal Energy Biotechnology (shanghai) Co Ltd filed Critical Crystal Energy Biotechnology (shanghai) Co Ltd
Priority to CN201410376285.9A priority Critical patent/CN105320850A/zh
Publication of CN105320850A publication Critical patent/CN105320850A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于在分子生物学技术领域,本发明属于分子生物信息检测领域,具体涉及在已有高通量DNA测序数据匹配基础上,基于环境平台修正因子增加测序数据的匹配数量,以提高测序数据的利用率的一种高通量DNA测序数据匹配方法。本发明包括:获取测序数据;初步匹配高通量DNA测序数据得到匹配成功数据集和匹配失败数据集;设置基于实验平台和环境的匹配修正因子k;用基于修正因子k的模型对匹配失败集中数据重新匹配;提取测序数据匹配失败集中成功匹配数据。本发明在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。

Description

一种高通量测序数据匹配方法
技术领域
本发明属于分子生物学技术领域以及信息技术领域,特别涉及染色质测序数据分析技术领域,具体是指一种高通量测序数据匹配方法。
背景技术
DNA测序(DNAsequencing,或译DNA定序)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。
高通量DNA测序技术直接对靶核苷酸序列进行测序,然后通过测序结果与参考基因组序列匹配的方式找到靶核苷酸序列在DNA上的出处,从而获取相关基因的检测信息。高通量DNA测序技术大幅度地提高了基因信息的检测精度。然而,由于检测过程中存在序列匹配环节,其序列匹配环节直接影响着信息检测的最终效果。此外,高通量DNA测序技术有能力一次性地检测全基因组的基因信息,因此,高通量DNA测序技术在生物信息检测领域正得到越来越广泛的应用。但是,高通量DNA测序技术为了保证检测数据有效覆盖全基因组上的所有信息,必须产生更高通量的检测数据。因此,对高通量DNA测序技术而言,其序列匹配环节的成功率更是与信息检测效果密切相关。
由于个体间差异和测序误差的存在,当前的高通量DNA测序数据序列匹配方法,都无法将所有的高通量DNA测序数据一丝不差地通过与参考基因组序列的匹配而映射回基因组。因此,在序列匹配过程中,都允许测量序列和参考基因组中的参考序列间存在一定数量的误配。当误配过量出现时,才认为测量序列和参考序列不匹配。但是,仍有部分数据因找不到相匹配的参考序列而被放弃,影响了测序数据的利用率。
实际上,高通量DNA测序数据中测序误差的发生是有规律的,即每个测序读数中,越往后的位置,发生测序错误的概率越高;不同测序位置上,发生不同种类测序错误的概率不同。而上述规律是随着测序平台的不同,实验环境的不同而变化的。因此,针对特定的测序实验,可以设置基于实验平台和环境的修正因子,以提高测序数据的利用率。
发明内容
本发明的目的在于提供一种基于环境平台修正因子对匹配模式进行调整,以提高测序数据的匹配映射成功率和测序数据的利用率的高通量DNA测序数据匹配增强方法。本发明是通过以下方案来实现上述发明目的:
一种高通量测序数据匹配方法,其特征在于,包括如下步骤:
1)获取测序数据;
2)初步匹配高通量DNA测序数据
利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;
3)设置基于实验平台和环境的匹配修正因子k;
对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;
4)用基于修正因子k的模型对匹配失败集中数据重新匹配;
用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配。
5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。
本发明的有益效果在于:本发明基于环境平台修正因子对匹配模式进行调整技术,在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。具体实施方式
以下结合实施例对本发明技术方案做进一步说明,所述的实施例是对本发明的解释而不是限定。
本发明方法具体实施方式具体如下:
基于概率的一种高通量测序数据匹配方法,包括下列步骤:
1)获取测序数据;
高通量测序数据的获得,可以采用现有的各种方法(如双脱氧链终止法),454生物科学的方法或者焦磷酸测序法来获得;
2)初步匹配高通量DNA测序数据
利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;这里的常规方法包括其中的匹配模型和参数设置均采用常规设置。
3)设置基于实验平台和环境的匹配修正因子k;
对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;这个因子可以基于各种平台的公开数据或者原先的经验数据获得。
4)用基于修正因子k的模型对匹配失败集中数据重新匹配;
用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配。
5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。扩大匹配成功数据集。
本发明的有益效果在于:本发明基于环境平台修正因子对匹配模式进行调整,在原有高通量DNA测序数据匹配映射基础上,通过评估匹配失败测序数据集中数据发生成功匹配的可能,进一步增加成功匹配映射的数据数量,以提高测序数据的利用率。

Claims (1)

1.一种高通量测序数据匹配方法,其特征在于,包括如下步骤:
1)获取测序数据;
2)初步匹配高通量DNA测序数据;
利用常规高通量DNA测序数据匹配方法,对测序实验获得的高通量DNA测序数据进行初步匹配,将测序数据分为匹配成功和匹配失败两个数据集合;
3)设置基于实验平台和环境的匹配修正因子k;
对于不同的实验平台和不同的实验环境,设置不同的修正因子k,用于修正匹配规则;
4)用基于修正因子k的模型对匹配失败集中数据重新匹配;
用修正因子k修正匹配规则,对匹配失败数据集中的数据进行匹配;
5)将步骤4中匹配成功的数据集合加入匹配成功数据集合中。
CN201410376285.9A 2014-08-03 2014-08-03 一种高通量测序数据匹配方法 Pending CN105320850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410376285.9A CN105320850A (zh) 2014-08-03 2014-08-03 一种高通量测序数据匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410376285.9A CN105320850A (zh) 2014-08-03 2014-08-03 一种高通量测序数据匹配方法

Publications (1)

Publication Number Publication Date
CN105320850A true CN105320850A (zh) 2016-02-10

Family

ID=55248225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410376285.9A Pending CN105320850A (zh) 2014-08-03 2014-08-03 一种高通量测序数据匹配方法

Country Status (1)

Country Link
CN (1) CN105320850A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650308A (zh) * 2016-11-07 2017-05-10 为朔医学数据科技(北京)有限公司 一种线粒体高通量测序数据处理方法及***
CN106778072A (zh) * 2016-12-30 2017-05-31 西安交通大学 针对第二代肿瘤基因组高通量测序数据的流程校正方法
CN107153776A (zh) * 2017-03-30 2017-09-12 深圳市早知道科技有限公司 一种y单倍群检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650308A (zh) * 2016-11-07 2017-05-10 为朔医学数据科技(北京)有限公司 一种线粒体高通量测序数据处理方法及***
CN106778072A (zh) * 2016-12-30 2017-05-31 西安交通大学 针对第二代肿瘤基因组高通量测序数据的流程校正方法
CN106778072B (zh) * 2016-12-30 2019-05-21 西安交通大学 针对第二代肿瘤基因组高通量测序数据的流程校正方法
CN107153776A (zh) * 2017-03-30 2017-09-12 深圳市早知道科技有限公司 一种y单倍群检测方法
CN107153776B (zh) * 2017-03-30 2020-05-12 深圳市早知道科技有限公司 一种y单倍群检测方法

Similar Documents

Publication Publication Date Title
US20240120021A1 (en) Methods and systems for large scale scaffolding of genome assemblies
Song et al. Capturing the phylogeny of Holometabola with mitochondrial genome data and Bayesian site-heterogeneous mixture models
Landan et al. Local reliability measures from sets of co-optimal multiple sequence alignments
El-Metwally et al. Next generation sequencing technologies and challenges in sequence assembly
Hansen et al. BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions
García-López et al. Fragmentation and coverage variation in viral metagenome assemblies, and their effect in diversity calculations
CN107944225B (zh) 基因高通量测序数据突变检测方法
Karamichalis et al. An investigation into inter-and intragenomic variations of graphic genomic signatures
CN105320850A (zh) 一种高通量测序数据匹配方法
Kremer et al. Approaches for in silico finishing of microbial genome sequences
KR20130047382A (ko) Ngs를 위한 서열 재조합 방법 및 장치
Haimovich Methods, challenges, and promise of next-generation sequencing in cancer biology
Katz et al. SummonChimera infers integrated viral genomes with nucleotide precision from NGS data
Coutinho et al. Homology-independent metrics for comparative genomics
Koh et al. EBprot: Statistical analysis of labeling‐based quantitative proteomics data
Lupo et al. Pairing interacting protein sequences using masked language modeling
Muralidharan et al. Detecting mutations in mixed sample sequencing data using empirical Bayes
Miller Assembling full-length rRNA genes from short-read metagenomic sequence datasets using EMIRGE
US11808701B2 (en) Systems and methods for identifying sequence information from single nucleic acid molecule measurements
Cruz et al. Identification and annotation of noncoding RNAs in Saccharomycotina
Amrine et al. tRNA signatures reveal a polyphyletic origin of SAR11 strains among alphaproteobacteria
CN103810404A (zh) 基于贝叶斯的高通量dna测序数据匹配增强方法
Harris et al. Whole-genome sequencing for rapid and accurate identification of bacterial transmission pathways
McHardy et al. Finding Genes in Genome Sequence
Wang et al. FineFDR: Fine-grained Taxonomy-specific False Discovery Rates Control in Metaproteomics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160210

WD01 Invention patent application deemed withdrawn after publication