CN107944225B - 基因高通量测序数据突变检测方法 - Google Patents

基因高通量测序数据突变检测方法 Download PDF

Info

Publication number
CN107944225B
CN107944225B CN201711214506.2A CN201711214506A CN107944225B CN 107944225 B CN107944225 B CN 107944225B CN 201711214506 A CN201711214506 A CN 201711214506A CN 107944225 B CN107944225 B CN 107944225B
Authority
CN
China
Prior art keywords
gene
sequence
sam
format file
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711214506.2A
Other languages
English (en)
Other versions
CN107944225A (zh
Inventor
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huisuan gene technology (Shanghai) Co.,Ltd.
Original Assignee
Smartquerier Biomedicine Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smartquerier Biomedicine Shanghai Co ltd filed Critical Smartquerier Biomedicine Shanghai Co ltd
Priority to CN201711214506.2A priority Critical patent/CN107944225B/zh
Publication of CN107944225A publication Critical patent/CN107944225A/zh
Application granted granted Critical
Publication of CN107944225B publication Critical patent/CN107944225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基因高通量测序数据突变检测方法,包括步骤:S1:获取一基因样本的高通量测序数据;S2:生成所述基因样本的高通量测序数据的各基因序列的位置信息标签;S3:根据所述位置信息标签将各所述基因序列分组并计算获得一突变总量;S4:将所述突变总量代入一背景模型输出突变检测结果。本发明的一种基因高通量测序数据突变检测方法,采用虚拟分子标签与背景数据库结合的方法降低噪音,提高检测的特异性和敏感性,可在不增加实验成本的前提下能有效的降低实验中的随机误差,结合背景数据库对***误差的校正,可以达到准确鉴定低丰度突变的目的。

Description

基因高通量测序数据突变检测方法
技术领域
本发明涉及基因检测技术领域,尤其涉及一种基因高通量测序数据突变检测方法。
背景技术
在过去的肿瘤基因突变检测的临床与科研应用中我们通常只关注肿瘤组织中高丰度基因突变的情况。低丰度突变由于突变核酸含量低,在测序覆盖度较低的情况下极易出现漏检或与假阳性的情况。但在某些应用场景下,例如通过液态活检的方式检测血液中的低丰度肿瘤突变核酸,需要准确的检测出低丰度的突变。通过高通量测序靶向捕获或扩增技术结合高深度的测序,可以提高重要肿瘤突变位点的测序覆盖度,提高检测的灵敏度。但是由于高通量测序中天然存在的噪音,仅从实验角度仍然很难将真实突变和噪音点区分开来,必须通过算法建立降噪和突变检测的模型解决上述问题。
现有方案中采用健康人的测序数据作为背景值,通过正态分布拟合确定每个位点的背景噪音阈值,从而区分真阳性点和噪音。但是此种方案存在以下几个问题:1.高通量测序实验及数据产生存在批次效应,通过健康人的测序数据建立的背景模型能够去除测序***本身存在的***误差,但是对于每次实验中随机产生的实验误差无法有效去除;2.建立健康人群的背景数据需要测定大量位点的大样本量的数据,所需成本较高,对于背景数据库中暂未覆盖的位点无法起到降低噪音的作用。
发明内容
针对上述现有技术中的不足,本发明提供一种基因高通量测序数据突变检测方法,采用虚拟分子标签与背景数据库结合的方法降低噪音,提高检测的特异性和敏感性,可在不增加实验成本的前提下能有效的降低实验中的随机误差,结合背景数据库对***误差的校正,可以达到准确鉴定低丰度突变的目的。
为了实现上述目的,本发明提供一种基因高通量测序数据突变检测方法,包括步骤:
S1:获取一基因样本的高通量测序数据;
S2:生成所述基因样本的高通量测序数据的各基因序列的位置信息标签;
S3:根据所述位置信息标签将各所述基因序列分组并计算获得一突变总量;
S4:将所述突变总量代入一背景模型输出突变检测结果。
优选地,所述S2步骤进一步包括步骤:
S21:通过一序列对比算法将所述各基因序列对比到一参考基因组,形成各所述基因序列的比对信息;
S22:将所述比对信息存储于一SAM/BAM格式文件中;
S23:根据所述SAM/BAM格式文件判断各所述基因序列的序列来源的模板链Ti,1≤i≤n,n为所述基因序列个数;
S24:根据所述序列来源的模板链Ti和所述SAM/BAM格式文件生成各所述基因序列的位置信息标签。
优选地,所述S23步骤进一步包括步骤:
自所述SAM/BAM格式文件中提取每一条所述基因序列的一第一比对起始位置Pi、一同片段对比序列的一第二对比起始位置Qi、正负链信息Si和所述基因序列的序列号Ri;
当所述基因序列的序列号Ri等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si等于所述SAM/BAM格式文件的foward位置的数值时,或所述基因序列的序列号Ri不等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si不等于所述SAM/BAM格式文件的foward位置的数值时,所述序列来源的模板链Ti为正;
当所述基因序列的序列号Ri等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si不等于所述SAM/BAM格式文件的foward位置的数值时,或所述基因序列的序列号Ri不等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si等于所述SAM/BAM格式文件的foward位置的数值时,所述序列来源的模板链Ti为负。
优选地,所述位置信息标签表示为(Pi,Qi,Ti)。
优选地,所述S3步骤进一步包括步骤:
S31:将所述位置信息标签一致的所述基因序列分至同一基因组;
S32:统计所述基因组中各所述基因序列与所述参考基因组一目标基因位置gi对应的一当前基因位置为突变型基因型且碱基质量q>30的所述基因序列的突变数vj,j为大于等于1的自然数;
如vj>0,记录所述当前基因位置碱基质量q>30的所述基因序列个数nj
如vj<f*nj,则vj=0,其中f为预设的最低碱基一致性比例值;
S33:重复步骤S32获得各所述目标基因位置的突变数vj,并根据所述突变数计算一突变总数
Figure BDA0001485243240000032
其中
Figure BDA0001485243240000033
Figure BDA0001485243240000034
时,保留
Figure BDA0001485243240000035
的数值并继续后续步骤;
Figure BDA0001485243240000036
时,将
Figure BDA0001485243240000037
的数值清零并继续后续步骤。
优选地,所述S4步骤进一步包括步骤:
S41:建立一背景模型,所述背景模型的公式为:
Figure BDA0001485243240000031
其中,Pgi为累积分布频率,γ为第一拟合参数,δ为第二拟合参数,ε为第三拟合参数,λ为第四拟合参数;
根据多个样本数据的拟合获得所述第一拟合参数、所述第二拟合参数、所述第三拟合参数和所述第四拟合参数;
S42:将所述突变总量代入所述背景模型,计算所述累积分布频率;
S43:当所述累积分布频率数值大于0.95时,判定与当前所述位置信息标签对应的一基因位点为阳性位点。
优选地,所述样本数据的个数大于等于1000。
本发明由于采用了以上技术方案,使其具有以下有益效果:
1、在不增加实验步骤和成本的前提下去除高通量测序中的随机噪音。
2、通过对去除随机噪音后的健康人测序数据进行建模,建立了用来判别阳性突变位点的计算模型。
最终,可以在不改变现有实验体系的前提下明显提高低丰度变异检出的敏感性和特异性。
附图说明
图1为本发明实施例的基因高通量测序数据突变检测方法的流程图。
具体实施方式
下面根据附图1,给出本发明的较佳实施例,并予以详细描述,使能更好地理解本发明的功能、特点。
请参阅图1,本发明实施例的一种基因高通量测序数据突变检测方法,包括步骤:
S1:获取一基因样本的高通量测序数据。
S2:生成基因样本的高通量测序数据的各基因序列的位置信息标签。
其中,S2步骤进一步包括步骤:
S21:通过一序列对比算法将各基因序列对比到一参考基因组,形成各基因序列的比对信息;序列对比算法可采用现有的任意序列对比算法,对其不做具体限制;比对信息包括第一比对起始位置信息、第二对比起始位置信息、碱基质量信息、正负链信息和基因序列的序列号信息等;
S22:将比对信息存储于一SAM/BAM格式文件中;
S23:根据SAM/BAM格式文件判断各基因序列的序列来源的模板链Ti,1≤i≤n,n为基因序列个数;
S24:根据序列来源的模板链Ti和SAM/BAM格式文件生成各基因序列的位置信息标签。
其中,S23步骤进一步包括步骤:
自SAM/BAM格式文件中提取每一条基因序列的一第一比对起始位置Pi、一同片段对比序列的一第二对比起始位置Qi、正负链信息Si和基因序列的序列号Ri;序列来源的模板链Ti的逻辑关系式可表示为:
Figure BDA0001485243240000051
当基因序列的序列号Ri等于SAM/BAM格式文件的read1位置的数值且正负链信息Si等于SAM/BAM格式文件的foward位置的数值时,或基因序列的序列号Ri不等于SAM/BAM格式文件的read1位置的数值且正负链信息Si不等于SAM/BAM格式文件的foward位置的数值时,序列来源的模板链Ti为正;
当基因序列的序列号Ri等于SAM/BAM格式文件的read1位置的数值且正负链信息Si不等于SAM/BAM格式文件的foward位置的数值时,或基因序列的序列号Ri不等于SAM/BAM格式文件的read1位置的数值且正负链信息Si等于SAM/BAM格式文件的foward位置的数值时,序列来源的模板链Ti为负。
本实施例中,位置信息标签表示为(Pi,Qi,Ti)。该三元组能够唯一标识来自于统一模板核酸的所有序列,并且能够区分模板的正义链和反义链。
S3:根据位置信息标签将各基因序列分组并计算获得一突变总量。
其中,S3步骤进一步包括步骤:
S31:将位置信息标签一致的基因序列分至同一基因组;
S32:统计基因组中各基因序列与参考基因组一目标基因位置gi对应的一当前基因位置为突变型基因型且碱基质量q>30的基因序列的突变数vj,j为大于等于1的自然数;
如vj>0,记录当前基因位置碱基质量q>30的基因序列个数nj
如vj<f*nj,则vj=0,其中f为预设的最低碱基一致性比例值;
S33:重复步骤S32获得各目标基因位置的突变数vj,并根据突变数计算一突变总数
Figure BDA0001485243240000052
其中
Figure BDA0001485243240000053
Figure BDA0001485243240000054
时,保留
Figure BDA0001485243240000055
的数值并继续后续步骤;
Figure BDA0001485243240000056
时,将
Figure BDA0001485243240000057
的数值清零并继续后续步骤。
S4:将突变总量代入一背景模型输出突变检测结果。
其中,S4步骤进一步包括步骤:
S41:建立一背景模型,背景模型的公式为:
Figure BDA0001485243240000061
其中,Pgi为累积分布频率,γ为第一拟合参数,δ为第二拟合参数,ε为第三拟合参数,λ为第四拟合参数;
根据1000多个样本数据的拟合获得第一拟合参数、第二拟合参数、第三拟合参数和第四拟合参数;
S42:将突变总量代入背景模型,计算累积分布频率;
S43:当累积分布频率数值大于0.95时,判定与当前位置信息标签对应的一基因位点为阳性位点。
本发明实施例的一种基因高通量测序数据突变检测方法,具有以下有益效果:
1、在不增加实验步骤和成本的前提下去除高通量测序中的随机噪音。
2、通过对去除随机噪音后的健康人测序数据进行建模,建立了用来判别阳性突变位点的计算模型。
最终,可以在不改变现有实验体系的前提下明显提高低丰度变异检出的敏感性和特异性。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (1)

1.一种基因高通量测序数据突变检测方法,包括步骤:
S1:获取一基因样本的高通量测序数据;
S2:生成所述基因样本的高通量测序数据的各基因序列的位置信息标签;
S3:根据所述位置信息标签将各所述基因序列分组并计算获得一突变总量;
S4:将所述突变总量代入一背景模型输出突变检测结果;
所述S2步骤进一步包括步骤:
S21:通过一序列对比算法将所述各基因序列对比到一参考基因组,形成各所述基因序列的比对信息;
S22:将所述比对信息存储于一SAM/BAM格式文件中;
S23:根据所述SAM/BAM格式文件判断各所述基因序列的序列来源的模板链Ti,1≤i≤n,n为所述基因序列个数;
S24:根据所述序列来源的模板链Ti和所述SAM/BAM格式文件生成各所述基因序列的位置信息标签;
所述S23步骤进一步包括步骤:
自所述SAM/BAM格式文件中提取每一条所述基因序列的一第一比对起始位置Pi、一同片段对比序列的一第二对比起始位置Qi、正负链信息Si和所述基因序列的序列号Ri;
当所述基因序列的序列号Ri等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si等于所述SAM/BAM格式文件的foward位置的数值时,或所述基因序列的序列号Ri不等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si不等于所述SAM/BAM格式文件的foward位置的数值时,所述序列来源的模板链Ti为正;
当所述基因序列的序列号Ri等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si不等于所述SAM/BAM格式文件的foward位置的数值时,或所述基因序列的序列号Ri不等于所述SAM/BAM格式文件的read1位置的数值且所述正负链信息Si等于所述SAM/BAM格式文件的foward位置的数值时,所述序列来源的模板链Ti为负;
所述位置信息标签表示为(Pi,Qi,Ti);
所述S3步骤进一步包括步骤:
S31:将所述位置信息标签一致的所述基因序列分至同一基因组;
S32:统计所述基因组中各所述基因序列与所述参考基因组一目标基因位置gi对应的一当前基因位置为突变型基因型且碱基质量q>30的所述基因序列的突变数vj,j为大于等于1的自然数;
如vj>0,记录所述当前基因位置碱基质量q>30的所述基因序列个数nj
如vj<f*nj,则vj=0,其中f为预设的最低碱基一致性比例值;
S33:重复步骤S32获得各所述目标基因位置的突变数vj,并根据所述突变数计算一突变总数
Figure FDA0002360435870000021
其中
Figure FDA0002360435870000022
Figure FDA0002360435870000023
时,保留
Figure FDA0002360435870000024
的数值并继续后续步骤;
Figure FDA0002360435870000025
时,将
Figure FDA0002360435870000026
的数值清零并继续后续步骤。
CN201711214506.2A 2017-11-28 2017-11-28 基因高通量测序数据突变检测方法 Active CN107944225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711214506.2A CN107944225B (zh) 2017-11-28 2017-11-28 基因高通量测序数据突变检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711214506.2A CN107944225B (zh) 2017-11-28 2017-11-28 基因高通量测序数据突变检测方法

Publications (2)

Publication Number Publication Date
CN107944225A CN107944225A (zh) 2018-04-20
CN107944225B true CN107944225B (zh) 2020-04-24

Family

ID=61950342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711214506.2A Active CN107944225B (zh) 2017-11-28 2017-11-28 基因高通量测序数据突变检测方法

Country Status (1)

Country Link
CN (1) CN107944225B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681661B (zh) * 2018-05-16 2022-02-18 杭州迈迪科生物科技有限公司 一种伴随实验生成样本id的方法
CN109920480B (zh) * 2019-03-14 2020-02-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置
CN111161801B (zh) * 2019-12-31 2023-06-06 杨琦 一代基因测序中自动识别杂合突变的方法
CN113628683B (zh) * 2021-08-24 2024-04-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN115424664B (zh) * 2022-11-07 2023-03-10 北京雅康博生物科技有限公司 人为突变程度评估方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599616A (zh) * 2017-01-03 2017-04-26 上海派森诺医学检验所有限公司 基于duplex‑seq的超低频突变位点检测分析方法
CN106755454A (zh) * 2017-01-06 2017-05-31 杭州杰毅麦特医疗器械有限公司 一种分子标签核酸检测方法
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170058332A1 (en) * 2015-09-02 2017-03-02 Guardant Health, Inc. Identification of somatic mutations versus germline variants for cell-free dna variant calling applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置
CN106599616A (zh) * 2017-01-03 2017-04-26 上海派森诺医学检验所有限公司 基于duplex‑seq的超低频突变位点检测分析方法
CN106755454A (zh) * 2017-01-06 2017-05-31 杭州杰毅麦特医疗器械有限公司 一种分子标签核酸检测方法

Also Published As

Publication number Publication date
CN107944225A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107944225B (zh) 基因高通量测序数据突变检测方法
CN107423578B (zh) 检测体细胞突变的装置
WO2018068600A1 (zh) 图像处理方法及***
Wang et al. Accurate recovery of ribosome positions reveals slow translation of wobble-pairing codons in yeast
Racimo et al. Approximation to the distribution of fitness effects across functional categories in human segregating polymorphisms
CN109887546B (zh) 基于二代测序的单基因或多基因拷贝数检测***及方法
WO2011145955A1 (en) Method and system for sequence correlation
Ahmed et al. Identifying A-and P-site locations on ribosome-protected mRNA fragments using Integer Programming
Samad et al. Imputation-based population genetics analysis of Plasmodium falciparum malaria parasites
US20200105375A1 (en) Models for targeted sequencing of rna
CN116486910A (zh) 纳米孔测序碱基识别的深度学习训练集建立方法及其应用
CN108154007B (zh) 一种基于单肿瘤样本拷贝数变异及缺失类型检测方法
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
Tan et al. Intron retention is a robust marker of intertumoral heterogeneity in pancreatic ductal adenocarcinoma
CN108268753B (zh) 一种微生物组识别方法和装置、设备
WO2014083018A1 (en) Method and system for processing data for evaluating a quality level of a dataset
US20150142328A1 (en) Calculation method for interchromosomal translocation position
CN109886151B (zh) 一种虚假身份属性检测方法
WO2023124779A1 (zh) 基于三代测序数据检测点突变的分析方法和装置
CN113628683B (zh) 一种高通量测序突变检测方法、设备、装置及可读存储介质
US20160026756A1 (en) Method and apparatus for separating quality levels in sequence data and sequencing longer reads
CN105320850A (zh) 一种高通量测序数据匹配方法
WO2020222287A1 (ja) 訓練装置、罹患判定装置、機械学習方法、およびプログラム
Söylev et al. CONGA: Copy number variation genotyping in ancient genomes and low-coverage sequencing data
Niu et al. Identification, characterization and expression analysis of circRNA encoded by SARS-CoV-1 and SARS-CoV-2

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211208

Address after: 201209 floor 3, building 1, No. 400, Fangchun Road, pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: Huisuan gene technology (Shanghai) Co.,Ltd.

Address before: 201209 floor 3, building 1, No. 400, Fangchun Road, pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee before: SMARTQUERIER BIOMEDICINE (SHANGHAI) CO.,LTD.

TR01 Transfer of patent right