CN110211636A - 优化基因组测序结果的分类方法 - Google Patents

优化基因组测序结果的分类方法 Download PDF

Info

Publication number
CN110211636A
CN110211636A CN201810155742.XA CN201810155742A CN110211636A CN 110211636 A CN110211636 A CN 110211636A CN 201810155742 A CN201810155742 A CN 201810155742A CN 110211636 A CN110211636 A CN 110211636A
Authority
CN
China
Prior art keywords
mqranksum
gene group
sequencing result
classification method
optimization gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810155742.XA
Other languages
English (en)
Inventor
谭宇翔
张宇
尹芝南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201810155742.XA priority Critical patent/CN110211636A/zh
Publication of CN110211636A publication Critical patent/CN110211636A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种优化基因组测序结果的分类方法,包括如下步骤:A)读取输入的多态性记录文本文件;B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源***缺失变化、异源单核苷酸多样性和异源***缺失变化;C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;D)将所述过滤后的结果进行汇总并输出。实施本发明的优化基因组测序结果的分类方法,具有以下有益效果:能提高全基因组测序结果的精度。

Description

优化基因组测序结果的分类方法
技术领域
本发明涉及信息技术领域,特别涉及一种优化基因组测序结果的分类方法。
背景技术
全基因组测序数据经过分析流程的处理后,会得到一个突变汇总列表作为结果。为了提高该结果的精度,大多时候需要对其进行识别,从而过滤掉部分假阳性。最常用的过滤手段为GATK(The Genome Analysis Toolkit,用于二代重测序数据分析的一款软件)的硬过滤(hard filter)以及GATK的VQSR功能。GATK的硬过滤的条件比较死板,而且并没有对具体情况进行分类,因此虽然能过滤假阳性,但是真阳性的损失很大。VQSR的方法相对综合,但是运行速度非常慢,而且在不同的数据类型中的表现差异很大。VQSR目前主要被用于高深度的外显子测序结果的过滤,但是在全基因组测序数据上的表现一般。VQSR算法在研发时,参考的只是全基因组测序数据的表层规律,验证时使用的是模拟数据,并无法真实反映真实数据的真/假性分类情况,导致在实际应用中的表现差强人意,并非建议使用方法。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能提高全基因组测序结果的精度的优化基因组测序结果的分类方法。
本发明解决其技术问题所采用的技术方案是:构造一种优化基因组测序结果的分类方法,包括如下步骤:
A)读取输入的多态性记录文本文件;
B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源***缺失变化、异源单核苷酸多样性和异源***缺失变化;
C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;
D)将所述过滤后的结果进行汇总并输出。
在本发明所述的优化基因组测序结果的分类方法中,所述过滤指标包括ADR(Allelic depths for the ref and alt ratio)、DP(Approximate read depth)、GQ(Genotype Quality)、MQRankSum(Z-score From Wilcoxon rank sum test of Altvs.Ref read mapping qualities)、QD(Variant Confidence/Quality by Depth)和QUAL(Quality);其中,ADR为等位基因深度比,DP为片段深度,GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
在本发明所述的优化基因组测序结果的分类方法中,所述同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。
在本发明所述的优化基因组测序结果的分类方法中,所述异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。
在本发明所述的优化基因组测序结果的分类方法中,所述同源***缺失变化的过滤标准为:GQ<12。
在本发明所述的优化基因组测序结果的分类方法中,所述同源单核苷酸多样性的过滤标准为:GQ<6。
在本发明所述的优化基因组测序结果的分类方法中,所述多态性记录文本文件是由基因多态性分析软件产生的。
在本发明所述的优化基因组测序结果的分类方法中,所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
实施本发明的优化基因组测序结果的分类方法,具有以下有益效果:由于首先根据注解对多态性记录文本文件的内容进行分类,然后对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果,该优化基因组测序结果的分类方法对比传统的过滤方法,其能显著提高基因测序结果的准确率,而对敏感度的影响甚少,能从整体上提高分析结果的可靠性,因此能提高全基因组测序结果的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明优化基因组测序结果的分类方法一个实施例中的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明优化基因组测序结果的分类方法实施例中,该优化基因组测序结果的分类方法的流程图如图1所示。图1中,该优化基因组测序结果的分类方法包括如下步骤:
步骤S01读取输入的多态性记录文本文件:本步骤中,读取输入的多态性记录文本(VCF,Variant Call Format)文件,该多态性记录文本文件是由基因多态性分析软件产生的,例如:GATK。
步骤S02根据注解对多态性记录文本文件的内容进行分类,得到相应的分类信息:本步骤中,根据注解对多态性记录文本文件的内容进行分类,会得到相应的分类信息,具体就是从原始数据中提取四种分类信息,该分类信息包括同源单核苷酸多样性、同源***缺失变化、异源单核苷酸多样性和异源***缺失变化。值得一提的是,本实施例中,同源单核苷酸多样性用Hom SNV来表示,同源***缺失变化用Hom INDELs表示,异源单核苷酸多样性用Het SNV表示,异源***缺失变化用Het INDELs来表示。本步骤中的上述注解,指的是利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
步骤S03对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果:本步骤中,对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,并将符合过滤标准的内容进行保留,最终得到过滤后的结果。
值得一提的是,本实施例中,过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL;其中,ADR为等位基因深度比,ADR支持参考基因组碱基的reads数量+1/支持突变的reads数量+1;DP为片段深度,对于DP,reads with MQ=255or with bad mates are filtered;GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
步骤S04将过滤后的结果进行汇总并输出:本步骤中,本步骤中,将过滤后的结果进行汇总并输出。本发明在利用铂金基因组注释真/假阳性的帮助下,通过优化基因测序结果的分类方法和基因多态性分析软件,已被证实能大幅度过滤假阳性而只损失少量真阳性,与传统的过滤方法相比,其能显著提高基因测序结果的准确率,而对敏感度的影响甚少,能从整体上提高分析结果的可靠性,因此能大大提高全基因组测序结果的精度。
本实施例中,同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。
本实施例中,异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。也就是将异源单核苷酸多样性中不符合该异源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该异源单核苷酸多样性的过滤标准的内容保留下来。
本实施例中,同源***缺失变化的过滤标准为:GQ<12。也就是将同源***缺失变化中不符合该同源***缺失变化的过滤标准的内容过滤掉,并将符合该同源***缺失变化的过滤标准的内容保留下来。
本实施例中,同源单核苷酸多样性的过滤标准为:GQ<6。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。
总之,本发明在利用铂金基因组注释真/假阳性的帮助下,通过优化基因测序结果的分类方法和基因多态性分析软件,已被证实能大幅度过滤假阳性而只损失少量真阳性,能大大提高全基因组测序结果的精度,对全基因组测序技术的应用拓展有着重大的促进作用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种优化基因组测序结果的分类方法,其特征在于,包括如下步骤:
A)读取输入的多态性记录文本文件;
B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源***缺失变化、异源单核苷酸多样性和异源***缺失变化;
C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;
D)将所述过滤后的结果进行汇总并输出。
2.根据权利要求1所述的优化基因组测序结果的分类方法,其特征在于,所述过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL;其中,ADR为等位基因深度比,DP为片段深度,GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
3.根据权利要求2所述的优化基因组测序结果的分类方法,其特征在于,所述同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。
4.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。
5.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述同源***缺失变化的过滤标准为:GQ<12。
6.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述同源单核苷酸多样性的过滤标准为:GQ<6。
7.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法,其特征在于,所述多态性记录文本文件是由基因多态性分析软件产生的。
8.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法,其特征在于,所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
CN201810155742.XA 2018-02-23 2018-02-23 优化基因组测序结果的分类方法 Pending CN110211636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155742.XA CN110211636A (zh) 2018-02-23 2018-02-23 优化基因组测序结果的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155742.XA CN110211636A (zh) 2018-02-23 2018-02-23 优化基因组测序结果的分类方法

Publications (1)

Publication Number Publication Date
CN110211636A true CN110211636A (zh) 2019-09-06

Family

ID=67778963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155742.XA Pending CN110211636A (zh) 2018-02-23 2018-02-23 优化基因组测序结果的分类方法

Country Status (1)

Country Link
CN (1) CN110211636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782091A (zh) * 2021-09-14 2021-12-10 云南中烟工业有限责任公司 一种判断二代测序检测基因编辑结果可信度的方法及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112619A1 (en) * 2014-01-22 2015-07-30 Adam Platt Methods and systems for detecting genetic mutations
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107250356A (zh) * 2014-12-16 2017-10-13 加文医学研究所 测序对照

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112619A1 (en) * 2014-01-22 2015-07-30 Adam Platt Methods and systems for detecting genetic mutations
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107250356A (zh) * 2014-12-16 2017-10-13 加文医学研究所 测序对照

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石浩然: "基于二代测序的转录组数据分析方法的比较研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782091A (zh) * 2021-09-14 2021-12-10 云南中烟工业有限责任公司 一种判断二代测序检测基因编辑结果可信度的方法及应用

Similar Documents

Publication Publication Date Title
Viscosi et al. Leaf morphological analyses in four European oak species (Quercus) and their hybrids: A comparison of traditional and geometric morphometric methods
US11574706B2 (en) Systems and methods for visualization of single-cell resolution characteristics
Bramer Avoiding overfitting of decision trees
CN109189767A (zh) 数据处理方法、装置、电子设备及存储介质
Bastida et al. Molecular diagnosis of inherited coagulation and bleeding disorders
US20100199184A1 (en) Prioritizing vitality events in a social networking system
KR20200065000A (ko) 게놈 데이터 분석에서 관련성을 활용하기 위한 시스템 및 방법
JP2020532989A5 (zh)
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN102135979A (zh) 数据清洗方法及装置
CN107944228A (zh) 一种基因测序变异位点的可视化方法
Pujolar et al. The formation of avian montane diversity across barriers and along elevational gradients
Rocha et al. The Araguaia river as an important biogeographical divide for didelphid marsupials in central Brazil
CN110400602A (zh) 一种基于测序数据的abo血型***分型方法及其应用
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
TW202232502A (zh) 一種判別源自不同個體之基因的方法及其深度學習模型
Ghosh et al. The potential of artificial intelligence to detect lymphovascular invasion in testicular cancer
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN110211636A (zh) 优化基因组测序结果的分类方法
US9454550B2 (en) Database method for B+ tree based on PRAM
Brunel et al. Automatic identification and characterization of radial files in light microscopy images of wood
Lino-Silva et al. Tumor deposits in colorectal cancer: the need for a new “pN” category
Gauran et al. Empirical null estimation using zero-inflated discrete mixture distributions and its application to protein domain data
CN104484375B (zh) 在项目分析流程中自动建立数据库的方法及***
Mogollon Olivares et al. Contrasting the ancestry patterns of three distinct population groups from the northernmost region of South America

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906