CN116959579B - 一种用于降低二代测序***错误的*** - Google Patents

一种用于降低二代测序***错误的*** Download PDF

Info

Publication number
CN116959579B
CN116959579B CN202311207718.3A CN202311207718A CN116959579B CN 116959579 B CN116959579 B CN 116959579B CN 202311207718 A CN202311207718 A CN 202311207718A CN 116959579 B CN116959579 B CN 116959579B
Authority
CN
China
Prior art keywords
snp
palindromic
palindromic sequence
sequence
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311207718.3A
Other languages
English (en)
Other versions
CN116959579A (zh
Inventor
张怡然
陈慧娟
王冰
段小红
郝艳同
蔡丽丽
周启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiuzhen Medical Laboratory Co ltd
Original Assignee
Beijing Qiuzhen Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiuzhen Medical Laboratory Co ltd filed Critical Beijing Qiuzhen Medical Laboratory Co ltd
Priority to CN202311207718.3A priority Critical patent/CN116959579B/zh
Publication of CN116959579A publication Critical patent/CN116959579A/zh
Application granted granted Critical
Publication of CN116959579B publication Critical patent/CN116959579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及医学分子生物学技术领域,特别涉及一一种用于降低二代测序***错误的***,本发明所提供的一一种用于降低二代测序***错误的***,利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,捞回不处于嵌合区域的突变,提高检测的灵敏度和准确度。

Description

一种用于降低二代测序***错误的***
技术领域
本发明涉及医学分子生物学技术领域,特别涉及一种用于降低二代测序***错误的***。
背景技术
二代测序基于短读长、高通量测序平台,对于肿瘤DNA检测来说,先要进行DNA的片段化,片段化分为机械打断(超声法)与基于核酸内切酶(酶切法)两种。由于酶切法无需耗材,且能够轻松的整合进自动化建库流程中,正在逐步替代超声法。但由于酶切法存在一定偏好性,所以会在建库过程中引入人为突变,现有的数据过滤方法,笼统将嵌合reads全部去除,会丢到真实发生突变,造成灵敏度下降及检测频率不准确。故需要建立一个黑名单过滤这些突变,保证结果的准确性。
发明内容
针对上述背景技术的不足,为了在保持准确性的同时获得较高的稳定性,本发明基于二代测序平台,建立了酶切法特异黑名单,过滤二代测序文库中人为引入的突变,提高检测准确度。
一种用于降低二代测序***错误的***,其特征在于包括:
二代测序模块,用于DNA样本的二代测序;
黑名单模块,用于与二代测序数据对比,筛选出假阳性突变点;
其中,黑名单模块中包含人为突变位点。
进一步地,二代测序为使用Illumina测序平台进行的二代测序。
进一步地,所述黑名单采用以下方法建立:
S1.将测序数据基于与癌症相关的热点区间分别上下各延伸50bp,作为寻找回文序列的参考序列;
S2.将这些参考序列进行人为分割,得到n=∑[(L-K) + 1]个子序列,其中,L是延伸后的参考序列长度,K是代表回文序列长度,K的范围是 2 ~ L/2;
S3.使用getSeq函数,获取以位置i为中心的回文序列,并检查扩展的碱基是否满足回文特性;
S4.使用mergeOut函数,将有重叠区域的回文结构进行合并保留;
S5.判断保留的回文序列是否存在缺失碱基,并将缺失碱基的位置关系,将其转化为SNP信息并保存到snp_list中,形成黑名单。
进一步地,所述S3中,扩展过程中发现不满足回文特性的碱基,记录下不匹配的碱基位置,当连续出现3个不匹配位点的时候,停止继续扩展,并且得到回文序列坐标。
进一步地,所述S4中,设置过滤参数,保留17bp-40bp长度范围内的回文序列。
进一步地,所述S5中:
当回文序列长度为奇数,且存在一个缺失碱基,将缺失碱基位置转化为SNP信息,并保存到snp_list中;
当回文序列长度为偶数,且存在一个或两个缺失碱基,根据缺失碱基的位置关系,将其转化为SNP信息并保存到snp_list中;
当回文序列长度为偶数,且存在两个缺失碱基且位置相邻,将其合并为一个MNP信息,并保存到snp_list中。
进一步地,S5中,当snp_list中的位点位于回文序列最末端,则忽略这些位点;当snp_list中的位点不是位于回文序列最末端,则将这些位点加入到黑名单中。
有益效果:本发明所提供的一一种用于降低二代测序***错误的***,通过统计酶切法所产生的假阳性突变特征,利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单,并设置过滤原则,仅将位于嵌合区域的突变进行过滤,提高检测的灵敏度和准确度。
附图说明
图1为本发明的黑名单建立流程图;
图2为酶切法和机械打断法基于二代测序的SNV检出对比图;
图3为酶切法中假阳性突变特征总结图;
图4为酶切法突变产生机制图;
图5为酶切法和机械打断法基于本发明***的SNV检出对比图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合具体实施方式及附图对本发明作详细说明。下列实施例中未注明具体条件的实验方法,通常按照常规条件或按照制造厂商所建议的条件。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。除非另外说明,否则百分比和份数按重量计算。除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。
发明人通过对比超声法和酶切法检出SNV区别,发现同一样本,酶切法检出突变要显著多于机械打断法(如图2所示),且个别位点反复在不同样本中检测到,假阳性可能性极高。总结这些位点特征,发现这类位点位于紧邻的两个回文序列内部的不配对序列或交界处(如图3所示),推测为两个回文序列间经过酶切打断和修复过程产生了嵌合reads,机制如图4所示,由于回文序列区存在不匹配,所以在修复过程中,会以其中1条链做模板,引入突变,突变类型与模板链的互补配对序列一致。
基于这个特征,发明人认为需要寻找特定panel中的回文序列区域内的不匹配位点,生成假阳性突变位点黑名单,并设置过滤原则,仅将真阳性突变进行过滤,保证结果的准确性。
实施例1 黑名单的建立
以使用的1123panel(1123个基因,覆盖基因组区域约2 Mb)为例,生成黑名单位点。首先将给定panel的bed区间分别向起始位点上游和终止位点下游各延伸50bp,作为查找回文序列的参考序列,避免由于回文区域处于bed末端造成的漏检;
然后人为生成一系列K-mer用于分割序列,寻找回文结构;总共可产生n
=∑[ (L - K)] + 1个子序列,其中L代表参考序列的长度,K代表回文序列长度,K
的范围是 2 ~ L/2);使用getSeq(string,i)函数,用于获取以位置i为中心的回文序列,在函数中,以i位置为中心左右两侧扩展,同时检查扩展的碱基是否满足回文特性(碱基互补原则A-T,C-G);如果在扩展过程中发现不满足回文特性的碱基,这意味着有一个或多个不匹配的位点出现,记录下不匹配的碱基位置,可以是单个碱基或两个相邻碱基。当连续出现3个不匹配位点的时候,停止继续扩展,并且得到回文序列坐标;
使用mergeOut(seq_dic,ch,start,end,seq)函数,将有重叠区域的回文结构进行合并,设置过滤参数,只保留17bp-40bp长度范围内的回文序列;
对每个保留的回文序列,根据是否存在缺失碱基,采取不同的处理方式:如果回文序列长度为奇数,且存在一个缺失碱基,将缺失碱基位置转化为SNP信息,并保存到snp_list中;如果回文序列长度为偶数,且存在一个或两个缺失碱基,根据缺失碱基的位置关系,将其转化为SNP信息并保存到snp_list中。如果回文序列长度为偶数,且存在两个缺失碱基且位置相邻,将其合并为一个MNP(多位点多态性)信息,并保存到snp_list中。
判断snp_list中的点是否在回文序列最末端,如果是,则忽略这些位点;如果否,则将这些位点加入到黑名单中。
实施例2 单个样本数据提取及检测
分别使用安赞酶切法建库试剂盒与KAPA机械打断法试剂盒对54例配对肿瘤样本分别进行DNA建库后,杂交捕获上机测序;对原始结果进行质控、去除接头序列、去除低质量数据、去除过短reads;然后将数据与人基因组进行比对,用Picard软件进行重复序列去除,然后用Vardict软件去识别SNV变异,将SNV变异与黑名单进行比对,若变异存在于黑名单中,则突变频率要大于10%才保留,如果小于等于10%则被过滤掉;对比两者突变检出结果,发现两者一致性明显提高(见图5)。
最后需要说明,上述描述仅为本发明的优选实施例,本领域的技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。

Claims (1)

1.一种用于降低二代测序***错误的***,其特征在于包括:
二代测序模块,用于DNA样本的二代测序;
黑名单模块,用于与二代测序数据对比,筛选出假阳性突变点;
其中,黑名单模块中包含人为突变位点;
所述黑名单模块采用以下方法建立:
S1.将测序数据基于与癌症相关的热点区间分别上下各延伸50bp,作为寻找回文序列的参考序列;
S2.将这些参考序列进行人为分割,得到n=∑[(L-K) + 1]个子序列,其中,L是延伸后的参考序列长度,K是代表回文序列长度,K的范围是 2 ~ L/2;
S3.使用getSeq函数,获取以位置i为中心的回文序列,并检查扩展的碱基是否满足回文特性;
S4.使用mergeOut函数,将有重叠区域的回文结构进行合并保留;
S5.判断保留的回文序列是否存在缺失碱基,并将缺失碱基的位置关系,将其转化为SNP信息并保存到snp_list中,形成黑名单;
所述S3中,扩展过程中发现不满足回文特性的碱基,记录下不匹配的碱基位置,当连续出现3个不匹配位点的时候,停止继续扩展,并且得到回文序列坐标;
所述S4中,设置过滤参数,保留17bp-40bp长度范围内的回文序列;
所述S5中:当回文序列长度为奇数,且存在一个缺失碱基,将缺失碱基位置转化为SNP信息,并保存到snp_list中;
当回文序列长度为偶数,且存在一个或两个缺失碱基,根据缺失碱基的位置关系,将其转化为SNP信息并保存到snp_list中;
当回文序列长度为偶数,且存在两个缺失碱基且位置相邻,将其合并为一个MNP信息,并保存到snp_list中;
S5中,当snp_list中的位点位于回文序列最末端,则忽略这些位点;当snp_list中的位点不是位于回文序列最末端,则将这些位点加入到黑名单中。
CN202311207718.3A 2023-09-19 2023-09-19 一种用于降低二代测序***错误的*** Active CN116959579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311207718.3A CN116959579B (zh) 2023-09-19 2023-09-19 一种用于降低二代测序***错误的***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311207718.3A CN116959579B (zh) 2023-09-19 2023-09-19 一种用于降低二代测序***错误的***

Publications (2)

Publication Number Publication Date
CN116959579A CN116959579A (zh) 2023-10-27
CN116959579B true CN116959579B (zh) 2023-12-22

Family

ID=88458691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311207718.3A Active CN116959579B (zh) 2023-09-19 2023-09-19 一种用于降低二代测序***错误的***

Country Status (1)

Country Link
CN (1) CN116959579B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN111415707A (zh) * 2020-03-10 2020-07-14 四川大学 临床个体化肿瘤新抗原的预测方法
CN112116956A (zh) * 2020-09-29 2020-12-22 深圳裕策生物科技有限公司 一种基于二代测序的肿瘤单样本tmb检测方法及装置
CN116064755A (zh) * 2023-01-12 2023-05-05 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090123928A1 (en) * 2007-10-11 2009-05-14 The Johns Hopkins University Genomic Landscapes of Human Breast and Colorectal Cancers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN111415707A (zh) * 2020-03-10 2020-07-14 四川大学 临床个体化肿瘤新抗原的预测方法
CN112116956A (zh) * 2020-09-29 2020-12-22 深圳裕策生物科技有限公司 一种基于二代测序的肿瘤单样本tmb检测方法及装置
CN116064755A (zh) * 2023-01-12 2023-05-05 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置

Also Published As

Publication number Publication date
CN116959579A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN105518151B (zh) 循环核酸肿瘤标志物的鉴别和用途
WO2018041062A1 (zh) 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用
CN113661249A (zh) 用于分离无细胞dna的组合物和方法
CN110033829B (zh) 基于差异snp标记物的同源基因的融合检测方法
CN110520542A (zh) 用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用
KR20190095410A (ko) 핵산 분자를 분석하기 위한 방법 및 시스템
Sehn Insertions and deletions (indels)
WO2023035889A1 (zh) 基因融合的检测方法和装置
CN110734967B (zh) 一种接头组合物及其应用
EP0925372B1 (en) Method of computer-aided automated diagnostic dna test design
CN115803447A (zh) 染色体邻近实验中的结构变异检测
CN112301115B (zh) 一种基于高通量测序的FGFRs基因突变的检测方法及探针序列
JP2023526252A (ja) 相同組換え修復欠損の検出
CN110603327A (zh) Pcr引物对及其应用
CN116631508A (zh) 肿瘤特异性突变状态的检测方法及其应用
CN109686404B (zh) 检测样本混淆的方法及装置
Shiraishi et al. Precise characterization of somatic complex structural variations from paired long-read sequencing data with nanomonsv
CN116959579B (zh) 一种用于降低二代测序***错误的***
CN105528532B (zh) 一种rna编辑位点的特征分析方法
CN114005490B (zh) 基于二代测序技术的循环肿瘤dna融合检测方法
US20140364321A1 (en) Method for analyzing DNA methylation based on MspJI cleavage
CN115954052A (zh) 一种实体瘤微小残留病灶监控位点筛选方法及***
CN110603334A (zh) Pcr引物对及其应用
CN110651050A (zh) 用于检测低频突变的靶向富集方法和试剂盒
CN114277114A (zh) 一种扩增子测序添加唯一性标识符的方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant