CN116959579B

CN116959579B - 一种用于降低二代测序错误的

Info

Publication number: CN116959579B
Application number: CN202311207718.3A
Authority: CN
Inventors: 张怡然; 陈慧娟; 王冰; 段小红; 郝艳同; 蔡丽丽; 周启明
Original assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Current assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-22
Anticipated expiration: 2043-09-19
Also published as: CN116959579A

Abstract

本发明涉及医学分子生物学技术领域，特别涉及一一种用于降低二代测序***错误的***，本发明所提供的一一种用于降低二代测序***错误的***，利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单，并设置过滤原则，仅将位于嵌合区域的突变进行过滤，捞回不处于嵌合区域的突变，提高检测的灵敏度和准确度。

Description

一种用于降低二代测序***错误的***

技术领域

本发明涉及医学分子生物学技术领域，特别涉及一种用于降低二代测序***错误的***。

背景技术

二代测序基于短读长、高通量测序平台，对于肿瘤DNA检测来说，先要进行DNA的片段化，片段化分为机械打断（超声法）与基于核酸内切酶（酶切法）两种。由于酶切法无需耗材，且能够轻松的整合进自动化建库流程中，正在逐步替代超声法。但由于酶切法存在一定偏好性，所以会在建库过程中引入人为突变，现有的数据过滤方法，笼统将嵌合reads全部去除，会丢到真实发生突变，造成灵敏度下降及检测频率不准确。故需要建立一个黑名单过滤这些突变，保证结果的准确性。

发明内容

针对上述背景技术的不足，为了在保持准确性的同时获得较高的稳定性，本发明基于二代测序平台，建立了酶切法特异黑名单，过滤二代测序文库中人为引入的突变，提高检测准确度。

一种用于降低二代测序***错误的***，其特征在于包括：

二代测序模块，用于DNA样本的二代测序；

黑名单模块，用于与二代测序数据对比，筛选出假阳性突变点；

其中，黑名单模块中包含人为突变位点。

进一步地，二代测序为使用Illumina测序平台进行的二代测序。

进一步地，所述黑名单采用以下方法建立：

S1.将测序数据基于与癌症相关的热点区间分别上下各延伸50bp，作为寻找回文序列的参考序列；

S2.将这些参考序列进行人为分割，得到n=∑[(L-K) + 1]个子序列，其中，L是延伸后的参考序列长度，K是代表回文序列长度，K的范围是 2 ~ L/2；

S3.使用getSeq函数，获取以位置i为中心的回文序列，并检查扩展的碱基是否满足回文特性；

S4.使用mergeOut函数，将有重叠区域的回文结构进行合并保留；

S5.判断保留的回文序列是否存在缺失碱基，并将缺失碱基的位置关系，将其转化为SNP信息并保存到snp_list中，形成黑名单。

进一步地，所述S3中，扩展过程中发现不满足回文特性的碱基，记录下不匹配的碱基位置，当连续出现3个不匹配位点的时候，停止继续扩展，并且得到回文序列坐标。

进一步地，所述S4中，设置过滤参数，保留17bp-40bp长度范围内的回文序列。

进一步地，所述S5中：

当回文序列长度为奇数，且存在一个缺失碱基，将缺失碱基位置转化为SNP信息，并保存到snp_list中；

当回文序列长度为偶数，且存在一个或两个缺失碱基，根据缺失碱基的位置关系，将其转化为SNP信息并保存到snp_list中；

当回文序列长度为偶数，且存在两个缺失碱基且位置相邻，将其合并为一个MNP信息，并保存到snp_list中。

进一步地，S5中，当snp_list中的位点位于回文序列最末端，则忽略这些位点；当snp_list中的位点不是位于回文序列最末端，则将这些位点加入到黑名单中。

有益效果：本发明所提供的一一种用于降低二代测序***错误的***，通过统计酶切法所产生的假阳性突变特征，利用生物信息学方法生成针对不同panel的易发生嵌合区域的黑名单，并设置过滤原则，仅将位于嵌合区域的突变进行过滤，提高检测的灵敏度和准确度。

附图说明

图1为本发明的黑名单建立流程图；

图2为酶切法和机械打断法基于二代测序的SNV检出对比图；

图3为酶切法中假阳性突变特征总结图；

图4为酶切法突变产生机制图；

图5为酶切法和机械打断法基于本发明***的SNV检出对比图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合具体实施方式及附图对本发明作详细说明。下列实施例中未注明具体条件的实验方法，通常按照常规条件或按照制造厂商所建议的条件。下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。除非另外说明，否则百分比和份数按重量计算。除非另行定义，文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外，任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。

发明人通过对比超声法和酶切法检出SNV区别，发现同一样本，酶切法检出突变要显著多于机械打断法（如图2所示），且个别位点反复在不同样本中检测到，假阳性可能性极高。总结这些位点特征，发现这类位点位于紧邻的两个回文序列内部的不配对序列或交界处（如图3所示），推测为两个回文序列间经过酶切打断和修复过程产生了嵌合reads，机制如图4所示，由于回文序列区存在不匹配，所以在修复过程中，会以其中1条链做模板，引入突变，突变类型与模板链的互补配对序列一致。

基于这个特征，发明人认为需要寻找特定panel中的回文序列区域内的不匹配位点，生成假阳性突变位点黑名单，并设置过滤原则，仅将真阳性突变进行过滤，保证结果的准确性。

实施例1 黑名单的建立

以使用的1123panel（1123个基因，覆盖基因组区域约2 Mb）为例，生成黑名单位点。首先将给定panel的bed区间分别向起始位点上游和终止位点下游各延伸50bp，作为查找回文序列的参考序列，避免由于回文区域处于bed末端造成的漏检；

然后人为生成一系列K-mer用于分割序列，寻找回文结构；总共可产生n

=∑[ (L - K)] + 1个子序列，其中L代表参考序列的长度，K代表回文序列长度，K

的范围是 2 ~ L/2)；使用getSeq(string,i)函数，用于获取以位置i为中心的回文序列，在函数中，以i位置为中心左右两侧扩展，同时检查扩展的碱基是否满足回文特性（碱基互补原则A-T，C-G）；如果在扩展过程中发现不满足回文特性的碱基，这意味着有一个或多个不匹配的位点出现，记录下不匹配的碱基位置，可以是单个碱基或两个相邻碱基。当连续出现3个不匹配位点的时候，停止继续扩展，并且得到回文序列坐标；

使用mergeOut(seq_dic,ch,start,end,seq)函数，将有重叠区域的回文结构进行合并，设置过滤参数，只保留17bp-40bp长度范围内的回文序列；

对每个保留的回文序列，根据是否存在缺失碱基，采取不同的处理方式：如果回文序列长度为奇数，且存在一个缺失碱基，将缺失碱基位置转化为SNP信息，并保存到snp_list中；如果回文序列长度为偶数，且存在一个或两个缺失碱基，根据缺失碱基的位置关系，将其转化为SNP信息并保存到snp_list中。如果回文序列长度为偶数，且存在两个缺失碱基且位置相邻，将其合并为一个MNP（多位点多态性）信息，并保存到snp_list中。

判断snp_list中的点是否在回文序列最末端，如果是，则忽略这些位点；如果否，则将这些位点加入到黑名单中。

实施例2 单个样本数据提取及检测

分别使用安赞酶切法建库试剂盒与KAPA机械打断法试剂盒对54例配对肿瘤样本分别进行DNA建库后，杂交捕获上机测序；对原始结果进行质控、去除接头序列、去除低质量数据、去除过短reads；然后将数据与人基因组进行比对，用Picard软件进行重复序列去除，然后用Vardict软件去识别SNV变异，将SNV变异与黑名单进行比对，若变异存在于黑名单中，则突变频率要大于10%才保留，如果小于等于10%则被过滤掉；对比两者突变检出结果，发现两者一致性明显提高（见图5）。

最后需要说明，上述描述仅为本发明的优选实施例，本领域的技术人员在本发明的启示下，在不违背本发明宗旨及权利要求的前提下，可以做出多种类似的表示，这样的变换均落入本发明的保护范围之内。

Claims

1.一种用于降低二代测序***错误的***，其特征在于包括：

二代测序模块，用于DNA样本的二代测序；

其中，黑名单模块中包含人为突变位点；

所述黑名单模块采用以下方法建立：

S5.判断保留的回文序列是否存在缺失碱基，并将缺失碱基的位置关系，将其转化为SNP信息并保存到snp_list中，形成黑名单；

所述S3中，扩展过程中发现不满足回文特性的碱基，记录下不匹配的碱基位置，当连续出现3个不匹配位点的时候，停止继续扩展，并且得到回文序列坐标；

所述S4中，设置过滤参数，保留17bp-40bp长度范围内的回文序列；

所述S5中：当回文序列长度为奇数，且存在一个缺失碱基，将缺失碱基位置转化为SNP信息，并保存到snp_list中；

当回文序列长度为偶数，且存在两个缺失碱基且位置相邻，将其合并为一个MNP信息，并保存到snp_list中；

S5中，当snp_list中的位点位于回文序列最末端，则忽略这些位点；当snp_list中的位点不是位于回文序列最末端，则将这些位点加入到黑名单中。