CN117437978A

CN117437978A - 一种二代测序数据的低频基因突变分析方法、装置及其应用

Info

Publication number: CN117437978A
Application number: CN202311696182.6A
Authority: CN
Inventors: 李宇龙; 张钰; 苏晓云; 李彪; 葛猛; 叶锋
Original assignee: Beijing Genomeprecision Technology Co ltd
Current assignee: Beijing Genomeprecision Technology Co ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-01-23

Abstract

本发明公开了一种二代测序数据的低频基因突变分析方法、装置及其应用，尤其涉及针对IonTorrent测序平台的分子标签测序数据的分析方法、装置及其应用。本发明设计一种全新的适用多种测序平台尤其是IonTorrent的分子标签测序数据分析方法，通过blast寻找定位reads中barcode序列而非通过寻找固定序列确定barcode位置信息，进行一致性分析时将family中的reads多序列比对并修正碱基测序质量值，除了消除测序过程中引入的错误的碱基替换还能消除错误的***和缺失，可用于同时准确检测出低频SNV和INDEL突变。

Description

一种二代测序数据的低频基因突变分析方法、装置及其应用

技术领域

本发明属于生物信息学技术领域，涉及一种二代测序数据的低频基因突变分析方法、装置及其应用，尤其涉及针对IonTorrent测序平台的分子标签测序数据的分析方法、装置及其应用。

背景技术

在临床精准医疗的研究和应用中，低频率（<1%）的体细胞突变包括基因的点突变、***和缺失一直是被关注的热点。

NGS技术被广泛引用于检测基因变异。但NGS在测序过程中会因为技术本身的问题而引入错误的碱基序列信息，导致要检测的目标突变位点信息会被噪音覆盖而无法被正确检测出来。

Ion Torrent 测序仪是第一个不需要光学***的商业测序仪，所采用的技术为半导体测序，通过半导体芯片直接将化学信号转换为数字信号，是一种经济、快速、简单、规模可扩展的测序技术，非常适合扩增子测序。因为测序时间短，仪器设备便宜等特点而被广泛采用。但是传感器对pH的变化对于连续碱基的检测还不够完善，因此在测量同一碱基连续出现时的数量可能会有所误差，要检测的目标突变位点信息会被噪音覆盖而无法被正确检测出来。

Illumina测序平台技术较为成熟，但是依然存在0.1%~1%的测序错误率，主要表现为碱基替换和AT碱基偏好性。

为了提高低频突变的检测精确度，可以使用分子标签的技术提高检测灵敏度。在建立测序文库时，在扩增分子的两端分别连接上6bp的随机序列称为barcode。Barcode会在下游的测序过程中随着连接的分子一起被扩增并测序。具有相同barcode的reads属于同一个family，可以被认为是由同一条原始分子扩增而来。同一个family中的reads理论上应完全一致，通过一致性分析将所有reads合并为一条consensus reads，可以消除测序过程的碱基测序错误和duplication。

针对分子标签测序数据的生物信息分析软件有UMItools、fgbio、samtools，smCounter和Conner等。UMItools，fgbio，smCounter和Conner更适用于Illumina平台生成的数据，而不适用Ion torrent平台。Samtools的Consensus模块可以处理Illumina和Iontorrent多个平台的测序数据，在检测SNV（single nucleotide variants）时有较好的表现，但Samtools在合并reads时会以参考基因组为基准，会消除reads中的原有的***和缺失，导致无法检测INDEL。

综上所述，开发适用于多测序平台数据分析方法，对于基因变异检测领域具有重要意义。

发明内容

针对现有技术的不足和实际需求，本发明提供一种二代测序数据的低频基因突变分析方法、装置及其应用，尤其涉及针对IonTorrent测序平台的分子标签测序数据的分析方法、装置及其应用，且能够同时准确检测出低频SNV和INDEL突变。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种二代测序数据的低频基因突变分析方法，所述方法包括以下步骤：

（1）以检测目标基因的序列为输入，建立blastn的数据库；

（2）将测序fastq文件转为fasta格式文件；

（3）使用blastn将测序fasta序列(即reads)比对到目标基因，得到扩增子在测序序列上的位置坐标，提取分子标签序列信息；

（4）将具有相同分子标签的测序序列归为同一个家族序列（即family），过滤掉家族序列中测序序列数小于3的家族序列；

（5）对各个家族序列中所有测序序列进行多序列比对，并引入空值（即gap），统计家族序列中所有测序序列在相同位置上的A、T、C、G和空值的计数，并按公式（1）计算碱基测序质量Q，Q加上33再转化为ASCII表对应的字符即为fastq文件中每个碱基对应的修正测序质量Phred33值；

Q = -10 log₁₀(P) 公式（1）

其中，Q表示碱基测序质量，P表示为碱基测序错误概率；

（6）基于家族序列中所有测序序列合并得到一条测序序列，计数最多的碱基作为一致序列（consensus序列）的碱基，如果对应位置空值的计数最多，则判定该位置存在测序***错误，在一致序列中去除该位置信息，如果有多个碱基的计数相同，则取修正后碱基测序质量最高的碱基，得到一致（consensus）后的fastq文件。

本发明中，设计一种全新的适用多种测序平台尤其是IonTorrent的分子标签测序数据分析方法，通过blast寻找定位reads中barcode序列而非通过寻找固定序列确定barcode位置信息，进行一致性分析时将family中的reads多序列比对并修正碱基测序质量值，除了消除测序过程中引入的错误的碱基替换还能消除错误的***和缺失，兼容主流的二代测序平台illumina和iontorrent数据，尤其针对iontorrent数据分析有较好的效果，可用于同时准确检测出低频SNV和INDEL突变。

本发明使用blastn将每条reads比对到基因组来确定每条reads上barcode的位置信息，而不是只通过寻找reads两端的固定序列来提取reads上的barcode，可以避免由于碱基合成错误或测序错误导致的固定序列错误而无法定位barcode的位置信息。

本发明中，在检测突变时碱基测序质量是一个重要的指标，通过筛选质量值较低的碱基，可以去除假阳性突变位点。

第二方面，本发发明提供一种二代测序数据的分析装置，所述装置用于执行第一方面所述的二代测序数据的低频基因突变分析方法中的步骤，包括：

构建数据库单元：用于执行以检测目标基因的序列为输入，建立blastn的数据库；

转换单元：用于执行将测序fastq文件转为fasta格式文件；

数据获取单元：用于执行使用blastn将测序fasta序列比对到目标基因，得到扩增子在测序序列上的位置坐标，提取分子标签序列信息；

分类单元：用于执行将具有相同分子标签的测序序列归为同一个家族序列，过滤掉家族序列中测序序列数小于3的家族序列；

计算修正测序质量单元：用于执行对各个家族序列中所有测序序列进行多序列比对，并引入空值，统计家族序列中所有测序序列在相同位置上的A、T、C、G和空值的计数，并按公式（1）计算碱基测序质量Q，Q加上33再转化为ASCII表对应的字符即为fastq文件中每个碱基对应的修正测序质量Phred33值；

Q = -10 log₁₀(P) 公式（1）

其中，Q表示碱基测序质量，P表示为碱基测序错误概率；

分析单元：用于执行基于家族序列中所有测序序列合并得到一条测序序列，同一位置上计数最多的碱基作为一致序列碱基，如果对应位置空值的计数最多，则判定该位置存在测序***错误，在一致序列中去除该位置信息，如果有多个碱基的计数相同，则取修正后碱基测序质量最高的碱基，得到一致后的fastq文件。

第三方面，本发明提供第一方面所述的二代测序数据的低频基因突变分析方法或第二方面所述的二代测序数据的分析装置在基因变异检测中的应用。

第四方面，本发明提供一种检测低频基因变异的方法，所述方法包括：

对待测样本进行二代测序，利用第一方面所述的二代测序数据的低频基因突变分析方法或第二方面所述的二代测序数据的低频基因突变分析方法装置对二代测序数据进行分析，基于分析结果使用比对软件进行基因组比对，使用变异检测分析软件检测变异，输出变异结果。

本发明开发适用多种测序平台的分子标签测序数据分析方法，对测序数据进行快速分析处理，进一步进行变异检测分析，能够同时准确检测出低频SNV和INDEL突变具有广阔的应用前景，如临床精准医疗领域，以及非疾病诊断目的的基因变异基础行为的研究中等等。

优选地，所述比对软件包括bwa软件、bowtie2软件或blast软件等中任意一种；

优选地，所述变异检测分析软件包括Varscan2软件、Mutect2软件、GATK软件或Freebayes软件等中任意一种。

优选地，所述变异检测分析软件检测SNV时最低碱基质量设为20~25，具体可选范围内数值，例如可以是20、21、22、23、24或25等，检测INDEL时最低碱基质量值设为20~25，具体可选范围内数值，例如可以是20、21、22、23、24或25等。

第五方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面所述二代测序数据的低频基因突变分析方法的步骤或第四方面所述检测低频基因变异的方法的步骤。

第六方面，本发明提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机建立和/或运行如第一方面所述二代测序数据的低频基因突变分析方法的步骤或第四方面所述检测低频基因变异的方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明提供一种适用多种测序平台尤其是IonTorrent的分子标签测序数据检测方法，通过blast寻找定位reads中barcode序列而非通过寻找固定序列确定barcode位置信息，进行一致性分析时将family中的reads多序列比对并修正碱基测序质量值，除了消除测序过程中引入的错误的碱基替换还能消除错误的***和缺失，能够同时准确检测出低频SNV和INDEL突变。

附图说明

图1为分析流程示意图；

图2为扩增子结构示意图；

图3为consensus示意图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道购买获得的常规产品。

实施例1

样本制备：首先使用一代测序检测癌症患者样本，确定患者样本的特定突变位点比例。再将该患者的细胞系与野生型细胞系按照一定比例混合，制备成各种已知突变比例的参考样本。样本测序：使用Ion Torrent对已制备样本建库测序得到fastq文件。分析过程如图1所示，数据分析：将fastq文件转成fasta格式后用blastn与扩增模板序列比对，得到得到扩增子在reads上的位置坐标，如图2所示，在构建测序文库时，在扩增子的两端分别添加分析标签和固定序列，在后续的分析中可以用前后分子标签去除PCR和测序过程中的碱基错误，还原原始的序列信息，而固定序列可以定位分子标签在测序序列中的位置，提取分子标签序列信息，得到包含分子标签信息的fastq文件。过去掉reads长度短于扩增模板长度的reads后，过滤family reads少于3条的family；对各个家族序列中所有测序序列进行多序列比对，并引入空值（即gap），统计家族序列中所有测序序列在相同位置上的A、T、C、G和空值的计数，并按公式（1）计算碱基测序质量Q，Q加上33再转化为ASCII表对应的字符即为fastq文件中每个碱基对应的修正测序质量Phred33值；使用consensus算法将family中的reads合并成一条，得到consensus.fastq文件，如图3所示，图中为包含有6条测序序列的一个family，将6条序列进行多序列比对后还原为1条consensus reads，认为该序列即原始的碱基序列；在相同的位置6条序列的碱基完全一致，则我们认为原始序列在该位置实际就是该碱基；6条序列在连续的T的末端位置有2条为T，其余4条在相应位置为缺失（“--”），我们就认为原始序列在该位置实际不存在；6条序列有5条存在GTGT序列，而有1条在对应位置为TGTG，我们就认为原始序列在该位置实际为GTGT；6条序列有5条存在一个位置碱基为A，而有1条在对应位置为缺失，我们就认为原始序列在该位置实际为A。使用bwa将consensus.fastq比对到参考基因组得到sam文件，使用samtools和Varscan2检测变异位点。

本实施例制备了以下已知变异位点和突变比例的样本，使用IonTorrent测序。目标变异类型涉及snp和indel，目标变异比例在1%~30%不等。

检测结果如表1所示。

表1

结论：检测结果与预测结果在误差范围内基本一致，表明本发明对IonTorrent测序数据检测点突变和***变异时有优秀表现。

实施例2

同时制备了以下已知变异位点和突变比例的样本，使用Illumina 测序，检测过程参照实施例1。目标变异类型为indel，目标变异比例在10%左右。

检测结果如表2所示，表明本发明方法同样适用Illumina 测序数据。

表2

对比例1

以samtools的consensus模块作为对比技术，对实施例1和实施例2中的样本一、样本二、样本三和样本四进行分析，结果如表3所示，使用samtools的consensus模块可以检测到snp，但没有分析INDEL的能力。而本发明可以精确检测INDEL。

表3

综上所述，本发明开发一种适用多种测序平台尤其是IonTorrent的分子标签测序数据检测方法，通过blast寻找定位reads中barcode序列而非通过寻找固定序列确定barcode位置信息，进行一致性分析时将family中的reads多序列比对并修正碱基测序质量值，除了消除测序过程中引入的错误的碱基替换还能消除错误的***和缺失，能够同时准确检测出低频SNV和INDEL突变。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种二代测序数据的低频基因突变分析方法，其特征在于，所述方法包括以下步骤：

（1）以检测目标基因的序列为输入，建立blastn的数据库；

（2）将测序fastq文件转为fasta格式文件；

（3）使用blastn将测序fasta序列比对到目标基因，得到扩增子在测序序列上的位置坐标，提取分子标签序列信息；

（4）将具有相同分子标签的测序序列归为同一个家族序列，过滤掉家族序列中测序序列数小于3的家族序列；

（5）对各个家族序列中所有测序序列进行多序列比对，并引入空值，统计家族序列中所有测序序列在相同位置上的A、T、C、G和空值的计数，并按公式（1）计算碱基测序质量Q，Q加上33再转化为ASCII表对应的字符即为fastq文件中每个碱基对应的修正测序质量Phred33值；

Q = -10 log₁₀(P) 公式（1）

其中，Q表示碱基测序质量，P表示为碱基测序错误概率；

（6）基于家族序列中所有测序序列合并得到一条序列，同一位置上计数最多的碱基作为一致序列碱基，如果对应位置空值的计数最多，则判定该位置存在测序***错误，在一致序列中去除该位置信息，如果有多个碱基的计数相同，则取修正后碱基测序质量最高的碱基，得到一致后的fastq文件。

2.一种二代测序数据的分析装置，其特征在于，所述装置用于执行权利要求1所述的二代测序数据的低频基因突变分析方法中的步骤，包括：

转换单元：用于执行将测序fastq文件转为fasta格式文件；

数据获取单元：用于执行使用blastn将测序序列比对到目标基因，得到扩增子在测序序列上的位置坐标，提取分子标签序列信息；

分类单元：用于执行将具有相同分子标签的测序fasta序列归为同一个家族序列，过滤掉家族序列中测序序列数小于3的家族序列；

Q = -10 log₁₀(P) 公式（1）

其中，Q表示碱基测序质量，P表示为碱基测序错误概率；

分析单元：用于执行基于家族序列中所有测序序列合并得到一条测序序列，同一位置上计数最多的碱基作为一致序列的碱基，如果对应位置空值的计数最多，则判定该位置存在测序***错误，在一致序列中去除该位置信息，如果有多个碱基的计数相同，则取修正后碱基测序质量最高的碱基，得到一致后的fastq文件。

3.权利要求1所述的二代测序数据的低频基因突变分析方法或权利要求2所述的二代测序数据的分析装置在基因变异检测中的应用。

4.一种检测低频基因变异的方法，其特征在于，所述方法包括：

对待测样本进行二代测序，利用权利要求1所述的二代测序数据的低频基因突变分析方法或权利要求2所述的二代测序数据的分析装置对二代测序数据进行分析，基于分析结果使用比对软件进行基因组比对，使用变异检测分析软件检测变异，输出变异结果。

5.根据权利要求4所述的检测低频基因变异的方法，其特征在于，所述比对软件包括bwa软件、bowtie2软件或blast软件中任意一种。

6.根据权利要求4所述的检测低频基因变异的方法，其特征在于，所述变异检测分析软件包括Varscan2软件、Mutect2软件、GATK软件或Freebayes软件中任意一种。

7.根据权利要求6所述的检测低频基因变异的方法，其特征在于，所述变异检测分析软件检测SNV时最低碱基质量设为20~25。

8.根据权利要求6所述的检测低频基因变异的方法，其特征在于，所述变异检测分析软件检测INDEL时最低碱基质量值设为20~25。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1所述二代测序数据的低频基因突变分析方法的步骤或权利要求4-8任一项所述检测低频基因变异的方法的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机建立和/或运行如权利要求1所述二代测序数据的低频基因突变分析方法的步骤或权利要求4-8任一项所述检测低频基因变异的方法的步骤。