CN111128304A

CN111128304A - 一种二代测序数据的质量检测方法及装置

Info

Publication number: CN111128304A
Application number: CN201911292413.0A
Authority: CN
Inventors: 孙丰龙; 吕小莹
Original assignee: Digital China Health Technologies Co ltd
Current assignee: Digital China Health Technologies Co ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-08

Abstract

本申请提供了一种二代测序数据的质量检测方法及装置，包括：获取目标样本的待检测数据；根据待检测数据，确定目标样本的评价信息，所述评价信息包括以下的任意至少两种子评价信息：碱基分布比例、碱基数目比例、高质量比对比例、交叉污染统计值和杂交捕获质量值；根据评价信息确定目标样本是否为合格样本。

Description

一种二代测序数据的质量检测方法及装置

技术领域

本申请涉及数据分析领域，具体而言，涉及一种二代测序数据的质量检测方法及装置。

背景技术

随着二代测序技术的不断发展，价格不断降低。针对人的WES技术(Whole ExomeSequencing，全外显子二代测序)和WGS技术(WholeGenome Sequencing，全基因组测序)在遗传病和癌症诊断领域的应用越来越普遍，但是当前国内市场的测序服务提供商超过两百家，各家的实验室建库及后续生物信息分析的质控标准参差不齐，这对后续遗传疾病位点的解读产生了严重的影响。当前人类基因组测序成本已经进入1000美元时代，尤其是WES数据，成本仅为WGS的三分之一左右，未来测序数据必然会愈来愈多，如何形成后续测序数据严格完整的质量控制体系已成为行业发展的瓶颈。

现有技术中，通过针对二代测序数据中的个别子数据，以自定的阈值进行数据的质量控制，不能保证数据结果的可信度和有效性。

发明内容

有鉴于此，本申请的目的在于提供一种二代测序数据的质量检测方法及装置，用于解决现有技术中如何提高二代测序数据质控结果的可信度的问题。

第一方面，本申请实施例提供了一种二代测序数据的质量检测方法，该方法包括：

获取目标样本的待检测数据；

根据待检测数据，确定目标样本的评价信息，所述评价信息包括以下的任意至少两种子评价信息：碱基分布比例、碱基数目比例、高质量比对比例、交叉污染统计值和杂交捕获质量值；

根据评价信息确定目标样本是否为合格样本。

根据第一方面，本申请实施例提供了第一方面的第一种可能的实施方案，其中，根据评价信息确定目标样本是否为合格样本，包括：

判断每种子评价信息是否均为合格状态；

若每个评价信息均为合格状态，则确定目标样本为合格样本。

根据第一方面的第一种可能的实施方案，本申请实施例提供了第一方面的第二种可能的实施方案，其中，按照如下方式确定碱基分布比例是否为合格状态：

根据所述待检测数据计算所述目标样本的碱基分布比例，判断所述碱基分布比例是否满足第一条件；所述第一条件为所述目标样本的碱基分布比例未超出预设碱基分布比例区间；

若所述待检测数据满足所述第一条件，确定所述碱基分布比例为合格状态；

若所述碱基分布比例和其他子评价信息均为合格状态，则确定目标样本为合格样本。

根据第一方面的第一种可能的实施方案，本申请实施例提供了第一方面的第三种可能的实施方案，其中，按照如下方式确定碱基分布比例是否为合格状态：

根据所述待检测数据计算所述目标样本各质量值的碱基数目比例，判断所述碱基数目比例是否满足第二条件；所述第二条件为所述目标样本各质量值的碱基数目比例未超出对应的预设碱基数目比例区间；

若所述待检测数据满足所述第二条件，确定所述碱基数目比例为合格状态；

若所述碱基数目比例和其他子评价信息均为合格状态，则确定目标样本为合格样本。

根据第一方面的第一种可能的实施方案，本申请实施例提供了第一方面的第四种可能的实施方案，其中，按照如下方式确定碱基分布比例是否为合格状态：

对所述待检测数据进行基因组比对得到待检测转换数据；

根据所述待检测转换数据计算所述目标样本的高质量比对比例，判断所述高质量比对比例是否满足第三条件；所述第三条件为所述目标样本的高质量比对比例不小于预设比对比例阈值；

若所述待检测转换数据满足所述第三条件，确定所述高质量比对比例为合格状态；

若所述高质量比对比例和其他子评价信息均为合格状态，则确定目标样本为合格样本。

根据第一方面的第一种可能的实施方案，本申请实施例提供了第一方面的第五种可能的实施方案，其中，按照如下方式确定碱基分布比例是否为合格状态：

对所述待检测数据进行基因组比对得到待检测转换数据；

根据所述待检测转换数据计算所述目标样本的交叉污染统计值，判断所述交叉污染统计值是否满足第四条件；所述第四条件为所述目标样本的交叉污染统计值不大于预设交叉污染统计阈值；

若所述待检测转换数据满足所述第四条件，确定所述交叉污染统计值为合格状态；

若所述交叉污染统计值和其他子评价信息均为合格状态，则确定目标样本为合格样本。

根据第一方面的第一种可能的实施方案，本申请实施例提供了第一方面的第六种可能的实施方案，其中，按照如下方式确定碱基分布比例是否为合格状态：

对所述待检测数据进行格式基因组比对得到待检测转换数据；

根据所述待检测转换数据计算所述目标样本的多个杂交捕获质量值，判断所述多个杂交捕获质量值是否满足第五条件；所述第五条件为所述目标样本的各杂交捕获质量值均在对应的预设杂交捕获质量值区间内；

若所述待检测转换数据满足所述第五条件，确定所述杂交捕获质量值为合格状态；

若所述杂交捕获质量值和其他子评价信息均为合格状态，则确定目标样本为合格样本。

第二方面，本申请实施例提供了一种二代测序数据的质量检测装置，该装置包括：

获取模块，用于获取目标样本的待检测数据；

计算模块，用于根据待检测数据，确定目标样本的评价信息，所述评价信息包括以下的任意至少两种子评价信息：碱基分布比例、碱基数目比例、高质量比对比例、交叉污染统计值和杂交捕获质量值；

判断模块，用于根据评价信息确定目标样本是否为合格样本。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面及其可能的实施方案中任一项所述的方法的步骤。

第四方面，本申请实施例一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面及其可能的实施方案中任一项所述的方法的步骤。

本申请实施例提出的一种二代测序数据的质量检测方法，通过对获取的目标样本的待检测数据进行分析，确定目标样本的评价信息，再根据评价信息中包含的至少两种评价子信息确定目标样本是否为合格样本。本申请实施例所提出的一种二代测序数据的质量检测方法能够有效地检测出二代测序数据存在问题的样本，提高二代测序数据质控结果的可信度，从而提高了经过质控之后合格的样本的可用性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种二代测序数据的质量检测方法的流程示意图；

图2为本申请实施例提供的一种二代测序数据的质量检测方法的流程示意图；

图3为本申请实施例提供的一种二代测序数据的质量检测装置的结构示意图；

图4为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种二代测序数据的质量检测方法，如图1所示，包括以下步骤：

步骤S101、获取目标样本的待检测数据；

步骤S102、根据待检测数据，确定目标样本的评价信息，上述评价信息包括以下的任意至少两种子评价信息：碱基分布比例、碱基数目比例、高质量比对比例、交叉污染统计值和杂交捕获质量值；

步骤S103、根据评价信息确定目标样本是否为合格样本。

具体地，本申请实施例为了保证对样本的质量控制结果的可信度，采用多种二代测序数据的指标做为样本的质量控制的依据，根据待检测数据可以计算出该待检测数据对应的目标样本的评价信息，采用碱基分布比例、碱基数目比例、高质量比对比例、交叉污染统计值和杂交捕获质量值中至少两种子评价信息来判断目标样本是否合格。

在一可选的实施例中，步骤S103、根据评价信息确定目标样本是否为合格样本，如图2所示，包括：

步骤S1031、判断每种子评价信息是否均为合格状态；

步骤S1032、若每个评价信息均为合格状态，则确定目标样本为合格样本。

为了保证目标样本的可用性，需要保证评价信息中的每种评价子信息都为合格状态，才能确定目标样本是合格样本。

而对于每种评价子信息的合格状态的判断均通过基于1000G数据库(1000GenomeProject)和ExAC数据库(the Exome AggregationConsortium，外显子组整合数据库)中的标准样本所建立的标准库以及基于上述数据库所设定的质控指标阈值来进行的。

在一可选的实施例中，按照如下方式确定碱基分布比例是否为合格状态：

步骤2011、根据上述待检测数据计算上述目标样本的碱基分布比例，判断上述碱基分布比例是否满足第一条件；上述第一条件为上述目标样本的碱基分布比例未超出预设碱基分布比例区间；

步骤2012、若上述待检测数据满足上述第一条件，确定上述碱基分布比例为合格状态；

步骤2013、若上述碱基分布比例和其他子评价信息均为合格状态，则确定目标样本为合格样本。

具体地，获取的目标样本的待检测数据为初始的FastQ格式的文件，通过对FastQ格式的文件中的数据进行分析可以得到目标样本的碱基分布比例。

例如针对目标样本都为中国人，那么基于1000G数据库和ExAC数据库中中国人的相关数据，可以计算出标准样本的碱基分布比例的平均值，作为碱基分布比例的标准值，根据允许误差范围确定预设碱基分布比例区间。

若目标样本的碱基分布比例超出该预设碱基分布比例，则说明该目标样本实验测序过程可能有问题，无法作为合格样本使用。

步骤2021、根据上述待检测数据计算上述目标样本各质量值的碱基数目比例，判断上述碱基数目比例是否满足第二条件；上述第二条件为上述目标样本各质量值的碱基数目比例未超出对应的预设碱基数目比例区间；

步骤2022、若上述待检测数据满足上述第二条件，确定上述碱基数目比例为合格状态；

步骤2023、若上述碱基数目比例和其他子评价信息均为合格状态，则确定目标样本为合格样本。

具体地，通过对FastQ格式的文件中的数据进行分析可以得到目标样本的Q20和Q30的碱基数目比例。

基于1000G数据库中的中国人的数据，可以计算出标准样本的Q20的碱基数目比例的平均值和标准差分别为0.907234047和0.030598，Q30的碱基数目比例的平均值和标准差分别为0.632925和0.062931作为碱基分布比例的标准值，遵从3σ原则，预设的Q20碱基数目比例区间为(0.815440047，1)，预设的Q30碱基数目比例区间为(0.444132，1)。

若目标样本的Q20和Q30的碱基数目比例超出对应的预设碱基数目比例区间，则说明该目标样本测序质量差，无法作为合格样本使用。

步骤2031、对上述待检测数据进行基因组比对得到待检测转换数据；

步骤2032、根据上述待检测转换数据计算上述目标样本的高质量比对比例，判断上述高质量比对比例是否满足第三条件；上述第三条件为上述目标样本的高质量比对比例不小于预设比对比例阈值；

步骤2033、若上述待检测转换数据满足上述第三条件，确定上述高质量比对比例为合格状态；

步骤2034、若上述高质量比对比例和其他子评价信息均为合格状态，则确定目标样本为合格样本。

具体地，通过将FastQ格式的文件进行基因组比对，得到目标样本的待检测数据的Bam格式的文件，通过对Bam格式的文件中的数据进行分析可以得到目标样本的高质量比对比例，也就是高质量的read比对比例。

通过对标准样本进行分析，得到标准样本的高质量read比对到参考基因组比例的平均值为0.991966，最小值为0.976797，所以预设比对比例阈值应在标准样本的高质量read比对到参考基因组比例的平均值到最小值之间取。本申请实施例优选为0.98。

如果目标样本的高质量比对比例小于0.98，则判断目标样本受到了其他物种DNA的污染。

步骤2041、对上述待检测数据进行基因组比对得到待检测转换数据；

步骤2042、根据上述待检测转换数据计算上述目标样本的交叉污染统计值，判断上述交叉污染统计值是否满足第四条件；上述第四条件为上述目标样本的交叉污染统计值不大于预设交叉污染统计阈值；

步骤2043、若上述待检测转换数据满足上述第四条件，确定上述交叉污染统计值为合格状态；

步骤2044、若上述交叉污染统计值和其他子评价信息均为合格状态，则确定目标样本为合格样本。

具体地，通过将FastQ格式的文件进行基因组比对，得到目标样本的待检测数据的Bam格式的文件，通过对Bam格式的文件中的数据进行分析可以得到目标样本的交叉污染统计值。

根据ExAC数据库中的数据设置交叉污染统计阈值，优选地，该计算交叉污染统计阈值设为0.075。

当目标样本的交叉污染统计值大于0.075，则目标样本已经受到污染，不能作为合格样本使用。

步骤2051、对上述待检测数据进行基因组比对得到待检测转换数据；

步骤2052、根据上述待检测转换数据计算上述目标样本的多个杂交捕获质量值，判断上述多个杂交捕获质量值是否满足第五条件；上述第五条件为上述目标样本的各杂交捕获质量值均在对应的预设杂交捕获质量值区间内；

步骤2053、若上述待检测转换数据满足上述第五条件，确定上述杂交捕获质量值为合格状态；

步骤2054、若上述杂交捕获质量值和其他子评价信息均为合格状态，则确定目标样本为合格样本。

具体地，通过将FastQ格式的文件进行基因组比对，得到目标样本的待检测数据的Bam格式的文件，通过对Bam格式的文件中的数据进行分析可以得到目标样本的多个杂交捕获质量值，包括：平均靶向捕获区域深度、富集倍数、靶向设计区域未覆盖百分比和与参考基因组进行unique比对得到的read占全体read的百分比。

其中，平均靶向捕获区域深度根据1000G数据库得到的标准样本的平均值为106.7，最低值为50，可以设置预设平均靶向捕获区域深度为50，若目标样本的平均靶向捕获区域深度低于50，则目标样本不合格。

富集倍数通过1000G数据库的标准样本计算出的最低值为18.4，优选地，预设富集倍数设定为15。

靶向设计区域未覆盖百分比通过1000G数据库的标准样本计算出的最高值为10.4％，优选地，预设靶向设计区域未覆盖百分比设定为10％，若目标样本的靶向设计区域未覆盖百分比超过10％，则目标样本不合格。

与参考基因组进行unique比对得到的read占全体read的百分比通过1000G数据库的标准样本计算出的值得变异度很大，但大致都大于70％，所以优选地，设置预设与参考基因组进行unique比对得到的read占全体read的百分比为70％，若目标样本的该指标小于70％，则目标样本不合格。

本申请实施例提供了一种二代测序数据的质量检测装置，如图3所示，该装置包括：

获取模块30，用于获取目标样本的待检测数据；

计算模块31，用于根据待检测数据，确定目标样本的评价信息，上述评价信息包括以下的任意至少两种子评价信息：碱基分布比例、碱基数目比例、高质量比对比例、交叉污染统计值和杂交捕获质量值；

判断模块32，用于根据评价信息确定目标样本是否为合格样本。

对应于图1中的一种二代测序数据的质量检测方法，本申请实施例还提供了一种计算机设备400，如图4所示，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述一种二代测序数据的质量检测方法。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述一种二代测序数据的质量检测方法，解决了现有技术中如何提高二代测序数据质控结果的可信度的问题。

对应于图1中的一种二代测序数据的质量检测方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述一种二代测序数据的质量检测方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述一种二代测序数据的质量检测方法，解决了现有技术中如何提高二代测序数据质控结果的可信度的问题，本申请通过对获取的目标样本的待检测数据进行分析，确定目标样本的评价信息，再根据评价信息中包含的至少两种评价子信息确定目标样本是否为合格样本。本申请实施例所提出的一种二代测序数据的质量检测方法能够有效地检测出二代测序数据存在问题的样本，提高二代测序数据质控结果的可信度，从而提高了经过质控之后合格的样本的可用性。

在本申请所提供的实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种二代测序数据的质量检测方法，其特征在于，包括：

获取目标样本的待检测数据；

根据评价信息确定目标样本是否为合格样本。

2.根据权利要求1所述的方法，其特征在于，根据评价信息确定目标样本是否为合格样本，包括：

判断每种子评价信息是否均为合格状态；

3.根据权利要求2所述的方法，其特征在于，按照如下方式确定碱基分布比例是否为合格状态：

4.根据权利要求2所述的方法，其特征在于，按照如下方式确定碱基分布比例是否为合格状态：

5.根据权利要求2所述的方法，其特征在于，按照如下方式确定碱基分布比例是否为合格状态：

对所述待检测数据进行基因组比对得到待检测转换数据；

6.根据权利要求2所述的方法，其特征在于，按照如下方式确定碱基分布比例是否为合格状态：

对所述待检测数据进行基因组比对得到待检测转换数据；

7.根据权利要求2所述的方法，其特征在于，按照如下方式确定碱基分布比例是否为合格状态：

对所述待检测数据进行基因组比对得到待检测转换数据；

8.一种二代测序数据的质量检测装置，其特征在于，包括：

获取模块，用于获取目标样本的待检测数据；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-7中任一项所述的方法的步骤。