CN116855617A

CN116855617A - 基于核心家系的串联重复变异分型检测方法及其应用

Info

Publication number: CN116855617A
Application number: CN202311109723.0A
Authority: CN
Inventors: 权慧; 杨伟飞; 任雪; 刘涛; 车天栋; 朱慧萍; 王娟; 李志民
Original assignee: Beijing Annoroad Medical Laboratory Co ltd; Zhejiang Annoroad Bio Technology Co ltd; Annoroad Gene Technology Beijing Co ltd
Current assignee: Annoroad Gene Technology Beijing Co ltd; Beijing Annoroad Medical Laboratory Co ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-10-10

Abstract

本发明公开了一种基于核心家系的串联重复变异分型检测方法及其应用。方法包括：基于父本的测序数据集和母本的测序数据集，对子代的测序数据集进行第一分型和组装；以得到的子代单倍型基因组为参考，分别对父本和母本基因组进行单核苷酸位点变异检测，并对父本的测序数据集和母本的测序数据集分别进行第二分型，得到两套父本单倍型基因组、两套母本单倍型基因组，并明确由父本遗传到子代的单倍型基因组、以及由母本遗传到子代的单倍型基因组；对单倍型基因组分别进行串联重复变异检测。本发明提供一种基于三代长读长测序技术，高准确度、全基因组覆盖的串联重复区域变异检测方法；而且本发明方法能得到遗传过程中串联重复发生变异的单倍型信息。

Description

基于核心家系的串联重复变异分型检测方法及其应用

技术领域

本发明涉及生物信息技术领域，具体地，涉及一种基于核心家系的串联重复变异分型检测方法及其应用。

背景技术

人类基因组中的变异和人类演化、疾病风险等方面都有着密切的联系。随着二代短读长高通量测序技术（NGS）的发展，研究者们开发了一系列检测基因组结构变异（Structure variations，简称SVs）的方法。在不考虑组装的情况下，基于二代测序数据检测变异的方法主要有三种策略：(1) Read Pair (RP)，即根据pair reads在参考基因组上的映射距离和方向，将每个读取对象分类为normal或SV，然后识别出符合SV类别的读取次数较多的区域，并分配一个置信度得分；(2) Split Read (SR)，即两条pair-end的reads中只有一条可以比对到参考基因组，另一条却不可以，产生这种***reads的位点往往是有结构变异的发生；(3) Read Depth (RD)，即reads覆盖深度，主要用于序列丢失或者重复的检测。特别地，针对串联重复区域，研究者开发出以下几种软件用于检测其变异信息，包括：

(1) TSSV(https://pypi.org/project/tssv/)；

(2) HipSTR（https://github.com/tfwillems/HipSTR）；

(3) STRSCan（http://darwin.informatics.indiana.edu/str/）等。

然而，由于二代测序读长短，很难覆盖到较长串联重复的整个区域，主要利用断点、深度信息等通过算法进行推断。例如，HipSTR使用repeat-aware隐式马尔科夫模型来比对reads，训练一个locus-specific的stutter models，同时利用flanking的SNP进行分型。此外，NGS测序在扩增时会有序列偏好性，也会影响TR检测。

三代测序将reads长度从二代的150~200 bp增加到15 kb~4 Mb，这种长读长reads可以直接覆盖绝大部分的TR区域，提供了准确获取拷贝数信息的测序数据基础，使得三代测序在串联重复变异检测方面比NGS技术有明显优势。不过目前基于三代测序数据开发的TR检测方法并不多，主要有：(1) Straglr，不基于已知的TR区域进行检测，主要检测基因组中新发的TR扩增；(2) TriColor，采取无参模式，对全基因组中扩增区域进行检测。这两种方法检测到的变异位点数较少，相较于参考基因组上约一百万个串联重复区域，这两个方法仅能得到几千到几万个区域的TR扩增位点；(3) TRGT，对已知的TR区域进行检测。该方法能对参考基因组上所有的串联重复区域进行检测。目前已有的方法主要通过聚类算法得到TR的分型信息，其准确性仍有待评估。此外，还有针对Nanopore测序数据开发的TR检测软件，如DeepRepeat，NanoSTR，但仍具有一定的局限性，并非针对PacBio CCS高精准三代测序数据开发的。

综上，串联重复区域的变异检测是NGS技术的难点，因其短读长无法跨过重复区域，而且比对时，在串联重复区域，很难确定断点位置和深度信息。长读长测序技术的发展为串联重复区域的变异检测带来技术上的支持。然而，目前的大多数算法要么存在有效位点数较低，要么无法得到准确的单倍型变异信息的问题。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于核心家系的串联重复变异分型检测方法及应用。本发明针对三代测序数据，尤其是PacBio CCS高精准三代测序数据，开发了高准确度、全基因组覆盖的串联重复区域变异检测方法；另一方面，结合分型技术，提出一种基于核心家系的串联重复变异分析技术，能得到遗传过程中串联重复发生变异的单倍型信息。

具体来说，本发明涉及如下基于核心家系的串联重复变异分型检测方法和应用。

1.一种基于核心家系的串联重复变异分型检测方法，包括：

步骤1、基于父本的测序数据集和母本的测序数据集，对子代的测序数据集进行第一分型和组装，得到两套子代单倍型基因组；

步骤2、以得到的子代单倍型基因组为参考，分别对父本和母本基因组进行单核苷酸位点变异检测，并对父本的测序数据集和母本的测序数据集分别进行第二分型，得到两套父本单倍型基因组、两套母本单倍型基因组，并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组；

步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。

2、根据上述的方法，所述测序数据集包括基因组的长reads；优选地，所述长reads为三代测序方法得到的长reads；更优选地，所述三代测序方法选自Pacbio和Nanopore中的至少一种；更优选地，所述测序数据集为HiFi reads。

3、根据上述的方法，所述第一分型的方法基于trio_binning方法。

4、根据上述的方法，所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析，得到父本和母本特异的kmer序列。

5、根据上述的方法，基于classify_by_kmers方法，并根据父本和母本特意的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集，或者为未分型的测序数据集。

6、根据上述的方法，所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。

7、根据上述的方法，所述第二分型的方法基于WhatsHap方法。

8、根据上述的方法，所述串联重复变异检测的方法为改进的Tandem RepeatFinder方法。

9、根据上述的方法，所述改进包括motif循环特点、检测区段的特征。

10、根据上述的方法，所述方法还包括：分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。

11、上述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。

12、根据上述的应用，所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。

附图说明

图1为本发明实施例1提供的基于核心家系的串联重复变异分型检测方法的流程图。

图2为本发明实施例1提供的motif长度分布图。

图3为实施例1和对比例2的motif长度和频数分布图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

术语定义

（1）串联重复（Tandem repeats, 简称TR）：DNA中的一个或多个核苷酸前后相连接的重复。当重复单元的核苷酸数低于10时，称为短串联重复（STR），当重复单元的核苷酸数在10到60之间时，被称为小卫星。当重复单元的拷贝数在人群中存在不同时，被称为可变数目串联重复序列（VNTR）。

（2）三代测序：三代测序技术，单分子测序技术，不需要经过PCR扩增，实现对每一条DNA分子进行单独测序的技术，无GC偏好性，有着更快的数据读取速度。

（3）核心家系：由一个孩子（子代）及其父母双亲组成的家系。

（4）基因组分型：通过生物检定法检测某一个体的DNA序列，并对比参照其他个体的基因型或序列的过程，可用于显示该个体等位基因从其父母遗传而来的情况。

（5）基因组组装：基因组组装（Genome assembly）是指使用测序方法将待测物种的基因组生成序列片段（即read），并根据reads 之间的重叠区域对片段进行拼接，先拼接成较长的连续序列（contig），再将contigs 拼接成更长的允许包含空白序列（gap）的scaffolds，通过消除scaffolds 的错误和gaps，将这些scaffolds 定位到染色体上，从而得到高质量的全基因组序列。

本发明第一方面提供了一种基于核心家系的串联重复变异分型检测方法，包括：

根据本发明的分型检测方法，优选地，所述测序数据集包括基因组的长reads；优选地，所述测序数据集包括基因组的三代测序方法得到的长reads；更优选地，所述三代测序方法选自Pacbio和Nanopore中的至少一种；更优选地，所述测序数据集为HiFi reads。根据本发明的方法，平均测序深度优选为15×以上。

根据本发明的分型检测方法，优选地，所述第一分型的方法基于trio_binning方法。trio_binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合，然后每个单倍型独立组装，形成一个完整的二倍体重建。

根据本发明的分型检测方法，优选地，所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析，得到父本和母本特异的kmer序列。更优选地，基于classify_by_kmers方法，并根据父本和母本特意的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集，或者为未分型的测序数据集。优选地，对于未分型的测序数据集不进行组装。

根据本发明的分型检测方法，优选地，所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。

根据本发明的分型检测方法，优选地，所述第二分型的方法基于WhatsHap方法。

根据本发明的分型检测方法，优选地，所述串联重复变异检测的方法为改进的Tandem Repeat Finder方法。

根据本发明的分型检测方法，优选地，所述改进包括motif循环特点、检测区段的特征。其中，motif循环特点包括motif碱基序列等。例如但不限于在考虑ATC的motif碱基序列的同时，也会考虑TCA和CAT的motif循环等。检测区段的特征是指在检测某个区间时，考虑该区段起止点之间整个区段的拷贝数。

根据本发明的分型检测方法，优选地，所述方法还包括：分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。计算得到遗传过程中串联重复区域拷贝数的变化，然后进行分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。

本发明第二方面提供了上述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。

根据本发明的应用，优选地，所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。

本发明具有以下优点：

（1）本发明的方法将组装、分型技术结合到变异检测中，首先从测序数据集中准确地分出了子代的两套单倍型基因组，以及父母亲本遗传给子代的基因组，这一点相较已有算法中通过聚类方法得到的两个单倍型基因型更准确。

（2）本发明方法采用改进后的TRF算法，综合考量到motif的循环特点、区段不同部分特征不同等情况，检测到的拷贝数更准确。

（3）本发明方法针对参考基因组中的所有串联重复区域进行了全面检索，得到了上百万个位点的拷贝数信息，相较已有算法的无参模式中得到的几千到几万个位点，本发明方法更全面地挖掘了全基因组上的串联重复变异信息。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

下面参考具体实施例，对本发明进行说明，需要说明的是，这些实施例仅仅是说明性的，而不能理解为对本发明的限制。

【实施例1】

一种基于核心家系的串联重复变异分型检测方法，该方法原理示意图如图1所示。图1中，p1代表子代的测序数据集；Long reads代表长读长；P代表来自父本的子代单倍型基因组；M代表来自母本的子代单倍型基因组；Fa代表父本测序数据集；Mo代表母本测序数据集；hap1为第一套单倍型基因组，也是由亲本遗传给子代的单倍型基因组；hap2为第二套单倍型基因组。

步骤1、准备一个核心家系，对父本、母本、子代进行取样，对样本进行三代HiFi测序，测序数据量170G，平均测序深度为18.4×，分别得到父本的长reads、母本的长reads、子代的长reads（以下简写长reads为reads）；基于父本的reads和母本的reads，使用trio_binning方法的find-unique-kmers分析对子代的reads（图1中的P1）进行分型，得到父本和母本特异的kmer序列，基于classify_by_kmers方法，并根据父本和母本特异的kmer序列判断子代测序reads为属于父本的reads、属于母本的reads，或者为未分型的reads（不组装）。使用hifiasm进行组装，得到两套子代单倍型基因组（图1中的P和M）；

步骤2、以得到的子代单倍型基因组为参考，对父本和母本基因组进行单核苷酸位点变异检测，并基于WhatsHap方法对父本的reads和母本的reads分别进行分型，得到两套父本单倍型基因组（Fa的hap1、hap2）、两套母本单倍型基因组（Mo的hap1、hap2），并确定由父本遗传到子代的单倍型基因组（例如Fa的hap1）、由母本遗传到子代的单倍型基因组（例如Mo的hap1）；结果如下表1。

表1

Sample	Read_num	Base_num(Gb)	Phased_read_rate(%)	hap1	hap2
						Fa	4434073	62.44	98.72	2743164	1634016
Mo	3632160	53.06	99.80	2243035	1381715
						P1	3251252	54.56	86.58	1420527	1394308

表1中，Sample指样品；Read-num指read数；Base-num指碱基数；Phased_read_rate指分型效率；hap1指第一套单倍型基因组reads数；hap2指第二套单倍型基因组reads数。

步骤3、使用改进的Tandem Repeat Finder方法，对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。其中，改进的Tandem Repeat Finder方法需考虑motif循环特点（motif碱基序列）、检测区段的特征（在检测某个区间时，考虑该区段起止点之间整个区段的拷贝数），从而得到参考基因组上所有已知重复区间在具体样本中的拷贝数信息。结果共得到1025347个串联重复（TR）位点拷贝信息，这些位点的motif长度分布如图2所示。统计得到每个样本的串联重复分型拷贝数信息，以三个区间为示例，结果如下表2。

表2

Chr

start

end

motif

Motiflength

Copynumber

Father

Mother

p1

chrX

268059

268998

AGAGAG

6

155.2

GT:141.5DP:6hap1:268.5(1),66.6(2),87.7(1),270.5(1),89.3(1)

GT:65.2DP:8hap1:102.5(1),100.3(1),43.6(5),101.2(1)

GT:104.2/155.2DP:12/3hap1:270.5(1),66.6(8),267.5(1),89.8(1),89.3(1); hap2:155.2(2),155.3(1)

chrX

268071

269016

AGAGAGAC

8

116.6

GT:70.5DP:6hap1:67.6(2),66.6(3),87.7(1)

GT:47.6DP:8hap1:43.6(7),75.6(1)

GT:66.6/155.2DP:12/3hap1:45.6(1),66.6(11);hap2:155.2(2),155.3(1)

chrX

314102

314833

AGGA

4

174.5

GT:227.2DP:3hap1:223.5(2),234.5(1)

GT:174.6DP:10hap1:174.5(8),174.0(1),175.5(1)

GT:223.5/540.7DP:3/6hap1:224.0(1),223.5(1),222.5(1)hap2:539.5(3),537.5(1),547.5(1),540.5(1)

表2中，start指区间的开始位置；end指区间的结束位位置；motif指motif碱基序列；Motif length指motif 的碱基长度（bp）；Copy number指该区间在参考基因组上的拷贝数（个）；Father指父本的串联重复变异检测结果；Mother指母本的串联重复变异检测结果；p1指子代的串联重复变异检测结果。父本、母本和子代的变异检测结果中GT表示该样本在该区间检测的拷贝数的个数，DP表示该区间在样本中覆盖的测序Reads深度，hap1/hap2中记录了每条reads检测的拷贝数个数信息。

通过上表2能够得到1025347个串联重复区间在父母本和子代中的拷贝数个数。

步骤4、基于核心家系，分析在家系遗传中串联重复的变异信息，以表2中三个位点为示例，结果如下表3。

表3

Chr	start	end	motif	Motif length	Copy number	Diff_p1_fa	Diff_p1_mo
								chrX	268059	268998	AGAGAG	6	155.2	-37.3	90
chrX	268071	269016	AGAGAGAC	8	116.6	-3.9	107.6
								chrX	314102	314833	AGGA	4	174.5	-3.7	366.1

表3中，start指区间的开始位置；end指区间的结束位位置；motif指motif碱基序列；Motif length指motif 碱基长度（bp）；Copy number指拷贝数（个）；Diff_p1_fa指遗传过程中，子代相较父本的拷贝数变化数（个）；Diff_p1_mo指遗传过程中，子代相较母本的拷贝数变化数（个）。

【对比例1】

一种基于Straglr方法的串联重复变异分型检测方法。

采用与实施例1相同的核心家系，对父本、母本、子代进行取样。

根据Chiu, R., Rajan-Babu, I.-S., Friedman, J.M., and Birol, I.(2021). Straglr: discovering and genotyping tandem repeat expansions usingwhole genome long-read sequences. Genome Biol 22, 224. 10.1186/s13059-021-02447-3公开的方法进行串联重复变异分型检测。

根据此方法，父本、母本、子代的三个样本中检测到的有效位点个数如表4所示。同时，将本发明实施例检测到的有效位点个数做对比，结果如表4所示。

表4. 有效位点个数

	Fa（个）	Mo（个）	P1（个）
				对比例1	2959	2907	2962
实施例1	1025347	1025347	1025347

将采用本发明方法的实施例1与对比例1进行比较，能够看出，本发明方法能够产生更多有效位点的拷贝数信息，远远多于Straglr方法所能提供的信息。

【对比例2】

一种基于TRGT方法的串联重复变异分型检测方法。

该方法为PacBio官方推荐的一个方法，其基于已知TR区域进行检测，提供两个分型的拷贝数信息。

对P1样本的两款软件的结果进行了比较，统计不同拷贝数差值区间的位点数，结果如表5和图3所示。

表5

拷贝数差值分布（个）	计数（频数）
		~-100	8339
-100~-50	412
		-50~-20	1358
-20~-10	2779
		-10~-5	6900
-5~0	160879
		0~5	101920
5~10	5555
		10~20	4180
20~50	1817
		50~100	595
100~	5528

表5中，分布指TRGT方法与实施例1的方法得到的拷贝数值差值的分布；计数是指该分布下的频数。

通过表5和图3能够看出，TRGT方法与实施例1的方法得到的拷贝数值差值的分布主要集中在-5~0和0~5之间，发现87.5%的位点拷贝数差异在5个拷贝以内，说明本发明的方法的准确性比较高。

相较于TRGT，本方法提供的两套分型结果是基于家系的分型策略得到的两套基因组，而非简单聚类，所以本方法最后得到的遗传过程中TR的变异信息更加准确。

此外，通过对局部位点验证，见表6，发现部分位点上，TRGT会得到不存在的异常扩增拷贝数，即假阳性，而在这些位点上，本发明的方法的准确性更优于TRGT。

表6

Chr	start	end	motif	参考基因组拷贝数	TRGT检测拷贝数	本方法检测拷贝数	判定
								chr5	17599808	17599840	TTTAT	6.4	4127.6	6.4	TRGT假阳性
chr10	134640370	134640421	GGAG	12.8	3334	12.8	TRGT假阳性
								chr8	101801252	101801289	TTTTA	7.6	558.6	17.2	TRGT假阳性
chrX	153748481	153748523	TTTTA	8.4	399.6	9.4	TRGT假阳性
								chr21	5573981	5574006	CTCC	6.2	391.2	13.2	TRGT假阳性
chr19	40590998	40591023	AAG	8.3	369.3	8.3	TRGT假阳性

通过实施例1、对比例1和对比例2能够看出，本发明得到了1025347个串联重复（TR）位点从亲本遗传到子代的拷贝数变异信息（表3的Diff_p1_fa，Diff_p1_mo），该信息可用于遗传病的病因分析、新生突变分析等。然而对比例1检测到的有效位点数远远小于本发明的方法（表4）。对比例2在部分位点上存在较高的假阳性（表6）的问题。因此本发明的方法具有更高的准确性和全面性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于核心家系的串联重复变异分型检测方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述测序数据集包括基因组的三代测序方法得到的长reads。

3.根据权利要求1所述的方法，其特征在于，所述第一分型的方法基于trio_binning方法。

4.根据权利要求3所述的方法，其特征在于，所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析，得到父本和母本特异的kmer序列。

5.根据权利要求4所述的方法，其特征在于，基于classify_by_kmers方法，并根据父本和母本特异的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集，或者为未分型的测序数据集。

6.根据权利要求1所述的方法，其特征在于，所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。

7.根据权利要求1所述的方法，其特征在于，所述第二分型的方法基于WhatsHap方法。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述串联重复变异检测的方法为改进的Tandem Repeat Finder方法。

9.根据权利要求8所述的方法，其特征在于，所述改进包括motif循环特点、检测区段的特征。

10.根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。

11.权利要求1-10中任一项所述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。

12.根据权利要求11所述的应用，其特征在于，所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。