发明内容
针对上述现有技术存在的问题,本发明提供一种基于核心家系的串联重复变异分型检测方法及应用。本发明针对三代测序数据,尤其是PacBio CCS高精准三代测序数据,开发了高准确度、全基因组覆盖的串联重复区域变异检测方法;另一方面,结合分型技术,提出一种基于核心家系的串联重复变异分析技术,能得到遗传过程中串联重复发生变异的单倍型信息。
具体来说,本发明涉及如下基于核心家系的串联重复变异分型检测方法和应用。
1.一种基于核心家系的串联重复变异分型检测方法,包括:
步骤1、基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装,得到两套子代单倍型基因组;
步骤2、以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组;
步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。
2、根据上述的方法,所述测序数据集包括基因组的长reads;优选地,所述长reads为三代测序方法得到的长reads;更优选地,所述三代测序方法选自Pacbio和Nanopore中的至少一种;更优选地,所述测序数据集为HiFi reads。
3、根据上述的方法,所述第一分型的方法基于trio_binning方法。
4、根据上述的方法,所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析,得到父本和母本特异的kmer序列。
5、根据上述的方法,基于classify_by_kmers方法,并根据父本和母本特意的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集,或者为未分型的测序数据集。
6、根据上述的方法,所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。
7、根据上述的方法,所述第二分型的方法基于WhatsHap方法。
8、根据上述的方法,所述串联重复变异检测的方法为改进的Tandem RepeatFinder方法。
9、根据上述的方法,所述改进包括motif循环特点、检测区段的特征。
10、根据上述的方法,所述方法还包括:分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。
11、上述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。
12、根据上述的应用,所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
术语定义
(1)串联重复(Tandem repeats, 简称TR):DNA中的一个或多个核苷酸前后相连接的重复。当重复单元的核苷酸数低于10时,称为短串联重复(STR),当重复单元的核苷酸数在10到60之间时,被称为小卫星。当重复单元的拷贝数在人群中存在不同时,被称为可变数目串联重复序列(VNTR)。
(2)三代测序:三代测序技术,单分子测序技术,不需要经过PCR扩增,实现对每一条DNA分子进行单独测序的技术,无GC偏好性,有着更快的数据读取速度。
(3)核心家系:由一个孩子(子代)及其父母双亲组成的家系。
(4)基因组分型:通过生物检定法检测某一个体的DNA序列,并对比参照其他个体的基因型或序列的过程,可用于显示该个体等位基因从其父母遗传而来的情况。
(5)基因组组装:基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续序列(contig),再将contigs 拼接成更长的允许包含空白序列(gap)的scaffolds,通过消除scaffolds 的错误和gaps,将这些scaffolds 定位到染色体上,从而得到高质量的全基因组序列。
本发明第一方面提供了一种基于核心家系的串联重复变异分型检测方法,包括:
步骤1、基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装,得到两套子代单倍型基因组;
步骤2、以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组;
步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。
根据本发明的分型检测方法,优选地,所述测序数据集包括基因组的长reads;优选地,所述测序数据集包括基因组的三代测序方法得到的长reads;更优选地,所述三代测序方法选自Pacbio和Nanopore中的至少一种;更优选地,所述测序数据集为HiFi reads。根据本发明的方法,平均测序深度优选为15×以上。
根据本发明的分型检测方法,优选地,所述第一分型的方法基于trio_binning方法。trio_binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。
根据本发明的分型检测方法,优选地,所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析,得到父本和母本特异的kmer序列。更优选地,基于classify_by_kmers方法,并根据父本和母本特意的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集,或者为未分型的测序数据集。优选地,对于未分型的测序数据集不进行组装。
根据本发明的分型检测方法,优选地,所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。
根据本发明的分型检测方法,优选地,所述第二分型的方法基于WhatsHap方法。
根据本发明的分型检测方法,优选地,所述串联重复变异检测的方法为改进的Tandem Repeat Finder方法。
根据本发明的分型检测方法,优选地,所述改进包括motif循环特点、检测区段的特征。其中,motif循环特点包括motif碱基序列等。例如但不限于在考虑ATC的motif碱基序列的同时,也会考虑TCA和CAT的motif循环等。检测区段的特征是指在检测某个区间时,考虑该区段起止点之间整个区段的拷贝数。
根据本发明的分型检测方法,优选地,所述方法还包括:分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。计算得到遗传过程中串联重复区域拷贝数的变化,然后进行分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。
本发明第二方面提供了上述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。
根据本发明的应用,优选地,所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。
本发明具有以下优点:
(1)本发明的方法将组装、分型技术结合到变异检测中,首先从测序数据集中准确地分出了子代的两套单倍型基因组,以及父母亲本遗传给子代的基因组,这一点相较已有算法中通过聚类方法得到的两个单倍型基因型更准确。
(2)本发明方法采用改进后的TRF算法,综合考量到motif的循环特点、区段不同部分特征不同等情况,检测到的拷贝数更准确。
(3)本发明方法针对参考基因组中的所有串联重复区域进行了全面检索,得到了上百万个位点的拷贝数信息,相较已有算法的无参模式中得到的几千到几万个位点,本发明方法更全面地挖掘了全基因组上的串联重复变异信息。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
下面参考具体实施例,对本发明进行说明,需要说明的是,这些实施例仅仅是说明性的,而不能理解为对本发明的限制。
【实施例1】
一种基于核心家系的串联重复变异分型检测方法,该方法原理示意图如图1所示。图1中,p1代表子代的测序数据集;Long reads代表长读长;P代表来自父本的子代单倍型基因组;M代表来自母本的子代单倍型基因组;Fa代表父本测序数据集;Mo代表母本测序数据集;hap1为第一套单倍型基因组,也是由亲本遗传给子代的单倍型基因组;hap2为第二套单倍型基因组。
步骤1、准备一个核心家系,对父本、母本、子代进行取样,对样本进行三代HiFi测序,测序数据量170G,平均测序深度为18.4×,分别得到父本的长reads、母本的长reads、子代的长reads(以下简写长reads为reads);基于父本的reads和母本的reads,使用trio_binning方法的find-unique-kmers分析对子代的reads(图1中的P1)进行分型,得到父本和母本特异的kmer序列,基于classify_by_kmers方法,并根据父本和母本特异的kmer序列判断子代测序reads为属于父本的reads、属于母本的reads,或者为未分型的reads(不组装)。使用hifiasm进行组装,得到两套子代单倍型基因组(图1中的P和M);
步骤2、以得到的子代单倍型基因组为参考,对父本和母本基因组进行单核苷酸位点变异检测,并基于WhatsHap方法对父本的reads和母本的reads分别进行分型,得到两套父本单倍型基因组(Fa的hap1、hap2)、两套母本单倍型基因组(Mo的hap1、hap2),并确定由父本遗传到子代的单倍型基因组(例如Fa的hap1)、由母本遗传到子代的单倍型基因组(例如Mo的hap1);结果如下表1。
表1
Sample |
Read_num |
Base_num(Gb) |
Phased_read_rate(%) |
hap1 |
hap2 |
Fa |
4434073 |
62.44 |
98.72 |
2743164 |
1634016 |
Mo |
3632160 |
53.06 |
99.80 |
2243035 |
1381715 |
P1 |
3251252 |
54.56 |
86.58 |
1420527 |
1394308 |
表1中,Sample指样品;Read-num指read数;Base-num指碱基数;Phased_read_rate指分型效率;hap1指第一套单倍型基因组reads数;hap2指第二套单倍型基因组reads数。
步骤3、使用改进的Tandem Repeat Finder方法,对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。其中,改进的Tandem Repeat Finder方法需考虑motif循环特点(motif碱基序列)、检测区段的特征(在检测某个区间时,考虑该区段起止点之间整个区段的拷贝数),从而得到参考基因组上所有已知重复区间在具体样本中的拷贝数信息。结果共得到1025347个串联重复(TR)位点拷贝信息,这些位点的motif长度分布如图2所示。统计得到每个样本的串联重复分型拷贝数信息,以三个区间为示例,结果如下表2。
表2
Chr |
start |
end |
motif |
Motiflength |
Copynumber |
Father |
Mother |
p1 |
chrX |
268059 |
268998 |
AGAGAG |
6 |
155.2 |
GT:141.5DP:6hap1:268.5(1),66.6(2),87.7(1),270.5(1),89.3(1) |
GT:65.2DP:8hap1:102.5(1),100.3(1),43.6(5),101.2(1) |
GT:104.2/155.2DP:12/3hap1:270.5(1),66.6(8),267.5(1),89.8(1),89.3(1); hap2:155.2(2),155.3(1) |
chrX |
268071 |
269016 |
AGAGAGAC |
8 |
116.6 |
GT:70.5DP:6hap1:67.6(2),66.6(3),87.7(1) |
GT:47.6DP:8hap1:43.6(7),75.6(1) |
GT:66.6/155.2DP:12/3hap1:45.6(1),66.6(11);hap2:155.2(2),155.3(1) |
chrX |
314102 |
314833 |
AGGA |
4 |
174.5 |
GT:227.2DP:3hap1:223.5(2),234.5(1) |
GT:174.6DP:10hap1:174.5(8),174.0(1),175.5(1) |
GT:223.5/540.7DP:3/6hap1:224.0(1),223.5(1),222.5(1)hap2:539.5(3),537.5(1),547.5(1),540.5(1) |
表2中,start指区间的开始位置;end指区间的结束位位置;motif指motif碱基序列;Motif length指motif 的碱基长度(bp);Copy number指该区间在参考基因组上的拷贝数(个);Father指父本的串联重复变异检测结果;Mother指母本的串联重复变异检测结果;p1指子代的串联重复变异检测结果。父本、母本和子代的变异检测结果中GT表示该样本在该区间检测的拷贝数的个数,DP表示该区间在样本中覆盖的测序Reads深度,hap1/hap2中记录了每条reads检测的拷贝数个数信息。
通过上表2能够得到1025347个串联重复区间在父母本和子代中的拷贝数个数。
步骤4、基于核心家系,分析在家系遗传中串联重复的变异信息,以表2中三个位点为示例,结果如下表3。
表3
Chr |
start |
end |
motif |
Motif length |
Copy number |
Diff_p1_fa |
Diff_p1_mo |
chrX |
268059 |
268998 |
AGAGAG |
6 |
155.2 |
-37.3 |
90 |
chrX |
268071 |
269016 |
AGAGAGAC |
8 |
116.6 |
-3.9 |
107.6 |
chrX |
314102 |
314833 |
AGGA |
4 |
174.5 |
-3.7 |
366.1 |
表3中,start指区间的开始位置;end指区间的结束位位置;motif指motif碱基序列;Motif length指motif 碱基长度(bp);Copy number指拷贝数(个);Diff_p1_fa指遗传过程中,子代相较父本的拷贝数变化数(个);Diff_p1_mo指遗传过程中,子代相较母本的拷贝数变化数(个)。
【对比例1】
一种基于Straglr方法的串联重复变异分型检测方法。
采用与实施例1相同的核心家系,对父本、母本、子代进行取样。
根据Chiu, R., Rajan-Babu, I.-S., Friedman, J.M., and Birol, I.(2021). Straglr: discovering and genotyping tandem repeat expansions usingwhole genome long-read sequences. Genome Biol 22, 224. 10.1186/s13059-021-02447-3公开的方法进行串联重复变异分型检测。
根据此方法,父本、母本、子代的三个样本中检测到的有效位点个数如表4所示。同时,将本发明实施例检测到的有效位点个数做对比,结果如表4所示。
表4. 有效位点个数
|
Fa(个) |
Mo(个) |
P1(个) |
对比例1 |
2959 |
2907 |
2962 |
实施例1 |
1025347 |
1025347 |
1025347 |
将采用本发明方法的实施例1与对比例1进行比较,能够看出,本发明方法能够产生更多有效位点的拷贝数信息,远远多于Straglr方法所能提供的信息。
【对比例2】
一种基于TRGT方法的串联重复变异分型检测方法。
该方法为PacBio官方推荐的一个方法,其基于已知TR区域进行检测,提供两个分型的拷贝数信息。
对P1样本的两款软件的结果进行了比较,统计不同拷贝数差值区间的位点数,结果如表5和图3所示。
表5
拷贝数差值分布(个) |
计数(频数) |
~-100 |
8339 |
-100~-50 |
412 |
-50~-20 |
1358 |
-20~-10 |
2779 |
-10~-5 |
6900 |
-5~0 |
160879 |
0~5 |
101920 |
5~10 |
5555 |
10~20 |
4180 |
20~50 |
1817 |
50~100 |
595 |
100~ |
5528 |
表5中,分布指TRGT方法与实施例1的方法得到的拷贝数值差值的分布;计数是指该分布下的频数。
通过表5和图3能够看出,TRGT方法与实施例1的方法得到的拷贝数值差值的分布主要集中在-5~0和0~5之间,发现87.5%的位点拷贝数差异在5个拷贝以内,说明本发明的方法的准确性比较高。
相较于TRGT,本方法提供的两套分型结果是基于家系的分型策略得到的两套基因组,而非简单聚类,所以本方法最后得到的遗传过程中TR的变异信息更加准确。
此外,通过对局部位点验证,见表6,发现部分位点上,TRGT会得到不存在的异常扩增拷贝数,即假阳性,而在这些位点上,本发明的方法的准确性更优于TRGT。
表6
Chr |
start |
end |
motif |
参考基因组拷贝数 |
TRGT检测拷贝数 |
本方法检测拷贝数 |
判定 |
chr5 |
17599808 |
17599840 |
TTTAT |
6.4 |
4127.6 |
6.4 |
TRGT假阳性 |
chr10 |
134640370 |
134640421 |
GGAG |
12.8 |
3334 |
12.8 |
TRGT假阳性 |
chr8 |
101801252 |
101801289 |
TTTTA |
7.6 |
558.6 |
17.2 |
TRGT假阳性 |
chrX |
153748481 |
153748523 |
TTTTA |
8.4 |
399.6 |
9.4 |
TRGT假阳性 |
chr21 |
5573981 |
5574006 |
CTCC |
6.2 |
391.2 |
13.2 |
TRGT假阳性 |
chr19 |
40590998 |
40591023 |
AAG |
8.3 |
369.3 |
8.3 |
TRGT假阳性 |
通过实施例1、对比例1和对比例2能够看出,本发明得到了1025347个串联重复(TR)位点从亲本遗传到子代的拷贝数变异信息(表3的Diff_p1_fa,Diff_p1_mo),该信息可用于遗传病的病因分析、新生突变分析等。然而对比例1检测到的有效位点数远远小于本发明的方法(表4)。对比例2在部分位点上存在较高的假阳性(表6)的问题。因此本发明的方法具有更高的准确性和全面性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。