CN116855617A - 基于核心家系的串联重复变异分型检测方法及其应用 - Google Patents

基于核心家系的串联重复变异分型检测方法及其应用 Download PDF

Info

Publication number
CN116855617A
CN116855617A CN202311109723.0A CN202311109723A CN116855617A CN 116855617 A CN116855617 A CN 116855617A CN 202311109723 A CN202311109723 A CN 202311109723A CN 116855617 A CN116855617 A CN 116855617A
Authority
CN
China
Prior art keywords
haplotype
genome
parent
offspring
typing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311109723.0A
Other languages
English (en)
Inventor
权慧
杨伟飞
任雪
刘涛
车天栋
朱慧萍
王娟
李志民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoroad Gene Technology Beijing Co ltd
Beijing Annoroad Medical Laboratory Co ltd
Original Assignee
Beijing Annoroad Medical Laboratory Co ltd
Zhejiang Annoroad Bio Technology Co ltd
Annoroad Gene Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Annoroad Medical Laboratory Co ltd, Zhejiang Annoroad Bio Technology Co ltd, Annoroad Gene Technology Beijing Co ltd filed Critical Beijing Annoroad Medical Laboratory Co ltd
Priority to CN202311109723.0A priority Critical patent/CN116855617A/zh
Publication of CN116855617A publication Critical patent/CN116855617A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于核心家系的串联重复变异分型检测方法及其应用。方法包括:基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装;以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、以及由母本遗传到子代的单倍型基因组;对单倍型基因组分别进行串联重复变异检测。本发明提供一种基于三代长读长测序技术,高准确度、全基因组覆盖的串联重复区域变异检测方法;而且本发明方法能得到遗传过程中串联重复发生变异的单倍型信息。

Description

基于核心家系的串联重复变异分型检测方法及其应用
技术领域
本发明涉及生物信息技术领域,具体地,涉及一种基于核心家系的串联重复变异分型检测方法及其应用。
背景技术
人类基因组中的变异和人类演化、疾病风险等方面都有着密切的联系。随着二代短读长高通量测序技术(NGS)的发展,研究者们开发了一系列检测基因组结构变异(Structure variations,简称SVs)的方法。在不考虑组装的情况下,基于二代测序数据检测变异的方法主要有三种策略:(1) Read Pair (RP),即根据pair reads在参考基因组上的映射距离和方向,将每个读取对象分类为normal或SV,然后识别出符合SV类别的读取次数较多的区域,并分配一个置信度得分;(2) Split Read (SR),即两条pair-end的reads中只有一条可以比对到参考基因组,另一条却不可以,产生这种***reads的位点往往是有结构变异的发生;(3) Read Depth (RD),即reads覆盖深度,主要用于序列丢失或者重复的检测。特别地,针对串联重复区域,研究者开发出以下几种软件用于检测其变异信息,包括:
(1) TSSV(https://pypi.org/project/tssv/);
(2) HipSTR(https://github.com/tfwillems/HipSTR);
(3) STRSCan(http://darwin.informatics.indiana.edu/str/)等。
然而,由于二代测序读长短,很难覆盖到较长串联重复的整个区域,主要利用断点、深度信息等通过算法进行推断。例如,HipSTR使用repeat-aware隐式马尔科夫模型来比对reads,训练一个locus-specific的stutter models,同时利用flanking的SNP进行分型。此外,NGS测序在扩增时会有序列偏好性,也会影响TR检测。
三代测序将reads长度从二代的150~200 bp增加到15 kb~4 Mb,这种长读长reads可以直接覆盖绝大部分的TR区域,提供了准确获取拷贝数信息的测序数据基础,使得三代测序在串联重复变异检测方面比NGS技术有明显优势。不过目前基于三代测序数据开发的TR检测方法并不多,主要有:(1) Straglr,不基于已知的TR区域进行检测,主要检测基因组中新发的TR扩增;(2) TriColor,采取无参模式,对全基因组中扩增区域进行检测。这两种方法检测到的变异位点数较少,相较于参考基因组上约一百万个串联重复区域,这两个方法仅能得到几千到几万个区域的TR扩增位点;(3) TRGT,对已知的TR区域进行检测。该方法能对参考基因组上所有的串联重复区域进行检测。目前已有的方法主要通过聚类算法得到TR的分型信息,其准确性仍有待评估。此外,还有针对Nanopore测序数据开发的TR检测软件,如DeepRepeat,NanoSTR,但仍具有一定的局限性,并非针对PacBio CCS高精准三代测序数据开发的。
综上,串联重复区域的变异检测是NGS技术的难点,因其短读长无法跨过重复区域,而且比对时,在串联重复区域,很难确定断点位置和深度信息。长读长测序技术的发展为串联重复区域的变异检测带来技术上的支持。然而,目前的大多数算法要么存在有效位点数较低,要么无法得到准确的单倍型变异信息的问题。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于核心家系的串联重复变异分型检测方法及应用。本发明针对三代测序数据,尤其是PacBio CCS高精准三代测序数据,开发了高准确度、全基因组覆盖的串联重复区域变异检测方法;另一方面,结合分型技术,提出一种基于核心家系的串联重复变异分析技术,能得到遗传过程中串联重复发生变异的单倍型信息。
具体来说,本发明涉及如下基于核心家系的串联重复变异分型检测方法和应用。
1.一种基于核心家系的串联重复变异分型检测方法,包括:
步骤1、基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装,得到两套子代单倍型基因组;
步骤2、以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组;
步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。
2、根据上述的方法,所述测序数据集包括基因组的长reads;优选地,所述长reads为三代测序方法得到的长reads;更优选地,所述三代测序方法选自Pacbio和Nanopore中的至少一种;更优选地,所述测序数据集为HiFi reads。
3、根据上述的方法,所述第一分型的方法基于trio_binning方法。
4、根据上述的方法,所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析,得到父本和母本特异的kmer序列。
5、根据上述的方法,基于classify_by_kmers方法,并根据父本和母本特意的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集,或者为未分型的测序数据集。
6、根据上述的方法,所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。
7、根据上述的方法,所述第二分型的方法基于WhatsHap方法。
8、根据上述的方法,所述串联重复变异检测的方法为改进的Tandem RepeatFinder方法。
9、根据上述的方法,所述改进包括motif循环特点、检测区段的特征。
10、根据上述的方法,所述方法还包括:分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。
11、上述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。
12、根据上述的应用,所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。
附图说明
图1为本发明实施例1提供的基于核心家系的串联重复变异分型检测方法的流程图。
图2为本发明实施例1提供的motif长度分布图。
图3为实施例1和对比例2的motif长度和频数分布图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
术语定义
(1)串联重复(Tandem repeats, 简称TR):DNA中的一个或多个核苷酸前后相连接的重复。当重复单元的核苷酸数低于10时,称为短串联重复(STR),当重复单元的核苷酸数在10到60之间时,被称为小卫星。当重复单元的拷贝数在人群中存在不同时,被称为可变数目串联重复序列(VNTR)。
(2)三代测序:三代测序技术,单分子测序技术,不需要经过PCR扩增,实现对每一条DNA分子进行单独测序的技术,无GC偏好性,有着更快的数据读取速度。
(3)核心家系:由一个孩子(子代)及其父母双亲组成的家系。
(4)基因组分型:通过生物检定法检测某一个体的DNA序列,并对比参照其他个体的基因型或序列的过程,可用于显示该个体等位基因从其父母遗传而来的情况。
(5)基因组组装:基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续序列(contig),再将contigs 拼接成更长的允许包含空白序列(gap)的scaffolds,通过消除scaffolds 的错误和gaps,将这些scaffolds 定位到染色体上,从而得到高质量的全基因组序列。
本发明第一方面提供了一种基于核心家系的串联重复变异分型检测方法,包括:
步骤1、基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装,得到两套子代单倍型基因组;
步骤2、以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组;
步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。
根据本发明的分型检测方法,优选地,所述测序数据集包括基因组的长reads;优选地,所述测序数据集包括基因组的三代测序方法得到的长reads;更优选地,所述三代测序方法选自Pacbio和Nanopore中的至少一种;更优选地,所述测序数据集为HiFi reads。根据本发明的方法,平均测序深度优选为15×以上。
根据本发明的分型检测方法,优选地,所述第一分型的方法基于trio_binning方法。trio_binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。
根据本发明的分型检测方法,优选地,所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析,得到父本和母本特异的kmer序列。更优选地,基于classify_by_kmers方法,并根据父本和母本特意的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集,或者为未分型的测序数据集。优选地,对于未分型的测序数据集不进行组装。
根据本发明的分型检测方法,优选地,所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。
根据本发明的分型检测方法,优选地,所述第二分型的方法基于WhatsHap方法。
根据本发明的分型检测方法,优选地,所述串联重复变异检测的方法为改进的Tandem Repeat Finder方法。
根据本发明的分型检测方法,优选地,所述改进包括motif循环特点、检测区段的特征。其中,motif循环特点包括motif碱基序列等。例如但不限于在考虑ATC的motif碱基序列的同时,也会考虑TCA和CAT的motif循环等。检测区段的特征是指在检测某个区间时,考虑该区段起止点之间整个区段的拷贝数。
根据本发明的分型检测方法,优选地,所述方法还包括:分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。计算得到遗传过程中串联重复区域拷贝数的变化,然后进行分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。
本发明第二方面提供了上述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。
根据本发明的应用,优选地,所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。
本发明具有以下优点:
(1)本发明的方法将组装、分型技术结合到变异检测中,首先从测序数据集中准确地分出了子代的两套单倍型基因组,以及父母亲本遗传给子代的基因组,这一点相较已有算法中通过聚类方法得到的两个单倍型基因型更准确。
(2)本发明方法采用改进后的TRF算法,综合考量到motif的循环特点、区段不同部分特征不同等情况,检测到的拷贝数更准确。
(3)本发明方法针对参考基因组中的所有串联重复区域进行了全面检索,得到了上百万个位点的拷贝数信息,相较已有算法的无参模式中得到的几千到几万个位点,本发明方法更全面地挖掘了全基因组上的串联重复变异信息。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
下面参考具体实施例,对本发明进行说明,需要说明的是,这些实施例仅仅是说明性的,而不能理解为对本发明的限制。
【实施例1】
一种基于核心家系的串联重复变异分型检测方法,该方法原理示意图如图1所示。图1中,p1代表子代的测序数据集;Long reads代表长读长;P代表来自父本的子代单倍型基因组;M代表来自母本的子代单倍型基因组;Fa代表父本测序数据集;Mo代表母本测序数据集;hap1为第一套单倍型基因组,也是由亲本遗传给子代的单倍型基因组;hap2为第二套单倍型基因组。
步骤1、准备一个核心家系,对父本、母本、子代进行取样,对样本进行三代HiFi测序,测序数据量170G,平均测序深度为18.4×,分别得到父本的长reads、母本的长reads、子代的长reads(以下简写长reads为reads);基于父本的reads和母本的reads,使用trio_binning方法的find-unique-kmers分析对子代的reads(图1中的P1)进行分型,得到父本和母本特异的kmer序列,基于classify_by_kmers方法,并根据父本和母本特异的kmer序列判断子代测序reads为属于父本的reads、属于母本的reads,或者为未分型的reads(不组装)。使用hifiasm进行组装,得到两套子代单倍型基因组(图1中的P和M);
步骤2、以得到的子代单倍型基因组为参考,对父本和母本基因组进行单核苷酸位点变异检测,并基于WhatsHap方法对父本的reads和母本的reads分别进行分型,得到两套父本单倍型基因组(Fa的hap1、hap2)、两套母本单倍型基因组(Mo的hap1、hap2),并确定由父本遗传到子代的单倍型基因组(例如Fa的hap1)、由母本遗传到子代的单倍型基因组(例如Mo的hap1);结果如下表1。
表1
Sample Read_num Base_num(Gb) Phased_read_rate(%) hap1 hap2
Fa 4434073 62.44 98.72 2743164 1634016
Mo 3632160 53.06 99.80 2243035 1381715
P1 3251252 54.56 86.58 1420527 1394308
表1中,Sample指样品;Read-num指read数;Base-num指碱基数;Phased_read_rate指分型效率;hap1指第一套单倍型基因组reads数;hap2指第二套单倍型基因组reads数。
步骤3、使用改进的Tandem Repeat Finder方法,对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。其中,改进的Tandem Repeat Finder方法需考虑motif循环特点(motif碱基序列)、检测区段的特征(在检测某个区间时,考虑该区段起止点之间整个区段的拷贝数),从而得到参考基因组上所有已知重复区间在具体样本中的拷贝数信息。结果共得到1025347个串联重复(TR)位点拷贝信息,这些位点的motif长度分布如图2所示。统计得到每个样本的串联重复分型拷贝数信息,以三个区间为示例,结果如下表2。
表2
Chr start end motif Motiflength Copynumber Father Mother p1
chrX 268059 268998 AGAGAG 6 155.2 GT:141.5DP:6hap1:268.5(1),66.6(2),87.7(1),270.5(1),89.3(1) GT:65.2DP:8hap1:102.5(1),100.3(1),43.6(5),101.2(1) GT:104.2/155.2DP:12/3hap1:270.5(1),66.6(8),267.5(1),89.8(1),89.3(1); hap2:155.2(2),155.3(1)
chrX 268071 269016 AGAGAGAC 8 116.6 GT:70.5DP:6hap1:67.6(2),66.6(3),87.7(1) GT:47.6DP:8hap1:43.6(7),75.6(1) GT:66.6/155.2DP:12/3hap1:45.6(1),66.6(11);hap2:155.2(2),155.3(1)
chrX 314102 314833 AGGA 4 174.5 GT:227.2DP:3hap1:223.5(2),234.5(1) GT:174.6DP:10hap1:174.5(8),174.0(1),175.5(1) GT:223.5/540.7DP:3/6hap1:224.0(1),223.5(1),222.5(1)hap2:539.5(3),537.5(1),547.5(1),540.5(1)
表2中,start指区间的开始位置;end指区间的结束位位置;motif指motif碱基序列;Motif length指motif 的碱基长度(bp);Copy number指该区间在参考基因组上的拷贝数(个);Father指父本的串联重复变异检测结果;Mother指母本的串联重复变异检测结果;p1指子代的串联重复变异检测结果。父本、母本和子代的变异检测结果中GT表示该样本在该区间检测的拷贝数的个数,DP表示该区间在样本中覆盖的测序Reads深度,hap1/hap2中记录了每条reads检测的拷贝数个数信息。
通过上表2能够得到1025347个串联重复区间在父母本和子代中的拷贝数个数。
步骤4、基于核心家系,分析在家系遗传中串联重复的变异信息,以表2中三个位点为示例,结果如下表3。
表3
Chr start end motif Motif length Copy number Diff_p1_fa Diff_p1_mo
chrX 268059 268998 AGAGAG 6 155.2 -37.3 90
chrX 268071 269016 AGAGAGAC 8 116.6 -3.9 107.6
chrX 314102 314833 AGGA 4 174.5 -3.7 366.1
表3中,start指区间的开始位置;end指区间的结束位位置;motif指motif碱基序列;Motif length指motif 碱基长度(bp);Copy number指拷贝数(个);Diff_p1_fa指遗传过程中,子代相较父本的拷贝数变化数(个);Diff_p1_mo指遗传过程中,子代相较母本的拷贝数变化数(个)。
【对比例1】
一种基于Straglr方法的串联重复变异分型检测方法。
采用与实施例1相同的核心家系,对父本、母本、子代进行取样。
根据Chiu, R., Rajan-Babu, I.-S., Friedman, J.M., and Birol, I.(2021). Straglr: discovering and genotyping tandem repeat expansions usingwhole genome long-read sequences. Genome Biol 22, 224. 10.1186/s13059-021-02447-3公开的方法进行串联重复变异分型检测。
根据此方法,父本、母本、子代的三个样本中检测到的有效位点个数如表4所示。同时,将本发明实施例检测到的有效位点个数做对比,结果如表4所示。
表4. 有效位点个数
Fa(个) Mo(个) P1(个)
对比例1 2959 2907 2962
实施例1 1025347 1025347 1025347
将采用本发明方法的实施例1与对比例1进行比较,能够看出,本发明方法能够产生更多有效位点的拷贝数信息,远远多于Straglr方法所能提供的信息。
【对比例2】
一种基于TRGT方法的串联重复变异分型检测方法。
该方法为PacBio官方推荐的一个方法,其基于已知TR区域进行检测,提供两个分型的拷贝数信息。
对P1样本的两款软件的结果进行了比较,统计不同拷贝数差值区间的位点数,结果如表5和图3所示。
表5
拷贝数差值分布(个) 计数(频数)
~-100 8339
-100~-50 412
-50~-20 1358
-20~-10 2779
-10~-5 6900
-5~0 160879
0~5 101920
5~10 5555
10~20 4180
20~50 1817
50~100 595
100~ 5528
表5中,分布指TRGT方法与实施例1的方法得到的拷贝数值差值的分布;计数是指该分布下的频数。
通过表5和图3能够看出,TRGT方法与实施例1的方法得到的拷贝数值差值的分布主要集中在-5~0和0~5之间,发现87.5%的位点拷贝数差异在5个拷贝以内,说明本发明的方法的准确性比较高。
相较于TRGT,本方法提供的两套分型结果是基于家系的分型策略得到的两套基因组,而非简单聚类,所以本方法最后得到的遗传过程中TR的变异信息更加准确。
此外,通过对局部位点验证,见表6,发现部分位点上,TRGT会得到不存在的异常扩增拷贝数,即假阳性,而在这些位点上,本发明的方法的准确性更优于TRGT。
表6
Chr start end motif 参考基因组拷贝数 TRGT检测拷贝数 本方法检测拷贝数 判定
chr5 17599808 17599840 TTTAT 6.4 4127.6 6.4 TRGT假阳性
chr10 134640370 134640421 GGAG 12.8 3334 12.8 TRGT假阳性
chr8 101801252 101801289 TTTTA 7.6 558.6 17.2 TRGT假阳性
chrX 153748481 153748523 TTTTA 8.4 399.6 9.4 TRGT假阳性
chr21 5573981 5574006 CTCC 6.2 391.2 13.2 TRGT假阳性
chr19 40590998 40591023 AAG 8.3 369.3 8.3 TRGT假阳性
通过实施例1、对比例1和对比例2能够看出,本发明得到了1025347个串联重复(TR)位点从亲本遗传到子代的拷贝数变异信息(表3的Diff_p1_fa,Diff_p1_mo),该信息可用于遗传病的病因分析、新生突变分析等。然而对比例1检测到的有效位点数远远小于本发明的方法(表4)。对比例2在部分位点上存在较高的假阳性(表6)的问题。因此本发明的方法具有更高的准确性和全面性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (12)

1.一种基于核心家系的串联重复变异分型检测方法,包括:
步骤1、基于父本的测序数据集和母本的测序数据集,对子代的测序数据集进行第一分型和组装,得到两套子代单倍型基因组;
步骤2、以得到的子代单倍型基因组为参考,分别对父本和母本基因组进行单核苷酸位点变异检测,并对父本的测序数据集和母本的测序数据集分别进行第二分型,得到两套父本单倍型基因组、两套母本单倍型基因组,并明确由父本遗传到子代的单倍型基因组、由母本遗传到子代的单倍型基因组;
步骤3、对父本遗传到子代的单倍型基因组、母本遗传到子代的单倍型基因组、两套子代单倍型基因组分别进行串联重复变异检测。
2.根据权利要求1所述的方法,其特征在于,所述测序数据集包括基因组的三代测序方法得到的长reads。
3.根据权利要求1所述的方法,其特征在于,所述第一分型的方法基于trio_binning方法。
4.根据权利要求3所述的方法,其特征在于,所述第一分型的方法包括基于trio_binning方法的find-unique-kmers分析,得到父本和母本特异的kmer序列。
5.根据权利要求4所述的方法,其特征在于,基于classify_by_kmers方法,并根据父本和母本特异的kmer序列判断子代测序数据集为属于父本的测序数据集、属于母本的测序数据集,或者为未分型的测序数据集。
6.根据权利要求1所述的方法,其特征在于,所述组装的方法选自hifiasm、wtdbg2、canu、nextdenovo中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述第二分型的方法基于WhatsHap方法。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述串联重复变异检测的方法为改进的Tandem Repeat Finder方法。
9.根据权利要求8所述的方法,其特征在于,所述改进包括motif循环特点、检测区段的特征。
10.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:分析遗传过程中子代的两套单倍型基因组的串联重复变异信息。
11.权利要求1-10中任一项所述的基于核心家系的串联重复变异分型检测方法在生物学中的应用。
12.根据权利要求11所述的应用,其特征在于,所述应用为在疾病病理研究、亲子鉴定、犯罪侦查、种群遗传学中的应用。
CN202311109723.0A 2023-08-31 2023-08-31 基于核心家系的串联重复变异分型检测方法及其应用 Pending CN116855617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311109723.0A CN116855617A (zh) 2023-08-31 2023-08-31 基于核心家系的串联重复变异分型检测方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311109723.0A CN116855617A (zh) 2023-08-31 2023-08-31 基于核心家系的串联重复变异分型检测方法及其应用

Publications (1)

Publication Number Publication Date
CN116855617A true CN116855617A (zh) 2023-10-10

Family

ID=88228925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311109723.0A Pending CN116855617A (zh) 2023-08-31 2023-08-31 基于核心家系的串联重复变异分型检测方法及其应用

Country Status (1)

Country Link
CN (1) CN116855617A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080318235A1 (en) * 2005-11-15 2008-12-25 Alan Handyside Chromosomal Analysis By Molecular Karyotyping
CN102325901A (zh) * 2008-12-22 2012-01-18 赛卢拉有限公司 检测等位基因、基因组和转录物组的方法和基因型分析谱
CN105385755A (zh) * 2015-11-05 2016-03-09 上海序康医疗科技有限公司 一种利用多重pcr技术进行snp-单体型分析的方法
CN107937495A (zh) * 2017-12-27 2018-04-20 上海五色石医学研究股份有限公司 一种人染色体15q11‑13遗传变异检测试剂盒及其应用
CN114496091A (zh) * 2021-12-30 2022-05-13 浙江安诺优达生物科技有限公司 对组装的基因组进行优化的方法
CN115992261A (zh) * 2022-12-13 2023-04-21 中国科学院海洋研究所 一种构建牡蛎单倍型基因组的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080318235A1 (en) * 2005-11-15 2008-12-25 Alan Handyside Chromosomal Analysis By Molecular Karyotyping
CN102325901A (zh) * 2008-12-22 2012-01-18 赛卢拉有限公司 检测等位基因、基因组和转录物组的方法和基因型分析谱
CN105385755A (zh) * 2015-11-05 2016-03-09 上海序康医疗科技有限公司 一种利用多重pcr技术进行snp-单体型分析的方法
CN107937495A (zh) * 2017-12-27 2018-04-20 上海五色石医学研究股份有限公司 一种人染色体15q11‑13遗传变异检测试剂盒及其应用
CN114496091A (zh) * 2021-12-30 2022-05-13 浙江安诺优达生物科技有限公司 对组装的基因组进行优化的方法
CN115992261A (zh) * 2022-12-13 2023-04-21 中国科学院海洋研究所 一种构建牡蛎单倍型基因组的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵蕾等: ""VWA 基因座在一个三代家系发生的两次突变"", 《刑事技术》, no. 4, pages 19 - 21 *

Similar Documents

Publication Publication Date Title
JP7284849B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
AU2016256351B2 (en) Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIs)
JP6386494B2 (ja) 母親生物試料の胎児ゲノム分析
KR101795124B1 (ko) 복제 수 변이를 검측하기 위한 방법 및 시스템
JP2019523638A (ja) 遺伝子突然変異を検出するマルチポジショニングダブルタグアダプターセット、及びその調製方法と応用
US20190338349A1 (en) Methods and systems for high fidelity sequencing
US20200286586A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
US20170321270A1 (en) Noninvasive prenatal diagnostic methods
JP2023552507A (ja) ゲノムの反復領域内のショートリードを可視化するための方法及びシステム
Kõks et al. Sequencing and annotated analysis of full genome of Holstein breed bull
CN116926180A (zh) 基因标志物组合在制备用于Noonan综合征谱系障碍诊断产品中的应用
CN116855617A (zh) 基于核心家系的串联重复变异分型检测方法及其应用
CN117095742A (zh) 一种基于核心家系的串联重复变异分型检测装置及其应用
US11869630B2 (en) Screening system and method for determining a presence and an assessment score of cell-free DNA fragments
JP2022548504A (ja) 低頻度バリアントの検出およびレポートを容易にするためのdnaライブラリー生成方法
US20210164033A1 (en) Method and system for nucleic acid sequencing
Sung Bioinformatics applications in genomics
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
US20230332205A1 (en) Linked dual barcode insertion constructs
US20230332220A1 (en) Random insertion genome reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240618

Address after: Room 701, Unit 2, Building 8, No. 88 Kechuang 6th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing, 100176

Applicant after: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Country or region after: China

Applicant after: BEIJING ANNOROAD MEDICAL LABORATORY Co.,Ltd.

Address before: 100176 Beijing Daxing District economic and Technological Development Zone, Chuang six Street 88 hospital 8 Building 2 unit 701 room.

Applicant before: ANNOROAD GENE TECHNOLOGY (BEIJING) Co.,Ltd.

Country or region before: China

Applicant before: BEIJING ANNOROAD MEDICAL LABORATORY Co.,Ltd.

Applicant before: ZHEJIANG ANNOROAD BIO-TECHNOLOGY Co.,Ltd.