CN112885408A - 一种基于低深度测序检测snp标记位点的方法及装置 - Google Patents
一种基于低深度测序检测snp标记位点的方法及装置 Download PDFInfo
- Publication number
- CN112885408A CN112885408A CN202110199054.5A CN202110199054A CN112885408A CN 112885408 A CN112885408 A CN 112885408A CN 202110199054 A CN202110199054 A CN 202110199054A CN 112885408 A CN112885408 A CN 112885408A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- depth
- genome
- low
- haplotype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000003550 marker Substances 0.000 title claims abstract description 17
- 102000054766 genetic haplotypes Human genes 0.000 claims abstract description 55
- 238000003205 genotyping method Methods 0.000 claims abstract description 28
- 238000009395 breeding Methods 0.000 claims abstract description 21
- 230000001488 breeding effect Effects 0.000 claims abstract description 21
- 230000035772 mutation Effects 0.000 claims abstract description 18
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 23
- 238000011160 research Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 241000287828 Gallus gallus Species 0.000 description 7
- 235000013330 chicken meat Nutrition 0.000 description 7
- ZMXDDKWLCZADIW-UHFFFAOYSA-N N,N-Dimethylformamide Chemical compound CN(C)C=O ZMXDDKWLCZADIW-UHFFFAOYSA-N 0.000 description 6
- 230000002068 genetic effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 241000282898 Sus scrofa Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001976 enzyme digestion Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 108010062466 Enzyme Precursors Proteins 0.000 description 1
- 102000010911 Enzyme Precursors Human genes 0.000 description 1
- 208000034953 Twin anemia-polycythemia sequence Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 244000144980 herd Species 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000009790 rate-determining step (RDS) Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及涉及遗传学领域,尤其涉及一种基于低深度测序检测SNP标记位点的方法及装置。所述方法包括:获取待检测个体的基因组DNA;将所述基因组DNA进行个体低深度全基因组测序,并将测序结果比对到参考基因组得到多态位点信息;基于隐马尔可夫模型,利用参考单倍型数据库对所述多态位点信息进行基因分型;所述参考单倍型数据库包括所述待检测个体归属的育种群体的突变位点信息。本发明利用单一样本的低深度测序数据,在极短的时间内进行全基因组千万数量级的SNP位点的高准确度的,标准化的基因分型。
Description
技术领域
本发明涉及遗传学领域,尤其涉及一种基于低深度测序检测SNP标记位点的方法及装置。
背景技术
单核苷酸多态性(Single nucleotide polymorphisms,SNP)是目前最主流的遗传标记,在基因组中数量众多,分布广泛,遗传稳定性好。SNP在人类和动植物研究中被广泛用于各类性状遗传机制的解析、选择进化研究和基因组预测等研究方向。
不同的研究内容对遗传标记的数量需求有所不同,其中需要使用全基因组高密度标记进行研究的内容主要包括全基因组关联分析和动植物基因组选择分析。在全基因组关联分析中,使用更高密度的全基因组遗传标记可以更准确地鉴定到目标表型真正的致因突变;而近年来动植物遗传育种中新兴的基因组选择(genomic selection,GS)技术,其利用的也是覆盖整个基因组的高密度SNP,以此构建亲缘关系系数矩阵来计算个体的基因组估计育种值并选种。值得一提的是,基因组选择属于应用研究,利用基因组选择进行选种育种的样本规模正逐年大幅度递增,实际生产中其对标记的准确性、时效性和价格三个因素非常敏感,简言之,基因组选择技术对如何经济高效地获取全基因组SNP分型数据提出了更高的要求。
目前的全基因组SNP分型方法主要可分为商业化SNP芯片和基因组测序两大类。商业化SNP芯片因其标准化程度高,准确性好,操作简便而成为早期全基因组分型的主流方法。但随着研究的扩展,其不足也逐渐显现。例如,芯片所含SNP标记数目多为几万至几十万,难以满足所有类型的研究需求;一种SNP芯片也只能检测特定的突变位点,拓展性较差;商业化芯片在位点设计时使用特定的部分主流品种,这会造成部分标记位点在特定群体中失效;此外,随着测序技术的不断发展,芯片分型的成本优势也已逐渐消失。另一方面,尽管全基因组测序成本在不断下降,但距离大规模群体育种应用仍有不小的距离,这衍生出来众多靶向测序的替代方法,以简化基因组测序为例,这类方法通过富集并测序基因组中很小比例的片段达到降低成本的目的。这类方法相比芯片技术在标记密度和成本优化上已有很大的进步,但靶向测序并未真正实现覆盖全基因组,且分析流程需要较高的生物信息基础,因此在育种实践的全基因组分型技术中并未实现质的突破。
为了实现更高密度的基因分型,现阶段采取的主要策略是基因型填充,例如利用高密度芯片填充低密度芯片,利用高深度测序数据填充芯片数据等。但是这些方法极度依赖高质量的参考单倍型数据集(reference panel),高质量不仅意味着该数据集群体规模大、自身分型结果具有高可信度,还要求该数据集与要填充的群体具有较近的遗传关系。目前畜禽物种中,大部分研究都是依靠小样本高深度的测序数据来构建参考单倍型数据库,已有大量的研究报道,这种panel的质量并不能保证高准确度的填充,这意味着标记数量在百万级别时,也将存在数万甚至数十万个错误的分型结果,并且该策略的计算复杂度较高,时效性较差,这依然不利于育种实践。
发明内容
为了解决现有技术存在的问题,本发明提供一种基于低深度测序检测SNP标记位点的方法及装置。本发明利用待测样本的低深度测序数据,基于参考单倍型数据库进行基因分型不仅可以在较大程度上缩短SNP位点分型的时间,并且具有极高的准确率。
第一方面,本发明提供一种基于低深度测序检测SNP标记位点的方法,包括:
获取待检测个体的基因组DNA;
对所述基因组DNA进行第一低深度全基因组测序,将测序结果比对到参考基因组后进行基因分型;
所述基因分型为基于隐马尔可夫模型,利用参考单倍型数据库对测序结果中的多态位点进行基因分型;
所述参考单倍型数据库包括由第二低深度全基因组测序得到的,所述待检测个体归属的育种群体的单倍型信息。
进一步地,所述第一低深度全基因组测序的测序深度在0.1×~1×之间。
进一步地,所述基因分型为:
针对所述测序结果中的每一个突变位点,通过隐马尔可夫模型预测该突变位点属于所述参考单倍型数据库中每种单倍型来源的概率,依据概率最大的单倍型的信息输出该突变位点的基因分型结果。
进一步地,所述参考单倍型数据库的构建方法包括如下步骤:
获取所述育种群体的多个个体的的基因组DNA,进行所述第二低深度测序后得到测序数据;
将所述测序数据比对到参考基因组并进行群体多态位点的判定和筛选,得到所述育种群体中各多态位点的位置信息;
通过EM迭代算法处理所述育种群体的突变位点信息构建参考单倍型数据库。
进一步地,所述第二低深度全基因组测序的群体测序深度在300×~600×之间。
进一步地,所述多个个体为1500个以上的个体。
进一步地,所述参考单倍型数据库的构建方法还包括:
在完成SNP标记位点的检测之后,将检测结果得到的单倍型数据并入所述参考单倍型数据库。
本发明提供的基于低深度测序检测SNP标记位点的方法与育种选育的实际过程相匹配:选育的前提需要有大规模样本的参考群体,这与构建参考单倍型数据库的流程相匹配;需要选育测定的个体数据是少量、多次逐渐累积的,这与检测SNP标记位点的流程中以单样本为单位进行分析相匹配。
第二方面,本发明提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面所提供的的方法的步骤。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所提供的的方法的步骤。
本发明具备如下有益效果:
本发明通过利用低深度测序数据,低成本建立适用于目标群体大规模样本来源的参考单倍型数据库,将数据库构建环节和检测环节独立运行,实现单一低深度样本快速、经济、精准、覆盖全基因组的高密度SNP基因分型。
此外,本发明提供的参考单倍型数据库亦存在更新迭代,即在检测获取的样本达到一定数量后,一次性将新样本的信息更新进入参考单倍型数据库,保证后续生产样本分型的高准确性。
附图说明
图1为本发明提供的基于低深度测序检测SNP标记位点的方法的流程图。
图2为本发明提供的电子设备的实体结构示意图。
图3为本发明实施例3提供的不同参考样本量和测序深度与基因分型准确性的关系结果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的基于低深度测序检测SNP标记位点的方法的流程示意图,如图1所示,本发明提供一种基于低深度测序检测SNP标记位点的方法,包括:
S1,获取待检测个体的基因组DNA;
具体地,在实际应用中,可以通过本领域常见的方式获取待检测个体的基因组DNA,例如通过酶切的方式将全基因组随机打断,或者通过超声的方式将全基因组随机打断,此类可以实现全基因组随机打断的任意方法得到的基因组DNA片段均可适用于后续的测序等流程。
S2,对基因组DNA进行第一低深度全基因组测序;
具体地,在上述方案的基础上,可以通过本领域常规的方式在二代测序平台进行低深度全基因组测序,测序深度优选在0.1×~1×之间。
S3,将测序结果比对到参考基因组后进行基因分型;
基因分型具体为,基于隐马尔可夫模型,利用参考单倍型数据库对测序结果中的多态位点进行基因分型;
进一步地,参考基因组选择与待检测个体同源的参考基因组即可,例如针对猪的基因组DNA进行基因分型,参照猪的参考基因组,针对鸡的基因组DNA进行基因分型,参照鸡的参考基因组。
进一步地,将测序数据比对到参考基因组可以得到每个个体的比对结果(bam文件)。
进一步地,所述基因分型为:
针对所述测序结果中的每一个突变位点,通过隐马尔可夫模型预测该突变位点属于所述参考单倍型数据库中每种单倍型来源的概率,依据概率最大的单倍型的信息输出该突变位点的基因分型结果。
本发明提供的参考单倍型数据库由如下方法构建得到:获取所述育种群体的多个个体的的基因组DNA,进行所述第二低深度测序后得到测序数据;将所述测序数据比对到参考基因组并进行群体多态位点的判定和筛选,得到所述育种群体中各多态位点的位置信息;通过EM迭代算法处理所述育种群体的突变位点信息构建参考单倍型数据库。
在这一步骤中,总体上,参考单倍型数据库构建环节的样本量应保证1500个以上,对一个多态位点的群体测序深度(用于构建数据库的样本量×每个个体的测序深度)应保证在300×以上,可以保证检测的准确性。在实际应用时,可根据样本数量调整测序深度,例如样本量1500个时,应保证平均测序深度达到0.2×以上,样本量3000个时,应保证平均测序深度达到0.1×以上。
进一步地,此步骤中可采取现有技术常规的软件,例如采用BaseVar软件进行群体多态位点的判定和筛选得到相应的多态位点信息,并可设置一定的筛选标准,例如EAF≥0.01。
需要说明的是,在此步骤中涉及的EM迭代算法可采用现有技术已有的软件实现EM迭代,例如STITCH软件或fastPHASE等。
进一步地,在完成SNP标记位点的检测之后,还可以将检测结果得到的单倍型数据并入参考单倍型数据库。例如在实际应用中,因为构建参考单倍型数据库是限速步骤,所以优选在每次检测累积到一定数量的样本后将检测的单倍型数据并入参考单倍型数据库,比如累积1500个样本后一次性并入,这可以保证检测流程的快速化。
图2为本发明提供的电子设备的实体结构示意图,参照图2,所述电子设备包括:处理器(processor)31、存储器(memory)32和总线33;其中,所述处理器31和存储器32通过所述总线33完成相互间的通信;所述处理器31用于调用所述存储器32中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待检测个体的基因组DNA;将所述基因组DNA进行个体低深度全基因组测序,并将测序结果比对到参考基因组得到多态位点信息;基于神经网络模型,利用参考单倍型数据库对所述多态位点信息进行基因分型。
此外,上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的检测方法,例如包括:获取待检测个体的基因组DNA;将所述基因组DNA进行个体低深度全基因组测序,并将测序结果比对到参考基因组得到多态位点信息;基于神经网络模型,利用参考单倍型数据库对所述多态位点信息进行基因分型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以下基于更具体的实施例来进一步说明本发明。
实施例1
1、实验材料
使用杜洛克核心种猪群3000个个体耳组织样本,提取基因组,并稀释至40ng/μL。
2、实验方法
2.1低深度DNA文库构建及测序
本实施例以Tn5酶切进行DNA文库构建说明,具体为:
(1)将Tn5原酶与特定的Tn5ME-A/Tn5Merev以及Tn5ME-B/Tn5MErev接头72℃包埋2h,获得具有剪切-粘贴活性的Tn5工作酶,将工作酶稀释至16.5ng/μL,在4μL 5×TAPS-MgCl2,2μL dimethylformamide(DMF)和Nuclease-free water的反应体系下酶切50ng基因组,条件为55℃酶切10min。
(2)在每个反应中加入3.5μL 0.2%SDS,再次在55℃条件下孵育10min。随后进行PCR反应,引物中包括96种不同的index来区分个体。
PCR程序为:1×(72℃,9min);1×(98℃,30sec);9×(98℃,30sec;63℃,30sec;72℃,3min)。
(3)每个体的PCR产物经Qubit Fluorometric Quantitation(Invitrogen)定量后,96个体各取等量混池,用AMPure XP beads(Beckmann)在0.55×留上清,0.1×留磁珠的条件下进行纯化,纯化产物进行浓度检测后,用Agilent Bioanalyzer 2100检测文库片段大小,确保文库质量合格。
对所有样本在MGIseq2000平台进行双端2×100bp全基因组重测序,每个样本平均测序深度为0.7×。
2.2多态位点鉴定筛选
经过过滤的原始测序数据使用基于FPGA加速的服务器进行基因组比对,参考基因组使用猪Sscrofa11.1(ftp://ftp.ensembl.org/pub/rele ase-99/fasta/sus_scrofa/dna/)版本,比对软件使用BWA。每个样本的比对时间约为2-3min。本实施例中采用BaseVar软件进行多态位点鉴定,筛选位点的标准为EAF≥0.01,采用箱线图评估每个位点群体测序深度,保留测序深度≥1.5IQR的位点作为本群体突变位点集合。本实施例共获得猪全基因组11.6M的候选多态位点。
2.3参考单倍型数据库构建
本实施示例选取STITCH软件进行EM算法迭代计算,奠基者单倍型数目预设为10,采用预分型结果作为数据库单倍型过滤标准,具体参数为imputation info score>0.4,Hardy Weinberg Equilibrium(HWE)p-value>1e-6。
2.4候选样本突变分型及准确性评估
待分型的样本采用上述相同的DNA建库、测序、比对方法。使用构建好的参考单倍型数据库,读取该分型样本原始测序数据,采用HMM隐马尔科夫模型进行所有候选多态位点的基因型鉴定分型。最终获得该个体全基因组11.6M的SNP分型结果。随后采用GeneSeekGenomic Profiler Porcine 80K SNP Array芯片对分型的结果进行准确性判定,共采集42个样本的分型结果进行评估,挑选13号染色体为例,结果显示两种方法重合位点的基因分型的一致性达到99.67%,证明该方法具有极高的准确性。
实施例2
本实施例用于说明本发明所提供的检测SNP标记位点的方法的准确性和时效性。
1、实验材料
使用惠阳胡须鸡和岭南黄鸡远源深度杂交家系中3000个个体的血液样本提取基因组并稀释至40ng/μL。
2、实验方法
低深度DNA文库构建及测序步骤、多态位点鉴定筛选、参考单倍型数据库构建、候选样本突变分型及准确性评估基本方法同实施例1。不同点包括:每个个体的平均测序深度约为0.8×;参考基因组使用鸡GRCg6a(INSDC Assembly GCA_000002315.5,Mar 2018)版本;由于杂交群体的基因组杂合度和复杂度远高于纯系群体,因此本例奠基者单倍型数目预设为24;参考单倍型数据库中共获得鸡常染色体上7.9M个候选多态位点(SNP间距约为平均96bp/SNP,基因组分布均与);随后以鸡Chr11的结果为例进行准确性的评估,本实例共分析了28个个体,所有个体均成功获得所有Chr11上288895个SNP位点的分型结果;将该28个个体额外进行了超高深度的全基因组测序(平均每个样本的测序深度为80×)并使用GATK4.1标准化SNP鉴定流程进行基因分型。
本实施例中构建参考单倍型数据库所使用计算资源为40个核心,每个样本全基因组测序数据比对基因组的时间约为1-2min,3000个样本用于构建数据库共计耗时4h。在检测流程中,每100个样本从原始测序数据到产出一条染色体数十万级别的SNP基因分型结果仅需要8-10min,而产出全基因组所有SNP(千万数量级)可通过不同染色体并行计算完成。28个用于评估准确性的个体的分型结果显示,其高深度数据结果与本专利方法基因分型的一致性超过99.71%,证明该方法在杂交群体中依然具有极高的准确性。
综上,本发明方法实现了利用单一样本的低深度测序数据,在极短的时间内进行全基因组千万数量级的SNP位点的高准确度的,标准化的基因分型。
实施例3
本实施例用于说明参考单倍型数据库构建环节,每个样本测序深度和样本量对基因分型准确性的影响。
本实施例所用实验材料和实验方法同实施例2。在参考单倍型数据库构建环节,抽取不同参考样本量(200,500,1000,1500,2000,3000,4000)以及每个样本的测序深度(0.05×,0.1×,0.2×,0.3×,0.5×),利用最终获得的基因分型结果与高深度数据进行比较来评估准确性。
结果如图3所示。图中可知,每个样本平均测序深度达到0.2×以上,样本量超过1500时,基因分型的准确性基本达到稳定(保持在98.78%以上),不再随着测序深度和样本数目的增加而发生明显变化;在0.2×测序条件时,样本量超过2000,准确性即超过99%,达到99.13%。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (9)
1.一种基于低深度测序检测SNP标记位点的方法,其特征在于,包括:
获取待检测个体的基因组DNA;
对所述基因组DNA进行第一低深度全基因组测序,将测序结果比对到参考基因组后进行基因分型;
所述基因分型为基于隐马尔可夫模型,利用参考单倍型数据库对测序结果中的多态位点进行基因分型;
所述参考单倍型数据库包括由第二低深度全基因组测序得到的,所述待检测个体归属的育种群体的单倍型信息。
2.根据权利要求1所述的方法,其特征在于,所述第一低深度全基因组测序的测序深度在0.1×~1×之间。
3.根据权利要求1或2所述的方法,其特征在于,所述基因分型为:
针对所述测序结果中的每一个突变位点,通过隐马尔可夫模型预测该突变位点属于所述参考单倍型数据库中每种单倍型来源的概率,依据概率最大的单倍型的信息输出该突变位点的基因分型结果。
4.根据权利要求1所述的方法,其特征在于,所述参考单倍型数据库的构建方法包括如下步骤:
获取所述育种群体的多个个体的的基因组DNA,进行所述第二低深度测序后得到测序数据;
将所述测序数据比对到参考基因组并进行群体多态位点的判定和筛选,得到所述育种群体中各多态位点的位置信息;
通过EM迭代算法处理所述育种群体的突变位点信息构建参考单倍型数据库。
5.根据权利要求4所述的方法,其特征在于,所述第二低深度全基因组测序的群体测序深度在300×~600×之间。
6.根据权利要求4所述的方法,其特征在于,所述多个个体为1500个以上的个体。
7.根据权利要求4-6任一项所述的方法,其特征在于,所述参考单倍型数据库的构建方法还包括:
在完成SNP标记位点的检测之后,将检测结果得到的单倍型数据并入所述参考单倍型数据库。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一项所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110199054.5A CN112885408A (zh) | 2021-02-22 | 2021-02-22 | 一种基于低深度测序检测snp标记位点的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110199054.5A CN112885408A (zh) | 2021-02-22 | 2021-02-22 | 一种基于低深度测序检测snp标记位点的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112885408A true CN112885408A (zh) | 2021-06-01 |
Family
ID=76056870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110199054.5A Pending CN112885408A (zh) | 2021-02-22 | 2021-02-22 | 一种基于低深度测序检测snp标记位点的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885408A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450871A (zh) * | 2021-06-28 | 2021-09-28 | 广东博奥医学检验所有限公司 | 基于低深度测序的鉴定样本同一性的方法 |
CN113517022A (zh) * | 2021-06-10 | 2021-10-19 | 阿里巴巴新加坡控股有限公司 | 基因检测方法、特征提取方法、装置、设备及*** |
CN113539357A (zh) * | 2021-06-10 | 2021-10-22 | 阿里巴巴新加坡控股有限公司 | 基因检测方法、模型训练方法、装置、设备及*** |
CN113832252A (zh) * | 2021-11-02 | 2021-12-24 | 华南农业大学 | 一种籼粳稻snp位点基因型检测的方法 |
CN114242164A (zh) * | 2021-12-21 | 2022-03-25 | 苏州吉因加生物医学工程有限公司 | 一种全基因组复制的分析方法、装置和存储介质 |
CN114783527A (zh) * | 2022-05-23 | 2022-07-22 | 广州鸿溪见杉科技有限公司 | 各人种单倍型祖源数据库的构建方法 |
CN116377086A (zh) * | 2023-03-30 | 2023-07-04 | 山东省农业科学院家禽研究所(山东省无特定病原鸡研究中心) | 一种鸡全基因组低密度芯片及其制作方法和应用 |
CN117542418A (zh) * | 2023-06-14 | 2024-02-09 | 河北农业大学 | 一种基于低深度全基因组重测序技术对保种群保种效果进行评价的方法 |
CN117637020A (zh) * | 2024-01-25 | 2024-03-01 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104053789A (zh) * | 2012-05-14 | 2014-09-17 | 深圳华大基因医学有限公司 | 确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质 |
CN108090324A (zh) * | 2018-01-16 | 2018-05-29 | 深圳市泰康吉音生物科技研发服务有限公司 | 基于高通量基因测序数据的病原微生物鉴定方法 |
CN108220403A (zh) * | 2017-12-26 | 2018-06-29 | 北京科迅生物技术有限公司 | 特定突变位点的检测方法、检测装置、存储介质及处理器 |
CN108256289A (zh) * | 2018-01-17 | 2018-07-06 | 湖南大地同年生物科技有限公司 | 一种基于目标区域捕获测序基因组拷贝数变异的方法 |
CN108376210A (zh) * | 2018-02-12 | 2018-08-07 | 中国农业科学院作物科学研究所 | 基因组信息辅助育种方法ⅱ-一种基于全基因组snp有利单倍型挖掘的育种亲本选择方法 |
CN109033752A (zh) * | 2018-08-13 | 2018-12-18 | 上海科穹生物信息技术有限公司 | 一种基于长读长测序的多基因融合检测方法 |
CN109063417A (zh) * | 2018-07-09 | 2018-12-21 | 福建国脉生物科技有限公司 | 一种构造隐马尔科夫链的基因型填补方法 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学***、设备和方法 |
CN110093406A (zh) * | 2019-05-27 | 2019-08-06 | 新疆农业大学 | 一种盘羊及其杂交后代遗传基因研究方法 |
CN110349631A (zh) * | 2019-07-30 | 2019-10-18 | 苏州亿康医学检验有限公司 | 确定子代对象的单体型的分析方法和装置 |
CN110714082A (zh) * | 2019-09-03 | 2020-01-21 | 中国农业大学 | 一种与猪***数相关的snp位点及其检测方法和应用 |
CN110951889A (zh) * | 2018-09-26 | 2020-04-03 | 中国农业大学 | 与鸡体重性状相关的单倍型分子标记及应用 |
-
2021
- 2021-02-22 CN CN202110199054.5A patent/CN112885408A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104053789A (zh) * | 2012-05-14 | 2014-09-17 | 深圳华大基因医学有限公司 | 确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学***、设备和方法 |
CN108220403A (zh) * | 2017-12-26 | 2018-06-29 | 北京科迅生物技术有限公司 | 特定突变位点的检测方法、检测装置、存储介质及处理器 |
CN108090324A (zh) * | 2018-01-16 | 2018-05-29 | 深圳市泰康吉音生物科技研发服务有限公司 | 基于高通量基因测序数据的病原微生物鉴定方法 |
CN108256289A (zh) * | 2018-01-17 | 2018-07-06 | 湖南大地同年生物科技有限公司 | 一种基于目标区域捕获测序基因组拷贝数变异的方法 |
CN108376210A (zh) * | 2018-02-12 | 2018-08-07 | 中国农业科学院作物科学研究所 | 基因组信息辅助育种方法ⅱ-一种基于全基因组snp有利单倍型挖掘的育种亲本选择方法 |
CN109063417A (zh) * | 2018-07-09 | 2018-12-21 | 福建国脉生物科技有限公司 | 一种构造隐马尔科夫链的基因型填补方法 |
CN109033752A (zh) * | 2018-08-13 | 2018-12-18 | 上海科穹生物信息技术有限公司 | 一种基于长读长测序的多基因融合检测方法 |
CN110951889A (zh) * | 2018-09-26 | 2020-04-03 | 中国农业大学 | 与鸡体重性状相关的单倍型分子标记及应用 |
CN110093406A (zh) * | 2019-05-27 | 2019-08-06 | 新疆农业大学 | 一种盘羊及其杂交后代遗传基因研究方法 |
CN110349631A (zh) * | 2019-07-30 | 2019-10-18 | 苏州亿康医学检验有限公司 | 确定子代对象的单体型的分析方法和装置 |
CN110714082A (zh) * | 2019-09-03 | 2020-01-21 | 中国农业大学 | 一种与猪***数相关的snp位点及其检测方法和应用 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539357B (zh) * | 2021-06-10 | 2024-04-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 基因检测方法、模型训练方法、装置、设备及*** |
CN113517022A (zh) * | 2021-06-10 | 2021-10-19 | 阿里巴巴新加坡控股有限公司 | 基因检测方法、特征提取方法、装置、设备及*** |
CN113539357A (zh) * | 2021-06-10 | 2021-10-22 | 阿里巴巴新加坡控股有限公司 | 基因检测方法、模型训练方法、装置、设备及*** |
CN113450871A (zh) * | 2021-06-28 | 2021-09-28 | 广东博奥医学检验所有限公司 | 基于低深度测序的鉴定样本同一性的方法 |
CN113832252A (zh) * | 2021-11-02 | 2021-12-24 | 华南农业大学 | 一种籼粳稻snp位点基因型检测的方法 |
CN114242164A (zh) * | 2021-12-21 | 2022-03-25 | 苏州吉因加生物医学工程有限公司 | 一种全基因组复制的分析方法、装置和存储介质 |
CN114783527A (zh) * | 2022-05-23 | 2022-07-22 | 广州鸿溪见杉科技有限公司 | 各人种单倍型祖源数据库的构建方法 |
CN114783527B (zh) * | 2022-05-23 | 2024-05-03 | 宋清 | 各人种单倍型祖源数据库的构建方法 |
CN116377086A (zh) * | 2023-03-30 | 2023-07-04 | 山东省农业科学院家禽研究所(山东省无特定病原鸡研究中心) | 一种鸡全基因组低密度芯片及其制作方法和应用 |
CN116377086B (zh) * | 2023-03-30 | 2024-03-15 | 山东省农业科学院家禽研究所(山东省无特定病原鸡研究中心) | 一种鸡全基因组低密度芯片及其制作方法和应用 |
CN117542418A (zh) * | 2023-06-14 | 2024-02-09 | 河北农业大学 | 一种基于低深度全基因组重测序技术对保种群保种效果进行评价的方法 |
CN117637020A (zh) * | 2024-01-25 | 2024-03-01 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
CN117637020B (zh) * | 2024-01-25 | 2024-04-30 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112885408A (zh) | 一种基于低深度测序检测snp标记位点的方法及装置 | |
Zhao et al. | Detection of selection signatures in dairy and beef cattle using high-density genomic information | |
Davey et al. | Genome-wide genetic marker discovery and genotyping using next-generation sequencing | |
Rowan et al. | Rapid and inexpensive whole-genome genotyping-by-sequencing for crossover localization and fine-scale genetic mapping | |
Schlötterer et al. | Sequencing pools of individuals—mining genome-wide polymorphism data without big funding | |
Aylor et al. | Genetic analysis of complex traits in the emerging Collaborative Cross | |
Liu et al. | Gene mapping via bulked segregant RNA-Seq (BSR-Seq) | |
Van Bers et al. | The design and cross‐population application of a genome‐wide SNP chip for the great tit Parus major | |
KR102080120B1 (ko) | 전복 고수온 내성 형질 예측용 바이오마커 조성물 | |
CN102121046A (zh) | 中国人群连锁分析snp标记集合及其使用方法与应用 | |
US20210285063A1 (en) | Genome-wide maize snp array and use thereof | |
CN107090494A (zh) | 与谷子码粒数性状相关的分子标记及其检测引物和应用 | |
CN116516029A (zh) | 一种金鲳全基因组育种芯片及应用 | |
Knief et al. | Association mapping of morphological traits in wild and captive zebra finches: reliable within, but not between populations | |
KR101741252B1 (ko) | 한우의 친자 감별을 위한 유전자 조성물 | |
Bradley et al. | A major zebrafish polymorphism resource for genetic mapping | |
Mabire et al. | High throughput genotyping of structural variations in a complex plant genome using an original Affymetrix® axiom® array | |
Marsjan et al. | Molecular markers, a tool for exploring genetic diversity | |
US20170204474A1 (en) | Bulk Allele Discrimination Assay | |
US20090264307A1 (en) | Array-based polymorphism mapping at single nucleotide resolution | |
KR101825497B1 (ko) | 단일염기다형성을 이용한 말의 모계혈통 확인 및 운동능력 예측용 키트 및 이를 이용한 말의 모계혈통 확인 및 운동능력 예측 방법 | |
JP7446343B2 (ja) | ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法 | |
CN106755370B (zh) | 利用pcr-rflp检测绵羊fth-1基因单核苷酸多态性的方法及其应用 | |
KR101740634B1 (ko) | 와규의 친자 감별을 위한 유전자 조성물 | |
Sharma et al. | Overview of Marker-assisted Selection in Animal Breeding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |