CN107862177B - 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 - Google Patents

一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 Download PDF

Info

Publication number
CN107862177B
CN107862177B CN201710564528.5A CN201710564528A CN107862177B CN 107862177 B CN107862177 B CN 107862177B CN 201710564528 A CN201710564528 A CN 201710564528A CN 107862177 B CN107862177 B CN 107862177B
Authority
CN
China
Prior art keywords
carp
file
distinguishing
single nucleotide
nucleotide polymorphism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710564528.5A
Other languages
English (en)
Other versions
CN107862177A (zh
Inventor
苏胜彦
董在杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Freshwater Fisheries Research Center of Chinese Academy of Fishery Sciences
Original Assignee
Freshwater Fisheries Research Center of Chinese Academy of Fishery Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Freshwater Fisheries Research Center of Chinese Academy of Fishery Sciences filed Critical Freshwater Fisheries Research Center of Chinese Academy of Fishery Sciences
Priority to CN201710564528.5A priority Critical patent/CN107862177B/zh
Publication of CN107862177A publication Critical patent/CN107862177A/zh
Application granted granted Critical
Publication of CN107862177B publication Critical patent/CN107862177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种区分鲤群体的单核苷酸多态性分子标记集的构建方法,先从NCBI数据库下载鲤重测序序列,通过组装软件进行重新组装;再将下载的鲤重测序序列从SRA格式转换为FASTQ格式,然后以重新组装的序列作为参考序列,进行mapping,获得原始VCF文件;在原始VCF文件的基础上进行分子标记的筛选;筛选后的VCF文件通过R3.1.14软件的SNPRelate包分别绘制***进化树,比较筛选前后的鉴定效果,得到区分鲤群体的单核苷酸多态性分子标记集。本发明方法得到的单核苷酸多态性分子标记集可用于鉴别多个鲤品种的单核苷酸多态位点集,也可用于基于基因组高通量数据的选择性清除分析。

Description

一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
技术领域
本发明属于鱼类基因组信息提取技术领域,尤其涉及一种区分鲤群体的单核苷酸多态性分子标记集的构建方法。
背景技术
鲤是我国养殖面积广、抗逆性强、产量大的重要淡水经济鱼类。据《中国渔业统计年 鉴》,2011年我国大宗淡水鱼产量达1698.50万吨,其中鲤产量为271.82万吨。可以看出,鲤的生产在我国占有举足轻重的地位。
对世界范围内的鲤种质资料的了解,尤其是基于其遗传基础的了解,是我们保护和利用 鲤种质的基础,更是我国发展鲤种业的根本。种质鉴定技术是种质资源的标签,也是控种、保种的要求。当前能够一次性鉴定3个鲤品种的分子标记并不多见,更无法对更多品种的鲤进行鉴定。
发明内容
本发明的目的在于为了克服以上现有技术的不足而提供一种区分鲤群体的单核苷酸多态性分子标记集的构建方法,寻找能够区分多个不同鲤品种的分子标记。
本发明的技术方案如下:
一种区分鲤群体的单核苷酸多态性分子标记集的构建方法,包括以下步骤:
(1)从NCBI数据库下载鲤重测序序列,通过组装软件SOAP de novo2进行重新组装;
(2)将下载的鲤重测序序列从SRA格式转换为FASTQ格式,然后以重新组装的序列作为参考序列,通过软件BWA进行mapping,获得原始VCF文件;
(3)在原始VCF文件的基础上进行分子标记的筛选;
(4)筛选后的VCF文件通过R3.1.14软件的SNPRelate包分别绘制***进化树,比较筛选前后的鉴定效果,得到区分鲤群体的单核苷酸多态性分子标记集。
所述的区分鲤群体的单核苷酸多态性分子标记集的构建方法,步骤(2)中从SRA格式转换为FASTQ格式采用fastq-dump v2.2.2软件。
所述的区分鲤群体的单核苷酸多态性分子标记集的构建方法,步骤(2)中所述mapping 的步骤如下:
(1)对参考基因组构建索引,生成以参考基因组为基础的amb,ann,bwt,pac,sa格式的几个 文件;
(2)寻找输入读长的SA坐标,这是生成pair-end测序对应2个文件的sai文件;
(3)生成sam格式的比对文件;
(4)对由BWA生成的sam文件进行重排序,然后将排序后的SAM文件转换为bam文件,再对bam文件进行sort排序处理和加头处理;如果一个样本分为多个通过进行测序,此步应将每个通道的bam文件合并;
(5)使用picard tools去掉重复,去掉重复后的文件通过samtools形成对应的索引文件,格式为bai文件;
(6)使用GATK中的RealignerTargetCreator和IndelRealigner对由indel导致错配的区域进行重新比对,将indel附近的比对错误率降到最低;
(7)使用BaseRecalibrator和PrintReads将经过质量值校正的数据输出到新的bam文件中, 用于后续的变异检测;使用ReduceReads将bam文件进行压缩,生成新的bam文件;
使用samtools形成VCF文件。
所述的区分鲤群体的单核苷酸多态性分子标记集的构建方法,步骤(3)中分子标记的 筛选的标准如下:
1)所有个体的单个位点覆盖度必须是1*以上;
2)读长大于10,质量分数大于20,最小基因频率大于0.1;
3)1%遗传异常值;
4)所有的多态位点每个个体均应有对应的碱基,不存在缺失情况。
所述的构建方法得到的区分鲤群体的单核苷酸多态性分子标记集在鉴别鲤品种中的应 用。
所述的应用,该区分鲤群体的单核苷酸多态性分子标记集能够区分10个鲤群体,所述10个鲤群体包括3个中国国内品种和7个中国以外国家品种。
所述的应用,其特征在于,鉴别鲤品种的过程为取待鉴别鲤的DNA,进行测序,测序后通过以上所述的构建方法形成VCF文件,并与所述构建方法中VCF文件合并,其中与所述构建方法中VCF文件中SNPs位置不同的,以构建方法中VCF文件为依据,多余的SNPs去除,然后绘制***进化树,得到鉴定结果。
本发明采集国内外主要养殖鲤品种10个,提取它们的DNA并检测其质量,然后进行高通量测序,获得原始下机数据(测序采用Illumina HiSeq2000的pair end方法)。由于鲤基因组已经公布,故本发明不需要进行de novo测序,而且数据可以从基因库中下载,故不需要进行重测序,只需下载原始下机数据即可。
获得原始数据后,通过一系列指标进行测序数据的质量控制,保证数据的准确性,然后 通过BAM,SAMtools等工具完成与参考基因组的比对,单核苷酸位点的提取、形成VCF文档。
在获得VCF文档后,根据所有个体都必须满足的覆盖度、遗传异常值等指标进行位点 的筛选,获得筛选后的VCF文件。在此基础上,根据SNPRelateR包完成进化树的制作, 并与未筛选过的2个图进行对比,分析聚类的结果。
在确定达到目标要求的VCF文件后,分析该VCF文件的特征。此步主要通过与参考基因组的注释文件展开。
本发明提供的构建方法经过一系列筛选获得可用于鉴别10个鲤品种的SNPs数据集, 该数据集可以一次性将10个鲤品种区分出来,并划分为4个大类。该数据集只针对所分析 的10个鲤品种;该数据集的优势亦可将同一品种的不同个体聚在一起,即种内聚在一起, 种间可区分开来,并从聚类树验证了该数据集的结果。
近年来高通量测序技术的发展和测序成本的降低使得从基因组DNA所有分子标记来 进行种质鉴定成为可能,也为多个鲤品种进行同时鉴定提供了途径,而且能从根本上获得 这些可用于多个鲤品种区分的分子标记集。本发明基于鲤重测序技术通过国内外共10个鲤 品种,共计30条鱼,找到了一种可区分10个鲤群体的单核苷酸多态性分子标记集。
本发明从基于基因组的所有多态位点数据集中筛选到可以区分鲤10个品种的多态位 点,一般而言,通过功能基因筛选出能够区分2~3个不同品种的多态位点已经不易,如果 是10个品种就更难了;本发明通过高通量数据筛选得到的多态位点就有38796个,这是传 统的候选基因或是微卫星或是两者的结合无法做到的。
用本发明提供的方法的单核苷酸多态性分子标记集可以成功的在聚类图中将10个鲤品 种鉴定开来,同一品种的不同个体可以聚在一起,并没有交叉聚类的情况,通过建立*** 进化树可以验证这一结果,不过黑龙江野鲤不同个体并不能聚在一起,因此鉴别率为90% 以上。此分子标记集应用于鲤的控种、可促进鲤种业的发展和产权的保护,同时也是把握 和了解全球鲤种质资源的根本和基础。
附图说明
图1为本发明实施例1中10个鲤品种NJ聚类法绘制的聚类图,具体为10个鲤品种30个个体的聚类效果图;
图2为本发明实施例1中对3个鲤个体使用该数据集绘制的聚类图,具体为已筛选SNP数据集对3个未知个体的种属鉴定效果图。
具体实施方式
实施例1
ⅰ)获得鉴别10个不同品种鲤的单核苷酸多态位点集
从NCBI(www.ncbi.nlm.nih.gov)数据库中下载鲤30条重测序序列(PRJNA202478)(这30条序列的个体来源和测序方法可见如下文章:Xu P,Zhang XF,Wang XM,et al.Genome sequence and genetic diversity of the common carp,Cyprinuscarpio.Nature genetic, 2014,46(11):1212-1219.),具体的拉丁文名,中文名及英文缩写见表1,共计10个品种,每 个品种的重复数为3~4。组装软件使用SOAP de novo2,进行重新组装,组装结果见表2。 从表2可以看出,ScaffoldN50和ScaffoldN90均大于原文的数值,证明组装序列可靠,测 序深度为4~9,contig为9377个。完成基因组的组装后需要与原文的组装结果做比较, Scaffold N50的值不得低于原论文发表时的数据值。
从NCBI上下载fastq-dump v2.2.2软件,通过该软件将下载的序列从SRA格式转换为 FASTQ格式,然后以上述组装的序列作为参考序列,通过软件BWA进行mapping:
1)对参考基因组构建索引,生成以参考基因组为基础的amb,ann,bwt,pac,sa格式的几个文 件;
2)寻找输入读长的SA坐标,这是生成pair-end测序对应2个文件的sai文件;
3)生成sam格式的比对文件;
4)对由BWA生成的sam文件进行重排序,然后将排序后的SAM文件转换为bam文件,再对bam文件进行sort排序处理和加头处理;如果一个样本分为多个通过进行测序,此 步应将每个通道的bam文件合并;
5)使用picard tools去掉重复,去掉重复后的文件通过samtools形成对应的索引文件,格 式为bai文件;
6)使用GATK中的RealignerTargetCreator和IndelRealigner对由indel导致错配的区域进行 重新比对,将indel附近的比对错误率降到最低;
7)使用BaseRecalibrator和PrintReads将经过质量值校正的数据输出到新的bam文件中, 用于后续的变异检测;使用ReduceReads将bam文件进行压缩,生成新的bam文件;
8)使用samtools形成VCF文件。
在获得原始VCF文件后,通过一下标准进行分子标记的筛选:
1)所有个体的单个位点覆盖度必须是1*以上;
2)读长大于10,质量分数大于20,最小基因频率大于0.1;
3)1%遗传异常值;
4)所有的多态位点每个个体均应有对应的碱基,不存在缺失情况;
在获得筛选过的VCF文件后,通过R3.1.14软件的SNPRelate包分别绘制***进化树 (图1),比较筛选前后的种质鉴定效果。通过比较发现,经过筛选得到的单核苷酸多态位点数据集可以把10个鲤品种划分为4个大类:美国鲤,锦鲤,索尔沃什鲤、多瑙河鲤以及 松浦镜鲤聚为第三类,黄河鲤、黑龙江野鲤、瓯江彩鲤、兴国红鲤和荷包红鲤聚为第四类。 放大聚类图发现:黑龙江野鲤和其它品种相比,较为分散,瓯江彩鲤和荷包红鲤难以区分 开来,也就是说二者血缘关系近。通过***进化树的构建可以看出单个品种的不同个体基 本上聚在同一个节点上,不存在交叉聚类的现象,从这一点上来看,种质鉴别率为100%。
ⅱ)从3个鲤品种中各随机选取三条,鉴定是否该鲤的品种
从荷包红鲤、松浦镜鲤和黄河鲤群体中各随机选一条鲤,剪尾鳍,提取DNA后分别编 号为R1,R2和R3,送到诺禾致源生物信息有限公司进行重测序,重测序使用平台为Hi-Seq ×10,测序深度为10×,测序后得到的reads,经过ⅰ)所述的数据处理过程,然后与ⅰ)中获得的VCF文件合并,有与ⅰ)VCF文件中SNPs位置不同的,以ⅰ)的为依据,多余 的SNPs去掉,然后重新做***进化树,见图2。结果发现所检测的3条鲤都可以准确地被 鉴定出来。
表1. 10鲤品种的基本信息
Figure DEST_PATH_IMAGE001
表2. 30条鲤全基因组组装信息
Figure DEST_PATH_IMAGE002

Claims (5)

1.一种区分鲤群体的单核苷酸多态性分子标记集的构建方法,其特征在于,包括以下步骤:(1)从NCBI数据库下载鲤重测序序列,通过组装软件SOAP de novo2进行重新组装;(2)将下载的鲤重测序序列从SRA格式转换为FASTQ格式,然后以重新组装的序列作为参考序列,通过软件BWA进行mapping,获得原始VCF文件;(3)在原始VCF文件的基础上进行分子标记的筛选;(4)筛选后的VCF文件通过R3.1.14软件的SNPRelate包分别绘制***进化树,比较筛选前后的鉴定效果,得到区分鲤群体的单核苷酸多态性分子标记集;
步骤(3)中分子标记的筛选的标准如下:
1)所有个体的单个位点覆盖度必须是1*以上;
2)读长大于10,质量分数大于20,最小基因频率大于0.1;
3)1%遗传异常值;
4)所有的多态位点每个个体均应有对应的碱基,不存在缺失情况;
步骤(2)中所述mapping的步骤如下:
(1)对参考基因组构建索引,生成以参考基因组为基础的amb, ann, bwt, pac,sa格式的几个文件;
(2)寻找输入读长的SA坐标,这是生成pair-end测序对应2个文件的sai文件;
(3)生成sam格式的比对文件;
(4)对由BWA生成的sam文件进行重排序,然后将排序后的SAM文件转换为bam文件,再对bam文件进行sort排序处理和加头处理;如果一个样本分为多个通过进行测序,此步应将每个通道的bam文件合并;
(5)使用picard tools去掉重复,去掉重复后的文件通过samtools形成对应的索引文件,格式为bai文件;
(6)使用GATK中的RealignerTargetCreator和IndelRealigner对由indel导致错配的区域进行重新比对,将indel附近的比对错误率降到最低;
(7)使用BaseRecalibrator和PrintReads将经过质量值校正的数据输出到新的bam文件中,用于后续的变异检测;使用ReduceReads将bam文件进行压缩,生成新的bam文件;使用samtools形成VCF文件。
2.根据权利要求1所述的区分鲤群体的单核苷酸多态性分子标记集的构建方法,其特征在于,步骤(2)中从SRA格式转换为FASTQ格式采用fastq-dump v2.2.2软件。
3.权利要求1所述的构建方法得到的区分鲤群体的单核苷酸多态性分子标记集在鉴别鲤品种中的应用。
4.根据权利要求3所述的应用,其特征在于,该区分鲤群体的单核苷酸多态性分子标记集能够区分10个鲤群体,所述10个鲤群体包括3个中国国内品种和7个中国以外国家品种。
5.根据权利要求3所述的应用,其特征在于,鉴别鲤品种的过程为取待鉴别鲤的DNA,进行测序,测序后通过权利要求1所述的构建方法形成VCF文件,并与权利要求1中VCF文件合并,其中与权利要求1中VCF文件中SNPs位置不同的,以权利要求1中VCF文件为依据,多余的SNPs去除,然后绘制***进化树,得到鉴定结果。
CN201710564528.5A 2017-07-12 2017-07-12 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 Active CN107862177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710564528.5A CN107862177B (zh) 2017-07-12 2017-07-12 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710564528.5A CN107862177B (zh) 2017-07-12 2017-07-12 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法

Publications (2)

Publication Number Publication Date
CN107862177A CN107862177A (zh) 2018-03-30
CN107862177B true CN107862177B (zh) 2021-08-27

Family

ID=61699136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710564528.5A Active CN107862177B (zh) 2017-07-12 2017-07-12 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法

Country Status (1)

Country Link
CN (1) CN107862177B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349625B (zh) * 2019-07-23 2022-02-08 中国科学院心理研究所 一种人类大脑基因表达时空常模的建立方法
CN113284552B (zh) * 2021-06-11 2023-10-03 中山大学 一种微单倍型的筛选方法及装置
CN117210580B (zh) * 2023-10-10 2024-02-27 中国水产科学研究院 一种snp分子标记组合在16个鲤品种鉴定中的应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102382878A (zh) * 2011-09-06 2012-03-21 中国水产科学研究院淡水渔业研究中心 一种鉴别建鲤不同家系的分子标记方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030190652A1 (en) * 2002-01-25 2003-10-09 De La Vega Francisco M. Methods of validating SNPs and compiling libraries of assays

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102382878A (zh) * 2011-09-06 2012-03-21 中国水产科学研究院淡水渔业研究中心 一种鉴别建鲤不同家系的分子标记方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A High-Performance Computing Toolset for Relatedness and Principal Component Analysis of Snp Data;Xiuwen Zheng et al;《BioInformatics Applications Note》;20121011;第28卷(第24期);3326-3328 *
BSTA:a targeted approach combines bulked segregant analysis with next-generation sequencing and de novo transcriptome assembly for SNP discovery in sunflower;Maren Livaja et al;《BMC Genomics》;20130917;1-10 *
CFSAN SNP Pipeline an automated method for constructing SNP matrices from next-generation sequence data;Steve Davis et al;《PeerJ Computer Science》;20150826;1-11 *
太平洋西部鳓鱼群体遗传学研究以及鳓鱼和鲚属中SNP标记的开发;王倩;《中国优秀硕士学位论文全文数据库(电子期刊)农业科技辑》;20170215;D052-212 *
栉孔扇贝EST-SNP标记开发及多态性分析;李纪勤等;《中国海洋大学学报》;20130131;第43卷(第1期);56-63 *

Also Published As

Publication number Publication date
CN107862177A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
Zhebentyayeva et al. Genetic characterization of worldwide Prunus domestica (plum) germplasm using sequence-based genotyping
Morales‐Briones et al. Phylogenomic analyses reveal a deep history of hybridization and polyploidy in the Neotropical genus Lachemilla (Rosaceae)
Silva‐Junior et al. A flexible multi‐species genome‐wide 60K SNP chip developed from pooled resequencing of 240 Eucalyptus tree genomes across 12 species
Catanach et al. The genomic pool of standing structural variation outnumbers single nucleotide polymorphism by threefold in the marine teleost Chrysophrys auratus
Deschamps et al. Genotyping-by-sequencing in plants
CN109196123B (zh) 用于水稻基因分型的snp分子标记组合及其应用
CN107532332B (zh) 用于多重分类学分类的方法和***
van Poecke et al. Sequence‐based SNP genotyping in durum wheat
AU2021257920A1 (en) Variant classifier based on deep neural networks
van Oeveren et al. Sequence-based physical mapping of complex genomes by whole genome profiling
WO2019200338A1 (en) Variant classifier based on deep neural networks
Pértille et al. High-throughput and cost-effective chicken genotyping using next-generation sequencing
Pavy et al. Development of highly reliable in silico SNP resource and genotyping assay from exome capture and sequencing: an example from black spruce (Picea mariana)
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
CN115198023B (zh) 一种海南黄牛液相育种芯片及其应用
Timmermans et al. Mimicry diversification in Papilio dardanus via a genomic inversion in the regulatory region of engrailed–invected
CN108018359B (zh) 一种用于鉴定樱桃谷鸭的分子标记及其应用
Bickhart et al. Generation of lineage-resolved complete metagenome-assembled genomes by precision phasing
CN115992265A (zh) 一种石斑鱼全基因组液相芯片及其应用
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
de Boer et al. A hybrid BAC physical map of potato: a framework for sequencing a heterozygous genome
CN116004898A (zh) 一种花生40K液相SNP芯片PeanutGBTS40K及其应用
JP7166638B2 (ja) 多型検出法
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술
Ning et al. ssahaSNP-a polymorphism detection tool on a whole genome scale

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant