CN110093406A - 一种盘羊及其杂交后代遗传基因研究方法 - Google Patents
一种盘羊及其杂交后代遗传基因研究方法 Download PDFInfo
- Publication number
- CN110093406A CN110093406A CN201910447387.8A CN201910447387A CN110093406A CN 110093406 A CN110093406 A CN 110093406A CN 201910447387 A CN201910447387 A CN 201910447387A CN 110093406 A CN110093406 A CN 110093406A
- Authority
- CN
- China
- Prior art keywords
- snp
- data
- indel
- argali
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 42
- 241001416149 Ovis ammon Species 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000011160 research Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000012163 sequencing technique Methods 0.000 claims abstract description 16
- 238000007689 inspection Methods 0.000 claims abstract description 5
- 238000002360 preparation method Methods 0.000 claims abstract description 4
- 241001494479 Pecora Species 0.000 claims abstract 6
- 230000035772 mutation Effects 0.000 claims description 48
- 210000000349 chromosome Anatomy 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 16
- 230000037433 frameshift Effects 0.000 claims description 13
- 238000003780 insertion Methods 0.000 claims description 12
- 230000037431 insertion Effects 0.000 claims description 12
- 150000001413 amino acids Chemical class 0.000 claims description 11
- 231100000221 frame shift mutation induction Toxicity 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 108020004414 DNA Proteins 0.000 claims description 7
- 208000037516 chromosome inversion disease Diseases 0.000 claims description 7
- 239000002773 nucleotide Substances 0.000 claims description 7
- 125000003729 nucleotide group Chemical group 0.000 claims description 7
- 238000009396 hybridization Methods 0.000 claims description 6
- 208000016718 Chromosome Inversion Diseases 0.000 claims description 5
- 108091026890 Coding region Proteins 0.000 claims description 5
- 238000003908 quality control method Methods 0.000 claims description 5
- 230000002759 chromosomal effect Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000007812 deficiency Effects 0.000 claims description 4
- 230000001627 detrimental effect Effects 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 238000012797 qualification Methods 0.000 claims description 3
- 230000005945 translocation Effects 0.000 claims description 3
- 238000012268 genome sequencing Methods 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000012545 processing Methods 0.000 claims 1
- 230000008707 rearrangement Effects 0.000 claims 1
- 238000009395 breeding Methods 0.000 abstract description 6
- 230000001488 breeding effect Effects 0.000 abstract description 6
- 230000002068 genetic effect Effects 0.000 abstract description 3
- 238000011144 upstream manufacturing Methods 0.000 description 15
- 241000283898 Ovis Species 0.000 description 14
- 101100428022 Arabidopsis thaliana UTR3 gene Proteins 0.000 description 12
- 101100453133 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ISY1 gene Proteins 0.000 description 12
- 101150007199 UTR5 gene Proteins 0.000 description 12
- 238000010008 shearing Methods 0.000 description 9
- 108020004705 Codon Proteins 0.000 description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 108091029795 Intergenic region Proteins 0.000 description 3
- 102000039634 Untranslated RNA Human genes 0.000 description 3
- 108020004417 Untranslated RNA Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004043 dyeing Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011451 sequencing strategy Methods 0.000 description 2
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 241000283903 Ovis aries Species 0.000 description 1
- 241000611732 Ovis vignei Species 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- 235000011941 Tilia x europaea Nutrition 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004571 lime Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种盘羊及其杂交后代遗传基因研究方法。包括:以亲本巴什拜羊、野生盘羊、杂交F1代、回交F2代个体作为研究对象;获取群体DNA,纯度、浓度及体积,文库制备和质检,测序,获得原始测序数据;进行数据过滤并评估测序质量,获得目标分析序列数据;将目标分析序列数据比对到巴什拜羊参考基因组上,获得比对上的数据;检测比对上的数据的SNP、InDel及SV,进行注释,获得家系群体全基因组中的SNP数据信息、InDel数据信息、SV数据信息;通过各数据信息分析家系群体个体遗传变异信息,推测和确定性状相关信息。通过本发明方法可清楚展示盘羊遗传相关基因,可为以后育种提供科学依据。
Description
技术领域
本发明涉及基因技术领域,尤其涉及一种盘羊及其杂交后代遗传基因研究方法。
背景技术
盘羊(学名:Argalisheep):雄性肩高可达120厘米,体重可达200千克。雄性的弯角粗大,长达1米以上,向下扭曲呈螺旋状,外侧有环棱;雌性的角非常短,而且弯度不大。毛的颜色从淡棕色至白灰色,胸、腹部的颜色浅一些。脖子白色,没有类似赤羊的鬃毛。盘羊的腿比较长,身材比较瘦,与其它野绵羊相比其爬山技巧比较差,因此在逃跑时一般避免逃向太陡峭的山坡。巴什拜羊是新疆塔城地区的一个地方绵羊良种。体格略小于阿勒泰羊,但被毛品质优于阿勒泰羊。将野生盘羊与巴什拜羊进行杂交以后,子代个体的尾部大小,随着杂交的深入,而出现了逐渐变大,脂肪积累逐渐增加的现象,推测是由于子代的个体在基因组的某一个片段上,出现了逐渐纯和,逐渐与巴什拜羊相似返祖的现象;
为了解决这一生物学问题,需要通过生物信息手段进行了解,以便为寻找后代相关性状出现的规律和后期相关育种工作提供科学依据。
发明内容
有鉴于此,本发明实施例提供了一种盘羊遗传基因研究方法,主要目的是通过上述方法全面展示盘羊遗传基因信息,为育种工作提供科学依据。
为达到上述目的,本发明主要提供了如下技术方案:
一方面,本发明实施例提供了一种盘羊遗传基因研究方法,所述方法包括步骤:
(1)以野生盘羊为父本,以巴什拜羊为母本,杂交后产生杂交F1代;以所述杂交F1代为父本,以所述巴什拜羊为母本,杂交后产生回交F2代;以所述野生盘羊、所述巴什拜羊、所述F1代及所述F2代为研究对象;
(2)分别获取所述研究对象的DNA,检测所述DNA的纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得原始测序数据;
(3)对所述原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;
(4)将所述目标分析序列数据比对到巴什拜羊参考基因组上,经比对指标质控合格后获得比对上的数据;
(5)检测所述比对上的数据的单核苷酸变异SNP、小片段***缺失变异InDel、染色体结构变异SV,并进行注释,获得所述研究对象的全基因组测序序列中的SNP数据信息、InDel数据信息、SV数据信息;
(6)通过SNP数据信息、InDel数据信息、SV数据信息确定家系群体的全基因组变异信息;通过家系个体相似度IBD分析,确定家系个体与亲本相似的数据信息;分析比较家系个体中SV有变化规律的信息和所述IBD分析结果,推测性状相关信息;通过家系群体的个体之间的SNP频率差异和所述IBD的分析结果,对子代遗传亲本的片段进行特定SNP频率计算,确定相关性状出现的机制信息。
作为优选,采用SAMTOOLS软件检测群体SNP信息,采用贝叶斯模型检测群体中的多态性位点,通过以下过滤和筛选得到高质量的SNPs:
1)Q20质量控制:将质量值Q20即测序错误率大于1%的SNPs过滤掉;
2)SNP位点彼此间至少相隔5bp;若检测到两个SNP之间距离在5bp范围内,由于该情况出现的概率极低,故认为是测序、实验因素或分析错误,将这两个SNP均去除掉;
3)SNP的支持数,即覆盖深度在4-1000范围内。
具体的,在比对到参考基因组序列的基础上,通过突变分析软件GATK(McKenna,etal.,2010)从中提取全基因组中所有的潜在的SNP位点,再根据质量值、深度、重复性等因素做进一步的过滤筛选,最终得到高可信度的SNP数据集,并对其进行注释。利用GATK检测并过滤得到SNP后,使用ANNOVAR(Wang,et al.,2010)软件及已有的基因组注释文件(gff/gtf)对检测到的SNP进行相应的注释,注释的结果存放在Excel文件中,具体的注释内容解释请参见格式说明书。
作为优选,所述SNP的突变类型包括T:A>C:G和C:G>T:A。
作为优选,所述InDel是利用SAMTOOLs检测长度小于50bp的小片段***与缺失;在比对到参考基因组序列的基础上,通过突变分析软件GATK从中提取全基因组中所有的潜在多态性InDel位点,再根据质量值、深度、重复性做进一步的过滤筛选,最终得到高可信度的InDel数据集,并对其进行注释。利用GATK检测并过滤得到InDel后,使用ANNOVAR软件及已有的基因组注释文件对检测到的InDel进行相应的注释,InDel长度的不同会引起对基因组不同程度的影响,在全基因组及编码区,其不同长度的InDel的分布有着明显的差异,编码区因其所需的特有的保守性,3个碱基的InDel的数量比例较2碱基及4碱基等的多;编码区域的InDel突变影响到氨基酸的编码进而影响基因功能,将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,通常移码突变较非移码突变更有害,而Stopgain和Stoploss因为导致了终止子的提前出现或缺失,也会是有害突变。
作为优选,所述SV是利用BreakDancer软件进行检测;所述SV的突变类型包括染色体缺失、染色体易位、染色体加倍、染色体倒位、染色体***;在比对到参考基因组序列的基础上,通过染色体结构变异分析软件DELLY检测全基因组所有潜在的SV位点,再根据质量值、支持的Reads数做进一步过滤,最终得到高可信度的SV数据集,并对其注释。
具体的,将检测到的染色体***、染色体缺失、染色体倒位等不同类型的SV的个数进行统计;以其中一个样本(父本野生盘羊)为例:
与现有技术相比,本发明的有益效果是:
本发明通过对杂交群体的亲本野生盘羊和巴什拜羊,F1代个体,回交得F2代个体进行全基因组重测序,通过对家系群体的变异规律和片段遗传规律的研究,揭示该现象产生的分子机理;通过应用全基因组重测序的方法,在基因组层面更加清晰的揭示子代个体相关性状产生的机制,为后期相关育种工作提供依据。
附图说明
图1是本发明实施例提供的技术流程图;
图2是本发明实施例提供的SNP质量分布图;
图3是本发明实施例提供的SMP突变频谱图;
图4是本发明实施例提供的编码区Indel长度分布图;
图5是本发明实施例提供的编码区SV长度分布图;
图6是本发明实施例提供的基因组结构变异分布图;
图7是本发明实施例提供的变异图谱;
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下以较佳实施例,对依据本发明申请的具体实施方式、技术方案、特征及其功效,详细说明如后。下述说明中的多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
实施例1
材料选择:亲本野生盘羊和巴什拜羊各一只;F1代个体一只(巴什拜羊与野生盘羊杂交子代),回交F2代个体8只,共10只个体;
样品要求:
1)类型:分别提取10只个体的DNA样品;无降解或轻微降解;无污染;
2)需求量:每次样品制备需要3μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*3μg;
3)样品浓度:≥50ng/μl,推荐浓度为100-200ng/μl;
建库策略:350bp DNA小片段文库;
测序策略:
1)测序平台:Hiseq;
2)测序策略:PE150;
3)测序深度:10X;
技术路线如图1所示,将上述各段DNA进行测序、质控、比对后获得比对上的序列数据;在比对上的序列数据基础上筛选变异信息,如SNP与注释,具体过程如下:
1、SNP检测及注释:
SNP(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等;本实施例采用SAMTOOLS等软件进行群体SNP的检测;利用贝叶斯模型检测群体中的多态性位点,通过以下过滤和筛选得到高质量的SNPs:
1)Q20质量控制(将质量值Q20即测序错误率大于1%的SNPs过滤掉);
2)SNP位点彼此间至少相隔5bp(若检测到两个SNP之间距离在5bp范围内,由于该情况出现的概率极低,故认为是测序、实验因素或分析错误,将这两个SNP均去除掉);
3)SNP的支持数(覆盖深度)在4-1000范围内。
ANNOVAR是一种高效的软件工具,它能利用最新的信息,对由多个基因组检测出的基因变异进行功能注释;只要给出变异所在的染色体、起始位点、终止位点、参考核苷酸和变异核苷酸,ANNOVAR就能进行Gene-based annotation、Region-based annotations、Filter-based annotation和Other functionalities;本实施例利用它对SNP检测结果进行注释,检测结果见表1。
表1.SNP分布统计
(1)Total:基因组中全部的SNP数目;
(2)UTR5:发生在基因的UTR5的SNP数目;
(3)UTR3:发生在基因的UTR3的SNP数目;
(4)UTR5;UTR3:发生在基因的UTR5与另一个基因UTR3的共有区间的SNP数目;其它类似;
(5)exonic:发生在外显子区域的SNP数目;
(6)splicing:发生在基因剪切区域内(剪切位点上游2bp,即非Exonic区)的SNP数目;
(7)exonic;splicing:发生在基因的Exonic邻近剪切位点2bp(剪切位点下游)的SNP数目;
(8)upstream:发生在基因上游(1000bp)内的SNP数目;
(9)downstream:发生在基因下游(1000bp)内的SNP数目;
(10)upstream;downstream:发生在基因上游或者下游(1000bp)内的SNP数目;
(11)intronic:发生在内含子区域的SNP数目;
(12)intergenic:发生在基因间区的SNP数目;
(13)ncRNA:没有相关编码注释的RNA,并非不翻译的RNA,参见ANNOVAR的Gene注释说明;子区间注释同上;(14)other:位于其他位置SNP的数目。
全基因组SNP突变可以分成6类。以T:A>C:G为例,此种类型SNP突变包括T>C和A>G。由于测序数据即可比对到参考基因组的正链,也可比对到参考基因组的负链,当T>C类型突变出现在参考基因组正链上,A>G类型突变即在参考基因组负链的相同位置,所以将T>C和A>G划分成一类。全基因组SNP频谱分析如图3所示,由图可知,T:A>C:G和C:G>T:A为主要SNP突变型。
SNP杂合比分析:
经GATK(McKenna,et al.,2010)检测并过滤得到SNP分为杂合和纯合SNP,分析基因组中SNP的杂合比例,有助于对该物种有更多的分析和了解,以进行后续分析。样本的纯合和杂合SNP的比例如下表,以其中一个样本为例:
纯合和杂合SNP比例表,以其中一个样本为例:
表2.纯合和杂合SNP比例表
#F1-5 | Hom_genome | Het_genome | Hom_exonic | Het_exonic |
Number | 4,707,309 | 9,804,040 | 38,104 | 65,223 |
Percentage(%) | 32.44 | 67.56 | 36.88 | 63.12 |
(1)Hom_genome:基因组中纯合的SNP;
(2)Het_genome:基因组中杂合的SNP;
(3)Hom_exonic:外显子中纯合的SNP;
(4)Het_exonic:外显子中杂合的SNP。
表3.SNP突变模式分布统计表
#Sample | F1-5 |
T-A | 950,855 |
T-C | 4,957,395 |
T-G | 1,138,369 |
C-A | 1,214,280 |
C-T | 5,219,718 |
C-G | 1,030,732 |
(1)T-A:即T到A的突变(包含反链的A到T的突变);
(2)T-C:即T到C的突变(包含反链的A到G的突变);
(3)T-G:即T到G的突变(包含反链的A到C的突变);
(4)C-A:即C到A的突变(包含反链的G到T的突变);
(5)C-T:即C到T的突变(包含反链的G到A的突变);
(6)C-G:即C到G的突变(包含反链的G到C的突变)。
编码区SNP功能注释及统计:
编码区域的SNP突变可能会影响到氨基酸的编码,进而影响基因功能。将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,如非同义突变、同义突变等,通常非同义突变导致相应氨基酸改变从而使得基因功能发生改变,而Stopgain和Stoploss导致了终止子的提前出现或缺失,所以也是有害突变。下表给出了SNP的功能分布统计,以其中一个样本为例:
表4.SNP功能分布统计
#F1-5 | Number | Percent(%) |
Total | 103,327 | 100 |
nonsynonymous SNV | 28,194 | 27.29 |
synonymous SNV | 40,334 | 39.04 |
stopgain | 291 | 0.28 |
stoploss | 71 | 0.07 |
unknown | 34,437 | 33.33 |
(1)Total:所有突变总和;
(2)nonsynonymous SNV:非同义突变,密码子的改变导致编码的氨基酸改变(此处SNV同SNP);
(3)synonymous SNV:同义突变,密码子变异为编码同一氨基酸的密码子,核苷酸的改变不引起氨基酸的改变,即不引起基因产物的突变;
(4)stopgain:密码子的改变导致终止子的出现;
(5)stoploss:密码子的改变导致终止子的缺失;
(6)unknown:未知类型。
2、Indel检测及注释:在比对到参考基因组序列的基础上,通过突变分析软件GATK(McKenna,et al.,2010)从中提取全基因组中所有的潜在多态性InDel(Insertion和Deletion)位点,再根据质量值、深度、重复性等因素做进一步的过滤筛选,最终得到高可信度的InDel数据集,并对其进行注释。
利用GATK(McKenna,et al.,2010)检测并过滤得到InDel后,使用ANNOVAR(Wang,et al.,2010)软件及已有的基因组注释文件(gff/gtf)对检测到的InDel进行相应的注释,注释的结果存放在Excel文件中,具体的注释内容请参见格式说明书。
InDel位置分布统计:
利用GATK(McKenna,et al.,2010)检测并过滤得到InDel后,使用ANNOVAR(Wang,et al.,2010)软件及已有的基因组注释文件(gff/gtf)对检测到的InDel进行相应的注释,统计其在基因组各区间的分布情况,以其中一个样本为例:
表5.InDel分布统计
(1)Total:基因组中全部的InDel数目;
(2)UTR5:发生在基因的UTR5的InDel数目;
(3)UTR3:发生在基因的UTR3的InDel数目;
(4)UTR5;UTR3:发生在基因的UTR5与另一个基因UTR3的共有区间的InDel数目;其它类似;
(5)exonic:发生在外显子区域的InDel数目;
(6)splicing:发生在基因剪切区域内(剪切位点上游2bp,即非Exonic区)的InDel数目;
(7)exonic;splicing:发生在基因的Exonic邻近剪切位点2bp(剪切位点下游)的InDel数目;
(8)upstream:发生在基因上游(1000bp)内的InDel数目;
(9)downstream:发生在基因下游(1000bp)内的InDel数目;
(10)upstream;downstream:发生在基因上游或者下游(1000bp)内的InDel数目;
(11)intronic:发生在内含子区域的InDel数目;
(12)intergenic:发生在基因间区的InDel数目;
(13)ncRNA:没有相关编码注释的RNA,并非不翻译的RNA,参见ANNOVAR的Gene注释说明;子区间注释同上;
(14)other:位于其他位置InDel的数目。
InDel突变模式分布统计:
InDel长度的不同会引起对基因组不同程度的影响,在全基因组及编码区,其不同长度的InDel的分布有着明显的差异,编码区因其所需的特有的保守性,3个碱基的InDel的数量比例较2碱基及4碱基等的多(3碱基InDel不容易引起移码)。下表为InDel突变模式的统计,以一个样本为例:
表6.InDel突变模式统计
#F1-5 | Genome | Exonic |
1 | 871,838 | 9,496 |
2 | 375,047 | 2,153 |
3 | 191,718 | 1,214 |
4 | 145,758 | 627 |
5 | 73,396 | 494 |
6 | 56,755 | 441 |
>6 | 356,963 | 4,983 |
第一列表示InDel的长度,即Insertion或是Deletion的长度;
(1)Genome:全基因组中长度为n的InDel的个数;
(2)Exonic:编码区中长度为n的InDel的个数。
编码区InDel功能注释及统计:
编码区域的InDel突变可能会影响到氨基酸的编码进而影响基因功能,将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,如移码突变、非移码突变等,通常移码突变较非移码突变更有害,而Stopgain和Stoploss因为导致了终止子的提前出现或缺失,也会是有害突变。下表给出了InDel的功能注释统计,以其中一个样本为例:
表7.InDel功能统计
#F1-5 | Number | Percent(%) |
Total | 19,408 | 100 |
frameshift deletion | 1,911 | 9.85 |
frameshift insertion | 2,807 | 14.46 |
nonframeshift deletion | 488 | 2.51 |
nonframeshift insertion | 949 | 4.89 |
stopgain | 220 | 1.13 |
stoploss | 9 | 0.05 |
unknown | 13,016 | 67.07 |
(1)Total:所有突变总和;
(2)frameshift:移码突变,碱基缺失或增加非3的倍数,造成这位置之后的一系列编码发生移位错误的改变;
(3)nonframeshift:非移码突变,碱基缺失或增加为3的倍数;
(4)stopgain:密码子的改变导致终止子的出现;
(5)stoploss:密码子的改变导致终止子的缺失;
(6)unknown:未知类型。
3、SV检测及注释:
染色体结构变异(SV)是基因组变异的重要组成,其主要突变类型有:***、缺失、倒位等。在比对到参考基因组序列的基础上,通过染色体结构变异分析软件DELLY(Tobias,et al.,2012)检测全基因组所有潜在的SV位点,再根据质量值、支持的Reads数等因素做进一步过滤,最终得到高可信度的SV数据集,并对其注释。
SV变异检测与注释:
利用DELLY(Tobias,et al.,2012)检测并过滤得到SV后,利用已有的基因注释文件(gff/gtf)对检测到的SV进行相应的注释,注释后的结果存放于Excel文件中。
SV变异类型统计:
将检测到的染色体***、染色体缺失、染色体倒位等不同类型的SV的个数进行统计,结果如下表,以其中一个样本为例:
表8.SV变异类型统计表
(1)DEL:染色体缺失;
(2)TRA:染色体易位;
(3)DUP:染色体加倍;
(4)INV:染色体倒位;
(5)INS:染色体***。
SV位置分布统计:
利用DELLY(Tobias,et al.,2012)检测并过滤得到SV后,利用已有的基因组注释文件(gff/gtf)对检测到的SV进行相应的注释,统计SV覆盖的各种元件的分布情况,以其中一个样本为例:
表9.SV位置分布表
(1)Total:基因组中全部的SV数目;
(2)UTR5:发生在基因的UTR5的SV数目;
(3)UTR3:发生在基因的UTR3的SV数目;
(4)UTR5;UTR3:发生在基因的UTR5与另一个基因UTR3的共有区间的SV数目;其它类似;
(5)exonic:发生在外显子区域的SV数目
(6)splicing:发生在基因剪切区域内(剪切位点上游2bp,即非Exonic区)的SV数目;
(7)exonic;splicing:发生在基因的Exonic邻近剪切位点2bp(剪切位点下游)的SV数目;
(8)upstream:发生在基因上游(1000bp)内的SV数目;
(9)downstream:发生在基因下游(1000bp)内的SV数目;
(10)upstream;downstream:发生在基因上游或者下游(1000bp)内的SV数目;
(11)intronic:发生在内含子区域的SV数目;
(12)intergenic:发生在基因间区的SV数目;
(13)ncRNA:没有相关编码注释的RNA,并非不翻译的RNA,参见ANNOVAR的Gene注释说明;子区间注释同上;
(14)other:位于其他位置SV的数目。
家系个体遗传变异分析:
1、家系个体遗传变异分析:全面检测SNP、Indel、SV。
2、家系个体相似度(IBD)分析:通过家系个体片段相似度(IBD)分析,分析家系个体与亲本相似的区域,作为与性状形成相关的候选区域;分析比较在家系个体中SV有变化规律的区域,同时与前面的相似度分析获得的基因组区域相结合,推测性状形成的关键点。
3、家系个体SNP频率分析:通过画窗口计算窗口内SNP-index平均值。
通过对家系群体的个体之间的SNP频率差异的分析,并结合IBD分析的结果,对子代遗传亲本的片段进行特定的SNP频率计算,进一步推断相关性状出现的机制。
本发明通过对杂交群体的亲本巴什拜羊,F1代个体,回交得F2代个体进行全基因组重测序,通过对家系群体的变异规律和片段遗传规律的研究,揭示该现象产生的分子机理;通过应用全基因组重测序的方法,可以在基因组层面更加清晰的揭示子代个体相关性状产生的机制,为后期相关育种工作提供依据。
本发明实施例中未尽之处,本领域技术人员均可从现有技术中选用。
以上公开的仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以上述权利要求的保护范围为准。
Claims (7)
1.一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述方法包括以下步骤:
(1)以野生盘羊为父本,以巴什拜羊为母本,杂交后产生杂交F1代;以所述杂交F1代为父本,以所述巴什拜羊为母本,杂交后产生回交F2代;以所述野生盘羊、所述巴什拜羊、所述F1代及所述F2代为研究对象;
(2)分别获取所述研究对象的DNA,检测所述DNA的纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得原始测序数据;
(3)对所述原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;
(4)将所述目标分析序列数据比对到巴什拜羊参考基因组上,经比对指标质控合格后获得比对上的数据;
(5)检测所述比对上的数据的单核苷酸变异SNP、小片段***缺失变异InDel、染色体结构变异SV,并进行注释,获得所述研究对象的全基因组测序序列中的SNP数据信息、InDel数据信息、SV数据信息;
(6)通过SNP数据信息、InDel数据信息、SV数据信息确定家系群体的全基因组变异信息;通过家系个体相似度IBD分析,确定家系个体与亲本相似的数据信息;分析比较家系个体中SV有变化规律的信息和所述IBD分析结果,推测性状相关信息;通过家系群体的个体之间的SNP频率差异和所述IBD的分析结果,对子代遗传亲本的片段进行特定SNP频率计算,确定相关性状出现的机制信息。
2.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,采用SAMTOOLS软件检测群体SNP信息,采用贝叶斯模型检测群体中的多态性位点,通过以下过滤和筛选得到高质量的SNPs:
1)Q20质量控制:将质量值Q20即测序错误率大于1%的SNPs过滤掉;
2)SNP位点彼此间至少相隔5bp;若检测到两个SNP之间距离在5bp范围内,由于该情况出现的概率极低,故认为是测序、实验因素或分析错误,将这两个SNP均去除掉;
3)SNP的支持数,即覆盖深度在4-1000范围内。
3.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述SNP的突变类型包括T:A>C:G和C:G>T:A。
4.如要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,在比对到参考基因组序列的基础上,通过突变分析软件GATK从中提取全基因组中所有的潜在多态性InDel位点,再根据质量值、深度、重复性做进一步的过滤筛选,最终得到高可信度的InDel数据集,并对其进行注释;利用GATK检测并过滤得到InDel后,使用ANNOVAR软件及已有的基因组注释文件对检测到的InDel进行相应的注释,InDel长度的不同会引起对基因组不同程度的影响,在全基因组及编码区,其不同长度的InDel的分布有着明显的差异,编码区因其所需的特有的保守性,3个碱基的InDel的数量比例较2碱基及4碱基等的多;编码区域的InDel突变影响到氨基酸的编码进而影响基因功能,将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,通常移码突变较非移码突变更有害,而Stopgain和Stoploss因为导致了终止子的提前出现或缺失,也会是有害突变。
5.如要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述SV是利用BreakDancer软件进行检测;所述SV的突变类型包括染色体缺失、染色体易位、染色体加倍、染色体倒位、染色体***;在比对到参考基因组序列的基础上,通过染色体结构变异分析软件DELLY检测全基因组所有潜在的SV位点,再根据质量值、支持的Reads数做进一步过滤,最终得到高可信度的SV数据集,并对其注释。
6.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述方法中包括数据处理,目的是更明显的展示样本中的结构差异:
(1)对于SNP,首先统计每条染色体上相邻1M区域内SNP的密度,0-1.5;
(2)对于重排数据,先过滤质量低于35,支持数小于50对reads的重排结果。
7.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,根据所述家系群体的全基因组变异信息绘制变异图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910447387.8A CN110093406A (zh) | 2019-05-27 | 2019-05-27 | 一种盘羊及其杂交后代遗传基因研究方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910447387.8A CN110093406A (zh) | 2019-05-27 | 2019-05-27 | 一种盘羊及其杂交后代遗传基因研究方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110093406A true CN110093406A (zh) | 2019-08-06 |
Family
ID=67449291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910447387.8A Pending CN110093406A (zh) | 2019-05-27 | 2019-05-27 | 一种盘羊及其杂交后代遗传基因研究方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110093406A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110791574A (zh) * | 2019-12-11 | 2020-02-14 | 湖北省农业科学院畜牧兽医研究所 | 与山羊产羔数、生长性状关联的分子标记及其应用 |
CN111370065A (zh) * | 2020-03-26 | 2020-07-03 | 北京吉因加医学检验实验室有限公司 | 一种检测rna跨样本交叉污染率的方法和装置 |
CN112885408A (zh) * | 2021-02-22 | 2021-06-01 | 中国农业大学 | 一种基于低深度测序检测snp标记位点的方法及装置 |
CN113005189A (zh) * | 2021-04-16 | 2021-06-22 | 中国农业科学院兰州畜牧与兽药研究所 | 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法 |
CN116434837A (zh) * | 2023-06-12 | 2023-07-14 | 广州盛安医学检验有限公司 | 一种基于ngs的染色体平衡易位检测分析*** |
CN116864007A (zh) * | 2023-09-05 | 2023-10-10 | 深圳人体密码基因科技有限公司 | 基因检测高通量测序数据的分析方法及*** |
CN117095746A (zh) * | 2023-08-28 | 2023-11-21 | 广西壮族自治区水牛研究所 | 一种用于水牛的gbs全基因组关联分析方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1990004651A1 (en) * | 1988-10-19 | 1990-05-03 | Whitehead Institute For Biomedical Research | Mapping quantitative traits using genetic markers |
US20050130230A1 (en) * | 2003-09-23 | 2005-06-16 | Antoni Davalos | Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof |
WO2006090136A2 (en) * | 2005-02-22 | 2006-08-31 | University Court Of The University Of Edinburgh | Genetic screening of animals |
US20070048768A1 (en) * | 2005-06-30 | 2007-03-01 | Syngenta Participations Ag | Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping and marker development |
WO2007065206A1 (en) * | 2005-12-05 | 2007-06-14 | Commonwealth Scientific And Industrial Research Organisation | Selection markers for net feed intake |
US20070192909A1 (en) * | 2005-06-30 | 2007-08-16 | Syngenta Participations Ag | Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping ane marker development |
AU2009226248A1 (en) * | 2008-03-17 | 2009-09-24 | Stichting Genetwister Ip | Expression-linked gene discovery |
WO2017084624A1 (zh) * | 2015-11-18 | 2017-05-26 | 上海序康医疗科技有限公司 | 一种同时完成基因位点、染色体及连锁分析的方法 |
CN106755321A (zh) * | 2015-11-28 | 2017-05-31 | 内蒙古中科正标生物科技有限责任公司 | 筛选低氧适应性绵羊的方法 |
CN107217091A (zh) * | 2017-03-07 | 2017-09-29 | 青岛农业大学 | 一种奶山羊产羔性状相关基因单核苷酸多态性的检测方法 |
CN110189796A (zh) * | 2019-05-27 | 2019-08-30 | 新疆农业大学 | 一种绵羊全基因组重测序分析方法 |
CN112481392A (zh) * | 2020-12-14 | 2021-03-12 | 中国农业科学院北京畜牧兽医研究所 | 一种与绵羊多羔相关的snp分子标记及其应用 |
-
2019
- 2019-05-27 CN CN201910447387.8A patent/CN110093406A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1990004651A1 (en) * | 1988-10-19 | 1990-05-03 | Whitehead Institute For Biomedical Research | Mapping quantitative traits using genetic markers |
US20050130230A1 (en) * | 2003-09-23 | 2005-06-16 | Antoni Davalos | Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof |
WO2006090136A2 (en) * | 2005-02-22 | 2006-08-31 | University Court Of The University Of Edinburgh | Genetic screening of animals |
US20070048768A1 (en) * | 2005-06-30 | 2007-03-01 | Syngenta Participations Ag | Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping and marker development |
US20070192909A1 (en) * | 2005-06-30 | 2007-08-16 | Syngenta Participations Ag | Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping ane marker development |
WO2007065206A1 (en) * | 2005-12-05 | 2007-06-14 | Commonwealth Scientific And Industrial Research Organisation | Selection markers for net feed intake |
AU2009226248A1 (en) * | 2008-03-17 | 2009-09-24 | Stichting Genetwister Ip | Expression-linked gene discovery |
WO2017084624A1 (zh) * | 2015-11-18 | 2017-05-26 | 上海序康医疗科技有限公司 | 一种同时完成基因位点、染色体及连锁分析的方法 |
CN106755321A (zh) * | 2015-11-28 | 2017-05-31 | 内蒙古中科正标生物科技有限责任公司 | 筛选低氧适应性绵羊的方法 |
CN107217091A (zh) * | 2017-03-07 | 2017-09-29 | 青岛农业大学 | 一种奶山羊产羔性状相关基因单核苷酸多态性的检测方法 |
CN110189796A (zh) * | 2019-05-27 | 2019-08-30 | 新疆农业大学 | 一种绵羊全基因组重测序分析方法 |
CN112481392A (zh) * | 2020-12-14 | 2021-03-12 | 中国农业科学院北京畜牧兽医研究所 | 一种与绵羊多羔相关的snp分子标记及其应用 |
Non-Patent Citations (8)
Title |
---|
XIN LI等: "Genomic analyses of wild argali, domestic sheep,and their hybrids provide insights into chromosome and their hybrids provide insights into chromosome and their hybrids provide insights into chromosome", 《GENOME RESEARCH》 * |
兰蓉等: "云南黑山羊全基因组重测序", 《草食家畜》 * |
决肯.阿尼瓦什等: "野生盘羊与巴什拜羊杂交效果分析", 《畜牧与兽医》 * |
张上都等: "基因组学方法用于水稻种质资源实质派生的检测结果和应用讨论", 《中国科学:生命科学》 * |
张银国等: "盘羊及其杂交一代羊绒纤维细度的测定与形态学的显微观察", 《中国草食动物科学》 * |
海拉提.库尔曼等: "巴什拜羊与野生盘羊后代杂种的适应性分析", 《新疆农业大学学报》 * |
海拉提.库尔曼等: "野生盘羊与巴什拜羊杂交后代体尺和体重杂种优势率的比较分析", 《新疆农业科学》 * |
马燕等: "绵羊ZBED6基因多态性检测及群体遗传结构分析", 《石河子大学学报(自然科学版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110791574A (zh) * | 2019-12-11 | 2020-02-14 | 湖北省农业科学院畜牧兽医研究所 | 与山羊产羔数、生长性状关联的分子标记及其应用 |
CN111370065A (zh) * | 2020-03-26 | 2020-07-03 | 北京吉因加医学检验实验室有限公司 | 一种检测rna跨样本交叉污染率的方法和装置 |
CN111370065B (zh) * | 2020-03-26 | 2022-10-04 | 北京吉因加医学检验实验室有限公司 | 一种检测rna跨样本交叉污染率的方法和装置 |
CN112885408A (zh) * | 2021-02-22 | 2021-06-01 | 中国农业大学 | 一种基于低深度测序检测snp标记位点的方法及装置 |
CN113005189A (zh) * | 2021-04-16 | 2021-06-22 | 中国农业科学院兰州畜牧与兽药研究所 | 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法 |
CN116434837A (zh) * | 2023-06-12 | 2023-07-14 | 广州盛安医学检验有限公司 | 一种基于ngs的染色体平衡易位检测分析*** |
CN116434837B (zh) * | 2023-06-12 | 2023-08-29 | 广州盛安医学检验有限公司 | 一种基于ngs的染色体平衡易位检测分析*** |
CN117095746A (zh) * | 2023-08-28 | 2023-11-21 | 广西壮族自治区水牛研究所 | 一种用于水牛的gbs全基因组关联分析方法 |
CN116864007A (zh) * | 2023-09-05 | 2023-10-10 | 深圳人体密码基因科技有限公司 | 基因检测高通量测序数据的分析方法及*** |
CN116864007B (zh) * | 2023-09-05 | 2023-12-26 | 深圳人体密码基因科技有限公司 | 基因检测高通量测序数据的分析方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110093406A (zh) | 一种盘羊及其杂交后代遗传基因研究方法 | |
Skov et al. | The nature of Neanderthal introgression revealed by 27,566 Icelandic genomes | |
JP7462993B2 (ja) | 核酸の塩基修飾の決定 | |
EP3741873B1 (en) | Identification of white legroms red-plucking mutagenic mutant genotype in pink shell laying hens and red plucking | |
Fu et al. | Genome-wide analyses of introgression between two sympatric Asian oak species | |
CN102770558B (zh) | 由母本生物样品进行胎儿基因组的分析 | |
US20170277827A1 (en) | Ancestral human genomes | |
Tatsumoto et al. | Direct estimation of de novo mutation rates in a chimpanzee parent-offspring trio by ultra-deep whole genome sequencing | |
CN110189796A (zh) | 一种绵羊全基因组重测序分析方法 | |
CN110211633B (zh) | Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置 | |
CN110951889B (zh) | 与鸡体重性状相关的单倍型分子标记及应用 | |
CN108004330B (zh) | 一种用于鉴定枫叶鸭的分子标记及其应用 | |
CN108256293A (zh) | 一种疾病关联基因组合的统计方法及*** | |
Reutimann et al. | A species-discriminatory single-nucleotide polymorphism set reveals maintenance of species integrity in hybridizing European white oaks (Quercus spp.) despite high levels of admixture | |
CN110111843A (zh) | 对核酸序列进行聚类的方法、设备及存储介质 | |
CN110997936A (zh) | 基于低深度基因组测序进行基因分型的方法、装置及其用途 | |
CN111091869A (zh) | 以snp为遗传标记物的亲缘关系鉴定方法 | |
CN109706231B (zh) | 一种用于凡纳滨对虾分子育种的高通量snp分型方法 | |
CN103348350B (zh) | 核酸信息处理装置及其处理方法 | |
CN105907860B (zh) | 一种利用|Δ(SNP-index)|进行性状定位的QTL-seq方法及其应用 | |
CN106636083A (zh) | 玉米单株穗重主效qtl、其获得方法及应用 | |
CN102154452B (zh) | 一种鉴定顺式和反式调控作用的方法和*** | |
Roy et al. | NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
CN113789407B (zh) | 一种用于油莎豆基因分型的snp分子标记组合及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190806 |
|
RJ01 | Rejection of invention patent application after publication |