CN117558341A - 美洲黑杨全基因组育种芯片及其构建方法和应用 - Google Patents
美洲黑杨全基因组育种芯片及其构建方法和应用 Download PDFInfo
- Publication number
- CN117558341A CN117558341A CN202311612769.4A CN202311612769A CN117558341A CN 117558341 A CN117558341 A CN 117558341A CN 202311612769 A CN202311612769 A CN 202311612769A CN 117558341 A CN117558341 A CN 117558341A
- Authority
- CN
- China
- Prior art keywords
- snp
- sites
- poplar
- breeding
- whole genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009395 breeding Methods 0.000 title claims abstract description 82
- 230000001488 breeding effect Effects 0.000 title claims abstract description 82
- 241000218978 Populus deltoides Species 0.000 title claims abstract description 13
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 241000219000 Populus Species 0.000 claims abstract description 93
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000012217 deletion Methods 0.000 claims abstract description 13
- 230000037430 deletion Effects 0.000 claims abstract description 13
- 108700028369 Alleles Proteins 0.000 claims abstract description 7
- 238000012098 association analyses Methods 0.000 claims abstract description 7
- 238000009394 selective breeding Methods 0.000 claims abstract description 7
- 230000035772 mutation Effects 0.000 claims description 36
- 239000002023 wood Substances 0.000 claims description 33
- 230000002068 genetic effect Effects 0.000 claims description 29
- 238000012163 sequencing technique Methods 0.000 claims description 29
- 229920002678 cellulose Polymers 0.000 claims description 23
- 239000001913 cellulose Substances 0.000 claims description 23
- 229920005610 lignin Polymers 0.000 claims description 23
- 229920002488 Hemicellulose Polymers 0.000 claims description 20
- 239000000463 material Substances 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 239000002773 nucleotide Substances 0.000 claims description 12
- 125000003729 nucleotide group Chemical group 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 11
- 210000000481 breast Anatomy 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000001568 sexual effect Effects 0.000 claims description 9
- 241001299781 Pilocarpus pennatifolius Species 0.000 claims description 7
- 210000000038 chest Anatomy 0.000 claims description 6
- 210000000349 chromosome Anatomy 0.000 claims description 6
- 238000012165 high-throughput sequencing Methods 0.000 claims description 6
- 108020004705 Codon Proteins 0.000 claims description 5
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 5
- 108091023045 Untranslated Region Proteins 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 239000003147 molecular marker Substances 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 238000003908 quality control method Methods 0.000 claims description 5
- 238000011144 upstream manufacturing Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000010008 shearing Methods 0.000 claims description 3
- 238000003205 genotyping method Methods 0.000 claims description 2
- 108700024394 Exon Proteins 0.000 claims 3
- 108091092195 Intron Proteins 0.000 claims 1
- 238000003776 cleavage reaction Methods 0.000 claims 1
- 230000007017 scission Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 2
- 238000007689 inspection Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 9
- 238000013179 statistical model Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000012070 whole genome sequencing analysis Methods 0.000 description 5
- 239000000835 fiber Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000002253 acid Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003234 polygenic effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000012153 distilled water Substances 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000013312 flour Nutrition 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 210000000020 growth cone Anatomy 0.000 description 1
- 238000009399 inbreeding Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012177 large-scale sequencing Methods 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000000643 oven drying Methods 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000002791 soaking Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/13—Plant traits
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- General Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medicinal Chemistry (AREA)
- Microbiology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Botany (AREA)
- Mycology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了美洲黑杨全基因组育种芯片及其构建方法和应用,属于杨树的生物育种领域。本发明利用大规模杨树群体的全基因组重测序数据鉴定多态位点,并通过设定最大缺失率、最小等位基因频率以及哈德温伯格平衡等检验参数,筛选出具有高质量的SNP位点。利用全基因组关联分析获得与生长材性等重要经济性状显著相关的功能位点,最终开发出适用于杨树重要经济性状的40K SNP育种芯片。本发明不仅设计了一种高效、低成本、高精度的基因分型芯片,而且显著提高了杨树重要性状的基因组选择育种准确度。因此,本发明能够提高林木早期选育效率,加速林木良种选育进程,为林木良种选育提供了高效的分子育种技术手段,具有广阔的育种应用前景。
Description
技术领域
本发明属于杨树的生物育种领域,涉及美洲黑杨全基因组育种芯片及其构建方法和应用。
背景技术
林业事关经济社会可持续发展根本,而良种是林业的命脉和促进林业产业发展的原动力。杨树作为全球分布最广、栽培面积最大的速生用材树种之一,因其速生、丰产、易繁殖、适应性强等特征,在我国的林业生产和生态环境建设中发挥着不可或缺的重要作用。此外,作为首个完成全基因组测序的木本植物,杨树完备的全基因组序列为功能基因挖掘和林木遗传育种提供了坚实的基础。
由于林木具有世代周期长、近交衰退以及遗传背景复杂等特点,这些因素限制了林木遗传改良的进程,成为提升林木育种效率和加速林木种质创新的瓶颈。突破林木长育种周期瓶颈的关键在于实现从表型选择向基因型选择的转变。林木许多重要经济性状如生长、材性和抗性等属于微效多基因控制的数量性状。随着分子生物学和基因组学的发展,基于分子标记辅助选择(MAS)技术的遗传作图和关联分析克服了传统数量遗传学研究方法的局限,显著提高了数量性状基因定位的精准度。在后基因组时代,林木高密度遗传连锁图谱的构建和全基因组关联分析(GWAS)为深入揭示林木数量性状的遗传机制奠定了基础,为林木遗传改良和育种提供了重要的基因资源。近年来,高通量测序技术的快速发展以及全基因组水平遗传标记的开发促进了现代选择育种技术的发展。基于经典数量遗传学与分子标记计算育种值的全基因组选择育种技术(GS)能够快速从大量种质资源中选择出具有优异性状的基因型,提高对微效多基因控制复杂性状以及低遗传力性状的选择效率。GS技术在复杂数量性状选育中取得了巨大成功,能够加速育种周期,有助于定向、高效地实现育种改良,成为现代育种的基本方法。
开展全基因组选择育种的核心是采用高效且成本较低的全基因组分子标记分型技术。单核苷酸多态性(Single Nucleotide Polymorphism,SNP)作为广泛分布于基因组的遗传标记,具备数量众多、遗传稳定性高、多样性丰富、易于检测等特点,成为遗传变异研究中最常见且效果理想的标记类型。全基因组重测序技术能够获得全基因组SNP标记,但其高昂的大规模测序分型成本仍然是一个挑战;简化基因组测序技术可以大幅降低分型成本,但只能获取酶切位点附近的标记。SNP育种芯片技术以其准确性高和重复率好等特点,在畜牧业和作物育种领域已得到广泛应用。林木全基因组选择技术研发尚处于起步阶段,主要针对林木生长、材性等性状构建GS预测模型,并对影响预测准确性的主要因素开展理论研究,目前尚未见到与林木全基因选择育种芯片相关的报道。
发明内容
针对现有技术的不足,本发明要解决的技术问题是提供一种美洲黑杨全基因组育种芯片,用于筛选杨树速生良种;本发明要解决的另外一个技术问题是提供美洲黑杨全基因组育种芯片的构建方法。本发明还要解决的另外一个技术问题是提供美洲黑杨全基因组育种芯片的应用。
为了解决上述技术问题,本发明所采用的技术方案如下:
美洲黑杨全基因组育种芯片的构建方法,包括:
1)对296株杨树进行基因组重测序和基因分型,获得855,807个高质量的SNP位点;
2)基于获得的855,807个高质量SNP位点,结合296株杨树胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量表型数据,对杨树材性性状进行全基因组关联分析,获得23,791个SNP功能位点;
3)使用ANNOVAR软件对855,807个高质量SNP位点进行基因注释和区域筛选,筛选出16,442个SNP骨架位点;
4)将23,791个SNP功能位点和16,442个SNP骨架位点合并并筛选,最终得到包含40,213个SNP位点的集合,构成了杨树生长材性性状的40K SNP育种芯片。
步骤1)为采用WGS基因组重测序技术,利用IlluminaHiSeq6000高通量测序平台对296株杨树植株进行了双末端PE150测序;使用BWA工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果;为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对、碱基质量值校正;随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异和***/缺失的检测;变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异;接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律;最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测;最终获得了855,807个高质量的SNP位点。
步骤2)为基于上述获得的855,807个SNP变异位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵,结合杨树胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量表型数据,利用GEMMA软件以群体结构作为固定效应,亲缘关系作为随机效应加入到混合线性模型的分析中,获得每个SNP与性状的关联P值,根据P值从小到大排序后取前5000个SNP位点,合并后获得胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量性状关联的显著SNP位点集合,共包含23,791个SNP功能位点。
步骤3)为使用ANNOVAR软件对全基因组上的855,807个SNP变异位点进行基因注释和区域筛选,将这些变异位点定位到具体的基因间区、未翻译区、基因上游或下游1kb区域、内含子区域、剪切位点以及外显子区域,其中,外显子区域的SNP位点进一步细分为非同义突变、同义突变以及终止密码子获得或丢失变异,在排除与杨树生长材性性状紧密关联的SNP位点集后,选择均匀覆盖染色体各个区段的SNP位点,并加大外显子区域的非同义突变的SNP位点的比重,最终共筛选出16,442个SNP骨架位点。
步骤4)为将23,791个SNP功能位点和16,442个SNP骨架位点合并并筛选,最终得到包含40,213个SNP位点的集合,构成了杨树生长材性性状的40K SNP育种芯片。
美洲黑杨全基因组育种芯片的构建方法,具体步骤包括:
1)采用WGS基因组重测序技术,利用IlluminaHiSeq6000高通量测序平台对296株杨树植株进行了双末端PE150测序;使用BWA工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果;为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对、碱基质量值校正;随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异和***/缺失的检测;变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异;接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律;最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测;最终获得了855,807个高质量的SNP位点;
2)基于上述获得的855,807个SNP变异位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵,结合杨树胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量表型数据,利用GEMMA软件以群体结构作为固定效应,亲缘关系作为随机效应加入到混合线性模型的分析中,获得每个SNP与性状的关联P值,根据P值从小到大排序后取前5000个SNP位点,合并后获得胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量性状关联的显著SNP位点集合,共包含23,791个SNP功能位点;
3)使用ANNOVAR软件对全基因组上的855,807个SNP变异位点进行基因注释和区域筛选,将这些变异位点定位到具体的基因间区、未翻译区、基因上游或下游1kb区域、内含子区域、剪切位点以及外显子区域,其中,外显子区域的SNP位点进一步细分为非同义突变、同义突变以及终止密码子获得或丢失变异,在排除与杨树生长材性性状紧密关联的SNP位点集后,选择均匀覆盖染色体各个区段的SNP位点,并加大外显子区域的非同义突变的SNP位点的比重,最终共筛选出16,442个SNP骨架位点;
4)将23,791个SNP功能位点和16,442个SNP骨架位点合并并筛选,最终得到包含40,213个SNP位点的集合,构成了杨树生长材性性状的40K SNP育种芯片。
7、根据权利要求1-6任一所述美洲黑杨全基因组育种芯片的构建方法构建得到的美洲黑杨全基因组育种芯片,其特征在于,由40,213个SNP位点组成。
用于美洲黑杨速生良种选育的SNP分子标记组合,由40,213个SNP位点组成。
美洲黑杨全基因组育种芯片在美洲黑杨全基因组选择育种中的应用。
美洲黑杨全基因组育种芯片在美洲黑杨全速生良种选育中的应用。
本发明的有益效果:
本发明区别于传统的固相芯片和基于测序的“液相芯片”原理,首先进行大规模杨树群体的全基因组重测序,利用测序数据鉴定多态位点,并通过设定最大缺失率、最小等位基因频率以及哈德温伯格平衡等检验参数,筛选出具有高质量的SNP位点。利用全基因组关联分析获得与生长材性等重要经济性状显著关联的功能位点,最终开发出适用于杨树重要经济性状的40K SNP育种芯片。本发明不仅设计了一种高效、低成本、高精度的基因分型芯片,而且显著提高了杨树重要性状的基因组选择育种准确度。本发明能够提高林木早期选育效率,加速林木良种选育进程,为林木良种选育提供了高效的分子育种技术手段,具有广阔的育种应用前景。
附图说明
图1为本发明实施例杨树全基因上855,807SNP位点在不同染色体上的分布图;
图2为本发明实施例杨树生长材性性状全基因组关联分析曼哈顿散点图;
图3为本发明实施例杨树全基因上SNP位点注释分布统计图;
图4为本发明实施例杨树40K SNP育种芯片在杨树生长性状(胸径)和材性性状(木材基本密度)全基因组选择预测准确度的分布箱图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合具体实施例对本发明进一步进行描述。以下实施例中如无特殊说明,所用的技术手段均为本领域技术人员所熟知的常规手段。
本申请选取的296株杨树试验材料均生长于南京林业大学美洲黑杨种质资源库(江苏省泗洪县陈圩林场),这些杨树均源自12个不同种源地区且彼此间无直接亲缘关系的1000个无性系。
在树高1.3米处沿着南北方向使用内径为5毫米的林木生长锥,从树皮开始贯穿髓心,取出完整且无疵的木芯样品。
本申请的美洲黑杨全基因组序列公开网站为:https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_014884945.1/。
实施例1
1、将采集的木芯使用排水法进行杨树木材基本密度的测定,具体操作为:通过计算样品质量与在蒸馏水中浸泡至饱和后质量的差值,确定样品在水分饱和状态下的体积(单位为cm3);将样品置于温度为103±3℃的烘箱中,烘干至样品重量保持恒定,利用精度为0.0001g的电子天平测量其绝对干重(单位为g);根据公式ρ=m/v(其中ρ代表木材基本密度,单位为g/cm3;m代表样品的绝对干重,单位为g;v代表样品饱和时的体积,单位为cm3),计算每个样本的木材基本密度。
2、采用Van Soest洗涤法测定每个样本中纤维素、半纤维素和木质素含量,具体实验步骤如下:
1)样品制备:将之前用于测定木材密度的木芯样品烘干至恒重,使用FW-100型高速通用粉碎机对木芯进行粉碎研磨,过筛后的木粉进行充分混匀。
2)样品称取:使用精密电子天平准确称取1克的木粉样品。
3)纤维成分测定:将称取的样品使用FIWE6型纤维测定仪测定样品的中性洗涤纤维含量(NDF)、酸性洗涤纤维含量(ADF)、酸性洗涤木质素含量(ADL)以及酸不溶灰分含量(AIA)。每个样品重复测定3次以提高结果的可靠性。
4)根据以下公式计算木材化学组分的含量:
纤维素含量(%)=ADF(%)-ADL(%)
半纤维素含量(%)=NDF(%)-ADF(%)
木质素含量(%)=ADL(%)-AIA(%)
3、采用R 4.1.2软件对表型数据进行统计分析,包括计算平均值、最小值、最大值、标准差以及变异系数。利用R软件中的moments包计算数据集的偏度和峰度,并进行正态性分布检验。利用R语言中cov函数和var函数计算表型相关和遗传相关。利用lme4计算杨树基本密度和木材纤维素、半纤维素及木质素含量的广义遗传力。
4、结果如表1和图1所示,所有性状均表现出不同程度的变异。杨树育种群体的平均木材基本密度为0.39g/cm3,变幅为0.26g/cm3至0.51g/cm3;平均纤维素含量为53.78%,变幅在47.85%至60.77%之间;平均半纤维素含量为24.17%,变幅为20.36%至30.22%;平均木质素含量为12.7%,变幅为6.51%至17.64%。其中,变异系数最小和最大分别为纤维素(3.22%)和木质素(12.2%),表明木质素含量受环境影响更大。各个性状的表型值基本符合正态分布,表明杨树材性性状属于典型的数量性状,受多基因控制。相关性分析显示,材性性状之间存在极显著的相关性(p<0.001),说明林木发育过程中材性性状相互影响。木材基本密度、纤维素、半纤维素和木质素的广义遗传力(h2)分别为0.43、0.82、0.17和0.001。纤维素含量的遗传力显著高于其他材性性状,因此,纤维素含量的化学性状受遗传控制程度高于其他材性性状。
表1杨树训练群体材性性状表型数据描述统计
实施例2
1、杨树全基因组重测序数据的SNP位点
采用WGS(wholegenomesequencing)基因组重测序技术,利用Illumina HiSeq6000高通量测序平台对296株杨树植株进行了双末端(paired-end)PE150测序。使用BWA(Burrows-WheelerAligner)工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果。为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对(localrealignment)、碱基质量值校正(BaseQualityScoreRecalibration,BQSR)。随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异(SNV)和***/缺失(Indel)的检测。变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异。接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律(p值大于0.00001)。最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性(SNP)位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测。最终获得了855,807个高质量的SNP位点,用于后续的遗传分析研究。
2、杨树材性性状全基因组关联分析
基于上述获得的855,807个SNP变异位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵。结合杨树胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量表型数据,利用GEMMA软件以群体结构(PCA)作为固定效应,亲缘关系(Kinship)作为随机效应加入到混合线性模型(MLM)的分析中,获得每个SNP与性状的关联P值,根据P值从小到大排序后取前5000个SNP位点,合并后获得胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量性状关联的显著SNP位点集合,共包含23,791个SNP功能位点(图2)。
3、杨树全基因组范围上的核心骨架SNP位点
使用ANNOVAR软件对全基因组上的855,807个SNP变异位点进行基因注释和区域筛选,将这些变异位点定位到具体的基因间区、未翻译区、基因上游或下游1kb区域、内含子区域、剪切位点以及外显子区域。其中,外显子区域的SNP位点进一步细分为非同义突变、同义突变以及终止密码子获得或丢失变异。在排除与杨树生长材性性状紧密关联的SNP位点集后,选择均匀覆盖染色体各个区段的SNP位点,并加大外显子区域的非同义突变的SNP位点的比重,最终共筛选出16,442个SNP骨架位点(图3)。
4、杨树40K SNP育种芯片
将与杨树生长材性性状紧密关联的SNP位点(23,791个)和杨树全基因组范围的核心骨架SNP位点(16,442个)合并,最终筛选出包含40,213个SNP位点的集合。这些SNP位点构成了杨树生长材性性状的40K SNP育种芯片,如表2所示。
表2 40K SNP育种芯片SNP位点信息
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
实施例3
1、表型和基因型文件整理
在进行全基因组选择(Genomicselection,GS)预测之前,首先对训练群体的表型和基因型数据进行缺失值填补和格式整理。采用296株杨树的胸径、基本密度、纤维素含量、半纤维素含量和木质素含量分别作为杨树材性性状全基因组选择预测的表型数据。使用PLINK软件将基因型数据转换为0/1/2格式,其中纯合非突变基因型编码为0,杂合基因型编码为1,纯合突变基因型编码为2。
2、全基因组选择模型参数设置
采用16种不同的全基因组选择统计模型,包括最佳线性无偏预测模型(GBLUP,rrBLUP)、贝叶斯模型(BRR,BayesA,BayesB,BayesC,Bayes Lasso)以及多种机器学习模型(Ridge,Linear Lasso,ElasticNet,Linear Regression,Kernel Ridge,PLSRegression,Random Forest,SVRlinear,SVRpoly。其中,2个最佳线性无偏预测模型采用R软件包rrBLUP实现,5个贝叶斯模型采用R软件包BGLR实现,9个机器学习模型则利用Python安装包scikit-learn(sklearn)进行实现。
通过5折交叉验证方法,将杨树群体的80%作为训练群体,剩余20%作为测试群体。在训练群体中,利用表型数据、40K SNP基因型数据和16种全基因组选择统计模型建立杨树生长材性性状全基因组选择预测模型。随后,利用基因型数据和预测模型在验证群体中估算了杨树材性性状的育种值。为了消除取样误差,该过程重复迭代500次,并以测试群体育种值与实际观测值的Pearson相关系数(r)均值作为评价全基因组选择预测准确性的指标。最终通过这一评价标准确定最优全基因组选择统计模型和最优SNP基因型位点集。最终通过这一评价标准确定最优全基因组选择统计模型。
3、确定杨树材性性状全基因组选择最优模型
利用16种全基因组选择统计模型对杨树生长性状(胸径)和材性性状(木材基本密度)进行全基因组选择预测分析。
结果如图4所示,结合杨树40K SNP育种芯片,基于机器学习的9种模型展现了显著提高的预测准确性(最高预测准确度r=0.84),相较于最佳线性无偏预测模型和贝叶斯模型(最高预测准确度r=0.7),具有明显优势。这一结果突显了基于人工智能的预测模型在提升林木全基因选择预测准确性方面的巨大潜力。综上所述,使用本发明设计的杨树生长材性性状的40K SNP育种芯片,Ridge、Linear Regression和SVRlinear统计模型的预测准确性最高,生长性状育种值准确度达到0.77,材性性状育种值准确度能够达到0.84。
4、基于杨树40K SNP育种芯片,采用Ridge、LinearRegression和SVRlinear统计模型,估算杨树育种群体生长性状(胸径)和材性性状(木材基本密度、纤维素含量、半纤维素含量和木质素含量)的育种值GEBV(GenomicEstimatedBreedingValue)。为了筛选杨树良种,根据杨树群体育种值进行升序排列,选取排名前10的杨树植株(表3-7),作为后续杨树良种选育和分子机制研究的优良种质材料。
表3筛选出杨树育种群体中生长性状(胸径)育种值排名前十的速生良种材料
表4筛选出杨树育种群体中材性性状(木材基本密度)育种值排名前十的速生良种材料
表5筛选出杨树育种群体中材性性状(纤维素含量)育种值排名前十的速生良种材料
表6筛选出杨树育种群体中材性性状(半纤维素含量)育种值排名前十的速生良种材料
表7筛选出杨树育种群体中材性性状(木质素含量)育种值排名前十的速生良种材料
/>
Claims (10)
1.美洲黑杨全基因组育种芯片的构建方法,其特征在于,包括:
1)对296株杨树进行基因组重测序和基因分型,获得855,807个高质量的SNP位点;
2)基于获得的855,807个高质量SNP位点,结合296株杨树胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量表型数据,对杨树材性性状进行全基因组关联分析,获得23,791个SNP功能位点;
3)使用ANNOVAR软件对855,807个高质量SNP位点进行基因注释和区域筛选,筛选出16,442个SNP骨架位点;
4)将23,791个SNP功能位点和16,442个SNP骨架位点合并并筛选,最终得到包含40,213个SNP位点的集合,构成了杨树生长材性性状的40K SNP育种芯片。
2.根据权利要求1所述美洲黑杨全基因组育种芯片的构建方法,其特征在于,步骤1)为采用WGS基因组重测序技术,利用IlluminaHiSeq6000高通量测序平台对296株杨树植株进行了双末端PE150测序;使用BWA工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果;为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对、碱基质量值校正;随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异和***/缺失的检测;变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异;接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律;最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测;最终获得了855,807个高质量的SNP位点。
3.根据权利要求1所述美洲黑杨全基因组育种芯片的构建方法,其特征在于,步骤2)为基于上述获得的855,807个SNP变异位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵,结合杨树胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量表型数据,利用GEMMA软件以群体结构作为固定效应,亲缘关系作为随机效应加入到混合线性模型的分析中,获得每个SNP与性状的关联P值,根据P值从小到大排序后取前5000个SNP位点,合并后获得胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量性状关联的显著SNP位点集合,共包含23,791个SNP功能位点。
4.根据权利要求1所述美洲黑杨全基因组育种芯片的构建方法,其特征在于,步骤3)为使用ANNOVAR软件对全基因组上的855,807个SNP变异位点进行基因注释和区域筛选,将这些变异位点定位到具体的基因间区、未翻译区、基因上游或下游1kb区域、内含子区域、剪切位点以及外显子区域,其中,外显子区域的SNP位点进一步细分为非同义突变、同义突变以及终止密码子获得或丢失变异,在排除与杨树生长材性性状紧密关联的SNP位点集后,选择均匀覆盖染色体各个区段的SNP位点,并加大外显子区域的非同义突变的SNP位点的比重,最终共筛选出16,442个SNP骨架位点。
5.根据权利要求1所述美洲黑杨全基因组育种芯片的构建方法,其特征在于,步骤4)为将23,791个SNP功能位点和16,442个SNP骨架位点合并并筛选,最终得到包含40,213个SNP位点的集合,构成了杨树生长材性性状的40K SNP育种芯片。
6.根据权利要求1所述美洲黑杨全基因组育种芯片的构建方法,其特征在于,具体步骤包括:
1)采用WGS基因组重测序技术,利用IlluminaHiSeq6000高通量测序平台对296株杨树植株进行了双末端PE150测序;使用BWA工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果;为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对、碱基质量值校正;随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异和***/缺失的检测;变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异;接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律;最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测;最终获得了855,807个高质量的SNP位点;
2)基于上述获得的855,807个SNP变异位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵,结合杨树胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量表型数据,利用GEMMA软件以群体结构作为固定效应,亲缘关系作为随机效应加入到混合线性模型的分析中,获得每个SNP与性状的关联P值,根据P值从小到大排序后取前5000个SNP位点,合并后获得胸径值、木材密度、纤维素含量、半纤维素含量和木质素含量性状关联的显著SNP位点集合,共包含23,791个SNP功能位点;
3)使用ANNOVAR软件对全基因组上的855,807个SNP变异位点进行基因注释和区域筛选,将这些变异位点定位到具体的基因间区、未翻译区、基因上游或下游1kb区域、内含子区域、剪切位点以及外显子区域,其中,外显子区域的SNP位点进一步细分为非同义突变、同义突变以及终止密码子获得或丢失变异,在排除与杨树生长材性性状紧密关联的SNP位点集后,选择均匀覆盖染色体各个区段的SNP位点,并加大外显子区域的非同义突变的SNP位点的比重,最终共筛选出16,442个SNP骨架位点;
4)将23,791个SNP功能位点和16,442个SNP骨架位点合并并筛选,最终得到包含40,213个SNP位点的集合,构成了杨树生长材性性状的40K SNP育种芯片。
7.根据权利要求1-6任一所述美洲黑杨全基因组育种芯片的构建方法构建得到的美洲黑杨全基因组育种芯片,其特征在于,由40,213个SNP位点组成。
8.用于美洲黑杨速生良种选育的SNP分子标记组合,其特征在于,由40,213个SNP位点组成。
9.权利要求7所述美洲黑杨全基因组育种芯片在美洲黑杨全基因组选择育种中的应用。
10.权利要求7所述的美洲黑杨全基因组育种芯片在美洲黑杨全速生良种选育中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311612769.4A CN117558341A (zh) | 2023-11-29 | 2023-11-29 | 美洲黑杨全基因组育种芯片及其构建方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311612769.4A CN117558341A (zh) | 2023-11-29 | 2023-11-29 | 美洲黑杨全基因组育种芯片及其构建方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117558341A true CN117558341A (zh) | 2024-02-13 |
Family
ID=89812479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311612769.4A Pending CN117558341A (zh) | 2023-11-29 | 2023-11-29 | 美洲黑杨全基因组育种芯片及其构建方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117558341A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746979A (zh) * | 2024-02-21 | 2024-03-22 | 中国科学院遗传与发育生物学研究所 | 一种动物品种的鉴定方法 |
-
2023
- 2023-11-29 CN CN202311612769.4A patent/CN117558341A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746979A (zh) * | 2024-02-21 | 2024-03-22 | 中国科学院遗传与发育生物学研究所 | 一种动物品种的鉴定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cortés et al. | Genotyping by sequencing and genome–environment associations in wild common bean predict widespread divergent adaptation to drought | |
Qanbari | On the extent of linkage disequilibrium in the genome of farm animals | |
Liu et al. | Characterizing variation of branch angle and genome-wide association mapping in rapeseed (Brassica napus L.) | |
Caruana et al. | Validation of genotyping by sequencing using transcriptomics for diversity and application of genomic selection in tetraploid potato | |
Gapare et al. | Strong spatial genetic structure in peripheral but not core populations of Sitka spruce [Picea sitchensis (Bong.) Carr.] | |
Uchiyama et al. | Demonstration of genome-wide association studies for identifying markers for wood property and male strobili traits in Cryptomeria japonica | |
AU2011261447B2 (en) | Methods and compositions for predicting unobserved phenotypes (PUP) | |
Ladejobi et al. | Maximizing the potential of multi-parental crop populations | |
Allwright et al. | Biomass traits and candidate genes for bioenergy revealed through association genetics in coppiced European Populus nigra (L.) | |
CN117558341A (zh) | 美洲黑杨全基因组育种芯片及其构建方法和应用 | |
Pégard et al. | Favorable conditions for genomic evaluation to outperform classical pedigree evaluation highlighted by a proof-of-concept study in poplar | |
CN112687340A (zh) | 一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法 | |
WO2021196255A1 (zh) | 一种快速、高通量定位和克隆植物QTL基因的RapMap方法 | |
CN116334248A (zh) | 一种地方鸡遗传资源保护与品种鉴定的液相芯片及其应用 | |
Huang et al. | Genome-wide association mapping for agronomic traits in an 8-way Upland cotton MAGIC population by SLAF-seq | |
CN109727642B (zh) | 基于随机森林模型的全基因组预测方法及装置 | |
Liu et al. | Genetic analysis in maize foundation parents with mapping population and testcross population: Ye478 carried more favorable alleles and using QTL information could improve foundation parents | |
Bazakos et al. | Whole genome scanning of a Mediterranean basin hotspot collection provides new insights into olive tree biodiversity and biology | |
Tang et al. | A strategy for the acquisition and analysis of image-based phenome in rice during the whole growth period | |
CN113421612A (zh) | 玉米收获期籽粒含水量预测模型、其构建方法和相关snp分子标记组合 | |
Liang et al. | Globally relaxed selection and local adaptation in Boechera stricta | |
Yan et al. | Accuracy of genomic selection for important economic traits of cashmere and meat goats assessed by simulation study | |
Robledo‐Arnuncio et al. | Measuring viability selection from prospective cohort mortality studies: A case study in maritime pine | |
CN110853710B (zh) | 一种预测烟草淀粉含量的全基因组选择模型及其应用 | |
CN117953974A (zh) | 一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |