CN117953974A - 一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用 - Google Patents

一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用 Download PDF

Info

Publication number
CN117953974A
CN117953974A CN202311612770.7A CN202311612770A CN117953974A CN 117953974 A CN117953974 A CN 117953974A CN 202311612770 A CN202311612770 A CN 202311612770A CN 117953974 A CN117953974 A CN 117953974A
Authority
CN
China
Prior art keywords
poplar
whole genome
snp
sex
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311612770.7A
Other languages
English (en)
Inventor
韦素云
尹佟明
郭臣臣
吴怀通
戴晓港
陈赢男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Forestry University
Original Assignee
Nanjing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Forestry University filed Critical Nanjing Forestry University
Priority to CN202311612770.7A priority Critical patent/CN117953974A/zh
Publication of CN117953974A publication Critical patent/CN117953974A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用,属于杨树的生物育种领域。本发明基于全基因组关联分析,鉴定与杨树材性性状显著相关的SNP位点。在此基础上,针对不同统计模型和不同数量SNP标记对全基因组选择预测精度的影响进行了比较,并建立了一种基于机器学习模型和材性性状显著关联位点的最优全基因组选择预测体系。该体系具备快速、高效且精准预测杨树木材品质优良种质的能力,其预测准确度高达0.84。因此,本发明能够实现对杨树材性性状的早期预测,精准高效筛选出木材品质优良种质材料,从而缩短林木育种周期,提高林木选育强度,加速林木优良种质的选育进程。

Description

一种基于全基因组选择的杨树材性性状最优预测体系的构建 方法和应用
技术领域
本发明属于杨树的生物育种领域,涉及一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用。
背景技术
森林在陆地生态***中发挥不可或缺的作用,同时为人类提供了关键的可再生能源和生物质资源。木材作为一种重要的可再生和可持续利用资源,不仅为工业提供关键的原材料,还是生物能源物质以及其他许多化学产品的主要来源。木材主要由纤维素、半纤维素和木质素组成,其中纤维素和半纤维素占木材干重的65%至75%,在生物能源转化、制浆造纸过程以及产品质量中发挥着关键作用。木质素含量影响着木材的结构和性能,增加木质素含量可以提高木材的硬度和耐用性。木材的基本密度与其机械强度密切相关,其大小直接影响最终产品的产量和质量,也是影响纤维产品质量的重要因素。木材密度以及其化学组分含量直接关系到木材品质和经济效益,是评估木材质量和确定木材用途的重要标准,也是改善木材品质的关键研究内容。
杨树因其速生、丰产、木材品质优良等特点而被广泛栽培,是林木育种研究中的重要模式树种。中国拥有世界杨树人工林总面积的五分之四,栽植面积居全球首位,在我国的工业用材林和生态防护林建设中发挥着重要作用。目前,我国造纸及纸板生产和消费量均居全球首位,但纸浆原料自给率严重不足。木材材性性状是杨树遗传改良研究的重要方向,直接关系到培育材种、收获年限以及经济效益等方面,对促进速生丰产林发展和生态建设、提高林业生产力具有重要意义。
木材的材性性状呈现出明显的数量遗传特点,受到多基因、多层次、多途径协同控制,具有极其复杂的遗传调控机制。随着分子生物学和基因组学的发展,基于分子标记辅助选择(MAS)技术的遗传作图和关联分析克服了传统数量遗传学研究方法的局限,能够显著提高数量性状基因定位的精度。在后基因组时代,林木高密度遗传连锁图谱的构建和全基因组关联分析(GWAS)为深入揭示林木数量性状的遗传机制奠定了基础,为林木遗传改良和育种提供了重要的基因资源。然而,考虑到林木生长周期长且基因组杂合度高,基因编辑技术在批量进行相关性状遗传改良方面仍面临一定的挑战。
全基因组选择(GS)是一种由Meuwissen等人于2001年首次提出的高效精准育种策略。该方法利用全部分子标记对候选个体的基因组进行估计,预测其育种值并进行选择。GS能够快速从大量种质资源中选择出具有优异性状的基因型,提高对微效多基因控制复杂性状以及低遗传力性状的选择效率。通过增加选择强度和准确性,GS能够加速育种周期,降低育种成本,从而有助于定向、高效地实现育种改良,解决生产问题。尽管全基因组选择育种在动物育种、小麦、玉米和水稻等粮食作物育种中有了一定的研究,但在林木育种方面却鲜有报道。目前尚未见报道有关杨树材性性状的全基因组选择模型。
发明内容
针对现有技术的不足,本发明要解决的技术问题是提供一种基于全基因组选择的杨树材性性状最优预测体系的构建方法,用于筛选杨树速生良种;本发明要解决的另外一个技术问题是提供基于全基因组选择的杨树材性性状最优预测体系;本发明还要解决的技术问题是提供基于全基因组选择的杨树材性性状最优预测体系的应用。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种基于全基因组选择的杨树材性性状最优预测体系的构建方法,包括:
1)对296株杨树进行基因组重测序和基因分型,获得4,766,585个高质量的SNP位点;
2)基于获得的4,766,585个高质量SNP位点,结合296株杨树材性性状表型数据,对杨树材性性状进行全基因组关联分析,获得7个不同的SNP基因型位点集;
3)通过5折交叉验证方法,将296株杨树群体的80%作为训练群体;在训练群体中利用296株杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP位点集数据,建立杨树材性性状全基因组选择预测模型;
4)将杨树材性性状全基因组选择预测模型进行验证筛选,最终获得杨树材性性状最优预测体系。
所述杨树材性性状全基因组选择预测模型由杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP基因型位点集数据建立而成。
所述7个不同的SNP基因型位点集由全基因组关联分析获得的140个显著关联的SNP位点集、全基因组关联分析P值从小到大排序前1000个SNP位点集、全基因组关联分析P值从小到大排序前2000个SNP位点集、全基因组关联分析P值从小到大排序前3000个SNP位点集、全基因组关联分析P值从小到大排序前4000个SNP位点集、全基因组关联分析P值从小到大排序前5000个SNP位点集和全基因组关联分析P值从小到大排序前6000个SNP位点集。
所述16种全基因组选择统计模型为最佳线性无偏预测模型GBLUP、rrBLUP和贝叶斯模型BRR、BayesA、BayesB、BayesC、Bayes Lasso和机器学习模型Ridge、Linear Lasso、ElasticNet、LinearRegression、Kernel Ridge、PLSRegression、Random Forest、SVRlinear、SVRpoly。
所述杨树材性性状表型数据为木材基本密度、纤维素含量、半纤维素含量和木质素含量。
所述杨树材性性状全基因组选择预测模型的验证筛选过程为通过5折交叉验证方法,将杨树群体的20%作为测试群体;利用基因型数据和预测模型在验证群体中估算杨树材性性状的育种值,该过程重复迭代500次,并以测试群体育种值与实际观测值的Pearson相关系数均值作为评价全基因组选择预测准确性的指标;最终通过这一指标确定最优全基因组选择统计模型和最优SNP基因型位点集,最优全基因组选择统计模型和最优SNP基因型位点集组成了杨树材性性状全基因组选择的最优预测体系。
所述最优全基因组选择统计模型为机器学习模型Ridge、LinearRegression、SVRlinear。
所述最优SNP基因型位点集为数量为5000的SNP位点集。
基于全基因组选择的杨树材性性状最优预测体系的构建方法,具体步骤包括:
1)采用WGS基因组重测序技术,利用IlluminaHiSeq6000高通量测序平台对296株杨树植株进行了双末端PE150测序;使用BWA工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果;为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对、碱基质量值校正;随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异和***/缺失的检测;变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异;接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律;最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测;最终获得了4,766,585个高质量的SNP位点;
2)基于上述获得的4,766,585个高质量SNP位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵;结合杨树材性性状表型数据,利用GEMMA软件以群体结构作为固定效应,亲缘关系作为随机效应加入到混合线性模型的分析中,获得每个SNP与性状的关联P值;根据Bonferroni矫正设置显著性阈值,共检测到140个与杨树材性性状显著关联的SNP位点;选取全基因组关联分析获得的140个显著关联的SNP位点集、全基因组关联分析P值从小到大排序前1000个SNP位点集、全基因组关联分析P值从小到大排序前2000个SNP位点集、全基因组关联分析P值从小到大排序前3000个SNP位点集、全基因组关联分析P值从小到大排序前4000个SNP位点集、全基因组关联分析P值从小到大排序前5000个SNP位点集和全基因组关联分析P值从小到大排序前6000个SNP位点集,构成7个SNP基因型位点集;
3)通过5折交叉验证方法,将296株杨树群体的80%作为训练群体,20%作为测试群体;在训练群体中利用296株杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP位点集数据,建立杨树材性性状全基因组选择预测模型;
4)利用基因型数据和预测模型在验证群体中估算杨树材性性状的育种值,该过程重复迭代500次,并以测试群体育种值与实际观测值的Pearson相关系数均值作为评价全基因组选择预测准确性的指标;最终通过这一指标确定最优全基因组选择统计模型和最优SNP基因型位点集,最优全基因组选择统计模型和最优SNP基因型位点集组成了杨树材性性状全基因组选择的最优预测体系。
基于全基因组选择的杨树材性性状最优预测体系,由最优全基因组选择统计模型和最优SNP基因型位点集组成;所述最优全基因组选择统计模型为机器学习模型Ridge、LinearRegression、SVRlinear;所述最优SNP基因型位点集为数量为5000的SNP位点集。
基于全基因组选择的杨树材性性状最优预测体系在杨树速生良种选育中的应用。
本发明的有益效果:
本发明基于全基因组关联分析,鉴定与杨树材性性状显著相关的SNP位点。在此基础上,针对不同统计模型和不同数量SNP标记对全基因组选择预测精度的影响进行了比较,并建立了一种基于机器学习模型和材性性状显著关联位点的最优全基因组选择预测体系。该体系具备快速、高效且精准预测杨树木材品质优良种质的能力,其预测准确度高达0.84。因此,本发明能够实现对杨树材性性状的早期预测,精准高效筛选出木材品质优良种质材料,从而缩短林木育种周期,提高林木选育强度,加速林木优良种质的选育进程。
附图说明
图1为本发明实施例杨树训练群体材性性状表型统计图;
图2为本发明实施例杨树材性性状全基因组关联分析图;
图3为本发明实施例基于16个统计模型和7种SNP标记数据集的杨树材性性状(木材基本密度)全基因组选择预测准确度的分布箱图;
图4为本发明实施例基于16个统计模型和7种SNP标记数据集的杨树材性性状(木材基本密度)全基因组选择预测准确度的分布箱图;
图5为本发明实施例对育种群体材性性状预测育种值的结果图(a为木材基本密度、b为纤维素含量);
图6为本发明实施例对育种群体材性性状预测育种值的结果图(c为半纤维素含量、d为木质素含量)。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合具体实施例对本发明进一步进行描述。以下实施例中如无特殊说明,所用的技术手段均为本领域技术人员所熟知的常规手段。
本申请选取的296株杨树试验材料均生长于南京林业大学美洲黑杨种质资源库(江苏省泗洪县陈圩林场),这些杨树均源自不同地区且彼此间无直接亲缘关系。试验采用随机区组设计,分为3个区组,每个小区包含4株杨树,并进行三次重复,株行距为6×6米。
在树高1.3米处沿着南北方向使用内径为5毫米的林木生长锥,从树皮开始贯穿髓心,取出完整且无疵的木芯样品。对每个样品进行统一编号,用于后续的材性测定。
种质资源区总面积为10公顷,包含了来自12个种源的美洲黑杨,以及来自不同家系的1000个无性系。其中,104个无性系于1990年春季从美国密西西比州立大学、得克萨斯农工大学、路易斯安娜州立大学和美国南方林业试验站引进;而另外的350个无性系则来自美国美洲黑杨分布区南部的天然林和人工林,主要采集于密西西比河、布拉佐夫河和科罗拉多河等中下游两岸地区。
实施例1
1、木材基本密度测定
将采集的木芯使用排水法进行杨树木材基本密度的测定,具体操作为:通过计算样品质量与在蒸馏水中浸泡至饱和后质量的差值,确定样品在水分饱和状态下的体积(单位为cm3);将样品置于温度为103±3℃的烘箱中,烘干至样品重量保持恒定,利用精度为0.0001g的电子天平测量其绝对干重(单位为g);根据公式ρ=m/v(其中ρ代表木材基本密度,单位为g/cm3;m代表样品的绝对干重,单位为g;v代表样品饱和时的体积,单位为cm3),计算每个样本的木材基本密度。
2、木材化学组分含量测定
采用Van Soest洗涤法测定每个样本中纤维素、半纤维素和木质素含量,具体实验步骤如下:
1)样品制备:将之前用于测定木材密度的木芯样品烘干至恒重,使用FW-100型高速通用粉碎机对木芯进行粉碎研磨,过筛后的木粉进行充分混匀。
2)样品称取:使用精密电子天平准确称取1克的木粉样品。
3)纤维成分测定:将称取的样品使用FIWE6型纤维测定仪测定样品的中性洗涤纤维含量(NDF)、酸性洗涤纤维含量(ADF)、酸性洗涤木质素含量(ADL)以及酸不溶灰分含量(AIA)。每个样品重复测定3次以提高结果的可靠性。
4)根据以下公式计算木材化学组分的含量:
纤维素含量(%)=ADF(%)-ADL(%)
半纤维素含量(%)=NDF(%)-ADF(%)
木质素含量(%)=ADL(%)-AIA(%)
3、表型测定与分析
采用R 4.1.2软件对表型数据进行统计分析,包括计算平均值、最小值、最大值、标准差以及变异系数。利用R软件中的moments包计算数据集的偏度和峰度,并进行正态性分布检验。利用R语言中cov函数和var函数计算表型相关和遗传相关。利用lme4包计算杨树基本密度和木材纤维素、半纤维素及木质素含量的广义遗传力。
4、结果如表1和图1所示,所有性状均表现出不同程度的变异。杨树育种群体的平均木材基本密度为0.39g/cm3,变幅为0.26g/cm3至0.51g/cm3;平均纤维素含量为53.78%,变幅在47.85%至60.77%之间;平均半纤维素含量为24.17%,变幅为20.36%至30.22%;平均木质素含量为12.7%,变幅为6.51%至17.64%。其中,变异系数最小和最大分别为纤维素(3.22%)和木质素(12.2%),表明木质素含量受环境影响更大。各个性状的表型值基本符合正态分布,表明杨树材性性状属于典型的数量性状,受多基因控制。相关性分析显示,材性性状之间存在极显著的相关性(p<0.001),说明林木发育过程中材性性状相互影响。木材基本密度、纤维素、半纤维素和木质素的广义遗传力(h2)分别为0.43、0.82、0.17和0.001。纤维素含量的遗传力显著高于其他材性性状,因此,纤维素含量的化学性状受遗传控制程度高于其他材性性状。
表1杨树训练群体材性性状表型数据描述统计
实施例2
1、基因组重测序和基因分型
采用WGS(wholegenomesequencing)基因组重测序技术,利用Illumina HiSeq6000高通量测序平台对296株杨树植株进行了双末端(paired-end)PE150测序。使用BWA(Burrows-WheelerAligner)工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果。为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对(localrealignment)、碱基质量值校正(BaseQualityScoreRecalibration,BQSR)。随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异(SNV)和***/缺失(Indel)的检测。变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异。接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律(p值大于0.00001)。最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性(SNP)位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测。最终获得了4,766,585个高质量的SNP位点,用于后续的遗传分析研究。
2、杨树材性性状全基因组关联分析
基于上述获得的4,766,585个高质量SNP位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵。结合杨树材性性状表型数据,利用GEMMA软件以群体结构(PCA)作为固定效应,亲缘关系(Kinship)作为随机效应加入到混合线性模型(MLM)的分析中,获得每个SNP与性状的关联P值。根据Bonferroni矫正设置显著性阈值(P<1.01E-04),检测到21个与杨树木材基本密度性状显著关联的SNP位点(图2),这些位点的效应值介于-3.22至3.41之间(表2)。检测到132个与纤维素含量显著关联的SNP位点(图2),这些位点的效应值介于-4.92至1.67之间(表3)。检测到135个与半纤维素含量显著关联的SNP位点(图2),这些位点的效应值介于2.22至5.05之间(表4)。检测到25个与木质素含量显著关联的SNP位点(图2),这些位点的效应值介于-2.16至1.5之间(表4)。选取各个木材材性性状全基因组关联分析获得的显著关联的SNP位点集、全基因组关联分析P值从小到大排序前1000个SNP位点集、全基因组关联分析P值从小到大排序前2000个SNP位点集、全基因组关联分析P值从小到大排序前3000个SNP位点集、全基因组关联分析P值从小到大排序前4000个SNP位点集、全基因组关联分析P值从小到大排序前5000个SNP位点集和全基因组关联分析P值从小到大排序前6000个SNP位点集,作为后续全基因选择预测分析的不同SNP基因型数据集。
表2全基因组关联分析检测到的杨树木材基本密度性状显著关联的SNP位点
SNP标记 染色体 位置 P_value MAF 效应值
chr16_2317260 16 2317260 5.43E-07 0.06 -3.32
chr16_12127711 16 12127711 1.58E-06 0.3 1.56
chr6_6707670 6 6707670 1.59E-06 0.23 1.77
chr6_25626302 6 25626302 2.10E-06 0.16 2.02
chr18_4150826 18 4150826 2.99E-06 0.07 2.87
chr6_10206532 6 10206532 3.56E-06 0.11 -2.53
chr13_1323513 13 1323513 4.07E-06 0.21 -1.66
chr14_8083718 14 8083718 4.46E-06 0.08 2.5
chr4_8620466 4 8620466 5.93E-06 0.06 3.02
chr4_5602349 4 5602349 6.59E-06 0.15 -1.99
chr11_7446395 11 7446395 6.84E-06 0.06 3.41
chr15_1392977 15 1392977 6.92E-06 0.35 1.42
chr1_10361012 1 10361012 7.76E-06 0.1 2.26
chr2_10839708 2 10839708 8.07E-06 0.08 2.82
chr1_46798238 1 46798238 8.26E-06 0.1 2.28
chr9_1331868 9 1331868 8.35E-06 0.06 -3.24
chr1_28430469 1 28430469 8.91E-06 0.25 -1.42
chr3_19570376 3 19570376 9.07E-06 0.15 2.04
chr18_4998558 18 4998558 9.19E-06 0.24 -1.55
chr14_7807520 14 7807520 9.42E-06 0.12 2.01
chr8_6100432 8 6100432 1.07E-05 0.17 1.71
表3全基因组关联分析检测到的杨树纤维素含量显著关联的SNP位点
表4全基因组关联分析检测到的杨树半纤维素含量显著关联的SNP位点
/>
/>
/>
/>
表5全基因组关联分析检测到的杨树木质素含量显著关联的SNP位点
SNP标记 染色体 位置 P_value MAF 效应值
chr5_13639003 5 13639003 1.43E-05 0.08 -1.62
chr9_9121475 9 9121475 2.11E-05 0.4 0.97
chr11_12362852 11 12362852 2.36E-05 0.08 -1.93
chr1_41782627 1 41782627 2.69E-05 0.06 -1.73
chr18_1937946 18 1937946 3.00E-05 0.31 0.97
chr1_42845185 1 42845185 3.45E-05 0.37 -0.91
chr18_9193855 18 9193855 3.73E-05 0.06 -1.91
chr18_13671270 18 13671270 3.88E-05 0.04 -2.16
chr19_17736218 19 17736218 4.42E-05 0.46 0.87
chr9_7313495 9 7313495 4.51E-05 0.12 1.5
chr18_11495397 18 11495397 5.03E-05 0.19 -1.06
chr8_10280676 8 10280676 5.09E-05 0.43 -0.92
chr5_3656997 5 3656997 5.62E-05 0.49 0.9
chr6_2333140 6 2333140 5.96E-05 0.49 -0.89
chr17_11102435 17 11102435 5.96E-05 0.08 -1.63
chr12_552507 12 552507 6.73E-05 0.27 -1.02
chr1_42886463 1 42886463 8.00E-05 0.19 -1.11
chr18_3341941 18 3341941 8.24E-05 0.29 -0.96
chr6_2918467 6 2918467 8.35E-05 0.16 -1.16
chr13_8300937 13 8300937 8.42E-05 0.06 -1.88
chr6_12219013 6 12219013 8.51E-05 0.24 -1.01
chr10_7081067 10 7081067 8.95E-05 0.47 0.82
chr11_6175615 11 6175615 9.22E-05 0.25 -0.89
chr11_1278841 11 1278841 1.00E-04 0.06 -1.82
chr11_11658578 11 11658578 1.04E-04 0.06 -1.9
实施例3
1、表型和基因型文件整理
在进行全基因组选择(Genomicselection,GS)预测之前,首先对训练群体的表型和基因型数据进行缺失值填补和格式整理。采用296株杨树的基本密度、纤维素含量、半纤维素含量和木质素含量分别作为杨树材性性状全基因组选择预测的表型数据。使用PLINK软件将基因型数据转换为0/1/2格式,其中纯合非突变基因型编码为0,杂合基因型编码为1,纯合突变基因型编码为2。
2、全基因组选择模型参数设置
采用16种不同的全基因组选择统计模型,包括最佳线性无偏预测模型(GBLUP,rrBLUP)、贝叶斯模型(BRR,BayesA,BayesB,BayesC,Bayes Lasso)以及多种机器学习模型(Ridge,Linear Lasso,ElasticNet,Linear Regression,Kernel Ridge,PLSRegression,Random Forest,SVRlinear,SVRpoly)。其中,2个最佳线性无偏预测模型采用R软件包rrBLUP实现,5个贝叶斯模型采用R软件包BGLR实现,9个机器学习模型则利用Python安装包scikit-learn(sklearn)进行实现。
针对每个全基因组选择统计模型,设定了7个不同的SNP基因型位点集以评估其对于GS预测准确性的影响。这7个不同的SNP基因型位点集分别来自各个木材材性性状全基因组关联分析获得的显著关联的SNP位点集、全基因组关联分析P值从小到大排序前1000个SNP位点集、全基因组关联分析P值从小到大排序前2000个SNP位点集、全基因组关联分析P值从小到大排序前3000个SNP位点集、全基因组关联分析P值从小到大排序前4000个SNP位点集、全基因组关联分析P值从小到大排序前5000个SNP位点集和全基因组关联分析P值从小到大排序前6000个SNP位点集,作为后续全基因选择预测分析的不同SNP基因型数据集。
3、确定杨树材性性状全基因组选择最优模型
通过5折交叉验证方法,将杨树群体的80%作为训练群体,剩余20%作为测试群体。在训练群体中,利用材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP基因型位点集数据建立了杨树材性性状全基因组选择预测模型。随后,利用基因型数据和预测模型在验证群体中估算了杨树材性性状的育种值。为了消除取样误差,该过程重复迭代500次,并以测试群体育种值与实际观测值的Pearson相关系数(r)均值作为评价全基因组选择预测准确性的指标。最终通过这一评价标准确定最优全基因组选择统计模型和最优SNP基因型位点集,最优全基因组选择统计模型和最优SNP基因型位点集组成了杨树材性性状全基因组选择的最优预测体系。
利用16种不同的全基因组选择统计模型和7个不同的SNP基因型位点集,对杨树材性性状进行全基因组选择预测分析。
结果如图3和图4所示,基于机器学***稳,且Ridge、Linear Regression和SVRlinear模型的预测准确性最高,可达0.84。综上所述,选择Ridge、LinearRegression和SVRlinear模型以及数量为5000的SNP位点集作为杨树材性性状(木材基本密度)全基因组选择的最优预测体系。
实施例4
根据确定的杨树材性性状全基因组选择的最优预测体系,采用Ridge、LinearRegression和SVRlinear统计模型以及5000个SNP基因型位点集,估算杨树育种群体材性性状(木材基本密度、纤维素含量、半纤维素含量和木质素含量)的育种值GEBV(Genomic Estimated Breeding Value,图5-6)。为了筛选杨树材性性状(木材基本密度)良种,根据杨树群体材性性状育种值进行升序排列,选取排名前10的杨树植株(表6),作为后续杨树材性性状良种选育和分子机制研究的优良种质材料。
表6筛选出杨树育种群体中材性性状(木材基本密度)育种值排名前十的良种材料
/>

Claims (10)

1.一种基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,包括:
1)对296株杨树进行基因组重测序和基因分型,获得4,766,585个高质量的SNP位点;
2)基于获得的4,766,585个高质量SNP位点,结合296株杨树材性性状表型数据,对杨树材性性状进行全基因组关联分析,获得7个不同的SNP基因型位点集;
3)通过5折交叉验证方法,将296株杨树群体的80%作为训练群体;在训练群体中利用296株杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP位点集数据,建立杨树材性性状全基因组选择预测模型;
4)将杨树材性性状全基因组选择预测模型进行验证筛选,最终获得杨树材性性状最优预测体系。
2.根据权利要求1所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述杨树材性性状全基因组选择预测模型由杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP基因型位点集数据建立而成。
3.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述7个不同的SNP基因型位点集由全基因组关联分析获得的140个显著关联的SNP位点集、全基因组关联分析P值从小到大排序前1000个SNP位点集、全基因组关联分析P值从小到大排序前2000个SNP位点集、全基因组关联分析P值从小到大排序前3000个SNP位点集、全基因组关联分析P值从小到大排序前4000个SNP位点集、全基因组关联分析P值从小到大排序前5000个SNP位点集和全基因组关联分析P值从小到大排序前6000个SNP位点集。
4.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述16种全基因组选择统计模型为最佳线性无偏预测模型GBLUP、rrBLUP和贝叶斯模型BRR、BayesA、BayesB、BayesC、Bayes Lasso和机器学习模型Ridge、Linear Lasso、ElasticNet、LinearRegression、Kernel Ridge、PLSRegression、RandomForest、SVRlinear、SVRpoly。
5.根据权利要求1或2所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述杨树材性性状表型数据为木材基本密度、纤维素含量、半纤维素含量和木质素含量。
6.根据权利要求5所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述最优全基因组选择统计模型为机器学习模型Ridge、LinearRegression、SVRlinear。
7.根据权利要求5所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,所述最优SNP基因型位点集为数量为5000的SNP位点集。
8.根据权利要求1所述的基于全基因组选择的杨树材性性状最优预测体系的构建方法,其特征在于,具体步骤包括:
1)采用WGS基因组重测序技术,利用IlluminaHiSeq6000高通量测序平台对296株杨树植株进行了双末端PE150测序;使用BWA工具将测序数据比对到美洲黑杨的参考基因组上,得到BAM格式的比对结果;为提高后续变异检测的准确性,对比对结果进行预处理,包括去除PCR重复序列、质量控制、局部重比对、碱基质量值校正;随后使用GATK中的HaplotypeCaller工具进行了单核苷酸变异和***/缺失的检测;变异结果首先通过GATK中的VariantFiltration工具基于质量和深度指标进行初步过滤,去除假阳性和伪变异;接着,利用PLINK和VCFtools软件对基因型进行严格过滤,其中过滤标准包括测序深度大于3X、完整度大于0.8、最小等位基因频率不低于0.05、缺失率低于20%,以及符合哈迪-温伯格平衡定律;最后,使用BEAGLE软件填充过滤后的基因型数据,以预测可能因测序而丢失的部分单核苷酸多态性位点,并使用ANNOVAR软件对这些SNP位点进行了注释和功能预测;最终获得了4,766,585个高质量的SNP位点;
2)基于上述获得的4,766,585个高质量SNP位点,分别使用PLINK软件和GEMMA软件进行主成分分析和亲缘关系分析,得到了所有个体的特征向量PCA矩阵和两两个体之间亲缘关系系数Kinship矩阵;结合杨树材性性状表型数据,利用GEMMA软件以群体结构作为固定效应,亲缘关系作为随机效应加入到混合线性模型的分析中,获得每个SNP与性状的关联P值;根据Bonferroni矫正设置显著性阈值,共检测到140个与杨树材性性状显著关联的SNP位点;选取全基因组关联分析获得的140个显著关联的SNP位点集、全基因组关联分析P值从小到大排序前1000个SNP位点集、全基因组关联分析P值从小到大排序前2000个SNP位点集、全基因组关联分析P值从小到大排序前3000个SNP位点集、全基因组关联分析P值从小到大排序前4000个SNP位点集、全基因组关联分析P值从小到大排序前5000个SNP位点集和全基因组关联分析P值从小到大排序前6000个SNP位点集,构成7个SNP基因型位点集;
3)通过5折交叉验证方法,将296株杨树群体的80%作为训练群体,20%作为测试群体;在训练群体中利用296株杨树材性性状表型数据、16种全基因组选择统计模型和7个不同的SNP位点集数据,建立杨树材性性状全基因组选择预测模型;
4)利用基因型数据和预测模型在验证群体中估算杨树材性性状的育种值,该过程重复迭代500次,并以测试群体育种值与实际观测值的Pearson相关系数均值作为评价全基因组选择预测准确性的指标;最终通过这一指标确定最优全基因组选择统计模型和最优SNP基因型位点集,最优全基因组选择统计模型和最优SNP基因型位点集组成了杨树材性性状全基因组选择的最优预测体系。
9.基于全基因组选择的杨树材性性状最优预测体系,其特征在于,由最优全基因组选择统计模型和最优SNP基因型位点集组成;所述最优全基因组选择统计模型为机器学习模型Ridge、LinearRegression、SVRlinear;所述最优SNP基因型位点集为数量为5000的SNP位点集。
10.权利要求9所述的基于全基因组选择的杨树材性性状最优预测体系在杨树速生良种选育中的应用。
CN202311612770.7A 2023-11-29 2023-11-29 一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用 Pending CN117953974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311612770.7A CN117953974A (zh) 2023-11-29 2023-11-29 一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311612770.7A CN117953974A (zh) 2023-11-29 2023-11-29 一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用

Publications (1)

Publication Number Publication Date
CN117953974A true CN117953974A (zh) 2024-04-30

Family

ID=90791246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311612770.7A Pending CN117953974A (zh) 2023-11-29 2023-11-29 一种基于全基因组选择的杨树材性性状最优预测体系的构建方法和应用

Country Status (1)

Country Link
CN (1) CN117953974A (zh)

Similar Documents

Publication Publication Date Title
Todesco et al. Massive haplotypes underlie ecotypic differentiation in sunflowers
Flood et al. Natural genetic variation in plant photosynthesis
Cortés et al. Genotyping by sequencing and genome–environment associations in wild common bean predict widespread divergent adaptation to drought
Silva‐Junior et al. A flexible multi‐species genome‐wide 60K SNP chip developed from pooled resequencing of 240 Eucalyptus tree genomes across 12 species
Li et al. Demographic histories of four spruce (Picea) species of the Qinghai-Tibetan Plateau and neighboring areas inferred from multiple nuclear loci
Stich et al. An introduction to association mapping in plants.
Qin et al. Identification of associated SSR markers for yield component and fiber quality traits based on frame map and upland cotton collections
Lu et al. Molecular characterization of global maize breeding germplasm based on genome-wide single nucleotide polymorphisms
Du et al. Genome-wide association studies to improve wood properties: challenges and prospects
Yang et al. Genome‐wide association study of multiple yield traits in a diversity panel of polyploid sugarcane (Saccharum spp.)
Ladejobi et al. Maximizing the potential of multi-parental crop populations
Wachowiak et al. Speciation history of three closely related pines Pinus mugo (T.), P. uliginosa (N.) and P. sylvestris (L.)
Slavov et al. Contrasting geographic patterns of genetic variation for molecular markers vs. phenotypic traits in the energy grass Miscanthus sinensis
Yousefi et al. Divergent evolution and niche differentiation within the common peatmoss Sphagnum magellanicum
Abu Zaitoun et al. Characterizing Palestinian snake melon (Cucumis melo var. flexuosus) germplasm diversity and structure using SNP and DArTseq markers
EP2577536A2 (en) Methods and compositions for predicting unobserved phenotypes (pup)
Kumar et al. Designing a mini-core collection effectively representing 3004 diverse rice accessions
CN112687340A (zh) 一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法
Kastally et al. Taming the massive genome of Scots pine with PiSy50k, a new genotyping array for conifer research
CN117558341A (zh) 美洲黑杨全基因组育种芯片及其构建方法和应用
Cubry et al. An initial assessment of linkage disequilibrium (LD) in coffee trees: LD patterns in groups of Coffea canephora Pierre using microsatellite analysis
Guo et al. Association and validation of yield-favored alleles in chinese cultivars of common wheat (Triticumaestivum L.)
Nie et al. Marker-trait association for biomass yield of potential bio-fuel feedstock Miscanthus sinensis from Southwest China
Scotti et al. Common microgeographical selection patterns revealed in four European conifers
Bazakos et al. Whole genome scanning of a Mediterranean basin hotspot collection provides new insights into olive tree biodiversity and biology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination