CN110459265B - 一种提高全基因组预测准确性的方法 - Google Patents

一种提高全基因组预测准确性的方法 Download PDF

Info

Publication number
CN110459265B
CN110459265B CN201910749466.4A CN201910749466A CN110459265B CN 110459265 B CN110459265 B CN 110459265B CN 201910749466 A CN201910749466 A CN 201910749466A CN 110459265 B CN110459265 B CN 110459265B
Authority
CN
China
Prior art keywords
effect
model
snps
environment
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910749466.4A
Other languages
English (en)
Other versions
CN110459265A (zh
Inventor
张红伟
李冬冬
王国英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Original Assignee
Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Crop Sciences of Chinese Academy of Agricultural Sciences filed Critical Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority to CN201910749466.4A priority Critical patent/CN110459265B/zh
Publication of CN110459265A publication Critical patent/CN110459265A/zh
Application granted granted Critical
Publication of CN110459265B publication Critical patent/CN110459265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及作物分子育种及全基因组关联分析技术领域,具体提供了一种提高全基因组预测(GP)准确性的方法。本方法包括:(1)对目标作物群体进行表型和基因型鉴定,然后基于对整个群体的全基因组关联分析(GWAS),找到效应最大的4个单碱基变异(SNPs);(2)把效应最大的4个SNPs作为固定效应,在并GP模型中加入基因型与环境互作组分,能最大限度地提高预测准确性。本发明可以在完成基因型和表型鉴定后,在不增加其他人力物力投入的情况下,仅仅利用现有的数据信息,尽可能地提高预测准确性。该发明应用到分子育种工作中,将会提高预测效率,从而提高预测的可靠性并节约育种成本。

Description

一种提高全基因组预测准确性的方法
技术领域
本发明属于作物分子育种领域,具体涉及到通过改良全基因组预测(GP)线性模型组分来提高GP预测准确性的方法,具体方向为现代农业技术。
背景技术
全基因组预测(GP)是一种新型的分子育种技术,这种技术需要建立两个群体,一个是训练群体,一个是预测群体。其中训练群体需要进行表型和基因型鉴定,利用训练群体估计分子标记的标记效应,从而根据标记效应来估计预测群体的育种值。与常规的分子标记辅助育种(MAS)相比,GP具有如下优点,一是GP不需要鉴定显著性的数量性状位点(QTL),二是GP可以照顾到微效QTL的信息,三是GP可以通过加快育种周期和提高遗传增益,从而提高育种效率。提高GP预测的准确性可以提高GP辅助育种的效率,从而更加准确地预测测试材料的表型。前人对GP预测准确性的影响因素的研究主要集中于群体大小、标记密度、遗传基础、群体间的亲缘关系、连锁不平衡程度等。这些影响因素是进行GP育种项目前需要考虑的工作。本发明关注的重点在于,当所有数据已经获得,通过对数据进行处理能不能提高预测的准确性。
典型的GP模型是y=Xβ+Zu+ε,在这个模型中,β是固定效应,u是随机效应。对小麦的抗锈病的研究发现,使用与Sr2连锁的标记作为固定效应的GBLUP模型的预测准确性(PA)比普通GBLUP更准确。利用一个水稻育种群体进行全基因组关联分析(GWAS),把显著的标记作为固定效应的GP模型的预测准确性优于其他六个模型 (Spindel等,2016)。在玉米中,通常从两个优良自交系杂交产生的F1植株后代中选择育种材料(Hallauer等,2010)。因此,有必要研究在玉米双亲群体中验证把效应较大的分子标记作为固定效应的预测效果,目前在玉米中尚未有这方面的研究报道。
发明内容
为了在不增加成本的基础上提高全基因组选择的效率,本发明提供了一种通过把大效应SNP作为固定效应和增加G×E效应来提高 GP预测准确性的方法。
发明的目的是通过把大效应SNPs作为固定效应和增加G×E效应,证明将这两种效应合并到一起能否进一步增加GP的预测准确性。
本发明首先提供一种提高全基因组预测准确性的方法,其特征在于,包括以下步骤:
(1)对目标作物群体进行表型和基因型鉴定,然后基于对整个群体的全基因组关联分析,找到效应最大的N个单碱基变异SNPs,所述N为正整数,其取值由基于GP预测准确性的显著性检验而定;
(2)把效应最大的N个SNPs作为固定效应,在并全基因组选择模型中加入基因型与环境互作组分,进行全基因组预测。
步骤(1)中,对目标作物群体的表型分析,确保目标作物种群在不同环境中有共同的遗传基础。
步骤(1)中,进行表型分析时,计算整个群体的最佳线性无偏估计值BLUE值和H2用于后续关联分析,在计算BLUEs和H2时,利用如下模型:
yijm=μ+gi+ej+geij(j)mijm,
其中yijm是第ith(i=1,2…,481)个基因型在第jth(j=1,2,3,4)环境下表型,mth(m=1,2)表示镶嵌在环境下的重复;μ是总体平均,gi是基因型效应,ej是环境效应,geij是基因型与环境互作效应,δ(j)m是重复效应,εijm是剩余残差。当计算BLUEs时,gi作为固定效应,其他变量作为随机效应。
在计算H2时,所有效应为随机效应,从而估计每个效应的方差, H2的计算公式是:
Figure GDA0003570498040000031
在计算H2时,所有效应均为随机效应以便估计每个效应的方差,其中
Figure GDA0003570498040000032
Figure GDA0003570498040000033
分别代表遗传方差、遗传与环境互作方差和残差, Ne表示环境数,r表示重复数。
步骤(1)中,所述全基因组关联分析的模型是:
y*=Xβ+Zg+Wτ+ε
其中y*是BLUEs,β是固定效应,在这里只包含总体平均值,g 是遗传背景效应,τ是标记效应作为随机变量,ε是残差。X、Z和W 是设计矩阵。
步骤(1)中,找到效应最大的4个单碱基变异SNP。
本发明提供的上述方法的步骤(2)中,在全基因组预测模型中加入基因型与环境互作组分的G×E模型是:
Figure GDA0003570498040000034
yi是第i个环境下的表型,i为从1到n的整数,μi是第i个环境下的表型的总体平均值,xi是基因型矩阵,β是在各环境中保持不变的标记效应,β被分解为两部分,一个是在个环境保持不变的主效应β0,一个是环境特异性的βi,i是指第i个环境,εi是残差。
本发明提供的方法,所述的作物包括玉米、水稻、小麦、大豆、花生、高粱、油菜、芝麻、大麦。
进一步,本发明提供了一种提高玉米全基因组预测准确性的方法,包括以下步骤:
(1)构建包含多个家系的BC1F3:4群体,对群体中所有玉米材料进行表型和基因型鉴定,表型是在多个环境条件下统计玉米开花期,每个环境设置两个重复,基因型是利用包含5.5万个SNPs的基因芯片进行鉴定;
(2)利用BC1F3:4群体进行关联分析,找到效应最大的前50个SNPs,对这50个SNPs进行多元线性回归,鉴定出这50个SNPs的表型贡献率(PVE),将这50个SNPs按照PVE从大到小进行排序;利用BC1F3:4群体开花期的BLUE值进行GP预测,GP预测利用五折交叉验证重复200次,分别把效应最大的前5个SNPs作为固定效应,检验GP预测准确性增加的情况,发现把效应最大的前5个SNPs作为固定效应的GP模型预测准确性与把效应最大的4个SNPs作为固定效应的GP模型预测准确性差异不显著,说明把效应最大的4个 SNPs作为固定效应能最大限度地提高GP预测准确性;
(3)证明增加G×E效应的GP模型即G×E模型预测准确性比跨环境的GP模型即A-E模型的预测准确性高:四个环境共计有六种环境组合,利用两种交叉验证模式CV1和CV2对G×E模型和A-E模型进行比较,分别在CV1和CV2模式下,比较当所有标记都是随机变量时和把四个大效应SNPs作为固定效应时G×E模型和A-E模型的预测准确性;
(4)证明G×E模型预测准确性的增加与遗传方差的降低有关,分别利用BLUE值,单环境表型,A-E模型和G×E模型,在四个大效应SNPs作为随机变量和固定变量时,估计并比较遗传方差。
当把大效应SNPs作为固定效应时,由于这些大效应的SNPs作为固定效应时对遗传方差没有贡献,导致遗传方差降低。同时由于这些大效应的SNPs作为固定效应时可以避免对这些大效应SNPs效应的估计偏差,从而提高了对全基因组预测的准确性。
在本发明的实施例中,主要包括以下内容:
构建包含481个家系的BC1F3:4群体,对这481份材料进行表型和基因型鉴定,表型是在两年两个环境条件下统计玉米开花期,每个环境设置两个重复,四个环境分别是2016和2017年北京顺义,2016 和2017年新疆昌吉。基因型是利用包含5.5万个SNPs的基因芯片进行鉴定,利用BC1F3:4群体进行关联分析,找到效应最大的前50(top 50)个SNPs,对这50个SNPs进行多元线性回归,鉴定出这50个 SNPs的PVE,将这50个SNPs按照PVE从大到小进行排序。利用 BC1F3:4群体开花期的BLUE值进行GP预测,GP预测利用五折交叉验证重复200次,分别把PVE最大的前1个SNP(top 1)、top 2、top 3、top 4、top 5的SNPs作为固定效应,检验GP预测准确性增加的情况。证明增加G×E效应的GP模型(G×E模型)预测准确性比跨环境的GP模型(A-E模型)的预测准确性高。四个环境共计有六种环境组合,我们利用两种交叉验证模式(CV1和CV2)对G×E模型和A-E模型进行比较,分别在CV1和CV2模式下,比较当所有标记都是随机变量时和把四个大效应SNPs作为固定效应时G×E模型和 A-E模型的预测准确性。证明G×E模型预测准确性的增加与遗传方差的降低有关,分别利用BLUE值,单环境表型,A-E模型和G×E 模型,在四个大效应SNPs作为随机变量和固定变量时,估计遗传方差。从而证明遗传方差和把大效应SNPs作为固定效应时GP预测模型准确性增加的相关性。
本发明可以在完成基因型和表型鉴定后,在不增加其他工作量的情况下,仅仅利用现有的数据信息,尽可能地提高预测准确性。该发明应用到分子育种工作中,将会提高预测效率,从而提高预测的可靠性并节约育种成本。
附图说明
图1为BC1F3:4群体开花期在四个环境下的分布和相关性图。图中**表示P≤0.01,16表示2016年,17表示2017年,BJ表示北京, XJ表示新疆。
图2a为11781个多态性SNPs在玉米基因组染色体上的分布热图。颜色深浅程度代表每1Mb范围内的SNP数目差异。Chr1,Chr 2,……Chr 10代表玉米的十条染色体。标记的物理位置是基于玉米 B73参考基因组V3序列版本;图2b为481个BC1F3植株的基因型来源分布,颜色由浅到深分别代表PH4CV背景,杂合背景和郑58背景。
图3a为GWAS分析产生的QQ图。
图3b为GWAS分析产生的Manhattan图。
图3c为利用多元线性回归计算-log10(P)值最大的前50的PVE,图中只显示PVE大于1%的SNPs。
图3d为t测验表明把效应最大的前4个SNPs作为固定效应能最大限度地提高预测准确性,PA代表预测准确性,***表示P<0.001, **表示P<0.01,ns表示不显著。
图4为把四个大效应SNPs作为固定效应的GP模型预测准确性高于随机选择四个SNPs作为固定效应的GP模型预测准确性图。随机挑选四个SNPs作为固定效应的GP预测准确性分布图,该过程重复200次,每次用100次五折交叉验证,PA代表预测准确性。右侧三角表示把四个大效应SNPs作为固定效应的GP模型预测准确性 (0.7657),左侧三角表示没有选择SNP作为固定效应的GP模型预测准确性(0.7466)。
图5a、图5b、图5c为把四个大效应SNPs作为固定效应可以增加每个环境下GP的预测准确性和减少遗传方差,图5a:把四个大效应SNPs作为固定效应降低遗传方差;图5b:把四个大效应SNPs作为固定效应对残差没有影响;图5c:把四个大效应SNPs作为固定效应提高预测准确性。16BJ、16XJ、17BJ、17XJ表示四个环境,Fixed 表示把四个主效SNPs作为固定效应的预测模型,Random表示没有把任何SNP作为固定效应的预测模型,PA表示预测准确性,***表示t测验表明两种模型差异显著性水平小于0.001。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段,所用原料、试剂、药品均为市售商品。
实施例1
1、表型分析:利用亲本PH4CV和郑58为亲本构建包含481个家系的BC1F3:4群体,其中PH4CV为轮回亲本。对这481份材料进行表型和基因型鉴定,表型是在两年两个环境条件下(共计四个环境) 统计玉米开花期,每个环境设置两个重复,四个环境分别是2016和2017年北京顺义,2016和2017年新疆昌吉。表型鉴定显示,四个环境下相关系数都达到极显著水平,相关系数从0.48-0.63,表明种群在不同的环境中具有共同的遗传基础(见图1)。多个环境条件下相对较高的广义遗传力(H2)和较低的变异系数证明了DA的稳定性(见表 1)。在进行表型分析时,计算了整个群体的BLUE值用于后续的关联分析,并计算了H2。在计算BLUEs和H2时,利用如下模型:
yijm=μ+gi+ej+geij(j)mijm,
其中yijm是第ith(i=1,2…,481)个基因型在第jth(j=1,2,3,4)环境下表型,mth(m=1,2)表示镶嵌在环境下的重复;μ是总体平均,gi是基因型效应,ej是环境效应,geij是基因型与环境互作效应,δ(j)m是重复效应,εijm是剩余残差。当计算BLUEs时,gi作为固定效应,其他变量作为随机效应。
当计算遗传力时,所有的变量都作为随机效应,从而估计出各变量的方差,H2的计算公式是:
Figure GDA0003570498040000071
其中
Figure GDA0003570498040000081
Figure GDA0003570498040000082
分别代表遗传方差、遗传与环境互作方差和残差, Ne表示环境数,r表示重复数,以上分析使用R语言程序包lme4完成。
表1 BC1F3:4群体开花期在四个环境下的表型分布特征
Figure GDA0003570498040000083
2、基因型分析:利用481个BC1F3单株叶片提取DNA,基因型鉴定利用包含5.5万个SNPs的基因芯片(Xu C,Ren Y,Jian Y,Guo Z, Zhang Y,et al.(2017)Development of amaize 55K SNP array with improved genome coverage for molecular breeding.MolBreeding 37:20.) 进行鉴定。利用如下标准过滤SNPs:(1)去除任何亲本缺失数据的SNPs;(2)去掉亲本间非多态性SNPs;(3)去掉缺失率大于0.05的 SNPs;(4)缺失的标记根据等位基因频率估算的预期值进行填补,填补方法参考文献为(Pérez P,de los Campos G(2014)Genome-wide regression and prediction with the BGLR statisticalpackage.Genetics 198:483-495.)。过滤后得到11781个多态性SNPs,这些标记以足够高的密度分布在整个基因组中(见图2a)。对481株BC1F3的基因型分析表明,大多数植物的背景为纯合PH4CV基因型,平均占基因组的65.44%。纯合郑58基因型和杂合基因型分别占比为16.00%和18.56% (见图2b;表2)。郑58基因型存在于整个基因组中,这表明BC1F3群体在整个基因组中都处于分离状态,有利于进行后续的GWAS分析。
表2 BC1F3群体背景中三种基因型的比例
平均值 最小值 最大值
郑58基因型 16.0% 2.1% 38.2%
杂合基因型 18.6% 3.7% 38.4%
PH4CV基因型 65.4% 41.4% 88.9%
3、关联分析和多元线性回归:利用BC1F3:4群体进行GWAS分析,进行GWAS分析的工具是R语言程序包sommer(参见文献 Covarrubias-Pazaran G(2016)Genome-assistedprediction of quantitative traits using the R package sommer.PLoS ONE 11:e0156744.),GWAS分析的模型是:
y*=Xβ+Zg+Wτ+ε,
其中y*是BLUEs,β是固定效应,在这里只包含总体平均值,g 是遗传背景效应,τ是标记效应作为随机变量,ε是残差。X、Z和 W是设计矩阵。GWAS分析的QQ图显示GWAS模型在所研究的群体中是很好的拟合,假阳性信号得到很好的控制。曼哈顿图显示,最高峰值出现在2号染色体上,其次是9号染色体(见图3a和图3b)。利用-log10(P)值最大的前50(top 50)个SNPs,对这50个SNPs进行多元线性回归,得到每一个SNP的回归平方和SSreg和总平方和SStol,每个SNP的PVE是用SSreg除以SStol,从而鉴定出这50个SNPs 的PVE,将这50个SNPs按照PVE进行排序,发现3号染色体上的 SNP的PVE最大,为11.88%,其次是chr2、chr9和chr3上的SNPs,分别解释了总表型变异的7.52%、4.81%和4.59%(见图3c)。
4、固定不同数目top SNPs的GP模型预测准确性比较:利用 BC1F3:4群体开花期的BLUEs进行GP预测,GP预测的GBLUP模型是:
y=Xβ+Zu+ε,
其中y是BLUEs,β是固定效应,u是遗传效应作为随机变量,ε是残差,x和Z是设计矩阵。上述模型用R语言程序包BGLR进行拟合。其中,Iterations设置为20000,burn-in设置为5000,进行100次交叉验证(Pérez和de los Campos,2014)。当把SNPs作为固定效应时,β包含截距和作为固定效应的SNPs,这些SNPs的基因型加入到矩阵 X中。分别把top 1、top 2、top 3、top 4、top 5的SNPs作为固定效应,检验GP预测准确性增加的情况。利用双尾t测验检验把N个SNPs 作为固定效应和把N+1个SNPs(N取值为1到4)作为固定效应时 GP模型得到的100个预测准确性值的差异。结果表明,当把top 4 的SNPs作为固定效应时,GP预测性已经达到最大,因此我们在后续的研究中把top 4的SNPs作为固定效应(见图3d)。
5、把四个大效应SNPs作为固定效应能提高GP预测准确性的进一步证明:为了证明把四个大效应SNPs作为固定效应提高GP预测准确性不是一种偶然现象。本发明在全基因组范围内随机选择四个 SNPs作为固定效应,计算GP预测准确性,重复200次,发现把四个大效应SNPs作为固定效应时GP的预测准确性总比把四个随机选择的SNPs作为固定效应时GP的预测准确性高(见图4)。
6、证明增加G×E效应的GP模型(G×E模型)预测准确性比跨环境的GP模型(A-E模型)的预测准确性高:四个环境共计有六种环境组合,本实施例利用两种多环境模型,即A-E模型和G×E模型。在A-E模型中,假定每个SNP在每个环境中的效应是不变的,如果有n个环境,那么模型是
Figure GDA0003570498040000101
在A-E模型中,yi是第i个环境(1,2,…,n)下的表型,μi是第i个环境下的表型的总体平均值,xi是基因型矩阵,β是在各环境中保持不变的标记效应,εi是残差。
在G×E模型中,yi和μi同上,β被分解为两部分,一个是在各环境保持不变的主效应β0,一个是环境特异性的βi(i是指第i个环境), G×E模型是:
Figure GDA0003570498040000102
在A-E模型和G×E模型中加入四个大效应SNPs作为固定效应的操作过程同步骤4,以上分析用R语言程序包BGLR进行(R语言程序包BGLR参见Pérez P,de los Campos G(2014)Genome-wide regression and prediction with the BGLR statisticalpackage.Genetics 198:483-495.)。
表3两种用来比较A-E和G*E模型的交叉验证方案
Figure GDA0003570498040000111
表注:NA表示缺失的待预测表型,N代表家系数
本实施例利用两种交叉验证模式(CV1和CV2,见表3)对G×E 模型和A-E模型进行比较,在CV1模式下,当所有标记都是随机变量时的12中预测模型中,有10中预测模型中G×E模型的预测准确性高于A-E模型;当把四个大效应SNPs作为固定效应的12中预测模型中,有10中预测模型中G×E模型的预测准确性高于A-E模型。在CV2模式下,当所有标记都是随机变量时的12中预测模型中,有8中预测模型中G×E模型的预测准确性高于A-E模型;当把四个大效应SNPs作为固定效应的12中预测模型中,有8中预测模型中G×E 模型的预测准确性高于A-E模型,见表4。
7、证明把四个大效应SNPs作为固定效应的G×E模型的预测准确性最高:从表4中可以看出,在CV1模式下,在12种预测模型其中10个模型,把四个大效应SNPs作为固定效应的G×E模型的预测准确性最高。在CV2模式下,在12种预测模型其中8个模型,把四个大效应SNPs作为固定效应的G×E模型的预测准确性最高。说明结合把四个大效应SNPs作为固定效应和增加G×E模型可以增加GP模型的预测准确性。
表4在GP模型中把四个大效应SNPs作为固定效应并加入G×E效应提高预测准确性
Figure GDA0003570498040000121
表注:两个环境下的数据作为训练群体,每个环境分别作为验证群体,所以每对环境对应两个预测准确性。A-E模型代表跨环境模型,G×E模型代表G×E互作模型,Fixed A-E模型代表在模型中把四个大效应SNPs作为固定效应的跨环境模型,Fixed G×E模型代表在模型中把四个大效应SNPs作为固定效应的G×E互作模型。√代表同一行中最大的PA值。
8、证明把四个大效应SNPs作为固定效应和增加G×E效应导致的预测准确性增加与遗传方差的降低有关:在单环境模型下,当把四个大效应SNPs作为固定效应时,方差降低,预测准确性升高,而残差没有改变(见图5a、图5b、图5c)。在A-E模型和G×E模型中,当把四个大效应SNPs作为固定效应时,遗传方差也降低,但残差没有改变,证明遗传方差的降低与把四个大效应SNPs作为固定效应有关(见表5)。当比较A-E模型和G×E模型时发现,无论四个大效应 SNPs是否作为固定效应,G×E模型的遗传方差总小于A-E模型的遗传方差,证明遗传方差的降低与加入G×E效应有关(见表5)。
表5证明把4个大效应SNPs作为固定效应和增加G×E效应导致的预测准确性增加与遗传方差的降低有关
Figure GDA0003570498040000131
表注:
Figure GDA0003570498040000132
残差(剩余方差)
Figure GDA0003570498040000133
遗传方差。A-E模型代表跨环境模型,G×E模型代表G× E互作模型,Fixed A-E模型代表在模型中把四个大效应SNPs作为固定效应的跨环境模型,Fixed G ×E模型代表在模型中把四个大效应SNPs作为固定效应的G×E互作模型。
虽然,上文中已经用一般性说明、具体实施方式及试验,对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (1)

1.一种提高玉米开花期全基因组预测准确性的方法,其特征在于,包括以下步骤:
(1)利用亲本PH4CV和郑58为亲本,以PH4CV为轮回亲本,构建包含481个家系的BC1F3:4群体,对所述BC1F3:4群体进行表型分析和基因型鉴定,表型是在多个环境条件下统计玉米的开花期,每个环境设置两个重复,基因型是利用包含5.5万个SNPs的基因芯片进行鉴定;
对目标作物群体的表型分析,确保目标作物种群在不同环境中有共同的遗传基础;
进行表型分析时,计算整个群体的最佳线性无偏估计值BLUE值和广义遗传力H2,BLUE值用于后续关联分析,H2用于评估数据质量,在计算BLUEs和H2时,利用如下模型:
yijm=μ+gi+ej+geij(j)mijm,
其中yijm是第ith个基因型在第jth环境下表型,mth表示镶嵌在环境下的重复,i的取值范围为1-481,j的取值范围为1-4,m的取值范围为1-2;μ是总体平均,gi是基因型效应,ej是环境效应,geij是基因型与环境互作效应,δ(j)m是重复效应,εijm是剩余残差;当计算BLUEs时,gi作为固定效应,其他变量作为随机效应;
H2的计算公式是:
Figure FDA0003597537670000011
在计算H2时,所有效应均为随机效应以便估计每个效应的方差,其中
Figure FDA0003597537670000012
Figure FDA0003597537670000013
分别代表遗传方差、遗传与环境互作方差和残差,Ne表示环境数,r表示重复数;
(2)利用玉米BC1F3:4群体进行全基因组关联分析,找到效应最大的前50个SNPs,对这50个SNPs进行多元线性回归,鉴定出这50个SNPs的表型贡献率,即PVE,将这50个SNPs按照PVE从大到小进行排序;利用BC1F3:4群体开花期的BLUE值进行GP分析,GP利用五折交叉验证重复200次,分别把效应最大的前5个SNPs作为固定效应,检验GP预测准确性增加的情况,比较发现把效应最大的前四个SNPs作为固定效应能最大限度地提高GP的预测准确性;
全基因组关联分析的模型是:
y*=Xβ+Zg+Wτ+ε
其中y*是BLUEs,β是固定效应,在这里只包含总体平均值,g是遗传背景效应,τ是标记效应作为随机变量,ε是残差;X、Z和W是设计矩阵;
(3)证明增加G×E效应的GP模型即G×E模型预测准确性比跨环境的GP模型即A-E模型的预测准确性高:四个环境共计有六种环境组合,利用两种交叉验证模式CV1和CV2对G×E模型和A-E模型进行比较,分别在CV1和CV2模式下,比较当所有标记都是随机变量时和把四个大效应SNPs作为固定效应时G×E模型和A-E模型的预测准确性;
在全基因组预测模型中加入基因型与环境互作组分的G×E模型是:
Figure FDA0003597537670000021
yi是第i个环境下的表型,i为从1到n的整数,n是环境数,μi是第i个环境下的表型的总体平均值,xi是基因型矩阵,β是在各环境中保持不变的标记效应,β被分解为两部分,一个是在个环境保持不变的主效应β0,一个是环境特异性的βi,i是指第i个环境,εi是残差;
(4)证明G×E模型预测准确性的增加与遗传方差的降低有关,分别利用BLUE值,单环境表型,A-E模型和G×E模型,在四个大效应SNPs作为随机变量和固定变量时,估计并比较遗传方差。
CN201910749466.4A 2019-08-14 2019-08-14 一种提高全基因组预测准确性的方法 Active CN110459265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749466.4A CN110459265B (zh) 2019-08-14 2019-08-14 一种提高全基因组预测准确性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749466.4A CN110459265B (zh) 2019-08-14 2019-08-14 一种提高全基因组预测准确性的方法

Publications (2)

Publication Number Publication Date
CN110459265A CN110459265A (zh) 2019-11-15
CN110459265B true CN110459265B (zh) 2022-07-05

Family

ID=68486569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749466.4A Active CN110459265B (zh) 2019-08-14 2019-08-14 一种提高全基因组预测准确性的方法

Country Status (1)

Country Link
CN (1) CN110459265B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110904259B (zh) * 2019-12-05 2020-08-18 华中农业大学 鉴定多倍体作物优良单倍型的方法及应用、npc6基因在油菜种子产油量育种中的应用
CN111210868B (zh) * 2020-02-17 2024-02-06 沈阳农业大学 玉米关联群体中气生根全基因组选择潜力分析方法
CN111951888B (zh) * 2020-07-31 2023-10-03 安徽省农业科学院畜牧兽医研究所 一种牛肉脂肪酸组成预测方法、***和存储介质
CN112582023B (zh) * 2020-12-17 2021-08-17 河南省农业科学院粮食作物研究所 一种基于全基因组关联分析和多环境预测模型的玉米分子育种方法
CN112931183A (zh) * 2021-02-05 2021-06-11 江苏省农业科学院 一种基于单株评价及全基因组选择技术的高效玉米育种方法
CN117831637B (zh) * 2024-03-05 2024-05-28 中国农业科学院作物科学研究所 一种基于机器学习的基因型和环境互作方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101786A (zh) * 2018-08-29 2018-12-28 广东省农业科学院动物科学研究所 一种整合显性效应的基因组育种值估计方法
CN109524059A (zh) * 2018-12-28 2019-03-26 华中农业大学 一种快速稳定的动物个体基因组育种值评估方法
CN109536629A (zh) * 2018-10-29 2019-03-29 中国农业科学院作物科学研究所 一种快速玉米育种群体改良的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170805B2 (en) * 2009-02-06 2012-05-01 Syngenta Participations Ag Method for selecting statistically validated candidate genes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101786A (zh) * 2018-08-29 2018-12-28 广东省农业科学院动物科学研究所 一种整合显性效应的基因组育种值估计方法
CN109536629A (zh) * 2018-10-29 2019-03-29 中国农业科学院作物科学研究所 一种快速玉米育种群体改良的方法
CN109524059A (zh) * 2018-12-28 2019-03-26 华中农业大学 一种快速稳定的动物个体基因组育种值评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
玉米散粉期的基因定位与全基因组选择研究;李冬冬;《中国优秀硕士学位论文全文数据库农业科技辑》;20181215;摘要,正文第1页第1段-第31页最后1段 *

Also Published As

Publication number Publication date
CN110459265A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110459265B (zh) 一种提高全基因组预测准确性的方法
Lee et al. Development, validation and genetic analysis of a large soybean SNP genotyping array
Nazareno et al. Minimum sample sizes for population genomics: an empirical study from an Amazonian plant species
Auinger et al. Model training across multiple breeding cycles significantly improves genomic prediction accuracy in rye (Secale cereale L.)
Yan et al. Genetic characterization and linkage disequilibrium estimation of a global maize collection using SNP markers
Fristche-Neto et al. Accuracy of genomic selection to predict maize single-crosses obtained through different mating designs
Chan et al. The complex genetic architecture of the metabolome
Yan et al. High-throughput SNP genotyping with the GoldenGate assay in maize
Weng et al. Genome-wide association study identifies candidate genes that affect plant height in Chinese elite maize (Zea mays L.) inbred lines
CN101539967B (zh) 一种单核苷酸多态性检测方法
Van Os et al. SMOOTH: a statistical method for successful removal of genotyping errors from high-density genetic linkage data
Hansen et al. Identifying the molecular basis of QTLs: eQTLs add a new dimension
Geibel et al. How array design creates SNP ascertainment bias
Matthies et al. Population structure revealed by different marker types (SSR or DArT) has an impact on the results of genome-wide association mapping in European barley cultivars
Pace et al. Genomic prediction of seedling root length in maize (Zea mays L.)
Schulthess et al. Genomics-informed prebreeding unlocks the diversity in genebanks for wheat improvement
Xu et al. Genome wide linkage disequilibrium in Chinese asparagus bean (Vigna. unguiculata ssp. sesquipedialis) germplasm: implications for domestication history and genome wide association studies
JP2007220132A5 (zh)
Calderon et al. Fine mapping of a QTL associated with kernel row number on chromosome 1 of maize
Gonzaga et al. Evaluation of SSR and SNP markers for molecular breeding in rice
Kastally et al. Taming the massive genome of Scots pine with PiSy50k, a new genotyping array for conifer research
Ma et al. Cumulative and different genetic effects contributed to yield heterosis using maternal and paternal backcross populations in Upland cotton
Howard et al. Integration of Infinium and Axiom SNP array data in the outcrossing species Malus× domestica and causes for seemingly incompatible calls
US20170022574A1 (en) Molecular markers associated with haploid induction in zea mays
Li et al. Development of a core set of KASP markers for assaying genetic diversity in Brassica rapa subsp. chinensis Makino

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant