CN112687340A - 一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法 - Google Patents
一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法 Download PDFInfo
- Publication number
- CN112687340A CN112687340A CN202110119786.9A CN202110119786A CN112687340A CN 112687340 A CN112687340 A CN 112687340A CN 202110119786 A CN202110119786 A CN 202110119786A CN 112687340 A CN112687340 A CN 112687340A
- Authority
- CN
- China
- Prior art keywords
- ear
- yield
- whole genome
- value
- grain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000009395 breeding Methods 0.000 title claims abstract description 40
- 239000000463 material Substances 0.000 title claims abstract description 38
- 230000001488 breeding effect Effects 0.000 title claims abstract description 36
- 240000008042 Zea mays Species 0.000 title claims abstract description 21
- 238000012098 association analyses Methods 0.000 title claims abstract description 20
- 235000002017 Zea mays subsp mays Nutrition 0.000 title claims abstract description 19
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 title claims abstract description 12
- 235000005822 corn Nutrition 0.000 title claims abstract description 12
- 235000013339 cereals Nutrition 0.000 claims abstract description 64
- 239000003550 marker Substances 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 14
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 claims abstract description 7
- 235000009973 maize Nutrition 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims description 14
- 108700028369 Alleles Proteins 0.000 claims description 12
- 210000005069 ears Anatomy 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 230000002068 genetic effect Effects 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 241000196324 Embryophyta Species 0.000 claims description 5
- 238000010219 correlation analysis Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000010152 pollination Effects 0.000 claims description 5
- 238000003205 genotyping method Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 239000002773 nucleotide Substances 0.000 claims description 3
- 125000003729 nucleotide group Chemical group 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000013401 experimental design Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000007614 genetic variation Effects 0.000 abstract description 5
- 238000012097 association analysis method Methods 0.000 abstract description 4
- 230000002349 favourable effect Effects 0.000 abstract description 4
- 108090000623 proteins and genes Proteins 0.000 abstract description 4
- 238000006116 polymerization reaction Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 5
- 239000003147 molecular marker Substances 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 2
- 235000007244 Zea mays Nutrition 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 239000010902 straw Substances 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种是基于全基因组关联分析和全基因组选择建立快速筛选玉米优良自交系的分子育种方法。本发明通过3种全基因组关联分析方法即FarmCPU、MLMM和CMLM计算与玉米单穗产量、穗粒数和百粒重关联SNP的显著性。通过比较不同模型预测的准确性,确定最佳的预测模型。利用最佳模型对不同标记密度选择方案比较确定最佳的SNP信息。根据最佳预测模型和SNP信息,筛选单穗产量、穗粒数和百粒重育种值较高的优良材料。本发明可以快速鉴定候选材料的遗传变异,快速选育出聚合有利基因的优良材料,缩短育种进程。
Description
技术领域
本发明属于植物分子育种领域,具体涉及一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法。
背景技术
玉米是重要的粮食、饲料和工业原料。单穗产量的提高是玉米育种的重要目标。单产是一个非常复杂的数量性状,主要受微效多基因控制。穗粒数和粒重是单穗产量的主要构成因子,也是重要的育种目标。
通过传统定位和全基因组关联分析,已经挖掘了大量控制单穗产量、穗粒数和百粒重的关键位点。然而这些位点尚停留在研究层面,并没有应用到育种中。由于单穗产量、穗粒数和百粒重主要受微效基因控制。利用分子标记辅助选择对这些性状进行遗传改良收效甚微。全基因组选择能够对所有遗传变异和遗传效应进行准确检测和估计,能够有效地利用微效位点。相比分子标记辅助选择,全基因组选择预测玉米散粉吐丝间隔、散粉期和吐丝期的准确性提高7%-43%。在产量和秸秆产量的遗传进度上,全基因组选择选育的玉米株系比分子标记轮回选择的高14%-50%。其选择株系的产量测交表现比传统系谱选择方法选择到的可以提高7.3%。因此,全基因组选择是利用单穗产量、穗粒数和百粒重等复杂数量性状的有效方法。
利用全基因组关联分析鉴定现有种质资源中的有利等位基因,挖掘关键位点,为玉米单穗产量遗传改良提供位点信息。在全基因组关联分析的基础上,选择与目标性状关联的位点,利用全基因组选择预测候选材料的遗传变异,能够快速选育出聚合有利基因的优良材料,创制高产新种质和新材料,从而缩短育种进程。
发明内容
本发明的目的在于提供一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法。
本发明的目的可以通过以下技术方案实现:
一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法,该方法包括以下步骤:
(1)材料和田间试验设计
在至少一个种植环境种植多份玉米种质自交系,种植过程中采用随机区组试验设计,每个小区选取授粉较好的穗子,测量玉米穗子的单穗产量、百粒重和穗粒数;
(2)表型数据统计分析
利用QTL IciMapping v4.0的AOV功能对各种植环境进行联合方差分析,并计算单穗产量、穗粒数和百粒重的广义遗传力和最佳线性无偏估计值即BLUE值;
(3)基因型鉴定和分析
采用GBS简化测序的方法对多份自交系进行基因型分型,利用BWA软件比对到参考基因组,采用SAMTOOLS软件进行群体SNP的检测,获得基因型数据的VCF;利用plink v1.9对基因型VCF筛选,筛选标准为缺失率小于0.10,杂合率小于0.10,最小等位基因频率(MAF)大于0.05;获得多个高质量SNP的用于关联分析;
(4)全基因组关联分析
利用各种植环境和BLUE环境的单穗产量、百粒重和穗粒数进行全基因组关联分析,根据Bonferroni矫正设置的显著性阈值(P<1.72E-05),利用FarmCPU、MLMM和CMLM方法分别检测到单穗产量、穗粒数和百粒重显著关联的SNP;
详细过程为:利用各种植环境和BLUE环境的单穗产量、百粒重和穗粒数进行全基因组关联分析,筛选与单穗产量、百粒重和穗粒数显著关联的SNP;采用的方法为CMLM、MLMM和FarmCPU;3种方法均采用Q(群体结构)+K(亲缘关系)模型;Q值利用Structure v2.3.4计算,设置群体内亚群数为1~8,length of burn-in period设置为5000,蒙特卡罗重复个数设置为50000,每个亚群数迭代次数为3;根据ΔK,确定亚群数为2时的Q值用于关联分析,K值利用TASSEL v5.0的Centered_IBS方法计算,根据Bonferroni矫正方法,设置显著临界值设置为P=1/58129=1.72E-05;CMLM方法的PVE(表型变异解释率)由软件给出;MLMM和FarmCPU方法的PVE由线性回归模型计算,公式为:Y=α+βX+ε,其中Y为观测值,α为截距,β为斜率,X为标记编码(2,0,1),ε为随机误差;回归模型计算的为MLMM和FarmCPU的PVE;其中,为观测值的估计值,为观测值的平均值;
(5)最佳模型的确定
由于基因型和表型数据均有缺失,在做全基因组预测时需要对其进行缺失填补;根据已知基因型的基因型频率,随机选择标记进行填补;对填补后的SNP基因型进行编码,高频等位基因纯合型编码为2,低频等位基因型纯合编码为0,杂合基因型编码为1;填补和编码均在R语言中实现;
表型缺失值利用R语言mice包的pmm(预测均值匹配)方法进行多重插补,多重填补法的填补矩阵数设为5,迭代次数为50次;
全基因组选择模型采用BayesA、BayesB、BayesC、Bayes LASSO、GBLUP和RKHS;
通过比较BayesA、BayesB、BayesC、Bayes LASSO、GBLUP和RKHS模型预测的准确性,确定最佳的预测模型;
(6)标记密度选择标准和优良材料的筛选标准
利用最佳模型比较三种标记选择方案不同SNP密度的预测准确性,确定最佳的SNP信息,根据最佳预测模型和SNP信息,筛选单穗产量、穗粒数和百粒重育种值较高的优良材料。
三种标记选择方案:第一种标记选择方案是随机选择500个SNP、1000个SNP、5000个SNP、10000个SNP、20000个SNP和40000个SNP。第二种标记选择方案是根据与性状关联性即P值选择同等数量的SNP;该方案中,利用FarmCPU模型BLUE值计算的P值从小到大排序,选择最显著的500个SNP、1000个SNP、5000个SNP、10000个SNP、20000个SNP和40000个SNP。第一种方案也利用BLUE值作为真实观测值。因此,第一种和第二种方案预测准确性为BLUE与育种值间的相关系数均值。第三种标记选择方案是在3种全基因组关联分析方法下,将Bonferroni矫正阈值选择的与目标性状最显著的SNP为标记集,对各种植环境分别进行预测,评价性状显著关联SNP应用的价值。第三种方案预测准确性为各种植环境与育种值间的相关系数均值。利用1.5确定的最佳模型对3种SNP选择方案进行比较,确定预测效果最好的SNP信息。根据最佳预测体系估计的育种值,筛选单穗产量、穗粒数和百粒重育种值较高的优良材料。
作为一种详细技术方案,步骤(5)中所述的RKHS采用的是多核模型即核平均其中,Kl是第l个带宽对应的再生核,带宽设置为1/5M、1/M和5/M,M为不同自交系间的欧氏距离的中值均方;采用5-倍交叉验证重复100次方案,育种值和实际观测值的相关系数100次的均值作为评价预测准确性的指标,不同模型和交叉验证均通过BGLR R包实现,Gibbs抽样设置为15000次迭代,预烧设置为5000次。
优选的,步骤(4)中根据Bonferroni矫正方法,设置的显著性阈值为1.72E-05,在该阈值下,利用FarmCPU、CMLM和MLMM方法检测与单穗产量、百粒重和穗粒数显著关联的SNP。
优选的,步骤(6)中根据最佳模型和性状关联SNP信息,利用BGLR的cbind(fm$yHat,y)函数分别调出单穗产量5000个最显著SNP估计的育种值以及穗粒数和百粒重1000个最显著SNP估计的育种值结果,分别选择育种值最高的前10个材料并进行综合评价从中选择高产材料。
优选的,步骤(1)中所述种植环境的数量为1~6个环境。
优选的,步骤(1)中所述随机区组试验设计的方法为:设3次重复,小区为2行区,行距60cm,株距25cm;每个小区,选取授粉较好的3个穗子。
本发明通过3种全基因组关联分析方法即FarmCPU、MLMM和CMLM计算与玉米单穗产量、穗粒数和百粒重关联SNP的显著性。通过比较不同模型预测的准确性,确定最佳的预测模型。利用最佳模型对不同标记密度选择方案比较确定最佳的SNP信息。根据最佳预测模型和SNP信息,筛选单穗产量、穗粒数和百粒重育种值较高的优良材料。
本发明的有益效果:
本发明设计一种是基于全基因组关联分析和全基因组选择建立快速筛选玉米优良自交系的分子育种方法。本发明方法可以快速鉴定候选材料的遗传变异,快速选育出聚合有利基因的优良材料,缩短育种进程。
附图说明
图1为BLUE环境下单穗产量、穗粒数和百粒重不同模型的预测准确性。
图2为单穗产量、穗粒数和百粒重随机选择和性状-SNP显著性选择的不同标记密度的预测准确性。
图3为Bonferroni矫正(P<1.72E-05)选择的性状显著SNP利用RKHS方法预测不同环境单穗产量、穗粒数和百粒重的准确性。
具体实施方式
实施例1
1材料与方法
1.1材料和田间试验设计
关联群体包括黄淮海骨干自交系、国内核心种质和美国GEM等种质309份。2017年种植在郸城、虞城、原阳和三亚。2019年仅种植在原阳。采用随机区组试验设计,3次重复。小区为2行区,行距60cm,株距25cm。每个小区,选取授粉较好的3个穗子,测量单穗产量、百粒重和穗粒数。
1.2表型数据统计分析
利用QTL IciMapping v4.0的AOV对2017郸城、2017虞城、2017原阳、2019原阳和2017三亚进行联合方差分析,并计算单穗产量、穗粒数和百粒重的广义遗传力和最佳线性无偏估计值即BLUE值。
1.3基因型鉴定和分析
采用GBS(genotyping by sequencing)简化测序的方法对309份自交系进行基因型分型,测序仪为Illumina HiSeq PE150双端测序。利用BWA软件比对到参考基因组(ftp://ftp.ensemblgenomes.org/pub/plants/release-36/fasta/zea_mays/dna/Zea_mays.AGPv4.dna.toplevel.fa.gz)。采用SAMTOOLS软件进行群体SNP的检测,获得基因型数据的VCF。利用plink v1.9对基因型VCF筛选,筛选标准为缺失率小于0.10,杂合率小于0.10,最小等位基因频率(MAF)大于0.05。共获得58129个高质量SNP的用于关联分析。
1.4全基因组关联分析
利用郸城2017、虞城2017、原阳2017、原阳2019、三亚2017和BLUE环境的单穗粒重、百粒重和穗粒数进行全基因组关联分析。采用的方法为CMLM(compressed mixed linearmodel)、MLMM(multiple loci mixed model)和FarmCPU(fixed and random modelcirculating probability unification)。3种方法均采用Q(群体结构)+K(亲缘关系)模型。Q值利用Structure v2.3.4计算。利用plink将58129个SNP的VCF利用--recodestructure转化成Structure软件需要的格式。导入Structure软件后,首先设置群体内亚群数为1~8,length of burn-in period设置为5000,蒙特卡罗重复个数设置为50000,每个亚群数迭代次数为3。根据ΔK,确定亚群数为2时的Q值用于关联分析。K值利用TASSEL v5.0的Centered_IBS方法计算。根据Bonferroni矫正方法,设置性状与标记显著临界值为P=1/58129=1.72E-05。
CMLM方法的表型变异解释率由软件给出;MLMM和FarmCPU方法的PVE由线性回归模型计算,公式为:Y=α+βX+ε,其中Y为观测值,α为截距,β为斜率,X为标记编码(高频纯合等位基因型编码为2,低频纯合等位基因型编码为0,杂合基因型编码为1),ε为随机误差;回归模型计算的为MLMM和FarmCPU的PVE;其中,为观测值的估计值,为观测值的平均值。
1.5最佳模型的确定
由于基因型和表型数据均有缺失,在做全基因组预测时需要对其进行缺失填补。根据已知基因型的基因型频率,随机选择标记进行填补。对填补后的SNP基因型进行编码,高频纯合等位基因型编码为2,低频纯合等位基因型编码为0,杂合基因型编码为1。填补和编码均在R语言中实现。
表型缺失值利用R语言mice包的pmm(预测均值匹配)方法进行多重插补,多重填补法的填补矩阵数设为5,迭代次数为50次。
全基因组选择模型采用BayesA、BayesB、BayesC、Bayes LASSO、GBLUP和RKHS(再生核希尔伯特空间,reproducing kernel Hilbert space)。通过比较BayesA、BayesB、BayesC、Bayes LASSO、GBLUP和RKHS模型预测的准确性,确定最佳的预测模型。
其中RKHS采用的是多核模型即核平均其中,Kl是第l个带宽对应的再生核,带宽设置为1/5M、1/M和5/M。M为不同自交系间的欧氏距离的中值均方。采用5-倍交叉验证重复100次方案。育种值和实际观测值的相关系数100次的均值作为评价预测准确性的指标。不同模型和交叉验证均通过BGLR R包实现。Gibbs抽样设置为15000次迭代,预烧(burn in)设置为5000次。
1.6标记密度选择标准和优良材料的筛选标准
设置三种选择标记的方案。第一是随机选择500个SNP、1000个SNP、5000个SNP、10000个SNP、20000个SNP和40000个SNP。第二是根据与性状关联性即P值选择同等数量的SNP。第二个方案中,利用FarmCPU模型BLUE值计算的P值从小到大排序,选择最显著的500个SNP、1000个SNP、5000个SNP、10000个SNP、20000个SNP和40000个SNP。第一种方案也利用BLUE值作为真实观测值。因此,第一种和第二种方案预测准确性为BLUE与育种值间的相关系数均值。第三种方案是在3种全基因组关联分析方法下,将Bonferroni矫正阈值选择的与目标性状最显著的SNP为标记集,对BLUE、2017郸城、2017虞城、2017三亚、2017原阳和2019原阳分别进行预测,评价性状显著关联SNP应用的价值。第三种方案预测准确性为不同环境与育种值间的相关系数均值。利用1.5确定的最佳模型对3种SNP选择方案进行比较,确定预测效果最好的SNP信息。根据最佳预测体系估计的育种值,筛选单穗产量、穗粒数和百粒重育种值较高的优良材料。
2结果与分析
2.1单穗产量、穗粒数和百粒重表型分析
多环境联合计算的单穗产量、穗粒数和百粒重的广义遗传力分别为0.60、0.61和0.70。多环境联合方差分析表明,309份材料间单穗产量、穗粒数和百粒重存在极显著遗传变异(表1)。不同环境间和基因型与环境互作也存在极显著差异。这说明3个性状受环境影响较大。
2.2全基因组关联分析结果
根据Bonferroni矫正设置的显著性阈值(P<1.72E-05),利用FarmCPU、MLMM和CMLM方法分别检测到单穗产量、穗粒数和百粒重31个SNP、15个SNP和11个SNP(表2-表4)。单穗产量中,7个显著SNP在3个模型中均检测到,4个SNP在两个模型中检测到。其中,S3_62750920不仅在3个模型中检测到,而且在MLMM模型下的2个环境中也检测到。百粒重中,S4_215320252在3个模型中均检测到,S1_47210783在CMLM和MLMM方法中检测到。穗粒数8个SNP至少在2个模型中检测到。其中,S1_173095105、S3_120074687、S3_120074653和S1_143011251在3个模型中均检测到。单穗粒重和百粒重共有4个相同的位点,即S1_196234092、S1_143011251、S3_53872814和S3_120074687(表1和表3)。
2.3最佳全基因组预测模型的确定
对2017原阳、2017郸城、2017虞城、2017三亚和2019原阳的单穗产量、穗粒数和百粒重分别计算BLUE值,利用BLUE值进行预测。采用58129个SNP利用BayesA、BayesB、BayesC、Bayes LASSO、GBLUP和RKHS对单穗产量、穗粒数和百粒重进行5-倍交叉验证。对3个性状来说,RKHS模型的预测准确性最高(图1)。相比其他5个模型,RKHS模型对单穗产量预测准确性可以提高1.5倍,对穗粒数可以提高~1倍(图2)。相比其他5个模型,RKHS模型对百粒重的预测准确性可以提高0.02~0.05。
2.4优化的SNP密度
对3个性状来说,根据与性状关联显著性选择的SNP的预测效果均高于随机选择的相同数量的SNP,其中单穗产量可以提高0.75-1.32倍,穗粒数可以提高0.70-1.02倍,百粒重可以提高0.92-1.78倍(图2)。而且,与性状关联显著性选择的SNP的预测效果远高于Bonferroni阈值选择的SNP(图2和图3)。
对3个性状来说,利用最显著的500、1000和5000个SNP预测的准确性均高于利用最显著的10000、20000和40000个SNP(图2)。其中,单穗产量利用最显著的5000个SNP预测时,准确性最高为0.62,相比利用所有SNP预测的效果可以提高1倍。穗粒数和百粒重利用最显著的1000个SNP预测的准确性最高,分别为0.57和0.59。因此,对单穗产量、穗粒数和百粒重来说,最显著的5000个SNP,1000个SNP和1000个SNP为最佳的SNP密度。
2.5根据最佳预测体系选择育种值较高的优良材料
根据上述确定的最佳模型和最佳的SNP信息,利用BGLR的cbind(fm$yHat,y)函数(fm为RKHS模型,yHat为育种值,y为真实观测值即BLUE值)分别调出单穗产量5000个最显著SNP估计的育种值以及穗粒数和百粒重1000个最显著SNP估计的育种值结果,分别选择育种值最高的前10个材料。其中,L12和L80均在2个性状的最佳预测体系的前10名出现(表5-表7)。在单穗产量和百粒重的最佳预测体系中,L12的预测值分别73.71g和32.83g。在单穗产量和穗粒数的最佳预测体系中,L80的预测值分别为70.45g和293.25。因此,这两个材料可以作为候选高产材料,开展进一步育种研究工作。
表1单穗产量、穗粒数和百粒重多环境联合方差分析和遗传力
表2根据Bonferroni矫正设置的阈值(P<1.72E-05)检测到的单穗产量显著SNP
表3根据Bonferroni矫正设置的阈值(P<1.72E-05)检测到的穗粒数显著SNP
表4根据Bonferroni矫正设置的阈值(P<1.72E-05)检测到的百粒重显著SNP
表5根据最佳预测体系(RKHS模型、最显著的5000个SNP)预测的单穗产量最高的10个材料
表6根据最佳预测体系(RKHS模型、最显著的1000个SNP)预测的穗粒数最高的10个材料
表7根据最佳预测体系(RKHS模型、最显著的1000个SNP)预测的百粒重最高的10个材料
Claims (7)
1.一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法,其特征在于,该方法包括以下步骤:
(1)材料和田间试验设计
在至少一个种植环境中种植多份玉米种质自交系,种植过程中采用随机区组试验设计,每个小区选取授粉较好的穗子,测量玉米穗子的单穗产量、百粒重和穗粒数;
(2)表型数据统计分析
单穗产量利用QTL IciMapping v4.0的AOV功能对各种植环境进行联合方差分析,并计算单穗产量、穗粒数和百粒重的广义遗传力和最佳线性无偏估计值即BLUE值;
(3)基因型鉴定和分析
采用GBS简化测序的方法对多份自交系进行基因型分型,利用BWA软件比对到参考基因组,采用SAMTOOLS软件进行群体SNP的检测,获得基因型数据的VCF;利用plinkv1.9对基因型VCF筛选,筛选标准为缺失率小于0.10,杂合率小于0.10,最小等位基因频率(MAF)大于0.05;获得多个高质量SNP的用于关联分析;
(4)全基因组关联分析
利用各种植环境和BLUE环境的单穗产量、百粒重和穗粒数进行全基因组关联分析,根据Bonferroni矫正设置的显著性阈值(P<1.72E-05),利用FarmCPU、MLMM和CMLM方法分别检测到单穗产量、穗粒数和百粒重显著关联的SNP;
(5)最佳模型的确定
由于基因型和表型数据均有缺失,在做全基因组预测时需要对其进行缺失填补;根据已知基因型的基因型频率,随机选择标记进行填补;对填补后的SNP基因型进行编码,高频等位基因纯合型编码为2,低频等位基因型纯合编码为0,杂合基因型编码为1;填补和编码均在R语言中实现;
表型缺失值利用R语言mice包的pmm(预测均值匹配)方法进行多重插补,多重填补法的填补矩阵数设为5,迭代次数为50次;
全基因组选择模型采用BayesA、BayesB、BayesC、Bayes LASSO、GBLUP和RKHS;
通过比较BayesA、BayesB、BayesC、Bayes LASSO、GBLUP和RKHS模型预测的准确性,确定最佳的预测模型;
(6)标记密度选择标准和优良材料的筛选标准
利用最佳模型比较三种标记选择方案不同SNP密度的预测准确性,确定最佳的SNP信息,根据最佳预测模型和SNP信息,筛选单穗产量、穗粒数和百粒重育种值较高的优良材料。
3.根据权利要求1所述的方法,其特征在于,步骤(4)中根据Bonferroni矫正方法,设置的显著性阈值为1.72E-05,在该阈值下,利用FarmCPU、CMLM和MLMM方法检测与单穗产量、百粒重和穗粒数显著关联的SNP。
4.根据权利要求1所述的方法,其特征在于,步骤(6)中根据最佳模型和性状关联SNP信息,利用BGLR的cbind(fm$yHat,y)函数分别调出单穗产量5000个最显著SNP估计的育种值以及穗粒数和百粒重1000个最显著SNP估计的育种值结果,分别选择育种值最高的前10个材料并进行综合评价从中选择高产材料。
5.根据权利要求1所述的方法,其特征在于,步骤(4)中CMLM、MLMM和FarmCPU 3种方法均采用Q(群体结构)+K(亲缘关系)模型;Q值利用Structure v2.3.4计算,设置群体内亚群数为1~8,length of burn-in period设置为5000,蒙特卡罗重复个数设置为50000,每个亚群数迭代次数为3;根据ΔK,确定亚群数为2时的Q值用于关联分析,K值利用TASSEL v5.0的Centered_IBS方法计算,根据Bonferroni矫正方法,设置显著临界值设置为P=1/58129=1.72E-05;CMLM方法的表型变异解释率由软件给出;MLMM和FarmCPU方法的PVE由线性回归模型计算,公式为:Y=α+βX+ε,其中Y为观测值,α为截距,β为斜率,X为标记编码(2,0,1),ε为随机误差;回归模型计算的为MLMM和FarmCPU的PVE;其中,为观测值的估计值,为观测值的平均值。
6.根据权利要求1所述的方法,其特征在于,步骤(1)中所述种植环境的数量为1~6个。
7.根据权利要求1所述的方法,其特征在于,步骤(1)中所述随机区组试验设计的方法为:设3次重复,小区为2行区,行距60cm,株距25cm;每个小区,选取授粉较好的3个穗子。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011492547 | 2020-12-17 | ||
CN202011492547X | 2020-12-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112687340A true CN112687340A (zh) | 2021-04-20 |
Family
ID=75459463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110119786.9A Pending CN112687340A (zh) | 2020-12-17 | 2021-01-28 | 一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112687340A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421612A (zh) * | 2021-07-14 | 2021-09-21 | 江苏沿江地区农业科学研究所 | 玉米收获期籽粒含水量预测模型、其构建方法和相关snp分子标记组合 |
CN115443907A (zh) * | 2022-07-26 | 2022-12-09 | 开封市农林科学研究院 | 基于全基因组选择的高产大果花生杂交组配选择的方法 |
CN116469466A (zh) * | 2023-04-11 | 2023-07-21 | 南京农业大学 | 一种高效预测菊花耐涝性的方法及其应用 |
CN116564407A (zh) * | 2023-04-10 | 2023-08-08 | 南京农业大学 | 一种基于全基因组选择高效预测菊花花期的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145624A1 (en) * | 2008-12-04 | 2010-06-10 | Syngenta Participations Ag | Statistical validation of candidate genes |
CN108901823A (zh) * | 2018-06-22 | 2018-11-30 | 安徽袁粮水稻产业有限公司 | 一种高效选育耐低钾高产水稻育种材料的方法 |
CN109536629A (zh) * | 2018-10-29 | 2019-03-29 | 中国农业科学院作物科学研究所 | 一种快速玉米育种群体改良的方法 |
CN110867209A (zh) * | 2019-11-28 | 2020-03-06 | 中国农业大学 | 预测籼稻亚种穗粒数强优势杂交组合的snp标记及其高通量检测方法 |
-
2021
- 2021-01-28 CN CN202110119786.9A patent/CN112687340A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145624A1 (en) * | 2008-12-04 | 2010-06-10 | Syngenta Participations Ag | Statistical validation of candidate genes |
CN108901823A (zh) * | 2018-06-22 | 2018-11-30 | 安徽袁粮水稻产业有限公司 | 一种高效选育耐低钾高产水稻育种材料的方法 |
CN109536629A (zh) * | 2018-10-29 | 2019-03-29 | 中国农业科学院作物科学研究所 | 一种快速玉米育种群体改良的方法 |
CN110867209A (zh) * | 2019-11-28 | 2020-03-06 | 中国农业大学 | 预测籼稻亚种穗粒数强优势杂交组合的snp标记及其高通量检测方法 |
Non-Patent Citations (4)
Title |
---|
姚骥: "全基因组选择和育种模拟在纯系育种作物亲本选配和组合预测中的利用研究", 《中国优秀博硕士学位论文全文数据库(博士) 农业科技辑》 * |
袁隆平: "《耐盐碱水稻育种技术》", 30 September 2019 * |
马依彤等: "《冠心病遗传学进展与技术》", 31 October 2010 * |
马娟等: "玉米出籽率全基因组关联分析", 《植物遗传资源学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421612A (zh) * | 2021-07-14 | 2021-09-21 | 江苏沿江地区农业科学研究所 | 玉米收获期籽粒含水量预测模型、其构建方法和相关snp分子标记组合 |
CN115443907A (zh) * | 2022-07-26 | 2022-12-09 | 开封市农林科学研究院 | 基于全基因组选择的高产大果花生杂交组配选择的方法 |
CN116564407A (zh) * | 2023-04-10 | 2023-08-08 | 南京农业大学 | 一种基于全基因组选择高效预测菊花花期的方法 |
CN116564407B (zh) * | 2023-04-10 | 2024-03-15 | 南京农业大学 | 一种基于全基因组选择高效预测菊花花期的方法 |
CN116469466A (zh) * | 2023-04-11 | 2023-07-21 | 南京农业大学 | 一种高效预测菊花耐涝性的方法及其应用 |
CN116469466B (zh) * | 2023-04-11 | 2024-02-09 | 南京农业大学 | 一种高效预测菊花耐涝性的方法及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112687340A (zh) | 一种基于全基因组关联分析和全基因组选择选育玉米高产材料的方法 | |
Seixas et al. | The genomic impact of historical hybridization with massive mitochondrial DNA introgression | |
Lovell et al. | Mutation accumulation in an asexual relative of Arabidopsis | |
Yang et al. | Extreme‐phenotype genome‐wide association study (XP‐GWAS): a method for identifying trait‐associated variants by sequencing pools of individuals selected from a diversity panel | |
Zöllner et al. | Coalescent-based association mapping and fine mapping of complex trait loci | |
Govindaraj et al. | Importance of genetic diversity assessment in crop plants and its recent advances: an overview of its analytical perspectives | |
Matthies et al. | Population structure revealed by different marker types (SSR or DArT) has an impact on the results of genome-wide association mapping in European barley cultivars | |
CN112582023B (zh) | 一种基于全基因组关联分析和多环境预测模型的玉米分子育种方法 | |
Yang et al. | Genome‐wide association study of multiple yield traits in a diversity panel of polyploid sugarcane (Saccharum spp.) | |
Ladejobi et al. | Maximizing the potential of multi-parental crop populations | |
Brazauskas et al. | Genetic variation, population structure, and linkage disequilibrium in European elite germplasm of perennial ryegrass | |
Ogawa et al. | Haplotype-based allele mining in the Japan-MAGIC rice population | |
Schwarzkopf et al. | Genetic differentiation and intrinsic genomic features explain variation in recombination hotspots among cocoa tree populations | |
Yin et al. | Strategy for the simulation and analysis of longitudinal phenotypic and genomic data in the context of a temperature× humidity-dependent covariate | |
Krutovsky et al. | Estimation of population structure in coastal Douglas-fir [Pseudotsuga menziesii (Mirb.) Franco var. menziesii] using allozyme and microsatellite markers | |
Zhou et al. | Development of a 50K SNP array for Japanese flounder and its application in genomic selection for disease resistance | |
Li et al. | Genome-wide artificial introgressions of Gossypium barbadense into G. hirsutum reveal superior loci for simultaneous improvement of cotton fiber quality and yield traits | |
Yadav et al. | A linkage disequilibrium-based approach to position unmapped SNPs in crop species | |
Yu et al. | Comparison of sequencing-based and array-based genotyping platforms for genomic prediction of maize hybrid performance | |
Gu et al. | Structure and function of rice hybrid genomes reveal genetic basis and optimal performance of heterosis | |
Ye et al. | Pre-selecting markers based on fixation index scores improved the power of genomic evaluations in a combined Yorkshire pig population | |
Brock et al. | A nested association mapping panel in Arabidopsis thaliana for mapping and characterizing genetic architecture | |
Wang et al. | Improving genomic predictions by correction of genotypes from genotyping by sequencing in livestock populations | |
CN117558341A (zh) | 美洲黑杨全基因组育种芯片及其构建方法和应用 | |
Boison et al. | Imputation of non-genotyped individuals using genotyped progeny in Nellore, a Bos indicus cattle breed |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210420 |
|
RJ01 | Rejection of invention patent application after publication |