CN115050419A - 一种基于全基因组选择玉米苞叶松紧度的育种方法 - Google Patents

一种基于全基因组选择玉米苞叶松紧度的育种方法 Download PDF

Info

Publication number
CN115050419A
CN115050419A CN202210572175.4A CN202210572175A CN115050419A CN 115050419 A CN115050419 A CN 115050419A CN 202210572175 A CN202210572175 A CN 202210572175A CN 115050419 A CN115050419 A CN 115050419A
Authority
CN
China
Prior art keywords
data
model
tightness
breeding
bract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210572175.4A
Other languages
English (en)
Inventor
崔震海
敖曼
关义新
刘云灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Institute of Geography and Agroecology of CAS
Original Assignee
Northeast Institute of Geography and Agroecology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Institute of Geography and Agroecology of CAS filed Critical Northeast Institute of Geography and Agroecology of CAS
Priority to CN202210572175.4A priority Critical patent/CN115050419A/zh
Publication of CN115050419A publication Critical patent/CN115050419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Animal Husbandry (AREA)
  • Human Resources & Organizations (AREA)
  • Ecology (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Physiology (AREA)
  • Economics (AREA)
  • Agronomy & Crop Science (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于全基因组选择玉米苞叶松紧度的育种方法,属于植物育种的技术领域。为了提供一种利用全基因组选择获得玉米苞叶松紧度的方法,本发明选取关联群体中玉米自交系全基因组数据作为原始数据,经过质量控制的预处理后,进行基因型缺失的补充,然后筛选出不同密度标记的基因数据,再经过主成成分分析、亲缘关系分析获得协方差数据,将不同环境玉米苞叶松紧度数据带入到混合模型中获得BLUP值,将上述分析获得的基因型数据、协方差数据和BLUP值代入不同的统计模型进行GS分析,选择最优的预测模型,进一步根据待测材料的基因型预测优选苞叶松紧度。本发明的方法为玉米其他农艺性状的GS育种和分子育种提供依据。

Description

一种基于全基因组选择玉米苞叶松紧度的育种方法
技术领域
本发明属于植物育种的技术领域,具体涉及一种基于全基因组选择玉米苞叶松紧度的育种方法。
背景技术
玉米苞叶作为包裹其果穗的***叶,能保护籽粒在发育过程中免于病虫害及脱水。随着玉米种植面积的不断扩大,普通的人力收获已难以跟上步伐,因此机械化收获将成为必然趋势。包括苞叶长度,苞叶层数及松紧度等在内的众多穗部性状,直接或间接影响着玉米的机械化收获。苞叶松紧度是基于包括苞叶长度、苞叶宽度、苞叶厚度等多种苞叶测量值所得到的综合性状。在Jiang等(2020)的研究中,发现苞叶松紧度与其厚度和宽度都呈显著负相关,表明越厚和越宽的苞叶将包裹的更加紧实。高树仁等(1999)通过调研分析国内外文献,认为苞叶松紧度作为负相关性状影响着玉米籽粒的含水量。适宜的苞叶松紧度,有助于玉米的生长发育及机械收获。
随着测序技术的不断发展以及分子育种领域分子标记的开发,标记辅助选择(MAS)逐渐成为近年来作物改良方面的主力军(Stuber et al.1999)。但玉米的很多农艺性状都是数量性状,一些限制因素如标记质量、小效应QTL检测准确性和环境变异等原因严重限制了MAS在复杂的数量性状育种中的有效利用(Hasan et al.2021,Platten etal.2019,Hospital et al.2009)。GS育种是通过对群体基因型和表型的分析,构筑一个训练模型,再将育种群体的基因型数据代入到该模型中,即可得到GEBVs,根据GEBVs对待测群体进行选择(Cui et al.2020)。
覆盖全基因组的标记的分析使得GS有能力解释总遗传变异,而优于MAS。GS的这种特点将表型的作用从筛选品系而引入到了构建模型的层面上。而如何提高对GS所构建的模型的准确度,是当下GS研究的关键。目前在利用多平台测序基因型进行GS时,尚未有很好的筛选方法,这导致直接整合基因型的预测精度过低。此外,目前尚未有研究针对玉米苞叶松紧度进行过GS分析。因此,需要提供一种全基因组选择(GS)苞叶松紧度的分析育种方法。
发明内容
本发明的目的是为了提供一种利用全基因组选择获得玉米苞叶松紧度的方法,再根据玉米苞叶松紧度进行育种的方法。
本发明提供一种基于全基因组选择玉米苞叶松紧度的育种方法,所述育种方法的步骤如下:
步骤1:选取4个基因测序平台的玉米全基因组数据作为原始数据,将原始数据进行质量控制的预处理筛选;
步骤2:将步骤1进行预处理筛选的数据进行基因型缺失的补充,通过计算基因组不同标记连锁不平衡程度的r2筛选出不同密度标记的基因数据;
步骤3:将不同密度标记的基因数据进行主成成分分析获得主成成分分析基因数据;将不同密度标记的基因数据进行亲缘关系分析获得亲缘关系分析基因数据;
步骤4:预先统计玉米苞叶松紧度数据,并将其带入到混合模型中,获得的BLUP值;
步骤5:将步骤3获得的主成成分分析基因数据和亲缘关系分析基因数据,与步骤4获得的BLUP值进行GS分析获得最优的统计模型;
步骤6:测定待测玉米自交系的基因型,带入到步骤5获得的最优模型,获得基因组估计育种值,根据育种者的需求优选部分GEBV值排名靠前作为优选的育种材料。
进一步地限定,步骤1中所述四个测序平台数据为:来自玉米自交系的两个基因芯片的SNP数据、来自玉米自交系的转录组测序基因型数据、来自玉米自交系的简化基因组测序平台的基因分型数据;所述两个基因芯片的SNP数据为50K和600K。
进一步地限定,步骤1中所述预处理的方法是:缺失率小于20%,MAF大于0.05为标准进行筛选。
进一步地限定,步骤2中所述基因型缺失利用的是Beagle4.0软件;步骤2中所述r2参数分别为0.8、0.5、0.2、0.1和0.01。
进一步地限定,步骤3中利用利用R语言中的函数prcomp进行主成分分析;利用GAPIT软件包进行亲缘关系分析。
进一步地限定,步骤4中所述混合线性模型为:,模型中代表第“i”个家系的表型值,代表多个环境中表型的均值,为品种效应,是环境效应,是残差。
进一步地限定,步骤5中GS分析的具体步骤如下:
(1)基因组预测:采用BayseA模型、BayesB模型、BayesC模型、BL模型、BRR模型和gBLUP模型,利用R包“rrBLUP v4.5”和“BGLR”进行基因组预测;
(2)预测精度:将已知基因型的玉米苞叶松紧度数据随机抽取80%的自交系作为训练集,剩余20%作为测试集,将测试集的基因型数据导入预测模型后,计算得到测试集的基因组估计育种值,重复数百次,测试集的表型数据为实际育种值与基因组估计育种值进行相关性分析,获得准确度最高的为最优的统计模型。
进一步地限定,所述预测模型为:BayseA模型、BayesB模型、BayesC模型、BL模型、BRR模型和gBLUP模型。
本发明提供一种选择玉米苞叶松紧度的育种方法的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于全基因组选择玉米苞叶松紧度的育种方法。
本发明提供一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述的基于全基因组选择玉米苞叶松紧度的育种方法。
有益效果:本专利中使用玉米关联群体为材料,以玉米苞叶松紧度性状为表型指标,针对不同统计模型、不同标记密度、不同测序平台、不同抽样策略和不同群体结构下的玉米苞叶松紧度性状进行GS分析,综合测序价格、计算时间、预测准确度等多项因素以得到最优的预测方式,同时为玉米其他农艺性状的GS育种提供依据。
本发明通过对不同基因测序平台以及不同标记密度的苞叶松紧度进行GS分析,在不影响GS预测准确度的情况下,选择出玉米苞叶松紧度的最佳平台及标记密度,大大节省了测序成本;此外,本发明选择不同群体结构进行苞叶松紧度的GS分析,选出苞叶松紧度这一性状中GS预测精确度最高的亚群,若将其应用到苞叶松紧度的育种中,能大大提高育种效率。根据本专利中玉米苞叶松紧度的GS结果,可以将该选择方法向外扩展到更多的玉米群体及性状上。
对比测序平台、分子标记密度、统计模型、抽样策略和群体结构的预测精度,试图探寻苞叶松紧度在内的玉米重要农艺性状GS育种最优策略,使预测准确度和研究成本达到最适,为进一步分子育种提供理论基础。
附图说明
图1为苞叶松紧度GS的最优统计模型筛选的流程图;
图2为苞叶松紧度GS的最优标记密度和测序平台筛选的流程图;
图3为苞叶松紧度GS的最优抽样策略和群体结构筛选的流程图;
图4为不同基因型分型平台中关联群体苞叶松紧度在不同统计模型下的GS预测精度;
图5为不同基因型分型平台中关联群体苞叶松紧度在不同标记密度下的GS预测精度;
图6为苞叶松紧度的遗传力估计。横坐标为测序平台,纵坐标为遗传力;
图7为不同抽样策略下苞叶松紧度的GS预测准确度;
图8为不同群体结构下苞叶松紧度的GS预测准确度;
具体实施方式
1.全基因组选择(GS):基于基因组育种值(Genomic Estimated Breeding Value,GEBV)进行的,通过检测覆盖全基因组的分子标记,利用基因组水平的遗传信息对个体进行遗传评估,以获得更高的育种值估计准确性。
2.BLUP值:最佳线性无偏预测是一种统计方法,育种中适合应用这一方法预测个体育种值,即遗传评定。可以提高预测准确性。
3.相关性分析:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
4.遗传力:又称遗传率,指遗传方差在总方差(表型方差)中所占的比值,可以作为杂种后代进行选择的一个指标。遗传力分为广义遗传力和狭义遗传力。数量性状受到环境因素的影响很大,那么表型的变异可能有遗传的因素,也有环境的因素,甚至还有环境和遗传相互作用的因素。
实施例1.一种基于预测玉米苞叶松紧度的育种方法
一种基于预测玉米苞叶松紧度的育种方法,其特征在于,所述育种方法的步骤如下:
(1)研究所需的来自4个基因测序平台和1个整合的基因型文件均来自于http://maizego.org/Resources.html网站。50K基因型是Yang(2011)等利用关联群体(513个玉米自交系)的叶片进行DNA提取,然后利用MaizeSNP50 BeadChip的基因芯片获得基因分型,包含56110个SNP;转录组基因型是Fu(2013)等利用上述关联群体中的368个自交系授粉后15天的籽粒进行了RNA提取,并进行Illumina平台的测序;GBS和600K基因型是Liu(2017)等利用469和153个自交系的叶片进行了DNA提取,并利用GBS(reduced genome sequencing)和Affymetrix Axiom Maize 600K array测序平台基因分型。http://maizego.org/Resources.html网站下载的原始数据经过如下步骤,获得5种基因型文件。
①使用Tassel 5软件打开原始数据,以缺失率小于20%,MAF(最小等位基因频率)大于0.05为标准进行筛选;
②使用Beagle4.0软件进行基因型缺失的补充;
③使用plink软件计算基因组不同标记连锁不平衡(LD)程度的r2,设置r2参数分别为0.8、0.5、0.2、0.1和0.01,可得到在不同密度下所保留下来的标记名称,该数值越大则标记密度越高。根据保留下来的标记名称进行提取,即可得到不同标记密度下的基因型文件,在R语言软件中将基因型文件由碱基类型ATGC等转换为数值型1、0和2;
④利用R语言中的函数prcomp进行主成分分析获得PCA文件。
⑤利用GAPIT软件包进行亲缘关系分析获得Kinship(K)文件。
(2)本文测定了2015和2016年海南省三亚市和2016年辽宁省抚顺市的苞叶松紧度数据,利用混合线性模型进行计算得到BLUP(最佳线性无偏预测值)。混合线性模型为:yi=μ+fi+eii,模型中yi代表第“i”个家系的表型值,μ代表多个环境中表型的均值,fi为品种效应,ei是环境效应,εi是残差。对于每一个环境中,将均值作为固定效应,而品种和环境效应作为随机效应处理,最后将固定效应与品种效应的估计值求和,即BLUP值。本文所测定苞叶松紧度的自交系数为438个,但不同的基因型文件所含有的关联群体自交系数量不同。因此,本文以表型文件中的438个自交系为基础,分别比较不同测序平台与表型文件所共有的自交系名称,最终生成含有对应自交系的5个不同表型文件(整合4个测序平台的基因型整合文件、50K、600K、GBS和RNA-seq分别有438、438、133、380和315个自交系);
(3)利用步骤(1)的基因型文件和步骤(2)所述的表型文件进行GS分析。
①基因组预测模型:把环境(环境因素是不同环境对预测的影响)和前三个主成分(PCA)作为固定效应,所有加性遗传效应(基因型)和残差都随机效应,获得混合线性统计模型:y=μ+Xβ+Zu+ε,其中y是苞叶松紧度观测值的向量(n×1),n是家系数;μ是表型总平均值;X是固定效应的设计矩阵(n×p),β是固定效应的向量(p×1),其中,当p等于3时,(1)中④获得的PCA前三个主成分被视为固定效应;Z是随机效应的设计矩阵(n×q);u是个体总加性遗传效应(基因型)随机效应的向量(q×1);ε(n×1)是残差。随机效应服从正态分布:u~N(0,
Figure BDA0003659224980000051
),ε~N(0,
Figure BDA0003659224980000052
),其中I是同源矩阵,K是来源于(1)中⑤的亲缘关系矩阵,
Figure BDA0003659224980000053
是个体加性遗传效应的方差,
Figure BDA0003659224980000054
是残差的方差。u是最终需要计算获得的基因组估计育种值(GEBV)。
gBLUP通过R包“rrBLUP V4.5”利用上述混合线性模型进行基因组预测,BayseA、BayesB、BayesC、BL、BRR通过R包“BGLR”进行基因组预测。
②预测精度计算:在所有自交系中随机抽取80%的自交系作为训练集,剩余20%作为测试集,重复100次。测试集的表型数据为实际育种值(TBV),训练集的基因型和表型数据被用来“训练”预测模型。将测试集的基因型数据导入(3)①的预测模型后,可以计算得到测试集的基因组估计育种值(GEBV)。将TBV和GEBV进行Pearson相关性分析,即可得到基因组选择的预测准确度。
对得到的五种基因型文件都分别利用BayseA、BayesB、BayesC、BL、BRR和gBLUP模型进行GS分析,通过spss软件对预测结果进行显著性检验,比较各个模型间的预测准确度,结果表明gBLUP模型是最优模型。
上述模型具体如下:
Bayes模型为
Figure BDA0003659224980000061
其中y为n表型观察值向量;b为固定效应向量,X为固定效应的关联矩阵;q为SNP个数,zk为第k个SNP的基因型向量,gk为第k个SNP的效应值;e为剩余随机残差向量。
BayseA:假设所有SNP都有效应,且所有SNP效应的方差服从尺度逆卡方分布的正态分布。
BayesB:只有一小部分标记位点有效应,其他大部分染色体片段无效应。有效应位点的比例需要提前设定。
BayesC:与BayesB相同,但有效应位点的比例是未知的,不用预设。
BL:方差服从指数分布的正态分布。
BRR:服从高斯分布,超参数均值α与标准差λ服从gamma分布。
gBLUP:y=Xb+Zg+e,y是表型向量,X是与固定效应相关的设计矩阵,b是固定效应的向量,Z是一个遗传效应的设计矩阵,g是加性遗传效应的向量,e是方差的随机正态离差的向量。通过构建基因组关系矩阵替换基于系谱信息构建的亲缘关系矩阵。
(4)实际育种中,首先测定待测玉米自交系的基因型,利用上面训练群体获得的gBLUP统计模型,即计算获得GEBV,根据育种者的需求优选部分GEBV值排名靠前或淘汰部分排名靠后的育种材料,无需费时费力测定表型数据,就能决定育种材料的去留。
本发明技术的方案主要分为以下几个步骤:
1.最优统计模型的筛选
如图1所示,将50K、600K、GBS和RNA-seq的4个测序平台和整合基因型的数据处理成所需格式的5个基因型文件,并将苞叶松紧度BLUP值作为表型文件。在整个关联群体中随机抽取80%作为训练群体,剩余20%作为测试群体。选择R语言软件中BGLR包中的BayesA、BayesB、BayesC、BL、BRR模型和rrBLUP包中的gBLUP模型进行GS分析。苞叶松紧度的GS预测结果运用spss软件进行相关性分析,获得预测精度,以筛选最优统计模型。
2.最优标记密度和测序平台的筛选
如图2所示,使用plink软件调整r2参数获取不同标记密度和测序平台的基因型文件。5个测序平台分别有6种标记密度,总计30种基因型数据。在整个关联群体中随机抽取80%作为训练群体,剩余20%作为测试群体,选择1中最优统计模型进行GS分析。苞叶松紧度的GS预测结果运用spss软件进行相关性分析,获得预测精度,以筛选最优标记密度和最优测序平台。
3.最优抽样策略和群体结构的筛选:
如图3所示,抽样策略设置为:随机抽取关联群体10-90%作为预测群体,其余为训练群体。群体结构设置亚群内(Within)和亚群间(Across)两种处理,亚群内是从4个亚群(MIXED、NSS、SS、TST)内部按照比例抽样作为训练群体,同一亚群其他家系作为预测群体;亚群间GS预测是从4个亚群中的1个亚群按照比例抽样作为训练群体,除此之外所有家系(包括4个亚群)作为预测群体。根据1和2我们已经选定了苞叶松紧度GS的最优统计模型、标记密度和测序平台,对比不同抽样策略和群体结构的预测精度,最终筛选出最优抽样策略和群体结构。
实施例2.一种选择玉米苞叶松紧度的育种方法的计算机设备
一种选择玉米苞叶松紧度的育种方法的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现实施例1所述的基于全基因组选择玉米苞叶松紧度的育种方法。
实施例3.一种非临时性计算机可读存储介质
一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实现实施例1所述的基于全基因组选择玉米苞叶松紧度的育种方法。存储介质可以是只读存储器,磁盘或光盘等。
利用以下试验验证试验效果:
1.不同基因分型平台下GS模型对预测准确度的影响
为了筛选最适合于苞叶松紧度GS的最优统计模型,选择R语言中BGLR包的BayesA、BayesB、BayesC、BL、BRR模型和rrBLUP包的gBLUP模型来进行比对。并且运用多基因组测序平台(整合、50K、600K、GBS、RNA-seq)进行综合考量,比较基因分型平台和统计模型对玉米苞叶松紧度GS预测的影响。选取其中一个抽样比例进行说明,整个关联群体中随机抽取80%作为训练群体,剩余20%作为测试群体。如图4所示,显著性检验发现5种基因分型平台,gBLUP模型GS预测精度都显著高于其他模型。选定gBLUP模型后,5个测序平台之中预测精度最高的是50K基因芯片,预测精度达到36.74%;其次是GBS测序平台,预测精度为36.18%;之后依次是RNA-seq、整合和600K基因芯片。结果表明苞叶松紧度GS预测最优统计模型为gBLUP,50K和GBS测序平台在该模型下预测准确度略高于其他平台。
图4中图例代表不同的GS统计模型,横坐标为不同基因分型平台,纵坐标代表GS预测准确度。抽样策略是在所有关联群体中随机抽样,抽样次数为100次。选择Duncan统计方法进行差异显著性检验,结果如图上字母a~h所示。
2.不同基因分型平台下标记密度对GS预测准确度的影响
不同基因分型平台(整合、50K、600K、GBS、RNA-seq)的原标记数量依次分别为:196758、47368、436972、887、93081个SNP。为了筛选苞叶松紧度GS的最优标记密度,通过改变plink软件中的连锁不平衡(LD)r2参数,设置了不同的标记密度基因型。r2分别为0.01、0.1、0.2、0.5、0.8,即标记密度依次为:整合基因型分别有167、8417、20905、52826、90292个SNP,50K基因型分别有113、8485、18292、29537、35964个SNP,600K基因型分别有428、4524、33568、111713、172319个SNP,GBS基因型分别有64、676、743、801、817;RNA-seq基因型分别有80、4395、14465、33978、49888个SNP。选取其中一个抽样比例进行说明,整个关联群体中随机抽取80%作为训练群体,剩余20%作为测试群体。如图5所示,经过显著性检验,发现不同基因分型平台的最适标记密度不同。50K和GBS测序平台都在r2为1.0时预测精度最高,也就是不删除任何原有标记;600K、RNA-seq和整合测序平台分别在r2为0.5、0.2和0.8时预测精度最高。但是,除0.01以外,所有测序平台下所有标记密度的预测精度都没有显著差异。因此,综合考虑测序价格和预测精确度,选取0.1的标记密度成本较低,且不会对GS结果造成显著影响。另外,GBS测序平台价格便宜,在r2为0.1时的预测精度达到34.92%。综上,GBS平台下采用r2为0.1的标记密度(标记数量仅676个)是苞叶松紧度GS育种的最优选择。
图5中图例代表不同的标记密度,横坐标为不同基因分型平台,纵坐标代表GS预测准确度。抽样策略是在所有关联群体中随机抽样,抽样次数为100次。选择Duncan统计方法进行差异显著性检验,结果如图上字母a~g所示。
3.在不同基因分型平台下苞叶松紧度的遗传力
如前所述,r2为0.1的标记密度作为最优标记密度,此密度下整合、50K、600K、GBS和RNA-seq平台分别有8417、8485、4524、676和4395个SNP标记。如图6所示,在不同的测序平台中,对不同环境苞叶松紧度表型值及其BLUP值的狭义遗传力进行评估。苞叶松紧度的遗传力范围从0.02到0.71。600K基因芯片测序平台遗传力最高,达到了0.71。GBS测序平台遗传力与50K、整合、RNA-seq无明显差异,与600K的差异较大。理论上越高的遗传力应带来越高的GS预测精度,但600K测序平台下的预测精度却并不高,可能是600K的表型数据存在大量缺失值所致。综上,600K测序平台的遗传力最高。
图6中所有苞叶松紧度表型数据及其BLUP值均来源于15SY、16SY和16FS的田间调查。
4.不同抽样策略对GS预测准确度的影响
到此,我们已经对苞叶松紧度的GS分析选择了最优模型gBLUP、最优标记密度0.1以及最优测序平台GBS。为了进一步分析不同的抽样策略对GS预测准确度的影响,采用gBLUP模型,对标记密度为0.1的GBS测序平台进行随机抽样,从整个关联群体中随机抽取10-90%作为预测群体,剩下的则为建模群体。随着预测群体抽样策略的增大,GS预测精度呈现下降趋势(图7)。其中,当预测群体占关联群体的比例为10%时,取得最大预测精度35.24%。结果表明预测群体占比10%,即训练群体占比90%时取得最大GS预测准确,图7横坐标为预测群体的抽样比例,纵坐标为预测精度。随机抽样次数为100次。
5.不同群体结构对GS预测准确度的影响
为了分析不同的群体结构对苞叶松紧度GS预测准确度的影响,我们仍然使用gBLUP为最优统计模型,r2为0.1的最优标记密度和GBS的最优测序平台,同时将关联群体分为MIXED、NSS、SS、TST四个亚群后,分别使用亚群内(Within)和亚群间(Across)两种群体结构进行随机抽取(图8)。亚群内抽样指将预测群体和建模群体都局限在某一特定的亚群之内,只在该亚群中进行随机抽取,如在SS亚群中随机抽取10-90%作为预测群体,则其余的SS亚群自交系则为建模群体;亚群间抽样则只限制预测群体在某亚群内,而建模群体可来自于任一亚群,如在SS亚群中随机抽取10-90%作为预测群体,则其余所有自交系视作建模群体。总体上,随着预测群体抽样比例的增加,GS预测精度表现出下降趋势。在MIXED、NSS、SS亚群中,在亚群间随机抽样所得的GS预测精度都高于在亚群内随机抽样,而TST亚群中则相反。结果表明在所有亚群内,无论采取哪一种抽样策略,在SS亚群中都表现出了最高的预测精度,表明SS亚群更适合于研究本关联群体的苞叶松紧度性状。
图8中图例以不同颜色表示测试群体的抽样比例,横坐标表示不同的群体结构,即亚群内和亚群间的抽样,都分别在四个亚群(MIXED、NSS、SS、TST)中进行了随机抽取,纵坐标为预测精度。随机抽样次数为100次。
综上,我们的结论是最适合于苞叶松紧度GS分析的模型是gBLUP,最优标记密度和测序平台是标记密度LD为0.1的GBS平台(676个标记),抽样策略为抽取10%作为预测群体,群体结构选择SS亚群,进行该关联群体苞叶松紧度的GS育种效果最佳。

Claims (10)

1.一种基于全基因组选择玉米苞叶松紧度的育种方法,其特征在于,所述育种方法的步骤如下:
步骤1:选取4个基因测序平台的玉米全基因组数据作为原始数据,将原始数据进行质量控制的预处理筛选;
步骤2:将步骤1进行预处理筛选的数据进行基因型缺失的补充,通过计算基因组不同标记连锁不平衡程度的r2筛选出不同密度标记的基因数据;
步骤3:将不同密度标记的基因数据进行主成成分分析获得主成成分分析基因数据;将不同密度标记的基因数据进行亲缘关系分析获得亲缘关系分析基因数据;
步骤4:预先统计玉米苞叶松紧度数据,并将其带入到混合模型中,获得的BLUP值;
步骤5:将步骤3获得的主成成分分析基因数据和亲缘关系分析基因数据,与步骤4获得的BLUP值进行GS分析获得最优的统计模型;
步骤6:测定待测玉米自交系的基因型,带入到步骤4获得的最优模型,获得基因组估计育种值,根据育种者的需求优选部分GEBV值排名靠前作为优选的育种材料。
2.根据权利1所述的方法,其特征在于,步骤1中所述四个测序平台数据为:来自玉米自交系的两个基因芯片的SNP数据、来自玉米自交系的转录组测序基因型数据、来自玉米自交系的简化基因组测序平台的基因分型数据;所述两个基因芯片的SNP数据为50K和600K。
3.根据权利1所述的方法,其特征在于,步骤1中所述预处理的方法是:缺失率小于20%,MAF大于0.05为标准进行筛选。
4.根据权利1所述的方法,其特征在于,步骤2中所述基因型缺失利用的是Beagle4.0软件;步骤2中所述r2参数分别为0.8、0.5、0.2、0.1和0.01;计算r2利用plink软件。
5.根据权利1所述的方法,其特征在于,步骤3中利用R语言中的函数prcomp进行主成分分析;利用GAPIT软件包进行亲缘关系分析。
6.根据权利1所述的方法,其特征在于,步骤4中所述混合线性模型为:yi=μ+fi+eii,模型中yi代表第“i”个家系的表型值,μ代表多个环境中表型的均值,fi为品种效应,ei是环境效应,εi是残差。
7.根据权利1所述的方法,其特征在于,步骤5中GS分析的具体步骤如下:
(1)基因组预测:采用BayseA模型、BayesB模型、BayesC模型、BL模型、BRR模型和gBLUP模型,利用R包“rrBLUP v4.5”和“BGLR”进行基因组预测;
(2)预测精度:将已知基因型的玉米苞叶松紧度数据随机抽取80%的自交系作为训练集,剩余20%作为测试集,将测试集的基因型数据导入预测模型后,计算得到测试集的基因组估计育种值,重复数百次,测试集的表型数据为实际育种值与基因组估计育种值进行相关性分析,获得准确度最高的为最优的统计模型。
8.根据权利要求7所述的方法,其特征在于,所述预测模型为:BayseA模型、BayesB模型、BayesC模型、BL模型、BRR模型和gBLUP模型。
9.一种选择玉米苞叶松紧度的育种方法的计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8中任一所述的基于全基因组选择玉米苞叶松紧度的育种方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的基于全基因组选择玉米苞叶松紧度的育种方法。
CN202210572175.4A 2022-05-24 2022-05-24 一种基于全基因组选择玉米苞叶松紧度的育种方法 Pending CN115050419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210572175.4A CN115050419A (zh) 2022-05-24 2022-05-24 一种基于全基因组选择玉米苞叶松紧度的育种方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210572175.4A CN115050419A (zh) 2022-05-24 2022-05-24 一种基于全基因组选择玉米苞叶松紧度的育种方法

Publications (1)

Publication Number Publication Date
CN115050419A true CN115050419A (zh) 2022-09-13

Family

ID=83158940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210572175.4A Pending CN115050419A (zh) 2022-05-24 2022-05-24 一种基于全基因组选择玉米苞叶松紧度的育种方法

Country Status (1)

Country Link
CN (1) CN115050419A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467596A (zh) * 2023-04-11 2023-07-21 广州国家现代农业产业科技创新中心 水稻粒长预测模型的训练方法、形态预测方法及装置
CN117672360A (zh) * 2024-01-30 2024-03-08 北京市农林科学院信息技术研究中心 基于迁移学习的基因组选择方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467596A (zh) * 2023-04-11 2023-07-21 广州国家现代农业产业科技创新中心 水稻粒长预测模型的训练方法、形态预测方法及装置
CN116467596B (zh) * 2023-04-11 2024-03-26 广州国家现代农业产业科技创新中心 水稻粒长预测模型的训练方法、形态预测方法及装置
CN117672360A (zh) * 2024-01-30 2024-03-08 北京市农林科学院信息技术研究中心 基于迁移学习的基因组选择方法、装置、设备及介质
CN117672360B (zh) * 2024-01-30 2024-06-11 北京市农林科学院信息技术研究中心 基于迁移学习的基因组选择方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Heffner et al. Genomic selection accuracy using multifamily prediction models in a wheat breeding program
Roorkiwal et al. Genomic-enabled prediction models using multi-environment trials to estimate the effect of genotype× environment interaction on prediction accuracy in chickpea
Rincent et al. Maximizing the reliability of genomic selection by optimizing the calibration set of reference individuals: comparison of methods in two diverse groups of maize inbreds (Zea mays L.)
Cros et al. Genomic selection prediction accuracy in a perennial crop: case study of oil palm (Elaeis guineensis Jacq.)
Leon et al. Genetic analysis of seed‐oil concentration across generations and environments in sunflower
Manel et al. Landscape genetics: combining landscape ecology and population genetics
Bacles et al. Paternity analysis of pollen-mediated gene flow for Fraxinus excelsior L. in a chronically fragmented landscape
CN113519028B (zh) 用于估算或预测基因型和表型的方法和组成
Ukrainetz et al. Assessing the sensitivities of genomic selection for growth and wood quality traits in lodgepole pine using Bayesian models
Lund et al. Multitrait fine mapping of quantitative trait loci using combined linkage disequilibria and linkage analysis
Chung et al. Spatial genetic structure in a Neolitsea sericea population (Lauraceae)
AU2011261447B2 (en) Methods and compositions for predicting unobserved phenotypes (PUP)
CN115050419A (zh) 一种基于全基因组选择玉米苞叶松紧度的育种方法
Pace et al. Genomic prediction of seedling root length in maize (Zea mays L.)
CN111524545B (zh) 全基因组选择育种的方法和装置
Fountain et al. Inferring dispersal across a fragmented landscape using reconstructed families in the Glanville fritillary butterfly
Kelly et al. Inbreeding and the genetic variance in floral traits of Mimulus guttatus
Slavov et al. Population substructure in continuous and fragmented stands of Populus trichocarpa
Kuhn et al. Estimation of genetic diversity and relatedness in a mango germplasm collection using SNP markers and a simplified visual analysis method
Lorenz et al. Training population design and resource allocation for genomic selection in plant breeding
Rosvall Using Norway spruce clones in Swedish forestry: general overview and concepts
Wedger et al. Genomic revolution of US weedy rice in response to 21st century agricultural technologies
Estopa et al. Genomic prediction of growth and wood quality traits in Eucalyptus benthamii using different genomic models and variable SNP genotyping density
Tang et al. A strategy for the acquisition and analysis of image-based phenome in rice during the whole growth period
O’Donnell et al. Low‐coverage whole‐genome sequencing reveals molecular markers for spawning season and sex identification in Gulf of Maine Atlantic cod (Gadus morhua, Linnaeus 1758)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination