CN108291265A

CN108291265A - 用于预测实验油棕榈植物的棕榈油产量的方法

Info

Publication number: CN108291265A
Application number: CN201680061841.0A
Authority: CN
Inventors: Q·B·克翁; A·L·龙; C·K·特; M·***; F·T·周; D·R·阿普尔顿; H·库拉维拉辛加姆
Original assignee: Mori Dami Planting Intellectual Property Private Ltd Co
Current assignee: Mori Dami Planting Intellectual Property Private Ltd Co
Priority date: 2015-10-23
Filing date: 2016-10-21
Publication date: 2018-07-17
Also published as: HK1253862A1; WO2017069607A1; EP3365466A1; US20180305775A1

Abstract

公开了用于预测实验油棕榈植物的棕榈油产量的方法。所述方法包括：从群体的实验油棕榈植物的样品确定至少第一SNP基因型，所述第一SNP基因型对应于第一SNP标记，所述第一SNP标记位于用于高产油量性状的第一QTL中，并且在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组‑log₁₀(p值)与所述高产油量性状相关联，或者相对于与所述第一SNP标记连锁的第一其他SNP标记具有至少0.2的连锁不平衡r²值，所述第一其他SNP标记在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组‑log₁₀(p值)与所述高产油量性状相关联。所述方法还包括将所述第一SNP基因型与相应的第一参考SNP基因型进行比较，并基于SNP基因型的匹配程度预测所述实验植物的棕榈油产量。

Description

用于预测实验油棕榈植物的棕榈油产量的方法

技术领域

本申请涉及用于预测实验油棕榈植物的棕榈油产量的方法，并且更具体地，涉及用于预测实验油棕榈植物的棕榈油产量的方法，该方法包括从油棕榈植物的群体的实验油棕榈植物的样品中确定该实验油棕榈植物的至少第一单核苷酸多态性(SNP)基因型，该第一SNP基因型对应于第一SNP标记；将实验油棕榈植物的第一SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型进行比较；和基于实验油棕榈植物的第一SNP基因型与相应的第一参考SNP基因型的匹配程度来预测该实验油棕榈植物的棕榈油产量。

背景技术

非洲油棕榈Elaeis guineensis是重要的食品油料作物。油棕榈植物是雌雄同株的，即单株植物产生雄花和雌花两者，其特征是交替系列的雄花序和雌花序。雄花序由许多小穗组成，并且可以开出远超出100,000朵花。油棕榈通过昆虫和风自然异花授粉。雌花序是肉穗花序，其包含生于荆棘的小穗上的数千朵花。一串结有500至4,000个果实。油棕榈果实是无柄核果，其形状为球形至卵形或细长的，并且由外果皮、含有棕榈油的中果皮和围绕核的内果皮构成。

油棕榈的重要性是由于其高产量以及其高的油质量。就产量而言，油棕榈是产油量最高的食品油料作物，近期每年平均产量为3.67公吨/公顷，并且其中最好的后代已知每年产量约为10公吨/公顷。油棕榈也是最有效率的植物，以利用阳光的能量来生产油而著称。就质量而言，栽培油棕榈以获得果皮中产生的棕榈油和核中产生的棕榈仁油两者。棕榈油是尤其平衡的油，具有几乎相等比例的饱和脂肪酸(≈55％，包括45％的棕榈酸)和不饱和脂肪酸(≈45％)，并且它包括β胡萝卜素。棕榈仁油比中果皮油更饱和。两者都具有低含量的游离脂肪酸。目前棕榈油和棕榈仁油的总产量约为每年5000万公吨，并且随着全球人口和人均油脂消耗量的增加，预计未来的需求将大幅增加。

虽然油棕榈是产油量最高的食品油料作物，但目前的油棕榈作物产量远低于其理论最高值，表明通过改进高产油棕榈植物的选择和鉴定来提高棕榈油的产量的潜力。但是，在杂交中用于产生具有较高产量的后代以及用于商业生产棕榈油的用于鉴定潜在的高产棕榈的常规方法，需要在多年的过程中栽培棕榈并测量油的产量，这是耗费时间和高劳动强度的.此外，常规方法基于直接测量取样果实的油含量，从而导致取样果实的破坏。另外，用于生产油的油棕榈繁殖的常规育种技术也是耗费时间和高劳动强度的，尤其是由于最有生产力的，从而有商业价值的棕榈表现出杂交表型，这使得通过直接杂交来对其进行繁殖是不切实际的。如，例如Billotte等人，Theoretical&Applied Genetics 120：1673-1687(2010)教导了基于连锁分析的数量性状基因座(也称为QTL)标记程序已经实施于油棕榈，目的是改进常规育种技术。但是，连锁分析基于最近几代内的家系中观察到的重组，并且经常较差地鉴定复杂表型的定位的QTL，因此需要大家系来更好地检测和确认QTL，限制了该方法用于油棕榈的实用性。如，例如Ong等人关于植物高度所讨论的(WO2014/129885)，基于用于鉴定候选基因的目的的关联分析的QTL标记程序也可能用于油棕榈。但是鉴定候选基因的重点在由多种基因(尤其是关于性状表现出低外显率的基因)确定的性状的背景下具有有限的益处。如Hirota等人，Nature Genetics 44：1222-1226(2012)和Huang等人，Nature Genetics 42：961-967(2010)分别教导了基于全基因组关联研究的QTL标记程序已经实施于人和水稻以等。但是，将这种方法应用于油棕榈是不切实际的，因为商业棕榈倾向于由遗传上狭窄育种材料产生。因此，需要通过改进的用于预实验油棕榈植物的棕榈油产量的方法来改进油棕榈。

发明内容

在一个示例实施方式中，公开了一种用于预测实验油棕榈植物的棕榈油产量的方法。该方法包括步骤(i)从油棕榈植物群体的实验油棕榈植物的样品中确定该实验油棕榈植物的至少第一单核苷酸多态性(SNP)基因型。第一SNP基因型对应于第一SNP标记。第一SNP标记位于用于高产油量性状的第一数量性状基因座(QTL)中。第一SNP标记，在分层和亲缘关系校正之后，还以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者相对于与该第一SNP标记连锁的第一其他SNP标记而言，具有至少0.2的连锁不平衡r²值，所述第一其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。该方法还包括步骤(ii)将实验油棕榈植物的第一SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型进行比较。该方法还包括步骤(iii)基于实验油棕榈植物的第一SNP基因型与相应的第一参考SNP基因型的匹配程度来预测该实验油棕榈植物的棕榈油产量。该第一QTL是对应于以下中的一个的油棕榈基因组的区域：

(1)QTL区域1，从染色体1的核苷酸18204491延伸至18358401；

(2)QTL区域2，从染色体1的核苷酸18922390延伸至19167923；

(3)QTL区域3，从染色体1的核苷酸19188077延伸至19685080；

(4)QTL区域4，从染色体1的核苷酸23276098延伸至23456770；

(5)QTL区域5，从染色体1的核苷酸26021716延伸至26066534；

(6)QTL区域6，从染色体1的核苷酸28110016延伸至28234799；

(7)QTL区域7，从染色体1的核苷酸29798161延伸至30164329；

(8)QTL区域8，从染色体1的核苷酸30684639延伸至31160129；

(9)QTL区域9，从染色体1的核苷酸37811723延伸至38637229；

(10)QTL区域10，从染色体1的核苷酸38659012延伸至39206652；

(11)QTL区域11，从染色体1的核苷酸39243858延伸至39842157；

(12)QTL区域12，从染色体1的核苷酸61305818延伸至61572106；

(13)QTL区域13，从染色体2的核苷酸1068379延伸至1516571；

(14)QTL区域14，从染色体2的核苷酸1616491延伸至2016169；

(15)QTL区域15，从染色体2的核苷酸17637996延伸至17959911；

(16)QTL区域16，从染色体2的核苷酸20732085延伸至20977490；

(17)QTL区域17，从染色体2的核苷酸31844836延伸至31980071；

(18)QTL区域18，从染色体2的核苷酸50449700延伸至50857310；

(19)QTL区域19，从染色体2的核苷酸50879601延伸至51539414；

(20)QTL区域20，从染色体2的核苷酸52821582延伸至52960520；

(21)QTL区域21，从染色体3的核苷酸42585292延伸至42728875；

(22)QTL区域22，从染色体4的核苷酸9561644延伸至9701199；

(23)QTL区域23，从染色体4的核苷酸12469969延伸至13409114；

(24)QTL区域24，从染色体4的核苷酸14672228延伸至14789226；

(25)QTL区域25，从染色体5的核苷酸395189延伸至842107；

(26)QTL区域26，从染色体5的核苷酸47205529延伸至47293291；

(27)QTL区域27，从染色体5的核苷酸48857594延伸至48932286；

(28)QTL区域28，从染色体6的核苷酸5943980延伸至6002717；

(29)QTL区域29，从染色体6的核苷酸6337822延伸至6563232；

(30)QTL区域30，从染色体6的核苷酸6818733延伸至7281658；

(31)QTL区域31，从染色体6的核苷酸17578027延伸至18209857；

(32)QTL区域32，从染色体6的核苷酸26204516延伸至26755007；

(33)QTL区域33，从染色体6的核苷酸36492757延伸至36494757；

(34)QTL区域34，从染色体7的核苷酸219790延伸至1533149；

(35)QTL区域35，从染色体8的核苷酸8700733延伸至9242332；

(36)QTL区域36，从染色体8的核苷酸23767318延伸至23957652；

(37)QTL区域37，从染色体8的核苷酸26648547延伸至26848102；

(38)QTL区域38，从染色体9的核苷酸606020延伸至1309231；

(39)QTL区域39，从染色体9的核苷酸3499347延伸至3638435；

(40)QTL区域40，从染色体9的核苷酸28437588延伸至28513671；

(41)QTL区域41，从染色体9的核苷酸28581068延伸至28912034；

(42)QTL区域42，从染色体9的核苷酸32327318延伸至32434321；

(43)QTL区域43，从染色体9的核苷酸32538074延伸至32540074；

(44)QTL区域44，从染色体9的核苷酸32775289延伸至33054696；

(45)QTL区域45，从染色体9的核苷酸33133902延伸至33254107；

(46)QTL区域46，从染色体10的核苷酸15342814延伸至15405953；

(47)QTL区域47，从染色体11的核苷酸15933273延伸至15943963；

(48)QTL区域48，从染色体12的核苷酸12178551延伸至12249693；

(49)QTL区域49，从染色体13的核苷酸2052746延伸至2447722；

(50)QTL区域50，从染色体13的核苷酸14345084延伸至14709650；

(51)QTL区域51，从染色体13的核苷酸22031000延伸至22147560；

(52)QTL区域52，从染色体15的核苷酸23588504延伸至24307350；

(53)QTL区域53，从染色体16的核苷酸1511530延伸至1596020；

(54)QTL区域54，从染色体16的核苷酸2684531延伸至2803682；

(55)QTL区域55，从染色体16的核苷酸5535711延伸至5995857；

(56)QTL区域56，从染色体16的核苷酸8379248延伸至8554851；或

(57)QTL区域57，从染色体16的核苷酸8883687延伸至9269845。

在另一示例实施方式中，公开了用于预测实验油棕榈植物的棕榈油产量的方法。该方法包括步骤(i)：从油棕榈植物的群体的实验油棕榈植物的样品分别确定该实验油棕榈植物的第一单核苷酸多态性(SNP)基因型至第十SNP基因型，该第一SNP基因型至该第十SNP基因型分别对应于第一SNP标记至第十SNP标记，该第一SNP标记至该第十SNP标记分别位于用于高产油量性状的第一数量性状基因座(QTL)至第十QTL中。该第一SNP标记至该第十SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者分别相对于与该第一SNP标记至该第十SNP标记连锁的第一其他SNP标记至第十其他SNP标记具有至少0.2的连锁不平衡r²值，该第一其他SNP标记至该第十其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。该方法还包括步骤(ii)：将实验油棕榈植物的第一SNP基因型至第十SNP基因型分别与在与该群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型至相应的第十参考SNP基因型进行比较。该方法还包括步骤(iii)：基于该实验油棕榈植物的第一SNP基因型至第十SNP基因型与相应的第一参考SNP基因型至相应的第十参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量。

附图说明

图1示出了(A、B)在(A)Ulu Remis dura x AVROS pisifera群体和(B)Bantingdura x AVROS pisifera群体中，基于压缩混合线性模型(也称为MLM)，针对全基因组关联研究(也称为GWAS)观察到的-log₁₀(p值)相对于预期的-log₁₀(p值)的四分位数-四分位数(Q-Q)图。

图2示出了(A、B)在(A)Ulu Remis dura x AVROS pisifera群体和(B)Bantingdura x AVROS pisifera群体中，基于压缩混合线性模型(也称为MLM)的曼哈顿图。

图3是用于根据至少0.2的连锁不平衡r²值作为阈值来定义QTL区域的范围的方法的图示，其中突出显示的范围(包括SNP A至SNP D)是根据预测实验油棕榈植物的棕榈油产量的方法所选择的QTL区域。

图4是对于Ulu Remis dura x AVROS pisifera群体，SNP标记的预测精确度(y轴)与SNP标记数量(x轴)的图，该SNP标记基于它们与油/株棕榈植物(也称为O/P)性状的关联性评分，从高关联性至低关联性进行分类。

图5是对于Banting dura x AVROS pisifera群体，SNP标记的预测精确度(y轴)与SNP标记数量(x轴)的图，该SNP标记基于它们与O/P性状的关联性评分，从高关联性至低关联性进行分类。

图6是对于Ulu Remis dura(UR)x AVROS pisifera群体(“◇”菱形标记)和Banting dura(BD)x AVROS pisifera群体(“□”方形标记)，SNP标记的预测精确度(y轴)与SNP标记数量(x轴)的图，该SNP标记与基于其与O/P性状的关联性评分从高关联性至低关联性进行分类的SNP标记连锁不平衡。

图7是对于Ulu Remis dura(UR)x AVROS pisifera群体(“◇”菱形标记)和Banting dura(BD)x AVROS pisifera群体(“□”方形标记)，对应于随机选择的SNP标记的阴性对照的预测精确度(y轴)与SNP标记数量(x轴)的图。

具体实施方式

本申请涉及用于预测实验油棕榈植物的棕榈油产量的方法。该方法包括以下步骤：(i)从油棕榈植物群体的实验油棕榈植物的样品中确定该实验油棕榈植物的至少第一单核苷酸多态性(SNP)基因型，(ii)将该实验油棕榈植物的第一SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型进行比较，以及(iii)基于实验油棕榈植物的第一SNP基因型与相应的第一参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量。第一SNP基因组对应于第一SNP标记。第一SNP标记位于用于高产油量性状的第一数量性状基因座(QTL)中。第一SNP标记，在分层和亲缘关系校正之后，还以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者相对于与该第一SNP标记连锁的第一其他SNP标记具有至少0.2的连锁不平衡r²值，所述第一其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。如下面更详细描述的，第一QTL是对应于如下面更详细描述的QTL区域1至57中的一个的油棕榈基因组的区域。

通过对来自两个有商业价值的油棕榈群体的油棕榈植物进行基因组重新测序和全基因组关联研究(包括分层和亲缘关系校正的应用)，已经确定了位于油棕榈基因组的57个QTL区域中并且在分层和亲缘关系校正之后与高产油量性状相关联的SNP标记，可以分别用来在两个群体中实现0.61的准确度和0.63的准确度(以相关性测量)。此外，通过应用基因组选择，已经确定，通过使用大约500个SNP标记可以实现最大预测准确度，该SNP标记基于其与油/株棕榈植物(也称为O/P)性状的关联性评分，从高关联性至低关联性进行分类。

不希望受到理论的约束，认为57个QTL区域以及其中的在分层和亲缘关系校正之后，与高产油量性状相关联的SNP标记的鉴定将能够更快速和有效地从两个有商业价值的油棕榈群体和其他群体中，选择候选农业生产棕榈和候选育种棕榈。分层和亲缘关系校正减少了由于实验油棕榈植物从中取样的油棕榈植物群体中小群体个体的最近共同祖先导致的假阳性信号，从而使得基于关联的用于预测实验油棕榈植物的棕榈油产量的方法具有实用性。该方法将能够鉴定潜在的高产棕榈，用于杂交以产生具有更高产量且用于棕榈油的商业生产的后代，而不需要栽培棕榈至成熟，因此无需时间和劳动密集的栽培和测量、对果实的破坏性取样，以及作为常规方法特征的直接杂交的不实用性。例如，在能够完成通过实验油棕榈植物直接测量棕榈油产量的很早之前，该方法可以用于选择油棕榈植物以用于发芽、苗圃栽培、栽培用于商业生产棕榈油、栽培用于进一步繁殖等.还例如，该方法可以比通过直接测量棕榈油产量更高的效率和/或更小的变异性实现棕榈油产量的预测。考虑到大规模的商业栽培，基于百分比看起来很小的棕榈油产量的改善仍然可以对总体棕榈油产量产生重大的影响，就甚至单一SNP而言，该方法的使用也是有利的。考虑到累加效应和/或协同作用，就两个或更多个SNP的组合，例如，第一SNP基因型和第二SNP基因型，或者第一SNP基因型至第五十七SNP基因型而言，该方法的使用也是有利的。

关于本文公开的方法和试剂盒使用的术语“高产油量性状”、“高产量”、“高产”和“油产量”是指棕榈油植物的果实的中果皮组织中棕榈油的产量。

除非上下文另有明确指出，单数形式的“一(a)”、“一(an)”和“所述”也旨在包括复数形式。

如上所述，公开了一种用于预测实验油棕榈植物的棕榈油产量的方法。该方法包括步骤(i)从油棕榈植物群体的实验油棕榈植物的样品中确定实验油棕榈植物的至少第一单核苷酸多态性(也称为SNP)基因型。

实验油棕榈植物的SNP基因型对应于在实验油棕榈植物的基因组中出现基因座的每个染色体上的特定基因座或位置处的SNP等位基因的构成.SNP是就染色体上这样的基因座处出现的单个核苷酸而言的多态性变异。SNP等位基因是存在于染色体上的基因座处的特定核苷酸。对于二倍体并且因而遗传一组母本衍生的染色体和一组父本衍生的染色体的油棕榈植物，SNP基因型对应于两个SNP等位基因，一个在母本衍生的染色体上的特定基因座处，并且另一个在父本衍生的染色体上的特定基因座处。每个SNP等位基因可以基于等位基因频率分为例如主要等位基因(A)或次要等位基因(a)。因此，例如，SNP基因型可以对应于两个主要等位基因(A/A)，一个主要等位基因和一个次要等位基因(A/a)或两个次要等位基因(a/a)。

实验油棕榈植物可以是对应于重要的食品油料作物的油棕榈植物。例如，实验油棕榈植物可以对应于非洲油棕榈Elaeis guineensis。

实验油棕榈植物可以是任何合适形式的油棕榈植物。例如，实验油棕榈植物可以是种子、幼苗、苗圃期植物、未成熟期植物、细胞培养植物、合子胚培养植物或体细胞组织培养植物。还例如，实验油棕榈植物可以是生产期植物、成熟棕榈、成***本棕榈或成熟花粉供体。

种子、幼苗、苗圃期植物、未成熟期植物、细胞培养植物、合子胚培养植物或体细胞组织培养植物形式的实验油棕榈植物是尚未成熟的形式，因而如果生产的话，还未以商业生产典型的量生产棕榈油。因此，应用于这种形式的实验油棕榈植物的方法可以用来在实验油棕榈植物已经足够成熟以允许在商业生产期间通过直接测量实验油棕榈植物的棕榈油产量之前，预测实验油棕榈植物的棕榈油产量。

生产期植物、成熟棕榈、成***本棕榈或成熟花粉供体形式的实验油棕榈植物是成熟的形式。因此，应用于这种形式的实验油棕榈植物的方法可作为直接测量油棕榈产量的替换方法用于预测实验油棕榈的棕榈油产量。

实验油棕榈植物从其取样的实验油棕榈植物的群体可以包括任何合适的油棕榈植物群体。可以依据产生群体的育种材料的果实类型和/或身份来指示群体。

就此而言，果实类型是油棕榈中的单基因性状，其对于育种和商业生产是重要的。具有两种不同果实类型中的一种的油棕榈通常用于通过杂交进行育种和种子生产，以产生用于商业生产棕榈油的棕榈，其也称为商业种植材料或农业生产植物。第一果实类型是dura(基因型：sh+sh+)，其特征在于相当于果实重量的28％至35％的厚壳，在果实的核周围没有黑色纤维环。对于dura果实，中果皮与果实的比例为50％至60％，其中可提取油含量与串重的比例为18％至24％。第二果实类型是pisifera(基因型：sh-sh-)，其特征在于没有壳，其痕迹是围绕小核的纤维环。因此，对于pisifera果实，中果皮与果实的比例为90％至100％。中果皮油与串的比例与dura相当，为16％至28％。然而，pisifera通常是雌性不育的，因为大部分串在早期发育阶段终止。

将dura和pisifera杂交产生具有第三果实类型，tenera(基因型：sh+sh-)的棕榈。tenera果实具有果实重量8％至10％的薄壳，相当于0.5mm至4mm的厚度，其周围是特征性黑色纤维环。对于tenera果实，中果皮与果实的比例相对较高，范围是60％至80％。商用tenera一般比dura产生更多的果实串，但是平均串重较低。中果皮油与串的比例在20％至30％的范围内，是三种果实类型中最高的，因此，通常用作商业种植材料。

育种材料的身份可以基于育种材料的来源和育种历史。在东南亚使用的dura棕榈育群体体包括Serdang Avenue、Ulu Remis(其中包括一些Serdang Avenue材料)、Banting、Johor Labis和Elmina estate(包括Deli Dumpy)，所有这些都源自Deli dura。用于种子生产的pisifera育群体体通常分为Yangambi、AVROS、Binga和URT。在非洲和南美洲使用其他dura和pisifera群体。

东南亚的油棕榈种植/育种计划正在使用Deli dura来源，该Deli dura来源起源于1848年在茂物市的四株著名的dura棕榈。Deli dura材料随后被分配到整个地区的几个研究站。每个站侧重于几代中的不同选择偏好，导致亚群之间存在一些差异，称为限制性来源的育群体体(也称为“BPRO”)。源自Deli dura的限制性来源的重要的育群体体是UluRemis(也称为“UR”)和Johor Labis(也称为“JL”)。在苏门答腊的Marihat Baris，UluRemis来源被选择用于高串数和高性别比(定义为雌花序与总花序的比率)。苏门答腊的Socfindo已开发Johor Labis来源用于较大的串(高串重)和较薄的外壳，而不是串数。

20世纪60年代以前，Dura棕榈在东南亚被商业种植。Banting dura(也称为“BD”)是在1958年在Dusun Durian Estate种植的Deli dura中发现的。该材料被选择用于良好的串性状和数量。Banting dura已成为重要的母源。

非洲dura材料次于Deli dura。为了提高油产量，非洲的主要种植材料是tenera(dura x pisifera)。这为发现优异的花粉源(即AVROS pisifera)提供了机会。该材料来源于知名的Djongo棕榈，该Djongo棕榈被种植在扎伊尔(现在是刚果民主共和国)的Yangambi的Eala植物园中。然后该材料在Dusun Durian Estate的Kelanang Bharu Division被进一步选择并产生BM119。AVROS pisifera赋予Deli x AVROS后代(tenera)在生长均匀性、一般组合能力、早熟和中果皮油产量方面的优势。因此，自20世纪60年代以来，Deli dura xBM119 AVROS pisifera在该地区的引进使得每公顷的油增加30％。

油棕榈育种的主要目的是选择改良的亲本dura和pisifera育种母株棕榈，用于生产优质tenera商业种植材料。这种材料大部分是种子的形式，但是组织培养用于克隆繁殖的用于在继续开发。一般地，通过在选定的dura棕榈之间杂交产生亲本dura育群体体。基于果实类型的单基因遗传，得到的棕榈100％将是dura。经过数年的对串和果实特征的产量记录和确认，根据表型选择dura用于育种。相比之下，pisifera棕榈通常是雌性不育的，因此其育群体体必须通过选定的tenera之间杂交或通过将选定的tenera与选定的pisifera杂交来产生。tenera x tenera杂交将产生25％的dura、50％的tenera和25％的pisifera。tenera x pisifera杂交将产生50％的tenera和50％的pisifera。然后通过用精英dura进行后代测试，即通过杂交dura和pisifera来产生tenera，然后随着时间的推移确定tenera的果实的产量表型，来间接确定pisifera的产量潜力。由此，基于它们的tenera后代的表现来选择具有良好的一般组合能力的pisifera。也进行选定的亲本之间的互交，其中后代接着进行下一育种周期.这允许将新基因引入育种程序以增加遗传变异性。

用于商业生产棕榈油的油棕榈栽培可以通过使用优质的tenera商业种植材料来改善。优先选择对象包括，从高新鲜果实串(也称为FFB)产量和高油串比(也称为O/B)(薄壳，厚中果皮)、高早期产量(早熟)和良好油质等性状方面的角度来说，每单位面积的高油产量。后代植物可以通过常规方法等栽培，例如幼苗可以在苗圃前设置和苗圃设置中的聚乙烯袋中栽培，培育约12个月，然后种植为幼苗，其中选择已知或预测展现高产量的后代用于进一步栽培。

因此，在一些实例中，油棕榈植物的群体包括：Ulu Remis dura x AVROSpisifera群体、Banting dura x AVROS pisifera群体或其组合。而且在一些实例中，油棕榈植物的群体包括：Ulu Remis dura x Ulu Remis dura群体、Ulu Remis dura x Bantingdura群体、Banting dura x Banting dura群体、AVROS pisifera x AVROS tenera群体、AVROS tenera x AVROS tenera群体或其组合。

实验油棕榈植物的样品可以包括实验油棕榈植物的任何器官、组织、细胞或其他部分，其包括实验油棕榈植物的足够的基因组DNA，以允许确定实验油棕榈植物的一种或多种SNP基因型，例如第一SNP基因型。例如，样品可以包括叶组织，以及其他器官、组织、细胞或其它部分。如普通技术人员将理解的，从实验油棕榈植物的样品确定实验油棕榈植物的一种或多种SNP基因型必然是样品的转换。例如，不能仅仅基于样品的外观来确定一个或多个SNP基因型。相反，确定实验油棕榈植物的一个或多个SNP基因型需要从实验油棕榈植物中分离样品和/或从样品中分离基因组DNA。

可以通过任何适合的技术来进行至少第一SNP基因型的确定，该适合的技术包括，例如，用SNP调用(SNP calling)的全基因组重新测序、基于杂交的方法、基于酶的方法或其他扩增后方法等。

第一SNP基因型对应于第一SNP标记。SNP标记是可用于基因定位的SNP。

第一SNP标记位于用于高产油量性状的第一数量性状基因座(也称为QTL)中。QTL是沿着染色体的一部分延伸的基因座，其有助于确定连续特征的表型，在这种情况下即高产油量性状。

高产油量性状涉及实验油棕榈植物在以下情况时生产棕榈油的性状，达到成熟状态(例如，达到生产期)，且在适合于生产高量的棕榈油的条件下栽培(例如，对于实验油棕榈植物从其取样的油棕榈植物群体，商业栽培，高于平均值的量)，还有达到成熟状态，且在适合于生产高量的棕榈油的条件下栽培。

如上文讨论的，就作为tenera油棕榈植物的测试油植物而言，高产油量性状可以对应于例如每年每公顷大于3.67公吨棕榈油的棕榈油产量，即，高于用于商业生产的典型的油棕榈植物(其也是tenera油棕榈植物)的近期平均产量。高产油量性状也可以对应于例如大于每年每公顷10公吨棕榈油的棕榈油产量，即，高于目前用于商业生产的最佳后代油棕榈植物的近期平均产量。高产油量性状也可以对应于例如大于每年每公顷4、5、6、7、8或9公吨棕榈油的棕榈油产量，即高于在上述近期平均产量之间的中间值的产量。就作为dura油棕榈植物或pisifera油棕榈植物的实验油棕榈植物而言，与dura和pisifera油棕榈植物相对于tenera油棕榈植物获得的较低的平均产量相一致，高产油量性状可能对应于相应的较低量的棕榈油产量。

高产油量性状可以包括每株棕榈植物增加的油(也称为O/P)。如上文提到的，棕榈油在油棕榈果实的中果皮中产生。O/P是棕榈油产量的测量。因此，相对高的O/P是棕榈油相对高产量的指标。

第一SNP标记在分层和亲缘关系校正之后以群体中至少3.0的全基因组-log₁₀(p值)，与高产油量性状相关联，或者相对于与该第一SNP标记连锁的第一其他SNP标记而言，具有至少0.2的连锁不平衡r²值，所述第一其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。

在分层和亲缘关系校正之后，第一SNP标记以群体中至少3.0的全基因组-log₁₀(p值)与性状相关联表明第一SNP标记与该性状相关联的可能性较高。

p值是观察到检验统计量的概率，在涉及SNP标记，例如，第一SNP标记或第一其他SNP标记与高产油量性状相关的这种情况下，如果零假设为真，因此没有关联，则等于或大于实际观察到的检验统计量，例如，如Bush&Moore，第11章：Genome-Wide AssociationStudies，PLOS Computational Biology 8(12)：e 1002822，1-11(2012)所讨论的。还如Bush&Moore(2012年)所讨论的，为了方便起见，全基因组-log₁₀(p值)对应于以对数刻度表示的p值，且该p值基于针对关于相应特定群体的整个基因组进行的关联的多次测试而被校正以把已经进行的统计测试的有效数量考虑在内。因此，相对高的全基因组-log₁₀(p值)表明观察到的涉及关联相关性的检验统计量在没有关联时被观察到的可能性极低。

在确定关联相关性时，要把分层和亲缘关系校正考虑在内。如上文提到的，分层和亲缘关系校正减少了由于实验油棕榈植物从其取样的油棕榈植物群体中小群体个体的最近共同祖先导致的假阳性信号，从而使得基于关联的用于预测实验油棕榈植物的棕榈油产量的方法具有实用性。

为了参考，分别使用具有先前确定的群体参数(P3D)的压缩混合线性模型(也称为MLM)对作为有商业价值的油棕榈群体Ulu Remis x AVROS和Banting Dura x AVROS进行全基因组关联研究(也称为GWAS)，以解决使用群体亲缘关系矩阵的基因组膨胀的问题。具体而言，如图1所示，两个群体中的Q-Q图示出观察到的统计数据与零期望值的偏差显著延迟。如图2所示，两个群体所得的SNP的染色体分布可以在曼哈顿图中显现。基于这种方法，在排除两个群体中重叠的标记后，共鉴定了119个提供关于O/P信息的SNP。

对于其他油棕榈群体，例如上文所述的群体，可以类似地应用分层和亲缘关系校正。

因此，例如，位于用于高产油量性状的第一QTL中，并且在分层和亲缘关系校正之后以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联的第一SNP标记，可以是这样的SNP标记：对于该SNP标记，与高产油量性状的关联(i)已经基于不是朴素模型的模型被确认和/或(ii)将基于不是朴素模型的模型被确认。还例如，位于用于高产油量性状的第一QTL中，并且在分层和亲缘关系校正之后以群体中至少4.0的全基因组-log₁₀(p值)与高产油量性状相关联的第一SNP标记，可以是这样的SNP标记：对于该SNP标记，与高产油量性状的关联(i)已经用先前确定的群体参数基于压缩混合线性模型(其使用主成分分析和群体亲缘关系矩阵进行)被确认，和/或(ii)将用先前确定的群体参数基于压缩混合线性模型(其使用主成分分析和群体亲缘关系矩阵进行)被确认。

相对于与该第一SNP标记连锁，并且在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联的第一其他SNP，具有至少0.2的连锁不平衡r²值的第一SNP标记表明以下内容。首先，很可能存在第一SNP标记的等位基因和第一其他SNP标记的等位基因为连锁不平衡。第二，很可能存在第一其他SNP标记和性状相关联。在这方面，连锁不平衡r²值涉及将两个基因座处于连锁不平衡的可能性测量为平均成对相关系数。

因此，在一些实例中，在分层和亲缘关系校正之后，第一SNP标记以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。而且，在一些实例中，第一SNP标记相对于与该第一SNP标记连锁的第一其它SNP标记具有至少0.2的连锁不平衡r²值，所述第一其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。而且，在一些示例中两者都适用。

第一QTL可以是对应于以下中的一个的油棕榈基因组的区域：

(1)QTL区域1，从染色体1的核苷酸18204491延伸至18358401；

(2)QTL区域2，从染色体1的核苷酸18922390延伸至19167923；

(3)QTL区域3，从染色体1的核苷酸19188077延伸至19685080；

(4)QTL区域4，从染色体1的核苷酸23276098延伸至23456770；

(5)QTL区域5，从染色体1的核苷酸26021716延伸至26066534；

(6)QTL区域6，从染色体1的核苷酸28110016延伸至28234799；

(7)QTL区域7，从染色体1的核苷酸29798161延伸至30164329；

(8)QTL区域8，从染色体1的核苷酸30684639延伸至31160129；

(9)QTL区域9，从染色体1的核苷酸37811723延伸至38637229；

(10)QTL区域10，从染色体1的核苷酸38659012延伸至39206652；

(11)QTL区域11，从染色体1的核苷酸39243858延伸至39842157；

(12)QTL区域12，从染色体1的核苷酸61305818延伸至61572106；

(13)QTL区域13，从染色体2的核苷酸1068379延伸至1516571；

(14)QTL区域14，从染色体2的核苷酸1616491延伸至2016169；

(15)QTL区域15，从染色体2的核苷酸17637996延伸至17959911；

(16)QTL区域16，从染色体2的核苷酸20732085延伸至20977490；

(17)QTL区域17，从染色体2的核苷酸31844836延伸至31980071；

(18)QTL区域18，从染色体2的核苷酸50449700延伸至50857310；

(19)QTL区域19，从染色体2的核苷酸50879601延伸至51539414；

(20)QTL区域20，从染色体2的核苷酸52821582延伸至52960520；

(21)QTL区域21，从染色体3的核苷酸42585292延伸至42728875；

(22)QTL区域22，从染色体4的核苷酸9561644延伸至9701199；

(23)QTL区域23，从染色体4的核苷酸12469969延伸至13409114；

(24)QTL区域24，从染色体4的核苷酸14672228延伸至14789226；

(25)QTL区域25，从染色体5的核苷酸395189延伸至842107；

(26)QTL区域26，从染色体5的核苷酸47205529延伸至47293291；

(27)QTL区域27，从染色体5的核苷酸48857594延伸至48932286；

(28)QTL区域28，从染色体6的核苷酸5943980延伸至6002717；

(29)QTL区域29，从染色体6的核苷酸6337822延伸至6563232；

(30)QTL区域30，从染色体6的核苷酸6818733延伸至7281658；

(31)QTL区域31，从染色体6的核苷酸17578027延伸至18209857；

(32)QTL区域32，从染色体6的核苷酸26204516延伸至26755007；

(33)QTL区域33，从染色体6的核苷酸36492757延伸至36494757；

(34)QTL区域34，从染色体7的核苷酸219790延伸至1533149；

(35)QTL区域35，从染色体8的核苷酸8700733延伸至9242332；

(36)QTL区域36，从染色体8的核苷酸23767318延伸至23957652；

(37)QTL区域37，从染色体8的核苷酸26648547延伸至26848102；

(38)QTL区域38，从染色体9的核苷酸606020延伸至1309231；

(39)QTL区域39，从染色体9的核苷酸3499347延伸至3638435；

(40)QTL区域40，从染色体9的核苷酸28437588延伸至28513671；

(41)QTL区域41，从染色体9的核苷酸28581068延伸至28912034；

(42)QTL区域42，从染色体9的核苷酸32327318延伸至32434321；

(43)QTL区域43，从染色体9的核苷酸32538074延伸至32540074；

(44)QTL区域44，从染色体9的核苷酸32775289延伸至33054696；

(45)QTL区域45，从染色体9的核苷酸33133902延伸至33254107；

(46)QTL区域46，从染色体10的核苷酸15342814延伸至15405953；

(47)QTL区域47，从染色体11的核苷酸15933273延伸至15943963；

(48)QTL区域48，从染色体12的核苷酸12178551延伸至12249693；

(49)QTL区域49，从染色体13的核苷酸2052746延伸至2447722；

(50)QTL区域50，从染色体13的核苷酸14345084延伸至14709650；

(51)QTL区域51，从染色体13的核苷酸22031000延伸至22147560；

(52)QTL区域52，从染色体15的核苷酸23588504延伸至24307350；

(53)QTL区域53，从染色体16的核苷酸1511530延伸至1596020；

(54)QTL区域54，从染色体16的核苷酸2684531延伸至2803682；

(55)QTL区域55，从染色体16的核苷酸5535711延伸至5995857；

(56)QTL区域56，从染色体16的核苷酸8379248延伸至8554851；或

(57)QTL区域57，从染色体16的核苷酸8883687延伸至9269845。

染色体的编号(也称为连锁基团)及其核苷酸是根据Singh等人Nature 500：335-339(2013年)和其中记录的补充信息所描述的非洲油棕榈E.guineenesis的18亿个碱基基因组序列，表明E.guineenesis BioProject在http://genomsawit.mpob.gov.my中可供下载，并已登记在BioProject的PRJNA192219入口下的NCBI中，并且全基因组***项目已经以ASJS00000000条目存入DDBJ/EMBL/GenBank。

为了参考，QTL区域1对应于从SEQ ID NO：1的5′端延伸至SEQ ID NO：2的3′端的油棕榈基因组的染色体1的区域。类似地，QTL区域2对应于从SEQ ID NO：3的5′端延伸至SEQID NO：4的3′端的染色体1的区域。QTL区域3对应于从SEQ ID NO：5的5′端延伸至SEQ IDNO：6的3′端的染色体1的区域。QTL区域4对应于从SEQ ID NO：7的5′端延伸至SEQ ID NO：8的3′端的染色体1的区域。QTL区域5对应于从SEQ ID NO：9的5′端延伸至SEQ ID NO：10的3′端的染色体1的区域。QTL区6对应于从SEQ ID NO：11的5′端延伸至SEQ ID NO：12的3′端的染色体1的区域。QTL区域7对应于从SEQ ID NO：13的5′端延伸至SEQ ID NO：14的3′端的染色体1的区域。QTL区域8对应于从SEQ ID NO：15的5′端延伸至SEQ ID NO：16的3′端的染色体1的区域。QTL区域9对应于从SEQ ID NO：17的5′端延伸至SEQ ID NO：18的3′端的染色体1的区域。QTL区域10对应于从SEQ ID NO：19的5′端延伸至SEQ ID NO：20的3′端的染色体1的区域。QTL区域11对应于从SEQ ID NO：21的5′端延伸至SEQ ID NO：22的3′端的染色体1的区域。QTL区域12对应于从SEQ ID NO：23的5′端延伸至SEQ ID NO：24的3′端的染色体1的区域。QTL区域13对应于从SEQ ID NO：25的5′端延伸至SEQ ID NO：26的3′端的染色体2的区域。QTL区域14对应于从SEQ ID NO：27的5′端延伸至SEQ ID NO：28的3′端的染色体2的区域。QTL区域15对应于从SEQ ID NO：29的5′端延伸至SEQ ID NO：30的3′端的染色体2的区域。QTL区域16对应于从SEQ ID NO：31的5′端延伸至SEQ ID NO：32的3′端的染色体2的区域。QTL区域17对应于从SEQ ID NO：33的5′端延伸至SEQ ID NO：34的3′端的染色体2的区域。QTL区域18对应于从SEQ ID NO：35的5′端延伸至SEQ ID NO：36的3′端的染色体2的区域。QTL区域19对应于从SEQ ID NO：37的5′端延伸至SEQ ID NO：38的3′端的染色体2的区域。QTL区域20对应于从SEQ ID NO：39的5′端延伸至SEQ ID NO：40的3′端的染色体3的区域。QTL区域21对应于从SEQ ID NO：41的5′端延伸至SEQ ID NO：42的3′端的染色体3的区域。QTL区域22对应于从SEQ ID NO：43的5′端延伸至SEQ ID NO：44的3′端的染色体4的区域。QTL区域23对应于从SEQ ID NO：45的5′端延伸至SEQ ID NO：46的3′端的染色体4的区域。QTL区域24对应于从SEQ ID NO：47的5′端延伸至SEQ ID NO：48的3′端的染色体4的区域。QTL区域25对应于从SEQ ID NO：49的5′端延伸至SEQ ID NO：50的3′端的染色体5的区域。QTL区域26对应于从SEQ ID NO：51的5′端延伸至SEQ ID NO：52的3′端的染色体5的区域。QTL区域27对应于从SEQ ID NO：53的5′端延伸至SEQ ID NO：54的3′端的染色体5的区域。QTL区域28对应于从SEQ ID NO：55的5′端延伸至SEQ ID NO：56的3′端的染色体6的区域。QTL区域29对应于从SEQ ID NO：57的5′端延伸至SEQ ID NO：58的3′端的染色体6的区域。QTL区域30对应于从SEQ ID NO：59的5′端延伸至SEQ ID NO：60的3′端的染色体6的区域。QTL区域31对应于从SEQ ID NO：61的5′端延伸至SEQ ID NO：62的3′端的染色体6的区域。QTL区域32对应于从SEQ ID NO：63的5′端延伸至SEQ ID NO：64的3′端的染色体6的区域。QTL区域33对应于从SEQ ID NO：65的5′端延伸至SEQ ID NO：66的3′端的染色体6的区域。QTL区域34对应于从SEQ ID NO：67的5′端延伸至SEQ ID NO：68的3′端的染色体7的区域。QTL区域35对应于从SEQ ID NO：69的5′端延伸至SEQ ID NO：70的3′端的染色体8的区域。QTL区域36对应于从SEQ ID NO：71的5′端延伸至SEQ ID NO：72的3′端的染色体8的区域。QTL区域37对应于从SEQ ID NO：73的5′端延伸至SEQ ID NO：74的3′端的染色体8的区域。QTL区域38对应于从SEQ ID NO：75的5′端延伸至SEQ ID NO：76的3′端的染色体9的区域。QTL区域39对应于从SEQ ID NO：77的5′端延伸至SEQ ID NO：78的3′端的染色体9的区域。QTL区域40对应于从SEQ ID NO：79的5′端延伸至SEQ ID NO：80的3′端的染色体9的区域。QTL区域41对应于从SEQ ID NO：81的5′端延伸至SEQ ID NO：82的3′端的染色体9的区域。QTL区域42对应于从SEQ ID NO：83的5′端延伸至SEQ ID NO：84的3′端的染色体9的区域。QTL区域43对应于从SEQ ID NO：85的5′端延伸至SEQ ID NO：86的3′端的染色体9的区域。QTL区域44对应于从SEQ ID NO：87的5′端延伸至SEQ ID NO：88的3′端的染色体9的区域。QTL区域45对应于从SEQ ID NO：89的5′端延伸至SEQ ID NO：90的3′端的染色体9的区域。QTL区域46对应于从SEQ ID NO：91的5′端延伸至SEQ ID NO：92的3′端的染色体10的区域。QTL区域47对应于从SEQ ID NO：93的5′端延伸至SEQ ID NO：94的3′端的染色体11的区域。QTL区域48对应于从SEQ ID NO：95的5′端延伸至SEQ ID NO：96的3′端的染色体12的区域。QTL区域49对应于从SEQ ID NO：97的5′端延伸至SEQ ID NO：98的3′端的染色体13的区域。区域50对应于从SEQ ID NO：99的5′端延伸至SEQ ID NO：100的3′端的染色体13的区域。QTL区域51对应于从SEQ ID NO：101的5′端延伸至SEQ ID NO：102的3′端的染色体13的区域。QTL区域52对应于从SEQ ID NO：103的5′端延伸至SEQ ID NO：104的3′端的染色体15的区域。QTL区域53对应于从SEQ ID NO：105的5′端延伸至SEQ ID NO：106的3′端的染色体16的区域。QTL区域54对应于从SEQ ID NO：107的5′端至SEQ ID NO：108的3′端的染色体16的区域。QTL区域55对应于从SEQ ID NO：109的5′端延伸至SEQ ID NO：110的3′端的染色体16的区域。QTL区域56对应于从SEQ ID NO：111的5′端延伸至SEQ ID NO：112的3′端的染色体16的区域。QTL区域57对应于从SEQ ID NO：113的5′端延伸至SEQ ID NO：114的3′端的染色体16的区域。

该方法还包括步骤(ii)：将实验油棕榈植物的第一SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型进行比较。与群体相同的遗传背景可以例如对应于基于与用于产生实验油棕榈植物从其取样的群体(例如，Ulu Remisdura x AVROS pisifera群体、Banting dura x AVROS pisifera群体或其组合，或者UluRemis dura x Ulu Remis dura群体、Ulu Remis dura x Banting dura群体、Bantingdura x Banting dura群体、AVROS pisifera x AVROS tenera群体、AVROS tenera xAVROS tenera群体或其组合)相同类型的杂交油棕榈植物的群体。与群体相同的遗传背景也可以例如对应于基于将用于产生实验油棕榈植物从其取样的群体的相同个体油棕榈植物进行杂交的群体。与群体相同的遗传背景也可以例如对应于实验油棕榈植物从其取样的相同实际群体。

在与群体相同遗传背景下指示高产油量性状的第一参考SNP基因型可以对应于与第一SNP基因型相同的SNP，即两者可以都对应于在特定染色体的特定基因座处发生的关于单个核苷酸相同的多态性变异。第一参考SNP基因型可以包括一个或多个SNP等位基因，其单独或一起表明与缺乏一个或多个SNP等位基因的相同群体的油棕榈植物相比，其实验油棕榈植物(如果成熟)表现出或(在达到成熟时)将表现出高产油量性状的较高可能性。

该方法还包括步骤(iii)基于实验油棕榈植物的第一SNP基因型与相应的第一参考SNP基因型的匹配程度预测实验油棕榈植物的棕榈油产量。基于两个SNP基因型至少共享在与群体相同遗传背景下指示高产油量性状的第一SNP等位基因，实验油棕榈植物的第一SNP基因型可以匹配相应的第一参考SNP基因型。在一些实例中，针对指示高产油量性状的第一等位基因，第一SNP基因型和第一参考SNP基因型是杂合的，即两者都仅具有一个拷贝的SNP等位基因。而且，在一些实例中，针对指示高产油量性状的第一等位基因，第一SNP基因型和第一参考SNP基因型是纯合的，即两者都具有两个拷贝的SNP等位基因。而且，在一些实例中，第一SNP基因型对于指示高产油量性状的第一等位基因是杂合的，并且第一参考SNP基因型对于指示高产油量性状的第一等位基因是纯合的。而且，在一些实例中，第一SNP基因型对于指示高产油量性状的第一等位基因是纯合的，并且第一参考SNP基因型对于指示高产油量性状的第一等位基因是杂合的。

预测实验油棕榈植物的棕榈油产量的步骤可以进一步包括应用模型，比如基因型模型、显性模型或隐性模型等，以便于预测。基因型模型测试性状，例如高产油量性状与SNP等位基因，主要等位基因(A)或次要等位基因(a)的存在的关联。显性模型测试性状，例如高产油量性状与SNP等位基因作为纯合基因型或杂合基因型，例如，主要等位基因作为纯合基因型(例如A/A)或杂合基因型(例如A/a)存在的关联。隐性模型测试性状(例如高产油量性状)与SNP等位基因作为纯合基因型(例如，次要等位基因作为纯合基因型(a/a))的存在的关联。因此，在一些实例中，实验油棕榈植物的棕榈油产量的预测进一步包括应用基因型模型。而且在一些实例中，实验油棕榈植物的棕榈油产量的预测进一步包括应用显性模型.而且在一些实例中，实验油棕榈植物的棕榈油产量的预测进一步包括应用隐性模型。

QTL区域1至57中的SNP标记的特定SNP基因型可用于预测实验油棕榈植物的棕榈油产量的程度可能取决于用来产生实验油棕榈从其取样的群体的育种材料的来源和育种历史，例如包括用来产生该群体的育种材料和/或其来源的QTL区域1至57中出现了导致棕榈油产量增加的一个或多个高产量变体等位基因的程度，以及该一个或多个高产量变体等位基因与SNP的接近度，以及由于高产量变体等位基因的出现，SNP和高产量变体等位基因之间发生重组的程度。比如促进高产油量性状的高产量变体等位基因与SNP等位基因之间的接近度、低代数(由于高产量变体等位基因出现)以及高产量变体等位基因对棕榈油产量的强阳性作用的因素，可能倾向于增加特定SNP可以提供信息的程度。这些因素可以例如取决于高产量变体等位基因是显性的还是隐性的，因而基因型模型、显性模型或隐性模型是否可以适当地应用于相应的SNP等位基因而变化。这些因素也可以例如在由不同个体棕榈植物的杂交产生的不同群体之间变化。

预测实验油棕榈植物的棕榈油产量的步骤不仅可以有利地用来预测实验油棕榈植物本身的棕榈油产量，而且可以用来预测其后代的棕榈油产量。在这方面，油棕榈育种者可以使用适用于作为母本棕榈或花粉供体的实验油棕榈植物的方法，来确定通过将实验油棕榈植物与另一种油棕榈植物杂交而产生的后代的可能的SNP基因型，并且此外，可以选择特定的棕榈，即实验油棕榈植物和另一种具有类似特征的特定的油棕榈植物，以在此基础上进行杂交。

就源自特定育种材料的实验油棕榈植物而言，用于预测实验油棕榈植物的棕榈油产量的方法可以通过集中在特定QTL或其组合上来使用。

例如，在一些实例中，油棕榈植物群体包括Ulu Remis dura x AVROS pisifera群体，第一QTL对应于QTL区域7、8、13、14、16、18、19、25、33、52或54中的一个，并且步骤(iii)进一步包括应用基因型模型，由此预测实验油棕榈植物的棕榈油产量，并且第一SNP标记在分层和亲缘关系校正之后，以群体中至少4.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者相对于与第一SNP标记连锁的第一其他SNP标记具有至少0.2的连锁不平衡r²值，该第一其他SNP标记在分层和亲缘关系校正之后，以群体中至少4.0的全基因组-log₁₀(p值)与高产油量性状相关联。

而且，在一些实例中，油棕榈植物群体包括Ulu Remis dura x AVROS pisifera群体，第一QTL对应于QTL区域8，步骤(iii)进一步包括应用显性模型，由此预测实验油棕榈植物的棕榈油产量，并且第一SNP标记在分层和亲缘关系校正之后，以群体中至少4.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者相对于与第一SNP标记连锁的第一其他SNP标记具有至少0.2的连锁不平衡r²值，该第一其他SNP标记在分层和亲缘关系校正之后，以群体中至少4.0的全基因组-log₁₀(p值)与高产油量性状相关联.

而且在一些实例中，油棕榈植物群体包括Ulu Remis dura x AVROS pisifera群体，第一QTL对应于QTL区域8、13、18、22、23或45中的一个，并且步骤(iii)进一步包括应用隐性模型，由此预测实验油棕榈植物的棕榈油产量，并且第一SNP标记在分层和亲缘关系校正之后，以群体中至少4.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者相对于与第一SNP标记连锁的第一其他SNP标记具有至少0.2的连锁不平衡r²值，该第一其他SNP标记在分层和亲缘关系校正之后，以群体中至少4.0的全基因组-log₁₀(p值)与高产油量性状相关联.

而且，在一些实例中，油棕榈植物的群体包括Banting dura x AVROS pisifera群体，第一QTL对应于QTL区域1、3、4、5、6、9、10、11、12、21、26、27、28、29、30、31、32、34、35、36、37、38、40、41、42、43、44、47、49、50、51、53、55或56中的一个，并且步骤(iii)进一步包括应用基因型模型，由此预测实验油棕榈植物的棕榈油产量。

而且，在一些实例中，油棕榈植物的群体包括Banting dura x AVROS pisifera群体，第一QTL对应于QTL区域17、20、49或55中的一个，并且步骤(iii)进一步包括应用显性模型，由此预测实验油棕榈植物的棕榈油产量。

而且，在一些实例中，油棕榈植物群体包括Banting dura x AVROS pisifera群体，第一QTL对应于QTL区域2、5、9、10、15、17、24、26、27、28、29、31、32、34、35、36、39、41、44、46、47、48、50、51、56或57中的一个，并且步骤(iii)进一步包括应用隐性模型，由此预测实验油棕榈植物的棕榈油产量。

如上文提到的，杂交dura和pisifera产生具有第三种果实类型的棕榈，tenera。还如提到的，tenera通常用作商业种植材料。因此，在一些实例中，实验油棕榈植物是tenera候选农业生产植物。在一些实例中，油棕榈植物群体包括Ulu Remis dura x AVROSpisifera群体，并且实验油棕榈植物是tenera候选农业生产植物。而且，在一些实例中，油棕榈植物群体包括Banting dura x AVROS pisifera群体，并且实验油棕榈植物是tenera候选农业生产植物。

还如上文提到的，油棕榈育种主要是为了选择改良的亲本dura和pisifera育种母株棕榈，用于生产优质tenera商业种植材料。还如所述的，通过在选定的dura棕榈之间杂交产生亲本dura育群体体，然而pisifera通常是雌性不育的，因此其育群体体必须通过在选定的tenera之间杂交或通过将选定的tenera与选定的pisifera杂交来产生。因此，在一些实例中，实验油棕榈植物是用于母本棕榈选择和繁殖的植物、用于基因渗入的母本棕榈选择和繁殖的植物、或用于花粉供体选择和繁殖的植物。在一些实例中，油棕榈植物群体包括Ulu Remis dura x Ulu Remis dura群体，并且实验油棕榈植物是用于母本选择和繁殖的植物。而且在一些实例中，油棕榈植物群体包括Ulu Remis dura x Ulu Remis dura群体，并且实验油棕榈植物是用于基因渗入的母本棕榈选择和繁殖的植物。而且在一些实例中，油棕榈植物群体包括Ulu Remis dura x Banting dura群体，并且实验油棕榈植物是用于母本棕榈选择和繁殖的植物。而且在一些实例中，油棕榈植物群体包括Banting dura xBanting dura群体，并且实验油棕榈植物是用于母本棕榈选择和繁殖的植物。而且在一些实例中，油棕榈植物群体包括Banting dura x Banting dura群体，并且实验油棕榈植物是用于基因渗入的母本棕榈选择和繁殖的植物。而且在一些实例中，油棕榈植物群体包括AVROS pisifera x AVROS tenera群体，并且实验油棕榈植物是用于花粉供体选择和繁殖的植物。而且在一些实例中，油棕榈植物群体包括AVROS tenera x AVROS tenera群体，并且实验油棕榈植物是用于花粉供体选择和繁殖的植物。

用于预测实验油棕榈植物的棕榈油产量的方法也可以通过如下进行：确定额外的SNP基因型，将该额外的SNP基因型与指示高产油量性状的相应参考基因型进行比较，并且基于额外的SNP基因型与相应参考SNP基因型的匹配程度来进一步预测实验油棕榈植物的棕榈油产量。这是因为每个SNP基因型可以反映高产量变体等位基因，其关于其他方面累积地和/或协同地有助于高产油量性状。

因此，在一些实例中，步骤(i)进一步包括从实验油棕榈植物的样品中确定实验油棕榈植物的至少第二SNP基因型，该第二SNP基因型对应于第二SNP标记，该第二SNP标记(a)位于用于高产油量性状的第二QTL中，并且(b)在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者相对于与该第二SNP标记连锁的第二其他SNP标记具有至少0.2的连锁不平衡r²值，所述第二其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。此外，在这些实例中，步骤(ii)进一步包括将实验油棕榈植物的第二SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第二参考SNP基因型进行比较。此外，在这些实例中，第二QTL对应于QTL区域1至57中的一个，条件是第一QTL和第二QTL对应于不同的QTL区域。在这些实例中的一些实例中，步骤(iii)进一步包括基于实验油棕榈植物的第二SNP基因型与相应的第二参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量.

而且在一些实例中，步骤(i)进一步包括从实验油棕榈植物的样品中确定实验油棕榈植物的至少第三SNP基因型至第五十七SNP基因型，该第三SNP基因型至该第五十七SNP基因型分别对应于第三SNP标记至第五十七SNP标记，该第三SNP标记至该第五十七SNP标记(a)分别位于用于高产油量性状的第三QTL至第五十七QTL中，并且(b)在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者分别相对于与该第一SNP标记连锁的第三其他SNP标记至第五十七其他SNP标记具有至少0.2的连锁不平衡r²值，所述第三QTL至第五十七QTL在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。此外，在这些实例中，步骤(ii)进一步包括将实验油棕榈植物的第三SNP基因型至第五十七SNP基因型分别与在与该群体相同遗传背景下指示高产油量性状的相应的第三参考SNP基因型至相应的第五十七参考SNP基因型进行比较。此外，在这些实例中，第三QTL至第五十七QTL各自对应于QTL区域1至21中的一个，条件是第一QTL至第五十七QTL各自对应于不同的QTL区域。在这些实例中的一些实例中，步骤(iii)进一步包括基于实验油棕榈植物的第三SNP基因型至第五十七SNP基因型分别与相应的第三参考SNP基因型至相应的第五十七参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量。

还提供了一种选择高产棕榈油的油棕榈植物用于农业生产棕榈油的方法。该方法包括步骤(a)预测实验油棕榈植物的棕榈油产量。该步骤可以根据上述方法进行，即包括以下步骤：(i)从油棕榈植物群体的实验油棕榈植物的样品中确定实验油棕榈植物的至少第一单核苷酸多态性(SNP)基因型，(ii)将实验油棕榈植物的第一SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型进行比较，以及(iii)基于实验油棕榈植物的第一SNP基因型与相应的第一参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量，其中，如上所述，第一QTL是对应于QTL区域1至57中的一个的油棕榈基因组的区域。该方法还包括以下步骤：(b)如果基于步骤(a)预测实验油棕榈植物的棕榈油产量高于群体的平均值，则田间种植实验油棕榈植物用于农业生产棕榈油。

还提供了一种选择高产棕榈油的油棕榈植物用于在细胞培养物中培养的方法。该方法包括步骤(a)：预测实验油棕榈植物的棕榈油产量。同样，该步骤可以根据上述方法进行，即包括以下步骤：(i)从油棕榈植物群体的实验油棕榈植物的样品中确定至少第一单核苷酸多态性(SNP)基因型，(ii)将实验油棕榈植物的第一SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型进行比较，以及(iii)基于实验油棕榈植物的第一SNP基因型与相应的第一参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量，其中，如上所述，第一QTL是对应于QTL区域1至57中的一个的油棕榈基因组的区域。该方法还包括步骤(b)：如果基于步骤(a)预测实验油棕榈植物的棕榈油产量比群体的平均值高，则使实验油棕榈植物的至少一个细胞在细胞培养物中培养。

还提供了一种选择亲本油棕榈植物用于育种以获得农业生产植物或改良的亲本油棕榈植物的方法。如上文提到的，油棕榈育种者可以使用适用于作为母本棕榈或花粉供体的实验油棕榈植物的方法，来确定通过将实验油棕榈植物与另一种油棕榈植物杂交而产生的后代的可能的SNP基因型，并且此外，可以选择特定的棕榈，即实验油棕榈植物和另一种具有类似特征的特定的油棕榈植物，以在此基础上进行杂交。该方法包括步骤(a)：预测实验油棕榈植物的棕榈油产量。同样，该步骤可以根据上述方法进行，即包括以下步骤：(i)从油棕榈植物群体的实验油棕榈植物的样品中确定至少第一单核苷酸多态性(SNP)基因型，步骤(ii)将实验油棕榈植物的第一SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型进行比较，以及(iii)基于实验油棕榈植物的第一SNP基因型与相应的第一参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量，其中，如上所述，第一QTL是对应于QTL区域1至57中的一个的油棕榈基因组的区域。该方法还包括步骤(b)：如果基于步骤(a)预测实验油棕榈植物的tenera后代的棕榈油产量比群体平均值高，则选择该实验油棕榈植物用于育种。

本申请还涉及另一种用于预测实验油棕榈植物的棕榈油产量的方法。该方法包括如上文讨论的步骤(i)：从油棕榈植物的群体的实验油棕榈植物的样品确定该实验油棕榈植物的第一单核苷酸多态性(SNP)基因型至第十SNP基因型。因此，如上文讨论的，实验油棕榈植物的第一SNP基因型至第十SNP基因型对应于在实验油棕榈植物的基因组中出现基因座的每个染色体上的特定基因座或位置处的SNP等位基因的构成。而且，每个SNP等位基因可以例如基于等位基因频率分为例如主要等位基因(A)或次要等位基因(a)。因此，例如，第一SNP基因型至第十SNP基因型中的每个可以分别对应于两个主要等位基因(A/A)、一个主要等位基因和一个次要等位基因(A/a)或两个次要等位基因(a/a)。

如上文讨论的，实验油棕榈植物可以是任何合适形式的油棕榈植物。例如，实验油棕榈植物可以是种子、幼苗、苗圃期植物、未成熟期植物、细胞培养植物、合子胚培养植物或体细胞组织培养植物。还例如，实验油棕榈植物可以是生产期植物、成熟棕榈、成***本棕榈或成熟花粉供体。

在一些实例中，油棕榈植物的群体包括：Ulu Remis dura x AVROS pisifera群体、Banting dura x AVROS pisifera群体或其组合。而且在一些实例中，油棕榈植物的群体包括：Ulu Remis dura x Ulu Remis dura群体、Ulu Remis dura x Banting dura群体、Banting dura x Banting dura群体、AVROS pisifera x AVROS tenera群体、AVROStenera x AVROS tenera群体或其组合。

如上文讨论的，第一SNP基因型至第十SNP基因型分别对应于第一SNP标记至第十SNP标记。如上文讨论的，第一SNP标记至第十SNP标记分别位于用于高产油量性状的第一数量性状基因座(QTL)至第十QTL中。如上文讨论的，高产油量性状可以包括每株棕榈植物增加的油。

如上文讨论的，第一SNP标记至第十SNP标记还在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者分别相对于与该第一SNP标记至该第十SNP标记连锁的第一其他SNP标记至第十其他SNP标记具有至少0.2的连锁不平衡r²值，该第一其他SNP标记至该第十其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。因此，在一些实例中，第一SNP标记至第十SNP标记分别在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。而且，在一些实例中，第一SNP标记至第十SNP标记分别相对于与该第一SNP标记至该第十SNP标记连锁的第一其他SNP标记至第十其他SNP标记具有至少0.2的连锁不平衡r²值，该第一其他SNP标记至该第十其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。而且，在一些实例中，每种情况的组合适用。

该方法还包括步骤(ii)：将实验油棕榈植物的第一SNP基因型至第十SNP基因型与在与群体相同遗传背景下指示高产油量性状的相应的第一参考SNP基因型至第十参考SNP基因型进行比较。与群体相同的遗传背景可以例如对应于基于与用于产生实验油棕榈植物从其取样的群体(例如，Ulu Remis dura x AVROS pisifera群体、Banting dura x AVROSpisifera群体或其组合，或者Ulu Remis dura x Ulu Remis dura群体、Ulu Remis dura xBanting dura群体、Banting dura x Banting dura群体、AVROS pisifera x AVROStenera群体、AVROS tenera x AVROS tenera群体或其组合)相同类型的杂交油棕榈植物的群体。与群体相同的遗传背景也可以例如对应于基于将用于产生实验油棕榈植物从其取样的群体的相同个体油棕榈植物进行杂交的群体。与群体相同的遗传背景也可以例如对应于实验油棕榈植物从其取样的相同实际群体。

如上文讨论的，该方法还包括步骤(iii)：基于实验油棕榈植物的第一SNP基因型至第十SNP基因型分别与相应的第一参考SNP基因型至相应的第十参考SNP基因型的匹配程度预测实验油棕榈植物的棕榈油产量。因此，例如，基于每对的两个SNP基因型至少共享在与群体相同遗传背景下指示高产油量性状的第一SNP等位基因，实验油棕榈植物的第一SNP基因型至第十SNP基因型可以匹配相应的第一参考SNP基因型至相应的第十参考SNP基因型。因此，例如，在一些实例中，针对指示高产油量性状的第一等位基因，第一SNP基因型和第一参考SNP基因型是杂合的，即两者都仅具有一个拷贝的SNP等位基因。而且，在一些实例中，针对指示高产油量性状的第一等位基因，第一SNP基因型和第一参考SNP基因型是纯合的，即两者都具有两个拷贝的SNP等位基因。而且，在一些实例中，第一SNP基因型对于指示高产油量性状的第一等位基因是杂合的，并且第一参考SNP基因型对于指示高产油量性状的第一等位基因是纯合的。而且，在一些实例中，第一SNP基因型对于指示高产油量性状的第一等位基因是纯合的，并且第一参考SNP基因型对于指示高产油量性状的第一等位基因是杂合的。

如上文讨论的，预测实验油棕榈植物的棕榈油产量的步骤可以进一步包括应用模型，比如基因型模型、显性模型或隐性模型等，以便于预测。

可以基于基因组选择对第一SNP标记至第十SNP标记进行排序，使得第一SNP标记至第十SNP标记提供在群体内鉴定的SNP的最大预测能力。

例如，根据一些实施方式，油棕榈植物群体包括Ulu Remis dura x AVROSpisifera群体，第一SNP标记位于染色体1的核苷酸31082003处，第二SNP标记位于染色体1的核苷酸31064632处，第三SNP标记位于染色体2的核苷酸50703308处，第四SNP标记位于染色体1的核苷酸31114410处，第五SNP标记位于染色体1的核苷酸31085464处，第六SNP标记位于染色体1的核苷酸29991680处，第七SNP标记位于染色体15的核苷酸23863567处，第八SNP标记位于染色体15的核苷酸23972701处，第九SNP标记位于染色体1的核苷酸31044765处，第十SNP标记位于染色体15的核苷酸23993289处，并且步骤(iii)进一步包括应用基因型模型，由此预测实验油棕榈植物的棕榈油产量。

而且，根据一些实施方式，油棕榈植物群体包括Banting dura x AVROS pisifera群体，第一SNP标记位于染色体9的核苷酸28853893处，第二SNP标记位于染色体13的核苷酸2331299处，第三SNP标记位于染色体7的核苷酸1390286处，第四SNP标记位于染色体9的核苷酸32838961处，第五SNP标记位于染色体1的核苷酸26066534处，第六SNP标记位于染色体16的核苷酸5635482处，第七SNP标记位于染色体6的核苷酸18085183处，第八SNP标记位于染色体1的核苷酸28139147处，第九SNP标记位于染色体6的核苷酸26560042处，第十SNP标记位于染色体6的核苷酸18209857处，并且步骤(iii)进一步包括应用基因型模型，从而预测实验油棕榈植物的棕榈油产量。

该方法还可以通过确定另外的SNP基因型来进行，例如，以便提高预测准确度和/或实现最大预测准确度。因此，在一些实例中，步骤(i)进一步包括从实验油棕榈植物的样品确定实验油棕榈植物的至少第十一SNP基因型至第三十SNP基因型，该第十一SNP基因型至该第三十SNP基因型分别对应于第十一SNP标记至第三十SNP标记，该第十一SNP标记至该第三十SNP标记(a)分别位于用于高产油量性状的第十一QTL至第三十QTL中，并且(b)在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联，或者分别相对于与该第十一SNP标记至该第三十SNP标记连锁的第十一其他SNP标记至第三十其他SNP标记具有至少0.2的连锁不平衡r²值，该第十一其他SNP标记至该第三十其他SNP标记在分层和亲缘关系校正之后，以群体中至少3.0的全基因组-log₁₀(p值)与高产油量性状相关联。根据这些实例，步骤(ii)进一步包括将实验油棕榈植物的第十一SNP基因型至第三十SNP基因型分别与在与该群体相同遗传背景下指示高产油量性状的相应的第十一参考SNP基因型至相应的第三十参考SNP基因型进行比较.而且根据这些实例，步骤(iii)进一步包括：基于该实验油棕榈植物的第十一SNP基因型至第三十SNP基因型分别与相应的第十一参考SNP基因型至相应的第三十参考SNP基因型的匹配程度来预测实验油棕榈植物的棕榈油产量。这种方法可以用来提高预测准确度。类似地，在一些实例中，该方法包括确定和比较甚至更多的SNP基因型，例如，第三十一SNP基因型至例如第五十SNP基因型、第一百SNP基因型、第二百SNP基因型、第三百SNP基因型、第四百SNP基因型、第五百SNP基因型、或第一千SNP基因型。这种方法可以用来进一步提高预测准确度和/或实现最大预测准确度。

如上文讨论的，在一些实例中，实验油棕榈植物是tenera候选农业生产植物。而且，在一些实例中，实验油棕榈植物是用于母本棕榈选择和繁殖的植物、用于基因渗入的母本棕榈选择和繁殖的植物、或用于花粉供体选择和繁殖的植物。

还提供了一种选择高产棕榈油的油棕榈植物用于农业生产棕榈油的方法。该方法包括步骤(a)：预测实验油棕榈植物的棕榈油产量。该步骤可以如上讨论进行。该方法还包括步骤(b)：如果基于步骤(a)预测实验油棕榈植物的棕榈油产量高于群体的平均值，则田间种植实验油棕榈植物用于农业生产棕榈油。

还提供了一种选择高产棕榈油的油棕榈植物用于在细胞培养物中培养的方法。该方法包括步骤(a)：预测实验油棕榈植物的棕榈油产量。该步骤可以如上讨论的进行。该方法还包括步骤(b)：如果基于步骤(a)预测实验油棕榈植物的棕榈油产量比群体的平均值高，则使实验油棕榈植物的至少一个细胞在细胞培养物中培养。

还提供了一种选择亲本油棕榈植物用于育种以获得农业生产植物或改良的亲本油棕榈植物的方法。该方法包括步骤(a)：预测实验油棕榈植物的棕榈油产量。该步骤可以如上讨论进行。该方法还包括步骤(b)：如果基于步骤(a)预测实验油棕榈植物的tenera后代的棕榈油产量比群体平均值高，则选择该实验油棕榈植物用于育种。

以下实施例是为了说明的目的，并不意图限制权利要求的范围。

实施例

取样和DNA制备

对源自Ulu Remis dura x AVROS pisifera群体(1,218株棕榈)和Banting durax AVROS pisifera群体(953株棕榈)的全基因组关联研究(也称为GWAS)定位群体进行取样。样品选择基于油/株棕榈植物(也称为O/P)变体的良好代表和相应育种者记录的系谱。使用DNAeasy(R)Plant Mini Kit(荷兰林堡Qiagen公司)从没有展开的嫩叶中分离总基因组DNA。

全基因组重新测序

基于来自每个样品的相等摩尔浓度的DNA集合样品以形成测序DNA池。使用HiSeq2000(TM)测序***(加利福尼亚州圣地亚哥Illumina公司)制备重新测序的文库，以产生100 bp双端读数至35x基因组覆盖，得到1,015,758,056个原始读数。使用BWAMapper(如Li&Durbin，Bioinformatics 26：589-595(2010)发表)，用默认参数，对该双端读数整理、过滤并与已发表的油棕榈基因组(如Singh等人，Nature 500：335-339(2013年)所描述的)比对。然后使用SAMtools(Li等人，Bioinformatics 25：2078-2079(2009)发表)调出并过滤共计6,846,197个假定的SNP，参数如下：SNP的最小定位质量分数为25，最小深度为3x，与间隙的最小SNP距离为2bp。假定的SNP中，去除了从Elaeis oleifera产生的1,085,204个SNP。基于覆盖(最小17或最大53)、最小分数为8的基因型质量和/或最小等位基因频率(也称为MAF)＜0.05)，还去除了746,092个SNP。根据Illumina的技术要求，进行其他筛选步骤，去除了5,274,000个SNP，包括去除距离小于60bp和模糊核苷酸的SNP对。这产生了664,136个质量SNP。根据连锁不平衡，将r²截止值设定为0.3，其中将共计200K的SNP(平均密度为每11Kb一个SNP)提交给Illumina，使用Illumina的用于Infinium的测定设计工具(Illumina)进行设计分数计算。

SNP基因分型

使用OP 100K Infinium阵列(Illumina)来测定GWAS定位群体(～250ng DNA/样品)。然后通过不需要凝胶电泳的受控的酶法将过夜扩增的DNA样品片段化。在相应的毛细管流通室中培育过夜后，将重新悬浮的DNA样品与BeadChips(Illumina)杂交。等位基因特异性杂交被荧光标记并通过BeadArray Reader(Illumina)检测。然后使用GenomeStudio数据分析软件(Illumina)分析原始读数，用于自动化基因分型调用和质量控制。为了产生用于GWAS的基因型数据集，仅接受具有＞0.01的最小等位基因频率和＞90％的调出率(callrate)的SNP。随后，根据Endelman，Plant Genome 4：250-255(2011年)，基于每个标记的平均值输入那些SNP的缺失基因型。

遗传分层和群体分析

研究中的个体首先根据基于其各自的背景分成不同的群体，这解决了群体结构效应。在每个群体中，使用个体之间的关系矩阵进行亲缘关系矫正，这解决了隐蔽相关性。

表型数据汇编和GWAS

O/P对应于来自每株油棕榈植物每年收获的总串的棕榈油总产量。O/P被测量为FFB x O/B。FFB对应于每株棕榈每年产生的束的总重量。通常在束收获期间在田间进行FFB的测量。O/B对应于每束的油含量。根据如Blaak等人，“Methods of bunch analysis”，Breeding and Inheritance in the Oil Palm(Elaeis guineensis Jacq.)第二部分，第4卷：146-155(J.W.Afr.Ins.Oil Palm Res.，1963)所描述的行业实践，以及如Rao等人，“ACritical Reexamination of the Method of Bunch Analysis in Oil Palm Breeding”，Palm Oil Research Institute Malaysia Occ Paper 9：1-28(1983)所描述的修改，进行O/B的测量。基于Zhang等人，Nature Genetics 42：355-360(2010)的压缩混合线性模型(也称为MLM)与P3D分析，在根据Endelman(2011)的rrBLUP程序中，分别对1,218株Ulu Remisdura x AVROS pisifera棕榈和953株Banting dura x AVROS pisifera棕榈进行关联分析。普通SNP总数为48,784个SNP，其中次要等位基因频率＞0.01。根据VanRaden，Journalof Dairy Science 91：4414-4423(2008)，通过包括亲缘关系矩阵来解释由隐蔽相关性导致的遗传子结构，作为压缩MLM方法中的随机作用。对于Ulu Remis dura x AVROSpisifera棕榈和Banting dura x AVROS pisifera棕榈的群体，由于O/P性状的复杂性质，全基因组显著性-log₁₀(p值)截止值固定在≥4和3。然后使用R包qqman(根据Turner，qqman：An R package for visualizing GWAS results using Q-Q and Manhattan plots，其可从http://biorxiv.org/content/early/2014/05/14/005165获得(最后访问2014年11月15日))构建四分位数-四分位数(Q-Q)图和曼哈顿图。根据Aulchenko等人(2007)，还根据R包GenABEL中估计的基因组膨胀因子(GIF)，对两种方法的膨胀假阳性信号进行评价。

SNP作用和统计学分析

针对O/P性状的基于基因型模型的SNP作用，进一步分析了根据-log₁₀(p值)≥3.0的显著SNP，在箱形图中图示说明，随后是使用R统计程序(可在https://www.r-project.org/上获得)进行多重比较的单因素ANOVA检验。同一分析方法被扩展，以通过显性模型(A/A+A/a，a/a)和隐性模型(A/A，A/a+a/a)来确定O/P与一个SNP等位基因(主要等位基因(A)或次要等位基因(a))的存在的关联。

基因组选择

对于基因组选择，SNP标记基于其与O/P性状的关联性评分进行分类。总共选择了994个独特的SNP标记来限定范围。针对基于其与O/P性状的关联性评分从高关联性至低关联性分类的SNP标记进行分析。还针对与基于其与O/P性状的关联性评分从高关联性至低关联性分类的SNP标记连锁不平衡的SNP标记进行分析。对于连锁不平衡的情况，基于每个连锁不平衡区域的一个随机SNP产生图，其中对于标记选择总共100次迭代次数，并且每次交叉验证50次循环。还通过从鉴定的SNP标记中随机选择500个SNP标记来进行阴性对照。

结果

表1中提供了Ulu Remis dura x AVROS pisifera群体和Banting dura x AVROSpisifera群体的油产量表型数据，以百分比O/P表示。可以看出，Ulu Remis dura x AVROSpisifera群体展现了平均O/P为49.29kg/株棕榈/年，并且Banting dura x AVROSpisifera群体Deli x AVROS群体展现了平均O/P为45.1kg/株棕榈/年。

如表2所示，与图3中的详细阐述一起，鉴定了Ulu Remis dura x AVROS pisifera群体和Banting dura x AVROS pisifera群体中O/P性状的五十七个QTL区域。染色体及其核苷酸的编号是根据如上文讨论的Singh等人，Nature 500：335-339(2013年)以及其中记录的补充信息中描述的非洲油棕榈E.guineensis的18亿个碱基基因组序列。57个QTL区域横跨17,931,276个核苷酸，相当于大约0.9％的油棕榈基因组。

如表3、表4、表5和表6所示，鉴定了提供关于Ulu Remis dura x AVROS pisifera群体和/或Banting dura x AVROS pisifera群体的O/P信息的且位于57个QTL中的一百一十九个SNP标记。SNP鉴定信息和位置信息在表3中提供。从表4和表5中可以看出，在UluRemis dura x AVROS pisifera群体和/或Banting dura x AVROS pisifera群体中的至少一个中，对于基因型模型、显性模型或隐性模型中的至少一个，每SNP标记产生至少3.0的全基因组范围-log₁₀(p值)。事实上，许多SNP标记在两个群体中和/或对于多于一个模型，产生至少3.0的全基因组范围-log₁₀(p值)。而且，从表6可以看出，对于在给定群体中检测到次要SNP等位基因的每SNP标记，包括与高产油量性状相关联的SNP等位基因(称为Max)的给定群体的油棕榈植物相比于缺乏SNP等位基因的给定群体的油棕榈植物(称为Min)的平均百分比O/P的差(称为δ)，关于特定的基因型模型，对于Ulu Remis dura x AVROS pisifera群体在0.56％至11.18％范围内，并且对于Banting dura x AVROS pisifera群体在0.18％至33.53％范围内。各种SNP标记提供关于两个群体的信息。

关于基因组选择，如表7、图4和图5所示，为了达到对于Ulu Remis dura x AVROSpisifera群体和Banting dura x AVROS pisifera群体的最大预测准确度，确定需要大约500个SNP标记。关于连锁不平衡，如表8和图6所示，结果表明，与基于其与O/P性状的关联性评分从高关联性至低关联性分类的SNP标记连锁不平衡的SNP标记也可以用于预测，关于阴性对照，如表9和图7所示，结果表明，如使用随机选择的标记所预期的，两个群体的预测准确度高达约0.4。

表1.Ulu Remis dura x AVROS pisifera群体和Banting dura x AVROSpisifera群体的油/株棕榈植物(也称为O/P)，以每株棕榈植物每年kg棕榈植物油表示。

表2.QTL区域1至57：染色体和核苷酸位置信息。

表3.QTL区域1至57中的SNP标记：SNP鉴定信息和位置信息。

表4.QTL区域1至57中的SNP标记：关于基因型模型、显性模型和隐性模型的UluRemis dura x AVROS pisifera群体主要等位基因、次要等位基因、最小等位基因频率和全基因组-log₁₀(p值).SNP编号与表3是一致的。

表5.QTL区域1至57中的SNP标记：关于基因型模型、显性模型和隐性模型的Banting dura x AVROS pisifera群体主要等位基因、次要等位基因、最小等位基因频率和全基因组-log₁₀(p值)。SNP编号与表3是一致的。

表6.在QTL区域1至57中的SNP标记：关于针对Ulu Remis dura x AVROS pisifera群体和Banting dura x AVROS pisifera群体的基因型模型，包括与高产油量性状相关联的SNP等位基因(称为Max)的油棕榈植物相比于缺乏SNP等位基因的油棕榈植物(称为Min)的平均百分比O/P的差(称为δ)。SNP编号与表3一致。缩写“n.s.”意为统计上不显著。

表7.根据基于与O/P性状的关联性评分分类的SNP标记的基因组选择的预测准确度。

表8.根据与基于与O/P性状的关联性评分分类的SNP标记连锁不平衡的SNP标记的基因组选择的预测准确度。

表9.基于随机选择的SNP标记的基因组选择的预测准确度。

工业应用

本文公开的方法可用于预测实验油棕榈植物的油产量，从而用于改进棕榈油的商业生产。

Claims

1.一种用于预测实验油棕榈植物的棕榈油产量的方法，所述方法包括以下步骤：

(i)从油棕榈植物群体的实验油棕榈植物的样品确定所述实验油棕榈植物的至少第一单核苷酸多态性(SNP)基因型，所述第一SNP基因型对应于第一SNP标记，所述第一SNP标记(a)位于用于高产油量性状的第一数量性状基因座(QTL)中，并且(b)在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组-log₁₀(p值)与所述高产油量性状相关联，或者相对于与所述第一SNP标记连锁的第一其他SNP标记具有至少0.2的连锁不平衡r²值，所述第一其他SNP标记在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组-log₁₀(p值)与所述高产油量性状相关联；

(ii)将所述实验油棕榈植物的所述第一SNP基因型与在与所述群体相同遗传背景下指示所述高产油量性状的相应的第一参考SNP基因型进行比较；以及

(iii)基于所述实验油棕榈植物的所述第一SNP基因型与所述相应的第一参考SNP基因型的匹配程度来预测所述实验油棕榈植物的棕榈油产量，

其中所述第一QTL是对应于以下中的一个的油棕榈基因组的区域：

(1)QTL区域1，从染色体1的核苷酸18204491延伸至18358401；

(2)QTL区域2，从染色体1的核苷酸18922390延伸至19167923；

(3)QTL区域3，从染色体1的核苷酸19188077延伸至19685080；

(4)QTL区域4，从染色体1的核苷酸23276098延伸至23456770；

(5)QTL区域5，从染色体1的核苷酸26021716延伸至26066534；

(6)QTL区域6，从染色体1的核苷酸28110016延伸至28234799；

(7)QTL区域7，从染色体1的核苷酸29798161延伸至30164329；

(8)QTL区域8，从染色体1的核苷酸30684639延伸至31160129；

(9)QTL区域9，从染色体1的核苷酸37811723延伸至38637229；

(10)QTL区域10，从染色体1的核苷酸38659012延伸至39206652；

(11)QTL区域11，从染色体1的核苷酸39243858延伸至39842157；

(12)QTL区域12，从染色体1的核苷酸61305818延伸至61572106；

(13)QTL区域13，从染色体2的核苷酸1068379延伸至1516571；

(14)QTL区域14，从染色体2的核苷酸1616491延伸至2016169；

(15)QTL区域15，从染色体2的核苷酸17637996延伸至17959911；

(16)QTL区域16，从染色体2的核苷酸20732085延伸至20977490；

(17)QTL区域17，从染色体2的核苷酸31844836延伸至31980071；

(18)QTL区域18，从染色体2的核苷酸50449700延伸至50857310；

(19)QTL区域19，从染色体2的核苷酸50879601延伸至51539414；

(20)QTL区域20，从染色体2的核苷酸52821582延伸至52960520；

(21)QTL区域21，从染色体3的核苷酸42585292延伸至42728875；

(22)QTL区域22，从染色体4的核苷酸9561644延伸至9701199；

(23)QTL区域23，从染色体4的核苷酸12469969延伸至13409114；

(24)QTL区域24，从染色体4的核苷酸14672228延伸至14789226；

(25)QTL区域25，从染色体5的核苷酸395189延伸至842107；

(26)QTL区域26，从染色体5的核苷酸47205529延伸至47293291；

(27)QTL区域27，从染色体5的核苷酸48857594延伸至48932286；

(28)QTL区域28，从染色体6的核苷酸5943980延伸至6002717；

(29)QTL区域29，从染色体6的核苷酸6337822延伸至6563232；

(30)QTL区域30，从染色体6的核苷酸6818733延伸至7281658；

(31)QTL区域31，从染色体6的核苷酸17578027延伸至18209857；

(32)QTL区域32，从染色体6的核苷酸26204516延伸至26755007；

(33)QTL区域33，从染色体6的核苷酸36492757延伸至36494757；

(34)QTL区域34，从染色体7的核苷酸219790延伸至1533149；

(35)QTL区域35，从染色体8的核苷酸8700733延伸至9242332；

(36)QTL区域36，从染色体8的核苷酸23767318延伸至23957652；

(37)QTL区域37，从染色体8的核苷酸26648547延伸至26848102；

(38)QTL区域38，从染色体9的核苷酸606020延伸至1309231；

(39)QTL区域39，从染色体9的核苷酸3499347延伸至3638435；

(40)QTL区域40，从染色体9的核苷酸28437588延伸至28513671；

(41)QTL区域41，从染色体9的核苷酸28581068延伸至28912034；

(42)QTL区域42，从染色体9的核苷酸32327318延伸至32434321；

(43)QTL区域43，从染色体9的核苷酸32538074延伸至32540074；

(44)QTL区域44，从染色体9的核苷酸32775289延伸至33054696；

(45)QTL区域45，从染色体9的核苷酸33133902延伸至33254107；

(46)QTL区域46，从染色体10的核苷酸15342814延伸至15405953；

(47)QTL区域47，从染色体11的核苷酸15933273延伸至15943963；

(48)QTL区域48，从染色体12的核苷酸12178551延伸至12249693；

(49)QTL区域49，从染色体13的核苷酸2052746延伸至2447722；

(50)QTL区域50，从染色体13的核苷酸14345084延伸至14709650；

(51)QTL区域51，从染色体13的核苷酸22031000延伸至22147560；

(52)QTL区域52，从染色体15的核苷酸23588504延伸至24307350；

(53)QTL区域53，从染色体16的核苷酸1511530延伸至1596020；

(54)QTL区域54，从染色体16的核苷酸2684531延伸至2803682；

(55)QTL区域55，从染色体16的核苷酸5535711延伸至5995857；

(56)QTL区域56，从染色体16的核苷酸8379248延伸至8554851；或

(57)QTL区域57，从染色体16的核苷酸8883687延伸至9269845。

2.如权利要求1所述的方法，其中所述高产油量性状包括每株棕榈植物增加的油。

3.如权利要求1或2所述的方法，其中所述油棕榈植物群体包括Ulu Remis dura xAVROS pisifera群体、Banting dura x AVROS pisifera群体或其组合。

4.如权利要求1、2或3所述的方法，其中：

所述油棕榈植物群体包括Ulu Remis dura x AVROS pisifera群体；

所述第一QTL对应于QTL区域7、8、13、14、16、18、19、25、33、52或54中的一个；

步骤(iii)进一步包括应用基因型模型，由此预测所述实验油棕榈植物的棕榈油产量；并且

所述第一SNP标记在分层和亲缘关系校正之后，以所述群体中至少4.0的全基因组-log₁₀(p值)与所述高产油量性状相关联，或者相对于与所述第一SNP标记连锁的第一其他SNP标记具有至少0.2的连锁不平衡r²值，所述第一其他SNP标记在分层和亲缘关系校正之后，以所述群体中至少4.0的全基因组-log₁₀(p值)与所述高产油量性状相关联。

5.如权利要求1、2或3所述的方法，其中：

所述油棕榈植物群体包括Ulu Remis dura x AVROS pisifera群体；

所述第一QTL对应于QTL区域8；

步骤(iii)进一步包括应用显性模型，由此预测所述实验油棕榈植物的所述棕榈油产量；并且

6.如权利要求1、2或3所述的方法，其中：

所述油棕榈植物群体包括Ulu Remis dura x AVROS pisifera群体；

所述第一QTL对应于QTL区域8、13、18、22、23或45中的一个；

步骤(iii)进一步包括应用隐性模型，由此预测所述实验油棕榈植物的所述棕榈油产量；并且

7.如权利要求1、2或3所述的方法，其中：

所述油棕榈植物群体包括Banting dura x AVROS pisifera群体；

所述第一QTL对应于QTL区域1、3、4、5、6、9、10、11、12、21、26、27、28、29、30、31、32、34、35、36、37、38、40、41、42、43、44、47、49、50、51、53、55或56中的一个；并且

步骤(iii)进一步包括应用基因型模型，由此预测所述实验油棕榈植物的所述棕榈油产量。

8.如权利要求1、2或3所述的方法，其中：

所述油棕榈植物群体包括Banting dura x AVROS pisifera群体；

所述第一QTL对应于QTL区域17、20、49或55中的一个；并且

步骤(iii)进一步包括应用显性模型，由此预测所述实验油棕榈植物的所述棕榈油产量。

9.如权利要求1、2或3所述的方法，其中：

所述油棕榈植物群体包括Banting dura x AVROS pisifera群体；

所述第一QTL对应于QTL区域2、5、9、10、15、17、24、26、27、28、29、31、32、34、35、36、39、41、44、46、47、48、50、51、56或57中的一个；并且

步骤(iii)进一步包括应用隐性模型，由此预测所述实验油棕榈植物的所述棕榈油产量。

10.如权利要求1-9中任一项所述的方法，其中所述实验油棕榈植物是tenera候选农业生产植物。

11.如权利要求1或2所述的方法，其中所述油棕榈植物群体包括Ulu Remis dura xUlu Remis dura群体、Ulu Remis dura x Banting dura群体、Banting dura x Bantingdura 群体、AVROS pisifera x AVROS tenera群体、AVROS tenera x AVROS tenera群体或其组合。

12.如权利要求1、2或11所述的方法，其中所述实验油棕榈植物是用于母本棕榈选择和繁殖的植物、用于基因渗入的母本棕榈选择和繁殖的植物、或用于花粉供体选择和繁殖的植物。

13.如权利要求1-12中任一项所述的方法，其中所述实验油棕榈植物是种子、幼苗、苗圃期植物、未成熟期植物、细胞培养植物、合子胚培养植物或体细胞组织培养植物。

14.如权利要求1-12中任一项所述的方法，其中所述实验油棕榈植物是生产期植物、成熟棕榈、成***本棕榈或成熟花粉供体。

15.如权利要求1-14中任一项所述的方法，其中：

步骤(i)进一步包括从所述实验油棕榈植物的所述样品确定所述实验油棕榈植物的至少第二SNP基因型，所述第二SNP基因型对应于第二SNP标记，所述第二SNP标记(a)位于用于所述高产油量性状的第二QTL中，并且(b)在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组-log₁₀(p值)与所述高产油量性状相关联，或者相对于与所述第二SNP标记连锁的第二其他SNP标记具有至少0.2的连锁不平衡r²值，所述第二其他SNP标记在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组-log₁₀(p值)与所述高产油量性状相关联；并且

步骤(ii)进一步包括将所述实验油棕榈植物的所述第二SNP基因型与在与所述群体相同遗传背景下指示所述高产油量性状的相应的第二参考SNP基因型进行比较，

其中所述第二QTL对应于QTL区域1至57中的一个，条件是所述第一QTL和所述第二QTL对应于不同的QTL区域。

16.如权利要求15所述的方法，其中步骤(iii)进一步包括基于所述实验油棕榈植物的第二SNP基因型与所述相应的第二参考SNP基因型的匹配程度来预测所述实验油棕榈植物的棕榈油产量。

17.如权利要求15或16所述的方法，其中：

步骤(i)进一步包括从所述实验油棕榈植物的样品确定所述实验油棕榈植物的至少第三SNP基因型至第五十七SNP基因型，所述第三SNP基因型至所述第五十七SNP基因型分别对应于第三SNP标记至第五十七SNP标记，所述第三SNP标记至所述第五十七SNP标记(a)分别位于用于所述高产油量性状的第三QTL至第五十七QTL中，并且(b)在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组-log₁₀(p值)与所述高产油量性状相关联，或者分别相对于与所述第三SNP基因型至所述第五十七SNP基因型连锁的第三其他SNP标记至第五十七其他SNP标记具有至少0.2的连锁不平衡r²值，所述第三其他SNP标记至第五十七其他SNP标记在分层和亲缘关系校正之后，以所述群体中至少3.0的全基因组-log₁₀(p值)与所述高产油量性状相关联；并且

步骤(ii)进一步包括将所述实验油棕榈植物的所述第三SNP基因型至所述第五十七SNP基因型分别与在与所述群体相同遗传背景下指示所述高产油量性状的相应的第三参考SNP基因型至相应的第五十七参考SNP基因型进行比较，

其中所述第三QTL至所述第五十七QTL各自对应于QTL区域1至57中的一个，条件是所述第一QTL至所述第五十七QTL各自对应于不同的QTL区域。

18.如权利要求17所述的方法，其中步骤(iii)进一步包括基于所述实验油棕榈植物的所述第三SNP基因型至所述第五十七SNP基因型分别与所述相应的第三参考SNP基因型至所述相应的第五十七参考SNP基因型的匹配程度来预测所述实验油棕榈植物的棕榈油产量。

19.一种选择高产棕榈油的油棕榈植物用于农业生产棕榈油的方法，所述方法包括以下步骤：

(a)根据权利要求1-18中任一项所述的方法预测实验油棕榈植物的棕榈油产量；以及

(b)如果基于步骤(a)预测所述实验油棕榈植物的所述棕榈油产量高于所述群体的平均值，则田间种植所述实验油棕榈植物用于农业生产棕榈油。

20.一种选择高产棕榈油的油棕榈植物用于在细胞培养物中培养的方法，所述方法包括以下步骤：

(a)根据权利要求1-18中任一项所述的方法来预测实验油棕榈植物的棕榈油产量；以及

(b)如果基于步骤(a)预测所述实验油棕榈植物的棕榈油产量高于所述群体的平均值，则使所述实验油棕榈植物的至少一个细胞在所述细胞培养物中培养。

21.一种选择亲本油棕榈植物用于育种以获得农业生产植物或改良的亲本油棕榈植物的方法，所述方法包括以下步骤：

(b)如果基于步骤(a)预测所述实验油棕榈植物的tenera后代的棕榈油产量比群体的平均值高，则选择所述实验油棕榈植物用于育种。