CN113593635A

CN113593635A - 一种玉米表型预测方法及***

Info

Publication number: CN113593635A
Application number: CN202110900665.8A
Authority: CN
Inventors: 秦涛; 关媛; 王慧; 郑洪建; 顾炜; 于典司; 卫季辉; 胡颖雄; 孙萍东
Original assignee: Shanghai Academy of Agricultural Sciences
Current assignee: Shanghai Academy of Agricultural Sciences
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-02

Abstract

本发明涉及一种玉米表型预测方法及***，该方法包括：采用基因芯片技术获得多个玉米品种的SNP数据，获得样本数据集，样本数据集中每个样本包括一个玉米材料的SNP碱基和玉米材料对应的玉米粒颜色；构建卷积神经网络模型；根据样本数据集，以SNP碱基为输入，以玉米粒颜色为输出训练卷积神经网络模型，获得玉米表型预测模型；将待预测玉米材料的SNP碱基输入玉米表型预测模型，获得待预测玉米材料的玉米粒颜色。本发明采用玉米表型预测模型进行玉米表型，提高了表型预测准确度和效率。

Description

一种玉米表型预测方法及***

技术领域

本发明涉及玉米育种领域，特别是涉及一种玉米表型预测方法及***。

背景技术

在玉米育种工作中，常采用常规育种及大田选育来确定所需材料，主要利用性状记录值、基于系谱计算的个体间亲缘关系，通过最佳线性无偏估计(best linear unbiasedpredication，BLUP)来估计各性状个体育种值(EBVs)，通过加权获得个体综合选择指数，根据综合选择指数高低进行选留。该方法育种过程长，育种机制相对落后。

为提高育种效率与育种精度，目前有全基因组选择(Genomic selection,GS)的方法来加快育种进度，其目的是使用覆盖全基因组的高密度标记进行选择育种的方法，GS基于统计模型来工作，极大地影响了基因组预测的准确度和效率。

发明内容

本发明的目的是提供一种玉米表型预测方法及***，提高了表型预测准确度和效率。

为实现上述目的，本发明提供了如下方案：

一种玉米表型预测方法，包括：

采用基因芯片技术获得多个玉米品种的SNP数据，获得样本数据集，所述样本数据集中每个样本包括一个玉米材料的SNP碱基和玉米材料对应的玉米粒颜色；

构建卷积神经网络模型；

根据所述样本数据集，以SNP碱基为输入，以玉米粒颜色为输出训练所述卷积神经网络模型，获得玉米表型预测模型；

将待预测玉米材料的SNP碱基输入所述玉米表型预测模型，获得待预测玉米材料的玉米粒颜色。

可选地，所述根据所述样本数据集，以SNP碱基为输入，以玉米粒颜色为输出训练所述卷积神经网络模型，获得玉米表型预测模型，具体包括：

根据所述样本数据集，采用BCEWithLogitsLoss作为损失函数，以SNP碱基为输入，以玉米粒颜色为输出训练所述卷积神经网络模型，获得玉米表型预测模型。

可选地，所述卷积神经网络模型包括依次连接的输入层、卷积块、Flatten层、全连接层和输出层；所述输入层用于输入每个样本数据的SNP碱基，所述卷积块用于对输入的SNP碱基进行特征提取，所述Flatten层用于将输入的数据进行数据扁平化，所述全连接层用于对输入的数据进行分类，所述输出层用于输出每个样本数据的玉米粒颜色。

可选地，所述卷积块中各卷积层的卷积核为1×8，边缘填充为3个像素，步长为2。

可选地，所述全连接层加入了dropout，dropout＝0.2。

本发明公开了一种玉米表型预测***，包括：

数据集采集模块，用于采用基因芯片技术获得多个玉米品种的SNP数据，获得样本数据集，所述样本数据集中每个样本包括一个玉米材料的SNP碱基和玉米材料对应的玉米粒颜色；

卷积神经网络模型构建模块，用于构建卷积神经网络模型；

模型训练模块，用于根据所述样本数据集，以SNP碱基为输入，以玉米粒颜色为输出训练所述卷积神经网络模型，获得玉米表型预测模型；

玉米表型预测模型应用模块，用于将待预测玉米材料的SNP碱基输入所述玉米表型预测模型，获得待预测玉米材料的玉米粒颜色。

可选地，所述模型训练模块，具体包括：

模型训练单元，用于根据所述样本数据集，采用BCEWithLogitsLoss作为损失函数，以SNP碱基为输入，以玉米粒颜色为输出训练所述卷积神经网络模型，获得玉米表型预测模型。

可选地，所述全连接层加入了dropout，dropout＝0.2。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过基因芯片技术获得多个玉米品种的SNP数据，以SNP碱基为输入，以玉米粒颜色为输出训练卷积神经网络模型，获得玉米表型预测模型，采用玉米表型预测模型进行玉米表型预测，提高了玉米表型预测准确度和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种玉米表型预测方法流程示意图；

图2为本发明卷积神经网络模型结构示意图；

图3为本发明训练集和测试集不同比例分割下的Accuracy、Precision、Recall和F1 score指标示意图；

图4为本发明训练集和测试集不同比例分割下的Train loss值示意图；

图5为本发明训练集和测试集不同比例分割下的ROC曲线及AUC值示意图；

图6为本发明训练集和测试集不同比例分割下的PR曲线示意图；

图7为本发明一种玉米表型预测***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种玉米表型预测方法流程示意图，如图1所示，一种玉米表型预测方法包括如下步骤：

步骤101：采用基因芯片技术获得多个玉米品种的SNP数据，获得样本数据集，样本数据集中每个样本包括一个玉米材料的SNP碱基和玉米材料对应的玉米粒颜色。

基因芯片技术具体为20K基因芯片技术。

玉米材料具体可以为玉米种子发芽后叶片。

步骤102：构建卷积神经网络模型；

步骤103：根据样本数据集，以SNP碱基为输入，以玉米粒颜色为输出训练卷积神经网络模型，获得玉米表型预测模型。

其中，步骤103具体包括：

根据样本数据集，采用BCEWithLogitsLoss作为损失函数，以SNP碱基为输入，以玉米粒颜色为输出训练卷积神经网络模型，获得玉米表型预测模型。

玉米表型预测模型为训练好的卷积神经网络模型。

玉米表型预测模型训练时，将样本数据集划分为训练集和测试集，训练集和测试集的比例为4:1。

步骤104：将待预测玉米材料的SNP碱基输入玉米表型预测模型，获得待预测玉米材料的玉米粒颜色。

卷积神经网络模型包括依次连接的输入层(Input layer)、卷积块(ConvolutionBlocks)、Flatten层、全连接层和输出层；输入层用于输入每个样本数据的SNP碱基，卷积块用于对输入的SNP碱基进行特征提取；Flatten层进行打平操作，用于将输入的数据进行数据扁平化；全连接层用于对输入的数据进行分类；输出层用于输出每个样本数据的玉米粒颜色。

如图2所示，输入层输入的每一行表示一个样本的全部SNP碱基，输入层中四列表示一个样本的全部SNP碱基，SNP碱基按照染色***置顺序排列，形成haplotype-likely(单倍型)数据。Flatten层输入的数据维度是三维数据(120，1，1250)，所以打平之后是120×1250。全连接层(Fully Connected Layer)为用来进行分类的层，输出的维度是40个。输出层(Output Layer)，用来进行模型结果的输出，即类别判定的结果。

卷积神经网络模型训练过程中，输出层经过损失函数的计算，得到损失值，再经过反向传播，沿着梯度减小(gradient descent)的方向对卷积神经网络模型中各层的神经元参数进行修正；接着再进行下一次的前向传播和反向传导的修正。反复多次迭代，直至模型达到最佳的效果。

卷积块中各卷积层的卷积核(kernel)为1×8，边缘填充(padding)为3个像素，步长(stride)为2。输入通道(input channels)为120，输出通道(output channels)为120。

如图2所示，卷积块对每个样本输入的20000个碱基进行特征提取，经过4层卷积层输出2500个特征碱基。图2中输入中“A”、“T”、“G”和“C”表示碱基。

卷积块中每层卷积使用的激活函数是relu激活函数，能给模型添加非线性因素。

为了防止卷积神经网络模型的过拟合，在全连接层加入了dropout，dropout＝0.2，卷积神经网络模型训练时随机关闭全连接层20％的神经元。

采用BCEWithLogitsLoss作为模型训练时的损失函数。

卷积神经网络模型训练时，优化器选用的是Adam优化器，Adam优化器是结合了动量梯度下降(gradient descent with momentum)和均方根反向传播(RMSprop)的一种优化器。gradient descent with momentum,梯度下降的更快，同时也更有机会逃脱局部最小值。RMSprop能够平衡各方面的力，使得模型能平稳快速的找到最小值。

下面以具体实施例说明本发明一种玉米表型预测方法。

获得本实施例需要的材料，选择1224份鲜食玉米自交系材料作为数据来源群体，该群体粒色表型包括黄粒色及白粒色两种表型，表型数据基于成熟籽粒颜色被统计。所有材料于2020年4月种植于上海市农业科学院庄行实验基地，种子发芽后取叶片使用CTAB法(Cetyltrimethylammonium Bromide，十六烷基三甲基溴化铵法)提取各材料DNA。

采用20K基因芯片技术，对本实施例群体中的材料进行SNP数据鉴定，获得了群体材料的基因型数据集(样本数据集)。具体为采用20K基因芯片技术，得到了1224个鲜食玉米品种的SNP信息，根据SNP信息获取类似单倍型(haplotype-likely)的序列，对类似单倍型的序列进行数据编码获得样本数据中的SNP碱基，其中数据编码包括One-Hot编码，如图2所示。

基于深度学习卷积神经网络构建特征提取模型，将20K SNP数据集(样本数据集)按比例划分，一部分为训练集用于模型训练，另一部分为测试集用于模型测试，以选择适合比例来训练本模型，并验证模型鉴定的准确率。

确定一个合适的训练集和测试集的划分比例，本实施例中的实验比例为(训练集：测试集)，90％：10％；80％：20％；70％：30％；60％：40％。最终最合适比例为：模型训练数据占总数据的80％，模型测试数据占总数据的20％，各模型分析指标显示最优。模型检测指标包括：Accuracyrate(准确率)，Precision(精确率)，Recall(召回率)，F1 score(F1分数)，train loss(训练损失)，ROC Cruve(ROC曲线)，Precision/Recall Cruve(PR曲线)。

采用上述四种训练集和测试集划分比例的方式来对卷积神经网络模型进行训练，训练次数为100次，获得4个训练好的卷积神经网络模型，各训练好的卷积神经网络模型的评价指标比较结果如下：

表1：各模型评价指标数值变化范围

图5中横坐标表示假阳率(false positive rate)，纵坐标表示真阳率(truepositive rate)，实线为ROC曲线，图5(a)中AUC值为0.934，图5(b)中AUC值为0.947，图5(c)中AUC值为0.970，图5(d)中AUC值为0.967。

图6中横坐标表示召回率，纵坐标表示精准率。

从比较结果来看，训练好的卷积神经网络模型在各个比例的数据集下训练和测试后都显示出了较高的准确度(Accuracy,Precision,Recall,F1 score，表1)，训练集与与测试集划分比例为A(60％：40％)、B(70％：30％)和C(80％：20％)条件下训练和测试的模型的拟合度最好，各指数的波动范围较小，能使表型数据与基因型数据快速拟合，其中由以C(80％：20％)的拟合程度最高，D表示训练集与与测试集比例为90％：10％，如图3所示，图3(a)表示训练集与测试集比例为60％：40％时各指标的拟合情况，图3(b)表示示训练集与测试集比例为70％：30％时各指标的拟合情况，，图3(c)表示示训练集与测试集比例为80％：20％时各指标的拟合情况，图3(d)表示示训练集与测试集比例为90％：10％时各指标的拟合情况。Train loss值是以交叉熵损失函数来计算的，代表模型输出与真实结果之间的距离，表1中结果显示(70％vs30％)和(80％vs 20％)数据分割下的输出效果最好，其最小损失值分别达到0.0014和0.0036，优于其他两个分割比例的数据集(图4)。ROC(receiveroperating characteristic curve，ROC)曲线能评估训练后模型的直接表现(图5)，结果显示各个模型都具有较高的真实性，其中C和D的AUC值最高，分别达到了0.970和0.967。PR(Precision and Recall curve)曲线代表的是精准率与召回率的关系，在一定情况下比ROC曲线更能反映模型的优劣，本实施例结果说明模型对数据的拟合随着不同的切分比例有细微指标上的差异，这也从侧面验证深度学习模型训练数据越多，模型预测越准确，但就数据集本身而言，用于训练模型的数据部分存在一个适宜范围，PR曲线显示不同模型分支下的Precision和Recall的稳定情况，图6(c)中PR曲线结果显示Precision和Recall在各自达到最大稳定值的时候都能保证另一数值的稳定性较高(接近1)，且稳定情况优于图6(a)中PR曲线结果，图6(b)和图6(d)中PR曲线的曲线稳定性则明显弱于图6(a)、图6(c)中PR曲线结果。

以上结果显示，数据集中的训练集和测试集的分配能很明显地影响模型的精密度，同时对模型的评估需要综合多个指标来考虑。在本发明中，图3显示，B和C比例训练的模型优于A和D比例训练的模型，表现为损失值较小；图5显示出B和D比例训练的模型优于A和C比例训练的模型，表现为B和D比例训练的模型的AUC值大于A和C比例训练的模型；图6显示出C比例训练的模型优于A、B和D比例训练的模型，表现为C比例训练的模型PR曲线中的Precision和Recall的相互稳定关系显著高于A、B和D比例训练的三个模型。从各结果对模型的评估价值来综合考虑，本发明中的C比例训练的模型的建立效果较为优秀，能更好地反映出基因型数据与表型数据间的映射关系。因此本发明中采用数据集的80％数据来训练模型，20％数据来测试模型，最后评估得到的模型可用于后续的粒色表型预测。

玉米表型预测模型的使用方法：种植待预测的玉米材料，取样并提取植物DNA，使用20K基因芯片方法获得基因型数据。使用训练好的模型来提取需预测材料基因型数据中的特征，对未知材料的表型进行预测。

本发明基于机器学习建立模型，依赖于现有的数据完成模型训练。玉米是一个经典的遗传学研究对象，其复杂的表型特征同样可用来对模型进行训练，使其更加贴合目的表型的预测效果，后续工作中，更加详尽、多样的表型数据可将本发明中的模型训练成多方面的模型分支，达到物尽其用的目的。总的来说，本发明预测模型可以不断优化加强，以适应育种工作的需要。人工智能研究目前飞速发展，越来越多的学习方案可进一步对本发明中的模型本身进行加强或者重塑，这些多方面的因素的调整或可代替本方案，但是就目前来说，本发明中所采用的机器学习模型是十分可靠的。

图7为本发明一种玉米表型预测***结构示意图，如图7所示，一种玉米表型预测***包括：

数据集采集模块201，用于采用基因芯片技术获得多个玉米品种的SNP数据，获得样本数据集，样本数据集中每个样本包括一个玉米材料的SNP碱基和玉米材料对应的玉米粒颜色；

卷积神经网络模型构建模块202，用于构建卷积神经网络模型；

模型训练模块203，用于根据样本数据集，以SNP碱基为输入，以玉米粒颜色为输出训练卷积神经网络模型，获得玉米表型预测模型；

玉米表型预测模型应用模块204，用于将待预测玉米材料的SNP碱基输入玉米表型预测模型，获得待预测玉米材料的玉米粒颜色。

模型训练模块203，具体包括：

卷积神经网络模型包括依次连接的输入层、卷积块、Flatten层、全连接层和输出层；输入层用于输入每个样本数据的SNP碱基，卷积块用于对输入的SNP碱基进行特征提取，Flatten层用于将输入的数据进行数据扁平化，全连接层用于对输入的数据进行分类，输出层用于输出每个样本数据的玉米粒颜色。

卷积块中各卷积层的卷积核为1×8，边缘填充为3个像素，步长为2。

全连接层加入了dropout，dropout＝0.2。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种玉米表型预测方法，其特征在于，包括：

构建卷积神经网络模型；

2.根据权利要求1所述的玉米表型预测方法，其特征在于，所述根据所述样本数据集，以SNP碱基为输入，以玉米粒颜色为输出训练所述卷积神经网络模型，获得玉米表型预测模型，具体包括：

3.根据权利要求1所述的玉米表型预测方法，其特征在于，所述卷积神经网络模型包括依次连接的输入层、卷积块、Flatten层、全连接层和输出层；所述输入层用于输入每个样本数据的SNP碱基，所述卷积块用于对输入的SNP碱基进行特征提取，所述Flatten层用于将输入的数据进行数据扁平化，所述全连接层用于对输入的数据进行分类，所述输出层用于输出每个样本数据的玉米粒颜色。

4.根据权利要求3所述的玉米表型预测方法，其特征在于，所述卷积块中各卷积层的卷积核为1×8，边缘填充为3个像素，步长为2。

5.根据权利要求3所述的玉米表型预测方法，其特征在于，所述全连接层加入了dropout，dropout＝0.2。

6.一种玉米表型预测***，其特征在于，包括：

卷积神经网络模型构建模块，用于构建卷积神经网络模型；

7.根据权利要求6所述的玉米表型预测***，其特征在于，所述模型训练模块，具体包括：

8.根据权利要求6所述的玉米表型预测***，其特征在于，所述卷积神经网络模型包括依次连接的输入层、卷积块、Flatten层、全连接层和输出层；所述输入层用于输入每个样本数据的SNP碱基，所述卷积块用于对输入的SNP碱基进行特征提取，所述Flatten层用于将输入的数据进行数据扁平化，所述全连接层用于对输入的数据进行分类，所述输出层用于输出每个样本数据的玉米粒颜色。

9.根据权利要求8所述的玉米表型预测***，其特征在于，所述卷积块中各卷积层的卷积核为1×8，边缘填充为3个像素，步长为2。

10.根据权利要求8所述的玉米表型预测***，其特征在于，所述全连接层加入了dropout，dropout＝0.2。