CN117672360A - 基于迁移学习的基因组选择方法、装置、设备及介质 - Google Patents

基于迁移学习的基因组选择方法、装置、设备及介质 Download PDF

Info

Publication number
CN117672360A
CN117672360A CN202410124704.3A CN202410124704A CN117672360A CN 117672360 A CN117672360 A CN 117672360A CN 202410124704 A CN202410124704 A CN 202410124704A CN 117672360 A CN117672360 A CN 117672360A
Authority
CN
China
Prior art keywords
data
training
model
target
biological material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410124704.3A
Other languages
English (en)
Other versions
CN117672360B (zh
Inventor
李金龙
王开义
张东峰
杨锋
张秋思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Original Assignee
Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences filed Critical Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority to CN202410124704.3A priority Critical patent/CN117672360B/zh
Publication of CN117672360A publication Critical patent/CN117672360A/zh
Application granted granted Critical
Publication of CN117672360B publication Critical patent/CN117672360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Ecology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于迁移学习的基因组选择方法、装置、设备及介质,涉及植物育种技术领域,该方法包括:获取多个生物材料的基因型数据;将所述多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个所述生物材料的目标性状育种值;基于所述目标性状育种值,对所述多个生物材料进行育种选择;其中,所述目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移所述预训练模型的部分参数在所述目标性状的训练数据集上训练得到的。

Description

基于迁移学习的基因组选择方法、装置、设备及介质
技术领域
本发明涉及植物育种技术领域,尤其涉及一种基于迁移学习的基因组选择方法、装置、设备及介质。
背景技术
基因组选择(Genomic Selection,GS)是育种计划中的一项重要技术,它利用训练数据集来解析基因型-表型关系,随后仅利用基因型数据来预测测试数据集中的基因组估计值。通过结合GS技术预测大规模材料的表型,选择潜在优异个体,极大地促进了育种过程。
目前有许多GS算法,它们可适用于不同的任务。主要有三类:1)统计方法,如基于混合线性模型的算法,基于贝叶斯估计的算法; 2)传统机器学习方法;3)深度学习方法。然而,由于各种原因,比如:1)不同预测任务之间的数据分布不一致,导致一些算法在一个任务上表现良好,但在另一个任务上表现不佳;2)基因型维度多、训练群体少导致的过拟合;3)基因型之间隐藏的关系难以挖掘;4)预测任务间孤立,难以利用历史数据,等等。目前这些算法在预测准确率上的表现尚不能满足育种选择的需求。
发明内容
针对现有技术存在的问题,本发明提供一种基于迁移学习的基因组选择方法、装置、设备及介质。
第一方面,本发明提供一种基于迁移学习的基因组选择方法,包括:
获取多个生物材料的基因型数据;
将所述多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个所述生物材料的目标性状育种值;
基于所述目标性状育种值,对所述多个生物材料进行育种选择;
其中,所述目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移所述预训练模型的部分参数在所述目标性状的训练数据集上训练得到的。
在一些实施例中,所述目标性状预测模型的训练过程包括:
获取样本生物材料的基因型数据和表型数据;所述表型数据包括所述目标性状的数据和所述多个其他性状的数据;
对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理;
基于数据预处理后每个所述其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
针对每个所述预训练模型,冻结所述预训练模型的部分参数,然后基于数据预处理后所述目标性状的训练数据集训练得到所述目标性状的候选预测模型;
选择预测准确率最高的候选预测模型作为所述目标性状预测模型。
在一些实施例中,所述对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理,包括:
对所述样本生物材料的基因型数据进行异常值、缺失值的处理,以及基因型数据的数值化处理;
对所述样本生物材料的表型数据进行异常值、缺失值的处理,以及表型数据的标准化处理。
在一些实施例中,所述多个生物材料与所述样本生物材料属于同一物种。
在一些实施例中,所述基因型数据为分子标记的数据。
在一些实施例中,所述深度学习网络模型为卷积神经网络或者多层感知机。
第二方面,本发明还提供一种基于迁移学习的基因组选择装置,包括:
获取模块,用于获取多个生物材料的基因型数据;
预测模块,用于将所述多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个所述生物材料的目标性状育种值;
选择模块,用于基于所述目标性状育种值,对所述多个生物材料进行育种选择;
其中,所述目标性状预测模型是在多个其他性状的训练数据集上训练得到预训练模型后,迁移所述预训练模型的部分参数在所述目标性状的训练数据集上训练得到的。
在一些实施例中,所述目标性状预测模型的训练过程包括:
获取样本生物材料的基因型数据和表型数据;所述表型数据包括所述目标性状的数据和所述多个其他性状的数据;
对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理;
基于数据预处理后每个所述其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
针对每个所述预训练模型,冻结所述预训练模型的部分参数,然后基于数据预处理后所述目标性状的训练数据集训练得到所述目标性状的候选预测模型;
选择预测准确率最高的候选预测模型作为所述目标性状预测模型。
在一些实施例中,所述对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理,包括:
对所述样本生物材料的基因型数据进行异常值、缺失值的处理,以及基因型数据的数值化处理;
对所述样本生物材料的表型数据进行异常值、缺失值的处理,以及表型数据的标准化处理。
在一些实施例中,所述多个生物材料与所述样本生物材料属于同一物种。
在一些实施例中,所述基因型数据为分子标记的数据。
在一些实施例中,所述深度学习网络模型为卷积神经网络或者多层感知机。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述第一方面所述的基于迁移学习的基因组选择方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述第一方面所述的基于迁移学习的基因组选择方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述第一方面所述的基于迁移学习的基因组选择方法。
本发明提供的基于迁移学习的基因组选择方法、装置、设备及介质,通过先在其他性状上训练预训练模型,然后通过迁移学习的方法在目标性状上进行再训练,得到最终的目标性状预测模型,利用该目标性状预测模型进行目标性状育种值的预测,大大提高了预测准确率,从而可实现智能化育种,提高了育种效率。
附图说明
为了更清楚地说明本发明或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于迁移学习的基因组选择方法的流程示意图;
图2是本发明提供的深度学习网络框架示例图;
图3是本发明提供的网络参数迁移示例图;
图4是本发明提供的基于迁移学习的基因组选择装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
本发明中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明中术语“多个”是指两个或两个以上,其它量词与之类似。
本发明中术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的基于迁移学习的基因组选择方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤100、获取多个生物材料的基因型数据。
步骤101、将多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个生物材料的目标性状育种值。
步骤102、基于目标性状育种值,对多个生物材料进行育种选择。
其中,目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移预训练模型的部分参数在目标性状的训练数据集上训练得到的。
具体地,该方法中各步骤的执行主体可以是基于迁移学习的基因组选择装置,该装置可通过软件和/或硬件实现,该装置可集成在电子设备中,电子设备可以是终端设备(如智能手机、个人电脑等),也可以是服务器(如本地服务器或云端服务器,也可以为服务器集群等),也可以是处理器,也可以是芯片等。
本发明实施例中,生物材料指植物的育种材料或个体,包括但不限于玉米、水稻、小麦、大豆、油菜、棉花等。
需要在多个生物材料中进行育种选择时,首先获取该多个生物材料的基因型(Genotype)数据,然后将其输入预先训练好的目标性状预测模型,该目标性状预测模型可输出每个生物材料的目标性状育种值,从而根据各个生物材料的目标性状育种值,即可实现对多个生物材料的育种选择。例如,可以将各个生物材料的目标性状育种值从大到小排序,优先选择目标性状育种值大的生物材料进行育种。
目标性状育种值,指的是反映生物材料对应目标性状的育种价值大小的表征。比如,目标性状为产量(Yield),产量育种值较大表示从产量维度来说该生物材料具有较大的育种价值。
本发明实施例中,生物材料的基因型数据可来源于脱氧核糖核酸(DeoxyriboNucleic Acid,DNA)微阵列芯片、液相芯片、基因组重测序等基因分型技术。
在一些实施例中,基因型数据为分子标记的数据。例如,m个生物材料的基因型数据可以为m个材料、n个分子标记的m×n的矩阵数据表,如下表1所示,表中NA表示缺失值。m和n均为整数,其取值可根据需求设计。
表1基因型数据示例
在输入目标性状预测模型之前对基因型数据的数据预处理过程与模型训练时对基因型数据的数据预处理过程相同,将在后文进行详细介绍,在此不做赘述。
本发明实施例中,目标性状预测模型是基于迁移学习方法训练得到的,不同于已有的模型训练方法,本发明先是在其他性状上训练预训练模型,然后迁移预训练模型的部分参数,在目标性状上训练出最终的模型。例如,目标性状为产量,可以先使用除产量以外的其他性状(比如植株高度(PH)、籽粒重(GW)、籽粒长(GL)、单株产量(YPP)等)的训练数据集来训练出最佳的预训练模型,然后迁移预训练模型的部分参数,使用产量这一性状对应的训练数据集来训练得到最终的预测模型。
本发明提供的基于迁移学习的基因组选择方法,通过先在其他性状上训练预训练模型,然后通过迁移学习的方法在目标性状上进行再训练,得到最终的目标性状预测模型,利用该目标性状预测模型进行目标性状育种值的预测,大大提高了预测准确率,从而可实现智能化育种,提高了育种效率。
在一些实施例中,目标性状预测模型的训练过程包括:
获取样本生物材料的基因型数据和表型数据;表型数据包括目标性状的数据和多个其他性状的数据;
对样本生物材料的基因型数据以及样本生物材料的表型数据进行数据预处理;
基于数据预处理后每个其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
针对每个预训练模型,冻结预训练模型的部分参数,然后基于数据预处理后目标性状的训练数据集训练得到目标性状的候选预测模型;
选择预测准确率最高的候选预测模型作为目标性状预测模型。
具体地,模型训练时,首先获取样本生物材料的基因型数据和表型(Phenotype)数据。其中,基因型数据和表型数据相对应,同一材料编号(Id)对应的基因型数据和表型数据可看作是一组数据,训练时,数据预处理后的表型数据作为标签,用于优化模型参数。
在一些实施例中,待预测生物材料与作为训练数据的样本生物材料属于同一物种。例如,用水稻材料的训练数据集训练出来的模型,用于水稻育种选择时的预测。
在一些实施例中,表型数据为类似基因型数据的矩阵数据表的形式。例如,m个生物材料、t个性状的表型数据可以为m×t的矩阵数据表,如下表2所示。其中,t均为大于或等于2的整数,其取值可根据需求设计。
表2 表型数据示例
得到样本生物材料的基因型数据和表型数据后,需要对其进行数据预处理,以提高数据质量,并为后续迁移学习做好准备。数据预处理后,便可以开始进行预训练模型的训练。
针对表型数据中的每个除目标性状以外的其他性状,都可以训练一个预训练模型。以植株高度的训练数据集训练一个预训练模型为例,训练预训练模型时,各个样本生物材料经数据预处理后的基因型数据作为模型的输入,模型对各个样本生物材料对应的植株高度进行预测,利用各个样本生物材料对应的植株高度标签和损失函数,不断优化模型参数,从而获得预测损失最小的预训练模型。
然后,针对每个预训练模型,冻结预训练模型的一部分网络参数,并采用目标性状的训练数据集来不断优化其他部分的网络参数,此优化过程与前文使用其他性状的训练数据集训练预训练模型类似,只是使用的训练数据集换成了目标性状的训练数据集。以目标性状为产量为例,训练时,各个样本生物材料经数据预处理后的基因型数据作为模型的输入,模型对各个样本生物材料对应的产量进行预测,利用各个样本生物材料对应的产量标签和损失函数,不断优化模型参数,直到获得预测损失最小的最优模型,此即为候选预测模型。
本发明实施例中,冻结的网络参数不做具体限制,例如可以冻结卷积层的网络参数,或者可以冻结全连接层的网络参数,等等。
得到多个目标性状的候选预测模型后,便可以从中挑选出预测准确率最高的一个候选预测模型作为最终使用的目标性状预测模型。模型预测准确率的评价方法可参照已有的方法,在此不做赘述。
本发明实施例中,可以采用卷积神经网络(Convolutional Neural Networks,CNN)、多层感知机(Multilayer Perceptron,MLP)等建立参数初始化的深度学习网络框架。模型结构包括但不限于卷积层、全连接层、Dropout层、池化层等,层的数量可调节。如利用卷积层,卷积核的大小可调节;如利用全连接层,全连接层节点数可调节(如1、2、3等)。
本发明实施例中,模型激活函数包括但不限于线性整流函数(Rectified LinearUnit,ReLU)、带参数的线性整流函数(Parametric Rectified Linear Unit,PreLU)、Sigmoid等。
本发明实施例中,模型训练时使用的损失函数包括但不限于均方误差(MeanSquared Error,MSE)、平均绝对误差(Mean Absolute Error,MAE)等。
本发明实施例中,模型训练时超参数(如学习率、batch size、 epoch size等)可调节。
在一些实施例中,对样本生物材料的基因型数据以及样本生物材料的表型数据进行数据预处理,包括:
对样本生物材料的基因型数据进行异常值、缺失值的处理,以及基因型数据的数值化处理;
对样本生物材料的表型数据进行异常值、缺失值的处理,以及表型数据的标准化处理。
例如,可以对样本生物材料的基因型数据先筛选出异常值,将异常值过滤掉(去除),过滤后的异常值采用和缺失值一样的填充方式处理。在填充之前,可以对基因型数据进行数值化处理。基因型数据的数值化处理包括但不限于将基因型数据转化为{0,1,2}、{-1,0,1}等基因型表示方式。
在一些实施例中,可以认定最小等位基因频率<0.05、缺失率>0.10的分子标记为异常值,当然也可以采用其他方法确定异常值,本发明不做限制。
在一些实施例中,异常值、缺失值的填充处理包括但不限于平均值法、连锁不平衡法等方法。
表3示例了进行数据预处理后的基因型数据,表3所示的示例,采用了{-1,0,1}的基因型表示方式,采用等位基因频率的方法将基因型数据替换为{-1,0,1}的矩阵。缺失值填补采用平均值法,即采用每个分子标记的平均值填补到缺失位置。
表3 数据预处理后的基因型数据示例
对于样本生物材料的表型数据,类似地,也可以先筛选出异常值,将异常值过滤掉(去除),过滤后的异常值采用和缺失值一样的填充方式处理。表型数据的异常值、缺失值填充处理方法包括但不限于平均值法、贝叶斯估计法、中位值法等。
异常值、缺失值填充处理之后,将数据进行标准化处理,以便将各种不同性状的数据统一到同一数量级维度,便于后续迁移学习的实施。标准化处理的方法包括但不限于最大最小值归一化法、Z-Score法、标准差归一化法等。
在一些实施例中,表型数据的异常值界定为:数据在平均值的正负三倍标准差(2σ)范围之外,当然,也可以采用其他方法确定异常值,本发明不做限制。
表4示例了进行数据预处理后的表型数据,表4所示的示例,缺失值填补采用平均值法,数据标准化处理的方法为最大最小值归一化。
表4 数据预处理后的表型数据示例
以下通过具体应用场景的示例对本发明提供的上述方法进行举例说明。
本示例以水稻作为待训练和预测的作物进行具体描述,数据集来自国际水稻研究所灌溉水稻育种项目,共299份水稻材料。本示例主要过程包括:
步骤S1,获取基因型数据,待预测生物材料与作为训练数据的生物材料属于同一物种,整理为m个材料、n个分子标记的m×n的矩阵数据表。
示例数据集采用GBS(Genotyping-by-Sequencing,测序法基因分型)对所有品系进行基因型鉴定和基因分型,包含73147个分子标记。示例数据可参见表1。
步骤S2,对基因型数据进行数据预处理,所述数据预处理包括异常值、缺失值的处理及基因型数据数值化。
本步骤认定最小等位基因频率<0.05、缺失率>0.10的分子标记为异常值,采用直接过滤的方法处理异常值。数值化采用等位基因频率的方法替换为{-1,0,1}的矩阵。缺失值填补采用平均值的方法,即采用每个分子标记的平均值填补到缺失位置。预处理后的示例数据可参见表3。
步骤S3,获取表型数据,表型数据每条数据均以m个材料、t个表型的m×t数据表来表示。收集了植株高度(PH)、籽粒重(GW)、籽粒长(GL)、单株产量(YPP)、产量(Yield)等表型数据,示例数据可参见表2。
步骤S4,对表型数据预处理,所述数据预处理包括异常值、缺失值的处理和数据标准化。
本步骤中异常值界定为数据在平均值的正负三倍标准差(2σ)范围之外,异常值去掉变为缺失值。缺失值处理方法为平均值法。数据标准化方法为最大最小值归一化。预处理后的示例数据可参见表4。
步骤S5,将每条生物材料的基因型数据和表型数据相对应,构建完整的训练数据集。可以根据生物材料的编号(Id)对基因型和表型进行对应,如基因型数据的“A1257”和表型数据的“A1257”为一组数据。
步骤S6,采用卷积神经网络(CNN)建立参数初始化的深度学***层(Flatten)和一个输出层,如图2所示。输入层接收一个m×n的矩阵,其中m表示个体数,n表示分子标记数。
步骤S7,利用基因型作为模型输入,所有表型(除产量外)中的一个作为输出,对S6中构建的模型框架进行训练,获得预测损失最小的预训练模型。
本示例中每个网络层的激活函数为ReLU,用于训练网络的优化器为自适应矩估计算法(Adaptive Moment Estimation,Adam)。使用网络输出与观测值之间的均方误差(MSE)作为训练损失函数,如下式:
式中,表示均方误差,/>表示观测值,/>表示网络输出的表型(即性状)数据。
对除产量外的所有表型进行的预训练,以5折交叉验证测试集的观测值与预测值的相关性评价模型效果:
式中,表示预测准确率,/>表示观测值,/>表示预测值,/>表示协方差,/>表示方差。
本示例对植株高度(PH)、籽粒重(GW)、籽粒长(GL)和单株产量(YPP)四个性状分别进行了预训练,得到的4个预训练模型的性能见下表5,其中R为预测准确率,SD为标准差。
表5 不同性状训练得到的预训练模型性能对比
步骤S8,针对每个预训练模型,冻结预训练模型的一部分网络参数,连接初始化参数的全连接层,基于预训练模型构建目标性状的深度学习模型。如图3所示,本示例迁移学习模型网络结构中卷积层的权重来自S7中各个性状的预训练模型,连接两个全连接层,全连接层的参数为初始化训练参数。
步骤S9,对S8中构建的目标性状的深度学习模型(4个)进行训练,从训练完成的4个模型中挑选出预测准确率最高的模型。
本示例中利用植株高度(PH)、籽粒重(GW)、籽粒长(GL)和单株产量(YPP)四个性状的预训练模型经S8重新设计网络结构,对产量(Yield)进行预测,迁移学习模型标记为FT-PH、FT-GW、FT-GL、FT-YPP,并与四种基因组选择常用算法(rrBLUP、随机森林(RF)、支持向量回归(SVR)、卷积神经网络(CNN))进行对比,结果如下表6。
表6传统基因组选择算法与迁移学习算法准确率对比
在传统的GS方法中,RF表现出了最好的性能,达到了0.333的预测精度,迁移学习模型优于RF,其中FT-GW模型的预测精度为0.388,比RF提高了16.57%,表明本示例中训练得到的模型具有出色性能。
步骤S10,使用训练完成的最优模型对待预测的基因型数据进行预测,输入为基因型数据,输出为目标性状的育种值。
进一步的,所述步骤S10中对于已知基因型而未知产量表型的数据可进行批量预测,从而根据预测值进行育种选择,节省育种中人力、物力成本,提高育种效率。
综上所述,本发明提出了一种基于迁移学习的基因组选择方法,通过对基因型数据和表型数据进行预处理,提高数据质量,然后建立预训练模型的深度学习框架,在某些性状进行预训练获得最优模型,然后通过迁移学习方法在目标性状上进行再训练,提高目标性状的预测准确率。作为一个通用的方法,可以将其应用到更广泛的性状和物种,提高育种效率。
下面对本发明提供的基于迁移学习的基因组选择装置进行描述,下文描述的基于迁移学习的基因组选择装置与上文描述的基于迁移学习的基因组选择方法可相互对应参照。
图4为本发明提供的基于迁移学习的基因组选择装置的结构示意图,如图4所示,该装置包括:
获取模块400,用于获取多个生物材料的基因型数据;
预测模块410,用于将多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个生物材料的目标性状育种值;
选择模块420,用于基于目标性状育种值,对多个生物材料进行育种选择;
其中,目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移预训练模型的部分参数在目标性状的训练数据集上训练得到的。
在一些实施例中,目标性状预测模型的训练过程包括:
获取样本生物材料的基因型数据和表型数据;表型数据包括目标性状的数据和多个其他性状的数据;
对样本生物材料的基因型数据以及样本生物材料的表型数据进行数据预处理;
基于数据预处理后每个其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
针对每个预训练模型,冻结预训练模型的部分参数,然后基于数据预处理后目标性状的训练数据集训练预训练模型,训练完成后得到目标性状的候选预测模型;
选择预测准确率最高的候选预测模型作为目标性状预测模型。
在一些实施例中,对样本生物材料的基因型数据以及样本生物材料的表型数据进行数据预处理,包括:
对样本生物材料的基因型数据进行异常值、缺失值的处理,以及基因型数据的数值化处理;
对样本生物材料的表型数据进行异常值、缺失值的处理,以及表型数据的标准化处理。
在一些实施例中,多个生物材料与样本生物材料属于同一物种。
在一些实施例中,基因型数据为分子标记的数据。
在一些实施例中,深度学习网络模型为卷积神经网络或者多层感知机。
在此需要说明的是,本发明提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行上述各实施例提供的任一所述基于迁移学习的基因组选择方法,例如:获取多个生物材料的基因型数据;将多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个生物材料的目标性状育种值;基于目标性状育种值,对多个生物材料进行育种选择;其中,目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移预训练模型的部分参数在目标性状的训练数据集上训练得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在此需要说明的是,本发明提供的电子设备,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可实现上述各实施例提供的任一所述基于迁移学习的基因组选择方法,例如:获取多个生物材料的基因型数据;将多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个生物材料的目标性状育种值;基于目标性状育种值,对多个生物材料进行育种选择;其中,目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移预训练模型的部分参数在目标性状的训练数据集上训练得到的。
在此需要说明的是,本发明提供的非暂态计算机可读存储介质,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
又一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例提供的任一所述基于迁移学习的基因组选择方法,例如:获取多个生物材料的基因型数据;将多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个生物材料的目标性状育种值;基于目标性状育种值,对多个生物材料进行育种选择;其中,目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移预训练模型的部分参数在目标性状的训练数据集上训练得到的。
在此需要说明的是,本发明提供的计算机程序产品,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于迁移学习的基因组选择方法,其特征在于,包括:
获取多个生物材料的基因型数据;
将所述多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个所述生物材料的目标性状育种值;
基于所述目标性状育种值,对所述多个生物材料进行育种选择;
其中,所述目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移所述预训练模型的部分参数在所述目标性状的训练数据集上训练得到的。
2.根据权利要求1所述的基于迁移学习的基因组选择方法,其特征在于,所述目标性状预测模型的训练过程包括:
获取样本生物材料的基因型数据和表型数据;所述表型数据包括所述目标性状的数据和所述多个其他性状的数据;
对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理;
基于数据预处理后每个所述其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
针对每个所述预训练模型,冻结所述预训练模型的部分参数,然后基于数据预处理后所述目标性状的训练数据集训练得到所述目标性状的候选预测模型;
选择预测准确率最高的候选预测模型作为所述目标性状预测模型。
3.根据权利要求2所述的基于迁移学习的基因组选择方法,其特征在于,所述对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理,包括:
对所述样本生物材料的基因型数据进行异常值、缺失值的处理,以及基因型数据的数值化处理;
对所述样本生物材料的表型数据进行异常值、缺失值的处理,以及表型数据的标准化处理。
4.根据权利要求2或3所述的基于迁移学习的基因组选择方法,其特征在于,所述多个生物材料与所述样本生物材料属于同一物种。
5.根据权利要求1至3任一项所述的基于迁移学习的基因组选择方法,其特征在于,所述基因型数据为分子标记的数据。
6.根据权利要求2所述的基于迁移学习的基因组选择方法,其特征在于,所述深度学习网络模型为卷积神经网络或者多层感知机。
7.一种基于迁移学习的基因组选择装置,其特征在于,包括:
获取模块,用于获取多个生物材料的基因型数据;
预测模块,用于将所述多个生物材料的基因型数据进行数据预处理后输入目标性状预测模型,得到每个所述生物材料的目标性状育种值;
选择模块,用于基于所述目标性状育种值,对所述多个生物材料进行育种选择;
其中,所述目标性状预测模型是在目标性状以外的多个其他性状的训练数据集上训练得到预训练模型后,迁移所述预训练模型的部分参数在所述目标性状的训练数据集上训练得到的。
8.根据权利要求7所述的基于迁移学习的基因组选择装置,其特征在于,所述目标性状预测模型的训练过程包括:
获取样本生物材料的基因型数据和表型数据;所述表型数据包括所述目标性状的数据和所述多个其他性状的数据;
对所述样本生物材料的基因型数据以及所述样本生物材料的表型数据进行数据预处理;
基于数据预处理后每个所述其他性状的训练数据集分别训练一个深度学习网络模型,训练完成后得到多个预训练模型;
针对每个所述预训练模型,冻结所述预训练模型的部分参数,然后基于数据预处理后所述目标性状的训练数据集训练得到所述目标性状的候选预测模型;
选择预测准确率最高的候选预测模型作为所述目标性状预测模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于迁移学习的基因组选择方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于迁移学习的基因组选择方法。
CN202410124704.3A 2024-01-30 2024-01-30 基于迁移学习的基因组选择方法、装置、设备及介质 Active CN117672360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410124704.3A CN117672360B (zh) 2024-01-30 2024-01-30 基于迁移学习的基因组选择方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410124704.3A CN117672360B (zh) 2024-01-30 2024-01-30 基于迁移学习的基因组选择方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117672360A true CN117672360A (zh) 2024-03-08
CN117672360B CN117672360B (zh) 2024-06-11

Family

ID=90079167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410124704.3A Active CN117672360B (zh) 2024-01-30 2024-01-30 基于迁移学习的基因组选择方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117672360B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118262799A (zh) * 2024-05-31 2024-06-28 北京市农林科学院信息技术研究中心 玉米小斑病抗病性预测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524545A (zh) * 2020-04-30 2020-08-11 天津诺禾致源生物信息科技有限公司 全基因组选择育种的方法和装置
CN114334007A (zh) * 2022-01-20 2022-04-12 腾讯科技(深圳)有限公司 基因脱靶预测模型训练方法、预测方法、装置及电子设备
CA3198963A1 (en) * 2020-12-21 2022-06-30 Abdulqader JIGHLY Selection methods
CN115050419A (zh) * 2022-05-24 2022-09-13 中国科学院东北地理与农业生态研究所 一种基于全基因组选择玉米苞叶松紧度的育种方法
CN115691660A (zh) * 2022-07-28 2023-02-03 中国科学院植物研究所 玉米籽粒镉积累性状的全基因组选择研究的方法
CN116580773A (zh) * 2023-04-10 2023-08-11 之江实验室 基于集成学习的育种跨代表型预测方法与***、电子设备
CN116612811A (zh) * 2023-04-28 2023-08-18 安徽农业大学 一种基于神经架构搜索的作物表型组学分析模型构建方法、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524545A (zh) * 2020-04-30 2020-08-11 天津诺禾致源生物信息科技有限公司 全基因组选择育种的方法和装置
CA3198963A1 (en) * 2020-12-21 2022-06-30 Abdulqader JIGHLY Selection methods
CN114334007A (zh) * 2022-01-20 2022-04-12 腾讯科技(深圳)有限公司 基因脱靶预测模型训练方法、预测方法、装置及电子设备
CN115050419A (zh) * 2022-05-24 2022-09-13 中国科学院东北地理与农业生态研究所 一种基于全基因组选择玉米苞叶松紧度的育种方法
CN115691660A (zh) * 2022-07-28 2023-02-03 中国科学院植物研究所 玉米籽粒镉积累性状的全基因组选择研究的方法
CN116580773A (zh) * 2023-04-10 2023-08-11 之江实验室 基于集成学习的育种跨代表型预测方法与***、电子设备
CN116612811A (zh) * 2023-04-28 2023-08-18 安徽农业大学 一种基于神经架构搜索的作物表型组学分析模型构建方法、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岑海燕;朱月明;孙大伟;翟莉;万亮;麻志宏;刘子毅;何勇;: "深度学习在植物表型研究中的应用现状与展望", 农业工程学报, no. 09, 8 May 2020 (2020-05-08) *
杨昊岩: "基于迁移学习的常见农作物品种识别方法研究", 《中国优秀硕士学位论文全文数据库 农业科技辑》, no. 7, 15 July 2023 (2023-07-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118262799A (zh) * 2024-05-31 2024-06-28 北京市农林科学院信息技术研究中心 玉米小斑病抗病性预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117672360B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN117672360B (zh) 基于迁移学习的基因组选择方法、装置、设备及介质
JP7522936B2 (ja) グラフニューラルネットワークに基づく遺伝子表現型予測
CN108764292B (zh) 基于弱监督信息的深度学习图像目标映射及定位方法
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
Baldominos et al. Evolutionary convolutional neural networks: An application to handwriting recognition
CN110379506A (zh) 针对心电图数据使用二值化神经网络的心律不齐检测方法
CN111899882B (zh) 一种预测癌症的方法及***
CN111798935B (zh) 基于神经网络的普适性化合物结构-性质相关性预测方法
EP4118229A1 (en) Multi-modal methods and systems
US11593942B2 (en) Fully convolutional genetic neural network method for segmentation of infant brain record images
CN113688862B (zh) 一种基于半监督联邦学习的脑影像分类方法及终端设备
CN111144296B (zh) 基于改进cnn模型的视网膜眼底图片分类方法
CN116258978A (zh) 一种自然保护区遥感影像弱标注的目标检测方法
CN117831636B (zh) 利用融合模型实施基因组选择的方法、装置、设备及介质
Çakmak Grapevine Leaves Classification Using Transfer Learning and Fine Tuning
CN112580797A (zh) 一种多模态多标签预测模型的增量学习方法
CN116805162A (zh) 基于自监督学习的Transformer模型训练方法
CN113657022B (zh) 一种芯片故障识别方法及相关设备
Cudic et al. Prediction of sorghum bicolor genotype from in-situ images using autoencoder-identified SNPs
CN115206538A (zh) 围术期患者样本数据集均衡方法及样本数据集获取***
CN109308936B (zh) 一种粮食作物产地的识别方法、识别装置及终端识别设备
CN111950615A (zh) 一种基于树种优化算法的网络故障特征选择方法
CN113469129A (zh) 一种基于卷积神经网络的小麦杂质图像检测方法
KR20230043071A (ko) 변이체 병원성 채점 및 분류 그리고 이의 사용
CN111178174A (zh) 基于深度卷积神经网络的尿液有形成分图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant