CN110705182B - 耦合作物模型和机器学习的作物育种适应时间预测方法 - Google Patents
耦合作物模型和机器学习的作物育种适应时间预测方法 Download PDFInfo
- Publication number
- CN110705182B CN110705182B CN201911076188.7A CN201911076188A CN110705182B CN 110705182 B CN110705182 B CN 110705182B CN 201911076188 A CN201911076188 A CN 201911076188A CN 110705182 B CN110705182 B CN 110705182B
- Authority
- CN
- China
- Prior art keywords
- crop
- model
- time
- breeding
- yield
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009395 breeding Methods 0.000 title claims abstract description 61
- 230000001488 breeding effect Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000010801 machine learning Methods 0.000 title claims abstract description 41
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 20
- 230000008878 coupling Effects 0.000 title claims abstract description 15
- 238000010168 coupling process Methods 0.000 title claims abstract description 15
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 15
- 230000008859 change Effects 0.000 claims abstract description 58
- 230000006978 adaptation Effects 0.000 claims abstract description 39
- 238000004088 simulation Methods 0.000 claims abstract description 27
- 238000013210 evaluation model Methods 0.000 claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 5
- 239000002689 soil Substances 0.000 claims description 22
- 240000008042 Zea mays Species 0.000 claims description 14
- 235000002017 Zea mays subsp mays Nutrition 0.000 claims description 14
- 238000011160 research Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 14
- 238000007726 management method Methods 0.000 claims description 12
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 claims description 11
- 235000005822 corn Nutrition 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000012271 agricultural production Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 238000011161 development Methods 0.000 claims description 6
- 238000010220 Pearson correlation analysis Methods 0.000 claims description 5
- 238000009331 sowing Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 241000209140 Triticum Species 0.000 claims description 2
- 235000021307 Triticum Nutrition 0.000 claims description 2
- 239000007789 gas Substances 0.000 description 11
- 230000002354 daily effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000009973 maize Nutrition 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000007261 regionalization Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 239000004927 clay Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000029553 photosynthesis Effects 0.000 description 1
- 238000010672 photosynthesis Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 102000037983 regulatory factors Human genes 0.000 description 1
- 108091008025 regulatory factors Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种耦合作物模型和机器学习的作物育种适应时间预测方法,包括如下步骤:S1:作物模型的校准和管理情景的模拟,以获得作物的生育期(DOY)和产量(Y);S2:选择关键特征变量,S3:构建混合评估模型,包括结合机器学习方法,选出精度最高的混合评估模型;S4:评估气候变化的影响,包括计算每个品种的产量变化(Yc);以及S5:识别育种适应的时间;包括计算各时间窗口内是否至少有任意的一半年份的所述产量变化的中值超过适应性阈值,如果满足条件,则确定该格点需要育种干预,育种适应的时间为所述时间窗口的中间时刻t;由此最终得到研究区在特定未来气候情景下需要育种适应的时间和地点。
Description
技术领域
本发明涉及农业信息技术领域,具体而言涉及一种耦合作物模型和机器学习的作物育种适应时间预测方法。
背景技术
气候变化导致极端气候事件的频率和强度显著增加(如极端高温,干旱和热浪等),对全球粮食安全构成了严重威胁。品种更新是农业生产***应对气候变化的关键措施,涉及培育(breeding),交付(delivery)和采用(adoption)三个环节,一般需要长达15-30年的时间且耗费大量资金。因此,应提前对育种适应时间进行科学的预测,以免浪费资金。然而,完成在区域尺度上***评估气候变化对现有品种的影响是确定何时何地需要育种适应的前提。
目前气候变化对作物品种的影响评估主要有两种方法:(1)统计模型,即在基准时段建立气象因子和产量之间的回归关系,然后将未来气候情景下气象要素的趋势带入统计模型估算气候变化的影响;但是该方法只能评估气候变化对单一品种的影响,无法***研究现有品种对气候变化的响应;(2)作物模型,其可以在天甚至小时尺度人为再现作物从播种到成熟的连续过程,反映作物生长对不同环境和管理因素的响应方式。在气候变化影响评估中,只需将基准时段和未来情景下的气象、土壤和管理数据输入作物模型模拟得到其对应的产量,然后将两个时段的产量进行对比即可估算气候变化的影响。现有的作物模型可分为两类:站点模型,是针对特定的田间试验设计的,虽然成功地刻画了管理措施对产量形成的影响,但是只能进行单点模拟。通过品种参数区域化和气象要素空间插值技术可以实现模型的区域化应用,但无可避免地引入了新误差;格点作物模型,其虽然可以表征区域空间差异,但是构建与运行需要大量的驱动数据,且由于地表参数以及品种和管理方式存在较大的空间异质性,使得其参数厘定非常困难,大区域研究依然不易实现。此外,格点模型主要考虑气象要素的变化对作物产量的影响,往往忽略了农艺措施的贡献。
现有的育种适应研究大多利用田间增温实验或作物模型基于假设品种的模拟来探讨培育抗高温和干旱的品种能否弥补气候变化导致的产量损失,目前还没有预测育种适应时间的框架。
因此,需要构建一种灵活高效的可在区域尺度上定量气候变化的影响,同时能够考虑品种等管理措施贡献的方法,该方法是预测育种适应时间的基础。
发明内容
本发明人在研究过程中认识到,机器学习是统计方法的直接继承,区别在于其利用权重进行预测而不对输入信息做任何假设,故对含有噪声的数据更加稳健,能够更好地刻画农业***的复杂非线性关系;此外,机器学习完全是数据依赖的,即其预测的空间尺度取决于输入数据,可灵活地进行多尺度的应用。因此,将站点模型的机理过程和机器学习模型数据驱动的的优势相结合,利用作物模型的输出训练机器学习算法构建一种混合评估模型,来刻画特定环境下气候、土壤、管理和品种与产量之间的复杂关系,然后将这一关系应用到一个均质的区域,即可在区域尺度上评估气候变化对不同品种的影响,为下一步育种适应时间的预测奠定基础。
并且,用于气候变化预测的交叉阈值分析能够确定某一事件发生的时间和地点(如估算全球温度在何时何地将高出前工业时代2℃),将该方法应用到气候变化适应性措施的研究,可对育种适应的时间和地点进行预测,能够为决策者提供现有品种何时何地将不可种植的早期信号,进而促进育种投资,这对保障国家和地区粮食安全至关重要。
基于上述发现,本发明耦合站点作物模型和机器学习构建了一种混合评估模型,实现了区域尺度气候变化对不同品种的影响评估,进而利用交叉阈值分析预测了育种适应的时间和地点,并且,本发明的研究还为站点模型的区域化应用开辟了思路,为气候变化适应性措施的研究提供了一种新框架。
根据本发明的一方面,提供一种耦合作物模型和机器学习的作物育种适应时间预测方法,包括如下步骤:
S1:作物模型的校准和管理情景的模拟,包括:获取研究区内实验站点的土壤数据(S),气象数据(W)和农业生产数据(A),并利用这些数据对作物模型进行校准,然后利用校准的作物模型来进行各种管理情景的模拟,以获得各种模拟情景下作物的生育期(DOY)和产量(Y);
S2:选择关键特征变量,包括:对于每个模拟情景,根据上述模拟获得的生育期(DOY),提取作物从播种到成熟每天的气象数据,计算生育期内的农气指标;将每个模拟情景对应的影响作物生长发育的特征变量进行整合,建立特征变量表;通过Pearson相关分析计算各特征变量之间的相关系,并且利用机器学习模型对特征变量的相对于产量的重要性进行分析排序,将相关性大于预定值(例如0.75)的特征变量以及对产量贡献不显著的特征变量去除,其余特征变量作为关键特征变量保留;
S3:构建混合评估模型,包括:将上述每次模拟对应的产量(Y)***相应的特征变量表,然后将各模拟情景以一定的比例划分为训练集和测试集,采用Python中的网格搜索(GridsearchCV)方法,基于所述训练集并利用所述关键特征变量和产量(Y)来优化机器学习模型的超参数,然后在测试集上利用10折交叉验证(10-fold cross validation)混合评估模型的精度,选出精度最高的混合评估模型;
S4:评估气候变化的影响,包括:分别将基准时段和未来时段的气候情景下每个品种格点尺度的关键特征变量输入所述精度最高的混合评估模型,得到基准时段和未来时段的栅格产量,比较并计算每个品种的产量变化(Yc),产量变化公式计算如下;
S5:识别育种适应的时间;包括:对于每个作物种植格点,计算未来时段每年多个品种的产量变化的中值;在该未来时段中设定一个时间窗口,该未来时段的起点作为所述时间窗口的起点,计算该时间窗口内是否至少有任意的一半年份的所述产量变化的中值超过适应性阈值,如果满足条件,则确定该格点需要育种干预,育种适应的时间为所述时间窗口的中间时刻t;然后以t+1为中间点设定下一个时间窗口进行同样的分析,如此循环直至时间窗口的终点移动到所述未来时段的终点,由此最终得到研究区在特定未来气候情景下需要育种适应的时间和地点,其中,产量变化为负值且小于一定的值时,则该产量变化定义为适应性阈值。
优选地,所述作物模型为DSSAT模型。
优选地,步骤S2和S3中,所述机器学习模型选自RF和XGBoost。
优选地,所述影响作物生长发育的变量包括农气指标、土壤属性、地理位置、品种。
优选地,步骤S3中,包括利用平均绝对误差(MAE)、均方根误差(RMSE)以及决定系数(R2)来评价精度,当MAE和RMSE最低且R2最高时该混合评估模型为精度最高的混合评估模型。
优选地,所述训练集和测试集的比例为约7-9:3-1,优选为8:2。
优选地,所述时间窗口为20年。
优选地,所述产量变化为-10%,作为适应性阈值。
优选地,所述耦合作物模型和机器学习的作物育种适应时间预测方法,还包括利用未来时段每年多个品种的产量变化的最大损失或最小损失值来替代所述中值,重复步骤S5以识别最早和最晚的育种适应时间和地点。
与现有技术相比,本发明实现了有益的技术效果:
1.实现了站点作物模型的区域化应用。首先利用站点模型模拟了当地各种生产条件下产量,然后用模拟结果训练机器学习模型,旨在利用机器学习刻画特定区域气候、管理和品种与产量之间的复杂关系,进而将该关系应用到一个均质的区域,实现了由点到面的外推。与传统的品种参数区域化相比,该方法更科学合理。
2.提高了气候变化影响评估的效率。与基于格点作物模型模拟相比,该方法只需少量的实验数据对站点模型进行校准,规避了格点模型复杂的数据准备和参数厘定过程。基于机器学习模型的混合评估模型的空间尺度只依赖于输入数据,可灵活地完成多尺度的气候变化影响评估。
3.提出了一种预测气候变化适应性措施的框架。本技术将用于气候变化预测的交叉阈值分析应用到作物育种时间的确定,首次预测了育种适应的时间和地点,这对农业生产***应对气候变化,保障粮食安全至关重要。该方法不限于育种适应时间的确定,还可以应用到转型适应等多种适应性措施的研究。
附图说明
附图中相同的附图标记标示了相同或类似的部件或部分。本发明的目标及特征考虑到如下结合附图的描述将更加明显,附图中:
图1是根据本发明的一个实施方案的耦合作物模型和机器学习的作物育种适应时间预测方法的流程示意图。
图2是根据本发明的一个实施方案的耦合作物模型和机器学习的作物育种适应时间预测方法的预测结果示意图。
具体实施方式
为清楚地说明本发明中的方案,下面给出优选的实施例并结合附图详细说明。以下的说明本质上仅仅是示例性的而并不是为了限制本公开的应用或用途。
应该理解的是,本发明所引用的作物模型以及机器学习模型本身是已知的,例如模型的各个子模块、各种参数、运行机制等等,因此本发明重点阐述作物模型以及机器学习之间的耦合应用过程。
图1是根据本发明的一个实施方案的耦合作物模型和机器学习的作物育种适应时间预测方法的流程示意图,下面结合附图来进一步阐述本发明方法。
参考图1,本发明的耦合作物模型和机器学习的作物育种适应时间预测方法,可以包括如下步骤:
选择合适的作物模型,例如DSSAT系列模型、MCWLA系列模型等,利用研究区内实验站点的土壤数据(S),气象数据(W)和农业生产数据(A)对该作物模型进行校准(也即,模型的本地化)以及各种管理情景的模拟。例如土壤参数可以包括土壤类型、颜色、坡度、渗透性、反射率、土层厚度、土壤水分蒸发限制、径流曲线数和土壤排水率、光合作用因子、土壤水下限或调萎点含水量、田间持水量,饱和含水量、土壤容量、土壤有机碳、氮、土壤PH值、粘粒含量和粉粒含量等等;所述气象参数可以包括日太阳辐射、日最高温度、日最低气温、日降雨量、日相对湿度和日平均风速等;所述农业生产数据包括站点尺度的灌溉、品种、施肥、种植密度、播种方式等等。利用这些参数数据对模型进行优化校准,实现本地化。然后利用校准的模型来进行各种管理情景的模拟,以获得各种模拟情景下作物的生育期(DOY)和产量(Y)。
图中示出了采用DSSAT模型,具体可以包括,将上述这些数据(S),(W)和(A)输入DSSAT模型中,分别生成模型可执行的文件S’,W’和A’;通过GLUE参数估算工具,调用上述文件S’,W’和A’进行计算,获得包含该研究区作物品种参数的文件C。然后基于农业生产数据(A)来设置各种农业管理情景,也即扩展所述农业生产数据A来模拟各种管理情景,并将修改后的数据再次输入作物模型中,生成文件A”,通过内嵌在作物模型中的作物***模型调用上述文件S’、W’、A”以及文件C,模拟获得作物的生育期(DOY)和产量(Y)。
如果需要,也可以利用上述数据(S),(W)和(A)对校准后的模型进行验证,例如将上述数据(S),(W)和(A)分为校准和验证两部分,利用校准部分校准模型,利用验证部分验证模型。
选择关键特征变量,包括:对于每个模拟情景,根据上述模拟获得的生育期(DOY),提取作物从播种到成熟每天的气象数据,例如最高温、最低温、平均温和降雨等,计算生育期内的农气指标,例如积温(GDD)、累积降雨量(Pgs)、标准降雨指数(SPI)等;将每个模拟情景对应的影响作物生长发育的特征变量进行整合,建立特征变量表。例如特征变量可以包括上述农气指标、土壤属性、地理位置、品种等,例如土壤属性可以包括排水下限(SLLL)、排水上限(SDUL)、饱和含水量(SSAT)、容重(SBDM)、酸碱度(SLHM)以及阳离子交换量(SCEC)等等,地理位置包括经纬度、高程等等。
通过Pearson相关分析计算各特征变量之间的相关性,并且利用机器学习模型对特征变量的相对于产量的重要性进行分析排序,将相关性大于预定值的特征变量以及对产量贡献不显著的特征变量去除,其余特征变量作为关键特征变量保留。
Pearson相关分析可以计算出各特征变量之间的相关性,例如当相关系数大于一定的值时,例如可以设定为大于0.75,将这些变量排除。机器学习模型例如可以是RF和XGBoost,这些模型本身是已知的,将上述参数变量输入这些机器学习模型,自动算出并输出特征变量的重要性排序,也即,根据这些特征变量对产量的影响(贡献)来进行排序,将对产量贡献不显著的特征变量去除,例如可以将排序所得序列最后几个变量删除。可以利用一种机器学习模型,也可以采用多种机器学习模型,例如同时采用RF和XGBoost,然后综合考虑两种模型的结果。
排除了上述特征变量之后,其余的特征变量即为关键特征变量,这些变量对作物产量的影响较大。
接下来利用关键特征变量以及产量(Y)来构建混合评估模型。可以包括将上述每次模拟对应的产量(Y)***相应的特征变量表,然后将各模拟情景(也即,样本)以一定的比例划分为训练集和测试集,例如所述训练集和测试集的比例可以为约7-9:3-1,优选为8:2;采用Python中的网格搜索(GridsearchCV)方法,基于所述训练集并利用所述关键特征变量以及产量(Y)来优化机器学习模型的超参数,例如多元线性回归的系数;机器学习模型例如可以是RF和/或XGBoost,由此构建混合评估模型。
然后在测试集上利用10折交叉验证(10-fold cross validation)混合评估模型的精度,选出精度最高的混合评估模型,其中可以利用平均绝对误差(MAE)、均方根误差(RMSE)以及决定系数(R2)来评价精度,当MAE和RMSE最低且R2最高时该混合评估模型为精度最高的混合评估模型。
之后,利用该精度最高的混合评估模型来评估气候变化的影响,可以包括分别将基准时段和未来时段的气候情景下每个品种格点尺度的关键特征变量输入所述精度最高的混合评估模型,得到基准时段和未来时段的栅格产量,比较并计算每个品种的产量变化(Yc),产量变化公式计算如下;
识别育种适应的时间。为了确定育种适应的时间和地点,首先需要定义一个品种的适应性阈值(adaptability threshold),低于这个阈值意味着在该格点在未来气候情景下种植现有品种将遭受巨大产量损失,则需要培育新的品种。也即,当产量变化为负值且小于一定的值时,该产量变化可以定义为适应性阈值,例如可以将Yc为-10%时定义为适应性阈值,或者是其他合适的值,其中负值意味着产量的损失(减产)。
对于每个作物种植格点,计算未来时段每年多个品种的产量变化的中值,也即在每个种植格点上,模拟一种作物的不同品种的每年产量变化并计算各品种产量变化的中值;然后在该未来时段中设定一个时间窗口,该未来时段的起点作为所述时间窗口的起点,计算该时间窗口内是否至少有任意的一半年份的所述产量变化的中值(产量损失)超过适应性阈值,如果满足条件,则确定该格(地)点需要育种干预,育种适应的时间为所述时间窗口的中间时刻t;然后以t+1为中间点设定下一个时间窗口进行同样的分析,如此循环直至时间窗口的终点移动到所述未来时段的终点,由此最终得到研究区在特定未来气候情景下需要育种适应的时间和地点,其中,产量变化为负值且小于一定的值时,该产量变化即为适应性阈值。
参考图1,图中示出以20年为时间窗口,判断这20年内是否至少有任意10年的产量损失超过适应性阈值,如果满足条件,则认为该地点需要育种干预,育种适应的时间为20年时间窗口的中间时刻;若不满足条件,则对下一个时间窗口进行分析,以此类推。最终得到研究区在特定未来气候情景下需要育种适应的时间和地点。
根据本发明所述的耦合作物模型和机器学习的作物育种适应时间预测方法还可以包括利用未来时段每年多个品种的产量变化的最大损失或最小损失值来替代所述中值,重复步骤S5以识别最早和最晚的育种适应时间和地点。
最早和最晚的育种适应时间的识别和上述过程一致,只是分别基于未来时段每年多个品种产量变化的最大值和最小值进行计算。也即,对于每个作物种植格点,计算未来时段每年多个品种的产量变化的最大损失或最小损失值;在该未来时段中设定一个时间窗口,该未来时段的起点作为所述时间窗口的起点,计算该时间窗口内是否至少有任意的一半年份的所述产量变化的最大损失或最小损失值超过适应性阈值,如果满足条件,则确定该格(地)点需要育种干预,最早或最晚的育种适应时间为所述时间窗口的中间时刻t;然后以t+1为中间点设定下一个时间窗口进行同样的分析,如此循环直至时间窗口的终点移动到所述未来时段的终点,由此最终得到研究区在特定未来气候情景下需要最早和最晚的育种适应时间和地点。
实施例
本案例以估测华北平原地区夏玉米产量为例进一步阐述本发明的技术方案。包括以下步骤:此例仅用于说明本发明,但不用来限制本发明的范围,例如本发明也可用于其他作物例如小麦等:
在本实例中,以预测我国黄淮海夏玉米在在RCP8.5(对未来碳排放提出了一种假设情景,即到2100年时,空气中的二氧化碳浓度要比工业革命前的浓度高3—4倍)情景下育种适应的时间为例,进一步阐述本发明的技术方法,耦合作物模型和机器学习的作物育种适应时间预测方法的流程,具体包括:
S1:采用DSSAT系列模型中的CERES-Maize模型,进行校准和当地管理情景的模拟。黄淮海玉米种植区的13个站点测试了六个玉米品种,如表1所示。将每个品种所有实验的土壤数据S,气象数据W和农业生产数据A输入CERES-Maize模型中,将数据以一定的比例分为校准和验证两部分,通过GLUE参数估算工具,调用校准年的上述三类文件,计算获得包含该地区作物品种参数的文件C;然后用验证年份的数据对校准的作物遗传参数进行验证,最终获得6套品种遗传参数。
表1黄淮海平原测试的玉米品种
基于农业生产数据A,例如可以根据具体农业种植经验或者多年的记录,来修改(扩充)每个实验站点农业生产数据A,以模拟基准年(1986-2005)6个品种,5个种植日期和6个种植密度下的不同管理情景下的产量,一共获得4680个模拟结果(13个站点*20年*6品种*5种植日期*6种植密度),保存每次模拟输出的生育期(DOY)和产量(Y)。
S2:选择关键特征。根据S1中模拟得到的生育期(DOY),提取每个管理情景下玉米从播种到成熟每天的最高温、最低温、平均温和降雨,根据表2的公式计算5个农气指标(农气指标计算为本领域所熟知,在此不赘述);接着,提取每次模拟的玉米生育期长度(DOY)及其对应站点的10个表层土壤属性(例如100cm处土壤理化性质、水文性质、酸碱度等)、3个地理位置信息(经纬度和高程),建立特征变量表。然后利用Pearson相关分析计算各特征之间的相关性,同时分别利用RF和XGBoost对因子的重要性进行排序,最后剔除相关性高和综合重要性得分低的因子,保存最终选择的特征。
表2玉米生育期农气指标的计算
s:种植日期,m:成熟日期.
*Droughts in a warming climate:a global assessment of standardizedprecipitation index(spi)and reconnaissance drought index,Asadi Zarch etal.2015
S3:构建混合评估模型。首先对应每次模拟将其产量***特征变量表,然后将样本以8:2的比例划分为训练集和测试集,基于80%的样本利用Python3.7中的网格搜索分别对RF和XGBoost进行参数优化,然后基于剩下的20%的样本利用10折交叉验证对模型的精度进行评价,最终选出MAE(Mean absolute error)和RMSE(root mean square error)最低,R2(coefficient of determination)最高的模型。结果显示基于XGBoost构建的混合评估模型的精度最高(表3),将用于下一步格点尺度的气候变化影响评估。
Oi和Si为观测值和模拟值,Oavg和Savg为对应的平均值。Ypred为混合评估模型的预测值,Ysimu是CERES-Maize的模拟值,n为样本量。
表3测试集上RF和XGBoost预测的玉米产量的精度
S4:评估气候变化的影响。要在格点尺度上评估气候变化的影响,需要将栅格特征变量输入评估模型,其中土壤和地理位置数据为0.5°×0.5°的格点数据,只需提取玉米种植格点的10个表层土壤属性和3个空间位置信息即可,5个农气指标和生育期长度(DOY)则需要进一步计算。
S4.1:获取格点尺度的DOY。将S1中每个实验站点气象文件W替换成基准时段(1986-2005)的气象数据,输入CERES-Maize模型模拟得到1986-2005年6个品种的生育期(DOY),然后将每个品种每年13个实验站点生育期插值得到0.5°×0.5°分辨率的DOY,最终获得每个品种20年格点尺度的DOY。
S4.2:计算农气指标。根据上一步得到的6个品种每年格点尺度的DOY,逐格点计算每个品种1986-2005年玉米生育期内的农气指标(GDD、TCD、OCA、Pgs和SPI),获得每个品种20年0.5°×0.5°分辨率的农气指标。
S4.3:计算格点尺度的产量。对于每一个品种,将1986-2005每年格点尺度的5个农气指标、10个表层土壤属性、1个DOY和3个空间位置特征输入混合评估模型,得到每个品种1986-2005年格点尺度的产量。
S4.4:将基准时段的气象数据替换为RCP8.5情景下2020-2060年的数据,重复步骤S4.1、S4.2、S4.3获得每个品种2020-2060年格点尺度的产量。
S4.5:将未来时段的产量与基准年的平均产量对比得到RCP8.5下2020-2060年的产量变化(Yc),计算公式为:
Yc是预测的产量变化,Yf和Yb分别为未来时段每年和基准年的平均产量。
S5:识别育种适应的时间。首先定义10%的产量损失为适应性阈值,低于该阈值意味着玉米生产将遭受巨大产量损失,需要进行育种干预。对于每个玉米种植格点,计算2020-2060每年6个品种产量变化的中值,然后以2030年为中点前后各10年设定一个时间窗口,计算20年内产量损失大于10%的概率,如果概率超过0.5,则认为该格点需要育种适应,育种时间为20年的中点。如若概率小于0.5,则以下一年为中点前后各10年选取时间窗口进行计算,以此类推直至中点移动到2050年。最终得到黄淮海玉米种植区在RCP8.5情景下育种适应的时间,结果如图2所示。
本发明实例所述的耦合作物模型和机器学习的作物育种时间预测方法,融合了作物模型和机器学习的优势,通过站点作物模型的输出训练机器学习模型,实现了站点作物模型的区域化应用,将交叉阈值分析应用到作物育种时间的预测,为气候变化适应性措施的研究提供了新框架。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的装置及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种耦合作物模型和机器学习的作物育种适应时间预测方法,包括如下步骤:
S1:作物模型的校准和管理情景的模拟,包括:获取研究区内实验站点的土壤数据,气象数据和农业生产数据,并利用这些数据对作物模型进行校准,然后利用校准的作物模型来进行各种管理情景的模拟,以获得各种模拟情景下作物的生育期和产量;
S2:选择关键特征变量,包括:对于每个模拟情景,根据上述模拟获得的生育期,提取作物从播种到成熟每天的气象数据,计算生育期内的农气指标;将每个模拟情景对应的影响作物生长发育的特征变量进行整合,建立特征变量表;通过Pearson相关分析计算各特征变量之间的相关系,并且利用机器学习模型对特征变量的相对于产量的重要性进行分析排序,将相关性大于预定值的特征变量以及对产量贡献不显著的特征变量去除,其余特征变量作为关键特征变量保留;
S3:构建混合评估模型,包括:将上述每次模拟对应的产量***相应的特征变量表,然后将各模拟情景以一定的比例划分为训练集和测试集,采用Python中的网格搜索GridsearchCV方法,基于所述训练集并利用所述关键特征变量和产量来优化机器学习模型的超参数,然后在测试集上利用10折交叉验证混合评估模型的精度,选出精度最高的混合评估模型;
S4:评估气候变化的影响,包括:分别将基准时段和未来时段的气候情景下每个品种格点尺度的关键特征变量输入所述精度最高的混合评估模型,得到基准时段和未来时段的栅格产量,比较并计算每个品种的产量变化Yc,产量变化公式计算如下;
S5:识别育种适应的时间;包括:对于每个作物种植格点,计算未来时段每年多个品种的产量变化的中值;在该未来时段中设定一个时间窗口,该未来时段的起点作为所述时间窗口的起点,计算该时间窗口内是否至少有任意的一半年份的所述产量变化的中值超过适应性阈值,如果满足条件,则确定该格点需要育种干预,育种适应的时间为所述时间窗口的中间时刻t;然后以t+1为中间点设定下一个时间窗口进行同样的分析,如此循环直至时间窗口的终点移动到所述未来时段的终点,由此最终得到研究区在特定未来气候情景下需要育种适应的时间和地点,其中,产量变化为负值且小于一定的值时,该产量变化定义为适应性阈值。
2.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述作物模型为DSSAT模型。
3.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,步骤S2和S3中,所述机器学习模型选自RF和XGBoost。
4.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述影响作物生长发育的特征变量包括农气指标、土壤属性、地理位置以及品种。
5.根据权利要求1所述的耦合作物模型和机器学***均绝对误差MAE、均方根误差RMSE以及决定系数R2来评价精度,当MAE和RMSE最低且R2最高时该混合评估模型为精度最高的混合评估模型。
6.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述训练集的比例为70%-90%,所述测试集的比例为10-30%。
7.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述时间窗口为20年。
8.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述适应性阈值为-10%。
9.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,还包括利用未来时段每年多个品种的产量变化的最大损失或最小损失值来替代所述中值,重复步骤S5以识别最早和最晚的育种适应时间和地点。
10.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述作物为玉米或小麦。
11.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述预定值为0.75。
12.根据权利要求1所述的耦合作物模型和机器学习的作物育种适应时间预测方法,其特征在于,所述训练集的比例为80%,所述测试集的比例为20%。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019108420333 | 2019-09-06 | ||
CN201910842033 | 2019-09-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705182A CN110705182A (zh) | 2020-01-17 |
CN110705182B true CN110705182B (zh) | 2020-07-10 |
Family
ID=69205290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911076188.7A Active CN110705182B (zh) | 2019-09-06 | 2019-11-06 | 耦合作物模型和机器学习的作物育种适应时间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705182B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11382260B2 (en) * | 2020-02-03 | 2022-07-12 | International Business Machines Corporation | Estimation of crop type and/or sowing date |
CN112308289A (zh) * | 2020-09-29 | 2021-02-02 | 北京农业信息技术研究中心 | 水稻产量预测方法及装置 |
CN112992271B (zh) * | 2020-11-06 | 2024-03-05 | 厦门大学 | 一种在室内快速预测作物纬度适应性的方法 |
CN113011683A (zh) * | 2021-04-26 | 2021-06-22 | 中国科学院地理科学与资源研究所 | 基于校正作物模型的作物估产方法及*** |
CN114648214B (zh) * | 2022-03-14 | 2023-09-05 | 江西省农业科学院园艺研究所 | 一种设施作物生理生化指标比重调配方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101811640B1 (ko) * | 2016-08-03 | 2017-12-26 | 한국과학기술연구원 | 기계학습을 이용한 작물의 생산량 예측장치 및 방법 |
CN109711102A (zh) * | 2019-01-27 | 2019-05-03 | 北京师范大学 | 一种作物灾害损失快速评估方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468854B (zh) * | 2015-11-27 | 2018-05-25 | 河北省科学院地理科学研究所 | 基于作物生长机理模型的关键因子产量贡献计算方法 |
CN109754125A (zh) * | 2019-01-18 | 2019-05-14 | 中国农业大学 | 基于作物模型、历史和气象预报数据的作物产量预报方法 |
CN109829234B (zh) * | 2019-01-30 | 2019-09-27 | 北京师范大学 | 一种基于高分辨率遥感数据和作物模型的跨尺度高精度动态作物长势监测和估产方法 |
-
2019
- 2019-11-06 CN CN201911076188.7A patent/CN110705182B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101811640B1 (ko) * | 2016-08-03 | 2017-12-26 | 한국과학기술연구원 | 기계학습을 이용한 작물의 생산량 예측장치 및 방법 |
CN109711102A (zh) * | 2019-01-27 | 2019-05-03 | 北京师范大学 | 一种作物灾害损失快速评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110705182A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705182B (zh) | 耦合作物模型和机器学习的作物育种适应时间预测方法 | |
Hufkens et al. | An integrated phenology modelling framework in R | |
Kucharik | Evaluation of a process-based agro-ecosystem model (Agro-IBIS) across the US Corn Belt: Simulations of the interannual variability in maize yield | |
Langstroff et al. | Opportunities and limits of controlled-environment plant phenotyping for climate response traits | |
Zhao et al. | Ensemble forecasting of monthly and seasonal reference crop evapotranspiration based on global climate model outputs | |
CN109800921B (zh) | 基于遥感物候同化和粒子群优化的区域冬小麦估产方法 | |
CN112163375B (zh) | 一种基于神经网络的长时间序列近地面臭氧反演方法 | |
Ballesteros et al. | Applications of georeferenced high-resolution images obtained with unmanned aerial vehicles. Part II: application to maize and onion crops of a semi-arid region in Spain | |
CN106845428A (zh) | 一种作物产量遥感估算方法及*** | |
Abedinpour et al. | Prediction of maize yield under future water availability scenarios using the AquaCrop model | |
CN113361191A (zh) | 基于多情景模拟的像元尺度冬小麦单产遥感估算方法 | |
CN113128871B (zh) | 一种气候变化条件下落叶松分布变化和生产力协同估算方法 | |
CN116485040B (zh) | 种子活力预测方法、***、电子设备及存储介质 | |
CN116681169A (zh) | 极端气候对作物产量影响的评估方法 | |
CN113011372A (zh) | 一种盐碱化土地自动监测和识别方法 | |
CN114140695A (zh) | 一种基于无人机多光谱遥感的茶树氮素诊断及品质指标测定的预测方法和*** | |
Borus et al. | Improving the prediction of potato productivity: APSIM-Potato model parameterization and evaluation in Tasmania, Australia | |
Peaucelle et al. | Representing explicit budburst and senescence processes for evergreen conifers in global models | |
Ahuja et al. | A synthesis of current parameterization approaches and needs for further improvements | |
WO2023131949A1 (en) | A versatile crop yield estimator | |
CN113762768B (zh) | 基于天气发生器和作物模型的农业旱灾动态风险评估方法 | |
KR101206055B1 (ko) | 무선 가스 인식 시스템 및 이를 이용한 인식 방법. | |
CN110766308B (zh) | 一种基于集合同化策略的区域农作物估产方法 | |
Kozak et al. | Evaluating various water stress calculations in RZWQM and RZ‐SHAW for corn and soybean production | |
CN116681315B (zh) | 温室气体净排放的估算方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |