CN115223660B - 生物种群评估模型的训练方法、装置和电子设备 - Google Patents

生物种群评估模型的训练方法、装置和电子设备 Download PDF

Info

Publication number
CN115223660B
CN115223660B CN202211140439.5A CN202211140439A CN115223660B CN 115223660 B CN115223660 B CN 115223660B CN 202211140439 A CN202211140439 A CN 202211140439A CN 115223660 B CN115223660 B CN 115223660B
Authority
CN
China
Prior art keywords
information
data
sampling
sample set
biological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211140439.5A
Other languages
English (en)
Other versions
CN115223660A (zh
Inventor
俞乐
赵剑桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211140439.5A priority Critical patent/CN115223660B/zh
Publication of CN115223660A publication Critical patent/CN115223660A/zh
Application granted granted Critical
Publication of CN115223660B publication Critical patent/CN115223660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种生物种群评估模型的训练方法、装置和电子设备,所述方法包括:获取采样区域的栅格数据和实地统计数据;根据采样区域中采样点的坐标信息,合并栅格数据和实地统计数据,获取生物种群评估模型的训练样本集;所述训练样本集包括:随机效应类型的第一特征和固定效应类型的第二特征;基于所述训练样本集中的所述第一特征和所述第二特征进行训练,获取生物种群评估模型。同时利用栅格数据和实地统计数据对评估模型进行训练,突破了现有技术中生物评估的空间限制,对随机效应和固定效应的合理应用提高了较大空间尺度下的生物种群评估的准确率,大大帮助了人类对于自然界生物种群的评估,提高了人类自然资源利用的准确率和效率。

Description

生物种群评估模型的训练方法、装置和电子设备
技术领域
本发明涉及生态学技术领域,尤其涉及一种生物种群评估模型的训练方法、装置和电子设备。
背景技术
生物多样性是人类社会赖以生存和发展的基础,自然社会中,生物多样性的评估离不开物种丰富度和群落丰富度。
通过对特定区域的实地调查,可以获取该区域的物种丰富度与群落丰度、栖息地土地利用类型等信息。这种调查方式提供了相对精准的实地统计数据,可以收集到详细的生物多样性数据和土地利用数据。
但是这种人为调查然后评估的方式通常聚焦于小尺度区域的具体细节,无法准确地评估较大空间尺度下的生物种群信息,这种情况下,会极大地放大人类利用自然资源时的错误率,导致自然资源调配的严重不均衡。
发明内容
本发明实施例提供一种生物种群评估模型的训练方法、装置和电子设备,可以突破现有技术中生物评估的空间限制,提高了评估较大空间尺度下的生物种群信息的准确率,极大地帮助了人类对于自然界生物种群的评估,提高了人类自然资源利用的准确率和效率。
第一方面,本发明实施例提供了一种生物种群评估模型的训练方法,所述方法包括:
获取采样区域的栅格数据和实地统计数据;
根据采样区域中采样点的坐标信息,合并所述栅格数据和实地统计数据,获取所述生物种群评估模型的训练样本集;所述训练样本集包括:随机效应类型的第一特征和固定效应类型的第二特征;
基于所述训练样本集中的所述第一特征和所述第二特征进行训练,获取生物种群评估模型,所述生物种群评估模型用于评估生物种群信息。
第二方面,本发明实施例提供了一种生物种群评估方法,所述方法包括:
获取目标区域的栅格数据和实地统计数据;
基于所述栅格数据和实地统计数据,根据物种数量评估模型,获取对所述目标区域内物种数量的评估结果;
基于所述栅格数据和实地统计数据,根据生物个体数量评估模型,获取对所述目标区域内生物个体数量的评估结果;
其中,所述物种数量评估模型和生物个体数量评估模型均为基于训练样本集中的第一特征和第二特征进行训练得到的。
第三方面,本发明实施例提供了一种生物种群评估模型的训练装置,所述装置包括:
采样区域数据获取模块,用于获取采样区域的栅格数据和实地统计数据;
采样区域数据合成模块,用于根据采样区域中采样点的坐标信息,合并所述栅格数据和实地统计数据,获取所述生物种群评估模型的训练样本集;所述训练样本集包括:随机效应类型的第一特征和固定效应类型的第二特征;
评估模型训练模块,用于基于所述训练样本集中的所述第一特征和所述第二特征进行训练,获取生物种群评估模型,所述生物种群评估模型用于评估生物种群信息。
第四方面,本发明实施例提供了一种生物种群评估装置,所述装置包括:
目标区域数据获取模块,用于获取目标区域的栅格数据和实地统计数据;
物种数量评估模块,用于基于所述栅格数据和实地统计数据,根据物种数量评估模型,获取对所述目标区域内物种数量的评估结果;
生物个体数量评估模块,用于基于所述栅格数据和实地统计数据,根据生物个体数量评估模型,获取对所述目标区域内生物个体数量的评估结果;
其中,所述物种数量评估模型和生物个体数量评估模型均为基于训练样本集中的第一特征和第二特征进行训练得到的。
第五方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器执行存储在所述存储器中的计算机程序,实现如第一方面所述的生物种群评估模型的训练方法。
第六方面,本发明实施例提供一种可读存储介质,所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时实现如第一方面所述的生物种群评估模型的训练方法。
本发明实施例包括以下优点:
在本申请实施例中,用采样区域的实地统计数据和栅格数据,同时兼顾生物种群评估中的随机效应和固定效应,对生物种群评估模型进行训练,有利于提高对生物种群的评估的准确率,而生物种群评估模型又可以包括物种数量评估模型和生物个体数量评估模型;然后将获取到的目标区域的栅格数据中的农地特征信息输入训练好的物种数量评估模型和生物个体数量评估模型,获取到对目标区域物种数量和生物个体数量的评估结果,实现了对目标区域生物种群的多角度评估。进一步地,同时利用栅格数据和实地统计数据对评估模型进行训练,突破了现有技术中生物评估的空间限制,对随机效应和固定效应的合理应用提高了评估较大空间尺度下的生物种群的准确率,极大地帮助了人类对于自然界生物种群的评估,提高了人类自然资源利用的准确率和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1示出了本发明的一种生物种群评估模型的训练方法实施例的流程图;
图2示出了本发明的一种生物种群评估方法实施例的流程图;
图3示出了本发明的生物种群评估模型的训练装置实施例的结构框图;
图4示出了本发明的一种生物种群评估装置实施例的结构框图;
图5示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。并且,需要说明的是,本申请实施例中获取各种数据相关过程,都是在遵照所在地国家相应的数据保护法规政策的前提下,并获取由相应装置所有者给予授权的情况下进行的。
生物多样性是人类社会赖以生存和发展的基础,自然社会中,生物多样性的评估离不开物种丰富度和群落丰富度。
通过对特定区域的实地调查,可以获取该区域的物种丰富度与群落丰度、栖息地土地利用类型等信息。这种调查方式提供了相对精准的实地统计数据,可以收集到详细的生物多样性数据和土地利用数据,但是这种认为调查然后评估的方式通常聚焦于小尺度区域的具体细节,效率较低且无法准确地评估较大空间尺度下的生物种群信息。前人基于遥感数据生产的农地动态栅格数据集具有覆盖大空间尺度的优点,但却不能实现对生物种群如物种数量和生物个体数量的有效评估。这种情况下,会极大地放大人类利用自然资源时的错误率,导致自然资源调配的严重不均衡。
参照图1,示出了本发明的一种生物种群评估模型的训练方法实施例的流程图,其中,对生物种群的评估可以包括对物种数量的评估和对生物个体数量的评估,所述方法可以包括:
步骤101、获取采样区域的栅格数据和实地统计数据。
所述采样区域覆盖目标区域。
所述栅格数据就是将空间分割成有规律的网格,每一个网格称为一个单元,并在各单元上赋予相应的属性值来表示实地的一种数据形式。在本发明中,目标区域的栅格数据是指反映生物所在地的农地动态特征的数据,所述农地动态特征包括但不限于目标区域的土地利用类型、采样点的周边农田面积比例类别、种植强度、单产以及肥料施用率,上述农地动态特征均是影响物种丰富度和群落丰富度的重要因素。
可选地,以种植强度为例,种植强度栅格数据可以以原始值为0、1、2、3的数字分别代表休耕、单季种植、双季种植、三季种植,从而反映出构成目标区域的栅格内的种植强度信息,进而获取到目标区域采样点附近整体的农作物种植强度。
栅格数据可以通过遥感数据直接获取,也可以根据公开的遥感数据集进行获取。栅格数据不仅突破了空间尺度下对生物种群的评估的局限性,而且从多角度丰富了物种和群落的影响因素。
所述实地统计数据是指在目标区域内通过设立采样点,实地采样获取的数据。实地所采集到的数据包括但不限于采样区域内采样点的位置信息、物种数量、生物个体数量等。当然,土地利用类型的分布信息也可以是通过遥感获取的栅格数据,二者也可以相互印证。实地统计数据可以采用公开的数据集、论文、研究等,也可以进行实地统计进行获取。
相较于栅格数据,实地统计数据更聚焦于小尺度区域的具体细节,综合上述栅格数据和实地统计数据,更有利于大尺度下对生物种群的评估,从多角度丰富了物种和群落的影响因素,提高了对生物种群的评估的全面性、准确性。
步骤102、根据采样区域中采样点的坐标信息,合并所述栅格数据和实地统计数据,获取所述生物种群评估模型的训练样本集。
所述训练样本集包括:随机效应类型的第一特征和固定效应类型的第二特征。
栅格数据和实地统计数据因为空间尺度上的区别,因此在对评估模型进行训练之前,有必要对二者进行合并,获取到采样区域内各个采样点的综合信息。
所述合并具体地是指根据实地统计数据中各采样点的完整的经纬度坐标,可以从栅格数据集中提取采样点的周边农田面积比例类别、种植强度、单产、全球肥料施用率等信息,再加上实地统计数据中的其他信息,最终,合并后的实地统计数据和栅格数据将被作为评估模型的训练样本,所述样本信息可以包括位置信息、采样点的物种数量信息或生物个体数量信息、农地动态特征。
所述位置信息可以包括采样点经纬度、采样点数据的原始来源、采样点上级分区、采样点本身,后三者又可以统称为采样数据来源信息,例如采样点数据原始来源为某公开的论坛,上级分区为论坛中的某个领域,采样点本身数据为某篇论文中的数据;又比如采样点数据来源为某个国家,上级分区为某个省份或州,采样点本身为某个区县,诸如上述信息都可以反映采样信息的来源,都可能会影响到后续的生物种群评估结果。
所述农地动态特征可以包括采样点的土地利用类型、采样点的周边农田面积比例类别、种植强度、单产、全球肥料施用率。
简而言之,生物种群评估模型的训练样本集中用于生物种群评估的特征信息主要包括农地动态特征和采样数据来源信息。
所述训练样本集包括:随机效应类型的第一特征和固定效应类型的第二特征。
固定效应是指在个体不随时间改变的变量中,存在变量与所预测的或自变量是相关的。固定效应更适合研究样本之间的区别,例如在本发明实施例中,农地动态特征是影响生物种群的主要因素,农地动态特征对于生物种群的影响保护某种内在的关系,二者是相关的,因此在本发明实施例中,农地动态特征可以作为生物种群评估的固定效应类型的特征。
随机效应是指在个体不随时间改变的变量中,存在变量与所预测的或自变量是不相关的。随机效应适合由样本来推断总体特征,例如,你想知道是否名牌大学的就业率高于普通大学,你随机选择了A、B、C、D4所学校进行比较,其中A和B为名牌大学,C和D为普通大学,你的结论不会仅限于这4所大学,而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此,这4所学校是从名牌和普通大学中随机挑选出来的。此时这四所大学不可观测的个体特征也是随机的,与自变量无关。由此,在本发明的实施例中,实地统计数据中的采样数据来源信息是随机的,对于生物种群的影响也不存在某种内在关系,二者是不相关的,因此所述采样数据来源信息可以作为生物种群评估的随机效应类型的特征。
将所述评估模型的训练样本集中的特征信息根据随机效应和固定效应进行划分,有利于更加准确地搭建所述评估模型。
步骤103、基于所述训练样本集中的所述第一特征和所述第二特征进行训练,获取生物种群评估模型,所述生物种群评估模型用于评估生物种群信息。
因此,针对所述训练样本集中的所述第一特征和所述第二特征,考虑到生物种群评估的随机效应和固定效应,而混合模型中可以同时包括事件的随机效应和固定效应,因此在本发明实施例中,可以优先使用混合模型或混合模型的扩展形式利用所述训练样本集搭建生物种群评估模型。
所述对生物种群的评估包括但不限于对物种数量的评估和对生物个体数量的评估,相应地,所述评估模型包括但不限于物种数量评估模型和生物个体数量评估模型,也可以针对随机效应和固定效应构成的混合模型对群落数量进行评估。
同时考虑对生物种群评估中的固定效应和随机效应,可以提高较大空间尺度下的对生物种群评估的准确率,使得生物种群的评估更加贴近自然界,极大地帮助了人类对于自然界生物种群的评估,有利于提高人类自然资源利用的准确率和效率。
在做好上述变量设置之后,利用训练样本集中对应的变量的数据信息对评估模型进行,获取生物种群评估模型。
将训练得到的生物种群评估模型进行应用,实现对目标区域进行生物种群的评估,包括对物种数量的评估和对生物个体数量的评估。将获取到的目标区域的栅格数据所包括的目标区域的农地特征信息输入至物种数量评估模型和生物个体数量评估模型,获取对目标区域内物种数量和生物个体数量的评估结果。
其中,具体过程可以参见图2所示的实施例。
可选地,所述训练样本集及包括第一训练样本集和第二训练样本集。
步骤102所述根据采样区域中采样点的坐标信息,合并所述栅格数据和实地统计数据,获取所述生物种群评估模型的训练样本集,包括:
步骤S1021、根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据;所述第一实地统计数据包括采样区域的物种数量信息;所述第二实地统计数据包括采样区域的生物个体数量信息。
因为所述实地统计数据中至少包括采样区域的物种数量信息、生物个体数量信息、位置信息等,其中,物种数量信息、生物个体数量信息均可作为对生物种群的评估的响应变量即因变量,从而搭建物种数量评估模型和生物个体数量评估模型。相应地,要对实地统计数据进行划分,所述第一实地统计数据用于对物种数量评估模型的训练;第二实地统计数据用于对生物个体数量评估模型的训练。
所述第一实地统计数据和第二实地统计数据均包括采样区域的农地特征信息和位置信息,由于二者用于不同的模型的训练,两个统计数据的区别在于,所以在所述第一实地统计数据中包括采样区域的物种数量信息,而第二实地统计数据包括采样区域的生物个体数量信息。
步骤S1022、根据采样区域中采样点的坐标信息,合并所述栅格数据和第一实地统计数据,获取所述评估模型的第一集合。
在搭建物种数量评估模型时,获取到采样区域的栅格数据和第一实地统计数据之后,要基于实地统计数据设立的采样点的坐标信息合并所述采样区域的栅格数据和第一实地统计数据,获取到每个采样点的样本信息,所述每个采样点的样本信息构成物种数量评估模型的第一集合。所述每个采样点的样本信息至少包括位置信息、采样点的物种数量、农地动态特征。
步骤S1023、根据采样区域中采样点的坐标信息,合并所述栅格数据和第二实地统计数据,获取所述评估模型的第二集合。
在搭建生物个体数量评估模型时,获取到采样区域的栅格数据和第二实地统计数据之后,要基于实地统计数据设立的采样点的坐标信息合并所述采样区域的栅格数据和第二实地统计数据,获取到每个采样点的样本信息,所述每个采样点的样本信息构成物种数量评估模型的第二集合。所述每个采样点的样本信息至少包括位置信息、采样点的物种数量、农地动态特征。
步骤S1024分别将所述第一集合和第二集合中的生物种群的特征信息进行固定效应类型和随机效应类型的划分,获得所述评估模型的第一训练样本集和第二训练样本集。
为了准确地针对生物种群评估中的随机效应和固定效应,有必要对所述第一集合和第二集合中的生物种群的特征信息即位置信息和农地动态特征进行划分,例如位置信息中的采样点数据来源信息可以划分为随机效应类型的第一特征,农地动态特征可以划分为固定效应类型的第二特征,有利于模型搭建时更好地利用固定效应类型的特征信息和随机效应类型的特征信息进行精确地生物种群模型搭建。
因此,所述第一样本集至少包括采样点的物种数量信息、第一特征信息和第二特征信息;所述第二训练样本集至少包括采样点的生物个体数量信息、第一特征信息和第二特征信息。
可选地,在步骤S1021所述根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据之前,步骤102所述根据采样区域中采样点的坐标信息,合并所述栅格数据和实地统计数据,获取所述生物种群评估模型的训练样本集,还包括:
步骤S1020,对所述实地统计数据进行校正。
基于原始的实地统计数据中记录的采样工作强度,校正各采样点的原始生物个体数量。采样工作强度被定量表示,其单位取决于站点的采样方法,例如:采用陷阱法采样时,采样工作强度为陷阱数量乘以采样天数;采用样带法取样时,采样工作强度为样带的长度,单位为米。采样工作强度与实地观测所记录的原始生物个体数量可被视为呈线性相关关系。因此,对于来源于同一原始来源的采样点数据,以其中的最大采样工作强度指标为标准,按比例放大其他采样点的物种数量信息和生物个体信息,得到校正后的物种数量信息和生物个体数量。
其次,由于实地观测中,往往存在部分采样点被重复记录的现象。为了避免数据重复,相同采样的统计数据被融合,确保每个采样点只保留一条有效记录。再次,基于校正与融合后的生物个体数量,计算部分生物个体数量数据缺失站点的生物个体数量,原始统计数据记录了某个物种是否出现、出现生物个体数量,这些记录可以用于进一步补充存在数据缺失的采样点生物个体数量信息和物种数量信息。
相应地,步骤S1021所述根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据,包括:
步骤S10211、根据校正后的所述实地统计数据,划分第一实地统计数据和第二实地统计数据。
可选地,所述对生物种群的评估包括对物种数量的评估和对生物个体数量的评估;所述第一特征包括采样信息来源;所述第二特征包括农地动态特征。
步骤103所述基于所述训练样本集,针对生物种群评估中的随机效应和固定效应对所述评估模型进行训练,获取生物种群评估模型,包括:
步骤S1031、以所述第一训练样本集中的物种数量信息为响应变量,基于第一训练样本集按照如下公式训练所述物种数量评估模型,获取基于广义线性混合模型的物种数量评估模型:
Figure 100002_DEST_PATH_IMAGE001
其中,g(Y)代表因变量Y与线性部分Xβ+Zμ+ε的连接函数;Y表示因变量物种数量;X代表自变量农地动态特征的设计矩阵,β代表自变量农地动态特征的参数矩阵;Z代表自变量采样数据来源信息的设计矩阵,所述μ用于表示所述第一训练样本集中的采样数据来源信息与物种数量的关系;ε代表随机误差矩阵;
所述物种数量,顾名思义,表示生物种类的数量。考虑到物种数量的分布在统计学上符合泊松分布,而不是正态分布,因此选择广义线性混合模型(GLMM)对目标区域的物种数量进行评估,搭建基于广义线性混合模型的物种数量评估模型。
广义线性混合模型(GLMM,Generalized linear mixed model)可以看作是线性模型的扩展形式,使得因变量不再要求满足正态分布,同时又包含了固定效应和随机效应。
要搭建基于广义线性混合模型的物种数量评估模型,则需要以训练样本集中的物种数量为响应变量。又考虑到泊松分布的广义线性混合模型往往存在数据过度分散的问题,往往通过采用增加随机效应自变量的方式以解决过度分散问题,在本发明实施例中,随机效应自变量可以包括采样点数据的原始来源、采样点的上级分区、采样点本身,具体情况可以根据实际情况或模型的训练效果进行选择。对应于上述随机效应自变量,固定效应自变量可以包括土地利用类型、周围农田面积比例类别、种植强度类别是分类变量、单产和肥料施用率。
广义线性混合模型的公式在线性混合模型的基础上,增添了连接函数,因变量满足指数型分布即可,在本发明实施例对物种数量评估模型的构建中,其公式形如:
Figure 100002_DEST_PATH_IMAGE002
(1),
其中,g代表连接函数,如自然对数函数ln()。通过连接函数可以实现因变量Y与线性部分Xβ+Zμ+ε的关联,可选地,可以根据物种数量符合泊松分布的分布特性,预先设定一个连接关系g,从而减少模型的训练量。Y代表因变量即物种数量;X代表固定效应自变量的设计矩阵,β代表固定效应自变量的参数矩阵,其中固定效应自变量代表上述构建物种数量模型所需的农地动态特征信息,固定效应自变量可以表示自变量农地特征信息;Z代表随机效应自变量的设计矩阵,μ代表随机效应自变量的参数矩阵,其中,随机效应自变量代表上述构建物种数量模型所需的采样数据来源信息,即随机效应自变量可以表示自变量采样数据来源信息;ε代表随机误差矩阵。
可选地,在公式(1)中,所述随机效应自变量的设计矩阵可以是包括采样点数据的原始来源、采样点的上级分区和采样点本身信息等第一特征信息的三维特征矩阵,相应地,μ至少包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息,所述固定效应的设计矩阵可以是包括多个前文所述农地动态特征即第二特征信息的多维度特征矩阵。
在做好上述变量设置之后,利用第一训练样本集中的第一特征信息和第二特征信息针对性得对公式(1)中的随机效应自变量的参数矩阵、固定效应自变量参数矩阵进行训练,结合第一样本训练集中的其他信息,最终获取物种数量评估模型。
可选地,在本发明实施例中,可以将上述提及的土地利用类型、周围农田面积比例类别、种植强度类别、单产和肥料施用率等固定效应自变量进行组合,除了基于上述农地动态特征做目标区域的物种数量的综合评估,也可以针对特定的农地动态特征进行针对性评估。例如,可以构建如下五个广义线性混合模型以评估物种丰富度的响应:模型1的固定效应包括土地利用类型、周围农田面积比例类别;模型2的分析限定在土地利用类型为农田的样本点中,固定效应包括种植强度类别、周围农田面积比例类别;模型3的固定效应包括土地利用类型、单产;模型4的固定效应包括土地利用类型、肥料施用率,以及两者的相互作用;模型5的固定效应包括土地利用类型、周围农田面积比例类别、种植强度类别是分类变量、单产、肥料施用率。
步骤S1032、以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集按照如下公式训练生物个体数量评估模型,获取基于线性混合模型的生物个体数量评估模型:
Figure 100002_DEST_PATH_IMAGE003
其中,A表示因变量物种数量;B代表自变量农地动态特征的设计矩阵,m代表自变量农地动态特征的参数矩阵;C代表自变量采样数据来源信息的设计矩阵,所述n用于表示所述第二训练样本集中的采样数据来源信息与生物个体数量的关系;q代表随机误差矩阵。
线性混合模型是线性模型的一种扩展形式,包含了变量的固定效应和随机效应,对于符合正态分布的因变量具有极高的准确率,因此,在本发明实施例中,采用线性混合模型对目标区域内生物个体的数量进行评估。
要搭建基于线性混合模型的生物个体数量评估模型,则需要以训练样本集中的生物个体数量为响应变量。在以上述每个采样点的训练特征信息进行生物个体数量评估模型的训练时,随机效应自变量可以包括采样点数据的原始来源、采样点的上级分区、采样点本身,具体情况可以根据实际情况或模型的训练效果进行选择。对应于上述随机效应自变量,固定效应自变量可以包括土地利用类型、周围农田面积比例类别、种植强度类别是分类变量、单产和肥料施用率。在做好上述变量设置之后,利用第二训练样本集对所述线性混合模型进行训练,获取生物个体数量评估模型。
线性混合模型在固定效应之外,纳入了随机效应,对因变量的独立性和方差齐性不作要求,但因变量需满足正态性假设,在本发明实施例对生物个体数量评估模型的构建中,其公式形如:
Figure 100002_DEST_PATH_IMAGE004
(2),
其中,A代表因变量即物种数量;B代表固定效应自变量的设计矩阵,m代表固定效应自变量的参数矩阵,其中固定效应自变量代表上述的构建生物个体数量模型所需的农地动态特征信息,即固定效应自变量可以表示自变量农地特征信息;C代表随机效应自变量的设计矩阵,n代表随机效应自变量的参数矩阵,其中,随机效应自变量代表上述的构建生物个体数量评估模型所需的采样数据来源信息,即随机效应自变量可以表示自变量采样数据来源信息;q代表随机误差矩阵。
可选地,在公式(2)中,所述随机效应自变量的设计矩阵可以是包括采样点数据的原始来源、采样点的上级分区和采样点本身信息信息的三维特征矩阵,相应地,n包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息;所述固定效应的设计矩阵可以是包括多个前文所述农地动态特征的多维度特征矩阵。
在做好上述变量设置之后,利用第一训练样本集中的第一特征信息和第二特征信息针对性得对公式(1)中的随机效应自变量的参数矩阵、固定效应自变量参数矩阵进行训练,结合第一样本训练集中的其他信息,最终获取生物个体数量评估模型。
可选地,公式(1)中所述μ用于表示所述第一训练样本集中的采样数据来源信息与物种数量的关系,所述第一训练样本集中的采样数据来源信息包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息;公式(2)中所述n用于表示所述第二训练样本集中的采样数据来源信息与生物个体数量的关系,所述第二训练样本集中的采样数据来源信息包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息。
可选地,在本发明实施例中,可以将上述提及的土地利用类型、周围农田面积比例类别、种植强度类别、单产和肥料施用率等固定效应自变量进行组合,除了基于上述农地动态特征做目标区域的物种数量的综合评估,也可以针对特定的农地动态特征进行针对性评估。例如,可以构建如下五个线性混合模型以评估生物个体数量的响应:模型1的固定效应包括土地利用类型、周围农田面积比例类别;模型2的分析限定在土地利用类型为农田的样本点中,固定效应包括种植强度类别、周围农田面积比例类别;模型3的固定效应包括土地利用类型、单产;模型4的固定效应包括土地利用类型、肥料施用率,以及两者的相互作用;模型5的固定效应包括土地利用类型、周围农田面积比例类别、种植强度类别是分类变量、单产、肥料施用率。
结合生物个体数量的分布特征,选择线性混合模型搭建物种数量评估模型,可以准确地评估目标区域内的物种数量信息;综合栅格数据和实地统计数据,更可以准确地评估较大尺度空间下的生物个体的数量信息。
可选地,步骤S1301所述物种数量评估模型的训练方法包括:
以所述第一训练样本集中的物种数量信息为响应变量,基于第一训练样本集,采用贝叶斯参数估计的方法训练所述广义线性混合模型,获取所述物种数量评估模型。
贝叶斯统计推断是从后验分布出发,通常对未知参数有一定的先验信息或无信息先验,当给定先验信息,可求后验分布,进而完成贝叶斯参数估计。
当然基于惩罚拟似然方法(PQL,Penalized Quasi-Likelihood)也可以用于物种数量评估模型中的参数估计。拟似然方法不要求响应变量是一个具体已知的分布,只需知道响应变量的均值和方差,大样本情形下可近似为正态分布,然而为了减少方差估计的误差,又可以通过增加惩罚项的方法来提高估计的精度,提高物种数量评估时的准确率。
PQL和贝叶斯参数估计的方法对于广义线性混合模型的训练得到的参数均具有较高的准确性,但贝叶斯参数估计的方法运算速度较快,效率更高。
可选地,步骤S1032所述生物个体数量评估模型的训练方法,至少包括如下任一一项:
步骤S10321、以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集,采用限制极大似然估计的方法训练线性混合模型,获取所述生物个体数量评估模型。
限制极大似然估计的方法是通过对模型进行适当变换,使得新模型中与固定效应的参数矩阵即公式(2)中的β2相关的部分被消去,减少了估计参数β2时所带有的自由度损失,减少了评估随机效应的参数矩阵的误差。
步骤S10322、以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集,采用最小范数二次无偏估计的方法训练线性混合模型,获取所述生物个体数量评估模型。
不限于限制极大似然估计和最小范数二次无偏估计,基于线性混合模型的生物个体数量评估模型的训练中,参数估计方法还可以包括极大似然估计、谱分解估计等多个方法。
可选地,在步骤S1021所述根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据之前,步骤102所述根据采样区域中采样点的坐标信息,合并所述栅格数据和实地统计数据,获取所述生物种群评估模型的训练样本集,还包括:
对所述栅格数据可以按照下述方法进行自定义处理。
对于农田面积比例栅格数据,可以进行如下设置:当面积比例小于等于10%时,周边农田面积比例类别被视为“低”;当面积比例大于10%且小于等于60%时,周边农田面积比例类别被视为“低”;当面积比例大于60%时,周边农田面积比例类别被视为“高”。
对于作物种植强度栅格数据,其原始值为0、1、2、3,分别代表休耕、单季种植、双季种植、三季种植。考虑到三季种植的栅格极少,本发明实施例将双季种植和三季种植合并为多季种植,获取最终输入模型的种植强度,包含三个类别:休耕、单季种植、多季种植。
对于单产数据,例如分别提供了42种作物各自的单产,单位为千克每公顷。本发明实施例将所有作物的单产逐像素相加,融合得到多作物的总单产数据。
对于肥料施用率数据,例如分别提供了全球17种作物肥料施用率,单位为千克每公顷。本发明实施例将所有作物的肥料施用率逐像素相加,融合得到多作物的总肥料施用率数据。
可选地,在步骤103所述基于所述训练样本集,针对生物种群评估中的随机效应和固定效应对所述评估模型进行训练,获取生物种群评估模型之前,还包括:
对所述训练样本集中的数值型变量如单产和肥料施用率等进行标准化,再分别使用标准化后的另两个数值型变量如构建模型,以提高模型拟合算法的收敛性。标准化的公式(3)如下:
xstd=(x-xmean)/xst,(3)
公式中,xstd代表标准化后的数值型变量,x代表标准化前的数值型变量,xmean代表标准化前的数值型变量的均值,xst代表标准化前的数值型变量的标准差。
相应地,步骤103所述基于所述训练样本集,针对生物种群评估中的随机效应和固定效应对所述评估模型进行训练,获取生物种群评估模型,包括:
基于数据标准化后的训练样本集,针对生物种群评估中的随机效应和固定效应对所述评估模型进行训练,获取生物种群评估模型。
参考图2,示出了一种生物种群评估方法,包括:
步骤201、获取目标区域的栅格数据和实地统计数据。
其中,图1中用于评估模型训练的采样区域覆盖所述目标区域。
在本发明实施例中,栅格数据与图1所述的栅格数据属于同一种,均是指反映生物所在地的农地动态特征的数据,所述农地动态特征包括但不限于目标区域的土地利用类型、采样点的周边农田面积比例类别、种植强度、单产以及肥料施用率,上述农地动态特征均是影响物种丰富度和群落丰富度的重要因素。由于目标区域中的生物种群评估结果是未知的,因此,实地统计数据仅包括目标区域中采样点的位置信息,所述位置信息图1所示的实施例一致,包括坐标信息和采样数据来源信息。
在本发明实施例中,所述目标区域的栅格数据和实地统计数据可以通过公开的分布数据集获取,如公开的遥感影像、土地信息等。
步骤202、基于所述栅格数据和实地统计数据,根据物种数量评估模型,获取对所述目标区域内物种数量的评估结果。
将栅格数据中的农地特征信息、实地统计数据中的采样数据来源信息和坐标信息输入物种数量评估模型中,使得物种数量评估模型对目标区域的物种数量进行评估,获取对所述目标区域内物种数量的评估结果。
步骤203、基于所述栅格数据和实地统计数据,根据生物个体数量评估模型,获取对所述目标区域内生物个体数量的评估结果。
将栅格数据中的农地特征信息、实地统计数据中的采样数据来源信息和坐标信息输入生物个体数量评估模型中,使得生物个体数量评估模型对目标区域的生物个体数量进行评估,获取对所述目标区域内生物个体数量的评估结果。
其中,所述物种数量评估模型和生物个体数量评估模型均为如图1所示的实施例,基于训练样本集中的第一特征和第二特征进行训练得到的。
所述物种数量评估模型和生物个体数量评估模型的具体训练方式可以参见图1所示的实施例及其前文所述的可选地模型的训练步骤,在此不做详述。
综上所述,在本申请实施例中,用采样区域的实地统计数据和栅格数据,同时兼顾生物种群评估中的随机效应和固定效应,对生物种群评估模型进行训练,有利于提高对生物种群的评估的准确率,而生物种群评估模型又可以包括物种数量评估模型和生物个体数量评估模型;然后将获取到的目标区域的栅格数据中的农地特征信息输入训练好的物种数量评估模型和生物个体数量评估模型,获取到对目标区域物种数量和生物个体数量的评估结果,实现了对目标区域生物种群的多角度评估。进一步地,同时利用栅格数据和实地统计数据对评估模型进行训练,突破了现有技术中生物评估的空间限制,对随机效应和固定效应的合理应用提高了评估较大空间尺度下的生物种群的准确率,极大地帮助了人类对于自然界生物种群的评估,提高了人类自然资源利用的准确率和效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种生物种群评估模型的训练装置实施例的结构框图,所述装置300可以包括:
采样区域数据获取模块301,用于获取采样区域的栅格数据和实地统计数据;
采样区域数据合成模块302,用于根据采样区域中采样点的坐标信息,合并所述栅格数据和实地统计数据,获取所述生物种群评估模型的训练样本集;所述训练样本集包括:随机效应类型的第一特征和固定效应类型的第二特征;
评估模型训练模块303,用于基于所述训练样本集中的所述第一特征和所述第二特征进行训练,获取生物种群评估模型,所述生物种群评估模型用于评估生物种群信息。
可选地,所述训练样本集包括第一训练样本集和第二训练样本集;
所述数据合成模块,可以包括:
实地统计数据划分模块,用于根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据;所述第一实地统计数据包括采样区域的物种数量信息;所述第二实地统计数据包括采样区域的生物个体数量信息;
第一训练样本集获取模块,用于根据采样区域中采样点的坐标信息,合并所述栅格数据和第一实地统计数据,获取所述评估模型的第一训练样本集;
第二训练样本集获取模块,用于根据采样区域中采样点的坐标信息,合并所述栅格数据和第二实地统计数据,获取所述评估模型的第二训练样本集;
特征信息划分模块,用于分别将所述第一集合和第二集合中的生物种群的特征信息进行固定效应类型和随机效应类型的划分,获得所述评估模型的第一训练样本集和第二训练样本集;所述第一训练样本集包括采样区域的物种数量信息、第一特征信息和第二特征信息;所述第二训练样本集包括采样区域的生物个体数量信息、第一特征信息和第二特征信息。
可选地,所述采样区域数据合成模块,还可以包括:
实地统计数据校正模块,用于在所述根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据之前,对所述实地统计数据进行校正;
对应的,所述实地统计数据划分模块,可以包括:
校正后的实地统计数据划分模块,用于根据校正后的所述实地统计数据,划分第一实地统计数据和第二实地统计数据。
可选地,所述对生物种群的评估包括对物种数量的评估和对生物个体数量的评估;所述第一特征包括采样信息来源;所述第二特征包括农地动态特征;
所述评估模型训练模块,可以包括:
物种数量评估模型训练模块,用于以所述第一训练样本集中的物种数量信息为响应变量,基于第一训练样本集按照如下公式训练所述物种数量评估模型,获取基于广义线性混合模型的物种数量评估模型:
Figure DEST_PATH_IMAGE005
其中,g(Y)代表因变量Y与线性部分Xβ+Zμ+ε的连接函数;Y表示因变量物种数量;X代表自变量农地动态特征的设计矩阵,β代表自变量农地动态特征的参数矩阵;Z代表自变量采样数据来源信息的设计矩阵,所述μ用于表示所述第一训练样本集中的采样数据来源信息与物种数量的关系;ε代表随机误差矩阵;
生物个体数量评估模型训练模块,用于以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集按照如下公式训练生物个体数量评估模型,获取基于线性混合模型的生物个体数量评估模型:
Figure DEST_PATH_IMAGE006
其中,A表示因变量物种数量;B代表自变量农地动态特征的设计矩阵,m代表自变量农地动态特征的参数矩阵;C代表自变量采样数据来源信息的设计矩阵,所述n用于表示所述第二训练样本集中的采样数据来源信息与生物个体数量的关系;q代表随机误差矩阵。
可选地,所述物种数量评估模型训练模块中所述μ1用于表示所述第一训练样本集中的采样数据来源信息与物种数量的关系,所述第一训练样本集中的采样数据来源信息包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息;
所述生物个体数量评估模型训练模块中所述μ2用于表示所述第二训练样本集中的采样数据来源信息与生物个体数量的关系,所述第二训练样本集中的采样数据来源信息包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息。
可选地,所述物种数量评估模型训练模块,可以包括:
贝叶斯参数估计模块,用于以所述第一训练样本集中的物种数量信息为响应变量,基于第一训练样本集,采用贝叶斯参数估计的方法训练所述广义线性混合模型,获取所述物种数量评估模型。
可选地,所述生物个体数量评估模型训练模块,至少包括如下任意一个模块:
似然估计模块,用于以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集,采用限制极大似然估计的方法训练所述线性混合模型,获取所述生物个体数量评估模型;
最小范数二次无偏估计模块,用于以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集,采用最小范数二次无偏估计的方法训练所述线性混合模型,获取所述生物个体数量评估模型。
参照图4,示出了本发明的一种生物种群评估装置实施例的结构框图,所述装置400可以包括:
目标区域数据获取模块401,用于获取目标区域的栅格数据和实地统计数据;
物种数量评估模块402,用于基于所述栅格数据和实地统计数据,根据物种数量评估模型,获取对所述目标区域内物种数量的评估结果;
生物个体数量评估模块403,用于基于所述栅格数据和实地统计数据,根据生物个体数量评估模型,获取对所述目标区域内生物个体数量的评估结果;
其中,所述物种数量评估模型和生物个体数量评估模型均为基于训练样本集中的第一特征和第二特征进行训练得到的。
所述物种数量评估模型和生物个体数量评估模型的具体训练方式可以参见图1所示的实施例及其所述的可选地训练步骤,在此不做详述。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
参考图5,其示出了本申请实施例提供的一种电子设备500,包括:处理器501、存储器502及存储在存储器502上并可在处理器501上运行的计算机程序,计算机程序被处理器501执行时实现如方法实施例中所述的生物种群评估模型的训练方法的步骤。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现所述的生物种群评估模型的训练方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述电子设备实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其他设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的实施例的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图,或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的排序设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种生物种群评估模型的训练方法,其特征在于,包括:
获取采样区域的栅格数据和实地统计数据;
根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据;
根据采样区域中采样点的坐标信息,合并所述栅格数据和第一实地统计数据,获取第一集合,其中,所述栅格数据用于反映生物所在地的农地动态特征,所述农地动态特征包括目标区域的土地利用类型、采样点的周边农田面积比例类别、种植强度、单产和肥料施用率;
根据采样区域中采样点的坐标信息,合并所述栅格数据和第二实地统计数据,获取第二集合;
分别将所述第一集合和第二集合中的生物种群的特征信息进行固定效应类型和随机效应类型的划分,获得所述评估模型的第一训练样本集和第二训练样本集;所述第一训练样本集包括采样区域的物种数量信息、随机效应类型的第一特征信息和固定效应类型的第二特征信息;所述第二训练样本集包括采样区域的生物个体数量信息、随机效应类型的第一特征信息和固定效应类型的第二特征信息;
以所述第一训练样本集中的物种数量信息为响应变量,基于第一训练样本集按照如下公式训练物种数量评估模型,获取基于广义线性混合模型的物种数量评估模型:
Figure DEST_PATH_IMAGE001
其中,g(Y)代表因变量Y与线性部分Xβ+Zμ+ε的连接函数;Y表示因变量物种数量;X代表自变量农地动态特征的设计矩阵,β代表自变量农地动态特征的参数矩阵;Z代表自变量采样数据来源信息的设计矩阵,所述μ用于表示所述第一训练样本集中的采样数据来源信息与物种数量的关系;ε代表随机误差矩阵;
以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集按照如下公式训练生物个体数量评估模型,获取基于线性混合模型的生物个体数量评估模型:
Figure DEST_PATH_IMAGE002
其中,A表示因变量物种数量;B代表自变量农地动态特征的设计矩阵,m代表自变量农地动态特征的参数矩阵;C代表自变量采样数据来源信息的设计矩阵,所述n用于表示所述第二训练样本集中的采样数据来源信息与生物个体数量的关系;q代表随机误差矩阵。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据之前,所述方法还包括:
对所述实地统计数据进行校正;
所述根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据,包括:
根据校正后的所述实地统计数据,划分第一实地统计数据和第二实地统计数据。
3.根据权利要求1所述的方法,其特征在于,所述第一训练样本集中的采样数据来源信息包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息;
所述第二训练样本集中的采样数据来源信息包括自变量采样点数据的原始来源、采样点的上级分区和采样点本身的信息。
4.根据权利要求1所述的方法,其特征在于,所述物种数量评估模型的训练方法包括:
以所述第一训练样本集中的物种数量信息为响应变量,基于第一训练样本集,采用贝叶斯参数估计的方法训练所述广义线性混合模型,获取所述物种数量评估模型。
5.根据权利要求1所述的方法,其特征在于,所述生物个体数量评估模型的训练方法,至少包括如下任一一项:
以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集,采用限制极大似然估计的方法训练所述线性混合模型,获取所述生物个体数量评估模型;
以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集,采用最小范数二次无偏估计的方法训练所述线性混合模型,获取所述生物个体数量评估模型。
6.一种生物种群评估方法,其特征在于,包括:
获取目标区域的栅格数据和实地统计数据;
将所述实地统计数据中的采样数据来源信息和坐标信息、所述栅格数据中的农地动态特征信息输入物种数量评估模型,获取对所述目标区域内物种数量的评估结果;
将所述实地统计数据中的采样数据来源信息和坐标信息、所述栅格数据中的农地动态特征信息输入生物个体数量评估模型,获取对所述目标区域内生物个体数量的评估结果;
其中,所述物种数量评估模型为根据权利要求1-5中任一项所述的方法训练得到的,所述生物个体数量评估模型为根据权利要求1-5中任一项所述的方法训练得到的。
7.一种生物种群评估模型的训练装置,其特征在于,包括:
采样区域数据获取模块,用于获取采样区域的栅格数据和实地统计数据;
实地统计数据划分模块,用于根据所述实地统计数据,划分包括物种数量信息的第一实地统计数据和包括生物个体数量信息的第二实地统计数据;
第一训练样本集获取模块,用于根据采样区域中采样点的坐标信息,合并所述栅格数据和第一实地统计数据,获取第一集合,其中,所述栅格数据用于反映生物所在地的农地动态特征,所述农地动态特征包括目标区域的土地利用类型、采样点的周边农田面积比例类别、种植强度、单产和肥料施用率;
第二训练样本集获取模块,用于根据采样区域中采样点的坐标信息,合并所述栅格数据和第二实地统计数据,获取第二集合;
特征信息划分模块,用于分别将所述第一集合和第二集合中的生物种群的特征信息进行固定效应类型和随机效应类型的划分,获得所述评估模型的第一训练样本集和第二训练样本集;所述第一训练样本集包括采样区域的物种数量信息、随机效应类型的第一特征信息和固定效应类型的第二特征信息;所述第二训练样本集包括采样区域的生物个体数量信息、随机效应类型的第一特征信息和固定效应类型的第二特征信息;
物种数量评估模型训练模块,用于以所述第一训练样本集中的物种数量信息为响应变量,基于第一训练样本集按照如下公式训练物种数量评估模型,获取基于广义线性混合模型的物种数量评估模型:
Figure DEST_PATH_IMAGE003
其中,g(Y)代表因变量Y与线性部分Xβ+Zμ+ε的连接函数;Y表示因变量物种数量;X代表自变量农地动态特征的设计矩阵,β代表自变量农地动态特征的参数矩阵;Z代表自变量采样数据来源信息的设计矩阵,所述μ用于表示所述第一训练样本集中的采样数据来源信息与物种数量的关系;ε代表随机误差矩阵;
生物个体数量评估模型训练模块,用于以所述第二训练样本集中的生物个体数量信息为响应变量,基于所述第二训练样本集按照如下公式训练生物个体数量评估模型,获取基于线性混合模型的生物个体数量评估模型:
Figure DEST_PATH_IMAGE004
其中,A表示因变量物种数量;B代表自变量农地动态特征的设计矩阵,m代表自变量农地动态特征的参数矩阵;C代表自变量采样数据来源信息的设计矩阵,所述n用于表示所述第二训练样本集中的采样数据来源信息与生物个体数量的关系;q代表随机误差矩阵。
8.一种生物种群评估装置,其特征在于,包括:
目标区域数据获取模块,用于获取目标区域的栅格数据和实地统计数据;
物种数量评估模块,用于将所述实地统计数据中的采样数据来源信息和坐标信息、所述栅格数据中的农地动态特征信息输入物种数量评估模型,获取对所述目标区域内物种数量的评估结果;
生物个体数量评估模块,用于将所述实地统计数据中的采样数据来源信息和坐标信息、所述栅格数据中的农地动态特征信息输入生物个体数量评估模型,获取对所述目标区域内生物个体数量的评估结果;
其中,所述物种数量评估模型为根据权利要求1-5中任一项所述的方法训练得到的,所述生物个体数量评估模型为根据权利要求1-5中任一项所述的方法训练得到的。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器执行存储在所述存储器中的计算机程序,实现权利要求1至5中任一项所述的生物种群评估模型的训练方法。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由装置的处理器执行时,使得装置能够执行如方法权利要求1至5中任一所述的生物种群评估模型的训练方法。
CN202211140439.5A 2022-09-20 2022-09-20 生物种群评估模型的训练方法、装置和电子设备 Active CN115223660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211140439.5A CN115223660B (zh) 2022-09-20 2022-09-20 生物种群评估模型的训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211140439.5A CN115223660B (zh) 2022-09-20 2022-09-20 生物种群评估模型的训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN115223660A CN115223660A (zh) 2022-10-21
CN115223660B true CN115223660B (zh) 2023-03-10

Family

ID=83617468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211140439.5A Active CN115223660B (zh) 2022-09-20 2022-09-20 生物种群评估模型的训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN115223660B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2465661A1 (en) * 2000-11-03 2003-05-10 Michael Korenberg Nonlinear system identification for class prediction in bioinformatics and related applications
CN108876917A (zh) * 2018-06-25 2018-11-23 西南林业大学 一种森林地上生物量遥感估测通用模型构建方法
CN113536519B (zh) * 2020-04-21 2023-06-16 生态环境部南京环境科学研究所 一种生物多样性评价方法及计算机设备
CN111765974B (zh) * 2020-07-07 2021-04-13 中国环境科学研究院 一种基于微型制冷红外热像仪的野生动物观测***及方法
CN112132432A (zh) * 2020-09-15 2020-12-25 中国水产科学研究院黄海水产研究所 一种滨海湿地生态脆弱性潜在风险综合评估方法
CN113011086B (zh) * 2021-03-02 2022-08-16 西南林业大学 一种基于ga-svr算法森林生物量的估测方法
CN113095467B (zh) * 2021-04-29 2023-04-18 清华大学 一种量子化生物种群数量估计方法
CN114022008A (zh) * 2021-11-11 2022-02-08 东莞理工学院 一种基于水生态分区理论的河口适宜生态流量评估方法

Also Published As

Publication number Publication date
CN115223660A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
Ngango et al. Assessment of technical efficiency and its potential determinants among small-scale coffee farmers in Rwanda
Yuan et al. Anthropogenic disturbances are key to maintaining the biodiversity of grasslands
Gong et al. Multi-objective parameter optimization of common land model using adaptive surrogate modeling
Tran et al. Quantifying spatial non-stationarity in the relationship between landscape structure and the provision of ecosystem services: An example in the New Zealand hill country
CN108241905A (zh) 用于预测土壤和/或植物状况的方法
Meyer et al. A comparison of hull methods for estimating species ranges and richness maps
Kana et al. Does child labour have a negative impact on child education and health? A case study in rural Cambodia
Chun et al. Partitioning the regional and local drivers of phylogenetic and functional diversity along temperate elevational gradients on an East Asian peninsula
Van Oijen et al. Incorporating biodiversity into biogeochemistry models to improve prediction of ecosystem services in temperate grasslands: Review and roadmap
Schaak et al. Long-term trends in functional crop diversity across Swedish farms
Cozzoli et al. Sensitivity of phytoplankton metrics to sample-size: A case study on a large transitional water dataset (WISER)
Pottier et al. On the relationship between clonal traits and small-scale spatial patterns of three dominant grasses and its consequences on community diversity
Fukano et al. GIS-based analysis for UAV-supported field experiments reveals soybean traits associated with rotational benefit
Yamamura Dispersal distance of corn pollen under fluctuating diffusion coefficient
Castex et al. Assembling and testing a generic phenological model to predict Lobesia botrana voltinism for impact studies
Wu et al. Bayesian binomial mixture models for estimating abundance in ecological monitoring studies
Adewopo et al. Can a combination of UAV-derived vegetation indices with biophysical variables improve yield variability assessment in smallholder farms?
Hou et al. Acoustic Sensor-Based Soundscape Analysis and Acoustic Assessment of Bird Species Richness in Shennongjia National Park, China
Manu et al. Soil mite (Acari: Mesostigmata) communities and their relationships with some environmental variables in experimental grasslands from Bucegi Mountains in Romania
Da Mata et al. Stacked species distribution and macroecological models provide incongruent predictions of species richness for Drosophilidae in the Brazilian savanna
Kumar et al. Performance of APSIM to simulate the dynamics of winter wheat growth, phenology, and nitrogen uptake from early growth stages to maturity in Northern Europe
CN115223660B (zh) 生物种群评估模型的训练方法、装置和电子设备
Agoglitta et al. Cumulative annual dung beetle diversity in Mediterranean seasonal environments
Dainese et al. Plant and animal diversity in a region of the Southern Alps: the role of environmental and spatial processes
CN116579521A (zh) 产量预测时间窗口确定方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant