CN114282726A

CN114282726A - 制种田预测处理方法、装置、存储介质及电子装置

Info

Publication number: CN114282726A
Application number: CN202111603686.XA
Authority: CN
Inventors: 吴春子; 张芬芬; 白云东; 张鑫; 赵宇
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-05

Abstract

本申请实施例提供了一种制种田预测处理方法、装置、存储介质及电子装置，该方法包括：确定待识别田块的信令位置数据的特征权重；根据该待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；将该目标特征变量输入预先训练好的目标识别模型中，进行制种田预测，得到该待识别田块的预测结果，可以解决相关技术中通过遥感图像识别制种田，需要人工根据制种玉米田呈现出的与大田玉米不同的条纹图像进行识别，亦需投入大批量人工进行图片识别，且对非条纹状播种无法识别的问题，可以应用于大范围、精准的制种田识别，无需人工参与便可完成制种田的识别，达到降低人工成本的效果。

Description

制种田预测处理方法、装置、存储介质及电子装置

技术领域

本申请实施例涉及通信领域，具体而言，涉及一种制种田预测处理方法、装置、存储介质及电子装置。

背景技术

种业管理工作作为2021年中央一号文件关注的重中之重，亦是国家部委和地方村镇的重要工作之一。当前在大规模玉米种植过程中，往往分为大田玉米和制种玉米，大田玉米成熟后会流通到市场进行售卖，而制种玉米会作为留种使用，是下一年农业活动的基础之一。

制种玉米分为合法制种和非法制种，其中合法制种是种业公司或相关部门授权后进行的，而非法制种反之。非法制种流出的种子，不仅会侵犯种业公司知识产权，更会影响到来年的收成，扰乱市场秩序，危害国家利益。

目前行业中对非法制种田的识别，一般是从全部制种田中排除合法制种田，余下即为非法制种。其中合法制种田的数据可以从种业公司获取准确数据，而全量制种田目前往往采用现场实地巡视勘察以及遥感图像识别两种方式进行判定。

现场实地巡视勘察，单纯依靠人工成本和经验进行识别，并存在如下问题：玉米制种田和大田玉米在较长时间无明显区别、农业田块交通条件较差、地理位置偏远等，故常需投入大量人力进行实地考察，无法满足大规模的制种田识别。

相关技术中提出遥感图像判定，遥感技术可大面积对玉米种田进行拍摄，但需要人工根据制种玉米田呈现出的与大田玉米不同的条纹图像进行识别，亦需投入大批量人工进行图片识别。且部分非法制种玉米田为了躲避监察，会人为在播种时规避条纹状播种，导致无法识别。

发明内容

本申请实施例提供了一种制种田预测处理方法、装置、存储介质及电子装置，以解决相关技术中通过遥感图像识别制种田，需要人工根据制种玉米田呈现出的与大田玉米不同的条纹图像进行识别，亦需投入大批量人工进行图片识别，且对非条纹状播种无法识别的问题。

根据本申请的一个实施例，提供了一种制种田预测处理方法，包括：

确定待识别田块的信令位置数据的特征权重；

根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；

将所述目标特征变量输入预先训练好的目标识别模型中，进行制种田预测，得到所述待识别田块的预测结果。

可选地，所述方法还包括：

确定信令位置训练数据的特征权重；

根据所述信令位置训练数据的特征权重获取与制种田识别相关的训练特征变量；

根据所述信令位置训练数据的训练特征变量对制种田预测模型进行训练，得到训练好的所述目标识别模型。

可选地，根据所述信令位置训练数据的训练特征变量对制种田预测模型进行训练，得到训练好的所述目标识别模型包括：

确定特征阈值；

根据所述特征阈值对所述训练特征变量进行二值化处理，得到所述训练特征变量的二值化特征；

根据所述二值化特征与对应的标签对所述制种田预测模型进行训练，得到训练好的所述目标识别模型。

可选地，所述确定特征阈值包括：

对所述训练特征变量的进行分箱处理，并确定所述训练特征变量的WOE值与IV值；

根据WOE值、IV值以及样本占比分布确定所述特征阈值。

可选地，对所述训练特征变量进行分箱处理，并确定所述训练特征变量的WOE值与IV值包括：

对所述训练特征变量进行分箱处理，得到多个分组样本；

通过以下方式确定每个分组样本i对应的WOE值：

通过以下方式确定每个分组样本i对应的IV值：

将所述多个分组样本的IV值之和确定为所述目标特征变量的IV值；

py_i表示分组样本i中是制种田的个数占总样本中制种田的比例，pn_i表示这个分组i中非制种田的个数占总样本中非制种田的比例，y_i,n_i分别表示分组i中制种田和非制种田的个数，y_T,n_T分别表示总样本中制种田和非制种田的个数，m表示分箱组数。

可选地，根据WOE值、IV值以及样本占比分布确定所述特征阈值包括：

根据所述多个分组样本的WOE值分布、IV值、正/负样本占比，检测某一连续区间与所述正/负样本占比是否表现为单调分布；

若是，则将所述连续区间的上限确定为所述特征阈值。

可选地，确定待识别田块的信令位置数据的特征权重包括：

将决策目标、决策准则以及决策对象按照相互关系分为最高层、中间层以及最低层，建立层次结构模型；

将所述层次结构模型中每层次中各因素进行两两比较，并根据比较结果构建判别矩阵；

对所述判别矩阵的一致性进行校验；

从最高层次到最低层次依次确定每一层中所有因素对于最高层相对重要性的特征权重。

可选地，对所述判别矩阵的一致性进行校验包括：

确定所述判别矩阵的一致性指标CI值；

将所述一致性指标CI和随机一致性指标RI进行比较，以确定检验系数CR；

若所述校验系数小于预设值，确定所述判别矩阵通过一致性校验；

若所述校验系数大于或等于所述预设值，确定所述判别矩阵未通过所述一致性校验。

可选地，根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量包括：

选取所述判别矩阵中所述特征权重大于预设阈值的特征变量为所述目标特征变量。

根据本申请的另一个实施例，提供了一种制种田预测处理装置，包括：

第一确定模块，用于确定待识别田块的信令位置数据的特征权重；

第一获取模块，用于根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；

预测模块，用于将所述目标特征变量输入预先训练好的目标识别模型中，进行制种田预测，得到所述待识别田块的预测结果。

可选地，所述装置还包括：

第二确定模块，用于确定信令位置训练数据的特征权重；

第二获取模块，用于根据所述信令位置训练数据的特征权重获取与制种田识别相关的训练特征变量；

训练模块，用于根据所述信令位置训练数据的训练特征变量对制种田预测模型进行训练，得到训练好的所述目标识别模型。

可选地，所述训练模块包括：

第一确定子模块，用于确定特征阈值；

二值化处理子模块，用于根据所述特征阈值对所述训练特征变量进行二值化处理，得到所述训练特征变量的二值化特征；

训练子模块，用于根据所述二值化特征与对应的标签对所述制种田预测模型进行训练，得到训练好的所述目标识别模型。

可选地，所述第一确定子模块包括：

分箱处理单元，用于对所述训练特征变量的进行分箱处理，并确定所述训练特征变量的WOE值与IV值；

确定单元，用于根据WOE值、IV值以及样本占比分布确定所述特征阈值。

可选地，所述分享处理单元，还用于：

对所述训练特征变量进行分箱处理，得到多个分组样本；

通过以下方式确定每个分组样本i对应的WOE值：

通过以下方式确定每个分组样本i对应的IV值：

可选地，所述确定单元，还用于：

若是，则将所述连续区间的上限确定为所述特征阈值。

可选地，所述第一确定模块包括：

建立子模块，用于将决策目标、决策准则以及决策对象按照相互关系分为最高层、中间层以及最低层，建立层次结构模型；

比较子模块，用于将所述层次结构模型中每层次中各因素进行两两比较，并根据比较结果构建判别矩阵；

校验子模块，用于对所述判别矩阵的一致性进行校验；

第二确定子模块，用于从最高层次到最低层次依次确定每一层中所有因素对于最高层相对重要性的特征权重。

可选地，所述校验子模块，还用于：

确定所述判别矩阵的一致性指标CI值；

可选地，所述第一获取模块，还用于：

根据本申请的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

本申请实施例，确定待识别田块的信令位置数据的特征权重；根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；将所述目标特征变量输入预先训练好的目标识别模型中，进行制种田预测，得到所述待识别田块的预测结果，可以解决相关技术中通过遥感图像识别制种田，需要人工根据制种玉米田呈现出的与大田玉米不同的条纹图像进行识别，亦需投入大批量人工进行图片识别，且对非条纹状播种无法识别的问题，可以应用于大范围、精准的制种田识别，无需人工参与便可完成制种田的识别，达到降低人工成本的效果。

附图说明

图1是本申请实施例的制种田预测处理方法的移动终端的硬件结构框图；

图2是根据本申请实施例的制种田预测处理方法的流程图；

图3是根据本申请可选实施例的制种田预测处理方法的流程图；

图4是根据本申请实施例的基于电信运营商移动手机信令的玉米制种田识别的流程图；

图5是根据本申请实施例的除穗去雄期与播种期日均人数比值woe值和边际制种田占比的示意图；

图6是根据本申请实施例的除穗去雄期与播种期日均人数比值woe值和边际制种田占比的示意图；

图7是根据本申请实施例的除穗去雄期与播种期日均人数比值woe值和边际制种田占比的示意图；

图8是根据本申请实施例的除穗去雄期与生长期日均驻留时长比值四项woe值和边际制种田占比的示意图；

图9是根据本申请实施例的ROC曲线的示意图；

图10是根据本申请实施例的制种田预测处理装置的框图；

图11是根据本申请可选实施例的制种田预测处理装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请的实施例。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的制种田预测处理方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的制种田预测处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及业务链地址池切片处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的制种田预测处理方法，图2是根据本申请实施例的制种田预测处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，确定待识别田块的信令位置数据的特征权重；

本申请实施例中，上述步骤S202具体可以通过以下方式确定特征权重：将决策目标、决策准则以及决策对象按照相互关系分为最高层、中间层以及最低层，建立层次结构模型；将所述层次结构模型中每层次中各因素进行两两比较，并根据比较结果构建判别矩阵；对所述判别矩阵的一致性进行校验，具体的，确定所述判别矩阵的一致性指标CI值，将所述一致性指标CI和随机一致性指标RI进行比较，以确定检验系数CR；若所述校验系数小于预设值，确定所述判别矩阵通过一致性校验，若所述校验系数大于或等于所述预设值，确定所述判别矩阵未通过所述一致性校验；最后从最高层次到最低层次依次确定每一层中所有因素对于最高层相对重要性的特征权重。

步骤S204，根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；

对应的，上述步骤S204中，选取上述判别矩阵中特征权重大于预设阈值的特征变量为目标特征变量。

步骤S206，将所述目标特征变量输入预先训练好的目标识别模型中，进行制种田预测，得到所述待识别田块的预测结果。

通过上述步骤S202至S206，可以解决相关技术中通过遥感图像识别制种田，需要人工根据制种玉米田呈现出的与大田玉米不同的条纹图像进行识别，亦需投入大批量人工进行图片识别，且对非条纹状播种无法识别的问题，可以应用于大范围、精准的制种田识别，无需人工参与便可完成制种田的识别，达到降低人工成本的效果。

本发明实施例基于实时、全量的电信信令数据，在可实时根据识别业务模型进行疑似玉米制种田块判断，有效的提供的精准的数字化管理工具，在保证可解释性的基础上提供了更高效，更精准的非法制种田块管理能力，并大量解放人力。

相关技术中只能在7-8月抽穗期间进行制种田的识别，彼时已经错过播种时节，被发现后无法重新种植合法作物。本发明实施例基于耕种差异进行判别，在实践中发现除抽穗期间(7-8月)外，大田玉米和制种玉米在播种期(4-5月)也存在耕种特征上的差别，后续可进一步针对播种期进行探索，将发现非法制种田的时间窗口前置，最大程度挽回国家和农民的损失。

本申请实施例基于电信移动手机信令的玉米制种田识别，结合实际业务情况利用AHP层次分析法特征筛选获得与制种田识别较为相关的特征指标。通过二分类场景的WOE、IV值计算特征判断单个类别所蕴含的信息量，获得特征指标的阈值，进而实现指标二值化处理。最后将数据按一定比例划分为训练集和验证集，构建有监督学习模型，并应用于玉米制种田识别。

本申请实施例中还提供了上述目标识别模型的训练方式，在为按此模型的训练之后，便可进行田块身份属于制种田块的预测，图3是根据本申请可选实施例的制种田预测处理方法的流程图，如图3所示，包括：

步骤S302，确定信令位置训练数据的特征权重；

步骤S304，根据所述信令位置训练数据的特征权重获取与制种田识别相关的训练特征变量；

步骤S306，根据所述信令位置训练数据的训练特征变量对制种田预测模型进行训练，得到训练好的所述目标识别模型。

通过上述步骤S302至S306训练得到的目标识别模型，更稳定，用于识别田块是否为制种田块时，预测结果更为准确。

上述步骤S306中，可以通过以下方式进行训练：

S3061，确定特征阈值；

S3062，根据所述特征阈值对所述训练特征变量进行二值化处理，得到所述训练特征变量的二值化特征；

S3063，根据所述二值化特征与对应的标签对所述制种田预测模型进行训练，得到训练好的所述目标识别模型。

本申请实施例中，S3061具可以包括：对所述训练特征变量的进行分箱处理，并确定所述训练特征变量的WOE值与IV值，进一步的，对所述训练特征变量进行分箱处理，得到多个分组样本，通过以下方式确定每个分组样本i对应的WOE值：

通过以下方式确定每个分组样本i对应的IV值：

将所述多个分组样本的IV值之和确定为所述目标特征变量的IV值，其中，py_i表示分组样本i中是制种田的个数占总样本中制种田的比例，pn_i表示这个分组i中非制种田的个数占总样本中非制种田的比例，y_i,n_i分别表示分组i中制种田和非制种田的个数，y_T,n_T分别表示总样本中制种田和非制种田的个数，m表示分箱组数。之后根据WOE值、IV值以及样本占比分布确定所述特征阈值，具体的，根据所述多个分组样本的WOE值分布、IV值、正/负样本占比，检测某一连续区间与所述正/负样本占比是否表现为单调分布；若是，则将所述连续区间的上限确定为所述特征阈值。

基于电信运营商的信令数据制种田识别方法，解放了传统对制种田识别过程中时间窗口短的问题。在传统识别方法中，识别时间集中在去雄阶段，但本方法可以将识别时间提前到播种期，帮助有关部门尽早对疑似制种田及非法制种田进行判断。图4是根据本申请实施例的基于电信运营商移动手机信令的玉米制种田识别的流程图，如图4所示，包括：

S401，采用AHP层次分析法计算特征权重，获得与制种田识别强相关的特征指标

层次分析法根据问题的性质和要达到的总目标，将问题分解为不同的组成因素，并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合，形成一个多层次的分析结构模型，从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。完整的AHP层次分析法通常包括四个步骤：

建立层次结构模型，将决策的目标、考虑的因素(决策准则)和决策对象按它们之间的相互关系分为最高层、中间层和最低层，绘出层次结构图。最高层是指决策的目的、要解决的问题。最低层是指决策时的备选方案。中间层是指考虑的因素、决策的准则。对于相邻的两层，称高层为目标层，低层为因素层。

构建判别矩阵，在确定各层次各因素之间的权重时，如果只是定性的结果，则常常不容易被别人接受，因而Saaty等人提出一致矩阵法，即不把所有因素放在一起比较，而是两两相互比较，对此时采用相对尺度，以尽可能减少性质不同的诸因素相互比较的困难，以提高准确度。如对某一准则，对其下的各方案进行两两对比，并按其重要性程度评定等级。a_ij为要素i与要素j重要性比较结果，表1列出Saaty给出的9个重要性等级及其赋值。按两两比较结果构成的矩阵称作判别矩阵。判别矩阵具有如表1所示的性质。

表1

因素i比因素j	量化值
		同等重要	1
稍微重要	3
		较强重要	5
强烈重要	7
		极端重要	9
两相邻判断的中间值	2，4，6，8

层次单排序及其一致性检验，对应于判别矩阵最大特征根的特征向量，经归一化(使向量中各元素之和等于1)后记为W。W的元素为同一层次因素对于上一层次因素某因素相对重要性的排序权值，这一过程称为层次单排序。能否确认层次单排序，则需要进行一致性检验，所谓一致性检验是指对A确定不一致的允许范围。其中，n阶一致阵的唯一非零特征根为n；n阶正互反阵A的最大特征根，当且仅当λ＝n时，A为一致矩阵。

由于λ连续的依赖于a_ij，则λ比n大的越多，A的不一致性越严重，一致性指标用CI计算，CI越小，说明一致性越大。用最大特征值对应的特征向量作为被比较因素对上层某因素影响程度的权向量，其不一致程度越大，引起的判断误差越大。因而可以用λ-n数值的大小来衡量A的不一致程度。定义一致性指标为：

CI＝0，有完全的一致性；CI接近于0，有满意的一致性；CI越大，不一致越严重。为衡量CI的大小，引入随机一致性指标RI：

其中，随机一致性指标RI和判别矩阵的阶数有关，一般情况下，矩阵阶数越大，则出现一致性随机偏离的可能性也越大，其对应关系如表2所示。

表2

矩阵阶数			3	4	5	6	7	8	9	10
											RI			0.58	0.90	1.12	1.24	1.32	1.41	1.45	1.49

考虑到一致性的偏离可能是由于随机原因造成的，因此在检验判别矩阵是否具有满意的一致性时，还需将CI和随机一致性指标RI进行比较，得出检验系数CR，公式如下：

一般，如果CR<0.1，则认为该判别矩阵通过一致性检验，否则就不具有满意一致性。

层次总排序及其一致性检验，计算某一层次所有因素对于最高层(总目标)相对重要性的权值，称为层次总排序。这一过程是从最高层次到最低层次依次进行的。

在本实施例中，根据农业部相关反馈和实地与种业公司及当地农民调研沟通了解到，制玉米种田和大田玉米最大的差异在于制种玉米需要安排劳作力进行除穗去雄,而大田玉米不需要，从而在除穗去雄期的人口热力数据差异比较明显，通过不同耕种时期人口热力数据和制种田和非制种田耕作模式差异分析初步获得如表3所示的特征变量。

表3

按日筛选信令位置数据、标签数据在播种期(4月10日至5月10日)、生长期(6月1日至6月30日)、除穗去雄期(7月1日至7月31日)的原始特征数据。

原始特征包括与人类活动相关信息(除穗去雄期与播种期日均人数比值、除穗去雄期与播种期日均驻留时长比值、除穗去雄期与生长期日均人数比值和除穗去雄期与生长期日均驻留时长比值)、地块标识(地块面积)、地块经停/驻留用户属性(用户平均年龄、用户平均入网时长、用户上网偏好top1、疑似劳作用户占比日平均值)，设定特征因素并排序；

根据satty评分构建判别矩阵,如表4所示。

表4

进行一致性检验和层次排序，一致性检验通过，可使用以下权重用于层次分析法计算。最大特征根为9.4717，CI值为0.0590，CR值为0.0404；

判定结果如表5所示。

表5

根据一致性检验结果可获得与制种田识别强相关的特征指标，包括除穗去雄期与播种期日均人数比值、除穗去雄期与播种期日均驻留时长比值、除穗去雄期与生长期日均人数比值和除穗去雄期与生长期日均驻留时长比值四项。

S402，采用二分类场景的WOE、IV值计算特征判断单个类别所蕴含的信息量。

考虑到业务场景中的目标变量是二分类变量，即制种田和非制种田，利用WOE方法对田块的四项人类活动特征进行分箱处理，并利用IV值对特征的预测能力进行评价，WOE、IV值统计公式如下：

对于分组i对应的WOE值，计算公式如下:

同样，对于分组i对应的IV值，计算公式如下:

特征IV值为各分组IV值之和为：

其中，py_i表示这个分组i中是“制种田”的个数占总样本中制种田的比例；

pn_i表示这个分组i中“非制种田”的个数占总样本中非制种田的比例；

y_i和n_i分别表示分组i中“制种田”和“非制种田”的个数；

y_T和n_T分别表示总样本中“制种田”和“非制种田”的个数；

m表示分箱组数。

S403，根据WOE和样本占比分布获得特征阈值。

根据分箱区间WOE分布和正/负样本占比，检查某一连续区间与正/负样本占比是否表现为单调分布，若是则表明该连续区间对目标变量具有明确的划分能力，则将该连续区间的上限作为特征预处理的阈值。

根据实地调研结果，确定当地玉米播种期时间范围，玉米生长期范围和除穗去雄期时间范围，明确玉米播种期和除穗去雄期存在劳作时间增加和劳作人数增加的明显特征。

通过对变量“除穗去雄期与播种期的日均人数比值”、“除穗去雄期与播种期日均驻留时长比值”、“除穗去雄期与生长期的日均人数比值”、“除穗去雄期与生长期日均驻留时长的比值”的每个特征进行分箱计算其WOE值以及IV值。

特征变量“除穗去雄期与播种期的日均人数比值”、“除穗去雄期与播种期日均驻留时长比值”大于-10％时，对于是否为玉米制种田的响应比例差异显著；

特征变量“除穗去雄期与生长期的日均人数比值”、“除穗去雄期与生长期日均驻留时长的比值”大于0％时，对于是否为玉米制种田的响应比例差异显著。

根据woe求得特征各自对应的woe和边际制种田占比分布关系，除穗去雄期与播种期的日均人数比值、除穗去雄期与播种期日均驻留时长比值大于-10％时,对于是否为制种田的响应比例差异显著(woe值最低区间仅一个，整体保持单调)；除穗去雄期与生长期的日均人数比值、除穗去雄期与生长期日均驻留时长的比值大于0％时，对于是否为玉米制种田的响应比例差异显著(woe值最低区间不止一个，整体表现为波动分布，区间[0，1]整体呈下降趋势)，除穗去雄期与播种期日均人数比值woe值和边际制种田占比如图5所示。

除穗去雄期与生长期日均人数比值woe值和边际制种田占比，如图6所示。

除穗去雄期与播种期日均人数比值woe值和边际制种田占比，如图7所示。

除穗去雄期与生长期日均驻留时长比值四项woe值和边际制种田占比如图8所示。

S404，利用特征阈值对特征变量进行二值化处理。

在获取到特征阈值后，随即开展特征变换，实现变量二值化处理。

根据特征阈值将除穗去雄期与播种期的日均人数比值、除穗去雄期与播种期日均驻留时长比值大于-10％时标注为1，否则为0；除穗去雄期与生长期的日均人数比值、除穗去雄期与生长期日均驻留时长的比值大于0％时标注为1，否则为0。二值化处理的结果如表6所示。

表6

S405，利用GBDT进行耕地制作田预测。

GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，该算法由多棵决策树(CART回归树)组成(每棵决策树是串行迭代的)，所有树的结论累加起来做最终答案。

GBDT与传统的Boosting有所区别，它的每一次计算都是为了减少上一次的残差，而为了消除残差，在残差减小的梯度方向上建立模型。所以说，在GBDT中，每个新的决策树模型的建立是为了使得之前的模型的残差往梯度下降的方法，与传统的Boosting中关注正确错误的样本加权有着很大的区别。在GradientBoosting算法中，关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值，进而拟合一棵回归树。

在训练样本上开展模型留出验证(验证集占比40％)，结果如表7所示.

表7

类型	查准率	查全率	F1
				非制种田	0.50	0.29	0.36
制种田	0.89	0.95	0.92

AUC值为0.81，ROC曲线如图9所示。

针对验证结果数据，对真实制种田田块进行结果识别，统计正样本识别率

验证结果：以甘州区验证数据为例，批量记录真实分散的制种田块114个，模型判定结果为疑似制种田的为98个，正样本识别率为85.96％，与模型内部验证情况相近。

本申请实施例利用python语言、机器学习算法和spark分布式计算框架对相关的技术细节进行分布式的封装，并进行容器化管理，保证使用者的数据与资源的隔离；设计前端展示的制种田评估页面，以前后端联动的方式对田块识别进行区分。在AHP层次分析法特征筛选方法基础上获得与制种田识别较为相关特征指标，并通过二分类场景的WOE、IV值计算特征判断单个类别所蕴含的信息量，获得特征指标的阈值，进而实现指标二值化处理。在上述处理完成的前提下，将数据按一定比例划分为训练集和验证集，构建有监督学习模型，并应用于大批量田块的玉米制种田识别。

根据本申请的另一个实施例，提供了一种制种田预测处理装置，图10是根据本申请实施例的制种田预测处理装置的框图，如图10所示，包括：

第一确定模块102，用于确定待识别田块的信令位置数据的特征权重；

第一获取模块104，用于根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；

预测模块106，用于将所述目标特征变量输入预先训练好的目标识别模型中，进行制种田预测，得到所述待识别田块的预测结果。

图11是根据本申请可选实施例的制种田预测处理装置的框图，如图11所示，所述装置还包括：

第二确定模块112，用于确定信令位置训练数据的特征权重；

第二获取模块114，用于根据所述信令位置训练数据的特征权重获取与制种田识别相关的训练特征变量；

训练模块116，用于根据所述信令位置训练数据的训练特征变量对制种田预测模型进行训练，得到训练好的所述目标识别模型。

可选地，所述训练模块116包括：

第一确定子模块，用于确定特征阈值；

可选地，所述第一确定子模块包括：

可选地，所述分享处理单元，还用于：

对所述训练特征变量进行分箱处理，得到多个分组样本；

通过以下方式确定每个分组样本i对应的WOE值：

通过以下方式确定每个分组样本i对应的IV值：

可选地，所述确定单元，还用于：

若是，则将所述连续区间的上限确定为所述特征阈值。

可选地，所述第一确定模块102包括：

校验子模块，用于对所述判别矩阵的一致性进行校验；

可选地，所述校验子模块，还用于：

确定所述判别矩阵的一致性指标CI值；

可选地，所述第一获取模块104，还用于：

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的至少以下步骤：

S1，确定待识别田块的信令位置数据的特征权重；

S2，根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；

S3，将所述目标特征变量输入预先训练好的目标识别模型中，进行制种田预测，得到所述待识别田块的预测结果。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的至少以下步骤：

S1，确定待识别田块的信令位置数据的特征权重；

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种制种田预测处理方法，其特征在于，包括：

确定待识别田块的信令位置数据的特征权重；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定信令位置训练数据的特征权重；

3.根据权利要求2所述的方法，其特征在于，根据所述信令位置训练数据的训练特征变量对制种田预测模型进行训练，得到训练好的所述目标识别模型包括：

确定特征阈值；

4.根据权利要求3所述的方法，其特征在于，所述确定特征阈值包括：

根据WOE值、IV值以及样本占比分布确定所述特征阈值。

5.根据权利要求4所述的方法，其特征在于，对所述训练特征变量进行分箱处理，并确定所述训练特征变量的WOE值与IV值包括：

对所述训练特征变量进行分箱处理，得到多个分组样本；

通过以下方式确定每个分组样本i对应的WOE值：

通过以下方式确定每个分组样本i对应的IV值：

6.根据权利要求5所述的方法，其特征在于，根据WOE值、IV值以及样本占比分布确定所述特征阈值包括：

若是，则将所述连续区间的上限确定为所述特征阈值。

7.根据权利要求1所述的方法，其特征在于，确定待识别田块的信令位置数据的特征权重包括：

对所述判别矩阵的一致性进行校验；

8.根据权利要求7所述的方法，其特征在于，对所述判别矩阵的一致性进行校验包括：

确定所述判别矩阵的一致性指标CI值；

9.根据权利要求8所述的方法，其特征在于，根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量包括：

选取判别矩阵中所述特征权重大于预设阈值的特征变量为所述目标特征变量。

10.一种制种田预测处理装置，其特征在于，包括：

确定模块，用于确定待识别田块的信令位置数据的特征权重；

获取模块，用于根据所述待识别信令位置数据的特征权重获取与制种田识别相关的目标特征变量；

11.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9任一项中所述的方法。