CN114677553B

CN114677553B - 一种解决农作物病虫害样本不均衡问题的图像识别方法

Info

Publication number: CN114677553B
Application number: CN202111676323.9A
Authority: CN
Inventors: 苏家仪; 韦光亮; 王筱东; 朱燕红; 莫振东; 顾小宁
Original assignee: Guangxi Talentcloud Information Technology Co ltd
Current assignee: Guangxi Talentcloud Information Technology Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-05-14
Anticipated expiration: 2041-12-31
Also published as: CN114677553A

Abstract

本发明涉及病虫害识别领域，具体涉及一种解决农作物病虫害样本不均衡问题的图像识别方法。本发明利用当前有标注数据集进行模型训练，经过模型验证选出当前最佳模型，对无标注数据集的图片进行若干次图像增强，得到增强后的图像进行推理并筛选得到无标注图像的识别结果，将识别结果输入至样本选择策略中，根据样本选择策略判断是否保留该结果，若保留则生成伪标签，并移动到当前有标注数据集中，继续对新的有标注数据集进行训练，按此流程进行迭代学习，直到准确率不再提升为止。本发明可降低长尾分布影响，通过迭代学习提升尾部类别召回率和精确率的同时不影响头部类别识别效果，仅采用单模型进行推理且不引入额外的网络层，对推理速度无影响。

Description

一种解决农作物病虫害样本不均衡问题的图像识别方法

技术领域

本发明涉及病虫害识别领域，具体涉及一种解决农作物病虫害样本不均衡问题的图像识别方法。

背景技术

农作物病虫害是世界范围内主要农业灾害之一，若病虫害发现与防治不及时，可能会对农业生产造成重大损失，威胁国家粮食安全和农产品质量安全。农作物病虫害具有种类多、影响大、并时常暴发成灾的特点，这些特点对农作物病虫害监测带来巨大挑战。

随着计算机视觉与人工智能的快速发展，基于图像的病虫害识别技术以低成本、高效率的特点已应用于各种农作物的病虫害监测中。目前基于图像的病虫害识别方法普遍使用深度学习算法进行模型训练与推理，深度学习需要依赖海量数据才能实现识别效果最大化，但农作物病虫害图像数据具有样本不均衡的特点，常见的病虫害类别数据量非常多，不常见的病虫害类别数据量较少，因此病虫害数据呈长尾分布，长尾分布的头部数据非常多，中部逐渐减少，尾部数据极少甚至无样本，且农作物病虫害类别较多，尾部拉得很长。

样本不均衡问题对农作物病虫害模型效果影响很大，模型容易对数据较多的头部类别过拟合，对数据较少的尾部类别欠拟合。解决样本不均衡问题的通用方法有很多，例如重采样算法对头部类别进行欠采样，对尾部类别进行过采样，以保证训练样本的均衡性，但这会导致模型对头部类别欠拟合，对尾部类别过拟合；重加权算法对头部类别赋予低权重，对尾部类别赋予高权重，但效果提升有限；基于多阶段训练的农作物病害长尾图像识别方法，通过对已标注数据进行多阶段增强训练的方式调整样本分布，未充分利用海量的无标注数据，尾部类别数据丰富性不足。

发明内容

本发明针对背景技术存在的不足，提供一种解决农作物病虫害样本不均衡问题的图像识别方法，具体技术方案如下：

一种解决农作物病虫害样本不均衡问题的图像识别方法，包括以下步骤：

步骤S1，制作有标注数据集：收集农作物病虫害图片数据，用矩形框标注出病虫害的位置，构成有标注数据集；按一定比例将有标注数据集划分为训练集、验证集与测试集；

步骤S2，模型训练：构建目标检测模型，并采用构建的目标检测模型对步骤S1 的数据集中的训练集进行训练，每一轮训练结束输出一个中间目标检测模型；

步骤S3，模型验证：将步骤S1中的验证集图像输入到步骤S2中训练的中间模型进行模型验证，选出识别准确率最高的中间目标检测模型作为当前最佳目标检测模型；

步骤S4，制作无标注数据集：收集海量农作物病虫害图片数据，作为无标注数据集；

步骤S5，图像增强：对步骤S4中的无标注数据集的每张原始图片进行数据增强得到增强后的N张图片，并与对应的原始图片合并得到N+1张组合图片作为一组待处理数据；

步骤S6，无标注数据模型推理：将步骤S5中的每组待处理数据分别输入至步骤 S3中的当前最佳目标检测模型进行推理，得到N+1个识别结果，对每个识别结果分别进行后处理，并将每个后处理过的识别结果进行叠加，通过非极大值抑制算法对叠加后的结果进行筛选，最终得到无标注数据的识别结果；

步骤S7，样本选择：根据样本选择策略对步骤S6中的无标注数据识别结果进行判断，决定是否保留该识别结果，若保留则从步骤S4中的无标注数据集中选择该识别结果对应的原始图片作为新样本；

步骤S8，新数据生成：对步骤S7中的新样本按步骤S1的有标注数据集的矩形框标注方式生成非人工标注的伪标签，并将伪标签和步骤S4的无标注数据集中对应的原始图片作为新数据，对所有新数据按一定比例放入步骤S1的有标注数据集中的训练集、验证集与测试集中，同时移除步骤S4的无标注数据集中对应的原始图片；

步骤S9，步骤S1中有标注数据集中加入步骤S8新生成的数据后，继续按步骤 S1-S8的流程进行迭代学习，若步骤S3中最佳目标检测模型的准确率不再提升，则结束迭代学习，得到最终的目标检测模型；

步骤S10，有标注数据模型推理：将步骤S1中有标注数据集的测试集输入至步骤S9得到的最终的目标检测模型进行模型推理，得到测试集经迭代学习优化后的识别结果。

优选地，所述步骤S1中按0.8：0.1：0.1的比例将有标注数据集划分为训练集、验证集与测试集。

优选地，所述步骤S2中的目标检测模型为采用YOLOv5目标检测算法的 YOLOv5l6网络结构模型。

优选地，所述步骤S5中的数据增强包括4种方式：随机水平翻转、随机垂直翻转、随机旋转、随机增加亮度，则N＝4。

优选地，所述步骤S7中的样本选择策略包括以下步骤：

步骤S71，头尾部划分：对步骤S1中的有标注数据集的训练集进行样本数量统计，有标注数据集中共有C个病虫害类别，计算每个病虫害类别c的标注数量N_c， c∈{1,2,…,C}，标注数量总数为N_total，平均标注数量N_m，则：

将标注数量大于N_m的类别划分为头部类别，否则将标注数量小于等于N_m划分为尾部类别；统计头部类别标注总数N_h，尾部类别标注总数N_t，则：

N_h+N_t＝N_total；

步骤S72，头尾部判断：对步骤S6中的无标注数据的识别结果中每一个矩形框对应的类别进行头尾部分类，分别得到头部和尾部的数量，若头部的数量大于尾部的数量，则该样本属于头部样本，否则属于尾部样本；

步骤S73，新样本候选：对于判断为头部的样本，计算该样本识别结果中头部类别的可信度均值，若头部类别的可信度均值大于头部可信度阈值T_h，则将该样本加入头部新样本候选队列Q_h中；对于判断为尾部的样本，计算尾部类别的可信度均值，若尾部类别的可信度均值大于尾部可信度阈值T_t，则将该样本加入尾部新样本候选队列Q_t中；

步骤S74，新样本选择：对于头部新样本候选队列Q_h，按可信度进行降序排序，得到排序后的头部新样本候选队列Q_h'，从排序后的头部新样本候选队列Q_h'中选择头部占比为P_h的样本作为头部新样本；对于尾部新样本候选队列Q_t，按可信度进行降序排序，得到排序后的尾部新样本候选队列Q_t'，从排序后的尾部新样本候选队列Q_t'中选择尾部占比为P_t的样本作为尾部新样本；头部新样本和尾部新样本组合为当前新样本。

优选地，所述头部可信度阈值T_h的取值范围为0.9≤T_h＜1。

优选地，所述尾部可信度阈值T_t的取值范围为0.9≤T_t＜1。

优选地，所述头部占比P_h的计算方式为

优选地，所述尾部占比P_t的计算方式为

本发明的有益效果为：本发明提供一种解决农作物病虫害样本不均衡问题的图像识别方法，利用当前有标注数据集进行模型训练，经过模型验证选出当前最佳模型，对无标注数据集的图片进行若干次图像增强，得到增强后的图像进行推理并通过非极大值抑制算法对叠加后的结果进行筛选得到无标注图像的识别结果，将识别结果输入至样本选择策略中，根据样本选择策略判断是否保留该结果，若保留则生成伪标签，并移动到当前有标注数据集中，继续对新的有标注数据集进行训练，按此流程进行迭代学习，直到准确率不再提升为止。本发明充分利用海量无标注的农作物病虫害数据进行半监督学习，针对样本不均衡问题设计样本选择策略，不断调整数据分布，降低长尾分布影响，通过迭代学习提升尾部类别召回率和精确率的同时不影响头部类别识别效果，仅采用单模型进行推理且不引入额外的网络层，对推理速度无影响。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及 “该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，本发明的具体实施方式提供了一种解决农作物病虫害样本不均衡问题的图像识别方法，包括以下步骤：

步骤S1，制作有标注数据集：收集农作物病虫害图片数据，用矩形框标注出病虫害的位置，构成有标注数据集；按0.8：0.1：0.1的比例将有标注数据集划分为训练集、验证集与测试集；

步骤S2，模型训练：构建目标检测模型，并采用构建的目标检测模型对步骤S1的数据集中的训练集进行训练，每一轮训练结束输出一个中间目标检测模型；目标检测模型为采用YOLOv5目标检测算法的YOLOv5l6网络结构模型。

步骤S5，图像增强：对步骤S4中的无标注数据集的每张原始图片进行数据增强得到增强后的N张图片，并与对应的原始图片合并得到N+1张组合图片作为一组待处理数据；数据增强包括4种方式：随机水平翻转、随机垂直翻转、随机旋转、随机增加亮度，则N＝4。

步骤S6，无标注数据模型推理：将步骤S5中的每组待处理数据分别输入至步骤 S3中的当前最佳目标检测模型进行推理，得到N+1个识别结果，对每个识别结果分别进行后处理，后处理包括将随机水平翻转的图片结果按水平翻转参数进行恢复，将随机垂直翻转的图片结果按垂直翻转参数进行恢复，将随机旋转的图片结果按旋转参数进行恢复，并将每个后处理过的识别结果进行叠加，通过非极大值抑制算法对叠加后的结果进行筛选，最终得到无标注数据的识别结果；

步骤S7，样本选择：根据样本选择策略对步骤S6中的无标注数据识别结果进行判断，决定是否保留该识别结果，若保留则从步骤S4中的无标注数据集中选择该识别结果对应的原始图片作为新样本。样本选择策略包括以下步骤：

步骤S71，头尾部划分：对步骤S1中的有标注数据集的训练集进行样本数量统计，有标注数据集中共有C个病虫害类别，计算每个病虫害类别c的标注数量N_c，c∈{1,2,…,C}，标注数量总数为N_total，平均标注数量N_m，则：

N_h+N_t＝N_total。

假设有标注数据集的训练集共有100个病虫害类别，C＝100，第1个类别为溃疡病，溃疡病的标注数量为20000，N₁＝20000，第2个类别为黄龙病，黄龙病的标注数量为20，N₂＝20，统计所有类别的标注数量总数N_total，得到：

平均标注数量

步骤S72，头尾部判断：对步骤S6中的无标注数据的识别结果中每一个矩形框对应的类别进行头尾部分类，分别得到头部和尾部的数量，若头部的数量大于尾部的数量，则该样本属于头部样本，否则属于尾部样本。

对100个病虫害类别进行头尾部判断，溃疡病标注数量20000大于平均标注数量1000，属于头部类别，黄龙病标注数量20小于平均标注数量1000，属于尾部类别。统计头部类别标注总数N_h，假设20个类别为头部类别，80个类别为尾部类别，对20个头部类别统计标注总数N_h，得到N_h＝95000，对20个尾部类别统计标注总数N_t，得到N_t＝5000，N_h+N_t＝95000+5000＝100000＝N_total， 100000为所有类别的标注数量总数N_total。

假设无标注数据集共有200000张图片样本，依次对每个样本进行头尾部判断，第1个样本的识别结果中包含2个检测框，其中2个为溃疡病，根据步骤 S71中的头尾部类别划分，头部数量为2，尾部数量为0，头部数量大于尾部数量，则判断第1个样本为头部样本；第2个样本的识别结果中包含3个检测框，其中1个为溃疡病，2个为黄龙病，根据步骤S71中的头尾部类别划分，头部数量为1，尾部数量为2，头部数量小于尾部数量，则判断第2个样本为尾部样本。

步骤S73，新样本候选：对于判断为头部的样本，对该样本识别结果中头部类别标签的可信度进行求和，除以该样本识别结果中头部类别标签总数，得到头部类别的可信度均值，若头部类别的可信度均值大于头部可信度阈值T_h，则将该样本加入头部新样本候选队列Q_h中；对于判断为尾部的样本，对该样本识别结果中尾部类别标签的可信度进行求和，除以该样本识别结果中尾部类别标签总数，得到尾部类别的可信度均值，若尾部类别的可信度均值大于尾部可信度阈值T_t，则将该样本加入尾部新样本候选队列Q_t中；头部可信度阈值T_h的取值范围为0.9≤T_h＜1；尾部可信度阈值T_t的取值范围为0.9≤T_t＜1。

对于步骤S72中判断为头部的样本，如第1个样本，2个溃疡病可信度分别为0.95和0.91，则平均可信度为设定头部可信度阈值T_h＝0.90，而0.93＞0.90，将第1个样本加入到头部新样本候选队列中，Q_h＝{1}，继续对其他头部样本进行判断；对于S72中判断为尾部的样本，如第2个样本，溃疡病可信度为0.92，2个黄龙病可信度分别为0.91和0.98，则平均可信度为 />设定尾部可信度阈值T_t＝0.92，而0.937＞0.92，将第2个样本加入到尾部新样本候选队列中，Q_t＝{2}，继续对其他尾部样本进行判断。

步骤S74，新样本选择：对于头部新样本候选队列Q_h，按可信度进行降序排序，得到排序后的头部新样本候选队列Q_h'，从排序后的头部新样本候选队列Q_h' 中选择头部占比为P_h的样本作为头部新样本；对于尾部新样本候选队列Q_t，按可信度进行降序排序，得到排序后的尾部新样本候选队列Q_t'，从排序后的尾部新样本候选队列Q_t'中选择尾部占比为P_t的样本作为尾部新样本；头部新样本和尾部新样本组合为当前新样本。头部占比P_h的计算方式为尾部占比P_t的计算方式为/>

对于头部新样本候选队列Q_h＝{1,3,4,…}，其平均可信度为{0.93,0.90,0.92,…}，按可信度对Q_h进行降序排序，得到Q_h'＝{1,4,3,…}，从Q_h'中选择头部占比为的样本作为头部新样本；对于尾部新样本候选队列 Q_t＝{2,5,6,…}，其平均可信度为{0.937,0.92,0.93,…}，按可信度对Q_t进行降序排序，得到Q_t'＝{2,6,5,…}，从Q_t'中选择尾部占比为/>的样本作为尾部新样本。头部新样本和尾部新样本组合为当前新样本，尾部新数据数量占比远大于头部，提升尾部类别数据的丰富性，同时保证头部类别数量也在缓慢增加。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元可结合为一个单元，一个单元可拆分为多个单元，或一些特征可以忽略等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：包括以下步骤：

步骤S2，模型训练：构建目标检测模型，并采用构建的目标检测模型对步骤S1的数据集中的训练集进行训练，每一轮训练结束输出一个中间目标检测模型；

步骤S6，无标注数据模型推理：将步骤S5中的每组待处理数据分别输入至步骤S3中的当前最佳目标检测模型进行推理，得到N+1个识别结果，对每个识别结果分别进行后处理，并将每个后处理过的识别结果进行叠加，通过非极大值抑制算法对叠加后的结果进行筛选，最终得到无标注数据的识别结果；

步骤S7，样本选择：根据样本选择策略对步骤S6中的无标注数据识别结果进行判断，决定是否保留该识别结果，若保留则从步骤S4中的无标注数据集中选择该识别结果对应的原始图片作为新样本；所述步骤S7中的样本选择策略包括以下步骤：

N_h+N_t＝N_total；

步骤S74，新样本选择：对于头部新样本候选队列Q_h，按可信度进行降序排序，得到排序后的头部新样本候选队列Q_h'，从排序后的头部新样本候选队列Q_h'中选择头部占比为P_h的样本作为头部新样本；对于尾部新样本候选队列Q_t，按可信度进行降序排序，得到排序后的尾部新样本候选队列Q_t'，从排序后的尾部新样本候选队列Q_t'中选择尾部占比为P_t的样本作为尾部新样本；头部新样本和尾部新样本组合为当前新样本；

步骤S9，步骤S1中有标注数据集中加入步骤S8新生成的数据后，继续按步骤S1-S8的流程进行迭代学习，若步骤S3中最佳目标检测模型的准确率不再提升，则结束迭代学习，得到最终的目标检测模型；

2.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述步骤S1中按0.8：0.1：0.1的比例将有标注数据集划分为训练集、验证集与测试集。

3.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述步骤S2中的目标检测模型为采用YOLOv5目标检测算法的YOLOv5l6网络结构模型。

4.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述步骤S5中的数据增强包括4种方式：随机水平翻转、随机垂直翻转、随机旋转、随机增加亮度，则N＝4。

5.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述头部可信度阈值T_h的取值范围为0.9≤T_h＜1。

6.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述尾部可信度阈值T_t的取值范围为0.9≤T_t＜1。

7.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述头部占比P_h的计算方式为

8.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法，其特征在于：所述尾部占比P_t的计算方式为