CN114677553B - 一种解决农作物病虫害样本不均衡问题的图像识别方法 - Google Patents
一种解决农作物病虫害样本不均衡问题的图像识别方法 Download PDFInfo
- Publication number
- CN114677553B CN114677553B CN202111676323.9A CN202111676323A CN114677553B CN 114677553 B CN114677553 B CN 114677553B CN 202111676323 A CN202111676323 A CN 202111676323A CN 114677553 B CN114677553 B CN 114677553B
- Authority
- CN
- China
- Prior art keywords
- tail
- head
- sample
- data set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000607479 Yersinia pestis Species 0.000 title claims abstract description 51
- 201000010099 disease Diseases 0.000 title claims abstract description 38
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012795 verification Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims description 46
- 238000001514 detection method Methods 0.000 claims description 36
- 238000012360 testing method Methods 0.000 claims description 14
- 241000238631 Hexapoda Species 0.000 claims description 12
- 238000012805 post-processing Methods 0.000 claims description 7
- 238000013499 data model Methods 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000009826 distribution Methods 0.000 abstract description 4
- 230000000717 retained effect Effects 0.000 abstract 1
- 208000025865 Ulcer Diseases 0.000 description 6
- 230000007306 turnover Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 231100000397 ulcer Toxicity 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及病虫害识别领域,具体涉及一种解决农作物病虫害样本不均衡问题的图像识别方法。本发明利用当前有标注数据集进行模型训练,经过模型验证选出当前最佳模型,对无标注数据集的图片进行若干次图像增强,得到增强后的图像进行推理并筛选得到无标注图像的识别结果,将识别结果输入至样本选择策略中,根据样本选择策略判断是否保留该结果,若保留则生成伪标签,并移动到当前有标注数据集中,继续对新的有标注数据集进行训练,按此流程进行迭代学习,直到准确率不再提升为止。本发明可降低长尾分布影响,通过迭代学习提升尾部类别召回率和精确率的同时不影响头部类别识别效果,仅采用单模型进行推理且不引入额外的网络层,对推理速度无影响。
Description
技术领域
本发明涉及病虫害识别领域,具体涉及一种解决农作物病虫害样本不均衡 问题的图像识别方法。
背景技术
农作物病虫害是世界范围内主要农业灾害之一,若病虫害发现与防治不及 时,可能会对农业生产造成重大损失,威胁国家粮食安全和农产品质量安全。 农作物病虫害具有种类多、影响大、并时常暴发成灾的特点,这些特点对农作 物病虫害监测带来巨大挑战。
随着计算机视觉与人工智能的快速发展,基于图像的病虫害识别技术以低 成本、高效率的特点已应用于各种农作物的病虫害监测中。目前基于图像的病 虫害识别方法普遍使用深度学习算法进行模型训练与推理,深度学习需要依赖 海量数据才能实现识别效果最大化,但农作物病虫害图像数据具有样本不均衡 的特点,常见的病虫害类别数据量非常多,不常见的病虫害类别数据量较少, 因此病虫害数据呈长尾分布,长尾分布的头部数据非常多,中部逐渐减少,尾 部数据极少甚至无样本,且农作物病虫害类别较多,尾部拉得很长。
样本不均衡问题对农作物病虫害模型效果影响很大,模型容易对数据较多的 头部类别过拟合,对数据较少的尾部类别欠拟合。解决样本不均衡问题的通用 方法有很多,例如重采样算法对头部类别进行欠采样,对尾部类别进行过采样, 以保证训练样本的均衡性,但这会导致模型对头部类别欠拟合,对尾部类别过 拟合;重加权算法对头部类别赋予低权重,对尾部类别赋予高权重,但效果提 升有限;基于多阶段训练的农作物病害长尾图像识别方法,通过对已标注数据 进行多阶段增强训练的方式调整样本分布,未充分利用海量的无标注数据,尾 部类别数据丰富性不足。
发明内容
本发明针对背景技术存在的不足,提供一种解决农作物病虫害样本不均衡 问题的图像识别方法,具体技术方案如下:
一种解决农作物病虫害样本不均衡问题的图像识别方法,包括以下步骤:
步骤S1,制作有标注数据集:收集农作物病虫害图片数据,用矩形框标注出病 虫害的位置,构成有标注数据集;按一定比例将有标注数据集划分为训练集、 验证集与测试集;
步骤S2,模型训练:构建目标检测模型,并采用构建的目标检测模型对步骤S1 的数据集中的训练集进行训练,每一轮训练结束输出一个中间目标检测模型;
步骤S3,模型验证:将步骤S1中的验证集图像输入到步骤S2中训练的中间模 型进行模型验证,选出识别准确率最高的中间目标检测模型作为当前最佳目标 检测模型;
步骤S4,制作无标注数据集:收集海量农作物病虫害图片数据,作为无标注数 据集;
步骤S5,图像增强:对步骤S4中的无标注数据集的每张原始图片进行数据增强 得到增强后的N张图片,并与对应的原始图片合并得到N+1张组合图片作为一 组待处理数据;
步骤S6,无标注数据模型推理:将步骤S5中的每组待处理数据分别输入至步骤 S3中的当前最佳目标检测模型进行推理,得到N+1个识别结果,对每个识别结 果分别进行后处理,并将每个后处理过的识别结果进行叠加,通过非极大值抑 制算法对叠加后的结果进行筛选,最终得到无标注数据的识别结果;
步骤S7,样本选择:根据样本选择策略对步骤S6中的无标注数据识别结果进行 判断,决定是否保留该识别结果,若保留则从步骤S4中的无标注数据集中选择 该识别结果对应的原始图片作为新样本;
步骤S8,新数据生成:对步骤S7中的新样本按步骤S1的有标注数据集的矩形 框标注方式生成非人工标注的伪标签,并将伪标签和步骤S4的无标注数据集中 对应的原始图片作为新数据,对所有新数据按一定比例放入步骤S1的有标注数 据集中的训练集、验证集与测试集中,同时移除步骤S4的无标注数据集中对应 的原始图片;
步骤S9,步骤S1中有标注数据集中加入步骤S8新生成的数据后,继续按步骤 S1-S8的流程进行迭代学习,若步骤S3中最佳目标检测模型的准确率不再提升, 则结束迭代学习,得到最终的目标检测模型;
步骤S10,有标注数据模型推理:将步骤S1中有标注数据集的测试集输入至步 骤S9得到的最终的目标检测模型进行模型推理,得到测试集经迭代学习优化后 的识别结果。
优选地,所述步骤S1中按0.8:0.1:0.1的比例将有标注数据集划分为训 练集、验证集与测试集。
优选地,所述步骤S2中的目标检测模型为采用YOLOv5目标检测算法的 YOLOv5l6网络结构模型。
优选地,所述步骤S5中的数据增强包括4种方式:随机水平翻转、随机垂 直翻转、随机旋转、随机增加亮度,则N=4。
优选地,所述步骤S7中的样本选择策略包括以下步骤:
步骤S71,头尾部划分:对步骤S1中的有标注数据集的训练集进行样本数量统 计,有标注数据集中共有C个病虫害类别,计算每个病虫害类别c的标注数量Nc, c∈{1,2,…,C},标注数量总数为Ntotal,平均标注数量Nm,则:
将标注数量大于Nm的类别划分为头部类别,否则将标注数量小于等于Nm划分为 尾部类别;统计头部类别标注总数Nh,尾部类别标注总数Nt,则:
Nh+Nt=Ntotal;
步骤S72,头尾部判断:对步骤S6中的无标注数据的识别结果中每一个矩形框 对应的类别进行头尾部分类,分别得到头部和尾部的数量,若头部的数量大于 尾部的数量,则该样本属于头部样本,否则属于尾部样本;
步骤S73,新样本候选:对于判断为头部的样本,计算该样本识别结果中头部类 别的可信度均值,若头部类别的可信度均值大于头部可信度阈值Th,则将该样 本加入头部新样本候选队列Qh中;对于判断为尾部的样本,计算尾部类别的可 信度均值,若尾部类别的可信度均值大于尾部可信度阈值Tt,则将该样本加入尾 部新样本候选队列Qt中;
步骤S74,新样本选择:对于头部新样本候选队列Qh,按可信度进行降序排序, 得到排序后的头部新样本候选队列Qh',从排序后的头部新样本候选队列Qh'中选 择头部占比为Ph的样本作为头部新样本;对于尾部新样本候选队列Qt,按可信 度进行降序排序,得到排序后的尾部新样本候选队列Qt',从排序后的尾部新样 本候选队列Qt'中选择尾部占比为Pt的样本作为尾部新样本;头部新样本和尾部 新样本组合为当前新样本。
优选地,所述头部可信度阈值Th的取值范围为0.9≤Th<1。
优选地,所述尾部可信度阈值Tt的取值范围为0.9≤Tt<1。
优选地,所述头部占比Ph的计算方式为
优选地,所述尾部占比Pt的计算方式为
本发明的有益效果为:本发明提供一种解决农作物病虫害样本不均衡问题 的图像识别方法,利用当前有标注数据集进行模型训练,经过模型验证选出当 前最佳模型,对无标注数据集的图片进行若干次图像增强,得到增强后的图像 进行推理并通过非极大值抑制算法对叠加后的结果进行筛选得到无标注图像的 识别结果,将识别结果输入至样本选择策略中,根据样本选择策略判断是否保 留该结果,若保留则生成伪标签,并移动到当前有标注数据集中,继续对新的 有标注数据集进行训练,按此流程进行迭代学习,直到准确率不再提升为止。 本发明充分利用海量无标注的农作物病虫害数据进行半监督学习,针对样本不 均衡问题设计样本选择策略,不断调整数据分布,降低长尾分布影响,通过迭 代学习提升尾部类别召回率和精确率的同时不影响头部类别识别效果,仅采用 单模型进行推理且不引入额外的网络层,对推理速度无影响。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
图1为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部 的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包 含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除 一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添 加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例 的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用 的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及 “该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且 包括这些组合。
如图1所示,本发明的具体实施方式提供了一种解决农作物病虫害样本不 均衡问题的图像识别方法,包括以下步骤:
步骤S1,制作有标注数据集:收集农作物病虫害图片数据,用矩形框标注出病 虫害的位置,构成有标注数据集;按0.8:0.1:0.1的比例将有标注数据集划 分为训练集、验证集与测试集;
步骤S2,模型训练:构建目标检测模型,并采用构建的目标检测模型对步 骤S1的数据集中的训练集进行训练,每一轮训练结束输出一个中间目标检测模 型;目标检测模型为采用YOLOv5目标检测算法的YOLOv5l6网络结构模型。
步骤S3,模型验证:将步骤S1中的验证集图像输入到步骤S2中训练的中间模 型进行模型验证,选出识别准确率最高的中间目标检测模型作为当前最佳目标 检测模型;
步骤S4,制作无标注数据集:收集海量农作物病虫害图片数据,作为无标注数 据集;
步骤S5,图像增强:对步骤S4中的无标注数据集的每张原始图片进行数据增强 得到增强后的N张图片,并与对应的原始图片合并得到N+1张组合图片作为一 组待处理数据;数据增强包括4种方式:随机水平翻转、随机垂直翻转、随机 旋转、随机增加亮度,则N=4。
步骤S6,无标注数据模型推理:将步骤S5中的每组待处理数据分别输入至步骤 S3中的当前最佳目标检测模型进行推理,得到N+1个识别结果,对每个识别结 果分别进行后处理,后处理包括将随机水平翻转的图片结果按水平翻转参数进 行恢复,将随机垂直翻转的图片结果按垂直翻转参数进行恢复,将随机旋转的 图片结果按旋转参数进行恢复,并将每个后处理过的识别结果进行叠加,通过 非极大值抑制算法对叠加后的结果进行筛选,最终得到无标注数据的识别结果;
步骤S7,样本选择:根据样本选择策略对步骤S6中的无标注数据识别结果 进行判断,决定是否保留该识别结果,若保留则从步骤S4中的无标注数据集中 选择该识别结果对应的原始图片作为新样本。样本选择策略包括以下步骤:
步骤S71,头尾部划分:对步骤S1中的有标注数据集的训练集进行样本数 量统计,有标注数据集中共有C个病虫害类别,计算每个病虫害类别c的标注数 量Nc,c∈{1,2,…,C},标注数量总数为Ntotal,平均标注数量Nm,则:
将标注数量大于Nm的类别划分为头部类别,否则将标注数量小于等于Nm划分为 尾部类别;统计头部类别标注总数Nh,尾部类别标注总数Nt,则:
Nh+Nt=Ntotal。
假设有标注数据集的训练集共有100个病虫害类别,C=100,第1个类别 为溃疡病,溃疡病的标注数量为20000,N1=20000,第2个类别为黄龙病,黄龙 病的标注数量为20,N2=20,统计所有类别的标注数量总数Ntotal,得到:
平均标注数量
步骤S72,头尾部判断:对步骤S6中的无标注数据的识别结果中每一个矩 形框对应的类别进行头尾部分类,分别得到头部和尾部的数量,若头部的数量 大于尾部的数量,则该样本属于头部样本,否则属于尾部样本。
对100个病虫害类别进行头尾部判断,溃疡病标注数量20000大于平均标 注数量1000,属于头部类别,黄龙病标注数量20小于平均标注数量1000,属 于尾部类别。统计头部类别标注总数Nh,假设20个类别为头部类别,80个类 别为尾部类别,对20个头部类别统计标注总数Nh,得到Nh=95000,对20个尾 部类别统计标注总数Nt,得到Nt=5000,Nh+Nt=95000+5000=100000=Ntotal, 100000为所有类别的标注数量总数Ntotal。
假设无标注数据集共有200000张图片样本,依次对每个样本进行头尾部判 断,第1个样本的识别结果中包含2个检测框,其中2个为溃疡病,根据步骤 S71中的头尾部类别划分,头部数量为2,尾部数量为0,头部数量大于尾部数 量,则判断第1个样本为头部样本;第2个样本的识别结果中包含3个检测框, 其中1个为溃疡病,2个为黄龙病,根据步骤S71中的头尾部类别划分,头部数 量为1,尾部数量为2,头部数量小于尾部数量,则判断第2个样本为尾部样本。
步骤S73,新样本候选:对于判断为头部的样本,对该样本识别结果中头部 类别标签的可信度进行求和,除以该样本识别结果中头部类别标签总数,得到 头部类别的可信度均值,若头部类别的可信度均值大于头部可信度阈值Th,则 将该样本加入头部新样本候选队列Qh中;对于判断为尾部的样本,对该样本识 别结果中尾部类别标签的可信度进行求和,除以该样本识别结果中尾部类别标 签总数,得到尾部类别的可信度均值,若尾部类别的可信度均值大于尾部可信 度阈值Tt,则将该样本加入尾部新样本候选队列Qt中;头部可信度阈值Th的取值 范围为0.9≤Th<1;尾部可信度阈值Tt的取值范围为0.9≤Tt<1。
对于步骤S72中判断为头部的样本,如第1个样本,2个溃疡病可信度分别 为0.95和0.91,则平均可信度为设定头部可信度阈值Th=0.90, 而0.93>0.90,将第1个样本加入到头部新样本候选队列中,Qh={1},继续对其 他头部样本进行判断;对于S72中判断为尾部的样本,如第2个样本,溃疡病 可信度为0.92,2个黄龙病可信度分别为0.91和0.98,则平均可信度为 />设定尾部可信度阈值Tt=0.92,而0.937>0.92,将第2个样 本加入到尾部新样本候选队列中,Qt={2},继续对其他尾部样本进行判断。
步骤S74,新样本选择:对于头部新样本候选队列Qh,按可信度进行降序排 序,得到排序后的头部新样本候选队列Qh',从排序后的头部新样本候选队列Qh' 中选择头部占比为Ph的样本作为头部新样本;对于尾部新样本候选队列Qt,按 可信度进行降序排序,得到排序后的尾部新样本候选队列Qt',从排序后的尾部 新样本候选队列Qt'中选择尾部占比为Pt的样本作为尾部新样本;头部新样本和 尾部新样本组合为当前新样本。头部占比Ph的计算方式为尾部占比Pt的计算方式为/>
对于头部新样本候选队列Qh={1,3,4,…},其平均可信度为{0.93,0.90,0.92,…}, 按可信度对Qh进行降序排序,得到Qh'={1,4,3,…},从Qh'中选择头部占比为的样本作为头部新样本;对于尾部新样本候选队列 Qt={2,5,6,…},其平均可信度为{0.937,0.92,0.93,…},按可信度对Qt进行降序排序, 得到Qt'={2,6,5,…},从Qt'中选择尾部占比为/>的样本 作为尾部新样本。头部新样本和尾部新样本组合为当前新样本,尾部新数据数 量占比远大于头部,提升尾部类别数据的丰富性,同时保证头部类别数量也在 缓慢增加。
步骤S8,新数据生成:对步骤S7中的新样本按步骤S1的有标注数据集的矩形 框标注方式生成非人工标注的伪标签,并将伪标签和步骤S4的无标注数据集中 对应的原始图片作为新数据,对所有新数据按一定比例放入步骤S1的有标注数 据集中的训练集、验证集与测试集中,同时移除步骤S4的无标注数据集中对应 的原始图片;
步骤S9,步骤S1中有标注数据集中加入步骤S8新生成的数据后,继续按步骤 S1-S8的流程进行迭代学习,若步骤S3中最佳目标检测模型的准确率不再提升, 则结束迭代学习,得到最终的目标检测模型;
步骤S10,有标注数据模型推理:将步骤S1中有标注数据集的测试集输入至步 骤S9得到的最终的目标检测模型进行模型推理,得到测试集经迭代学习优化后 的识别结果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地 说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示 例的组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定 应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来 实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,单元的划分,仅仅为一种逻辑 功能划分,实际实现时可以有另外的划分方式,例如多个单元可结合为一个单 元,一个单元可拆分为多个单元,或一些特征可以忽略等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明 的权利要求和说明书的范围当中。
Claims (8)
1.一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:包括以下步骤:
步骤S1,制作有标注数据集:收集农作物病虫害图片数据,用矩形框标注出病虫害的位置,构成有标注数据集;按一定比例将有标注数据集划分为训练集、验证集与测试集;
步骤S2,模型训练:构建目标检测模型,并采用构建的目标检测模型对步骤S1的数据集中的训练集进行训练,每一轮训练结束输出一个中间目标检测模型;
步骤S3,模型验证:将步骤S1中的验证集图像输入到步骤S2中训练的中间模型进行模型验证,选出识别准确率最高的中间目标检测模型作为当前最佳目标检测模型;
步骤S4,制作无标注数据集:收集海量农作物病虫害图片数据,作为无标注数据集;
步骤S5,图像增强:对步骤S4中的无标注数据集的每张原始图片进行数据增强得到增强后的N张图片,并与对应的原始图片合并得到N+1张组合图片作为一组待处理数据;
步骤S6,无标注数据模型推理:将步骤S5中的每组待处理数据分别输入至步骤S3中的当前最佳目标检测模型进行推理,得到N+1个识别结果,对每个识别结果分别进行后处理,并将每个后处理过的识别结果进行叠加,通过非极大值抑制算法对叠加后的结果进行筛选,最终得到无标注数据的识别结果;
步骤S7,样本选择:根据样本选择策略对步骤S6中的无标注数据识别结果进行判断,决定是否保留该识别结果,若保留则从步骤S4中的无标注数据集中选择该识别结果对应的原始图片作为新样本;所述步骤S7中的样本选择策略包括以下步骤:
步骤S71,头尾部划分:对步骤S1中的有标注数据集的训练集进行样本数量统计,有标注数据集中共有C个病虫害类别,计算每个病虫害类别c的标注数量Nc,c∈{1,2,…,C},标注数量总数为Ntotal,平均标注数量Nm,则:
将标注数量大于Nm的类别划分为头部类别,否则将标注数量小于等于Nm划分为尾部类别;统计头部类别标注总数Nh,尾部类别标注总数Nt,则:
Nh+Nt=Ntotal;
步骤S72,头尾部判断:对步骤S6中的无标注数据的识别结果中每一个矩形框对应的类别进行头尾部分类,分别得到头部和尾部的数量,若头部的数量大于尾部的数量,则该样本属于头部样本,否则属于尾部样本;
步骤S73,新样本候选:对于判断为头部的样本,计算该样本识别结果中头部类别的可信度均值,若头部类别的可信度均值大于头部可信度阈值Th,则将该样本加入头部新样本候选队列Qh中;对于判断为尾部的样本,计算尾部类别的可信度均值,若尾部类别的可信度均值大于尾部可信度阈值Tt,则将该样本加入尾部新样本候选队列Qt中;
步骤S74,新样本选择:对于头部新样本候选队列Qh,按可信度进行降序排序,得到排序后的头部新样本候选队列Qh',从排序后的头部新样本候选队列Qh'中选择头部占比为Ph的样本作为头部新样本;对于尾部新样本候选队列Qt,按可信度进行降序排序,得到排序后的尾部新样本候选队列Qt',从排序后的尾部新样本候选队列Qt'中选择尾部占比为Pt的样本作为尾部新样本;头部新样本和尾部新样本组合为当前新样本;
步骤S8,新数据生成:对步骤S7中的新样本按步骤S1的有标注数据集的矩形框标注方式生成非人工标注的伪标签,并将伪标签和步骤S4的无标注数据集中对应的原始图片作为新数据,对所有新数据按一定比例放入步骤S1的有标注数据集中的训练集、验证集与测试集中,同时移除步骤S4的无标注数据集中对应的原始图片;
步骤S9,步骤S1中有标注数据集中加入步骤S8新生成的数据后,继续按步骤S1-S8的流程进行迭代学习,若步骤S3中最佳目标检测模型的准确率不再提升,则结束迭代学习,得到最终的目标检测模型;
步骤S10,有标注数据模型推理:将步骤S1中有标注数据集的测试集输入至步骤S9得到的最终的目标检测模型进行模型推理,得到测试集经迭代学习优化后的识别结果。
2.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:所述步骤S1中按0.8:0.1:0.1的比例将有标注数据集划分为训练集、验证集与测试集。
3.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:所述步骤S2中的目标检测模型为采用YOLOv5目标检测算法的YOLOv5l6网络结构模型。
4.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:所述步骤S5中的数据增强包括4种方式:随机水平翻转、随机垂直翻转、随机旋转、随机增加亮度,则N=4。
5.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:所述头部可信度阈值Th的取值范围为0.9≤Th<1。
6.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:所述尾部可信度阈值Tt的取值范围为0.9≤Tt<1。
7.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:所述头部占比Ph的计算方式为
8.根据权利要求1所述的一种解决农作物病虫害样本不均衡问题的图像识别方法,其特征在于:所述尾部占比Pt的计算方式为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676323.9A CN114677553B (zh) | 2021-12-31 | 2021-12-31 | 一种解决农作物病虫害样本不均衡问题的图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676323.9A CN114677553B (zh) | 2021-12-31 | 2021-12-31 | 一种解决农作物病虫害样本不均衡问题的图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114677553A CN114677553A (zh) | 2022-06-28 |
CN114677553B true CN114677553B (zh) | 2024-05-14 |
Family
ID=82070802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111676323.9A Active CN114677553B (zh) | 2021-12-31 | 2021-12-31 | 一种解决农作物病虫害样本不均衡问题的图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114677553B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523565B (zh) * | 2023-11-13 | 2024-05-17 | 拓元(广州)智慧科技有限公司 | 尾部类样本标注方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188824A (zh) * | 2019-05-31 | 2019-08-30 | 重庆大学 | 一种小样本植物病害识别方法及*** |
CN112668490A (zh) * | 2020-12-30 | 2021-04-16 | 浙江托普云农科技股份有限公司 | 基于YOLOv4的害虫检测方法、***、装置及可读存储介质 |
CN112686152A (zh) * | 2020-12-30 | 2021-04-20 | 广西慧云信息技术有限公司 | 一种多尺寸输入和多尺寸目标的农作物病虫害识别方法 |
CN113298150A (zh) * | 2021-05-25 | 2021-08-24 | 东北林业大学 | 一种基于迁移学习与自学习的小样本植物病害识别方法 |
WO2021203505A1 (zh) * | 2020-04-09 | 2021-10-14 | 丰疆智能软件科技(南京)有限公司 | 害虫检测模型构建方法 |
CN113657294A (zh) * | 2021-08-19 | 2021-11-16 | 中化现代农业有限公司 | 一种基于计算机视觉的作物病虫害检测方法及*** |
-
2021
- 2021-12-31 CN CN202111676323.9A patent/CN114677553B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188824A (zh) * | 2019-05-31 | 2019-08-30 | 重庆大学 | 一种小样本植物病害识别方法及*** |
WO2021203505A1 (zh) * | 2020-04-09 | 2021-10-14 | 丰疆智能软件科技(南京)有限公司 | 害虫检测模型构建方法 |
CN112668490A (zh) * | 2020-12-30 | 2021-04-16 | 浙江托普云农科技股份有限公司 | 基于YOLOv4的害虫检测方法、***、装置及可读存储介质 |
CN112686152A (zh) * | 2020-12-30 | 2021-04-20 | 广西慧云信息技术有限公司 | 一种多尺寸输入和多尺寸目标的农作物病虫害识别方法 |
CN113298150A (zh) * | 2021-05-25 | 2021-08-24 | 东北林业大学 | 一种基于迁移学习与自学习的小样本植物病害识别方法 |
CN113657294A (zh) * | 2021-08-19 | 2021-11-16 | 中化现代农业有限公司 | 一种基于计算机视觉的作物病虫害检测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN114677553A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046631B (zh) | 用于自动推断时空图像的变化的***和方法 | |
CN109086799A (zh) | 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法 | |
CN110598598A (zh) | 基于有限样本集的双流卷积神经网络人体行为识别方法 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN114615093B (zh) | 基于流量重构与继承学习的匿名网络流量识别方法及装置 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN110991362A (zh) | 一种基于注意力机制的行人检测模型 | |
CN108446214B (zh) | 基于dbn的测试用例进化生成方法 | |
Rahman et al. | Recognition of local birds of Bangladesh using MobileNet and Inception-v3 | |
CN110097090A (zh) | 一种基于多尺度特征融合的图像细粒度识别方法 | |
CN108734717B (zh) | 基于深度学习的单帧星图背景暗弱目标提取方法 | |
CN110765865A (zh) | 基于改进的yolo算法的水下目标检测方法 | |
CN111709477A (zh) | 一种基于改进MobileNet网络进行垃圾分类的方法及工具 | |
CN114677553B (zh) | 一种解决农作物病虫害样本不均衡问题的图像识别方法 | |
CN105718932A (zh) | 一种基于果蝇优化算法和光滑孪生支持向量机的彩色图像分类方法与*** | |
CN114627467B (zh) | 基于改进神经网络的水稻生育期识别方法及*** | |
CN111160389A (zh) | 一种基于融合vgg的岩性识别方法 | |
CN112633257A (zh) | 基于改良卷积神经网络的马铃薯病害识别方法 | |
CN114627411A (zh) | 基于计算机视觉下并行检测的农作物生育期识别方法 | |
CN111340019A (zh) | 基于Faster R-CNN的粮仓害虫检测方法 | |
CN110766082A (zh) | 一种基于迁移学习的植物叶片病虫害程度分类方法 | |
CN117037006B (zh) | 一种高续航能力的无人机跟踪方法 | |
CN113344009A (zh) | 一种轻小型网络自适应番茄病害特征提取方法 | |
Liu et al. | “Is this blueberry ripe?”: a blueberry ripeness detection algorithm for use on picking robots | |
CN113591610A (zh) | 一种基于计算机视觉的作物叶片蚜虫检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |