CN116883364A

CN116883364A - 一种基于CNN和Transformer的苹果叶片病害识别方法

Info

Publication number: CN116883364A
Application number: CN202310869642.4A
Authority: CN
Inventors: 庞登浩; 孟浩; 王弘; 黄林生; 梁栋; 刘家保; 周向明; 丁宇豪; 吴修杨
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-13

Abstract

本发明涉及一种基于CNN和Transformer的苹果叶片病害识别方法，包括：采集苹果叶片病害图像，并进行处理；对初始苹果叶片病害图像样本中的图像进行预处理，获得初始特征图，初始特征图组成苹果叶片病害图像训练集；基于CNN模型和Transformer模型构建苹果叶片病害图像识别模型；将苹果叶片病害图像训练集输入苹果叶片病害识别模型中进行训练；获取待检测的苹果叶片病害图像并进行预处理；将预处理后的待检测的苹果叶片病害图像输入训练后的苹果叶片病害识别模型，得到苹果叶片病害识别结果。本发明通过将Transformer模型融合到CNN模型中，实现对苹果叶片图像病害的准确识别；实现对苹果叶片病害的全局和局部信息的综合建模。

Description

一种基于CNN和Transformer的苹果叶片病害识别方法

技术领域

本发明涉及农业病虫害图像处理技术领域，尤其是一种基于CNN和Transformer的苹果叶片病害识别方法。

背景技术

农作物病虫害是指在农业生产中，农作物受到各种病害和虫害的侵害的现象，这些病害可以由真菌、细菌、病毒和其他微生物引起，而虫害则是由昆虫、螨类、蠕虫和其他害虫引起的损害。每种病害在不同的发展阶段和环境条件下可能会呈现不同的症状和特征，这使得准确的识别变得困难。

农田中关于农作物病虫害的数据庞大且不断增长，涉及大量的图像和相关信息。高效处理和管理这些大规模数据的需求成为一个挑战，包括数据的采集、存储、传输和分析。近年来，随着计算机视觉和机器学习技术的发展，基于图像识别和数据分析的农作物病虫害监测和识别方法逐渐引起了关注。利用图像处理和深度学习算法，可以对农作物病虫害的图像进行自动化分析和识别，提供快速、准确的病虫害检测结果，帮助农民和农作物保护工作者及时采取相应的防治措施，降低病虫害带来的损失。

目前，已有的苹果叶片病害识别方法主要基于CNN模型，该模型在提取局部特征方面表现出色，但在建模全局上下文信息方面存在一定的局限性。为了更好地利用全局上下文信息，Transformer模型被引入计算机视觉领域，其多头自注意力机制能够更全面地对全局上下文信息进行建模。然而，Transformer模型在提取图像的局部特征方面相对较弱。因此，结合CNN和Transformer模型的方法成为解决该问题的关键，目前还没有出现结合CNN和Transformer模型来解决苹果叶片病害识别问题的发明或研究。

发明内容

为解决传统苹果叶片病害检测方法准确率较低的问题，本发明的目的在于提供一种通过CNN模型和Transformer模型密集连接融合来充分传递和复用特征信息，可以综合利用局部特征和全局上下文信息，从而提高农作物病虫害识别的准确率的基于CNN和Transformer的苹果叶片病害识别方法。

为实现上述目的，本发明采用了以下技术方案：一种基于CNN和Transformer的苹果叶片病害识别方法，该方法包括下列顺序的步骤：

(1)采集苹果叶片病害图像，并进行处理，获得初始苹果叶片病害图像样本；

(2)对初始苹果叶片病害图像样本中的图像进行预处理，获得初始特征图，初始特征图组成苹果叶片病害图像训练集；

(3)基于CNN模型和Transformer模型构建苹果叶片病害图像识别模型，所述苹果叶片病害图像识别模型由CNN分支模型和Transformer分支模型组成；

(4)将苹果叶片病害图像训练集输入苹果叶片病害识别模型中进行训练，得到训练后的苹果叶片病害识别模型；

(5)获取待检测的苹果叶片病害图像并进行预处理；

(6)将预处理后的待检测的苹果叶片病害图像输入训练后的苹果叶片病害识别模型，得到苹果叶片病害识别结果。

所述步骤(1)具体是指：采集真实背景下苹果叶片病害图像，并通过随机翻转、随机色彩增强和添加噪声的图像增强方法生成多样化的图像数据，得到初始苹果叶片病害图像样本。

在步骤(2)中，所述预处理包括卷积和池化操作。

在步骤(3)中，所述CNN分支模型的构建包括以下步骤：

(3a)设定CNN分支模型为四层结构：

设定CNN分支模型的第一层由三个级联的残差模块组成，其中最后一个残差模块负责压缩图片尺寸并扩展维度；

设定CNN分支模型的第二层由四个级联的残差模块组成，同样在最后一个残差模块扩展维度；

设定CNN分支模型的第三层由三个级联的残差模块组成，在最后一个残差模块扩展维度；

设定CNN分支模型的第四层通过一个残差模块提取最终特征图；

CNN分支模型四层结构的残差模块均相同；

(3b)设定所述的残差模块：

使用一个卷积核大小为1×1的下投影卷积操作将输入维度降维；

使用一个卷积核大小为3×3的空间卷积进行特征提取，然后，使用一个卷积核大小为1×1的上投影卷积恢复维度；

在输入和输出之间利用跳跃连接进行恒等映射。

在步骤(3)中，所述Transformer分支模型的构建具体是指：

设计多头自注意力模块，以获得每个位置的上下文信息；

初始特征图经过线性投影映射为Q、K和V三个向量，每个向量都执行自注意力函数，得到输出权重，最后，将权重拼接后再次进行投影映射，得到最终输出值：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

where head_h＝Attention(QW_h ^Q,KW_h ^K,VW_h ^V)

其中，W^Q，W^K，W^V和W^O均为线性投影参数矩阵，Concat表示对向量进行拼接，h表示编号，head₁表示第1个权重分量所对应的自注意力，head_h表示第h个权重分量所对应的自注意力；

自注意力模块的输入由维度为d_k的Q和K向量以及维度d_v的V向量组成，首先计算Q向量和K向量的点积，再除以并应用softmax函数来获得V向量的权重，最后，将权重与V向量相乘，得到自注意力模块的输出，具体计算公式如下：

其中，d_k表示向量K的维度；

输出整合，多头自注意力模块通过将多个注意力头的输出进行线性变换和拼接，得到最终的多头注意力表示。

所述步骤(4)具体包括以下步骤：

(4a)进行前向传播：输入苹果叶片病害图像训练集，经过苹果叶片病害图像识别模型进行前向传播；

(4b)根据损失函数计算损失：

其中，y_i表示真实标签的概率分布向量中的第i个元素，p_i表示苹果叶片病害图像识别模型的预测概率分布向量中的第i个元素，N表示元素的个数；

(4c)反向传播与参数更新：根据损失结果，进行反向传播，计算梯度，对苹果叶片病害图像识别模型参数进行优化：

梯度计算：根据损失函数对参数求导，得到各个参数的梯度；参数指苹果叶片病害图像识别模型中的权重；

参数更新：使用梯度下降的优化算法更新苹果叶片病害图像识别模型的权重和偏置；

(4d)重复训练步骤：重复步骤(4a)至步骤(4c)，持续输入苹果叶片病害图像训练集，进行前向传播、损失计算、反向传播和参数更新，直到损失收敛，得到预测效果最好的权重。

由上述技术方案可知，本发明的有益效果为：第一，本发明通过将Transformer模型融合到CNN模型中，实现对苹果叶片图像病害的准确识别；第二，本发明使用多头自注意力机制的Transformer模型来增强模型对全局上下文信息的建模能力，并且利用CNN模型提取局部特征，从而实现对苹果叶片病害的全局和局部信息的综合建模；第三，本发明中的Transformer模型通过多头自注意力模块实现对全局位置的空间信息的关注，从而提高了全局视觉信息的建模能力，同时，CNN模型提取到的局部特征也不断反馈到Transformer模型中，以丰富其局部细节信息；第四，为了进一步增强特征传播和特征复用，本发明还引入了密集连接机制，减少了网络传输时的信息损失，对于复杂背景和遮挡等情况都具有较高的鲁棒性。

附图说明

图1为本发明的方法流程图；

图2、3、4分别为Transformer分支模型的Transformer模块、多头自注意力模块和自注意力模块的结构示意图；

图5为本发明中苹果叶片病害图像识别模型的结构示意图；

图6、7、8分别为原始图像、浅层特征热力图和深层特征热力图。

具体实施方式

如图1所示，一种基于CNN和Transformer的苹果叶片病害识别方法，该方法包括下列顺序的步骤：

(3)基于CNN模型和Transformer模型构建苹果叶片病害图像识别模型，所述苹果叶片病害图像识别模型由CNN分支模型和Transformer分支模型组成；在本发明中，CNN分支模型即CNN模型，Transformer分支模型即Transformer模型；在这里，CNN模型为卷积神经网络模型；

(5)获取待检测的苹果叶片病害图像并进行预处理；

在步骤(2)中，所述预处理包括卷积和池化操作。

如图2、3、4、5所示，在步骤(3)中，所述CNN分支模型的构建包括以下步骤：

(3a)设定CNN分支模型为四层结构：

CNN分支模型四层结构的残差模块均相同；

(3b)设定所述的残差模块：

在输入和输出之间利用跳跃连接进行恒等映射。

在步骤(3)中，所述Transformer分支模型的构建具体是指：

设计多头自注意力模块，以获得每个位置的上下文信息；

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

where head_h＝Attention(QW_h ^Q,KW_h ^K,VW_h ^V)

其中，d_k表示向量K的维度；

所述步骤(4)具体包括以下步骤：

(4b)根据损失函数计算损失：

本发明的效果可以通过以下仿真实验说明：

1、实验条件

实验所用的数据是公开数据集Plant Pathology 2021-FGVC8。这是一个包括三种常见的苹果叶片疾病：苹果黑星病、苹果灰斑病、苹果锈病北的公开数据集。为了提高模型的泛化能力，对该数据集进行了扩充，进行旋转、翻转、裁剪和颜色变换等操作扩充到21142张图片；接着，按照7：2：1的比例随机选取图像，将数据集划分为训练集、验证集和测试集。最后，将扩充之后的数据集用于训练和测试模型效果。.

2、实验步骤，具体实验步骤如下：

(1)将扩充后的数据集输入到本发明的苹果叶片病害图像识别模型；

(2)设定优化方法为AdamW优化方法，初始学习率设置为0.001，训练300个批次，并应用余弦衰减方法；

(3)保存训练结果最好的批次的权重；

(4)加载步骤(3)中保存的权重，输入需要预测的苹果叶片病害图像到本发明的苹果叶片病害图像识别模型进行测试；

(5)输出模型预测结果。

3、实验结果

如图6、7、8所示，与目前主流的CNN模型和Transformer模型进行比较，在保持具有更低参数量的同时，本发明提出的模型精度高于其他先进的识别模型。

表1本发明与其他检测模型的精度结果对比表(单位：％)

模型	参数量	精度
			ResNet50	25.5M	88.37
ResNext50	25.0M	94.15
			EfficientNetB5	28.4M	98.95
Deit-small	21.6M	95.92
			Twins-SVT-S	24.1M	99.16
本发明	20.4M	99.69

综上所述，本发明通过将Transformer模型融合到CNN模型中，实现对苹果叶片图像病害的准确识别；本发明使用多头自注意力机制的Transformer模型来增强模型对全局上下文信息的建模能力，并且利用CNN模型提取局部特征，从而实现对苹果叶片病害的全局和局部信息的综合建模；本发明中的Transformer模型通过多头自注意力模块实现对全局位置的空间信息的关注，从而提高了全局视觉信息的建模能力，同时，CNN模型提取到的局部特征也不断反馈到Transformer模型中，以丰富其局部细节信息；第四，为了进一步增强特征传播和特征复用，本发明还引入了密集连接机制，减少了网络传输时的信息损失，对于复杂背景和遮挡等情况都具有较高的鲁棒性。

以上描述介绍了本发明的基本原理和具体实施方式，应当指出，本发明的实施方式并不受上述实施实例的限制，在不脱离本发明原理范围的前提下，进行的任何修改、等同替换等，这些变化和改进均应包含在本发明的保护范围之内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于CNN和Transformer的苹果叶片病害识别方法，其特征在于：该方法包括下列顺序的步骤：

(5)获取待检测的苹果叶片病害图像并进行预处理；

2.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法，其特征在于：所述步骤(1)具体是指：采集真实背景下苹果叶片病害图像，并通过随机翻转、随机色彩增强和添加噪声的图像增强方法生成多样化的图像数据，得到初始苹果叶片病害图像样本。

3.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法，其特征在于：在步骤(2)中，所述预处理包括卷积和池化操作。

4.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法，其特征在于：在步骤(3)中，所述CNN分支模型的构建包括以下步骤：

(3a)设定CNN分支模型为四层结构：

CNN分支模型四层结构的残差模块均相同；

(3b)设定所述的残差模块：

在输入和输出之间利用跳跃连接进行恒等映射。

5.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法，其特征在于：在步骤(3)中，所述Transformer分支模型的构建具体是指：

设计多头自注意力模块，以获得每个位置的上下文信息；

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

where head_h＝Attention(QW_h ^Q,KW_h ^K,VW_h ^V)

其中，d_k表示向量K的维度；

6.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法，其特征在于：所述步骤(4)具体包括以下步骤：

(4b)根据损失函数计算损失：