CN116883364A - 一种基于CNN和Transformer的苹果叶片病害识别方法 - Google Patents
一种基于CNN和Transformer的苹果叶片病害识别方法 Download PDFInfo
- Publication number
- CN116883364A CN116883364A CN202310869642.4A CN202310869642A CN116883364A CN 116883364 A CN116883364 A CN 116883364A CN 202310869642 A CN202310869642 A CN 202310869642A CN 116883364 A CN116883364 A CN 116883364A
- Authority
- CN
- China
- Prior art keywords
- apple leaf
- leaf disease
- model
- cnn
- disease image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 111
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 111
- 241000219998 Philenoptera violacea Species 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 38
- 241000607479 Yersinia pestis Species 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 5
- 241000238631 Hexapoda Species 0.000 description 4
- 241000220225 Malus Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000238876 Acari Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 206010039509 Scab Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
- G06T2207/30188—Vegetation; Agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于CNN和Transformer的苹果叶片病害识别方法,包括:采集苹果叶片病害图像,并进行处理;对初始苹果叶片病害图像样本中的图像进行预处理,获得初始特征图,初始特征图组成苹果叶片病害图像训练集;基于CNN模型和Transformer模型构建苹果叶片病害图像识别模型;将苹果叶片病害图像训练集输入苹果叶片病害识别模型中进行训练;获取待检测的苹果叶片病害图像并进行预处理;将预处理后的待检测的苹果叶片病害图像输入训练后的苹果叶片病害识别模型,得到苹果叶片病害识别结果。本发明通过将Transformer模型融合到CNN模型中,实现对苹果叶片图像病害的准确识别;实现对苹果叶片病害的全局和局部信息的综合建模。
Description
技术领域
本发明涉及农业病虫害图像处理技术领域,尤其是一种基于CNN和Transformer的苹果叶片病害识别方法。
背景技术
农作物病虫害是指在农业生产中,农作物受到各种病害和虫害的侵害的现象,这些病害可以由真菌、细菌、病毒和其他微生物引起,而虫害则是由昆虫、螨类、蠕虫和其他害虫引起的损害。每种病害在不同的发展阶段和环境条件下可能会呈现不同的症状和特征,这使得准确的识别变得困难。
农田中关于农作物病虫害的数据庞大且不断增长,涉及大量的图像和相关信息。高效处理和管理这些大规模数据的需求成为一个挑战,包括数据的采集、存储、传输和分析。近年来,随着计算机视觉和机器学习技术的发展,基于图像识别和数据分析的农作物病虫害监测和识别方法逐渐引起了关注。利用图像处理和深度学习算法,可以对农作物病虫害的图像进行自动化分析和识别,提供快速、准确的病虫害检测结果,帮助农民和农作物保护工作者及时采取相应的防治措施,降低病虫害带来的损失。
目前,已有的苹果叶片病害识别方法主要基于CNN模型,该模型在提取局部特征方面表现出色,但在建模全局上下文信息方面存在一定的局限性。为了更好地利用全局上下文信息,Transformer模型被引入计算机视觉领域,其多头自注意力机制能够更全面地对全局上下文信息进行建模。然而,Transformer模型在提取图像的局部特征方面相对较弱。因此,结合CNN和Transformer模型的方法成为解决该问题的关键,目前还没有出现结合CNN和Transformer模型来解决苹果叶片病害识别问题的发明或研究。
发明内容
为解决传统苹果叶片病害检测方法准确率较低的问题,本发明的目的在于提供一种通过CNN模型和Transformer模型密集连接融合来充分传递和复用特征信息,可以综合利用局部特征和全局上下文信息,从而提高农作物病虫害识别的准确率的基于CNN和Transformer的苹果叶片病害识别方法。
为实现上述目的,本发明采用了以下技术方案:一种基于CNN和Transformer的苹果叶片病害识别方法,该方法包括下列顺序的步骤:
(1)采集苹果叶片病害图像,并进行处理,获得初始苹果叶片病害图像样本;
(2)对初始苹果叶片病害图像样本中的图像进行预处理,获得初始特征图,初始特征图组成苹果叶片病害图像训练集;
(3)基于CNN模型和Transformer模型构建苹果叶片病害图像识别模型,所述苹果叶片病害图像识别模型由CNN分支模型和Transformer分支模型组成;
(4)将苹果叶片病害图像训练集输入苹果叶片病害识别模型中进行训练,得到训练后的苹果叶片病害识别模型;
(5)获取待检测的苹果叶片病害图像并进行预处理;
(6)将预处理后的待检测的苹果叶片病害图像输入训练后的苹果叶片病害识别模型,得到苹果叶片病害识别结果。
所述步骤(1)具体是指:采集真实背景下苹果叶片病害图像,并通过随机翻转、随机色彩增强和添加噪声的图像增强方法生成多样化的图像数据,得到初始苹果叶片病害图像样本。
在步骤(2)中,所述预处理包括卷积和池化操作。
在步骤(3)中,所述CNN分支模型的构建包括以下步骤:
(3a)设定CNN分支模型为四层结构:
设定CNN分支模型的第一层由三个级联的残差模块组成,其中最后一个残差模块负责压缩图片尺寸并扩展维度;
设定CNN分支模型的第二层由四个级联的残差模块组成,同样在最后一个残差模块扩展维度;
设定CNN分支模型的第三层由三个级联的残差模块组成,在最后一个残差模块扩展维度;
设定CNN分支模型的第四层通过一个残差模块提取最终特征图;
CNN分支模型四层结构的残差模块均相同;
(3b)设定所述的残差模块:
使用一个卷积核大小为1×1的下投影卷积操作将输入维度降维;
使用一个卷积核大小为3×3的空间卷积进行特征提取,然后,使用一个卷积核大小为1×1的上投影卷积恢复维度;
在输入和输出之间利用跳跃连接进行恒等映射。
在步骤(3)中,所述Transformer分支模型的构建具体是指:
设计多头自注意力模块,以获得每个位置的上下文信息;
初始特征图经过线性投影映射为Q、K和V三个向量,每个向量都执行自注意力函数,得到输出权重,最后,将权重拼接后再次进行投影映射,得到最终输出值:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
where headh=Attention(QWh Q,KWh K,VWh V)
其中,WQ,WK,WV和WO均为线性投影参数矩阵,Concat表示对向量进行拼接,h表示编号,head1表示第1个权重分量所对应的自注意力,headh表示第h个权重分量所对应的自注意力;
自注意力模块的输入由维度为dk的Q和K向量以及维度dv的V向量组成,首先计算Q向量和K向量的点积,再除以并应用softmax函数来获得V向量的权重,最后,将权重与V向量相乘,得到自注意力模块的输出,具体计算公式如下:
其中,dk表示向量K的维度;
输出整合,多头自注意力模块通过将多个注意力头的输出进行线性变换和拼接,得到最终的多头注意力表示。
所述步骤(4)具体包括以下步骤:
(4a)进行前向传播:输入苹果叶片病害图像训练集,经过苹果叶片病害图像识别模型进行前向传播;
(4b)根据损失函数计算损失:
其中,yi表示真实标签的概率分布向量中的第i个元素,pi表示苹果叶片病害图像识别模型的预测概率分布向量中的第i个元素,N表示元素的个数;
(4c)反向传播与参数更新:根据损失结果,进行反向传播,计算梯度,对苹果叶片病害图像识别模型参数进行优化:
梯度计算:根据损失函数对参数求导,得到各个参数的梯度;参数指苹果叶片病害图像识别模型中的权重;
参数更新:使用梯度下降的优化算法更新苹果叶片病害图像识别模型的权重和偏置;
(4d)重复训练步骤:重复步骤(4a)至步骤(4c),持续输入苹果叶片病害图像训练集,进行前向传播、损失计算、反向传播和参数更新,直到损失收敛,得到预测效果最好的权重。
由上述技术方案可知,本发明的有益效果为:第一,本发明通过将Transformer模型融合到CNN模型中,实现对苹果叶片图像病害的准确识别;第二,本发明使用多头自注意力机制的Transformer模型来增强模型对全局上下文信息的建模能力,并且利用CNN模型提取局部特征,从而实现对苹果叶片病害的全局和局部信息的综合建模;第三,本发明中的Transformer模型通过多头自注意力模块实现对全局位置的空间信息的关注,从而提高了全局视觉信息的建模能力,同时,CNN模型提取到的局部特征也不断反馈到Transformer模型中,以丰富其局部细节信息;第四,为了进一步增强特征传播和特征复用,本发明还引入了密集连接机制,减少了网络传输时的信息损失,对于复杂背景和遮挡等情况都具有较高的鲁棒性。
附图说明
图1为本发明的方法流程图;
图2、3、4分别为Transformer分支模型的Transformer模块、多头自注意力模块和自注意力模块的结构示意图;
图5为本发明中苹果叶片病害图像识别模型的结构示意图;
图6、7、8分别为原始图像、浅层特征热力图和深层特征热力图。
具体实施方式
如图1所示,一种基于CNN和Transformer的苹果叶片病害识别方法,该方法包括下列顺序的步骤:
(1)采集苹果叶片病害图像,并进行处理,获得初始苹果叶片病害图像样本;
(2)对初始苹果叶片病害图像样本中的图像进行预处理,获得初始特征图,初始特征图组成苹果叶片病害图像训练集;
(3)基于CNN模型和Transformer模型构建苹果叶片病害图像识别模型,所述苹果叶片病害图像识别模型由CNN分支模型和Transformer分支模型组成;在本发明中,CNN分支模型即CNN模型,Transformer分支模型即Transformer模型;在这里,CNN模型为卷积神经网络模型;
(4)将苹果叶片病害图像训练集输入苹果叶片病害识别模型中进行训练,得到训练后的苹果叶片病害识别模型;
(5)获取待检测的苹果叶片病害图像并进行预处理;
(6)将预处理后的待检测的苹果叶片病害图像输入训练后的苹果叶片病害识别模型,得到苹果叶片病害识别结果。
所述步骤(1)具体是指:采集真实背景下苹果叶片病害图像,并通过随机翻转、随机色彩增强和添加噪声的图像增强方法生成多样化的图像数据,得到初始苹果叶片病害图像样本。
在步骤(2)中,所述预处理包括卷积和池化操作。
如图2、3、4、5所示,在步骤(3)中,所述CNN分支模型的构建包括以下步骤:
(3a)设定CNN分支模型为四层结构:
设定CNN分支模型的第一层由三个级联的残差模块组成,其中最后一个残差模块负责压缩图片尺寸并扩展维度;
设定CNN分支模型的第二层由四个级联的残差模块组成,同样在最后一个残差模块扩展维度;
设定CNN分支模型的第三层由三个级联的残差模块组成,在最后一个残差模块扩展维度;
设定CNN分支模型的第四层通过一个残差模块提取最终特征图;
CNN分支模型四层结构的残差模块均相同;
(3b)设定所述的残差模块:
使用一个卷积核大小为1×1的下投影卷积操作将输入维度降维;
使用一个卷积核大小为3×3的空间卷积进行特征提取,然后,使用一个卷积核大小为1×1的上投影卷积恢复维度;
在输入和输出之间利用跳跃连接进行恒等映射。
在步骤(3)中,所述Transformer分支模型的构建具体是指:
设计多头自注意力模块,以获得每个位置的上下文信息;
初始特征图经过线性投影映射为Q、K和V三个向量,每个向量都执行自注意力函数,得到输出权重,最后,将权重拼接后再次进行投影映射,得到最终输出值:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
where headh=Attention(QWh Q,KWh K,VWh V)
其中,WQ,WK,WV和WO均为线性投影参数矩阵,Concat表示对向量进行拼接,h表示编号,head1表示第1个权重分量所对应的自注意力,headh表示第h个权重分量所对应的自注意力;
自注意力模块的输入由维度为dk的Q和K向量以及维度dv的V向量组成,首先计算Q向量和K向量的点积,再除以并应用softmax函数来获得V向量的权重,最后,将权重与V向量相乘,得到自注意力模块的输出,具体计算公式如下:
其中,dk表示向量K的维度;
输出整合,多头自注意力模块通过将多个注意力头的输出进行线性变换和拼接,得到最终的多头注意力表示。
所述步骤(4)具体包括以下步骤:
(4a)进行前向传播:输入苹果叶片病害图像训练集,经过苹果叶片病害图像识别模型进行前向传播;
(4b)根据损失函数计算损失:
其中,yi表示真实标签的概率分布向量中的第i个元素,pi表示苹果叶片病害图像识别模型的预测概率分布向量中的第i个元素,N表示元素的个数;
(4c)反向传播与参数更新:根据损失结果,进行反向传播,计算梯度,对苹果叶片病害图像识别模型参数进行优化:
梯度计算:根据损失函数对参数求导,得到各个参数的梯度;参数指苹果叶片病害图像识别模型中的权重;
参数更新:使用梯度下降的优化算法更新苹果叶片病害图像识别模型的权重和偏置;
(4d)重复训练步骤:重复步骤(4a)至步骤(4c),持续输入苹果叶片病害图像训练集,进行前向传播、损失计算、反向传播和参数更新,直到损失收敛,得到预测效果最好的权重。
本发明的效果可以通过以下仿真实验说明:
1、实验条件
实验所用的数据是公开数据集Plant Pathology 2021-FGVC8。这是一个包括三种常见的苹果叶片疾病:苹果黑星病、苹果灰斑病、苹果锈病北的公开数据集。为了提高模型的泛化能力,对该数据集进行了扩充,进行旋转、翻转、裁剪和颜色变换等操作扩充到21142张图片;接着,按照7:2:1的比例随机选取图像,将数据集划分为训练集、验证集和测试集。最后,将扩充之后的数据集用于训练和测试模型效果。.
2、实验步骤,具体实验步骤如下:
(1)将扩充后的数据集输入到本发明的苹果叶片病害图像识别模型;
(2)设定优化方法为AdamW优化方法,初始学习率设置为0.001,训练300个批次,并应用余弦衰减方法;
(3)保存训练结果最好的批次的权重;
(4)加载步骤(3)中保存的权重,输入需要预测的苹果叶片病害图像到本发明的苹果叶片病害图像识别模型进行测试;
(5)输出模型预测结果。
3、实验结果
如图6、7、8所示,与目前主流的CNN模型和Transformer模型进行比较,在保持具有更低参数量的同时,本发明提出的模型精度高于其他先进的识别模型。
表1本发明与其他检测模型的精度结果对比表(单位:%)
模型 | 参数量 | 精度 |
ResNet50 | 25.5M | 88.37 |
ResNext50 | 25.0M | 94.15 |
EfficientNetB5 | 28.4M | 98.95 |
Deit-small | 21.6M | 95.92 |
Twins-SVT-S | 24.1M | 99.16 |
本发明 | 20.4M | 99.69 |
综上所述,本发明通过将Transformer模型融合到CNN模型中,实现对苹果叶片图像病害的准确识别;本发明使用多头自注意力机制的Transformer模型来增强模型对全局上下文信息的建模能力,并且利用CNN模型提取局部特征,从而实现对苹果叶片病害的全局和局部信息的综合建模;本发明中的Transformer模型通过多头自注意力模块实现对全局位置的空间信息的关注,从而提高了全局视觉信息的建模能力,同时,CNN模型提取到的局部特征也不断反馈到Transformer模型中,以丰富其局部细节信息;第四,为了进一步增强特征传播和特征复用,本发明还引入了密集连接机制,减少了网络传输时的信息损失,对于复杂背景和遮挡等情况都具有较高的鲁棒性。
以上描述介绍了本发明的基本原理和具体实施方式,应当指出,本发明的实施方式并不受上述实施实例的限制,在不脱离本发明原理范围的前提下,进行的任何修改、等同替换等,这些变化和改进均应包含在本发明的保护范围之内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (6)
1.一种基于CNN和Transformer的苹果叶片病害识别方法,其特征在于:该方法包括下列顺序的步骤:
(1)采集苹果叶片病害图像,并进行处理,获得初始苹果叶片病害图像样本;
(2)对初始苹果叶片病害图像样本中的图像进行预处理,获得初始特征图,初始特征图组成苹果叶片病害图像训练集;
(3)基于CNN模型和Transformer模型构建苹果叶片病害图像识别模型,所述苹果叶片病害图像识别模型由CNN分支模型和Transformer分支模型组成;
(4)将苹果叶片病害图像训练集输入苹果叶片病害识别模型中进行训练,得到训练后的苹果叶片病害识别模型;
(5)获取待检测的苹果叶片病害图像并进行预处理;
(6)将预处理后的待检测的苹果叶片病害图像输入训练后的苹果叶片病害识别模型,得到苹果叶片病害识别结果。
2.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法,其特征在于:所述步骤(1)具体是指:采集真实背景下苹果叶片病害图像,并通过随机翻转、随机色彩增强和添加噪声的图像增强方法生成多样化的图像数据,得到初始苹果叶片病害图像样本。
3.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法,其特征在于:在步骤(2)中,所述预处理包括卷积和池化操作。
4.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法,其特征在于:在步骤(3)中,所述CNN分支模型的构建包括以下步骤:
(3a)设定CNN分支模型为四层结构:
设定CNN分支模型的第一层由三个级联的残差模块组成,其中最后一个残差模块负责压缩图片尺寸并扩展维度;
设定CNN分支模型的第二层由四个级联的残差模块组成,同样在最后一个残差模块扩展维度;
设定CNN分支模型的第三层由三个级联的残差模块组成,在最后一个残差模块扩展维度;
设定CNN分支模型的第四层通过一个残差模块提取最终特征图;
CNN分支模型四层结构的残差模块均相同;
(3b)设定所述的残差模块:
使用一个卷积核大小为1×1的下投影卷积操作将输入维度降维;
使用一个卷积核大小为3×3的空间卷积进行特征提取,然后,使用一个卷积核大小为1×1的上投影卷积恢复维度;
在输入和输出之间利用跳跃连接进行恒等映射。
5.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法,其特征在于:在步骤(3)中,所述Transformer分支模型的构建具体是指:
设计多头自注意力模块,以获得每个位置的上下文信息;
初始特征图经过线性投影映射为Q、K和V三个向量,每个向量都执行自注意力函数,得到输出权重,最后,将权重拼接后再次进行投影映射,得到最终输出值:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
where headh=Attention(QWh Q,KWh K,VWh V)
其中,WQ,WK,WV和WO均为线性投影参数矩阵,Concat表示对向量进行拼接,h表示编号,head1表示第1个权重分量所对应的自注意力,headh表示第h个权重分量所对应的自注意力;
自注意力模块的输入由维度为dk的Q和K向量以及维度dv的V向量组成,首先计算Q向量和K向量的点积,再除以并应用softmax函数来获得V向量的权重,最后,将权重与V向量相乘,得到自注意力模块的输出,具体计算公式如下:
其中,dk表示向量K的维度;
输出整合,多头自注意力模块通过将多个注意力头的输出进行线性变换和拼接,得到最终的多头注意力表示。
6.根据权利要求1所述的基于CNN和Transformer的苹果叶片病害识别方法,其特征在于:所述步骤(4)具体包括以下步骤:
(4a)进行前向传播:输入苹果叶片病害图像训练集,经过苹果叶片病害图像识别模型进行前向传播;
(4b)根据损失函数计算损失:
其中,yi表示真实标签的概率分布向量中的第i个元素,pi表示苹果叶片病害图像识别模型的预测概率分布向量中的第i个元素,N表示元素的个数;
(4c)反向传播与参数更新:根据损失结果,进行反向传播,计算梯度,对苹果叶片病害图像识别模型参数进行优化:
梯度计算:根据损失函数对参数求导,得到各个参数的梯度;参数指苹果叶片病害图像识别模型中的权重;
参数更新:使用梯度下降的优化算法更新苹果叶片病害图像识别模型的权重和偏置;
(4d)重复训练步骤:重复步骤(4a)至步骤(4c),持续输入苹果叶片病害图像训练集,进行前向传播、损失计算、反向传播和参数更新,直到损失收敛,得到预测效果最好的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869642.4A CN116883364A (zh) | 2023-07-17 | 2023-07-17 | 一种基于CNN和Transformer的苹果叶片病害识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310869642.4A CN116883364A (zh) | 2023-07-17 | 2023-07-17 | 一种基于CNN和Transformer的苹果叶片病害识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883364A true CN116883364A (zh) | 2023-10-13 |
Family
ID=88265780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310869642.4A Pending CN116883364A (zh) | 2023-07-17 | 2023-07-17 | 一种基于CNN和Transformer的苹果叶片病害识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883364A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576467A (zh) * | 2023-11-22 | 2024-02-20 | 安徽大学 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249329A (zh) * | 2022-07-16 | 2022-10-28 | 江苏师范大学 | 一种基于深度学习的苹果叶片病害检测方法 |
CN115273072A (zh) * | 2022-06-13 | 2022-11-01 | 南京林业大学 | 基于改进Yolov5s模型的苹果叶片病害检测方法 |
CN115620146A (zh) * | 2022-11-07 | 2023-01-17 | 无锡学院 | 一种基于Transformer的农作物叶片病害检测方法 |
-
2023
- 2023-07-17 CN CN202310869642.4A patent/CN116883364A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273072A (zh) * | 2022-06-13 | 2022-11-01 | 南京林业大学 | 基于改进Yolov5s模型的苹果叶片病害检测方法 |
CN115249329A (zh) * | 2022-07-16 | 2022-10-28 | 江苏师范大学 | 一种基于深度学习的苹果叶片病害检测方法 |
CN115620146A (zh) * | 2022-11-07 | 2023-01-17 | 无锡学院 | 一种基于Transformer的农作物叶片病害检测方法 |
Non-Patent Citations (3)
Title |
---|
M N AHIL ET AL: "Apple and Grape Leaf Disease Classification using MLP and CNN", 2021 INTERNATIONAL CONFERENCE ON ADVANCEMENTS IN ELECTRICAL, ELECTRONICS, COMMUNICATION, COMPUTING AND AUTOMATION (ICAECA), 18 January 2022 (2022-01-18) * |
XIAOPENG LI ET AL: "Transformer Help CNN See Better: A Lightweight Hybrid Apple Disease Identification Model Based on Transformers", AGRICULTURE, 19 June 2022 (2022-06-19) * |
徐艳蕾等: "基于Transformer的强泛化苹果叶片病害识别模型", 农业工程学报, vol. 38, no. 16, 31 August 2022 (2022-08-31), pages 198 - 206 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576467A (zh) * | 2023-11-22 | 2024-02-20 | 安徽大学 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
CN117576467B (zh) * | 2023-11-22 | 2024-04-26 | 安徽大学 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN112070768B (zh) | 基于Anchor-Free的实时实例分割方法 | |
CN112699941B (zh) | 植物病害严重程度图像分类方法、装置、设备和存储介质 | |
Hassan et al. | Plant seedlings classification using transfer learning | |
CN116883364A (zh) | 一种基于CNN和Transformer的苹果叶片病害识别方法 | |
CN112749675A (zh) | 一种基于卷积神经网络的马铃薯病害识别方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN114898359B (zh) | 一种基于改进EfficientDet的荔枝病虫害检测方法 | |
CN114676769A (zh) | 一种基于视觉Transformer的小样本昆虫图像识别方法 | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
Mahbub et al. | Detect bangladeshi mango leaf diseases using lightweight convolutional neural network | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
Rethik et al. | Attention Based Mapping for Plants Leaf to Classify Diseases using Vision Transformer | |
CN107085700A (zh) | 一种基于稀疏表示与单隐层神经网络技术相结合的人脸识别方法 | |
CN113780335B (zh) | 一种小样本商品图像分类方法、装置、设备及存储介质 | |
CN115439842A (zh) | 一种基于深度学习的桑葚菌核病严重度的检测方法 | |
CN114463741A (zh) | 一种基于深度学习的荔枝病虫害识别方法 | |
CN114627496A (zh) | 基于高斯过程的去偏批量归一化的鲁棒行人重识别方法 | |
CN114494828A (zh) | 葡萄病害识别方法、装置、电子设备及存储介质 | |
CN113887653A (zh) | 一种基于三元网络的紧耦合弱监督学习的定位方法及*** | |
Hussein et al. | Semantic segmentation of aerial images using u-net architecture | |
Sun et al. | Tobacco-disease image recognition via multiple-attention classification network | |
CN114842300B (zh) | 一种适应雨天环境的农作物病虫害检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |