CN116580279A - 基于混合自注意力机制的番茄病害检测方法及*** - Google Patents

基于混合自注意力机制的番茄病害检测方法及*** Download PDF

Info

Publication number
CN116580279A
CN116580279A CN202310562069.2A CN202310562069A CN116580279A CN 116580279 A CN116580279 A CN 116580279A CN 202310562069 A CN202310562069 A CN 202310562069A CN 116580279 A CN116580279 A CN 116580279A
Authority
CN
China
Prior art keywords
attention
paca
connext
module
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310562069.2A
Other languages
English (en)
Inventor
吴云志
丁杰
王浩宇
乐毅
张程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Agricultural University AHAU
Original Assignee
Anhui Agricultural University AHAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Agricultural University AHAU filed Critical Anhui Agricultural University AHAU
Priority to CN202310562069.2A priority Critical patent/CN116580279A/zh
Publication of CN116580279A publication Critical patent/CN116580279A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于混合自注意力机制的番茄病害检测方法及***,方法包括将待识别番茄叶病图像输入到PACA‑ConvNeXt模型,PACA‑ConvNeXt模型包括ConvNeXt卷积神经网络,ConvNeXt卷积神经网络的各级ConNeXt Block模块中***有PACA注意力机制模块,PACA注意力机制模块包括像素注意块和坐标注意块;每级ConNeXt Block模块对于输入的特征图,基于PACA注意力机制模块计算该特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图;基于最后一级ConNeXt Block模块输出的混合注意力特征图,预测番茄病害的种类。

Description

基于混合自注意力机制的番茄病害检测方法及***
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于混合自注意力机制的番茄病害检测方法及***。
背景技术
目前我国对番茄病害鉴定的方法主要是通过人工检测的方式,由于在植物病害出现的早期,病斑大都出现在叶片上且病斑特征相似,因病斑特征相似性、个人经验不足及周围环境等因素的影响,采用人工检测方式时,种植户对疾病种类容易产生误判,导致出现农民可能会用药不当或者错过最佳用药时机等问题,因此,能够在病害早期快速和准确识别番茄病害的种类是非常重要的。
随着深度学习技术的兴起,已诞生了许多优秀的卷积神经网络模型,如LeNet、AlexNet、VGGNet和GoogleNet等经典卷积神经网络模型,人们可以利用卷积神经网络直接提取特征,并且计算机视觉在农业上得到了广泛的应用。但上述模型具有一定的局限性,如要求图像采集设备精确度高、光照要求均匀和不复杂的图像背景,因此很难扩展到实际生产生活中。而且由于番茄病害具有背景复杂,纹理丰富,不同病害之间的特征差异较小等特性,加之传统的一些经典卷积神经网络模型在特征提取能力方面存在一定的局限性,在进行番茄病害检测时无法充分提取番茄病害的特征信息。
相关技术中,公布号为CN113963279A的专利申请文献提出了一种利用轻量级注意力网络识别水稻病害的***,以轻量级网络作为骨干网络,加入注意力机制来学习输入特征通道间及空间点的重要性,对水稻图片中的水稻病害进行识别。该方案利用的是通道注意力,关注的是通道上的信息交互,通过对通道维度上的特征进行加权,保留重要的特征信息。
虽然通道注意力机制在挖掘不同特征通道间的关联性方面具有优势,能够有效提升深度学习模型的表达能力,但它主要关注的是全局信息,可能会忽视图像的局部结构和空间关系,这在农作物病害识别等涉及到空间信息的任务中尤其重要。比如,某些病害的形态(比如斑点的形状、大小、排列等)可能含有重要的空间关系信息。在相关文献中提到的注意力机制中,虽然考虑到了空间和通道信息,但可能并未强调像素级别的重要性,也可能未充分考虑坐标的上下文信息,这可能导致模型在识别具有明显局部特征或者全局分布特性的病害时效果不佳,例如,如果病害只在叶片的某一小部分区域内,那么这种局部细节信息就非常重要。没有像素级别的注意力机制,模型可能会错过这些关键信息。同样,如果病害在叶片上的分布有特定的模式,那么这种全局的上下文信息就变得非常关键。
发明内容
本发明旨在解决具备复杂背景的番茄叶病识别准确率低的问题。
本发明通过以下技术手段解决上述技术问题的:
本发明提出了一种基于混合自注意力机制的番茄病害检测方法,所述方法包括:
将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型,其中,所述PACAConvNeXt模型包括ConvNeXt卷积神经网络,所述ConvNeXt卷积神经网络的各级ConNeXtBlock模块中***有PACA注意力机制模块,所述PACA注意力机制模块包括像素注意块和坐标注意块;
每级ConNeXt Block模块对于输入的特征图,基于所述PACA注意力机制模块计算该特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图;
基于最后一级ConNeXt Block模块输出的混合注意力特征图,预测番茄病害的种类。
进一步地,所述ConvNeXt卷积神经网络包括依次连接的图像处理层、一级ConNeXtBlock模块、二级ConNeXt Block模块、三级ConNeXt Block模块、四级ConNeXt Block模块和输出预测层;
所述二级ConNeXt Block模块、所述三级ConNeXt Block模块和所述四级ConNeXtBlock模块之前均连接下采样层。
进一步地,所述图像处理层包括卷积层Conv2d和归一化层Layer Norm_1,卷积层Conv2d的输入为所述番茄叶病图像、输出连接所述归一化层Layer Norm_1的输入,所述归一化层Layer Norm_1的输出连接所述一级ConNeXt Block模块。
进一步地,所述输出预测层包括依次连接的全局平均池化层、归一化层LayerNorm_2和全连接层,所述全局平均池化层的输入连接所述四级ConNeXt Block模块,所述全连接层的输出为番茄病害的分类结果。
进一步地,各级所述ConNeXt Block模块均包括依次连接的深度可分离卷积层、归一化层Batch Norm_1、卷积层Conv2d_1、第一激活函数、卷积层Conv2d_2、DropPath层和PACA注意力机制模块,PACA注意力机制模块的输出与所述ConNeXt Block模块输入的特征图之间经拼接操作连接。
进一步地,所述像素注意块包括第二激活函数和两个用于进行线性变换的卷积核,两个卷积核的输出经相乘操作连接后经第二激活函数得到像素注意力特征权重;
所述坐标注意块包括分别用于编码水平方向和垂直方向特征的全局平局池化核,两个全局平均池化核输出的一对方向可知的特征图经拼接操作连接后输出至卷积层Conv2d_3,所述卷积层Conv2d_3的输出依次经归一化层Batch Norm_2、非线性激活函数和Split操作得到两个独立的特征图;该两个独立的特征图分别经卷积层Conv2d_4和第三激活函数以将维度转换为与当前级ConNeXt Block模块输入的特征图一致,转换后的两个独立特征图经相乘操作连接得到坐标注意力特征权重。
进一步地,所述每级ConNeXt Block模块对于输入的特征图,基于所述PACA注意力机制模块计算该特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的特征图,包括:
利用像素注意块对输入的特征图进行处理,得到像素相关性,公式表示为:
式中,pij表示像素Fi和Fj之间的相关性;zij=q(Fi)Tk(Fj),q(F)=WqF,k(F)=WkF,Wq和Wk为权值矩阵,表示减少原有信道数C后的信道数,F表示输入的特征图;exp()表示指数函数,用于表示e的幂次;A为像素总数;
利用坐标注意块对输入的特征图进行处理,得到第c个通道的注意力特征权重,公式表示为:
式中,为输入特征图F通过坐标注意力在第c通道进行处理得到的值;Fc(i,j)为输入特征图第c通道的值;/>为在第c通道中第i行的通道注意力权重;/>为在第c通道中第j列的通道注意力权重;i为特征图F中在第c通道中像素的行索引;j为特征图F中在第c通道中像素的列索引;
基于所述像素相关性和每个通道的注意力特征权重,计算混合注意力权值矩阵,公式表示为:
式中,B=(pij)(W×H)×(W×H)表示像素注意力特征矩阵,W为通道宽度,H为通道高度,表示坐标注意力特征矩阵,所述坐标注意力特征矩阵在进行矩阵相乘之前维度被转换为C×N,N=H×W,C为输入特征图的信道数量,/>为混合注意力权值矩阵;
所述混合注意力权值矩阵与当前级ConNeXt Block模块输入的特征图经相乘操作得到混合注意力特征图,公示表示为:
式中,X为当前级ConNeXt Block模块输入的特征图;β为超参数,取值为0.5;ο为混合注意力特征。
进一步地,每级ConNeXt Block模块输出的混合注意力特征图公式表示为:
式中,X为当前级ConNeXt Block模块输入的特征图;Cdw为深度可分离卷积层;为归一化层Batch Norm_1;/>为注意力机制模块PACA;/>为DropPath层,/>表示激活函数;C1为卷积层Conv2d_1;C2为卷积层Conv2d_2。
进一步地,在所述将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型之前,所述方法还包括:
获取番茄叶病数据集;
利用所述番茄叶病数据集对所述的PACA ConvNeXt模型进行训练,并计算真实值与模型输出的预测值之间的损失,损失计算公式表示为:
式中,M为类别样本数;yic为符号函数;pic为观测样本i属于c类的概率;N为类别总数;L为损失;
在真实值与预测值之间的损失符合预期时,将PACA ConvNeXt模型对应的配置参数作为最优配置参数,得到训练好的PACA ConvNeXt模型。
此外,本发明还提出了一种基于混合自注意力机制的番茄病害检测***,所述***包括:
输入模块,用于将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型,其中,所述PACA ConvNeXt模型包括ConvNeXt卷积神经网络,所述ConvNeXt卷积神经网络的各级ConNeXt Block模块中***有PACA注意力机制模块,所述PACA注意力机制模块包括像素注意块和坐标注意块;
图像处理模块,用于在每级ConNeXt Block模块中,基于所述PACA注意力机制模块计算输入特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图;
预测模块,用于基于最后一级ConNeXt Block模块输出的混合注意力特征图,预测番茄病害的种类。
本发明的优点在于:
(1)本发明中采用的PACA ConvNeXt模型是以ConNeXt模型为基准,将自建的PACA注意力机制模块***到ConNeXt模型中的每级ConNeXt Block模块,其中PACA注意力机制模块包括像素注意块和坐标注意块,通过将输入特征映射并行计算像素和坐标注意力构建混合注意力机制,使得输出特征图的特征是像素和坐标信息的结合,极大的增强了全局信息和对特征位置信息的关注度,有效提升了模型对具备复杂背景的农作物如番茄病害识别的准确度;相比其他识别的网络,本发明提出的网络模型可以在识别精度上有较大的提升,从而使得种植户针对不同情况对症防治可起到很好的防治效果。
(2)PACA注意力机制模块对输入特征图首先使用两个特征空间q和v进行线性变换,分别采用1×1的卷积核进行卷积运算,通过降低通道数量减少参数和计算量。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明实施例提出的一种基于混合自注意力机制的番茄病害检测方法的流程图;
图2是本发明实施例中PACA ConvNeXt网络模型正向传播示意图;
图3是本发明实施例中每级ConNeXt Block模块的网络结构图;
图4是本发明实施例中PACA注意力机制模块的网络结构图;
图5是本发明实施例中PACA ConvNeXt模型训练流程图;
图6是本发明实施例提出的一种基于混合自注意力机制的番茄病害检测***的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明第一实施例提出了一种基于混合自注意力机制的番茄病害检测方法,所述方法包括以下步骤:
S10、将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型,其中,所述PACA ConvNeXt模型包括ConvNeXt卷积神经网络,所述ConvNeXt卷积神经网络的各级ConNeXt Block模块中***有PACA注意力机制模块,所述PACA注意力机制模块包括像素注意块和坐标注意块;
S20、每级ConNeXt Block模块对于输入的特征图,基于所述PACA注意力机制模块计算该特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图;
S30、基于最后一级ConNeXt Block模块输出的混合注意力特征图,预测番茄病害的种类。
本实施例对于输入的番茄叶病图像,在PACA ConvNeXt模型的每级ConNeXt Block模块中,将输入特征映射并行计算像素和坐标注意力构建混合注意力机制,使得输出特征图的特征是像素和坐标信息的结合,能够同时捕获图像的空间结构和通道间的关联性,具体来说,像素注意力机制侧重于挖掘图像中的局部细节信息,比如病害的大小、颜色、形状等;坐标注意力机制侧重于捕获图的全局上下文信息,比如病害在整个叶片上的分布情况,有助于模型理解病害的全局特性,PACA注意力机制强调了像素级别的重要性和坐标的上下文信息,极大的增强了全局信息和对特征位置信息的关注度,有效提升了模型对具备复杂背景的农作物如番茄病害识别的准确度。
需要说明的是,ConvNeXt卷积神经网络通过使用分组卷积和交叉通道池化来提高特征提取的效率和准确性,可以很好的捕获番茄病害的特征。本实施例以ConvNeXt卷积神经网络为基础,在其各级ConNeXt Block模块中***有PACA注意力机制模块,使得新的网络模型对不同病害特征的响应和提取能力可以更好地区分不同的病害类型,提高准确性。
应当理解的是,本领域技术人员也可根据实际情况选取其他的卷积神经网络为基础,加入自设计的PACA注意力机制模块,构建用于进行番茄病害检测的网络模型。
在一实施例中,如图2所示,所述ConvNeXt卷积神经网络包括依次连接的图像处理层、一级ConNeXt Block模块、二级ConNeXt Block模块、三级ConNeXt Block模块、四级ConNeXt Block模块和输出预测层;
所述二级ConNeXt Block模块、所述三级ConNeXt Block模块和所述四级ConNeXtBlock模块之前均连接下采样层。
进一步地,所述图像处理层包括卷积层Conv2d和归一化层Layer Norm_1,卷积层Conv2d的输入为所述番茄叶病图像、输出连接所述归一化层Layer Norm_1的输入,所述归一化层Layer Norm_1的输出连接所述一级ConNeXt Block模块。
进一步地,所述输出预测层包括依次连接的全局平均池化层Global AvgPooling、归一化层Layer Norm_2和全连接层FC,所述全局平均池化层Global Avg Pooling的输入连接所述四级ConNeXt Block模块,所述全连接层FC的输出为番茄病害的分类结果。
本实施例所构建的PACA ConvNeXt网络模型网络具体的正向传播过程如图2所示,网络模型整体结构包括1个卷积模块、4个ConvNeXt Attention Block卷积模块、3个下采样模块、1个全局平均池化、2个LN层和1个全连接层。其中,ConvNeXt Attention Block卷积模块的构建如图3所示,ConvNeXt Attention Block卷积模块中的PACA注意力机制模块如图4所示。
在一实施例中,如图3所示,各级所述ConNeXt Block模块均包括依次连接的深度可分离卷积层Depth Wise Conv2d、归一化层Batch Norm_1、卷积层Conv2d_1、第一激活函数、卷积层Conv2d_2、DropPath层和PACA注意力机制模块,PACA注意力机制模块的输出与所述ConNeXt Block模块输入的特征图之间经拼接操作连接。
具体地,每级ConNeXt Block模块的工作流程为:输入特征图X→使用卷积核大小为7×7的深度可分离卷积层Depth Wise Conv2d提取特征→经过归一化层Batch Norm_1→使用卷积核大小为1×1的卷积层Conv2d_1→经过第一激活函数(采用GELU激活函数)→使用卷积核大小为1×1的卷积层Conv2d_2增大通道数→得到特征图→使用混合注意力机制模块PACA提取特征权重→将特征图与混合注意力特征权重相乘→得到混合注意力特征图→经过DropPath层进行正则化→将得到的特征和原特征F相加→得到混合注意力特征图。
具体地,每级ConNeXt Block模块输出的混合注意力特征图公式表示为:
式中,X为当前级ConNeXt Block模块输入的特征图;Cdw为深度可分离卷积层;为归一化层Batch Norm_1;/>为注意力机制模块PACA;/>为DropPath层,/>表示激活函数;C1为卷积层Conv2d_1;C2为卷积层Conv2d_2。
在一实施例中,如图4所示,所述像素注意块包括第二激活函数和两个用于进行线性变换的卷积核,两个卷积核的输出经相乘操作连接后经第二激活函数得到像素注意力特征权重。
其中,将输入特征图F首先使用两个特征空间q和v进行线性变换,分别采用1×1的卷积核进行卷积运算,通过降低通道数量减少参数和计算量,得到两组权值矩阵,然后将得到的两组权值矩阵相乘,最后使用第二激活函数(采用Softmax激活函数)计算归一化结果,得到像素注意力特征权重。
需要说明的是,像素注意力指得是关注单个像素级别的信息,关注每个像素在图像中的重要性。空间注意力指的是像素间的空间关系,不仅考虑单个像素的信息,还需要考虑像素与周围像素的相互关系。像素注意力对于处理细节丰富的图像非常有效,能够捕捉微小但对整体影响很大的变化。空间注意力可以能够捕捉大范围的上下文信息,对于理解整个图像的整体结构非常有用。
在一实施例中,所述坐标注意块包括1×1卷积核,分别用于编码水平方向和垂直方向特征的全局平局池化核,两个全局平均池化核输出的一对方向可知的特征图经拼接操作连接后输出至卷积层Conv2d_3,所述卷积层Conv2d_3的输出依次经归一化层BatchNorm_2、非线性激活函数和Split操作得到两个独立的特征图;该两个独立的特征图分别经卷积层Conv2d_4和第三激活函数以将维度转换为与当前级ConNeXt Block模块输入的特征图一致,转换后的两个独立特征图经相乘操作连接得到坐标注意力特征权重。
具体地,将输入的特征图F首先使用1D全局平局池化核(H,1)和(1,W)分别来编码水平方向和垂直方向特征(对应图4中的X Avg Pooling和Y Avg Pooling),将得到的输出一对方向可知的特征图进行Concat拼接,使用1×1卷积Conv2d_3、归一化层Batch Norm_2和非线性激活函数Non Linear进行特征转化,随后进行Split操作,分成两个独立的特征和分别使用另外两个1×1卷积层Conv2d_4和第三激活函数(采用Sigmoid函数)进行特征转化,使其维度与输入一致,最后合并成坐标注意力特征权重。
坐标注意力机制对图像中的位置关系和对象的相对位置有更好的理解,能够捕获全局的上下文信息;坐标注意力机制能够提供更丰富的信息,包括空间上下文信息、全局上下文信息以及精细的特征权重。
在一实施例中,所述步骤S20:每级ConNeXt Block模块对于输入的特征图,基于所述PACA注意力机制模块计算该特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的特征图,包括以下步骤:
利用像素注意块对输入的特征图进行处理,得到像素注意力特征权重,公式表示为:
式中,pij表示像素Fi和Fj之间的相关性;zij=q(Fi)Tk(Fj),q(F)=WqF,k(F)=WkF,Wq和Wk为权值矩阵,表示减少原有信道数C后的信道数,F表示输入的特征图;exp()表示指数函数,用于表示e的幂次;A为像素总数;
利用坐标注意块对输入的特征图进行处理,得到第c个通道的注意力特征权重,公式表示为:
式中,为输入特征图F通过坐标注意力在第c通道进行处理得到的值;Fc(i,j)为输入特征图第c通道的值;/>为在第c通道中第i行的通道注意力权重;/>为在第c通道中第j列的通道注意力权重;i为特征图F中在第c通道中像素的行索引;j为特征图F中在第c通道中像素的列索引;
基于所述像素相关性和每个通道的注意力特征权重,计算混合注意力权值矩阵,公式表示为:
式中,B=(pij)(W×H)×(W×H)表示像素注意力特征矩阵,W为通道宽度,H为通道高度,表示坐标注意力特征矩阵,所述坐标注意力特征矩阵在进行矩阵相乘之前维度被转换为C×N,N=H×W,C为输入特征图的信道数量,/>为混合注意力权值矩阵;
所述混合注意力权值矩阵与当前级ConNeXt Block模块输入的特征图经相乘操作得到混合注意力特征图,公示表示为:
式中,X为当前级ConNeXt Block模块输入的特征图;β为超参数,取值为0.5;ο为混合注意力特征图。
在一实施例中,如图5所示,在所述步骤S10:在所述将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型之前,所述方法还包括以下步骤:
获取番茄叶病数据集;
利用所述番茄叶病数据集对所述的PACA ConvNeXt模型进行训练,并计算真实值与模型输出的预测值之间的损失,损失计算公式表示为:
式中,M为类别样本数;yic为符号函数;pic为观测样本i属于c类的概率;N为类别总数;L为损失;
在真实值与预测值之间的损失符合预期时,将PACA ConvNeXt模型对应的配置参数作为最优配置参数,得到训练好的PACA ConvNeXt模型。
本实施例获取番茄病害图像作为数据集,然后将数据集分为训练集、验证集和测试集,并进行预处理,最后构建PACA-ConNext模型,然后将提取到的特征输入全连接层得到预测结果,最后使用交叉熵损失函数对模型进行更新得到最优配置参数并通过训练好的模型对待识别病虫害种类番茄病害进行识别,得到识别结果。
具体地,对PACA ConvNeXt模型进行训练和图像检测的过程具体为:
(1)对番茄叶病图像数据预处理:
第1.1步,获取番茄叶病数据集:
通过使用Python爬虫,公共数据集和并使用高清相机拍摄采集番茄病害数据,对采集到的番茄图像数据,根据番茄病害种类手工标注病害数据集,该数据集具有10钟种病害;对数据集划分训练集、验证集和测试集。
第1.2步,为了扩充数据集,对训练集的数据进行预处理操作,包括:随机色彩抖动、随机添加高斯噪声、随机翻转、调整图像尺寸和归一化处理等操作;按8:1:1的比例将数据集划分为训练集、验证集和测试集,以对PACA-ConvNeXt模型进行训练。
(2)构建PACA-ConvNeXt模型:
第2.1步,将上述第1.2步得到的番茄叶病图像作为网络输入,单张图像大小为224×224×3,使用卷积核大小为4×4、核步长为4的卷积层,再经过归一化LN层,得到输出特征图F2.1,维度为56×56×96。
第2.2步,对特征图F2.1输入到第一级ConvNeXt Attention Block模块(即***有PACA注意力机制模块的ConNeXt Block模块)进行特征提取操作,首先采用卷积核大小为3×3,步长为1,填充为3的深度可分离卷积,其余采用1×1,步长为1的卷积核,采用BN层、GELU激活函数、PACA注意力模块、DropPath层得到输出特征图F2.2,维度为56×56×96。
第2.3步,对特征图F2.2进行进行池化核大小为2×2的一次下采样操作,然后将采样后的特征图输入到第二级ConvNeXt Attention Block模块进行特征提取操作,首先采用卷积核大小为3×3,步长为1,填充为3的深度可分离卷积,其余采用1×1,步长为1的卷积核,采用BN层、GELU激活函数、PACA注意力模块、DropPath层得到输出特征图F2.3,维度为28×28×192。
第2.4步,对特征图F2.3进行进行池化核大小为2×2的一次下采样操作,然后将采样后的特征图输入到第三级ConvNeXt Attention Block模块进行特征提取操作,首先采用卷积核大小为3×3,步长为1,填充为3的深度可分离卷积,其余采用1×1,步长为1的卷积核,采用BN层、GELU激活函数、PACA注意力模块、DropPath层得到输出特征图F2.4,维度为14×14×384;
第2.5步,对特征图F2.4进行进行池化核大小为2×2的一次下采样操作,然后将采样后的特征图输入到第四级ConvNeXt Attention Block模块进行特征提取操作,首先采用卷积核大小为3×3,步长为1,填充为3的深度可分离卷积,其余采用1×1,步长为1的卷积核,采用BN层、GELU激活函数、PACA注意力模块、DropPath层得到输出特征图F2.5,维度为7×7×768。
第2.6步,对特征图F2.5进行依次进行全局平均池化、LN操作得到输出特征图为2.6,维度为1×1×37632。
第2.7步,特征图F2.6经过一层全连接层和Softmax激活函数,得到输出的分类结果为Out,如下面公式所示:
其中:是输出维度为10的全连接操作,Softmax为激活函数。
(3)使用交叉熵损失函数计算第2.7步输出的预测值与真实值之间的损失,利用所构造的损失函数来训练PACA ConvNeXt模型,获得使测试集精度最高的模型参数,并保存。
(4)将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型中,实现对番茄叶病图像类别的识别。
进一步地,PACA注意力机制模块的具体工作流程为:
(1)构建像素注意力:使用两个特征空间q和k对输入的图像进行线性变换如下面公式所示,降低模型的计算复杂度。
q(x)=Wqx,k(x)=Wkx
其中,为通过1×1卷积运算学习到的权值矩阵,/>表示减少原有信道数C后的信道数,/>代表实数。这可以减少参数和计算量,而不影响模型提取特征的能力;
两个像素xi和xj之间的相关性可以通过以下公式乘积计算得到:
rij=q(xi)Tk(xj)
最后,可以使用Softmax函数计算归一化结果,
其中,pij表示像素Fi和Fj之间的相关性。
像素注意力B通过将pij按相应位置排列得到:
B=(pij)(W×H)×(W×H)
(2)构建坐标注意力:给定特征x,使用两个空间范围的Pooling核(H,1)和(1,W)分别沿水平坐标和垂直坐标对每个通道进行编码。因此,第c通道在高度H的输出可以公式化为宽度为W的第c个通道的输出可以写为:
式中,表示第c通道在具体高度方向上的输出;/>表示第c通道在具体宽度方向上的输出;xc表示第c通道的输入;h表示高度方向上的位置索引,取值从1到H,w表宽度方向上的位置索引,取值为1到W;i表示宽度方向上的位置索引,取值从1到W,j表示高度方向上的位置索引,取值从1到H,W表示pooling核的宽度,H表示pooling核的高度。
然后将生成的聚合特征映射Concate,然后将它们传到共享的1×1卷积变换函数F1,得到
f=δ(F1([zh,zw]))
其中,f=[]代表空间维度的Concat操作,δ是一个非线性激活函数,是指水平和垂直方向的中间特征映射。
然后将f沿空间维度拆分为两个独立的张量,另外两个1×1卷积被分别用于转换和为与输入具有一样通道数的张量,得到:
gh=σ(Fh(fh))
gw=σ(Fw(fw))
其中,σ是Sigmoid函数。
最后,坐标注意块的输出可以写成:
在分别获得坐标信息相关性和像素相关性后,通过将像素关注模块的相关性矩阵与通道关注模块的相关性矩阵相乘,将两种类型的注意信息融合到混合模块中。
首先,将的维数转化为/>其中N=H×W。该变换的目的是通过与像素相关矩阵a的矩阵乘法得到一个新的特征图:
然后,将计算得到的重新变换为原始尺寸/>从而得到包含像素和坐标信息相关性的/>最后,引入残差网络的思想,将新得到的Feature Map乘以β。然后添加原始的输入Feature Map作为最终的输出,如下所示:
其中,实现PACA注意力机制模块的输入特征图在坐标和空间像素上的注意力操作。
此外,如图6所示,本发明第二实施例提出了一种基于混合自注意力机制的番茄病害检测***,所述***包括:
输入模块10,用于将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型,其中,所述PACA ConvNeXt模型包括ConvNeXt卷积神经网络,所述ConvNeXt卷积神经网络的各级ConNeXt Block模块中***有PACA注意力机制模块,所述PACA注意力机制模块包括像素注意块和坐标注意块;
图像处理模块20,用于在每级ConNeXt Block模块中,基于所述PACA注意力机制模块计算输入特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图;
预测模块30,用于基于最后一级ConNeXt Block模块输出的混合注意力特征图,预测番茄病害的种类。
在一实施例中,所述***还包括预训练模块,具体用于:
获取番茄叶病数据集;
利用所述番茄叶病数据集对所述的PACA ConvNeXt模型进行训练,并计算真实值与模型输出的预测值之间的损失,损失计算公式表示为:
式中,M为类别样本数量;yic为符号函数;pic为观测样本i属于c类的概率;N为类别总数;L为损失;
在真实值与预测值之间的损失符合预期时,将PACA ConvNeXt模型对应的配置参数作为最优配置参数,得到训练好的PACA ConvNeXt模型。
需要说明的是,本发明所述基于混合自注意力机制的番茄病害检测***的其他实施例或具有实现方法可参照上述各方法实施例以及图2、图3及图4所示的网络结构,此处不再赘余。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于混合自注意力机制的番茄病害检测方法,其特征在于,所述方法包括:
将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型,其中,所述PACAConvNeXt模型包括ConvNeXt卷积神经网络,所述ConvNeXt卷积神经网络的各级ConNeXtBlock模块中***有PACA注意力机制模块,所述PACA注意力机制模块包括像素注意块和坐标注意块;
每级ConNeXt Block模块对于输入的特征图,基于所述PACA注意力机制模块计算该特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图;
基于最后一级ConNeXt Block模块输出的混合注意力特征图,预测番茄病害的种类。
2.如权利要求1所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,所述ConvNeXt卷积神经网络包括依次连接的图像处理层、一级ConNeXt Block模块、二级ConNeXt Block模块、三级ConNeXt Block模块、四级ConNeXt Block模块和输出预测层;
所述二级ConNeXt Block模块、所述三级ConNeXt Block模块和所述四级ConNeXtBlock模块之前均连接下采样层。
3.如权利要求2所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,所述图像处理层包括卷积层Conv2d和归一化层Layer Norm_1,卷积层Conv2d的输入为所述番茄叶病图像、输出连接所述归一化层Layer Norm_1的输入,所述归一化层Layer Norm_1的输出连接所述一级ConNeXt Block模块。
4.如权利要求2所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,所述输出预测层包括依次连接的全局平均池化层、归一化层Layer Norm_2和全连接层,所述全局平均池化层的输入连接所述四级ConNeXt Block模块,所述全连接层的输出为番茄病害的分类结果。
5.如权利要求1所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,各级所述ConNeXt Block模块均包括依次连接的深度可分离卷积层、归一化层Batch Norm_1、卷积层Conv2d_1、第一激活函数、卷积层Conv2d_2、DropPath层和PACA注意力机制模块,PACA注意力机制模块的输出与所述ConNeXt Block模块输入的特征图之间经拼接操作连接。
6.如权利要求1所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,所述像素注意块包括第二激活函数和两个用于进行线性变换的卷积核,两个卷积核的输出经相乘操作连接后经第二激活函数得到像素注意力特征权重;
所述坐标注意块包括分别用于编码水平方向和垂直方向特征的全局平局池化核,两个全局平均池化核输出的一对方向可知的特征图经拼接操作连接后输出至卷积层Conv2d_3,所述卷积层Conv2d_3的输出依次经归一化层Batch Norm_2、非线性激活函数和Split操作得到两个独立的特征图;该两个独立的特征图分别经卷积层Conv2d_4和第三激活函数以将维度转换为与当前级ConNeXt Block模块输入的特征图一致,转换后的两个独立特征图经相乘操作连接得到坐标注意力特征权重。
7.如权利要求1所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,所述每级ConNeXt Block模块对于输入的特征图,基于所述PACA注意力机制模块计算该特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图,包括:
利用像素注意块对输入的特征图进行处理,得到像素注意力特征权重,公式表示为:
式中,pij表示像素Fi和Fj之间的相关性;zij=q(Fi)Tk(Fj),q(F)=WqF,k(F)=WkF,Wq和Wk为权值矩阵, 表示减少原有信道数C后的信道数,F表示输入的特征图;exp()表示指数函数,用于表示e的幂次;A为像素总数;
利用坐标注意块对输入的特征图进行处理,得到第c个通道的注意力特征权重,公式表示为:
式中,为输入特征图F通过坐标注意力在第c通道进行处理得到的值;Fc(i,j)为输入特征图第c通道的值;/>为在第c通道中第i行的通道注意力权重;/>为在第c通道中第j列的通道注意力权重;i为特征图F中在第c通道中像素的行索引;j为特征图F中在第c通道中像素的列索引;
基于所述像素相关性和每个通道的注意力特征权重,计算混合注意力权值矩阵,公式表示为:
式中,B=(pij)(W×H)×(W×H)表示像素注意力特征矩阵,W为通道宽度,H为通道高度,表示坐标注意力特征矩阵,/>为混合注意力权值矩阵;
所述混合注意力权值矩阵与当前级ConNeXt Block模块输入的特征图经相乘操作得到混合注意力特征图,公示表示为:
式中,X为当前级ConNeXt Block模块输入的特征图;β为超参数;ο为混合注意力特征。
8.如权利要求5所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,每级ConNeXt Block模块输出的混合注意力特征图公式表示为:
式中,X为ConNeXt Block模块输入的特征图;Cdw为深度可分离卷积层;为归一化层Batch Norm_1;/>为注意力模块PACA;/>为DropPath层,/>表示激活函数;C1为卷积层Conv2d_1;C2为卷积层Conv2d_2。
9.如权利要求1所述的基于混合自注意力机制的番茄病害检测方法,其特征在于,在所述将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型之前,所述方法还包括:
获取番茄叶病数据集;
利用所述番茄叶病数据集对所述的PACA ConvNeXt模型进行训练,并计算真实值与模型输出的预测值之间的损失,损失计算公式表示为:
式中,M为类别样本数;yic为符号函数;pic为观测样本i属于c类的概率;N为类别总数;L为损失;
在真实值与预测值之间的损失符合预期时,将PACA ConvNeXt模型对应的配置参数作为最优配置参数,得到训练好的PACA ConvNeXt模型。
10.一种基于混合自注意力机制的番茄病害检测***,其特征在于,所述***包括:
输入模块,用于将待识别的番茄叶病图像输入到训练好的PACA ConvNeXt模型,其中,所述PACA ConvNeXt模型包括ConvNeXt卷积神经网络,所述ConvNeXt卷积神经网络的各级ConNeXt Block模块中***有PACA注意力机制模块,所述PACA注意力机制模块包括像素注意块和坐标注意块;
图像处理模块,用于在每级ConNeXt Block模块中,基于所述PACA注意力机制模块计算输入特征图的像素相关性和坐标信息相关性,得到包含像素相关性和坐标信息相关性的混合注意力特征图;
预测模块,用于基于最后一级ConNeXt Block模块输出的混合注意力特征图,预测番茄病害的种类。
CN202310562069.2A 2023-05-16 2023-05-16 基于混合自注意力机制的番茄病害检测方法及*** Pending CN116580279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310562069.2A CN116580279A (zh) 2023-05-16 2023-05-16 基于混合自注意力机制的番茄病害检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310562069.2A CN116580279A (zh) 2023-05-16 2023-05-16 基于混合自注意力机制的番茄病害检测方法及***

Publications (1)

Publication Number Publication Date
CN116580279A true CN116580279A (zh) 2023-08-11

Family

ID=87539302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310562069.2A Pending CN116580279A (zh) 2023-05-16 2023-05-16 基于混合自注意力机制的番茄病害检测方法及***

Country Status (1)

Country Link
CN (1) CN116580279A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218120A (zh) * 2023-11-08 2023-12-12 安徽大学 实体表面缺陷识别***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218120A (zh) * 2023-11-08 2023-12-12 安徽大学 实体表面缺陷识别***

Similar Documents

Publication Publication Date Title
CN114926746B (zh) 基于多尺度差分特征注意力机制的sar图像变化检测方法
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN111680176A (zh) 基于注意力与双向特征融合的遥感图像检索方法及***
CN112070768B (zh) 基于Anchor-Free的实时实例分割方法
CN111291809A (zh) 一种处理装置、方法及存储介质
US20230334829A1 (en) Hyperspectral image classification method based on context-rich networks
Su et al. LodgeNet: Improved rice lodging recognition using semantic segmentation of UAV high-resolution remote sensing images
CN106202353A (zh) 一种时间序列数据的可视化表示方法
CN111461129B (zh) 一种基于上下文先验的场景分割方法和***
CN112989942A (zh) 一种基于交通监控视频的目标实例分割方法
CN112818849B (zh) 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法
CN112329536A (zh) 一种基于交替对抗迁移学习的单样本人脸识别方法
CN114419468A (zh) 一种结合注意力机制和空间特征融合算法的水田分割方法
Chou et al. Imaging time-series with features to enable visual recognition of regional energy consumption by bio-inspired optimization of deep learning
CN116580279A (zh) 基于混合自注意力机制的番茄病害检测方法及***
CN116844041A (zh) 一种基于双向卷积时间自注意力机制的耕地提取方法
CN114676769A (zh) 一种基于视觉Transformer的小样本昆虫图像识别方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN115953621A (zh) 一种基于不可靠伪标签学习的半监督高光谱图像分类方法
CN106355210A (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
CN117315381A (zh) 一种基于二阶有偏随机游走的高光谱图像分类方法
CN113362915B (zh) 一种基于多模态学习的材料性能预测方法及***
CN117422932B (zh) 一种基于多模态强化图注意力网络的高光谱图像分类方法
CN113011506A (zh) 一种基于深度重分形频谱网络的纹理图像分类方法
CN112785479A (zh) 一种基于少样本学习的图像隐形水印通用检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination