CN115965819A

CN115965819A - 一种基于Transformer结构的轻量化害虫识别方法

Info

Publication number: CN115965819A
Application number: CN202310056740.6A
Authority: CN
Inventors: 梁燕; 雷宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-04-14

Abstract

本发明涉及一种基于Transformer结构的轻量化害虫识别方法，属于深度学习领域，包括以下步骤：S1：使用聚焦快速下采样模块提取害虫图像的浅层特征；S2：使用多头自注意力模块提取深层特征图中的全局特征信息；S3：使用局部卷积为深层特征图添加局部特征敏感性和尺度不变性信息；S4：将全局特征信息与局部特征敏感性和尺度不变性信息进行特征拼接，得到语义信息丰富的害虫图像，送入多层感知机，对融合特征张量进行特征拟合；S5：通过残差连接减少网络的梯度消失问题，使用逐点卷积对通道中的信息进行整合；S6：将最终计算出的特征表示使用池化机制，通过分类模块分类。

Description

一种基于Transformer结构的轻量化害虫识别方法

技术领域

本发明属于深度学习领域，涉及一种基于Transformer结构的轻量化害虫识别方法。

背景技术

随着近几年温室效应的不断加强，农林业病虫害的日益严重导致粮食损失也在不断增加。因此，对病虫害的精细化预防和控制是当前解决粮食减产的重要举措。现阶段普遍采用人工手动识别害虫的方法；为了降低生产成本、减轻农业工作量，需要研究高效、低成本的害虫自动识别算法。

传统的害虫自动识别算法主要基于计算机视觉的机器学习技术，分为害虫图像预处理、特征提取和特征分类三个阶段。该方法通常先对图像中显著性区域进行增强、去除图像背景；之后对主体的颜色、纹理和形状等特征进行提取；最后使用支持向量机(SupportVector Machine,SVM)、Adaboost和人工神经网络(Artificial Neural Network,ANN)等方法对图像分类。该类方法精度较低，鲁棒性不强，且特征提取过程过分依赖人工技巧，算法的应用局限性较大。

随着深度学习在计算机视觉中的快速发展，基于卷积神经网络的害虫自动识别***实现了端到端的自动特征提取，速度快、准确率高，已经成为当前主流的害虫自动识别方案。为了实现复杂背景图像中的害虫精确识别，当前研究主要从以下三个方面入手：(1)基于显著性特征的害虫识别方法。该方法通过基于图形的视觉显著性(Graph-Based VisualSaliency，GBVS)、块显著性图算法(Patch-Saliency map Algorithm)或聚类的显著性检测(Cluster-based Saliency Detection)等方法将输入图像中显著性区域阈值提高、以达到突出显著性区域的目的，然后通过卷积神经网络对其进行特征提取和分类。由于害虫图像中常常存在颜色、纹理等复杂的背景干扰，常规的显著性算法较难从中提取出高级语义信息。(2)结合注意力机制的害虫识别方法。该方法向卷积神经网络中添加通道或空间注意力机制，增强网络的特征提取能力，以达到更好的分类效果。但注意力机制增加模型参数量的同时，对特征间的空间关系处理不足。同时，害虫数据集普遍存在类内差距大、类间差距小和背景复杂的特点，小感受野的卷积神经网络较难从中提取出高级语义信息，不能在准确率和速度上取得较好的均衡。(3)融合多模型的害虫识别方法。该方法首先对不同模型进行训练，然后通过结构和权值的整合获得新的害虫识别模型，实现更高准确率的害虫识别模型。然而该方法仅将准确率作为唯一指标，导致模型参数量较大，训练成本高，并且常需要借助一些高性能的计算设备部署在云端，在大规模的农田和山区等信号弱的地方具有一定局限性。

发明内容

有鉴于此，本发明的目的在于使用能够对输入进行全局特征建模的Transformer结构为模型添加全局感受野，增强模型对抗复杂背景的能力。然而单纯的transformer结构由于本身对局部敏感性和尺度不变性的缺乏，需要巨大的参数量和训练成本，较难做到轻量化。因此本文从参数量和全局感受野两个方面出发，分别对模型特征提取的浅层和深层进行了设计，提出了轻量化Transformer结构的害虫识别网络(Transformer based PestClassification Network,TPCNet)。TPCNet在浅层分别从参数量、模型复杂度、浮点运算数(floating point operations,FLOPs)和内存访问成本(memory access cost,MAC)等方面对下采样结构进行了设计，降低了浅层的推理时间。在深层利用Transformer增加网络感受野，并使用卷积弥补单纯Transformer结构缺乏局部性和尺度不变性的缺点。

为达到上述目的，本发明提供如下技术方案：

一种基于Transformer结构的轻量化害虫识别方法，包括以下步骤：

S1：使用聚焦快速下采样模块提取害虫图像的浅层特征；

S2：使用多头自注意力模块提取深层特征图中的全局特征信息；

S3：使用局部卷积为深层特征图添加局部特征敏感性和尺度不变性信息；

S4：将全局特征信息与局部特征敏感性和尺度不变性信息进行特征拼接，得到语义信息丰富的害虫图像，送入多层感知机，对融合特征张量进行特征拟合；

S5：通过残差连接减少网络的梯度消失问题，使用逐点卷积对通道中的信息进行整合；

S6：将最终计算出的特征表示使用池化机制，通过分类模块分类。

进一步，步骤S1中，所述聚焦快速下采样模块的具体操作如下：

S11：将下采样操作与局部特征提取操作剥离；

S12：使用间隔像素取值再通道拼接的切片操作替换步长为2的卷积操作；

S13：使用1*1的逐点卷积对下采样操作后的特征图通道数量和信息进行缩减与整合；

S14：使用3*3的卷积增加局部特征的提取能力。

进一步，步骤S2中，使用Transformer结构的多头自注意力机制，计算特征像素之间的互相关性，表达式为：

X_a＝MultiHead(X_ai)＝Concat(head₁,...,head_i)W^o (1)

Q＝X_aiW_Q,K＝X_aiW_K,V＝X_aiW_V (3)

其中W_Q,W_K,W_V,W^o分别表示自注意力机制中的查询query、键值key、值value和加权求和的投影权重矩阵，X_ai表示输入的特征张量，X_a表示输出特征张量。

进一步，步骤S4中具体包括：将全局特征信息与局部特征敏感性和尺度不变性特征信息进行交叉拼接，以增加不同特点特征的融合能力，公式为：

X_c＝Conv2d(X_ci) (4)

X_m＝Concat(X_c,X_a)+X_i (5)

X_o＝Concat(MLP(LN(X_m))+(LN(X_m))) (6)

其中X_i表示防止梯度消失的残差连接，MLP(·)表示多层感知机，LN(·)表示归一化函数。X_c表示经卷积后获得的局部特征敏感性和尺度不变性特征张量，X_m表示融合全局特征信息与局部特征信息的张量，X_o表示经过多层感知机的非线性映射后得到的张量。

进一步，步骤S5中，对最开始的输入特征张量X，通过一条跨全局特征提取和局部特征补充的残差支路，利用特征拼接的方式解决梯度消失问题，随后使用一个通道方向的逐点卷积对特征进行融合，公式为：

X＝Conv2d(Concat(X_o,X)) (7)。

进一步，步骤S6中，在最终识别之前将特征向量池化为二维，随后通过Linear层获取最有可能的类别，公式为：

X_o＝avgpool(X) (8)

Pre＝Linear(X_o) (9)

经过Linear层后得到二维张量Pre，通过该二维向量获得最终的预测输出。

本发明的有益效果在于：本发明分别对浅层和深层的特征提取模块进行了重新设计。在浅层使用本发明设计的聚焦快速下采样模块，加速下采样的同时增加模型对局部特征的提取能力。在深层使用本发明设计的倒置残差Transformer模块，对全局特征进行建模的同时，使用局部卷积支路增加模块对局部特征和尺度不变的敏感性实现了模块的轻量化，增强了模型的泛化能力。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的基于Transformer结构的轻量级害虫识别方法整体流程图；

图2为本发明基于Transformer结构的轻量化害虫识别网络框架图；

图3为本发明的聚焦快速下采样模块框架示意图；

图4为本发明的倒置残差Transformer模块框架示意图；

图5为本发明与其他轻量级模型的参数量和识别准确率对比；

图6为本发明与其他轻量级模型在不同平台上的测试速度。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

图1为本发明所涉的一种基于Transformer结构的轻量化害虫识别方法整体流程图，下面结合图1进一步描述。本发明主要包括的步骤：

步骤1：使用本发明设计的聚焦快速下采样模块提取害虫图像的浅层特征。

步骤2：使用多头自注意力模块(Multi-Head Self Attention Module)提取深层特征图中的全局特征信息。

步骤3：使用局部卷积为深层特征图添加局部特征敏感性和尺度不变性信息。

步骤4：将全局特征信息与局部特征敏感性和尺度不变性信息进行特征拼接，得到语义信息丰富的害虫图像后送入多层感知机(MLP,Multi-Layer Perceptron)对融合特征张量进行特征拟合。

步骤5：通过残差连接减少网络的梯度消失问题。随后使用逐点卷积对通道中的信息进行整合。

步骤6：将最终计算出的特征表示通过分类模块获得分类结果。

图2为本发明中基于Transformer结构的轻量化害虫识别网络框架图，下面结合图2对本发明的结构原理做进一步说明。由图可知本发明模型共9层，各层主要由两种模块组成：

(1)聚焦快速下采样模块FFDM

在本发明为了使模型达到轻量化的目的，在前三层本发明使用本发明构建的聚焦快速下采样模块，快速降低特征图尺寸的同时为网络增加浅层局部特征的提取能力，同时聚焦快速下采样模块的设计减少了参数量和计算量，使得网络整体更加轻量化。

如图3所示为本发明构建的聚焦快速下采样模块。对于输入张量X∈R^H×W×C，该结构对输入张量的间隔像素进行取样和拼接操作，最终获得4倍通道数的2倍下采样输出张量X∈R^{(H/2)×(W/2)×(C/2)}，该结构仅对输入张量做算数操作，因此不包含任何参数；并且，该结构可将连续的平面特征映射到通道中，减少了下采样过程中特征的丢失。为了在控制输出通道数的同时加强通道间的信息交互能力，本发明使用逐点卷积对张量进行通道缩减的同时实现特征的跨通道交互与信息整合。最后使用分组卷积对张量进行局部特征提取，为模型增加局部特征敏感性。

(2)倒置残差Transformer模块IRTM

为了解决小感受野的卷积神经网络较难从具有复杂背景的害虫图像中提取出高级语义信息的问题，本文利用Transformer结构中的多头自注意力(Multi-Head SelfAttention)结构对害虫图像进行全局特征建模。而单纯的Transformer结构较难拟合数据集，因此本发明增设了一条卷积支路为该模块增加局部敏感性和尺度不变性。

如图4所示为本发明构建的倒置残差Transformer模块。对于输入张量X∈R^H×W×C，使用一个3×3的标准卷积对输入张量局部空间信息进行编码；随后使用1×1的逐点卷积，通过学习输入通道的线性组合将张量映射到高维空间得到X_I∈R^H×W×d，为后续模块提供更多的特征信息。为了在倒置残差Transformer模块内部使用局部性对全局性依赖进行合理的补偿，我们对Transformer的内部结构进行如图4所示的修改，通过为多头自注意力结构增加一个并行卷积支路，使Transformer结构能够分别对局部性和全局依赖进行建模。对于升维后的张量X_I，经LayerNorm归一化后输出到通道拆分模块中对通道进行拆分。得：

x_a＝split(LN(X_I[0:d/r]))

x_c＝split(LN(X_I[d/r:d]))

其中x_a∈R^H×W×(d/r)和x_c＝R^{H×W×(d-d/r)}分别表示多头自注意力结构支路用于对特征建立长距离依赖的输入张量和卷积支路用于对局部特征建模的输入张量；split表示对输入张量通道的拆分函数；LN表示归一化；r表示拆分率。为了使用多头自注意力结构对害虫特征进行全局建模，本文使用分割率为p的转换函数Img2seq将三维张量x_a转换为二维张量

后，送入到多头自注意力结构中计算得：

其中W_Q,W_K,W_V,W^o分别表示自注意力机制中的查询(query)、键值(key)、值(value)和加权求和的投影权重矩阵。二维输出张量

表示对输入张量的特征相关性表示矩阵。将二维张量X'_a经Seq2Img函数还原为三维张量

得到害虫特征的三维全局特征表示；与经卷积支路的局部特征表示张量

拼接后获得包含局部特征表示和全局特征表示的张量X_M∈R^H×W×d：

X_M＝Concat(X_C,X_A)+X_I

其中X_I表示防止梯度消失的残差连接；值得注意的是，本发明将处理后的局部表示和全局表示张量交换顺序拼接，使经模型处理后的所有张量都能够交替对局部和全局特征建模。张量X_M经LN和MLP函数后于输入张量X进行拼接，得：

X'_o＝Concat((MLP(LN(X_M))+X_M),X)

为了降低IRTM模块最终的输出张量维度，本发明使用一个逐点卷积将张量X'_o∈R^H ^×W×(c+d)映射到低维空间，同时对通道特征进行聚合，最终输出为X_o∈R^H×W×C。

由图5和图6的仿真结果可以看出，本发明设计的模型实现轻量化的同时有较高的识别准确率。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Transformer结构的轻量化害虫识别方法，其特征在于：包括以下步骤：

S1：使用聚焦快速下采样模块提取害虫图像的浅层特征；

2.根据权利要求1所述的基于Transformer结构的轻量化害虫识别方法，其特征在于：步骤S1中，所述聚焦快速下采样模块的具体操作如下：

S11：将下采样操作与局部特征提取操作剥离；

S14：使用3*3的卷积增加局部特征的提取能力。

3.根据权利要求1所述的基于Transformer结构的轻量化害虫识别方法，其特征在于：所述步骤S2中，使用Transformer结构的多头自注意力机制，计算特征像素之间的互相关性，表达式为：

X_a＝MultiHead(X_ai)＝Concat(head₁,...,head_i)W^o (1)

Q＝X_aiW_Q,K＝X_aiW_K,V＝X_aiW_V (3)

4.所述根据权利要求1所述的基于Transformer结构的轻量化害虫识别方法，其特征在于：步骤S4中具体包括：将全局特征信息与局部特征敏感性和尺度不变性特征信息进行交叉拼接，以增加不同特点特征的融合能力，公式为：

X_c＝Conv2d(X_ci) (4)

X_m＝Concat(X_c,X_a)+X_i (5)

X_o＝Concat(MLP(LN(X_m))+(LN(X_m))) (6)

5.根据权利要求1所述的基于Transformer结构的轻量化害虫识别方法，其特征在于：所述步骤S5中，对最开始的输入特征张量X，通过一条跨全局特征提取和局部特征补充的残差支路，利用特征拼接的方式解决梯度消失问题，随后使用一个通道方向的逐点卷积对特征进行融合，公式为：

X＝Conv2d(Concat(X_o,X)) (7)

6.根据权利要求1所述的基于Transformer结构的轻量化害虫识别方法，其特征在于：所述步骤S6中，在最终识别之前将特征向量池化为二维，随后通过Linear层获取最有可能的类别，公式为：

X_o＝avgpool(X) (8)

Pre＝Linear(X_o) (9)