CN117095240A

CN117095240A - 一种基于细粒度特征的叶片分类方法和***

Info

Publication number: CN117095240A
Application number: CN202311332316.6A
Authority: CN
Inventors: 应志文; 章依依; 王军; 徐晓刚; 于慧; 程志远; 曹卫强; 韩强
Original assignee: Northeast Institute of Geography and Agroecology of CAS; Zhejiang Lab
Current assignee: Northeast Institute of Geography and Agroecology of CAS; Zhejiang Lab
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-21

Abstract

一种基于细粒度特征的叶片分类方法和***，其方法包含：叶片图像随机混乱模块对同一类的两张叶片图像分区块之后，再把所有区块进行随机重组，得到两张相同数量和尺寸的重组叶片图像，以混乱叶片的全局特征；使用深度学习网络提取叶片的原图特征和重组图特征：训练时，在特征层后面加全连接层，并计算分类损失和对抗损失向前传播；测试时，使用模型便可以提取原图的局部细粒度特征和全局特征，从而实现对叶片的分类。本发明对叶片图像进行重组，模型在重组图像上得不到全局特征时，将专注于学习叶片的局部细粒度特征，而原始图像的输入又可以提供模型全局特征的学习，从而大大提高叶片分类的精度。

Description

一种基于细粒度特征的叶片分类方法和***

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于细粒度特征的叶片分类方法和***。

背景技术

在叶片分类技术当中，使用深度学习的方法对叶片进行分类得到了广泛的研究和应用，目前叶片分类的方法一般是使用深度学习提取原始叶片的纹理、形状等特征，以此对叶片进行分类。然而这种方法很有可能忽视叶片图像的一些局部细粒度特征，导致不同类别的叶片图像在全局相似时会变得难以区分。

文献1（Munisami T , Ramsurn M , Kishnah S ,et al.Plant LeafRecognition Using Shape Features and Colour Histogram with K-nearestNeighbour Classifiers[J].Procedia Computer Science, 2015.）通过提取叶片形状（如叶子的长度和宽度、叶子的面积、叶子的周长等）和颜色直方图等特征，使用K近邻分类器对这些特征进行分类，从而实现叶片分类。此方法基于叶片的一些基本特征来实现分类，鲁棒性与泛化性都较差，在一些复杂的任务中精度会大大降低。

文献2（Alamoudi S , Hong X , Wei H .Plant Leaf Recognition UsingTexture Features and Semi-Supervised Spherical K-means Clustering[C]//2020International Joint Conference on Neural Networks (IJCNN).）通过将灰度共生矩阵分析应用于由高斯滤波器的拉普拉斯算子变化处理后的叶子图像来生成叶子图像特征，然后再使用k-means技术来训练基本分类器。此方法基于人工设计的特征提取方法进行分类，使得分类场景比较单一，局限性较大，在复杂任务中得到的精度有限。

文献3（Sue,Han,Lee,et al.How deep learning extracts and learns leaffeatures for plant classification[J].Pattern Recognition, 2017.）分析了深度学习方法如何提取和学习叶片特征以进行叶片分类，在此基础上提出一种改进的深度学习网络模型来提取叶片的混合特征，实现叶片的精细分类。然而此方法集中于叶片某个局部的细粒度特征和全局特征，并没有去提取叶片全局的细粒度特征，且网络深度较小，从而导致在实际应用场景中精度较低。

以上提到的几种研究方法都有其局限性，精度不足导致其在实际应用当中都难以展开。

发明内容

本发明针对现有技术的不足，提出一种基于细粒度特征的叶片分类方法和***。

与现有的叶片分类方法不同的是，本发明公开了一种基于细粒度特征的叶片分类方法，通过随机重组同类别的两张叶片图片，然后使用深度学习网络提取出叶片的全局特征和细粒度特征，从而对叶片进行分类。

本发明的目的是通过以下技术方案来实现的：

一种基于细粒度特征的叶片分类方法，包括以下步骤：

步骤一：随机选取训练集两张相同类别的叶片，对两张叶片以分区块的方式随机重组出两张新的图像；

步骤二：使用深度学习网络提取原始叶片图像和重组图像的特征，在特征层之后使用全连接层输出图像分类特征，并计算分类损失和对抗损失，从而迭代更新网络。

进一步，步骤一包括：首先将两张图像放缩至同一尺寸，然后将两张叶片图像划分成等比例的若干小块叶片局部图像，再将叶片局部图像分成二等分，以所述的若干小块相同数目的叶片局部图像进行随机重组，拼接即得到两个包含所述的若干小块相同数目的叶片局部图像的图像集，并给重组图打上重组标签，原图打上原图标签。重复此步骤，直至训练集所有图像都得到重组图像。

再进一步，步骤一所述的将两张图像放缩至同一尺寸，系512*512。

再进一步，步骤一中将两张叶片图像划分成等比例的8*8小块，即得到2*8*8小块的叶片局部图像，再将这128小块图像分成二等分，以8*8的方式进行随机重组，拼接即得到两张8*8小块重组的图像。

进一步，所述步骤二具体包括：

（2.1）模型网络构建，并初始化模型参数。使用主流的卷积神经网络作为网络的主干模型，主干网络既用于提取原始叶片图像的特征，也用于提取重组图像的特征，将计算分类损失的分类损失网络和计算对抗损失的对抗损失网络作为网络的头部网络。完成整个网络模型的构建之后，对网络当中所有的参数进行初始化，包括神经网络的模型参数初始化和控制迭代的超参数初始化。在具体训练时，在头部网络前加一个全连接层，用来连接主干网络提取出的特征和分类预测。设置迭代的次数epoch使分类损失和对抗损失的总损失达到收敛。

（2.2）使用神经网络提取叶片图像的细粒度特征和全局特征。首先使用主干网络分别提取原始图像和重组图像的特征，经过全连接层之后，再输入分类网络当中时，当分类网络发现难以提取重组图像的全局特征时，分类网络将专注于重组图像当中的局部细粒度特征学习；在输入到对抗网络中时，对抗网络将集中于原始图像的特征学习以区分出原始图像与重组图像。

（2.3）根据输入数据的真实类别与预测类别得到训练的分类损失，根据输入数据的原图标签与重组标签得到训练的对抗损失。通过交叉熵函数得到输入数据的分类预测值，然后根据真实的标签值，经过分类损失网络进行分类损失计算，得到此次迭代的分类损失值；通过交叉熵函数得到输入数据的标签预测，根据真实的标签值，经过对抗损失网络进行对抗损失计算，得到此次迭代的对抗损失值。将分类损失值与对抗损失值相加作为此次迭代的总损失值，若达到收敛条件则停止迭代，若还未达到，则把损失经过预先设置的处理之后，向之前的网络进行传递，更新网络相应的参数，重复步骤2.1、步骤2.2、步骤2.3进入下一次迭代。

再进一步，步骤（2.1）所述的主流的卷积神经网络采用resnet50。

再进一步，步骤（2.1）所述的迭代的次数epoch是250或200。

再进一步，步骤（2.1）在具体训练时，需要设置每次迭代训练的数据输入量参数batchsize，而具体输入时，需输入原图对应的重组图像，即模型训练的数据输入量是2*batchsize，在所有训练数据经过一次迭代之后，记为一次迭代，即一个epoch。

本发明还包括一种基于细粒度特征的叶片分类***，包括：

叶片局部图片重组模块，用于随机选取训练集两张相同类别的叶片，对两张叶片以分区块的方式随机重组出两张新的图像；

叶片细粒度分类网络训练模块，使用深度学习网络提取原始叶片图像和重组图像的特征，在特征层之后使用全连接层输出图像分类特征，并计算分类损失和对抗损失，从而迭代更新网络。

本发明还包括一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种基于细粒度特征的叶片分类方法。

本发明还包括一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现本发明的一种基于细粒度特征的叶片分类方法。

本发明创新点在于：随机重组同类别的两张叶片图片，然后使用深度学习网络提取出叶片的全局特征和细粒度特征，从而对叶片进行分类。

本发明的优点是：通过随机重组同类别的两张叶片图片，增加同类别叶片的细粒度特征提取来提升叶片分类的精度。

附图说明

图1是本发明的叶片图像随机重组示意图。

图2是本发明方法的流程图。

图3是本发明的叶片8*8区块示意图。

图4是本发明的叶片分类流程图。

图5是本发明的***结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1-图4，一种基于细粒度特征的叶片分类方法，包括以下步骤：

所述步骤一通过以下子步骤来实现，如图1所示：

（1.1）随机选取训练集两张同类别的叶片，进行分块。本方法首先将两张图像放缩至同一尺寸（如512*512），然后将两张叶片图像划分成等比例的8*8小块，即得到2*8*8小块的叶片局部图像，再将这128小块图像分成二等分，以8*8的方式进行随机重组，拼接即得到两张8*8小块重组的图像，并给重组图打上重组标签，原图打上原图标签。重复此步骤，直至训练集所有图像都得到重组图像。

所述步骤二通过以下子步骤来实现，如图2所示：

（2.1）模型网络构建，并初始化模型参数。使用主流的卷积神经网络作为网络的主干模型，如resnet50等，主干网络既用于提取原始叶片图像的特征，也用于提取重组图像的特征，将计算分类损失的分类损失网络和计算对抗损失的对抗损失网络作为网络的头部网络。完成整个网络模型的构建之后，对网络当中所有的参数进行初始化，主要包括神经网络的模型参数初始化和控制迭代的超参数初始化。在具体训练时，在头部网络前加一个全连接层，用来连接主干网络提取出的特征和分类预测。迭代的次数epoch可以是250或200，可以让分类损失和对抗损失的总损失达到收敛即可。在具体训练时，需要设置每次迭代训练的数据输入量参数batchsize，而具体输入时，需输入原图对应的重组图像，即模型训练的数据输入量是2*batchsize，在所有训练数据经过一次迭代之后，记为一次迭代，即一个epoch。

（2.2）使用神经网络提取叶片图像的细粒度特征和全局特征。首先使用主干网络分别提取原始图像和重组图像的特征，经过全连接层之后，再输入分类网络当中时，当分类网络发现难以提取重组图像的全局特征时，分类网络将专注于重组图像当中的局部细粒度特征学习；在输入对抗网络当中时，对抗网络将集中于原始图像的特征学习以区分出原始图像与重组图像。

（2.3）根据输入数据的真实类别与预测类别得到训练的分类损失，根据输入数据的原图标签与重组标签得到训练的对抗损失。通过交叉熵函数得到输入数据的分类预测值，然后根据真实的标签值，经过分类损失网络进行分类损失计算，得到此次迭代的分类损失值；通过交叉熵函数得到输入数据的标签预测，根据真实的标签值，经过对抗损失网络进行对抗损失计算，得到此次迭代的对抗损失值。将分类损失值与对抗损失值相加作为此次迭代的总损失值，若达到收敛条件则停止迭代，若还未达到，则把损失经过预先设置的处理之后，向之前的网络进行传递，更新网络相应的参数，重复步骤（2.1）、步骤（2.2）、步骤（2.3）进入下一次迭代。

实施例2

参照图5，本发明还包括一种基于细粒度特征的叶片分类***，包括：

在实际应用当中，本实施例对大豆的107个品种进行了分类实验，分类结果如表1所示。

表1

在表1中，准确率的计算公式为：

准确率=（分类正确样本数/总样本数）*100%

根据实验结果，本发明可以在人眼也难以分辨的品种叶片识别任务当中获得比较高的分类结果，从而通过叶片即可对品种识别。

实施例3

实施例4

在硬件层面，该装置包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图2所述的方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

至此，结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于细粒度特征的叶片分类方法，包括以下步骤：

2.如权利要求1所述的一种基于细粒度特征的叶片分类方法，其特征在于，步骤一包括：首先将两张图像放缩至同一尺寸，然后将两张叶片图像划分成等比例的若干小块叶片局部图像，再将叶片局部图像分成二等分，以所述的若干小块相同数目的叶片局部图像进行随机重组，拼接即得到两个包含所述的若干小块相同数目的叶片局部图像的图像集，并给重组图打上重组标签，原图打上原图标签；重复此步骤，直至训练集所有图像都得到重组图像。

3.如权利要求2所述的一种基于细粒度特征的叶片分类方法，其特征在于，步骤一所述的将两张图像放缩至同一尺寸，系512*512。

4.如权利要求2所述的一种基于细粒度特征的叶片分类方法，其特征在于，步骤一中将两张叶片图像划分成等比例的8*8小块，即得到2*8*8小块的叶片局部图像，再将这128小块图像分成二等分，以8*8的方式进行随机重组，拼接即得到两张8*8小块重组的图像。

5.如权利要求1所述的一种基于细粒度特征的叶片分类方法，其特征在于，所述步骤二具体包括：

（2.1）模型网络构建，并初始化模型参数；使用主流的卷积神经网络作为网络的主干模型，主干网络既用于提取原始叶片图像的特征，也用于提取重组图像的特征，将计算分类损失的分类损失网络和计算对抗损失的对抗损失网络作为网络的头部网络；完成整个网络模型的构建之后，对网络当中所有的参数进行初始化，包括神经网络的模型参数初始化和控制迭代的超参数初始化；在具体训练时，在头部网络前加一个全连接层，用来连接主干网络提取出的特征和分类预测；设置迭代的次数epoch使分类损失和对抗损失的总损失达到收敛；

（2.2）使用神经网络提取叶片图像的细粒度特征和全局特征；首先使用主干网络分别提取原始图像和重组图像的特征，经过全连接层之后，再输入分类网络当中时，当分类网络发现难以提取重组图像的全局特征时，分类网络将专注于重组图像当中的局部细粒度特征学习；在输入到对抗网络中时，对抗网络将集中于原始图像的特征学习以区分出原始图像与重组图像；

（2.3）根据输入数据的真实类别与预测类别得到训练的分类损失，根据输入数据的原图标签与重组标签得到训练的对抗损失；通过交叉熵函数得到输入数据的分类预测值，然后根据真实的标签值，经过分类损失网络进行分类损失计算，得到此次迭代的分类损失值；通过交叉熵函数得到输入数据的标签预测，根据真实的标签值，经过对抗损失网络进行对抗损失计算，得到此次迭代的对抗损失值；将分类损失值与对抗损失值相加作为此次迭代的总损失值，若达到收敛条件则停止迭代，若还未达到，则把损失经过预先设置的处理之后，向之前的网络进行传递，更新网络相应的参数，重复步骤2.1、步骤2.2、步骤2.3进入下一次迭代。

6.如权利要求5所述的一种基于细粒度特征的叶片分类方法，其特征在于，步骤（2.1）所述的主流的卷积神经网络采用resnet50。

7.如权利要求5所述的一种基于细粒度特征的叶片分类方法，其特征在于，步骤（2.1）所述的迭代的次数epoch是250或200。

8.如权利要求5所述的一种基于细粒度特征的叶片分类方法，其特征在于，步骤（2.1）在具体训练时，需要设置每次迭代训练的数据输入量参数batchsize，而具体输入时，需输入原图对应的重组图像，即模型训练的数据输入量是2*batchsize，在所有训练数据经过一次迭代之后，记为一次迭代，即一个epoch。

9.一种基于细粒度特征的叶片分类***，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的一种基于细粒度特征的叶片分类方法。

11.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的一种基于细粒度特征的叶片分类方法。