CN113837062A

CN113837062A - 一种分类方法、装置、存储介质及电子设备

Info

Publication number: CN113837062A
Application number: CN202111106836.6A
Authority: CN
Inventors: 房建东; 黄居松; 赵于东; 李巴津
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-24

Abstract

本公开提供了一种分类方法、装置、存储介质及电子设备，其中，分类方法包括获取第一图像，其中，目标图像中包含待分类目标以及其他对象；利用预先训练好的分割模型对第一图像进行分割，得到第二图像，其中，分割模型包括全卷积神经网络，第二图像中包含待分类目标；识别第二图像，确定待分类目标的类型信息。本公开通过对视觉几何群网络中的参数进行修改得到分割模型的参数，利用分割模型对第一图像进行分割以得到第二图像，之后识别第二图像以确定待分类目标的类型信息，解决了传统方法费时费力且准确率低、方法依赖人工提取特征、复杂背景下的牧草分类准确度低等问题，能够确保待分类目标的类型信息的准确性，也即提高了分类结果的准确性。

Description

一种分类方法、装置、存储介质及电子设备

技术领域

本公开涉及分类技术领域，特别涉及一种分类方法、装置、存储介质及电子设备。

背景技术

随着计算机和互联网相关技术的快速发展，利用计算机视觉等相关技术，实现草地资源的自动化和数字化管理，有助于促进畜牧业可持续发展和草地环境的生态平衡。牧草图像的分类识别作为草地资源数字化管理的重要基础要求之一，进行快速、精准的分类识别对牧草的种植、生产等工作至关重要。

目前，图像的分类识别方式包括：(1)人工目测方法，借助于人工经验对牧草进行分类。(2)基于图像处理的传统牧草分类方法有朴素贝叶斯识别算法、K-NN算法、支持向量机(SVM)算法、BP神经网络算法，首先对牧草图像进行预处理，去背景化分离出需要分类的牧草，然后提取牧草的一阶、二阶、三阶颜色特征、纹理特征及形状特征，利用主成分分析方法(PCA)对提取的特征降维，最后利用上述算法对牧草进行分类。(3)基于深度学习方法的牧草分类方法有卷积神经网络(CNN)方法。具体流程是对输入的牧草图像进行多层卷积抽取深层特征，最后经过全连接层和SoftMax分类层对牧草进行分类。

但，方式(1)中借助于人工经验对牧草进行分类，存在费时费力且准确率低等问题。方式(2)中朴素贝叶斯识别算法具有样本属性独立性的假设，所以如果样本属性有关联时效果并不好，然而同科牧草之间并不具备完全独立属性；SVM算法在解决多分类任务时，需要构造多个二分器并同时进行训练，随着训练样本数量的增加，训练速度将减慢；BP神经网络最大的问题是计算权值太大且不具备CNN权值共享的特点，需要消耗大量的时间成本，并且严重依赖于训练样本量，总体来说，传统分类方法依赖手工制作特征，然而人工特征对于不同情况(如光照变化、牧草姿态或者周围背景变化)的牧草图像的适应性差，准确率不好。方式(3)中对于CNN的牧草分类方法，尽管可以不需要人工提取特征，但是在背景复杂时，牧草特征会受到周围背景噪声的干扰，在相似背景下的不同类别牧草，分类效果同样不好。

发明内容

有鉴于此，本公开实施例的目的在于提供一种分类方法、装置、存储介质及电子设备，用于解决传统方法费时费力且准确率低、方法依赖人工提取特征、复杂背景下的牧草分类准确度低等问题。

第一方面，本公开实施例提供了一种分类方法，其中，包括：

获取第一图像，其中，所述目标图像中包含待分类目标以及其他对象；

利用预先训练好的分割模型对所述第一图像进行分割，得到第二图像，其中，所述分割模型包括全卷积神经网络，所述第二图像中包含所述待分类目标；

识别所述第二图像，确定所述待分类目标的类型信息。

在一种可能的实施方式中，所述识别所述第二图像，确定所述待分类目标的类型信息，包括：

将所述第二图像输入至预先训练好的分类模型中，得到所述待分类目标的类型信息。

在一种可能的实施方式中，所述分割模型和所述分类模型均基于视觉几何群网络中的参数确定。

在一种可能的实施方式中，所述待分类目标的类型信息包括类型以及占比。

第二方面，本公开实施例还提供了一种分类装置，其包括：

获取模块，其配置为获取第一图像，其中，所述目标图像中包含待分类目标以及其他对象；

分割模块，其配置为利用预先训练好的分割模型对所述第一图像进行分割，得到第二图像，其中，所述分割模型包括全卷积神经网络，所述第二图像中包含所述待分类目标；

识别模块，其配置为识别所述第二图像，确定所述待分类目标的类型信息。

在一种可能的实施方式中，所述识别模块，其具体配置为：

第三方面，本公开实施例还提供了一种存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如下步骤：

识别所述第二图像，确定所述待分类目标的类型信息。

第四方面，本公开还提供了一种电子设备，其中，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如下步骤：

识别所述第二图像，确定所述待分类目标的类型信息。

本公开实施例通过对视觉几何群网络中的参数进行修改得到分割模型的参数，进而通过分割模型对第一图像进行分割，以去除除待分类目标之外的部分得到第二图像，之后，对第二图像进行识别，以确定待分类目标的类型信息，进而解决了传统方法费时费力且准确率低、方法依赖人工提取特征、复杂背景下的牧草分类准确度低等问题，即便第一图像中的背景复杂，也能够确保待分类目标的类型信息的准确性，也即提高了分类结果的准确性。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开所提供的分类方法的流程图；

图2示出了本公开所提供的分类方法中FCN结构的示意图；

图3a示出了本公开所提供的分类方法中分割前第一图像的示意图；

图3b示出了本公开所提供的分类方法中分割后第二图像的示意图；

图4示出了本公开所提供的分类方法中分类模型的结构示意图；

图5示出了本公开所提供的分类装置的结构示意图；

图6示出了本公开所提供的电子设备的结构示意图。

具体实施方式

此处参考附图描述本公开的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本公开的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本公开进行了描述，但本领域技术人员能够确定地实现本公开的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所申请的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

第一方面，为便于对本公开进行理解，首先对本公开所提供的一种分类方法进行详细介绍，该分类方法应用在对牧草分类的场景下。如图1所示，为本公开实施例提供的分类方法具体包括以下步骤：

S101，获取第一图像，其中，目标图像中包含待分类目标以及其他对象。

在具体实施中，利用图像采集设备采集目标区域对应的第一图像，该目标区域中存在牧草，也即，目标图像中包含待分类目标以及其他对象，待分类目标即为牧草，其他对象可以为石块、空地等。

S102，利用预先训练好的分割模型对第一图像进行分割，得到第二图像，其中，分割模型包括全卷积神经网络，第二图像中包含待分类目标。

可选地，分割模型包括全卷积网络(Fully Convolutional Networks，FCN)，FCN是对图像进行像素级的分类，解决语义级别的图像分割问题。并且，FCN的输入可以是任意尺寸的图像，因此，本申请实施例中的图像采集设备可以不受限制。

具体地，FCN包含视觉几何群网络(Visual Geometry Group Network，VGG)-16的前五个卷积块以及替代全连接层的三个反卷积层，FCN结构如图2所示。VGG-16网络模型是通过包括100万幅图像的ImageNet数据库训练而成，具备较强的深度特征学***滑重建牧草感兴趣区的边缘。之后采用反卷积层对最后一个卷积层的特征图进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生一个预测，同时保留了原始输入图像中的空间信息，最后在上采样的特征图进行像素的分类，也即目标像素是否为牧草像素。

其中，FCN的训练采用反向传播方法，在一个卷积网络中靠前的卷积层提取低层次特征，靠后的卷积层提取高层次特征。因此，使用迁移学习在训练初始化时采用分部学习的方式：首先固定初始化后的卷积块1、2的卷积核，仅让模型学习初始化后卷积块3、4、5的卷积核，当验证精度达到饱和时，停止训练；之后从最后一次学习的模型开始，让FCN学习前2个卷积块中的卷积核，以完成分割模型的训练。

这里，训练之后的分割模型对第一图像进行分割，得到第二图像，第二图像中包含待分类目标，最终的分割效果如图3a和3b所示，图3a为分割前的第一图像，图3b为分割前的第二图像，分割后得到的第二图像中，去除了除待分类目标之外的部分，也即忽略第一图像中的背景区域，只关注高识别度含待分类目标的目标区域，有利于复杂背景下的待分类目标分类，更符合实际应用。也就是说，本申请实施例通过将VGG-16网络模型作为分割模型的预训练模型，不仅提高了分割模型的训练效率，还确保了分割的精确度。

S103，识别第二图像，确定待分类目标的类型信息。

在得到第二图像之后，对第二图像中包含的待分类目标进行识别分类，具体地为将第二图像输入至预先训练好的分类模型中，得到待分类目标的类型信息。其中，待分类目标的类型信息包括类型以及占比，类型为5种营养牧草以及非营养牧草6种，以及待分类目标在第二图像中的占比，若第二图像中存在两种或两种以上的类型，则输出占比最高的类型信息。

这里，本申请实施例中的分类模型同样由VGG-16模型作为分割模型的预训练模型，也即将VGG-16网络模型的模型参数“迁移”到分类模型中在再针对分类模型具体的使用场景进行参数的调整。基于VGG-16网络模型的网络结构和卷积神经网络，结合营养牧草的种类及特点，构建5种营养牧草分类模型，如图5所示。该营养牧草分类模型分为卷积层、池化层、2个全连接层、SoftMax分类层等5个层次，全局平均池化层输出长度为512的一维向量与6个分类神经元进行全连接；并且，用包括5标签SoftMax函数的分类层替换掉原有VGG-16网络模型中的SoftMax分类器，输出结果通过5标签Softmax函数生成分类标签；可选地，分类模型的激活函数为ReLU函数，选择Adam优化算法。

其中，VGG-16网络模型中最后三层全连接层的参数量是1.2×108个，VGG-16网络模型的参数是为1000个分类类别而设计的，而本研究只针对6个类别的分类，因此，本申请实施例经替换全连接层后得到的分类模型中全连接层的参数量是2561，进而达到了针对6个类别进行分类的识别精度和效率。这里，分类模型的结构如图4所示，分类模型训练主要操作流程如下：

首先，输入5种营养牧草样本，随机从营养牧草图像库中抽取部分如90％的5种营养牧草图像，将其作为训练样本集作为模型的输入；之后，对营养牧草图像进行预处理，也即筛选营养牧草图像，具体为删除模糊的营养牧草图像，并将营养牧草图像标准化至一致分辨率大小；之后，构建营养牧草的分类模型，也即基于VGG-16网络模型，优化全连接层，从3个优化为2个，用5标签SoftMax分类器替换原有的SoftMax分类层；之后，微调迁移学习，也即用VGG-16网络模型参数通过迁移学习方式优化营养牧草识别模型参数，主要确定13个卷积层和池化层的参数；之后，进行模型训练，也即利用随机法初始化模型参数，设定学习速率和训练时间，通过损失函数的迭代，冻结13个卷积层和池化层的参数，训练2个全连接层和SoftMax分类层的参数，以优化2个全连接层和SoftMax分类层的参数，进而得到分类模型。

在得到分类模型之后，还可以利用测试集对该分类模型进行模型测试，同样地，选择5类牧草图像，每类牧草20幅图像作为测试集，以验证模型的精确度，当然，测试集中的牧草图像中可以包括不包含营养牧草的图像。

可见，本申请实施例的分割模型和分类模型均基于视觉几何群网络中的参数确定，不仅提高了分割模型和分类模型的训练效率，还提高了分割及分类的准确性，解决了传统方法费时费力且准确率低、方法依赖人工提取特征、复杂背景下的牧草分类准确度低等问题。

基于同一发明构思，本公开的第二方面还提供了一种与分类方法对应的分类装置，由于本公开中的装置解决问题的原理与本公开上述分类方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图5所示，分类装置包括：

获取模块501，其配置为获取第一图像，其中，所述目标图像中包含待分类目标以及其他对象；

分割模块502，其配置为利用预先训练好的分割模型对所述第一图像进行分割，得到第二图像，其中，所述分割模型包括全卷积神经网络，所述第二图像中包含所述待分类目标；

识别模块503，其配置为识别所述第二图像，确定所述待分类目标的类型信息。

在另一实施例中，所述识别模块503，其具体配置为：

在另一实施例中，所述分割模型和所述分类模型均基于视觉几何群网络中的参数确定。

在另一实施例中，所述待分类目标的类型信息包括类型以及占比。

本公开的第三方面还提供了一种存储介质，该存储介质为计算机可读介质，存储有计算机程序，该计算机程序被处理器执行时实现本公开任意实施例提供的方法，包括如下步骤：

S11，获取第一图像，其中，所述目标图像中包含待分类目标以及其他对象；

S12，利用预先训练好的分割模型对所述第一图像进行分割，得到第二图像，其中，所述分割模型包括全卷积神经网络，所述第二图像中包含所述待分类目标；

S13，识别所述第二图像，确定所述待分类目标的类型信息。

计算机程序被处理器执行识别所述第二图像，确定所述待分类目标的类型信息时，还具体被处理器执行如下步骤：将所述第二图像输入至预先训练好的分类模型中，得到所述待分类目标的类型信息。

计算机程序被处理器执行分类方法时，所述分割模型和所述分类模型均基于视觉几何群网络中的参数确定。

计算机程序被处理器执行分类方法时，所述待分类目标的类型信息包括类型以及占比。

需要说明的是，本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

本公开的第四方面还提供了一种电子设备，如图6所示，该电子设备至少包括存储器601和处理器602，存储器601上存储有计算机程序，处理器602在执行存储器601上的计算机程序时实现本公开任意实施例提供的方法。示例性的，电子设备计算机程序执行的方法如下：

S21，获取第一图像，其中，所述目标图像中包含待分类目标以及其他对象；

S22，利用预先训练好的分割模型对所述第一图像进行分割，得到第二图像，其中，所述分割模型包括全卷积神经网络，所述第二图像中包含所述待分类目标；

S23，识别所述第二图像，确定所述待分类目标的类型信息。

处理器在执行存储器上存储的识别所述第二图像，确定所述待分类目标的类型信息时，还执行如下计算机程序：将所述第二图像输入至预先训练好的分类模型中，得到所述待分类目标的类型信息。

处理器在执行存储器上存储的分类方法时，所述分割模型和所述分类模型均基于视觉几何群网络中的参数确定。

处理器在执行存储器上存储的分类方法时，所述待分类目标的类型信息包括类型以及占比。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

以上对本公开多个实施例进行了详细说明，但本公开不限于这些具体的实施例，本邻域技术人员在本公开构思的基础上，能够做出多种变型和修改实施例，这些变型和修改都应落入本公开所要求保护的范围之内。

Claims

1.一种分类方法，其特征在于，包括：

识别所述第二图像，确定所述待分类目标的类型信息。

2.根据权利要求1所述的分类方法，其特征在于，所述识别所述第二图像，确定所述待分类目标的类型信息，包括：

3.根据权利要求2所述的分类方法，其特征在于，所述分割模型和所述分类模型均基于视觉几何群网络中的参数确定。

4.根据权利要求1或2所述的分类方法，其特征在于，所述待分类目标的类型信息包括类型以及占比。

5.一种分类装置，其特征在于，包括：

6.根据权利要求5所述的分类装置，其特征在于，所述识别模块，其具体配置为：

7.根据权利要求6所述的分类装置，其特征在于，所述分割模型和所述分类模型均基于视觉几何群网络中的参数确定。

8.根据权利要求5或6所述的分类装置，其特征在于，所述待分类目标的类型信息包括类型以及占比。

9.一种存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如下步骤：

识别所述第二图像，确定所述待分类目标的类型信息。

10.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如下步骤：

识别所述第二图像，确定所述待分类目标的类型信息。