CN112906780A - 一种果蔬图像分类***及方法 - Google Patents

一种果蔬图像分类***及方法 Download PDF

Info

Publication number
CN112906780A
CN112906780A CN202110171006.5A CN202110171006A CN112906780A CN 112906780 A CN112906780 A CN 112906780A CN 202110171006 A CN202110171006 A CN 202110171006A CN 112906780 A CN112906780 A CN 112906780A
Authority
CN
China
Prior art keywords
feature map
dimensional
fruit
layer
vegetable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110171006.5A
Other languages
English (en)
Inventor
闵巍庆
王致岭
蒋树强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202110171006.5A priority Critical patent/CN112906780A/zh
Publication of CN112906780A publication Critical patent/CN112906780A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种果蔬图像分类***,包括用于提取输入果蔬图像特征图的卷积神经网络、用于识别果蔬图像的低维特征图中的低维关键特征图的低维SCA注意力模块、用于识别果蔬图像的中维特征图中的中维关键特征图的中维SCA注意力模块、用于识别果蔬图像的高维特征图中的高维关键特征图的高维SCA注意力模块、与每一个SCA注意力模块链接的池化层;所述果蔬图像分类***还包括:多尺度特征融合模块,用于对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理,生成统一的特征表示;全连接层,用于根据统一的特征表示对果蔬图像进行分类。

Description

一种果蔬图像分类***及方法
技术领域
本发明涉及图像处理领域,具体来说,涉及果蔬图像分类领域,更具体地说,涉及果蔬识别技术,即一种果蔬图像分类***及方法。
背景技术
食品计算技术推动了食品工业的迅猛发展,作为食品计算的一个重要分支,果蔬识别在现实场景中有着非常广泛的应用,例如水果采摘机器人使用果蔬识别技术进一步提高采摘效率,超市中利用果蔬识别技术进行智能称重与结账,家庭中的冰箱使用果蔬识别技术进行果蔬品质管理等。但是,果蔬图像分类也存在着三大难点:(1)同一种水果包含多种多样的视觉信息,例如在根据菠萝的图片对其进行描述时,我们可以观察到的视觉信息包括:黄色的果体,绿色的叶子,果体表面粗糙不平,叶子为锯齿形条状等等,所有这些视觉信息构成了菠萝图像的主要特征,并帮助我们将菠萝和其他水果进行区分,如果只选择采用其中的一种视觉信息则无法很好地区别出菠萝这种水果。(2)果蔬图像存在着非常大的视觉差异,对于同一种水果而言,可能它的图像在视觉上差别非常大,这既取决于图像中水果的成熟程度,也取决于果蔬在图像中的呈现方式(有些水果是一个整体,有些被切片或者切开,甚至有些果蔬被包装起来),此外,果蔬在图像中的数目也会造成图像上巨大的视觉差异。(3)果蔬图像的背景变化不一且存在较大噪声,部分果蔬图像的背景上经常存在着大量与果蔬本体无关的信息,如其生长的枝叶或者盛放的容具,而且,图像中的果蔬会由于光照角度或阴影遮挡产生巨大的视觉变化,这进一步加大了识别的难度。为了解决以上问题,有些研究者基于专业的传感器去获得果蔬的高光谱图像去对其进行分类;有些研究者设计了深层次的神经网络结构去捕获果蔬图像的特征,这种方法能够捕捉到果蔬主体显著性区域,从而提升分类性能。也有些研究用数据增强的手段去进一步获得利于分类的有效图像信息,进而提高果蔬识别的准确率。
从上述描述可知,现有部分方法是依靠专业设备仪器去进行识别,例如近红外呈像仪与触觉传感器等,但是这些设备比较昂贵,不利于该技术的普遍应用。还有一大部分方法是通过卷积神经网络(CNN)直接提取深度视觉特征用于果蔬图像分类,但是他们忽略了果蔬图像本身的特点,因此难以实现最佳性能。另外,这些方法大多直接将识别其他物体的模型迁移到果蔬识别任务中,没有考虑果蔬识别的任务特点。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的基于多尺度特征融合机制的果蔬图像分类***及方法。
根据本发明的第一方面,提供一种果蔬图像分类***,包括卷积神经网络,所述卷积神经网络包括:前层,用于提取输入果蔬图像的低维特征图;中层,用于提取果蔬图像的中维特征图;后层,用于提取果蔬图像的高维特征图;所述果蔬图像分类***还包括:低维SCA注意力模块,用于识别所述前层提取的果蔬图像的低维特征图中的低维关键特征图;低维池化层,用于对所述低维关键特征图进行池化处理;中维SCA注意力模块,用于识别所述中层提取的果蔬图像的中维特征图中的中维关键特征图;中维池化层,用于对所述中维关键图特征进行池化处理;高维SCA注意力模块,用于识别所述高层提取的果蔬图像的高维特征图中的高维关键特征图;高维池化层,用于对所述高维关键特征图进行池化处理;多尺度特征融合模块,用于对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理,生成统一的特征表示;全连接层,用于根据统一的特征表示对果蔬图像进行分类。
在本发明的一些实施例中,所述神经网络的前层包含3个卷积层,分别为第1层、第2层、第3层;所述神经网络的中层包括1个卷积层,为第4层;所述神经网络的后层包括1个卷积层,为第5层。
优选的,所述低维池化层、中维池化层、高维池化层均为全局平均池化层。
优选的,所述低维SCA注意力模块、中维SCA注意力模块、高维SCA注意力模块均分别包括:空间注意力模块,用于从空间维度识别对应输入特征图的空间注意力特征图;通道注意力模块,用于从通道维度识别对应输入特征图的通道注意力特征图;融合注意力模块,用于将从空间维度识别到的空间注意力特征图和从通道维度识别到的通道注意力特征图进行融合以得到输入特征对应的显著性权重特征图并与原始输入特征图进行乘积操作得到新的特征图。在本发明的一些实施例中,所述空间注意力模块包括依次连接的全局平均池化层、卷积核为3x3的卷积层、双线性层、卷积核为1x1的卷积层;其中,全局平均池化层将输入的特征图转化为通道数为1的新的特征图,卷积核为3×3的卷积层对新的特征图进行卷积求出空间上关键信息,双线性层和卷积核为1×1的卷积层一起将前层输出的特征图缩放生成至和原先输入特征图尺寸相同的空间注意力特征图;所述通道注意力模块包括:包括依次链接的全局平均池化层、卷积核为1x1的卷积层、卷积核为1x1的卷积层;其中,全局平均池化层发对输入的特征图的每个通道进行滤波以将分布在空间上的特征信息融合到一个通度信号上,两个卷积核为1X1的卷积层对滤波后的特征图进行激活操作得到和原先输入特征图尺寸相同的通道注意力特征图;所述融合模块包括卷积核为1x1的卷积层。
优选的,所述多尺度特征融合模块被配置为按照如下方式对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理:
Figure BDA0002938926310000031
其中,F表示多尺度特征融合模块的输出,Agg()表示特征融合手段对应的特征融合函数,k表示网络层尺度,N表示最底层的尺度,
Figure BDA0002938926310000032
表示经全局平均池化层处理后的第k层特征图的平均值。
根据本发明的第二方面,提供一种训练果蔬图像分类***的方法,用于训练如本发明第一方面所述的果蔬图像分类***,包括:T1、获取果蔬图像数据集,将其划分为训练集和测试集;T2、用训练集对果蔬图像分类***按照预设的方式进行多次训练至收敛,其中,每次训练时用验证集验证***的分类准确率并将其与上一次训练后的***的分类准确率进行对比,保留分类准确率高的***进入下一次训练。
根据本发明的第三方面,提供一种果蔬图像分类方法,采用本发明第二方面所述方法训练的果蔬图像分类***对果蔬图像进行分类,包括如下步骤:S1、获取果蔬原始图像,采用神经网络分别获取其低维特征图、中维特征图、高维特征图;S2、分别采用独立的SCA注意力模块分别识别低维特征图、中维特征图、高维特征图中的果蔬关键特征以得到低维关键特征图、中维关键特征图、高维关键特征图;S3、将步骤S2得到的低维关键特征图、中维关键特征图、高维关键特征图分别进行池化处理获得每个特征图的平均值;S4、采用多尺度特征融合模块将步骤S3中获得的每个特征图的平均值进行融合以生成一个统一的特征表示;S5、基于步骤S4生成的统一的特征表示对果蔬进行分类。
与现有技术相比,本发明的优点在于:本发明的果蔬图像分类***中将通道注意力与空间注意力融合起来,进而有效去识别果蔬图像中的最关键特征,克服了同一类别下图像视觉差异巨大的问题,同时可以有效降低枝叶遮挡和光照明暗对识别精度的影响,进而提升了分类性能;本发明提出了多尺度特征融合机制,可以探索不同尺度的果蔬图像,将不同尺度的图像合成多尺度的特征表示,这种表示更具有鲁棒性,区分性,且能够更为全面地描述果蔬的特征,由此可以提升果蔬分类的性能;本发明将多尺度特征融合手段与注意力机制有机融合起来,从果蔬图像中挖掘出更具有判别性,更为全面的视觉特征,这种特征更佳利于识别,可以高效地提高果蔬图像识别的精度。相比于现有技术,本发明的***模型更加针对果蔬图像的特点,不仅考虑了果蔬图像所特有的多种关键信息,而且考虑了果蔬图像的类内差异大和背景噪声大的问题。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的果蔬图像分类***框架示意图;
图2为根据本发明实施例的SCA注意力模块结构示意图;
图3为根据本发明实施例的相似水果可视化后的关键区域示意图;
图4为根据本发明实施例的一些水果在不同分类网络下的可视化结果示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的目的是解决上述现有技术并没有针对果蔬图像本身特点进行识别的问题,提出了一种基于注意力机制与融合多尺度特征方法的果蔬图像分类***及方法。
发明人在进行果蔬图像分类领域的研究时发现,果蔬图像分类和其他图像分类一样,最主要的关键点是提取最具有判别性的特征,然而,果蔬图像却面临不同于其他图像识别任务的挑战。首先,与一般的物体分类任务不同,许多类型的果蔬包含不止一个关键特征信息,常见的物体分类方法在果蔬图像上性能不佳。其次,同一类别的果蔬图像的内容可能差别很大,这和它的成熟度,呈放位置,以及是否被切开都有着密切的关系,而且同一种果蔬在切开和未被切开的情况下视觉差异非常大。另外,类似于主体识别(objectrecognition),果蔬图像还具有各种几何变体,例如不同的视角,旋转和比例。此外,很多果蔬图像来自于现实场景实际拍摄,因此图像的光照明暗,枝叶的遮挡程度等因素都会给图像带来大量的噪声,进一步加剧了识别的难度。现有的果蔬识别方法通常使用CNN直接从整个果蔬图像中提取视觉特征,并且没有考虑果蔬图像的特性。基于此,本发明利用了时空注意力机制去从果蔬图像中提取最关键的区域,进而去提取出果蔬的最具判别性的模式,从而有效克服了背景噪声和同一类别下不同图像视觉差异巨大的影响。此外,本发明还探索了不同尺度的果蔬图像,这种方式可以探索出同一果蔬图像中的多个不同关键信息,并将它们融合成多尺度的特征表示。这种表示更具有鲁棒性,区分性,且能够更为全面地描述果蔬的特征。基于以上研究发现,本发明提出了一种基于融合注意力机制的多尺度果蔬图像分类***及方法。
本发明提供一种果蔬图像分类***,所示果蔬图像分类***包括神经网络、多个SCA注意力模块、多个与SCA注意力模块一一对应的池化层、多尺度特征融合模块、全连接层。根据本发明的一个实施例,如图1所示,所示果蔬图像分类***包括一个5层卷积层的神经网络,其中第1层、第2层、第3层为前层,用于提取输入的果蔬图像的低维特征图;第4层为中层,用于提取输入果蔬图像的中维特征图;第5层为后层,用于提取输入果蔬图像的高维特征图;在前层处配置低维SCA注意力模块去提取低维特征图中的关键特征,中层处配置中维SCA注意力模块去提取中维特征图中的关键特征、后层处配置高维SCA注意力模块去提取高维特征图中的关键特征,在每个SCA注意力模块后配置池化层用于分别将提取到的关键特征进行池化层处理,经池化处理后的特征图由多尺度融合模块进行融合以生成统一的特征表示,全连接层基于统一的特征表示对输入果蔬图像进行分类识别。
根据本发明的一个实施例,神经网络可以是现有技术下的CNN,例如VGG,ResNet和DenseNet等。可以根据实际应用需求,选择不同的神经网络结构,其中,随着网络的加深,图像的尺度也会不断地变小,图像中关注的信息也在逐渐变化。因此,本发明中采用SCA注意力模块对不同维度的特征进行进一步的识别,提取更具判别性的果蔬特征,例如,以上述实施例中的5层卷积神经网络为例,第3层卷积层获取的低维特征更加关注果蔬的边缘信息,而第5层卷积层获取的特征则更关注果蔬的语义模式,本发明我们将每层后面经过SCA注意力模块得到的显著性的果蔬图像特征送入池化层,第3层卷积层对应的池化层输出的是一个512维的向量,第4层卷积层对应的池化层输出的是一个1024维的向量,第5层卷积层对应的池化层输出的是一个2048维的向量,根据本发明的一个实施例,此处池化的方式均为全局平均池化,然后我们将三个维度的池化层的输出通过多尺度特征融合模块融合起来,这种融合后的多尺度特征能够将不同的果蔬图像的有效信息结合起来,从而更加有利于果蔬的识别。
注意力机制在图像识别领域得到了广泛应用,因为它能够从图像中提取出最具有判别性的区域。因此,我们探索将这种方法应用到果蔬识别的任务中去,在我们的框架中,设计了一种SCA注意力模块去联合学习果蔬图像的关键特征。根据本发明的一个实施例,低维SCA注意力模块、中维SCA注意力模块、高维SCA注意力模块均采用相同的结构,均包含空间注意力模块、通道注意力模块、融合注意力模块,其中,根据本发明的一个实施例,如图2所示,空间注意力模块用于从空间维度识别对应输入特征图的空间注意力特征图;通道注意力模块用于从通道维度识别对应输入特征图的通道注意力特征图;融合注意力模块用于将从空间维度识别到的空间注意力特征图和从通道维度识别到的通道注意力特征图进行融合以得到输入特征对应的显著性权重特征图并与原始输入特征图进行乘积操作得到新的特征图。从图2可以看出,SCA注意力模块是空间注意力和通道注意力两个模块融合组成的,它能够从不同维度连贯地捕获果蔬主体的最显著特征,进而学习到该维度的最佳特征。在本发明中,输入到SCA注意力模块的是一个3-D张量
Figure BDA0002938926310000063
其中w表示其宽度,h表示高度,b表示通道数,
Figure BDA0002938926310000064
表示网络的层数,R是实数空间,该模块旨在生成一个显著性的权重特征图
Figure BDA0002938926310000061
它和
Figure BDA0002938926310000062
的大小尺寸一致,我们采用如下公式获得:
Figure BDA0002938926310000076
其中,
Figure BDA0002938926310000078
Figure BDA0002938926310000077
分别表示空间注意力模块和通道注意力模块得到的特征图。
对于空间注意力模块,根据本发明的一个实施例,由一个全局平均池化层、一个卷积核为3×3的卷积层、一个双线性层和一个卷积核为1×1的卷积层组成,对于输入张量
Figure BDA00029389263100000711
(
Figure BDA00029389263100000712
表示的是整个神经网络的第几层,根据输入张量的不同即低维特征图、中维特征图、高维特征图,
Figure BDA00029389263100000713
也不同),其中,全局平均池化层将输入的特征图转化为通道数为1的新的特征图,卷积核为3×3的卷积层对此新的特征图进行卷积求出空间上关键信息,双线性层和卷积核为1×1的卷积层一起用于将上一层输出的特征图缩放生成至和最原先输入特征图尺寸相同的特征图。对于输入的张量,本发明中将其输入到空间注意力模块中的层中进行计算,该过程的计算过程可通过如下公式表示:
Figure BDA0002938926310000071
对于通道注意力模块,本发明使用的是压缩-激励的操作,首先对于输入的张量,将其输入到池化层中,如下所示:
Figure BDA0002938926310000072
这个公式表示对整个图像的每个通道进行滤波,它能够将分布在空间上的特征信息融合到一个通度信号上,因此为后续的操作中的通道间相关性建模提供了完整的信息。接着将该输出输入到两个卷积核为1X1的卷积层进行激活操作,即
Figure BDA0002938926310000073
上述公式中
Figure BDA0002938926310000074
Figure BDA0002938926310000075
分别表示2个卷积层的参数矩阵,r表示瓶颈衰减率,得到这个通道注意力特征图
Figure BDA0002938926310000079
后,将其与空间注意力特征图
Figure BDA00029389263100000710
相乘,将得到的输出经过一个1X1的卷积层和sigmoid函数后得到原输入每个位置上对应的权重,然后将这个权重与原输入相乘,进而得到了经过注意力加权后的显著性权重特征图
Figure BDA0002938926310000083
当获得了显著性的权重特征图
Figure BDA0002938926310000084
之后,将其与原特征图做乘积操作的到一个新的特征图Xout,并将其送到一个全局平均池化层去获得每个特征图的平均值Xavg∈R1×1×b,由于在神经网络的前层、中层、后层均采用了SCA注意力模块去分别识别低维特征图、中维特征图、高维特征图中的关键特征,并将识别到的关键特征送入对应的池化层进行池化处理,这可以使每个特征图理解为类别置信度图,且可以有效避免模型的过拟合,然后将每层的Xavg送入到多尺度特征融合模块中。
本发明中所述的多尺度特征融合机制是一种能够有效表达图像特征的先进手段,它表达的特征更具有鲁棒性,能够更为全面地描图像主体的关键信息。仍旧以图1中的实施例为例,如图1所示,本发明可以从网络的不同层中获得不同尺度的特征,包含来自第三层的低维特征、来自第四层的中维特征、以及来自第五层的高维特征。这些不同维度的特征由于具有不同的尺度,因此描述果蔬主体的不同的关键信息,涉及纹理、形状、以及颜色等。不同类型的特征从不同的粒度描述水果图像,所有的这些关键信息对于识别出果蔬而言都是非常重要的。因此,本发明将融合这些具有判别性的特征生成一个统一的特征表示,假设k表示尺度,当k=1表示整个图像,当k=N表示最底层的尺度,即最小尺度。最终本发明可以获得来自网络不同层的特征表示
Figure BDA0002938926310000081
然后将这些特征融合成一个统一的特征表示,公式如下:
Figure BDA0002938926310000082
此处的特征融合函数Agg()可以使用各种有用的融合手段,比如级联操作或者是前馈神经网络的方法。通过这种方法融合出来的统一特征更具有鲁棒性、判别性、全面性,然后将融合后的特征F送入到分类器(全连接层)中去获得对果蔬图像的预测结果。
通过上述实施例可以看出,本发明的果蔬图像分类***中的SCA注意力模块,将通道注意力与空间注意力融合起来,进而有效去识别果蔬图像中的最关键特征,克服了同一类别下图像视觉差异巨大的问题,同时可以有效降低枝叶遮挡和光照明暗对识别精度的影响,进而提升了分类性能;本发明提出了多尺度特征融合机制,可以探索不同尺度的果蔬图像,将不同尺度的图像合成多尺度的特征表示,这种表示更具有鲁棒性,区分性,且能够更为全面地描述果蔬的特征,由此可以提升果蔬分类的性能;本发明将多尺度特征融合手段与注意力机制有机融合起来,从果蔬图像中挖掘出更具有判别性,更为全面的视觉特征,这种特征更佳利于识别,可以高效地提高果蔬图像识别的精度。相比于现有技术,本发明的***模型更加针对果蔬图像的特点,不仅考虑了果蔬图像所特有的多种关键信息,而且考虑了果蔬图像的类内差异大和背景噪声大的问题。通过融合注意力机制的多尺度方式,最大可能地提高了分类性能,在多个公共数据集(Fru92、Fruits-360、FruitVeg-81、Hierarchical Grocery Store(Fru))都达到最好分类性能。
为了更好的说明本发明的技术效果,下面结合在不同数据集上的实验数据来说明本发明。根据本发明的一个施例,采用以下四个数据来进行实验:
Fru92:它一共包含涵盖92类水果,共计69,614张图像。在Fru92中,每个类别至少包含200张以上的图像。在每个类别下,选出前100张图像进行训练,然后再选择50张图像作为验证集,其余的图片当作测试集。本数据集的图片是通过在不同的网站上(例如Google和Flicker)进行搜索获得的。
Fruits-360:它包含来自107种水果的73,410张图像。这是迄今为止最大的果蔬图像数据集,训练集和测试集分别有54,963张图像和18,447张图像。
FruitVeg-81:它包含来自81种果蔬的15,737张图像,这些图像是通过手机拍摄SPAR杂货店得到的,训练集和测试集分别有9,378张图像和6,359张图像。
Hierarchical Grocery Store(Fru):它包含3480张果蔬图像,涉及50个类别,这些图像都是通过一部智能手机相机拍摄的。对于每个类别,将随机选择60%的图像进行训练,选择10%进行验证,其余30%进行测试。
在使用过程中,本发明使用的Pytorch框架去训练本发明的网络,将本发明的模型部署在16GB的Tesla V100显卡上,每张输入图像的尺寸设置为224*224,整个模型使用随机梯度下降的方法进行参数优化,批大小设置为32,模型动量为0.9,权重衰减设置为0.0001,初始学习率设置为0.01,每经过20次训练epoch,学习率降低一次,降低比率为10倍。然后使用4个数据集中的训练集去训练本发明的***,使用TOP-1准确率和TOP-5准确率去评价本发明的***模型,在训练过程中,对于训练得到模型使用验证集去测试该模型的准确率,选择验证集上准确率最高的模型作为最佳模型(如果没有验证集则选择在训练集上准确率最高的模型),使用该最佳模型在测试集上进行测试。
将本发明的方法分别与经典的分类网络(AlexNet[9],VGG-16[10],ResNet-152,WRN-50,Desnet-161,SENet-154)在四个果蔬数据集上进行了测评,这些算法的参数设置和本文方法保持一致,本发明使用TOP-1准确率和TOP-5准确率作为评价指标,实验结果如下表1所示:
表1
Figure BDA0002938926310000101
根据表1中的数据可以看出本发明的***和方法在公开数据集上的性能优于其他方法。
为了进一步说明本发明的有效性,使用GradCAM做进一步的可视化分析,选择去可视化一些视觉上非常相似的水果图像去验证本发明的模型***是否能够提取到最关键的特征。从Fru92中随机选取了一些水果种类进行可视化。如图3所示,可以看到:(1)本发明的模型***可以提取水果图像中表面和内部的关键区域。图3中的关键区域是水果表面的顶部和水果内部的中间。(2)对于两个看起来极为相似的水果,例如Flat pea ch(蟠桃)和Juicy peach(水蜜桃),本发明的方法可以根据其表面的顶部形状轻松地对其进行分类。此外,本发明还选取了一些水果图像输入到不同的分类网络中进行可视化,如图4所示的一些水果在不同分类网络下的可视化结果,水果的原始图像和真值被标注在了最上边,本发明通过对某一类别的正向梯度反向传播获得了对应的注意力区域。根据图4我们可以发现:(1)对于每个输入图像,我们给出了不同的分类网络下相应的注意力遮掩。可以观察到,本发明模型***的注意遮掩比所有其他模型都更好地覆盖了目标对象区域。换句话说,本发明的模型***具有更强大的能力,可以很好地理解各种水果的视觉模式,这一点主要是由于本发明的模型***可以学习丰富的语义信息并使用多尺度和空间通道注意机制对其进行融合。(2)随着模型精度的提高,它更加关注于一些显著性的的特征,同时可以获得更多有用的区域。(3)还可以发现,ResNet-50,ResNet-152和DenseNet-161专注于对象区域的部分以及背景信息,这表明它们挖掘目标水果信息的能力较弱。相比之下,本发明的模型***对目标对象区域的激活能力更强,这表明本发明的模型***可以很好地从多尺度和SCA注意力机制中受益。例如,AlexNet和VGG-16主要关注菠萝的叶子,而ResNet-50,ResNet-101和ResNet-152则关注叶子及其背景。因此,所有这些模型都没有掌握菠萝识别的关键信息,即椭圆形状和规则纹理,而本发明的模型能够捕获这些信息,因此实现了高于其他方法的识别准确率。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种果蔬图像分类***,包括卷积神经网络,所述卷积神经网络包括:前层,用于提取输入果蔬图像的低维特征图;中层,用于提取果蔬图像的中维特征图;后层,用于提取果蔬图像的高维特征图;其特征在于,所述果蔬图像分类***还包括:
低维SCA注意力模块,用于识别所述前层提取的果蔬图像的低维特征图中的低维关键特征图;
低维池化层,用于对所述低维关键特征图进行池化处理;
中维SCA注意力模块,用于识别所述中层提取的果蔬图像的中维特征图中的中维关键特征图;
中维池化层,用于对所述中维关键图特征进行池化处理;
高维SCA注意力模块,用于识别所述高层提取的果蔬图像的高维特征图中的高维关键特征图;
高维池化层,用于对所述高维关键特征图进行池化处理;
多尺度特征融合模块,用于对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理,生成统一的特征表示;
全连接层,用于根据统一的特征表示对果蔬图像进行分类。
2.根据权利要求1所述的果蔬图像分类***,其特征在于,所述神经网络的前层包含3个卷积层,分别为第1层、第2层、第3层;所述神经网络的中层包括1个卷积层,为第4层;所述神经网络的后层包括1个卷积层,为第5层。
3.根据权利要求1所述的果蔬图像分类***,其特征在于,所述低维池化层、中维池化层、高维池化层均为全局平均池化层。
4.根据权利要求3所述的一种果蔬图像分类***,其特征在于,所述低维SCA注意力模块、中维SCA注意力模块、高维SCA注意力模块均分别包括:
空间注意力模块,用于从空间维度识别对应输入特征图的空间注意力特征图;
通道注意力模块,用于从通道维度识别对应输入特征图的通道注意力特征图;
融合注意力模块,用于将从空间维度识别到的空间注意力特征图和从通道维度识别到的通道注意力特征图进行融合以得到输入特征对应的显著性权重特征图并与原始输入特征图进行乘积操作得到新的特征图。
5.根据权利要求4所述的一种果蔬图像分类***,其特征在于,
所述空间注意力模块包括依次连接的全局平均池化层、卷积核为3x3的卷积层、双线性层、卷积核为1x1的卷积层;其中,全局平均池化层将输入的特征图转化为通道数为1的新的特征图,卷积核为3×3的卷积层对新的特征图进行卷积求出空间上关键信息,双线性层和卷积核为1×1的卷积层一起将前层输出的特征图缩放生成至和原先输入特征图尺寸相同的空间注意力特征图;
所述通道注意力模块包括:包括依次链接的全局平均池化层、卷积核为1x1的卷积层、卷积核为1x1的卷积层;其中,全局平均池化层发对输入的特征图的每个通道进行滤波以将分布在空间上的特征信息融合到一个通度信号上,两个卷积核为1X1的卷积层对滤波后的特征图进行激活操作得到和原先输入特征图尺寸相同的通道注意力特征图;
所述融合模块包括卷积核为1x1的卷积层。
6.根据权利要求5所述的一种果蔬图像分类***,其特征在于,所述多尺度特征融合模块被配置为按照如下方式对经池化处理后的低维关键特征图、中维关键特征图、高维关键特征图进行融合处理:
Figure FDA0002938926300000021
其中,F表示多尺度特征融合模块的输出,Agg()表示特征融合手段对应的特征融合函数,k表示网络层尺度,N表示最底层的尺度,
Figure FDA0002938926300000022
表示经全局平均池化层处理后的第k层特征图的平均值。
7.一种训练果蔬图像分类***的方法,用于训练如权利要求1-6任一所述的果蔬图像分类***,其特征在于,包括:
T1、获取果蔬图像数据集,将其划分为训练集和测试集
T2、用训练集对果蔬图像分类***按照预设的方式进行多次训练至收敛,其中,每次训练时用验证集验证***的分类准确率并将其与上一次训练后的***的分类准确率进行对比,保留分类准确率高的***进入下一次训练。
8.一种果蔬图像分类方法,采用权利要求7所述方法训练的果蔬图像分类***对果蔬图像进行分类,其特征在于,包括如下步骤:
S1、获取果蔬原始图像,采用神经网络分别获取其低维特征图、中维特征图、高维特征图;
S2、分别采用独立的SCA注意力模块分别识别低维特征图、中维特征图、高维特征图中的果蔬关键特征以得到低维关键特征图、中维关键特征图、高维关键特征图;
S3、将步骤S2得到的低维关键特征图、中维关键特征图、高维关键特征图分别进行池化处理获得每个特征图的平均值;
S4、采用多尺度特征融合模块将步骤S3中获得的每个特征图的平均值进行融合以生成一个统一的特征表示;
S5、基于步骤S4生成的统一的特征表示对果蔬进行分类。
9.一种计算机可读存储介质,其特征在于,其上包含有计算机程序,所述计算机程序可被处理器执行以实现权利要求8所述方法的步骤。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求8中所述方法的步骤。
CN202110171006.5A 2021-02-08 2021-02-08 一种果蔬图像分类***及方法 Pending CN112906780A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110171006.5A CN112906780A (zh) 2021-02-08 2021-02-08 一种果蔬图像分类***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110171006.5A CN112906780A (zh) 2021-02-08 2021-02-08 一种果蔬图像分类***及方法

Publications (1)

Publication Number Publication Date
CN112906780A true CN112906780A (zh) 2021-06-04

Family

ID=76124013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110171006.5A Pending CN112906780A (zh) 2021-02-08 2021-02-08 一种果蔬图像分类***及方法

Country Status (1)

Country Link
CN (1) CN112906780A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置
CN114140654A (zh) * 2022-01-27 2022-03-04 苏州浪潮智能科技有限公司 图像动作识别方法、装置及电子设备
CN115577242A (zh) * 2022-10-14 2023-01-06 成都信息工程大学 一种基于注意力机制及神经网络的脑电信号分类方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110309880A (zh) * 2019-07-01 2019-10-08 天津工业大学 一种基于注意力机制cnn的5天和9天孵化鸡蛋胚胎图像分类方法
CN110458077A (zh) * 2019-08-05 2019-11-15 高新兴科技集团股份有限公司 一种车辆颜色识别方法及***
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法
CN111161273A (zh) * 2019-12-31 2020-05-15 电子科技大学 一种基于深度学习的医学超声图像分割方法
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及***
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法
CN111680176A (zh) * 2020-04-20 2020-09-18 武汉大学 基于注意力与双向特征融合的遥感图像检索方法及***
CN112084362A (zh) * 2020-08-07 2020-12-15 北京航空航天大学 一种基于层次化特征互补的图像哈希检索方法
CN112232147A (zh) * 2020-09-28 2021-01-15 上海明略人工智能(集团)有限公司 用于人脸模型超参数自适应获取的方法、装置和***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110751A (zh) * 2019-03-31 2019-08-09 华南理工大学 一种基于注意力机制的金字塔网络的中草药识别方法
CN110309880A (zh) * 2019-07-01 2019-10-08 天津工业大学 一种基于注意力机制cnn的5天和9天孵化鸡蛋胚胎图像分类方法
CN110458077A (zh) * 2019-08-05 2019-11-15 高新兴科技集团股份有限公司 一种车辆颜色识别方法及***
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法
CN111161273A (zh) * 2019-12-31 2020-05-15 电子科技大学 一种基于深度学习的医学超声图像分割方法
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及***
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法
CN111680176A (zh) * 2020-04-20 2020-09-18 武汉大学 基于注意力与双向特征融合的遥感图像检索方法及***
CN112084362A (zh) * 2020-08-07 2020-12-15 北京航空航天大学 一种基于层次化特征互补的图像哈希检索方法
CN112232147A (zh) * 2020-09-28 2021-01-15 上海明略人工智能(集团)有限公司 用于人脸模型超参数自适应获取的方法、装置和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LU HAIHUA等: "SCANET: SPATIAL-CHANNEL ATTENTION NETWORK FOR 3D OBJECT DETECTION", 《2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
吴雨芯等: "基于层级注意力机制与双向长短期记忆神经网络的智能合约自动分类模型", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置
CN114140654A (zh) * 2022-01-27 2022-03-04 苏州浪潮智能科技有限公司 图像动作识别方法、装置及电子设备
CN115577242A (zh) * 2022-10-14 2023-01-06 成都信息工程大学 一种基于注意力机制及神经网络的脑电信号分类方法

Similar Documents

Publication Publication Date Title
CN107578060B (zh) 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN112906780A (zh) 一种果蔬图像分类***及方法
Esmaeili et al. Fast-at: Fast automatic thumbnail generation using deep neural networks
CN104462494B (zh) 一种基于无监督特征学习的遥感图像检索方法及***
Kumari et al. Hybridized approach of image segmentation in classification of fruit mango using BPNN and discriminant analyzer
US8503768B2 (en) Shape description and modeling for image subscene recognition
CN110689056A (zh) 一种分类方法及装置、设备和存储介质
Liu et al. Deep learning based research on quality classification of shiitake mushrooms
Wang et al. Multiscale densely connected attention network for hyperspectral image classification
Huang et al. Automatic thumbnail generation based on visual representativeness and foreground recognizability
CN112926652A (zh) 一种基于深度学习的鱼类细粒度图像识别方法
Gothai et al. Design features of grocery product recognition using deep learning
Min et al. Vision-based fruit recognition via multi-scale attention CNN
Abbas et al. Deep neural networks for automatic flower species localization and recognition
Siddiqi Fruit-classification model resilience under adversarial attack
Shankar et al. Comparing YOLOV3, YOLOV5 & YOLOV7 Architectures for Underwater Marine Creatures Detection
Morales et al. Reduced-cost hyperspectral convolutional neural networks
Dilshad et al. Towards efficient fire detection in IoT environment: a modified attention network and large-scale dataset
Singh et al. Apple Disease Classification Built on Deep Learning
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
Andono et al. Texture feature extraction in grape image classification using k-nearest neighbor
Yang et al. Intelligent collection of rice disease images based on convolutional neural network and feature matching
CN113408528A (zh) 商品图像的质量识别方法、装置、计算设备及存储介质
Yue et al. RSR-YOLO: a real-time method for small target tomato detection based on improved YOLOv8 network
Mustafa et al. A method to recognize food using GIST and SURF features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604