CN115170854A - 基于端到端的PCANetV2的图像分类方法和*** - Google Patents
基于端到端的PCANetV2的图像分类方法和*** Download PDFInfo
- Publication number
- CN115170854A CN115170854A CN202111428758.1A CN202111428758A CN115170854A CN 115170854 A CN115170854 A CN 115170854A CN 202111428758 A CN202111428758 A CN 202111428758A CN 115170854 A CN115170854 A CN 115170854A
- Authority
- CN
- China
- Prior art keywords
- model
- image
- residual
- pcanetv2
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出一种基于端到端的PCANetV2的图像分类方法和***。其中,方法包括:获取图像数据;对图像数据进行数据大小和格式的处理,并对处理后的图像数据进行预处理,将预处理后的图像数据分为训练图像集和测试图像集;根据提出的PCANetV2模型和训练图像集进行模型训练,以生成PCANetV2图像分类模型;将测试图像集中的图像输入到训练好的PCANetV2分类模型中进行分类,得到测试图像集分类结果。本发明基于提出的PCANetV2神经网络模型,全自动地对图像进行分类,从而可以提高分类过程的效率和效果,并能使图像分类过程更简单,有效减少传统分类模型的复杂度,提高分类准确率和可靠性。
Description
技术领域
本申请涉及图像处理和模式识别领域,特别涉及一种基于端到端的PCANetV2的图像分类方法和***。
背景技术
深度学习的概念源于人工神经网络的研究,近年来,卷积神经网络(Convolutional NeuralNetwork,CNN)在计算机视觉领域(图像分类、目标检测、图像语义分割等)取得了一系列突破性的研究成果,其强大的特征提取能力能够分类、检测和分割更加复杂的数据集,如ImageNet,CoCo,Voc等数据集。卷积神经网络是一种端到端的学习模型,模型中的参数可以通过反向传播的方法更新,训练后的CNN能够有效学习图像特征,并且根据这些特征完成对应的任务。CNN是神经网络领域中的一个重要研究方向,CNN的特点在于其每一层的输入特征都是由上一层卷积层与输入图像卷积输出得到的,通过组合低层特征,形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。这一特点使得CNN相比于其他神经网络模型更适合学习和表达图像特征。
LeNet5是早期CNN模型,LeNet5网络通过交替连接的卷积层和下采样层,将原始图像逐渐转换为一系列的特征图,并且将这些特征传递给全连接的神经网络,以根据图像的特征对图像进行分类。感受野是卷积神经网络的核心,卷积神经网络的卷积核则是感受野概念的结构表现。学术界对于卷积神经网络的关注,也正是开始于LeNet5网络的提出,并成功应用于手写体识别。同时,卷积神经网络在语音识别、物体检测、人脸识别等应用领域的研究也逐渐开展起来。在LeNet5网络之后,卷积神经网络一直处于实验发展阶段。直到2012年AlexNet网络的提出才奠定了卷积神经网络在深度学习应用中的地位,Krizhevsky等提出的卷积神经网络AlexNet在ImageNet的训练集上取得了图像分类的冠军,使得卷积神经网络成为计算机视觉中的重点研究对象,并且不断深入。在AlexNet之后,不断有新的卷积神经网络提出,包括牛津大学的VGG网络、微软的ResNet网络、谷歌的GoogLeNet网络等,这些网络的提出使得卷积神经网络逐步开始走向商业化应用,几乎只要是存在图像的地方,就会有卷积神经网络的身影。
图像是人类视觉、运动分析、数据融合等研究的基础,是周围景色事物的客观反映,是人类感知和认识世界之间的桥梁。因此在生物医学图像识别,航空遥感、通讯领域、机器视觉等领域中,对图像的研究分类时是研究工作的重点之一。但在实际情况中对图像的分类往往会遇到很多情况,比如不同样本规模不一样并且维数很大、数量很少等问题。相关技术中,传统图像分类算法精度低、速度慢,使用深度学习结合机器学习分类器分类方法,可以有效解决上述问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于端到端的PCANetV2的图像分类方法,该方法适用性强,模型性能好,具有鲁棒性,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分割的精准性和便捷性。
本发明的另一个目的在于提出一种基于PCANetV2的图像分类***。
为达上述目的,本申请第一方面实施例提出了一种基于PCANetV2的图像分类方法,包括以下步骤:
获取待分类图像;对所述待分类图像进行标准化,以使所述待分类图像的像素均值为0且方差为1;获取PCANetV2模型,其中,所述PCANetV2模型中包括残差模组和全连接模组,且所述残差模块提取的特征输入到全连接模组中,全连接模组将多尺度特征进行拼接并分类;对训练图像进行预处理,以使训练图像的像素均值为0且方差为1,且使得分类图像的像素标签为1且其余部分像素标签为0,并通过数据扩展法增加所述训练图像的模式和数量,得到训练图像集;根据所述PCANetV2模型和所述训练图像集进行模型训练,以生成PCANetV2分类模型;根据所述待分类图像通过所述PCANetV2分类模型得到图像分类结果。
本发明实施例的基于PCANetV2网络的图像分割方法,可以通过深度残差网络理论和深度学习网络模型训练方法获得基于PCANetV2的图像分类模型,从而可以实现端到端的分类任务,且可以用于全自动地对图像进行分类,且不受待分类图像类别的限制,适用性强,模型性能好,具有鲁棒性,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和便捷性。
另外,根据本发明上述实施例的基于PCANetV2网络的图像分类方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述残差模组包括第一残差块组、第二残差块组和第三残差块组,所述第一残差块组、所述第二残差块组和所述第三残差块组均包含两个残差块,每个残差块包含取块操作、生成矩阵操作、生成卷积核操作、卷积操作,卷积操作后还包括批量归一化层(Batch Normalization,BN)、激活函数层(ReLU)以及注意力机制层(Squeeze-and-Excitation,SE)。且所述第一残差块组、所述第二残差块组和所述第三残差块组中的第一残差块输出特征图FMs(Feature Maps,特征图)的尺寸大小是其输入的FMs尺寸的二分之一,第二残差块输出的FMs的尺寸等于其输入的FMs的尺寸。
进一步地,在本发明的一个实施例中,所述全连接模组包括第一全连接层、第二全连接层、第三全连接层和分类层。其中每个线性层输出的特征向量维度是输入特征向量维度的二分之一,分类层特征向量维度是图像类别个数。
进一步地,在本发明的一个实施例中,所述获取PCANetV2网络模型,进一步包括:在所述残差模组中,所述取块操作中块的大小可以取(2*2)~(8*8);生成矩阵操作中将取出块的像素点重新进行排序生成向量,并将所有向量排列生成矩阵;生成卷积核操作中对上诉矩阵使用PCA生成特征向量,取前k个特征向量,将每个特征向量重新排列生成k个卷积核,k大小可取2~8,卷积核大小可取(2*2)~(8*8)。
进一步地,在本发明的一个实施例中,上述方法还包括:所述残差模组和全连接模组是通过串联的方式,将每个残差模组的FMs经过全局池化(Avgpooling)操作生成特征向量,将不同尺度特征向量拼接,作为全连接模组的输入,将多尺度特征分类。
为达到上述目的,本发明另一方面实施例提出了一种PCANetV2的图像分类***,包括:输入模块,用于输入待分类图像;第一预处理模块,用于对所述待分类图像进行标准化,以使所述待分类图像的像素均值为0且方差为1;获取模块,用于获取PCANetV2模型,其中,所述PCANetV2模型包括残差模组和全连接模组,且所述残差模组残差模块提取的特征输入到全连接模组中,全连接模组将多尺度特征进行分类;训练模块,用于根据所述PCANetV2模型和所述训练图像集进行模型训练,以生成PCANetV2分类模型;分类模块,用于根据所述待分类图像通过所述PCANetV2分类模型得到图像分类结果。
本发明实施例的基于PCANetV2网络的图像分类方法,可以通过深度残差网络理论和深度学习网络模型训练方法获得基于PCANetV2的图像分类模型,从而可以实现端到端的分类任务,且可以用于全自动地对图像进行分类,且不受待分类图像类别的限制,适用性强,模型性能好,具有鲁棒性,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和便捷性。
另外,根据本发明上述实施例的基于PCANetV2网络的图像分类装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述残差模组包括第一残差块组、第二残差块组和第三残差块组,所述第一残差块组、所述第二残差块组和所述第三残差块组均包含两个残差块,每个残差块包含取块操作、生成矩阵操作、生成卷积核操作、卷积操作,卷积操作后还包括批量归一化层(Batch Normalization,BN)、激活函数层(ReLU)以及注意力机制层(Squeeze-and-Excitation,SE)。且所述第一残差块组、所述第二残差块组和所述第三残差块组中的第一残差块输出特征图FMs(Feature Maps,特征图)的尺寸大小是其输入的FMs尺寸的二分之一,第二残差块输出的FMs的尺寸等于其输入的FMs的尺寸。
进一步地,在本发明的一个实施例中,所述全连接模组包括第一全连接层、第二全连接层、第三全连接层和分类层。其中每个线性层输出的特征向量维度是输入特征向量维度的二分之一,分类层特征向量维度是图像类别个数。
进一步地,在本发明的一个实施例中,所述获取PCANetV2网络模型,进一步包括:在所述残差模组中,所述取块操作中块的大小可以取(2*2)~(8*8);生成矩阵操作中将取出块的像素点重新进行排序生成向量,并将所有向量排列生成矩阵;生成卷积核操作中对上诉矩阵使用PCA生成特征向量,取前k个特征向量,将每个特征向量重新排列生成k个卷积核,k大小可取2~8,卷积核大小可取(2*2)~(8*8)。
进一步地,在本发明的一个实施例中,上述方法还包括:所述残差模组和全连接模组是通过串联的方式,将每个残差模组的FMs经过全局池化(Avgpooling)操作生成特征向量,将不同尺度特征向量拼接,作为全连接模组的输入,将多尺度特征分类。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于端到端的PCANetV2的图像分类方法的流程;
图2为根据本发明另一个实施例的基于端到端的PCANetV2的图像分类方法的流程;
图3为根据本发明一个实施例的不同种类动物图片示意图;
图4为根据本发明一个实施例的PCANetV2模型框架示意图;
图5为根据本发明一个实施例的残差块结构示意图;
图6为根据本发明一个实施例的残差模组结构示意图;
图7为根据本发明一个实施例的全连接模组结构示意图;
图8为根据本发明一个实施例的基于端到端的PCANetV2的图像分类***的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
在介绍基于PCANetV2的图像分类方法及***之前,先简单介绍一下传统的图像分类方法以及深度学习网络在图像分类方面的重要性。
传统图像分类包括几大类方法:基于色彩特征的索引方法、基于纹理的图像分类方法、基于形状的图像分类方法、基于空间关系的图像分类方法。其中基于色彩特征的索引技术原理是由于色彩直方图具有简单且随图像的大小、旋转变化不敏感等特点,主要包括全局色彩特征索引和局部色彩特征索引。纹理特征也是图像的重要特征之一,其本质是刻画象素的邻域灰度空间分布规律,基于纹理的图像分类技术这个方法提取的是纹理的灰度级空间相关性,首先基于像素之间的距离和方向建立灰度共生矩阵,再由这个矩阵提取有意义的统计量作为纹理特征向量。另一种方法是利用小波变换来表示问题特征,从小波子带中提取的统计量(平均值和方差)作为纹理特征。形状是图像的重要可视化内容之一在二维图像空间中,形状通常被认为是一条封闭的轮廓曲线所包围的区域,所以对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。目前的基于形状的图像分类方法大多围绕着从形状的轮廓特征和形状的区域特征建立图像索引。在图像信息***中,依据图像中对象及对象间的空间位置关系来区别图像库中的不同图像是一个非常重要的方法,基于空间关系的图像分类方法由此而来。前三种方法都需要先提取图像的特征,再将特征映射到相关模型中,其过程通常比较复杂,且效果的鲁棒性不够,很多时候不能给出语义信息。此外,还有如下缺陷:计算量太大,难以应用到实时***;需要引入先验知识。而最后一种方法用矩阵表示图像,矩阵元素是相应像素的灰度值,使用深度学习方法对矩阵进行特征提取和分类。
随着计算机和人工智能领域、以及高性能计算设备的发展,深度学习已经在语音识别、人脸识别、目标检测等人工智能领域表现出了惊人的突破,同时,深度学习在图像分类方面也有着令人瞩目的表现。深度学习做图像分类的基本思想是采用像素级标注的图像作为训练图像,提取图像特征包括纹理,色彩,空间位置等信息。通过深度学习网络中的卷积层、池化层等提取的特征对图像进行分类。
正是基于上述原因,为本发明实施例提出了一种基于PCANetV2的图像分类方法及***。
下面参照附图描述根据本发明实施例提出的基于PCANetV2的图像分类方法及***,首先将参照附图描述根据本发明实施例提出的基于PCANetV2的图像分类方法。
(此处之后需要根据附图来写)图1为本申请实施例所提供的一种基于端到端的PCANetV2图像分类方法的流程示意图。需要说明的是,本申请实施例的基于端到端的PCANetV2的图像分类方法可应用于本申请实施例的基于端到端的PCANetV2的图像分类***。如图1所示,该基于端到端的PCANetV2的图像分类方法可以包括如下步骤。
在步骤101中,获取待分类图像。
可以理解的是,如图2所示,步骤A1:获取待分类的图像数据集。例如,本发明实施例的待分类图像集中包含不同的类别如图3所示。
在步骤102中,对图像数据进行数据大小和格式的处理,标准化图像。并对处理后的图像数据进行预处理,将预处理后的图像数据分为训练图像集和测试图像集。
可以理解的是,如图2所示,步骤A2:对待分类图像进行预处理。例如,可对图像数据进行数据大小和格式的处理,使图像大小,格式相同,并对处理后的图像数据进行去噪、平滑等预处理,处理后图像大小为224×224×3,在每个待分类图像上减去所有像素的平均值,再除以标准差,使得像素的均值为0,方差为1。将预处理后的图像数据分为训练图像集和测试图像集,训练集中图像个数为N,测试集图像数量为M。
在步骤103中,获取PCANetV2模型,其中,PCANetV2模型包括残差模组和全连接层模组,并且将第一残差块组,第二残差块组和第三残差块组输出的特征图经过Avgpooling后得到特征向量,并拼连接输入到全连接层模块中,最后得到图像分类结果。
可选地,在本申请一些实施例中,残差模组包括第一残差块组,第二残差块组和第三残差块组均包含2个残差块,每个残差块包含取块操作、生成矩阵操作、生成卷积核操作、卷积操作,卷积操作后还包括批量归一化层(Batch Normalization,BN)、激活函数层(ReLU)以及注意力机制层(Squeeze-and-Excitation,SE)。卷积层卷积核大小均为3*3。第一个残差块输出的FMs的尺寸是其输入的FMs尺寸的二分之一,第二个残差块输出的FMs的尺寸等于其输入的FMs的尺寸。
可以理解的是,图5是残差块组,包括(1),(2)两部分,其参数如表1所示。残差模组是由3个残差块组构成,具体的如图6所示,该模型的输入大小为M*M*3,其中,M*M表示输入图像尺度,“3”表示图像的三个通道,分别是R(red,红色)、G(green,绿色)、B(blue,蓝色)三个通道。残差块组由两个残差块组成,每个残差块包含取块操作、生成矩阵操作、生成卷积核操作、卷积操作,卷积操作后还包括批量归一化层(Batch Normalization,BN)、激活函数层(ReLU)以及注意力机制层(Squeeze-and-Excitation,SE),残差块具体参数设置如表1所示。
表1
其中M表示输入图像或FMs的尺寸。残差块组中两个残差块的差别在于卷积核步长设置,第一个残差块卷积核步长设置为2,第二个残差块卷积核步长设置为1。
举例说明,如图5示,本发明实施例中的残差块组中第一残差块:取操作的输入图像大小为224*224*3(M=224,前两项224*224为图像分辨率,最后一项为图像通道数,以下均类似),取块大小为4*4(n=4),输出特征大小为4*4*3136,构建矩阵操作,将上述取块操作输出每个通道中的图像进行向量化,并把每个向量按照顺序排列生成矩阵,输出矩阵大小为16*3136,生成卷积核操作,对上述构建矩阵操作的输出进行PCA操作求取矩阵的特征值和特征向量,将特征值重大到小排列,并选取前3(L=3)个特征值对应的特征向量,将每个特征向量重新排列生成大小为3*3(k=3)的卷积核,输出大小为3*3*3。将上述生成的卷积核(卷积核大小:3,步长:2,填充1)与原始图像进行卷积操作,输出特征大小为112*112*3,将输出特征进行BN(输入通道数L1=3)操作,输出特征大小为112*112*3,将输出特征进行ReLU操作,输出特征大小为112*112*3,将输出特征与输入特征融合,输出特征大小为112*112*3,将输出特征进行SE操作输出特征大小为112*112*3,并保存特征,第一残差块操作结束,第二残差块与第一残差块的区别在于卷积核步长设置为1,输入图像与输出图像大小相同,第一残差块输出经过第二残差块输出大小为112*112*3。如图6所示,残差模组包括第一残差块组,第二残差块组和第三残差块组,3个块组结构相同参数设置相同,第一残差块组输出特征112*112*3,经过第二残差块组和第三残差块组产生的输出特征大小分别为56*56*3和28*28*3。
进一步地,本发明的一个实例中,全连接模组包括第一全连接(Fully Connected,FC)层,第二全连接层,第三全连接层和分类层,其中第一全连接层,第二全连接层,第三全连接层输出维度是输入维度的一半,分类层输出维度为待分类图像集中图像类别数。参数设置如表2所示。
表2
举例说明,如图5示,本发明实施例中的全连接模组:输入特征大小为16464*1,经过FC1操作后输出特征维度大小为1024*1(H=1024),将输出经过FC2操作后输出特征维度大小为512*1,将输出经过FC3操作后输出特征维度大小为256*1,将输出经过分类层操作后输出特征维度大小为10*1(C=10)。
进一步地,在本发明的一个实施例中,获取PCANetV2模型,进一步包括,将残差模组中三个残差组块的输出经过Avgpooling操作产生的输出大小分别是12544*1,3136*1和784*1,将三个输出特征进行拼接操作(Concat)得到特征向量大小为16464*1,将输出特征向量输入到全连接模组中得到分类结果。
在步骤104中,根据PCANetV2模型和训练图像集进行模型训练,以生成PCANetV2分类模型。
在步骤105中,根据训练好的PCANetV2模型以分类测试集图像。
需要说明的是,该PCANetV2模型通过一块GPU(Graphics Processing Unit,图形处理器)显卡NVIDIA Titan X(Pascal)训练得到,效果显著,不需要像传统图像处理方法先手动提取图像特征,再进行分类等繁琐的步骤,而是直接提取特征,并对图像进行端到端地分类。
可以理解的是,如图2所示,本发明实施例可以根据PCANetV2模型和预处理后的数据集进行模型训练,以生成PCANetV2分类模型,具体地,如图2所示,步骤A4:模型训练,生成PCANetV2分割模型。其中,步骤A4模型训练可以包括A41、A42、A43和A44中的四个步骤,具体如下:
步骤A41:首先,模型参数初始化。其中,卷积层中权重的初始化方式均为随机正态分布初始化,偏置向量的初始化方式为全零初始化。
步骤A42:调整模型的权重。训练模型时,采用Adam(Adaptive MomentEstimation,自适应矩估计法)优化模型。
步骤A43:设置训练的优化函数。
本发明实施例的模型训练过程中使用余弦退火算法(CosineAnnealing)方法,初始学习率为0.01。此时可以通过突然提高学习率,来“跳出”局部最小值并找到通向全局最小值的路径。而余弦退火(Cosine annealing)可以通过余弦函数来降低学习率。其中,CosineAnnealing是指余弦函数中随着x的增加余弦值首先缓慢下降,然后加速下降,再次缓慢下降,这种下降模式能和学习率配合,减少计算成本。
进一步地,步骤A53为利用CosineAnnealing控制训练过程,在训练过程中,在目标优化函数除了全局最优解之外还有多个局部最优解,在训练时梯度下降算法可能陷入局部最小值,采用CosineAnnealing方法进一步优化学习率,是目标优化函数达到全局最优解,进而收敛。
需要说明的是,本发明实施例可以采用Adam算法训练模型,Adam算法利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学***稳。并且利用网格搜索法确定模型的相关参数,如卷积核数、激活函数等等,有效降低优化模型时选参数的难度,以及利用CosineAnnealing方式,使得在训练过程中,模型性能尽可能达到最好。
步骤A54:设置训练的损失函数。
本发明实施例的模型训练过程中使用交叉熵损失函数(BCEloss),在一定程度上避免的梯度消失的问题。
当训练终止后,保存训练好的模型:包括保存模型权重(文件类型为.npz)
在步骤105中,输入待分类的数据图像,经过PCANetV2模型分类,得到分类结果。
可以理解的是,本发明实施例可以通过PCANetV2模型得到图像分类结果,如图2所示,步骤A5:输出目标对象的分类结果。需要说明是,本发明实施例方法携带的全部或部分步骤是可以通过程序指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
综上而言,本发明实施例的基于PCANetV2的图像分类方法可以包括:输入待分类的图像数据;标准化待分类图像数据;训练PCANetV2模型,具体包括设计PCANetV2模型,将训练数据进行预处理,利用预处理后的训练数据和设计好的PCANetV2模型进行模型训练。其中,设计PCANetV2模型包含残差模组和全连接层模组,标准化训练数据,构成训练集,模型训练过程包括初始化模型的权值,调整模型的权重,设置训练的优化函数,损失函数;输出图像分类结果,具体包括将待分类的图像输入训练好的PCANetV2模型,对待测图像数据进行正确分类
根据本发明实施例提出的基于端到端的PCANetV2图像分类方法,可以通过深度残差网络理论和深度学习网络模型训练方法获得基于PCANetV2的图像分类模型,从而可以实现端到端的分类任务,且可以用于全自动地对图像进行分类,且不受待分类图像类别的限制,适用性强,模型性能好,具有鲁棒性,使分割不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和便捷性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
为了实现上述实施例,本申请还提出一种基于PCANetV2的图像分类***。
图3为本申请实施例提供的一种基于PCANetV2的图像分类***的结构示意图。如图3所示,该基于PCANet的图像分类***10包括:图像获取模块100、预处理模块200、生成分类模块300和分类模块400。
具体地,获取模块100用于获取图像数据。
处理模块200用于对图像数据进行数据大小和格式的处理,并对处理后的图像数据进行预处理,将预处理后的图像数据分为训练图像集和测试图像集。
生成模块300用于根据PCANetV2模型和训练图像集进行模型训练,以生成PCANetV2分类模型。
分类模块400用于将测试图像集中的图像输入至经过训练的PCANetV2分类模型中分类。
需要说明的是,前述对基于PCANetV2的图像分类方法实施例的解释说明也适用于该实施例的基于PCANe V2t的图像分类***,此处不再赘述。
根据本申请实施例的PCANetV2的图像分类***,可以通过PCANetV2模型和训练图像获得基于PCANetV2的图像分类模型,从而可以实现端到端的分类任务,且可以用于全自动地对图像进行分类,且不受待分类图像空间维度的限制,适用性强,模型性能好,具有鲁棒性,使分类不但更加便捷、有效,而且操作简单且性能更好,从而有效提高图像分类的精准性和便捷性。
Claims (10)
1.一种基于端到端的PCANetV2模型图像分类方法,其特征在于,包括:
获取图像数据;
对所述图像数据进行标准化处理,以使所述待分类图像的像素均值为0且方差为1,并进行预处理,将预处理后的图像数据分为训练图像集和测试图像集;
获取PCANetV2模型,其中,所述PCANetV2模型包括残差模组和全连接模组,且所述所述残差模组和全连接模组是通过串联的方式,所述残差模组的特征输入到全连接模组中,全连接模组将多尺度特征分类
根据PCANetV2模型和所述训练图像集进行模型训练,以生成PCANetV2图像分类模型;
将所述测试图像集中的图像输入至经过训练的PCANetV2图像分类模型中进行分类。
2.根据权利要求1所述的基于端到端的PCANetV2模型图像分类方法,其特征在于,所述残差模组模型包括:
第一残差块组、第二残差块组,第三残差块组,所述第一残差块组、所述第二残差块组和所述第三残差块组均包含两个残差块,每个残差块包含取块操作、生成矩阵操作、生成卷积核操作、卷积操作,卷积操作后还包括批量归一化层(Batch Normalization,BN)、激活函数层(ReLU)以及注意力机制层(Squeeze-and-Excitation,SE)。且所述第一残差块组、所述第二残差块组和所述第三残差块组中,第一残差块输出特征图(Feature Map,FM)尺寸大小是其输入的FMs尺寸的二分之一,其余残差块输出的FMs的尺寸等于其输入的FMs的尺寸。
3.根据权利要求1所述的基于端到端的PCANetV2模型图像分类方法,其特征在于,所述全连接模组型包括:
第一全连接层、第二全连接层、第三全连接层和分类层。其中每个线性层输出的特征向量维度是输入特征向量维度的二分之一,分类层特征向量维度是图像类别个数。
4.根据权利要求2所述的基于端到端的PCANetV2模型图像分类方法,其特征在于,所述残差块,进一步包括:
所述取块操作,块大小(2*2)~(8*8);生成矩阵操作中将取出块的像素点重新进行排序生成向量,并将所有向量排列生成矩阵;生成卷积核操作中对上诉矩阵使用PCA生成特征向量,取前k个特征向量,将每个特征向量重新排列生成k个卷积核,k大小可取2~8,卷积核大小可取(2*2)~(8*8)。
5.根据权利要求3所述的基于端到端的PCANetV2模型图像分类方法,其特征在于,所述PCANetV2模型,进一步包括:
所述残差模组和全连接模组是通过串联的方式,将每个残差模组的FMs经过全局池化(Avgpooling)操作生成特征向量,将不同尺度特征向量拼接,作为全连接模组的输入,将多尺度特征分类。
6.一种基于端到端的PCANetV2模型图像分类***,其特征在于,包括:
图像获取模块,用于获取图像数据,获取PCANetV2模型,其中PCANetV2模型包括残差模组和全连接模组,且所述残差模组的特征输入到全连接模组中,全连接模组将多尺度特征进行拼接并分类;
预处理模块,用于对所述待分类图像进行标准化,以使所述待分割图像的像素均值为0且方差为1,并对处理后的所述图像数据进行预处理,将预处理后的图像数据分为训练图像集和测试图像集;
训练模型模块,用于根据所述PCANetV2模型和所述训练图像集进行模型训练,以生成PCANetV2图像分类模型;
分类模块,用于将所述测试图像集中的图像输入至经过训练的PCANetV2图像模型中得到分类结果。
7.根据权力要求6所述的基于端到端的PCANetV2模型图像分类***,其特征在于,所述残差模组包括第一残差块组、第二残差块组,第三残差块组,所述第一残差块组、所述第二残差块组和所述第三残差块组均包含两个残差块,每个残差块包含取块操作、生成矩阵操作、生成卷积核操作、卷积操作,卷积操作后还包括批量归一化层(Batch Normalization,BN)、激活函数层(ReLU)以及注意力机制层(Squeeze-and-Excitation,SE)。且所述第一残差块组、所述第二残差块组和所述第三残差块组中,第一残差块输出特征图(Feature Map,FM)尺寸大小是其输入的FMs尺寸的二分之一,其余残差块输出的FMs的尺寸等于其输入的FMs的尺寸。
8.根据权利要求6所述的基于端到端的PCANetV2模型图像分类***,其特征在于,所述全连接模组型包括第一全连接层、第二全连接层、第三全连接层和分类层。其中每个线性层输出的特征向量维度是输入特征向量维度的二分之一,分类层特征向量维度是图像类别个数。
9.根据权利要求7所述的基于端到端的PCANetV2模型图像分类***,其特征在于,所述残差块,进一步包括所述取块操作,块大小(2~8),生成矩阵操作,将取出块的像素点重新进行排序生成向量,并将所有向量排列生成矩阵、生成卷积核操作,对上诉矩阵使用PCA生成特征向量取前k个特征向量,将每个特征向量重新排列生成k个卷积核,k大小(2~8),卷积核大小(2~8)。
10.根据权利要求6所述的基于端到端的PCANetV2模型图像分类***,其特征在于,所述PCANetV2模型,所述残差模组和全连接模组是通过串联的方式,将每个残差模组的FMs经过全局池化(Avgpooling)操作生成特征向量,将不同尺度特征向量拼接,作为全连接模组的输入,将多尺度特征分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111428758.1A CN115170854A (zh) | 2021-11-28 | 2021-11-28 | 基于端到端的PCANetV2的图像分类方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111428758.1A CN115170854A (zh) | 2021-11-28 | 2021-11-28 | 基于端到端的PCANetV2的图像分类方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170854A true CN115170854A (zh) | 2022-10-11 |
Family
ID=83475556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111428758.1A Pending CN115170854A (zh) | 2021-11-28 | 2021-11-28 | 基于端到端的PCANetV2的图像分类方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170854A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880565A (zh) * | 2022-12-06 | 2023-03-31 | 江苏凤火数字科技有限公司 | 一种基于神经网络的报废车辆识别方法和*** |
-
2021
- 2021-11-28 CN CN202111428758.1A patent/CN115170854A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880565A (zh) * | 2022-12-06 | 2023-03-31 | 江苏凤火数字科技有限公司 | 一种基于神经网络的报废车辆识别方法和*** |
CN115880565B (zh) * | 2022-12-06 | 2023-09-05 | 江苏凤火数字科技有限公司 | 一种基于神经网络的报废车辆识别方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022000426A1 (zh) | 基于孪生深度神经网络的动目标分割方法及*** | |
WO2018052586A1 (en) | Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN112132145B (zh) | 一种基于模型扩展卷积神经网络的图像分类方法及*** | |
CN108230330B (zh) | 一种快速的高速公路路面分割和摄像机定位的方法 | |
CN113449784B (zh) | 基于先验属性图谱的图像多分类方法、装置、设备及介质 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Ahmad et al. | 3D capsule networks for object classification from 3D model data | |
CN115410059A (zh) | 基于对比损失的遥感图像部分监督变化检测方法及设备 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、***及设备 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、***、设备及介质 | |
CN115994900A (zh) | 基于迁移学习的无监督缺陷检测方法和***、存储介质 | |
WO2022127333A1 (zh) | 图像分割模型的训练方法、图像分割方法、装置、设备 | |
CN113223037B (zh) | 一种面向大规模数据的无监督语义分割方法及*** | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
CN115170854A (zh) | 基于端到端的PCANetV2的图像分类方法和*** | |
WO2024060839A1 (zh) | 对象操作方法、装置、计算机设备以及计算机存储介质 | |
Luo et al. | Piecewise linear regression-based single image super-resolution via Hadamard transform | |
CN116935122A (zh) | 基于3D-WGMobileNet的图像分类方法及*** | |
CN116682141A (zh) | 基于多尺度递进式感知的多标签行人属性识别方法及介质 | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
Liu et al. | Segmenting geometric reliefs from textured background surfaces | |
Hassan et al. | Salient object detection based on CNN fusion of two types of saliency models | |
Rao et al. | Learning semantic features for classifying very large image datasets using convolution neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |