CN111401156A

CN111401156A - 基于Gabor卷积神经网络的图像识别方法

Info

Publication number: CN111401156A
Application number: CN202010134463.2A
Authority: CN
Inventors: 达飞鹏; 庄磊
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-07-10
Anticipated expiration: 2040-03-02
Also published as: CN111401156B

Abstract

本发明公开了一种基于Gabor卷积神经网络的图像识别方法，处理步骤为：(1)选取不同参数的Gabor小波构造Gabor特征提取模块；(2)通过权值共享的卷积层搭建并行卷积模块；(3)通过element‑wise取最大值操作设计空间变换池化模块；(4)根据Gabor特征提取模块、并行卷积模块、空间变换池化模块构建Gabor卷积层；(5)选取搭建Gabor卷积神经网络的基准网络，确定Gabor卷积层替换基准网络中普通卷积层的方案；(6)利用带动量的SGD算法训练Gabor卷积神经网络并进行图像识别。本发明提出的识别方法算法复杂度低，同时对于空间变换具有较高的鲁棒性，识别准确率和速度都有一定的提高。

Description

基于Gabor卷积神经网络的图像识别方法

技术领域

本发明属于图像识别技术领域，具体涉及一种基于Gabor卷积神经网络的图像识别方法，尤其涉及一种结合Gabor传统图像处理领域知识和深度学习参数学习的图像识别方法，尤其适用于较大旋转、尺度变换等空间变换的场合。

背景技术

图像识别技术是人工智能的一个重要领域，准确可靠地图像识别受到越来越多的重视，识别技术主要包括光学字符识别、人脸识别、车辆识别、生物医学图像识别等，在公安刑侦、自然资源分析、天气预报、环境监测、生理病变研究等许多领域有重要的应用价值。传统模式识别方法Gabor小波已被广泛应用于图像处理领域；近年来，卷积神经网络极大地推动了字符识别、人脸识别等计算机视觉领域图像识别技术的发展。因此，研究Gabor小波与卷积神经网络相结合的图像识别是一项既有极大的社会应用价值又有理论创新的工作。

深度卷积神经网络可以通过网络学习提取具有表现力的特征，然而，由于经典卷积神经网络缺乏特定用于处理旋转和尺度变换的模块，因此难以通过网络学习到对空间变换鲁棒性高的特征，限制了其在存在角度旋转和尺度变化等实际场景中的应用。在此前提高网络鲁棒性的方法计算代价高，往往使用较少的方向信息来构建浅层网络，存在难以提取具有表现力的深度特征、提取的特征对旋转不够鲁棒、难以构建高效的深度网络等问题。

发明内容

技术问题：为了克服现有技术中存在的不足，本发明提供一种基于Gabor卷积神经网络 (基于Gabor卷积层构造的神经网络)的图像识别方法，该方法在不提高网络运算复杂度的同时，充分提取图像的深度特征，具有更高的识别精度以及对空间变换的鲁棒性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于Gabor卷积神经网络的图像识别方法，所述Gabor卷积神经网络是将卷积神经网络CNN中的至少一层卷积层替换为Gabor卷积层后得到的神经网络，所述Gabor卷积层由依次连接的Gabor特征提取模块、并行卷积模块、空间变换池化模块构成；所述Gabor特征提取模块由M个方向、尺度参数不同的Gabor小波提取模块构成，所述并行卷积模块由M个权值共享的卷积层构成，所述空间变换池化模块对所述并行卷积模块的输出进行element-wise 取最大值；

该图像识别方法包括以下步骤：

步骤1：对样本集中的样本图像进行预处理，所述预处理包括图像灰度化和图像空间变换；

步骤2：通过步骤1中预处理后的样本集对Gabor卷积神经网络进行训练，其中利用带动量的SGD算法最小化Gabor卷积神经网络的代价函数：

其中：J(θ)为代价函数；θ为Gabor卷积神经网络的参数；m为样本数目；x⁽ⁱ⁾表示第i个样本；h_θ(x⁽ⁱ⁾)表示第i个样本的预测类别标签；y⁽ⁱ⁾为第i个样本的类别标签；

步骤3：对待识别的图像进行如步骤1所述的预处理后，输入步骤2中训练好的Gabor 卷积神经网络中，得到待识别的图像的识别结果。

进一步的，选取方向相同、尺度不同的Gabor小波构建对尺度变换鲁棒的Gabor卷积层，或选取方向不同、尺度相同的Gabor小波构建对旋转变换鲁棒的Gabor卷积层，或选取方向不同、尺度不同的Gabor小波构建对空间变换鲁棒的Gabor卷积层。

进一步的，所述步骤3中采取交叉验证的方法选取最佳Gabor卷积神经网络，具体为：将样本集随机划分为k份，k-1份作为训练集，1份作为验证集，依次轮换训练集和验证集k 次分别对Gabor卷积神经网络进行训练及验证，选取验证误差最小的训练好的Gabor卷积神经网络型为最佳Gabor卷积神经网络并保存。

有益效果：与现有技术相比，本发明具有如下有益效果：

本发明提供的基于Gabor卷积神经网络的图像识别方法，通过设计Gabor特征提取模块、并行卷积模块和空间变换池化模块构建Gabor卷积层，Gabor卷积层相比普通卷积层，首先通过不同参数、不同特性的Gabor小波提取图像多方向多尺度的浅层特征，进而通过并行卷积模块学习图像深层特征，最后通过空间变化池化操作获得对空间变换鲁棒的特征。在基准卷积神经网络基础上采用Gabor卷积层替换普通卷积层，构建Gabor卷积神经网络提取图像鲁棒特征。与其他基于神经网络的图像识别技术相比，本发明具有如下优点：

1)本发明利用了浅层特征和深层特征间的互补性，有效提高了算法的精度和鲁棒性；

2)引入Gabor小波的传统图像处理经验信息，有效提取图像的浅层特征，为后续网络高效学习奠定了基础，提高了网络的训练效率；

3)利用Gabor小波、并行卷积模块、空间池化模块构建Gabor卷积层，进一步替换相应卷积层，提高网络的特征提取能力；

4)通过Gabor卷积层、池化层、全连接层等构建Gabor卷积神经网络，有效提高了算法对旋转、尺度变换、平移等空间变换的鲁棒性。

附图说明

图1是本发明提供的基于Gabor卷积神经网络的图像识别方法的整体流程图；

图2是选取的参数不同的Gabor小波；其中(a)为尺度为0、方向为0的Gabor小波，(b)为尺度为0、方向为

的Gabor小波，(c)为尺度为2、方向为0的Gabor小波，(d) 为尺度为2、方向为

的Gabor小波；

图3是图像经不同参数Gabor核的处理效果图；其中(a)为人脸图像经过尺度为0、方向为0的Gabor小波处理后的结果，(b)为人脸图像经过尺度为0、方向为

的Gabor小波处理后的结果，(c)为人脸图像经过尺度为2、方向为0的Gabor小波处理后的结果，(d) 为人脸图像经过尺度为2、方向为

的Gabor小波处理后的结果；

图4是构造的Gabor卷积层结构图；

图5是搭建的Gabor卷积神经网络图，其中(a)为基准四层卷积神经网络结构，(b)为 Gabor卷积神经网络结构；

图6是MNIST字符集处理效果图，其中(a)为MNIST数据集原图，(b)为Gabor卷积神经网络处理效果(c)为普通卷积神经网络处理效果。

具体实施方式

本发明一种基于Gabor卷积神经网络的图像识别方法，通过训练完成的Gabor卷积神经网络进行图像识别。其中，所述Gabor卷积神经网络是将卷积神经网络CNN中的至少一层卷积层替换为Gabor卷积层后得到的神经网络。

所述Gabor卷积层由依次连接的Gabor特征提取模块、并行卷积模块、空间变换池化模块构成；所述Gabor特征提取模块由M个方向、尺度参数不同的Gabor小波提取模块构成，所述并行卷积模块由M个权值共享的卷积层构，所述空间变换池化模块对所述并行卷积模块的输出进行element-wise取最大值。

该图像识别方法包括以下步骤：

下面通过具体实施例对本发明的技术方案作进一步阐述：

第一步，Gabor卷积层构造阶段，包括：

步骤1：选取不同参数的Gabor小波构造Gabor特征提取模块，通过选取M个方向、尺度参数不同的Gabor小波可以提取图像不同方向、不同尺度的Gabor特征，具体为：

M＝U×V

其中：U为Gabor小波的方向数目；V为Gabor小波的尺度数目；

步骤2：通过M个权值共享的卷积层搭建并行卷积模块，进一步对Gabor特征提取模块提取的浅层特征进行学习；

步骤3：通过对所述并行卷积模块的输出进行element-wise取最大值操作设计空间变换池化模块，降低特征维度；

步骤4：将步骤1-3设计的Gabor特征提取模块、并行卷积模块、空间变换池化模块依次连接，根据不同的识别任务对空间变换的鲁棒性要求，构建相应的Gabor卷积层。

第二步，Gabor卷积神经网络搭建阶段，包括：

步骤5：根据识别任务的难易程度，相应选取搭建Gabor卷积神经网络的基准网络；

步骤6：确定Gabor卷积层替换基准网络中普通卷积层的方案；

第三步，离线训练阶段，包括：

步骤7：对二维图像进行预处理，包括图像灰度化和图像空间变换；

步骤8：对样本集中所有样本经过步骤7处理之后，通过步骤5-6搭建的Gabor卷积神经网络，提取图像的深度特征，利用全连接层提取得到特征向量；

步骤9：利用带动量的SGD算法最小化代价函数训练Gabor卷积神经网络，具体为：

其中：J(θ)为代价函数；θ为Gabor卷积神经网络的参数；m为样本数目；x⁽ⁱ⁾表示第i个样本；h_θ(x⁽ⁱ⁾)表示第i个样本的预测类别标签；y⁽ⁱ⁾为第i个样本的类别标签。

第四步，在线测试阶段：

步骤10：对测试集中所有样本经过步骤7处理之后，输入到离线训练阶段训练好的模型中，得到待测试图像的类别；

进一步的，所述步骤1具体包括以下步骤：

步骤1.1：选取M个不同参数的Gabor小波构建Gabor特征提取模块，具体为：

G＝{g_μ,_ν(z):μ∈{0,1,...,U-1},ν∈{0,1,...,V-1}}

其中：z＝(x,y)为空间位置坐标；参数σ＝2π；||·||表示范数操作符；

k_max为最大频率，

μ和ν分别表示Gabor核的方向和尺度，μ∈{0,1,...,U-1},ν∈{0,1,...,V-1}， G为所选用的不同参数的Gabor核；U，V分别是Gabor核的方向、尺度数目；

步骤1.2：利用Gabor特征提取模块提取图像或特征映射的不同方向、不同尺度的Gabor 特征F_gab，具体为：

O_μ,ν(z)＝I(z)*g_μ,ν(z)

其中：I(z)为图像或特征映射；O_μ,ν(z)为图像与Gabor核在μ方向、ν尺度的卷积结果； *表示卷积；G为所选用的M个不同参数的Gabor核；

表示输入特征图Fin的第j个通道；

表示经过Gabor核卷积后特征图F_gab的第j个通道；Gabor特征提取模块的输出F_gab可以看成输入特征图F_in的M个Gabor特征。

进一步的，所述步骤2具体包括以下步骤：

步骤2.1：选取权值共享的M个卷积层来构建并行卷积模块，以此保证每一个Gabor特征可以进一步学习得到更有表现力的深层特征；

步骤2.2：采用权值共享的并行卷积模块对提取的Gabor特征进行进一步的学习，得到图像深度特征F_co_nv，具体为：

其中：

表示第j个Gabor特征；C表示可学习的卷积核(M个卷积层共享权值)；

为第j个卷积层的输出特征图；

步骤2.3：并行卷积模块的输出即为M个卷积层的输出，具体为：

其中：F_conv表示卷积模块的输出特征图。

进一步的，所述步骤3具体包括以下步骤：

步骤3.1：通过element-wise取最大值进行空间变换池化操作，构造空间变换池化模块；

步骤3.2：将并行卷积模块的输出特征输入到空间变换池化模块，融合得到鲁棒特征F_out，具体为：

F_out＝max(F_conv)

其中：F_out表示空间变换池化模块的输出特征图，即整个Gabor卷积层的输出特征图。

进一步的，所述步骤4具体包括以下步骤：

步骤4.1：根据不同的识别任务对空间变换的鲁棒性要求，选取不同参数的Gabor小波构造Gabor特征提取模块；

步骤4.2：将Gabor特征提取模块、并行卷积模块、空间变换池化模块依次连接，构建相应的Gabor卷积层，即选取方向相同、尺度不同的Gabor小波构建对尺度变换鲁棒的Gabor 卷积层，选取方向不同、尺度相同的Gabor小波构建对旋转变换鲁棒的Gabor卷积层，选取方向不同、尺度不同的Gabor小波构建对空间变换鲁棒的Gabor卷积层。

进一步的，所述步骤5具体包括以下步骤：

步骤5.1：根据识别任务的难易程度，选取搭建Gabor卷积神经网络的基准网络结构，对于简单识别任务选取AlexNet网络结构，对于较为复杂识别任务选择ResNet网络结构，对于人脸识别任务选择LightCNN网络结构；

步骤5.2：在基准网络结构的基础上作相应调整，调整卷积层、池化层、全连接层数目，调整卷积核大小。

进一步的，所述步骤6具体包括以下步骤：

步骤6.1：确定Gabor卷积层的替换方案，即仅替换网络第一层卷积层、替换前两层卷积层以及替换网络的所有卷积层；

步骤6.2：调整Gabor卷积层的卷积核数目，减少网络模型参数量以提高后续网络训练效率。

进一步的，所述步骤7具体包括以下步骤：

步骤7.1：进行图像灰度化消除冗余信息，将彩色图像转化为灰度图像，具体为：

Gray＝0.299*R+0.578*G+0.114*B

其中：R为图像红色通道分量；G为图像绿色通道分量；B为图像蓝色通道分量；Gray为图像灰度图像；

步骤7.2：对灰度图像进行空间变换，包括图像平移、旋转和尺度变化，具体为：

其中：(x,y,1)表示图像平移前的矩阵；(x',y',1)表示图像平移后的矩阵；d_x和d_y分别为图像在x轴和y轴上的平移像素量；

其中：(x,y,1)表示图像尺度变换前的矩阵；(x”,y”,1)表示图像尺度变换后的矩阵；s_x和s_y分别为图像在x轴和y轴上的尺度变换因子；

其中：(x,y,1)表示图像旋转前的矩阵；(x”',y”',1)表示图像旋转后的矩阵；

为旋转角度。

进一步的，所述步骤8的具体方法为：将训练集中所有样本经过步骤7预处理之后，输入到由Gabor卷积层、普通卷积层、池化层、BN层、非线性层、全连接层等搭建的Gabor 卷积神经网络中进行训练。

进一步的，所述步骤9具体包括以下步骤：

步骤9.1：选取带动量的SGD优化算法对所设计网络结构进行迭代，训练过程中逐步调整学习率；

步骤9.2：采取交叉验证选取最佳模型，具体为：将样本集随机划分为k份，k-1份作为训练集，1份作为验证集，依次轮换训练集和验证集k次，选取验证误差最小的模型为最佳模型并保存。

进一步的，所述步骤10具体包括以下步骤：

步骤10.1：对测试集中样本经步骤7进行图像灰度处理和随机空间变换；

步骤10.2：将处理后的测试集图片输入到离线训练阶段训练好的模型中，得到待测试图像的类别。

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围，而是仅仅表示本发明的选定实施例。

实施例1：

本发明的实验平台为Intel(R)Core(TM)i7-8700K处理器，16GB内存，显卡为NVIDIA GeForce GTX1080Ti，深度学习框架为Pytorch。实验数据来自美国国家标准与技术研究所的 MNIST数据集，训练集包含了60000张采集自250个不同人手写的数字，其中50％来自高中学生，50％来自人口普查局的工作人员。测试集也是同样比例的手写数字数据。

实验在MNIST数据集中随机选取50000个样本为训练集，剩余的10000个样本为验证集，取5次在测试集上实验结果的平均值作为最终结果。选取尺度相同、方向不同的Gabor核构造相应Gabor卷积层。Gabor核方向数目不同时对应的识别率也略有差别，Rank-1识别率如表1所示，具体为：

表1在MNIST数据集上的Rank-1识别率表

方向数目	n＝4	n＝8	n＝12	n＝16
					识别率	99.43	99.51	99.50	99.45

本实施提供了一种基于Gabor卷积神经网络的图像识别方法，其流程如图1所示，具体包括如下步骤：

第一步，Gabor卷积层构造阶段，包括：

步骤1：选取M个不同参数的Gabor小波构建Gabor特征提取模块，分别选取含有4个、 8个、12个、16个方向的Gabor小波构建Gabor特征提取模块G，具体为：

G＝{g_μ,ν(z):μ∈{0,1,...,U-1},ν∈{0,1,...,V-1}}

k_max为最大频率，

μ和ν分别表示Gabor核的方向和尺度，μ∈{0,1,...,U-1},ν∈{0,1,...,V-1}，G为所选用的不同参数的Gabor核；U和V分别是Gabor核的方向、尺度数目；U∈{4,8,12,16}， V＝1，M＝U×V。

步骤2：通过M个权值共享的卷积层搭建并行卷积模块，以保证每一个Gabor特征可以进一步学习得到更有表现力的深层特征。

步骤3：通过element-wise取最小值操作设计空间变换池化模块，降低特征维度。

步骤4：将步骤1-3设计的Gabor特征提取模块、并行卷积模块、空间变换池化模块依次连接，构建相应的Gabor卷积层，具体步骤如下：

步骤4.1：将Gabor特征提取模块、并行卷积模块、空间变换池化模块依次连接，构建对旋转变换鲁棒的Gabor卷积层。

步骤4.2：Gabor卷积层中的Gabor特征提取模块利用Gabor小波的特性提取图像或特征映射的不同方向的Gabor特征F_gab，具体为：

O_μ,ν(z)＝I(z)*g_μ,ν(z)

表示输入特征图F_in的第j个通道；

表示经过Gabor核卷积后特征图F_gab的第j个通道；Gabor特征提取模块的输出F_gab可以看成输入特征图F_in的M个Gabor特征。图2为不同方向、不同尺度的Gabor小波；图3为不同参数的Gabor小波处理的效果图。

步骤4.3：Gabor卷积层中的权值共享的并行卷积模块对提取的Gabor特征进行进一步的学习，得到图像深度特征F_conv，具体为：

其中：

为第j个卷积层的输出特征图；

并行卷积模块的输出即为M个卷积层的输出，具体为：

其中：F_conv表示并行卷积模块的输出特征图。

步骤4.4：Gabor卷积层中空间变换池化模块将并行卷积模块的输出融合得到鲁棒特征 F_out，具体为：

F_out＝max(F_conv)

其中：F_out表示空间变换池化模块的输出特征图，即整个Gabor卷积层的输出特征图。至此，Gabor卷积层构造完毕，Gabor卷积层的结构见图4所示。

第二步，Gabor卷积神经网络搭建阶段，包括：

步骤5：根据识别任务的难易程度，相应选取搭建Gabor卷积神经网络的基准网络，具体为：

步骤5.1：根据识别任务的难易程度，选取搭建Gabor卷积神经网络的基准网络结构，对于简单识别任务选取AlexNet网络结构，对于较为复杂识别任务选择ResNet网络结构，对于人脸识别任务选择LightCNN网络结构。这里选择AlexNet网络结构。

步骤5.2：在基准网络结构的基础上作相应调整，调整卷积层、池化层、全连接层数目，调整卷积核大小，基准四层卷积神经网络的结构见图5中的(a)所示。

步骤6：确定Gabor卷积层替换基准网络中普通卷积层的方案；

步骤6.1：确定Gabor卷积层的位置，即仅替换第一层卷积层、替换前两层卷积层以及替换网络的所有卷积层，这里考虑到Gabor小波与哺乳动物视觉感受细胞相似以及与神经网络第一层卷积层相似，只替换网络的第一层卷积层。

步骤6.2：调整Gabor卷积层的卷积核数目，减少网络模型参数量以提高后续网络训练效率，所搭建的Gabor卷积神经网络的结构见图5中的(b)所示。

第三步，离线训练阶段，包括：

步骤7：对二维图像进行预处理，包括图像灰度化和图像空间变换，具体为：

Gray＝0.299*R+0.578*G+0.114*B

为旋转角度。

步骤8：对训练集中所有样本经过步骤7处理之后，通过步骤5-6搭建的由Gabor卷积层、普通卷积层、池化层、BN层、非线性层等搭建的Gabor卷积神经网络，提取图像的深度特征，利用全连接层提取得到特征向量。

步骤9.1：选取带动量的SGD优化算法对所设计网络结构进行迭代，batchsize设置为128，全连接层的dropout比率设置为0.5，权重衰减设置为0.00005，初始学习率设置为0.001，训练过程中逐步调整学习率，每25次迭代降低学习率为之前的十分之一。损失函数采用交叉熵，具体定义为：

步骤9.2：采取交叉验证选取最佳模型，具体为：将样本集随机划分为5份，4份作为训练集，1份作为验证集，依次轮换训练集和验证集5次，选取验证误差最小的模型为最佳模型并保存。

第四步，在线测试阶段：

在本实施例中，在美国国家标准与技术研究所的MNIST数据集上，本实施例提出的一种基于Gabor卷积神经网络的图像识别方法，在使用Gabor小波充分提取图像浅层特征的同时，利用卷积神经网络进一步提取图像深层鲁棒特征，有效结合了浅层特征和深层特征，提高了神经网络对图像空间变换的鲁棒性，兼顾了算法的准确性、快速性和鲁棒性，从而可以满足一些领域的应用需求。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于Gabor卷积神经网络的图像识别方法，其特征在于：所述Gabor卷积神经网络是将卷积神经网络CNN中的至少一层卷积层替换为Gabor卷积层后得到的神经网络，所述Gabor卷积层由依次连接的Gabor特征提取模块、并行卷积模块、空间变换池化模块构成；所述Gabor特征提取模块由M个方向、尺度参数不同的Gabor小波提取模块构成，所述并行卷积模块由M个权值共享的卷积层构成，所述空间变换池化模块对所述并行卷积模块的输出进行element-wise取最大值；

该图像识别方法包括以下步骤：

步骤3：对待识别的图像进行如步骤1所述的预处理后，输入步骤2中训练好的Gabor卷积神经网络中，得到待识别的图像的识别结果。

2.根据权利要求1所述的基于Gabor卷积神经网络的图像识别方法，其特征在于，选取方向相同、尺度不同的Gabor小波构建对尺度变换鲁棒的Gabor卷积层，或选取方向不同、尺度相同的Gabor小波构建对旋转变换鲁棒的Gabor卷积层，或选取方向不同、尺度不同的Gabor小波构建对空间变换鲁棒的Gabor卷积层。

3.根据权利要求1所述的基于Gabor卷积神经网络的图像识别方法，其特征在于，所述步骤3中采取交叉验证的方法选取最佳Gabor卷积神经网络，具体为：将样本集随机划分为k份，k-1份作为训练集，1份作为验证集，依次轮换训练集和验证集k次分别对Gabor卷积神经网络进行训练及验证，选取验证误差最小的训练好的Gabor卷积神经网络型为最佳Gabor卷积神经网络并保存。