CN107609638A

CN107609638A - 一种基于线性解码器和插值采样优化卷积神经网络的方法

Info

Publication number: CN107609638A
Application number: CN201710946508.4A
Authority: CN
Inventors: 王改华; 袁国亮; 李涛; 吕朦
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-01-19
Anticipated expiration: 2037-10-12
Also published as: CN107609638B

Abstract

本发明属于图像识别领域，具体涉及一种基于线性解码器和插值采样优化卷积神经网络的方法。本发明构建的卷积神经网络，包括输入层、卷积层、池化层、全连接网络层及输出层，首先利用卷积线性编码器训练获得权值，并以此作为卷积神经网络的初始值，然后将卷积层获得的特征图分别进行多重插值采样池化，经过前向传播和反向调节，最终获得每一层中各个神经元的局部梯度以及每一层卷积层卷积核的权值。通过与现有的方法进行对比实验，实验结果表明：利用本发明方法构建的卷积神经网络对图像进行分类时，具有收敛速度更快，精确度更高的优点。

Description

一种基于线性解码器和插值采样优化卷积神经网络的方法

技术领域

本发明属于图像识别领域，具体涉及一种基于线性解码器和插值采样优化卷积神经网络的方法。图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。它是立体视觉、运动分析、数据融合等实用技术的基础。

背景技术

线性解码器是一种特殊的神经网络，与自编码神经网络类似，它尝试逼近一个恒等函数，从而使得输出它包含3层神经元，分别是输入层，隐含层以及输出层。对于隐层，神经元依然使用S型(或者tanh)激励函数，但对于输出层，输出端使用恒等激励函数作为激励函数。因为S型激励函数的输出范围是[0,1]，当输出层采用激励函数时，就要对输入限制或缩放，使其位于[0,1]范围中，一些数据集，比如MINST,能很方便的将输出缩放到[0,1]中，但是很难满足对输入的要求，不过当使用恒等激励函数时可以很简单的解决上述问题。一个S型或tanh隐含层以及线性输出层构成的自编码器，称为线性解码器。

现代计算机视觉的典型的框架之一卷积神经网络近年来被广泛应用于图像处理领域。从卷积神经网络的提出开始，很多科研工作者对其进行了研究并提出改进措施。卷积神经网络的基本结构由输入层、卷积层、池化层、全连接层及输出层。其中最核心的是与卷积层相关的卷积操作和与池化层相关的池化操作。本发明从卷积神经网络的特点出发，提出了一种改进的神经网络模型，实验结果表示，该方法较传统的卷积网络而言，具有收敛速度更快，精确度更高的优点。

发明内容

本发明针对现有技术的不足，提供一种基于线性解码器和插值采样优化卷积神经网络的方法对卷积神经网络的权值和池化操作进行了改进。

本发明所采用的技术方案是：基于线性解码器初始化卷积神经网络且运用多重插值采样的操作优化卷积神经网络结构，包括以下步骤：

步骤1，构建卷积神经网络，包括输入层、S个卷积层、S个池化层、全连接网络层及输出层，并设定每个卷积层中卷积核的个数和大小；

步骤2，根据构建的卷积神经网络中卷积层的个数，构建包括输入层、卷积核隐层和输出层的S个卷积线性编码器，并随机选取训练样本作为首个卷积线性编码器输入层的输入数据，前一个卷积线性编码器的输出可作为后一个卷积线性编码器的输入，分别训练获取S个卷积线性编码器的权值；其中任意一个卷积线性编码器获得权值的实现方式如下，

(1)对于一个单通道的单输入图片x，其对应的第k个卷积特征图为h^k，其中h^k可表示为，

h^k＝σ1(x*w^k+b^k) (1)

其中σ1为激活函数，*表示的是进行2维卷积操作，w^k是指第k个卷积核，即第k个权值，b^k为偏置；

(2)对于任意的输入，通过卷积线性编码器得到重构的输出y，

其中σ2为线性恒等激励函数，w'是对卷积核的进行的翻卷操作，b指的是输入的偏置；

(3)需优化的最小值的损失函数用均方差E来表示，得到输入与输出的误差，并根据该误差调整卷积线性编码器的权值，使得其误差最小，得到对应卷积线性编码器的权值，

其中，n为训练样本个数；x_i表示的是第i个样本输入，y_i表示的是第i个样本输出,E(θ)表示的是输入与输出的误差；

步骤3，以步骤2获得的权值作为步骤1所构建的卷积神经网络中对应卷积层的初始值，分别通过多重插值采样池化实现得到对应的特征图，然后输入图片对构建的卷积神经网络进行前向传播，获得输出，具体实现方式如下，

步骤3.1，将步骤2得到的权值作为卷积神经网络的初始值；

步骤3.2，然后输入图片到构建的卷积神经网络，将S个卷积层的S_i个特征图分别进行多重插值采样池化，S_i表示第i个卷积层对应卷积核的个数，得到对应池化层的特征图，将最后一层的特征图按列拉成列向量特征，作为最后所提取的特征向量；

步骤3.3，将最终的特征向量作为全连接神经网络分类器的输入层输入，之后连接一个全连接网络的隐层，全连接网络的输出层作为全连接网络的标定层；

步骤4，根据步骤3中输出和输入图片对应的标签进行对比，对构建的卷积神经网络进行反向调节，得到优化后的卷积神经网络，实现方式如下，

步骤4.1，根据公式(8)运用梯度下降法计算每一层中各个神经元的局部梯度；

对于卷积操作梯度的计算，由下式得到，

其中，x为输入图片，E(θ)表示的是输入与输出的误差，w^k指第k个卷积核，即第k个权值，δh和δy分别是隐层和输出层的局部梯度，h'^k指的是对第k个特征图对应的局部梯度进行翻卷操作所得的对应值；

步骤4.2，更新每一层卷积层卷积核的权值，

其中，w^k指第k个卷积核，b^k为偏置，η指的是学习速率。

而且，步骤3中多重插值采样的实现方法如下：

f_map^k＝Multiple_interpolation_pooling(h^k) (4)

其中，h^k表示的是卷积层的第k个特征图，Multiple_interpolation_pooling表示多重插值采样函数，f_map^k表示对应采样层的第k个特征图；

其中，多重插值采样函数利用待采样点周围16个点的灰度值作为双三次插值，双三次插值公式如下：

设i+u,j+v为待求像素坐标，i,j为正整数，u,v为大于零小于1的小数，则待求像素灰度的值f(i+u,j+v)为，

f(i+u,j+v)＝ABC (6)

其中A、B、C均为矩阵，形式如下：

A＝[S(1+u)S(u)S(1-u)S(2-u)]

C＝[S(1+v)S(v)S(1-v)S(2-v)]^T

其中，f(i,j)表示源图像(i,j)处像素点的灰度值。

与现有技术相比，本发明的优点和有益效果为：本发明首先利用卷积线性编码器训练获得权值初始值，并以此作为卷积神经网络的初始值，然后将卷积层获得的特征图进行多重插值采样池化，经过前向传播和反向调节，最终获得每一层卷积层卷积核的权值。通过与现有的方法进行对比实验，实验结果表明：利用本发明方法构建的卷积神经网络对图像进行分类时，具有收敛速度更快，精确度更高的优点。

附图说明

图1为本发明实施例卷积线性编码器初始化示意图；

图2为本发明实施例多重插值采优化样卷积神经网络示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

本发明提供的一种基于线性解码器和插值采样优化卷积神经网络的方法进行图像分类，包括以下步骤：

步骤1，构建卷积神经网络，包括输入层、2个卷积层、2个池化层、全连接网络层及输出层，并设定每个卷积层中卷积核的个数和大小；

步骤2，根据构建的卷积神经网络中卷积层的个数，构建包括输入层、卷积核隐层和输出层的2个卷积线性编码器，并随机选取训练样本作为首个卷积线性编码器输入层的输入数据，前一个卷积线性编码器的输出可作为后一个卷积线性编码器的输入，分别训练获取2个卷积线性编码器的权值；

步骤2.1，建立带2个卷积层的前半部分卷积神经网络，作为卷积线性编码器的框架结构；

步骤2.2，选取数张32*32大小的训练样本作为卷积线性编码器输入层的输入数据，卷积核为6个5*5大小的训练权值，然后训练该卷积线性编码器，获得第一层卷积层卷积核的权值；同理，将其输出作为第二个卷积线性编码器的输入，获得第二层卷积层卷积核12个5*5大小的训练权值，如图1所示。下面针对第一个卷积线性编码器详细描述权值的获取过程：

h^k＝σ1(x*w^k+b^k) (1)

其中σ1为激活函数，本发明实施例中取的是Sigmoid函数，*表示的是进行2维卷积操作，w^k是指第k个卷积核，即第k个权值，b^k为偏置；

(2)对于任意的输入，通过卷积线性编码器得到重构的输出y，

其中σ2取的是线性恒等激励函数，w'是对卷积核的进行的翻卷操作，b指的是输入的偏置；

(3)需优化的最小值的损失函数用均方差E来表示：

其中，n为训练样本个数；x_i表示的是第i个样本输入，y_i表示的是第i个样本输出,E(θ)表示的是输入与输出的误差，根据这个误差来调整卷积线性编码器的权值，使得其误差最小。

步骤3，将输入层、卷积层、池化层作为卷积神经网络的前半部分，全连接层及输出层作为卷积神经网络的后半部分，如图2所示，其中卷积层的卷积核初始值通过步骤2获得，池化层通过多重插值采样池化实现得到对应的特征图，然后输入图片对构建的卷积神经网络进行前向传播，前向传播的目的是为了得到输出，该输出和输入图片对应的标签进行对比，最后得到一个误差，根据这个误差来调整权值；

步骤3.1，将得到的6个5*5和12个5*5权值分别赋值给卷积层中的第一层卷积核和第二层卷积核，作为卷积神经网络的初始值；

步骤3.2，将输入图片通过6个5*5的卷积核得到第一个卷积层的6个特征图，分别进行多重插值采样池化，得到6张对应池化层的特征图；再通过12个5*5的卷积核得到第二个卷积层的12个特征图，分别进行多重插值采样池化，得到12张对应池化层的特征图；将最后一层的特征图按列拉成列向量特征，作为最后所提取的特征向量，如图2；

多重插值采样可用如下方法表示：

f_map^k＝Multiple_interpolation_pooling(h^k) (4)

其中，h^k表示的是卷积层的第k个特征图，Multiple_interpolation_pooling表示多重插值采样函数，f_map^k表示对应采样层的第k个特征图。

与最大值采样和均值采样不同的是，该算法利用待采样点周围16个点的灰度值作为双三次插值，不仅考虑到4个直接相邻点的灰度影响，而且考虑到各邻点间灰度值变化率的影响。三次运算可以得到更接近高分辨率图像的放大与缩小效果。这种算法需要选取插值基函数来拟合数据，其最常用的插值基函数为：

双三次插值公式如下：

设i+u,j+v(i,j为正整数，u,v为大于零小于1的小数，下同)为待求像素坐标，则待求像素灰度的值f(i+u,j+v)为，

f(i+u,j+v)＝ABC (6)

其中A、B、C均为矩阵，形式如下：

A＝[S(1+u)S(u)S(1-u)S(2-u)]

C＝[S(1+v) S(v) S(1-v) S(2-v)]^T

其中，f(i,j)表示源图像(i,j)处像素点的灰度值。

步骤4，根据步骤3中输出和输入图片对应的标签进行对比，对构建的卷积神经网络进行反向调节，得到优化后的卷积神经网络；

对于卷积操作梯度的计算，可以由下式得到：

其中，δh^k表示第k个卷积核的局部梯度，δy分表示输出层的局部梯度，h'^k指的是对第k个特征图对应的局部梯度进行翻卷操作所得的对应值。

步骤4.2，更新每一层卷积层卷积核的权值；

最后的权值更新则是通过随机梯度下降法计算而来：

其中，η指的是学习速率，本实施例中取0.5。

为了进一步说明本发明的有益效果，下面以两个数据集上进行了实验：MNIST标准数据集，CIFAR-10数据集，通过其在三个不同卷积网络框架上的测试，跟均值池化和最大值池化进行对比分析其结果。

(1)MNIST标准数据集

该数据集是由Google研究室的Corinna Cortes和纽约大学的Yann LeCun一起制作完成，主要用于图像处理、计算机视觉、机器学习等领域的实验。MINST数据集规格和样本数如表1所示；

表格1 MINST数据集

对于MNIST标准数据集，本实施例中采用典型的CNN网络框架和lenet-5分别采用不同的方法进行了测试，其结果如下：

结果分析：

从上述的实验结果可以看到，在同样的卷积神经网络中，不同的池化操作会带来不同的效果，其中均值池化的分类效果最差，插值池化的效果最好，最大池化居中。Boureau等人提到在分析不同的池化操作所带来的影响时提到针对不同的特性的特征值，最大池化操作和均匀池化操作会表现出不同的性能，实验结果符合其描述。相比较均值池化和最大值池化而言，插值池化的优势在于提高准确率的同时，也加快了整个卷积神经网络的收敛速度。

(2)CIFAR-10数据集

CIFAR-10该数据集由Hinton团队的Krizhevsky等人提供；包括60000张32x32彩色图像，总共10类：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车每类有6000幅图像，其中这60000幅图片中包括50000幅训练图像样本和10000幅测试图像样本，每类图像的形状、颜色、角度等存在很大差异。

对于CIFAR-10数据集，本发明实施例采用典型的CNN网络框架采用不同的方法进行了测试，其结果如下：

结果分析：

与之前相比，当用同样的网络框架来测试不同的数据集时，结果相差较大。但就其池化操作而言，插值池化相对均值池化和最大值池化，还是占据着明显的优势：既能提高网络的分类的准确性，还能增加目标函数的收敛性。

本实施例首先通过一定数量的图片对卷积神经网络进行训练，训练完毕之后再通过一定的测试样本进行测试，根据正确分类的图片比例来确定分类效果的好坏。结果显示，这种卷积神经网络初始化和采样的优化方法所进行的图像分类效果要优于未改进的网络。

应当理解的是，本说明书未阐述的部分内容均属于现有的较为成熟的技术范畴。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于线性解码器和插值采样优化卷积神经网络的方法，其特征在于，包括如下步骤：

步骤2，根据构建的卷积神经网络中卷积层的个数，构建包括输入层、卷积核隐层和输出层的S个卷积线性编码器，并随机选取训练样本作为首个卷积线性编码器输入层的输入数据，前一个卷积线性编码器的输出作为后一个卷积线性编码器的输入，分别训练获取S个卷积线性编码器的权值；其中任意一个卷积线性编码器获得权值的实现方式如下，

h^k＝σ1(x*w^k+b^k) (1)

(2)对于任意的输入，通过卷积线性编码器得到重构的输出y，

<mrow> <mi>&gamma;</mi> <mo>=</mo> <mi>&sigma;</mi> <mn>2</mn> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>&Element;</mo> <mi>h</mi> </mrow> </munder> <msup> <mi>h</mi> <mi>k</mi> </msup> <mo>*</mo> <msup> <mi>w</mi> <mrow> <mo>,</mo> <mi>k</mi> </mrow> </msup> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>n</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

步骤3.1，将步骤2得到的权值作为卷积神经网络的初始值；

对于卷积操作梯度的计算，由下式得到，

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>E</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msup> <mi>W</mi> <mi>k</mi> </msup> </mrow> </mfrac> <mo>=</mo> <mi>x</mi> <mo>*</mo> <msup> <mi>&delta;h</mi> <mi>k</mi> </msup> <mo>+</mo> <msup> <mi>h</mi> <mrow> <mo>,</mo> <mi>k</mi> </mrow> </msup> <mo>*</mo> <mi>&delta;</mi> <mi>y</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

步骤4.2，更新每一层卷积层卷积核的权值，

<mrow> <msup> <mi>w</mi> <mi>k</mi> </msup> <mo>=</mo> <msup> <mi>w</mi> <mi>k</mi> </msup> <mo>-</mo> <mi>&eta;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>E</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msup> <mi>W</mi> <mi>k</mi> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <mi>b</mi> <mi>k</mi> </msup> <mo>=</mo> <msup> <mi>b</mi> <mi>k</mi> </msup> <mo>-</mo> <mi>&eta;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>E</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msup> <mi>b</mi> <mi>k</mi> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中，w^k指第k个卷积核，b^k为偏置，η指的是学习速率。

2.如权利要求1所述的一种基于线性解码器和插值采样优化卷积神经网络的方法，其特征在于：步骤3中多重插值采样的实现方法如下：

f_map^k＝Multiple_interpolation_pooling(h^k) (4)

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <mn>2</mn> <mo>|</mo> <mi>w</mi> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mo>|</mo> <mi>w</mi> <msup> <mo>|</mo> <mn>3</mn> </msup> <mo>,</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo><</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>4</mn> <mo>-</mo> <mn>8</mn> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>+</mo> <mn>5</mn> <mo>|</mo> <mi>w</mi> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mo>|</mo> <mi>w</mi> <msup> <mo>|</mo> <mn>3</mn> </msup> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo><</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>&GreaterEqual;</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

f(i+u,j+v)＝ABC (6)

其中A、B、C均为矩阵，形式如下：

其中，f(i,j)表示源图像(i,j)处像素点的灰度值。