CN107609638A - 一种基于线性解码器和插值采样优化卷积神经网络的方法 - Google Patents
一种基于线性解码器和插值采样优化卷积神经网络的方法 Download PDFInfo
- Publication number
- CN107609638A CN107609638A CN201710946508.4A CN201710946508A CN107609638A CN 107609638 A CN107609638 A CN 107609638A CN 201710946508 A CN201710946508 A CN 201710946508A CN 107609638 A CN107609638 A CN 107609638A
- Authority
- CN
- China
- Prior art keywords
- mrow
- mtd
- msup
- layer
- mtr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 45
- 238000005070 sampling Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000005457 optimization Methods 0.000 title claims abstract description 11
- 230000000644 propagated effect Effects 0.000 claims abstract description 6
- 210000002569 neuron Anatomy 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 12
- 230000005284 excitation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 108010074506 Transfer Factor Proteins 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000001537 neural effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001603 reducing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于图像识别领域,具体涉及一种基于线性解码器和插值采样优化卷积神经网络的方法。本发明构建的卷积神经网络,包括输入层、卷积层、池化层、全连接网络层及输出层,首先利用卷积线性编码器训练获得权值,并以此作为卷积神经网络的初始值,然后将卷积层获得的特征图分别进行多重插值采样池化,经过前向传播和反向调节,最终获得每一层中各个神经元的局部梯度以及每一层卷积层卷积核的权值。通过与现有的方法进行对比实验,实验结果表明:利用本发明方法构建的卷积神经网络对图像进行分类时,具有收敛速度更快,精确度更高的优点。
Description
技术领域
本发明属于图像识别领域,具体涉及一种基于线性解码器和插值采样优化卷积神经网络的方法。图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。它是立体视觉、运动分析、数据融合等实用技术的基础。
背景技术
线性解码器是一种特殊的神经网络,与自编码神经网络类似,它尝试逼近一个恒等函数,从而使得输出它包含3层神经元,分别是输入层,隐含层以及输出层。对于隐层,神经元依然使用S型(或者tanh)激励函数,但对于输出层,输出端使用恒等激励函数作为激励函数。因为S型激励函数的输出范围是[0,1],当输出层采用激励函数时,就要对输入限制或缩放,使其位于[0,1]范围中,一些数据集,比如MINST,能很方便的将输出缩放到[0,1]中,但是很难满足对输入的要求,不过当使用恒等激励函数时可以很简单的解决上述问题。一个S型或tanh隐含层以及线性输出层构成的自编码器,称为线性解码器。
现代计算机视觉的典型的框架之一卷积神经网络近年来被广泛应用于图像处理领域。从卷积神经网络的提出开始,很多科研工作者对其进行了研究并提出改进措施。卷积神经网络的基本结构由输入层、卷积层、池化层、全连接层及输出层。其中最核心的是与卷积层相关的卷积操作和与池化层相关的池化操作。本发明从卷积神经网络的特点出发,提出了一种改进的神经网络模型,实验结果表示,该方法较传统的卷积网络而言,具有收敛速度更快,精确度更高的优点。
发明内容
本发明针对现有技术的不足,提供一种基于线性解码器和插值采样优化卷积神经网络的方法对卷积神经网络的权值和池化操作进行了改进。
本发明所采用的技术方案是:基于线性解码器初始化卷积神经网络且运用多重插值采样的操作优化卷积神经网络结构,包括以下步骤:
步骤1,构建卷积神经网络,包括输入层、S个卷积层、S个池化层、全连接网络层及输出层,并设定每个卷积层中卷积核的个数和大小;
步骤2,根据构建的卷积神经网络中卷积层的个数,构建包括输入层、卷积核隐层和输出层的S个卷积线性编码器,并随机选取训练样本作为首个卷积线性编码器输入层的输入数据,前一个卷积线性编码器的输出可作为后一个卷积线性编码器的输入,分别训练获取S个卷积线性编码器的权值;其中任意一个卷积线性编码器获得权值的实现方式如下,
(1)对于一个单通道的单输入图片x,其对应的第k个卷积特征图为hk,其中hk可表示为,
hk=σ1(x*wk+bk) (1)
其中σ1为激活函数,*表示的是进行2维卷积操作,wk是指第k个卷积核,即第k个权值,bk为偏置;
(2)对于任意的输入,通过卷积线性编码器得到重构的输出y,
其中σ2为线性恒等激励函数,w'是对卷积核的进行的翻卷操作,b指的是输入的偏置;
(3)需优化的最小值的损失函数用均方差E来表示,得到输入与输出的误差,并根据该误差调整卷积线性编码器的权值,使得其误差最小,得到对应卷积线性编码器的权值,
其中,n为训练样本个数;xi表示的是第i个样本输入,yi表示的是第i个样本输出,E(θ)表示的是输入与输出的误差;
步骤3,以步骤2获得的权值作为步骤1所构建的卷积神经网络中对应卷积层的初始值,分别通过多重插值采样池化实现得到对应的特征图,然后输入图片对构建的卷积神经网络进行前向传播,获得输出,具体实现方式如下,
步骤3.1,将步骤2得到的权值作为卷积神经网络的初始值;
步骤3.2,然后输入图片到构建的卷积神经网络,将S个卷积层的Si个特征图分别进行多重插值采样池化,Si表示第i个卷积层对应卷积核的个数,得到对应池化层的特征图,将最后一层的特征图按列拉成列向量特征,作为最后所提取的特征向量;
步骤3.3,将最终的特征向量作为全连接神经网络分类器的输入层输入,之后连接一个全连接网络的隐层,全连接网络的输出层作为全连接网络的标定层;
步骤4,根据步骤3中输出和输入图片对应的标签进行对比,对构建的卷积神经网络进行反向调节,得到优化后的卷积神经网络,实现方式如下,
步骤4.1,根据公式(8)运用梯度下降法计算每一层中各个神经元的局部梯度;
对于卷积操作梯度的计算,由下式得到,
其中,x为输入图片,E(θ)表示的是输入与输出的误差,wk指第k个卷积核,即第k个权值,δh和δy分别是隐层和输出层的局部梯度,h'k指的是对第k个特征图对应的局部梯度进行翻卷操作所得的对应值;
步骤4.2,更新每一层卷积层卷积核的权值,
其中,wk指第k个卷积核,bk为偏置,η指的是学习速率。
而且,步骤3中多重插值采样的实现方法如下:
f_mapk=Multiple_interpolation_pooling(hk) (4)
其中,hk表示的是卷积层的第k个特征图,Multiple_interpolation_pooling表示多重插值采样函数,f_mapk表示对应采样层的第k个特征图;
其中,多重插值采样函数利用待采样点周围16个点的灰度值作为双三次插值,双三次插值公式如下:
设i+u,j+v为待求像素坐标,i,j为正整数,u,v为大于零小于1的小数,则待求像素灰度的值f(i+u,j+v)为,
f(i+u,j+v)=ABC (6)
其中A、B、C均为矩阵,形式如下:
A=[S(1+u)S(u)S(1-u)S(2-u)]
C=[S(1+v)S(v)S(1-v)S(2-v)]T
其中,f(i,j)表示源图像(i,j)处像素点的灰度值。
与现有技术相比,本发明的优点和有益效果为:本发明首先利用卷积线性编码器训练获得权值初始值,并以此作为卷积神经网络的初始值,然后将卷积层获得的特征图进行多重插值采样池化,经过前向传播和反向调节,最终获得每一层卷积层卷积核的权值。通过与现有的方法进行对比实验,实验结果表明:利用本发明方法构建的卷积神经网络对图像进行分类时,具有收敛速度更快,精确度更高的优点。
附图说明
图1为本发明实施例卷积线性编码器初始化示意图;
图2为本发明实施例多重插值采优化样卷积神经网络示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
本发明提供的一种基于线性解码器和插值采样优化卷积神经网络的方法进行图像分类,包括以下步骤:
步骤1,构建卷积神经网络,包括输入层、2个卷积层、2个池化层、全连接网络层及输出层,并设定每个卷积层中卷积核的个数和大小;
步骤2,根据构建的卷积神经网络中卷积层的个数,构建包括输入层、卷积核隐层和输出层的2个卷积线性编码器,并随机选取训练样本作为首个卷积线性编码器输入层的输入数据,前一个卷积线性编码器的输出可作为后一个卷积线性编码器的输入,分别训练获取2个卷积线性编码器的权值;
步骤2.1,建立带2个卷积层的前半部分卷积神经网络,作为卷积线性编码器的框架结构;
步骤2.2,选取数张32*32大小的训练样本作为卷积线性编码器输入层的输入数据,卷积核为6个5*5大小的训练权值,然后训练该卷积线性编码器,获得第一层卷积层卷积核的权值;同理,将其输出作为第二个卷积线性编码器的输入,获得第二层卷积层卷积核12个5*5大小的训练权值,如图1所示。下面针对第一个卷积线性编码器详细描述权值的获取过程:
(1)对于一个单通道的单输入图片x,其对应的第k个卷积特征图为hk,其中hk可表示为,
hk=σ1(x*wk+bk) (1)
其中σ1为激活函数,本发明实施例中取的是Sigmoid函数,*表示的是进行2维卷积操作,wk是指第k个卷积核,即第k个权值,bk为偏置;
(2)对于任意的输入,通过卷积线性编码器得到重构的输出y,
其中σ2取的是线性恒等激励函数,w'是对卷积核的进行的翻卷操作,b指的是输入的偏置;
(3)需优化的最小值的损失函数用均方差E来表示:
其中,n为训练样本个数;xi表示的是第i个样本输入,yi表示的是第i个样本输出,E(θ)表示的是输入与输出的误差,根据这个误差来调整卷积线性编码器的权值,使得其误差最小。
步骤3,将输入层、卷积层、池化层作为卷积神经网络的前半部分,全连接层及输出层作为卷积神经网络的后半部分,如图2所示,其中卷积层的卷积核初始值通过步骤2获得,池化层通过多重插值采样池化实现得到对应的特征图,然后输入图片对构建的卷积神经网络进行前向传播,前向传播的目的是为了得到输出,该输出和输入图片对应的标签进行对比,最后得到一个误差,根据这个误差来调整权值;
步骤3.1,将得到的6个5*5和12个5*5权值分别赋值给卷积层中的第一层卷积核和第二层卷积核,作为卷积神经网络的初始值;
步骤3.2,将输入图片通过6个5*5的卷积核得到第一个卷积层的6个特征图,分别进行多重插值采样池化,得到6张对应池化层的特征图;再通过12个5*5的卷积核得到第二个卷积层的12个特征图,分别进行多重插值采样池化,得到12张对应池化层的特征图;将最后一层的特征图按列拉成列向量特征,作为最后所提取的特征向量,如图2;
多重插值采样可用如下方法表示:
f_mapk=Multiple_interpolation_pooling(hk) (4)
其中,hk表示的是卷积层的第k个特征图,Multiple_interpolation_pooling表示多重插值采样函数,f_mapk表示对应采样层的第k个特征图。
与最大值采样和均值采样不同的是,该算法利用待采样点周围16个点的灰度值作为双三次插值,不仅考虑到4个直接相邻点的灰度影响,而且考虑到各邻点间灰度值变化率的影响。三次运算可以得到更接近高分辨率图像的放大与缩小效果。这种算法需要选取插值基函数来拟合数据,其最常用的插值基函数为:
双三次插值公式如下:
设i+u,j+v(i,j为正整数,u,v为大于零小于1的小数,下同)为待求像素坐标,则待求像素灰度的值f(i+u,j+v)为,
f(i+u,j+v)=ABC (6)
其中A、B、C均为矩阵,形式如下:
A=[S(1+u)S(u)S(1-u)S(2-u)]
C=[S(1+v) S(v) S(1-v) S(2-v)]T
其中,f(i,j)表示源图像(i,j)处像素点的灰度值。
步骤3.3,将最终的特征向量作为全连接神经网络分类器的输入层输入,之后连接一个全连接网络的隐层,全连接网络的输出层作为全连接网络的标定层;
步骤4,根据步骤3中输出和输入图片对应的标签进行对比,对构建的卷积神经网络进行反向调节,得到优化后的卷积神经网络;
步骤4.1,根据公式(8)运用梯度下降法计算每一层中各个神经元的局部梯度;
对于卷积操作梯度的计算,可以由下式得到:
其中,δhk表示第k个卷积核的局部梯度,δy分表示输出层的局部梯度,h'k指的是对第k个特征图对应的局部梯度进行翻卷操作所得的对应值。
步骤4.2,更新每一层卷积层卷积核的权值;
最后的权值更新则是通过随机梯度下降法计算而来:
其中,η指的是学习速率,本实施例中取0.5。
为了进一步说明本发明的有益效果,下面以两个数据集上进行了实验:MNIST标准数据集,CIFAR-10数据集,通过其在三个不同卷积网络框架上的测试,跟均值池化和最大值池化进行对比分析其结果。
(1)MNIST标准数据集
该数据集是由Google研究室的Corinna Cortes和纽约大学的Yann LeCun一起制作完成,主要用于图像处理、计算机视觉、机器学习等领域的实验。MINST数据集规格和样本数如表1所示;
表格1 MINST数据集
对于MNIST标准数据集,本实施例中采用典型的CNN网络框架和lenet-5分别采用不同的方法进行了测试,其结果如下:
结果分析:
从上述的实验结果可以看到,在同样的卷积神经网络中,不同的池化操作会带来不同的效果,其中均值池化的分类效果最差,插值池化的效果最好,最大池化居中。Boureau等人提到在分析不同的池化操作所带来的影响时提到针对不同的特性的特征值,最大池化操作和均匀池化操作会表现出不同的性能,实验结果符合其描述。相比较均值池化和最大值池化而言,插值池化的优势在于提高准确率的同时,也加快了整个卷积神经网络的收敛速度。
(2)CIFAR-10数据集
CIFAR-10该数据集由Hinton团队的Krizhevsky等人提供;包括60000张32x32彩色图像,总共10类:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车每类有6000幅图像,其中这60000幅图片中包括50000幅训练图像样本和10000幅测试图像样本,每类图像的形状、颜色、角度等存在很大差异。
对于CIFAR-10数据集,本发明实施例采用典型的CNN网络框架采用不同的方法进行了测试,其结果如下:
结果分析:
与之前相比,当用同样的网络框架来测试不同的数据集时,结果相差较大。但就其池化操作而言,插值池化相对均值池化和最大值池化,还是占据着明显的优势:既能提高网络的分类的准确性,还能增加目标函数的收敛性。
本实施例首先通过一定数量的图片对卷积神经网络进行训练,训练完毕之后再通过一定的测试样本进行测试,根据正确分类的图片比例来确定分类效果的好坏。结果显示,这种卷积神经网络初始化和采样的优化方法所进行的图像分类效果要优于未改进的网络。
应当理解的是,本说明书未阐述的部分内容均属于现有的较为成熟的技术范畴。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (2)
1.一种基于线性解码器和插值采样优化卷积神经网络的方法,其特征在于,包括如下步骤:
步骤1,构建卷积神经网络,包括输入层、S个卷积层、S个池化层、全连接网络层及输出层,并设定每个卷积层中卷积核的个数和大小;
步骤2,根据构建的卷积神经网络中卷积层的个数,构建包括输入层、卷积核隐层和输出层的S个卷积线性编码器,并随机选取训练样本作为首个卷积线性编码器输入层的输入数据,前一个卷积线性编码器的输出作为后一个卷积线性编码器的输入,分别训练获取S个卷积线性编码器的权值;其中任意一个卷积线性编码器获得权值的实现方式如下,
(1)对于一个单通道的单输入图片x,其对应的第k个卷积特征图为hk,其中hk可表示为,
hk=σ1(x*wk+bk) (1)
其中σ1为激活函数,*表示的是进行2维卷积操作,wk是指第k个卷积核,即第k个权值,bk为偏置;
(2)对于任意的输入,通过卷积线性编码器得到重构的输出y,
<mrow>
<mi>&gamma;</mi>
<mo>=</mo>
<mi>&sigma;</mi>
<mn>2</mn>
<mrow>
<mo>(</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>&Element;</mo>
<mi>h</mi>
</mrow>
</munder>
<msup>
<mi>h</mi>
<mi>k</mi>
</msup>
<mo>*</mo>
<msup>
<mi>w</mi>
<mrow>
<mo>,</mo>
<mi>k</mi>
</mrow>
</msup>
<mo>+</mo>
<mi>b</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中σ2为线性恒等激励函数,w'是对卷积核的进行的翻卷操作,b指的是输入的偏置;
(3)需优化的最小值的损失函数用均方差E来表示,得到输入与输出的误差,并根据该误差调整卷积线性编码器的权值,使得其误差最小,得到对应卷积线性编码器的权值,
<mrow>
<mi>E</mi>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<mi>n</mi>
</mrow>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,n为训练样本个数;xi表示的是第i个样本输入,yi表示的是第i个样本输出,E(θ)表示的是输入与输出的误差;
步骤3,以步骤2获得的权值作为步骤1所构建的卷积神经网络中对应卷积层的初始值,分别通过多重插值采样池化实现得到对应的特征图,然后输入图片对构建的卷积神经网络进行前向传播,获得输出,具体实现方式如下,
步骤3.1,将步骤2得到的权值作为卷积神经网络的初始值;
步骤3.2,然后输入图片到构建的卷积神经网络,将S个卷积层的Si个特征图分别进行多重插值采样池化,Si表示第i个卷积层对应卷积核的个数,得到对应池化层的特征图,将最后一层的特征图按列拉成列向量特征,作为最后所提取的特征向量;
步骤3.3,将最终的特征向量作为全连接神经网络分类器的输入层输入,之后连接一个全连接网络的隐层,全连接网络的输出层作为全连接网络的标定层;
步骤4,根据步骤3中输出和输入图片对应的标签进行对比,对构建的卷积神经网络进行反向调节,得到优化后的卷积神经网络,实现方式如下,
步骤4.1,根据公式(8)运用梯度下降法计算每一层中各个神经元的局部梯度;
对于卷积操作梯度的计算,由下式得到,
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>E</mi>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msup>
<mi>W</mi>
<mi>k</mi>
</msup>
</mrow>
</mfrac>
<mo>=</mo>
<mi>x</mi>
<mo>*</mo>
<msup>
<mi>&delta;h</mi>
<mi>k</mi>
</msup>
<mo>+</mo>
<msup>
<mi>h</mi>
<mrow>
<mo>,</mo>
<mi>k</mi>
</mrow>
</msup>
<mo>*</mo>
<mi>&delta;</mi>
<mi>y</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,x为输入图片,E(θ)表示的是输入与输出的误差,wk指第k个卷积核,即第k个权值,δh和δy分别是隐层和输出层的局部梯度,h'k指的是对第k个特征图对应的局部梯度进行翻卷操作所得的对应值;
步骤4.2,更新每一层卷积层卷积核的权值,
<mrow>
<msup>
<mi>w</mi>
<mi>k</mi>
</msup>
<mo>=</mo>
<msup>
<mi>w</mi>
<mi>k</mi>
</msup>
<mo>-</mo>
<mi>&eta;</mi>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>E</mi>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msup>
<mi>W</mi>
<mi>k</mi>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msup>
<mi>b</mi>
<mi>k</mi>
</msup>
<mo>=</mo>
<msup>
<mi>b</mi>
<mi>k</mi>
</msup>
<mo>-</mo>
<mi>&eta;</mi>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>E</mi>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msup>
<mi>b</mi>
<mi>k</mi>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,wk指第k个卷积核,bk为偏置,η指的是学习速率。
2.如权利要求1所述的一种基于线性解码器和插值采样优化卷积神经网络的方法,其特征在于:步骤3中多重插值采样的实现方法如下:
f_mapk=Multiple_interpolation_pooling(hk) (4)
其中,hk表示的是卷积层的第k个特征图,Multiple_interpolation_pooling表示多重插值采样函数,f_mapk表示对应采样层的第k个特征图;
其中,多重插值采样函数利用待采样点周围16个点的灰度值作为双三次插值,双三次插值公式如下:
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mn>2</mn>
<mo>|</mo>
<mi>w</mi>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mo>|</mo>
<mi>w</mi>
<msup>
<mo>|</mo>
<mn>3</mn>
</msup>
<mo>,</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<mo><</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>4</mn>
<mo>-</mo>
<mn>8</mn>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<mo>+</mo>
<mn>5</mn>
<mo>|</mo>
<mi>w</mi>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>|</mo>
<mi>w</mi>
<msup>
<mo>|</mo>
<mn>3</mn>
</msup>
<mo>,</mo>
<mn>1</mn>
<mo>&le;</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<mo><</mo>
<mn>2</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<mo>&GreaterEqual;</mo>
<mn>2</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
设i+u,j+v为待求像素坐标,i,j为正整数,u,v为大于零小于1的小数,则待求像素灰度的值f(i+u,j+v)为,
f(i+u,j+v)=ABC (6)
其中A、B、C均为矩阵,形式如下:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>A</mi>
<mo>=</mo>
<mo>&lsqb;</mo>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>-</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>B</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>+</mo>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>C</mi>
<mo>=</mo>
<msup>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>-</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,f(i,j)表示源图像(i,j)处像素点的灰度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946508.4A CN107609638B (zh) | 2017-10-12 | 2017-10-12 | 一种基于线性编码器和插值采样优化卷积神经网络的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946508.4A CN107609638B (zh) | 2017-10-12 | 2017-10-12 | 一种基于线性编码器和插值采样优化卷积神经网络的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609638A true CN107609638A (zh) | 2018-01-19 |
CN107609638B CN107609638B (zh) | 2019-12-10 |
Family
ID=61068223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710946508.4A Expired - Fee Related CN107609638B (zh) | 2017-10-12 | 2017-10-12 | 一种基于线性编码器和插值采样优化卷积神经网络的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609638B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035488A (zh) * | 2018-08-07 | 2018-12-18 | 哈尔滨工业大学(威海) | 基于cnn特征提取的航空发动机时间序列异常检测方法 |
CN109102017A (zh) * | 2018-08-09 | 2018-12-28 | 百度在线网络技术(北京)有限公司 | 神经网络模型处理方法、装置、设备及可读存储介质 |
CN109443382A (zh) * | 2018-10-22 | 2019-03-08 | 北京工业大学 | 基于特征提取与降维神经网络的视觉slam闭环检测方法 |
US20190122394A1 (en) * | 2017-10-19 | 2019-04-25 | Fujitsu Limited | Image processing apparatus and image processing method |
CN109801218A (zh) * | 2019-01-08 | 2019-05-24 | 南京理工大学 | 基于多层耦合卷积神经网络的多光谱遥感图像Pan-sharpening方法 |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和*** |
WO2019184657A1 (zh) * | 2018-03-30 | 2019-10-03 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及存储介质 |
WO2020048445A1 (en) * | 2018-09-04 | 2020-03-12 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
WO2020186765A1 (zh) * | 2019-03-19 | 2020-09-24 | 深圳市商汤科技有限公司 | 视频处理方法、装置以及计算机存储介质 |
CN111827974A (zh) * | 2020-09-15 | 2020-10-27 | 成都理工大学 | 一种岩芯数字化采集***及方法 |
CN112381839A (zh) * | 2020-11-14 | 2021-02-19 | 四川大学华西医院 | 一种基于深度学习的乳腺癌病理图像he癌巢分割方法 |
CN112889074A (zh) * | 2018-10-29 | 2021-06-01 | 三菱电机株式会社 | 解码方法、计算机程序产品和设备 |
CN113177634A (zh) * | 2021-04-28 | 2021-07-27 | 中国科学院自动化研究所 | 基于神经网络输入输出量化的图像分析***、方法和设备 |
CN113761983A (zh) * | 2020-06-05 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 更新人脸活体检测模型的方法、装置及图像采集设备 |
CN114742212A (zh) * | 2022-06-13 | 2022-07-12 | 南昌大学 | 一种电子数字信息重采样率估算方法 |
CN112889074B (zh) * | 2018-10-29 | 2024-07-02 | 三菱电机株式会社 | 解码方法、计算机程序产品和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446895A (zh) * | 2016-10-28 | 2017-02-22 | 安徽四创电子股份有限公司 | 一种基于深度卷积神经网络的车牌识别方法 |
US20170103308A1 (en) * | 2015-10-08 | 2017-04-13 | International Business Machines Corporation | Acceleration of convolutional neural network training using stochastic perforation |
CN106845528A (zh) * | 2016-12-30 | 2017-06-13 | 湖北工业大学 | 一种基于K‑means与深度学习的图像分类算法 |
CN106910192A (zh) * | 2017-03-06 | 2017-06-30 | 长沙全度影像科技有限公司 | 一种基于卷积神经网络的图像融合效果评估方法 |
CN106991440A (zh) * | 2017-03-29 | 2017-07-28 | 湖北工业大学 | 一种基于空间金字塔的卷积神经网络的图像分类算法 |
-
2017
- 2017-10-12 CN CN201710946508.4A patent/CN107609638B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170103308A1 (en) * | 2015-10-08 | 2017-04-13 | International Business Machines Corporation | Acceleration of convolutional neural network training using stochastic perforation |
CN106446895A (zh) * | 2016-10-28 | 2017-02-22 | 安徽四创电子股份有限公司 | 一种基于深度卷积神经网络的车牌识别方法 |
CN106845528A (zh) * | 2016-12-30 | 2017-06-13 | 湖北工业大学 | 一种基于K‑means与深度学习的图像分类算法 |
CN106910192A (zh) * | 2017-03-06 | 2017-06-30 | 长沙全度影像科技有限公司 | 一种基于卷积神经网络的图像融合效果评估方法 |
CN106991440A (zh) * | 2017-03-29 | 2017-07-28 | 湖北工业大学 | 一种基于空间金字塔的卷积神经网络的图像分类算法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10810765B2 (en) * | 2017-10-19 | 2020-10-20 | Fujitsu Limited | Image processing apparatus and image processing method |
US20190122394A1 (en) * | 2017-10-19 | 2019-04-25 | Fujitsu Limited | Image processing apparatus and image processing method |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和*** |
WO2019184657A1 (zh) * | 2018-03-30 | 2019-10-03 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及存储介质 |
US11609968B2 (en) | 2018-03-30 | 2023-03-21 | Tencent Technology (Shenzhen) Company Ltd | Image recognition method, apparatus, electronic device and storage medium |
CN109035488A (zh) * | 2018-08-07 | 2018-12-18 | 哈尔滨工业大学(威海) | 基于cnn特征提取的航空发动机时间序列异常检测方法 |
CN109102017A (zh) * | 2018-08-09 | 2018-12-28 | 百度在线网络技术(北京)有限公司 | 神经网络模型处理方法、装置、设备及可读存储介质 |
CN109102017B (zh) * | 2018-08-09 | 2021-08-03 | 百度在线网络技术(北京)有限公司 | 神经网络模型处理方法、装置、设备及可读存储介质 |
WO2020048445A1 (en) * | 2018-09-04 | 2020-03-12 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
CN109443382A (zh) * | 2018-10-22 | 2019-03-08 | 北京工业大学 | 基于特征提取与降维神经网络的视觉slam闭环检测方法 |
CN112889074A (zh) * | 2018-10-29 | 2021-06-01 | 三菱电机株式会社 | 解码方法、计算机程序产品和设备 |
CN112889074B (zh) * | 2018-10-29 | 2024-07-02 | 三菱电机株式会社 | 解码方法、计算机程序产品和设备 |
CN109801218A (zh) * | 2019-01-08 | 2019-05-24 | 南京理工大学 | 基于多层耦合卷积神经网络的多光谱遥感图像Pan-sharpening方法 |
CN109801218B (zh) * | 2019-01-08 | 2022-09-20 | 南京理工大学 | 基于多层耦合卷积神经网络的多光谱遥感图像Pan-sharpening方法 |
WO2020186765A1 (zh) * | 2019-03-19 | 2020-09-24 | 深圳市商汤科技有限公司 | 视频处理方法、装置以及计算机存储介质 |
CN113761983A (zh) * | 2020-06-05 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 更新人脸活体检测模型的方法、装置及图像采集设备 |
CN113761983B (zh) * | 2020-06-05 | 2023-08-22 | 杭州海康威视数字技术股份有限公司 | 更新人脸活体检测模型的方法、装置及图像采集设备 |
CN111827974A (zh) * | 2020-09-15 | 2020-10-27 | 成都理工大学 | 一种岩芯数字化采集***及方法 |
CN112381839A (zh) * | 2020-11-14 | 2021-02-19 | 四川大学华西医院 | 一种基于深度学习的乳腺癌病理图像he癌巢分割方法 |
CN113177634A (zh) * | 2021-04-28 | 2021-07-27 | 中国科学院自动化研究所 | 基于神经网络输入输出量化的图像分析***、方法和设备 |
CN113177634B (zh) * | 2021-04-28 | 2022-10-14 | 中国科学院自动化研究所 | 基于神经网络输入输出量化的图像分析***、方法和设备 |
CN114742212A (zh) * | 2022-06-13 | 2022-07-12 | 南昌大学 | 一种电子数字信息重采样率估算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107609638B (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609638A (zh) | 一种基于线性解码器和插值采样优化卷积神经网络的方法 | |
WO2022252272A1 (zh) | 一种基于迁移学习的改进vgg16网络猪的身份识别方法 | |
CN106778682B (zh) | 一种卷积神经网络模型的训练方法及其设备 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN105931179B (zh) | 一种联合稀疏表示与深度学习的图像超分辨率方法及*** | |
CN104978580B (zh) | 一种用于无人机巡检输电线路的绝缘子识别方法 | |
CN105975931B (zh) | 一种基于多尺度池化的卷积神经网络人脸识别方法 | |
CN107229914B (zh) | 一种基于深度q学习策略的手写数字识别方法 | |
Chen et al. | Assessing four neural networks on handwritten digit recognition dataset (MNIST) | |
CN108304826A (zh) | 基于卷积神经网络的人脸表情识别方法 | |
CN107679462A (zh) | 一种基于小波的深度多特征融合分类方法 | |
CN107977932A (zh) | 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法 | |
CN108734659A (zh) | 一种基于多尺度标签的亚像素卷积图像超分辨率重建方法 | |
CN108416755A (zh) | 一种基于深度学习的图像去噪方法及*** | |
CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及*** | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN107016689A (zh) | 一种尺度自适应的相关滤波对冲目标跟踪方法 | |
CN108090403A (zh) | 一种基于3d卷积神经网络的人脸动态识别方法及*** | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN109086802A (zh) | 一种基于八元数卷积神经网络的图像分类方法 | |
CN107729948A (zh) | 图像处理方法及装置、计算机产品和存储介质 | |
CN106682569A (zh) | 一种基于卷积神经网络的快速交通标识牌识别方法 | |
CN108648197A (zh) | 一种基于图像背景掩膜的目标候选区域提取方法 | |
CN110321967A (zh) | 基于卷积神经网络的图像分类改进算法 | |
CN106529570B (zh) | 基于深度脊波神经网络的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191210 |