CN106599941A

CN106599941A - 基于卷积神经网络与支持向量机的手写数字识别方法

Info

Publication number: CN106599941A
Application number: CN201611136985.6A
Authority: CN
Inventors: 李阳阳; 周林浩; 焦李成; 刘芳; 尚荣华; 马文萍; 马晶晶; 缑水平
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-04-26

Abstract

本发明公开了一种基于卷积神经网络和支持向量机的手写数字识别方法，用卷积神经网络与支持向量机组合提高了手写数字识别准确率。具体包括：扩充手写数字图片训练集；进行归一化操作；搭建两个卷积神经网络；训练两个卷积神经网络；搭建支持向量机；保留两个卷积神经网络全连接层前边的卷积层和池化层交替部分，将两个卷积神经网络的全连接层串接并与支持向量机连接得到组合网络；训练组合网络；对手写数字图片测试集测试得到手写数字识别结果，准确率达99.60％。本发明无需复杂预处理，具有好的自适应性和稳定性，不仅识别准确率较高，且在可靠性和鲁棒性上有提升，用于金融、邮递、数据统计等场合的手写数字识别。

Description

基于卷积神经网络与支持向量机的手写数字识别方法

技术领域

本发明属于图像处理与模式识别中的技术领域，特别涉及手写数字的识别，具体是一种基于卷积神经网络与支持向量机的手写数字识别方法，在邮政、税务、交通、金融等行业的实践活动中有着极其广泛的应用。

背景技术

手写数字识别隶属于手写体字符识别的一个范畴，手写体识别又分为在线手写体识别和离线手写体识别。在线手写体识别通过记录文字图像抬笔、落笔、笔迹上各像素的空间位置，以及各笔段之间的时间关系等信息，对这些信息进行处理，在处理过程中，***以一定的规则提取信息特性，再由识别模块将信息特征与识别库的特征进行比较，加以识别，最后转化为计算机所使用的文字代码。离线手写体识别相对于前者来说没有笔划信息，因此难度更大、应用更广泛，如银行票据、工商报表、财务报表、统计报表等各种表格***，是目前研究的一个重点，也是一个难点，本发明属于离线手写体识别范畴。

随着信息网络的推广，有大量的数据要输入计算机网络。而且在现代信息社会，方方面面都要与数字打交道，数字与人们的日常生活息息相关。目前手写数字识别主要的应用有以下三个领域。

一、在邮件分拣中的应用

在邮件的自动分拣中，离线手写数字识别往往与人工辅助识别等手段相结合，完成邮政编码的阅读；然而在一些大中型城市，每天要处理的邮件量高达几百万件，业务量的急剧上升使得邮件的分拣自动化成为大势所趋，这就要求手写数字的识别能达到一个较高的准确率。

二、在财务、金融领域中的应用

金融财会、税务、金融是离线手写数字识别应用的又一重要领域。随着我国经济的迅速发展，每天等待处理的财会、税务报表、支票、付款等越来越多，如果能把它们用计算机自动处理，无疑可以节约大量的时间、金钱和劳力，更可以提高效率，节省成本。

三、在大规模数据统计中的应用

在数据统计、行业年检、人口普查等领域要进行大规模的数据统计，此时就需要输入大量的数据，完全的手工输入需要耗费大量人力物力，这时手写数字识别就可以发挥它强大的作用。目前国内的大多数实用***都是要求用户在规范的方格内填写，因此这一类应用相对容易，对算法要求比较低。

随着经济的迅速发展，手写数字识别***还会有更大的应用空间，这就要求手写数字的识别率达到一个更高水平。虽然数字笔划比较简单，类型也只有十种，但事实上，手写数字识别还有诸多难点，数字识别的准确率还有待提高。手写体数字识别的难点主要体现在以下几点：

一、数字的笔划简单，而且差别相对较小，使得准确区分诸如3与8或5与6等这些数字比较困难。

二、手写***数字是全球通用的，使用者也不计其数。书写者具有个性化的书写习惯，即使同一书写者每次的书写结果也会有差异，这就造成了同一个数字形状的千差万别，很难做出可以兼顾各种手写而识别率极高的通用性数字识别***。

三、在实际应用中，对数字识别率的要求要比普通文字识别要苛刻的多，识别精度要求达到更高的水平。这是因为手写数字识别没有上下文，不存在语意的相关性，数据中的每一个数字又都至关重要，识别不当可能引起经济纠纷。而数字识别经常涉及金融、财会等特殊领域，其对识别结果的严格性更是不言而喻。因此，国内外众多的学者都在为提高手写数字的识别率而努力。

随着信息技术的发展，数字识别技术往往与经济和商业相联系，投入使用的技术必须保证有较高的准确率，因为如果识别错误，即使是极小的错误，也可能会引起一系列的商业纠纷，甚至带来巨大的损失，造成无法挽回的结果。所以研究和开发过程中，为了避免一系列问题的出现，必须保证识别技术有较高的准确率，并且需要模型有较高的稳定性。较目前技术来看，大多数技术无法完成较高的识别准确率，并且不稳定，鲁棒性差；有些技术虽然可以达到较高的准确率，却需要一些复杂的预处理操作，比如对手写数字图片进行扭曲变形操作来扩充训练集、模拟各种抖动操作来对图像进行预处理操作等等，这样虽然可以实现较高的准确率，却降低了实用性，而且不能满足稳定性。

发明内容

本发明针对现实中对手写数字识别***准确率的极高要求，提出一种基于卷积神经网络和支持向量机的手写数字识别方法，包括如下步骤：

(1):扩充手写数字图片训练集，原始的手写数字图片包括两部分，一部分标记为测试集，一部分标记为训练集，将训练集中手写数字图片进行平移扩充处理，增加训练集中图片的数量；训练集的平移扩充处理指通过批处理操作，将训练集中每张图片分别进行上下左右平移操作，平移大小均为一个像素。

(2):对扩充的训练集进行归一化预处理操作；归一化操作指将扩充后的每张训练集图片的像素值由0到255批处理操作，归一化到0到1，得到归一化后的训练集图像。

(3):分别搭建两个卷积神经网络，两个卷积神经网络全连接层的前边部分为卷积层与池化层的交替连接，第一个卷积神经网络的最后一个池化层连接的全连接层神经元个数为L个，第二个卷积神经网络的最后一个池化层连接的全连接层神经元个数为N个，两个卷积神经网络的最后一层均为softmax层，设置两个卷积神经网络的相关超参数。

(4):设定两个卷积神经网络的迭代次数。

(5):训练搭建好的两个卷积神经网络，将预处理好的训练集分别送入到两个搭建好的卷积神经网络中进行训练；在卷积神经网络的训练过程中，采用反向传播算法(BP算法)对卷积神经网络的连接权值和偏置进行更新，BP算法包括正向传播和误差的反向传播两个过程；同时，为了防止过拟合，全连接层采用dropout方法按照一定概率丢弃全连接层的神经元。

(6):判断是否达到规定的迭代次数，连接权值和偏置更新过程中，对迭代次数实时进行判断，如果达到设置的迭代次数则卷积神经网络训练完成，执行步骤7；未达到迭代次数，则返回步骤5继续训练，直至训练完成。

(7):搭建一个用于分类的支持向量机模型，并初始化支持向量机的参数。

(8):将两个卷积神经网络与搭建好的支持向量机模型进行组合得到一个组合网络；组合方法是保留两个卷积神经网络全连接层前边的卷积层和池化层交替连接的部分，将第一和第二卷积神网络中保留的部分分别记为A和B，去掉两个卷积神经网络全连接层后边softmax层，将第一、第二两个卷积神经网络中的全连接层部分依次串接形成组合网络的全连接层，组合顺序是第一个卷积神经网络的全连接层在前，第二个卷积神经网络的全连接层在后，将这个全连接层记为C，C分别与第一卷积神网络中保留的部分A和第二卷积神网络中保留的部分B的连接关系不变，把C与支持向量机连接，得到一个完整的组合网络；在这个组合网络中将手写数字图片分别送入到A和B中作为组合网络的输入，然后C的输出送入到支持向量机中，支持向量机的输出作为组合网络的输出。

(9):训练组合网络；由于两个卷积神经网络之前已经训练结束，所以训练组合网络实际上就是训练支持向量机；在组合网络中，手写数字图片的训练集作为组合网络的输入，组合网络全连接层的输出作为支持向量机的训练样本来训练支持向量机，在训练样本空间中找到一个最优划分超平面，将不同类别的训练样本分开。

(10):判断组合网络是否训练结束，如果组合网络找到了最优的划分超平面则组合网络训练结束；未找到最优的划分超平面，则返回步骤9，继续训练直至找到最优的划分超平面。

(11):对手写数字图片测试集进行测试，将手写数字图片测试集送入到组合网络中，进行评估，得出的评估结果，完成基于卷积神经网络和支持向量机的手写数字识别。

本发明针对当前技术的不足，提出了基于卷积神经网络与支持向量机的手写数字识别方法，不需要复杂的预处理操作，可以达到较高的准确率，并且稳定性和鲁棒性都比较好。

本发明与现有技术相比具有如下优点：

第一，本发明采用了将卷积神经网络与支持向量机组合的方式，将支持向量机替换传统卷积神经网络中的softmax分类器进行分类预测，充分发挥支持向量机的分类优势，提高了预测准确率，增大了模型稳定性和鲁棒性。

第二，本发明将卷积神经网络当成图像特征提取的过程，将两个网络的全连接层进行串接，提升了特征向量的信息量，这样可以加大网络的纠错能力，减小错分的概率。

第三，本发明对比一些现有技术，不需要经过复杂的预处理操作，只需简单的归一化，就可以达到很高的准确率，简化了繁琐的预处理工作。

第四，本发明在实验检测中，对数据多次实验，实验结果的各项指标值与现有一些技术相比都取得了比较明显的优势，并且多组数据相对稳定，这间接说明了本发明的稳定性，在同类技术中具有一定的优势，能够更好的完成手写数字识别任务。

附图说明

图1是本发明的流程图；

图2是手写数字图片MNIST数据集中的样例；

图3是卷积神经网络的结构图；

图4是简易的神经网络结构；

图5是本发明中网络的组合方法示意图；

图6是本发明最终的组合网络结构示意图。

具体实施方法

实施例1

随着信息技术的发展，数字与人们的生活息息相关，每个人在日常生活中都在与数字打交道，数字识别技术的应用也越来越广，为了满足人们的日常需求以及减小数字识别的工作负担，本发明进行了创新与研究，提出一种基于卷积神经网络和支持向量机的手写数字识别方法，参见图1，手写数字识别过程包括如下步骤：

(1):扩充手写数字图片训练集，本例中选用的数据集为MINIST数据集，MNIST数据集中的样例如图2所示，该数据集是由Google实验室的Corinna Cortes和纽约大学柯朗研究所的Yann LeCun建立的一个手写数字数据库。将图2所示的手写数字图片作为原始的手写数字图片数据集，原始的手写数字图片数据集包括两部分，一部分标记为测试集，一部分标记为训练集，训练集中包含60000幅用于训练数据的图像，图像大小均为28X28的灰度图像。将训练集中手写数字图片进行平移扩充处理，增加训练集中图片的数量。增加训练集的图片的数量的目的是为了增加训练的样本数，防止下面步骤训练过程中发生的过拟合问题，训练集的平移扩充处理指通过批处理操作，将训练集中每张图片分别进行上下左右平移操作，平移大小均为一个像素。

(2):对扩充的训练集进行归一化预处理操作；归一化操作是预处理图片中经常用到的方法，归一化操作指将扩充后的每张训练集图片的像素值由0到255批处理操作，归一化到0到1，得到归一化后的训练集图像；原始的训练集图片中每个点的像素值均为0到255的整数值，这些整数值代表不同级别的灰度值，归一化的操作就是将这些0到255的整数值变成0至1范围内的小数值，此时的手写数字训练集为预处理好的训练集。

(3):分别搭建两个卷积神经网络，搭建卷积神经网络用到了keras库，通过keras库对两个卷积神经网络进行搭建；两个卷积神经网络全连接层的前边部分为卷积层与池化层交替连接，参见图3，本例中卷积层与池化层的交替结构数量为两个，即有两个卷积层和两个池化层，它们交替连接，交替连接的顺序是卷积层在前，池化层在后，本例中L为200个，即第一个卷积神经网络的最后一个池化层连接的全连接层神经元个数为200个；N为300个，即第二个卷积神经网络的最后一个池化层连接的全连接层神经元个数为300个，两个卷积神经网络的最后一层均为softmax层。设置两个卷积神经网络的相关超参数，包括网络层数、卷积个数等相关参数。

(4):设定两个卷积神经网络的迭代次数，本例中两个卷积神经网络的迭代次数均为25；迭代次数的设定影响着卷积神经网络的性能，迭代次数过高可能会发生过拟合，迭代次数过少又会欠拟合；迭代次数的设定一般根据经验与尝试来进行，这是本领域普通技术人员通常惯用的方法。

(5):训练搭建好的两个卷积神经网络，将预处理好的训练集分别送入到两个搭建好的卷积神经网络中进行训练；采用小包的方法将训练集送入到卷积神经网络中，即在卷积神经网络的训练过程中，每次并不是将所有的图片一次送入到卷积神经网络中进行训练，而是将所有的图片分为若干个小包，每次送入一个小包的手写数字图片，分若干次送入进行训练。每次卷积神经网络训练的过程就是更新网络各层之间的连接权值和偏置，在卷积神经网络的训练过程中，采用反向传播算法(BP算法)对卷积神经网络的连接权值和偏置进行更新，BP算法包括信息的正向传播和误差的反向传播两个过程；同时，为了防止过拟合，全连接层采用dropout方法按照一定的概率丢弃全连接层的神经元；dropout方法应用在卷积网络的训练过程中，到之后的测试阶段则不用dropout方法，因为测试阶段不存在过拟合问题。本例中在dropout方法中按照0.5的概率丢弃全连接层的神经元，防止过拟合。

(7):搭建一个用于分类的支持向量机模型，并初始化支持向量机的参数，直接使用机器学习库中的默认参数即可；搭建的支持向量机模型采用的是sklearn机器学习库中的支持向量机模型，相关参数均保持sklearn库中的默认参数即可。

(8):将两个卷积神经网络与搭建好的支持向量机模型进行组合；参见图5，组合方法是保留两个卷积神经网络全连接层前边的卷积层和池化层交替连接的部分，将两个卷积神网络中保留的部分分别记为A和B，去掉两个卷积神经网络全连接层后边softmax层，将第一和第二卷积神网络中保留的部分分别记为A和B，去掉两个卷积神经网络全连接层后边softmax层，将第一、第二两个卷积神经网络中的全连接层部分依次串接形成组合网络的全连接层，组合顺序是第一个卷积神经网络的全连接层在前，第二个卷积神经网络的全连接层在后，将这个全连接层记为C，C分别与第一卷积神网络中保留的部分A和第二卷积神网络中保留的部分B的连接关系不变，把C与支持向量机连接，得到一个完整的组合网络。

在这个组合网络中将手写数字图片分别送入到第一卷积神经网络全连接层前边的部分A和第二卷积神经网络全连接层前边的部分B中作为组合网络的输入，见图6，然后组合网络的全连接层C的输出送入到支持向量机中，支持向量机的输出作为组合网络的输出。

(9):训练组合网络；由于两个卷积神经网络之前已经训练结束，所以训练组合网络实际上就是训练支持向量机；在组合网络中，手写数字图片的训练集作为组合网络的输入，组合网络全连接层的输出作为支持向量机的训练样本来训练支持向量机，训练支持向量机的基本思想是在训练样本空间中找到一个最优划分超平面，这个最优划分超平面作为分类的标准，将不同类别的训练样本区分开。

(11):对手写数字图片测试集进行测试，将手写数字图片测试集送入到组合网络中，进行评估，得出的评估结果，测试集采用的是MINIST数据集中的测试集，这个测试集包含10000幅用于测试数据的图像，图片的大小与训练集一样，也是28X28大小的灰度图像，通过网络的输出结果与测试集中原有的标签进行对比，得出组合网络的识别率，完成基于卷积神经网络和支持向量机的手写数字识别。

实施例2

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1，其中步骤3中设置两个网络的超参数，设置如下：

第一个卷积神经网络包括2个卷积层，2个池化层，第一个卷积层卷积核大小为6X6，共32个卷积核；第二个卷积层卷积核大小为5X5，共64个卷积核；卷积层步长均为1；第一个池化层的核大小为3X3，核个数为32个；第二个池化层的核大小为3X3，核个数为64；两个池化层的步长均为2；全连接层的神经元个数为200，各层激活函数均为ReLu函数；

第二个卷积神经网络包括2个卷积层，2个池化层，第一个卷积层卷积核大小为6X6，共32个卷积核；第二个卷积层卷积核大小为5X5，共64个卷积核；卷积层步长均为1；第一个池化层的核大小为3X3，核个数为32个；第二个池化层的核大小为3X3，核个数为64；两个池化层的步长均为2；全连接层的神经元个数为300，各层激活函数均为ReLu函数。

其中，ReLu函数全称为线性修正函数(Rectified Linear Units)，表达式为：

f(x)＝max(0,x)

其中x为各层的输出值，f(x)代表激活函数的输出值。

实施例3

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-2，其中步骤3中卷积层与池化层的交替结构数量为1个，及卷积神经网络中卷积层与池化层的个数均为1个。采用卷积层和池化层的数量均为1时，会使卷积神经网络的训练速度变快，但是也会降低识别率，如果对识别率要求不高，而训练速度要求高，可以采用卷积层和池化层的数量均为1的卷积神经网络结构方案。

实施例4

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-3，其中步骤3中两个卷积神经网络的全连接层神经元个数更改为不同的个数，设定L为250个，即第一个卷积神经网络的最后一个池化层连接的全连接层神经元个数为250个；N为350个，第二个卷积神经网络的最后一个池化层连接的全连接层神经元个数为350个。全连接层神经元的个数如果设置过多，不仅不会提高识别率，而且还会导致训练速度变慢；全连接层神经元的个数如果设置过少，又会降低识别率。

实施例5

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-4，其中步骤5所述的为了防止过拟合，全连接层采用dropout方法按照一定的概率丢弃全连接层的神经元中提及的一定的概率采用0.4到0.6。本例中为0.4。dropout的概率设置过大，会使得网络无法很好的拟合训练集；dropout的概率设置过小，又会无法很好的防止过拟合。本发明经过实验得出，dropout的概率设定在0.4到0.6的范围较好。

实施例6

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-5，其中步骤5所述的为了防止过拟合，全连接层采用dropout方法按照一定的概率丢弃全连接层的神经元中提及的一定的概率采用0.4到0.6。本例中为0.6。

实施例7

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-6，其中步骤4中，两个卷积神经网络训练的迭代次数可以设定为不同的值，本例中第一个卷积神经网络的迭代次数为30次，第二个卷积神经网络的迭代次数为35次。

实施例8

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-6，其中步骤4中，两个卷积神经网络训练的迭代次数可以设定为不同的值，本例中第一个卷积神经网络的迭代次数为35次，第二个卷积神经网络的迭代次数为40次。

实施例9

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-8，其中步骤8中将两个卷积神经网络与支持向量机进行组合，组合方法是：保留两个卷积神经网络全连接层前边的卷积层和池化层交替连接的部分去掉两个卷积神经网络全连接层后边softmax层，将第一、第二两个卷积神经网络中的全连接层部分依次串接形成组合网络的全连接层，组合顺序是第一个卷积神经网络的全连接层在前，第二个卷积神经网络的全连接层在后，组合公式为：

m₁＝[x₁₁,x₁₂,...,x_1l]

m₂＝[x₂₁,x₂₂,...,x_2n]

m＝[x₁₁,x₁₂,...,x_1l,x₂₁,x₂₂,...,x_2n]

其中m₁和m₂分别代表第一个卷积神经网络和第二个卷积神经网络的全连接层，m代表组合网络的全连接层，x_1l代表第一个卷积神经网络中全连接层第l个神经元，x_2n代表第二个卷积神经网络中全连接层第n个神经元；将组合后新的全连接层与支持向量机进行连接，这样就得到了一个组合网络。

本发明将卷积神经网络当成图像特征提取的过程，将两个网络的全连接层进行串接，提升了特征向量的信息量，这样可以加大结构的纠错能力，减小错分的概率。

下面给出一个完整且更详尽的例子，对本发明进一步详细说明

实施例10

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-9，参照附图1，本发明的具体实现步骤如下：

步骤1：对手写数字图片MNIST训练集进行简单的平移扩充处理，增加训练集个数。本发明采用的是MNIST数据集，MNIST数据集中的样例如图2所示，该数据集是由Google实验室的Corinna Cortes和纽约大学柯朗研究所的Yann LeCun建立的一个手写数字数据库。将图2所示的手写数字图片作为原始的手写数字图片数据集，原始的MNIST手写数字图片数据集包括两部分，一部分标记为测试集，一部分标记为训练集，MNIST数据集中的样例如图2所示；使用批处理操作，将训练集中的每张手写数字图片分别进行简单的上下左右平移操作，平移大小均为一个像素，这样就可以将训练集扩充为原来的五倍，充分扩大了训练集个数，防止在下面卷积神经网络的训练步骤中发生过拟合现象。过拟合现象是指构建的模型过度的拟合训练集，而对于测试集却不能很好的拟合。

步骤2：对扩充好的训练集进行归一化预处理操作；手写数字图片都是灰度图片，每个像素点范围都是0到255的灰度值，每个像素点均为整数值，运用批处理操作，将训练集中的图片的每个像素除以255，进行归一化操作；归一化后图片I的计算公式为：

I＝{I(i,j)/255,1≤i≤A,1≤j≤B}

其中，I(i,j)代表图片上元素点的灰度值，A代表图片的宽度，B代表图片的高度。此时每个像素点的灰度值范围为0到1的小数。

步骤3：分别搭建两个卷积神经网络，卷积神经网络的结构如图3所示，两个卷积神经网络全连接层的前边部分为卷积层与池化层交替连接，第一个卷积神经网络的最后一个池化层连接的全连接层神经元个数为200个，第二个卷积神经网络的最后一个池化层连接的全连接层神经元个数为300个，两个卷积神经网络的最后一层均为softmax层，并设置网络的相关超参数；两个网络的超参数设置如下：

第一个卷积神经网络包括2个卷积层，2个池化层，第一个卷积层卷积核大小为6X6，共32个卷积核；第二个卷积层卷积核大小为5X5，共64个卷积核；卷积层步长均为1。第一个池化层的核大小为3X3，核个数为32个；第二个池化层的核大小为3X3，核个数为64；两个池化层的步长均为2。全连接层的神经元个数为200，各层激活函数均为ReLu函数；

第二个卷积神经网络包括2个卷积层，2个池化层，第一个卷积层卷积核大小为6X6，共32个卷积核；第二个卷积层卷积核大小为5X5，共64个卷积核；卷积层步长均为1。第一个池化层的核大小为3X3，核个数为32个；第二个池化层的核大小为3X3，核个数为64；两个池化层的步长均为2。全连接层的神经元个数为300，各层激活函数均为ReLu函数；

f(x)＝max(0,x)

其中x为各层的输出值，f(x)代表激活函数的输出值。

步骤4：设定两个网络的迭代次数均为25；迭代次数设置过高，会使得网络训练过拟合，迭代次数过低，又会使网络出现欠拟合，选择一个合适的迭代次数很重要，这里经过实验测试得出迭代次数为25次比较合理。

步骤5：训练搭建好的两个卷积神经网络，将预处理好的训练集分别送入到两个搭建好卷积神经网络中进行训练；采用小包的方法将训练集送入到卷积神经网络中，即在卷积神经网络的训练过程中，每次并不是将所有的图片一次性送入到卷积神经网络中进行训练，而是将所有的图片分为若干个小包，每次送入一个小包的手写数字图片，分若干次送入进行训练。卷积神经网络训练的过程就是更新网络各层之间的连接权值和偏置，在卷积神经网络的训练过程中，连接权值和偏置的更新基于反向传播算法(BP算法)，BP算法包括正向传播和误差的反向传播两个过程。

BP算法的学习过程由两部分组成，信息的正向传播和误差的反向传播。如图4所示，我们以简单的三层网络叙述BP算法的正向传播和误差反向传播。

如图4中所示，圆圈表示网络输入节点，标号“+1”的输入节点称为偏置节点。左边为网络输入层，最右边为输出层。假设用n_l表示网络层数，将第l层标记为L_l，则输入层是L₁，输出层是再用表示第l层中第j单元与第l+1中第i单元的连接权值，为第i+1层中第i单元的偏置，同时，用s_l表示第l层的节点数，并用表示第l层中第i单元的输出值(或称激活值)。因此，前向传播的网络计算公式如下：

其中f代表激活函数。

上面的步骤就是一个前向传播的过程，它的作用就是从最底层的输入层开始，逐层计算每一层的输出值，直到最后的输出层，它求的是一个网络的正向传播的结果。

连接权值的更新需要反向传播即误差的传播。假设存在一个包含m个样本数的样本集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，对于单个样本其代价函数的定义如下：

其中h_W,b(x)代表最后一层的输出结果，y代表样本标签。

则整体代价函数为：

其中m代表样本个数；每一次迭代用如下公式对W和b进行更新：

其中的α为学习率。每一次的迭代则是通过以上公式进行连接权值和偏置的更新。

步骤6：判断是否达到规定的迭代次数，连接权值和偏置更新过程中，对迭代次数实时进行判断，达到设置的迭代次数则网络训练完成，继续执行步骤7；未达到规定的迭代次数，则返回步骤5继续训练。

步骤7：搭建一个用于分类的支持向量机模型，并初始化支持向量机的参数，直接使用机器学习库中的默认参数即可。搭建的支持向量机模型采用的是sklearn机器学习库中的支持向量机模型，相关参数均保持sklearn库中的默认参数即可。

步骤8：将两个卷积神经网络与搭建好的支持向量机模型进行组合得到一个组合网络；参见图5，组合方法是保留两个卷积神经网络全连接层前边的卷积层和池化层交替连接的部分，将第一个卷积神经网络中保留的部分记为A，将第二个卷积神经网络中保留的部分记为B，将第一个卷积神经网络的全连接层记为C，将第二个卷积神经网络的全连接层记为D，保持C和A的连接不变，保持D和B的连接不变，去掉两个卷积神经网络全连接层后边softmax层，将C和D依次串接形成组合网络的全连接层，C和D的串接顺序是C在前D在后，将这个组合的全连接层记为E，把E与支持向量机连接，得到一个完整的组合网络，参见图6；在这个组合网络中将手写数字图片分别送入到A和B中作为组合网络的输入，然后E的输出送入到支持向量机中，支持向量机的输出作为组合网络的输出：

m₁＝[x₁₁,x₁₂,...,x_1l]

m₂＝[x₂₁,x₂₂,...,x_2n]

m＝[x₁₁,x₁₂,...,x_1l,x₂₁,x₂₂,...,x_2n]

其中m₁和m₂分别代表第一个卷积神经网络和第二个卷积神经网络的全连接层，m代表组合后新的全连接层，x_1l代表第一个卷积神经网络中全连接层第l个神经元，x_2n代表第二个卷积神经网络中全连接层第n个神经元；如图6所示，网络1中全连接层神经元的个数为200个，网络2中全连接层神经元的个数为300个，经过组合操作得到一个新的全连接层，神经元个数为500个，将组合后新的全连接层与支持向量机进行连接，这样就得到了一个组合网络。

步骤9：训练组合网络；由于两个卷积神经网络之前已经训练结束，所以训练组合网络实际上就是训练支持向量机；在组合网络中，手写数字图片的训练集作为组合网络的输入，组合网络全连接层的输出作为支持向量机的训练样本来训练支持向量机，训练支持向量机的基本思想就是在训练样本空间中找到一个最优划分超平面，将不同类别的训练样本分开；

在训练样本中寻找划分超平面的问题表述为：

w^Tx+b＝0

其中x＝{(x₁,y₁),(x₂,y₂),...,(x_m,y_m)}为训练样本，w为法向量，w^T为w的转置向量，b为截距；

假设超平面能将所有的训练样本正确分类，则有：

w^Tx_i+b≥+1,y_i＝+1

w^Tx_i+b≤-1,y_i＝-1

其中(x_i,y_i)为第i个训练样本；

上式中使等式成立的训练样本被称为支持向量，由此可知，两个异类支持向量到超平面的距离之和为：

其中||w||代表w的范数；

支持向量机算法的训练目标就是要找到符合条件的具有最大间隔的划分超平面，这可以写成一个最优化问题：

s.t y_i(w^Tx_i+b)≥1,i＝1,2,...,m

上面的问题经过重写即得到支持向量机的基本型：

s.t y_i(w^Tx_i+b)≥1,i＝1,2,...,m

即支持向量机的训练过程就是求最小值的过程。

步骤10：判断组合网络是否训练结束，如果组合网络找到了最优的划分超平面则组合网络训练结束，继续执行步骤11；未找到最优的划分超平面，则返回步骤9，继续训练。

步骤11：对手写数字图片测试集进行测试，测试集采用的是MINIST数据集中的测试集，通过网络的输出结果与测试集中原有的标签进行对比，得出组合网络的识别率，将手写数字图片测试集送入到组合网络中，进行评估，得出的评估结果，完成基于卷积神经网络和支持向量机的手写数字识别。

本发明的实验效果可以通过以下实验来进一步说明：

实施例10

基于卷积神经网络和支持向量机的手写数字识别方法同实施例1-9，

1、仿真条件

本发明的测试环境为ubuntu16.04，64位***，程序代码是用python3.5编写。硬件环境为Nvidia GeForce GTX850M的GPU，并且内存为8GB的环境下运行。

为了验证本发明对于手写数字识别的有效性，这里选取的数据集是MNIST数据集。MNIST数据集是由Google实验室的Corinna Cortes和纽约大学柯朗研究所的Yann LeCun建立的一个手写数字数据库。

MNIST数据集分为两个部分。第一部分包含60000幅用于训练数据的图像。这些图像扫描自250人的手写样本，书写者中一半人是美国人口普查局的员工，一半人是高校学生。这些图像是28X28大小的灰度图像。第二部分是10000幅用于测试数据的图像，同样是28X28大小的灰度图像。用这些测试数据来评估本发明的准确率。为了让其有好的测试表现，测试数据取自和原始训练数据不同的另外一组250人的手写数字作为测试数据。以保证测试的准确性，能够更客观的评估。

2.仿真内容

本发明选用MNIST中的训练集进行简单的平移扩充，然后进行归一化操作。然后将预处理好的训练集合送入到本发明的组合网络中进行训练，等到训练完成后，将MNIST中的测试集用来评估本发明的组合网络，观察其识别准确率。实验中，训练集和测试集中的图片大小均为28X28像素。

本发明对于近几年来的一些算法进行识别误差率的对比，对比结果如下：

表1显示了近些年了一些流行的算法在手写数字识别上的误差率与本发明在手写数字识别上的误差率的对比。

表1不同算法的手写数字识别误差率对比

实验方法	测试误差(％)
		2layer CNN+2layer NN	0.53
Stochastic Pooling	0.47
		Network in Network	0.47
Maxout Network	0.45
		ML-DNN	0.42
本发明	0.40

仿真实验表明，本发明在简单的预处理操作之后，在手写数字识别上的准确率达到了99.60％，接近了一个比较高的水平，表明了本发明的高准确率，并且本发明测试稳定，未出现准确率的大幅度波动，也表明了本发明具有较好的稳定性和鲁棒性。不需要进行手工的干预，自动完成手写数字识别的任务，大幅度减小工作量，提高工作效率，具有很好的实用性和开发前景。

表1显示了本发明与其他一些算法的对比数据，从表1中可以看出本发明在所示的几个方法中误差率是最低的，由于手写数字识别库中有几个图片书写不规范，人眼亦无法对其做出正确的判断，所以手写数字识别的准确率很难达到100％。其他方法中，虽然有的方法与本发明的准确率接近，但是其他方法需要一些复杂的预处理操作，并且还存在着网络层数较多，训练速度慢，测试结果不稳定的问题；本发明不需要较复杂的预处理操作，仅仅进行简单的平移操作，就可以达到较高的准确率，并且有很好的稳定性和鲁棒性。

简而言之，本发明提出的基于卷积神经网络和支持向量机的手写数字识别方法，属于图像处理与模式识别中的技术领域，主要是解决手写数字识别的问题，可用于金融、邮递、数据统计等相关领域，目的是完成手写数字的自动识别，减少人为干预，减轻工作量。具体做法步骤：对手写数字图片训练集进行简单的扩充处理；对扩充的训练集进行归一化预处理操作；分别搭建两个卷积神经网络，并设置网络的相关超参数；设定两个网络的迭代次数；将预处理好的数据集分别送入到两个卷积神经网络中进行训练；判断是否达到规定的迭代次数，达到设置的迭代次数则网络训练完成；未达到规定的迭代次数，则接着训练；网络训练完成后，保留两个卷积神经网络全连接层前边的卷积层和池化层交替部分，将两个卷积神经网络的全连接层串接并与支持向量机连接得到组合网络；然后开始训练组合网络；训练结束后将组合网络进行准确率的评估测试。本发明在手写数字识别问题上具有一定的自适应性，不仅得到了较高的识别准确率，而且在可靠性和鲁棒性方面得到了提升。

Claims

1.一种基于卷积神经网络和支持向量机的手写数字识别方法，其特征在于，包括如下步骤：

(1):扩充手写数字图片训练集，原始的手写数字图片包括两部分，一部分标记为测试集，一部分标记为训练集，将训练集中手写数字图片进行平移扩充处理，增加训练集中图片的数量；训练集的平移扩充处理指通过批处理操作，将训练集中每张图片分别进行上下左右平移操作，平移大小均为一个像素；

(2):对扩充的训练集进行归一化预处理操作；归一化操作指将扩充后的每张训练集图片的像素值由0到255批处理操作，归一化到0到1，得到归一化后的训练集图像；

(3):分别搭建两个卷积神经网络，两个卷积神经网络全连接层的前边部分为卷积层与池化层交替连接，第一个卷积神经网络的最后一个池化层连接的全连接层神经元个数为L个，第二个卷积神经网络的最后一个池化层连接的全连接层神经元个数为N个，两个卷积神经网络的最后一层均为softmax层，设置两个卷积神经网络的相关超参数；

(4):设定两个卷积神经网络的迭代次数；

(5):训练搭建好的两个卷积神经网络，将预处理好的训练集分别送入到两个卷积神经网络中进行训练；在卷积神经网络的训练过程中，采用反向传播算法(BP算法)对卷积神经网络的连接权值和偏置进行更新，BP算法包括信息的正向传播和误差的反向传播两个过程；同时，为了防止过拟合，全连接层采用dropout方法按照一定的概率丢弃全连接层的神经元；

(6):判断是否达到迭代次数，连接权值和偏置更新过程中，对迭代次数实时进行判断，如果达到设置的迭代次数则卷积神经网络训练完成，执行步骤7；未达到迭代次数，则返回步骤5继续训练，直至训练完成；

(7):搭建一个用于分类的支持向量机模型，并初始化支持向量机的参数；

(8):将两个卷积神经网络与搭建好的支持向量机模型进行组合得到一个组合网络；组合是保留两个卷积神经网络全连接层前边的卷积层和池化层交替连接的部分，将第一和第二卷积神网络中保留的部分分别记为A和B，去掉两个卷积神经网络全连接层后边softmax层，将第一、第二两个卷积神经网络中的全连接层依次串接形成组合网络的全连接层，将这个全连接层记为C，全连接层C分别与第一卷积神网络中保留的部分A和第二卷积神网络中保留的部分B的连接关系不变，全连接层C与支持向量机连接，得到一个完整的组合网络；在这个组合网络中将手写数字图片分别送入到第一卷积神网络中保留的部分A和第二卷积神网络中保留的部分B中作为组合网络的输入，全连接层C的输出送入到支持向量机中，支持向量机的输出作为组合网络的输出；

(9):训练组合网络；由于两个卷积神经网络之前已经训练结束，所以训练组合网络实际上就是训练支持向量机；在组合网络中，手写数字图片的训练集作为组合网络的输入，C的输出作为支持向量机的训练样本来训练支持向量机，在训练样本空间中找到一个最优划分超平面，将不同类别的训练样本分开；

(10):判断组合网络是否训练结束，如果组合网络找到了最优的划分超平面则组合网络训练结束；未找到最优的划分超平面，则返回步骤9，继续训练；

2.根据权利要求1所述的基于卷积神经网络和支持向量机的手写数字识别方法，其特征在于，其中步骤8中将两个卷积神经网络与支持向量机进行组合，组合方法是：保留两个卷积神经网络全连接层前边的卷积层和池化层交替连接的部分去掉两个卷积神经网络全连接层后边softmax层，将第一、第二两个卷积神经网络中的全连接层依次串接形成组合网络的全连接层：

m₁＝[x₁₁,x₁₂,...,x_1l]

m₂＝[x₂₁,x₂₂,...,x_2n]

m＝[x₁₁,x₁₂,...,x_1l,x₂₁,x₂₂,...,x_2n]

其中m₁和m₂分别代表第一个卷积神经网络和第二个卷积神经网络的全连接层，m代表组合网络的全连接层，x_1l代表第一个卷积神经网络中全连接层第l个神经元，x_2n代表第二个卷积神经网络中全连接层第n个神经元；将串接后新的全连接层与支持向量机进行连接，得到一个组合网络。

3.根据权利要求1所述的基于卷积神经网络和支持向量机的手写数字识别方法，其特征在于，其中步骤3中设置两个网络的超参数，设置如下：

第一个卷积神经网络包括2个卷积层，2个池化层，第一个卷积层卷积核大小为6X6，共32个卷积核；第二个卷积层卷积核大小为5X5，共64个卷积核；卷积层步长均为1；第一个池化层的核大小为3X3，核个数为32个；第二个池化层的核大小为3X3，核个数为64；两个池化层的步长均为2；全连接层的神经元个数为200个，各层激活函数均为ReLu函数；

第二个卷积神经网络包括2个卷积层，2个池化层，第一个卷积层卷积核大小为6X6，共32个卷积核；第二个卷积层卷积核大小为5X5，共64个卷积核；卷积层步长均为1；第一个池化层的核大小为3X3，核个数为32个；第二个池化层的核大小为3X3，核个数为64；两个池化层的步长均为2；全连接层的神经元个数为300，各层激活函数均为ReLu函数；

f(x)＝max(0,x)

其中x为各层的输出值，f(x)代表激活函数的输出值。

4.根据权利要求1所述的基于卷积神经网络和支持向量机的手写数字识别方法，其特征在于，其中步骤5所述的为了防止过拟合，全连接层采用dropout方法按照一定的概率丢弃全连接层的神经元中提及的一定的概率采用0.4到0.6。