CN107491729B

CN107491729B - 基于余弦相似度激活的卷积神经网络的手写数字识别方法

Info

Publication number: CN107491729B
Application number: CN201710566272.1A
Authority: CN
Inventors: 刘昱; 穆翀; 刘明
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2020-07-28
Anticipated expiration: 2037-07-12
Also published as: CN107491729A

Abstract

本发明公开了一种基于余弦相似度激活的卷积神经网络的手写数字识别方法，步骤一、首先对目标手写数字图像进行预处理，至少包括去噪、增强、图像倾斜纠正和图像尺寸归一化；步骤二、利用转换矩阵，将预处理后的目标手写数字图像转换到颜色分量互不相关的YC_rC_b颜色空间；步骤三、将余弦相似性引入到卷积神经网络卷积层的激活函数中并完成网络训练，再将步骤二中转换后目标图像输入到训练好的卷积神经网络模型中，进行数字分类判别。与现有技术相比，本发明适用于光照条件和书写条件不佳情况下的手写数字识别，具有实时性好，识别准确率高的特点。

Description

基于余弦相似度激活的卷积神经网络的手写数字识别方法

技术领域

本发明涉及模式识别、人工智能、机器学习等多种技术领域，特别是涉及一种以采用余弦相似度为激活函数的卷积神经网络为特征提取工具的手写数字识别方法。

背景技术

在信息化时代，人工智能是在近20多年逐渐兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。深度学习是人工智能领域一个新的研究方向，近年来基于神经网络尤其是基于深度学习神经网络在语音识别、机器视觉、推荐***等多类应用中取得突破性的进展。其动机在于建立模型模拟人类大脑的神经连接结构，在处理图像、声音和文本这些信号时，通过多个变换阶段分层对数据特征进行描述，进而给出数据的解释。深度学习的本质是通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，并在其他领域的数据处理和分析问题上应用广泛。

随着信息技术的不断发展，***数字成为重要的信息交流工具之一，实现计算机对手写数字准确识别是加快社会信息化进程的关键所在。人们经常运用的数据都是***数字，所以手写体数字的识别研究一直以***数字为主导。手写数字识别是光学字符识别技术的一个重要分支，其在邮政编码、财务报表、银行票据等方面具有广泛的应用，并且一直是图像处理、模式识别领域的研究热点。随着社会的发展，各国经济交流日益加深，人们每天要处理大量的票据，所以手写数字在这个领域是必不可少的，例如人们要处理许多支票、***、货物单等数据，这些都要大量与数字打交道。由于不同的人所写的数字形态各异，千差万别，甚至有的时候书写不规范，即使是同一个人，由于外界和自身因素的影响，也会使手写出的数字出现很大的差异性，所以手写数字的准确识别是极其复杂和困难的。

通俗来说，每个人手写***数字方式都是有所不同的，不同的人所写的数字形态各异，千差万别，同时书写环境的差异导致书写出的数字规范性差异大大增加，用计算机对这种差异性极大的手写数字进行识别分类是很困难的，识别准确率不高，但是随着人工智能的发展，特别是基于深度学习的卷积神经网络在计算机视觉应用中取得的突破性进展，卷积神经网络通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。使准确、快速的识别手写数字成为可能，并且对不同光照条件和差异性很大的手写数字识别具有很强的鲁棒性。

发明内容

基于上述技术问题，本发明提出了一种基于余弦相似度激活的卷积神经网络的手写数字识别方法，目的是提高识别准确率，并且该方法对光照条件和书写条件不佳情况下的手写数字识别具有良好的鲁棒性。

本发明提出的一种基于余弦相似度激活的卷积神经网络的手写数字识别方法，该方法包括以下步骤：

步骤一、首先对目标手写数字图像进行预处理，至少包括去噪、增强、图像倾斜纠正和图像尺寸归一化；

步骤二、利用转换矩阵，将预处理后的目标手写数字图像转换到颜色分量互不相关的YC_rC_b颜色空间；转换公式如下：

步骤三、、将余弦相似性引入到卷积神经网络卷积层的激活函数中并完成网络训练，再将步骤二中转换后目标图像输入到训练好的卷积神经网络模型中，进行数字分类判别；

其中：卷积神经网络中卷积层采用余弦相似度作为相似度函数，其公式为：

X＝[x₁,x₂,....,x_n]^T

其中，CosSim

为向量

与X的余弦相似性；X为输入层输入信号；

表示第j层第i个节点的权值模式，

表示第j层第s个输入与第i个节点的连接权值。

卷积层激活函数为：

其中，T为节点阈值；

所述手写数字图像为***数字图像，且图像为个位数字，数字包括0到9共十个数字，分类判别结果为0到9十类数字中的一类。

与现有技术相比，本发明具有如下积极效果：

本发明适用于光照条件和书写条件不佳情况下的手写数字识别，具有实时性好，识别准确率高的特点。

附图说明

图1为本发明的基于余弦相似度激活的卷积神经网络的手写数字识别方法流程图。

具体实施方式

下面将结合附图对本发明的实施方式作进一步的详细描述。

本发明的基于余弦相似度激活的卷积神经网络的手写数字识别方法，该方法在具体实施时，主要分为两种流程：一是对输入的目标手写数字图像进行处理的流程；二是依据预先设置的手写数字图片数据集进行处理的流程，它们分别包括以下步骤：

本发明可以是对输入的目标手写数字图像进行处理，流程具体包括：

步骤101、输入目标手写数字图像；

步骤102、对输入的目标手写数字图像进行去噪、增强、图像倾斜纠正和图像尺寸归一化等图像预处理；

步骤103、利用转换矩阵将目标图像转换到颜色分量互不相关的YC_rC_b颜色空间；

转换公式如下：

步骤104、将目标图像输入到训练好的卷积神经网络，即将余弦相似性引入到卷积神经网络卷积层的激活函数中，并完成网络训练；卷积层采用余弦相似度作为相似度函数，其公式为：

X＝[x₁,x₂,....,x_n]^T

其中：CosSim

为向量

与X的余弦相似性；X为输入层输入信号；

表示第j层第i个节点的权值模式，

表示第j层第s个输入与第i个节点的连接权值；

卷积层激活函数公式为：

其中，T为节点阈值；

将步骤103中转换后目标图像输入到训练好的卷积神经网络模型中，进行数字分类判别)；卷积神经网络是端到端的分类模型，在最后一层的全连接层中将之前卷积层学习到的结果映射到0到9这10个数字中，分别对应0到9这10类手写数字图片输入网络所得到的分类结果；

步骤105、输出判别结果；其中：本发明中所述手写数字图像为***数字图像，且图像为个位数字，数字包括0到9共十个数字，分类判别结果为0到9共十类数字中的一类。

本发明也可以依据预先设置的手写数字图片数据集进行处理，流程包括以下步骤：

步骤201、从数据库中选取标注好的手写数字图片数据集；

步骤202、进行数据集图像预处理；

步骤203、利用步骤103中的转换公式进行三通道去相关性处理，数据集图像转换到YC_rC_b颜色空间；

步骤204、判断是否为训练图片，目的是把数据集分为训练样本集和测试样本集，采用交叉验证评估方法判断是否为训练图片方法；

如果不是训练图片，执行步骤205，则作为测试样本；

步骤206、用测试样本测试训练好的卷积神经网络；

步骤207、利用测试数据集对卷积神经网络进行测试，判断估计准确率是否大于等于阈值；

步骤207、当准确率大于等于阈值时，则网络性能良好，转到步骤104重新训练网络；准确率判断的方法如下：

A_train≥A_{train_th}

其中：A_{train_th}是估计准确率阈值，根据经验设定；

如果是训练图片，执行步骤208，作为训练样本；

步骤209，将步骤203中转换后目标图像输入到已经训练好的卷积神经网络模型中；

步骤210，得到训练好的卷积神经网络；转到步骤206，并接着执行后续步骤207。

进行数字分类判别，输出判别结果。

本发明并不局限于前述的具体步骤。本发明扩展到任何本说明书中披露的新特征或任何新的组合，或新的步骤的组合。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于余弦相似度激活的卷积神经网络的手写数字识别方法，其特征在于，该方法包括以下步骤：

X＝[x₁,x₂,....,x_n]^T

其中，CosSim(W_i ^(j),X)为向量W_i ^(j)与X的余弦相似性；X为输入层输入信号；W_i ^(j)表示第j层第i个节点的权值模式，

表示第j层第s个输入与第i个节点的连接权值；

卷积层激活函数为：

其中，T为节点阈值；