CN107491729B - 基于余弦相似度激活的卷积神经网络的手写数字识别方法 - Google Patents

基于余弦相似度激活的卷积神经网络的手写数字识别方法 Download PDF

Info

Publication number
CN107491729B
CN107491729B CN201710566272.1A CN201710566272A CN107491729B CN 107491729 B CN107491729 B CN 107491729B CN 201710566272 A CN201710566272 A CN 201710566272A CN 107491729 B CN107491729 B CN 107491729B
Authority
CN
China
Prior art keywords
neural network
image
handwritten
cosine similarity
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710566272.1A
Other languages
English (en)
Other versions
CN107491729A (zh
Inventor
刘昱
穆翀
刘明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710566272.1A priority Critical patent/CN107491729B/zh
Publication of CN107491729A publication Critical patent/CN107491729A/zh
Application granted granted Critical
Publication of CN107491729B publication Critical patent/CN107491729B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于余弦相似度激活的卷积神经网络的手写数字识别方法,步骤一、首先对目标手写数字图像进行预处理,至少包括去噪、增强、图像倾斜纠正和图像尺寸归一化;步骤二、利用转换矩阵,将预处理后的目标手写数字图像转换到颜色分量互不相关的YCrCb颜色空间;步骤三、将余弦相似性引入到卷积神经网络卷积层的激活函数中并完成网络训练,再将步骤二中转换后目标图像输入到训练好的卷积神经网络模型中,进行数字分类判别。与现有技术相比,本发明适用于光照条件和书写条件不佳情况下的手写数字识别,具有实时性好,识别准确率高的特点。

Description

基于余弦相似度激活的卷积神经网络的手写数字识别方法
技术领域
本发明涉及模式识别、人工智能、机器学习等多种技术领域,特别是涉及一种以采用余弦相似度为激活函数的卷积神经网络为特征提取工具的手写数字识别方法。
背景技术
在信息化时代,人工智能是在近20多年逐渐兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。深度学习是人工智能领域一个新的研究方向,近年来基于神经网络尤其是基于深度学习神经网络在语音识别、机器视觉、推荐***等多类应用中取得突破性的进展。其动机在于建立模型模拟人类大脑的神经连接结构,在处理图像、声音和文本这些信号时,通过多个变换阶段分层对数据特征进行描述,进而给出数据的解释。深度学习的本质是通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,并在其他领域的数据处理和分析问题上应用广泛。
随着信息技术的不断发展,***数字成为重要的信息交流工具之一,实现计算机对手写数字准确识别是加快社会信息化进程的关键所在。人们经常运用的数据都是***数字,所以手写体数字的识别研究一直以***数字为主导。手写数字识别是光学字符识别技术的一个重要分支,其在邮政编码、财务报表、银行票据等方面具有广泛的应用,并且一直是图像处理、模式识别领域的研究热点。随着社会的发展,各国经济交流日益加深,人们每天要处理大量的票据,所以手写数字在这个领域是必不可少的,例如人们要处理许多支票、***、货物单等数据,这些都要大量与数字打交道。由于不同的人所写的数字形态各异,千差万别,甚至有的时候书写不规范,即使是同一个人,由于外界和自身因素的影响,也会使手写出的数字出现很大的差异性,所以手写数字的准确识别是极其复杂和困难的。
通俗来说,每个人手写***数字方式都是有所不同的,不同的人所写的数字形态各异,千差万别,同时书写环境的差异导致书写出的数字规范性差异大大增加,用计算机对这种差异性极大的手写数字进行识别分类是很困难的,识别准确率不高,但是随着人工智能的发展,特别是基于深度学习的卷积神经网络在计算机视觉应用中取得的突破性进展,卷积神经网络通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。使准确、快速的识别手写数字成为可能,并且对不同光照条件和差异性很大的手写数字识别具有很强的鲁棒性。
发明内容
基于上述技术问题,本发明提出了一种基于余弦相似度激活的卷积神经网络的手写数字识别方法,目的是提高识别准确率,并且该方法对光照条件和书写条件不佳情况下的手写数字识别具有良好的鲁棒性。
本发明提出的一种基于余弦相似度激活的卷积神经网络的手写数字识别方法,该方法包括以下步骤:
步骤一、首先对目标手写数字图像进行预处理,至少包括去噪、增强、图像倾斜纠正和图像尺寸归一化;
步骤二、利用转换矩阵,将预处理后的目标手写数字图像转换到颜色分量互不相关的YCrCb颜色空间;转换公式如下:
Figure GDA0002379257750000031
步骤三、、将余弦相似性引入到卷积神经网络卷积层的激活函数中并完成网络训练,再将步骤二中转换后目标图像输入到训练好的卷积神经网络模型中,进行数字分类判别;
其中:卷积神经网络中卷积层采用余弦相似度作为相似度函数,其公式为:
Figure GDA0002379257750000032
X=[x1,x2,....,xn]T
Figure GDA0002379257750000033
其中,CosSim
Figure GDA0002379257750000036
为向量
Figure GDA0002379257750000037
与X的余弦相似性;X为输入层输入信号;
Figure GDA0002379257750000038
表示第j层第i个节点的权值模式,
Figure GDA0002379257750000034
表示第j层第s个输入与第i个节点的连接权值。
卷积层激活函数为:
Figure GDA0002379257750000035
其中,T为节点阈值;
所述手写数字图像为***数字图像,且图像为个位数字,数字包括0到9共十个数字,分类判别结果为0到9十类数字中的一类。
与现有技术相比,本发明具有如下积极效果:
本发明适用于光照条件和书写条件不佳情况下的手写数字识别,具有实时性好,识别准确率高的特点。
附图说明
图1为本发明的基于余弦相似度激活的卷积神经网络的手写数字识别方法流程图。
具体实施方式
下面将结合附图对本发明的实施方式作进一步的详细描述。
本发明的基于余弦相似度激活的卷积神经网络的手写数字识别方法,该方法在具体实施时,主要分为两种流程:一是对输入的目标手写数字图像进行处理的流程;二是依据预先设置的手写数字图片数据集进行处理的流程,它们分别包括以下步骤:
本发明可以是对输入的目标手写数字图像进行处理,流程具体包括:
步骤101、输入目标手写数字图像;
步骤102、对输入的目标手写数字图像进行去噪、增强、图像倾斜纠正和图像尺寸归一化等图像预处理;
步骤103、利用转换矩阵将目标图像转换到颜色分量互不相关的YCrCb颜色空间;
转换公式如下:
Figure GDA0002379257750000041
步骤104、将目标图像输入到训练好的卷积神经网络,即将余弦相似性引入到卷积神经网络卷积层的激活函数中,并完成网络训练;卷积层采用余弦相似度作为相似度函数,其公式为:
Figure GDA0002379257750000051
X=[x1,x2,....,xn]T
Figure GDA0002379257750000052
其中:CosSim
Figure GDA0002379257750000056
为向量
Figure GDA0002379257750000057
与X的余弦相似性;X为输入层输入信号;
Figure GDA0002379257750000058
表示第j层第i个节点的权值模式,
Figure GDA0002379257750000053
表示第j层第s个输入与第i个节点的连接权值;
卷积层激活函数公式为:
Figure GDA0002379257750000054
其中,T为节点阈值;
Figure GDA0002379257750000055
将步骤103中转换后目标图像输入到训练好的卷积神经网络模型中,进行数字分类判别);卷积神经网络是端到端的分类模型,在最后一层的全连接层中将之前卷积层学习到的结果映射到0到9这10个数字中,分别对应0到9这10类手写数字图片输入网络所得到的分类结果;
步骤105、输出判别结果;其中:本发明中所述手写数字图像为***数字图像,且图像为个位数字,数字包括0到9共十个数字,分类判别结果为0到9共十类数字中的一类。
本发明也可以依据预先设置的手写数字图片数据集进行处理,流程包括以下步骤:
步骤201、从数据库中选取标注好的手写数字图片数据集;
步骤202、进行数据集图像预处理;
步骤203、利用步骤103中的转换公式进行三通道去相关性处理,数据集图像转换到YCrCb颜色空间;
步骤204、判断是否为训练图片,目的是把数据集分为训练样本集和测试样本集,采用交叉验证评估方法判断是否为训练图片方法;
如果不是训练图片,执行步骤205,则作为测试样本;
步骤206、用测试样本测试训练好的卷积神经网络;
步骤207、利用测试数据集对卷积神经网络进行测试,判断估计准确率是否大于等于阈值;
步骤207、当准确率大于等于阈值时,则网络性能良好,转到步骤104重新训练网络;准确率判断的方法如下:
Atrain≥Atrain_th
其中:Atrain_th是估计准确率阈值,根据经验设定;
如果是训练图片,执行步骤208,作为训练样本;
步骤209,将步骤203中转换后目标图像输入到已经训练好的卷积神经网络模型中;
步骤210,得到训练好的卷积神经网络;转到步骤206,并接着执行后续步骤207。
进行数字分类判别,输出判别结果。
本发明并不局限于前述的具体步骤。本发明扩展到任何本说明书中披露的新特征或任何新的组合,或新的步骤的组合。综上,本说明书内容不应理解为对本发明的限制。

Claims (1)

1.一种基于余弦相似度激活的卷积神经网络的手写数字识别方法,其特征在于,该方法包括以下步骤:
步骤一、首先对目标手写数字图像进行预处理,至少包括去噪、增强、图像倾斜纠正和图像尺寸归一化;
步骤二、利用转换矩阵,将预处理后的目标手写数字图像转换到颜色分量互不相关的YCrCb颜色空间;转换公式如下:
Figure FDA0002379257740000011
步骤三、、将余弦相似性引入到卷积神经网络卷积层的激活函数中并完成网络训练,再将步骤二中转换后目标图像输入到训练好的卷积神经网络模型中,进行数字分类判别;
其中:卷积神经网络中卷积层采用余弦相似度作为相似度函数,其公式为:
Figure FDA0002379257740000012
X=[x1,x2,....,xn]T
Figure FDA0002379257740000013
其中,CosSim(Wi (j),X)为向量Wi (j)与X的余弦相似性;X为输入层输入信号;Wi (j)表示第j层第i个节点的权值模式,
Figure FDA0002379257740000014
表示第j层第s个输入与第i个节点的连接权值;
卷积层激活函数为:
Figure FDA0002379257740000021
其中,T为节点阈值;
所述手写数字图像为***数字图像,且图像为个位数字,数字包括0到9共十个数字,分类判别结果为0到9十类数字中的一类。
CN201710566272.1A 2017-07-12 2017-07-12 基于余弦相似度激活的卷积神经网络的手写数字识别方法 Expired - Fee Related CN107491729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710566272.1A CN107491729B (zh) 2017-07-12 2017-07-12 基于余弦相似度激活的卷积神经网络的手写数字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710566272.1A CN107491729B (zh) 2017-07-12 2017-07-12 基于余弦相似度激活的卷积神经网络的手写数字识别方法

Publications (2)

Publication Number Publication Date
CN107491729A CN107491729A (zh) 2017-12-19
CN107491729B true CN107491729B (zh) 2020-07-28

Family

ID=60643762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710566272.1A Expired - Fee Related CN107491729B (zh) 2017-07-12 2017-07-12 基于余弦相似度激活的卷积神经网络的手写数字识别方法

Country Status (1)

Country Link
CN (1) CN107491729B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154136B (zh) * 2018-01-15 2022-04-05 众安信息技术服务有限公司 用于识别字迹的方法、装置及计算机可读介质
CN109670433A (zh) * 2018-12-13 2019-04-23 南京工程学院 一种基于卷积与夹角余弦距离法的手写数字识别方法
CN110210410B (zh) * 2019-06-04 2022-09-23 南京邮电大学 一种基于图像特征的手写数字识别方法
CN111652108B (zh) * 2020-05-28 2020-12-29 中国人民解放军32802部队 抗干扰的信号识别方法、装置、计算机设备和存储介质
CN111563563B (zh) * 2020-07-16 2020-11-03 南京华苏科技有限公司 一种手写体识别的联合数据的增强方法
CN111967424A (zh) * 2020-08-27 2020-11-20 西南大学 一种基于卷积神经网络的荞麦病害识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320961A (zh) * 2015-10-16 2016-02-10 重庆邮电大学 基于卷积神经网络和支持向量机的手写数字识别方法
CN106599941A (zh) * 2016-12-12 2017-04-26 西安电子科技大学 基于卷积神经网络与支持向量机的手写数字识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320961A (zh) * 2015-10-16 2016-02-10 重庆邮电大学 基于卷积神经网络和支持向量机的手写数字识别方法
CN106599941A (zh) * 2016-12-12 2017-04-26 西安电子科技大学 基于卷积神经网络与支持向量机的手写数字识别方法

Also Published As

Publication number Publication date
CN107491729A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
Hu et al. A novel image steganography method via deep convolutional generative adversarial networks
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及***
Dong et al. Automatic age estimation based on deep learning algorithm
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN110109060A (zh) 一种基于深度学习网络的雷达辐射源信号分选方法及***
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN104866810A (zh) 一种深度卷积神经网络的人脸识别方法
CN109886072B (zh) 基于双向Ladder结构的人脸属性分类***
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
Bhavana et al. Hand sign recognition using CNN
CN106295694A (zh) 一种迭代重约束组稀疏表示分类的人脸识别方法
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN111079847A (zh) 一种基于深度学习的遥感影像自动标注方法
CN109190698B (zh) 一种网络数字虚拟资产的分类识别***及方法
CN107480723B (zh) 基于局部二进制阈值学习网络的纹理识别方法
Angona et al. Automated Bangla sign language translation system for alphabets by means of MobileNet
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Yu et al. Exemplar-based recursive instance segmentation with application to plant image analysis
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN114863572A (zh) 一种多通道异构传感器的肌电手势识别方法
CN103942545A (zh) 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200728

Termination date: 20210712