CN109977737A - 一种基于循环神经网络的字符识别鲁棒性方法 - Google Patents
一种基于循环神经网络的字符识别鲁棒性方法 Download PDFInfo
- Publication number
- CN109977737A CN109977737A CN201711464456.3A CN201711464456A CN109977737A CN 109977737 A CN109977737 A CN 109977737A CN 201711464456 A CN201711464456 A CN 201711464456A CN 109977737 A CN109977737 A CN 109977737A
- Authority
- CN
- China
- Prior art keywords
- input
- character
- prediction
- accuracy
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种基于循环神经网络的字符识别鲁棒性方法,本申请采用的技术方案是:输入端接收字符输入后,提取并串联分类每个输入字符的最主要特征;根据当前时刻的输入与之前时刻的输入,预测当前时刻输入的准确度以及下一时刻的预测输入,返回预测的正确率。本发明将神经网络用于手写识别中,能够解决由于个人手写习惯不同而导致的识别率低的问题,提高手写输入识别的正确性,同时能够根据上下文内容,准确预测下一时刻可能的输入,为用户习惯选择提供方便,用户体验更佳。
Description
技术领域
本发明涉及计算机神经网络技术,尤其涉及一种基于循环神经网络的字符识别鲁棒性方法。
背景技术
手写识别(Handwriting Recognize),是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字内码的一个映射过程,是人机交互最自然、最方便的手段之一。
目前用于手写输入的设备有许多种,比如电磁感应手写板、压感式手写板、触摸屏、触控板、超声波笔等。用户在手写输入设备上书写的笔画以类似于矢量图的形式被计算机存储下来,通过对文字图像的抬笔、落笔、笔迹上各像素的空间位置等信息进行处理与对照,***将数据转化为计算机所使用的文字编码进行输出。随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代,可广泛应用于各种桌面操作***、嵌入式操作***中。
手输入的模式也从单字手写识别发展到了多字手写识别,多字字符的切割是影响手写识别准确性和用户体验性的关键技术,目前采用的字符切割算法大部分是基于规则来完成切割点的判断,且无法给出判断为切割点的概率,因此切割后的字符识别结果经常出现错误,从而导致识别率的下降,影响多字输入的手写体验。
为了提高手写字符输入识别的正确率,排除不同字体,不同大小,不同背景,连笔字,个人手写习惯等诸多因素的影响。本申请借助人工神经网络,结合语义分析,正确的识别出输入的字符。
发明内容
为了提高手写识别的正确率,增强鲁棒性,本申请提供了一种基于循环神经网络的字符识别鲁棒性方法。
本申请采用的技术方案是:一种基于循环神经网络的字符识别鲁棒性方法,输入端接收字符输入后,包括:
提取并串联分类每个输入字符的最主要特征;
根据当前时刻的输入与之前时刻的输入,预测当前时刻输入的准确度以及下一时刻的预测输入,返回当前时刻输入的正确率和下一时刻的多个预测输入。
通过循环计算卷积层和采样层,提取每个输入字符的最主要特征,然后计算全连接层,将每个输入字符的最主要特征依照输入的时间顺序进行串联分类。
采用LSTM算法判断当前时刻与之前时刻的输入是否有用,当上述输入进入LSTM层后,根据规则来判断是否有用,符合算法认证的信息被留下,不符的信息被遗忘。
经Softmax函数,将下一时刻的多个预测输入映射为0至1的数值,即下一时刻的输入的正确率,多个预测输入的正确率的累和为1,从多个预测输入中选择正确率最大的输入作为预测目标输出。
所述方法还包括训练神经网络。
所述训练神经网络具体为:根据误差函数应用链式求导法则求梯度,并更新权重参数,保存权重参数文件。
所述根据误差函数应用链式求导法则求梯度,具体为:计算softmax损失函数;计算LSTM损失函数;计算全连接层损失函数;计算采样层损失函数;计算卷积层反向误差;
所述更新权重参数,具体为:更新softmax参数;更新LSTM权重参数;更新全连接层权重参数;更新卷积层权重参数;保存权重参数文件。。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种基于循环神经网络的字符识别方法流程图;
图2是本发明实施例二提供的一种训练神经网络的方法流程图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本发明实施例一提供了一种基于循环神经网络的字符识别鲁棒性方法,所述方法包括:输入端接收摄像头输入的视频文件,或手写输入的字符或文本文件,开始进入手写识别流程:
步骤101:循环计算卷积层和采样层,提取每个输入字符的最主要特征;
计算卷积层,初步提取出字符的特征,然后进行采样层计算,将字符的特征进行特征选择,得到输入字符最主要的特征;
根据前一阶段的输入,计算连续几帧或几个连续输入的结果,卷积层的结构会根据输入信号形式的不同做出相应的调整,在计算完成连续的几个输入信号后,进入全连接层;
需要说明的是,卷积层和采样层的计算是现有技术,在此不做限定。
步骤102:计算全连接层,将每个输入字符的最主要特征依照输入的时间顺序进行串联分类;
步骤103:计算LSTM层,根据当前时刻的输入与之前时刻的输入,预测当前时刻输入的准确度以及下一时刻的预测输入;
LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,采用LSTM算法判断当前时刻与之前时刻的输入是否有用,当上述输入进入LSTM层后,根据规则来判断是否有用,符合算法认证的信息被留下,不符的信息被遗忘;
计算LSTM层具体包括:
第一步:遗忘门限层,决定哪些信息从单元状态中抛弃;
第二步:决定单元状态中保存哪些新信息,包括:生成临时新状态和更新旧状态;
第三步决定要输出什么:首先通过sigmoid函数决定哪些需要输出,再将单元状态输入到tanh函数,将值转化为-1到1之间,再乘以sigmoid门限值,得到输出。
步骤104:计算softmax函数,返回当前时刻输入的正确率和下一时刻的多个预测输入;
经Softmax函数,将下一时刻的多个预测输入映射为(0,1)的值,即下一时刻的输入的正确率,多个预测输入的正确率的累和为1;
通过以下公式计算预测输入的正确率:假设样本集为V,V中一共有j个元素,那么第i个元素的softmax值为
实施例二
本发明实施例二在实施例一的基础上提供了一种训练神经网络的方法,根据实施例一的前向传播结果,逐层逐部分将误差信号反向传导,从而训练神经网络,如图2所示,包括:
神经网络训练指对人工神经网络训练。向网络输入足够多的样本,通过一定算法调整网络的结构,主要是调节权重参数,使网络的输出与预期值相符,具体操作如下:
步骤201:根据误差函数应用链式求导法则求梯度;
具体为,依次计算softmax损失函数、LSTM损失函数、全连接层损失函数、采样层损失函数、卷积层反向误差;
步骤202:更新权重参数;
具体为,更新softmax参数、更新LSTM权重参数、更新全连接层权重参数、更新卷积层权重参数;
步骤203:保存权重参数文件。
本领域技术人员可以明白,这里结合所公开的实施例描述的各种示例性的方法步骤和装置单元均可以电子硬件、软件或二者的结合来实现。为了清楚地示出硬件和软件之间的可交换性,以上对各种示例性的步骤和单元均以其功能性的形式进行总体上的描述。这种功能性是以硬件实现还是以软件实现依赖于特定的应用和整个***所实现的设计约束。本领域技术人员能够针对每个特定的应用,以多种方式来实现所描述的功能性,但是这种实现的结果不应解释为背离本发明的范围。
利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程的逻辑器件、分立门或者晶体管逻辑、分立硬件组件或者他们之中的任意组合,可以实现或执行结合这里公开的实施例描述的各种示例性的单元。通用处理器可能是微处理器,但是在另一种情况中,该处理器可能是任何常规的处理器、控制器、微控制器或者状态机。处理器也可能被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或者更多结合DSP核心的微处理器或者任何其他此种结构。
结合上述公开的实施例所描述的方法的步骤可直接体现为硬件、由处理器执行的软件模块或者这二者的组合。软件模块可能存在于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其他形式的存储媒质中。一种典型存储媒质与处理器耦合,从而使得处理器能够从该存储媒质中读信息,且可向该存储媒质写信息。在替换实例中,存储媒质是处理器的组成部分。处理器和存储媒质可能存在于一个ASIC中。该ASIC可能存在于一个用户站中。在一个替换实例中,处理器和存储媒质可以作为用户站中的分立组件存在。
根据所述公开的实施例,可以使得本领域技术人员能够实现或者使用本发明。对于本领域技术人员来说,这些实施例的各种修改是显而易见的,并且这里定义的总体原理也可以在不脱离本发明的范围和主旨的基础上应用于其他实施例。以上所述的实施例仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于循环神经网络的字符识别鲁棒性方法,其特征在于,输入端接收字符输入后,包括:
提取并串联分类每个输入字符的最主要特征;
根据当前时刻的输入与之前时刻的输入,预测当前时刻输入的准确度以及下一时刻的预测输入,返回当前时刻输入的正确率和下一时刻的多个预测输入。
2.如权利要求1所述的字符识别方法,其特征在于,通过循环计算卷积层和采样层,提取每个输入字符的最主要特征,然后计算全连接层,将每个输入字符的最主要特征依照输入的时间顺序进行串联分类。
3.如权利要求1所述的字符识别方法,其特征在于,采用LSTM算法判断当前时刻与之前时刻的输入是否有用,当上述输入进入LSTM层后,根据规则来判断是否有用,符合算法认证的信息被留下,不符的信息被遗忘。
4.如权利要求1所述的字符识别方法,其特征在于,经Softmax函数,将下一时刻的多个预测输入映射为0至1的数值,即下一时刻的输入的正确率,多个预测输入的正确率的累和为1,从多个预测输入中选择正确率最大的输入作为预测目标输出。
5.如权利要求1所述的字符识别方法,其特征在于,所述方法还包括训练神经网络。
6.如权利要求5所述的字符识别方法,其特征在于,所述训练神经网络具体为:根据误差函数应用链式求导法则求梯度,并更新权重参数,保存权重参数文件。
7.如权利要求6所述的字符识别方法,其特征在于,所述根据误差函数应用链式求导法则求梯度,具体为:计算softmax损失函数;计算LSTM损失函数;计算全连接层损失函数;计算采样层损失函数;计算卷积层反向误差。
8.如权利要求6所述的字符识别方法,其特征在于,所述更新权重参数,具体为:更新softmax参数;更新LSTM权重参数;更新全连接层权重参数;更新卷积层权重参数;保存权重参数文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711464456.3A CN109977737A (zh) | 2017-12-28 | 2017-12-28 | 一种基于循环神经网络的字符识别鲁棒性方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711464456.3A CN109977737A (zh) | 2017-12-28 | 2017-12-28 | 一种基于循环神经网络的字符识别鲁棒性方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109977737A true CN109977737A (zh) | 2019-07-05 |
Family
ID=67075151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711464456.3A Pending CN109977737A (zh) | 2017-12-28 | 2017-12-28 | 一种基于循环神经网络的字符识别鲁棒性方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977737A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750501A (zh) * | 2019-10-17 | 2020-02-04 | 广州视源电子科技股份有限公司 | 文件检索方法和装置、存储介质及相关设备 |
CN110969165A (zh) * | 2019-11-28 | 2020-04-07 | 中国科学院半导体研究所 | 手写字符识别方法、装置、电子设备及存储介质 |
CN111104912A (zh) * | 2019-12-23 | 2020-05-05 | 西安电子科技大学 | 一种书法字体类型与文字内容同步识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205448A (zh) * | 2015-08-11 | 2015-12-30 | 中国科学院自动化研究所 | 基于深度学习的文字识别模型训练方法和识别方法 |
CN105512692A (zh) * | 2015-11-30 | 2016-04-20 | 华南理工大学 | 基于blstm的联机手写数学公式符号识别方法 |
CN106407874A (zh) * | 2016-03-25 | 2017-02-15 | 东南大学 | 基于笔迹坐标序列的手写识别方法 |
CN106446954A (zh) * | 2016-09-29 | 2017-02-22 | 南京维睛视空信息科技有限公司 | 一种基于深度学习的字符识别方法 |
CN106980856A (zh) * | 2016-01-15 | 2017-07-25 | 上海谦问万答吧云计算科技有限公司 | 公式识别方法及***和符号推理计算方法及*** |
-
2017
- 2017-12-28 CN CN201711464456.3A patent/CN109977737A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205448A (zh) * | 2015-08-11 | 2015-12-30 | 中国科学院自动化研究所 | 基于深度学习的文字识别模型训练方法和识别方法 |
CN105512692A (zh) * | 2015-11-30 | 2016-04-20 | 华南理工大学 | 基于blstm的联机手写数学公式符号识别方法 |
CN106980856A (zh) * | 2016-01-15 | 2017-07-25 | 上海谦问万答吧云计算科技有限公司 | 公式识别方法及***和符号推理计算方法及*** |
CN106407874A (zh) * | 2016-03-25 | 2017-02-15 | 东南大学 | 基于笔迹坐标序列的手写识别方法 |
CN106446954A (zh) * | 2016-09-29 | 2017-02-22 | 南京维睛视空信息科技有限公司 | 一种基于深度学习的字符识别方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750501A (zh) * | 2019-10-17 | 2020-02-04 | 广州视源电子科技股份有限公司 | 文件检索方法和装置、存储介质及相关设备 |
CN110969165A (zh) * | 2019-11-28 | 2020-04-07 | 中国科学院半导体研究所 | 手写字符识别方法、装置、电子设备及存储介质 |
CN110969165B (zh) * | 2019-11-28 | 2024-04-09 | 中国科学院半导体研究所 | 手写字符识别方法、装置、电子设备及存储介质 |
CN111104912A (zh) * | 2019-12-23 | 2020-05-05 | 西安电子科技大学 | 一种书法字体类型与文字内容同步识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5211334B2 (ja) | 手書き記号の認識方法及び装置 | |
JP3426180B2 (ja) | 手書き漢字を自動的にセグメント分割し、認識するための方法およびシステム | |
EP3320482B1 (en) | System for recognizing multiple object input and method and product for same | |
CN102855082B (zh) | 用于重叠文本用户输入的字符识别 | |
CN108154136B (zh) | 用于识别字迹的方法、装置及计算机可读介质 | |
CN103971102A (zh) | 基于手指轮廓和决策树的静态手势识别方法 | |
CN111027605A (zh) | 基于深度学习的细粒度图像识别方法和装置 | |
CN111488732B (zh) | 一种变形关键词检测方法、***及相关设备 | |
CN104616002A (zh) | 用于年龄段判断的面部识别设备 | |
CN109977737A (zh) | 一种基于循环神经网络的字符识别鲁棒性方法 | |
CN110705489B (zh) | 目标识别网络的训练方法、装置、计算机设备和存储介质 | |
CN113780145A (zh) | ***形态检测方法、装置、计算机设备和存储介质 | |
CN109602421A (zh) | 健康监测方法、装置及计算机可读存储介质 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
CN111385659B (zh) | 一种视频推荐方法、装置、设备及存储介质 | |
CN111492407B (zh) | 用于绘图美化的***和方法 | |
CN114937285A (zh) | 动态手势识别方法、装置、设备及存储介质 | |
CN108846339B (zh) | 一种文字识别方法、装置、电子设备和存储介质 | |
WO2024055864A1 (zh) | 结合rpa和ai实现ia的分类模型的训练方法及装置 | |
CN101893960B (zh) | 一种基于方向向量的文字识别方法和识别装置 | |
CN112749727A (zh) | 本地服务器、影像辨识***及其更新方法 | |
Robert et al. | A review on computational methods based automated sign language recognition system for hearing and speech impaired community | |
EP3295292B1 (en) | System and method for superimposed handwriting recognition technology | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
KR102029860B1 (ko) | 실시간 다중 객체 추적 방법과 이를 수행하기 위한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |