CN104504385B - 手写粘连数字串的识别方法 - Google Patents

手写粘连数字串的识别方法 Download PDF

Info

Publication number
CN104504385B
CN104504385B CN201410749989.6A CN201410749989A CN104504385B CN 104504385 B CN104504385 B CN 104504385B CN 201410749989 A CN201410749989 A CN 201410749989A CN 104504385 B CN104504385 B CN 104504385B
Authority
CN
China
Prior art keywords
stroke
numeric string
cut zone
hand
adhesion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410749989.6A
Other languages
English (en)
Other versions
CN104504385A (zh
Inventor
高新闻
管奔博
俞黎卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201410749989.6A priority Critical patent/CN104504385B/zh
Publication of CN104504385A publication Critical patent/CN104504385A/zh
Application granted granted Critical
Publication of CN104504385B publication Critical patent/CN104504385B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种手写粘连数字串的识别方法,包括了以下几个主要步骤:(a)联机手写输入数字串,获取该数字串的笔画数目m、每个笔画所对应的轨迹坐标和该数字串的图像;(b)计算每个笔画各自的中心横坐标;(c)将步骤a所得数字串的图像进行初次分割;(d)将m个笔画分类至M个区域;(e.f.g.h.i)对M个初分割区域进行判断,满足条件直接识别;不满足条件分段识别;(j)返回最终结果。与现有方法相比,本发明可以实现连续手写数字字符串的识别,大大提高手写数字的录入效率。同时,本发明有很强的通用性,对于不同的粘连情况都有好的效果。

Description

手写粘连数字串的识别方法
技术领域
本发明属于手写体数字串的识别方法,特别是一种手写粘连数字串的识别方法。
背景技术
光学字符识别(OCR)技术已经成为人们录入文字信息的关键技术,一个OCR***可以实现将影像中的文字信息转化成相应的计算机文字,大大减少了影像资料的存储空间。同时,提取出的计算机文字信息可以直接用于分析、传输、处理等。因此,OCR技术在各个领域都得到了广泛的应用。现有的OCR技术中,单个手写数字的识别已经广泛使用。但是,这些OCR技术都是基于单个字符的逐个识别,其识别效率太低,不能满足对字符串识别的要求,尤其是字符串粘连时,其识别率就更低。
中国专利2012100769575公开了一种连笔手写字符的识别方法,该方法包括下述步骤:(1)对输入图像进行降噪处理,消除数字噪声;(2)通过基于边缘的字数估计算法计算字数;(3)通过最小代价切分算法计算最佳字符分割方案;(4)通过基于笔画的笔迹跟踪算法确定是否存在需要再切分的块,如果存在需要再切分的块,则返回步骤(2)重新计算、分割;如果不存在,则进行下一步骤;(5)对分割后的字符图像进行OCR识别,转化为计算机文字。该方法能够实现连笔字符的精确分割,提高对连笔字符识别的正确率。但是,该方法仅能够对粘连较少的数字串进行识别,对于粘连较大的数字串的识别,还不能满足实际要求。而且,对于手写粘连数字串识别的通用性差,只能对于一些特定的粘连情况有好的效果。
发明内容
本发明的目的在于克服现有技术中存在的缺陷,提供一种手写粘连数字串的识别方法。
为达到上述目的,本发明采用如下技术方案:
一种手写粘连数字串的识别方法,其特征在于包括以下步骤:
a. 联机手写输入数字串,获取该数字串的笔画数目m、每个笔画所对应的轨迹坐标和该数字串的图像;
b. 根据步骤a所得的每个笔画所对应的轨迹坐标,计算每个笔画各自的中心横坐标,得到这m个笔画的中心横坐标数组avgX[i],i=1,……,m;
c. 将步骤a所得数字串的图像进行初次分割,得到M个初分割区域,并记录该M个初分割区域的左右边界值(Lx[j],Rx[j]),j=1,……,M;
d. 将m个笔画所对应的轨迹坐标的中心横坐标avgX[i],i=1,……,m与M个初分割区域的左右边界值(Lx[j],Rx[j]),j=1,……,M进行对比,若Lx[j]<avgX[i]<Rx[j],则将第i个笔画划归为初分割区域j,得到数组count[j],j=1,……,M,其中count[j]的值表示第j个初分割区域中包含的笔画个数;得到笔画数组V[j][count[j]],保存第j个初分割区域对应不同笔画i的数值;
e.读取步骤d所得数组V[j][count[j]] ,j=1,……,M,判断第j个初分割区域中的笔画个数count[j]是否为1,若是则转入步骤h;否则转入步骤f;
f. 若第j个初分割区域的笔画个数count[j]>1,且该初分割区域的宽高比小于1,即初分割区域的宽度与初分割区域高度的比值小于1,若是则转入步骤h;否则转入步骤g;
g. 数字串的分段识别:读取前2个笔画,采用神经网络算法进行识别,若成功识别则删除这2个笔画,返回识别结果;若不能识别,则读取前1个笔画,采用神经网络算法进行识别,并删除这个已识别的笔画,同时返回识别结果,重复步骤g直至该初分割区域的笔画全部识别完毕,转入步骤i;
h. 采用神经网络算法进行识别,并返回识别结果;
i. 读取笔画数组中的下一个数值V[j+1][count[j+1]],重复步骤e;直至笔画数组中的所有数值均处理完毕;
j. 返回最终识别结果,得到手写粘连数字串所表示的数值。
上述的步骤a的具体步骤为:
a-1. 检测手写数字之间的提笔和落笔,记录字符串的笔画数目m;
a-2. 获取m个笔画相对应的轨迹坐标:笔画的轨迹坐标用(Xn,Yn)点坐标序列表示:(X1,Y1),(X2,Y2),…,(Xn,Yn),其中n是笔画的采样点数。
a-3. 得到轨迹坐标数组Datapoint[m][n],m就是字符串的笔画数目;Datapoint[i][n]保存第i个笔画的轨迹坐标,i=1,2,3…,m。
上述的步骤c的具体步骤为:
c-1. 图像的灰度化,图像的灰度化采用加权平均的方法,公式如下:
Colorpoint = 0.30*R +0.59*G +0.11*B (1.1)
c-2. 图像的二值化,二值化时选取特定阈值A,A的取值范围50~200;当某个点的灰度值大于A时,设该点为白色,否则为黑色;
c-3. 图像的初次分割:检测字符之间的白色像素列来确定初分割区域的边界,分别记录M个初分割区域的左右边界值(Lx[M],Rx[M])。
本发明通过获取录入字符串的笔画信息,经过预处理、粗分割区域笔画信息判断、粗分割区域识别和未识别区域的分段依次识别,能够实现对粘连较大数字串的识别。同时,本发明有很强的通用性,对于不同的粘连情况都有好的效果。
附图说明
图1是本发明手写粘连数字串识别方法的总的流程示意图;
图2是本发明方法中数字识别的识别流程图。
图3为本发明方法中分段识别的识别流程图。
图4是本发明实施例中的手写粘连数字串图像。
图5是本发明实施例中得到的初分割区域。
具体实施方式:
为了使本领域中的技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请的技术方案进行更加清楚、完整的表述。本发明的优选实例详述如下:
实施例一:
参见图1,一种手写粘连数字串的识别方法,包括以下几个主要步骤:
a. 联机手写输入数字串,获取该数字串的笔画数目m、每个笔画所对应的轨迹坐标和该数字串的图像;
步骤a的具体步骤为:
a-1. 检测手写数字之间的提笔和落笔,记录字符串的笔画数目m;
a-2. 获取m个笔画相对应的轨迹坐标:笔画的轨迹坐标用(Xn,Yn)点坐标序列表示:(X1,Y1),(X2,Y2),…,(Xn,Yn),其中n是笔画的采样点数。
a-3. 得到轨迹坐标数组Datapoint[m][n],m就是字符串的笔画数目;Datapoint[i][n]保存第i个笔画的轨迹坐标,i=1,2,3…,m。
参见图4,本实施例中手写粘连数字串的笔画数目m为7,取n为50。
b. 根据步骤a所得的每个笔画所对应的轨迹坐标,计算每个笔画各自的中心横坐标,得到这7个笔画的中心横坐标数组avgX[i],i=1,……,7;
c. 将步骤a所得数字串的图像进行初次分割,得到M个初分割区域,并记录该M个初分割区域的左右边界值(Lx[j],Rx[j]),j=1,……,M;
步骤c的具体步骤为:
c-1. 图像的灰度化,图像的灰度化采用加权平均的方法,公式如下:
Colorpoint = 0.30*R +0.59*G +0.11*B (1.1)
c-2. 图像的二值化,二值化时选取特定阈值A,A的取值范围50~200;当某个点的灰度值大于A时,设该点为白色,否则为黑色;
c-3. 图像的初次分割:检测字符之间的白色像素列来确定初分割区域的边界,分别记录M个初分割区域的左右边界值(Lx[M],Rx[M])。
参见图5,本实施例中初分割区域的数目M为3。
d. 将7个笔画所对应的轨迹坐标的中心横坐标avgX[7],i=1,……,7与3个初分割区域的左右边界值(Lx[j],Rx[j]),j=1,2,3进行对比,若Lx[j]<avgX[i]<Rx[j],则将第i个笔画划归为初分割区域j,得到数组count[j],j=1,……,M,其中count[j]的值表示第j个初分割区域中包含的笔画个数;得到笔画数组V[j][count[j]],保存第j个初分割区域对应不同笔画i的数值;
e. f. g. h. i. 对3个初分割区域进行判断,满足条件直接识别;不满足条件分段识别法识别;
j. 返回最终识别结果,得到手写粘连数字串所表示的数值。
实施例二:
参见图2,数字串的识别方法,包括以下几个主要步骤:
e.读取步骤d所得数组V[j][count[j]] ,j=1,2,3,判断第j个初分割区域中的笔画个数count[j]是否为1,若是则转入步骤h;否则转入步骤f;
f. 若第j个初分割区域的笔画个数count[j]>1,且该初分割区域的宽高比小于1,即初分割区域的宽度与初分割区域高度的比值小于1,若是则转入步骤h;否则转入步骤g;
g. 数字串的分段识别,转入步骤i;
h. 采用神经网络算法进行识别,并返回识别结果;
i. 读取笔画数组中的下一个数值V[j+1][count[j+1]],重复步骤e;直至笔画数组中的所有数值均处理完毕;
j. 返回最终识别结果,得到手写粘连数字串所表示的数值。
实施例三:
参见图3,分段识别方法,步骤如下:
读取前2个笔画,采用神经网络算法进行识别,若成功识别则删除这2个笔画,返回识别结果;若不能识别,则读取前1个笔画,采用神经网络算法进行识别,并删除这个已识别的笔画,同时返回识别结果,重复步骤g直至该初分割区域的笔画全部识别完毕。

Claims (3)

1.一种手写粘连数字串的识别方法,其特征在于包括以下步骤:
a. 联机手写输入数字串,获取该数字串的笔画数目m、每个笔画所对应的轨迹坐标和该数字串的图像;
b. 根据步骤a所得的每个笔画所对应的轨迹坐标,计算每个笔画各自的中心横坐标,得到这m个笔画的中心横坐标数组avgX[i],i=1,……,m;
c. 将步骤a所得数字串的图像进行初次分割,得到M个初分割区域,并记录该M个初分割区域的左右边界值(Lx[j],Rx[j]),j=1,……,M;
d. 将m个笔画所对应的轨迹坐标的中心横坐标avgX[i],i=1,……,m与M个初分割区域的左右边界值(Lx[j],Rx[j]),j=1,……,M进行对比,若Lx[j]<avgX[i]<Rx[j],则将第i个笔画划归为初分割区域j,得到数组count[j],j=1,……,M,其中count[j]的值表示第j个初分割区域中包含的笔画个数;得到笔画数组V[j][count[j]],保存第j个初分割区域对应不同笔画i的数值;
e. 数字串的识别:读取步骤d所得数组V[j][count[j]] ,j=1,……,M,判断第j个初分割区域中的笔画个数count[j]是否为1,若是则转入步骤h;否则转入步骤f;
f. 若第j个初分割区域的笔画个数count[j]>1,且该初分割区域的宽高比小于1,即初分割区域的宽度与初分割区域高度的比值小于1,若是则转入步骤h;否则转入步骤g;
g. 数字串的分段识别:读取前2个笔画,采用神经网络算法进行识别,若成功识别则删除这2个笔画,返回识别结果;若不能识别,则读取前1个笔画,采用神经网络算法进行识别,并删除这个已识别的笔画,同时返回识别结果,重复步骤g直至该初分割区域的笔画全部识别完毕,转入步骤i;
h. 采用神经网络算法进行识别,并返回识别结果;
i. 读取笔画数组中的下一个数值V[j+1][count[j+1]],重复步骤e;直至笔画数组中的所有数值均处理完毕;
j. 返回最终识别结果,得到手写粘连数字串所表示的数值。
2.根据权利要求1所述的手写粘连数字串的识别方法,其特征在于所述的步骤a的具体步骤为:
a-1. 检测手写数字之间的提笔和落笔,记录字符串的笔画数目m;
a-2. 获取m个笔画相对应的轨迹坐标:笔画的轨迹坐标用(Xn,Yn)点坐标序列表示:(X1,Y1),(X2,Y2),…,(Xn,Yn),其中n是笔画的采样点数;
a-3. 得到轨迹坐标数组Datapoint[m][n],m就是字符串的笔画数目;Datapoint[i][n]保存第i个笔画的轨迹坐标,i=1,2,3…,m。
3.根据权利要求1所述的手写粘连数字串的识别方法,其特征在于所述的步骤c的具体步骤为:
c-1. 图像的灰度化,图像的灰度化采用加权平均的方法,公式如下:
Colorpoint = 0.30*R +0.59*G +0.11*B (1.1)
c-2. 图像的二值化,二值化时选取特定阈值A,A的取值范围50~200;当某个点的灰度值大于A时,设该点为白色,否则为黑色;
c-3. 图像的初次分割:检测字符之间的白色像素列来确定初分割区域的边界,分别记录M个初分割区域的左右边界值(Lx[M],Rx[M])。
CN201410749989.6A 2014-12-10 2014-12-10 手写粘连数字串的识别方法 Expired - Fee Related CN104504385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410749989.6A CN104504385B (zh) 2014-12-10 2014-12-10 手写粘连数字串的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410749989.6A CN104504385B (zh) 2014-12-10 2014-12-10 手写粘连数字串的识别方法

Publications (2)

Publication Number Publication Date
CN104504385A CN104504385A (zh) 2015-04-08
CN104504385B true CN104504385B (zh) 2017-12-22

Family

ID=52945781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410749989.6A Expired - Fee Related CN104504385B (zh) 2014-12-10 2014-12-10 手写粘连数字串的识别方法

Country Status (1)

Country Link
CN (1) CN104504385B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341429B (zh) * 2016-04-28 2020-09-01 富士通株式会社 手写粘连字符串的切分方法、切分装置和电子设备
CN110659645B (zh) * 2019-08-05 2023-01-31 沈阳工业大学 一种数字仪表字符识别方法
CN116824597B (zh) * 2023-07-03 2024-05-24 金陵科技学院 动态图像分割及并行学习手写身份证数字及身份识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314252A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 一种手写字符串的字符切分方法和装置
CN102663378A (zh) * 2012-03-22 2012-09-12 杭州新锐信息技术有限公司 连笔手写字符的识别方法
CN103605973A (zh) * 2013-10-25 2014-02-26 四川长虹电器股份有限公司 一种图像字符检测鉴别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188512A (ja) * 2000-09-29 2007-07-26 Japan Science & Technology Agency 文字認識方法、文字認識プログラム及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314252A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 一种手写字符串的字符切分方法和装置
CN102663378A (zh) * 2012-03-22 2012-09-12 杭州新锐信息技术有限公司 连笔手写字符的识别方法
CN103605973A (zh) * 2013-10-25 2014-02-26 四川长虹电器股份有限公司 一种图像字符检测鉴别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
包含小数点的手写数字串切分与识别;刘聪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140815(第08期);第四章 *

Also Published As

Publication number Publication date
CN104504385A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
Tang et al. Text-independent writer identification via CNN features and joint Bayesian
CN105184292B (zh) 自然场景图像中手写体数学公式结构分析与识别方法
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
Kumar et al. Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition
CN102663378B (zh) 连笔手写字符的识别方法
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
Dave Segmentation methods for hand written character recognition
CN104778470B (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN102073870A (zh) 一种触摸屏汉字笔迹识别方法
JP2009037621A (ja) 低品質文字の識別方法及び装置
Al-Dmour et al. Segmenting Arabic handwritten documents into text lines and words
CN104392229A (zh) 基于笔画片段方向分布特征的笔迹识别方法
Alrehali et al. Historical Arabic manuscripts text recognition using convolutional neural network
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
CN104239910B (zh) 一种联机手写汉字笔画续笔的识别方法
CN104504385B (zh) 手写粘连数字串的识别方法
CN110516673A (zh) 基于连通分量和回归式字切分的彝文古籍字符检测方法
Verma et al. Removal of obstacles in Devanagari script for efficient optical character recognition
De Stefano et al. Layout measures for writer identification in mediaeval documents
CN107292255B (zh) 基于特征矩阵相似度分析的手写数字识别方法
Saabni Efficient recognition of machine printed Arabic text using partial segmentation and Hausdorff distance
Lue et al. A novel character segmentation method for text images captured by cameras
Li An effective approach to offline arabic handwriting recognition
CN107066997A (zh) 一种基于图像识别的电气元件报价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171222

Termination date: 20201210

CF01 Termination of patent right due to non-payment of annual fee