CN103927535A - 一种汉字书写识别方法及装置 - Google Patents

一种汉字书写识别方法及装置 Download PDF

Info

Publication number
CN103927535A
CN103927535A CN201410193442.2A CN201410193442A CN103927535A CN 103927535 A CN103927535 A CN 103927535A CN 201410193442 A CN201410193442 A CN 201410193442A CN 103927535 A CN103927535 A CN 103927535A
Authority
CN
China
Prior art keywords
stroke
real
time
chinese character
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410193442.2A
Other languages
English (en)
Other versions
CN103927535B (zh
Inventor
闻申生
靳骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HANYI KEYIN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING HANYI KEYIN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HANYI KEYIN INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING HANYI KEYIN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410193442.2A priority Critical patent/CN103927535B/zh
Publication of CN103927535A publication Critical patent/CN103927535A/zh
Application granted granted Critical
Publication of CN103927535B publication Critical patent/CN103927535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种汉字书写识别方法及装置,用于实现对汉字书写过程的识别,该方法包括:预先保存标准汉字的标准笔画数据,标准笔画数据包括标准汉字中各个标准笔画的顺序信息及每个标准笔画的方向位置信息;采集用户通过输入的实时汉字的实时笔画数据,实时汉字与指定汉字相同,指定汉字是标准汉字中的一个,实时笔画数据包括实时汉字中各个实时笔画的顺序信息及每个实时笔画的方向位置信息;根据实时笔画的方向位置信息与指定汉字的标准笔画的方向位置信息,获得指定汉字的各个标准笔画与实时汉字的实时笔画之间的对应关系;根据对应关系,将指定汉字的标准笔画数据与实时汉字的实时笔画数据进行对比,获得对实时汉字书写过程正确性的识别结果。

Description

一种汉字书写识别方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种汉字书写识别方法及装置。
背景技术
汉字广泛应用于人们的日常生活工作当中,在现有技术中,利用计算机自动识别字符的技术已经比较成熟,例如OCR(Optical Character Recognition,光学字符识别)是利用电子设备,如扫描仪或数码相机,检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。
在上述应用中对文字的识别是以文字为单位,以判断出输入的是什么字符为识别目标,但是,在一些领域中,汉字的书写过程也需要被关注,例如汉字字形、笔画方向、笔画顺序、笔画位置等方面是否正确,而在现有技术中,尚不存在对文字书写过程进行识别的技术。
发明内容
有鉴于此,本发明提供一种汉字书写识别方法及装置,以实现对文字书写过程正确性进行识别。
为解决上述问题,本发明提供的技术方案如下:
一种汉字书写识别方法,预先保存标准汉字的标准笔画数据,每个所述标准汉字的标准笔画数据包括该标准汉字中各个标准笔画的顺序信息以及每个标准笔画的方向位置信息;所述方法包括:
采集用户通过笔画方式输入的实时汉字的实时笔画数据,所述实时汉字与指定汉字相同,所述指定汉字是所述标准汉字中的一个,所述实时汉字的实时笔画数据包括该实时汉字中各个实时笔画的顺序信息以及每个实时笔画的方向位置信息;
根据所述实时笔画的方向位置信息与所述指定汉字的标准笔画的方向位置信息,获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系;
根据所述对应关系,将所述指定汉字的标准笔画数据与所述实时汉字的实时笔画数据进行对比,获得对所述实时汉字书写过程正确性的识别结果。
相应的,所述根据所述实时笔画的方向位置信息与所述指定汉字的标准笔画的方向位置信息,获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系,包括:
选取所述指定汉字中的一个标准笔画;
根据该标准笔画的方向位置信息以及所述实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画;
返回重新选取所述指定汉字中的一个标准笔画,直到获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系。
相应的,所述标准笔画的方向位置信息包括组成所述标准笔画的多个点的坐标,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标;
所述根据该标准笔画的方向位置信息以及所述实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,包括:
通过增加或删除所述实时笔画中的点,使所述实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同;
分别计算第n个实时笔画中第m个实时笔画点与该标准笔画中第m个标准笔画点之间的坐标差,并计算第n个实时笔画对应的m个坐标差之和,m的取值范围为1到该标准笔画点的个数,n的取值范围为1到所述实时汉字的实时笔画个数;
选择最小的坐标差之和对应的实时笔画作为与该标准笔画距离最小的实时笔画。
相应的,在通过增加或删除所述实时笔画中的点,使所述实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同之后,所述方法还包括:
获得所述标准汉字的最小矩形范围;
以所述标准汉字的最小矩形范围为基准位置,对所述实时汉字进行平移;
获得平移后的实时笔画的方向位置信息,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标。
相应的,所述根据所述对应关系,将所述指定汉字的标准笔画数据与所述实时汉字的实时笔画数据进行对比,获得对所述实时汉字书写过程正确性的识别结果,包括:
根据所述实时汉字的各个实时笔画的顺序信息与所述指定汉字的各个标准笔画的顺序信息,判断所述实时汉字的实时笔画数与所述指定汉字的标准笔画数是否相同,如果否,查找获得增加或缺失的笔画位置;
判断所述实时汉字的各个实时笔画的顺序与所述指定汉字的各个标准笔画的顺序是否相同,如果否,获得顺序不一致的笔画位置;
根据所述对应关系,比较所述实时汉字中实时笔画的方向位置信息与所述指定汉字中对应的标准笔画的方向位置信息,获得各个所述实时笔画书写过程的识别结果信息。
一种汉字书写识别装置,所述装置包括:
保存单元,用于预先保存标准汉字的标准笔画数据,每个所述标准汉字的标准笔画数据包括该标准汉字中各个标准笔画的顺序信息以及每个标准笔画的方向位置信息;
采集单元,用于采集用户通过笔画方式输入的实时汉字的实时笔画数据,所述实时汉字与指定汉字相同,所述指定汉字是所述标准汉字中的一个,所述实时汉字的实时笔画数据包括该实时汉字中各个实时笔画的顺序信息以及每个实时笔画的方向位置信息;
第一获得单元,用于根据所述实时笔画的方向位置信息与所述指定汉字的标准笔画的方向位置信息,获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系;
第二获得单元,用于根据所述对应关系,将所述指定汉字的标准笔画数据与所述实时汉字的实时笔画数据进行对比,获得对所述实时汉字书写过程正确性的识别结果。
相应的,所述第一获得单元包括:
第一选取子单元,用于选取所述指定汉字中的一个标准笔画;
第一计算子单元,用于根据该标准笔画的方向位置信息以及所述实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画;
循环子单元,用于返回所述选取子单元重新选取所述指定汉字中的一个标准笔画,直到获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系。
相应的,所述标准笔画的方向位置信息包括组成所述标准笔画的多个点的坐标,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标;
所述第一计算子单元包括:
点数一致性子单元,用于通过增加或删除所述实时笔画中的点,使所述实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同;
第二计算子单元,用于分别计算第n个实时笔画中第m个实时笔画点与该标准笔画中第m个标准笔画点之间的坐标差,并计算第n个实时笔画对应的m个坐标差之和,m的取值范围为1到该标准笔画点的个数,n的取值范围为1到所述实时汉字的实时笔画个数;
第二选取子单元,选择最小的坐标差之和对应的实时笔画作为与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画。
相应的,所述第一计算子单元还包括:
平移更新子单元,用于获得所述标准汉字的最小矩形范围;以所述标准汉字的最小矩形范围为基准位置,对所述实时汉字进行平移;获得平移后的实时笔画的方向位置信息,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标。
相应的,所述第二获得单元包括:
第一判断子单元,用于根据所述实时汉字的各个实时笔画的顺序信息与所述指定汉字的各个标准笔画的顺序信息,判断所述实时汉字的实时笔画数与所述指定汉字的标准笔画数是否相同,如果否,查找获得增加或缺失的笔画位置;
第二判断子单元,用于判断所述实时汉字的各个实时笔画的顺序与所述指定汉字的各个标准笔画的顺序是否相同,如果否,获得顺序不一致的笔画位置;
比较子单元,用于根据所述对应关系,比较所述实时汉字中实时笔画的方向位置信息与所述指定汉字中对应的标准笔画的方向位置信息,获得各个所述实时笔画书写过程的识别结果信息。
由此可见,本发明实施例具有如下有益效果:
在本发明实施例中通过预先保存标准笔画数据,在采集到输入的实时汉字后,以汉字笔画为单位,对实时笔画数据与标准笔画数据进行对比,获得标准笔画与实时笔画之间的对应关系,进一步获得对实时汉字书写过程如每个笔画方向、位置、顺序正确性的识别结果,从而实现对实时汉字书写过程正确性的识别。
附图说明
图1为本发明实施例中提供的汉字书写识别方法实施例一的流程图;
图2为本发明实施例中提供的汉字书写识别方法实施例二的流程图;
图3为本发明实施例中提供的汉字书写识别装置实施例的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。
本发明实施例提供的汉字书写识别方法及装置,针对现有技术中尚不存在对文字书写过程进行识别的问题,提出以汉字笔画为单位进行汉字书写过程的跟踪判断,从而获得汉字书写过程正确性的识别结果,例如笔画顺序是否正确、笔画个数是否正确,笔画书写是否正确等等。
基于上述思想,参见图1所示,本发明实施例中提供的汉字书写识别方法实施例一,可以包括以下步骤:
步骤101:预先保存标准汉字的标准笔画数据,每个标准汉字的标准笔画数据包括该标准汉字中各个标准笔画的顺序信息以及每个标准笔画的方向位置信息。
汉字由笔画组成,笔画可以分成五种:横、竖、撇、点、折,可以分别用数字12345进行编码,这样每个汉字就有唯一的笔顺编码,即各个笔画的顺序信息,其中也包括唯一的笔画数。例如,汉字编码标准GB2312中有6763个汉字,笔画最少的是1笔的“一”,笔顺编码即为(1),笔画最多的是30笔的“爨”,笔顺编码为(321125125151145123412341344334)。同时,每个笔画是包含方向与位置的,例如横的笔画方向是自左而右,竖的笔画方向是自上而下等等。
在本发明的一些实施例中,标准笔画的方向位置信息可以包括组成标准笔画的多个点的坐标,每个笔画至少包括起点和终点两个点,每个笔画由起点到终点为顺序的多个坐标点组成。
标准汉字可以以汉字编码标准GB2312作为字形基础,将标准书法进行数字化,即把标准汉字中每个笔画分离作为标准笔画,按正确的顺序排序,并对每个标准笔画进行单线化处理,就是把数据格式转变成具有方向顺序的坐标点集合,获得标准笔画序列的参照数据,即标准笔画数据。
步骤102:采集用户通过笔画方式输入的实时汉字的实时笔画数据,实时汉字与指定汉字相同,指定汉字是标准汉字中的一个,实时汉字的实时笔画数据包括该实时汉字中各个实时笔画的顺序信息以及每个实时笔画的方向位置信息。
由于本发明实施例是对汉字书写过程的识别,因此需要在书写汉字时已经知道需要书写的字,即用户输入的是指定汉字,指定汉字又是预先进行过标准笔画数据保存的标准汉字中的一个。
用户可以利用输入设备完成电子汉字书写过程,例如使用鼠标、电子书写笔、点读笔在点读纸上书写、手直接在平板上书写等。
同样的,在本发明的一些实施例中,采集得到的实时笔画数据中的方向位置信息也可以包括组成实时笔画的多个点的坐标,即通过电子设备输入的数据是具有起点和终点的带有前后顺序的坐标点集合,将书写的顺序和位置存入数据集合中。
采集实时数据的数据区域和标准数据的数据区域需要进行一致性处理,例如,将标准汉字的方向位置信息与实时汉字的方向位置信息均映射到相同的原点位置以及1000x1000的空间范围。
步骤103:根据实时笔画的方向位置信息与指定汉字的标准笔画的方向位置信息,获得指定汉字的各个标准笔画与实时汉字的实时笔画之间的对应关系。
在本发明的一些实施例中步骤103的具体实现可以包括:选取指定汉字中的一个标准笔画;根据该标准笔画的方向位置信息以及实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画;返回重新选取指定汉字中的一个标准笔画,直到获得指定汉字的各个标准笔画与实时汉字的实时笔画之间的对应关系。
也即以指定汉字中各个标准笔画的顺序,取出一个标准笔画和所有的实时笔画进行比较,获得最小距离的实时笔画与该标准笔画对应,从而获得标准笔画与实时笔画之间的对应关系,这样即可通过预先保存的标准笔画数据对各个实时笔画在书写过程中是否正确进行识别。
步骤104:根据对应关系,将指定汉字的标准笔画数据与实时汉字的实时笔画数据进行对比,获得对实时汉字书写过程正确性的识别结果。
笔画的方向和位置以及笔画的顺序和数量是构成汉字书写正确性的二大要素,通过指定汉字的各个标准笔画与实时汉字的实时笔画之间的对应关系,进行指定汉字的标准笔画数据与实时汉字的实时笔画数据的对比,从而可以对实时笔画的笔画方向、笔画顺序、笔画位置、字形正确性、部件结构等各方面进行汉字书写过程正确性的识别。
这样,在本发明实施例中通过预先保存标准笔画数据,在采集到输入的实时汉字后,以汉字笔画为单位,对实时笔画数据与标准笔画数据进行对比,获得标准笔画与实时笔画之间的对应关系,进一步获得对实时汉字书写过程如每个笔画方向、位置、顺序正确性的识别结果,从而实现对实时汉字书写过程正确性的识别。本发明实施例可以应用于汉字电子字帖,指导书写过程提供书写结果的正确性识别结果并可以给出书写过程修正建议。
在本发明的实施例中,获得标准笔画与实时笔画之间的对应关系是较为关键的步骤,以下对该步骤的实现方式进行具体的说明。
上述实施例中,根据该标准笔画的方向位置信息以及实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画的具体实现可以包括:
通过增加或删除实时笔画中的点,使实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同;
分别计算第n个实时笔画中第m个实时笔画点与该标准笔画中第m个标准笔画点之间的坐标差,并计算第n个实时笔画对应的m个坐标差之和,m的取值范围为1到该标准笔画点的个数,n的取值范围为1到实时汉字的实时笔画个数;
选择最小的坐标差之和对应的实时笔画作为与该标准笔画距离最小的实时笔画。
在本发明的一些实施例中,在通过增加或删除实时笔画中的点,使实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同之后,还包括:
获得标准汉字的最小矩形范围;以标准汉字的最小矩形范围为基准位置,对实时汉字进行平移;获得平移后的实时笔画的方向位置信息,实时笔画的方向位置信息包括组成实时笔画的多个点的坐标。
具体的,在实际应用中可以以汉字编码标准GB2312的6763个汉字为基础,以组成标准汉字与实时汉字坐标点在1000x1000的平面内为例。汉字集合用H表示H=(C1,…,C6763),每个汉字由n个笔画组成,每一个笔画都有一个笔顺编码,笔顺编码的自然顺序相对应,可以用S代表笔画,则一个汉字Ci的笔画集合为Ci=(S1,…,Sn),每个笔画由起点到终点为顺序的m个坐标点组成,用P代表坐标点,则一个笔画Sj的坐标点集合为Sj=(P1,…,Pm),坐标点Pk=(x,y),x,y在(0,1000)的区域内。这样将标准笔画转换为一个以起点为起始,终点为止的系列坐标点顺序集合,可以代表笔画的方向、位置。每个汉字是n个笔画,每个笔画是m个坐标点,所以每个汉字可以归纳为n*m个不定长数组模型。
一般标准汉字的标准笔画数据可以由书法家书写的字帖数据中获得,按照上述数据格式可以得到标准笔画数据:标准汉字集合HS,标准汉字的标准笔画集合CS,标准笔画的标准笔画点集合SS以及各个标准笔画点坐标PS,同样的,也可以按照上述格式采集得到实时汉字的实时笔画数据:实时汉字集合HR,实时汉字的实时笔画集合CR,实时笔画的实时笔画点集合SR以及各个实时笔画点坐标PR,其中标准汉字集合HS与实时汉字集合HR相同。
将CS和CR的一一比较,一般情况是标准笔画中标准笔画点数较少,实时采集实时笔画点数较多,需要进行删点处理,使得标准笔画的和实时笔画的坐标点数一样多,且集合中所有笔画的坐标点数一样多,这里需要一个删点或加点的操作。
删点操作是以索引值为基础,如需要20点,实时笔画50点,可以每隔2.5点删点,即奇数点挑一点,偶数点挑二点,使得最后点数都是20点;加点操作就是把点和点之间距离较大的二点之间加上一点,而后递归,直到加到20点为止。在本发明的实施例中,如何增加或删除实时笔画中的点的方式并不进行具体限制。
再将实时汉字通过整字平移的方式与标准汉字所在区域进行校准,从而可以使后续识别更加准确,具体可以通过以标准汉字的最小矩形范围为基准位置,对实时汉字进行平移,例如将实时汉字的最小矩形左下角与标准汉字的最小矩形左下角对齐,从而使得实时笔画与标准笔画差值具有一致性。
对于每一个SR和每一个SS进行比较,每一个坐标点之间根据下标一一对应,求出二点之间的距离,设一个标准笔画的标准笔画点为psm=(xsm,ysm)、当前实时笔画的实时笔画点为prm=(xrm,yrm),计算两者之间的距离为m的取值范围为1到该标准笔画点的个数,对求得的m个两点之间的距离求和,得到当前实时笔画对应的坐标差之和,返回计算该标准笔画中标准笔画点与下一个实时笔画中实时笔画点之间的距离并求和,这样可以获得n个坐标差之和,n的最大值为实时汉字的实时笔画个数,选取n个坐标差之和中的最小值对应的实时笔画则为与标准笔画对应的实时笔画,进一步可以得到各个标准笔画与实时笔画的对应关系。
参见图2所示,是本发明实施例中提供的汉字书写识别方法实施例二,可以包括以下步骤:
步骤201:标准汉字数据采集。将书法名家书写的标准汉字,进行数据扫描和采集,形成标准化的字库格式TTF(True Type Font)或OTF(Open TypeFont),TTF或OTF字库是各个操作***可以使用的标准字库格式,对于字形轮廓化描述的结果。
步骤202:标准笔画数据特征化处理。对于TTF字库进行特征化处理,形成标准汉字的标准笔画数据。
步骤203:标准汉字的字形属性参数加入。每个汉字还有其字形属性:例如笔画矩形位置,字形结构信息、部件矩形等。
步骤204:实时笔画数据采集。通过输入设备进行实时数据的采集,用户在规定的区域内书写汉字,采集得到笔画的起点终点以及之间所有连续的点,每个笔画只有一个起点和一个终点。
步骤205:按笔序整理实时笔画的实时笔画数据。
步骤206:根据汉字编码读取标准笔画数据及字形属性参数。
步骤207:取出标准笔画数据中一个标准笔画的标准笔画数据,预处理所有实时笔画的实时笔画数据,使得实时笔画数据的坐标点数和这一个标准笔画数据的坐标点数一致。
步骤208:将该标准笔画数据和所有实时笔画数据进行比较,得到比较差值,差值最小的实时笔画,作为与该标准笔画对应的实时笔画。
步骤209:判断是否选完全部标准笔画,如果是,进入步骤210,如果否,返回步骤207,顺序选出下一个标准笔画。
步骤210:获得指定汉字的各个标准笔画与实时汉字的实时笔画之间的对应关系。
步骤211:根据对应关系,将指定汉字的标准笔画数据与实时汉字的实时笔画数据进行对比,获得对实时汉字书写过程正确性的识别结果。
在本发明的一些实施例中,上述各个实施例中根据对应关系,将指定汉字的标准笔画数据与实时汉字的实时笔画数据进行对比,获得对实时汉字书写过程正确性的识别结果的具体实现可以包括:
根据实时汉字的各个实时笔画的顺序信息与指定汉字的各个标准笔画的顺序信息,判断实时汉字的实时笔画数与指定汉字的标准笔画数是否相同,如果否,查找获得增加或缺失的笔画位置;
判断实时汉字的各个实时笔画的顺序与指定汉字的各个标准笔画的顺序是否相同,如果否,获得顺序不一致的笔画位置;
根据对应关系,比较实时汉字中实时笔画的方向位置信息与指定汉字中对应的标准笔画的方向位置信息,获得各个实时笔画书写过程的识别结果信息。
也即可以进行笔画数比较:实时笔画数的和标准笔画数比较,如果不等,则笔画数错,并按照进一步的比对获得少了哪一笔或者多了哪一笔的提示;笔画顺序比较:如果实时笔画和标准笔画的对应关系是一致的,说明笔顺正确,否则把不一致的笔画列出,并可以指出错误类型;笔画方向比较:实时笔画的方向,就是起点到终点的比对,方向错误就是笔画方向的错误;笔画位置比较:实时笔画和标准笔画已经建立起对应关系,就可以把各自的位置信息,对应的矩形进行比较,包括矩形的偏移和矩形的大小;笔画形状比较:通过走势数据进行比对,如果走势不一致,例如把横写歪了,说明笔画书写出现笔形问题,可以指出问题并报告;字形结构比较:每个汉字都有结构信息,如左右、上下、左中右、上中下、包围、半包围等,所有结构信息是每个汉字固有的信息,这些都会编入到标准数据里,而结构又是由笔画构成,所以可以整合出部件矩形信息,把部件不一致的地方识别出来;综合识别:根据以上各类比较,可以得到对实时汉字书写过程正确性的识别结果。
这样,在本发明实施例中通过预先保存标准笔画数据,在采集到输入的实时汉字后,以汉字笔画为单位,对实时笔画数据与标准笔画数据进行对比,获得标准笔画与实时笔画之间的对应关系,进一步获得对实时汉字书写过程如每个笔画方向、位置、顺序正确性的识别结果,从而实现对实时汉字书写过程正确性的识别。
参见图3所示,本发明实施例中提供的汉字书写识别装置实施例,该装置可以包括:
保存单元301,用于预先保存标准汉字的标准笔画数据,每个标准汉字的标准笔画数据包括该标准汉字中各个标准笔画的顺序信息以及每个标准笔画的方向位置信息。
采集单元302,用于采集用户通过笔画方式输入的实时汉字的实时笔画数据,实时汉字与指定汉字相同,指定汉字是标准汉字中的一个,实时汉字的实时笔画数据包括该实时汉字中各个实时笔画的顺序信息以及每个实时笔画的方向位置信息。
第一获得单元303,用于根据实时笔画的方向位置信息与指定汉字的标准笔画的方向位置信息,获得指定汉字的各个标准笔画与实时汉字的实时笔画之间的对应关系。
第二获得单元304,用于根据对应关系,将指定汉字的标准笔画数据与实时汉字的实时笔画数据进行对比,获得对实时汉字书写过程正确性的识别结果。
在本发明的一些实施例中,第一获得单元可以包括:
第一选取子单元,用于选取指定汉字中的一个标准笔画;
第一计算子单元,用于根据该标准笔画的方向位置信息以及实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画;
循环子单元,用于返回选取子单元重新选取指定汉字中的一个标准笔画,直到获得指定汉字的各个标准笔画与实时汉字的实时笔画之间的对应关系。
在本发明的一些实施例中,标准笔画的方向位置信息包括组成标准笔画的多个点的坐标,实时笔画的方向位置信息包括组成实时笔画的多个点的坐标;
则第一计算子单元可以包括:
点数一致性子单元,用于通过增加或删除实时笔画中的点,使实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同;
第二计算子单元,用于分别计算第n个实时笔画中第m个实时笔画点与该标准笔画中第m个标准笔画点之间的坐标差,并计算第n个实时笔画对应的m个坐标差之和,m的取值范围为1到该标准笔画点的个数,n的取值范围为1到实时汉字的实时笔画个数;
第二选取子单元,选择最小的坐标差之和对应的实时笔画作为与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画。
在本发明的一些实施例中,第一计算子单元还可以包括:
平移更新子单元,用于获得标准汉字的最小矩形范围;以标准汉字的最小矩形范围为基准位置,对实时汉字进行平移;获得平移后的实时笔画的方向位置信息,实时笔画的方向位置信息包括组成实时笔画的多个点的坐标。
在本发明的一些实施例中,第二获得单元可以包括:
第一判断子单元,用于根据实时汉字的各个实时笔画的顺序信息与指定汉字的各个标准笔画的顺序信息,判断实时汉字的实时笔画数与指定汉字的标准笔画数是否相同,如果否,查找获得增加或缺失的笔画位置;
第二判断子单元,用于判断实时汉字的各个实时笔画的顺序与指定汉字的各个标准笔画的顺序是否相同,如果否,获得顺序不一致的笔画位置;
比较子单元,用于根据对应关系,比较实时汉字中实时笔画的方向位置信息与指定汉字中对应的标准笔画的方向位置信息,获得各个实时笔画书写过程的识别结果信息。
这样,在本发明实施例中通过预先保存标准笔画数据,在采集到输入的实时汉字后,以汉字笔画为单位,对实时笔画数据与标准笔画数据进行对比,获得标准笔画与实时笔画之间的对应关系,进一步获得对实时汉字书写过程如每个笔画方向、位置、顺序正确性的识别结果,从而实现对实时汉字书写过程正确性的识别。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种汉字书写识别方法,其特征在于,预先保存标准汉字的标准笔画数据,每个所述标准汉字的标准笔画数据包括该标准汉字中各个标准笔画的顺序信息以及每个标准笔画的方向位置信息;所述方法包括:
采集用户通过笔画方式输入的实时汉字的实时笔画数据,所述实时汉字与指定汉字相同,所述指定汉字是所述标准汉字中的一个,所述实时汉字的实时笔画数据包括该实时汉字中各个实时笔画的顺序信息以及每个实时笔画的方向位置信息;
根据所述实时笔画的方向位置信息与所述指定汉字的标准笔画的方向位置信息,获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系;
根据所述对应关系,将所述指定汉字的标准笔画数据与所述实时汉字的实时笔画数据进行对比,获得对所述实时汉字书写过程正确性的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实时笔画的方向位置信息与所述指定汉字的标准笔画的方向位置信息,获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系,包括:
选取所述指定汉字中的一个标准笔画;
根据该标准笔画的方向位置信息以及所述实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画;
返回重新选取所述指定汉字中的一个标准笔画,直到获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述标准笔画的方向位置信息包括组成所述标准笔画的多个点的坐标,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标;
所述根据该标准笔画的方向位置信息以及所述实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,包括:
通过增加或删除所述实时笔画中的点,使所述实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同;
分别计算第n个实时笔画中第m个实时笔画点与该标准笔画中第m个标准笔画点之间的坐标差,并计算第n个实时笔画对应的m个坐标差之和,m的取值范围为1到该标准笔画点的个数,n的取值范围为1到所述实时汉字的实时笔画个数;
选择最小的坐标差之和对应的实时笔画作为与该标准笔画距离最小的实时笔画。
4.根据权利要求3所述的方法,其特征在于,在通过增加或删除所述实时笔画中的点,使所述实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同之后,所述方法还包括:
获得所述标准汉字的最小矩形范围;
以所述标准汉字的最小矩形范围为基准位置,对所述实时汉字进行平移;
获得平移后的实时笔画的方向位置信息,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标。
5.根据权利要求1所述的方法,其特征在于,所述根据所述对应关系,将所述指定汉字的标准笔画数据与所述实时汉字的实时笔画数据进行对比,获得对所述实时汉字书写过程正确性的识别结果,包括:
根据所述实时汉字的各个实时笔画的顺序信息与所述指定汉字的各个标准笔画的顺序信息,判断所述实时汉字的实时笔画数与所述指定汉字的标准笔画数是否相同,如果否,查找获得增加或缺失的笔画位置;
判断所述实时汉字的各个实时笔画的顺序与所述指定汉字的各个标准笔画的顺序是否相同,如果否,获得顺序不一致的笔画位置;
根据所述对应关系,比较所述实时汉字中实时笔画的方向位置信息与所述指定汉字中对应的标准笔画的方向位置信息,获得各个所述实时笔画书写过程的识别结果信息。
6.一种汉字书写识别装置,其特征在于,所述装置包括:
保存单元,用于预先保存标准汉字的标准笔画数据,每个所述标准汉字的标准笔画数据包括该标准汉字中各个标准笔画的顺序信息以及每个标准笔画的方向位置信息;
采集单元,用于采集用户通过笔画方式输入的实时汉字的实时笔画数据,所述实时汉字与指定汉字相同,所述指定汉字是所述标准汉字中的一个,所述实时汉字的实时笔画数据包括该实时汉字中各个实时笔画的顺序信息以及每个实时笔画的方向位置信息;
第一获得单元,用于根据所述实时笔画的方向位置信息与所述指定汉字的标准笔画的方向位置信息,获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系;
第二获得单元,用于根据所述对应关系,将所述指定汉字的标准笔画数据与所述实时汉字的实时笔画数据进行对比,获得对所述实时汉字书写过程正确性的识别结果。
7.根据权利要求6所述的装置,其特征在于,所述第一获得单元包括:
第一选取子单元,用于选取所述指定汉字中的一个标准笔画;
第一计算子单元,用于根据该标准笔画的方向位置信息以及所述实时汉字的各个实时笔画的方向位置信息,计算获得与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画;
循环子单元,用于返回所述选取子单元重新选取所述指定汉字中的一个标准笔画,直到获得所述指定汉字的各个标准笔画与所述实时汉字的实时笔画之间的对应关系。
8.根据权利要求7所述的装置,其特征在于,所述标准笔画的方向位置信息包括组成所述标准笔画的多个点的坐标,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标;
所述第一计算子单元包括:
点数一致性子单元,用于通过增加或删除所述实时笔画中的点,使所述实时汉字的各个实时笔画点的个数与该标准笔画点的个数相同;
第二计算子单元,用于分别计算第n个实时笔画中第m个实时笔画点与该标准笔画中第m个标准笔画点之间的坐标差,并计算第n个实时笔画对应的m个坐标差之和,m的取值范围为1到该标准笔画点的个数,n的取值范围为1到所述实时汉字的实时笔画个数;
第二选取子单元,选择最小的坐标差之和对应的实时笔画作为与该标准笔画距离最小的实时笔画,作为该标准笔画对应的实时笔画。
9.根据权利要求8所述的装置,其特征在于,所述第一计算子单元还包括:
平移更新子单元,用于获得所述标准汉字的最小矩形范围;以所述标准汉字的最小矩形范围为基准位置,对所述实时汉字进行平移;获得平移后的实时笔画的方向位置信息,所述实时笔画的方向位置信息包括组成所述实时笔画的多个点的坐标。
10.根据权利要求6所述的装置,其特征在于,所述第二获得单元包括:
第一判断子单元,用于根据所述实时汉字的各个实时笔画的顺序信息与所述指定汉字的各个标准笔画的顺序信息,判断所述实时汉字的实时笔画数与所述指定汉字的标准笔画数是否相同,如果否,查找获得增加或缺失的笔画位置;
第二判断子单元,用于判断所述实时汉字的各个实时笔画的顺序与所述指定汉字的各个标准笔画的顺序是否相同,如果否,获得顺序不一致的笔画位置;
比较子单元,用于根据所述对应关系,比较所述实时汉字中实时笔画的方向位置信息与所述指定汉字中对应的标准笔画的方向位置信息,获得各个所述实时笔画书写过程的识别结果信息。
CN201410193442.2A 2014-05-08 2014-05-08 一种汉字书写识别方法及装置 Active CN103927535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410193442.2A CN103927535B (zh) 2014-05-08 2014-05-08 一种汉字书写识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410193442.2A CN103927535B (zh) 2014-05-08 2014-05-08 一种汉字书写识别方法及装置

Publications (2)

Publication Number Publication Date
CN103927535A true CN103927535A (zh) 2014-07-16
CN103927535B CN103927535B (zh) 2017-12-08

Family

ID=51145751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410193442.2A Active CN103927535B (zh) 2014-05-08 2014-05-08 一种汉字书写识别方法及装置

Country Status (1)

Country Link
CN (1) CN103927535B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978581A (zh) * 2015-07-09 2015-10-14 北京盛世宣合信息科技有限公司 应用于毛笔的书写轨迹采样方法和装置
CN108139859A (zh) * 2015-10-26 2018-06-08 英特尔公司 对触摸显示器快速着墨
CN108256448A (zh) * 2017-12-29 2018-07-06 上海义启信息科技有限公司 一种汉字书写识别方法
CN108319896A (zh) * 2017-12-29 2018-07-24 上海义启信息科技有限公司 一种汉字书写的识别方法
CN109858383A (zh) * 2019-01-04 2019-06-07 广东智媒云图科技股份有限公司 笔画识别方法及装置
CN111222590A (zh) * 2019-12-31 2020-06-02 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111523455A (zh) * 2020-04-22 2020-08-11 北京易文汉学科技有限公司 汉字书写的评价方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344918B (zh) * 2008-06-06 2010-06-16 广东开心信息技术有限公司 手写汉字笔画位置规范性的判断方法和装置
CN101320422B (zh) * 2008-06-06 2010-06-02 广东开心信息技术有限公司 手写汉字笔画交接离的规范性判定方法和装置
CN103390358B (zh) * 2013-07-03 2015-08-19 广东小天才科技有限公司 对电子设备的字符书写操作进行规范性判断的方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978581A (zh) * 2015-07-09 2015-10-14 北京盛世宣合信息科技有限公司 应用于毛笔的书写轨迹采样方法和装置
CN104978581B (zh) * 2015-07-09 2019-05-07 北京盛世宣合信息科技有限公司 应用于毛笔的书写轨迹采样方法和装置
CN108139859A (zh) * 2015-10-26 2018-06-08 英特尔公司 对触摸显示器快速着墨
CN108139859B (zh) * 2015-10-26 2021-06-29 英特尔公司 对触摸显示器快速着墨
CN108256448A (zh) * 2017-12-29 2018-07-06 上海义启信息科技有限公司 一种汉字书写识别方法
CN108319896A (zh) * 2017-12-29 2018-07-24 上海义启信息科技有限公司 一种汉字书写的识别方法
CN109858383A (zh) * 2019-01-04 2019-06-07 广东智媒云图科技股份有限公司 笔画识别方法及装置
CN111222590A (zh) * 2019-12-31 2020-06-02 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111222590B (zh) * 2019-12-31 2024-04-12 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111523455A (zh) * 2020-04-22 2020-08-11 北京易文汉学科技有限公司 汉字书写的评价方法

Also Published As

Publication number Publication date
CN103927535B (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN103927535A (zh) 一种汉字书写识别方法及装置
CN110516208B (zh) 一种针对pdf文档表格提取的***及方法
CN108920580B (zh) 图像匹配方法、装置、存储介质及终端
Harouni et al. Online Persian/Arabic script classification without contextual information
NO20161728A1 (en) Written text transformer
CN109446487A (zh) 一种解析便携式文档格式文档表格的方法及装置
CN109993019A (zh) 基于连通域分析的二维码识别方法、***及设备和介质
CN102903136B (zh) 一种手写笔迹电子化方法和***
CN105930159A (zh) 一种基于图像的界面代码生成的方法及***
CN1492377A (zh) 表格处理***及方法
CN101128837A (zh) 基于分割的辨认方法
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN103929644A (zh) 一种视频指纹库建立、视频指纹识别方法及装置
US20010033694A1 (en) Handwriting recognition by word separation into sillouette bar codes and other feature extraction
CN103455528A (zh) 手写文字检索装置、方法以及记录介质
CN101354727A (zh) 一种建立数字文档目录与正文之间链接的方法及装置
CN104794485B (zh) 一种识别书写字的方法及装置
CN104615642A (zh) 基于局部邻域约束的空间验证的错误匹配检测方法
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN100371945C (zh) 一种计算机辅助书法作品真伪鉴别方法
CN105718965A (zh) 一种汉字书写字形识别方法及装置
CN110017137A (zh) 固定床气化用煤区域的确定方法、装置和服务器
Chen et al. Fine-grained plant leaf image retrieval using local angle co-occurrence histograms
CN110688995B (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
Lee et al. Deep learning-based digitalization of a part catalog book to generate part specification by a neutral reference data dictionary

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100036 201, 2f, building 2, zone 5, yard 2, Cuiwei Road, Haidian District, Beijing

Patentee after: Beijing Hanyi Innovation Technology Co., Ltd

Address before: 100036 Beijing city Haidian District Cuiwei Road No. 2 Chinese Research Institute of Printing Science and technology building A block 2

Patentee before: BEIJING HANYI KEYIN INFORMATION TECHNOLOGY CO., LTD.