CN105320971A

CN105320971A - 字符识别装置和字符识别方法

Info

Publication number: CN105320971A
Application number: CN201510313899.7A
Authority: CN
Inventors: 堤庸昂; 中岛和树
Original assignee: Hitachi Information and Telecommunication Engineering Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2014-06-09
Filing date: 2015-06-09
Publication date: 2016-02-10
Anticipated expiration: 2035-06-09
Also published as: CN105320971B; JP6327963B2; JP2015232778A

Abstract

提供高精度且高速地识别包括简体文字和繁体文字的汉字的字符识别装置和字符识别方法。运算部(150)将同形字符表保存在字符辨别用辞典(165)中，参照该同形字符表中保存的候选字符来进行字符识别，其中，该同形字符表是将以下字符图像作为相似度高的同形字符进行分组而得到的：将由多个区域的汉字要素构成的汉字按每个区域进行分割所得到的汉字结构相同、且同一区域位置的汉字要素之间的基于余弦相似度的相似度高于规定值的字符图像；以及汉字要素之间的通过欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像。

Description

字符识别装置和字符识别方法

技术领域

本发明涉及一种能够高精度地识别票据(日语：帳票)等中写入的手写字符的字符识别装置和字符识别方法，特别涉及一种能够高精度且高速地识别以中国内地的简体文字、中国台湾的繁体文字写入的汉字字符的字符识别装置和字符识别方法。

背景技术

以光学方式读取票据等中记载的手写汉字来进行字符识别的字符识别装置构成为：提取按每个字符切取出的字符图形的特征，由于汉字构造是由位于汉字的左侧的偏(日语：へん)、位于汉字构造的右侧的旁(日语：つくり)、位于汉字构造的上侧的冠(日语：かんむり)、位于汉字构造的下侧的脚(日语：あし)、位于包围汉字构造整体的位置的构(日语：かまえ)、位于从汉字的上侧下垂到下侧的位置的垂(日语：たれ)以及位于从汉字构造的左侧沿着下侧的位置的绕(日语：にょう)这样的配置于多个区域的汉字要素的组合构成的，因此，判别用于分割各区域的分割区域，并且使用欧几里德(Euclid)距离值来提取字符图像的特征量，从而进行字符识别。

基于该以往技术的字符识别处理构成为通过由字符识别装置的计算机执行如图18所示的以下步骤来进行字符识别：步骤S1801，提取字符图像的特征；步骤S1802，基于通过该步骤S1801提取出的特征量来判定字符图像是汉字还是非汉字；步骤S1804，计算通过该步骤S1802进行了判定的字符图像的欧几里德距离值；步骤S1803，判别汉字的字符图像的部首等分割区域；步骤S1805，计算通过步骤S1803进行了区域判定的字符图像的进行n分割得到的每个区域的余弦相似度；步骤S1806，将通过该步骤S1805计算出的相似度与同形字符表进行比较来选择同形字符和相似字符候选；步骤S1807，基于通过上述步骤S1804计算出的欧几里德距离以及通过步骤S1806选择出的同形字符和相似字符候选来判定识别候选的字符；以及步骤S1808，输出通过该步骤S1807判定出的字符候选的判定结果。另外，上述同形字符表按共同的部首、旁等将汉字进行分类，并且按人目视时相像的字形将汉字进行分类。

通过上述步骤S1807，候选判定使用以下条件来进行识别字符候选的判定：(1)根据通过步骤S1802得到的汉字、非汉字结果来选择候选；(2)选择通过步骤S1804得到的欧几里德距离值小的候选；(3)选择通过步骤S1805得到的余弦相似度高的候选；(4)选择在一部分分割区域中余弦相似度高的候选；以及(5)选择余弦相似度大的字符类型(日语：字種)所属的同形字符分类表，其中，通过图22所示的公式来计算上述欧几里德距离值和余弦相似度，其中，x为输入图案矢量，μ为平均图案矢量。

即，以往的字符识别处理构成为通过将字符图像的欧几里德距离值、余弦相似度、区域分割以及同形字符表比较这样的各种技术进行组合来决定识别字符候选。

此外，作为记载了基于以往技术的字符识别技术的文献，可以列举出下述的专利文献1，在该专利文献1中记载了如下技术：特征量提取部从由输入部输入的字符图像提取字符图像的特征量，匹配部在使用拟贝叶斯判别函数计算与辞典的相异度时，一边根据字符图像来调整拟贝叶斯判别函数要计算的主成分数(拟贝叶斯判别函数式的k)一边计算与辞典的相异度，由此减少对字符识别精度的提高的贡献不稳定的主成分校正项的计算，从而消除字符识别所不需要的小的特征量，并补充特征不足成分。作为记载了前述的分割部首来进行字符识别的技术的文献，可以列举出下述的专利文献2，在该专利文献2中记载了如下技术：区域合并部基于所输入的手写字符的各笔画的坐标序列来判定该笔画是否跨越了字符框内的分割区域，在跨越了的情况下合并相应的分割区域，部首切取部基于合并后的分割区域以部首为单位对上述手写字符进行切取，部首识别部参照部首识别辞典对该切取出的各部首进行识别处理，字符结构部基于部首识别处理的结果和字符结构辞典来获取手写字符的识别结果，由此容易地进行部首切取来提高识别精度。作为记载了在字符识别中使用欧几里德距离的技术的文献，可以列举出下述的专利文献3，在该专利文献3中记载了设置有以下单元的技术：标准化单元，其将字符图像部分标准化成规定尺寸的矩形图像；特征量计算单元，其计算将由该标准化单元标准化后的矩形图像进行分割所得到的分割图像各自的HOG(HistogramsofOrientedGradient：梯度方向直方图)特征量；距离计算单元，其计算将HOG特征量空间中的各分割图像的HOG特征量结合起来得到的图像部分的HOG特征量与各规定字符图像的HOG特征量的欧几里德距离；比较单元，其比较由该距离计算单元计算出的距离；以及字符识别单元，其基于比较单元的比较结果来识别上述字符图像部分中有可能包含的字符。

专利文献1：日本特开2000-215272号公报

专利文献2：日本特开平11-184971号公报

专利文献3：日本特开2014-29608号公报

发明内容

发明要解决的问题

上述的基于以往技术的字符识别技术从作为识别对象的字符图像提取大量的特征量来估计成为正确答案的类别(例如日语的“あ”“亜”等)，因此，若是汉字则会成为数千个类别，从而在进行高精度识别时处理时间变得冗长，特别是近年来，存在不仅对日语的汉字进行字符识别、还对中国内地的简体文字、中国台湾的繁体文字进行字符识别的需求，识别对象的汉字类型增加，因此招致处理时间变得更冗长的问题。

另外，对于字符识别装置，存在即使精度比较低也要高速地对大量票据进行字符识别的顾客需求以及即使处理时间长也要高精度地对大量票据进行字符识别的顾客需求，但是基于以往技术的字符识别装置存在难以根据顾客需求来调整处理速度和识别精度的问题。

并且，上述的专利文献1所记载的技术是想要通过消除字符识别所不需要的小的特征量并补充特征不足成分来实现高速且高精度，但是存在高精度化根据所设定的阈值而有限度、从而导致容许一定数量的误辨别的问题，其它专利文献所记载的技术存在难以高速处理的问题。

本发明的第一目的在于解决前述的以往技术的问题，提供一种能够进行高速高精度的汉字字符的识别的字符识别装置和字符识别方法，第二目的在于提供一种能够根据顾客需求来调整速度和识别精度的字符识别装置和字符识别方法。

用于解决问题的方案

为了达到上述的目的，本发明的第一发明是一种字符识别装置，该字符识别装置具备：输入部，其以光学方式将包括汉字的字符读取为字符图像，该汉字由多个区域的汉字要素构成；图像获取部，其获取使用该输入部读取的字符图像；外部存储部，其保存字符辨别用辞典和同形字符表，该字符辨别用辞典保存有多个标准字符图像，该同形字符表用于按共同的部首、旁将汉字进行分类并且将目视时相像的相似和同形的汉字进行分类；以及运算部，其参照该字符辨别用辞典和同形字符表来控制字符图像的字符识别，其中，该运算部参照字符辨别用辞典对输入的字符图像执行字符识别处理，该字符识别装置的特征在于，

上述运算部包括：

分割区域判定单元，判定按汉字要素对上述图像获取部所获取的1个字符单位的字符图像进行分割的分割区域；

余弦相似度计算单元，计算通过该分割区域判定单元进行了判定的字符图像的同一区域位置处的汉字要素的余弦相似度；

欧几里德距离值计算单元，计算通过上述分割区域判定单元进行了判定的字符图像的同一区域位置处的汉字要素的欧几里德距离值；

同形字符表制作单元，制作将以下字符图像作为相似度高的同形字符进行分组而得到的同形字符表：基于通过上述分割区域判定单元判定出的分割区域的汉字结构相同且同一区域位置的汉字要素之间的基于通过上述余弦相似度计算单元计算出的余弦相似度的相似度高于规定值的字符图像、以及汉字要素之间的通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像；以及

标准字符识别单元，将以下字符图像之间的逻辑或的字符图像作为候选字符来进行字符识别：通过上述余弦相似度计算单元计算出的余弦相似度大于规定的余弦相似度的字符图像、通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像、以及通过上述同形字符表制作单元将同一区域位置的相似度高的字符图像进行分组而得到的同形字符的字符图像。

本发明的第二发明的特征在于，在第一发明的字符识别装置中，上述运算部还包括高精度字符识别单元，该高精度字符识别单元基于从通过标准字符识别单元的逻辑或而得到的字符图像中排除通过上述分割区域判定单元分割出的多个分割区域的结构不同的异种候选字符以及该异种候选字符所属的组中包含的字符图像后得到的候选字符，来进行字符识别。

本发明的第三发明的特征在于，在第一发明或第二发明的字符识别装置中，上述运算部还包括高速字符识别单元，该高速字符识别单元将通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像作为候选字符来进行字符识别。

本发明的第四发明的特征在于，在第一发明至第三发明中的任一发明的字符识别装置中，上述同形字符表制作单元包括分大组单元和分小组单元，该分大组单元将基于通过上述分割区域判定单元判定出的分割区域的汉字结构相同的字符图像分为大组，该分小组单元将通过该分大组单元分组得到的大组内的、特定区域位置的汉字要素的余弦相似度高于规定值且欧几里德距离值小于规定值的字符图像分为小组，上述运算部将通过该分大组单元和该分小组单元分组得到的字符图像保存在同形字符表中。

本发明的第五发明的特征在于，在第一发明至第四发明中的任一发明的字符识别装置中，上述运算部具备对上述标准字符识别单元、上述高精度字符识别单元以及上述高速字符识别单元进行切换或调整的功能。

另外，本发明的第六发明是一种识别字符的字符识别装置的字符识别方法，该字符识别装置具备：输入部，其以光学方式将包括汉字的字符读取为字符图像，该汉字由多个区域的汉字要素构成；图像获取部，其获取使用该输入部读取的字符图像；外部存储部，其保存字符辨别用辞典和同形字符表，该字符辨别用辞典保存有多个标准字符图像，该同形字符表用于按共同的部首、旁将汉字进行分类并且将目视时相像的相似和同形的汉字进行分类；以及运算部，其参照该字符辨别用辞典和同形字符表来控制字符图像的字符识别，该字符识别方法的特征在于，使该运算部执行以下步骤：

分割区域判定步骤，判定按汉字要素对上述图像获取部所获取的1个字符单位的字符图像进行分割的分割区域；

余弦相似度计算步骤，计算通过该分割区域判定步骤进行了判定的字符图像的同一区域位置处的汉字要素的余弦相似度；

欧几里德距离值计算步骤，计算通过上述分割区域判定步骤进行了判定的字符图像的同一区域位置处的汉字要素的欧几里德距离值；

同形字符表制作步骤，制作将以下字符图像作为相似度高的同形字符进行分组而得到的同形字符表：基于通过上述分割区域判定步骤判定出的分割区域的汉字结构相同且同一区域位置的汉字要素之间的基于通过上述余弦相似度计算步骤计算出的余弦相似度的相似度高于规定值的字符图像、以及汉字要素之间的通过上述欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像；以及

标准字符识别步骤，将以下字符图像之间的逻辑或的字符图像作为候选字符来进行字符识别：通过上述余弦相似度计算步骤计算出的余弦相似度大于规定的余弦相似度的字符图像、通过上述欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像、以及通过上述同形字符表制作步骤将同一区域位置的相似度高的字符图像进行分组而得到的同形字符的字符图像。

本发明的第七发明的特征在于，在第六发明的字符识别方法中，使上述运算部还执行高精度字符识别步骤，在该高精度字符识别步骤中，基于从通过标准字符识别步骤的逻辑或而得到的字符图像中排除通过上述分割区域判定步骤分割出的多个分割区域的结构不同的异种候选字符以及该异种候选字符所属的组中包含的字符图像后得到的候选字符，来进行字符识别。

本发明的第八发明的特征在于，在第六发明或第七发明的字符识别方法中，使上述运算部还执行高速字符识别步骤，在该高速字符识别步骤中，将通过上述欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像作为候选字符来进行字符识别。

本发明的第九发明的特征在于，在第六发明至第八发明中的任一发明的字符识别方法中，上述同形字符表制作步骤包括分大组步骤和分小组步骤，在该分大组步骤中，将基于通过上述分割区域判定步骤判定出的分割区域的汉字结构相同的字符图像分为大组，在该分小组步骤中，将通过该分大组步骤分组得到的大组内的、特定区域位置的汉字要素的余弦相似度高于规定值且欧几里德距离值小于规定值的字符图像分为小组，使上述运算部将通过该分大组步骤和该分小组步骤分组得到的字符图像保存在同形字符表中。

本发明的第十发明的特征在于，在第六发明至第九发明中的任一发明的字符识别方法中，使上述运算部具备对上述标准字符识别步骤、上述高精度字符识别步骤以及上述高速字符识别步骤进行切换或调整的功能。

发明的效果

在基于本发明的字符识别装置和字符识别方法中，运算部将同形字符表保存在字符辨别用辞典165中，参照该同形字符表中保存的候选字符来进行字符识别，由此能够高精度且高速地识别包括简体文字和繁体文字的汉字，其中，该同形字符表是将以下字符图像作为相似度高的同形字符进行分组而得到的：将由多个区域的汉字要素构成的汉字按每个区域进行分割所得到的汉字结构相同、且同一区域位置的汉字要素之间的基于余弦相似度的相似度高于规定值的字符图像；以及汉字要素之间的通过欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像。

附图说明

图1是表示本发明的实施方式的字符识别装置的基本结构的图。

图2是表示本实施方式的字符识别处理的概要的图。

图3是表示本实施方式的高速模式下的识别输出候选决定处理的图。

图4A是表示本实施方式的标准模式下的识别输出候选决定处理的图。

图4B是表示本实施方式的标准模式下的同形字符表和字符选择处理的图。

图5A是表示本实施方式的高精度模式下的识别输出候选决定处理的图。

图5B是表示本实施方式的高精度模式下的字符选择处理的图。

图6A和图6B是表示本实施方式的同形字符、相似字符选择处理动作的图。

图7A和图7B是表示本实施方式的分割区域判定处理动作的图。

图8是表示本实施方式的分割区域判定处理动作的图。

图9是表示本实施方式的同形字符表的制作处理动作的图。

图10是表示本实施方式的分割区域判定处理动作的流程图。

图11是说明本实施方式的分割区域判定处理中的分割位置候选计算步骤的图。

图12是表示本实施方式的大组分类表制作处理动作的图。

图13是表示本实施方式的相似区域判定处理动作的流程图。

图14是表示本实施方式的按区域相似计算时的表的图。

图15是表示本实施方式的小组分类表制作处理动作的图。

图16是说明本实施方式的同形字符表的图。

图17是说明本实施方式的计算相似度的公式的图。

图18是表示基于以往技术的输出候选决定处理动作的图。

图19是说明基于欧几里德距离的计算范围的图。

图20是说明基于欧几里德距离和余弦相似度的判定方法的图。

图21是表示字符识别所需的处理时间与识别精度之间的关系的图。

图22是表示基于欧几里德距离值和马哈拉诺比斯距离值的相似度和余弦相似度的公式的图。

图23是表示基于以往技术的字符识别处理的概要的图。

图24是表示本实施方式的切换或调整识别模式的操作画面的图。

附图标记说明

100：字符识别装置；110：输入部；120：显示部；130：图像获取部；140：通信部；150：运算部；160：外部存储部；165：字符辨别用辞典。

具体实施方式

下面，详细说明使用了基于本发明的字符识别方法的字符识别装置的一个实施方式。

[结构]

本实施方式的字符识别装置如图1所示那样构成为具备：扫描器等输入部110，其以光学方式读取票据等中写入的字符；图像获取部130，其获取使用该输入部110扫描得到的字符图像；外部存储部160，其保存字符辨别用辞典165和同形字符表，该字符辨别用辞典165保存有多个标准字符图像，该同形字符表用于按共同的部首、旁等将汉字进行分类并且将目视时相像的相似和同形的汉字进行分类；运算部150，其参照该外部存储部160中保存的字符辨别用辞典165和同形字符表来控制字符图像的字符识别；显示部120，其显示该运算部150辨别出的字符、无法读取的字符以及其它；以及通信部140，其用于将字符识别结果的数据发送到外部，其中，上述运算部150参照该外部存储部160中保存的字符辨别用辞典165对字符图像执行字符识别处理。

本实施方式的运算部150能够根据来自使用显示部120的操作者的指示而设定以下三种模式：考虑识别速度和识别精度的平衡的标准(默认)模式、与标准模式相比识别精度下降但识别处理的速度快的高速模式、以及与标准模式相比识别速度下降但识别精度高的高精度模式，另外，运算部150构成为能够精细地调整识别速度和识别精度。

如图24的(a)所示，显示在显示部120上的用于进行这三种模式的设定以及识别速度和识别精度的调整的识别模式设定窗口画面显示有：单选按钮990，其用于指定高精度、标准、高速这三种模式的切换；任意指定按钮991，其用于通过0至100的范围内的数值输入来任意地指定精度；以及滑动条992，其用于通过使用鼠标等进行的左右移动来在0至100的范围内调整精度，其中，在根据业务而例如点击了单选按钮990的高速按钮时，如图24的(b)所示那样显示，在点击任意指定按钮991并输入了数值35时，如图24的(c)所示那样显示。

另外，本实施方式的字符识别技术作为读取对象的字符除了英文字母、数字、符号以外还包括日语汉字、汉语汉字(简体文字)、台湾汉字(繁体文字)，这些汉字由位于左侧的偏、位于右侧的旁、位于上侧的冠、位于下侧的脚、位于包围整体的位置的构、位于从上侧下垂到下侧的位置的垂以及位于从左侧沿着下侧的位置的绕等预先决定了配置的多个区域构成，在本申请中，将“偏”、“旁”等的区域称为分割区域，将分割区域内的局部性的汉字图像称为汉字要素，将“偏”、“旁”等的配置位置称为区域位置，将分割区域的区域位置相同的汉字的结构(例如，如“峰”“蜂”这样的纵向地被2分割的汉字结构、如“瀬”“辯”这样纵向地被3分割的汉字结构、如“昌”这样沿上下被2分割的汉字结构等)称为汉字结构相同。

[整体动作]

本实施方式的字符识别装置100的运算部150所进行的字符识别处理的概要如下。如图2所示，通过运算部的控制来执行以下步骤，以此进行字符辨别：步骤S201，以光学方式将票据等中写入的字符进行扫描并输入；步骤S202，提取通过该步骤S201输入的字符图像的特征量；步骤S203，输入通过操作者的操作而选择出的识别模式(高速、标准、高精度模式)；步骤S205，制作同形字符表并保存在字符辨别用辞典165中，该同形字符表基于同形字符表制作用数据库内的字符图像将读取对象字符图像进行分组；步骤S204，将通过上述步骤S201输入的字符图像的特征量以及通过步骤S203选择出的识别模式作为输入，参照字符辨别用辞典165来决定识别字符的输出候选；步骤S206，针对通过该步骤S204决定出的识别字符的输出候选，基于欧几里德距离和马哈拉诺比斯(Mahalanobis)距离的公式(如图17所示)计算相似度d_c(x)，来进行字符辨别；以及步骤S207，按通过该步骤S206计算出的相似度d_c(x)的从小到大的顺序输出候选字符。

另外，图17的(a)是表示本实施方式中的计算相似度的修正二次判别函数的公式。x是类别未知的字符图像矢量，μ_c是类别c的平均矢量，λ_cj是固有值，φ^t _cj是固有值矢量。在字符辨别处理中，将x代入上述修正二次判别函数，将函数值d_c(x)最大的类别设为符合类别。图17的(b)是表示本实施方式中的字符类型数量(候选字符数量)与存储器大小的关系的图表。纵轴表示字符辨别处理所需要的存储器大小，横轴表示字符类型数量。该图表示出根据在字符辨别处理中成为候选的类别的数量而所需要的存储器大小增大或减小。通过在输出候选决定处理中减少字符类型数量，减少字符辨别处理中的计算量。也就是说，在计算相似度的处理中，通过省略从辨别用辞典参照从候选字符排除的类别的λ_cj、φ^t _cj的处理，不需要大容量的存储器大小而能够进行字符辨别。

在前述的步骤S204的决定识别字符的输出候选的处理中，处理方法根据高速模式、标准模式以及高精度模式而不同，接着说明各处理内容。

[标准模式的输出候选决定处理]

该标准模式的输出候选决定处理的步骤S204如下进行动作，如图4A所示，执行以下步骤：步骤S402，判定字符图像是汉字还是非汉字(数字、英文字母、符号、假名字符等)，以缩减候选数量；步骤S403，接着该步骤S402来计算欧几里德距离值，以从候选中排除欧几里德距离值大的字符类型来缩减候选数量；步骤S404，接着该步骤S402，在不存在来自分割区域判定处理的分割区域信息的情况下，针对将字符图像分割成预先决定的N×N个区域所得到的每个区域计算余弦相似度，以从候选中排除余弦相似度小(接近-1)的字符类型(候选字符)(其中，相似度大的字符类型保留在候选中。在输入图案为“凋”的情况下，候选数量从3750缩减到240。)；步骤S405，接着该步骤S404来从同形字符表中选择与规定值相比余弦相似度较大的字符类型所属的组(属于该组的字符类型保留在候选中。)；以及步骤S406，基于通过上述步骤S403得到的排除了欧几里德距离值大的识别候选后的候选字符以及通过步骤S404排除了按规定值(N×N)个分割区域的每个分割区域判定出的余弦相似度小的字符类型(候选字符)后的候选字符，通过条件(1)、条件(2)、条件(2)以及条件(4)的逻辑或来决定识别字符候选(在输入图案为“凋”的情况下，在字符辨别处理中以约500个字符类型为对象来执行辨别计算。)，其中，条件(1)是根据汉字、非汉字判定处理的结果来选择候选，条件(2)是选择欧几里德距离值小的候选，条件(3)是选择余弦相似度大的候选，条件(4)是从同形字符分类表中选择余弦相似度大的字符类型所属的组。通过执行以上步骤，将以欧几里德距离值和余弦距离值为因子得到的字符图像作为输出候选而输出。

另外，上述步骤S405的同形字符、相似字符候选选择处理如下进行动作：从图4B所示的同形字符分类表中选择余弦相似度大的字符类型所属的组，将属于该选择出的组的字符类型追加到识别候选中，详情在后面叙述。

[高速模式的输出候选决定处理]

在高速模式下，如图3那样基于来自汉字、非汉字判定处理和欧几里德距离值计算处理的结果来决定候选数量。在输入图案为“凋”的情况下，将简体字(汉字，约3750个字符类型)以及数字、英文字母、符号(非汉字，约50个字符类型)组合起来的约3800个字符类型作为候选对象。另外，在该例子中的字符辨别处理中仅以240个字符类型为对象来执行辨别计算。

具体地说，上述高速模式的输出候选决定处理的步骤S204如下进行动作，如图3所示，执行以下步骤：步骤S321，根据输入图案的特征来判定字符图像是汉字还是非汉字(数字、英文字母、符号、假名字符等)，以缩减候选数量(在输入图案为“凋”的情况下，候选数量能够从3800缩减到3750。简体字作为候选保留。将数字、英文字母、符号从候选中排除。)；步骤S322，接着该步骤S321来计算欧几里德距离值，以从候选中排除欧几里德距离值大的字符类型来缩减候选数量(将欧几里德距离值小的字符类型保留在候选中。在输入图案为“凋”的情况下，例如像“调、洞、涸”这种输入图案和字形相像的字符类型的距离值小，作为候选是妥当的，因此保留为候选。相反地，像“问、崩、厕”这样不相像的字符类型的距离值大，作为候选不适当，因此从候选中排除。在此，候选数量从3750缩减到240。)；以及步骤S323，对于通过该步骤S322从候选中排除了欧几里德距离值大的字符类型后的识别候选字符，通过条件(1)和条件(2)的逻辑或来决定识别字符候选(在输入图案为“凋”的情况下，在字符辨别处理中以约500个字符类型为对象来执行辨别计算。)，其中，条件(1)是根据判定汉字、非汉字的步骤S321的判定结果来将候选字符选择为汉字或非汉字，条件(2)是选择欧几里德距离值为小于规定的阈值的值的候选字符。通过执行以上步骤，去除了基于余弦相似度的判定，因此，虽然与基于标准模式的判定相比精度下降，但是高速地将候选字符作为输出候选而输出。

[高精度模式的输出候选决定处理]

上述高精度模式的输出候选决定处理的步骤S204如下进行动作，如图5A所示，执行以下步骤：步骤S502，判定字符图像是汉字还是非汉字(数字、英文字母、符号、假名字符等)，以缩减候选数量；步骤S504，接着该步骤S502来计算欧几里德距离值，以从候选中排除欧几里德距离值大的字符类型来缩减候选数量；步骤S503，接着该步骤S502来判定字符图像的分割区域(将输入图案分割成汉字的基本结构(部首)。在判定为无法分割的情况下分割成N×N个区域。简体字是将原本的字形(繁体字)简化而成的字形，存在大量与其它字符类型相似的字形。另外，手写字符由于书写者的习惯、书写用具而与其它字符类型相似的可能性高。在输入图案的正确答案是“凋”、但是将字符整体作为对象来识别的情况下，像“调、淍、洞、涸、倜”这种只有一部分不同的字形、整体上相像的字形等成为候选，存在输出错误的识别结果的可能性。因此，通过将输入图案进行分割并以不同部位作为对象，能够高精度地识别相似字符。)；步骤S505，接着该步骤S503来针对通过上述步骤S503对字符图像进行分割后得到的每个区域计算余弦相似度，以从候选中排除余弦相似度小(接近-1)的字符类型(候选字符)；步骤S506，接着该步骤S505来从同形字符分类表中选择余弦相似度比较大的字符类型所属的组；以及步骤S507，基于通过上述步骤S504得到的排除了欧几里德距离值大的识别候选后的候选字符以及通过步骤S505排除了每个区域的余弦相似度小的字符类型(候选字符)后的候选字符，从条件(1)、图5B所示的条件(2)、条件(3)以及条件(4)的逻辑或排除与通过分割区域判定处理求出的基本结构不相符的字符类型(异种候选字符)以及该字符类型所属的组的字符类型(在输入图案为“凋”的情况下，在字符辨别处理中仅以约1000个字符类型为对象来执行辨别计算。)，其中，条件(1)是根据汉字、非汉字判定处理的结果来选择候选，条件(2)是选择欧几里德距离值小的候选，条件(3)是选择余弦相似度大的候选，条件(4)是从同形字符分类表中选择余弦相似度大的字符类型所属的组。通过执行以上步骤，以欧几里德距离值和字符图像的汉字的部首等每个分割区域的余弦距离值为因子，来输出字符图像以作为输出候选，通过这样进行动作，除了根据欧几里德距离值，还根据基于汉字结构分割出的每个分割区域的余弦相似度来进行判定，因此，虽然与基于标准模式的判定相比识别速度下降，但是将高精度的候选字符作为输出候选而输出。

[同形字符、相似字符候选选择处理]

上述步骤S405的同形字符、相似字符候选选择处理如下进行动作，如图6B所示，在正确答案字符是“凋”且手写字符如图所示那样偏“两点水”与旁“周”接触的情况下，如图6A所示那样执行以下步骤：步骤S601，通过分割区域判别处理来求出输入图案(字符图像)的部首的型和位置，由此判定出由偏和旁这样的纵分为二的分割要素构成的汉字结构；步骤S602，按通过该步骤S601分割出的每个分割区域求出余弦相似度、欧几里德值相似度，以相似度从大到小的顺序从图示的左起按顺序假定为第一候选、第二候选、第三候选；步骤S603，将通过该步骤S602假定的第一候选字符所属的同形字符表③以及相同区域位置的旁一样的字符“凋”所属的同形字符表②的字符类型追加到候选中，并且将同形字符表①和⑤的字符类型追加到候选中；以及步骤S604，由于第三候选虽然相似度高但不是由偏和旁构成的(汉字结构不同)，因此将其从候选中排除。通过执行以上步骤，从同形字符分类表中选择余弦相似度、欧几里德值相似度大的字符类型所属的组，将属于该选择出的组的字符类型追加到识别候选中。

[分割区域判别处理1]

前述的高精度模式的输出候选决定处理中的步骤S503的字符图像的分割区域判定处理的详情如下，如图7B所示，在与上述同样地正确答案字符是“凋”且手写字符如图所示那样是偏“两点水”与旁“周”接触的纵分为二的汉字结构的情况下，通过如图7A所示那样执行以下步骤来判定汉字字符的区域分割位置：步骤S701，生成提取输入图案(字符图像)的字符成分的芯线而得到的A芯线图案、提取字符垂直方向成分而得到的B垂直方向的字符线段图案、提取字符水平方向成分而得到的C水平方向的字符线段图案以及提取字符图像的外切线而得到的D线段外切近似图案；步骤S702，基于所生成的图案ABC求出水平方向和垂直方向的直方图；以及步骤S703，求出通过该步骤S702求出的6个垂直及水平直方图和图案D的分割位置。

上述步骤S703的求出分割位置的处理是通过以下方式来进行的：在图7B中，A-1、B-1、C-1是以X坐标为横轴、以像素数为纵轴的曲线图，A-2、B-2、C-2是以像素数为横轴、以Y坐标为纵轴的曲线图，直方图是线段的长度，在图示例的字符图形的情况下，水平直方图A-1和B-1中的峰(山)有2个，因此将2个峰之间的谷位置作为分割位置候选a和b，基于D线段外切近似图案的分割位置候选为c和d，在垂直直方图A-2、B-2、C-2、水平直方图C-1中山与谷之差小，山为1个，不具有足以作为分割位置候选的条件，由此从分割位置候选中排除，综合这些来决定分割位置。根据近似图案的位置d和大小、形状来判断分割位置候选c。能够基于输入图案来生成具有多个特征量的图案和直方图，根据多个条件生成最优的分割区域图像。

[分割区域判别处理2]

步骤S503的分割区域判定处理并不限于上述处理，也可以如下：生成提取输入图案(字符图像)的字符成分的芯线而得到的A芯线图案、提取字符垂直方向成分而得到的B垂直方向的字符线段图案以及提取字符图像的外切线而得到的D线段外切近似图案，基于这些生成的图案A的水平方向的直方图A-1以及图案B的水平方向的直方图B-1来提取分割位置候选a和b，基于D线段外切近似图案来提取分割位置候选c和d，从而求出分割区域，从同形字符表中选择与求出的分割区域的基本结构相像的图案并追加。

该方法例如像图8所示那样通过以下方式来进行：在同形字符、相似字符选择中，从同形字符表中选择所求出的分割区域的基本结构相像的图案，在图8的例子中，根据分割位置a～d而判定为是分割区域左右分开的结构，提取汉字要素是分割为纵向2列的汉字结构的同形字符表②和③(将②、③的字符类型追加到候选中。)，将该同形字符表②和③的字符类型追加为候选，排除汉字结构为上下结构、包围结构等这种汉字结构差异很大的同形字符表④以后的同形字符表。

[分割位置候选判定的具体说明]

前述的使用图7来说明的根据水平直方图A-1来判定分割位置候选的具体方法如下，在图11的(a)所示的水平直方图的情况下，通过重复以下步骤来判定分割位置候选：第一步骤，将该水平直方图的高于上阈值α的山(像素数多的位置)设定为山a、山b、山c、山d；第二步骤，将通过该第一步骤设定出的多个山中的相邻的山之间的相对于下阈值β处于最低的位置设定为谷a；第三步骤，将其它山之间的低于下阈值β的位置设定为谷b；第四步骤，从通过该第二步骤和第三步骤设定出的谷位置中选择1个；第五步骤，在将图11的(c)所示的谷的最小坐标设为Y_x、将以该坐标Y_x为中心相离X-1的位置的坐标设为Y_x-1、将以该坐标Y_x为中心相离X+1的位置的坐标设为Y_x+1时，根据是否满足“Y_x<Y_x-1且Y_x<Y_x+1”的公式条件来判定将通过该第四步骤选择出的谷作为分割位置是否妥当；以及第六步骤，在通过该第五步骤将谷a判定为分割候选时，将该谷a设定为分割候选。此外，关于上述第一步骤中的是否为山的判定，通过图11的(b)所示的“Y_x-1<Y_x且Y_x+1<Y_x”的公式条件来进行判定。

[同形字符表制作处理]

制作上述同形字符表的步骤S205的概要处理如下进行动作，如图9所示，通过执行以下步骤来制作同形字符表：步骤S901，按汉字结构相像的图案将字符图像分为大组(无分割、纵向分割的分割区域、横向分割的分割区域、分割成多个+字形的分割区域、其它分割形状)；步骤S902，在通过该步骤S901进行大分类所得到的组内，以欧几里德距离值小的字符类型彼此、余弦相似度大的字符类型彼此来分为小组(在图9中，以斜线表示欧几里德距离值小、余弦相似度大的区域)；以及步骤S903，将在上述步骤S901中根据区域构造分为大组的信息以及在步骤S902中根据欧几里德距离值和余弦相似度分为小组的信息保存在同形字符表中。通过该步骤S902，分小组以如下方式进行动作：例如在纵分割为左右的汉字结构的情况下，例如，将左侧的偏的汉字要素的相似度高的汉字图像分为小组，将右侧的旁的汉字要素的相似度高的汉字图像分为小组。

即，在本实施方式的同形字符表制作处理中，基于根据汉字结构规则得到的分割形状将汉字图像分为大组，并且将同一大组内的同一分割区域位置的汉字要素的相似度高的汉字图像分为小组，由此制作同形字符表。

如图10所示，该同形字符表制作处理的向大组的登记处理如下进行动作：步骤S1001，从同形字符表制作数据库读入作为识别对象的汉字图像(数据库中不仅包括手写字符，还包括印刷字符。手写字符包括写得整齐的字符和写得杂乱的字符。)；步骤S1002，根据通过该步骤S1001读入的汉字图像来制作芯线图案；步骤S1003，根据通过该步骤S1002制作出的芯线图案来制作水平方向的直方图；步骤S1004，根据通过该步骤S1003制作出的水平方向直方图来求出相邻的峰位置(山)之间的谷位置；步骤S1005，从通过该步骤S1004求出的谷位置中选择1个谷位置；步骤S1006，(根据山与谷的距离的大小等)判定通过该步骤S1005选择出的谷位置是否为分割位置候选；步骤S1007，在通过该步骤S1006判定为不是分割位置候选时，排除通过上述步骤S1005选择出的分割位置候选；步骤S1008，在通过上述步骤S1006判定为是分割位置候选时，存储为分割位置候选；步骤S1009，判定通过上述步骤S1004求出的全部谷位置的判定是否均已结束，在判定为未结束时返回到上述步骤S1005；步骤S1010，在该步骤S1009中判定为全部谷位置的判定均已结束时，基于通过上述步骤S1008存储的分割位置候选来决定分割区域；步骤S1011，判断通过该步骤S1010决定出的分割区域是否已登记在同形字符表的大组中；步骤S1012，在该步骤S1011中判定为未登记时，在同形字符表中登记新的大分类并将通过步骤S1001读入的字符类型登记在该大分类中；步骤S1013，在上述步骤S1011中判定为已登记时，将通过步骤S1001读入的字符类型追加到已登记在同形字符表中的相应的大分类中；以及步骤S1014，判定全部字符图像向大组的表登记是否均已结束，在判定为并非全部字符图像向大组的表登记均已结束时返回到上述步骤S1001，其中，在该步骤S1014中判定为全部字符图像向大组的表登记均已结束时，结束处理。

[大组制作处理]

上述图9的步骤S901的根据区域构造进行大分类的分大组处理如下进行动作：在图12的(a)左侧所示的汉字图像(图像图案)“凋”的情况下，通过前述的分割区域判别处理获取图12的(b)右侧所示的纵分割的分割区域，在该获取到的纵分割的分割区域被预先登记在同形字符表中但是字符类型未被登记的情况下(图12的(b)左侧)，将汉字图像(图像图案)“凋”登记在作为纵分割的分割区域的#2的组中(图12的(b)右侧)，在该获取到的纵分割的分割区域未被预先登记在同形字符表中的情况下(图12的(c)左侧)，追加纵分割的分割区域的大组#2，并且将汉字图像(图像图案)“凋”新登记在该追加的大组#2中(图12的(c)右侧)。

[相似区域判定处理]

在上述图9的步骤S902的在大组内将欧几里德距离值小的字符类型彼此、余弦相似度大的字符类型彼此汇总为小组的处理中，如图13所示，运算部执行以下步骤：步骤S1301，从大组分类表(图14左侧)中登记的大组中选择1个组；步骤S1302，从通过该步骤S1301选择出的大组读入1个字符图像；步骤S1303，从通过该步骤S1302读入的字符图像中选择1个汉字要素；步骤S1304，使用欧几里德距离值和余弦相似度来计算通过该步骤S1303选择出的汉字要素与其它汉字图像中的同一区域位置的汉字要素之间的相似度并保存在相似度计算结果表(图14右侧)中。

在这些步骤S1301～步骤S1304的相似度的计算中，如图14所示，例如，选择#2的纵分割形式的大组，针对属于该大组的任意的汉字图像的左区域(偏)的汉字要素，计算其与同一大组内的其它汉字的同一区域位置(左侧的偏位置)的汉字要素之间的相似度，根据相似度的程度进行分小组，由此能够如图14右侧所示那样，针对#2的大组内的1个字符类型，与计算对象区域的分割位置(例如中央纵分割、左侧纵分割、右侧纵分割等)相应地按相似度进行分小组。此外，关于相似度，在0～1的范围内设定，值越大则表示越相似、字形越相像。

接着，返回到图13，将相似度大的字符类型彼此汇总为小组的处理执行以下步骤：步骤S1305，判定在上述步骤S1301中选择出的大组内的全部字符图像中的汉字要素(分割区域)之间的相似度计算是否均已结束，在判定为未结束时返回到上述步骤S1304；步骤S1306，在该步骤S1305中判定为对同一大组内的全部字符图像的汉字要素(分割区域)的相似度计算均已结束时，判定在上述步骤S1303中选择出的汉字要素以外的汉字要素(分割区域)的相似度计算是否已结束，在判定为未结束时返回到上述步骤S1303；步骤S1307，在该步骤S1306中判定为全部汉字要素(分割区域)的相似度计算均已结束时，判定通过上述步骤S1301选择出的大组内的全部字符图像的相似度计算是否均已结束，在判定为未结束时，返回到上述步骤S1302；步骤S1308，在该步骤S1307中判定为同一大组内的全部汉字要素(分割区域)的相似度计算均已结束时，判定全部大组中的相似度计算是否均已结束，在判定为未结束时返回到上述步骤S1301；步骤S1309，在该步骤S1308中判定为全部大组的相似度计算均已结束时，基于通过上述步骤S1304计算出的相似度计算结果来分类为小组候选；步骤S1310，从通过该步骤S1309分类出的小组中选择1组并计算其与其它小组之间的相似度；步骤S1311，判定通过该步骤S1310计算出的相似度是否为规定的阈值以上；步骤S1314，在判定为通过该步骤S1311计算出的相似度不是规定的阈值以上时，不将小组候选结合在一起；步骤S1312，在上述步骤S1311中判定为相似度为规定的阈值以上时，将相似度为阈值以上的小组结合为1个小组并保存在小组候选分类表(图15)中；以及步骤S1313，判定通过上述步骤S1309分类出的全部小组的相似度的计算是否均已结束，在判定为未结束时返回到上述步骤S1310，在判定为已结束时结束处理，通过执行以上步骤，能够制作将特定区域位置的汉字要素的相似度为规定值以上的小组相结合而成的同形字符表(图15)(例如，制作纵分为二的左侧的偏相似的小组、纵分为二的右侧的旁相似的小组)。

[同形字符表]

如图16的(a)所示，通过步骤S205制作的同形字符表由表示作为分割区域的汉字字符的大致的分割形式(无分割、纵分割…十字分割等)的大组、根据大组内的详细分割位置(例如中央纵分割、左侧纵分割、右侧纵分割等)划分而成的小组、该小组的分割位置容许范围、以及该小组中包含的字符类型这样的各项目信息构成，关于上述分割位置容许范围，如图16的(b)所示，在将字符图像的横向设为X轴、将纵向设为Y轴、将字符图像设为nx、ny的大小时，以点为单位来表示X轴方向和/或Y轴方向上的所容许的范围(在同形字符表制作中根据通过分割区域判定处理求出的分割位置来求出分割位置容许范围。若读取对象字形的分割位置在所求出的容许范围内则判断为分割区域妥当。)。在通过分割区域判定处理无法确定分割位置的情况下，如图16的(c)所示，将字符图像均等地分为N×N个区域，将欧几里德距离值小或余弦相似度大的区域与分割容许范围与小组进行比较，由此能够选择候选字符类型，能够根据分割区域形式(构造)相像来追加到识别候选中。

[总结]

关于像这样应用了本实施方式的字符识别方法的字符识别装置，在如图23所示的以往技术那样利用仅使用欧几里德距离值的字符识别技术来标绘全部类别的欧几里德距离值和计算对象的字符图像的情况下，如图19所示，大致可以划分为以○标记表示的正确答案的可能性高的类别、以斜线○标记表示的可能性为中等程度的类别、以及以●标记表示的正确答案的可能性低的类别，从而存在以下问题：阈值T以上的以○标记表示的正确答案的可能性高的类别有可能会成为计算对象外而遗漏，并且反之阈值T以下的以斜线○表示的正确答案可能性为中等程度的类别有可能也被当作计算对象而误读，与此相对，在本发明中使用判定出特定区域位置的汉字要素的相似度的同形字符表，由此能够将阈值T以上的以○标记表示的类别也当作计算对象内，并且能够将阈值T以下的以斜线○标记表示的存在误识别的可能性的类别从计算对象中排除，从而能够进行遗漏少而高效的字符识别。

另外，关于应用了本实施方式的字符识别方法的字符识别装置，如图20所示，以○标记表示类别A的图案(字符图像)且以×标记表示类别B的图案(字符图像)，以△标记表示输入图案(字符图像)，在以△标记表示的输入图案(字符图像)与类别A及类别B的平均图案(大○标记、大X标记)之间的欧几里德距离值相同的情况下，在以往技术中必须比较类别A与类别B这两个图案，因此招致处理时间冗长的问题，与此相对，像本实施方式那样还兼用余弦相似度，由于类别A的余弦相似度角度α大于类别B的余弦相似度角度β，因此将类别A从比较对象中排除。因此，如图所示，即使欧几里德距离值(图中的点线)相同，也能够通过比较余弦相似度(图中的α、β)来设为候选对象外，由此能够高速地进行字符识别。

如以柱形图表示与在识别对象时比较的输出候选数量相对的处理时间、以折(虚线)线图表示识别精度的图21所示，该字符识别处理时间具有在使识别度为高精度的情况下需要长时间的处理时间、在使识别速度高速化的情况下识别精度下降的特性，因此，通过如本实施方式那样缩减输出候选数量，不需要大容量的存储器大小就能够进行高速的字符识别。

Claims

1.一种字符识别装置，具备：输入部，其以光学方式将包括汉字的字符读取为字符图像，该汉字由多个区域的汉字要素构成；图像获取部，其获取使用该输入部读取的字符图像；外部存储部，其保存字符辨别用辞典和同形字符表，该字符辨别用辞典保存有多个标准字符图像，该同形字符表用于按共同的部首、旁将汉字进行分类并且将目视时相像的相似和同形的汉字进行分类；以及运算部，其参照该字符辨别用辞典和同形字符表来控制字符图像的字符识别，其中，该运算部参照字符辨别用辞典对输入的字符图像执行字符识别处理，该字符识别装置的特征在于，

上述运算部包括：

2.根据权利要求1所述的字符识别装置，其特征在于，

上述运算部还包括高精度字符识别单元，该高精度字符识别单元基于从通过标准字符识别单元的逻辑或而得到的字符图像中排除通过上述分割区域判定单元分割出的多个分割区域的结构不同的异种候选字符以及该异种候选字符所属的组中包含的字符图像后得到的候选字符，来进行字符识别。

3.根据权利要求1或2所述的字符识别装置，其特征在于，

上述运算部还包括高速字符识别单元，该高速字符识别单元将通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像作为候选字符来进行字符识别。

4.根据权利要求1至3中的任一项所述的字符识别装置，其特征在于，

上述同形字符表制作单元包括分大组单元和分小组单元，该分大组单元将基于通过上述分割区域判定单元判定出的分割区域的汉字结构相同的字符图像分为大组，该分小组单元将通过该分大组单元分组得到的大组内的、特定区域位置的汉字要素的余弦相似度高于规定值且欧几里德距离值小于规定值的字符图像分为小组，

上述运算部将通过该分大组单元和该分小组单元分组得到的字符图像保存在同形字符表中。

5.根据权利要求1至4中的任一项所述的字符识别装置，其特征在于，

上述运算部具备对上述标准字符识别单元、上述高精度字符识别单元以及上述高速字符识别单元进行切换或调整的功能。

6.一种识别字符的字符识别装置的字符识别方法，该字符识别装置具备：输入部，其以光学方式将包括汉字的字符读取为字符图像，该汉字由多个区域的汉字要素构成；图像获取部，其获取使用该输入部读取的字符图像；外部存储部，其保存字符辨别用辞典和同形字符表，该字符辨别用辞典保存有多个标准字符图像，该同形字符表用于按共同的部首、旁将汉字进行分类并且将目视时相像的相似和同形的汉字进行分类；以及运算部，其参照该字符辨别用辞典和同形字符表来控制字符图像的字符识别，该字符识别方法的特征在于，使该运算部执行以下步骤：

7.根据权利要求6所述的字符识别方法，其特征在于，

使上述运算部还执行高精度字符识别步骤，在该高精度字符识别步骤中，基于从通过标准字符识别步骤的逻辑或而得到的字符图像中排除通过上述分割区域判定步骤分割出的多个分割区域的结构不同的异种候选字符以及该异种候选字符所属的组中包含的字符图像后得到的候选字符，来进行字符识别。

8.根据权利要求6或7所述的字符识别方法，其特征在于，

使上述运算部还执行高速字符识别步骤，在该高速字符识别步骤中，将通过上述欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像作为候选字符来进行字符识别。

9.根据权利要求6至8中的任一项所述的字符识别方法，其特征在于，

上述同形字符表制作步骤包括分大组步骤和分小组步骤，在该分大组步骤中，将基于通过上述分割区域判定步骤判定出的分割区域的汉字结构相同的字符图像分为大组，在该分小组步骤中，将通过该分大组步骤分组得到的大组内的、特定区域位置的汉字要素的余弦相似度高于规定值且欧几里德距离值小于规定值的字符图像分为小组，

使上述运算部将通过该分大组步骤和该分小组步骤分组得到的字符图像保存在同形字符表中。

10.根据权利要求6至9中的任一项所述的字符识别方法，其特征在于，

使上述运算部具备对上述标准字符识别步骤、上述高精度字符识别步骤以及上述高速字符识别步骤进行切换或调整的功能。