CN104112128A

CN104112128A - 应用于票据影像字符识别的数字图像处理***及方法

Info

Publication number: CN104112128A
Application number: CN201410276103.0A
Authority: CN
Inventors: 曾修远; 苏永前; 王彦红; 程炜华; 周程伟; 赵文哲
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2014-10-22
Anticipated expiration: 2034-06-19
Also published as: CN104112128B

Abstract

本发明公开了一种应用于票据影像字符识别的数字图像处理***及方法，其中***方法包括：影像参数检测模块，用于检测票据影像参数；影像倾斜检测模块，用于检测票据影像中票面的倾斜程度；字符区域检测模块，用于对字符区域进行定位；字符区域可识别检测模块，用于检测字符区域中的字符参数和***像素；字符匹配度检测模块，用于将字符区域中的字符与模板进行匹配度检测；开口特征检测模块，用于检测字符区域中的字符的开口特征。采用本发明可以在银行票据影像交换的支票影像分析处理过程中提高票据影像字符识别正确率。

Description

应用于票据影像字符识别的数字图像处理***及方法

技术领域

本发明涉及数字图像处理及光学字符识别技术领域，尤其涉及应用于票据影像字符识别的数字图像处理***及方法。

背景技术

随着数字图像处理、模式识别和人工智能的发展，光学字符识别(Optical CharacterRecognition，OCR)技术在金融领域，尤其是票据影像票面要素合法性检验、票据业务流程再造等方面得到了越来越多的应用。目前光学字符识别***主要处理流程如图1所示，大体可分为影像输入、影像预处理、字符特征提取、字符匹配识别这四个步骤。

第一个步骤是影像输入，主要利用光学仪器对待识别的标的物(如书籍、文件、证件等)进行扫描，从而生成相应的影像数据，光学仪器包括扫描仪、传真机、数码相机或者其他摄影器。影像生成时光照条件，影像的分辨率等因素，将影响后续识别的效果和精度。

第二个步骤为图像的预处理，这是根据前一阶段生成影像的特点，对影像进行处理以便于后续阶段的字符提取，主要包括影像色彩校正、影像倾斜校正、噪声过滤以及统一将影像转换成黑白二部图或者是灰度图。预处理具体细节流程，需要根据影像数据的特点和参数进行设计，例如影像存在不同程度的色偏，预处理阶段就必须包含色彩矫正这一步。

第三个、第四个步骤分别为字符特征提取和匹配识别，主要是将上一阶段的字符区域按照字符进行分割，然后对单个字符提取其字符特征，为后续匹配识别做准备。目前的识别方法主要有两种，一为统计的特征，例如记录区域内的黑/白像素数比，当文字区分成好几个区域时，这一个个区域黑/白像素比的联合，就成了空间的一个数值向量，称为特征向量，在后续识别时只需与该特征向量进行比对即可。而另一类特征为结构的特征，如字符影像细线化后，取得字符的笔划端点、交叉点的数量及位置，或以笔划段等字符拓扑结构参数为特征，然后在特征库中进行比对即可得到结果。

如上所述，目前字符识别方法的主要流程架构、尤其是第三、第四步骤已经比较成熟稳定，而影响其识别正确率的关键，在于第二个步骤影像预处理，待识别的标的物因为其自身特点的不同，以及影像数据的扫描过程、扫描生成时的光照条件的不同和成像设备的个体差异，都会造成影像包含各种各样的影响识别的“噪声”(以后文中约定噪声即表示影响识别图像中字符的因素)，一个通用的识别***由于效率、性能、成本和可行性的缘故，在设计时往往不可能也不会考虑所有可能影响识别正确率的因素。这即是说，现有通用***的设计策略是尽可能多地识别各种影像中的字符，但是其所依据的影像参数模型却不能描述所有的影像问题，因此往往会存在有些影像未能得到合适的预处理就流入后续的识别步骤，最终造成识别错误。例如银行票据影像交换中的支票编号识别问题，因为支票在使用的过程中存在不确定性，往往存在支票编号被***、手写字符覆盖的问题，同时生成的票据影像也存在光照、色偏上的差异，但是目前通用性的识别***上没有对这些特征加以定量地描述和考虑，所以现有的通用识别***针对票据的识别结果往往不能令人满意，难以满足金融业信息录入，尤其是账务类信息录入的严格要求，这实际上也是阻碍光学字符识别在金融业进一步得到推广的关键。

发明内容

本发明实施例提供一种应用于票据影像字符识别的数字图像处理***，用以在银行票据影像交换的支票影像分析处理过程中提高票据影像字符识别正确率，该***包括：

影像参数检测模块，用于检测票据影像参数；

影像倾斜检测模块，用于检测票据影像中票面的倾斜程度；

字符区域检测模块，用于对字符区域进行定位；

字符区域可识别检测模块，用于检测字符区域中的字符参数和***像素；

字符匹配度检测模块，用于将字符区域中的字符与模板进行匹配度检测；

开口特征检测模块，用于检测字符区域中的字符的开口特征。

一个实施例中，所述影像参数检测模块具体用于：

检测票据影像是否符合分辨率、影像尺寸和影像格式要求，以及是否包含完整票据画面，在达不到要求时确定票据为落地处理。

一个实施例中，所述影像倾斜检测模块具体用于：

通过扫描票据影像中的票面边缘获取票面倾斜角度，在倾斜角度不超过阈值时进行倾斜矫正并检测矫正结果，在倾斜角度超过阈值或经过矫正仍存在倾斜时确定票据为落地处理。

一个实施例中，所述影像倾斜检测模块具体用于：

通过横向扫描记录出支票上边缘的中部的点集的坐标，根据记录的坐标进行直线拟合，再根据拟合上边缘直线的倾斜角度对票据影像进行双线性旋转。

一个实施例中，所述字符区域检测模块具体用于：

根据票据影像中票面结构和票面偏移情况，获取支票编号区域在票据影像中的位置坐标和尺寸大小，判断是否能够分割出支票编号区域，若不能分割出支票编号区域则确定票据为落地处理。

一个实施例中，所述字符区域检测模块具体用于：

测量出影像右上角中黑色背景的横向和纵向上的长度，以定位支票票面右上角的确定坐标位置；划定字符区域相对票面的位置和大小；通过动态调整确定字符区域的具体大小和位置坐标。

一个实施例中，所述字符区域可识别检测模块具体用于：

对字符区域中每一个单个数字字符进行定位分割，检测数字及数字之间间隙的个数、宽度和高度是否符合字符参数要求；在HSV色彩空间对字符区域进行扫描，检测字符区域的***像素；如果不符合字符参数要求或***像素个数超过阈值，则确定票据为落地处理。

一个实施例中，所述字符匹配度检测模块具体用于：

将字符区域中定位分割出的每一个单个数字字符与模板进行匹配度检测，并与票据影像字符识别结果进行比对。

一个实施例中，所述开口特征检测模块具体用于：

检测字符区域中定位分割出的每一个单个数字字符的开口特征；在开口特征、匹配度、识别结果均一致时，确定字符识别成功，否则确定票据为落地处理。

本发明实施例还提供一种应用于票据影像字符识别的数字图像处理方法，用以在银行票据影像交换的支票影像分析处理过程中提高票据影像字符识别正确率，该方法包括：

检测票据影像参数；

检测票据影像中票面的倾斜程度；

对字符区域进行定位；

检测字符区域中的字符参数和***像素；

将字符区域中的字符与模板进行匹配度检测；

检测字符区域中的字符的开口特征。

一个实施例中，所述检测票据影像参数，包括：

一个实施例中，所述检测票据影像中票面的倾斜程度，包括：

一个实施例中，所述进行倾斜矫正，包括：

一个实施例中，所述对字符区域进行定位，包括：

一个实施例中，所述检测字符区域中的字符参数和***像素，包括：

一个实施例中，所述将字符区域中的字符与模板进行匹配度检测，包括：

一个实施例中，所述检测字符区域中的字符的开口特征，包括：

本发明实施例中应用于票据影像字符识别的数字图像处理***和方法，可以在银行票据影像交换的支票影像分析处理过程中提高票据影像字符识别正确率，能够满足金融业信息录入，尤其是账务类信息录入的严格要求，有利于光学字符识别在金融业进一步得到推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为背景技术中现有字符识别***的处理流程图；

图2为本发明实施例中应用于票据影像字符识别的数字图像处理***的示意图；

图3为本发明实施例中支票编号区域的竖直投影结果示例图；

图4为本发明实施例中字符与模板匹配的示意图；

图5为本发明实施例中开口结构检测的示例图；

图6为本发明实施例中应用于票据影像字符识别的数字图像处理方法的流程示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例克服了现有技术的缺点，提供了一种应用于票据影像字符识别的数字图像处理***，该***能够在银行票据影像交换的支票影像分析处理过程中提高票据影像字符识别正确率，特别是提高银行支票编号识别正确率。

实施过程中，本发明实施例针对支票编号的识别考虑较为全面、完整，例如考虑到如支票的票面结构、大小尺寸、字体结构特征等支票一般性特征；也考虑到支票在使用流通过程中所可能遇到的影响识别正确性的噪声因素，例如使用时被***覆盖、与其他字符重叠，以及因设备环境差异造成的如票面倾斜、光照不统一等因素。基于此，本发明实施例采用“尽量检测、过滤出包含影响识别的噪声的影像”的策略，在现有识别***的基础上增加由若干检测和校正模块组成的新***。图2是本发明实施例中应用于票据影像字符识别的数字图像处理***的示意图。如图2所示，该***包括影像参数检测模块、影像倾斜检测模块、字符区域(ROI)检测模块、ROI可识别检测模块、字符匹配度检测模块及开口特征检测模块。这些检测模块分别与现有识别***(包括影像生成模块、影像预处理模块、字符特征提取模块和字符特征匹配模块)中的各个模块进行串联。每一个检测模块以现有识别***中某一模块处理的处理结果和中间状态为输入信息，检查、过滤或者矫正一部分可能会影响下一模块处理结果正确性的噪声，如果达到检测标准，则指示执行后续的识别/检测模块，反之，如果某一检测模块检测到会影响识别结果正确性的噪声，则终止该票据影像的识别过程，做落地处理，落地处理的含义即为人工参与票据处理。最后识别完毕后，识别结果输入数据库存储。应用于票据影像字符识别的数字图像处理***的每个模块的功能介绍如下：

影像参数检测模块：用于检测票据影像参数。例如，该模块可以串联在影像生成模块后面，用于检测影像生成模块生成的票据影像是否符合参数标准，包括分辨率、影像尺寸、影像格式、以及影像是否包含完整票据画面，如果达不到要求则判定为落地处理。

影像倾斜校正模块：用于检测票据影像中票面的倾斜程度。例如，该模块可以对生成的影像的票面倾斜程度进行定量检测，通过扫描影像中票面上边缘，获取其倾斜角度，如果倾斜角度较小，在一定范围内，例如不超过阈值，则进行倾斜矫正并检测矫正结果，如果倾斜角度过大(超过阈值)或者经过矫正仍然存在倾斜则判定为落地处理。

字符区域(ROI)检测模块：用于对字符区域进行定位。例如，该模块负责对ROI进行定位，根据支票票面的结构和票面在影像中的偏移情况，获取支票编号区域在影像中的精确位置坐标和尺寸大小，在定位的过程中判断是否能够分割的支票编号区域，不能分割出支票编号区域则确定票据为落地处理；还可以初步检测是否存在其他字符与ROI区域重叠，如果不能完整分割出ROI区域则判定为落地处理。

ROI可识别检测模块：用于检测字符区域中的字符参数和***像素。例如，该模块负责对ROI中的每一个单个数字字符进行定位分割，检测数字以及其间隙的个数、宽度、高度是否符合要求；此外，在HSV色彩空间对ROI区域进行扫描，检测ROI区域是否存在***的红色或者蓝色，如果字符参数超过标准或者存在过多的红色或者蓝色***像素，如像素个数超过阈值，则判定为落地处理。

字符匹配度检测模块：用于将字符区域中的字符与模板进行匹配度检测。例如，该模块负责对ROI可识别检测模块中分割出来的结果单个字符与模板进行匹配度检测，与现有识别***中最后的字符匹配识别模块的识别结果进行比对。

开口特征检测模块：用于检测字符区域中的字符的开口特征。该模块检测单个数字字符的开口特征。实施例中如果上述开口特征、匹配度与识别结果这三个结果一致，则判定识别成功，整个***运行完毕，否则落地处理。

如前所述，为了解决现有技术的问题，本发明实施例在整个识别过程的每个处理阶段前后，定性或者定量地对存在影响识别正确率因素的支票影像加以检测、过滤、处理或者矫正。本发明实施例在现有技术方案的基础上增加了若干检测模块，包括影像参数检测模块、影像倾斜检测模块、字符区域(ROI)检测模块、ROI可识别检测模块、字符匹配度检测模块及开口特征检测模块，它们串联在现有***基本模块前后，对每个现有***基本模块的处理结果进行检测，以确保影像的识别结果的正确性。具体地说，影像参数检测模块以影像生成模块生成的影像为输入，检测其生的票据影像的具体参数；影像倾斜检测模块以影像预处理模块校正过的影像为输入，检测其生成的票据影像中票面的倾斜程度并进行冗余校正；字符区域(ROI)检测模块和ROI可识别检测模块则以影像预处理模块校正过的影像为输入，检测并提取票据编号区域；而字符匹配度检测模块则以ROI可识别检测模块生成的字符二部图，和字符特征匹配模块的识别结果为输入，对检查识别结果做最后的检测。

具体实例中，影像参数检测模块可以要求影像生成模块按照一定的参数设置，并在影像生成后对这些影像的参数进行检测。采集影像时可以要求扫描设备为目前主流的平板扫描仪，推荐带有自动影像裁切功能的扫描仪，例如富士通fi-5220c高速扫描仪，扫描时尽量使支票影像的四边与扫描仪的扫描框平行，扫描生成的支票影像经检测例如可以具备以下特征：

1、图像分辨率为200dpi的彩色影像；

2、影像宽1500±100像素，高650±50像素(以下文中约定图像尺寸大小以及坐标的单位都是像素)；

3、影像存储格式为24位JPG格式、TIFF格式、256色BMP格式中的一种，推荐设置输出格式为24位JPG格式；

4、影像中支票票面全部清晰可见，除支票票面以外的影像边缘背景部分为纯黑色，即RGB值为(0，0，0)；

5、票据影像中支票部分相对于整个影像没有大幅倾斜，支票在扫描前经过检验，票据要素、尤其是待识别的支票编号没有被人为故意涂改(根据支票使用规范，网点操作柜员在收取票据时有责任对票据是否清晰、未被涂改进行检查)。

如果生成的支票影像的参数达不到上述标准，则判定为不可识别或者重新扫描。

具体实例中，影像倾斜检测模块可以负责处理前一模块生成并处理完成的票据影像，对影像中的支票票面进行倾斜矫正，并过滤出倾斜过大、无法倾斜矫正以及影像尺寸不正常的影像。实施例中可以定量规定：支票影像倾斜角度超过±15度即判定为不可识别；整个支票影像宽度超过1400至1600像素，高度超过600至700像素的范围，则判定为不可识别。对于参数符合上述范围的影像，进行倾斜矫正，首先可以通过横向扫描记录出支票上边缘的中部的点集的坐标，根据坐标进行直线拟合，再根据拟合上边缘直线的倾斜角度对影像进行双线性旋转，从而完成倾斜矫正。影像倾斜检测模块中倾斜矫正以及检测的具体流程可以如下：

1、检测支票影像的分辨率Resolution，高度Height，及宽度Width。如果宽度Width不在1500至1600像素的范围内，或者高度Height不在600至700像素的范围内，则判定该影像为不可识别；如果分辨率Resolution不是200dpi，则判定该影像为不可识别；

2、影像边缘处理：将图像的四条边缘，即四边宽度为一个像素的边缘上的像素全部变成黑色像素，即将这些像素的RGB值进行修改为(0，0，0)；

3、支票上边缘检测：首先可以在横坐标上，以影像宽度上的二分之一处为中心点，在横坐标中确定出Width×0.5±100像素的范围。在该范围内，从坐标为[Width×0.5-100,1]的像素开始，首先在横坐标固定、纵坐标从1到Height的范围内的像素的RGB值进行扫描检测，当扫描到的像素以及后面连续两个像素的RGB三个通道的值均小于(50，50，50)时，则认为已经找到了支票票面区域的边缘，记录边缘上该点的坐标，停止该列像素的扫描，然后再从坐标为[Width×0.5-100+1,1]的像素开始，再次在横坐标固定、纵坐标从1到Height的范围的像素进行检测扫描，重复该扫描步骤直到一列一列地扫描完[Width×0.5-100，Width×0.5+100]内的所有像素。扫描任何一列像素时，如果像素的纵坐标超过了Height×0.25时像素的RGB值仍然没有超过(50，50，50)则停止扫描，并判定该图像不可扫描；如果对于任意一个找到的边缘像素的纵坐标的值与前一个或者是后一个边缘像素的纵坐标的值相差超过±2个像素，则停止扫描，并判定该影像不可以识别；

4、倾斜角度计算与矫正：得到支票上边缘的点集的坐标，利用最小二乘法拟合出支票上边缘的直线的斜率参数，然后以此斜率参数得到支票票面相对于支票影像的倾斜角度，根据倾斜角度，以影像的中心为圆心，对影像进行双线性旋转以矫正倾斜。得到倾斜角度后，如果倾斜的角度超过±15度，则判定该影像不可识别；矫正过后，重复第3、4步骤得到影像矫正后的倾斜角度，如果校正后支票票面的倾斜角度超过±0.5度则判定该影像为不可识别。

具体实例中，字符区域(ROI)检测模块在得到矫正过的支票影像后，需要进一步定位位于支票右上角的支票编号的兴趣区域(ROI，以下文中约定ROI为影像中刚好包含支票编号的区域，即影像的一个子区域)以便下一模块提取字符特征。由于存在不确定的黑色背景，即支票票面部分在支票影像中并不固定，以及后期打印总存在偏移的原因，右上角的支票编号相对影像坐标系并不很固定。该模块负责消除该不确定偏移因素并定位支票编号的确切区域的位置坐标和大小。首先可以测量出影像右上角中黑色背景的横向和纵向上的长度，从而定位支票票面右上角的确定坐标位置，然后可以划定ROI区域相对票面的大概位置和大小，最后通过动态调整进一步确定ROI的具体大小和位置坐标。具体流程可以如下：

1、右上角黑色背景检测：考虑到票面和影像都是长方形，并且已经经过旋转矫正，因此首先从影像上边缘的中心点，即坐标为[Width×0.5，1]的像素，在横坐标确定、纵坐标从1到Height的范围内扫描，直到遇到连续三个像素的RGB值均小于(50，50，50)为止，则认为得到了票面上边缘的像素。此时得到的边缘像素的纵坐标标记为Height_Blackground。类似地，从影像右边缘的中心点，即坐标为[Width,Height×0.5]的像素开始，对纵坐标固定、横坐标从Width到1到范围内的像素进行扫描，直到遇到连续三个像素的RGB值均小于(50，50，50)的票面右边缘的像素为止。此时得到的影像宽度Width与边缘像素的横坐标的差值标记为Width_Blackground；

2、初步定为ROI区域：支票编号区域ROI即为一个刚好包含支票编号数字部分的长方形。长方形左上角点的坐标的初始值根据经验值可认为距票面上边缘50个像素，距支票票面右边缘300个像素。ROI区域的宽度ROI_Width为200像素，高度ROI_Height为53像素；

3、动态调整ROI区域：首先可以选取初步定的ROI区域的RGB三个通道中的绿色(G)通道的值，即得到对应ROI区域的灰度图，标记为Gray_ROI。然后可以根据该灰度图，采用最大类间方差法(OSTU)进行自适应阈值分割，获得初始ROI区域的二值化图，标记为Binary_ROI。ROI左上角的坐标标记为[new_ROI_X,new_ROI_Y]，其中只存在黑色像素和白色像素，黑色像素的像素值设置为0，白色像素的像素值设置为1。获得ROI区域二部图后，依次对其四条宽度为一个像素的边缘进行扫描。例如左边缘，对边缘上从坐标为[Weight-Weight_Blackground-300,Height+50]的像素开始，横坐标保持不变、纵坐标范围从Height+50到Height+50+53范围内的像素的灰度值。如果存在黑色像素，则将ROI左边缘向右移动一个像素，即将从坐标为[Weight-Weight_Blackground-300+1,Height+50]的像素开始，横坐标保持不变、纵坐标范围从Height+50到Height+50+53范围内的像素集合(一个线段)作为ROI新的左边缘，并再次检测新边缘是否存在黑色像素。如此右移左边缘，直到新的左边缘没有黑色像素为止。采用类似的方法，对下边缘、右边缘和上边缘进行动态调整时，下边缘向上移动，右边缘向左移动，上边缘向下移动。移动的过程中若新的边缘不存在黑色像素，即全都是白色像素，则认为找到了合适的边缘并停止移动。如果任何一条边缘移动超过了10个像素后新边缘上仍然存在黑色像素，则判定为不可识别。调整过后，新的Binary_ROI区域标记为new_Binary_ROI，其左上角点像素的坐标标记为[new_ROI_X,new_ROI_Y]。如果new_Binary_ROI的宽度new_ROI_Width低于180个像素，或者高度new_ROI_Height低于45个像素，则判定为不可识别。

具体实例中，ROI可识别检测模块在当ROI检测模块成功获取ROI区域的精确坐标和大小后，进一步提取ROI中支票编号的字符特征并进行识别之前，可以对ROI区域进行扫描，以检测是否存在***、手写字符覆盖等影响识别的噪声。银行使用在进行支票业务操作时，使用的***只有纯红或者纯蓝两种颜色，因此***检测需要将像素从RGB色彩空间转换到HSV色彩空间，在色彩空间内对***的纯红色或者纯蓝色进行检测。在支票票面结构上，支票编号下方为付款行名称，有时存在打印或者手写的付款行名称偏移并覆盖支票编号的情况，可以通过对ROI检测模块生成的ROI区域的二部图new_Binary_ROI进行竖直投影进行检测。具体实施流程可以如下：

1、***检测：首先在影像上确定ROI区域的范围，然后针对该区域的每一个像素，将像素的RGB值转换成HSV(Hue，Saturation，Value)值。可以约定，纯红色的色相(Hue)范围是[0,01]和[0.9,1]；纯蓝色的色相(Hue)范围内[0.55,0.65]；***像素的饱和度(Saturation)范围是[0.3,1]；***像素的亮度(Value)范围是[0.6,1]。对于任何一个ROI区域的像素的HSV值，如果其HSV值中的任何一项达到了上面的范围，则认为是***像素(***像素即为像素HSV值在上述的范围内的像素)，并予以记录。如果扫描完整个ROI区域后，记录的***像素的数量超过25个，则可以认为编号被***覆盖，判定为不可识别；

2、覆盖字符检测：获取前一模块生成的区域的二值化图new_Binary_ROI，按照下面所示的竖直投影函数ROI_Projection(x)得到new_Binary_ROI的竖直投影结果。图3为本例中支票编号区域的竖直投影结果示例图。如图3所示，其中x表示横坐标，单位为像素，函数值为Binary_ROI每一个纵列上的像素集合的像素值的累加和，设定黑色像素的像素pixel_value值为0，白色像素的像素值为1，具体公式如下：

ROI_projection (x) = Σ_{i = 1}^{new_ROI_Height} Pixel_value (i);

得到累加结果后，明显可以看出，横坐标在字符之间的空白分隔区域的投影函数值为恒定结果，即new_ROI_Height×1，连续的函数值Y为new_ROI_Height×1的区域的横坐标区间的宽度就是字符间的间隔宽度，两个值为new_ROI_Height×1的连续区域之间，函数值低于new_ROI_Height×1的区域的宽度，即为字符的宽度。通过竖直投影函数度量出10个间隔(包括首尾)的宽度和8个字符的宽度，正常的支票编号的数字为8位，在分辨率为200dpi的情况下：字符的宽度设定在[8,20]范围(单位为像素)内，间隔宽度设定在[4,12]范围内，字符的高度设定在[25,32]范围内，如果字符个数或者间隙个数不是8个和10个，或者有任何字符的宽度或者间隙的宽度不在上述范围内，则可认为被其他字符覆盖，判定为不可识别。

具体实例中，字符匹配度检测模块可以在通过字符匹配识别模块得到识别结果后，检测识别结果的可靠性。根据字符区域检测模块中获得的new_Binary_ROI区域上竖直投影函数ROI_Projection(x)的结果，可以得到每一个数字字符在new_Binary_ROI中的精确位置。可以对每一个单个数字字符区域复制一个单独的拷贝，与0到9的字符模板进行比较并检测其匹配度，通过匹配度这个量化的数值定量检测识别结果的可靠性。具体实施流程可以如下：

1、单个字符定位检测：根据上一模块中的投影函数ROI_Projection(x)，从Binary_ROI区域左到右开始扫描，将第N个函数值小于new_ROI_Height×1的连续区域的起始位置坐标记录在数组Number_Star[N]中，并将该连续区域的宽度记录在Number_Width[N]中。其中Number_Star和Number_Width均为具有8个单元的数组，对应支票编号的8个数字。同理根据上一模块中的水平投影函数ROI_horizon(y)获取字符上部Number_Top和下部分Number_Down的坐标，以及字符高度Number_Height。得到坐标后，对于编号中的第N(N∈[1,8]，支票编号只有8位)个字符，从Binary_ROI中的以左上角坐标为[Number_Star[N],Number_Top，大小为Number_Width[N]×Number_Height的区域进行拷贝即可以获取第N个字符的二值化图的拷贝，标记为Num_Binary[N]；

2、生成数字模板：选择一定数量清晰、没有***等覆盖的支票的影像，经过上述几个模块和步骤的处理，得到支票影像的支票编号的分割出来的若干字符的二值化图的拷贝。从中挑选出清晰的0到9共10个字符的二值化图的拷贝作为模板，标记为Num_Template[M]。其中M为0到9的整数。第M个模板上需为数字M的二值化图，同时每个数字模板的尺寸需为25×53。如果模板的高或者宽到不要求，则直接在字符的上边缘和左边缘增加若干行、列的白色像素，直到尺寸达到要求。挑选完成后的模板可以反复使用，后续无需再生成，因此该步骤只需执行一次即可，但若支票字体发生变化，则可以重复该步骤生成新的模板。

3、单个字符匹配度检测：根据上两个步骤产生了编号数字字符的二值化图。对于支票编号中第N个数字，N为1到8之间的整数，将Num_Binary[N]与模板Num_Template[M]逐一进行匹配，图4为本例中字符与模板匹配的示意图，如图4所示，先将Num_Bianry[N]的每一像素，与模板Num_Template[0]中坐标范围为宽从1到Number_Width[N]、高从1到Number_Height的一块与Num_Binary[N]同样形状大小的区域的像素一一对应。对于所有对应的像素对，统计同样是黑色，以及同样是白色像素的数值，这个数值除以Num_Binary[N]中像素的数量进行归一化后，定义归一化后的结果为匹配度。然后再将Num_Template[0]中坐标区域向右移动一个像素，即将宽从2到Number_Width[N]+1、高从1到Number_Height的一块与Num_Binary[N]同样形状大小区域进行匹配并统计出匹配度。如此移动直到Number_Width[N]+H等于模板Num_Template[0]的宽25，这时将区域移动到模板的宽从1到Number_Width[N]、高从2到Number_Height+1的区域统计匹配度，如此直到Num_Binary[N]与模板上所有不同的同形状大小区域统计了匹配度后，选出其中最高的匹配度，标记为Match[0]。采用同样的方法，再将Num_Binary[N]与其他所有的模板Num_Template[M]进行匹配并得到对应的匹配度Match[M]，如果这时Match[I](I表示数字I)最大，则Num_Binary[N]即可识别成数字I，同理可以获得编号中其他数字，这时对于Num_Binary[N]的最大匹配度，标记为Max_Match[N]。如果I不是字符匹配识别模块输出的识别结果，则认为结果不正确判定为不可识别；如果匹配度数值低于0.8，则认为结果不正确判定为不可识别。

具体实例中，在通过字符匹配度检测模块得到识别结果后，仍然需要由开口特征检测模块验证识别结果的正确性。例如，可以根据每个字符二值化图的区域的开口结构特征进行检测，如果开口结构的检测结果与识别出来的数字的开口特征一致，则认为识别正确。不同的数字的开口特征并不一样，可以通过对一个字符的四个开口区域的开口检测进行编码，如果二值化图的开口特征与识别结果对应的数字的开口特征不符，则可以判定该影像不可识别。具体流程可以如下：

1、开口结构检测：图5为开口结构检测的示例图，如图5所示，将字符二值化图划分为左上、左下、右下和右上四个区域。首先验证左上区域：先在从字符二值化图的上半部分的中心点P_Top开始以水平直线向左边缘扫描，扫描线记录为L1，扫描到第一个黑色像素则停止，并记录为P1。如果扫描到了左边缘仍然没有黑色像素，则直接认为左上角区域是开口的并验证下一区域。如果找到P1，则开始从字符二值化图的左边缘的中点开始向右水平扫描，扫描线记录为L2，直到遇到第一个黑色像素停止，记录为P2。如果P2的横坐标比P1的横坐标小，则从左边缘中点的上一个像素(即纵坐标小一个像素)开始水平扫描，直到找到的第一个P2的横坐标比P1的横坐标大。如果扫描的起始点的纵坐标为0仍没有找到P2，则认为该区域没有不开口；当找到P2时，在扫描线L1上从P1开始向L2做垂直方向扫描，直到碰到L2为止，扫描线记录为L3。如果L3上存在黑色像素，则从L2上的P1的右移一个像素作为L3的起点重新开始向下垂直扫描。如果直到起点为P_Top时仍然不能找到一条L3，使得其上面的像素全部为白色，则认为该区域不开口；否则认为是开口的；同理对左下角、右下角、右上角进行判断；

2、开口编码：从上到下、从左到右对开口检测结果进行编码，区域开口标记为1，反之标记为0，对四处开口检测结构编码为四位，数字0、3、5、6、8、9的开口编码如下：

0：0000 3：1100 5：0101

6：0001 8：0000 9：0101

如果某个字符被识别成了上述对应的数字，但是开口检测的结果却不符合上述开口编码，则判定为不可识别；

3、宽度检测：对于被识别成1的字符，如果其宽度超过12个像素则判定为不可识别；对于识别成4的字符，如果字符的宽度超过16个像素，则判定为不可识别；对于识别成2的字符，对其二值化图的每一行像素进行扫描，如果最下边缘的3行像素，每一行中的黑色像素少于8/10，或者字符二值化图中间的三行像素中，每一行中黑色像素的数量多余1/3，则判定为不可识别；对于识别成7的字符，如果嘴上边缘的三行像素中，每一行中的黑色像素少于8/10，或者字符二值化图的下半部分每一行的像素中黑色像素的数量多余1/3，则判定为不可识别。

基于同一发明构思，本发明实施例中还提供了一种应用于票据影像字符识别的数字图像处理方法，如下面的实施例所述。由于该方法解决问题的原理与应用于票据影像字符识别的数字图像处理***相似，因此该方法的实施可以参见应用于票据影像字符识别的数字图像处理***的实施，重复之处不再赘述。

本发明实施例中应用于票据影像字符识别的数字图像处理方法可以包括：

检测票据影像参数；

检测票据影像中票面的倾斜程度；

对字符区域进行定位；

检测字符区域中的字符参数和***像素；

将字符区域中的字符与模板进行匹配度检测；

检测字符区域中的字符的开口特征。

具体实施时，检测票据影像参数，可以包括：

具体实施时，检测票据影像中票面的倾斜程度，可以包括：

具体实施时，进行倾斜矫正，可以包括：

具体实施时，对字符区域进行定位，可以包括：

具体实施时，检测字符区域中的字符参数和***像素，可以包括：

具体实施时，将字符区域中的字符与模板进行匹配度检测，可以包括：

具体实施时，检测字符区域中的字符的开口特征，可以包括：

如前所述，本发明实施例的核心思想是在现有光学字符识别技术的基础上，分别在已有识别流程的每个步骤前或后增加独立的检测步骤，这些附加的检测步骤专门用于检测会妨碍下一识别步骤正确识别的噪声，如果发现噪声因素则判定不可识别，并做落地处理，从而杜绝识别出错的可能性。

图6为本发明实施例中应用于票据影像字符识别的数字图像处理方法的流程示例图。图6中给出了影像参数检测、影像倾斜检测、字符区域检测、ROI可识别检测、字符匹配度检测以及开口特征检测步骤，以及他们与现有识别流程之间的组合。图6中的每一个步骤在图2中都有对应的模块，即上述每一个检测步骤都可以由新***中的一个对应的独立模块来实现其功能。识别流程的每一步骤的输出都会接受专门的检测，同样地，每个检测流程的结果都会作为判断条件，以控制是否可以进行识别流程的下一步骤，整个方法的具体流程步骤例如可以包括：

步骤1：生成票据影像，该步骤负责生成需要处理的票据的数字影像副本，因此需要采用光学成像设备，如平板扫描仪等获取票据的数字影像，票据本身需人工目测检查，票面部分必须清晰没有被人为涂改、生成的影像必须也是清晰可辨认。生成影像后执行步骤2。

步骤2：检测票据影像参数，该步骤1生成的票据影像为输入，负责检查票据影像的具体参数，包括：影像的分辨率是否为200dpi；影像的大小是否为1500±100×600±50；除支票票面以外的影像边缘背景部分是否为纯黑色，即RGB值为(0,0,0)。如果生成的票据影像不符合要求，则判定为不可识别，并重新生成影像或者落地处理，如果通过检测，则进行步骤3。

步骤3：影像预处理，该步骤以步骤1生成的票据影像为输入，负责对生成的票据的影像进行色彩、光照以及倾斜校正，以消除不同成像设备、成像环境以及人工操作不确定性等因素对影像造成的影像，预处理完毕后执行步骤4。

步骤4：检测影像倾斜，该步骤以步骤3输出的经过预处理的影像作为输入，负责检查影像中票面部分的倾斜程度，(该检测步骤与步骤3相互独立而功能上冗余，并以此得到更高的可靠性)，即检测票面边缘直线与影像边缘直线之间的相交角度(小于90度的角)，角度的大小如果为超过±15度，则判定该票据影像不可识别，如果在±15度之内，则利用双线性插值旋转法进行校正，校正后再次检查倾斜角度，如果仍然有超过±1度的倾斜，则判定影像不可识别并落地处理，如果通过检测，则进行步骤5。

步骤5：提取字符特征，该步骤以步骤3输出的预处理后的影像为输入，负责提取待识别的字符的量化特征，该步骤中首先定位字符区域在票据影像中相对位置，然后逐个定位字符区域内的每一个字符在字符区域内的相对位置，并量化提取每个字符的特征，提取完毕后执行步骤6。

步骤6：检测字符区域，该步骤以步骤4输出的经过倾斜检测和校正后的影像为输入，负责检测待识别字符区域是否符合进一步识别的条件，该步骤首先检测票面的右上角在票据影像中的位置，即票面上边缘到影像上边缘和票面右边缘到影像右边缘的距离，并基于待识别票据编号区域(即字符区域)在票面上的位置相对固定的特点，给出字符区域在影像中的初始位置。之后利用最大方差法得到字符区域的二部图，检测生成的二部图的四周边缘是否存在黑色像素，例如字符区域的二部图的上边缘存在黑色像素，则将上边缘所在的一整行像素从字符区域中划除，使二部图的上边缘纵向上向下平移一个像素，重复此步骤直到新的上边缘不存在黑色像素为止。同样地如果字符区域的二部图的左边缘上存在黑色像素，则将左边缘向右平一个像素，重复此步骤直到新的左边缘上没有黑色像素为止。同样地，下边缘和右边缘也按照类似的方式调整，经过逐步调整区域四周边缘，字符区域将逐步缩小，并最终获得字符区域的精确位置和大小。如果动态调整字符区域的某一条边缘的范围超出了10个像素，则判定为不可识别，并做落地处理，否则继续执行步骤7。

步骤7：检测字符区域中的字符是否可识别，该步骤以步骤6输出的字符区域二部图为输入，负责检测字符区域是否可以分割出能够识别的单个字符的二部图。首先从票据影像中将字符区域对应的部分拷贝出副本，并将该副本的色彩空间由RGB转换成HSV，再扫描是否存在色相在[0,01]和[0.9,1](纯红)或者[0.55,0.65](纯蓝)之间、饱和度在[0.3,1]之间、亮度在[0.6,1]之间的像素，即是否被***覆盖；另一方面对字符区域的二部图进行横向和纵向扫描，检测字符区域中字符的大小和个数、以及字符间隔的个数和宽度，纵向扫描时，从字符区域二部图中横向坐标固定、从上边缘垂直到下边缘的一列像素的灰度值进行扫描，其中连续的、不存在黑色像素的部分认为时字符间的间隔，连续的、存在黑色像素的部分认为时字符。在检测的结果中，间隔数量必须是10个，字符数量是8个，字符的宽度(以像素为单位)在[8,20]之间，间隔宽度在[4,12]之间，而字符高度必须在[25,32]之间。如果达不到上述标准，则判定为不可识别做落地处理，否则继续执行步骤8。

步骤8：匹配字符特征，该步骤以步骤5提取的字符特征作为输入，负责查找并识别出字符所对应的数字。执行完毕后继续执行步骤9。

步骤9：检测匹配度和开口特征，该步骤以步骤7中分割出的每个字符的二部图和步骤8的识别结果为输入，负责检测识别结果的正确性。首先将待识别字符与0至9的字符模板进行匹配，将字符二部图所有像素与每个字符模板上对应像素之间的灰度值进行二进制异或运算，统计异或结果为0的数量并除以字符二部图总像素的数量归一化，这个数值及定义为该字符与该模板对应的数字的匹配度，统计得到匹配度最高的数字，就是该字符的真实数值。如果最高匹配度小于0.95，或者匹配的结果与步骤8的识别结果不一致，则判定不可识别做落地处理，否则继续执行步骤10做进一步检测。

步骤10：检测开口特征，与步骤9功能一样，该步骤以步骤7中分割出的每个字符的二部图和步骤8的识别结果为输入，负责验证识别结果的正确性。首先判断识别结果，然后验证该字符对应的二部图的开头特征是否与识别结果相吻合，则以字符二部图的上中心点(字符的二部图的上班部分的中心点)起点，向二部图的左边缘水平划线L1，直到遇到黑色像素或者左边缘为止，如果划出的线段上没有黑色像素，则认为该字符在左上部(字符二部图的上半部分的左半边)是开口的。否则，以字符二部图的左边缘的中点为起点，向右边缘划水平线L2，直到遇到黑色像素(记为p2)为止，如果p2在p1左边，则以L2起点的上一个像素作为新起点开始重复划线L2。得到L1和L2后，以p1为起点，向L2划垂线，然后以L1上p1右边一个像素作为新起点开始重复向L2划垂线L3，直到垂线L3与L2的交点为p2为止，如果够找到一条没有黑色像素的垂线L3，则认为该字符左上部是开口的，否则认为是闭合的；同样地，可以对字符二部图的左下部、右下部、右上部的开口特性进行检测。

定义开口为1，闭合为0，按照字符左上、左下、右下、右上的开口特征将0、3、5、6、8、9的开头特征转换成以下4位编码：

0：0000 3：1100 5：0101

6：0001 8：0000 9：0101

如果步骤8的识别结果为上述字符中的一个，但开口检测结果与上述编码不一致，则判定为不可识别做落地处理。

当识别结果时1、2、4、7时，需要进行字符宽度检测。当识别结果为1时，如果字符宽度超过14个像素之间，则判定为不可识别；当识别结果为2时，如果字符二部图最下面三行像素中，每一行像素中黑色像素占比低于80％，或者字符二部图中间的三行像素中，每一行中黑色像素占比高于30％，则判定为不可识别；当识别结果是4时，如果字符的宽度超过16个像素，则判定为不可识别；当识别结果为7时，如果最上边缘的三行像素中，每一行中的黑色像素占比少于80％，或者字符二部图下半部分每一行的像素中黑色像素占比多余30％，则判定为不可识别；

该步骤完成后，整个识别流程完成，开始下一张票据影像的识别。

相对于现有技术，本发明实施例的应用于票据影像字符识别的数字图像处理***和方法主要在以下两点上做出了改进：

1、策略不同：现有的识别技术所采用的策略多是：“尽量消除影像中影响识别的噪声并确保识别正确”，但是“影响识别的噪声”种类繁多，出于效率、成本和可行性的考虑，很难也不可能将各种噪声都检测出来，此外有些噪声虽然可以被检测出来，但是也很难被完全排除掉。本发明实施例中则采用不同的策略：“尽量检测出影响识别的因素并过滤掉不易识别的影像”，即并不会去努力尝试消除某些难以处理的噪声，而是试图检测这些噪声的存在，并将存在噪声的影像排除出识别流程。这样自然就有效地避免了由于那些难以处理的噪声导致的识别错误的情况。当存在噪声的影像数量较少的时候，(例如同城票交中，本发明实施例过滤出来的影像数量不会超过总数的30％)，可以在保证大部分影像被识别的前提下使得识别正确率明显提高(注：这里的识别正确率定义为：识别结果正确的影像数量与识别程序判定为识别成功的影像数量中的比值；可识别率定义为：识别程序判定为识别成功的影像的数量与所有待识别的影像的数量的比值)；

2、专门针对支票设计：现有技术出于成本和通用性的考虑，不会专门针对某一个特定的识别场景去开发，本发明实施例专门针对支票编号的识别进行设计，针对支票票面结构、使用流通过程、影像生成等多个环节进行分析，并对所有可能出现的影响识别的噪声加以定量考虑，并给出识别检测方法。换句话说，本发明实施例给出了一个支票编号的参数化模型，该模型对诸如支票影像的扫描生成差异、支票票面结构、***覆盖、字符覆盖、支票编号字体等特征用一系列参数进行定量描述，识别流程中的每一个相应步骤都对这些参数加以检测，如果检测结果达不到给定的指标，则判定为不可识别，因此当影像走完整个识别流程得到的识别结果，其正确率比现有***有明显提高；

下面举一例验证实验结果：下面的表格记录了基于本发明实施例的一次验证性实验结果，实验数据为某行同城票交2009年10月到11月间共30天的票据影像，共计近6万张票据影像，平均每天的票据影像为2000张，图像分辨率200dpi。用于验证识别结果正确性验证的数据为该分行会计业务处理中心同城票据处理手工录入记录。整个识别程序有C语言编写，开发平台为VC6.0+OPENCV，测试数据存储数据库为ORCALE10G。

下表中检测出不同张数这一列的数据表述的是数据库字段的支票编号与识别程序得出识别结果出不一样的张数，经过人工验证识别程序得到的结果是正确的，造成不一样的原因是由于票据影像名与数据库对应记录的名称字段不匹配造成的，为录入的错误。由统计结果可见平均可识别率超过七成达到72％左右，识别正确率为100％。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种应用于票据影像字符识别的数字图像处理***，其特征在于，包括：

影像参数检测模块，用于检测票据影像参数；

影像倾斜检测模块，用于检测票据影像中票面的倾斜程度；

字符区域检测模块，用于对字符区域进行定位；

2.如权利要求1所述的***，其特征在于，所述影像参数检测模块具体用于：

3.如权利要求1所述的***，其特征在于，所述影像倾斜检测模块具体用于：

4.如权利要求3所述的***，其特征在于，所述影像倾斜检测模块具体用于：

5.如权利要求1所述的***，其特征在于，所述字符区域检测模块具体用于：

6.如权利要求5所述的***，其特征在于，所述字符区域检测模块具体用于：

7.如权利要求1所述的***，其特征在于，所述字符区域可识别检测模块具体用于：

8.如权利要求7所述的***，其特征在于，所述字符匹配度检测模块具体用于：

9.如权利要求8所述的***，其特征在于，所述开口特征检测模块具体用于：

10.一种应用于票据影像字符识别的数字图像处理方法，其特征在于，包括：

检测票据影像参数；

检测票据影像中票面的倾斜程度；

对字符区域进行定位；

检测字符区域中的字符参数和***像素；

将字符区域中的字符与模板进行匹配度检测；

检测字符区域中的字符的开口特征。

11.如权利要求10所述的方法，其特征在于，所述检测票据影像参数，包括：

12.如权利要求10所述的方法，其特征在于，所述检测票据影像中票面的倾斜程度，包括：

13.如权利要求12所述的方法，其特征在于，所述进行倾斜矫正，包括：

14.如权利要求10所述的方法，其特征在于，所述对字符区域进行定位，包括：

15.如权利要求14所述的方法，其特征在于，所述对字符区域进行定位，包括：

16.如权利要求10所述的方法，其特征在于，所述检测字符区域中的字符参数和***像素，包括：

17.如权利要求16所述的方法，其特征在于，所述将字符区域中的字符与模板进行匹配度检测，包括：

18.如权利要求17所述的方法，其特征在于，所述检测字符区域中的字符的开口特征，包括：